CN114661704B - 数据资源全生命周期管理方法、系统、终端及介质 - Google Patents

数据资源全生命周期管理方法、系统、终端及介质 Download PDF

Info

Publication number
CN114661704B
CN114661704B CN202210286856.4A CN202210286856A CN114661704B CN 114661704 B CN114661704 B CN 114661704B CN 202210286856 A CN202210286856 A CN 202210286856A CN 114661704 B CN114661704 B CN 114661704B
Authority
CN
China
Prior art keywords
data
acquiring
standard
target data
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210286856.4A
Other languages
English (en)
Other versions
CN114661704A (zh
Inventor
陈细平
兰蔚青
林玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Half Cloud Technology Co ltd
Original Assignee
Hangzhou Half Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Half Cloud Technology Co ltd filed Critical Hangzhou Half Cloud Technology Co ltd
Priority to CN202210286856.4A priority Critical patent/CN114661704B/zh
Publication of CN114661704A publication Critical patent/CN114661704A/zh
Application granted granted Critical
Publication of CN114661704B publication Critical patent/CN114661704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种数据资源全生命周期管理方法、系统、终端及介质,该方法包括采集目标数据;获取预先创建的质检规则;依据质检规则对目标数据进行质量检测,生成检测报告,检测报告中包含数据质量问题;获取针对目标数据的工作流信息;依据工作流信息分配目标数据的处理节点;调取对应目标数据的元数据;获取预先创建的数据标准;判断目标数据及其元数据是否通过质量检测且符合数据标准;若是,则将目标数据以数据服务的形式封装,并生成API;若否,则依据判断结果分配至对应处理节点。本申请具有方便管理数据,降低数据的出错率的效果。

Description

数据资源全生命周期管理方法、系统、终端及介质
技术领域
本申请涉及数据管理的领域,尤其是涉及一种数据资源全生命周期管理方法、系统、终端及介质。
背景技术
DCMM,即数据管理能力成熟度评估模型,是我国在数据管理领域首个正式发布的国家标准,旨在帮助企业利用先进的数据管理理念和方法,建立和评价自身数据管理能力,持续完善数据管理组织、程序和制度,充分发挥数据在促进企业向信息化、数字化、智能化发展方面的价值。
针对上述中的相关技术,发明人认为企业数据会随着人员、生产规模的扩大而增加,而数据的不断增长,使得数据管理平台需要进行管理的数据,即元数据也在不断递增,导致数据关系变得更加错综复杂,脉络关系难以理清,出错率变高。
发明内容
第一方面,为了方便管理数据,降低数据的出错率,本申请提供一种数据资源全生命周期管理方法。
本申请提供的一种数据资源全生命周期管理方法,采用如下的技术方案:
一种数据资源全生命周期管理方法,包括:
采集目标数据;
获取预先创建的质检规则;
依据质检规则对目标数据进行质量检测,生成检测报告,检测报告中包含数据质量问题;
获取针对目标数据的工作流信息;
依据工作流信息分配目标数据的处理节点,处理节点用于处理数据质量问题;
调取对应目标数据的元数据;
获取预先创建的数据标准;
判断目标数据及其元数据是否通过质量检测且符合数据标准;
若是,则将目标数据以数据服务的形式封装,并生成API;
若否,则依据判断结果分配至对应处理节点。
通过采用上述技术方案,导入目标数据时通过预先设定的质检规则先对目标数据进行质量检测,查找出目标数据中存在的数据质量问题,再分配目标数据的工作流,推送检测报告至所需的处理节点,方便工作人员进行数据治理,解决数据质量问题;之后根据预先创建好的数据标准对目标数据与元数据进行检查,判断是否可通过质量检测且符合数据标准,以此减少数据、元数据中存在的错误,同时检查数据与元数据的匹配关系是否正确等,若通过质量检测且符合数据标准,则对目标数据及元数据进行存储、封装,并生成API以方便发布和访问,而未通过或不符合的则需要返回处理节点进行修整,从而方便管理数据,降低出错率。
优选的,所述获取预先创建的数据标准的步骤中,还包括:
获取预选标准;
判断预选标准为现有标准或自定义标准,现有标准包括国标、行标及企标,自定义标准由人工设定并导入;
若为自定义标准,则执行发布审批操作;
若为现有标准,则依据现有标准生成数据标准;
所述发布审批操作包括:
获取发布指令,并基于发布指令发布自定义标准;
获取对应自定义标准的审批结果;
若审批通过,则依据自定义标准生成数据标准。
通过采用上述技术方案,部分类型的数据可能存在相应的国标、行标及企标,通过直接导入此类标准,方便检测数据是否符合这些标准,一方面方便用户了解需要调整的指标和维度,另一方面可检查数据中存在的问题,提升数据的可靠性;而有些数据没有现有的标准可参考,需要用户自行设定,因此通过自定义标准的发布和审批,提升数据标准的灵活性,同时通过审批的形式减少自定义标准的错误率。
优选的,所述依据质检规则对目标数据进行质量检测的步骤中,所述质量检测方式包括空值检测及重复值检测;
所述空值检测用于检测任意字段下的数据的空值的个数是否超过所设定的个数,若是则发出提示;
所述重复值检测用于检测任意字段下的数据的重复值的个数是否超过所设定的个数,若是则发出提示。
通过采用上述技术方案,通过空值检测与重复值检测方式检查数据中存在的基础问题,即字段中的空值和重复值,以此减少工作人员手动筛查的工作量,方便工作人员有针对性地进行数据修复。
优选的,所述依据工作流信息分配目标数据的处理节点的步骤中,还包括:
获取检测报告中的数据质量问题;
获取针对数据质量问题的优先级定义;
依据数据质量问题的优先级定义分配数据质量问题的处理节点、处理周期。
通过采用上述技术方案,通过对数据质量问题的优先级定义,分出轻重缓急,针对不同的数据质量问题匹配不同的处理人、处理周期等,以此实现有限资源的优化配置,提升问题处理效率。
优选的,所述获取针对目标数据的工作流信息的步骤中,还包括:
获取并显示多个对应不同节点类型的节点类型控件,节点类型包括SQL处理、数据同步及数据推送;
获取用于触发对应节点类型控件的节点选择指令;
当触发任一节点类型控件时,生成对应的节点控件;
获取用于拖动节点控件的拖动指令;
依据拖动指令调节处理节点的操作顺序;
依据操作顺序,生成工作流信息。
通过采用上述技术方案,通过选择不同类型的节点类型控件,可分配各个处理节点的基本操作方式,比如SQL处理、数据同步等,之后通过拖动各个节点控件形成具有排列顺序的工作流,以此方便用户快速设计数据的处理节点,提升管理效率。
优选的,所述依据操作顺序,生成工作流信息的步骤后,还包括:
获取对应节点类型为SQL处理的节点控件的编辑指令;
基于编辑指令,显示用于供SQL代码输入的编辑区域;
于编辑区域所在界面显示调用控件,且当获取到对应调用控件的调用指令时,显示多个函数字符串;
当获取到对应任一函数字符串的选择指令时,将该函数字符串录入编辑区域;
获取对应编辑区域的确认指令;
基于确认指令,确定该节点控件所对应的处理节点的操作命令。
通过采用上述技术方案,用户通过在编辑区域输入SQL代码,可设定该处理节点的处理方式,例如清空表内容等处理方式,且用户可通过调用控件选取已经预设好的函数字符串,以此减少编辑工作量,提升管理效率。
优选的,在所述判断目标数据及其元数据是否通过质量检测且符合数据标准的步骤中,若目标数据及其元数据通过质量检测且符合数据标准,则还包括:
获取目标数据及其元数据的指标数量及维度数量;
获取并显示多个可视化组件,每个可视化控件对应唯一的指标数量及维度数量;
依据目标数据及其元数据的指标数量及维度数量匹配所适用的可视化组件;
依据目标数据及其元数据调整可视化组件的显示内容。
通过采用上述技术方案,通过数据与元数据的指标数量及维度数量可自动匹配适合的可视化组件,可视化组件可采用图表等形式表示,例如折线图、饼图、Excel表等,在匹配完成后数据可直接导入图表中进行显示,方便用户直观得查看数据的分布规律等。
第二方面,为了方便管理数据,降低数据的出错率,本申请提供一种数据资源全生命周期管理系统,采用如下的技术方案:
一种数据资源全生命周期管理系统,包括:
数据采集模块,用于采集目标数据;
质检模块,用于获取预先创建的质检规则,并依据质检规则对目标数据进行质量检测,生成检测报告,检测报告中包含数据质量问题;
节点分配模块,用于获取针对目标数据的工作流信息,并依据工作流信息分配目标数据的处理节点,处理节点用于处理数据质量问题;
元数据调取模块,用于调取对应目标数据的元数据;及
检查模块,用于获取预先创建的数据标准,并判断目标数据及其元数据是否通过质量检测且符合数据标准;
若是,则将目标数据以数据服务的形式封装,并生成API;
若否,则依据判断结果分配至对应处理节点。
通过采用上述技术方案,通过质检模块内预先设定的质检规则先对目标数据进行质量检测,查找出目标数据中存在的数据质量问题,再通过节点分配模块分配目标数据的工作流,推送检测报告至所需的处理节点,方便工作人员进行数据治理,解决数据质量问题;之后检查模块根据预先创建好的数据标准对目标数据与元数据进行检查,判断是否可通过质量检测且符合数据标准,以此减少数据、元数据中存在的错误,同时检查数据与元数据的匹配关系是否正确等,若通过质量检测且符合数据标准,则对目标数据及元数据进行存储、封装,并生成API以方便发布和访问,而未通过或不符合的则需要返回处理节点进行修整,从而方便管理数据,降低出错率。
第三方面,为了方便管理数据,降低数据的出错率。本申请提供一种智能终端,采用如下的技术方案:
一种智能终端,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行上述数据资源全生命周期管理方法的计算机程序。
通过采用上述技术方案,处理器读取存储器内存储的计算机程序,对数据进行质检,方便用户处理掉数据质量问题,提升数据的准确率,之后再创建数据标准,对数据及其元数据进行匹配检查,从而方便管理数据、元数据及两者之间的脉络关系,降低数据的出错率。
第四方面,为了方便管理数据,降低数据的出错率。本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,存储有能够被处理器加载并执行上述任一种数据资源全生命周期管理方法的计算机程序。
通过采用上述技术方案,存储介质内存储有相应的计算机程序,当处理器等读取程序时,可对数据进行质检,方便用户处理掉数据质量问题,提升数据的准确率,之后再创建数据标准,对数据及其元数据进行匹配检查,从而方便管理数据、元数据及两者之间的脉络关系,降低数据的出错率。
综上所述,本申请包括以下至少一种有益技术效果:
1.先对目标数据进行质量检测,查找数据质量问题,再分配目标数据的工作流,方便工作人员进行数据治理;之后根据预先创建好的数据标准对目标数据与元数据进行检查,以此减少数据、元数据中存在的错误,同时检查数据与元数据的匹配关系是否正确等,从而方便管理数据,降低出错率;
2.通过直接导入国标、行标及企标等现有标准,方便检测数据是否符合这些标准;有些数据没有现有的标准可参考,需要用户自行设定,并通过发布和审批程序进行核准后再使用,以此提升数据标准的灵活性,同时通过审批的形式减少自定义标准的错误率;
3.通过空值检测与重复值检测方式检查数据中存在的基础问题,即字段中的空值和重复值,以此减少工作人员手动筛查的工作量,方便工作人员有针对性地进行数据修复。
附图说明
图1是本申请实施例的数据资源全生命周期管理方法的方法流程图。
图2是本申请实施例的数据资源全生命周期管理方法的节点分配的图形用户界面,主要展示节点控件。
图3是本申请实施例的数据资源全生命周期管理方法的部分方法流程图,主要展示数据标准的创建。
图4是本申请实施例的数据资源全生命周期管理方法的数据标准的发布审批的设置窗口。
图5是本申请实施例的数据资源全生命周期管理方法的数据标准比对映射的图形用户界面。
图6是本申请实施例的数据资源全生命周期管理方法的模拟展示界面及选择界面。
图7是本申请实施例的数据资源全生命周期管理系统的系统模块图。
具体实施方式
以下结合全部附图对本申请作进一步详细说明。
本申请实施例公开一种数据资源全生命周期管理方法。参照图1,数据资源全生命周期管理方法,包括如下步骤:
S100:采集目标数据。
具体的,数据源采集可通过ETL过程方法,若需要实时采集数据,则可使用Flume和KafKa等技术手段,凭借此类成熟技术,可向系统提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。数据源的采集支持mysql、oracle、sqlserver、clickhouse等数据库。
S200:对目标数据进行质检,具体包括步骤S210-S230:
S210:获取预先创建的质检规则;
S220:依据质检规则对目标数据进行质量检测;
S230:依据质检检测的结果生成检测报告。
具体的,质检规则按照数据出现的典型错误进行设定,例如字段内容易出现空值、重复值、规范错误、逻辑错误等,质量检测方式包括空值检测、重复值检测、规范检查、逻辑检查、记录缺失检查及引用完整性检查等。
以空值检测、重复值检测为例,空值检测用于检测任意字段下的数据的空值的个数是否超过所设定的个数,若是则发出提示;重复值检测用于检测任意字段下的数据的重复值的个数是否超过所设定的个数,设定的个数一般都取0,若是则发出提示,此处的提示可以是消息推送等方式,再将空值的个数、重复值的个数等转化为多项数据质量问题,并将其汇总统计入检测报告内。
规范检查一般检查字母和数字等字符的布局是否规范,例如身份证号的个数是否超量或不足,手机号内不能出现字母等。
逻辑检查一般检查字符的变化情况等,例如货品价格的异常波动若超过20%则为异常情况,需要进行提示。
引用完整性检查一般检查不同数据之间的引用情况,例如员工报销单的项目编号须在个人工作周报中。
S300:针对检测报告,对数据质量问题进行整理,具体包括步骤S310-S320:
S310:获取检测报告中的数据质量问题。
具体的,数据质量问题由上述空值检测、重复值检测等质量检测方式检查得到,包括某一字段存在空值、重复值、逻辑错误等问题。
S320:获取针对数据质量问题的优先级定义。
具体的,数据质量问题按照对数据的影响程度、所对应的数据重要程度等可以进行优先级的定义,一般对数据的影响程度越大、数据越重要则时效性越高,需要及时处理或派能力较高的工作人员处理,以此筛分数据质量问题的轻重缓急,实现有限资源的优化配置。
当某组数据出现多种数据质量问题时,数据的影响程度可通过权重计算的方式进行数值化,例如空值检测与重复值检测的权重为3,引用完整性检查的权重为5,通过错误个数、权重等参数进行叠加得到评估分,以此对问题复合型的数据进行优先级的排列。
S400:获取针对目标数据的工作流信息,其获取方式具体包括步骤S410-S430;
S410:获取并显示多个对应不同节点类型的节点类型控件。
具体的,参照图2,节点类型包括SQL处理、数据同步、数据推送、接口推送;数据同步可实现多源异构数据的同步,数据推送可将数据推送至kafka消息队列,方便数据的中转,接口推送用于实现数据推送到接口。
S420:获取用于触发对应节点类型控件的节点选择指令,当触发任一节点类型控件时,生成对应的节点控件。
具体的,当用户通过鼠标点击节点类型控件的方式输入节点选择指令时,例如点击SQL处理的节点类型控件时,会在该节点类型控件上悬浮生成一个可拖动的节点控件,而再次点击节点类型控件时可再次生成一个节点控件,以此实现同一类型多个节点的选择。
S430:获取用于拖动节点控件的拖动指令;
依据拖动指令调节处理节点的操作顺序;
具体的,在用户选中节点类型控件时,生成的节点控件可随鼠标移动,将节点控件拖入用于排布节点控件的白板区,当释放节点控件时,节点控件会留在白板区。而拖拽多个节点控件后,白板区出现多个节点控件对应的图标,再指定图标之间的顺序,例如通过带箭头的线条连接相邻两个节点控件,以指定这两个节点控件的前后顺序,以此类推,生成所有节点控件的操作顺序,生成处理节点的操作顺序。
S440:依据操作顺序,生成工作流信息。
工作流信息即记录有数据的治理步骤的先后顺序的信息,当确定好所有节点控件的操作顺序之后,还需要对节点控件的具体操作方法进行设定,具体包括步骤S441-S442;
S441:获取对应节点类型为SQL处理的节点控件的编辑指令;
基于编辑指令,显示用于供SQL代码输入的编辑区域。
具体的,用户可通过鼠标点击节点控件的方式进入编辑界面,在编辑界面会显示编辑区域以及适用的其他控件,其他控件的配置可参考代码书写界面,此处不做赘述。用户可在编辑区域内书写SQL代码,书写完毕并确认后系统在该节点控件对应的处理节点会对数据执行对应的操作,例如清空表内容、清除字段内空值等操作,具体操作的指定可根据检测报告内的数据质量问题进行设计,以此可对数据质量问题进行针对性地治理。
除直接书写SQL代码外,还可对常用的函数字符串进行调用,以节省书写时间,提升效率,具体如下:
S442:于编辑区域所在界面显示调用控件,且当获取到对应调用控件的调用指令时,显示多个函数字符串;
当获取到对应任一函数字符串的选择指令时,将该函数字符串录入编辑区域。
具体的,例如,当用户在编辑界面选中调用控件后,会弹出一个窗口,窗口内显示多行函数字符串,当用户需要执行清空字段内空值的操作时可选中某一行函数字符串进行调用,该函数字符串会自动复制粘贴至编辑区域内,以此降低对工作人员的专业要求,减少书写的工作量,同时相比纯手打输入也可降低书写代码的错误率。
S443:获取对应编辑区域的确认指令;
基于确认指令,确定该节点控件所对应的处理节点的操作命令。
具体的,在确定编辑区域的代码内容后可点击确定按钮,关闭编辑界面,返回至白板区所在的界面,以此方便对其他节点控件进行编辑。
S500:依据工作流信息分配目标数据的处理节点。
具体的,系统会按照用户设定的工作流,即节点控件的排布顺序以及节点控件设置好的操作命令对目标数据进行处理,消除掉检测报告中记载数据质量问题。在消除工作完成时,系统可出具治理报告,显示所治理的数据质量问题、治理结果等信息。
在S320的步骤中已对数据质量问题的优先级进行了定义,因此在步骤S440生成的工作流信息中,可依据数据质量问题的优先级定义分配数据质量问题的处理节点、处理周期。此处的处理节点既包括人工的处理节点,即分配给平台上其他的工程师所用账户,也包括系统自动执行SQL代码的自动处理节点,处理周期是针对人工节点设定的,同时处理周期的指定可按照质检的评估分进行计算,一般评估分越高则限定的处理周期越短,以此保障时效性。
S600:参照图3,创建用于核准目标数据的数据标准,具体包括步骤S610-S630。
具体的,若数据在质量检测过程中未出现任何数据质量问题则可跳过S400步骤,直接执行步骤S600进行标准比对。
S610:调取对应目标数据的元数据。
具体的,元数据与目标数据在步骤S100中统一导入,元数据用于定义、描述目标数据,例如“卡号:123354XXX256”中,“卡号”为元数据,“123354XXX256”为目标数据。
S620:获取预先创建的数据标准,具体见步骤S621-S623。
S621:获取预选标准;
具体的,预选标准为数据标准的来源,主要有两种,一种是现有标准,例如国标、行标及企标等,另一种是自定义标准,自定义标准由人工设定并导入,一般需要进行审批核准才可使用。
S622:判断预选标准为现有标准或自定义标准;
若为自定义标准,则执行发布审批操作;
若为现有标准,则依据现有标准生成数据标准;
具体的,现有标准一般需要调整元数据与现有标准的映射关系,实现两者的一一对应,同时需要进行规范格式等操作,形成可直接使用的比对模板。现有标准也可进行发布审批操作,具体视用户需求进行配置。
S623:参照图4,执行发布审批操作:
获取发布指令,并基于发布指令在系统平台上发布自定义标准;
获取对应自定义标准的审批结果;
若审批通过,则依据自定义标准生成数据标准。
具体的,通过发布自定义标准,将自定义标准的内容推送至其他账户,可方便其他账户,一般是管理层账户等查看自定义标准,并对自定义标准进行审批,审批通过时,自定义标准可转化为数据标准,而若审批不通过,则自定义标准会被打回,需要用户重新修改重走一遍发布审批操作,在此过程中审批的账户也可对审批不通过的原因等进行备注,方便用户修改自定义标准。
S700:参照图5,判断目标数据及其元数据是否通过质量检测且符合数据标准;
若是,则将目标数据以数据服务的形式封装,并生成API;
若否,则依据判断结果分配至对应处理节点。
具体的,目标数据在经过步骤S200后,系统会对目标数据进行质检打分,一般消除完所有数据质量问题后,分值会达到合格分,一般无数据质量问题则合格,此时表示通过质量检测。
将定版的数据标准与元数据以及数据进行关联。比对时,数据标准的各项信息,例如,标准编号为SFZH,中文名:“身份证号”,长度18位,精度:1,小数位:0等,一一与目标数据的各项进行映射比对,记录匹配一致的内容及不匹配的内容,当不匹配的内容数量或者评分低于设定条件,则表示目标数据及其元数据不符合数据标准。
若目标数据及其元数据未通过质量检测,则根据质量检测的结果,即检测报告、治理报告等将目标数据退回至相应的节点,例如分配工作流的节点。若目标数据及其元数据不符合数据标准,则可对不符合数据标准的部分进行单独整理和出具报告。若经查验后数据不符合数据标准的原因并非数据错误的原因,则可对数据进行封装,并生成API。
目标数据以数据服务的形式存储和封装,存储可采用关系型数据Mysql、非关系型数据库Hbase、分布式文件存储和全文检索等技术,而数据服务主要由HTTP、FTP等技术实现,此处不做赘述。目标数据与元数据封装后再生成API,可将现有的API快速注册到数据服务平台以统一管理和发布,方便数据的访问和共享。
S800:参照图6,依据目标数据与元数据的指标和维度进行可视化组件的确定和布局,具体包括步骤S810-S830;
S810:获取目标数据及其元数据的指标数量及维度数量。
具体的,指标数量与维度数量可分析元数据的格式获得,例如包含多少参数,参数是采用数字还是百分比。
S820:获取并显示多个可视化组件,每个可视化控件对应唯一的指标数量及维度数量。
具体的,可视化组件即图表等可将数据呈多个维度和指标进行表现的形式,可预先创建或导入,包括二维条状图、折线图、饼图、表格,多边形分布图等。每个可视化控件对应唯一的指标数量及维度数量,例如饼图分为多种维度,可采用同心圆的形式表现,每一圈都是一个维度,则其每个维度可对应一个可视化控件。
S830:依据目标数据及其元数据的指标数量及维度数量匹配所适用的可视化组件;
S840:依据目标数据及其元数据调整可视化组件的显示内容。
具体的,当目标数据与元数据有两个维度、五个指标时,系统会查找支持两个维度、五个指标展示的可视化组件,并将每个维度和指标对应的数据导入至可视化组件内,形成图表。若同时存在多个可用的可视化组件,则可显示多个可视化组件对应的选择控件,由用户进行点选选择。
S850:匹配完成后,会在图形界面上显示模拟展示界面和选择界面,在选择界面内显示各个匹配并导入完成的可视化组件,用户可点选拖动选择界面内的可视化组件至模拟展示界面,在模拟展示界面内对多个可视化组件进行排版,以此实现屏幕资源的最大化利用,同时提升展示效果,提升观察体验。
本实施例还提供一种数据资源全生命周期管理系统,参照图7其包括:
数据采集模块,用于采集目标数据;
质检模块,用于获取预先创建的质检规则,并依据质检规则对目标数据进行质量检测,生成检测报告,检测报告中包含数据质量问题;
节点分配模块,用于获取针对目标数据的工作流信息,并依据工作流信息分配目标数据的处理节点;
元数据调取模块,用于调取对应目标数据的元数据;及
检查模块,用于获取预先创建的数据标准,并判断目标数据及其元数据是否通过质量检测且符合数据标准;
若是,则将目标数据以数据服务的形式封装,并生成API;
若否,则依据判断结果分配至对应处理节点。
上述质检模块还包括:
空值检测模块,用于检测任意字段下的数据的空值的个数是否超过所设定的个数,若是则发出提示;及
重复值检测模块,用于重复值检测用于检测任意字段下的数据的重复值的个数是否超过所设定的个数,若是则发出提示。
上述节点分配模块还包括:
节点拖拽模块,用于获取并显示多个对应不同节点类型的节点类型控件,节点类型包括SQL处理、数据同步及数据推送;
获取用于触发对应节点类型控件的节点选择指令;
当触发任一节点类型控件时,生成对应的节点控件;
获取用于拖动节点控件的拖动指令;
工作流生成模块,用于依据拖动指令调节处理节点的操作顺序;
依据操作顺序,生成工作流信息;
节点编辑模块,用于获取对应节点类型为SQL处理的节点控件的编辑指令;
基于编辑指令,显示用于供SQL代码输入的编辑区域;及
函数调用模块,用于于编辑区域所在界面显示调用控件,且当获取到对应调用控件的调用指令时,显示多个函数字符串;
当获取到对应任一函数字符串的选择指令时,将该函数字符串录入编辑区域;
获取对应编辑区域的确认指令;
基于确认指令,确定该节点控件所对应的处理节点的操作命令。
该数据资源全生命周期管理系统还包括:
标准创建模块,用于获取预选标准,并判断预选标准为现有标准或自定义标准,现有标准包括国标、行标及企标,自定义标准由人工设定并导入;
若为自定义标准,则执行发布审批操作;
若为现有标准,则依据现有标准生成数据标准;及
发布审批模块,用于执行发布审批操作,发布审批操作包括:
并获取发布指令,并基于发布指令发布自定义标准;
并获取对应自定义标准的审批结果;
若审批通过,则依据自定义标准生成数据标准。
该数据资源全生命周期管理系统还包括:
问题统计模块,用于获取检测报告中的数据质量问题;
并获取针对数据质量问题的优先级定义;
并依据数据质量问题的优先级定义分配数据质量问题的处理节点、处理周期。
该数据资源全生命周期管理系统还包括:
组件匹配模块,用于获取目标数据及其元数据的指标数量及维度数量;
获取并显示多个可视化组件,每个可视化控件对应唯一的指标数量及维度数量;
依据目标数据及其元数据的指标数量及维度数量匹配所适用的可视化组件;及
图表成型模块,用于依据目标数据及其元数据调整可视化组件的显示内容,生成图表。
本实施例还提供一种智能终端,包括存储器和处理器,处理器可采用CPU或MPU等中央处理部件或以CPU或MPU为核心所构建的主机系统,存储器可采用RAM、ROM、EPROM、EEPROM、FLASH、磁盘、光盘等存储设备。所述存储器上存储有能够被处理器加载并执行上述数据资源全生命周期管理方法的计算机程序。
本实施例还提供一种计算机可读存储介质,可采用U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。该计算机可读存储介质内存储有能够被处理器加载并执行上述数据资源全生命周期管理方法的计算机程序。
本申请实施例一种数据资源全生命周期管理方法的实施原理为:先对导入的目标数据进行质量检测,生成检测报告,列出数据质量问题;之后依据数据质量问题配置工作流,分配不同的节点控件,并设定节点控件执行的SQL代码,对数据质量问题进行针对性的治理。在治理工作完成后,再次进行质量检测,生成治理报告,通过治理报告分析数据是否通过质量检测。
之后,调取元数据,创建数据标准,数据标准可参考国标等现有标准,也可自定义,再将创建好的数据标准发布,数据标准经审批通过后即可定版使用。将数据标准与目标数据、元数据进行关联,进行映射比对,依据映射比对结果出具评估报告,通过评估报告显示目标数据与元数据中与数据标准符合及不符合的部分。
最后依据目标数据与元数据的指标和维度数量匹配可视化组件,并将目标数据与元数据导入至可视化组件内形成完整的图表,根据用户需求对匹配好的可视化组件进行排版,从而方便大屏展示,提升数据的直观性、观赏性。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (6)

1.一种数据资源全生命周期管理方法,其特征在于:包括:
采集目标数据;
获取预先创建的质检规则;
依据质检规则对目标数据进行质量检测,生成检测报告,检测报告中包含数据质量问题;
获取针对目标数据的工作流信息;
依据工作流信息分配目标数据的处理节点,处理节点用于处理数据质量问题;
获取检测报告中的数据质量问题;
获取针对数据质量问题的优先级定义;
获取并显示多个对应不同节点类型的节点类型控件,节点类型包括SQL处理、数据同步及数据推送;
获取用于触发对应节点类型控件的节点选择指令;
当触发任一节点类型控件时,生成对应的节点控件;
获取用于拖动节点控件的拖动指令;
依据拖动指令调节处理节点的操作顺序;
依据操作顺序,生成工作流信息,具体的,依据数据质量问题的优先级定义分配数据质量问题的处理节点、处理周期;
获取对应节点类型为SQL处理的节点控件的编辑指令;
基于编辑指令,显示用于供SQL代码输入的编辑区域;
于编辑区域所在界面显示调用控件,且当获取到对应调用控件的调用指令时,显示多个函数字符串;
当获取到对应任一函数字符串的选择指令时,将该函数字符串录入编辑区域;
获取对应编辑区域的确认指令;
基于确认指令,确定该节点控件所对应的处理节点的操作命令;
调取对应目标数据的元数据;
获取预先创建的数据标准;
判断目标数据及其元数据是否通过质量检测且符合数据标准;
若是,则将目标数据以数据服务的形式封装,并生成API;
若否,则依据判断结果分配至对应处理节点;
在所述判断目标数据及其元数据是否通过质量检测且符合数据标准的步骤后,还包括:
获取目标数据及其元数据的指标数量及维度数量;
获取并显示多个可视化组件,每个可视化控件对应唯一的指标数量及维度数量;
依据目标数据及其元数据的指标数量及维度数量匹配所适用的可视化组件,具体的,当目标数据与元数据有两个维度、五个指标时,获取支持两个维度、五个指标展示的可视化组件,并将每个维度和指标对应的数据导入至可视化组件内,形成图表,若同时存在多个可用的可视化组件,则可显示多个可视化组件对应的选择控件;
依据目标数据及其元数据调整可视化组件的显示内容;
匹配完成后,会在图形界面上显示模拟展示界面和选择界面,在选择界面内显示各个匹配并导入完成的可视化组件。
2.根据权利要求1所述的数据资源全生命周期管理方法,其特征在于:所述获取预先创建的数据标准的步骤中,还包括:
获取预选标准;
判断预选标准为现有标准或自定义标准,现有标准包括国标、行标及企标,自定义标准由人工设定并导入;
若为自定义标准,则执行发布审批操作;
若为现有标准,则依据现有标准生成数据标准;
所述发布审批操作包括:
获取发布指令,并基于发布指令发布自定义标准;
获取对应自定义标准的审批结果;
若审批通过,则依据自定义标准生成数据标准。
3.根据权利要求1所述的数据资源全生命周期管理方法,其特征在于:所述依据质检规则对目标数据进行质量检测的步骤中,质量检测方式包括空值检测及重复值检测;
所述空值检测用于检测任意字段下的数据的空值的个数是否超过所设定的个数,若是则发出提示;
所述重复值检测用于检测任意字段下的数据的重复值的个数是否超过所设定的个数,若是则发出提示。
4.一种数据资源全生命周期管理系统,其特征在于,包括,
数据采集模块,用于采集目标数据;
质检模块,用于获取预先创建的质检规则,并依据质检规则对目标数据进行质量检测,生成检测报告,检测报告中包含数据质量问题;
节点分配模块,用于获取针对目标数据的工作流信息,并依据工作流信息分配目标数据的处理节点,处理节点用于处理数据质量问题;
问题统计模块,用于获取检测报告中的数据质量问题;
并获取针对数据质量问题的优先级定义;
并依据数据质量问题的优先级定义分配数据质量问题的处理节点、处理周期;
节点拖拽模块,用于获取并显示多个对应不同节点类型的节点类型控件,节点类型包括SQL处理、数据同步及数据推送;
获取用于触发对应节点类型控件的节点选择指令;
当触发任一节点类型控件时,生成对应的节点控件;
获取用于拖动节点控件的拖动指令;
工作流生成模块,用于依据拖动指令调节处理节点的操作顺序;
依据操作顺序,生成工作流信息;
节点编辑模块,用于获取对应节点类型为SQL处理的节点控件的编辑指令;
基于编辑指令,显示用于供SQL代码输入的编辑区域;及
函数调用模块,用于于编辑区域所在界面显示调用控件,且当获取到对应调用控件的调用指令时,显示多个函数字符串;
当获取到对应任一函数字符串的选择指令时,将该函数字符串录入编辑区域;
获取对应编辑区域的确认指令;
基于确认指令,确定该节点控件所对应的处理节点的操作命令;
元数据调取模块,用于调取对应目标数据的元数据;及
检查模块,用于获取预先创建的数据标准,并判断目标数据及其元数据是否通过质量检测且符合数据标准;
若是,则将目标数据以数据服务的形式封装,并生成API;
若否,则依据判断结果分配至对应处理节点;
还包括:
组件匹配模块,用于获取目标数据及其元数据的指标数量及维度数量;
获取并显示多个可视化组件,每个可视化控件对应唯一的指标数量及维度数量;
依据目标数据及其元数据的指标数量及维度数量匹配所适用的可视化组件,具体的,当目标数据与元数据有两个维度、五个指标时,获取支持两个维度、五个指标展示的可视化组件,并将每个维度和指标对应的数据导入至可视化组件内,形成图表,若同时存在多个可用的可视化组件,则可显示多个可视化组件对应的选择控件;及
图表成型模块,用于依据目标数据及其元数据调整可视化组件的显示内容;
匹配完成后,会在图形界面上显示模拟展示界面和选择界面,在选择界面内显示各个匹配并导入完成的可视化组件。
5.一种智能终端,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至3中任一项所述的数据资源全生命周期管理方法的计算机程序。
6.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至3中任一项所述的数据资源全生命周期管理方法的计算机程序。
CN202210286856.4A 2022-03-23 2022-03-23 数据资源全生命周期管理方法、系统、终端及介质 Active CN114661704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210286856.4A CN114661704B (zh) 2022-03-23 2022-03-23 数据资源全生命周期管理方法、系统、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210286856.4A CN114661704B (zh) 2022-03-23 2022-03-23 数据资源全生命周期管理方法、系统、终端及介质

Publications (2)

Publication Number Publication Date
CN114661704A CN114661704A (zh) 2022-06-24
CN114661704B true CN114661704B (zh) 2023-03-28

Family

ID=82030933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210286856.4A Active CN114661704B (zh) 2022-03-23 2022-03-23 数据资源全生命周期管理方法、系统、终端及介质

Country Status (1)

Country Link
CN (1) CN114661704B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738414B1 (en) * 2010-12-31 2014-05-27 Ajay R. Nagar Method and system for handling program, project and asset scheduling management

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377279A (zh) * 2019-07-24 2019-10-25 江苏中威科技软件系统有限公司 可视化引导无代码构建工作流程并自动验证方法及系统
CN111026737A (zh) * 2019-11-05 2020-04-17 深圳前海微众银行股份有限公司 一种任务处理方法及装置
CN111242410A (zh) * 2019-12-25 2020-06-05 河北建信工程项目管理有限公司 一种房建质量数据处理方法、装置及存储介质
CN112445798A (zh) * 2020-11-13 2021-03-05 航天精一(广东)信息科技有限公司 基于元数据辅助治理的时空大数据质量检查的方法及系统
CN112527774A (zh) * 2020-12-18 2021-03-19 通号智慧城市研究设计院有限公司 数据中台搭建方法、系统及存储介质
CN113064811B (zh) * 2020-12-25 2024-06-07 浙江鲸腾网络科技有限公司 基于工作流的自动化测试方法、装置以及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738414B1 (en) * 2010-12-31 2014-05-27 Ajay R. Nagar Method and system for handling program, project and asset scheduling management

Also Published As

Publication number Publication date
CN114661704A (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
US20230351287A1 (en) Resource grouping for resource dependency system and graphical user interface
US11816100B2 (en) Dynamically materialized views for sheets based data
US11086894B1 (en) Dynamically updated data sheets using row links
CN104572895B (zh) MPP数据库与Hadoop集群数据互通方法、工具及实现方法
CN104866426A (zh) 软件测试综合控制方法及系统
US10552423B2 (en) Semantic tagging of nodes
CN110442620B (zh) 一种大数据探索和认知方法、装置、设备以及计算机存储介质
CN112199433A (zh) 一种用于城市级数据中台的数据治理系统
CN101776999A (zh) 软件系统开发实施平台
CN102779143A (zh) 知识谱系的可视化方法
JP2013517585A (ja) データベース内の大容量コレクションオブジェクトテーブルにアクセスするための方法
CN113326314B (zh) 数据可视化方法、装置、电子设备及可读存储介质
CN111290813B (zh) 一种软件界面字段数据标准化的方法、装置、设备和介质
CN111563200A (zh) 一种信息显示方法、装置、设备和介质
CN112883042A (zh) 数据更新及展示方法、装置、电子设备及存储介质
US20140156344A1 (en) Auspicate system and method
CN104866598A (zh) 基于可配置模板的异构数据库集成方法
TWI436222B (zh) Real - time multi - dimensional analysis system and method on cloud
KR20160117965A (ko) NoSQL 모델 생성 방법 및 그 장치
CN114661704B (zh) 数据资源全生命周期管理方法、系统、终端及介质
KR20050061557A (ko) 데이터 처리방법 및 데이터 처리 프로그램
JP5033322B2 (ja) 連結関係情報を用いた情報管理方法及び装置
CN111563085A (zh) 一种bim模型的多维度分组与业务数据绑定系统及其方法
Dunlop Beginning Big Data with Power BI and Excel 2013: Big Data Processing and Analysis Using PowerBI in Excel 2013
JP6037577B1 (ja) マッピングのための装置、方法、プログラム、および記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant