CN112069248A - 一种对数据进行治理和核查的可视化配置方法和平台 - Google Patents
一种对数据进行治理和核查的可视化配置方法和平台 Download PDFInfo
- Publication number
- CN112069248A CN112069248A CN202010975989.3A CN202010975989A CN112069248A CN 112069248 A CN112069248 A CN 112069248A CN 202010975989 A CN202010975989 A CN 202010975989A CN 112069248 A CN112069248 A CN 112069248A
- Authority
- CN
- China
- Prior art keywords
- data
- checking
- configuration
- checked
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 61
- 238000013524 data verification Methods 0.000 claims description 22
- 238000007726 management method Methods 0.000 claims description 20
- 238000012423 maintenance Methods 0.000 claims description 19
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000013523 data management Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000005856 abnormality Effects 0.000 claims description 4
- 238000012550 audit Methods 0.000 claims description 4
- 238000012958 reprocessing Methods 0.000 claims description 4
- 238000012552 review Methods 0.000 claims 1
- 238000001914 filtration Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Educational Technology (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种对数据进行治理和核查的可视化配置方法和平台,属于数据处理技术领域。上述方法具体包括数据信息预配置、处理模式设置、核查处理配置、数据调度和数据核查等,在数据核查步骤中,本发明采用多维度的数据性质核查操作,一方面对数据的有效、无效性质进行核查,大大减缩了无效数据对程序运行带来的负担;另一方面,可配置的多维度的数据核查方法,实现了数据的精细化分类、多场景调整,高适应性使用等,将数据资源系统有效地整合运用。
Description
技术领域
本发明涉及数据处理技术领域,具体地说,涉及一种对数据进行治理和核查的可视化配置方法和平台。
背景技术
现有的数据处理平台,是集成了多种类业务系统的平台,在定时核查多种类、不同来源的数据表数据信息时,需要批量处理千万级的不符合数据规则的数据,此时会出现线程响应问题。市场上的数据中台系统无法适用各个应用场景下的真实情况,在解决数据“碎片化”、“条块分割”、“信息孤岛”等问题上工作繁琐,难以形成积极的推动效果。
随着互联网技术的发展,数据处理技术对于不同应用场景下的获取需求日益重要,比如在高校中,现有的数据处理模式基本是不同部门之间分别处理,容易造成信息孤岛,不同部门之间数据处理的联动效果差,而且随着不同部门各自数据量的不断增加,随着人们对数据处理的效率、质量要求越来越高,现有的数据处理平台已经不能满足一般高校的需求,因此,需要提出一种基于不同企业客户需求的数据处理平台,并且该平台能够为企业客户提供不同部门之间的联动效果,从而更高效的进行数据处理。
名称为一种基于数据资源目录构建的数据处理方法及系统的专利,该专利的公开号为CN 111159180 A,公开日为2020年5月15日,其公开了一种基于数据资源目录构建的数据处理方法及系统,所述方法包括:对从各数据资源目录构建中采集到的电力信息化大数据进行分类并按数据类型存储;根据业务需求以及各数据资源目录构建从按数据类型存储的数据中选择出相应的数据,集中存储并进行处理,形成业务数据;将所述业务数据提供给用户;其中,所述数据资源目录构建基于数据库种类进行存储;所述数据类型包括模型数据、运行数据和统计分析数据。但是该发明存在以下缺陷:在一些场景中,比如客户数据维护不善,长期累积了大量无效数据等情况,按上述系统处理容易面临大量无效数据,增加程序负担,降低运行效率,通常没有较好的方式能够对数据进行有效梳理,快速归纳,难以将种类繁多的资源进行有效整合利用。
发明内容
1、要解决的问题
针对现有技术中,用户数据存在“碎片化”、“条块分割”、“信息孤岛”等,导致信息资源利用率不高,整合效果难以达到高度统一化等问题,本发明提供一种对数据进行治理和核查的可视化配置方法和平台,充分利用信息化处理数据,将数据资源处理系统平台升级为企业或高校整体的决策型数据中心,以盘活企业或高校的数据资产,提供更加深入的数据服务,为决策提者供有效数据参考。
2、技术方案
为解决上述问题,本发明采用如下的技术方案。
一种对数据进行治理和核查的可视化配置方法和平台,包括以下步骤:
S1、数据信息预配置:进行数据标准、数据源及一次数据字典配置;
S2、处理模式设置:进行数据字典配置、数据维护配置、规则引擎管理及数据核查配置;
S3、核查处理配置:基于预设的数据维度信息进行数据核查;
S4、数据调度:如果所述待核查数据形成的数据表与任务处理队列的任务源相匹配,则将相应的待核查数据调度至相应的任务源进行核查处理;否则不予调度,并提示;
S5、数据核查:接收来自用户的一个或多个任务处理队列数据,通过上述配置的数据核查规则对待核查数据进行核查。
一个可能的实施例,在以上各步骤中,均采用可视化配置界面将相应信息向用户展示,具体包括:
(1)数据信息预配置时,形成基于用户定制需求的数据初始化配置界面;
(2)处理模式设置是基于上述形成的数据初始化配置界面进行的;
(3)数据调度时,实时展示数据核查结果,若出现异常数据则在向用户展示数据的同时以预警方式或者预设的显示方式以提示数据异常。
一个可能的实施例,异常的数据采用视图和API接口的形式推送给相应的任务源,以确定核查后的数据的再处理模式。
一个可能的实施例,配置操作包括如下三个方面:
(1)数据标准配置:预先设置代码目录,以实现基于国家标准代码、所属行业的标准代码以及行业协会标准代码的获取及录入,以满足数据核查时符合相应标准;
(2)数据源进行预配置:预先设置节点服务器目录,其包括不同数据源的来源目录,所述来源目录接收不同数据源的数据录取请求进行匹配存储;
(3)数据字典进行预配置:基于所述代码目录中的不同数据字典类别进行管理,包括数据字典状态、菜单类型、有效无效状态以及流量类型。
一个可能的实施例,在S2之后,根据不同的配置模式对需要进行维护的数据表进行配置,以及数据展示;
根据用户类型分配相匹配的数据表进行操作;所述操作包括对已经维护的数据表的字段进行显示、排序、导入、表单新增操作。
一个可能的实施例,S4中,配置不同优先级别的数据核查任务,基于该任务进行数据关联,将所述待核查数据调度至与之对应的任务队列中从而进行数据核查处理,并向用户实时展示核查结果。
一个可能的实施例,预先配置维度数据,配置每一个维度的不同核查项,以对数据表进行定时检验,实时展示核查的分析结果,同时向用户展示核查项的错误数据;所述维度数据包括完整性、有效性、准确性、唯一性以及实时性评价数据,用于核查和进行相应配置。
一个可能的实施例,预先配置不同任务处理队列,根据用户输入的数据形成相应任务队列的待核查数据队列,最后调度至任务处理对应相匹配的任务源,并进行用户端的可视化实时展示。
一种对数据进行治理和核查的可视化配置平台,包括
数据信息预配置系统,对数据标准、数据源、数据字典进行初始化维护以及预配置,形成基于用户定制需求的数据初始化配置界面;
数据处理系统,将待核查处理的数据表通过该处理系统内的数据字典配置、数据维护配置、规则引擎管理以及数据核查配置后,形成待核查处理的数据表的待核查数据;
数据核查系统,配置不同优先级别的数据核查任务,基于该任务进行数据关联,将所述待核查数据调度至与之对应的任务队列中从而进行数据核查处理,并向用户实时展示核查结果。
一个可能的实施例,采用数据共享模块为数据治理及配置平台提供数据源及视图和API接口;
3、有益效果
相比于现有技术,本发明的有益效果为:
(1)随着学校步入数字化校园的进度加快,学校等小型社会网络就需要各种不同的软件来支撑数字化管理,不同的软件又由不同的应用开发商来提供,导致了数据的大量冗余和不一致性,学校无法对数据信息进行对比监管并保证数据的有效性。
在学校里对于数据有效性的验证,目前是需要程序员手动写代码或者学校各个系统负责人自己监管平台数据的方式来完成,该种方式需要花费大量时间,工作繁琐,导致效率低下。
本发明基于JAVA、MYSQL、SpringBoot框架、VUE框架等多种主流技术进行研发,基于当前用户数据质量痛点问题,结合用户需求研发,为用户提供了专业的高校数据治理核查平台,平台中包括了数据处理过程中的各种配置项,基于预设的维度指标对待核查数据进行核查,并实时展示核查结果,如果出现异常,平台将进行预警,快速对数据有效、无效做出判断,将有效数据导入下一环节,最终将数据匹配到对应的任务源进行核查处理。
(2)本发明采用多维度的数据性质核查操作,一方面对数据的有效性和无效性进行核查,大大减缩了无效数据对程序运行带来的负担;另一方面,可配置的多维度的数据核查方法,对于数据的精细化分类、多场景调整,高适应性使用等,起到了显著的作用。
(3)本发明在实际的数据处理平台中,是基于用户的定制规则进行数据处理,因此,数据核查后有效的根据用户的需求进行数据有效性筛查,提高了数据核查效率。
附图说明
图1为本发明方法整体流程图;
图2为本发明实施例1的系统从数据抽取到统一治理和统一核查的核心步骤流程图;
图3为本发明实施例1的数据核查维护和数据治理维护的流程图;
图4为本发明实施例1的数据维护配置的表信息界面示意图;
图5为本发明实施例1的数据配置的字段信息界面示意图;
图6为本发明实施例1的部门核查配置界面示意图;
图7为本发明实施例1的部门核查配置后数据门户里的展示效果界面;
图8为本发明实施例2的数据表的示意图;
图9为本发明实施例2的数据表的字段操作界面示意图;
图10为本发明实施例2的数据核查项配置示意图;
图11为本发明实施例2的数据核查分析展示示意图;
图12为本发明实施例2的异常数据展示示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于了解,下面结合实施例对本发明作进一步阐述。
实施例1
如图2至图7所示,一种对数据进行治理和核查的可视化配置方法和平台,包括以下步骤:
S1、数据信息预配置:进行数据标准、数据源及一次数据字典的初始化维护及配置,以形成基于用户定制需求的数据初始化配置界面,具体包括:
1)对数据标准进行预配置:预先设置代码目录,以实现基于国家标准代码、所述行业的标准代码以及行业协会标准代码的获取及录入,以满足数据核查时满足相应标准的要求。在本发明的系统平台中,数据标准的配置界面的内容包括代码目录菜单,在其子菜单下包括:代码标准、全局字典、人事管理字典、学工管理字典、财产管理字典、资产管理字典、档案管理字典、信息中心标准、办公管理字典等字典内容,其基本信息包括国家标准代码、教育标准代码以及行业协会标准代码,当然在本发明的实施例中,面向的是高校的数据核查平台,其匹配了教育标准代码,如果在其他的企业用户中,也可以根据其所在技术应用所属领域设置相应的标准代码以完成数据标准的配置;
2)数据源进行预配置:预先设置节点服务器目录,其包括不同数据源的来源目录,所述来源目录接收不同数据源的数据录取请求进行匹配存储;
3)数据字典进行预配置:基于所述代码目录中的不同数据字典类别进行管理,包括数据字典状态、菜单类型、有效无效状态以及流量类型;
S2、处理模式设置:进行数据字典配置、数据维护配置、规则引擎管理及数据核查配置;将待核查处理的数据表通过该处理系统内的数据字典配置、数据维护配置、规则引擎管理以及数据核查配置后,一方面形成待核查处理的数据表的待核查数据,根据不同的配置模式对需要进行维护的数据表进行配置,以及进行数据展示;另一方面形成对数据的完整性、有效性、准确性、唯一性以及实时性的待核查数据,根据用户类型分配相匹配的数据表进行操作,其中,所述操作包括对已经维护的数据表的字段进行显示、排序、导入、表单新增操作。
S3、核查处理配置:配置不同优先级别的数据核查任务,基于该任务进行数据关联,将所述待核查数据调度至与之对应的任务队列中从而进行数据核查处理,并向用户实时展示核查结果;
在进行上述配置时,还预先配置维度数据,即配置每一个维度的不同核查项以对数据表进行定时检验,实时展示核查的分析结果,同时向用户展示核查项的错误数据,其中,维度包括完整性、有效性、准确性、唯一性以及实时性;实现基于预设的数据维度信息进行数据核查;
S4、数据调度:配置不同优先级别的数据核查任务时,还预先配置不同任务处理队列,根据用户输入的数据形成相应任务队列的待核查数据队列,最后调度至任务处理对应相匹配的任务源,并进行实时展示。如果所述待核查数据形成的数据表与任务处理队列的任务源相匹配,则将相应的待核查数据调度至相应的任务源进行核查处理;否则不予调度,并提示;
S5、数据核查:接收来自用户的一个或多个任务处理队列数据,通过上述配置的数据核查规则对待核查数据进行核查。
本实施例,在以上各步骤中,均采用可视化配置界面将相应信息向用户展示,具体包括:
1)数据信息预配置时,形成基于用户定制需求的数据初始化配置界面;
2)处理模式设置是基于上述形成的数据初始化配置界面进行的;
3)数据调度时,实时展示数据核查结果,若出现异常数据则在向用户展示数据的同时以预警方式或者预设的显示方式以提示数据异常。异常的数据采用视图和API接口的形式推送给相应的任务源,以确定核查后的数据的再处理模式。
使用时,本实施例选择高校的数据处理为主要现实使用环境,建立一个数据处理中心平台,并通过不同的部门之间的联动来进行数据的处理,比如通过ETL工具把需要集中治理和核查的不同系统的数据集中在一起,通过初步的数据格式校验筛选出无效数据;保留下可治理的有效数据。在数据核查过程中出现了异常数据,则会定位到相应的处理部门中,并将核查后的数据调度至该对应的处理部门进行后续处理。
然后,预先进行平台中数据标准、数据源以及数据字典的配置,并形成基于用户定制的数据核查初始化界面;在所述界面中进行处理模式设置,包括数据字典配置、数据维护配置、规则引擎管理以及数据核查配置,以上配置和管理过程采用可视化方式展现给用户端,并基于该可操控的用户端进行配置操作。
配置完成之后,接收来自不同用户的多个任务处理队列数据,通过所述平台中配置的数据核查规则对待核查数据进行核查,所述待核查数据形成的数据表与任务队列的任务源相匹配,从而将相应的待核查数据调度至相应的任务源进行核查处理。
在基于预设的数据维度信息进行数据核查的同时,实时展示数据核查结果,若出现异常数据则在向用户展示数据的同时以预警方式或者预设的显示方式以提示数据异常。所述异常数据采用视图和Api接口的形式推送给相应的任务源,以确定核查后的数据的再处理模式。
在实际的数据处理平台中,是基于用户的定制规则进行数据处理,因此,数据核查后有效的根据用户的需求进行数据有效性筛查,提高了数据核查效率。不同任务队列的处理是源于来自不同领域场景下的数据处理模式,其他类似应用场景在不超过本实施例中可涵射范围,均属于与本实施例中相同或相近似技术方案。
一种对数据进行治理和核查的可视化配置平台,包括:
数据信息预配置系统,对数据标准、数据源、数据字典进行初始化维护以及预配置,形成基于用户定制需求的数据初始化配置界面;
数据处理系统,将待核查处理的数据表通过该处理系统内的数据字典配置、数据维护配置、规则引擎管理以及数据核查配置后,形成待核查处理的数据表的待核查数据;
数据核查系统,配置不同优先级别的数据核查任务,基于该任务进行数据关联,将所述待核查数据调度至与之对应的任务队列中从而进行数据核查处理,并向用户实时展示核查结果。
本平台采用数据共享模块为数据治理及配置平台提供数据源及视图和API接口。
实施例2
如图1、图8至图12所示,一种对数据进行治理和核查的可视化配置方法和平台,在实施例1的技术方案基础上,可补充采用如下配置和管理方案:
1)数据源管理:对数据源维护,实现动态访问数据源的相关表信息和数据信息,通过管理数据源所在的服务器ip地址等信息,添加该服务器相关的数据源信息,包括数据源的库名、端口号、用户名和密码等;
2)数据表管理:对数据源下的表信息进行管理,添加表信息和修改表字段信息,通过动态数据源技术获取动态数据源上表和表字段的所有信息,给用户可视化管理数据源表和表字段信息的可视化界面;
3)字典维护配置:把数据源下的表信息配置成数据字典的形制,其他表可以直接引用该字典表,来显示字段对应的字典名称,并可以查询字典具体数据;
4)数据维护配置:配置数据源下的表信息,数据表需要展示的属性、展示时的查询条件和编辑时表单的属性等,通过数据门户可以查询具体数据信息,用于监管和治理数据,让数据更具有效性;
5)数据核查配置:给数据维护配置的表配置核查项,根据每个核查项定义规则的不同来筛选表里数据,筛选出核查项需要输出的不符合核查规则的数据,如果该表配置了核查项,后在数据门户里查询表数据时就可以通过立即核查来执行配置的核查项,输出核查结果;
6)部门核查配置:将本申请实施例的表和部门关联起来,让每个部门方便管理自己部门所属的表数据信息,数据表关联部门后在数据门户设置一个部门菜单,部门菜单下设置表菜单,点击表菜单监控、治理和核查该表数据信息;
7)数据门户:展示数据维护配置中配置的表的数据信息的展示,方便监控和治理数据,系所有系统数据的统一治理入口。
实施例3
在实施例1和实施例2的基础上,本实施例以某学校教职工基本信息表为例,对本实施例提供的信息核查方法进行说明。
将本实施例的系统数据字典分五大类,每个分类下有若干小分类,并设核查结果输出的正反向选择。
首先,本实施例的某学校接入了改进系统,通过前期调研和实施配置ETL工具抽取数据到中心库下,然后把中心库通过系统的数据源管理接入到系统中。
然后,通过系统的数据维护配置把教职工基本信息表维护到系统中,添加表信息和字段信息,如图10、图11所示。
其次,通过部门核查维护把教职工基本信息维护到人事部,在数据门户中的人事部下可视化管理该表的数据信息和维护治理该表数据,如图10、图11所示。
而后,进入数据核查配置,教职工基本信息需要的核查配置项具体如下:
1)完整性-完整性分析:
包含输入字段、必要属性、过滤条件和输出结果;该核查项通过选择教职工基本信息字段来核查某一个或多个字段是否为空或null;
例:select*from jzgjbxx where telephone is null or length(telephone)==0;
*输入字段:选择教职工基本信息所有字段信息的一个或多个字段;
*必要属性:评估模式(a、当所有条件都满足时,记录输出;b、当所有任意一条字段条件满足时)和说明;
*过滤条件:通过选择字段、运算符和比较值来组建过滤条件,可以单个或多个字段组合配置;
*输出:TRUE,输出为空或null的数据;FALSE,输出不为空并且not null的数据;
2)准确性-准确性检查:
包含输入字段、必要属性、过滤条件和输出结果;该核查项通过选择教职工基本信息的某一个字段来和必要属性里选择的其他数据源的表信息中的字段关联,达到两表关联匹配,筛选出必要属性里匹配字段中配置的字段数据是否存在或不存在;
例:select*from jzgjbxx a left join qtb b on a.bm=b.id wherea.telephone!=b.telephone;
*输入字段:选择教职工基本信息所有字段信息的一个字段;
*必要属性:数据源、数据表、字段、匹配字段和说明,选择数据源下的表,通过关联字段来为匹配字段判断是否存在或不存在;
*过滤条件:通过选择字段、运算符和比较值来组建过滤条件,可以单个或多个字段组合配置;
*输出:TRUE,输出必要属性配置的表里存在的数据;FALSE,输出必要属性配置的表里不存在的数据;
3)准确性-入库准确性:
包含必要属性、过滤条件和输出结果;该核查项通过选择教职工基本信息的最大行数来判断是否在需要入库的数据行数内或外;
*必要属性:最大行数和说明;
*过滤条件:通过选择字段、运算符和比较值来组建过滤条件,可以单个或多个字段组合配置;
*输出:TRUE,输出必要属性配置的满足最大行数的数据;FALSE,输出必要属性配置的不满足最大行数的数据;
4)准确性-比较:
包含必要属性、过滤条件和输出结果;该核查项通过选择教职工基本信息的两个字段相互比较来输出结果;
*必要属性:输入字段(需要比较的值)、运算符(大于、小于等)、输出字段(被比较的值)和说明;
*过滤条件:通过选择字段、运算符和比较值来组建过滤条件,可以单个或多个字段组合配置;
*输出:TRUE,输出符合比较的数据;FALSE,输出不符合比较的数据;
5)有效性-字典有效性:
包含输入字段、必要属性、过滤条件和输出结果;该核查项通过选择教职工基本信息的一个字段和数据字典库的字典表关联,判断字典表中是否包含该字段值;
*输入字段:选择教职工基本信息所有字段信息中的一个字段;
*必要属性:数据源、字典表、字段和说明;
*过滤条件:通过选择字段、运算符和比较值来组建过滤条件,可以单个或多个字段组合配置;
*输出:NOT_EXISTS,输出字典表中不包含的数据;EXISTS,输出字典表中包含的数据;
6)有效性-字符串模式验证:
包含输入字段、必要属性、过滤条件和输出结果;该核查项通过选择教职工基本信息的一个或多个字段通过必要属性里的验证格式来判断是否符合,验证格式通过规则引擎自定义配置;
*输入字段:选择教职工基本信息所有字段信息中的一个或多个字段;
*必要属性:验证规则和说明;
*过滤条件:通过选择字段、运算符和比较值来组建过滤条件,可以单个或多个字段组合配置;
*输出:TRUE,输出符合验证格式的数据;FALSE,输出不符合验证格式的数据;
7)有效性-字符串长度验证:
包含输入字段、必要属性、过滤条件和输出结果;该核查项通过选择教职工基本信息的一个或多个字段通过必要属性里的最大长度和最小长度来判断是否在此范围;
*输入字段:选择教职工基本信息所有字段信息中的一个或多个字段;
*必要属性:最大长度、最小长度和说明;
*过滤条件:通过选择字段、运算符和比较值来组建过滤条件,可以单个或多个字段组合配置;
*输出:范围内、范围外、更大和更小;
8)有效性-数值范围:
包含输入字段、必要属性、过滤条件和输出结果;该核查项通过选择教职工基本信息的一个或多个字段通过必要属性里的最大值和最小值来判断是否在此范围;
*输入字段:选择教职工基本信息所有字段信息中的一个或多个字段;
*必要属性:最大值、最小值和说明;
*过滤条件:通过选择字段、运算符和比较值来组建过滤条件,可以单个或多个字段组合配置;
*输出:范围内、范围外、更大和更小;
9)有效性-日期范围:
包含输入字段、必要属性、过滤条件和输出结果;该核查项通过选择教职工基本信息的一个或多个字段通过必要属性里的最大日期和最小日期来判断是否在此范围;
*输入字段:选择教职工基本信息所有字段信息中的一个或多个字段;
*必要属性:最大日期、最小日期和说明;
*过滤条件:通过选择字段、运算符和比较值来组建过滤条件,可以单个或多个字段组合配置;
*输出:范围内、范围外、更大和更小;
10)唯一性-唯一性检查:
包含输入字段、必要属性、过滤条件和输出结果;该核查项通过选择教职工基本信息的一个或多个字段判断是否是唯一存在的;
*输入字段:选择教职工基本信息所有字段信息中的一个或多个字段;
*必要属性:说明;
*过滤条件:通过选择字段、运算符和比较值来组建过滤条件,可以单个或多个字段组合配置;
*输出:UNIQUE,输出符合唯一性的数据;NOT_UNIQUE,输出不符合唯一性的数据;
本实施例的教职工基本信息表配置过核查项后,通过核查输出的结果就是无效的数据,需要通过治理后达到核查要求才能变成有效数据。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本领域的普通技术人员应当了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都应落入要求保护的本发明内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (10)
1.一种对数据进行治理和核查的可视化配置方法,包括以下步骤:
S1、数据信息预配置:进行数据标准、数据源及数据字典的配置;
S2、处理模式设置:进行字典配置、数据维护配置、规则引擎管理及数据核查配置;
S3、核查处理配置:基于预设的数据维度信息进行数据核查;
S4、数据调度:如果所述待核查数据形成的数据表与任务处理队列的任务源相匹配,则将相应的待核查数据调度至相应的任务源进行核查处理;否则不予调度,并提示;
S5、数据核查:接收来自用户的一个或多个任务处理队列数据,通过上述配置的数据核查规则对待核查数据进行核查。
2.根据权利要求1所述的一种对数据进行治理和核查的可视化配置方法,其特征在于:以上各步骤中,采用可视化配置界面将相应信息向用户展示,包括:
数据信息预配置时,形成基于用户定制需求的数据初始化配置界面;
处理模式设置是基于上述形成的数据初始化配置界面进行的;
数据调度时,实时展示数据核查结果,若出现异常数据则在向用户展示数据的同时以预警方式或者预设的显示方式以提示数据异常。
3.根据权利要求2所述的一种对数据进行治理和核查的可视化配置方法,其特征在于:
异常的数据采用视图和API接口的形式推送给相应的任务源,以确定核查后的数据的再处理模式。
4.根据权利要求1所述的一种对数据进行治理和核查的可视化配置方法,其特征在于:
数据标准配置:预先设置代码目录,以实现基于国家标准代码、所属行业的标准代码以及行业协会标准代码的获取及录入,以满足数据核查时符合相应标准;
数据源进行预配置:预先设置节点服务器目录,其包括不同数据源的来源目录,所述来源目录接收不同数据源的数据录取请求进行匹配存储;
数据字典进行预配置:基于所述代码目录中的不同数据字典类别进行管理,包括数据字典状态、菜单类型、有效无效状态以及流量类型。
5.根据权利要求1所述的一种对数据进行治理和核查的可视化配置方法,其特征在于:
在S2之后,根据不同的配置模式对需要进行维护的数据表进行配置,以及数据展示;
根据用户类型分配相匹配的数据表进行操作;所述操作包括对已经维护的数据表的字段进行显示、排序、导入、表单新增操作。
6.根据权利要求1所述的一种对数据进行治理和核查的可视化配置方法,其特征在于:
S4中,配置不同优先级别的数据核查任务,基于该任务进行数据关联,将所述待核查数据调度至与之对应的任务队列中从而进行数据核查处理,并向用户实时展示核查结果。
7.根据权利要求6所述的一种对数据进行治理和核查的可视化配置方法,其特征在于:
预先配置维度数据,配置每一个维度的不同核查项,以对数据表进行定时检验,实时展示核查的分析结果,同时向用户展示核查项的错误数据;所述维度数据包括完整性、有效性、准确性、唯一性以及实时性评价数据。
8.根据权利要求7所述的一种对数据进行治理和核查的可视化配置方法,其特征在于:
预先配置不同任务处理队列,根据用户输入的数据形成相应任务队列的待核查数据队列,最后调度至任务处理对应相匹配的任务源,并进行用户端的可视化实时展示。
9.一种对数据进行治理和核查的可视化配置平台,其特征在于:包括
数据信息预配置系统,对数据标准、数据源、数据字典进行初始化维护以及预配置,形成基于用户定制需求的数据初始化配置界面;
数据处理系统,将待核查处理的数据表通过该处理系统内的数据字典配置、数据维护配置、规则引擎管理以及数据核查配置后,形成待核查处理的数据表待核查数据;
数据核查系统,配置不同优先级别的数据核查任务,基于该任务进行数据关联,将所述待核查数据调度至与之对应的任务队列中从而进行数据核查处理,并向用户实时展示核查结果。
10.根据权利要求9所述的一种对数据进行治理和核查的可视化配置平台,其特征在于:
采用数据共享模块为数据治理及配置平台提供数据源及视图和API接口。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010975989.3A CN112069248A (zh) | 2020-09-16 | 2020-09-16 | 一种对数据进行治理和核查的可视化配置方法和平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010975989.3A CN112069248A (zh) | 2020-09-16 | 2020-09-16 | 一种对数据进行治理和核查的可视化配置方法和平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112069248A true CN112069248A (zh) | 2020-12-11 |
Family
ID=73695296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010975989.3A Pending CN112069248A (zh) | 2020-09-16 | 2020-09-16 | 一种对数据进行治理和核查的可视化配置方法和平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069248A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064909A (zh) * | 2012-12-19 | 2013-04-24 | 武汉虹翼信息有限公司 | 一种基于Drools规则引擎的基站数据库核查方法 |
CN105653565A (zh) * | 2014-12-03 | 2016-06-08 | 北京神州泰岳软件股份有限公司 | 一种数据核查方法和数据核查装置 |
CN105808939A (zh) * | 2016-03-04 | 2016-07-27 | 新博卓畅技术(北京)有限公司 | 一种数据规则引擎系统和方法 |
US20170235466A1 (en) * | 2015-06-17 | 2017-08-17 | NetSuite Inc. | System and Method to Generate Interactive User Interface for Visualizing and Navigating Data or Information |
CN110851426A (zh) * | 2019-11-19 | 2020-02-28 | 重庆华龙网海数科技有限公司 | 数据dna可视化关系分析系统及方法 |
-
2020
- 2020-09-16 CN CN202010975989.3A patent/CN112069248A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064909A (zh) * | 2012-12-19 | 2013-04-24 | 武汉虹翼信息有限公司 | 一种基于Drools规则引擎的基站数据库核查方法 |
CN105653565A (zh) * | 2014-12-03 | 2016-06-08 | 北京神州泰岳软件股份有限公司 | 一种数据核查方法和数据核查装置 |
US20170235466A1 (en) * | 2015-06-17 | 2017-08-17 | NetSuite Inc. | System and Method to Generate Interactive User Interface for Visualizing and Navigating Data or Information |
CN105808939A (zh) * | 2016-03-04 | 2016-07-27 | 新博卓畅技术(北京)有限公司 | 一种数据规则引擎系统和方法 |
CN110851426A (zh) * | 2019-11-19 | 2020-02-28 | 重庆华龙网海数科技有限公司 | 数据dna可视化关系分析系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111190881A (zh) | 一种数据治理方法和系统 | |
CN112000849A (zh) | 统一标签库管理方法、装置、设备及存储介质 | |
US8131560B2 (en) | Systems and methods for managing regulatory information | |
CN112527783B (zh) | 一种基于Hadoop的数据质量探查系统 | |
CN106682097A (zh) | 一种处理日志数据的方法和装置 | |
CN109784721B (zh) | 一种就业数据分析与数据挖掘分析的平台系统 | |
CN113934868A (zh) | 政务大数据治理方法及系统 | |
CN107798037A (zh) | 用户特征数据的获取方法及服务器 | |
CN113722301A (zh) | 基于教育信息的大数据处理方法、装置及系统、存储介质 | |
CN106708965A (zh) | 一种数据的处理方法和装置 | |
CN112541728A (zh) | 一种电力物资编码的生成系统及方法 | |
CN112330299A (zh) | 业务流程管理方法、装置、设备及存储介质 | |
US20020198725A1 (en) | Method and system for managing a relationship with a venture company | |
US20150007129A1 (en) | Script execution framework | |
CN111858236A (zh) | 知识图谱监控方法、装置、计算机设备及存储介质 | |
CN117036062A (zh) | 一种结算资源计算方法及装置 | |
CN116228402A (zh) | 一种金融征信特征仓库技术支持系统 | |
CN112069248A (zh) | 一种对数据进行治理和核查的可视化配置方法和平台 | |
CN115700495A (zh) | 一种基于政务数据的治理模型及方法 | |
CN111291029B (zh) | 数据清洗方法及装置 | |
US9239867B2 (en) | System and method for fast identification of variable roles during initial data exploration | |
CN115168297A (zh) | 绕行日志审计方法及装置 | |
US9489438B2 (en) | Systems and methods for visualizing master data services information | |
US20070112869A1 (en) | System and method for managing data in a database | |
CN113407530A (zh) | 一种权限数据的回收方法、管理装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |