CN111046035B - 数据自动化处理方法、系统、计算机设备及可读存储介质 - Google Patents

数据自动化处理方法、系统、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN111046035B
CN111046035B CN201911034332.0A CN201911034332A CN111046035B CN 111046035 B CN111046035 B CN 111046035B CN 201911034332 A CN201911034332 A CN 201911034332A CN 111046035 B CN111046035 B CN 111046035B
Authority
CN
China
Prior art keywords
data
field
dictionary
attribute
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911034332.0A
Other languages
English (en)
Other versions
CN111046035A (zh
Inventor
柯越美
曾琼海
黄梦韩
罗龙
韩高强
王晋民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunmnet Technology Co ltd
Original Assignee
Sunmnet Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunmnet Technology Co ltd filed Critical Sunmnet Technology Co ltd
Priority to CN201911034332.0A priority Critical patent/CN111046035B/zh
Publication of CN111046035A publication Critical patent/CN111046035A/zh
Application granted granted Critical
Publication of CN111046035B publication Critical patent/CN111046035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据自动化处理方法,包括:分别扫描元数据中的每个数据表,提取每个数据表中各字段的字段信息以生成中间过程的数据字典;调整所述数据字典,进行表与表之间的关联以提取重复关系与映射关系;根据所述重复关系及映射关系构建数据视图,根据所述数据视图中的各字段的翻译信息更新所述数据字典,并对元数据进行异常检测。本发明还公开了一种数据自动化处理系统、计算机设备及计算机可读存储介质。采用本发明,实现了数据自动化处理,通过对数据进行有效梳理,做到真正做到标准的统一管理与有效执行。

Description

数据自动化处理方法、系统、计算机设备及可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据自动化处理方法、数据自动化处理系统、计算机设备及计算机可读存储介质。
背景技术
随着互联网技术与大数据技术不断的成熟与发展,校园信息共享在当今时代的地位越来越高大。在时代发展的背景之中,提升数据质量尤为重要,数据处理能力的提升与数据价值的挖掘是时代提出的要求,标准需要逐步提高。同时,数据共享的实际水平也关系到数据处理的能力,数据共享水平的提升程度涉及的安全隐私问题正逐渐暴露出来。
然而,目前数据治理前期阶段中,各类数据的数据字典的标准化映射,大多通过国家/行业标准,通过人工方式让元数据一一对应到对应的标准字典上,实现元数据到标准数据之间的转换,当中的人力消耗非常大,而且出错率较高。另一方面,各个实现均是基于对原有数据字典、表名、字段名等信息完成数据标准化转换,当中犯错率较高。
因此,针对标准不统一、数据多源易异构、厂家字典缺失、数据处理需要花费过高的人力和时间问题,需设计一种数据自动化处理方法,以对数据项进行梳理,真正做到标准的统一管理与有效执行。
发明内容
本发明所要解决的技术问题在于,提供一种数据自动化处理方法、数据自动化处理系统、计算机设备及计算机可读存储介质,可实现数据自动化处理,做到真正做到标准的统一管理与有效执行。
为了解决上述技术问题,本发明提供了一种数据自动化处理方法,包括:分别扫描元数据中的每个数据表,提取每个数据表中各字段的字段信息以生成中间过程的数据字典;调整所述数据字典,进行表与表之间的关联以提取重复关系与映射关系;根据所述重复关系及映射关系构建数据视图,根据所述数据视图中的各字段的翻译信息更新所述数据字典,并对元数据进行异常检测。
作为上述方案的改进,所述提取每个数据表中各字段的字段信息以生成中间过程的数据字典的步骤包括:从元数据中依次提取数据表,通过预设规则确定数据表的表属性、数据表中每列数据的数据类型及数据表中每列数据的角色类型;根据异常检测算法计算每列数据的评价指标;通过事先训练的NLP模型,根据预设规则对数据表中的每列数据进行初始分类;根据基础数据治理标注字典、表属性、数据类型、角色类型、评价指标及初始分类结果,对数据表中的每个字段进行翻译;获取所有数据表中所有字段,统计并优化每个字段的翻译信息,生成修正字段初始属性表。
作为上述方案的改进,所述根据基础数据治理标注字典、表属性、数据类型、角色类型、评价指标及初始分类结果,对数据表中的每个字段进行翻译的步骤包括:根据基础数据治理标注字典确定不同字段的命名方式、数据类型及数据内容,结合表属性、数据类型、角色类型、评价指标及初始分类结果,对数据表中的每个字段进行翻译处理,若在所述基础数据治理标注字典中查询到对应的翻译结果,则根据翻译结果翻译对应字段,若在所述基础数据治理标注字典中未查询到对应的翻译结果,则保留原字段名;对无法翻译的字段,调用外部翻译接口以获取翻译结果,并查询翻译结果是否在基础数据治理标注字典中,若存在则根据翻译结果翻译对应字段,若不存在则保留原字段名。
作为上述方案的改进,所述通过预设规则确定数据表的表属性、数据表中每列数据的数据类型及数据表中每列数据的角色类型的步骤包括:通过强制转换内容到特定的数据格式,确定数据表中每列数据的数据类型;统计数据内容的缺失度及异常度,并将每列数据的去重规模及表规模进行对比,确定数据表中每列数据的角色类型;根据是否存在主键角色及主键角色的规模,确定数据表的表属性。
作为上述方案的改进,所述调整数据字典,进行表与表之间的关联以提取重复关系与映射关系的步骤包括:根据所述修正字段初始属性表中的表属性字段生成表匹配策略;根据所述修正字段初始属性表中的字段角色字段、元数据及表匹配策略,生成表关联策略;根据所述表关联策略生成关联表,并提取所述关联表中的重复字段以生成重复数据集,提取所述关联表中的映射字段以生成映射数据集。
作为上述方案的改进,所述表属性字段用于记录数据表的表属性,所述表属性包括大型属性表、记录表及小型属性表,所述匹配策略包括:将大型属性表与大型属性表进行关联;将记录表与大型属性表进行关联;将大型属性表与小型属性表进行关联;将记录表与小型属性表进行关联。
作为上述方案的改进,所述根据重复关系及映射关系构建数据视图,根据数据视图中的各字段的翻译信息更新数据字典,并对元数据进行异常检测的步骤包括:根据所述重复数据集、映射数据集及修正字段初始属性表,生成表关系图;提取所述表关系图中的最大连接图;计算所述最大连接图中各个节点的最短连通路径,以生成重复数据链及映射数据链;统计所述重复数据链及映射数据链中各字段的翻译信息的占比信息,将所述占比信息添加至修正字段初始属性表中以构成带链路信息的字段属性表;根据所述重复数据链及映射数据链生成数据比对策略,根据所述数据比对策略提取元数据中的重复异常数据及映射异常数据。
相应地,本发明还提供了一种数据自动化处理系统,包括:数据字典构建模块,用于分别扫描每个数据表,提取每个数据表中各字段的字段信息以生成中间过程的数据字典;数据字典调整模块,用于调整所述数据字典,进行表与表之间的关联以提取重复关系与映射关系;数据字典更新模块,用于根据重复关系及映射关系构建数据视图,根据数据视图中的各字段的翻译信息更新数据字典,并对元数据进行异常检测。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述数据自动化处理方法的步骤。
相应地,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据自动化处理方法的步骤。
实施本发明,具有如下有益效果:
本发明通过构建数据治理自动化方式,对数据项进行梳理,实现数据的自动提取,做到真正做到标准的统一管理与有效执行;
本发明在缺乏视图信息的情况下,利用关联信息,自动构建数据库视图,实现数据的快速查找;
本发明利用多维度映射比对,实现基于内容的数据异常发现,相对人工筛查,减少大量人工核对工作量,为后续的数据治理工作,数据重组工作,提供了大量底层支撑。
附图说明
图1是本发明数据自动化处理方法的实施例流程图;
图2是本发明中提取每个数据表中各字段的字段信息以生成中间过程的数据字典的实施例流程图;
图3是本发明中调整数据字典,进行表与表之间的关联以提取重复关系与映射关系的实施例流程图;
图4是本发明中根据重复关系及映射关系构建数据视图,根据数据视图中的各字段的翻译信息更新数据字典,并对元数据进行异常检测的实施例流程图;
图5是本发明数据自动化处理系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
参见图1,图1显示了本发明数据自动化处理方法的实施例流程图,其包括:
S101,分别扫描元数据中的每个数据表,提取每个数据表中各字段的字段信息以生成中间过程的数据字典。
所述字段信息包括字段在数据表中的角色、数据质量、字段名翻译、字段内容特定字段识别、字段数据类型等信息,但不以此为限制。其中,字段名翻译主要基于拼音与英语进行翻译。
因此,本发明通过单表扫描的方式,获取每个数据表中每个字段的字段信息,以生成中间过程的数据字典。
S102,调整所述数据字典,进行表与表之间的关联以提取重复关系与映射关系。
全局调整数据字典,并根据数据表属性,进行表与表之间的主键链接检验并合并可行的数据表,获取内容重复关系与内容映射关系。其中,重复指,根据主键整合后,表格的某两列数据在容错条件下一致的数据;映射指,根据主键整合后,某两列数据在容错条件下一一对应的数据,本发明的容错系数可调,优选为90%。
S103,根据所述重复关系及映射关系构建数据视图,根据所述数据视图中的各字段的翻译信息更新所述数据字典,并对元数据进行异常检测。
本发明根据重复关系与映射关系构建数据视图,并把重复与映射的字段翻译信息整合,添加到数据字典,作为对无法翻译字段的参考,同时实现数据异常检测,单行数据抽取工作。其中,单行数据抽取工作是指,通过数据视图,给定一个字段的某一行,抽取与之相关的所有信息。
因此,本发明实现了数据标准构建及数据自动化处理,通过对数据项进行梳理,使学校做到真正做到标准的统一管理与有效执行。
如图2所示,所述提取每个数据表中各字段的字段信息以生成中间过程的数据字典的步骤包括:
S201,从元数据中依次提取数据表,通过预设规则确定数据表的表属性、数据表中每列数据的数据类型及数据表中每列数据的角色类型。
具体地,所述通过预设规则确定数据表的表属性、数据表中每列数据的数据类型及数据表中每列数据的角色类型的步骤包括:
(1)通过强制转换内容到特定的数据格式,确定数据表中每列数据的数据类型。
所述特定的数据格式包括连续型、类别、编码、随机编码、时间、符型等,但不以此为限制,通过强制转换可找出每列数据最适合的数据类型。
(2)统计数据内容的缺失度及异常度,并将每列数据的去重规模及表规模进行对比,确定数据表中每列数据的角色类型。
需要说明的是,不同数据类型的异常度判断可采用不同的规则。例如,连续型一般采取数值分布统计方式,序列型与编码型则可采取内容长度的分布统计方式,针对性强。
确定数据表中每列数据的角色类型时,主要识别该列数据是否可以充当主键列,主键列必须保证缺失率低、异常率低,而且去重后规模与数据表本身规模相当;其次是随机编码列,必须符合十六进制字符串表达形式。
(3)根据是否存在主键角色及主键角色的规模,确定数据表的表属性。
所述表属性包括大型属性表、记录表及小型属性表。本发明通过数据表中是否存在主键角色及主键角色规模,来确定表的类型。例如,若数据表的主键规模大于等于500,则该数据表为大型属性表;若数据表的主键规模小于500,则该数据表为小型属性表;若数据表中不包含主键,则该数据表为记录表。
S202,根据异常检测算法计算每列数据的评价指标。
本发明中,根据不同的数据类型,设计不同的异常检测算法。例如,连续数据使用正态分布异常值判断方式,编码数据采用长度中位数差异常判断方式。完成异常检测后,提取每列数据的异常值占比、去重集合规模大小、非空占比等评价指标。
S203,通过事先训练的NLP(Neuro-Linguistic Programming)模型,根据预设规则对数据表中的每列数据进行初始分类。
所述预设规则主要用于识别邮箱、身份证号、电话号码等,此类数据有明显的编码规则。因此,本发明通过事先训练的NLP模型,结合预设规则,对一些常用内容进行归类判别,如地址,名字,身份证号码等。
S204,根据基础数据治理标注字典、表属性、数据类型、角色类型、评价指标及初始分类结果,对数据表中的每个字段进行翻译。
具体地,所述根据基础数据治理标注字典、表属性、数据类型、角色类型、评价指标及初始分类结果,对数据表中的每个字段进行翻译的步骤包括:
(1)根据基础数据治理标注字典确定不同字段的命名方式、数据类型及数据内容,结合表属性、数据类型、角色类型、评价指标及初始分类结果,对数据表中的每个字段进行翻译处理,若在所述基础数据治理标注字典中查询到对应的翻译结果,则根据翻译结果翻译对应字段,若在所述基础数据治理标注字典中未查询到对应的翻译结果,则保留原字段名。
需要说明的是,基础数据治理标注字典中确定了不同的字段的命名方式、对应的数据类型及数据内容。集合步骤S201-203所得到的信息,可对该字段进行翻译,如无对应的翻译结果,则用原来字段名代替。
翻译原理为:基于原字段名与数据类型的硬匹配,即该字段名在基础数据治理标注字典中有记录的且它的内容的数据类型与标注字典一致(如XM对应了姓名,且它的内容是字符型的,则对应成功),对翻译失败的,采取拼音缩写、数字简化等多种变换进行模糊匹配。
(2)对无法翻译的字段,调用外部翻译接口以获取翻译结果,并查询翻译结果是否在基础数据治理标注字典中,若存在则根据翻译结果翻译对应字段,若不存在则保留原字段名。
所述外部翻译接口可以为搜狗翻译接口,但不以此为限制。
S205,获取所有数据表中所有字段,统计并优化每个字段的翻译信息,生成修正字段初始属性表。
所述修正字段初始属性表即数据字典。所述字段包括字段原名、所在表名、非缺失率、异常率、翻译名、字段内容、表类型,但不以此为限制。
完成单表扫描后,获取全部数据表的字段信息并整合,统计每个原字段名的翻译结果与字段角色结果,按成分占比进行归一。例如,WID在10个表里被认为是随机编码角色,2个表里面被认为是编码角色,则让WID统一成随机编码角色。最后整理全部单表扫描数据得到修正字段初始属性表。
因此,本发明结合前期构建的基础数据治理标注字典,对数据项进行系统梳理真正做到标准的统一管理与有效执行。
如图3所示,所述调整数据字典,进行表与表之间的关联以提取重复关系与映射关系的步骤包括:
S301,根据所述修正字段初始属性表中的表属性字段生成表匹配策略。
所述表属性字段用于记录数据表的表属性,所述表属性包括大型属性表、记录表及小型属性表。
具体地,所述匹配策略包括:
(1)将大型属性表与大型属性表进行关联。
(2)将记录表与大型属性表进行关联。
(3)将大型属性表与小型属性表进行关联。
(4)将记录表与小型属性表进行关联。
例如,表A为大型属性表,表B为大型属性表,表C为小型属性表,表D为记录表,则需要将表A与表B进行关联(表A为左表,表B为右表),将表B与表A进行关联(表B为左表,表A为右表),将表D与表A进行关联(表D为左表,表A为右表),将表D与表B进行关联(表D为左表,表B为右表),将表A与表C进行关联(表A为左表,表C为右表),将表B与表C进行关联(表B为左表,表C为右表),将表D与表C进行关联(表D为左表,表C为右表)。
S302,根据所述修正字段初始属性表中的字段角色字段、元数据及表匹配策略,生成表关联策略。
根据修正字段初始属性表的字段角色字段,接入元数据、表匹配策略,通过数据比对确定关联的主键字段,生成关联策略(即确定左右表的最优主键)。
S303,根据所述表关联策略生成关联表,并提取所述关联表中的重复字段以生成重复数据集,提取所述关联表中的映射字段以生成映射数据集。
根据关联策略生成关联表(即两个表关联后的大表),扫描其中的重复字段,与映射字段。其中,重复字段为内容完全重复,映射字段为存在一对一关系的数据。
重复数据集与映射数据集都是四元组,其结构为(目标字段1,目标字段2,匹配左主键字段,匹配右主键字段)。
如图4所示,所述根据重复关系及映射关系构建数据视图,根据数据视图中的各字段的翻译信息更新数据字典,并对元数据进行异常检测的步骤包括:
S401,根据所述重复数据集、映射数据集及修正字段初始属性表,生成表关系图。
所述重复数据集用于记录重复关系,所述映射数据集用于记录映射关联。
S402,提取所述表关系图中的最大连接图。
重复数据集与映射数据集,可以抽象理解成一个二元结构,多个二元结构可以组成一张大的拓扑图,表示表与表之间的连通,与SQL的数据视图类似,最大连通图指的是互相能到达的点的最大集合,一个图的不同最大连通图中的点,是不可连通的。
S403,计算所述最大连接图中各个节点的最短连通路径,以生成重复数据链及映射数据链。
S404,统计所述重复数据链及映射数据链中各字段的翻译信息的占比信息,将所述占比信息添加至修正字段初始属性表中以构成带链路信息的字段属性表。
通过重复数据链及映射数据链中的字段翻译名字,可以获得各数据的翻译情况。例如,某个字段名为XSH,而它存在于重复数据链中,并且重复数据链则有80%的字段都被翻译成“学号”,则这个XSH很可能就是学号,可把这个占比信息补充到修正字段初始属性表中,得到带链路信息的字段属性表,至此,完成翻译操作。
S405,根据所述重复数据链及映射数据链生成数据比对策略,根据所述数据比对策略提取元数据中的重复异常数据及映射异常数据。
结合重复数据链及映射数据链,生成比对策略,结合元数据,生成基于重复的异常值(即本来认为一致的东西,有个别行记录对不上的)以及基于映射的异常值(即95%以上都是一一对应的,而个别行数据出现对应关系有别于期望的对应关系的)。
因此,本发明在缺乏视图信息的情况下,综合考虑表名,数据标准,内容,字段角色,表关系等多维度信息,对元数据字段信息进行翻译,标准化,同时自动生成数据视图,并实现行数据异常比对。
参见图5,图5显示了本发明数据自动化处理系统100的具体结构,其包括:
数据字典构建模块1,用于分别扫描每个数据表,提取每个数据表中各字段的字段信息以生成中间过程的数据字典。所述字段信息包括字段在数据表中的角色、数据质量、字段名翻译、字段内容特定字段识别、字段数据类型等信息,但不以此为限制。
数据字典调整模块2,用于调整所述数据字典,进行表与表之间的关联以提取重复关系与映射关系。具体地,数据字典调整模块2通过全局调整数据字典,并根据数据表属性,进行表与表之间的主键链接检验并合并可行的数据表,获取内容重复关系与内容映射关系。
数据字典更新模块3,用于根据重复关系及映射关系构建数据视图,根据数据视图中的各字段的翻译信息更新数据字典,并对元数据进行异常检测。具体地,数据字典更新模块3根据重复关系与映射关系构建数据视图,并把重复与映射的字段翻译信息整合,添加到数据字典,作为对无法翻译字段的参考,同时实现数据异常检测,单行数据抽取工作。
因此,本发明运用了大量自动化信息传递技术,相对人工筛查,减少大量人工核对工作量;同时,提供了基于内容与关联关系的行数据异常发现,表关联发现,为后续的数据治理工作,数据重组工作,提供了大量底层支撑。
下面对数据字典构建模块1、数据字典调整模块2及数据字典更新模块3分别进行描述:
(1)数据字典构建模块1包括:
属性识别单元,用于从元数据中依次提取数据表,通过预设规则确定数据表的表属性、数据表中每列数据的数据类型及数据表中每列数据的角色类型。
具体地,所述属性识别单元具有以下功能:
1、通过强制转换内容到特定的数据格式,确定数据表中每列数据的数据类型。所述特定的数据格式包括连续型、类别、编码、随机编码、时间、符型等,但不以此为限制,通过强制转换可找出每列数据最适合的数据类型。
2、统计数据内容的缺失度及异常度,并将每列数据的去重规模及表规模进行对比,确定数据表中每列数据的角色类型。需要说明的是,不同数据类型的异常度判断可采用不同的规则。例如,连续型一般采取数值分布统计方式,序列型与编码型则可采取内容长度的分布统计方式,针对性强。确定数据表中每列数据的角色类型时,主要识别该列数据是否可以充当主键列,主键列必须保证缺失率低、异常率低,而且去重后规模与数据表本身规模相当;其次是随机编码列,必须符合十六进制字符串表达形式。
3、根据是否存在主键角色及主键角色的规模,确定数据表的表属性。所述表属性包括大型属性表、记录表及小型属性表。本发明通过数据表中是否存在主键角色及主键角色规模,来确定表的类型。例如,若数据表的主键规模大于等于500,则该数据表为大型属性表;若数据表的主键规模小于500,则该数据表为小型属性表;若数据表中不包含主键,则该数据表为记录表。
评价指标计算单元,用于根据异常检测算法计算每列数据的评价指标。本发明中,根据不同的数据类型,设计不同的异常检测算法。例如,连续数据使用正态分布异常值判断方式,编码数据采用长度中位数差异常判断方式。完成异常检测后,提取每列数据的异常值占比、去重集合规模大小、非空占比等评价指标。
初始分类单元,用于通过事先训练的NLP(Neuro-Linguistic Programming)模型,根据预设规则对数据表中的每列数据进行初始分类。所述预设规则主要用于识别邮箱、身份证号、电话号码等,此类数据有明显的编码规则。
翻译单元,用于根据基础数据治理标注字典、表属性、数据类型、角色类型、评价指标及初始分类结果,对数据表中的每个字段进行翻译。
具体地,所述翻译单元具有一下功能:
1、根据基础数据治理标注字典确定不同字段的命名方式、数据类型及数据内容,结合表属性、数据类型、角色类型、评价指标及初始分类结果,对数据表中的每个字段进行翻译处理,若在所述基础数据治理标注字典中查询到对应的翻译结果,则根据翻译结果翻译对应字段,若在所述基础数据治理标注字典中未查询到对应的翻译结果,则保留原字段名。需要说明的是,基础数据治理标注字典中确定了不同的字段的命名方式、对应的数据类型及数据内容。集合步骤S201-203所得到的信息,可对该字段进行翻译,如无对应的翻译结果,则用原来字段名代替。翻译原理为:基于原字段名与数据类型的硬匹配,即该字段名在基础数据治理标注字典中有记录的且它的内容的数据类型与标注字典一致(如XM对应了姓名,且它的内容是字符型的,则对应成功),对翻译失败的,采取拼音缩写、数字简化等多种变换进行模糊匹配。
2、对无法翻译的字段,调用外部翻译接口以获取翻译结果,并查询翻译结果是否在基础数据治理标注字典中,若存在则根据翻译结果翻译对应字段,若不存在则保留原字段名。所述外部翻译接口可以为搜狗翻译接口,但不以此为限制。
初始属性表生成单元,用于获取所有数据表中所有字段,统计并优化每个字段的翻译信息,生成修正字段初始属性表。所述修正字段初始属性表即数据字典。所述字段包括字段原名、所在表名、非缺失率、异常率、翻译名、字段内容、表类型,但不以此为限制。完成单表扫描后,初始属性表生成单元获取全部数据表的字段信息并整合,统计每个原字段名的翻译结果与字段角色结果,按成分占比进行归一,最后整理全部单表扫描数据得到修正字段初始属性表。
因此,数据字典构建模块1可通过结合前期构建的基础数据治理标注字典,对数据项进行系统梳理真正做到标准的统一管理与有效执行。
(2)数据字典调整模块2包括:
表匹配策略生成单元,用于根据所述修正字段初始属性表中的表属性字段生成表匹配策略。其中,所述表属性字段用于记录数据表的表属性,所述表属性包括大型属性表、记录表及小型属性表。具体地,所述匹配策略包括:将大型属性表与大型属性表进行关联;将记录表与大型属性表进行关联;将大型属性表与小型属性表进行关联;将记录表与小型属性表进行关联。
表关联策略生成单元,用于根据所述修正字段初始属性表中的字段角色字段、元数据及表匹配策略,生成表关联策略。具体地,表关联策略生成单元根据修正字段初始属性表的字段角色字段,接入元数据、表匹配策略,通过数据比对确定关联的主键字段,生成关联策略(即确定左右表的最优主键)。
数据集生成单元,用于根据所述表关联策略生成关联表,并提取所述关联表中的重复字段以生成重复数据集,提取所述关联表中的映射字段以生成映射数据集。其中,重复字段为内容完全重复,映射字段为存在一对一关系的数据。重复数据集与映射数据集都是四元组,其结构为(目标字段1,目标字段2,匹配左主键字段,匹配右主键字段)。
(3)数据字典更新模块3包括:
表关系图生成单元,用于根据所述重复数据集、映射数据集及修正字段初始属性表,生成表关系图。所述重复数据集用于记录重复关系,所述映射数据集用于记录映射关联。
最大连接图提取单元,用于提取所述表关系图中的最大连接图。需要说明的是,重复数据集与映射数据集,可以抽象理解成一个二元结构,多个二元结构可以组成一张大的拓扑图,表示表与表之间的连通,与SQL的数据视图类似,最大连通图指的是互相能到达的点的最大集合,一个图的不同最大连通图中的点,是不可连通的。
数据链生成单元,用于计算所述最大连接图中各个节点的最短连通路径,以生成重复数据链及映射数据链。
链路表构成单元,用于统计所述重复数据链及映射数据链中各字段的翻译信息的占比信息,将所述占比信息添加至修正字段初始属性表中以构成带链路信息的字段属性表。需要说明的是,通过重复数据链及映射数据链中的字段翻译名字,可以获得各数据的翻译情况。例如,某个字段名为XSH,而它存在于重复数据链中,并且重复数据链则有80%的字段都被翻译成“学号”,则这个XSH很可能就是学号,可把这个占比信息补充到修正字段初始属性表中,得到带链路信息的字段属性表。
异常数据检测单元,用于根据所述重复数据链及映射数据链生成数据比对策略,根据所述数据比对策略提取元数据中的重复异常数据及映射异常数据。具体地,异常数据检测单元结合重复数据链及映射数据链,生成比对策略,结合元数据,生成基于重复的异常值(即本来认为一致的东西,有个别行记录对不上的)以及基于映射的异常值(即95%以上都是一一对应的,而个别行数据出现对应关系有别于期望的对应关系的)。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述数据自动化处理方法的步骤。同时,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据自动化处理方法的步骤。
由上可知,本发明具有以下有益效果:
1、本发明结合列名翻译、列内容数据格式、数据角色及基于重复数据链与映射数据链的列名信息传递的内容信息,构建数据治理自动化方式,实现自动的数据字段标注,并对无法明确标注的信息,反馈出关联信息,大幅度降低数据治理人员的人工标注工作量。
2、本发明利用关联信息,自动完成数据库视图,提供数据点快速查找。
3、利用重复数据链与映射数据链,实现行数据的互相比对,根据这逻辑,还可以升级到多维度映射比对,达到基于内容的数据异常发现。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种数据自动化处理方法,其特征在于,包括:
分别扫描元数据中的每个数据表,提取每个数据表中各字段的字段信息以生成中间过程的数据字典,所述数据字典为修正字段初始属性表;
调整所述数据字典,进行表与表之间的关联以提取重复关系与映射关系;其中,所述调整数据字典,进行表与表之间的关联以提取重复关系与映射关系的步骤包括:根据所述修正字段初始属性表中的表属性字段生成表匹配策略;根据所述修正字段初始属性表中的字段角色字段、元数据及表匹配策略,生成表关联策略;根据所述表关联策略生成关联表,并提取所述关联表中的重复字段以生成重复数据集,提取所述关联表中的映射字段以生成映射数据集;
根据所述重复关系及映射关系构建数据视图,根据所述数据视图中的各字段的翻译信息更新所述数据字典,并对元数据进行异常检测。
2.如权利要求1所述的数据自动化处理方法,其特征在于,所述提取每个数据表中各字段的字段信息以生成中间过程的数据字典的步骤包括:
从元数据中依次提取数据表,通过预设规则确定数据表的表属性、数据表中每列数据的数据类型及数据表中每列数据的角色类型;
根据异常检测算法计算每列数据的评价指标;
通过事先训练的NLP模型,根据预设规则对数据表中的每列数据进行初始分类;
根据基础数据治理标注字典、表属性、数据类型、角色类型、评价指标及初始分类结果,对数据表中的每个字段进行翻译;
获取所有数据表中所有字段,统计并优化每个字段的翻译信息,生成修正字段初始属性表。
3.如权利要求2所述的数据自动化处理方法,其特征在于,所述根据基础数据治理标注字典、表属性、数据类型、角色类型、评价指标及初始分类结果,对数据表中的每个字段进行翻译的步骤包括:
根据基础数据治理标注字典确定不同字段的命名方式、数据类型及数据内容,结合表属性、数据类型、角色类型、评价指标及初始分类结果,对数据表中的每个字段进行翻译处理,若在所述基础数据治理标注字典中查询到对应的翻译结果,则根据翻译结果翻译对应字段,若在所述基础数据治理标注字典中未查询到对应的翻译结果,则保留原字段名;
对无法翻译的字段,调用外部翻译接口以获取翻译结果,并查询翻译结果是否在基础数据治理标注字典中,若存在则根据翻译结果翻译对应字段,若不存在则保留原字段名。
4.如权利要求2所述的数据自动化处理方法,其特征在于,所述通过预设规则确定数据表的表属性、数据表中每列数据的数据类型及数据表中每列数据的角色类型的步骤包括:
通过强制转换内容到特定的数据格式,确定数据表中每列数据的数据类型;
统计数据内容的缺失度及异常度,并将每列数据的去重规模及表规模进行对比,确定数据表中每列数据的角色类型;
根据是否存在主键角色及主键角色的规模,确定数据表的表属性。
5.如权利要求1所述的数据自动化处理方法,其特征在于,所述表属性字段用于记录数据表的表属性,所述表属性包括大型属性表、记录表及小型属性表,所述匹配策略包括:
将大型属性表与大型属性表进行关联;
将记录表与大型属性表进行关联;
将大型属性表与小型属性表进行关联;
将记录表与小型属性表进行关联。
6.如权利要求1所述的数据自动化处理方法,其特征在于,所述根据重复关系及映射关系构建数据视图,根据数据视图中的各字段的翻译信息更新数据字典,并对元数据进行异常检测的步骤包括:
根据所述重复数据集、映射数据集及修正字段初始属性表,生成表关系图;
提取所述表关系图中的最大连接图;
计算所述最大连接图中各个节点的最短连通路径,以生成重复数据链及映射数据链;
统计所述重复数据链及映射数据链中各字段的翻译信息的占比信息,将所述占比信息添加至修正字段初始属性表中以构成带链路信息的字段属性表;
根据所述重复数据链及映射数据链生成数据比对策略,根据所述数据比对策略提取元数据中的重复异常数据及映射异常数据。
7.一种数据自动化处理系统,其特征在于,包括:
数据字典构建模块,用于分别扫描每个数据表,提取每个数据表中各字段的字段信息以生成中间过程的数据字典,所述数据字典为修正字段初始属性表;
数据字典调整模块,用于调整所述数据字典,进行表与表之间的关联以提取重复关系与映射关系;具体地,所述数据字典调整模块包括:表匹配策略生成单元,用于根据所述修正字段初始属性表中的表属性字段生成表匹配策略;表关联策略生成单元,用于根据所述修正字段初始属性表中的字段角色字段、元数据及表匹配策略,生成表关联策略;数据集生成单元,用于根据所述表关联策略生成关联表,并提取所述关联表中的重复字段以生成重复数据集,提取所述关联表中的映射字段以生成映射数据集;
数据字典更新模块,用于根据重复关系及映射关系构建数据视图,根据数据视图中的各字段的翻译信息更新数据字典,并对元数据进行异常检测。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~6中任一项所述的方法的步骤。
CN201911034332.0A 2019-10-29 2019-10-29 数据自动化处理方法、系统、计算机设备及可读存储介质 Active CN111046035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911034332.0A CN111046035B (zh) 2019-10-29 2019-10-29 数据自动化处理方法、系统、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911034332.0A CN111046035B (zh) 2019-10-29 2019-10-29 数据自动化处理方法、系统、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111046035A CN111046035A (zh) 2020-04-21
CN111046035B true CN111046035B (zh) 2021-02-12

Family

ID=70232017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911034332.0A Active CN111046035B (zh) 2019-10-29 2019-10-29 数据自动化处理方法、系统、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111046035B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767298A (zh) * 2020-07-01 2020-10-13 中国银行股份有限公司 一种数据字典构建方法和装置
CN112347794B (zh) * 2020-10-27 2023-06-09 深圳前海微众银行股份有限公司 数据翻译方法、装置、设备及计算机存储介质
CN112527970B (zh) * 2020-12-24 2022-11-15 上海浦东发展银行股份有限公司 数据字典标准化处理方法、装置、设备及存储介质
CN112685415A (zh) * 2020-12-30 2021-04-20 平安普惠企业管理有限公司 数据导入方法、装置、计算机设备和存储介质
CN113032494A (zh) * 2021-03-08 2021-06-25 浙江大华技术股份有限公司 一种数据表分类、模型训练方法、装置、设备及介质
CN113326265B (zh) * 2021-06-17 2023-11-10 深圳市慧择时代科技有限公司 家庭信息的构建方法、装置、存储介质和电子设备
CN113704241B (zh) * 2021-10-27 2022-03-08 国网浙江省电力有限公司信息通信分公司 一种低业务依赖的能源数据智能稽核方法
CN113987190B (zh) * 2021-11-16 2023-02-28 国网智能电网研究院有限公司 一种数据质量校验规则提取方法及系统
CN115860677B (zh) * 2022-12-12 2024-03-22 中量工程咨询有限公司 一种构件工程量数据处理方法、系统、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254022B (zh) * 2011-07-27 2013-03-06 河海大学 一种面向多数据类型信息资源元数据的共享方法
CN102521401B (zh) * 2011-12-24 2014-10-15 北京数码大方科技股份有限公司 数据视图的处理方法及装置
CN105320680A (zh) * 2014-07-15 2016-02-10 中国移动通信集团公司 一种数据同步方法及装置
US20160231915A1 (en) * 2015-02-10 2016-08-11 Microsoft Technology Licensing, Llc. Real-time presentation of customizable drill-down views of data at specific data points
US10599650B2 (en) * 2016-07-13 2020-03-24 Sap Se Enhancements for forward joins expressing relationships
CN108563645B (zh) * 2018-04-24 2022-03-22 成都智信电子技术有限公司 His系统的元数据翻译方法和装置
CN109189769A (zh) * 2018-08-14 2019-01-11 平安医疗健康管理股份有限公司 数据标准化处理方法、装置、计算机设备和存储介质
CN109710681B (zh) * 2018-12-29 2021-09-17 亚信科技(南京)有限公司 数据输出方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111046035A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046035B (zh) 数据自动化处理方法、系统、计算机设备及可读存储介质
US20220147405A1 (en) Automatically scalable system for serverless hyperparameter tuning
CN109213756B (zh) 数据存储、检索方法、装置、服务器和存储介质
US9135280B2 (en) Grouping interdependent fields
US8924373B2 (en) Query plans with parameter markers in place of object identifiers
CN111078780A (zh) 一种ai优化数据治理的方法
CN110659282B (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN110990390B (zh) 数据协同处理方法、装置、计算机设备和存储介质
CN109408578B (zh) 一种针对异构环境监测数据融合方法
CN104769585A (zh) 递归地遍历因特网和其他源以识别、收集、管理、评判和鉴定企业身份及相关数据的系统和方法
CN112463971B (zh) 一种基于层级组合模型的电商商品分类方法及系统
US20160210333A1 (en) Method and device for mining data regular expression
CN104468107A (zh) 校验数据处理方法及装置
CN113452802A (zh) 设备型号的识别方法、装置及系统
CN111914294A (zh) 一种数据库敏感数据识别方法及系统
CN114527991A (zh) 代码的扫描方法、装置、设备、存储介质及程序产品
CN116032741A (zh) 一种设备识别方法、装置、电子设备和计算机存储介质
CN113254572A (zh) 一种基于云平台的电子文档分类监管系统
US9619458B2 (en) System and method for phrase matching with arbitrary text
CN112711582A (zh) 一种数据源清洗集成化主数据管理平台
CN111431884A (zh) 一种基于dns分析的主机失陷检测方法及装置
US11501020B2 (en) Method for anonymizing personal information in big data and combining anonymized data
CN114676229A (zh) 一种技改大修工程档案管理系统及管理方法
CN114416847A (zh) 一种数据转换的方法、装置、服务器及存储介质
CN114925210A (zh) 知识图谱的构建方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20230919

Granted publication date: 20210212

PP01 Preservation of patent right