CN110851559A

CN110851559A - 数据元自动识别方法和识别系统

Info

Publication number: CN110851559A
Application number: CN201910972010.4A
Authority: CN
Inventors: 王海荣; 肖万来; 李鑫; 徐云龙
Original assignee: Zhongke Dawning Nanjing Research Institute Co Ltd
Current assignee: Zhongke Dawning Nanjing Research Institute Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-02-28
Anticipated expiration: 2039-10-14
Also published as: CN110851559B

Abstract

本发明公开了一种数据元自动识别方法和识别系统，其中识别方法包括1、根据不同行业的标签建立第一级数据元字典；2、ElasticSearch集群根据不同行业的标准数据元建立与行业对应的第二级数据元字典，第二级数据元字典存放于内存中；3、对待识别数据元根据停用词进行切分再根据第一级数据元字典中的叶子节点进行分词；计算分词后的词语与第一级数据元字典中每个子树的相似度，选择相似度大于预设的第一级相似度阈值的子树所对应的行业为第一级识别结果；对第一识别结果中的每个行业对应的第二级数据元字典进行匹配，如匹配成功，根据匹配策略返回识别结果；停用词存储于停用词表中。该方法能够对不同行业的数据元进行有效的自动识别。

Description

数据元自动识别方法和识别系统

技术领域

本发明属于大数据处理技术领域，具体涉及一种数据元的自动识别方法和系统。

背景技术

在大数据爆发的时代，数据的来源有很多形式，一种是存放于传统的关系型数据库中，比如，mysql，oracle，sqlserver等关系型数据库，还有一种是csv或者特定格式的半结构化数据。不同形式的数据，都有会有数据元，这些是数据类型通过定义，标识，表示以及允许值等一系列属性的数据单元。在特定语义环境中被认为是不可再分的最小数据单元。在大数据处理中需要对大量的数据元进行识别，将其识别成某个领域中的标准数据元。对数据元的识别，会将原先杂乱无章毫无描述的数据，变成了统一规范的数据集。有了标准的数据元识别及分类，可以针对不同类别或领域的标准数据元制定不同的数据清洗标准，利用数据元清洗，即可将不符合规范的数据剔除。但是，当前传统的数据元识别方法主要是通过人工录入及比对的方式进行，当有新数据需要进行导入时，手工根据数据列的相关信息进行数据元人工匹配，匹配效率低下且出错率高。

发明内容

发明目的：针对现有技术中存在的问题，本发明公开了一种数据元自动识别方法，该方法能够对不同行业的数据元进行有效的自动识别。

技术方案：本发明一方面公开了一种数据元自动识别方法，包括如下步骤：

(1)根据不同行业的标签建立第一级数据元字典，所述第一级数据元字典中的每一个子树对应一个行业，子树的叶子为行业的标签；

(2)ElasticSearch集群根据不同行业的标准数据元建立与行业对应的第二级数据元字典，所述第二级数据元字典存放于内存中；所述第二级数据元字典包括中文字典、拼音字典、同义词字典、英文字典和英文同义字典；具体包括以下步骤：

(2.1)构建中文字典：

ElasticSearch使用分词插件对标准数据元进行分词，将分词结果存储于mysql数据库的词库表中，定时查询词库表，根据词库表中的词构建或更新中文字典，所述中文字典以词典树的结构存放于内存中；

(2.2)构建拼音字典：

将步骤(1.1)的分词结果映射为拼音词，根据拼音词构建拼音字典；所述拼音词包括：全拼、部分全拼、首字母小写缩写、首字母大写缩写中的一个或多个；所述拼音字典以表的结构存放于内存中，每个拼音词为拼音词表中一个节点；

(2.3)构建同义词字典：

建立词语之间的映射关系存储于数据库表中，所述词语之间的映射关系包括：等价、包含、同义；

定时查询数据库表，根据其中的映射关系构建同义词字典，所述同义词字典采用链表或树来存储数据；

(2.4)构建英文字典：

根据数据元中的空格分隔英文单词，构建英文字典树，并建立英文词语之间的映射关系，构建英文同义词字典；

(3)对待识别数据元根据停用词进行初步切分，再根据第一级数据元字典中的叶子节点进行分词；计算分词后的文本与第一级数据元字典中每个子树的相似度，选择相似度大于预设的第一级相似度阈值的子树所对应的行业为第一级识别结果；

对第一识别结果中的每个行业对应的第二级数据元字典进行匹配：根据行业A的第二级数据元字典计算分词后的文本中词语的TF-IDF权重，对TF-IDF权重最大的词语与行业A的第二级数据元字典中的词语计算相似度，如果相似度大于预设的相似度阈值，认为待识别数据元与行业A的第二级数据元字典匹配成功；否则，匹配失败；

如有匹配成功，根据分词策略返回识别结果，所述识别结果为待识别数据元的行业类别；如均为匹配失败，将待识别数据元设置为匹配异常数据元。

所述停用词存储于停用词表中，所述停用词表存储于mysql数据库中；

所述第二级数据元字典还包括自定义字典；所述自定义字典中存储用户自定义的词语，例如方言字典等。

进一步地，在建立了数据元字典后，还包括对数据元字典进行整合，步骤为：当有新的标准数据元加入时，首先判断对应行业的数据元字典是否存在，如果不存在，在第一级数据元字典中增加对应行业的子树，并按照步骤(2.1)-(2.4)来构建对应行业的第二级数据元字典；如果已存在，对所述新的标准数据元按照其对应行业的第二级数据元字典进行分词，将分词后的结果加入到对应行业的第二级数据元字典中，并合并相同的词。

进一步地，还包括对匹配异常的数据元进行处理，包括如下步骤：

(4.1)判断匹配异常数据元的字段类型，标识出属性类别，所述属性类别包括：整型、长整型、字符型、日期类型；

(4.2)如果匹配异常数据元为数值类型，计算匹配异常数据元与每个行业第二级数据元字典的相似度，对所述数据元的数值套用相似度最高的行业内的正则表达式，判断是否为行业中的特殊编号；

(4.3)如果匹配异常数据元为字符类型，对所述字符进行中英文分词，并对分词结果集中，进行词性的标注；根据标注的词性和分词的关键字，将此数据元删除或设置为新的标准数据元；

(4.4)如果设置为新的标准数据元，对此数据元按照步骤(1)建立新的第二级数据元字典，并在第一级数据元字典中增加子树。

还包括校验和数据清洗；所述校验为根据预设的校验规则对数据元进行校验；所述数据清洗为根据预设的清洗规则对数据元进行清洗；对于校验失败的数据元，在数据清洗阶段进行删除或修复。

所述分词策略包括：通用分词策略和智能分词策略；

所述通用分词策略为：返回与待识别数据元匹配成功的所有行业第二级数据元字典所在的行业；

所述智能匹配策略为：返回与待识别数据元匹配成功的第二级数据元字典中，有效文本长度最长的第二级数据元字典所对应的行业；所述有效文本长度为待识别数据元与第二级数据元字典中匹配到的词语长度之和；

如果有效文本长度最长的第二级数据元字典有多个，则返回其中匹配到的词元个数最少的第二级数据元字典所对应的行业；

如果匹配到的词元个数最少的第二级数据元字典有多个，则返回匹配到的词元中长度最长的词元所在的第二级数据元字典所对应的行业。

另一方面，本发明公开了一种实施上述方法的数据元自动识别系统，包括：

第一级数据元字典存储模块、数据元输入模块、数据元字典构建模块、数据元匹配模块；

所述第一级数据元字典存储模块用于存储根据不同行业的标签建立的第一级数据元字典；所述数据元输入模块用于输入不同行业的标准数据元；

所述数据元字典构建模块根据不同行业的标准数据元建立与行业对应的第二级数据元字典；

所述数据元匹配模块用于对待识别数据元进行切分；切分后的词语与第二级数据元字典进行匹配，并返回匹配结果。

优选地，还包括数据元字典管理模块，所述数据元字典管理模块用于修改、自定义、整合数据元字典。

还包括匹配异常数据元处理模块，所述匹配异常数据元处理模块按照步骤(4.1)-(4.4)对匹配异常的数据元进行处理。

还包括校验模块和数据清洗模块；所述校验模块根据预设的校验规则对数据元进行校验；所述数据清洗模块根据预设的清洗规则对数据元进行清洗；对于校验失败的数据元，在数据清洗阶段进行删除或修复。

有益效果：本发明公开的数据元自动识别方法通过对不同行业的标准数据元进行语义分析，得到能够用于识别不同行业的数据元字典，依据此数据元字典，对待识别数据元进行匹配，从而得到识别结果。该方法能够对杂乱无章的数据进行自动识别，统一为规范的数据集，从而为后续数据处理提供方便。

附图说明

图1为构建数据元字典的流程图；

图2为数据元字典整合的流程图；

图3为外部数据源中的数据元识别流程图；

图4为匹配异常的数据元处理流程图；

图5为校验和清洗的流程图；

图6为数据元自动识别系统的组成框图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

如图1所示，本发明公开了一种数据元自动识别方法，包括以下步骤：

步骤1、根据不同行业的标签建立第一级数据元字典，所述第一级数据元字典中的每一个子树对应一个行业，子树的叶子为行业的标签；

步骤2、ElasticSearch集群根据不同行业的标准数据元建立与行业对应的第二级数据元字典，所述第二级数据元字典存放于内存中；所述第二级数据元字典包括中文字典、拼音字典、同义词字典、英文字典和英文同义字典；如图1所示，具体包括以下步骤：

(2.1)构建中文字典：

由于词典树是根据词库表中的词语构建的，也可以通过修改词库表来修改词典树。当elasticsearch启动加载中文分词插件时，会启动一个从mysql数据库中加载词库的线程，每隔10s就会轮询该mysql中的词库表，从词库表中加载词语来更新或修改词典树；当有新词被添加至词库表中，就会向词典树中添加一个节点。由此实现了动态构建和更新词典树，避免了反复重启elasticsearch集群。

(2.2)构建拼音字典：

将步骤(2.1)的分词结果映射为拼音词，根据拼音词构建拼音字典；所述拼音词包括：全拼、部分全拼、首字母小写缩写、首字母大写缩写中的一个或多个；所述拼音字典以表的结构存放于内存中，每个拼音词为拼音词表中一个节点；

对数据元从拼音的维度建立字典，需要对数据元以拼音的形式进行细化和切分，将其映射为拼音。处理方式和中文分词类似，其中拼音的切分方式比较固定，采用的是集合的方式将所有拼音进行了存储。根据存储其中的拼音，采用不同的组合策略进行处理，比如“身份证”，会以sfz进行表示。这时，在进行拼音维度的切分时，可以是首字母的缩写：sfz或SFZ，其中包含了首字母的大小写；或者是：shenfenzheng，全拼；或者为：shenfenz，有部分字母是全拼而有些字母是首字母的形式。这些切分形式，统一建立成相应的词典表，每个拼音词为拼音词表中一个节点，sfz、SFZ、shenfenzheng、shenfenz在拼音词表中就用4个节点来表示。达到数据元快速拼音拆解的目的，让不同的数据元在不同拼音的层面，以不同的方式进行切分和组合都能准确的表达该数据元的拼音的组成形式。

(2.3)构建同义词字典：

定时查询数据库表，根据其中的映射关系构建同义词字典，所述同义词字典采用链表或树来存储数据；当有新的映射关系加入的时候，可以动态的对链表或树进行修改，中间并不需要重新启动elasticsearch集群，建立同义词字典，是为了在数据元识别时，将含义相同的数据元进行合并，减少数据元的冗余，对数据元进行准确表示，以提高数据元的识别率。

(2.4)构建英文字典：

根据数据元中的空格分隔英文单词，构建英文字典，并建立英文词语之间的映射关系，构建英文同义词字典；

建立完中文维度的第二级数据元字典之后，需要对数据元建立英文字典，在某些场景下面，某些列的数据元会以英文的形式进行表示，比如年龄，会用age进行表示，比如性别，会以sex或者gender的形式进行表示，在内存中维护英文字典数据。由于英文一般都是以空格来进行分隔英文单词的，利用空格将英文单词进行切分，建立英文维度的字典树，可以大幅提升识别数据元的准确性。同样在英文字典中，也需要建立英文同义词词典树，方便英文同义词的数据元的自动识别和比对。

(2.5)构建自定义的字典：

在一些场景中，上述分词维度并不能准确地说明数据元的信息，比如在特殊语境中一些词语会有特殊的含义，此外由于南北方言的区别，一些词可以进行映射及标准化。这些情况可以通过构建自定义字典来解决，提高数据元的识别率。

步骤3、对待识别数据元根据停用词进行初步切分，再根据第一级数据元字典中的叶子节点进行分词；计算分词后的文本与第一级数据元字典中每个子树的相似度，选择相似度大于预设的第一级相似度阈值的子树所对应的行业为第一级识别结果；对第一识别结果中的每个行业对应的第二级数据元字典进行匹配：根据行业A的第二级数据元字典计算切分后的文本中词语的TF-IDF权重，对TF-IDF权重最大的词语与行业A的第二级数据元字典中的词语计算相似度，如果相似度大于预设的相似度阈值，认为待识别数据元与行业A的第二级数据元字典匹配成功；否则，匹配失败；行业A为第一级识别结果中一个元素；

本发明中采用余弦相似度来计算词语间的相似度。

停用词存储于mysql数据库中的停用词表中；

当有新的数据元需要识别的时候，首先根据停用词对待识别的数据元进行初步切分，再根据第一级数据元字典中的叶子节点进行进一步分词；然后对分词之后的词汇，第一级数据元字典中每个子树的相似度，选择相似度大于预设的第一级相似度阈值的子树所对应的行业为第一级识别结果；

遍历第一级识别结果中各个行业的第二级数据元字典中的词语进行分词，得到每个行业的分词结果，构成各个行业的待分词数组，其中存在了各个行业的数据元歧义词。如待识别的数据元为“中华人民共和国”，在行业A的第二级数据元字典中，可以分词为：中华、人民、共和国、中华人民共和国，则这四个此为行业A的数据元歧义词，都存放在行业的待分词数组中。即数据元歧义词可能只匹配了待识别数据元中的部分，也可能是全部，这时根据分词策略，来决定返回哪种匹配到数据元。本发明中的分词策略包括：通用分词策略和智能分词策略两种。其中通用分词策略为：返回与待识别数据元匹配成功的所有行业第二级数据元字典所对应的行业；智能匹配策略为：返回与待识别数据元匹配成功的第二级数据元字典中，有效文本长度最长的第二级数据元字典所对应的行业；所述有效文本长度为待识别数据元与第二级数据元字典中匹配到的词语长度之和；

通过上面规则，来对数据元进行准确的识别，并方便后期数据元的表示。

第二级数据元字典决定了识别的结果，为了去除数据元字典中的重复内容，在数据元字典建立完成后，对其进行整合，如图2所示，包括如下步骤：

(2.6)当有新的标准数据元加入时，首先判断对应行业的第二级数据元字典是否存在，如果不存在，在第一级数据元字典中增加对应行业的子树，并按照步骤(2.1)-(2.4)来构建对应行业的第二级数据元字典；如果已存在，对所述新的标准数据元按照其对应行业的第二级数据元字典进行分词，将分词后的结果加入到对应行业的第二级数据元字典中，并合并相同的词。

本实施例以外部数据源中的数据元识别为例来进行说明上述方法。

如图3所示，首先注册外部数据源，输入用户名，密码，以及相关的url地址，并测试该数据源的联通性。通过界面选择该数据源中需要导入并进行识别的数据元的表。系统会优先获取该表名称以及该表的注释，并对表的注释根据第一级数据元字典进行分词，计算分词后的文本与第一级数据元字典中每个子树的相似度，选择相似度大于预设的第一级相似度阈值的子树所对应的行业为第一级识别结果；

根据第一级识别结果来判断是进入哪个行业的数据元字典中进行搜索，如果无法找到该数据元的相关行业，则对所有第二级数据元字典表进行全局搜索。完成数据表的表名的搜索之后，下面对表中的具体列进行数据元匹配，首先通过字段的中文注释搜索第二级数据元字典，将列名称的中文注释进行中文分词，其中分词的策略主要分为两种，一种是通用分词策略，一种是智能分词策略，优先使用智能分词策略，比如是，中国人，在进行分词搜索时，可以将中国人，切分成中国或者是中国人，默认搜索时会将数据优先按照中国人进行搜索，按照智能方式进行搜索，这样匹配率更加准确，将中文分词的结果放入elasticsearch中进行搜索，其中主要使用中文字典和同义词字典，通过这两列进行搜索。如果elasticsearch中无法从第二级数据元字典中检索到数据，尝试从字段名称即列名称，利用列名称进行搜索，列名基本上可以通过拼音字典和英文字典进行搜索。通过拼音中首字母缩写及文字的全拼，及部分全拼进行全局搜索，并同时按照英文名称进行全局搜索，计算搜索出的结果集与搜索内容的的TF-IDF权重，对TF-IDF权重大于预设的权重阈值的搜索结果，计算其与搜索内容的相似度，并按照相似度从大到小进行排序，取排序排名靠前的数据元进行作为推荐的匹配结果。

经过上述数据元的自动匹配之后，有些数据元可能存在专有名词，或者其中相关列信息描述的并不是很清晰，数据元匹配可能会出现失败或异常，需要对匹配异常的数据元进行处理，如图4所示，包括如下步骤：

(4.2)如果匹配异常数据元为数值类型，计算匹配异常数据元与每个行业第二级数据元字典的相似度，对所述数据元的数值套用相似度最高的行业的正则表达式，判断是否为行业中的特殊编号；

数据元识别完成后，根据绑定在数据元上的校验规则和清洗规则对数据元进行校验和清洗，具体流程如图5所示。

首先会通过校验规则对数据元进行校验，比如进行空值检测，标识出该列的值为空值，并按照识别后的数据源类别进行规则校验，比如身份证号校验，会检测身份证号的长度，身份证号最后一位是否满足特殊位校验，以及所填写的身份证号中提取的出生年月日，是否满足数值规范等。手机号检测，是否满足特定长度的数字，其电话号码是否满足规范。对不符合规范的数据，在进行数据元校验时，对所有不符合规范的数据都进行了标记，在数据清洗时，可以对已经标记为不符合规范的数据进行统一的剔除或者对原始数据进行填充，比如将原先的空值进行填充，将原先不符合规范值进行修复，比如不符合规范长度的数据，将其填充到特定长度。通过对数据元进行规范化处理之后，原始数据的数据质量会得到大幅的提高。

本实施例还公开了一种数据元自动识别系统来实施上述方法，如图6所示，包括：第一级数据元字典存储模块、数据元输入模块，数据元字典构建模块、数据元匹配模块、数据元字典管理模块、匹配异常数据元处理模块、校验模块和数据清洗模块；

所述第一级数据元字典存储模块用于存储根据不同行业的标签建立的第一级数据元字典；

所述数据元输入模块用于输入不同行业的标准数据元；

所述数据元字典管理模块用于修改、自定义、整合数据元字典。

所述匹配异常数据元处理模块按照步骤(4.1)-(4.4)对匹配异常的数据元进行处理。

所述校验模块根据预设的校验规则对数据元进行校验；所述数据清洗模块根据预设的清洗规则对数据元进行清洗；对于校验失败的数据元，在数据清洗阶段进行删除或修复。

Claims

1.数据元自动识别方法，其特征在于，包括如下步骤：

(2.1)构建中文字典：

(2.2)构建拼音字典：

(2.3)构建同义词字典：

(2.4)构建英文字典：

(3)对待识别数据元根据停用词进行初步切分，再根据第一级数据元字典中的叶子节点进行分词；

计算分词后的文本与第一级数据元字典中每个子树的相似度，选择相似度大于预设的第一级相似度阈值的子树所对应的行业为第一级识别结果；

对第一识别结果中的每个行业对应的第二级数据元字典进行匹配：根据行业A的第二级数据元字典计算分词后的文本中词语的TF-IDF权重，对TF-IDF权重最大的词语与行业A的第二级数据元字典中的词语计算相似度，如果相似度大于预设的相似度阈值，认为待识别数据元与行业A的第二级数据元字典匹配成功；否则，匹配失败；行业A为第一级识别结果中一个元素；

如有匹配成功，根据分词策略返回识别结果，所述识别结果为待识别数据元的行业类别；如均为匹配失败，将待识别数据元设置为匹配异常数据元；

所述停用词存储于停用词表中，所述停用词表存储于mysql数据库中。

2.根据权利要求1所述的数据元自动识别方法，其特征在于，所述第二级数据元字典还包括自定义字典；所述自定义字典中存储用户自定义的词语。

3.根据权利要求1所述的数据元自动识别方法，其特征在于，所述步骤(2)还包括：

(2.6)对第二级数据元字典进行整合，当有新的标准数据元加入时，首先判断对应行业的第二级数据元字典是否存在，如果不存在，在第一级数据元字典中增加对应行业的子树，并按照步骤(2.1)-(2.4)来构建对应行业的第二级数据元字典；如果已存在，对所述新的标准数据元按照其对应行业的第二级数据元字典进行分词，将分词后的结果加入到对应行业的第二级数据元字典中，并合并相同的词。

4.根据权利要求1所述的数据元自动识别方法，其特征在于，还包括对匹配异常的数据元进行处理，包括如下步骤：

(4.4)如果设置为新的标准数据元，对此数据元按照步骤(1)和步骤(2)建立新的第二级数据元字典，并在第一级数据元字典中增加子树。

5.根据权利要求1所述的数据元自动识别方法，其特征在于，还包括校验和数据清洗；所述校验为根据预设的校验规则对数据元进行校验；所述数据清洗为根据预设的清洗规则对数据元进行清洗；对于校验失败的数据元，在数据清洗阶段进行删除或修复。

6.根据权利要求1所述的数据元自动识别方法，其特征在于，所述分词策略包括：通用分词策略和智能分词策略；

所述通用分词策略为：返回与待识别数据元匹配成功的所有行业第二级数据元字典所对应的行业；

7.数据元自动识别系统，其特征在于，包括：第一级数据元字典存储模块、数据元输入模块，数据元字典构建模块、数据元匹配模块；

所述数据元输入模块用于输入不同行业的标准数据元；

8.根据权利要求7所述的数据元自动识别系统，其特征在于，还包括数据元字典管理模块，所述数据元字典管理模块用于修改、自定义、整合数据元字典。

9.根据权利要求7所述的数据元自动识别系统，其特征在于，还包括匹配异常数据元处理模块，所述匹配异常数据元处理模块按照权利要求4中所述步骤(4.1)-(4.4)对匹配异常的数据元进行处理。

10.根据权利要求7所述的数据元自动识别系统，其特征在于，还包括校验模块和数据清洗模块；所述校验模块根据预设的校验规则对数据元进行校验；所述数据清洗模块根据预设的清洗规则对数据元进行清洗；对于校验失败的数据元，在数据清洗阶段进行删除或修复。