CN110851559A - 数据元自动识别方法和识别系统 - Google Patents

数据元自动识别方法和识别系统 Download PDF

Info

Publication number
CN110851559A
CN110851559A CN201910972010.4A CN201910972010A CN110851559A CN 110851559 A CN110851559 A CN 110851559A CN 201910972010 A CN201910972010 A CN 201910972010A CN 110851559 A CN110851559 A CN 110851559A
Authority
CN
China
Prior art keywords
data element
dictionary
level data
level
data elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910972010.4A
Other languages
English (en)
Other versions
CN110851559B (zh
Inventor
王海荣
肖万来
李鑫
徐云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Dawning Nanjing Research Institute Co Ltd
Original Assignee
Zhongke Dawning Nanjing Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Dawning Nanjing Research Institute Co Ltd filed Critical Zhongke Dawning Nanjing Research Institute Co Ltd
Priority to CN201910972010.4A priority Critical patent/CN110851559B/zh
Publication of CN110851559A publication Critical patent/CN110851559A/zh
Application granted granted Critical
Publication of CN110851559B publication Critical patent/CN110851559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种数据元自动识别方法和识别系统,其中识别方法包括1、根据不同行业的标签建立第一级数据元字典;2、ElasticSearch集群根据不同行业的标准数据元建立与行业对应的第二级数据元字典,第二级数据元字典存放于内存中;3、对待识别数据元根据停用词进行切分再根据第一级数据元字典中的叶子节点进行分词;计算分词后的词语与第一级数据元字典中每个子树的相似度,选择相似度大于预设的第一级相似度阈值的子树所对应的行业为第一级识别结果;对第一识别结果中的每个行业对应的第二级数据元字典进行匹配,如匹配成功,根据匹配策略返回识别结果;停用词存储于停用词表中。该方法能够对不同行业的数据元进行有效的自动识别。

Description

数据元自动识别方法和识别系统
技术领域
本发明属于大数据处理技术领域,具体涉及一种数据元的自动识别方法和系统。
背景技术
在大数据爆发的时代,数据的来源有很多形式,一种是存放于传统的关系型数据库中,比如,mysql,oracle,sqlserver等关系型数据库,还有一种是csv或者特定格式的半结构化数据。不同形式的数据,都有会有数据元,这些是数据类型通过定义,标识,表示以及允许值等一系列属性的数据单元。在特定语义环境中被认为是不可再分的最小数据单元。在大数据处理中需要对大量的数据元进行识别,将其识别成某个领域中的标准数据元。对数据元的识别,会将原先杂乱无章毫无描述的数据,变成了统一规范的数据集。有了标准的数据元识别及分类,可以针对不同类别或领域的标准数据元制定不同的数据清洗标准,利用数据元清洗,即可将不符合规范的数据剔除。但是,当前传统的数据元识别方法主要是通过人工录入及比对的方式进行,当有新数据需要进行导入时,手工根据数据列的相关信息进行数据元人工匹配,匹配效率低下且出错率高。
发明内容
发明目的:针对现有技术中存在的问题,本发明公开了一种数据元自动识别方法,该方法能够对不同行业的数据元进行有效的自动识别。
技术方案:本发明一方面公开了一种数据元自动识别方法,包括如下步骤:
(1)根据不同行业的标签建立第一级数据元字典,所述第一级数据元字典中的每一个子树对应一个行业,子树的叶子为行业的标签;
(2)ElasticSearch集群根据不同行业的标准数据元建立与行业对应的第二级数据元字典,所述第二级数据元字典存放于内存中;所述第二级数据元字典包括中文字典、拼音字典、同义词字典、英文字典和英文同义字典;具体包括以下步骤:
(2.1)构建中文字典:
ElasticSearch使用分词插件对标准数据元进行分词,将分词结果存储于mysql数据库的词库表中,定时查询词库表,根据词库表中的词构建或更新中文字典,所述中文字典以词典树的结构存放于内存中;
(2.2)构建拼音字典:
将步骤(1.1)的分词结果映射为拼音词,根据拼音词构建拼音字典;所述拼音词包括:全拼、部分全拼、首字母小写缩写、首字母大写缩写中的一个或多个;所述拼音字典以表的结构存放于内存中,每个拼音词为拼音词表中一个节点;
(2.3)构建同义词字典:
建立词语之间的映射关系存储于数据库表中,所述词语之间的映射关系包括:等价、包含、同义;
定时查询数据库表,根据其中的映射关系构建同义词字典,所述同义词字典采用链表或树来存储数据;
(2.4)构建英文字典:
根据数据元中的空格分隔英文单词,构建英文字典树,并建立英文词语之间的映射关系,构建英文同义词字典;
(3)对待识别数据元根据停用词进行初步切分,再根据第一级数据元字典中的叶子节点进行分词;计算分词后的文本与第一级数据元字典中每个子树的相似度,选择相似度大于预设的第一级相似度阈值的子树所对应的行业为第一级识别结果;
对第一识别结果中的每个行业对应的第二级数据元字典进行匹配:根据行业A的第二级数据元字典计算分词后的文本中词语的TF-IDF权重,对TF-IDF权重最大的词语与行业A的第二级数据元字典中的词语计算相似度,如果相似度大于预设的相似度阈值,认为待识别数据元与行业A的第二级数据元字典匹配成功;否则,匹配失败;
如有匹配成功,根据分词策略返回识别结果,所述识别结果为待识别数据元的行业类别;如均为匹配失败,将待识别数据元设置为匹配异常数据元。
所述停用词存储于停用词表中,所述停用词表存储于mysql数据库中;
所述第二级数据元字典还包括自定义字典;所述自定义字典中存储用户自定义的词语,例如方言字典等。
进一步地,在建立了数据元字典后,还包括对数据元字典进行整合,步骤为:当有新的标准数据元加入时,首先判断对应行业的数据元字典是否存在,如果不存在,在第一级数据元字典中增加对应行业的子树,并按照步骤(2.1)-(2.4)来构建对应行业的第二级数据元字典;如果已存在,对所述新的标准数据元按照其对应行业的第二级数据元字典进行分词,将分词后的结果加入到对应行业的第二级数据元字典中,并合并相同的词。
进一步地,还包括对匹配异常的数据元进行处理,包括如下步骤:
(4.1)判断匹配异常数据元的字段类型,标识出属性类别,所述属性类别包括:整型、长整型、字符型、日期类型;
(4.2)如果匹配异常数据元为数值类型,计算匹配异常数据元与每个行业第二级数据元字典的相似度,对所述数据元的数值套用相似度最高的行业内的正则表达式,判断是否为行业中的特殊编号;
(4.3)如果匹配异常数据元为字符类型,对所述字符进行中英文分词,并对分词结果集中,进行词性的标注;根据标注的词性和分词的关键字,将此数据元删除或设置为新的标准数据元;
(4.4)如果设置为新的标准数据元,对此数据元按照步骤(1)建立新的第二级数据元字典,并在第一级数据元字典中增加子树。
还包括校验和数据清洗;所述校验为根据预设的校验规则对数据元进行校验;所述数据清洗为根据预设的清洗规则对数据元进行清洗;对于校验失败的数据元,在数据清洗阶段进行删除或修复。
所述分词策略包括:通用分词策略和智能分词策略;
所述通用分词策略为:返回与待识别数据元匹配成功的所有行业第二级数据元字典所在的行业;
所述智能匹配策略为:返回与待识别数据元匹配成功的第二级数据元字典中,有效文本长度最长的第二级数据元字典所对应的行业;所述有效文本长度为待识别数据元与第二级数据元字典中匹配到的词语长度之和;
如果有效文本长度最长的第二级数据元字典有多个,则返回其中匹配到的词元个数最少的第二级数据元字典所对应的行业;
如果匹配到的词元个数最少的第二级数据元字典有多个,则返回匹配到的词元中长度最长的词元所在的第二级数据元字典所对应的行业。
另一方面,本发明公开了一种实施上述方法的数据元自动识别系统,包括:
第一级数据元字典存储模块、数据元输入模块、数据元字典构建模块、数据元匹配模块;
所述第一级数据元字典存储模块用于存储根据不同行业的标签建立的第一级数据元字典;所述数据元输入模块用于输入不同行业的标准数据元;
所述数据元字典构建模块根据不同行业的标准数据元建立与行业对应的第二级数据元字典;
所述数据元匹配模块用于对待识别数据元进行切分;切分后的词语与第二级数据元字典进行匹配,并返回匹配结果。
优选地,还包括数据元字典管理模块,所述数据元字典管理模块用于修改、自定义、整合数据元字典。
还包括匹配异常数据元处理模块,所述匹配异常数据元处理模块按照步骤(4.1)-(4.4)对匹配异常的数据元进行处理。
还包括校验模块和数据清洗模块;所述校验模块根据预设的校验规则对数据元进行校验;所述数据清洗模块根据预设的清洗规则对数据元进行清洗;对于校验失败的数据元,在数据清洗阶段进行删除或修复。
有益效果:本发明公开的数据元自动识别方法通过对不同行业的标准数据元进行语义分析,得到能够用于识别不同行业的数据元字典,依据此数据元字典,对待识别数据元进行匹配,从而得到识别结果。该方法能够对杂乱无章的数据进行自动识别,统一为规范的数据集,从而为后续数据处理提供方便。
附图说明
图1为构建数据元字典的流程图;
图2为数据元字典整合的流程图;
图3为外部数据源中的数据元识别流程图;
图4为匹配异常的数据元处理流程图;
图5为校验和清洗的流程图;
图6为数据元自动识别系统的组成框图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1所示,本发明公开了一种数据元自动识别方法,包括以下步骤:
步骤1、根据不同行业的标签建立第一级数据元字典,所述第一级数据元字典中的每一个子树对应一个行业,子树的叶子为行业的标签;
步骤2、ElasticSearch集群根据不同行业的标准数据元建立与行业对应的第二级数据元字典,所述第二级数据元字典存放于内存中;所述第二级数据元字典包括中文字典、拼音字典、同义词字典、英文字典和英文同义字典;如图1所示,具体包括以下步骤:
(2.1)构建中文字典:
ElasticSearch使用分词插件对标准数据元进行分词,将分词结果存储于mysql数据库的词库表中,定时查询词库表,根据词库表中的词构建或更新中文字典,所述中文字典以词典树的结构存放于内存中;
由于词典树是根据词库表中的词语构建的,也可以通过修改词库表来修改词典树。当elasticsearch启动加载中文分词插件时,会启动一个从mysql数据库中加载词库的线程,每隔10s就会轮询该mysql中的词库表,从词库表中加载词语来更新或修改词典树;当有新词被添加至词库表中,就会向词典树中添加一个节点。由此实现了动态构建和更新词典树,避免了反复重启elasticsearch集群。
(2.2)构建拼音字典:
将步骤(2.1)的分词结果映射为拼音词,根据拼音词构建拼音字典;所述拼音词包括:全拼、部分全拼、首字母小写缩写、首字母大写缩写中的一个或多个;所述拼音字典以表的结构存放于内存中,每个拼音词为拼音词表中一个节点;
对数据元从拼音的维度建立字典,需要对数据元以拼音的形式进行细化和切分,将其映射为拼音。处理方式和中文分词类似,其中拼音的切分方式比较固定,采用的是集合的方式将所有拼音进行了存储。根据存储其中的拼音,采用不同的组合策略进行处理,比如“身份证”,会以sfz进行表示。这时,在进行拼音维度的切分时,可以是首字母的缩写:sfz或SFZ,其中包含了首字母的大小写;或者是:shenfenzheng,全拼;或者为:shenfenz,有部分字母是全拼而有些字母是首字母的形式。这些切分形式,统一建立成相应的词典表,每个拼音词为拼音词表中一个节点,sfz、SFZ、shenfenzheng、shenfenz在拼音词表中就用4个节点来表示。达到数据元快速拼音拆解的目的,让不同的数据元在不同拼音的层面,以不同的方式进行切分和组合都能准确的表达该数据元的拼音的组成形式。
(2.3)构建同义词字典:
建立词语之间的映射关系存储于数据库表中,所述词语之间的映射关系包括:等价、包含、同义;
定时查询数据库表,根据其中的映射关系构建同义词字典,所述同义词字典采用链表或树来存储数据;当有新的映射关系加入的时候,可以动态的对链表或树进行修改,中间并不需要重新启动elasticsearch集群,建立同义词字典,是为了在数据元识别时,将含义相同的数据元进行合并,减少数据元的冗余,对数据元进行准确表示,以提高数据元的识别率。
(2.4)构建英文字典:
根据数据元中的空格分隔英文单词,构建英文字典,并建立英文词语之间的映射关系,构建英文同义词字典;
建立完中文维度的第二级数据元字典之后,需要对数据元建立英文字典,在某些场景下面,某些列的数据元会以英文的形式进行表示,比如年龄,会用age进行表示,比如性别,会以sex或者gender的形式进行表示,在内存中维护英文字典数据。由于英文一般都是以空格来进行分隔英文单词的,利用空格将英文单词进行切分,建立英文维度的字典树,可以大幅提升识别数据元的准确性。同样在英文字典中,也需要建立英文同义词词典树,方便英文同义词的数据元的自动识别和比对。
(2.5)构建自定义的字典:
在一些场景中,上述分词维度并不能准确地说明数据元的信息,比如在特殊语境中一些词语会有特殊的含义,此外由于南北方言的区别,一些词可以进行映射及标准化。这些情况可以通过构建自定义字典来解决,提高数据元的识别率。
步骤3、对待识别数据元根据停用词进行初步切分,再根据第一级数据元字典中的叶子节点进行分词;计算分词后的文本与第一级数据元字典中每个子树的相似度,选择相似度大于预设的第一级相似度阈值的子树所对应的行业为第一级识别结果;对第一识别结果中的每个行业对应的第二级数据元字典进行匹配:根据行业A的第二级数据元字典计算切分后的文本中词语的TF-IDF权重,对TF-IDF权重最大的词语与行业A的第二级数据元字典中的词语计算相似度,如果相似度大于预设的相似度阈值,认为待识别数据元与行业A的第二级数据元字典匹配成功;否则,匹配失败;行业A为第一级识别结果中一个元素;
如有匹配成功,根据分词策略返回识别结果,所述识别结果为待识别数据元的行业类别;如均为匹配失败,将待识别数据元设置为匹配异常数据元。
本发明中采用余弦相似度来计算词语间的相似度。
停用词存储于mysql数据库中的停用词表中;
当有新的数据元需要识别的时候,首先根据停用词对待识别的数据元进行初步切分,再根据第一级数据元字典中的叶子节点进行进一步分词;然后对分词之后的词汇,第一级数据元字典中每个子树的相似度,选择相似度大于预设的第一级相似度阈值的子树所对应的行业为第一级识别结果;
遍历第一级识别结果中各个行业的第二级数据元字典中的词语进行分词,得到每个行业的分词结果,构成各个行业的待分词数组,其中存在了各个行业的数据元歧义词。如待识别的数据元为“中华人民共和国”,在行业A的第二级数据元字典中,可以分词为:中华、人民、共和国、中华人民共和国,则这四个此为行业A的数据元歧义词,都存放在行业的待分词数组中。即数据元歧义词可能只匹配了待识别数据元中的部分,也可能是全部,这时根据分词策略,来决定返回哪种匹配到数据元。本发明中的分词策略包括:通用分词策略和智能分词策略两种。其中通用分词策略为:返回与待识别数据元匹配成功的所有行业第二级数据元字典所对应的行业;智能匹配策略为:返回与待识别数据元匹配成功的第二级数据元字典中,有效文本长度最长的第二级数据元字典所对应的行业;所述有效文本长度为待识别数据元与第二级数据元字典中匹配到的词语长度之和;
如果有效文本长度最长的第二级数据元字典有多个,则返回其中匹配到的词元个数最少的第二级数据元字典所对应的行业;
如果匹配到的词元个数最少的第二级数据元字典有多个,则返回匹配到的词元中长度最长的词元所在的第二级数据元字典所对应的行业。
通过上面规则,来对数据元进行准确的识别,并方便后期数据元的表示。
第二级数据元字典决定了识别的结果,为了去除数据元字典中的重复内容,在数据元字典建立完成后,对其进行整合,如图2所示,包括如下步骤:
(2.6)当有新的标准数据元加入时,首先判断对应行业的第二级数据元字典是否存在,如果不存在,在第一级数据元字典中增加对应行业的子树,并按照步骤(2.1)-(2.4)来构建对应行业的第二级数据元字典;如果已存在,对所述新的标准数据元按照其对应行业的第二级数据元字典进行分词,将分词后的结果加入到对应行业的第二级数据元字典中,并合并相同的词。
本实施例以外部数据源中的数据元识别为例来进行说明上述方法。
如图3所示,首先注册外部数据源,输入用户名,密码,以及相关的url地址,并测试该数据源的联通性。通过界面选择该数据源中需要导入并进行识别的数据元的表。系统会优先获取该表名称以及该表的注释,并对表的注释根据第一级数据元字典进行分词,计算分词后的文本与第一级数据元字典中每个子树的相似度,选择相似度大于预设的第一级相似度阈值的子树所对应的行业为第一级识别结果;
根据第一级识别结果来判断是进入哪个行业的数据元字典中进行搜索,如果无法找到该数据元的相关行业,则对所有第二级数据元字典表进行全局搜索。完成数据表的表名的搜索之后,下面对表中的具体列进行数据元匹配,首先通过字段的中文注释搜索第二级数据元字典,将列名称的中文注释进行中文分词,其中分词的策略主要分为两种,一种是通用分词策略,一种是智能分词策略,优先使用智能分词策略,比如是,中国人,在进行分词搜索时,可以将中国人,切分成中国或者是中国人,默认搜索时会将数据优先按照中国人进行搜索,按照智能方式进行搜索,这样匹配率更加准确,将中文分词的结果放入elasticsearch中进行搜索,其中主要使用中文字典和同义词字典,通过这两列进行搜索。如果elasticsearch中无法从第二级数据元字典中检索到数据,尝试从字段名称即列名称,利用列名称进行搜索,列名基本上可以通过拼音字典和英文字典进行搜索。通过拼音中首字母缩写及文字的全拼,及部分全拼进行全局搜索,并同时按照英文名称进行全局搜索,计算搜索出的结果集与搜索内容的的TF-IDF权重,对TF-IDF权重大于预设的权重阈值的搜索结果,计算其与搜索内容的相似度,并按照相似度从大到小进行排序,取排序排名靠前的数据元进行作为推荐的匹配结果。
经过上述数据元的自动匹配之后,有些数据元可能存在专有名词,或者其中相关列信息描述的并不是很清晰,数据元匹配可能会出现失败或异常,需要对匹配异常的数据元进行处理,如图4所示,包括如下步骤:
(4.1)判断匹配异常数据元的字段类型,标识出属性类别,所述属性类别包括:整型、长整型、字符型、日期类型;
(4.2)如果匹配异常数据元为数值类型,计算匹配异常数据元与每个行业第二级数据元字典的相似度,对所述数据元的数值套用相似度最高的行业的正则表达式,判断是否为行业中的特殊编号;
(4.3)如果匹配异常数据元为字符类型,对所述字符进行中英文分词,并对分词结果集中,进行词性的标注;根据标注的词性和分词的关键字,将此数据元删除或设置为新的标准数据元;
(4.4)如果设置为新的标准数据元,对此数据元按照步骤(1)建立新的第二级数据元字典,并在第一级数据元字典中增加子树。
数据元识别完成后,根据绑定在数据元上的校验规则和清洗规则对数据元进行校验和清洗,具体流程如图5所示。
首先会通过校验规则对数据元进行校验,比如进行空值检测,标识出该列的值为空值,并按照识别后的数据源类别进行规则校验,比如身份证号校验,会检测身份证号的长度,身份证号最后一位是否满足特殊位校验,以及所填写的身份证号中提取的出生年月日,是否满足数值规范等。手机号检测,是否满足特定长度的数字,其电话号码是否满足规范。对不符合规范的数据,在进行数据元校验时,对所有不符合规范的数据都进行了标记,在数据清洗时,可以对已经标记为不符合规范的数据进行统一的剔除或者对原始数据进行填充,比如将原先的空值进行填充,将原先不符合规范值进行修复,比如不符合规范长度的数据,将其填充到特定长度。通过对数据元进行规范化处理之后,原始数据的数据质量会得到大幅的提高。
本实施例还公开了一种数据元自动识别系统来实施上述方法,如图6所示,包括:第一级数据元字典存储模块、数据元输入模块,数据元字典构建模块、数据元匹配模块、数据元字典管理模块、匹配异常数据元处理模块、校验模块和数据清洗模块;
所述第一级数据元字典存储模块用于存储根据不同行业的标签建立的第一级数据元字典;
所述数据元输入模块用于输入不同行业的标准数据元;
所述数据元字典构建模块根据不同行业的标准数据元建立与行业对应的第二级数据元字典;
所述数据元匹配模块用于对待识别数据元进行切分;切分后的词语与第二级数据元字典进行匹配,并返回匹配结果。
所述数据元字典管理模块用于修改、自定义、整合数据元字典。
所述匹配异常数据元处理模块按照步骤(4.1)-(4.4)对匹配异常的数据元进行处理。
所述校验模块根据预设的校验规则对数据元进行校验;所述数据清洗模块根据预设的清洗规则对数据元进行清洗;对于校验失败的数据元,在数据清洗阶段进行删除或修复。

Claims (10)

1.数据元自动识别方法,其特征在于,包括如下步骤:
(1)根据不同行业的标签建立第一级数据元字典,所述第一级数据元字典中的每一个子树对应一个行业,子树的叶子为行业的标签;
(2)ElasticSearch集群根据不同行业的标准数据元建立与行业对应的第二级数据元字典,所述第二级数据元字典存放于内存中;所述第二级数据元字典包括中文字典、拼音字典、同义词字典、英文字典和英文同义字典;具体包括以下步骤:
(2.1)构建中文字典:
ElasticSearch使用分词插件对标准数据元进行分词,将分词结果存储于mysql数据库的词库表中,定时查询词库表,根据词库表中的词构建或更新中文字典,所述中文字典以词典树的结构存放于内存中;
(2.2)构建拼音字典:
将步骤(1.1)的分词结果映射为拼音词,根据拼音词构建拼音字典;所述拼音词包括:全拼、部分全拼、首字母小写缩写、首字母大写缩写中的一个或多个;所述拼音字典以表的结构存放于内存中,每个拼音词为拼音词表中一个节点;
(2.3)构建同义词字典:
建立词语之间的映射关系存储于数据库表中,所述词语之间的映射关系包括:等价、包含、同义;
定时查询数据库表,根据其中的映射关系构建同义词字典,所述同义词字典采用链表或树来存储数据;
(2.4)构建英文字典:
根据数据元中的空格分隔英文单词,构建英文字典树,并建立英文词语之间的映射关系,构建英文同义词字典;
(3)对待识别数据元根据停用词进行初步切分,再根据第一级数据元字典中的叶子节点进行分词;
计算分词后的文本与第一级数据元字典中每个子树的相似度,选择相似度大于预设的第一级相似度阈值的子树所对应的行业为第一级识别结果;
对第一识别结果中的每个行业对应的第二级数据元字典进行匹配:根据行业A的第二级数据元字典计算分词后的文本中词语的TF-IDF权重,对TF-IDF权重最大的词语与行业A的第二级数据元字典中的词语计算相似度,如果相似度大于预设的相似度阈值,认为待识别数据元与行业A的第二级数据元字典匹配成功;否则,匹配失败;行业A为第一级识别结果中一个元素;
如有匹配成功,根据分词策略返回识别结果,所述识别结果为待识别数据元的行业类别;如均为匹配失败,将待识别数据元设置为匹配异常数据元;
所述停用词存储于停用词表中,所述停用词表存储于mysql数据库中。
2.根据权利要求1所述的数据元自动识别方法,其特征在于,所述第二级数据元字典还包括自定义字典;所述自定义字典中存储用户自定义的词语。
3.根据权利要求1所述的数据元自动识别方法,其特征在于,所述步骤(2)还包括:
(2.6)对第二级数据元字典进行整合,当有新的标准数据元加入时,首先判断对应行业的第二级数据元字典是否存在,如果不存在,在第一级数据元字典中增加对应行业的子树,并按照步骤(2.1)-(2.4)来构建对应行业的第二级数据元字典;如果已存在,对所述新的标准数据元按照其对应行业的第二级数据元字典进行分词,将分词后的结果加入到对应行业的第二级数据元字典中,并合并相同的词。
4.根据权利要求1所述的数据元自动识别方法,其特征在于,还包括对匹配异常的数据元进行处理,包括如下步骤:
(4.1)判断匹配异常数据元的字段类型,标识出属性类别,所述属性类别包括:整型、长整型、字符型、日期类型;
(4.2)如果匹配异常数据元为数值类型,计算匹配异常数据元与每个行业第二级数据元字典的相似度,对所述数据元的数值套用相似度最高的行业的正则表达式,判断是否为行业中的特殊编号;
(4.3)如果匹配异常数据元为字符类型,对所述字符进行中英文分词,并对分词结果集中,进行词性的标注;根据标注的词性和分词的关键字,将此数据元删除或设置为新的标准数据元;
(4.4)如果设置为新的标准数据元,对此数据元按照步骤(1)和步骤(2)建立新的第二级数据元字典,并在第一级数据元字典中增加子树。
5.根据权利要求1所述的数据元自动识别方法,其特征在于,还包括校验和数据清洗;所述校验为根据预设的校验规则对数据元进行校验;所述数据清洗为根据预设的清洗规则对数据元进行清洗;对于校验失败的数据元,在数据清洗阶段进行删除或修复。
6.根据权利要求1所述的数据元自动识别方法,其特征在于,所述分词策略包括:通用分词策略和智能分词策略;
所述通用分词策略为:返回与待识别数据元匹配成功的所有行业第二级数据元字典所对应的行业;
所述智能匹配策略为:返回与待识别数据元匹配成功的第二级数据元字典中,有效文本长度最长的第二级数据元字典所对应的行业;所述有效文本长度为待识别数据元与第二级数据元字典中匹配到的词语长度之和;
如果有效文本长度最长的第二级数据元字典有多个,则返回其中匹配到的词元个数最少的第二级数据元字典所对应的行业;
如果匹配到的词元个数最少的第二级数据元字典有多个,则返回匹配到的词元中长度最长的词元所在的第二级数据元字典所对应的行业。
7.数据元自动识别系统,其特征在于,包括:第一级数据元字典存储模块、数据元输入模块,数据元字典构建模块、数据元匹配模块;
所述第一级数据元字典存储模块用于存储根据不同行业的标签建立的第一级数据元字典;
所述数据元输入模块用于输入不同行业的标准数据元;
所述数据元字典构建模块根据不同行业的标准数据元建立与行业对应的第二级数据元字典;
所述数据元匹配模块用于对待识别数据元进行切分;切分后的词语与第二级数据元字典进行匹配,并返回匹配结果。
8.根据权利要求7所述的数据元自动识别系统,其特征在于,还包括数据元字典管理模块,所述数据元字典管理模块用于修改、自定义、整合数据元字典。
9.根据权利要求7所述的数据元自动识别系统,其特征在于,还包括匹配异常数据元处理模块,所述匹配异常数据元处理模块按照权利要求4中所述步骤(4.1)-(4.4)对匹配异常的数据元进行处理。
10.根据权利要求7所述的数据元自动识别系统,其特征在于,还包括校验模块和数据清洗模块;所述校验模块根据预设的校验规则对数据元进行校验;所述数据清洗模块根据预设的清洗规则对数据元进行清洗;对于校验失败的数据元,在数据清洗阶段进行删除或修复。
CN201910972010.4A 2019-10-14 2019-10-14 数据元自动识别方法和识别系统 Active CN110851559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910972010.4A CN110851559B (zh) 2019-10-14 2019-10-14 数据元自动识别方法和识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910972010.4A CN110851559B (zh) 2019-10-14 2019-10-14 数据元自动识别方法和识别系统

Publications (2)

Publication Number Publication Date
CN110851559A true CN110851559A (zh) 2020-02-28
CN110851559B CN110851559B (zh) 2020-10-09

Family

ID=69596527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910972010.4A Active CN110851559B (zh) 2019-10-14 2019-10-14 数据元自动识别方法和识别系统

Country Status (1)

Country Link
CN (1) CN110851559B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668314A (zh) * 2020-12-30 2021-04-16 深圳市华傲数据技术有限公司 数据标准符合性检测方法、装置、系统及存储介质
CN112784584A (zh) * 2020-12-23 2021-05-11 北京泰豪智能工程有限公司 一种文本数据元语义识别方法及装置
CN112948365A (zh) * 2021-03-04 2021-06-11 浪潮云信息技术股份公司 一种基于数据元智能匹配的数据质量检测方法
CN113032532A (zh) * 2021-05-21 2021-06-25 杭州未名信科科技有限公司 基于健康医疗大数据标准库的多源数据处理方法与系统
CN113139657A (zh) * 2021-04-08 2021-07-20 北京泰豪智能工程有限公司 一种机器思维实现方法及装置
CN113591485A (zh) * 2021-06-17 2021-11-02 国网浙江省电力有限公司 一种基于数据科学的智能化数据质量稽核系统及方法
CN114781378A (zh) * 2022-06-21 2022-07-22 江苏荣泽信息科技股份有限公司 基于区块链的企业数据治理方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019788B1 (en) * 2002-09-30 2011-09-13 Siemens Product Lifecycle Management Software Inc. Data compression and file segmentation in directmodel JT datastores
CN102955832A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的系统
CN103823799A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 新一代行业知识全文检索方法
CN103942245A (zh) * 2014-02-19 2014-07-23 浪潮软件股份有限公司 基于元数据的数据抽取方法
CN104346379A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于逻辑和统计技术的数据元识别方法
JP2016224483A (ja) * 2015-05-26 2016-12-28 日本電信電話株式会社 モデル学習装置、方法、及びプログラム
CN108369582A (zh) * 2018-03-02 2018-08-03 福建联迪商用设备有限公司 一种地址纠错方法及终端
CN108563791A (zh) * 2018-04-29 2018-09-21 华中科技大学 一种建筑质量投诉文本分类的方法和系统
CN109815498A (zh) * 2019-01-25 2019-05-28 深圳市小赢信息技术有限责任公司 一种中文地址标准化方法、装置及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019788B1 (en) * 2002-09-30 2011-09-13 Siemens Product Lifecycle Management Software Inc. Data compression and file segmentation in directmodel JT datastores
CN102955832A (zh) * 2011-08-31 2013-03-06 深圳市华傲数据技术有限公司 一种通讯地址识别、标准化的系统
CN103823799A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 新一代行业知识全文检索方法
CN104346379A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于逻辑和统计技术的数据元识别方法
CN103942245A (zh) * 2014-02-19 2014-07-23 浪潮软件股份有限公司 基于元数据的数据抽取方法
JP2016224483A (ja) * 2015-05-26 2016-12-28 日本電信電話株式会社 モデル学習装置、方法、及びプログラム
CN108369582A (zh) * 2018-03-02 2018-08-03 福建联迪商用设备有限公司 一种地址纠错方法及终端
CN108563791A (zh) * 2018-04-29 2018-09-21 华中科技大学 一种建筑质量投诉文本分类的方法和系统
CN109815498A (zh) * 2019-01-25 2019-05-28 深圳市小赢信息技术有限责任公司 一种中文地址标准化方法、装置及电子设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DIPTA TANAYA ET AL: "Dictionary-based Word Segmentation for Javanese", 《PROCEDIA COMPUTER SCIENCE》 *
RABIYA RASHID ET AL: "A Dictionary Based Urdu Word Segmentation Using Maximum Matching Algorithm for Space Omission Problem", 《2012 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING》 *
张庆扬 等: "使用二级索引的中文分词词典", 《计算机工程与应用》 *
沈斌: "基于分词的中文文本相似度计算研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈平 等: "基于字典和统计的分词方法", 《计算机工程与应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784584A (zh) * 2020-12-23 2021-05-11 北京泰豪智能工程有限公司 一种文本数据元语义识别方法及装置
CN112784584B (zh) * 2020-12-23 2024-01-26 北京泰豪智能工程有限公司 一种文本数据元语义识别方法及装置
CN112668314A (zh) * 2020-12-30 2021-04-16 深圳市华傲数据技术有限公司 数据标准符合性检测方法、装置、系统及存储介质
CN112948365A (zh) * 2021-03-04 2021-06-11 浪潮云信息技术股份公司 一种基于数据元智能匹配的数据质量检测方法
CN113139657A (zh) * 2021-04-08 2021-07-20 北京泰豪智能工程有限公司 一种机器思维实现方法及装置
CN113139657B (zh) * 2021-04-08 2024-03-29 北京泰豪智能工程有限公司 一种机器思维实现方法及装置
CN113032532A (zh) * 2021-05-21 2021-06-25 杭州未名信科科技有限公司 基于健康医疗大数据标准库的多源数据处理方法与系统
CN113032532B (zh) * 2021-05-21 2021-08-17 杭州未名信科科技有限公司 基于健康医疗大数据标准库的多源数据处理方法与系统
CN113591485A (zh) * 2021-06-17 2021-11-02 国网浙江省电力有限公司 一种基于数据科学的智能化数据质量稽核系统及方法
CN114781378A (zh) * 2022-06-21 2022-07-22 江苏荣泽信息科技股份有限公司 基于区块链的企业数据治理方法及系统
CN114781378B (zh) * 2022-06-21 2022-09-13 江苏荣泽信息科技股份有限公司 基于区块链的企业数据治理方法及系统

Also Published As

Publication number Publication date
CN110851559B (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN110851559B (zh) 数据元自动识别方法和识别系统
CN112069298B (zh) 基于语义网和意图识别的人机交互方法、设备及介质
WO2020192401A1 (en) System and method for generating answer based on clustering and sentence similarity
JP6596517B2 (ja) 口語語義解析システム及び方法
CN110362824B (zh) 一种自动纠错的方法、装置、终端设备及存储介质
US9798776B2 (en) Systems and methods for parsing search queries
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
JPH10260968A (ja) 中国文分節化の方法および中国語誤り検査(cec)システムへのその応用
WO2017091985A1 (zh) 停用词识别方法与装置
CN111613214A (zh) 一种用于提升语音识别能力的语言模型纠错方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
Mandal et al. Clustering-based Bangla spell checker
CN110597978A (zh) 物品摘要生成方法、系统、电子设备及可读存储介质
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
KR20200018469A (ko) 데이터 압축 및 분석을 위한 컴퓨터화된 방법
US11151317B1 (en) Contextual spelling correction system
CN113642327A (zh) 一种标准知识库的构建方法及装置
CN113722460A (zh) 指标数据入库方法、装置、设备及存储介质
CN113032371A (zh) 数据库语法分析方法、装置和计算机设备
Barari et al. CloniZER spell checker adaptive language independent spell checker
US20210182549A1 (en) Natural Language Processing (NLP) Pipeline for Automated Attribute Extraction
CN109684357B (zh) 信息处理方法及装置、存储介质、终端
CN110309258B (zh) 一种输入检查方法、服务器和计算机可读存储介质
CN106776590A (zh) 一种获取词条译文的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant