CN109902090B - 字段名称获取方法和装置 - Google Patents
字段名称获取方法和装置 Download PDFInfo
- Publication number
- CN109902090B CN109902090B CN201910122907.8A CN201910122907A CN109902090B CN 109902090 B CN109902090 B CN 109902090B CN 201910122907 A CN201910122907 A CN 201910122907A CN 109902090 B CN109902090 B CN 109902090B
- Authority
- CN
- China
- Prior art keywords
- sub
- name
- field
- names
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种字段名称获取方法和装置。通过获取一组字段,基于预设词库和/或机器翻译模型获分别获取所述一组字段中每个字段的候选名称,根据预设规则,分别对所述每个字段的候选名称进行筛选,将筛选出的候选名称确定为该字段的名称,可以节约人工成本、提高工作效率以及提高字段和名称对应的准确度。
Description
技术领域
本发明涉及但不限于信息处理技术领域,具体涉及一种字段名称获取方法和装置。
背景技术
随着计算机行业的不断发展,各行各业都积累了大量的数据。字段的命名方法多种多样,例如,基于数据描述的拼音缩写或全拼,英文单词或缩写、拼音缩写或单词缩写与数字的组合等。因此,实际的字段往往是无法通过其形式简单理解的,其复杂性体现在如下几种情况里:
(a)相同的字段名在不同的表里有不同的意思。比如,字段“CS”在一些表里对应的名称可能是表示“城市”,但在其它表里对应的名称可能是“场所”、“措施”等;
(b)同一个字段在不同的表里的字段各不相同。比如“性别”对应的字段可能包括“XB”、“XINGBIE”、“SEX”等;
(c)一个相同的概念在不同的表里有不同的描述。比如,“时间”、“时刻”的意思一样,对应的字段可能都是“TIME”。
如果每张数据表都维护了完善且准确的字段和名称的对应表,那么就能很好的对不同数据表汇总和关联。但实际中并不是每个数据表都有相应的文档,并且同一个概念的中文描述可能不一致。这种情况下,往往需要人工来完成数据表的字段整理,而且理解大量字母形式的字段,需要花费很多人力时间,并且通过人工获得的字段所对应名称的准确度不高。
发明内容
本发明提供了一种字段名称获取方法和装置,能够节约人工成本、提高工作效率以及提高字段和名称对应的准确度。
本发明实施例提供了一种字段名称获取方法,包括:
获取一组字段;
基于预设词库和/或机器翻译模型获分别获取所述一组字段中每个字段的候选名称;
根据预设规则,分别对所述每个字段的候选名称进行筛选;
将筛选出的候选名称确定为该字段的名称。
在一个示例性实施例中,所述基于预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,包括:
当在所述预设词库中查询到所述字段且所述预设词库中所述字段对应的候选名称唯一时,标注所述字段的类型为第一类型,获取所述预设词库中所述字段对应的唯一候选名称;
当在所述预设词库中查询到所述字段并且所述预设词库中所述字段对应多个候选名称时,标注所述字段的类型为第二类型,获取所述词库中所述字段对应的多个候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当所述字段属于第一类型时,将所述预设词库中获取的所述字段对应的唯一候选名称确定为所述字段的名称;
当所述字段属于第二类型时,获取所述一组字段中属于第一类型的字段对应的候选名称;
使用分词方式分别将该组字段中属于第一类型的字段对应的候选名称进行分词,获得该组字段中属于第一类型的字段对应的候选名称的第一类型子名称;
将所述获取的第一子类型名称组成第一子名称集合,并统计所述第一子名称集合中的各第一类型子名称出现的次数;
分别对所述第二类型字段中对应的多个候选名称进行分词获得各候选名称的第二类型子名称;
将所述第二类型子名称组成第二子名称集合,并统计所述第二子名称集合中各第二类型子名称出现的次数;
对比所述第一子名称集合和所述第二子名称集合,根据对比结果,对所述候选名称进行筛选。
在一个示例性实施例中,所述对比第一子名称集合和所述第二子名称集合,根据对比结果,对所述候选名称进行筛选,包括:
当所述第一子名称集合和所述第二子名称集合中存在一个相同元素时,确定所述相同元素对应的第二子名称所在的候选名称为所述字段的名称;
当所述第一子名称集合和所述第二子名称集合存在多个相同元素时,对比所述相同元素对应的第二子名称所在候选名称中的包括的子名称在所述第一子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称;
当所述第一子名称集合和所述第二子名称集合中不存在相同元素时,根据统计出的所述第二子名称集合中各第二类型子名称出现的次数,对比各候选名称中包括的子名称在所述第二子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称。
在一个示例性实施例中,所述基于预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,还包括:
当在所述预设词库中未查询到所述字段时,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中查询到全部所述多个子字段时,将所述字段的类型标注为第三类型,获取所述预设词库中所述多个子字段对应的名称,将所述多个子字段对应的名称,按照所述字段的顺序进行组合,得到所述字段对应的候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字段的候选名称进行筛选,包括:
当所述字段属于第三类型时,获取所述一组字段中属于第一类型的字段对应的名称和第二类型的字段对应的名称;
使用分词方式分别对该组字段中属于所述第一类型和所述第二类型的字段的名称进行分词,获得各所述第一类型和所述第二类型的名称的子名称;
将所述获取的各子名称组成第三子名称集合,统计各子名称在所述第三子集合中出现的次数;
分别对所述第三类型字段中每个字段对应的多个候选名称进行分词,将获得的第三类型子名称组成第四子名称集合;
对比所述第三子名称集合和所述第四子名称集合,根据对比结果,对所述候选名称进行筛选。
在一个示例性实施例中,对比所述第三子名称集合和所述第四子名称集合,根据对比结果,对所述候选名称进行筛选,包括:
当所述第三子名称集合和所述第四子名称集合中存在一个相同元素时,确定所述相同元素对应的第三子名称所在的候选名称为所述字段的名称;
当所述第三子名称集合和所述第四子名称集合存在多个相同元素时,对比所述相同元素对应的第三子名称所在候选名称中的包括的子名称在所述第三子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称;
当所述第三子名称集合和所述第四子名称集合中不存在相同元素时,根据统计出的所述第四子名称集合中各第三类型子名称出现的次数,对比各候选名称中包括的子名称在所述第三子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称。
在一个示例性实施例中,基于所述预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,包括:当在所述预设词库中未查询到所述字段时,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中仅查询到所述多个子字段中的部分子字段时,将所述字段的类型标注为第四类型,比较查询到的子字段的长度,获取所述预设词库中查询到的子字段长度最长的子字段对应的名称作为所述字段的第一候选名称,并通过机器翻译模型获取所述字段的第二候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当所述字段属于第四类型时,判断所述第二候选名称的确信度是否大于预设阈值;
当所述第二候选名称的确信度大于所述预设阈值时,确定所述第二候选名称为所述字段的名称;
当所述第二候选名称的确信度小于或等于所述预设阈值时,确定所述第一候选名称为所述字段的名称。
在一个示例性实施例中,基于所述预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,包括:
当在所述预设词库中未查询到所述字段,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中查询不到所述多个子字段时,将所述字段的类型标注为第五类型,通过所述机器翻译模型获取所述字段的候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当通过机器翻译模型获取到的候选名称的个数等于1时,确定所述候选名称为所述字段的名称;
当通过机器翻译模型获取到的候选名称的个数大于1时,比较各候选名称的确信度,确定确信度最大的候选名称为所述字段的名称。
本发明实施例还提供了一种字段名称获取装置,包括:存储器和处理器;其中,
所述存储器,用于存储计算机可读指令;
所述处理器,用于执行所述计算机可读指令,以执行如下操作:
获取一组字段;
基于预设词库和/或机器翻译模型获分别获取所述一组字段中每个字段的候选名称;
根据预设规则,分别对所述每个字段的候选名称进行筛选;
将筛选出的候选名称确定为该字段的名称。
在一个示例性实施例中,所述基于预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,包括:
当在所述预设词库中查询到所述字段且所述预设词库中所述字段对应的候选名称唯一时,标注所述字段的类型为第一类型,获取所述预设词库中所述字段对应的唯一候选名称;
当在所述预设词库中查询到所述字段并且所述预设词库中所述字段对应多个候选名称时,标注所述字段的类型为第二类型,获取所述词库中所述字段对应的多个候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当所述字段属于第一类型时,将所述预设词库中获取的所述字段对应的唯一候选名称确定为所述字段的名称;
当所述字段属于第二类型时,获取所述一组字段中属于第一类型的字段对应的候选名称;
使用分词方式分别将该组字段中属于第一类型的字段对应的候选名称进行分词,获得该组字段中属于第一类型的字段对应的候选名称的第一类型子名称;
将所述获取的第一子类型名称组成第一子名称集合,并统计所述第一子名称集合中的各第一类型子名称出现的次数;
分别对所述第二类型字段中对应的多个候选名称进行分词获得各候选名称的第二类型子名称;
将所述第二类型子名称组成第二子名称集合,并统计所述第二子名称集合中各第二类型子名称出现的次数;
对比所述第一子名称集合和所述第二子名称集合,根据对比结果,对所述候选名称进行筛选。
在一个示例性实施例中,所述对比第一子名称集合和所述第二子名称集合,根据对比结果,对所述候选名称进行筛选,包括:
当所述第一子名称集合和所述第二子名称集合中存在一个相同元素时,确定所述相同元素对应的第二子名称所在的候选名称为所述字段的名称;
当所述第一子名称集合和所述第二子名称集合存在多个相同元素时,对比所述相同元素对应的第二子名称所在候选名称中的包括的子名称在所述第一子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称;
当所述第一子名称集合和所述第二子名称集合中不存在相同元素时,根据统计出的所述第二子名称集合中各第二类型子名称出现的次数,对比各候选名称中包括的子名称在所述第二子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称。
在一个示例性实施例中,所述基于预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,还包括:
当在所述预设词库中未查询到所述字段时,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中查询到全部所述多个子字段时,将所述字段的类型标注为第三类型,获取所述预设词库中所述多个子字段对应的名称,将所述多个子字段对应的名称,按照所述字段的顺序进行组合,得到所述字段对应的候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字段的候选名称进行筛选,包括:
当所述字段属于第三类型时,获取所述一组字段中属于第一类型的字段对应的名称和第二类型的字段对应的名称;
使用分词方式分别对该组字段中属于所述第一类型和所述第二类型的字段的名称进行分词,获得各所述第一类型和所述第二类型的名称的子名称;
将所述获取的各子名称组成第三子名称集合,统计各子名称在所述第三子集合中出现的次数;
分别对所述第三类型字段中每个字段对应的多个候选名称进行分词,将获得的第三类型子名称组成第四子名称集合;
对比所述第三子名称集合和所述第四子名称集合,根据对比结果,对所述候选名称进行筛选。
在一个示例性实施例中,对比所述第三子名称集合和所述第四子名称集合,根据对比结果,对所述候选名称进行筛选,包括:
当所述第三子名称集合和所述第四子名称集合中存在一个相同元素时,确定所述相同元素对应的第三子名称所在的候选名称为所述字段的名称;
当所述第三子名称集合和所述第四子名称集合存在多个相同元素时,对比所述相同元素对应的第三子名称所在候选名称中的包括的子名称在所述第三子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称;
当所述第三子名称集合和所述第四子名称集合中不存在相同元素时,根据统计出的所述第四子名称集合中各第三类型子名称出现的次数,对比各候选名称中包括的子名称在所述第三子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称。
在一个示例性实施例中,基于所述预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,包括:当在所述预设词库中未查询到所述字段时,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中仅查询到所述多个子字段中的部分子字段时,将所述字段的类型标注为第四类型,比较查询到的子字段的长度,获取所述预设词库中查询到的子字段长度最长的子字段对应的名称作为所述字段的第一候选名称,并通过机器翻译模型获取所述字段的第二候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当所述字段属于第四类型时,判断所述第二候选名称的确信度是否大于预设阈值;
当所述第二候选名称的确信度大于所述预设阈值时,确定所述第二候选名称为所述字段的名称;
当所述第二候选名称的确信度小于或等于所述预设阈值时,确定所述第一候选名称为所述字段的名称。
在一个示例性实施例中,基于所述预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,包括:
当在所述预设词库中未查询到所述字段,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中查询不到所述多个子字段时,将所述字段的类型标注为第五类型,通过所述机器翻译模型获取所述字段的候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当通过机器翻译模型获取到的候选名称的个数等于1时,确定所述候选名称为所述字段的名称;
当通过机器翻译模型获取到的候选名称的个数大于1时,比较各候选名称的确信度,确定确信度最大的候选名称为所述字段的名称。
本发明实施例提供的字段名称获取方法和装置,基于预设词库和/或机器翻译模型获分别获取一组字段中每个字段的候选名称,根据预设规则,分别对所述每个字段的候选名称进行筛选,将筛选出的候选名称确定为该字段的名称,能够节约人工成本、提高工作效率以及提高字段和名称对应的准确度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明示例性实施例中字段名称获取方法的流程图;
图2为本发明示例性实施例中字段名称获取装置示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是本发明示例性实施例中字段名称获取方法的流程图。如图1所示,本示例性实施例提供一种字段名称获取方法,包括步骤S101-S104:
步骤S101:获取一组字段。
在该步骤中,所述一组字段中的字段可以是拼音缩写、拼音全拼、英文单词、英文缩写、拼音缩写或单词缩写与数字的组合等。例如,CS、P2P、XINBIE。字段还可以采用其他形式,本申请不限于此。
在该步骤中,所述一组字段可以是同一个表格中的各个字段,可以是其它彼此之间具有一定关联性的各个字段,比如同属于一个项目或一篇文章的各个字段。
步骤S102:基于预设词库和/或机器翻译模型获分别获取所述一组字段中每个字段的候选名称。
在该步骤中,预设词库可以包括基本词库和扩展词库。其中,基本词库中包括字段和该字段对应的名称。基本词库中的数据可以来自预定领域,例如,可以是同一个行业或同一个机构的数据等,本申请对此不做限定。扩展词库可以是在基本词库的扩展,可以使用中文分词方式基本词库中字段对应的名称进行分词,获得各名称的子名称,将子名称进行组合,得到该字段名称的全部子名称,再通过字段名称转换方式,例如,汉字转拼音的方式,得到子名称对应的子字段,将子字段和其对应的子名称存储在扩展词库中。
例如,在基本词库中有一个字段“FZXYRSFZHM”,其对应的名称为“犯罪嫌疑人身份证号码”,采用分词工具对该字段对应的名称进行分词,可以得到“犯罪”、“嫌疑人”、“身份证”、“号码”子名称,将这些子名称相互组合,得到该字段名称的全部子名称:“犯罪”、“犯罪嫌疑人”、“犯罪嫌疑人身份证”、“嫌疑人”、“嫌疑人身份证”、“嫌疑人身份证号码”、“身份证”、“身份证号码”、“号码”,得到全部子名称,再用汉字转拼音缩写工具得到个字名称对应的子字段,将各子字段和子字段名称对应起来,存储在扩展词库中:“FZ犯罪”、“FZXYR犯罪嫌疑人”、“FZXYRSHZ犯罪嫌疑人身份证”、“XYR嫌疑人”、“XYRSHZ嫌疑人身份证”、“XYRSFZHM嫌疑人身份证号码”、“SFZ身份证”、“SFZHM身份证号码”、“HM号码”。
预设词库中可以存储字段和其名称的对应关系,例如,[SHIDIAN(时点)、(时间)],可以存储字段和其名称的对应关系以及该对应关系出现的频次,其中,对应关系出现的频次,例如{“SHIJIAN”:[(‘时间’,5),(‘时点’,2)]},表示在预设词库的数据标注阶段中SHIJIAN一共出现过7次,SHIJIAN被5次标注为时间,2次标注为时点。在有些情况下,同一个字段同时出现在基本词库和扩展词库中,在存储对应关系出现的频次时可以存储该字段在两个词库中的对应关系,例如,{‘FZXYR’:[(‘犯罪嫌疑人’,10,4)]}表示:”FZXYR犯罪嫌疑人”在两个词库里面总共出现了10次,其中在基本词库中出现了4次。
机器翻译模型可以通过使用现有数据作为训练样本训练得到。机器翻译模型可以是统计机器翻译模型(SMT)、神经网络机器翻译模型等。本申请对所使用的机器翻译模型的类型不做限定。
步骤103:根据预设规则,分别对所述一组字段中每个字段的候选名称进行筛选。
步骤104:将筛选出的候选名称确定为该字段的名称。
本示例性实施例提供的字段名称获取方法,基于预设词库和/或机器翻译模型获分别获取所述一组字段中每个字段的候选名称,减少了人工操作的时间,提高了工作效率;通过采用基本词库结合机器翻译模型获取候选名称的方式,提高了候选名称获取方式的灵活性;在获得字段的候选名称后,根据预设的规则对字段的候选名称进行筛选,因此提高了字段和名称对应的准确度。
在一个示例性实施例中,所述基于预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,包括:
当在所述预设词库中查询到所述字段且所述预设词库中所述字段对应的候选名称唯一时,标注所述字段的类型为第一类型,获取所述预设词库中所述字段对应的唯一候选名称;
当在所述预设词库中查询到所述字段并且所述预设词库中所述字段对应多个候选名称时,标注所述字段的类型为第二类型,获取所述词库中所述字段对应的多个候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当所述字段属于第一类型时,将所述预设词库中获取的所述字段对应的唯一候选名称确定为所述字段的名称;
当所述字段属于第二类型时,获取所述一组字段中属于第一类型的字段对应的候选名称;
使用分词方式分别将该组字段中属于第一类型的字段对应的候选名称进行分词,获得该组字段中属于第一类型的字段对应的候选名称的第一类型子名称;
将所述获取的第一子类型名称组成第一子名称集合,并统计所述第一子名称集合中的各第一类型子名称出现的次数;
分别对所述第二类型字段中对应的多个候选名称进行分词获得各候选名称的第二类型子名称;
将所述第二类型子名称组成第二子名称集合,并统计所述第二子名称集合中各第二类型子名称出现的次数;
对比所述第一子名称集合和所述第二子名称集合,根据对比结果,对所述候选名称进行筛选。
在本示例性实施例中,该预设词库是专门针对某个领域设立的词库,属于第一类型的字段在预设词库中对应唯一候选名称,该候选名称的准确性比较高,因此,属于第一类型字段在预设词库中对应的唯一候选名称可以直接确定为该字段的名称。在对第二类型字段对应的多个候选名称进行筛选时,采用了第一类型字段名称的统计结果,充分利用了字段间的内在联系,提高了准确度。
例如,一组字段{SLDW,SLRQ}中,字段SLDW属于第一类型字段,在预设词库中有唯一对应的候选名称“受理单位”,该“受理单位”为字段SLDW的名称。将“受理单位”进行分词得到第一子名称集合并统计各子名称在第一子名称集合中出现的次数{受理(1),单位(1)}。字段SLRQ在预设词库中查询不到,对字段SLRQ进行分词得到子字段SL和RQ,查询预设词库分别得到SL对应的候选名称为受理、设立,RQ对应的候选名称为日期,得到第二子名称集合并统各子名称在第二子名称集合中出现的次数{受理(1)、设立(1)、日期(1)}。
在一个示例性实施例中,所述对比第一子名称集合和所述第二子名称集合,根据对比结果,对所述候选名称进行筛选,包括:
当所述第一子名称集合和所述第二子名称集合中存在一个相同元素时,确定所述相同元素对应的第二子名称所在的候选名称为所述字段的名称;
当所述第一子名称集合和所述第二子名称集合存在多个相同元素时,对比所述相同元素对应的第二子名称所在候选名称中的包括的子名称在所述第一子名称集合中出现的频次之和,确定子名称出现次数之和最大的候选名称为所述字段的名称;
当所述第一子名称集合和所述第二子名称集合中不存在相同元素时,根据统计出的所述第二子名称集合中各第二类型子名称出现的次数,对比各候选名称中包括的子名称在所述第二子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称。
以上述一组字段{SLDW,SLRQ}为例,字段SLDW属于第一类型字段,在预设词库中有唯一对应的候选名称“受理单位”,该“受理单位”为字段SLDW的名称。将“受理单位”进行分词得到第一子名称集合并统计各子名称在第一子名称集合中出现的次数{受理(1),单位(1)}。字段SLRQ在预设词库中查询不到,对字段SLRQ进行分词得到子字段SL和RQ,查询预设词库分别得到SL对应的候选名称为受理、设立,RQ对应的候选名称为日期,则SLRQ的候选名称为{受理日期,设立日期}得,到第二子名称集合并统各子名称在第二子名称集合中出现的次数{受理(1)、设立(1)、日期(1)}。对比第一子名称集合和第二子名称集合,其中有一个相同的元素“受理”,则确定“受理日期”为字段SLQR的名称。
在一个示例性实施例中,所述基于预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,还包括:
当在所述预设词库中未查询到所述字段时,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中查询到全部所述多个子字段时,将所述字段的类型标注为第三类型,获取所述预设词库中所述多个子字段对应的名称,将所述多个子字段对应的名称,按照所述字段的顺序进行组合,得到所述字段对应的候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字段的候选名称进行筛选,包括:
当所述字段属于第三类型时,获取所述一组字段中属于第一类型的字段对应的名称和第二类型的字段对应的名称;
使用分词方式分别对该组字段中属于所述第一类型和所述第二类型的字段的名称进行分词,获得各所述第一类型和所述第二类型的名称的子名称;
将所述获取的各子名称组成第三子名称集合,统计各子名称在所述第三子集合中出现的次数;
分别对所述第三类型字段中每个字段对应的多个候选名称进行分词,将获得的第三类型子名称组成第四子名称集合;
对比所述第三子名称集合和所述第四子名称集合,根据对比结果,对所述候选名称进行筛选。
在一个示例性实施例中,对比所述第三子名称集合和所述第四子名称集合,根据对比结果,对所述候选名称进行筛选,包括:
当所述第三子名称集合和所述第四子名称集合中存在一个相同元素时,确定所述相同元素对应的第三子名称所在的候选名称为所述字段的名称;
当所述第三子名称集合和所述第四子名称集合存在多个相同元素时,对比所述相同元素对应的第三子名称所在候选名称中的包括的子名称在所述第三子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称;
当所述第三子名称集合和所述第四子名称集合中不存在相同元素时,根据统计出的所述第四子名称集合中各第三类型子名称出现的次数,对比各候选名称中包括的子名称在所述第三子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称。
在一个示例性实施例中,基于所述预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,包括:当在所述预设词库中未查询到所述字段时,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中仅查询到所述多个子字段中的部分子字段时,将所述字段的类型标注为第四类型,比较查询到的子字段的长度,获取所述预设词库中查询到的子字段长度最长的子字段对应的名称作为所述字段的第一候选名称,并通过机器翻译模型获取所述字段的第二候选名称。
例如,字段XYRX在词库中并没有查询到,对该字段分词得到XY和RX,在词库中可以查询到“XY”但是查询不到“RX”。此时在词库中可以查询到“XYR”、“YRX”、“XY”、“YR”等子字段,按照字段的顺序,将字段长度最长的子字段“XYR”对应的名称作为第一候选名称。通过机器翻译模型获得XYRX对应的第二候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当所述字段属于第四类型时,判断所述第二候选名称的确信度是否大于预设阈值;
当所述第二候选名称的确信度大于所述预设阈值时,确定所述第二候选名称为所述字段的名称;
当所述第二候选名称的确信度小于或等于所述预设阈值时,确定所述第一候选名称为所述字段的名称。
通过机器翻译模型获得的候选名称的确信度可以通过查询预设的对应关系获得。
在一个示例性实施例中,基于所述预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,包括:
当在所述预设词库中未查询到所述字段,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中查询不到所述多个子字段时,将所述字段的类型标注为第五类型,通过所述机器翻译模型获取所述字段的候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当通过机器翻译模型获取到的候选名称的个数等于1时,确定所述候选名称为所述字段的名称;
当通过机器翻译模型获取到的候选名称的个数大于1时,比较各候选名称的确信度,确定确信度最大的候选名称为所述字段的名称。
在一种示例性的实施例中,用户可以根据需求设置其他预设规则,对每个字段的候选名称进行筛选。
下面以具体应用示例对上述字段获取方法进行进一步说明。
应用示例一:
步骤1:获得同一张数据表格的一组字段,{ID、WB、SLDW、SLRQ、CZLX、CZSJ、HJK_YBZJ、DQHJ};
步骤2:在预设词库中,分别查询该组字段中的每个字段:
步骤2.1:在预设词库中可以查询到字段ID和SLDW,并且这两个字段对应的候选名称唯一,分别将这个字段标注为第一类型字段,获取ID对应的候选名称为“编号”,SLDW对应的候选名称为“受理单位”;
步骤2.2:在预设词库中可以查询到字段SLRQ、CZLX、CZSJ,并且这三个字段每个字段对应多个候选名称,分别将是三个字段标注为第二类型,获取SLRQ对应的候选名称为“受理日期”和“设立日期”,获取CZLX对应的候选名称为“操作类型”、“充值类型”,CZSL对应的候选名称为“操作时间”、“充值时间”和“修改时间”。
步骤2.3:在预设词库中查询不到字段HJK_YBZJ,对该字段进行分词得到子字段HJK和YBZJ,这两个字字段在预设词库中都可以查到,并且子字段HJK对应的唯一名称为“汇集库”,子字段YBZJ对应的唯一名称为“原表主键”,将这两个子字段对应的名称按照字段顺序进行组合得到字段HJK_YBZJ的候选名称为“汇集库原表主键”。
步骤2.4:在预设词库中查询不到字段DQHJ,对该字段进行分词,得到子字段DQ和HJ,在预设词库中可以查询到HJ,但是查询不到DQ,将该字段标注为第四类字段,获取HJ对应的名称“环节”作为字段DQHJ的第一候选名称;通过机器翻译模型获取DQHJ的第二候选名称为“当前环境”。
步骤2.5:在预设词库中查询不到字段WB,WB的任何子字段也查询不到,通过机器翻译模型获得字段WB对应的候选词为“网吧”。
需要注意的时,步骤2.1-2.5的顺序不分先后。
以下通过表1更清楚的描述各字段候选词的生成情况:
表1、字段对应的候选词
步骤3:根据预设规则,分别对每个字段对应的候选名称进行筛选。
步骤3.1:将第一类型字段对应的候选名称直接确定为该字段对应的名称,即,ID的名称为“编号”,SLDW的名称为“受理单位”。将第一类字段对应的名称进行分词得到第一子集合并统计各子名称在在第一子集合中出现的次数:{(‘编号’,1),(‘受理’,1),(‘单位’,1)}。
步骤3.2:将第二类型字段中的各字段对应的候选名称进行分词并去重,并得到各子名称组成的第二子集合:
SLRQ的第二子集合{受理,设立,日期}
CZLX的第二子集合{操作,类型,充值}
CZSJ的第二子集合{操作,时间,充值,修改}
步骤3.3:将SLRQ的第二子集合与第一子集合进行对比,其中有相同的元素“受理”,找到“受理”对应的候选词“受理日期”,将“受理日期”作为SLRQ的名称。
需要注意的是,以上步骤3.3还可以通过以下方式实现:
将每个字段的候选名称在第一集合中出现的次数,得到:
SLRQ–>[(‘受理日期’,1),(‘设立日期’,0)],其中候选名称在第一子集合中出现的次数等于各子名称出现的次数之和。在该示例中,“受理”在第一子集合中出现的次数为1,“日期”在第一子集合中出现的次数为0,那么“受理日期”在第一子集合中出现的次数为1,“设立”在第一子集合中出现的次数为0,“日期”在第一子集合中出现的次数也为0,那么“设立日期”在第一集合中出现的次数为0。
第一子集合更新为{(‘编号’,1),(‘受理’,2),(‘单位’,1),(‘日期’,1)}。
步骤3.4:CZLX和CZSJ的候选名称,第一子没有相同的元素,由
CZLX的第二子集合{操作,类型,充值}和CZSJ的第二子集合{操作,时间,充值,修改},统计各子名称出现的次数得到统计得到{(‘操作’,2),(‘类型’,1),(‘充值’,2),(‘时间’,1),(‘修改’,1)}
统计各字段在第二子集合中出现的次数:
CZLX->[(‘操作类型’,3),(‘充值类型’,3)]
CZSJ->[(‘操作时间’,3),(‘充值时间’,3),(‘修改时间’,2)]
由于CZLX的候选词“操作类型”和“充值类型”在第二子集合中出现的次数相同;比较这两个候选词在预设词库中出现的次数也相同;
比较CZSJ的候选词“操作时间”和“充值时间”在预设词库中出现的次数,[(‘操作时间’,5,1),(‘充值时间’,4,2),(‘修改时间’,2,1)],其中,操作时间出现的次数大于充值时间出现的次数,因此,将“操作时间”确定为CZSJ的名称。
更新第一子集合得到{(‘编号’,1),(‘受理’,2),(‘单位’,1),(‘日期’,1),(‘操作’,1),(‘时间’,1)}。
统计CZLX的候选词在第一子集合中出现的次数为:
CZLX->[(‘操作类型’,1),(‘充值类型’,0)],将“操作类型”,确定为CZLX的名称。
步骤3.5:将字段HJK_YBZJ名称确定为“汇集库原表主键”
步骤3.6:字段DQHJ的第一候选名称为“环节”,通过机器翻译模型获取DQHJ的第二候选名称为“当前环境,查询得到“当前环境”的确信度为0.2,其小于预设的阈值0.5,因此,将“环节”确定为DQHJ的名称。
步骤3.7:字段WB通过机器翻译模型仅得到一个候选名称“网吧”,将“网吧”确定为字段WB的名称。
图2为本发明实施例的一种字段名称获取装置,包括存储器10和处理器20;其中:
所述存储器10,用于存储计算机可读指令;
所述处理器20,用于执行所述计算机可读指令,以执行如下操作:监测预定账户,获得所述预定账户的操作行为;
获取一组字段;
基于预设词库和/或机器翻译模型获分别获取所述一组字段中每个字段的候选名称;
根据预设规则,分别对所述每个字段的候选名称进行筛选;
将筛选出的候选名称确定为该字段的名称。
在一个示例性实施例中,所述基于预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,包括:
当在所述预设词库中查询到所述字段且所述预设词库中所述字段对应的候选名称唯一时,标注所述字段的类型为第一类型,获取所述预设词库中所述字段对应的唯一候选名称;
当在所述预设词库中查询到所述字段并且所述预设词库中所述字段对应多个候选名称时,标注所述字段的类型为第二类型,获取所述词库中所述字段对应的多个候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当所述字段属于第一类型时,将所述预设词库中获取的所述字段对应的唯一候选名称确定为所述字段的名称;
当所述字段属于第二类型时,获取所述一组字段中属于第一类型的字段对应的候选名称;
使用分词方式分别将该组字段中属于第一类型的字段对应的候选名称进行分词,获得该组字段中属于第一类型的字段对应的候选名称的第一类型子名称;
将所述获取的第一子类型名称组成第一子名称集合,并统计所述第一子名称集合中的各第一类型子名称出现的次数;
分别对所述第二类型字段中对应的多个候选名称进行分词获得各候选名称的第二类型子名称;
将所述第二类型子名称组成第二子名称集合,并统计所述第二子名称集合中各第二类型子名称出现的次数;
对比所述第一子名称集合和所述第二子名称集合,根据对比结果,对所述候选名称进行筛选。
在一个示例性实施例中,所述对比第一子名称集合和所述第二子名称集合,根据对比结果,对所述候选名称进行筛选,包括:
当所述第一子名称集合和所述第二子名称集合中存在一个相同元素时,确定所述相同元素对应的第二子名称所在的候选名称为所述字段的名称;
当所述第一子名称集合和所述第二子名称集合存在多个相同元素时,对比所述相同元素对应的第二子名称所在候选名称中的包括的子名称在所述第一子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称;
当所述第一子名称集合和所述第二子名称集合中不存在相同元素时,根据统计出的所述第二子名称集合中各第二类型子名称出现的次数,对比各候选名称中包括的子名称在所述第二子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称。
在一个示例性实施例中,所述基于预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,还包括:
当在所述预设词库中未查询到所述字段时,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中查询到全部所述多个子字段时,将所述字段的类型标注为第三类型,获取所述预设词库中所述多个子字段对应的名称,将所述多个子字段对应的名称,按照所述字段的顺序进行组合,得到所述字段对应的候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字段的候选名称进行筛选,包括:
当所述字段属于第三类型时,获取所述一组字段中属于第一类型的字段对应的名称和第二类型的字段对应的名称;
使用分词方式分别对该组字段中属于所述第一类型和所述第二类型的字段的名称进行分词,获得各所述第一类型和所述第二类型的名称的子名称;
将所述获取的各子名称组成第三子名称集合,统计各子名称在所述第三子集合中出现的次数;
分别对所述第三类型字段中每个字段对应的多个候选名称进行分词,将获得的第三类型子名称组成第四子名称集合;
对比所述第三子名称集合和所述第四子名称集合,根据对比结果,对所述候选名称进行筛选。
在一个示例性实施例中,对比所述第三子名称集合和所述第四子名称集合,根据对比结果,对所述候选名称进行筛选,包括:
当所述第三子名称集合和所述第四子名称集合中存在一个相同元素时,确定所述相同元素对应的第三子名称所在的候选名称为所述字段的名称;
当所述第三子名称集合和所述第四子名称集合存在多个相同元素时,对比所述相同元素对应的第三子名称所在候选名称中的包括的子名称在所述第三子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称;
当所述第三子名称集合和所述第四子名称集合中不存在相同元素时,根据统计出的所述第四子名称集合中各第三类型子名称出现的次数,对比各候选名称中包括的子名称在所述第三子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称。
在一个示例性实施例中,基于所述预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,包括:当在所述预设词库中未查询到所述字段时,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中仅查询到所述多个子字段中的部分子字段时,将所述字段的类型标注为第四类型,比较查询到的子字段的长度,获取所述预设词库中查询到的子字段长度最长的子字段对应的名称作为所述字段的第一候选名称,并通过机器翻译模型获取所述字段的第二候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当所述字段属于第四类型时,判断所述第二候选名称的确信度是否大于预设阈值;
当所述第二候选名称的确信度大于所述预设阈值时,确定所述第二候选名称为所述字段的名称;
当所述第二候选名称的确信度小于或等于所述预设阈值时,确定所述第一候选名称为所述字段的名称。
在一个示例性实施例中,基于所述预设词库和/或机器翻译模型获分别获取所述一组字母字段中每个字母字段的候选名称,包括:
当在所述预设词库中未查询到所述字段,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中查询不到所述多个子字段时,将所述字段的类型标注为第五类型,通过所述机器翻译模型获取所述字段的候选名称。
在一个示例性实施例中,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当通过机器翻译模型获取到的候选名称的个数等于1时,确定所述候选名称为所述字段的名称;
当通过机器翻译模型获取到的候选名称的个数大于1时,比较各候选名称的确信度,确定确信度最大的候选名称为所述字段的名称。
装置实施例的其它实现细节可参见上文方法实施例。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
以上仅为本发明的优选实施例,当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (18)
1.一种字段名称获取方法,其特征在于,包括:
获取一组字段;其中,对于一组字段中的每个字段,所述字段包括拼音缩写、拼音全拼、英文单词、英文缩写、拼音缩写或单词缩写与数字的组合;
基于预设词库获取所述一组字段中每个字段的候选名称;
根据预设规则,分别对所述每个字段的候选名称进行筛选;
将筛选出的候选名称确定为该字段的名称;
其中,所述基于预设词库获取所述一组字母字段中每个字母字段的候选名称,包括:
当在所述预设词库中查询到所述字段且所述预设词库中所述字段对应的候选名称唯一时,标注所述字段的类型为第一类型,获取所述预设词库中所述字段对应的唯一候选名称;
当在所述预设词库中查询到所述字段并且所述预设词库中所述字段对应多个候选名称时,标注所述字段的类型为第二类型,获取所述词库中所述字段对应的多个候选名称;
根据预设规则,分别对所述每个字段的候选名称进行筛选,包括:
当所述字段属于第一类型时,将所述预设词库中获取的所述字段对应的唯一候选名称确定为所述字段的名称;
当所述字段属于第二类型时,获取所述一组字段中属于第一类型的字段对应的候选名称;
使用分词方式分别将该组字段中属于第一类型的字段对应的候选名称进行分词,获得该组字段中属于第一类型的字段对应的候选名称的第一类型子名称;
将所述获取的第一子类型名称组成第一子名称集合,并统计所述第一子名称集合中的各第一类型子名称出现的次数;
分别对所述第二类型字段中对应的多个候选名称进行分词获得各候选名称的第二类型子名称;
将所述第二类型子名称组成第二子名称集合,并统计所述第二子名称集合中各第二类型子名称出现的次数;
对比所述第一子名称集合和所述第二子名称集合,根据对比结果,对所述候选名称进行筛选。
2.根据权利要求1所述的方法,其特征在于,所述对比第一子名称集合和所述第二子名称集合,根据对比结果,对所述候选名称进行筛选,包括:
当所述第一子名称集合和所述第二子名称集合中存在一个相同元素时,确定所述相同元素对应的第二子名称所在的候选名称为所述字段的名称;
当所述第一子名称集合和所述第二子名称集合存在多个相同元素时,对比所述相同元素对应的第二子名称所在候选名称中的包括的子名称在所述第一子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称;
当所述第一子名称集合和所述第二子名称集合中不存在相同元素时,根据统计出的所述第二子名称集合中各第二类型子名称出现的次数,对比各候选名称中包括的子名称在所述第二子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称。
3.根据权利要求1所述的方法,其特征在于,所述基于预设词库获取所述一组字母字段中每个字母字段的候选名称,还包括:
当在所述预设词库中未查询到所述字段时,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中查询到全部所述多个子字段时,将所述字段的类型标注为第三类型,获取所述预设词库中所述多个子字段对应的名称,将所述多个子字段对应的名称,按照所述字段的顺序进行组合,得到所述字段对应的候选名称。
4.根据权利要求3所述的方法,其特征在于,根据预设规则,分别对所述每个字段的候选名称进行筛选,包括:
当所述字段属于第三类型时,获取所述一组字段中属于第一类型的字段对应的名称和第二类型的字段对应的名称;
使用分词方式分别对该组字段中属于所述第一类型和所述第二类型的字段的名称进行分词,获得各所述第一类型和所述第二类型的名称的子名称;
将所述获取的各子名称组成第三子名称集合,统计各子名称在所述第三子名称集合中出现的次数;
分别对所述第三类型字段中每个字段对应的多个候选名称进行分词,将获得的第三类型子名称组成第四子名称集合;
对比所述第三子名称集合和所述第四子名称集合,根据对比结果,对所述候选名称进行筛选。
5.根据权利要求4所述的方法,其特征在于,对比所述第三子名称集合和所述第四子名称集合,根据对比结果,对所述候选名称进行筛选,包括:
当所述第三子名称集合和所述第四子名称集合中存在一个相同元素时,确定所述相同元素对应的第三子名称所在的候选名称为所述字段的名称;
当所述第三子名称集合和所述第四子名称集合存在多个相同元素时,对比所述相同元素对应的第三子名称所在候选名称中的包括的子名称在所述第三子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称;
当所述第三子名称集合和所述第四子名称集合中不存在相同元素时,根据统计出的所述第四子名称集合中各第三类型子名称出现的次数,对比各候选名称中包括的子名称在所述第三子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称。
6.根据权利要求1所述的方法,其特征在于,基于所述预设词库获取所述一组字母字段中每个字母字段的候选名称,包括:当在所述预设词库中未查询到所述字段时,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中仅查询到所述多个子字段中的部分子字段时,将所述字段的类型标注为第四类型,比较查询到的子字段的长度,获取所述预设词库中查询到的子字段长度最长的子字段对应的名称作为所述字段的第一候选名称,并通过机器翻译模型获取所述字段的第二候选名称。
7.根据权利要求6所述的方法,其特征在于,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当所述字段属于第四类型时,判断所述第二候选名称的确信度是否大于预设阈值;
当所述第二候选名称的确信度大于所述预设阈值时,确定所述第二候选名称为所述字段的名称;
当所述第二候选名称的确信度小于或等于所述预设阈值时,确定所述第一候选名称为所述字段的名称。
8.根据权利要求1所述的方法,其特征在于,基于所述预设词库获取所述一组字母字段中每个字母字段的候选名称,包括:
当在所述预设词库中未查询到所述字段,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中查询不到所述多个子字段时,将所述字段的类型标注为第五类型,通过机器翻译模型获取所述字段的候选名称。
9.根据权利要求8所述的方法,其特征在于,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当通过机器翻译模型获取到的候选名称的个数等于1时,确定所述候选名称为所述字段的名称;
当通过机器翻译模型获取到的候选名称的个数大于1时,比较各候选名称的确信度,确定确信度最大的候选名称为所述字段的名称。
10.一种字段名称获取装置,包括:存储器和处理器;其特征在于:
所述存储器,用于存储计算机可读指令;
所述处理器,用于执行所述计算机可读指令,以执行如下操作:
获取一组字段,其中,对于一组字段中的每个字段,所述字段包括拼音缩写、拼音全拼、英文单词、英文缩写、拼音缩写或单词缩写与数字的组合;
基于预设词库获取所述一组字段中每个字段的候选名称;
根据预设规则,分别对所述每个字段的候选名称进行筛选;
将筛选出的候选名称确定为该字段的名称;
其中,所述基于预设词库获取所述一组字母字段中每个字母字段的候选名称,包括:
当在所述预设词库中查询到所述字段且所述预设词库中所述字段对应的候选名称唯一时,标注所述字段的类型为第一类型,获取所述预设词库中所述字段对应的唯一候选名称;
当在所述预设词库中查询到所述字段并且所述预设词库中所述字段对应多个候选名称时,标注所述字段的类型为第二类型,获取所述词库中所述字段对应的多个候选名称;
根据预设规则,分别对所述每个字段的候选名称进行筛选,包括:
当所述字段属于第一类型时,将所述预设词库中获取的所述字段对应的唯一候选名称确定为所述字段的名称;
当所述字段属于第二类型时,获取所述一组字段中属于第一类型的字段对应的候选名称;
使用分词方式分别将该组字段中属于第一类型的字段对应的候选名称进行分词,获得该组字段中属于第一类型的字段对应的候选名称的第一类型子名称;
将所述获取的第一子类型名称组成第一子名称集合,并统计所述第一子名称集合中的各第一类型子名称出现的次数;
分别对所述第二类型字段中对应的多个候选名称进行分词获得各候选名称的第二类型子名称;
将所述第二类型子名称组成第二子名称集合,并统计所述第二子名称集合中各第二类型子名称出现的次数;
对比所述第一子名称集合和所述第二子名称集合,根据对比结果,对所述候选名称进行筛选。
11.根据权利要求10所述的装置,其特征在于,所述对比第一子名称集合和所述第二子名称集合,根据对比结果,对所述候选名称进行筛选,包括:
当所述第一子名称集合和所述第二子名称集合中存在一个相同元素时,确定所述相同元素对应的第二子名称所在的候选名称为所述字段的名称;
当所述第一子名称集合和所述第二子名称集合存在多个相同元素时,对比所述相同元素对应的第二子名称所在候选名称中的包括的子名称在所述第一子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称;
当所述第一子名称集合和所述第二子名称集合中不存在相同元素时,根据统计出的所述第二子名称集合中各第二类型子名称出现的次数,对比各候选名称中包括的子名称在所述第二子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称。
12.根据权利要求10所述的装置,其特征在于,所述基于预设词库获取所述一组字母字段中每个字母字段的候选名称,还包括:
当在所述预设词库中未查询到所述字段时,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中查询到全部所述多个子字段时,将所述字段的类型标注为第三类型,获取所述预设词库中所述多个子字段对应的名称,将所述多个子字段对应的名称,按照所述字段的顺序进行组合,得到所述字段对应的候选名称。
13.根据权利要求12所述的装置,其特征在于,根据预设规则,分别对所述每个字段的候选名称进行筛选,包括:
当所述字段属于第三类型时,获取所述一组字段中属于第一类型的字段对应的名称和第二类型的字段对应的名称;
使用分词方式分别对该组字段中属于所述第一类型和所述第二类型的字段的名称进行分词,获得各所述第一类型和所述第二类型的名称的子名称;
将所述获取的各子名称组成第三子名称集合,统计各子名称在所述第三子名称集合中出现的次数;
分别对所述第三类型字段中每个字段对应的多个候选名称进行分词,将获得的第三类型子名称组成第四子名称集合;
对比所述第三子名称集合和所述第四子名称集合,根据对比结果,对所述候选名称进行筛选。
14.根据权利要求13所述的装置,其特征在于,对比所述第三子名称集合和所述第四子名称集合,根据对比结果,对所述候选名称进行筛选,包括:
当所述第三子名称集合和所述第四子名称集合中存在一个相同元素时,确定所述相同元素对应的第三子名称所在的候选名称为所述字段的名称;
当所述第三子名称集合和所述第四子名称集合存在多个相同元素时,对比所述相同元素对应的第三子名称所在候选名称中的包括的子名称在所述第三子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称;
当所述第三子名称集合和所述第四子名称集合中不存在相同元素时,根据统计出的所述第四子名称集合中各第三类型子名称出现的次数,对比各候选名称中包括的子名称在所述第三子名称集合中出现的次数之和,确定子名称出现次数之和最大的候选名称为所述字段的名称。
15.根据权利要求10所述的装置,其特征在于,基于所述预设词库获取所述一组字母字段中每个字母字段的候选名称,包括:当在所述预设词库中未查询到所述字段时,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中仅查询到所述多个子字段中的部分子字段时,将所述字段的类型标注为第四类型,比较查询到的子字段的长度,获取所述预设词库中查询到的子字段长度最长的子字段对应的名称作为所述字段的第一候选名称,并通过机器翻译模型获取所述字段的第二候选名称。
16.根据权利要求15所述的装置,其特征在于,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当所述字段属于第四类型时,判断所述第二候选名称的确信度是否大于预设阈值;
当所述第二候选名称的确信度大于所述预设阈值时,确定所述第二候选名称为所述字段的名称;
当所述第二候选名称的确信度小于或等于所述预设阈值时,确定所述第一候选名称为所述字段的名称。
17.根据权利要求10所述的装置,其特征在于,基于所述预设词库获取所述一组字母字段中每个字母字段的候选名称,包括:
当在所述预设词库中未查询到所述字段,采用分词方式对所述字段进行分词,获取所述字段的多个子字段;
当在所述预设词库中查询不到所述多个子字段时,将所述字段的类型标注为第五类型,通过机器翻译模型获取所述字段的候选名称。
18.根据权利要求17所述的装置,其特征在于,根据预设规则,分别对所述每个字母字段的候选名称进行筛选,包括:
当通过机器翻译模型获取到的候选名称的个数等于1时,确定所述候选名称为所述字段的名称;
当通过机器翻译模型获取到的候选名称的个数大于1时,比较各候选名称的确信度,确定确信度最大的候选名称为所述字段的名称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910122907.8A CN109902090B (zh) | 2019-02-19 | 2019-02-19 | 字段名称获取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910122907.8A CN109902090B (zh) | 2019-02-19 | 2019-02-19 | 字段名称获取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902090A CN109902090A (zh) | 2019-06-18 |
CN109902090B true CN109902090B (zh) | 2022-06-07 |
Family
ID=66944987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910122907.8A Active CN109902090B (zh) | 2019-02-19 | 2019-02-19 | 字段名称获取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902090B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852041A (zh) * | 2019-10-12 | 2020-02-28 | 重庆金融资产交易所有限责任公司 | 一种字段处理方法及相关设备 |
CN110716848A (zh) * | 2019-10-18 | 2020-01-21 | 广州华多网络科技有限公司 | 数据收集方法、装置、电子设备及存储介质 |
CN110909003B (zh) * | 2019-11-25 | 2022-06-10 | 车智互联(北京)科技有限公司 | 一种创建数据表的方法及计算设备 |
CN113688615B (zh) * | 2020-05-19 | 2024-02-27 | 阿里巴巴集团控股有限公司 | 一种字段注释生成、字符串理解方法、设备及存储介质 |
CN112051996B (zh) * | 2020-08-18 | 2023-09-29 | 远光软件股份有限公司 | 一种基于开发平台元素统一命名字典的建模方法及装置 |
CN115543977A (zh) * | 2022-09-29 | 2022-12-30 | 河北雄安睿天科技有限公司 | 一种供水行业数据清洗方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391842A (zh) * | 2014-12-18 | 2015-03-04 | 苏州大学 | 一种翻译模型构建方法和系统 |
CN105183720A (zh) * | 2015-08-05 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 基于rnn模型的机器翻译方法和装置 |
CN106383818A (zh) * | 2015-07-30 | 2017-02-08 | 阿里巴巴集团控股有限公司 | 一种机器翻译方法及装置 |
CN107577655A (zh) * | 2016-07-05 | 2018-01-12 | 北京国双科技有限公司 | 名称获取方法和装置 |
CN108629046A (zh) * | 2018-05-14 | 2018-10-09 | 平安科技(深圳)有限公司 | 一种字段匹配方法及终端设备 |
-
2019
- 2019-02-19 CN CN201910122907.8A patent/CN109902090B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391842A (zh) * | 2014-12-18 | 2015-03-04 | 苏州大学 | 一种翻译模型构建方法和系统 |
CN106383818A (zh) * | 2015-07-30 | 2017-02-08 | 阿里巴巴集团控股有限公司 | 一种机器翻译方法及装置 |
CN105183720A (zh) * | 2015-08-05 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 基于rnn模型的机器翻译方法和装置 |
CN107577655A (zh) * | 2016-07-05 | 2018-01-12 | 北京国双科技有限公司 | 名称获取方法和装置 |
CN108629046A (zh) * | 2018-05-14 | 2018-10-09 | 平安科技(深圳)有限公司 | 一种字段匹配方法及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109902090A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902090B (zh) | 字段名称获取方法和装置 | |
WO2019174132A1 (zh) | 数据处理方法、服务器及计算机存储介质 | |
CA3174601C (en) | Text intent identifying method, device, computer equipment and storage medium | |
US8108413B2 (en) | Method and apparatus for automatically discovering features in free form heterogeneous data | |
CN111104794A (zh) | 一种基于主题词的文本相似度匹配方法 | |
AU2013329525C1 (en) | System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
US20180181646A1 (en) | System and method for determining identity relationships among enterprise data entities | |
EP1528486A2 (en) | Classification evaluation system, method, and program | |
CN110659282B (zh) | 数据路由的构建方法、装置、计算机设备和存储介质 | |
EP1955220A1 (en) | Information classification paradigm | |
CN111125116B (zh) | 定位业务表中代码字段及对应代码表的方法及系统 | |
CN110738033B (zh) | 报告模板生成方法、装置及存储介质 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CA3155715A1 (en) | Method of and device for generating query strategy for commodity searching | |
CN110956271B (zh) | 一种海量数据的多级分类方法及装置 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
CN111898378B (zh) | 政企客户的行业分类方法和装置、电子设备、存储介质 | |
CN109783483A (zh) | 一种数据整理的方法、装置、计算机存储介质及终端 | |
CN111401056A (zh) | 一种从多类文本中提取关键词的方法 | |
CN112364169B (zh) | 基于nlp的wifi识别方法、电子设备和介质 | |
CN110019829A (zh) | 数据属性确定方法、装置 | |
CN108170733A (zh) | 一种对短信文本进行分类的方法及系统 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN113590792A (zh) | 用户问题的处理方法、装置和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |