CN107704625B - 字段匹配方法和装置 - Google Patents
字段匹配方法和装置 Download PDFInfo
- Publication number
- CN107704625B CN107704625B CN201711037783.0A CN201711037783A CN107704625B CN 107704625 B CN107704625 B CN 107704625B CN 201711037783 A CN201711037783 A CN 201711037783A CN 107704625 B CN107704625 B CN 107704625B
- Authority
- CN
- China
- Prior art keywords
- field
- matched
- target
- name
- semantic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 137
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- YREOLPGEVLLKMB-UHFFFAOYSA-N 3-methylpyridin-1-ium-2-amine bromide hydrate Chemical compound O.[Br-].Cc1ccc[nH+]c1N YREOLPGEVLLKMB-UHFFFAOYSA-N 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Educational Technology (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种字段匹配方法和装置,涉及数据领域,用于实现快速字段匹配。该方法包括:如果待匹配的目标字段为数值型字段,将已知字段集合中各字段对应的语义特征向量、字段名称与待匹配的目标字段的语义特征向量、字段名称相匹配,得到第一匹配结果;如果待匹配的目标字段为字符型字段,将已知字段集合中各字段对应的特征词向量、字段名称与待匹配的目标字段的特征词向量、字段名称相匹配,得到第二匹配结果;如果待匹配的目标字段为稀有型字段,则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配,得到第三匹配结果,其中,稀有型字段指除了数值型字段和字符型字段以外的字段。本申请实施例用于字段匹配。
Description
技术领域
本发明涉及数据领域,尤其涉及一种字段匹配方法和装置。
背景技术
当前各高校的信息系统各不相同,并且设计规范多样,甚至缺乏数据字典和数据接口文档,增加了信息共享和分析的难度。在数据分析过程中,需要把各个高校子系统数据聚集起来,通过清洗、识别、关联最终建立数据模型。由于各个信息系统中定义的字段并不一定符合国标标准(高等学校管理信息标准),在数据准备阶段的清洗、识别和关联过程需要大量人员参与字段识别和匹配,效率较低。
发明内容
本申请的实施例提供一种字段匹配方法和装置,用于实现快速字段匹配。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种字段匹配方法,该方法包括:
如果待匹配的目标字段为数值型字段,将已知字段集合中各字段对应的语义特征向量、字段名称与所述待匹配的目标字段的语义特征向量、字段名称相匹配,得到第一匹配结果;
如果所述待匹配的目标字段为字符型字段,将已知字段集合中各字段对应的特征词向量、字段名称与所述待匹配的目标字段的特征词向量、字段名称相匹配,得到第二匹配结果;
如果所述待匹配的目标字段为稀有型字段,则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配,得到第三匹配结果,其中,所述稀有型字段指除了所述数值型字段和所述字符型字段以外的字段。
第二方面,提供了一种字段匹配装置,包括:
匹配单元,用于如果待匹配的目标字段为数值型字段,将已知字段集合中各字段对应的语义特征向量、字段名称与所述待匹配的目标字段的语义特征向量、字段名称相匹配,得到第一匹配结果;
所述匹配单元,还用于如果所述待匹配的目标字段为字符型字段,将已知字段集合中各字段对应的特征词向量、字段名称与所述待匹配的目标字段的特征词向量、字段名称相匹配,得到第二匹配结果;
所述匹配单元,还用于如果所述待匹配的目标字段为稀有型字段,则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配,得到第三匹配结果,其中,所述稀有型字段指除了所述数值型字段和所述字符型字段以外的字段。
第三方面,提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被计算机执行时使所述计算机执行第一方面所述的方法。
本申请的实施例提供的字段匹配方法和装置,根据待匹配的目标字段属于不同字段类型,采用不同算法与已知字段集合中各字段进行匹配得到最终结果,实现了快速字段匹配。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的整体技术方案的示意图;
图2为本申请实施例提供的字段匹配方法的流程示意图一;
图3为本申请实施例提供的字段匹配方法的流程示意图二;
图4为本申请实施例提供的字段匹配方法的流程示意图三;
图5为本申请实施例提供的字段匹配方法的流程示意图四;
图6为本申请实施例提供的字段匹配方法的流程示意图五;
图7为本申请实施例提供的字段匹配装置的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
本申请实施例将国家制定的高等学校管理信息标准作为国标;将某高校定义好的数据源作为母版;将待匹配数据源作为新源。图1中为本申请整体技术方案的示意图。母版与国标之间通过人工知识库映射方式来建立映射关系;新源与母版之间通过本申请实施例提供的字段匹配方法来建立映射关系。最终实现新源与国标之间的映射关系,将新源按照国标进行识别。
实施例1、
本申请实施例提供了一种字段匹配方法,参照图2中所示,该方法包括:
S101、如果待匹配的目标字段为数值型字段,将已知字段集合中各字段对应的语义特征向量、字段名称与待匹配的目标字段的语义特征向量、字段名称相匹配,得到第一匹配结果。
数值型字段指数字形式字段,例如身高181。已知字段集合指母版中已经定义好的字段集合。预测神经网络指可以执行预测功能的神经网络例如可以是反向传播(BackPropagation,BP)神经网络。本申请实施例以BP神经网络为例进行说明,但并不意在限制只能采用BP神经网络。
可选的,获取已知字段集合中各字段对应的语义特征向量以及待匹配的目标字段的语义特征向量可以包括:根据字段的模式信息和统计信息得到该字段的语义特征向量。模式信息包括字段的数据类型、类型长度、小数位数等。统计信息包括字段的最大值、最小值、平均值、标准差、差异系数、中位数、众数以及数值的数量等。对一个字段的这些信息进行归一化处理,得到该字段的语义特征向量,用于表征该字段的语义特征。
另外,可以将根据所有字段构建出的语义特征向量文档化形成特征文档。
可选的,参照图3中所示,将已知字段集合中各字段对应的语义特征向量、字段名称与待匹配的目标字段的语义特征向量、字段名称相匹配,得到第一匹配结果,具体包括步骤S1011-S1014:
S1011、以已知字段集合中各字段对应的语义特征向量和字段名称作为训练对,对预测神经网络进行多次训练以得到多个预测神经网络。
以预测神经网络为BP基学习器为例,假设需要训练三个BP基学习器,需要经过三次如下过程:初始化BP神经网络参数,逐层前向计算,逐层反向计算误差并修改权重。每次初始化BP神经网络参数不同决定了三个BP基学习器结果不同。每个BP基学习器的输入为字段的语义特征向量,输出为字段可能对应的字段名称的概率。
S1012、根据待匹配的目标字段的语义特征向量和多个预测神经网络得到与待匹配的目标字段匹配的第一结果集。
具体的,参照图4中所示,步骤S1012可以包括S10121-S10122:
S10121、将待匹配的目标字段的语义特征向量分别作为多个BP基学习器的输入,得到每个BP基学习器的输出结果,其中,输出结果用于表示待匹配的目标字段可能对应的字段名称的概率。
例如,假设待匹配的目标字段为“土木”,第一个BP基学习器的输出结果可能是(0.3,0.8),其中,第一个值表示可能对应“土建”的概率为0.3,第二个值表示可能对应“土木工程”的概率为0.8。
S10122、如果各个BP基学习器的输出结果中的最大概率均大于等于阈值,并且最大概率对应的字段名称相同,则取最大概率对应的字段名称作为第一结果集,否则第一结果集为空。
例如,假设第一个BP基学习器输出结果中最大概率0.8对应的字段名称为“土木工程”,第二个BP基学习器输出结果中最大概率0.6对应的字段名称也为“土木工程”,第三个BP基学习器输出结果中最大概率0.7对应的字段名称也为“土木工程”,阈值为0.5,则将“土木工程”作为第一结果集。
该阈值可以根据新源的不同动态调整。
S1013、根据已知字段集合中各字段对应的语义特征向量与待匹配的目标字段的语义特征向量之间的相似度,以及已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称之间的相似度,得到与待匹配的目标字段匹配的第二结果集。
可选的,参照图5中所示,步骤S1013可以包括步骤S10131-S10134:
其中,i表示已知字段集合中的字段,j表示待匹配的目标字段,ai表示字段i的语义特征向量,aj表示字段j的语义特征向量,表示语义特征向量ai的第k个语义特征权重,即表示语义特征向量aj的第k个语义特征权重,即m表示语义特征向量ai或aj的维度。
其中,ni表示字段i的字段名称,nj表示字段j的字段名称,ld(ni,nj)表示用动态规划获得ni和nj的编辑距离,ni.length表示字段名称ni的长度,nj.length表示字段名称nj的长度。
S10133、根据语义特征向量之间的相似度Sim1(ai,aj)和字段名称之间相似度Sim2(ni,nj),得到混合相似度Sim(ai,aj)=α×Sim1(ai,aj)+(1-α)×Sim2(ni,nj)。
其中,α为可调参数并且0<α<1。
S10134、如果最大混合相似度大于等于阈值,则将对应的字段名称作为第二结果集,否则第二结果集为空。
该阈值可以根据新源的不同动态调整。
S1014、根据第一结果集和第二结果集得到第一匹配结果。
具体的,可以取第一结果集和第二结果集的交集或并集作为第一匹配结果。
S102、如果待匹配的目标字段为字符型字段,将已知字段集合中各字段对应的特征词向量、字段名称与待匹配的目标字段的特征词向量、字段名称相匹配,得到第二匹配结果。
字符型字段指文本字符串,例如专业土木工程。
对待匹配的目标字段进行分词得到待匹配的目标字段的特征词,对已知字段集合中各字段进行分词得到已知字段集合中各字段的特征词,分别计算待匹配的目标字段的特征词向量以及已知字段集合中各字段的特征词向量。
具体的,可以将字段作为文本,通过中科院的汉语词法分析系统ICTCLAS进行分词,每个字段可以分词得到特征词w1,w2,...,wm,m表示一个字段分词得到的特征词个数。通过计算得到特征词wk对应的特征词权重wtk。其中,tf(wk,d)是特征词wk在文本d中出现的数量,df(wk,D)是特征词wk在文本集D中出现的文档数,N是文本集D的文档总数。则该字段对应的特征词向量为b={wt1,wt2,...,wtm}。
参照图6中所示,将已知字段集合中各字段对应的特征词向量、字段名称与待匹配的目标字段的特征词向量、字段名称相匹配,得到第二匹配结果,具体包括步骤S1021-S1024:
其中,i表示已知字段集合中的字段,j表示待匹配的目标字段,bi表示字段i的特征词向量,bj表示字段j的特征词向量,表示特征词向量bi的第k个特征词权重,即表示特征词向量bj的第k个特征词权重,即m表示特征词向量bi或bj的维度。
具体,参照步骤S10132,在此不再赘述。
S1023、根据特征词向量之间的相似度Sim'1(bi,bj)和字段名称之间相似度Sim2(ni,nj),得到混合相似度Sim'(bi,bj)=β×Sim'1(bi,bj)+(1-β)×Sim2(ni,nj)。
其中,β为可调参数并且0<β<1。
S1024、如果最大混合相似度大于等于阈值,则将对应的字段名称作为第二匹配结果。
该阈值可以根据新源的不同动态调整。
S103、如果待匹配的目标字段为稀有型字段,则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配,得到第三匹配结果。
其中,稀有型字段指除了数值型字段和字符型字段以外的字段,例如时间、货币、符号等。
匹配类型具体通过:首先判断类型是否相同,如果类型相同则参照步骤S10132方法来进行字段名称的匹配;如果不相同,则匹配不成功。
本申请实施例提供的字段匹配方法,根据待匹配的目标字段属于不同字段类型,采用不同算法与已知字段集合中各字段进行匹配得到最终结果,实现了快速字段匹配。
本申请实施例的实验采用了某高校B的系统作为待匹配的新源,某高校A的系统作为母版。
1)首先随机选择两个测试数据库test1和test2进行实验测试,其中数据库test1用于训练BP基学习器,数据库test2用于测试匹配结果。数据库test1有表t_ky_cghj和表t_ky_lw_ry;数据库test2有表t_ky_cghj_ry。本实验是为了观察字段匹配的效果。得到实验结果如表1所示。
表1智能化字段匹配结果集
由表1中可以得到字段匹配结果集,经过人工评价,准确度达到85.7%。能够识别出异名同义,比如ZZDW(作者单位)与SSDW(所属单位)这两个字段的匹配、RYBH(人员编号)和RYBB(人员编号)这两个字段的匹配,以及SMSX(署名顺序)和SMSS(署名顺序)的匹配。在该字段匹配方法中,针对不同源的数据库,降低字段名的重要性,同时针对不同类型的字段采用不同策略模型来处理。
2)实际场景测试,分析国标识别的具体效果。具体实验数据描述如表2所示:
表2数据描述
国标 | 母版(某高校A) | 新源(某高校B) | |
表的个数 | 255 | 88 | 41 |
字段的个数 | 2767 | 886 | 480 |
新源、母版、国标之间映射结果如表3所示:
表3映射匹配结果
匹配对数 | |
母版到国标映射 | 195 |
新源到母版映射 | 886 |
新源到国标映射 | 77 |
识别情况统计如表4所示:
表4识别情况
其中,错误识别主要表现为字段著作字数、学期码、校区号、助学金额、终止周以及考试座位数的错误识别;错误识别主要的情况是数据相似,但是从数据字典的含义上看,并不是相同的实体。
不能识别主要表现为国标规定的规则,主要有字段注册状况、性别码,很多数据是几个离散的数值,比如0,1,或者1,2的新源字段都跟性别码、注册状况匹配上了。
该字段识别算法的优点:能够识别异名同义;集成学习,泛化能力较强。我们针对不能识别的字段进行过滤,得到的新的映射结果如表5所示:
表5新的映射匹配结果
匹配对数 | |
母版到国标映射 | 195 |
新源到母版映射 | 360 |
新源到国标映射 | 42 |
新的国标识别情况统计如表6所示:
表6新的识别情况
结论有:在某高校B数据上验证国标识别模型,得出准确率85%。其中字段匹配耗时为4秒,国标识别耗时0秒。
实施例2、
本申请实施例提供了一种字段匹配装置,应用于上述方法,参照图7中所示,该装置包括:
匹配单元701,用于如果待匹配的目标字段为数值型字段,将已知字段集合中各字段对应的语义特征向量、字段名称与待匹配的目标字段的语义特征向量、字段名称相匹配,得到第一匹配结果;
匹配单元701,如果待匹配的目标字段为字符型字段,将已知字段集合中各字段对应的特征词向量、字段名称与待匹配的目标字段的特征词向量、字段名称相匹配,得到第二匹配结果;
匹配单元701,还用于如果待匹配的目标字段为稀有型字段,则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配,得到第三匹配结果,其中,稀有型字段指除了数值型字段和字符型字段以外的字段。
在一种可能的实施方式中,匹配单元701具体用于:
以已知字段集合中各字段对应的语义特征向量和字段名称作为训练对,对预测神经网络进行多次训练以得到多个预测神经网络;
根据待匹配的目标字段的语义特征向量和多个预测神经网络得到与待匹配的目标字段匹配的第一结果集;
根据已知字段集合中各字段对应的语义特征向量与待匹配的目标字段的语义特征向量之间的相似度,以及已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称之间的相似度,得到与待匹配的目标字段匹配的第二结果集;
根据第一结果集和第二结果集得到第一匹配结果。
在一种可能的实施方式中,如果预测神经网络为反向传播BP基学习器,匹配单元701具体用于:
将待匹配的目标字段的语义特征向量分别作为多个BP基学习器的输入,得到各个BP基学习器的输出结果,其中,输出结果用于表示待匹配的目标字段可能对应的字段名称的概率;
如果各个BP基学习器的输出结果中的最大概率均大于等于阈值,并且最大概率对应的字段名称相同,则取最大概率对应的字段名称作为第一结果集,否则第一结果集为空。
在一种可能的实施方式中,匹配单元701具体用于:
通过计算已知字段集合中各字段对应的语义特征向量与待匹配的目标字段的语义特征向量之间的相似度,其中,i表示已知字段集合中的字段,j表示待匹配的目标字段,ai表示字段i的语义特征向量,aj表示字段j的语义特征向量,表示语义特征向量ai的第k个语义特征权重,表示语义特征向量aj的第k个语义特征权重,m表示语义特征向量ai或aj的维度;
通过计算已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称之间的相似度,其中,ni表示字段i的字段名称,nj表示字段j的字段名称,ld(ni,nj)表示用动态规划获得ni和nj的编辑距离,ni.length表示字段名称ni的长度,nj.length表示字段名称nj的长度;
根据语义特征向量之间的相似度Sim1(ai,aj)和字段名称之间相似度Sim2(ni,nj),得到混合相似度Sim(ai,aj)=α×Sim1(ai,aj)+(1-α)×Sim2(ni,nj),其中,α为可调参数并且0<α<1;
如果最大混合相似度大于等于阈值,则将对应的字段名称作为第二结果集,否则第二结果集为空。
在一种可能的实施方式中,匹配单元701具体用于:
通过计算已知字段集合中各字段对应的特征词向量与待匹配的目标字段的特征词向量之间的相似度,其中,i表示已知字段集合中的字段,j表示待匹配的目标字段,bi表示字段i的特征词向量,bj表示字段j的特征词向量,表示特征词向量bi的第k个特征词权重,表示特征词向量bj的第k个特征词权重,即m表示特征词向量bi或bj的维度;
通过计算已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称之间的相似度,其中,ni表示字段i的字段名称,nj表示字段j的字段名称,ld(ni,nj)表示用动态规划获得ni和nj的编辑距离,ni.length表示字段名称ni的长度,nj.length表示字段名称nj的长度;
根据特征词向量之间的相似度Sim'1(bi,bj)和字段名称之间相似度Sim2(ni,nj),得到混合相似度Sim'(bi,bj)=β×Sim'1(bi,bj)+(1-β)×Sim2(ni,nj),其中,β为可调参数并且0<β<1;
如果最大混合相似度大于等于阈值,则将对应的字段名称作为第二匹配结果。
由于本申请实施例中的字段匹配装置可以应用于上述方法,因此,其所能获得的技术效果也可参考上述方法实施例,本申请实施例在此不再赘述。
需要说明的是,匹配单元可以为单独设立的处理器,也可以集成在控制器的某一个处理器中实现,此外,也可以以程序代码的形式存储于控制器的存储器中,由控制器的某一个处理器调用并执行以上各单元的功能。这里所述的处理器可以是一个中央处理器(Central Processing Unit,CPU),或者是特定集成电路(Application SpecificIntegrated Circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被计算机执行时使所述计算机执行如图2-图6所述的方法。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种字段匹配方法,其特征在于,包括:
如果待匹配的目标字段为数值型字段,将已知字段集合中各字段对应的语义特征向量、字段名称与所述待匹配的目标字段的语义特征向量、字段名称相匹配,得到第一匹配结果;
如果所述待匹配的目标字段为字符型字段,将已知字段集合中各字段对应的特征词向量、字段名称与所述待匹配的目标字段的特征词向量、字段名称相匹配,得到第二匹配结果;
如果所述待匹配的目标字段为稀有型字段,则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配,得到第三匹配结果,其中,所述稀有型字段指除了所述数值型字段和所述字符型字段以外的字段;
其中,所述语义特征向量包括:根据字段的模式信息和统计信息得到所述字段的语义特征向量;所述模式信息包括字段的数据类型、类型长度、小数位数;所述统计信息包括字段的最大值、最小值、平均值、标准差、差异系数、中位数、众数以及数值的数量。
2.根据权利要求1所述的方法,其特征在于,所述将已知字段集合中各字段对应的语义特征向量、字段名称与所述待匹配的目标字段的语义特征向量、字段名称相匹配,得到第一匹配结果,包括:
以所述已知字段集合中各字段对应的语义特征向量和字段名称作为训练对,对预测神经网络进行多次训练以得到多个预测神经网络;
根据所述待匹配的目标字段的语义特征向量和所述多个预测神经网络得到与所述待匹配的目标字段匹配的第一结果集;
根据所述已知字段集合中各字段对应的语义特征向量与所述待匹配的目标字段的语义特征向量之间的相似度,以及所述已知字段集合中各字段对应的字段名称与所述待匹配的目标字段的字段名称之间的相似度,得到与所述待匹配的目标字段匹配的第二结果集;
根据第一结果集和第二结果集得到所述第一匹配结果。
3.根据权利要求2所述的方法,其特征在于,如果所述预测神经网络为反向传播BP基学习器,所述根据所述待匹配的目标字段的语义特征向量和所述多个预测神经网络得到与所述待匹配的目标字段匹配的第一结果集,包括:
将所述待匹配的目标字段的语义特征向量分别作为多个BP基学习器的输入,得到各个BP基学习器的输出结果,其中,所述输出结果用于表示待匹配的目标字段可能对应的字段名称的概率;
如果各个BP基学习器的输出结果中的最大概率均大于等于阈值,并且最大概率对应的字段名称相同,则取最大概率对应的字段名称作为所述第一结果集,否则所述第一结果集为空。
4.根据权利要求2所述的方法,其特征在于,所述根据所述已知字段集合中各字段对应的语义特征向量与所述待匹配的目标字段的语义特征向量之间的相似度,以及所述已知字段集合中各字段对应的字段名称与所述待匹配的目标字段的字段名称之间的相似度,得到与所述待匹配的目标字段匹配的第二结果集,包括:
通过计算所述已知字段集合中各字段对应的语义特征向量与所述待匹配的目标字段的语义特征向量之间的相似度,其中,i表示已知字段集合中的字段,j表示待匹配的目标字段,ai表示字段i的语义特征向量,aj表示字段j的语义特征向量,表示语义特征向量ai的第k个语义特征权重,表示语义特征向量aj的第k个语义特征权重,m表示语义特征向量ai或aj的维度;
通过计算所述已知字段集合中各字段对应的字段名称与所述待匹配的目标字段的字段名称之间的相似度,其中,ni表示字段i的字段名称,nj表示字段j的字段名称,ld(ni,nj)表示用动态规划获得ni和nj的编辑距离,ni.length表示字段名称ni的长度,nj.length表示字段名称nj的长度;
根据语义特征向量之间的相似度Sim1(ai,aj)和字段名称之间相似度Sim2(ni,nj),得到混合相似度Sim(ai,aj)=α×Sim1(ai,aj)+(1-α)×Sim2(ni,nj),其中,α为可调参数并且0<α<1;
如果最大混合相似度大于等于阈值,则将对应的字段名称作为所述第二结果集,否则所述第二结果集为空。
5.根据权利要求1所述的方法,其特征在于,所述将已知字段集合中各字段对应的特征词向量、字段名称与所述待匹配的目标字段的特征词向量、字段名称相匹配,得到第二匹配结果,包括:
通过计算所述已知字段集合中各字段对应的特征词向量与所述待匹配的目标字段的特征词向量之间的相似度,其中,i表示已知字段集合中的字段,j表示待匹配的目标字段,bi表示字段i的特征词向量,bj表示字段j的特征词向量,表示特征词向量bi的第k个特征词权重,表示特征词向量bj的第k个特征词权重,即m表示特征词向量bi或bj的维度;
通过计算所述已知字段集合中各字段对应的字段名称与所述待匹配的目标字段的字段名称之间的相似度,其中,ni表示字段i的字段名称,nj表示字段j的字段名称,ld(ni,nj)表示用动态规划获得ni和nj的编辑距离,ni.length表示字段名称ni的长度,nj.length表示字段名称nj的长度;
根据特征词向量之间的相似度Sim'1(bi,bj)和字段名称之间相似度Sim2(ni,nj),得到混合相似度Sim'(bi,bj)=β×Sim'1(bi,bj)+(1-β)×Sim2(ni,nj),其中,β为可调参数并且0<β<1;
如果最大混合相似度大于等于阈值,则将对应的字段名称作为所述第二匹配结果。
6.一种字段匹配装置,其特征在于,包括:
匹配单元,用于如果待匹配的目标字段为数值型字段,将已知字段集合中各字段对应的语义特征向量、字段名称与所述待匹配的目标字段的语义特征向量、字段名称相匹配,得到第一匹配结果;
所述匹配单元,还用于如果所述待匹配的目标字段为字符型字段,将已知字段集合中各字段对应的特征词向量、字段名称与所述待匹配的目标字段的特征词向量、字段名称相匹配,得到第二匹配结果;
所述匹配单元,还用于如果所述待匹配的目标字段为稀有型字段,则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配,得到第三匹配结果,其中,所述稀有型字段指除了所述数值型字段和所述字符型字段以外的字段;
其中,所述语义特征向量包括:根据字段的模式信息和统计信息得到所述字段的语义特征向量;所述模式信息包括字段的数据类型、类型长度、小数位数;所述统计信息包括字段的最大值、最小值、平均值、标准差、差异系数、中位数、众数以及数值的数量。
7.根据权利要求6所述的装置,其特征在于,所述匹配单元具体用于:
以所述已知字段集合中各字段对应的语义特征向量和字段名称作为训练对,对预测神经网络进行多次训练以得到多个预测神经网络;
根据所述待匹配的目标字段的语义特征向量和所述多个预测神经网络得到与所述待匹配的目标字段匹配的第一结果集;
根据所述已知字段集合中各字段对应的语义特征向量与所述待匹配的目标字段的语义特征向量之间的相似度,以及所述已知字段集合中各字段对应的字段名称与所述待匹配的目标字段的字段名称之间的相似度,得到与所述待匹配的目标字段匹配的第二结果集;
根据第一结果集和第二结果集得到所述第一匹配结果。
8.根据权利要求7所述的装置,其特征在于,如果所述预测神经网络为反向传播BP基学习器,所述匹配单元具体用于:
将所述待匹配的目标字段的语义特征向量分别作为多个BP基学习器的输入,得到各个BP基学习器的输出结果,其中,所述输出结果用于表示待匹配的目标字段可能对应的字段名称的概率;
如果各个BP基学习器的输出结果中的最大概率均大于等于阈值,并且最大概率对应的字段名称相同,则取最大概率对应的字段名称作为所述第一结果集,否则所述第一结果集为空。
9.根据权利要求7所述的装置,其特征在于,所述匹配单元具体用于:
通过计算所述已知字段集合中各字段对应的语义特征向量与所述待匹配的目标字段的语义特征向量之间的相似度,其中,i表示已知字段集合中的字段,j表示待匹配的目标字段,ai表示字段i的语义特征向量,aj表示字段j的语义特征向量,表示语义特征向量ai的第k个语义特征权重,表示语义特征向量aj的第k个语义特征权重,m表示语义特征向量ai或aj的维度;
通过计算所述已知字段集合中各字段对应的字段名称与所述待匹配的目标字段的字段名称之间的相似度,其中,ni表示字段i的字段名称,nj表示字段j的字段名称,ld(ni,nj)表示用动态规划获得ni和nj的编辑距离,ni.length表示字段名称ni的长度,nj.length表示字段名称nj的长度;
根据语义特征向量之间的相似度Sim1(ai,aj)和字段名称之间相似度Sim2(ni,nj),得到混合相似度Sim(ai,aj)=α×Sim1(ai,aj)+(1-α)×Sim2(ni,nj),其中,α为可调参数并且0<α<1;
如果最大混合相似度大于等于阈值,则将对应的字段名称作为所述第二结果集,否则所述第二结果集为空。
10.根据权利要求6所述的装置,其特征在于,所述匹配单元具体用于:
通过计算所述已知字段集合中各字段对应的特征词向量与所述待匹配的目标字段的特征词向量之间的相似度,其中,i表示已知字段集合中的字段,j表示待匹配的目标字段,bi表示字段i的特征词向量,bj表示字段j的特征词向量,表示特征词向量bi的第k个特征词权重,表示特征词向量bj的第k个特征词权重,即m表示特征词向量bi或bj的维度;
通过计算所述已知字段集合中各字段对应的字段名称与所述待匹配的目标字段的字段名称之间的相似度,其中,ni表示字段i的字段名称,nj表示字段j的字段名称,ld(ni,nj)表示用动态规划获得ni和nj的编辑距离,ni.length表示字段名称ni的长度,nj.length表示字段名称nj的长度;
根据特征词向量之间的相似度Sim'1(bi,bj)和字段名称之间相似度Sim2(ni,nj),得到混合相似度Sim'(bi,bj)=β×Sim'1(bi,bj)+(1-β)×Sim2(ni,nj),其中,β为可调参数并且0<β<1;
如果最大混合相似度大于等于阈值,则将对应的字段名称作为所述第二匹配结果。
11.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被计算机执行时使所述计算机执行如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711037783.0A CN107704625B (zh) | 2017-10-30 | 2017-10-30 | 字段匹配方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711037783.0A CN107704625B (zh) | 2017-10-30 | 2017-10-30 | 字段匹配方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107704625A CN107704625A (zh) | 2018-02-16 |
CN107704625B true CN107704625B (zh) | 2021-01-15 |
Family
ID=61177038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711037783.0A Active CN107704625B (zh) | 2017-10-30 | 2017-10-30 | 字段匹配方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107704625B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280516B (zh) * | 2018-03-05 | 2021-05-11 | 山东领能电子科技有限公司 | 一种多组卷积神经网络之间互博智能进化的优化方法 |
CN108629046B (zh) * | 2018-05-14 | 2023-08-18 | 平安科技(深圳)有限公司 | 一种字段匹配方法及终端设备 |
CN108920458A (zh) * | 2018-06-21 | 2018-11-30 | 武汉斗鱼网络科技有限公司 | 一种标签归一化方法、装置、服务器和存储介质 |
CN109410069A (zh) * | 2018-09-03 | 2019-03-01 | 平安医疗健康管理股份有限公司 | 结算数据处理方法、装置、计算机设备和存储介质 |
CN109377203A (zh) * | 2018-09-13 | 2019-02-22 | 平安医疗健康管理股份有限公司 | 医疗结算数据处理方法、装置、计算机设备和存储介质 |
CN109376219A (zh) * | 2018-10-31 | 2019-02-22 | 北京锐安科技有限公司 | 文本属性字段的匹配方法、装置、电子设备及存储介质 |
CN109800273A (zh) * | 2018-12-03 | 2019-05-24 | 北京明略软件系统有限公司 | 一种数据处理的方法、装置、计算机存储介质及终端 |
CN109766436A (zh) * | 2018-12-04 | 2019-05-17 | 北京明略软件系统有限公司 | 一种数据表的字段与知识库的数据元匹配的方法和装置 |
CN109783611A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件系统有限公司 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
CN110162300A (zh) * | 2019-04-16 | 2019-08-23 | 中国平安财产保险股份有限公司 | 一种保险业务开发方法及装置 |
CN110457288B (zh) * | 2019-07-04 | 2023-06-20 | 平安科技(深圳)有限公司 | 数据模型构建方法、装置、设备及计算机可读存储介质 |
CN110532267A (zh) * | 2019-08-28 | 2019-12-03 | 北京明略软件系统有限公司 | 字段的确定方法、装置、存储介质及电子装置 |
CN110728142B (zh) * | 2019-09-09 | 2023-12-22 | 上海斑马来拉物流科技有限公司 | 一种流水文件识别方法、装置及计算机存储介质、电子设备 |
CN110889286B (zh) * | 2019-10-12 | 2022-04-12 | 平安科技(深圳)有限公司 | 基于数据表的依赖关系识别方法、装置和计算机设备 |
CN111104481B (zh) * | 2019-12-17 | 2023-10-10 | 东软集团股份有限公司 | 一种识别匹配字段的方法、装置及设备 |
CN113051918B (zh) * | 2019-12-26 | 2024-05-14 | 北京中科闻歌科技股份有限公司 | 基于集成学习的命名实体识别方法、装置、设备和介质 |
CN113065352B (zh) * | 2020-06-29 | 2022-07-19 | 国网浙江省电力有限公司杭州供电公司 | 一种电网调度工作文本的操作内容识别方法 |
CN111882429B (zh) * | 2020-07-28 | 2023-08-18 | 中国银行股份有限公司 | 一种银行系统字段长度分段方法和装置 |
CN114091426A (zh) * | 2020-10-19 | 2022-02-25 | 北京沃东天骏信息技术有限公司 | 一种处理数据仓库中字段数据的方法和装置 |
CN113673252A (zh) * | 2021-08-12 | 2021-11-19 | 之江实验室 | 一种基于字段语义的数据表自动join推荐方法 |
CN114896352B (zh) * | 2022-04-06 | 2022-11-11 | 北京月新时代科技股份有限公司 | 无字段名的井文件字段名自动匹配方法、系统、介质和计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101702152A (zh) * | 2009-10-28 | 2010-05-05 | 金蝶软件(中国)有限公司 | 数据智能处理方法、装置及系统 |
CN104657396A (zh) * | 2013-11-25 | 2015-05-27 | 腾讯科技(深圳)有限公司 | 数据迁移方法及装置 |
CN105843899A (zh) * | 2016-03-23 | 2016-08-10 | 炫彩互动网络科技有限公司 | 一种可简化编程的大数据自动化解析方法及系统 |
-
2017
- 2017-10-30 CN CN201711037783.0A patent/CN107704625B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101702152A (zh) * | 2009-10-28 | 2010-05-05 | 金蝶软件(中国)有限公司 | 数据智能处理方法、装置及系统 |
CN104657396A (zh) * | 2013-11-25 | 2015-05-27 | 腾讯科技(深圳)有限公司 | 数据迁移方法及装置 |
CN105843899A (zh) * | 2016-03-23 | 2016-08-10 | 炫彩互动网络科技有限公司 | 一种可简化编程的大数据自动化解析方法及系统 |
Non-Patent Citations (3)
Title |
---|
异构数据库环境下语义集成过程的并行计算方法研究;强保华;《计算机科学》;20040930;第31卷(第9期);第2-4节 * |
强保华.异构数据库环境下语义集成过程的并行计算方法研究.《计算机科学》.2004,第31卷(第9期), * |
神经网络算法在异构数据库属性匹配中的应用研究;张闯;《中国优秀硕士学位论文全文数据库》;20080615;第3.3.2节 * |
Also Published As
Publication number | Publication date |
---|---|
CN107704625A (zh) | 2018-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704625B (zh) | 字段匹配方法和装置 | |
US11157693B2 (en) | Stylistic text rewriting for a target author | |
CN107797985B (zh) | 建立同义鉴别模型以及鉴别同义文本的方法、装置 | |
CN111159220B (zh) | 用于输出结构化查询语句的方法和装置 | |
CN112036550A (zh) | 基于人工智能的客户意图识别方法、装置、计算机设备 | |
CN110728313B (zh) | 一种用于意图分类识别的分类模型训练方法及装置 | |
CN110543633B (zh) | 语句意图识别方法、装置 | |
EP3620982A1 (en) | Sample processing method and device | |
CN112509690A (zh) | 用于控制质量的方法、装置、设备和存储介质 | |
US10824808B2 (en) | Robust key value extraction | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
CN112686046A (zh) | 模型训练方法、装置、设备及计算机可读介质 | |
CN111666379B (zh) | 一种事件元素提取方法和装置 | |
CN110929532B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN116303537A (zh) | 数据查询方法及装置、电子设备、存储介质 | |
CN109034199B (zh) | 数据处理方法及装置、存储介质和电子设备 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN111898363B (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN111859933B (zh) | 马来语识别模型的训练方法、识别方法、装置、设备 | |
CN112445914A (zh) | 文本分类方法、装置、计算机设备和介质 | |
CN116703659A (zh) | 一种应用于工程咨询的数据处理方法、装置及电子设备 | |
US11922129B2 (en) | Causal knowledge identification and extraction | |
WO2021042517A1 (zh) | 基于人工智能的文章主旨提取方法、装置及存储介质 | |
CN112861962A (zh) | 样本处理方法、装置、电子设备和存储介质 | |
CN110705642B (zh) | 分类模型、方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |