CN107704625B

CN107704625B - 字段匹配方法和装置

Info

Publication number: CN107704625B
Application number: CN201711037783.0A
Authority: CN
Inventors: 杨仁凤; 王湧; 卢金城
Original assignee: Ruijie Networks Co Ltd
Current assignee: Ruijie Networks Co Ltd
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2021-01-15
Anticipated expiration: 2037-10-30
Also published as: CN107704625A

Abstract

本申请公开了一种字段匹配方法和装置，涉及数据领域，用于实现快速字段匹配。该方法包括：如果待匹配的目标字段为数值型字段，将已知字段集合中各字段对应的语义特征向量、字段名称与待匹配的目标字段的语义特征向量、字段名称相匹配，得到第一匹配结果；如果待匹配的目标字段为字符型字段，将已知字段集合中各字段对应的特征词向量、字段名称与待匹配的目标字段的特征词向量、字段名称相匹配，得到第二匹配结果；如果待匹配的目标字段为稀有型字段，则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配，得到第三匹配结果，其中，稀有型字段指除了数值型字段和字符型字段以外的字段。本申请实施例用于字段匹配。

Description

字段匹配方法和装置

技术领域

本发明涉及数据领域，尤其涉及一种字段匹配方法和装置。

背景技术

当前各高校的信息系统各不相同，并且设计规范多样，甚至缺乏数据字典和数据接口文档，增加了信息共享和分析的难度。在数据分析过程中，需要把各个高校子系统数据聚集起来，通过清洗、识别、关联最终建立数据模型。由于各个信息系统中定义的字段并不一定符合国标标准(高等学校管理信息标准)，在数据准备阶段的清洗、识别和关联过程需要大量人员参与字段识别和匹配，效率较低。

发明内容

本申请的实施例提供一种字段匹配方法和装置，用于实现快速字段匹配。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供了一种字段匹配方法，该方法包括：

如果待匹配的目标字段为数值型字段，将已知字段集合中各字段对应的语义特征向量、字段名称与所述待匹配的目标字段的语义特征向量、字段名称相匹配，得到第一匹配结果；

如果所述待匹配的目标字段为字符型字段，将已知字段集合中各字段对应的特征词向量、字段名称与所述待匹配的目标字段的特征词向量、字段名称相匹配，得到第二匹配结果；

如果所述待匹配的目标字段为稀有型字段，则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配，得到第三匹配结果，其中，所述稀有型字段指除了所述数值型字段和所述字符型字段以外的字段。

第二方面，提供了一种字段匹配装置，包括：

匹配单元，用于如果待匹配的目标字段为数值型字段，将已知字段集合中各字段对应的语义特征向量、字段名称与所述待匹配的目标字段的语义特征向量、字段名称相匹配，得到第一匹配结果；

所述匹配单元，还用于如果所述待匹配的目标字段为字符型字段，将已知字段集合中各字段对应的特征词向量、字段名称与所述待匹配的目标字段的特征词向量、字段名称相匹配，得到第二匹配结果；

所述匹配单元，还用于如果所述待匹配的目标字段为稀有型字段，则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配，得到第三匹配结果，其中，所述稀有型字段指除了所述数值型字段和所述字符型字段以外的字段。

第三方面，提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当被计算机执行时使所述计算机执行第一方面所述的方法。

本申请的实施例提供的字段匹配方法和装置，根据待匹配的目标字段属于不同字段类型，采用不同算法与已知字段集合中各字段进行匹配得到最终结果，实现了快速字段匹配。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的整体技术方案的示意图；

图2为本申请实施例提供的字段匹配方法的流程示意图一；

图3为本申请实施例提供的字段匹配方法的流程示意图二；

图4为本申请实施例提供的字段匹配方法的流程示意图三；

图5为本申请实施例提供的字段匹配方法的流程示意图四；

图6为本申请实施例提供的字段匹配方法的流程示意图五；

图7为本申请实施例提供的字段匹配装置的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

本申请实施例将国家制定的高等学校管理信息标准作为国标；将某高校定义好的数据源作为母版；将待匹配数据源作为新源。图1中为本申请整体技术方案的示意图。母版与国标之间通过人工知识库映射方式来建立映射关系；新源与母版之间通过本申请实施例提供的字段匹配方法来建立映射关系。最终实现新源与国标之间的映射关系，将新源按照国标进行识别。

实施例1、

本申请实施例提供了一种字段匹配方法，参照图2中所示，该方法包括：

S101、如果待匹配的目标字段为数值型字段，将已知字段集合中各字段对应的语义特征向量、字段名称与待匹配的目标字段的语义特征向量、字段名称相匹配，得到第一匹配结果。

数值型字段指数字形式字段，例如身高181。已知字段集合指母版中已经定义好的字段集合。预测神经网络指可以执行预测功能的神经网络例如可以是反向传播(BackPropagation，BP)神经网络。本申请实施例以BP神经网络为例进行说明，但并不意在限制只能采用BP神经网络。

可选的，获取已知字段集合中各字段对应的语义特征向量以及待匹配的目标字段的语义特征向量可以包括：根据字段的模式信息和统计信息得到该字段的语义特征向量。模式信息包括字段的数据类型、类型长度、小数位数等。统计信息包括字段的最大值、最小值、平均值、标准差、差异系数、中位数、众数以及数值的数量等。对一个字段的这些信息进行归一化处理，得到该字段的语义特征向量，用于表征该字段的语义特征。

另外，可以将根据所有字段构建出的语义特征向量文档化形成特征文档。

可选的，参照图3中所示，将已知字段集合中各字段对应的语义特征向量、字段名称与待匹配的目标字段的语义特征向量、字段名称相匹配，得到第一匹配结果，具体包括步骤S1011-S1014：

S1011、以已知字段集合中各字段对应的语义特征向量和字段名称作为训练对，对预测神经网络进行多次训练以得到多个预测神经网络。

以预测神经网络为BP基学习器为例，假设需要训练三个BP基学习器，需要经过三次如下过程：初始化BP神经网络参数，逐层前向计算，逐层反向计算误差并修改权重。每次初始化BP神经网络参数不同决定了三个BP基学习器结果不同。每个BP基学习器的输入为字段的语义特征向量，输出为字段可能对应的字段名称的概率。

S1012、根据待匹配的目标字段的语义特征向量和多个预测神经网络得到与待匹配的目标字段匹配的第一结果集。

具体的，参照图4中所示，步骤S1012可以包括S10121-S10122：

S10121、将待匹配的目标字段的语义特征向量分别作为多个BP基学习器的输入，得到每个BP基学习器的输出结果，其中，输出结果用于表示待匹配的目标字段可能对应的字段名称的概率。

例如，假设待匹配的目标字段为“土木”，第一个BP基学习器的输出结果可能是(0.3，0.8)，其中，第一个值表示可能对应“土建”的概率为0.3，第二个值表示可能对应“土木工程”的概率为0.8。

S10122、如果各个BP基学习器的输出结果中的最大概率均大于等于阈值，并且最大概率对应的字段名称相同，则取最大概率对应的字段名称作为第一结果集，否则第一结果集为空。

例如，假设第一个BP基学习器输出结果中最大概率0.8对应的字段名称为“土木工程”，第二个BP基学习器输出结果中最大概率0.6对应的字段名称也为“土木工程”，第三个BP基学习器输出结果中最大概率0.7对应的字段名称也为“土木工程”，阈值为0.5，则将“土木工程”作为第一结果集。

该阈值可以根据新源的不同动态调整。

S1013、根据已知字段集合中各字段对应的语义特征向量与待匹配的目标字段的语义特征向量之间的相似度，以及已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称之间的相似度，得到与待匹配的目标字段匹配的第二结果集。

可选的，参照图5中所示，步骤S1013可以包括步骤S10131-S10134：

S10131、通过

计算已知字段集合中各字段对应的语义特征向量与待匹配的目标字段的语义特征向量之间的相似度。

其中，i表示已知字段集合中的字段，j表示待匹配的目标字段，a_i表示字段i的语义特征向量，a_j表示字段j的语义特征向量，

表示语义特征向量a_i的第k个语义特征权重，即

表示语义特征向量aj的第k个语义特征权重，即

m表示语义特征向量a_i或a_j的维度。

S10132、通过

计算已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称之间的相似度。

其中，n_i表示字段i的字段名称，n_j表示字段j的字段名称，ld(n_i,n_j)表示用动态规划获得n_i和n_j的编辑距离，n_i.length表示字段名称n_i的长度，n_j.length表示字段名称n_j的长度。

S10133、根据语义特征向量之间的相似度Sim₁(a_i,a_j)和字段名称之间相似度Sim₂(n_i,n_j)，得到混合相似度Sim(a_i,a_j)＝α×Sim₁(a_i,a_j)+(1-α)×Sim₂(n_i,n_j)。

其中，α为可调参数并且0＜α＜1。

S10134、如果最大混合相似度大于等于阈值，则将对应的字段名称作为第二结果集，否则第二结果集为空。

该阈值可以根据新源的不同动态调整。

S1014、根据第一结果集和第二结果集得到第一匹配结果。

具体的，可以取第一结果集和第二结果集的交集或并集作为第一匹配结果。

S102、如果待匹配的目标字段为字符型字段，将已知字段集合中各字段对应的特征词向量、字段名称与待匹配的目标字段的特征词向量、字段名称相匹配，得到第二匹配结果。

字符型字段指文本字符串，例如专业土木工程。

对待匹配的目标字段进行分词得到待匹配的目标字段的特征词，对已知字段集合中各字段进行分词得到已知字段集合中各字段的特征词，分别计算待匹配的目标字段的特征词向量以及已知字段集合中各字段的特征词向量。

具体的，可以将字段作为文本，通过中科院的汉语词法分析系统ICTCLAS进行分词，每个字段可以分词得到特征词w₁,w₂,...,w_m，m表示一个字段分词得到的特征词个数。通过

计算得到特征词w_k对应的特征词权重wt_k。其中，tf(w_k,d)是特征词w_k在文本d中出现的数量，df(w_k,D)是特征词w_k在文本集D中出现的文档数，N是文本集D的文档总数。则该字段对应的特征词向量为b＝{wt₁,wt₂,...,wt_m}。

参照图6中所示，将已知字段集合中各字段对应的特征词向量、字段名称与待匹配的目标字段的特征词向量、字段名称相匹配，得到第二匹配结果，具体包括步骤S1021-S1024：

S1021、通过

计算已知字段集合中各字段对应的特征词向量与待匹配的目标字段的特征词向量之间的相似度。

其中，i表示已知字段集合中的字段，j表示待匹配的目标字段，b_i表示字段i的特征词向量，b_j表示字段j的特征词向量，

表示特征词向量b_i的第k个特征词权重，即

表示特征词向量b_j的第k个特征词权重，即

m表示特征词向量b_i或b_j的维度。

S1022、通过

具体，参照步骤S10132，在此不再赘述。

S1023、根据特征词向量之间的相似度Sim'₁(b_i,b_j)和字段名称之间相似度Sim₂(n_i,n_j)，得到混合相似度Sim'(b_i,b_j)＝β×Sim'₁(b_i,b_j)+(1-β)×Sim₂(n_i,n_j)。

其中，β为可调参数并且0＜β＜1。

S1024、如果最大混合相似度大于等于阈值，则将对应的字段名称作为第二匹配结果。

该阈值可以根据新源的不同动态调整。

S103、如果待匹配的目标字段为稀有型字段，则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配，得到第三匹配结果。

其中，稀有型字段指除了数值型字段和字符型字段以外的字段，例如时间、货币、符号等。

匹配类型具体通过：首先判断类型是否相同，如果类型相同则参照步骤S10132方法来进行字段名称的匹配；如果不相同，则匹配不成功。

本申请实施例提供的字段匹配方法，根据待匹配的目标字段属于不同字段类型，采用不同算法与已知字段集合中各字段进行匹配得到最终结果，实现了快速字段匹配。

本申请实施例的实验采用了某高校B的系统作为待匹配的新源，某高校A的系统作为母版。

1)首先随机选择两个测试数据库test1和test2进行实验测试，其中数据库test1用于训练BP基学习器，数据库test2用于测试匹配结果。数据库test1有表t_ky_cghj和表t_ky_lw_ry；数据库test2有表t_ky_cghj_ry。本实验是为了观察字段匹配的效果。得到实验结果如表1所示。

表1智能化字段匹配结果集

由表1中可以得到字段匹配结果集，经过人工评价，准确度达到85.7％。能够识别出异名同义，比如ZZDW(作者单位)与SSDW(所属单位)这两个字段的匹配、RYBH(人员编号)和RYBB(人员编号)这两个字段的匹配，以及SMSX(署名顺序)和SMSS(署名顺序)的匹配。在该字段匹配方法中，针对不同源的数据库，降低字段名的重要性，同时针对不同类型的字段采用不同策略模型来处理。

2)实际场景测试，分析国标识别的具体效果。具体实验数据描述如表2所示：

表2数据描述

	国标	母版(某高校A)	新源(某高校B)
				表的个数	255	88	41
字段的个数	2767	886	480

新源、母版、国标之间映射结果如表3所示：

表3映射匹配结果

	匹配对数
		母版到国标映射	195
新源到母版映射	886
		新源到国标映射	77

识别情况统计如表4所示：

表4识别情况

其中，错误识别主要表现为字段著作字数、学期码、校区号、助学金额、终止周以及考试座位数的错误识别；错误识别主要的情况是数据相似，但是从数据字典的含义上看，并不是相同的实体。

不能识别主要表现为国标规定的规则，主要有字段注册状况、性别码，很多数据是几个离散的数值，比如0,1，或者1,2的新源字段都跟性别码、注册状况匹配上了。

该字段识别算法的优点：能够识别异名同义；集成学习，泛化能力较强。我们针对不能识别的字段进行过滤，得到的新的映射结果如表5所示：

表5新的映射匹配结果

	匹配对数
		母版到国标映射	195
新源到母版映射	360
		新源到国标映射	42

新的国标识别情况统计如表6所示：

表6新的识别情况

结论有：在某高校B数据上验证国标识别模型，得出准确率85％。其中字段匹配耗时为4秒，国标识别耗时0秒。

实施例2、

本申请实施例提供了一种字段匹配装置，应用于上述方法，参照图7中所示，该装置包括：

匹配单元701，用于如果待匹配的目标字段为数值型字段，将已知字段集合中各字段对应的语义特征向量、字段名称与待匹配的目标字段的语义特征向量、字段名称相匹配，得到第一匹配结果；

匹配单元701，如果待匹配的目标字段为字符型字段，将已知字段集合中各字段对应的特征词向量、字段名称与待匹配的目标字段的特征词向量、字段名称相匹配，得到第二匹配结果；

匹配单元701，还用于如果待匹配的目标字段为稀有型字段，则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配，得到第三匹配结果，其中，稀有型字段指除了数值型字段和字符型字段以外的字段。

在一种可能的实施方式中，匹配单元701具体用于：

以已知字段集合中各字段对应的语义特征向量和字段名称作为训练对，对预测神经网络进行多次训练以得到多个预测神经网络；

根据待匹配的目标字段的语义特征向量和多个预测神经网络得到与待匹配的目标字段匹配的第一结果集；

根据已知字段集合中各字段对应的语义特征向量与待匹配的目标字段的语义特征向量之间的相似度，以及已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称之间的相似度，得到与待匹配的目标字段匹配的第二结果集；

根据第一结果集和第二结果集得到第一匹配结果。

在一种可能的实施方式中，如果预测神经网络为反向传播BP基学习器，匹配单元701具体用于：

将待匹配的目标字段的语义特征向量分别作为多个BP基学习器的输入，得到各个BP基学习器的输出结果，其中，输出结果用于表示待匹配的目标字段可能对应的字段名称的概率；

如果各个BP基学习器的输出结果中的最大概率均大于等于阈值，并且最大概率对应的字段名称相同，则取最大概率对应的字段名称作为第一结果集，否则第一结果集为空。

在一种可能的实施方式中，匹配单元701具体用于：

通过

计算已知字段集合中各字段对应的语义特征向量与待匹配的目标字段的语义特征向量之间的相似度，其中，i表示已知字段集合中的字段，j表示待匹配的目标字段，a_i表示字段i的语义特征向量，a_j表示字段j的语义特征向量，

表示语义特征向量a_i的第k个语义特征权重，

表示语义特征向量a_j的第k个语义特征权重，m表示语义特征向量a_i或a_j的维度；

通过

计算已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称之间的相似度，其中，n_i表示字段i的字段名称，n_j表示字段j的字段名称，ld(n_i,n_j)表示用动态规划获得n_i和n_j的编辑距离，n_i.length表示字段名称n_i的长度，n_j.length表示字段名称n_j的长度；

根据语义特征向量之间的相似度Sim₁(a_i,a_j)和字段名称之间相似度Sim₂(n_i,n_j)，得到混合相似度Sim(a_i,a_j)＝α×Sim₁(a_i,a_j)+(1-α)×Sim₂(n_i,n_j)，其中，α为可调参数并且0＜α＜1；

如果最大混合相似度大于等于阈值，则将对应的字段名称作为第二结果集，否则第二结果集为空。

在一种可能的实施方式中，匹配单元701具体用于：

通过

计算已知字段集合中各字段对应的特征词向量与待匹配的目标字段的特征词向量之间的相似度，其中，i表示已知字段集合中的字段，j表示待匹配的目标字段，b_i表示字段i的特征词向量，b_j表示字段j的特征词向量，

表示特征词向量b_i的第k个特征词权重，

表示特征词向量b_j的第k个特征词权重，即m表示特征词向量b_i或b_j的维度；

通过

根据特征词向量之间的相似度Sim'₁(b_i,b_j)和字段名称之间相似度Sim₂(n_i,n_j)，得到混合相似度Sim'(b_i,b_j)＝β×Sim'₁(b_i,b_j)+(1-β)×Sim₂(n_i,n_j)，其中，β为可调参数并且0＜β＜1；

如果最大混合相似度大于等于阈值，则将对应的字段名称作为第二匹配结果。

由于本申请实施例中的字段匹配装置可以应用于上述方法，因此，其所能获得的技术效果也可参考上述方法实施例，本申请实施例在此不再赘述。

需要说明的是，匹配单元可以为单独设立的处理器，也可以集成在控制器的某一个处理器中实现，此外，也可以以程序代码的形式存储于控制器的存储器中，由控制器的某一个处理器调用并执行以上各单元的功能。这里所述的处理器可以是一个中央处理器(Central Processing Unit，CPU)，或者是特定集成电路(Application SpecificIntegrated Circuit，ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当被计算机执行时使所述计算机执行如图2-图6所述的方法。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种字段匹配方法，其特征在于，包括：

如果所述待匹配的目标字段为稀有型字段，则将已知字段集合中各字段对应的字段名称与待匹配的目标字段的字段名称相匹配，得到第三匹配结果，其中，所述稀有型字段指除了所述数值型字段和所述字符型字段以外的字段；

其中，所述语义特征向量包括：根据字段的模式信息和统计信息得到所述字段的语义特征向量；所述模式信息包括字段的数据类型、类型长度、小数位数；所述统计信息包括字段的最大值、最小值、平均值、标准差、差异系数、中位数、众数以及数值的数量。

2.根据权利要求1所述的方法，其特征在于，所述将已知字段集合中各字段对应的语义特征向量、字段名称与所述待匹配的目标字段的语义特征向量、字段名称相匹配，得到第一匹配结果，包括：

以所述已知字段集合中各字段对应的语义特征向量和字段名称作为训练对，对预测神经网络进行多次训练以得到多个预测神经网络；

根据所述待匹配的目标字段的语义特征向量和所述多个预测神经网络得到与所述待匹配的目标字段匹配的第一结果集；

根据所述已知字段集合中各字段对应的语义特征向量与所述待匹配的目标字段的语义特征向量之间的相似度，以及所述已知字段集合中各字段对应的字段名称与所述待匹配的目标字段的字段名称之间的相似度，得到与所述待匹配的目标字段匹配的第二结果集；

根据第一结果集和第二结果集得到所述第一匹配结果。

3.根据权利要求2所述的方法，其特征在于，如果所述预测神经网络为反向传播BP基学习器，所述根据所述待匹配的目标字段的语义特征向量和所述多个预测神经网络得到与所述待匹配的目标字段匹配的第一结果集，包括：

将所述待匹配的目标字段的语义特征向量分别作为多个BP基学习器的输入，得到各个BP基学习器的输出结果，其中，所述输出结果用于表示待匹配的目标字段可能对应的字段名称的概率；

如果各个BP基学习器的输出结果中的最大概率均大于等于阈值，并且最大概率对应的字段名称相同，则取最大概率对应的字段名称作为所述第一结果集，否则所述第一结果集为空。

4.根据权利要求2所述的方法，其特征在于，所述根据所述已知字段集合中各字段对应的语义特征向量与所述待匹配的目标字段的语义特征向量之间的相似度，以及所述已知字段集合中各字段对应的字段名称与所述待匹配的目标字段的字段名称之间的相似度，得到与所述待匹配的目标字段匹配的第二结果集，包括：

通过

计算所述已知字段集合中各字段对应的语义特征向量与所述待匹配的目标字段的语义特征向量之间的相似度，其中，i表示已知字段集合中的字段，j表示待匹配的目标字段，a_i表示字段i的语义特征向量，a_j表示字段j的语义特征向量，

表示语义特征向量a_i的第k个语义特征权重，

通过

计算所述已知字段集合中各字段对应的字段名称与所述待匹配的目标字段的字段名称之间的相似度，其中，n_i表示字段i的字段名称，n_j表示字段j的字段名称，ld(n_i,n_j)表示用动态规划获得n_i和n_j的编辑距离，n_i.length表示字段名称n_i的长度，n_j.length表示字段名称n_j的长度；