CN116028596B

CN116028596B - 一种实体匹配分块的实现方法

Info

Publication number: CN116028596B
Application number: CN202310301575.6A
Authority: CN
Inventors: 蒋敏; 谷满昌
Original assignee: Yunzhu Information Technology Chengdu Co ltd
Current assignee: Yunzhu Information Technology Chengdu Co ltd
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-08-18
Anticipated expiration: 2043-03-27
Also published as: CN116028596A

Abstract

本发明公开了一种实体匹配分块的实现方法，包括基于两个不同来源但相同结构的数据表A和数据表B，生成数据表A中记录项a的合成样本；对合成样本数据序列化并生成对应的序列化句子；基于序列化句子，学习并训练分块匹配模型。本发明采用一种多阶段的匹配分块方法，无需数据标注的成本，以实体匹配模型工程应用作为出发点，解决实际中明显不匹配侯选对的识别以及减少语义级别不匹配对数量，极大减小了匹配模块的计算量。

Description

一种实体匹配分块的实现方法

技术领域

本发明属于计算机技术领域，具体涉及一种实体匹配分块的实现方法。

背景技术

实体匹配是指不同的知识库对同一个事物即实体 (Entity)可能会有不同的描述(数据结构、表示方法等)，找出所有代表相同实体的元组，即寻找指向现实中相同实体的数据实例。实体匹配系统通常包括两个模块：分块(blocker)和匹配(matcher)，分块模块根据某种知识或规则对数据分成规模更小的数据块(Block)，并在这些块里进行实体解析，以保证目标输出中的大部分数据对都在其中，即保证高召回；匹配模块则根据给定一对数据项，判断它们是否对应同一个真实世界的实体。

目前已有许多工作将深度学习应用到匹配环节，例如DITTO、ROBEM模型等，但很少有工作将深度学习应用在分块阶段。分块阶段会采用启发式的算法过滤掉不可能匹配的侯选对，然而分块模块大部分是基于属性等价，如HASH距离分块、规则逻辑等，这些方法并不能过滤掉语义不匹配对，例如：防火线槽-防火线，镀锌管-镀锌管套等。

因此，本发明提供了一种实体匹配分块的实现方法，以实体匹配模型工程应用作为出发点，解决实际中明显不匹配侯选对的识别以及减少语义级别不匹配对数量，减小匹配模块计算量。

发明内容

本发明要解决的技术问题是：提供一种实体匹配分块的实现方法，以至少解决上述技术问题。

为实现上述目的，本发明采用的技术方案如下：

一种实体匹配分块的实现方法，包括：步骤1、获取两个不同来源但相同结构的数据表A和数据表B，提取数据表A的记录项a，生成记录项a的合成样本，所述合成样本包括正样本对和负样本对，所述正样本对包含记录项a与匹配记录项，所述负样本对包含记录项a与不匹配记录项c，记录项a∈数据表A，记录项b∈数据表B；

步骤2、对记录项a、匹配记录项和不匹配记录项c分别数据序列化并生成对应的序列化句子；

步骤3、基于序列化句子，学习并训练分块匹配模型。

基于训练好的分块匹配模型，用于实际生产中的实体匹配。

进一步地，所述数据序列化为：将对记录项a、匹配记录项或不匹配记录项c的属性1、属性2、…、属性n拼接相连，生成对应的序列化句子。

进一步地，所述匹配记录项由所述记录项a根据数据增强方法合成，数据增强方法包括：方法1、交换记录项a的属性；方法2、删除记录项a的属性；方法3、遮盖记录项a的属性；方法4、替换记录项a的属性为同义属性。

进一步地，所述不匹配记录项c为记录项或替换记录项/>，记录项b∈数据表B，替换记录项/>为将记录项a属性的属性值随机替换为同一个分类下的其余属性值。

进一步地，所述步骤3包括：步骤31、对序列化句子进行多粒度切分；步骤32、对切分后的序列化句子进行词向量化；步骤33、基于词向量化结果构建分块匹配模型M1，提取代表序列化句子信息摘要的低维向量；步骤34、基于低维向量构建分块匹配模型M2。

进一步地，所述词向量化计算式：，，其中n为序列化句子a、序列化句子/>或序列化句子c，表示词/>在序列化句子中出现的次数，/>表示词 /> 出现在多少个记录项中，/> 代表总的记录项数量，word2vec为词向量模型。

进一步地，分块匹配模型M1包括三个不同卷积核，输入词向量化结果至分块匹配模型M1，卷积后生成低维向量，将低维向量反卷积进行特征重构，得到目标值，用于训练分块匹配模型M1；

低维向量计算式为：，每个卷积核由参数 />和偏置/>构成，/>(x)为激活函数，pool代表下取样，/>为文本区域或数组连接函数，/>为低维向量；

目标值计算式为：计算式为：/>；

分块匹配模型M1损失函数为：，count(A)某个商品所有记录项的数量。

进一步地，分块匹配模型M2包括三个神经网络network1、network2和network3；分别输入至network1和network2进行转换，得到输出向量/>和/>，再通过欧几里得度量的方式计算两个输出向量的距离/>；/>和/>进行拼接输入至network3进行转换，得到预测向量/>，由两个输出向量的距离和预测向量/>构建分块匹配模型M2损失函数，用于训练分块匹配模型M2；

分块匹配模型M2损失函数为：；

其中，、/>分别为序列化a和序列化b的低维向量，/>为合成样本是否匹配的标签，Y=1代表合成样本匹配，Y=0则代表合成样本不匹配，/>是样本离群阈值，/>是调节辅助网络的系数，N是合成样本的数量。

进一步的，所述步骤3还包括：步骤35、利用相似向量检索库，遍历数据表A的记录项a，通过分块匹配模型M2得到第一嵌入向量，构建并训练距离索引模型；遍历数据表B的记录项b，通过分块匹配模型M2预测得到第二嵌入向量，并在已经训练好的距离索引模型中查询出距离最近的前K条记录项作为分块结果。

进一步的，所述步骤2还包括对序列化句子进行数据知识嵌入：提取代表商品其关键属性的记录项，通过评分选择最大得分的关键属性对组合；采用LEBERT模型识别商品的规格属性，并且在规格属性的属性值前后添加对应的说明标签；将关键属性对组合和添加对应说明标签的规格属性添加至序列化句子中。

与现有技术相比，本发明具有以下有益效果：

本发明采用一种多阶段的匹配分块方法，无需数据标注的成本，以实体匹配模型工程应用作为出发点，解决实际中明显不匹配侯选对的识别以及减少语义级别不匹配对数量，极大减小了匹配模块的计算量。

附图说明

图1为本发明的方法流程图。

图2为本发明分块匹配模型M1训练图。

图3为本发明分块匹配模型M2训练图。

实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进一步详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“A”、“B”、“a”、“b”、“c”、“”、“/>”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明提及的“实施例”意味着，结合实施例描述的特定特征或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

其中一种实施例，如图1所示，一种实体匹配分块的实现方法，包括：

步骤1、获取两个不同来源但相同结构的数据表A和数据表B，提取数据表A的记录项a，生成记录项a的合成样本，所述合成样本包括正样本对和负样本对，所述正样本对包含记录项a与匹配记录项，所述负样本对包含记录项a与不匹配记录项c，记录项a∈数据表A，记录项b∈数据表B；

步骤3、基于序列化句子，学习并训练分块匹配模型。

本发明还包括：步骤4、基于训练好的分块匹配模型，用于实际生产中的实体匹配。

形式上定义数据表A（tableA）、数据表B（tableB）分别为两个不同来源的同构数据项表，用于分块匹配模型的学习和训练，其中、/>分别表示数据表A对应的记录项a、数据表B对应的记录项b。本发明采用一种多阶段的匹配分块方法，无需数据标注的成本，以实体匹配模型工程应用作为出发点，解决实际中明显不匹配侯选对的识别以及减少语义级别不匹配对数量，极大减小了匹配模块的计算量。

其中一种实施例，所述数据序列化为：将对记录项a、匹配记录项或不匹配记录项c的属性1、属性2、…、属性n拼接相连，生成对应的序列化句子。所述属性包括属性名和对应的属性值。例如：表1为数据表A的部分信息，将记录项的属性名和属性值逐个拼接起来，并且加入特殊的token分别用于表示属性名的开始和属性值的开始，经过记录项序列化后的序列化句子a₁为：“[COL]物料名称[ATTR]精轧螺纹钢…[COL]牌号[ATTR]HRB250E”，序列化句子a₂为：“[COL]物料名称[ATTR]工字钢…[COL]牌号[ATTR]LKE50”。其中序列化句子不包括尺寸、重量等规格属性。

表1

其中一种实施例，所述步骤2还包括对序列化句子进行数据知识嵌入，数据知识嵌入是基于关键属性模块（KeyModule）和标准模块（StandardModule）实现。具体为提取代表商品其关键属性的记录项，通过评分选择最大得分的关键属性对组合，例如区分商品中钢筋和工字钢只需要判断强度等级、牌号；采用LEBERT模型识别上述物料的规格属性，并且在规格属性的属性值前后添加对应的说明标签；将关键属性对组合和添加对应说明标签的规格属性添加至序列化句子中。

在本实施例中，通过评分选择最大得分的关键属性对组合，所述评分公式为：/>，/>，其中，，/>代表属于某个物料所有记录项集合，/>是一条记录项，/>是所有属性值的组合总数；以表1为例，，代表对应属性名组合，代表属性值组合。而对于日期(DATE)，单位(UNIT)、型号(TYPE)等已知类型，本发明借助现有大型中文实体识别（NER）预训练的LEBERT模型，在识别到的类型前后添加特殊token，比如型号”Φ10”、单位”吨”、日期”2021年10月”前后添加特殊token后如下：“…工字钢（镀锌）[TYPE]Φ10[\TYPE]20[UNIT]吨[\UNIT][DATE] 2021年10月[\DATE] 批次…”。

本发明需要对数据表A、数据表B记录项计算相似块，并通过训练一个二分类模型预测记录项是否匹配，以最大化召回合理数量的候选块，并且最小化训练时间消耗。假设数据表A、数据表B不存在任何标注样本，本发明提出一个简单但高效的方法来生成合成样本，合成样本包括正样本对和负样本对，基于合成样本的已知标签，学习并训练分块匹配模型。

其中一种实施例，所述正样本对包含记录项a与匹配记录项/>，匹配记录项/>由所述记录项a根据数据增强方法合成。本发明确保合成的匹配记录项/>至少有70%的重合覆盖。数据增强是为了让合成样本（正样本/>）更加鲁棒，贴近真实的匹配数据。所述数据增强方法包括：方法1、交换记录项a的属性，属性为属性名、属性值、或者属性名和属性值，属性或属性值位置关系并不决定匹配模型预测结果；以记录项a_n为例：公称直径：25mm，强度等级：PSB830，交换后为：强度等级：PSB830，25mm:公称直径，交换的结果可以是随机选择两个属性或一个属性内属性名和属性值的交换；方法2、删除记录项a的属性，匹配模型并不需要充分利用所有的信息就可以做预测结果；方法3、遮盖记录项a的属性或属性值，匹配模型在确少部分信息也能预测结果；方法4、替换记录项a的部分属性为同义的下位属性，基于人工规则替换，例如口径-直径、体积-立方等可相互替换。

其中一种实施例，所述不匹配记录项c为记录项或替换记录项/>，记录项b∈数据表B，替换记录项/>为将记录项a属性的属性值随机替换为同一个分类下的其余属性值，保证替换记录项/>的属性相同，但是属性值不同。

本发明基于非深度学习与深度学习模式进行分块匹配模型的学习训练，训练包括两个阶段M1、M2。M1阶段是通过训练一个卷积自编码器，获取代表记录项隐藏空间的低维向量，所述低维向量能够较好地摘要出记录项属性与属性值的组合信息。M2阶段是训练一个共享参数且区分正负样本对的孪生网络。

其中一种实施例，所述步骤3包括：

步骤31、对序列化句子进行多粒度切分，采用N-Gram方法对序列化句子按属性或属性值粒度进行1-gram、2-gram切分，N-Gram切分的好处是无需对中文或者字母数字特殊处理，并且每个词对于当前词的出现前后组合具有很强的约束力；

步骤32、对切分后的序列化句子进行词向量化，利用word2vec模块的CBOW或Skip-Gram模型对切分后的序列化句子进行词向量化；

步骤33、基于词向量化结果构建分块匹配模型M1，提取代表序列化句子信息摘要的低维向量，通过训练卷积自编码器完成对序列化句子内的信息摘要提取，达到关键特征信息低维表征的目的，并且M1阶段得到的低维向量作为M2阶段的输入；

步骤34、基于低维向量构建分块匹配模型M2，通过训练孪生网络帮助其更快收敛。

其中一种实施例，所述词向量化计算式：所述词向量化计算式：，/>，其中n为序列化句子a、序列化句子/>或序列化句子c，/> 表示词/>在序列化句子中出现的次数，表示词 /> 出现在多少个记录项中，/> 代表总的记录项数量，word2vec为词向量模型。

其中一种实施例，分块匹配模型M1包括三个不同卷积核，输入词向量化结果至分块匹配模型M1，卷积后生成低维向量，将低维向量反卷积进行特征重构，得到目标值，用于训练分块匹配模型M1。本发明基于卷积自编码器，构建了一个多尺度的分块匹配模型M1，分块匹配模型M1如图2所示，包括三个不同且并联的卷积核，既能实现卷积后的特征图捕捉到输入关键特征的组合表示，又能通过卷积核节省卷积操作的计算量。每个卷积核由参数和偏置 />构成，具体包括：1×1卷积和3×3卷积、1×1卷积和5×5卷积、以及1×1卷积。输入词向量化结果/>，经三个卷积核卷积，生成低维向量，即：每个卷积核得到的区域子块中取前K个最大值，实现不同长度的序列化句子都能通过下采样pool得到一个定长的向量，并通过拼接函数concat得到低维向量/>，，这样使用不同长度的卷积核，使得卷积后的数据更具代表性。

低维向量计算式为：，每个卷积核由参数 />和偏置/>构成，/>(x)为激活函数，pool代表下取样，/>为文本区域或数组连接函数；

目标值计算式为：计算式为：/>；

分块匹配模型M1损失函数为：，count(A)某个商品所有记录项的数量，采取最小均方误差函数，即目标值/>减去输入值/>的平方和再求均值。

其中一种实施例，分块匹配模型M2包括三个神经网络network1、network2和network3的孪生网络，其中分块匹配模型M2训练时network1、network2和network3均参与训练，而预测时只有network1、network2参与预测，孪生网络结构如图3所示。network1、network2分别具有对应的input1和input2两个输入，network1与network2之间共享权重，通过共享权重一定程度上限制了network1和network2的输入差异不能太大。分别作为输入至network1和network2进行转换，得到输出向量/>与/>，再通过欧几里得度量的方式计算两个输出向量的距离/>，/>和/>进行拼接输入至network3进行转换，得到预测向量/>，由两个输出向量的距离/>和预测向量/>构建分块匹配模型M2损失函数，用于训练分块匹配模型M2。network3作为辅助网络参与训练，从而帮助孪生网络更快收敛，同时增强缺少关键属性或属性值条件下预测的鲁棒性。

分块匹配模型M2损失函数为：；其中，、/>分别为序列化a和序列化b的低维向量，/>为合成样本是否匹配的标签，Y=1代表合成样本匹配，Y=0则代表合成样本不匹配，/>是样本离群阈值，用于指示超出此余量的不相似样本对不会造成损失，并且始终大于0，设定m=2.0，/>是调节辅助网络的系数，默认=0.5，N是合成样本的数量。

其中一种实施例，所述步骤3还包括：步骤35、利用相似向量检索库faiss做记录项分块检索，faiss是开源的相似性搜索库，支持十亿级别向量的快速搜索，遍历数据表A的记录项a，通过分块匹配模型M2得到第一嵌入向量，构建并训练距离索引模型；遍历数据表B的记录项b，通过分块匹配模型M2预测得到第二嵌入向量/>，并在已经训练好的距离索引模型中查询出距离最近的前K条（TopK）记录项作为分块结果。分块模块是根据某种知识或规则对数据分成规模更小的数据块(Block)，也就是步骤35提出的前K条记录项，对分块匹配模型得到的嵌入向量进行近邻召回，以减少分块模块，进而缩减计算量。

特别地，本发明步骤33中的卷积自编码器可以替换为AutoEncoder、Seq2Seq模型等；步骤34中的孪生网络可以替换为DSSM网络结构等；步骤35中的分块检索可以替换为LSH哈希方法。

最后应说明的是：以上各实施例仅仅为本发明的较优实施例用以说明本发明的技术方案，而非对其限制，当然更不是限制本发明的专利范围；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围；也就是说，但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色，其所解决的技术问题仍然与本发明一致的，均应当包含在本发明的保护范围之内；另外，将本发明的技术方案直接或间接的运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种实体匹配分块的实现方法，其特征在于，包括：

步骤3、基于序列化句子，学习并训练分块匹配模型；

所述步骤3包括：步骤31、对序列化句子进行多粒度切分；步骤32、对切分后的序列化句子进行词向量化；步骤33、基于词向量化结果构建分块匹配模型M1，提取代表序列化句子信息摘要的低维向量；步骤34、基于低维向量构建分块匹配模型M2；

所述词向量化计算式：，，其中n为序列化句子a、序列化句子/>或序列化句子c，表示词/>在序列化句子中出现的次数，/>表示词 /> 出现在多少个记录项中，/> 代表总的记录项数量，word2vec为词向量模型；

分块匹配模型M1包括三个不同卷积核，输入词向量化结果至分块匹配模型M1，卷积后生成低维向量，将低维向量反卷积进行特征重构，得到目标值，用于训练分块匹配模型M1；

低维向量计算式为：，每个卷积核由参数 />和偏置/>构成，/>(x)为激活函数，pool代表下取样，/>为文本区域或数组连接函数,/>为低维向量；

目标值计算式为：计算式为：/>；

分块匹配模型M1损失函数为：，count(A)某个商品所有记录项的数量；

分块匹配模型M2包括三个神经网络network1、network2和network3；分别输入至network1和network2进行转换，得到输出向量/>和/>，再通过欧几里得度量的方式计算两个输出向量的距离/>；/>和/>进行拼接输入至network3进行转换，得到预测向量/>，由两个输出向量的距离和预测向量/>构建分块匹配模型M2损失函数，用于训练分块匹配模型M2；

分块匹配模型M2损失函数为：；

2.根据权利要求1所述的一种实体匹配分块的实现方法，其特征在于，所述数据序列化为：将对记录项a、匹配记录项或不匹配记录项c的属性1、属性2、…、属性n拼接相连，生成对应的序列化句子。

3.根据权利要求1所述的一种实体匹配分块的实现方法，其特征在于，所述匹配记录项由所述记录项a根据数据增强方法合成，数据增强方法包括：方法1、交换记录项a的属性；方法2、删除记录项a的属性；方法3、遮盖记录项a的属性；方法4、替换记录项a的属性为同义属性。

4.根据权利要求1所述的一种实体匹配分块的实现方法，其特征在于，所述不匹配记录项c为记录项或替换记录项/>，记录项b∈数据表B，替换记录项/>为将记录项a属性的属性值随机替换为同一个分类下的其余属性值。

5.根据权利要求1所述的一种实体匹配分块的实现方法，其特征在于，所述步骤3还包括：步骤35、利用相似向量检索库，遍历数据表A的记录项a，通过分块匹配模型M2得到第一嵌入向量，构建并训练距离索引模型；遍历数据表B的记录项b，通过分块匹配模型M2预测得到第二嵌入向量，并在已经训练好的距离索引模型中查询出距离最近的前K条记录项作为分块结果。

6.根据权利要求1所述的一种实体匹配分块的实现方法，其特征在于，所述步骤2还包括对序列化句子进行数据知识嵌入：提取代表商品其关键属性的记录项，通过评分选择最大得分的关键属性对组合；采用LEBERT模型识别商品的规格属性，并且在规格属性的属性值前后添加对应的说明标签；将关键属性对组合和添加对应说明标签的规格属性添加至序列化句子中。