CN116028596B - 一种实体匹配分块的实现方法 - Google Patents
一种实体匹配分块的实现方法 Download PDFInfo
- Publication number
- CN116028596B CN116028596B CN202310301575.6A CN202310301575A CN116028596B CN 116028596 B CN116028596 B CN 116028596B CN 202310301575 A CN202310301575 A CN 202310301575A CN 116028596 B CN116028596 B CN 116028596B
- Authority
- CN
- China
- Prior art keywords
- record item
- attribute
- serialized
- record
- matching model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000000903 blocking effect Effects 0.000 title claims description 9
- 238000000638 solvent extraction Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 229910000831 Steel Inorganic materials 0.000 description 5
- 239000010959 steel Substances 0.000 description 5
- 101000772194 Homo sapiens Transthyretin Proteins 0.000 description 4
- 102100029290 Transthyretin Human genes 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种实体匹配分块的实现方法,包括基于两个不同来源但相同结构的数据表A和数据表B,生成数据表A中记录项a的合成样本;对合成样本数据序列化并生成对应的序列化句子;基于序列化句子,学习并训练分块匹配模型。本发明采用一种多阶段的匹配分块方法,无需数据标注的成本,以实体匹配模型工程应用作为出发点,解决实际中明显不匹配侯选对的识别以及减少语义级别不匹配对数量,极大减小了匹配模块的计算量。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种实体匹配分块的实现方法。
背景技术
实体匹配是指不同的知识库对同一个事物即实体 (Entity)可能会有不同的描述(数据结构、表示方法等),找出所有代表相同实体的元组,即寻找指向现实中相同实体的数据实例。实体匹配系统通常包括两个模块:分块(blocker)和匹配(matcher),分块模块根据某种知识或规则对数据分成规模更小的数据块(Block),并在这些块里进行实体解析,以保证目标输出中的大部分数据对都在其中,即保证高召回;匹配模块则根据给定一对数据项,判断它们是否对应同一个真实世界的实体。
目前已有许多工作将深度学习应用到匹配环节,例如DITTO、ROBEM模型等,但很少有工作将深度学习应用在分块阶段。分块阶段会采用启发式的算法过滤掉不可能匹配的侯选对,然而分块模块大部分是基于属性等价,如HASH距离分块、规则逻辑等,这些方法并不能过滤掉语义不匹配对,例如:防火线槽-防火线,镀锌管-镀锌管套等。
因此,本发明提供了一种实体匹配分块的实现方法,以实体匹配模型工程应用作为出发点,解决实际中明显不匹配侯选对的识别以及减少语义级别不匹配对数量,减小匹配模块计算量。
发明内容
本发明要解决的技术问题是:提供一种实体匹配分块的实现方法,以至少解决上述技术问题。
为实现上述目的,本发明采用的技术方案如下:
一种实体匹配分块的实现方法,包括:步骤1、获取两个不同来源但相同结构的数据表A和数据表B,提取数据表A的记录项a,生成记录项a的合成样本,所述合成样本包括正样本对和负样本对,所述正样本对包含记录项a与匹配记录项 ,所述负样本对包含记录项a与不匹配记录项c,记录项a∈数据表A,记录项b∈数据表B;
步骤2、对记录项a、匹配记录项和不匹配记录项c分别数据序列化并生成对应的序列化句子;
步骤3、基于序列化句子,学习并训练分块匹配模型。
基于训练好的分块匹配模型,用于实际生产中的实体匹配。
进一步地,所述数据序列化为:将对记录项a、匹配记录项或不匹配记录项c的属性1、属性2、…、属性n拼接相连,生成对应的序列化句子。
进一步地,所述匹配记录项由所述记录项a根据数据增强方法合成,数据增强方法包括:方法1、交换记录项a的属性;方法2、删除记录项a的属性;方法3、遮盖记录项a的属性;方法4、替换记录项a的属性为同义属性。
进一步地,所述不匹配记录项c为记录项或替换记录项/>,记录项b∈数据表B,替换记录项/>为将记录项a属性的属性值随机替换为同一个分类下的其余属性值。
进一步地,所述步骤3包括:步骤31、对序列化句子进行多粒度切分;步骤32、对切分后的序列化句子进行词向量化;步骤33、基于词向量化结果构建分块匹配模型M1,提取代表序列化句子信息摘要的低维向量;步骤34、基于低维向量构建分块匹配模型M2。
进一步地,所述词向量化计算式:,,其中n为序列化句子a、序列化句子/>或序列化句子c, 表示词/>在序列化句子中出现的次数,/>表示词 /> 出现在多少个记录项中,/> 代表总的记录项数量,word2vec为词向量模型。
进一步地,分块匹配模型M1包括三个不同卷积核,输入词向量化结果至分块匹配模型M1,卷积后生成低维向量,将低维向量反卷积进行特征重构,得到目标值,用于训练分块匹配模型M1;
低维向量计算式为:,每个卷积核由参数 />和偏置/>构成,/>(x)为激活函数,pool代表下取样,/>为文本区域或数组连接函数,/>为低维向量;
目标值计算式为: 计算式为:/>;
分块匹配模型M1损失函数为:,count(A)某个商品所有记录项的数量。
进一步地,分块匹配模型M2包括三个神经网络network1、network2和network3;分别输入至network1和network2进行转换, 得到输出向量/>和/>,再通过欧几里得度量的方式计算两个输出向量的距离/>;/>和/>进行拼接输入至network3进行转换,得到预测向量/>,由两个输出向量的距离和预测向量/>构建分块匹配模型M2损失函数,用于训练分块匹配模型M2;
分块匹配模型M2损失函数为:;
其中,、/>分别为序列化a和序列化b的低维向量,/>为合成样本是否匹配的标签,Y=1代表合成样本匹配,Y=0则代表合成样本不匹配,/>是样本离群阈值,/>是调节辅助网络的系数,N是合成样本的数量。
进一步的,所述步骤3还包括:步骤35、利用相似向量检索库,遍历数据表A的记录项a,通过分块匹配模型M2得到第一嵌入向量,构建并训练距离索引模型;遍历数据表B的记录项b,通过分块匹配模型M2预测得到第二嵌入向量,并在已经训练好的距离索引模型中查询出距离最近的前K条记录项作为分块结果。
进一步的,所述步骤2还包括对序列化句子进行数据知识嵌入:提取代表商品其关键属性的记录项,通过评分选择最大得分的关键属性对组合;采用LEBERT模型识别商品的规格属性,并且在规格属性的属性值前后添加对应的说明标签;将关键属性对组合和添加对应说明标签的规格属性添加至序列化句子中。
与现有技术相比,本发明具有以下有益效果:
本发明采用一种多阶段的匹配分块方法,无需数据标注的成本,以实体匹配模型工程应用作为出发点,解决实际中明显不匹配侯选对的识别以及减少语义级别不匹配对数量,极大减小了匹配模块的计算量。
附图说明
图1为本发明的方法流程图。
图2为本发明分块匹配模型M1训练图。
图3为本发明分块匹配模型M2训练图。
实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进一步详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“A”、“B”、“a”、“b”、“c”、“”、“/>”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明提及的“实施例”意味着,结合实施例描述的特定特征或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
其中一种实施例,如图1所示,一种实体匹配分块的实现方法,包括:
步骤1、获取两个不同来源但相同结构的数据表A和数据表B,提取数据表A的记录项a,生成记录项a的合成样本,所述合成样本包括正样本对和负样本对,所述正样本对包含记录项a与匹配记录项,所述负样本对包含记录项a与不匹配记录项c,记录项a∈数据表A,记录项b∈数据表B;
步骤2、对记录项a、匹配记录项和不匹配记录项c分别数据序列化并生成对应的序列化句子;
步骤3、基于序列化句子,学习并训练分块匹配模型。
本发明还包括:步骤4、基于训练好的分块匹配模型,用于实际生产中的实体匹配。
形式上定义数据表A(tableA)、数据表B(tableB)分别为两个不同来源的同构数据项表,用于分块匹配模型的学习和训练,其中、/>分别表示数据表A对应的记录项a、数据表B对应的记录项b。本发明采用一种多阶段的匹配分块方法,无需数据标注的成本,以实体匹配模型工程应用作为出发点,解决实际中明显不匹配侯选对的识别以及减少语义级别不匹配对数量,极大减小了匹配模块的计算量。
其中一种实施例,所述数据序列化为:将对记录项a、匹配记录项或不匹配记录项c的属性1、属性2、…、属性n拼接相连,生成对应的序列化句子。所述属性包括属性名和对应的属性值。例如:表1为数据表A的部分信息,将记录项的属性名和属性值逐个拼接起来,并且加入特殊的token分别用于表示属性名的开始和属性值的开始,经过记录项序列化后的序列化句子a1为:“[COL]物料名称[ATTR]精轧螺纹钢…[COL]牌号[ATTR]HRB250E”,序列化句子a2为:“[COL]物料名称[ATTR]工字钢…[COL]牌号[ATTR]LKE50”。其中序列化句子不包括尺寸、重量等规格属性。
表1
其中一种实施例,所述步骤2还包括对序列化句子进行数据知识嵌入,数据知识嵌入是基于关键属性模块(KeyModule)和标准模块(StandardModule)实现。具体为提取代表商品其关键属性的记录项,通过评分选择最大得分的关键属性对组合,例如区分商品中钢筋和工字钢只需要判断强度等级、牌号;采用LEBERT模型识别上述物料的规格属性,并且在规格属性的属性值前后添加对应的说明标签;将关键属性对组合和添加对应说明标签的规格属性添加至序列化句子中。
在本实施例中,通过评分选择最大得分的关键属性对组合,所述评分公式为:/>,/>,其中,,/>代表属于某个物料所有记录项集合,/>是一条记录项,/>是所有属性值的组合总数;以表1为例,,代表对应属性名组合,代表属性值组合。而对于日期(DATE),单位(UNIT)、型号(TYPE)等已知类型,本发明借助现有大型中文实体识别(NER)预训练的LEBERT模型,在识别到的类型前后添加特殊token,比如型号”Φ10”、单位”吨”、日期”2021年10月”前后添加特殊token后如下:“…工字钢(镀锌)[TYPE]Φ10[\TYPE]20[UNIT]吨[\UNIT][DATE] 2021年10月[\DATE] 批次…”。
本发明需要对数据表A、数据表B记录项计算相似块,并通过训练一个二分类模型预测记录项是否匹配,以最大化召回合理数量的候选块,并且最小化训练时间消耗。假设数据表A、数据表B不存在任何标注样本,本发明提出一个简单但高效的方法来生成合成样本,合成样本包括正样本对和负样本对,基于合成样本的已知标签,学习并训练分块匹配模型。
其中一种实施例,所述正样本对包含记录项a与匹配记录项/>,匹配记录项/>由所述记录项a根据数据增强方法合成。本发明确保合成的匹配记录项/>至少有70%的重合覆盖。数据增强是为了让合成样本(正样本/>)更加鲁棒,贴近真实的匹配数据。所述数据增强方法包括:方法1、交换记录项a的属性,属性为属性名、属性值、或者属性名和属性值,属性或属性值位置关系并不决定匹配模型预测结果;以记录项an为例:公称直径:25mm,强度等级:PSB830,交换后为:强度等级:PSB830,25mm:公称直径,交换的结果可以是随机选择两个属性或一个属性内属性名和属性值的交换;方法2、删除记录项a的属性,匹配模型并不需要充分利用所有的信息就可以做预测结果;方法3、遮盖记录项a的属性或属性值,匹配模型在确少部分信息也能预测结果;方法4、替换记录项a的部分属性为同义的下位属性,基于人工规则替换,例如口径-直径、体积-立方等可相互替换。
其中一种实施例,所述不匹配记录项c为记录项或替换记录项/>,记录项b∈数据表B,替换记录项/>为将记录项a属性的属性值随机替换为同一个分类下的其余属性值,保证替换记录项/>的属性相同,但是属性值不同。
本发明基于非深度学习与深度学习模式进行分块匹配模型的学习训练,训练包括两个阶段M1、M2。M1阶段是通过训练一个卷积自编码器,获取代表记录项隐藏空间的低维向量,所述低维向量能够较好地摘要出记录项属性与属性值的组合信息。M2阶段是训练一个共享参数且区分正负样本对的孪生网络。
其中一种实施例,所述步骤3包括:
步骤31、对序列化句子进行多粒度切分,采用N-Gram方法对序列化句子按属性或属性值粒度进行1-gram、2-gram切分,N-Gram切分的好处是无需对中文或者字母数字特殊处理,并且每个词对于当前词的出现前后组合具有很强的约束力;
步骤32、对切分后的序列化句子进行词向量化,利用word2vec模块的CBOW或Skip-Gram模型对切分后的序列化句子进行词向量化;
步骤33、基于词向量化结果构建分块匹配模型M1,提取代表序列化句子信息摘要的低维向量,通过训练卷积自编码器完成对序列化句子内的信息摘要提取,达到关键特征信息低维表征的目的,并且M1阶段得到的低维向量作为M2阶段的输入;
步骤34、基于低维向量构建分块匹配模型M2,通过训练孪生网络帮助其更快收敛。
其中一种实施例,所述词向量化计算式:所述词向量化计算式:,/>,其中n为序列化句子a、序列化句子/>或序列化句子c,/> 表示词/>在序列化句子中出现的次数,表示词 /> 出现在多少个记录项中,/> 代表总的记录项数量,word2vec为词向量模型。
其中一种实施例,分块匹配模型M1包括三个不同卷积核,输入词向量化结果至分块匹配模型M1,卷积后生成低维向量,将低维向量反卷积进行特征重构,得到目标值,用于训练分块匹配模型M1。本发明基于卷积自编码器,构建了一个多尺度的分块匹配模型M1,分块匹配模型M1如图2所示,包括三个不同且并联的卷积核,既能实现卷积后的特征图捕捉到输入关键特征的组合表示,又能通过卷积核节省卷积操作的计算量。每个卷积核由参数和偏置 />构成,具体包括:1×1卷积和3×3卷积、1×1卷积和5×5卷积、以及1×1卷积。输入词向量化结果/>,经三个卷积核卷积,生成低维向量,即:每个卷积核得到的区域子块中取前K个最大值,实现不同长度的序列化句子都能通过下采样pool得到一个定长的向量,并通过拼接函数concat得到低维向量/>,,这样使用不同长度的卷积核,使得卷积后的数据更具代表性。
低维向量计算式为:,每个卷积核由参数 />和偏置/>构成,/>(x)为激活函数,pool代表下取样,/>为文本区域或数组连接函数;
目标值计算式为: 计算式为:/>;
分块匹配模型M1损失函数为:,count(A)某个商品所有记录项的数量,采取最小均方误差函数,即目标值/>减去输入值/>的平方和再求均值。
其中一种实施例,分块匹配模型M2包括三个神经网络network1、network2和network3的孪生网络,其中分块匹配模型M2训练时network1、network2和network3均参与训练,而预测时只有network1、network2参与预测,孪生网络结构如图3所示。network1、network2分别具有对应的input1和input2两个输入,network1与network2之间共享权重,通过共享权重一定程度上限制了network1和network2的输入差异不能太大。分别作为输入至network1和network2进行转换,得到输出向量/>与/>,再通过欧几里得度量的方式计算两个输出向量的距离/>,/>和/>进行拼接输入至network3进行转换,得到预测向量/>,由两个输出向量的距离/>和预测向量/>构建分块匹配模型M2损失函数,用于训练分块匹配模型M2。network3作为辅助网络参与训练,从而帮助孪生网络更快收敛,同时增强缺少关键属性或属性值条件下预测的鲁棒性。
分块匹配模型M2损失函数为:;其中,、/>分别为序列化a和序列化b的低维向量,/>为合成样本是否匹配的标签,Y=1代表合成样本匹配,Y=0则代表合成样本不匹配,/>是样本离群阈值,用于指示超出此余量的不相似样本对不会造成损失,并且始终大于0,设定m=2.0,/>是调节辅助网络的系数,默认=0.5,N是合成样本的数量。
其中一种实施例,所述步骤3还包括:步骤35、利用相似向量检索库faiss做记录项分块检索,faiss是开源的相似性搜索库,支持十亿级别向量的快速搜索,遍历数据表A的记录项a,通过分块匹配模型M2得到第一嵌入向量,构建并训练距离索引模型;遍历数据表B的记录项b,通过分块匹配模型M2预测得到第二嵌入向量/>,并在已经训练好的距离索引模型中查询出距离最近的前K条(TopK)记录项作为分块结果。分块模块是根据某种知识或规则对数据分成规模更小的数据块(Block),也就是步骤35提出的前K条记录项,对分块匹配模型得到的嵌入向量进行近邻召回,以减少分块模块,进而缩减计算量。
特别地,本发明步骤33中的卷积自编码器可以替换为AutoEncoder、Seq2Seq模型等;步骤34中的孪生网络可以替换为DSSM网络结构等;步骤35中的分块检索可以替换为LSH哈希方法。
最后应说明的是:以上各实施例仅仅为本发明的较优实施例用以说明本发明的技术方案,而非对其限制,当然更不是限制本发明的专利范围;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围;也就是说,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内;另外,将本发明的技术方案直接或间接的运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种实体匹配分块的实现方法,其特征在于,包括:
步骤1、获取两个不同来源但相同结构的数据表A和数据表B,提取数据表A的记录项a,生成记录项a的合成样本,所述合成样本包括正样本对和负样本对,所述正样本对包含记录项a与匹配记录项 ,所述负样本对包含记录项a与不匹配记录项c,记录项a∈数据表A,记录项b∈数据表B;
步骤2、对记录项a、匹配记录项和不匹配记录项c分别数据序列化并生成对应的序列化句子;
步骤3、基于序列化句子,学习并训练分块匹配模型;
所述步骤3包括:步骤31、对序列化句子进行多粒度切分;步骤32、对切分后的序列化句子进行词向量化;步骤33、基于词向量化结果构建分块匹配模型M1,提取代表序列化句子信息摘要的低维向量;步骤34、基于低维向量构建分块匹配模型M2;
所述词向量化计算式:,,其中n为序列化句子a、序列化句子/>或序列化句子c, 表示词/>在序列化句子中出现的次数,/>表示词 /> 出现在多少个记录项中,/> 代表总的记录项数量,word2vec为词向量模型;
分块匹配模型M1包括三个不同卷积核,输入词向量化结果至分块匹配模型M1,卷积后生成低维向量,将低维向量反卷积进行特征重构,得到目标值,用于训练分块匹配模型M1;
低维向量计算式为:,每个卷积核由参数 />和偏置/>构成,/>(x)为激活函数,pool代表下取样,/>为文本区域或数组连接函数,/>为低维向量;
目标值计算式为: 计算式为:/>;
分块匹配模型M1损失函数为:,count(A)某个商品所有记录项的数量;
分块匹配模型M2包括三个神经网络network1、network2和network3;分别输入至network1和network2进行转换, 得到输出向量/>和/>,再通过欧几里得度量的方式计算两个输出向量的距离/>;/>和/>进行拼接输入至network3进行转换,得到预测向量/>,由两个输出向量的距离和预测向量/>构建分块匹配模型M2损失函数,用于训练分块匹配模型M2;
分块匹配模型M2损失函数为:;
其中,、/>分别为序列化a和序列化b的低维向量,/>为合成样本是否匹配的标签,Y=1代表合成样本匹配,Y=0则代表合成样本不匹配,/>是样本离群阈值,/>是调节辅助网络的系数,N是合成样本的数量。
2.根据权利要求1所述的一种实体匹配分块的实现方法,其特征在于,所述数据序列化为:将对记录项a、匹配记录项或不匹配记录项c的属性1、属性2、…、属性n拼接相连,生成对应的序列化句子。
3.根据权利要求1所述的一种实体匹配分块的实现方法,其特征在于,所述匹配记录项由所述记录项a根据数据增强方法合成,数据增强方法包括:方法1、交换记录项a的属性;方法2、删除记录项a的属性;方法3、遮盖记录项a的属性;方法4、替换记录项a的属性为同义属性。
4.根据权利要求1所述的一种实体匹配分块的实现方法,其特征在于,所述不匹配记录项c为记录项或替换记录项/>,记录项b∈数据表B,替换记录项/>为将记录项a属性的属性值随机替换为同一个分类下的其余属性值。
5.根据权利要求1所述的一种实体匹配分块的实现方法,其特征在于,所述步骤3还包括:步骤35、利用相似向量检索库,遍历数据表A的记录项a,通过分块匹配模型M2得到第一嵌入向量,构建并训练距离索引模型;遍历数据表B的记录项b,通过分块匹配模型M2预测得到第二嵌入向量,并在已经训练好的距离索引模型中查询出距离最近的前K条记录项作为分块结果。
6.根据权利要求1所述的一种实体匹配分块的实现方法,其特征在于,所述步骤2还包括对序列化句子进行数据知识嵌入:提取代表商品其关键属性的记录项,通过评分选择最大得分的关键属性对组合;采用LEBERT模型识别商品的规格属性,并且在规格属性的属性值前后添加对应的说明标签;将关键属性对组合和添加对应说明标签的规格属性添加至序列化句子中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310301575.6A CN116028596B (zh) | 2023-03-27 | 2023-03-27 | 一种实体匹配分块的实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310301575.6A CN116028596B (zh) | 2023-03-27 | 2023-03-27 | 一种实体匹配分块的实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116028596A CN116028596A (zh) | 2023-04-28 |
CN116028596B true CN116028596B (zh) | 2023-08-18 |
Family
ID=86077854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310301575.6A Active CN116028596B (zh) | 2023-03-27 | 2023-03-27 | 一种实体匹配分块的实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116028596B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765240A (zh) * | 2019-10-31 | 2020-02-07 | 中国科学技术大学 | 多相关句子对的语义匹配评估方法 |
CN111191002A (zh) * | 2019-12-26 | 2020-05-22 | 武汉大学 | 一种基于分层嵌入的神经代码搜索方法及装置 |
US10664512B1 (en) * | 2018-02-13 | 2020-05-26 | Snap Inc. | Query matching to media collections in a messaging system |
CN111310439A (zh) * | 2020-02-20 | 2020-06-19 | 齐鲁工业大学 | 一种基于深度特征变维机制的智能语义匹配方法和装置 |
CN111339249A (zh) * | 2020-02-20 | 2020-06-26 | 齐鲁工业大学 | 一种联合多角度特征的深度智能文本匹配方法和装置 |
CN111723572A (zh) * | 2020-06-12 | 2020-09-29 | 广西师范大学 | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 |
CN112000771A (zh) * | 2020-08-24 | 2020-11-27 | 齐鲁工业大学 | 一种面向司法公开服务的句子对智能语义匹配方法和装置 |
CN112559723A (zh) * | 2020-12-28 | 2021-03-26 | 广东国粒教育技术有限公司 | 一种基于深度学习的faq检索式问答构建方法及系统 |
CN113268732A (zh) * | 2021-04-19 | 2021-08-17 | 中国人民解放军战略支援部队信息工程大学 | Solidity智能合约相似性检测方法及系统 |
CN113569554A (zh) * | 2021-09-24 | 2021-10-29 | 北京明略软件系统有限公司 | 一种数据库中实体对匹配方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10133729B2 (en) * | 2015-08-28 | 2018-11-20 | Microsoft Technology Licensing, Llc | Semantically-relevant discovery of solutions |
US10795897B2 (en) * | 2018-06-28 | 2020-10-06 | Microsoft Technology Licensing, Llc | Techniques for querying user profiles using neural networks |
US11481448B2 (en) * | 2020-03-31 | 2022-10-25 | Microsoft Technology Licensing, Llc | Semantic matching and retrieval of standardized entities |
-
2023
- 2023-03-27 CN CN202310301575.6A patent/CN116028596B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10664512B1 (en) * | 2018-02-13 | 2020-05-26 | Snap Inc. | Query matching to media collections in a messaging system |
CN110765240A (zh) * | 2019-10-31 | 2020-02-07 | 中国科学技术大学 | 多相关句子对的语义匹配评估方法 |
CN111191002A (zh) * | 2019-12-26 | 2020-05-22 | 武汉大学 | 一种基于分层嵌入的神经代码搜索方法及装置 |
CN111310439A (zh) * | 2020-02-20 | 2020-06-19 | 齐鲁工业大学 | 一种基于深度特征变维机制的智能语义匹配方法和装置 |
CN111339249A (zh) * | 2020-02-20 | 2020-06-26 | 齐鲁工业大学 | 一种联合多角度特征的深度智能文本匹配方法和装置 |
CN111723572A (zh) * | 2020-06-12 | 2020-09-29 | 广西师范大学 | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 |
CN112000771A (zh) * | 2020-08-24 | 2020-11-27 | 齐鲁工业大学 | 一种面向司法公开服务的句子对智能语义匹配方法和装置 |
CN112559723A (zh) * | 2020-12-28 | 2021-03-26 | 广东国粒教育技术有限公司 | 一种基于深度学习的faq检索式问答构建方法及系统 |
CN113268732A (zh) * | 2021-04-19 | 2021-08-17 | 中国人民解放军战略支援部队信息工程大学 | Solidity智能合约相似性检测方法及系统 |
CN113569554A (zh) * | 2021-09-24 | 2021-10-29 | 北京明略软件系统有限公司 | 一种数据库中实体对匹配方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
A multimodal approach for regional GDP prediction using social media activity and historical information;Javier Ortega-Bastida 等;《Applied Soft Computing》;1-17 * |
Also Published As
Publication number | Publication date |
---|---|
CN116028596A (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090049B (zh) | 基于句子向量的多文档摘要自动提取方法及系统 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN111914096A (zh) | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 | |
CN110427623A (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN107818141B (zh) | 融入结构化要素识别的生物医学事件抽取方法 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
Zhou et al. | Sentiment analysis of text based on CNN and bi-directional LSTM model | |
CN112417854A (zh) | 中文文档抽取式摘要方法 | |
CN107729290B (zh) | 一种利用局部敏感哈希优化的超大规模图的表示学习方法 | |
CN108710611A (zh) | 一种基于词网络和词向量的短文本主题模型生成方法 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN110134799B (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
CN112925908A (zh) | 一种基于Attention的图注意力网络的文本分类方法及系统 | |
CN110489553A (zh) | 一种基于多源信息融合的情感分类方法 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
Yan et al. | An improved single-pass algorithm for chinese microblog topic detection and tracking | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
CN113590827B (zh) | 一种基于多角度的科研项目文本分类装置和方法 | |
CN113240485A (zh) | 文本生成模型的训练方法、文本生成方法和装置 | |
CN116028596B (zh) | 一种实体匹配分块的实现方法 | |
CN112380844A (zh) | 武器装备属性同义词扩展方法 | |
CN111651995A (zh) | 基于深度循环神经网络的事故信息自动提取方法及系统 | |
CN116805010A (zh) | 面向装备制造的多数据链集成与融合知识图谱构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20230428 Assignee: China Construction e-commerce Co.,Ltd. Assignor: Yunzhu Information Technology (Chengdu) Co.,Ltd. Contract record no.: X2024980012861 Denomination of invention: A method for implementing entity matching and partitioning Granted publication date: 20230818 License type: Common License Record date: 20240826 |
|
EE01 | Entry into force of recordation of patent licensing contract |