CN116306504A - 候选实体生成方法、装置、存储介质及电子设备 - Google Patents
候选实体生成方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116306504A CN116306504A CN202310582057.6A CN202310582057A CN116306504A CN 116306504 A CN116306504 A CN 116306504A CN 202310582057 A CN202310582057 A CN 202310582057A CN 116306504 A CN116306504 A CN 116306504A
- Authority
- CN
- China
- Prior art keywords
- entity
- knowledge base
- vector
- candidate
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000013598 vector Substances 0.000 claims abstract description 178
- 238000012549 training Methods 0.000 claims abstract description 50
- 230000015654 memory Effects 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 5
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/134—Hyperlinking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及实体链接技术领域,具体公开了一种候选实体生成方法、装置、存储介质及电子设备,包括:根据训练好的孪生BERT模型编码器将知识库中的所有实体均编码为向量,获得知识库实体向量空间;获取待生成候选实体的实体指称项及其上下文文本,并根据训练好的孪生BERT模型编码器对待生成候选实体的实体指称项及其上下文文本均进行编码获得目标向量;在知识库实体向量空间中检索获得与目标向量近邻的k个向量;将知识库实体向量空间中的k个向量所对应的实体作为候选实体;其中所述孪生BERT模型编码器为根据正样本数据集、负样本数据集和知识库进行训练获得。本发明提供的候选实体生成方法获得的实体链接结果准确性高。
Description
技术领域
本发明涉及实体链接技术领域,尤其涉及一种候选实体生成方法、候选实体生成装置、存储介质及电子设备。
背景技术
实体链接任务指的是将文档中可能存在歧义的实体提及链接到给定知识库中的正确实体。实体链接是知识图谱构建和应用过程中的关键技术,广泛应用于与知识图谱相关的领域,如问答和信息检索等。神经实体检索由两个主要子任务组成:1)候选实体生成:从包含数百万个实体的知识库中选择一组语义上相似的候选实体;2)实体排序:使用更精确的算法重新排名候选实体列表,以选择最匹配的实体。
由于实体链接已经研究多年,并通过神经网络取得了巨大进展。然而,大多数工作都是针对英语语料库设计的,特别是长文本,而在短文本中仍然存在巨大挑战。首先,中文在词分割和复杂语法特征方面具有不同的特点。其次,许多最近的模型使用全局上下文来捕捉一组相关提及实体之间的连贯性。然而,短文档通常是杂乱无序的,缺乏丰富的上下文信息,无法在全局方法中使用。
虽然现有技术中存在通过使用双塔BERT编码器来编码提及上下文和实体描述信息以提升实体链接效果,但是其所利用的是两个独立的BERT模型,模型之间并没有交互,增加了句子对输入和表示过程中的差异,影响实体在向量空间中的分布,无法获得精准有效的链接结果。
因此,如何能够提升实体链接结果的准确性成为本领域技术人员亟待解决的技术问题。
发明内容
本发明提供了一种候选实体生成方法、候选实体生成装置、存储介质及电子设备,解决相关技术中存在的链接结果准确性差的问题。
作为本发明的第一个方面,提供一种候选实体生成方法,其中,包括:
根据训练好的孪生BERT模型编码器将知识库中的所有实体均编码为向量,获得知识库实体向量空间,其中所述知识库为包括多个实体的合集;
获取待生成候选实体的实体指称项及其上下文文本,并根据训练好的孪生BERT模型编码器对所述待生成候选实体的实体指称项及其上下文文本均进行编码,获得目标向量;
在所述知识库实体向量空间中检索获得与所述目标向量近邻的k个向量;
将所述知识库实体向量空间中的k个向量所对应的实体作为候选实体,其中k为大于或者等于1的自然数;
其中所述孪生BERT模型编码器为根据正样本数据集、负样本数据集和知识库进行训练获得。
进一步地,在所述知识库实体向量空间中检索获得与所述目标向量近邻的k个向量,包括:
将所述知识库实体向量空间划分为多个子向量空间;
根据最近邻检索工具在多个子向量空间中进行遍历检索,获得与所述目标向量近邻的k个向量。
进一步地,在所述知识库实体向量空间中检索获得与所述目标向量近邻的k个向量,包括:
根据Faiss框架构建IndexFlatL2索引;
根据IndexFlatL2索引在所述知识库实体向量空间中进行遍历检索,获得与所述目标向量近邻的k个向量。
进一步地,所述孪生BERT模型编码器的训练包括:
确定训练样本集,其中所述训练样本集包括正样本数据集、负样本数据集和知识库;
对所述训练样本集进行向量化表示,分别获得正样本数据集向量、负样本数据集向量和知识库实体向量;
将所述正样本数据集向量和所述负样本数据集向量输入至所述孪生BERT模型中的其中一个分支进行训练获得样本向量训练结果,将所述知识库实体向量输入至所述孪生BERT模型中的另一个分支进行训练获得知识库向量训练结果;
分别对所述样本向量训练结果和所述知识库向量训练结果进行池化操作,获得池化后的两个向量训练结果;
将池化后的两个向量训练结果进行余弦相似度计算;
重复上述过程,直至余弦相似度计算结果满足训练要求后获得训练好的孪生BERT模型编码器。
进一步地,所述负样本数据集的确定包括:
根据所述知识库中实体自带的类型信息挑选与所述正样本数据集具有相同类型信息的所有实体;
针对所挑选出的每种类型信息的实体分别度量其与实体指称项的上下文文本间的相似度;
根据所述相似度降序排列所挑选出的实体,获得按照相似度从高到低排列的实体序列;
将所述实体序列划分为多个子实体序列,并对于相似度高的子实体序列设置第一采样几率,对于相似度低的子实体序列设置第二采样几率,其中所述第一采样几率大于所述第二采样几率。
进一步地,对所述训练样本集进行向量化表示,包括:
根据正样本数据集、负样本数据集和知识库构造三元组数据格式;
对构造后的三元组数据格式进行向量化表示。
进一步地,根据正样本数据集、负样本数据集和知识库构造三元组数据格式,包括:
针对所述正样本数据集和负样本数据集中的每个实体指称项及其上下文文本均添加开始标志[CLS]和结束标志[SEP],以及针对所述知识库中的实体均添加开始标志[CLS]和结束标志[SEP];
针对所述实体指称项及其上下文文本的标记分别添加标记,获得实体指称项及其上下文文本的描述信息为:
针对所述知识库的实体添加标记,获得所述知识库的实体描述信息为:
根据所述实体指称项及其上下文文本的描述信息以及所述知识库的实体描述信息获得三元组数据格式。
作为本发明的另一个方面,提供一种候选实体生成装置,用于实现前文所述的候选实体生成方法,其中,所述候选实体生成装置包括:
第一编码模块,用于根据训练好的孪生BERT模型编码器将知识库中的所有实体均编码为向量,获得知识库实体向量空间,其中所述知识库为包括多个实体的合集;
第二编码模块,用于获取待生成候选实体的实体指称项及其上下文文本,并根据训练好的孪生BERT模型编码器对所述待生成候选实体的实体指称项及其上下文文本均进行编码,获得目标向量;
检索模块,用于在所述知识库实体向量空间中检索获得与所述目标向量近邻的k个向量;
候选实体确定模块,用于将所述知识库实体向量空间中的k个向量所对应的实体作为候选实体,其中k为大于或者等于1的自然数;
其中所述孪生BERT模型编码器为根据正样本数据集、负样本数据集和知识库进行训练获得。
作为本发明的另一个方面,提供一种存储介质,其中,包括计算机指令,所述计算机指令被处理器加载并执行以实现前文所述的候选实体生成方法。
作为本发明的另一个方面,提供一种电子设备,其中,包括存储器和处理器,所述存储器用于存储计算机指令,所述处理器用于加载并执行所述计算机指令以实现前文所述的候选实体生成方法。
本发明提供的候选实体生成方法,通过根据训练好的孪生BERT模型编码器对知识库中的实体进行编码以及对待生成候选实体的实体指称项及其上下文文本进行编码,从而能够获得实体指称项与知识库实体之间的语义关系,进而通过检索的方式获得知识库中的候选实体,这种候选实体生成方法由于采用孪生BERT模型能够将实体指称项与知识库实体之间的语义关系进行关联,减少实体指称项与知识库实体之间的表示差异,获得的向量空间更适合实体检索的分布,进而能够获得更加准确的实体链接结果。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。
图1为本发明提供的候选实体生成方法的流程图。
图2为本发明提供的BERT模型编码器结构图。
图3为本发明提供的孪生BERT模型编码器的训练流程图。
图4为本发明提供的负采样的过程示意图。
图5为本发明提供的向量化表示的示意图。
图6为本发明提供的候选实体检索过程示意图。
图7为本发明提供的电子设备的结构框图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互结合。下面将参考附图并结合实施例来详细说明本发明。
为了使本领域技术人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包括,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本实施例中提供了一种候选实体生成方法,图1是根据本发明实施例提供的候选实体生成方法的流程图,如图1所示,包括:
S100、根据训练好的孪生BERT模型编码器将知识库中的所有实体均编码为向量,获得知识库实体向量空间,其中所述知识库为包括多个实体的合集;
在本发明实施例中,所述知识库中的实体包括唯一的实体名称、实体类型信息以及实体的描述信息。
例如,知识库中的一个实体名称为“XX(小说名称)”,实体类型信息为“小说”,该实体的描述信息为“《XX》,原名《XX》,作者……”
S200、获取待生成候选实体的实体指称项及其上下文文本,并根据训练好的孪生BERT模型编码器对所述待生成候选实体的实体指称项及其上下文文本均进行编码,获得目标向量;
具体地,本发明实施例中将文本中的实体均称为实体指称项,例如,文本为“XX是谁写的”,其中的“XX”即为该文本中的实体指称项,而该文本中除去实体指称项之外其他称为实体指称项的上下文文本。
在本发明实施例中,通过训练好的孪生BERT模型编码器将待生成候选实体的实体指称项及其上下文文本均进行编码,即可获得目标向量。
S300、在所述知识库实体向量空间中检索获得与所述目标向量近邻的k个向量;
在知识库实体向量空间中通过检索的方式即可获得与目标向量相近邻的向量,由于知识库实体向量空间中的向量与目标向量离得越近,则认为该向量所对应的实体其越接近实体指称项,因而可以将该向量所对应的实体作为候选实体。
S400、将所述知识库实体向量空间中的k个向量所对应的实体作为候选实体,其中k为大于或者等于1的自然数;
其中所述孪生BERT模型编码器为根据正样本数据集、负样本数据集和知识库进行训练获得。
本发明实施例提供的候选实体生成方法,通过根据训练好的孪生BERT模型编码器对知识库中的实体进行编码以及对待生成候选实体的实体指称项及其上下文文本进行编码,从而能够获得实体指称项与知识库实体之间的语义关系,进而通过检索的方式获得知识库中的候选实体,这种候选实体生成方法由于采用孪生BERT模型能够将实体指称项与知识库实体之间的语义关系进行关联,减少实体指称项与知识库实体之间的表示差异,获得的向量空间更适合实体检索的分布,进而能够获得更加准确的实体链接结果。
在本发明实施例中,如图2所示,为训练好的BERT模型编码器结构图,通过图2可以看出,该BERT模型编码器包括左右两个BERT分支,左右两侧的网络结果完全相同且共享参数,因此可以保证在网络结构简单和训练容易的基础上,将句子对编码到统一向量空间,以便于后续的检索。
具体地,如图3所示,所述孪生BERT模型编码器的训练包括:
S10、确定训练样本集,其中所述训练样本集包括正样本数据集、负样本数据集和知识库;
具体地,所述正样本数据集包括特定的文本,该文本中有实体指称项的位置以及该实体指称项在知识库中对应的实体。例如,“ABC是谁写的”,其在正样本数据集中的表现形式具体可以为:[{"span": [0, 3], "mention": "ABC", "entity": "ABC(小说名称)"}]。
在本发明实施例中,为了能够让模型充分学习到实体指称项上下文与实体描述信息之间的关系,提出类型感知负采样策略(Type-Aware Negative Sampling,TANS),使负例与正例之间具有均衡的类别和语义相似度,增大模型的训练难度,提高模型对具有歧义样本的区分能力。
具体地,所述负样本数据集的确定包括:
根据所述知识库中实体自带的类型信息挑选与所述正样本数据集具有相同类型信息的所有实体;
针对所挑选出的每种类型信息的实体分别度量其与实体指称项的上下文文本间的相似度;
根据所述相似度降序排列所挑选出的实体,获得按照相似度从高到低排列的实体序列;
将所述实体序列划分为多个子实体序列,并对于相似度高的子实体序列设置第一采样几率,对于相似度低的子实体序列设置第二采样几率,其中所述第一采样几率大于所述第二采样几率。
应当理解的是,利用知识库中实体自带的类型信息,挑选出所有与正样本数据集相同类型信息的所有实体,因为具有相同类型信息的实体相较于其他实体具有更接近的语义信息。然后对于每种类型中的实体,分别度量其与实体指称项上下文间的相似度,并根据相似度降序排列实体,获得一个具有相同类型但是在相似度上从高到低排列的一个实体序列。接着将实体序列划分成若干子序列,对于排序靠前的子序列设置较大的采样几率,而对于靠后的子序列设置较小的采样几率,这样既能较大几率生成高质量的难负样本,又能够采样到大范围的实体集合,从而使模型能够学习到更加全面的内容,负采样的过程如图4所示。
经过以上步骤挑选的负样本数据集就具有以下特点:1)与正样本数据集具有相同的类别信息,进而增强模型对于实体类别的判别能力;2)与正样本存在较高的语义相似度,能帮助模型更好地区分具有歧义性的实体。
S20、对所述训练样本集进行向量化表示,分别获得正样本数据集向量、负样本数据集向量和知识库实体向量;
在本发明实施例中,对所述训练样本集进行向量化表示,具体可以包括:
根据正样本数据集、负样本数据集和知识库构造三元组数据格式;
对构造后的三元组数据格式进行向量化表示。
进一步具体地,根据正样本数据集、负样本数据集和知识库构造三元组数据格式,包括:
针对所述正样本数据集和负样本数据集中的每个实体指称项及其上下文文本均添加开始标志[CLS]和结束标志[SEP],以及针对所述知识库中的实体均添加开始标志[CLS]和结束标志[SEP];
针对所述实体指称项及其上下文文本的标记分别添加标记,获得实体指称项及其上下文文本的描述信息为:
针对所述知识库的实体添加标记,获得所述知识库的实体描述信息为:
根据所述实体指称项及其上下文文本的描述信息以及所述知识库的实体描述信息获得三元组数据格式。
在本发明实施例中,添加[CLS]和[SEP]标志后,文本对就可被转化为三元组,其中/>表示实体指称项所在的句子,/>表示候选实体的描述文本,/>代表当前候选实体是否是正确的标签,/>,如果/>则表示是实体指称项对应的正确实体,否则不是正确实体,/>和/>分别表示上下文文本与实体描述文本的句子长度。
仍然以前文所述例子为例,此时转化为:
[CLS] [M]XX[M]是谁写的 [SEP]
[CLS] XX(小说)[E]《XX》,原名《XX》,……[SEP]
S30、将所述正样本数据集向量和所述负样本数据集向量输入至所述孪生BERT模型中的其中一个分支进行训练获得样本向量训练结果,将所述知识库实体向量输入至所述孪生BERT模型中的另一个分支进行训练获得知识库向量训练结果;
在本发明实施例中,对文本编码之后,实体指称项上下文与候选实体的描述信息被分别转化为和/>,其中/>和表示/>维向量。把这些向量输入到模型后,由Transformer模块并行化捕捉这些重要特征,实体指称项文本序列/>中的第/>个字转化为/>,/>的转化过程和/>相同。
S40、分别对所述样本向量训练结果和所述知识库向量训练结果进行池化操作,获得池化后的两个向量训练结果;
在本发明实施例中,在BERT的输出结果上增加一个池化操作,从而生成固定维度的句子向量。具体的池化操作可以有以下几种:
CLS向量:利用[CLS]标志位置生成的向量当作整句的向量输出结果。
平均池化:将BERT模型输出的每个单词的隐藏向量取平均,生成一个均值向量,作为整个句子的向量表示。
最大池化:从BERT模型输出的每个单词的隐藏向量中取最大值,作为整个句子的向量表示。
在本发明实施例中,具体可以优选平均池化操作。
S50、将池化后的两个向量训练结果进行余弦相似度计算;
S60、重复上述过程,直至余弦相似度计算结果满足训练要求后获得训练好的孪生BERT模型编码器。
作为本发明的具体实施方式,在所述知识库实体向量空间中检索获得与所述目标向量近邻的k个向量,包括:
将所述知识库实体向量空间划分为多个子向量空间;
根据最近邻检索工具在多个子向量空间中进行遍历检索,获得与所述目标向量近邻的k个向量。
在向量检索阶段,首先使用训练好的模型将知识库中的所有实体编码为向量,然后在预测时只需将实体指称项以及上下文编码为向量,接着在包含知识库中所有实体的向量空间中检索最近邻的k个向量,对应的实体即为候选实体,其中k为预先设置的参数,候选实体的检索过程如图6所示。
需要说明的是,具体地索引工具具体可以为faiss框架,该faiss框架可以创建多种索引,每种索引有不同的效果,例如IndexFlatL2索引具有精度高的优势,IVF、PQ索引则具有速度快的优势等等,而使用IVF、PQ索引由于内存占用则需要对向量空间进行划分;而IndexFlatL2索引由于是暴力搜索方式,则无需划分向量空间。
在所述知识库实体向量空间中检索获得与所述目标向量近邻的k个向量,包括:
根据Faiss框架构建IndexFlatL2索引;
根据IndexFlatL2索引在所述知识库实体向量空间中进行遍历检索,获得与所述目标向量近邻的k个向量。
本发明实施例使用IndexFlatL2索引,因为IndexFlatL2索引对向量执行强力的L2距离搜索,可以确保结果是精确的。
下面结合实验数据对本发明实施例的候选实体生成方法的结果进行说明。
实验采用的数据集为复旦大学公开的中文短文本实体链接数据集,分别是CNDL、HQA、NLPCC和NTF,这四个数据集是在当时没有用于短文本实体链接数据集而构造的用于中文领域的短文本实体链接数据集。这些数据集全部使用CN-DBpedia知识库重新手动标注,原本数据集的大多数样本都被采用,以下是这四个数据集的详细信息:
(1)CNDL数据集:CNDL数据集由有歧义性的中文日常使用的语言文本组成。由于人们日常生活中的语言总是比较简短同时语义也较为模糊,因此消除中文日常用语中的实体歧义性具有重要意义与挑战性。
(2)HQA数据集:HQA数据集主要由知识库问答的问句组成。知识库问答是短文本实体链接的重要下游应用,由于问答的查询语句可能非常简短与模糊,所以该数据集选择了具有模糊实体指称项的硬性问答查询语句作为实体链接的文本。
(3)NTF数据集:NTF数据集主要从几个中国新闻网站的标题和新闻的前几句中爬取数据,以单个标题或者文本作为样本,邀请志愿者进行标注。新闻文本,特别是新闻的标题是短文本的重要来源,研究新闻领域的短文本实体链接也具有非常重要的现实意义。
(4)NLPCC数据集:由NLPCC2015数据集重新标注,主要目的是评估当前中文各种文本资源中的实体与对应特定知识库中的实体对齐技术的进展。
对于每个数据集,本发明将所有数据采用8:2的比例划分为训练集和测试集。数据集中相应的统计信息如表1所示:
表1 数据集统计信息
本发明实施例采用的知识库是由复旦大学构建并维护的大规模中文通用百科知识库CN-DBpedia,CN-DBpedia主要从百度百科、维基百科等网站收集文本数据,经过筛选、过滤、融合等操作最终构建的高质量的结构化知识库。CN-DBpedia知识库中保存有900多万实体以及6000多万的三元组数据,知识库使用三元组的方式保存。由于相同实体的不同描述信息都是分开存储且很多实体严重缺乏描述信息,因此本发明实施例对CN-DBpedia做了适当的处理,使得每个实体都对应准确且完整的描述信息学,经过整理后知识库中共包含4017240个实体。由于完整使用整个知识库的情况下实体数量巨大,训练、编码以及测试过程都需要耗费大量的时间和硬件条件,因此本发明实施例大部分实验是采用随机挑选的50万实体作为知识库。
Top-1精确率(Top-1 Precision):指的是在候选实体生成阶段生成的唯一一个候选实体精确链接到知识库中正确实体的比例。值越高证明算法在候选实体生成阶段链接正确的实体指称项数目越多,算法结果越准确。P@1的计算方式如下式所示:
Top-64召回率(Top-64 Recall):指的是所有实体指称项中有多少能够在生成的前个候选实体中包含正确实体。Top-64召回率越高说明候选实体生成算法对实体指称项的正确实体忽略的几率越低。R@64的计算方式如下式所示:
本发明实施例实验的软硬件环境如表2所示,模型的超参数如表3所示。
表2 实验环境配置
表3 模型超参数设置
为了验证本发明实施例所提出的方法的有效性,在CNDL、HQA、NLPCC和NTF数据集上分别和相关模型进行对比实验,实验结果如表4所示,评价指标使用Top-1精确率P@1和Top-64召回率R@64。
本发明实施例选取的方法如下:
(1)BERT[25]方法:利用原生BERT生成文本的句向量。
(2)BERT-whitening[26]方法:BERT虽然很成功,但是通过BERT来获取句子嵌入仍然是个问题。先前的研究认为BERT获取的句向量存在各向异性问题,导致cosine相似度无法度量句子间的语义相似性。BERT-whitening通过简单的白化操作,将嵌入向量转化为具有各向同性的向量。
(3)Sentence-BERT[14]方法:Sentence-BERT模型通过构建孪生(Siamese)和三级(Triple)网络来输出包含文本语义关系的特定长度的文本嵌入,然后借助距离度量方法计算文本间相似度以此来搜索具有相近语义的文本。
(4)SimCSE[27]方法:SimCSE方法通过对比学习的方式学习句子嵌入。对比学习的思想在于将语义相似的文本在向量空间中拉近,并将语义不相似的句子拉远,从而有效地学习句子表征。SimCSE分为无监督和有监督两种模型,本发明对比实验中使用的是有监督训练的SimCSE模型。
(5)Bi-Encoder[12]方法:通过运用Bi-Encoder模型的实体指称项编码器和实体编码器分别将实体指称项以及知识库所有实体映射到低维稠密的语义空间,并利用最大化点积相似度的方式检索与实体指称项点积相似度得分最高的K个实体。
表4 不同方法的对比结果(%)
从表4中的实验结果的综合对比,可以得出以下结论:
(1)将本发明实施例提出的SiaBERT-CG(Siamese BERT for CandidateGeneration)网络模型与Bi-Encoder方法进行对比可以发现,本发明实施例提出的方法在四个数据集上的Top-1精确率和Top-64召回率均高于Bi-Encoder方法,说明SiaBERT-CG模型由于共享权重,减少了句子对之间在输入和表示过程中的差异,生成的句向量在向量空间中更利于检索。
(2)对比分析使用与否本发明实施例提出的难负样本策略,可以发现使用之后相较于没有使用的情况下在HQA、NLPCC和NTF数据集上Top-1精确率和Top-64召回率分别提升了1.82%、0.65%、0.56%和0.91%、0.65%、0.14%,证明本发明实施例提出的难负样本采样策略能够增加模型的训练难度,提高模型对歧义性实体的区分能力。
综上,本发明提出的基于SiaBERT-CG模型的候选实体生成方法,该方法利用共享参数的孪生BERT网络深入理解实体指称项及其上下文与候选实体描述信息之间的语义关系,减少实体指称项和候选实体之间的表示差异以及在向量空间中的分布差异,获得在向量空间中更适合检索的分布,提高实体检索的效果。同时,本发明实施例中设计了类型感知负采样策略,使得选择的负例与正例之间具有均衡的类别和语义相似度,增大模型判断的难度,提高模型对具有歧义的样本的区分能力。通过在CNDL、HQA、NLPCC和NTF四个中文短文本实体链接数据集上的大量实验,对所提出的方法进行了全面的测试,经过对实验结果的综合分析,证明了本发明实施例提出方法在处理中文短文本候选实体生成任务时的有效性和在实际应用过程中的实用性。
作为本发明的另一实施例,提供一种候选实体生成装置,用于实现前文所述的候选实体生成方法,其中,所述候选实体生成装置包括:
第一编码模块,用于根据训练好的孪生BERT模型编码器将知识库中的所有实体均编码为向量,获得知识库实体向量空间,其中所述知识库为包括多个实体的合集;
第二编码模块,用于获取待生成候选实体的实体指称项及其上下文文本,并根据训练好的孪生BERT模型编码器对所述待生成候选实体的实体指称项及其上下文文本均进行编码,获得目标向量;
检索模块,用于在所述知识库实体向量空间中检索获得与所述目标向量近邻的k个向量;
候选实体确定模块,用于将所述知识库实体向量空间中的k个向量所对应的实体作为候选实体,其中k为大于或者等于1的自然数;
其中所述孪生BERT模型编码器为根据正样本数据集、负样本数据集和知识库进行训练获得。
本发明提供的候选实体生成装置,通过根据训练好的孪生BERT模型编码器对知识库中的实体进行编码以及对待生成候选实体的实体指称项及其上下文文本进行编码,从而能够获得实体指称项与知识库实体之间的语义关系,进而通过检索的方式获得知识库中的候选实体,这种候选实体生成方法由于采用孪生BERT模型能够将实体指称项与知识库实体之间的语义关系进行关联,减少实体指称项与知识库实体之间的表示差异,获得的向量空间更适合实体检索的分布,进而能够获得更加准确的实体链接结果。
关于本发明实施例提供的候选实体生成装置的具体工作原理可以参照前文的候选实体生成方法的描述,此处不再赘述。
作为本发明的另一实施例,提供一种存储介质,其中,包括计算机指令,所述计算机指令被处理器加载并执行以实现前文所述的候选实体生成方法。
在本发明实施例中,提供了一种非暂态计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的候选实体生成方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
作为本发明的另一实施例,提供一种电子设备,其中,包括存储器和处理器,所述存储器用于存储计算机指令,所述处理器用于加载并执行所述计算机指令以实现前文所述的候选实体生成方法。
如图7所示,该计算机设备可以包括:至少一个处理器71,例如CPU(CentralProcessing Unit,中央处理器),至少一个通信接口73,存储器74,至少一个通信总线72。其中,通信总线72用于实现这些组件之间的连接通信。其中,通信接口73可以包括显示屏(Display)、键盘(Keyboard),可选通信接口73还可以包括标准的有线接口、无线接口。存储器74可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器74可选的还可以是至少一个位于远离前述处理器71的存储装置。其中,存储器74中存储应用程序,且处理器71调用存储器74中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线72可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线72可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器74可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器74还可以包括上述种类的存储器的组合。
其中,处理器71可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器71还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:genericarraylogic, 缩写:GAL)或其任意组合。
可选地,存储器74还用于存储程序指令。处理器71可以调用程序指令,实现如本发明图1实施例中所示的候选实体生成方法。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (10)
1.一种候选实体生成方法,其特征在于,包括:
根据训练好的孪生BERT模型编码器将知识库中的所有实体均编码为向量,获得知识库实体向量空间,其中所述知识库为包括多个实体的合集;
获取待生成候选实体的实体指称项及其上下文文本,并根据训练好的孪生BERT模型编码器对所述待生成候选实体的实体指称项及其上下文文本均进行编码,获得目标向量;
在所述知识库实体向量空间中检索获得与所述目标向量近邻的k个向量;
将所述知识库实体向量空间中的k个向量所对应的实体作为候选实体,其中k为大于或者等于1的自然数;
其中所述孪生BERT模型编码器为根据正样本数据集、负样本数据集和知识库进行训练获得。
2.根据权利要求1所述的候选实体生成方法,其特征在于,在所述知识库实体向量空间中检索获得与所述目标向量近邻的k个向量,包括:
将所述知识库实体向量空间划分为多个子向量空间;
根据最近邻检索工具在多个子向量空间中进行遍历检索,获得与所述目标向量近邻的k个向量。
3.根据权利要求1所述的候选实体生成方法,其特征在于,在所述知识库实体向量空间中检索获得与所述目标向量近邻的k个向量,包括:
根据Faiss框架构建IndexFlatL2索引;
根据IndexFlatL2索引在所述知识库实体向量空间中进行遍历检索,获得与所述目标向量近邻的k个向量。
4.根据权利要求1所述的候选实体生成方法,其特征在于,所述孪生BERT模型编码器的训练包括:
确定训练样本集,其中所述训练样本集包括正样本数据集、负样本数据集和知识库;
对所述训练样本集进行向量化表示,分别获得正样本数据集向量、负样本数据集向量和知识库实体向量;
将所述正样本数据集向量和所述负样本数据集向量输入至所述孪生BERT模型中的其中一个分支进行训练获得样本向量训练结果,将所述知识库实体向量输入至所述孪生BERT模型中的另一个分支进行训练获得知识库向量训练结果;
分别对所述样本向量训练结果和所述知识库向量训练结果进行池化操作,获得池化后的两个向量训练结果;
将池化后的两个向量训练结果进行余弦相似度计算;
重复上述过程,直至余弦相似度计算结果满足训练要求后获得训练好的孪生BERT模型编码器。
5.根据权利要求4所述的候选实体生成方法,其特征在于,所述负样本数据集的确定包括:
根据所述知识库中实体自带的类型信息挑选与所述正样本数据集具有相同类型信息的所有实体;
针对所挑选出的每种类型信息的实体分别度量其与实体指称项的上下文文本间的相似度;
根据所述相似度降序排列所挑选出的实体,获得按照相似度从高到低排列的实体序列;
将所述实体序列划分为多个子实体序列,并对于相似度高的子实体序列设置第一采样几率,对于相似度低的子实体序列设置第二采样几率,其中所述第一采样几率大于所述第二采样几率。
6.根据权利要求4所述的候选实体生成方法,其特征在于,对所述训练样本集进行向量化表示,包括:
根据正样本数据集、负样本数据集和知识库构造三元组数据格式;
对构造后的三元组数据格式进行向量化表示。
7.根据权利要求6所述的候选实体生成方法,其特征在于,根据正样本数据集、负样本数据集和知识库构造三元组数据格式,包括:
针对所述正样本数据集和负样本数据集中的每个实体指称项及其上下文文本均添加开始标志[CLS]和结束标志[SEP],以及针对所述知识库中的实体均添加开始标志[CLS]和结束标志[SEP];
针对所述实体指称项及其上下文文本的标记分别添加标记,获得实体指称项及其上下文文本的描述信息为:
针对所述知识库的实体添加标记,获得所述知识库的实体描述信息为:
根据所述实体指称项及其上下文文本的描述信息以及所述知识库的实体描述信息获得三元组数据格式。
8.一种候选实体生成装置,用于实现权利要求1至7中任意一项所述的候选实体生成方法,其特征在于,所述候选实体生成装置包括:
第一编码模块,用于根据训练好的孪生BERT模型编码器将知识库中的所有实体均编码为向量,获得知识库实体向量空间,其中所述知识库为包括多个实体的合集;
第二编码模块,用于获取待生成候选实体的实体指称项及其上下文文本,并根据训练好的孪生BERT模型编码器对所述待生成候选实体的实体指称项及其上下文文本均进行编码,获得目标向量;
检索模块,用于在所述知识库实体向量空间中检索获得与所述目标向量近邻的k个向量;
候选实体确定模块,用于将所述知识库实体向量空间中的k个向量所对应的实体作为候选实体,其中k为大于或者等于1的自然数;
其中所述孪生BERT模型编码器为根据正样本数据集、负样本数据集和知识库进行训练获得。
9.一种存储介质,其特征在于,包括计算机指令,所述计算机指令被处理器加载并执行以实现权利要求1至7中任意一项所述的候选实体生成方法。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储计算机指令,所述处理器用于加载并执行所述计算机指令以实现权利要求1至7中任意一项所述的候选实体生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310582057.6A CN116306504B (zh) | 2023-05-23 | 2023-05-23 | 候选实体生成方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310582057.6A CN116306504B (zh) | 2023-05-23 | 2023-05-23 | 候选实体生成方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116306504A true CN116306504A (zh) | 2023-06-23 |
CN116306504B CN116306504B (zh) | 2023-08-08 |
Family
ID=86820776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310582057.6A Active CN116306504B (zh) | 2023-05-23 | 2023-05-23 | 候选实体生成方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116306504B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521659A (zh) * | 2024-01-04 | 2024-02-06 | 西安电子科技大学 | 基于语义增强预训练孪生网络的中文实体链接方法和系统 |
CN118114677A (zh) * | 2024-04-30 | 2024-05-31 | 杭州思锐信息技术股份有限公司 | 一种基于稠密检索的实体识别自动标注优化方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966117A (zh) * | 2020-12-28 | 2021-06-15 | 成都数之联科技有限公司 | 实体链接方法 |
CN113283236A (zh) * | 2021-05-31 | 2021-08-20 | 北京邮电大学 | 一种复杂中文文本中的实体消歧方法 |
CN115203438A (zh) * | 2022-09-09 | 2022-10-18 | 北京澜舟科技有限公司 | 一种实体链接方法及存储介质 |
CN115238080A (zh) * | 2022-05-23 | 2022-10-25 | 北京邮电大学 | 实体链接方法及相关设备 |
CN115828852A (zh) * | 2022-11-25 | 2023-03-21 | 杭州数澜科技有限公司 | 一种基于杂志的人名实体链接方法 |
CN115994199A (zh) * | 2022-11-03 | 2023-04-21 | 中国电子科技集团公司第十五研究所 | 一种利用上下文将文本中实体关联到知识库的方法 |
-
2023
- 2023-05-23 CN CN202310582057.6A patent/CN116306504B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966117A (zh) * | 2020-12-28 | 2021-06-15 | 成都数之联科技有限公司 | 实体链接方法 |
CN113283236A (zh) * | 2021-05-31 | 2021-08-20 | 北京邮电大学 | 一种复杂中文文本中的实体消歧方法 |
CN115238080A (zh) * | 2022-05-23 | 2022-10-25 | 北京邮电大学 | 实体链接方法及相关设备 |
CN115203438A (zh) * | 2022-09-09 | 2022-10-18 | 北京澜舟科技有限公司 | 一种实体链接方法及存储介质 |
CN115994199A (zh) * | 2022-11-03 | 2023-04-21 | 中国电子科技集团公司第十五研究所 | 一种利用上下文将文本中实体关联到知识库的方法 |
CN115828852A (zh) * | 2022-11-25 | 2023-03-21 | 杭州数澜科技有限公司 | 一种基于杂志的人名实体链接方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521659A (zh) * | 2024-01-04 | 2024-02-06 | 西安电子科技大学 | 基于语义增强预训练孪生网络的中文实体链接方法和系统 |
CN117521659B (zh) * | 2024-01-04 | 2024-03-26 | 西安电子科技大学 | 基于语义增强预训练孪生网络的中文实体链接方法和系统 |
CN118114677A (zh) * | 2024-04-30 | 2024-05-31 | 杭州思锐信息技术股份有限公司 | 一种基于稠密检索的实体识别自动标注优化方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116306504B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Laurer et al. | Less annotating, more classifying: Addressing the data scarcity issue of supervised machine learning with deep transfer learning and BERT-NLI | |
JP7064262B2 (ja) | 自然言語生成技術に基づく知識グラフ理解支援システム | |
CN111639171B (zh) | 一种知识图谱问答方法及装置 | |
WO2022088672A1 (zh) | 基于bert的机器阅读理解方法、装置、设备及存储介质 | |
CN116306504B (zh) | 候选实体生成方法、装置、存储介质及电子设备 | |
CN111581949B (zh) | 学者人名的消歧方法、装置、存储介质及终端 | |
US8533203B2 (en) | Identifying synonyms of entities using a document collection | |
US9305083B2 (en) | Author disambiguation | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
CN108073576A (zh) | 智能搜索方法、搜索装置以及搜索引擎系统 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN113282729B (zh) | 基于知识图谱的问答方法及装置 | |
CN116848490A (zh) | 使用模型相交进行文档分析 | |
Alqahtani et al. | A survey of text matching techniques | |
CN113935314A (zh) | 基于异构图网络的摘要抽取方法、装置、终端设备及介质 | |
CN115795030A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN115269816A (zh) | 基于信息处理方法的核心人员挖掘方法、装置和存储介质 | |
CN118210889A (zh) | 基于知识图谱的向量相似性搜索的提示词生成方法及装置 | |
CN113901783A (zh) | 面向领域的文档查重方法及系统 | |
Lizunov et al. | Development of the combined method of identification of near duplicates in electronic scientific works | |
CN116186067A (zh) | 一种工业数据表存储查询方法及设备 | |
Eppa et al. | Machine learning techniques for multisource plagiarism detection | |
CN114003732A (zh) | 候选实体生成模型训练方法及装置 | |
CN114547233A (zh) | 数据查重方法、装置及电子设备 | |
Bochkaryov et al. | The use of clustering algorithms ensemble with variable distance metrics in solving problems of web mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |