CN117151217A - 一种基于语言模型与图表征融合的实体链指方法 - Google Patents

一种基于语言模型与图表征融合的实体链指方法 Download PDF

Info

Publication number
CN117151217A
CN117151217A CN202311102396.6A CN202311102396A CN117151217A CN 117151217 A CN117151217 A CN 117151217A CN 202311102396 A CN202311102396 A CN 202311102396A CN 117151217 A CN117151217 A CN 117151217A
Authority
CN
China
Prior art keywords
entity
model
graph
matched
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311102396.6A
Other languages
English (en)
Inventor
崇庆魏
崔钰坤
蔡炎松
窦辰晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanhu Research Institute Of Electronic Technology Of China
Original Assignee
Nanhu Research Institute Of Electronic Technology Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanhu Research Institute Of Electronic Technology Of China filed Critical Nanhu Research Institute Of Electronic Technology Of China
Priority to CN202311102396.6A priority Critical patent/CN117151217A/zh
Publication of CN117151217A publication Critical patent/CN117151217A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于实体链指技术领域,公开了一种基于语言模型与图表征融合的实体链指方法,包括:提取非结构化文本信息中的实体指称项,并基于实体指称项在知识库中进行匹配,得到每个实体指称项的候选实体集合;针对候选实体集合不为空的实体指称项,依次以一个实体指称项作为中心实体,以该中心实体对应的候选实体集合中的实体为待匹配实体,调用实体消歧模型进行匹配;筛选出非结构化文本信息中候选实体集合为空以及通过实体消歧模型未匹配成功的实体指称项,调用实体分类模型得到分类结果,完成实体链指。本发明提升了实体链指的性能和泛化能力。

Description

一种基于语言模型与图表征融合的实体链指方法
技术领域
本发明属于实体链指技术领域,具体涉及一种基于语言模型与图表征融合的实体链指方法。
背景技术
从海量的文本数据中抽取结构化的知识,用规范的结构存储构建出的知识库,有效的推动了自然语言处理领域的研究进展。知识库相关技术在智能问答、对话系统、搜索引擎等领域都展现出较大的潜力。因此,近年来关于如何构建高可靠性的知识库以及准确高效地利用已有知识库等问题被学术界广泛关注。而实体链接在知识库的构建和使用阶段都具有关键作用。
实体链接是一项识别文本中的实体指称(指文本被识别到的命名实体)并将其链接到知识库中对应实体上的任务。一般来讲,实体链接包括三个主要环节:命名实体识别、候选实体生成和候选实体消歧。
以论文《面向中文短文本的多因子融合实体链指研究》为例,该方案在百度CCKS2020年的中文短文本实体链指比赛中取得了第一名的成绩。由于该比赛更专注于中文短文本场景下的实体消岐技术,数据中均已经标注好了实体指称项,因而就未考虑命名实体识别技术的应用。该方法设计了一个多因子融合实体链指模型。第一步,采用了预训练的BERT模型来对短文本中的实体进行类别预测,利用预测类型构建一个仅包含类型特征的实体(称为NIL_type实体),和知识库中其他可以检索到的实体构成完备候选实体集,确保文本中的给定的指称项都能有一个正确的链接实体。第二步,对每一个候选实体进行多方位的特征因子抽取。特征因子抽取包括上下文相关特征的抽取和上下文无关特征的抽取,上下文相关特征包括文本上下文和候选实体描述的相似度计算,多个指称项之间的关联度计算等,上下文无关特征包括实体的流行度、实体的类型等,这里起到关键作用的特征就是指称项和候选实体的关联概率。输入文本和候选实体描述文本,在文本的指称项开始和结束位置添加标记符,经过BERT模型编码,取CLS位置的特征向量,经过全连接层,最后Softmax激活得到文本中指称项和候选实体之间的相关性分数。第三步,对这些分数进行排序,选择分数最高的候选实体作为实体消歧的预测结果。
另外该论文方法在实体消歧模块也尝试加入对抗学习来提高模型的鲁棒性,其中对抗学习的方法是FGM。特征因子融合的方法是使用多折的方法训练了一个MLP模型。将所有数据集分成n份,不重复地每次取其中一份做测试集,用其他四份做训练集训练模型,训练得到n个模型。预测时,取n个模型的预测结果的平均值,作为预测结果。
该论文方法引入了对NIL实体的上位概念类型判断,解决了无链接指代的预测问题。但是,由于该论文方法是在一开始就先做了实体分类模型,即对不在知识库中的实体,统一标记为NIL_type,其忽略了在模型推理阶段,即使在知识库中找到了候选实体,仍然找不到正确的链接指代的情况(即所有候选实体匹配的概率都低于阈值)。并且现有的方法在训练实体消岐模型时,一般采用随机负采样的方法,忽略了针对困难样本的训练,模型不具有更好的泛化性。
现有的部分实体消岐模型采用了预训练模型BERT作为基础网络结构,可以获取更深的语义特征,提高模型消岐的能力。但由于BERT模型本身的输入长度限制(超出长度的内容会被截断),会导致候选实体输入给模型的信息并不完整。且现有的方法还忽略了知识库中的图结构信息。
发明内容
本发明的目的在于提供一种基于语言模型与图表征融合的实体链指方法,提升实体链指的性能和泛化能力。
为实现上述目的,本发明所采取的技术方案为:
一种基于语言模型与图表征融合的实体链指方法,所述基于语言模型与图表征融合的实体链指方法,包括:
提取非结构化文本信息中的实体指称项,并基于实体指称项在知识库中进行匹配,得到每个实体指称项的候选实体集合;
针对候选实体集合不为空的实体指称项,依次以一个实体指称项作为中心实体,以该中心实体对应的候选实体集合中的实体为待匹配实体,调用实体消歧模型进行匹配;所述实体消歧模型包括语言模型、图模型和分类模型,所述语言模型的输入由非结构化文本信息以及待匹配实体构建,所述图模型根据待匹配实体输出聚合图表征,所述分类模型的输入为语言模型和图模型的输出;
筛选出非结构化文本信息中候选实体集合为空以及通过实体消歧模型未匹配成功的实体指称项,调用实体分类模型得到分类结果,完成实体链指。
以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
作为优选,所述基于实体指称项在知识库中进行匹配,得到每个实体指称项的候选实体集合,包括:
遍历知识库,将知识库中每个实体的实体名称与实体指称项进行匹配,并将匹配成功的实体对应的实体ID添加至实体指称项的候选实体集合。
作为优选,所述语言模型的输入构建如下:
在非结构化文本信息的中心实体前后添加特殊标识符,形成标识文本信息;
将标识文本信息作为Sentence1,将待匹配实体在知识库中的实体描述文本作为Sentence2,并形成[CLS]Sentence1[SEP]Sentence2[SEP]的格式作为语言模型的输入。
作为优选,所述实体描述文本的构建如下:
取知识库中每个实体的实体描述信息,将实体描述信息进行顺序拼接作为实体描述文本。
作为优选,所述聚合图表征为待匹配实体的图表征与待匹配实体的所有邻居节点的图表征加权后的图表征。
作为优选,所述分类模型的输入为语言模型和图模型的输出,包括:
所述分类模型包括一个MLP层和一个Softmax层,所述语言模型在[CLS]位置的输出向量与所述聚合图表征拼接后输入MLP层,所述MLP层的输出输入至Softmax层,由Softmax层完成二分类任务,得到待匹配实体的概率得分,若概率得分大于匹配阈值,则表示待匹配实体与中心实体匹配成功。
作为优选,所述通过实体消歧模型未匹配成功的实体指称项,为与对应的候选实体集合中所有实体均未匹配成功的实体指称项。
作为优选,所述实体消歧模型的训练过程包括:
将候选实体集合中与中心实体匹配的待匹配实体作为正实体,其余待匹配实体作为负实体;
以非结构化文本信息以及正实体作为正样本,针对正样本,所述语言模型的输入由非结构化文本信息以及正实体构建,所述图模型根据正实体输出聚合图表征;
随机取负实体,以非结构化文本信息和随机取的负实体作为负样本,针对负样本,所述语言模型的输入由非结构化文本信息以及负实体构建,所述图模型根据负实体输出聚合图表征;
利用正样本和预设数量的负样本对实体消歧模型进行训练,并且针对实体消歧模型的每一轮训练,本轮训练的负样本包括本次产生的负样本以及上一轮训练中符合保留条件的负样本。
作为优选,所述保留条件为所述实体消歧模型针对负样本输出的概率得分大于匹配阈值。
作为优选,所述实体消歧模型和实体分类模型采用两阶段训练方式,在所述两阶段训练方式中,第一阶段采用非NIL实体数据集进行训练,第二阶段采用含NIL实体数据集进行训练。
本发明提供的一种基于语言模型与图表征融合的实体链指方法,针对在实体消岐模型中,现有技术方案因为只采用了预训练语言模型BERT作为基础的网络结构,而造成输入给模型信息不完整的问题,本发明提出了一种引入图模型得到候选实体特征向量的方法,使得模型可以表征更丰富的语义信息,该方法可以显著提升模型的性能。
本发明同样将实体链指任务拆解为实体消岐和实体分类两个任务,但不同于现有方法,本发明在基于实体消岐模型结果的基础上,再进行实体分类任务,使得模型结构更加合理。
在训练阶段,现有技术大多采用了动态负采样技术,即在模型训练中每个epoch随机选取不同的负样本参与训练。本发明在新的一轮开始时,会保留上一轮符合保留条件的负样本(即困难样本)继续训练,其他负样本进行随机采样,该方法可以提升模型的泛化能力,实现更好的性能表现。
附图说明
图1为本发明的基于语言模型与图表征融合的实体链指方法流程图;
图2为本发明的实体消歧模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本发明。
为了克服现有技术中实体链指方法存在的缺陷,本实施例提供一种基于语言模型与图表征融合的实体链指方法,该方法具有较优的实体链指准确性和泛化性,在智能问答、对话系统、搜索引擎等知识库相关技术领域具有较大的应用前景。
如图1所示,本实施例的基于语言模型与图表征融合的实体链指方法,包括以下步骤:
步骤1、提取非结构化文本信息(即短文本)中的实体指称项,并基于实体指称项在知识库中进行匹配,得到每个实体指称项的候选实体集合。
针对非结构化的文本信息,经过命名实体识别(NER)模型(例如BERT-MRC模型、隐马尔可夫模型(HMM)、最大熵模型(ME)等),找到一个或多个实体指称项,获得有标注的指称项的文本。
知识库是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。本实施例中的知识库通常指与非结构化文本信息相关领域的知识片集合,也可以是大型包含各个领域知识的知识片集合。知识库作为基础数据集,本实施例不进行赘述,其以图结构数据进行存储。
遍历知识库,将知识库中每个实体的实体名称与实体指称项进行匹配,并将匹配成功的实体对应的实体ID添加至实体指称项的候选实体集合。由于知识库中可能存在多个实体名称相同的实体,因此本实施例以实体ID进行区分,候选实体集合中的实体应理解为候选实体集合中的实体ID对应的实体。
为了提高匹配速度和精度,本实施例提出一种采用字典匹配的方式来构建候选实体集合的方法,具体的构造逻辑如下:
构建一个空字典D。遍历知识库,对知识库中每一个实体信息,将其subject(头实体)字段和alias(别名)字段中出现的实体名称作为key,将subject_id(实体ID)作为value。当key与实体指称项相同时,判断key是否已经出现在字典D中,若key已经出现在字典D中,则将value添加到key对应的list(列表)中;否则,新建一个空的list作为key在字典D中的值,然后将value添加到key对应的list中。
通过字典匹配方式,可以快速寻找出所有实体指称项对应的list,并将该list作为实体指称项对应的候选实体集合。
步骤2、针对候选实体集合不为空的实体指称项,依次以一个实体指称项作为中心实体,以该中心实体对应的候选实体集合中的实体为待匹配实体,调用实体消歧模型进行匹配。
若候选实体集合为空,表示当前知识库中不存在与实体指称项可以匹配的实体,即无需进行实体消歧,节省实体链指时间损耗。
如图2所示,本实施例的实体消歧模型包括语言模型、图模型和分类模型,以下对每一模型进行详细描述:
(1)语言模型(例如可以是BERT模型):语言模型的输入由非结构化文本信息以及待匹配实体构建。
考虑到每个短文本可能出现多个实体,本实施例在中心实体前后添加了特殊标识符,以标记中心实体的位置。因此,本实施例首先在非结构化文本信息的中心实体前后添加特殊标识符,形成标识文本信息。然后将标识文本信息作为Sentence1,将待匹配实体在知识库中的实体描述文本作为Sentence2,并形成[CLS]Sentence1[SEP]Sentence2[SEP]的格式作为语言模型的输入。
以特殊标识符为###为例,若非结构化文本信息为:人物A与人物B作战,以人物A为中心实体,形成表示文本信息为:###人物A###与人物B作战。在其他实施例中,特殊标识符可以根据需要自由设置,例如**等。
为了全面描述实体信息,本实施例取知识库中每个实体的实体描述信息,将实体描述信息进行顺序拼接作为实体描述文本。对知识库中的每个实体,由于Type字段,义项描述和摘要字段的信息重要且占比较大,因此在实体描述文本中可以按照Type字段、义项描述、摘要字段和Data中其他subject(头实体)字段、Predicate(关系)字段、Object(尾实体)字段的顺序进行拼接。在其他实施例中参与拼接的实体描述信息和拼接顺序可根据实际需求进行调整。
(2)图模型:图模型根据待匹配实体输出聚合图表征。
本实施例引入由图模型(如GAT模型,GNN模型等)得到的中心实体的向量化表征embedding,即聚合图表征。该聚合图表征为待匹配实体的图表征与待匹配实体的所有邻居节点的图表征加权后的图表征。
图模型在训练时学习权重,学习的权重为待匹配实体的权重以及各个邻居节点的权重。因此图模型在推理应用时,根据输入的待匹配实体对应的实体ID基于知识库得到待匹配实体的权重以及各个邻居节点的权重,并与待匹配实体的图表征以及各个邻居节点的图表征加权后生成一个聚合图表征。
针对现有的实体消岐模型均只是采用了预训练模型BERT作为基础网络结构,由于BERT模型本身的输入长度限制(超出长度的内容会被截断),会导致候选实体输入给模型的信息并不完整,并忽略了知识库中的图结构信息等问题,因此本发明引入了图模型得到的中心实体的向量化表示,以得到知识库中对应的候选实体更完整的语义信息。
其中,图模型为训练后应用,并且可以先由图模型学习整个知识库,然后在推理应用中根据输入的实体ID直接输出聚合图表征向量。
(3)分类模型:分类模型的输入为语言模型和图模型的输出。
分类模型包括一个MLP层和一个Softmax层,语言模型在[CLS]位置的输出向量与聚合图表征拼接后输入MLP层,MLP层对拼接向量进行融合处理后输出至Softmax层,由Softmax层完成二分类任务,得到待匹配实体的概率得分,若概率得分大于匹配阈值(例如0.5),则表示待匹配实体与中心实体匹配成功。
本实施例通过将图模型得到的候选实体的特征向量和语言模型[CLS]位置的特征向量进行融合,使得最终的模型性能得到了明显提升。本实施例提供一种实体消歧模型的具体训练过程如下:
A:提取非结构化文本信息中的实体指称项,并基于实体指称项在知识库中进行匹配,得到每个实体指称项的候选实体集合(单实体消歧模型的训练过程描述中不考虑候选实体集合为空的情况)。
B:将候选实体集合中与中心实体(例如为人物A)匹配的待匹配实体作为正实体(例如为人物A(历史人物)),其余待匹配实体作为负实体(例如为人物A(游戏人物)、人物A(近现代同名人物)等)。
C:以非结构化文本信息以及正实体作为正样本(标签为1),针对正样本,所述语言模型的输入由非结构化文本信息以及正实体构建,所述图模型根据正实体输出聚合图表征。
D:随机取负实体,以非结构化文本信息和随机取的负实体作为负样本(标签为0),针对负样本,所述语言模型的输入由非结构化文本信息以及负实体构建,所述图模型根据负实体输出聚合图表征。
E:利用正样本和预设数量的负样本对实体消歧模型进行训练,并且针对实体消歧模型的每一轮训练,本轮训练的负样本包括本次产生的负样本以及上一轮训练中符合保留条件的负样本。
本实施例的保留条件为实体消歧模型针对负样本输出的概率得分大于匹配阈值。在模型训练中每个epoch随机选取不同的负样本参与训练,在新的一轮开始时,会保留上一轮训练分数大于匹配阈值(例如0.5)的负样本(即困难样本)继续训练,其他负样本进行随机采样,每个正样本每轮训练的负样本数量是固定的。
现有技术大多采用了动态负采样技术,即在模型训练中每个epoch随机选取不同的负样本参与训练,忽略了针对困难样本的训练。本发明在新的一轮开始时,会保留上一轮训练分数大于0.5的负样本(即困难样本)继续训练,其他负样本进行随机采样,该方法可以提升模型的泛化能力,实现更好的性能表现。
步骤3、筛选出非结构化文本信息中候选实体集合为空以及通过实体消歧模型未匹配成功的实体指称项,调用实体分类模型得到分类结果,完成实体链指。
为了应对实体不在知识库中的情况,本实施例特殊取出候选实体集合为空的实体指称项,并调用实体分类模型得到分类结果;同时为了解决现有技术中未考虑即使在知识库中找到了候选实体,仍然找不到正确链接指代的情况,本实施例特殊取出通过实体消歧模型未匹配成功的实体指称项,并调用实体分类模型得到分类结果。
其中通过实体消歧模型未匹配成功的实体指称项,指的是与对应的候选实体集合中所有实体均未匹配成功的实体指称项。即候选实体集合中没有匹配度较高的实体,需要通过实体分类模型进行类别分类。
将本发明中的实体消歧模型和实体分类模型看作一体的实体链指模型,以下对实体链指模型的训练阶段和推理应用阶段进行描述。
在实体链指模型训练阶段:为了提高实体链指模型的泛化能力,本实施例采用两阶段训练方式,在两阶段训练方式中,第一阶段采用非NIL实体数据集进行训练,第二阶段采用含NIL实体数据集进行训练。
非NIL实体(即实体类别已知)数据集中的实体指称项均能够在知识库中找到对应的候选实体,为了充分利用这些实体类别信息,实体链指模型先在非NIL实体数据集上微调预训练;然后为了克服在推理应用中无链接指代的预测问题,本实施例在含NIL实体数据集(即包含不在知识库中的实体的数据集)上继续训练。为了提高实体链指模型整体的泛化能力,本发明在所有的训练阶段,均采用了基于PGD(映射式梯度下降)的对抗训练策略来训练模型。
在两阶段训练中,可以是固定实体消歧模型的参数,对实体分类模型进行参数调节,也可以是固定实体分类模型的参数,对实体消歧模型进行参数调节。本实施例重点在于对实体消歧模型的参数调节,因此本实施例取预训练好的实体分类模型固定参数,对实体消歧模型进行参数调节,其中实体消歧模型的具体训练过程参见步骤2中的描述。
在实体链指模型推理应用阶段:从字典D中取出中心实体的候选实体集合S(若候选实体集合为空时,则将对应的实体指称项标记为NIL),通过训练好的实体消岐模型,得到每个候选实体的概率得分(预测标签为1的概率)。若候选实体结合中实体的概率得分的最大值大于某个阈值(该阈值可以作为一个超参数进行调节),则取概率最大的作为中心实体在知识库中对应的正确实体,否则将对应的实体指称项标记为NIL,然后使用后续的实体分类模型对其进行分类。
用户在系统中输入问题,系统首先对问题文本进行命名实体识别即步骤1,对于识别到的实体指称项,经过上述的实体链指模型,将每个实体成功对应到知识库中正确的实体上,利用知识库中得到的丰富信息,可以将得到的结果应用到知识图谱的下游任务中,例如智能问答、对话系统、搜索引擎等。
为了进一步说明本申请实体链指方法的优势,以下提供一个具体实验例。
(1)实验环境设置如表1所示。
表1实验环境
项目 环境
CPU Intel(R)Xeon(R)Gold 6326CPU@2.90GHz
GPU NVIDIA A100(80GB)
系统 Debian GNU/Linux 10(buster)
Python版本 3.9
Pytorch版本 1.12.1
(2)实验对象。
本实施例设置实验组为本发明提出的实体消歧模型;对照组1为未引入GAT模型得到的聚合图表征embedding+未加每一轮随机负采样,即采用不保留上一轮负样本的传统训练方法训练的语言模型和分类模型;对照组2为引入GAT模型得到embedding,即采用不保留上一轮负样本的传统训练方法训练的语言模型、图模型和分类模型;对照组3为基线模型Baseline+改进的动态负采样(即本发明提出的本轮训练的负样本包括本次产生的负样本以及上一轮训练中符合保留条件的负样本的训练方法)。
其中实体消歧模型(BERT模型+GAT模型+分类模型)的实验参数如表2所示,GAT模型的实验参数如表3所示。
表2实体消歧模型的实验参数
参数 参数值
预训练语言模型 sijunhe/nezha-cn-base
学习率 3e-5
预热(warmup)比率 0.1
最大序列长度 256
迭代轮次 15
Batch Size 128
表3GAT模型的实验参数
参数 参数值
预训练语言模型 sijunhe/nezha-cn-base
学习率 1e-6
动量(momentum) 0.9999
τ 0.08
队列长度 64
迭代轮次 100
Batch Size 32
(3)实验结果。
本实施例在非NIL实体数据集上进行实验,得到的实验结果如表4所示,由表4可以看出,本发明提出的实体消歧模型在实验中得到的F1值显著高于对照组,说明本申请具有优异的召回率和准确率。
表4实验结果
实体消岐模型 验证集上的F1
对照组1 0.89002
对照组2 0.891305
对照组3 0.89102
实验组 0.892469
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于语言模型与图表征融合的实体链指方法,其特征在于,所述基于语言模型与图表征融合的实体链指方法,包括:
提取非结构化文本信息中的实体指称项,并基于实体指称项在知识库中进行匹配,得到每个实体指称项的候选实体集合;
针对候选实体集合不为空的实体指称项,依次以一个实体指称项作为中心实体,以该中心实体对应的候选实体集合中的实体为待匹配实体,调用实体消歧模型进行匹配;所述实体消歧模型包括语言模型、图模型和分类模型,所述语言模型的输入由非结构化文本信息以及待匹配实体构建,所述图模型根据待匹配实体输出聚合图表征,所述分类模型的输入为语言模型和图模型的输出;
筛选出非结构化文本信息中候选实体集合为空以及通过实体消歧模型未匹配成功的实体指称项,调用实体分类模型得到分类结果,完成实体链指。
2.如权利要求1所述的基于语言模型与图表征融合的实体链指方法,其特征在于,所述基于实体指称项在知识库中进行匹配,得到每个实体指称项的候选实体集合,包括:
遍历知识库,将知识库中每个实体的实体名称与实体指称项进行匹配,并将匹配成功的实体对应的实体ID添加至实体指称项的候选实体集合。
3.如权利要求1所述的基于语言模型与图表征融合的实体链指方法,其特征在于,所述语言模型的输入构建如下:
在非结构化文本信息的中心实体前后添加特殊标识符,形成标识文本信息;
将标识文本信息作为Sentence1,将待匹配实体在知识库中的实体描述文本作为Sentence2,并形成[CLS]Sentence1[SEP]Sentence2[SEP]的格式作为语言模型的输入。
4.如权利要求3所述的基于语言模型与图表征融合的实体链指方法,其特征在于,所述实体描述文本的构建如下:
取知识库中每个实体的实体描述信息,将实体描述信息进行顺序拼接作为实体描述文本。
5.如权利要求1所述的基于语言模型与图表征融合的实体链指方法,其特征在于,所述聚合图表征为待匹配实体的图表征与待匹配实体的所有邻居节点的图表征加权后的图表征。
6.如权利要求3所述的基于语言模型与图表征融合的实体链指方法,其特征在于,所述分类模型的输入为语言模型和图模型的输出,包括:
所述分类模型包括一个MLP层和一个Softmax层,所述语言模型在[CLS]位置的输出向量与所述聚合图表征拼接后输入MLP层,所述MLP层的输出输入至Softmax层,由Softmax层完成二分类任务,得到待匹配实体的概率得分,若概率得分大于匹配阈值,则表示待匹配实体与中心实体匹配成功。
7.如权利要求6所述的基于语言模型与图表征融合的实体链指方法,其特征在于,所述通过实体消歧模型未匹配成功的实体指称项,为与对应的候选实体集合中所有实体均未匹配成功的实体指称项。
8.如权利要求1所述的基于语言模型与图表征融合的实体链指方法,其特征在于,所述实体消歧模型的训练过程包括:
将候选实体集合中与中心实体匹配的待匹配实体作为正实体,其余待匹配实体作为负实体;
以非结构化文本信息以及正实体作为正样本,针对正样本,所述语言模型的输入由非结构化文本信息以及正实体构建,所述图模型根据正实体输出聚合图表征;
随机取负实体,以非结构化文本信息和随机取的负实体作为负样本,针对负样本,所述语言模型的输入由非结构化文本信息以及负实体构建,所述图模型根据负实体输出聚合图表征;
利用正样本和预设数量的负样本对实体消歧模型进行训练,并且针对实体消歧模型的每一轮训练,本轮训练的负样本包括本次产生的负样本以及上一轮训练中符合保留条件的负样本。
9.如权利要求8所述的基于语言模型与图表征融合的实体链指方法,其特征在于,所述保留条件为所述实体消歧模型针对负样本输出的概率得分大于匹配阈值。
10.如权利要求1所述的基于语言模型与图表征融合的实体链指方法,其特征在于,所述实体消歧模型和实体分类模型采用两阶段训练方式,在所述两阶段训练方式中,第一阶段采用非NIL实体数据集进行训练,第二阶段采用含NIL实体数据集进行训练。
CN202311102396.6A 2023-08-29 2023-08-29 一种基于语言模型与图表征融合的实体链指方法 Pending CN117151217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311102396.6A CN117151217A (zh) 2023-08-29 2023-08-29 一种基于语言模型与图表征融合的实体链指方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311102396.6A CN117151217A (zh) 2023-08-29 2023-08-29 一种基于语言模型与图表征融合的实体链指方法

Publications (1)

Publication Number Publication Date
CN117151217A true CN117151217A (zh) 2023-12-01

Family

ID=88903874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311102396.6A Pending CN117151217A (zh) 2023-08-29 2023-08-29 一种基于语言模型与图表征融合的实体链指方法

Country Status (1)

Country Link
CN (1) CN117151217A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540734A (zh) * 2024-01-10 2024-02-09 中南大学 一种中文医学实体标准化方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540734A (zh) * 2024-01-10 2024-02-09 中南大学 一种中文医学实体标准化方法、装置及设备
CN117540734B (zh) * 2024-01-10 2024-04-09 中南大学 一种中文医学实体标准化方法、装置及设备

Similar Documents

Publication Publication Date Title
CN109918673B (zh) 语义仲裁方法、装置、电子设备和计算机可读存储介质
CN104933152B (zh) 命名实体识别方法及装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN112256845B (zh) 意图识别方法、装置、电子设备和计算机可读存储介质
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN112307208A (zh) 长文本的分类方法、终端及计算机存储介质
CN113377930B (zh) 面向中文短文本的实体识别与实体链接方法
CN109684928B (zh) 基于互联网检索的中文文档识别方法
CN115599902B (zh) 一种基于知识图谱的油气百科问答方法及系统
CN117151217A (zh) 一种基于语言模型与图表征融合的实体链指方法
CN116259075A (zh) 基于提示微调预训练大模型的行人属性识别方法
CN113849653B (zh) 一种文本分类方法及装置
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN111930953B (zh) 一种文本属性特征的识别、分类及结构分析方法及装置
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
CN114648016A (zh) 一种基于事件要素交互与标签语义增强的事件论元抽取方法
Zhuang et al. An ensemble approach to conversation generation
CN114756678A (zh) 一种未知意图文本的识别方法及装置
CN116522905B (zh) 文本纠错方法、装置、设备、可读存储介质及程序产品
Keraghel et al. Data augmentation process to improve deep learning-based NER task in the automotive industry field
CN117634615A (zh) 一种基于模态无关对比学习的多任务代码检索方法
CN113515611B (zh) 一种任务型多意图对话的意图识别方法和识别系统
CN116595125A (zh) 一种基于知识图检索的开放域问答方法
CN113868389B (zh) 基于自然语言文本的数据查询方法、装置及计算机设备
Khan et al. Pretrained natural language processing model for intent recognition (bert-ir)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination