CN116069919A - 基于文本和图拓扑相似的问句实体链接方法、装置和介质 - Google Patents

基于文本和图拓扑相似的问句实体链接方法、装置和介质 Download PDF

Info

Publication number
CN116069919A
CN116069919A CN202310206985.2A CN202310206985A CN116069919A CN 116069919 A CN116069919 A CN 116069919A CN 202310206985 A CN202310206985 A CN 202310206985A CN 116069919 A CN116069919 A CN 116069919A
Authority
CN
China
Prior art keywords
entity
candidate
similarity
mention
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310206985.2A
Other languages
English (en)
Other versions
CN116069919B (zh
Inventor
王华珍
刘立旻
张伟汉
何霆
李弼程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Fuwai Hospital of CAMS and PUMC
Original Assignee
Huaqiao University
Fuwai Hospital of CAMS and PUMC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University, Fuwai Hospital of CAMS and PUMC filed Critical Huaqiao University
Priority to CN202310206985.2A priority Critical patent/CN116069919B/zh
Publication of CN116069919A publication Critical patent/CN116069919A/zh
Application granted granted Critical
Publication of CN116069919B publication Critical patent/CN116069919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供基于文本和图拓扑相似的问句实体链接方法、装置和介质,涉及知识图谱问答领域。问句实体链接方法包括S1获取问句,并进行实体识别,获取实体提及集合。S2将实体提及集合中的实体提及与知识图谱进行关键词匹配,获取候选实体集。S3根据实体提及集合和候选实体集,进行相似度计算,获取各个候选实体与其对应的实体提及的第一相似度。S4根据第一相似度对各个候选实体进行排序并保留前k个候选实体,获取各个实体提及的候选实体列表。S5获取候选实体列表中的候选实体的向量表示。S6根据向量表示,通过组合相似度模型计算任意两个候选实体列表之间的组合实体向量之间的第二相似度,获取第二相似度最大的组合作链接实体集合。

Description

基于文本和图拓扑相似的问句实体链接方法、装置和介质
技术领域
本发明涉及知识图谱问答技术领域,具体而言,涉及一种基于文本和图拓扑相似的问句实体链接方法、装置和介质。
背景技术
在知识图谱问答中实体链接是较为关键的一环。实体链接即将问句中的名词对应到知识图谱中的实体。在实际应用中,问句中的实体提及可能会对应多个知识图谱中的候选实体。因此,要根据问句语义对候选实体消歧,选择出问句真正想问的主题实体。
实体链接较多采用的是有监督的方法,包括分类方法、排序方法,而在这两大类方法中又可以分为基于图的方法和基于神经网络的方法。
面向知识图谱问答的实体链接属于短文本的实体链接,这类实体链接由于短文本可利用的信息较少,实体链接难度较大。现有的实体链接只是简单利用某种实体信息进行实体链接,实体链接过程也是比较单一,这种实体链接方式没有多元利用实体的信息,导致实体链接的准确率不高。
有鉴于此,申请人在研究了现有的技术后特提出本申请。
发明内容
本发明提供了一种基于文本和图拓扑相似的问句实体链接方法、装置和介质,以改善上述技术问题中的至少一个。
第一方面、
本发明实施例提供了一种基于文本和图拓扑相似的问句实体链接方法,其包含步骤S1至步骤S6。
S1、获取问句,并对问句进行实体识别,获取问句的实体提及集合。
S2、分别将实体提及集合中的实体提及与知识图谱进行关键词匹配,获取各个实体提及对应的候选实体集。
S3、根据实体提及集合和各个实体提及对应的候选实体集,通过预先构建的第一相似度计算模型进行相似度计算,获取候选实体集中的各个候选实体与其对应的实体提及的第一相似度。
S4、根据第一相似度对候选实体集中的各个候选实体进行排序,并保留前k个候选实体,获取各个实体提及对应的候选实体列表。
S5、获取各个实体提及对应的候选实体列表中的候选实体的向量表示。
S6、根据向量表示,通过组合相似度模型计算任意两个候选实体列表之间的组合实体向量之间的第二相似度,获取第二相似度最大的候选实体组合作为链接实体集合。
第二方面、
本发明实施例提供了一种基于文本和图拓扑相似的问句实体链接装置,其包含:
问句识别模块,用于获取问句,并对问句进行实体识别,获取问句的实体提及集合。
实体匹配模块,用于分别将实体提及集合中的实体提及与知识图谱进行关键词匹配,获取各个实体提及对应的候选实体集。
第一相似度计算模块,用于根据实体提及集合和各个实体提及对应的候选实体集,通过预先构建的第一相似度计算模型进行相似度计算,获取候选实体集中的各个候选实体与其对应的实体提及的第一相似度。
候选实体筛选模块,用于根据第一相似度对候选实体集中的各个候选实体进行排序,并保留前k个候选实体,获取各个实体提及对应的候选实体列表。
向量获取模块,用于获取各个实体提及对应的候选实体列表中的候选实体的向量表示。
链接实体获取模块,用于根据向量表示,通过组合相似度模型计算任意两个候选实体列表之间的组合实体向量之间的第二相似度,获取第二相似度最大的候选实体组合作为链接实体集合。
第三方面、
本发明实施例提供了一种计算机可读存储介质。计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行如第一方面任意一段所说的基于文本和图拓扑相似的问句实体链接方法。
通过采用上述技术方案,本发明可以取得以下技术效果:
通过本发明实施例的基于文本和图拓扑相似的问句实体链接方法针对复杂问句的实体链接构建了语义匹配网络;接着通过图表示学习网络对实体进行向量表示,并对实体进行向量距离计算;利用文本和图拓扑相似,通过管道式融合多元信息,实现面向知识图谱问答的实体链接新模式。
问句实体链接方法能够针对知识图谱问答的复杂问句,充分利用短文本的上下文信息,利用文本和图拓扑相似,通过管道式融合多元信息,提高了实体链接的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是问句实体链接方法的流程示意图。
图2是问句实体链接方法的技术路线图。
图3是第一相似度计算模型的网络图。
图4是问句实体链接装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一、
请参阅图1至图3,本发明第一实施例提供一种基于文本和图拓扑相似的问句实体链接方法,其可由基于文本和图拓扑相似的问句实体链接设备来执行(以下简称:问句实体链接设备)。特别地,由问句实体链接设备中的一个或多个处理器来执行,以步骤S1至步骤S6。
S1、获取问句,并对问句进行实体识别,获取问句的实体提及集合。
具体的,对问句进行实体识别,获得问句的实体提及集合。其中,对文本进行实体识别属于现有技术,本发明对此不再赘述。在本实施例中,问句可以是语音,然后通过语音识别转化为文字后再进行问句的实体识别,从而识别出问句中的实体,获取实体提及集合。在其它实施例中,问句可以直接用文字输入,从而直接进行识别。本发明对问句的具体形式不做限定。
可以理解的是,所述问句实体链接设备可以是便携笔记本计算机、台式机计算机、服务器、智能手机或者平板电脑等具有计算性能的电子设备。
S2、分别将实体提及集合中的实体提及与知识图谱进行关键词匹配,获取各个实体提及对应的候选实体集。
具体的,对实体提及集合中的每个实体提及与知识图谱进行关键词精确匹配,获得实体提及对应的候选实体集。候选实体集中的单个候选实体记为。其中,关键词匹配为现有技术,本发明对此不再赘述。
S3、根据实体提及集合和各个实体提及对应的候选实体集,通过预先构建的第一相似度计算模型进行相似度计算,获取候选实体集中的各个候选实体与其对应的实体提及的第一相似度。
优选地,步骤S3具体用于:根据实体提及集合和各个实体提及对应的候选实体集,通过第一相似度计算模型计算实体提及集合中的各个实体提及和与其对应的候选实体集中的各个候选实体之间的第一相似度。更为优选地,
具体的,通过第一相似度计算模型(即语义匹配模型Bert-BiLSTM)计算得到实体提及集合中的每个实体提及与其对应的候选实体集中的每个候选实体的相似度值。
在上述实施例的基础上,本发明的一个可选地实施例中,第一相似度计算模型为Bert-BiLSTM模型。Bert-BiLSTM模型包括Bert网络、BiLSTM网络、linear层和sigmoid层。
在本实施例中,语义匹配网络Bert-BiLSTM基于Bert网络和双向LSTM网络构建。其中Bert网络采用masked language l(MLM)和双向Transformers。Bert-BiLSTM网络的输出层是一个二分类层。
语义匹配网络Bert-BiLSTM模型的训练:
采用知识图谱复杂问答数据集进行模型训练。输入数据是将问句(即)和候选实体(即)的拼接。
首先,将输入数据送入编码层BertLayer,其输出是[CLS]标记的解码输出向量,具体如下:
其中,[CLS]标志放在第一个句子的首位,经过BERT得到的的表征向量C可以用于后续的分类任务。[SEP]标志用于分开两个输入句子,例如输入句子A和B,要在句子A,B间增加[SEP]标志。
然后,再将向量送入到BiLSTM网络:
再然后,再将向量送入到线性层:
再然后,采用sigmoid函数进行非线性变换:
其中,为每个特征对应的权重、为偏置。属于矢量参数。属于标量的数值。
最后,使用二分类交叉熵损失函数进行参数更新。当训练精确达到预设阈值时则停止训练,获得语义匹配模型Bert-BiLSTM。二分类交叉熵损失函数如下:
训练时正例样本相似度为1,表示问句与候选实体是相似的,即问句中的实体提及与候选实体是链接的。负例样本相似度为0,则问句与候选实体是不相似的,即问句中的实体提及与候选实体不是链接的。
S4、根据第一相似度对候选实体集中的各个候选实体进行排序,并保留前k个候选实体,获取各个实体提及对应的候选实体列表。
S5、获取各个实体提及对应的候选实体列表中的候选实体的向量表示。优选地,步骤S5具体包括步骤S51和步骤S52。
S51、基于GraphSAGE图神经网络,通过邻域聚合和消息传递的方式,对知识图谱进行知识图谱表示学习,获取知识图谱的各个实体的实体向量表示。
在本实施例中,对知识图谱进行基于图神经网络GraphSAGE的自监督学习,即通过邻域聚合和消息传递的方式来实现图表示学习。
具体的,根据第一相似度对分别对候选实体集中的各个候选实体进行排序,得到排序候选实体列表。然后保留排序候选实体列表中的topk(k可取值为1,2,3,…,n)得到新的候选实体列表L。遍历问句中的个实体提及,得到对应的个候选实体列表
图表示学习网络GraphSAGE的训练如下:
对于图中的任一节点,将该节点的邻居节点信息进行聚合以更新该节点的向量表示,具体表示为:
其中,表示节点的所有邻居节点在第次聚合后的特征表示、是聚合函数、是网络的层数代表着每个顶点能够聚合的邻接点的跳数、表示在层中节点的邻居节点的向量表示、表示在第层节点的特征表示、是激活函数、是权重系数、是连接函数。
图表示学习网络GraphSAGE的训练采用基于图的自监督损失函数进行参数更新。目标是相邻近的节点具有相似的表示形式,同时强制要求不同节点的表示形式要有区分度,具体表示为:
其中,为节点通过GraphSAGE生成的特征表示,的转置,是节点经过固定长度随机游走获取的节点,是sigmoid激活函数,是负采样的概率分布,是负样本的数目。为正样本,因为是通过随机游走采样得到的,因此点和点是比较靠近的点;指服从一个分布,按照这个分布取负样本,与负样本的距离要尽可能的远。为负采样函数,为负采样节点通过GradeSAGE生成的特征表示。
当训练精确达到预设阈值时则停止训练,获得知识图谱上每个节点的表示向量
S52、根据各个实体提及对应的候选实体列表,从知识图谱的各个实体的实体向量表示中提取对应候选实体的向量表示。
S6、根据向量表示,通过组合相似度模型计算任意两个候选实体列表之间的组合实体向量之间的第二相似度,获取第二相似度最大的候选实体组合作为链接实体集合。优选地,步骤S6具体包括步骤S61和步骤S62。
S61、当实体提及集合中的实体提及数量为1时,选取第一相似度值最高的候选实体作为链接实体。
S62、当实体提及集合中的实体提及数量大于1时,根据向量表示,通过组合相似度模型计算任意两个候选实体列表之间的组合实体向量之间的第二相似度,并获取第二相似度最大的候选实体组合作为链接实体集合。其中,组合相似度模型为:
式中,为实体提及的数量、表示第个候选实体列表、表示第个候选实体列表中的第个候选实体、表示组合、为候选实体的余弦相似度值、表示候选实体的向量表示。
具体的,获得问句中的个实体提及对应的个候选实体列表。然后通过组合相似度计算,排序候选实体列表中任意两个列表之间的组合实体向量之间的相似度。具体计算过程如下:
时,直接取S1所述候选实体中得分最高的实体作为最终的链接实体;
时,计算如下:
其中,代表排序候选实体列表,每个排序候选实体列表都有k个对象,表示排序候选实体列表的第个对象。
表示候选实体通过余弦相似度计算的值,具体计算如下:
其中,表示候选实体通过训练好的GraphSAGE获得的特征表示。
通过对上述公式的求解,最终得到链接实体集合F。
通过本发明实施例的基于文本和图拓扑相似的问句实体链接方法针对复杂问句的实体链接构建了语义匹配网络;接着通过图表示学习网络对实体进行向量表示,并对实体进行向量距离计算;利用文本和图拓扑相似,通过管道式融合多元信息,实现面向知识图谱问答的实体链接新模式。
问句实体链接方法能够针对知识图谱问答的复杂问句,充分利用短文本的上下文信息,利用文本和图拓扑相似,通过管道式融合多元信息,提高了实体链接的准确率。
为便于对本发明的理解,下面以一个实际的应用场景来说明本实施例的应用。
实验数据采集采用CCKS2020-CKBQA问答数据集。该数据集不局限于特定领域,包括简单问题和复杂问题,它们的数量比例大致是1:1。数据集包括标注好的数据(包括问句/SPARQL/答案)的训练集4000个、验证集1529个。
步骤S1:
以问句“出生于哥伦比亚,曾是一名小说家和记者的人是谁?”为例。对该问句进行实体识别获得问句的实体提及集合{“哥伦比亚”,“小说家”,“记者”}。
步骤S2:
将实体提及集合中的每个实体提及与知识图谱进行关键词精确匹配,获得其对应的候选实体集,分别为:“哥伦比亚”-{“哥伦比亚_(哥伦比亚共和国)”,“哥伦比亚_(美国首都)”,“哥伦比亚_(美国密苏里州城市)”,“哥伦比亚_(美国密西西比州城镇)”,“哥伦比亚_(伦比亚电影集团公公司)”};“小说家”-{“小说家_(写小说的作家)”,“小说家_(作者奥登写诗歌)”,“小说家_(诸子百家)”};“记者”-{“记者_(从事采访和报道工作的专业人员)”,“记者_(2015年曹政奭主演电影)”,“记者_(1967年俄罗斯电影)”}。
步骤S3:
将问句和候选实体输入到训练好的语义匹配模型Bert-BiLSTM得到问句-候选实体的相似度值,
由于CCKS2020-CKBQA问答数据集不是专门服务于实体链接任务,我们需要对该数据集进一步进行整理,生成我们模型所用的实体链接数据集。以问句“由刘亦菲,胡歌和安以轩共同主演电视剧是哪部?”为例,
将该问句的实体提及“刘亦菲”与知识图谱进行关键词精确匹配,获得其对应的候选实体集{“刘亦菲_(影视女演员、歌手)”,“刘亦菲_(刘亦菲同名专辑)”}。其中“刘亦菲_(影视女演员、歌手)”为该问句的实体提及“刘亦菲”对应到知识图谱中正确的实体。
将问句“由刘亦菲,胡歌和安以轩共同主演电视剧是哪部?”与候选实体“刘亦菲_(影视女演员、歌手)”组合作为正例,将问句“由刘亦菲,胡歌和安以轩共同主演电视剧是哪部?”与候选实体“刘亦菲_(刘亦菲同名专辑)”组合作为负例。同理,将训练集和验证集的所有问句进行正负例样本的提取。
最后,将训练集的正负样本输入到语义匹配模型Bert-BiLSTM进行训练,并在验证集上进行验证(在验证集上需要进行实体链接的问句有222个),得到训练好的语义匹配模型Bert-BiLSTM。
步骤S4:
按相似度值对候选实体进行排序,最终保留相似度值排序前三的候选实体,分别是:“哥伦比亚”-{“哥伦比亚_(哥伦比亚共和国)”,“哥伦比亚_(美国首都)”,“哥伦比亚_(美国密苏里州城市)”};“小说家”-{“小说家_(写小说的作家)”,“小说家_(作者奥登写诗歌)”,“小说家_(诸子百家)”};“记者”-{“记者_(从事采访和报道工作的专业人员)”,“记者_(2015年曹政奭主演电影)”,“记者_(1967年俄罗斯电影)”}。
对数据集中的所有问句进行以上处理,得到多组排序后并保留前三的“实体提及-候选实体”。
步骤S5
将数据集中的知识图谱用于知识图谱表示学习模型GraphSAGE,获得知识图谱上每个节点的表示向量,以实体节点“哥伦比亚_(哥伦比亚共和国)”为例,向量表示为[0.9958853, 0.999009,…,0.2322107],向量维度为64维。
步骤S6:
在基于文本和图拓扑相似的问句实体链接方法中的组合相似度计算模块对候选实体子集中的实体进行排序,进而得到链接实体集。以问句“出生于哥伦比亚,曾是一名小说家和记者的人是谁?”为例。通过步骤S4获得相似度值排序前三的候选实体,分别是:“哥伦比亚”-{“哥伦比亚_(哥伦比亚共和国)”,“哥伦比亚_(美国首都)”,“哥伦比亚_(美国密苏里州城市)”};“小说家”-{“小说家_(写小说的作家)”,“小说家_(作者奥登写诗歌)”,“小说家_(诸子百家)”};“记者”-{“记者_(从事采访和报道工作的专业人员)”,“记者_(2015年曹政奭主演电影)”,“记者_(1967年俄罗斯电影)”}。
将这三个排序候选实体列表中的所有实体通过组合相似度计算任意两个列表的组合实体向量之间的相似度。最后取相似度最高的一组{“哥伦比亚_(哥伦比亚共和国)”,“小说家_(写小说的作家)”,“记者_(从事采访和报道工作的专业人员)”}输出,得到最终的链接实体集。
本发明实施例的基于文本和图拓扑相似的问句实体链接方法考虑到同一文本要链接的目标实体之间应具有很强的语义相关性。充分利用短文本的信息,引入图的自监督模型,实现了一种管道式的具有多重验证功能的从单实体链接到多实体协同链接的实体链接方式。具有独特的价值,该方法可以提高中文短文本实体链接的准确率。
实施例二、
本发明实施例提供了一种基于文本和图拓扑相似的问句实体链接装置,其包含:
问句识别模块1,用于获取问句,并对问句进行实体识别,获取问句的实体提及集合。
实体匹配模块2,用于分别将实体提及集合中的实体提及与知识图谱进行关键词匹配,获取各个实体提及对应的候选实体集。
第一相似度计算模块3,用于根据实体提及集合和各个实体提及对应的候选实体集,通过预先构建的第一相似度计算模型进行相似度计算,获取候选实体集中的各个候选实体与其对应的实体提及的第一相似度。
候选实体筛选模块4,用于根据第一相似度对候选实体集中的各个候选实体进行排序,并保留前k个候选实体,获取各个实体提及对应的候选实体列表。
向量获取模块5,用于获取各个实体提及对应的候选实体列表中的候选实体的向量表示。
链接实体获取模块6,用于根据向量表示,通过组合相似度模型计算任意两个候选实体列表之间的组合实体向量之间的第二相似度,获取第二相似度最大的候选实体组合作为链接实体集合。
具体的,通过本发明实施例的基于文本和图拓扑相似的问句实体链接方法针对复杂问句的实体链接构建了语义匹配网络;接着通过图表示学习网络对实体进行向量表示,并对实体进行向量距离计算;利用文本和图拓扑相似,通过管道式融合多元信息,实现面向知识图谱问答的实体链接新模式。
问句实体链接方法能够针对知识图谱问答的复杂问句,充分利用短文本的上下文信息,利用文本和图拓扑相似,通过管道式融合多元信息,提高了实体链接的准确率。
在上述实施例的基础上,本发明的一个可选地实施例中,第一相似度计算模块3具体用于:根据实体提及集合和各个实体提及对应的候选实体集,通过第一相似度计算模型计算实体提及集合中的各个实体提及和与其对应的候选实体集中的各个候选实体之间的第一相似度。
在上述实施例的基础上,本发明的一个可选地实施例中,第一相似度计算模型为Bert-BiLSTM模型。Bert-BiLSTM模型包括Bert网络、BiLSTM网络、linear层和sigmoid层。
在上述实施例的基础上,本发明的一个可选地实施例中,向量获取模块5具体包括:
图表示学习单元,用于基于GraphSAGE图神经网络,通过邻域聚合和消息传递的方式,对知识图谱进行知识图谱表示学习,获取知识图谱的各个实体的实体向量表示。
向量获取单元,用于根据各个实体提及对应的候选实体列表,从知识图谱的各个实体的实体向量表示中获取候选实体的向量表示。
在上述实施例的基础上,本发明的一个可选地实施例中,链接实体获取模块6具体包括:
第一链接实体获取单元,用于当实体提及集合中的实体提及数量为1时,选取第一相似度值最高的候选实体作为链接实体。
第二链接实体获取单元,用于当实体提及集合中的实体提及数量大于1时,根据向量表示,通过组合相似度模型计算任意两个候选实体列表之间的组合实体向量之间的第二相似度,并获取第二相似度最大的候选实体组合作为链接实体集合。其中,组合相似度模型为:
式中,为实体提及的数量、表示第个候选实体列表、表示第个候选实体列表中的第个候选实体、表示组合、为候选实体的余弦相似度值、表示候选实体的向量表示。
实施例三、
本发明实施例提供了一种计算机可读存储介质。计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行如实施例一任意一段所说的基于文本和图拓扑相似的问句实体链接方法。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
实施例中提及的“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的实施例能够以除了在这里图示或描述的那些内容以外的顺序实施。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于文本和图拓扑相似的问句实体链接方法,其特征在于,包含:
获取问句,并对所述问句进行实体识别,获取所述问句的实体提及集合;
分别将所述实体提及集合中的实体提及与知识图谱进行关键词匹配,获取各个实体提及对应的候选实体集;
根据所述实体提及集合和所述各个实体提及对应的候选实体集,通过预先构建的第一相似度计算模型进行相似度计算,获取候选实体集中的各个候选实体与其对应的实体提及的第一相似度;
根据所述第一相似度对所述候选实体集中的各个候选实体进行排序,并保留前k个候选实体,获取各个实体提及对应的候选实体列表;
获取所述各个实体提及对应的候选实体列表中的候选实体的向量表示;
根据所述向量表示,通过组合相似度模型计算任意两个候选实体列表之间的组合实体向量之间的第二相似度,获取所述第二相似度最大的候选实体组合作为链接实体集合。
2.根据权利要求1所述的基于文本和图拓扑相似的问句实体链接方法,其特征在于,根据所述实体提及集合和所述各个实体提及对应的候选实体集,通过预先构建的第一相似度计算模型进行相似度计算,获取候选实体集中的各个候选实体与其对应的实体提及的第一相似度,具体包括:
根据所述实体提及集合和所述各个实体提及对应的候选实体集,通过第一相似度计算模型计算实体提及集合中的各个实体提及和与其对应的候选实体集中的各个候选实体之间的第一相似度。
3.根据权利要求1所述的基于文本和图拓扑相似的问句实体链接方法,其特征在于,所述第一相似度计算模型为Bert-BiLSTM模型;所述Bert-BiLSTM模型包括Bert网络、BiLSTM网络、linear层和sigmoid层。
4.根据权利要求1所述的基于文本和图拓扑相似的问句实体链接方法,其特征在于,获取所述各个实体提及对应的候选实体列表中的候选实体的向量表示,具体包括:
基于GraphSAGE图神经网络,通过邻域聚合和消息传递的方式,对知识图谱进行知识图谱表示学习,获取知识图谱的各个实体的实体向量表示;
根据所述各个实体提及对应的候选实体列表,从所述知识图谱的各个实体的实体向量表示中获取候选实体的向量表示。
5.根据权利要求1所述的基于文本和图拓扑相似的问句实体链接方法,其特征在于,根据所述向量表示,通过组合相似度模型计算任意两个候选实体列表之间的组合实体向量之间的第二相似度,获取所述第二相似度最大的候选实体组合作为链接实体集合,具体包括:
当所述实体提及集合中的实体提及数量为1时,选取第一相似度值最高的候选实体作为链接实体;
当所述实体提及集合中的实体提及数量大于1时,根据所述向量表示,通过组合相似度模型计算任意两个候选实体列表之间的组合实体向量之间的第二相似度,并获取所述第二相似度最大的候选实体组合作为链接实体集合;其中,组合相似度模型为:
式中,为实体提及的数量、表示第个候选实体列表、表示第个候选实体列表中的第个候选实体、表示组合、为候选实体的余弦相似度值、表示候选实体的向量表示。
6.一种基于文本和图拓扑相似的问句实体链接装置,其特征在于,包含:
问句识别模块,用于获取问句,并对所述问句进行实体识别,获取所述问句的实体提及集合;
实体匹配模块,用于分别将所述实体提及集合中的实体提及与知识图谱进行关键词匹配,获取各个实体提及对应的候选实体集;
第一相似度计算模块,用于根据所述实体提及集合和所述各个实体提及对应的候选实体集,通过预先构建的第一相似度计算模型进行相似度计算,获取候选实体集中的各个候选实体与其对应的实体提及的第一相似度;
候选实体筛选模块,用于根据所述第一相似度对所述候选实体集中的各个候选实体进行排序,并保留前k个候选实体,获取各个实体提及对应的候选实体列表;
向量获取模块,用于获取所述各个实体提及对应的候选实体列表中的候选实体的向量表示;
链接实体获取模块,用于根据所述向量表示,通过组合相似度模型计算任意两个候选实体列表之间的组合实体向量之间的第二相似度,获取所述第二相似度最大的候选实体组合作为链接实体集合。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至5任意一项所述的基于文本和图拓扑相似的问句实体链接方法。
CN202310206985.2A 2023-03-07 2023-03-07 基于文本和图拓扑相似的问句实体链接方法、装置和介质 Active CN116069919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310206985.2A CN116069919B (zh) 2023-03-07 2023-03-07 基于文本和图拓扑相似的问句实体链接方法、装置和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310206985.2A CN116069919B (zh) 2023-03-07 2023-03-07 基于文本和图拓扑相似的问句实体链接方法、装置和介质

Publications (2)

Publication Number Publication Date
CN116069919A true CN116069919A (zh) 2023-05-05
CN116069919B CN116069919B (zh) 2023-06-20

Family

ID=86169913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310206985.2A Active CN116069919B (zh) 2023-03-07 2023-03-07 基于文本和图拓扑相似的问句实体链接方法、装置和介质

Country Status (1)

Country Link
CN (1) CN116069919B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100356A (zh) * 2020-09-17 2020-12-18 武汉纺织大学 一种基于相似性的知识库问答实体链接方法及系统
CN112417170A (zh) * 2020-11-23 2021-02-26 南京大学 面向不完备知识图谱的关系链接方法
CN114880991A (zh) * 2022-06-08 2022-08-09 工银科技有限公司 知识图谱问答问句实体链接方法、装置、设备及介质
CN115640391A (zh) * 2022-12-05 2023-01-24 长江大学 一种基于语义联合建模的中文知识图谱问答系统的方法及系统
CN115688879A (zh) * 2022-10-21 2023-02-03 中电智恒信息科技服务有限公司 一种基于知识图谱的智能客服语音处理系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100356A (zh) * 2020-09-17 2020-12-18 武汉纺织大学 一种基于相似性的知识库问答实体链接方法及系统
CN112417170A (zh) * 2020-11-23 2021-02-26 南京大学 面向不完备知识图谱的关系链接方法
CN114880991A (zh) * 2022-06-08 2022-08-09 工银科技有限公司 知识图谱问答问句实体链接方法、装置、设备及介质
CN115688879A (zh) * 2022-10-21 2023-02-03 中电智恒信息科技服务有限公司 一种基于知识图谱的智能客服语音处理系统及方法
CN115640391A (zh) * 2022-12-05 2023-01-24 长江大学 一种基于语义联合建模的中文知识图谱问答系统的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭世伟等: "《基于预训练模型和图卷积网络的中文短文本实体链接》", 《 中文信息学报 》, no. 12, pages 104 - 114 *

Also Published As

Publication number Publication date
CN116069919B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN111695033B (zh) 企业舆情分析方法、装置、电子设备及介质
Smeureanu et al. Applying supervised opinion mining techniques on online user reviews
Cummins et al. Constrained multi-task learning for automated essay scoring
Ezaldeen et al. A hybrid E-learning recommendation integrating adaptive profiling and sentiment analysis
US10956824B2 (en) Performance of time intensive question processing in a cognitive system
Huang et al. Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow
Pong-Inwong et al. Sentiment analysis in teaching evaluations using sentiment phrase pattern matching (SPPM) based on association mining
CN111581545A (zh) 一种召回文档的排序方法及相关设备
CN111552773A (zh) 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN111931516A (zh) 一种基于强化学习的文本情感分析方法及系统
Siren et al. Automatic learning path creation using OER: a systematic literature mapping
Mounika et al. Design of book recommendation system using sentiment analysis
Chemmengath et al. Let the CAT out of the bag: Contrastive attributed explanations for text
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
Damiano et al. Query expansion based on wordnet and word2vec for Italian question answering systems
Achilles et al. Using Surface and Semantic Features for Detecting Early Signs of Self-Harm in Social Media Postings.
CN116069919B (zh) 基于文本和图拓扑相似的问句实体链接方法、装置和介质
Chaudhuri et al. Automating assessment of design exams: a case study of novelty evaluation
Qi et al. Application of LDA and word2vec to detect English off-topic composition
CN115510326A (zh) 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法
Singh et al. Computer Application for Assessing Subjective Answers using AI
Yoshida et al. Mining Numbers in Text: A Survey
Ferrer-Aran et al. Discovering and Interpreting Biased Concepts in Online Communities
Widiyaningsih et al. Analysis of OVO Application Sentiment Using Lexicon Based Method and K-Nearest Neighbor
Chen et al. Learning word embeddings from intrinsic and extrinsic views

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant