CN112100356A - 一种基于相似性的知识库问答实体链接方法及系统 - Google Patents

一种基于相似性的知识库问答实体链接方法及系统 Download PDF

Info

Publication number
CN112100356A
CN112100356A CN202010981857.1A CN202010981857A CN112100356A CN 112100356 A CN112100356 A CN 112100356A CN 202010981857 A CN202010981857 A CN 202010981857A CN 112100356 A CN112100356 A CN 112100356A
Authority
CN
China
Prior art keywords
entity
similarity
candidate
question
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010981857.1A
Other languages
English (en)
Inventor
何儒汉
唐娇
陈佳
张自力
彭涛
胡新荣
李相朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Textile University
Original Assignee
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Textile University filed Critical Wuhan Textile University
Priority to CN202010981857.1A priority Critical patent/CN112100356A/zh
Publication of CN112100356A publication Critical patent/CN112100356A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明属于数据处理技术领域,公开了一种基于相似性的知识库问答实体链接方法及系统,使用深度学习的方法识别问题中的实体,端到端进行实体链接;在候选实体生成阶段,分别使用Bert特征提取网络和BiLSTM‑CRF序列标注模型进行命名实体识别生成候选实体;在候选实体消岐阶段,再使用一定的规则提取问题中关系词并根据它与候选关系的相似性进行排序,缩短知识库问答的时间。本发明将端到端的思想应用在了知识库问答上,把知识库问答问题与先进计算机技术相结合,分别使用Bert特征提取网络和BiLSTM‑CRF序列标注模型来进行命名实体识别生成候选实体;本发明缓解了候选实体一词多义的问题,提高了实体链接的准确率。

Description

一种基于相似性的知识库问答实体链接方法及系统
技术领域
本发明属于数据处理技术领域,尤其涉及一种基于相似性的知识库问答实体链接方法及系统。
背景技术
目前,随着人工智能的快速发展,知识库问答成为计算机领域的研究热点,面向知识库的问答是指对于用户提出的自然语言问题,通过确定问题中的实体,查询链接到知识库中对应的实体,通过知识库中与实体相连的关系来找到并返回答案,主要可划分为实体链接和关系检测两部分。实体链接是机器翻译、信息检索和话题发现与追踪等领域的核心技术,在机器翻译时,待翻译语句的实体链接准确率越高,能够帮助翻译系统选择更为可靠的候选译项,翻译后的语句便越正确。在用户推荐系统中,用户的浏览历史或检索文本中含有大量歧义词,准确分析语义并对其进行消歧,才能进行更精确的用户兴趣建模。实体链接在各种领域所发挥的关键作用使对其进行的各项研究具有重要的意义。
实体链接需要将问题中的内容精准的链接到知识库中的实体,又可细分为候选实体生成和候选实体消岐两部分,候选实体生成是从自然语言问题识别提取出可以代表问题主题词的实体并映射到知识库中实体的过程,由于自然语言存在一词多义的现象,确定的候选实体一般包含许多噪声数据,候选实体消岐是为了找到最符合语句上下文语境的目标实体。由于非结构化自然语言和结构化知识库存在语言鸿沟,实体检测存在很大的误差率。
基于统计模型的方法是实体链接研究工作中常用的传统方法。该类方法往往利用一些统计学特征对实体指称和候选实体进行向量表示,通过计算向量相似度进行实体排序和选择,主要包括基于向量空间模型的方法和基于信息检索的方法等。很显然,基于统计模型方法的不足之处在于缺乏对实体语义层面的考量。
基于深度学习的方法,主要是通过多层人工神经网络,学习实体、实体指称、上下文及其相互之间关联关系的向量表示,从而为不同实体及实体之间的语义关系构建了统一的表示,映射在相同的特征空间,并通过语义向量相似度计算排序得到目标实体。其主要优势在于无需人为构造特征,将实体以及实体间的语义特征进行了表示,能够取得更佳的实体链接效果,可移植性较好,并且计算速度极快,新的任务只需重新训练数据模型。实体链接通常使用n-gram方法来搜索具有常见问题子串的实体,但这样产生的候选实体数量较多,包含大量的噪声数据。为了减小搜索范围,Yu等使用BERT训练语言模型来表示语句特征从而更好地识别实体,Lukovnikov等利用弱依赖信息对数据构建模型,Golub等提出基于character-level的神经网络编解码框架,解决传统基于word-level的编解码方法中出现未登录词(Out of Vocabulary,OOV)问题,由此减小对获取正确问句实体提及词的干扰。另外,为了保证实体提及词的召回率,传统方法在搜索过程中往往会得到大量非正确候选提及词,不仅对后续模型带来一定的噪声,还严重影响模型性能,因此研究者们对这些召回的候选提及词进行初步的排序筛选,Yin等提出的AMPCNN模型,专门提出通过符号规则,以问句中的每个词为搜索单元,搜索知识库得到初步候选实体集合,再根据最长公共子串信息对候选实体和实体提及词进行评分。
通过上述分析,现有技术存在的问题及缺陷为:
(1)识别效果很依赖先验知识和人工定义的规则模板,耗费大量的人力资源。
(2)容易出现梯度消失问题,导致网络只能学习到距离当前时刻相对较近的信息。
(3)虽然一定程度有效的提高了实体识别的准确率,但是无法较好解决实体一词多义的问题,也无法兼顾实体链接准确率和召回率。
解决以上问题及缺陷的难度为:因为自然语言具有复杂性、多意性和模糊性的多重特点,实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务,是解决实体间存在的歧义性问题。其潜在的应用包括信息提取、信息检索和知识库填充,但由于名称的变化和实体的模糊性,此任务具有挑战性。实体的歧义性体现在两个方面,第一,实体可能存在多词同义的情况(需链接),即一个实体可以用多个实体指称来表示,比如麻省理工学院和MIT都是指美国麻省同一个实体。同时,实体也有一词多义的现象(需消歧),即同一个实体指称可以表示多个实体,例如苹果可以是水果也可以是Apple公司。第二,实体链接算法需要通过实体指称及其上下文的文本信息,借助目标知识库,将其链接到知识库中正确的映射实体上。
解决以上问题及缺陷的意义为:实体链接旨在将非结构化或半结构化文本中的实体数据映射到对应的实体数据上,通过上下文语义信息,文本中实体表述与知识库中实体之间的映射关系,建立文本与知识之间的联系,帮助人们更好地利用文本中潜在的知识含义,实体链接在信息检索、机器翻译和问答系统等自然语言处理任务上有重要的应用价值。
发明内容
针对现有技术存在的问题,本发明提供了一种基于相似性的知识库问答实体链接方法及系统。
本发明是这样实现的,一种基于相似性的知识库问答实体链接方法,应用于客户端,所述基于相似性的知识库问答实体链接方法包括:
使用深度学习的方法识别问题中的实体,端到端进行实体链接;
在候选实体生成阶段,分别使用Bert特征提取网络和BiLSTM-CRF序列标注模型进行命名实体识别生成候选实体;
在候选实体消岐阶段,再使用一定的规则提取问题中关系词并根据它与候选关系的相似性进行排序,缩短知识库问答的时间。
进一步,所述基于相似性的知识库问答实体链接方法具体包括:
第一步,特征提取,在Bert预训练语言模型内部使用双向的Transformer编码器挖掘输入预料的上下文信息;
第二步,候选实体生成,使用命名实体识别模型BiLSTM-CRF用来预测问题中的每一个单词是否属于实体提及;
第三步,候选实体生成,接入CRF层进行预测,为预测的标签添加约束用于降低非法序列出现的概率,在CRF层中,线性链条件随机场概率模型对输入特征序列求出条件概率最大的输出标注序列,为输入问句的每个位置打上了标注信息;
第四步,抽取问题关系词,使用自然语言处理工具NLTK对用户问题进行分词及词性标注,跳过对计算相似性没有价值的疑问代词、形容词和副词,然后选取问题中名词和动词组成问题关系词;
第五步,候选实体消岐,通过计算问题关系词和候选关系的相似性来对候选实体进行排序,进行实体消岐;
第六步,实体排序,根据相似性sim(x,y)的高低对候选关系进行排序,相似性由字符串相似性和语义相似性共同组成,计算公式如下,取排名靠前的候选关系进行实验,实体排序筛选出与正确实体类型不同的噪声数据,缩小候选实体的范围,
sim(x,y)=0.5sim1+0.5sim2
进一步,所述第二步中,将特征矩阵输入到双向的LSTM层中,进一步提取上下文的语义关联信息,使用每个时间步上的隐藏层状态,在每个时间步上分别将正向和反向LSTM的隐藏层状态进行拼接得到向量序列
Figure BDA0002687803250000041
进一步,所述第三步中,通过对输出标注序列的统计,定位出实体的起止位置;对于给定的序列x输出对应的标注序列y的得分s(x,y)为:
Figure BDA0002687803250000051
式中A为输出的分数矩阵,p[yi-1,yi]表示输出标签的转移得分值,n为问题中的单词数。
进一步,所述第五步中,在计算问题关系词和候选关系相似性时,采用字符串相似度和语义相似度结合的方法,字符串相似度匹配考虑了字面相似度,字符串相似性sim1使用欧式距离相似度作为判断依据,公式如下,式中x代表关系词字符串,y代表候选关系字符串;
Figure BDA0002687803250000052
语义相似度获取关系词和关系语义上的匹配;语义相似性sim2通过计算余弦相似性实现,公式如下,式中x代表关系词向量,y代表候选关系向量;
Figure BDA0002687803250000053
本发明的另一目的在于提供一种实施所述基于相似性的知识库问答实体链接方法的基于相似性的知识库问答实体链接系统,应用于客户端,所述基于相似性的知识库问答实体链接系统包括:
特征提取模块,用于在Bert预训练语言模型内部使用双向的Transformer编码器挖掘输入预料的上下文信息;
候选实体生成模块,用于使用命名实体识别模型BiLSTM-CRF用来预测问题中的每一个单词是否属于实体提及;
候选实体生成模块,用于接入CRF层进行预测,为预测的标签添加约束用于降低非法序列出现的概率,在CRF层中,线性链条件随机场概率模型对输入特征序列求出条件概率最大的输出标注序列,为输入问句的每个位置打上了标注信息;
抽取问题关系词模块,用于使用自然语言处理工具NLTK对用户问题进行分词及词性标注,跳过对计算相似性没有价值的疑问代词、形容词和副词,然后选取问题中名词和动词组成问题关系词;
候选实体消岐模块,用于通过计算问题关系词和候选关系的相似性来对候选实体进行排序,进行实体消岐;
实体排序模块,根据相似性sim(x,y)的高低对候选关系进行排序,相似性由字符串相似性和语义相似性共同组成,计算公式如下,取排名靠前的候选关系进行实验,实体排序筛选出与正确实体类型不同的噪声数据,缩小候选实体的范围。
进一步,所述基于相似性的知识库问答实体链接系统进一步包括:
构建数据库模块,对于用户可能提问的问题进行分类整理汇总,再将每个问题及对应的答案分别录入到数据库中;
问题提取模块,用户提问时,首先通过词嵌入技术将预处理过的问题向量化表示,再使用具有良好的序列建模能力的BiLSTM-CRF网络对用户问题进行命名实体识别,预测问题中的每一个单词是否属于关键词;
问题分析匹配模块,根据提取的问题关键词,在数据库中查询包含关键词的问题,组成候选问题;
答案排序返回模块,针对得到的候选问题,分别计算问题关键词和候选问题的相似性,依据相似性对问题进行排序,选取相似性最高的问题链接的答案作为最终答案,返回给用户。
进一步,所述基于相似性的知识库问答实体链接系统进一步包括:
词嵌入模块,当用户输入需要翻译的文本时,对于文本中的每一个单词,首先必须查找词来源和目标嵌入以检索相应的词表征,为了令该嵌入层能够运行,为每一种语言选定一个词汇表,选定词汇表大小V,那么频率最高的V个词将视为唯一的所有的词将有相同的嵌入;
编码器模块,该网络由两个多层循环神经网络组成,一个是原语言的编码器,另一个是目标语言的解码器。这两个RNN原则上可以共享相同的权重,解码器RNN使用零向量作为它的初始状态;
解码器模块,解码器也需要访问源信息,一种简单的方式是用编码器最后的隐藏态对其进行初始化。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
使用深度学习的方法识别问题中的实体,端到端进行实体链接;
在候选实体生成阶段,分别使用Bert特征提取网络和BiLSTM-CRF序列标注模型进行命名实体识别生成候选实体;
在候选实体消岐阶段,再使用一定的规则提取问题中关系词并根据它与候选关系的相似性进行排序,缩短知识库问答的时间。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述的方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
为了提高实体链接的准确率,本发明将端到端的思想应用在了知识库问答上,把知识库问答问题与先进计算机技术相结合,分别使用Bert特征提取网络和BiLSTM-CRF序列标注模型来进行命名实体识别生成候选实体,为了进一步缩小候选实体的范围,考虑到问题中一般已包含描述实体和答案的关系词,如问题“Who is Yao Ming’s wife?”,对应知识库中正确的三元组为“people/person/spouse”,问题中“wife”关系词与三元组中候选关系“spouse”对应,故计算问题关系词和候选关系的相似性对候选实体进行排序,缓解了候选实体一词多义的问题,提高了实体链接的准确率。
本发明将实验结果与最近在SimpleQuestion数据集上取得较好实验效果的4个模型进行了比较,SimpleQuestions数据集准确率对比如表1所示,4个比较模型分别为:基于character level的注意力机制编码模型,很大程度改善了OOV问题;记忆网络模型通过引入长期记忆组件(long-term memory component)来解决神经网络长程记忆困难的问题;残差网络解决训练时深层的LSTM陷入局部最优解问题,获取问题和关系之间的层次匹配;AR-SMCNN将擅长处理空间相关数据的CNN与能较好按照顺序处理时间信号的RNN结合,并使用注意力机制同时跟踪实体和关系来捕获综合分层信息;之前的模型忽视了问题关系词和候选关系之间的联系,并且无法较好的解决信息丢失问题,本发明通过BiLSTM—CRF模型获得了序列级别的标签信息,使得标注的性能得到了进一步的提升,通过实体消歧提高了实体链接的准确率,提高了模型的准确率。
表1 SimpleQuestion数据集准确率
Figure BDA0002687803250000081
本发明实体链接模型在召回率上取得了最佳效果,Patten revising使用关系检测来增强联合事实选择,利用多级编码和多维信息来增强整个过程,AR-SMC NN直接检测问题中的实体提及省略实体匹配使得模型更加简单化,这些模型均忽视了问题中关系词与候选关系之间的联系,不能有效解决候选实体中存在大量不同类型的同名实体的问题,故在召回率上表现略不足,本发明在进行BiLS TM-CRF网络序列标注后,通过观察发现问题关系词与候选关系的内在联系,计算它们之间的相似性来对候选实体进行消岐,不仅避免召回过多的噪声实体,而且提高了候选实体的准确率。
表3候选实体排名TopK召回率
Figure BDA0002687803250000082
Figure BDA0002687803250000091
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于相似性的知识库问答实体链接方法流程图。
图2是本发明实施例提供的实体链接模型图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于相似性的知识库问答实体链接方法及系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供一种基于相似性的知识库问答实体链接方法具体包括:
S101,特征提取,在Bert预训练语言模型内部使用双向的Transformer编码器挖掘输入预料的上下文信息;
S102,候选实体生成,使用命名实体识别模型BiLSTM-CRF用来预测问题中的每一个单词是否属于实体提及;
S103,候选实体生成,接入CRF层进行预测,为预测的标签添加约束用于降低非法序列出现的概率,在CRF层中,线性链条件随机场概率模型对输入特征序列求出条件概率最大的输出标注序列,为输入问句的每个位置打上了标注信息;
S104,抽取问题关系词,使用自然语言处理工具NLTK对用户问题进行分词及词性标注,跳过对计算相似性没有价值的疑问代词、形容词和副词,然后选取问题中名词和动词组成问题关系词;
S105,候选实体消岐,通过计算问题关系词和候选关系的相似性来对候选实体进行排序,进行实体消岐;
S106,实体排序,根据相似性sim(x,y)的高低对候选关系进行排序,相似性由字符串相似性和语义相似性共同组成及计算,取排名靠前的候选关系进行实验,实体排序筛选出与正确实体类型不同的噪声数据,缩小候选实体的范围。
本发明的另一目的在于提供一种实施所述基于相似性的知识库问答实体链接方法的基于相似性的知识库问答实体链接系统,应用于客户端,所述基于相似性的知识库问答实体链接系统包括:
特征提取模块,用于在Bert预训练语言模型内部使用双向的Transformer编码器挖掘输入预料的上下文信息;
候选实体生成模块,用于使用命名实体识别模型BiLSTM-CRF用来预测问题中的每一个单词是否属于实体提及;
候选实体生成模块,用于接入CRF层进行预测,为预测的标签添加约束用于降低非法序列出现的概率,在CRF层中,线性链条件随机场概率模型对输入特征序列求出条件概率最大的输出标注序列,为输入问句的每个位置打上了标注信息;
抽取问题关系词模块,用于使用自然语言处理工具NLTK对用户问题进行分词及词性标注,跳过对计算相似性没有价值的疑问代词、形容词和副词,然后选取问题中名词和动词组成问题关系词;
候选实体消岐模块,用于通过计算问题关系词和候选关系的相似性来对候选实体进行排序,进行实体消岐;
实体排序模块,根据相似性sim(x,y)的高低对候选关系进行排序,相似性由字符串相似性和语义相似性共同组成,计算公式如下,取排名靠前的候选关系进行实验,实体排序筛选出与正确实体类型不同的噪声数据,缩小候选实体的范围。
本发明还提供一种基于相似性的智能客服问答系统,用于客户端,所述基于相似性的智能客服问答系统包括:
构建数据库模块,对于用户可能会提问的问题进行分类整理汇总,再将每个问题及其对应的答案分别录入到数据库中。
问题提取模块,用户提问时,首先通过词嵌入技术将预处理过的问题向量化表示,再使用具有良好的序列建模能力的BiLSTM-CRF网络对用户问题进行命名实体识别,预测问题中的每一个单词是否属于关键词。
问题分析匹配模块,根据提取的问题关键词,在数据库中查询包含关键词的问题,组成候选问题。
答案排序返回模块,针对得到的候选问题,分别计算问题关键词和候选问题的相似性,依据相似性对问题进行排序,选取相似性最高的问题链接的答案作为最终答案,返回给用户。
下面结合具体实施例对本发明作进一步描述。
实施例1
本发明知识库问答实体链接任务需要将问句中的实体链接到知识库中的体,主要分为候选实体生成和候选实体消岐,为了能根据文本信息对实体进行区分筛选,排除同名实体的干扰减少候选实体的范围,本发明使用深度学习的方法识别问题中的实体,端到端的进行实体链接。在候选实体生成阶段,分别使用Bert特征提取网络和BiLSTM-CRF序列标注模型进行命名实体识别生成候选实体,在候选实体消岐阶段,再使用一定的规则提取问题中关系词并根据它与候选关系的相似性进行排序,缩短了知识库问答的时间提高了问答的准确率,实体链接模型如图2所示。
第一步,特征提取,使用Bert预训练语言模型,Bert是自然语言处理中词嵌和特征提取的一个基础网络,能够广泛的迁移到其他网络中,在模型内部使用双向的Transformer编码器,核心结构如图2所示,网络使用带注意力机制的双向Transformer block连接代替传统的双向RNN,能更好的挖掘输入预料的上下文信息。
第二步,候选实体生成,使用的命名实体识别模型为BiLSTM-CRF(双向长短时记忆网络-条件随机场),具有良好的序列建模能力,主要用来预测问题中的每一个单词是否属于实体提及。首先将特征矩阵输入到双向的LSTM层中,进一步提取上下文的语义关联信息,使用每个时间步上的隐藏层状态,在每个时间步上分别将正向和反向LSTM的隐藏层状态进行拼接得到向量序列
Figure BDA0002687803250000121
第三步,候选实体生成,由于经过线性层后输出的实体标签分数有时存在误差,此时接入CRF层来进行最终的预测,CRF层为最后预测的标签添加了约束来降低非法序列出现的概率,保证预测结果的正确性,在CRF层中,线性链条件随机场概率模型对输入特征序列求出条件概率最大的输出标注序列,即为输入问句的每个位置打上了标注信息。通过对输出标注序列的统计,便能定位出实体的起止位置。对于给定的序列x输出对应的标注序列y的得分s(x,y)为:
Figure BDA0002687803250000122
式中A为输出的分数矩阵,p[yi-1,yi]表示输出标签的转移得分值,n为问题中的单词数。
第四步,抽取问题关系词,由于问题中通常含有暗示实体类型的关系词,故使用自然语言处理工具NLTK对用户问题进行分词及词性标注,NLTK是自然语言处理库,具有丰富的英文分词工具,并且在去除停用词、词干化处理方面表现优异,跳过对计算相似性没有价值的疑问代词、形容词和副词,然后选取问题中名词和动词组成问题关系词。
第五步,候选实体消岐,通过计算问题关系词和候选关系的相似性来对候选实体进行排序,达到了实体消岐的效果,在计算问题关系词和候选关系相似性时,采用字符串相似度和语义相似度结合的方法,字符串相似度匹配考虑了字面相似度,字符串相似性sim1使用欧式距离相似度作为判断依据,公式如下,式中x代表关系词字符串,y代表候选关系字符串。
Figure BDA0002687803250000131
语义相似度获取关系词和关系语义上的匹配。语义相似性sim2通过计算余弦相似性实现,公式如下,式中x代表关系词向量,y代表候选关系向量。
Figure BDA0002687803250000132
第六步,实体排序,根据相似性sim(x,y)的高低对候选关系进行排序,相似性由字符串相似性和语义相似性共同组成,计算公式如下,取排名靠前的候选关系进行实验,实体排序有效的筛选出与正确实体类型不同的噪声数据,不仅缩小了候选实体的范围,而且提高了候选关系的准确性。
sim(x,y)=0.5sim1+0.5sim2
实施例2
本发明提供一种基于实体链接的机器翻译系统,用于客户端,所述基于实体链接的机器翻译系统包括:
词嵌入模块,当用户输入需要翻译的文本时,对于文本中的每一个单词,首先必须查找词来源和目标嵌入以检索相应的词表征,为了令该嵌入层能够运行,为每一种语言选定一个词汇表,选定词汇表大小V,那么频率最高的V个词将视为唯一的所有的词将有相同的嵌入。
编码器模块,该网络由两个多层循环神经网络组成,一个是原语言的编码器,另一个是目标语言的解码器。这两个RNN原则上可以共享相同的权重,解码器RNN使用零向量作为它的初始状态。
解码器模块,解码器也需要访问源信息,一种简单的方式是用编码器最后的隐藏态对其进行初始化。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于相似性的知识库问答实体链接方法,其特征在于,应用于客户端,所述基于相似性的知识库问答实体链接方法包括:
使用深度学习的方法识别问题中的实体,端到端进行实体链接;
在候选实体生成阶段,分别使用Bert特征提取网络和BiLSTM-CRF序列标注模型进行命名实体识别生成候选实体;
在候选实体消岐阶段,再使用一定的规则提取问题中关系词并根据它与候选关系的相似性进行排序,缩短知识库问答的时间。
2.如权利要求1所述的基于相似性的知识库问答实体链接方法,其特征在于,所述基于相似性的知识库问答实体链接方法具体包括:
第一步,特征提取,在Bert预训练语言模型内部使用双向的Transformer编码器挖掘输入预料的上下文信息;
第二步,候选实体生成,使用命名实体识别模型BiLSTM-CRF用来预测问题中的每一个单词是否属于实体提及;
第三步,候选实体生成,接入CRF层进行预测,为预测的标签添加约束用于降低非法序列出现的概率,在CRF层中,线性链条件随机场概率模型对输入特征序列求出条件概率最大的输出标注序列,为输入问句的每个位置打上了标注信息;
第四步,抽取问题关系词,使用自然语言处理工具NLTK对用户问题进行分词及词性标注,跳过对计算相似性没有价值的疑问代词、形容词和副词,然后选取问题中名词和动词组成问题关系词;
第五步,候选实体消岐,通过计算问题关系词和候选关系的相似性来对候选实体进行排序,进行实体消岐;
第六步,实体排序,根据相似性sim(x,y)的高低对候选关系进行排序,相似性由字符串相似性和语义相似性共同组成,计算公式如下,取排名靠前的候选关系进行实验,实体排序筛选出与正确实体类型不同的噪声数据,缩小候选实体的范围,
sim(x,y)=0.5sim1+0.5sim2
3.如权利要求2所述的基于相似性的知识库问答实体链接方法,其特征在于,所述第二步中,将特征矩阵输入到双向的LSTM层中,进一步提取上下文的语义关联信息,使用每个时间步上的隐藏层状态,在每个时间步上分别将正向和反向LSTM的隐藏层状态进行拼接得到向量序列
Figure FDA0002687803240000021
4.如权利要求2所述的基于相似性的知识库问答实体链接方法,其特征在于,所述第三步中,通过对输出标注序列的统计,定位出实体的起止位置;对于给定的序列x输出对应的标注序列y的得分s(x,y)为:
Figure FDA0002687803240000022
式中A为输出的分数矩阵,p[yi-1,yi]表示输出标签的转移得分值,n为问题中的单词数。
5.如权利要求2所述的基于相似性的知识库问答实体链接方法,其特征在于,所述第五步中,在计算问题关系词和候选关系相似性时,采用字符串相似度和语义相似度结合的方法,字符串相似度匹配考虑了字面相似度,字符串相似性sim1使用欧式距离相似度作为判断依据,公式如下,式中x代表关系词字符串,y代表候选关系字符串;
Figure FDA0002687803240000023
语义相似度获取关系词和关系语义上的匹配;语义相似性sim2通过计算余弦相似性实现,公式如下,式中x代表关系词向量,y代表候选关系向量;
Figure FDA0002687803240000024
6.一种实施权利要求1~5任意一项所述基于相似性的知识库问答实体链接方法的基于相似性的知识库问答实体链接系统,其特征在于,应用于客户端,所述基于相似性的知识库问答实体链接系统包括:
特征提取模块,用于在Bert预训练语言模型内部使用双向的Transformer编码器挖掘输入预料的上下文信息;
候选实体生成模块,用于使用命名实体识别模型BiLSTM-CRF用来预测问题中的每一个单词是否属于实体提及;
候选实体生成模块,用于接入CRF层进行预测,为预测的标签添加约束用于降低非法序列出现的概率,在CRF层中,线性链条件随机场概率模型对输入特征序列求出条件概率最大的输出标注序列,为输入问句的每个位置打上了标注信息;
抽取问题关系词模块,用于使用自然语言处理工具NLTK对用户问题进行分词及词性标注,跳过对计算相似性没有价值的疑问代词、形容词和副词,然后选取问题中名词和动词组成问题关系词;
候选实体消岐模块,用于通过计算问题关系词和候选关系的相似性来对候选实体进行排序,进行实体消岐;
实体排序模块,根据相似性sim(x,y)的高低对候选关系进行排序,相似性由字符串相似性和语义相似性共同组成,计算公式如下,取排名靠前的候选关系进行实验,实体排序筛选出与正确实体类型不同的噪声数据,缩小候选实体的范围。
7.如权利要求6所述的基于相似性的知识库问答实体链接系统,其特征在于,所述基于相似性的知识库问答实体链接系统进一步包括:
构建数据库模块,对于用户可能提问的问题进行分类整理汇总,再将每个问题及对应的答案分别录入到数据库中;
问题提取模块,用户提问时,首先通过词嵌入技术将预处理过的问题向量化表示,再使用具有良好的序列建模能力的BiLSTM-CRF网络对用户问题进行命名实体识别,预测问题中的每一个单词是否属于关键词;
问题分析匹配模块,根据提取的问题关键词,在数据库中查询包含关键词的问题,组成候选问题;
答案排序返回模块,针对得到的候选问题,分别计算问题关键词和候选问题的相似性,依据相似性对问题进行排序,选取相似性最高的问题链接的答案作为最终答案,返回给用户。
8.如权利要求6所述的基于相似性的知识库问答实体链接系统,其特征在于,所述基于相似性的知识库问答实体链接系统进一步包括:
词嵌入模块,当用户输入需要翻译的文本时,对于文本中的每一个单词,首先必须查找词来源和目标嵌入以检索相应的词表征,为了令该嵌入层能够运行,为每一种语言选定一个词汇表,选定词汇表大小V,那么频率最高的V个词将视为唯一的所有的词将有相同的嵌入;
编码器模块,该网络由两个多层循环神经网络组成,一个是原语言的编码器,另一个是目标语言的解码器。这两个RNN原则上可以共享相同的权重,解码器RNN使用零向量作为它的初始状态;
解码器模块,解码器也需要访问源信息,一种简单的方式是用编码器最后的隐藏态对其进行初始化。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
使用深度学习的方法识别问题中的实体,端到端进行实体链接;
在候选实体生成阶段,分别使用Bert特征提取网络和BiLSTM-CRF序列标注模型进行命名实体识别生成候选实体;
在候选实体消岐阶段,再使用一定的规则提取问题中关系词并根据它与候选关系的相似性进行排序,缩短知识库问答的时间。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1-5任意一项所述的方法。
CN202010981857.1A 2020-09-17 2020-09-17 一种基于相似性的知识库问答实体链接方法及系统 Pending CN112100356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010981857.1A CN112100356A (zh) 2020-09-17 2020-09-17 一种基于相似性的知识库问答实体链接方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010981857.1A CN112100356A (zh) 2020-09-17 2020-09-17 一种基于相似性的知识库问答实体链接方法及系统

Publications (1)

Publication Number Publication Date
CN112100356A true CN112100356A (zh) 2020-12-18

Family

ID=73759551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010981857.1A Pending CN112100356A (zh) 2020-09-17 2020-09-17 一种基于相似性的知识库问答实体链接方法及系统

Country Status (1)

Country Link
CN (1) CN112100356A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732862A (zh) * 2020-12-25 2021-04-30 中国科学院软件研究所 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置
CN112765326A (zh) * 2021-01-27 2021-05-07 西安电子科技大学 一种问答社区专家推荐方法、系统及应用
CN112818675A (zh) * 2021-02-01 2021-05-18 北京金山数字娱乐科技有限公司 一种基于知识库问答的实体抽取方法及装置
CN112861538A (zh) * 2021-02-08 2021-05-28 哈尔滨工业大学 一种基于上下文语义关系和文档一致性约束的实体链接方法
CN112906388A (zh) * 2021-01-28 2021-06-04 武汉纺织大学 一种基于流形排序的未登录词处理方法、装置及存储介质
CN112905764A (zh) * 2021-02-07 2021-06-04 深圳万海思数字医疗有限公司 流行病咨询防治与培训系统构建方法及系统
CN112948553A (zh) * 2021-02-26 2021-06-11 平安国际智慧城市科技股份有限公司 法律智能问答方法、装置、电子设备及存储介质
CN112989218A (zh) * 2021-03-12 2021-06-18 西华大学 基于多级属性嵌入和约束典型相关分析的身份链接方法
CN113010654A (zh) * 2021-03-17 2021-06-22 北京十一贝科技有限公司 应用于保险行业的问题回复方法、装置、电子设备和介质
CN113177105A (zh) * 2021-05-06 2021-07-27 南京大学 基于词嵌入的多源异构水利领域数据融合方法
CN113326383A (zh) * 2021-05-27 2021-08-31 中国平安人寿保险股份有限公司 一种短文本实体链接方法、装置、计算设备与存储介质
CN113535883A (zh) * 2021-07-16 2021-10-22 携程旅游信息技术(上海)有限公司 商业场所实体链接方法、系统、电子设备及存储介质
CN113946666A (zh) * 2021-09-13 2022-01-18 东北大学 一种基于域感知的简单问题知识库问答方法
CN113963358A (zh) * 2021-12-20 2022-01-21 北京易真学思教育科技有限公司 文本识别模型训练方法、文本识别方法、装置及电子设备
CN113971216A (zh) * 2021-10-22 2022-01-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN114003735A (zh) * 2021-12-24 2022-02-01 北京道达天际科技有限公司 基于情报文档面向知识图谱问答的实体消歧方法
CN114943230A (zh) * 2022-04-17 2022-08-26 西北工业大学 一种融合常识知识的中文特定领域实体链接方法
CN115828854A (zh) * 2023-02-17 2023-03-21 东南大学 一种基于上下文消歧的高效表格实体链接方法
CN116069919A (zh) * 2023-03-07 2023-05-05 华侨大学 基于文本和图拓扑相似的问句实体链接方法、装置和介质
CN116226357A (zh) * 2023-05-09 2023-06-06 武汉纺织大学 一种输入中包含错误信息场景下的文档检索方法
CN117076653A (zh) * 2023-10-17 2023-11-17 安徽农业大学 基于思维链及可视化提升上下文学习知识库问答方法
CN117852974A (zh) * 2024-03-04 2024-04-09 禾辰纵横信息技术有限公司 一种基于人工智能的在线考评得分评估方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109355A1 (en) * 2015-10-16 2017-04-20 Baidu Usa Llc Systems and methods for human inspired simple question answering (hisqa)
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN110348024A (zh) * 2019-07-23 2019-10-18 天津汇智星源信息技术有限公司 基于法律知识图谱的智能识别系统
CN110502621A (zh) * 2019-07-03 2019-11-26 平安科技(深圳)有限公司 问答方法、问答装置、计算机设备及存储介质
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109355A1 (en) * 2015-10-16 2017-04-20 Baidu Usa Llc Systems and methods for human inspired simple question answering (hisqa)
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN110502621A (zh) * 2019-07-03 2019-11-26 平安科技(深圳)有限公司 问答方法、问答装置、计算机设备及存储介质
CN110348024A (zh) * 2019-07-23 2019-10-18 天津汇智星源信息技术有限公司 基于法律知识图谱的智能识别系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张芳容: "基于BI-LSTM-CRF模型的知识库自动问答方法研究" *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732862B (zh) * 2020-12-25 2021-11-09 中国科学院软件研究所 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置
CN112732862A (zh) * 2020-12-25 2021-04-30 中国科学院软件研究所 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置
CN112765326A (zh) * 2021-01-27 2021-05-07 西安电子科技大学 一种问答社区专家推荐方法、系统及应用
CN112906388A (zh) * 2021-01-28 2021-06-04 武汉纺织大学 一种基于流形排序的未登录词处理方法、装置及存储介质
CN112818675A (zh) * 2021-02-01 2021-05-18 北京金山数字娱乐科技有限公司 一种基于知识库问答的实体抽取方法及装置
CN112905764A (zh) * 2021-02-07 2021-06-04 深圳万海思数字医疗有限公司 流行病咨询防治与培训系统构建方法及系统
CN112861538A (zh) * 2021-02-08 2021-05-28 哈尔滨工业大学 一种基于上下文语义关系和文档一致性约束的实体链接方法
CN112948553A (zh) * 2021-02-26 2021-06-11 平安国际智慧城市科技股份有限公司 法律智能问答方法、装置、电子设备及存储介质
CN112989218A (zh) * 2021-03-12 2021-06-18 西华大学 基于多级属性嵌入和约束典型相关分析的身份链接方法
CN113010654A (zh) * 2021-03-17 2021-06-22 北京十一贝科技有限公司 应用于保险行业的问题回复方法、装置、电子设备和介质
CN113177105A (zh) * 2021-05-06 2021-07-27 南京大学 基于词嵌入的多源异构水利领域数据融合方法
CN113326383A (zh) * 2021-05-27 2021-08-31 中国平安人寿保险股份有限公司 一种短文本实体链接方法、装置、计算设备与存储介质
CN113535883B (zh) * 2021-07-16 2023-10-31 携程旅游信息技术(上海)有限公司 商业场所实体链接方法、系统、电子设备及存储介质
CN113535883A (zh) * 2021-07-16 2021-10-22 携程旅游信息技术(上海)有限公司 商业场所实体链接方法、系统、电子设备及存储介质
CN113946666A (zh) * 2021-09-13 2022-01-18 东北大学 一种基于域感知的简单问题知识库问答方法
CN113971216A (zh) * 2021-10-22 2022-01-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN113963358A (zh) * 2021-12-20 2022-01-21 北京易真学思教育科技有限公司 文本识别模型训练方法、文本识别方法、装置及电子设备
CN114003735B (zh) * 2021-12-24 2022-03-18 北京道达天际科技有限公司 基于情报文档面向知识图谱问答的实体消歧方法
CN114003735A (zh) * 2021-12-24 2022-02-01 北京道达天际科技有限公司 基于情报文档面向知识图谱问答的实体消歧方法
CN114943230A (zh) * 2022-04-17 2022-08-26 西北工业大学 一种融合常识知识的中文特定领域实体链接方法
CN114943230B (zh) * 2022-04-17 2024-02-20 西北工业大学 一种融合常识知识的中文特定领域实体链接方法
CN115828854A (zh) * 2023-02-17 2023-03-21 东南大学 一种基于上下文消歧的高效表格实体链接方法
CN115828854B (zh) * 2023-02-17 2023-05-02 东南大学 一种基于上下文消歧的高效表格实体链接方法
CN116069919A (zh) * 2023-03-07 2023-05-05 华侨大学 基于文本和图拓扑相似的问句实体链接方法、装置和介质
CN116226357A (zh) * 2023-05-09 2023-06-06 武汉纺织大学 一种输入中包含错误信息场景下的文档检索方法
CN117076653A (zh) * 2023-10-17 2023-11-17 安徽农业大学 基于思维链及可视化提升上下文学习知识库问答方法
CN117076653B (zh) * 2023-10-17 2024-01-02 安徽农业大学 基于思维链及可视化提升上下文学习知识库问答方法
CN117852974A (zh) * 2024-03-04 2024-04-09 禾辰纵横信息技术有限公司 一种基于人工智能的在线考评得分评估方法

Similar Documents

Publication Publication Date Title
CN112100356A (zh) 一种基于相似性的知识库问答实体链接方法及系统
US10614106B2 (en) Automated tool for question generation
Jiao An intelligent chatbot system based on entity extraction using RASA NLU and neural network
Jung Semantic vector learning for natural language understanding
US20170177563A1 (en) Methods and systems for automated text correction
CN112035730B (zh) 一种语义检索方法、装置及电子设备
Xie et al. Topic enhanced deep structured semantic models for knowledge base question answering
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN112183094A (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN117093729B (zh) 一种基于医疗科研信息的检索方法、系统及检索终端
Almiman et al. Deep neural network approach for Arabic community question answering
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114661872A (zh) 一种面向初学者的api自适应推荐方法与系统
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
Perez-Martin et al. A comprehensive review of the video-to-text problem
Araujo How evolutionary algorithms are applied to statistical natural language processing
CN115238080A (zh) 实体链接方法及相关设备
Lee Natural Language Processing: A Textbook with Python Implementation
Ghasemi et al. FarSick: A Persian Semantic Textual Similarity And Natural Language Inference Dataset
Das et al. Incorporating domain knowledge to improve topic segmentation of long MOOC lecture videos
Zhekova et al. Software Tool for Translation of natural language text to SQL query
CN117648933B (zh) 基于深度学习和知识库的自然语言歧义消解方法和系统
Jiao Sentiment Analysis of Weibo Short Text Based on Attention Mechanism and BERT Model
Yang et al. BertHANK: hierarchical attention networks with enhanced knowledge and pre-trained model for answer selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201218

RJ01 Rejection of invention patent application after publication