CN111159345A - 一种中文知识库答案获取方法及其装置 - Google Patents

一种中文知识库答案获取方法及其装置 Download PDF

Info

Publication number
CN111159345A
CN111159345A CN201911378934.8A CN201911378934A CN111159345A CN 111159345 A CN111159345 A CN 111159345A CN 201911378934 A CN201911378934 A CN 201911378934A CN 111159345 A CN111159345 A CN 111159345A
Authority
CN
China
Prior art keywords
obtaining
word
answer
predicate
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911378934.8A
Other languages
English (en)
Other versions
CN111159345B (zh
Inventor
赵小虎
有鹏
张志强
赵成龙
李婉梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201911378934.8A priority Critical patent/CN111159345B/zh
Publication of CN111159345A publication Critical patent/CN111159345A/zh
Application granted granted Critical
Publication of CN111159345B publication Critical patent/CN111159345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种中文知识库答案获取方法及其装置,属于答案获取技术领域,解决了现有方法的答案获取结果准确度低的问题。方法包括:对用户输入的问题进行命名实体识别,获得问题的核心主题;根据核心主题检索中文知识库,获得待选答案;根据深度语义匹配模型分别将问题和待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间,获得字层次语义相似度和词层次语义相似度,得到问题和待选答案谓语之间的全局语义相似度;得到检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案。实现了融合字和词层次捕获问题和待选答案中谓语的相似度,提高了答案获取结果的准确率。

Description

一种中文知识库答案获取方法及其装置
技术领域
本发明涉及答案获取技术领域,尤其涉及一种中文知识库答案获取方法及其装置。
背景技术
知识问答的目的在于从知识库中提取答案,目前基于知识库的答案获取方法可以分为两类:基于语义分析(SP)的方法和基于信息检索(IR)的方法。基于SP的方法,将自然语言问句转换为某种逻辑表达形式来获取答案,语义分析错误会导致无法获得正确的答案。基于信息检索的方法,直接查询自然语言问题从知识库中检索出答案,作为正确答案返回。
目前,已经存在许多大规模的中文知识库,基于中文知识库的答案获取得到了迅速发展。卷积神经网络和门控循环单元(GRU)模型被用来对问句进行语义层次的表示。
虽然卷积网络、GRU模型等能够提高知识答案获取的准确性,但是目前中文知识答案获取研究仅衡量了问句和谓语分词后的相似度,由于中文自然语言的特殊性,分词会导致的误差传播以及分词前的语义丢失,造成答案获取结果的准确度低。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种中文知识库答案获取方法及其装置,用以解决现有的方法获得的答案获取结果准确度低的问题。
本发明的目的主要是通过以下技术方案实现的:
一种中文知识库答案获取方法,包括如下步骤:
对用户输入的问题进行命名实体识别,获得问题的核心主题;
根据上述核心主题检索中文知识库,获得待选答案;
根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间,获得字层次语义相似度和词层次语义相似度,得到问题和待选答案谓语之间的全局语义相似度;
基于所述全局语义相似度得到检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案。
在上述方案的基础上,本发明还做了如下改进:
进一步,所述对用户输入的问题进行命名实体识别,获得问题的核心主题,包括如下步骤:
对用户输入的问题进行分词,对分词结果进行词性标注,获得问题中包含的名词、动词、形容词,作为词性标注结果;
将上述词性标注结果和所述问题中包含的字符分别进行向量映射,获得词性向量矩阵xP和问题字符向量矩阵xQ
将上述xP和xQ进行加和运算,提取加和运算结果x中包含的过去特征和未来特征,建立包含所述过去特征和未来特征的输出向量;
通过上述输出向量,获取所述问题中任意两个字符之间的关系,基于任意两个字符之间的关系得分得到预测序列,将预测序列中的连续序列作为核心主题。
进一步,所述建立包含所述过去特征和未来特征的输出向量,包括如下步骤:
通过下面公式提取加和运算结果x包含的过去特征
Figure BDA0002341758620000031
式中,
Figure BDA0002341758620000032
为前向长短时记忆网络中隐层的输出的过去特征,
Figure BDA0002341758620000033
为前向长短时记忆网络,
Figure BDA0002341758620000034
为前向长短时记忆网络隐层上一时刻的输出,xi为加和运算结果x的第i个元素;
通过下面公式提取加和运算结果x包含的未来特征
Figure BDA0002341758620000035
式中,
Figure BDA0002341758620000036
为后向长短时记忆网络中隐层的输出的未来特征,
Figure BDA0002341758620000037
为后向长短时记忆网络,
Figure BDA0002341758620000038
为后向长短时记忆网络的隐层上一时刻的输出;
通过下面公式获得包含所述过去特征和未来特征的输出向量H
Figure BDA0002341758620000039
H=[h1,...,hi,...,hn]
式中,hi为所述输出向量的第i个元素。
进一步,所述获取所述问题中任意两个字符之间的关系,包括如下步骤:
根据所述输出向量,获得放缩点注意力;
基于所述放缩点注意力,获得代表所述问题中任意两个字符之间的关系矩阵。
进一步,基于任意两个字符之间的关系得分得到预测序列,将预测序列中的连续序列作为核心主题,包括如下步骤:
根据任意两个字符之间的关系矩阵,获得多头注意力机制的输出矩阵;
根据所述多头注意力机制的输出矩阵,获得代表所述问题中任意两个字符之间的关系得分;
基于所述任意两个字符之间的关系得分,获得所有序列的概率;
对上述概率取对数,获得所述概率的对数函数;
选择所述对数函数中最大的序列作为问题的预测序列,将所述预测序列中的连续序列作为问题的命名实体,所述命名实体即为问题的核心主题。
进一步,所述获得字层次语义相似度和词层次语义相似度,得到问题和待选答案谓语之间的全局语义相似度,具体包括如下步骤:
将所述待选答案中及所述问题中与上述核心主题相连的谓语转换到字层次和词层次的向量空间;
通过下述公式得到字层次语义相似度:
Figure BDA0002341758620000041
式中,qc为字层次向量空间的问题;pc为字层次向量空间待选答案的谓语,vqc为字层次问题的语义向量;vpc为字层次待选答案谓语的语义向量;
通过下述公式得到词层次语义相似度:
Figure BDA0002341758620000042
式中,qw为词层次向量空间的问题;pw为词层次向量空间待选答案的谓语,
Figure BDA0002341758620000043
为词层次问题的语义向量;vpw为词层次待选答案谓语的语义向量。
进一步,通过下述公式得到全局语义相似度:
sim(q,p)=λsim(qc,pc)+μsim(qw,pw)
式中,q为问题;p为待选答案中的谓语;λ和μ为预先设定的超参数。
进一步,基于所述全局语义相似度,通过softmax转换为概率值;
Figure BDA0002341758620000051
式中,E为待选答案中与核心主题相连的所有谓语集合,
Figure BDA0002341758620000052
为谓语集合中的某一谓语;
将最大所述概率值对应的谓语作为检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案。
本发明的另一个实施例,提供了一种中文知识库答案获取装置,包括:
命名实体识别模块,用于对用户输入的问题进行命名实体识别,获得问题的核心主题;根据所述核心主题检索中文知识库,获得待选答案;
深度语义匹配模块,用于根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间,获得字层次语义相似度和词层次语义相似度,得到问题和待选答案谓语之间的全局语义相似度;
答案获得模块,用于基于所述全局语义相似度得到检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案。
进一步,所述命名实体识别模块包括下述流程:
对用户输入的问题进行分词,对分词结果进行词性标注,获得问题中包含的名词、动词、形容词,作为词性标注结果;
将上述词性标注结果和所述问题中包含的字符分别进行向量映射,获得词性向量矩阵xP和问题字符向量矩阵xQ
将上述xP和xQ进行加和运算,提取加和运算结果x中包含的过去特征和未来特征,建立包含所述过去特征和未来特征的输出向量;
通过上述输出向量,获取所述问题中任意两个字符之间的关系,基于任意两个字符之间的关系得分得到预测序列,将所述预测序列中的连续序列作为核心主题。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、通过一种中文知识库答案获取方法,解决了分词导致的误差传播及语义丢失,实现了融合字层次和词层次捕获问题和待选答案中谓语的相似度,提高了获取结果的准确率。
2、通过获得包含过去特征和未来特征的输出向量,解决了传统模型无法考虑问题序列的语义依赖问题,实现了问题双向的语义依赖,提高了命名实体识别的准确率,提高了命名实体识别的准确度。
3、通过融合问题和谓语在词和字层次的语义相似度得到全局语义相似度,解决了单一层次的相似度无法充分利用问题和谓语全部的信息,实现了字和词层次语义相似度的充分利用,提高了知识获取结果的准确率。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为一个实施例中一种中文知识库答案获取方法流程示意图;
图2为另一个实施例中一种中文知识库答案获取装置结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,公开了一种中文知识库答案获取方法,如图1所示,包括如下步骤:
S1.对用户输入的问题进行命名实体识别,获得问题的核心主题;
S2.根据上述核心主题检索中文知识库,获得待选答案;
S3.根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间,获得字层次语义相似度和词层次语义相似度,得到问题和待选答案谓语之间的全局语义相似度;
S4.基于所述全局语义相似度得到检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案。
实施时,用户输入的每个问题只有一个核心主题,通过命名实体识别模型得到问题的核心主题后,基于深度语义匹配模型将问题与待选答案中的与核心主题相连的谓语进行匹配得到最恰当的检索谓语,最后基于核心主题和匹配得到的最恰当的谓语在中文知识库检索得到最终答案。示例性的,对于用户输入的问题“边境牧羊犬是什么颜色”,通过命名实体识别模型得到“边境牧羊犬”,基于这个核心主题获得待选答案,然后基于深度语义匹配模型得到待选答案中最恰当的谓语“犬身颜色”,最后基于“边境牧羊犬”和“犬身颜色”在中文知识库检索得到最终答案。
通过一种中文知识库答案获取方法,解决了分词导致的误差传播及语义丢失,实现了融合字层次和词层次捕获问题和待选答案中谓语的相似度,提高了获取结果的准确率。
优选的,所述对用户输入的问题进行命名实体识别,获得问题的核心主题,包括如下步骤:
S11.对用户输入的问题进行分词,对分词结果进行词性标注,获得问题中包含的名词、动词和/或形容词,作为词性标注结果。
S12.将上述词性标注结果和所述问题中包含的字符分别进行向量映射,获得词性向量矩阵xP和问题字符向量矩阵xQ
具体的,将用户输入的问题中包含的字符以及所有词性标注的词性结果,通过深度学习框架tensorflow的embedding层来初始化各自的对应向量,并随着深度学习网络一起训练更新,每个词性标注结果和所述问题中包含的字符都可以用一个向量来表示,整合起来就是词性向量矩阵xP和问题字符向量矩阵xQ
S13.将上述xP和xQ进行加和运算,提取加和运算结果x中包含的过去特征和未来特征,建立包含所述过去特征和未来特征的输出向量。
中文命名实体识别和中文分词的词性标注有很多相似的地方,类如标注为名词则有很大的可能是命名实体,如果是形容词就概率比较小,在命名实体识别模型训练过程将词性标注的结果进行向量映射作为输入融合到输入向量中去,实体识别的输入x不止包括问题字符的矩阵xQ还有问题词性标注后对应的矩阵xP,则对应位置加和运算结果x的计算公式可以表示为:x=xP+xQ
S14.通过上述输出向量,获取所述问题中任意两个字符之间的关系,基于任意两个字符之间的关系得分得到预测序列,将预测序列中的连续序列作为核心主题。
任意两个字符间的关系指任意两个字符之间的语义关系。
上述的关系得分指任意两个字符对应语义向量之间的内积,通过多头注意力机制捕获的概率与元素之和得到。
将任意两个字符之间关系得分的最大值对应的序列作为预测序列。
通过对用户输入的问题进行命名实体识别获得问题的核心主题,实现了根据命名实体识别模型得到核心主题,提高了获取结果的效率和准确度。
优选的,所述建立包含所述过去特征和未来特征的输出向量,包括如下步骤:
通过下面公式提取加和运算结果x包含的过去特征
Figure BDA0002341758620000091
式中,
Figure BDA0002341758620000092
为前向长短时记忆网络中隐层的输出的过去特征,
Figure BDA0002341758620000093
为前向长短时记忆网络,
Figure BDA0002341758620000094
为前向长短时记忆网络隐层上一时刻的输出,xi为加和运算结果x的第i个元素;
通过下面公式提取加和运算结果x包含的未来特征
Figure BDA0002341758620000095
式中,
Figure BDA0002341758620000096
为后向长短时记忆网络中隐层的输出的未来特征,
Figure BDA0002341758620000097
为后向长短时记忆网络,
Figure BDA0002341758620000098
为后向长短时记忆网络的隐层上一时刻的输出;
具体的,前向长短时记忆网络和后向长短时记忆网络是双向长短时记忆网络的双向计算,其中,前向长短时记忆网络是从前往后提取加和运算结果的语义特征,得到过去特征;后向长短时记忆网络是从后往前提取加和运算结果的语义特征,得到未来特征;综合过去特征和未来特征得到包含过去特征和未来特征的输出向量H。
通过下面公式获得包含所述过去特征和未来特征的输出向量H
Figure BDA0002341758620000101
H=[h1,...,hi,...,hn]
式中,hi为所述输出向量的第i个元素。
通过获得包含过去特征和未来特征的输出向量,解决了传统模型无法考虑问题序列的语义依赖问题,实现了问题双向的语义依赖,提高了命名实体识别的准确率,提高了命名实体识别的准确度。
优选的,所述获取所述问题中任意两个字符之间的关系,包括如下步骤:
根据所述输出向量H,通过下式获得放缩点注意力Attention(Q,K,V):
Figure BDA0002341758620000102
式中,d为特征向量的维度,softmax()为归一化运算;
其中,
Q=K=V=H
基于所述放缩点注意力,通过下述公式获得代表所述问题中任意两个字符之间的关系矩阵O:
O=[head1,...,headi,...,headn]W0
其中,
Headi=Attention(QWi Q,KWi K,VWi V)
式中,Wi、W0为用户设定的映射矩阵。
优选的,基于任意两个字符之间的关系得分得到预测序列,将预测序列中的连续序列作为核心主题,包括如下步骤:
根据任意两个字符之间的关系矩阵,获得多头注意力机制的输出矩阵Z,公式如下:
Z=OWz+bz
式中,Wz为深度学习框架中初始化全连接网络的权重;bz为深度学习框架中初始化全连接网络的偏置。
具体的,多头注意力机制的输出矩阵Z为n*k的矩阵,其中n为问题中字符的长度,k为问题中每个字符对应不同标签的数量。
根据所述多头注意力机制的输出矩阵,通过下式获得代表所述问题中任意两个字符之间的关系得分s(X,y):
Figure BDA0002341758620000111
y=(y1,y2,...,yn)
式中,X为输入问题对应的序列,yi为输入问题第i个字符对应的标签,Ayi,yi+1为标签yi转移到标签yi+1的概率,Zi,yi为输出矩阵Z第i列第yi行的元素,n为输入问题对应序列长度;
基于所述任意两个字符之间的关系得分s(X,y),通过下式获得所有序列的概率:
Figure BDA0002341758620000112
式中,Yx表示所有序列的集合,y′表示Yx中的一种情况。
对上述概率p(y|X)取对数,通过下式获得所述概率的对数函数log[p(y|X)]:
Figure BDA0002341758620000113
选择最大的所述对数函数对应的序列y′作为问题的预测序列,将所述预测序列中的连续序列作为问题的命名实体,所述命名实体即为问题的核心主题。
具体的,问题中每个字符对应一个标签,标签包含B、I、O,分别代表命名实体的开始、命名实体的中间和不属于命名实体三种含义,选择预测序列中标记为B的标签以及相连标记为I标签对应的一个或多个连续字符作为连续序列,该连续序列就是问题的命名实体。示例性的,对于用户输入的问题“中国矿业大学在哪里”,基于获得的预测序列BIIIIIOOO,将预测序列BIIIIIOOO中的连续序列BIIIII作为问题的命名实体,该连续序列BIIIII就是核心主题,即核心主题为中国矿业大学。
通过多头注意力机制获取问题中任意字符之间的关系,解决了序列模型双向长短时记忆网络无法捕获问题字符长期依赖的问题,实现了问题任意字符之间语义关系的获取,提高了获取问题整体语义信息的准确度。
优选的,所述获得字层次语义相似度和词层次语义相似度,得到问题和待选答案谓语之间的全局语义相似度,具体包括如下步骤:
将所述待选答案中及所述问题中与上述核心主题相连的谓语转换到字层次和词层次的向量空间;
通过下述公式得到字层次语义相似度:
Figure BDA0002341758620000121
式中,qc为字层次向量空间的问题;pc为字层次向量空间待选答案的谓语,vqc为字层次问题的语义向量;vpc为字层次待选答案谓语的语义向量;
通过下述公式得到词层次语义相似度:
Figure BDA0002341758620000131
式中,qw为词层次向量空间的问题;pw为词层次向量空间待选答案的谓语,
Figure BDA0002341758620000132
为词层次问题的语义向量;vpw为词层次待选答案谓语的语义向量。
通过字和词层次来捕捉问题和谓语的相似度,解决了传统知识问答只通过词层次来获取语义相似度带来的误差传播,实现了多角度来获取问题和谓语的相似度,提高了答案获取的准确率。
具体的,在词层次语义相似度计算阶段,利用双向长短时记忆网络结合注意力机制,分别提取分词后的问句和谓语的语义向量来计算词层次语义相似度。首先通过结巴中文分词工具将对问题进行分词后得到序列wq,对序列wq通过深度学习框架tensorflow的embedding层来初始化各自的对应向量并随着深度学习网络一起训练来更新。将序列wq中所有元素的对应向量组成矩阵Mq,其中Mq中第i行代表wq中的第i个元素对应的向量。分别利用深度学习框架tensorflow得到前向长短时记忆网络和反向长短时记忆网络,并得到每个时刻的输出
Figure BDA0002341758620000133
Figure BDA0002341758620000134
通过拼接操作得到当前时刻的语义向量
Figure BDA0002341758620000135
合并所有时刻双向长短时记忆网络的语义向量得到问题的全局语义矩阵:
Figure BDA0002341758620000136
式中,
Figure BDA0002341758620000137
表示第i时刻前后向长短时记忆网络的语义向量,m为问题经过分词后的序列wq的长度。
由于双向长短时记忆网络模型的特殊性,分别包括前向和后向提取语义特征的过程,所以全局语义特征由
Figure BDA0002341758620000138
Figure BDA0002341758620000139
两部分构成,即全局语义向量hg为前向全局语义向量
Figure BDA0002341758620000141
和后向全局语义向量
Figure BDA0002341758620000142
的平均值。
注意力机制的权重为:
Figure BDA0002341758620000143
式中,
Figure BDA0002341758620000144
为语义向量hi的注意力机制的权重,hg是全局语义特征向量。提取词层次问题的语义向量,公式如下:
Figure BDA0002341758620000145
词层次语义相似度的计算公式如下:
Figure BDA0002341758620000146
式中,qw为词层次向量空间的问题;pw为词层次向量空间待选答案的谓语,
Figure BDA0002341758620000147
为词层次问题的语义向量;vpw为词层次待选答案谓语的语义向量。
优选的,通过下述公式得到全局语义相似度:
sim(q,p)=λsim(qc,pc)+μsim(qw,pw)
式中,q为问题;p为待选答案中的谓语;λ和μ为预先设定的超参数。
通过融合问题和待选答案中的谓语在词和字层次的语义相似度得到全局语义相似度,解决了单一层次的相似度无法充分利用问题和谓语全部的信息,实现了字和词层次语义相似度的充分利用,提高了答案获取的准确率。
优选的,基于所述全局语义相似度得到检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案,具体包括如下步骤:
基于所述全局语义相似度,通过softmax转换为概率值;
Figure BDA0002341758620000151
式中,E为待选答案中与核心主题相连的所有谓语集合,
Figure BDA0002341758620000152
为谓语集合中的某一谓语;
将最大所述概率值对应的谓语作为检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案。
本发明的另一个实施例,如图2所示,提供了一种中文知识库答案获取装置,包括:
命名实体识别模块,用于对用户输入的问题进行命名实体识别,获得问题的核心主题;根据所述核心主题检索中文知识库,获得待选答案;
深度语义匹配模块,用于根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间,获得字层次语义相似度和词层次语义相似度,得到问题和待选答案谓语之间的全局语义相似度;
答案获得模块,用于基于所述全局语义相似度得到检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案。
通过一种中文知识库答案获取装置,解决了分词导致的误差传播及语义丢失,实现了融合字层次和词层次捕获问题和待选答案中谓语的相似度,提高了答案获取的准确率。
优选的,所述命名实体识别模块包括下述流程:
对用户输入的问题进行分词,对分词结果进行词性标注,获得问题中包含的名词、动词、形容词,作为词性标注结果;
将上述词性标注结果和所述问题中包含的字符分别进行向量映射,获得词性向量矩阵xP和问题字符向量矩阵xQ
将上述xP和xQ进行加和运算,提取加和运算结果x中包含的过去特征和未来特征,建立包含所述过去特征和未来特征的输出向量;
通过上述输出向量,获取所述问题中任意两个字符之间的关系,基于任意两个字符之间的关系得分得到预测序列,将所述预测序列中的连续序列作为核心主题。
通过对用户输入的问题进行命名实体识别,实现了根据命名实体识别模型得到核心主题,提高了答案获取的效率和准确度。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种中文知识库答案获取方法,其特征在于,包括如下步骤:
对用户输入的问题进行命名实体识别,获得问题的核心主题;
根据上述核心主题检索中文知识库,获得待选答案;
根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间,获得字层次语义相似度和词层次语义相似度,得到问题和待选答案谓语之间的全局语义相似度;
基于所述全局语义相似度得到检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案。
2.根据权利要求1所述的中文知识库答案获取方法,其特征在于,所述对用户输入的问题进行命名实体识别,获得问题的核心主题,包括如下步骤:
对用户输入的问题进行分词,对分词结果进行词性标注,获得问题中包含的名词、动词、形容词,作为词性标注结果;
将上述词性标注结果和所述问题中包含的字符分别进行向量映射,获得词性向量矩阵xP和问题字符向量矩阵xQ
将上述xP和xQ进行加和运算,提取加和运算结果x中包含的过去特征和未来特征,建立包含所述过去特征和未来特征的输出向量;
通过上述输出向量,获取所述问题中任意两个字符之间的关系,基于任意两个字符之间的关系得分得到预测序列,将预测序列中的连续序列作为核心主题。
3.根据权利要求2所述的中文知识库答案获取方法,其特征在于,所述建立包含所述过去特征和未来特征的输出向量,包括如下步骤:
通过下面公式提取加和运算结果x包含的过去特征
Figure FDA0002341758610000021
式中,
Figure FDA0002341758610000022
为前向长短时记忆网络中隐层的输出的过去特征,
Figure FDA0002341758610000023
为前向长短时记忆网络,
Figure FDA0002341758610000024
为前向长短时记忆网络隐层上一时刻的输出,xi为加和运算结果x的第i个元素;
通过下面公式提取加和运算结果x包含的未来特征
Figure FDA0002341758610000025
式中,
Figure FDA0002341758610000026
为后向长短时记忆网络中隐层的输出的未来特征,
Figure FDA0002341758610000027
为后向长短时记忆网络,
Figure FDA0002341758610000028
为后向长短时记忆网络的隐层上一时刻的输出;
通过下面公式获得包含所述过去特征和未来特征的输出向量H
Figure FDA0002341758610000029
H=[h1,...,hi,...,hn]
式中,hi为所述输出向量的第i个元素。
4.根据权利要求2或3所述的中文知识库答案获取方法,其特征在于,所述获取所述问题中任意两个字符之间的关系,包括如下步骤:
根据所述输出向量,获得放缩点注意力;
基于所述放缩点注意力,获得代表所述问题中任意两个字符之间的关系矩阵。
5.根据权利要求4所述的中文知识库答案获取方法,其特征在于,基于任意两个字符之间的关系得分得到预测序列,将预测序列中的连续序列作为核心主题,包括如下步骤:
根据任意两个字符之间的关系矩阵,获得多头注意力机制的输出矩阵;
根据所述多头注意力机制的输出矩阵,获得代表所述问题中任意两个字符之间的关系得分;
基于所述任意两个字符之间的关系得分,获得所有序列的概率;
对上述概率取对数,获得所述概率的对数函数;
选择所述对数函数中最大的序列作为问题的预测序列,将所述预测序列中的连续序列作为问题的命名实体,所述命名实体即为问题的核心主题。
6.根据权利要求1所述的中文知识库答案获取方法,其特征在于,所述获得字层次语义相似度和词层次语义相似度,得到问题和待选答案谓语之间的全局语义相似度,具体包括如下步骤:
将所述待选答案中及所述问题中与上述核心主题相连的谓语转换到字层次和词层次的向量空间;
通过下述公式得到字层次语义相似度:
Figure FDA0002341758610000031
式中,qc为字层次向量空间的问题;pc为字层次向量空间待选答案的谓语,vqc为字层次问题的语义向量;vpc为字层次待选答案谓语的语义向量;
通过下述公式得到词层次语义相似度:
Figure FDA0002341758610000032
式中,qw为词层次向量空间的问题;pw为词层次向量空间待选答案的谓语,
Figure FDA0002341758610000033
为词层次问题的语义向量;vpw为词层次待选答案谓语的语义向量。
7.根据权利要求6所述的中文知识库答案获取方法,其特征在于,通过下述公式得到全局语义相似度:
sim(q,p)=λsim(qc,pc)+μsim(qw,pw)
式中,q为问题;p为待选答案中的谓语;λ和μ为预先设定的超参数。
8.根据权利要求7所述的中文知识库答案获取方法,其特征在于,基于所述全局语义相似度得到检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案,具体包括如下步骤:
基于所述全局语义相似度,通过softmax转换为概率值;
Figure FDA0002341758610000041
式中,E为待选答案中与核心主题相连的所有谓语集合,
Figure FDA0002341758610000042
为谓语集合中的某一谓语;
将最大所述概率值对应的谓语作为检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案。
9.一种中文知识库答案获取装置,其特征在于,包括:
命名实体识别模块,用于对用户输入的问题进行命名实体识别,获得问题的核心主题;根据所述核心主题检索中文知识库,获得待选答案;
深度语义匹配模块,用于根据深度语义匹配模型分别将所述问题和所述待选答案中的与核心主题相连的谓语转换到字层次和词层次的向量空间,获得字层次语义相似度和词层次语义相似度,得到问题和待选答案谓语之间的全局语义相似度;
答案获得模块,用于基于所述全局语义相似度得到检索谓语,利用所述核心主题和检索谓语检索中文知识库得到最终答案。
10.根据权利要求9所述的中文知识库答案获取装置,其特征在于,所述命名实体识别模块包括下述流程:
对用户输入的问题进行分词,对分词结果进行词性标注,获得问题中包含的名词、动词、形容词,作为词性标注结果;
将上述词性标注结果和所述问题中包含的字符分别进行向量映射,获得词性向量矩阵xP和问题字符向量矩阵xQ
将上述xP和xQ进行加和运算,提取加和运算结果x中包含的过去特征和未来特征,建立包含所述过去特征和未来特征的输出向量;
通过上述输出向量,获取所述问题中任意两个字符之间的关系,基于任意两个字符之间的关系得分得到预测序列,将所述预测序列中的连续序列作为核心主题。
CN201911378934.8A 2019-12-27 2019-12-27 一种中文知识库答案获取方法及其装置 Active CN111159345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911378934.8A CN111159345B (zh) 2019-12-27 2019-12-27 一种中文知识库答案获取方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911378934.8A CN111159345B (zh) 2019-12-27 2019-12-27 一种中文知识库答案获取方法及其装置

Publications (2)

Publication Number Publication Date
CN111159345A true CN111159345A (zh) 2020-05-15
CN111159345B CN111159345B (zh) 2023-09-05

Family

ID=70558649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911378934.8A Active CN111159345B (zh) 2019-12-27 2019-12-27 一种中文知识库答案获取方法及其装置

Country Status (1)

Country Link
CN (1) CN111159345B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639171A (zh) * 2020-06-08 2020-09-08 吉林大学 一种知识图谱问答方法及装置
CN113051371A (zh) * 2021-04-12 2021-06-29 平安国际智慧城市科技股份有限公司 中文机器阅读理解方法、装置、电子设备及存储介质
CN113742447A (zh) * 2021-07-19 2021-12-03 暨南大学 基于查询路径生成的知识图谱问答方法、介质和设备
CN117235287A (zh) * 2023-11-13 2023-12-15 悦享星光(北京)科技有限公司 一种人工智能问答知识库的建立方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN109145083A (zh) * 2017-06-27 2019-01-04 华东师范大学 一种基于深度学习的候选答案选取方法
CN109858020A (zh) * 2018-12-29 2019-06-07 航天信息股份有限公司 一种基于语义图获取税务业务问题答案的方法及系统
CN110059160A (zh) * 2019-04-17 2019-07-26 东南大学 一种端到端的基于上下文的知识库问答方法及装置
CN110287487A (zh) * 2019-06-17 2019-09-27 北京百度网讯科技有限公司 主谓语识别方法、装置、设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN109145083A (zh) * 2017-06-27 2019-01-04 华东师范大学 一种基于深度学习的候选答案选取方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN109858020A (zh) * 2018-12-29 2019-06-07 航天信息股份有限公司 一种基于语义图获取税务业务问题答案的方法及系统
CN110059160A (zh) * 2019-04-17 2019-07-26 东南大学 一种端到端的基于上下文的知识库问答方法及装置
CN110287487A (zh) * 2019-06-17 2019-09-27 北京百度网讯科技有限公司 主谓语识别方法、装置、设备及计算机可读存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639171A (zh) * 2020-06-08 2020-09-08 吉林大学 一种知识图谱问答方法及装置
CN111639171B (zh) * 2020-06-08 2023-10-27 吉林大学 一种知识图谱问答方法及装置
CN113051371A (zh) * 2021-04-12 2021-06-29 平安国际智慧城市科技股份有限公司 中文机器阅读理解方法、装置、电子设备及存储介质
CN113051371B (zh) * 2021-04-12 2023-02-07 平安国际智慧城市科技股份有限公司 中文机器阅读理解方法、装置、电子设备及存储介质
CN113742447A (zh) * 2021-07-19 2021-12-03 暨南大学 基于查询路径生成的知识图谱问答方法、介质和设备
CN113742447B (zh) * 2021-07-19 2024-04-02 暨南大学 基于查询路径生成的知识图谱问答方法、介质和设备
CN117235287A (zh) * 2023-11-13 2023-12-15 悦享星光(北京)科技有限公司 一种人工智能问答知识库的建立方法及系统
CN117235287B (zh) * 2023-11-13 2024-01-30 悦享星光(北京)科技有限公司 一种人工智能问答知识库的建立方法及系统

Also Published As

Publication number Publication date
CN111159345B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
Keneshloo et al. Deep reinforcement learning for sequence-to-sequence models
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN107748757B (zh) 一种基于知识图谱的问答方法
WO2021223323A1 (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
Torabi et al. Learning language-visual embedding for movie understanding with natural-language
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111159345A (zh) 一种中文知识库答案获取方法及其装置
CN109871535A (zh) 一种基于深度神经网络的法语命名实体识别方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
Zhao et al. Cross-domain image captioning via cross-modal retrieval and model adaptation
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN111400455A (zh) 基于知识图谱的问答系统的关系检测方法
CN111209384A (zh) 基于人工智能的问答数据处理方法、装置及电子设备
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN108628935A (zh) 一种基于端到端记忆网络的问答方法
CN113377897B (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN111881292B (zh) 一种文本分类方法及装置
CN113111663A (zh) 一种融合关键信息的摘要生成方法
Khan et al. A deep neural framework for image caption generation using gru-based attention mechanism
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN111444720A (zh) 一种英文文本的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant