CN111414461A - 一种融合知识库与用户建模的智能问答方法及系统 - Google Patents
一种融合知识库与用户建模的智能问答方法及系统 Download PDFInfo
- Publication number
- CN111414461A CN111414461A CN202010065407.8A CN202010065407A CN111414461A CN 111414461 A CN111414461 A CN 111414461A CN 202010065407 A CN202010065407 A CN 202010065407A CN 111414461 A CN111414461 A CN 111414461A
- Authority
- CN
- China
- Prior art keywords
- answer
- question
- vector
- knowledge
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000013135 deep learning Methods 0.000 claims abstract description 51
- 239000013598 vector Substances 0.000 claims description 208
- 238000012512 characterization method Methods 0.000 claims description 90
- 230000006870 function Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 13
- 239000004576 sand Substances 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000002349 favourable effect Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种融合知识库与用户建模的智能问答方法及系统,该方法包括以下步骤:步骤A:采集智能问答系统中的问题以及回答记录,构建问答对训练集QA;步骤B:采集智能问答系统中每个用户对问题的回答记录,构建用户的历史回答训练集UA;步骤C:基于问答对训练集QA、用户的历史回答训练集UA以及知识库KB,训练基于改进循环实体网络Recurrent Entity Network的深度学习网络模型M;步骤D:接收用户的提问,并将提问输入到训练好的深度学习网络模型M中,输出匹配的答案。该方法及系统有利于提高对于提问的智能回答精度。
Description
技术领域
本发明涉及自然语言处理与情感分析应用领域,具体涉及一种融合知识库与用户建模的智能问答方法及系统。
背景技术
随着社会信息化和互联网的快速发展,人们对于问答系统的需求日益增长。2005年以来,互联网相继涌现了大量的问答社区,基于社区的问答系统逐渐成了问答系统的一个重要研究分支,人们热衷于在社区智能问答系统上提出问题,获取答案并且同他人交流来分享自己的知识。
根据知识来源的不同,问答系统可以分为以下三种任务:基于知识库的问答、基于文档的问答、答案选择。问答系统的工作原理是用户用人类语言的形式提出查询信息的需求,系统通过某种技术手段对问题进行语义分析,接着从多种类的数据源(知识图谱、数据库、文档等)中找出最匹配的答案。传统的解决方法是通过人工构造规则和特征构建符合场景的规则组合来达到计算的目的;现代的自然语言处理领域已经大量运用统计机器学习的算法,通过机器学习算法来计算问题和答案的匹配关系;近两年,深度学习方法深受欢迎,基于词向量技术、循环神经网络、卷积神经网络等理论的研究也层出不穷,且已经被大量用于智能问答系统的各类应用场景中并且取得了突出的性能表现。
Carmel提出了一种改进的单词权重计算模型,加入了词语的词性和依赖关系等语法特性,这些特征被用来训练排序模型,验证了该方法的有效性。Wang等人通过将每一个问题句子都生成其语法树的形式,然后比较问题的语法树的相似性来判断问题的相似性。Jeon等人利用非文本特征来预测答案的质量,系统地分析了一些非文本特征对于预测答案质量的作用,最后应用最大熵方法和核密度方法去预测答案的质量。Liu等人利用大多数CQA问题都有多个答案的特性,把答案抽取的问题转换为多文档摘要的问题,从而达到较好的效果。
深度学习理论在答案抽取和排序任务上也有一定应用。Iyyer等人利用一个依赖树递归神经网络并且结合句子间的预测来对回答进行排列。Wang使用双向长短时记忆网络进行答案选择,将BiLSTM与关键词匹配模型相结合,由BiLSTM输出问题答案间的匹配结果。Guo等人引入一个跳跃卷积神经网络(Skip Convolutional Network)来获取语法语义特征。Zhou等人将答案选择看成答案标注问题,首先使用卷积神经网络(ConvolutionalNeural Network,CNN)抽取问题和答案的分布式表示,然后将联合表示作为循环记忆网络的输入,以学习所有答案与问题的匹配关系。Tan等人引入一个混合神经网络,通过结合卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent NeuralNetwork,RNN)的结果来学习问题/回答的表示。Santos等人提出一个一种双向注意机制,将成对的输入序列投射到一个公共的表示空间中,以更好的排列答案。
传统CQA系统使用有监督学习,训练答案排序和问题检索模型,但该方法需要抽取复杂的文本特征,很难在特征构造上做到最优,并且该方法在新的数据集上泛化性能较差,对新数据集往往需求重新进行特征抽取和特征工程。目前基于深度学习的方法通常基于单一的卷积神经网络或循环神经网络,无法全面准确地提取影响智能问答精度的各项特征,并且没有充分利用知识库中存储的先验知识作为问题回答的背景知识,在社区问答系统中没有考虑到用户自身所携带的信息对于回答选择所起的作用。
发明内容
本发明的目的在于提供一种融合知识库与用户建模的智能问答方法及系统,该方法及系统有利于提高对于提问的智能回答精度。
为实现上述目的,本发明采用的技术方案是:一种融合知识库与用户建模的智能问答方法,包括以下步骤:
步骤A:采集智能问答系统中的问题以及回答记录,构建问答对训练集QA;
智能问答系统中的每个问题及其回答记录表示为一个问答序列q表示问题句子,{at|t=1,2,...,Nq}为问题q的答案集合,Nq为问题q对应的答案数量,问题q和答案集合中的每个答案at构成一个问答对(q,at),则问答对训练集QA中每个问题的训练样本表示为
步骤B:采集智能问答系统中每个用户对问题的回答记录,构建用户的历史回答训练集UA;
步骤C:基于问答对训练集QA、用户的历史回答训练集UA以及知识库KB,训练基于改进循环实体网络Recurrent Entity Network的深度学习网络模型;
步骤D:接收用户的提问,并将提问输入到训练好的深度学习网络模型中,输出匹配的答案。
进一步地,所述步骤C具体包括以下步骤:
步骤C1:对每个问答对(q,at),分别对问题q和答案at进行分词处理并去除停用词;
步骤C2:对每个问答对(q,at),分别获取问题q和答案at的初始表征向量;
步骤C3:对每个问答对(q,at),分别获取问题q和答案at的知识表征向量;
步骤C4:对每个问答对(q,at),融合步骤C2获得的问题q的初始表征向量和步骤C3获得的问题q的知识表征向量,得到问题q的带知识嵌入的表征向量融合步骤C2获得的答案at的初始表征向量和步骤C3获得的答案at的知识表征向量,得到答案at的带知识嵌入的表征向量
步骤C5:遍历历史回答训练集UA,根据每个用户的历史回答集合,获取每个用户的历史回答表征向量;
步骤C6:对每个问答对(q,at),得到提供答案at的用户根据步骤C5获得的每个用户的历史回答表征向量,查找得到用户的历史回答表征向量与步骤C4获得的问题q和答案at的带知识嵌入的表征向量共同构成一个三元组进而构成三元组序列输入到深度学习网络模型的基于循环实体网络的动态记忆模块中,得到问答对的带知识嵌入以及用户嵌入的表征向量;
步骤C7:将步骤C6得到的表征向量输入到深度学习网络模型的隐藏层和Softmax层,根据目标损失函数loss,利用反向传播方法计算深度学习网络中各参数的梯度,并利用随机梯度下降方法更新参数;
步骤C8:当深度学习网络模型产生的损失值小于设定阈值或者迭代次数达到最大迭代次数,则终止深度学习网络模型的训练。
进一步地,所述步骤C2具体包括以下步骤:
步骤C21:对问答对(q,at),根据问题q的问题描述qS和问题主体qB,获取问题q的初始表征向量;
智能问答系统中的每个问题q由问题描述qS和问题主体qB组成,qS是经过分词处理并去除停用词后的问题的标题部分,表示为 表示qS中的第i个词语;L(qS)为qS中的词数;qB是经过分词处理并去除停用词后的问题的详细描述部分,表示为 表示qB中的第i个词;L(qB)为qB中的词数;q由qS和qB连接构成,表示为
其中,为q中第i个词所对应的词向量,i=1,2,...,L(q),L(q)=L(qS)+L(qB)为q中的词数;通过在预训练的词向量矩阵查找得到,d1表示词向量的维度,|D|是词典D中的词语数;为q中第i个词的位置编码,通过将问题q中的每个单词进行加权得到问题q的初始表征向量“○”为向量与的哈达玛积;
步骤C22:对问答对(q,at),获取答案at的初始表征向量;
进一步地,所述步骤C3具体包括以下步骤:
步骤C31:将问题q的知识表征向量表示为:
其中,为问题q中检测到的第i个知识实体所对应的知识实体表征向量,d2表示知识实体表征向量的维度,l1为问题q中检测到的知识实体数;为第i个知识实体的位置编码,通过将问题q中检测到的每个知识实体进行加权得到问题q的知识表征向量
步骤C32:将答案at的知识表征向量表示为:
其中,为答案at中检测到的第i个知识实体所对应的知识实体表征向量,l2为答案at中检测到的知识实体数;为第i个知识实体的位置编码,通过将答案at中检测到的每个知识实体进行加权得到答案at的知识表征向量
进一步地,所述步骤C4具体为:连接步骤C2得到的问题q的初始表征向量与步骤C3得到的问题q的知识表征向量,得到问题q的带知识嵌入的表征向量 连接步骤C2得到的答案at的初始表征向量与步骤C3得到的答案at的知识表征向量,得到答案at的带知识嵌入的表征向量其中d1为词向量的维度,d2为知识实体表征向量的维度。
进一步地,所述步骤C5具体包括以下步骤:
步骤C51:遍历用户的历史回答训练集UA,对每个用户的回答集合进行分词并去除停用词;
步骤C52:获取每个用户的所有回答经分词并去除停用词后的词语集合uc′,查找每个词对应的词向量,融合得到每个用户的历史回答表征向量Uc;
进一步地,所述步骤C6具体包括以下步骤:
步骤C61:对每个问答对(q,at),得到提供答案at的用户根据步骤C5获得的每个用户的历史回答表征向量,得到用户的历史回答表征向量与步骤C4获得的问题q和答案at的带知识嵌入的表征向量共同构成一个三元组
其中,公式(1)中是blocki的门函数,ki为三元组的答案at中检测到的第i个知识实体所对应的知识实体表征向量若不存在对应的则ki置为零矩阵;σ是Sigmoid函数;公式(2)中为候选记忆隐状态,用于计算输入三元组后需要更新的内容;φ是激活函数,矩阵为训练参数;公式(3)中通过记忆单元的门函数和候选记忆隐状态对记忆进行更新,公式(4)中对进行归一化,最后输出隐状态
步骤C63:根据使用softmax计算在每个记忆单元的输出隐状态hi上的条件分布pi,获得与每个记忆单元之间的相关程度,之后使用条件分布pi作为权值对记忆单元的隐状态hi进行注意力加权,得到问答对的带知识嵌入以及用户嵌入的表征向量y;计算公式如下:
进一步地,所述步骤C7具体包括以下步骤:
步骤C71:将步骤C6得到的问答对的带知识嵌入以及用户嵌入的表征向量y输入到深度学习网络模型的隐藏层和Softmax层进行归一化处理,计算答案属于各类别的概率,计算公式如下:
c=fhidden(Whidden○y+b)
p(ci)=Softmax(c)
步骤C72:用交叉熵作为损失函数计算损失值,通过梯度优化算法Adam进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中最小化损失函数Loss的计算公式如下:
本发明还提供了一种采用上述方法的智能问答系统,包括:
训练集构建模块,用于采集智能问答系统中的问题和回答记录,以及每个用户对问题的回答记录,构建问答对训练集QA和用户的历史回答训练集UA;
文本预处理模块,用于对训练集输入文本进行预处理,包括对输入文本进行分词处理和去除停用词,得到经过预处理的文本;
知识库搜索模块,用于从知识库中检测出现在问题和答案中的知识实体及其关系;
特征提取模块,用于在预训练的词向量矩阵中查找经过预处理的训练集文本中词的词向量,并且结合位置信息得到文本表征向量和用户的历史回答表征向量;从知识库中获取的知识实体及其关系经过预训练的知识嵌入矩阵并结合位置信息得到知识表征向量,融合问答对的文本表征向量和知识表征向量得到问答对的最终表征向量;
网络训练模块,用于将问答对的最终表征向量和用户的历史回答表征向量输入到深度学习网络模型的动态记忆模块中,得到动态记忆网络中序列的最后隐藏状态表示作为特征向量进而训练深度学习网络,利用该特征向量属于某一类别的概率以及训练集中的标注作为损失,以最小化损失为目标来对整个深度学习网络进行训练,得到深度学习网络模型;以及
问题处理模块,用于利用训练好的深度学习网络模型对输入的问题进行分析处理,输出匹配回答。
相较于现有技术,本发明具有以下有益效果:提供了一种融合知识库与用户建模的智能问答方法及系统,该方法及系统基于问答对训练集、用户的历史回答训练集以及知识库训练基于改进循环实体网络的深度学习网络模型,可以更加全面地提取影响智能问答精度的各项特征,充分利用知识库中存储的先验知识,考虑用户自身所携带的信息,提高了对于用户提问的智能回答精度,具有很强的实用性和广阔的应用前景。
附图说明
图1为本发明实施例的方法实现流程图。
图2为本发明实施例的系统结构示意图。
图3为本发明实施例的模型架构图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明提供了一种融合知识库与用户建模的智能问答方法,如图1所示,包括以下步骤:
步骤A:采集智能问答系统中的问题以及回答记录,构建问答对训练集QA。
智能问答系统中的每个问题及其回答记录表示为一个问答序列q表示问题句子,{at|t=1,2,...,Nq}为问题q的答案集合,Nq为问题q对应的答案数量,问题q和答案集合中的每个答案at构成一个问答对(q,at),则问答对训练集QA中每个问题的训练样本表示为
步骤B:采集智能问答系统中每个用户对问题的回答记录,构建用户的历史回答训练集UA。
步骤C:基于问答对训练集QA、用户的历史回答训练集UA以及知识库KB,训练基于改进循环实体网络Recurrent Entity Network的深度学习网络模型。
本发明中基于改进循环实体网络的深度学习网络模块如图3所示。所述步骤C具体包括以下步骤:
步骤C1:对每个问答对(q,at),分别对问题q和答案at进行分词处理并去除停用词。
步骤C2:对每个问答对(q,at),分别获取问题q和答案at的初始表征向量。具体包括以下步骤:
步骤C21:对问答对(q,at),根据问题q的问题描述qS和问题主体qB,获取问题q的初始表征向量;
智能问答系统中的每个问题q由问题描述qS和问题主体qB组成,qS是经过分词处理并去除停用词后的问题的标题部分,表示为 表示qS中的第i个词语;L(qS)为qS中的词数;qB是经过分词处理并去除停用词后的问题的详细描述部分,表示为 表示qB中的第i个词;L(qB)为qB中的词数;q由qS和qB连接构成,表示为
其中,为q中第i个词所对应的词向量,i=1,2,...,L(q),L(q)=L(qS)+L(qB)为q中的词数;通过在预训练的词向量矩阵查找得到,d1表示词向量的维度,|D|是词典D中的词语数;为q中第i个词的位置编码,通过将问题q中的每个单词进行加权得到问题q的初始表征向量“○”为向量与的哈达玛(Hadamard)积;
步骤C22:对问答对(q,at),获取答案at的初始表征向量;
步骤C3:对每个问答对(q,at),分别获取问题q和答案at的知识表征向量。具体包括以下步骤:
步骤C31:将问题q的知识表征向量表示为:
其中,为问题q中检测到的第i个知识实体所对应的知识实体表征向量,d2表示知识实体表征向量的维度,l1为问题q中检测到的知识实体数;为第i个知识实体的位置编码,通过将问题q中检测到的每个知识实体进行加权得到问题q的知识表征向量
步骤C32:将答案at的知识表征向量表示为:
其中,为答案at中检测到的第i个知识实体所对应的知识实体表征向量,l2为答案at中检测到的知识实体数;为第i个知识实体的位置编码,通过将答案at中检测到的每个知识实体进行加权得到答案at的知识表征向量
步骤C4:对每个问答对(q,at),融合步骤C2获得的问题q的初始表征向量和步骤C3获得的问题q的知识表征向量,得到问题q的带知识嵌入的表征向量融合步骤C2获得的答案at的初始表征向量和步骤C3获得的答案at的知识表征向量,得到答案at的带知识嵌入的表征向量具体为:连接步骤C2得到的问题q的初始表征向量与步骤C3得到的问题q的知识表征向量,得到问题q的带知识嵌入的表征向量 连接步骤C2得到的答案at的初始表征向量与步骤C3得到的答案at的知识表征向量,得到答案at的带知识嵌入的表征向量其中d1为词向量的维度,d2为知识实体表征向量的维度。
步骤C5:遍历历史回答训练集UA,根据每个用户的历史回答集合,获取每个用户的历史回答表征向量。具体包括以下步骤:
步骤C51:遍历用户的历史回答训练集UA,对每个用户的回答集合进行分词并去除停用词;
步骤C52:获取每个用户的所有回答经分词并去除停用词后的词语集合uc′,查找每个词对应的词向量,融合得到每个用户的历史回答表征向量Uc;
步骤C6:对每个问答对(q,at),得到提供答案at的用户根据步骤C5获得的每个用户的历史回答表征向量,查找得到用户的历史回答表征向量与步骤C4获得的问题q和答案at的带知识嵌入的表征向量共同构成一个三元组进而构成三元组序列输入到深度学习网络模型的基于循环实体网络的动态记忆模块中,得到问答对的带知识嵌入以及用户嵌入的表征向量。具体包括以下步骤:
步骤C61:对每个问答对(q,at),得到提供答案at的用户根据步骤C5获得的每个用户的历史回答表征向量,得到用户的历史回答表征向量与步骤C4获得的问题q和答案at的带知识嵌入的表征向量共同构成一个三元组
其中,公式(1)中是blocki的门函数,ki为三元组的答案at中检测到的第i个知识实体所对应的知识实体表征向量若不存在对应的则ki置为零矩阵;σ是Sigmoid函数;公式(2)中为候选记忆隐状态,用于计算输入三元组后需要更新的内容;φ是激活函数,矩阵为训练参数;公式(3)中通过记忆单元的门函数和候选记忆隐状态对记忆进行更新,公式(4)中对进行归一化,最后输出隐状态
步骤C63:根据使用softmax计算在每个记忆单元的输出隐状态hi上的条件分布pi,获得与每个记忆单元之间的相关程度,之后使用条件分布pi作为权值对记忆单元的隐状态hi进行注意力加权,得到问答对的带知识嵌入以及用户嵌入的表征向量y;计算公式如下:
步骤C7:将步骤C6得到的表征向量输入到深度学习网络模型的隐藏层和Softmax层,根据目标损失函数loss,利用反向传播方法计算深度学习网络中各参数的梯度,并利用随机梯度下降方法更新参数。具体包括以下步骤:
步骤C71:将步骤C6得到的问答对的带知识嵌入以及用户嵌入的表征向量y输入到深度学习网络模型的隐藏层和Softmax层进行归一化处理,计算答案属于各类别的概率,计算公式如下:
c=fhidden(Whidden○y+b)
p(ci)=Softmax(c)
步骤C72:用交叉熵作为损失函数计算损失值,通过梯度优化算法Adam进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中最小化损失函数Loss的计算公式如下:
步骤C8:当深度学习网络模型产生的损失值小于设定阈值或者迭代次数达到最大迭代次数,则终止深度学习网络模型的训练。
步骤D:接收用户的提问,并将提问输入到训练好的深度学习网络模型中,输出匹配的答案。
本发明还提供了一种采用上述方法的智能问答系统,如图2所示,包括:
训练集构建模块,用于采集智能问答系统中的问题和回答记录,以及每个用户对问题的回答记录,构建问答对训练集QA和用户的历史回答训练集UA;
文本预处理模块,用于对训练集输入文本进行预处理,包括对输入文本进行分词处理和去除停用词,得到经过预处理的文本;
知识库搜索模块,用于从知识库中检测出现在问题和答案中的知识实体及其关系;
特征提取模块,用于在预训练的词向量矩阵中查找经过预处理的训练集文本中词的词向量,并且结合位置信息得到文本表征向量和用户的历史回答表征向量;从知识库中获取的知识实体及其关系经过预训练的知识嵌入矩阵并结合位置信息得到知识表征向量,融合问答对的文本表征向量和知识表征向量得到问答对的最终表征向量;
网络训练模块,用于将问答对的最终表征向量和用户的历史回答表征向量输入到深度学习网络模型的动态记忆模块中,得到动态记忆网络中序列的最后隐藏状态表示作为特征向量进而训练深度学习网络,利用该特征向量属于某一类别的概率以及训练集中的标注作为损失,以最小化损失为目标来对整个深度学习网络进行训练,得到深度学习网络模型;以及
问题处理模块,用于利用训练好的深度学习网络模型对输入的问题进行分析处理,输出匹配回答。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (9)
1.一种融合知识库与用户建模的智能问答方法,其特征在于,包括以下步骤:
步骤A:采集智能问答系统中的问题以及回答记录,构建问答对训练集QA;
智能问答系统中的每个问题及其回答记录表示为一个问答序列q表示问题句子,{at|t=1,2,...,Nq}为问题q的答案集合,Nq为问题q对应的答案数量,问题q和答案集合中的每个答案at构成一个问答对(q,at),则问答对训练集QA中每个问题的训练样本表示为
步骤B:采集智能问答系统中每个用户对问题的回答记录,构建用户的历史回答训练集UA;
步骤C:基于问答对训练集QA、用户的历史回答训练集UA以及知识库KB,训练基于改进循环实体网络Recurrent Entity Network的深度学习网络模型;
步骤D:接收用户的提问,并将提问输入到训练好的深度学习网络模型中,输出匹配的答案。
2.根据权利要求1所述的一种融合知识库与用户建模的智能问答方法,其特征在于,所述步骤C具体包括以下步骤:
步骤C1:对每个问答对(q,at),分别对问题q和答案at进行分词处理并去除停用词;
步骤C2:对每个问答对(q,at),分别获取问题q和答案at的初始表征向量;
步骤C3:对每个问答对(q,at),分别获取问题q和答案at的知识表征向量;
步骤C4:对每个问答对(q,at),融合步骤C2获得的问题q的初始表征向量和步骤C3获得的问题q的知识表征向量,得到问题q的带知识嵌入的表征向量融合步骤C2获得的答案at的初始表征向量和步骤C3获得的答案at的知识表征向量,得到答案at的带知识嵌入的表征向量
步骤C5:遍历历史回答训练集UA,根据每个用户的历史回答集合,获取每个用户的历史回答表征向量;
步骤C6:对每个问答对(q,at),得到提供答案at的用户根据步骤C5获得的每个用户的历史回答表征向量,查找得到用户的历史回答表征向量与步骤C4获得的问题q和答案at的带知识嵌入的表征向量共同构成一个三元组进而构成三元组序列输入到深度学习网络模型的基于循环实体网络的动态记忆模块中,得到问答对的带知识嵌入以及用户嵌入的表征向量;
步骤C7:将步骤C6得到的表征向量输入到深度学习网络模型的隐藏层和Softmax层,根据目标损失函数loss,利用反向传播方法计算深度学习网络中各参数的梯度,并利用随机梯度下降方法更新参数;
步骤C8:当深度学习网络模型产生的损失值小于设定阈值或者迭代次数达到最大迭代次数,则终止深度学习网络模型的训练。
3.根据权利要求2所述的一种融合知识库与用户建模的智能问答方法,其特征在于,所述步骤C2具体包括以下步骤:
步骤C21:对问答对(q,at),根据问题q的问题描述qS和问题主体qB,获取问题q的初始表征向量;
智能问答系统中的每个问题q由问题描述qS和问题主体qB组成,qS是经过分词处理并去除停用词后的问题的标题部分,表示为 表示qS中的第i个词语;L(qS)为qS中的词数;qB是经过分词处理并去除停用词后的问题的详细描述部分,表示为 表示qB中的第i个词;L(qB)为qB中的词数;q由qS和qB连接构成,表示为
其中,为q中第i个词所对应的词向量,i=1,2,...,L(q),L(q)=L(qS)+L(qB)为q中的词数;通过在预训练的词向量矩阵查找得到,d1表示词向量的维度,|D|是词典D中的词语数;为q中第i个词的位置编码,通过fi (q)将问题q中的每个单词进行加权得到问题q的初始表征向量 为向量fi (q)与的哈达玛积;
步骤C22:对问答对(q,at),获取答案at的初始表征向量;
4.根据权利要求3所述的一种融合知识库与用户建模的智能问答方法,其特征在于,所述步骤C3具体包括以下步骤:
步骤C31:将问题q的知识表征向量表示为:
其中,为问题q中检测到的第i个知识实体所对应的知识实体表征向量,d2表示知识实体表征向量的维度,l1为问题q中检测到的知识实体数;为第i个知识实体的位置编码,通过fi (q,kb)将问题q中检测到的每个知识实体进行加权得到问题q的知识表征向量
步骤C32:将答案at的知识表征向量表示为:
其中,为答案at中检测到的第i个知识实体所对应的知识实体表征向量,l2为答案at中检测到的知识实体数;为第i个知识实体的位置编码,通过将答案at中检测到的每个知识实体进行加权得到答案at的知识表征向量
6.根据权利要求5所述的一种融合知识库与用户建模的智能问答方法,其特征在于,所述步骤C5具体包括以下步骤:
步骤C51:遍历用户的历史回答训练集UA,对每个用户的回答集合进行分词并去除停用词;
步骤C52:获取每个用户的所有回答经分词并去除停用词后的词语集合uc′,查找每个词对应的词向量,融合得到每个用户的历史回答表征向量Uc;
7.根据权利要求6所述的一种融合知识库与用户建模的智能问答方法,其特征在于,所述步骤C6具体包括以下步骤:
步骤C61:对每个问答对(q,at),得到提供答案at的用户根据步骤C5获得的每个用户的历史回答表征向量,得到用户的历史回答表征向量与步骤C4获得的问题q和答案at的带知识嵌入的表征向量共同构成一个三元组
其中,公式(1)中是blocki的门函数,ki为三元组的答案at中检测到的第i个知识实体所对应的知识实体表征向量若不存在对应的则ki置为零矩阵;σ是Sigmoid函数;公式(2)中为候选记忆隐状态,用于计算输入三元组后需要更新的内容;φ是激活函数,矩阵为训练参数;公式(3)中通过记忆单元的门函数和候选记忆隐状态对记忆进行更新,公式(4)中对进行归一化,最后输出隐状态
步骤C63:根据使用softmax计算在每个记忆单元的输出隐状态hi上的条件分布pi,获得与每个记忆单元之间的相关程度,之后使用条件分布pi作为权值对记忆单元的隐状态hi进行注意力加权,得到问答对的带知识嵌入以及用户嵌入的表征向量y;计算公式如下:
8.根据权利要求7所述的一种融合知识库与用户建模的智能问答方法,其特征在于,所述步骤C7具体包括以下步骤:
步骤C71:将步骤C6得到的问答对的带知识嵌入以及用户嵌入的表征向量y输入到深度学习网络模型的隐藏层和Softmax层进行归一化处理,计算答案属于各类别的概率,计算公式如下:
p(ci)=Softmax(c)
步骤C72:用交叉熵作为损失函数计算损失值,通过梯度优化算法Adam进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中最小化损失函数Loss的计算公式如下:
9.一种采用如权利要求1-8任一项所述方法的智能问答系统,其特征在于,包括:
训练集构建模块,用于采集智能问答系统中的问题和回答记录,以及每个用户对问题的回答记录,构建问答对训练集QA和用户的历史回答训练集UA;
文本预处理模块,用于对训练集输入文本进行预处理,包括对输入文本进行分词处理和去除停用词,得到经过预处理的文本;
知识库搜索模块,用于从知识库中检测出现在问题和答案中的知识实体及其关系;
特征提取模块,用于在预训练的词向量矩阵中查找经过预处理的训练集文本中词的词向量,并且结合位置信息得到文本表征向量和用户的历史回答表征向量;从知识库中获取的知识实体及其关系经过预训练的知识嵌入矩阵并结合位置信息得到知识表征向量,融合问答对的文本表征向量和知识表征向量得到问答对的最终表征向量;
网络训练模块,用于将问答对的最终表征向量和用户的历史回答表征向量输入到深度学习网络模型的动态记忆模块中,得到动态记忆网络中序列的最后隐藏状态表示作为特征向量进而训练深度学习网络,利用该特征向量属于某一类别的概率以及训练集中的标注作为损失,以最小化损失为目标来对整个深度学习网络进行训练,得到深度学习网络模型;以及
问题处理模块,用于利用训练好的深度学习网络模型对输入的问题进行分析处理,输出匹配回答。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010065407.8A CN111414461B (zh) | 2020-01-20 | 2020-01-20 | 一种融合知识库与用户建模的智能问答方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010065407.8A CN111414461B (zh) | 2020-01-20 | 2020-01-20 | 一种融合知识库与用户建模的智能问答方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414461A true CN111414461A (zh) | 2020-07-14 |
CN111414461B CN111414461B (zh) | 2022-06-14 |
Family
ID=71490841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010065407.8A Active CN111414461B (zh) | 2020-01-20 | 2020-01-20 | 一种融合知识库与用户建模的智能问答方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414461B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214654A (zh) * | 2020-10-19 | 2021-01-12 | 厦门渊亭信息科技有限公司 | 一种通用的智能问答自动化运维系统及方法 |
CN112380325A (zh) * | 2020-08-15 | 2021-02-19 | 电子科技大学 | 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统 |
CN112579795A (zh) * | 2020-12-28 | 2021-03-30 | 重庆邮电大学 | 一种基于知识图谱嵌入表示的智能问答方法 |
CN112749262A (zh) * | 2020-07-24 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的问答处理方法、装置、电子设备及存储介质 |
CN112800203A (zh) * | 2021-02-05 | 2021-05-14 | 江苏实达迪美数据处理有限公司 | 一种融合文本和知识表征的问答匹配方法及系统 |
CN113157885A (zh) * | 2021-04-13 | 2021-07-23 | 华南理工大学 | 一种面向人工智能领域知识的高效智能问答系统 |
CN113505207A (zh) * | 2021-07-02 | 2021-10-15 | 中科苏州智能计算技术研究院 | 一种金融舆情研报的机器阅读理解方法及系统 |
CN113946665A (zh) * | 2021-09-13 | 2022-01-18 | 东北大学 | 一种基于文本提供背景信息的知识库问答方法 |
CN115292461A (zh) * | 2022-08-01 | 2022-11-04 | 北京伽睿智能科技集团有限公司 | 基于语音识别的人机交互学习方法及系统 |
CN116303977A (zh) * | 2023-05-17 | 2023-06-23 | 中国兵器工业计算机应用技术研究所 | 一种基于特征分类的问答方法及系统 |
CN117539996A (zh) * | 2023-11-21 | 2024-02-09 | 北京拓医医疗科技服务有限公司 | 一种基于用户画像的咨询问答方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818164A (zh) * | 2017-11-02 | 2018-03-20 | 东北师范大学 | 一种智能问答方法及其系统 |
US20180157960A1 (en) * | 2014-07-25 | 2018-06-07 | Amazon Technologies, Inc. | Scalable curation system |
CN108182262A (zh) * | 2018-01-04 | 2018-06-19 | 华侨大学 | 基于深度学习和知识图谱的智能问答系统构建方法和系统 |
CN110110063A (zh) * | 2019-04-30 | 2019-08-09 | 南京大学 | 一种基于哈希学习的问答系统构建方法 |
CN110222163A (zh) * | 2019-06-10 | 2019-09-10 | 福州大学 | 一种融合cnn与双向lstm的智能问答方法及系统 |
-
2020
- 2020-01-20 CN CN202010065407.8A patent/CN111414461B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180157960A1 (en) * | 2014-07-25 | 2018-06-07 | Amazon Technologies, Inc. | Scalable curation system |
CN107818164A (zh) * | 2017-11-02 | 2018-03-20 | 东北师范大学 | 一种智能问答方法及其系统 |
CN108182262A (zh) * | 2018-01-04 | 2018-06-19 | 华侨大学 | 基于深度学习和知识图谱的智能问答系统构建方法和系统 |
CN110110063A (zh) * | 2019-04-30 | 2019-08-09 | 南京大学 | 一种基于哈希学习的问答系统构建方法 |
CN110222163A (zh) * | 2019-06-10 | 2019-09-10 | 福州大学 | 一种融合cnn与双向lstm的智能问答方法及系统 |
Non-Patent Citations (1)
Title |
---|
王瑛等: "智能问答系统研究", 《电子技术与软件工程》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749262A (zh) * | 2020-07-24 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的问答处理方法、装置、电子设备及存储介质 |
CN112749262B (zh) * | 2020-07-24 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 基于人工智能的问答处理方法、装置、电子设备及存储介质 |
CN112380325B (zh) * | 2020-08-15 | 2022-05-31 | 电子科技大学 | 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统 |
CN112380325A (zh) * | 2020-08-15 | 2021-02-19 | 电子科技大学 | 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统 |
CN112214654A (zh) * | 2020-10-19 | 2021-01-12 | 厦门渊亭信息科技有限公司 | 一种通用的智能问答自动化运维系统及方法 |
CN112579795A (zh) * | 2020-12-28 | 2021-03-30 | 重庆邮电大学 | 一种基于知识图谱嵌入表示的智能问答方法 |
CN112800203A (zh) * | 2021-02-05 | 2021-05-14 | 江苏实达迪美数据处理有限公司 | 一种融合文本和知识表征的问答匹配方法及系统 |
CN113157885B (zh) * | 2021-04-13 | 2023-07-18 | 华南理工大学 | 一种面向人工智能领域知识的高效智能问答系统 |
CN113157885A (zh) * | 2021-04-13 | 2021-07-23 | 华南理工大学 | 一种面向人工智能领域知识的高效智能问答系统 |
CN113505207A (zh) * | 2021-07-02 | 2021-10-15 | 中科苏州智能计算技术研究院 | 一种金融舆情研报的机器阅读理解方法及系统 |
CN113505207B (zh) * | 2021-07-02 | 2024-02-20 | 中科苏州智能计算技术研究院 | 一种金融舆情研报的机器阅读理解方法及系统 |
CN113946665A (zh) * | 2021-09-13 | 2022-01-18 | 东北大学 | 一种基于文本提供背景信息的知识库问答方法 |
CN113946665B (zh) * | 2021-09-13 | 2024-05-10 | 东北大学 | 一种基于文本提供背景信息的知识库问答方法 |
CN115292461A (zh) * | 2022-08-01 | 2022-11-04 | 北京伽睿智能科技集团有限公司 | 基于语音识别的人机交互学习方法及系统 |
CN115292461B (zh) * | 2022-08-01 | 2024-03-12 | 北京伽睿智能科技集团有限公司 | 基于语音识别的人机交互学习方法及系统 |
CN116303977A (zh) * | 2023-05-17 | 2023-06-23 | 中国兵器工业计算机应用技术研究所 | 一种基于特征分类的问答方法及系统 |
CN116303977B (zh) * | 2023-05-17 | 2023-08-04 | 中国兵器工业计算机应用技术研究所 | 一种基于特征分类的问答方法及系统 |
CN117539996A (zh) * | 2023-11-21 | 2024-02-09 | 北京拓医医疗科技服务有限公司 | 一种基于用户画像的咨询问答方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111414461B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
Dong et al. | Automatic age estimation based on deep learning algorithm | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN110222163B (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
Cai et al. | Intelligent question answering in restricted domains using deep learning and question pair matching | |
CN113297936B (zh) | 一种基于局部图卷积网络的排球群体行为识别方法 | |
CN115688024B (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN116756347B (zh) | 一种基于大数据的语义信息检索方法 | |
CN117094291B (zh) | 基于智能写作的自动新闻生成系统 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN115270752A (zh) | 一种基于多层次对比学习的模板句评估方法 | |
CN111930931A (zh) | 一种摘要评价方法及装置 | |
CN112258250A (zh) | 基于网络热点的目标用户识别方法、装置和计算机设备 | |
CN115408603A (zh) | 一种基于多头自注意力机制的在线问答社区专家推荐方法 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
Lauren et al. | A low-dimensional vector representation for words using an extreme learning machine | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
Moholkar et al. | Lioness adapted GWO-based deep belief network enabled with multiple features for a novel question answering system | |
CN116452241B (zh) | 一种基于多模态融合神经网络的用户流失概率计算方法 | |
CN117421420A (zh) | 一种基于软提示学习的中文点击诱饵检测方法 | |
Su et al. | Chinese microblog sentiment analysis by adding emoticons to attention-based CNN | |
CN116167353A (zh) | 一种基于孪生长短期记忆网络的文本语义相似度度量方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |