CN110647619B - 一种基于问题生成和卷积神经网络的常识问答方法 - Google Patents

一种基于问题生成和卷积神经网络的常识问答方法 Download PDF

Info

Publication number
CN110647619B
CN110647619B CN201910708387.9A CN201910708387A CN110647619B CN 110647619 B CN110647619 B CN 110647619B CN 201910708387 A CN201910708387 A CN 201910708387A CN 110647619 B CN110647619 B CN 110647619B
Authority
CN
China
Prior art keywords
sequence
question
content
answer
bert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910708387.9A
Other languages
English (en)
Other versions
CN110647619A (zh
Inventor
周瑞莹
梁艺阐
印鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910708387.9A priority Critical patent/CN110647619B/zh
Publication of CN110647619A publication Critical patent/CN110647619A/zh
Application granted granted Critical
Publication of CN110647619B publication Critical patent/CN110647619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种基于问题生成和卷积神经网络的常识问答方法,该方法通过BERT语言模型将内容‑问题编码成向量序列,传入问题生成模块,再传入共享的BERT语言模型,然后将内容‑问题‑答案组成的三元组通过BERT语言模型,输出的内容‑问题‑答案的编码序列传入答案选择模块,通过卷积神经网络对其做分类,最后,模型得到的评分来选取最优的选项作为模型选出的候选答案。

Description

一种基于问题生成和卷积神经网络的常识问答方法
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种基于问题生成和卷积神经网络的常识问答方法。
背景技术
近年来,随着大数据和计算机技术的发展,问答系统已经是应用在各个行业,而问答系统也成为智能机器人的一个关键组成部分,影响着机器人与人交流交互重要环节。而常识问答,是给予一个行为内容,对于该内容可能发生的情况提出问题,预测给出答案选项中正确的答案,该领域是人工智能与自然语言处理相结合的研究领域。常识问答中涉及的常识推理对于人而言是轻而易举的,但是对于机器而言是一个相当大的挑战,所以我们在优化这个过程,寻找让机器也能回答常识问题。
常识问答中,所提出的问题根据动机不同划分,可以能涵盖以下几种类型:想法型,反应型,描述型,动机型,需求型,影响型等。对于以上的几种常识问答的类型,当我们人在有先验知识的储备时,是很容易做出推理回答的,但是对于机器而言,就不能直接像人一样做出回答,它通过学习,推理才能够得出最后的正确答案。还有一种解决方法是,让机器先学习大量的先验常识知识模版,然后,再通过提问的问题再对知识库中的常识问题进行查询,最终得到最后的答案。但是,外部知识的引入会涵盖的范围不够广,当外部知识到达一定限度的时候,就无法正确回答问题了。而且,庞大的常识知识库的整理需要耗费高昂的人力物力。所以,我们引入了一个不依赖外部知识的常识问答方法。让模型学习常识问答中,问题是如何根据内容提出的,正确答案应该如何选出来。分析内容与问题的语义信息,挖掘隐藏在句子上下文中的信息,从而推理出候选答案中的正确答案。
对于现有的技术,只是使用简单的完全链接的网络来表示内容信息,从而直接得出候选答案的预测。所以造成效果不好的原因有以下几点:1)没有考虑到内容信息与问题信息之间的语义关联关系,没有充分利用丰富的语法和语义信息;2)在语言模型表示的向量时只考虑词头信息,未再考虑完整序列中每个词涵盖的可能被遗漏的信息。所以,我们通过加入问题生成模块,使用内容来生成问题,从而知道,常识问题一般会如何提问,找到其中内容信息与问题信息的语义关联关系。以及,我们在候选答案选择部分加入了卷积神经网络,对完整的序列做一个分类效果,让最后的常识问答准确率得到了提升。综上,我们提出了基于问题生成和卷积神经网络的常识问答方法。
发明内容
本发明提供一种基于问题生成和卷积神经网络的常识问答方法,该方法可实现选出最优的候选答案。
为了达到上述技术效果,本发明的技术方案如下:
一种基于问题生成和卷积神经网络的常识问答方法,包括以下步骤:
S1:构建内容-问题的输入序列,传入BERT语言模型,编码好的向量序列再传入问题生成模块,问题生成模块学习到了内容与问题中的重要信息,再将序列传入BERT语言模型,其中,BERT语言模型是一种预训练的深度双向Transformer语言模型;所述步骤S1的具体过程是:
S11:预处理数据集文本,拼接成由内容和问题组成的新组合序列s={c1,c2,…cn,q1,q2,…,qm},其中,c代表内容的上下文序列,ci代表的是内容的上下文序列的第i个词,q代表问题序列,qj代表的是问题序列的第j个词,再将新组合中的每一个单词用一个低维度的,紧密的实数向量进行表示,向量从BERT语言模型的词库中进行匹配,该词库涵盖了30522个词,对于socialIQA数据集只有3%的未登录词;
S12:再将该序列向量表示成[cls]<内容>[sep]<问题>[sep]传入BERT预训练语言模型中,其中,[cls]表示句首标志,[sep]表示分割符,并且BERT模型中本身已经包含了对每个单词的语义建模,所以,BERT模型输出的每个词都是带有语义信息的,从而,学习到了内容与问题的相关联的语义信息,输出表示为hqg=BERT{s},其中,BERT代表语言表示模型,s是S11过程中提及的由内容和问题组成的新序列;
S13:再将该输出序列放入问题生成模块,首先将传入第一层掩码多头自注意力网络层,该网络表示成s′<t=Multihead(q′<t,q′<t,q′<t),其中q′<t是原问题序列,s′是经过掩码多头自注意力网络后的表示序列,Multihead是掩码多头自注意力网络,再传入多头注意力网络ot=Multihead(s′<t,hqg,hqg),其中ot表示的是新生成的问题序列;
S14:将新生成的问题序列,传入一个前馈神经网络
o′t=W2(ReLU(otW1+b)),其中,ReLU(x)=max(x,0),W1是权重向量,W2是权重向量,ReLU是激活函数,b是偏移常量,再将o′t经过一个softmax函数来计算预测的生成问题的概率序列q′t=softmax(o′tW),其中W是权重向量;S2:构建内容-问题-答案的输入序列,传入共享的BERT语言模型,编码成向量形式表示句子;所述步骤S2的具体过程是:
S21:对于每个常识问答样例,拆分成以下的形式表示,{内容,问题,答案A},{内容,问题,答案B},{内容,问题,答案C},然后转化成BERT语言模型传入的向量形式表示为[cls]<内容>[sep]<问题>[sep]<答案>[sep];
S22:将候选样例传入BERT语言模型,输入为e={c1,c2,…cn,q1,q2,…,qm,a1,a2,…,ak},其中,c代表内容的上下文序列,ci代表的是内容的上下文序列的第i个词,q代表问题序列,qj代表的是问题序列的第j个词,a代表候选答案的词序列,al代表候选答案序列的第1个词,随后,经过BERT语言模型,输出表示为h*=BERT{e};
S3:经过BERT语言模型后的内容-问题-答案编码序列,传入文本卷积神经网络中训练,得到对于每个候选项的评分,通过对评分的排序,选取最高的得分选项成为预测答案;
S4:完成训练阶段,再将测试集的样例,表示成内容-问题-答案编码序列,放入模型中进行预测答案。
进一步地,所述步骤S3的具体过程如下:
S31:将BERT输出的h*转化成矩阵的形式,假设序列中含有s个词,词向量一共有d维,那么对于该序列,便可以得到s行d列的矩阵A∈Rs×d,将A看成是一幅图,使用卷积神经网络去提取特征,在一个句子中,句子间相邻的单词关联性总是很高的,所以只需要使用一维卷积,其中卷积核的宽度就是词向量的维度d,高度是超参数,自由设置;
S32:卷积核的设置也与矩阵大小相关,设有一个卷积核,是一个宽度为d,高度为h的的矩阵W,那么W有h×d个参数需要被更新,对于一个序列,经过嵌入层之后,可以得到矩阵A∈Rs×d,那么卷积操作可以用如下公式表示:oi=W·A[i:i+h-1],i=1,2,…,s-h+1,其中,A[i:j]用来表示A的第i行到第j行。在加上偏置b,再对oi+b使用激活函数f激活,最终得到所需要的特征,整理完成后,如公式所示:ci=f(oi+b),对于一个卷积核,可以得到特征c∈Rs-h+1,总共s-h+1个特征;
S33:再将每一个特征矩阵使用池化函数,使得他们的维度都相同,使用最常用的1-maxpooling,就是每一个卷积核得到的特征就是一个值,再将每个卷积核级联起来,得到最终的特征向量,再输入到softmax层中做分类,并使用上drop out防止过拟合;
S34:最终会得到一个分类结果的评分值,根据评分值,将最高评分的作为候选答案,再带上有标签数据,放入整个模型中训练。
进一步地,所述步骤S4的具体过程如下:
将测试集表示成[cls]<内容>[sep]<问题>[sep]<答案>[sep]的形式,放入完整模型中,将最后的预测答案结果与标签数据匹配,预测结果与标签匹配的,那说明预测答案准确,模型效果可行。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过BERT语言模型将内容-问题编码成向量序列,传入问题生成模块,再传入BERT语言模型,然后将内容-问题-答案组成的三元组通过BERT语言模型,输出的内容-问题-答案的编码序列传入答案选择模块,通过卷积神经网络对其做分类,最后,模型得到的评分来选取最优的选项作为模型选出的候选答案。
附图说明
图1为本发明流程示意图;
图2为主要模型结构的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1-2所示,一种基于问题生成和卷积神经网络的常识问答方法,包括以下步骤:
S1:构建内容-问题的输入序列,传入BERT语言模型,编码好的向量序列再传入问题生成模块,问题生成模块学习到了内容与问题中的重要信息,再将序列传入BERT语言模型中;
S2:构建内容-问题-答案的输入序列,传入BERT语言模型,编码成向量形式表示句子;
S3:经过BERT语言模型后的内容-问题-答案编码序列,传入文本卷积神经网络中训练,得到对于每个候选项的评分,通过对评分的排序,选取最高的得分选项成为预测答案;
S4:完成训练阶段,再将测试集的样例,表示成内容-问题-答案编码序列,放入模型中进行预测答案。
步骤S1的具体过程是:
S11:预处理数据集文本,拼接成由内容和问题组成的新组合s={c1,c2,…cn,q1,q2,…,qm},再将新组合中的每一个单词用一个低维度的,紧密的实数向量进行表示,向量从BERT语言模型的词库中进行匹配,该词库涵盖了30522个词,对于socialIQA数据集只有3%的未登录词;
S12:再将该序列向量表示成[cls]<内容>[sep]<问题>[sep]传入BERT预训练语言模型中,其中,[cls]表示句首标志,[sep]表示分割符,并且BERT模型中本身已经包含了对每个单词的语义建模,BERT模型输出的每个词都是带有语义信息的,学习到了内容与问题的相关联的语义信息,输出表示为hqg=BERT{s};
S13:再将该输出序列放入问题生成模块,首先将传入第一层掩码多头自注意力网络层,该网络表示成s′<t=Multihead(q′<t,q′<t,q′<t),其中q′<t是原问题序列,s′是经过掩码多头自注意力网络后的表示序列,再传入多头注意力网络ot=Multihead(s′<t,hqg,hqg),其中ot表示的是新生成的问题序列;
S14:最后,将新生成的问题序列,传入一个前馈神经网络
o′t=W2(ReLU(otW1+b)),其中,ReLU(x)=max(x,0),
再将o′t经过一个softmax函数来计算预测的生成问题的概率序列q′t=softmax(o′tW)。
步骤S2的具体过程是:
S21:对于每个常识问答样例,拆分成以下的形式表示,{内容,问题,答案A},{内容,问题,答案B},{内容,问题,答案C},然后转化成BERT语言模型传入的向量形式表示为[cls]<内容>[sep]<问题>[sep]<答案>[sep];
S22:将候选样例传入BERT语言模型,输入为:
e={c1,c2,…cn,q1,q2,…,qm,a1,a2,…,ak},随后,经过BERT语言模型,输出表示为h*=BERT{e}。
步骤S3的具体过程如下:
S31:将BERT输出的h*转化成矩阵的形式,假设序列中含有s个词,词向量一共有d维,那么对于该序列,便可以得到s行d列的矩阵A∈Rs×d,将A看成是一幅图,使用卷积神经网络去提取特征,在一个句子中,句子间相邻的单词关联性总是很高的,所以只需要使用一维卷积,其中卷积核的宽度就是词向量的维度d,高度是超参数,自由设置;
S32:卷积核的设置也与矩阵大小相关,设有一个卷积核,是一个宽度为d,高度为h的的矩阵W,那么W有h×d个参数需要被更新,对于一个序列,经过嵌入层之后,可以得到矩阵A∈Rs×d,那么卷积操作可以用如下公式表示:oi=W·A[i:i+h-1],i=1,2,…,s-h+1。其中,A[i:j]用来表示A的第i行到第j行。在加上偏置b,再对oi+b使用激活函数f激活,最终得到所需要的特征,整理完成后,如公式所示:ci=f(oi+b),对于一个卷积核,可以得到特征c∈Rs-h+1,总共s-h+1个特征;
S33:再将每一个特征矩阵使用池化函数,使得他们的维度都相同,使用最常用的1-maxpooling,就是每一个卷积核得到的特征就是一个值,再将每个卷积核级联起来,得到最终的特征向量,再输入到softmax层中做分类,并使用上drop out防止过拟合;
S34:最终会得到一个分类结果的评分值,根据评分值,将最高评分的作为候选答案,再带上有标签数据,放入整个模型中训练。
步骤S4的具体过程如下:
将测试集表示成[cls]<内容>[sep]<问题>[sep]<答案>[sep]的形式,放入完整模型中,将最后的预测答案结果与标签数据匹配,预测结果与标签匹配的,那说明预测答案准确,模型效果可行。
本发明是针对常识型推理问答,我们使用的数据集是SocialIQA公布于2019年3月份的英文常识问答数据集,是当前常识问答中数量级最大更完善的数据集。SocialIQA数据集中的每个样例,包含了内容,问题,选项,如表1所示。
表1数据集中样例
Figure GDA0004054922280000071
SocialIQA数据集拥有44,811个样例分别划分成为训练集,验证集,测试集,其大小也分别为34k,5.4k和5.6k。我们的主要效果在SocialIQA上有提升。当然我们也参考了COPA和WSC这两个数量级较小的数据集,对比其他方法同样有较好的提升。
以表1中的样例作为例子,我们在问题生成模块的输入为s={<cls>Tracysearched for a job in the newspaper and on the internet.<sep>},将该序列在词表中查找对应的词,转化成向量矩阵后,传入BERT语言模型后,输出为可能的生成问题,再引入正确的问题s*={<cls>Why did Tracy do this?<sep>},传入模型,对生成过程进行调整。学习其中内容与问题之间隐藏的语义和语法信息,进而更好地回答常识类问答。其中BERT-base模型是包括了12层的编码层,以及768层的隐藏层,该方法只使用到了BERT-base模型。
紧接着,再将我们的每个候选答案组织成一以下形式eA={<cls>Tracy searchedfor a job in the newspaper and on the internet.<sep>Why did Tracy do this?<sep>have a resume<sep>},eB={<cls>Tracy searched for a job in the newspaperand on the internet.<sep>Why did Tracy do this?<sep>get promoted at her job<sep>}和eC={<cls>Tracy searched for a job in the newspaper and on theinternet.<sep>Why did Tracy do this?<sep>get a better job<sep>}再传入到共享的BERT语言模型当中继续训练,对这一组序列,传递到答案选择模块
再答案选择模块中,根据文本CNN分类器,对每个选项得到的分数进行一个候选排序,最高分的将成为我们模型预测的答案。再根据已有的标签数据,再放入网络中训练。
对于预测最后的问题序列e={c1,c2,…cn,q1,q2,…,qm,a1,a2,…,ak},直接将其传入BERT模型,再经过答案选择模块,最终得到预测结果。
为了表现本实验的良好效果,实验使用BERT-base模型作为最基础的比较验证,使用准确率(accuracy)来作为评价指标,准确率的定义为模型正确预测的样本数目占整个测试数据集样本总数的百分比。实验的结果如下:
Figure GDA0004054922280000081
从结果上看,可以看出我们的方法相比于以前的方法,都有显著的提升,说明问题生成模型和答案选择模块都有助于常识问答,在不依赖外部知识的情况下,都能很好的回答问题,能学习到涵盖在内容问题中隐藏的语义和语法信息,并且更加完整地考虑到每个词涵盖的信息以防遗漏了重要信息。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (3)

1.一种基于问题生成和卷积神经网络的常识问答方法,其特征在于,包括以下步骤:
S1:构建内容-问题的输入序列,传入BERT语言模型,编码好的向量序列再传入问题生成模块,问题生成模块学习到了内容与问题中的重要信息,再将序列传入共享的BERT语言模型,其中,BERT语言模型是一种预训练的深度双向Transformer语言模型;所述步骤S1的具体过程是:
S11:预处理数据集文本,拼接成由内容和问题组成的新组合序列s={c1,c2,…cn,q1,q2,…,qm},其中,c代表内容的上下文序列,ci代表的是内容的上下文序列的第i个词,q代表问题序列,qj代表的是问题序列的第j个词,再将新组合中的每一个单词用一个低维度的,紧密的实数向量进行表示,向量从BERT语言模型的词库中进行匹配,该词库涵盖了30522个词,对于socialIQA数据集只有3%的未登录词;
S12:再将该序列向量表示成[cls]<内容>[sep]<问题>[sep]传入BERT预训练语言模型中,其中,[cls]表示句首标志,[sep]表示分割符,并且BERT模型中本身已经包含了对每个单词的语义建模,所以,BERT模型输出的每个词都是带有语义信息的,从而,学习到了内容与问题的相关联的语义信息,输出表示为hqg=BERT{s},其中,BERT代表语言表示模型,s是S11过程中提及的由内容和问题组成的新序列;
S13:再将该输出序列放入问题生成模块,首先将传入第一层掩码多头自注意力网络层,该网络表示成s <t=Multihead(q <t,q <t,q <t),其中q <t是原问题序列,s′是经过掩码多头自注意力网络后的表示序列,Multihead是掩码多头自注意力网络,再传入多头注意力网络ot=Multihead(s <t,hqg,hqg),其中ot表示的是新生成的问题序列;
S14:将新生成的问题序列,传入一个前馈神经网络
o t=W2(ReLU(otW1+b)),其中,ReLU(x)=max(x,0),W1是权重向量,W2是权重向量,ReLU是激活函数,b是偏移常量,再将o t经过一个softmax函数来计算预测的生成问题的概率序列q t=softmax(o tW),其中W是权重向量;
S2:构建内容-问题-答案的输入序列,传入BERT语言模型,编码成向量形式表示句子;所述步骤S2的具体过程是:
S21:对于每个常识问答样例,拆分成以下的形式表示,{内容,问题,答案A},{内容,问题,答案B},{内容,问题,答案C},然后转化成BERT语言模型传入的向量形式表示为[cls]<内容>[sep]<问题>[sep]<答案>[sep];
S22:将候选样例传入BERT语言模型,输入为e={c1,c2,…cn,q1,q2,…,qm,a1,a2,…,ak},其中,c代表内容的上下文序列,ci代表的是内容的上下文序列的第i个词,q代表问题序列,qj代表的是问题序列的第j个词,a代表候选答案的词序列,al代表候选答案序列的第l个词,随后,经过BERT语言模型,输出表示为h*=BERT{e};
S3:经过BERT语言模型后的内容-问题-答案编码序列,传入文本卷积神经网络中训练,得到对于每个候选项的评分,通过对评分的排序,选取最高的得分选项成为预测答案;
S4:完成训练阶段,再将测试集的样例,表示成内容-问题-答案编码序列,放入模型中进行预测答案。
2.根据权利要求1所述的所述的基于问题生成和卷积神经网络的常识问答方法,其特征在于,所述步骤S3的具体过程如下:
S31:将BERT输出的h*转化成矩阵的形式,假设序列中含有s个词,词向量一共有d维,那么对于该序列,便可以得到s行d列的矩阵A∈Rs×d,将A看成是一幅图,使用卷积神经网络去提取特征,在一个句子中,句子间相邻的单词关联性总是很高的,所以只需要使用一维卷积,其中卷积核的宽度就是词向量的维度d,高度是超参数,自由设置;
S32:卷积核的设置也与矩阵大小相关,设有一个卷积核,是一个宽度为d,高度为h的的矩阵W,那么W有h×d个参数需要被更新,对于一个序列,经过嵌入层之后,可以得到矩阵A∈Rs×d,那么卷积操作可以用如下公式表示:oi=W·A[i:i+h-1],i=1,2,…,s-h+1,其中,A[i:j]用来表示A的第i行到第j行,在加上偏置b,再对oi+b使用激活函数f激活,最终得到所需要的特征,整理完成后,如公式所示:ci=f(oi+b),对于一个卷积核,可以得到特征c∈Rs -h+1,总共s-h+1个特征;
S33:再将每一个特征矩阵使用池化函数,使得他们的维度都相同,使用最常用的1-maxpooling,就是每一个卷积核得到的特征就是一个值,再将每个卷积核级联起来,得到最终的特征向量,再输入到softmax层中做分类,并使用上drop out防止过拟合;
S34:最终会得到一个分类结果的评分值,根据评分值,将最高评分的作为候选答案,再带上有标签数据,放入整个模型中训练。
3.根据权利要求2所述的所述的基于问题生成和卷积神经网络的常识问答方法,其特征在于,所述步骤S4的具体过程如下:
将测试集表示成[cls]<内容>[sep]<问题>[sep]<答案>[sep]的形式,放入完整模型中,将最后的预测答案结果与标签数据匹配,预测结果与标签匹配的,那说明预测答案准确,模型效果可行。
CN201910708387.9A 2019-08-01 2019-08-01 一种基于问题生成和卷积神经网络的常识问答方法 Active CN110647619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910708387.9A CN110647619B (zh) 2019-08-01 2019-08-01 一种基于问题生成和卷积神经网络的常识问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910708387.9A CN110647619B (zh) 2019-08-01 2019-08-01 一种基于问题生成和卷积神经网络的常识问答方法

Publications (2)

Publication Number Publication Date
CN110647619A CN110647619A (zh) 2020-01-03
CN110647619B true CN110647619B (zh) 2023-05-05

Family

ID=68989981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910708387.9A Active CN110647619B (zh) 2019-08-01 2019-08-01 一种基于问题生成和卷积神经网络的常识问答方法

Country Status (1)

Country Link
CN (1) CN110647619B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460089B (zh) * 2020-02-18 2023-08-25 北京邮电大学 一种多段落阅读理解候选答案排序方法和装置
CN111552786B (zh) * 2020-04-16 2021-07-09 重庆大学 一种基于关键词提取的问答工作方法
CN111540470B (zh) * 2020-04-20 2023-08-25 北京世相科技文化有限公司 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法
CN111681765B (zh) * 2020-04-29 2023-08-11 华南师范大学 一种医学问答系统的多模型融合方法
CN111639170A (zh) * 2020-05-29 2020-09-08 深圳壹账通智能科技有限公司 答案选择方法、装置、计算机设备及计算机可读存储介质
CN111814468B (zh) * 2020-07-09 2021-02-26 前海企保科技(深圳)有限公司 一种自适应架构语义分布文本理解方法及系统
CN111881279A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 基于Transformer模型的问答方法、问答装置及存储装置
CN112035629B (zh) * 2020-08-17 2023-02-17 北京理工大学 基于符号化知识与神经网络的问答模型的实现方法
CN112052683A (zh) * 2020-09-03 2020-12-08 平安科技(深圳)有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN112256858B (zh) * 2020-10-09 2022-02-18 华中师范大学 融合问题模式和答题结果的双卷积知识追踪方法及系统
CN112559702B (zh) * 2020-11-10 2022-09-30 西安理工大学 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN112328767B (zh) * 2020-11-11 2022-10-14 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法
CN112100340A (zh) * 2020-11-18 2020-12-18 智者四海(北京)技术有限公司 问题内容匹配方法及装置
CN113392321A (zh) * 2021-06-02 2021-09-14 北京三快在线科技有限公司 一种信息推荐方法、装置、电子设备及存储介质
CN113254616B (zh) * 2021-06-07 2021-10-19 佰聆数据股份有限公司 面向智能问答系统的句向量生成方法及系统
CN113362858B (zh) * 2021-07-27 2023-10-31 中国平安人寿保险股份有限公司 语音情感分类方法、装置、设备及介质
CN115081428B (zh) * 2022-07-22 2022-11-29 粤港澳大湾区数字经济研究院(福田) 一种处理自然语言的方法、自然语言处理模型、设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES291454A1 (es) * 1963-08-29 1963-11-16 Martinez Romero Justo Mejoras en la construcciën de mecanismos de cierre simultaneo por dos puntos alineados
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN109947928A (zh) * 2019-04-16 2019-06-28 上海海事大学 一种检索式人工智能问答机器人开发方法
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES291454A1 (es) * 1963-08-29 1963-11-16 Martinez Romero Justo Mejoras en la construcciën de mecanismos de cierre simultaneo por dos puntos alineados
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置
CN109947928A (zh) * 2019-04-16 2019-06-28 上海海事大学 一种检索式人工智能问答机器人开发方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SemEval-2018 Task 11: Machine Comprehension Using Commonsense;Simon Ostermann et al.;《Proceedings of the 12th International Workshop on Semantic Evaluation》;20181231;第747–757页 *

Also Published As

Publication number Publication date
CN110647619A (zh) 2020-01-03

Similar Documents

Publication Publication Date Title
CN110647619B (zh) 一种基于问题生成和卷积神经网络的常识问答方法
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN111708873A (zh) 智能问答方法、装置、计算机设备和存储介质
CN110532557B (zh) 一种无监督的文本相似度计算方法
CN112988975A (zh) 一种基于albert和知识蒸馏的观点挖掘方法
US11954435B2 (en) Text generation apparatus, text generation learning apparatus, text generation method, text generation learning method and program
CN111563166A (zh) 一种针对数学问题分类的预训练模型方法
CN110232113B (zh) 一种提高知识库问答准确度的方法及系统
CN109933808A (zh) 一种基于动态配置解码的神经机器翻译方法
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN114429132A (zh) 一种基于混合格自注意力网络的命名实体识别方法和装置
CN114357151A (zh) 文本类目识别模型的处理方法、装置、设备及存储介质
CN115223021A (zh) 一种基于视觉问答的果树全生长期农事作业决策方法
CN113516094A (zh) 一种用于为文档匹配评议专家的系统以及方法
CN112579739A (zh) 基于ELMo嵌入与门控自注意力机制的阅读理解方法
CN112950414A (zh) 一种基于解耦法律要素的法律文本表示方法
CN117034912A (zh) 一种基于bert的多轮迭代法律文本纠错方法
CN117033602A (zh) 一种多模态的用户心智感知问答模型的构建方法
CN114579706B (zh) 一种基于bert神经网络和多任务学习的主观题自动评阅方法
CN113590745B (zh) 一种可解释的文本推断方法
Lokman et al. A conceptual IR chatbot framework with automated keywords-based vector representation generation
KR20220074695A (ko) 정형 및 비정형 및 반정형 정보를 사용한 표에 특화된 기계독해 시스템 및 방법
Lin et al. Introduction to the Special Issue of Recent Advances in Computational Linguistics for Asian Languages
Dehaqi et al. Adversarial image caption generator network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant