CN112328767A - 基于bert模型和比较聚合框架的问答匹配方法 - Google Patents

基于bert模型和比较聚合框架的问答匹配方法 Download PDF

Info

Publication number
CN112328767A
CN112328767A CN202011255769.XA CN202011255769A CN112328767A CN 112328767 A CN112328767 A CN 112328767A CN 202011255769 A CN202011255769 A CN 202011255769A CN 112328767 A CN112328767 A CN 112328767A
Authority
CN
China
Prior art keywords
question
answer
representing
word
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011255769.XA
Other languages
English (en)
Other versions
CN112328767B (zh
Inventor
张璞
朱洪倩
明欢欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011255769.XA priority Critical patent/CN112328767B/zh
Publication of CN112328767A publication Critical patent/CN112328767A/zh
Application granted granted Critical
Publication of CN112328767B publication Critical patent/CN112328767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术与自动问答系统领域,具体涉及一种基于BERT模型和比较聚合框架的问答匹配方法,该方法包括:实时获取数据,对数据进行预处理;将预处理后的数据输入到训练好的比较聚合问答匹配模型中,得到问题与答案的匹配得分,根据得分输出最佳答案;所述比较聚合问答匹配模型包括BERT模型、Transformer编码器以及比较聚合框架;本发明利用BERT模型获得上下文相关的词嵌入,解决了以往方法中问题句与答案句交互不充分的问题。再单独使用Transformer模型的编码器进一步对用于比较的词向量进行注意力权重分配,使得比较层能够充分探究问题序列和答案序列间复杂的语义匹配关系。

Description

基于BERT模型和比较聚合框架的问答匹配方法
技术领域
本发明属于自然语言处理技术与自动问答系统领域,具体涉及一种基于BERT模型和比较聚合框架的问答匹配方法。
背景技术
自动问答系统是自然语言处理领域中一个非常重要的研究热点,具有重大的应用价值。早期的问答匹配采用特征工程算法,即通过计算两个句子的相似性,根据相似性的大小输出相应的答案,如Wang等人将句子划分成单词以训练句子中每个词的词向量,然后通过计算每个单词之间的相似性来评估每个问答对的相似性。特征工程方法需要大量的人工定义和抽取特征,并且语料的泛化性差,在一个数据集上使用的特征很可能在另一个数据集上表现不好。
随着深度学习模型在图像识别领域取得优异效果,逐渐将深度学习模型应用到自然语言处理领域。微软研究团队在2013提出的DSSM模型是最早的深度文本匹配模型,通过全连接网络将查询语句和文档并行向量化,然后采用余弦相似度计算得到问题和候选网页文档匹配分值。但DSSM忽略了文本之间的时序关系和空间关系。2014提出的CDSSM将全连接神经网络换为卷积层和池化层,增加词哈希层以得到文本间的语序关系,提升了文本匹配的效果。中科院2016年提出的MV-LSTM模型通过双向长短时记忆网络(BiLSTM)来产生句子多个视角表达的集合,再计算两个句子不同视角下的相似度,得到相似度匹配矩阵。使用单个向量来编码整个序列会忽略序列间某些重要信息,因此,将问题与答案文本先进行交互,综合交互后的特征后再来计算问题与答案的匹配度的方式被提出。如DeepMatch通过使用主题模型查看两个文本的交互情况,然后使用深度学习架构进行不同级别的抽象,以对主题之间的关系进行建模。aNMM直接在问题-答案对之间的相互作用上构建神经网络,然后采用值共享加权方式完成问题相关词的重要性学习。
但是,以上现有技术中是将两个句子分别进行编码表示,且句子中的词嵌入表示没有考虑到上下文,两个句子之间一些重要的信息被忽略,从而无法探究到两个句子间复杂的语义关系。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于BERT模型和比较聚合框架的问答匹配方法,该方法包括:实时获取数据,对数据进行预处理;将预处理后的数据输入到训练好的比较聚合问答匹配模型中,得到问题与答案的匹配得分,根据得分输出最佳答案;所述比较聚合问答匹配模型包括BERT模型、Transformer编码器以及比较聚合框架;
训练比较聚合问答匹配模型的过程包括:
S1:获取原始问答数据集,将原始问答数据集进行划分,得到训练集和测试集;对训练集中的数据进行预处理;
S2:将预处理后的数据输入到BERT模型中,生成问题句和答案句中每个词的词嵌入表示数据;
S3:将问题句和答案句的词嵌入表示数据输入到Transformer编码器中,得到用于比较的词嵌入数据;
S4:对问题和答案中的每个单词的词嵌入数据进行比较,得到问题词嵌入数据和答案词嵌入数据的匹配特征;
S5:对匹配特征进行聚合,得到聚合后的特征;
S6:采用Relu非线性激活函数计算聚合后特征的匹配得分;设置迭代次数的初始值;
S7:采用交叉熵损失函数来训练模型;
S8:采用Adam算法来优化模型,即在训练过程中调整BERT模型、Transformer编码器和比较聚合框架中的参数;
S9:判断迭代次数是否达到最大迭代次数,如果达到,则完成比较聚合问答匹配模型的训练,否则返回步骤S7,迭代次数加1。
优选的,对数据进行预处理的过程包括:去除原数据集中的停用词,将每个句子的长度设置为50,长度不足50的句子进行填充处理,长度超过50的则从句末截掉;将数据集中的问题句和答案句进行组合;组合后语句的格式为:
Input(Q,A)=[CLS],q1,…,qn,[SEP],a1,…,an,[SEP]
优选的,BERT模型为:
Ei=BERT(xi)
优选的,Transformer编码器包括多头注意力机制层和前馈神经网络层;Transformer编码器处理数据的过程为:
步骤1:采用多头注意力机制处理问题句和答案句词语的嵌入表示数据,得到每个词的注意力权重表示;
步骤2:采用前馈神经网络层对带有注意力权重的词嵌入数据进行处理,得到词嵌入数据。
进一步的,采用多头注意力机制层处理问题句和答案句的嵌入表示数据的过程包括:
步骤11:确定多头注意力机制层的参数矩阵
Figure BDA0002773056910000031
步骤12:将参数矩阵
Figure BDA0002773056910000032
分别与序列中第i个单词通过BERT生成的嵌入表示Ei相乘,得到查询向量Qh、键向量Kh以及值向量Vh
步骤13:根据查询向量Qh、键向量Kh、值向量Vh以及自注意力计算公式求出headh
步骤14:根据headh和参数矩阵WO求出多头注意力权重矩阵。
进一步的,自注意力计算公式为:
Figure BDA0002773056910000033
多头注意力计算方法为:
MultiHead(Zi)=Concat(head1,...,headn)WO
优选的,问题和答案之间的匹配特征为:
Figure BDA0002773056910000041
Figure BDA0002773056910000042
优选的,计算聚合特征向量的公式为:
Figure BDA0002773056910000043
Figure BDA0002773056910000044
优选的,计算匹配得分的公式为:
Figure BDA0002773056910000045
优选的,损失函数为:
Figure BDA0002773056910000046
优选的,Adam算法的公式为:
Figure BDA0002773056910000047
本发明利用BERT模型获得上下文相关的词嵌入,解决了以往方法中问题句与答案句交互不充分的问题;本发明通过Transformer模型的编码器进一步对用于比较的词向量进行注意力权重分配,使得比较层能够充分探究问题序列和答案序列间复杂的语义匹配关系;本发明将BERT模型和Transformer模型编码器与比较聚合框架进行结合,充分利用了两序列的交互信息,使得问答匹配的准确性提升。
附图说明
图1为本发明的整体流程图;
图2为本发明的训练过程流程图;
图3为本发明的模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于BERT模型和比较聚合框架的问答匹配方法,如图1所述,该方法包括:实时获取数据,对数据进行预处理;将预处理后的数据输入到训练好的比较聚合问答匹配模型中,得到问题与答案的匹配得分,根据得分输出最佳答案;所述比较聚合问答匹配模型包括BERT模型、Transformer编码器以及比较聚合框架。
如图2所述,训练比较聚合问答匹配模型的过程包括:
S1:获取原始问答数据集,将原始问答数据集进行划分,得到训练集和测试集;对训练集中的数据进行预处理;
S2:将预处理后的数据输入到BERT模型中,生成问题句和答案句中每个词的词嵌入表示数据;
S3:将问题句和答案句的词嵌入表示数据输入到Transformer编码器中,得到用于比较的词嵌入数据;
S4:对问题和答案中的每个单词的词嵌入数据进行比较,得到问题词嵌入数据和答案词嵌入数据的匹配特征;
S5:对匹配特征进行聚合,得到聚合后的特征;
S6:采用Relu非线性激活函数计算聚合后特征的匹配得分;设置迭代次数的初始值;
S7:采用交叉熵损失函数来训练模型;
S8:采用Adam算法来优化模型,即在训练过程中调整BERT模型、Transformer编码器和比较聚合框架中的参数;
S9:判断迭代次数是否达到最大迭代次数,如果达到,则完成比较聚合问答匹配模型的训练,否则返回步骤S7,迭代次数加1。
采用维基百科公开问答数据集作为原始问答数据集,数据集划分为了三部分,其中训练集包含29258条问答对,测试集有6117条问答对,验证集包含2734条问答对。
对数据进行预处理的过程包括:去除原数据集中的停用词,将每个句子的长度设置为50,长度不足50的句子进行填充padding处理,长度超过50的则从句末截掉;将问题句与其答案句组合为一整段序列输入BERT模型中。其中,问题句为:Q={q1,...,qn},答案句为:A={a1,...,an};输入到BERT模型中的序列为:
Input(Q,A)=[CLS],q1,…,qn,[SEP],a1,…,an,[SEP]
其中,Q表示问题句,A表示答案句,qn表示问题句的单词,an表示答案句中的单词,[CLS]表示分类标志,第一个[SEP]表示分隔标志,末尾[SEP]表示结尾标志。
采用BERT模型对数据进行处理,得到上下文相关的词嵌入以及问题句和答案句之间的信息。BERT模型为:
Ei=BERT(xi)
其中,xi表示输入序列中第i个单词的输入,Ei表示序列中第i个单词通过BERT生成的嵌入表示。
在获取问题句和答案句中每个词的词嵌入表示后,将其输入到Transformer编码器层中获取用于比较的词嵌入。此步骤采用多头自注意力机制和一个前馈神经网络层。多头注意力能够更充分地表示单词之间的联系,多头注意力计算如下:
MultiHead(Zi)=Concat(head1,...,headn)WO
Figure BDA0002773056910000061
其中Ei表示序列中第i个单词通过BERT生成的词嵌入表示。
Figure BDA0002773056910000062
表示查询向量参数矩阵,
Figure BDA0002773056910000063
表示键向量参数矩阵,
Figure BDA0002773056910000064
表示值向量参数矩阵,WO表示压缩各个自注意力矩阵时的参数矩阵,在训练过程会进行更新,headh表示第h个自注意力矩阵。将Ei
Figure BDA0002773056910000065
分别相乘将得到查询向量Qh,键向量Kh,值向量Vh。MultiHead(Zi)表示序列中第i个单词的多头注意力表示。
对于
Figure BDA0002773056910000071
自注意力计算如下:
Figure BDA0002773056910000072
其中,dk表示键向量Kh的维度,Qh表示查询向量、
Figure BDA0002773056910000073
表示键向量的转置、Vh表示值向量。
得到多头注意力表示Zi后,将其输入到前馈神经网络获得用于比较的词向量Ti
如图3所示,比较层左边表示经BERT模型输出的答案词向量与经BERT模型和Transformer编码器输出的问题词向量进行比较,右边则表示经BERT模型输出的问题词向量与经BERT模型和Transformer编码器输出的答案词向量进行比较。两个文本单元的比较函数一般使用标准前馈神经网络,然而基于问答匹配的本质,即需要衡量两个序列语义上的匹配性,所以我们需要选择更合适的比较函数。现已有使用余弦相似度、欧式距离和点积来定义比较函数,但在众多比较函数中有研究证明哈达玛积(Hadamard积)比较函数在问答任务上表现优于其他比较函数。所以本发明使用哈达玛积将问题和答案进行比较,通过此步骤获得两个句子之间匹配特征:
Figure BDA0002773056910000074
Figure BDA0002773056910000075
其中,TQi表示问题中的第i个位置上的词经过BERT模型和Transformer编码器输出的向量,TAi表示答案中的第i个位置上的词经过BERT模型和Transformer编码器输出的向量,EQi表示问题的第i个位置的词经过BERT模型输出的向量,EAi表示答案的第i个位置的词经过BERT模型输出的向量,⊙表示哈达玛积。
聚合两个句子之间匹配特征,便于后续计算匹配得分。经典文本分类TextCNN模型在短文本领域如问答、对话领域专注于意图分类时效果很好,它的最大优势在网络结构简单,速度快。所以采用TextCNN模型聚合匹配特征
Figure BDA0002773056910000076
Figure BDA0002773056910000081
实现过程如下:
使用与
Figure BDA0002773056910000082
匹配特征的宽度k一致的卷积核进行卷积,每一次卷积操作相当于一次特征向量的提取,通过定义不同的窗口,就可以提取出不同的特征向量,构成卷积层的输出。产生特征h过程如下:
hi=f(w·ci:i+h-1+b)
其中,ci:i+h-1表示由输入矩阵的第i行到第i+h-1行所组成的大小为h×k的窗口,w为h×k维的参数矩阵,b为偏置参数。
将得到的特征拼接起来,然后进行最大池化操作,最后经过softmax层输出聚合结果:
Figure BDA0002773056910000083
Figure BDA0002773056910000084
其中,wq,wa分别为参数矩阵,
Figure BDA0002773056910000085
分别为经最大池化层的问题句和答案句的聚合特征向量,bq为问题句的偏置参数,ba为答案句的偏置参数。
将softmax层输出的结果进行拼接,然后使用Relu非线性激活函数预测问题和答案的匹配得分。计算匹配得分的公式为:
Figure BDA0002773056910000086
其中,[;]表示拼接向量,W表示计算匹配得分时的参数矩阵,
Figure BDA0002773056910000087
表示经TextCNN模型输出的问题句的聚合特征向量,
Figure BDA0002773056910000088
表示经TextCNN模型输出的答案句的聚合特征向量,σ表示非线性激活函数Relu(·)=max(0,·),·表示非线性激活函数的输入。
损失函数为:
Figure BDA0002773056910000089
其中,N表示训练期间使用的样本总数,yn表示第n个样本的目标标签,scoren为第n个样本的模型预测标签。
采用Adam算法对损失函数进行优化,获取最小损失函数。Adam算法是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重,能够通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设计独立的自适应性学习率。主要计算公式如下:
Figure BDA0002773056910000091
其中,
Figure BDA0002773056910000092
表示校正后的一阶矩估计,
Figure BDA0002773056910000093
表示校正后的二阶矩估计;∈和η分别为训练过程中需调整的参数。
采用MRR和MAP的评价指标对模型进行评价,其中,MRR表示平均倒数排名评价指标,MAP表示目标检测评价指标;其具体的过程包括:
在排名前k个答案中,用yi表示第i个答案的真实匹配度,则前k个答案排序的准确度为:
Figure BDA0002773056910000094
其中,P@k表示前k个排序结果的准确度,P指的是准确度,yi表示第i个答案的真实匹配度。
若只考虑排名最靠前的真实匹配的文本k1,则倒数排序指标MRR的定义为:
MRR=P@k1
假设预测排序中的真实匹配的答案文本的排序位置分别为k1,k2,...,kr,其中r为整个列表中所有匹配答案文本的数量。那么指标MAP的计算如下:
Figure BDA0002773056910000095
其中,r表示整个列表中所有匹配答案文本的数量,P@ki表示答案中排在位置ki的准确度。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,包括:实时获取数据,对数据进行预处理;将预处理后的数据输入到训练好的比较聚合问答匹配模型中,得到问题与答案的匹配得分,根据得分输出最佳答案;所述比较聚合问答匹配模型包括BERT模型、Transformer编码器以及比较聚合层;
训练比较聚合问答匹配模型的过程包括:
S1:获取原始问答数据集,将原始问答数据集进行划分,得到训练集和测试集;对训练集中的数据进行预处理;
S2:将预处理后的数据输入到BERT模型中,生成问题句和答案句中每个词的词嵌入表示数据;
S3:将问题句和答案句的词嵌入表示输入到Transformer编码器中,得到用于比较的词嵌入数据;
S4:对问题和答案中的每个单词的词嵌入数据进行比较,得到问题词嵌入数据和答案词嵌入数据的匹配特征;
S5:对匹配特征进行聚合,得到聚合后的特征;
S6:采用Relu非线性激活函数计算聚合后特征的匹配得分;设置迭代次数的初始值;
S7:采用交叉熵损失函数训练模型;
S8:采用Adam算法优化模型,即在训练过程中调整BERT模型、Transformer编码器和比较聚合框架中的参数;
S9:判断迭代次数是否达到最大迭代次数,如果达到,则完成比较聚合问答匹配模型的训练,否则返回步骤S7,迭代次数加1。
2.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,所述对数据进行预处理的过程包括:去除原数据集中的停用词,将每个句子的长度设置为50,长度不足50的句子进行填充处理,长度超过50的则从句末截掉;将数据集中的问题句和答案句进行组合;组合后语句的格式为:
Input(Q,A)=[CLS],q1,…,qn,[SEP],a1,…,an,[SEP]
其中,Q表示问题句,A表示答案句,qn表示问题句中的单词,an表示答案句中的单词,[CLS]表示分类标志,第一个[SEP]表示分隔标志,末尾[SEP]表示结尾标志。
3.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,Transformer编码器包括多头注意力机制层和前馈神经网络层;
Transformer编码器处理数据的过程为:
步骤1:采用多头注意力机制处理问题句和答案句的词嵌入表示,得到每个词的注意力权重表示;
步骤2:采用前馈神经网络层对带有注意力权重的词嵌入进行处理,得到Transformer编码器的最终输出。
4.根据权利要求3所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,采用多头注意力机制层处理问题句和答案句的词嵌入表示的过程包括:
步骤11:确定多头注意力机制层的参数矩阵
Figure FDA0002773056900000021
WO
步骤12:将参数矩阵
Figure FDA0002773056900000022
分别与通过BERT模型生成的第i个词的词嵌入表示Ei相乘,得到查询向量Qh、键向量Kh以及值向量Vh
步骤13:根据查询向量Qh、键向量Kh、值向量Vh以及自注意力计算公式求出headh
步骤14:根据headh和参数矩阵WO求出多头注意力权重矩阵;
其中,
Figure FDA0002773056900000023
表示查询向量参数矩阵,
Figure FDA0002773056900000024
表示键向量参数矩阵,
Figure FDA0002773056900000025
表示值向量参数矩阵,WO表示压缩各个自注意力矩阵时的参数矩阵,headh表示第h个自注意力矩阵。
5.根据权利要求4所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,自注意力计算公式为:
Figure FDA0002773056900000031
其中,dk表示键向量Kh的维度,Qh表示查询向量、
Figure FDA0002773056900000032
表示键向量的转置、Vh表示值向量。
多头注意力计算方法为:
MultiHead(Zi)=Concat(head1,…,headn)WO
其中,MultiHead(Zi)表示序列中第i个单词的多头注意力表示,Concat(head1,…,headn)表示将各个自注意力矩阵进行拼接。
6.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,问题和答案之间匹配特征为:
Figure FDA0002773056900000033
Figure FDA0002773056900000034
其中,TQi表示问题中的第i个位置上的词经过BERT模型和Transformer编码器输出的向量,TAi表示答案中的第i个位置上的词经过BERT模型和Transformer编码器输出的向量,EQi表示问题的第i个位置的词经过BERT模型输出的向量,EAi表示答案的第i个位置的词经过BERT模型输出的向量,⊙表示哈达玛积。
7.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,计算聚合特征向量的公式为:
Figure FDA0002773056900000035
Figure FDA0002773056900000036
其中,
Figure FDA0002773056900000037
表示经TextCNN模型输出的问题句的聚合特征向量,
Figure FDA0002773056900000038
表示经TextCNN模型输出的答案句的聚合特征向量,CQ表示问题和答案之间的匹配特征,CA表示答案和问题之间的匹配特征。
8.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,计算匹配得分的公式为:
Figure FDA0002773056900000041
其中,[;]表示拼接向量,W表示计算匹配得分时的参数矩阵,
Figure FDA0002773056900000042
表示经TextCNN模型输出的问题句的聚合特征向量,
Figure FDA0002773056900000043
表示经TextCNN模型输出的答案句的聚合特征向量,σ表示非线性激活函数。
9.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,损失函数为:
Figure FDA0002773056900000044
其中,N表示训练期间使用的样本总数,yn表示第n个样本的目标标签,scoren为第n个样本的预测标签。
10.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法,其特征在于,Adam算法的公式为:
Figure FDA0002773056900000045
其中,
Figure FDA0002773056900000046
表示校正后的一阶矩估计,
Figure FDA0002773056900000047
表示校正后的二阶矩估计,∈,η分别为训练过程中需调整的参数。
CN202011255769.XA 2020-11-11 2020-11-11 基于bert模型和比较聚合框架的问答匹配方法 Active CN112328767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011255769.XA CN112328767B (zh) 2020-11-11 2020-11-11 基于bert模型和比较聚合框架的问答匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011255769.XA CN112328767B (zh) 2020-11-11 2020-11-11 基于bert模型和比较聚合框架的问答匹配方法

Publications (2)

Publication Number Publication Date
CN112328767A true CN112328767A (zh) 2021-02-05
CN112328767B CN112328767B (zh) 2022-10-14

Family

ID=74317656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011255769.XA Active CN112328767B (zh) 2020-11-11 2020-11-11 基于bert模型和比较聚合框架的问答匹配方法

Country Status (1)

Country Link
CN (1) CN112328767B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204633A (zh) * 2021-06-01 2021-08-03 吉林大学 一种语义匹配蒸馏方法及装置
CN113239162A (zh) * 2021-05-11 2021-08-10 山东新一代信息产业技术研究院有限公司 一种用于智能问答的文本嵌入式表达方法
CN113239690A (zh) * 2021-03-24 2021-08-10 浙江工业大学 基于Bert与全连接神经网络融合的中文文本意图识别方法
CN113268561A (zh) * 2021-04-25 2021-08-17 中国科学技术大学 一种基于多任务联合训练的问题生成方法
CN113283245A (zh) * 2021-03-30 2021-08-20 中国科学院软件研究所 基于双塔结构模型的文本匹配方法及装置
CN113687242A (zh) * 2021-09-29 2021-11-23 温州大学 基于ga算法优化改进gru神经网络的锂离子电池soh估计方法
CN113779360A (zh) * 2021-08-18 2021-12-10 深圳技术大学 基于多头问答模型的解题方法、装置、设备及存储介质
CN113807222A (zh) * 2021-09-07 2021-12-17 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
CN113836266A (zh) * 2021-09-23 2021-12-24 中国平安人寿保险股份有限公司 基于bert的自然语言处理方法及相关设备
CN114153942A (zh) * 2021-11-17 2022-03-08 中国人民解放军国防科技大学 一种基于动态注意力机制的事件时序关系抽取方法
CN114297357A (zh) * 2021-12-27 2022-04-08 北京中科闻歌科技股份有限公司 一种基于量子计算的问答模型构建方法、装置及电子设备
CN114358023A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 智能问答召回方法、装置、计算机设备及存储介质
CN115017279A (zh) * 2022-05-12 2022-09-06 华南理工大学 基于文本语义匹配的Stack Overflow相关问答检索方法
CN116737894A (zh) * 2023-06-02 2023-09-12 深圳市客一客信息科技有限公司 基于模型训练的智能机器人服务系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110008322A (zh) * 2019-03-25 2019-07-12 阿里巴巴集团控股有限公司 多轮对话场景下的话术推荐方法和装置
CN110046244A (zh) * 2019-04-24 2019-07-23 中国人民解放军国防科技大学 一种用于问答系统的答案选择方法
CN110110063A (zh) * 2019-04-30 2019-08-09 南京大学 一种基于哈希学习的问答系统构建方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN110309503A (zh) * 2019-05-21 2019-10-08 昆明理工大学 一种基于深度学习bert--cnn的主观题评分模型及评分方法
CN110442675A (zh) * 2019-06-27 2019-11-12 平安科技(深圳)有限公司 问答匹配处理、模型训练方法、装置、设备及存储介质
CN110502627A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于多层Transformer聚合编码器的答案生成方法
CN110647619A (zh) * 2019-08-01 2020-01-03 中山大学 一种基于问题生成和卷积神经网络的常识问答方法
CN110781680A (zh) * 2019-10-17 2020-02-11 江南大学 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN111125380A (zh) * 2019-12-30 2020-05-08 华南理工大学 一种基于RoBERTa和启发式算法的实体链接方法
CN111324717A (zh) * 2020-02-24 2020-06-23 武汉大学 一种面向开放域问答的基于机器阅读理解的答案获取方法及系统
CN111831789A (zh) * 2020-06-17 2020-10-27 广东工业大学 一种基于多层语义特征提取结构的问答文本匹配方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110008322A (zh) * 2019-03-25 2019-07-12 阿里巴巴集团控股有限公司 多轮对话场景下的话术推荐方法和装置
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN110046244A (zh) * 2019-04-24 2019-07-23 中国人民解放军国防科技大学 一种用于问答系统的答案选择方法
CN110110063A (zh) * 2019-04-30 2019-08-09 南京大学 一种基于哈希学习的问答系统构建方法
CN110309503A (zh) * 2019-05-21 2019-10-08 昆明理工大学 一种基于深度学习bert--cnn的主观题评分模型及评分方法
CN110442675A (zh) * 2019-06-27 2019-11-12 平安科技(深圳)有限公司 问答匹配处理、模型训练方法、装置、设备及存储介质
CN110647619A (zh) * 2019-08-01 2020-01-03 中山大学 一种基于问题生成和卷积神经网络的常识问答方法
CN110502627A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于多层Transformer聚合编码器的答案生成方法
CN110781680A (zh) * 2019-10-17 2020-02-11 江南大学 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN111125380A (zh) * 2019-12-30 2020-05-08 华南理工大学 一种基于RoBERTa和启发式算法的实体链接方法
CN111324717A (zh) * 2020-02-24 2020-06-23 武汉大学 一种面向开放域问答的基于机器阅读理解的答案获取方法及系统
CN111831789A (zh) * 2020-06-17 2020-10-27 广东工业大学 一种基于多层语义特征提取结构的问答文本匹配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MIN-YUH DAY ET AL.: "A Study of Deep Learning for Factoid Question Answering System", 《2020 IEEE 21ST INTERNATIONAL CONFERENCE ON INFORMATION REUSE AND INTEGRATION FOR DATA SCIENCE》 *
郭雅志: "基于知识图谱的领域问答系统研究与实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
陈志豪 等: "基于注意力和字嵌入的中文医疗问答匹配方法", 《计算机应用》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239690A (zh) * 2021-03-24 2021-08-10 浙江工业大学 基于Bert与全连接神经网络融合的中文文本意图识别方法
CN113283245A (zh) * 2021-03-30 2021-08-20 中国科学院软件研究所 基于双塔结构模型的文本匹配方法及装置
CN113268561B (zh) * 2021-04-25 2021-12-14 中国科学技术大学 一种基于多任务联合训练的问题生成方法
CN113268561A (zh) * 2021-04-25 2021-08-17 中国科学技术大学 一种基于多任务联合训练的问题生成方法
CN113239162A (zh) * 2021-05-11 2021-08-10 山东新一代信息产业技术研究院有限公司 一种用于智能问答的文本嵌入式表达方法
CN113204633A (zh) * 2021-06-01 2021-08-03 吉林大学 一种语义匹配蒸馏方法及装置
CN113779360A (zh) * 2021-08-18 2021-12-10 深圳技术大学 基于多头问答模型的解题方法、装置、设备及存储介质
CN113807222A (zh) * 2021-09-07 2021-12-17 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
CN113807222B (zh) * 2021-09-07 2023-06-27 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
CN113836266A (zh) * 2021-09-23 2021-12-24 中国平安人寿保险股份有限公司 基于bert的自然语言处理方法及相关设备
CN113687242A (zh) * 2021-09-29 2021-11-23 温州大学 基于ga算法优化改进gru神经网络的锂离子电池soh估计方法
CN114153942A (zh) * 2021-11-17 2022-03-08 中国人民解放军国防科技大学 一种基于动态注意力机制的事件时序关系抽取方法
CN114153942B (zh) * 2021-11-17 2024-03-29 中国人民解放军国防科技大学 一种基于动态注意力机制的事件时序关系抽取方法
CN114297357A (zh) * 2021-12-27 2022-04-08 北京中科闻歌科技股份有限公司 一种基于量子计算的问答模型构建方法、装置及电子设备
CN114358023A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 智能问答召回方法、装置、计算机设备及存储介质
CN114358023B (zh) * 2022-01-11 2023-08-22 平安科技(深圳)有限公司 智能问答召回方法、装置、计算机设备及存储介质
CN115017279A (zh) * 2022-05-12 2022-09-06 华南理工大学 基于文本语义匹配的Stack Overflow相关问答检索方法
CN116737894A (zh) * 2023-06-02 2023-09-12 深圳市客一客信息科技有限公司 基于模型训练的智能机器人服务系统
CN116737894B (zh) * 2023-06-02 2024-02-20 深圳市客一客信息科技有限公司 基于模型训练的智能机器人服务系统

Also Published As

Publication number Publication date
CN112328767B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN112328767B (zh) 基于bert模型和比较聚合框架的问答匹配方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111985369B (zh) 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN111241837B (zh) 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
WO2021143396A1 (zh) 利用文本分类模型进行分类预测的方法及装置
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
US20220198276A1 (en) Method and platform for pre-trained language model automatic compression based on multilevel knowledge distillation
CN111666406A (zh) 基于自注意力的单词和标签联合的短文本分类预测方法
CN113204633B (zh) 一种语义匹配蒸馏方法及装置
CN111274375A (zh) 一种基于双向gru网络的多轮对话方法及系统
CN113822125B (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
Cheng et al. A semi-supervised deep learning image caption model based on Pseudo Label and N-gram
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN114841151B (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN113111152A (zh) 一种基于知识蒸馏和情绪集成模型的抑郁症检测方法
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN106021402A (zh) 用于跨模态检索的多模态多类Boosting框架构建方法及装置
CN115186102A (zh) 基于双流嵌入和深度神经网络的动态知识图谱补全方法
CN114781503A (zh) 一种基于深度特征融合的点击率预估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant