CN114398976A - 基于bert与门控类注意力增强网络的机器阅读理解方法 - Google Patents
基于bert与门控类注意力增强网络的机器阅读理解方法 Download PDFInfo
- Publication number
- CN114398976A CN114398976A CN202210035885.3A CN202210035885A CN114398976A CN 114398976 A CN114398976 A CN 114398976A CN 202210035885 A CN202210035885 A CN 202210035885A CN 114398976 A CN114398976 A CN 114398976A
- Authority
- CN
- China
- Prior art keywords
- bert
- cls
- layer
- vector
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000013136 deep learning model Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 140
- 230000007246 mechanism Effects 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 18
- 230000002452 interceptive effect Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000013135 deep learning Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 11
- 238000004220 aggregation Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000000844 transformation Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B7/00—Electrically-operated teaching apparatus or devices working with questions and answers
- G09B7/06—Electrically-operated teaching apparatus or devices working with questions and answers of the multiple-choice answer-type, i.e. where a given question is provided with a series of answers and a choice has to be made from the answers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种基于BERT与门控类注意力增强网络的机器阅读理解方法。包括以下步骤:步骤A、收集中国中学生英语考试中的阅读理解多选题,并标注每篇文章的每个问题对应的答案选项类别,构建带类别标签的训练集S;步骤B、训练基于BERT与门控类注意力网络的深度学习模型GCAN‑BERT,用于预测给定问题对应选项的答案;步骤C、将待判断的文章、问题、选项输入到训练后的基于BERT与门控类注意力网络的深度学习模型GCAN‑BERT中,得到给定问题对应的答案选项。本发明能够有效提高多选阅读理解选项预测的精确度。
Description
技术领域
本发明涉及自然语言处理领域与机器阅读理解应用领域,具体涉及一种基于BERT与门控类注意力增强网络的机器阅读理解方法。
背景技术
机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法让计算机能像人一样理解文本语义并尝试回答相关问题的技术。选择式MRC模型的输入为文章、问题和相关选项,输出为答案选项。
随着深度神经网络的发展,出现了许多基于循环神经网络和卷积神经网络的机器阅读理解算法。层级协同匹配模型(Hierarchical Co-MatchingModel,HCM)包括协同匹配模块和分层聚合组件,前者针对文章中的每个词,分别计算问题到文章、选项到文章的注意力从而构造两个匹配表示,从而获得协同匹配状态,后者对文章中每个句子的协同匹配状态应用双向循环神经网络编码和最大池化得到最终的匹配表示结果。该模型在当时取得了很好的性能,但它计算的两个匹配表示都是单向的,没有计算文章至问题、文章至选项方向的注意力,并且问题和选项之间缺少匹配交互,最终得到的协同匹配状态只是简单的向量拼接。Cheng等提出了一种基于卷积空间注意力的模型(ConvolutionalSpatialAttention,CSA),它可以充分提取篇章、问题以及选项之间的互信息从而增强各自的向量空间表示,并使用不同的卷积窗口动态从相邻空间注意力矩阵上抽取特征用于答案预测。
但循环神经网络本身的序列顺序依赖性导致模型难以并行计算。卷积神经网络不存在序列依赖问题,并行计算能力强,但卷积神经网络难以处理长文本,因为单卷积层难以捕获远距离的特征,需要结合膨胀卷积或者加深卷积网络来捕获这种远距离特征,但连续跳接可能会错过文本的特征组合,而加深卷积网络对模型的帮助十分有限。Transformer的出现成为了特征抽取器的新主流,它具有优秀的文本语义特征与任务相关特征提取能力、长距离特征捕获能力,并行计算能力也足够强大。BERT基于双向Transformer,结合掩码模型来实现上下文的深层双向表示,刷新了许多基准阅读理解数据集的记录,在预训练语言模型(Pre-trainedLanguage Model,PLM)下游微调MRC模型成为新的范式。基于预训练语言模型的MRC模型架构主要包括两个过程:利用PLM对文本进行编码、设计一个启发式的机制作为解码器在下游MRC任务上微调输出。
Sun等人根据人类的认知方式提出了三种阅读策略,分别是前后阅读、高亮阅读、自我评价三种策略,在GPT下游微调模型,取得了当时的最优效果。但该方法本质上是通过阅读策略增加更多先验知识,在文章、问题、选项的交互上未做进一步的工作,因此未获得充分的文本匹配表示用于下游分类任务预测。现有预训练语言模型通过提取序列最后一层隐层的第一个字符CLS的特征表示,再接一个线性层用于预测多选答案。DCMN(Dual Co-Matching Network)认为预训练语言模型这种使用CLS的最后一层隐层向量作为聚合表示来进行选项预测的方式过于粗糙,没有考虑到文章和问句之间的关系。并对HCM进行了改进,先使用BERT对文本编码,然后利用双向匹配策略来获得文章、问题、选项的两两匹配表示,再利用门控机制来融合每种匹配两个方向上的信息。但是DCMN的匹配机制过于复杂,依赖复杂的序列匹配网络。现有基于Transformer的PLM模型已经具有足够强大的特征交互能力来捕获文章、问题、选项之间的关联特征,这些复杂的句对匹配交互可以交由Transformer编码块来完成。
综上,尽管基于预训练语言模型的MRC模型已经有了长足的发展,但它们大多数是提取序列的首个词CLS的高层隐层表示,再接一个线性层用于预测多选答案,这种预测方式过于粗略。本文将CLS这种用于聚合下游序列信息的向量表示称为类向量,类向量在编码过程中学习到的权重表示被要求优化两个相互矛盾的目标:参与其他序列文本之间的注意力计算过程、聚合对于线性分类器有用的信息。这导致类向量在编码过程中与文章、问题和选项之间交互匹配得到的高层特征不能被充分优化与聚合。而现有方法对类向量的获取过于依赖复杂的序列匹配网络,未充分利用Transformer的特征编码与交互能力。
发明内容
本发明的目的在于提供一种基于BERT与门控类注意力增强网络的机器阅读理解方法,有效提高多选阅读理解选项答案预测的精确度。
为实现上述目的,本发明的技术方案是:一种基于BERT与门控类注意力增强网络的机器阅读理解方法,包括如下步骤:
步骤A、收集中国中学生英语考试中的阅读理解多选题,并标注每篇文章的每个问题对应的答案选项类别,构建带类别标签的训练集S;
步骤B、使用训练集S训练基于BERT与门控类注意力增强网络的深度学习模型GCAN-BERT,用于预测给定问题对应选项的答案;
步骤C、将待判断的文章、问题、选项输入到训练后的基于BERT与门控类注意力增强网络的深度学习模型GCAN-BERT中,得到给定问题对应的答案选项。
在本发明一实施例中,所述步骤B具体包括以下步骤:
步骤B1、将训练集S的每个(文章、问题、选项)三元组形式的训练样本作为GCAN-BERT的输入;GCAN-BERT使用BERT作为编码器,由嵌入层和多层Transformer编码网络组成,从而编码得到序列的高层语义特征表示,并送入门控类注意力增强网络;
步骤B2、在门控类注意力增强网络中,将BERT模型的[CLS]标签的输出向量称为类向量,作为聚合下游信息的向量;门控类注意力增强网络仅仅更新[CLS]表示的权重,在减少下游任务计算量的同时,让类向量专注于与序列其他部分交互匹配,并充分聚合这些匹配特征,得到聚合信息vL2;最后将vL2馈送到预测层用于预测选项答案;
步骤B3、预测层把前文得到的聚合信息vL2通过一个全连接层去预测最终的答案选项;根据目标损失函数,利用反向传播方法计算深度学习网络模型GCAN-BERT中的各参数的梯度,并利用随机梯度下降方法更新参数;
步骤B4、当GCAN-BERT产生的损失值迭代变化小于设定阈值、或者达到最大迭代次数,终止GCAN-BERT的训练。
在本发明一实施例中,所述步骤B1具体包括以下步骤:
步骤B11、文章表示为P,问题表示为Q,每个问题有J个答案选项,依次取第j个答案选项Oj,j=1,2,…,J,将三者拼接为“[CLS]P[SEP]QOj”的长序列,其中,[CLS]与[SEP]为分隔符,以上长序列可进一步表示为文本序列T=([CLS],t1,t2,...,tn),n为序列长度;
步骤B12、通过BERT词典,将T映射为词嵌入表示,记为ET=(eCLS,et1,...,etn),eCLS代表[CLS]的词嵌入表示,eti代表词ti的词嵌入表示;其中n+1代表输入序列的长度,d表示词向量的维度;
步骤B13、句子表示代表序列中的词属于文章、问题还是选项,将每个属于文章的词的句子表示设置为eA,向量eA中所有元素的值均为0;将每个属于问题或答案选项的词的句子表示设置为eB,向量eB中所有元素的值均为1;则T的句子表示为
步骤B14、计算T中每个词ti的位置表示,合并得到位置表示EP,计算过程为:
其中,p表示词在当前序列中的位置序号,p=1,2,…,n,d表示词向量的维度,k表示词向量维度中的位置序号,k=1,2,…,d/2;代表对偶数位置的词向量用sin函数计算绝对位置编码,而代表对奇数位置的词向量用cos函数计算绝对位置编码,
步骤B15、将每个词的词嵌入表示、句子表示、位置表示相加,得到X=ET+ES+EP=(CLS,x1,x2,...,xn),将X送入BERT的多层Transformer网络进行编码,从而获取到序列的高层语义特征表示;
步骤B16、多层Transformer网络由多个Transformer编码块堆叠而成;每个Transformer编码块最重要的子层是多头自注意力机制和前向反馈层两个子层,每个子层后面都加了残差连接和归一化层;X首先被映射为三种向量即查询向量Q、键向量K、值向量V,计算公式如下:
Q=XWQ+bQ
K=XWK+bK
V=XWV+bV
其中,WQ、WK、WV、bQ、bK、bV代表训练参数;
步骤B17、将Q、K、V向量送入多头自注意力机制中,在它们的词向量维度上划分h个子向量,每个子向量的维度为d/h,分别送入自注意力机制里训练;最后再将这h个自注意力子向量拼接起来重新得到一个d维的输出向量C;为预防过拟合,并且让向量更加归整,加速网络收敛,对多头自注意力机制子层添加残差连接和归一化,得到向量M,公式如下:
C=Concat(head1,head2,...,headh)WC+bC
M=LayerNorm(X+C)
步骤B18、将向量M送入全连接的前向反馈子层,该层对M做了两个线性变换,从而得到序列的综合特征N,再将M和N进行残差连接,经过层归一化处理得到序列的最终高层特征H,公式如下:
N=(WFM+bF)WN+bN
H=LayerNorm(M+N)
其中,WF、WN、bF、bN表示训练参数;
步骤B19、将高层特征H送入门控类注意力增强网络中。
在本发明一实施例中,所述步骤B2具体包括以下步骤:
步骤B21、门控类注意力增强网络由多头类注意力机制、类前向反馈层、门控表示融合层、归一化层组成;门控类注意力增强网络固定了除了[CLS]的表示以外的序列其他部分的参数权重,仅仅更新[CLS]的表示的权重;编码器的高层特征H首先输入到多头类注意力机制层,该层用于将[CLS]与其他序列交互匹配,从而类向量关注到文章、问题、选项的关键信息;将序列H中[CLS]的词表示记为hCLS,除了[CLS]以外的其他词序列记为Z,随后将[CLS]的表示映射为查询向量Q,将Z映射为键向量K和值向量V,公式如下:
Q=hCLSW1+b1
K=ZW2+b2
V=ZW3+b3
步骤B22、对Q、K、V计算多头自注意力机制,将每种向量都划分为h个d/h维的子向量,分别送入自注意力机制里训练,最后再将h个自注意力子向量重新拼接起来并经过线性变换后得到d维的输出向量s,公式如下:
s=Concat(head1,head2,...,headh)Wv+bv
其中,headi代表第i个子向量的自注意力分数,Wv,bv代表训练参数,Concat代表拼接;包含了[CLS]经过与其他序列交互匹配后得到的关键信息;由于多头类注意力机制只学习和更新[CLS]类向量权值,即类向量不用参与到序列其他词表示的权重更新,因此[CLS]学习到的序列匹配特征更加充分;
步骤B23、将s输入门控融合层,该层引入了门控机制用于代替残差连接,从而有针对性地将类向量的交互信息与原类向量特征hCLS进行融合,它们在门控表示融合层中的具体变化如下:
u=gMHCA(hCLS,s)
其中,gMHCA(hCLS,s)是一个门控函数,该门控函数使用GRU风格的门控机制,将门控单元、原类向量特征hCLS和MHCA的输出s结合起来,将其调整为深度激活函数,具体计算公式如下:
r=sigmoid(W4hCLS+U1s)
z=sigmoid(W5hCLS+U2s-b4)
步骤B24、将u与Z重新拼接在一起,送入到层归一化层处理后得到规范化的特征HL1,层归一化调整了CLS的分布,并有助于提高网络训练时的收敛速度,提取HL1中[CLS]的表示,得到将uL1输入到类前向反馈层,具体公式如下:
HL1=LayerNorm(Concat[u,Z])
步骤B25、类前向反馈层对uL1进行了两个线性变换得到uFN,uFN从匹配信息中进一步聚合用于回答问题所需的表示信息;随后将uFN和uL1一起输入一个门控融合层,从而有针对性地将类向量的交互信息与聚合信息进行融合,并防止模型过拟合,公式如下:
uFN=(W7uL1+b5)W8+b6
v=gCFFN(uFN,uL1)
步骤B26、将v和Z重新拼接在一起,再次送入到层归一化层处理,得到规范化的特征HL2,提取HL2中[CLS]的表示,得到类向量vL2充分地聚合了文章、问题和选项之间的信息,可用于下游分类任务的选项答案预测。
HL2=LayerNorm(Concat[v,Z])
在本发明一实施例中,所述步骤B3具体包括以下步骤:
步骤B31、对文章P、问题Q、以及每个问题的相关答案选项重复步骤B1、B2,通过一个全连接层作为分类器来预测最终的答案选项,分类器对每个选项进行打分,所有选项的分数经过Softmax后得到模型对每个选项预测的概率;
步骤B32、最终通过梯度优化算法SGD进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型。
本发明还提供了一种采用如上述所述方法的基于BERT与门控类注意力增强网络的机器阅读理解系统,包括:
数据收集模块,收集中国中学生英语考试中的阅读理解多选题,并标注每篇文章的每个问题对应的答案选项类别,构建带类别标签的训练集S;
BERT编码器模块,由嵌入层和多层Transformer编码网络组成;将训练集S的每个(文章、问题、选项)三元组形式的训练样本被送入BERT编码器模块,从而获取到融合序列上下文信息的高层语义特征表示,并送入门控类注意力增强网络;
门控类注意力网络模块,更新CLS表示的权重,在减少下游任务计算量的同时,让类向量专注于与序列其他部分交互匹配,并充分聚合这些匹配特征,得到聚合信息vL2;最后将vL2馈送到预测层用于预测选项答案;
选项预测模块,预测层把前文得到的聚合信息vL2通过一个全连接层和Softmax去预测最终的答案选项;根据目标损失函数,利用反向传播方法计算深度学习网络模型GCAN-BERT中的各参数的梯度,并利用随机梯度下降方法更新参数;
网络训练模块,当深度学习网络模型GCAN-BERT产生的损失值迭代变化小于设定阈值、或者达到最大迭代次数,终止深度学习网络模型GCAN-BERT的训练。
相较于现有技术,本发明具有以下有益效果:本发明能够有效提高多选阅读理解选项预测的精确度。
附图说明
图1为基于BERT与门控类注意力增强网络的机器阅读理解方法系统流程图。
图2为基于BERT与门控类注意力增强网络的深度学习模型GCAN-BERT结构图。
图3为Transformer编码块结构图。
图4为门控类注意力增强网络结构图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
如图1、2所示,本发明一种基于BERT与门控类注意力增强网络的机器阅读理解方法,包括如下步骤:
步骤A、收集中国中学生英语考试中的阅读理解多选题,并标注每篇文章的每个问题对应的答案选项类别,构建带类别标签的训练集S;
步骤B、使用训练集S训练基于BERT与门控类注意力增强网络的深度学习模型GCAN-BERT,用于预测给定问题对应选项的答案;
步骤C、将待判断的文章、问题、选项输入到训练后的基于BERT与门控类注意力增强网络的深度学习模型GCAN-BERT中,得到给定问题对应的答案选项。
所述步骤B具体包括以下步骤:
步骤B1、将训练集S的每个(文章、问题、选项)三元组形式的训练样本作为GCAN-BERT的输入;GCAN-BERT使用BERT作为编码器,由嵌入层和多层Transformer编码网络组成,从而编码得到序列的高层语义特征表示,并送入门控类注意力增强网络;具体实现如下:
步骤B11、文章表示为P,问题表示为Q,每个问题有四个选项,取第j个选项表示Oj,j=1,2,…,J,J为总答案选项数;将三者拼接为“[CLS]P[SEP]QOj”的长序列,[CLS]、[SEP]为分隔符,得到长序列文本T=([CLS],t1,t2,...,tn),[SEP]也包含在ti里,n为序列长度;
步骤B12、通过BERT词典,将T映射为词嵌入表示,记为ET=(eCLS,et1,...,etn),eCLS代表[CLS]的词嵌入表示,eti代表词ti的词嵌入表示;其中n+1代表输入序列的长度,d表示词向量的维度;
步骤B13、句子表示代表序列中的词属于文章还是属于问题和选项,令每个属于文章的词的句子表示为eA,eA每个维度的值都为0,[SEP]的句子表示也记为eA;令每个属于问题和答案选项的词的句子表示为eB,eB每个维度的值都为1;于是得到句子表示ES,
步骤B14、计算T中每个词ti的位置表示,合并得到位置表示EP,计算过程为:
其中,p表示词在当前序列中的位置序号,p=1,2,…,n,d表示词向量的维度,k表示词向量维度中的位置序号,k=1,2,…,d/2;代表对偶数位置的词向量用sin函数计算绝对位置编码,而代表对奇数位置的词向量用cos函数计算绝对位置编码,
步骤B15、将每个词的词嵌入表示、句子表示、位置表示相加,得到X=ET+ES+EP=(CLS,x1,x2,...,xn),将X送入BERT的多层Transformer网络进行编码,从而获取到序列的高层语义特征表示;
步骤B16、多层Transformer网络由多个Transformer编码块堆叠而成;每个Transformer编码块最重要的子层是多头自注意力机制和前向反馈层两个子层,每个子层后面都加了残差连接和归一化层;X首先被映射为三种向量即查询向量Q、键向量K、值向量V,计算公式如下:
Q=xWQ+bQ
K=XWK+bK
V=XWV+bV
其中,WQ、WK、WV、bQ、bK、bV代表训练参数;
步骤B17、将Q、K、V向量送入多头自注意力机制中,在它们的词向量维度上划分h个子向量,每个子向量的维度为d/h,分别送入自注意力机制里训练;最后再将这h个自注意力子向量拼接起来重新得到一个d维的输出向量C;为预防过拟合,并且让向量更加归整,加速网络收敛,对多头自注意力机制子层添加残差连接和归一化,得到向量M,公式如下:
C=Concat(head1,head2,...,headh)WC+bC
M=LayerNorm(X+C)
步骤B18、将向量M送入全连接的前向反馈子层,该层对M做了两个线性变换,从而得到序列的综合特征N,再将M和N进行残差连接,经过层归一化处理得到序列的最终高层特征H,公式如下:
N=(WFM+bF)WN+bN
H=LayerNorm(M+N)
其中,WF、WN、bF、bN表示训练参数;
步骤B19、将高层特征H送入门控类注意力增强网络中;
步骤B2、在门控类注意力增强网络中,将BERT模型的[CLS]标签的输出向量称为类向量,作为聚合下游信息的向量;门控类注意力增强网络仅仅更新CLS表示的权重,在减少下游任务计算量的同时,让类向量专注于与序列其他部分交互匹配,并充分聚合这些匹配特征,得到聚合信息vL2;最后将vL2馈送到预测层用于预测选项答案;具体实现如下:
步骤B21、门控类注意力增强网络由多头类注意力机制、类前向反馈层、门控表示融合层、归一化层组成;门控类注意力增强网络固定了除了[CLS]的表示以外的序列其他部分的参数权重,仅仅更新[CLS]的表示的权重;编码器的高层特征H首先输入到多头类注意力机制层,该层用于将[CLS]与其他序列交互匹配,从而类向量关注到文章、问题、选项的关键信息;将序列H中[CLS]的词表示记为hCLS,除了[CLS]以外的其他词序列记为Z,随后将[CLS]的表示映射为查询向量Q,将Z映射为键向量K和值向量V,公式如下:
Q=hCLSW1+b1
K=ZW2+b2
V=ZW3+b3
步骤B22、对Q、K、V计算多头自注意力机制,将每种向量都划分为h个d/h维的子向量,分别送入自注意力机制里训练,最后再将h个自注意力子向量重新拼接起来并经过线性变换后得到d维的输出向量s,公式如下:
s=Concat(head1,head2,...,headh)Wv+bv
其中,headi代表第i个子向量的自注意力分数,Wv,bv代表训练参数,Concat代表拼接;包含了[CLS]经过与其他序列交互匹配后得到的关键信息;由于多头类注意力机制只学习和更新[CLS]类向量权值,即类向量不用参与到序列其他词表示的权重更新,因此[CLS]学习到的序列匹配特征更加充分;
步骤B23、将s输入门控融合层,该层引入了门控机制用于代替残差连接,从而有针对性地将类向量的交互信息与hCLS进行融合,它们在门控表示融合层中的具体变化如下:
u=gMHCA(hCLS,s)
其中,gMHCA(hCLS,s)是一个门控函数,该门控函数使用GRU风格的门控机制,将门控单元、原类向量特征hCLS和MHCA的输出s结合起来,将其调整为深度激活函数,具体计算公式如下:
r=sigmoid(W4hCLS+U1s)
z=sigmoid(W5hCLS+U2s-b4)
步骤B24、将u与Z重新拼接在一起,送入到层归一化层处理后得到规范化的特征HL1,层归一化调整了CLS的分布,并有助于提高网络训练时的收敛速度,提取HL1中[CLS]的表示,得到将uL1输入到类前向反馈层,具体公式如下:
HL1=LayerNorm(Concat[u,Z])
步骤B25、类前向反馈层对uL1进行了两个线性变换得到uFN,uFN从匹配信息中进一步聚合用于回答问题所需的表示信息;随后将uFN和uL1一起输入一个门控融合层,从而有针对性地将类向量的交互信息与聚合信息进行融合,并防止模型过拟合,公式如下:
uFN=(W7uL1+b5)W8+b6
v=gCFFN(uFN,uL1)
步骤B26、将v和Z重新拼接在一起,再次送入到层归一化层处理,得到规范化的特征HL2,提取HL2中[CLS]的表示,得到类向量vL2充分地聚合了文章、问题和选项之间的信息,可用于下游分类任务的选项答案预测;
HL2=LayerWorm(Concat[v,Z])
步骤B3、预测层把前文得到的聚合信息vL2通过一个全连接层去预测最终的答案选项;根据目标损失函数,利用反向传播方法计算深度学习网络模型GCAN-BERT中的各参数的梯度,并利用随机梯度下降方法更新参数;具体实现如下:
步骤B31、对文章P、问题Q、以及每个问题的相关答案选项重复步骤B1、B2,通过一个全连接层作为分类器来预测最终的答案选项,分类器对每个选项进行打分,所有选项的分数经过Softmax后得到模型对每个选项预测的概率;
步骤B32、最终通过梯度优化算法SGD进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
步骤B4、当GCAN-BERT产生的损失值迭代变化小于设定阈值、或者达到最大迭代次数,终止GCAN-BERT的训练。
本发明还提供了一种采用如上述所述方法的基于BERT与门控类注意力增强网络的机器阅读理解系统,包括:
数据收集模块,收集中国中学生英语考试中的阅读理解多选题,并标注每篇文章的每个问题对应的答案选项类别,构建带类别标签的训练集S;
BERT编码器模块,由嵌入层和多层Transformer编码网络组成;将训练集S的每个(文章、问题、选项)三元组形式的训练样本被送入BERT编码器模块,从而获取到融合序列上下文信息的高层语义特征表示,并送入门控类注意力增强网络;
门控类注意力网络模块,更新CLS表示的权重,在减少下游任务计算量的同时,让类向量专注于与序列其他部分交互匹配,并充分聚合这些匹配特征,得到聚合信息vL2;最后将vL2馈送到预测层用于预测选项答案;
选项预测模块,预测层把前文得到的聚合信息vL2通过一个全连接层和Softmax去预测最终的答案选项;根据目标损失函数,利用反向传播方法计算深度学习网络模型GCAN-BERT中的各参数的梯度,并利用随机梯度下降方法更新参数;
网络训练模块,当深度学习网络模型GCAN-BERT产生的损失值迭代变化小于设定阈值、或者达到最大迭代次数,终止深度学习网络模型GCAN-BERT的训练。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (6)
1.一种基于BERT与门控类注意力增强网络的机器阅读理解方法,其特征在于,包括如下步骤:
步骤A、收集中国中学生英语考试中的阅读理解多选题,并标注每篇文章的每个问题对应的答案选项类别,构建带类别标签的训练集S;
步骤B、使用训练集S训练基于BERT与门控类注意力增强网络的深度学习模型GCAN-BERT,用于预测给定问题对应选项的答案;
步骤C、将待判断的文章、问题、选项输入到训练后的基于BERT与门控类注意力增强网络的深度学习模型GCAN-BERT中,得到给定问题对应的答案选项。
2.根据权利要求1所述的基于BERT与门控类注意力增强网络的机器阅读理解方法,其特征在于,所述步骤B具体包括以下步骤:
步骤B1、将训练集S的每个(文章、问题、答案选项)三元组形式的训练样本作为GCAN-BERT的输入;GCAN-BERT使用BERT作为编码器,由嵌入层和多层Transformer编码网络组成,从而编码得到序列的高层语义特征表示,并送入门控类注意力增强网络;
步骤B2、在门控类注意力增强网络中,将BERT模型的[CLS]标签的输出向量称为类向量,作为聚合下游信息的向量;门控类注意力增强网络仅仅更新[CLS]表示的权重,在减少下游任务计算量的同时,让类向量专注于与序列其他部分交互匹配,并充分聚合这些匹配特征,得到聚合信息vL2;最后将vL2馈送到预测层用于预测选项答案;
步骤B3、预测层把前文得到的聚合信息vL2通过一个全连接层去预测最终的答案选项;根据目标损失函数,利用反向传播方法计算深度学习网络模型GCAN-BERT中的各参数的梯度,并利用随机梯度下降方法更新参数;
步骤B4、当GCAN-BERT产生的损失值迭代变化小于设定阈值、或者达到最大迭代次数,终止GCAN-BERT的训练。
3.根据权利要求2所述的基于BERT与门控类注意力增强网络的机器阅读理解方法,其特征在于,所述步骤B1具体包括以下步骤:
步骤B11、文章表示为P,问题表示为Q,每个问题有J个答案选项,依次取第j个答案选项Oj,j=1,2,…,J,将三者拼接为“[CLS]P[SEP]QOj”的长序列,其中,[CLS]与[SEP]为分隔符,以上长序列可进一步表示为文本序列T=([CLS],t1,t2,...,tn),n为序列长度;
步骤B12、通过BERT词典,将T映射为词嵌入表示,记为ET=(eCLS,et1,...,etn),eCLS代表[CLS]的词嵌入表示,eti代表词ti的词嵌入表示;其中n+1代表输入序列的长度,d表示词向量的维度;
步骤B13、句子表示代表序列中的词属于文章、问题还是选项,将每个属于文章的词的句子表示设置为eA,向量eA中所有元素的值均为0;将每个属于问题或答案选项的词的句子表示设置为eB,向量eB中所有元素的值均为1;则T的句子表示为
步骤B14、计算T中每个词ti的位置表示,合并得到位置表示EP,计算过程为:
其中,p表示词在当前序列中的位置序号,p=1,2,…,n,d表示词向量的维度,k表示词向量维度中的位置序号,k=1,2,…,d/2;代表对偶数位置的词向量用sin函数计算绝对位置编码,而代表对奇数位置的词向量用cos函数计算绝对位置编码,
步骤B15、将每个词的词嵌入表示、句子表示、位置表示相加,得到X=ET+ES+EP=(CLS,x1,x2,…,xn),将X送入BERT的多层Transformer网络进行编码,从而获取到序列的高层语义特征表示;
步骤B16、多层Transformer网络由多个Transformer编码块堆叠而成;每个Transformer编码块最重要的子层是多头自注意力机制和前向反馈层两个子层,每个子层后面都加了残差连接和归一化层;X首先被映射为三种向量即查询向量Q、键向量K、值向量V,计算公式如下:
Q=XWQ+bQ
K=XWK+bK
V=XWV+bV
其中,WQ、WK、WV、bQ、bK、bV代表训练参数;
步骤B17、将Q、K、V向量送入多头自注意力机制中,在它们的词向量维度上划分h个子向量,每个子向量的维度为d/h,分别送入自注意力机制里训练;最后再将这h个自注意力子向量拼接起来重新得到一个d维的输出向量C;为预防过拟合,并且让向量更加归整,加速网络收敛,对多头自注意力机制子层添加残差连接和归一化,得到向量M,公式如下:
C=Concat(head1,head2,...,headh)WC+bC
M=LayerNorm(X+C)
步骤B18、将向量M送入全连接的前向反馈子层,该层对M做了两个线性变换,从而得到序列的综合特征N,再将M和N进行残差连接,经过层归一化处理得到序列的最终高层特征H,公式如下:
N=(WFM+bF)WN+bN
H=LayerNorm(M+N)
其中,WF、WN、bF、bN表示训练参数;
步骤B19、将高层特征H送入门控类注意力增强网络中。
4.根据权利要求2所述的基于BERT与门控类注意力增强网络的机器阅读理解方法,其特征在于,所述步骤B2具体包括以下步骤:
步骤B21、门控类注意力增强网络由多头类注意力机制、类前向反馈层、门控表示融合层、归一化层组成;门控类注意力增强网络固定了除了[CLS]的表示以外的序列其他部分的参数权重,仅仅更新[CLS]的表示的权重;编码器的高层特征H首先输入到多头类注意力机制层,该层用于将[CLS]与其他序列交互匹配,从而类向量关注到文章、问题、选项的关键信息;将序列H中[CLS]的词表示记为hCLS,除了[CLS]以外的其他词序列记为Z,随后将[CLS]的表示映射为查询向量Q,将Z映射为键向量K和值向量V,公式如下:
Q=hCLSW1+b1
K=ZW2+b2
V=ZW3+b3
步骤B22、对Q、K、V计算多头自注意力机制,将每种向量都划分为h个d/h维的子向量,分别送入自注意力机制里训练,最后再将h个自注意力子向量重新拼接起来并经过线性变换后得到d维的输出向量s,公式如下:
s=Concat(head1,head2,...,headh)Wv+bv
其中,headi代表第i个子向量的自注意力分数,Wv,bv代表训练参数,Concat代表拼接;包含了[CLS]经过与其他序列交互匹配后得到的关键信息;由于多头类注意力机制只学习和更新[CLS]类向量权值,即类向量不用参与到序列其他词表示的权重更新,因此[CLS]学习到的序列匹配特征更加充分;
步骤B23、将s输入门控融合层,该层引入了门控机制用于代替残差连接,从而有针对性地将类向量的交互信息与hCLS进行融合,它们在门控表示融合层中的具体变化如下:
u=gMHCA(hCLS,s)
其中,gMHCA(hCLS,s)是一个门控函数,具体计算公式如下:
r=sigmoid(W4hCLS+U1s)
z=sigmoid(W5hCLS+U2s-b4)
步骤B24、将u与Z重新拼接在一起,送入到层归一化层处理后得到规范化的特征HL1,层归一化调整了CLS的分布,并有助于提高网络训练时的收敛速度,提取HL1中[CLS]的表示,得到将uL1输入到类前向反馈层,具体公式如下:
HL1=LayerNorm(Concat[u,Z])
步骤B25、类前向反馈层对uL1进行了两个线性变换得到uFN,uFN从匹配信息中进一步聚合用于回答问题所需的表示信息;随后将uFN和uL1一起输入一个门控融合层,从而有针对性地将类向量的交互信息与聚合信息进行融合,并防止模型过拟合,公式如下:
uFN=(W7uL1+b5)W8+b6
v=gCFFN(uFN,uL1)
步骤B26、将v和Z重新拼接在一起,再次送入到层归一化层处理,得到规范化的特征HL2,提取HL2中[CLS]的表示,得到类向量vL2充分地聚合了文章、问题和选项之间的信息,可用于下游分类任务的选项答案预测。
HL2=LayerNorm(Concat[v,Z])。
5.根据权利要求2所述的基于BERT与门控类注意力增强网络的机器阅读理解方法,其特征在于,所述步骤B3具体包括以下步骤:
步骤B31、对文章P、问题Q、以及每个问题的相关答案选项重复步骤B1、B2,通过一个全连接层作为分类器来预测最终的答案选项,分类器对每个选项进行打分,所有选项的分数经过Softmax后得到模型对每个选项预测的概率;
步骤B32、最终通过梯度优化算法SGD进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型。
6.一种采用如权利要求1-5任一项所述方法的基于BERT与门控类注意力增强网络的机器阅读理解系统,其特征在于,包括:
数据收集模块,收集中国中学生英语考试中的阅读理解多选题,并标注每篇文章的每个问题对应的答案选项类别,构建带类别标签的训练集S;
BERT编码器模块,由嵌入层和多层Transformer编码网络组成;将训练集S的每个(文章、问题、答案选项)三元组形式的训练样本被送入BERT编码器模块,从而获取到融合序列上下文信息的高层语义特征表示,并送入门控类注意力增强网络;
门控类注意力网络模块,更新[CLS]表示的权重,在减少下游任务计算量的同时,让类向量专注于与序列其他部分交互匹配,并充分聚合这些匹配特征,得到聚合信息vL2;最后将vL2馈送到预测层用于预测选项答案;
选项预测模块,预测层把前文得到的聚合信息vL2通过一个全连接层和Softmax去预测最终的答案选项;根据目标损失函数,利用反向传播方法计算深度学习网络模型GCAN-BERT中的各参数的梯度,并利用随机梯度下降方法更新参数;
网络训练模块,当深度学习网络模型GCAN-BERT产生的损失值迭代变化小于设定阈值、或者达到最大迭代次数,终止深度学习网络模型GCAN-BERT的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210035885.3A CN114398976B (zh) | 2022-01-13 | 基于bert与门控类注意力增强网络的机器阅读理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210035885.3A CN114398976B (zh) | 2022-01-13 | 基于bert与门控类注意力增强网络的机器阅读理解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114398976A true CN114398976A (zh) | 2022-04-26 |
CN114398976B CN114398976B (zh) | 2024-06-07 |
Family
ID=
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926206A (zh) * | 2022-05-18 | 2022-08-19 | 阿里巴巴(中国)有限公司 | 预测模型的训练方法、物品销售信息的预测方法及装置 |
CN115080715A (zh) * | 2022-05-30 | 2022-09-20 | 重庆理工大学 | 基于残差结构和双向融合注意力的跨度提取阅读理解方法 |
CN115081428A (zh) * | 2022-07-22 | 2022-09-20 | 粤港澳大湾区数字经济研究院(福田) | 一种处理自然语言的方法、自然语言处理模型、设备 |
CN116108153A (zh) * | 2023-02-14 | 2023-05-12 | 重庆理工大学 | 一种基于门控机制的多任务联合训练机器阅读理解方法 |
CN117171712A (zh) * | 2023-11-03 | 2023-12-05 | 中关村科学城城市大脑股份有限公司 | 辅助信息生成方法、装置、电子设备和计算机可读介质 |
CN117708568A (zh) * | 2024-02-02 | 2024-03-15 | 智慧眼科技股份有限公司 | 大语言模型的特征提取方法、装置、计算机设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633730A (zh) * | 2019-08-07 | 2019-12-31 | 中山大学 | 一种基于课程学习的深度学习机器阅读理解训练方法 |
CN112183085A (zh) * | 2020-09-11 | 2021-01-05 | 杭州远传新业科技有限公司 | 机器阅读理解方法、装置、电子设备及计算机存储介质 |
CN112464643A (zh) * | 2020-11-26 | 2021-03-09 | 广州视源电子科技股份有限公司 | 一种机器阅读理解方法、装置、设备及存储介质 |
CN112560432A (zh) * | 2020-12-11 | 2021-03-26 | 中南大学 | 基于图注意力网络的文本情感分析方法 |
WO2021184311A1 (zh) * | 2020-03-19 | 2021-09-23 | 中山大学 | 一种自动生成可推理问答的方法和装置 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633730A (zh) * | 2019-08-07 | 2019-12-31 | 中山大学 | 一种基于课程学习的深度学习机器阅读理解训练方法 |
WO2021184311A1 (zh) * | 2020-03-19 | 2021-09-23 | 中山大学 | 一种自动生成可推理问答的方法和装置 |
CN112183085A (zh) * | 2020-09-11 | 2021-01-05 | 杭州远传新业科技有限公司 | 机器阅读理解方法、装置、电子设备及计算机存储介质 |
CN112464643A (zh) * | 2020-11-26 | 2021-03-09 | 广州视源电子科技股份有限公司 | 一种机器阅读理解方法、装置、设备及存储介质 |
CN112560432A (zh) * | 2020-12-11 | 2021-03-26 | 中南大学 | 基于图注意力网络的文本情感分析方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926206A (zh) * | 2022-05-18 | 2022-08-19 | 阿里巴巴(中国)有限公司 | 预测模型的训练方法、物品销售信息的预测方法及装置 |
CN115080715A (zh) * | 2022-05-30 | 2022-09-20 | 重庆理工大学 | 基于残差结构和双向融合注意力的跨度提取阅读理解方法 |
CN115080715B (zh) * | 2022-05-30 | 2023-05-30 | 重庆理工大学 | 基于残差结构和双向融合注意力的跨度提取阅读理解方法 |
CN115081428A (zh) * | 2022-07-22 | 2022-09-20 | 粤港澳大湾区数字经济研究院(福田) | 一种处理自然语言的方法、自然语言处理模型、设备 |
CN116108153A (zh) * | 2023-02-14 | 2023-05-12 | 重庆理工大学 | 一种基于门控机制的多任务联合训练机器阅读理解方法 |
CN116108153B (zh) * | 2023-02-14 | 2024-01-23 | 重庆理工大学 | 一种基于门控机制的多任务联合训练机器阅读理解方法 |
CN117171712A (zh) * | 2023-11-03 | 2023-12-05 | 中关村科学城城市大脑股份有限公司 | 辅助信息生成方法、装置、电子设备和计算机可读介质 |
CN117171712B (zh) * | 2023-11-03 | 2024-02-02 | 中关村科学城城市大脑股份有限公司 | 辅助信息生成方法、装置、电子设备和计算机可读介质 |
CN117708568A (zh) * | 2024-02-02 | 2024-03-15 | 智慧眼科技股份有限公司 | 大语言模型的特征提取方法、装置、计算机设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107578106B (zh) | 一种融合单词语义知识的神经网络自然语言推理方法 | |
CN110390397B (zh) | 一种文本蕴含识别方法及装置 | |
CN110413785A (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
CN111008293A (zh) | 基于结构化语义表示的视觉问答方法 | |
CN110737769A (zh) | 一种基于神经主题记忆的预训练文本摘要生成方法 | |
CN112000772B (zh) | 面向智能问答基于语义特征立方体的句子对语义匹配方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN113297364B (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN111274375A (zh) | 一种基于双向gru网络的多轮对话方法及系统 | |
CN115510814B (zh) | 一种基于双重规划的篇章级复杂问题生成方法 | |
CN110415071A (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN115331075A (zh) | 一种多模态场景图知识增强的对抗式多模态预训练方法 | |
CN114969278A (zh) | 一种基于知识增强图神经网络的文本问答模型 | |
CN114429143A (zh) | 一种基于强化蒸馏的跨语言属性级情感分类方法 | |
CN114429122A (zh) | 一种基于循环注意力的方面级情感分析系统和方法 | |
CN116028604A (zh) | 一种基于知识增强图卷积网络的答案选择方法及系统 | |
CN113609326B (zh) | 基于外部知识和目标间关系的图像描述生成方法 | |
CN114328866A (zh) | 应答流畅准确的强拟人化智能对话机器人 | |
CN110297894A (zh) | 一种基于辅助网络的智能对话生成方法 | |
CN111813907A (zh) | 一种自然语言问答技术中的问句意图识别方法 | |
CN115564049B (zh) | 一种双向编码的知识图谱嵌入方法 | |
CN111414466A (zh) | 一种基于深度模型融合的多轮对话建模方法 | |
CN116681078A (zh) | 一种基于强化学习的关键词生成方法 | |
CN113239678B (zh) | 一种面向答案选择的多角度注意力特征匹配方法及系统 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |