CN116414962A - 一种基于注意力机制的问答匹配方法 - Google Patents

一种基于注意力机制的问答匹配方法 Download PDF

Info

Publication number
CN116414962A
CN116414962A CN202310380121.2A CN202310380121A CN116414962A CN 116414962 A CN116414962 A CN 116414962A CN 202310380121 A CN202310380121 A CN 202310380121A CN 116414962 A CN116414962 A CN 116414962A
Authority
CN
China
Prior art keywords
question
answer
attention
word
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310380121.2A
Other languages
English (en)
Inventor
章韵
成会乔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310380121.2A priority Critical patent/CN116414962A/zh
Publication of CN116414962A publication Critical patent/CN116414962A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于自然语言处理技术领域,公开了一种基于注意力机制的问答匹配方法,上下文编码层将问题与答案句编码为词向量,注意力层从多角度进行信息提取,自注意力网络挖掘各文本的深层语义信息,交互注意力网络计算问题和答案间的关联特征,池化层对特征句子进行降维,聚合层聚合问答特征信息,预测层计算最终的问答匹配得分。本发明的问答匹配方法采用比较聚合框架,利用针对中文的预训练语言模型BERT‑base有效解决长距离依赖、一词多义等问题,结合多角度注意力,加强了问题和答案文本信息的关注,弥补了传统注意力不能有效获取问题与答案之间深层语义关系的缺陷,提高问答匹配的准确性。

Description

一种基于注意力机制的问答匹配方法
技术领域
本发明属于自然语言处理技术领域,具体的说是涉及一种基于注意力机制的问答匹配方法。
背景技术
问答系统一直以来都是自然语言处理技术领域关注的焦点,其主要目的是处理用户的查询请求,从现有的知识检索库中寻找与问题最接近的答案,并及时反馈给用户。问答匹配是问答系统的核心模块,如何加深对文本语义的理解特别是在中文语境下,有效提高问题与答案的匹配准确性,是当前亟待解决的重要问题。
问答匹配方法主要分为基于特征扩展的方法和基于深度学习的方法。基于特征扩展的方法利用人工构造复杂的规则特征,同时借助机器学习分类器等分类方法得到两者的匹配关系,这类方法依赖人工设计,并且模型不具有泛化能力,只能适应特定的数据集。
基于深度学习的方法主要包括基于表示和基于交互的文本匹配模型。基于表示的文本匹配模型通常使用孪生网络结构,使用神经网络提取句子的特征,对问句和答案进行独立编码,然后进一步计算问题和答案的匹配度。基于交互的文本匹配模型通常使用匹配聚合结构,先将问题和答案的较小单元进行匹配,然后将匹配结果聚合,再进一步计算两者的匹配分数。在这类方法模型中,词嵌入表示大多没有考虑到上下文,对文本的语义信息利用不充分,基于表示的匹配模型容易忽略问题和答案之间关联特征的提取,无法挖掘问题与答案之间复杂的语义关系,而基于交互的匹配模型,大多在单一层面进行交互,通常无法有效聚合局部与全局匹配信息。
随着问答系统对理解文本语义的要求越来越高,传统的问答匹配模型有着较大的缺陷。传统方法中使用的词向量编码技术如One-hot、Word2Vec等,存在维度过高、长距离依赖、一词多义等问题,同时由于中文语言的复杂性,传统编码技术不能有效利用文本全局的语义信息,并且模型通常对问题和答案进行相对独立的文本建模和特征提取,忽略两者之间的关联,无法捕捉到其复杂的语义关系。
发明内容
为了解决上述问题,本发明提供了一种基于注意力机制的问答匹配方法,弥补了传统注意力不能有效获取问题与答案之间深层语义关系的缺陷,提高问答匹配的准确性。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种基于注意力机制的问答匹配方法,包括如下步骤:
步骤S1、采集中文问答数据,构建问答对语料库,对语料库进行数据预处理,并对不同的问题类型进行标注,形成训练所需数据集;
步骤S2、将步骤S1所得预处理后的问句输入到上下文编码层,利用中文预训练语言模型BERT-base,通过BERT-base的位置嵌入、段嵌入和字嵌入,将其向量表示组合并编码后,得到问句带有上下文信息的词向量表示;同时通过BERT-base的位置嵌入、段嵌入和字嵌入,将其向量表示组合并编码后,得到答案句带有上下文信息的词向量表示;
步骤S3、将步骤S2得到的问句和答案句词向量表示分别输入到自注意力网络,计算问句和答案句中不同单词之间的语义关系,获取局部重要特征;
步骤S4、将步骤S2得到的问句和答案句词向量表示输入到交互注意力网络,获取问句和答案句之间的交互特征,捕捉问句和答案文本之间的语义关联;
步骤S5、将步骤S3和步骤S4得到的输出分别输入到前馈神经网络进行聚合,获得问句和答案句的聚合特征矩阵;
步骤S6、将步骤S5得到的聚合特征矩阵输入到池化层,进行降维处理,采用平均池化得到聚合特征向量;
步骤S7、将步骤S6的输出进一步输入到预测层,采用余弦相似度计算问句与答案的匹配分数,同时使用最小化均方差来训练模型。
本发明的进一步改进在于:步骤S1中的具体数据处理过程为:采集中文问答数据,构建问答对语料库,使用jieba工具对语料库进行数据清洗、分词和去停用词,并对不同的问题类型进行标注。其中,数据清洗主要包括去除特殊符号、去除多余空白和繁体转换为简体;分词是将问题序列和答案序列进行切分;去停用词是利用哈工大中文停用词表去除文本中经常出现但没有实际意义的词语
本发明的进一步改进在于:步骤S2中利用针对中文表示的BERT-base预训练语言模型进行上下文编码。通过BERT-base的位置嵌入、段嵌入和字嵌入,将其向量表示组合并编码后,得到问句带有上下文信息的词向量表示EQ;同时通过BERT-base的位置嵌入、段嵌入和字嵌入,将其向量表示组合并编码后,得到答案句带有上下文信息的词向量表示EA,计算公式如下:
Figure BDA0004171839610000031
其中,Otok、Oseg、Opos分别代表字嵌入、段嵌入和位置嵌入的向量表示,W为对应权重,H为输出维度,E表示最终输出的词向量表示。
本发明的进一步改进在于:步骤S3的自注意力网络分别提取问句和答案句的主要特征,具体采用Transformer编码器,主要包括多头自注意力机制和前馈神经网络,由于嵌入层BERT中已有位置编码,因此去除了其位置编码部分。S3的具体步骤为:
S3-1:确定查询向量参数矩阵WQ、键向量参数矩阵WK、值向量参数矩阵WV
S3-2:计算查询向量Q、键向量K、值向量V:
Q=EWQ,K=EWK,V=EWV
S3-3:计算自注意力:
Figure BDA0004171839610000032
其中:dk表示键向量K的维度,KT表示键向量K的转置,Softmax()为归一化函数。
S3-4:计算多头自注意力,将多个自注意力矩阵进行拼接,并用附加的权重矩阵与其相乘进行压缩,计算公式为:
Z=MultiHead(Q,K,V)=Concat(head1,head2,...,headk)W0
headi=Attention(QWi Q,KWi K,VWi V)
其中,Z为多头自注意力矩阵,headi表示第i个自注意力矩阵,W0为附加权重矩阵,Concat()表示拼接函数。
S3-5:得到多头自注意力表示ZQ、ZA后,将其输入到前馈神经网络中,获得最终输出向量TQ、TA
本发明的进一步改进在于:步骤S4利用交互注意力网络计算问句和答案句的交互信息,具体步骤为:
S4-1:计算问句和答案句的交互矩阵M,公式为:
Figure BDA0004171839610000041
其中,EQ、EA为问句和答案句词嵌入矩阵。
S4-2:对交互矩阵M中的每一行进行归一化,作为答案句的每一个词的注意力权重,公式为:
MQ=Softmax(M)EA
S4-3:对交互矩阵M中的每一列进行归一化,作为问句的每一个词的注意力权重,公式为:
MA=Softmax(M)EQ
其中,Softmax()为归一化函数,MQ、MA为交互特征矩阵,包含了问句和答案句在词级别的交互信息。
本发明的进一步改进在于:步骤S5主要由三个前馈神经网络组成,一个前馈神经网络用于聚合信息表示,采用tanh激活函数;另外两个前馈神经网络为保证将输出值限制在0-1之间,均采用sigmod激活函数。
S5的具体步骤为:
S5-1:对矩阵进行拼接,计算公式为:
Figure BDA0004171839610000042
S5-2:将拼接函数输入到三个前馈神经网络中:
σ=tanh(αW1+b1)
β1=sigmod(αW2+b2)
β1=sigmod(αW3+b3)
S5-3:得到最终的聚合特征矩阵:
Figure BDA0004171839610000043
其中,Concat()表示拼接函数,MQ、MA表示问句和答案句的交互特征矩阵,
Figure BDA0004171839610000044
为矩阵相乘。
作为本发明的进一步改进,步骤S6具体为:平均池化操作是选取池化窗口的平均值,对聚合特征矩阵进行降维处理,获得聚合特征向量,公式表示为:
Figure BDA0004171839610000045
其中,R为聚合特征向量,ci为聚合特征矩阵C中第i个特征向量。
本发明的进一步改进在于:步骤S7中预测层使用余弦相似度函数计算问句和答案句的匹配得分,表示为:
score=cosine(RQ,RA)
本发明的进一步改进在于:本发明用最小化均方差来训练模型,损失函数为:
Figure BDA0004171839610000051
其中,n为样本总数,yi表示真实的问答匹配值,y′i表示预测的问答匹配值。
本发明的有益效果是:本发明的问答匹配方法采用比较聚合框架,通过BERT-base中文预训练语言模型进行问答文本的上下文编码,获得问答文本带有上下文信息的词向量表示,针对中文语言的复杂性,有效解决长距离依赖、一词多义等问题;注意力层从多角度加强了对问题和答案文本信息的关注,自注意力网络挖掘各文本的深层语义信息,交互注意力网络获取问题和答案间关联特征的权重信息;同时前馈神经网络有效聚合特征信息,提高问题与答案的匹配准确性。
附图说明
图1是本发明的流程示意图。
图2是本发明的模型结构图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
本发明提供了一种基于注意力机制的问答匹配方法,通过BERT-base中文预训练语言模型获得带有上下文信息的词嵌入矩阵,针对中文语言的复杂性,解决长距离依赖、一词多义等问题。自注意力网络和交互注意力网络从多个角度加强了问题和答案文本信息的关注,同时前馈神经网络有效聚合特征信息,提高问题与答案的匹配准确性。
问答匹配模型主要包括上下文编码层、注意力层、聚合层、池化层和预测层。具体包括如下步骤:
步骤S1:采集中文问答数据,构建问答对语料库,使用jieba工具对语料库进行数据清洗、分词和去停用词,并对不同的问题类型进行标注。其中,数据清洗主要包括去除特殊符号、去除多余空白和繁体转换为简体;分词是将问题序列和答案序列进行切分;去停用词是利用哈工大中文停用词表去除文本中经常出现但没有实际意义的词语。
步骤S2:将步骤S1所得预处理后的问句输入到上下文编码层,利用中文预训练语言模型BERT-base,通过BERT-base的位置嵌入、段嵌入和字嵌入,将其向量组合并编码后,得到问句带有上下文信息的词向量表示EQ;同时通过BERT-base的位置嵌入、段嵌入和字嵌入,将其向量表示组合并编码后,得到答案句带有上下文信息的词向量表示EA,计算公式如下:
Figure BDA0004171839610000061
其中,Otok、Oseg、Opos分别代表字嵌入、段嵌入和位置嵌入的向量表示,W为对应权重,H为输出维度,E表示最终输出的词向量表示。
步骤S3:将步骤S2得到的问句和答案句词向量表示分别输入到自注意力网络,计算问句和答案句中不同单词之间的语义关系,获取重要特征。自注意力网络主要采用Transformer编码器,主要包括多头自注意力机制和前馈神经网络,由于嵌入层BERT中已有位置编码,因此去除了其位置编码部分。自注意力网络的具体步骤为:
S3-1:确定查询向量参数矩阵WQ、键向量参数矩阵WK、值向量参数矩阵WV
S3-2:计算查询向量Q、键向量K、值向量V:
Q=EWQ,K=EWK,V=EWV
S3-3:计算自注意力:
Figure BDA0004171839610000062
其中,dk表示键向量K的维度,KT表示键向量K的转置,Softmax()为归一化函数。
S3-4:计算多头自注意力,将多个自注意力矩阵进行拼接,并用附加的权重矩阵与其相乘进行压缩,计算公式为:
Z=MultiHead(Q,K,V)=Concat(head1,head2,...,headk)W0
headi=Attention(QWi Q,KWi K,VWi V)
其中,Z为多头自注意力矩阵,headi表示第i个自注意力矩阵,W0为附加权重矩阵,Concat()表示拼接函数。
S3-5:得到多头自注意力表示ZQ、ZA后,将其输入到前馈神经网络中,获得最终输出向量TQ、TA
步骤S4:将步骤S2得到的问句和答案句词嵌入矩阵EQ、EA输入到交互注意力网络,获取问句和答案句之间的交互特征。交互注意力网络的具体步骤为:
S4-1:计算问句和答案句的交互矩阵M:
Figure BDA0004171839610000071
其中,EQ、EA为问句和答案句词嵌入矩阵。
S4-2:对交互矩阵M中的每一行进行归一化,作为答案句的每一个词的注意力权重,计算公式为:
MQ=Softmax(M)EA
S4-3:对交互矩阵M中的每一列进行归一化,作为问句的每一个词的注意力权重,计算公式为:
MA=Softmax(M)EQ
其中,Softmax()为归一化函数,MQ、MA为交互特征矩阵,包含了问句和答案句在词级别的交互信息。
步骤S5:将步骤S3和步骤S4得到的输出分别输入到前馈神经网络进行聚合,获得问句和答案句的聚合特征矩阵CQ、CA。聚合层由三个前馈神经网络组成,一个前馈神经网络用于聚合信息表示,采用tanh激活函数;另外两个前馈神经网络为保证将输出值限制在0-1之间,均采用sigmod激活函数。具体步骤为:
S5-1:对矩阵进行拼接,计算公式为:
Figure BDA0004171839610000072
S5-2:将拼接矩阵输入到三个前馈神经网络中:
σ=tanh(αW1+b1)
β1=sigmod(αW2+b2)
β1=sigmod(αW3+b3)
S5-3:得到最终的聚合特征矩阵:
Figure BDA0004171839610000073
其中,Concat()表示拼接函数,MQ、MA表示问句和答案句的交互特征矩阵,
Figure BDA0004171839610000083
为矩阵相乘。
步骤S6:将步骤S5得到的聚合特征矩阵输入到池化层,进行降维处理,采用平均池化得到聚合特征向量,池化操作主要分为最大池化和平均池化,本发明采用平均池化,即选取池化窗口的平均值,可以表示为:
Figure BDA0004171839610000081
其中,R为聚合特征向量,ci为聚合特征矩阵C中第i个特征向量。
步骤S7:将步骤S6的输出输入到预测层得到问句与答案的匹配分数,具体采用余弦相似度函数,表示为:
score=cosine(RQ,RA)
同时采用最小化均方差来训练模型,损失函数为:
Figure BDA0004171839610000082
其中,n为样本总数,yi表示真实的问答匹配值,y′i表示预测的问答匹配。
本发明弥补了传统注意力不能有效获取问题与答案之间深层语义关系的缺陷,提高问答匹配的准确性。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于注意力机制的问答匹配方法,所述问答匹配方法包括问答匹配模型,所述问答匹配模型包括上下文编码层、注意力层、聚合层、池化层和预测层,其特征在于:所述问答匹配方法具体包括如下步骤:
步骤1、采集中文问答数据,构建问答对语料库,对问答对语料库进行数据预处理,并对不同的问题类型进行标注,形成训练所需数据集;
步骤2、将步骤1所得预处理后的问句输入到所述上下文编码层,利用中文预训练语言模型BERT-base,通过BERT-base的位置嵌入、段嵌入和字嵌入,将其向量表示组合并编码后,得到问句带有上下文信息的词向量表示;同时通过BERT-base的位置嵌入、段嵌入和字嵌入,将其向量表示组合并编码后,得到答案句带有上下文信息的词向量表示;
步骤3、将步骤2得到的问句和答案句词向量表示分别输入到自注意力网络,计算问句和答案句中不同单词之间的语义关系,获取局部重要特征;
步骤4、将步骤2得到的问句和答案句词向量表示输入到交互注意力网络,获取问句和答案句之间的交互特征,捕捉问句和答案文本之间的语义关联;
步骤5、将步骤3和步骤4得到的输出分别输入到聚合层进行聚合,获得问句和答案句的聚合特征矩阵;
步骤6、将步骤5得到的聚合特征矩阵输入到池化层,采用平均池化进行降维处理,得到聚合特征向量;
步骤7、将步骤6的输出输入到预测层,采用余弦相似度计算问句与答案的匹配分数,同时使用最小化均方差来训练模型。
2.根据权利要求1所述的一种基于注意力机制的问答匹配方法,其特征在于:步骤3的自注意力网络采用Transformer编码器,分别提取问句和答案句的主要特征,包括多头自注意力机制和前馈神经网络,Transformer编码器首先使用多头自注意力机制分别处理问句和答案句的词嵌入矩阵,得到每个词的自注意力权重表示,然后通过前馈神经网络获得最终输出。
3.根据权利要求2所述的一种基于注意力机制的问答匹配方法,其特征在于:所述自注意力网络的步骤具体为:
步骤3-1:确定查询向量参数矩阵WQ、键向量参数矩阵WK、值向量参数矩阵WV
步骤3-2:计算查询向量Q、键向量K、值向量V:
Q=EWQ,K=EWK,V=EWV
步骤3-3:计算自注意力:
Figure QLYQS_1
其中dk为键向量K的维度,KT为键向量K的转置,Softmax()为归一化函数;
步骤3-4:计算多头自注意力,将多个自注意力矩阵进行拼接,并用附加的权重矩阵与其相乘进行压缩,计算公式为:
Z=MultiHead(Q,K,V)=Concat(head1,head2,...,headk)W0
headi=Attention(QWi Q,KWi K,VWi V)
其中,Z为多头自注意力矩阵,headi表示第i个自注意力矩阵,W0为附加权重矩阵,Concat()表示拼接函数;
步骤3-5:得到多头自注意力表示后,将其输入到前馈神经网络中,获得最终输出向量。
4.根据权利要求3所述的一种基于注意力机制的问答匹配方法,其特征在于:步骤4具体包括如下步骤:
步骤4-1:计算问句和答案句的交互矩阵M:
Figure QLYQS_2
其中,EQ、EA为问句和答案句词嵌入矩阵;
步骤4-2:对交互矩阵M中的每一行进行归一化,作为答案句的每一个词的注意力权重,计算公式为:
MQ=Softmax(M)EA
步骤4-3:对交互矩阵M中的每一列进行归一化,作为问句的每一个词的注意力权重,计算公式为:
MA=Softmax(M)EQ
其中,Softmax()为归一化函数,MQ、MA为交互特征矩阵,包含了问句和答案句在词级别的交互信息。
5.根据权利要求4所述的一种基于注意力机制的问答匹配方法,其特征在于:步骤5的聚合层主要由三个前馈神经网络组成,一个前馈神经网络用于聚合信息表示,采用tanh激活函数,另外两个前馈神经网络为保证将输出值限制在0-1之间,均采用sigmod激活函数。
6.根据权利要求5所述的一种基于注意力机制的问答匹配方法,其特征在于:所述步骤5的具体包括如下步骤为:
步骤5-1:对矩阵进行拼接,计算公式为:
Figure QLYQS_3
步骤5-2:将拼接矩阵输入到三个前馈神经网络中:
σ=tanh(αW1+b1)
β1=sigmod(αW2+b2)
β1=sigmod(αW3+b3)
步骤5-3:得到最终的聚合特征矩阵:
Figure QLYQS_4
其中,Concat()为拼接函数,MQ、MA表示问句和答案句的交互特征矩阵,
Figure QLYQS_5
为矩阵相乘。
7.根据权利要求6所述的一种基于注意力机制的问答匹配方法,其特征在于:步骤6采用平均池化对聚合特征矩阵进行降维处理,获得聚合特征向量,表示为:
Figure QLYQS_6
其中,R为聚合特征向量,ci为聚合特征矩阵C中第i个特征向量。
8.根据权利要求7所述的一种基于注意力机制的问答匹配方法,其特征在于:步骤7预测层使用余弦相似度函数计算问句和答案句的匹配得分,表示为:
score=cosine(RQ,RA)。
9.根据权利要求8所述的一种基于注意力机制的问答匹配方法,其特征在于:使用最小化均方差来训练模型,损失函数为:
Figure QLYQS_7
其中:n为样本总数,yi表示真实的问答匹配值,y′i表示预测的问答匹配值。
10.根据权利要求1-9任一项所述的一种基于注意力机制的问答匹配方法,其特征在于:步骤1的数据预处理过程为:采集中文问答数据,构建问答对语料库,使用jieba工具对语料库进行数据清洗、分词和去停用词,并对不同的问题类型进行标注,其中,数据清洗主要包括去除特殊符号、去除多余空白和繁体转换为简体;分词是将问题序列和答案序列进行切分;去停用词是利用哈工大中文停用词表去除文本中经常出现但没有实际意义的词语。
CN202310380121.2A 2023-04-11 2023-04-11 一种基于注意力机制的问答匹配方法 Pending CN116414962A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310380121.2A CN116414962A (zh) 2023-04-11 2023-04-11 一种基于注意力机制的问答匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310380121.2A CN116414962A (zh) 2023-04-11 2023-04-11 一种基于注意力机制的问答匹配方法

Publications (1)

Publication Number Publication Date
CN116414962A true CN116414962A (zh) 2023-07-11

Family

ID=87049234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310380121.2A Pending CN116414962A (zh) 2023-04-11 2023-04-11 一种基于注意力机制的问答匹配方法

Country Status (1)

Country Link
CN (1) CN116414962A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610791A (zh) * 2023-07-20 2023-08-18 中国人民解放军国防科技大学 针对结构化信息的基于语义分析的问答方法、系统及设备
CN117556027A (zh) * 2024-01-12 2024-02-13 一站发展(北京)云计算科技有限公司 基于数字人技术的智能交互系统及方法
CN117725210A (zh) * 2023-11-16 2024-03-19 南京审计大学 一种面向社会化问答平台的恶意用户检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610791A (zh) * 2023-07-20 2023-08-18 中国人民解放军国防科技大学 针对结构化信息的基于语义分析的问答方法、系统及设备
CN116610791B (zh) * 2023-07-20 2023-09-29 中国人民解放军国防科技大学 针对结构化信息的基于语义分析的问答方法、系统及设备
CN117725210A (zh) * 2023-11-16 2024-03-19 南京审计大学 一种面向社会化问答平台的恶意用户检测方法
CN117556027A (zh) * 2024-01-12 2024-02-13 一站发展(北京)云计算科技有限公司 基于数字人技术的智能交互系统及方法
CN117556027B (zh) * 2024-01-12 2024-03-26 一站发展(北京)云计算科技有限公司 基于数字人技术的智能交互系统及方法

Similar Documents

Publication Publication Date Title
WO2021031480A1 (zh) 文本生成方法和装置
CN116414962A (zh) 一种基于注意力机制的问答匹配方法
CN107480132A (zh) 一种基于图像内容的古诗词生成方法
CN111930887B (zh) 基于联合训练方式的多文档多答案机器阅读理解系统
CN111723547A (zh) 一种基于预训练语言模型的文本自动摘要方法
CN115471851B (zh) 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN111428443B (zh) 一种基于实体上下文语义交互的实体链接方法
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN112256847B (zh) 融合事实文本的知识库问答方法
CN111291188A (zh) 一种智能信息抽取方法及系统
CN114595306B (zh) 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN113901831B (zh) 基于预训练语言模型及双向交互注意力的平行句对抽取方法
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN113704437A (zh) 一种融合多头注意力机制和相对位置编码的知识库问答方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112966518B (zh) 一种面向大规模在线学习平台的优质答案识别方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN112926340B (zh) 一种用于知识点定位的语义匹配模型
Wei et al. Stack-vs: Stacked visual-semantic attention for image caption generation
CN116451699A (zh) 一种基于注意力机制的片段抽取式机器阅读理解方法
CN114996438A (zh) 一种多策略强化学习的汉越跨语言摘要生成方法
CN114238649A (zh) 一种常识概念增强的语言模型预训练方法
Yu et al. Sentence semantic matching with hierarchical CNN based on dimension-augmented representation
Li et al. Tst-gan: A legal document generation model based on text style transfer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination