CN111428499A - 一种融合近义词信息用于自动问答系统的成语压缩表示方法 - Google Patents

一种融合近义词信息用于自动问答系统的成语压缩表示方法 Download PDF

Info

Publication number
CN111428499A
CN111428499A CN202010342653.3A CN202010342653A CN111428499A CN 111428499 A CN111428499 A CN 111428499A CN 202010342653 A CN202010342653 A CN 202010342653A CN 111428499 A CN111428499 A CN 111428499A
Authority
CN
China
Prior art keywords
representation
vector
answer
layer
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010342653.3A
Other languages
English (en)
Other versions
CN111428499B (zh
Inventor
戴新宇
汪然
龙思宇
陶堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010342653.3A priority Critical patent/CN111428499B/zh
Publication of CN111428499A publication Critical patent/CN111428499A/zh
Application granted granted Critical
Publication of CN111428499B publication Critical patent/CN111428499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种融合近义词信息用于自动问答系统的成语压缩表示方法,包括:步骤1,通过文章表示层得到文章P中每个词的压缩向量表示,用占位符的向量表示作为文章P的整体表示q;步骤2,建立答案表示层,通过答案表示层得到候选成语答案的向量表示;步骤3,通过预训练的词向量查找候选答案的近义词,并通过答案表示层得到近义词的向量压缩表示;步骤4,通过交互层,将步骤1得到的文章整体表示q与步骤2得到的候选答案的向量表示,以及步骤3得到的近义词的向量压缩表示进行交互,融入文章信息;步骤5,将近义词信息融合到候选答案的向量表示中;步骤6,采用门控机制将步骤4得到的成语候选答案向量表示与步骤5得到的融合近义词信息的成语候选答案向量表示进行融合。

Description

一种融合近义词信息用于自动问答系统的成语压缩表示方法
技术领域
本发明属于自然语言处理领域,尤其涉及一种融合近义词信息用于自动问答系统的成语压缩表示方法。
背景技术
目前,设计自动问答系统让计算机回答人类提出的问题是人工智能领域的一项热门挑战,并在实际生活场景中也有广泛的应用,例如搜索引擎、智能客服、考试机器人等。其中,完型填空问答是自动问答里一个重要的表现形式,计算机读取包含占位符的文章,然后从候选答案集中选出正确答案替换占位符。主流的方法主要包括传统机器学习方法和神经网络方法。传统机器学习方法主要基于人工设计的特征,通过答案排序得到最终答案。神经网络方法不需要人工精心设计特征,采用端到端的方式让机器自动学习对回答问题有用的特征。因为参数多、计算函数复杂等特点,神经网络相比于传统机器学习方法取得了更好的性能。
虽然神经网络方法取得了很大的进展,但是对于一些简短但包含丰富语义的词,例如中文里的成语,处理方法不是很好,极大限制了现有自动问答系统的性能。成语由于其特有的非字面性和非组合性,导致基于大规模语料预训练得到的词嵌入表示或者基于字嵌入表示组合的方法均不能取得较理想的效果。因此,如何学习得到成语更好的向量表示是一个非常困难的问题,在其他自然语言任务中同样也存在这一问题。
成语在日常对话和写作中无处不在,因为其独有的非字面性和非组合性,如何解决成语表示问题成了各个自然语言处理任务的难点。下面主要介绍在问答系统中涉及成语的一些工作。
Jiang等人([Jiang et al.,2018]Chengyu Cloze Test)采用引入成语释义的方法。作者通过两个双向长短时记忆网络(Bi-LSTM)分别对问题和候选成语的释义编码,然后用成语释义编码得到的向量表示(选取释义最后一个词的向量)作为成语的整体表示,与问题里每一个词的向量表示做注意力交互,最后将问题词向量的加权和表示作为输入,经过答案预测层得到该选项是正确答案的概率。
Liu等人([Liu et al.,2019]Neural-based Chinese Idiom Recommendationfor Enhancing Elegance in Essay Writing)采用机器翻译中的Seq2Seq结构,将问题作为源端输入,成语作为目标端的输出,训练一个Seq2Seq模型。测试的时候将预测答案与预先给定的成语集合里的成语算编辑距离,距离最小的为最终答案。
Zheng等人([Zheng et al.,2019]ChID:A Large-scale Chinese IDiom Datasetfor Cloze Test)采用了三种方法,分别为:1)语言模型的方法,通过双向长短时记忆网络(Bi-LSTM)得到占位符的向量表示,然后与候选答案向量表示做内积匹配,最大的选为预测答案;2)Hermann等人([Hermann et al.,2015]Teaching machines to read andcomprehend)提出的Attentive Reader(AR)模型,通过双向长短时记忆网络(Bi-LSTM)得到占位符的向量表示后,与问题里的其他词做注意力交互,将问题词向量的加权和表示与答案向量做匹配;3)Chen等人([Chen et al.,2016]A thorough examination of the cnn/daily mail reading comprehension task)提出的Stanford Attentive Reader(SAR)模型,与Attentive Reader模型不同,这里注意力交互为双线性注意力机制。虽然这三种方法模型结构有所差别,但对于成语候选答案的表示方法一样,将成语看作普通的多字词处理,采用腾讯公开发布的词嵌入表示([Song et al.,2018]Directional Skip-Gram:Explicitly Distinguishing Left and Right Context for Word Embeddings)作为成语的初始化表示,并在训练过程中进行微调。
Jiang等人([Jiang et al.,2018]Chengyu Cloze Test)通过对成语释义编码得到成语的向量表示,当成语释义无法获得或者释义质量较差时,Jiang等人提出的方法会受到影响。
Liu等人([Liu et al.,2019]Neural-based Chinese Idiom Recommendationfor Enhancing Elegance in Essay Writing)利用机器翻译中的Seq2Seq结构解码端直接预测成语,避开了直接对成语这种多字词本身的建模。当任务中需要直接使用成语的向量表示时,Liu等人的方法不适用。
Zheng等人([Zheng et al.,2019]ChID:A Large-scale Chinese IDiom Datasetfor Cloze Test)提出的方法基于公开发布的词嵌入表示,将成语作为普通的多字词处理,对于在训练语料中出现频率较低的成语,该方法效果不佳。
发明内容
发明目的:在自动问答系统中,由于成语特有的非字面性和非组合性,导致主流的词嵌入方法或者字嵌入方法并不能取得很好的效果。本发明需要解决的问题就是如何对中文成语这种简短但包含丰富语义的词学得一个好的压缩向量表示,进而提高自动问答系统的性能。
本发明具体提供一种融合近义词信息用于自动问答系统的成语压缩表示方法,包括如下步骤:
步骤1,通过文章表示层得到文章P中每个词的压缩向量表示,用占位符的向量表示作为文章P的整体表示q;
步骤2,建立答案表示层,所述答案为成语,通过答案表示层得到候选答案A={a1,a2,…,am}的向量表示,向量表示为{b1,b2,…,bm},其中m表示候选答案的个数,ai表示第i个候选答案,bi表示第i个候选答案ai的向量表示,i取值为1~m;
步骤3,根据预训练的词向量查找候选答案的近义词:设第i个候选答案ai得到的近义词为
Figure BDA0002469025920000031
其中
Figure BDA0002469025920000032
表示候选答案ai对应近义词的个数,设置最大近义词个数lmax(比如设置为7),
Figure BDA0002469025920000033
最大取值为lmax。cij∈Ci表示候选答案ai得到的第j个近义词,j取值为
Figure BDA0002469025920000034
通过答案表示层得到第i个候选答案ai对应的近义词的向量压缩表示
Figure BDA0002469025920000035
Figure BDA0002469025920000036
表示
Figure BDA0002469025920000037
的向量压缩表示;
步骤4,用步骤1得到的文章整体表示q与步骤2得到的候选答案的向量表示{b1,b2,…,bm},以及步骤3得到的近义词的向量压缩表示{D1,D2,…,Dm}进行交互,融入文章信息;
步骤5,采用注意力机制,将近义词信息融合进候选答案表示中;
步骤6,采用门控机制将步骤4中得到的融入文章信息的答案表示与步骤5中得到的融合近义词信息的答案表示进行融合。
步骤1中,所述文章表示层包括一个中文预训练语言模型,用语言模型最上层隐层向量作为词的压缩向量表示,这里选用BERT-wwm([Cui et al.,2019]Pre-Training withWhole Word Masking for Chinese BERT),得到文章P的整体表示q。
步骤2中,所述答案表示层包括一个词嵌入表示层和一个线性变化层,词嵌入表示层将每个成语答案映射为固定维度的向量,可以采用随机初始化或者预训练好的词向量,这里采用腾讯开源的中文词向量([Song et al.,2018]Directional Skip-Gram:Explicitly Distinguishing Left and Right Context for Word Embeddings),并随着问答系统训练过程进行微调。线性变化层为一层前馈神经网络,使答案向量维度与文章表示q一致,方便进行交互,权重矩阵和偏置向量随着问答系统训练得到。
步骤4包括:
步骤4-1,将候选答案的向量表示{b1,b2,…,bm}与文章P的整体表示q通过按位点乘交互,融入文章信息:
ei=q⊙bi
ei表示bi融入文章信息更新后的表示,则{b1,b2,…,bm}更新后的表示记为{e1,e2,…,em};
步骤4-2,将近义词的向量压缩表示{D1,D2,…,Dm}与文章P的整体表示q通过按位点乘交互,融入文章信息:
fij=q⊙dij
fij表示dij融入文章信息更新后的表示,则{D1,D2,…,Dm}更新后的表示记为{F1,F2,…,Fm},其中
Figure BDA0002469025920000041
步骤5包括:
步骤5-1,将融入文章信息的候选答案表示{e1,e2,…,em}通过两层前馈神经网络,所述前馈神经网络包含两个权重矩阵
Figure BDA0002469025920000042
两个偏置向量
Figure BDA0002469025920000043
以及激活函数ReLU,
Figure BDA0002469025920000044
表示d×d维的实数矩阵,d为步骤1中得到的文章整体表示q的维度;权重矩阵和偏置向量通过问答系统训练得到。通过残差网络的方法([He et al.,2015]DeepResidual Learning for Image Recognition),与原向量表示ei相加,为了加快收敛,最外层加上Layer Normalization层归一化([Ba et al.,2016]Layer Normalization)。更新后的答案表示记为gi
Figure BDA0002469025920000045
其中,LN即表示LayerNormalization层归一化;
步骤5-2,将融入文章信息的答案相关近义词表示{F1,F2,…,Fm}通过与步骤5-1中同样的前馈神经网络后与原向量表示fij相加,并在最外层加上Layer Normalization层归一化([Ba et al.,2016]Layer Normalization)。其中Fi对应的更新后向量表示记为
Figure BDA0002469025920000051
并与步骤5-1得到的gi拼接构成一个矩阵Ni
Figure BDA0002469025920000052
其中,
Figure BDA0002469025920000053
表示第i个候选答案对应近义词的个数,
Figure BDA0002469025920000054
表示
Figure BDA0002469025920000055
对应的更新后向量表示;
步骤5-3,采用多头注意力机制([Vaswani et al.,2017]Attention is all youneed),将候选答案与近义词映射到不同语义空间中计算相似度,head的个数为k,求取第j个语义空间里Ni中向量投影后的加权和表示headj
Figure BDA0002469025920000056
其中,
Figure BDA0002469025920000057
是跟着问答系统一起训练的参数,j取值为1~k,softmax为归一化函数;
步骤5-4,通过如下公式得到融合近义词信息的答案向量表示pi
Figure BDA0002469025920000058
其中
Figure BDA0002469025920000059
是跟着问答系统一起训练的参数。
步骤6包括如下步骤:
步骤6-1,采用门控机制计算融合近义词信息的答案向量表示占的权重α:
α=σ(Wggi+bg)
其中,σ表示sigmoid激活函数,
Figure BDA00024690259200000510
为权重矩阵,
Figure BDA00024690259200000511
为一维向量,Wg和bg跟着问答系统一起训练;
步骤6-2,基于α将更新后的答案表示gi和融合近义词信息的答案向量表示pi融合,为了加快收敛,最外层加上Layer Normalization层归一化([Ba et al.,2016]LayerNormalization),得到最终的答案向量表示qi
qi=LN(α·pi+(1-α)·gi)。
本发明方法还包括步骤7:将最终得到的答案向量表示输入给问答系统的下游模块,即答案预测层解题。
步骤7包括:计算每个候选答案ai作为答案的概率Pr(ai|P):
Figure BDA0002469025920000061
其中softmax为归一化函数,
Figure BDA0002469025920000062
为一维向量,
Figure BDA0002469025920000063
Q={q1,q2,…,qm}为步骤6-2得到的最终答案向量表示,softmaxi表示取
Figure BDA0002469025920000064
的第i个元素,uo和bo跟着问答系统一起训练。
本发明提出的方法,在成语向量表示中融入了近义词信息,这样对于一些出现频率较少的词,可以通过近义词得到更多的信息丰富表示。并且相比于引入成语释义的方法,近义词信息更容易获取,因此本发明的方法更容易实施。
本发明具有如下有益效果:
技术层面:
1原有词嵌入和字嵌入方法均不能有效解决如何有效表示成语的问题。将成语看作普通的多字词处理,对于一些罕见的成语效果不佳。并且因为成语特有的非字面性和非组合性,将成语用多个字嵌入表示组合的方法也不能取得理想的结果。本发明通过引入近义词信息,丰富了成语的压缩表示,并提升了自动问答系统的性能。
2本发明提供的查找成语近义词方法基于现有公开发布的大规模预训练词向量,并且通过人工验证合理,不需要额外的标注成本。
3相比于引入成语释义的方法,本发明的方法只借助成语近义词信息,并且经过实验验证,近义词方法效果优于引入成语释义的方法。
应用层面:本发明提出的融合近义词信息的成语压缩表示方法可以应用于任何涉及成语的基于向量嵌入表示的神经网络系统,不限于自动问答任务,可以方便地扩展到任何自然语言处理任务。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是实施例提供的一个基于神经网络的完型填空问答系统的流程图。
图2是答案表示层的流程图。
图3是本发明方法结合基于神经网络的完型填空问答系统的流程图。
具体实施方式
实施例
本实施例给出一个基于神经网络的完型填空问答系统,流程图如图1所示。使用如下符号标记,包含占位符的文章为P,成语答案候选集合A={a1,a2,…,am}。如图所示,模型分为以下几步:
步骤1、通过文章表示层得到文章P中每个词的压缩向量表示,用占位符的向量表示作为文章的整体表示q。
步骤2、通过答案表示层得到候选答案A={a1,a2,…,am}的向量表示,向量表示为{b1,b2,…,bm}。
步骤3、通过交互层将步骤1得到的文章表示q和步骤2得到的答案表示{b1,b2,…,bm}进行交互,得到融入文章信息的答案表示{e1,e2,…,em}。
步骤4、答案预测层根据融入文章信息的答案表示{e1,e2,…,em},选取最终答案。
这一流程中,步骤1文章表示层使用哈工大发布的中文预训练语言模型BERT-wwm([Cui et al.,2019]Pre-Training with Whole Word Masking for Chinese BERT)。该语言模型在中文维基百科上训练,使用哈工大LTP作为分词工具,对组成同一个词的汉字全部进行Mask,相比于谷歌发布的原始BERT([Devlin et al.,2019]BERT:Pre-training ofDeep Bidirectional Transformers for Language Understanding)在中文上有更好的效果。
步骤2的答案表示层包括一个词嵌入表示层和一个线性变化层,流程图如图2所示。词嵌入表示层使用预训练的词向量进行初始化,这里采用腾讯公开发布的预训练中文词向量([Song et al.,2018]Directional Skip-Gram:Explicitly Distinguishing Leftand Right Context for Word Embeddings),并随着模型的训练进行微调。词向量维度为200,因为BERT-wwm的隐层维度为768维,因此需要一个额外的线性变化层将200维的向量转化为768维。这里线性变化层为一层前馈神经网络,权重矩阵和偏置向量跟着问答系统一起训练得到。
步骤3中的交互层主要采用向量按位点乘的方式,公式如下:
ei=q⊙bi
步骤4中的答案预测层训练一个向量uo和一个标量bo,与答案进行匹配,E={e1,e2,…,em},softmaxi表示取
Figure BDA0002469025920000071
的第i个元素,公式如下:
Figure BDA0002469025920000072
训练基线模型的损失函数采用交叉熵损失函数,公式如下:
loss=-yi log Pr(yi|P)
其中,yi表示正确选项,Pr(yi|P)表示模型预测正确答案的概率。
在训练参数过程中,为了防止过拟合,在一些网络层的输入和输出加上dropout([Srivastava et al.,2014]Dropout:a simple way to prevent neural networks fromoverfitting)。
接下来介绍本发明提出的融合近义词信息的成语压缩表示方法如何在所述的基线系统中得到应用。流程图如图3所示,使用如下的符号标记,包含占位符的文章为P,成语答案候选集合A={a1,a2,…,am}。方法分为以下几步:
步骤1,通过文章表示层得到文章P中每个词的压缩向量表示,用占位符的向量表示作为文章的整体表示q。
步骤2,通过答案表示层得到候选答案A={a1,a2,…,am}的向量表示,向量表示为{b1,b2,…,bm}。
步骤3,基于大规模语料预训练好的词向量,通过计算向量余弦相似度得到成语的近义词,其中阈值为∈,超过阈值的认为是近义词。设答案ai得到的近义词为
Figure BDA0002469025920000081
这里
Figure BDA0002469025920000082
表示候选答案ai对应近义词的个数,这里设置一个最大近义词个数lmax
Figure BDA0002469025920000083
最大取值为lmax。cij∈Ci表示候选答案ai得到的第j个近义词,通过答案表示层得到第i个候选答案ai对应的近义词的向量压缩表示
Figure BDA0002469025920000084
步骤4,通过交互层,将步骤1得到的文章整体表示q与步骤2得到的{b1,b2,…,bm}和步骤3得到的{D1,D2,…,Dm}进行交互,融入文章信息。
步骤5,采用注意力机制,将近义词信息融合进候选答案表示中。这里采用多头注意力机制([Vaswani et al.,2017]Attention is all you need)。
步骤6,为了减少基于预训练词向量查找的近义词带来的噪声误差影响,采用门控机制将原答案向量表示与融合近义词信息的答案向量表示进行融合。
步骤7,将最终得到的答案向量表示输入给答案预测层解题。
这一流程中,步骤1采用和基线系统步骤1相同的方法,用中文预训练语言模型BERT-wwm([Cui et al.,2019]Pre-Training with Whole Word Masking for ChineseBERT)得到文章的整体表示。
步骤2采用和基线系统步骤2相同的方法,通过词嵌入层和线性变化层,得到候选答案的向量表示。
步骤3选用腾讯公开的预训练词向量([Song et al.,2018]Directional Skip-Gram:Explicitly Distinguishing Left and Right Context for Word Embeddings)计算向量余弦相似度。通过标注人员标注,结果如表1所示,当阈值∈为0.65时,被判断为近义词的两个成语大概率是正确的。如果阈值设置过小,会导致引入过多的噪声,如果阈值设置过大,会导致近义词较少,难以丰富成语向量表示,因此阈值∈设为0.65。lmax设为7,如果近义词个数超过7,就按照余弦相似度从高到低排序,选择前7个近义词,并将挑选出的近义词通过答案表示层,这里答案表示层和步骤2共用。
表1
成语相似度区间 近义词比例 非近义词比例
[0.85,1.00) 98.2% 1.8%
[0.75,0.85) 89.6% 10.4%
[0.65,0.75) 61.2% 38.8%
[0.55,0.65) 22.2% 77.8%
步骤4包括如下步骤:
步骤4-1,将候选答案表示{b1,b2,…,bm}与文章表示q通过按位点乘交互,融入文章信息,更新后的表示记为{e1,e2,…,em}:
ei=q⊙bi
步骤4-2,将近义词的向量压缩表示{D1,D2,…,Dm}与文章表示q通过按位点乘交互,融入文章信息,更新后的表示记为{F1,F2,…,Fm},其中
Figure BDA0002469025920000091
fij=q⊙ dij
步骤5包括如下步骤:
步骤5-1,将融入文章信息的候选答案表示{e1,e2,…,em}通过两层前馈神经网络,这里前馈神经网络包含两个权重矩阵
Figure BDA0002469025920000092
两个偏置向量
Figure BDA0002469025920000093
以及激活函数ReLU,权重矩阵和偏置向量通过问答系统训练得到。并参考残差网络的方法([He etal.,2015]Deep Residual Learning for Image Recognition),与原向量表示ei相加,为了加快收敛,最外层加上Layer Normalization层归一化([Ba et al.,2016]LayerNormalization)。更新后的答案表示记为gi
Figure BDA0002469025920000101
步骤5-2,将融入文章信息的答案相关近义词表示{F1,F2,…,Fm}通过同样的前馈神经网络后与原向量表示fij相加,为了加快收敛,最外层加上Layer Normalization层归一化([Ba et al.,2016]Layer Normalization)。其中Fi对应的更新后向量表示记为
Figure BDA0002469025920000102
并与步骤5-1得到的gi拼接构成一个矩阵Ni
Figure BDA0002469025920000103
步骤5-3,不同近义词包含不同信息,一些不相关的词不应该考虑。因此采用多头注意力机制([Vaswani et al.,2017]Attention is all you need),将候选答案和近义词映射到不同语义空间中计算相似度。这里
Figure BDA0002469025920000104
具体实施时k取值为2。这里
Figure BDA0002469025920000105
是跟着模型一起训练的参数,j取值为1-k,softmax为归一化函数:
Figure BDA0002469025920000106
步骤5-4,将多个语义空间里的向量表示拼接,通过一层前馈神经网络,得到融合近义词信息的答案向量表示pi,这里
Figure BDA0002469025920000107
是跟着问答系统一起训练的参数:
Figure BDA0002469025920000108
步骤6包括如下步骤:
步骤6-1,采用门控机制计算融合近义词信息的答案向量表示占的权重α,这里σ表示sigmoid激活函数,
Figure BDA0002469025920000109
为权重矩阵,
Figure BDA00024690259200001010
为一维向量,Wg和bg跟着问答系统一起训练:
α=σ(Wggi+bg)
步骤6-2,基于α将更新后的答案表示gi和融合近义词信息的答案向量表示pi融合,为了加快收敛,最外层加上Layer Normalization([Ba et al.,2016]LayerNormalization)。得到最终的答案向量表示qi
qi=LN(α·pi+(1-α)·gi)
步骤7,计算每个候选答案ai作为答案的概率Pr(ai|P),这里softmax为归一化函数,
Figure BDA0002469025920000111
为一维向量,
Figure BDA0002469025920000114
Q={q1,q2,…,qm}为步骤6-2得到的最终答案向量表示,softmaxi表示取
Figure BDA0002469025920000112
的第i个元素,uo和bo跟着问答系统一起训练得到:
Figure BDA0002469025920000113
在训练参数过程中,为了防止过拟合,在一些网络层的输入和输出加上dropout([Srivastava et al.,2014]Dropout:a simple way to prevent neural networks fromoverfitting)。
本发明提供了一种融合近义词信息用于自动问答系统的成语压缩表示方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (8)

1.一种融合近义词信息用于自动问答系统的成语压缩表示方法,其特征在于,包括如下步骤:
步骤1,通过文章表示层得到文章P中每个词的压缩向量表示,用占位符的向量表示作为文章P的整体表示q;
步骤2,建立答案表示层,所述答案为成语,通过答案表示层得到候选答案集合A={a1,a2,…,am}的向量表示,向量表示为{b1,b2,…,bm};其中m表示候选答案的个数,ai表示第i个候选答案,bi表示第i个候选答案ai的向量表示,i取值为1~m;
步骤3,根据预训练的词向量查找候选答案的近义词:设第i个候选答案ai得到的近义词为
Figure FDA0002469025910000011
其中
Figure FDA0002469025910000012
表示候选答案ai对应近义词的个数,设置最大近义词个数lmax
Figure FDA0002469025910000013
最大取值为lmax;cij∈Ci表示候选答案ai得到的第j个近义词,j取值为
Figure FDA0002469025910000014
通过答案表示层得到第i个候选答案ai对应的近义词的向量压缩表示
Figure FDA0002469025910000015
Figure FDA0002469025910000016
表示
Figure FDA0002469025910000017
的向量压缩表示;
步骤4,用步骤1得到的文章整体表示q与步骤2得到的候选答案的向量表示{b1,b2,…,bm},以及步骤3得到的近义词的向量压缩表示{D1,D2,…,Dm}进行交互,融入文章信息;
步骤5,采用注意力机制,将近义词信息融合进候选答案表示中;
步骤6,采用门控机制将步骤4中得到的融入文章信息的答案表示与步骤5中得到的融合近义词信息的答案表示进行融合。
2.根据权利要求1所述的方法,其特征在于,步骤1中,所述文章表示层包括一个中文预训练语言模型,用语言模型最上层隐层向量作为词的压缩向量表示。
3.根据权利要求2所述的方法,其特征在于,步骤2中,所述答案表示层包括一个词嵌入表示层和一个线性变化层,词嵌入表示层将每个成语答案映射为固定维度的向量,线性变化层为一层前馈神经网络,使答案向量表示维度和文章向量表示维度一致,权重矩阵和偏置向量跟着问答系统一起训练。
4.根据权利要求3所述的方法,其特征在于,步骤4包括:
步骤4-1,将候选答案的向量表示{b1,b2,…,bm}与文章P的整体表示q通过按位点乘交互,融入文章信息:
ei=q⊙bi
ei表示bi融入文章信息更新后的表示,则{b1,b2,…,bm}更新后的表示记为{e1,e2,…,em};
步骤4-2,将近义词的向量压缩表示{D1,D2,…,Dm}与文章P的整体表示q通过按位点乘交互,融入文章信息:
fij=q⊙dij
fij表示dij融入文章信息更新后的表示,则{D1,D2,…,Dm}更新后的表示记为{F1,F2,…,Fm},其中
Figure FDA0002469025910000021
5.根据权利要求4所述的方法,其特征在于,步骤5包括:
步骤5-1,将融入文章信息的候选答案表示{e1,e2,…,em}通过两层前馈神经网络,所述前馈神经网络包含两个权重矩阵Wt
Figure FDA0002469025910000022
两个偏置向量bt
Figure FDA0002469025910000023
以及激活函数ReLU,
Figure FDA0002469025910000024
表示d×d维的实数矩阵,d为步骤1中得到的文章整体表示q的维度;所述权重矩阵和偏置向量通过问答系统训练得到;通过残差网络的方法,与原向量表示ei相加,最外层加上层归一化Layer Normalization层归一化,更新后的答案表示记为gi
Figure FDA0002469025910000025
其中,LN即表示Layer Normalization层归一化;
步骤5-2,将融入文章信息的答案相关近义词表示{F1,F2,…,Fm}通过与步骤5-1中同样的前馈神经网络后与原向量表示fij相加,并在最外层加上Layer Normalization层归一化,其中Fi对应的更新后向量表示记为
Figure FDA0002469025910000026
并与步骤5-1得到的gi拼接构成一个矩阵Ni
Figure FDA0002469025910000027
其中,
Figure FDA0002469025910000028
表示第i个候选答案对应近义词的个数,
Figure FDA0002469025910000029
表示
Figure FDA00024690259100000210
对应的更新后向量表示;
步骤5-3,采用多头注意力机制,将候选答案与近义词映射到不同语义空间中计算相似度,head的个数为k,求取第j个语义空间里Ni中向量投影后的加权和表示headj
Figure FDA0002469025910000031
其中,
Figure FDA0002469025910000032
Wj Q,Wj K
Figure FDA0002469025910000033
是跟着问答系统一起训练的参数,j取值为1~k,softmax为归一化函数;
步骤5-4,通过如下公式得到融合近义词信息的答案向量表示pi
Figure FDA0002469025910000034
其中
Figure FDA0002469025910000035
是跟着问答系统一起训练的参数。
6.根据权利要求5所述的方法,其特征在于,步骤6包括如下步骤:
步骤6-1,采用门控机制计算融合近义词信息的答案向量表示占的权重α:
α=σ(Wggi+bg)
其中,σ表示sigmoid激活函数,
Figure FDA0002469025910000036
为权重矩阵,
Figure FDA0002469025910000037
为一维向量,Wg和bg跟着问答系统一起训练;
步骤6-2,基于α将更新后的答案表示gi和融合近义词信息的答案向量表示pi融合,最外层加上Layer Normalization层归一化,得到最终的答案向量表示qi
qi=LN(α·pi+(1-α)·gi)。
7.根据权利要求6所述的方法,其特征在于,还包括步骤7:将最终得到的答案向量表示输入给问答系统的下游模块解题,下游模块即答案预测层。
8.根据权利要求7所述的方法,其特征在于,步骤7包括:计算每个候选答案ai作为答案的概率Pr(ai|P),:
Figure FDA0002469025910000038
其中
Figure FDA0002469025910000039
为一维向量,
Figure FDA00024690259100000310
Q={q1,q2,…,qm}为步骤6-2得到的最终答案向量表示,softmax为归一化函数,softmaxi表示取
Figure FDA00024690259100000311
的第i个元素,uo和bo跟着问答系统一起训练。
CN202010342653.3A 2020-04-27 2020-04-27 一种融合近义词信息用于自动问答系统的成语压缩表示方法 Active CN111428499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010342653.3A CN111428499B (zh) 2020-04-27 2020-04-27 一种融合近义词信息用于自动问答系统的成语压缩表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010342653.3A CN111428499B (zh) 2020-04-27 2020-04-27 一种融合近义词信息用于自动问答系统的成语压缩表示方法

Publications (2)

Publication Number Publication Date
CN111428499A true CN111428499A (zh) 2020-07-17
CN111428499B CN111428499B (zh) 2021-10-26

Family

ID=71559120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010342653.3A Active CN111428499B (zh) 2020-04-27 2020-04-27 一种融合近义词信息用于自动问答系统的成语压缩表示方法

Country Status (1)

Country Link
CN (1) CN111428499B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069815A (zh) * 2020-09-04 2020-12-11 平安科技(深圳)有限公司 成语填空题的答案选择方法、装置和计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853702A (zh) * 2012-12-06 2014-06-11 富士通株式会社 校正语料中的成语错误的装置和方法
CN107168955A (zh) * 2017-05-23 2017-09-15 南京大学 利用基于词上下文的字嵌入与神经网络的中文分词方法
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN109947922A (zh) * 2019-03-20 2019-06-28 浪潮商用机器有限公司 一种问答处理方法、装置及问答系统
CN110580340A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种基于多注意力机制的神经网络关系抽取方法
CN110990556A (zh) * 2019-12-06 2020-04-10 北京金山数字娱乐科技有限公司 成语推荐方法及装置、成语推荐模型的训练方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853702A (zh) * 2012-12-06 2014-06-11 富士通株式会社 校正语料中的成语错误的装置和方法
CN107168955A (zh) * 2017-05-23 2017-09-15 南京大学 利用基于词上下文的字嵌入与神经网络的中文分词方法
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN109947922A (zh) * 2019-03-20 2019-06-28 浪潮商用机器有限公司 一种问答处理方法、装置及问答系统
CN110580340A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种基于多注意力机制的神经网络关系抽取方法
CN110990556A (zh) * 2019-12-06 2020-04-10 北京金山数字娱乐科技有限公司 成语推荐方法及装置、成语推荐模型的训练方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
OLIVIER FERRET: ""Turning Distributional Thesauri into Word Vectors for Synonym Extraction and Expansion"", 《PROCEEDINGS OF THE THE 8TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》 *
RAN WANG 等: ""R3: A Reading Comprehension Benchmark Requiring Reasoning Processes"", 《HTTPS://ARXIV.ORG/ABS/2004.01251》 *
陈晨 等: "" 基于深度学习的开放领域对话系统研究综述"", 《计算机学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069815A (zh) * 2020-09-04 2020-12-11 平安科技(深圳)有限公司 成语填空题的答案选择方法、装置和计算机设备
CN112069815B (zh) * 2020-09-04 2023-01-17 平安科技(深圳)有限公司 成语填空题的答案选择方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111428499B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN110543557B (zh) 一种基于注意力机制的医疗智能问答系统的构建方法
CN108519890A (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN110008354B (zh) 一种基于知识图谱的对外汉语学习内容的构建方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN111897944B (zh) 基于语义空间共享的知识图谱问答系统
CN111858896B (zh) 一种基于深度学习的知识库问答方法
CN112541356A (zh) 一种生物医学命名实体识别的方法和系统
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112818106A (zh) 一种生成式问答的评价方法
CN114428850B (zh) 一种文本检索匹配方法和系统
CN115761753A (zh) 一种融合知识图谱的检索式知识前缀引导视觉问答方法
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN111368058A (zh) 一种基于迁移学习的问答匹配方法
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN113010690B (zh) 一种基于文本信息增强实体嵌入的方法
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
CN114239599A (zh) 一种机器阅读理解的实现方法、系统、设备及介质
CN113360606A (zh) 一种基于Filter的知识图谱问答联合训练方法
CN111428499B (zh) 一种融合近义词信息用于自动问答系统的成语压缩表示方法
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN114417880B (zh) 一种基于电网实训问答知识库的交互式智能问答方法
CN114625830B (zh) 一种中文对话语义角色标注方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant