CN111428499A

CN111428499A - 一种融合近义词信息用于自动问答系统的成语压缩表示方法

Info

Publication number: CN111428499A
Application number: CN202010342653.3A
Authority: CN
Inventors: 戴新宇; 汪然; 龙思宇; 陶堃
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-07-17
Anticipated expiration: 2040-04-27
Also published as: CN111428499B

Abstract

本发明提供了一种融合近义词信息用于自动问答系统的成语压缩表示方法，包括：步骤1，通过文章表示层得到文章P中每个词的压缩向量表示，用占位符的向量表示作为文章P的整体表示q；步骤2，建立答案表示层，通过答案表示层得到候选成语答案的向量表示；步骤3，通过预训练的词向量查找候选答案的近义词，并通过答案表示层得到近义词的向量压缩表示；步骤4，通过交互层，将步骤1得到的文章整体表示q与步骤2得到的候选答案的向量表示，以及步骤3得到的近义词的向量压缩表示进行交互，融入文章信息；步骤5，将近义词信息融合到候选答案的向量表示中；步骤6，采用门控机制将步骤4得到的成语候选答案向量表示与步骤5得到的融合近义词信息的成语候选答案向量表示进行融合。

Description

一种融合近义词信息用于自动问答系统的成语压缩表示方法

技术领域

本发明属于自然语言处理领域，尤其涉及一种融合近义词信息用于自动问答系统的成语压缩表示方法。

背景技术

目前，设计自动问答系统让计算机回答人类提出的问题是人工智能领域的一项热门挑战，并在实际生活场景中也有广泛的应用，例如搜索引擎、智能客服、考试机器人等。其中，完型填空问答是自动问答里一个重要的表现形式，计算机读取包含占位符的文章，然后从候选答案集中选出正确答案替换占位符。主流的方法主要包括传统机器学习方法和神经网络方法。传统机器学习方法主要基于人工设计的特征，通过答案排序得到最终答案。神经网络方法不需要人工精心设计特征，采用端到端的方式让机器自动学习对回答问题有用的特征。因为参数多、计算函数复杂等特点，神经网络相比于传统机器学习方法取得了更好的性能。

虽然神经网络方法取得了很大的进展，但是对于一些简短但包含丰富语义的词，例如中文里的成语，处理方法不是很好，极大限制了现有自动问答系统的性能。成语由于其特有的非字面性和非组合性，导致基于大规模语料预训练得到的词嵌入表示或者基于字嵌入表示组合的方法均不能取得较理想的效果。因此，如何学习得到成语更好的向量表示是一个非常困难的问题，在其他自然语言任务中同样也存在这一问题。

成语在日常对话和写作中无处不在，因为其独有的非字面性和非组合性，如何解决成语表示问题成了各个自然语言处理任务的难点。下面主要介绍在问答系统中涉及成语的一些工作。

Jiang等人([Jiang et al.,2018]Chengyu Cloze Test)采用引入成语释义的方法。作者通过两个双向长短时记忆网络(Bi-LSTM)分别对问题和候选成语的释义编码，然后用成语释义编码得到的向量表示(选取释义最后一个词的向量)作为成语的整体表示，与问题里每一个词的向量表示做注意力交互，最后将问题词向量的加权和表示作为输入，经过答案预测层得到该选项是正确答案的概率。

Liu等人([Liu et al.,2019]Neural-based Chinese Idiom Recommendationfor Enhancing Elegance in Essay Writing)采用机器翻译中的Seq2Seq结构，将问题作为源端输入，成语作为目标端的输出，训练一个Seq2Seq模型。测试的时候将预测答案与预先给定的成语集合里的成语算编辑距离，距离最小的为最终答案。

Zheng等人([Zheng et al.，2019]ChID：A Large-scale Chinese IDiom Datasetfor Cloze Test)采用了三种方法，分别为：1)语言模型的方法，通过双向长短时记忆网络(Bi-LSTM)得到占位符的向量表示，然后与候选答案向量表示做内积匹配，最大的选为预测答案；2)Hermann等人([Hermann et al.，2015]Teaching machines to read andcomprehend)提出的Attentive Reader(AR)模型，通过双向长短时记忆网络(Bi-LSTM)得到占位符的向量表示后，与问题里的其他词做注意力交互，将问题词向量的加权和表示与答案向量做匹配；3)Chen等人([Chen et al.，2016]A thorough examination of the cnn/daily mail reading comprehension task)提出的Stanford Attentive Reader(SAR)模型，与Attentive Reader模型不同，这里注意力交互为双线性注意力机制。虽然这三种方法模型结构有所差别，但对于成语候选答案的表示方法一样，将成语看作普通的多字词处理，采用腾讯公开发布的词嵌入表示([Song et al.，2018]Directional Skip-Gram：Explicitly Distinguishing Left and Right Context for Word Embeddings)作为成语的初始化表示，并在训练过程中进行微调。

Jiang等人([Jiang et al.，2018]Chengyu Cloze Test)通过对成语释义编码得到成语的向量表示，当成语释义无法获得或者释义质量较差时，Jiang等人提出的方法会受到影响。

Liu等人([Liu et al.，2019]Neural-based Chinese Idiom Recommendationfor Enhancing Elegance in Essay Writing)利用机器翻译中的Seq2Seq结构解码端直接预测成语，避开了直接对成语这种多字词本身的建模。当任务中需要直接使用成语的向量表示时，Liu等人的方法不适用。

Zheng等人([Zheng et al.，2019]ChID：A Large-scale Chinese IDiom Datasetfor Cloze Test)提出的方法基于公开发布的词嵌入表示，将成语作为普通的多字词处理，对于在训练语料中出现频率较低的成语，该方法效果不佳。

发明内容

发明目的：在自动问答系统中，由于成语特有的非字面性和非组合性，导致主流的词嵌入方法或者字嵌入方法并不能取得很好的效果。本发明需要解决的问题就是如何对中文成语这种简短但包含丰富语义的词学得一个好的压缩向量表示，进而提高自动问答系统的性能。

本发明具体提供一种融合近义词信息用于自动问答系统的成语压缩表示方法，包括如下步骤：

步骤1，通过文章表示层得到文章P中每个词的压缩向量表示，用占位符的向量表示作为文章P的整体表示q；

步骤2，建立答案表示层，所述答案为成语，通过答案表示层得到候选答案A＝{a₁，a₂，…，a_m}的向量表示，向量表示为{b₁，b₂，…，b_m}，其中m表示候选答案的个数，a_i表示第i个候选答案，b_i表示第i个候选答案a_i的向量表示，i取值为1～m；

步骤3，根据预训练的词向量查找候选答案的近义词：设第i个候选答案a_i得到的近义词为

其中

表示候选答案a_i对应近义词的个数，设置最大近义词个数l_max(比如设置为7)，

最大取值为l_max。c_ij∈C_i表示候选答案a_i得到的第j个近义词，j取值为

通过答案表示层得到第i个候选答案a_i对应的近义词的向量压缩表示

表示

的向量压缩表示；

步骤4，用步骤1得到的文章整体表示q与步骤2得到的候选答案的向量表示{b₁，b₂，…，b_m}，以及步骤3得到的近义词的向量压缩表示{D₁，D₂，…，D_m}进行交互，融入文章信息；

步骤5，采用注意力机制，将近义词信息融合进候选答案表示中；

步骤6，采用门控机制将步骤4中得到的融入文章信息的答案表示与步骤5中得到的融合近义词信息的答案表示进行融合。

步骤1中，所述文章表示层包括一个中文预训练语言模型，用语言模型最上层隐层向量作为词的压缩向量表示，这里选用BERT-wwm([Cui et al.，2019]Pre-Training withWhole Word Masking for Chinese BERT)，得到文章P的整体表示q。

步骤2中，所述答案表示层包括一个词嵌入表示层和一个线性变化层，词嵌入表示层将每个成语答案映射为固定维度的向量，可以采用随机初始化或者预训练好的词向量，这里采用腾讯开源的中文词向量([Song et al.，2018]Directional Skip-Gram：Explicitly Distinguishing Left and Right Context for Word Embeddings)，并随着问答系统训练过程进行微调。线性变化层为一层前馈神经网络，使答案向量维度与文章表示q一致，方便进行交互，权重矩阵和偏置向量随着问答系统训练得到。

步骤4包括：

步骤4-1，将候选答案的向量表示{b₁，b₂，…，b_m}与文章P的整体表示q通过按位点乘交互，融入文章信息：

e_i＝q⊙b_i

e_i表示b_i融入文章信息更新后的表示，则{b₁，b₂，…，b_m}更新后的表示记为{e₁，e₂，…，e_m}；

步骤4-2，将近义词的向量压缩表示{D₁，D₂，…，D_m}与文章P的整体表示q通过按位点乘交互，融入文章信息：

f_ij＝q⊙d_ij。

f_ij表示d_ij融入文章信息更新后的表示，则{D₁，D₂，…，D_m}更新后的表示记为{F₁，F₂，…，F_m}，其中

步骤5包括：

步骤5-1，将融入文章信息的候选答案表示{e₁，e₂，…，e_m}通过两层前馈神经网络，所述前馈神经网络包含两个权重矩阵

两个偏置向量

以及激活函数ReLU，

表示d×d维的实数矩阵，d为步骤1中得到的文章整体表示q的维度；权重矩阵和偏置向量通过问答系统训练得到。通过残差网络的方法([He et al.，2015]DeepResidual Learning for Image Recognition)，与原向量表示e_i相加，为了加快收敛，最外层加上Layer Normalization层归一化([Ba et al.，2016]Layer Normalization)。更新后的答案表示记为g_i：

其中，LN即表示LayerNormalization层归一化；

步骤5-2，将融入文章信息的答案相关近义词表示{F₁，F₂，…，F_m}通过与步骤5-1中同样的前馈神经网络后与原向量表示f_ij相加，并在最外层加上Layer Normalization层归一化([Ba et al.，2016]Layer Normalization)。其中F_i对应的更新后向量表示记为

并与步骤5-1得到的g_i拼接构成一个矩阵N_i：

其中，

表示第i个候选答案对应近义词的个数，

表示

对应的更新后向量表示；

步骤5-3，采用多头注意力机制([Vaswani et al.，2017]Attention is all youneed)，将候选答案与近义词映射到不同语义空间中计算相似度，head的个数为k，求取第j个语义空间里N_i中向量投影后的加权和表示head_j：

其中，

是跟着问答系统一起训练的参数，j取值为1～k，softmax为归一化函数；

步骤5-4，通过如下公式得到融合近义词信息的答案向量表示p_i：

其中

是跟着问答系统一起训练的参数。

步骤6包括如下步骤：

步骤6-1，采用门控机制计算融合近义词信息的答案向量表示占的权重α：

α＝σ(W_gg_i+b_g)

其中，σ表示sigmoid激活函数，

为权重矩阵，

为一维向量，W_g和b_g跟着问答系统一起训练；

步骤6-2，基于α将更新后的答案表示g_i和融合近义词信息的答案向量表示p_i融合，为了加快收敛，最外层加上Layer Normalization层归一化([Ba et al.，2016]LayerNormalization)，得到最终的答案向量表示q_i：

q_i＝LN(α·p_i+(1-α)·g_i)。

本发明方法还包括步骤7：将最终得到的答案向量表示输入给问答系统的下游模块，即答案预测层解题。

步骤7包括：计算每个候选答案a_i作为答案的概率Pr(a_i|P)：

其中softmax为归一化函数，

为一维向量，

Q＝{q₁，q₂，…，q_m}为步骤6-2得到的最终答案向量表示，softmax_i表示取

的第i个元素，u_o和b_o跟着问答系统一起训练。

本发明提出的方法，在成语向量表示中融入了近义词信息，这样对于一些出现频率较少的词，可以通过近义词得到更多的信息丰富表示。并且相比于引入成语释义的方法，近义词信息更容易获取，因此本发明的方法更容易实施。

本发明具有如下有益效果：

技术层面：

1原有词嵌入和字嵌入方法均不能有效解决如何有效表示成语的问题。将成语看作普通的多字词处理，对于一些罕见的成语效果不佳。并且因为成语特有的非字面性和非组合性，将成语用多个字嵌入表示组合的方法也不能取得理想的结果。本发明通过引入近义词信息，丰富了成语的压缩表示，并提升了自动问答系统的性能。

2本发明提供的查找成语近义词方法基于现有公开发布的大规模预训练词向量，并且通过人工验证合理，不需要额外的标注成本。

3相比于引入成语释义的方法，本发明的方法只借助成语近义词信息，并且经过实验验证，近义词方法效果优于引入成语释义的方法。

应用层面：本发明提出的融合近义词信息的成语压缩表示方法可以应用于任何涉及成语的基于向量嵌入表示的神经网络系统，不限于自动问答任务，可以方便地扩展到任何自然语言处理任务。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是实施例提供的一个基于神经网络的完型填空问答系统的流程图。

图2是答案表示层的流程图。

图3是本发明方法结合基于神经网络的完型填空问答系统的流程图。

具体实施方式

实施例

本实施例给出一个基于神经网络的完型填空问答系统，流程图如图1所示。使用如下符号标记，包含占位符的文章为P，成语答案候选集合A＝{a₁，a₂，…，a_m}。如图所示，模型分为以下几步：

步骤1、通过文章表示层得到文章P中每个词的压缩向量表示，用占位符的向量表示作为文章的整体表示q。

步骤2、通过答案表示层得到候选答案A＝{a₁，a₂，…，a_m}的向量表示，向量表示为{b₁，b₂，…，b_m}。

步骤3、通过交互层将步骤1得到的文章表示q和步骤2得到的答案表示{b₁，b₂，…，b_m}进行交互，得到融入文章信息的答案表示{e₁，e₂，…，e_m}。

步骤4、答案预测层根据融入文章信息的答案表示{e₁，e₂，…，e_m}，选取最终答案。

这一流程中，步骤1文章表示层使用哈工大发布的中文预训练语言模型BERT-wwm([Cui et al.，2019]Pre-Training with Whole Word Masking for Chinese BERT)。该语言模型在中文维基百科上训练，使用哈工大LTP作为分词工具，对组成同一个词的汉字全部进行Mask，相比于谷歌发布的原始BERT([Devlin et al.，2019]BERT：Pre-training ofDeep Bidirectional Transformers for Language Understanding)在中文上有更好的效果。

步骤2的答案表示层包括一个词嵌入表示层和一个线性变化层，流程图如图2所示。词嵌入表示层使用预训练的词向量进行初始化，这里采用腾讯公开发布的预训练中文词向量([Song et al.，2018]Directional Skip-Gram：Explicitly Distinguishing Leftand Right Context for Word Embeddings)，并随着模型的训练进行微调。词向量维度为200，因为BERT-wwm的隐层维度为768维，因此需要一个额外的线性变化层将200维的向量转化为768维。这里线性变化层为一层前馈神经网络，权重矩阵和偏置向量跟着问答系统一起训练得到。

步骤3中的交互层主要采用向量按位点乘的方式，公式如下：

e_i＝q⊙b_i

步骤4中的答案预测层训练一个向量u_o和一个标量b_o，与答案进行匹配，E＝{e₁，e₂，…，e_m}，softmax_i表示取

的第i个元素，公式如下：

训练基线模型的损失函数采用交叉熵损失函数，公式如下：

loss＝-y_i log Pr(y_i|P)

其中，y_i表示正确选项，Pr(y_i|P)表示模型预测正确答案的概率。

在训练参数过程中，为了防止过拟合，在一些网络层的输入和输出加上dropout([Srivastava et al.，2014]Dropout：a simple way to prevent neural networks fromoverfitting)。

接下来介绍本发明提出的融合近义词信息的成语压缩表示方法如何在所述的基线系统中得到应用。流程图如图3所示，使用如下的符号标记，包含占位符的文章为P，成语答案候选集合A＝{a₁，a₂，…，a_m}。方法分为以下几步：

步骤1，通过文章表示层得到文章P中每个词的压缩向量表示，用占位符的向量表示作为文章的整体表示q。

步骤2，通过答案表示层得到候选答案A＝{a₁，a₂，…，a_m}的向量表示，向量表示为{b₁，b₂，…，b_m}。

步骤3，基于大规模语料预训练好的词向量，通过计算向量余弦相似度得到成语的近义词，其中阈值为∈，超过阈值的认为是近义词。设答案a_i得到的近义词为

这里

表示候选答案a_i对应近义词的个数，这里设置一个最大近义词个数l_max，

最大取值为l_max。c_ij∈C_i表示候选答案a_i得到的第j个近义词，通过答案表示层得到第i个候选答案a_i对应的近义词的向量压缩表示

步骤4，通过交互层，将步骤1得到的文章整体表示q与步骤2得到的{b₁，b₂，…，b_m}和步骤3得到的{D₁，D₂，…，D_m}进行交互，融入文章信息。

步骤5，采用注意力机制，将近义词信息融合进候选答案表示中。这里采用多头注意力机制([Vaswani et al.，2017]Attention is all you need)。

步骤6，为了减少基于预训练词向量查找的近义词带来的噪声误差影响，采用门控机制将原答案向量表示与融合近义词信息的答案向量表示进行融合。

步骤7，将最终得到的答案向量表示输入给答案预测层解题。

这一流程中，步骤1采用和基线系统步骤1相同的方法，用中文预训练语言模型BERT-wwm([Cui et al.，2019]Pre-Training with Whole Word Masking for ChineseBERT)得到文章的整体表示。

步骤2采用和基线系统步骤2相同的方法，通过词嵌入层和线性变化层，得到候选答案的向量表示。

步骤3选用腾讯公开的预训练词向量([Song et al.，2018]Directional Skip-Gram：Explicitly Distinguishing Left and Right Context for Word Embeddings)计算向量余弦相似度。通过标注人员标注，结果如表1所示，当阈值∈为0.65时，被判断为近义词的两个成语大概率是正确的。如果阈值设置过小，会导致引入过多的噪声，如果阈值设置过大，会导致近义词较少，难以丰富成语向量表示，因此阈值∈设为0.65。l_max设为7，如果近义词个数超过7，就按照余弦相似度从高到低排序，选择前7个近义词，并将挑选出的近义词通过答案表示层，这里答案表示层和步骤2共用。

表1

成语相似度区间	近义词比例	非近义词比例
			[0.85，1.00)	98.2％	1.8％
[0.75，0.85)	89.6％	10.4％
			[0.65，0.75)	61.2％	38.8％
[0.55，0.65)	22.2％	77.8％

步骤4包括如下步骤：

步骤4-1，将候选答案表示{b₁，b₂，…，b_m}与文章表示q通过按位点乘交互，融入文章信息，更新后的表示记为{e₁，e₂，…，e_m}：

e_i＝q⊙b_i

步骤4-2，将近义词的向量压缩表示{D₁，D₂，…，D_m}与文章表示q通过按位点乘交互，融入文章信息，更新后的表示记为{F₁，F₂，…，F_m}，其中

f_ij＝q⊙ d_ij

步骤5包括如下步骤：

步骤5-1，将融入文章信息的候选答案表示{e₁，e₂，…，e_m}通过两层前馈神经网络，这里前馈神经网络包含两个权重矩阵

两个偏置向量

以及激活函数ReLU，权重矩阵和偏置向量通过问答系统训练得到。并参考残差网络的方法([He etal.，2015]Deep Residual Learning for Image Recognition)，与原向量表示e_i相加，为了加快收敛，最外层加上Layer Normalization层归一化([Ba et al.，2016]LayerNormalization)。更新后的答案表示记为g_i：

步骤5-2，将融入文章信息的答案相关近义词表示{F₁，F₂，…，F_m}通过同样的前馈神经网络后与原向量表示f_ij相加，为了加快收敛，最外层加上Layer Normalization层归一化([Ba et al.，2016]Layer Normalization)。其中F_i对应的更新后向量表示记为

并与步骤5-1得到的g_i拼接构成一个矩阵N_i：

步骤5-3，不同近义词包含不同信息，一些不相关的词不应该考虑。因此采用多头注意力机制([Vaswani et al.，2017]Attention is all you need)，将候选答案和近义词映射到不同语义空间中计算相似度。这里

具体实施时k取值为2。这里

是跟着模型一起训练的参数，j取值为1-k，softmax为归一化函数：

步骤5-4，将多个语义空间里的向量表示拼接，通过一层前馈神经网络，得到融合近义词信息的答案向量表示p_i，这里

是跟着问答系统一起训练的参数：

步骤6包括如下步骤：

步骤6-1，采用门控机制计算融合近义词信息的答案向量表示占的权重α，这里σ表示sigmoid激活函数，

为权重矩阵，

为一维向量，W_g和b_g跟着问答系统一起训练：

α＝σ(W_gg_i+b_g)

步骤6-2，基于α将更新后的答案表示g_i和融合近义词信息的答案向量表示p_i融合，为了加快收敛，最外层加上Layer Normalization([Ba et al.，2016]LayerNormalization)。得到最终的答案向量表示q_i：

q_i＝LN(α·p_i+(1-α)·g_i)

步骤7，计算每个候选答案a_i作为答案的概率Pr(a_i|P)，这里softmax为归一化函数，

为一维向量，

的第i个元素，u_o和b_o跟着问答系统一起训练得到：

本发明提供了一种融合近义词信息用于自动问答系统的成语压缩表示方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。