CN112434128A

CN112434128A - 基于分层匹配注意力机制的问答文本属性类别分类方法

Info

Publication number: CN112434128A
Application number: CN202011286951.1A
Authority: CN
Inventors: 刘木沐; 吴含前; 姚莉; 李露
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-03-02

Abstract

本发明公开了基于分层匹配注意力机制的问答文本属性类别分类方法，在构建模型的过程中根据开发集的文本特点设置了循环神经网络的超参数，包括神经网络层数、学习速率、句子个数等首先使用句子切分算法对问答式评论文本中的问题文本和答案文本进行句子切分，并为每条问答式评论文本构建多个（句子，句子）单元。其次，利用问答匹配注意力层对每个（句子，句子）单元进行编码来匹配问题文本和答案文本的各个句子。最后，利用高阶自匹配注意力层来捕捉不同的（句子，句子）单元对于识别属性类别的重要程度。本发训练速度快且预测精度高，具有综合最优结果。

Description

基于分层匹配注意力机制的问答文本属性类别分类方法

技术领域

本技术涉及面向问答式评论文本的属性类别分类方法，具体涉及一种基于分层匹配注意力机制的问答文本属性类别分类方法。

背景技术

近两年，在亚马逊、淘宝、京东等电商平台上出现了一种新型的产品在线评论文本——“问答式评论文本”，通常由问题文本和答案文本两部分组成。例如，在某一条问答式评论文本中，问题文本为“这款手机的待机时间多长？”，答案文本为“电量不耐用，但是外观很好看！”。在这种新的评论形式中，想要购买某种产品的消费者提出相关的问题，购买过该产品的人则可以作出相应的回答。随着问答式评论文本在各大电商平台的涌现，它所具有的一些文本特性激发了研究人员的研究兴趣。一方面，消费者逐渐偏爱于参与并发表问答式评论文本，而非传统的产品评论文本。另一方面，与传统的产品在线评论相比，这种问答式评论文本蕴含的产品信息更加真实、丰富，这样可以在很大程度上避免因刷单而产生的虚假产品信息，从而使得产品评论更为可靠。因此，针对问答式评论文本进行属性级情感分析显得意义重大，它能够更好地帮助商家和消费者作出监管和购买决策。

属性类别分类在面向问答式评论文本的属性级情感分析研究中起到十分重要的作用。在现有的针对传统评论文本进行的属性级情感分析研究中，通常将属性类别分类与属性级情感分类看作是两个独立的任务，而且属性级情感分类任务往往是面向特定属性的，即将标注的属性类别作为已知的信息，对其进行情感极性判断。但是实际上，对于一条新的评论文本而言，属性类别是未知的，应该首先进行属性类别的识别，进而判断相应的情感极性，所以属性类别分类是属性级情感分析研究中必不可少的一部分。而且，属性类别分类的性能直接影响相应的情感极性的判断，一旦属性类别分类错误率较高，将导致属性级情感分类出现根本性的错误。

问答式评论文本的属性类别识别明显比传统的评论文本更有难度，不仅仅是识别出文本所提及的属性类别，更是要识别出问题文本和答案文本同时提及的属性类别，该属性类别才是消费者和商家关注的“有效”属性类别。以数码领域的一条问答式评论文本为例，在问题文本“这款手机运行流畅吗？屏幕分辨率高吗？”中，“运行流畅”与“系统性能”这一属性类别有关，“屏幕分辨率”与“IO”属性类别有关，而在答案文本“运行流畅，而且外观好看！”中，“运行流畅”与“系统性能”属性类别有关，“外观”与“外观”属性类别有关，若进行属性类别分类任务，仅应该识别出问答文本均涉及的“系统性能”这一属性类别，而非将“IO”和“外观”也识别出来。

虽然国内外关于英文产品评论文本的属性类别分类研究起步较早并且已经取得了一些成果，但由于中英文语言的差异性、中文的语言结构和句式特点比英文更加复杂等原因，针对英文产品评论文本的一些方法不能很好地适用于面向中文产品在线评论的属性类别分类研究。而且，现有的面向传统评论文本的属性类别分类方法不能直接用来处理问答文本的属性类别分类。

发明内容

为解决上述问题，本发明针对现有技术的缺乏，本发明提出了一种基于分层匹配注意力机制的问答文本属性类别分类方法，能够较为准确地识别出问答式评论文本中的“有效”属性类别。

技术方案：一种基于分层匹配注意力机制的问答文本属性类别分类方法包括语料标注阶段和属性类别分类模型搭建阶段；其中在属性类别分类模型搭建阶段，首先基于句子切分算法将问题文本和答案文本进行句子切分，其次并为每条问答式评论文本构建多个(句子，句子)单元；

其次，利用问答匹配注意力层对每个(句子，句子)单元进行编码来匹配问题文本和答案文本的各个句子；

最后，利用高阶自匹配注意力层来捕捉不同的(句子，句子)单元对于识别属性类别的重要程度，从而较为准确地识别出问答式评论文本中所涉及的属性类别。

本发明进一步改进在于：其中在语料标注阶段：在对问答文本进行语料标注时需要分别抽取描述语、属性类别及情感极性，在标注过程中应遵循以下三个准则：

(1)当问题中对于属性的情感倾向和答案中的不一致时，情感极性标注以答案中为准；

(2)当问题和答案中出现的描述语是同一属性的不同表述时，描述语标注以问题中为准；

(3)当问题和答案中出现的描述语数量不一致时，抽取描述语的个数以问题中为准，最终生成属性描述语，属性类别，情感极性形式的三元组，从而实现高质量语料库的构建。

本发明进一步改进在于：根据语料特点，设计一种句子切分算法，对问题文本和答案文本进行句子切分，尽可能地让每个句子只包含一个属性类别；主要思想是基于斯坦福大学的CoreNLP工具对问题文本和答案文本进行初步的切分，再利用合并操作对初步的切分结果进行处理。

本发明进一步改进在于：在所述属性类别分类阶段中的神经网络模型的输入文本序列为问答式评论文本中问题句子和答案句子的词向量表示，用于模型的训练，且词向量维度为100；根据开发集调参得到，问题句子和答案句子个数的最佳值为2。

本发明进一步改进在于：所述属性类别分类阶段中的神经网络模型中训练模型参数的方法采用Adagrad算法，其形式如下式所示：

r←r+g⊙g

θ←θ+Δθ

其中，r为梯度累积变量，r的初始值为0；ε为全局学习率，需要自己设置，δ为小常数，为了数值稳定大约设置为10^-7。

本发明进一步改进在于：所采用的匹配注意力层包括问答匹配注意力层和高阶自匹配注意力层两部分；

问答匹配注意力层主要基于注意力机制捕捉问题句子和答案句子之间的匹配信息，从而对每个(句子，句子)单元进行编码；

高阶自匹配注意力层主要是基于注意力机制捕捉不同的(句子，句子)单元对于识别某一属性类别的重要程度。

本发明进一步改进在于：基于长短期记忆神经网络模型进行搭建模型；在RNN的基础上，LSTM增加了单元状态和三个门控机制：输入门i_t、遗忘门f_t和输出门o_t；其核心是单元状态，作为整个模型的记忆空间，三个门控则负责去除或增加信息到单元状态；在每个LSTM细胞单元中，三个门控将当前时刻的输入、上一时刻的隐层状态以及单元状态的线性变化相加，再以Sigmoid函数激活得到一个[0,1]之间的门限作为输出，并由此通过上一时刻的单元状态c_t-1来计算当前时刻的单元状态c_t，可用以下公式作形式化地描述：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_c·[h_t-1,x_t]+b_c)

其中，σ表示Sigmoid激活函数，W_i、b_i、W_f、b_f、W_o和b_o分别为输入门、遗忘门、输出门的参数，⊙表示矩阵的点乘操作。x_t是t时刻LSTM细胞单元的输入，即词向量表示w_t，其相应的隐层向量为h_N；最后，单元状态c_t经过tanh非线性激活后与输出门点乘，便可得到当前时刻的隐层状态h_t，可用如下公式计算得到：

h_t＝o_t⊙tanh(c_t)

对于文本分类任务而言，通常将最后时刻的隐向量h_N作为文本的最终表示，经过softmax层线性化为一维向量；该向量的长度等于分类的类别数，向量中的各个数值则表示该文本属于各类别的概率，最大值对应的类别即为该文本所属类别的预测值。

在本发明中，选取了淘宝网的“问大家”模块中三个领域的问答式评论文本，即数码领域、美妆领域和箱包领域。据统计，数码领域包含8313条文本，美妆领域包含10003条文本，箱包领域包含 10000条文本。根据文本特点，本发明制定了面向问答式评论文本的属性级语料标注规范，对其进行三元组的标注。最后可用于实验的各领域问答式评论文本数量分别为2427、2927和2876。其次，使用 Gensim工具和淘宝网爬取得32万条问答式评论文本，基于Skip-Gram 模型预训练得到各个词语的分布式词向量表示。其次，未登录词通过使用均匀分布U(-0.01,0.01)随机生成词向量表示，词向量维度和 LSTM隐层维度设为100，batch大小设为32。

在训练过程中，本发明选择交叉熵代价函数作为属性类别分类任务的损失函数。模型参数通过使用Adagrad优化函数进行优化，并使用均匀分布

初始化所有的矩阵和向量参数，其中r和c′分别是矩阵的行数和列数。此外，在LSTM层中采用dropout策略以避免过拟合问题。

有益效果：

(1)本发明的基于分层匹配注意力机制的分类方法大大提升了属性类别识别的准确率。

(2)本发明设计句子切分算法，尽可能地使问题文本和答案文本的各个句子只与某一属性类别有关，从而使得本发明的分层匹配注意力机制的分类方法可以较好地捕捉问题文本和答案文本之间相匹配的属性信息，这样识别出的“有效”属性类别具有较强的目的性和较高的准确性。

附图说明

图1是本发明方法流程图；

图2是本发明方法中属性类别分类方法的总体框架图；

图3是本发明方法中问答匹配注意力层的细节图；

图4是本发明方法中高阶自匹配注意力层的细节图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是，下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向，词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

本发明针对属性类别分类问题构建了基于分层匹配注意力机制的问答文本属性类别分类模型，模型主要识别出是给定的问答式评论文本所涉及的属性类别。

首先，根据文本特点制定了面向问答式评论文本的属性级语料标注规范，并用三元组对其进行标注。面向问答文本的属性级语料标注流程如图3所示，在对问答文本进行标注时需要分别抽取描述语、属性类别及情感极性，最终生成(属性描述语，属性类别，情感极性) 形式的三元组。其中属性描述语是指围绕属性的各个方面进行描述的名词、动名词、形容词或者是副词，并且描述语仅以出现在问题中的为准。属性类别是指产品的各个属性归属的类别，由于每种产品的属性较多，因此将其进行归类。情感极性在本文中是指针对产品的特定属性用户所表达的情感体验。在标注过程中应遵循以下三个准则：(1) 当问题中对于属性的情感倾向和答案中的不一致时，情感极性标注以答案中为准；(2)当问题和答案中出现的描述语是同一属性的不同表述时，描述语标注以问题中为准；(3)当问题和答案中出现的描述语数量不一致时，抽取描述语的个数以问题中为准。标注示例如表1所示。

其次，本发明所提出的一种基于分层匹配注意力机制的问答文本属性类别分类方法，模型的构建建立在基于句子切分算法对问题文本和答案文本进行句子切分的基础上，进而将问题文本和答案文本的各个句子进行配对，构建不同的(句子，句子)单元。算法描述如下：

再者，本发明所提出的一种基于分层匹配注意力机制的问答文本属性类别分类方法，其核心在于基于分层匹配注意力机制的神经网络模型，主要包括问答匹配注意力层和高阶自匹配注意力层。

问答匹配注意力层主要由词编码层和问答匹配注意力层两部分组成。首先，在词编码层中，对于(Q_i，A_j)单元而言，通过LSTM 模型对问题句子Q_i和答案句子A_j进行编码，由此获得问题句子Q_i的隐状态矩阵

和答案句子A_j的隐状态矩阵

其次，在问答匹配注意力层中，通过以下公式计算得到

和

之间的注意力权重α_ij，目的是聚焦于问题句子Q_i和答案句子A_j与所标注的属性类别有关的词语，从而捕获Q_i和A_j之间的匹配信息，进而基于注意力权重和问题句子Q_i的隐状态矩阵

计算得到(Q_i，A_j)单元的(句子，句子)单元向量表示。最后，可以得到一组(句子，句子)单元向量表示集合C＝{c_1,1,…c_i,j,…c_M,N}。

高阶自匹配注意力层主要包括(句子，句子)单元矩阵表示、高阶自匹配注意力层、全连接层和softmax层。首先，在(句子，句子) 单元矩阵表示中，将集合C＝{c_1,1,…c_i,j,…c_M,N}中的多个(句子，句子) 单元向量表示拼接成(句子，句子)单元矩阵表示s。其次，在高阶自匹配注意力层中，通过高阶自匹配注意力机制来获得不同的(句子，句子)单元的重要程度向量表示α。并基于得到的高阶自匹配注意力权重计算得到(句子，句子)单元的注意力表示r，其中向量r中的每个值表示各个(句子，句子)单元的重要程度。再者，在全连接层中，通过LSTM模型对原始问题文本Q进行编码，得到其隐状态矩阵，进而将各个(句子，句子)单元的注意力表示r和问题文本Q的最后一层隐向量h_l拼接得到问题文本的最终表示

最后，在softmax层中，将问题文本的最终表示

送入softmax层得到最终的条件概率分布，其中最大的概率值所对应的属性类别即为该问答式评论文本的属性类别预测值。

M＝tanh(W_s·(s^T·s)+b_s)

r＝s·α^T

(1)数据准备

在本发明中，选取了淘宝网的“问大家”模块中三个领域的问答式评论文本用于实验，即数码领域、美妆领域和箱包领域。考虑到文本分布的不平衡性，剔除了各领域文本数量少于55条的类别，最终数码领域包含2427条文本，美妆领域包含2927条文本，箱包领域包含2876条文本，相应的属性类别数目为7、10和11。

(2)模型训练

在训练过程中，本发明选择交叉熵代价函数作为属性类别分类任务的损失函数。给定一组训练数据

和y_t，其中

表示第t个问题文本，

表示相应的答案文本，y_t表示问答式评论文本

的真实标签。若用函数

表示本发明提出的分类模型，其输出为属于各个属性类别的概率向量，则训练过程以最小化损失函数为目标进行：

其中，Ns是训练样本的数量，K是分类的属性类别数目，l是L2正则化项。

在上述等式中，模型参数通过使用Adagrad优化函数进行优化，并使用均匀分布

(3)实验结果

为了对本发明所提出的基于分层匹配注意力机制的分类模型进行全面的分析与比较，选择一些基准实验作为对比。此外，采用留出法来比较各分类方法的性能，即将每个属性类别中的70％的数据作为训练集，10％的数据作为验证集，其余20％作为测试集，并根据验证集进行调参。

表2、表3和表4分别为上述方法基于数码领域、美妆领域和箱包领域的数据集并采用相同参数设置的实验结果。从三张表中可以得出以下结论：

首先，在三个领域中，所有的LSTM(Q)方法的性能均明显优于 LSTM(A)，这说明问题文本比答案文本包含更多与属性有关的信息，更有助于属性类别分类任务，与语料标注规范一致。同时，LSTM(Q+A) 方法的性能在所有的LSTM方法中显然是最好的，意味着可以利用答案文本中与属性有关的信息来提升属性类别分类任务的性能。

其次，在数码领域，基于注意力机制的LSTM模型 LSTM-Attention的正确率Accuracy和Macro-F1值比LSTM(Q)方法分别提高了3.1％和2.6％。同样地，在美妆领域，LSTM-Attention的正确率Accuracy和Macro-F1值分别提高了0.9％和2.2％。在箱包领域，LSTM-Attention的正确率Accuracy和Macro-F1值分别提高了4.0％和3.7％。这说明注意力机制在处理问答式评论文本的属性类别分类任务方面是非常有效的。

再者，在数码领域，QAMatching Attention方法的Accuracy和 Macro-F1比LSTM(Q)方法分别提高了4.6％和4.8％。同样地，在美妆领域，QAMatching Attention方法的Accuracy和Macro-F1分别提高了2.5％和3.3％。在箱包领域，QA Matching Attention方法的 Accuracy和Macro-F1分别提高了5.1％和9.6％。这说明了捕捉问题句子和答案句子之间的匹配信息对于提升分类性能的重要性。

最后，在各领域中，本发明提出的基于分层匹配注意力机制的分类方法Hierarchical Matching Attention在所有方法中性能是最好的。在数码领域，Hierarchical Matching Attention方法的Accuracy和 Macro-F1比LSTM(Q)方法分别提高了7.7％和11.5％。在美妆领域， Hierarchical Matching Attention方法的Accuracy和Macro-F1分别提高了4.3％和4％。在箱包领域，Hierarchical Matching Attention方法的Accuracy和Macro-F1分别提高了6.7％和10％。这些数据表明，本发明提出的基于分层匹配注意力机制的分类方法可以有效地捕捉问题句子及其与属性类别相匹配的答案句子所组成的(句子，句子) 单元对于属性类别分类任务的重要程度，且性能提升是较为显著的。此外，Hierarchical Matching Attention方法的分类性能优于第3章提出的Multi-Attention方法。

表2数码领域各方法的实验结果

表3美妆领域各方法的实验结果

＝

表4箱包领域各方法的实验结果

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。

Claims

1.基于分层匹配注意力机制的问答文本属性类别分类方法，其特征在于，该方法包括语料标注阶段和属性类别分类阶段；

其中在所述属性类别分类阶段，首先基于句子切分算法将问题文本和答案文本进行句子切分，其次并为每条问答式评论文本构建多个(句子，句子)单元；

2.根据权利要求1所述的基于分层匹配注意力机制的问答文本属性类别分类方法，其特征在于，其中在语料标注阶段：在对问答文本进行语料标注时需要分别抽取描述语、属性类别及情感极性，在标注过程中应遵循以下三个准则：

3.根据权利要求2所述的基于分层匹配注意力机制的问答文本属性类别分类方法，其特征在于，根据语料特点，设计一种句子切分算法，对问题文本和答案文本进行句子切分，尽可能地让每个句子只包含一个属性类别；主要思想是基于斯坦福大学的CoreNLP工具对问题文本和答案文本进行初步的切分，再利用合并操作对初步的切分结果进行处理。

4.根据权利要求1所述的基于分层匹配注意力机制的问答文本属性类别分类方法，其特征在于，在所述训练模型阶段中的神经网络模型的输入文本序列为问答式评论文本中问题句子和答案句子的词向量表示，用于模型的训练，且词向量维度为100；根据开发集调参得到，问题句子和答案句子个数的最佳值为2。

5.根据权利要求1所述的基于分层匹配注意力机制的问答文本属性类别分类方法，其特征在于，所述属性类别分类阶段的神经网络模型中训练模型参数的方法采用Adagrad算法，其形式如下式所示：