CN111581981B

CN111581981B - 基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法

Info

Publication number: CN111581981B
Application number: CN202010374312.4A
Authority: CN
Inventors: 饶元; 梁宏伟; 贺龙; 吴连伟
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2022-03-08
Anticipated expiration: 2040-05-06
Also published as: CN111581981A

Abstract

本发明公开了一种基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法，通过多任务的方式引入评价对象信息强化方面类别检测特征、带约束的标签嵌入机制以及多种注意力机制相结合的方式，实现了对商品评论的方面类别检测。本发明将句子中的实体词作为外部信息，通过评价对象抽取任务融入到模型中来。并设计了相应的门控机制让实体词信息针对性的辅助方面类别检测任务。其次，本发明通过为标签嵌入增加约束，提高了各个主题标签之间的区分度。同时，本发明通过不同类型的注意力机制对不同类型的语义特征分别进行提取，从而解决了传统单一注意力机制下特征提取不充分的问题。

Description

基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法

【技术领域】

本发明属于电子信息技术领域，涉及一种基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法。

【背景技术】

随着互联网与电子商务的快速发展，人们越来越多地通过互联网进行在线购物、订餐、预定酒店等。人们经常会在购物完成后在商品的评论区域发表自己对于商品的看法和建议，这些商品评论对于消费者和企业都具有重要意义。对于消费者而言，这些商品评论是消费者了解产品性能的重要渠道，会对消费者的购买决策产生直接影响。对于生产产品的企业，商品评论在企业进行产品改进、新功能设计、竞品分析等方面具有重要意义。但是，商品评论的数量是十分惊的，就某一单个商品而言，不同电商网站、微博、论坛关于该产品的评论可多达几十万条。对于一些热门商品，其评论数量更是无法想象。不管对于企业还是消费者，如何从评论中找到真正有用的信息，更进一步的如何更准确的将这些信息所反映出的问题归类细化成为一个巨大的难题。

评论中往往会从不同的角度去描述对应的商品，以评论“收到新手机很开心，手机外观非常好看，但在充电的时候电池会发烫。”为例，该评论分别对手机的外观和电池这两个方面进行了描述。不同用户或企业可能想针对性地去了解某个产品的某个方面，如：某款手机的电池怎么样。那么就需要将和手机电池相关的评论都找出来，从而对这些评论进行进一步的分析。这一任务就是观点挖掘中的一项重要的研究任务：方面类别检测任务。

目前的方面类别检测方法主要分为两种：基于机器学习的方法和基于深度学习的方法。基于机器学习的方法通常是对商品评论中每个方面类别构建一个二分类机器学习模型，利用训练数据训练出多个方面类别检测模型对商品评论进行预测。其中，SVM，最大熵，逻辑回归是方面类别检测中最常用的机器学习模型。基于机器学习算法的分类问题研究的优点在于建模能力强，特征可解释，因此在分类问题中会获得相对稳定的效果。但标签数量的增多会导致模型训练过程非常耗时，很多特征需要手工构建，且基于启发式的贪心策略特征组合过程中，试验次数不可估量。基于深度学习的方法往往将该任务看成是一个多标签分类问题。相比于机器学习方法，基于深度学习的方法虽然可以避免很多繁琐的人工特征的构建和筛选工作，但由于绝大部分商品评论都是简短的一句话；其中，包含的信息量比较小，深度学习模型很难像机器学习模型那样准确地提取到句子的方面类别特征。因此，很多现有模型通过引入词典、知识库等外部信息来辅助模型更好的识别出句子的方面类别特征。但现有模型在引入外部知识的过程中缺乏针对性，仅仅是将外部知识作为辅助信息融合进来，未能对外部知识进行筛选从而把真正有利于方面类别检测的信息融入进来。另外，标签嵌入在很多自然语言处理任务中已经被证实标签本身具有主题代表作用，但就目前的研究来看还没有将标签嵌入应用到方面类别检测中来，同时以往的标签嵌入往往没有考虑到各个标签之间的区分度。最后，注意力机制被广泛运用于方面类别检测任务，但现有的注意力机制往往只是单方面的注意力机制。这样的注意力机制往往将所有类型的特征都通过统一的注意力机制进行筛选，无法兼顾不同类别的特征，所以增加了注意力机制中含有噪声的概率。

综上，现有方面类别检测模型存在以下一些问题：(1)在知识的引入过程中缺乏筛选机制，无法针对性的引入一些核心的外部知识，因此可能会引入一些无关的噪声。(2)单一注意力机制下会存在特征提取力度不足的问题，无法兼顾不同类别的特征。(3)没有从标签嵌入的角度去区分各个方面类别，并且标签之间缺乏区分度。

【发明内容】

本发明的目的在于解决现有技术中的问题，提供一种基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法，通过多任务的方式引入评价对象信息强化方面类别检测特征、带约束的标签嵌入机制以及多种注意力机制相结合的方式，实现了对商品评论的方面类别检测。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于评价对象强化和带约束标签嵌入的方面类别检测系统，包括：

通用语义嵌入模块，用于通过预训练好的词向量将商品评论中的字或词映射成对应的字或词向量表示；

方面类别特征提取模块，用于采用双向LSTM来对商品评论进行编码，以使得句子中的每个词能包含句子上下文的语义信息；

评价对象信息强化模块，用于将评价对象信息通过评价对象抽取任务引入到方面类别检测模型中，通过相应的门控机制来实现评价对象信息和方面类别检测模型的融合，得到句子中各个词语相对于评价对象的注意力得分；

带约束的多标签嵌入模块，用于将不同的方面类别通过标签嵌入形成相应的主题向量，通过和句子中的每个词计算余弦相似度得到对应的相似度得分矩阵，通过最大池化得到句子中各个词的注意力得分；

多注意力特征融合模块，用于将句子关于评价对象的注意力表示、句子关于实体标签嵌入的注意力表示、句子关于属性标签嵌入的注意力表示相结合，提取句子的方面类别特征；

方面类别输出预测模块，用于通过多注意力特征融合模块的输出进行最终的方面类别预测，通过实体标签损失、属性标签损失、方面类别标签损失共同引导模型的训练。

一种基于评价对象强化和带约束标签嵌入的方面类别检测方法，包括以下步骤：

步骤0：数据标记

将商品评论数据分解为字序列，并给出每条商品评论所对应的实体类别标签、属性类别标签和评论中的评价对象；对于句子中的评价对象，标记过程中需要生成相应的句子的BIO标记序列，B代表评价对象开始，I评价对象内部字，O代表无关字；

步骤1：数据形式化说明

对于商品评论的方面类别检测任务定义如下：对于任意一条评论X＝{v₁，v₂，...，v_n，...，v_N}；其中，v代表句子中的单个字，n为字在所在句子中的下标，句子长度即句子中含有的字的个数为N；方面类别检测任务需要预测出句子中含有的标签类别，用Y＝{y₁，y₂，...，y_k，...，y_K}表示；其中，K代表标签类别的个数，y_k代表句子中是否包含第k个方面类别，y_k的取值范围为y_k∈{0，1}；其中，0代表不包含，1代表包含；方面类别标签为混合标签或单独的标签的形式，若为混合标签的形式，则分别将混合标签的两部分称为实体标签和属性标签；采用E＝{e₁，e₂，...，e_l，...，e_L}表示实体标签集合；其中，L代表实体标签类别的个数，e_l代表句子中是否包含第l个实体方面类别，e_l的取值范围为e_l∈{0，1}；同理采用A＝{a₁，a₂，...，a_m，...，a_M}表示属性标签集合；其中，M代表属性标签类别的个数，a_m代表句子中是否包含第m个属性方面类别，a_m的取值范围为a_m∈{0，1}；模型需要预测出商品评论中含有的标签类别Y；

步骤2：商品评论通用语义嵌入

将输入句子中的词语映射为向量，对于包含n个字的商品评论X＝{v₁，v₂，...，v_n，...，v_N}，首先用Glove字向量通过嵌入层将句子中的每一个字映射成为300维的字向量，记为X＝{w₁，w₂，...，w_n，...，w_N}；其中，w_n代表句子对应单词的向量表示，且w_n∈R^d，d＝300；

步骤3：商品评论方面类别检测任务特征提取

在进行字嵌入之后，通过双向LSTM编码器对句子中的字进行上下文语义信息的嵌入，使得字向量具备语义信息；该过程对应的形式化表达如下：

其中，LSTM代表LSTM的细胞单元；输出结果记为

其中，

C代表category，即代表该隐藏层表示为主体特征模块的输出结果；

步骤4：评价对象信息的引入

在进行词嵌入之后，句子通过双向LSTM编码器来获取评价对象任务的特征表示，用于评价对象抽取任务；该过程对应的形式化表达如下：

其中，LSTM代表LSTM的细胞单元；输出结果记为

其中，

T代表评价对象，即代表该隐藏层表示为评价对象特征强化模块的输出结果；

对评价对象强化模块的隐藏层通过全连接层进行特征维度的转换，通过Softmax函数计算输出概率，实现评价对象的预测；该过程对应的形式化表达如下：

其中，W_A和b_A为全连接层的训练参数；通过Softmax函数进行归一化，输出最终的标签预测概率；

为序列标注的标签的输出概率，对应的标签集合为{B,I,O}；采用交叉熵作为最终的损失函数，对应的形式化表达如下：

步骤5：评价对象和方面类别检测任务特征融合

通过门控机制评价对象的特征来过滤相应的噪声，通过注意力机制计算得到经过评价对象信息强化的句子级表示，具体实现过程如下：

步骤6：方面类别标签嵌入

将数据中的实体标签E＝{e₁,e₂,…,e_l,…,e_L}和属性标签A＝{a₁,a₂,…,a_m,…,a_M}进行词嵌入，得到相应的主题向量

和

各个主题向量的使用主题标签对应的主题词的词向量进行初始化；对于中文则采用主题词中包含的字向量求和平均的方式初始化方面类别标签嵌入；与句子对应的字嵌入X＝{w₁,w₂,…,w_n,…,w_N}相同，e_l,a_m∈R^d；标签嵌入得到的主题向量即代表该类别的主题信息，其与句子的词嵌入处于同一向量空间；

步骤7：计算相似度矩阵

采用余弦相似度来衡量句子中单词和不同类别主题向量之间的相似程度，具体式如下：

其中，G代表句子中各个词语和实体标签之间的相似度，矩阵中的每一个元素g_nl代表第n个单词和第l个实体标签间的相似度，g_nl∈[-1,1]，G∈R^N×L；H代表句子中各个词语和实体标签之间的相似度，矩阵中的每一个元素h_nm代表第n个单词和第m个属性标签间的相似度，h_nm∈[-1,1]，H∈R^N×M；

和

分别为G和H的正则化矩阵，矩阵中每一个元素代表原标签嵌入的和单词嵌入的l₂正则项；具体的，

步骤8：通过相似度矩阵计算标签嵌入对应的注意力得分

在得到相似度矩阵之后，使用依据相似度矩阵来获取句子相对于实体标签和属性标签的注意力得分，采用最大池化的方式对相似度矩阵处理G和H；

步骤9：得到基于不同类型标签嵌入的句子的注意力表示

计算完注意力得分之后，通过加权求和的方式分别得到句子关于实体标签和属性标签的句子级向量表示h^EC、h^AC，形式化表达如下：

通过以上处理，成功通过标签嵌入结合注意力机制分别对句子中的实体特征词和属性特征词进行过滤，使得模型学习到方面类别检测的主题特征；

步骤10：通过正交约束保证标签嵌入的区分度

将正交约束分别运用于主题向量矩阵，具体的形式化表达如下：

其中，I为单位矩阵；这项损失函数使得E·E^T的非对角线元素趋向于0；最后将正交损失统一表示为

步骤11：融合多种注意力特征用于最终预测

通过以上步骤，得到通过三种不同类型注意力机制得到的句子级向量表示，分别是基于评价对象信息强化的句子级表示h^TC、基于实体标签注意力的句子级表示h^EC和基于属性标签注意力的句子级表示h^AC；将三个向量进行拼接，通过全连接层进行特征维度的转换，通过Softmax函数计算输出概率，实现方面类别的检测，该过程对应的形式化表达如下：

P(C)＝Softmax(W_Yh^C+b_Y) (19)

P(E)＝Softmax(W_Eh^C+b_E) (20)

P(A)＝Softmax(W_Ah^C+b_A) (21)

其中，h^C∈R^1×6d；W_Y、W_E、W_A和b_Y、b_E、b_A为全连接层的训练参数，分别用于预测句子的方面类别标签、实体标签和属性标签；其中，W_Y∈R^6d×k、W_E∈R^6d×l、W_A∈R^6d×m；通过Softmax函数进行归一化，输出最终的方面类别概率；采用交叉熵作为最终的损失函数，对应的形式化表达如下：

其中，τ∈{C，A，E}分别代表对方面类别标签、实体标签和属性标签进行预测，即τ表示具体的预测任务；K∈{K，L，M}分别代表对方面类别标签、实体标签和属性标签的标签种类数；所以最终的方面类别预测损失损失为：

δ(θ)＝δ(C)+δ(A)+δ(E) (23)

模型方面类别检测的训练损失为方面类别标签训练损失、实体标签训练损失和属性标签训练损失的和；

步骤12：多任务联合训练

模型的损失总共分为三部分，分别为：方面类别检测的损失δ(θ)、标签嵌入的正交约束损失

评价对象抽取任务损失σ(θ)；其中，θ代表整个模型，三个任务在模型训练过程中同时作用于模型θ；模型在训练过程中引入超参数，模型最终的损失为：

其中，λ和σ超参数，分别用于调节评价对象抽取任务损失和标签嵌入的正交约束损失的权重；其中，λ取0.7，σ取0.01。

本发明进一步的改进在于：

所述步骤5中，门控制机制的具体实现方法如下：

门控的输入为两项，一项是评价对象抽取任务的隐藏层输出

另一项是方面类别检测的主模块的单词的隐藏层表示

W_T、W_C和b_TC是门控机制中的待学习参数；其中，W_T∈R^2d×2d,W_C∈R^2d×2d,b_TC∈R^2d；W_T和W_C分别用于将评价对象抽取任务的单词的隐藏层表示和方面类别检测的主模块的单词的隐藏层表示映射到同一向量空间；通过式(5)将评价对象抽取任务的隐藏层输出

和

经过线性变化相加，得到两个任务的混合特征；然后经过Relu函数实现门控过滤，将权重较小或取值为负数的词向量过滤掉，而保留权重较高的单词表示；

然后利用门控机制得到的向量计算句子中单词的注意力得分，如式(6)所示，W_TC作为待学习参数用于计算单词的注意力得分；其中，W_TC∈R^2d×1；计算完注意力得分后，使用式(6)对得分进行归一化使得α_n∈[0,1]；最终将注意力得分作用于方面类别检测的主模块的单词的隐藏层表示

通过加权求和获得最终的基于评价对象信息强化的句子级表示；具体实现对应式(7)。

所述步骤8的具体方法如下：

具体做法是对相似度矩阵的主题向量对应的维度做最大池化，得到对应的句子个单词的注意力的得分向量β、γ；其中，β∈R^L、γ∈R^L；形式化表达如下：

β＝Max-pooling(G) (11)

γ＝Max-pooling(H) (12)。

与现有技术相比，本发明具有以下有益效果：

本发明将句子中的实体词作为外部信息，通过评价对象抽取任务融入到模型中来。并设计了相应的门控机制让实体词信息针对性的辅助方面类别检测任务。其次，本发明通过为标签嵌入增加约束，提高了各个主题标签之间的区分度。同时，本发明通过不同类型的注意力机制对不同类型的语义特征分别进行提取，从而解决了传统单一注意力机制下特征提取不充分的问题。

进一步的，本发明将评价对象作为外部信息引入到模型中，并设计相应的门控机制让评价对象信息协助模型找到相应的实体特征。与传统的外部知识引入方式相比，本发明的外部知识引入更具针对性。同时本发明的外部信息不直接运用于模型，而是通过设计相应的门控机制来对方面类别特征进行筛选，使得和评价对象相关的方面类别特征通过注意力机制被筛选出来。

进一步的，本发明将标签嵌入引入到模型中来，通过正交约束改进各个主题标签的区分度。与传统的模型相比，本发明首次尝试将标签嵌入技术引入到方面类别检测任务中来。与现有的标签嵌入模型相比，本发明将正交约束作用于标签嵌入向量，使得主题标签的比传统的标签嵌入更具区分度。

进一步的，本发明通过不同类型的注意力机制从不同侧面去提取商品评论的主题特征。与传统的单方面注意力机制相比，本发明的多种注意力机制结合的策略提取到的特征更全面、更具区分度，大大降低了注意力机制中含有噪声词(字)的概率。

【附图说明】

图1为本发明的架构图；

图2为本发明的方面类别检测分类体系示例；

图3为本发明的单条原始数据示例；

图4为本发明的数据标注示例。

【具体实施方式】

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，不是全部的实施例，而并非要限制本发明公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要的混淆本发明公开的概念。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的；其中，为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明公开的上下文中，当将一层/元件称作位于另一层/元件“上”时，该层/元件可以直接位于该另一层/元件上，或者它们之间可以存在居中层/元件。另外，如果在一种朝向中一层/元件位于另一层/元件“上”，那么当调转朝向时，该层/元件可以位于该另一层/元件“下”。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，图1为本模型的架构图，为各个模块间的相互关系。箭头指示各个模块间的作用流程。本发明基于评价对象强化和带约束标签嵌入的方面类别检测系统，包括：

通用语义嵌入模块，用于通过预训练好的词向量将商品评论中的字或词映射成对应的字或词向量表示。

方面类别特征提取模块，用于采用双向LSTM来对商品评论进行编码，以使得句子中的每个词能包含句子上下文的语义信息。编码后的向量作为句子中词语的基础向量表示，和其他模块相结合进一步产生不同类型的特征。

评价对象信息强化模块，用于将评价对象信息通过评价对象抽取任务引入到方面类别检测模型中来，通过相应的门控机制来实现评价对象信息和方面类别检测模型的融合，进一步得到句子中各个词语相对于评价对象的注意力得分。加权组合形成句子关于评价对象的注意力表示，从而针对性地将评价对象作为外部知识来辅助方面类别检测任务。

带约束的多标签嵌入模块，用于将不同的方面类别通过标签嵌入形成相应的主题向量，通过和句子中的每个词计算余弦相似度得到对应的相似度得分矩阵，进一步通过最大池化得到句子中各个词的注意力得分。另外，模块采用正交约束来增强各个主题向量间的区分度。该模块可以通过注意力得分来筛选句子中的词语，使得和主题相关的词语获得较高的权重，从而获得具有更好的主题区分度的句子特征表示。

多注意力特征融合模块，用于将句子关于评价对象的注意力表示、句子关于实体标签嵌入的注意力表示、句子关于属性标签嵌入的注意力表示结合起来。从不同方面提取句子的方面类别特征，使得句子的特征表示具有更全面、更丰富的语义信息。

本发明基于评价对象强化和带约束标签嵌入的方面类别检测方法，包括以下步骤：

阶段0：数据预处理与标记

步骤0：数据标记

将商品评论数据分解为字序列(对于英文为词序列)，并给出每条商品评论所对应的实体类别标签、属性类别标签和评论中的评价对象；方面类别标签包含了实体标签类别、属性标签类别，二者通常是上下位的关系，如：对于方面类别标签“FOOD#QUALITY”，“FOOD”为实体标签，“QUALITY”为属性标签，他们分别代表不同级别的方面类别的分类。该模型同样适用于单标签的情况，即也可以只给出一种方面类别标签。对于句子中的评价对象，标记过程中需要生成相应的句子的BIO标记序列。B代表评价对象开始，I评价对象内部字，O代表无关字。如“电池会发烫”这个句子对应的BIO序列为“BIOOO”。

步骤1：数据形式化说明

对于商品评论的方面类别检测任务定义如下：对于任意一条评论X＝{v₁，v₂，...，v_n，...，v_N}；其中，v代表句子中的单个字，n为字在所在句子中的下标，句子长度即句子中含有的字的个数为N。方面类别检测任务需要预测出句子中含有的标签类别，用Y＝{y₁，y₂，...，y_k，...，y_K}表示。其中，K代表标签类别的个数，y_k代表句子中是否包含第k个方面类别，y_k的取值范围为y_k∈{0，1}；其中，0代表不包含，1代表包含。一个句子可以包含多个方面类别，即Y中可以有多个y_k取值为1。方面类别标签可以是混合标签(如：“FOOD#QUALITY”)，也可以是单独的标签(如：“FOOD”)。若为混合标签的形式，则分别将混合标签的两部分称为实体标签和属性标签。本发明用E＝{e₁，e₂，...，e_l，...，e_L}表示实体标签集合；其中，L代表实体标签类别的个数，e_l代表句子中是否包含第l个实体方面类别，e_l的取值范围同样为e_l∈{0，1}。同理用A＝{a₁，a₂，...，a_m，...，a_M}表示属性标签集合；其中，M代表属性标签类别的个数，a_m代表句子中是否包含第m个属性方面类别，a_m的取值范围为a_m∈{0，1}。模型需要预测出商品评论中含有的标签类别Y。

阶段1：商品评论通用语义嵌入

步骤2：商品评论通用语义嵌入

为了能捕捉商品评论的上下文语义信息，需要将输入句子中的词语映射为向量。对于包含n个字的商品评论X＝{v₁，v₂，...，v_n，...，v_N}，首先用Glove字向量通过嵌入层将句子中的每一个字映射成为300维的字向量，记为X＝{w₁，w₂，...，w_n，...，w_N}。其中，w_n代表句子对应单词的向量表示，且w_n∈R^d，d＝300。

阶段2：商品评论方面类别检测任务特征提取

步骤3：商品评论方面类别检测任务特征提取

在进行字嵌入之后，为了能捕捉商品评论的上下文语义信息，句子通过图中右边的双向LSTM编码器，对句子中的字进行上下文语义信息的嵌入，使得字向量具备更丰富的语义信息。该过程对应的形式化表达如下：

其中，LSTM代表LSTM的细胞单元。输出结果记为

其中，

C代表category，即代表该隐藏层表示为主体特征模块的输出结果。

阶段3：评价对象信息强化

步骤4：评价对象信息的引入

如图1所示，在进行词嵌入之后，句子通过双向LSTM编码器来获取评价对象任务的特征表示，用于评价对象抽取任务。该过程对应的形式化表达如下：

其中，LSTM代表LSTM的细胞单元。输出结果记为

其中，

T代表评价对象，即代表该隐藏层表示为评价对象特征强化模块的输出结果。

为了让评价对象强化模块的隐藏层表示能分辨出句子中的评价对象，模型对评价对象强化模块的隐藏层通过全连接层进行特征维度的转换，通过Softmax函数计算输出概率，实现评价对象的预测。该过程对应的形式化表达如下：

其中，W_A和b_A为全连接层的训练参数。通过Softmax函数进行归一化，输出最终的标签预测概率。

为序列标注的标签的输出概率，对应的标签集合为{B,I,O}。采用交叉熵作为最终的损失函数，对应的形式化表达如下：

步骤5：评价对象和方面类别检测任务特征融合

为了更好的将评价对象融入到方面类别检测任务中来，同时尽可能的避免引入无关的噪声。本发明设计了一种门控机制来通过评价对象的特征来过滤相应的噪声。同时通过注意力机制计算得到经过评价对象信息强化的句子级表示。具体实现过程如下：

如图1所示，该门控机制的作用是通过评价对象信息来对句子的方面类别特征进行过滤，进一步计算句子的方面类别特征中各个词的注意力得分。

下面将具体描述该门控机制的设计思路及相对应的具体实现。如式(5)所示，该门控的输入为两项，一项是评价对象抽取任务的隐藏层输出

另一项是方面类别检测的主模块的单词的隐藏层表示

W_T、W_C和b_TC是门控机制中的待学习参数；其中，W_T∈R^2d×2d,W_C∈R^2d×2d,b_TC∈R^2d。W_T和W_C分别用于将评价对象抽取任务的单词的隐藏层表示和方面类别检测的主模块的单词的隐藏层表示映射到同一向量空间，方便两种特征更好的融合。直观的理解，评价对象抽取任务的隐藏层输出

由于受评价对象抽取任务的引导，句子中评价对象的单词所对应的隐藏层表示相对于其他句子中的单词具有较高的权重，词向量本身经过线性变化后将会得到更高的概率输出值。对于方面类别检测的主模块的单词的隐藏层表示

其单词向量此时代表句子中各个单词的语义信息。通过式(5)将评价对象抽取任务的隐藏层输出

和

经过线性变化相加，可以得到两个任务的混合特征。由于

中评价对象对应单词向量具有较高权重，所以

和

相加后的向量中评价对象对应单词向量也将具有较高权重。这样相加后的向量既能突出评价对象的强化信息，又能具备原先句子中的上下文语义信息。然后经过Relu函数实现门控过滤，将一些权重较小或取值为负数的词向量过滤掉，而保留权重较高的单词表示。

然后该模型利用门控机制得到的向量计算句子中单词的注意力得分，如式(6)所示，W_TC作为待学习参数用于计算单词的注意力得分；其中，W_TC∈R^2d×1。计算完注意力得分后，使用式(6)对得分进行归一化使得α_n∈[0,1]。最终将注意力得分作用于方面类别检测的主模块的单词的隐藏层表示

通过加权求和获得最终的基于评价对象信息强化的句子级表示。具体实现对应式(7)。

通过以上处理，模型成功将句子中的评价对象信息引入到了模型中，使得模型能通利用一些明显具有主题特征的评价对象更好的增强模型的方面类别检测性能。

阶段4：带约束的多标签嵌入

步骤6：方面类别标签嵌入

如图1所示，模型图右半部分为标签嵌入模块。首先，将数据中的实体标签E＝{e₁,e₂,…,e_l,…,e_L}和属性标签A＝{a₁,a₂,…,a_m,…,a_M}进行词嵌入，得到相应的主题向量

和

各个主题向量的使用主题标签对应的主题词的词向量进行初始化。例如：实体标签“FOOD”即使用“food”对应的词向量进行初始化。对于中文则采用主题词中包含的字向量求和平均的方式初始化方面类别标签嵌入。和句子对应的字嵌入X＝{w₁,w₂,…,w_n,…,w_N}一样，e_l,a_m∈R^b。这样标签嵌入得到的主题向量即代表了该类别的主题信息，它和句子的词嵌入处于同一向量空间。

步骤7：计算相似度矩阵

为了得到句子中各个词语和各个主题之间的相关性，本发明采用余弦相似度来衡量句子中单词和不同类别主题向量之间的相似程度。具体式如下：

其中，G代表句子中各个词语和实体标签之间的相似度，矩阵中的每一个元素g_nl代表第n个单词和第l个实体标签间的相似度，g_nl∈[-1,1]，G∈R^N×L。H代表句子中各个词语和实体标签之间的相似度，矩阵中的每一个元素h_nm代表第n个单词和第m个属性标签间的相似度，h_nm∈[-1,1]，H∈R^N×M。

和

分别为G和H的正则化矩阵，矩阵中每一个元素代表原标签嵌入的和单词嵌入的l₂正则项。具体的，

步骤8：通过相似度矩阵计算标签嵌入对应的注意力得分

在得到相似度矩阵之后，模型使用依据相似度矩阵来获取句子相对于实体标签和属性标签的注意力得分。通常情况下，一个单词只包含一个方面的类别特征，即某个单词一般只和某个主题相关。所以模型采用最大池化的方式对相似度矩阵处理G和H。

具体做法是对相似度矩阵的主题向量对应的维度做最大池化，得到对应的句子个单词的注意力的得分向量β、γ；其中，β∈R^L、γ∈R^L。形式化表达如下：

β＝Max-pooling(G) (11)

γ＝Max-pooling(H) (12)

步骤9：得到基于不同类型标签嵌入的句子的注意力表示

计算完注意力得分之后，模型通过加权求和的方式分别得到句子关于实体标签和属性标签的句子级向量表示h^EC、h^AC，形式化表达如下：

通过以上处理，模型成功通过标签嵌入结合注意力机制分别对句子中的实体特征词和属性特征词进行了过滤，使得模型从不同方面更全面的学习到了方面类别检测的主题特征。

步骤10：通过正交约束保证标签嵌入的区分度

本发明将正交约束分别运用于主题向量矩阵，其目的是为了让各个主题向量之间尽可能的保持正交，具体的形式化表达如下：

其中，I为单位矩阵。这项损失函数的可以使得E·E^T的非对角线元素趋向于0，所以使得向量更具代表性。最后将正交损失统一表示为

通过以上处理，模型中的主题标签将会更具代表性，拥有跟好的区分度。

阶段5：多注意力特征融合用于最终预测

步骤11：融合多种注意力特征用于最终预测

通过以上步骤，模型得到了通过三种不同类型注意力机制得到的句子级向量表示，分别是基于评价对象信息强化的句子级表示h^TC、基于实体标签注意力的句子级表示h^EC和基于属性标签注意力的句子级表示h^AC。三个句子级表示分别从不同方面反应了方面类别检测的特征。最终将三个向量进行拼接，通过全连接层进行特征维度的转换，通过Softmax函数计算输出概率，实现方面类别的检测。该过程对应的形式化表达如下：

P(C)＝Softmax(W_Yh^C+b_Y) (19)

P(E)＝Softmax(W_Eh^C+b_E) (20)

P(A)＝Softmax(W_Ah^C+b_A) (21)

其中，h^C∈R^1×6d。W_Y、W_E、W_A和b_Y、b_E、b_A为全连接层的训练参数，分别用于预测句子的方面类别标签、实体标签和属性标签。其中，W_Y∈R^6d×k、W_E∈R^6d×l、W_A∈R^6d×m。通过Softmax函数进行归一化，输出最终的方面类别概率。采用交叉熵作为最终的损失函数，对应的形式化表达如下：

其中，τ∈{C，A，E}分别代表对方面类别标签、实体标签和属性标签进行预测，即τ表示具体的预测任务。κ∈{K，L，M}分别代表对方面类别标签、实体标签和属性标签的标签种类数。所以最终的方面类别预测损失损失为：

δ(θ)＝δ(C)+δ(A)+δ(E) (23)

即模型方面类别检测的训练损失为方面类别标签训练损失、实体标签训练损失和属性标签训练损失的和。

步骤12：多任务联合训练

综上所述，模型的损失总共分为三部分，分别为：方面类别检测的损失δ(θ)、标签嵌入的正交约束损失

评价对象抽取任务损失σ(θ)。其中，θ代表整个模型，三个任务在模型训练过程中同时作用于模型θ。同时为了平衡各项损失，模型在训练过程中引入超参数，以使得模型更好的进行训练，所以模型最终的损失为：

其中，λ和σ超参数，在本模型中分别用于调节评价对象抽取任务损失和标签嵌入的正交约束损失的权重。其中，λ取0.7，σ取0.01。

实施例：

对于手机评论，预定义3个实体标签和4个属性标签，其排列组合方式如图2所示，图2为方面类别检测分类体系示例。在该例子中实体标签包含了“多媒体”、“硬件”、“基础软件”，也就是说某条评论可能涉及到上述标签的多个方面。每个实体标签又包含多个属性标签，某个属性标签可以被不同的实体标签包含。如：“多媒体”中又包含了“性能”、“触摸屏”两个方面。实体标签和属性标签组合成为方面类别标签。

如图3所示，为了运用该模型，需要用一些标注数据对模型进行训练。图3展示了标注数据过程中需要的标注信息。对于一条评论，需要知道评论中的评价对象、实体标签和属性标签，图3中展示了示例评论中需要知道的信息。对于训练数据，标记出训练数据的评价对象、实体标签和属性标签，用于模型的训练。如：对于评论“玩游戏屏幕失灵是多么痛苦的一件事，电池会发烫。”。其对应的评级对象是“屏幕”“电池”，方面类别标签是“多媒体#触摸屏”和“硬件#电池”。相应的实体标签为“多媒体”“硬件”，属性标签为“触摸屏”“电池”，具体可参考图3。

对于评价对象，需要给出相应的BIO标记用于模型的评价对象信息强化模块的训练。如对于上述评论，相应的BIO标记为“OOOBIOOOOOOOOOOBIOO”，其中B代表评价对象的开始，I代表评价对象中间，O代表无关字。对于标签信息按照分类体系，所有实体标签为“多媒体”、“硬件”、“基础软件”，那么该条评论对应的实体标签就表示为向量[1，1，0]，其中1代表该评论包含该当面类别，0代表不包含。方面类别标签和属性标签的标注方式和实体标签雷同，不再赘述。以上标注情况具体可参考图4，图4展示了具体的数据标注格式，评价对象用BIO的方式标注，其中B代表评价对象的开始，I代表评价对象中间，O代表无关字。对于标签信息按照分类体系，所有实体标签为“多媒体”、“硬件”、“基础软件”，那么该条评论对应的实体标签就表示为向量[1，1，0]，其中1代表该评论包含该当面类别，0代表不包含。方面类别标签和属性标签的标注方式和实体标签雷同，不再赘述。

完成数据标注后用标注好的数据对模型进行训练得到训练好的模型。用训练好的模型对未标注的数据进行预测，可以得到评论的方面类别。如预测句子“昨天打王者荣耀的时候手机电池发热”，可预测出其对应的方面类别标签为“硬件#电池”。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于评价对象强化和带约束标签嵌入的方面类别检测系统，其特征在于，包括：

2.一种基于评价对象强化和带约束标签嵌入的方面类别检测方法，其特征在于，包括以下步骤：

步骤0：数据标记

步骤1：数据形式化说明

对于商品评论的方面类别检测任务定义如下：对于任意一条评论X＝{v₁,v₂,…,v_n,…,v_N}；其中，v代表句子中的单个字，n为字在所在句子中的下标，句子长度即句子中含有的字的个数为N；方面类别检测任务需要预测出句子中含有的标签类别，用Y＝{y₁,y₂,…,y_k,…,y_K}表示；其中，K代表标签类别的个数，y_k代表句子中是否包含第k个方面类别，y_k的取值范围为y_k∈{0,1}；其中，0代表不包含，1代表包含；方面类别标签为混合标签或单独的标签的形式，若为混合标签的形式，则分别将混合标签的两部分称为实体标签和属性标签；采用E＝{e₁,e₂,…,e_l,…,e_L}表示实体标签集合；其中，L代表实体标签类别的个数，e_l代表句子中是否包含第l个实体方面类别，e_l的取值范围为e_l∈{0,1}；同理采用A＝{a₁,a₂,…,a_m,…,a_M}表示属性标签集合；其中，M代表属性标签类别的个数，a_m代表句子中是否包含第m个属性方面类别，a_m的取值范围为a_m∈{0,1}；模型需要预测出商品评论中含有的标签类别Y；

步骤2：商品评论通用语义嵌入

将输入句子中的词语映射为向量，对于包含n个字的商品评论X＝{v₁,v₂,…,v_n,…,v_N}，首先用Glove字向量通过嵌入层将句子中的每一个字映射成为300维的字向量，记为X＝{w₁,w₂,…,w_n,…,w_N}；其中，w_n代表句子对应单词的向量表示，且w_n∈R^d，d＝300；

步骤3：商品评论方面类别检测任务特征提取