CN110866542B

CN110866542B - 一种基于特征可控融合的深度表示学习方法

Info

Publication number: CN110866542B
Application number: CN201910989654.4A
Authority: CN
Inventors: 饶元; 冯聪; 吴连伟
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2021-11-19
Anticipated expiration: 2039-10-17
Also published as: CN110866542A

Abstract

本发明公开了一种基于特征可控融合的深度表示学习方法，在基于预训练的多层语言模型中获取单词情境化的嵌入表示的基础上，分别从局部和序列角度获取不同尺度的特征表示，并且提出了使用多头交互线性注意力机制提取上下文摘要实现单词的上下文信息表示。本发明使用预训练的多层语言模型对单词进行嵌入表示，获取了单词更加语境化的表示，解决了以往方法单词嵌入表示不够丰富，无法解决一词多义的问题；本发明提出了上下文摘要，使用多头交互线性注意力计算当前单词在整个句子影响下的特定表示来发现单词之间的差异以辅助评价对象挖掘；最后，本发明使用了门机制进行特征的筛选，为不同特征分配权重，加强了有用特征的影响。

Description

一种基于特征可控融合的深度表示学习方法

【技术领域】

本发明涉及一种多尺度与多类型特征可控融合的产品评价对象挖掘的深度表示学习方法。

【背景技术】

随着互联网的迅速发展，网络购物已经成为人们生活不可或缺的一部分，同时因网络购物而产生的网络产品在线评论数据也呈现指数性增长。这些数据大都是消费者使用产品后的真实感受与客观评价，不仅可以引导或促进其它消费者的购买兴趣，而且也可以帮助产品提供者寻找产品存在的问题与不足，推动产品的设计与服务的优化，这其中蕴含着大量的商业价值。具体地，从消费者角度来说，针对某件产品消费者想要关注的可能是产品的某些属性和特征，例如手机中的续航、分辨率、拍照质量等特征，或者是电脑的性能、故障率以及外观等特征，通过了解其他消费者对于这些属性或特征的观点与评价可以有效地指导消费者筛选产品；从商家角度来说，及时地获取消费者针对产品不同属性或特征的看法可以帮助商家改进产品不足或者确定下一步研发方向。因此，如何从海量产品评论中自动化地挖掘出评论者所评论的评价对象与相关的观点倾向，已成为亟需解决的重要问题。

大多数学者将评价对象挖掘视为序列标注问题。现有方法利用无监督学习、机器学习、深度学习等技术来挖掘评价对象已经获得了一定的成功。这些方法概括起来，大致可分为如下三类：基于统计学和语言规则的方法、基于句法依赖解析的方法以及基于深度语义表示学习的方法。其中，第一类方法主要是利用频繁项集挖掘或者利用手工构造的规则模板进行评价对象挖掘，这类方法虽然取得了一定的效果，但是难以适应灵活多变的句法特征及语义信息，导致召回率普遍不高。第二类方法则是使用句法依赖解析去捕获单词之间的语义关系，然后将这些关系作为条件随机场或者深度神经网络的输入，从而挖掘出单词之间的序列化语义信息特征，但这类方法仍然会受限于句法特征和简单的序列特征，缺乏特征的广度与语义的深度表示能力，同时还会受到句法依赖解析结果的影响。第三类方法是在第二类方法的基础上，使用注意力机制代替句法依赖解析来对评价对象和评价词之间的关系建模，在挖掘深度语义的同时降低了句法解析错误的影响。遗憾的是，上述几类方法都没有考虑到句子的局部特征、序列特征以及上下文特征的使用对评价对象挖掘结果的影响与贡献的差异，如何对不同类型的特征可控地进行筛选和优化，以及如何解决在不同领域下语义差异性等问题，这在很大程度上影响到产品的评价对象挖掘的准确性。

【发明内容】

本发明的目的在于克服上述现有技术的缺点，提供一种基于特征可控融合的深度表示学习方法。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于特征可控融合的深度表示学习方法，包括以下步骤：

步骤0：利用分词工具将评论数据分为单词序列，并给出对应的标签；

步骤1：给定长度为N的评论数据

其中x_i代表评论中的一个单词，y_i表示该单词对应的标签，且y_i∈{B,I,O}；对于标签集合{B,I,O}，B、I、O分别代表评价对象的开头单词，评价对象的内部单词和非评价对象单词；

步骤2：采用预训练的多层语言模型作为单词嵌入工具，获取单词情境化的嵌入表示；

步骤3：使用BERT作为词嵌入工具，BERT是由多层transformer组成的模型；

步骤4：采用线性加权的方法联合BERT多层transformer输出特征作为单词的嵌入表示，即词语的情境化表示；

步骤5：将生成的单词情境化嵌入作为模型的输入；

步骤6：采用BIGRU算法输入单词嵌入向量，并获取单词初步的语义表示；

步骤7：采用多尺度CNN算法抽取局部特征；

步骤8：将步骤7获取的不同尺度的局部特征进行融合，获取单词的局部特征表示，并使用LayerNorm进行归一化处理，从而获取单词的局部特征表示；

步骤9：使用步骤6生成的单词语义表示作为输入，采用BIGRU抽取更抽象的序列特征；

步骤10：使用多头交互线性注意力机制分别从不同的特征表示角度来提取上下文摘要，所生成的两种不同特征表示的上下文摘要充分利用了上下文特征；

步骤11：获取统一的上下文摘要，对序列特征偏向上下文摘要

以及局部特征偏向上下文摘要

进行选择性融合；

步骤12：针对步骤11中获取的上下文摘要s_i，以及步骤7-9中获取的局部特征

序列特征

使用另外的三个门控制信息的流入；

步骤13：通过步骤12，获取了当前单词的最终表示H_i，进一步，将H_i输入全连接层并使用Softmax激活函数获取最终的预测标签。

本发明进一步的改进在于：

步骤7中，多尺度CNN由三组不同卷积核大小的CNN组成，通过多尺度CNN分别抽取不同尺度的局部特征，其中第一组由一个1*1的卷积网络组成，第二组由一个1*1卷积接3*3卷积组成，第三组由一个1*1卷积接5*5卷积组成。

与现有技术相比，本发明具有以下有益效果：

本发明提出了一种基于多尺度与多类型特征可控融合的评价对象抽取策略，并且在基于预训练的多层语言模型中获取单词情境化的嵌入表示的基础上，分别从局部和序列角度获取不同尺度的特征表示，并且创新性的提出了使用多头交互线性注意力机制提取上下文摘要实现单词的上下文信息表示；同时，进一步采用门控机制对多类型特征进行可控融合，实现了网络评论内容中评价对象的准确挖掘。本发明使用预训练的多层语言模型对单词进行嵌入表示，获取了单词更加语境化的表示，解决了以往方法单词嵌入表示不够丰富，无法解决一词多义的问题；其次，本发明融合了多尺度的特征，从不同的尺度角度去分析单词的信息，扩大了特征的广度，获取了单词更加丰富的特征表示；本发明提出了上下文摘要，使用多头交互线性注意力计算当前单词在整个句子影响下的特定表示来发现单词之间的差异以辅助评价对象挖掘；最后，本发明使用了门机制进行特征的筛选，为不同特征分配权重，加强了有用特征的影响。

【附图说明】

图1为本发明的架构图；

图2为本发明中多尺度卷积网络结构图；

图3为本发明中多头交互线性注意力机制结构图；

图4为本发明中特征选择融合模块结构图，其中g_ε和

是上下文摘要控制门，

分别是最终表示融合门；

图5为本发明所用数据标签样例图；

图6为本发明实验性能图；

图7为本发明组件分离性能图。

【具体实施方式】

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，不是全部的实施例，而并非要限制本发明公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要的混淆本发明公开的概念。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明公开的上下文中，当将一层/元件称作位于另一层/元件“上”时，该层/元件可以直接位于该另一层/元件上，或者它们之间可以存在居中层/元件。另外，如果在一种朝向中一层/元件位于另一层/元件“上”，那么当调转朝向时，该层/元件可以位于该另一层/元件“下”。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明基于特征可控融合的深度表示学习方法，包括以下步骤：

阶段0：数据预处理与标记

步骤0：利用分词工具将将评论数据分为单词序列，并给出每个单词所对应的标签；

步骤1：给定为长度为N的评论数据

其中x_i代表评论中的一个单词，y_i表示该单词对应的标签，且y_i∈{B,I,O}，其中，B、I、O分别代表评价对象的开头单词，评价对象的内部单词和非评价对象单词；

阶段1：预训练语言嵌入

步骤2：采用预训练的多层语言模型作为单词嵌入工具，相较传统的词嵌入方法可以获取单词情境化的嵌入表示；

步骤3：使用由多层transformer组成的BERT模型作为基础的词嵌入工具，且对于BERT中每一层所生成的嵌入可以表示为：

其中，

代表句子中第i个单词在第l层所生成的嵌入表示，

代表句子中第i个单词在第l-1层所生成的嵌入表示；

步骤4：区别于传统的只采用语言模型最终层隐藏状态来实现单词的嵌入表示，本发明提出了一种线性加权的方法联合BERT多层transformer输出特征作为单词的嵌入表示，即词语的情境化表示：

其中，v_i是第i个单词的情景化嵌入表示，a_l是第l层transformer输出表示的权重，s是归一化参数，L表示BERT的层数；

步骤5：将生成的单词情境化嵌入作为模型的输入，执行步骤6；

阶段2：多尺度与多类型特征的联合抽取

步骤6：考虑到评价对象挖掘任务的特殊性，单词的序列特征与局部特征对于准确性用不同的贡献，本发明设计了多尺度于多类型特征联合抽取模块，分别抽取单词的序列特征和不同尺度大小的局部特征。

输入单词嵌入向量，并获取单词初步的语义表示，此步骤采用BIGRU算法实现：

其中，

和

分别代表BIGRU的前向计算和后向计算过程，

代表拼接操作；

步骤7：局部特征抽取，此步骤采用多尺度CNN算法实现，其中多尺度CNN主要由三组不同卷积核大小的CNN组成，通过多尺度CNN分别抽取不同尺度的局部特征，其中第一组由一个1*1的卷积网络组成，第二组由一个1*1卷积接3*3卷积组成，第三组由一个1*1卷积接5*5卷积组成，每组网络中的CNN的卷积计算过程如下：

其中，c代表左右卷积窗口的大小，x_i+j代表卷积窗口内的单词，w_j和b_j分别是卷积操作的参数，ReLU代表非线性激活函数；

对于多尺度CNN网络中卷积核大小为3*3和5*5的两组卷积网络，进行残差连接以补充语义信息，残差连接计算过程如下：

其中，

代表第t组卷积神经网络1<t≤3的输出，

表示1*1卷积的输出，

代表后两组中卷积核大于1*1的卷积网络输出，且u∈{3,5}；

步骤8：局部特征融合，将步骤7获取的不同尺度的局部特征进行融合，使用LayerNorm进行归一化处理，从而获取单词的局部特征表示：

其中，

分别是三组CNN抽取的不同大小的局部特征，

代表拼接操作；

步骤9：序列特征抽取，使用步骤6生成的单词语义表示作为输入，采用BIGRU进一步抽取更抽象的序列特征：

其中，

代表拼接操作；

步骤7～步骤9提取了单词的局部特征和序列特征，在此基础上，考虑到不同单词在当前上下文影响下的特定表示可以辅助评价对象抽取，进一步抽取不同特征表示偏向的上下文摘要以实现单词的上下文特征表示；

步骤10：考虑到局部特征和序列特征的差异性，本发明创新地使用多头交互线性注意力机制分别从不同的特征表示角度来提取上下文摘要，所生成的两种不同特征表示的上下文摘要充分利用了上下文特征，本发明所提出的多头交互线性注意力机制结构见图3；

进一步，上下文摘要生成的具体过程为：

区别于传统的注意力，本发明采用多头注意力从不同角度计算单词的关注点，从而发现更多单词所关注的特征，所以本发明在延续多头注意力结构的基础上，将常用的自注意力模型替换为交互线性注意力模型；

进一步，为了将多头交互线性注意力所产生的上下文摘要维度控制在合理范围内，对于单头交互线性注意力机制，首先对单词的局部特征表示和序列特征表示进行非线性变换映射到相同维度的特征空间中：

其中，W^ε，

b^ε,

分别是全连接层的参数；

本发明提出两种上下文摘要生成方法：一是序列特征偏向上下文摘要与局部特征偏向上下文摘要，这两种摘要的计算过程相似，首先介绍序列特征偏向上下文摘要的计算过程。

对于针对评论句中第i个单词，计算过程如下：

首先计算当前单词i的局部特征表示

对于句子中不同单词j(1≤j≤N)的序列特征表示

的关注度为：

其中，W^a和b^a分别是线性注意力计算中的参数矩阵和偏置项，tanh是非线性激活函数；

在关注度的基础上归一化注意力得分：

是当前单词i对于序列中第j个单词的注意力得分，注意力得分越高，上下文摘要的信息更多的来源于第j个单词；

其次，计算当前单词i的单头线性注意力表示：

然后，多头交互线性注意力表示可以表示为多个单头上下文摘要表示的拼接结果：

其中，

表示第k(1≤k≤K)个单头线性注意力产生的表示，K代表多头注意力中头的个数；

对于

进行非线性缩放映射到特定维度，并获取序列特征偏向的上下文摘要：

其中，W^κ，W^ψ，b^ψ，b^κ是两个不同全连接层的参数；

类似的，局部特征偏向的上下文摘要计算过程同上，区别在于使用多头交互线性注意力计算过程是：针对当前句子中单词i的序列特征表示

在句子中不同单词j(1≤j≤N)的局部特征表示

影响下的上下文摘要表示

阶段3：特征可控融合

从阶段2中已经提取了四种不同特征，分别为局部特征

序列特征

序列特征偏向上下文摘要特征

以及局部特征偏向上下文摘要特征

考虑到这四种特征在不同场景下，对于评价对象挖掘的贡献度是不同的，本发明使用两种不同的门控机制来实现特征的可控融合，特征可控融合模块结构见图4；

步骤11:首先获取统一的上下文摘要，对序列特征偏向上下文摘要

以及局部特征偏向上下文摘要

进行选择性融合：

其中，U_ε，

为权重矩阵，

为偏置项，g_ε，

分别是为局部特征偏向和序列特征偏向的上下文摘要的门权重；

为了计算g_ε，

本发明使用sigmoid函数来将门权重大小控制在(0-1)之间，计算方法如下：

其中，W_g1，W_g2，b_g1，b_g2，分别为权重矩阵和偏置项；

步骤12:针对步骤11中获取的上下文摘要s_i，以及步骤7-9中获取的局部特征

序列特征

使用另外的三个门控制信息的流入：

其中

且每个z的值都大于0，

代表矩阵点乘计算，对于每个门权重值z计算过程如下：

通过步骤12，获取了当前单词的最终表示H_i；

进一步，将H_i输入全连接层并使用Softmax激活函数获取最终的预测标签：

其中，W^γ和b^γ是全连接层的参数矩阵，

代表最终的预测标签；

进一步，在本发明中，评价对象挖掘过程中所有结构的参数都是可微的，所以使用交叉熵损失函数来迭代与更新参数：

其中，

为单词的真实标签，N代表评论的长度，T代表标签的种类。

本发明的原理：

本发明主要涉及了三个模块：

模块1：利用预训练的多层语言模型对评论中的单词进行语境化嵌入，从而解决了传统预训练语言模型方法无法区分单词的多义特征的问题，使单词表示可以适应当前句子的语境，本发明提出了一种线性加权的方法来实现语言模型多层网络表示的融合，从而获得语义更丰富的单词嵌入表示。

模块2：提出了一种基于多尺度与多特征的特征抽取器，一方面，该特征抽取器使用双向循环神经网络和多尺度卷积神经网络对模块1获得的语境化嵌入表示进行序列特征和局部特征抽取，其中，多尺度卷积网络在图像领域的Inception网络结构的基础上，为适用于自然语言处理而进行了适应性的改进，改进的多尺度卷积网络结构如图2所示。另一方面，抽取器采用多头交互线性注意力机制生成当前单词在整个句子影响下的不同特征偏向的深度语义表示，实现对上下文特征的充分利用，从而辅助评价对象抽取。

模块3：采用两种不同类型的门控机制，实现两种类型的上下文摘要特征与局部特征以及序列特征等不同类型特征的信息融合，并通过筛选与过滤优化策略实现单词最终的深度语义表示生成，从而实现评价对象挖掘的最佳可控优化。本发明的整体架构图见图1，其中，将评价对象挖掘定义为序列标注任务，且采用序列标注任务中常用的BIO标注格式，标签分类样例见图5。为验证本发明的有效性，在SemEval的三个评价对象挖掘标准数据集上进行了试验，对比其他国际顶尖的方法，本发明在三个数据集上都取得了最好的表现，本发明试验性能见图6。为验证本发明中各组件发挥的作用，进行了大量的消融试验，各组件分离性能见图7。本发明为评价对象挖掘提供了新的方法，大幅度提高了评价对象挖掘的准确度。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。