CN110569508A

CN110569508A - 融合词性和自注意力机制的情感倾向性分类方法及系统

Info

Publication number: CN110569508A
Application number: CN201910854430.2A
Authority: CN
Inventors: 程克非; 岳亚南
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2019-12-13

Abstract

本发明涉及一种融合词性和自注意力机制的情感倾向性分类方法及系统，属于自然语言处理技术领域。包括以下步骤：S1：对文本进行预处理，分词的同时进行词性标注，去除停用词和无用字符；S2：将预处理后的文本进行向量表示；S3：利用Transformer‑Encoder模型学习文本语义特征；S4：融合词性注意力挖掘句子中词语间的修饰搭配关系，学习更深层次的情感特征；S5：将学习到的语义特征和情感特征拼接作为最终的文本特征用于情感倾向性分类。本发明基于自注意力机制学习文本特征，融合词性注意力对情感信息进行扩充，获取了更丰富的情感特征，提高了情感倾向性分类方法的特征表达能力，有效提升了分类的准确率。

Description

融合词性和自注意力机制的情感倾向性分类方法及系统

技术领域

本发明属于自然语言处理技术领域，涉及一种融合词性和自注意力机制的情感倾向性分类方法及系统。

背景技术

随着互联网技术的迅速发展和普及，对网络内容管理、监控和有害(或垃圾)信息过滤的需求越来越大，如何有效对网络信息中带有情感色彩的主观性文本进行分析、处理受到越来越多的关注。情感倾向性分类就是根据文本所表达的含义和情感信息将文本划分成褒扬的或贬义的两种或几种类型，是对文本作者倾向性和观点、态度的划分。

由于情感倾向性分类可以在一定程度上解决网上各种评论信息杂乱的现象，方便用户准确地定位所需信息。因此，情感倾向性分类已成为一项具有较大实用价值的关键技术，是组织和管理数据的有力手段。目前，主流的情感倾向性分类方法按技术路线主要分为3类：1)基于词典的方法；2)基于机器学习的方法；3)基于深度学习的方法。基于词典方法的核心模式是“词典+规则”，即以情感词典作为判断情感极性的主要依据，同时兼顾评论数据中的句法结构，设计相应的判断规则。基于机器学习的情感倾向性分类方法，大致分为有监督的机器学习、无监督的机器学习以及半监督的机器学习，这种方法主要是基于人工设计的特征来训练分类器而进行情感倾向性分类的。

虽然基于情感词典和机器学习的文本情感倾向性分类比较容易实现，但这两种方法很大程度上依赖于人工设计和先验知识，都需要耗费大量人力。深度学习模型因为可以自动从数据中学习特征，越来越多的学者开始尝试用深度学习解决情感倾向性分类问题。其中卷积神经网络、循环神经网络在情感分析领域得到了广泛的应用。

现有的深度学习方法多是采用传统的卷积神经网络(Convolutional NeuralNetwork，CNN)、循环神经网络(Recurrent Neural Network，RNN)等网络结构对输入文本进行学习建模，侧重于文本浅层特征的自动学习，忽略了文本中其他蕴含情感信息的特征，特征表达能力不足。另一方面，情感倾向性分类的大部分研究都是假设各类的样本是平衡的，在实际场景中，不同类别的样本数目差距较大，普遍存在样本不平衡问题，从而影响分类的准确度。

发明内容

有鉴于此，本发明的目的在于提供一种融合词性和自注意力机制的情感倾向性分类方法及系统，克服现有方法忽略文本中其他蕴含情感信息的特征，特征表达能力不足的缺陷。

为达到上述目的，本发明提供如下技术方案：

一方面，本发明提供一种融合词性和自注意力机制的情感倾向性分类方法，包括以下步骤：

S1：对文本进行预处理，分词的同时进行词性标注，去除停用词和无用字符；

S2：将预处理后的文本进行向量表示；

S3：利用Transformer-Encoder模型学习文本语义特征；

S4：融合词性注意力挖掘句子中词语间的修饰搭配关系，学习更深层次的情感特征；

S5：将学习到的语义特征和情感特征拼接作为最终的文本特征用于情感倾向性分类。

进一步，步骤S2中所述文本的向量表示是对分词得到的词语及其词性和位置信息映射成向量，包括：

每个词语w_i通过Word Embedding后得到词向量词语对应的位置信息通过Position Embedding得到位置向量词向量和位置向量相加得到词语最终的Embedding向量而每个词对应的词性p_i通过POS Embedding得到词性向量其中词向量和位置向量有相同的维度d_w，词性向量的维度为d_pos。

进一步，通过Position Embedding将每个词语的位置编号，按照特定的构造公式将位置信息映射成一个d_w维的位置向量z_i，这个向量的第i个元素的数值为PE_i(P)，构造公式如下：

其中P为词语对应位置的序号。

进一步，步骤S3具体包括：将Embedding向量v_i输入到由多头自注意力层和前馈神经网络组成的Transformer-Encoder模型中学习文本的语义特征，输出语义特征向量矩阵C。

进一步，所述多头自注意力层利用多头自注意力机制学习句子内部词语间的长距离依赖关系；多头自注意力机制能捕获来自不同位置的不同层次的特征信息；包括：

自注意力计算步骤：对于每一个词语设置三个向量：Query向量、Key向量、Value向量，首先将Query向量和每个Key向量进行相似度计算得到每个Key向量对应Value向量的权重系数；然后使用Softmax对权重进行归一化；最后将权重和对应的Value值进行加权求和得到最终的Attention值，数学描述如下：

其中L为句子长度；

多头自注意力机制计算过程是将自注意力计算步骤并行地做h次，将h次的结果进行拼接，

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^o

其中参数矩阵 d_k为K、Q、V的维度，d_model为计算h次自注意力后拼接向量的维度。

进一步，步骤S4中所述词性注意力是利用词性信息挖掘词语间的修饰搭配关系，获取更丰富的情感特征，具体包括：

对词性向量矩阵进行一系列运算得到包含每种词性对应Attention权值的向量β∈Rⁿ，由向量β和语义特征向量矩阵C通过向量点积运算得到最终的词性注意力向量α∈Rⁿ，其中n表示词语个数。

进一步地，步骤S5中所述情感倾向性分类，具体包括：

最终的向量表达μ经过Sigmoid激活函数映射成一个取值在[0,1]之间的数值概率，概率大于0.5时，文本的情感倾向预测为积极，概率小于0.5时则预测为消极；

模型输出的预测值如下：

其中为预测值，W和b为模型训练过程中需要学习的参数；

引入目标检测领域的Focal Loss作为损失函数，缓解样本不平衡问题对分类的影响，采用随机梯度下降算法最小化损失函数，损失函数公式如下：

其中n为样本个数，γ≥0为调制参数，样本标签y_i取值为0或1，其对应情感极性为消极和积极。

另一方面，本发明还提供一种融合词性和自注意力机制的情感倾向性分类系统，采用如上所述的融合词性和自注意力机制的情感倾向性分类方法，具体包括：

预处理层：对文本进行分词和词性标注、去停用词以及使用正则表达式去除无用字符；

向量表示层：将词语与其对应的词性和位置信息进行向量表示；

文本表示层：利用Transformer-Encoder模型学习文本多层次的语义特征；

词性注意力层：融合词性注意力挖掘句子中词语间的修饰搭配关系，学习更深层次的情感特征；

分类层：将学习到的语义特征和情感特征拼接作为最终的文本特征用于情感倾向性分类。

本发明的有益效果在于：本发明利用自注意力机制来学习文本多层次的特征表达，融合词性注意力(POS-Attention)获取更丰富的情感特征，能更好地学习多层次的文本特征。

本发明抛弃了CNN、RNN等传统网络结构，完全借助自注意力机制学习句子中不同位置词语的语义关系，能够捕获到不同空间层次的特征信息，利用词性信息学习更深层次的情感特征，提高了情感倾向性分类方法的特征表达能力；引入Focal Loss损失函数缓解样本不平衡问题对分类的影响，有效提升了分类的准确率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述融合词性和自注意力机制的情感倾向性分类方法流程示意图；

图2为本发明所述融合词性和自注意力机制的情感倾向性分类系统框架示意图；

图3为本发明所述Transformer-Encoder模型的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示为本发明所述方法流程图，具体包括以下步骤：

步骤S1、对文本进行预处理，分词的同时进行词性标注，去除停用词和无用字符；

步骤S2、将预处理后的文本进行向量表示；

步骤S3、利用Transformer-Encoder模型学习文本语义特征；

步骤S4、融合词性注意力挖掘句子中词语间的修饰搭配关系，学习更深层次的情感特征；

步骤S5、将学习到的语义特征和情感特征拼接作为最终的文本特征用于情感倾向性分类；

其中步骤S1中预处理的具体实施步骤包括：利用分词工具进行分词和词性标注、去停用词以及使用正则表达式去除无用字符；

本发明所述步骤S2包括以下子步骤：

步骤S21、输入一个句子S＝[w₁，w₂，w₃，…，w_n]以及句子中每个词对应的词性P＝[p₁，p₂，p₃，…，p_n]，其中n为句子中词语的个数。对于每一个词w_i，通过Word Embedding后得到词向量其中d_w表示词向量维度；

步骤S22、本发明所述方法使用自注意力机制代替了循环神经网络，使得模型无法像RNN一样对句子中词语的顺序进行建模，因此在输入词语中加入了相关的位置信息，将每个词语的位置编号，通过Position Embedding将序号为P的位置映射为一个d_w维的位置向量z_i，这个向量的第i个元素的数值为PE_i(P)，其构造公式如下：

词向量和位置向量相加得到词语最终的Embedding向量其中位置向量和词向量有相同的维度d_w；

步骤S23、引入词性特征，对文本分词的同时进行词性标注，将每种词性作为一个向量表达进行学习。对于每个词对应的词性p_i，通过POS Embedding得到词性向量其中d_pos为词性向量的维度。

图3所示为本发明所述步骤S3利用Transformer-Encoder模型学习文本语义特征，步骤包括：从步骤S22得到的Embedding向量v_i输入到由多头自注意力层和前馈神经网络组成的Transformer-Encoder模型中学习文本的语义特征，输出语义特征向量矩阵C；其中每层后面都加上残差连接和层归一化保证模型中的神经网络训练的稳定性，是神经网络设计中常用的优化策略；

多头自注意力层计算Attention值的步骤如下：

步骤S31、自注意力机制(Self-Attention)是一个基于内容的查询的过程，对于每一个词语设置三个向量：Query向量、Key向量、Value向量，并且每一个向量都是通过步骤S22所述的Embedding向量v_i和训练过程中的参数矩阵相乘得到；

步骤S32、计算某个词语的自注意力时，该词语对应的Query向量和句子中每个词语的Key向量通过向量点积进行相似度计算，相似度计算公式如下：

f(Q,K_i)＝Q^TK_i

步骤S33、将步骤S32得到的相似度得分使用Softmax函数整理成所有元素权重之和为1的概率分布，

其中L为句子长度；

步骤S34、步骤S33的计算结果a_i为Value_i对应的权重系数，然后进行加权求和得到Attention值，具体公式如下：

步骤S35、多头自注意力计算过程是将自注意力的步骤并行地做h次，然后将h次Self-Attention的结果进行拼接，

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

其中参数矩阵d_k为K、Q、V的维度，d_model为计算h次自注意力后拼接向量的维度。

步骤S36、前馈神经网络为：

FNN(x)＝max(0,xW₁+b₁)W₂+b₂

其中x为网络的输入，W₁、W₂为隐藏层的权重矩阵，b₁、b₂为偏置项，max为ReLU激活函数。

结合图2描述本发明所述步骤S4中词性注意力(POS-Attention)，其具体计算步骤如下：

步骤S41、每个词对应的词性经过向量表示层后得到词性向量矩阵将词性向量矩阵E_P乘以它的转置矩阵得到新的矩阵H，即H＝E_P×E_P ^T∈R^n×n，矩阵中的值代表每种词性之间的相关性；

步骤S42、矩阵H按列做Softmax(Column-Softmax)后得到表示每种词性相关程度的关系矩阵E∈R^n×n,

其中矩阵E中每个值表示每种词性之间的相关程度；

步骤S43、矩阵E按行取平均(Row-Average)后得到了一个向量β∈Rⁿ,该向量包含了每种词性对应的Attention权值，向量β计算公式如下：

步骤S44、引入词性注意力加强对词性特征的提取，使得模型充分考虑词性对情感倾向性分类的贡献，词性注意力向量α∈Rⁿ由文本表示层输出的语义特征向量矩阵C和向量β通过向量点积运算得到，其公式描述如下：

α＝C·β＝C×β^T

本发明所述步骤S5中情感倾向性分类的具体实施步骤如下：

步骤S51、文本最终的向量表达μ融合了文本语义信息和词性信息，由词性注意力向量α与包含了多种词性信息的全局向量拼接而成，即μ＝[α,γ]；

向量γ由词性向量矩阵E_P按行取均值(Column-Average)得到，是包含了多种词性信息的一个全局向量，目的是为了降低句子中位置相近或者内容相关却并无修饰搭配关系的句子成分对分类的影响，

步骤S52、文本最终的向量表达μ经过Sigmoid激活函数映射成一个取值在[0,1]之间的数值概率，概率大于0.5时，文本的情感倾向预测为积极，概率小于0.5时则预测为消极；

模型输出的预测值如下：

其中为预测值，W和b为模型训练过程中需要学习的参数；

步骤S53、将目标检测领域的Focal Loss损失函数引入到本发明所述方法中，通过减少多数类样本对损失函数的贡献，使得模型在训练时更注重少数类样本，从而缓解样本不平衡问题对分类的影响。采用随机梯度下降算法最小化损失函数，损失函数公式如下：

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种融合词性和自注意力机制的情感倾向性分类方法，其特征在于：包括以下步骤：

S2：将预处理后的文本进行向量表示；

S3：利用Transformer-Encoder模型学习文本语义特征；

2.根据权利要求1所述的融合词性和自注意力机制的情感倾向性分类方法，其特征在于：步骤S2中所述文本的向量表示是对分词得到的词语及其词性和位置信息映射成向量，包括：

3.根据权利要求2所述的融合词性和自注意力机制的情感倾向性分类方法，其特征在于：通过Position Embedding将每个词语的位置编号，按照特定的构造公式将位置信息映射成一个d_w维的位置向量z_i，这个向量的第i个元素的数值为PE_i(P)，构造公式如下：

其中P为词语对应位置的序号。

4.根据权利要求1所述的融合词性和自注意力机制的情感倾向性分类方法，其特征在于：步骤S3具体包括：将Embedding向量v_i输入到由多头自注意力层和前馈神经网络组成的Transformer-Encoder模型中学习文本的语义特征，输出语义特征向量矩阵C。

5.根据权利要求4所述的融合词性和自注意力机制的情感倾向性分类方法，其特征在于：所述多头自注意力层利用多头自注意力机制学习句子内部词语间的长距离依赖关系；多头自注意力机制能捕获来自不同位置的不同层次的特征信息；包括：

其中L为句子长度；

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

6.根据权利要求1所述的融合词性和自注意力机制的情感倾向性分类方法，其特征在于：步骤S4中所述词性注意力是利用词性信息挖掘词语间的修饰搭配关系，获取更丰富的情感特征，具体包括：

7.根据权利要求1所述的融合词性和自注意力机制的情感倾向性分类方法，其特征在于：步骤S5中所述情感倾向性分类，具体包括：

模型输出的预测值如下：

其中为预测值，W和b为模型训练过程中需要学习的参数；

8.一种融合词性和自注意力机制的情感倾向性分类系统，其特征在于：基于如权利要求1-7任一所述的融合词性和自注意力机制的情感倾向性分类方法，具体包括：