CN115391520A

CN115391520A - 一种文本情感分类方法、系统、装置及计算机介质

Info

Publication number: CN115391520A
Application number: CN202210881339.1A
Authority: CN
Inventors: 陈友荣; 王本安; 张旭东; 吕晓雯; 缪克雷; 刘半藤
Original assignee: Zhejiang Shuren University
Current assignee: Zhejiang Shuren University
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-25

Abstract

本发明提供一种文本情感分类方法、系统、装置及计算机介质，包括：获取文本数据；标签标注获得的每条文本数据，构建和标注训练集和测试集；构建包含文本序列的文本数据集合，并进行文本向量化，构建词向量集合；构建改进情感知识增强模型；联合改进BiGRU和多头注意力机制进行文本情感特征提取；基于文本特征向量集合数据，计算焦点损失的损失度函数；进行文本情感分类模型训练；将词向量集合输入到文本情感分类模型，获得文本情感分类结果，解决了现有技术中文本情感分类准确率低的问题。

Description

一种文本情感分类方法、系统、装置及计算机介质

技术领域

本发明涉及自然语言处理技术领域，具体为一种文本情感分类方法、系统、装置及计算机介质。

背景技术

随着互联网技术的迅速普及和高速发展，越来越多的人会在互联网中花上更多的时间并且热忱于发表自己的观点或看法，从而会产生数以万计且类型不统一的文本数据。的文本数据会蕴涵丰富的个人情感信息，如何有效提取分析文本数据情感特征成为一个关键问题。

自然语言处理技术应时而生，且对于文本信息处理产生越来越重要的影响，若采用基于规则的方法来实现文本情感分类，其通过大量学者的语言知识经验从而获取句子特征表示，但是获取规则的方法复杂度较高且成本巨大；若选择采用基于统计的机器学习方法来实现文本情感分类，但人工标记训练样本集会导致主观意识较强、效率低下等问题；由于文本情感分类方法作为自然语言处理技术中的一项核心算法，与事件抽取、智能问答、情感分析等多个自然语言处理任务息息相关，能够为特定领域分类出所需要的具体信息。

目前基于规则和字典的文本情感分类的前期词典构造与规则制定需要大量时间成本且维护成本较高，分类准确率较低；基于深度学习的文本情感分类难以适用于只具有小规模预料文本的数据，且分类准确率不高，现有技术的问题会对于文本情感分类产生不利影响，甚至无法捕捉具体情感特征信息，阻碍文本情感分析技术的发展。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种文本情感分类方法、系统、装置及计算机介质，解决了上述背景技术中提出的文本情感分类准确率低的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种文本情感分类方法，包括：

获取文本数据；

标签标注获得的每条文本数据，构建和标注训练集和测试集；

构建包含文本序列的文本数据集合，并进行文本向量化，构建词向量集合；

构建改进情感知识增强模型；

联合改进BiGRU和多头注意力机制进行文本情感特征提取；

基于文本特征向量集合数据，计算焦点损失的损失度函数；

进行文本情感分类模型训练，将词向量集合输入到文本情感分类模型，获得文本情感分类结果。

优选地，所述获取文本数据，包括：通过数据服务中心系统获取文本数据，以线上方式获取包括语音和文本的格式的在线情感数据，其中，将语音格式的数据转为文本数据。

优选地，所述构建包含文本序列的文本数据集合，并进行文本向量化，构建词向量集合，包括：

标注数据集完成之后，令S＝{S₁,S₂,...,S_l,...,S_n}，

其中，S表示所有文本数据集合，S_l表示第l条文本序列，

表示第l条文本序列中的第i个字符，n表示文本数据集合有n条序列，m表示第l条文本序列中有m个字符；

从文本序列S_l中分别获取每个字符的向量

和每个字符所对应的位置向量

其中位置向量

计算方式如下：

其中，pos表示文本

在文本序列中的具体位置，i表示向量维度，d_model表示情感知识增强模型所接受的512维向量；

将512维的向量

和

进行加和运算,获得文本输入向量T_l，作为后续模型的输入，计算方式如下：

其中，

表示通过文本

词嵌入和位置向量嵌入综合得到的后续情感知识增强模型所需要的输入向量，进而构成向量集合T＝{T₁,T₂,...,T_l,...,T_n}。

优选地，所述构建改进情感知识增强模型，包括：

引入以自注意力机制为核心的Transformer编码器与解码器架构；

首先对情感词、情感词极性和属性词-情感词搭配二元组进行掩盖，并计算情感词的损失函数：

其中，

表示第i个词经过Transformer层后输入到softmax中所计算得到的概率分布，W^sw表示情感词输出层的权重值，b^sw表示情感词输出层的偏差值，m_i表示情感词的标识符，若第i个词为情感词时m_i＝1，否则m_i＝0，y_i ^sw表示原始第i个词

通过one-hot方式生成的向量表示；

计算情感词极性的损失函数F_wp：

其中，

表示第i个情感词的极性经过Transformer层后输入到 softmax中所计算得到的概率分布，W^wp表示情感词极性输出层的权重值，b^wp表示情感词极性输出层的偏差值，y_i ^wp表示原始第i个情感词的极性通过 one-hot方式生成的向量表示；

计算属性词-情感词对的损失函数F_asp：

其中，

表示第a个属性词-情感词对经过Transformer层后输入到 softmax中所计算得到的概率分布，W^asp表示属性词-情感词对的输出层权重值，b^asp表示属性词-情感词对的输出层偏差值，y_a ^asp表示原始第a个属性词-情感词对通过one-hot方式生成的向量表示；

针对上述三个损失函数，构建三目标优化模型(9)，来权衡三个优化函数之间的关系，从而找到得到最优的多种情感任务的情感预训练目标优化函数，具体公式如下：

max(F_sw)，max(F_wp)，max(F_asp) (9)

采用Pareto优化策略求解三目标优化模型(9)，获得优化情感词、情感词极性和属性词-情感词的模型权重，并改进情感知识增强模型，得到情感知识增强模型的输出集合X＝{X₁,X₂,...,X_l,...,X_n}。

优选地，所述联合改进BiGRU和多头注意力机制进行文本情感特征提取；包括：

引入多头注意力机制来学习不同的子空间下情感文本的情感特征，提取联合改进BiGRU和多头注意力机制的情感文本情感特征，获取文本中的内部结构信息；

通过公式(10)计算文本集合X中所有文本情感向量的隐藏特征值h_l：

其中，p₁表示第l条信息文本前向GRU所对应的权重，p₂表示第l条信息文本反向GRU所对应的权重，b_z表示第l条信息文本的偏置，h_l表示经过加权求和后的隐藏特征值，

表示前向GRU输出的隐藏状态值，

表示反向GRU输出的隐藏状态值。遍历计算每条文本对应的隐藏特征值，最后获得情感隐藏特征集合H＝{h₁,h₂,...,h_l,...,h_n}；

结合获得的情感隐藏特征集合H，通过多头注意力机制来获取情感隐藏特征集合在不同的子空间下不同的特征表示能力，进行不同子空间下的权重计算与分配，将情感隐藏特征集合H中的每个隐藏特征值h_l赋值给查询向量Q、键向量K和值向量V，并计算如下公式：

其中，Attention()表示注意力函数，softmax()表示归一化指数函数，d_k表示键向量K的维度；

通过归一化指数函数来最大化每个查询向量Q与键向量K乘积的概率分布，获得文本中每个字在上下文中的权重关系，从而提取情感上下文中最关键的词语特征信息；

令第t次投影注意力函数计算后的值head_t为

head_t＝Attention(QW_t ^Q,KW_t ^K,VW_t ^V) (12)

其中，head_t表示在第t次通过线性层投影下通过注意力机制计算后得到的值，W_t ^Q、W_t ^K、W_t ^V表示经过第t次投影学习到的权重值；

通过多个head进行拼接得到多头注意力机制函数，计算方式如下：

Multihead(Q,K,V)＝Concat(head₁,head₂,...,head_t,...,head_h)W^c (13)

其中，W^c表示在拼接过程中学习到的权重参数，Concat()表示将h个head 进行拼接的函数，从而得到新的一个情感特征向量表示；

最后，对于特征集合H的所有隐藏特征值进行多头注意力机制计算，从而得到新的情感特征向量表示集合M＝{M₁,M₂,...,M_l,...,M_n}。

优选地，所述基于文本特征向量集合数据，计算焦点损失的损失度函数，包括：

结合上一步骤学习到新的特征向量集合数据，通过公式(14)计算焦点损失的损失度函数，通过调节难、易分类样本的权重系数来输出文本的情感标签，作为最后的标签输出结果；

L＝-α(1-p_r)^γlog(p_r) (14)

其中，p_r为文本情感分类模型预测情感特征向量M_l的概率，α和γ为文本情感权重调节系数。

优选地，所述进行文本情感分类模型训练，包括：

在训练过程中，迭代计算所有文本情感特征向量预测的概率对应的损失值

当损失函数值大于预设阈值ε，则更新模型参数继续训练，否则，通过迭代计算得到模型的最小化损失函数值，即为模型训练的最终目标。

本发明还提供一种文本情感分类系统，包括：

文本数据预处理模块：用于获取文本数据；标签标注获得的每条文本数据，构建和标注训练集和测试集；构建包含文本序列的文本数据集合，并进行文本向量化，构建词向量集合；

文本情感分类模型构建模块：用于构建改进情感知识增强模型；联合改进BiGRU和多头注意力机制进行文本情感特征提取；基于文本特征向量集合数据，计算焦点损失的损失度函数；进行文本情感分类模型训练；

文本情感分类模块：用于将词向量集合输入到文本情感分类模型，获得文本情感分类结果。

本发明还提供一种文本情感分类装置，包括：输入设备、输出设备、存储器、处理器；所述输入设备、所述输出设备、所述存储器和所述处理器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所护处理器被配置调用所述程序指令，执行如前任一所述的一种文本情感分类方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器所执行时执行如前任一所述的一种文本情感分类方法。

(三)有益效果

本发明提供了一种文本情感分类方法、系统、装置及计算机介质。具备以下有益效果：

为了准确识别智能社区数据分析等特定领域中的文本情感信息，引入基于情感知识增强的预训练模型SKEP(Sentiment Knowledge Enhanced Pre-training)，结合特定领域数据并在大型语料库模型中针对性的对于情感信息和语义进行特征联合学习的预训练，增强自身语料库的情感特征表示能力。

提出基于联合BiGRU和多头注意力机制的情感特征提取方法，即利用隐藏状态完成情感信息的记录与传输，通过更新门与重置门计算隐藏状态的参数值，获取文本对应的隐藏状态的输出信息，同时引入多头注意力机制来加强文本信息中在不同子空间下情感特征的学习，从而实现文本情感特征提取。

同时，提出基于焦点损失的损失函数，解决正负文本数在不均衡的前提下，导致难以区分文本从而影响情感分类准确率这一问题，即对于模型中难以区分的文本，使用权重因子来平衡正负文本数，从而使得模型能够更加注重少量文本数的特征表示。

本发明不仅结合自身特定数据在大型语料库的情感模型中进行语义特征预训练，增强自身语料库的文本情感特征表示，而且通过多头注意力机制来学习文本在不同子空间下的特征表示，同时结合基于焦点损失的损失函数来解决正负文本数在不均衡的前提下导致难以区分从而影响准确率的问题，最终提高只具有小规模语料库的特定领域中的文本情感分类准确率。

附图说明

图1为本发明提供的一种文本情感分类方法流程图；

图2为本发明提供的一种文本情感分类系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

为实现以上目的，本发明通过以下技术方案予以实现：

如图1所示，本发明实施例提供一种文本情感分类方法，包括：

S1获取文本数据；

S2标签标注获得的每条文本数据，构建和标注训练集和测试集；

S3构建包含文本序列的文本数据集合，并进行文本向量化，构建词向量集合；

S4构建改进情感知识增强模型；

S5联合改进BiGRU和多头注意力机制进行文本情感特征提取；

S6基于文本特征向量集合数据，计算焦点损失的损失度函数；

S7进行文本情感分类模型训练；将词向量集合输入到文本情感分类模型，获得文本情感分类结果。

优选地，所述获取文本数据，包括：通过数据服务中心系统获取文本数据，以线上方式获取包括语音和文本的格式的在线情感数据，其中，将语音格式的数据转为文本数据，原有的文本数据则作保留。

标注数据集完成之后，令S＝{S₁,S₂,...,S_l,...,S_n}，

其中，S表示所有文本数据集合，S_l表示第l条文本序列，

考虑到情感分析的过程中字符位置信息对于情感分析会造成语义不通顺，进而影响情感的判断，还需从文本序列S_l中分别获取每个字符的向量

和每个字符所对应的位置向量

其中位置向量

计算方式如下：

其中，pos表示文本

将512维的向量

和

其中，

表示通过文本

优选地，所述构建改进情感知识增强模型，包括：

其中，

通过one-hot方式生成的向量表示；

计算情感词极性的损失函数F_wp：

其中，

表示第i个情感词的极性经过Transformer层后输入到 softmax中所计算得到的概率分布，W^wp表示情感词极性输出层的权重值， b^wp表示情感词极性输出层的偏差值，y_i ^wp表示原始第i个情感词的极性通过 one-hot方式生成的向量表示；

计算属性词-情感词对的损失函数F_asp：

其中，

max(F_sw)，max(F_wp)，max(F_asp) (9)

采用Pareto优化策略求解三目标优化模型(9)，获得优化情感词、情感词极性和属性词-情感词的模型权重，并改进情感知识增强模型，得到情感知识增强模型的输出集合X＝{X₁,X₂,...,X_l,...,X_n}，使得改进的情感知识增强模型模型能够充分学习情感词、情感词极性和情感词—属性词对等多种方面的情感特征，更利于捕捉情感信息，从而加强情感文本的情感特征提取。

引入多头注意力机制来学习不同的子空间下情感文本的情感特征，提取联合改进BiGRU和多头注意力机制的情感文本情感特征，获取文本中的内部结构信息，从而有效提取每条句子中局部的特征；

表示前向GRU输出的隐藏状态值，

令第t次投影注意力函数计算后的值head_t为

head_t＝Attention(QW_t ^Q,KW_t ^K,VW_t ^V) (12)

Multihead(Q,K,V)＝Concat(head₁,head₂,...,head_t,...,head_h)W^c (13)

L＝-α(1-p_r)^γlog(p_r) (14)

优选地，所述进行文本情感分类模型训练，包括：

如图2所示，本发明还提供一种文本情感分类系统，包括：

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种文本情感分类方法，其特征在于，包括：

获取文本数据；

构建改进情感知识增强模型；

联合改进BiGRU和多头注意力机制进行文本情感特征提取；

基于文本特征向量集合数据，计算焦点损失的损失度函数；

进行文本情感分类模型训练；将词向量集合输入到文本情感分类模型，获得文本情感分类结果。

2.根据权利要求1所述的一种文本情感分类方法，其特征在于，所述获取文本数据，包括：通过数据服务中心系统获取文本数据，以线上方式获取包括语音和文本的格式的在线情感数据，其中，将语音格式的数据转为文本数据。

3.根据权利要求1所述的一种文本情感分类方法，其特征在于，所述构建包含文本序列的文本数据集合，并进行文本向量化，构建词向量集合，包括：

标注数据集完成之后，令S＝{S₁,S₂,...,S_l,...,S_n}，

其中，S表示所有文本数据集合，S_l表示第l条文本序列，

从文本序列S_l中分别获取每个字符的向量

和每个字符所对应的位置向量

其中位置向量

计算方式如下：

其中，pos表示文本

将512维的向量

和

其中，

表示通过文本

4.根据权利要求1所述的一种文本情感分类方法，其特征在于，所述构建改进情感知识增强模型，包括：

其中，

通过one-hot方式生成的向量表示；

计算情感词极性的损失函数F_wp：

其中，

表示第i个情感词的极性经过Transformer层后输入到softmax中所计算得到的概率分布，W^wp表示情感词极性输出层的权重值，b^wp表示情感词极性输出层的偏差值，y_i ^wp表示原始第i个情感词的极性通过one-hot方式生成的向量表示；

计算属性词-情感词对的损失函数F_asp：

其中，

表示第a个属性词-情感词对经过Transformer层后输入到softmax中所计算得到的概率分布，W^asp表示属性词-情感词对的输出层权重值，b^asp表示属性词-情感词对的输出层偏差值，y_a ^asp表示原始第a个属性词-情感词对通过one-hot方式生成的向量表示；

max(F_sw)，max(F_wp)，max(F_asp) (9)

5.根据权利要求1所述的一种文本情感分类方法，其特征在于，所述联合改进BiGRU和多头注意力机制进行文本情感特征提取；包括：

表示前向GRU输出的隐藏状态值，

令第t次投影注意力函数计算后的值head_t为

head_t＝Attention(QW_t ^Q,KW_t ^K,VW_t ^V) (12)

Multihead(Q,K,V)＝Concat(head₁,head₂,...,head_t,...,head_h)W^c (13)

其中，W^c表示在拼接过程中学习到的权重参数，Concat()表示将h个head进行拼接的函数，从而得到新的一个情感特征向量表示；

6.根据权利要求5所述的一种文本情感分类方法，其特征在于，所述基于文本特征向量集合数据，计算焦点损失的损失度函数，包括：

结合权利要求5学习到新的特征向量集合数据，通过公式(14)计算焦点损失的损失度函数，通过调节难、易分类样本的权重系数来输出文本的情感标签，作为最后的标签输出结果；

L＝-α(1-p_r)^γlog(p_r) (14)

7.根据权利要求1所述的一种文本情感分类方法，其特征在于，所述进行文本情感分类模型训练，包括：

8.一种文本情感分类系统，其特征在于，包括：

9.一种文本情感分类装置，其特征在于，包括：输入设备、输出设备、存储器、处理器；所述输入设备、所述输出设备、所述存储器和所述处理器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所护处理器被配置调用所述程序指令，执行如权利要求1-7中任一所述的一种文本情感分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器所执行时执行如权利要求1-7中任一所述的一种文本情感分类方法。