CN110580287A

CN110580287A - 基于迁移学习和on-lstm的情感分类方法

Info

Publication number: CN110580287A
Application number: CN201910765809.6A
Authority: CN
Inventors: 王娜; 王森; 汪致伦; 林飞; 唐威; 古元; 张雪
Original assignee: Beijing Asia Century Technology Development Co Ltd
Current assignee: Beijing Asia Century Technology Development Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-12-17

Abstract

基于迁移学习和ON‑LSTM的情感分类方法涉及信息技术领域。本发明包括：Bert模型预训练步骤，网络获取情感语料处理步骤，获取干净的情感语料向量步骤，用ON‑LSTM神经网络生产干净的情感语料的情感标签步骤。本发明能不受词典的制约，可以得到更多、更精准的情感特征用于分类器分类；与一般的基于机器学习的情感分类算法比较，不需要海量的标注情感语料，其次ON‑LSTM模型的结构特点决定了模型能在提取情感语料的词向量特征的基础上提取情感语料的句法结构，大幅度地提高了情感语料分类的准确率。

Description

基于迁移学习和ON-LSTM的情感分类方法

技术领域

本发明涉及信息技术领域，尤其是人工智能领域。

背景技术

目前主流的情感分类方法大致可以分为基于情感词典的传统方法和基于机器学习的情感分类算法。

传统的情感分类算法，通过计算匹配到词典的数据的权重来衡量情感类别。由于构建情感词典难度大，且新词不断产生，传统算法很难及时地对包含新词的语料进行准确分类，申请号201310072472.3的“一种中文微博的情感倾向分析方法”，通过将微博文本与情感词典匹配计算情感倾向；申请号201210154332.6的“一种文本情感分类方法及系统”采用计算词出现在各极性文本中的概率进行分类。以上系统均是基于给定的情感词典进行分类，无法对未在词典里的新词进行准确判断，进而影响分类结果。

基于机器学习的情感分析，选取情感词作为特征词，将文本矩阵化，利用逻辑回归，朴素贝叶斯，支持向量机等方法进行分类。机器学习的方法大多情况都是需要对数据进行人工标注的，人工标注是非常耗时耗力，特征的选择和语料的质量会影响分类的准确度。申请号201710756607.6的“一种社交媒体评论的情感分析方法”，使用贝叶斯方法结合训练集进行训练得到分类器；201810043546的“一种基于情感分析的综合评分模型实现方法”，利用改进了IG特征选择算法及TF-IDF特征权重算法进行文本处理。以及一些基于深度学习的情感分析，申请号：20160907156.7的“一种文本情感分析方法”，使用带有条件随机场的双向LSTM神经网络对原始语料进行分析和识别；申请号：201810552925.5的“一种基于中文数据集的文本情感分析方法”，使用CNN进行局部信息特征提取，LSTM进行分类。以上系统均是需要通过人工标注的训练集，再通过算法模型进行训练，从而得到分类结果，在人工标注这部分是非常耗时耗力的，而且原始语料的质量会影响最后的分类结果。

共有技术

TF-IDF

用到TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。

BERT

BERT（Bidirectional Encoder Representations from Transformers）意思是来自Transformer 的双向编码器表征，与最近的语言表征模型不同，BERT基于所有层中的左、右语境进行联合调整，来预训练深层双向表征。因此，只需要增加一个输出层，就可以对预训练的 BERT 表征进行微调，就能为更多的任务创建当前的最优模型，比如问答和语言推断任务。整个过程不需要对特定任务进行实质性的架构修改。

BERT的主体结构和创新点

BERT模型沿袭了GPT模型的结构，采用Transfomer的编码器作为主体模型结构。Transformer舍弃了RNN的循环式网络结构，完全基于注意力机制来对一段文本进行建模。

Transformer所使用的注意力机制的核心思想是去计算一句话中的每个词对于这句话中所有词的相互关系，然后认为这些词与词之间的相互关系在一定程度上反应了这句话中不同词之间的关联性以及重要程度。因此再利用这些相互关系来调整每个词的重要性(权重)就可以获得每个词新的表达。这个新的表征不但蕴含了该词本身，还蕴含了其他词与这个词的关系，因此和单纯的词向量相比是一个更加全局的表达。

Transformer通过对输入的文本不断进行这样的注意力机制层和普通的非线性层交叠来得到最终的文本表达。

Transformer的注意力层得到的词-词之间关系

GPT则利用了Transformer的结构来进行单向语言模型的训练。所谓的语言模型其实是自然语言处理中的一种基础任务，其目标是给定一个序列文本，预测下一个位置上会出现的词。

模型学习这样的任务过程和我们人学习一门语言的过程有些类似。我们学习语言的时候会不断地练习怎么选用合适的词来造句，对于模型来说也这样。例如：

>今天天气不错，我们去公园玩吧。

这句话，单向语言模型在学习的时候是从左向右进行学习的，先给模型看到“今天天气”两个词，然后告诉模型下一个要填的词是“不错”。然而单向语言模型有一个欠缺，就是模型学习的时候总是按照句子的一个方向去学的，因此模型学习每个词的时候只看到了上文，并没有看到下文。更加合理的方式应该是让模型同时通过上下文去学习，这个过程有点类似于完形填空题。例如：

>今天天气 { }，我们去公园玩吧。

通过这样的学习，模型能够更好地把握“不错”这个词所出现的上下文语境。

ON-LSTM

ON-LSTM是LSTM的一个变种，其中”ON”的全称就是”Ordered Neurons”，即有序神经元，是对LSTM内部的神经元进行特定的排序，从而能够表达更丰富的信息，能够优化LSTM存在的梯度弥散等缺点。

有序神经元，增强了神经元之间的依赖性，这种依赖性反映了每个神经元所存储信息的生命周期。换而言之，一些高级神经元储存新长期信息，而低级神经元储存短期信息。为了避免高级和低级神经元之间的固定划分，从而进一步提出了一种新的激活函数cumax()来主动分配神经元存储长\短期信息。该神经元能够强制执行隐藏状态神经元之间的更新频率的顺序，并且将潜在的树结构整合到循环模型中。

on-lstm在进行神经元更新的时候，采用分区间更新，使用新增的主遗忘门mf_t和主输入门mi_t，来实行神经元分区更新。

在ci_t到c_t的更新机制上on-lstm和lstm有所不同，on-lstm每次更新c_t之前，首先要预测mf_t和mi_t，这两个分别代表历史信息h_t-1和当前输入x_t的层级，该预测有两种可能：

第一种可能：mf_t≤mi_t，表示当前输入x_t的层级高于历史信息h_t-1的层级，两者之间的信息有交汇，当前输入信息要整合到高于等于历史信息的层级中。相交的部分，信息进行融合，退化成普通的lstm；不相交的部分，各自保留自己的信息。

第二种可能：mf_t＞mi_t，表示历史信息h_t-1和当前输入x_t不相交，所以各自保留各自的信息。

ON-LSTM计算公式如下：

mf_t = cs^→(softmax(W_mfx_t+U_mfh_t-1+b_mf))；

mi_t = cs^←(softmax(W_mix_t+U_mih_t-1+b_mi))；

f_t = σ(W_fx_t+U_fh_t-1+b_f)；

i_t = σ(W_ix_t+U_ih_t-1+b_i)；

o_t = σ(W_ox_t+U_oh_t-1+b_o)；

ci_t = tanh(W_cx_t+U_ch_t-1+b_c)；

W_t= mf_t*mi；

c_t = w_t*(f_t*c_t-1+i_t*ci_t)+(mf_t-w_t)*c_t-1+(mi_t-w_t)*ci_t；

h_t= (o_t)*than(c_t)；

x_t和h_t-1计算出mf_t和mi_t：

mf_t = cs^→(softmax(W_mfx_t+U_mfh_t-1+b_mf))

mi_t = cs^←(softmax(W_mix_t+U_mih_t-1+b_mi))

其中cs(softmax(x))表示上文所说的新的激活函数cumax(x)。

cs^→/cs^←表示右向/左向的cumsum操作：

cs^→([x₁,x₂,...,x_n]) = [x₁,x₁+x₂,...,x₁+x₂+...+x_n]

cs^←([x₁,x₂,...,x_n]) = [x₁+x₂+...+x_n,x_n+x_n-1,x_n]

mf_t和mi_t的计算方式正好相反，由此得出mf_t前半部分为0，后半部分为1，而mi_t是前半部分为1，后半部分为0，那么w_t=mf_t*mi_t的交集部分正好为1，其余向量全是0；如果没有交集，那w_t的向量全是0，所以w_t*(f_t*c_t-1+i_t*ci_t)是用来处理交集部分，而没有交集的部分由(mf_t-w_t)和(mi_t-w_t)来处理。(mf_t-w_t)表示历史信息的范围去掉交集后的部分，(mi_t-w_t)表示当前输入信息的范围去掉交集后的部分。c_t的更新公式如下：

c_t = w_t*(f_t*c_t-1+i_t*ci_t)+(mf_t-w_t)*c_t-1+(mi_t-w_t)*ci_t

更新完细胞状态c_t之后，用tanh对c_t进行处理并将它于输出门o_t进行相乘，最终确定要输出的部分h_t。

发明内容

鉴于现有技术的不足，本发明的基于迁移学习和ON-LSTM的情感分类方法包括Bert模型预训练步骤，网络获取情感语料处理步骤，获取干净的情感语料向量步骤，用ON-LSTM神经网络生产干净的情感语料的情感标签步骤；

1）Bert模型预训练

收集大量未标注的情感语料，并使用大量未标注的情感语料输入Bert模型，生成预训练好的词表示Bert模型；

具体方法是：将情感语料中的每句话的每个字使用token embedding，segmentationembedding和position embedding共同表示作为输入，然后以预测被随机以一定比例掩盖的token和预测当前句子与下个句子的关系为优化目标，对字的三种表示进行优化；

2）网络获取情感语料处理

将网络获取的情感语料输入数据处理模块，数据处理模块把网络获取的情感语料中的用户名、停用词、转发符、url、标记信息作为噪声去除，得到干净的情感语料；

3）获取干净的情感语料向量

将干净的情感语料输入预训练好的词表示Bert模型，生成文本语义向量，称为干净的情感语料对应的向量；

预训练好的词表示Bert模型在输入干净的情感语料时进行微调，微调的方法为：在情感语料分类任务上，取特殊标记对应最终隐藏单元状态 C来获得输入语料的固定维度，微调期间，在分类层增加一个参数矩阵W∈R^KxH,其中K是要分类标签的数量，其次使用一个标准的softmax来计算分类标签的概率P∈R^K，P = softmax(CW^T)，最后调整BERT的参数和W来最小化类别预测损失函数；

4）用ON-LSTM神经网络生产干净的情感语料的情感标签

将干净的情感语料对应的向量输入ON-LSTM模块，将最后时刻的输出结果传入softmax层，对文本进行情感分类，得到干净的情感语料的情感标签。

有益效果

与传统的情感分类方法相比，基于迁移学习和ON-LSTM的情感分类方法能不受词典的制约，可以得到更多、更精准的情感特征用于分类器分类；与一般的基于机器学习的情感分类算法比较，不需要海量的标注情感语料，其次ON-LSTM模型的结构特点决定了模型能在提取情感语料的词向量特征的基础上提取情感语料的句法结构，大幅度地提高了情感语料分类的准确率。

附图说明

图1是本发明的结构流程图；

图2是本发明的步骤流程图。

具体实施方式

参看图1和图2，实现本发明的基于迁移学习和ON-LSTM的情感分类方法包括Bert模型预训练步骤S1，网络获取情感语料处理步骤S2，获取干净的情感语料向量步骤S3，用ON-LSTM神经网络生产干净的情感语料的情感标签步骤S4；

S1）Bert模型预训练

收集大量未标注的情感语料1，并使用大量未标注的情感语料1输入Bert模型2，生成预训练好的词表示Bert模型3；

S2）网络获取情感语料处理

将网络获取的情感语料4输入数据处理模块5，数据处理模块5把网络获取的情感语料4中的用户名、停用词、转发符、url、标记信息作为噪声去除，得到干净的情感语料6；

S3）获取干净的情感语料向量

将干净的情感语料6输入预训练好的词表示Bert模型3，生成文本语义向量，称为干净的情感语料对应的向量7；

S4）用ON-LSTM神经网络生产干净的情感语料的情感标签

将干净的情感语料对应的向量7输入ON-LSTM模块8，将最后时刻的输出结果传入softmax层，对文本进行情感分类，得到干净的情感语料的情感标签9。

Claims

1.基于迁移学习和ON-LSTM的情感分类方法，其特征在于包括Bert模型预训练步骤，网络获取情感语料处理步骤，获取干净的情感语料向量步骤，用ON-LSTM神经网络生产干净的情感语料的情感标签步骤；

1）Bert模型预训练

2）网络获取情感语料处理

3）获取干净的情感语料向量

4）用ON-LSTM神经网络生产干净的情感语料的情感标签

2.根据权利要求1所述的基于迁移学习和ON-LSTM的情感分类方法，其特征在于Bert模型预训练的具体方法是将情感语料中的每句话的每个字使用token embedding，segmentation embedding和position embedding共同表示作为输入，然后以预测被随机以一定比例掩盖的token和预测当前句子与下个句子的关系为优化目标，对字的三种表示进行优化。

3.根据权利要求1所述的基于迁移学习和ON-LSTM的情感分类方法，其特征在于预训练好的词表示Bert模型在输入干净的情感语料时进行微调，微调的方法为：在情感语料分类任务上，取特殊标记对应最终隐藏单元状态 C来获得输入语料的固定维度，微调期间，在分类层增加一个参数矩阵W∈R^KxH,其中K是要分类标签的数量，其次使用一个标准的softmax来计算分类标签的概率P∈R^K，P = softmax(CW^T)，最后调整BERT的参数和W来最小化类别预测损失函数。