CN110019772A

CN110019772A - 一种文本情绪分类方法及系统

Info

Publication number: CN110019772A
Application number: CN201710691593.4A
Authority: CN
Inventors: 王宁君; 张春荣; 赵琦
Original assignee: Putian Information Technology Co Ltd
Current assignee: Putian Information Technology Co Ltd
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2019-07-16
Anticipated expiration: 2037-08-14
Also published as: CN110019772B

Abstract

本发明提供一种文本情绪分类方法，包括：S1、基于限制递归神经张量网络模型中预设的权重矩阵集，在文本中提取权重大于预设阈值的词项作为语义实词；S2、基于训练后的限制递归神经张量网络模型，提取所述语义实词的情绪特征；S3、基于所述语义实词的情绪特征，对所述文本进行情绪分类。本发明提供的文本情绪分类方法及系统，通过在递归神经张量网络模型的基础上，添加权重矩阵集使得模型训练对于虚词权重降低，使得文本情绪特征检测能更专注于实词，减少信息冗余干扰，提高文本情绪分类准确率。

Description

一种文本情绪分类方法及系统

技术领域

本发明涉及文本信息处理领域，更具体地，涉及一种文本情绪分类方法及系统。

背景技术

据《中国互联网络发展状况统计报告》调查结果显示，截至2016年12月，中国网民规模达7.31亿，相当于欧洲人口总量，互联网普及率达到53.2％。互联网在整体环境、应用普及和热点行业发展等领域都取得了令人瞩目的成绩。随着网络技术的发展和普及，网络不仅给网民提供了信息传播的新途径，并且为用户提供了快捷、方便的交互方式，作为读者与作者，读者与读者之间架起了沟通的桥梁。互联网在信息传播领域越来越突出的作用不仅引起了学术界对网络舆情的关注，许多对信息敏感的行业如证券、金融以及政府机构也逐渐将目光投向这一研究领域。在网上，越来越多的用户利用互联网来发表自己的观点，由此产生了大量数文本数据。这些数据不仅包含权威的官方信息，也包含可信度较差的非官方信息，甚至是虚假信息。并且由于网络的开放性和共享性，用户参与进来发表自己的观点，免不了会产生“情绪化”的内容。其中的一些信息广泛传播必然会在社会上造成舆论效应，或积极或消极。因此，把握互联网用户的“情绪化”信息逐渐成为大众舆情监测的重要组成部分。而目前对情绪倾向性分析缺乏有效的分析工具，很难捕捉相关文章的主流情绪。

目前，现有的文本情绪分类方法一般采用传统的词袋模型和人工标注法和回溯神经网络(RNN)模型分类法。传统的词袋模型和人工标注法首先人工构建情绪匹配知识库，将待分类文本与情绪匹配知识库进行匹配，得到待分类文本的情绪特征，将所述待分类文本的情绪特征进行分类，得到文本的情绪分类结果。RNN模型可用来预测句子级的情绪分布的深度学习算法，不需要词典和极性转换。算法使用空间向量表示句子结构，解决了词袋模型无法表示符合语义的缺陷，同时使用情绪分布来替代传统的一维情绪评价方式。进一步的，在RNN模型的基础上，有人提出了递归神经张量网络(RNTN)模型，该模型加强了词的表示形式，除了词向量外，还往其中加入一个词矩阵，通过这么做新的模型将不仅仅拥有表达嵌入词含义的能力，它还拥有学习一个单词是如何修饰其他单词的能力，即给词语赋予了两种表达方式，使得词语能够尽可能的符合语义环境。

但是，现有技术使用的RNTN模型虽然通过构建词向量和词矩阵来对词语进行两重标定，但是在这个过程中会出现大量的信息冗余，例如一些冠词如：the、a等也会被以相同的重要程度纳入到语义信息中，但在进行文本分类时，文本中所包含的语义实词情绪特征才是分类过程中所需要的判别特征，那么在使用该模型进行文本情绪分类时，分类精确度将会受到冗余干扰，导致分类精度不高。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种文本情绪分类方法及系统。

根据本发明的一个方面，提供一种文本情绪分类方法，其特征在于，包括：

S1、基于限制递归神经张量网络模型中预设的权重矩阵集，在文本中提取权重大于预设阈值的词项作为语义实词；

S2、基于训练后的限制递归神经张量网络模型，提取所述语义实词的情绪特征；

S3、基于所述语义实词的情绪特征，对所述文本进行情绪分类。

其中，步骤S1之前所述方法还包括：

在递归神经张量网络模型中添加权重矩阵集，并基于预设的限制函数，缩小所述递归神经张量网络模型中的循环检测器大小，从而构建所述限制递归神经张量网络模型。

其中，所述限制递归神经张量网络模型为：

其中，h为情绪特征，σ为激活函数，x为词项，f(i(x_t))为限制函数，b为偏置量，t为状态量，w为矩阵，h_t为当前状态的情绪特征，为权重矩阵，为循环检测器。

其中，步骤S1包括：

获取所述文本中的所有词项；

基于所述限制递归神经张量网络模型中预设的权重矩阵集，对所述所有词项中的每一个词项分配一个预设的权重矩阵，得到各个词项的权重表达式；

对所述各个词项的权重表达式训练后，提取权重大于预设阈值的词项作为语义实词。

其中，步骤S1之后，步骤S2之前，所述方法还包括：

构建斯坦福情绪树；

将所述斯坦福情绪树作为所述限制递归神经张量网络模型的训练样本，对所述限制递归神经张量网络模型进行训练。

其中，所述构建斯坦福情绪树，包括：

基于斯坦福句法分析器，对所述文本的句法进行分析，得到斯坦福二叉树；

基于非线性函数，对所述斯坦福二叉树的节点进行情绪特征标注，得到斯坦福情绪树。

其中，所述方法还包括：

所述对所述限制递归神经张量网络模型进行训练时，在所述斯坦福情绪树的每个节点用张量复合函数替换所述非线性函数。

根据本发明的第二方面，提供一种文本情绪分类系统，包括：

第一提取模块，用于基于限制递归神经张量网络模型中预设的权重矩阵集，在文本中提取权重大于预设阈值的词项作为语义实词；

第二提取模块，用于基于训练后的限制递归神经张量网络模型，提取所述语义实词的情绪特征；

分类模块，用于基于所述语义实词的情绪特征，对所述文本进行情绪分类。

根据本发明的第三方面，提供一种计算机程序产品，包括程序代码，所述程序代码用于执行上述所述的文本情绪分类方法。

根据本发明的第四方面，提供一种非暂态计算机可读存储介质，用于存储如前所述的计算机程序。

本发明提供的文本情绪分类方法及系统，通过在递归神经张量网络模型的基础上，添加权重矩阵集使得模型训练对于虚词权重降低，使得文本情绪特征检测能更专注于实词，减少信息冗余干扰，提高文本情绪分类准确率。

附图说明

图1是本发明实施例提供的一种文本情绪分类方法流程图；

图2是本发明实施例提供的一种斯坦福情绪树句子拆分示意图；

图3是本发明实施例提供的一种文本情绪分类系统结构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1是本发明实施例提供的一种文本情绪分类方法流程图，如图1所示，所述方法包括：

可以理解的是，现有技术中，无论是传统的词袋模型表示文本特征，或者是回溯神经网络(RNN)模型分类，还是递归神经张量网络(RNTN)模型分类，都只是对传统的文本整体特征进行提取，而忽视了语义不同带给分类的精度下降问题。也许在短文本处理中，这些不重要的介词、冠词语义不会对文本分析造成太大影响，但是在长文本环境中，这些介词、冠词造成的冗余积累，将会给实际应用造成极大的干扰，使得文本情绪分类效果不佳。

针对上述现有技术中存在的问题，本发明实施例提供的文本情绪分类方法在RNTN模型的基础上，对词项的表达形式进一步做出限制，从而优化RNTN模型，使得文本的情绪分类精度更佳。

具体的，S1中，所述预设的权重矩阵集是针对不同文本或者是同一文本中的不同词项设立的不同权重矩阵，两个权重矩阵之间不共享，从而在训练过程中不必寻找模型的最优权重矩阵，使得模型的表现力更高。

可以理解的是，本发明实施例提供的步骤S1的目的是需要在文本中提取本发明实施例判定的语义实词，所述判定的条件为预设的权重阈值，所述预设的权重阈值是根据模型训练的结果得到的，本发明实施例不对预设阈值的具体数值做限定。

S2中，所述限制递归神经张量网络模型即为本发明实施例在RNTN模型的基础上做出的改进模型，可以理解的是，该限制递归神经张量网络模型需要经过训练学习后才能对文本进行情绪特征识别。

需要说明的是，传统的情绪特征识别是针对于文本中所有的词项进行情绪特征识别，而本发明实施例中则只需要对提取语义实词进行情绪特征识别，可以理解的是，本发明实施例提供的这种方法能够在一定程度上减小计算量，并且更加专注于语义实词。

S3中，基于所述语义实词的情绪特征对所述文本直接进行分类，分类精度经检测，是高于传统的RNTN模型和RNN模型分类方法的。

本发明实施例提供的文本情绪分类方法，通过在递归神经张量网络模型的基础上，添加权重矩阵集使得模型训练对于虚词权重降低，使得文本情绪特征检测能更专注于实词，减少信息冗余干扰，提高文本情绪分类准确率。

在上述实施例的基础上，步骤S1之前所述方法还包括：

可以理解的是，传统的RNTN模型在对情绪分析的过程中，其记忆容量会随着循环检测器的增大而产生记忆信息冗余。

针对上述现有技术存在的问题，本发明实施例提供的方法能够通过限制函数来控制循环检测器的大小，从而保证记忆容量在可控范围内的记忆信息完整性较高。

并且使用权重矩阵来专有的表示各个词项的表示方法，使得模型能够更加专注于语义实词。

具体的，通过本发明实施例预设的限制函数，对所述循环检测器进行训练，得到一个优选的记忆容量对应的循环值，需要说明的是，该循环值为一个张量，并且对于不同的两个词项而言，所述循环值不共享，即每个词项均享有自身对应的一个循环值，从而保证每个词项的情绪特征最优。

在上述实施例的基础上，所述限制递归神经张量网络模型为：

具体的，如上述等式算法所示，本发明实施例通过限制函数f(i(x_t))同时限制循环检测器和偏置量b，使得记忆量不会随着词汇量的增大而线性增加。

同时，本发明实施例提供的权重矩阵也将词项中的语义实词进行提取，从而使得一些权重较低的词项所提供的信息冗余减少。

最后通过激活函数将特征保留并映射至下一状态，从而在每次迭代循环的过程中，最大程度的体现特征。

在上述实施例的基础上，步骤S1包括：

获取所述文本中的所有词项；

可以理解的是，一个文本或多个文本中具有的词项有多个，但每个词项对应的词性不同，一般的可以将词性划分为：名词、动词、形容词、副词、介词等多种词性，不同词性对于一篇文本的重要程度是不同的，一般的，名词性的词语对于文本的重要性是比较高的，那么对于不同词性的词在文本中所占的权重是不同的，本发明实施例提供的方案则是考虑到词性对文本的贡献度，从而提出权重矩阵来对提取贡献度较高的语义实词。

具体的，本发明实施例对于每一个文本中每一个词项均分配一个不同的预设权重矩阵，两个权重矩阵之间不共享，从而获得一个权重表达式来对词项进行新的表达。

需要说明的是，初始分配的权重矩阵为单位矩阵，那么在输入两个词项对应的词向量进行均值计算时，对表达式的训练过程中，模型将会学习到两个词项对于句子的贡献度更高，同时可以通过对向量进行旋转或缩放的方式来使得区别度更明显。

例如：输出的第一词项为名词，输入的第二词项为动词，那么在训练过程中，模型将会学习到第一词项的贡献度对于文本含义来说较高，并且输出的第一词项的权重是大于预设阈值时，则可以判定所述第一词项为语义实词。

本发明实施例提供的方法，通过增设权重矩阵来对词项进行表示，从而尽可能的使得文本情绪性的分析更倾向于语义实词，尽可能的过滤了冗余干扰，提高了分类效果。

在上述实施例的基础上，步骤S2之前所述方法还包括：

构建斯坦福情绪树；

现有技术中，RNN模型采用的贪婪回溯自编码器构建的二叉树模型在建立需要耗费大量的时间，并且建立的二叉树模型面对复杂的语义环境文本处理效率低下。

针对上述现有技术存在的问题，本发明实施例通过构建斯坦福情绪树来缓解贪婪回溯自编码器存在时间浪费问题，并且基于斯坦福情绪树对模型进行训练，只需要最小化交叉熵误差，就可以影响回溯自编码器和输入的特征表达。

训练需要求解的目标函数如下式所示：

其中，θ表示模型参数，表示句子中第j个单词的标签分布，表示句子当中第j个单词预测标签的分布。

在上述实施例的基础上，所述构建斯坦福情绪树，包括：

基于非线性函数，对所述斯坦福二叉树的节点进行情绪特征标注，构建斯坦福情绪树。

图2是本发明实施例提供的一种斯坦福情绪树句子拆分示意图，如图2所示，原句为“This film does n’t care about cleverness,wit or any other kind ofintelligent humor”，经过斯坦福句法分析器的分析后，将文本中各个词项进行拆分，生成斯坦福二叉树。

然后对所述斯坦福二叉树的全部节点进行情绪标注，一般的可以将情绪等级分为5个级别：very Negative、Negative、Neural、Positive、very Positive。

在上述实施例的基础上，所述方法还包括：

可以理解的是，在传统的RNN模型中，在二叉树的每个节点用非线性函数对词项进行表示，而在本发明实施例提供的限制递归神经张量网络模型中，使用了张量复合函数来替换传统的非线性函数。

具体的，通过使用张量复合函数，能够使得输入的两个词向量之间发生更深层次的相互影响，使得情绪分析的维度更广，分析的也更加准确。

图3是本发明实施例提供的一种文本情绪分类系统结构图，如图3所示，所述系统包括：第一提取模块1、第二提取模块2以及分类模块3，其中：

第一提取模块1用于基于限制递归神经张量网络模型中预设的权重矩阵集，在文本中提取权重大于预设阈值的词项作为语义实词；

第二提取模块2用于基于训练后的限制递归神经张量网络模型，提取所述语义实词的情绪特征；

分类模块3用于基于所述语义实词的情绪特征，对所述文本进行情绪分类。

具体的，第一提取模块1在待情绪分类的文本中提取语义实词作为文本的有效信息，使得冗余信息减少，第二提取模块2基于本发明实施例预设的训练后的限制递归神经张量网络模型，在模型中提取所述语义实词的情绪特征，分类模块3通过所述语义实词的情绪特征，对所述文本进行情绪分类。

经分类结果比较，本发明实施例提供的文本情绪分类系统的分类效果要优于传统的词袋模型分类法、RNN模型分类法以及RNTN模型分类法。

本发明实施例提供的文本情绪分类系统，第一提取模块通过在递归神经张量网络模型的基础上，添加权重矩阵集使得模型训练对于虚词权重降低，使得第二提取模块的文本情绪特征检测能更专注于实词，减少信息冗余干扰，从而使得分类模块能够提高文本情绪分类准确率。

本发明实施例提供一种文本情绪分类系统，包括：至少一个处理器；以及与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行上述各方法实施例所提供的方法，例如包括：S1、基于限制递归神经张量网络模型中预设的权重矩阵集，在文本中提取权重大于预设阈值的词项作为语义实词；S2、基于训练后的限制递归神经张量网络模型，提取所述语义实词的情绪特征；S3、基于所述语义实词的情绪特征，对所述文本进行情绪分类。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：S1、基于限制递归神经张量网络模型中预设的权重矩阵集，在文本中提取权重大于预设阈值的词项作为语义实词；S2、基于训练后的限制递归神经张量网络模型，提取所述语义实词的情绪特征；S3、基于所述语义实词的情绪特征，对所述文本进行情绪分类。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：S1、基于限制递归神经张量网络模型中预设的权重矩阵集，在文本中提取权重大于预设阈值的词项作为语义实词；S2、基于训练后的限制递归神经张量网络模型，提取所述语义实词的情绪特征；S3、基于所述语义实词的情绪特征，对所述文本进行情绪分类。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本情绪分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤S1之前所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述限制递归神经张量网络模型为：

4.根据权利要求2所述的方法，其特征在于，步骤S1包括：

获取所述文本中的所有词项；

5.根据权利要求2所述的方法，其特征在于，步骤S1之后，步骤S2之前，所述方法还包括：

构建斯坦福情绪树；

6.根据权利要求5所述的方法，其特征在于，所述构建斯坦福情绪树，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种文本情绪分类系统，其特征在于，包括：

9.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。