CN108460022A

CN108460022A - 一种文本Valence-Arousal情感强度预测方法及系统

Info

Publication number: CN108460022A
Application number: CN201810227216.XA
Authority: CN
Inventors: 汪璟玢; 钟鹏
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2018-08-28

Abstract

本发明涉及一种文本Valence‑Arousal情感强度预测方法及系统，将训练文本从Valence、Arousal两种情感强度进行标注处理，提取文本的文本修饰结构特征，并采用多尺度卷积神经网络模型和长短期记忆神经网络模型的组合模型对待测文本进行预测。本发明在进行预测时考虑到文本修饰结构特征，能够更加准确的进行文本情感分析预测。

Description

一种文本Valence-Arousal情感强度预测方法及系统

技术领域

本发明涉及自然语言处理情感分析技术领域，特别是一种文本Valence-Arousal情感强度预测方法及系统。

背景技术

情绪和情感状态在各种沟通方式所产生的文本中都是普遍存在的，特别是在一些带有强烈主观色彩的文本中更是如此。文字中通常蕴含着作者的情绪状态或唤醒读者的情绪。文本情感分析是通过机器挖掘文本中蕴含的情感知识或是主观意见。

情感通常用两种方式表示：以分类表示情感，如情感正面负面或是多种类别；以维度表示，用特定情感维度值描述情感，如Valence-Arousal(VA)维度、Pleasure-Arousal-Dominance(PAD)维度等。针对这两种表示方法，情感分析技术从研究方式上可以分为离散型情感分析和维度型情感分析。在维度型情感分析中，目前最常用的研究方式是预测情感的Valence-Arousal值。Valence-Arousal分别代表情绪的正负向程度和激动程度，基于这两个维度可以构成一个情感平面空间，任何一个情感状态可以通过具体的Valence-Arousal数值，映射到VA平面空间中具体的一个点。

近年来，情感分析技术迅速发展，通过将文本划分成更多的情绪标签，进行离散型的情感分析可以在更精细的粒度上分析文本所蕴含情感的区别，而维度型情感分析技术相对于离散型情感分析的情感粒度更加细腻。

情感分析技术从分析层次上又可以按照不同的分析层次划分为：词汇层次、短语层次、句子与文本层次。分别对单词、短语、句子或者文本层次情感分析研究。在文本层次的维度型情感分析研究任务中，常用的方式是通过规则和统计的方法，分析文本的情感维度值。随着词嵌入技术的发展带来的低维度词向量，将深度学习算法成功引入了自然语言处理领域，使用结合词嵌入技术的深度学习模型进行文本层次的情感分析技术，成为探讨高度抽象语言系统的一个重要工具。

现有的使用深度学习模型的文本层次情感分类系统，一般形式为，将文本预处理成文本单词向量矩阵，使用训练文本训练深度学习模型，再将训练好的模型用于预测文本的情感强度。

现有的深度学习技术进行文本Valence-Arousal情感强度预测存在如下缺陷：通常没有对文本中特定语义信息进行分析，文本中的每个单词彼此独立分析；对于上下文的分析，通常是对整个文本的上文、下文或是结合上下文进行整体分析，没有重点关注文本中的修饰词对于文本语义极性的影响，从而影响对文本Valence-Arousal情感维度预测的准确性。

发明内容

有鉴于此，本发明的目的是提出一种文本Valence-Arousal情感强度预测方法及系统，在进行预测时考虑到文本修饰结构特征，能够更加准确的进行文本情感分析预测。

本发明采用以下方案实现：一种文本Valence-Arousal情感强度预测方法，具体包括以下步骤：

步骤S1：将训练文本从Valence、Arousal两种情感强度进行标注处理，得到含有Valence-Arousal情感强度标注的训练文本集合；

步骤S2：结合词向量训练工具GloVe训练给定的语料库，构建系统词向量语料库；

步骤S3：对待测文本进行预处理，对待测文本进行特殊字符及标点符号清洗、统一文本繁简体、进行文本分词处理，将文本处理成分词集合；

步骤S4：采用多尺度卷积神经网络模型和长短期记忆神经网络模型的组合模型，用含有Valence-Arousal情感强度标注的训练文本集合进行训练，当组合模型发生过拟合时，停止模型训练，根据含有Valence-Arousal情感强度标注的训练文本集合的绝对平均误差和皮尔森相关系数调整模型超参数，获取最佳组合模型的参数权重；

步骤S5：提取步骤S3预处理后的待测文本的文本修饰结构特征，结合词向量技术，利用步骤S4中训练好的组合模型对待测文本进行文本Valence-Arousal情感强度预测，得到待测文本的情感Valence-Arousal预测结果；

步骤S6：将步骤S5得到的待测文本的情感Valence-Arousal预测结果保存进系统。

进一步地，步骤S1中，所述标注处理具体为：用数字1至9标注Valence，其中数字1至9表示依次连续变化的情感强度，1表示极度消极，9表示非常积极；用数字1至9标注Arousal，其中数字1至9表示依次连续变化的情感强度，1表示极度平静，9表示极度兴奋。

进一步地，步骤S2中所述给定的语料库包括维基百科中文语料库以及特定领域的专属语料库。

进一步地，步骤S4中，所述采用多尺度卷积神经网络模型和长短期记忆神经网络模型的组合模型，对含有Valence-Arousal情感强度标注的训练文本集合进行训练，具体为：提出文本修饰结构中单一修饰词修饰的定义，采用Modifier-CNN-LSTM模型用含有Valence-Arousal情感强度标注的训练文本集合进行模型参数训练。

进一步地，步骤S4中，所述采用多尺度卷积神经网络模型和长短期记忆神经网络模型的组合模型，对含有Valence-Arousal情感强度标注的训练文本集合进行训练，具体为：提出文本修饰结构中单一修饰词修饰和复合修饰词修饰的定义，采用ComponentModifier-CNN-LSTM模型用含有Valence-Arousal情感强度标注的训练文本集合进行模型参数训练。

进一步地，步骤S5具体为：使用训练好的Modifier-CNN-LSTM模型或ComponentModifier-CNN-LSTM模型对待测文本的Valence-Arousal强度进行预测。

本发明还提出了一种基于上文所述的文本Valence-Arousal情感强度预测系统，包括计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上文所述方法的步骤。

与现有技术相比，本发明有以下有益效果：本发明在进行预测时考虑到文本修饰结构特征，能够更加准确的进行文本情感分析预测。

附图说明

图1为本发明实施例中步骤S2的原理示意图。

图2为本发明实施例中本发明实施例中构建索引词向量表和单词索引表原理图。

图3为本发明实施例中将实验数据集中的文本构建成神经网络模型输入矩阵的过程示意图。

图4为本发明实施例中多尺度组合模型的结构示意图。

图5为本发明实施例中模型卷积核的结构。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本实施例提供了一种文本Valence-Arousal情感强度预测方法，具体包括以下步骤：

在本实施例中，步骤S1中，所述标注处理具体为：用数字1至9标注Valence，其中数字1至9表示依次连续变化的情感强度，1表示极度消极，9表示非常积极；用数字1至9标注Arousal，其中数字1至9表示依次连续变化的情感强度，1表示极度平静，9表示极度兴奋。

在本实施例中，步骤S2中所述给定的语料库包括维基百科中文语料库以及特定领域的专属语料库。

在本实施例中，步骤S4中，所述采用多尺度卷积神经网络模型和长短期记忆神经网络模型的组合模型，对含有Valence-Arousal情感强度标注的训练文本集合进行训练具体为：提出文本修饰结构中单一修饰词修饰的定义，采用Modifier-CNN-LSTM模型用含有Valence-Arousal情感强度标注的训练文本集合进行模型参数训练。

在本实施例中，步骤S4中，所述采用多尺度卷积神经网络模型和长短期记忆神经网络模型的组合模型，对含有Valence-Arousal情感强度标注的训练文本集合进行训练，具体为：提出文本修饰结构中单一修饰词修饰和复合修饰词修饰的定义，采用ComponentModifier-CNN-LSTM模型用含有Valence-Arousal情感强度标注的训练文本集合进行模型参数训练。

在本实施例中，步骤S5具体为：使用训练好的Modifier-CNN-LSTM模型或ComponentModifier-CNN-LSTM模型对待测文本的Valence-Arousal强度进行预测。

本实施例还提出了一种基于上文所述的文本Valence-Arousal情感强度预测系统，包括计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上文所述方法的步骤。

具体的，在本实施例中，所述计算机可读存储介质上包括以下几个功能模块用以执行实现上文所述方法的步骤：

文本Valence-Arousal情感强度标注模块，该模块对训练文本的Valence、Arousal两种情感强度进行标注处理；该模块采用维度型情感标注方式，以Valence和Arousal两种情感维度标注情绪的强度，Valence代表情绪的正负向程度。Arousal代表情绪的激动程度；其中，分别用1-9的数字标记Valence和Arousal，对于前者1表示极度消极，9代表非常积极,对于后者，数值1代表极度平静，数值9代表极度兴奋。该模块可以根据若干个标注者的所有标注结果，统计每个文本Valence-Arousal。

词向量构建模块，该模块基于维基百科中文语料库，融合特定领域的专属语料库，结合词向量训练工具GloVe构建系统词向量语料库；

文本预处理模块，该模块对文本进行特殊字符及标点符号清洗、统一文本繁简体、文本分词等步骤，对文本进行预处理，将文本处理成分词集合；

模型训练模块，该模块控制模型的训练次数，通过训练数据集的评估反馈结果，对模型超参数进行调整，将训练好的模型参数保存；其中，该模块采用多尺度卷积神经网络模型和长短期记忆神经网络模型的组合模型，对含有Valence-Arousal情感强度标注的训练文本集合进行训练，当深度学习模型发生过拟合时，停止模型训练，根据含有Valence-Arousal情感强度的测试集的绝对平均误差和皮尔森相关系数的结果，调整模型超参数，获取最佳的深度学习模型参数权重；其中，该模块提出对文本修饰结构特征的获取，融合对不同尺度文本修饰结构特征的提取，具体包括以下两种情况。情况一：首先提出文本修饰结构中单一修饰词修饰的定义，接着训练Modifier-CNN-LSTM模型用于提取含有单修饰词的文本修饰结构特征以进行文本情感强度预测；情况二：首先提出文本修饰结构中单一修饰词修饰和复合修饰词修饰的定义，接着训练ComponentModifier-CNN-LSTM模型用于提取含单一修饰词以及复合修饰词的文本修饰结构特征以进行文本情感强度预测。

文本Valence-Arousal强度预测模块，该模块基于卷积神经网络和长短期记忆神经网络组合模型，加载模型训练模块保存的模型参数，结合词向量技术、文本修饰结构特征分析，将文本预处理模块处理好的待测文本进行文本Valence-Arousal情感强度预测；该模块使用训练好的Modifier-CNN-LSTM或ComponentModifier-CNN-LSTM模型对文本的Valence-Arousal强度进行预测，融合对于文本中的修饰结构特征提取，以提高系统预测的准确性。

统计分析入库模块，该模块统计分析一个文本的情感Valence-Arousal预测参数，并自动入库保存。

特别的，本实施例根据文本中的修饰词特点提出两种文本修饰结构，具体说明说下：

文本中的修饰词：通常修饰词可以分为三个类别，程度副词、否定词和虚词，其中程度副词又包括增强和减弱程度副词，如表1所示。

表1三种修饰词举例

本实施例分析了三种类别的修饰词：否定词、程度副词和虚词。其中否定词用于扭转结构中情感词的语义极性、程度词则增强或者减弱情绪词的正或负程度、虚词减弱情绪强度。

(1)文本修饰结构1：修饰词在文本中，可以以单一修饰词的形式出现。其中，程度修饰词可以分为增强修饰词和减弱修饰词，强化或者削弱情绪特征。否定修饰词可以否定和扭转情绪词的语义极性。虚词修饰词可以减弱情绪的表达。

(2)文本修饰结构2：在文本中修饰词也可以以复合形式出现，常见的复合修饰词有表2中的这几种形式组合。

表2四种复合修饰结构举例

如表2所示，复合修饰词可以归纳为，程度词-否定词修饰、否定词-程度词修饰、虚词-程度词修饰、虚词-否定词修饰。以虚词-否定词复合形式为例，虚词“可能”和否定词“不是”，可以组合成复合修饰结构“可能不是”。复合形式中虚词“可能”弱化了否定修饰词“不是”的程度，使得修饰结构趋于中性。

再如，否定词“不是”和程度词“特别”，可以组成虚词-程度词复合结构，否定词“不是”可以将正向程度词“特别”扭转成负向的修饰词，从而减弱所修饰内容的潜在情感。

较佳的，在本实施例中，词向量构建模块采用维基百科中文语料库作为基础训练样本，本实施例的系统中包含从互联网中获取的文本数据资源，系统语料库资源以维基百科简体中文文本为基础，在该语料库基础上，系统可以添加其他的文本数据库资源或是专业领域文本数据资源。具体方法：首先选择文本数据库资源：选取需要用于构建单词词向量查询表的文本数据库资源。然后处理文本语料库资源：将文本数语料库中的文本进行预处理，通过使用文本预处理模块功能，完成文本数据资源中每个文本的预处理。接着构建单词词向量查询表，对处理好的文本数据资源，使用基于单词共现矩阵的词频统计算法的系统内嵌词向量训练工具GloVE将one-hot形式的词向量训练成低维度语义向量。最终把文本数据库资源中的所有不重复的分词训练成单词向量。步骤如图1所示。图1为本发明实施例步骤S2的原理图。其中还包括以下两个过程：1、调整训练过程参数：通过板块调整训练过程中的参数，入分词的词频、统计滑动窗口大小等；2、制输出参数：选择输出的单词词向量维度，默认选项为50维、100维、150维、200维、250维、300维，默认300维。选择每个单词的词向量具体的维度或者手动输入希望获取的词向量输出维度，以构建单词词向量查询表(LookupTable)。

低维度的语义向量解决了维度爆炸问题。传统机器学习方法在文本层次的情感分析中，需要有优质的数据集用去模型训练，所以在进行具体的情感分类预测，或是情感强度预测时，需要构造和情绪有关的特征，构造特征的方法可以是多种多样的，比如借助情感词词典中的情感词和及其情感标签、分析单词的词性、获取数据集中单词聚类的特征等等。这些方式挑选的特征复杂，需要花费大量的时间去论证特征的有效性，同时获取特征时，或多或少都需要借助一些已有的资源，如何评价这些资源的质量和有效性也是一个现实存在的问题。

较佳的，在本实施例中，所述文本预处理模块在对文本进行预处理时具体包括：

首先，将每一份原始文本处理成以分词为最小单位的文本。具体方法为：

1、将文本处理成句子。以文本段落为单位，本实施例将文本中的一段内容视为计算机将要处理的一个句子，将文本视为若干个句子构成的集合。

2、将文本中的标点符号除去，将原始文本中的中英文标点以及与文本内容表述无关的特殊字符去除。

3、对文本进行文本分词，将文本中的每个句子进行分词处理，以分词为文本的最小单位。

接着，需要将文本预处理模块处理后的文本，构建成预测模型能够理解的数值型矩阵作为输入。具体步骤为：

1、结合词向量查询表和文本集合，构建两张索引表：单词索引表和索引词向量表，如图2所示，图2为本发明实施例中构建索引词向量表和单词索引表原理图。

(1)单词索引表(Word-Index Table)：单词-索引。文本集合中的每一个文本，都转化成实数索引。方法为：对预处理后的实验数据集，统计数据集中所有不同重复的单词，为每个单词设置单词索引。一个单词对应一个实数数值，数值从1开始计数。

(2)索引词向量表(Index-Word Embedding Table)：索引-词向量。使用词向量查询表(Lookup Table)对单词集合，构建文本集合中所有单词的索引词向量表(Index-Wordembedding)，实现一个实数索引对应一个词向量。

2、根据单词索引表(Word-Index Table)和索引词向量表(Index-Word EmbeddingTable)，将待测文本集中的每一份文本，转化为矩阵形式。图3为将实验数据集中的文本构建成神经网络模型输入矩阵的过程示意图，矩阵中的每一行代表一个单词，每一行的数值代表单词的词向量特征。

句矩阵的长度值(input_length)是可以自行设定的超参数，根据预处理模块中文本统计分析功能中的文本信息，设定相应的输入长度。句矩阵的维度和词向量维度相同，系统默认词向量输出维度为300维，句矩阵的长度值(input_length)默认值为所有文本中的最大句长，对于小于最大句长的文本用实数0填充。

特别的，下面具体对本实施例中的模型训练模块(步骤S4)进行说明。

结合本实施例定义的两种修饰结构特点，搭建两种深度学习预测模型。深度学习方法基于深层架构自动学习数据的特征表达，和传统的机器学习相比，模型可以通过深层次的网络结构，自动提取和抽象特征，并将特征用各种方式进行组合，从已获得的特征中再抽象出与预测结果相关联的信息。并且模型有可复用性，经过简单的参数调整，可以被用于处理各种复杂的问题。

两种模型都是以卷积神经网络模型(CNN)和长短期记忆模型(LSTM)构成的组合模型CNN-LSTM模型为基础的。

对于连续数值的预测，属于回归问题，在使用深度学习模型进行回归预测的问题中，通常采用单一的LSTM模型，该模型可获取长距离的语义信息，从而结合上下文的内容进行预测。但是这种方式长距离信息提取的方式，不能获取到更加精细粒度的特征。本实施例的CNN-LSTM组合模型，通过将CNN模型和LSTM模型进行组合，发挥两者的优势，进行回归预测，CNN模型可以提取局部语义信息，结合本系统定义的两种修饰结构，设计多尺度的CNN模型，以保留文本修饰结构特点，将提取到的语义信息再作为LSTM网络的输入，使用其获取语义顺序关系特点，从而更加精准的预测情感的Valence-Arousal强度。多尺度组合模型的结构如图4所示。

本实施例共内嵌了两种CNN-LSTM组合模型分，别是Modifier-CNN-LSTM模型和ComponentModifier-CNN-LSTM模型。

1、Modifier-CNN-LSTM模型，可以针对单一修饰词组成的单一修饰结构，提取修饰结构1的特征，以进行Valence-Arousal情感强度预测。

(1)CNN模型部分

输入层：输入层矩阵的维度为单词实数向量的维度，长度为文本单词的数量。若一个文本S＝{w₁,w₂,...,w_n}，w为单词的词向量，设其维度为d_w，经过输入转化后，输入层矩阵的长度为单词的个数为n，维度为词向量的维度为d_w。

卷积层：卷积层中的组成单位为卷积核(filter)，每个卷积核的维度与词向量的维度相同也为d_w，卷积核的个数是可以设置的超参数。为提取本文中提出的修饰结构1的特征，设计了多尺度的卷积核结构。1尺度：用于提取文本中单个词的特征；2尺度：用于提取单一修饰词的修饰结构1特征；两个尺度的卷积核对一个输入文本同时卷积，以提取不同粒度的文本特征。每个卷积核都会对输入层的句矩阵以滑动窗口的方式进行卷积操作。

池化层：在每一种尺度的卷积核的后面，都设置池化层。池化层的输入为不同尺度卷积核提取的特征映射，本文在该层选择最大采样(Max pooling)的方式捕获特征映射的信息，抽取特征映射的最大特征值。

(2)LSTM模型部分

本模型将多尺度CNN模型中不同尺度卷积核获取的特征映射经过池化层采样后提取特征，作为LSTM的输入。通过LSTM的隐藏层结构，进一步提取卷积层输出的特征之前的顺序关系。再对每个时序的输出特征进行维度平均，生成1维度的特征向量。

全连接层：全连接层的输入是LSTM隐藏层每个控制单元输出结果平均池化后的每个维度上的特征，隐藏层的神经元个数为超参数，使用relu作为感知器的激活函数。

输出层：文本情绪强度预测属于回归预测问题，输出层使用linear线性激活函，获得单一数值实数输出，作为文本情绪强度预测值。

2、ComponentModifier-CNN-LSTM模型，可以针对单一修饰词组成的单一修饰结构和复合修饰词组成的复合修饰结构，分别提取修饰结构1和修饰结构2的特征，以进行Valence-Arousal情感强度预测。相对于Modifier-CNN-LSTM，该模型在卷积层增加了尺度为3的卷积核，可以进一步提取含复合修饰词的修饰结构2特征。图5是本模型卷积核的结构。

对用于训练的文本集合选择需要的模型进行模型训练，该模块可以将训练好的模型加载到系统中。模型训练过程可以通过模型训练模块，设置可用于外部调整的超参数。模型学习的次数以及解决过拟合的方式：模型学习的次数t，设置为大于0的实数；模型的验证集评估指标出现过拟合时，让模型再调整n次参数后停止训练，n可以设定次数为大于0的正整数。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种文本Valence-Arousal情感强度预测方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种文本Valence-Arousal情感强度预测方法，其特征在于：步骤S1中，所述标注处理具体为：用数字1至9标注Valence，其中数字1至9表示依次连续变化的情感强度，1表示极度消极，9表示非常积极；用数字1至9标注Arousal，其中数字1至9表示依次连续变化的情感强度，1表示极度平静，9表示极度兴奋。

3.根据权利要求1所述的一种文本Valence-Arousal情感强度预测方法，其特征在于：步骤S2中所述给定的语料库包括维基百科中文语料库以及特定领域的专属语料库。

4.根据权利要求1所述的一种文本Valence-Arousal情感强度预测方法，其特征在于：步骤S4中，所述采用多尺度卷积神经网络模型和长短期记忆神经网络模型的组合模型，对含有Valence-Arousal情感强度标注的训练文本集合进行训练，具体为：提出文本修饰结构中单一修饰词修饰的定义，采用Modifier-CNN-LSTM模型用含有Valence-Arousal情感强度标注的训练文本集合进行模型参数训练。

5.根据权利要求1所述的一种文本Valence-Arousal情感强度预测方法，其特征在于：步骤S4中，所述采用多尺度卷积神经网络模型和长短期记忆神经网络模型的组合模型，对含有Valence-Arousal情感强度标注的训练文本集合进行训练,具体为：提出文本修饰结构中单一修饰词修饰和复合修饰词修饰的定义，采用ComponentModifier-CNN-LSTM模型用含有Valence-Arousal情感强度标注的训练文本集合进行模型参数训练。

6.根据权利要求1所述的一种文本Valence-Arousal情感强度预测方法，其特征在于：步骤S5具体为：使用训练好的Modifier-CNN-LSTM模型或ComponentModifier-CNN-LSTM模型对待测文本的Valence-Arousal强度进行预测。

7.一种基于权利要求1至6任一项所述的文本Valence-Arousal情感强度预测系统，包括计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。