CN108038205B

CN108038205B - 针对中文微博的观点分析原型系统

Info

Publication number: CN108038205B
Application number: CN201711344068.1A
Authority: CN
Inventors: 廖祥文; 陈国龙; 张丽瑶; 杨定达
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2021-12-21
Anticipated expiration: 2037-12-15
Also published as: CN108038205A

Abstract

本发明涉及一种针对中文微博的观点分析原型系统。包括：一中文微博数据预处理模块，用于将不同用户在不同话题下发表的微博及其评论文本进行对话序列级联、中文分词，得到词向量字典；一一致性挖掘模块，对用户‑观点、话题‑观点、用户‑文本和话题‑文本之间的一致性构建抽象向量，从全局的角度刻画中文微博的特征，利用四者之间的相互联系挖掘出隐含的文本语义和观点信息；一特征抽取模块，基于上下文和卷积神经网络模型从局部和全局的角度抽取出不同类型的特征，并根据误差不断更新参数；一分类结果输出模块，用分类函数得到最终的观点分析结果。本发明能够自动抽取出有效特征，并对特征进行抽象和组合，最终识别出中文微博的不同观点类别。

Description

针对中文微博的观点分析原型系统

技术领域

本发明涉及情感分析和观点挖掘领域，更具体地，涉及一种针对中文微博的观点分析原型系统，能够较好地进行观点类别的分析且通用性强，能应用于中文微博帖子和评论。

背景技术

当前，有很多技术方法可用于中文微博的观点分析。传统的文本观点分析方法主要分为基于词典和规则、基于机器学习等两大类。第一类方法需要事先获得与情感表达有关的词典，这些词典因语言和类型的不同而不同，然后分析所有出现的情感词的得分，并根据总的分值进行类别判定。这种方法比较粗糙，忽略了一词多义的现象，所以学者们引入了句法分析和语法规则进行更加精细的分析，但规则库或模式库的建立比较复杂，需要对大量语料进行分析和总结，且分析过程比较耗时。第二类方法分为有监督和无监督的，它们将数据分为训练集和测试集，在完成特征抽取和特征加权后，对训练数据加以学习，得到数学模型，进而预测待分类文本所属的类别。有监督方法准确度较高，但需要大量的人工标注，且和标注人员的主观意志有很大关系，而无监督方法节约人力，但准确度较低且受到基准词典的影响较大。

当前，存在着不同的文本表示模型，包括基于集合论的布尔模型、基于代数论的向量空间模型、基于概率统计的检索模型、N元语法模型和词向量模型。布尔模型简单直观，效果也不错，但存在“维数灾难”和“词汇鸿沟”的隐患；向量空间模型有一定的灵活性，效果也比较明显，但其独立性假设忽略了词之间的语义关联；基于概率统计的模型需要事先估计参数；词向量模型基于语言模型，将词转换成向量的形式，被广泛地用于词向量的初始化。

当前，还存在着不同的上下文信息的利用方式。对于中文微博而言，可分为内容上下文（content context）、结构上下文（structure context）和使用上下文。内容上下文指的是微博文本中词语、句子或段落间的前后关系，结构上下文指的是微博文本与话题、事件、人物等的隐含语义关系以及与图片、链接、视频的关联关系，使用上下文主要包括不同用户间的交互关系（如点赞、评论、回复、转发等）和用户操作记录。它们蕴含了大量的语义信息，既是一种知识，又是理解文本内容的重要线索。

然而，无论是基于词典和规则的方法还是基于机器学习的方法，都需要人工构造大量的特征，特征的迁移性较差，但对分类效果的影响非常大。近年来，随着深度学习被引入到自然语言处理领域，词向量和神经网络模型的研究受到了大量的关注，并在观点分析领域中取得了一系列突破性的成果。深度学习主要有以下4种模型：词袋模型、基于循环神经网络的序列模型、基于拓扑结构的递归神经网络、卷积神经网络。神经网络模型能够自动抽取出有效的特征，在英文领域已有大量的研究和应用，但用于中文微博观点分析的工作并不多，仍有很大的探索空间。

目前的中文微博观点分析方法大部分借鉴传统的文本分析方法，普遍存在数据稀疏问题，很大程度上受限于规则和特征的选择。此外，这些方法未充分利用中文微博的特点，无法有效地挖掘出潜在的观点信息。随着社交网络的日益普及和生活化，中文微博用户多、信息量大、更新速度快、涉及范围广，具有极高的研究和应用价值，需要通过数据挖掘和观点分析技术来发现其中的有用信息，以用于舆情监控、用户决策、市场分析和舆论引导等，这就对中文微博观点分析技术提出了一个挑战：如何构建一个有效的观点分析原型系统来满足其需要。因此，人们迫切希望有一种准确高效的中文微博观点分析方法，该方法能够自动抽取出有效特征，并对特征进行抽象和组合，最终识别出中文微博的不同观点类别。

发明内容

本发明的目的在于提供一种针对中文微博的观点分析原型系统，能够自动抽取出有效特征，并对特征进行抽象和组合，最终识别出中文微博的不同观点类别。

为实现上述目的，本发明的技术方案是：一种针对中文微博的观点分析原型系统，包括：

一中文微博数据预处理模块，用于将不同用户在不同话题下发表的微博及其评论文本进行对话序列级联、中文分词，得到词向量字典；

一一致性挖掘模块，对用户-观点、话题-观点、用户-文本和话题-文本之间的一致性构建抽象向量，从全局的角度刻画中文微博的特征，利用四者之间的相互联系挖掘出隐含的文本语义和观点信息；

一特征抽取模块，基于上下文和卷积神经网络模型从局部和全局的角度抽取出不同类型的特征，并根据误差不断更新参数；

一分类结果输出模块，用分类函数得到最终的观点分析结果。

优选的，所述中文微博数据预处理模块中的对话序列级联操作利用交互上下文，将当前微博与原始微博和上一级微博级联，以扩充不同主题下的微博内容。

优选的，所述中文微博数据预处理模块中的词向量字典借助Google开源的word2vec工具对训练数据集训练得到。

优选的，所述一致性挖掘模块考虑了除中文微博文本以外的用户和话题两个因素对微博的文本表达和观点表达的影响，构建了分别表征用户和话题的矩阵、向量。

优选的，所述卷积神经网络模型包括卷积层和池化层，分别从局部和全局进行特征抽取。

优选的，所述卷积层利用过滤器的局部感受域和权值共享，将指定窗口内的文本信息进行处理和映射，实现特征的抽象化，其形式为

，每一维上的数值

代表该微博隐含的某种情感特征。

优选的，所述池化层采用最大池化对卷积层得到的特征进行筛选，从全局角度进一步选出最能代表微博所包含的观点信息的特征。

优选的，所述卷积神经网络模型还包括若干个全连接层和向量拼接，将卷积神经网络模型得到的特征进一步抽象化，并将文本特征和用户、话题特征进行融合，得到最终的中文微博文本向量。

优选的，所述分类结果输出模块采用softmax函数对所得到的中文微博文本向量处理，预测各微博的观点类别。

优选的，在所述分类结果输出模块的模型训练阶段，词向量和权重矩阵都是参数，根据信息的前向传播和误差的后向传播将不断地对他们进行调整，逐步优化目标函数。

相较于现有技术，本发明具有以下有益效果：本发明能够自动抽取出有效特征，并对特征进行抽象和组合，最终识别出中文微博的不同观点类别。

附图说明

图1为本发明在中文微博所采用的观点分析原型系统的示意配置图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明的一种针对中文微博的观点分析原型系统，包括：

所述中文微博数据预处理模块中的对话序列级联操作利用交互上下文，将当前微博与原始微博和上一级微博级联，以扩充不同主题下的微博内容。所述中文微博数据预处理模块中的词向量字典借助Google开源的word2vec工具对训练数据集训练得到。

所述一致性挖掘模块考虑了除中文微博文本以外的用户和话题两个因素对微博的文本表达和观点表达的影响，构建了分别表征用户和话题的矩阵、向量。

所述卷积神经网络模型包括卷积层和池化层，分别从局部和全局进行特征抽取。所述卷积层利用过滤器的局部感受域和权值共享，将指定窗口内的文本信息进行处理和映射，实现特征的抽象化，其形式为

，每一维上的数值

代表该微博隐含的某种情感特征。所述池化层采用最大池化对卷积层得到的特征进行筛选，从全局角度进一步选出最能代表微博所包含的观点信息的特征。所述卷积神经网络模型还包括若干个全连接层和向量拼接，将卷积神经网络模型得到的特征进一步抽象化，并将文本特征和用户、话题特征进行融合，得到最终的中文微博文本向量。

所述分类结果输出模块采用softmax函数对所得到的中文微博文本向量处理，预测各微博的观点类别。在所述分类结果输出模块的模型训练阶段，词向量和权重矩阵都是参数，根据信息的前向传播和误差的后向传播将不断地对他们进行调整，逐步优化目标函数。

以下为本发明的具体实施例。

如图1所示，根据本发明实施例在中文微博所采用的观点分析原型系统包括：数据预处理模块1，用于对话序列级联、中文分词，得到词向量字典；一致性挖掘模块2，对用户-观点、话题-观点、用户-文本和话题-文本之间的一致性构建抽象向量，挖掘出隐含的文本语义和观点信息；特征抽取模块3，基于上下文和卷积神经网络模型从局部和全局的角度抽取出不同类型的特征，并不断更新参数；分类结果输出模块4，用于观点分析结果的输出。下面分别详细描述各模块的配置。

1）数据预处理模块1

首先，描述数据预处理模块1如何将不同用户在不同话题下发表的微博及其评论文本进行对话序列级联、中文分词，并得到词向量字典。

因为神经网络的输入数据一般是向量，以便模型的端到端训练，因此需要首先对文本数据进行向量化表示。为了便于数据的处理和分析，在本发明的数据预处理模块，我们根据采集得到的原始微博数据集的对话序列，将当前微博与原始微博和上一级微博的文本进行级联，然后采用ICTCLAS工具实现分词操作，且不过滤停用词。预处理后输出两个文件，即微博词序列和词向量字典，通过查表即可将中文微博数据从文本形式转换成向量形式。

2）一致性挖掘模块2

下面描述一致性挖掘模块2是如何从用户和话题的角度出发刻画中文微博的全局特征的。主要思想是用伪矩阵分别表示用户-文本关系信息和话题-文本关系信息，通过矩阵-向量乘法与词向量融合，并用伪向量分别表示用户-观点关系信息和话题-观点关系信息，通过向量拼接与经过特征抽取后的中文微博数据融合，经过多次参数优化后得到最终的中文微博文本向量。

本发明定义了以下四个与用户和话题相关的概念：

①用户-观点一致性：用户发表的微博或评论与自身性格有很大的关系，某一用户可能倾向于发表积极或者消极的帖子。因此，同一用户或者相似度较大的同类用户所发表的微博所表达的观点很可能具有较大的相似度。

②话题-观点一致性：微博话题本身可能倾向于拥有某一种极性的帖子，因此，同一话题下的帖子所表达的情感很可能具有较大的相似度。

③用户-文本一致性：每个用户有自己的词汇理解和语言表达习惯，同一个词被使用时可能表达了不同意思，同一观点可能有很多表达方式。

④话题-文本一致性：不同话题有自身的特色，各自的语言结构、用词、表达风格等很可能存在不同。

对于用户-文本一致性和话题-文本一致性，采用向量组合的思想进行建模。具体地，对于用户

发表的关于主题

的一条微博或者评论

，用两个实数矩阵

、

分别表示用户

和话题

，其中

为词向量长度，

和

为各部分输出向量的长度。然后用矩阵-向量乘法将它们与原有的词向量进行语义组合，分别得到含有用户信息和话题信息的词向量。最后，将两个向量进行连接，即得到融合了用户-文本一致性和话题-文本一致性的词向量，作为特征抽取模块的输入。

对于用户-观点一致性和话题-观点一致性，把它们分别抽象为实数型向量

和

，

和

分别为两个向量的长度，然后将它们与特征抽取模块的输出进行拼接，得到中文微博文本的最终表示，作为分类结果输出模块的输入。

3）特征抽取模块3

下面描述特征抽取模块3是如何将上一模块得到的数据进行特征抽取的。此模块由卷积层和池化层两个部分组成。卷积层的核心是过滤器，不同过滤器在不同范围内对局部信息进行组合，从而挖掘中文微博数据中不同类型的特征。每个卷积层有一个固定大小的滑动窗口，每次只处理窗口内的信息，利用过滤器的局部感受域和权值共享，使它们被抽象成若干个特征向量，其形式均为

，每一维上的数值

代表该微博隐含的某种情感特征。此后，比较有利于微博观点分类的特征已凸显出来，在此基础上，我们用最大池化从全局角度对以上特征进行筛选，进一步选出最能代表微博所包含的观点信息的特征，对于输入的微博特征向量c，其具体计算为

。为了将特征进一步抽象以挖掘更深层次的语义，我们在池化层后设置2个全连接映射层，得到初始文本向量，然后将其与一致性挖掘模块的输出进行拼接，得到中文微博文本的最终表示，作为分类结果输出模块的输入。

4）分类结果输出模块4

最后，将描述分类结果输出模块4。将模块1）和2）的输出向量进行拼接后得到了最终的中文微博文本向量，分类结果输出模块利用softmax分类函数对所得向量逐一计算，根据设定的阈值得到该微博所属的观点类别预测值。在训练阶段，需要将预测值与目标值求误差，并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新；否则，只需将得到的预测值输出即可。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种针对中文微博的观点分析原型系统，其特征在于：包括：

对于用户-文本一致性和话题-文本一致性，采用向量组合的思想进行建模：具体地，对于用户i发表的关于主题j的一条微博或者评论d_k，用两个实数矩阵

分别表示用户i和话题j，其中d为词向量长度，dU和dZ为各部分输出向量的长度；然后用矩阵-向量乘法将它们与原有的词向量进行语义组合，分别得到含有用户信息和话题信息的词向量；最后，将两个向量进行连接，即得到融合用户-文本一致性和话题-文本一致性的词向量，作为特征抽取模块的输入；

和

du和dz分别为两个向量的长度，然后将它们与特征抽取模块的输出进行拼接，得到中文微博文本的最终表示，作为分类结果输出模块的输入；

2.根据权利要求1所述的系统，其特征在于：所述中文微博数据预处理模块中的对话序列级联操作利用交互上下文，将当前微博与原始微博和上一级微博级联，以扩充不同主题下的微博内容。

3.根据权利要求1所述的系统，其特征在于：所述中文微博数据预处理模块中的词向量字典借助Google开源的word2vec工具对训练数据集训练得到。

4.根据权利要求1所述的系统，其特征在于：所述一致性挖掘模块考虑了除中文微博文本以外的用户和话题两个因素对微博的文本表达和观点表达的影响，构建了分别表征用户和话题的矩阵、向量。

5.根据权利要求1所述的系统，其特征在于：所述卷积神经网络模型包括卷积层和池化层，分别从局部和全局进行特征抽取。

6.根据权利要求5所述的系统，其特征在于：所述卷积层利用过滤器的局部感受域和权值共享，将指定窗口内的文本信息进行处理和映射，实现特征的抽象化，其形式为c＝[c₁，c₂，...，c_n-rs+1]，每一维上的数值c_i代表该微博隐含的某种情感特征。

7.根据权利要求5所述的系统，其特征在于：所述池化层采用最大池化对卷积层得到的特征进行筛选，从全局角度进一步选出最能代表微博所包含的观点信息的特征。

8.根据权利要求5所述的系统，其特征在于：所述卷积神经网络模型还包括若干个全连接层和向量拼接，将卷积神经网络模型得到的特征进一步抽象化，并将文本特征和用户、话题特征进行融合，得到最终的中文微博文本向量。

9.根据权利要求1所述的系统，其特征在于：所述分类结果输出模块采用softmax函数对所得到的中文微博文本向量处理，预测各微博的观点类别。

10.根据权利要求1或9所述的系统，其特征在于：在所述分类结果输出模块的模型训练阶段，词向量和权重矩阵都是参数，根据信息的前向传播和误差的后向传播将不断地对他们进行调整，逐步优化目标函数。