CN108536781B

CN108536781B - 一种社交网络情绪焦点的挖掘方法及系统

Info

Publication number: CN108536781B
Application number: CN201810271740.7A
Authority: CN
Inventors: 刘金硕; 牟成豪; 李改潮; 李晨曦; 李扬眉; 杨广益; 陈煜森; 邓娟
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2022-04-01
Anticipated expiration: 2038-03-29
Also published as: CN108536781A

Abstract

本发明属于数据挖掘、舆情分析的研究范畴，涉及一种社交网络情绪焦点的挖掘方法及系统，包括：语料数据预处理、神经网络模型构建及训练、情绪焦点聚类三个步骤。深入挖掘用户在社交网络中展现的情绪的关注焦点，从而为社会舆论引导提供更为明确的决策辅助。本发明可用于舆情监控与干预、谣言检测等网络信息监管领域。

Description

一种社交网络情绪焦点的挖掘方法及系统

技术领域

本发明涉及一种社交网络情绪焦点的挖掘方法及系统，涉及数据挖掘、舆情分析的研究领域。

背景技术

文本情绪分析是自然语言处理领域主要研究方向之一，它主要研究文本所蕴含的情绪及与情绪相关的深层信息。情绪原因或者情绪焦点的挖掘主要是分析大众产生特定情绪的具体关注点，针对文本中出现的被描述者的情绪，抽取出触发被描述者情绪产生的原因信息。

目前，情绪归因一般采用基于规则和统计的方法。Ying Chen和Sophia Yat MeiLee等人建立了一个情绪归因的语料库，并且根据标注的语料库建立了相应的规则，用于情绪原因句子的识别。Kai Gao等人提出一种基于规则的情绪原因识别模型，然后对相应的微博数据进行情绪原因的抽取。Alena Neviarouskaya通过句法、语法和规则相结合的方法，分析“乐”的8种情绪原因的语言现象，以此来推测一段文本的情绪类别和情绪原因。Weiyuan Li等人通过抽取情绪原因特征进行情绪分类，其特征抽取采用基于规则的方法。

在基于统计方法的情绪原因识别方面，袁丽提取语言学线索词的特征、句子距离特征、候选词词法特征等信息，然后得到特征向量空间，最后应用SVM分类器和条件随机场对文本情绪归因进行了判别。Lin Gui 等人既通过建立25条规则来进行文本情绪原因的预测，还运用分类方法来预测文本情绪原因。李逸薇将情绪归因识别任务看成序列标注，并建立了相应的模型，将所有候选原因子句当成一个序列，从而标记出哪些属于原因子句。Ghazi D等人利用FrameNet建立了情绪和情绪原因相关联的数据集，然后利用CRF来预测文本句子级别的情绪。Gaoyan Ou 等人建立文本公众情绪和情绪事件之间关系，利用文本情绪来进行文本中事件的预测。Lin Gui等人首先构建了一个情绪归因语料库，标注了表达情绪的核心子句，在核心句的前后子句中标注情绪原因子句，然后从核心句的前后每个子句中抽取候选原因事件，通过训练分类器，最后判定抽取的候选原因事件是否是情绪核心子句。

近期，深度学习的应用也在该任务上取得了一定进展。慕永利等人采用结合卷积神经网络，融合句子的语义上下文信息对情绪原因子句进行了情绪原因识别。但是相关任务的结果准确度较低。

因此，更好地利用深度学习，挖掘句法以及语义层面的情感信息来进行情绪焦点的方法显得尤为重要。

发明内容

本发明的目的是为了解决社交用户情感焦点挖掘问题，旨在为舆论引导，舆情处理提供更为精确的辅助信息。

本发明是采用如下技术方案：

一种社交网络情绪焦点的挖掘方法，其特征在于，包括以下步骤：

步骤1，对语料数据进行数据预处理，包括：分句、分词、过滤，数据预处理中，每一条语料数据，根据汉语句号、逗号、分号、冒号、感叹号、问号以及顿号进行句子切分，形成子句集；对每一条子句进行分词处理，通过常用停用词词表过滤去掉分词中出现的停用词，最终形成的预处理后预料数据格式如下：

X＝[x₀＝[w₀,w₁,…,w_n],…,x_m]

y＝[y₀,…,y_m]

其中，X表示语料中的文本数据集，x_i，0≤i≤m,m表示语料的子句数量，x_i表示语料中的第i个子句，与之对应的y_i＝1，如果当前子句为情绪焦点，否则y_i＝0；

步骤2，构建卷积神经网络(CNN)和长短期记忆(LSTM)平行神经网络模型，并使用步骤1中预处理后的语料数据，训练神经网络模型，该平行神经网络模型是将卷积神经网络(CNN)和长短期记忆(LSTM)两个网络的独立输出结果进行向量的相叠加，再映射到输出层，其中，两个网络的输入层为公开预训练的Word2Vec词向量模型，输出层为一个单元的sigmoid 层：

其中，e表示自然对数的底数，即模型输入对应单次训练样本-预处理后的语料数据中一例<x_i,y_i>，模型输出对应当前例是情绪焦点的概率；

步骤3，对待分析数据单独使用步骤2中训练完成的神经网络模型，并根据最终结果进行聚类，具体方法是：对于待分析语料数据的神经网络的输出概率结果，对其所有子句的概率进行Softmax函数处理，得到排名前三的子句作为当前语料数据的情绪焦点：

其中，x表示模型输出概率值，n表示当前语料数据的总子句数目，分母表示所有子句的概率的自然底数指数的和，然后取所有待分析语料数据的情绪焦点，采取公开的Doc2Vec+Kmeans算法进行聚类，将每一个作为情绪焦点的子句进行Doc2Vec的向量化表示，采取Kmeans对向量再进行聚类，聚类相似度衡量采取余弦相似度，即：

其中，

表示语料数据的向量化表示，

表示语料数据向量的一级范数，函数取值范围[-1,1]，1表示两向量相同，即语料数据相似度近似相同；-1表示向量差距很大，即文本相似度很低。

一种社交网络情绪焦点的挖掘系统，其特征在于，包括：

预处理模块：对语料数据进行数据预处理，包括：分句、分词、过滤，数据预处理中，每一条语料数据，根据汉语句号、逗号、分号、冒号、感叹号、问号以及顿号进行句子切分，形成子句集；对每一条子句进行分词处理，通过常用停用词词表过滤去掉分词中出现的停用词，最终形成的预处理后预料数据格式如下：

X＝[x₀＝[w₀,w₁,…,w_n],…,x_m]

y＝[y₀,…,y_m]

模型训练模块：构建卷积神经网络(CNN)和长短期记忆(LSTM)平行神经网络模型，并使用步骤1中预处理后的语料数据，训练神经网络模型，该平行神经网络模型是将卷积神经网络(CNN)和长短期记忆(LSTM)两个网络的独立输出结果进行向量的叠加，再映射到输出层，其中，两个网络的输入层为公开预训练的Word2Vec词向量模型，输出层为一个单元的sigmoid层：

结果输出模块：对待分析数据单独使用模型训练模块训练完成的神经网络模型，并根据最终结果进行聚类，具体方法是：对于待分析语料数据的神经网络的输出概率结果，对其所有子句的概率进行Softmax函数处理，得到排名前三的子句作为当前语料数据的情绪焦点：

其中，

表示语料数据的向量化表示，

本发明利用深度学习，同时使用卷积神经网络和长短期记忆网络，对应句法特征以及语义特征，深入挖掘用户文本中蕴含的情绪的关注焦点，从而为社会舆论引导提供更为明确的决策辅助。

附图说明

图1表示本发明实施例数据预处理示意图。

图2表示本发明实施例卷积神经网络(CNN)和长短期记忆(LSTM)平行神经网络模型示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

本发明的研究目的就是为了在舆情管控任务中，挖掘当前网络中用户产生特定情绪的原因/关注焦点，为进一步平息大众情绪给出具体方向。

参阅附图，图1以示意方式表示对原始训练语料数据进行预处理。假定当前文档集中仅包含一篇训练文档，为x₀。对应为公开言论，如新浪微博上的一条微博。

首先，对语料数据进行数据预处理，包括：分句、分词、过滤。每一条语料数据(以下简称为文档)，根据汉语句号、逗号、分号、冒号、感叹号、问号进行句子切分，形成子句集；

同时，按照语料库的人工标注信息，得到当前文档的标签集合。

对每一条子句进行分词处理，通过常用停用词词表过滤去掉分词中出现的中文常用停用词。最终形成的预处理后预料数据格式如下：

X＝[x₀＝[w₀,w₁,…,w_n],…,x_m]

y＝[y₀,…,y_m]

其中，X表示语料中的文本数据集，各子句对应一个词语集向量，并且存在与之对应的y_i＝1，如果当前子句为情绪焦点，否则y_i＝0；

步骤2，构建卷积神经网络(CNN)和长短期记忆(LSTM)平行神经网络模型，构建参数如下：最大语料词汇量40000，最大单文档词汇量400，批处理大小32，词嵌入宽度300(按照预训练的Word2Vec设定)，卷积神经网络：卷积核数量250，卷积核大小3*3，长短期记忆网络：单元数128，dropout率0.2，模型迭代次数2。

并使用步骤1中预处理后的语料数据，训练神经网络模型。特别地，卷积神经网络(CNN)和长短期记忆(LSTM)两个网络的独立输出结果进行向量的叠加，再映射到输出层。其中，两个网络的输入层为预训练的Word2Vec词向量模型，输出层为一个单元的sigmoid层：

其中，e表示自然对数的底数。即模型输入对应单次训练样本即为预处理后的语料数据中一例<x_i,y_i>，模型输出对应当前例是情绪焦点的概率。模型按照损失函数进行训练。

步骤3，对待分析数据采取步骤1中相同的预处理过程，得到不包含标签集的文档数据。假定有待分析文档集有三篇文档，对三篇文档采取同样的预处理过程，得到对应的子句词语集：

然后将子句词语集作为数据使用神经网络模型进行分类，得到对应子句的概率，对其所有子句的概率进行Softmax函数处理，得到排名前三的子句作为当前文档的情绪焦点：

其中，x表示模型输出概率值，n表示当前文档的总子句数目，分母表示所有子句的概率的自然底数指数的和。

Softmax之前，各文档子句的概率向量分别为：

文档1：[0.1,0.2,0.9,0.8,0.7,0.4]

文档2：[0.8,0.1,0.4,0.9]

文档3：[0.8,0.1,0.8,0.6,0.1,0.7]

Softmax之后，各文档子句的概率向量分别问：

文档1：[0.0,0.1,0.3,0.3,0.2,0.1]

文档1：[0.4,0.0,0.2,0.4]

文档1：[0.3,0.0,0.3,0.2,0.0,0.2]

然后对所有待分析文档的情绪焦点，采取现有公开的Doc2Vec向量化+Kmeans的聚类方法，将每一个作为情绪焦点的子句进行Doc2Vec的向量化表示，即三篇文档的预处理后形式转化为了向量形式。

最后，采取Kmeans对向量再进行聚类，指定聚类数目，随机初始聚类中心。聚类相似度衡量采取余弦相似度，即：

其中，

表示文档的向量化表示，

表示文档向量的一级范数。对文本向量进行聚类。针对当前实施例，制定聚类数目K＝2，初始聚类中心为x₁,x₄，迭代过程如下：

1)遍历所有子句：

a)如果当前子句存在最近的类别中心且当前子句的所属类别与之不同，则分配为该类别中心，同时更新该类别的中心为该类别所有样本的向量和的平均值；

b)如果当前子句存在最近的类别中心且当前子句的所属类别与之相同，则继续遍历；

2)如果当前聚类与上一次聚类的聚类中心保持一致，或者满足最大迭代次数则停止迭代；

最终类别进一步依照类内样本的关键词进行概括展示。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种社交网络情绪焦点的挖掘方法，其特征在于，包括以下步骤：

步骤1，对语料数据进行数据预处理，包括：分句、分词、过滤，数据预处理中，每一条语料数据，根据汉语句号、逗号、分号、冒号、感叹号、问号以及顿号进行句子切分，形成子句集；对每一条子句进行分词处理，通过常用停用词词表过滤去掉分词中出现的停用词，最终形成的预处理后语料数据格式如下：

X＝[x₀＝[w₀,w₁,…,w_n],…,x_m]

y＝[y₀,…,y_m]

其中，X表示语料中的文本数据集，x_i，0≤i≤m,m+1表示语料的子句数量，x_i表示语料中的第i个子句；如果当前子句为情绪焦点，y_i＝1，否则y_i＝0；

步骤2，构建卷积神经网络(CNN)和长短期记忆(LSTM)平行神经网络模型，并使用步骤1中预处理后的语料数据，训练平行神经网络模型，该平行神经网络模型是将卷积神经网络(CNN)和长短期记忆(LSTM)两个网络的独立输出结果进行向量的相加，再映射到输出层，其中，两个网络的输入层为公开预训练的Word2Vec词向量模型，输出层为一个单元的Sigmoid层：

其中，e表示自然对数的底数，即模型输入对应单次训练样本预处理后的语料数据中一例<x_i,y_i>，模型输出对应当前例是情绪焦点的概率；

其中，x表示模型输出概率值，n1表示当前语料数据的总子句数目，分母表示所有子句的概率的自然底数指数的和，然后取所有待分析语料数据的情绪焦点，采取公开的Doc2Vec+Kmeans算法进行聚类，将每一个作为情绪焦点的子句进行Doc2Vec的向量化表示，采取Kmeans对向量再进行聚类，聚类相似度衡量采取余弦相似度，即：

其中，

表示语料数据的向量化表示，

2.一种社交网络情绪焦点的挖掘系统，其特征在于，包括：

预处理模块：对语料数据进行数据预处理，包括：分句、分词、过滤，数据预处理中，每一条语料数据，根据汉语句号、逗号、分号、冒号、感叹号、问号以及顿号进行句子切分，形成子句集；对每一条子句进行分词处理，通过常用停用词词表过滤去掉分词中出现的停用词，最终形成的预处理后语料数据格式如下：

X＝[x₀＝[w₀,w₁,…,w_n],…,x_m]

y＝[y₀,…,y_m]

模型训练模块：构建卷积神经网络(CNN)和长短期记忆(LSTM)平行神经网络模型，并使用步骤1中预处理后的语料数据，训练平行神经网络模型，该平行神经网络模型是将卷积神经网络(CNN)和长短期记忆(LSTM)两个网络的独立输出结果进行向量的叠加，再映射到输出层，其中，两个网络的输入层为公开预训练的Word2Vec词向量模型，输出层为一个单元的Sigmoid层：

其中，e表示自然对数的底数，即模型输入对应单次训练样本预处理后的语料数据中一例<x_i,y_i>，，模型输出对应当前例是情绪焦点的概率；

其中，

表示语料数据的向量化表示，