CN106055596A

CN106055596A - 一种多标签在线新闻读者情绪预测方法

Info

Publication number: CN106055596A
Application number: CN201610347226.8A
Authority: CN
Inventors: 张莹; 杨志帆; 俞力; 赵雪; 袁晓洁
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2016-05-23
Filing date: 2016-05-23
Publication date: 2016-10-26

Abstract

本发明提出了一种多标签在线新闻读者情绪预测方法。包括：提出将在线新闻文本的读者情绪预测问题作为多标签分类任务，即一篇新闻对应一种或者多种读者情绪；提出一种多标签监督的情绪‑主题模型(ML‑sETM)，利用该模型对新闻文本进行读者情绪分类。本发明提出的方法能够有效预测读者在阅读在线新闻文本内容后可能产生的情绪类别集合。本发明可用于读者情绪分析和舆情监控等领域。

Description

一种多标签在线新闻读者情绪预测方法

技术领域

本发明属于情绪分析领域，具体涉及一种新型的面向新闻文本的读者情绪预测方法。

背景技术

随着互联网的快速发展和Web 2.0时代的到来，以在线新闻、微博、论坛、微信为代表的新一代网络媒体逐渐成为人们获取信息的主要渠道。这些新兴的网络媒体逐渐改变了人们参与互联网的方式，由用户产生的内容(User Generate Content,UGC)开始在互联网中占据越来越重要的地位。在线新闻服务作为主要的网络信息载体，其内容和形式也不断创新，开始允许用户通过情绪投票服务直接抒发自己对新闻事件的情绪，如感动、同情、愤怒和难过等。这些用户情绪信息不但可以辅助在线新闻提供商更好地了解用户偏好，为用户提供更好的个性化服务。同时，有助于分析大众对新闻事件的态度和情绪变化，有效实现网络舆情监控，维护健康的网络环境和社会的稳定发展。因此，如何对用户的情绪进行预测具有重要的理论意义和应用价值。

传统的情绪预测研究工作往往集中在对文本作者的情绪进行预测，而针对文本读者的情绪预测研究工作还比较少。读者情绪预测研究的目标是预测读者在阅读文本后所产生的情绪，已有研究证明读者的情绪与作者的情绪并不总是一致的。且已有的读者情绪预测研究往往将其作为一个单标签分类任务，即认为一篇新闻只会使读者产生一种情绪。这明显与人类直觉和大规模读者情绪统计结果不符，不同读者对同一篇新闻产生的情绪往往是不同的。

发明内容

本发明的目的是解决如何准确预测读者在阅读新闻后可能产生情绪的问题，针对现有情绪预测方法直接应用到面向新闻文本的读者情绪预测问题上时凸显的不足，以知名在线新闻网站新浪新闻为代表性研究对象，提供一种专门面向在线新闻的，对读者在阅读新闻文本后可能产生的情绪进行预测的方法。

本发明针对现有技术的问题，创新性地在传统LDA主题模型的基础上，提出了一种多标签监督的情绪-主题模型(ML-sETM)，增加一层表示读者情绪的情绪层，并利用读者情绪反馈信息对模型进行监督。最终本发明能够有效利用文本语义信息，更加准确地预测读者情绪。

本发明提出的面向新闻文本的多标签在线新闻读者情绪预测方法，包括如下步骤：

第1、对在线新闻文本的读者情绪预测问题进行形式化描述

定义1：在线新闻文本集合，用符号D表示：

D＝{d⁽¹⁾,d⁽²⁾,…,d^(N)} (1-1)

其中，d⁽ⁱ⁾表示新闻文本，N为在线新闻文本数；

定义2：读者情绪标签集合，用符号E表示：

E＝{e₁,e₂,…,e_M} (1-2)

其中，e_i表示读者的某一种情绪标签，M为语料库中情绪标签数；

定义3：读者在阅读新闻文本d⁽ⁱ⁾后会产生某一种或者某几种情绪，且不同的读者对同一新闻文本d⁽ⁱ⁾可能会产生不同的情绪，这些情绪标签组合在一起构成了一个情绪标签子集合Y_i，其中

定义4：向量为在线新闻文本d⁽ⁱ⁾∈D的特征构成的特征向量：

x^{(i)} = {x_{1}^{(i)}, x_{2}^{(i)}, ..., x_{n}^{(i)}} - - - (1 - 3)

其中表示新闻文本d⁽ⁱ⁾的第j个特征；

定义5：向量μ⁽ⁱ⁾为对应的新闻文本d⁽ⁱ⁾∈D的情绪标签标注，用来表示读者在阅读新闻后可能产生的所有情绪：

μ^{(i)} = {μ_{1}^{(i)}, μ_{2}^{(i)}, ..., μ_{M}^{(i)}} - - - (1 - 4)

如果新闻文本d⁽ⁱ⁾标注的情绪标签子集合为则μ⁽ⁱ⁾中的项k∈1,2,…,M可表示为

μ_{k}^{(i)} = \{\begin{matrix} 1, & e_{k} &Element; Y_{i} \\ 0, & e_{k} &NotElement; Y_{i} \end{matrix} - - - (1 - 5)

定义6：由新闻文本的特征向量和相应的情绪标注的N个向量组成的标注数据集T，用于读者情绪预测模型训练，可表示为：

T＝{(x⁽¹⁾,μ⁽¹⁾),(x⁽²⁾,μ⁽²⁾),…,(x^(N),μ^(N))} (1-6)

其中，x⁽ⁱ⁾表示新闻文本d⁽ⁱ⁾的特征向量，μ⁽ⁱ⁾表示新闻文本d⁽ⁱ⁾的情绪标签标注；

定义7：语料库中的所有新闻文本，关于预定义的情绪标签集合中各情绪的概率分布，用符号δ表示；

定义8：对于情绪标签集合中的所有情绪标签，关于语料库中隐含主题集合中的各个主题，构成情绪-主题分布，用符号θ表示；

定义9：对于主题集合中的所有主题，关于语料库中的所有词，构成主题-词分布，用符号表示；

第2、构建多标签监督的情绪-主题模型ML-sETM

定义10：多标签监督的情绪-主题模型ML-sETM：对LDA主题模型(LatentDirichlet Allocation Topic Model)进行扩展：从“文档-主题-词”三层贝叶斯结构扩展为“文档-情绪-主题-词”四层贝叶斯结构，同时将其扩展为监督的主题模型。

第2.1、对于情绪标签集合中的每个情绪标签e_m∈E，其中m∈{1,2,…,M}，从先验参数为α的狄利克雷分布中得到相应的情绪-主题分布θ_m＝{θ_m,1,θ_m,2,…,θ_m,K}^T，其中K为语料库中隐含主题的数目；

第2.2、对于隐含主题集合中的每个主题t(t∈1,2,…,K)，从先验参数为β的狄利克雷分布中得到相应的主题-词分布其中V为语料库中特征词的数目；

第2.3、对于语料库中的每一篇新闻文本d⁽ⁱ⁾，根据其标注向量μ⁽ⁱ⁾和先验参数γ，得到新闻文本d⁽ⁱ⁾属于各个情绪标签的概率分布δ'_d＝δ_d×μ⁽ⁱ⁾，其中δ_d＝{δ_d,1,δ_d,2,…,δ_d,M}^T为从先验参数为γ的狄利克雷分布中得到的文档-情绪分布；

第2.4、利用Gibbs采样方法，计算情绪-主题模型对训练数据的情绪-主题分布θ和主题-词分布

第2.4.1、对于语料库中的每一个单词w_i，随机初始化情绪标签e∈{e₁,e₂,…,e_M}和主题t∈{t₁,t₂,…,t_K}；

第2.4.2、根据计算得到情绪标签e、主题t的后验概率分布，为语料库中的每个词重新分配情绪标签和主题。其中词w_i属于各情绪标签、主题的概率的计算方法如下公式：

P E (e) = \frac{α + n_{e, z_{i}}^{- i}}{K α + Σ_{k} n_{e, z_{i}}^{- i}} \times \frac{γ + n_{d, e}}{M γ + Σ_{e} N_{d, e}^{- i}} \times μ^{(d_{i})}, P T (t) = \frac{α + n_{ϵ_{i}, t}^{- i}}{K α + Σ_{z^{'}} n_{ϵ_{i}, z^{'}}^{- i}} \times \frac{β + n_{t, w_{i}}^{- i}}{|W| β + Σ_{w} n_{t, w}^{- i}}

其中，表示整个语料库中除去当前词w_i后主题z被分配给情绪标签e的次数；表示整个语料库中除去当前词w_i后词w_i被分配给主题t的次数；表示文档d中被分配给情绪标签e的词的数目。|W|为语料库中词的数目，K为语料库中隐含主题的数目，M为语料库中情绪标签数。

第2.4.3、将第2.4.2步重复I次直至收敛，可认为接近真实的分布。对迭代后的结果进行频次统计，计算得到整个语料库的情绪-主题分布和主题-词分布计算方法如下公式：

其中，n_e,z,·表示整个语料库中主题z被分配给情绪标签e的次数；n_·,z,w表示整个语料库中词w_i被分配给主题t的次数。

第3、对于未知读者情绪标签的新闻文本d^(N+1)，利用第2.4步得到的情绪-主题分布和主题-词分布采用Gibbs采样方法得到文档属于各个情绪标签的概率δ；

第3.1、对于新闻文本d^(N+1)中的每一个单词w_i，随机初始化情绪标签e∈{e₁,e₂,…,e_M}和主题t∈{t₁,t₂,…,t_K}；

第3.2、利用Gibbs采样方法为新闻文本d^(N+1)中每个词重新分配情绪标签和主题。词w_i属于各情绪标签、主题的概率的计算方法如下公式：

其中，N_d,e为文档d中词被分配给情绪标签e的次数，为第2步训练后的情绪-主题模型得到的主题z属于情绪标签e的概率，为已训练模型得到的词w属于主题z的概率；

第3.3、将第3.2步重复I次直至收敛，可认为接近真实的分布。对迭代后的结果进行频次统计，得到文档关于各情绪标签的概率分布δ，计算方法如下公式：

δ_{d, e} = \frac{γ + N_{d, e}}{M γ + Σ_{e} N_{d, e}}

第3.4、根据第3.3步计算得到的未知文档关于情绪标签的概率分布δ，采用基于阈值的方法得到新闻文本所属的情绪标签集合。其计算方法如下：

y_{k}^{(i)} = \{\begin{matrix} 1, & \frac{δ_{d, e}}{m a x (δ_{d, 1}, ..., δ_{d, M})} &GreaterEqual; p \\ 0, & \frac{δ_{d, e}}{m a x (δ_{d, 1}, ..., δ_{d, M})} < p \end{matrix}

其中，p为预先定义的阈值，δ_d,e为未知新闻文本属于情绪标签e的概率。

本发明的优点和积极效果：

本发明提出的面向在线新闻文本的读者情绪预测方法，能够有效解决传统情绪预测方法仅能预测单一情绪的不足；同时本发明提出的多标签监督的情绪-主题模型，能够有效利用文本语义信息，挖掘读者情绪与新闻“主题”之间的联系，与传统模型相比，能够更加准确地预测读者在阅读新闻文本后可能产生的情绪。

附图说明

图1为本发明提出的多标签在线新闻读者情绪预测方法的过程示意图

图2为本发明提出的多标签在线新闻读者情绪预测方法的整体流程。

图3为多标签监督的情绪-主题模型(ML-sETM)。

图4为现有单标签分类算法与本发明方法在读者情绪预测问题上的性能比较结果。

图5为现有多标签分类算法与本发明方法在读者情绪预测问题上的性能比较结果。

图6为一篇新的未知读者情绪的新闻文本。

图7为新闻数据集中排名前10的情感标签。

具体实施方式

本发明提出了一种多标签在线新闻读者情绪预测方法

方法整体流程如图2所示，首先根据训练数据集中的情感知识训练模型，实验的数据集来自新浪新闻社会频道抓取的从2011年1月到2011年6月4654篇热点新闻，读者情绪投票总数为1221458，平均每篇新闻的用户情绪投票数目为262，为实验提供了充足的情感数据。

图7为新闻数据集中排名前10的情感标签集合，证明了多标签情感分析的必要性。

首先采用Gibbs采样训练整个数据集T，估计参数，最后得到三个参数，文档-情绪分布δ、情绪-主题分布θ、主题-词分布由于三个参数都是矩阵，这里就不再具体展开，具体算法如下：

算法1Gibbs采样参数估计算法

1)初始化后验概率θ＝0、δ＝0；

2)将随机变量θ、δ对应的先验参数α、β、γ初始化为常数，即α＝a、β＝b、γ＝r；

3)为文档中每个词随机分配情绪标签和主题，得到初始的分布变量，y和z；

4)计算情绪标签和主题的后验概率，计算公式如下：

\begin{matrix} P (ϵ_{i} = ξ | ϵ_{- i}, z, w; α, β, γ) &Proportional; P (ϵ_{i} = ξ, ϵ_{- i}, z, w; α, β, γ) \\ = Π_{e = 1}^{M} \frac{Γ (K α)}{Γ {(α)}^{K}} \frac{Π_{w = 1}^{| W |} Γ (α + n_{e, t, \cdot})}{Γ (K α + Σ_{w} n_{e, t, \cdot})} \times Π_{t = 1}^{K} \frac{Γ (| W | β)}{Γ {(β)}^{| W |}} \frac{Π_{w = 1}^{| W |} Γ (β + n_{\cdot, t, w})}{Γ (| W | β + Σ_{w} n_{\cdot, t, w})} \times μ^{(d_{i})} \\ &Proportional; \frac{α + n_{ξ, z, \cdot}^{- i}}{K α + Σ_{k} n_{ξ, k, \cdot}^{- i}} \times \frac{γ + N_{d, ξ}^{- i}}{M γ + Σ_{e} N_{d, e}^{- i}} \times μ^{(d_{i})} \end{matrix}

P (z_{i} = z | z_{- i}, ϵ, w; α, β, γ) &Proportional; \frac{α + n_{ϵ_{i}, z, \cdot}^{- i}}{K α + Σ_{z^{'}} n_{ϵ_{i}, z^{'}, \cdot}^{- i}} \times \frac{β + n_{\cdot, z, w_{i}}^{- i}}{| W | β + Σ_{w} n_{\cdot, z, w}^{- i}}

其中，K表示语料库中隐含主题的数目，M表示语料库中情绪标签数目，W表示语料库中词的总数；n_e，t，.表示不包含当前词下语料库中主题t分配给情绪标签ε的数目；表示不包含当前词下文档中的词被分配给情绪标签ε的数目；表示当前文档的情绪标注结果，表示为M维的向量，每一维为0或者1，分别表示文档不属于或者属于该维对应的情绪标签；表示不包含当前词下语料库中词w分配给主题t的数目；

5)根据步骤4)计算得到的后验概率值，为语料库中所有词重新分配情绪标签和主题；

6)将步骤5)迭代I次，可认为文档中所有词的情绪标签、主题分配结果已接近真实分布。对迭代后的结果进行频次统计，得到得到整个语料库的情绪-主题分布和主题-词分布计算方法如下公式：

{\hat{θ}}_{e, z} = \frac{α + n_{e, z, \cdot}}{K α + Σ_{k} n_{e, k, \cdot}},

其中，n_e,z,·表示整个语料库中主题z被分配给情绪标签e的次数；n_·,z,w表示整个语料库中词w_i被分配给主题t的次数；

7)结束。

图6为新的未知读者情绪的新闻文本(IT小伙半夜疑猝死专家称猝死年轻化趋势明显)，我们需要利用训练得到的多标签监督的情绪-主题模型，将其分类到相应的情绪类别集合中。这里的文本类别是指对应的读者情绪，如高兴、震惊、难过、感动等。图3为本发明提出的多标签监督的情绪-主题模型(ML-sETM)的模型图。其主要包括的核心思想：在LDA主题模型的基础上增加一层读者情绪层，认为文档是若干情绪的混合分布，而每种情绪又是一个关于主题的混合分布，每个主题又是一个关于单词的概率分布。该多标签监督的情绪-主题模型可以看作是文档的一种生成模型：文档的生成就是基于主题模型的一个简单概率过程。当生成一个新的文档时，首先得到一个关于情绪的分布，对于该文档中的每一个单词，先通过情绪的分布随机得到某个情绪，接着通过该情绪对应的主题分布随机得到一个主题，最后通过该主题对应的单词分布随机得到一个具体的词。最终，每个单词都被分配一个情绪和主题，通过这种方式将新闻文本主题与读者情绪联系起来，利用情绪-主题模型能够有效挖掘文本语义的特点，提高模型的读者情绪预测能力。

算法2情绪预测算法

1)对于未知文本中的每一个单词w_i，随机初始化情绪标签e∈{e₁,e₂,…,e_M}和主题t∈{t₁,t₂,…,t_K}；

2)利用Gibbs采样方法为d^(N+1)中每个词重新分配情绪标签和主题。词w_i属于各情绪标签、主题的概率的计算方法如下公式：

P E (e) = {\hat{θ}}_{e, z} \times \frac{γ + N_{d, e}}{M γ + Σ_{e} N_{d, e}^{- i}},

N_d,e为文档d中词被分配给情绪标签e的次数，为已训练模型得到的主题z属于情绪标签e的概率，为已训练模型得到的词w属于主题z的概率；

3)将步骤(2)重复I次直至收敛，可认为接近真实的分布。对迭代后的结果进行频次统计，得到文档关于各情绪标签的概率分布δ，计算方法如下公式：

δ_{d, e} = \frac{γ + N_{d, e}}{M γ + Σ_{e} N_{d, e}}

4)根据步骤(3)计算得到的未知文档关于情绪标签的概率分布δ，采用基于阈值的方法得到新闻所属的情绪标签集合。其计算方法如下：

y_{k}^{(i)} = \{\begin{matrix} 1, & \frac{δ_{d, e}}{m a x (δ_{d, 1}, ..., δ_{d, M})} &GreaterEqual; p \\ 0, & \frac{δ_{d, e}}{m a x (δ_{d, 1}, ..., δ_{d, M})} < p \end{matrix}

5)结束。

对于图6的新闻文本(IT小伙半夜疑猝死专家称猝死年轻化趋势明显)，经过上述的算法2进行预测，最后得到一系列的情绪标签的概率。

{5.0％，33.7％，13.1％，9.9％，0.6％，27.9％，10.7％，4.1％}；

根据经验我们选择阈值p的值为0.8，根据步骤(4)的计算，我们发现只有同情和难过这两个情绪在阈值范围内。

另一方面，我们查看读者的情感投票，八种情感的读者投票分别为：

{0，212，32，11，0，191，10，20}；

根据步骤(4)的计算，我们发现同样只有两种情感在阈值范围中，同情和难过，和预测的结果不谋而合。

然而，一条新闻的预测准确不能证明我们模型的准确性和高效性，我们需要通过大量的数据来证明，同时还需要对比最新的情感分析的多标签算法。

实验从多标签分类领域常用的Hamming-Loss、subsetAcc、One-error和F-Measure四个指标来评测，其中Hamming-Loss通过计算模型预测出的标签集合与真实标注的标签集合之间的差距来度量多标签分类器的性能，One-error衡量的是排名第一的标签不包含在标签集合中的概率，这两个指标越小表示结果越好；subsetAcc可以反应预测的标签集合与实际的标签集合完全相同所占的比例，F-Measure是对查全率和查准率的一种权衡，这两个指标越大表示结果越好。

试验中用来对比的方法是修改后的多元逻辑回归算法MLR、多标签分类领域经典的BR算法、MLkNN算法、RAkEL算法、CLR算法，对于BR、CLR和RAkEL三种算法的基础二分类器均选择在文本分类问题中表现效果比较好的SVM算法，RAkEL中和MLkNN中的参数k都设置为3(实验证明k＝3时效果最好)。

图4为本发明提出的多标签监督的情绪-主题模型与多元逻辑斯谛回归模型MLR的性能比较结果。可以看出，本发明提出的ML-sETM模型在所有的评测指标上，均明显优于多元逻辑斯谛回归模型。

图5为本发明提出的方法与传统多标签分类方法性能比较结果。可以看出，本文提出的多标签监督的情绪主题模型ML-sETM在全部评价指标上表现效果均最优，从而验证了本文提出的ML-sETM模型能够更加准确地将新闻文本分类到读者可能产生的情绪类别集合中。

Claims

1.一种多标签在线新闻读者情绪预测方法，该方法包括如下步骤：

第1、对在线新闻文本的读者情绪预测问题进行形式化描述

定义1：在线新闻文本集合，用符号D表示：

D＝{d⁽¹⁾,d⁽²⁾,…,d^(N)} (1-1)

其中，d⁽ⁱ⁾表示新闻文本，N为在线新闻文本数；

定义2：读者情绪标签集合，用符号E表示：

E＝{e₁,e₂,…,e_M} (1-2)

定义3：读者在阅读新闻文本d⁽ⁱ⁾后会产生某一种或者某几种情绪，且不同的读者对同一新闻文本d⁽ⁱ⁾会产生不同的情绪，这些情绪标签组合在一起构成了一个情绪标签子集合Y_i，其中

x^{(i)} = {x_{1}^{(i)}, x_{2}^{(i)}, ..., x_{n}^{(i)}} - - - (1 - 3)

其中表示新闻文本d⁽ⁱ⁾的第j个特征；

μ^{(i)} = {μ_{1}^{(i)}, μ_{2}^{(i)}, ..., μ_{M}^{(i)}} - - - (1 - 4)

如果新闻文本d⁽ⁱ⁾标注的情绪标签子集合为则μ⁽ⁱ⁾中的项可表示为

μ_{k}^{(i)} = {\begin{matrix} 1, & e_{k} &Element; Y_{i} \\ 0, & e_{k} &NotElement; Y_{i} \end{matrix} - - - (1 - 5)

T＝{(x⁽¹⁾,μ⁽¹⁾),(x⁽²⁾,μ⁽²⁾),…,(x^(N),μ^(N))} (1-6)

第2、构建多标签监督的情绪-主题模型ML-sETM

定义10：多标签监督的情绪-主题模型ML-sETM：对LDA主题模型(Latent DirichletAllocation Topic Model)进行扩展：从“文档-主题-词”三层贝叶斯结构扩展为“文档-情绪-主题-词”四层贝叶斯结构，同时将其扩展为监督的主题模型；

第2.2、对于隐含主题集合中的每个主题t，其中t∈{1,2,…,K}，从先验参数为β的狄利克雷分布中得到相应的主题-词分布其中V为语料库中特征词的数目；

第2.4.2、根据计算得到的情绪标签、主题的后验概率分布，为语料库中的每个词重新分配情绪标签和主题，其中词w_i属于各情绪标签、主题的概率的计算方法如下公式：

P E (e) = \frac{α + n_{e, z_{i}}^{- i}}{K α + Σ_{k} n_{e, z_{i}}^{- i}} \times \frac{γ + n_{d, e}}{M γ + Σ_{e} N_{d, e}^{- i}} \times μ^{(d_{i})}, P T (t) = \frac{α + n_{ϵ_{i}, t}^{- i}}{K α + Σ_{z^{'}} n_{ϵ_{i}, t}^{- i}} \times \frac{β + n_{t, w_{i}}^{- i}}{| W | β + Σ_{w} n_{t, w}^{- i}}

其中，表示整个语料库中除去当前词w_i后主题z被分配给情绪标签e的次数；表示整个语料库中除去当前词w_i后词w_i被分配给主题t的次数；表示文档d中被分配给情绪标签e的词的数目；|W|为语料库中词的数目，K为语料库中隐含主题的数目，M为语料库中情绪标签数；

第2.4.3、将第2.4.2步重复I次直至收敛，认为接近真实的分布；对迭代后的结果进行频次统计，计算得到整个语料库的情绪-主题分布和主题-词分布计算方法如下公式：

第3.2、利用Gibbs采样方法为新闻文本d^(N+1)中每个词重新分配情绪标签和主题；词w_i属于各情绪标签、主题的概率的计算方法如下公式：

第3.3、将第3.2步重复I次直至收敛，认为接近真实的分布；对迭代后的结果进行频次统计，得到文档关于各情绪标签的概率分布δ，计算方法如下公式：

δ_{d, e} = \frac{γ + N_{d, e}}{M γ + Σ_{e} N_{d, e}}

第3.4、根据第3.3步计算得到的未知文档关于情绪的概率分布δ，采用基于阈值的方法得到新闻文本所属的情绪标签集合，其计算方法如下：

y_{k}^{(i)} = \{\begin{matrix} 1, & \frac{δ_{d, e}}{m a x (δ_{d, 1}, ..., δ_{d, M})} &GreaterEqual; p \\ 0, & \frac{δ_{d, e}}{m a x (δ_{d, 1}, ..., δ_{d, M})} < p \end{matrix}