CN102831184B

CN102831184B - 根据对社会事件的文字描述来预测社会情感的方法及系统

Info

Publication number: CN102831184B
Application number: CN201210272225.3A
Authority: CN
Inventors: 胡卫明; 王麒深; 吴偶; 祝守宇
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-08-01
Filing date: 2012-08-01
Publication date: 2016-03-02
Anticipated expiration: 2032-08-01
Also published as: CN102831184A

Abstract

本发明公开了一种根据对社会事件的文字描述来预测社会情感的方法及系统，该方法包括构建社会情感语料库；对所述社会情感语料库中的每一个样本进行所述面向情感标签排序的文本特征选择以得到数值型特征向量，建立训练集；构建情感标签序列的概率模型；在情感标签序列上构建标情感签序列损失函数，通过优化该损失函数，得到社会情感预测模型；将描述社会事件的文本输入所述预测模型，得到与该社会事件相对应的情感标签排序，所述情感标签排序表示对该社会事件所预测的社会情感。本发明能够有效地、精确地、自动地预测社会公众对社会事件的情感反应。

Description

根据对社会事件的文字描述来预测社会情感的方法及系统

技术领域

本发明涉及计算机应用技术领域，特别涉及一种根据对社会事件的文字描述来预测社会情感的方法及系统。

背景技术

社会情感是指社会公众对某一社会事件的整体情感倾向性。通过对社会情感的分析，可以明确公众对某事件的情感、态度、立场、意图等主观上的反应，进而了解整个社会的主观态度、情感与立场。

传统的研究集中在从作者角度出发的情感分类上，且主要应用在商品评论和反馈中。其主要是沿用文本倾向性分析的思路和方法，即对主观性文本进行分析和处理，从作者的角度得出其对某个事物(如产品)或事件的态度、观点，并简单概括为赞同(肯定)/反对(否定)或某个单一的情感类别。这种分析或者是基于词语级的，或者基于句子篇章级的，所采用的方法或者是基于语义的情感词相似度计算，或者是基于机器学习的情感的二值分类。前者需要构建并维持一个庞大的情感词典，后者有要求所表达的主题单一、倾向性一致的局限性，而且一般都是将情感笼统的概括为褒、贬。这种情感的简单笼统概括和待分析文本倾向性一致的限制都难以满足现代社会大众情感分析的需要，因为社会情感是指社会公众的整体情感倾向性，而当面对一则社会事件时，不同的人往往会有不同的观点、态度，会有不同的情感反应，很难以某一种情感类别来衡量，更好的研究方案是从大众的角度出发来进行情感挖掘，挖掘结果不应是某个单一的情感类别，而是在多个情感标签上的排序。

发明内容

(一)要解决的技术问题

本发明所要解决的技术问题是提供一种根据对社会事件的文字描述来预测社会情感的方法及系统，以预测社会公众对某一则社会事件的情感倾向。

(二)技术方案

为达到上述目的，本发明提供了一种根据对社会事件的文字描述来预测社会情感的方法，该方法包括如下步骤：

S1、构建社会情感语料库，所述社会情感语料库是指与社会情感相关联的文字语料库，该文字语料库的每个样本包括一段与社会事件相关的文本和与之相对应的情感标签序列，所述情感标签是指社会公众对所述社会事件的情感反应类别；

S2、对所述社会情感语料库中的每一个样本进行所述面向情感标签排序的文本特征选择及文本表示以得到数值型特征向量，建立训练集，所述文本表示是指将非结构化的文本数据表示成计算机能识别与处理的结构化数据，也即将文本数据量化为数值型特征向量的过程；

S3、构建情感标签序列的概率模型，所述概率模型将所述情感标签序列映射到概率空间的概率值；

S4、构建情感签序列损失函数，通过所述的概率模型，在情感标签序列上构建损失函数，该情感标签序列损失函数表征排序模型输出的情感标签序列与真实情感标签序列的差异，通过优化该损失函数，得到社会情感预测模型；

S5、将描述社会事件的文本输入所述社会情感预测模型，得到与该社会事件相对应的情感标签排序，所述情感标签排序表示对该社会事件所预测的社会情感。

为达到上述目的，本发明提供了一种社会情感预测系统，该系统包括：

数据预处理模块，其用于构建社会情感语料库，所述社会情感语料库是指与社会情感相关联的文字语料库，该文字语料库的每个样本包括一段与社会事件相关的文本和与之相对应的情感标签序列，所述情感标签是指社会公众对所述社会事件的情感反应类别；

特征提取模块，该模块与数据预处理模块连接，用于接收预处理后的数据，对所述社会情感语料库中的每一个样本进行所述面向情感标签排序的文本特征选择及文本表示以得到数值型特征向量，建立训练集，所述文本表示是指将非结构化的文本数据表示成计算机能识别与处理的结构化数据，也即将文本数据量化为数值型特征向量的过程；

模型训练模块，该模块与特征提取模块相连，主要功能是构建情感标签序列的概率模型和情感标签序列损失函数，学习出社会情感预测模型，所述概率模型将所述情感标签序列映射到概率空间的概率，所述情感标签序列损失函数表征排序模型输出的情感标签序列与真实情感标签序列的差异。

预测模块，该模块用于将描述社会事件的文本输入所述社会情感预测模型，得到与该社会事件相对应的情感标签排序，所述情感标签排序表示对该社会事件所预测的社会情感。

(三)有益效果

从上述技术方案可以看出，本发明具有以下优点：

1、传统的研究主要集中在从作者角度出发来对主观性文本进行倾向性分析，即研究作者所表达的主观情感倾向；本发明进行的是从公众角度出发的社会情感研究，即预测社会公众对某一社会事件的情感倾向。预测结果不再是笼统的“褒贬”概括或是单一的情感类别，而是在多个情感标签上的排序。

2、本发明提供的面向标签排序的文本特征选择方法，克服了直接利用传统的面向文本分类的特征选择方法的不足，将文档和特征在各个情感标签上的得分信息融入到特征选择中来，提取出具有大众情感代表性的关键词特征。

3、本发明提供的标签序列概率模型，能够将序列空间的任一排序转换为概率空间中相应的概率值，该模型能够有效地衡量一个排序的质量好坏，序列的概率值越大，则该社会情感排序越接近于网络大众对一则网络新闻或网络事件的真实情感反应情况。

4、本发明提供的标签序列损失函数直接测度模型输出的社会情感排序与真实的情感标签排序之间的差异，能最小化整个排序序列的损失，更好地学习序列中的偏好关系，更有效地捕捉情感标签间的序关系。

附图说明

图1为本发明提供的社会情感预测方法的流程图；

图2为一则网络新闻的社会情感投票数据；

图3为本发明提供的社会情感预测系统模块构成图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明从读者、从大众的角度出发来研究人们对所关注的社会生活中的日常事件的情感倾向性。这里提到的所谓“社会生活中的日常事件”是通过网络新闻来反映的。如今，网络已成为一种新型的媒体，各种网络新闻报道能较好地覆盖人们所关注的大事小情，并且网络媒体拥有着庞大的读者群，他们的情感在一定程度上反映了整个社会的情感倾向。本发明以标签排序(LabelRanking)为手段，旨在分析大众对某一社会事件的情感倾向性，以输出一个情感排序。

下面结合图1，详细给出本发明技术方案中所涉及的各个步骤细节问题的说明。

步骤S1：构建社会情感语料库。

在本发明中，所述社会情感语料库是指与社会情感相关联的文字语料库，该文字语料库的每个样本包括一段与社会事件相关的文本和与之相对应的情感标签序列。所述与社会事件相关的文本例如是一段新闻文字。所述情感标签是指社会公众对所述社会事件的情感反应类别，例如“高兴”、“难过”、“愤怒”等，由多个情感标签构成情感标签序列。

根据本发明的一种具体实施方式，在构建社会情感语料库时，将网络新闻文本作为社会情感语料库的文本来源，将与所述网络新闻文字相对应的网民情感反应作为社会情感语料库的情感标签的来源。所述网民情感反应例如是对网络新闻的情感投票数据，通过对投票数据进行处理，可以得到网民对某一网络新闻的情感评分，由此可以作为社会情感语料库的情感标签。

在本发明的一种具体实施例中，使用了一个大型门户网站中社会频道的新闻报道的文本信息和相应的情感投票数据作为社会情感语料库的文字语料和情感标签的来源。在该网站中，一则完整的网络新闻的文字下面设有一个新闻表情版块，分别有“高兴”、“难过”、“感动”、“愤怒”、“搞笑”、“无聊”等6个情感表情图，网民在看了该新闻后，可以根据自己的内心感触点击相应的表情图进行投票。该版块能记录下每个网民的投票，因此在这六个新闻表情上形成一个情感分布，该分布显示了广大网民对该则新闻报道的情感反应。

图2显示了网民对一则新闻报道的情感反应情况。这种来自网络大众的投票信息客观而真实，能有效地反映广大网民的情感倾向。我们对情感投票数据进行归一化处理，得到在每个情感上的得分，并依此得到每个社会事件样本的真实的情感得分序列。

根据本发明的一种具体实施方式，在该步骤S1中，还包括对所述网络新闻文字进行预处理的步骤，以得到所述网络新闻文字的有效信息。所述预处理包括去噪、分词和去停用词等，以去掉噪声，得到有效信息，并以词袋子形式表示。所谓词袋子是指一系列词的集合。下面分别介绍此预处理步骤的具体实施方式。

去噪步骤：

目前从网页上得到的网络新闻包含两部分内容，一部分是我们所需要的，即新闻报道的主体内容和情感标签数据；另一部分则是无关的噪声，例如广告、导航条、版权信息、微博关注等等。在该实施例中，因为所需要的信息(新闻报道主体内容和情感标签数据)分布在两个独立的版块且是各自集中的，因此很容易读取出所需要的新闻报道的主体内容和情感标签数据。

分词与去停用词步骤：

在处理文本数据时，首先要利用计算机把中文文本中的词语，逐一地切分出来，才可能对文本进行进一步的分析。我们采用基于词典和基于统计的无词典相结合的方法对文本进行分词处理将文档中连续的文本(字符序列)分割成词的序列。经过分词后，文本变成了词集，有些词在词集中虽然出现的频率很高，但是对文本挖掘没有实质贡献，因为这些词的主要功能体现在语法结构上，因此要把这样的词去除掉，以降低文档表示的规模和减少对特征信息的干扰。首先，构建一个停用词表，该表中的停用词分为两大类：一类是通用的停用词。通用停用词包括虚词(冠词、连词、介词、助词等)、各种标点符号以及其它在文档中仅仅起到结构作用的词。如“啊”、“吧”、“的”、“了”等等。除此之外，本发明构建的停用词表还包括一类在我们抓取的社会情感语料中所特有的一些词，如“记者”、“本版”、“提要”、“本报讯”等等。这些词在整个文本集中出现频率高但是在单个文本中的出现频率大致相当，对文本区分的贡献也不大，我们也将这些词归并到停用词里。停用词表构建完成后，采用查表法实现停用词的去除，即将停用词表中的词语与文本词集中的词进行匹配，若能在待处理的文本词集中找到停用词表中的词，则将其去掉，否则予以保留。

步骤S2：对所述社会情感语料库中的每一个样本进行面向所述情感标签排序的文本特征选择及文本表示以得到数值型特征向量，建立训练集，所述文本表示是指将非结构化的文本数据表示成计算机能识别与处理的结构化数据，也即将文本数据量化为数值型特征向量的过程。

文本特征的选取是指从文本的内容中抽取出来一些能代表文本内容、对文本识别起作用的特征词。由于社会情感预测不同于一般的模式分类问题，而是一个标签排序问题，在社会情感预测中，每一个样本对应的不是单一的情感类别，而是一个在情感标签集合上的得分分布及由此产生的情感排序，因此，传统的面向文本分类的特征选择方法难以直接利用；本发明提供一种面向标签排序的特征选择方法，充分融入了文档和特征在各个情感标签上的得分信息，提取出更具网络大众情感代表性的关键词特征。具体地，我们以信息增益的特征选择方法为基础，提出特征评估函数如下：

LR - IG = - Σ_{i = 1}^{m} \frac{Σ_{j = 1}^{n} s_{ij}}{n} \log (\frac{Σ_{j = 1}^{n} s_{ij}}{n}) + p (t) Σ_{i = 1}^{m} \frac{Σ_{j = 1}^{n_{t}} s_{ij}}{n_{t}} \log (\frac{Σ_{j = 1}^{n_{t}} s_{ij}}{n_{t}}) + p (\overset{&OverBar;}{t}) Σ_{i = 1}^{m} \frac{Σ_{j = 1}^{n_{\overset{&OverBar;}{t}}} s_{ij}}{n_{\overset{&OverBar;}{t}}} \log (\frac{Σ_{j = 1}^{n_{\overset{&OverBar;}{t}}} s_{ij}}{n_{\overset{&OverBar;}{t}}})

式中，m为情感标签数，n为语料文档总数，s_ij表示样本j在情感i上的得分，p(t)表示语料中包含词条t的文档概率，表示语料中不包含词条t的文档概率，n_t表示语料中包含词条t的文档总数，反之。

在特征选择时，评估函数LR-IG对词袋子中的每个关键词进行评估打分，获取每个词的分数，然后对所有的关键词按照评估分数大小进行排序，选取评分靠前的预定数目的或在设定的阈值之上的词作为特征项。该方法的优点是能将每个文档在各个情感标签上的得分信息融入了进来。

通过上述方法选择出具有大众情感代表性的关键词特征，添加到特征词集中，并依此特征词集对每一个样本进行特征量化以表示成计算机能够识别和处理的结构化数据-特征向量。我们采用VSM(VectorSpaceModel)和基于TF-IDF(TermFrequency-InverseDocumentFrequency)的特征权重计算方法将每个原始样本表示成一个特征向量。

至此，我们获得了用于方法训练的数据集。该数据集中的每个样本对应着一个社会情感标签集合及其在该集合中各个情感上的得分，在该实施例中，社会情感标签集合由“高兴”、“难过”、“感动”、“愤怒”、“搞笑”、“无聊”等六个情感标签组成，情感得分来自于归一化处理的广大网络大众在各个情感标签上的投票数据。

步骤S3：构建情感标签序列的概率模型，所述概率模型将所述情感标签序列映射到概率空间的概率值。

根据本发明的一种实施方式，所述概率模型通过利用训练集中每个样本及在其各个情感标签上的得分情况和情感标签排序情况，将情感标签序列空间的标签排序映射到概率空间的概率值；

该步骤所构建的概率模型是指对一个排序序列进行概率化描述的模型，以表征一个排序的好坏。具体地，本发明提出一种基于Placett-Luce(简记为P-L)模型的标签序列概率模型来计算社会情感排序序列的概率。假定有m个待排序的情感标签，给定一个输入样本，排序模型F能为其在每一个情感标签上设定一个得分，于是得到了一个情感得分序列，即为s＝(s₁，s₂，...，s_m)，s_j是第j个情感标签的得分。令ψ＝(ψ(1)，ψ(2)，...，ψ(m))表示由m个标签构成的任意一个排序，其中ψ(k)是排序ψ中处在位置k上的情感标签。

Ω_m定义为由m个情感标签构成的所有可能的序列空间。任给一个排序ψ∈Ω_m，其在情感得分序列s下的概率计算如下：

P (ψ | s) = Π_{k = 1}^{m} \frac{\exp (s_{ψ (k)})}{\exp (s_{ψ (k)}) + \exp (s_{ψ (k + 1)}) + . . . + \exp (s_{ψ (m)})} - - - (1)

其中s_ψ(k)为在排序ψ中处于位置k上的情感标签的得分，将式(1)称为标签序列概率模型，简记为L-PM模型。

步骤S4、构建标情感签序列损失函数，通过所述的概率模型，在情感标签序列上构建损失函数，该情感标签序列损失函数表征排序模型输出的情感标签序列与真实情感标签序列的差异，通过优化该损失函数，得到社会情感预测模型。

社会情感预测的目的是要学习出一个情感标签排序模型F，该模型能预测一篇新闻报道所激发的网络大众的情感排序，该模型将通过优化一个建立在标签序列上的损失函数来获得。序列损失函数的具体构建过程如下：排序模型F由一系列基本的情感得分函数构成，即F＝{f_l(1)，f_l(2)，...，f_l(m)}。F中的元素与情感标签集合L中的元素一一对应，L＝{l(1)，l(2)，...，l(m)}分别由“高兴”、“难过”、“感动”、“愤怒”、“搞笑”、“无聊”等六个情感标签构成。为方便描述，这里将训练集中的每个样本称为一个在线文档，用xⁱ表示在线文档d_i的特征向量，令X是一个特征向量空间，则函数f_l(j)：X→R给出其与标签l(j)的相关度得分，因此排序模型F能输出文档d_i在情感标签集合L上的一个情感得分序列sⁱ＝(f_l(1)(xⁱ)，f_l(2)(xⁱ)，...，f_l(m)(xⁱ))。同时，在训练样本中，每个在线文档d_i都联系着一个在情感标签集合L上的真实情感得分序列其中，是文档d_i在情感标签l(j)上的情感相关度得分，如前所述，该情感得分来源于网络大众对相应情感标签的投票数据。然后，模型F可以通过优化在训练集上的总损失获得，总损失计算如下：

Σ_{i = 1}^{n} loss (y^{i}, s^{i}) = Σ_{i = 1}^{n} loss ((y_{1}^{i}, . . ., y_{m}^{i}), (f_{l (1)} (x^{i}), . . ., f_{l (m)} (x^{i}))) - - - (2)

其中，loss表示模型预测的标签序列sⁱ与真实的情感标签序列yⁱ之间的差异，本发明称其为标签序列损失函数，式(2)为训练集上的总损失。其中，n为训练集中的样本总数。

具体地，我们使用省略了常数b的线性神经网络模型来建模上面的基本情感得分函数，即f_l(j)(xⁱ)＝<w_l(j)，xⁱ>，其中w_l(j)是要学习的参数向量，<·，·>表示内积。输入一个样本xⁱ，排序模型F输出一个其在情感标签集合L上的情感得分序列，即sⁱ＝(f_l(1)(xⁱ)，f_l(2)(xⁱ)，...，f_l(m)(xⁱ))＝(<w_l(1)，xⁱ>，<w_l(2)，xⁱ>，...，<w_l(m)，xⁱ>)。根据步骤S3中提出的L-PM模型，任给一个排序ψ∈Ω_m，其在模型输出的情感得分序列sⁱ下的概率计算如下：

P (ψ | s^{i}) = P ((ψ (1), ψ (2), . . ., ψ (m)) | (f_{1} (x^{i}), f_{2} (x^{i}), . . ., f_{m} (x^{i})))

= P ((ψ (1), ψ (2), . . ., ψ (m)) | (f_{ψ (1)} (x^{i}), f_{ψ (2)} (x^{i}), . . ., f_{ψ (m)} (x^{i})))

= Π_{k = 1}^{m} \frac{\exp (f_{ψ (k)} (x^{i}))}{\exp (f_{ψ (k)} (x^{i})) + \exp (f_{ψ (k + 1)} (x^{i})) +, . . ., \exp (f_{ψ (m)} (x^{i}))} - - - (3)

= Π_{k=1}^{m} \frac{\exp (< w_{ψ (k)}, x^{i} >)}{\exp (< w_{ψ (k)}, x^{i} >) + \exp (< w_{ψ (k + 1)}, x^{i} >) +, . . ., + \exp (< w_{ψ (m)}, x^{i} >))}

同样地，排序ψ在样本xⁱ所对应的真实的情感得分序列yⁱ下的概率计算如下：

P (ψ | y^{i}) = P ((ψ (1), ψ (2), . . . ψ (m) | y_{1}^{i}, y_{2}^{i}, . . ., y_{m}^{i})))

= P ((ψ (1), ψ (2), . . ., ψ (m)) | (y_{ψ (1)}^{i}, y_{ψ (2)}^{i}, . . ., y_{ψ (m)}^{i})) - - - (4)

{= Π_{k = 1}^{m}} \frac{\exp (y_{ψ (k)}^{i})}{\exp (y_{ψ (k)}^{i}) + \exp (y_{ψ (k + 1)}^{i}) +, . . ., + \exp (y_{ψ (m)}^{i})}

于是在两种得分序列sⁱ和yⁱ下，在序列空间上能够建立两个概率分布。

交叉熵是常用来测度两个概率分布之间差异的机器学习方法，本发明利用交叉熵作为准则来测度模型输出的概率分布与真实的概率分布之间的差异，序列损失函数loss可表达如下：

loss (y^{i}, s^{i}) = - \underset{ψ &Element; Ω_{m}}{Σ} P (ψ | y^{i}) \log (P (ψ | s^{i})) - - - (5)

于是，式(2)中的总损失可计算如下：

Σ_{i = 1}^{n} loss (y^{i}, s^{i}) = Σ_{i = 1}^{n} (- \underset{ψ &Element; Ω_{m}}{Σ} P (ψ | y^{i}) \log (P (ψ | s^{i})))

= - Σ_{i = 1}^{n} \underset{ψ &Element; Ω_{m}}{Σ} (Π_{k = 1}^{m} \frac{\exp (y_{ψ (k)}^{i})}{\exp (y_{ψ (k)}^{i}) + \exp (y_{ψ (k + 1)}^{i}) +, . . ., + \exp (y_{ψ (m)}^{i})} - - - (6)

\times \log (Π_{k = 1}^{m} \frac{\exp (< w_{ψ (k)}, x^{i} >)}{\exp (< w_{ψ (k)}, x^{i} >) + \exp (< w_{ψ (k + 1)}, x^{i} >) +, . . ., + \exp (< w_{ψ (m)}, x^{i} >))}))

通过最小化式(6)的总损失，可获得所求的模型参数{w_l(1)，w_l(2)，...，w_l(m)}。

步骤S5：将描述社会事件的文本输入所述社会情感预测模型，得到与该社会事件相对应的情感标签排序，所述情感标签排序表示对该社会事件所预测的社会情感。

根据本发明的一种优选实施方式，在该步骤S5之前还包括优化情感标签序列损失函数的步骤，得到更新的模型参数。

在该实施例中，采用梯度下降法在训练集上优化步骤S4中构建的标签序列损失函数，获得所求的模型参数{w_l(1)，w_l(2)，...，w_l(m)}。对于一则新的网络新闻或一个网络事件，该概率模型能判定其所激发的社会情感排序情况。

本发明的系统由以下四个模块组构成，如图3所示：

一、数据预处理模块，该模块的主要功能是构建社会情感语料库，所述社会情感语料库是指与社会情感相关联的文字语料库，该文字语料库的每个样本包括一段与社会事件相关的文本和与之相对应的情感标签序列，所述情感标签是指社会公众对所述社会事件的情感反应类别。

该模块接收原始语料，从中抽取出我们需要的有效信息。在一个具体实施方式中，原始语料包括网络新闻文本及相应的情感标签数据；

二、特征提取模块，该模块与数据预处理模块连接，主要功能是接收预处理后的数据，对所述社会情感语料库中的每一个样本进行所述面向情感标签排序的文本特征选择及文本表示以得到数值型特征向量，建立训练集，所述文本表示是指将非结构化的文本数据表示成计算机能识别与处理的结构化数据，也即将文本数据量化为数值型特征向量的过程；

该步骤提取能表征文本语义，利于文本识别的特征词，并将非结构化的文本数据表示成计算机能识别与处理的结构化数据-特征向量；

三、模型训练模块，该模块与特征提取模块相连，主要功能是构建情感标签序列的概率模型和情感标签序列损失函数，学习出社会情感预测模型，所述概率模型将所述情感标签序列映射到概率空间的概率，所述情感标签序列损失函数表征排序模型输出的情感标签序列与真实情感标签序列的差异；

四、预测模块，该模块用于将描述社会事件的文本输入所述社会情感预测模型，得到与该社会事件相对应的情感标签排序，所述情感标签排序表示对该社会事件所预测的社会情感。

根据本发明的一种具体实施方式，对于给定的一则新的新闻报道或一个网络事件，利用学习出的排序模型，预测其所激发的网络大众的情感状况。

所述的数据预处理模块包括：情感标签提取单元，去噪、分词与去停用词单元。其中：情感标签提取单元接收训练语料，用于从训练语料中提取出“高兴”、“难过”、“感动”、“愤怒”、“搞笑”、“无聊”等情感标签及相应情感的投票数据，并对网民在各个情感标签上的投票数据进行归一化处理以得到相应的情感得分。去噪、分词与去停用词单元，在训练阶段，该单元与情感标签提取单元连接；在预测阶段，其直接接收预测语料。该单元首先去除掉训练语料或预测预料中无关的噪声，如广告、导航条、版权信息等等，得到所需要的新闻报道的主体内容；然后将连续的文本信息(字符序列)分割成词的序列，并去除对文本识别没有意义的停用词，以便用词的向量来表示文档。本单元去除的停用词除了通用停用词(主要包括冠词、连词、介词、助词等虚词，各种标点符号以及其他在文档中仅仅起到结构作用的词)外，还包括本发明所用语料中所特有的一些词，如“记者”、“本版”、“提要”、“本报讯”等等。这些词在整个文本集中出现频率高但是在单个文本中的出现频率大致相当，对文本区分贡献也不大，我们也将其作为停用词去除掉。

所述的特征提取模块包括：特征选择单元和特征量化单元。其中：特征选择单元接收预处理后的文本数据，经过数据预处理后，语料中的每一个文档都变成了一个词袋子(BagofWords)，应用面向标签排序的文本特征选择方法从中选择出能更好地表征文本内容，有利于文本识别的词作为特征，并存入特征词集中。特征量化单元连接特征选择单元，用于将非结构化的文本数据表示成计算机能识别和处理的结构化数据，即利用选择好的特征词集，通过TF-IDF(TermFrequency-InverseDocumentFrequency)方法将每一个以词袋子表示的文本量化为一个数值型的特征向量。

所述的模型训练模块包括：排序模型构建单元，标签序列概率模型构建单元，标签序列损失函数的构建及优化单元。其中：排序模型构建单元接收训练样本特征向量，利用线性神经网络模型，在每一个情感标签上构建一个情感得分函数即f_l(j)(xⁱ)＝<w_l(j)，xⁱ>，整个排序模型由一系列基本情感得分函数构成，即F＝{f_l(1)，f_l(2)，...，f_l(m)}＝(<w_l(1)，xⁱ>，<w_l(2)，xⁱ>，...，<w_l(m)，xⁱ>)。标签序列概率模型构建单元用于将序列空间的任一标签排序映射到概率空间的任一概率值，该单元接收排序模型F输出的情感得分序列和样本自身对应的真实情感得分序列，将其分别映射到相应的概率上以在整个概率空间上得到两个概率分布，即模型输出的概率分布和样本对应的真实的概率分布；标签序列损失函数的构建及优化单元用于接收上述两个概率分布，然后利用交叉熵来测度这两个概率分布之间的差异，在每个样本上构建出序列损失函数，该损失函数表征模型输出的标签排序与真实的标签排序之间的差异，通过优化整个训练集上的总损失，得到最终的排序模型。

所述的预测模块利用训练模块学习出的预测模型，根据本发明的一种具体实施例，对于给定的一则新的新闻报道或一个网络事件，预测其所激发的网络大众的情感状况。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种根据对社会事件的文字描述来预测社会情感的方法，其特征在于，该方法包括如下步骤：

S2、对所述社会情感语料库中的每一个样本进行面向所述情感标签排序的文本特征选择及文本表示以得到数值型特征向量，建立训练集，所述文本表示是指将非结构化的文本数据表示成计算机能识别与处理的结构化数据，也即将文本数据量化为数值型特征向量的过程，所述文本特征选择的特征评估函数如下：

L R - I G = - Σ_{i = 1}^{m} \frac{Σ_{j = 1}^{n} s_{i j}}{n} \log (\frac{Σ_{j = 1}^{n} s_{i j}}{n}) + p (t) Σ_{i = 1}^{m} \frac{Σ_{j = 1}^{n_{t}} s_{i j}}{n_{t}} \log (\frac{Σ_{j = 1}^{n_{t}} s_{i j}}{n_{t}}) + p (\overset{&OverBar;}{t}) Σ_{i = 1}^{m} \frac{Σ_{j = 1}^{n_{\overset{&OverBar;}{t}}} s_{i j}}{n_{\overset{&OverBar;}{t}}} \log (\frac{Σ_{j = 1}^{n_{\overset{&OverBar;}{t}}} s_{i j}}{n_{\overset{&OverBar;}{t}}})

，其中，m为情感标签数，n为语料中的文档总数，s_ij表示样本j在情感i上的得分，p(t)表示语料中包含词条t的文档概率，表示语料中不包含词条t的文档概率，n_t表示语料中包含词条t的文档总数，表示语料中不包含词条t的文档总数；在特征选择时，评估函数LR-IG对词袋子中的每个关键词进行评估打分，获取每个词的分数，然后对所有的关键词按照评估分数大小进行排序，选取评分靠前的预定数目的或在设定的阈值之上的词作为特征项；

S3、构建情感标签序列的概率模型，所述概率模型将所述情感标签序列映射到概率空间的概率值，所述概率模型通过利用训练集中每个样本及在其各个情感标签上的得分情况和情感标签排序情况，将情感标签序列空间的标签排序映射到概率空间的概率值，所述概率模型为：

假定有m个待排序的情感标签，给定一个输入样本，社会情感预测模型F能为其在每一个情感标签上设定一个得分，于是得到了一个情感得分序列，即为s＝(s₁,s₂,…,s_m)，s_j是第j个情感标签的得分；令ψ＝(ψ(1),ψ(2),…,ψ(m))表示由m个标签构成的任意一个排序，其中ψ(k)是排序ψ中处在位置k上情感标签；定义Ω_m为由m个情感标签构成的所有可能的序列空间，则任给一个排序ψ∈Ω_m，其在情感得分序列s下的概率计算如下：

P (ψ | s) = Π_{k = 1}^{m} \frac{\exp (s_{ψ (k)})}{\exp (s_{ψ (k)}) + \exp (s_{ψ (k + 1)}) + ... + \exp (s_{ψ (m)})},

其中，s_ψ(k)为在排序ψ中处于位置k上的情感标签的得分；

S4、首先，将训练集中的每个样本称为一个在线文档，用xⁱ表示在线文档d_i的特征向量，令X是一个特征向量空间，则函数f_l(j)：X→R给出其与标签l(j)的相关度得分，因此社会情感预测模型F能输出文档d_i在情感标签集合L上的一个情感得分序列sⁱ＝(f_l(1)(xⁱ),f_l(2)(xⁱ),…,f_l(m)(xⁱ))，同时，在训练样本中，每个在线文档d_i都联系着一个在情感标签集合L上的真实情感得分序列其中，是文档d_i在情感标签l(j)上的情感相关度得分，并使用省略了常数b的线性神经网络模型来建模上面的基本情感得分函数，即f_l(j)(xⁱ)＝<w_l(j),xⁱ>,其中w_l(j)是要学习的参数向量，<·,·>表示内积；输入一个样本xⁱ，社会情感预测模型F输出一个其在情感标签集合L上的情感得分序列，即sⁱ＝(f_l(1)(xⁱ),f_l(2)(xⁱ),…,f_l(m)(xⁱ))＝(<w_l(1),xⁱ>,<w_l(2),xⁱ>,…,<w_l(m),xⁱ>)；对于给定的样本，该社会情感预测模型F输出其在情感标签集合上的得分序列；

其次，利用所述标签序列概率模型将社会情感预测模型F输出的情感得分序列和样本自身对应的真实情感得分序列分别映射到相应的概率上以在整个概率空间上得到两个概率分布，即社会情感预测模型输出的概率分布和样本对应的真实的概率分布；

然后，利用交叉熵来测度上述两个概率分布之间的差异，在每个样本上构建出序列损失函数，该损失函数表征模型输出的标签排序与真实的标签排序之间的差异，通过优化整个训练集上的总损失，得到最终的社会情感预测模型；

2.如权利要求1所述的根据对社会事件的文字描述来预测社会情感的方法，其特征在于，将网络新闻文本作为所述社会情感语料库的文本来源，将与所述网络新闻文本相对应的网民情感反应作为社会情感语料库的情感标签的来源。

3.如权利要求2所述的根据对社会事件的文字描述来预测社会情感的方法，其特征在于，在步骤S1中，还包括对所述网络新闻文本进行预处理的步骤，所述预处理步骤用于得到所述网络新闻文本的有效信息。

4.如权利要求1所述的根据对社会事件的文字描述来预测社会情感的方法，其特征在于，在步骤S5中，还包括采用梯度下降法在训练集上优化步骤S4中构建的情感标签序列损失函数。

5.一种社会情感预测系统，其特征在于，该系统包括：

特征提取模块，该模块与数据预处理模块连接，用于接收预处理后的数据，对所述社会情感语料库中的每一个样本进行面向情感标签排序的文本特征选择及文本表示以得到数值型特征向量，建立训练集，所述文本表示是指将非结构化的文本数据表示成计算机能识别与处理的结构化数据，也即将文本数据量化为数值型特征向量的过程，所述文本特征选择的特征评估函数如下：

L R - I G = - Σ_{i = 1}^{m} \frac{Σ_{j = 1}^{n} s_{i j}}{n} \log (\frac{Σ_{j = 1}^{n} s_{i j}}{n}) + p (t) Σ_{i = 1}^{m} \frac{Σ_{j = 1}^{n_{t}} s_{i j}}{n_{t}} \log (\frac{Σ_{j = 1}^{n_{t}} s_{i j}}{n_{t}}) + p (\overset{&OverBar;}{t}) Σ_{i = 1}^{m} \frac{Σ_{j = 1}^{n_{\overset{&OverBar;}{t}}} s_{i j}}{n_{\overset{&OverBar;}{t}}} \log (\frac{Σ_{j = 1}^{n_{\overset{&OverBar;}{t}}} s_{i j}}{n_{\overset{&OverBar;}{t}}})

模型训练模块，该模块与特征提取模块相连，主要功能是构建情感标签序列的概率模型和情感标签序列损失函数，学习出社会情感预测模型，所述概率模型将所述情感标签序列映射到概率空间的概率，所述情感标签序列损失函数表征社会情感预测模型输出的情感标签序列与真实情感标签序列的差异；

预测模块，该模块用于将描述社会事件的文本输入所述社会情感预测模型，得到与该社会事件相对应的情感标签排序，所述情感标签排序表示对该社会事件所预测的社会情感，其中，

所述的数据预处理模块包括情感标签提取单元，去噪、分词与去停用词单元，所述情感标签提取单元用于从训练语料中提取情感标签及相应情感的投票数据，并对投票数据进行归一化处理以得到情感得分；所述去噪、分词与去停用词单元，用于得到社会事件的描述文本中的有效信息；

所述的模型训练模块包括社会情感预测模型构建单元、标签序列概率模型构建单元、标签序列损失函数的构建及优化单元，其中：社会情感预测模型构建单元接收训练样本向量，利用线性神经网络模型，在每一个情感标签上构建一个情感得分函数，即f_l(j)(xⁱ)＝<w_l(j),xⁱ>，其中w_l(j)是要学习的参数向量，<·,·>表示内积，X是一个特征向量空间，整个社会情感预测模型由一系列基本情感得分函数构成，即F＝{f_l(1),f_l(2),…,f_l(m)}；标签序列概率模型构建单元用于将序列空间的任一标签排序映射到概率空间的一个概率值，即将社会情感预测模型F输出的情感得分序列和样本自身对应的真实情感得分序列分别映射到相应的概率上，以在整个概率空间上便得到了两个概率分布，即模型输出的概率分布和样本对应的真实的概率分布；标签序列损失函数的构建及优化单元用于接收上述两个概率分布，通过利用交叉熵来测度两个概率分布之间的差异，在每个样本上构建出序列损失函数，通过优化整个训练集上的总损失，得到最终的排序模型。

6.根据权利要求5所述的社会情感预测系统，其特征在于，所述的特征提取模块包括特征选择单元和特征量化单元，其中：

特征选择单元接收预处理后的文本数据，应用所述面向情感标签排序的文本特征选择方法从中选择出能更好地表征文本内容，有利于文本识别的词作为特征，并存入特征词集中；

特征量化单元用于将非结构化的文本数据表示成计算机能识别和处理的结构化数据，即利用选择好的特征词集，将以词袋子表示的文本量化为一个数值型特征向量。