CN105205043A

CN105205043A - 一种新闻读者情绪的分类方法与系统

Info

Publication number: CN105205043A
Application number: CN201510530778.8A
Authority: CN
Inventors: 陈敬; 李寿山; 周国栋
Original assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Current assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date: 2015-08-26
Filing date: 2015-08-26
Publication date: 2015-12-30

Abstract

本发明公开了一种新闻读者情绪的分类方法与系统，从目标语料中获取新闻文本和评论文本，及其词特征信息，将词特征信息进行融合并转换为最大熵模型对应格式的可用语料；将可用语料按预设规则分为训练语料与测试语料，并将训练语料分为已标注样本与未标注样本；将已标注样本进行训练得到最大熵模型，利用所述最大熵模型对未标注样本进行情绪类别的分类，得到未标注样本对应各情绪类别的后验概率，将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注，成为新的已标注样本，并更新当前的已标注样本与未标注样本；循环上步直至全部的未标注样本均进行过标注。可以在标注语料规模较小时高效地对新闻读者情绪进行分类。

Description

一种新闻读者情绪的分类方法与系统

技术领域

本发明涉及信息分类领域，特别是涉及一种新闻读者情绪的分类方法与系统。

背景技术

Web技术的快速发展，促进互联网不断向“交互式互联网”转变，渐渐成为社会各种信息的重要载体。随着各种社交平台的兴起，网络上用户的生成内容越来越多，产生了大量的文本信息，如新闻、微博、博客等。面对如此庞大且富有情绪表达的文本信息，完全可以考虑通过探索它们的潜在价值为人们服务。为了处理和分析这些信息资源，情绪分析成为目前计算语言学领域中的一项基本的热点研究任务。此处，情绪具体是指与各种感觉、思维和行为等相关的主观心理感受和客观生理反应，例如高兴、生气、悲伤等。情绪可以分为两类：作者情绪(作者在写作文本时所表达的情绪)和读者情绪(读者看完文本后所产生的情绪)。目前情绪分析任务在语音、视频、图像中的情绪识别和情绪模拟研究已经取得了不错的成果，而针对我们日常生活中主要的交流媒介之一的文本，情绪分析尚未取得充分的研究。

研究文本的情绪有助于分析和研究情绪产生的机制，帮助人们了解自身的情绪状态。而且由于人的态度往往与人的情绪是紧密相关的，因此可以通过研究人的情绪帮助分析人们对事或物的态度、观点和看法。

先前的研究工作大多数都是基于全监督的学习方法，基于全监督的学习方法的前提是有足够大规模的已标注语料，然而获取大规模语料是一件费时耗力的工作，在小规模标注样本时很难提高新闻读者情绪分类性能。

发明内容

有鉴于此，本发明的主要目的在于提供一种新闻读者情绪的分类方法与系统，可以在标注语料规模较小时准确高效地对新闻读者情绪进行分类。

为实现上述目的，本发明提供了一种新闻读者情绪的分类方法，包括：

步骤A：从目标语料中获取新闻文本和评论文本，并获取所述新闻文本以及所述评论文本的词特征信息，将所述新闻文本以及所述评论文本的所述词特征信息进行融合；

步骤B：将进行融合后的词特征信息转换为最大熵模型对应格式的可用语料；

步骤C：将所述可用语料按预设规则分为训练语料与测试语料，并将所述训练语料分为已标注样本与未标注样本；

步骤D：将已标注样本进行训练得到最大熵模型，利用所述最大熵模型对所述未标注样本进行情绪类别的分类，得到所述未标注样本对应各情绪类别的后验概率，将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注，成为新的已标注样本，并更新当前的已标注样本与未标注样本；

步骤E：循环步骤D直至全部的所述未标注样本均进行过情绪类别标注。

优选地，从目标语料中获取新闻文本和评论文本与获取所述新闻文本以及所述评论文本的词特征信息之间还包括：使用ICTCLAS工具对所述新闻文本与所述评论文本进行分词。

优选地，将所述新闻文本以及所述评论文本的所述词特征信息进行融合时，利用预设符号区别所述新闻文本的词特征与所述评论文本的词特征。

优选地，后验概率不确定度为后验概率接近概率为0.5的程度。

优选地，步骤D中将已标注样本进行训练得到最大熵模型之后还包括：

利用所述最大熵模型对所述测试语料进行情绪类别的分类。

优选地，将所述可用语料按预设规则分为训练语料与测试语料包括：

抽取所述可用语料的80％作为训练语料，将所述可用语料其余的20％作为测试语料。

本发明还提供了一种新闻读者情绪的分类系统，包括：

词特征信息融合模块、语料格式转换模块、语料分类模块、样本更新模块和标注验证模块；

所述词特征信息融合模块用于从目标语料中获取新闻文本和评论文本，并获取所述新闻文本以及所述评论文本的词特征信息，将所述新闻文本以及所述评论文本的所述词特征信息进行融合；

所述语料格式转换模块用于将进行融合后的词特征信息转换为最大熵模型对应格式的可用语料；

所述语料分类模块用于将所述可用语料按预设规则分为训练语料与测试语料，并将所述训练语料分为已标注样本与未标注样本；

所述样本更新模块用于将已标注样本进行训练得到最大熵模型，利用所述最大熵模型对所述未标注样本进行情绪类别的分类，得到所述未标注样本对应各情绪类别的后验概率，将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注，成为新的已标注样本，并更新当前的已标注样本与未标注样本；

所述标注验证模块用于循环执行所述样本更新模块的任务直至全部的所述未标注样本均进行过情绪类别标注。

应用本发明提供的一种新闻读者情绪的分类方法与系统，从目标语料中获取新闻文本和评论文本，并获取所述新闻文本以及所述评论文本的词特征信息，将所述新闻文本以及所述评论文本的所述词特征信息进行融合；将进行融合后的词特征信息转换为最大熵模型对应格式的可用语料；将所述可用语料按预设规则分为训练语料与测试语料，并将所述训练语料分为已标注样本与未标注样本；将已标注样本进行训练得到最大熵模型，利用所述最大熵模型对所述未标注样本进行情绪类别的分类，得到所述未标注样本对应各情绪类别的后验概率，将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注，成为新的已标注样本，并更新当前的已标注样本与未标注样本；循环上述步骤直至全部的所述未标注样本均进行过情绪类别标注。对新闻文本和评论文本的词特性融合，利用最大熵模型对情绪类别进行分类，依次将最不确定情绪类别的样本进行标注，可以在标注语料规模较小时准确高效地对新闻读者情绪进行分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明一种新闻读者情绪的分类方法实施例一的流程图；

图2为本发明一种新闻读者情绪的分类方法实施例一的实验效果图；

图3为本发明一种新闻读者情绪的分类系统实施例二的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

本实施例提供了一种新闻读者情绪的分类方法，图1示出了本实施例的流程图，包括：

步骤S101：从目标语料中获取新闻文本和评论文本，并获取所述新闻文本以及所述评论文本的词特征信息，将所述新闻文本以及所述评论文本的所述词特征信息进行融合；

获取新闻文本与评论文本，新闻文本与评论文本一一对应。获取新闻文本以及评论文本的词特征信息时，由于句子中词语词之间没有明显的分词信息，所以需要对文本进行分词，可使用ICTCLAS分词工具对其进行分词。将新闻文本与评论文本的词特征信息融合时为了区别融合特征中的新闻文本特征与评论文本特征，可使用预设符号加在其中一种类型的特征后，例如在评论文本特征后加_*以区分：

新闻文本：今天的日本地震很可能是2011年大地震的余震。…

评论文本：我希望一切都能好，真的好难过，我依旧无法忘记去年的场景。我的岳父岳母经历了这次地震，多么痛苦啊。

新闻文本特征：今天、的、日本、地震、很、可能、是、2011年、大、地震、的、余震、。、…、

评论文本特征：我、希望、一切、都、能、好、，、真、的、好、难过、,、我、依旧、无法........

融合特征：今天、的、日本、地震、很、可能、是、2011年、大、地震、的、余震、。、…、我_*、希望_*、一切_*、都_*、能_*、好_*、,_*、真_*、的_*、好_*、难过_*、,_*、我_*、依旧_*、无法_*........

步骤S102：将进行融合后的词特征信息转换为最大熵模型对应格式的可用语料；

可用语料的格式需严格按照最大熵模型要求的格式，即每类特征占一列。最大熵模型已经成为近年来自然语言处理领域最成功的机器学习方法。最大熵分类方法是基于最大熵信息理论的，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是说，要找到一种概率分布，满足所有已知的事实，但是让未知的因素最随机化。该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。

在最大熵模型下，预测条件概率P(c|D)的公式如下：

P (c_{i} | D) = \frac{1}{Z (D)} \exp (\underset{k}{Σ} λ_{k, c} F_{k, c} (D, c_{i}))

其中Z(D)是归一化因子。F_k,c是特征函数，定义为：

F_{k, c} (D, c^{'}) = \{\begin{matrix} 1, & n_{k} (d) > 0 a n d c^{'} = c \\ 0, & o t h e r w i s e \end{matrix}

目前，最大熵概率模型的优势主要有以下两点：

首先，最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型；

其次，最大熵统计模型可以灵活地设置约束条件，通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度；再次，它还能自然地解决了统计模型中参数平滑的问题。

步骤S103：将所述可用语料按预设规则分为训练语料与测试语料，并将所述训练语料分为已标注样本与未标注样本；

将所述可用语料按预设规则分为训练语料与测试语料，可抽取所述可用语料的80％作为训练语料，将所述可用语料其余的20％作为测试语料。

步骤S104：将已标注样本进行训练得到最大熵模型，利用所述最大熵模型对所述未标注样本进行情绪类别的分类，得到所述未标注样本对应各情绪类别的后验概率，将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注，成为新的已标注样本，并更新当前的已标注样本与未标注样本；

将训练语料中的已标注样本训练得到最大熵模型，对未标注样本进行读者情绪分类，得到每个未标注样本所对应的积极或消极的情绪类别的后验概率，当后验概率越接近0.5时，认为该未标注样本的情绪分类越不确定，将不确定度最大的预设数量的未标注样本进行分别标注，如每次对最不确定的10个未标注样本标注，标注后即成为已标注样本，此时已标注样本与未标注样本已经更新。

步骤S105：循环上述步骤直至全部的所述未标注样本均进行过情绪类别标注。

循环上述步骤直到所有未标注样本均进行了情绪类别的标记。每次循环上述步骤时将已标注样本进行训练得到最大熵模型之后还包括：利用所述最大熵模型对已预设的所述测试语料进行情绪类别的分类，以测试更新已标注样本后的分类效果。

本实施例的实验效果：

从Yahoo！Kimo新闻网站中搜集了多个领域(世界新闻、生活资讯等)的新闻语料，为了保证新闻的粗粒度情绪标签的准确性，选择显著情绪类别的投票比例在50％以上的新闻语料，同时过滤掉不含评论信息的新闻。最终，含有“积极”情绪的语料有1497篇，含有“消极”情绪的语料有1997篇。从“积极”情绪的语料和“消极”情绪的语料中各随机抽取1000篇作为实验样本。其中，80％作为训练语料，20％作为测试语料，从训练语料中选取20篇语料作为主动学习中的标注样本集，其余的780篇训练语料都作为未标注样本集。实验选用的评价标准是Acc.，即正确率。在说明基于不确定性的主动学习的效果时，做了随机的实验作为对比，随机的实验只是没有挑选策略，随机挑选未标注样本进行人工标注后加入到已标注样本集中，其余步骤与基于不确定性的主动学习方法一致，在图2中，分别将基于不确定性的主动学习方法记为UNCE，基于随机的主动学习方法记为RAND，可看出已标注样本越多时分类的正确率越高，且基于不确定的主动学习方法的准确率总体高于基于随机的主动学习方法的准确率。

应用本实施例提供的一种新闻读者情绪的分类方法，对新闻文本和评论文本的词特性融合，利用最大熵模型对情绪类别进行分类，依次将最不确定情绪类别的样本进行标注，可以在标注语料规模较小时准确高效地对新闻读者情绪进行分类。

实施例二：

本实施例提供了一种新闻读者情绪的分类系统，图3示出了本实施例的结构示意图，包括：

词特征信息融合模块101、语料格式转换模块102、语料分类模块103、样本更新模块104和标注验证模块105；

所述词特征信息融合模块101用于从目标语料中获取新闻文本和评论文本，并获取所述新闻文本以及所述评论文本的词特征信息，将所述新闻文本以及所述评论文本的所述词特征信息进行融合；

所述语料格式转换模块102用于将进行融合后的词特征信息转换为最大熵模型对应格式的可用语料；

所述语料分类模块103用于将所述可用语料按预设规则分为训练语料与测试语料，并将所述训练语料分为已标注样本与未标注样本；

所述样本更新模块104用于将已标注样本进行训练得到最大熵模型，利用所述最大熵模型对所述未标注样本进行情绪类别的分类，得到所述未标注样本对应各情绪类别的后验概率，将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注，成为新的已标注样本，并更新当前的已标注样本与未标注样本；

所述标注验证模块105用于循环执行所述样本更新模块的任务直至全部的所述未标注样本均进行过情绪类别标注。

本实施例中，后验概率不确定度为后验概率接近概率为0.5的程度，将所述可用语料按预设规则分为训练语料与测试语料为，抽取所述可用语料的80％作为训练语料，将所述可用语料其余的20％作为测试语料。

应用本实施例提供的一种新闻读者情绪的分类系统，从目标语料中获取新闻文本和评论文本，并获取所述新闻文本以及所述评论文本的词特征信息，将所述新闻文本以及所述评论文本的所述词特征信息进行融合；将进行融合后的词特征信息转换为最大熵模型对应格式的可用语料；将所述可用语料按预设规则分为训练语料与测试语料，并将所述训练语料分为已标注样本与未标注样本；将已标注样本进行训练得到最大熵模型，利用所述最大熵模型对所述未标注样本进行情绪类别的分类，得到所述未标注样本对应各情绪类别的后验概率，将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注，成为新的已标注样本，并更新当前的已标注样本与未标注样本；循环上述步骤直至全部的所述未标注样本均进行过情绪类别标注。对新闻文本和评论文本的词特性融合，利用最大熵模型对情绪类别进行分类，依次将最不确定情绪类别的样本进行标注，可以在标注语料规模较小时准确高效地对新闻读者情绪进行分类。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的方法与系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种新闻读者情绪的分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，从目标语料中获取新闻文本和评论文本与获取所述新闻文本以及所述评论文本的词特征信息之间还包括：使用ICTCLAS工具对所述新闻文本与所述评论文本进行分词。

3.根据权利要求2所述的方法，其特征在于，将所述新闻文本以及所述评论文本的所述词特征信息进行融合时，利用预设符号区别所述新闻文本的词特征与所述评论文本的词特征。

4.根据权利要求3所述的方法，其特征在于，后验概率不确定度为后验概率接近概率为0.5的程度。

5.根据权利要求1所述的方法，其特征在于，步骤D中将已标注样本进行训练得到最大熵模型之后还包括：

利用所述最大熵模型对所述测试语料进行情绪类别的分类。

6.根据权利要求1所述的方法，其特征在于，将所述可用语料按预设规则分为训练语料与测试语料包括：

7.一种新闻读者情绪的分类系统，其特征在于，包括：

8.根据权利要求7所述的系统，其特征在于，后验概率不确定度为后验概率接近概率为0.5的程度。

9.根据权利要求7所述的系统，其特征在于，将所述可用语料按预设规则分为训练语料与测试语料包括：