一种新闻报道情感倾向分析方法
技术领域
本发明涉及舆情分析领域,特别涉及一种新闻报道情感倾向分析方法。
背景技术
通过情感倾向性分析来对新闻材料信息进行分析和挖掘,用以获取公众舆论对某些热点问题的情感倾向,以便更好地掌握公众对政府政策、企业动态等热点问题的情感倾向,为政府、企业的战略决策方向提供科学依据。作为舆情系统需要同时分析新闻报道和新闻评论的情感倾向,才能正确的分析出公众对某项政策、企业动态等热点问题的态度。而目前现有的关于舆情情感分析系统主要侧重于微博、新闻评论等短文的情感分析,缺乏对新闻报道的情感倾向分析方法。
发明内容
针对上述问题,本发明的目的是提供一种对新闻报道进行情感倾向分析的方法,得出新闻报道情感倾向,区分出新闻报道是属于负面报道还是正面、中性的报道。
本发明的目的是通过以下技术方案来实现的:一种新闻报道情感倾向分析方法,本方法是基于机器学习建模方式进行新闻报道情感倾向分析,它包括如下步骤:
S11:抓取用于训练的新闻报道内容;
S12:对用于训练的新闻报道进行特征提取;
S13:根据用于训练的新闻报道特征以及机器学习算法模块进行训练并建立新闻报道情感倾向模型;
S14:抓取待识别新闻报道内容;
S15:对待识别新闻报道进行特征提取;
S16:根据待识别新闻报道特征、新闻报道情感倾向模型判断新闻报道是属于正面报道、中性报道还是负面报道。
作为优选方式,所述的新闻报道内容抓取是通过网络爬虫方式从新闻网站上抓取新闻报道的内容,之后提取新闻报道内容的特征。
作为优选方式,针对不同长度的新闻报道内容,将新闻报道内容的长度划分为章、段、句几种类型;对三种类型的文本分别采用单独的新闻报道情感倾向模型进行识别。
作为优选方式,提取文本特征依赖于静态情感词典、语料系统构建的动态情感词典和文本特征提取模块。
作为优选方式,所述的构建动态情感词典的方法是在计算词频的正负指数时,首先要根据标注好的语料样本构建动态词典情感指数,在训练时,每个词元组根据它在不同类型文本中出 现的次数计算其正负情感指数,
词的正面指数:
词的负面指数:
词的中性指数:
由于词的量非常大,在构建动态正负指数词典时,只选取名词、动词、形容词作为动态词典的构建。
作为优选方式,所述的静态情感词典是根据词的不同的情感属性构建静态基础词库,对每类词都做一个初始化值得到的。
作为优选方式,所述的文本特征提取模块包括词频正负指数比值的计算方法和基于语法规则的情感值计算方法;
词频正负指数比值的计算方法:
先对文本进行分词,分词后在已经构建好的动态情感词典中查询出各个词的正负指数,将正负情感指数值相加求比值:
词频正负指数比值=(正面词指数之和+中性词指数之和)/(负面词指数之和+中性词指数之和);
基于语法规则的情感值计算方法:
基于语法规则的情感值计算方法包括单句文本情感值计算方法和段文本情感值计算方法;
单句文本情感值计算方法包括如下步骤:
A、先对单句进行分词,
B、标明分词后的词在规则词库中的词性与分值,
C、判断是否有情感词,如果没有情感词则表明该句的情感值为0,句子的情感极性为中 性,流程结束,
如果有情感词出现,则以情感词为分界,计算每个情感词为分界的子句的情感值,并将情感值转换为数值的相乘得出各个子句的情感值,
D、将各个子句的情感值相加,
E、判断是否该单句有主张词,如果有主张词,把单句的情感结果值乘以主张词的权重;
段文本情感值计算方法:段是由句组成的,简单的算法是对段中每句的情感值进行相加,但是在段中往往首句和尾句所表达的情感倾向值较高,因此我们需要根据句子的所在位置的权重值来计算段的情感值,利用抛物线的公式来计算段的极性值(ax2+b=y);
根据标点符号来进行分句,根据单句文本情感值计算方法计算每句的情感值;
统计句数,计算句子数的中值:
其中e为段的句数的中值,n为段的句数;
则段的情感值的计算公式如下:
其中di是每句的位置,e是句数中值,a每句的情感值,λ为修正参数。
作为优选方式,所述的文本特征提取模块包括针对不同文本类型所提取的特征值有所不同;句子特征:词频正负指数比值、基于语法规则的情感值;
段特征:基于语法规则的情感值、首句基于语法规则的情感值、尾句基于语法规则的情感值、正负情感极性句比例,词频正负指数比值;
章特征:词频正负指数比值、正负情感极性段比例值;
标题特征:词频正负指数比值、基于语法规则的情感值。
作为优选方式,所述的文本特征提取模块根据语料系统得出的动态情感词典和静态情感词典得出新闻报道的特征值;在训练步骤中将上述特征值结果输入机器学习算法模块进行情感倾向模型训练得到新闻报道情感倾向模型;在情感倾向识别过程将特征值输入新闻报道情感倾向模型,新闻报道情感倾向模型得出一个新闻报道的情感倾向值,根据该值判断新闻报道是属于正面报道、中性报道还是负面报道。
作为优选方式,所述的新闻报道情感倾向模型采用的分类器为SVM分类器,根据训练好的分类器模型得出指定的新闻报道的情感倾向值,根据该值判断新闻报道是属于正面报道、中性 报道还是负面报道。
本发明的有益效果是:本发明采用以上技术方案,实现对新闻报道的情感倾向进行分析。通过2000篇新闻报道的交叉验证方式,其准确率达到了83%。
附图说明
图1为本发明情感倾向性分析系统的流程模块划分示意图;
图2为本发明文本情感倾向判断流程示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1、图2所示,一种新闻报道情感倾向分析方法,本方法是基于机器学习建模方式进行新闻报道情感倾向分析,它包括如下步骤:
S11:抓取用于训练的新闻报道内容;
S12:对用于训练的新闻报道进行特征提取;
S13:根据用于训练的新闻报道特征以及机器学习算法模块进行训练并建立新闻报道情感倾向模型;
S14:抓取待识别新闻报道内容;
S15:对待识别新闻报道进行特征提取;
S16:根据待识别新闻报道特征、新闻报道情感倾向模型判断新闻报道是属于正面报道、中性报道还是负面报道。
优选地,所述的新闻报道内容抓取是通过网络爬虫方式从新闻网站上抓取新闻报道的内容,之后提取新闻报道内容的特征。
优选地,如图2所示,针对不同长度的新闻报道内容,将新闻报道内容的长度划分为章、段、句几种类型;对三种类型的文本分别采用单独的新闻报道情感倾向模型进行识别。首先通过段分隔符进行分段,并判断是否有多段,如果没有,寻找句分隔符,判断是否有多句,如果仅有一个句子,通过静态情感词典和动态情感词典分别计算按照情感规则计算句的情感值和基于动态词典计算词频的正负指数,如果有标题,标题的计算方法和单句一致,获得两类特征值后通过分类器进行分类,判断该句的报道属性(正面报道、中性报道、负面报道)。由于段由单句组成的,基于动态词典计算词频的正负指数与单句的计算方法一致,按照情感规则计算句的情感值则多了一个加权求和的过程,此外段的特征值还加上了首句基于语法规则的情感值、尾句基于语法规则的情感值、正负情感极性句比例这几个特征值。而章是由段构造,则章的特征值则取正负情感极性段比例值,其基于动态词典计算词频的正负指数与单句的计 算方法一致。
优选地,提取文本特征依赖于静态情感词典、语料系统构建的动态情感词典和文本特征提取模块。
优选地,所述的构建动态情感词典的方法是在计算词频的正负指数时,首先要根据标注好的语料样本构建动态词典情感指数,在训练时,每个词元组根据它在不同类型文本中出现的次数计算其正负情感指数,
词的正面指数:
词的负面指数:
词的中性指数:
由于词的量非常大,在构建动态正负指数词典时,只选取名词、动词、形容词作为动态词典的构建。
优选地,所述的静态情感词典是根据词的不同的情感属性构建静态基础词库,对每类词都做一个初始化值得到的,如下表所示:
优选地,所述的文本特征提取模块包括词频正负指数比值的计算方法和基于语法规则的情感值计算方法;
词频正负指数比值的计算方法:
先对文本进行分词,分词后在已经构建好的动态情感词典中查询出各个词的正负指数,将正负情感指数值相加求比值:
词频正负指数比值=(正面词指数之和+中性词指数之和)/(负面词指数之和+中性词指数之和);
基于语法规则的情感值计算方法:
基于语法规则的情感值计算方法包括单句文本情感值计算方法和段文本情感值计算方法;
单句文本情感值计算方法包括如下步骤:
A、先对单句进行分词,
B、标明分词后的词在规则词库中的词性与分值,
C、判断是否有情感词,如果没有情感词则表明该句的情感值为0,句子的情感极性为中性,流程结束,
如果有情感词出现,则以情感词为分界,计算每个情感词为分界的子句的情感值,并将情感值转换为数值的相乘得出各个子句的情感值,
D、将各个子句的情感值相加,
E、判断是否该单句有主张词,如果有主张词,把单句的情感结果值乘以主张词的权重;例子:
教练认为比赛的结果虽然不十分满意,但是队员表现还是值得肯定的。
a、分词并标明词性与分值:教练/认为(主张词,2)/比赛/的/结果/虽然/不(否定词,-1)/十分(程度副词,1.4)/满意(正面情感词,1),但是(转载连词,2.5)/队员/表现/还(程度副词,1.1)/是/值得/肯定(正面词,1)/的。
b、以情感词为分界,计算每个子句的情感值(计算时不包括主张词),以“满意”和“肯定”为分界计算:
-1*1.4*1+2.5*1.1*1=1.35
c、乘上主张词的权重得到该句子的情感值:1.35*2=2.7。
段文本情感值计算方法:段是由句组成的,简单的算法是对段中每句的情感值进行相加,但是在段中往往首句和尾句所表达的情感倾向值较高,因此我们需要根据句子的所在位置的权重值来计算段的情感值,利用抛物线的公式来计算段的极性值(ax2+b=y);
根据标点符号来进行分句,根据单句文本情感值计算方法计算每句的情感值;
统计句数,计算句子数的中值:
其中e为段的句数的中值,n为段的句数;
则段的情感值的计算公式如下:
其中di是每句的位置,e是句数中值,a每句的情感值,λ为修正参数。
优选地,所述的文本特征提取模块包括针对不同文本类型所提取的特征值有所不同;
句子特征:词频正负指数比值、基于语法规则的情感值;
段特征:基于语法规则的情感值、首句基于语法规则的情感值、尾句基于语法规则的情感值、 正负情感极性句比例,词频正负指数比值;
章特征:词频正负指数比值、正负情感极性段比例值;
标题特征:词频正负指数比值、基于语法规则的情感值。
优选地,所述的文本特征提取模块根据语料系统得出的动态情感词典和静态情感词典得出新闻报道的特征值;在训练步骤中将上述特征值结果输入机器学习算法模块进行情感倾向模型训练得到新闻报道情感倾向模型;在情感倾向识别过程将特征值输入新闻报道情感倾向模型,新闻报道情感倾向模型得出一个新闻报道的情感倾向值,根据该值判断新闻报道是属于正面报道、中性报道还是负面报道。
优选地,所述的新闻报道情感倾向模型采用的分类器为SVM分类器,根据训练好的分类器模型得出指定的新闻报道的情感倾向值,根据该值判断新闻报道是属于正面报道、中性报道还是负面报道。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,应当指出的是,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。