CN104794241A - 一种基于情绪倾向性的新闻分类方法及系统 - Google Patents
一种基于情绪倾向性的新闻分类方法及系统 Download PDFInfo
- Publication number
- CN104794241A CN104794241A CN201510236580.9A CN201510236580A CN104794241A CN 104794241 A CN104794241 A CN 104794241A CN 201510236580 A CN201510236580 A CN 201510236580A CN 104794241 A CN104794241 A CN 104794241A
- Authority
- CN
- China
- Prior art keywords
- news
- classification
- mood
- sorted
- tendency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于情绪倾向性的新闻分类方法及系统,该方法包括:利用预先构建的与多种内容一一对应的多个基分类器,分别对待分类新闻的相应内容进行分类,得到每个基分类器的分类结果;将每个基分类器的分类结果依据情绪倾向类别相应地进行融合,得到最终分类结果;根据最终分类结果,对待分类新闻进行情绪倾向判定,得到待分类新闻含有的情绪倾向类别;其中,情绪倾向判定为,判定待分类新闻是否含有用户看到待分类新闻时产生的情绪倾向,判定结果表明待分类新闻含有的情绪倾向,所以使用判定结果,即可以得到待分类新闻含有的情绪倾向类别,实现了基于情绪倾向性对新闻进行分类的目的,从而改善了用户浏览新闻时的用户体验。
Description
技术领域
本发明涉及自然语言处理及模式识别技术领域,尤其涉及一种基于情绪倾向性的新闻分类方法及系统。
背景技术
目前,用户可以通过多种网络对新闻中的人物、事件和现象等表达自己的观点和态度。在用户的活动中,用户对事或者物的态度往往与用户的情绪倾向是紧密联系的,也就是说可以从用户的情绪倾向观察到用户对事物的观点倾向。其中,情绪倾向是指用户内在的心理反应与感受的倾向性,即积极情绪倾向或消极情绪倾向。
所谓基于情绪倾向性的新闻分类,是指借助计算机帮助用户快速获取、整理和分析相关情绪倾向信息,对新闻的新闻内容和评论内容进行分析、处理、归纳和推理的过程。按情绪倾向划分新闻就是将新闻标记为某种情绪倾向类别的新闻。而现有技术中并不存在基于情绪倾向对新闻进行分类的技术方案。
另外,现有技术通常是利用主题分类技术对新闻进行分类、管理和检索的,例如基于新闻的主题(如体育、经济、娱乐、政治等)对新闻进行分类、管理和检索。而针对不同主题的新闻,用户产生的情绪倾向也会不同。
综上所述可以看出,如何基于情绪倾向性对新闻进行分类,从而改善用户浏览新闻时的用户体验是目前亟待解决的问题。
发明内容
有鉴于此,本发明的目的是提供一种基于情绪倾向性的新闻分类方法及系统,实现了基于情绪倾向性对新闻进行分类的目的,从而改善了用户浏览新闻时的用户体验。其具体方案如下:
一种基于情绪倾向性的新闻分类方法,包括:
利用预先构建的与多种内容一一对应的多个基分类器,分别对待分类新闻的相应内容进行分类,得到每个所述基分类器的分类结果;
将每个所述基分类器的分类结果依据情绪倾向类别相应地进行融合,得到最终分类结果;
根据所述最终分类结果,对所述待分类新闻进行情绪倾向判定,得到所述待分类新闻含有的情绪倾向类别;其中,所述情绪倾向判定为,判定所述待分类新闻是否含有用户看到所述待分类新闻时产生的情绪倾向。
优选的,每个所述基分类器的分类结果均包括与两个情绪倾向类别对应的后验概率;其中,与任一情绪倾向类别对应的后验概率为所述待分类新闻含有该情绪倾向类别的后验概率;
所述将每个所述基分类器的分类结果依据情绪倾向类别相应地进行融合,得到最终分类结果的过程包括:
将每个所述基分类器的分类结果中与同一情绪倾向类别对应的后验概率分别相加,相应地得到每一情绪倾向类别对应的最终后验概率;
所述根据所述最终分类结果,对所述待分类新闻进行情绪倾向判定,得到所述待分类新闻含有的情绪倾向类别的过程包括:
比较两种情绪倾向类别对应的最终后验概率的大小;当某种情绪倾向类别对应的最终后验概率最大时,则判定该情绪倾向类别为所述待分类新闻含有的情绪倾向类别,否则,判定另一种情绪倾向类别为所述待分类新闻含有的情绪倾向类别。
优选的,所述多个基分类器的构建过程包括:
采集已获知情绪倾向类别的预设数量的新闻;
从所述预设数量的新闻中,将新闻的所述多种内容分开,分别得到只含有同一种内容的新闻集;
分别将所述预设数量的新闻中只含有同一种内容的新闻集作为一个基分类器的训练集合;
采用机器学习分类方法对所述训练集合进行分类,得到相应的基分类器。
优选的,所述多种内容包括新闻内容和评论内容;
所述从所述预设数量的新闻中,将新闻的所述多种内容分开,分别得到只含有同一种内容的新闻集的过程包括:
从所述预设数量的新闻中,将含有新闻内容和评论内容的新闻进行分开处理,分别得到只含有新闻内容的新闻集和只含有评论内容的新闻集。
优选的,所述机器学习分类方法为朴素贝叶斯分类方法。
本发明还公开了一种基于情绪倾向性的新闻分类系统,包括:
构建模块,用于预先构建与多种内容一一对应的多个基分类器;
分类模块,用于利用预先构建的所述多个基分类器,分别对待分类新闻的相应内容进行分类,得到每个所述基分类器的分类结果;
融合模块,用于将每个所述基分类器的分类结果依据情绪倾向类别相应地进行融合,得到最终分类结果;
判定模块,用于根据所述最终分类结果,对所述待分类新闻进行情绪倾向判定,得到所述待分类新闻含有的情绪倾向类别;其中,所述情绪倾向判定为,判定所述待分类新闻是否含有用户看到所述待分类新闻时产生的情绪倾向。
优选的,每个所述基分类器的分类结果均包括与两个情绪倾向类别对应的后验概率;其中,与任一情绪倾向类别对应的后验概率为所述待分类新闻含有该情绪倾向类别的后验概率;
所述融合模块包括:
求和单元,用于将每个所述基分类器的分类结果中与同一情绪倾向类别对应的后验概率分别相加,相应地得到每一情绪倾向类别对应的最终后验概率;
所述判定模块包括:
比较单元,用于比较两种情绪倾向类别对应的最终后验概率的大小;
判定单元,用于当某种情绪倾向类别对应的最终后验概率最大时,则判定该情绪倾向类别为所述待分类新闻含有的情绪倾向类别,否则,判定另一种情绪倾向类别为所述待分类新闻含有的情绪倾向类别。
优选的,所述构建模块包括:
采集单元,用于采集已获知情绪倾向类别的预设数量的新闻;
第一获取单元,用于从所述预设数量的新闻中,将新闻的所述多种内容分开,分别得到只含有同一种内容的新闻集;
第二获取单元,用于分别将所述预设数量的新闻中只含有同一种内容的新闻集作为一个基分类器的训练集合;
分类单元,用于采用机器学习分类方法对所述训练集合进行分类,得到相应的基分类器。
优选的,所述多种内容包括新闻内容和评论内容;
所述第一获取单元具体用于从所述预设数量的新闻中,将含有新闻内容和评论内容的新闻进行分开处理,分别得到只含有新闻内容的新闻集和只含有评论内容的新闻集。
优选的,所述机器学习分类方法为朴素贝叶斯分类方法。
在本发明中,使用预先构建的基分类器对待分类新闻的相应内容进行分类,得到每个基分类器的分类结果,将每个基分类器的分类结果依据情绪倾向类别相应地进行融合,得到最终分类结果,再根据最终分类结果,分别对待分类新闻进行情绪倾向判定,得到判定结果。由于情绪倾向判定是指判定待分类新闻是否含有用户看到待分类新闻时产生的情绪倾向,判定结果表明待分类新闻含有的情绪倾向,所以使用判定结果,即可以得到待分类新闻含有的情绪倾向类别。当获知待分类新闻含有的情绪倾向类别后,可以将待分类新闻划分到其含有的情绪倾向类别对应的新闻中,实现了基于情绪倾向性对新闻进行分类的目的,从而改善了用户浏览新闻时的用户体验。
当然,本申请提供的新闻分类方法还可以应用到新闻推荐系统中,在依据情绪倾向对待分类新闻进行划分后,进一步依据不同情绪倾向推荐新闻,使推荐给用户的新闻更能满足用户当前的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种基于情绪倾向性的新闻分类方法流程图;
图2为本发明实施例公开的一种基于情绪倾向性的新闻分类方法的子流程图;
图3为本发明实施例公开的一种基于情绪倾向性的新闻分类系统结构示意图;
图4为本发明实施例公开的一种基于情绪倾向性的新闻分类系统中构建模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例公开了一种基于情绪倾向性的新闻分类方法,参见图1所示,上述新闻分类方法包括:
步骤S101:利用预先构建的与多种内容一一对应的多个基分类器,分别对待分类新闻的相应内容进行分类,得到每个基分类器的分类结果。
在对待分类新闻进行分类之前,需要预先构建与多种内容一一对应的多个基分类器,其中,基分类器是基于已获知情绪倾向类别的预设数量的新闻进行预先构建的,用于判定待分类新闻中含有某种情绪的倾向。上述的多个基分类器与多个内容之间呈一一对应关系,也即,每个基分类器对应一种内容。
需要注意的是,基分类器是在进行新闻分类之前构建的,并且在构建完成后可以一直使用基分类器对每个待分类新闻进行处理,而无需重复构建基分类器。
在本实施例中,由于每个基分类器对应一种内容,因此在利用每个基分类器对待分类新闻进行分类后,需对分类结果进行融合,然后从最终分类结果中确定待分类新闻中是否含有某种情绪倾向类别。
例如,基分类器A对应新闻的新闻本身,也即对应新闻的新闻内容,基分类器B对应新闻的评论内容,则基分类器A和B分别对待分类新闻的相应内容进行分类,也即,基分类器A对待分类新闻中的新闻内容进行分类处理,而基分类器B对待分类新闻中的评论内容进行分类处理。然后将基分类器A和B的分类结果依据情绪倾向类别相应地进行融合,最后从得到的最终分类结果中确定待分类新闻中是否含有某种情绪倾向类别。
需要说明的是,新闻的各种内容可以由操作人员预先确定,由于每个基分类器对应一种内容,不同基分类器对应的内容不同,所以基分类器的总数和新闻的内容种类的总数相同,得到的每个基分类器都需要对待分类新闻中的相应内容进行分类,从而得到的分类结果个数与内容种类的总数相同。
步骤S102:将每个基分类器的分类结果依据情绪倾向类别相应地进行融合,得到最终分类结果。
在本实施例中,优选的,每个基分类器的分类结果均包括与两个情绪倾向类别对应的后验概率;其中,与任一情绪倾向类别对应的后验概率为待分类新闻含有该情绪倾向类别的后验概率。也即,对任一待分类新闻进行分类的基分类器都会产生于两个情绪倾向类别对应的后验概率。例如,上述两个情绪倾向类别包括“积极”情绪倾向类别和“消极”情绪倾向类别,以与新闻本身(即新闻内容)对应的基分类器为例,“积极”情绪对应的后验概率是待分类新闻中的新闻内容含有“积极”情绪倾向类别的后验概率,“消极”情绪对应的后验概率则是待分类新闻中的新闻内容含有“消极”情绪倾向类别的后验概率。
对于第j种内容,第i(i=1,2)种情绪倾向类别对应的后验概率可以标记为Pj(ci|D),其表示待分类新闻中含有ci情绪倾向类别的后验概率。
其中,第i种情绪倾向类别对应的后验概率Pj(ci|D)的计算公式是:
Pj(ci|D)=P(ci)[ΠP(tki)];
其中,ci表示情绪倾向类别;P(ci)为确定的新闻文本中,情绪倾向类别ci出现的先验概率;P(tki)为待确定新闻文本中,特征词集合中的特征词k出现在情绪倾向类别ci中的概率;ΠP(tki)为各个P(tki)的乘积。
将与每种内容对应的两种情绪倾向类别对应的后验概率计算出来后,将每个基分类器的分类结果中与同一情绪倾向类别对应的后验概率分别相加,相应地得到每一情绪倾向类别对应的最终后验概率,也即得到最终分类结果。
步骤S103:根据最终分类结果,对待分类新闻进行情绪倾向判定,得到待分类新闻含有的情绪倾向类别;其中,情绪倾向判定为,判定待分类新闻是否含有用户看到待分类新闻时产生的情绪倾向。
在本实施例中,待分类新闻所含有的某种情绪倾向类别可以从判定结果中得到,其中判定结果用于表明待分类新闻含有的情绪倾向。
同样以每个基分类器的分类结果均包括与两个情绪倾向类别对应的后验概率的情况为例,在本实施例中,根据最终分类结果,对待分类新闻进行情绪倾向判定,得到待分类新闻含有的情绪倾向类别的过程包括:比较两种情绪倾向类别对应的最终后验概率的大小;当某种情绪倾向类别对应的最终后验概率最大时,则判定该情绪倾向类别为待分类新闻含有的情绪倾向类别,否则,判定另一种情绪倾向类别为待分类新闻含有的情绪倾向类别。
具体的,上述两个情绪倾向类别包括“积极”情绪倾向类别和“消极”情绪倾向类别,将“积极”情绪倾向类别确认为第一情绪倾向类别,将“消极”情绪倾向类别确认为第二情绪倾向类别,判定结果采用Emotion[i]=P(ci|D)表示,Emotion[i]的值为最大时,表明待分类新闻含有第i种情绪倾向类别。
当然,在得到待分类新闻的情绪倾向类别后,还可以依据情绪倾向类别将待分类新闻划分至不同情绪倾向类别的数据库中。此外,用户在看新闻时,还可以将划分到数据库中的待分类新闻推荐给用户,其中在推荐新闻时,可以根据用户选择的情绪倾向类别进行推荐。
在本实施例中,用户选择的情绪倾向类别可以是用户通过点击遥控器中的“情绪倾向”按钮时,“情绪倾向”按钮所对应的情绪倾向类别。
在本实施例中,使用预先构建的基分类器对待分类新闻的相应内容进行分类,得到每个基分类器的分类结果,将每个基分类器的分类结果依据情绪倾向类别相应地进行融合,得到最终分类结果,再根据最终分类结果,分别对待分类新闻进行情绪倾向判定,得到判定结果。由于情绪倾向判定是指判定待分类新闻是否含有用户看到待分类新闻时产生的情绪倾向,判定结果表明待分类新闻含有的情绪倾向,所以使用判定结果,即可以得到待分类新闻含有的情绪倾向类别。当获知待分类新闻含有的情绪倾向类别后,可以将待分类新闻划分到其含有的情绪倾向类别对应的新闻中,实现了基于情绪倾向性对新闻进行分类的目的,从而改善了用户浏览新闻时的用户体验。
当然,本实施例提供的新闻分类方法还可以应用到新闻推荐系统中,在依据情绪倾向对待分类新闻进行划分后,进一步依据不同情绪倾向推荐新闻,使推荐给用户的新闻更能满足用户当前的需求。
在上一实施例的步骤S101中,需要利用预先构建的与多种内容一一对应的多个基分类器对待分类新闻进行分类,下面对上述多个基分类器的构建过程进行说明,参见图2所示,上述多个基分类器的构建过程具体包括:
步骤S201:采集已获知情绪倾向类别的预设数量的新闻。
在本实施例中,新闻的情绪倾向类别可以是每个用户看到同一篇新闻时产生的情绪倾向。当然也可以统计看到同一篇新闻时产生某一相同情绪倾向的用户数量占看到该新闻的所有用户数量的比例,当该比例较大时,认为该新闻含有相应的情绪倾向类别,否则,含有另一种情绪倾向类别。所有用户数量可以设定为一定数量,例如可以是1000人,而无需设定为某个市或者某个省的全部人口数量,否则会提高计算时间,降低效率。
其中,所采集新闻数量也可以预先设定,即采用预设数量的新闻。在本实施例中预设数量可以依据不同应用场景设定不同取值,对此本实施例不加以限制。
步骤S202:从预设数量的新闻中,将新闻的多种内容分开,分别得到只含有同一种内容的新闻集。
优选的多种内容包括新闻内容和评论内容;
其中,从预设数量的新闻中,将新闻的多种内容分开,分别得到只含有同一种内容的新闻集的过程具体包括,从预设数量的新闻中,将含有新闻内容和评论内容的新闻进行分开处理,分别得到只含有新闻内容的新闻集和只含有评论内容的新闻集。
需要注意的是,在构建每个基分类器时,需要对所有预设数量的新闻中含有的内容种类的数量进行判断,判断次数与所有预设数量的新闻的内容种类总量相同。
步骤S203:分别将预设数量的新闻中只含有同一种内容的新闻集作为一个基分类器的训练集合。
以上述多种内容包括新闻内容和评论内容为例,分别将预设数量的新闻中只含有同一种内容的新闻集作为一个基分类器的训练集合的过程具体为,将预设数量的新闻中只含有新闻内容的组分分离出来,构成一个新闻集,也即构成一种分类资源,同样,将预设数量的新闻中只含有评论内容的组分分离出来,构成另一个新闻集,也即构成另一种分类资源,这样便得到两个新闻集。其中一个新闻集作为一个基分类器的训练集合,另一个新闻集作为另一个基分类器的训练集合。
步骤S204:采用机器学习分类方法对训练集合进行分类,得到相应的基分类器。
在本实施例中,优选的机器学习分类方法为朴素贝叶斯分类方法。朴素贝叶斯分类方法是基于贝叶斯定理和特征条件独立假设的分类方法。
在朴素贝叶斯分类下,分类结果为每个情绪倾向类别所对应的后验概率,其中某情绪倾向类别对应的后验概率是指待分类新闻含有此情绪倾向类别的后验概率。本实施例中,优选的,对待分类新闻进行分类的基分类器均会产生两个情绪倾向类别对应的后验概率。其中对于第j种内容,第i种情绪倾向对应的后验概率的计算公式如下:
Pj(ci|D)=P(ci)[ΠP(tki)]
其中,ci表示情绪倾向类别;P(ci)为确定的新闻文本中,情绪倾向类别ci出现的先验概率;P(tki)为待确定新闻文本中,特征词集合中的特征词k出现在情绪倾向类别ci中的概率;ΠP(tki)为各个P(tki)的乘积。
将与每种内容对应的两种情绪倾向类别对应的后验概率计算出来后,将每个基分类器的分类结果中与同一情绪倾向类别对应的后验概率分别相加,相应地得到每一情绪倾向类别对应的最终后验概率。最后对待分类新闻的各情绪倾向类别所对应的后验概率的大小进行比较,通过判断结果最终确认待分类新闻含有的情绪倾向类别。
为了验测本申请提供的新闻分类方法在新闻分类上的有效性,本实施例使用一定的训练样本和测试样本进行训练和测试。实验中使用的样本是已经标注过的含有情绪倾向标签的新闻样本,实验所用的正负类样本各1000篇,每篇新闻均含有新闻内容和评论内容两部分。情绪倾向类别有两种,分别为:积极、消极。
在进行新闻分类时,对新闻的内容类别进行分开处理,即每次分类只考虑一种内容。分别从正负1000篇样本中选用200篇作为测试样本,整个实验过程中保持不变。
本实施例采用准确率(Acc.),精确率(Pre.)、召回率(Rec.)和F值(F_s)四个评价标准进行评价,四个评价标准计算公式如下:
其中,A表示正确地分配到该类别的文本数;B表示不正确地分配到该类别的文本数;C表示被该类别不正确拒绝的文本数;D表示正确地分配到其他类别的文本数。
表1为进行分类后采用上述四种评价标准得到的测试效果,其中训练样本采用了三种内容:新闻、评论以及新闻+评论。
表1
训练样本 | Acc. | Pre. | Rec. | F_s |
新闻 | 0.882 | 0.9078 | 0.89 | 0.8988 |
评论 | 0.835 | 0.8073 | 0.88 | 0.8421 |
新闻+评论 | 0.9175 | 0.9418 | 0.91 | 0.9256 |
从表1所示的数据可以看出,本申请提供的新闻分类方法已经能够取得不错的效果,准确率达到0.92左右。而且新闻和评论的分类结果进行融合后得到的结果比使用单一内容进行分类得到的结果好,这为根据新闻和评论两种内容进行新闻推荐提供了有效的依据。
与上述方法实施例相对应,本发明实施例还提供了一种基于情绪倾向性的新闻分类系统。参见图3所示,上述新闻分类系统包括:
构建模块31,用于预先构建与多种内容一一对应的多个基分类器。
本实施例中,基分类器是基于已获知情绪倾向类别的预设数量的新闻进行预先构建的,用于判定待分类新闻中含有某种情绪的倾向。上述的多个基分类器与多个内容之间呈一一对应关系,也即,每个基分类器对应一种内容。
需要注意的是,基分类器是在进行新闻分类之前构建的,并且在构建完成后可以一直使用基分类器对每个待分类新闻进行处理,而无需重复构建基分类器。
分类模块32,用于利用预先构建的多个基分类器,分别对待分类新闻的相应内容进行分类,得到每个基分类器的分类结果。
融合模块33,用于将每个基分类器的分类结果依据情绪倾向类别相应地进行融合,得到最终分类结果。
在本实施例中,优选的,每个基分类器的分类结果均包括与两个情绪倾向类别对应的后验概率;其中,与任一情绪倾向类别对应的后验概率为待分类新闻含有该情绪倾向类别的后验概率。也即,对任一待分类新闻进行分类的基分类器都会产生于两个情绪倾向类别对应的后验概率。各后验概率的计算公式以及具体计算过程可以参阅步骤S102中的阐述,对此本实施例不再加以阐述。
具体的,融合模块33可以包括求和单元,求和单元用于将每个基分类器的分类结果中与同一情绪倾向类别对应的后验概率分别相加,相应地得到每一情绪倾向类别对应的最终后验概率。
判定模块34,用于根据最终分类结果,对待分类新闻进行情绪倾向判定,得到待分类新闻含有的情绪倾向类别;其中,情绪倾向判定为,判定待分类新闻是否含有用户看到待分类新闻时产生的情绪倾向。
相对应的,判定模块34可以包括:
比较单元,用于比较两种情绪倾向类别对应的最终后验概率的大小;
判定单元,用于当某种情绪倾向类别对应的最终后验概率最大时,则判定该情绪倾向类别为待分类新闻含有的情绪倾向类别,否则,判定另一种情绪倾向类别为待分类新闻含有的情绪倾向类别。
在本实施例中,待分类新闻所含有的某种情绪倾向类别可以从判定结果中得到,其中判定结果用于表明待分类新闻含有的情绪倾向。
当然,在得到待分类新闻的情绪倾向类别后,还可以依据情绪倾向类别将待分类新闻划分至不同情绪倾向类别的数据库中。此外,用户在看新闻时,还可以将划分到数据库中的待分类新闻推荐给用户,其中在推荐新闻时,可以根据用户选择的情绪倾向类别进行推荐。
在本实施例中,用户选择的情绪倾向类别可以是用户通过点击遥控器中的“情绪倾向”按钮时,“情绪倾向”按钮所对应的情绪倾向类别。
在本实施例公开的新闻分类系统中,分类模块可以使用预先构建的基分类器对待分类新闻的相应内容进行分类,得到每个基分类器的分类结果,融合模块可以将每个基分类器的分类结果依据情绪倾向类别相应地进行融合,得到最终分类结果,判定模块再根据最终分类结果,分别对待分类新闻进行情绪倾向判定,得到判定结果。由于情绪倾向判定是指判定待分类新闻是否含有用户看到待分类新闻时产生的情绪倾向,判定结果表明待分类新闻含有的情绪倾向,所以使用判定结果,即可以得到待分类新闻含有的情绪倾向类别。当获知待分类新闻含有的情绪倾向类别后,可以将待分类新闻划分到其含有的情绪倾向类别对应的新闻中,实现了基于情绪倾向性对新闻进行分类的目的,从而改善了用户浏览新闻时的用户体验。
当然,本实施例提供的新闻分类系统还可以应用到新闻推荐系统中,在依据情绪倾向对待分类新闻进行划分后,进一步依据不同情绪倾向推荐新闻,使推荐给用户的新闻更能满足用户当前的需求。
图4为上一实施例提供的新闻分类系统中构建模块的结构示意图,构建模块可以包括:
采集单元311,用于采集已获知情绪倾向类别的预设数量的新闻。
在本实施例中,新闻的情绪倾向类别可以是每个用户看到同一篇新闻时产生的情绪倾向。当然也可以统计看到同一篇新闻时产生某一相同情绪倾向的用户数量占看到该新闻的所有用户数量的比例,当该比例较大时,认为该新闻含有相应的情绪倾向类别,否则,含有另一种情绪倾向类别
第一获取单元312,用于从预设数量的新闻中,将新闻的多种内容分开,分别得到只含有同一种内容的新闻集。
优选的多种内容包括新闻内容和评论内容;
其中,从预设数量的新闻中,将新闻的多种内容分开,分别得到只含有同一种内容的新闻集的过程具体包括,从预设数量的新闻中,将含有新闻内容和评论内容的新闻进行分开处理,分别得到只含有新闻内容的新闻集和只含有评论内容的新闻集。
第二获取单元313,用于分别将预设数量的新闻中只含有同一种内容的新闻集作为一个基分类器的训练集合。
分类单元314,用于采用机器学习分类方法对训练集合进行分类,得到相应的基分类器。
在本实施例中,优选的机器学习分类方法为朴素贝叶斯分类方法。具体请参阅步骤S204中的说明,对此不再加以介绍。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
以上仅是本申请的优选实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于情绪倾向性的新闻分类方法,其特征在于,包括:
利用预先构建的与多种内容一一对应的多个基分类器,分别对待分类新闻的相应内容进行分类,得到每个所述基分类器的分类结果;
将每个所述基分类器的分类结果依据情绪倾向类别相应地进行融合,得到最终分类结果;
根据所述最终分类结果,对所述待分类新闻进行情绪倾向判定,得到所述待分类新闻含有的情绪倾向类别;其中,所述情绪倾向判定为,判定所述待分类新闻是否含有用户看到所述待分类新闻时产生的情绪倾向。
2.根据权利要求1所述的基于情绪倾向性的新闻分类方法,其特征在于,
每个所述基分类器的分类结果均包括与两个情绪倾向类别对应的后验概率;其中,与任一情绪倾向类别对应的后验概率为所述待分类新闻含有该情绪倾向类别的后验概率;
所述将每个所述基分类器的分类结果依据情绪倾向类别相应地进行融合,得到最终分类结果的过程包括:
将每个所述基分类器的分类结果中与同一情绪倾向类别对应的后验概率分别相加,相应地得到每一情绪倾向类别对应的最终后验概率;
所述根据所述最终分类结果,对所述待分类新闻进行情绪倾向判定,得到所述待分类新闻含有的情绪倾向类别的过程包括:
比较两种情绪倾向类别对应的最终后验概率的大小;当某种情绪倾向类别对应的最终后验概率最大时,则判定该情绪倾向类别为所述待分类新闻含有的情绪倾向类别,否则,判定另一种情绪倾向类别为所述待分类新闻含有的情绪倾向类别。
3.根据权利要求1所述的基于情绪倾向性的新闻分类方法,其特征在于,所述多个基分类器的构建过程包括:
采集已获知情绪倾向类别的预设数量的新闻;
从所述预设数量的新闻中,将新闻的所述多种内容分开,分别得到只含有同一种内容的新闻集;
分别将所述预设数量的新闻中只含有同一种内容的新闻集作为一个基分类器的训练集合;
采用机器学习分类方法对所述训练集合进行分类,得到相应的基分类器。
4.根据权利要求3所述的基于情绪倾向性的新闻分类方法,其特征在于,
所述多种内容包括新闻内容和评论内容;
所述从所述预设数量的新闻中,将新闻的所述多种内容分开,分别得到只含有同一种内容的新闻集的过程包括:
从所述预设数量的新闻中,将含有新闻内容和评论内容的新闻进行分开处理,分别得到只含有新闻内容的新闻集和只含有评论内容的新闻集。
5.根据权利要求3或4所述的基于情绪倾向性的新闻分类方法,其特征在于,所述机器学习分类方法为朴素贝叶斯分类方法。
6.一种基于情绪倾向性的新闻分类系统,其特征在于,包括:
构建模块,用于预先构建与多种内容一一对应的多个基分类器;
分类模块,用于利用预先构建的所述多个基分类器,分别对待分类新闻的相应内容进行分类,得到每个所述基分类器的分类结果;
融合模块,用于将每个所述基分类器的分类结果依据情绪倾向类别相应地进行融合,得到最终分类结果;
判定模块,用于根据所述最终分类结果,对所述待分类新闻进行情绪倾向判定,得到所述待分类新闻含有的情绪倾向类别;其中,所述情绪倾向判定为,判定所述待分类新闻是否含有用户看到所述待分类新闻时产生的情绪倾向。
7.根据权利要求6所述的基于情绪倾向性的新闻分类系统,其特征在于,
每个所述基分类器的分类结果均包括与两个情绪倾向类别对应的后验概率;其中,与任一情绪倾向类别对应的后验概率为所述待分类新闻含有该情绪倾向类别的后验概率;
所述融合模块包括:
求和单元,用于将每个所述基分类器的分类结果中与同一情绪倾向类别对应的后验概率分别相加,相应地得到每一情绪倾向类别对应的最终后验概率;
所述判定模块包括:
比较单元,用于比较两种情绪倾向类别对应的最终后验概率的大小;
判定单元,用于当某种情绪倾向类别对应的最终后验概率最大时,则判定该情绪倾向类别为所述待分类新闻含有的情绪倾向类别,否则,判定另一种情绪倾向类别为所述待分类新闻含有的情绪倾向类别。
8.根据权利要求6所述的基于情绪倾向性的新闻分类系统,其特征在于,所述构建模块包括:
采集单元,用于采集已获知情绪倾向类别的预设数量的新闻;
第一获取单元,用于从所述预设数量的新闻中,将新闻的所述多种内容分开,分别得到只含有同一种内容的新闻集;
第二获取单元,用于分别将所述预设数量的新闻中只含有同一种内容的新闻集作为一个基分类器的训练集合;
分类单元,用于采用机器学习分类方法对所述训练集合进行分类,得到相应的基分类器。
9.根据权利要求8所述的基于情绪倾向性的新闻分类系统,其特征在于,
所述多种内容包括新闻内容和评论内容;
所述第一获取单元具体用于从所述预设数量的新闻中,将含有新闻内容和评论内容的新闻进行分开处理,分别得到只含有新闻内容的新闻集和只含有评论内容的新闻集。
10.根据权利要求8或9所述的基于情绪倾向性的新闻分类系统,其特征在于,所述机器学习分类方法为朴素贝叶斯分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510236580.9A CN104794241A (zh) | 2015-05-11 | 2015-05-11 | 一种基于情绪倾向性的新闻分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510236580.9A CN104794241A (zh) | 2015-05-11 | 2015-05-11 | 一种基于情绪倾向性的新闻分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104794241A true CN104794241A (zh) | 2015-07-22 |
Family
ID=53559033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510236580.9A Pending CN104794241A (zh) | 2015-05-11 | 2015-05-11 | 一种基于情绪倾向性的新闻分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104794241A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105022845A (zh) * | 2015-08-26 | 2015-11-04 | 苏州大学张家港工业技术研究院 | 一种基于特征子空间的新闻分类方法及系统 |
CN105243094A (zh) * | 2015-09-11 | 2016-01-13 | 苏州大学张家港工业技术研究院 | 一种基于微博文本和个人信息的用户职业分类方法及系统 |
CN105589941A (zh) * | 2015-12-15 | 2016-05-18 | 北京百分点信息科技有限公司 | 网络文本的情感信息检测方法和装置 |
CN109614490A (zh) * | 2018-12-21 | 2019-04-12 | 北京信息科技大学 | 基于lstm的金融新闻倾向性分析方法 |
CN110069625A (zh) * | 2017-09-22 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 一种内容分类方法、装置及服务器 |
CN112380346A (zh) * | 2020-11-23 | 2021-02-19 | 宁波深擎信息科技有限公司 | 金融新闻情感分析方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080001024A1 (en) * | 2006-02-08 | 2008-01-03 | Airbus France | Device for constructing and securing a low altitude flight plan path intended to be followed by an aircraft |
CN101127042A (zh) * | 2007-09-21 | 2008-02-20 | 浙江大学 | 一种基于语言模型的情感分类方法 |
CN102682124A (zh) * | 2012-05-16 | 2012-09-19 | 苏州大学 | 一种文本的情感分类方法及装置 |
CN103324758A (zh) * | 2013-07-10 | 2013-09-25 | 苏州大学 | 一种新闻分类方法和系统 |
CN104573114A (zh) * | 2015-02-04 | 2015-04-29 | 苏州大学 | 一种音乐分类方法及装置 |
-
2015
- 2015-05-11 CN CN201510236580.9A patent/CN104794241A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080001024A1 (en) * | 2006-02-08 | 2008-01-03 | Airbus France | Device for constructing and securing a low altitude flight plan path intended to be followed by an aircraft |
CN101127042A (zh) * | 2007-09-21 | 2008-02-20 | 浙江大学 | 一种基于语言模型的情感分类方法 |
CN102682124A (zh) * | 2012-05-16 | 2012-09-19 | 苏州大学 | 一种文本的情感分类方法及装置 |
CN103324758A (zh) * | 2013-07-10 | 2013-09-25 | 苏州大学 | 一种新闻分类方法和系统 |
CN104573114A (zh) * | 2015-02-04 | 2015-04-29 | 苏州大学 | 一种音乐分类方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105022845A (zh) * | 2015-08-26 | 2015-11-04 | 苏州大学张家港工业技术研究院 | 一种基于特征子空间的新闻分类方法及系统 |
CN105243094A (zh) * | 2015-09-11 | 2016-01-13 | 苏州大学张家港工业技术研究院 | 一种基于微博文本和个人信息的用户职业分类方法及系统 |
CN105589941A (zh) * | 2015-12-15 | 2016-05-18 | 北京百分点信息科技有限公司 | 网络文本的情感信息检测方法和装置 |
CN110069625A (zh) * | 2017-09-22 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 一种内容分类方法、装置及服务器 |
CN110069625B (zh) * | 2017-09-22 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 一种内容分类方法、装置及服务器 |
CN109614490A (zh) * | 2018-12-21 | 2019-04-12 | 北京信息科技大学 | 基于lstm的金融新闻倾向性分析方法 |
CN112380346A (zh) * | 2020-11-23 | 2021-02-19 | 宁波深擎信息科技有限公司 | 金融新闻情感分析方法、装置、计算机设备及存储介质 |
CN112380346B (zh) * | 2020-11-23 | 2023-04-25 | 宁波深擎信息科技有限公司 | 金融新闻情感分析方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104794241A (zh) | 一种基于情绪倾向性的新闻分类方法及系统 | |
Rustam et al. | Classification of shopify app user reviews using novel multi text features | |
Kayes et al. | The social world of content abusers in community question answering | |
CN104536953B (zh) | 一种文本情绪极性的识别方法及装置 | |
Beigi et al. | Signed link analysis in social media networks | |
CN108256104A (zh) | 基于多维特征的互联网网站综合分类方法 | |
CN106489149A (zh) | 一种基于数据挖掘和众包的数据标注方法及系统 | |
EP2846271A1 (en) | Method and device for obtaining product information and computer storage medium | |
CN110610193A (zh) | 标注数据的处理方法及装置 | |
CN110442568A (zh) | 字段标签的获取方法及装置、存储介质、电子装置 | |
CN104268134A (zh) | 一种主客观分类器构建方法和系统 | |
CN103324758B (zh) | 一种新闻分类方法和系统 | |
Isa et al. | Cyberbullying classification using text mining | |
CN104809104A (zh) | 一种微博文本情绪识别方法及系统 | |
CN106445908A (zh) | 文本识别方法和装置 | |
CN104573114A (zh) | 一种音乐分类方法及装置 | |
CN108090040A (zh) | 一种文本信息分类方法及系统 | |
CN110472256A (zh) | 一种基于篇章的机器翻译引擎测评优选方法及系统 | |
CN108959329A (zh) | 一种文本分类方法、装置、介质及设备 | |
CN108053351A (zh) | 智能高考志愿推荐系统和推荐方法 | |
CN102411592B (zh) | 一种文本分类方法和装置 | |
Seman et al. | Machine learning-based technique for big data sentiments extraction | |
Xia et al. | Improving patient opinion mining through multi-step classification | |
Reshi et al. | Rumor proliferation and detection in Social Media: A Review | |
CN108197337A (zh) | 一种文本分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150722 |
|
RJ01 | Rejection of invention patent application after publication |