CN108804524B - 基于层次化分类体系的情感判别和重要性划分方法 - Google Patents

基于层次化分类体系的情感判别和重要性划分方法 Download PDF

Info

Publication number
CN108804524B
CN108804524B CN201810394797.6A CN201810394797A CN108804524B CN 108804524 B CN108804524 B CN 108804524B CN 201810394797 A CN201810394797 A CN 201810394797A CN 108804524 B CN108804524 B CN 108804524B
Authority
CN
China
Prior art keywords
node
news data
classifier
news
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810394797.6A
Other languages
English (en)
Other versions
CN108804524A (zh
Inventor
冯翱
徐天豪
吴锡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhi Rui Tong Tuo Technology Co Ltd
Chengdu University of Information Technology
Original Assignee
Chengdu Zhi Rui Tong Tuo Technology Co Ltd
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhi Rui Tong Tuo Technology Co Ltd, Chengdu University of Information Technology filed Critical Chengdu Zhi Rui Tong Tuo Technology Co Ltd
Priority to CN201810394797.6A priority Critical patent/CN108804524B/zh
Publication of CN108804524A publication Critical patent/CN108804524A/zh
Application granted granted Critical
Publication of CN108804524B publication Critical patent/CN108804524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种基于层次化分类体系的情感判别和重要性划分方法,其包括:S1)采集垂直领域的大量新闻数据,其内容尽可能多样化;S2)分析垂直领域,根据层次化分类的思想对该领域进行层次化划分,划分后的垂直领域由树状图表示;S3)针对每层中的内节点和基类,选取一定量的新闻数据进行人工标注;S4)对于每个内节点和基类,使用S3中标注好的训练数据建立分类器,分类器输出新进新闻属于该节点的概率;S5)对于新采集到的新闻数据,使用S4中建立的分类器计算其属于每个节点的概率,将其归类于概率最大或超过门限值的节点,从而使得新闻数据被归类到内节点或基类;S6)将新闻数据归类到节点后,计算并确定其情感和重要性标签。

Description

基于层次化分类体系的情感判别和重要性划分方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于层次化分类体系的情感判别和重要性划分方法。
背景技术
随着网络信息的迅猛发展,互联网产生了海量的各种类型的原始信息,为了在浩如烟海又纷繁芜杂的信息中获取有效信息,信息处理成了人们必不可少的工具。在实际应用中,信息的获取往往聚焦于某一垂直领域,如财经、社会、体育等,以更好的对新闻的情感倾向(正面/负面/中性)和重要性(对于新闻主体影响高/中/低)进行判别,情感倾向和重要性是构建推荐系统及量化处理时的重要属性。在垂直领域内,通过层次化分类体系来构建分类器以自动对文本进行分类,是减少人工标注工作量和实时高效处理的前提。
在传统文本分类中,并没有考虑到类别间存在的层次关系,而简单的认为所有类别相互之间没有交集,同处于一个平面,从而使得特征间存在大量冗余,因此基于层次化体系对文本进行分类是非常必要的。在将文本通过分类器归入到细分领域后,进行情感倾向和重要性两个属性的判别,通常将正/负面新闻与重要性相结合,构成一个单维度的分类,从而将问题转化为一个多分类问题,可使用机器学习中的通用分类算法解决。因为细分领域的新闻中存在专有名词,一些情感倾向及重要程度通过与内容相关的语义特征表达,所以通用的基于情感词表的方法在很多领域中不再适用。以新闻《创美药业2016年全年盈利同比大幅增加125.15%》为例,“集团的毛利为人民币180.30百万元,同比增长9.47%;毛利率为4.91%,较上年度增加0.06个百分点;净利润率为1.62%,较上年度增加0.84个百分点。总费用率为3.06%,较上年度减少0.73个百分点”,在内容中出现了“增加”,也出现了“减少”,所以通过情感词很难判断文章情感倾向。实际的情感倾向要取决于关键词对应的主体,既文中的“毛利”“总费用率”,事实上,“增加”和“减少”对应的情感倾向都是正面的。
综上,现有技术方案主要包括:
1、不考虑新闻特征,与其他情感分类问题类似,使用通用情感词表构建分类器。该方案对于大量不含明显情感词的新闻,不能进行正确的情感和重要性判别。
2、采集某一垂直领域大量待分类新闻,由人工基于预先设定的规则,对于部分数据进行人工标注,并使用标注数据训练单一分类器,用分类器对未标注数据进行划分。然而,由于不同内容的新闻具有不同的情感和重要性划分标注,将所有类别的训练数据合并进行处理,训练得到的通用分类器对于大多数类别的分类效果都不够好。
3、现有的普通层次化分类方法,对垂直领域内新闻内容进行分类,采集各层次中不同节点的内容进行标注,再对每个节点使用相同分类器进行训练,之后新获取的新闻数据,使用分类器对其进行划分。该方案存在以下不足:即使单一垂直领域,同一层次内新闻仍有不同的特点,针对不同节点使用相同分类器进行训练,忽略了不同新闻内容间的差异性,各节点间只是参数不同,当节点过多时容易误分,很难获得高准确率的结果。
发明内容
针对现有技术之不足,本发明提出一种基于层次化分类体系的情感判别和重要性划分方法,其包括:
S1)采集垂直领域的大量新闻数据,其内容尽可能多样化;
S2)分析垂直领域,根据层次化分类的思想对该领域进行层次化划分,划分后的垂直领域由树状图表示,出现频率/概率高的细分领域被划分为内节点和基类,每层包含一个“其他”节点,归类出现频率低的细分领域;
S3)针对每层中的内节点和基类,选取一定量的新闻数据,由专业人员进行人工标注,其中数据量的选取应满足节点分类器的训练要求;
S4)对于每个内节点和基类,使用S3中标注好的训练数据建立分类器,分类器输出新进新闻属于该节点的概率,每个节点设置一个门限值Pmin;
S5)对于新采集到的新闻数据,使用S4中建立的分类器计算其属于每个节点的概率,将其归类于概率最大或超过门限值的节点,从而使得新闻数据被归类到内节点或基类;
S6)将新闻数据归类到节点后,计算并确定其情感和重要性标签。
根据一个优选实施方式,在S4中,所分类器采用的分类算法包括:支持向量机、贝叶斯模型、决策树和神经网络算法。
根据一个优选实施方式,在S5中,根据Naive Bayes分类方法计算新闻数据属于某节点的概率:
Figure BDA0001644314160000031
Figure BDA0001644314160000032
其中,di表示任意新闻数据,cj表示某节点;对di进行分类,就是将di放入概率值最大的节点,即:
Figure BDA0001644314160000033
本发明具有以下有益效果:
本发明设计了一种在垂直领域中,基于层次化分类体系的情感判别和重要性划分方法。该方法首先将垂直领域进行分层处理,层次结构中每一个内节点处都有一个分类器,该分类器通过对节点处的样本子集使用Bayes方法进行训练得到,最后使用这些分类器将大量未标注的待分类新闻数据分到每个层次结构的节点当中。之后对节点中的新闻数据,针对该节点主题进行情感和重要性分类,得到最终的分类标签。该方法可以有效提高情感和重要性分类的准确率,处理更有针对性,克服了对传统垂直领域新闻数据处理的弊端。同时,通过层次体系分类,提高了标注数据的精确度,提升了训练的效率。而且该方法的层次化分类思想,可以根据不同垂直领域内新闻数据的特点,使用多种算法来实现,有良好的适应性和可移植性。
附图说明
图1是本发明的方法流程图;
图2是垂直领域层次化分类的示意图;
图3是不同节点使用多种方法训练的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明的基于层次化分类体系的情感判别和重要性划分方法包括:
步骤1:
采集某垂直领域的大量新闻数据,内容尽可能多样化。
步骤2:
分析垂直领域,根据层次化分类的思想,可借助参考信息(包括但不限于百度指数等),对该领域进行层次化划分。划分后垂直领域可由树状图表示,出现频率/概率高的细分领域被划分为内节点(可再分)和基类(叶节点,不可再分),每层包含一个“其他”节点,归类出现频率低的细分领域。
步骤3:
针对每层中的内节点和基类,选取一定量的新闻数据,由专业人员进行人工标注,数据量的选取应满足节点分类器的训练要求。
步骤4:
对于每个内节点和基类,使用步骤3中标注好的训练数据建立分类器,分类器可根据该垂直领域的新闻特点选择,包括支持向量机、贝叶斯模型、决策树、神经网络等,此处不加以限制。分类器输出新进新闻属于该节点的概率,每个节点也要设置一个门限值Pmin,概率超过门限值时,不再继续向下判断。
步骤5:
对于新采集到的新闻数据,使用步骤4中分类器计算其属于每个节点的概率,将其归类于概率最大或超过门限值的节点,所以新闻数据会被归类到内节点或基类。假设di为任意新闻数据,计算其属于所有节点中某节点cj的概率,则根据Naive Bayes分类方法有:
Figure BDA0001644314160000051
Figure BDA0001644314160000052
对di进行分类,就是将di放入概率值最大的节点,即:
Figure BDA0001644314160000053
步骤6:
将新闻数据归类到节点后,使用与当前节点主题相关性强的情感词对新闻数据进行处理,根据匹配到的情感词的情感倾向及词频,确定该新闻数据的情感和重要性标签。
如图2所示,C1,C2,C3是对垂直领域的第一层分类,可看作是相对于根节点的三个基类,然后将层次分类问题逐层转化为一个个局部分类问题,在类树的每一个内部节点分别建立分类器。从图2中可以看出,对C2进行层次化分类,直到分出X1和X2两个基类,分类停止。
如图3所示,为系统的实现示意,针对不同节点,使用多种不同分类器进行训练,选取效果最好的作为节点应用的分类器。需要说明的是,该示意图中所示的具体训练方法是示意性的,在具体应用中,需要根据实际情况选取效果最好的方法作为节点应用的分类器。
本发明针对垂直领域中新闻数据间仍有细分差异,而不能高效准确处理的问题,设计了一种在垂直领域中,基于层次化分类体系的情感判别和重要性划分方法。该方法首先将垂直领域进行分层处理,层次结构中每一个内节点处都有一个分类器,该分类器通过对节点处的样本子集使用Bayes方法进行训练得到,最后使用这些分类器将大量未标注的待分类新闻数据分到每个层次结构的节点当中。之后对节点中的新闻数据,针对该节点主题进行情感和重要性分类,得到最终的分类标签。该方法可以有效提高情感和重要性分类的准确率,处理更有针对性,克服了对传统垂直领域新闻数据处理的弊端。同时,通过层次体系分类,提高了标注数据的精确度,提升了训练的效率。而且该方法的层次化分类思想,可以根据不同垂直领域内新闻数据的特点,使用多种算法来实现,有良好的适应性和可移植性。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims (2)

1.一种基于层次化分类体系的情感判别和重要性划分方法,其特征在于,其包括:
S1)采集垂直领域的新闻数据,其内容多样化;
S2)分析垂直领域,根据层次化分类的思想对该领域进行层次化划分,划分后的垂直领域由树状图表示,出现频率/概率高的细分领域被划分为内节点和基类,每层包含一个“其他”节点,归类出现频率低的细分领域;
S3)针对每层中的内节点和基类,选取新闻数据,由专业人员进行人工标注,其中数据量的选取应满足节点分类器的训练要求;
S4)对于每个内节点和基类,使用S3中标注好的训练数据建立分类器,分类器输出新进新闻属于该节点的概率,每个节点设置一个门限值Pmin;
S5)对于新采集到的新闻数据,使用S4中建立的分类器计算其属于每个节点的概率,将其归类于概率最大或超过门限值的节点,从而使得新闻数据被归类到内节点或基类;根据Naive Bayes分类方法计算新闻数据属于特定节点的概率:
Figure FDA0002321081520000011
Figure FDA0002321081520000012
其中,di表示任意新闻数据,cj表示节点;对di进行分类,就是将di放入概率值最大的节点,即:
Figure FDA0002321081520000013
S6)将新闻数据归类到节点后,根据匹配到的情感词的情感倾向及词频,确定该新闻数据的情感和重要性标签。
2.如权利要求1所述的方法,其特征在于,在S4中,所述 分类器采用的分类算法包括:支持向量机、贝叶斯模型、决策树和神经网络算法。
CN201810394797.6A 2018-04-27 2018-04-27 基于层次化分类体系的情感判别和重要性划分方法 Active CN108804524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810394797.6A CN108804524B (zh) 2018-04-27 2018-04-27 基于层次化分类体系的情感判别和重要性划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810394797.6A CN108804524B (zh) 2018-04-27 2018-04-27 基于层次化分类体系的情感判别和重要性划分方法

Publications (2)

Publication Number Publication Date
CN108804524A CN108804524A (zh) 2018-11-13
CN108804524B true CN108804524B (zh) 2020-03-27

Family

ID=64093566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810394797.6A Active CN108804524B (zh) 2018-04-27 2018-04-27 基于层次化分类体系的情感判别和重要性划分方法

Country Status (1)

Country Link
CN (1) CN108804524B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046171B (zh) * 2019-08-29 2022-08-16 成都信息工程大学 一种基于细粒度标注数据的情感判别方法
CN113470601B (zh) * 2021-07-07 2023-04-07 南昌航空大学 一种自动作曲方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682124A (zh) * 2012-05-16 2012-09-19 苏州大学 一种文本的情感分类方法及装置
CN106780073A (zh) * 2017-01-11 2017-05-31 中南大学 一种考虑用户行为和情感的社会网络影响力最大化初始节点选取方法
CN107491531A (zh) * 2017-08-18 2017-12-19 华南师范大学 基于集成学习框架的中文网络评论情感分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9111146B2 (en) * 2008-02-15 2015-08-18 Tivo Inc. Systems and methods for semantically classifying and normalizing shots in video

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682124A (zh) * 2012-05-16 2012-09-19 苏州大学 一种文本的情感分类方法及装置
CN106780073A (zh) * 2017-01-11 2017-05-31 中南大学 一种考虑用户行为和情感的社会网络影响力最大化初始节点选取方法
CN107491531A (zh) * 2017-08-18 2017-12-19 华南师范大学 基于集成学习框架的中文网络评论情感分类方法

Also Published As

Publication number Publication date
CN108804524A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
TWI735543B (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
KR101713831B1 (ko) 문서추천장치 및 방법
US20140304267A1 (en) Suffix tree similarity measure for document clustering
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN108536870A (zh) 一种融合情感特征和语义特征的文本情感分类方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN112699246A (zh) 基于知识图谱的领域知识推送方法
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN101876987A (zh) 一种面向类间交叠的两类文本分类方法
CN109902289A (zh) 一种面向模糊文本挖掘的新闻视频主题分割方法
CN108595704A (zh) 一种基于软分类模型的新闻情感和重要性分类方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN111626050A (zh) 基于表情词典与情感常识的微博情感分析方法
CN108804524B (zh) 基于层次化分类体系的情感判别和重要性划分方法
CN116451114A (zh) 基于企业多源实体特征信息的物联网企业分类系统及方法
CN110851733A (zh) 基于网络拓扑和文档内容的社团发现和情感解释方法
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
CN113987175A (zh) 一种基于医学主题词表增强表征的文本多标签分类方法
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN111984790B (zh) 一种实体关系抽取方法
CN117474126A (zh) 一种稿件初审评测的LLaMa2大数据模型设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant