CN108595704A - 一种基于软分类模型的新闻情感和重要性分类方法 - Google Patents
一种基于软分类模型的新闻情感和重要性分类方法 Download PDFInfo
- Publication number
- CN108595704A CN108595704A CN201810440970.1A CN201810440970A CN108595704A CN 108595704 A CN108595704 A CN 108595704A CN 201810440970 A CN201810440970 A CN 201810440970A CN 108595704 A CN108595704 A CN 108595704A
- Authority
- CN
- China
- Prior art keywords
- theme
- document
- news
- grader
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明涉及一种基于软分类模型的新闻情感和重要性分类方法,其包括以下步骤:采集新闻数据;使用采集的新闻文本集全量训练LDA主题模型,得到给定主题数的主题模型;选定需要建立分类器的一定数量主题,分别提取每个主题的典型样本,进行人工标注;对于选定的每个主题,使用标注的训练数据建立该主题的分类器;对于新进新闻数据,使用主题模型对文档D进行主题划分,得到在所有主题t中的概率分布P(t|D);使用分类器对文档内容进行分类,得到分类标签或标签概率;根据文档的主题分布和每个主题中的分类标签,计算该文档的分类标签,取所有标签中分值/概率最高的作为其情感和重要性标签。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于软分类模型的新闻情感和重要性分类方法。
背景技术
在大数据时代,新闻生成的速度远超个人能够处理的速度,为了保证有效的信息摄取,对于原始新闻进行适当的特征提取和筛选是在很多场景下都必需的步骤。在选取个人感兴趣的新闻,或者用数学模型进行量化处理的时候,新闻的情感倾向(正面/负面/中性)和重要性(对于新闻主体影响高/中/低)是其重要的属性。如何自动地对于原始文本新闻进行分类,减少人工标注的工作量,是实时高效新闻处理的前提。
情感倾向和重要性两个属性有一定关联关系,通常是在正面和负面倾向的新闻中需要重要性标签,从而组合形成一个单维度的分类,将两个(通常是)三分类问题转化为一个多分类问题,即正面高/正面中/正面低/中性/负面低/负面中/负面高。不管是哪种情况,都可以看作是对新闻文本的一个分类问题,使用机器学习中的通用分类算法解决。然而对于新闻,尤其是特定领域的新闻来说,通用的基于情感词表的方法在很多领域中不适用,因为某些新闻内容的情感倾向不用通用的情感词汇加以表达,而是由和内容直接相关的语义特征予以表达。以财经新闻领域的财务报表类新闻为例,新闻中通常只出现若干数字,以及“相比去年上升”、“同比减少”等等字样,即使由人工加以判别,也只能根据该领域规则确定其情感倾向和重要性,不能简单地提取关键词特征加以判别。
现有的关于新闻分类的技术方案包括:
1、不考虑新闻特征,与其他情感分类问题类似,使用通用情感词表构建分类器。该方案对于大量不含明显情感词的新闻,不能进行正确的情感和重要性判别。
2、采集大量待分类领域新闻,由人工基于预先设定的规则,对于部分数据进行人工标注,并使用标注数据训练单一分类器,用分类器对未标注数据进行划分。由于不同内容的新闻具有不同的情感和重要性划分标注,将所有类别的训练数据合并进行处理,训练得到的通用分类器对于大多数类别的分类效果都不够好。
3、考虑到领域新闻中的不同类型具有不同的判别标准,在数据采集时就有意识地分别采集各种不同内容的新闻,分别进行标注,然后训练每类不同的分类器,之后根据未标注新闻的内容,首先将其划分到最接近的类型,然后再用该类的分类器对其进行划分。该方案存在以下不足:在多数情况下,领域新闻的类型划分可以很细,直接导致的结果是在很多类型无法取到足够的样本数据。在大量类别中分别标注一定数量的训练数据需要消耗很大的工作量,而在某类训练数据不足的前提下,很难得到一个高精度的分类器。同时,对于待处理新闻的类型划分同样需要运行一个分类器,具有一定错分的可能,而错分到其他类别的新闻很难得到正确的处理结果。
发明内容
针对现有技术之不足,本发明提出了一种基于软分类模型的新闻情感和重要性分类方法,其包括以下步骤:
步骤1:采集新闻数据,所述新闻数据包含各个领域的多样化的新闻内容,从而覆盖不同类型的内容;
步骤2:使用步骤1采集的新闻文本集全量训练LDA主题模型,得到给定主题数的主题模型;
步骤3:选定需要建立分类器的一定数量主题,分别提取每个主题的典型样本,进行人工标注;
步骤4:对于步骤3中选定的每个主题,使用标注的训练数据建立该主题的分类器;
步骤5:对于新进新闻数据,使用步骤2中得到的主题模型对文档D进行主题划分,得到在所有主题t中的概率分布P(t|D);
步骤6:对于文档中涉及到的所有主题ti,如果是建立了分类器的,均使用对应的分类器对文档内容进行分类,从而得到对应的分类标签l或标签概率P(l|D,ti);
步骤7:根据文档的主题分布和每个主题中得到的分类标签,计算该文档的分类标签:
取所有标签中分值/概率最高的作为其情感和重要性标签。
根据一个优选实施方式,在步骤2中,所述主题模型的给定主题数范围为50至200。
根据一个优选实施方式,在步骤3中,对于训练得到主题中覆盖率最高的前10至50个主题,分别取该主题占比50%以上的文档进行人工标注。
根据一个优选实施方式,在步骤3中,对于训练得到主题中累计覆盖率占所有文档95%以上的主题,分别取该主题占比50%以上的文档进行人工标注。
根据一个优选实施方式,在步骤4中,所述分类器采用的分类算法包括支持向量机、贝叶斯模型、决策树、神经网络算法。分类器输出可以是只有一个分类标签的硬分类,也可以是在各种标签中形成一个概率分布的软分类算法。
本发明具有以下有益效果:
本发明提出了一种基于软分类模型的新闻情感和重要性分类方法,该方法将每个新闻文档看作多个主题内容的组合,使用LDA训练主题模型参数,然后基于最重要的若干个主题分别进行标注和训练,得到多个独立分类器。然后对于每个未标注文档,首先使用LDA模型进行主题划分,在主要主题上进行情感和重要性的分类,再根据文档的主题分布,组合各主题上的分类结果,得到最终的分类标签。该方法可以有效地克服新闻文本中缺乏情感关键词的问题,同时能更有效地进行数据的标注和新闻的训练,对于新闻类别划分中的错误也能一定程度上加以补偿,取得比对照算法更好的分类效果。该模型不受具体算法的制约,对于所有输出单标签或一定概率分布的基本分类算法均适用,具有良好的适应性。
附图说明
图1是本发明的方法流程图;
图2是本发明中LDA模型的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明的基于软分类模型的新闻情感和重要性分类方法包括以下步骤:
步骤1:采集大量的领域新闻,新闻内容尽可能多样化,覆盖更多的不同类型内容。
步骤2:采用以Latent Dirichlet Allocation(LDA)为代表的主题模型,使用前一步采集的新闻文本集全量进行训练,得到给定主题数的主题模型。前述的给定主题数初步选定为100,并可以根据具体情况进行调整。
步骤3:对于训练得到主题中覆盖率最高的前若干个(可以用数量选定,如前20;或者用累计覆盖率选定,如占所有文档的95%以上),分别取该主题占主导地位(占比50%以上)的文档若干个,进行人工标注。
步骤4:对于上述选定的每个主题,使用标注的训练数据建立该主题的分类器。分类器可以在各种通用分类算法中选择,包括支持向量机、贝叶斯模型、决策树、神经网络等,此处不加以限制。分类器输出可以是只有一个分类标签的硬分类,也可以是在各种标签中形成一个概率分布的软分类算法。
步骤5:对于新进新闻数据,使用步骤2中得到的主题模型对文档D进行主题划分,得到在所有主题t中的一个概率分布P(t|D)。
步骤6:在该文档中涉及到的所有主题ti,如果是建立了分类器的,均使用该分类器对文档内容进行分类,得到对应的分类标签l或标签概率P(l|D,ti)。
步骤7:根据文档的主题分布和每个主题中得到的分类标签,计算该文档的分类标签
取所有标签中分值/概率最高的作为其情感和重要性标签。
如图2所示为LDA模型的示意图,图2中α和β是待训练的外部参数。α是决定各主题Dirichlet分布的参数,由它决定每个文档θ中主题的分布概率,由θ决定生成一个主体z的概率,然后z再和外部的词频分布参数β结合,生成关键词w的生成概率。
给定参数α和β,生成其他参数的联合分布概率计算公式为:
训练该模型用到Expectation-Maximization(EM)算法,EM算法为本领域技术人员的公知常识,此处不再赘述。
本发明针对传统情感分类方法不能有效处理新闻数据的特点,设计了一种基于软分类模型的新闻情感和重要性分类方法。该方法将每个新闻文档看作多个主题内容的组合,使用LDA训练主题模型参数,然后基于最重要的若干个主题分别进行标注和训练,得到多个独立分类器。然后对于每个未标注文档,首先使用LDA模型进行主题划分,在主要主题上进行情感和重要性的分类,再根据文档的主题分布,组合各主题上的分类结果,得到最终的分类标签。该方法可以有效地克服新闻文本中缺乏情感关键词的问题,同时能更有效地进行数据的标注和新闻的训练,对于新闻类别划分中的错误也能一定程度上加以补偿,取得比对照算法更好的分类效果。该模型不受具体算法的制约,对于所有输出单标签或一定概率分布的基本分类算法均适用,具有良好的适应性。
需要注意的是,上述具体实施方式是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。
Claims (5)
1.一种基于软分类模型的新闻情感和重要性分类方法,其特征在于,包括以下步骤:
步骤1:采集新闻数据,所述新闻数据包含各个领域的多样化的新闻内容,从而覆盖不同类型的内容;
步骤2:使用步骤1采集的新闻文本集全量训练LDA主题模型,得到给定主题数的主题模型;
步骤3:选定需要建立分类器的一定数量主题,分别提取每个主题的典型样本,进行人工标注;
步骤4:对于步骤3中选定的每个主题,使用标注的训练数据建立该主题的分类器;
步骤5:对于新进新闻数据,使用步骤2中得到的主题模型对文档D进行主题划分,得到在所有主题t中的概率分布P(t|D);
步骤6:对于文档中涉及到的所有主题ti,如果是建立了分类器的,均使用对应的分类器对文档内容进行分类,从而得到对应的分类标签l或标签概率P(l|D,ti);
步骤7:根据文档的主题分布和每个主题中得到的分类标签,计算该文档的分类标签:
取所有标签中分值/概率最高的作为其情感和重要性标签。
2.如权利要求1所述的分类方法,其特征在于,在步骤2中,所述主题模型的给定主题数范围为50至200。
3.如权利要求1所述的分类方法,其特征在于,在步骤3中,对于训练得到主题中覆盖率最高的前10至50个主题,分别取该主题占比50%以上的文档进行人工标注。
4.如权利要求1所述的分类方法,其特征在于,在步骤3中,对于训练得到主题中累计覆盖率占所有文档95%以上的主题,分别取该主题占比50%以上的文档进行人工标注。
5.如权利要求1至4之一所述的分类方法,其特征在于,在步骤4中,所述分类器采用的分类算法包括支持向量机、贝叶斯模型、决策树和神经网络算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810440970.1A CN108595704A (zh) | 2018-05-10 | 2018-05-10 | 一种基于软分类模型的新闻情感和重要性分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810440970.1A CN108595704A (zh) | 2018-05-10 | 2018-05-10 | 一种基于软分类模型的新闻情感和重要性分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108595704A true CN108595704A (zh) | 2018-09-28 |
Family
ID=63636315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810440970.1A Pending CN108595704A (zh) | 2018-05-10 | 2018-05-10 | 一种基于软分类模型的新闻情感和重要性分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595704A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508459A (zh) * | 2018-11-06 | 2019-03-22 | 杭州费尔斯通科技有限公司 | 一种从新闻中提取主题和关键信息的方法 |
CN109544150A (zh) * | 2018-10-09 | 2019-03-29 | 阿里巴巴集团控股有限公司 | 一种分类模型生成方法及装置、计算设备及存储介质 |
CN109726768A (zh) * | 2019-01-18 | 2019-05-07 | 北京智游网安科技有限公司 | 应用程序页面文字的行业分类方法、存储介质及终端设备 |
CN110347977A (zh) * | 2019-06-28 | 2019-10-18 | 太原理工大学 | 一种基于lda模型的新闻自动标签方法 |
CN110502638A (zh) * | 2019-08-30 | 2019-11-26 | 重庆誉存大数据科技有限公司 | 一种基于目标实体的企业新闻风险分类方法 |
CN111046171A (zh) * | 2019-08-29 | 2020-04-21 | 成都信息工程大学 | 一种基于细粒度标注数据的情感判别方法 |
CN113590822A (zh) * | 2021-07-28 | 2021-11-02 | 北京百度网讯科技有限公司 | 文档标题的处理方法、装置、设备、存储介质及程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN107025299A (zh) * | 2017-04-24 | 2017-08-08 | 北京理工大学 | 一种基于加权lda主题模型的金融舆情感知方法 |
CN107315797A (zh) * | 2017-06-19 | 2017-11-03 | 江西洪都航空工业集团有限责任公司 | 一种网络新闻获取及文本情感预测系统 |
-
2018
- 2018-05-10 CN CN201810440970.1A patent/CN108595704A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN107025299A (zh) * | 2017-04-24 | 2017-08-08 | 北京理工大学 | 一种基于加权lda主题模型的金融舆情感知方法 |
CN107315797A (zh) * | 2017-06-19 | 2017-11-03 | 江西洪都航空工业集团有限责任公司 | 一种网络新闻获取及文本情感预测系统 |
Non-Patent Citations (1)
Title |
---|
毛龙龙: "基于LDA模型的微博情感分析技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109544150A (zh) * | 2018-10-09 | 2019-03-29 | 阿里巴巴集团控股有限公司 | 一种分类模型生成方法及装置、计算设备及存储介质 |
CN109508459A (zh) * | 2018-11-06 | 2019-03-22 | 杭州费尔斯通科技有限公司 | 一种从新闻中提取主题和关键信息的方法 |
CN109508459B (zh) * | 2018-11-06 | 2022-11-29 | 杭州费尔斯通科技有限公司 | 一种从新闻中提取主题和关键信息的方法 |
CN109726768A (zh) * | 2019-01-18 | 2019-05-07 | 北京智游网安科技有限公司 | 应用程序页面文字的行业分类方法、存储介质及终端设备 |
CN110347977A (zh) * | 2019-06-28 | 2019-10-18 | 太原理工大学 | 一种基于lda模型的新闻自动标签方法 |
CN111046171A (zh) * | 2019-08-29 | 2020-04-21 | 成都信息工程大学 | 一种基于细粒度标注数据的情感判别方法 |
CN110502638A (zh) * | 2019-08-30 | 2019-11-26 | 重庆誉存大数据科技有限公司 | 一种基于目标实体的企业新闻风险分类方法 |
CN110502638B (zh) * | 2019-08-30 | 2023-05-16 | 重庆誉存大数据科技有限公司 | 一种基于目标实体的企业新闻风险分类方法 |
CN113590822A (zh) * | 2021-07-28 | 2021-11-02 | 北京百度网讯科技有限公司 | 文档标题的处理方法、装置、设备、存储介质及程序产品 |
CN113590822B (zh) * | 2021-07-28 | 2023-08-08 | 北京百度网讯科技有限公司 | 文档标题的处理方法、装置、设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595704A (zh) | 一种基于软分类模型的新闻情感和重要性分类方法 | |
CN109189901B (zh) | 一种智能客服系统中自动发现新分类以及对应语料的方法 | |
CN107622104B (zh) | 一种文字图像识别标注方法及系统 | |
CN104463552B (zh) | 日历提醒生成方法和装置 | |
Gao et al. | Image spam hunter | |
CN105160299B (zh) | 基于贝叶斯融合稀疏表示分类器的人脸情感识别方法 | |
CN107025299B (zh) | 一种基于加权lda主题模型的金融舆情感知方法 | |
Katakis et al. | An ensemble of classifiers for coping with recurring contexts in data streams | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN110276054A (zh) | 一种保险文本结构化实现方法 | |
CN108897778A (zh) | 一种基于多源大数据分析的图像标注方法 | |
CN107885849A (zh) | 一种基于文本分类的情绪指数分析系统 | |
CN109446300A (zh) | 一种语料预处理方法、语料预标注方法及电子设备 | |
Zhang et al. | Sentiment analysis on microblogging by integrating text and image features | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN111538821A (zh) | 智能客服中解决知识库冷启动的方法和装置 | |
WO2021136315A1 (zh) | 基于行为结构和语义内容联合分析的邮件分类方法及装置 | |
CN108829661A (zh) | 一种基于模糊匹配的新闻主体名称提取方法 | |
CN109948148A (zh) | 一种文本信息情感判定方法和判定装置 | |
CN110225210A (zh) | 基于通话摘要自动填写工单方法及系统 | |
CN108596637A (zh) | 一种电商服务问题自动发现系统 | |
CN110738047A (zh) | 基于图文数据与时间效应的微博用户兴趣挖掘方法及系统 | |
Baumann et al. | Message extraction from printed documents-a complete solution | |
CN108804524B (zh) | 基于层次化分类体系的情感判别和重要性划分方法 | |
CN108829806A (zh) | 一种跨事件新闻文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180928 |