CN108595704A

CN108595704A - 一种基于软分类模型的新闻情感和重要性分类方法

Info

Publication number: CN108595704A
Application number: CN201810440970.1A
Authority: CN
Inventors: 冯翱
Original assignee: Chengdu Zhi Rui Tong Tuo Technology Co Ltd; Chengdu University of Information Technology
Current assignee: Chengdu Zhi Rui Tong Tuo Technology Co Ltd; Chengdu University of Information Technology
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2018-09-28

Abstract

本发明涉及一种基于软分类模型的新闻情感和重要性分类方法，其包括以下步骤：采集新闻数据；使用采集的新闻文本集全量训练LDA主题模型，得到给定主题数的主题模型；选定需要建立分类器的一定数量主题，分别提取每个主题的典型样本，进行人工标注；对于选定的每个主题，使用标注的训练数据建立该主题的分类器；对于新进新闻数据，使用主题模型对文档D进行主题划分，得到在所有主题t中的概率分布P(t|D)；使用分类器对文档内容进行分类，得到分类标签或标签概率；根据文档的主题分布和每个主题中的分类标签，计算该文档的分类标签，取所有标签中分值/概率最高的作为其情感和重要性标签。

Description

一种基于软分类模型的新闻情感和重要性分类方法

技术领域

本发明涉及数据处理领域，尤其涉及一种基于软分类模型的新闻情感和重要性分类方法。

背景技术

在大数据时代，新闻生成的速度远超个人能够处理的速度，为了保证有效的信息摄取，对于原始新闻进行适当的特征提取和筛选是在很多场景下都必需的步骤。在选取个人感兴趣的新闻，或者用数学模型进行量化处理的时候，新闻的情感倾向(正面/负面/中性)和重要性(对于新闻主体影响高/中/低)是其重要的属性。如何自动地对于原始文本新闻进行分类，减少人工标注的工作量，是实时高效新闻处理的前提。

情感倾向和重要性两个属性有一定关联关系，通常是在正面和负面倾向的新闻中需要重要性标签，从而组合形成一个单维度的分类，将两个(通常是)三分类问题转化为一个多分类问题，即正面高/正面中/正面低/中性/负面低/负面中/负面高。不管是哪种情况，都可以看作是对新闻文本的一个分类问题，使用机器学习中的通用分类算法解决。然而对于新闻，尤其是特定领域的新闻来说，通用的基于情感词表的方法在很多领域中不适用，因为某些新闻内容的情感倾向不用通用的情感词汇加以表达，而是由和内容直接相关的语义特征予以表达。以财经新闻领域的财务报表类新闻为例，新闻中通常只出现若干数字，以及“相比去年上升”、“同比减少”等等字样，即使由人工加以判别，也只能根据该领域规则确定其情感倾向和重要性，不能简单地提取关键词特征加以判别。

现有的关于新闻分类的技术方案包括：

1、不考虑新闻特征，与其他情感分类问题类似，使用通用情感词表构建分类器。该方案对于大量不含明显情感词的新闻，不能进行正确的情感和重要性判别。

2、采集大量待分类领域新闻，由人工基于预先设定的规则，对于部分数据进行人工标注，并使用标注数据训练单一分类器，用分类器对未标注数据进行划分。由于不同内容的新闻具有不同的情感和重要性划分标注，将所有类别的训练数据合并进行处理，训练得到的通用分类器对于大多数类别的分类效果都不够好。

3、考虑到领域新闻中的不同类型具有不同的判别标准，在数据采集时就有意识地分别采集各种不同内容的新闻，分别进行标注，然后训练每类不同的分类器，之后根据未标注新闻的内容，首先将其划分到最接近的类型，然后再用该类的分类器对其进行划分。该方案存在以下不足：在多数情况下，领域新闻的类型划分可以很细，直接导致的结果是在很多类型无法取到足够的样本数据。在大量类别中分别标注一定数量的训练数据需要消耗很大的工作量，而在某类训练数据不足的前提下，很难得到一个高精度的分类器。同时，对于待处理新闻的类型划分同样需要运行一个分类器，具有一定错分的可能，而错分到其他类别的新闻很难得到正确的处理结果。

发明内容

针对现有技术之不足，本发明提出了一种基于软分类模型的新闻情感和重要性分类方法，其包括以下步骤：

步骤1：采集新闻数据，所述新闻数据包含各个领域的多样化的新闻内容，从而覆盖不同类型的内容；

步骤2：使用步骤1采集的新闻文本集全量训练LDA主题模型，得到给定主题数的主题模型；

步骤3：选定需要建立分类器的一定数量主题，分别提取每个主题的典型样本，进行人工标注；

步骤4：对于步骤3中选定的每个主题，使用标注的训练数据建立该主题的分类器；

步骤5：对于新进新闻数据，使用步骤2中得到的主题模型对文档D进行主题划分，得到在所有主题t中的概率分布P(t|D)；

步骤6：对于文档中涉及到的所有主题t_i，如果是建立了分类器的，均使用对应的分类器对文档内容进行分类，从而得到对应的分类标签l或标签概率P(l|D,t_i)；

步骤7：根据文档的主题分布和每个主题中得到的分类标签，计算该文档的分类标签：

取所有标签中分值/概率最高的作为其情感和重要性标签。

根据一个优选实施方式，在步骤2中，所述主题模型的给定主题数范围为50至200。

根据一个优选实施方式，在步骤3中，对于训练得到主题中覆盖率最高的前10至50个主题，分别取该主题占比50％以上的文档进行人工标注。

根据一个优选实施方式，在步骤3中，对于训练得到主题中累计覆盖率占所有文档95％以上的主题，分别取该主题占比50％以上的文档进行人工标注。

根据一个优选实施方式，在步骤4中，所述分类器采用的分类算法包括支持向量机、贝叶斯模型、决策树、神经网络算法。分类器输出可以是只有一个分类标签的硬分类，也可以是在各种标签中形成一个概率分布的软分类算法。

本发明具有以下有益效果：

本发明提出了一种基于软分类模型的新闻情感和重要性分类方法，该方法将每个新闻文档看作多个主题内容的组合，使用LDA训练主题模型参数，然后基于最重要的若干个主题分别进行标注和训练，得到多个独立分类器。然后对于每个未标注文档，首先使用LDA模型进行主题划分，在主要主题上进行情感和重要性的分类，再根据文档的主题分布，组合各主题上的分类结果，得到最终的分类标签。该方法可以有效地克服新闻文本中缺乏情感关键词的问题，同时能更有效地进行数据的标注和新闻的训练，对于新闻类别划分中的错误也能一定程度上加以补偿，取得比对照算法更好的分类效果。该模型不受具体算法的制约，对于所有输出单标签或一定概率分布的基本分类算法均适用，具有良好的适应性。

附图说明

图1是本发明的方法流程图；

图2是本发明中LDA模型的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明的基于软分类模型的新闻情感和重要性分类方法包括以下步骤：

步骤1：采集大量的领域新闻，新闻内容尽可能多样化，覆盖更多的不同类型内容。

步骤2：采用以Latent Dirichlet Allocation(LDA)为代表的主题模型，使用前一步采集的新闻文本集全量进行训练，得到给定主题数的主题模型。前述的给定主题数初步选定为100，并可以根据具体情况进行调整。

步骤3：对于训练得到主题中覆盖率最高的前若干个(可以用数量选定，如前20；或者用累计覆盖率选定，如占所有文档的95％以上)，分别取该主题占主导地位(占比50％以上)的文档若干个，进行人工标注。

步骤4：对于上述选定的每个主题，使用标注的训练数据建立该主题的分类器。分类器可以在各种通用分类算法中选择，包括支持向量机、贝叶斯模型、决策树、神经网络等，此处不加以限制。分类器输出可以是只有一个分类标签的硬分类，也可以是在各种标签中形成一个概率分布的软分类算法。

步骤5：对于新进新闻数据，使用步骤2中得到的主题模型对文档D进行主题划分，得到在所有主题t中的一个概率分布P(t|D)。

步骤6：在该文档中涉及到的所有主题t_i，如果是建立了分类器的，均使用该分类器对文档内容进行分类，得到对应的分类标签l或标签概率P(l|D,t_i)。

步骤7：根据文档的主题分布和每个主题中得到的分类标签，计算该文档的分类标签

取所有标签中分值/概率最高的作为其情感和重要性标签。

如图2所示为LDA模型的示意图，图2中α和β是待训练的外部参数。α是决定各主题Dirichlet分布的参数，由它决定每个文档θ中主题的分布概率，由θ决定生成一个主体z的概率，然后z再和外部的词频分布参数β结合，生成关键词w的生成概率。

给定参数α和β，生成其他参数的联合分布概率计算公式为：

训练该模型用到Expectation-Maximization(EM)算法，EM算法为本领域技术人员的公知常识，此处不再赘述。

本发明针对传统情感分类方法不能有效处理新闻数据的特点，设计了一种基于软分类模型的新闻情感和重要性分类方法。该方法将每个新闻文档看作多个主题内容的组合，使用LDA训练主题模型参数，然后基于最重要的若干个主题分别进行标注和训练，得到多个独立分类器。然后对于每个未标注文档，首先使用LDA模型进行主题划分，在主要主题上进行情感和重要性的分类，再根据文档的主题分布，组合各主题上的分类结果，得到最终的分类标签。该方法可以有效地克服新闻文本中缺乏情感关键词的问题，同时能更有效地进行数据的标注和新闻的训练，对于新闻类别划分中的错误也能一定程度上加以补偿，取得比对照算法更好的分类效果。该模型不受具体算法的制约，对于所有输出单标签或一定概率分布的基本分类算法均适用，具有良好的适应性。

需要注意的是，上述具体实施方式是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种基于软分类模型的新闻情感和重要性分类方法，其特征在于，包括以下步骤：

取所有标签中分值/概率最高的作为其情感和重要性标签。

2.如权利要求1所述的分类方法，其特征在于，在步骤2中，所述主题模型的给定主题数范围为50至200。

3.如权利要求1所述的分类方法，其特征在于，在步骤3中，对于训练得到主题中覆盖率最高的前10至50个主题，分别取该主题占比50％以上的文档进行人工标注。

4.如权利要求1所述的分类方法，其特征在于，在步骤3中，对于训练得到主题中累计覆盖率占所有文档95％以上的主题，分别取该主题占比50％以上的文档进行人工标注。

5.如权利要求1至4之一所述的分类方法，其特征在于，在步骤4中，所述分类器采用的分类算法包括支持向量机、贝叶斯模型、决策树和神经网络算法。