CN110738053A

CN110738053A - 基于语义分析与监督学习模型的新闻主题推荐算法

Info

Publication number: CN110738053A
Application number: CN201910971023.XA
Authority: CN
Inventors: 麦淼; 李梓华; 王梦环
Original assignee: Guangdong Southern New Media Technology Co Ltd
Current assignee: Guangdong Southern New Media Technology Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-01-31

Abstract

本发明属于稿件内容语义上的主题分析技术领域，涉及一种基于语义分析与监督学习模型的新闻主题推荐算法，主要分为三部分：首先是主题聚类，其次是标题与主题相似度计算，最后进行监督分类。本发明基于语义分析与监督学习模型的新闻主题推荐算法与传统的主题聚类算法相比，依赖于监督分类算法的预测稳定性和算法的健壮性优胜于的主题聚类算法，同时也结合了主题聚类算法的灵活性，解决了监督学习缺乏训练集的问题。

Description

基于语义分析与监督学习模型的新闻主题推荐算法

技术领域

本发明属于稿件内容语义上的主题分析技术领域，涉及一种基于语义分析与监督学习模型的新闻主题推荐算法。

背景技术

在如今新媒体崛起时代，APP上新闻内容的选择面越来越广，也意味着用户的阅读习惯也越来越被动，为了能够快速准确的抓住用户的眼球，通过对新闻稿件定义主题，细化用户的阅读爱好，深度挖掘出用户潜意识里喜欢浏览的主题内容。例如某个用户喜欢看娱乐类新闻，但是娱乐新闻里有分为不同种类的元素，例如：纪录片、电视剧、影视类等，这位用户是电影爱好者，但近期时间喜欢上了纪录片，可能阅读行为由原来的重度浏览影视类新闻转向了纪录片。这时要实时掌控用户的兴趣爱好的变化，如果没有对新闻稿件做主题分类，那么对于用户的兴趣掌握仅仅局限于娱乐类新闻。

对于主题的定义是没有明确的样本来训练的，需要用机器代替人力去给大批量的新闻稿件定义主题显然是有一定的难度。对于无样本的情况，优先选择无监督LDA聚类算法来分析稿件的主题。对于聚类方法虽然能在一定程度上来划分主题内容，但面对一些边缘化，内容模棱两可的稿件显然是力不从心的。

发明内容

本发明针对上述的问题，提供了一种基于语义分析与监督学习模型的新闻主题推荐算法。

为了达到上述目的，本发明采用的技术方案为，

一种基于语义分析与监督学习模型的新闻主题推荐算法，依次包括主题聚类、标题与主题相似度计算、监督分类；

所述主体聚类采用LDA主题算法进行处理；

所述标题与主题相似度计算采用Word2Vec算法进行处理；

所述监督分类采用朴素贝叶斯算法进行处理。

作为优选，所述主体聚类则是采用LDA主题算法对媒体主流栏目提取主题特征；具体步骤如下：

步骤一

1)LDA主题训练数据预处理，提取稿件编号、稿件内容、稿件栏目组合成3个维度的文章集合；

2)在文章集合中将稿件内容做分词处理得到词语列表，将词语列表替换掉原来的稿件内容字段；

步骤二

1)采用LDA主题算法分别对每个栏目做主题聚类，主题聚类的数量原则是宁多勿少，尽可能的将栏目下的主题细化。现设每个栏目聚20个主题，则15个栏目的话，总共就用300个主题；

2)提取出每个主题下概率最高的前10个词语以及词语与主题关联的概率值；

步骤三

根据步骤二中提取的Top 10词语的语义初步给每个主题定义一个主题，最终将Top 10主题词、Top 10主题词关联概率、主题名构成LDA算法主题特征。

作为优选，所述媒体主流栏目包括社会、教育、体育、文娱、房产、汽车、数码、科技。

作为优选，所述标题与主题相似度计算则是采用Word2Vec算法对LDA主题算法提取出的主题特征做主题特征转换，并加入文本语义相似计算，以及本相似度为主题聚类公式，具体步骤如下：

步骤四

对稿件做分词处理得到词语列表，词语列表作为Word2Vec模型的训练集，通过模型计算出词语列表每个词语映射到语义空间的向量，简称词向量；并将词向量保存入库，以便后续步骤的关联词向量；

步骤五

对稿件标题同样做分词处理得到标题词列表，根据步骤四中保存的词向量映射表，查询列表中标题词对应的词向量得到词向量列表W，最后对词向量列表求平均，求到均值即为标题向量T：

步骤六

根据步骤四中保存的词向量映射表，查询Top 10主题词的词向量得到词向量列表W，再根据主题词关联概率WP，以及主题词关联概率的总和P计算出Top 10主题词概率向量TP：

步骤七

根据步骤五和步骤六先后得到的标题向量T和Top 10主题词概率向量TP，计算出这两个向量的距离得到主题相似距离D：

步骤八

步骤五到步骤七的过程为稿件标题与主题词的文本相似度计算的过程，这过程计算的只是与一个主题聚类计算，本次总共有300个主题，则还需要迭代剩余的299次计算，最终计算出一篇稿件的标题与300个主题的相似距离，相似距离越接近0，则主题与标题内容越吻合，则取最小值作为稿件的主题。

作为优选，所述标题与主题相似度计算中得到的主题需人工干预对当前结果做优化处理，具体步骤如下：

步骤九

根据主题对稿件进行分组，然后每个主题组的稿件内按照主题相似距离进行升序排序，得到300个稿件升序列表，一个列表代表了一个主题的稿件数据；

步骤十

稿件升序列表用二分法截取预测结果进行观察，找出主题与标题内容较为吻合概率区间，并取区间的中间值作为主题的阈值，最终得到300个主题的阈值；

步骤十一

根据主题阈值进行过滤，将主题相似距离大于阈值的稿件过滤掉，没过滤的稿件为本轮优化后的主题聚类结果。

作为优选，所述主体聚类结果作为主题监督分类训练集，采用朴素贝叶斯算法对稿件的正文内容进行主题分类，具体步骤如下：

步骤十二

首先从训练集中提取出优质训练子集作为模型的训练集，根据相似距离进行升序排序，截取前1/3部分作为优质训练集(提取时还需要根据实际情况考虑，一方面是提取出来的训练集不能存在数据倾斜的问题，另一方面需要观察提取出来的训练集的聚类效果的错误率是否在可接受范围内。如存在以上问题，则截取的长度需要再作调整)；

步骤十三

对稿件内容进行分词处理，得到正文词列表。合并所有稿件的正文词到一个集合列表中，最终得到全文词库WordList，

WordList＝[w₁,w₂,w₃,......,w_n]；

步骤十四

根据步骤十三得到的全文词库，对训练集的正文词列表进行词频统计，得到词频向量WordCount，稿件的词频向量作为训练特征、主题作为标签构成朴素贝叶斯分类模型的训练数据。

WordCount＝[c₁,c₂,c₃,.....,c_n]；

步骤十五

根据以上数据进行训练，采用朴素贝叶斯分类模型对稿件进行主题分类预测，

WordCount＝[c₁,c₂,c₃,.....,c_n]；

其中P(x)为正文词列表概率，P(y)为主题标签的先验概率，P(x|y)是正文词在每个主题下的条件概率。

与现有技术相比，本发明的优点和积极效果在于，

1、本发明基于语义分析与监督学习模型的新闻主题推荐算法与传统的主题聚类算法相比，依赖于监督分类算法的预测稳定性和算法的健壮性优胜于的主题聚类算法，同时也结合了主题聚类算法的灵活性，解决了监督学习缺乏训练集的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为基于语义分析与监督学习模型的新闻主题推荐算法的总体流程图；

图2为LDA主体聚类算法的流程图；

图3为计算标题与主题文本相似度的流程图；

图4为人工干预主题阙值的流程图；

图5为主题分类的流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和实施例对本发明做进一步说明。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开说明书的具体实施例的限制。

实施例1，如图1-图5所示，本发明提供了一种基于语义分析与监督学习模型的新闻主题推荐算法，依次包括主题聚类、标题与主题相似度计算、监督分类；其主体聚类采用LDA主题算法进行处理；其标题与主题相似度计算采用Word2Vec算法进行处理；其监督分类采用朴素贝叶斯算法进行处理。

基于文本相似计算的标题主题相似距离算法和朴素贝叶斯算法融合算法

该算法包含稿件正文内容LDA主题聚类算法、Word2Vec文本相似度算法和朴素贝叶斯算法。首先采用LDA算法对全库稿件进行训练，生成300个稿件主题，然后用Word2Vec算法计算出稿件标题和Top 10主题词的相似距离计算出全库稿件初步主题标签，最后通过主题相似距离进行升序排序，根据相似距离越小，主题与标题越吻合的规则，提取出优质监督分类训练集，最后采用朴素贝叶斯算法训练出基于稿件正文内容的主题分类模型。

下面具体解释以下各个步骤。

LDA主题聚类

流程图如图2所示

①数据预处理：提取稿件编号、稿件内容、稿件栏目组合成3个维度的文章集合

②对稿件正文内容分词

③基于每个栏目下采用LDA算法进行主题聚类

④基于聚类结果提取每个主题下概率值最大的Top 10个主题词

⑤根据Top 10主题词的语义定义主题的名字

⑥基于以上提取到的信息，构建成主题特征：[Top 10主题词,Top 10主题词的概率,主题名]

计算标题与主题文本相似度

流程图如图3所示

①采用Word2Vec算法，对全库稿件内容分词结果进行训练，计算出全库稿件词的词向量

②对稿件标题进行分词

③基于①中得到的词向量库，查询标题词语的词向量

④计算标题词向量的平均值，得到标题向量

⑤查询各个主题Top 10主题词的词向量

⑥根据各个主题的Top 10词向量和概率，根据下面公式计算出每个主题的特征向量

⑦根据欧式距离公式，计算标题向量与主题特征向量的距离，即为相似距离

⑧升序排序主题相似距离，取距离最小值的主题定义为标题的主题

人工干预主题阈值

流程图如图4所示

①根据上一步得到的标题主题，将稿件按照标题主题进行分组，得到若干主题组

②每个主题组根据主题相似距离进行升序排序

③采用二分法进行组内观察，找出主题与标题内容较为吻合概率区间，并取区间的中间值作为主题的阈值

④过滤掉相似度小于阈值的稿件

主题分类

流程图如图5所示

①根据相似距离进行升序排序，截取前1/3部分作为优质训练集

②对全库稿件内容进行分词处理，得到正文词列表。合并所有稿件的正文词到一个集

合列表中，最终得到全文词库

③根据②得到的全文词库，对训练集的正文词列表进行词频统计，得到词频向量

④根据稿件的词频向量作为训练特征、主题作为标签构成朴素贝叶斯分类模型的训练数据

⑤根据以上数据进行训练，采用朴素贝叶斯分类模型对稿件进行主题分类预测

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于语义分析与监督学习模型的新闻主题推荐算法，其特征在于，依次包括主题聚类、标题与主题相似度计算、监督分类；

所述主体聚类采用LDA主题算法进行处理；

所述标题与主题相似度计算采用Word2Vec算法进行处理；

所述监督分类采用朴素贝叶斯算法进行处理。

2.根据权利要求1所述的基于语义分析与监督学习模型的新闻主题推荐算法，其特征在于，所述主体聚类则是采用LDA主题算法对媒体主流栏目提取主题特征；具体步骤如下：

步骤一

步骤二

1)采用LDA主题算法分别对每个栏目做主题聚类，主题聚类的数量原则是宁多勿少，尽可能的将栏目下的主题细化，现设每个栏目聚20个主题，则15个栏目的话，总共就用300个主题；

步骤三

3.根据权利要求2所述的结合标题主题相似度与正文监督分类的稿件主题分析算，其特征在于，所述媒体主流栏目包括社会、从政、国际、教育、体育、文娱、房产、汽车、数码、科技。

4.根据权利要求3所述的基于语义分析与监督学习模型的新闻主题推荐算法，其特征在于，所述标题与主题相似度计算则是采用Word2Vec算法对LDA主题算法提取出的主题特征做主题特征转换，并加入文本语义相似计算，以及本相似度为主题聚类公式，具体步骤如下：

步骤四

步骤五

步骤六

步骤七

步骤八

5.根据权利要求4所述的基于语义分析与监督学习模型的新闻主题推荐算法，其特征在于，所述标题与主题相似度计算中得到的主题需人工干预对当前结果做优化处理，具体步骤如下：

步骤九

步骤十

步骤十一

6.根据权利要求5所述的基于语义分析与监督学习模型的新闻主题推荐算法，其特征在于，所述主体聚类结果作为主题监督分类训练集，采用朴素贝叶斯算法对稿件的正文内容进行主题分类，具体步骤如下：

步骤十二

首先从训练集中提取出优质训练子集作为模型的训练集，根据相似距离进行升序排序，截取前1/3部分作为优质训练集；

步骤十三

WordList＝[w₁,w₂,w₃,......,w_n]；

步骤十四

WordCount＝[c₁,c₂,c₃,.....,c_n]；

步骤十五