CN110347977A

CN110347977A - 一种基于lda模型的新闻自动标签方法

Info

Publication number: CN110347977A
Application number: CN201910571266.4A
Authority: CN
Inventors: 谢珺; 郝晓燕; 梁凤梅; 续欣莹; 靳红伟
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-18

Abstract

本发明涉及一种基于LDA模型的新闻自动标签方法，在语义层面上对文本数据特征的提取，在实际应用中具有较好的效果；针对LDA模型提出改进，利用点互信息对主题词关系进行量化，通过计算主题词的权重得到主题词间的共现关系，设置阈值选择最佳主题词，该方法通过对词汇对应不同主题表征能力的强弱，选出准确率较高的关键词通过本发明，能够引入互信息对主题‑词项矩阵进行改进，提高了LDA模型在新闻文档自动标签应用中的准确率，更好的刻画主题词之间的相关性。

Description

一种基于LDA模型的新闻自动标签方法

技术领域

本发明涉及文本处理技术领域，更具体地说，涉及一种基于LDA模型的新闻自动标签方法。

背景技术

随着信息网络的发展，信息过载，新闻文本爆炸式激增，文本大多篇幅较长，如果在未仔细阅读之前就可以大致了解文章讲的是什么，可以节省时间迅速找到个人关注的新闻内容，选择性的仔细阅读某一条新闻，新闻自动标签的任务就是通过对文本内容进行表征，进而筛选出有用的信息，如何更准确的提取文本中要表达的信息是当下研究的重要课题之一，被广泛应用于文本分类、聚类、新闻推荐、机器翻译、论文索引等自然语言处理任务中。LDA主题模型是一种常用的语义提取模型，通过词项之间的共现，将词项空间转化为主题空间，提取主题词，达到降维的目的。由于LDA模型有很好的语义提取和降维功能被广泛应用于各个领域。

自动标签关键词常用的方法有基于统计的方法，如TFIDF，该方法快速简单，但是仅仅基于词频方面去考虑，不够全面，并且忽略了语义信息，从语义方面考虑有基于主题的方法，如LDA模型，对于语义信息的提取和特征空间的降维效果很好，还有TextRank，该算法不需要训练数据，并且速度较快，但是它忽略了语义之间的相关性，不考虑上下文之间的关系。LDA模型虽然应用广泛，但自身还是有一些缺点的，LDA模型会对所有词项进行主题标签，无法很好地表征数据原始信息。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于LDA模型的新闻自动标签方法。

本发明解决其技术问题所采用的技术方案是：构造一种基于LDA模型的新闻自动标签方法，包括：

将需要进行自动标签的文本进行预处理；其中预处理的方式至少包括中文分词、去停用词；

利用LDA模型对预处理后的文本进行建模，计算文本中每个词项的词项权重；

根据计算所得的词项权重，从预处理后的文本中采样每一个主题；

在预处理后的文本中，分别计算文档-主题分布和主题-词分布；

通过主题-词分布，计算采样得到的每个主题的主题权重；

根据每个主题的主题权重计算主题词间权重，选出符合的主题词；

获取主题编号，输出文章主题标签。

其中，每个主题的主题权重的计算公式为：

其中，N为主题个数，t₁,t₂为任意两个不同主题。

其中，从预处理后的文本中采样每一个主题时，采样方式为Gibbs采样；在Gibbs采样中，每个主题的采样公式如下：

其中，W为词项总数，n_mkw表示在文本m中，主题词k下词的个数，n_kw表示主题为k的词项中，词w出现的次数，根据公式采样每一个主题。

其中，文档-主题分布、主题-词分布的计算公式如下：

根据公式计算θ、得到文档-主题矩阵和主题-词矩阵。

其中，通过主题-词矩阵，利用下面公式计算主题的权重；

其中，主题词的筛选方法为：根据主题词间权重选出符合的主题词，设定阈值则主题k体现在词项w上；其中，η取0.007，ξ取0.08；经过阈值对主题概率不符合的词汇，删除小概率落到主题上的词汇。

其中，采用准确率P(Precision)、召回率R(Recall)和综合指标F(F-measure)或F1(F-score)来评价自动标签的性能；F值是准确率和召回率的调和平均，准确率P、召回率R、F值具体计算公式如下：

准确率

召回率

其中，是调节参数，时就是F1,可以看出F值越大，关键词提取效果越好。

区别于现有技术，本发明的基于LDA模型的新闻自动标签方法，在语义层面上对文本数据特征的提取，在实际应用中具有较好的效果；针对LDA模型提出改进，利用点互信息对主题词关系进行量化，通过计算主题词的权重得到主题词间的共现关系，设置阈值选择最佳主题词，该方法通过对词汇对应不同主题表征能力的强弱，选出准确率较高的关键词通过本发明，能够引入互信息对主题-词项矩阵进行改进，提高了LDA模型在新闻文档自动标签应用中的准确率，更好的刻画主题词之间的相关性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明提供的一种基于LDA模型的新闻自动标签方法的算法示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

如图1所示，图1是本发明提供的一种基于LDA模型的新闻自动标签方法的算法示意图，该方法的步骤包括：

将需要进行自动标签的文本进行预处理；其中预处理的方式至少包括中文分词、去停用词。

具体的，对“哈工大停用词词库”、“百度停用词表”、“四川大学机器学习智能实验室停用词表”等各种停用词表整理后，使用结巴分词对文本进行分词，得到“文本-词项”矩阵。

利用LDA模型对预处理后的文本进行建模，计算文本中每个词项的词项权重。

其中，每个主题的主题权重的计算公式为：

其中，N为主题个数，t1,t₂为任意两个不同主题。

根据计算所得的词项权重，从预处理后的文本中采样每一个主题。

在预处理后的文本中，分别计算文档-主题分布和主题-词分布。

文档-主题分布、主题-词分布的计算公式如下：

根据公式计算θ、得到文档-主题矩阵和主题-词矩阵。

通过主题-词分布，计算采样得到的每个主题的主题权重。

通过主题-词矩阵，利用下面公式计算主题的权重；

根据每个主题的主题权重计算主题词间权重，选出符合的主题词。

主题词的筛选方法为：根据主题词间权重选出符合的主题词，设定阈值则主题k体现在词项w上；其中，η取0.007，ξ取0.08；经过阈值对主题概率不符合的词汇，删除小概率落到主题上的词汇。

获取主题编号，输出文章主题标签。

准确率

召回率

LDA模型中，词项空间的每一个词都会被赋予主题概率，如果某一词项的主题概率过小，或者主题间的点互信息过大，都无法很好的表征数据实际带有的信息，故而设定阈值η＜主题-词分布＜ξ，则主题k体现在词项w上，η取0.007，ξ取0.08，取值为多次实验得出。

主题间平均相似度越小，主题之间越独立，主题结构越稳定，对应的模型最优。本发明通过主题之间的点互信息刻画主题之间的相似程度，量化主题之间的关系，利用主题词之间的共现概率度量主题之间的相关性。通过公式可以看出，主题t₁,t₂的共现概率越大，相关性越大，其值越大，越不相关，则值越小。

在本发明的实施例中，对1000篇新闻文档进行实验，文本来源复旦测试语料库，LDA主题建模过程中，参数估计采用Gibbs采样算法进行参数估计，超参数α＝50/K、β＝0.01，Gibbs采样的迭代次数为1000次。进行下面三种算法对比实验，a为基于LDA和TextRank的文本关键词提取算法，b为基于TextRank的关键词提取算法，c为基于Word2Vec和TextRank的新闻关键词抽取方法，对比在关键词个数变化时，准确率、召回率、F值的变化情况。

表1 不同算法准确率对比

表2 不同算法召回率对比

表3 不同算法F值对比

根据实验结果可以得出，算法b在效果上整体比算法a和c要好，本文算法效果比b稍好一点。a算法是一种基于LDA和TextRank的关键词抽取方法，利用LDA模型中主题相关性修改TextRank节点跳转概率，但是忽略了一点，LDA模型的主题相关性与主题个数及关键词有关，并且主题个数过多会导致主题间相关性变大，使算法性能下降。b算法引入马尔可夫链改进TextRank，弥补了TextRank忽略语义相关性的不足，但是对于语义的提取，LDA模型表现较好。本文针对LDA模型进行改进，量化了主题词之间的相关性，提高了词项对主题的表征能力，同时可以看出，关键词个数在变化时，准确率、召回率、F值先变大后变小，在7左右取到最大值，说明关键词提取的准确率与其个数有关。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.基于LDA模型的新闻自动标签方法，其特征在于，包括以下步骤：

通过主题-词分布，计算采样得到的每个主题的主题权重；

获取主题编号，输出文章主题标签。

2.根据权利要求1所述的基于LDA模型的新闻自动标签方法，其特征在于，每个主题的主题权重的计算公式为：

其中，N为主题个数，t₁,t₂为任意两个不同主题。

3.根据权利要求1所述的基于LDA模型的新闻自动标签方法，其特征在于，从预处理后的文本中采样每一个主题时，采样方式为Gibbs采样；在Gibbs采样中，每个主题的采样公式如下：

4.根据权利要求1所述的基于LDA模型的新闻自动标签方法，其特征在于，文档-主题分布、主题-词分布的计算公式如下：

根据公式计算θ、得到文档-主题矩阵和主题-词矩阵。

5.根据权利要求1所述的基于LDA模型的新闻自动标签方法，其特征在于，通过主题-词矩阵，利用下面公式计算主题的权重；

。

6.根据权利要求4所述的基于LDA模型的新闻自动标签方法，其特征在于，主题词的筛选方法为：根据主题词间权重选出符合的主题词，设定阈值则主题k体现在词项w上；其中，η取0.007，ξ取0.08；经过阈值对主题概率不符合的词汇，删除小概率落到主题上的词汇。

7.根据权利要求1所述的基于LDA模型的新闻自动标签方法，其特征在于，采用准确率P(Precision)、召回率R(Recall)和综合指标F(F-measure)或F1(F-score)来评价自动标签的性能；F值是准确率和召回率的调和平均，准确率P、召回率R、F值具体计算公式如下：

准确率

召回率