CN107943824A

CN107943824A - 一种基于lda的大数据新闻分类方法、系统及装置

Info

Publication number: CN107943824A
Application number: CN201710967319.5A
Authority: CN
Inventors: 贾义动; 孔祥明; 吴元琪
Original assignee: Guangdong Industry Kaiyuan Science And Technology Co Ltd
Current assignee: Guangdong Industry Kaiyuan Science And Technology Co Ltd
Priority date: 2017-10-17
Filing date: 2017-10-17
Publication date: 2018-04-20

Abstract

本发明公开了一种基于LDA的大数据新闻分类方法、系统及装置，方法包括：对获得的新闻文档进行预处理，得到语料库；对得到的语料库进行LDA建模，得到主题分布概率矩阵和词分布概率矩阵；根据主题分布概率矩阵和词分布概率矩阵，结合分类算法进行分类，得到新闻文档所属的类别。本发明通过隐含狄利克雷法并在该算法上基于参数优化的改进，再结合分类算法，高效的实现了新闻文档的分类，克服了采用特征提取方法带来的分类性能受损问题，避免了使用特征滤取方法存在的未考虑词与词之间语义联系的问题，减少了人工对新闻分类的时间消耗，使信息更快速高效地传播。本发明可广泛应用于新闻分类中。

Description

一种基于LDA的大数据新闻分类方法、系统及装置

技术领域

本发明涉及文本分类技术领域，尤其涉及一种基于LDA的大数据新闻分类方法、系统及装置。

背景技术

当今已处在一个信息爆炸的时代，据统计，全球每天互联网产生的流量累计高达1EB(即10亿GB)。其中用以文本表示的信息量急速增长，包括媒体新闻、科技报告、书籍、邮件、微博、评论等文本信息与日俱增。而新闻以互联网、电视、广播、报纸等形式展现，每日需更新报道，具有极大的时效性。若通过人工手动进行分类，将耗费巨大人力物力，因此，实现新闻自动准确的分类，方便读者快速找到感兴趣的新闻乃是大势所趋。

在新闻文本分类领域，已有的技术包括基于TFIDF的特征提取，基于聚类的web方法，以及基潜在语义分析等文本分类方法，这些方法虽各有所长，但普遍存在以下缺点：在处理高维和大规模新闻文本方面存在一定的局限性；基于特征提取的方法TFIDF等，存在没有考虑词和词之间的语义联系问题；采用特征提取方法可能带来新闻分类性能受损的情况。

发明内容

为了解决上述技术问题，本发明的目的是提供一种能提高分类效果准确性的基于LDA的大数据新闻分类方法、系统及装置。

本发明所采取的技术方案是：

一种基于LDA的大数据新闻分类方法，包括以下步骤：

对获得的新闻文档进行预处理，得到语料库；

对得到的语料库进行LDA建模，得到主题分布概率矩阵和词分布概率矩阵；

根据主题分布概率矩阵和词分布概率矩阵，结合分类算法进行分类，得到新闻文档所属的类别。

作为所述的一种基于LDA的大数据新闻分类方法的进一步改进，所述的对获得的新闻文档进行预处理，得到语料库，这一步骤具体包括：

对获得的新闻文档进行分词处理，并对未登录词进行识别，得到新闻文档中的词；

将得到的词根据预设的停留词表进行去停留词处理，得到语料库。

作为所述的一种基于LDA的大数据新闻分类方法的进一步改进，所述的对得到的语料库进行LDA建模，得到主题分布概率矩阵和词分布概率矩阵，这一步骤具体包括：

根据语料库，进行LDA建模得到LDA模型；

对LDA模型中的参数进行优化计算；

根据建立的LDA模型进行参数估计；

根据优化后的参数，得到主题分布概率矩阵和词分布概率矩阵。

作为所述的一种基于LDA的大数据新闻分类方法的进一步改进，所述的根据语料库，进行LDA建模得到LDA模型，这一步骤具体表现为：

其中，主题分布θ服从超参数为α的狄利克雷，词分布服从超参数为β的狄利克雷分布，词w服从参数为θ的主题分布，主题编号z服从参数为的多项式分布。

作为所述的一种基于LDA的大数据新闻分类方法的进一步改进，所述的根据建立的LDA模型进行参数估计，这一步骤的具体计算公式为：

其中，表示主题k下词t的分布概率，θ_m，t表示为第m篇文档主题为k的分布概率，表示主题k下关于词t的计数，表示第m篇文档下关于词t的计数，α_t表示关于词t的参数α，β_t表示关于词t的参数β。

作为所述的一种基于LDA的大数据新闻分类方法的进一步改进，所述的对LDA模型中的参数进行优化计算，这一步骤的具体计算公式为：

其中，表示优化后的参数α，表示优化后的参数β，α_k表示优化前的参数α，β_t表示优化前的参数β，为Digamma函数，表示求变量x的对数的导数，n_ik表示第i篇文章，主题为k的文档计数，n_kt表示主题编号为k的词t的计数，且n_i＝∑_kn_ik，n_k＝∑_tn_kt。

本发明所采用的另一个技术方案是：

一种基于LDA的大数据新闻分类系统，包括：

预处理单元，用于对获得的新闻文档进行预处理，得到语料库；

建模单元，用于对得到的语料库进行LDA建模，得到主题分布概率矩阵和词分布概率矩阵；

分类单元，用于根据主题分布概率矩阵和词分布概率矩阵，结合分类算法进行分类，得到新闻文档所属的类别。

本发明所采用的再一个技术方案是：

一种基于LDA的大数据新闻分类装置，包括：

存储器，用于存放程序；

处理器，用于执行所述程序以用于：

对获得的新闻文档进行预处理，得到语料库；

作为所述的一种基于LDA的大数据新闻分类装置的进一步改进，所述的对获得的新闻文档进行预处理，得到语料库，这一步骤具体包括：

作为所述的一种基于LDA的大数据新闻分类装置的进一步改进，所述的对得到的语料库进行LDA建模，得到主题分布概率矩阵和词分布概率矩阵，这一步骤具体包括：

根据语料库，进行LDA建模得到LDA模型；

根据建立的LDA模型进行参数估计；

对LDA模型中的参数进行优化计算；

本发明的有益效果是：

本发明一种基于LDA的大数据新闻分类方法、系统及装置通过隐含狄利克雷法并在该算法上基于参数优化的改进，再结合分类算法，高效的实现了新闻文档的分类，克服了采用特征提取方法带来的分类性能受损问题，避免了使用特征滤取方法存在的未考虑词与词之间语义联系的问题，避免了潜在语义分析和向量空间模型等在处理高维和大规模新闻文本方面存在的局限性，减少了人工对新闻分类的时间消耗，使信息更快速高效地传播。

附图说明

图1是本发明一种基于LDA的大数据新闻分类方法的步骤流程图；

图2是本发明一种基于LDA的大数据新闻分类系统的模块方框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

参考图1，本发明一种基于LDA的大数据新闻分类方法，包括以下步骤：

对获得的新闻文档进行预处理，得到语料库；

进一步作为优选的实施方式，所述的对获得的新闻文档进行预处理，得到语料库，这一步骤具体包括：

本发明实施例中，所述分词处理采用结巴分词，并根据隐含马尔科夫模型对未登录词进行识别，自定义词典，对专有词及热门词设定一定的权重，确保分词时，该词能被准确分割。根据停用词表自动过滤掉没有实际意义的词汇，如介词、冠词、语气助词、副词、介词、连接词以及标点等。

本实施例中得到的语料库表如下表1：

文档	语料库
		Doc1	生产增加稀土产品市场……采购
Doc2	公司预计年度亏损股东……净利润
		……	…….
Docm	理财利率下滑贷款银行……预计

表1

进一步作为优选的实施方式，所述的对得到的语料库进行LDA建模，得到主题分布概率矩阵和词分布概率矩阵，这一步骤具体包括：

根据语料库，进行LDA建模得到LDA模型；

对LDA模型中的参数进行优化计算；

根据建立的LDA模型进行参数估计；

进一步作为优选的实施方式，所述的根据语料库，进行LDA建模得到LDA模型，这一步骤具体表现为：

进一步作为优选的实施方式，所述的根据建立的LDA模型进行参数估计，这一步骤的具体计算公式为：

其中，表示主题k下词t的分布概率，θ_m，k表示为第m篇文档主题为k的分布概率，表示主题k下关于词t的计数，表示第m篇文档下关于词t的计数，α_t表示关于词t的参数α，β_t表示关于词t的参数β。

本实施例中，据变量之间的依赖关系，可得联合概率密度公式如下：

为少计算误差，分别对θ和求积分，最后公式简化为

p(w，z|α，β)＝p(w|z，β)p(z|α)；

由此可得出p(w,z)，通过Collapsed Gibbs Sampling，在设定的迭代次数之内循环抽取当前词的主题，直到词的主题分布达到收敛。具体实现公式如下：

上式展开最后结果为：

其中，表示主题k下出去第i个词，关于词t的计数，同理，表示，第m篇文档下，除开第i个词，主题编号为k的词的计数。

接下来，利用后验概率估计，求出主题分布，和词分布分别，且两者服从狄利克雷分布。根据狄利克雷分布性质可得出词分布概率，和主题分布概率值，即：

其中，表示主题k下词t的分布概率，θ_m，k表示为第m篇文档主题为k的分布概率，表示主题k下关于词t的计数，表示第m篇文档下关于词t的计数。

进一步作为优选的实施方式，所述的对LDA模型中的参数进行优化计算，这一步骤的具体计算公式为：

本实施例中，计算k取不同值时，模型困惑度perplexity的变化，然后将困惑度最小的主题个数作为模型对数据拟合的最佳主题个数。对给定的语料数据D，其困惑度为：

其中w_m表示第m篇文档的词，N_m表示第m篇文档的长度。当主题个数K＝40时，困惑度最低，因此最有主题个数设为40。

本发明实施例中，对于参数α和参数β的优化：

其中，表示优化后的参数α，表示优化后的参数β，为Digamma函数，表示求变量x的对数的导数，n_ik表示第i篇文章，主题为k的文档计数，n_kt表示主题编号为k的词t的计数，且n_i＝∑_kn_ik，n_k＝∑_tn_kt。

最终得出每篇文档的主题分布概率矩阵，以及主题下词的分布概率矩阵。如下表格2、3展示：

文档-主题	Topic1	Topic2	……	TopicK
					新闻1	0.2	0.4	……	0.2
新闻2	0.21	0.14	……	0.09
					……	……	……	……	……

表2

主题-词	四川	省委	银行
				Topic1	0	0.1	0
Topic2	0.5	0	0.4
				……	……	……	……

表3

本发明中的分类算法可以是朴素贝叶斯分类，最近邻分类，以及支持向量机和logistic回归的分类。本实施例中采用基于支持向量机的分类方法。可分情况下，线性SVM可以描述为以下被约束的优化问题：

由于目标函数是二次的，是一个凸函数，而约束在w和b上是线性的，因此这是一个凸优化问题。其拉格朗日函数为：

假定λ_i≥0，则任何不可行解仅仅是增加了拉格朗日函数的值。为了最小化拉格朗日函数，对L_p关于w和b求偏导并令其等于零：

将它们代入L_p中，得到对偶公式：

将不等式约束变换为等式约束：

λ_i≥0，λ_i[y_i(w·x_i+b)-1]＝0；

表明除非训练实例满足y_i(w·x_i+b)＝1，否则拉格朗日乘子λ_i必须为零。那些λ_i＞0的训练实例位于超平面b_i1或b_i2上，称为支持向量，不在超平面上的训练实例肯定满足λ_i＝0，即定义决策边界的参数w和b仅依赖于这些支持向量。

本实施例中，在训练集上对LDA建模，得到每篇文档的主题-分布矩阵，即每篇新闻特征信息，而后标记文档所属类别，结合SVM算法进行分类。对14019条财经网上爬去的新闻数据进行训练，其中2000条进行测试。结果显示，LDA+SVM准确率高达91.8％，而LSA+SVM分类方法准确率为80.1％。VSM+SVM准确率仅为78.2％。

参考图2，本发明一种基于LDA的大数据新闻分类系统，包括：

本发明一种基于LDA的大数据新闻分类装置，包括：

存储器，用于存放程序；

处理器，用于执行所述程序以用于：

对获得的新闻文档进行预处理，得到语料库；

根据语料库，进行LDA建模得到LDA模型；

根据建立的LDA模型进行参数估计；

对LDA模型中的参数进行优化计算；

从上述内容可知，本发明一种基于LDA的大数据新闻分类方法、系统及装置通过隐含狄利克雷法并在该算法上基于参数优化的改进，再结合分类算法，高效的实现了新闻文档的分类，克服了采用特征提取方法带来的分类性能受损问题，避免了使用特征滤取方法存在的未考虑词与词之间语义联系的问题，避免了潜在语义分析和向量空间模型等在处理高维和大规模新闻文本方面存在的局限性，减少了人工对新闻分类的时间消耗，使信息更快速高效地传播。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于LDA的大数据新闻分类方法，其特征在于，包括以下步骤：

对获得的新闻文档进行预处理，得到语料库；

2.根据权利要求1所述的一种基于LDA的大数据新闻分类方法，其特征在于：所述的对获得的新闻文档进行预处理，得到语料库，这一步骤具体包括：

3.根据权利要求1所述的一种基于LDA的大数据新闻分类方法，其特征在于：所述的对得到的语料库进行LDA建模，得到主题分布概率矩阵和词分布概率矩阵，这一步骤具体包括：

根据语料库，进行LDA建模得到LDA模型；

对LDA模型中的参数进行优化计算；

根据建立的LDA模型进行参数估计；

4.根据权利要求3所述的一种基于LDA的大数据新闻分类方法，其特征在于：所述的根据语料库，进行LDA建模得到LDA模型，这一步骤具体表现为：

5.根据权利要求3所述的一种基于LDA的大数据新闻分类方法，其特征在于：所述的对LDA模型中的参数进行优化计算，这一步骤的具体计算公式为：

6.根据权利要求4所述的一种基于LDA的大数据新闻分类方法，其特征在于：所述的根据建立的LDA模型进行参数估计，这一步骤的具体计算公式为：

<mrow> <msub> <mi>&theta;</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>n</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msub> <mi>&alpha;</mi> <mi>t</mi> </msub> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <msubsup> <mi>n</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msub> <mi>&alpha;</mi> <mi>t</mi> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>

7.一种基于LDA的大数据新闻分类系统，其特征在于，包括：

8.一种基于LDA的大数据新闻分类装置，其特征在于，包括：

存储器，用于存放程序；

处理器，用于执行所述程序以用于：

对获得的新闻文档进行预处理，得到语料库；

9.根据权利要求8所述的一种基于LDA的大数据新闻分类装置，其特征在于：所述的对获得的新闻文档进行预处理，得到语料库，这一步骤具体包括：

10.根据权利要求8所述的一种基于LDA的大数据新闻分类装置，其特征在于：所述的对得到的语料库进行LDA建模，得到主题分布概率矩阵和词分布概率矩阵，这一步骤具体包括：

根据语料库，进行LDA建模得到LDA模型；

根据建立的LDA模型进行参数估计；

对LDA模型中的参数进行优化计算；