CN106326495A

CN106326495A - 一种基于话题模型的中文文本自动分类方法

Info

Publication number: CN106326495A
Application number: CN201610855211.2A
Authority: CN
Inventors: 高峰; 王茂帅; 柳廷娜; 甄教明
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2016-09-27
Filing date: 2016-09-27
Publication date: 2017-01-11

Abstract

本发明提供一种基于话题模型的中文文本自动分类方法，涉及自动分类技术，本发明将文本向量表示、向量降维之后，根据已经掌握的样本数据信息，通过LDA算法对已有的语料进行训练，总结出分类规律，建立判别公式和判别规则。在遇到新文本时，根据判别规则来确定文本的相关类别。实现了对海量数据库和海量主题的分析计算。

Description

一种基于话题模型的中文文本自动分类方法

技术领域

本发明涉及自动分类技术，尤其涉及一种基于话题模型的中文文本自动分类方法。

背景技术

自然语言处理是人工智能领域中的一个重要研究方向，它旨在实现人与计算机之间用自然语言进行有效通信。

文本的自动分类技术是信息处理中一个重要的研究方向，它指的是在给定分类体系和标准的前提之下，根据文本内容自动判别文本类别的过程。

在信息爆炸时代，怎样从海量信息中挖掘出有效的主题信息，分析出内在的语义关联一直自然语言处理方向的一个重要课题。

发明内容

为了解决该问题，本发明提出了一种基于话题模型的中文文本自动分类方法。

本发明利用本发明利用LDA话题模型对语料库进行自动分类打标签，可以广泛应用于搜索引擎、信息检索、文本识别、信息过滤、数字图书馆等诸多领域。

本发明利用LDA话题模型通过训练语料库，得到“文档—主题”信息和“主题—词语”信息，从而得到分类标准，据此标准进行文本的自动分类。

本发明的技术方案：

将文本向量表示、向量降维之后，根据已经掌握的样本数据信息，通过LDA算法对已有的语料进行训练，总结出分类规律，建立判别公式和判别规则；在遇到新文本时，根据判别规则来确定文本的相关类别。

涉及以下主要内容：

(1)采用LDA话题模型进行数据建模，采用通过LDA算法对已有的语料进行训练，总结出分类标准，根据标准对新文本进行自动分类；

(2)采用基于web的分布式云计算架构进行矩阵的分块并行计算，处理海量语料库；

(3)在云端保留了接口，对外提供开放安全可控的API服务。

记文档集合为D，主题集合为T；

第一步：文档集D中每个文档d看作一个单词序列＜w₁,w₂,...,w_n＞，w_i表示第i个单词，设d有n个单词。D中涉及的所有不同单词组成一个大集合，以文档集合D作为输入(会有切词，去停用词，取词干等常见的预处理略去不表)，D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC)，希望训练出的两个结果向量(设聚成k个主题，VOC中共包含m个词)

第二步：在语料库D上进行LDA建模，得到“doc-topic”矩阵θ_m与“topic-word”矩阵

第三步：根据语料库θ_m、与的影响结果对语料库D进行LDA建模，取向量θ_m作为“doc-topic”矩阵θ_m+1生成过程中的先验参数；取向量作为作为“topic-word”矩阵生成过程中的先验参数；

重复第二步与第三步，直至对每个语料库θ_m、收敛；

第四步：总结出分类标准，根据标准对新文本进行自动分类。

本发明的有益效果是

(1)社会效果：该专利所使用的技术能从互联网上海量、多样化、非结构化的自然语言描述的文本中抽取出结构化数据，实现新文本自动分类，既是一种技术领域的创新，又有很强的实用性。

(2)技术效果：应用Spark的分布式云计算架构，实现对海量数据库和海量主题的分析计算。

(3)应用效果：LDA话题模型能够自动获取海量文本信息的主题，它是一种非监督的机器学习方法。随着研究的深入，问题的解决，一定会得到广泛的应用。

附图说明

图1是本发明的工作示意图。

具体实施方式

下面对本发明的内容进行更加详细的阐述：

本发明的技术方案：

记文档集合为D，主题集合为T；

重复第二步与第三步，直至对每个语料库θ_m、收敛；

本发明利用LDA话题模型训练语料库，得出分类标准，构建分类器，根据文本的内容结合标准自动判别文本类别。本专利对外提供了开放安全可控的API服务。

把时间作为观测变量引入主题模型，可以从训练结果中得到各主题强度随时间的变化趋势，既便于分析之前的情况，可以预测未来走势。

采用了分布式的云计算架构进行矩阵的分块并行计算，从而实现了对处理海量语料库和主题的分析计算。

提供了安全可控的API服务，可以调用本专利提供的API接口进行二次开发，方便的进行应用领域细分化。

Claims

1.一种基于话题模型的中文文本自动分类方法，其特征在于，

2.根据权利要求1所述的方法，其特征在于，

涉及以下主要内容：

(3)在云端保留了接口，对外提供开放安全可控的API服务。

3.根据权利要求2所述的方法，其特征在于，

记文档集合为D，主题集合为T；

第一步：文档集D中每个文档d看作一个单词序列＜w₁,w₂,...,w_n＞，w_i表示第i个单词，设d有n个单词；D中涉及的所有不同单词组成一个大集合，以文档集合D作为输入，D中涉及的所有不同单词组成一个大集合VOCABULARY，希望训练出的两个结果向量；

重复第二步与第三步，直至对每个语料库θ_m、收敛；