CN104123336A

CN104123336A - 深度玻尔兹曼机模型及短文本主题分类系统和方法

Info

Publication number: CN104123336A
Application number: CN201410215042.7A
Authority: CN
Inventors: 李超; 李昂; 赵彩贝
Original assignee: SHENZHEN BEIHANG NEW INDUSTRIAL TECHNOLOGY RESEARCH INSTITUTE
Current assignee: Shenzhen Beihang Tianhui Business Incubator Co., Ltd.
Priority date: 2014-05-21
Filing date: 2014-05-21
Publication date: 2014-10-29
Anticipated expiration: 2034-05-21
Also published as: CN104123336B

Abstract

本发明公开了一种深度玻尔兹曼机模型及短文本主题分类系统及方法，该模型由一层可见层和两层隐藏层组成，可见层和隐藏层包含若干随机二元单元，层与层之间存在连接，各层的节点内部相互独立；该系统包含短文本预处理模块；短文本的特征表示模块；模型训练模块；获得的文本的向量模型进行主题建模，构建主题分类器，该模块包含预训练和正式训练两个子模块；短文本分类模块；该系统及方法充分利用短文本的潜在语义信息，弥补传统短文本分类方法的不足，降低了对词语相似度的依赖，使该系统应用具有准确度高、易于实现、易于扩展以及无需人工参与的优点。

Description

深度玻尔兹曼机模型及短文本主题分类系统和方法

技术领域

本发明涉及一种深度玻尔兹曼机模型及短文本主题分类系统和方法，属于自然语言处理领域。

背景技术

近年来，在线社交网络平台(SNS)日益成为个人和组织结构的最重要的交流平台之一。在这些平台中，用户不仅仅可以接收到最新的新闻和信息，还可以自由的发表自己的观点和看法，每个用户都成为了所谓的“自媒体”。因此，在线社交网络平台上产生了海量的异构的信息，而这些信息有其独有的特征，最显著的特征是长度短，因此我们称之为短文本。还有其他显著特点，比如内容丰富、表达方式不规范、主题比较突出、实时性强等。

短文本的分类技术是其他与短文本有关的研究的基础，比如事件探测、个性化推荐等。传统的文本分类技术，是以对比文档相似度为基础，仅仅依赖词语表面上的相同，这类方法的明显不足之处在于对同义词或近义词的识别上精确度不够。应用于短文本分类中，受到短文本数据特征稀疏性的影响，效果非常不好

发明内容

本发明的技术解决问题：克服现有技术方案的不足，提供一种基于深度玻尔兹曼机模型和短文本主题分类系统及方法，该系统及方法充分利用挖掘短文本的隐藏语义信息，弥补传统短文本分类技术的不足，降低了对文档表面相似度的依赖，使该系统应用具有准确度高、易于扩展以及实用性强的优点。

本发明通过以下技术手段实现：

一种深度玻尔兹曼机模型，由一层可见层和两层隐藏层组成，可见层和隐藏层包含若干随机二元单元，层与层之间存在连接，各层的节点内部相互独立。

一种基于深度玻尔兹曼机的短文本的主题分类系统，包括：

短文本预处理模块，所述的短文本预处理模块用于采用基于正则表达式的方法将短文本中包含的非文本数据和冗余信息删除；

短文本的特征表示模块，所述的短文本的特征表示模块将短文本数据转换成向量形式；

模型训练模块，所述的模型训练模块采用含有双隐藏层的深度玻尔兹曼机模型对训练集的短文本数据进行建模，构建主题分类器，所述的模型训练模块包含预训练子模块和正式训练子模块；

短文本分类模块，所述的短文本分类模块根据模型训练模块训练所得的分类器，对测试数据集的数据进行分类。

进一步的，所述的短文本的特征表示模块包含以下步骤：

S1，确定一个词典；

S2，对短文本进行分词处理；

S3，将分词后的短文本转换成向量形式，该向量的维数与字典长度相同，元素值为与之对应单词在短文本中出现的次数。

一种深度玻尔兹曼机模型对短文本进行主题挖掘的方法，包含以下步骤：

S1，对短文本进行建模，第一层表示可见的短文本数据，第一隐藏层表示短文本隐藏的主题；

S2，第二隐藏层对第一隐藏层进行优先级控制；

S3，模型训练，所述的模型训练包含预训练与正式训练；所述的模型训练为将训练集中的每个短文本数据看作是模型中的可见层，对文本数据进行训练，学习出相应的模型参数，构建一个主题分类器。

进一步的所述的预训练包含以下步骤：

S301，初始化第二隐藏层；

S302，重构第一隐藏层；

S303，重构可见层；

S304，重构第一隐藏层；

S305，计算对比离散度；

S306，更新参数并返回到文本数据初始位置。

最后，所述的正式训练包含以下步骤：

S311，变分法重构第一隐藏层；

S312，变分法重构第二隐藏层；

S313，MCmC算法计算期望；

S314，更新参数并返回文本数据初始位置。

本发明与现有技术相比的优点在于：

(1)本发明提出了基于含有双隐藏层的深度玻尔兹曼机对短文本进行主题建模的方法。传统的主题模型属于有向概率图模型，其参数推理的算法非常耗时且不精确。此外，传统的主题模型以词语相似度为基础，直接使用传统主题模型对短文本进行主题建模时，会因为短文本的数据稀疏性而导致效果不好。而含有双隐藏层的深度玻尔兹曼机是一种生成式无向概率图模型，采用变分法和马尔科夫链—蒙特卡洛算法进行参数学习，相比于传统的主题模型，其参数推理的效率和准确度更高。而且，含有双隐藏层的深度玻尔兹曼机是直接从短文本自身挖掘潜在主题，不依赖于词语相似度对比，因此能够更好的表达出短文本的潜在语义结构，从而达到更好的主题分类精确度；

(2)本发明摆脱了对人工标注的依赖。传统的主题模型方法属于监督式学习，需要预先给定带有正确标注的训练集，而本发明提出的方法是一种无监督式的特征学习方法，只需要给定词典和语料库，就能够自主的学习出短文本的潜在主题信息。

附图说明

图1是本发明系统的体系结构图；

图2是本发明的模型预训练的具体过程；

图3是本发明的模型正式训练的具体过程。

具体实施方式

下面结合附图对本发明的实施方式进行详细说明，具体步骤如下：

如图1所示，该系统包括如下模块：

短文本预处理模块。社交网络平台上产生了海量的异构短文本数据，这些短文本中包含大量的非文本数据和冗余信息，比如时间戳、用户名、URL信息等，需要将这些无用信息过滤掉，我们采用基于正则表达式的方法将这些信息从每个短文本中删除，只保留纯文本数据。

短文本的特征表示模块。由于计算机无法理解普通文本数据，因此需要将文本数据转化成计算机能够处理的形式。采用向量空间模型，将语料库中的所有短文本数据转换成向量形式。首先确定一个词典，然后对短文本进行分词处理，最后将分词后的每个短文本转换成向量形式。该向量的维数与字典长度相同，元素值为与之对应单词在短文本中出现的次数。

模型训练模块：在短文本的向量模型基础上，将每个短文本视为模型中的可见数据，模型中的第一隐藏层表示短文本的潜在主题结构。通过训练模型，挖掘出短文本的潜在主题信息，进而构建主题分类器。其中包含预训练子模块和正式训练模块：预训练是为了获得一组更加合理的参数初始值，从而缩短正式训练的所花费的时间。在预训练中，采用一步对比离散度算法学习模型参数，在正式训练中，采用平均场变分法和基于马尔科夫链—蒙特卡洛算法对参数进行估计。

短文本分类模块：根据模型训练模块训练所得的分类器，对测试数据集中的数据进行分类。

为了便于比较，我们采用一个公有的Twitter文本数据集,它是由文本检索会议(TREC)提供的Tweet2011数据集，包含了2011年1月23号到2月8号的一部分Twitter文本数据。

一、短文本预处理

在Tweet2011数据集中，包含大量的冗余信息，比如时间戳、用户名、URL信息等，将这些无用信息过滤掉，对文本进行小写化和词根化处理。具体步骤有：(1)去除用户名信息和时间戳信息，采用基于正则表达式的方法；(2)单词小写化；(3)单词词根化；(4)去除重复文本。通过文本预处理，语料库中拥有560万条短文本数据。我们随机的抽取60％的数据作为训练集，剩下的作为测试集。

二、短文本特征表示

在本发明中，采用空间向量模型表示短文本。具体来说，首先选择一个词典，该词典不仅仅包含常用英文单词，而且包含Twitter平台上所特有的语言表达用语，总共计58110个单词。对语料库中的每一个文本，将其转换成一个1×58110的向量。

三、模型训练

在本发明中，模型训练分为两个阶段，即预训练和正式训练。

在预训练过程中，如图2所示，对于每个短文本数据，我们用其初始化第二隐藏层，然后使用一步对比离散度算法，对可见层和第一隐藏层进行重构，然后采用梯度下降法进行参数的更新，从而得到参数的一组初始值。

在正式训练过程中，如图3所示，在之前预训练得到的参数基础上，采用平均场变分法重构第一隐藏层和第二隐藏层，基于马尔科夫链—蒙特卡洛算法(MCMC算法)对参数进行估计，从而构建了一个含有双隐藏层的深度玻尔兹曼机模型。

四、短文本分类

将第四步得到深度玻尔兹曼机模型对测试集中的短文本进行分类。

以上实施例仅用以说明而非限制本发明的技术方案，不脱离本发明精神和范围的任何修改或局部替换，均应涵盖在本发明的权利要求范围当中。本发明未详细描述的部分属于本领域公知技术。

Claims

1.一种深度玻尔兹曼机模型，其特征在于：由一层可见层和两层隐藏层组成，可见层和隐藏层包含若干随机二元单元，层与层之间存在连接，各层的节点内部相互独立。

2.一种基于深度玻尔兹曼机的短文本的主题分类系统，其特征在于包括：

3.根据权利要求2所述的基于深度玻尔兹曼机的短文本的主题分类系统，其特征在于：所述的短文本的特征表示模块包含以下步骤：