CN101770454A

CN101770454A - 短文本特征空间扩展方法

Info

Publication number: CN101770454A
Application number: CN201010118594A
Authority: CN
Inventors: 李琳; 钟珞; 胡燕; 刘东飞
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2010-02-13
Filing date: 2010-02-13
Publication date: 2010-07-07

Abstract

本发明公开了一种短文本特征空间扩展方法，包括如下步骤：(1)选取短文本特征空间的扩展来源；(2)对扩展来源的文本数据进行文本预处理，获取作为训练集的文档—词矩阵；(3)在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型；(4)将每条短文本表示成词向量；(5)将短文本的词向量作为浅层狄利赫雷分配主题模型的输入，输出得到与短文本相关的隐含主题概率分布；(6)将隐含主题的主题表示成主题向量；(7)将主题向量和词向量组合在一起，形成具有扩展特征空间的短文本。本发明将得到的隐含主题确定的主题向量与短文本确定的词向量组合在一起，因此短文本的特征空间得到扩展，能有效地提高短文本信息处理的质量。

Description

短文本特征空间扩展方法

技术领域

本发明涉及短文本挖掘领域，尤其涉及一种短文本特征空间扩展方法。

背景技术

Internet作为一种新颖的传播媒体，经过短短几十年的发展，融入了文化、历史、社会等各方面的信息。随着新闻评论、BBS、博客、聊天室、聚合新闻(RSS)等网络应用的快速发展，产生了手机短消息、即时通讯软件发出的即时消息、在线聊天室的聊天记录、BBS标题、博客评论、新闻评论等各种形式的短文本(长度比较短的文本数据)。目前，短文本数据量日益庞大，对短文本的文本挖掘在话题跟踪与发现、流行语分析、舆情预警等领域有广泛的应用前景。

然而，短文本信息的处理与传统意义上的文本(长文本)的处理不同。长文本一般长度很长，样本特征空间非常丰富，常采用降维和去噪的方法，在不损伤长文本核心信息的情况下尽量减少要处理的单词数，以此来降低向量空间维数，从而简化计算，提高长文本处理的速度和效率；单条短文本一般长度都非常短，样本特征空间非常稀疏，短文本自身特征空间不足以表达有效的语言含义，因此会影响短文本特征抽取以及后续短文本分析工作的有效性，进而影响分类、聚类以及摘要抽取等文本挖掘算法的准确性。

因此，有必要提供一种扩展短文本特征空间的方法来解决短文本自身特征空间不足的问题。

发明内容

本发明的目的是提供一种短文本特征空间扩展方法，能扩展短文本的特征空间，进而提高分类、聚类以及摘要抽取等文本挖掘算法的准确性。

为了实现上述目的，本发明提供了一种短文本特征空间扩展方法，包括如下步骤：(1)选取短文本特征空间的扩展来源；(2)对所述扩展来源的文本数据进行文本预处理，获取作为训练集的文档—词矩阵；(3)在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型；(4)将每条短文本表示成词向量；(5)将短文本的词向量作为浅层狄利赫雷分配主题模型的输入，输出得到与短文本相关的隐含主题概率分布；(6)将所述隐含主题的主题表示成主题向量；(7)将所述主题向量和所述词向量组合在一起，形成具有扩展特征空间的短文本。

在本发明的一个实施例中，所述步骤(1)中选取的短文本特征空间的扩展来源为维基百科的普通条目或特色条目。

在本发明的另一实施例中，所述步骤(2)中文本预处理具体为：抽取文本数据中的词干并计算词频。

在本发明的又一实施例中，所述步骤(6)具体为：将所述隐含主题概率分布中概率值大于阈值的主题表示成主题向量。

与现有技术相比，本发明对选取的作为短文本特征空间的扩展来源进行文本预处理以及建立浅层狄利赫雷分配主题模型等处理，得到与短文本相关的隐含主题，进而把所述隐含主题的主题表示成的主题向量与短文本表示成的词向量组合在一起，形成具有扩展特征空间的短文本。短文本的特征空间得到扩展，能有效地提高短文本信息处理的质量，特别是分类、聚类以及摘要抽取等文本挖掘算法的准确性。。

通过以下的描述并结合附图，本发明将变得更加清晰，这些附图用于解释本发明的实施例。

附图说明

图1为本发明短文本特征空间扩展方法的主流程图。

具体实施方式

现在参考附图描述本发明的实施例，附图中类似的元件标号代表类似的元件。

如图1，本实施例短文本特征空间扩展方法包括如下步骤：

步骤S1，选取短文本特征空间的扩展来源；

步骤S2，对所述扩展来源的文本数据进行文本预处理，获取作为训练集的文档-词矩阵(document-term matrix)；

步骤S3，在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型(Latent Dirichlet Allocation，LDA)；

步骤S4，将每条短文本表示成词向量(term vector)：[term1，term2，...，termx]；

步骤S5，将短文本的词向量作为浅层狄利赫雷分配主题模型(LatentDirichlet Allocation，LDA)的输入，输出得到与短文本相关的隐含主题概率分布；

步骤S6，将所述隐含主题的主题表示成主题向量(topic vector)：[topic1，topic2，...，topicy]，

将步骤S7，所述主题向量和所述词向量组合在一起，形成具有扩展特征空间的短文本，表示为：[term1，term2，...，termx，topic1，topic2，...，topicy]。

由上述技术方案可知，本实施例对选取的作为短文本特征空间的扩展来源进行文本预处理以及建立浅层狄利赫雷分配主题模型等处理，得到与短文本相关的隐含主题，进而把所述隐含主题的主题表示成的主题向量与短文本表示成的词向量组合在一起，形成具有扩展特征空间的短文本。短文本的特征空间得到扩展，能有效地提高短文本信息处理的质量，特别是分类、聚类以及摘要抽取等文本挖掘算法的准确性。

本实施例选取的短文本特征空间的扩展来源为维基百科(Wikipedia)的普通条目或特色条目(featured articles)。维基百科是一个基于维基(wiki)技术的多语言百科全书，其列入的文章来源可被审察及确认，其文章内容可靠性高。维基百科的特色条目是维基词典的主编根据中立、完整性和准确度等指标挑选出的最好的条目，作为特征空间的扩展来源质量更加可靠。

所述步骤S2中文本预处理的步骤具体为：抽取文本数据中的词干(stem)并计算词频(Term Frequency)。所述文档-词矩阵(document-term matrix)中的每一行代表一个文档(document，Wikipedia条目)，每一列对应一个词(term)，某行的一个词(term)的权值为该词在该行对应的文档中出现的次数(词频)；

所述步骤S6具体为：将所述隐含主题概率分布中概率值大于阈值(threshold)的主题表示成主题向量(topic vector)：[topic1，topic2，...，topicy]。阈值的取值范围为[0，1]。通过阈值的设定，可以在具体应用中确保实际效果不受影响的前提下，过滤掉冗余的主题。

由上可知，最后单条短文本表示成D＝[term1，term2，...，termx，topic1，topic2，...，topicy]。短文本的特征空间得到扩展，从而能有效地提高短文本信息处理的质量，特别是聚类和分类的准确率。

以上结合最佳实施例对本发明进行了描述，但本发明并不局限于以上揭示的实施例，而应当涵盖各种根据本发明的本质进行的修改、等效组合。

Claims

1.一种短文本特征空间扩展方法，包括如下步骤：

(1)选取短文本特征空间的扩展来源；

(2)对所述扩展来源的文本数据进行文本预处理，获取作为训练集的文档—词矩阵；

(3)在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型；

(4)将每条短文本表示成词向量；

(5)将短文本的词向量作为浅层狄利赫雷分配主题模型的输入，输出得到与短文本相关的隐含主题概率分布；

(6)将所述隐含主题的主题表示成主题向量；

(7)将所述主题向量和所述词向量组合在一起，形成具有扩展特征空间的短文本。

2.如权利要求1所述的短文本特征空间扩展方法，其特征在于，所述步骤(1)中选取的短文本特征空间的扩展来源为维基百科的普通条目或特色条目。

3.如权利要求1所述的短文本特征空间扩展方法，其特征在于，所述步骤(2)中文本预处理具体为：

抽取文本数据中的词干并计算词频。

4.如权利要求1所述的短文本特征空间扩展方法，其特征在于，所述步骤(6)具体为：

将所述隐含主题概率分布中概率值大于阈值的主题表示成主题向量。