CN101655838B

CN101655838B - 一种粒度可量化的话题提取方法

Info

Publication number: CN101655838B
Application number: CN2009101954586A
Authority: CN
Inventors: 曾剑平; 吴承荣
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2009-09-10
Filing date: 2009-09-10
Publication date: 2011-12-14
Anticipated expiration: 2029-09-10
Also published as: CN101655838A

Abstract

本发明属于文本分析技术领域，具体涉及一种粒度可量化的话题提取方法。本发明通过对文本集的词频矩阵进行DCT变换，转换成代表词语能量的矩阵，根据这种矩阵中的能量分布特点，进行变换矩阵的能量分割，从而将话题粒度与用户所期望的粒度参数对应起来。在能量分割的基础上进行DCT反变换，从而得到与粒度相对应的特征空间，在这个空间中运用现有的话题提取方法提取粒度话题，从而完成粒度可量化的话题提取。本发明为用户比较准确地提取粒度话题提供有效方法，适应于各种需要粒度理解的话题提取场合。

Description

一种粒度可量化的话题提取方法

技术领域

本发明属于文本分析技术领域，具体涉及一种从文本集中提取话题粒度特征描述的数据分析方法。

背景技术

目前互联网已经成为一种信息共享的主要途径和空间，在互联网上每天都有大量的文本信息产生，如各种新闻报道、产品介绍、各种网络评论等等。此外，许多海量信息库，如专利信息库、科技论文文献库等，都包含了丰富的文本信息，并且可以通过互联网实现快速共享。从这些大量的文本信息源中发现各种隐藏的话题是许多应用的需求，如对网络上某种产品评论的自动化分析。而让计算机从文本信息中自动发现话题则是这个过程的前提，因此，目前有许多相关的数学模型或算法可以帮助人们从文本集中发现隐藏的话题。基本方法是，首先从文本集中选择一些合适的词语，用这些词语来描述单个文本，类似于将文本离散化表示，最后采用各种数据聚类算法对各个文本进行类的发现，这些类即对应于话题。然而由于人们在理解文本所描述的话题时，是按照一定的话题粗细层次结构进行的。因此，层次话题的提取就成了一种重要的文本分析技术发展方向。在话题离散表示的基础上，采用层次聚类算法逐步生成具有层次结构的话题，或者在假设上下层次话题结构之间服从某种概率分布的前提下，可以通过参数学习构造层次话题结构。

虽然人们提出了许多方法和模型来解决层次结构话题的提取问题，但是在面对人们深入理解话题粗细程度的需求下，这些方法或模型仍存在问题，主要是由于话题层次结构中缺少对层次的数量化描述，无法为人们提供一种较准确话题的粗细程度的方法。具体而言，所存在的问题列举以下：

1.话题层次只是一种结构关系，而无法准确地提供给用户可识别的话题粗细程度描述，人们无法知道上下两个层次的话题在粗细程度上的具体差异。

2.必须在获得整个话题层次结构的基础上，才能从整体上了解话题相对的粗细程度，而人们通常需要直接获得某个粗细程度上的话题信息。现有方法的计算复杂度明显偏高。

由此可见，实现粒度可量化的话题自动提取是非常重要的，而现有方法在粒度指示、粒度话题提取算法设计上存在不足，尚无法满足粒度话题提取分析的要求。

发明内容

本发明的目的主要是针对现有各种话题提取方法在从文本数据集中提取具有层次结构话题时所存在的不足，提出一种层次粒度可量化的话题提取方法。

本发明提出的方法，通过对文本集的词频矩阵进行DCT(离散余弦变换)变换[1]，转换成代表词语能量的矩阵，根据这种矩阵中的能量分布特点，进行变换矩阵的能量分割，从而将话题粒度与用户所期望的粒度参数对应起来。在能量分割的基础上进行DCT(离散余弦变换)反变换，从而得到与粒度相对应的特征空间，在这个空间中运用现有的话题提取方法提取粒度话题，从而完成粒度可量化的话题提取。

本发明的具体步骤如下：

(1)通过网络爬虫技术，从互联网上下载与某个话题相关的文本记录[2]，从而构成一个包含多个文本的文本数据集。

(2)采用现有的分词方法[3]将所有文本记录分割成独立的词序列，同时去除停用词，从而将整个文本集中的文本用单个词语来描述。

(3)为文本集构造词语频率矩阵，矩阵的行表示词语，列表示文档，矩阵中的元素表示词语在该文档中出现的频率。矩阵的大小为词语的总数×文档总数。

(4)对词语频率矩阵进行分割，得到若干个小的矩阵，对每个小的矩阵执行如下过程：

(a)进行DCT(离散余弦变换)变换，得到变换矩阵[1]。

(b)根据用户提供的话题粒度参数值，对变换后的矩阵进行量化，从而得到量化矩阵。

(c)对量化矩阵进行DCT(离散余弦变换)逆变换[1]。

(5)对这些逆变换结果所得到的矩阵进行组合，得到与原始词频矩阵对应的词频矩阵，从而得到与粒度对应的特征词空间。

(6)对变换后的词频矩阵，运用现有的话题提取算法[4]，进行话题提取，从而得到与该粒度相对应的话题描述。

(7)在必要时，根据用户不同的粒度分析需求，重复执行步骤(4)-(6)，直到用户粒度话题都提取完成。

具体流程见图1所示。

本发明具有实质性特点和显著进步：(1)为传统层次结构的话题提供一个层次粒度量化值，并且该量化值与用户所期望的话题粒度一致，能够较好地实现用户对粒度话题是别的要求；(2)充分利用原始词频矩阵变换过程中所去除的不同能量部分，构造粒度话题的描述空间，而不需要在文本集对应的整个词空间中描述话题，从而使得话题更加便于理解和描述；(3)基于粒度量化值可以为用户提供指定粒度的话题提取与分析，而不必像现有方法在构造整个层次话题结构之后才能进行话题粗细的分析。

本发明提出了粒度量化的概念，作为层次话题结构中话题粗细程度的一种定量度量方法，利用文本集中词频矩阵的DCT(离散余弦变换)变换矩阵中所包含的能量高低，采用合适的量化方法，构造与用户需求一致的量化参数，从而为粒度话题量化提供一种便于沟通的途径，为用户比较准确地提取粒度话题提供有效方法，适应于各种需要粒度理解的话题提取场合。

附图说明

图1为本发明方法流程图示。

图2为量化的二维坐标系。

具体实施方式

(1)从互联网上下载需要分析的文本集。

根据事先安排的话题关键词，从网络上查找相关的话题文本，并通过基于HTTP(超文本传输协议)协议的数据分析得到这些文本记录，并保存到本地，经过正文信息提取，从而得到话题信息的文本集合。

(2)文本集的预处理

对各个文本进行分词，去除一些常见的停用词，从而得到一个与该文本集相对应的词语表T，词语表的每一行是一个词，并且词语表中不存在重复的记录行。

(3)构造词频矩阵

对文本集中的每一个文档d_i，构造一个行向量v_i＝{c_i1，c_i2，c_i3，...，c_iX}，这里X表示词语表T中的所有词个数，c_ij的计算方法如下：

c_{ij} = \frac{{TC}_{ij}}{Σ_{j = 1}^{X} {TC}_{ij}}

其中，TC_ij表示文档i中词j出现的次数。

构造整个文本集的词频矩阵M1＝{v₁ ^T，v₂ ^T，...v_Y ^T}，其中Y表示文本集的文档数。

(4)将矩阵M1进行分割成k个矩阵，如下：

M 1 = [\begin{matrix} M 11 \\ M 12 \\ . . . \\ M 1 k \end{matrix}]

(5)对每个矩阵执行如下变换过程

首先，进行DCT(离散余弦变换)变换，具体方法如下[1]：

B_{pq} = α_{p} α_{q} Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} A_{mn} \cos \frac{π (2 m + 1) p}{2 M} \cos \frac{π (2 n + 1) q}{2 N}

其中，A矩阵即为分割后的矩阵M_1k，其大小为M×N，Amn为矩阵A的元素，B_pq为变换矩阵B的元素，

α_{p} = \{\begin{matrix} 1 / \sqrt{M}, & p = 0 \\ \sqrt{2 / M}, & 1 \leq p \leq M - 1 \end{matrix}

α_{q} = \{\begin{matrix} 1 / \sqrt{N}, & q = 0 \\ \sqrt{2 / N}, & 1 \leq q \leq N - 1 \end{matrix},

0≤p≤M-1，0≤q≤N-1.

接着，对每个变换后的矩阵B，执行如下的量化过程：将矩阵B的元素放到如图2所示的二维坐标系中，定义量化特征线为

f(x)＝x+b(M+N)

其中，b是量化因子，是[0，1]区间中的一个数，由用户提供。

量化的原则如下：将落入量化特征线下方的矩阵元素设置为0，而处于量化特征线上方的元素保持不变。

最后，对量化后的矩阵进行DCT(离散余弦变换)反变换，如下[1]：

A_{mn}^{'} = Σ_{p = 0}^{M - 1} Σ_{q = 0}^{N - 1} {α_{p} α_{q} C}_{pq} \cos \frac{π (2 m + 1) p}{2 M} \cos \frac{π (2 n + 1) q}{2 N}

其中，C为量化后的矩阵，Cpq为矩阵C的元素，A’为与矩阵M_1k相对应的变换词频矩阵，A′_mn为A′的元素，

α_{p} = \{\begin{matrix} 1 / \sqrt{M}, & p = 0 \\ \sqrt{2 / M}, & 1 \leq p \leq M - 1 \end{matrix},

α_{q} = \{\begin{matrix} 1 / \sqrt{N}, & q = 0 \\ \sqrt{2 / N}, & 1 \leq q \leq N - 1 \end{matrix}

0≤m≤M-1，0≤n≤N-1.

(6)对变换词频矩阵A’进行组合得到与粒度话题对应的词频矩阵M2，如下：

M 2 = [\begin{matrix} A^{'} 11 \\ A^{'} 12 \\ . . . \\ A^{'} 1 k \end{matrix}]

选择M2中词频非0的词作为该粒度话题的描述空间，使用LDA(隐狄利克雷分配)模型在这个空间中对这个文本集进行话题提取，从而得到话题描述。

(7)如果用户希望得到其他粒度的话题描述，只要改变b的值，重新执行步骤(5)，(6)即可。

从上述实施过程可以看出，本发明采用将DCT(离散余弦变换)变换引入到文本分析领域，将词频矩阵变换为与能量相关的矩阵，从而实现与用户需求一致的粒度量化，并可实现某一个指定粒度的话题提取，而不必对整个文本集建立层次话题结构之后才能分析话题的粗细程度。本发明所提出的粒度量化以及粒度话题提取方法能够较好地为用户提供一种合适的话题粒度表达方式，使得粒度话题的提取可以直接进行，并且较好地符合用户对粗细话题提取的需求。

实施例子：

从网络上下载一个关于近期金融危机的综述分析文本集，该文本集包含29个文本记录。经过分词、消除停用词等预处理步骤，得到2678个词语，作为描述各种话题的特征空间。

设置3个粒度0.3，0.6，1.0，对每个粒度进行话题提取。使用LDA(隐狄利克雷分配)模型，对相应粒度特征空间中的文本进行模型学习，得到的话题描述如表1所示。由表可见，第一个粒度的话题描述了全球金融危机与若干种经济活动的联系，第二个粒度的话题描述了全球金融危机对一些国家在投资、贷款、保险等行业的影响，而第三粒度的话题更加详细地描述了金融危机所产生的各个方面的影响。

粒度	描述粒度话题的一些主要词语
		0	全球金融爆炸抵押系统有价证券银行福利银行家危机行政股票华尔街
1	投资贷款风险创新经济学家保险发生工业国家支付开始最终接受援助政府美国数以百计韩国泰国印度尼西亚巴西俄罗斯欧洲英国中国冰岛日用品拯救国际货币基金组织非洲基础设施
		2	信用次贷冲突利润购买房产价格导致流行损失工作论坛工人文化创造控制由于关键不稳定不确定复合燃油担心分析家总结消费品进口出口怀疑政策发展降低社会效果选举权利报告承诺税收投机富有电力激烈位置受害者连续要求消费刺激本地通常

参考文献：

[1]Gregory K.W.The JPEG Still Picture Compression Standard.Communications of the ACM，1991，34(4)：30-44.

[2]徐远超，刘江华，刘丽珍，关永.基于Web的网络爬虫的设计与实现.微计算机信息，2007，23(21)：119-121

[3]马光志，李专.基于特征词的自动分词研究.华中科技大学学报(自然科学版)，2003，31(3)：60-62.

[4]Blei D.，Ng A.，and Jordan M.Latent Dirichlet Allocation.Journal of Machine Learning Research，2003，3(5)：993-1022.

Claims

1.一种粒度可量化的话题提取方法，其特征在于具体步骤如下：：

(1)通过网络爬虫技术，从互联网上下载与某个话题相关的文本记录，从而构成一个包含多个文本的文本数据集；

(2)采用现有的分词方法将所有文本记录分割成独立的词序列，同时去除停用词，从而将整个文本集中的文本用单个词语来描述；

(3)为文本集构造词语频率矩阵，矩阵的行表示词语，列表示文档，矩阵中的元素表示词语在该文档中出现的频率；矩阵的大小为词语的总数×文档总数；

(a)进行离散余弦变换变换，得到变换矩阵；

(b)根据用户提供的话题粒度参数值，对变换后的矩阵进行量化，从而得到量化矩阵；

(c)对量化矩阵进行离散余弦变换逆变换；

(5)对这些逆变换结果所得到的矩阵进行组合，得到与原始词频矩阵对应的词频矩阵，从而得到与粒度对应的特征词空间；

(6)对变换后的词频矩阵，运用现有的话题提取算法，进行话题提取，从而得到与该粒度相对应的话题描述；

(7)根据用户不同的粒度分析需求，重复执行步骤(4)-(6)，直到用户粒度话题都提取完成；

步骤(4)中所述对变换矩阵进行量化的步骤为：将变换矩阵放在一个二维坐标系中处理，并运用粒度特征线进行量化，采用的量化原则为：将落入量化特征线下方的矩阵元素设置为0，而处于量化特征线上方的元素保持不变；而量化特征线定义为：

f(x)＝x+b(M+N)

其中，b是由用户提供的量化因子，是[0，1]区间中的一个数；M，N分别为词语频率矩阵经分割后的小矩阵的行数和列数。

2.如权利要求1所述的粒度可量化的话题提取方法，其特征在于构造词语频率矩阵的步骤如下：

(1)对文本集中的每一个文档d_i，构造一个行向量v_i＝{c_i1，c_i2，c_i3，...，c_iX}，这里X表示词语表T中的所有词个数，c_ij的计算方法如下：

c_{ij} = \frac{{TC}_{ij}}{Σ_{j = 1}^{X} {TC}_{ij}}

其中，TC_ij表示文档i中词j出现的次数；

(2)构造整个文本集的词频矩阵M1＝{v₁ ^T，v₂ ^T，...v_Y ^T}，其中Y表示文本集的文档数。

3.如权利要求2所述的粒度可量化的话题提取方法，其特征在于：步骤(6)中，在变换后的词频矩阵中选择词频非0的词作为该粒度话题的描述空间，使用隐狄利克雷分配模型在这个空间中对这个文本集进行话题提取，从而得到话题描述。

4.如权利要求3所述的粒度可量化的话题提取方法，其特征在于：用户直接通过指定粒度参数b，而得到相应的粒度话题描述，而不需要构造话题的层次结构再进行话题粗细程度的分析。