CN102662960A

CN102662960A - 在线监督式主题建模及其演变分析的方法

Info

Publication number: CN102662960A
Application number: CN2012100594956A
Authority: CN
Inventors: 邵健; 张寅�; 任鸿凯; 吴飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-03-08
Filing date: 2012-03-08
Publication date: 2012-09-12

Abstract

本发明公开了一种在线监督式主题建模及其演变分析的方法。包括如下步骤：1）从新闻媒体网站下载新闻文本，并按一定的时间粒度进行划分；2）对各时间段的新闻文本进行分词处理，根据词频过滤更新词汇表3）提取文本特征，形成单词与文本的关系矩阵，构成在线监督式主题模型的输入；4）建立在线监督式主题模型，对每个时间粒度内的数据集，用在线监督式主题建模方法检测主题，得到单词关于主题的分布矩阵及主题在文本上的分布矩阵；5）用Jensen-Shannon散度对步骤4）中所得的主题进行演变分析并计算各主题的属性，得出各主题的演变过程。本发明充分利用数据本身的时间和类别信息，提高了主题挖掘的精度，并结合类别信息有效地分析了主题的演变过程。

Description

在线监督式主题建模及其演变分析的方法

技术领域

本发明涉及文本的主题挖掘领域，尤其涉及一种在线监督式主题建模及其演变分析方法。

背景技术

随着互联网的飞速发展，各种网络资源迅猛增长，如何将庞大的数据集以合理的结构展示，便于用户迅速地了解各主题事件的当前及历史信息显得尤为重要。传统的搜索、索引及浏览已经不能满足用户的需求，将相关事件在语义层面上抽象成主题，以主题形式表现整个数据集成为了更为科学合理的方式。因此挖掘数据内容的主题及其演变的算法研究具有迫切的现实意义，也充满无尽的挑战。

现今对离散数据进行主题建模和分析的方法大多采用概率主题模型实现，其能自动地检测出给定集合的主题，并且被证明是分析理解数据的有效方法，尤其是LDA(Latent Dirichlet Allocation)模型。然而随着文档数据格式的丰富和互联网的发展，传统的纯文本观点往往不适合，容易忽略了一些很重要的特征，如时间、作者、类别、用户提供的标签等等。并且面对实际需解决的数据流主题分析问题，传统的主题挖掘算法无法在线实时分析数据，将时间信息用在现有的主题模型中，合理地利用已经学到的先验知识进行主题的挖掘成为了国内外研究的热点。所以在主题模型中，一个非常重要的方向就是如何将这些有用的特征融入模型。如监督式LDA(Supervised LDA)引入了文本的类别信息，OLDA(Online LDA)方法引入了时间信息。

尽管已经有众多国内外的科研工作者在改进主题模型方面做出努力，并产生了很多有效的主题挖掘算法，但目前为止没有一种模型能同时考虑文档的时序特性和类别属性。不同的类别往往反映出不同的主题。现有研究表明，在文档分析中，若能有效利用文档中除单词之外的其他辅助信息可有效地提高隐含主题的挖掘及其演变分析的性能。

针对需解决的带有类别标签的新闻数据文本进行主题演化分析时，我们提出了在线监督式主题挖掘及演变分析的算法。该方法能在线实时地分析主题的演变，适用于海量数据的分析。其将前一时刻学到的先验知识有效地用于当前时刻的主题分布，有效地利用了文本间的实现关系。考虑到主题跟类别之间的相关性，利用文本的类别特征及各单词在文本中的词频及权重，并结合主题在单词上的分布重计算其所属的类别，并在类内计算主题的相似性来表征主题间的演变关系。同时，利用各文本上的主题概率计算主题的强度及其相关的文本，实现更直观地表示。

发明内容

本发明的目的是克服现有技术的不足，提供一种在线监督式主题建模及其演变分析的方法。

在线监督式主题建模及其演变分析的方法包括如下步骤：

1)编写爬虫程序，从新闻媒体网站上下载一段时间的新闻文本，并以一周为时间粒度构成新闻文本数据集D＝{S₁，S₂......S_t}，S_i表示一周的数据；

2)对当前时间段的新闻文本进行分词处理，根据词频过滤确定当前的词汇表；

3)提取新闻文本特征，形成单词与新闻文本的关系矩阵，作为在线监督式主题模型的输入；

4)建立在线监督式主题模型，对每个时间粒度内的数据集，用在线监督式主题模型检测主题，得到单词关于主题的分布矩阵φ及主题在新闻文本上的分布矩阵θ；

5)用Jensen-Shannon散度对步骤4)中所得的主题进行演变分析并计算各主题的属性，得出各主题的演变过程。

所述的步骤2)为：

1)对当前时间粒度数据集S_t中的新闻文本进行分词，去除停用词、数字、标点符号，并更新总的单词列表SW＝{(sw_i)：i＝1，2，...，l}及其相应的词频SC；

2)当前的单词列表W_t为SW中词频不小于5的单词，并得到相关矩阵C，相关矩阵C是一个|W_t|×2的矩阵，c_i1表示单词w_i在S_t中出现的次数，c_i2表示出现该单词的文本数量。

所述的步骤3)为：根据tfidf值提取新闻文本特征，确定每篇新闻文本的单词及词频作为输入，tfidf的计算公式如下

tfidf = \frac{c_{j 1} / SD}{c_{j 2} / SM} - - - (1)

其中，SD表示当前处理文档总的单词数，SM表示S_t中总的文档数，过滤掉tfidf值小于0.05的单词；

另外，前一时刻得出的单词关于主题的分布矩阵φ^t-1，是一个|W_t-1|×K矩阵，K为主题数量，根据新的单词列表W_t，将其更新为|W_t|×T的矩阵，新出现单词关于主题的分配为0，新闻文本的类别映射到整数集合上，分别用1、2…L表示，L为类别总数。

所述的步骤4)为：第t个时间段的主题先验分布参数β通过如下公式由t-1时刻的主题分布来获得：

β_{v_{i}, k, t} = \{\begin{matrix} b, t = 1 \\ φ_{v, k}^{t - 1} + b, t &GreaterEqual; 2 \end{matrix} - - - (2)

表示第v个单词关于主题k的先验，

是前一时刻得出的单词在主题上的分布，利用这一数据来作为当前时刻的先验，构成先验参数

由此建立在线监督式主题模型，更改Gibbs采样的条件概率P(z|w)，得出新的主题分布；

利用蒙特卡洛迭代算法计算每个单词所属主题的条件分布P(z|w)，进而对在线监督式主题模型进行求解，在每次迭代中，通过其他单词的主题分布，用如下公式计算每个单词所对应每个主题的概率P(z_d，i＝k|z_-d，i，w_di，y_d，α，β_t，η，σ²)：

\{\begin{matrix} P (z_{d, i} = k | z_{- d, i}, w_{di}, y_{d}, α, β_{t}, η, σ^{2}) &Proportional; \frac{C_{w_{- i, k}}^{VK} + β_{w_{i}, k, t}}{Σ_{v = 1}^{V} (C_{v_{- i, k}}^{VK} + β_{v, k, t})} \times \frac{C_{d_{- i, k}}^{DK} + α}{Σ_{k = 1}^{K} (C_{d_{- i, k}}^{DK} + α)} \times ρ \\ ρ = \exp {\frac{2 \times (N \times y - Σ_{k = 1}^{K} η_{k} \times C_{d_{- i, k}}^{DK}) \times η_{k} - {(η_{k})}^{2}}{2 N^{2} σ^{2}}} \end{matrix} - - - (3)

其中

是不包括w_i的其他所有单词被分配到主题k的次数，

表示单词w_i在主题k下的概率，

是主题k分配到文档d的次数，

表示主题k在文档d_i里的概率，N为文档d中所包含的单词总数，η和σ是类别服从的高斯分布参数，ρ是已知y_d的情况下，z_d，i为主题k的概率，据此分配，一个新的主题被采用并作为对应单词的新主题，经过足够的迭代次数后，通过分配给每个主题的单词数及每个文档被分配的主题数估算出单词关于主题的分布矩阵φ及主题在新闻文本上的分布矩阵θ。

所述的步骤5)为：用Jensen-Shannon散度进行两向量之间相似度的度量，来表示主题之间的演化关系，对于两主题向量φ_i、φ_j，用如下公式计算：

JS (φ_{i} | | φ_{j}) = \frac{1}{2} Σ_{p} φ_{ip} \log \frac{φ_{ip}}{φ_{rp}} + \frac{1}{2} Σ_{p} φ_{rp} \log \frac{φ_{rp}}{φ_{jp}}

其中

φ_{r} = \frac{1}{2} (φ_{i} + φ_{j})

同时计算各主题的类别、强度及相关新闻文本属性，首先利用tfidf及单词的词频，得出单词关于类别的关系矩阵。

{WL}_{v, c} = \overset{&OverBar;}{\underset{d &Element; C}{Σ} \underset{v &Element; d}{Σ} n_{v} \times {tfidf}_{v}}

C表示所要处理类别的文本集合，v是文本d中的单词，对于每个单词，用其词频与tfidf的乘积计算权重，得出各单词关于类别的权重WL_v，c，根据各单词的类别计算主题的类别属性，即对每个单词，在其主题概率上引入类别概率值：

TL = \underset{v}{Σ} φ_{v} \times {WL}_{v}

得出的TL是关于类别的向量，用权重最大的一个值表示该主题的类别，定义主题的强度为该主题在整个新闻文本数据集上的概率比例。

{TH}_{k} = \frac{Σ_{d} θ_{d, k}}{D}

D是数据集内新闻文本的数量，也是所有主题在新闻文本上的分布θ_d，k累加的值，得出各主题的强度，通过在线监督式主题模型的分析得出各新闻文本关于主题的分布，得到某一主题相关的新闻文本；

主题的演变关系计算步骤如下：

输入：当前时刻t得出的主题分布

t-1时刻的主题分布φ^t-1，阈值ε_T

输出：各主题的演变关系集合

步骤1：计算各主题的类别、强度及相关新闻文本属性；

步骤2：对t-1时刻的主题映射到当前词汇表V_t；

步骤3：对于t时刻的每个主题i，进行如下计算：

1)计算与t时刻的每个主题i同类别的t-1时刻主题j的Jensen-Shannon散度距离，即

2)若Jensen-Shannon散度距离小于阈值，则主题j与主题i之间存在演变关系，更新

及

中各元素相应的演变关系集合。

本发明充分利用文本数据的时序和类别信息，将前一时刻的主题建模结果用于下一时刻的分析，实现主题在时序间的相互影响，因此可提升主题建模的精度，并结合主题的属性有效实现主题演化的分析。

附图说明

图1是在线监督式主题建模的模型图，其中：α和β分别用来表示文档和主题的狄利克莱先验分布θ和φ的参数；w表示单词，y是文档的类别标识，其对应的高斯分布参数是η和σ；z表示文档中各个单词的主题分配，M是文档数，N是单词数；

图2是本发的主题建模索与其他方法的对比结果，分别是传统LDA、监督式LDA、在线LDA、在线监督式LDA在17个实验点数据上的结果。

具体实施方式

在线监督式主题建模及其演变分析的方法包括如下步骤：

所述的步骤2)为：

tfidf = \frac{c_{j 1} / SD}{c_{j 2} / SM} - - - (1)

β_{v_{i}, k, t} = \{\begin{matrix} b, t = 1 \\ φ_{v, k}^{t - 1} + b, t &GreaterEqual; 2 \end{matrix} - - - (2)

表示第v个单词关于主题k的先验，是前一时刻得出的单词在主题上的分布，利用这一数据来作为当前时刻的先验，构成先验参数由此建立在线监督式主题模型，更改Gibbs采样的条件概率P(z|w)，得出新的主题分布；

\{\begin{matrix} P (z_{d, i} = k | z_{- d, i}, w_{di}, y_{d}, α, β_{t}, η, σ^{2}) &Proportional; \frac{C_{w_{- i, k}}^{VK} + β_{w_{i}, k, t}}{Σ_{v = 1}^{V} (C_{v_{- i, k}}^{VK} + β_{v, k, t})} \times \frac{C_{d_{- i, k}}^{DK} + α}{Σ_{k = 1}^{K} (C_{d_{- i, k}}^{DK} + α)} \times ρ \\ ρ = \exp {\frac{2 \times (N \times y - Σ_{k = 1}^{K} η_{k} \times C_{d_{- i, k}}^{DK}) \times η_{k} - {(η_{k})}^{2}}{2 N^{2} σ^{2}}} \end{matrix} - - - (3)

其中

是不包括w_i的其他所有单词被分配到主题k的次数，

表示单词w_i在主题k下的概率，是主题k分配到文档d的次数，

JS (φ_{i} | | φ_{j}) = \frac{1}{2} Σ_{p} φ_{ip} \log \frac{φ_{ip}}{φ_{rp}} + \frac{1}{2} Σ_{p} φ_{rp} \log \frac{φ_{rp}}{φ_{jp}}

其中

φ_{r} = \frac{1}{2} (φ_{i} + φ_{j})

{WL}_{v, c} = \overset{&OverBar;}{\underset{d &Element; C}{Σ} \underset{v &Element; d}{Σ} n_{v} \times {tfidf}_{v}}

TL = \underset{v}{Σ} φ_{v} \times {WL}_{v}

{TH}_{k} = \frac{Σ_{d} θ_{d, k}}{D}

主题的演变关系计算步骤如下：

输入：当前时刻t得出的主题分布t-1时刻的主题分布φ^t-1，阈值ε_T

输出：各主题的演变关系集合

步骤1：计算各主题的类别、强度及相关新闻文本属性；

步骤2：对t-1时刻的主题映射到当前词汇表V_t；

步骤3：对于t时刻的每个主题i，进行如下计算：

及

中各元素相应的演亦关系集合。

实施例

实验数据采用纽约时报数据集，数据集包括从2011年1月1日至2011年4月30日的文本数据，为了避免个别文本数很少的类对主题建模的影响，去除了这几个类的数据。只针对纽约时报arts、business、health等8类中的文本数据进行分析，每篇文章均标有其中的一个类别。整个处理的数据集合一共包含8295篇文章和32723个不同单词，各类别包含的文档数及单词数具体信息如下表所示，其中单词数的单位是千：

类别	arts	business	health	realestate	Science	technology	us	world
									文档数	1366	1681	313	215	297	229	1928	2326
单词数	1932	2028	310	298	308	287	1978	2361

将8295篇文章按照7天一个时间片段进行切分后，将其中80％的文档作为训练数据，剩下的20％作为测试数据，用LDA、SLDA、OLDA和OSLDA分别进行实验，得出其相应的复杂度(Perplexity)。由于参数会对模型性能有所影响，在实验中将参数α值范围设定为[0.5∶3.0]，间隔为0.5；β从[0.01∶0.2]，间隔为0.01，对所得到的两个参数组成120种情况进行实验。并对各方法最好的效果进行比较，如图2。所以，其中Perplexity值越小，效果越好。

OSLDA在α为0.05，β为0.02时效果最好，用此参数进行数据分析，得出主题的演变，例如3月12号的数据中检测出的主题7是因3月11号日本地震后突发的，其与相邻时刻最近的主题之间的JS熵度如图3。表示了某主题的突发演变，具体的内容如下表所示：

上表给出了检测出的主题7的演变过程，在该表中给出了各主题对应的类别信息，主题强度，以及相关文本，从中可以看出，3月11号日本地震后，该主题主要由日本地震、核问题等相关事件的单词来表示，且主题强度随时间减弱。