CN106815211A

CN106815211A - 一种基于循环聚焦机制进行文档主题建模的方法

Info

Publication number: CN106815211A
Application number: CN201611194573.8A
Authority: CN
Inventors: 李双印; 潘嵘; 杨洋
Original assignee: Shenzhen Ipin Information Technology Co Ltd
Current assignee: Shenzhen Ipin Information Technology Co Ltd
Priority date: 2016-12-22
Filing date: 2016-12-22
Publication date: 2017-06-09
Anticipated expiration: 2036-12-22
Also published as: CN106815211B

Abstract

本发明提供一种基于循环聚焦机制进行文档主题建模的方法，通过提供一种能够同时利用文档中单词信息，以及句子之间的序列信息，对文档进行有效建模；并利用聚焦机制对句子语义连贯性进行权重学习，可充分利用句子间主题的加权依赖性，从而学习到更加有效的文本向量。

Description

一种基于循环聚焦机制进行文档主题建模的方法

技术背景

本发明涉及文本建模领域，更具体的，涉及一种基于循环聚焦机制进行文档主题建模的方法。

背景技术

使用贝叶斯方法进行无结构文本建模的主要技术是主题模型。传统主题模型的方法体系是建立在词袋模型的假设下，将文本定义为隐含主题空间上的向量分布，而隐含主题又定义为词典上的向量分布。当使用主题模型时，可以将文档映射到隐含主题空间，使用主题分布作为文档向量，从而进行文本检索、聚类、分类等数据挖掘任务。主题模型通常假设文本中的单词是无序的，即词袋模型假设，这一假设能够帮助大规模的文本进行快速有效的建模。然而，文本是基于词语，句子，甚至段落的序列数据，这些序列特征构成了文本本身复杂的语义和机构信息。有些方法利用了词语的有序性对文本进行建模，例如基于n-gram的贝叶斯技术，以及基于循环神经网络的文本建模技术。

然而上述现有技术存在以下缺点：尽管主题模型被广泛应用于文本建模，但是句子之间的连贯一致性，即句子层面的序列信息，却被忽略。句子间的连贯性，是文本数据中天然存在的结构化信息，能够很好地反映文本中的语义信息。这种现象可以理解为句子之间的语义连贯性，体现在当前某个句子的主题是依赖于它前面的某几个句子。而且，这种主题层面的依赖并不是等同的，是存在一定的权重大小的：即当前句子的主题分布，是加权依赖它前面的若干句子。这就必须提出一套能够同时考虑句子之间这种语义连贯性和其加权依赖性的方法，以确保能够充分利用句子之间丰富的序列信息，从而更加有效计算文本语义向量。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明的目的在于，提供一种基于循环聚焦机制进行文档主题建模的方法，通过提供一种能够同时利用文档中单词信息，以及句子之间的序列信息，对文档进行有效建模；并利用聚焦机制对句子语义连贯性进行权重学习，可充分利用句子间主题的加权依赖性，从而学习到更加有效的文本向量。

为实现上述目的，本发明提供了一种基于循环聚焦机制进行文档主题建模的方法，包括：

步骤一，对于文档dⁱ，设置C值，所述C表示当前句子受多少之前句子的影响值；

步骤二，设定文档dⁱ的主题分布为θ^d，文档dⁱ在主题空间上的每一维含量为ρ_k，令θ^d为RABP(G₀，π)中的基础分布G₀；

步骤三，遍历文档dⁱ中的每一个句子

步骤四，遍历文档中的每一个句子与句子中的单词，计算文档dⁱ在主题空间上的每一维含量为ρ_k；

步骤五，归一化ρ，从而得到文档dⁱ的主题分布θ^d。

更具体的，在步骤一之前还包括：

(1)针对每一个主题k，采样β_k～Dir(π)，β_k为主题k在词典上的分布；

(2)对于每一个文档dⁱ，首先采样得到该文档的主题分布θ～Dir(α)，其中α为超参数，θ作为基础分布G_C；

(3)针对文档dⁱ中的每一个句子使用RABP(G₀，π)采样得到当前句子的主题分布

(4)针对句子中的每一个单词w，使用采样得到当前句子中的每一个单词；

D＝{d¹，...，d^M}表示为一个具有M篇文档的文档集合，其中dⁱ表示第i篇文档；对于每一篇文档dⁱ，其中表示文档中的一个句子，r表示句子的个数。对于每一个句子其中表示一个单词，n为句子中单词的个数。

更具体的，所述步骤三具体为：

求出所对应的聚焦向量∈^j中G₀所对应的权重分量求出句子中每一个单词w_n所赋予的主题标号。

更具体的，所述求出句子中每一个单词w_n所赋予的主题标具体为：通过以下公式，求出句子中每一个单词w_n所赋予的主题标号：

更具体的，所述步骤四具体为：通过下面的公式计算文档dⁱ在主题空间上的每一维含量为ρ_k：

更具体的，所述RABP(G₀，π)过程为：

从时刻t＝1开始，从G₀中采样出样本θ¹；

对于当前时刻t>1,首先从Dir(π)中采样出样本∈，这里Dir(π)表示狄雷克雷分布，样本∈＝(∈₁，∈₂，...，∈_C)^T；

对于∈_i，i∈(1，...，C-1),我们获得t-C+1时刻到t-1时刻的前序分布，令当前时刻的分布为

对于∈_C，令当前时刻的分布为θ^t＝∈_C·G₀；

其中，C为过去时间点的时间窗口，即过去时间点的个数，设定多少过去的时间点会影响当前时间点；∈为当前时间点的聚焦向量，用来表示过去时间点的权重信息；在此步骤后，当前时刻t的分布可以表示为：

此循环聚焦贝叶斯过程为RABP(G₀，π)，其中G₀是一个基础分布，π是聚焦超参数。

通过本发明提供的一种基于循环聚焦机制进行文档主题建模的方法，通过提供一种能够同时利用文档中单词信息，以及句子之间的序列信息，对文档进行有效建模；并利用聚焦机制对句子语义连贯性进行权重学习，可充分利用句子间主题的加权依赖性，从而学习到更加有效的文本向量。与现有技术相比，本发明提出的技术方案中，建立了句子间主题分布的连贯性关系，通过句子层面的主题建模，从而弥补传统主题模型无法利用句子序列信息的弱点，从而获得更有效的文档向量模型。

附图说明

图1示出了本发明一种基于循环聚焦机制进行文档主题建模的方法的流程图；

图2示出了本发明一种基于循环聚焦机制进行文档主题建模的方法的计算流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于循环聚焦机制进行文档主题建模的方法的流程图。

首先，循环聚焦贝叶斯过程是不同于传统贝叶斯过程的数学模型，例如循环狄雷克雷过程和狄雷克雷-霍克斯过程。循环聚焦贝叶斯过程是用来分析时序信息的一种数学模型，它利用动态聚焦机制，充分考虑过去的时间点对当前时间点的影响，从而获得当前时间点的时序积累信息。这个过程我们定义为RABP(G₀，π)，其中G₀是一个基础分布，π是聚焦超参数。本过程的步骤如下：

(1)从时刻t＝1开始，从G₀中采样出样本θ¹

(2)对于当前时刻t>1,首先从Dir(π)中采样出样本∈，这里Dir(π)表示狄雷克雷分布，样本∈＝(∈₁，∈₂，...，∈_C）^T。

(3)对于∈_i，i∈(1，...，C-1),我们获得t-C+1时刻到t-1时刻的前序分布，令当前时刻的分布为

(4)对于∈_C，令当前时刻的分布为θ^t＝∈_C·G₀。

上述步骤中，C为过去时间点的时间窗口，即过去时间点的个数，设定多少过去的时间点会影响当前时间点。∈为当前时间点的聚焦向量，用来表示过去时间点的权重信息。

在此步骤后，当前时刻t的分布可以表示为

此循环聚焦贝叶斯过程我们称之为RABP(G₀，π)，它主要考虑以往时间点对当前时间点的影响，这个过程可以用于对文档句子的建模。

在本发明的技术方案中，我们定义如下的数学描述方式：D＝{d¹，...，d^M}表示为一个具有M篇文档的文档集合，其中dⁱ表示第i篇文档。对于每一篇文档dⁱ，其中表示文档中的一个句子，r表示句子的个数。对于每一个句子其中表示一个单词，n为句子中单词的个数。

在文档中，一个句子的主题分布往往与它之前的句子关系十分相近，这在语言学里面被称之为语义一致性或连贯性。我们把文档d看成许多句子的序列，本发明旨在捕捉前面一些句子对当前句子主题分布的影响。当然，当前句子(我们记为)的主题分布也受整篇文档d的影响。我们令θ表示句子的主题分布，G₀表示一个K维的狄雷克雷分布，K为隐含主题的个数。

如图1所示，本发明提供了一种基于循环聚焦机制进行文档主题建模的方法，包括：

步骤三，遍历文档dⁱ中的每一个句子

步骤五，归一化ρ，从而得到文档dⁱ的主题分布θ^d。

更具体的，在步骤一之前，每一篇文档的生产步骤如下：

(4)针对句子中的每一个单词w，使用采样得到当前句子中的每一个单词。

在这个生成过程中，聚焦向量隐含在RABP(G₀，π)中，表示每一个句子的主题分布都受到之前若干句子的加权影响。

图2示出了本发明一种基于循环聚焦机制进行文档主题建模的方法的计算流程图。其具体呈现了通过某些参数得到具体的参数定义。

针对图1所示的一种基于循环聚焦机制进行文档主题建模的方法的流程图，更具体的，本发明中的模型求解过程，可以通过最大后验估计，使用变分推理进行参数求解。求解出参数α，β，π后，针对某一文档dⁱ，文档的主题分布可以通过以下过程获得：

步骤一，对于文档dⁱ，设置C值，即当前句子受多少之前句子的影响。

步骤二，设定文档dⁱ的主题分布为θ^d，文档dⁱ在主题空间上的每一维含量为ρ_k。令θ^d为RABP(G₀，π)中的基础分布G₀。

步骤三，遍历文档dⁱ中的每一个句子那么

(1)求出所对应的聚焦向量∈^j中G₀所对应的权重分量

(2)通过以下公式，求出句子中每一个单词w_n所赋予的主题标号：

步骤四，遍历文档中的每一个句子与句子中的单词，通过下面的公式计算文档dⁱ在主题空间上的每一维含量为ρ_k：

步骤五，归一化ρ，从而得到文档dⁱ的主题分布θ^d。

本发明通过利用文档中句子序列的主题连贯性，对文档进行整体建模，使得在求解文档主题分布的时候，充分考虑文档中句子之间的主题一致性和连贯性，从而获得更加准确的文档主题分布。

句子间的主题是连贯的，并且同时通过加权平均的方式影响后续句子的主题分布。因此，本发明的另一关键点是，通过对句子间的聚焦向量的学习，让模型能够获得文档句子中的主题加权特性，从而提升文档主题的学习效果。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于循环聚焦机制进行文档主题建模的方法，其特征在于，包括：

步骤三，遍历文档dⁱ中的每一个句子

步骤五，归一化ρ，从而得到文档dⁱ的主题分布θ^d。

2.根据权利要求1所述的一种基于循环聚焦机制进行文档主题建模的方法，其特征在于，在步骤一之前还包括：

(3)针对文档dⁱ中的每一个句子使用RSBP(G₀，π)采样得到当前句子的主题分布

3.根据权利要求1所述的一种基于循环聚焦机制进行文档主题建模的方法，其特征在于，所述步骤三具体为：

求出所对应的聚焦向量∈^j中G₀所对应的权重分量

求出句子中每一个单词w_n所赋予的主题标号。

4.根据权利要求3所述的一种基于循环聚焦机制进行文档主题建模的方法，其特征在于，所述求出句子中每一个单词w_n所赋予的主题标具体为：通过以下公式，求出句子中每一个单词w_n所赋予的主题标号：

γ_{n} = β \cdot \exp (Σ_{l = 1}^{C - 1} l o g (θ_{l}^{j - C + 1 : j - 1}) \cdot {&Element;}_{l}^{j}) .

5.根据权利要求1所述的一种基于循环聚焦机制进行文档主题建模的方法，其特征在于，所述步骤四具体为：通过下面的公式计算文档dⁱ在主题空间上的每一维含量为ρ_k：

ρ_{k} = α + Σ_{j = 1}^{S} Σ_{n = 1}^{N} γ_{n} \cdot {&Element;}_{j}^{C} .

6.根据权利要求1所述的一种基于循环聚焦机制进行文档主题建模的方法，其特征在于，所述RABP(G₀，π)过程为：

从时刻t＝1开始，从G₀中采样出样本θ¹；

对于∈_C，令当前时刻的分布为θ^t＝∈_C·G₀；

此循环聚焦贝叶斯过程为RABP(G₀，π)，其中G0是一个基础分布，π是聚焦超参数。