CN105868178B

CN105868178B - 一种基于短语主题建模的多文档自动摘要生成方法

Info

Publication number: CN105868178B
Application number: CN201610183423.0A
Authority: CN
Inventors: 鲁伟明; 庄越挺; 张占江
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-03-28
Filing date: 2016-03-28
Publication date: 2018-07-17
Anticipated expiration: 2036-03-28
Also published as: CN105868178A

Abstract

本发明公开了一种基于短语主题建模的多文档自动摘要生成方法。将样本多文档进行分词处理，得到短语及其出现频率，文档被表示为短语袋的形式；以LDA主题模型为基础计算文档的联合概率分布，转化到短语主题模型中，然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计，最后得到主题在单词上的概率分布；对被测文档进行分词处理，计算获得句子的主题权重和词频权重，加权计算得到句子的最终权重，根据最终权重生成摘要内容。本发明方法更加规范和精确，考虑了不同单词之间关系，引进句子的主题权重，生成结果更符合人们实际的撰写短文摘要的情况，在引进句子的主题权重后。

Description

一种基于短语主题建模的多文档自动摘要生成方法

技术领域

本发明涉及了一种多文档自动摘要算法，尤其涉及了一种基于短语主题建模的多文档自动摘要生成方法。

背景技术

随着互联网的快速普及，人们获取信息和知识越来越方便，同时由于网络信息的爆炸性增长，导致人们处理大量的文本信息时需要花费大量的精力。那么如何解决人们处理大量的文本信息自然成了当前研究的热点。

多文档自动摘要技术正是为了解决该问题而提出的。目前在新闻文章的自动短文应用较为成熟，新闻文章的特点是来源于不同媒体的新闻文章以同一事件为中心，使用尽可能相同的单词来描述该事件。通过对不同媒体的新闻文章提取相同部分作为主要内容，提取不同部分作为可能的补充内容，来完成应用于新闻文章的多文档自动摘要技术，大部分技术是利用文本聚类的方法实现的。

而我们的目标是研究为文献综述服务的多文档自动摘要技术。相比较新闻文章的以同一事件为中心而言，文献文本并不以同一对象为中心，而是以同一主题为中心。相同单词的频率也不如新闻文章那样高，使用文本聚类的方法无法准确为文献生成短文文摘。我们提出利用主题模型来挖掘出不同单词的主题，通过比较不同单词的主题来实现多文档自动摘要技术。同样，相同的高频单词对自动文摘的影响无法忽视。最终，我们决定利用主题建模计算句子的主题权重作为对以词频为特征的SumBasic自动摘要算法的补充，实现应用于文献综述的多文档自动摘要算法。

发明内容

本发明是为了实现对文献综述的多文档自动摘要生成，考虑到了不同单词属于同一主题的情况，提出了一种基于短语主题建模的多文档自动摘要生成方法，利用短语主题模型挖掘出隐藏在单词下的主题，对多文档自动摘要生成有重要的意义。

如图1所示，本发明解决其技术问题，首先是通过短语主题建模对文本进行主题挖掘处理，在该过程中，文本被分割成满足一定频率的短语，组成短语袋；在此短语袋的基础上利用短语主题模型进行建模，在参数估计过程中得到主题在单词上的概率分布；在SumBasic自动文摘方法的基础上，分别计算句子的词频权重和主题权重，两种权重最后通过加权求和得到句子的最终权重，选择权重最大的句子作为自动文摘的生成内容。

采用的具体技术方案如下：

1)预处理样本多文档：利用Mallet自然语言处理工具将样本多文档进行分词处理，得到短语及其出现频率，文档被表示为短语袋的形式；

所述步骤1)分词处理后的短语长度被限制为不超过3。

2)对样本多文档进行短语主题建模：

以LDA主题模型为基础，用短语代替单词作为计算的对象，计算文档的联合概率分布，转化到短语主题模型中，然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计，最后得到主题在单词上的概率分布；

3)多文档处理生成摘要：

对被测文档进行分词处理，计算获得句子的主题权重和词频权重，加权计算得到句子的最终权重，根据最终权重生成摘要内容。

所述的步骤2)具体是：

2.1)根据步骤1)中的分词处理后，文档以短语袋的形式，在词空间上用向量表示文档，采用以下公式计算获得文档在LDA主题模型下的联合概率分布：

其中，P_LDA表示为文档在主题向量Z、单词向量W、主题的单词分布向量Φ和文档的主题分布向量Θ下的联合概率分布，i表示文档集的第i个文档，j表示文档的第j个单词，k表示第k个主题，θ_i表示文档i的主题分布，z_i,j表示文档i第j个单词的主题，w_i,j表示文档i第j个单词，表示主题k的单词分布；

2.2)短语主题模型在LDA主题模型的基础上，考虑了多次出现的连续单词比单个单词的意义更大，通过引进一个函数f作为连续单词(短语)的概率因子。采用以下公式进行转换为文档在短语主题模型下的联合概率分布：

其中，C表示归一值，C是一个常量使得左边为合理的概率分布，P_LDA是2.1中的LDA主题模型计算的文档概率分布，C_i,g表示第i个文档的第g个短语，与下文w_i,g的区别在于C_i,g还包括了短语中各个单词的主题变量，f(C_i,g)表示C_i,g的概率因子；

2.3)使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计，隐参数为文档在主题上的概率分布ɑ和主题在单词上的概率分布β，短语C_i,g取主题k的概率p(C_i,g＝k|W,Z_\Ci,g)为：

其中，W为单词向量，Z为主题向量，Z_\Ci,g表示去除主题C_i,g的主题向量，W_i,g表示第i个文档的第g个短语，α_k表示文档选择主题为k的概率，N_i,k表示第i个文档中为主题k的单词的个数，β_wi,g,j表示主题选择单词w_i,g,j的概率，N_wi,g,j,k表示主题k中单词w_i,g,j的个数，N_k表示主题k的总单词个数，V表示主题的单词向量，x表示主题的单词向量V的序数，j表示短语W_i,g中单词的序数；

Gibbs采样算法进行迭代计算使得隐参数收敛，迭代次数通常不少于500次，迭代计算后获得主题在单词上的概率分布β，从而得到单词在主题的概率分布。

所述的单词w_i,j、单词分布主题z_i,j、主题多项式分布θ_i通过以下LDA主题模型进行生成，LDA主题模型针对于主题的单词分布向量Φ和文档的主题分布向量Θ分别使用两个狄利克雷分布参数ɑ与β，ɑ和β分别表示文档在主题上的概率分布和主题在单词上的概率分布：

从狄利克雷分布ɑ中取样生成文档i的主题多项式分布θ_i，从主题多项式分布θ_i中取样生成文档i第j个词的主题z_i,j；从狄利克雷分布β中取样生成主题z_i,j的单词多项式分布从单词多项式分布中取样生成单词w_i,j；各个主题z_i,j的单词多项式分布合并形成主题k的单词分布

所述步骤2.2)中短语C_i,g的概率因子f(C_i,g)采用以下公式计算处理，以减少第i个文档的第g个短语C_i,g的可能状态的数量：

其中，z_i,g,s表示第i个文档的第g个短语中的第s个单词的主题，s表示C_i,g中包含单词的数量。

短语C_i,g有K^s个可能的状态，K表示主题的个数，经概率因子f(C_i,g)处理后C_i,g的可能状态从K^s减少为K个。

在考虑到短语中的单词概率差异过大可能造成计算不准确，所述步骤2.3)中的公式采用以下公式计算，引进标准差来减少可能的影响；

其中，p(w_i,g,j|k)在参数估计中单词w_i,g,j在主题k下的贝叶斯概率，即表示公式中的连乘项，VarianceSqrt是对短语中的单词w_i,g,j的贝叶斯概率p(w_i,g,j|k)的标准差计算。

所述步骤3)具体是：

3.1)利用步骤1)的结果对被测文档进行分词处理，得到短语或单词，

3.2)根据在步骤2)中得到的主题在单词上的概率分布得到单词属于某一主题的概率，根据句子和单词的关系计算得出句子属于该主题的概率，作为该主题下句子的主题权重；

3.3)采用SumBasic自动文摘算法以单词出现的频率作为依据计算获得句子的词频权重；

3.4)对主题权重和词频权重进行加权计算得到句子的最终权重，依次选择最终权重最大的句子作为自动文摘的生成内容，直至短文文摘长度达到要求。

所述的句子的主题权重具体是在经过分词处理后，利用步骤2)得到的单词在主题的概率分布采用以下公式计算：

其中，G为句子sentence的短语个数，L(g_i)为g_i的大小，p(g_i,j)为短语g_i的第j个单词在主题k下的概率，TopicWeight(sentence|k)表示主题k的主题权重，sentence|k表示主题k下的句子；

所述的词频权重具体采用以下方式计算：

统计被测文档获得被测文档中每个单词的频率，利用每个单词的频率使用以下公式计算获得句子的词频权重：

FrequencyWeight(sentence)＝Max{p(w_i)}

其中，Max{p(w_i)}表示取句子中单词频率最大的作为句子的词频权重，p(w_i)表示句子中单词出现的频率。

所述句子的最终权重具体使用以下公式计算：

Weight(sentence|k)＝λTopicWeight(sentence|k)+(1-λFrequencyWeight(sentence)

其中，λ是用来控制主题权重和词频权重的影响因子，一般设置为0.5。

本发明将句子的主题权重计算引入到多文档自动摘要计算中，利用挖掘出句子的主题信息，在句子的权重计算时除了考虑词频之外还考虑句子与主题的关系，得到了适用于文献的多文档自动摘要。

本发明方法与现有技术相比具有的有益效果：

1、该方法针对文献文本通常是以实际主题为中心，相比较新闻文章用词更加规范和精确，利用短语主题建模挖掘出隐藏在单词下的主题，然后利用单词在主题的概率分布来计算句子的主题权重。

2、现有技术通常考虑相同的单词对多文档自动摘要算法的影响，忽略了不同单词之间关系，这并不符合人们实际的撰写短文摘要的情况，在引进句子的主题权重后，使得多文档自动摘要算法更加合理。

附图说明

图1是本发明的总体流程图；

图2是步骤2)的短语主题示意图。

表1是实施例结果短语主题结果；

表2是实施例结果自动文摘内容示。

具体实施方式

为了更好地理解本发明的技术方案，以下结合附图1对本发明作进一步的描述。

本实例实施例子的具体步骤，如下：

1)预处理样本多文档：利用Mallet自然语言处理工具将文档分词处理，得到短语及其出现频率(短语长度被限制为不超过3)，在该过程中需要去除停词(如the、this)、无效词(如wepurpose)，然后构建词向量空间。

2)短语主题建模：以LDA主题模型为基础，用短语代替单词作为计算的对象，计算文档的联合概率分布，转化到短语主题模型中，短语主题模型的示意图如图2所示，然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计，在经过500次数迭代后，得到主题在单词上的概率分布，转化得到单词在主题下的概率分布。根据贝叶斯概率模型，单词w在主题k下的概率在实际的应用中，对测试文档的自动摘要生成所根据的主题是固定的，即p(k)是个常量值，所以可通过记录单词w属于主题k的个数与单词w的总数的比例作为其概率。

3)被测多文档自动摘要：对被测文档进行分词处理，计算获得句子的主题权重和词频权重，如图1所示，句子的主题权重利用步骤2)中短语主题建模训练得到的单词在主题的概率分布，而句子的词频权重通过计算单词的频率得到。再加权计算得到句子的最终权重，λ取0.5，通过对句子的权重排序每次抽取权重最大的句子直到生成的短文长度达到要求。在实际的应用中，被测文档集与训练文档集不相同，且数量级差距很大，导致主题权重计算与词频权重计算不在同一层面上，需要分别对主题权重和词频权重进行归一化处理。

(1)实例采用的数据集均来自DBLP的数据挖掘、信息检索、图象识别、机器学习等领域的论文摘要，数量在8万篇左右，经过步骤1)的预处理得到词表大小为26034的词空间(去除停词、无效词后)。

(2)根据(1)中信息，利用短语主题建模挖掘出的五个主题结果如表1所示，从中可以看出每个主题中的短语虽然不相同，但是都是属于同一主题，例如“Database Systems”与“Concurrency Control”，虽然单词各不相同，但是隐藏在单词下的主题却是一致的。

表1

(3)利用(2)中挖掘出的单词在主题上的概率分布，计算句子的主题权重，并将其与句子的词频权重进行加权求和，得到句子的最终权重，在实际应用中我们选择抽取4-5个权重最大的句子。在本实例中对“database system”这一主题进行自动文摘生成得到的结果如表2。表中不仅包含被选择的句子，还显示了句子在原文中的上下文从结果。可以看出句子虽然很少包括“database system”关键词，却是与“database system”主题密切相关的句子。

表2

本实例的运行结果通过人工对自动生成的短文摘要进行评测，通过计算句子的接受率作为标准，将结果与SumBasic多文档自动摘要算法进行对，结果如下表3所示：

表3

文摘生成方式	文档集合1	文档集合2	文档集合3	文档集合4	文档集合5
						SumBasic	88.9％	75％	66.7％	87.5％	88.9％
本方法	90％	88.9％	87.5％	88.9％	90％

有实施例结果的对比可看出，本发明方法在文献上的自动文摘生成的内容相比较SumBasic更容易接受，符合撰写短文摘要的情况，合理有效，具有其突出显著的效果和良好的使用价值和应用前景。

Claims

1.一种基于短语主题建模的多文档自动摘要生成方法，其特征在于包括以下步骤：

2)对样本多文档进行短语主题建模：

3)多文档处理生成摘要：对被测文档进行分词处理，计算获得句子的主题权重和词频权重，对主题权重和词频权重进行加权计算得到句子的最终权重，根据最终权重生成摘要内容。

2.根据权利要求1中所述的一种基于短语主题建模的多文档自动摘要生成方法，其特征在于：所述的步骤2)具体是：

2.1)根据步骤1)中的分词处理后，在词空间上用向量表示文档，采用以下公式计算获得文档在LDA主题模型下的联合概率分布：

其中，P_LDA表示为文档在主题向量Z、单词向量W、主题的单词分布向量Φ和文档的主题分布向量Θ下的联合概率分布，i表示文档集的第i个文档，j表示文档的第j个单词，k表示第k个主题，θ_i表示文档i的主题分布，z_i,j表示文档i第j个单词的主题，w_i,j表示文档i的第j个单词，表示主题k的单词分布，(p(z_i,j|θ_i))表示主题z_i,j在θ_i条件下的后验概率，p(w_i,j|z_i,j,Φ)表示单词w_i,j在z_i,j和Φ条件下的后验概率，p(θ_i)和分别表示文档i的主题分布为θ_i的概率和主题k的单词分布为的概率；

2.2)采用以下公式进行转换为文档在短语主题模型下的联合概率分布：

其中，C表示归一值，P_LDA是2.1中的LDA主题模型计算的文档概率分布，C_i,g表示第i个文档的第g个短语，f(C_i,g)表示C_i,g的概率因子；

其中，W为单词向量，Z为主题向量，Z_\Ci,g表示去除主题C_i,g的主题向量，W_i,g表示第i个文档的第g个短语，α_k表示文档选择主题为k的概率，N_i,k表示第i个文档中为主题k的单词的个数，β_wi,g,j表示主题选择单词w_i,g,j的概率，j表示文档i的第j个单词，N_wi,g,j,k表示主题k中单词w_i,g,j的个数，N_k表示主题k的总单词个数，V表示主题的单词向量，x表示主题的单词向量V的序数；

Gibbs采样算法进行迭代计算使得隐参数收敛，迭代计算后获得主题在单词上的概率分布β，从而得到单词在主题的概率分布。

3.根据权利要求2中所述的一种基于短语主题建模的多文档自动摘要生成方法，其特征在于：所述的单词w_i,j、单词分布主题z_i,j、主题多项式分布θ_i通过以下LDA主题模型进行生成，LDA主题模型针对于主题的单词分布向量Φ和文档的主题分布向量Θ分别使用两个狄利克雷分布参数ɑ与β，ɑ和β分别表示文档在主题上的概率分布和主题在单词上的概率分布：

4.根据权利要求2中所述的一种基于短语主题建模的多文档自动摘要生成方法，其特征在于：所述步骤2.2)中短语C_i,g的概率因子f(C_i,g)采用以下公式计算处理，以减少第i个文档的第g个短语C_i,g的可能状态的数量：

5.根据权利要求2中所述的一种基于短语主题建模的多文档自动摘要生成方法，其特征在于：所述步骤2.3)中的公式采用以下公式计算：

6.根据权利要求1所述的一种基于短语主题建模的多文档自动摘要生成方法，其特征在于：所述步骤3)具体是：

7.根据权利要求1或6中所述的基于短语主题建模的多文档自动摘要生成方法，其特征在于：所述的句子的主题权重具体是在经过分词处理后，利用步骤2)得到的单词在主题的概率分布采用以下公式计算：

其中，G为句子sentence的短语个数，L(g_i)为g_i的大小，p(g_i,j)为短语g_i的第j个单词在主题k下的概率，TopicWeight(sentence|k)表示主题k的主题权重，sentence|k表示主题k下的句子。

8.根据权利要求1或6中所述的基于短语主题建模的多文档自动摘要生成方法，其特征在于：所述的词频权重具体采用以下方式计算：

FrequencyWeight(sentence)＝Max{p(w_i)}

其中，Max{p(w_i)}表示取句子中单词频率最大的作为句子的词频权重，p(w_i)表示句子中单词出现的频率，sentence表示被测文档中的句子。

9.根据权利要求1或6中所述的基于短语主题建模的多文档自动摘要生成方法，其特征在于：所述句子的最终权重具体使用以下公式计算：

Weight(sentence|k)＝

λTopicWeight(sentence|k)+(1-λFrequencyWeight(sentence))

其中，λ是控制主题权重和词频权重的影响因子，TopicWeight(sentence|k)表示主题k的主题权重，FrequencyWeight(sentence)表示句子的词频权重。