CN111159393B

CN111159393B - 一种基于lda和d2v进行摘要抽取的文本生成方法

Info

Publication number: CN111159393B
Application number: CN201911391922.9A
Authority: CN
Inventors: 贾海涛; 李清; 任利; 贾宇明; 李建; 许文波; 刘芳; 罗心
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-10-10
Anticipated expiration: 2039-12-30
Also published as: CN111159393A

Abstract

本发明提供一种基于LDA和D2V进行摘要抽取的文本生成方法，利用原本用于文章分类的LDA模型来做句子的主题分类，然后将每个主题的句子利用D2V模型继续句子向量化，然后计算句子的熵信息，选择最大熵信息的一个句子作为摘要句子。本发明相对于抽取数目由人工确定的方法比较而言，是由计算机来对抽取摘要句子的数目进行调整，总结得到相应每篇文本不同主题选择相应的信息量最为丰富的句子构成了摘要。

Description

一种基于LDA和D2V进行摘要抽取的文本生成方法

技术领域

本发明涉及自动文本生成技术，具体涉及抽取式摘要抽取技术。

背景技术

目前，互联网正处于高速发展时期，网络信息也出现了爆炸式增长的情况。随着各种移动终端设备的流入，人们逐渐摒弃了纯手工文本，开始频繁使用电子文本进行工作、记录和交流等，尤其依赖于从网络上获取有效的信息资源。然而，网络环境中的信息资源数量极其庞大，杂乱无章，如何使得人们可快速、准确地从网络上获取有用的信息，是目前正在被积极研究的一个热点领域。自动文本摘要(简称自动文摘)技术作为该研究领域的一个重要分支，可从海量文本中提取出简短的关键信息来帮助人们快速理解原来的文本内容，有效节省了人们获取有用信息的时间和精力。近年来，自动文摘系统作为一个有力的辅助工具，在各个领域发挥了作用，包括网络信息检索、新闻、邮件和会议记录等，成功地帮助了人们更加快速高效的方式获取了他们想要的信息。

文本自动摘要是一个既传统又前沿的研究领域。自20世纪50年代自动摘要技术出现以来，每出现一波新技术浪潮，都会涌现出一大批相应的自动摘要新方法，然而效果一直与人工摘要有差距。在互联网大数据时代，文本信息的数量已经远远超出了人工处理的极限，自动摘要研究显得越发迫切和重要。深度学习方法在相关领域的出色表现，让研究人员看到了一丝曙光。但传统经典方法对深度学习方法仍有帮助作用。实际上自动摘要方法发展历程也印证了这一点，即，某些经典的文档特征和理念，无论是对于传统旧方法，还是对新兴方法，都极为有用，最出色的方法通常是结合了新旧理念的方法。研究的文本摘要在海量数据的信息提取中显得非常重要，减少文本冗余程度使得文本信息更利于人类进行信息的提取。

文本摘要通常是指从单个或多个文档中产生一段文本，该文本传达了原始文本中的主要信息，但是仅有不到原始文本一半甚至更少的篇幅。文本自动摘要是利用计算机生成文本摘要的理论方法和技术。自动文本摘要问题按照文档数量可分为单文档摘要和多文档摘要问题。其中单文挡摘要是为单个文挡形成摘要，类似于文章标题，将文章中最重要的内容压缩的形式呈现出来。多文档摘要则是为多个主题相同或相近的文档产生摘要，有别于单文档摘要，除了需要剔除多份文档中大量的冗余信息之外，还要能够识别出不同文档中的独特内容，使得生成的摘要能够尽可能的简介完整。按照实现方式可分为抽取式和抽象式。其中抽取式摘要通过抽取出原文中己存在的重要句子组成摘要，而抽象式摘要则是通过理解相关语义信息，使用自然语言技术生成新的句子作为摘要。摘要问题的恃点是输出的文本要比输入的文本篇幅小很多，但却蕴藏着非常多的有效信息在内。

目前传统的文本摘要抽取的方法是依赖于抽取式的摘要，主要是基于简单统计的方法，根据文章中的句子与词语出现频率等因素判断文本中的句子的重要程度，以此抽取出来的句子作为文本的摘要。在研究初期，人们通过统计简单直观的文本特征，如词频、词位置、特定的线索词、标题等，从文档中识别重要句子组成摘要。目前比较实用的抽取式的摘要抽取的方法是textrank和通过句子聚类/分类等方法。在这类方法中，抽取式自动摘要问题被转化为一个二元分类问题。一个句子要么是摘要句，要么是非摘要句。首先人工将重要句子标注出来，然后提取这些句子的特征，学习算法通过统计分析学习，得到特征与句子重要性的关系，进而得到合适的分类器。向分类器输入句子，可得到句子的重要性得分。依据得分高低，即可抽取重要句子，生成摘要。较为广泛使用的算法包括朴素贝叶斯算法、决策树算法、最大熵算法、隐马尔科夫算法等。摘要抽取的结果上的效果在一定程度上是体现了文本信息上的表示。

LDA一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题Topic和文档三层结构。算法的输入是一个文档的集合，同时还需要聚类的类别数量；然后算法会将每一篇文档在所有Topic上的一个概率值p；这样每篇文档都会得到一个概率的集合；同样文档中的所有词也会求出它对应每个Topic的概率，这样就得到了两个矩阵，一个文档到Topic，一个词到Topic。这样LDA算法，就将文档和词，投射到了一组Topic上，试图通过Topic找出文档与词间，文档与文档间，词与词之间潜在的关系；由于LDA属于无监督算法，每个Topic并不会要求指定条件，但聚类后，通过统计出各个Topic上词的概率分布，那些在该Topic上概率高的词，能非常好的描述该Topic的意义。

D2V模型，或者叫做Doc2Vec(paragraph2vec,sentence embeddings)是一种非监督式算法，可以获得句子sentences/段落paragraphs/文档documents的向量表达。向量可以通过计算距离来找sentences/paragraphs/documents之间的相似性来用于文本聚类，对于有标签的数据，还可以用监督学习的方法进行文本分类。

发明内容

本发明所要解决的技术问题是，提供一种不由人工确定抽取摘要的数目的摘要文本生成方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于LDA和D2V进行摘要抽取的文本生成方法，包括以下步骤：

步骤1：将利用LDA模型对数据源进行主题分类，得到各主题的分类概率；

步骤2：将数据源中的每个文本单独处理，对单独的文本依次进行分句、分词处理；再计算各句子所属主题的概率：一个句子中的词所属各个主题的概率之和除以句子长度；所述句子长度为句子中词的总数；根据各句子所属主题的概率将各句子分类到所属概率最大的主题下，得到文本中各主题下的句子簇；

步骤3：句子向量化处理：将文本中各主题下的句子簇输入到训练好的D2V模型中，得到相应句子簇的句子向量集合；

步骤4：在各个句子簇中计算各句子的句子向量与其他句子向量间相似性的熵，选择熵最大的句子作为该簇的摘要句；

步骤5：将文本中所有主题的摘要句组织成该文本的摘要内容。

本发明利用原本用于文章分类的LDA模型来做句子的主题分类，将每个主题的句子利用D2V模型继续句子向量化，然后计算句子的熵信息，选择最大熵信息的一个句子作为摘要句子，由此构成了摘要。

本发明的有益效果是，每篇文本抽取多少个句子作为摘要是由句子类簇所决定的，也就是说抽取摘要的数目是这篇文本中的句子所属的主题所确定，而不是由人为规定的一个固定数目。而且相对于抽取数目由人工确定的方法比较而言，本发明是由计算机来对对抽取摘要句子的数目进行调整，总结得到相应每篇文本不同主题选择相应的信息量最为丰富的句子构成了摘要。

附图说明

图1为本发明方法示意图。

图2为对文本进行句子簇划分处理的示意图。

具体实施方式

对本发明的技术方案进行进一步详细说明：

一种基于LDA和D2V的抽取式摘要抽取方法，如图1所示，具体包括以下步骤：

步骤1：将利用LDA模型对数据源进行主题分类，得到各主题的分类概率；数据源中包含了大量的文本，对整个数据源进行主题类型的分类是在参考了大量文本进行的；

步骤2：将数据源中的每个文本单独处理。将文本做分句处理，然后将句子做分词处理；

步骤3：将一个句子中的词所属每个主题的概率之和除以句子长度，得到了句子所属主题的概率。句子长度为句子中分词的个数。

步骤4：文本中句子根据选择概率最大的主题作为最终主题，然后根据句子主题将文本中的句子以主题归为不同句子簇，如图2所示。

步骤5：将各句子簇的句子输入训练好的D2V模型中得到相应的句子向量。

D2V模型在训练过程中的训练数据为数据源。训练句向量的方法和词向量的方法非常类似。训练词向量的核心思想就是说可以根据每个单词的上下文预测，也就是说上下文的单词对是有影响的。那么同理，可以用同样的方法训练doc2vec。例如对于一个句Iwant to drink water，如果要去预测句子中的单词want，那么不仅可以根据其他单词生成feature，也可以根据其他单词和句子来生成feature进行预测。因此doc2vec的训练方式Adistributed memory model。每个段落/句子都被映射到向量空间中，可以用矩阵D的一列来表示。每个单词同样被映射到向量空间，可以用矩阵W的一列来表示。然后将段落向量和词向量级联或者求平均得到特征，预测句子中的下一个单词。在训练的时候我们固定上下文的长度，用滑动窗口的方法产生训练集。段落向量/句向量在该上下文中共享。

还有一种训练方法为Distributed Bag of Words version of ParagraphVector(PV-DBOW)，是忽略输入的上下文，让模型去预测段落中的随机一个单词。就是在每次迭代的时候，从文本中采样得到一个窗口，再从这个窗口中随机采样一个单词作为预测任务，让模型去预测，输入就是段落向量。这个段落向量/句向量也可以认为是一个单词，它的作用相当于是上下文的记忆单元或者是这个段落的主题。

步骤6：在一个句子主题簇中，将句子向量根据熵信息的公式计算句子的熵信息，选择熵信息最大的句子作为摘要句子。

其中，熵信息由Shannon在信息论中指出，信息的不确定性可以用熵来表示。在信息论和概率论中熵是对随机变量不确定性的度量，熵其实就是信息的期望值。假设对于一个取有限个值的随机变量Y，其概率分布

P(X＝x_i)＝p(x_i) (1)

其中，i＝1,2,3,…,n。

那么随机变量Y的熵可以记作：

熵只依赖X的分布，和X的取值没有关系。

根据信息熵的原理，计算类簇内句子向量与其他句子向量间相似性的熵值。因此，利用句子熵从原理上判断句子信息的重要程度。由此，信息熵的计算以每一类中句子的相似度为基础，如

其中，为同一个句子类簇中的句子向量s_i与s_j之间的相似度，m为同一句子类簇中除句子向量为s_i的句子以外的其余句子向量的个数，对数中的处理是为了防止两个句子相似度为零的情况。d(s_i,s_j)表示两个句子向量之间的欧式距离，其中的距离进行加1操作是为了防止欧式距离为零的情况。/>表示句子向量为s_i的句子在句子类簇中的熵信息。

根据欧式距离越近，则d的数值越大。因此，考虑在同一个主题的句子中，选择信息量越多样的句子能得到更多的信息。由此可以计算出各个句子类簇中的句子熵信息，选择其中熵信息最大的句子作为摘要的句子，由不同的类簇中选择出的句子构成最终的摘要。

所以根据熵信息的原理，选取熵信息最大的句子，也就是选择信息最丰富的句子作为摘要句子。

步骤7：将一个文本中的所有句子主题簇的句子选取出来后构成此文本的摘要。

Claims

1.一种基于LDA和D2V进行摘要抽取的文本生成方法，其特征在于，包括以下步骤：

步骤5：将文本中所有主题的摘要句组织成该文本的摘要内容；

其中，各句子的熵的计算方式为：

其中，为同一个句子类簇中的第i个句子的句子向量s_i与第j个句子的句子向量s_j之间的相似度，m为同一句子类簇中除第i个句子以外的其余句子向量的个数，d(s_i,s_j)表示两个句子向量之间的欧式距离，/>表示第i个句子在句子簇中的熵。