CN111597327B

CN111597327B - 一种面向舆情分析的无监督式多文档文摘生成方法

Info

Publication number: CN111597327B
Application number: CN202010323594.5A
Authority: CN
Inventors: 赵铁军; 徐冰; 杨沐昀; 宋治勋; 曹海龙; 朱聪慧
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2023-04-07
Anticipated expiration: 2040-04-22
Also published as: CN111597327A

Abstract

本发明公开了一种面向舆情分析的无监督式多文档文摘生成方法。步骤1：实时采集网络舆情新闻，根据网络热点进行新闻集合自动划分；步骤2：对集合内每个舆情新闻进行无监督式的抽取单文档文摘；步骤3：对集合内的所有抽取的单文档文摘进行分析，得到无监督式的多文档文摘。本发明解决现有多文档文摘方法效果较低、生成式文摘实用性较差、中文舆情文摘训练语料匮乏的问题，以实现对舆情新闻的监控。

Description

一种面向舆情分析的无监督式多文档文摘生成方法

技术领域

本发明属于文档文摘无监督生成技术领域，尤其涉及一种面向舆情分析的无监督式多文档文摘生成方法。

背景技术

自动文摘是自然语言处理领域最重要的技术之一，其研究目的是利用计算机自动地从文本或者文本集合中抽取或生成能准确复述原文意思的精炼、连贯的短文。用户只需要阅读文摘结果便可以了解文档的主要信息，省去大量检索和阅读大篇幅文档的时间，从而提供人们的阅读效率。

按照不同的划分标准，可以将自动文摘技术划分成不同类别，主要有以下三种划分方式：

1.根据是否需要语料库，可以划分为无监督文摘和有监督文摘。无监督的摘要方法又细分为基于经验式规则、基于主题、基于图、基于整数线性规划等方法；有监督方法又细分为基于分类、回归、序列标注以及端到端的神经网络等方法。

2.根据文摘与原文的关系，划分为抽取式文摘和生成式文摘。抽取式文摘是指从原始文档中抽取重要结构单元(句子、短语等)，这种方法一般需要定义规则或特征集合，根据特征对原文句子进行打分排序，选择得分高的句子作为文摘句；生成式文摘是指基于理解文档的角度生成摘要，摘要中的句子或词可以未在原始文档中出现过。生成式文摘更接近人自身写的摘要，但是需要用到自然语言理解和文本生成技术，例如句子压缩、改写、融合等等，有一定技术难度。

3.根据处理文档的数量，可以划分为单文档文摘与多文档文摘。单文档文摘对一篇文档进行处理，产生该文档的文摘；多文档文摘将多篇相同主题的文档聚集在一起，对文档集进行处理，形成该文档簇的文本摘要，多文档相对单文档而言，由于信息来源于不同文本，文摘连贯性的问题更加严重。

发明内容

本发明提供一种面向舆情分析的无监督式多文档文摘生成方法，解决现有多文档文摘方法效果较低、生成式文摘实用性较差、中文舆情文摘训练语料匮乏的问题，以实现对舆情新闻的监控。

本发明通过以下技术方案实现：

一种面向舆情分析的无监督式多文档文摘生成方法，所述生成方法包括以下步骤：

步骤1：实时采集网络舆情新闻，根据网络热点进行新闻集合自动划分；从互联网中获取到热点，将该热点作为查询语句，利用搜索引擎收集与该热点相关的新闻，因此建立热点-新闻，一个热点对多个新闻的关系，从而划分出新闻集合；

步骤2：对集合内每个舆情新闻进行无监督式的抽取单文档文摘；利用深度学习技术在大规模自然语言文本中训练语言模型，并将文本转化成以句子为单位的有向图结构，从有向图中抽取按照中心度打分，将有向图中各节点降序排列，取前k个句子作为抽取式摘要输出作为文摘句；

步骤3：对集合内的所有抽取的单文档文摘进行分析，得到无监督式的多文档文摘；无监督式的多文档文摘生成为利用自编码器构建端到端的神经网络模型，并引入源端重构损失函数和目标端相似度损失函数，共同作为模型的优化目标，使得源端能够生成重构多文档集合的分布式表示向量，目标端能够生成与多文档集合相似性高的文摘句。

进一步的，所述深度学习技术为基于Bert的预训练语言模型，所述预训练语言模型通过以下步骤建立：

步骤2.01：使用Transformer编码器，在大规模领域无关网络语料中训练双向语言模型，所述双向语言模型采用自注意力机制捕获每个单词所属句子的上下文特征，能够同时学习覆盖词预测与连续句预测两个任务；

步骤2.02：使用网络舆情新闻这一特定领域语料，对预训练双向语言模型进行微调，使双向语言模型能够学习并适应特定领域语料的构词特征、语法特征，最终得到舆情新闻相关的预训练语言模型；

步骤2.03：针对文本摘要特点，作出句子级分布式假设，采取自监督学习的方式拟合，对舆情新闻相关的预训练语言模型进行参数微调。

进一步的，所述步骤2.3中作出句子级分布式假设，采取自监督学习的方式拟合，具体过程为：舆情新闻中第i个句子用s_i表示，将句子s_i-1和句子s_i+1作为句子s_i的正例，将语料中的其他句子作为负例，针对句子s_i，双向语言模型的学习目标如下：

其中，v_s和v′_s是两个不同参数化Bert编码器的向量表示，σ是sigmoid函数,P(s)是句子空间的均匀分布函数，该目标函数T是为了将语料库中的其他句子与上下文句子区分开。

进一步的，所述文本转化成以句子为单位的有向图结构，从有向图中抽取最重要的结点作为文摘句，具体过程为：

步骤2.11：利用微调后的舆情新闻相关的预训练语言模型，将舆情新闻文本映射为高维分布式表示向量，

步骤2.12：将自然语言文本定义为有向图结构，所述有向图中各节点间相似度计算公式为：

其中，

表示文档中第i个句子s_i的分布式表示，

表示未标准化的相似度矩阵，

表示第i个句子与第j个句子的未标准化相似度得分；

由未标准化的相似度矩阵

得到规范化相似度矩阵E的计算公式为：

其中，E表示规范化后的相似度矩阵,通过强调不同相似度得分之前的相对贡献来消除相似度得分的绝对值影响，β∈[0，1]，表示控制节点相似度得分归为0的阈值；

利用有向图各节点邻边权重信息汇总计算节点的中心度打分，所述中心度计算公式为：

centrality(s_i)＝λ₁∑_j＜ie_ij+λ₂∑_j＞ie_ij (5)

其中，λ₁、λ₂是两个不同的权重，分别表示前向权重、后向权重；

按照中心度打分，将有向图中各节点降序排列，取前k个句子作为抽取式摘要输出。

进一步的，所述用自编码器构建端到端的神经网络模型，具体过程如下：

步骤3.1：利用长短时间记忆网络作为编码器，对文档集合内各舆情新闻抽取式文摘编码，得到句子级分布式表示，所述编码的计算公式为：

φ_E(x)＝[h，c]

z_i＝φ_E(x_i)

其中，x_i表示第i个舆情新闻抽取式文摘，h和c分别表示长短时间记忆网络的隐状态与细胞状态，φ_E(x)是隐状态h和细胞状态c的级联表示，z_i表示第i个舆情新闻抽取式文摘的分布式向量；

步骤3.2：利用另一个参数非共享的长短时间记忆网络作为解码器，解码器的输入是编码器输出的分布式向量，利用该向量解码出一段自然语言文本序列，解码器的计算公式与编码器相同，模型以源端重构损失函数为目标，使编码器与解码器同时捕获源端文本语义信息；

文档集合D包含k篇舆情新闻抽取式文摘{x₁，x₂，…，x_k}，自编码器学习输出向量组{z₁，z₂，...，z_k}，对向量组求平均得到文档集合D的压缩表示向量

利用参数共享的解码器φ_D得到生成式多文档文摘s，并使用参数共享的编码器φ_E对文摘s重新编码；

步骤3.3：模型以目标端相似度损失函数为目标，使文摘s编码后的向量z_s,与源端文档集合各舆情新闻文本编码后的向量更相近，减少模型编码解码过程中的语义信息丢失。

进一步的，所述源端重构损失函数计算公式为：

其中，loss_{cross_entropy}表示交叉熵损失函数；φ_D(φ_E(x_i)表示第i个舆情新闻抽取式文摘先经过编码器，再经过解码器的输出结果；loss_rec表示源端重构损失函数，由舆情新闻文档集合各舆情新闻抽取式文摘的交叉熵累加和计算得到。

进一步的，所述目标端相似度损失函数计算公式为：

其中，d_cos表示向量余弦相似度；h_i表示第i个舆情新闻抽取式文摘经过长短时间记忆网络输出的隐状态；h_s表示多文档文摘句s经过共享参数的编码器得到的隐状态；loss_sim表示目标端相似度损失函数，由舆情新闻文档集合各舆情新闻抽取式文摘隐状态的余弦相似度平均值计算得到。

本发明的有益效果是：

1.本发明提出针对新闻文本的无监督抽取式单文档文摘方法，将基于神经网络的预训练语言模型与基于图的算法相结合，对每篇舆情新闻单独处理，得到每篇舆情新闻的核心语句。此方法提出句子分布式假设，在预训练语言模型中引入相对位置信息，并根据新闻文本的行文特点，采用有向图的自动文摘算法对舆情新闻文本进行分析。

2.本发明提出针对热点相关舆情新闻集合的无监督生成式多文档文摘方法，将自编码器应用于多文档文摘方法，引入源端重构损失函数与目标端相似度损失函数，共同作为模型的优化目标。本发明采用贪心策略在解码端逐字生成，能够得到实用性较强、通顺较高的多文档文摘，

3.本发明突破单文档文摘与多文档文摘的局限，将单文档文摘作为多文档文摘的前序任务，有效降低多文档文摘的计算复杂度，减少模型解码时的搜索空间。

4.本发明提出的一系列自动文摘方法，均不需要“原文本-摘要”数据对，适应中文舆情文摘训练语料匮乏的环境，此方法充分利用网络舆情新闻文本规模大的特点，避免既耗时又耗力的人工标注方式。

附图说明

图1本发明的流程示意图。

图2本发明的语料库构建流程图。

图3本发明的无监督式抽取单文档文摘流程图。

图4本发明的无监督式抽取单文档文摘结果样例。

图5本发明的无监督式生成多文档文摘模型示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

步骤1：实时采集网络舆情新闻，根据网络热点进行新闻集合自动划分；

步骤2：对集合内每个舆情新闻进行无监督式的抽取单文档文摘；

步骤3：对集合内的所有抽取的单文档文摘进行分析，得到无监督式的多文档文摘。

进一步的，所述步骤1中根据网络热点进行新闻集合自动划分具体为，从互联网中获取到热点，比如微博热点，百度热点，微信热点等等，将该热点作为查询语句，利用搜索引擎收集与该热点相关的新闻，因此建立热点-新闻，一个热点对多个新闻的关系，从而划分出新闻集合。

结合图2说明步骤3的语料库构建流程。本发明采用的网络爬虫模块主要由代理池服务、Cookies池服务、爬虫服务三部分组成。为了保证整个系统的可扩充性和可维护性，网络爬虫的各个服务均集成于Scrapy框架，并且提供了增量爬取功能，方便后续文摘算法调用。通过该网络爬虫模块，可以获取来自各大新闻媒体、门户网站发布的舆情新闻，每篇舆情新闻均对应于一条网络实时热点。

因此，将网络实时热点作为键值，将相关舆情新闻划分为同一集合，即可构建出舆情新闻多文档文摘语料库。此外，按照舆情新闻的不同来源，需要设计并实现不同的清洗策略，将清洗后的数据作为舆情新闻原文本，方便后续的自然语言处理技术。

进一步的，所述步骤2中无监督式的抽取单文档文摘，利用深度学习技术在大规模自然语言文本中训练语言模型，并将文本转化成以句子为单位的有向图结构，从有向图中抽取最重要的结点作为文摘句。

进一步的，所述深度学习技术为基于Bert的预训练语言模型，其中，Bert表示基于Transformer的双向编码器特征，而Transformer表示利用注意力机制捕获句子上下文语义特征的编码器，所述预训练语言模型通过以下步骤建立：

步骤2.02：使用网络舆情新闻这一特定领域语料(不同于领域无关文本，该语料仅包含舆情相关新闻，如“杭州保姆纵火案”相关报道文章，这类语料通常包含特定的描述用词，大部分与司法相关)，对预训练双向语言模型进行微调(微调为将舆情新闻这一特定领域语料，输入到步骤2.01构建的双向语言模型中，该模型利用“覆盖词预测”与“连续句预测”两个子任务，进一步学习到舆情新闻文本语法特征、语义特征，通过优化两个子任务的损失函数，将模型参数以较低学习率调整到适应舆情新闻文本的最优值)，使双向语言模型能够学习并适应特定领域语料的构词特征、语法特征，最终得到舆情新闻相关的预训练语言模型；在步骤2.01使用大规模语料训练的基础上，步骤2.02只需要使用小规模舆情新闻语料调整参数即可，降低数据获取成本，并提高模型收敛速度

步骤2.03：针对文本摘要特点，作出句子级分布式假设，采取自监督学习的方式拟合，对舆情新闻相关的预训练语言模型进行参数微调(参数微调为基于句子级分布式假设，重构舆情新闻语料，将该预料输入到步骤2.02优化的舆情新闻领域双向语言模型中，该模型通过优化损失函数，将模型参数以较低学习率调整到符合句子级分布式假设的最优值)，句子级分布式假设借鉴word2vec的思想，设定上下文窗口，认为当前句子只与窗口内的句子的相关，以此构建正样本，利用负采样构建负样本。步骤2.02虽然能够学习到符合舆情新闻用词方式的语言模型，但没有针对本发明中自动文摘这一任务有任何优化，因此执行步骤2.03，利用句子级分布式假设使模型向符合文摘任务特点的方向优化，如“新闻中第一句话或最后一句话往往是整篇文章的概括性语句。

其中，v_s和v′_s是两个不同参数化Bert编码器的向量表示，σ是sigmoid函数,P(s)是句子空间的均匀分布函数，该目标函数T是为了将语料库中的其他句子与上下文句子区分开。在新闻文本中，句子间的相对位置信息对文摘句的抽取有积极影响，考虑到上述因素，本实施方式借鉴词袋模型word2vec的优点，将模型接收的输入数据粒度设置为句子级别，利用自监督学习能够有效捕获当前句子与相邻句子的相关性，并充分挖掘舆情新闻原文中句子间的相对位置信息。

进一步的，所述步骤3中，无监督式的多文档文摘生成为利用自编码器构建端到端的神经网络模型，并引入源端重构损失函数和目标端相似度损失函数，共同作为模型的优化目标，使得源端能够生成重构多文档集合的分布式表示向量，目标端能够生成与多文档集合相似性高的文摘句。

φ_E(x)＝[h，c]

z_i＝φ_E(x_i)

文档集合D包含k篇舆情新闻抽取式文摘{x₁，x₂，...，x_k}，自编码器学习输出向量组{z₁，z₂，...，z_k}，对向量组求平均得到文档集合D的压缩表示向量

模型总损失函数由源端重构损失函数与标端相似度损失函数组成。

进一步的，所述源端重构损失函数计算公式为：

进一步的，所述目标端相似度损失函数计算公式为：

本发明针对现有多文档文摘方法效果较低、生成式文摘实用性较差、中文舆情文摘训练语料匮乏的问题，通过采用基于深度学习的无监督算法，利用大规模网络舆情新闻进行训练，有效适应中文监督语料匮乏的场景，与传统生成式多文档文摘算法相比，本方法的实用性更强、算法效率更高。

实施例2

本步骤的目的在步骤二所输出的多篇单文档文摘基础上，生成一篇语句通顺、冗余度低、包含文档集合核心内容的文本摘要。无监督、生成式、多文档，这三个特点与舆情分析的需求相契合，因此采用监督生成式多文档文摘方法对舆情新闻集合进行分析。

结合图2说明步骤3的语料库构建流程；本发明采用的网络爬虫模块主要由代理池服务、Cookies池服务、爬虫服务三部分组成。为了保证整个系统的可扩充性和可维护性，网络爬虫的各个服务均集成于Scrapy框架，并且提供了增量爬取功能，方便后续文摘算法调用；通过该网络爬虫模块，可以获取来自各大新闻媒体、门户网站发布的舆情新闻，每篇舆情新闻均对应于一条网络实时热点。

因此，将网络实时热点作为键值，将相关舆情新闻划分为同一集合，即可构建出舆情新闻多文档文摘语料库；此外，按照舆情新闻的不同来源，需要设计并实现不同的清洗策略，将清洗后的数据作为舆情新闻原文本，方便后续的自然语言处理技术。

步骤2.11：利用微调后的舆情新闻相关的预训练语言模型，将舆情新闻文本映射为高维分布式表示向量，从而实现对单文档舆情新闻中的每个句子进行编码；考虑到句子先后顺序对句子重要度的影响，

其中，

表示文档中第i个句子s_i的分布式表示，

表示未标准化的相似度矩阵，

表示第i个句子与第j个句子的未标准化相似度得分；使用向量点积作为相似度计算方式，往往比余弦相似度的效果更好；

由未标准化的相似度矩阵

得到规范化相似度矩阵E的计算公式为：

centrality(s_i)＝λ₁∑_j＜ie_ijtλ₂∑_j＞ie_ij (5)

其中，λ₁、λ₂是两个不同的权重，分别表示前向权重、后向权重；权重用来表示出现于句子s_i位置之前的句子与出现于句子s_i位置之后的句子对句子s_i的影响程度；

φ_E(x)＝[h，c]

z_i＝φ_E(x_i)

进一步的，所述源端重构损失函数计算公式为：

进一步的，所述目标端相似度损失函数计算公式为：

实施例3

本实施例与实施例2不同的是，所述步骤2中采取无监督的算法模型，不需要人工标注数据，避免标注数据人力时间成本的消耗，将步骤一获取的数据直接作为训练语料库，能够充分挖掘网络的爬取的大规模语料库的数据潜能；

本步骤采取抽取式的文摘方法，从新闻原文中识别与文章核心主旨相关性强的一系列句子，这样做的好处是能够得到行文通顺的文本摘要，召回率比较高，因为单文档文摘的结果之后要输送到步骤三中，如果采取生成式的文摘方法，容易得到语句不通顺的输出，会产生错误传播，影响方法整体性能；

本步骤采取单文档的文摘方法，是为后续多文档文摘任务考虑，由于舆情新闻的文本长度较长，如果采取端到端的神经网络模型。在编码端需要同时对多篇文档的原文进行压缩与融合，极大增加了模型解码的难度。因此采用管道式的方法，先对每篇舆情新闻单文档进行自动文摘，在对文档集合中每篇舆情新闻的单文档文摘做多文档文摘生成，将每个文档输入从一篇原文缩小为一到二个句子，降低模型编码的建模难度。

实施例4

本实施例与实施例1不同的是，所述步骤3的目的在步骤二所输出的多篇单文档文摘基础上，生成一篇语句通顺、冗余度低、包含文档集合核心内容的文本摘要。无监督、生成式、多文档，这三个特点与舆情分析的需求相契合，因此采用监督生成式多文档文摘方法对舆情新闻集合进行分析。

Claims

1.一种面向舆情分析的无监督式多文档文摘生成方法，其特征在于，所述生成方法包括以下步骤：

2.根据权利要求1所述一种面向舆情分析的无监督式多文档文摘生成方法，其特征在于，所述深度学习技术为基于Bert的预训练语言模型，所述预训练语言模型通过以下步骤建立：

3.根据权利要求2所述一种面向舆情分析的无监督式多文档文摘生成方法，其特征在于，所述步骤2.03中作出句子级分布式假设，采取自监督学习的方式拟合，具体过程为：舆情新闻中第i个句子用s_i表示，将句子s_i-1和句子s_i+1作为句子s_i的正例，将语料中的其他句子作为负例，针对句子s_i，双向语言模型的学习目标如下：