CN110008313A

CN110008313A - 一种抽取式无监督文本摘要方法

Info

Publication number: CN110008313A
Application number: CN201910289008.7A
Authority: CN
Inventors: 周航成
Original assignee: Chongqing Hualong Network Haishu Technology Co Ltd
Current assignee: Chongqing Hualong Network Haishu Technology Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2019-07-12

Abstract

本发明公开了一种抽取式无监督文本摘要方法，步骤如下：S1、将文本分割成若干组成单元(单词、句子)并建立图模型；S2、利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘；其中，建立模型和确定权重的的流程为：S201、预处理；S202、构建图G＝(V,E)，其中V为句子集，对句子进行分词、去除停止词，得S203、句子相似度计算：构建图G中的边集E，基于句子间的内容覆盖率，给定两个句子。本发明能够压缩文本信息冗余度，减少存储资源；增加了用户阅读信息的有效性，缩短文本阅读时间；能够根据外部数据进行权重以及权重库的调整，增加了很强的时效性；提高了效率，降低了运行成本。

Description

一种抽取式无监督文本摘要方法

技术领域

本发明涉及一种文本摘要方法，特别涉及一种抽取式无监督文本摘要方法。

背景技术

随着近年来信息(尤其是文本信息)的爆发式增长，我们每天能接触到海量的信息，如新闻、论文、微博、学术报告等。从大量文本信息中提取重要且简短的内容，已成为一个迫切需求，其中自动文本摘要(automatic text summarization)提供了一个高效的解决方案。

根据Radev提出的定义，摘要是“一段从一份或多份文本中提取出来的文字，它包含了原文本中的重要信息，其长度不超过或远少于原文本的一半”。自动文本摘要旨在通过机器自动输出简洁、流畅、保留关键信息的摘要。自动文本摘要有非常多的应用场景，如自动报告生成、新闻标题生成、搜索结果预览等。此外，自动文本摘要也可以为下游任务提供支持。

尽管对自动文本摘要有庞大的需求，这个领域的发展却比较缓慢。对计算机而言，生成摘要是一件很有挑战性的任务。从一份或多份文本生成一份合格摘要，要求计算机在阅读原文本后理解其内容，并根据轻重缓急对内容进行取舍，裁剪和拼接内容，最后生成流畅的短文本。因此，自动文本摘要需要依靠自然语言处理/理解的相关理论，是近几年来的重要研究方向之一。

自动文本摘要通常可分为两类，分别是抽取式(extractive)和生成式(abstractive)。抽取式摘要判断原文本中重要的句子，抽取这些句子成为一篇摘要。而生成式方法则应用先进的自然语言处理的算法，通过转述、同义替换、句子缩写等技术，生成更凝练简洁的摘要。自动文本摘要提供了简洁的处理方式，可以帮助人们在海量文本数据中快速获取信息、节省阅读时间、抓住信息内容重点，实现文本数据资源的格式化、简短化、内容中心化等特点，成为数据获取、处理、分析的重要基础。

目前的自动文本摘要方法尤其是抽取式自动文本摘要方法，存在一定的缺陷，比如在判断原文本中重要句子时，会存在路径依赖，在长期运行的情况下，会存在一定的误判断的情况，导致不能及时的进行更正，导致了出现自动文本摘要的不准确性，而人工进行干预的情况下又会导致效率降低，成本增加。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种抽取式无监督文本摘要方法。

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种抽取式无监督文本摘要方法，步骤如下：

S1、将文本分割成若干组成单元(单词、句子)并建立图模型；

S2、利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘；

其中，建立模型和确定权重的的流程为：

S201、预处理：将输入的文本或文本集的内容分割成句子得

T＝[S₁，S₂，…，S_m]；

S202、构建图G＝(V,E)，其中V为句子集，对句子进行分词、去除停止词，得

S_i＝[t_i，1，t_i，2，…，t_i，n]；

其中，t_i，j∈S_j为保留后的候选关键词；

S203、句子相似度计算：构建图G中的边集E，基于句子间的内容覆盖率，给定两个句子：S_i，S_j；

采用公式进行计算；

S204、若步骤S203中两个句子之间的相似度大于给定的阈值，就认为这两个句子语义相关并将它们连接起来，即边的权值；

S3、根据公式，迭代传播权重计算各句子的得分；

S4、将步骤S3中得到的句子得分进行倒序排序，抽取重要度最高的T个句子作为候选文摘句；

S5、根据字数或句子数要求，从候选文摘句中抽取句子组成文摘；

其中，步骤S202中，t_i，j∈S_j为保留后的候选关键词；

候选关键词的权重以及权重库为实时动态更新；

更新步骤为：

S501、抓取当前语言的至少两个搜索引擎和/或至少前五的新闻网站的热门检索词；

S502、将步骤S501中抓取到的检索词导入进权重以及权重库；其中，

保留后或已保留的候选关键词也同时根据抓取后的新的权重以及权重库进行更新；

S503、完成步骤S5中的权重以及权重库的实时动态更新。

作为本发明的一种优选技术方案，所述步骤S501中的的抓取间隔为 10-25分钟。

作为本发明的一种优选技术方案，所述S103中进行计算的公式为，

作为本发明的一种优选技术方案，所述S104中边的权值为，

w_ji＝Similarity(S_i，S_j)。

本发明所达到的有益效果是：本发明能够压缩文本信息冗余度，减少存储资源；增加了用户阅读信息的有效性，缩短文本阅读时间；能够根据外部数据进行权重以及权重库的调整，增加了很强的时效性；提高了效率，降低了运行成本。

具体实施方式

以下对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

本发明提供一种抽取式无监督文本摘要方法，步骤如下：

S1、将文本分割成若干组成单元(单词、句子)并建立图模型；

其中，建立模型和确定权重的的流程为：

S201、预处理：将输入的文本或文本集的内容分割成句子得

T＝[S₁，S₂，…，S_m]；

S_i＝[t_i，1，t_i，2，…，t_i，n]；

其中，t_i，j∈S_j为保留后的候选关键词；

采用公式进行计算；

S3、根据公式，迭代传播权重计算各句子的得分；

其中，步骤S202中，t_i，j∈S_j为保留后的候选关键词；

候选关键词的权重以及权重库为实时动态更新；

更新步骤为：

S503、完成步骤S5中的权重以及权重库的实时动态更新。

实施例2

本发明提供一种抽取式无监督文本摘要方法，步骤如下：

S1、将文本分割成若干组成单元(单词、句子)并建立图模型；

其中，建立模型和确定权重的的流程为：

S201、预处理：将输入的文本或文本集的内容分割成句子得

T＝[S₁，S₂，…，S_m]；

S_i＝[t_i，1，t_i，2，…，t_i，n]；

其中，t_i，j∈S_j为保留后的候选关键词；

采用公式进行计算；

S3、根据公式，迭代传播权重计算各句子的得分；

其中，步骤S202中，t_i，j∈S_j为保留后的候选关键词；

候选关键词的权重以及权重库为实时动态更新；

更新步骤为：

S503、完成步骤S5中的权重以及权重库的实时动态更新。

步骤S501中的的抓取间隔为10-25分钟。

实施例3

本发明提供一种抽取式无监督文本摘要方法，步骤如下：

S1、将文本分割成若干组成单元(单词、句子)并建立图模型；

其中，建立模型和确定权重的的流程为：

S201、预处理：将输入的文本或文本集的内容分割成句子得

T＝[S₁，S₂，…，S_m]；

S_i＝[t_i，1，t_i，2，…，t_i，n]；

其中，t_i，j∈S_j为保留后的候选关键词；

采用公式进行计算；

S3、根据公式，迭代传播权重计算各句子的得分；

其中，步骤S202中，t_i，j∈S_j为保留后的候选关键词；

候选关键词的权重以及权重库为实时动态更新；

更新步骤为：

S503、完成步骤S5中的权重以及权重库的实时动态更新。

S103中进行计算的公式为，

S104中边的权值为，

w_ji＝Similarity(S_i，S_j)。

本发明能够压缩文本信息冗余度，减少存储资源；增加了用户阅读信息的有效性，缩短文本阅读时间；能够根据外部数据进行权重以及权重库的调整，增加了很强的时效性；提高了效率，降低了运行成本。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种抽取式无监督文本摘要方法，其特征在于，步骤如下：

S1、将文本分割成若干组成单元(单词、句子)并建立图模型；

S2、利用投票机制对文本中的重要成分进行排序；

其中，建立模型和确定权重的的流程为：

S201、预处理：将输入的文本或文本集的内容分割成句子得

T＝[S₁，S₂，…，S_m]；

S_i＝[t_i，1，t_i，2，…，t_i，n]；

其中，t_i，j∈S_j为保留后的候选关键词；

采用公式进行计算；

S3、根据公式，迭代传播权重计算各句子的得分；

其中，步骤S202中，t_i，j∈S_j为保留后的候选关键词；

候选关键词的权重以及权重库为实时动态更新；

更新步骤为：

S502、将步骤S501中抓取到的检索词导入进权重以及权重库；其中，保留后或已保留的候选关键词也同时根据抓取后的新的权重以及权重库进行更新；

S503、完成步骤S5中的权重以及权重库的实时动态更新。

2.根据权利要求1所述的一种抽取式无监督文本摘要方法，其特征在于，所述步骤S501中的的抓取间隔为10-25分钟。

3.根据权利要求1所述的一种抽取式无监督文本摘要方法，其特征在于，所述S203中进行计算的公式为，

4.根据权利要求1所述的一种抽取式无监督文本摘要方法，其特征在于，所述S204中边的权值为，

w_ji＝Similarity(S_i，S_j)。