CN109977219B

CN109977219B - 基于启发式规则的文本摘要自动生成方法及装置

Info

Publication number: CN109977219B
Application number: CN201910207415.9A
Authority: CN
Inventors: 石瑾; 张翔宇; 张旭; 刘春阳; 李建欣; 毛乾任; 孙庆赟
Original assignee: Beihang University; National Computer Network and Information Security Management Center
Current assignee: Beihang University; National Computer Network and Information Security Management Center
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2021-04-09
Anticipated expiration: 2039-03-19
Also published as: CN109977219A

Abstract

本发明公开了基于启发式规则的文本摘要自动生成方法，包括：S1、以文本的段落、句子顺序作为启发式语序，将新闻正文分为开始段落、中间段落和结尾段落，并以句子和片段为粒度对各段落进行启发式分割；S2、先以句子为粒度，分别抽取各段落的目标句子，得到各段落的句子摘要集合，再以所述句子摘要集合中的片段为粒度，分别抽取各段落的目标片段，得到各段落的片段摘要集合；S3、去除所述片段摘要集合中的冗余片段，将筛选出的片段按照片段出现的顺序组合，生成文本摘要。以及，基于启发式规则的文本摘要自动生成装置。采用本发明的方法生成的文本摘要的句子组织连贯性好，可读性强。

Description

基于启发式规则的文本摘要自动生成方法及装置

技术领域

本发明涉及自然语言处理领域。更具体地说，本发明涉及一种基于启发式规则的文本摘要自动生成方法及装置。

背景技术

自动文摘的过程主要是总结文本文档中心意思，目的是创建包含原始文档主要内容的摘要。在新闻、金融、医疗等领域具有意义重大的应用场景。特别是现在的互联网信息时代，信息过载使得人们迫切地希望能在最短的时间内了解最多且最有用的文字信息，文本摘要自动生成技术使得这一项需求得以实现。

自动文摘技术以整篇文章作为输入，并生成一段精炼的话来表达与概况输入文章的核心内容，即生成的文摘就表达了原文要表达的核心意义。目前，自动文本摘要技术主要有生成式和抽取式两种方式，并以抽取式为主。抽取式自动文摘技术是按照一定的权重，从原文中抽取能表达文章中心思想或者文章中比较重要的一条或几条句子，然后组合起来形成摘要。经典的抽取式自动文摘技术如LexRank，TextRank是以句子为分割单元将文章的的所有句子两两之间计算相似度或重要度进行图方法的排序，得到能够表达文章的大致句子级。这种方法由于是自动选择文章中比较重要句子，然后按照句子的重要度顺序组成摘要，在语义语序的重组和生成内容的可读性上差强人意。

发明内容

本发明的一个目的是提供一种基于启发式规则的文本摘要自动生成方法及装置，其考虑段落、句子出现的顺序，先逐级抽取句子，再抽取句子中的片段，并按照片段在原文中的出现顺序生成文本摘要，使摘要的句子组织连贯性好，可读性强。

为了实现根据本发明的目的和其它优点，提供了一种基于启发式规则的文本摘要自动生成方法，包括：

S1、以文本的段落、句子顺序作为启发式语序，将新闻正文分为开始段落、中间段落和结尾段落，并以句子和片段为粒度对各段落进行启发式分割；

S2、先以句子为粒度，分别抽取各段落的目标句子，得到各段落的句子摘要集合，再以所述句子摘要集合中的片段为粒度，分别抽取各段落的目标片段，得到各段落的片段摘要集合；

S3、去除所述片段摘要集合中的冗余片段，将筛选出的片段按照片段出现的顺序组合，生成文本摘要。

优选的是，所述的基于启发式规则的文本摘要自动生成方法，S1中，以句子和片段为粒度对各段落进行启发式分割，包括，S11、将开头段落P_B、中间段落P_C、结尾段落P_E以句号为切割点，按照句子出现的顺序，将上述段落分别分割为含有该段落总句子数的句子集合S_B、S_C、S_E；S12、将开头段落P_B、中间段落P_C、结尾段落P_E以逗号和分号为切割点，按照片段出现的顺序，将上述段落分别分割为含有该段落总片段数的片段集合E_B、E_C、E_E。

优选的是，所述的基于启发式规则的文本摘要自动生成方法，S2中，具体为：S21、采用图排序算法分别对S_B、S_C、S_E中的句子内容进行重要度排序，并进行句子间的相似度计算，抽取符合规则的句子为目标句子，按照句子的出现顺序组合，得到开头段落的句子摘要集合G_SB、中间段落的句子摘要集合G_SC和结尾段落的句子摘要集合G_SE；S22、以逗号和分号为切割点，分别对G_SB、G_SC、G_SE中的句子进行再分割，采用图排序算法分别对分割的片段内容进行重要度排序，并进行片段间的相似度计算，抽取符合规则的片段为目标片段，按照片段的出现顺序组合，得到开头段落的片段摘要集合G_aB、中间段落的片段摘要集合G_aC和结尾段落的片段摘要集合G_aE，其中，G_aB∈E_B、G_aC∈E_C、G_aE∈E_E。

优选的是，所述的基于启发式规则的文本摘要自动生成方法，S3中，具体为：S31、采用最大边界相关算法计算G_aB、G_aC、G_aE中各片段的MMR值，并按照MMR值对各片段进行排序；S32、抽取排名前X的片段，按照片段出现的顺序组合，生成文本摘要，其中，X为所述文本摘要的预设片段数。

优选的是，所述的基于启发式规则的文本摘要自动生成方法，所述规则为相似度大于设定阈值。

本发明还提供了一种基于启发式规则的文本摘要自动生成装置，包括依次连接的分割模块、第一处理模块和第二处理模块，其中，

分割模块，以文本的段落、句子顺序作为启发式语序，将新闻正文分为开始段落、中间段落和结尾段落，并以句子和片段为粒度对各段落进行启发式分割；

第一处理模块，用于先以句子为粒度，分别抽取各段落的目标句子，得到各段落的句子摘要集合，再以所述句子摘要集合中的片段为粒度，分别抽取各段落的目标片段，得到各段落的片段摘要集合；

第二处理模块，用于去除所述片段摘要集合中的冗余片段，将筛选出的片段按照片段出现的顺序组合，生成文本摘要。

优选的是，所述的基于启发式规则的文本摘要自动生成装置，对各段落进行启发式分割，包括，S11、将开头段落P_B、中间段落P_C、结尾段落P_E以句号为切割点，按照句子出现的顺序，将上述段落分别分割为含有该段落总句子数的句子集合S_B、S_C、S_E；S12、将开头段落P_B、中间段落P_C、结尾段落P_E以逗号和分号为切割点，按照片段出现的顺序，将上述段落分别分割为含有该段落总片段数的片段集合E_B、E_C、E_E。

优选的是，所述的基于启发式规则的文本摘要自动生成装置，所述第一处理模块，包括，第一计算模块，其与所述分割模块连接，用于获取S_B、S_C、S_E，采用图排序算法分别对S_B、S_C、S_E中的句子内容进行重要度排序，并进行句子间的相似度计算；第一生成模块，其与所述第一计算模块连接，用于获取句子间的相似度计算结果，与设定阈值进行比较，并抽取相似度大于设定阈值的句子，按照句子出现的顺序，生成开头段落的句子摘要集合G_SB、中间段落的句子摘要集合G_SC和结尾段落的句子摘要集合G_SE；第二计算模块，其分别与所述第一生成模块和所述分割模块连接，用于获取G_SB、G_SC和G_SE，以逗号和分号为切割点，分别对G_SB、G_SC、G_SE中的句子进行再分割，采用图排序算法分别对分割的片段内容进行重要度排序，并进行片段间的相似度计算；第二生成模块，其与所述第二计算模块连接，用于获取片段间的相似度计算结果，与设定阈值进行比较，并抽取相似度大于设定阈值的片段，按照片段出现的顺序生成开头段落的片段摘要集合G_aB、中间段落的片段摘要集合G_aC和结尾段落的片段摘要集合G_aE，其中，G_aB∈E_B、G_aC∈E_C、G_aE∈E_E。

优选的是，所述的基于启发式规则的文本摘要自动生成装置，所述第二处理模块，包括，第三计算模块，其与所述第二生成模块连接，用于获取G_aB、G_aC、G_aE，采用最大边界相关算法计算G_aB、G_aC、G_aE中各片段的MMR值，并按照MMR值对各片段进行排序；第三生成模块，其与所述第三计算模块连接，用于获取片段的排序结果，并抽取排名前X的片段，按照片段出现的顺序组合，生成文本摘要，其中，X为所述文本摘要的预设片段数。

本发明至少包括以下有益效果：

第一、本发明不同于经典的抽取式自动文摘技术中，针对文章所有的句子进行等同的图排序计算句子重要性的方法，本发明的方法考虑句子出现在不同段落的这种启发式规则，对于不同的句子在文章中表现的重要度计算考虑句子的出现位置与顺序，即以文本的段落、句子顺序作为启发式语序，将新闻正文分为开头段落、中间段落和结尾段落三个部分，采用图排序算法对各段落中的句子内容进行重要度排序和相似度计算，并对各段落的句子进行逐级抽取，使其最后生成的句子自身带有原文表达的顺序，使抽取的摘要在语义语序的重组和生成内容的可读性上得到一定的保证；

第二、本发明以逗号和分号进行文本内容分割与重要度计算和片段的冗余去除，使得对抽取摘要的分析粒度更细，保证重要片段被筛选的基础上，用最大边界相关算法去除片段的冗余，注重了抽取摘要内容的多样性，通过最小化选取摘要句子之间的相似性，使得生成的摘要多样化。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1是本发明实施例的基于启发式规则的文本摘要自动生成方法的流程图；

图2是本发明实施例的基于启发式规则的文本摘要自动生成装置的结构示意图。

具体实施方式

下面结合实施例和附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供一种基于启发式规则的文本摘要自动生成方法，包括：

S3、去除所述片段摘要集合中的冗余片段，将筛选出的片段按照片段在原文中出现的顺序组合，生成文本摘要。

新闻文本是由一系列明确的事实判断语句构成的，新闻报道的组织形式具有一定的叙述结构与事理逻辑的同构特性。新闻文本的外部架构的组成由：标题，电头，导语，主体，背景，结尾六个部分组成。其内容的组织形式是按照新闻的外部架构组络，把导语，主体，背景等基本零件内容有机的结合起来，并按照如倒金字塔式，金字塔式，悬念式，并列式，总分式等结构形式形成有层次新闻的内容。由此可见，新闻内容组织形式是有一定的启发式规则的，在不同的段落的新闻内容对新闻报道的作用不仅不同，而且重要程度也不同。本发明不仅考虑句子在段落中的位置，对各段落中的句子进行逐级抽取，还考虑抽取的句子中各片段的重要度和多样性，去除冗余片段，并将筛选出的片段按照片段在原文中的出现的顺序组合，使得抽取摘要的组成内容单元的粒度更细，组织结构性和可读性更强，更接近文章的中心思想。

S1按照新闻文本段落，以句子和片段为粒度对各段落进行启发式分割

S11、将开头段落P_B、中间段落P_C、结尾段落P_E以句号为切割点，按照句子出现的顺序，将上述段落分别分割为含有该段落总句子数的句子集合S_B、S_C、S_E，如，开头段落P_B包含T个句子集合S＝{b₁,..,b_x,...b_y,...,b_T}，其中每一个句子包括文字和“。”作为结束标示符；S12、将开头段落P_B、中间段落P_C、结尾段落P_E以逗号和分号为切割点，按照片段出现的顺序，将上述段落分别分割为含有该段落总片段数的片段集合E_B、E_C、E_E，如开头段落P_B包含N个片段集合E＝{b₁,...,b_i,...,b_j,...,b_N}，其中每一个片段包括文字和“，”或“；”或者“。”作为结束标识符。

S2基于图排序算法对分割内容进行重要度计算

在对分割内容进行关键句评分时，考虑每一个句子对应节点的连线数量以及连线权重，通过图排序方法得到每一个分割内容的重要性。具体如下：

S21对以“。”为单位的句子与句子之间的相似度计算：

采用基于图排序LexRank算法实现句子级别的文本摘要生成。具体对每一个段落[P_B,P_C,P_E]都采用LexRank进行句子抽取，把每一个段落的文本分割成若干组成句子单元并建立图模型，利用投票机制对文本中的重要句子进行排序。其中，每一个段落以句子分割后，将各段落中的两两句子通过相似度计算，可以将句子与句子表示为一个有向有权图G＝(V,E)，由点集合V和边集合E组成，E是V×V的子集。

例如，对开头段落P_B的句子进行重要句子提取，对于每一个按照“。”号分割的句子b∈S_B，进行分词和词性处理，这里运用哈工大的LTP开发工具进行处理，并过滤掉停用词，只保留词性的单词，即把句子b表示为b_x＝[w_x,1,...,w_x,j,...,w_x,T]，w_x,j∈b_x是保留后的候选关键词。

句子间的相似度计算如：

展开(1)式得到相似度的详细计算方法：

其中，

是逆向句子频率，

表示词项w在句子

中出现的次数，idf_w是逆向句子频率，N为段落中句子的总数，N_w为段落中含有特征词w的句子数，如果两个句子间存在关系，则其相似度大于设定的阈值，相似度阈值根据实验的效果进行调整，经验上，阈值设置为0.1，抽取出来的句子表达摘要主要思想的能力最佳，最后得到开头段落P_B的句子摘要集合G_SB。

中间段落P_C、结尾段落P_E也按照同样的抽取方式生成对应的句子摘要集合G_SC、G_SE。

S22、将每一个段落抽取的句子按照原文顺序组合得到以句子为单位的抽取的摘要。在这些抽取的句子集合中，为了更加细粒度分析抽取到的内容的重复性与重要性。以“，”和“；”再次对抽取的内容进行片段分割，采用图排序算法实现片段级别的文本摘要生成。具体的，如S21的方法，对分割的片段b同样进行分词和词性处理，并过滤掉停用词，只保留词性的单词，即把片段b表示为b_i＝[w_i,1,...,w_i,j,...,w_i,N]，其中w_i,j∈b_i是保留后的候选关键词。

片段间的相似度计算如下：

其中，

是逆向句子频率，

表示词项w在片段

中出现的次数。如果两两片段间存在关系，则其相似度大于设定的阈值，最后筛选出基于片段粒度的摘要集合，并按照片段在原文中出现的顺序组合，得到开头段落的片段摘要集合G_aB、中间段落的片段摘要集合G_aC和结尾段落的片段摘要集合G_aE，其中，G_aB∈E_B、G_aC∈E_C、G_aE∈E_E。

S3，基于最大边界相关算法的分割内容去冗余

在上述抽取片段内容组成的摘要中，还存在部分冗余内容，需要对冗余内容进行噪音去除与筛选得到最后的摘要。

S31、采用最大边界相关算法即MMR算法，通过计算Query语句与被搜索内容之间的相似度，并结合片段重要性分值，得到G_aB、G_aC、G_aE中各片段的MMR值；

具体的MMR算法公式如下：

MMR(Q,G_a,R)＝max[λ*score(i)-(1-λ)*max[similarity(i,j)]](4)

其中，Q表示当前查询的片段，Ga表示当前查询的对象即片段组成的摘要的集合。R表示已经得到的一个以相似度为基础的初始片段集合。λ为调节参数，score(i)计算的是i片段的重要性分值，右边第二项的计算的是片段i与所有已经被选择成为摘要的片段j之间的相似度最大值，注意这里的是负号，说明成为摘要的片段间的相似度越小越好。此处体现了MMR的算法原理，即均衡考虑了文本摘要的重要性和多样性。这种摘要提取方式与Textrank不同，Textrank只取全文的重要句子进行排序形成摘要，忽略了其多样性。

S32、按照MMR值对各片段进行rank排序，抽取排名前X的片段，按照片段在原文中出现的顺序组合，生成文本摘要，其中，X为所述文本摘要的预设片段数。

在另一技术方案中，所述的基于启发式规则的文本摘要自动生成装置，对各段落进行启发式分割，包括，S11、将开头段落P_B、中间段落P_C、结尾段落P_E以句号为切割点，按照句子出现的顺序，将上述段落分别分割为含有该段落总句子数的句子集合S_B、S_C、S_E；S12、将开头段落P_B、中间段落P_C、结尾段落P_E以逗号和分号为切割点，按照片段出现的顺序，将上述段落分别分割为含有该段落总片段数的片段集合E_B、E_C、E_E。

在另一技术方案中，所述的基于启发式规则的文本摘要自动生成装置，所述第一处理模块，包括，第一计算模块，其与所述分割模块连接，用于获取S_B、S_C、S_E，采用图排序算法分别对S_B、S_C、S_E中的句子内容进行重要度排序，并进行句子间的相似度计算；第一生成模块，其与所述第一计算模块连接，用于获取句子间的相似度计算结果，与设定阈值进行比较，并抽取相似度大于设定阈值的句子，按照句子出现的顺序，生成开头段落的句子摘要集合G_SB、中间段落的句子摘要集合G_SC和结尾段落的句子摘要集合G_SE；第二计算模块，其分别与所述第一生成模块和所述分割模块连接，用于获取G_SB、G_SC和G_SE，以逗号和分号为切割点，分别对G_SB、G_SC、G_SE中的句子进行再分割，采用图排序算法分别对分割的片段内容进行重要度排序，并进行片段间的相似度计算；第二生成模块，其与所述第二计算模块连接，用于获取片段间的相似度计算结果，与设定阈值进行比较，并抽取相似度大于设定阈值的片段，按照片段出现的顺序生成开头段落的片段摘要集合G_aB、中间段落的片段摘要集合G_aC和结尾段落的片段摘要集合G_aE，其中，G_aB∈E_B、G_aC∈E_C、G_aE∈E_E。

在另一技术方案中，所述的基于启发式规则的文本摘要自动生成装置，所述第二处理模块，包括，第三计算模块，其与所述第二生成模块连接，用于获取G_aB、G_aC、G_aE，采用最大边界相关算法计算G_aB、G_aC、G_aE中各片段的MMR值，并按照MMR值对各片段进行排序；第三生成模块，其与所述第三计算模块连接，用于获取片段的排序结果，并抽取排名前X的片段，按照片段出现的顺序组合，生成文本摘要，其中，X为所述文本摘要的预设片段数。

以下以具体实施例进行说明：

新闻原文如下：

ofo回应押金转化折扣折扣商城金币，用户拥有自主选择权。

针对将上线折扣商城，并将押金转成消费币一事，ofo在3月2日回应称，所有用户也都会在被充分告知的情况下拥有自主选择权。目前商城还在测试阶段，正努力扩充商品种类。

3月1日，有消息称ofo正在测试“折扣商城”的功能，用户可将押金转换为商城金币，进而可在商城购物消费。在放出的测试页面中部分商品需要以商城金币+现金的方式购买。

用户选择兑换金币后，再次骑车也无需缴纳押金。申请退押金的用户可以选择将押金兑换成购物金币，99元押金可以兑换成等值于150元的购物金币，199元押金可以兑换成等值于300元的购物金币。可购买的商品包括食品生鲜、酒水饮料和美妆护肤等品类。

此事在做，引发了部分网友对共享单车退押金一事的关注。部分网友称一直在排队退ofo的押金，但是几个月过去了，目前还没有拿到钱。此前，ofo用户申请退押金一度排队超过1000多万人，ofo方面称正在根据排队顺序进行退款。

对于新推出的商城业务，ofo回应称，折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务，这几天开始小范围的做测试。

ofo方面表示，从去年下半年开始，共享单车行业问题成为社会关注的焦点，ofo一直在努力研究和尝试不同的方法，尽一切可能保障用户权益。同时也为响应近期交通运输部对共享单车行业的指示，给用户更多的选择，推出了这个折扣商城。

所有用户也都会在被充分告知的情况下拥有自主选择权。目前商城还是在测试阶段，还在努力扩充商品种类，ofo会不断地收集用户的反馈，对商城的各个环节作出更好的调整。一段时间之后，ofo会根据测试阶段用户的接受程度，再决定下一步的计划。商城是给用户的一种新的选择，ofo不会放弃探索共享单车行业一切的可能性。

对此条新闻使用基于启发式规则的文本摘要自动生成方法进行摘要抽取：

步骤S1：按照新闻文本段落对句子进行启发式分割

开头段落进行启发式分割后的句子集合S_B为：

S_B＝{ofo回应押金转化折扣商城金币，用户拥有自主选择权。}

中间段落进行启发式分割后的句子集合S_C为：

S_C＝{针对将上线折扣商城，并将押金转成消费币一事，ofo在3月2日回应称，所有用户也都会在被充分告知的情况下拥有自主选择权。

目前商城还在测试阶段，正努力扩充商品种类。

3月1日，有消息称ofo正在测试“折扣商城”的功能，用户可将押金转换为商城金币，进而可在商城购物消费。

在放出的测试页面中部分商品需要以商城金币+现金的方式购买。

用户选择兑换金币后，再次骑车也无需缴纳押金。

申请退押金的用户可以选择将押金兑换成购物金币，99元押金可以兑换成等值于150元的购物金币，199元押金可以兑换成等值于300元的购物金币。

可购买的商品包括食品生鲜、酒水饮料和美妆护肤等品类。

此事在做，引发了部分网友对共享单车退押金一事的关注。

部分网友称一直在排队退ofo的押金，但是几个月过去了，目前还没有拿到钱。

此前，ofo用户申请退押金一度排队超过1000多万人，ofo方面称正在根据排队顺序进行退款。

ofo方面表示，从去年下半年开始，共享单车行业问题成为社会关注的焦点，ofo一直在努力研究和尝试不同的方法，尽一切可能保障用户权益。

同时也为响应近期交通运输部对共享单车行业的指示，给用户更多的选择，推出了这个折扣商城。}

结尾段落进行启发式分割后的句子集合S_E为：

S_E＝{所有用户也都会在被充分告知的情况下拥有自主选择权。

目前商城还是在测试阶段，还在努力扩充商品种类，ofo会不断地收集用户的反馈，对商城的各个环节作出更好的调整。

一段时间之后，ofo会根据测试阶段用户的接受程度，再决定下一步的计划。

商城是给用户的一种新的选择，ofo不会放弃探索共享单车行业一切的可能性。}

步骤S2：基于图排序LexRank算法对分割内容进行重要度计算

使用LexRank得到的句子的摘要集合如下：

开头段落句子摘要集合G_SB：

G_SB＝{ofo回应押金转化折扣商城金币，用户拥有自主选择权。}

中间段落句子摘要集合G_SC：

G_SC＝{针对将上线折扣商城，并将押金转成消费币一事，ofo在3月2日回应称，所有用户也都会在被充分告知的情况下拥有自主选择权。

结尾段落句子摘要集合G_SE：

G_SE＝{目前商城还是在测试阶段，还在努力扩充商品种类，ofo会不断地收集用户的反馈，对商城的各个环节做出更好的调整。

从G_S中以“，”进行摘要再分割，对分割片段采用LexRank算法进行重要度计算，得到片段摘要集合Ga。}

开头段落片段摘要集合G_aB：

G_aB＝{ofo回应押金转化折扣商城金币，

用户拥有自主选择权，}

中间段落片段摘要集合G_aC：

G_aC＝{针对将上线折扣商城，

并将押金转成消费币一事，

ofo在3月2日回应称，

所有用户也都会在被充分告知的情况下拥有自主选择权。

有消息称ofo正在测试“折扣商城”的功能，

用户可将押金转换为商城金币，

申请退押金的用户可以选择将押金兑换成购物金币，

ofo回应称，

折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务，同时也为响应近期交通运输部对共享单车行业的指示，

推出了这个折扣商城。}

结尾段落句子摘要集合G_aE：

G_aE＝{目前商城还是在测试阶段，

ofo会不断地收集用户的反馈，

ofo会根据测试阶段用户的接受程度，

商城是给用户的一种新的选择，}

步骤S3：基于最大边界相关算法的分割内容去冗余

对G_aB、G_aC、G_aE中的分割内容进行去冗余后的摘要集合G为

G＝{ofo回应押金转化折扣商城金币，

用户拥有自主选择权。

有消息称ofo正在测试“折扣商城”的功能，

申请退押金的用户可以选择将押金兑换成购物金币，

折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务，

同时也为响应近期交通运输部对共享单车行业的指示，

给用户更多的选择，

ofo会不断地收集用户的反馈，}

最终得到的新闻摘要为：

ofo回应押金转化折扣商城金币，用户拥有自主选择权。有消息称ofo正在测试“折扣商城”的功能，申请退押金的用户可以选择将押金兑换成购物金币，折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务，同时也为响应近期交通运输部对共享单车行业的指示，给用户更多的选择，ofo会不断地收集用户的反馈。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于启发式规则的文本摘要自动生成方法，其特征在于，包括：

S3、去除所述片段摘要集合中的冗余片段，将筛选出的片段按照片段出现的顺序组合，生成文本摘要；

S1中，以句子和片段为粒度对各段落进行启发式分割，包括，S11、将开头段落P_B、中间段落P_C、结尾段落P_E以句号为切割点，按照句子出现的顺序，将上述段落分别分割为含有该段落总句子数的句子集合S_B、S_C、S_E；S12、将开头段落P_B、中间段落P_C、结尾段落P_E以逗号和分号为切割点，按照片段出现的顺序，将上述段落分别分割为含有该段落总片段数的片段集合E_B、E_C、E_E；

S2中，具体为：S21、采用图排序算法分别对S_B、S_C、S_E中的句子内容进行重要度排序，并进行句子间的相似度计算，抽取符合规则的句子为目标句子，按照句子的出现顺序组合，得到开头段落的句子摘要集合G_SB、中间段落的句子摘要集合G_SC和结尾段落的句子摘要集合G_SE；S22、以逗号和分号为切割点，分别对G_SB、G_SC、G_SE中的句子进行再分割，采用图排序算法分别对分割的片段内容进行重要度排序，并进行片段间的相似度计算，抽取符合规则的片段为目标片段，按照片段的出现顺序组合，得到开头段落的片段摘要集合G_aB、中间段落的片段摘要集合G_aC和结尾段落的片段摘要集合G_aE，其中，G_aB∈E_B、G_aC∈E_C、G_aE∈E_E；

S3中，具体为：S31、采用最大边界相关算法计算G_aB、G_aC、G_aE中各片段的MMR值，并按照MMR值对各片段进行排序；S32、抽取排名前X的片段，按照片段出现的顺序组合，生成文本摘要，其中，X为所述文本摘要的预设片段数；

具体的MMR算法公式如下：

MMR(Q,G_a,R)＝max[λ*score(i)-(1-λ)*max[similarity(i,j)]]

其中，Q表示当前查询的片段，G_a表示当前查询的对象即片段组成的摘要的集合；R表示已经得到的一个以相似度为基础的初始片段集合；λ为调节参数，score(i)计算的是i片段的重要性分值，右边第二项计算的是片段i与所有已经被选择成为摘要的片段j之间的相似度最大值，注意这里的是负号，说明成为摘要的片段间的相似度越小越好；

所述规则为相似度大于设定阈值。

2.基于启发式规则的文本摘要自动生成装置，其特征在于，包括依次连接的分割模块、第一处理模块和第二处理模块，其中，

第二处理模块，用于去除所述片段摘要集合中的冗余片段，将筛选出的片段按照片段出现的顺序组合，生成文本摘要；

对各段落进行启发式分割，包括，S11、将开头段落P_B、中间段落P_C、结尾段落P_E以句号为切割点，按照句子出现的顺序，将上述段落分别分割为含有该段落总句子数的句子集合S_B、S_C、S_E；S12、将开头段落P_B、中间段落P_C、结尾段落P_E以逗号和分号为切割点，按照片段出现的顺序，将上述段落分别分割为含有该段落总片段数的片段集合E_B、E_C、E_E；

所述第一处理模块，包括，第一计算模块，其与所述分割模块连接，用于获取S_B、S_C、S_E，采用图排序算法分别对S_B、S_C、S_E中的句子内容进行重要度排序，并进行句子间的相似度计算；第一生成模块，其与所述第一计算模块连接，用于获取句子间的相似度计算结果，与设定阈值进行比较，并抽取相似度大于设定阈值的句子，按照句子出现的顺序，生成开头段落的句子摘要集合G_SB、中间段落的句子摘要集合G_SC和结尾段落的句子摘要集合G_SE；第二计算模块，其分别与所述第一生成模块和所述分割模块连接，用于获取G_SB、G_SC和G_SE，以逗号和分号为切割点，分别对G_SB、G_SC、G_SE中的句子进行再分割，采用图排序算法分别对分割的片段内容进行重要度排序，并进行片段间的相似度计算；第二生成模块，其与所述第二计算模块连接，用于获取片段间的相似度计算结果，与设定阈值进行比较，并抽取相似度大于设定阈值的片段，按照片段出现的顺序生成开头段落的片段摘要集合G_aB、中间段落的片段摘要集合G_aC和结尾段落的片段摘要集合G_aE，其中，G_aB∈E_B、G_aC∈E_C、G_aE∈E_E；

所述第二处理模块，包括，第三计算模块，其与所述第二生成模块连接，用于获取G_aB、G_aC、G_aE，采用最大边界相关算法计算G_aB、G_aC、G_aE中各片段的MMR值，并按照MMR值对各片段进行排序；第三生成模块，其与所述第三计算模块连接，用于获取片段的排序结果，并抽取排名前X的片段，按照片段出现的顺序组合，生成文本摘要，其中，X为所述文本摘要的预设片段数。