CN109033066B

CN109033066B - 一种摘要形成方法及装置

Info

Publication number: CN109033066B
Application number: CN201810563769.2A
Authority: CN
Inventors: 魏静如; 张娴
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2022-05-17
Anticipated expiration: 2038-06-04
Also published as: CN109033066A

Abstract

本发明提供了一种摘要形成方法及装置，该方法包括：拆分输入文本以获得其包括的各个句子、各句子包括的各个词语；针对获得的全部句子中的各句子均执行：针对全部句子中除当前句子外的各其他句子均执行：根据当前句子包括的词语和当前其他句子包括的词语，计算当前句子指向当前其他句子的相似度；根据计算出的各相似度，分别计算全部句子中的各句子的得分；利用全部句子中的若干第一句子来形成输入文本的摘要，各第一句子的得分均不小于全部句子中任一非第一句子的得分。利用得分高的若干句子形成摘要，且任一句子的得分是基于各个其他句子而计算出的，故本方案可以基于输入文本的上下文信息以形成摘要，故能够提高所形成摘要的准确性。

Description

一种摘要形成方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种摘要形成方法及装置。

背景技术

当需要了解海量的输入文本以从中获取信息时，可以对各个输入文本进行分析，以从中摘取出简洁精炼重点内容而形成摘要。与了解海量输入文本相比，用户直接了解各输入文本的摘要，可以提高其信息获取的效率，节约资料阅读或其他过程中不必要的时间。

目前，可以依靠词频来完成摘要的提取。比如，对于任一输入文本，可以对该输入文本进行分词处理，并计算各个词语的词频，并将包含高词频词语的若干句子组合成该输入文本的摘要。

但是，依靠词频来完成摘要的提取时，并没有考虑输入文本的上下文信息，故不能保证所形成摘要的准确性。

发明内容

本发明提供了一种摘要形成方法及装置，可以基于输入文本的上下文信息以形成摘要，故能够提高所形成摘要的准确性。

为了达到上述目的，本发明是通过如下技术方案实现的：

一方面，本发明提供了一种摘要形成方法，包括：

S1：拆分输入文本，以获得所述输入文本包括的每一个句子、每一个所述句子包括的每一个词语；

S2：针对获得的全部句子中的每一个句子均执行：

针对所述全部句子中除当前句子外的每一个其他句子均执行：根据当前句子包括的词语和当前其他句子包括的词语，计算所述当前句子指向所述当前其他句子的相似度；

S3：根据计算出的每一个所述相似度，分别计算所述全部句子中的每一个句子的得分；

S4：利用所述全部句子中的至少一个第一句子来形成所述输入文本的摘要，任一所述第一句子的得分，均不小于所述全部句子中除所述至少一个第一句子外的任一其他句子的得分。

进一步地，在所述S1之后、所述S2之前，进一步包括：根据预设的至少一个无效词语，将获得的每一个句子中包括的每一个无效词语删除。

进一步地，在所述S2之后、所述S3之前，进一步包括：将计算出的每一个不大于预设相似度阈值的所述相似度删除。

进一步地，所述计算所述当前句子指向所述当前其他句子的相似度，包括：利用公式一或公式二，计算所述当前句子指向所述当前其他句子的相似度；

所述公式一包括：

所述公式二包括：

其中，V_a为所述全部句子中的第a个句子，V_b为所述全部句子中的第b个句子，similarity(V_a,V_b)为所述第a个句子指向所述第b个句子的相似度，c为所述第a个句子包括的词语个数，d为所述第b个句子包括的词语个数，S_ae为所述第a个句子包括的第e个词语的预设词向量，1≤e≤c，S_bf为所述第b句子包括的第f个词语的预设词向量，1≤f≤d，上标T意为转置。

进一步地，所述S1，包括：拆分输入文本，以获得所述输入文本包括的每一个段落、每一个所述段落包括的每一个句子、每一个所述句子包括的每一个词语，其中，所述全部句子按照各个句子在所述输入文本中的先后出现顺序依次排列；

在所述S4之前，进一步包括：根据公式三，对计算出的每一个得分进行优化，并将优化前的各个得分更新替换为相应的优化后的各个得分；

所述公式三包括：

其中，V_i为所述全部句子中的第i个句子，WS(V_i)为所述第i个句子的优化前的得分，WS(V_i)′为所述第i个句子的优化后的得分，g₁和g₂均为预设调整阈值，p为获得的首段落包括的句子个数，q为获得的尾段落包括的句子个数， h为所述全部句子的个数。

进一步地，所述分别计算所述全部句子中的每一个句子的得分，包括：根据公式四，分别计算所述全部句子中的每一个句子的得分；

所述公式四包括：

其中，V_m为所述全部句子中的第m个句子，V_n为所述全部句子中的第n个句子，V_k为所述全部句子中的第k个句子，WS(V_m)为所述第m个句子的得分， WS(V_n)为所述第n个句子的得分，x为预设的阻尼系数，similarity(V_n,V_m)为所述第n个句子指向所述第m个句子的相似度，similarity(V_n,V_k)为所述第n个句子指向所述第k个句子的相似度，V_n∈In(V_m)，In(V_m)为所述全部句子中指向所述第 m个句子的每一个句子的集合，且当前存在有In(V_m)中的任一句子指向所述第 m个句子的相似度，V_k∈Out(V_n)，Out(V_n)为所述全部句子中所述第n个句子指向的每一个句子的集合，且当前存在有所述第n个句子指向Out(V_n)中的任一句子的相似度，所述全部句子中任一句子的得分的初始值已预定。

进一步地，在所述根据公式四，分别计算所述全部句子中的每一个句子的得分之后，进一步包括：

A1：判断所述全部句子中是否存在待处理的句子，其中，所述待处理的句子为仅计算过一次得分的句子或被确定为待处理的句子，若是，执行A2，否则，执行S4；

A2：针对每一个待处理的句子均执行：根据上一次计算出的每一个所述句子的得分，根据所述公式四，再一次迭代计算当前句子的得分；计算当前次计算出的所述当前句子的得分与上一次计算出的所述当前句子的得分的差值；判断所述差值的绝对值是否不大于预设误差值，若是，确定当前次计算出的所述当前句子的得分为所述当前句子的最终得分，确定所述当前句子不待处理，否则，确定所述当前句子待处理；

A3：执行A1。

另一方面，本发明提供了一种摘要形成装置，包括：

拆分单元，用于拆分输入文本，以获得所述输入文本包括的每一个句子、每一个所述句子包括的每一个词语；

相似度计算单元，用于针对获得的全部句子中的每一个句子均执行：

得分计算单元，用于根据计算出的每一个所述相似度，分别计算所述全部句子中的每一个句子的得分；

摘要形成单元，用于利用所述全部句子中的至少一个第一句子来形成所述输入文本的摘要，任一所述第一句子的得分，均不小于所述全部句子中除所述至少一个第一句子外的任一其他句子的得分。

进一步地，该摘要形成装置还包括：无效词语筛除单元，用于根据预设的至少一个无效词语，将获得的每一个句子中包括的每一个无效词语删除；

所述拆分单元执行完成后，所述无效词语筛除单元开始工作；

所述无效词语筛除单元执行完成后，所述相似度计算单元开始工作。

进一步地，该摘要形成装置还包括：相似度处理单元，用于将计算出的每一个不大于预设相似度阈值的所述相似度删除；

所述相似度计算单元执行完成后，所述相似度处理单元开始工作；

所述相似度处理单元执行完成后，所述得分计算单元开始工作。

进一步地，所述相似度计算单元，具体用于利用公式一或公式二，计算所述当前句子指向所述当前其他句子的相似度；

所述公式一包括：

所述公式二包括：

进一步地，所述拆分单元，具体用于拆分输入文本，以获得所述输入文本包括的每一个段落、每一个所述段落包括的每一个句子、每一个所述句子包括的每一个词语，其中，所述全部句子按照各个句子在所述输入文本中的先后出现顺序依次排列；

该摘要形成装置还包括：得分优化更新单元，用于根据公式三，对计算出的每一个得分进行优化，并将优化前的各个得分更新替换为相应的优化后的各个得分；

所述得分计算单元执行完成后，所述得分优化更新单元开始工作；

所述得分优化更新单元执行完成后，所述摘要形成单元开始工作；

所述公式三包括：

进一步地，所述得分计算单元，具体用于根据公式四，分别计算所述全部句子中的每一个句子的得分；

所述公式四包括：

进一步地，该摘要形成装置还包括：处理单元、迭代计算单元、触发单元；

所述得分计算单元执行完成后，所述处理单元开始工作；

所述处理单元，用于判断所述全部句子中是否存在待处理的句子，其中，所述待处理的句子为仅计算过一次得分的句子或被确定为待处理的句子，若是，触发所述迭代计算单元，否则，触发所述摘要形成单元；

所述迭代计算单元，用于针对每一个待处理的句子均执行：根据上一次计算出的每一个所述句子的得分，根据所述公式四，再一次迭代计算当前句子的得分；计算当前次计算出的所述当前句子的得分与上一次计算出的所述当前句子的得分的差值；判断所述差值的绝对值是否不大于预设误差值，若是，确定当前次计算出的所述当前句子的得分为所述当前句子的最终得分，确定所述当前句子不待处理，否则，确定所述当前句子待处理；

所述触发单元，用于在确定出所述迭代计算单元执行完成后，触发所述处理单元。

本发明提供了一种摘要形成方法及装置，该方法包括：拆分输入文本以获得其包括的各个句子、各句子包括的各个词语；针对获得的全部句子中的各句子均执行：针对全部句子中除当前句子外的各其他句子均执行：根据当前句子包括的词语和当前其他句子包括的词语，计算当前句子指向当前其他句子的相似度；根据计算出的各相似度，分别计算全部句子中的各句子的得分；利用全部句子中的若干第一句子来形成输入文本的摘要，各第一句子的得分均不小于全部句子中任一非第一句子的得分。利用得分高的若干句子形成摘要，且任一句子的得分是基于各个其他句子而计算出的，故本发明可以基于输入文本的上下文信息以形成摘要，故能够提高所形成摘要的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种摘要形成方法的流程图；

图2是本发明一实施例提供的一种句子指向关系的示意图；

图3是本发明一实施例提供的另一种摘要形成方法的流程图；

图4是本发明一实施例提供的一种摘要形成装置的示意图；

图5是本发明一实施例提供的另一种摘要形成装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种摘要形成方法，可以包括以下步骤：

步骤101：拆分输入文本，以获得所述输入文本包括的每一个句子、每一个所述句子包括的每一个词语。

步骤102：针对获得的全部句子中的每一个句子均执行：

针对所述全部句子中除当前句子外的每一个其他句子均执行：根据当前句子包括的词语和当前其他句子包括的词语，计算所述当前句子指向所述当前其他句子的相似度。

步骤103：根据计算出的每一个所述相似度，分别计算所述全部句子中的每一个句子的得分。

步骤104：利用所述全部句子中的至少一个第一句子来形成所述输入文本的摘要，任一所述第一句子的得分，均不小于所述全部句子中除所述至少一个第一句子外的任一其他句子的得分。

本发明实施例提供了一种摘要形成方法，拆分输入文本以获得其包括的各个句子、各句子包括的各个词语；针对获得的全部句子中的各句子均执行：针对全部句子中除当前句子外的各其他句子均执行：根据当前句子包括的词语和当前其他句子包括的词语，计算当前句子指向当前其他句子的相似度；根据计算出的各相似度，分别计算全部句子中的各句子的得分；利用全部句子中的若干第一句子来形成输入文本的摘要，各第一句子的得分均不小于全部句子中任一非第一句子的得分。利用得分高的若干句子形成摘要，且任一句子的得分是基于各个其他句子而计算出的，故本发明实施例可以基于输入文本的上下文信息以形成摘要，故能够提高所形成摘要的准确性。

举例来说，待拆分的输入文本X的文本构架可以如下所述：

句子1。句子2。句子3。

句子4。句子5。句子6。句子7。句子8。

句子9。句子10。

如此，在步骤101中，通过对输入文本X进行拆分，可以获得输入文本 X包括的上述10个句子。具体地，经拆分处理，可以获得3个段落，还可以获得首段包括上述句子1、句子2、句子3；中段包括上述句子4～句子8；尾端包括上述句子9和句子10，以及可以获得这10个句子各自包括的每一个词语。

在本发明一个实施例中，为了能够减轻后续计算压力和提高所形成摘要的准确性，所以，在所述步骤101之后、所述步骤102之前，进一步包括：根据预设的至少一个无效词语，将获得的每一个句子中包括的每一个无效词语删除。

详细地，这里的无效词语可以包括停用词、敏感词等。

详细地，停用词可以为在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据、文本之前或之后，允许自动过滤掉的某些字或词。比如，了、的等词语。

对于经文本拆分而获得的任一句子来说，通过对该句子进行无效词语删除处理，可以删除该句子经分词后获得的全部词语中的各个无效词语，而仅保留相对有效的词语。如此，该句子包括的词语个数通常有所较少。当句子数量较多、删除掉的无效词语总计较多时，无效词语删除处理可以明显减轻后续计算压力，以及提高所形成摘要的准确性。

如此，当进行无效词语删除处理时，通常情况下，可以在对获得的每一个句子均处理后，再执行上述步骤102。

在本发明一个实施例中，所述计算所述当前句子指向所述当前其他句子的相似度，包括：利用下述公式(1)或公式(2)，计算所述当前句子指向所述当前其他句子的相似度；

目前句子的相似度计算主要可以有基于编辑距离、基于语义词典、基于内容覆盖率等方式，考虑到语义问题，本发明实施例可以主要采用基于 Word2vec的余弦相似度方式对句子之间的相似度进行计算。

详细地，Word2vec是一个NLP(Natural Language Processing，自然语言处理)工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。

基于上述内容，本发明一实施例中，可以首先根据系统内置模型获取每个单词所对应的词向量。如此，基于该词向量，即可基于上述公式(1)或公式(2)来计算任意两句子间的相似度。

相比较传统的获取句子之间的相似度计算方式，即统计句子中相同单词的个数而言，本发明中基于Word2vec的计算方式充分考虑了单词的词性、单词的近义词、反义词等语义特性，从而提高自动摘要的准确率。

详细地，对于获得的任一句子来说，需要计算该句子指向每一个其他句子的相似度。比如，对于上述句子1来说，需要分别计算句子1指向上述句子2～句子10中各个句子的相似度。如此，将会计算得到较多的相似度，尤其当输入文本中包括句子数量较多时，计算得到的相似度更为大量。

由于在后续计算任一句子得分时，需要涉及到每一个其他句子，以及各个其他句子相关的相似度，故大量的相似度会加大后续计算得分时的计算压力。

此外，由于不同句子间的相似程度可以差距较大，两句子间相似程度较低时，计算出的相应相似度通常较小。数值较小的相似度对于句子得分的计算来说，通常影响力度较小，但数值较小的相似度的数量庞大时，其所带来的整体影响力度相应较大，从而影响得分的评判。

比如，以上述句子1为例，假设与上述句子2～句子10相比，句子1仅和句子2相似程度高，而对句子3～句子10相似程度低，如此，在计算句子 1的得分时，在涉及句子1和句子2间相应相似度的同时，还涉及句子1和另外8个句子间相应相似度时，后者将会对得分的准确性造成较大负面干扰。

基于上述考虑，可以将计算出的低相似度删除。因此，在本发明一个实施例中，为了能够减轻后续计算压力和提高所形成摘要的准确性，所以，在所述步骤102之后、所述步骤103之前，进一步包括：将计算出的每一个不大于预设相似度阈值的所述相似度删除。

如此，当进行低相似度删除处理时，通常情况下，可以在对获得的每一个相似度均处理后，再执行上述步骤103。

举例来说，在基于上述输入文本X进行低相似度删除处理后，输入文本 X包括的各个句子的句子指向关系的示意图，可以如图2所示。详细地，图 2中的V₁～V₁₀，可以代表上述句子1～句子10。以句子1为例，在句子2～句子10中，可知句子1指向句子2的相似度不小于预设相似度阈值，句子1 指向句子5的相似度不小于预设相似度阈值，而句子1指向任一其他句子的相似度均小于预设相似度阈值。同理，在句子2～句子10中，仅句子5指向句子1的相似度不小于预设相似度阈值，任一其他句子指向句子1的相似度均小于预设相似度阈值。

在本发明一个实施例中，请参考图2，若一个句子指向另一句子的相似度不小于预设相似度阈值，则说明该两句子间具有相关性，故可以在句子指向关系示意图中将两者有向连接起来。在图2中，还可以对有向连接的两句子的有向边权重进行计算。

比如，在本发明一个实施例中，以上述V_a和V_b为例，V_a指向V_b的有向边权重可以表示为w_ab，且w_ab＝similarity(V_a,V_b)。

详细地，在获取各个相似度后，便可计算各句子得分。其中，句子得分的计算至少可以包括下述两种实现方式：

方式1：仅计算一次各句子得分；

方式2：在方式1的基础之上，基于上一次计算出的各句子得分，迭代计算各句子得分，直至当前计算出的得分相较于上一次迭代的计算出的得分的绝对差值不大于预设误差值。比如，两者差的绝对值要不大于0.0001。

通常情况下，方式1的计算量小于方式2的计算量，但方式1的得分准确性对应的小于方式2的得分准确性。如此，可以按需选择使用方式1或方式2来计算句子的得分。

对应于上述方式1：

在本发明一个实施例中，所述分别计算所述全部句子中的每一个句子的得分，包括：根据下述公式(3)，分别计算所述全部句子中的每一个句子的得分；

详细地，当不涉及上述的相似度删除处理时，对于任一句子，该句子指向全部句子中任一其他句子的相似度均存在，比如以上述输入文本X为例，这里可以存在9个相似度。

对应地，当涉及到上述的相似度删除处理时，对于任一句子，该句子指向全部句子中任一其他句子的相似度并非均存在，比如以上述输入文本X为例，这里可以存在最多9个相似度。

举例来说，当涉及到上述的相似度删除处理时，对于上述公式(3)，若 n＝1，则In(V₁)这一集合仅包括句子5，Out(V₁)这一集合仅包括句子2和句子5。

在本发明一个实施例中，x为阻尼系数，取值范围为0到1，一般取值为 0.85，代表从一点指向其他任意一点的概率。

在本发明一个实施例中，任一句子的得分的初始值可以预定为1。比如，在上述公式(3)中，当m＝1，n＝2时，由于尚未计算过WS(V₂)，故可以令 WS(V₂)＝1，以计算WS(V₁)。

在本发明一个实施例中，在同一次计算中，需要计算各句子的得分。由于是第一次计算，故在上述公式(3)的等号右侧，所用的各句子的得分可以均采用初始值，即使在同一次计算中，该句子的得分已计算出。详细地，当前次计算出的各个得分，可以作为下一次迭代计算的引用基础。

比如，首轮计算时，尚未计算过上述句子1的得分，故当需要使用句子 1得分时，需要使用初始值。同理，当首轮计算出句子1的得分时，可以利用该得分对初始值进行更新替换。如此，迭代计算方案中，在第二轮计算时，当用到句子1的得分时，则使用句子1当前的得分，即首轮计算出的句子1 得分，而非使用初始值。

当然，基于不同实际需求，在本发明另一实施例中，在同一次计算中，若该句子的得分已计算出，也可以用该计算值，而不用初始值。

基于上述内容，在本发明一个实施例中，当记录任意两句子的有向边权重时，与上述公式(3)相类似的，还可以基于下述公式(4)，以通过有向边权重来计算句子得分；

其中，w_nm为所述第n个句子指向所述第m个句子的有向边权重，w_nk所述第n个句子指向所述第k个句子的有向边权重，V_n∈In(V_m)，In(V_m)为所述全部句子中指向所述第m个句子的每一个句子的集合，且当前存在有In(V_m)中的任一句子指向所述第m个句子的相似度，V_k∈Out(V_n)，Out(V_n)为所述全部句子中所述第n个句子指向的每一个句子的集合，且当前存在有所述第n个句子指向 Out(V_n)中的任一句子的相似度，所述全部句子中任一句子的得分的初始值已预定。

对应于上述方式2：

在本发明一个实施例中，在所述根据上述公式(3)，分别计算所述全部句子中的每一个句子的得分之后，进一步包括：

A1：判断所述全部句子中是否存在待处理的句子，其中，所述待处理的句子为仅计算过一次得分的句子或被确定为待处理的句子，若是，执行A2，否则，执行步骤104；

A2：针对每一个待处理的句子均执行：根据上一次计算出的每一个所述句子的得分，根据上述公式(3)，再一次迭代计算当前句子的得分；计算当前次计算出的所述当前句子的得分与上一次计算出的所述当前句子的得分的差值；判断所述差值的绝对值是否不大于预设误差值，若是，确定当前次计算出的所述当前句子的得分为所述当前句子的最终得分，确定所述当前句子不待处理，否则，确定所述当前句子待处理；

A3：执行A1。

举例来说，上述句子1的得分初始值为1，假设经第一次得分计算后，可计算出句子1的得分为得分1，则可以将句子1的得分由初始值更新替换为该得分1，如此，在第二次得分计算过程中，所使用的句子1的得分即为该得分1。假设经第二次得分计算后，可计算出句子1的得分为得分2，则可以将句子1的得分由该得分1更新替换为该得分2，如此，在第三次得分计算过程中，所使用的句子1的得分即为该得分2。如此循环。如此，每一次迭代计算时所使用的得分，均为上一次计算出的得分。

详细地，当通过迭代计算以计算句子得分时，应该迭代计算结束之后，再执行上述步骤104。

在本发明一个实施例中，所述S1，包括：拆分输入文本，以获得所述输入文本包括的每一个段落、每一个所述段落包括的每一个句子、每一个所述句子包括的每一个词语，其中，所述全部句子按照各个句子在所述输入文本中的先后出现顺序依次排列；

在所述S4之前，进一步包括：根据下述公式(5)，对计算出的每一个得分进行优化，并将优化前的各个得分更新替换为相应的优化后的各个得分；

详细地，考虑到首尾段落的重要信息承载率通常要高于中间段落，故可以根据段落区别以对各段落内包括的各个句子进行得分优化调整。

在本发明一个实施例中，在经过首尾段落权重调整后，可以对最终确定的句子得分，即优化并更新替换后的句子得分进行倒叙排序，并选择若干得分相对更高的句子作为候选文摘句。

在本发明一个实施例中，可以根据摘要限定字数或者句子个数的要求，从候选文摘句中抽取句子组成文摘。

在本发明一个实施例中，在一摘要形成过程中，当同时涉及到上述基于首尾段落对各个句子得分进行调整、上述迭代计算得分这两个过程时，应该先进行迭代计算得分，再进行基于首尾段落对各个句子得分进行调整。

综上所述，本发明实施例充分考虑了文章中首尾段落的概要总结的特性，从而能较好地描述文章的主题思想和中心内容，更加符合用户的需求。

在本发明一个实施例中，可以对输入文本首先进行分段处理，以得到段落集合，然后对得到的段落集合进行分句处理，以得到句子集合，最后对得到的句子集合进行分词处理，以得到词语集合。

在本发明一个实施例中，可以在分句处理后，构建TextRank图G＝(V， E)。其中，V可以表示点集合，E表示边的集合，且E是V×V的子集。然后记录首尾段落句子索引P＝{i|1≤i≤p}、Q＝{i|h-q+1≤i≤h}。在构建完图G后，再进行分词处理。

详细地，基于上述有向加权边的描述，在对输入文本进行拆分预处理完后，可以对图G中的边集合E进行构建，边集合E的构建原理主要是基于句子之间的相似性，即若两个句子V_a指向V_b的相似性不小于相应阈值，则可以在句子V_a和句子V_b之间存在一条有向加权边。此外，V_a指向V_b的有向边权重可以表示为w_ab，且w_ab＝similarity(V_a,V_b)。

如图3所示，本发明一个实施例提供了另一种摘要形成方法，具体包括以下步骤：

步骤301：拆分输入文本，以获得所述输入文本包括的每一个段落、每一个所述段落包括的每一个句子、每一个所述句子包括的每一个词语，其中，所述全部句子按照各个句子在所述输入文本中的先后出现顺序依次排列。

步骤302：根据预设的至少一个无效词语，将获得的每一个句子中包括的每一个无效词语删除。

步骤303：针对获得的全部句子中的每一个句子均执行：

详细地，可以利用上述公式(1)或公式(2)，计算所述当前句子指向所述当前其他句子的相似度。

步骤304：将计算出的每一个不大于预设相似度阈值的所述相似度删除。

步骤305：根据计算出的每一个所述相似度，分别计算所述全部句子中的每一个句子的得分。

详细地，可以根据上述公式(3)，分别计算所述全部句子中的每一个句子的得分。

步骤306：判断所述全部句子中是否存在待处理的句子，其中，所述待处理的句子为仅计算过一次得分的句子或被确定为待处理的句子，若是，执行步骤307，否则，执行步骤309。

步骤307：针对每一个待处理的句子均执行：根据上一次计算出的每一个所述句子的得分，再一次迭代计算当前句子的得分；计算当前次计算出的所述当前句子的得分与上一次计算出的所述当前句子的得分的差值；判断所述差值的绝对值是否不大于预设误差值，若是，确定当前次计算出的所述当前句子的得分为所述当前句子的最终得分，确定所述当前句子不待处理，否则，确定所述当前句子待处理。

详细地，可以根据上述公式(3)，再一次迭代计算当前句子的得分。

步骤308：在确定出上一步骤执行完成后执行步骤306。

步骤309：对计算出的每一个得分进行优化，并将优化前的各个得分更新替换为相应的优化后的各个得分。

详细地，可以根据上述公式(5)，对计算出的每一个得分进行优化。

步骤310：利用所述全部句子中的至少一个第一句子来形成所述输入文本的摘要，任一所述第一句子的得分，均不小于所述全部句子中除所述至少一个第一句子外的任一其他句子的得分。

如图4所示，本发明一个实施例提供了一种摘要形成装置，包括：

拆分单元401，用于拆分输入文本，以获得所述输入文本包括的每一个句子、每一个所述句子包括的每一个词语；

相似度计算单元402，用于针对获得的全部句子中的每一个句子均执行：

得分计算单元403，用于根据计算出的每一个所述相似度，分别计算所述全部句子中的每一个句子的得分；

摘要形成单元404，用于利用所述全部句子中的至少一个第一句子来形成所述输入文本的摘要，任一所述第一句子的得分，均不小于所述全部句子中除所述至少一个第一句子外的任一其他句子的得分。

在本发明一个实施例中，请参考图5，该摘要形成装置还可以包括：无效词语筛除单元501，用于根据预设的至少一个无效词语，将获得的每一个句子中包括的每一个无效词语删除；

所述拆分单元401执行完成后，所述无效词语筛除单元501开始工作；

所述无效词语筛除单元501执行完成后，所述相似度计算单元402开始工作。

在本发明一个实施例中，请参考图5，该摘要形成装置还可以包括：相似度处理单元502，用于将计算出的每一个不大于预设相似度阈值的所述相似度删除；

所述相似度计算单元402执行完成后，所述相似度处理单元502开始工作；

所述相似度处理单元502执行完成后，所述得分计算单元403开始工作。

在本发明一个实施例中，所述相似度计算单元402，具体用于利用上述公式(1)或公式(2)，计算所述当前句子指向所述当前其他句子的相似度。

在本发明一个实施例中，所述拆分单元401，具体用于拆分输入文本，以获得所述输入文本包括的每一个段落、每一个所述段落包括的每一个句子、每一个所述句子包括的每一个词语，其中，所述全部句子按照各个句子在所述输入文本中的先后出现顺序依次排列；

请参考图5，该摘要形成装置还可以包括：得分优化更新单元503，用于根据上述公式(5)，对计算出的每一个得分进行优化，并将优化前的各个得分更新替换为相应的优化后的各个得分；

所述得分计算单元403执行完成后，所述得分优化更新单元503开始工作；

所述得分优化更新单元503执行完成后，所述摘要形成单元404开始工作。

在本发明一个实施例中，所述得分计算单元403，具体用于根据上述公式(3)，分别计算所述全部句子中的每一个句子的得分。

在本发明一个实施例中，请参考图5，该摘要形成装置还可以包括：处理单元504、迭代计算单元505、触发单元506；

所述得分计算单元403执行完成后，所述处理单元504开始工作；

所述处理单元504，用于判断所述全部句子中是否存在待处理的句子，其中，所述待处理的句子为仅计算过一次得分的句子或被确定为待处理的句子，若是，触发所述迭代计算单元505，否则，触发所述摘要形成单元404；

所述迭代计算单元505，用于针对每一个待处理的句子均执行：根据上一次计算出的每一个所述句子的得分，根据上述公式(3)，再一次迭代计算当前句子的得分；计算当前次计算出的所述当前句子的得分与上一次计算出的所述当前句子的得分的差值；判断所述差值的绝对值是否不大于预设误差值，若是，确定当前次计算出的所述当前句子的得分为所述当前句子的最终得分，确定所述当前句子不待处理，否则，确定所述当前句子待处理；

所述触发单元506，用于在确定出所述迭代计算单元505执行完成后，触发所述处理单元504。

在本发明一个实施例中，请参考图5，当该摘要形成装置同时包括上述处理单元504和上述得分优化更新单元503时，处理单元504可以经得分优化更新单元503以间接触发上述摘要形成单元404。比如，处理单元504可以触发得分优化更新单元503开始工作，得分优化更新单元503执行完成后在触发摘要形成单元404开始工作。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

综上所述，本发明的各个实施例至少具有如下有益效果：

1、本发明实施例中，拆分输入文本以获得其包括的各个句子、各句子包括的各个词语；针对获得的全部句子中的各句子均执行：针对全部句子中除当前句子外的各其他句子均执行：根据当前句子包括的词语和当前其他句子包括的词语，计算当前句子指向当前其他句子的相似度；根据计算出的各相似度，分别计算全部句子中的各句子的得分；利用全部句子中的若干第一句子来形成输入文本的摘要，各第一句子的得分均不小于全部句子中任一非第一句子的得分。利用得分高的若干句子形成摘要，且任一句子的得分是基于各个其他句子而计算出的，故本发明实施例可以基于输入文本的上下文信息以形成摘要，故能够提高所形成摘要的准确性。

2、本发明实施例中，摘要的形成充分考虑了单词的词性、单词的近义词、反义词等语义特性，而非简单的通过统计单词的频率等方式来对句子之间的相似度进行计算，也不需要事先对多篇文档进行学习训练，故摘要形成过程简洁有效。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种摘要形成方法，其特征在于，包括：

S2：针对获得的全部句子中的每一个句子均执行：

S4：利用所述全部句子中的至少一个第一句子来形成所述输入文本的摘要，任一所述第一句子的得分，均不小于所述全部句子中除所述至少一个第一句子外的任一其他句子的得分；

在所述S1之后、所述S2之前，进一步包括：根据预设的至少一个无效词语，将获得的每一个句子中包括的每一个无效词语删除；

和/或，

在所述S2之后、所述S3之前，进一步包括：将计算出的每一个不大于预设相似度阈值的所述相似度删除；

所述计算所述当前句子指向所述当前其他句子的相似度，包括：利用公式一或公式二，计算所述当前句子指向所述当前其他句子的相似度；

所述公式一包括：

所述公式二包括：

其中，V_a为所述全部句子中的第a个句子，V_b为所述全部句子中的第b个句子，similarity(V_a,V_b)为所述第a个句子指向所述第b个句子的相似度，c为所述第a个句子包括的词语个数，d为所述第b个句子包括的词语个数，S_ae为所述第a个句子包括的第e个词语的预设词向量，1≤e≤c，S_bf为所述第b个句子包括的第f个词语的预设词向量，1≤f≤d，上标T意为转置；

和/或，

所述S1，包括：拆分输入文本，以获得所述输入文本包括的每一个段落、每一个所述段落包括的每一个句子、每一个所述句子包括的每一个词语，其中，所述全部句子按照各个句子在所述输入文本中的先后出现顺序依次排列；

所述公式三包括：

其中，V_i为所述全部句子中的第i个句子，WS(V_i)为所述第i个句子的优化前的得分，WS(V_i)′为所述第i个句子的优化后的得分，g₁和g₂均为预设调整阈值，p为获得的首段落包括的句子个数，q为获得的尾段落包括的句子个数，h为所述全部句子的个数。

2.根据权利要求1所述的方法，其特征在于，

所述分别计算所述全部句子中的每一个句子的得分，包括：根据公式四，分别计算所述全部句子中的每一个句子的得分；

所述公式四包括：

其中，V_m为所述全部句子中的第m个句子，V_n为所述全部句子中的第n个句子，V_k为所述全部句子中的第k个句子，WS(V_m)为所述第m个句子的得分，WS(V_n)为所述第n个句子的得分，x为预设的阻尼系数，similarity(V_n,V_m)为所述第n个句子指向所述第m个句子的相似度，similarity(V_n,V_k)为所述第n个句子指向所述第k个句子的相似度，V_n∈In(V_m)，In(V_m)为所述全部句子中指向所述第m个句子的每一个句子的集合，且当前存在有In(V_m)中的任一句子指向所述第m个句子的相似度，V_k∈Out(V_n)，Out(V_n)为所述全部句子中所述第n个句子指向的每一个句子的集合，且当前存在有所述第n个句子指向Out(V_n)中的任一句子的相似度，所述全部句子中任一句子的得分的初始值已预定。

3.根据权利要求2所述的方法，其特征在于，

在所述根据公式四，分别计算所述全部句子中的每一个句子的得分之后，进一步包括：

A3：执行A1。

4.一种摘要形成装置，其特征在于，包括：

摘要形成单元，用于利用所述全部句子中的至少一个第一句子来形成所述输入文本的摘要，任一所述第一句子的得分，均不小于所述全部句子中除所述至少一个第一句子外的任一其他句子的得分；

还包括：无效词语筛除单元，用于根据预设的至少一个无效词语，将获得的每一个句子中包括的每一个无效词语删除；

所述无效词语筛除单元执行完成后，所述相似度计算单元开始工作；

和/或，

还包括：相似度处理单元，用于将计算出的每一个不大于预设相似度阈值的所述相似度删除；

所述相似度处理单元执行完成后，所述得分计算单元开始工作；

所述相似度计算单元，具体用于利用公式一或公式二，计算所述当前句子指向所述当前其他句子的相似度；

所述公式一包括：

所述公式二包括：

和/或，

所述拆分单元，具体用于拆分输入文本，以获得所述输入文本包括的每一个段落、每一个所述段落包括的每一个句子、每一个所述句子包括的每一个词语，其中，所述全部句子按照各个句子在所述输入文本中的先后出现顺序依次排列；

还包括：得分优化更新单元，用于根据公式三，对计算出的每一个得分进行优化，并将优化前的各个得分更新替换为相应的优化后的各个得分；

所述公式三包括：

5.根据权利要求4所述的摘要形成装置，其特征在于，

所述得分计算单元，具体用于根据公式四，分别计算所述全部句子中的每一个句子的得分；

所述公式四包括：

6.根据权利要求5所述的摘要形成装置，其特征在于，

还包括：处理单元、迭代计算单元、触发单元；

所述得分计算单元执行完成后，所述处理单元开始工作；