CN104915335B

CN104915335B - 为主题文档集生成摘要的方法和装置

Info

Publication number: CN104915335B
Application number: CN201510325632.XA
Authority: CN
Inventors: 李炫�; 沈剑平; 莫洋; 宋元峰; 郑楚煜; 车丽美; 齐沁芳
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-06-12
Filing date: 2015-06-12
Publication date: 2018-03-16
Anticipated expiration: 2035-06-12
Also published as: CN104915335A

Abstract

本发明实施例公开了一种为主题文档集生成摘要的方法和装置。所述方法包括：从主题文档集的各篇文章中选取一个和/或多个语句作为候选摘要；根据预设的句法分析算法分别对候选摘要进行切词，并基于切词结果对候选摘要进行评分；将评分所得的值最高的候选摘要作为主题文档集的摘要。采用本发明实施例，可以提高主题文档集的摘要的质量，保证生成的摘要具有较好的可读性。

Description

为主题文档集生成摘要的方法和装置

技术领域

本发明涉及计算机数据处理领域，特别涉及一种为主题文档集生成摘要的方法和装置。

背景技术

随着信息技术和互联网技术的不断发展，信息的数量越来越大，信息的来源也越来越广。如何从大量的、多个信息来源的主题文档集中快速得到该主题文档集的摘要，已成为人们关心的重要问题之一。

通常采用词频的方式生成主题文档集的摘要。首先，对该文档某一主题文档集中的每个文档的内容信息进行切词，得到多个词，对得到的多个词进行筛选，去除停用词后，得到多个分词；然后，通过每个分词的词频，确定该分词的重要性，进而确定分词所在的语句的重要性。最后，将语句的重要性较大的至少一个语句作为该文档的摘要。

前述生成摘要的方法至少存在以下问题：通过上述词频的方式生成主题文档集的摘要时，由于不同的语句其重要性不同，生成的摘要中相邻的两个语句在主题文档集中并不是相邻的，从而容易造成生成的摘要语句不顺畅，降低了摘要的质量和可读性。

发明内容

本发明的实施例提供一种为主题文档集生成摘要的方法和装置，通过从主题文档集的各篇文章中选取的候选摘要进行评分来获取主题文档集的摘要，从而提高主题文档集的摘要的质量。

为达到上述目的，本发明的实施例提供了一种为主题文档集生成摘要的方法。所述方法包括，候选摘要选取步骤：从主题文档集的各篇文章中选取一个和/或多个语句作为候选摘要；候选摘要评分步骤：根据预设的句法分析算法分别对所述候选摘要进行切词，并基于切词结果对所述候选摘要进行评分；摘要确定步骤：将所述评分所得的值最高的候选摘要作为所述主题文档集的摘要。

可选地，所述候选摘要选取步骤的处理包括：对所述主题文档集的任一篇文章，以窗口滑动的方式从所述文章的内容文本依次获取至少一组连续排列的语句分别作为第一候选长摘要，和/或从所述主题文档集的各篇文章分别提取其标题作为第一候选短摘要。

可选地，所述候选摘要评分步骤的处理包括：根据预设的句法分析算法分别对所述第一候选长摘要进行切词，并且根据所述切词的结果和预设的第一摘要评价指标计算所述第一候选长摘要的评分值，和/或根据预设的句法分析算法分别对所述第一候选短摘要进行切词，并且根据所述切词的结果和预设的第二摘要评价指标计算所述第一候选短摘要的评分值。

可选地，所述摘要确定步骤的处理包括：将所述评分值最高的第一候选长摘要作为所述主题文档集的长摘要，和/或将所述评分值最高的第一候选短摘要作为所述主题文档集的短摘要。

可选地，所述方法还包括：根据所述主题文档集的长摘要、短摘要和所述主题文档集中切出的分词的分布，分别计算所述主题文档集的分词的分布与所述长摘要中切出的分词的分布或所述短摘要中切出的分词的分布之间的相对熵；如果所述短摘要相对于所述主题文档集的分词的分布的相对熵低于预定的相对熵阈值，则将所述长摘要的各个语句分别作为所述第一候选短摘要，执行所述候选摘要评分步骤和所述摘要确定步骤，和/或如果所述长摘要相对于所述主题文档集的分词的分布的相对熵低于预定的第一相对熵阈值，且低于预定的第二相对熵阈值，则将所述短摘要作为所述主题文档集的长摘要，其中，所述第二相对熵阈值为所述短摘要相对于所述主题文档集的分词的分布的相对熵。

可选地，所述第一摘要评价指标和所述第二摘要评价指标包括摘要的分词重要性和信息冗余度。

可选地，所述第一摘要评价指标还包括所述第一候选长摘要的可读性和分词序列的平衡性，所述第二摘要评价指标还包括所述第一候选短摘要的可读性和长度折扣。

可选地，所述根据预设的句法分析算法分别对所述第一候选长摘要进行切词，并且根据所述切词的结果和预设的第一摘要评价指标计算所述第一候选长摘要的评分值的处理还包括：对任一第一候选长摘要，根据其所属文章的信息来源对为其计算的评分值进行加权，求得所述第一候选长摘要的加权评分值，所述将所述评分值最高的第一候选长摘要作为所述主题文档集的长摘要的处理包括：选取求得的加权评分值最高的第一候选长摘要作为所述主题文档集的长摘要。

为达到上述目的，本发明的实施例还提供了一种为主题文档集生成摘要的装置。所述装置包括：候选摘要选取模块，用于从主题文档集的各篇文章中选取一个和/或多个语句作为候选摘要；候选摘要评分模块，用于根据预设的句法分析算法分别对所述候选摘要进行切词，并基于切词结果对所述候选摘要进行评分；摘要确定模块，用于将所述评分所得的值最高的候选摘要作为所述主题文档集的摘要。

可选地，所述候选摘要选取模块用于：对所述主题文档集的任一篇文章，以窗口滑动的方式从所述文章的内容文本依次获取至少一组连续排列的语句分别作为第一候选长摘要，和/或从所述主题文档集的各篇文章分别提取其标题作为第一候选短摘要。

可选地，所述候选摘要评分模块用于：根据预设的句法分析算法分别对所述第一候选长摘要进行切词，并且根据所述切词的结果和预设的第一摘要评价指标计算所述第一候选长摘要的评分值，和/或根据预设的句法分析算法分别对所述第一候选短摘要进行切词，并且根据所述切词的结果和预设的第二摘要评价指标计算所述第一候选短摘要的评分值。

可选地，所述摘要确定模块用于：将所述评分值最高的第一候选长摘要作为所述主题文档集的长摘要，和/或将所述评分值最高的第一候选短摘要作为所述主题文档集的短摘要。

可选地，所述装置还包括：相对熵获取模块，用于根据所述主题文档集的长摘要、短摘要和所述主题文档集中切出的分词的分布，分别计算所述主题文档集的分词的分布与所述长摘要中切出的分词的分布或所述短摘要中切出的分词的分布之间的相对熵，短摘要优化模块，用于如果所述短摘要相对于所述主题文档集的分词的分布的相对熵低于预定的相对熵阈值，则将所述长摘要的各个语句分别作为所述第一候选短摘要，执行所述候选摘要评分步骤和所述摘要确定步骤，和/或长摘要优化模块，用于如果所述长摘要相对于所述主题文档集的分词的分布的相对熵低于预定的第一相对熵阈值，且低于预定的第二相对熵阈值，则将所述短摘要作为所述主题文档集的长摘要，其中，所述第二相对熵阈值为所述短摘要相对于所述主题文档集的分词的分布的相对熵。

可选地，所述候选摘要评分模块还用于：对任一第一候选长摘要，根据其所属文章的信息来源对为其计算的评分值进行加权，求得所述第一候选长摘要的加权评分值，

所述摘要确定模块还用于：选取求得的加权评分值最高的第一候选长摘要作为所述主题文档集的长摘要。

本发明实施例提供的为主题文档集生成摘要的方法和装置，通过从主题文档集的各篇文章中选取语句作为候选摘要，并通过预设的句法分析算法对得到的候选摘要进行切词，进而对候选摘要进行评分，然后，根据评分得到的值从候选摘要中选取主题文档集的摘要，从而可以提高主题文档集的摘要的质量，保证生成的摘要具有较好的可读性。

附图说明

图1为本发明实施例提供的为主题文档集生成摘要的方法的流程图；

图2为本发明实施例提供的为主题文档集生成长摘要的处理的流程图；

图3为本发明实施例提供的为主题文档集生成短摘要的处理的流程图；

图4为本发明实施例提供的另一种为主题文档集生成摘要的方法的流程图；

图5为本发明实施例提供的一种为主题文档集生成摘要的装置的结构示意图；

图6为本发明实施例提供的另一种为主题文档集生成摘要的装置的结构示意图。

具体实施方式

本方案的发明构思是，对作为目标的主题文档集的各篇文章中选取的一个和/或多个语句构成的候选摘要进行切词，进而通过切词结果对候选摘要进行评分，并根据评分结果从候选摘要中选取主题文档集的摘要，从而提高主题文档集的摘要的质量，保证生成的摘要具有较好的可读性。

根据本发明的发明构思，可为所述主题文档集生成长摘要和/或短摘要。

下面结合附图对本发明实施例为主题文档集生成摘要的方法和装置进行详细描述。

实施例一

图1是本发明实施例提供的为主题文档集生成摘要的方法的流程图。通过包括如图5所示的装置的计算机系统执行所述方法。

如图1所示，在步骤101(候选摘要选取步骤)，从主题文档集的各篇文章中选取一个和/或多个语句作为候选摘要。

其中，所述主题文档集可以是针对某一事件的多篇文章的集合，该集合中的文章可以来源于多种渠道，例如，微博、新闻、贴吧和论坛等。所述语句可以是文章中相邻两个标点符号(如相邻的两个逗号或相邻的逗号与句号等)之间的字符(如文字等)。

通常，可以通过多种渠道得到各种事件的文章，可以通过某些方式对这些文章进行预处理，即将这些文章根据不同的事件进行归类，将属于同一事件的文章聚集在一起，形成主题文档集。通常，主体文档集中包含的文章较多，每一篇文章都可以是一个独立的个体，其中包括了某一个事件的完整内容。

具体地，在步骤101，从所述主题文档集中的每篇文章选取一个语句或多个语句作为候选摘要，其中，选取的一个语句可以是该文章的内容文本中的任一个语句等，选取的多个语句可以是该文章的内容文本中的任意多个语句，例如，该多个语句可以是该文章中处于任意位置的语句等。

在步骤102(候选摘要评分步骤)，根据预设的句法分析算法分别对候选摘要进行切词，并基于切词结果对候选摘要进行评分。

具体地，对每一个候选摘要进行句法分析，通过句法分析的结果对候选摘要进行切词，在切词得到的词语中去除停用词，如“的”、“是”等，最终，得到多个分词即为切词结果。

此后，可为每个分词设置权重，其设置方式可以是基于词频的方式，即可以根据每个分词在主题文档集中的词频，确定该分词对应的权重；然后，可以将每个候选摘要中包含的分词对应的权重相加，可以将权重的和作为对该候选摘要进行评分得到的数值。

步骤103(摘要确定步骤)，将通过步骤102评分所得的值最高的候选摘要作为主题文档集的摘要。

本发明实施例提供的为主题文档集生成摘要的方法，通过从主题文档集的各篇文章中选取语句作为候选摘要，并通过预设的句法分析算法对得到的候选摘要进行切词，进而对候选摘要进行评分，然后，根据评分得到的值从候选摘要中选取主题文档集的摘要，从而可提高主题文档集的摘要的质量，保证生成的摘要具有较好的可读性。

实施例二

图2为本发明提供的为主题文档集生成摘要的方法的另一个实施例的流程图，所述实施例可视为图1的又一种具体的实现方案。

如图2所示，在步骤201，对主题文档集的任一篇文章，以窗口滑动的方式从文章的内容文本依次获取至少一组连续排列的语句分别作为第一候选长摘要。

其中，窗口滑动的方式可以有多种。例如，可预先设置窗口可容纳的字数，然后在每次该窗口可滑动上述个数的字符后，获取上述个数的字符后面的字符，也可在每次该窗口滑动预设个数的字符后，获取预设个数的字符后面的上述个数的字符等。

可预先设置所述主题文档集生成的长摘要的字数，例如50个字等。具体地，在步骤201，对所述主题文档集中的任意一篇文章，使用预设的第一候选长摘要的选择窗口，从该文章的内容文本中选取一组连续排列的语句，作为第一候选长摘要；然后，向后滑动上述选择窗口，继续从该文章中剩余的内容文本中选取一组连续排列的语句，作为第一候选长摘要；以此类推，直到该文章的结尾为止，从而得到该文章的多个第一候选长摘要。使用相同的方法，对主题文档集中剩余的每一篇文章进行上述处理，得到更多第一候选长摘要。

例如，主题文档集中包含以下多篇文章：

文章1：急寻！与韩国MERS患者同乘到香港、深圳和惠州的旅客

广东确诊一例从韩国输入的中东呼吸综合征病例，该病例于26日乘坐韩亚航空OZ723航班到香港，后从机场搭大巴至深圳沙头角，再于下午4时46分乘大巴至惠州。现呼吁：曾与其同乘者请主动与省疾病预防控制中心联系。

文章2：急寻9名与韩国MERS患者同行的巴士乘客

据广东省卫计委通报，入境我国的韩国中东呼吸综合征患者今天(6月3日)好转，但仍有发热。广东目前已追踪到69名密切接触者。5月26日下午3时，与韩国患者一同乘坐永东巴士(车牌PJ2595)乘客，还有9人未联系上。

文章3：深圳再增2名MERS密接者暂无异常

南都讯记者贺达源广东MERS确诊病例、患者韩国男子上月26日从香港经深圳沙头角口岸入境抵达惠州，目前搜索到的密切接触者增至69人。昨晚深圳市卫计委通报称，深圳新增2名中东呼吸综合征(MERS)密切接触者，暂未出现不适，MERS病毒核酸检测结果也均为阴性，但仍需进一步观察至14天。深圳暂未发现疑似或确诊病例。

文章4：深圳新通报3例MERS密切接触者

深圳晚报讯(记者李飞)昨天深圳市疾控中心通报称，深圳新通报3例与广东省中东呼吸综合征(MERS)患者同一航班的密切接触者，均已进行隔离观察，目前身体情况无异常，检测结果也均为阴性，但仍需进一步观察14天。深圳暂未发现疑似或确诊病例。

通过上述步骤201的处理方式，可通过以窗口滑动的方式从文章的内容文本获取连续排列的语句分别作为第一候选长摘要，相应的，从上述4篇文章中得到的第一候选长摘要可包括：“广东确诊一例从韩国输入的中东呼吸综合征病例，该病例于26日乘坐韩亚航空OZ723航班到香港，后从机场搭大巴至深圳沙头角，再于下午4时46分乘大巴至惠州”、“现呼吁：曾与其同乘者请主动与省疾病预防控制中心联系”、“据广东省卫计委通报，入境我国的韩国中东呼吸综合征患者今天(6月3日)好转，但仍有发热。广东目前已追踪到69名密切接触者”和“5月26日下午3时，与韩国患者一同乘坐永东巴士(车牌PJ2595)乘客，还有9人未联系上”等。

在步骤202，根据预设的句法分析算法分别对第一候选长摘要进行切词，并且根据切词的结果和预设的第一摘要评价指标计算第一候选长摘要的评分值。

其中，可根据实际情况预先设定所述第一摘要评价指标。所述第一摘要评价指标可只包括一项指标，也可包括多项指标，例如，第一摘要评价指标可以是摘要的分词重要性等。

可选地，所述第一摘要评价指标包括摘要的分词重要性和信息冗余度。相应地，在步骤202，可将第一候选长摘要中切词得到的分词的权重相加，得到分词的权重之和可作为第一候选长摘要的分词重要性分值；可使用第一候选长摘要的切词结果中分词的个数除以第一候选长摘要的字数的指数次幂作为第一候选长摘要的信息冗余度分值。这样，可以第一候选长摘要的评分值即为分词重要性分值乘以信息冗余度分值。

例如，第一候选长摘要为“ABCDEF”，切词结果为“BDEF”，其中，B的权重为2，D的权重为5，E的权重为4，F的权重为6，则第一候选长摘要的分词重要性分值为2+5+4+6＝17，信息冗余度分值为(4/6)ⁿ，其中，n为幂指数，如n＝10，则信息冗余度分值为0.0173，因此，第一候选长摘要的评分值为0.0173*17＝0.295。

可选地，所述第一摘要评价指标除包括上述两个指标外，还可包括第一候选长摘要的可读性和分词序列的平衡性。其中，所述分词序列的平衡性可用于衡量摘要各部分内容的重要性是否与主题文档集相一致。相应地，在步骤202，可将第一候选长摘要与第一候选长摘要对应的文章的第一个语句进行比较。如果第一候选长摘要中的第一个语句与相应的文章的第一个语句不同，即第一候选长摘要中的第一个语句为新的语句，且第一候选长摘要中的结尾语句为一个完整的语句，则该第一候选长摘要的可读性较高，可为其设置一个较大的分值作为其可读性分值。

此外，可将第一候选长摘要所属的文章的切词结果和第一候选长摘要的切词结果按照权重的大小关系进行排列，例如可按照权重由大到小的顺序，分别对两者的切词结果进行排序，然后可通过公式d＝(顺序相符字符对个数-顺序不相符字符对个数)/总字符对个数，计算得到两者切词结果的相关系数d作为分词序列的平衡性分值。其中，相关系数d越小，两个的分词序列越一致，分词序列的平衡性越好；否则，分词序列的平衡性越差。这样，可以第一候选长摘要的评分值即为分词重要性分值、信息冗余度分值、可读性分值和分词序列的平衡性分值的乘积。

基于上述步骤201的示例得到更多第一候选长摘要，如果主题文档集中的分词和其对应的权重可表示为["分词"，权重]，则：["惠州"，5.77]，["深圳"，4.05]，["MERS"，4]，["急寻"，4]，["香港"，3.96]，["病例"，3.89]，["大巴”，3.86]，["韩国"，3.69]，["韩亚"，2.91]，["旅客”，2.75]，["沙头角"，2]，["沙头"，2]，["疾病预防控制中心"，2]，["航班"，2]，["机场"，1.96]，["患者"，1.96]，[“中东"，1.92]，["疾病"，1.81]，["综合征"，1.75]，["OZ723"，1.71]，["确诊"，1.7]，["航空"，1.55]，["主动"，1.48]，["广东"，1.13]，["链接"，0.96]，["中心"，0.64]。可以基于上述分词的权重，通过相应的处理方式得到每一个第一候选长摘要的分词重要性分值、信息冗余度分值、可读性分值和分词序列的平衡性分值，从而得到第一候选长摘要的评分值。

可选地，文章的信息来源在该文章的真实性和重要性等方面起到重要作用，因此，在步骤202的处理中，还可通过文章的信息来源对上述得到的评分值进一步加权。相应地，对任一第一候选长摘要，根据其所属文章的信息来源对为其计算的评分值进行加权，求得第一候选长摘要的加权评分值。

具体地，可预先确定并记录主题文档集中每篇文章的信息来源，并为每种信息来源设置相应的权重，其中，对于不同的信息来源可采用不同的权重，例如可为新闻、微博等信息来源的文章设置较大的权重，为贴吧、论坛等信息来源的文章设置较小的权重。对任一第一候选长摘要，根据该第一候选长摘要所属文章的信息来源查找到其对应的权重，然后通过得到的信息来源的权重对上述计算得到的评分值进行加权，得到第一候选长摘要的加权评分值。例如，将上述计算得到的评分值与信息来源的权重相乘，得到的数值可为第一候选长摘要的加权评分值。

在步骤203，将评分值最高的第一候选长摘要作为主题文档集的长摘要。

具体地，可将主题文档集对应的多个第一候选长摘要的评分值进行比较，从中查找到频分值最大的第一候选长摘要，可将其作为主题文档集的长摘要。

基于上述步骤202的示例，如果评分值最高的第一候选长摘要为“广东确诊一例从韩国输入的中东呼吸综合征病例，该病例于26日乘坐韩亚航空OZ723航班到香港，后从机场搭大巴至深圳沙头角，再于下午4时46分乘大巴至惠州”，则可将“广东确诊一例从韩国输入的中东呼吸综合征病例，该病例于26日乘坐韩亚航空OZ723航班到香港，后从机场搭大巴至深圳沙头角，再于下午4时46分乘大巴至惠州”设置为主题文档集的长摘要。

可选地，对于通过信息来源对为其计算的评分值进行加权的处理，上述步骤203的处理还可为：选取求得的加权评分值最高的第一候选长摘要作为主题文档集的长摘要。

本实施例是对上述实施例一的处理的一种具体实施方式，示出了生成主题文档集的长摘要的方法，即通过从主题文档集的一篇文章中以窗口滑动的方式获取连续排列的语句作为第一候选长摘要，并通过预设的句法分析算法对其进行切词，根据切词的结果和预设的第一摘要评价指标得到第一候选长摘要的评分值，将评分值最高的第一候选长摘要选取为主题文档集的长摘要，从而可使得生成的长摘要的语句更顺畅，提高了主题文档集的摘要的质量，保证生成的摘要具有较好的可读性。

实施例三

图3为本发明提供的为主题文档集生成摘要的方法的另一个实施例的流程图，其可视为图1的又一种具体的实现方案。

如图3所示，在步骤301，从主题文档集的各篇文章分别提取其标题作为第一候选短摘要。

由于文章的标题通常最能够体现其内容的要旨，因此将所述主题文档集中各篇文章的标题作为短摘要的候选。

可预先设定短摘要的字数，如20个字等。具体地，在步骤301，获取主题文档集中的任意一篇文章，并从中抽取该文章的标题作为第一候选短摘要。使用相同的方法，对主题文档集中剩余的每一篇文章进行上述处理，得到多个第一候选短摘要。

基于上述实施例二中步骤201的示例，通过上述步骤301的处理方式，可提取主题文档集的各篇文章的标题作为第一候选短摘要，相应的，上述4篇文章得到的第一候选短摘要可包括：“急寻！与韩国MERS患者同乘到香港、深圳和惠州的旅客”、“急寻9名与韩国MERS患者同行的巴士乘客”、“深圳再增2名MERS密接者暂无异常”和“深圳新通报3例MERS密切接触者”等。

在步骤302，根据预设的句法分析算法分别对第一候选短摘要进行切词，并且根据切词的结果和预设的第二摘要评价指标计算第一候选短摘要的评分值。

其中，可根据实际情况预先设定所述第二摘要评价指标。所述第二摘要评价指标可与上述步骤202中的第一摘要评价指标相同或者部分相同。

具体地，可通过如上述步骤102的处理对第一候选短摘要进行切词，得到切词结果(即得到多个分词)，并且根据分词的权重和预设的第二摘要评价指标计算各所述第一候选段摘要的评分值，具体可参见上述实施例二中步骤202的相关处理。

可选地，所述第二摘要评价指标包括摘要的分词重要性和信息冗余度。相应地，在步骤302，通过预设的句法分析算法对主题文档集的每篇文章进行切词，并确定切词结果中每个分词的权重，再将每篇文章的切词结果中的分词的权重相加，得到的相加结果作为主题文档集的分词权重。

此外，可使用第一候选短摘要的切词结果中分词的个数除以第一候选短摘要的字数的指数次幂，作为第一候选短摘要的信息冗余度分值，那么所述第一候选短摘要的评分值即为分词重要性分值乘以信息冗余度分值。

可选地，所述第一摘要评价指标除包括上述两个指标外，还可包括第一候选短摘要的可读性和长度折扣。

相应地，在步骤302，还根据第一候选长短摘要中包含的标点符号的个数确定可读性分值。例如，如果第一候选短摘要以逗号或者问号结尾，则可读性分值较小。

此外，可还根据第一候选短摘要中包含的字数确定第一候选短摘要的长度折扣分值。例如，如果第一候选短摘要中包含的字数大于预设阈值，则删除该第一候选短摘要；如果第一候选短摘要中包含的字数小于预设阈值，则可根据第一候选短摘要中包含的字数为其设置长度折扣分值，其中，第一候选短摘要中包含的字数越多，相应的长度折扣分值越小。这样，所述第一候选短摘要的评分值即为分词重要性分值、信息冗余度分值、可读性分值和长度折扣分值的乘积。

可选地，也可通过文章的信息来源对上述得到的评分值进一步加权，相应地，步骤302还包括：对任一第一候选短摘要，根据其所属文章的信息来源对为其计算的评分值进行加权，求得第一候选短摘要的加权评分值。

在步骤303，将评分值最高的第一候选短摘要作为主题文档集的短摘要。

具体处理可参见上述步骤203的相关处理，在此不再赘述。

基于上述步骤301的示例，如果评分值最高的第一候选短摘要为“急寻！与韩国MERS患者同乘到香港、深圳和惠州的旅客”，则可将“急寻！与韩国MERS患者同乘到香港、深圳和惠州的旅客”设置为主题文档集的短摘要。

可选地，对于通过信息来源对为其计算的评分值进行加权的处理，步骤303的处理包括：选取求得的加权评分值最高的第一候选短摘要作为主题文档集的短摘要。

本实施例是对上述实施例一的处理的另一种具体实施方式，示出了生成主题文档集的短摘要的方法，即通过将主题文档集的一篇文章的标题作为第一候选短摘要，并通过预设的句法分析算法对其进行切词，根据切词的结果和预设的第二摘要评价指标得到第一候选短摘要的评分值，将评分值最高的第一候选短摘要选取为主题文档集的短摘要，从而可进一步提高主题文档集的摘要的质量，保证生成的摘要具有较好的可读性。

实施例四

图4为本发明提供的为主题文档集生成摘要的方法另一个实施例的流程图，可视为图2和图3相结合的一种具体的实现方案。

如图4所示，在步骤401，从主题文档集的各篇文章分别提取其标题作为第一候选短摘要。

在步骤402，根据预设的句法分析算法分别对第一候选短摘要进行切词，并且根据切词的结果和预设的第二摘要评价指标计算第一候选短摘要的评分值。

在步骤403，将评分值最高的第一候选短摘要作为主题文档集的短摘要。

上述步骤401～403的步骤内容与上述的步骤301～303的步骤内容对应相同，在此不再赘述。

在此基础上，在步骤404，对主题文档集的任一篇文章，以窗口滑动的方式从文章的内容文本依次获取至少一组连续排列的语句分别作为第一候选长摘要。

在步骤405，根据预设的句法分析算法分别对第一候选长摘要进行切词，并且根据切词的结果和预设的第一摘要评价指标计算第一候选长摘要的评分值。

在步骤406，将评分值最高的第一候选长摘要作为主题文档集的长摘要。

上述步骤404～406的步骤内容与上述的步骤201～203的步骤内容对应相同，在此不再赘述。

为了更形象的说明上述步骤401～406的处理，以下通过示例对其进行说明，示例如下：

文章1：一名爱尔兰游客因拒绝被人妖服务，在泰国遭殴打

近日，在泰国芭提雅红灯区，一名身材壮硕的人妖正拿高跟鞋在街头殴打一名外国游客，导致对方受伤，面部流血。警察赶紧过去制止。经询问得知，该名游客来自爱尔兰，因拒绝被人妖服务而被打。

文章2：游客在泰国致头破血流

据泰国《星暹日报》，近日在泰国芭提雅红灯区，一名身材壮硕的人妖正拿高跟鞋在街头殴打一名外国游客，导致对方受伤，面部流血，警察赶紧过去制止。经询问得知，该名游客来自爱尔兰，因拒绝被人妖服务而被打。

文章3：爱尔兰游客在芭提雅疑因拒绝人妖服务遭殴打

5月3日凌晨，旅游警察在芭提雅夜场巡逻时，看到一名身材壮硕的人妖拿着高跟鞋在一家商店门前击打一名外国游客，且游客已受伤，面部在流血。警察赶紧过去制止。经询问得知，该名游客来自爱尔兰，由于拒绝人妖的服务而被打。

文章4：爱尔兰游客拒绝泰国人妖服务被殴打细节，遭高跟鞋猛打血流满面

警察赶紧过去制止。经询问得知，该名游客来自爱尔兰，由于拒绝人妖的服务而被打。

其中，主题文档集中的分词和其对应的权重可表示为["分词"，权重]，则["人妖"，1055.37]，["游客"，606.22]，["泰国"，569.45]，["爱尔兰"，446.22]，["芭提雅"，373.49]，["警察"，367.51]，["高跟鞋"，328.33]，["壮硕"，216.75]，["流血"，195.25]，["旅游"，165.07]，["面部"，152.24]，["星暹日报"，150]，["受伤"，139.97]，["头破"，123.19]，["夜场"，120.58]，["血流"，115.47]，["外国游客"，109.6]，["泰国人妖"，96.2]，["红灯区"，95.82]，["巡逻"，91.37]，["身材"，60.38]，["外国"，58.6]，["街头"，23.99]，["高跟"，21.35]，["血流满面"，7.2]，["满面"，4.79]，["猛打"，2.81]。

通过上述步骤404的处理后，第一候选长摘要可包括：“近日，在泰国芭提雅红灯区，一名身材壮硕的人妖正拿高跟鞋在街头殴打一名外国游客,导致对方受伤，面部流血。警察赶紧过去制止。经询问得知，该名游客来自爱尔兰，因拒绝被人妖服务而被打”、“据泰国《星暹日报》，近日在泰国芭提雅红灯区，一名身材壮硕的人妖正拿高跟鞋在街头殴打一名外国游客，导致对方受伤，面部流血，警察赶紧过去制止。经询问得知，该名游客来自爱尔兰，因拒绝被人妖服务而被打”、“5月3日凌晨，旅游警察在芭提雅夜场巡逻时，看到一名身材壮硕的人妖拿着高跟鞋在一家商店门前击打一名外国游客，且游客已受伤，面部在流血。警察赶紧过去制止。经询问得知，该名游客来自爱尔兰，由于拒绝人妖的服务而被打”和“警察赶紧过去制止。经询问得知，该名游客来自爱尔兰，由于拒绝人妖的服务而被打”等。

通过上述步骤401的处理后，第一候选短摘要可以包括：“一名爱尔兰游客因拒绝被人妖服务，在泰国遭殴打”、“游客在泰国致头破血流”、“爱尔兰游客在芭提雅疑因拒绝人妖服务遭殴打”和“爱尔兰游客拒绝泰国人妖服务被殴打细节，遭高跟鞋猛打血流满面”等。

通过上述分词的权重和第一摘要评价指标或第二摘要评价指标，分别计算第一候选长摘要和第一候选短摘要的评分值。如果评分值最高的第一候选长摘要为“近日，在泰国芭提雅红灯区，一名身材壮硕的人妖正拿高跟鞋在街头殴打一名外国游客,导致对方受伤，面部流血。警察赶紧过去制止。经询问得知，该名游客来自爱尔兰，因拒绝被人妖服务而被打”；评分值最高的第一候选短摘要为“爱尔兰游客拒绝泰国人妖服务被殴打细节，遭高跟鞋猛打血流满面”，则主题文档集的长摘要为“近日，在泰国芭提雅红灯区，一名身材壮硕的人妖正拿高跟鞋在街头殴打一名外国游客,导致对方受伤，面部流血。警察赶紧过去制止。经询问得知，该名游客来自爱尔兰，因拒绝被人妖服务而被打”；主题文档集的短摘要为“爱尔兰游客拒绝泰国人妖服务被殴打细节，遭高跟鞋猛打血流满面”。

需要指出，上述步骤401～403的处理与步骤404～406的处理的执行顺序可与上述执行顺序不同，例如可先执行步骤404～406的处理，然后再执行步骤401～403的处理，或者，可并行地执行步骤401～403的处理和步骤404～406的处理。

在执行上述实施例的方法步骤的过程中，为了保证得到的长摘要和短摘要的质量和可读性，本实施例还增加了如下步骤(407～409)对得到的主题文档集的摘要(长摘要和短摘要)进行进一步优化的处理。

在步骤407，根据主题文档集的长摘要、短摘要和主题文档集中切出的分词的分布，分别计算主题文档集的分词的分布与长摘要中切出的分词的分布或短摘要中切出的分词的分布之间的相对熵。

通过计算所述相对熵评定所述主题文档集的长摘要和短摘要的质量，以确定所述长摘要和短摘要中质量较高的摘要。具体地，分别计算长摘要和短摘要中切出的分词的分布(可为分词出现次数的概率分布)，并计算主题文档集中分词的分布，然后通过以下公式分别计算所述主题文档集的长摘要和短摘要中切出的分词的分布相对于整个主题文档集中分词的分布的相对熵：

其中，D_KL表示长摘要或短摘要的相对熵，P表示长摘要或短摘要中切出的分词的分布，Q表示主题文档集中分词的分布，i表示长摘要、短摘要或主题文档集中切出的分词的序号。

在步骤408，如果短摘要相对于主题文档集的分词的分布的相对熵低于预定的相对熵阈值，则将长摘要的各个语句分别作为第一候选短摘要，执行候选摘要评分步骤和摘要确定步骤。

具体地，可将短摘要中分词的分布相对于主题文档集中分词的分布的相对熵与预定的相对熵阈值进行比较，如果短摘要中分词的分布相对于主题文档集中分词的分布的相对熵小于预定的相对熵阈值，则可基于第一候选短摘要对应的文章的内容文本，再次获取第一候选短摘要，可通过上述实施例二中的步骤201～203的处理执行从所述长摘要获取短摘要的处理，在此不再赘述。

如果得到的短摘要的相对熵大于标题短摘要对应的相对熵，则使用得到的短摘要代替标题短摘要，否则可删除主题文档集的短摘要；如果短摘要中分词的分布相对于主题文档集中分词的分布的相对熵大于或等于预定的相对熵阈值，则可将该短摘要设置为主题文档集的短摘要。

在步骤409，如果所述长摘要相对于所述主题文档集的分词的分布的相对熵低于预定的第一相对熵阈值，且低于预定的第二相对熵阈值，则将短摘要作为主题文档集的长摘要，其中，第二相对熵阈值为短摘要相对于主题文档集的分词的分布的相对熵。

具体地，如果所述长摘要中分词的分布相对于所述主题文档集中分词的分布的相对熵小于预定的第一相对熵阈值，且所述长摘要中分词的分布相对于主题文档集中分词的分布的相对熵小于短摘要中分词的分布相对于主题文档集中分词的分布的相对熵(即第二相对熵阈值)，则可使用该短摘要代替主题文档集的长摘要，此时，可取消主题文档集的长摘要，例如，删除主题文档集的长摘要等；如果所述长摘要中分词的分布相对于所述主题文档集中分词的分布的相对熵小于预定的第一相对熵阈值，且不小于第二相对熵阈值，则此时无法为主题文档集生成长摘要，或者可认为通过上述步骤404～406的处理得到的长摘要无效。

在步骤410，对所述主题文档集的摘要进行改写，以增强摘要的可读性。

具体地，为了提高得到的主题文档集的摘要的可读性，可对主题文档集的摘要进行改写优化，例如，可将摘要中的空格改写成为逗号，可将该摘要结尾的标点符号改写成句号，还可以将表示日期的预设词语(如“今日”等)改写成当前的日期等。这样，得到的摘要将具有更好的可读性。

基于上述步骤401～406的示例，如果得到的主题文档集的短摘要为“游客在泰国致头破血流”，则通过上述步骤410的处理过程得到的改写后的短摘要可为“游客在泰国，致头破血流。”。

本发明实施例提供的为主题文档集生成摘要的方法，在图2和图3所示实施例的基础上，一方面通过从主题文档集的各篇文章中选取语句和标题作为候选摘要，并通过预设的句法分析算法对得到的候选摘要进行切词，进而对候选摘要进行评分，然后，根据评分得到的值从候选摘要中选取主题文档集的摘要，从而可提高主题文档集的摘要的质量，保证生成的摘要具有较好的可读性；另一方面，通过计算得到的长摘要和短摘要，对主题文档集的摘要进行优化，从而得到最优的摘要作为主题文档集的摘要，从而进一步提高了主题文档集的摘要的质量，保证生成的摘要具有较好的可读性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

实施例五

基于相同的技术构思，本发明实施例还提供了一种为主题文档集生成摘要的装置。如图5所示，该系统包括候选摘要选取模块510、候选摘要评分模块520和摘要确定模块530。

候选摘要选取模块510用于从主题文档集的各篇文章中选取一个和/或多个语句作为候选摘要。

候选摘要评分模块520用于根据预设的句法分析算法分别对候选摘要进行切词，并基于切词结果对候选摘要进行评分。

摘要确定模块530用于将评分所得的值最高的候选摘要作为主题文档集的摘要。

进一步地，候选摘要选取模块510可用于对主题文档集的任一篇文章，以窗口滑动的方式从文章的内容文本依次获取至少一组连续排列的语句分别作为第一候选长摘要，和/或从主题文档集的各篇文章分别提取其标题作为第一候选短摘要。

进一步地，候选摘要评分模块520可用于根据预设的句法分析算法分别对第一候选长摘要进行切词，并且根据切词的结果和预设的第一摘要评价指标计算第一候选长摘要的评分值，和/或根据预设的句法分析算法分别对第一候选短摘要进行切词，并且根据切词的结果和预设的第二摘要评价指标计算第一候选短摘要的评分值。

进一步地，摘要确定模块530可用于将评分值最高的第一候选长摘要作为主题文档集的长摘要，和/或将评分值最高的第一候选短摘要作为主题文档集的短摘要。

此外，在图5所示实施例的基础上，如图6所示的为主题文档集生成摘要的装置还可包括：相对熵获取模块540，用于根据主题文档集的长摘要、短摘要和主题文档集中切出的分词的分布，分别计算主题文档集的分词的分布与长摘要中切出的分词的分布或短摘要中切出的分词的分布之间的相对熵；短摘要优化模块550，用于如果短摘要相对于主题文档集的分词的分布的相对熵低于预定的相对熵阈值，则将长摘要的各个语句分别作为第一候选短摘要，执行候选摘要评分步骤和摘要确定步骤；和/或，长摘要优化模块560，用于如果长摘要相对于主题文档集的分词的分布的相对熵低于预定的第一相对熵阈值，且低于预定的第二相对熵阈值则将短摘要作为主题文档集的长摘要，其中，第二相对熵阈值为短摘要相对于主题文档集的分词的分布的相对熵。

此外，第一摘要评价指标和第二摘要评价指标包括摘要的分词重要性和信息冗余度。

进一步地，第一摘要评价指标还包括第一候选长摘要的可读性和分词序列的平衡性，第二摘要评价指标还包括第一候选短摘要的可读性和长度折扣。

进一步地，候选摘要评分模块520还可用于对任一第一候选长摘要，根据其所属文章的信息来源对为其计算的评分值进行加权，求得第一候选长摘要的加权评分值，

摘要确定模块530还用于选取求得的加权评分值最高的第一候选长摘要作为主题文档集的长摘要。

本发明实施例提供的为主题文档集生成摘要的装置，通过从主题文档集的各篇文章中选取语句作为候选摘要，并通过预设的句法分析算法对得到的候选摘要进行切词，进而对候选摘要进行评分，然后，根据评分得到的值从候选摘要中选取主题文档集的摘要，从而可提高主题文档集的摘要的质量，保证生成的摘要具有较好的可读性。

进一步地，本实施例中，一方面，通过从主题文档集的各篇文章中选取语句和标题作为候选摘要，并通过预设的句法分析算法对得到的候选摘要进行切词，进而对候选摘要进行评分，然后，根据评分得到的值从候选摘要中选取主题文档集的摘要，从而可提高主题文档集的摘要的质量，保证生成的摘要具有较好的可读性；另一方面，通过计算得到的长摘要和短摘要，对主题文档集的摘要进行优化，从而得到最优的摘要作为主题文档集的摘要，从而进一步提高了主题文档集的摘要的质量，保证生成的摘要具有较好的可读性。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

Claims

1.一种为主题文档集生成摘要的方法，其特征在于，所述方法包括：

候选摘要选取步骤：从主题文档集的各篇文章中选取一个和/或多个语句作为候选摘要；

候选摘要评分步骤：根据预设的句法分析算法分别对所述候选摘要进行切词，并基于切词结果对所述候选摘要进行评分；

摘要确定步骤：将所述评分所得的值最高的候选摘要作为所述主题文档集的摘要，

其中，所述候选摘要选取步骤的处理包括：

对所述主题文档集的任一篇文章，以窗口滑动的方式从所述文章的内容文本依次获取至少一组连续排列的语句分别作为第一候选长摘要，和/或

从所述主题文档集的各篇文章分别提取其标题作为第一候选短摘要。

2.根据权利要求1所述的方法，其特征在于，所述候选摘要评分步骤的处理包括：

根据预设的句法分析算法分别对所述第一候选长摘要进行切词，并且根据所述切词的结果和预设的第一摘要评价指标计算所述第一候选长摘要的评分值，和/或

根据预设的句法分析算法分别对所述第一候选短摘要进行切词，并且根据所述切词的结果和预设的第二摘要评价指标计算所述第一候选短摘要的评分值。

3.根据权利要求2所述的方法，其特征在于，所述摘要确定步骤的处理包括：

将所述评分值最高的第一候选长摘要作为所述主题文档集的长摘要，和/或

将所述评分值最高的第一候选短摘要作为所述主题文档集的短摘要。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据所述主题文档集的长摘要、短摘要和所述主题文档集中切出的分词的分布，分别计算所述主题文档集的分词的分布与所述长摘要中切出的分词的分布或所述短摘要中切出的分词的分布之间的相对熵，

如果所述短摘要相对于所述主题文档集的分词的分布的相对熵低于预定的相对熵阈值，则将所述长摘要的各个语句分别作为所述第一候选短摘要，执行所述候选摘要评分步骤和所述摘要确定步骤，和/或

如果所述长摘要相对于所述主题文档集的分词的分布的相对熵低于预定的第一相对熵阈值，且低于预定的第二相对熵阈值，则将所述短摘要作为所述主题文档集的长摘要，其中，所述第二相对熵阈值为所述短摘要相对于所述主题文档集的分词的分布的相对熵。

5.根据权利要求2～4中任一项所述的方法，其特征在于，所述第一摘要评价指标和所述第二摘要评价指标包括摘要的分词重要性和信息冗余度。

6.根据权利要求5所述的方法，其特征在于，所述第一摘要评价指标还包括所述第一候选长摘要的可读性和分词序列的平衡性，所述第二摘要评价指标还包括所述第一候选短摘要的可读性和长度折扣。

7.根据权利要求6所述的方法，其特征在于，所述根据预设的句法分析算法分别对所述第一候选长摘要进行切词，并且根据所述切词的结果和预设的第一摘要评价指标计算所述第一候选长摘要的评分值的处理还包括：

对任一第一候选长摘要，根据其所属文章的信息来源对为其计算的评分值进行加权，求得所述第一候选长摘要的加权评分值，

所述将所述评分值最高的第一候选长摘要作为所述主题文档集的长摘要的处理包括：

选取求得的加权评分值最高的第一候选长摘要作为所述主题文档集的长摘要。

8.一种为主题文档集生成摘要的装置，其特征在于，所述装置包括：

候选摘要选取模块，用于从主题文档集的各篇文章中选取一个和/或多个语句作为候选摘要；

候选摘要评分模块，用于根据预设的句法分析算法分别对所述候选摘要进行切词，并基于切词结果对所述候选摘要进行评分；

摘要确定模块，用于将所述评分所得的值最高的候选摘要作为所述主题文档集的摘要，

其中，所述候选摘要选取模块用于：

9.根据权利要求8所述的装置，其特征在于，所述候选摘要评分模块用于：

10.根据权利要求9所述的装置，其特征在于，所述摘要确定模块用于：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

相对熵获取模块，用于根据所述主题文档集的长摘要、短摘要和所述主题文档集中切出的分词的分布，分别计算所述主题文档集的分词的分布与所述长摘要中切出的分词的分布或所述短摘要中切出的分词的分布之间的相对熵，

短摘要优化模块，用于如果所述短摘要相对于所述主题文档集的分词的分布的相对熵低于预定的相对熵阈值，则将所述长摘要的各个语句分别作为所述第一候选短摘要，执行所述候选摘要评分步骤和所述摘要确定步骤，和/或

长摘要优化模块，用于如果所述长摘要相对于所述主题文档集的分词的分布的相对熵低于预定的第一相对熵阈值，且低于预定的第二相对熵阈值，则将所述短摘要作为所述主题文档集的长摘要，其中，所述第二相对熵阈值为所述短摘要相对于所述主题文档集的分词的分布的相对熵。

12.根据权利要求9～11中任一项所述的装置，其特征在于，所述第一摘要评价指标和所述第二摘要评价指标包括摘要的分词重要性和信息冗余度。

13.根据权利要求12所述的装置，其特征在于，所述第一摘要评价指标还包括所述第一候选长摘要的可读性和分词序列的平衡性，所述第二摘要评价指标还包括所述第一候选短摘要的可读性和长度折扣。

14.根据权利要求13所述的装置，其特征在于，所述候选摘要评分模块还用于：

所述摘要确定模块还用于：