CN104503958A - 文档摘要的生成方法及装置 - Google Patents
文档摘要的生成方法及装置 Download PDFInfo
- Publication number
- CN104503958A CN104503958A CN201410665760.4A CN201410665760A CN104503958A CN 104503958 A CN104503958 A CN 104503958A CN 201410665760 A CN201410665760 A CN 201410665760A CN 104503958 A CN104503958 A CN 104503958A
- Authority
- CN
- China
- Prior art keywords
- document
- candidate sentence
- clause
- sentence
- summary candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种文档摘要的生成方法及装置,其中,该方法包括:获得文档,并使用预设特征对文档进行处理,以获得摘要候选句,其中,预设特征包括摘要关键词、数词、与文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种;对摘要候选句进行压缩处理;以及对压缩处理后的摘要候选句进行后处理,以生成文档的摘要。本发明实施例提供的文档摘要的生成方法及装置,生成的摘要精炼、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成摘要的效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文档摘要的生成方法及装置。
背景技术
随着互联网技术的迅速发展,越来越多的用户越倾向于通过互联网查看新闻信息,目前用户通过移动终端例如手机查看互联网上提供的新闻信息是一种常用方式。然而随着科技的飞速发展,每天在互联网上更新的新闻量非常庞大,类别多样,形式变化多端,人们要在有限的时间内阅读这么多的新闻内容,了解其要点信息是非常困难的事情,并且对于内容量大的新闻,由于移动终端例如手机的屏幕有限,往往手机的首屏中无法展现新闻的全部内容,用户查看不方便,并且用户阅读大量新闻内容后容易忘记前部分新闻内容核心内容,用户查看新闻的用户体验差。
为了方便用户阅读新闻信息,了解新闻的核心内容,现有的展现新闻方式主要是在页面上显示新闻文档对应的标题和对应的一句话摘要或者小于100字的短摘要,移动终端例如智能手机中的新闻客户端上所显示的新闻信息如图1所示。用户通过查看图1中的标题和对应的摘要即可获得新闻的核心内容,当用户对查看的新闻信息感兴趣后,可通过点击对应的新闻标题查看详细新闻。
现有的生成新闻摘要的方式主要有两种方式,第一种方式为人工编辑新闻摘要,编辑人员人工对新闻文档中的内容和结构进行分析,以获得对应新闻文档的摘要,然而,通过人工编辑摘要的方式耗时耗力,新闻摘要更新效率。第二种方式为通过自动摘要系统自动生成摘要,现有的自动摘要系统可根据用户输入的文档,对文档中的段落进行抽取,然而现有的自动生成方式仅能对从段落中抽取到的句子进行简单提取,无法直接生成精炼、准确的新闻摘要。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明第一方面实施例在于提出一种文档摘要的生成方法,该方法生成的摘要精炼、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成摘要的效率。
本发明的第二方面实施例在于提出一种文档摘要的生成装置。
为了实现上述目的,本发明第一方面实施例的文档摘要的生成方法,包括:获得文档,并使用预设特征对所述文档进行处理,以获得摘要候选句,其中,所述预设特征包括摘要关键词、数词、与所述文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种;对所述摘要候选句进行压缩处理;以及对压缩处理后的摘要候选句进行后处理,以生成所述文档的摘要。
根据本发明实施例的文档摘要的生成方法,获得文档,并使用预设特征对文档进行处理,以获得摘要候选句,以及对摘要候选句进行压缩处理,并对压缩处理后的摘要候选句进行后处理,以生成文档的摘要,该实施例生成的摘要精炼、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成摘要的效率。
为了实现上述目的,本发明第二方面实施例的文档摘要的生成装置,包括:获得模块,用于获得文档,并使用预设特征对所述文档进行处理,以获得摘要候选句,其中,所述预设特征包括摘要关键词、数词、与所述文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种;压缩处理,用于对所述摘要候选句进行压缩处理;以及生成模块,用于对压缩处理后的摘要候选句进行后处理,以生成所述文档的摘要。
根据本发明实施例的文档摘要的生成装置,通过获得模块获得文档,并使用预设特征对文档进行处理,以获得摘要候选句,并通过压缩模块对摘要候选句进行压缩处理,以及通过生成模块对压缩处理后的摘要候选句进行后处理,以生成文档的摘要,该实施例生成的摘要精炼、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成摘要的效率。
附图说明
图1是一个包含新闻信息的页面的示意图。
图2是根据本发明一个实施例的文档摘要的生成方法的流程图。
图3是根据本发明一个实施例的摘要文章的示意图。
图4是根据本发明一个实施例的压缩摘要候选句的流程图。
图5是根据本发明一个实施例的文档摘要的生成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的文档摘要的生成方法及装置。
图2是根据本发明一个实施例的文档摘要的生成方法的流程图,如图2所示,该文档摘要的生成方法包括:
S201,获得文档,并使用预设特征对文档进行处理,以获得摘要候选句。
其中,除了使用文本处理的通用特征外,本实施例还针对摘要特点引入预设特征,并使用预设特征对文档进行处理,需要说明的是,上述预设特征为本发明提出的特有特征。该预设特征可以包括但不限于摘要关键词、数词、与文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种。
在该实施例中,获得待生成摘要的文档后,可先对该文档进行预处理,并在预处理后,使用现有的通用特征例如句子位置信息、段落信息、NER等特征对预处理后的文档进行特征提取的同时,还使用预设特征(例如摘要关键词、数词、与文档中包含的标题的距离在预定范围内的句子和子标题等)对预处理后的文档进行特征提取,然后获得所提取特征的权重,并根据权重计算预处理后的文档中每个句子的分数,以及按照分数由高到低的顺序对句子进行排序,根据排序结果获得摘要候选句。
具体地,可基于摘要生成系统中预先保存的词典以及规则词表对以标题和正文形式输入的文档进行预处理,通过预处理可将文档中无效信息去除,例如,可过滤数据中的图标题、报头等无效信息。
在对文档进行预处理后,可基于预设特征对文档进行特征提取,以提取出满足预设特征的句子,针对不同的特征所对应的特征提取方式不同。下面分别对使用摘要关键词、数词、与文档中包含的标题的距离在预定范围内的句子(即标题附近的句子)或者子标题等预设特征对文档进行特征提取的过程进行介绍。
(1)摘要关键词
对于摘要关键词特征,在提取文档中包含关键词的句子的过程中,可根据摘要生成系统中预先保存的摘要关键词表对文档进行处理,具体地,可判断文档中的每个句子中是否包含摘要关键词表中的词语,若文档中的句子中包含摘要关键词表中的词语,则提取对应的句子。其中,所提取出的句子可以成为摘要候选句。
其中,摘要关键词表中保存了一些可以高度概括文档的中心内容的摘要关键词,摘要关键词是指经常出现在摘要中的词语,这些词语可从真实的人工编辑摘要中获得。通过摘要关键词可以准确定位出文档的摘要候选句。摘要关键词表如表1所示,并且表1中仅是摘要关键词表中的部分内容。
表1摘要关键词表
警方 | 目前 | 死亡 |
政府 | 调查 | 国家 |
网友 | 媒体 | 涉嫌 |
表示 | 专家 | 出现 |
问题 | 事件 | 影响 |
例如,标题为“美华裔新生遭兄弟会殴打致死”的文档中包含“在入会仪式中遭到欺凌,警方定为谋杀案。”通过与摘要关键词表中的词语比较,可以确定该句中包含摘要关键词表中的“警方”,因此,包含“警方”的句子可以作为该文档的摘要候选句。
(2)数词
这里的数词是指除日期外的数词,在根据数词提取文档的摘要候选句的过程中,可识别文档中是否包含数词,若文档中包含数词,可将包含数词的句子提取出,对应的句子可以作为文档的摘要候选句。
例如,标题为“巴西世界杯将因天气热设暂停”的文档,可识别文档中是否包含数词,假定该文档中包含“气温超过32度比赛将至少暂停1次,让球员补充水分”的句子,由于该句子中包含数词32和1,因此,可将包含数词的句子提取出。
(3)文档中包含的标题的距离在预定范围内的句子(即标题附近的句子)
通常文档中包含与标题类似的句子,该句子在文档中的位置即是标题在正文中出现的位置,通常该位置的附近的几个句子可以对标题起到很好的补充效果,因此,在文档经过预处理后,可计算标题与文档中的每个句子之间的相似度,并将与标题相似度最高的句子作为标题在文档中的位置,然后从该位置附近提取预设范围内的句子,所提取出的句子即为对应的摘要候选句。例如,可将与标题在文档中的位置相邻的下一个句子提取出,对应的句子即为摘要候选句。
(4)子标题
通常文档中的子标题是对文本中的一个部分内容的高度概括,能够很好的总结相应内容的主旨,也是对标题的一种补充。例如,如图3所示的文档中,通过图3可以看出,该文档中的标题为“如何识别MH370漫天假新闻”,对应的原始摘要为“消息一定要有原始出处,没有的都是耍流氓”通过图3中可以看出该文档中包含了子标题(图3中标注为A的部分),并且子标题中的内容与该文档的原始摘要非常相近,由此可以看出,在提取文档的摘要的过程中,可以对文档中的子标题进行分析。
具体地,在对文档进行预处理后,可判断文档中是否包含子标题,若包含子标题,则提取出包含子标题的句子。
在通过多种特征对文档进行提取后,可基于系统中的特征训练模型,获得所提取特征的权重,并根据权重对提取出的句子进行加权,以获得每个提取出的句子的整体得分,并按照分数由高到低的顺序对句子进行排序,以及将排序在前预设数量例如5的句子作为摘要候选句。
需要说明的是,该实施例在通过特征对文档进行处理,以获得摘要候选句的过程中,不仅使用通用特征对文档进行特征提取,还基于摘要关键词、数词、与文档中包含的标题的距离在预定范围内的句子和子标题等特征对文档进行特征提取,相对于现有的仅基于通用特征对文档进行特征提取的摘要生成系统来说,该实施例所获得的摘要候选句更加准确。
S202,对摘要候选句进行压缩处理。
由于摘要候选句的子句往往存在冗余信息,即对摘要无重要意义的信息,为了可以在有限的长度内使摘要能够包含更多有用信息,提高摘要的质量,在获得摘要候选句后,可以以子句为单位对摘要候选句进行压缩处理。
例如,当前文档的摘要候选句为“使馆工作人员对本报记者表示,目前使馆工作仍照常,暂无撤离打算。”,虽然该摘要候选句中包含了摘要的主要信息,但该摘要候选句中的子句“使馆工作人员对本报记者表示”不能丰富摘要的内容,为了避免摘要候选句的长度超出短摘要的要求,可通过子句压缩方法将摘要候选句中的“使馆工作人员对本报记者表示”去除,仅保留可以丰富摘要内容的子句。通过子句压缩方法对当前文档的摘要候选句进行压缩,所获得的压缩后的摘要候选句为“目前使馆工作仍照常,暂无撤离打算。”由此可以看出,通过子句压缩方法压缩摘要候选句可以在保留有用信息的同时,可以避免现有的摘要系统通过词语压缩方法压缩摘要候选句可能出现的摘要中心词被裁剪掉的问题的发生。
在该实施例中,以子句为单位对摘要候选句进行压缩处理的过程如图4所示,可以包括:
S2021,确定子句区分标识符,并根据子句区分标识符将摘要候选句拆分成子句集合。
其中,上述子句区分标识符可以是逗号、分号等标识符。
例如,文档的摘要候选句为“使馆工作人员对本报记者表示,目前使馆工作仍照常,暂无撤离打算。”在确定子句区分标识符为逗号后,可基于逗号将摘要候选句拆分为多个子句的集合,该摘要候选句对应的子句集合为{使馆工作人员对本报记者表示、目前使馆工作仍照常、暂无撤离打算}。
S2022,基于预设识别特征将子句集合划分为可压缩子句集合和不可压缩子句集合。
其中,上述预设标识特征可以包括但不限于摘要特征、长度特征、依存特征和特殊特征中的一种或者多种,摘要特征可以是高频词权重、高频词数量、命名实体等特征。长度特征是指分别获得子句集合中每个子句的长度范围,通常摘要生成系统中预先设置了四个子句长度范围,分别为0-10,10-20,20-30和30以上四个长度范围。例如,子句集合中的一个子句中包含五个字,由此可以确定该子句长度在长度范围1-10内。
依存特征是指句子中存在依存关系的中心词、主谓关系(SBV,Subject-Verb)、动宾关系等有用信息。为了避免在压缩过程中裁剪掉中心词或者其他有用信息,在对子句分析的过程中,可通过依存分析方法识别出子句中的中心词、主谓关系、动宾关系等有用信息。
特殊特征可以是日期、与标题相同的数字,以及压缩关键词等,例如“报道、今日”等词。
具体地,在对子句集合中的每个子句基于预设标识特征进行特征提取后,可采用线下训练得到的句子压缩模型将子句集合中的每个子句划分为可压缩子句集合和不可压缩子句集合。
S2023,基于预设的规则词表对可压缩子句集合进行修正,并对修正后的可压缩子句集合进行压缩。
具体地,在将子句集合划分为可压缩子句集合和不可压缩子句集合后,该实施例对可压缩子句集合和不可压缩子句集合中的内部结构进行分析,分析发现有些子句之间并非是独立的,而是存在某种关联。通常存在某种关联的两个子句中的信息具有关联性,即存在因果关系,若不对可压缩子句集合中的子句之间的关联关系进行识别,而直接对集合中的子句进行强制压缩,则会损失大量的信息,压缩后的摘要候选句不完整、流畅,并且不能准确概括文档的内容。因此,该实施例在获得可压缩子句集合和不可压缩子句集合后,首先对两个集合中的子句之间的关联关系进行识别,并基于预设的规则词表对存在关联关系的子句进行修正,然后根据修正结果进行压缩处理,例如,将有关联的两个子句一起进行压缩处理。
通常有关联的子句之间由关联词语建立关联关系,为了方便判断子句之间的关联关系,该实施例将关联词进行归纳总结,并预先建立了一个包含关联词的规则词表,然后基于该规则词表对可压缩子句集合中的子句的关联关系进行判断或者对不可压缩子句集合中的子句与可压缩子句集合中的子句的关联关系进行判断,若判断出可压缩子句集合中有两个子句之间存在关联关系,或者判断出不可压缩子句集合中的子句与可压缩子句集合中的子句之间存在关联关系,则不单独压缩对应的子句,一起压缩存在关联关系的子句。
例如,假定预设的规则表中包含关联词“也就”,当前可压缩子句集合中的包含子句为:中美是否会重现2001年飞机相撞的危机,不可压缩子句集合中的包含子句为:也就成了悬在中美关系之上的一把达摩克利斯剑,由于两个子句之间存在关联词“也就”,两个子句之间存在因果关系,因此,在压缩之前可将存在关联关系的这两个子句进行修正,即将可压缩子句集合中的子句“中美是否会重现2001年飞机相撞的危机”加入不可压缩子句集合,在完成修正后,对可压缩子句集合基于子句为单位进行压缩处理。
再例如,假定预设的规则表中包含关联词“在……时”,当前可压缩子句集合中的第一个子句为:自己在千叶县的一条高速公路上驾车行驶时,第二个子句为:“蝙蝠侠”突然从身边飞过。由于两个子句之间存在关联词“在……时”,并通过该关联词形成了因果关系,为了避免压缩后的摘要候选句中出现信息不完整、流畅,在对可压缩集合进行压缩之前,需要对可压缩集合中的这个两个子句进行修正,修正后的这两个子句不会单独被压缩,并根据修正后的结果对可压缩子句集合以子句为单位进行压缩处理。
该实施例通过在对可压缩子句集合进行压缩处理之前,基于预设的规则词表对可压缩子句集进行修正,使得存在关联关系的两个子句不会被单独压缩,不仅保证了压缩后的摘要候选句中的信息的完整性,还可减少摘要候选句的长度,使得摘要候选句的长度满足摘要生成系统对长度的要求。
需要说明的是,摘要生成系统中要求生成的摘要是长度小于或者等于30个字的一句话摘要,或者是长度小于或者等于100个字的由多个句子组成的摘要。
S203,对压缩处理后的摘要候选句进行后处理,以生成文档的摘要。
具体地,在对摘要候选句进行压缩处理后,可对压缩处理后的摘要候选句进行去冗余和重排序处理,以生成文档的摘要。
具体而言,针对压缩处理后的每个摘要候选句,可计算当前摘要候选句与标题的第一相似度,若第一相似度大于第一预设阈值,则删除当前摘要候选句,若第一相似度小于等于第一预设阈值,则保留当前摘要候选句。其中,第一预设阈值是摘要生成系统中预先设置的一个相似度阈值。由此,可将与标题相似的摘要候选句去除,避免了摘要候选句不能补充说明标题的问题的出现。
对于保留的摘要候选句,可计算任意两个保留的摘要候选句之间的第二相似度,若第二相似度大于第二预设阈值,则删除参与计算的一个摘要候选句,若第二相似度小于等于第二预设阈值,则保留参与计算的两个摘要候选句,由此,可将两个相似度比较高的摘要候选句去除,避免生成的摘要中出现冗余信息。其中,第一预设阈值是摘要生成系统中预先设置的一个相似度阈值。
在对保留的摘要候选句进行相似度计算并去重之后,可按照所保留的摘要候选句在文档中出现的顺序依次连接所保留的摘要候选句,生成文档的摘要。通过该实施例的方式生成的摘要精短、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成摘要的效率。
本发明实施的文档摘要的生成方法,获得文档,并使用预设特征对文档进行处理,以获得摘要候选句,以及对摘要候选句进行压缩处理,并对压缩处理后的摘要候选句进行后处理,以生成文档的摘要,该实施例生成的摘要精炼、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成摘要的效率。
为了实现上述实施例,本发明还提出一种文档摘要的生成装置。
图5是根据本发明一个实施例的文档摘要的生成装置的结构示意图。如图5所示,该文档摘要的生成装置包括:获得模块100、压缩处理200和生成模块300,其中:
获得模块100用于获得文档,并使用预设特征对文档进行处理,以获得摘要候选句,其中,预设特征包括摘要关键词、数词、与文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种;压缩处理200用于对摘要候选句进行压缩处理;以及生成模块300用于对压缩处理后的摘要候选句进行后处理,以生成文档的摘要。
上述获得模块100具体用于:对文档进行预处理,使用预设特征对预处理后的文档进行特征提取;获得所提取特征的权重,并根据权重计算预处理后的文档中每个句子的分数;以及按照分数由高到低的顺序对句子进行排序,根据排序结果获得摘要候选句。
上述压缩模块200具体用于:以子句为单位对摘要候选句进行压缩处理。具体地,压缩模块200确定子句区分标识符,并根据子句区分标识符将摘要候选句拆分成子句集合,然后基于预设识别特征将子句集合划分为可压缩子句集合和不可压缩子句集合,以及基于预设的规则词表对可压缩子句集合进行修正,并对修正后的可压缩子句集合进行压缩。该压缩模块200以子句为单位对摘要候选句进行压缩处理的过程可参见图4及其对应的文字描述。
其中,上述子句区分标识符可以是逗号、分号等标识符;上述预设标识特征可以包括摘要特征、长度特征、依存特征和特殊特征中的一种或者多种;上述预设的规则词表中是摘要生成系统中预先保存的关联词,通过该预设的规则词表可以准确确定可压缩子句集合中子句之间的关联关系。
上述生成模块300具体用于:对压缩处理后的摘要候选句进行去冗余和重排序处理,以生成文档的摘要。具体地,生成模块300针对压缩处理后的每个摘要候选句,计算当前摘要候选句与标题的第一相似度,若第一相似度大于第一预设阈值,则删除当前摘要候选句,若第一相似度小于等于第一预设阈值,则保留当前摘要候选句;计算任意两个保留的摘要候选句之间的第二相似度,若第二相似度大于第二预设阈值,则删除参与计算的一个摘要候选句,若第二相似度小于等于第二预设阈值,则保留参与计算的两个摘要候选句;以及按照所保留的摘要候选句在文档中出现的顺序依次连接所保留的摘要候选句,生成文档的摘要。
其中,第一预设阈值和第二预设阈值是系统中预先设置的相似度的阈值,第一预设阈值与第二预设阈值可以相同,也可以不同,该实施例对此不做限定。
包含获得模块100、压缩处理200和生成模块300的文档摘要的生成装置生成文档摘要的过程可参见图2和图4及其对应的文字描述,此处不赘述。
本发明实施的文档摘要的生成装置,通过获得模块获得文档,并使用预设特征对文档进行处理,以获得摘要候选句,并通过压缩模块对摘要候选句进行压缩处理,以及通过生成模块对压缩处理后的摘要候选句进行后处理,以生成文档的摘要,该实施例生成的摘要精炼、准确,并且摘要中不存在冗余信息,生成过程简单,无需人工参与,可大大降低文档的摘要的生成时间,提高文档生成摘要的效率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (12)
1.一种文档摘要的生成方法,其特征在于,包括:
获得文档,并使用预设特征对所述文档进行处理,以获得摘要候选句,其中,所述预设特征包括摘要关键词、数词、与所述文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种;
对所述摘要候选句进行压缩处理;以及
对压缩处理后的摘要候选句进行后处理,以生成所述文档的摘要。
2.根据权利要求1所述的方法,其特征在于,所述使用预设特征对所述文档进行处理,以获得摘要候选句,包括:
对所述文档进行预处理,使用所述预设特征对预处理后的文档进行特征提取;
获得所提取特征的权重,并根据所述权重计算所述预处理后的文档中每个句子的分数;以及
按照分数由高到低的顺序对所述句子进行排序,根据排序结果获得所述摘要候选句。
3.根据权利要求1所述的方法,其特征在于,所述对所述摘要候选句进行压缩处理,包括:
以子句为单位对所述摘要候选句进行压缩处理。
4.根据权利要求1所述的方法,其特征在于,所述对压缩处理后的摘要候选句进行后处理,以生成所述文档的摘要,包括:
对压缩处理后的摘要候选句进行去冗余和重排序处理,以生成所述文档的摘要。
5.根据权利要求3所述的方法,其特征在于,所述以子句为单位对所述摘要候选句进行压缩处理,包括:
确定子句区分标识符,根据所述子句区分标识符将所述摘要候选句拆分成子句集合;
基于预设识别特征将所述子句集合划分为可压缩子句集合和不可压缩子句集合;以及
基于预设的规则词表对可压缩子句集合进行修正,并对修正后的可压缩子句集合进行压缩。
6.根据权利要求4所述的方法,其特征在于,所述对压缩处理后的摘要候选句进行去冗余和重排序处理,以生成所述文档的摘要,包括:
针对压缩处理后的每个摘要候选句,计算当前摘要候选句与所述标题的第一相似度,若所述第一相似度大于第一预设阈值,则删除所述当前摘要候选句,若所述第一相似度小于等于所述第一预设阈值,则保留所述当前摘要候选句;
计算任意两个保留的摘要候选句之间的第二相似度,若所述第二相似度大于第二预设阈值,则删除参与计算的一个摘要候选句,若所述第二相似度小于等于所述第二预设阈值,则保留参与计算的两个摘要候选句;以及
按照所保留的摘要候选句在所述文档中出现的顺序依次连接所保留的摘要候选句,生成所述文档的摘要。
7.一种文档摘要的生成装置,其特征在于,包括:
获得模块,用于获得文档,并使用预设特征对所述文档进行处理,以获得摘要候选句,其中,所述预设特征包括摘要关键词、数词、与所述文档中包含的标题的距离在预定范围内的句子和子标题中的一种或几种;
压缩处理,用于对所述摘要候选句进行压缩处理;以及
生成模块,用于对压缩处理后的摘要候选句进行后处理,以生成所述文档的摘要。
8.根据权利要求7所述的装置,其特征在于,所述获得模块,具体用于:
对所述文档进行预处理,使用所述预设特征对预处理后的文档进行特征提取;获得所提取特征的权重,并根据所述权重计算所述预处理后的文档中每个句子的分数;以及按照分数由高到低的顺序对所述句子进行排序,根据排序结果获得所述摘要候选句。
9.根据权利要求8所述的装置,其特征在于,所述压缩模块,具体用于:
以子句为单位对所述摘要候选句进行压缩处理。
10.根据权利要求7所述的装置,其特征在于,所述生成模块,具体用于:
对压缩处理后的摘要候选句进行去冗余和重排序处理,以生成所述文档的摘要。
11.根据权利要求9所述的装置,其特征在于,所述压缩模块,具体用于:
确定子句区分标识符,根据所述子句区分标识符将所述摘要候选句拆分成子句集合;基于预设识别特征将所述子句集合划分为可压缩子句集合和不可压缩子句集合;以及基于预设的规则词表对可压缩子句集合进行修正,并对修正后的可压缩子句集合进行压缩。
12.根据权利要求10所述的装置,其特征在于,所述生成模块,具体用于:
针对压缩处理后的每个摘要候选句,计算当前摘要候选句与所述标题的第一相似度,若所述第一相似度大于第一预设阈值,则删除所述当前摘要候选句,若所述第一相似度小于等于所述第一预设阈值,则保留所述当前摘要候选句;
计算任意两个保留的摘要候选句之间的第二相似度,若所述第二相似度大于第二预设阈值,则删除参与计算的一个摘要候选句,若所述第二相似度小于等于所述第二预设阈值,则保留参与计算的两个摘要候选句;以及
按照所保留的摘要候选句在所述文档中出现的顺序依次连接所保留的摘要候选句,生成所述文档的摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410665760.4A CN104503958B (zh) | 2014-11-19 | 2014-11-19 | 文档摘要的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410665760.4A CN104503958B (zh) | 2014-11-19 | 2014-11-19 | 文档摘要的生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104503958A true CN104503958A (zh) | 2015-04-08 |
CN104503958B CN104503958B (zh) | 2017-09-26 |
Family
ID=52945356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410665760.4A Active CN104503958B (zh) | 2014-11-19 | 2014-11-19 | 文档摘要的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104503958B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760546A (zh) * | 2016-03-16 | 2016-07-13 | 广州索答信息科技有限公司 | 互联网新闻摘要的自动生成方法和装置 |
CN105975558A (zh) * | 2016-04-29 | 2016-09-28 | 百度在线网络技术(北京)有限公司 | 建立语句编辑模型的方法、语句自动编辑方法及对应装置 |
CN106021226A (zh) * | 2016-05-16 | 2016-10-12 | 中国建设银行股份有限公司 | 一种文本摘要生成方法及装置 |
CN106066867A (zh) * | 2016-05-27 | 2016-11-02 | 东软集团股份有限公司 | 一种提取摘要的方法及装置 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106407182A (zh) * | 2016-09-19 | 2017-02-15 | 国网福建省电力有限公司 | 一种用于企业电子公文文档自动摘要的方法 |
CN106407178A (zh) * | 2016-08-25 | 2017-02-15 | 中国科学院计算技术研究所 | 一种会话摘要生成方法及装置 |
WO2017028407A1 (zh) * | 2015-08-20 | 2017-02-23 | 百度在线网络技术(北京)有限公司 | 一种用于提取文本摘要的方法与设备 |
CN106897267A (zh) * | 2017-02-27 | 2017-06-27 | 广州阿里巴巴文学信息技术有限公司 | 文章缩略文意生成方法、装置及服务器 |
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
CN107766419A (zh) * | 2017-09-08 | 2018-03-06 | 广州汪汪信息技术有限公司 | 一种基于阈值去噪的TextRank文档摘要方法及装置 |
CN107977420A (zh) * | 2017-11-23 | 2018-05-01 | 广东工业大学 | 一种演进式文档的摘要提取方法、装置及可读存储介质 |
CN108182247A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 文摘生成方法和装置 |
CN108280112A (zh) * | 2017-06-22 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
CN109033074A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 新闻摘要生成方法、装置、设备及计算机可读介质 |
CN109471933A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种文本摘要的生成方法、存储介质和服务器 |
CN109597886A (zh) * | 2018-10-23 | 2019-04-09 | 中国科学院自动化研究所 | 抽取生成混合型摘要生成方法 |
CN109740085A (zh) * | 2019-01-10 | 2019-05-10 | 北京字节跳动网络技术有限公司 | 一种页面内容的展示方法、装置、设备及存储介质 |
CN109977219A (zh) * | 2019-03-19 | 2019-07-05 | 国家计算机网络与信息安全管理中心 | 基于启发式规则的文本摘要自动生成方法及装置 |
CN110162595A (zh) * | 2019-03-29 | 2019-08-23 | 深圳市腾讯计算机系统有限公司 | 用于生成文本摘要的方法、装置、设备以及可读存储介质 |
CN112183077A (zh) * | 2020-10-13 | 2021-01-05 | 京华信息科技股份有限公司 | 一种基于模式识别的公文摘要抽取方法及系统 |
CN112231468A (zh) * | 2020-10-15 | 2021-01-15 | 平安科技(深圳)有限公司 | 信息生成方法、装置、电子设备及存储介质 |
US10929452B2 (en) | 2017-05-23 | 2021-02-23 | Huawei Technologies Co., Ltd. | Multi-document summary generation method and apparatus, and terminal |
CN113590811A (zh) * | 2021-08-19 | 2021-11-02 | 平安国际智慧城市科技股份有限公司 | 文本摘要生成方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040230890A1 (en) * | 2003-05-14 | 2004-11-18 | International Business Machines Corporation | Information processing system, control method, control program, and recording medium |
CN1609845A (zh) * | 2003-10-22 | 2005-04-27 | 国际商业机器公司 | 用于改善由机器自动生成的摘要的可读性的方法和装置 |
CN103034657A (zh) * | 2011-09-29 | 2013-04-10 | 日立(中国)研究开发有限公司 | 文档摘要生成方法和装置 |
CN103246687A (zh) * | 2012-06-13 | 2013-08-14 | 苏州大学 | 基于特征信息的Blog自动摘要方法 |
-
2014
- 2014-11-19 CN CN201410665760.4A patent/CN104503958B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040230890A1 (en) * | 2003-05-14 | 2004-11-18 | International Business Machines Corporation | Information processing system, control method, control program, and recording medium |
CN1609845A (zh) * | 2003-10-22 | 2005-04-27 | 国际商业机器公司 | 用于改善由机器自动生成的摘要的可读性的方法和装置 |
CN103034657A (zh) * | 2011-09-29 | 2013-04-10 | 日立(中国)研究开发有限公司 | 文档摘要生成方法和装置 |
CN103246687A (zh) * | 2012-06-13 | 2013-08-14 | 苏州大学 | 基于特征信息的Blog自动摘要方法 |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017028407A1 (zh) * | 2015-08-20 | 2017-02-23 | 百度在线网络技术(北京)有限公司 | 一种用于提取文本摘要的方法与设备 |
CN105760546B (zh) * | 2016-03-16 | 2019-07-30 | 广州索答信息科技有限公司 | 互联网新闻摘要的自动生成方法和装置 |
CN105760546A (zh) * | 2016-03-16 | 2016-07-13 | 广州索答信息科技有限公司 | 互联网新闻摘要的自动生成方法和装置 |
CN105975558B (zh) * | 2016-04-29 | 2018-08-10 | 百度在线网络技术(北京)有限公司 | 建立语句编辑模型的方法、语句自动编辑方法及对应装置 |
CN105975558A (zh) * | 2016-04-29 | 2016-09-28 | 百度在线网络技术(北京)有限公司 | 建立语句编辑模型的方法、语句自动编辑方法及对应装置 |
CN106021226A (zh) * | 2016-05-16 | 2016-10-12 | 中国建设银行股份有限公司 | 一种文本摘要生成方法及装置 |
CN106066867A (zh) * | 2016-05-27 | 2016-11-02 | 东软集团股份有限公司 | 一种提取摘要的方法及装置 |
CN106066867B (zh) * | 2016-05-27 | 2019-08-27 | 东软集团股份有限公司 | 一种提取摘要的方法及装置 |
CN106407178A (zh) * | 2016-08-25 | 2017-02-15 | 中国科学院计算技术研究所 | 一种会话摘要生成方法及装置 |
CN106407178B (zh) * | 2016-08-25 | 2019-08-13 | 中国科学院计算技术研究所 | 一种会话摘要生成方法、装置、服务器设备以及终端设备 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106227722B (zh) * | 2016-09-12 | 2019-07-05 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106407182A (zh) * | 2016-09-19 | 2017-02-15 | 国网福建省电力有限公司 | 一种用于企业电子公文文档自动摘要的方法 |
CN106897267B (zh) * | 2017-02-27 | 2020-06-02 | 广州阿里巴巴文学信息技术有限公司 | 文章缩略文意生成方法、装置及服务器 |
CN106897267A (zh) * | 2017-02-27 | 2017-06-27 | 广州阿里巴巴文学信息技术有限公司 | 文章缩略文意生成方法、装置及服务器 |
CN107133213B (zh) * | 2017-05-06 | 2020-09-25 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
US10929452B2 (en) | 2017-05-23 | 2021-02-23 | Huawei Technologies Co., Ltd. | Multi-document summary generation method and apparatus, and terminal |
CN108280112A (zh) * | 2017-06-22 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
US11409960B2 (en) | 2017-06-22 | 2022-08-09 | Tencent Technology (Shenzhen) Company Limited | Summary generation method, apparatus, computer device, and storage medium |
CN107766419A (zh) * | 2017-09-08 | 2018-03-06 | 广州汪汪信息技术有限公司 | 一种基于阈值去噪的TextRank文档摘要方法及装置 |
CN107766419B (zh) * | 2017-09-08 | 2021-08-31 | 广州汪汪信息技术有限公司 | 一种基于阈值去噪的TextRank文档摘要方法及装置 |
CN107977420A (zh) * | 2017-11-23 | 2018-05-01 | 广东工业大学 | 一种演进式文档的摘要提取方法、装置及可读存储介质 |
CN108182247A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 文摘生成方法和装置 |
CN109033074A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 新闻摘要生成方法、装置、设备及计算机可读介质 |
CN109471933A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种文本摘要的生成方法、存储介质和服务器 |
CN109471933B (zh) * | 2018-10-11 | 2024-05-07 | 平安科技(深圳)有限公司 | 一种文本摘要的生成方法、存储介质和服务器 |
CN109597886A (zh) * | 2018-10-23 | 2019-04-09 | 中国科学院自动化研究所 | 抽取生成混合型摘要生成方法 |
CN109597886B (zh) * | 2018-10-23 | 2021-07-06 | 中国科学院自动化研究所 | 抽取生成混合型摘要生成方法 |
CN109740085A (zh) * | 2019-01-10 | 2019-05-10 | 北京字节跳动网络技术有限公司 | 一种页面内容的展示方法、装置、设备及存储介质 |
CN109740085B (zh) * | 2019-01-10 | 2019-12-24 | 北京字节跳动网络技术有限公司 | 一种页面内容的展示方法、装置、设备及存储介质 |
CN109977219A (zh) * | 2019-03-19 | 2019-07-05 | 国家计算机网络与信息安全管理中心 | 基于启发式规则的文本摘要自动生成方法及装置 |
CN109977219B (zh) * | 2019-03-19 | 2021-04-09 | 国家计算机网络与信息安全管理中心 | 基于启发式规则的文本摘要自动生成方法及装置 |
CN110162595A (zh) * | 2019-03-29 | 2019-08-23 | 深圳市腾讯计算机系统有限公司 | 用于生成文本摘要的方法、装置、设备以及可读存储介质 |
CN110162595B (zh) * | 2019-03-29 | 2023-08-29 | 深圳市腾讯计算机系统有限公司 | 用于生成文本摘要的方法、装置、设备以及可读存储介质 |
CN112183077A (zh) * | 2020-10-13 | 2021-01-05 | 京华信息科技股份有限公司 | 一种基于模式识别的公文摘要抽取方法及系统 |
CN112231468A (zh) * | 2020-10-15 | 2021-01-15 | 平安科技(深圳)有限公司 | 信息生成方法、装置、电子设备及存储介质 |
WO2021174924A1 (zh) * | 2020-10-15 | 2021-09-10 | 平安科技(深圳)有限公司 | 信息生成方法、装置、电子设备及存储介质 |
CN112231468B (zh) * | 2020-10-15 | 2024-09-06 | 平安科技(深圳)有限公司 | 信息生成方法、装置、电子设备及存储介质 |
CN113590811A (zh) * | 2021-08-19 | 2021-11-02 | 平安国际智慧城市科技股份有限公司 | 文本摘要生成方法、装置、电子设备及存储介质 |
CN113590811B (zh) * | 2021-08-19 | 2024-07-05 | 平安国际智慧城市科技股份有限公司 | 文本摘要生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104503958B (zh) | 2017-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104503958A (zh) | 文档摘要的生成方法及装置 | |
CN112328762B (zh) | 基于文本生成模型的问答语料生成方法和装置 | |
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
CN109815487B (zh) | 文本质检方法、电子装置、计算机设备及存储介质 | |
CN109710841B (zh) | 评论推荐方法和装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN106528845B (zh) | 基于人工智能的检索纠错方法及装置 | |
CN109783787A (zh) | 一种结构化文档的生成方法、装置及存储介质 | |
US20170132314A1 (en) | Identifying relevant topics for recommending a resource | |
CN102043843A (zh) | 一种用于基于目标应用获取目标词条的方法与获取设备 | |
CN105095288A (zh) | 数据分析方法及数据分析装置 | |
WO2024182039A1 (en) | Natural language database generation and query system | |
US20210133212A1 (en) | Data archiving method and computing device implementing same | |
CN109472017B (zh) | 获得待生成裁判文书本院认为段相关信息的方法及装置 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN111078893A (zh) | 一种大规模高效获取识别对话意图用语料的方法 | |
CN111507114B (zh) | 基于反向翻译的口语文本增强方法及系统 | |
CN109657043B (zh) | 自动生成文章的方法、装置、设备及存储介质 | |
CN114330335A (zh) | 关键词抽取方法、装置、设备及存储介质 | |
Tardy et al. | Align then summarize: Automatic alignment methods for summarization corpus creation | |
CN111062832A (zh) | 智能提供专利答辩意见的辅助分析方法及装置 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
CN107609094B (zh) | 数据消歧方法、装置及计算机设备 | |
CN111160028A (zh) | 判断两个文本语义相似度的方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20180115 Address after: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer 2 Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. Address before: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer three Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |