CN108304445A - 一种文本摘要生成方法和装置 - Google Patents
一种文本摘要生成方法和装置 Download PDFInfo
- Publication number
- CN108304445A CN108304445A CN201711281994.9A CN201711281994A CN108304445A CN 108304445 A CN108304445 A CN 108304445A CN 201711281994 A CN201711281994 A CN 201711281994A CN 108304445 A CN108304445 A CN 108304445A
- Authority
- CN
- China
- Prior art keywords
- sentence
- sequence
- text
- similarity
- clause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种文本摘要生成方法和装置。方法包括:将待提取摘要的文本文档中的各个段落进行合并,得到目标文本文档;按照预设的第一切分方法,对目标文本文档进行切分,得到句子集合,所述句子集合包括多个句子;计算句子集合中两两句子之间的相似度;基于句子集合中两两句子之间的相似度,得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重;按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序;基于排序的前N个句子,生成所述文本文档的文本摘要。本申请在兼顾文本处理速度性能的同时,提高了文本摘要生成的准确性。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本摘要生成方法和装置。
背景技术
摘要是能够反映某一文本的中心内容的简单连贯的短文,能够帮助人们在阅读海量文献时缩短阅读时间。
文本摘要生成技术作为有效得浏览和查阅文本的手段之一,得到了快速的发展。文本摘要生成技术是知识管理系统核心功能模块之一,通过知识内容或者知识关键字生成知识摘要。
目前,文本摘要的生成方法几乎完全依赖于关键字,通过采用例如定位文本关键字所在位置的段落的方法,将满足一定字数阈值的段落确定为文本摘要,然而这种文本摘要生成方法无法避免文本中和整篇文本关系比较紧密的干扰句(比如不适合出现在摘要中的句子)的影响,导致生成的文本摘要的准确性较低。
发明内容
有鉴于此,本申请提供一种文本摘要生成方法,在兼顾文本处理速度性能的同时,提高文本摘要生成的准确性。技术方案如下:
基于本申请的一方面,本申请提供一种文本摘要生成方法,包括:
将待提取摘要的文本文档中的各个段落进行合并,得到目标文本文档;
按照预设的第一切分方法,对所述目标文本文档进行切分,得到句子集合,所述句子集合包括多个句子;
计算所述句子集合中两两句子之间的相似度;
基于所述句子集合中两两句子之间的相似度,得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重;
按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序;
基于排序的前N个句子,生成所述文本文档的文本摘要,N为正整数。
可选地,所述基于排序的前N个句子,生成所述文本文档的文本摘要之前,所述方法还包括:
针对所述句子集合中的句子,按照预设的第二切分方法,对所述句子集合中的句子进行切分,得到子句集合,所述子句集合包括至少一个子句,一个子句集合对应一个句子;
将所述句子集合中,子句的平均长度小于预设长度的句子存储至第一资源池中;其中,当所述句子集合中的句子没有被切分时,该没有被切分的句子为所述子句;
将排序后的句子中,属于所述第一资源池的句子滤除。
可选地,所述将所述句子集合中,子句的平均长度小于预设长度的句子存储至第一资源池中之后,所述方法还包括:
基于所述句子集合中各个句子的排序,以及所述句子集合中两两句子之间的相似度,针对所述第一资源池中的第一句子,将在句子排序中,位于所述第一句子的后面,且与所述第一句子的相似度大于预设阈值的句子存储至第二资源池中;其中所述第一句子为所述第一资源池中的任意一个句子;
将排序后的句子中,属于所述第二资源池的句子滤除。
可选地,所述得到句子集合之后,所述方法还包括:
对所述句子集合中的句子进行分词,去除无意义的词语。
可选地,所述方法还包括:
接收用户输入的目标词语;
判断所述目标词语是否存在于排序的句子中;
如果不存在,所述基于排序的前N个句子,生成所述文本文档的文本摘要包括:将排序的前N个句子作为摘要句,生成所述文本文档的文本摘要;
如果存在,所述基于排序的前N个句子,生成所述文本文档的文本摘要包括:将包括所述目标词语的前M个句子,以及除所述前M个句子后余下的句子中的前N-M个句子作为摘要句,生成所述文本文档的文本摘要,M为正整数。
基于本申请的另一方面,本申请还提供一种文本摘要生成装置,包括:
段落合并处理单元,用于将待提取摘要的文本文档中的各个段落进行合并,得到目标文本文档;
第一切分单元,用于按照预设的第一切分方法,对所述目标文本文档进行切分,得到句子集合,所述句子集合包括多个句子;
相似度计算单元,用于计算所述句子集合中两两句子之间的相似度;
相似度权重获取单元,用于基于所述句子集合中两两句子之间的相似度,得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重;
排序单元,用于按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序;
文本摘要生成单元,用于基于排序的前N个句子,生成所述文本文档的文本摘要,N为正整数。
可选地,所述装置还包括:
第二切分单元,用于针对所述句子集合中的句子,按照预设的第二切分方法,对所述句子集合中的句子进行切分,得到子句集合,所述子句集合包括至少一个子句,一个子句集合对应一个句子;
第一处理单元,用于将所述句子集合中,子句的平均长度小于预设长度的句子存储至第一资源池中;其中,当所述句子集合中的句子没有被切分时,该没有被切分的句子为所述子句;
第一滤除单元,用于将排序后的句子中,属于所述第一资源池的句子滤除。
可选地,所述装置还包括:
第二处理单元,用于基于所述句子集合中各个句子的排序,以及所述句子集合中两两句子之间的相似度,针对所述第一资源池中的第一句子,将在句子排序中,位于所述第一句子的后面,且与所述第一句子的相似度大于预设阈值的句子存储至第二资源池中;其中所述第一句子为所述第一资源池中的任意一个句子;
第二滤除单元,用于将排序后的句子中,属于所述第二资源池的句子滤除。
可选地,所述装置还包括:
预处理单元,用于对所述句子集合中的句子进行分词,去除无意义的词语。
可选地,所述装置还包括:
接收单元,用于接收用户输入的目标词语;
判断单元,用于判断所述目标词语是否存在于排序的句子中;
所述文本摘要生成单元具体用于,当所述判断单元判断所述目标词语不存在于排序的句子中时,将排序的前N个句子作为摘要句,生成所述文本文档的文本摘要;当所述判断单元判断所述目标词语存在于排序的句子中时,将包括所述目标词语的前M个句子,以及除所述前M个句子后余下的句子中的前 N-M个句子作为摘要句,生成所述文本文档的文本摘要,M为正整数。
本申请提供的文本摘要生成方法和装置中,将待提取摘要的文本文档中的各个段落进行合并,得到目标文本文档;进而按照预设的第一切分方法,对目标文本文档进行切分,得到句子集合,所述句子集合包括多个句子;计算句子集合中两两句子之间的相似度;基于句子集合中两两句子之间的相似度,得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重;按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序;基于排序的前N个句子,生成所述文本文档的文本摘要。
本申请充分考虑了句子集合中两两句子之间的相似度,以及每个句子相对于句子集合中的其他句子的相似度权重,按照相似度权重由大到小的顺序对句子集合中的句子进行排序,使得文本文档中重要的、能够反映文本文档中心内容的句子排在前位,保证了基于排序的前N个句子,生成的文本文档的文本摘要的准确性。本申请在兼顾文本处理速度性能的同时,提高了文本摘要生成的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种文本摘要生成方法的流程图;
图2为本申请提供的另一种文本摘要生成方法的流程图;
图3为本申请提供的再一种文本摘要生成方法的流程图;
图4为本申请提供的一种文本摘要生成装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
如图1所示,本申请提供的文本摘要生成方法包括:
步骤101,将待提取摘要的文本文档中的各个段落进行合并,得到目标文本文档。
对于待提取摘要的文本文档,本申请首先将该文本文档中的各个段落进行合并,得到目标文本文档。
步骤102,按照预设的第一切分方法,对所述目标文本文档进行切分,得到句子集合,所述句子集合包括多个句子。
在得到目标文本文档后,本申请对该目标文本文档进行切分。具体地,本申请可以按照句子级标点符号,如句号“。”、感叹号“!”、问号“?”等,对目标文本文档进行切分,得到一句子集合。该句子集合包括多个句子。
例如,目标文本文档为“在第三届小学生运动大会上,老校长激动地发表讲话时说到,运动会精神是敢拼搏、坚持到底,高年级、低年纪、所有年纪的小伙伴们都应该学会互帮互助,携手并顺利地完成本届运动会。2015年 12月16日,第三届全省小学生运动大会正式拉开序幕。各学校代表对依次发表演讲表明各自决心。”为例,本申请按照句子级标点符号对该目标文本文档进行切分,得到多个句子,分别为:句子(1)“在第三届小学生运动大会上,老校长激动地发表讲话时说到,运动会精神是敢拼搏、坚持到底,高年级、低年级、所有年纪的小伙伴们都应该学会互帮互助,携手并顺利地完成本届运动会”、句子(2)“2015年12月16日,第三届全省小学生运动大会正式拉开序幕”、句子(3)“各学校代表对依次发表演讲表明各自决心”,由该句子(1)、(2)、(3)构成一句子集合。
作为本申请优选地,本申请在得到句子集合后,可以进一步对该句子集合中的句子进行分词,去除无意义的词语。
具体地,本申请可以利用分词器对句子集合中的各个句子进行分词,去除其中的停用词。
步骤103,计算所述句子集合中两两句子之间的相似度。
在得到句子集合后,本申请分别计算该句子集合中两两句子之间的相似度。仍以前述为例,即具体计算句子(1)与句子(2)间的相似度,句子(1) 与句子(3)间的相似度,句子(2)与句子(3)间的相似度。
步骤104,基于所述句子集合中两两句子之间的相似度,得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重。
本申请中,某个句子的相似度权重表征着该某个句子在目标文本文档中,相比于其他所有句子的关联程度,如果该某个句子的相似度权重越大,说明该某个句子在目标文本文档中的重要度越高。
具体地,本申请中的相似度权重可以为目标文本文档中的某个句子与其他所有句子的相似度之和。
例如,假设句子(1)与句子(2)间的相似度为A1、句子(1)与句子(3) 间的相似度为A2,句子(2)与句子(3)间的相似度为A3,那么句子(1) 的相似度权重为A1+A2,句子(2)的相似度权重为A1+A3,句子(3)的相似度权重为A2+A3。
步骤105,按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序。
在得到句子集合中各个句子的相似度权重后,按照相似度权重由大到小的顺序对句子集合中的句子进行排序,由此可以将文本文档中重要的、能够反映文本文档中心内容的句子排在前位。
作为本申请优选地,本申请将句子集合中的句子排序完成后,可以制作一句子权重列表,该句子权重列表用于展现出各个句子的排序顺序。
步骤106,基于排序的前N个句子,生成所述文本文档的文本摘要,N 为正整数。
在完成对句子集合中句子的排序后,基于排序的前N个句子,生成文本文档的文本摘要。
本申请充分考虑了句子集合中两两句子之间的相似度,以及每个句子相对于句子集合中的其他句子的相似度权重,按照相似度权重由大到小的顺序对句子集合中的句子进行排序,使得文本文档中重要的、能够反映文本文档中心内容的句子排在前位,保证了基于排序的前N个句子,生成的文本文档的文本摘要的准确性。由此,本申请在兼顾文本处理速度性能的同时,提高了文本摘要生成的准确性。
实施例二
为了进一步提高文本摘要生成的准确性,本申请提供了另一种文本摘要生成方法,如图2所示,方法包括:
步骤201,将待提取摘要的文本文档中的各个段落进行合并,得到目标文本文档。
步骤202,按照预设的第一切分方法,对所述目标文本文档进行切分,得到句子集合,所述句子集合包括多个句子。
步骤203,计算所述句子集合中两两句子之间的相似度。
步骤204,基于所述句子集合中两两句子之间的相似度,得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重。
步骤205,按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序。
对于本申请实施例二中的步骤201-步骤205的实现方法与前述实施例一中的步骤101-步骤105的实现方法相同,发明人在此不再赘述。
步骤206,针对所述句子集合中的句子,按照预设的第二切分方法,对所述句子集合中的句子进行切分,得到子句集合,所述子句集合包括至少一个子句。
本申请实施例中,进一步对句子集合中的句子进行了切分。具体地,可以按照短句标点符号,如逗号“,”、分号“;”、顿号“、”等,对句子集合中的句子进行切分,得到一子句集合。该子句集合中至少包括一个子句,且一个子句集合对应一个句子。
可以理解地,如果句子集合中的句子本身就是一个短句,本申请则不对其进行切分。
仍以前述实施例中,句子(1)“在第三届小学生运动大会上,老校长激动地发表讲话时说到,运动会精神是敢拼搏、坚持到底,高年级、低年级、所有年纪的小伙伴们都应该学会互帮互助,携手并顺利地完成本届运动会”、句子(2)“2015年12月16日,第三届全省小学生运动大会正式拉开序幕”、句子(3)“各学校代表对依次发表演讲表明各自决心”为例。
按照短句标点符号对句子(1)进行切分,得到的子句包括:子句(11) “在第三届小学生运动大会上”、子句(12)“老校长激动地发表讲话时说到”、子句(13)“运动会精神是敢拼搏”、子句(14)“坚持到底”、子句(15)“高年级”、子句(16)“低年级”、子句(17)“所有年纪的小伙伴们都应该学会互帮互助”、子句(18)“携手并顺利地完成本届运动会”;
按照短句标点符号对句子(2)进行切分,得到的子句包括:子句(21) “2015年12月16日”、子句(22)“第三届全省小学生运动大会正式拉开序幕”;
由于句子(3)本身就是一个短句,因此不对其进行切分,其对应的子句就是该句子(3)本身,即子句(31)为“各学校代表对依次发表演讲表明各自决心”。
因此,句子(1)对应的子句集合包括子句(11)、子句(12)、子句(13)、子句(14)、子句(15)、子句(16)、子句(17)、和子句(18);句子 (2)对应的子句集合包括子句(21)、子句(22);句子(3)对应的子句集合包括子句(31)。
步骤207,将所述句子集合中,子句的平均长度小于预设长度的句子存储至第一资源池中;其中,当所述句子集合中的句子没有被切分时,该没有被切分的句子为所述子句。
其中预设长度例如为8个字符长度,24个字符长度等,其值大小可根据实际需要灵活设定。
句子的子句的平均长度指的是针对一个句子,该句子对应下的所有子句平均下来的长度。比如一个句子对应三个子句,其第一个子句的长度为6,第二个子句的长度为8,第三个子句的长度为7,那么该句子对应的子句的平均长度为(6+8+7)÷3=7。
针对句子集合,比较句子集合中每个句子对应的子句的平均长度是否小于预设长度,如果小于,则将该句子存储至第一资源池中。为了便于描述,本申请将第一资源池中称之为候选池。
举例来说,假设预设长度为8个字符长度,句子集合中包括句子A、句子B、句子C、句子D。其中句子A对应的子句的平均长度小于8,句子B 对应的子句的平均长度不小于8,句子C对应的子句的平均长度小于8,句子 D对应的子句的平均长度不小于8,由此,本申请会将句子A、句子C存储至候选池中。
需要说明的是,本申请对于步骤206-步骤207同步骤203-步骤205的执行顺序不做限定。可以理解地,在本申请实际应用过程中,步骤206-步骤207 同步骤203-步骤205可能同时执行,也可能先执行步骤206-步骤207,再执行步骤203-步骤205。
步骤208,将排序后的句子中,属于所述第一资源池的句子滤除。
在获得候选池后,本申请针对已排序好的句子,将排序好的句子中,属于候选池的句子滤除。
例如,排序好的句子依次为:句子C、句子A、句子B、句子E、句子D、句子F,候选池中存储有句子A和句子C,由此,本申请会将已经排序好的句子中,句子A和句子C滤除。此时剩下的排序好的句子依次为:句子B、句子E、句子D、句子F,即﹛B、E、D、F﹜。
步骤209,基于排序的前N个句子,生成所述文本文档的文本摘要。
具体地,本申请基于滤除属于候选池的句子A和句子C后的排序好的前N 个句子,如前3个句子,句子B、句子E、句子D,生成文本文档的文本摘要。
在实际应用过程中,过短的子句或句子一般都是没有实际意义的干扰句,本申请将排序后的句子中,子句的平均长度小于预设长度的句子(即过短的句子)滤除,保证了文本摘要生成的准确性。
实施例三
在前述实施例二的基础上,如图3所示,本申请在步骤207之后,方法还可以包括:
步骤210,基于所述句子集合中各个句子的排序,以及所述句子集合中两两句子之间的相似度,针对第一资源池中的第一句子,将在句子排序中,位于所述第一句子的后面,且与所述第一句子的相似度大于预设阈值的句子存储至第二资源池中;其中所述第一句子为所述第一资源池中的任意一个句子。
其中预设阈值例如为0.7、0.8等,其值大小可跟实际需要灵活设定。
为了便于描述,本申请将第二资源池称之为冗余池。
本申请实施例中,假设排序好的句子依次为:句子C、句子A、句子B、句子E、句子D、句子F,候选池中包括句子A和句子C,那么本申请基于已经排序好的各个句子﹛C、A、B、E、D、F﹜,以及之前已计算得到的两两句子之间的相似度,查找出在句子排序中,位于句子A后面的句子,即句子 B、句子E、句子D、句子F,以及在句子排序中,位于句子C后面的句子,即句子A、句子B、句子E、句子D、句子F,进而获取句子A分别与句子B、句子E、句子D、句子F的相似度,以及句子C分别与句子A、句子B、句子E、句子D、句子F的相似度。
进一步假设预设阈值为0.8,句子A与句子B的相似度为0.6、句子A与句子E的相似度为0.85、句子A与句子D的相似度为0.55,句子A与句子F 的相似度为0.77,由此可以确定句子A与句子E的相似度0.85大于预设阈值 0.8,便将句子E存储至冗余池;
句子C与句子A的相似度为0.7、句子C与句子B的相似度为0.5、句子 C与句子E的相似度为0.69、句子C与句子D的相似度为0.71、句子C与句子F的相似度为0.9,由此可以确定句子C与句子F的相似度0.9大于预设阈值0.8,便将句子F存储至冗余池。
步骤211,将排序后的句子中,属于所述第二资源池的句子滤除。
对于排序好的句子﹛C、A、B、E、D、F﹜,本申请实施例中首先基于候选池,将句子A和句子C滤除,对于剩下的排序好的句子﹛B、E、D、F﹜,进一步基于冗余池,将句子E和句子F滤除,此时剩下的排序好的句子为﹛B、 D﹜。
最后基于﹛B、D﹜生成文本文档的文本摘要。
本申请实施例通过设置候选池和冗余池来过滤掉某些干扰性强的语句,保证了文本摘要生成的准确性。
在前述实施例一至实施例三的基础上,本申请还提供一种文本摘要生成方法,方法还可以进一步包括:
步骤301,接收用户输入的目标词语。
优选地,本申请还可以接收用户输入的指定数量N和/或M,由用户指定基于排序的前N或M个句子来生成文本文档的文本摘要。
步骤302,判断所述目标词语是否存在于排序的句子中。如果存在,执行步骤303,如果不存在,执行前述“基于排序的前N个句子,生成所述文本文档的文本摘要”的步骤。
步骤303,将包括所述目标词语的前M个句子,以及除所述前M个句子后余下的句子中的前N-M个句子作为摘要句,生成所述文本文档的文本摘要。
在本申请实施例中,如果用户输入的目标词语不存在于排序的句子中,则直接选取排序的句子中,相似度权重最高的前N句作为摘要句,由此生成文本文档的文本摘要。如果存在,则选取包括所述目标词语的相似度权重最高的前M句,以及除所述前M个句子后余下的句子中,相似度权重最高的前N-M 句作为摘要句,生成文本文档的文本摘要。其中M为正整数,M与N可以相等或不等。
例如,假设排序好的句子为﹛B、D、G、K、H、R、T、L、X、Y、Z﹜,其中句子D、K、L中包括用户输入的目标词语,句子B、G、H、R、T、X、Y、 Z中不包括用户输入的目标词语。那么,
当M不等于N时,具体例如M等于1,N等于3时,本申请从包括用户输入的目标词语的句子D、K、L中,选取相似度权重最高的第一个句子,即句子D;从除句子D后余下的句子﹛B、G、K、H、R、T、L、X、Y、Z﹜中,选取相似度权重最高的前2个句子,即句子B和句子G。
最后将句子D、句子B和句子G作为摘要句,生成文本文档的文本摘要。
当M等于N时,具体例如M等于2,N等于2时,本申请只从包括用户输入的目标词语的句子D、K、L中,选取相似度权重最高的前2个句子,即句子D 和句子K,将句子D、句子K作为摘要句,生成文本文档的文本摘要。
本申请实施例支持人工干预,能够基于人工输入的目标词语选取包括所述目标词语的相似度权重最高的前M句,以及不包括所述目标词语的相似度权重最高的前N-M句子作为摘要句,生成文本文档的文本摘要,这不但提高了文本摘要生成的准确性,还提高了目标词语在文本摘要中出现的概率。
基于前文本申请提供的一种文本摘要生成方法,如图4所示,本申请还提供一种文本摘要生成装置,包括:
段落合并处理单元100,用于将待提取摘要的文本文档中的各个段落进行合并,得到目标文本文档;
第一切分单元200,用于按照预设的第一切分方法,对所述目标文本文档进行切分,得到句子集合,所述句子集合包括多个句子;
相似度计算单元300,用于计算所述句子集合中两两句子之间的相似度;
相似度权重获取单元400,用于基于所述句子集合中两两句子之间的相似度,得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重;
排序单元500,用于按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序;
文本摘要生成单元600,用于基于排序的前N个句子,生成所述文本文档的文本摘要,N为正整数。
优选地,所述装置还可以包括:
第二切分单元,用于针对所述句子集合中的句子,按照预设的第二切分方法,对所述句子集合中的句子进行切分,得到子句集合,所述子句集合包括至少一个子句,一个子句集合对应一个句子;
第一处理单元,用于将所述句子集合中,子句的平均长度小于预设长度的句子存储至第一资源池中;其中,当所述句子集合中的句子没有被切分时,该没有被切分的句子为所述子句;
第一滤除单元,用于将排序后的句子中,属于所述第一资源池的句子滤除。
优选地,所述装置还可以包括:
第二处理单元,用于基于所述句子集合中各个句子的排序,以及所述句子集合中两两句子之间的相似度,针对所述第一资源池中的第一句子,将在句子排序中,位于所述第一句子的后面,且与所述第一句子的相似度大于预设阈值的句子存储至第二资源池中;其中所述第一句子为所述第一资源池中的任意一个句子;
第二滤除单元,用于将排序后的句子中,属于所述第二资源池的句子滤除。
优选地,所述装置还可以包括:
预处理单元,用于对所述句子集合中的句子进行分词,去除无意义的词语。
优选地,所述装置还可以包括:
接收单元,用于接收用户输入的目标词语;
判断单元,用于判断所述目标词语是否存在于排序的句子中;
所述文本摘要生成单元具体用于,当所述判断单元判断所述目标词语不存在于排序的句子中时,将排序的前N个句子作为摘要句,生成所述文本文档的文本摘要;当所述判断单元判断所述目标词语存在于排序的句子中时,将包括所述目标词语的前M个句子,以及除所述前M个句子后余下的句子中的前N-M个句子作为摘要句,生成所述文本文档的文本摘要,M为正整数。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种文本摘要生成方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种文本摘要生成方法,其特征在于,包括:
将待提取摘要的文本文档中的各个段落进行合并,得到目标文本文档;
按照预设的第一切分方法,对所述目标文本文档进行切分,得到句子集合,所述句子集合包括多个句子;
计算所述句子集合中两两句子之间的相似度;
基于所述句子集合中两两句子之间的相似度,得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重;
按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序;
基于排序的前N个句子,生成所述文本文档的文本摘要,N为正整数。
2.根据权利要求1所述的方法,其特征在于,所述基于排序的前N个句子,生成所述文本文档的文本摘要之前,所述方法还包括:
针对所述句子集合中的句子,按照预设的第二切分方法,对所述句子集合中的句子进行切分,得到子句集合,所述子句集合包括至少一个子句,一个子句集合对应一个句子;
将所述句子集合中,子句的平均长度小于预设长度的句子存储至第一资源池中;其中,当所述句子集合中的句子没有被切分时,该没有被切分的句子为所述子句;
将排序后的句子中,属于所述第一资源池的句子滤除。
3.根据权利要求2所述的方法,其特征在于,所述将所述句子集合中,子句的平均长度小于预设长度的句子存储至第一资源池中之后,所述方法还包括:
基于所述句子集合中各个句子的排序,以及所述句子集合中两两句子之间的相似度,针对所述第一资源池中的第一句子,将在句子排序中,位于所述第一句子的后面,且与所述第一句子的相似度大于预设阈值的句子存储至第二资源池中;其中所述第一句子为所述第一资源池中的任意一个句子;
将排序后的句子中,属于所述第二资源池的句子滤除。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述得到句子集合之后,所述方法还包括:
对所述句子集合中的句子进行分词,去除无意义的词语。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
接收用户输入的目标词语;
判断所述目标词语是否存在于排序的句子中;
如果不存在,所述基于排序的前N个句子,生成所述文本文档的文本摘要包括:将排序的前N个句子作为摘要句,生成所述文本文档的文本摘要;
如果存在,所述基于排序的前N个句子,生成所述文本文档的文本摘要包括:将包括所述目标词语的前M个句子,以及除所述前M个句子后余下的句子中的前N-M个句子作为摘要句,生成所述文本文档的文本摘要,M为正整数。
6.一种文本摘要生成装置,其特征在于,包括:
段落合并处理单元,用于将待提取摘要的文本文档中的各个段落进行合并,得到目标文本文档;
第一切分单元,用于按照预设的第一切分方法,对所述目标文本文档进行切分,得到句子集合,所述句子集合包括多个句子;
相似度计算单元,用于计算所述句子集合中两两句子之间的相似度;
相似度权重获取单元,用于基于所述句子集合中两两句子之间的相似度,得到所述句子集合中每个句子相对于所述句子集合中的其他句子的相似度权重;
排序单元,用于按照相似度权重由大到小的顺序对所述句子集合中的句子进行排序;
文本摘要生成单元,用于基于排序的前N个句子,生成所述文本文档的文本摘要,N为正整数。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二切分单元,用于针对所述句子集合中的句子,按照预设的第二切分方法,对所述句子集合中的句子进行切分,得到子句集合,所述子句集合包括至少一个子句,一个子句集合对应一个句子;
第一处理单元,用于将所述句子集合中,子句的平均长度小于预设长度的句子存储至第一资源池中;其中,当所述句子集合中的句子没有被切分时,该没有被切分的句子为所述子句;
第一滤除单元,用于将排序后的句子中,属于所述第一资源池的句子滤除。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二处理单元,用于基于所述句子集合中各个句子的排序,以及所述句子集合中两两句子之间的相似度,针对所述第一资源池中的第一句子,将在句子排序中,位于所述第一句子的后面,且与所述第一句子的相似度大于预设阈值的句子存储至第二资源池中;其中所述第一句子为所述第一资源池中的任意一个句子;
第二滤除单元,用于将排序后的句子中,属于所述第二资源池的句子滤除。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述装置还包括:
预处理单元,用于对所述句子集合中的句子进行分词,去除无意义的词语。
10.根据权利要求6-8任一项所述的装置,其特征在于,所述装置还包括:
接收单元,用于接收用户输入的目标词语;
判断单元,用于判断所述目标词语是否存在于排序的句子中;
所述文本摘要生成单元具体用于,当所述判断单元判断所述目标词语不存在于排序的句子中时,将排序的前N个句子作为摘要句,生成所述文本文档的文本摘要;当所述判断单元判断所述目标词语存在于排序的句子中时,将包括所述目标词语的前M个句子,以及除所述前M个句子后余下的句子中的前N-M个句子作为摘要句,生成所述文本文档的文本摘要,M为正整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711281994.9A CN108304445B (zh) | 2017-12-07 | 2017-12-07 | 一种文本摘要生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711281994.9A CN108304445B (zh) | 2017-12-07 | 2017-12-07 | 一种文本摘要生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304445A true CN108304445A (zh) | 2018-07-20 |
CN108304445B CN108304445B (zh) | 2021-08-03 |
Family
ID=62869728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711281994.9A Active CN108304445B (zh) | 2017-12-07 | 2017-12-07 | 一种文本摘要生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304445B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977219A (zh) * | 2019-03-19 | 2019-07-05 | 国家计算机网络与信息安全管理中心 | 基于启发式规则的文本摘要自动生成方法及装置 |
CN110162618A (zh) * | 2019-02-22 | 2019-08-23 | 北京捷风数据技术有限公司 | 一种非对照语料的文本概要生成方法及装置 |
CN110717333A (zh) * | 2019-09-02 | 2020-01-21 | 平安科技(深圳)有限公司 | 文章摘要自动生成方法、装置及计算机可读存储介质 |
CN110750979A (zh) * | 2019-10-17 | 2020-02-04 | 科大讯飞股份有限公司 | 一种篇章连贯性的确定方法以及检测装置 |
CN111125301A (zh) * | 2019-11-22 | 2020-05-08 | 泰康保险集团股份有限公司 | 文本方法及装置、电子设备和计算机可读存储介质 |
CN111241268A (zh) * | 2020-01-21 | 2020-06-05 | 上海七印信息科技有限公司 | 一种文本摘要自动生成方法 |
CN112711662A (zh) * | 2021-03-29 | 2021-04-27 | 贝壳找房(北京)科技有限公司 | 文本获取方法和装置、可读存储介质、电子设备 |
CN113312475A (zh) * | 2020-02-27 | 2021-08-27 | 北京搜狗科技发展有限公司 | 一种文本相似度确定方法及装置 |
CN113535942A (zh) * | 2021-07-21 | 2021-10-22 | 北京海泰方圆科技股份有限公司 | 一种文本摘要生成方法、装置、设备及介质 |
CN113626584A (zh) * | 2021-08-12 | 2021-11-09 | 中电积至(海南)信息技术有限公司 | 一种自动文本摘要生成方法、系统、计算机设备和存储介质 |
CN113673215A (zh) * | 2021-07-13 | 2021-11-19 | 北京搜狗科技发展有限公司 | 文本的摘要生成方法、装置、电子设备及可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN105005590A (zh) * | 2015-06-29 | 2015-10-28 | 北京信息科技大学 | 一种信息媒介的专题阶段性摘要的生成方法 |
CN105760546A (zh) * | 2016-03-16 | 2016-07-13 | 广州索答信息科技有限公司 | 互联网新闻摘要的自动生成方法和装置 |
CN105868175A (zh) * | 2015-12-03 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 摘要生成方法及装置 |
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
-
2017
- 2017-12-07 CN CN201711281994.9A patent/CN108304445B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN105005590A (zh) * | 2015-06-29 | 2015-10-28 | 北京信息科技大学 | 一种信息媒介的专题阶段性摘要的生成方法 |
CN105868175A (zh) * | 2015-12-03 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 摘要生成方法及装置 |
CN105760546A (zh) * | 2016-03-16 | 2016-07-13 | 广州索答信息科技有限公司 | 互联网新闻摘要的自动生成方法和装置 |
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162618A (zh) * | 2019-02-22 | 2019-08-23 | 北京捷风数据技术有限公司 | 一种非对照语料的文本概要生成方法及装置 |
CN110162618B (zh) * | 2019-02-22 | 2021-09-17 | 北京捷风数据技术有限公司 | 一种非对照语料的文本概要生成方法及装置 |
CN109977219B (zh) * | 2019-03-19 | 2021-04-09 | 国家计算机网络与信息安全管理中心 | 基于启发式规则的文本摘要自动生成方法及装置 |
CN109977219A (zh) * | 2019-03-19 | 2019-07-05 | 国家计算机网络与信息安全管理中心 | 基于启发式规则的文本摘要自动生成方法及装置 |
CN110717333A (zh) * | 2019-09-02 | 2020-01-21 | 平安科技(深圳)有限公司 | 文章摘要自动生成方法、装置及计算机可读存储介质 |
CN110717333B (zh) * | 2019-09-02 | 2024-01-16 | 平安科技(深圳)有限公司 | 文章摘要自动生成方法、装置及计算机可读存储介质 |
CN110750979A (zh) * | 2019-10-17 | 2020-02-04 | 科大讯飞股份有限公司 | 一种篇章连贯性的确定方法以及检测装置 |
CN111125301A (zh) * | 2019-11-22 | 2020-05-08 | 泰康保险集团股份有限公司 | 文本方法及装置、电子设备和计算机可读存储介质 |
CN111241268B (zh) * | 2020-01-21 | 2023-04-14 | 上海七印信息科技有限公司 | 一种文本摘要自动生成方法 |
CN111241268A (zh) * | 2020-01-21 | 2020-06-05 | 上海七印信息科技有限公司 | 一种文本摘要自动生成方法 |
CN113312475A (zh) * | 2020-02-27 | 2021-08-27 | 北京搜狗科技发展有限公司 | 一种文本相似度确定方法及装置 |
CN113312475B (zh) * | 2020-02-27 | 2024-03-15 | 北京搜狗科技发展有限公司 | 一种文本相似度确定方法及装置 |
CN112711662A (zh) * | 2021-03-29 | 2021-04-27 | 贝壳找房(北京)科技有限公司 | 文本获取方法和装置、可读存储介质、电子设备 |
CN113673215A (zh) * | 2021-07-13 | 2021-11-19 | 北京搜狗科技发展有限公司 | 文本的摘要生成方法、装置、电子设备及可读介质 |
CN113535942A (zh) * | 2021-07-21 | 2021-10-22 | 北京海泰方圆科技股份有限公司 | 一种文本摘要生成方法、装置、设备及介质 |
CN113626584A (zh) * | 2021-08-12 | 2021-11-09 | 中电积至(海南)信息技术有限公司 | 一种自动文本摘要生成方法、系统、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108304445B (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304445A (zh) | 一种文本摘要生成方法和装置 | |
Wang et al. | K-adapter: Infusing knowledge into pre-trained models with adapters | |
CN106919655B (zh) | 一种答案提供方法和装置 | |
CN112988969B (zh) | 用于文本检索的方法、装置、设备以及存储介质 | |
CN103995880B (zh) | 交互式搜索方法和装置 | |
CN106844658A (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
JP2019537126A (ja) | マルチドメインリアルタイム質問回答システム | |
Corley et al. | Exploring the use of deep learning for feature location | |
CN106547734A (zh) | 一种问句信息处理方法及装置 | |
CN106055623A (zh) | 一种跨语言推荐方法和系统 | |
US20200073890A1 (en) | Intelligent search platforms | |
CN105608075A (zh) | 一种相关知识点的获取方法及系统 | |
Verberne et al. | Query term suggestion in academic search | |
Patil et al. | Automatic text summarization | |
Aliannejadi et al. | TREC iKAT 2023: The Interactive Knowledge Assistance Track Overview | |
Kessler et al. | Extraction of terminology in the field of construction | |
CN109446520A (zh) | 用于构建知识库的数据聚类方法及装置 | |
CN113434767A (zh) | Ugc文本内容的挖掘方法、系统、设备和存储介质 | |
Pay et al. | An ensemble of automatic keyword extractors: TextRank, RAKE and TAKE | |
Zhu et al. | YUN111@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Dravidian Code Mixed Text. | |
van Schooten et al. | Handling speech input in the ritel QA dialogue system. | |
WO2023098971A1 (en) | Method and apparatus for self-supervised extractive question answering | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
Christie et al. | Multi-document summarization using sentence fusion for Indonesian news articles | |
Kesgin et al. | Development and Comparison of Scoring Functions in Curriculum Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |