CN110888976A - 一种文本摘要生成方法和装置 - Google Patents
一种文本摘要生成方法和装置 Download PDFInfo
- Publication number
- CN110888976A CN110888976A CN201911115181.1A CN201911115181A CN110888976A CN 110888976 A CN110888976 A CN 110888976A CN 201911115181 A CN201911115181 A CN 201911115181A CN 110888976 A CN110888976 A CN 110888976A
- Authority
- CN
- China
- Prior art keywords
- text
- document
- abstract
- candidate abstract
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本摘要生成方法和装置,其中,该方法包括:获取文档的文本内容,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本;提取所述候选摘要文本中各字符的特征向量;根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。通过本发明实施例提供的文本摘要生成方法和装置,可以降低生成文本摘要时的人工成本,并提高了生成文本摘要的效率。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种文本摘要生成方法和装置。
背景技术
目前,随着近几年文本信息的爆发式增长,人们每天都能够接触到海量的文档,如新闻、博客、论文、微博、聊天等,从大量文档信息中提取重要的内容,成为一个迫切需求。生成文本摘要便是一种高效的解决手段,文本摘要旨在文档基础上得到包含文档关键信息的文本摘要。用户通过阅读文本摘要就可以快速了解文档内容。
为了生成文档的文本摘要,可以先将文档输入摘要生成模型中,由摘要生成模型抽取文档中的句子形成文档的待评测文本摘要;然后由人工阅读该文档,总结该文档的中心思想,并以此对文档的上述待评测文本摘要进行修订,最终生成文档的文本摘要。
生成文档的文本摘要过程需要人工参与,具有成本高且效率低的缺陷。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种文本摘要生成方法和装置。
第一方面,本发明实施例提供了一种文本摘要生成方法,包括:
获取文档的文本内容,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本;
提取所述候选摘要文本中各字符的特征向量;
根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。
第二方面,本发明实施例还提供了一种文本摘要生成装置,包括:
获取模块,用于获取文档的文本内容,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本;
提取模块,用于提取所述候选摘要文本中各字符的特征向量;
生成模块,用于根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。
本发明实施例上述第一方面至第二方面提供的方案中,通过从文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本,并根据候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要,与相关技术中生成文档的文本摘要过程需要人工参与的方式相比,可以先通过从文档中提取的多个文本片段形成所述文档的候选摘要文本,然后根据候选摘要文本中各字符的特征向量对候选摘要文本进行修正生成文档的文本摘要,生成文本摘要的过程无需人工参与,降低了生成文本摘要时的人工成本,并提高了生成文本摘要的效率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例1所提供的一种文本摘要生成方法的流程图;
图2示出了本发明实施例2所提供的一种文本摘要生成装置的结构示意图。
具体实施方式
目前,随着近几年文本信息的爆发式增长,人们每天都能够接触到海量的文档,如新闻、博客、论文、微博、聊天等,从大量文档信息中提取重要的内容,成为一个迫切需求。生成文本摘要便是一种高效的解决手段,文本摘要旨在文档基础上得到包含文档关键信息的文本摘要。用户通过阅读文本摘要就可以快速了解文档内容。
为了生成文档的文本摘要,可以先将文档输入摘要生成模型中,由摘要生成模型抽取文档中的句子形成文档的待评测文本摘要;由于抽取后得到的待评测文本摘要忽略了关键词句之间的联系以及更高层级的归纳总结,所以通过摘要生成模型抽取后得到的待评测文本摘要容易忽略文档关键词句之间的联系以及更高层级的归纳总结,导致抽取后得到的待评测文本摘要并不能准确表达文档的含义;所以,需要由人工阅读该文档,总结该文档的中心思想,并根据文档的中心思想对待评测文本摘要进行修订,最终生成文档的文本摘要。生成文档的文本摘要过程需要人工参与,具有成本高且效率低的缺陷。
基于此,本实施例提出一种文本摘要生成方法和装置,先通过从文档中提取的多个文本片段形成所述文档的候选摘要文本,然后根据候选摘要文本中各字符的特征向量对候选摘要文本进行修正生成文档的文本摘要,生成文本摘要的过程无需人工参与,降低了生成文本摘要时使用的人工成本,并提高了生成文本摘要的效率。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请做进一步详细的说明。
实施例1
本实施例提出一种文本摘要生成方法,执行主体是服务器。
所述服务器,可以采用现有技术中任何可以生成文档的文本摘要的计算设备,这里不再一一赘述。
参见图1所示的一种文本摘要生成方法的流程图,本实施例提出一种文本摘要生成方法,包括以下具体步骤:
步骤100、获取文档的文本内容,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本。
在上述步骤100中,服务器获取到文档的文本内容后,可以将文档的文本内容输入到运行在服务器自身的候选文本提取器中,通过候选文本提取器从文档的文本内容中提取出文档的关键词句。
这里,所述文本候选提取器可以是一个多层双向长短时记忆力模型(比如:BiLSTMs),也可以是一个T注意力变换模型。
所述文本候选提取器,从文档的文本内容中提取出文档的关键词句的过程是现有技术,这里不再赘述。
所述候选文本提取器提取出的关键词句,是文本中的多个相互不重叠的文本片段。
在一个实施方式中,所述候选文本提取器可以看作是一个序列标注模型,即该序列标注模型可以使用BIEO(B、I、E、O分别表示关键词句的开始位置 B、关键词句的中间位置I、关键词句的结束位置E、以及不在任何一个关键词句内O)标签。
该序列标注模型接收到文档的文本内容后,可以对文档的文本内容进行编码操作,对文档中的每个字符打上B、I、E、O中的一个标签,这样就可以得到多个表示文档关键词句的文本片段。
比如,所述候选文本提取器对句子“李明撰写一件专利申请”进行编码操作后,对该句子中每个字符打上BIEO的标签的结果是“李/B明/E撰/B写/E 一/O件/O专/B利/I申/I请/E”,那么服务器提取出的关键词句包括:“李明”、“撰写”、“专利申请”;注意这里,提取关键词句的过程还需要去判定标注的合法性。所谓合法标注,就是在任何一对“B……E”标签之间,不能出现除了标签“I”之外的其他标签,比如“BOE”标签、“BBE”标签都是不合法的。换句话说,一个合法的标注必须满足“BI……IE”标签的形式,其中,标签“I”的个数大于等于0。
所述字符,可以是但不限于:字、词组、以及短语。
为了过滤掉提取出的多个文本片段中与文档含义不相关的文本片段,上述步骤100,可以执行以下步骤(1)至步骤(4):
(1)从所述文档的文本内容中提取多个文本片段;
(2)对所述多个文本片段中的各文本片段和所述文档的文本内容分别进行处理,得到各文本片段的第一表示向量和所述文档的文本内容的第二表示向量;
(3)保留所述多个文本片段中第一表示向量与第二表示向量点积为非负数的文本片段;
(4)根据保留的所述文本片段在所述文档中的相对位置,对保留的所述文本片段进行拼接操作,形成所述文档的候选摘要文本。
在上述步骤(1)中,通过候选文本提取器从文档的文本内容中提取出多个文本片段。具体的提取过程如前所述,这里不再赘述。
在提取出多个文本片段后,将多个文本片段中的各文本片段分别输入到服务器中运行的双向长短时记忆模型(BiLSTMs)中,分别训练好各文本片段的编码模型。然后将所述文档的文本内容也输入到上述BiLSTMs中,训练得到所述文档的文本内容的编码模型。
在上述步骤(2)至步骤(3)中,服务器可以使用服务器自身运行的候选文本过滤器,将提取出的多个文本片段中的每个文本片段与文档的文本内容进行比较,并根据比较结果从多个文本片段中确定出与文档含义不相关的文本片段。
在上述步骤(2)中,具体地,所述候选文本过滤器可以使用句对匹配模型,如BiMPM等。所述候选文本过滤器先将多个文本片段中的各文本片段分别发送到各文本片段预先训练好的编码模型中,得到每个文本片段的第一表示向量,并将文档的文本内容发送到文档的文本内容预先训练好的所述文档的文本内容的编码模型中,得到所述文档的文本内容的第二表示向量。
在上述步骤(3)中,具体地,为了将提取出的多个文本片段中的每个文本片段分别与文档的文本内容进行比较,候选文本过滤器获取各文本片段的第一表示向量和所述文档的文本内容的第二表示向量,并进行各文本片段的第一表示向量分别和所述文档的文本内容的第二表示向量的点积计算,将多个文本片段中第一表示向量与第二表示向量点积小于零的文本片段确定为与文档含义不相关的文本片段,从而将多个文本片段中与文档含义不相关的文本片段删除,并保留各文本片段中第一表示向量与第二表示向量点积为非负数(即点积大于等于零)的文本片段。
在上述步骤(4)中,服务器可以采用现有技术中任何的抽象式摘要生成算法,根据保留的所述文本片段在所述文档中的相对位置,对保留的所述文本片段进行拼接操作,形成所述文档的候选摘要文本,这里不再赘述。
通过以上步骤(1)至步骤(4)的内容可以看出,在抽取文档的多个文本片段的基础上,结合使用抽象式摘要生成算法对抽取出的多个文本片段中保留的所述文本片段进行拼接操作,形成所述文档的候选摘要文本,从而可以按照文档的语义,对抽取出的多个文本片段中保留的所述文本片段进行概括,提高自动生成文本摘要的准确率。
步骤102、提取所述候选摘要文本中各字符的特征向量。
在上述步骤102中,可以利用上述BiLSTMs,提取出所述候选摘要文本中各字符的特征向量,具体过程为现有技术,这里不再赘述。
步骤104、根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。
具体地,为了对所述候选摘要文本进行修正,上述步骤104可以执行以下步骤(1)至步骤(7):
(1)根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签;所述操作标签,包括:删除标签、插入标签、替换标签或者保留标签;
(2)当确定当前所述候选摘要文本中各字符的操作标签都是保留标签时,将所述候选摘要文本确定为生成的所述文档的文本摘要;
(3)当确定当前对所述候选摘要文本中各字符的操作标签中存在除所述保留标签外的其他操作标签时,根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本;
(4)对修正操作次数进行增量操作,当所述修正操作次数达到修正操作阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要;
(5)当所述修正操作次数未达到修正操作次数时,通过语言模型对修正后的候选摘要文本进行处理,得到修正后的候选摘要文本的分数;
(6)当所述分数大于等于分数阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要;
(7)当所述分数小于分数阈值时,利用所述修正后的候选摘要文本对所述候选摘要文本进行更新,并返回所述步骤(1)。
在上述步骤(1)中,所述删除标签,用于指示服务器将所述候选摘要文本中具有删除标签的字或词删除。
所述插入标签,用于指示服务器在所述候选摘要文本中具有插入标签的字符之前插入其他的字和/或者词。
所述替换标签,用于指示服务器将所述候选摘要文本中具有替换标签的字符替换成其他的字符。
所述保留标签,用于指示服务器不对所述候选摘要文本中具有保留标签的字符进行任何操作。
针对所述候选摘要文本中的一个字符来说,将所述候选摘要文本中该字符的特征向量输入解码器中,解码器先把该字符的特征向量输入一个四元分类器中,该四元分类器的输出结果就是该字符的操作标签。
具体地,所述四元分类器根据输入的该字符的特征向量,可以先得到该字符执行各操作的处理概率,然后取处理概率最大的操作标签作为当前该字符的操作标签。具体过程是现有技术,这里不再赘述。
如:所述四元分类器得到该字符执行各操作的处理概率如下:删除操作概率=0.2,插入操作概率=0.2,替换操作概率=0.1,保留操作概率=0.5,那么所述四元分类器就可以确定当前该字符的操作标签为保留标签。
当该字符的操作标签是插入标签时,解码器将该字符的语义表示和插入标签输入在服务器中运行的另一个分类器中,就可以得到在该字符之前需要插入的字符。
当该字符的操作标签是替换标签时,解码器将该字符的语义表示和替换标签输入另一个分类器中,就可以得到替换该字符使用的字符。
当该字符的操作标签是删除标签时,解码器向服务器反馈该字符需要删除,对该字符进行删除操作。
当该字符的操作标签是保留标签时,解码器向服务器反馈该字符需要保留,当前不应进行任何操作。
上述另一个分类器根据解码器输入的字符和各种操作标签,在操作标签是插入标签时得到在该字符之前需要插入的字符的过程以及在操作标签是替换标签时得到替换该字符使用的字符的过程,均为现有技术,这里不再赘述。
在上述步骤(2)中,当前对所述候选摘要文本中各字符的操作标签中都是保留标签,说明无需再对所述候选摘要文本进行修正,可以将所述候选摘要文本确定为生成的所述文档的文本摘要。
在上述步骤(4)中,所述修正操作次数和所述修正操作阈值,都缓存在服务器中。
对修正操作次数进行增量操作,就是对当前的所述修正操作次数进行加一操作。
在上述步骤(5)中,在一个实施方式中,所述语言模型,可以采用注意力变换模型。
所述分数,用于表示修正后的候选摘要文本的阅读通顺程度。所述分数越高,说明修正后的候选摘要文本的阅读通顺程度越好。
所述分数阈值,缓存在所述服务器中,用于表示修正后的候选摘要文本阅读起来比较通顺的情况下,候选摘要文本得到的分数。
通过语言模型对修正后的候选摘要文本进行处理,得到修正后的候选摘要文本的分数的过程为现有技术,这里不再赘述。
而且,在对所述候选摘要文本进行修正的过程中,可以通过具体的学习策略去控制字符修正的顺序,比如可以控制服务器先生成主语,再生成谓语;当然也可以让服务器自动学习迭代修正的顺序。再者,因为服务器自动学习修正的顺序就是服务器自身认为最容易学习的顺序,因此可以将服务器的修正顺序解释为“最优”顺序,体现了服务器自动学习迭代修正的顺序的可解释性。
而且,上述步骤(1)至步骤(7)描述的对所述候选摘要文本进行修正的流程,还可以进一步应用到机器翻译和语法纠错等过程中。
综上所述,本实施例提出的一种文本摘要生成方法,通过从文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本,并根据候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要,与相关技术中生成文档的文本摘要过程需要人工参与的方式相比,可以先通过从文档中提取的多个文本片段形成所述文档的候选摘要文本,然后根据候选摘要文本中各字符的特征向量对候选摘要文本进行修正生成文档的文本摘要,生成文本摘要的过程无需人工参与,降低了生成文本摘要时的人工成本,并提高了生成文本摘要的效率。
实施例2
本实施例提出一种文本摘要生成装置,用于执行上述实施例1提出的文本摘要生成方法。
参见图2所示的一种文本摘要生成装置的结构示意图,本实施例提出一种文本摘要生成装置,包括:
获取模块200,用于获取文档的文本内容,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本;
提取模块202,用于提取所述候选摘要文本中各字符的特征向量;
生成模块204,用于根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。
所述获取模块200,具体用于:
从所述文档的文本内容中提取多个文本片段;
对所述多个文本片段中的各文本片段和所述文档的文本内容分别进行处理,得到各文本片段的第一表示向量和所述文档的文本内容的第二表示向量;
保留所述多个文本片段中第一表示向量与第二表示向量点积为非负数的文本片段;
根据保留的所述文本片段在所述文档中的相对位置,对保留的所述文本片段进行拼接操作,形成所述文档的候选摘要文本。
所述生成模块204,具体用于:
根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签;所述操作标签,包括:删除标签、插入标签、替换标签或者保留标签;
根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本;
对修正操作次数进行增量操作,当所述修正操作次数达到修正操作阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要。
所述生成模块204,还具体用于:
当所述修正操作次数未达到修正操作次数时,通过语言模型对修正后的候选摘要文本进行处理,得到修正后的候选摘要文本的分数;
当所述分数大于等于分数阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要;
当所述分数小于分数阈值时,利用所述修正后的候选摘要文本对所述候选摘要文本进行更新,并返回所述根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签步骤。
所述生成模块204,还具体用于:
当确定当前所述候选摘要文本中各字符的操作标签都是保留标签时,将所述候选摘要文本确定为生成的所述文档的文本摘要;
当确定当前对所述候选摘要文本中各字符的操作标签中存在除所述保留标签外的其他操作标签时,继续执行所述根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本步骤。
综上所述,本实施例提出的一种文本摘要生成装置,通过从文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本,并根据候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要,与相关技术中生成文档的文本摘要过程需要人工参与的方式相比,可以先通过从文档中提取的多个文本片段形成所述文档的候选摘要文本,然后根据候选摘要文本中各字符的特征向量对候选摘要文本进行修正生成文档的文本摘要,生成文本摘要的过程无需人工参与,降低了生成文本摘要时的人工成本,并提高了生成文本摘要的效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种文本摘要生成方法,其特征在于,包括:
获取文档的文本内容,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本;
提取所述候选摘要文本中各字符的特征向量;
根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。
2.根据权利要求1所述的方法,其特征在于,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本,包括:
从所述文档的文本内容中提取多个文本片段;
对所述多个文本片段中的各文本片段和所述文档的文本内容分别进行处理,得到各文本片段的第一表示向量和所述文档的文本内容的第二表示向量;
保留所述多个文本片段中第一表示向量与第二表示向量点积为非负数的文本片段;
根据保留的所述文本片段在所述文档中的相对位置,对保留的所述文本片段进行拼接操作,形成所述文档的候选摘要文本。
3.根据权利要求1所述的方法,其特征在于,根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要,包括:
根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签;所述操作标签,包括:删除标签、插入标签、替换标签或者保留标签;
根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本;
对修正操作次数进行增量操作,当所述修正操作次数达到修正操作阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要。
4.根据权利要求3所述的方法,其特征在于,所述根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要,还包括:
当所述修正操作次数未达到修正操作次数时,通过语言模型对修正后的候选摘要文本进行处理,得到修正后的候选摘要文本的分数;
当所述分数大于等于分数阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要;
当所述分数小于分数阈值时,利用所述修正后的候选摘要文本对所述候选摘要文本进行更新,并返回所述根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签步骤。
5.根据权利要求3所述的方法,其特征在于,在所述根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本步骤之前,所述根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要,还包括:
当确定当前所述候选摘要文本中各字符的操作标签都是保留标签时,将所述候选摘要文本确定为生成的所述文档的文本摘要;
当确定当前对所述候选摘要文本中各字符的操作标签中存在除所述保留标签外的其他操作标签时,继续执行所述根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本步骤。
6.一种文本摘要生成装置,其特征在于,包括:
获取模块,用于获取文档的文本内容,从所述文档的文本内容中提取多个文本片段形成所述文档的候选摘要文本;
提取模块,用于提取所述候选摘要文本中各字符的特征向量;
生成模块,用于根据提出的所述候选摘要文本中各字符的特征向量,对所述候选摘要文本进行修正,生成所述文档的文本摘要。
7.根据权利要求6所述的装置,其特征在于,所述获取模块,具体用于:
从所述文档的文本内容中提取多个文本片段;
对所述多个文本片段中的各文本片段和所述文档的文本内容分别进行处理,得到各文本片段的第一表示向量和所述文档的文本内容的第二表示向量;
保留所述多个文本片段中第一表示向量与第二表示向量点积为非负数的文本片段;
根据保留的所述文本片段在所述文档中的相对位置,对保留的所述文本片段进行拼接操作,形成所述文档的候选摘要文本。
8.根据权利要求6所述的装置,其特征在于,所述生成模块,具体用于:
根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签;所述操作标签,包括:删除标签、插入标签、替换标签或者保留标签;
根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本;
对修正操作次数进行增量操作,当所述修正操作次数达到修正操作阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要。
9.根据权利要求8所述的装置,其特征在于,所述生成模块,还具体用于:
当所述修正操作次数未达到修正操作次数时,通过语言模型对修正后的候选摘要文本进行处理,得到修正后的候选摘要文本的分数;
当所述分数大于等于分数阈值时,将所述修正后的候选摘要文本确定为生成的所述文档的文本摘要;
当所述分数小于分数阈值时,利用所述修正后的候选摘要文本对所述候选摘要文本进行更新,并返回所述根据所述候选摘要文本中各字符的特征向量,确定当前所述候选摘要文本中各字符的操作标签步骤。
10.根据权利要求8所述的装置,其特征在于,所述生成模块,还具体用于:
当确定当前所述候选摘要文本中各字符的操作标签都是保留标签时,将所述候选摘要文本确定为生成的所述文档的文本摘要;
当确定当前对所述候选摘要文本中各字符的操作标签中存在除所述保留标签外的其他操作标签时,继续执行所述根据当前所述候选摘要文本中各字符的操作标签对应的修正方式对所述候选摘要文本中各字符进行修正,得到修正后的候选摘要文本步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911115181.1A CN110888976B (zh) | 2019-11-14 | 2019-11-14 | 一种文本摘要生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911115181.1A CN110888976B (zh) | 2019-11-14 | 2019-11-14 | 一种文本摘要生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110888976A true CN110888976A (zh) | 2020-03-17 |
CN110888976B CN110888976B (zh) | 2023-06-20 |
Family
ID=69747544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911115181.1A Active CN110888976B (zh) | 2019-11-14 | 2019-11-14 | 一种文本摘要生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110888976B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818077A (zh) * | 2020-12-31 | 2021-05-18 | 科大讯飞股份有限公司 | 文本处理方法、装置、设备及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070282597A1 (en) * | 2006-06-02 | 2007-12-06 | Samsung Electronics Co., Ltd. | Data summarization method and apparatus |
US20100057710A1 (en) * | 2008-08-28 | 2010-03-04 | Yahoo! Inc | Generation of search result abstracts |
US20140324883A1 (en) * | 2013-04-25 | 2014-10-30 | Hewlett-Packard Development Company L.P. | Generating a Summary Based on Readability |
US20150095311A1 (en) * | 2013-09-30 | 2015-04-02 | International Business Machines Corporation | Crowd-powered self-improving interactive visualanalytics for user-generated opinion data |
CN105183710A (zh) * | 2015-06-23 | 2015-12-23 | 武汉传神信息技术有限公司 | 一种文档摘要自动生成的方法 |
CN105786790A (zh) * | 2014-12-18 | 2016-07-20 | 镇江高科科技信息咨询有限公司 | 一种纸质文本生成装置及方法 |
CN107077509A (zh) * | 2016-11-25 | 2017-08-18 | 深圳前海达闼云端智能科技有限公司 | 一种改进浏览体验的方法、装置和设备 |
US20170277668A1 (en) * | 2016-03-28 | 2017-09-28 | Microsoft Technology Licensing, Llc | Automatic document summarization using search engine intelligence |
CN108280112A (zh) * | 2017-06-22 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
CN108319668A (zh) * | 2018-01-23 | 2018-07-24 | 义语智能科技(上海)有限公司 | 生成文本摘要的方法及设备 |
US10127323B1 (en) * | 2017-07-26 | 2018-11-13 | International Business Machines Corporation | Extractive query-focused multi-document summarization |
CN109726282A (zh) * | 2018-12-26 | 2019-05-07 | 东软集团股份有限公司 | 一种生成文章摘要的方法、装置、设备和存储介质 |
CN109829164A (zh) * | 2019-02-01 | 2019-05-31 | 北京字节跳动网络技术有限公司 | 用于生成文本的方法和装置 |
WO2019148585A1 (zh) * | 2018-02-01 | 2019-08-08 | 深圳市鹰硕技术有限公司 | 会议摘要生成方法以及装置 |
CN110232117A (zh) * | 2019-06-13 | 2019-09-13 | 北京百度网讯科技有限公司 | 句子流畅度检测方法、装置以及终端 |
-
2019
- 2019-11-14 CN CN201911115181.1A patent/CN110888976B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070282597A1 (en) * | 2006-06-02 | 2007-12-06 | Samsung Electronics Co., Ltd. | Data summarization method and apparatus |
US20100057710A1 (en) * | 2008-08-28 | 2010-03-04 | Yahoo! Inc | Generation of search result abstracts |
US20140324883A1 (en) * | 2013-04-25 | 2014-10-30 | Hewlett-Packard Development Company L.P. | Generating a Summary Based on Readability |
US20150095311A1 (en) * | 2013-09-30 | 2015-04-02 | International Business Machines Corporation | Crowd-powered self-improving interactive visualanalytics for user-generated opinion data |
CN105786790A (zh) * | 2014-12-18 | 2016-07-20 | 镇江高科科技信息咨询有限公司 | 一种纸质文本生成装置及方法 |
CN105183710A (zh) * | 2015-06-23 | 2015-12-23 | 武汉传神信息技术有限公司 | 一种文档摘要自动生成的方法 |
US20170277668A1 (en) * | 2016-03-28 | 2017-09-28 | Microsoft Technology Licensing, Llc | Automatic document summarization using search engine intelligence |
CN107077509A (zh) * | 2016-11-25 | 2017-08-18 | 深圳前海达闼云端智能科技有限公司 | 一种改进浏览体验的方法、装置和设备 |
CN108280112A (zh) * | 2017-06-22 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
US10127323B1 (en) * | 2017-07-26 | 2018-11-13 | International Business Machines Corporation | Extractive query-focused multi-document summarization |
CN108319668A (zh) * | 2018-01-23 | 2018-07-24 | 义语智能科技(上海)有限公司 | 生成文本摘要的方法及设备 |
WO2019148585A1 (zh) * | 2018-02-01 | 2019-08-08 | 深圳市鹰硕技术有限公司 | 会议摘要生成方法以及装置 |
CN109726282A (zh) * | 2018-12-26 | 2019-05-07 | 东软集团股份有限公司 | 一种生成文章摘要的方法、装置、设备和存储介质 |
CN109829164A (zh) * | 2019-02-01 | 2019-05-31 | 北京字节跳动网络技术有限公司 | 用于生成文本的方法和装置 |
CN110232117A (zh) * | 2019-06-13 | 2019-09-13 | 北京百度网讯科技有限公司 | 句子流畅度检测方法、装置以及终端 |
Non-Patent Citations (3)
Title |
---|
SANTOSH KUMAR BHARTI, KORRA SATHYA BABU: "Automatic Keyword Extraction for Text Summarization: A Survey", 《 HTTPS://DOI.ORG/10.48550/ARXIV.1704.03242》, pages 1 - 12 * |
方旭;过弋;王祺;樊振;: "核心词修正的Seq2Seq短文摘要", 计算机工程与设计, no. 12 * |
阮光册任金玥: "基于主题层次关系的文献检索结果可视化应用研究", 《图书馆杂志》, vol. 38, no. 5, pages 71 - 78 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818077A (zh) * | 2020-12-31 | 2021-05-18 | 科大讯飞股份有限公司 | 文本处理方法、装置、设备及存储介质 |
CN112818077B (zh) * | 2020-12-31 | 2023-05-30 | 科大讯飞股份有限公司 | 文本处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110888976B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
WO2023093525A1 (zh) | 模型训练方法、中文文本纠错方法、电子设备和存储介质 | |
CN111753531A (zh) | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 | |
CN111753545A (zh) | 嵌套实体识别方法、装置、电子设备和存储介质 | |
CN110826345B (zh) | 一种机器翻译方法和装置 | |
CN111178088A (zh) | 一种面向xml文档的可配置神经机器翻译方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN110633724A (zh) | 意图识别模型动态训练方法、装置、设备和存储介质 | |
CN111160026B (zh) | 一种模型训练方法、装置、实现文本处理的方法及装置 | |
CN113221542A (zh) | 一种基于多粒度融合与Bert筛选的中文文本自动校对方法 | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
CN112417823A (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
CN110705211A (zh) | 文本重点内容标记方法、装置、计算机设备及存储介质 | |
CN114239554A (zh) | 文本断句方法及训练方法、装置、电子设备、存储介质 | |
CN114528840A (zh) | 融合上下文信息的中文实体识别方法、终端及存储介质 | |
CN104331400A (zh) | 一种蒙古文编码转换方法和装置 | |
CN110888976B (zh) | 一种文本摘要生成方法和装置 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN116562240A (zh) | 文本生成方法、计算机设备及计算机存储介质 | |
CN115688703A (zh) | 一种特定领域文本纠错方法、存储介质和装置 | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
CN114528861A (zh) | 一种基于语料库的外语翻译训练方法及装置 | |
CN112270192B (zh) | 一种基于词性和停用词过滤的语义识别方法及系统 | |
CN115033683A (zh) | 摘要生成方法、装置、设备及存储介质 | |
CN114298032A (zh) | 文本标点检测方法、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |