CN111782798A - 摘要生成方法、装置和设备以及项目管理方法 - Google Patents
摘要生成方法、装置和设备以及项目管理方法 Download PDFInfo
- Publication number
- CN111782798A CN111782798A CN201910267001.5A CN201910267001A CN111782798A CN 111782798 A CN111782798 A CN 111782798A CN 201910267001 A CN201910267001 A CN 201910267001A CN 111782798 A CN111782798 A CN 111782798A
- Authority
- CN
- China
- Prior art keywords
- abstract
- document
- sentences
- paragraph
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000007726 management method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 56
- 239000013604 expression vector Substances 0.000 claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 14
- 230000001960 triggered effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001172 regenerating effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明实施例提供一种摘要生成方法、装置和设备以及项目管理方法,该方法包括:响应于摘要获取请求,将对应的文档输入至模型,文档已经过段落标记处理和分词处理;通过模型的编码器依次对每个段落中包含的词语进行编码,以得到多个段落的语义表示向量;通过模型的解码器依次对多个段落的语义表示向量进行解码,以得到多个段落各自对应的摘要语句;若获得的全部摘要语句的数量大于预设值,则对全部摘要语句进行优化处理,以从全部摘要语句中筛选出构成文档的第一摘要的目标摘要语句,以使得最终得到的文档摘要长度适宜、质量较高。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种摘要生成方法、装置和设备以及项目管理方法。
背景技术
人们每天可以接触到大量的文本信息,如新闻、报告、论文、博客等。比如在项目研发这种场景中,随着项目的研发进度,可能会产生很多文档,或者会产生内容较长的文档。当比如项目管理者想要了解项目的进展情况时,如果项目管理者仔细阅读全部的文档,势必会花费很长的时间,效率很低。
基于此,文档的创建者可以在创建或更新文档时,为文档创建摘要,以便于其他人能够仅通过阅读文档摘要便了解文档的核心内容。但是,文档创建者自行撰写文档摘要,会比较费时。而且,有些创建者可能仅是从文档中抽取一段话或几句话作为摘要,效果不佳。
发明内容
本发明实施例提供一种摘要生成方法、装置和设备以及项目管理方法,用以实现摘要的自动生成。
第一方面,本发明实施例提供一种摘要生成方法,该方法包括:
响应于摘要获取请求,将对应的文档输入至模型,所述文档已经过段落标记处理和分词处理;
通过模型的编码器依次对每个段落中包含的词语进行编码,以得到多个段落的语义表示向量;
通过所述模型的解码器依次对所述多个段落的语义表示向量进行解码,以得到所述多个段落各自对应的摘要语句;
若获得的全部摘要语句的数量大于预设值,则对所述全部摘要语句进行优化处理,以从所述全部摘要语句中筛选出构成所述文档的第一摘要的目标摘要语句。
第二方面,本发明实施例提供一种摘要生成装置,该装置包括:
获取模块,用于响应于摘要获取请求,将对应的文档输入至模型,所述文档已经过段落标记处理和分词处理;
编码模块,用于通过模型的编码器依次对每个段落中包含的词语进行编码,以得到多个段落的语义表示向量;
解码模块,用于通过所述模型的解码器依次对所述多个段落的语义表示向量进行解码,以得到所述多个段落各自对应的摘要语句;
优化模块,用于若获得的全部摘要语句的数量大于预设值,则对所述全部摘要语句进行优化处理,以从所述全部摘要语句中筛选出构成所述文档的第一摘要的目标摘要语句。
第三方面,本发明实施例提供一种电子设备,包括处理器、存储器,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器至少实现上述第一方面中的摘要生成方法。
第四方面,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现上述第一方面中的摘要生成方法。
第五方面,本发明实施例提供了一种项目管理方法,包括:
响应于针对目标项目触发的摘要获取请求,将所述目标项目对应的文档输入至模型,所述文档已经过段落标记处理和分词处理;
通过模型的编码器依次对所述文档的每个段落中包含的词语进行编码,以得到所述文档中多个段落的语义表示向量;
通过所述模型的解码器依次对所述多个段落的语义表示向量进行解码,以得到所述多个段落各自对应的摘要语句;
若由所述多个段落各自对应的摘要语句构成的全部摘要语句的数量大于预设值,则对所述全部摘要语句进行优化处理,以从所述全部摘要语句中筛选出构成所述文档的摘要的目标摘要语句。
第六方面,本发明实施例提供一种电子设备,包括处理器、存储器,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器至少实现上述第五方面中的项目管理方法。
第七方面,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现上述第五方面中的项目管理方法。
在本发明实施例中,采用由编码器和解码器构成的序列到序列(Sequence-to-Sequence,简称Seq2Seq)架构来为文档进行自动摘要生成处理。具体地,当用户请求想要获得某文档的摘要时,可以将经过预处理的文档输入到模型的编码器中,其中,该预处理包括对文档进行段落标记处理和分词处理。之所以将文档进行段落标记处理即拆分为不同段落,是为了降低摘要生成的难度和保证语义聚合性。编码器接收到经过预处理的文档后,可以根据段落标记识别出一个个段落,进而以一个段落为单位,依次对每个段落中包含的词语进行逐个编码,从而依次得到每个段落的语义表示向量。每个段落的语义表示向量依次输入到模型的解码器中,由解码器依次解码每个段落的语义表示向量,从而依次得到每个段落对应的摘要语句,其中,某个段落对应的摘要语句反映了这个段落的核心内容。如此,最简单地,在获得文档中各个段落对应的摘要语句后,按照段落顺序依次拼接各段落对应的摘要语句即可获得该文档的摘要。但是,为了限制最终文档摘要的长度,当全部段落对应的全部摘要语句的数量大于预设值时,可以进一步对该全部摘要语句进行优化处理,以从全部摘要语句中筛选出构成文档摘要的目标摘要语句,由这些目标摘要语句拼接而成文档摘要,以使得最终得到的文档摘要长度适宜、质量较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一示例性实施例提供的一种摘要生成方法的流程图;
图2为一示例性实施例提供的另一种摘要生成方法的流程图;
图3为一示例性实施例提供的又一种摘要生成方法的流程图;
图4为一示例性实施例提供的一种摘要生成装置的结构示意图;
图5为与图4所示实施例提供的摘要生成装置对应的电子设备的结构示意图;
图6为一示例性实施例提供的一种项目管理方法的流程图;
图7为一示实施例提供的一种用于执行图6所示项目管理方法的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式。除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
在详细介绍本发明各实施例提供的摘要生成方法之前,先对现有技术中自动生成摘要的方案进行介绍。所谓自动生成摘要旨在通过机器为文档自动地输出简洁、保留其中关键信息的摘要。
自动文本摘要(automatic text summarization)可以划分为两类:抽取式和生成式,其中,抽取式摘要是从文档中抽取可以表述文本主要内容的几句话组成摘要。生成式摘要是在理解文档的基础上重述文档的主要内容,产生的语句甚至是词可能并不全存在于文档中,这种方式很像人们自己撰写摘要的过程。而本文提供的摘要生成方法即是一种生成式摘要。
另外,本文中用于生成文档摘要的模型可以采用Seq2Seq架构。Seq2Seq架构由编码器(encoder)和解码器(decoder)组成。笼统地说,编码器负责将输入的文档编码成上下文向量(context vector),该向量是文档内容的一个表征。解码器负责从这个上下文向量中提取出重要信息,以生成文档摘要。
下面结合以下的各个实施例对本文提供的摘要生成方法的执行过程进行说明。该摘要生成方法可以由一电子设备来执行,具体地,该电子设备中可以运行有摘要生成系统,由该摘要生成系统完成摘要生成处理。实际中,该电子设备可以是诸如PC机、笔记本电脑等终端设备,也可以是服务器。该服务器可以是包含一独立主机的物理服务器,或者也可以为主机集群承载的虚拟服务器,或者也可以为云服务器。
其中,上述摘要生成系统中包括下文提及的用于进行摘要生成的模型(为描述方便,以下也可以称为摘要生成模型),当然,在一些实施例中,该摘要生成系统中还可以包括其他功能模块,比如提供摘要优化功能的相关模块。
图1为一示例性实施例提供的一种摘要生成方法的流程图,如图1所示,该方法包括如下步骤:
101、响应于摘要获取请求,将对应的文档输入至模型,文档已经过段落标记处理和分词处理。
可选地,某用户可以在撰写完一篇文档之后,针对撰写完成的文档触发摘要获取请求,即请求为该文档生成摘要。此时,摘要获取请求中可以携带有用户撰写好的该文档,以使得摘要生成系统在接收到该请求后从中获得文档,在对文档进行预处理后输入到用于进行摘要生成的模型中。
可选地,在一些应用场景中,某服务器中可能已经存储了大量的文档,此时,用户可以针对已经存储在服务器中的某个或某些个文档触发摘要获取请求。此时,该摘要获取请求中会携带有指示需要对哪个或哪些个文档进行摘要生成处理的标识信息,以便从数据库中提取出与摘要获取请求对应的文档。在该场景下,服务器中存储的这些文档可以被预先进行了预处理,即服务器中可以存储有经过预处理后的多个文档。
上述预处理包括对文档进行段落标记处理和分词处理。其中,段落标记处理的目的在于将文档按照换行符分割为多个段落,在每个段落的首尾添加标识这是一个段落的标记符,以便摘要生成系统能够识别出各个段落。其中,分词处理是指针对每个段落中包含的各个语句,进行分词处理,得到每条语句中包含的词语,亦即获得每个段落中包含的词语。
之所以将文档进行段落标记处理即拆分为不同段落,是为了降低摘要生成的难度和保证语义聚合性。因为实际上,一个段落往往是在说明某个核心的内容,以段落为单位,能够使得摘要生成模型更好地学习到一个段落的语义信息。
102、通过模型的编码器依次对每个段落中包含的词语进行编码,以得到多个段落的语义表示向量。
103、通过模型的解码器依次对多个段落的语义表示向量进行解码,以得到多个段落各自对应的摘要语句。
本实施例中,需要使用一个已经训练至收敛的模型(可以称为摘要生成模型)来进行摘要生成处理。该摘要生成模型采用由编码器和解码器构成的Seq2Seq架构来实现。
由于文档已经被进行段落标记、分词等预处理,因此,摘要生成模型可以以段落为单位,通过编码器依次对各段落进行编码处理,具体地,是按照段落顺序对每个段落中包含的若干词语依次进行编码处理。针对每个段落,编码器输出的是该段落的语义表示向量。
实际应用中,该编码器可以实现为卷积神经网络(Convolutional NeuralNetworks,简称CNN)、循环神经网络(Recurrent Neural Network,简称RNN)、双向循环神经网络(Bi-directional Recurrent Neural Network,简称Bi-RNN)、长短期记忆(LongShort-Term Memory,简称LSTM)网络、双向长短期记忆(Bi-directional Long Short-TermMemory,简称Bi-LSTM)网络等神经网络中的任一种。为了能够获得段落中语句的上下文信息以便更准确地理解段落的语义,可选地,编码器可以采用Bi-RNN或Bi-LSTM网络。
在每得到一个段落的语义表示向量后,可以将该段落的语义表示向量输入到摘要生成模型的解码器中,由解码器对该段落的语义表示向量进行解码,以得到该段落对应的摘要语句。其中,某个段落对应的摘要语句反映了这个段落的核心思想。
解码器可以实现为RNN、LSTM网络、CNN等。
在一可选实施例中,当通过解码器依次输出文档中每个段落对应的摘要语句后,可以按照段落顺序,将各段落对应的摘要语句拼接在一起即构成该文档的摘要。比如某文档包含3个段落,第一个段落对应的摘要语句为s1、s2,第二个段落对应的摘要语句为s3,第三个段落对应的摘要语句为s4、s5、s6,那么该文档的摘要可以为: 为拼接符号,即由这六条摘要语句拼接而成该文档的摘要。
104、若获得的全部摘要语句的数量大于预设值,则对全部摘要语句进行优化处理,以从全部摘要语句中筛选出构成文档的第一摘要的目标摘要语句。
此处的第一摘要中的“第一”二字是为了与后续其他实施例中的该文档的摘要进行区别。
在一些实际应用中,比如当用户请求生成摘要的文档是个篇幅很长的长文档,又或者,用户请求生成摘要的文档是属于同一文档集中的多个文档即想要同时获取这多个文档的摘要时,此时,最终得到的文档的摘要可能会很长,即可能包含的摘要语句过多,用户体验较差。
为此,本实施例提供了摘要优化方案,以从解码器输出的全部摘要语句中筛选出不超过预设数量的目标摘要语句,以降低最终输出给用户的摘要长度,使得最终得到的文档摘要长度适宜。
其中,该全部摘要语句是对应于用户请求进行摘要生成的某一个文档的。也就是说,当用户请求获取多个文档的摘要时,需要分别对解码器输出的各文档的全部摘要语句进行优化处理。
在进行优化处理过程中,可选地,可以根据如下指标中的至少一个进行优化处理:摘要语句的重要度、摘要语句之间的相似度、摘要语句的新鲜度。
文档的摘要应该具有最重要、最丰富、最新鲜等特点。其中,最重要是指生成的摘要应该包含文档中的最重要的信息。最丰富是指生成的摘要应该包含不同主题的信息,减少信息冗余。最新鲜是指生成的摘要应该包含文档中最新更新的信息,因为文档中的内容可能会被动态更新。
上述最重要的特点通过摘要语句的重要度来衡量,最丰富的特点通过摘要语句之间的相似度来衡量,最新鲜的特点通过摘要语句的新鲜度来衡量。
基于此,当采用上述三种指标来进行摘要优化处理时,在通过解码器得到文档中全部段落对应的全部摘要语句之后,可以针对每个摘要语句进行上述三个指标的计算。
假设第一摘要语句是该全部摘要语句中的任意一个摘要语句,下面介绍第一摘要语句的三种指标的计算过程。
对于摘要语句的重要度的计算:第一摘要语句的重要度可以根据第一摘要语句所包含的各词语在全部摘要语句所包含的全部词语中分别所占的权重确定。
也就是说,对于全部摘要语句中所包含的词语,可以分别计算其中的每个词语的重要度,进而,针对某个摘要语句来说,该摘要语句的重要度则可以将该摘要语句中包含的各词语的重要度进行相加得到。
其中,每个词语的重要度可以采用TextRank方法得到。简单来说,假设上述全部摘要语句由N个摘要语句构成,N大于1。可以对N个摘要语句进行分词和词性标注处理。其中,值得说明的是,当解码器输出各摘要语句的时候是按照逐个词语输出的时候,则可以无需额外进行该分词处理。基于词性标注的结果,可以将其中包含的停用词的权重设置为0或其他很小的默认值,使停用词的权重远小于非停用词的权重。之后,以各非停用词作为节点,基于预设的共现关系窗口(当两个节点对应的词语在长度为L的窗口内共现时,这两个节点之间存在连接边),建立节点之间的连接边,进而基于每个节点的连接边的情况,计算每个节点的权重,亦即得到每个节点对应的词语的权重。
对于摘要语句的新鲜度的计算:第一摘要语句的新鲜度可以根据第一摘要语句所对应的段落的更新时间确定。实际应用中,针对某文档来说,该文档中的内容可能会被动态更新,比如文档的创建者向文档内写入新的内容,或者修改原文档中的某部分内容,而文档的更新结果对文档的摘要生成结果会产生影响,即文档的摘要应该反映出文档中被更新的内容。根据前述摘要生成模型的工作过程可知,编码器的输出结果对应于文档中的一个个段落,相应地,解码器输出的一条摘要语句也是与某个段落对应的,因此,解码器输出的某条摘要语句的新鲜度可以通过该摘要语句对应的段落的更新时间来确定。实际上,可以设定摘要语句的新鲜度与段落的更新时间之间的函数映射关系,从而基于该函数映射关系得到任一摘要语句的新鲜度。
可以理解的是,一个段落对应的摘要语句可能为多个,那么该多个摘要语句由于对应于同一段落,因此该多条摘要语句的新鲜度相同。
对于摘要语句之间相似度的计算:第一摘要语句与第二摘要语句之间的相似度可以根据第一摘要语句中最后一个词语所对应的隐层状态向量与第二摘要语句中最后一个词语所对应的隐层状态向量之间的距离确定。其中,第二摘要语句是全部摘要语句中不同于第一摘要语句的任意一个摘要语句。
可以理解的是,编码器、解码器均可以由某种神经网络组成,比如LSTM网络,而神经网络的组成单元中会包含隐层。文档中某个段落中包含的词语依次输入到编码器中经过编码处理,最终可以将最后一个词语对应的隐层状态作为这个段落的语义表示向量。相应地,解码器对该语义表示向量进行解码的过程中,解码器输出的后一个词语受到前一个词语以及当前时刻解码器的隐层状态的影响,因此,解码器输出某个摘要语句后的隐层状态其实就是第一摘要语句中最后一个词语所对应的隐层状态,而且该隐层状态体现了该摘要语句的语义。由于该隐层状态是以向量的形式表示的,因此可以称为隐层状态向量。通过计算两个摘要语句的隐层状态向量之间的距离,实现了在语义层面对两个摘要语句进行相似度比较。
假设同时采用上述三种指标进行摘要优化处理,那么,在针对上述N个摘要语句都计算得到各自对应的三种指标后,可以根据每个摘要语句的指标情况从N个摘要语句中筛选出K个目标摘要语句,以最终构成文档的摘要。其中,K为大于1的预设值。
从N个摘要语句中筛选出K个目标摘要语句,可以转换为针对N个摘要语句中的任一个摘要语句,是否将该任一个摘要语句筛选出来作为K个目标摘要语句之一的问题。这个问题可以通过求解带约束的整数线性规划(Integer Linear Programming,简称ILP)问题来解决。
具体地,令概率P(Si)∈{0,1}表示是否选择N个摘要语句中的第i个摘要语句,即若选择,则P(Si)=1,反之,P(Si)=0。
从而,可以通过在如下约束条件下求解如下式子来从N个摘要语句中筛选出K个目标摘要语句:
其中,约束条件如下:
P(Si)∈{0,1}
其中,I(Si)为摘要语句Si的重要度,F(Si)为摘要语句Si的新鲜度,sim(Si,Sj)为摘要语句Si与Sj之间的相似度,max为求最大值的运算符。
当然,可以理解的是,当仅采用上述相似度和重要度的指标时,求最大值的式子中的新鲜度F(Si)可以省略。同理,当仅采用上述相似度和新鲜度的指标时,求最大值的式子中的重要度I(Si)可以省略。
通过上述摘要优化处理,可以使得最终输出的文档摘要具有更高的质量。
前文中提到,在服务器中存储有多个文档的情形下,用户可以针对其中的某个文档触发摘要获取请求,也可以针对其中的多个文档同时触发摘要获取请求。下面针对这两种不同的应用场景,介绍两种可选的摘要生成流程。
图2为一示例性实施例提供的另一种摘要生成方法的流程图,如图2所示,该方法可以包括如下步骤:
201、接收摘要获取请求,摘要获取请求中包括某文档的文档标识。
本实施例中介绍用户针对存储在服务器中的某一个文档触发摘要获取请求的场景。比如,当某用户查看服务器中存储的大量文档中的某个文档时,假设该文档较长,该用户为了节省时间,可以通过某用户接口向服务器触发针对该文档的摘要获取请求,以使服务器为用户反馈该文档的摘要,用户通过阅读该摘要了解该文档的核心内容,而无需从头到尾地阅读整个文档。
在该场景下,摘要获取请求中包含的文档标识可以是文档名称等可以唯一性表示该文档的标识。
202、查询该文档的更新时间,以及查询是否已经存在该文档的第二摘要。
203、若已经存在第二摘要,且第二摘要的生成时间晚于文档的更新时间,则输出第二摘要。
204、若已经存在第二摘要,且第二摘要的生成时间早于文档的更新时间;或者,若不存在第二摘要,则在对文档进行段落标记处理和分词处理后输入至模型。
由于文档可能会被动态更新,因此,用户在不同时间获得的摘要可能由于文档内容的更新而会不同。
针对一个文档,服务器可以在每当为该文档生成一个摘要时,存储该摘要以及摘要的生成时间,并且,每当该文档被更新时,也记录文档的更新时间。
基于此,当用户触发上述摘要获取请求而想要获得某文档的摘要时,可以先查询服务器中是否已经存储有该文档的摘要(为区别描述,称为第二摘要)。如果不存在该文档的第二摘要,说明此前从未为该文档生成过摘要,此时,可以将该文档经过段落标记处理和分词处理后输入至摘要生成模型中进行编码、解码处理以便生成该文档的摘要(称为第一摘要)。相反地,如果已经存在该文档的第二摘要,则进一步查询该文档的更新时间以及第二摘要的生成时间,通过比较该文档的更新时间和第二摘要的生成时间来确定是否需要重新为该文档进行摘要生成处理。
具体地,如果第二摘要的生成时间晚于文档的更新时间,说明该第二摘要是在该文档被最后被更新之后才生成的,此时,直接向用户输出该第二摘要即可。而如果第二摘要的生成时间早于文档的更新时间,说明该第二摘要是在该文档被最后被更新之前生成的,文档被最后更新之后还未进行过摘要更新,因此此时,可以将经过段落标记处理和分词处理后的文档输入至摘要生成模型以重新为该文档进行摘要生成处理。
可以理解的是,上述文档的更新时间,是指文档最后被更新的时间,也就是说,当一个文档被多次更新时,记录最后一次更新的更新时间。
205、通过模型的编码器依次对每个段落中包含的词语进行编码,以得到多个段落的语义表示向量;通过模型的解码器依次对多个段落的语义表示向量进行解码,以得到多个段落各自对应的摘要语句。
206、若获得的全部摘要语句的数量大于预设值,则对全部摘要语句进行优化处理,以从全部摘要语句中筛选出构成文档的第一摘要的目标摘要语句。
上述编码、解码、优化过程可以参考前述实施例中的说明,在此不赘述。
207、记录文档的第一摘要的生成时间。
在重新生成了文档的第一摘要后,可以将该第一摘要与其生成时间对应存储到服务器中,以便后续有用户再次针对该文档触发摘要获取请求时,可以执行前述步骤202-204的处理过程。
图3为一示例性实施例提供的又一种摘要生成方法的流程图,如图3所示,该方法可以包括如下步骤:
301、接收摘要获取请求,摘要获取请求中包括某文档集标识。
本实施例中介绍用户针对存储在服务器中的多个文档同时触发摘要获取请求的场景。
实际应用中,该场景比如可以实现为项目管理场景,在项目管理场景中,在某个项目的研发过程中可能会产生众多文档,为便于管理,这些文档可能会被按照某种划分标准存储在不同的目录下,比如某个目录下存储的是项目测试相关的文档,某个目录下存储的是项目设计相关的文档,等等。项目管理人员为了能够快捷地了解其中某个目录下的文档的核心内容,可以针对这个目录触发摘要获取请求。在该场景下,目录即为步骤301的文档集。
302、查询文档集的更新时间,以及查询是否已经存在文档集的第三摘要。
303、若已经存在第三摘要,且第三摘要的生成时间晚于文档集的更新时间,则输出第三摘要。
304、若已经存在第三摘要,且第三摘要的生成时间早于文档集的更新时间,或者,若不存在第三摘要,则将文档集中包含的各文档依次输入至模型,其中,每个文档经过段落标记处理和分词处理。
下面步骤中涉及文档集的更新时间以及文档集的摘要生成时间,先对这两个时间的含义进行说明。
由于一个文档集中往往包括多个文档,而其中的各个文档的更新时间可能不是同步的,因此,可以根据多个文档中的最后更新时间确定文档集的更新时间。
比如,文档集中包括文档1、文档2和文档3这三个文档,文档1的更新时间为T1,文档2的更新时间为T2,文档3的更新时间为T3,其中,T3是这三个时间中最晚的(最新的),则该文档集的更新时间为T3。
由此可见,若文档集中任一文档发生更新,则可以根据该文档的更新时间调整文档集的更新时间。
另外,对于一个文档集来说,该文档集的摘要是由文档集内包含的各文档的摘要拼接而成的。仍以上述三个文档举例,假设文档1的摘要由摘要语句s1和s2构成,文档2的摘要由摘要语句s3构成,文档3的摘要由摘要语句s4和s5构成,那么,文档集的摘要可以由s1、s2、s3、s4和s5组成。
值得说明的是,在形成文档集的摘要时,要求文档集内同一个文档的摘要语句集中在一起排列,不同文档的摘要语句的排序顺序不做严格限定。以上述举例来说,摘要语句s1和s2是对应于同一文档1的,因此,这两个语句应该位置相邻且排序顺序应该按照这两个摘要语句被摘要生成模型的输出顺序来排列。但是,以s3为例,对于s3是排在s1和s2之前以形成[s3、s1、s2、s4和s5],还是排在s4和s5之后以形成[s1、s2、s4、s5、s3],不做严格限定。
前面已经对文档集的更新时间的含义进行了解释,文档集中各文档的更新会影响文档集的更新时间,类似地,文档集的摘要的生成时间也可以受到文档集中各文档的摘要生成时间影响。
具体来说,假设某文档集此前从未被用户触发过摘要获取请求(对应于服务器中不存在上述第三摘要的情形),当某时刻某用户针对该文档集触发了摘要获取请求时,需要对该文档集中的每个文档进行摘要生成处理,以得到每个文档的摘要(每个文档的摘要处理过程如前述其他实施例所述,这里每个文档的摘要即为前述实施例中文档的第一摘要),进而根据文档集中各文档的摘要拼接而成文档集的摘要,那么此时,文档集的摘要生成时间可以为文档集中最后一个文档的摘要生成时间。当然,由于文档集中全部文档的摘要生成过程所消耗的时间不会太长,可以设定一个时间精度,比如小时,将文档集的摘要生成时间确定为开始为该文档集进行摘要生成处理的时间所对应的精度,比如10点10分开始处理,则文档集的摘要生成时间确定为10点。
某文档集初次形成摘要的摘要生成时间可以根据上述过程确定,而在此之后,文档集的摘要生成时间的更新可以根据如下策略执行:
一种策略是,当后续有用户再次触发针对该文档集的摘要获取请求时,服务器比较当前该文档集的更新时间与摘要生成时间,如果更新时间晚于摘要生成时间,说明在上一次摘要生成完毕之后,文档集中有文档被进行了更新。此时,可以根据文档集中各文档的更新时间是否发生改变而确定哪些文档被更新了,基于此,将被更新文档输入至摘要生成模型中以重新生成该被更新文档的摘要语句,进而,将文档集的原摘要中与该被更新文档对应的摘要语句替换为新生成的摘要语句,并将文档集的摘要生成时间调整为重新为该被更新文档生成摘要的时间。
另一种策略是,服务器主动地监测文档集中各文档的更新时间是否发生变化,当发现某个文档的更新时间发生变化时,将该被更新文档输入至摘要生成模型中以重新生成该被更新文档的摘要语句,进而,将文档集的原摘要中与该被更新文档对应的摘要语句替换为新生成的摘要语句,并将文档集的摘要生成时间调整为重新为该被更新文档生成摘要的时间。
综上,文档集中某个文档的摘要生成时间发生变化,可以影响文档集的摘要生成时间。
基于对上述文档集的更新时间以及文档集的摘要及其生成时间的介绍,对于当前某用户针对某文档集触发的摘要获取请求来说,服务器接收到该摘要获取请求后,可以先查询是否已经存在该文档集的摘要(为区别描述,称为第三摘要),若不存在,则将文档集中包含的文档依次输入到摘要生成模型中进行处理,其中,在输入至摘要生成模型之前,每个文档都经过了段落标记处理和分词处理。
相反地,若已经存在第三摘要,则进一步查询文档集的更新时间,进而将该更新时间与第三摘要的生成时间进行比较,若文档集的更新时间早于第三摘要的生成时间,则直接反馈第三摘要给用户即可;若文档集的更新时间晚于第三摘要的生成时间,则同样需要文档集中包含的文档依次输入到摘要生成模型中进行处理。
305、对于当前输入至模型的文档,通过模型的编码器依次对当前文档的每个段落中包含的词语进行编码,以得到多个段落的语义表示向量;通过模型的解码器依次对多个段落的语义表示向量进行解码,以得到当前文档的多个段落各自对应的摘要语句。
306、若当前文档的全部摘要语句的数量大于预设值,则对全部摘要语句进行优化处理,以从全部摘要语句中筛选出构成当前文档的第一摘要的目标摘要语句。
摘要生成模型对文档集中每个文档的处理过程是相同的,都经过上述编码、解码、优化过程,具体的执行过程可以参考前述实施例中的说明,在此不赘述。
307、根据各文档的第一摘要确定文档集的第四摘要,其中,文档集的第四摘要由文档集中包含的各文档的第一摘要拼接而成。
综上,以上各实施例在采用Seq2Seq架构的摘要生成模型为文档生成摘要的过程中,先基于文档的段落结构,以段落为单位由摘要生成模型为文档中的各个段落生成摘要语句,可以更好地学习到文档的段落语义信息。进而,针对文档的全部段落得到的摘要语句,按照多种指标进行优化处理,可以降低文档的摘要长度,提高文档的摘要质量。
以下将详细描述本发明的一个或多个实施例的摘要生成装置。本领域技术人员可以理解,这些摘要生成装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图4为本发明实施例提供的一种摘要生成装置的结构示意图,如图4所示,该装置包括:获取模块11、编码模块12、解码模块13、优化模块14。
获取模块11,用于响应于摘要获取请求,将对应的文档输入至模型,所述文档已经过段落标记处理和分词处理。
编码模块12,用于通过模型的编码器依次对每个段落中包含的词语进行编码,以得到多个段落的语义表示向量。
解码模块13,用于通过所述模型的解码器依次对所述多个段落的语义表示向量进行解码,以得到所述多个段落各自对应的摘要语句。
优化模块14,用于若获得的全部摘要语句的数量大于预设值,则对所述全部摘要语句进行优化处理,以从所述全部摘要语句中筛选出构成所述文档的第一摘要的目标摘要语句。
其中,可选地,可以根据如下指标中的至少一个进行所述优化处理:摘要语句的重要度、摘要语句之间的相似度、摘要语句的新鲜度。
具体地,对于第一摘要语句,所述第一摘要语句的重要度根据所述第一摘要语句所包含的各词语在所述全部摘要语句所包含的全部词语中分别所占的权重确定。
所述第一摘要语句的新鲜度根据所述第一摘要语句所对应的段落的更新时间确定。
所述第一摘要语句与第二摘要语句之间的相似度根据所述第一摘要语句中最后一个词语所对应的隐层状态向量与所述第二摘要语句中最后一个词语所对应的隐层状态向量之间的距离确定。
其中,所述第一摘要语句和所述第二摘要语句是所述全部摘要语句中的任意两个摘要语句。
在一可选实施例中,所述摘要获取请求中包括对应于所述文档的文档标识,所述装置还包括:查询模块,用于查询所述文档的更新时间,以及查询是否已经存在所述文档的第二摘要;若已经存在所述第二摘要,且所述第二摘要的生成时间晚于所述文档的更新时间,则输出所述第二摘要;若已经存在所述第二摘要,且所述第二摘要的生成时间早于所述文档的更新时间;或者,若不存在所述第二摘要,则将所述文档输入至所述模型。
其中,查询模块还可以用于:记录所述第一摘要的生成时间。
在另一可选实施例中,所述摘要获取请求中包括所述文档归属的文档集的标识,此时,所述查询模块还可以用于:查询所述文档集的更新时间,以及查询是否已经存在所述文档集的第三摘要;若已经存在所述第三摘要,且所述第三摘要的生成时间晚于所述文档集的更新时间,则输出所述第三摘要;若已经存在所述第三摘要,且所述第三摘要的生成时间早于所述文档集的更新时间;或者,若不存在所述第三摘要,则将所述文档集中包含的各文档依次输入至所述模型。
在该实施例中,所述优化模块14还可以用于:根据所述文档的第一摘要确定所述文档集的第四摘要,其中,所述文档集的第四摘要由所述文档集中包含的各文档的摘要拼接而成。
在该实施例中,所述查询模块还可以用于:若所述文档发生更新,则根据所述文档的更新时间调整所述文档集的更新时间。
在该实施例中,所述查询模块还可以用于:根据所述文档的第一摘要的生成时间,更新所述文档集的第四摘要的生成时间。
图4所示装置可以执行前述各实施例提供的方法,本实施例未详细描述的部分,可参考前述实施例的相关说明,在此不再赘述。
在一个可能的设计中,上述图4所示的摘要生成装置的结构可实现为一电子设备,该电子设备可以是终端设备也可以是服务器,如图5所示,该电子设备可以包括:第一处理器21、第一存储器22。其中,所述第一存储器22上存储有可执行代码,当所述可执行代码被所述第一处理器21执行时,使所述第一处理器21可以执行如前述各实施例中提供的摘要生成方法。
实际上,该电子设备中也可以包括第一通信接口23,用于与其他设备进行通信。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器可以执行如前述各实施例中提供的摘要生成方法。
图6为一示例性实施例提供的一种项目管理方法的流程图,如图6所示,该方法包括如下步骤:
601、响应于针对目标项目触发的摘要获取请求,将目标项目对应的文档输入至模型,该文档已经过段落标记处理和分词处理。
项目管理场景的介绍可以参见图3所示实施例中的说明。
实际应用中,该摘要获取请求中可以包括目标项目的名称,该目标项目的名称可以作为该目标项目下产生的各个文档的文档集标识。
可以理解的是,当目标项目对应有多个文档时,针对每个文档的处理过程是一致的,因此,本实施例中仅以针对目标项目对应的任一个文档为例进行说明。
602、通过模型的编码器依次对文档的每个段落中包含的词语进行编码,以得到文档中多个段落的语义表示向量。
603、通过模型的解码器依次对多个段落的语义表示向量进行解码,以得到多个段落各自对应的摘要语句。
604、若由多个段落各自对应的摘要语句构成的全部摘要语句的数量大于预设值,则对全部摘要语句进行优化处理,以从全部摘要语句中筛选出构成所述文档的摘要的目标摘要语句。
上述针对目标项目对应的任一文档的处理过程,可以参见前述其他实施例中的详细说明,在此不赘述。只是需要说明的是,若目标项目对应的文档的数量为多个,则最后可以根据多个文档各自对应的目标摘要语句,生成目标项目对应的摘要,进而向用户输出目标项目对应的摘要。其中,目标项目对应的摘要依次由上述多个文档各自对应的目标摘要语句组合而成。
在一个可能的设计中,图6所示的项目管理方法可以由一电子设备执行,该电子设备可以是终端设备也可以是服务器,如图7所示,该电子设备可以包括:第二处理器31、第二存储器32。其中,所述第二存储器32上存储有可执行代码,当所述可执行代码被所述第二处理器31执行时,使所述第二处理器31可以执行如前述图6所示实施例中提供的项目管理方法。
实际上,该电子设备中也可以包括第二通信接口33,用于与其他设备进行通信。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (13)
1.一种摘要生成方法,包括:
响应于摘要获取请求,将对应的文档输入至模型,所述文档已经过段落标记处理和分词处理;
通过模型的编码器依次对每个段落中包含的词语进行编码,以得到多个段落的语义表示向量;
通过所述模型的解码器依次对所述多个段落的语义表示向量进行解码,以得到所述多个段落各自对应的摘要语句;
若获得的全部摘要语句的数量大于预设值,则对所述全部摘要语句进行优化处理,以从所述全部摘要语句中筛选出构成所述文档的第一摘要的目标摘要语句。
2.根据权利要求1所述的方法,根据如下指标中的至少一个进行所述优化处理:摘要语句的重要度、摘要语句之间的相似度、摘要语句的新鲜度;
对于第一摘要语句,所述第一摘要语句的重要度根据所述第一摘要语句所包含的各词语在所述全部摘要语句所包含的全部词语中分别所占的权重确定;
所述第一摘要语句的新鲜度根据所述第一摘要语句所对应的段落的更新时间确定;
所述第一摘要语句与第二摘要语句之间的相似度根据所述第一摘要语句中最后一个词语所对应的隐层状态向量与所述第二摘要语句中最后一个词语所对应的隐层状态向量之间的距离确定;
其中,所述第一摘要语句和所述第二摘要语句是所述全部摘要语句中的任意两个摘要语句。
3.根据权利要求1所述的方法,所述摘要获取请求中包括对应于所述文档的文档标识,所述方法还包括:
查询所述文档的更新时间,以及查询是否已经存在所述文档的第二摘要;
若已经存在所述第二摘要,且所述第二摘要的生成时间晚于所述文档的更新时间,则输出所述第二摘要;
若已经存在所述第二摘要,且所述第二摘要的生成时间早于所述文档的更新时间;或者,若不存在所述第二摘要,则将所述文档输入至所述模型。
4.根据权利要求3所述的方法,还包括:
记录所述第一摘要的生成时间。
5.根据权利要求1所述的方法,所述摘要获取请求中包括所述文档归属的文档集的标识,所述方法还包括:
查询所述文档集的更新时间,以及查询是否已经存在所述文档集的第三摘要;
若已经存在所述第三摘要,且所述第三摘要的生成时间晚于所述文档集的更新时间,则输出所述第三摘要;
若已经存在所述第三摘要,且所述第三摘要的生成时间早于所述文档集的更新时间;或者,若不存在所述第三摘要,则将所述文档集中包含的各文档依次输入至所述模型。
6.根据权利要求5所述的方法,还包括:
根据所述文档的第一摘要确定所述文档集的第四摘要,其中,所述文档集的第四摘要由所述文档集中包含的各文档的摘要拼接而成。
7.根据权利要求6所述的方法,还包括:
若所述文档发生更新,则根据所述文档的更新时间调整所述文档集的更新时间。
8.根据权利要求7所述的方法,还包括:
根据所述文档的第一摘要的生成时间,更新所述文档集的第四摘要的生成时间。
9.一种摘要生成装置,包括:
获取模块,用于响应于摘要获取请求,将对应的文档输入至模型,所述文档已经过段落标记处理和分词处理;
编码模块,用于通过模型的编码器依次对每个段落中包含的词语进行编码,以得到多个段落的语义表示向量;
解码模块,用于通过所述模型的解码器依次对所述多个段落的语义表示向量进行解码,以得到所述多个段落各自对应的摘要语句;
优化模块,用于若获得的全部摘要语句的数量大于预设值,则对所述全部摘要语句进行优化处理,以从所述全部摘要语句中筛选出构成所述文档的第一摘要的目标摘要语句。
10.一种电子设备,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至8中任一项所述的摘要生成方法。
11.一种项目管理方法,包括:
响应于针对目标项目触发的摘要获取请求,将所述目标项目对应的文档输入至模型,所述文档已经过段落标记处理和分词处理;
通过模型的编码器依次对所述文档的每个段落中包含的词语进行编码,以得到所述文档中多个段落的语义表示向量;
通过所述模型的解码器依次对所述多个段落的语义表示向量进行解码,以得到所述多个段落各自对应的摘要语句;
若由所述多个段落各自对应的摘要语句构成的全部摘要语句的数量大于预设值,则对所述全部摘要语句进行优化处理,以从所述全部摘要语句中筛选出构成所述文档的摘要的目标摘要语句。
12.根据权利要求11所述的方法,所述方法还包括:
若所述目标项目对应的文档的数量为多个,则根据多个文档各自对应的目标摘要语句,生成所述目标项目对应的摘要;
输出所述目标项目对应的摘要。
13.一种电子设备,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求11或12所述的项目管理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910267001.5A CN111782798B (zh) | 2019-04-03 | 2019-04-03 | 摘要生成方法、装置和设备以及项目管理方法 |
PCT/CN2020/080574 WO2020199947A1 (zh) | 2019-04-03 | 2020-03-23 | 摘要生成方法、装置和设备以及项目管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910267001.5A CN111782798B (zh) | 2019-04-03 | 2019-04-03 | 摘要生成方法、装置和设备以及项目管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111782798A true CN111782798A (zh) | 2020-10-16 |
CN111782798B CN111782798B (zh) | 2024-01-12 |
Family
ID=72664918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910267001.5A Active CN111782798B (zh) | 2019-04-03 | 2019-04-03 | 摘要生成方法、装置和设备以及项目管理方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111782798B (zh) |
WO (1) | WO2020199947A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590810A (zh) * | 2021-08-03 | 2021-11-02 | 北京奇艺世纪科技有限公司 | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 |
CN114398478A (zh) * | 2022-01-17 | 2022-04-26 | 重庆邮电大学 | 一种基于bert和外部知识的生成式自动文摘方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230146979A1 (en) * | 2021-11-06 | 2023-05-11 | International Business Machines Corporation | Enhancing natural language processing accuracy in computer systems |
CN114741499B (zh) * | 2022-06-08 | 2022-09-06 | 杭州费尔斯通科技有限公司 | 一种基于句子语义模型的文本摘要生成方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006099341A (ja) * | 2004-09-29 | 2006-04-13 | Bank Of Tokyo-Mitsubishi Ufj Ltd | 更新履歴生成装置及びプログラム |
US20100287162A1 (en) * | 2008-03-28 | 2010-11-11 | Sanika Shirwadkar | method and system for text summarization and summary based query answering |
CN102163229A (zh) * | 2011-04-13 | 2011-08-24 | 北京百度网讯科技有限公司 | 一种用于生成搜索结果的摘要的方法与设备 |
US20130054613A1 (en) * | 2011-08-23 | 2013-02-28 | At&T Intellectual Property I, L.P. | Automatic sort and propagation associated with electronic documents |
US9516052B1 (en) * | 2015-08-01 | 2016-12-06 | Splunk Inc. | Timeline displays of network security investigation events |
CN106919646A (zh) * | 2017-01-18 | 2017-07-04 | 南京云思创智信息科技有限公司 | 中文文本摘要生成系统及方法 |
CN106980683A (zh) * | 2017-03-30 | 2017-07-25 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
US20170337273A1 (en) * | 2016-05-17 | 2017-11-23 | Opentv, Inc | Media file summarizer |
WO2018135723A1 (ko) * | 2017-01-17 | 2018-07-26 | 경북대학교 산학협력단 | 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885970B (zh) * | 2012-12-20 | 2017-11-28 | 联想(北京)有限公司 | 一种图像显示方法和装置 |
US20180130496A1 (en) * | 2016-11-08 | 2018-05-10 | Yen4Ken, Inc. | Method and system for auto-generation of sketch notes-based visual summary of multimedia content |
-
2019
- 2019-04-03 CN CN201910267001.5A patent/CN111782798B/zh active Active
-
2020
- 2020-03-23 WO PCT/CN2020/080574 patent/WO2020199947A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006099341A (ja) * | 2004-09-29 | 2006-04-13 | Bank Of Tokyo-Mitsubishi Ufj Ltd | 更新履歴生成装置及びプログラム |
US20100287162A1 (en) * | 2008-03-28 | 2010-11-11 | Sanika Shirwadkar | method and system for text summarization and summary based query answering |
CN102163229A (zh) * | 2011-04-13 | 2011-08-24 | 北京百度网讯科技有限公司 | 一种用于生成搜索结果的摘要的方法与设备 |
US20130054613A1 (en) * | 2011-08-23 | 2013-02-28 | At&T Intellectual Property I, L.P. | Automatic sort and propagation associated with electronic documents |
US9516052B1 (en) * | 2015-08-01 | 2016-12-06 | Splunk Inc. | Timeline displays of network security investigation events |
US20170337273A1 (en) * | 2016-05-17 | 2017-11-23 | Opentv, Inc | Media file summarizer |
WO2018135723A1 (ko) * | 2017-01-17 | 2018-07-26 | 경북대학교 산학협력단 | 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체 |
CN106919646A (zh) * | 2017-01-18 | 2017-07-04 | 南京云思创智信息科技有限公司 | 中文文本摘要生成系统及方法 |
CN106980683A (zh) * | 2017-03-30 | 2017-07-25 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590810A (zh) * | 2021-08-03 | 2021-11-02 | 北京奇艺世纪科技有限公司 | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 |
CN113590810B (zh) * | 2021-08-03 | 2023-07-14 | 北京奇艺世纪科技有限公司 | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 |
CN114398478A (zh) * | 2022-01-17 | 2022-04-26 | 重庆邮电大学 | 一种基于bert和外部知识的生成式自动文摘方法 |
CN114398478B (zh) * | 2022-01-17 | 2024-09-17 | 山西中汇数智科技有限公司 | 一种基于bert和外部知识的生成式自动文摘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111782798B (zh) | 2024-01-12 |
WO2020199947A1 (zh) | 2020-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7941420B2 (en) | Method for organizing structurally similar web pages from a web site | |
US11205041B2 (en) | Web element rediscovery system and method | |
RU2686590C1 (ru) | Способ и устройство для сравнения схожих элементов высокоразмерных признаков изображений | |
CN111782798B (zh) | 摘要生成方法、装置和设备以及项目管理方法 | |
US9384175B2 (en) | Determination of differences between electronic documents | |
US9202255B2 (en) | Identifying multimedia objects based on multimedia fingerprint | |
US11194963B1 (en) | Auditing citations in a textual document | |
CN112036162A (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
US12032605B2 (en) | Searchable data structure for electronic documents | |
US11935315B2 (en) | Document lineage management system | |
US12001423B2 (en) | Method and electronic device for obtaining hierarchical data structure and processing log entries | |
US20090204889A1 (en) | Adaptive sampling of web pages for extraction | |
US20120233241A1 (en) | Requesting, Responding and Parsing | |
CN113887191A (zh) | 文章的相似性检测方法及装置 | |
CN113836261A (zh) | 一种专利文本新颖性/创造性预测方法及装置 | |
CN117236348B (zh) | 一种多语言自动转换系统、方法、装置及介质 | |
CN118152520A (zh) | 一种基于大语言模型技术的知识库自动快速构建方法、系统及装置 | |
CN118134422A (zh) | 文件内容审核的方法、装置、设备、存储介质及产品 | |
CN116028626A (zh) | 文本匹配方法、装置、存储介质以及电子设备 | |
CN114065727A (zh) | 资讯去重方法、设备及计算机可读介质 | |
US20220100703A1 (en) | Integrated universal file converter | |
CN113761950A (zh) | 一种翻译模型的测试方法及装置 | |
CN111708891A (zh) | 一种多源食材数据之间的食材实体链接方法和装置 | |
CN116578602B (zh) | 一种时序排序方法及装置 | |
CN114398854B (zh) | 电子书的标签生成方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |