CN113282742A - 摘要获取方法以及电子设备、存储装置 - Google Patents
摘要获取方法以及电子设备、存储装置 Download PDFInfo
- Publication number
- CN113282742A CN113282742A CN202110484890.8A CN202110484890A CN113282742A CN 113282742 A CN113282742 A CN 113282742A CN 202110484890 A CN202110484890 A CN 202110484890A CN 113282742 A CN113282742 A CN 113282742A
- Authority
- CN
- China
- Prior art keywords
- document
- clause
- candidate
- representation
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种摘要获取方法以及电子设备、存储装置,其中,摘要获取方法包括:获取文档组;其中,文档组包含若干文档,每一文档包含若干候选分句;分别提取若干文档中若干候选分句的句子语义表示;其中,句子语义表示包含候选分句在文档组内的第一位置信息;基于句子语义表示,选择至少一个候选分句作为目标分句;利用目标分句,得到文档组的目标摘要。上述方案,能够降低摘要冗余度,并提高摘要可读性。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种摘要获取方法以及电子设备、存储装置。
背景技术
随着信息技术的发展,每天都会产生海量的文本信息,信息总量正呈指数级别增长。因此,有必要提取文本信息的摘要,以便快速预览文本信息,辅助用户选择感兴趣的文本信息进行着重阅读。
目前,通常直接将多个文档拼接在一起来提取摘要,导致摘要冗余度高且可读性差,极易用户阅读体验。有鉴于此,如何降低摘要冗余度,并提高摘要可读性成为极具研究价值的课题。
发明内容
本申请主要解决的技术问题文本是提供一种摘要获取方法以及电子设备、存储装置,能够降低摘要冗余度,并提高摘要可读性。
为了解决上述问题文本,本申请第一方面提供了一种摘要获取方法,包括:获取文档组;其中,文档组包含若干文档,每一文档包含若干候选分句;分别提取若干文档中若干候选分句的句子语义表示;其中,句子语义表示包含候选分句在文档组内的第一位置信息;基于句子语义表示,选择至少一个候选分句作为目标分句;利用目标分句,得到文档组的目标摘要。
为了解决上述问题文本,本申请第二方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的摘要获取方法。
为了解决上述问题文本,本申请第三方面提供了一种存储装置,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的摘要获取方法。
上述方案,获取文档组,且文档组包含若干文档,每一文档包含若干候选分句,基于此再分别提取若干文档中若干候选分句的句子语义表示去,且句子语义表示包含候选分句在文档组内的第一位置信息,并基于句子语义表示,选择至少一个候选分句作为目标分句,以及利用目标分句,得到文档组的目标摘要,由于句子语义表示包含候选分句在文档组内的第一位置信息,故能够在选择目标分句时捕获候选分句之间的层次关系,避免直接拼接而无法获取关键的层次信息,一方面能够排除无关候选分句对于摘要获取的干扰,降低冗余度,另一方面也有利于通过选择出来的目标分句得到符合文档关系的目标摘要,提高可读性。故此,本方案能够降低摘要冗余度,并提高摘要可读性。
附图说明
图1是本申请摘要获取方法一实施例的流程示意图;
图2是图1中步骤S14一实施例的流程示意图;
图3是训练摘要模型一实施例的过程示意图;
图4是本申请电子设备一实施例的框架示意图;
图5是本申请存储装置一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请文档获取方法一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S11:获取文档组。
本公开实施例中,文档组包含若干文档,每一文档包含若干候选分句。此外,需要说明的是,每一候选分句中又可以包含若干单词。
在一个实施场景中,在基于多文档获取摘要的情况下,文档组可以包含多个文档,如文档组可以包括2个文档、3个文档等等,在此不做限定。此外,在基于单文档获取摘要情况的下,文档组也可以仅包括一个文档。也就是说,本公开实施例不仅可以应用于多文档摘要的复杂场景,而且也适用于单文档摘要的简单场景,具有极其广泛的适用范围。
在一个实施场景中,为了便于描述,对于文档组可以表示为[D1,D2,…,Dn],即文档组包含D1,D2,…,Dn共n个文档,而对于其中第i个文档而言,其所包含的候选分句可以表示为[Si,1,Si,2,…,Si,n],即第i个文档包含Si,1,Si,2,…,Si,n共n个候选分句。此外,对于第i个文档内第j个候选分句而言,其所包含的单词可以表示为[Wi,j,1,Wi,j,2,…,Wi,j,n],即第i个文档内第j个候选分句包含Wi,j,1,Wi,j,2,…,Wi,j,n共n个单词。
在一个实施场景中,文档组所包含的若干文档之间可以存在预设联系。具体地,若干文档可以是关于同一事件(或同一人物,或同一主题)的不同来源文本,例如,文档组包含文档甲和文档乙,文档甲是关于学校A组织学生植树的新闻报导,文档乙是学校A某学生在校内期刊发表的植树活动感悟;或者,若干文档可以是关于同一事件在不同时间线的文本,例如,文档组包含文档丙和文档丁,文档丙是关于4月份菜市场货品B的物价水平,文档丁是关于5月份菜市场货品B的物价水平;或者,若干文档可以是同一机构所发布的消息,例如,文档组包含文档戊和文档己,文档戊是物业C发布的1月份建设基金使用情况,文档己是物业C发布的小区改造计划。需要说明的是,上述关于各个文档的举例仅仅是实际应用过程中可能存在的情况,并不因此而具体限定文档组内的各个文档。
步骤S12:分别提取若干文档中若干候选分句的句子语义表示。
本公开实施例中,句子语义表示包含候选分句在文档组内的第一位置信息。需要说明的是,句子语义表示还包括候选分句本身的语义信息,该语义信息用于描述候选分句的本质含义。
在一个实施场景中,第一位置信息具体可以包括第一子位置信息和第二子位置信息,其中,第一位置信息表示候选分句在所属的文档中的位置,而第二子位置信息表示候选分句所属的文档在文档组中的位置。上述方式,通过将第一位置信息设置为包括第一子位置信息和第二子位置信息,且第一子位置信息表示候选分句在所属的文档中的位置,第二子位置信息表示候选分句所属的文档在文档组中的位置,故第一位置信息能够从单个文档层次以及整个文档组层次两方面来描述候选分句的层次信息,从而能够准确、完整地描述候选分句的位置。
在一个具体的实施场景中,为了便于描述,文档组中第i个文档内第j个候选分句,其第一位置信息中第一子位置信息可以采用位置表示Psj予以表示,其第一位置信息中第二子位置信息可以采用位置表示Pdi予以表示。具体地,可以预先定义文档组内最多可以包含4个文档,且文档内最多可以包含6个候选分句,此外还可以定义候选分句最多可以包含10个单词,在此基础上,位置表示Psj可以采用6位0-1向量予以表示,位置表示Pdi可以采用4位0-1向量予以表示。例如,对于文档组中第1个文档内第4个候选分句,其第一位置信息中第一子位置信息可以采用位置表示[0 0 1 0 0 0]予以表示,其第一位置信息中第二子位置信息可以采用位置表示[0 0 0 1]予以表示。其他情况可以以此类推,在此不再一一举例。
在另一个实施场景中,可以利用语义提取网络分别提取候选分句的第一语义表示,并获取候选分句的第一位置表示,且第一语义表示由语义提取网络中多个隐藏层的输出进行相加得到,而第一位置表示包含第一位置信息,基于此再将第一语义表示和第一位置表示进行融合,得到句子语义表示。需要说明的是,语义提取网络可以包括但不限于:BERT(Bidirectional Encoder Representations from Transformers,即基于Transformers的双向编码器表示)等等,在此不做限定。上述方式,通过利用语义提取网络分别提取候选分句的第一语义表示,能够提高语义提取效率,并获取候选分句的第一位置表示,且第一位置表示包含第一位置信息,第一语义表示由语义提取网络中多个隐藏层的输出进行相加得到,从而能够提高第一语义表示的准确性,基于此再将第一语义表示和第一位置进行融合,得到句子语义表示,能够有利于提高提取句子语义表示的效率以及准确性。
在一个具体的实施场景中,多个隐藏层具体是语义提取网络最后N层隐藏层,N可以包括但不限于:2、3、4等等,在此不做限定。
在另一个具体的实施场景中,如前所述,第一位置信息中第一子位置信息可以采用位置表示Psj予以表示,且第一位置信息中第二子位置信息可以采用位置表示Pdi予以表示,故第一位置表示可以采用位置表示Pdi和位置表示Pdi拼接得到。
在又一个具体的实施场景中,可以通过相加的方式将第一语义表示和第一位置表示进行融合。仍以文档组中第i个文档内第j个候选分句Si,j为例,为了便于描述,候选分句Si,j经语义提取网络所提取到的第一语义表示可以记为esij,则候选分句Si,j的句子语义表示Esij可以表示为:
Esij=esij+[Pdi;Psj]……(1)
上述公式(1)中,如前所述,Psj表示候选分句Si,j对应的第一子位置信息,Pdi表示候选分句Si,j对应的第二子位置信息,[·;·]表示拼接操作。
步骤S13:基于句子语义表示,选择至少一个候选分句作为目标分句。
在一个实施场景中,为了提高目标分句的准确性,在提取句子语义表示的同时,还可以分别提取若干文档的文档语义表示,以及提取若干文档中若干候选分句内的若干单词的单词语义表示,且文档语义表示包括文档在文档组内的第二位置信息,单词语义表示包括单词在文档组内的第三位置信息。需要说明的是,文档语义表示还包括文档本身的语义信息,该语义信息用于描述文档的本质含义,且单词语义表示还包括单词本身的语义信息,该语义信息用于描述单词的本质含义。在此基础上,对于每一候选分句,可以将候选分句的句子语义表示与候选分句所属的文档的文档语义表示、候选分句所含的单词的单词语义表示进行融合编码,得到候选分句的最终句子表示,再基于最终句子表示,选择至少一个候选分句作为目标分句。融合编码的具体过程,可以参阅下述相关公开实施例,在此暂不赘述。上述方式,对于每一候选分句,能够将候选分句,以及位于候选分句上一层级的文档、位于候选分句下一层级的单词等各种不同粒度文本的语义表示进行融合编码,得到候选分句的最终句子表示,从而能够进一步完善层次关系,进而能够有利于进一步提高选择目标分句的准确性。
在一个具体的实施场景中,可以将属于相同文档的候选分句的第一语义表示进行融合,得到该文档的第二语义表示,并获取文档的第二位置表示,且第二位置表示包含第二位置信息,再基于此将第二语义表示和第二位置表示进行融合,得到该文档的文档语义表示。仍以预先定义文档组内最多包含4个文档为例,对于文档组内第1个文档而言,其第二位置表示可以采用4位0-1向量(即位置表示)[0 0 0 1]来表示,其他情况可以以此类推,在此不再一一举例。此外,本实施场景中所述的融合,具体可以通过相加实现,即可以将属于相同文档的候选分句的第一语义表示相加,以实现属于相同文档的候选分句的第一语义表示的融合,以及可以将第二语义表示和第二位置表示相加,以实现第二语义表示和第二位置表示的融合。为了便于描述,以文档组内第i个文档为例,其文档语义表示Edi可以表示为:
上述公式(2)中,edi表示第i个文档的第二语义表示,Pdi表示第i个文档的第二位置表示,esij表示属于文档i的候选分句的第一语义表示,∑jesij表示将属于文档i的各个候选分句的第一语义表示相加。上述方式,通过将属于相同文档的候选分句的第一表示进行融合,得到文档的第二语义表示,并获取文档的第二位置表示,且第二位置表示包括第二位置信息,在此基础上,再将第二语义表示和第二位置表示进行融合,得到文档语义表示,有利于提高提取文档语义表示的效率和准确性。
在另一个具体的实施场景中,单词在文档组内的第三位置信息具体可以包括单词所属的候选分句的第一子位置信息和第二子位置信息,以及第三子位置信息,且第三子位置信息表示单词在所属候选分句中的位置,第一子位置信息表示所属候选分句在所属的文档中的位置,且第二子位置信息表示所属候选分句所属的文档在文档组中的位置。仍以预先定义文档组内最多包含4个文档,文档内最多包含6个候选分句,候选分句内最多包含10个单词为例,则对于文档组中第1个文档内第1个候选分句的第1个单词而言,其第三子位置信息可以采用10位0-1向量(即位置表示)[0 0 0 0 0 0 0 0 0 1]表示,由于第1个单词所属候选分句为第1个文档内第1个候选分句,故对应的第一子位置信息可以采用6位0-1向量(即位置表示)[0 0 0 0 0 1]表示,且由于第1个单词所属候选分句所属的文档为文档组内第1个文档,故对应的第二子位置信息可以采用4位0-1向量(即位置表示)[0 0 0 1]表示。其他情况可以以此类推,在此不再一一举例。上述方式,将第三位置信息设置为包括单词所属的候选分句的第一子位置信息和第二子位置信息,以及第三子位置信息,且第三子位置信息表示单词在所属候选分句中的位置,第一子位置信息表示所属候选分句在所属的文档中的位置,第二子位置信息表示所属候选分句所属的文档在文档组中的位置,故第三位置信息能够从候选分句层次、文档层次以及整个文档组层次三方面来描述单词的层次信息,从而能够准确、完整地描述单词的位置。
在又一个具体的实施场景中,为了提高提取单词语义表示的效率和准确性,可以利用语义提取网络分别提取若干文档中若干候选分句内的若干单词的第三语义表示,并获取单词的第三位置表示,且第三语义表示由语义提取网络中多个隐藏层的输出进行相加得到,第三位置表示包含第三位置信息,基于此再将第三语义表示进行融合,得到单词语义表示。需要说明的是,关于语义提取网络以及多个隐藏层可以参阅前述提取第一语义表示的相关描述,在此不再赘述。为了便于描述,对于文档组中第i个文档内第j个候选分句的第k个单词而言,其第三位置信息所包括的单词所属的候选分句的第一子位置信息和第二子位置信息可以分别采用位置表示Psj、Pdi予以表示,其第三位置信息所包含的第三子位置信息可以采用位置表示Pwk予以表示,该单词的单词语义表示Ewijk可以表示为:
Ewijk=ewijk+[Pdi;Psj;Pwk]……(3)
上述公式(3)中,ewijk表示文档组中第i个文档内第j个候选分句的第k个单词的第三语义表示,[·;·;·]表示拼接操作,此外,如公式(3)所示,可以通过将第三语义表示和第三位置表示进行相加,以实现两者之间的融合。上述方式,通过利用语义提取网络分别提取若干文档中若干候选分句内的若干单词的第三语义表示,并获取单词的第三位置表示,且第三语义表示由语义提取网中多个隐藏层的输出进行相加得到,第三位置表示包含第三位置信息,基于此再将第三语义表示和第三位置表示进行融合,得到单词语义表示,能够有利于提高提取单词语义表示的效率以及准确性。
在又一个具体的实施场景中,为了提高摘要获取的效率,可以预先训练一个摘要模型,该摘要模型可以包括一个语句分类网络,且该语句分类网络具体可以包括编码子网络和分类子网络,编码子网络用于实现上述融合编码,分类子网络用于实现目标分句的选择。关于融合编码、编码子网络以及摘要模型的训练过程可以参阅下述相关公开实施例,在此暂不赘述。此外,分类子网络具体可以包括全连接层和归一化层(如,sigmoid等)。在此基础上,可以将候选分句的最终句子表示输入分类子网络,得到候选分句的重要分值,基于此可以选择重要分值满足预设条件的候选分句,作为目标分句。需要说明的是,重要分值表示候选分句对于获取目标摘要的重要性,重要分值越高,表示候选分句对于获取目标摘要的重要性越高,反之,重要分值越低,表示候选分句对于获取目标摘要的重要性越低。此外,预设条件可以设置为包括:重要分值大于预设分值阈值。为了便于描述,候选分句的最终句子表示可以记为os,则重要分值可以表示为:
在另一个实施场景中,在对目标分句的准确率要求相对宽松的情况下,在提取到候选分句的句子语义表示之后,也可以直接基于句子语义表示,选择至少一个候选分句作为目标分句。
在一个具体的实施场景中,为了提高摘要获取的效率,如前所述,可以预先训练一个摘要模型,且该摘要模型可以包括一个语句分类网络,该语句分类网络可以包括全连接层和归一化层(如,sigmoid)。在此基础上,可以将各个候选分句的句子语义表示输入语句分类网络,得到各个候选分句的分类结果,并根据分类结果,选择得到目标分句。
在另一个具体的实施场景中,上述语句分类网络所输出的分类结果具体可以包括各个候选分句的重要分值,从而可以选择重要分值满足预设条件的候选分句,作为目标分句。
步骤S14:利用目标分句,得到文档组的目标摘要。
在一个实施场景中,可以将目标分句进行拼接,并将拼接得到的分句序列,作为文档组的目标摘要。
在另一个实施场景中,为了进一步提高目标摘要的可读性,可以获取各个目标分句的语序信息,需要说明的是,语序信息可以表示目标分句在目标摘要中的位置。基于此,可以基于语序信息,将目标分句进行排序及拼接,得到分句序列,并将按序拼接得到的分句序列,作为文档组的目标摘要。语序信息的具体获取过程,可以参阅下述相关公开实施例,在此暂不赘述。
在又一个实施场景中,为了进一步降低目标摘要的冗余程度,并提高目标摘要的可读性,还可以预先训练一个摘要模型,且该摘要模型包括一个文档摘要网络,文档摘要网络具体可以包括但不限于:GPT-2(Generative Pre-Training,即预训练生成)、uni-LM等等,在此不做限定。此外,如前所述,摘要模型的训练过程,可以参阅下述相关公开实施例,在此暂不赘述。在此基础上,可以获取各个目标分句的语序信息,基于语序信息,将目标分句进行排序及拼接,得到分句序列,并将按序拼接得到的分句序列,再将分句序列输入文档摘要网络,得到目标摘要。上述方式,能够将摘要抽取和生成相结合,有利于降低目标摘要的冗余度,并提高目标摘要的可读性。
上述方案,获取文档组,且文档组包含若干文档,每一文档包含若干候选分句,基于此再分别提取若干文档中若干候选分句的句子语义表示去,且句子语义表示包含候选分句在文档组内的第一位置信息,并基于句子语义表示,选择至少一个候选分句作为目标分句,以及利用目标分句,得到文档组的目标摘要,由于句子语义表示包含候选分句在文档组内的第一位置信息,故能够在选择目标分句时捕获候选分句之间的层次关系,避免直接拼接而无法获取关键的层次信息,一方面能够排除无关候选分句对于摘要获取的干扰,降低冗余度,另一方面也有利于通过选择出来的目标分句得到符合文档关系的目标摘要,提高可读性。故此,本方案能够降低摘要冗余度,并提高摘要可读性。
在一些公开实施例中,如前所述,融合编码可以由语句分类网络的编码子网络执行。编码子网络具体可以包括预设数值层(如,6层、5层、4层等)编码层,编码子网络的输入为文档语义表示、句子语义表示和单词语义表示,且编码子网络的最后一层编码层可以输出得到各个文档的最终文档表示、各个候选分句的最终句子表示以及各个单词的最终单词表示。以编码子网络包括L层编码层为例,每一层编码层执行相同的编码操作,以第l层编码层为例,其编码步骤可以包括:
对于每一单词,可以利用当前层编码层(即第l层编码层)对上一层编码层(即第l-1层编码层)输出的单词的相关语义表示进行编码,得到单词在当前层编码层(即第l层编码层)输出的单词语义表示,且单词的相关语义表示包括:单词和所属的候选分句中的其他单词的单词语义表示,以及单词所属的候选分句的句子语义表示。为了便于描述,以文档组中第i个文档内第j个候选分句的第k个单词为例,该单词在上一层编码层(即第l-1层编码层)输出的单词语义表示可以记为该单词所属的候选分句中其他单词在上一层编码层(即第l-1层编码层)输出的单词语义表示可以记为该单词所属的候选分句在上一层编码层(即第l-1层编码层)输出的句子语义表示可以记为则该单词在当前层编码层(即第l层编码层)输出的单词语义表示可以表示为:
上述公式(5)中,K1、K2均表示加权因子,且两者之和为1,此外,MHAtt表示多头注意力,即通过计算单词的单词语义表示与所属候选分句中其他单词的单词语义表示之间的多头注意力结果,将该多头注意力结果和单词所属候选分句的句子语义表示进行加权求和,即可以得到单词在当前层编码层输出的单词语义表示。需要说明的是,多头注意力结果的具体计算过程,可以参阅多头注意力的相关技术细节,在此不再赘述。上述方式,对于每一单词,通过利用当前层编码层对上一层编码层输出的单词的相关语义表示进行编码,得到单词在当前层编码层输出的单词语义表示,且单词的相关语义表示包括:单词和所属的候选分句中的其他单词的单词语义表示,以及单词所属的候选分句的句子语义表示,故在融合编码时能够参考本单词、所属候选分句的其他单词以及所属候选分句三种相关且粒度不等的语义表示,有利于提高融合编码的准确性。
对于每一候选分句,可以利用当前编码层(即第l层编码层)对上一层编码层(即第l-1层编码层)输出的候选分句的相关语义表示进行编码,得到候选分句在当前层编码层(即第l层编码层)输出的句子语义表示,且候选分句的相关语义表示包括:候选分句和所属的文档中其他候选分句的句子语义表示、候选分句所含的单词的单词语义表示和候选分句所属的文档的文档语义表示。为了便于描述,以文档组中第i个文档内第j个候选分句为例,该候选分句在上一层编码层(即第l-1层编码层)输出的句子语义表示可以记为该候选分句所属的文档中其他候选分句在上一层编码层(即第l-1层编码层)输出的句子语义表示可以记为该候选分句所含的单词在上一层编码层(即第l-1层编码层)输出的单词语义表示可以记为该候选分句所属的文档在上一层编码层(即第l-1层编码层)输出的文档语义表示可以记为则该候选分句在当前层编码层(即第l层编码层)输出的句子语义表示可以表示为:
上述公式(6)中,K3、K4、K5和K6均表示加权因子,且四者之和为1,即通过计算候选分句的句子语义表示与候选分句所含单词的单词语义表示之间的多头注意力结果,并计算候选分句的句子语义表示和候选分句所属的文档中其他候选分句的句子语义表示之间的多头注意力结果,并将上述两者多头注意力结果和候选分句的句子语义表示、候选分句所属文档的文档语义表示进行加权求和,即可以得到候选分句在当前层编码层输出的句子语义表示。上述方式,对于每一候选分句,利用当前层编码层对上一层编码层输出的候选分句的相关语义表示进行编码,得到候选分句在当前层编码层输出的句子语义表示,且候选分句的相关语义表示包括:候选分句和所属的文档中的其他候选分句的句子语义表示、候选分句所含的单词的单词语义表示和候选分句所属的文档的文档语义表示,故在融合编码时能够参考本候选分句、所属文档中的其他候选分句、本候选分句所含的单词以及本候选分句所属的文档四种相关且粒度不等的语义表示,有利于提高融合编码的准确性。
对于每一文档,可以利用当前层编码层(即第l层编码层)对上一层编码层(即第l-1层编码层)输出的文档的相关语义表示进行编码,得到文档在当前层编码层(即第l层编码层)输出的文档语义表示,且文档的相关语义表示包括:文档的文档语义表示和文档所含的候选分句的句子语义表示。为了便于描述,以文档组中第i个文档为例,该文档在上一层编码层(即第l-1层编码层)输出的文档语义表示可以记为该文档所含的候选分句在上一层编码层(即第l-1层编码层)输出的句子语义表示可以记为则该文档在当前层编码层(即第l层编码层)输出的文档语义表示可以表示为:
上述公式(7)中,K7和K8均表示加权因子,且两者之和为1,即通过计算文档的文档语义表示与文档所含的候选句子的句子语义表示之间的多头注意力结果,并将该多头注意力结果和文档的文档语义表示进行加权求和,即可以得到文档在当前层编码层输出的文档语义表示。上述方式,对于每一个文档,利用当前层编码层对上一层编码层输出的文档的相关语义表示进行编码,得到文档在当前层编码层输出的文档语义表示,且文档的相关语义表示包括:文档的文档语义表示和文档所含的候选分句的句子语义表示,故在融合编码时能够参考本文档以及本文档所含的候选分句两种相关且粒度不等的语义表示,有利于提高融合编码的准确性。
需要说明是,在当前层编码层(即第l层编码层)为编码子网络的第一层编码层时,其输入为各个文档的文档语义表示、各个候选分句的句子语义表示和各个单词的单词语义表示。而在当前编码层为编码子网络的最后一层编码层(即第L层编码层)时,其输出的各个文档的文档语义表示即可视为文档的最终文档表示,其输出的各个候选分句的句子语义表示即可视为候选分句的最终句子表示,其输出的各个单词的单词语义表示即可视为单词的最终单词表示。
请参阅图2,图2是图1中步骤S14一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S21:融合若干文档的最终文档表示,得到文档组的文档组表示。
本公开实施例中,文档的最终文档表示是利用文档的文档语义表示和文档所含的候选分句的句子语义表示融合编码得到的,融合编码的具体过程,可以参阅前述公开实施例,在此不再赘述。
在一个实施场景中,为了降低融合复杂度,可以直接将若干文档的最终文档表示进行相加,得到文档组的文档组表示。
在另一个实施场景中,为了便于描述,可以将文档组中第i个文档的最终文档表示记为hdi,则文档组的文档组表示D可以表示为:
D=∑ihdi……(8)
步骤S22:利用文档组表示和每一目标分句的最终句子表示,得到各个目标分句的语序信息。
在一个实施场景中,为了提高提取目标摘要的效率,可以预先训练一个摘要模型,且该摘要模型可以包括语句排序网络,基于此可以分别将每一目标分句的最终句子表示和文档组表示输入语句排序网络,得到目标分句的位置分值,并将位置分值按照预设顺序进行排序,得到位置分值所属的目标分句的语序信息。上述方式,通过分别将每一目标分句的最终句子表示和文档组表示输入语句排序网络,得到目标分句的位置分值,并将位置分值按照预设顺序进行排序,得到位置分值所属的目标分句的语序信息,能够有利于捕获各个目标分句的时间线信息,从而能够有利于使得目标摘要符合时间上的逻辑关系,降低不合理性,提高目标摘要的可读性。
在一个具体的实施场景中,语句排序网络可以包括全连接层以及用于计算余弦相似度的计算层。具体地,文档组表示和最终句子表示经过全连接层降维之后,可以得到降维之后的文档组表示和降维之后的最终句子表示,基于此可以将降维之后的文档组表示与降维之后的最终句子表示之间的余弦相似度,作为目标分句的位置分值。为了便于描述,可以将文档组表示记为D,并将最终句子表示记为S,则目标分句的位置分值y可以表示为:
y=cos(FFN(D),FFN(S))……(9)
上述公式(8)中,FFN表示全连接层,cos(·,·)表示计算余弦相似度。
在另一个具体的实施场景中,预设顺序可以是从小到大的顺序,也可以是从大到小的顺序。以预设顺序是从小到大的顺序为例,可以将位置分值按照从小到大的顺序进行排序,并将排序之后的位置分值所在序位作为该位置分值所属的目标分句的语序信息。例如,目标分句A的位置分值为0.7,按照从小到大的顺序进行排序之后,该位置分值位于第2位,则目标分句A的语序信息即可以视为包含第2位。其他情况可以以此类推,在此不再一一举例。
步骤S23:基于目标分句和目标分句的语序信息,得到目标摘要。
具体地,如前述公开实施例所述,为了提高提取目标摘要的效率和可读性,可以预先训练一个摘要模型,且该摘要模型可以包括一个文档摘要网,基于此,可以基于语序信息,将目标分句进行排序拼接,得到分句序列,并将分句序列输入文档摘要网络,得到目标摘要。以选择得到目标分句A、目标分句B和目标分句C为例,目标分句A的语序信息包括第1位,目标分句B的语序信息包括第2位,目标分句C的语序信息包括第3位,则可以基于上述语序信息,将上述三个目标分句按照目标分句A、目标分句B、目标分句C的先后顺序排序,并拼接为一个分句序列【目标分句A、目标分句B、目标分句C】,并将该分句序列输入文档摘要网络,输出得到目标摘要。其他情况可以以此类推,在此不再一一举例。此外,关于文档摘要网络可以参阅前述公开实施例中相关描述,在此不再赘述。
上述方案,通过融合若干文档的最终文档表示,得到文档组的文档组表示,且文档的最终文档表示是利用文档的文档语义表示和文档所含的候选分句的句子语义表示融合编码得到的,并利用文档组表示和每一目标分句的最终句子表示,得到各个目标分句的语序信息,基于此再基于目标分句和目标分句的语序信息,得到目标摘要,能够有利于进一步提高目标摘要的合理性和可读性。
在一些公开实施例中,如前述公开实施例所述,为了提高提取目标摘要的效率和效果,可以预先训练一个摘要模型,且该摘要模型可以包括语句分类网络和文档摘要网络,请结合参阅图1,语句分类网络可以用于选择目标分句,文档摘要网络可以用于基于目标分句得到目标摘要,语句分类网络和文档摘要网络的具体细节,可以参阅前述公开实施例中相关描述,在此不再赘述。基于此,为了提高摘要模型的性能,在训练摘要模型的过程中,可以先利用第一训练集训练语句分类网络至收敛,再利用第二训练集训练文档摘要网络至收敛,之后,可以再次利用第三训练集训练摘要模型至收敛,即利用第三训练集对摘要模型整体进行训练。上述方式,摘要模型中每个网络先在各自训练任务上训练调优,再整体进行端到端训练,能够有利于提高训练效果,从而提升摘要模型的性能。
在一个实施场景中,如前述公开实施例所述,摘要模型还可以包括语句排序网络,用于将选择得到的目标分句进行排序。在此基础上,在训练摘要模型过程中,可以先利用第一训练集训练语句分类网络至收敛,并利用第二训练集训练文档摘要网络至收敛,并利用第四训练集训练语句排序网络至收敛,之后,可以再次利用第三训练集训练摘要模型,即利用第三训练集对摘要模型整体进行训练。
在另一个实施场景中,在训练语句分类网络时,可以获取样本文档组及其对应的样本摘要,且样本文档组包含若干样本文档,每一样本文档包含若干样本分句,则可以计算每一样本分句分别与样本摘要之间的样本重要分值,样本重要分值可以采用ROUGE(即Recall-Oriented Understudy for Gisting Evaluation)得分进行统计,该样本重要分值用于表示样本分句对获取样本摘要的重要性,并在样本文档组中标记样本重要分值大于预设分值阈值的样本分句,以获取得到第一训练集。在利用第一训练集训练语句分类网络过程中,可以先分别提取样本文档组中各个样本分句的样本句子语义表示,且样本句子语义表示包含样本分句在样本文档组内的第一样本位置信息,并将样本分句的样本句子语义表示输入语句分类网络,得到样本分句的预测重要分值,并选择预测重要分值满足预设条件的样本分句,作为样本目标分句,在此基础上,可以基于样本分句是否被预测为样本目标分句以及样本分句是否被标记两者之间的差异,调整语句分类网络的网络参数。此外,如前述公开实施例所述,也可以提取样本文档的样本文档语义表示和样本分句中样本单词的样本单词语义表示,且样本文档语义表示包括样本文档在样本文档组内的第二样本位置信息,样本单词语义表示包括样本单词在样本文档组内的第三样本位置信息,在此基础上,可以将样本文档语义表示、样本句子语义表示和样本单词语义表示输入语句分类网络的编码子网络,以得到样本分句的样本最终句子表示,并将样本最终句子表示输入语句分类网络的分类子网络,得到样本分句的预测重要分值,并选择预测重要分值满足预设条件的样本分句,作为样本目标分句,在此基础上,可以基于样本分句是否被预测为样本目标分句以及样本分句是否被标记两者之间的差异,调整语句分类网络的网络参数。
在又一个实施场景中,在训练语句排序网络时,可以获取前述样本文档组及其对应的样本摘要,并将样本摘要进行分句,得到若干样本摘要分句,并按照样本摘要分句在样本摘要中的位置标记各个样本摘要分句的样本位置分值,最终可以将标记有样本位置分值的样本摘要分句作为前述第四训练集。例如,可以将样本摘要分句所在的序位作为其初始分值,并将初始分值进行归一化,得到各个样本摘要分句的样本位置分值。以样本摘要包含n个样本摘要分句为例,第1个样本摘要分句的初始分值为1,第2个样本摘要分句的初始分值为2,以此类推,第n个样本摘要分句的初始分值为n,将上述初始分值归一化之后,第1个样本摘要分句的样本位置分值为1/n,第2个样本摘要分句的样本位置分值为2/n,以此类推,第n个样本摘要分句的样本位置分值为1。在此基础上,可以融合样本文档组中若干样本文档的样本最终文档表示,得到样本文档组的样本文档组表示。关于样本最终文档表示和样本文档组表示,具体过程可以参阅前述公开实施例中关于最终文档表示和文档组表示的相关描述,在此不再赘述。基于此,再将每一样本摘要分句的样本最终句子表示和样本文档组表示输入语句排序网络,得到样本摘要分句的预测位置分值,从而可以基于预测位置分值和样本位置分值之间的差异,调整语句排序网络的网络参数。关于样本最终句子表示,具体可以参阅前述公开实施例中关于最终句子表示的相关描述,在此不再赘述。
在又一个实施场景中,在训练文档摘要网络时,可以获取前述样本文档组及其对应的样本摘要,并按照前述获取第一训练集的方式,先从样本文档组中选取样本重要分值大于预设分值阈值的样本分句,作为样本目标分句,再利用语句排序网络将样本目标分句进行排序,并将排序后的样本目标分句拼接为样本分句序列,作为第二训练集。在此基础上,可以将样本分句序列输入文档摘要网络,得到预测摘要,从而可以基于各个位置上,预测摘要的文字与样本摘要的文字之间的差异,调整文档摘要网络。
需要说明的是,上述语句分类网络、语句排序网络和文档摘要网络均是经过多轮训练至收敛的,且训练至收敛的含义是,基于预测与期望之间的差异所得到的损失值小于预设损失阈值。
在又一个实施场景中,请结合参阅图3,图3是训练摘要模型一实施例的过程示意图。如图3所示,可以获取样本文档组及其样本摘要,通过融入相关位置信息(如前述公开实施所述的第一位置信息、第二位置信息、第三位置信息等),可以得到样本分句的样本句子语义表示、样本文档的样本文档语义表示和样本单词的样本单词语义表示,上述语义表示经语句分类网络的编码子网络处理,可以得到样本分句的样本最终句子表示和样本文档的样本最终文档表示,并将样本最终句子表示输入语句分类网络的分类子网络,可以选择出样本目标分句,基于此,将样本目标分句的样本最终句子表示以及融合若干样本文档的样本最终文档表示所得到的样本文档组表示输入至语句排序网络,得到样本目标分句的语序信息,并基于语序信息,将样本目标分句进行排序及拼接,得到样本分句序列,从而将样本分句序列输入文档摘要网络,得到预测摘要,进而可以计算预测摘要和样本摘要之间的相似得分(如,ROUGE-2得分),作为奖励值(reward)反馈给前述各个网络,以进行强化学习,从而提升摘要模型的整体性能。此外,关于强化学习的具体过程,可以参阅其相关技术细节,在此不再赘述。
请参阅图4,图4是本申请电子设备40一实施例的框架示意图。电子设备40包括相互耦接的存储器41和处理器42,存储器41中存储有程序指令,处理器42用于执行程序指令以实现上述任一摘要获取方法实施例中的步骤。具体地,电子设备40可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
具体而言,处理器42用于控制其自身以及存储器41以实现上述任一摘要获取方法实施例中的步骤。处理器42还可以称为CPU(Central Processing Unit,中央处理单元)。处理器42可能是一种集成电路芯片,具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器42可以由集成电路芯片共同实现。
本公开实施例中,处理器42用于获取文档组;其中,文档组包含若干文档,每一文档包含若干候选分句;处理器42用于分别提取若干文档中若干候选分句的句子语义表示;其中,句子语义表示包含候选分句在文档组内的第一位置信息;处理器42用于基于句子语义表示,选择至少一个候选分句作为目标分句;处理器42用于利用目标分句,得到文档组的目标摘要。
上述方案,由于句子语义表示包含候选分句在文档组内的第一位置信息,故能够在选择目标分句时捕获候选分句之间的层次关系,避免直接拼接而无法获取关键的层次信息,一方面能够排除无关候选分句对于摘要获取的干扰,降低冗余度,另一方面也有利于通过选择出来的目标分句得到符合文档关系的目标摘要,提高可读性。故此,本方案能够降低摘要冗余度,并提高摘要可读性。
在一些公开实施例中,第一位置信息包括第一子位置信息和第二子位置信息;其中,第一子位置信息表示候选分句在所属的文档中的位置,第二子位置信息表示候选分句所属的文档在文档组中的位置。
因此,通过将第一位置信息设置为包括第一子位置信息和第二子位置信息,且第一子位置信息表示候选分句在所属的文档中的位置,第二子位置信息表示候选分句所属的文档在文档组中的位置,故第一位置信息能够从单个文档层次以及整个文档组层次两方面来描述候选分句的层次信息,从而能够准确、完整地描述候选分句的位置。
在一些公开实施例中,处理器42用于利用语义提取网络分别提取候选分句的第一语义表示,并获取候选分句的第一位置表示;其中,第一语义表示由语义提取网络中多个隐藏层的输出进行相加得到,第一位置表示包含第一位置信息;处理器42用于将第一语义表示和第一位置表示进行融合,得到句子语义表示。
因此,通过利用语义提取网络分别提取候选分句的第一语义表示,能够提高语义提取效率,并获取候选分句的第一位置表示,且第一位置表示包含第一位置信息,第一语义表示由语义提取网络中多个隐藏层的输出进行相加得到,从而能够提高第一语义表示的准确性,基于此再将第一语义表示和第一位置进行融合,得到句子语义表示,能够有利于提高提取句子语义表示的效率以及准确性。
在一些公开实施例中,每一候选分句包含若干单词,处理器42用于分别提取若干文档的文档语义表示,并分别提取若干文档中若干候选分句内的若干单词的单词语义表示;其中,文档语义表示包括文档在文档组内的第二位置信息,单词语义表示包括单词在文档组内的第三位置信息;处理器42用于对于每一候选分句,将候选分句的句子语义表示与候选分句所属的文档的文档语义表示、候选分句所含的单词的单词语义表示进行融合编码,得到候选分句的最终句子表示;处理器42用于基于最终句子表示,选择至少一个候选分句作为目标分句。
因此,对于每一候选分句,能够将候选分句,以及位于候选分句上一层级的文档、位于候选分句下一层级的单词等各种不同粒度文本的语义表示进行融合编码,得到候选分句的最终句子表示,从而能够进一步完善层次关系,进而能够有利于进一步提高选择目标分句的准确性。
在一些公开实施例中,第三位置信息包括:单词所属的候选分句的第一子位置信息和第二子位置信息,以及第三子位置信息;其中,第三子位置信息表示单词在所属候选分句中的位置,第一子位置信息表示所属候选分句在所属的文档中的位置,且第二子位置信息表示所属候选分句所属的文档在文档组中的位置。
因此,将第三位置信息设置为包括单词所属的候选分句的第一子位置信息和第二子位置信息,以及第三子位置信息,且第三子位置信息表示单词在所属候选分句中的位置,第一子位置信息表示所属候选分句在所属的文档中的位置,第二子位置信息表示所属候选分句所属的文档在文档组中的位置,故第三位置信息能够从候选分句层次、文档层次以及整个文档组层次三方面来描述单词的层次信息,从而能够准确、完整地描述单词的位置。
在一些公开实施例中,处理器42用于将属于相同文档的候选分句的第一语义表示进行融合,得到文档的第二语义表示;以及,处理器42用于获取文档的第二位置表示;其中,第二位置表示包含第二位置信息;处理器42用于将第二语义表示和第二位置表示进行融合,得到文档语义表示。
因此,通过将属于相同文档的候选分句的第一表示进行融合,得到文档的第二语义表示,并获取文档的第二位置表示,且第二位置表示包括第二位置信息,在此基础上,再将第二语义表示和第二位置表示进行融合,得到文档语义表示,有利于提高提取文档语义表示的效率和准确性。
在一些公开实施例中,处理器42用于利用语义提取网络分别提取若干文档中若干候选分句内的若干单词的第三语义表示,并获取单词的第三位置表示;其中,第三语义表示由语义提取网中多个隐藏层的输出进行相加得到,第三位置表示包含第三位置信息;处理器42用于将第三语义表示和第三位置表示进行融合,得到单词语义表示。
因此,通过融合若干文档的最终文档表示,得到文档组的文档组表示,且文档的最终文档表示是利用文档的文档语义表示和文档所含的候选分句的句子语义表示融合编码得到的,并利用文档组表示和每一目标分句的最终句子表示,得到各个目标分句的语序信息,基于此再基于目标分句和目标分句的语序信息,得到目标摘要,能够有利于进一步提高目标摘要的合理性和可读性。
在一些公开实施例中,处理器42用于分别将每一目标分句的最终句子表示和文档组表示输入语句排序网络,得到目标分句的位置分值;处理器42用于将位置分值按照预设顺序进行排序,得到位置分值所属的目标分句的语序信息。
因此,通过分别将每一目标分句的最终句子表示和文档组表示输入语句排序网络,得到目标分句的位置分值,并将位置分值按照预设顺序进行排序,得到位置分值所属的目标分句的语序信息,能够有利于捕获各个目标分句的时间线信息,从而能够有利于使得目标摘要符合时间上的逻辑关系,降低不合理性,提高目标摘要的可读性。
在一些公开实施例中,处理器42用于基于语序信息,将目标分句进行排序拼接,得到分句序列;处理器42用于将分句序列输入文档摘要网络,得到目标摘要。
因此,能够将摘要抽取和生成相结合,有利于降低目标摘要的冗余度,并提高目标摘要的可读性。
在一些公开实施例中,融合编码是由语句分类网络的编码子网络执行的,编码子网络包括预设数值层编码层,且最终句子表示和最终文档表示均是由最后一层编码层输出得到的,每一层编码层处理器42用于执行下述步骤:对于每一单词,利用当前层编码层对上一层编码层输出的单词的相关语义表示进行编码,得到单词在当前层编码层输出的单词语义表示,其中,单词的相关语义表示包括:单词和所属的候选分句中的其他单词的单词语义表示,以及单词所属的候选分句的句子语义表示;对于每一候选分句,利用当前层编码层对上一层编码层输出的候选分句的相关语义表示进行编码,得到候选分句在当前层编码层输出的句子语义表示,其中,候选分句的相关语义表示包括:候选分句和所属的文档中的其他候选分句的句子语义表示、候选分句所含的单词的单词语义表示和候选分句所属的文档的文档语义表示;对于每一文档,利用当前层编码层对上一层编码层输出的文档的相关语义表示进行编码,得到文档在当前层编码层输出的文档语义表示,其中,文档的相关语义表示包括:文档的文档语义表示和文档所含的候选分句的句子语义表示。
因此,对于每一单词,在融合编码时能够参考本单词、所属候选分句的其他单词以及所属候选分句三种相关且粒度不等的语义表示,有利于提高融合编码的准确性;而对于每一候选分句,在融合编码时能够参考本候选分句、所属文档中的其他候选分句、本候选分句所含的单词以及本候选分句所属的文档四种相关且粒度不等的语义表示,有利于提高融合编码的准确性;而对于每一个文档,在融合编码时能够参考本文档以及本文档所含的候选分句两种相关且粒度不等的语义表示,有利于提高融合编码的准确性。
在一些公开实施例中,语句分类网络还包括分类子网络,处理器42用于将候选分句的最终句子表示输入分类子网络,得到候选分句的重要分值;处理器42用于选择重要分值满足预设条件的候选分句,作为目标分句。
因此,通过将候选分句的最终句子表示输入分类子网络,得到候选分句的重要分值,并选择重要分值满足预设条件的候选分句,作为目标分句,能够提高摘要获取的效率。
在一些公开实施例中,目标摘要是利用摘要模型得到的,摘要模型包括语句分类网络和文档摘要网络,语句分类网络用于选择目标分句,文档摘要网络用于基于目标分句得到目标摘要,处理器42用于利用第一训练集训练语句分类网络至收敛,以及利用第二训练集训练文档摘要网络至收敛处理器42用于利用第三训练集训练摘要模型至收敛。
因此,摘要模型中每个网络先在各自训练任务上训练调优,再整体进行端到端训练,能够有利于提高训练效果,从而提升摘要模型的性能。
请参阅图5,图5是本申请存储装置50一实施例的框架示意图。存储装置50存储有能够被处理器运行的程序指令51,程序指令51用于实现上述任一摘要获取方法实施例中的步骤。
上述方案,能够降低摘要冗余度,并提高摘要可读性。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (15)
1.一种摘要获取方法,其特征在于,包括:
获取文档组;其中,所述文档组包含若干文档,每一所述文档包含若干候选分句;
分别提取所述若干文档中所述若干候选分句的句子语义表示;其中,所述句子语义表示包含所述候选分句在所述文档组内的第一位置信息;
基于所述句子语义表示,选择至少一个所述候选分句作为目标分句;
利用所述目标分句,得到所述文档组的目标摘要。
2.根据权利要求1所述的方法,其特征在于,所述第一位置信息包括第一子位置信息和第二子位置信息;其中,所述第一子位置信息表示所述候选分句在所属的所述文档中的位置,所述第二子位置信息表示所述候选分句所属的所述文档在所述文档组中的位置。
3.根据权利要求1或2所述的方法,其特征在于,所述分别提取所述若干文档中所述若干候选分句的句子语义表示,包括:
利用语义提取网络分别提取所述候选分句的第一语义表示,并获取所述候选分句的第一位置表示;其中,所述第一语义表示由所述语义提取网络中多个隐藏层的输出进行相加得到,所述第一位置表示包含所述第一位置信息;
将所述第一语义表示和所述第一位置表示进行融合,得到所述句子语义表示。
4.根据权利要求1所述的方法,其特征在于,每一所述候选分句包含若干单词;在所述基于所述句子语义表示,选择至少一个所述候选分句作为目标分句之前,所述方法还包括:
分别提取所述若干文档的文档语义表示,并分别提取所述若干文档中所述若干候选分句内的所述若干单词的单词语义表示;其中,所述文档语义表示包括所述文档在所述文档组内的第二位置信息,所述单词语义表示包括所述单词在所述文档组内的第三位置信息;
所述基于所述句子语义表示,选择至少一个所述候选分句作为目标分句,包括:
对于每一所述候选分句,将所述候选分句的句子语义表示与所述候选分句所属的所述文档的文档语义表示、所述候选分句所含的所述单词的单词语义表示进行融合编码,得到所述候选分句的最终句子表示;
基于所述最终句子表示,选择至少一个所述候选分句作为目标分句。
5.根据权利要求4所述的方法,其特征在于,所述第三位置信息包括:所述单词所属的所述候选分句的第一子位置信息和第二子位置信息,以及第三子位置信息;其中,所述第三子位置信息表示所述单词在所属候选分句中的位置,所述第一子位置信息表示所述所属候选分句在所属的所述文档中的位置,且所述第二子位置信息表示所述所属候选分句所属的所述文档在所述文档组中的位置。
6.根据权利要求4或5所述的方法,其特征在于,所述分别提取所述若干文档的文档语义表示,包括:
将属于相同所述文档的候选分句的第一语义表示进行融合,得到所述文档的第二语义表示;以及,
获取所述文档的第二位置表示;其中,所述第二位置表示包含所述第二位置信息;
将所述第二语义表示和所述第二位置表示进行融合,得到所述文档语义表示。
7.根据权利要求4或5所述的方法,其特征在于,所述分别提取所述若干文档中所述若干候选分句内的所述若干单词的单词语义表示,包括:
利用语义提取网络分别提取所述若干文档中所述若干候选分句内的所述若干单词的第三语义表示,并获取所述单词的第三位置表示;其中,所述第三语义表示由所述语义提取网中多个隐藏层的输出进行相加得到,所述第三位置表示包含所述第三位置信息;
将所述第三语义表示和所述第三位置表示进行融合,得到所述单词语义表示。
8.根据权利要求4所述的方法,其特征在于,所述利用所述目标分句,得到所述文档组的目标摘要,包括:
融合所述若干文档的最终文档表示,得到所述文档组的文档组表示;其中,所述文档的最终文档表示是利用所述文档的文档语义表示和所述文档所含的所述候选分句的句子语义表示融合编码得到的;
利用所述文档组表示和每一所述目标分句的最终句子表示,得到各个所述目标分句的语序信息;
基于所述目标分句和所述目标分句的语序信息,得到所述目标摘要。
9.根据权利要求8所述的方法,其特征在于,所述利用所述文档组表示和每一所述目标分句的最终句子表示,得到各个所述目标分句的语序信息,包括:
分别将每一所述目标分句的最终句子表示和所述文档组表示输入语句排序网络,得到所述目标分句的位置分值;
将所述位置分值按照预设顺序进行排序,得到所述位置分值所属的所述目标分句的语序信息。
10.根据权利要求8所述的方法,其特征在于,所述基于所述目标分句和所述目标分句的语序信息,得到所述目标摘要,包括:
基于所述语序信息,将所述目标分句进行排序拼接,得到分句序列;
将所述分句序列输入文档摘要网络,得到所述目标摘要。
11.根据权利要求8所述的方法,其特征在于,所述融合编码是由语句分类网络的编码子网络执行的,所述编码子网络包括预设数值层编码层,且所述最终句子表示和所述最终文档表示均是由最后一层所述编码层输出得到的,每一层所述编码层的编码步骤包括:
对于每一所述单词,利用当前层所述编码层对上一层所述编码层输出的所述单词的相关语义表示进行编码,得到所述单词在当前层所述编码层输出的单词语义表示,其中,所述单词的相关语义表示包括:所述单词和所属的所述候选分句中的其他单词的单词语义表示,以及所述单词所属的所述候选分句的句子语义表示;
对于每一所述候选分句,利用当前层所述编码层对上一层所述编码层输出的所述候选分句的相关语义表示进行编码,得到所述候选分句在当前层所述编码层输出的句子语义表示,其中,所述候选分句的相关语义表示包括:所述候选分句和所属的所述文档中的其他所述候选分句的句子语义表示、所述候选分句所含的所述单词的单词语义表示和所述候选分句所属的所述文档的文档语义表示;
对于每一所述文档,利用当前层所述编码层对上一层所述编码层输出的所述文档的相关语义表示进行编码,得到所述文档在当前层所述编码层输出的文档语义表示,其中,所述文档的相关语义表示包括:所述文档的文档语义表示和所述文档所含的所述候选分句的句子语义表示。
12.根据权利要求11所述的方法,其特征在于,所述语句分类网络还包括分类子网络;所述基于所述最终句子表示,选择至少一个所述候选分句作为目标分句,包括:
将所述候选分句的所述最终句子表示输入所述分类子网络,得到所述候选分句的重要分值;
选择所述重要分值满足预设条件的所述候选分句,作为所述目标分句。
13.根据权利要求1所述的方法,其特征在于,所述目标摘要是利用摘要模型得到的,所述摘要模型包括语句分类网络和文档摘要网络,所述语句分类网络用于选择所述目标分句,所述文档摘要网络用于基于所述目标分句得到所述目标摘要;所述摘要模型的训练步骤包括:
利用第一训练集训练所述语句分类网络至收敛,以及利用第二训练集训练所述文档摘要网络至收敛;
利用第三训练集训练所述摘要模型至收敛。
14.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至13任一项所述的摘要获取方法。
15.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至13任一项所述的摘要获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110484890.8A CN113282742B (zh) | 2021-04-30 | 2021-04-30 | 摘要获取方法以及电子设备、存储装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110484890.8A CN113282742B (zh) | 2021-04-30 | 2021-04-30 | 摘要获取方法以及电子设备、存储装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113282742A true CN113282742A (zh) | 2021-08-20 |
CN113282742B CN113282742B (zh) | 2022-08-12 |
Family
ID=77278010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110484890.8A Active CN113282742B (zh) | 2021-04-30 | 2021-04-30 | 摘要获取方法以及电子设备、存储装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113282742B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07244663A (ja) * | 1994-03-04 | 1995-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 文書情報要旨部分の抽出方法とその装置 |
US20050131931A1 (en) * | 2003-12-11 | 2005-06-16 | Sanyo Electric Co., Ltd. | Abstract generation method and program product |
CN105320642A (zh) * | 2014-06-30 | 2016-02-10 | 中国科学院声学研究所 | 一种基于概念语义基元的文摘自动生成方法 |
US20170277668A1 (en) * | 2016-03-28 | 2017-09-28 | Microsoft Technology Licensing, Llc | Automatic document summarization using search engine intelligence |
CN108280112A (zh) * | 2017-06-22 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
US20190129942A1 (en) * | 2017-10-30 | 2019-05-02 | Northern Light Group, Llc | Methods and systems for automatically generating reports from search results |
CN109783795A (zh) * | 2017-11-14 | 2019-05-21 | 深圳市腾讯计算机系统有限公司 | 一种摘要获取的方法、装置、设备及计算机可读存储介质 |
CN110348016A (zh) * | 2019-07-15 | 2019-10-18 | 昆明理工大学 | 基于句子关联注意力机制的文本摘要生成方法 |
CN111241267A (zh) * | 2020-01-10 | 2020-06-05 | 科大讯飞股份有限公司 | 摘要提取和摘要抽取模型训练方法及相关装置、存储介质 |
CN111506725A (zh) * | 2020-04-17 | 2020-08-07 | 北京百度网讯科技有限公司 | 生成摘要的方法和装置 |
CN111651589A (zh) * | 2020-08-10 | 2020-09-11 | 中南民族大学 | 一种针对长文档的两阶段文本摘要生成方法 |
CN111737453A (zh) * | 2020-05-29 | 2020-10-02 | 南京硅基智能科技有限公司 | 一种基于无监督的多模型融合抽取式文本摘要方法 |
CN112417853A (zh) * | 2020-12-15 | 2021-02-26 | 北京信息科技大学 | 中文专利摘要改写方法 |
CN112560479A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 |
US20210117617A1 (en) * | 2019-10-17 | 2021-04-22 | Amadeus S.A.S. | Methods and systems for summarization of multiple documents using a machine learning approach |
-
2021
- 2021-04-30 CN CN202110484890.8A patent/CN113282742B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07244663A (ja) * | 1994-03-04 | 1995-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 文書情報要旨部分の抽出方法とその装置 |
US20050131931A1 (en) * | 2003-12-11 | 2005-06-16 | Sanyo Electric Co., Ltd. | Abstract generation method and program product |
CN105320642A (zh) * | 2014-06-30 | 2016-02-10 | 中国科学院声学研究所 | 一种基于概念语义基元的文摘自动生成方法 |
US20170277668A1 (en) * | 2016-03-28 | 2017-09-28 | Microsoft Technology Licensing, Llc | Automatic document summarization using search engine intelligence |
CN108280112A (zh) * | 2017-06-22 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
US20190129942A1 (en) * | 2017-10-30 | 2019-05-02 | Northern Light Group, Llc | Methods and systems for automatically generating reports from search results |
CN109783795A (zh) * | 2017-11-14 | 2019-05-21 | 深圳市腾讯计算机系统有限公司 | 一种摘要获取的方法、装置、设备及计算机可读存储介质 |
CN110348016A (zh) * | 2019-07-15 | 2019-10-18 | 昆明理工大学 | 基于句子关联注意力机制的文本摘要生成方法 |
US20210117617A1 (en) * | 2019-10-17 | 2021-04-22 | Amadeus S.A.S. | Methods and systems for summarization of multiple documents using a machine learning approach |
CN111241267A (zh) * | 2020-01-10 | 2020-06-05 | 科大讯飞股份有限公司 | 摘要提取和摘要抽取模型训练方法及相关装置、存储介质 |
CN111506725A (zh) * | 2020-04-17 | 2020-08-07 | 北京百度网讯科技有限公司 | 生成摘要的方法和装置 |
CN111737453A (zh) * | 2020-05-29 | 2020-10-02 | 南京硅基智能科技有限公司 | 一种基于无监督的多模型融合抽取式文本摘要方法 |
CN111651589A (zh) * | 2020-08-10 | 2020-09-11 | 中南民族大学 | 一种针对长文档的两阶段文本摘要生成方法 |
CN112417853A (zh) * | 2020-12-15 | 2021-02-26 | 北京信息科技大学 | 中文专利摘要改写方法 |
CN112560479A (zh) * | 2020-12-24 | 2021-03-26 | 北京百度网讯科技有限公司 | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 |
Non-Patent Citations (7)
Title |
---|
ARNULFO AZCARRAGA ET AL.: "Keyword extraction using backpropagation neural networks and rule extraction", 《THE 2012 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 * |
ARNULFO AZCARRAGA ET AL.: "Keyword extraction using backpropagation neural networks and rule extraction", 《THE 2012 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》, 30 July 2012 (2012-07-30), pages 1 - 7 * |
吴世鑫等: "基于多特征融合模型的自动摘要", 《计算机工程与设计》, vol. 41, no. 03, 16 March 2020 (2020-03-16), pages 650 - 655 * |
唐晓波等: "基于句子主题发现的中文多文档自动摘要研究", 《情报科学》 * |
唐晓波等: "基于句子主题发现的中文多文档自动摘要研究", 《情报科学》, no. 03, 1 March 2020 (2020-03-01), pages 11 - 16 * |
贾候萍 等: "多文档摘要系统中句子排序研究", 《 第四届全国信息检索与内容安全学术会议论文集(上)》 * |
贾候萍 等: "多文档摘要系统中句子排序研究", 《 第四届全国信息检索与内容安全学术会议论文集(上)》, 30 November 2008 (2008-11-30), pages 133 - 143 * |
Also Published As
Publication number | Publication date |
---|---|
CN113282742B (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
Ling et al. | Hybrid neural network for Sina Weibo sentiment analysis | |
CN110427623A (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
Shilpa et al. | Sentiment analysis using deep learning | |
CN112580352B (zh) | 关键词提取方法、装置和设备及计算机存储介质 | |
CN111126067B (zh) | 实体关系抽取方法及装置 | |
CN112487827A (zh) | 问题回答方法及电子设备、存储装置 | |
CN113378090B (zh) | 一种互联网网站相似度分析方法、装置以及可读存储介质 | |
CN111859967A (zh) | 实体识别方法、装置,电子设备 | |
Kumar et al. | ATE-SPD: simultaneous extraction of aspect-term and aspect sentiment polarity using Bi-LSTM-CRF neural network | |
CN111339775A (zh) | 命名实体识别方法、装置、终端设备及存储介质 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
Habek et al. | Bi-Directional CNN-RNN architecture with group-wise enhancement and attention mechanisms for cryptocurrency sentiment analysis | |
Hashemzadeh et al. | Improving keyword extraction in multilingual texts. | |
CN115935983A (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN115062135A (zh) | 一种专利筛选方法与电子设备 | |
Novotný et al. | Text classification with word embedding regularization and soft similarity measure | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
Palmer et al. | Induction of a sentiment dictionary for financial analyst communication: a data-driven approach balancing machine learning and human intuition | |
Dell | Deep learning for economists | |
CN111460808B (zh) | 同义文本识别及内容推荐方法、装置及电子设备 | |
Nandi et al. | Combining multiple pre-trained models for hate speech detection in Bengali, Marathi, and Hindi | |
Endalie et al. | Designing a hybrid dimension reduction for improving the performance of Amharic news document classification | |
CN117194616A (zh) | 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质 | |
CN112270189A (zh) | 一种提问式的分析节点生成方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |