CN114254637A - 一种纪要生成方法、装置、设备及存储介质 - Google Patents
一种纪要生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114254637A CN114254637A CN202111574800.0A CN202111574800A CN114254637A CN 114254637 A CN114254637 A CN 114254637A CN 202111574800 A CN202111574800 A CN 202111574800A CN 114254637 A CN114254637 A CN 114254637A
- Authority
- CN
- China
- Prior art keywords
- sentence
- target text
- level information
- word
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种纪要生成方法、装置、设备及存储介质,其中,方法包括:获取待生成纪要的文本,作为目标文本;获取目标文本的词级信息、句级信息和话题级信息,其中,词级信息包括目标文本中词的上下文信息和目标文本的关键词信息,句级信息包括目标文本中句子的上下文信息和目标文本的重点句信息,话题级信息包括目标文本的话题分割信息;根据目标文本的词级信息、句级信息和话题级信息,生成目标文本对应的纪要。本申请提供的纪要生成方法可自动生成目标文本对应的纪要。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种纪要生成方法、装置、设备及存储介质。
背景技术
在某些应用场景中,需要获取文本对应的纪要(文本对应的纪要描述的是文本的要点),比如,在涉及会议的场景,通常需要获取会议纪要,以将会议内容、重要精神进行传达和下发。
目前,获取文本对应的纪要的方式主要为人工获取方式,即,人工对文本进行整理,以得到文本对应的纪要。然而,在某些时候,文本的篇幅较长,比如,政府、企业日常办公会议、高校学术研讨会等会议的时长普遍较长,因此,会议文本的篇幅通常较长,可以理解的是,人工对篇幅较长的文本进行整理十分耗时,即人工获取纪要的方式效率较为低下。
发明内容
有鉴于此,本申请提供了一种纪要生成方法、装置、设备及存储介质,用以解决现有的纪要获取方式效率较为低下的问题,其技术方案如下:
一种纪要生成方法,包括:
获取待生成纪要的文本,作为目标文本;
获取所述目标文本的词级信息、句级信息和话题级信息,其中,所述词级信息包括所述目标文本中词的上下文信息和所述目标文本的关键词信息,所述句级信息包括所述目标文本中句子的上下文信息和所述目标文本的重点句信息,所述话题级信息包括所述目标文本的话题分割信息;
根据所述目标文本的词级信息、句级信息和话题级信息,生成所述目标文本对应的纪要。
可选的,所述获取所述目标文本的词级信息、句级信息和话题级信息,以及,所述根据所述目标文本的词级信息、句级信息和话题级信息,生成所述目标文本对应的纪要,包括:
利用纪要生成模块的文本理解部分,获取所述目标文本的词级信息、句级信息以及话题级信息;
利用所述纪要生成模块的纪要生成部分,以所述目标文本的词级信息、句级信息和话题级信息为依据,生成所述目标文本对应的纪要。
可选的,获取所述目标文本的词级信息和句级信息,包括:
获取所述目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征,并以获取的词特征为依据,预测所述目标文本包含的每个句子中每个词为关键词的概率;
获取所述目标文本中每个句子对应的融合有上下文信息的句特征,并以获取的句特征为依据,预测所述目标文本包含的每个句子为重点句的概率;
所述目标文本包含的每个句子中每个词对应的词特征和每个句子中每个词为关键词的概率作为所述目标文本的词级信息,所述目标文本中每个句子对应的句特征和每个句子为重点句的概率作为所述目标文本的句级信息。
可选的,获取所述目标文本的词级信息和句级信息,还包括:
针对所述目标文本中的每个句子:
根据该句子中每个词为关键词的概率和该句子为重点句的概率,确定联合该句子为重点句的概率后,该句子中的每个词为关键词的概率,作为该句子中每个词对应的联合重点句概率后的关键词概率;
根据该句子中每个词为关键词的概率和该句子为重点句的概率,确定联合该句子中每个词为关键词的概率后,该句子为重点句的概率,作为该句子对应的联合关键词概率后的重点句概率;
所述目标文本包含的每个句子中每个词对应的词特征和每个句子中每个词对应的联合重点句概率后的关键词概率作为所述目标文本的词级信息,所述目标文本中每个句子对应的句特征和每个句子对应的联合关键词概率后的重点句概率,作为所述目标文本的句级信息。
可选的,获取所述目标文本的话题级信息,包括:
根据所述目标文本的句级信息,对所述目标文本进行话题分割,得到话题分割结果,作为所述目标文本的话题级信息。
可选的,所述根据所述目标文本的句级信息,对所述目标文本进行话题分割,得到话题分割结果,包括:
针对所述目标文本中的每个句子,根据该句子对应的句特征和该句子对应的联合关键词概率后的重点句概率,确定该句子对应的联合关键词概率后的句特征,并以该句子对应的联合关键词概率后的句特征为依据,预测该句子为话题结束句的概率;
根据所述目标文本中的每个句子为话题结束句的概率,确定话题分割结果。
可选的,所述以所述目标文本的词级信息、句级信息和话题级信息为依据,生成所述目标文本对应的纪要,包括:
在每个解码时刻:
根据当前解码时刻的状态向量、所述目标文本的词级信息和句级信息,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量,其中,当前解码时刻的状态向量为表示已解码结果信息的状态向量;
根据当前解码时刻的状态向量、所述目标文本的话题级信息,确定所述目标文本涉及的所有话题在当前解码时刻对应的上下文向量;
根据当前解码时刻的状态向量、所述目标文本的所有句子在当前解码时刻对应的上下文向量和所述目标文本涉及的所有话题在当前解码时刻对应的上下文向量,确定当前解码时刻的纪要生成结果。
可选的,所述根据当前解码时刻的状态向量、所述目标文本的词级信息和句级信息,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量,包括:
根据当前解码时刻的状态向量和所述目标文本的词级信息,确定所述目标文本包含的每个句子的所有词在当前解码时刻对应的上下文向量;
根据当前解码时刻的状态向量、所述目标文本包含的每个句子的所有词在当前解码时刻对应的上下文向量和所述目标文本的句级信息,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量。
可选的,所述目标文本的句级信息包括所述目标文本包含的每个句子对应的句特征和每个句子对应的联合关键词概率后的重点句概率;
所述根据当前解码时刻的状态向量、所述目标文本包含的每个句子的所有词在当前解码时刻对应的上下文向量和所述目标文本的句级信息,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量,包括:
针对所述目标文本中的每个句子,根据当前解码时刻的状态向量、该句子的所有词在当前解码时刻对应的上下文向量、该句子对应的句特征和该句子对应的联合关键词概率后的重点句概率,确定该句子在当前解码时刻对应的权重;
根据所述目标文本包含的每个句子在当前解码时刻对应的权重、每个句子对应的句特征和每个句子的所有词在当前解码时刻对应的上下文向量,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量。
可选的,所述根据当前解码时刻的状态向量、所述目标文本的话题级信息,确定所述目标文本的所有话题在当前解码时刻对应的上下文向量,包括:
根据所述目标文本的话题级信息,确定所述目标文本涉及的每个话题包含的句子;
针对所述目标文本涉及的每个话题,根据该话题包含的每个句子对应的句特征和该话题包含的每个句子的所有词在当前解码时刻对应的上下文向量,确定该话题在当前解码时刻的表示向量;
根据当前解码时刻的状态向量和所述目标文本涉及的每个话题在当前解码时刻的表示向量,确定所述目标文本涉及的所有话题在当前解码时刻对应的上下文向量。
可选的,所述纪要生成模块为纪要生成模型,所述纪要生成模型采用标注有关键词、重点句、话题结束句的训练文本以及所述训练文本对应的纪要训练得到,所述纪要生成模型的训练过程包括:
利用纪要生成模型的文本理解部分,预测所述训练文本包含的每个句子中每个词为关键词的概率、每个句子为重点句的概率以及每个句子为话题结束句的概率,以得关键词预测结果、重点句预测结果和话题结束句预测结果;
利用纪要生成模型的纪要生成部分,以所述训练文本的词级信息、句级信息和话题级信息为依据,预测所述训练文本对应的纪要,得到纪要预测结果,其中,所述训练文本的词级信息、句级信息和话题级信息基于所述纪要生成模型的文本理解部分获得;
根据所述关键词预测结果、所述重点句预测结果、所述话题结束句预测结果、所述纪要预测结果,以及所述训练文本标注的关键词、重点句、话题结束句和所述训练文本对应的纪要确定预测损失,并根据所述预测损失对纪要生成模型进行参数更新。
一种纪要生成装置,包括:文本获取模块和文本处理模块;
所述文本获取模块,用于获取待生成纪要的文本,作为目标文本;
所述文本处理模块,用于获取所述目标文本的词级信息、句级信息和话题级信息,并根据所述目标文本的词级信息、句级信息和话题级信息,生成所述目标文本对应的纪要;
其中,所述词级信息包括所述目标文本中词的上下文信息和所述目标文本的关键词信息,所述句级信息包括所述目标文本中句子的上下文信息和所述目标文本的重点句信息,所述话题级信息包括所述目标文本的话题分割信息。
可选的,所述文本处理模块,具体用于:
利用纪要生成模块的文本理解部分,获取所述目标文本的词级信息、句级信息以及话题级信息;
利用所述纪要生成模块的纪要生成部分,以所述目标文本的词级信息、句级信息和话题级信息为依据,生成所述目标文本对应的纪要。
一种纪要生成设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的纪要生成方法的各个步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的纪要生成方法的各个步骤。
本申请提供的纪要生成方法、装置、设备及存储介质,在获得待生成纪要的目标文本后,首先获取目标文本的词级信息(包括目标文本中词的上下文信息和目标文本的关键词信息)、句级信息(包括目标文本中句子的上下文信息和目标文本的重点句信息)和话题级信息(包括目标文本的话题分割信息),然后根据目标文本的词级信息、句级信息和话题级信息生成目标文本对应的纪要。本申请提供的纪要生成方法可自动生成目标文本对应的纪要,相比于人工获取纪要的方式,效率大大提高,并且,由于不需要人工参与,避免了主观因素的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的纪要生成方法的流程示意图;
图2为本申请实施例提供的一训练文本的示例;
图3为本申请实施例提供的利用纪要生成模型的文本理解部分,获取目标文本的词级信息和句级信息的一种实现方式的流程示意图;
图4为本申请实施例提供的利用纪要生成模型的文本理解部分,获取目标文本的词级信息和句级信息的另一种实现方式的流程示意图;
图5为本申请实施例提供的利用纪要生成模型的文本理解部分,以目标文本的句级信息为依据,对目标文本进行话题分割的流程示意图;
图6为本申请实施例提供的纪要生成模型的文本理解部分的一种结构示意图;
图7为本申请实施例提供的利用纪要生成模型的纪要生成部分,以目标文本的词级信息、句级信息和话题级信息为依据,生成目标文本对应的纪要的流程示意图;
图8为本申请实施例提供的采用标注有关键词、重点句、话题结束句的训练文本以及训练文本对应的纪要训练纪要生成模型的流程示意图;
图9为本申请实施例提供的纪要生成装置的结构示意图;
图10为本申请实施例提供的纪要生成设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于人工获取纪要的方式耗时较长,效率较低下,申请人试图提出一种自动获取纪要的方案,为此,申请人进行了研究,起初的思路是,基于自动文本摘要方法获取文本对应的纪要,即从文本中提取摘要,并根据提取出的摘要形成概括性的文本,以得到纪要。在基于自动文本摘要方法获取文本对应的纪要时,申请人想到,可从文本中原封不动地抽取句子来形成一个摘要,即摘要内容全部来源于文本,在从文本中抽取摘要时,可将摘要抽取看作序列标注的任务,对文本中的每个句子进行重点句/非重点句的二分类。
申请人通过对自动文本摘要方法进行研究发现,自动文本摘要方法只用于长度较短的文本,比如新闻、邮件等,其并不适用于篇幅较长的文本(比如会议文本),若将其用于长度较长的文本,会存在内存耗费较大的问题,同时,用于抽取摘要的模型无法很好地捕捉长距离依赖信息,再有,篇幅较长的文本(比如会议文本)的一个主要特点是主题漂移,以会议文本为例,会议内容有不同议程,如背景介绍、观点阐述、决策表决等,即使是有明确议题的会议,也常常包括多个小议题,也就是说,会议文本会包括多个不同话题,自动文本摘要方法难以自动学习到这些内容,导致不能聚焦核心内容。
鉴于基于自动文本摘要方法获取纪要存在诸多问题,本案发明人进一步进行研究,通过不断研究,最终提出了一种纪要生成方法,该方法可自动生成文本对应的纪要,且能够克服基于自动文本摘要方法获取纪要所存在的问题。本申请提出的纪要生成方法可应用于具有数据处理能力的电子设备,该电子设备可以为用户侧使用的终端,比如智能手机、PC、笔记本、PAD等等,该电子设备还可以为网络侧的服务器(可以为单个服务器,也可以为多个服务器或服务器集群),电子设备可按本申请提供的纪要生成方法生成文本对应的纪要。接下来通过下述实施例对本申请提供的纪要生成方法进行介绍。
第一实施例
请参阅图1,示出了本申请实施例提供的纪要生成方法的流程示意图,该方法可以包括:
步骤S101:获取待生成纪要的文本,作为目标文本。
其中,目标文本可以为篇幅较长的文本(比如会议文本),也可以为篇幅较短的文本(比如新闻、邮件等),即本申请提供的纪要生成方法适用于长文本,也适用于短文本,通用性较强。
步骤S102:获取目标文本的词级信息、句级信息和话题级信息。
本实施例中,目标文本的词级信息为与目标文本中的词有关的信息,其可以包括目标文本中词的上下文信息和目标文本的关键词信息,目标文本的关键词信息为与目标文本中的关键词有关的信息。
本实施例中,目标文本中的句级信息为与目标文本中的句子有关的信息,其可以包括目标文本中句子的上下文信息和目标文本的重点句信息,目标文本的重点句信息为与目标文本中的重点句有关的信息。
本实施例中,目标文本的话题级信息为与目标文本所涉及的话题相关的信息,其可以包括目标文本的话题分割信息,目标文本的话题分割信息能够指示目标文本所涉及的每个话题包括哪些句子。
步骤S103:根据目标文本的词级信息、句级信息和话题级信息,生成目标文本对应的纪要。
目标文本对应的纪要旨在高度凝练目标文本,覆盖并总结核心重点内容。本申请以目标文本三个不同层面的有效信息为依据,自动生成目标文本对应的纪要。
可选的,在获取目标文本的词级信息、句级信息和话题级信息,根据目标文本的词级信息、句级信息和话题级信息,生成目标文本对应的纪要时,可采用纪要生成模块获取目标文本的词级信息、句级信息和话题级信息,并根据目标文本的词级信息、句级信息和话题级信息,生成目标文本对应的纪要。
具体的,纪要生成模块可以包括文本理解部分和纪要生成部分,可利用纪要生成模块的文本理解部分对目标文本进行理解,以获得目标文本三个层面的信息,即词级信息、句级信息和话题级信息,可利用纪要生成模块的纪要生成部分,以目标文本三个层面的信息为依据,生成目标文本对应的纪要。
可选的,纪要生成模块可以为纪要生成模型,纪要生成模型采用标注有关键词、重点句、话题结束句的训练文本以及训练文本对应的纪要训练得到。图2示出了一训练文本的示例(图2中加粗的句子为重点句,加阴影的词为关键词,标数字标识的句子为话题结束句),图2示出的训练文本对应的纪要为“重点工作包括,奇缘佳韵的宣传和物料准备工作,海运形象店的效果图设计,以及联通春交会的跟进,内容包括方案及寻找场地。”
需要说明的是,本实施例并不限定纪要生成模块为纪要生成模型,即,纪要生成模块还可以为通过非模型的方式实现纪要生成的模块,比如,基于设定规则实现纪要生成的模块(比如,基于设定的信息抽取规则,抽取目标文本三个层面的信息,基于设定的纪要生成规则,以目标文本三个层面的信息为依据,生成目标文本对应的纪要),只要是包括能够实现对目标文本进行理解,以获得目标文本三个层面的信息的文本理解部分,以及包括能够实现以目标文本三个层面的信息为依据,生成目标文本对应的纪要的部分的模块均属于本申请保护的范围,即,本申请对获取目标文本三个层面的信息和以目标文本三个层面的信息为依据生成目标文本对应的纪要具体实现形式不做具体限定。
本申请实施例提供的纪要生成方法,在获得待生成纪要的目标文本后,首先获取目标文本的词级信息、句级信息和话题级信息,然后根据目标文本的词级信息、句级信息和话题级信息生成目标文本对应的纪要。本申请实施例提供的纪要生成方法可获取目标文本三个不同层面的信息,进而以目标文本三个不同层面的信息为依据生成目标文本对应的纪要,即,本申请实施例提供的纪要生成方法可自动生成目标文本对应的纪要,相比于人工获取纪要的方式,耗时大大减少,效率大大提高,并且,由于不需要人工参与,避免了主观因素的影响。
第二实施例
上述实施例提到,可利用纪要生成模块的文本理解部分,获取目标文本的词级信息、句级信息和话题级信息,可利用纪要生成模块的纪要生成部分,以目标文本的词级信息、句级信息和话题级信息的信息为依据,生成目标文本对应的纪要,且上述实施例提到,纪要生成模块可以为纪要生成模型,本实施例以纪要生成模块为纪要生成模型为例,对生成目标文本对应的纪要的具体实现过程进行介绍说明。
首先对利用纪要生成模型的文本理解部分,获取目标文本的词级信息和句级信息的过程进行介绍。
利用纪要生成模型的文本理解部分,获取目标文本的词级信息和句级信息实现方式有多种,请参阅图3,示出了其中一种实现方式的流程示意图,可以包括:
步骤S301:利用纪要生成模型的文本理解部分,获取目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征,并以目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征为依据,预测目标文本包含的每个句子中每个词为关键词的概率。
其中,利用纪要生成模型的文本理解部分,获取目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征的过程包括:
步骤a1、对目标文本进行分句处理,以得到目标文本中的每个句子。
对目标文本进行分句处理的实现方式有多种,在一种可能的实现方式中,可按标点符号对目标文本进行分句,在另一种可能的实现方式,可采用设定长度的滑窗对目标文本进行分句。本实施例并不对分句处理的实现方式进行限定,即本申请提供的纪要生成方法对于分句方式并无具体要求。
步骤a2、对通过分句处理得到的每个句子进行分词处理,以得到目标文本中每个句子对应的词序列。
可采用现有的分词方式对通过分句处理得到的每个句子进行分词处理。示例性的,通过分句处理得到的一个句子为“接下来的重点工作是春交会的一个跟进。”,对其进行分词后得到“接下来/的/重点/工作/是/春交会/的/一个/跟进。”
步骤a3、获取目标文本中每个句子对应的词序列中每个词的表示向量,以得到目标文本中每个句子对应的词表示向量序列。
获取一个词的表示向量的实现方式有多种:在一种可能的实现方式中,可获取表征该词本身的向量(可以但不限定为采用word2vec方法获得),作为该词的表示向量;在另一种可能的实现方式中,可获取表征该词本身的向量以及表征该词对应的说话人的向量,将表征该词本身的向量与表征该词对应的说话人的向量拼接,拼接后向量作为该词的表示向量,示例性的,目标文本中包括A、B、C、D、E这5个说话人的说话内容,目标文本中的一个句子对应的词序列为“接下来/的/重点/工作/是/春交会/的/一个/跟进。”,假设该句子对应的说话人为说话人(该句子对应的词序列中每个词对应的说话人即为该句子对应的说话人)为说话人D,则对于该句子对应的词序列“接下来/的/重点/工作/是/春交会/的/一个/跟进。”中的每个词,可将表征该词本身的向量与表征说话人D的向量拼接,拼接后向量作为该词的表示向量,比如,对于词“重点”而言,将表征词“重点”本身的向量与表征说话人D的向量拼接,拼接后向量作为词“重点”的表示向量。
步骤a3、利用纪要生成模型的文本理解部分,以目标文本中每个句子对应的词表示向量序列为依据,确定目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征。
具体的,将目标文本中每个句子对应的词表示向量序列输入纪要生成模型的文本理解部分,纪要生成模型的文本理解部分根据目标文本中每个句子对应的词表示向量序列确定目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征。
在获得目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征后,便可利用纪要生成模型的文本理解部分,以目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征为依据,预测目标文本包含的每个句子中每个词为关键词的概率。
可选的,在预测出目标文本包含的每个句子中每个词为关键词的概率后,可根据预测出的概率确定目标文本中包含的关键词。
在该实现方式中,将目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征,以及,目标文本包含的每个句子中每个词为关键词的概率,作为目标文本的词级信息。
步骤S302:利用纪要生成模型的文本理解部分,获取目标文本中每个句子对应的融合有上下文信息的句特征,并以目标文本中每个句子对应的融合有上下文信息的句特征为依据,预测目标文本中每个句子为重点句的概率。
其中,利用纪要生成模型的文本理解部分,获取目标文本中每个句子对应的融合有上下文信息的句特征的过程可以包括:
步骤b1、利用纪要生成模型的文本理解部分,以目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征为依据,获取目标文本包含的每个句子的表示向量。
步骤b2、利用纪要生成模型的文本理解部分,以目标文本包含的每个句子的表示向量为依据,确定目标文本中每个句子对应的融合有上下文信息的句特征。
在获得目标文本中每个句子对应的融合有上下文信息的句特征后,便可利用纪要生成模型的文本理解部分,以目标文本中每个句子对应的融合有上下文信息的句特征为依据,预测目标文本中每个句子为重点句的概率。
可选的,在预测出目标文本中每个句子为重点句的概率后,可根据预测出的概率确定目标文本中包含的重点句。
在该实现方式中,将目标文本中每个句子对应的融合有上下文信息的句特征,以及,目标文本中每个句子为重点句的概率,作为目标文本的句级信息。
考虑到上述的关键词预测和重点句预测独立进行,未将二者进行联系,为了提升后续的纪要生成效果,本实施例提供了利用纪要生成模型的文本理解部分,获取目标文本的词级信息和句级信息的另一种较为优选的实现方式,请参阅图4,示出了该实现方式的流程示意,可以包括:
步骤S401:利用纪要生成模型的文本理解部分,获取目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征,并以目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征为依据,预测目标文本包含的每个句子中每个词为关键词的概率。
步骤S402:利用纪要生成模型的文本理解部分,获取目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征,并以目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征为依据,预测目标文本包含的每个句子中每个词为关键词的概率。
步骤S401和步骤S402的具体实现过程可参阅步骤S301和步骤S302的具体实现过程,本实施例在此不做赘述。
步骤S403:针对目标文本中的每个句子,根据该句子中每个词为关键词的概率和该句子为重点句的概率,确定联合该句子为重点句的概率后,该句子中的每个词为关键词的概率,作为该句子中每个词对应的联合重点句概率后的关键词概率。
其中,为根据词Cij对应的融合有上下文信息的词特征预测的词Cij为关键词的概率,为根据句子Si对应的融合有上下文信息的句特征预测的句子Si为重点句的概率,mi是句子Si包含的词数。上式的物理含义为,联合词Cij所在句子Si为重点句的概率词Cij为关键词的概率由转换成
步骤S404:针对目标文本中的每个句子,根据该句子中每个词为关键词的概率和该句子为重点句的概率,确定联合该句子中每个词为关键词的概率后,该句子为重点句的概率,作为该句子对应的联合关键词概率后的重点句概率。
具体的,针对目标文本中的每个句子,可首先对该句子中各个词为关键词的概率求均值,得到该句子对应的关键词概率均值,根据该句子对应的关键词概率均值和该句子为重点句的概率,确定该句子对应的联合关键词概率后的重点句概率。
其中,表示句子Si对应的关键词概率均值,即为根据句子Si对应的融合有上下文信息的句特征预测的句子Si为重点句的概率,上式的物理含义为,联合句子Si对应的关键词概率均值,句子Si为为重点句的概率由转换成n表示目标文本包含的句子的数量。
其中,mi是句子Si包含的词数。
在该实现方式中,目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征和每个句子中每个词对应的联合重点句概率后的关键词概率作为目标文本的词级信息,目标文本中每个句子对应的融合有上下文信息的句特征和每个句子对应的联合关键词概率后的重点句概率,作为目标文本的句级信息。
接下来对利用纪要生成模型的文本理解部分,获取目标文本的话题级信息的过程进行介绍。
利用纪要生成模型的文本理解部分,获取目标文本的话题级信息的过程可以包括:利用纪要生成模型的文本理解部分,以目标文本的句级信息为依据,对目标文本进行话题分割,得到话题分割结果,作为目标文本的话题级信息。
由于目标文本的句级信息优选为包括目标文本中每个句子对应的融合有上下文信息的句特征和每个句子对应的联合关键词概率后的重点句概率,接下来以此为例,给出利用纪要生成模型的文本理解部分,以目标文本的句级信息为依据,对目标文本进行话题分割的实现过程,如图5所示,可以包括:
步骤S501:针对目标文本中的每个句子,利用纪要生成模型的文本理解部分执行:
步骤S5011:根据该句子对应的句特征和该句子对应的联合关键词概率后的重点句概率,确定该句子对应的联合关键词概率后的句特征。
步骤S5012:以该句子对应的联合关键词概率后的句特征为依据,预测该句子为话题结束句的概率。
经由步骤S501可获得目标文本中每个句子为话题结束句的概率。
步骤S502:根据目标文本中的每个句子为话题结束句的概率,确定话题分割结果。
请参阅图6,示出了纪要生成模型的文本理解部分的一结构示意图,其可以包括:词特征获取模块6011、关键词预测模块6012、句子表示获取模块6021、句特征获取模块6022、重点句预测模块6023、联合关键词分布和重点句分布的特征提取模块603和话题分割模块604。
可选的,词特征获取模块6011可采用Transformer的encoder部分,或者采用双向LSTM,关键词预测模块6012可采用线性层接非线性激活函数层,句子表示获取模块6021可采用注意力层或池化层,句特征获取模块6022可采用Transformer的encoder部分,或者采用双向LSTM,重点句预测模块6023可采用线性层接非线性激活函数层,话题分割模块604可采用线性层接非线性激活函数层。
下面结合图6,对利用纪要生成模型的文本理解部分,获取目标文本的词级信息、句级信息和话题级信息的过程进一步进行介绍:
首先获取目标文本包含的每个句子对应的词表示向量序列,然后将目标文本包含的每个句子对应的词表示向量序列输入词特征获取模块6011,词特征获取模块6011根据每个句子对应的词表示向量序列获取每个句子中每个词对应的融合有上下文信息的词特征,比如,将目标文本的第一个句子对应的词表示向量序列W11,W12…,W1m1(W1j为第一个句子中第j个词的表示向量)输入词特征获取模块6011,词特征获取模块6011输出(为第一个句子中第j个词对应的融合有上下文信息的词特征),在获得每个句子中每个词对应的融合有上下文信息的词特征后,将每个句子中每个词对应的融合有上下文信息的词特征输入关键词预测模块6012,关键词预测模块6012根据每个句子中每个词对应的融合有上下文信息的词特征预测每个句子中每个词为关键词的概率,比如,将第一个句子中每个词对应的融合有上下文信息的词特征输入关键词预测模块6012,关键词预测模块6012输出第一个句子中每个词为关键词的概率
在获得每个句子中每个词对应的融合有上下文信息的词特征后,可将其输入句子表示获取模块6021,句子表示获取模块6021根据每个句子中每个词对应的融合有上下文信息的词特征获取每个句子的表示向量,比如,将第一个句子中每个词对应的融合有上下文信息的词特征输入输入句子表示获取模块6021,句子表示获取模块6021输出第一个句子的表示向量s1,其它句子类似,在获得各个句子的表示向量s1,s2…,sn后,将各个句子的表示向量s1,s2…,sn输入句特征获取模块6022,句特征获取模块6022根据各个句子的表示向量s1,s2…,sn获取各个句子分别对应的融合有上下文信息的句特征将各个句子分别对应的融合有上下文信息的句特征输入重点句预测模块6023,重点句预测模块6023根据输入预测各个句子分别为重点句的概率并输出。
针对目标文本中的每个句子,在获得该句子中每个词为关键词的概率以及该句子为重点句的概率后,将该句子中每个词为关键词的概率以及该句子为重点句的概率输入联合关键词分布和重点句分布的特征提取模块603,联合关键词分布和重点句分布的特征提取模块603按上式(1)示出的计算方式计算得到该句子中每个词对应的联合重点句概率后的关键词概率,并按上式(2)示出的计算方式计算得到该句子对应的联合关键词概率后的重点句概率。
针对目标文本中的每个句子,在获得该句子对应的融合有上下文信息的句特征以及该句子对应的联合关键词概率后的重点句概率后,将该句子对应的融合有上下文信息的句特征以及该句子对应的联合关键词概率后的重点句概率输入话题分割模块604,话题分割模块604首先根据输入确定该句子对应的联合关键词概率后的句特征,然后根据该句子对应的联合关键词概率后的句特征预测该句子为话题结束句的概率,最后根据该句子为话题结束句的概率确定该句子是否为话题结束句。
经由上述过程可获得目标文本的词级信息、句级信息和话题级信息。
需要说明的是,本实施例并不限定纪要生成模型的文本理解部分的结构为图6示出的结构,图6示出的结构仅为示例,只要是按图3~图5示出的流程获取目标文本的三个层面信息的结构均属于本申请保护的范围。
上述内容介绍了利用预先建立的纪要生成模型的文本理解部分,获取目标文本的词级信息、句级信息以及话题级信息的过程,接下来对利用纪要生成模型的纪要生成部分,以目标文本的词级信息、句级信息和话题级信息为依据,生成目标文本对应的纪要的过程进行介绍。
在本实施例中,纪要生成模型的纪要生成部分为解码模块,可选的,解码模块的结构可以采用Transformer中decoder结构,或者采用LSTM结构,在生成目标文本对应的纪要时,利用解码模块以目标文本的词级信息、句级信息和话题级信息逐个预测用于组成纪要的词。
请参阅图7,示出了利用纪要生成模型的解码模块以目标文本的词级信息、句级信息和话题级信息逐个预测用于组成纪要的词的过程,可以包括:
步骤S701:在每个解码时刻,根据当前解码时刻的状态向量、目标文本的词级信息和句级信息,确定目标文本的所有句子在当前解码时刻对应的上下文向量。
其中,当前解码时刻的状态向量为表示已解码结果信息的状态向量,其通过对历史解码信息进行信息融合编码得到。
具体的,根据当前解码时刻的状态向量、目标文本的词级信息和句级信息,确定目标文本的所有句子在当前解码时刻对应的上下文向量的过程可以包括:
步骤S7011、根据当前解码时刻的状态向量和目标文本的词级信息,确定目标文本包含的每个句子的所有词在当前解码时刻对应的上下文向量。
本实施例以目标文本的词级信息包括目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征和每个句子中每个词对应的联合重点句概率后的关键词概率为例,给出步S7011的具体实现过程:
针对目标文本包含的每个句子,执行:
步骤c1、根据当前解码时刻的状态向量、该句子中每个词对应的融合有上下文信息的词特征和该句子中每个词对应的联合重点句概率后的关键词概率,确定该句子中各个词分别对应的权重。
以目标文本中的第i个句子Si为例:假设当前解码时刻为第t时刻,目标文本中第i个句子Si中的第j个词Cij对应的权重可按下式示出的方式确定:
其中,dt表示第t时刻的状态向量,表示第i个句子Si中的第j个词Cij对应的融合有上下文信息的词特征,Attention()表示注意力机制计算函数,可以但不限定为采用self-attention及加性attention等方式,具体实现过程与现有技术一致,本实施例在此不做赘述,表示词Cij在第t时刻对应的注意力系数,表示词Cij对应的联合重点句概率后的关键词概率,表示词Cij对应的权重,通过对进行优化改进得到。
需要说明的是,本实施例并不限定将作为词Cij对应的权重,比如,也可将作为词Cij对应的权重,但是,考虑到关键词及重点句对纪要生成的影响,为了后续能够获得较好的纪要生成效果,本实施例优选将作为词Cij对应的权重。
步骤c2、根据该句子中各个词分别对应的权重和该句子中各个词分别对应的融合有上下文信息的词特征,确定该句子的所有词在当前解码时刻对应的上下文向量。
在确定出该句子中各个词分别对应的权重后,可该句子中各个词分别对应的权重与对应词对应的融合有上下文信息的词特征加权求和,加权求和后得到向量作为该句子的所有词在当前解码时刻对应的上下文向量。
步骤S7012、根据当前解码时刻的状态向量、目标文本包含的每个句子的所有词在该前解码时刻对应的上下文向量和目标文本的句级信息,确定目标文本的所有句子在当前解码时刻对应的上下文向量。
以目标文本的句级信息包括目标文本中每个句子对应的句特征和每个句子对应的联合关键词概率后的重点句概率为例,给出步骤S7012的具体实现过程:
步骤d1、针对目标文本包含的每个句子,根据当前解码时刻的状态向量、该句子的所有词在当前解码时刻对应的上下文向量、该句子对应的融合有上下文信息的句特征和该句子对应的联合关键词概率后的重点句概率,确定该句子对应的权重。
以目标文本中的第i个句子Si为例:假设当前解码时刻为第t时刻,目标文本中第i个句子Si对应的权重可按下式示出的方式确定:
其中,dt表示第t时刻的状态向量,表示第i个句子Si对应的融合有上下文信息的句特征,表示句子Si的所有词在第t个时刻对应的上下文向量,Attention()表示注意力机制计算函数,可以但不限定为采用self-attention及加性attention等方式,具体实现过程与现有技术一致,本实施例在此不做赘述,表示句子Si对应的注意力系数,表示句子Si对应的联合关键词概率后的重点句概率,表示句子Si对应的权重,其通过对进行优化改进得到。
需要说明的是,本实施例并不限定将作为句子Si对应的权重,比如,也可将作为句子Si对应的权重,但考虑到关键词及重点句对纪要生成的影响,为了后续能够获得较好的纪要生成效果,本实施例优选将作为句子Si对应的权重。
步骤d2、根据目标文本中每个句子对应的权重、每个句子对应的融合有上下文信息的句特征句特征和每个句子的所有词在当前解码时刻对应的上下文向量,确定目标文本的所有句子在当前解码时刻对应的上下文向量。
在确定出目标文本中各个句子分别对应的权重后,针对每个句子,可将该句子对应的融合有上下文信息的句特征与该句子的所有词在当前解码时刻对应的上下文向量拼接,以得到每个句子对应的拼接向量,在获得每个句子对应的拼接向量后,可按各个句子分别对应的权重对对应句子对应的拼接向量加权求和,加权求和后向量作为目标文本的所有句子在当前解码时刻对应的上下文向量。
步骤S702:根据当前解码时刻的状态向量和目标文本的话题级信息,确定目标文本涉及的所有话题在当前解码时刻对应的上下文向量。
具体的,步骤S702的实现过程可以包括:
步骤S7021、根据目标文本的话题级信息,确定目标文本涉及的每个话题包含的句子。
上述内容提到,目标文本的话题级信息可以为目标文本的话题分割结果,根据目标文本的话题分割结果可确定出目标文本涉及的每个话题包含的句子。
步骤S7022、针对每个话题,根据该话题包含的每个句子对应的句特征和该话题包含的每个句子的所有词在当前解码时刻对应的上下文向量,确定该话题在当前解码时刻的表示向量。
以目标文本所涉及的Z个话题中的第z个话题为例:假设当前解码时刻为第t时刻,可按下式示出的方式确定第z个话题在第t时刻的表示向量:
其中,表示属于第z个话题的句子编号范围,表示第z个话题包含的句子中的第q个句子对应的融合有上下文信息的句特征,表示第z个话题包含的句子中的第q个句子的所有词在第t时刻对应的上下文向量,表示第z个话题包含的句子中的第q个句子对应的权重。
步骤S7023、根据当前解码时刻的状态向量和目标文本涉及的每个话题在当前解码时刻的表示向量,确定目标文本涉及的所有话题在当前解码时刻对应的上下文向量。
具体的,首先根据当前解码时刻的状态向量和目标文本涉及的每个话题在当前解码时刻的表示向量,确定目标文本涉及的每个话题在当前解码时刻对应的权重,然后按目标文本涉及的各个话题在当前解码时刻分别对应的权重对各个话题在当前解码时刻的表示向量加权求和,加权求和后向量作为目标文本涉及的所有话题在当前解码时刻对应的上下文向量。
步骤S703:根据当前解码时刻的状态向量、目标文本的所有句子在当前解码时刻对应的上下文向量和目标文本涉及的所有话题在当前解码时刻对应的上下文向量,确定当前解码时刻的纪要生成结果。
假设当前解码时刻为第t时刻,则可按下式确定第t时刻的纪要生成结果yt:
其中,class()表示分类层计算,分类层可采用线性层接非线性激活函数层,分类层的具体计算过程与现有技术相同,本实施例在此不再详述。
第三实施例
上述实施例给出了利用预先建立的纪要生成模型获取目标文本的词级信息、句级信息和话题级信息,并以目标文本的词级信息、句级信息和话题级信息的信息为依据,生成目标文本对应的纪要的具体过程,本实施例重点对建立纪要生成模型的过程进行介绍。
上述实施例提到,纪要生成模型可采用标注有关键词、重点句、话题结束句的训练文本以及训练文本对应的纪要训练得到。接下来给出采用标注有关键词、重点句、话题结束句的训练文本以及训练文本对应的纪要训练纪要生成模型的过程,如图8所示,可以包括:
步骤S801:从训练数据集中获取训练文本。
其中,训练数据集中包括多个训练文本,每个训练文本标注有关键词、重点句和话题结束句,且每个训练文本具有对应的纪要。
需要说明的是,为训练文本标注关键词、重点句和话题结束句的过程为构建训练文本包含的每个句子中每个词对应的关键词标签、每个句子对应的重点句标签、每个句子对应的话题结束句标签的过程,在构建一个词对应的关键词标签时,若该词为关键词,则该词对应的关键词标签为“1”,若该词为非关键词,则该词对应的关键词标签为“0”,在构建一个句子对应的重点句标签时,若该句子为重点句,则该句子对应的重点句标签为“1”,若该句子为非重点句,则该句子对应的重点句标签为“0”,在构建一个句子对应的话题结束句标签时,若该句子为话题结束句,则该句子对应的话题结束句标签为“1”,若该句子为非话题结束句,则该句子对应的话题结束句标签为“0”。示例性的,一训练文本分句处理后共包含5个句子,第1、2个句子属于话题1,第3-5个句子属于话题2,对于训练文本包含的5个句子,话题结束句标签为“0 1 0 0 1”(第2、5个句子为话题结束句),重点句标签为“0 0 0 1 0”(第4个句子为重点句)。
步骤S802:利用纪要生成模型的文本理解部分,预测训练文本包含的每个句子中每个词为关键词的概率、训练文本包含的每个句子为重点句的概率以及训练文本包含的每个句子为话题结束句的概率,以得关键词预测结果、重点句预测结果和话题结束句预测结果。
利用纪要生成模型的文本理解部分,预测训练文本包含的每个句子中每个词为关键词的概率、训练文本包含的每个句子为重点句的概率以及训练文本包含的每个句子为话题结束句的概率的具体实现过程与第二实施例中利用纪要生成模型的文本理解部分,预测目标文本包含的每个句子中每个词为关键词的概率、目标文本包含的每个句子为重点句的概率以及目标文本包含的每个句子为话题结束句的概率的具体实现过程类似,具体可参见第二实施例中的相关部分,本实施例在此不做赘述。
步骤S803:利用纪要生成模型的纪要生成部分,以训练文本的词级信息、句级信息和话题级信息为依据,预测训练文本对应的纪要,得到纪要预测结果。
其中,训练文本的词级信息、句级信息和话题级信息利用纪要生成模型的文本理解部分获得。
利用纪要生成模型的文本理解部分获取训练文本的词级信息、句级信息和话题级信息的实现方式与第二实施例中利用纪要生成模型的文本理解部分获取目标文本的词级信息、句级信息和话题级信息的实现方式类似,具体可参见第二实施例中的相关部分,本实施例在此不做赘述。
需要说明的是,纪要生成模型的训练阶段与实际应用阶段获取的词级信息和句级信息需一致,比如,训练阶段获取的词级信息包括训练文本包含的每个句子中每个词对应的融合有上下文信息的词特征和每个词对应的联合重点句后的关键词概率,则实际应用阶段的词信息也相应包括目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征和每个词对应的联合重点句后的关键词概率,句级信息类似。
步骤S804:根据关键词预测结果、重点句预测结果、话题结束句预测结果、纪要预测结果,以及训练文本标注的关键词、重点句、话题结束句和训练文本对应的纪要确定预测损失,并根据预测损失对纪要生成模型进行参数更新。
具体的,可根据关键词预测结果、重点句预测结果和训练文本标注的关键词、重点句,确定第一预测损失(比如交叉熵损失),根据话题结束句预测结果和训练文本标注的话题结束句确定第二预测损失(比如交叉熵损失),根据纪要预测结果和训练文本对应的纪要确定第三预测损失(比如交叉熵损失),根据第一预测损失、第二预测损失和第三预测损失对纪要生成模型进行参数更新。需要说明的是,第一预测损失用于对纪要生成模型的文本理解部分中的关键词和重点句预测部分的参数进行更新,第二预测损失用于对纪要生成模型的文本理解部分中的话题结束句预测部分进行参数更新,第三预测损失用于对要生成模型的纪要生成部分的参数进行更新。可选的,在对模型的参数进行更新时,可基于SGD算法进行更新。
按上述方式对纪要生成模型进行多次迭代训练,直至满足训练结束条件,训练结束后得到的模型即为建立的纪要生成模型。
本申请提供的纪要生成方法,可自动生成文本对应的纪要,不需要人工人与,避免了人工获取纪要存在的问题;本申请提供的纪要生成方法除了可以生成文本对应的纪要外,还可抽取出文本中的关键词、重点句以及实现话题分割;在训练纪要生成模型时,充分考虑任务与任务之间的潜在联系,相辅相成,共同学习,最终训练出性能较佳的纪要生成模型,利用性能较佳的纪要生成模型能够针对待生成纪要的目标文本生成质量较佳的纪要。
第四实施例
本申请实施例还提供了一种纪要生成装置,下面对本申请实施例提供的纪要生成装置进行描述,下文描述的纪要生成装置与上文描述的纪要生成方法可相互对应参照。
请参阅图9,示出了本申请实施例提供的纪要生成装置的结构示意图,可以包括:文本获取模块901和文本处理模块902。
文本获取模块901,用于获取待生成纪要的文本,作为目标文本;
文本处理模块902,用于获取所述目标文本的词级信息、句级信息和话题级信息,并根据所述目标文本的词级信息、句级信息和话题级信息,生成所述目标文本对应的纪要。
其中,所述词级信息包括所述目标文本中词的上下文信息和所述目标文本的关键词信息,所述句级信息包括所述目标文本中句子的上下文信息和所述目标文本的重点句信息,所述话题级信息包括所述目标文本的话题分割信息。
可选的,文本处理模块902具体用于:
利用纪要生成模块,获取所述目标文本的词级信息、句级信息以及话题级信息;利用所述纪要生成模型,以所述目标文本的词级信息、句级信息和话题级信息为依据,生成所述目标文本对应的纪要。
可选的,所述纪要生成模块包括文本理解部分和纪要生成部分,其中,所述文本理解部分用于获取所述目标文本的词级信息、句级信息以及话题级信息,所述纪要生成部分用于以所述目标文本的词级信息、句级信息和话题级信息为依据,生成所述目标文本对应的纪要。
可选的,纪要生成模块的文本理解部分在获取目标文本的词级信息、句级信息时具体用于:
获取所述目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征,并以获取的词特征为依据,预测所述目标文本包含的每个句子中每个词为关键词的概率;获取所述目标文本中每个句子对应的融合有上下文信息的句特征,并以获取的句特征为依据,预测所述目标文本包含的每个句子为重点句的概率;所述目标文本包含的每个句子中每个词对应的词特征和每个句子中每个词为关键词的概率作为所述目标文本的词级信息,所述目标文本中每个句子对应的句特征和每个句子为重点句的概率作为所述目标文本的句级信息。
可选的,纪要生成模块的文本理解部分在获取目标文本的词级信息、句级信息时还用于:
针对所述目标文本中的每个句子,根据该句子中每个词为关键词的概率和该句子为重点句的概率,确定联合该句子为重点句的概率后,该句子中的每个词为关键词的概率,作为该句子中每个词对应的联合重点句概率后的关键词概率;根据该句子中每个词为关键词的概率和该句子为重点句的概率,确定联合该句子中每个词为关键词的概率后,该句子为重点句的概率,作为该句子对应的联合关键词概率后的重点句概率;所述目标文本包含的每个句子中每个词对应的词特征和每个句子中每个词对应的联合重点句概率后的关键词概率作为所述目标文本的词级信息,所述目标文本中每个句子对应的句特征和每个句子对应的联合关键词概率后的重点句概率,作为所述目标文本的句级信息。
可选的,所述纪要生成模块的文本理解部分在获取所述目标文本的话题级信息时具体用于:
根据所述目标文本的句级信息,对所述目标文本进行话题分割,得到话题分割结果,作为所述目标文本的话题级信息。
可选的,所述纪要生成模块的文本理解部分在根据所述目标文本的句级信息,对所述目标文本进行话题分割,得到话题分割结果时,具体用于:
针对所述目标文本中的每个句子,该句子对应的句特征和该句子对应的联合关键词概率后的重点句概率,确定该句子对应的联合关键词概率后的句特征,并以该句子对应的联合关键词概率后的句特征为依据,预测该句子为话题结束句的概率;根据所述目标文本中的每个句子为话题结束句的概率,确定话题分割结果。
可选的,所述纪要生成模块的纪要生成部分在以所述目标文本的词级信息、句级信息和话题级信息为依据,生成所述目标文本对应的纪要时,具体用于:
在每个解码时刻:根据当前解码时刻的状态向量、所述目标文本的词级信息和句级信息,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量,其中,当前解码时刻的状态向量为表示已解码结果信息的状态向量;根据当前解码时刻的状态向量、所述目标文本的话题级信息,确定所述目标文本涉及的所有话题在当前解码时刻对应的上下文向量;根据当前解码时刻的状态向量、所述目标文本的所有句子在当前解码时刻对应的上下文向量和所述目标文本涉及的所有话题在当前解码时刻对应的上下文向量,确定当前解码时刻的纪要生成结果。
可选的,所述纪要生成模块的纪要生成部分在根据当前解码时刻的状态向量、所述目标文本的词级信息和句级信息,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量时,具体用于:
根据当前解码时刻的状态向量和所述目标文本的词级信息,确定所述目标文本包含的每个句子的所有词在当前解码时刻对应的上下文向量;根据当前解码时刻的状态向量、所述目标文本包含的每个句子的所有词在当前解码时刻对应的上下文向量和所述目标文本的句级信息,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量。
可选的,所述目标文本的句级信息包括所述目标文本包含的每个句子对应的句特征和每个句子对应的联合关键词概率后的重点句概率。所述纪要生成模块的纪要生成部分在根据当前解码时刻的状态向量、所述目标文本包含的每个句子的所有词在当前解码时刻对应的上下文向量和所述目标文本的句级信息,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量时,具体用于:
针对所述目标文本中的每个句子,根据当前解码时刻的状态向量、该句子的所有词在当前解码时刻对应的上下文向量、该句子对应的句特征和该句子对应的联合关键词概率后的重点句概率,确定该句子在当前解码时刻对应的权重;根据所述目标文本包含的每个句子在当前解码时刻对应的权重、每个句子对应的句特征和每个句子的所有词在当前解码时刻对应的上下文向量,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量。
可选的,所述纪要生成模块的纪要生成部分在根据当前解码时刻的状态向量、所述目标文本的话题级信息,确定所述目标文本的所有话题在当前解码时刻对应的上下文向量时,具体用于:
根据所述目标文本的话题级信息,确定所述目标文本涉及的每个话题包含的句子;针对所述目标文本涉及的每个话题,根据该话题包含的每个句子对应的句特征和该话题包含的每个句子的所有词在当前解码时刻对应的上下文向量,确定该话题在当前解码时刻的表示向量;根据当前解码时刻的状态向量和所述目标文本涉及的每个话题在当前解码时刻的表示向量,确定所述目标文本涉及的所有话题在当前解码时刻对应的上下文向量。
可选的,所述纪要生成模块为纪要生成模型,所述纪要生成模型采用标注有关键词、重点句、话题结束句的训练文本以及所述训练文本对应的纪要训练得到。本实施例提供的纪要生成装置还包括:模型训练模块。模型训练模块,用于:
利用纪要生成模型的文本理解部分,预测所述训练文本包含的每个句子中每个词为关键词的概率、每个句子为重点句的概率以及每个句子为话题结束句的概率,以得关键词预测结果、重点句预测结果和话题结束句预测结果;利用纪要生成模型的纪要生成部分,以所述训练文本的词级信息、句级信息和话题级信息为依据,预测所述训练文本对应的纪要,得到纪要预测结果,其中,所述训练文本的词级信息、句级信息和话题级信息基于所述纪要生成模型的文本理解部分获得;根据所述关键词预测结果、所述重点句预测结果、所述话题结束句预测结果、所述纪要预测结果,以及所述训练文本标注的关键词、重点句、话题结束句和所述训练文本对应的纪要确定预测损失,并根据所述预测损失对纪要生成模型进行参数更新。
本申请实施例提供的纪要生成装置,在获得待生成纪要的目标文本后,首先获取目标文本的词级信息、句级信息和话题级信息,然后根据目标文本的词级信息、句级信息和话题级信息生成目标文本对应的纪要。本申请实施例提供的纪要生成装置可获取目标文本三个不同层面的信息,进而以目标文本三个不同层面的信息为依据生成目标文本对应的纪要,即,本申请实施例提供的纪要生成装置可自动生成目标文本对应的纪要,相比于人工获取纪要的方式,耗时大大减少,效率大大提高,并且,由于不需要人工参与,避免了主观因素的影响。
第五实施例
本申请实施例还提供了一种纪要生成设备,请参阅图10,示出了该纪要生成设备的结构示意图,该纪要生成设备可以包括:至少一个处理器1001,至少一个通信接口1002,至少一个存储器1003和至少一个通信总线1004;
在本申请实施例中,处理器1001、通信接口1002、存储器1003、通信总线1004的数量为至少一个,且处理器1001、通信接口1002、存储器1003通过通信总线1004完成相互间的通信;
处理器1001可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器1003可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待生成纪要的文本,作为目标文本;
获取所述目标文本的词级信息、句级信息和话题级信息,其中,所述词级信息包括所述目标文本中词的上下文信息和所述目标文本的关键词信息,所述句级信息包括所述目标文本中句子的上下文信息和所述目标文本的重点句信息,所述话题级信息包括所述目标文本的话题分割信息;
根据所述目标文本的词级信息、句级信息和话题级信息,生成所述目标文本对应的纪要。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
第六实施例
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待生成纪要的文本,作为目标文本;
获取所述目标文本的词级信息、句级信息和话题级信息,其中,所述词级信息包括所述目标文本中词的上下文信息和所述目标文本的关键词信息,所述句级信息包括所述目标文本中句子的上下文信息和所述目标文本的重点句信息,所述话题级信息包括所述目标文本的话题分割信息;
根据所述目标文本的词级信息、句级信息和话题级信息,生成所述目标文本对应的纪要。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种纪要生成方法,其特征在于,包括:
获取待生成纪要的文本,作为目标文本;
获取所述目标文本的词级信息、句级信息和话题级信息,其中,所述词级信息包括所述目标文本中词的上下文信息和所述目标文本的关键词信息,所述句级信息包括所述目标文本中句子的上下文信息和所述目标文本的重点句信息,所述话题级信息包括所述目标文本的话题分割信息;
根据所述目标文本的词级信息、句级信息和话题级信息,生成所述目标文本对应的纪要。
2.根据权利要求1所述的纪要生成方法,其特征在于,所述获取所述目标文本的词级信息、句级信息和话题级信息,以及,所述根据所述目标文本的词级信息、句级信息和话题级信息,生成所述目标文本对应的纪要,包括:
利用纪要生成模块的文本理解部分,获取所述目标文本的词级信息、句级信息以及话题级信息;
利用所述纪要生成模块的纪要生成部分,以所述目标文本的词级信息、句级信息和话题级信息为依据,生成所述目标文本对应的纪要。
3.根据权利要求2所述的纪要生成方法,其特征在于,获取所述目标文本的词级信息和句级信息,包括:
获取所述目标文本包含的每个句子中每个词对应的融合有上下文信息的词特征,并以获取的词特征为依据,预测所述目标文本包含的每个句子中每个词为关键词的概率;
获取所述目标文本中每个句子对应的融合有上下文信息的句特征,并以获取的句特征为依据,预测所述目标文本包含的每个句子为重点句的概率;
所述目标文本包含的每个句子中每个词对应的词特征和每个句子中每个词为关键词的概率作为所述目标文本的词级信息,所述目标文本中每个句子对应的句特征和每个句子为重点句的概率作为所述目标文本的句级信息。
4.根据权利要求3所述的纪要生成方法,其特征在于,获取所述目标文本的词级信息和句级信息,还包括:
针对所述目标文本中的每个句子:
根据该句子中每个词为关键词的概率和该句子为重点句的概率,确定联合该句子为重点句的概率后,该句子中的每个词为关键词的概率,作为该句子中每个词对应的联合重点句概率后的关键词概率;
根据该句子中每个词为关键词的概率和该句子为重点句的概率,确定联合该句子中每个词为关键词的概率后,该句子为重点句的概率,作为该句子对应的联合关键词概率后的重点句概率;
所述目标文本包含的每个句子中每个词对应的词特征和每个句子中每个词对应的联合重点句概率后的关键词概率作为所述目标文本的词级信息,所述目标文本中每个句子对应的句特征和每个句子对应的联合关键词概率后的重点句概率,作为所述目标文本的句级信息。
5.根据权利要求4所述的纪要生成方法,其特征在于,获取所述目标文本的话题级信息,包括:
根据所述目标文本的句级信息,对所述目标文本进行话题分割,得到话题分割结果,作为所述目标文本的话题级信息。
6.根据权利要求5所述的纪要生成方法,其特征在于,所述根据所述目标文本的句级信息,对所述目标文本进行话题分割,得到话题分割结果,包括:
针对所述目标文本中的每个句子,根据该句子对应的句特征和该句子对应的联合关键词概率后的重点句概率,确定该句子对应的联合关键词概率后的句特征,并以该句子对应的联合关键词概率后的句特征为依据,预测该句子为话题结束句的概率;
根据所述目标文本中的每个句子为话题结束句的概率,确定话题分割结果。
7.根据权利要求2所述的纪要生成方法,其特征在于,所述以所述目标文本的词级信息、句级信息和话题级信息为依据,生成所述目标文本对应的纪要,包括:
在每个解码时刻:
根据当前解码时刻的状态向量、所述目标文本的词级信息和句级信息,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量,其中,当前解码时刻的状态向量为表示已解码结果信息的状态向量;
根据当前解码时刻的状态向量、所述目标文本的话题级信息,确定所述目标文本涉及的所有话题在当前解码时刻对应的上下文向量;
根据当前解码时刻的状态向量、所述目标文本的所有句子在当前解码时刻对应的上下文向量和所述目标文本涉及的所有话题在当前解码时刻对应的上下文向量,确定当前解码时刻的纪要生成结果。
8.根据权利要求7所述的纪要生成方法,其特征在于,所述根据当前解码时刻的状态向量、所述目标文本的词级信息和句级信息,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量,包括:
根据当前解码时刻的状态向量和所述目标文本的词级信息,确定所述目标文本包含的每个句子的所有词在当前解码时刻对应的上下文向量;
根据当前解码时刻的状态向量、所述目标文本包含的每个句子的所有词在当前解码时刻对应的上下文向量和所述目标文本的句级信息,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量。
9.根据权利要求8所述的纪要生成方法,其特征在于,所述目标文本的句级信息包括所述目标文本包含的每个句子对应的句特征和每个句子对应的联合关键词概率后的重点句概率;
所述根据当前解码时刻的状态向量、所述目标文本包含的每个句子的所有词在当前解码时刻对应的上下文向量和所述目标文本的句级信息,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量,包括:
针对所述目标文本中的每个句子,根据当前解码时刻的状态向量、该句子的所有词在当前解码时刻对应的上下文向量、该句子对应的句特征和该句子对应的联合关键词概率后的重点句概率,确定该句子在当前解码时刻对应的权重;
根据所述目标文本包含的每个句子在当前解码时刻对应的权重、每个句子对应的句特征和每个句子的所有词在当前解码时刻对应的上下文向量,确定所述目标文本的所有句子在当前解码时刻对应的上下文向量。
10.根据权利要求7所述的纪要生成方法,其特征在于,所述根据当前解码时刻的状态向量、所述目标文本的话题级信息,确定所述目标文本的所有话题在当前解码时刻对应的上下文向量,包括:
根据所述目标文本的话题级信息,确定所述目标文本涉及的每个话题包含的句子;
针对所述目标文本涉及的每个话题,根据该话题包含的每个句子对应的句特征和该话题包含的每个句子的所有词在当前解码时刻对应的上下文向量,确定该话题在当前解码时刻的表示向量;
根据当前解码时刻的状态向量和所述目标文本涉及的每个话题在当前解码时刻的表示向量,确定所述目标文本涉及的所有话题在当前解码时刻对应的上下文向量。
11.根据权利要求2~10中任一项所述的纪要生成方法,其特征在于,所述纪要生成模块为纪要生成模型,所述纪要生成模型采用标注有关键词、重点句、话题结束句的训练文本以及所述训练文本对应的纪要训练得到,所述纪要生成模型的训练过程包括:
利用纪要生成模型的文本理解部分,预测所述训练文本包含的每个句子中每个词为关键词的概率、每个句子为重点句的概率以及每个句子为话题结束句的概率,以得关键词预测结果、重点句预测结果和话题结束句预测结果;
利用纪要生成模型的纪要生成部分,以所述训练文本的词级信息、句级信息和话题级信息为依据,预测所述训练文本对应的纪要,得到纪要预测结果,其中,所述训练文本的词级信息、句级信息和话题级信息基于所述纪要生成模型的文本理解部分获得;
根据所述关键词预测结果、所述重点句预测结果、所述话题结束句预测结果、所述纪要预测结果,以及所述训练文本标注的关键词、重点句、话题结束句和所述训练文本对应的纪要确定预测损失,并根据所述预测损失对纪要生成模型进行参数更新。
12.一种纪要生成装置,其特征在于,包括:文本获取模块和文本处理模块;
所述文本获取模块,用于获取待生成纪要的文本,作为目标文本;
所述文本处理模块,用于获取所述目标文本的词级信息、句级信息和话题级信息,并根据所述目标文本的词级信息、句级信息和话题级信息,生成所述目标文本对应的纪要;
其中,所述词级信息包括所述目标文本中词的上下文信息和所述目标文本的关键词信息,所述句级信息包括所述目标文本中句子的上下文信息和所述目标文本的重点句信息,所述话题级信息包括所述目标文本的话题分割信息。
13.根据权利要求12所述的纪要生成装置,其特征在于,所述文本处理模块,具体用于:
利用纪要生成模块的文本理解部分,获取所述目标文本的词级信息、句级信息以及话题级信息;
利用所述纪要生成模块的纪要生成部分,以所述目标文本的词级信息、句级信息和话题级信息为依据,生成所述目标文本对应的纪要。
14.一种纪要生成设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~11中任一项所述的纪要生成方法的各个步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~11中任一项所述的纪要生成方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111574800.0A CN114254637A (zh) | 2021-12-21 | 2021-12-21 | 一种纪要生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111574800.0A CN114254637A (zh) | 2021-12-21 | 2021-12-21 | 一种纪要生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114254637A true CN114254637A (zh) | 2022-03-29 |
Family
ID=80793877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111574800.0A Pending CN114254637A (zh) | 2021-12-21 | 2021-12-21 | 一种纪要生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114254637A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936001A (zh) * | 2022-04-14 | 2022-08-23 | 阿里巴巴(中国)有限公司 | 交互方法、装置及电子设备 |
CN114997143A (zh) * | 2022-08-04 | 2022-09-02 | 北京澜舟科技有限公司 | 文本生成模型训练方法和系统、文本生成方法及存储介质 |
CN115952279A (zh) * | 2022-12-02 | 2023-04-11 | 杭州瑞成信息技术股份有限公司 | 文本大纲的提取方法、装置、电子装置和存储介质 |
CN117235619A (zh) * | 2023-08-14 | 2023-12-15 | 杭州瑞成信息技术股份有限公司 | 会议纪要分类方法、装置、计算机设备和存储介质 |
-
2021
- 2021-12-21 CN CN202111574800.0A patent/CN114254637A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936001A (zh) * | 2022-04-14 | 2022-08-23 | 阿里巴巴(中国)有限公司 | 交互方法、装置及电子设备 |
CN114997143A (zh) * | 2022-08-04 | 2022-09-02 | 北京澜舟科技有限公司 | 文本生成模型训练方法和系统、文本生成方法及存储介质 |
CN114997143B (zh) * | 2022-08-04 | 2022-11-15 | 北京澜舟科技有限公司 | 文本生成模型训练方法和系统、文本生成方法及存储介质 |
CN115952279A (zh) * | 2022-12-02 | 2023-04-11 | 杭州瑞成信息技术股份有限公司 | 文本大纲的提取方法、装置、电子装置和存储介质 |
CN115952279B (zh) * | 2022-12-02 | 2023-09-12 | 杭州瑞成信息技术股份有限公司 | 文本大纲的提取方法、装置、电子装置和存储介质 |
CN117235619A (zh) * | 2023-08-14 | 2023-12-15 | 杭州瑞成信息技术股份有限公司 | 会议纪要分类方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114254637A (zh) | 一种纪要生成方法、装置、设备及存储介质 | |
CN110298019B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN110634487B (zh) | 一种双语种混合语音识别方法、装置、设备及存储介质 | |
CN110309282B (zh) | 一种答案确定方法及装置 | |
US20210182680A1 (en) | Processing sequential interaction data | |
JP2015075706A (ja) | 誤り修正モデル学習装置、及びプログラム | |
CN111241237A (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN111967264B (zh) | 一种命名实体识别方法 | |
US10685012B2 (en) | Generating feature embeddings from a co-occurrence matrix | |
CN109948160B (zh) | 短文本分类方法及装置 | |
CN110765733A (zh) | 一种文本规整方法、装置、设备及存储介质 | |
CN111930915B (zh) | 会话信息处理方法、装置、计算机可读存储介质及设备 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN113158687B (zh) | 语义的消歧方法及装置、存储介质、电子装置 | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
CN112989046A (zh) | 实时话术预判方法、装置、计算机设备和存储介质 | |
CN115935182A (zh) | 模型训练方法、多轮对话中的话题分割方法、介质及装置 | |
CN113326374A (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN114239607A (zh) | 一种对话答复方法及装置 | |
CN111382232A (zh) | 问答信息处理方法、装置及计算机设备 | |
JP6839001B2 (ja) | モデル学習装置、情報判定装置およびそれらのプログラム | |
CN115587184A (zh) | 一种关键信息抽取模型的训练方法、装置及其存储介质 | |
CN111459959B (zh) | 用于更新事件集合的方法和装置 | |
CN114358736A (zh) | 客服工单生成方法、装置、存储介质和电子设备 | |
CN114328910A (zh) | 文本聚类方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |