CN111859932B - 一种文本摘要的生成方法、装置、电子设备及存储介质 - Google Patents

一种文本摘要的生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111859932B
CN111859932B CN202010745007.1A CN202010745007A CN111859932B CN 111859932 B CN111859932 B CN 111859932B CN 202010745007 A CN202010745007 A CN 202010745007A CN 111859932 B CN111859932 B CN 111859932B
Authority
CN
China
Prior art keywords
clause
clauses
text
sample
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010745007.1A
Other languages
English (en)
Other versions
CN111859932A (zh
Inventor
王千
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Second Picket Network Technology Co ltd
Original Assignee
Shanghai Fengzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fengzhi Technology Co ltd filed Critical Shanghai Fengzhi Technology Co ltd
Priority to CN202010745007.1A priority Critical patent/CN111859932B/zh
Publication of CN111859932A publication Critical patent/CN111859932A/zh
Application granted granted Critical
Publication of CN111859932B publication Critical patent/CN111859932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种文本摘要的生成方法、装置、电子设备及存储介质,其中,该生成方法包括:将目标文本的多个分句输入到预先训练好的语言模型中,得到每个分句的分句矩阵;其中,多个分句的分句矩阵组成目标文本的文本矩阵;基于每两个分句分别对应的分句矩阵,计算该两个分句的第一相似度,并基于每两个分句的第一相似度,将多个分句聚类为预设个数的分句集合;针对每个分句集合,基于该分句集合中每个分句的分句矩阵,以及目标文本的文本矩阵,计算每个分句与目标文本的第二相似度,并基于每个分句的第二相似度,从该分句集合中选取目标分句;基于每个分句集合的目标分句,生成目标文本对应的文本摘要,提高了文本摘要的生成效率。

Description

一种文本摘要的生成方法、装置、电子设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本摘要的生成方法、装置、电子设备及存储介质。
背景技术
现实生活中,人们可以通过互联网获取海量的文字信息,比如,可以通过关注微信公众号的方式,获取微信公众号推送的文章。
互联网上传播的文字信息过于庞杂,文章种类繁多,内容五花八门,为了方便读者快速找到感兴趣的文章进行阅读,通常在每篇文章的最前面添加该篇文章的摘要,以使读者在通读文章前能够了解文章的核心内容。
实际中,通常是文章的作者为文章添加摘要,或者是编辑文章的工作人员为文章添加摘要,该种方式下,文章摘要的生成效率低,并且,摘要添加人员的能力和经验参差不齐,这就导致文章摘要的整体准确度低。
发明内容
有鉴于此,本申请实施例的目的在于提供一种文本摘要的生成方法、装置、电子设备及存储介质,能够通过对文本中包括的多个分句进行聚类,从聚类得到的每个分句集合中选取文本摘要的组成语句,提高了文本摘要的生成效率,提高了文本摘要的准确度。
第一方面,本申请实施例提供了一种文本摘要的生成方法,所述生成方法包括:
将目标文本包括的多个分句输入到预先训练好的语言模型中,得到每个分句对应的分句矩阵;其中,多个分句对应的分句矩阵组成所述目标文本对应的文本矩阵;
基于所述目标文本中每两个分句分别对应的分句矩阵,计算该两个分句的第一相似度,并基于每两个分句对应的第一相似度,将所述目标文本包括的多个分句聚类为预设个数的分句集合;
针对每个分句集合,基于该分句集合中每个分句对应的分句矩阵,以及所述目标文本对应的文本矩阵,计算每个分句与所述目标文本的第二相似度,并基于每个分句对应的第二相似度,从该分句集合中选取目标分句;
基于所述目标文本中每个分句集合对应的目标分句,生成所述目标文本对应的文本摘要。
在一种可能的实施方式中,所述语言模型通过如下方式确定每个分句对应的分句矩阵;
针对每个分句,提取该分句包括的多个字符,并基于字符与字符向量的映射关系,生成所述多个字符分别对应的字符向量;
针对该分句中的每个字符,根据该字符对应的字符向量和第一权重,以及该分句中其他字符对应的字符向量和第二权重,确定该字符对应的目标字符向量;
基于该分句中每个字符对应的目标字符向量,确定该分句对应的分句矩阵。
在一种可能的实施方式中,通过如下方式对所述语言模型进行训练:
将样本分句输入到初始化的语言模型中,获取所述语言模型输出的所述样本分句对应的第一分句矩阵;
对所述第一分句矩阵进行降维处理,得到所述样本分句对应的第二分句矩阵;
针对每两个样本分句,根据该两个样本分句分别对应的第二分句矩阵,对该两个样本分句进行分类,得到该两个样本分句的分类结果;
根据该两个样本分句的分类结果,以及该两个样本分句对应的标准分类结果,对所述语言模型的模型参数进行调节,直至所述分类结果与所述标准分类结果相一致,得到训练好的语言模型。
在一种可能的实施方式中,所述针对每两个样本分句,根据该两个样本分句分别对应的第二分句矩阵,对该两个样本分句进行分类,得到该两个样本分句的分类结果,包括:
将每两个样本分句分别对应的第二分句矩阵,输入到预先训练好的第一分类子任务中,得到该两个样本分句的第一分类结果;其中,所述第一分类子任务用于判断该两个样本分句是否来自同一篇文章;
和/或,
将每两个样本分句分别对应的第二分句矩阵,输入到预先训练好的第二分类子任务中,得到该两个样本分句的第二分类结果;其中,所述第二分类子任务用于判断该两个样本分句是否是连续分句;
将所述第一分类结果,和/或所述第二分类结果,确定为该两个样本分句的分类结果。
在一种可能的实施方式中,通过如下方式确定所述分句集合的个数:
获取所述目标文本包括的分句的个数,基于分句的个数与分句集合的个数之间的对应关系,确定与所述目标文本对应的分句集合的个数。
第二方面,本申请实施例提供了一种文本摘要的生成装置,所述生成装置包括:
第一确定模块,用于将目标文本包括的多个分句输入到预先训练好的语言模型中,得到每个分句对应的分句矩阵;其中,多个分句对应的分句矩阵组成所述目标文本对应的文本矩阵;
聚类模块,用于基于所述目标文本中每两个分句分别对应的分句矩阵,计算该两个分句的第一相似度,并基于每两个分句对应的第一相似度,将所述目标文本包括的多个分句聚类为预设个数的分句集合;
选取模块,用于针对每个分句集合,基于该分句集合中每个分句对应的分句矩阵,以及所述目标文本对应的文本矩阵,计算每个分句与所述目标文本的第二相似度,并基于每个分句对应的第二相似度,从该分句集合中选取目标分句;
生成模块,用于基于所述目标文本中每个分句集合对应的目标分句,生成所述目标文本对应的文本摘要。
在一种可能的实施方式中,所述第一确定模块,在将目标文本包括的多个分句输入到预先训练好的语言模型中,得到每个分句对应的分句矩阵时,包括:
针对每个分句,提取该分句包括的多个字符,并基于字符与字符向量的映射关系,生成所述多个字符分别对应的字符向量;
针对该分句中的每个字符,根据该字符对应的字符向量和第一权重,以及该分句中其他字符对应的字符向量和第二权重,确定该字符对应的目标字符向量;
基于该分句中每个字符对应的目标字符向量,确定该分句对应的分句矩阵。
在一种可能的实施方式中,所述生成装置还包括模型训练模块,所述模型训练模块通过如下方式对所述语言模型进行训练:
将样本分句输入到初始化的语言模型中,获取所述语言模型输出的所述样本分句对应的第一分句矩阵;
对所述第一分句矩阵进行降维处理,得到所述样本分句对应的第二分句矩阵;
针对每两个样本分句,根据该两个样本分句分别对应的第二分句矩阵,对该两个样本分句进行分类,得到该两个样本分句的分类结果;
根据该两个样本分句的分类结果,以及该两个样本分句对应的标准分类结果,对所述语言模型的模型参数进行调节,直至所述分类结果与所述标准分类结果相一致,得到训练好的语言模型。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行第一方面任一项所述的文本摘要的生成方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面任一项所述的文本摘要的生成方法的步骤。
本申请实施例提供的文本摘要的生成方法、装置、电子设备及存储介质,将目标文本包括的多个分句输入到预先训练好的语言模型中,得到每个分句对应的分句矩阵;其中,多个分句对应的分句矩阵组成所述目标文本对应的文本矩阵;基于所述目标文本中每两个分句分别对应的分句矩阵,计算该两个分句的第一相似度,并基于每两个分句对应的第一相似度,将所述目标文本包括的多个分句聚类为预设个数的分句集合;针对每个分句集合,基于该分句集合中每个分句对应的分句矩阵,以及所述目标文本对应的文本矩阵,计算每个分句与所述目标文本的第二相似度,并基于每个分句对应的第二相似度,从该分句集合中选取目标分句;基于所述目标文本中每个分句集合对应的目标分句,生成所述目标文本对应的文本摘要。能够通过对文本中包括的多个分句进行聚类,从聚类得到的每个分句集合中选取文本摘要的组成语句,提高了文本摘要的生成效率,提高了文本摘要的准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种文本摘要的生成方法的流程图;
图2示出了本申请实施例提供的另一种文本摘要的生成方法的流程图;
图3示出了本申请实施例提供的另一种文本摘要的生成方法的流程图;
图4示出了本申请实施例提供的一种文本摘要的生成装置的结构示意图;
图5示出了本申请实施例提供的一种电子设备的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,通常在每篇文章的最前面添加该篇文章的摘要,以使读者在通读文章前能够了解文章的核心内容,实际中,通常是文章的作者为文章添加摘要,或者是编辑文章的工作人员为文章添加摘要,该种方式下,文章摘要的生成效率低,并且,摘要添加人员的能力和经验参差不齐,这就导致文章摘要的整体准确度低。
基于上述问题,本申请实施例提供了一种文本摘要的生成方法、装置、电子设备及存储介质,将目标文本包括的多个分句输入到预先训练好的语言模型中,得到每个分句对应的分句矩阵;其中,多个分句对应的分句矩阵组成所述目标文本对应的文本矩阵;基于所述目标文本中每两个分句分别对应的分句矩阵,计算该两个分句的第一相似度,并基于每两个分句对应的第一相似度,将所述目标文本包括的多个分句聚类为预设个数的分句集合;针对每个分句集合,基于该分句集合中每个分句对应的分句矩阵,以及所述目标文本对应的文本矩阵,计算每个分句与所述目标文本的第二相似度,并基于每个分句对应的第二相似度,从该分句集合中选取目标分句;基于所述目标文本中每个分句集合对应的目标分句,生成所述目标文本对应的文本摘要。能够通过对文本中包括的多个分句进行聚类,从聚类得到的每个分句集合中选取文本摘要的组成语句,提高了文本摘要的生成效率,提高了文本摘要的准确度。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种文本摘要的生成方法进行详细介绍。
参见图1所示,图1为本申请实施例提供的文本摘要的生成方法的流程图,该生成方法包括以下步骤:
S101、将目标文本包括的多个分句输入到预先训练好的语言模型中,得到每个分句对应的分句矩阵;其中,多个分句对应的分句矩阵组成所述目标文本对应的文本矩阵。
本申请实施例中,目标文本是包括多个分句的文本,比如一篇文章,目标文本中任意连续的两个分句通过标点符号分隔开,通过如下方式获取目标文本包括的多个分句:将首个目标标点符号之前的文本内容作为文本的首个分句,将每两个连续的目标标点符号之间的文本内容作为文本的其他分句,首个分句和其他分句组成目标文本包括的多个分句,其中,目标标点符号可以根据用户的实际需求进行设定,比如,将逗号、句号、分号、问号作为目标标点符号。
在获取目标文本包括的多个分句后,将多个分句依次输入到预先训练好的语言模型中,获取语言模型输出的每个分句对应的分句矩阵,并根据目标文本中每个分句的分句矩阵,生成目标文本对应的文本矩阵,具体的,按照多个分句在目标文本中出现的先后顺序,将每个分句对应的分句矩阵依次组合成目标文本对应的文本矩阵。
比如,每个分句矩阵均为3×4阶的矩阵,目标文本包括分句一、分句二、分句三,目标文本的文本矩阵为9×4阶的矩阵,其中,文本矩阵的第一行行向量~第三行行向量构成的子矩阵等于分句一的分句矩阵,文本矩阵的第四行行向量~第六行行向量构成的子矩阵等于分句二的分句矩阵,文本矩阵的第七行行向量~第九行行向量构成的子矩阵等于分句三的分句矩阵。
S102、基于所述目标文本中每两个分句分别对应的分句矩阵,计算该两个分句的第一相似度,并基于每两个分句对应的第一相似度,将所述目标文本包括的多个分句聚类为预设个数的分句集合。
本申请实施例中,采用Frobenius范数(Frobenius norm)的计算思想计算每两个分句的第一相似度,具体的,假定任意两个分句分别对应的分句矩阵为mat1、mat2,通过如下方式计算该两个分句的第一相似度similar:
diff=mat1-mat2
Figure BDA0002608053960000091
Figure BDA0002608053960000092
其中,
Figure BDA0002608053960000093
AF代表Frobenius范数,矩阵A为m×n阶的矩阵,ai,j为矩阵A中的任一个元素。
在确定了任意两个分句之间的第一相似度之后,基于K-means聚类算法,对目标文本对应的多个分句进行聚类处理,具体的,选择与目标文本相匹配的聚类个数(预设个数),根据每两个分句之间的第一相似度,采用K-means聚类算法,将目标文本的多个分句聚类为预设个数的分句集合,每个分句集合包括至少两个分句。
其中,通过如下方式确定所述分句集合的个数:获取所述目标文本包括的分句的个数,基于分句的个数与分句集合的个数之间的对应关系,确定与所述目标文本对应的分句集合的个数。
在获取目标文本包括的多个分句后,统计目标文本包括的分句的个数,分句的个数与分句聚类后得到的分句集合的个数存在对应关系,比如,分句的个数位于第一数量范围内,对应的分句集合个数为4;分句的个数位于第二数量范围内,对应的分句集合个数为5,基于上述对应关系,确定与目标文本相匹配的分句集合的个数,即为采用K-means聚类算法对多个分句进行聚类时,对应的参数值K。实际中,参数值K的取值范围为4~8,即分句集合的个数为4~8。
S103、针对每个分句集合,基于该分句集合中每个分句对应的分句矩阵,以及所述目标文本对应的文本矩阵,计算每个分句与所述目标文本的第二相似度,并基于每个分句对应的第二相似度,从该分句集合中选取目标分句。
本申请实施例中,同样采用Frobenius范数的计算思想计算分句集合中的每个分句,与目标文本的第二相似度,具体的计算过程参见步骤102中计算第一相似度的计算过程,在获取分句集合中每个字符对应的第二相似度后,将最大的第二相似度对应的分句,确定为该分句集合对应的目标分句,将与目标文本最相似的分句,作为构成文本摘要的目标分句。
S104、基于所述目标文本中每个分句集合对应的目标分句,生成所述目标文本对应的文本摘要。
本申请实施例中,按照每个目标分句在目标文本中出现的先后顺序,将从每个分句集合中筛选出的目标分句,组合成目标文本对应的文本摘要。
本申请实施例提供的文本摘要的生成方法,能够通过对文本中包括的多个分句进行聚类,从聚类得到的每个分句集合中选取文本摘要的组成语句,提高了文本摘要的生成效率,提高了文本摘要的准确度。
进一步的,参见图2所示,本申请实施例提供的文本摘要的生成方法中,所述语言模型通过如下方式确定每个分句对应的分句矩阵;
S201、针对每个分句,提取该分句包括的多个字符,并基于字符与字符向量的映射关系,生成所述多个字符分别对应的字符向量。
本申请实施例中,BERT模型是语言模型中的子模型,在获取目标文本包括的多个分句后,分别提取每个分句包括的多个字符,将每个分句的多个字符输入到预先训练好的BERT模型中,获取BERT模型输出的每个字符对应的字符向量,具体的,BERT模型在接收到字符后,基于预存的字符与字符向量的映射关系,输出与输入字符相匹配的字符向量。
实际中,针对不同类别的目标文本,使用与该类别的目标文本相匹配的BERT模型,确定该目标文本中包括的每个字符对应的字符向量。通常使用与目标文本所属类别相关联的语料集对BERT模型进行训练,以提高BERT模型输出的字符向量的准确度。
S202、针对该分句中的每个字符,根据该字符对应的字符向量和第一权重,以及该分句中其他字符对应的字符向量和第二权重,确定该字符对应的目标字符向量。
本申请实施例中,为了获取能够表征字符间关联关系的目标字符向量,语言模型中引入自关注机制,针对每个分句中的每个字符,将该字符对应的字符向量和第一权重的乘积,与该分句中其他字符对应的字符向量和第二权重的乘积的加和,确定为该字符对应的目标字符向量。采用自关注机制确定每个字符对应的目标字符向量,能够强化分句序列内部各个字符的关联关系和重要度。
其中,分句中的每个字符对应的权重并不是固定的,针对某个字符,在确定该字符对应的目标字符向量的过程中,该字符对应第一权重,此时,该字符对应的权重值大,在确定其他字符对应的目标字符向量的过程中,该字符对应第二权重,此时,该字符对应的权重值小。
比如,分句1中包括字符1、字符2、字符3,其中,字符1对应的字符向量为B1,字符2对应的字符向量为B2,字符3对应的字符向量为B3,在获取字符2对应的目标字符向量时,字符2对应的第一权重为x2,字符1和字符3对应的第二权重分别为x1、x2,将B1×x1+B2×x2+B3×x3的计算结果,作为字符2对应的目标字符向量。
S203、基于该分句中每个字符对应的目标字符向量,确定该分句对应的分句矩阵。
本申请实施例中,按照每个字符在分句中出现的先后顺序,将每个字符对应的目标字符向量,组合成该分句对应的分句矩阵。
进一步的,参见图3所示,本申请实施例提供的文本摘要的生成方法中,通过如下方式对所述语言模型进行训练:
S301、将样本分句输入到初始化的语言模型中,获取所述语言模型输出的所述样本分句对应的第一分句矩阵。
本申请实施例中,初始化的语言模型是还没有训练好的语言模型,将多个样本分句输入到初始化的语言模型中,初始化的语言模型基于初始化的模型参数对每个分句进行相应的处理,得到每个分句的初始化分句矩阵,即第一分句矩阵。
S302、对所述第一分句矩阵进行降维处理,得到所述样本分句对应的第二分句矩阵。
本申请实施例中,采用池化的处理方式,对每个分句对应的第一分句矩阵进行降维处理,具体的,第一分句矩阵对应有多个维度,从多个维度中选取预设的特定维度,这里,特定维度可以是某个特定的维度,也可以是多个特定的维度,将特定维度下的第一分句矩阵的平均数,作为样本分句对应的第二分句矩阵。
S303、针对每两个样本分句,根据该两个样本分句分别对应的第二分句矩阵,对该两个样本分句进行分类,得到该两个样本分句的分类结果。
本申请实施例中,针对每两个样本分句,根据该两个样本分句分别对应的第二分句矩阵,对该两个样本分句进行分类,得到该两个样本分句之间的关联关系,即该两个样本分句的分类结果。
S304、根据该两个样本分句的分类结果,以及该两个样本分句对应的标准分类结果,对所述语言模型的模型参数进行调节,直至所述分类结果与所述标准分类结果相一致,得到训练好的语言模型。
本申请实施例中,对每两个样本分句进行标记,即每两个样本分句对应有标准分类结果,将每两个样本分句的分类结果与该两个样本分句的标准分类结果进行比较,若分类结果与标准分类结果不一致,说明此时的语言模型输出的第一分句矩阵不准确,此时的语言模型的模型参数不准确,需要对语言模型的模型参数进行调节,直至分类结果与标准分类结果相一致,即得到训练好的语言模型。
进一步的,本申请实施例提供的文本摘要的生成方法中,所述针对每两个样本分句,根据该两个样本分句分别对应的第二分句矩阵,对该两个样本分句进行分类,得到该两个样本分句的分类结果,包括:
将每两个样本分句分别对应的第二分句矩阵,输入到预先训练好的第一分类子任务中,得到该两个样本分句的第一分类结果;其中,所述第一分类子任务用于判断该两个样本分句是否来自同一篇文章;
和/或,
将每两个样本分句分别对应的第二分句矩阵,输入到预先训练好的第二分类子任务中,得到该两个样本分句的第二分类结果;其中,所述第二分类子任务用于判断该两个样本分句是否是连续分句;
将所述第一分类结果,和/或所述第二分类结果,确定为该两个样本分句的分类结果。
本申请实施例中,第一分类子任务用于判断每两个样本分句是否来自同一篇文章,将每两个样本分句分别对应的第二分句矩阵,输入到预先训练好的第一分类子任务中,获取第一分类子任务输出的第一分类结果,其中,第一分类结果通常表示为0和1,若该两个样本分句来自同一篇文章,则该两个样本分句的一分类结果为1,若该两个样本分句没有来自同一篇文章,则该两个样本分句的一分类结果为0。
第二分类子任务用于判断每两个样本分句是否是同一篇文章的连续分句,将每两个样本分句分别对应的第二分句矩阵,输入到预先训练好的第二分类子任务中,获取第二分类子任务输出的第二分类结果,其中,第二分类结果通常表示为0和1,若该两个样本分句是同一篇文章的连续分句,则该两个样本分句的第二分类结果为1,若该两个样本分句不是同一篇文章的连续分句,则该两个样本分句的第二分类结果为0。
若同时使用第一分类子任务确定第一分类结果,使用第二分类子任务确定第二分类结果,在对每两个样本分句进行标记时,分别标记每两个样本分句的第一标准分类结果和第二标准分类结果,分别对第一分类结果和第一标准分类结果,以及第二分类结果和第二标准分类结果进行对比,若任一分类结果和标准分类结果不一致,则对语言模型的模型参数进行调节,直至第一分类结果与第一标准分类结果相一致,并且第二分类结果与第二标准分类结果相一致,得到训练好的语言模型。
其中,通过如下方式训练第一分类子任务:将来自同一篇文章的任意两个分句分别对应的分句矩阵作为正样本,将来自不同篇文章的任意两个分句分别对应的分句矩阵作为负样本,基于上述正样本和负样本对初始化的第一分类子任务进行训练,得到第一分类子任务的模型参数,即得到预先训练好的第一分类子任务。
通过如下方式训练第二分类子任务:将来自同一篇文章的任意两个连续的分句分别对应的分句矩阵作为正样本,将任意两个不连续的分句分别对应的分句矩阵作为负样本,基于上述正样本和负样本对初始化的第二分类子任务进行训练,得到第二分类子任务的模型参数,即得到预先训练好的第二分类子任务。
基于同一发明构思,本申请实施例中还提供了与文本摘要的生成方法对应的文本摘要的生成装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述文本摘要的生成方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图4所示,图4为本申请一实施例提供的一种文本摘要的生成装置的结构示意图,该生成装置包括:
第一确定模块401,用于将目标文本包括的多个分句输入到预先训练好的语言模型中,得到每个分句对应的分句矩阵;其中,多个分句对应的分句矩阵组成所述目标文本对应的文本矩阵;
聚类模块402,用于基于所述目标文本中每两个分句分别对应的分句矩阵,计算该两个分句的第一相似度,并基于每两个分句对应的第一相似度,将所述目标文本包括的多个分句聚类为预设个数的分句集合;
选取模块403,用于针对每个分句集合,基于该分句集合中每个分句对应的分句矩阵,以及所述目标文本对应的文本矩阵,计算每个分句与所述目标文本的第二相似度,并基于每个分句对应的第二相似度,从该分句集合中选取目标分句;
生成模块404,用于基于所述目标文本中每个分句集合对应的目标分句,生成所述目标文本对应的文本摘要。
在一种可能的实施方式中,所述第一确定模块401,在将目标文本包括的多个分句输入到预先训练好的语言模型中,得到每个分句对应的分句矩阵时,包括:
针对每个分句,提取该分句包括的多个字符,并基于字符与字符向量的映射关系,生成所述多个字符分别对应的字符向量;
针对该分句中的每个字符,根据该字符对应的字符向量和第一权重,以及该分句中其他字符对应的字符向量和第二权重,确定该字符对应的目标字符向量;
基于该分句中每个字符对应的目标字符向量,确定该分句对应的分句矩阵。
在一种可能的实施方式中,所述生成装置还包括模型训练模块,所述模型训练模块通过如下方式对所述语言模型进行训练:
将样本分句输入到初始化的语言模型中,获取所述语言模型输出的所述样本分句对应的第一分句矩阵;
对所述第一分句矩阵进行降维处理,得到所述样本分句对应的第二分句矩阵;
针对每两个样本分句,根据该两个样本分句分别对应的第二分句矩阵,对该两个样本分句进行分类,得到该两个样本分句的分类结果;
根据该两个样本分句的分类结果,以及该两个样本分句对应的标准分类结果,对所述语言模型的模型参数进行调节,直至所述分类结果与所述标准分类结果相一致,得到训练好的语言模型。
在一种可能的实施方式中,所述模型训练模块,在针对每两个样本分句,根据该两个样本分句分别对应的第二分句矩阵,对该两个样本分句进行分类,得到该两个样本分句的分类结果时,包括:
将每两个样本分句分别对应的第二分句矩阵,输入到预先训练好的第一分类子任务中,得到该两个样本分句的第一分类结果;其中,所述第一分类子任务用于判断该两个样本分句是否来自同一篇文章;
和/或,
将每两个样本分句分别对应的第二分句矩阵,输入到预先训练好的第二分类子任务中,得到该两个样本分句的第二分类结果;其中,所述第二分类子任务用于判断该两个样本分句是否是连续分句;
将所述第一分类结果,和/或所述第二分类结果,确定为该两个样本分句的分类结果。
在一种可能的实施方式中,所述生成装置还包括第二确定模块,所述第二确定模块通过如下方式确定所述分句集合的个数:
获取所述目标文本包括的分句的个数,基于分句的个数与分句集合的个数之间的对应关系,确定与所述目标文本对应的分句集合的个数。
本申请实施例提供的文本摘要的生成装置,能够通过对文本中包括的多个分句进行聚类,从聚类得到的每个分句集合中选取文本摘要的组成语句,提高了文本摘要的生成效率,提高了文本摘要的准确度。
参见图5所示,图5为本申请实施例提供的一种电子设备500,该电子设备500包括:处理器501、存储器502和总线,所述存储器502存储有所述处理器501可执行的机器可读指令,当电子设备运行时,所述处理器501与所述存储器502之间通过总线通信,所述处理器501执行所述机器可读指令,以执行如上述文本摘要的生成方法的步骤。
具体地,上述存储器502和处理器501能够为通用的存储器和处理器,这里不做具体限定,当处理器501运行存储器502存储的计算机程序时,能够执行上述文本摘要的生成方法。
对应于上述文本摘要的生成方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述文本摘要的生成方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种文本摘要的生成方法,其特征在于,所述生成方法包括:
将目标文本包括的多个分句输入到预先训练好的语言模型中,得到每个分句对应的分句矩阵;其中,多个分句对应的分句矩阵组成所述目标文本对应的文本矩阵;
基于所述目标文本中每两个分句分别对应的分句矩阵,计算该两个分句的第一相似度,并基于每两个分句对应的第一相似度,将所述目标文本包括的多个分句聚类为预设个数的分句集合;
针对每个分句集合,基于该分句集合中每个分句对应的分句矩阵,以及所述目标文本对应的文本矩阵,计算每个分句与所述目标文本的第二相似度,并基于每个分句对应的第二相似度,从该分句集合中选取目标分句;
基于所述目标文本中每个分句集合对应的目标分句,生成所述目标文本对应的文本摘要;
所述语言模型通过如下方式确定每个分句对应的分句矩阵;
针对每个分句,提取该分句包括的多个字符,并基于字符与字符向量的映射关系,生成所述多个字符分别对应的字符向量;
针对该分句中的每个字符,根据该字符对应的字符向量和第一权重,以及该分句中其他字符对应的字符向量和第二权重,确定该字符对应的目标字符向量;
基于该分句中每个字符对应的目标字符向量,确定该分句对应的分句矩阵;
所述计算该两个分句的第一相似度的公式具体为:
diff=mat1-mat2
Figure FDA0003956311610000011
Figure FDA0003956311610000021
其中,
Figure FDA0003956311610000022
||A||F代表Frobenius范数,矩阵A为m×n阶的矩阵,ai,j为矩阵A中的任一个元素,mat1和mat2分别用于表征任意两个分句对应的分句矩阵。
2.根据权利要求1所述的文本摘要的生成方法,其特征在于,通过如下方式对所述语言模型进行训练:
将样本分句输入到初始化的语言模型中,获取所述语言模型输出的所述样本分句对应的第一分句矩阵;
对所述第一分句矩阵进行降维处理,得到所述样本分句对应的第二分句矩阵;
针对每两个样本分句,根据该两个样本分句分别对应的第二分句矩阵,对该两个样本分句进行分类,得到该两个样本分句的分类结果;
根据该两个样本分句的分类结果,以及该两个样本分句对应的标准分类结果,对所述语言模型的模型参数进行调节,直至所述分类结果与所述标准分类结果相一致,得到训练好的语言模型。
3.根据权利要求2所述的文本摘要的生成方法,其特征在于,所述针对每两个样本分句,根据该两个样本分句分别对应的第二分句矩阵,对该两个样本分句进行分类,得到该两个样本分句的分类结果,包括:
将每两个样本分句分别对应的第二分句矩阵,输入到预先训练好的第一分类子任务中,得到该两个样本分句的第一分类结果;其中,所述第一分类子任务用于判断该两个样本分句是否来自同一篇文章;
和/或,
将每两个样本分句分别对应的第二分句矩阵,输入到预先训练好的第二分类子任务中,得到该两个样本分句的第二分类结果;其中,所述第二分类子任务用于判断该两个样本分句是否是连续分句;
将所述第一分类结果,和/或所述第二分类结果,确定为该两个样本分句的分类结果。
4.根据权利要求1所述的文本摘要的生成方法,其特征在于,通过如下方式确定所述分句集合的个数:
获取所述目标文本包括的分句的个数,基于分句的个数与分句集合的个数之间的对应关系,确定与所述目标文本对应的分句集合的个数。
5.一种文本摘要的生成装置,其特征在于,所述生成装置包括:
第一确定模块,用于将目标文本包括的多个分句输入到预先训练好的语言模型中,得到每个分句对应的分句矩阵;其中,多个分句对应的分句矩阵组成所述目标文本对应的文本矩阵;
聚类模块,用于基于所述目标文本中每两个分句分别对应的分句矩阵,计算该两个分句的第一相似度,并基于每两个分句对应的第一相似度,将所述目标文本包括的多个分句聚类为预设个数的分句集合;
选取模块,用于针对每个分句集合,基于该分句集合中每个分句对应的分句矩阵,以及所述目标文本对应的文本矩阵,计算每个分句与所述目标文本的第二相似度,并基于每个分句对应的第二相似度,从该分句集合中选取目标分句;
生成模块,用于基于所述目标文本中每个分句集合对应的目标分句,生成所述目标文本对应的文本摘要;
所述第一确定模块,在将目标文本包括的多个分句输入到预先训练好的语言模型中,得到每个分句对应的分句矩阵时,包括:
针对每个分句,提取该分句包括的多个字符,并基于字符与字符向量的映射关系,生成所述多个字符分别对应的字符向量;
针对该分句中的每个字符,根据该字符对应的字符向量和第一权重,以及该分句中其他字符对应的字符向量和第二权重,确定该字符对应的目标字符向量;
基于该分句中每个字符对应的目标字符向量,确定该分句对应的分句矩阵;
所述计算该两个分句的第一相似度的公式具体为:
diff=mat1-mat2
Figure FDA0003956311610000041
Figure FDA0003956311610000042
/>
其中,
Figure FDA0003956311610000043
||A||F代表Frobenius范数,矩阵A为m×n阶的矩阵,ai,j为矩阵A中的任一个元素,mat1和mat2分别用于表征任意两个分句对应的分句矩阵。
6.根据权利要求5所述的文本摘要的生成装置,其特征在于,所述生成装置还包括模型训练模块,所述模型训练模块通过如下方式对所述语言模型进行训练:
将样本分句输入到初始化的语言模型中,获取所述语言模型输出的所述样本分句对应的第一分句矩阵;
对所述第一分句矩阵进行降维处理,得到所述样本分句对应的第二分句矩阵;
针对每两个样本分句,根据该两个样本分句分别对应的第二分句矩阵,对该两个样本分句进行分类,得到该两个样本分句的分类结果;
根据该两个样本分句的分类结果,以及该两个样本分句对应的标准分类结果,对所述语言模型的模型参数进行调节,直至所述分类结果与所述标准分类结果相一致,得到训练好的语言模型。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至4任一项所述的文本摘要的生成方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4任一项所述的文本摘要的生成方法的步骤。
CN202010745007.1A 2020-07-29 2020-07-29 一种文本摘要的生成方法、装置、电子设备及存储介质 Active CN111859932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010745007.1A CN111859932B (zh) 2020-07-29 2020-07-29 一种文本摘要的生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010745007.1A CN111859932B (zh) 2020-07-29 2020-07-29 一种文本摘要的生成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111859932A CN111859932A (zh) 2020-10-30
CN111859932B true CN111859932B (zh) 2023-03-31

Family

ID=72945595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010745007.1A Active CN111859932B (zh) 2020-07-29 2020-07-29 一种文本摘要的生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111859932B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732900B (zh) * 2021-01-04 2022-07-29 山东众阳健康科技集团有限公司 一种电子病历文本摘要抽取方法
CN113033216B (zh) * 2021-03-03 2024-05-28 东软集团股份有限公司 文本预处理方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783795A (zh) * 2017-11-14 2019-05-21 深圳市腾讯计算机系统有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN110263163A (zh) * 2019-06-05 2019-09-20 阿里巴巴集团控股有限公司 一种获取文本摘要的方法和装置
CN110347835A (zh) * 2019-07-11 2019-10-18 招商局金融科技有限公司 文本聚类方法、电子装置及存储介质
CN111339287A (zh) * 2020-02-24 2020-06-26 成都网安科技发展有限公司 摘要生成方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783795A (zh) * 2017-11-14 2019-05-21 深圳市腾讯计算机系统有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN110263163A (zh) * 2019-06-05 2019-09-20 阿里巴巴集团控股有限公司 一种获取文本摘要的方法和装置
CN110347835A (zh) * 2019-07-11 2019-10-18 招商局金融科技有限公司 文本聚类方法、电子装置及存储介质
CN111339287A (zh) * 2020-02-24 2020-06-26 成都网安科技发展有限公司 摘要生成方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于PV-DM模型的多文档摘要方法;刘欣等;《计算机应用与软件》;20161015(第10期);全文 *
基于句群的自动文摘方法;王荣波等;《计算机应用》;20160610;全文 *
张其文等.文本主题的自动提取方法研究与实现.《计算机工程与设计》.2006,(第15期), *
文本主题的自动提取方法研究与实现;张其文等;《计算机工程与设计》;20060816(第15期);摘要、第0-6节 *

Also Published As

Publication number Publication date
CN111859932A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN107807987B (zh) 一种字符串分类方法、系统及一种字符串分类设备
CN110750640B (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN111582348B (zh) 条件生成式对抗网络的训练方法、装置、设备及存储介质
CN104574192B (zh) 在多个社交网络中识别同一用户的方法及装置
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN108388660B (zh) 一种改进的电商产品痛点分析方法
CN111859932B (zh) 一种文本摘要的生成方法、装置、电子设备及存储介质
CN106874258B (zh) 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN111061957A (zh) 一种文章相似度推荐方法和装置
JP2010537286A5 (zh)
CN111125348A (zh) 一种文本摘要的提取方法及装置
CN111125295B (zh) 一种基于lstm的获取食品安全问题答案的方法及系统
CN109299246B (zh) 一种文本分类方法及装置
CN112527958A (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN112352229A (zh) 文档信息评价装置、文档信息评价方法及文档信息评价程序
JP2018113002A (ja) 商標情報処理装置及び方法、並びにプログラム
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
CN106484913B (zh) 一种目标图片确定的方法以及服务器
JP4143234B2 (ja) 文書分類装置、文書分類方法及び記憶媒体
CN113409157B (zh) 一种跨社交网络用户对齐方法以及装置
CN114139537A (zh) 词向量的生成方法及装置
CN113763031A (zh) 一种商品推荐方法、装置、电子设备及存储介质
Háva et al. Supervised two-step feature extraction for structured representation of text data
CN109241284A (zh) 一种文档分类方法及装置
CN111566665B (zh) 在自然语言处理中应用图像编码识别的装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231201

Address after: 200,030 Unit 5B03, Floor 5, Building 2, No. 277, Longlan Road, Xuhui District, Shanghai

Patentee after: SHANGHAI SECOND PICKET NETWORK TECHNOLOGY CO.,LTD.

Address before: Floors 4, 5 and 6, No. 3, Lane 1473, Zhenguang Road, Putuo District, Shanghai, 200333

Patentee before: Shanghai Fengzhi Technology Co.,Ltd.