CN114328898A - 文本摘要生成方法及其装置、设备、介质、产品 - Google Patents

文本摘要生成方法及其装置、设备、介质、产品 Download PDF

Info

Publication number
CN114328898A
CN114328898A CN202111626683.8A CN202111626683A CN114328898A CN 114328898 A CN114328898 A CN 114328898A CN 202111626683 A CN202111626683 A CN 202111626683A CN 114328898 A CN114328898 A CN 114328898A
Authority
CN
China
Prior art keywords
text
abstract
data
model
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111626683.8A
Other languages
English (en)
Inventor
梁源通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202111626683.8A priority Critical patent/CN114328898A/zh
Publication of CN114328898A publication Critical patent/CN114328898A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请公开一种文本摘要生成方法、装置、计算机设备及存储介质,包括:获取待处理的文本文件;根据预设的局部敏感哈希函数将所述文本文件映射至预设的数据桶内;将所述文本文件和所述多个数据桶内的文本字符输入至预设的摘要生成模型中,其中,所述摘要生成模型为预先训练至收敛状态的,用于提取文档摘要的自注意力编码模型;根据所述摘要生成模型的输出结果生成所述文本文件的文本摘要。使注意力计算的时间复杂度由与输入文本长度平方成正比,降低为L log L,其中,L是指桶桶内文本的长度。由此可见,本实施方式能够大大降低现有注意力模型中注意力计算的复杂度,进而降低模型提取摘要所需的算力和训练时。

Description

文本摘要生成方法及其装置、设备、介质、产品
技术领域
本申请实施例涉及文本处理领域,尤其是一种文本摘要生成方法、装置、产品、计算机设备及存储介质。
背景技术
随着大数据时代的到来、硬件的计算能力的增强,深度学习技术取得了显著的发展,其中,在文本摘要生成领域,文本摘要这一重要任务在电商中有着广泛的应用,随着用户规模、店铺、商品规模的不断扩大,诸如在买家商品评论、卖家商品大段文字介绍等,如果全部进行人工筛选编辑需要耗费大量的人力成本,利用文本摘要这一技术对长文本进行处理,抽取其中的关键信息是非常必要的。
本申请的发明人在研究中发现,现有技术中的摘要抽取方式为:以Transformer为蓝本的预训练模型,如BERT、GPT等模型对文本的摘要进行提取。但是,在实践中由于模型计算量主要集中在注意力计算与前馈层方面,其计算复杂度与显存占用均与文本长度的平方成正比,面对长文本数据现有模型所需算力较大,训练时间过长。
发明内容
本申请实施例提供一种通过对文本文件进行近似度分类进而降低模型运算算力和训练时间的文本摘要生成方法、装置、产品、计算机设备及存储介质。
为解决上述技术问题,本申请创造的实施例采用的一个技术方案是:提供一种文本摘要生成方法,包括:
获取待处理的文本文件;
根据预设的局部敏感哈希函数将所述文本文件映射至预设的数据桶内;
将所述文本文件和所述多个数据桶内的文本字符输入至预设的摘要生成模型中,其中,所述摘要生成模型为预先训练至收敛状态的,用于提取文档摘要的自注意力编码模型;
根据所述摘要生成模型的输出结果生成所述文本文件的文本摘要。
可选地,所述获取待处理的文本文件包括:
获取商品图片的上传指令;
根据所述上传指令采集所述商品图片对应的文本文件。
可选地,所述根据预设的局部敏感哈希函数将所述文本文件映射至预设的数据桶内包括:
根据所述局部敏感哈希函数计算所述文本文件中各文本字符的哈希值,其中,所述局部敏感哈希函数通过所述各文本字符之间的邻近距离,约束所述各文本字符的哈希值;
将所述各文本字符中对应哈希值之差小于等于预设哈希阈值的文本字符存储在同一个数据桶内。
可选地,所述摘要生成模型包括注意力层和前馈神经网络层;所述将所述文本文件和所述多个数据桶内的文本字符输入至预设的摘要生成模型中包括:
将所述多个数据桶内的文本字符输入至所述注意力层中,生成注意力特征;
将所述注意力特征和所述文本文件合并生成第一输入数据,并将所述第一输入数据输入至所述前馈神经网络层,生成第一特征数据;
将所述第一特征数据和所述多个数据桶内的文本字符合并生成第二输入数据,并将所述第二输入数据作为下一处理环节的输入数据。
可选地,所述摘要生成模型包括编码器和解码器;所述摘要生成模型的训练方法包括:
获取训练样本;
将所述训练样本输入至所述摘要生成模型的初始模型中,由所述编码器对所述训练样本进行编码处理生成编码数据;
将所述编码数据输入至所述解码器中对所述编码数据进行解码处理生成解码数据;
根据所述初始模型中预设的损失函数计算所述训练样本与所述解码数据之间的损失值;
当所述损失值大于预设的损失阈值时,通过所述初始模型中预设的反向传播函数矫正所述编码器的权重值。
可选地,所述通过所述初始模型中预设的反向传播函数矫正所述编码器的权重值之后,包括:
将所述初始模型的训练次数进行统计生成训练数值;
将所述训练数值与预设的训练阈值进行比较,当所述训练数值等于所述训练阈值时,确认所述初始模型训练至收敛状态成为所述摘要生成模型。
可选地,所述根据所述摘要生成模型的输出结果生成所述文本文件的文本摘要之后,包括:
采集所述商品图片的商品编码;
根据所述商品编码将所述商品图片和所述文本摘要进行关联存储,以示用户通过预设与所述商品图片的调用指令查看所述文本摘要。
为解决上述技术问题,本申请实施例还提供一种文本摘要生成装置,包括:
获取模块,用于获取待处理的文本文件;
划分模块,用于根据预设的局部敏感哈希函数将所述文本文件映射至预设的数据桶内;
处理模块,用于将所述文本文件和所述多个数据桶内的文本字符输入至预设的摘要生成模型中,其中,所述摘要生成模型为预先训练至收敛状态的,用于提取文档摘要的自注意力编码模型;
执行模块,用于根据所述摘要生成模型的输出结果生成所述文本文件的文本摘要。
可选地,所述文本摘要生成装置还包括:
第一获取子模块,用于获取商品图片的上传指令;
第一采集子模块,用于根据所述上传指令采集所述商品图片对应的文本文件。
可选地,所述文本摘要生成装置还包括:
第一计算子模块,用于根据所述局部敏感哈希函数计算所述文本文件中各文本字符的哈希值,其中,所述局部敏感哈希函数通过所述各文本字符之间的邻近距离,约束所述各文本字符的哈希值;
第一存储子模块,用于将所述各文本字符中对应哈希值之差小于等于预设哈希阈值的文本字符存储在同一个数据桶内。
可选地,所述摘要生成模型包括注意力层和前馈神经网络层;所述文本摘要生成装置还包括:
第一输入子模块,用于将所述多个数据桶内的文本字符输入至所述注意力层中,生成注意力特征;
第一处理子模块,用于将所述注意力特征和所述文本文件合并生成第一输入数据,并将所述第一输入数据输入至所述前馈神经网络层,生成第一特征数据;
第一执行子模块,用于将所述第一特征数据和所述多个数据桶内的文本字符合并生成第二输入数据,并将所述第二输入数据作为下一处理环节的输入数据。
可选地,所述摘要生成模型包括编码器和解码器;所述文本摘要生成装置还包括:
第二获取子模块,用于获取训练样本;
第二输入子模块,用于将所述训练样本输入至所述摘要生成模型的初始模型中,由所述编码器对所述训练样本进行编码处理生成编码数据;
第三输入子模块,用于将所述编码数据输入至所述解码器中对所述编码数据进行解码处理生成解码数据;
第二处理子模块,用于根据所述初始模型中预设的损失函数计算所述训练样本与所述解码数据之间的损失值;
第二执行子模块,用于当所述损失值大于预设的损失阈值时,通过所述初始模型中预设的反向传播函数矫正所述编码器的权重值。
可选地,所述文本摘要生成装置还包括:
第一统计子模块,用于将所述初始模型的训练次数进行统计生成训练数值;
第三执行子模块,用于将所述训练数值与预设的训练阈值进行比较,当所述训练数值等于所述训练阈值时,确认所述初始模型训练至收敛状态成为所述摘要生成模型。
可选地,所述文本摘要生成装置还包括:
第二采集子模块,用于采集所述商品图片的商品编码;
第二存储子模块,用于根据所述商品编码将所述商品图片和所述文本摘要进行关联存储,以示用户通过预设与所述商品图片的调用指令查看所述文本摘要。
为解决上述技术问题本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述文本摘要生成方法的步骤。
为解决上述技术问题本申请实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述文本摘要生成方法的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述文本摘要生成方法的步骤。
本申请实施例的有益效果是:通过局部敏感哈希函数对文本文件进行预处理,将文本文件中距离相近的文本字符划分在不同的数据桶内,在摘要生成模型中进行注意力处理时,不同数据桶内的文本字符分别进行注意力计算,无需关注跨数据桶之间文字字符之间的注意力计算,使注意力计算的时间复杂度由与输入文本长度平方成正比,降低为L logL,其中,L是指桶桶内文本的长度。由此可见,本实施方式能够大大降低现有注意力模型中注意力计算的复杂度,进而降低模型提取摘要所需的算力和训练时长。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一个具体实施例的文本摘要生成方法的基本流程示意图;
图2为本申请一个具体实施例的注意力层和前馈神经网络层的一种连接结构示意图;
图3为本申请一个具体实施例的采集文本文件的流程示意图;
图4为本申请一个具体实施例的分配数据通的流程示意图;
图5为本申请一个具体实施例的摘要生成模型局部运算的流程示意图;
图6为本申请一个具体实施例的摘要生成模型的一种训练流程图;
图7为本申请一个实施例的确认生成摘要生成模型的流程示意图;
图8为本申请一个实施例的文本摘要的一种存储流程图;
图9为本申请一个实施例的文本摘要生成装置基本结构示意图;
图10为本申请一个实施例的计算机设备的基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
请参阅图1,图1为本实施例文本摘要生成方法的基本流程示意图。如图1所示,一种文本摘要生成方法,包括:
S1100、获取待处理的文本文件;
本实施方式中,当服务器端接收到用户上传商品图片的上传请求时,服务器端根据该上传请求发送向用户终端发送一个文本采集模组,文本采集模组以弹窗的形式显示在用户终端上用于采集与商品图片对应的文本文件。
文本文件中记载的文本内容是对用户图片的详细介绍。但是,本实施方式中的文本文件内容对应上传的文件不限于商品图片,还能够为:音视频数据或者景点、建筑等类型的图片。
服务器端采集文本文件的方法不局限于此,在一些实施方式中,用户终端向服务器端发送上传产品图像的请求后,服务器端向用户终端发送用于采集商品图片和对应文本文件的采集页面。用户终端通过在该采集页面对应位置上传商品图片和文本文件。
在一些实施方式中,为避免用户终端上传的商品图片和文本文件内容不符,在采集得到商品图片和文本文件后,对商品图片进行图像识别,识别得到商品图片表征的商品名称。然后,将文本文件输入至预设的神经网络模型中,该神经网络模型为预先训练至收敛状态,用于对文档进行实体名称提取的网络模型。根据商品名称在预设的同类商品扩展数据库中,查询商品名称对应的同义词,并且将同义词和商品名称一起与实体名称进行匹配,当实体名称与同义词和商品名称中的任意一个词语匹配时,确认商品图片和文本文件的内容匹配。
S1200、根据预设的局部敏感哈希函数将所述文本文件映射至预设的数据桶内;
当采集得到文本文件后,需要根据预设的局部敏感哈希函数对文本文件进行预处理,将文本文件中哈希值相近的文本字符映射在一个数据桶内,对文本文件进行内容分类。
局部敏感哈希函数是指:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。也就是说,如果我们对原始数据进行一些hash映射后,我们希望原先相邻的两个数据能够被hash到相同的桶内,具有相同的数据桶号。对原始数据集合中所有的数据都进行hash映射后,我们就得到了一个hash table,这些原始数据集被分散到了hash table的桶内。即在文本文件中如果两个字符之间相邻,那么通过局部敏感哈希函数计算两个字符的哈希值也相同或者相近,预设哈希阈值将两个字符之间的哈希值之差小于等于哈希阈值的文本字符映射到一个数据桶内。通过这种方式能够将文本文件划分为多个数据桶,每个数据桶内的文本字符在文本文件中的位置相对于其他数据桶内文本字符之间的距离更近。实际上完成了通过相邻距离对文本文件的分类,又由于,文本之间的位置关系对文本之间的关联度具有很高的影响,因此,在后续模型特征处理时,只需要关注相同数据桶内文本字符之间的注意力计算,无需关注跨数据通之间文本字符之间注意力的计算,大大降低了文本文件注意力计算的复杂程度,减少了注意力计算所需的算力。
S1300、将所述文本文件和所述多个数据桶内的文本字符输入至预设的摘要生成模型中,其中,所述摘要生成模型为预先训练至收敛状态的,用于提取文档摘要的自注意力编码模型;
当文本文件被划分为多个数据桶后,将文本文件和各数据桶内的文本作为输入,输入至预设的摘要生成模型。
本实施方式中,摘要生成模型为半监督训练模型,需要提前进行训练,通过训练样本对摘要生成模型的初始模型进行训练,训练至收敛状态的摘要生成模型能够对文本文件中的文本摘要进行提取。
摘要生成模型具体为:Transformer模型。Transformer模型是一种基于encoder(编码)-decoder(解码)结构的模型。Transformer模型包括编码组件和解码组件。编码组件部分由多个级联的编码器(encoder)构成。解码组件部分也是由相同数量(与编码器对应)的解码器(decoder)组成的。一般地,Transformer模型包括6个级联的编码器和6个级联的解码器。但是,Transformer模型包括的编码器和解码器个数不局限于此,根据具体应用场景的不同,在一些实施方式中,编码器和解码器的个数能够为(不限于):1个、2个、3个、4个、5个、7个或者更多个。
Transformer模型的编码器和解码器中均包括:注意力层和前馈神经网络层。其中,注意力层位于前馈神经网络层之前,即在编码器和解码器中,注意力层和前馈神经网络层采用标准的残差方式进行连接。这种连接结构需要在前向传播时存储大量计算结果从而在反向传播时进行梯度的计算,即需要记载注意力层的输入数据、注意力层的输出数据、注意力层的输入数据和输出数据的结合数据以及前馈神经网络层的输出数据。
在一些实施方式中,为了避免前向传播时存储大量计算结果占用内存的缺陷,对Transformer模型中注意力层和前馈神经网络层的结构进行调整。请参阅图2,图2为本实施例注意力层和前馈神经网络层的一种连接结构示意图。如图2所示,注意力层和前馈神经网络层采用RevNets网络中的可逆残差结构。当图示结构为第一级编码器时,X1表示文本文件,X2表示多个数据桶的文本字符,Attention表示注意力层,Y1表示前馈神经网络层的输入数据,Y2表示编码器或者解码器的输出数据,FFN表示为前馈神经网络层。其中,Y2将作为下一个编码器或者解码器的输入数据,下一个编码器或者解码器将Y2进行数据桶分类后,将Y2和经过数据桶分类的字符作为输入,进行如同图2的相同数据处理。采用这种结构后,只需要存储该输出的Y1与Y2即可,反向传播时通过公式即可推导出X1与X2,无需存储,公式如下X2=Y2-FFN(Y1);X1=Y1-Attention(X2),其中,FFN(Y1)表示前馈神经网络层的输出数据,Attention(X2)表示注意力层的输出数据,由于,这两个数据均可以通过Y1和X2计算得到,因此无需进行存储,又X1与X2也可推到出来无需存储,由此将大幅降低内存占用。
本实施方式中的摘要生成模型不局限于Transformer模型,根据具体应用场景的不同,在一些实施方式中,摘要生成模型还能够为GPT或BERT等编码-解码结构的神经网络模型。
S1400、根据所述摘要生成模型的输出结果生成所述文本文件的文本摘要。
将文本文件和多个数据桶内的文本字符输入至预设的摘要生成模型中,得到摘要生成模型输出的文本摘要。
在一些实施方式中,当摘要生成模型输出文本摘要后,需要对文本摘要进行存储,存储方式为:读取用户终端上传商品图片的商品编码,其中,商品编码是由服务器端在用户终端上传该商品图片时分配的唯一身份编码。当读取得到商品编码后,根据该商品编码生成存储文件夹,将商品图片和文本摘要进行关联存储,存储在该存储文件夹中。在实际应用中,用户上传商品图片后,其他用户在访问该用户图片所在的网页时,将光标或者点击指令作用于该商品图片上时,就触发该文本摘要的触发指令,服务器端调用该存储文件夹中的文本摘要发送至对应的用户终端,用于文本摘要的展示。这种存储方式,用户能够随时对服务器端的文本摘要进行修改,且修改后无需再更新文本摘要的存储位置,提高了文本摘要的修改效率。
上述实施方式通过局部敏感哈希函数对文本文件进行预处理,将文本文件中距离相近的文本字符划分在不同的数据桶内,在摘要生成模型中进行注意力处理时,不同数据桶内的文本字符分别进行注意力计算,无需关注跨数据桶之间文字字符之间的注意力计算,使注意力计算的时间复杂度由与输入文本长度平方成正比,降低为L log L,其中,L是指桶桶内文本的长度。由此可见,本实施方式能够大大降低现有注意力模型中注意力计算的复杂度,进而降低模型提取摘要所需的算力和训练时长。
在一些实施方式中,文本文件的获取是根据用户上传商品图片后发起的。请参阅图3,图3为本实施例采集文本文件的流程示意图。
如图3所示,S1100包括:
S1110、获取商品图片的上传指令;
本实施方式中,当服务器端接收到用户上传商品图片的上传请求时,服务器端根据该上传请求发送向用户终端发送一个文本采集模组,文本采集模组以弹窗的形式显示在用户终端上用于采集与商品图片对应的文本文件。文本文件中记载的文本内容是对用户图片的详细介绍。
S1120、根据所述上传指令采集所述商品图片对应的文本文件。
为避免用户终端上传的商品图片和文本文件内容不符,在采集得到商品图片和文本文件后,对商品图片进行图像识别,识别得到商品图片表征的商品名称。然后,将文本文件输入至预设的神经网络模型中,该神经网络模型为预先训练至收敛状态,用于对文档进行实体名称提取的网络模型。根据商品名称在预设的同类商品扩展数据库中,查询商品名称对应的同义词,并且将同义词和商品名称一起与实体名称进行匹配,当实体名称与同义词和商品名称中的任意一个词语匹配时,确认商品图片和文本文件的内容匹配。
在一些实施方式中,数据桶之间的划分要根据文本字符之间的哈希值之差确定。请参阅图4,图4为本实施例分配数据通的流程示意图。
如图4所示,S1200包括:
S1210、根据所述局部敏感哈希函数计算所述文本文件中各文本字符的哈希值,其中,所述局部敏感哈希函数通过所述各文本字符之间的邻近距离,约束所述各文本字符的哈希值;
当采集得到文本文件后,需要根据预设的局部敏感哈希函数对文本文件进行预处理,将文本文件中哈希值相近的文本字符映射在一个数据桶内,对文本文件进行内容分类。
局部敏感哈希函数是指:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。也就是说,如果我们对原始数据进行一些hash映射后,我们希望原先相邻的两个数据能够被hash到相同的桶内,具有相同的数据桶号。对原始数据集合中所有的数据都进行hash映射后,我们就得到了一个hash table,这些原始数据集被分散到了hash table的桶内。由此,能够看出局部敏感哈希函数能够约束文本文件中相邻字符之间的哈希值之差趋于0,以达到根据文本字符之间的邻近距离,约束各文本字符的哈希值的目的。
S1220、将所述各文本字符中对应哈希值之差小于等于预设哈希阈值的文本字符存储在同一个数据桶内。
在文本文件中如果两个字符之间相邻,那么通过局部敏感哈希函数计算两个字符的哈希值也相同或者相近,预设哈希阈值将两个字符之间的哈希值之差小于等于哈希阈值的文本字符映射到一个数据桶内。通过这种方式能够将文本文件划分为多个数据桶,每个数据桶内的文本字符在文本文件中的位置相对于其他数据桶内文本字符之间的距离更近。实际上完成了通过相邻距离对文本文件的分类,又由于,文本之间的位置关系对文本之间的关联度具有很高的影响,因此,在后续模型特征处理时,只需要关注相同数据桶内文本字符之间的注意力计算,无需关注跨数据通之间文本字符之间注意力的计算,大大降低了文本文件注意力计算的复杂程度,减少了注意力计算所需的算力。
在一些实施方式中,摘要生成模型包括注意力层和前馈神经网络层,注意力层和前馈神经网络层的结构能够避免在前项传播过程中,摘要生成模型存储过多的中间数据。请参阅图5,图5为本实施例摘要生成模型局部运算的流程示意图。
如图5所示,S1300包括:
S1311、将所述多个数据桶内的文本字符输入至所述注意力层中,生成注意力特征;
摘要生成模型具体为:Transformer模型。Transformer模型包括6个级联的编码器和6个级联的解码器。但是,Transformer模型包括的编码器和解码器个数不局限于此,根据具体应用场景的不同,在一些实施方式中,编码器和解码器的个数能够为(不限于):1个、2个、3个、4个、5个、7个或者更多个。
图2所示,注意力层和前馈神经网络层采用RevNets网络中的可逆残差结构。当图示结构为第一级编码器时,X1表示文本文件,X2表示多个数据桶的文本字符,Attention表示注意力层,Y1表示前馈神经网络层的输入数据,Y2表示编码器或者解码器的输出数据,FFN表示为前馈神经网络层。其中,Y2将作为下一个编码器或者解码器的输入数据,下一个编码器或者解码器将Y2进行数据桶分类后,将Y2和经过数据桶分类的字符作为输入,进行如同图2的相同数据处理。采用这种结构后,只需要存储该输出的Y1与Y2即可,反向传播时通过公式即可推导出X1与X2,无需存储,公式如下X2=Y2-FFN(Y1);X1=Y1-Attention(X2),其中,FFN(Y1)表示前馈神经网络层的输出数据,Attention(X2)表示注意力层的输出数据,由于,这两个数据均可以通过Y1和X2计算得到,因此无需进行存储,又X1与X2也可推到出来无需存储,由此将大幅降低内存占用。
将多个数据桶内的文本字符输入至注意力层中,生成注意力特征。注意力层以数据桶为单位进行注意力计算。
S1312、将所述注意力特征和所述文本文件合并生成第一输入数据,并将所述第一输入数据输入至所述前馈神经网络层,生成第一特征数据;
将注意力特征和文本文件合并生成第一输入数据,其中,第一输入数据指图2中的Y1。然后,将第一输入数据输入至述馈神经网络层进行特征提取生成第一特征数据,其中,第一特征数据为FFN(Y1)。
S1313、将所述第一特征数据和所述多个数据桶内的文本字符合并生成第二输入数据,并将所述第二输入数据作为下一处理环节的输入数据。
将第一特征数据和多个数据桶内的文本字符进行特征拼接生成第二输入数据,第二输入数据将作为下一个编码器或者解码器的输入数据。
本实施方式中的摘要生成模型为Transformer模型的改进模型,具体的改进方式如图2所示。摘要生成模型属于半监督模型,需要预先训练至收敛状态。具体请参阅图6,图6为本实施例摘要生成模型的一种训练流程图。
如图6所示,包括:
S2100、获取训练样本;
本实施方式中,设置有训练样本集,训练样本集中包括若干的训练样本,每个训练样本均为训练文档。在进行摘要生成模型训练时,从训练样本集中随机抽取一个训练样本作为当前轮次训练的训练吗文本。
S2200、将所述训练样本输入至所述摘要生成模型的初始模型中,由所述编码器对所述训练样本进行编码处理生成编码数据;
摘要生成模型为Transformer模型,在将Transformer模型训练成摘要生成模型之前,需要对Transformer模型进行参数初始化生成初始模型。
将训练样本输入至初始模型后,首先由多级编码器对训练样本进行编码,将训练样本进行低维映射,低维映射的结果为生成编码数据。
S2300、将所述编码数据输入至所述解码器中对所述编码数据进行解码处理生成解码数据;
当多级编码器将样本数据映射在低维空间内生成编码数据后,将编码数据传输至多级解码器中进行高维数据还原,高维数据还原产生的结果为解码数据。解码数据实则就是根据编码数据还原生成的与训练样本同一维度的还原数据。
S2400、根据所述初始模型中预设的损失函数计算所述训练样本与所述解码数据之间的损失值;
初始模型中预设的损失函数,损失函数用于计算解码数据与训练样本之间的损失值,损失值能够是解码数据与训练样本之间欧氏距离、马氏距离、曼哈顿距离当中一种或者多种复合距离。
S2500、当所述损失值大于预设的损失阈值时,通过所述初始模型中预设的反向传播函数矫正所述编码器的权重值。
当计算结果得到的损失值与预设损失阈值时,若损失值大于损失阈值时,需要根据初始模型中预设的反向传播函数,计算初始模型的梯度值,然后,根据梯度值对初始模型中编码器的权重值进行校正。当损失值小于等于损失阈值时,则确认本轮训练结束。
上述训练过程为单个训练样本在初始模型中的训练过程,当模型为多个时,则依次对多个模型进行上述训练过程,因此,上述训练是循环进行的。
本实施方式中摘要生成模型的初始模型根据训练样本和解码数据计算模型的损失值和回传梯度,无需对训练样本进行标注,提高了模型训练的效率。
在一些实施方式中,当训练集中有多个训练样本时,需要根据训练次数确定模型是否收敛。请参阅图7,图7为本实施例确认生成摘要生成模型的流程示意图。
如图7所示,S2500之后包括:
S2600、将所述初始模型的训练次数进行统计生成训练数值;
在初始模型进行训练时,统计初始模型的训练次数,S2100-S2500的一个完整的训练过程记为一次训练。对每一次训练进行累加统计得到训练数值。
S2700、将所述训练数值与预设的训练阈值进行比较,当所述训练数值等于所述训练阈值时,确认所述初始模型训练至收敛状态成为所述摘要生成模型。
在进行训练时根据训练所需的精度或者历史训练数据,得到训练阈值,将训练数值和训练阈值进行比对,当训练数值等于训练阈值时,就说明初始模型训练的次数已经达到设计要求,初始模型训练至收敛状态,成为了摘要生成模型。
在一些实施方式中,当文本摘要生成时,需要对摘要文本进行存储。请参阅图8,图8为本实施例文本摘要的一种存储流程图。
如图8所示,S1400之后包括:
S1410、采集所述商品图片的商品编码;
读取用户终端上传商品图片的商品编码,其中,商品编码是由服务器端在用户终端上传该商品图片时分配的唯一身份编码。
S1420、根据所述商品编码将所述商品图片和所述文本摘要进行关联存储,以示用户通过预设与所述商品图片的调用指令查看所述文本摘要。
当读取得到商品编码后,根据该商品编码生成存储文件夹,将商品图片和文本摘要进行关联存储,存储在该存储文件夹中。在实际应用中,用户上传商品图片后,其他用户在访问该用户图片所在的网页时,将光标或者点击指令作用于该商品图片上时,就触发该文本摘要的触发指令,服务器端调用该存储文件夹中的文本摘要发送至对应的用户终端,用于文本摘要的展示。这种存储方式,用户能够随时对服务器端的文本摘要进行修改,且修改后无需再更新文本摘要的存储位置,提高了文本摘要的修改效率。
为解决上述技术问题,本申请实施例还提供文本摘要生成装置。具体请参阅图9,图9为本实施例文本摘要生成装置基本结构示意图。
如图9所示,一种文本摘要生成装置,包括:获取模块1100、划分模块1200、处理模块1300和执行模块1400。其中,获取模块1100用于获取待处理的文本文件;划分模块1200用于根据预设的局部敏感哈希函数将所述文本文件映射至预设的数据桶内;处理模块1300用于将所述文本文件和所述多个数据桶内的文本字符输入至预设的摘要生成模型中,其中,所述摘要生成模型为预先训练至收敛状态的,用于提取文档摘要的自注意力编码模型;执行模块1400用于根据所述摘要生成模型的输出结果生成所述文本文件的文本摘要。
文本摘要生成装置通过局部敏感哈希函数对文本文件进行预处理,将文本文件中距离相近的文本字符划分在不同的数据桶内,在摘要生成模型中进行注意力处理时,不同数据桶内的文本字符分别进行注意力计算,无需关注跨数据桶之间文字字符之间的注意力计算,使注意力计算的时间复杂度由与输入文本长度平方成正比,降低为L log L,其中,L是指桶内文本的长度。由此可见,本实施方式能够大大降低现有注意力模型中注意力计算的复杂度,进而降低模型提取摘要所需的算力和训练时长。
在一些实施方式中,所述文本摘要生成装置,还包括:第一获取子模块和第一采集子模块。其中,第一获取子模块用于获取商品图片的上传指令;第一采集子模块用于根据所述上传指令采集所述商品图片对应的文本文件。
在一些实施方式中,所述文本摘要生成装置,还包括:第一计算子模块和第一存储子模块。其中,第一计算子模块用于根据所述局部敏感哈希函数计算所述文本文件中各文本字符的哈希值,其中,所述局部敏感哈希函数通过所述各文本字符之间的邻近距离,约束所述各文本字符的哈希值;第一存储子模块用于将所述各文本字符中对应哈希值之差小于等于预设哈希阈值的文本字符存储在同一个数据桶内。
在一些实施方式中,摘要生成模型包括注意力层和前馈神经网络层;所述文本摘要生成装置还包括:第一输入子模块、第一处理子模块和第一执行子模块。其中,第一输入子模块用于将所述多个数据桶内的文本字符输入至所述注意力层中,生成注意力特征;第一处理子模块用于将所述注意力特征和所述文本文件合并生成第一输入数据,并将所述第一输入数据输入至所述前馈神经网络层,生成第一特征数据;第一执行子模块用于将所述第一特征数据和所述多个数据桶内的文本字符合并生成第二输入数据,并将所述第二输入数据作为下一处理环节的输入数据。
在一些实施方式中,所述摘要生成模型包括编码器和解码器;所述文本摘要生成装置还包括:第二获取子模块、第二输入子模块、第三输入子模块、第二处理子模块和第二执行子模块。其中,第二获取子模块用于获取训练样本;第二输入子模块用于将所述训练样本输入至所述摘要生成模型的初始模型中,由所述编码器对所述训练样本进行编码处理生成编码数据;第三输入子模块用于将所述编码数据输入至所述解码器中对所述编码数据进行解码处理生成解码数据;第二处理子模块用于根据所述初始模型中预设的损失函数计算所述训练样本与所述解码数据之间的损失值;第二执行子模块用于当所述损失值大于预设的损失阈值时,通过所述初始模型中预设的反向传播函数矫正所述编码器的权重值。
在一些实施方式中,所述文本摘要生成装置,还包括:第一统计子模块和第三执行子模块。其中,第一统计子模块用于将所述初始模型的训练次数进行统计生成训练数值;第三执行子模块用于将所述训练数值与预设的训练阈值进行比较,当所述训练数值等于所述训练阈值时,确认所述初始模型训练至收敛状态成为所述摘要生成模型。
在一些实施方式中,所述文本摘要生成装置,还包括:第二采集子模块和第二存储子模块。其中,第二采集子模块用于采集所述商品图片的商品编码;第二存储子模块用于根据所述商品编码将所述商品图片和所述文本摘要进行关联存储,以示用户通过预设与所述商品图片的调用指令查看所述文本摘要。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图图10为本实施例计算机设备基本结构框图。
如图10所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种文本摘要生成方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种文本摘要生成方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图9中获取模块1100、划分模块120、处理模块130和执行模块140的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有文本摘要生成装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机设备通过局部敏感哈希函数对文本文件进行预处理,将文本文件中距离相近的文本字符划分在不同的数据桶内,在摘要生成模型中进行注意力处理时,不同数据桶内的文本字符分别进行注意力计算,无需关注跨数据桶之间文字字符之间的注意力计算,使注意力计算的时间复杂度由与输入文本长度平方成正比,降低为L log L,其中,L是指桶桶内文本的长度。由此可见,本实施方式能够大大降低现有注意力模型中注意力计算的复杂度,进而降低模型提取摘要所需的算力和训练时长。
本申请还提供一种计算机存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例文本摘要生成方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述文本摘要生成方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种文本摘要生成方法,其特征在于,包括:
获取待处理的文本文件;
根据预设的局部敏感哈希函数将所述文本文件映射至预设的数据桶内;
将所述文本文件和所述多个数据桶内的文本字符输入至预设的摘要生成模型中,其中,所述摘要生成模型为预先训练至收敛状态的,用于提取文档摘要的自注意力编码模型;
根据所述摘要生成模型的输出结果生成所述文本文件的文本摘要。
2.根据权利要求1所述的文本摘要生成方法,其特征在于,所述获取待处理的文本文件包括:
获取商品图片的上传指令;
根据所述上传指令采集所述商品图片对应的文本文件。
3.根据权利要求1所述的文本摘要生成方法,其特征在于,所述根据预设的局部敏感哈希函数将所述文本文件映射至预设的数据桶内包括:
根据所述局部敏感哈希函数计算所述文本文件中各文本字符的哈希值,其中,所述局部敏感哈希函数通过所述各文本字符之间的邻近距离,约束所述各文本字符的哈希值;
将所述各文本字符中对应哈希值之差小于等于预设哈希阈值的文本字符存储在同一个数据桶内。
4.根据权利要求1所述的文本摘要生成方法,其特征在于,所述摘要生成模型包括注意力层和前馈神经网络层;所述将所述文本文件和所述多个数据桶内的文本字符输入至预设的摘要生成模型中包括:
将所述多个数据桶内的文本字符输入至所述注意力层中,生成注意力特征;
将所述注意力特征和所述文本文件合并生成第一输入数据,并将所述第一输入数据输入至所述前馈神经网络层,生成第一特征数据;
将所述第一特征数据和所述多个数据桶内的文本字符合并生成第二输入数据,并将所述第二输入数据作为下一处理环节的输入数据。
5.根据权利要求4所述的文本摘要生成方法,其特征在于,所述摘要生成模型包括编码器和解码器,所述编码器和解码器均包括所述注意力层和前馈神经网络层;所述摘要生成模型的训练方法包括:
获取训练样本;
将所述训练样本输入至所述摘要生成模型的初始模型中,由所述编码器对所述训练样本进行编码处理生成编码数据;
将所述编码数据输入至所述解码器中对所述编码数据进行解码处理生成解码数据;
根据所述初始模型中预设的损失函数计算所述训练样本与所述解码数据之间的损失值;
当所述损失值大于预设的损失阈值时,通过所述初始模型中预设的反向传播函数矫正所述编码器的权重值。
6.根据权利要求5所述的文本摘要生成方法,其特征在于,所述通过所述初始模型中预设的反向传播函数矫正所述编码器的权重值之后,包括:
将所述初始模型的训练次数进行统计生成训练数值;
将所述训练数值与预设的训练阈值进行比较,当所述训练数值等于所述训练阈值时,确认所述初始模型训练至收敛状态成为所述摘要生成模型。
7.根据权利要求2所述的文本摘要生成方法,其特征在于,所述根据所述摘要生成模型的输出结果生成所述文本文件的文本摘要之后,包括:
采集所述商品图片的商品编码;
根据所述商品编码将所述商品图片和所述文本摘要进行关联存储,以示用户通过预设与所述商品图片的调用指令查看所述文本摘要。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述文本摘要生成方法的步骤。
9.一种计算机存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述文本摘要生成方法的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至7任意一项中所述方法的步骤。
CN202111626683.8A 2021-12-28 2021-12-28 文本摘要生成方法及其装置、设备、介质、产品 Pending CN114328898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111626683.8A CN114328898A (zh) 2021-12-28 2021-12-28 文本摘要生成方法及其装置、设备、介质、产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111626683.8A CN114328898A (zh) 2021-12-28 2021-12-28 文本摘要生成方法及其装置、设备、介质、产品

Publications (1)

Publication Number Publication Date
CN114328898A true CN114328898A (zh) 2022-04-12

Family

ID=81014603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111626683.8A Pending CN114328898A (zh) 2021-12-28 2021-12-28 文本摘要生成方法及其装置、设备、介质、产品

Country Status (1)

Country Link
CN (1) CN114328898A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410212A (zh) * 2022-11-02 2022-11-29 平安科技(深圳)有限公司 多模态模型的训练方法、装置、计算机设备及存储介质
CN115659176A (zh) * 2022-10-14 2023-01-31 湖南大学 智能合约漏洞检测模型的训练方法及相关设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115659176A (zh) * 2022-10-14 2023-01-31 湖南大学 智能合约漏洞检测模型的训练方法及相关设备
CN115410212A (zh) * 2022-11-02 2022-11-29 平安科技(深圳)有限公司 多模态模型的训练方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN110162669B (zh) 视频分类处理方法、装置、计算机设备及存储介质
CN111695674B (zh) 联邦学习方法、装置、计算机设备及可读存储介质
CN110475129B (zh) 视频处理方法、介质及服务器
CN111797210A (zh) 基于用户画像的信息推荐方法、装置、设备及存储介质
CN114328898A (zh) 文本摘要生成方法及其装置、设备、介质、产品
CN110019865B (zh) 海量图片处理方法、装置、电子设备及存储介质
CN110149529B (zh) 媒体信息的处理方法、服务器及存储介质
Pan et al. Product quantization with dual codebooks for approximate nearest neighbor search
CN112466314A (zh) 情感语音数据转换方法、装置、计算机设备及存储介质
CN111767697B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN113408668A (zh) 基于联邦学习系统的决策树构建方法、装置及电子设备
CN115018549A (zh) 广告文案生成方法及其装置、设备、介质、产品
CN113961736A (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN113947095A (zh) 多语种文本翻译方法、装置、计算机设备及存储介质
CN115099854A (zh) 广告文案创作方法及其装置、设备、介质、产品
CN113326701A (zh) 嵌套实体识别方法、装置、计算机设备及存储介质
CN112598039A (zh) 获取nlp分类领域阳性样本方法及相关设备
CN116127925B (zh) 基于对文本进行破坏处理的文本数据增强方法及装置
CN114358023B (zh) 智能问答召回方法、装置、计算机设备及存储介质
CN115018548A (zh) 广告文案预测方法及其装置、设备、介质、产品
CN115292603A (zh) 商品搜索方法及其装置、设备、介质
CN115309905A (zh) 广告文本生成方法及其装置、设备、介质
CN114398980A (zh) 跨模态哈希模型的训练方法、编码方法、装置及电子设备
CN114819140A (zh) 模型剪枝方法、装置和计算机设备
CN112966150A (zh) 一种视频内容抽取的方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination