CN115859121B - 文本处理模型训练方法及装置 - Google Patents

文本处理模型训练方法及装置 Download PDF

Info

Publication number
CN115859121B
CN115859121B CN202310043997.8A CN202310043997A CN115859121B CN 115859121 B CN115859121 B CN 115859121B CN 202310043997 A CN202310043997 A CN 202310043997A CN 115859121 B CN115859121 B CN 115859121B
Authority
CN
China
Prior art keywords
text
data set
target
processing model
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310043997.8A
Other languages
English (en)
Other versions
CN115859121A (zh
Inventor
陈畅新
黄于晏
蔡锐涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youmi Technology Co ltd
Original Assignee
Youmi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youmi Technology Co ltd filed Critical Youmi Technology Co ltd
Priority to CN202310043997.8A priority Critical patent/CN115859121B/zh
Publication of CN115859121A publication Critical patent/CN115859121A/zh
Application granted granted Critical
Publication of CN115859121B publication Critical patent/CN115859121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本处理模型训练方法及装置,方法包括:建立文本数据集;其中,所述文本数据集包括多个文本对;每个文本对包括:前后拼接的第一文本和第二文本;确定所述文本处理模型的目标任务,并根据所述目标任务,从所述文本数据集中获取对应的目标数据集;根据所述目标数据集,训练获得所述文本处理模型。通过建立包括多个前后拼接的文本对的文本数据集,使得各文本处理目标任务共用同一个文本数据集,在文本数据集中按照具体的目标任务需求获取相应的目标数据集,并根据目标数据集训练获得带有各任务分支的文本处理模型,提升了文本处理模型训练的效率。

Description

文本处理模型训练方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本处理模型训练方法及装置。
背景技术
文本处理模型可用于文本内容的生成、匹配、分类等任务,但对于不同的处理任务,所采用的模型、数据及模型训练方式均可能存在差异。而现有的多任务联合训练方法,在文本处理领域结合应用时存在障碍,导致多任务文本处理模型训练的效率不高。因此,提升文本处理模型训练的效率尤为重要。
发明内容
本发明所要解决的技术问题在于,提供一种文本处理模型训练方法及装置,通过建立包括多个前后拼接的文本对的文本数据集,按照具体的目标任务需求获取相应的目标数据集,并根据目标数据集训练获得带有各任务分支的文本处理模型,提升了文本处理模型训练的效率。
为了解决上述技术问题,本发明第一方面公开了一种文本处理模型训练方法,包括:
建立文本数据集;
其中,所述文本数据集包括多个文本对;每个文本对包括:前后拼接的第一文本和第二文本;
确定所述文本处理模型的目标任务,并根据所述目标任务,从所述文本数据集中获取对应的目标数据集;
根据所述目标数据集,训练获得所述文本处理模型;
其中,所述文本处理模型包括对应于所述目标任务的目标分支,所述目标分支用于根据所述目标任务,输出对应于待识别文本的目标信息。
作为一种可选的实施方式,所述建立文本数据集,包括:
获取多个原始文本,以及对应于每个所述原始文本的实体标签和类别标签;
根据所述实体标签,将所述原始文本划分为至少一个相似文本组;
对各所述相似文本组依次执行以下操作,获得多个文本对:
从当前的相似文本组中选取第一原始文本和第二原始文本;
将所述第一原始文本和第二原始文本分别进行正向拼接和反向拼接,分别获得所述第一原始文本在前的文本对和所述第二原始文本在前的文本对。
作为一种可选的实施方式,所述目标任务包括文本生成任务;
所述根据所述目标任务,从所述文本数据集中获取对应的目标数据集,包括:根据第一比例,从所述文本数据集中获得第一数据集;
所述根据所述目标数据集,训练获得所述文本处理模型之前,所述方法还包括:
对所述第一数据集中各文本对的第一文本进行第一预处理;
其中,所述第一预处理包括:根据所述实体标签,移除对应文本中的非实体词;和/或,根据所述实体标签,切分对应文本并打乱后重新拼接;
根据预设的第一长度,对所述第一预处理后,各文本对的第一文本和第二文本进行长度处理,并对所述长度处理后的各文本对进行切分处理,获得对应于各文本对的第一分字序列;
根据所述第一分字序列,通过第一预设字表获得对应的第一数字序列;
所述根据所述目标数据集,训练获得所述文本处理模型,包括:
根据所述第一数字序列,通过所述文本处理模型的嵌入层获得第一句向量;
根据所述各文本对的第一文本对应的第一句向量,获得对应于所述各文本对的第一文本的预测文本;以及,根据对应于所述各文本对的第一文本的预测文本和第二文本,计算获得第一损失函数;
根据所述第一损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的文本生成任务训练完成。
作为一种可选的实施方式,所述目标任务包括语义匹配任务;
所述根据所述目标任务,从所述文本数据集中获取对应的目标数据集,包括:根据第二比例,从所述文本数据集中获得第二数据集;
所述根据所述目标数据集,训练获得所述文本处理模型之前,所述方法还包括:
对所述第二数据集中的各文本对进行第二预处理;所述第二预处理包括:根据预设的第二长度,对所述各文本对的第一文本进行长度处理;根据所述各文本对的第一文本,确定第一语义符号,并置于所述第一文本之前;
对所述第二预处理后的各文本对进行切分处理,获得对应于各文本对的第二分字序列;
根据所述第二分字序列,通过第二预设字表获得对应的第二数字序列;
所述根据所述目标数据集,训练获得所述文本处理模型,包括:
根据所述第二数字序列,通过所述文本处理模型的嵌入层获得第二句向量;
根据所述第二句向量中所述第一语义符号对应的语义向量,获得对应于同一训练批次的多个所述第一文本的语义向量矩阵;并根据所述语义向量矩阵,计算获得第二损失函数;
根据所述第二损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的语义匹配任务训练完成。
作为一种可选的实施方式,所述目标任务包括文本分类任务;
所述根据所述目标任务,从所述文本数据集中获取对应的目标数据集,包括:根据第三比例,从所述文本数据集中获得第三数据集;
所述根据所述目标数据集,训练获得所述文本处理模型之前,所述方法还包括:
对所述第三数据集中的各文本对进行第三预处理;所述第三预处理包括:根据预设的第三长度,对所述各文本对的第一文本进行长度处理;根据所述各文本对的第一文本,确定第二语义符号,并置于所述第一文本之前;
对所述第三预处理后的各文本对进行切分处理,获得对应于各文本对的第三分字序列;
根据所述第三分字序列,通过第三预设字表获得对应的第三数字序列;
所述根据所述目标数据集,训练获得所述文本处理模型,包括:
根据所述第三数字序列,通过所述文本处理模型的嵌入层获得第三句向量;
根据所述第三句向量中所述第二语义符号对应的语义向量,获得所述第三句向量对应的类别,并计算获得第三损失函数;
根据所述第三损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的文本分类任务训练完成。
作为一种可选的实施方式,所述目标任务为多个,所述根据所述目标数据集,训练获得所述文本处理模型,包括:
根据所述目标任务,预处理对应于所述目标任务的目标数据集;
将所述预处理后的目标数据集输入所述文本处理模型,计算获得各目标任务对应的目标损失函数;
根据各目标任务对应的目标损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型训练完成。
作为一种可选的实施方式,所述目标任务包括文本生成任务、语义匹配任务和文本分类任务;所述确定对所述文本处理模型训练完成之后,所述方法还包括:
将所述待识别文本输入所述文本处理模型;
根据所述文本处理模型中,所述文本生成任务对应的目标分支,生成对应于所述待识别文本的目标文本;
和/或,根据所述文本处理模型中,所述语义匹配任务对应的目标分支,从所述文本数据集中确定与所述待识别文本相似度最大的预定数量个文本;
和/或,根据所述文本处理模型中,所述文本分类任务对应的目标分支,确定所述待识别文本的文本类型。
第二方面,本申请提供一种文本处理模型训练装置,所述装置包括:
数据集建立模块,用于建立文本数据集;
其中,所述文本数据集包括多个文本对;每个文本对包括:前后拼接的第一文本和第二文本;
目标任务确定模块,用于确定所述文本处理模型的目标任务,并根据所述目标任务,从所述文本数据集中获取对应的目标数据集;
训练模块,用于根据所述目标数据集,训练获得所述文本处理模型;
其中,所述文本处理模型包括对应于所述目标任务的目标分支,所述目标分支用于根据所述目标任务,输出对应于待识别文本的目标信息。
作为一种可选的实施方式,所述数据集建立模块建立文本数据集的具体方式,包括:
获取多个原始文本,以及对应于每个所述原始文本的实体标签和类别标签;
根据所述实体标签,将所述原始文本划分为至少一个相似文本组;
对各所述相似文本组依次执行以下操作,获得多个文本对:
从当前的相似文本组中选取第一原始文本和第二原始文本;
将所述第一原始文本和第二原始文本分别进行正向拼接和反向拼接,分别获得所述第一原始文本在前的文本对和所述第二原始文本在前的文本对。
作为一种可选的实施方式,所述目标任务包括文本生成任务;
所述目标任务确定模块根据所述目标任务,从所述文本数据集中获取对应的目标数据集的具体方式,包括:根据第一比例,从所述文本数据集中获得第一数据集;
所述装置还包括预处理模块,用于在所述训练模块根据所述目标数据集,训练获得所述文本处理模型之前,
对所述第一数据集中各文本对的第一文本进行第一预处理;
其中,所述第一预处理包括:根据所述实体标签,移除对应文本中的非实体词;和/或,根据所述实体标签,切分对应文本并打乱后重新拼接;
根据预设的第一长度,对所述第一预处理后,各文本对的第一文本和第二文本进行长度处理,并对所述长度处理后的各文本对进行切分处理,获得对应于各文本对的第一分字序列;
根据所述第一分字序列,通过第一预设字表获得对应的第一数字序列;
所述训练模块根据所述目标数据集,训练获得所述文本处理模型的具体方式,包括:
根据所述第一数字序列,通过所述文本处理模型的嵌入层获得第一句向量;
根据所述各文本对的第一文本对应的第一句向量,获得对应于所述各文本对的第一文本的预测文本;以及,根据对应于所述各文本对的第一文本的预测文本和第二文本,计算获得第一损失函数;
根据所述第一损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的文本生成任务训练完成。
作为一种可选的实施方式,所述目标任务包括语义匹配任务;
所述目标任务确定模块根据所述目标任务,从所述文本数据集中获取对应的目标数据集的具体方式,包括:根据第二比例,从所述文本数据集中获得第二数据集;
所述预处理模块还用于在所述训练模块根据所述目标数据集,训练获得所述文本处理模型之前,
对所述第二数据集中的各文本对进行第二预处理;所述第二预处理包括:根据预设的第二长度,对所述各文本对的第一文本进行长度处理;根据所述各文本对的第一文本,确定第一语义符号,并置于所述第一文本之前;
对所述第二预处理后的各文本对进行切分处理,获得对应于各文本对的第二分字序列;
根据所述第二分字序列,通过第二预设字表获得对应的第二数字序列;
所述训练模块根据所述目标数据集,训练获得所述文本处理模型的具体方式,包括:
根据所述第二数字序列,通过所述文本处理模型的嵌入层获得第二句向量;
根据所述第二句向量中所述第一语义符号对应的语义向量,获得对应于同一训练批次的多个所述第一文本的语义向量矩阵;并根据所述语义向量矩阵,计算获得第二损失函数;
根据所述第二损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的语义匹配任务训练完成。
作为一种可选的实施方式,所述目标任务包括文本分类任务;
所述目标任务确定模块根据所述目标任务,从所述文本数据集中获取对应的目标数据集的具体方式,包括:根据第三比例,从所述文本数据集中获得第三数据集;
所述预处理模块还用于在所述训练模块根据所述目标数据集,训练获得所述文本处理模型之前,
对所述第三数据集中的各文本对进行第三预处理;所述第三预处理包括:根据预设的第三长度,对所述各文本对的第一文本进行长度处理;根据所述各文本对的第一文本,确定第二语义符号,并置于所述第一文本之前;
对所述第三预处理后的各文本对进行切分处理,获得对应于各文本对的第三分字序列;
根据所述第三分字序列,通过第三预设字表获得对应的第三数字序列;
所述训练模块根据所述目标数据集,训练获得所述文本处理模型的具体方式,包括:
根据所述第三数字序列,通过所述文本处理模型的嵌入层获得第三句向量;
根据所述第三句向量中所述第二语义符号对应的语义向量,获得所述第三句向量对应的类别,并计算获得第三损失函数;
根据所述第三损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的文本分类任务训练完成。
作为一种可选的实施方式,所述目标任务为多个,所述训练模块根据所述目标数据集,训练获得所述文本处理模型的具体方式,包括:
根据所述目标任务,预处理对应于所述目标任务的目标数据集;
将所述预处理后的目标数据集输入所述文本处理模型,计算获得各目标任务对应的目标损失函数;
根据各目标任务对应的目标损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型训练完成。
作为一种可选的实施方式,所述目标任务包括文本生成任务、语义匹配任务和文本分类任务;所述装置还包括应用模块,用于在所述训练模块确定对所述文本处理模型训练完成之后,
将所述待识别文本输入所述文本处理模型;
根据所述文本处理模型中,所述文本生成任务对应的目标分支,生成对应于所述待识别文本的目标文本;
和/或,根据所述文本处理模型中,所述语义匹配任务对应的目标分支,从所述文本数据集中确定与所述待识别文本相似度最大的预定数量个文本;
和/或,根据所述文本处理模型中,所述文本分类任务对应的目标分支,确定所述待识别文本的文本类型。
本发明第三方面公开了另一种文本处理模型训练装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的文本处理模型训练方法。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的文本处理模型训练方法。
与现有技术相比,本发明实施例具有以下有益效果:通过建立包括多个前后拼接的文本对的文本数据集,使得各文本处理目标任务共用同一个文本数据集,在文本数据集中按照具体的目标任务需求获取相应的目标数据集,并根据目标数据集训练获得带有各任务分支的文本处理模型,提升了文本处理模型训练的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种文本处理模型训练方法的技术路线示意图;
图2是本发明实施例公开的一种文本处理模型训练方法的流程示意图;
图3是本发明实施例公开的另一种文本处理模型训练方法的流程示意图;
图4是本发明实施例公开的一种文本处理模型训练装置的结构示意图;
图5是本发明实施例公开的另一种文本处理模型训练装置的结构示意图;
图6是本发明实施例公开的又一种文本处理模型训练装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
文本处理模型可用于文本内容的生成、匹配、分类等任务,但对于不同的处理任务,所采用的模型、数据及模型训练方式均可能存在差异。而现有的多任务联合训练方法,在文本处理领域结合应用时存在障碍,导致多任务文本处理模型训练的效率不高。因此,提升文本处理模型训练的效率尤为重要。现有的文本匹配和文本生成多任务联合模型主要有SimBERT和Roformer两种,SimBERT采用的是与BERT相同的模型结构,但在训练时使用了不同的任务。采用抓取的开源数据构建相似句子对,并采用生成与匹配两种方式进行多任务训练,目的是让模型学会自动生成同义句,但是训练采用的是相似问句对,缺乏通用性。Roformer为SimBERT的改进版,拓展到一般句子的相似句子生成和检索,但无法进行基于关键词和文本风格的可控生成。综上,对于文本处理模型的多任务联合训练存在困难,且效率不高。
本发明需要提供一种具有多个分支的文本处理模型联合训练方法,以训练获得多功能的文本处理模型。请参阅图1,图1是本发明实施例公开的一种文本处理模型训练方法的技术路线示意图。如图1所示,三个任务使用同一个模型,并共享模型参数,在训练获得需要的文本处理模型之后,可输入待处理的语句sentence1,经文本向量化输入transformer编码器模型,根据模型的不同分支输出获得对应的输出文本、编码向量和风格标签,通过这些输出的组合完成各类文本处理任务。
本发明公开了一种文本处理模型训练方法及装置,通过元数据的变化内容确定对应的元数据过程文档,并通过所述元数据过程文档确定发生变化的元数据质量,生成相应的元数据质量文档,并进行元数据质量校验,提升了文本处理模型训练的标准化水平,进而提升了文本处理模型训练的效率和准确性。
实施例一
请参阅图2,图2是本发明实施例一公开的一种文本处理模型训练方法的流程示意图。如图2所示,所述文本处理模型训练方法可以包括以下操作:
S101、建立文本数据集;
其中,所述文本数据集包括多个文本对;每个文本对包括:前后拼接的第一文本和第二文本;
文本数据集可以来自公开的数据集,也可以采集特定领域的文本数据,例如公开的电商领域的广告文案和商品标题。
作为一种可选的实施方式,所述建立文本数据集,包括:
获取多个原始文本,以及对应于每个所述原始文本的实体标签和类别标签;
以前述的数据来源为例,在获得多个电商领域的文本后,可通过人工标注或者付费接口将文本中的品牌、商品词、成分材质、功效功能词、受众词等维度的信息进行标注,作为所述原始文本的实体标签;还可标注这些文本的文本风格作为类别标签,例如,文本风格可以是免费体验、强调优惠、提出疑问或制造稀缺等。
根据所述实体标签,将所述原始文本划分为至少一个相似文本组;
完成实体标签的标注之后,可根据所述实体标签,将实体标签一致或相似的原始文本划分为至少一个相似文本组,考虑到相似文本组中文本数量的问题,在实际应用中,可以仅将包含相同品牌和品类的文本归为一个相似文本组,若限制条件过多则可能导致将所述原始文本划分为至少一个相似文本组的步骤失效。
对各所述相似文本组依次执行以下操作,获得多个文本对:
从当前的相似文本组中选取第一原始文本和第二原始文本;
将所述第一原始文本和第二原始文本分别进行正向拼接和反向拼接,分别获得所述第一原始文本在前的文本对和所述第二原始文本在前的文本对。
第一原始文本和第二原始文本可以互不相同,正向拼接和反向拼接工作都要在两个原始文本间插入一个文本标签作为记号,例如[sep]标志,以语句A作为所述第一原始文本,以语句B作为所述第二原始文本,经此步骤,可获得形如A[sep]B和B[sep]A的两个文本对,在确保第一原始文本和第二原始文本不同的情况下,这两个文本对是不同的。
作为一种可选的实施方式,所述从当前的相似文本组中选取第一原始文本和第二原始文本之后,所述方法还包括:
将所述第一原始文本自身和第二原始文本自身分别进行前后拼接,获得前后内容一致的文本对。
由于训练过程中可能涉及文本的破坏问题,因此还可以对文本自身进行重复拼接,以丰富文本数据集。
通过各原始文本的实体标签将原始文本划分为至少一个相似文本组,并对各相似文本组中的文本进行正向和反向拼接,获得多个文本对,完成了数据集的建立,提升了建立文本数据集的效率,进而提升了文本处理模型训练的效率。
S102、确定所述文本处理模型的目标任务,并根据所述目标任务,从所述文本数据集中获取对应的目标数据集;
目标任务取决于具体的应用场景,可以包括文本生成任务、语义匹配任务和文本分类任务中的一种或多种,还可以包括其他文本处理任务,例如文本翻译任务等,还可以是多种文本处理任务的复合。确定对应的目标任务之后,可从建立好的文本数据集中按照预设规则和预设比例获取对应的目标数据集。
S103、根据所述目标数据集,训练获得所述文本处理模型;
其中,所述文本处理模型包括对应于所述目标任务的目标分支,所述目标分支用于根据所述目标任务,输出对应于待识别文本的目标信息。
如图1所示,训练完成后所获得的文本处理模型可以包括多个对应于目标任务的目标分支,根据目标任务获取对应目标分支的输出。
作为一种可选的实施方式,所述目标任务包括文本生成任务;
所述根据所述目标任务,从所述文本数据集中获取对应的目标数据集,包括:根据第一比例,从所述文本数据集中获得第一数据集;
在一个三任务联合训练的应用场景下,第一比例可以是1/3,当文本数据集较大时,第一比例也可以是1/4或者其他数字。多任务联合训练时,从文本数据集获得目标数据集的过程可以是有放回的抽样,也可以是无放回的抽样。
所述根据所述目标数据集,训练获得所述文本处理模型之前,所述方法还包括:
对所述第一数据集中各文本对的第一文本进行第一预处理;
其中,所述第一预处理包括:根据所述实体标签,移除对应文本中的非实体词;和/或,根据所述实体标签,切分对应文本并打乱后重新拼接;
第一预处理中包含的两种破坏原始文本对的手段可按照预设比例同时实施,例如,第一数据集中的一半数据实际用于文本生成任务,这一半数据中,有30%的第一文本会被破坏,但有70%保持原样,在30%需要被破坏的文本中,50%的数据移除对应文本中的非实体词,另50%的根据所述实体标签,切分对应文本并打乱后重新拼接。
此外,还可以对第二文本也进行预处理,将对应的文本风格标签置于对应的第二文本之前,作为一个prompt,以实现可控文本生成。
根据预设的第一长度,对所述第一预处理后,各文本对的第一文本和第二文本进行长度处理,并对所述长度处理后的各文本对进行切分处理,获得对应于各文本对的第一分字序列;
根据所述第一分字序列,通过第一预设字表获得对应的第一数字序列;
对于不在第一预设字表中的分字,可对应设置为固定的数值,例如100,得到完整无空缺的第一数字序列。
所述根据所述目标数据集,训练获得所述文本处理模型,包括:
根据所述第一数字序列,通过所述文本处理模型的嵌入层获得第一句向量;
根据所述各文本对的第一文本对应的第一句向量,获得对应于所述各文本对的第一文本的预测文本;以及,根据对应于所述各文本对的第一文本的预测文本和第二文本,计算获得第一损失函数;
第一损失函数可以是交叉熵函数,计算对应于各文本对的第一文本的预测文本和第二文本之间的交叉熵,对于函数的计算,可以分别获得预测文本和第二文本的位置向量、文本向量、字向量之和,将文本转化为数值向量的形式进行交叉熵函数的计算。
根据所述第一损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的文本生成任务训练完成。
通过文本生成任务的任务需求对各文本对的第一文本进行第一预处理,并获得相应的第一数字序列,对第一数字序列进行处理获得对应的第一句向量;通过各文本对的第一文本对应的第一句向量,可获得对应于所述各文本对的第一文本的预测文本,进而计算获得第一损失函数,完成文本生成任务的训练,提升了文本处理模型训练的效率。
作为一种可选的实施方式,所述目标任务包括语义匹配任务;
所述根据所述目标任务,从所述文本数据集中获取对应的目标数据集,包括:根据第二比例,从所述文本数据集中获得第二数据集;
相应的,第二比例的设置规则可以参考前一个实施方式中对第一比例的设置方法。
所述根据所述目标数据集,训练获得所述文本处理模型之前,所述方法还包括:
对所述第二数据集中的各文本对进行第二预处理;所述第二预处理包括:根据预设的第二长度,对所述各文本对的第一文本进行长度处理;根据所述各文本对的第一文本,确定第一语义符号,并置于所述第一文本之前;
第一语义符号在自然语言处理领域中,可以是一个[CLS]符号,每个文本可以有一个对应的[CLS]符号,该符号与文本中已有的其它字/词相比,这个无明显语义信息的符号可以更“公平”地融合文本中各个字/词的语义信息。最终可根据[CLS]符号对应位置所得到的输出,作为第一文本的语义输出。
对所述第二预处理后的各文本对进行切分处理,获得对应于各文本对的第二分字序列;
根据所述第二分字序列,通过第二预设字表获得对应的第二数字序列;
对于不在第二预设字表中的分字,可对应设置为固定的数值,例如100,得到完整无空缺的第二数字序列。
所述根据所述目标数据集,训练获得所述文本处理模型,包括:
根据所述第二数字序列,通过所述文本处理模型的嵌入层获得第二句向量;
根据所述第二句向量中所述第一语义符号对应的语义向量,获得对应于同一训练批次的多个所述第一文本的语义向量矩阵;并根据所述语义向量矩阵,计算获得第二损失函数;
在训练时,将一个训练批次内的各文本对应的[CLS]符号向量取出,得到语义向量矩阵,然后两两做内积,得到尺寸为训练批次乘以训练批次的相似度矩阵,针对对角线部分进行掩模处理,最后每一行进行softmax,将输出的类别标签和真实值进行比较,获得第二损失函数,第二损失函数用于指示所述语义向量矩阵中预测结果和真实值之间的相似度。
根据所述第二损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的语义匹配任务训练完成。
通过语义匹配任务的任务需求对各文本对进行第二预处理,确定第一语义符号,并获得相应的第二数字序列,进而获得相应的第二句向量,根据所述第二句向量中所述第一语义符号对应的语义向量,获得对应于同一训练批次的多个所述第一文本的语义向量矩阵,进而计算获得第二损失函数,完成语义匹配任务的训练,提升了文本处理模型训练的效率。
作为一种可选的实施方式,所述目标任务包括文本分类任务;
所述根据所述目标任务,从所述文本数据集中获取对应的目标数据集,包括:根据第三比例,从所述文本数据集中获得第三数据集;
第三比例的确定方法可参考前述的实施方式,相应的,本实施方式中与其他实施方式类似的预处理流程也可以参考其他实施方式的相关描述,此处不再赘述。
所述根据所述目标数据集,训练获得所述文本处理模型之前,所述方法还包括:
对所述第三数据集中的各文本对进行第三预处理;所述第三预处理包括:根据预设的第三长度,对所述各文本对的第一文本进行长度处理;根据所述各文本对的第一文本,确定第二语义符号,并置于所述第一文本之前;
对所述第三预处理后的各文本对进行切分处理,获得对应于各文本对的第三分字序列;
根据所述第三分字序列,通过第三预设字表获得对应的第三数字序列;
所述根据所述目标数据集,训练获得所述文本处理模型,包括:
根据所述第三数字序列,通过所述文本处理模型的嵌入层获得第三句向量;
根据所述第三句向量中所述第二语义符号对应的语义向量,获得所述第三句向量对应的类别,并计算获得第三损失函数;
根据所述第三损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的文本分类任务训练完成。
对于文本分类任务,先初始化一个与文本向量特征维度相等的位置编码向量,之后将二者的值进行相加,得到最终的句向量,输入模型经过特征提取后,再接一个全连接层,全连接层的输出维度为对应的分类类别数,全连接层的输出经过softmax后得到预测的标签和真实标签使用交叉熵损失函数衡量真实值和预测值的相似度,换言之,第三损失函数的形式也可以是交叉熵函数。
通过文本分类任务的任务需求对各文本对进行第三预处理,确定第二语义符号,并获得相应的第三数字序列,进而获得相应的第三句向量,根据所述第三句向量中所述第二语义符号对应的语义向量,获得所述第三句向量对应的类别,并计算获得第三损失函数,完成文本分类任务的训练,提升了文本处理模型训练的效率。
上述三个实施方式可以共同实施,也可以仅实施其中的一个或两个。
本实施例提供一种文本处理模型训练方法,方法包括:建立文本数据集;其中,所述文本数据集包括多个文本对;每个文本对包括:前后拼接的第一文本和第二文本;确定所述文本处理模型的目标任务,并根据所述目标任务,从所述文本数据集中获取对应的目标数据集;根据所述目标数据集,训练获得所述文本处理模型;其中,所述文本处理模型包括对应于所述目标任务的目标分支,所述目标分支用于根据所述目标任务,输出对应于待识别文本的目标信息。通过建立包括多个前后拼接的文本对的文本数据集,使得各文本处理目标任务共用同一个文本数据集,在文本数据集中按照具体的目标任务需求获取相应的目标数据集,并根据目标数据集训练获得带有各任务分支的文本处理模型,提升了文本处理模型训练的效率。
实施例二
请参阅图3,图3是本发明实施例二公开的一种文本处理模型训练方法的流程示意图。如图3所示,在其他任一实施方式的基础上,所述目标任务为多个,所述方法包括:
S201、建立文本数据集;
其中,所述文本数据集包括多个文本对;每个文本对包括:前后拼接的第一文本和第二文本;
S202、确定所述文本处理模型的目标任务,并根据所述目标任务,从所述文本数据集中获取对应的目标数据集;
其中,S201和S202的详细描述,可参考实施例一中对S101和S102的相关描述,此处不再赘述。
S203、根据所述目标任务,预处理对应于所述目标任务的目标数据集;
在多任务联合训练的条件下,确定目标任务后,可预处理对应于各目标任务的目标数据集。
作为一种可选的实施方式,所述目标任务可以包括复合任务;
所述根据所述目标任务,预处理对应于所述目标任务的目标数据集,包括:
确定对应于所述复合任务的预处理需求;
根据所述预处理需求,预处理所述目标数据集。
S204、将所述预处理后的目标数据集输入所述文本处理模型,计算获得各目标任务对应的目标损失函数;
将预处理后的目标数据集输入文本处理模型进行训练,在训练过程中计算获得对应的目标损失函数,若所述目标任务为复合任务,则可根据所述复合任务,对所述复合任务对应的各子任务对应的损失函数进行计算,获得复合任务对应的目标损失函数。
S205、根据各目标任务对应的目标损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型训练完成。
如前所述,目标任务可以包括至少一个单一任务,还可以包括至少一个复合任务,根据各目标任务对应的目标损失函数,或根据计算获得的总体损失函数,可判断所述文本处理模型的收敛情况。
当多个任务使用同一个模型进行训练时,可将文本数据集等分,或按照权重进行划分,每轮训练按照预划分的文本数据集输入到模型中分别进行,根据多个任务的目标损失函数反向传播更新模型参数。
作为一种可选的实施方式,所述目标任务包括文本生成任务、语义匹配任务和文本分类任务;所述确定对所述文本处理模型训练完成之后,所述方法还包括:
将所述待识别文本输入所述文本处理模型;
根据所述文本处理模型中,所述文本生成任务对应的目标分支,生成对应于所述待识别文本的目标文本;
和/或,根据所述文本处理模型中,所述语义匹配任务对应的目标分支,从所述文本数据集中确定与所述待识别文本相似度最大的预定数量个文本;
和/或,根据所述文本处理模型中,所述文本分类任务对应的目标分支,确定所述待识别文本的文本类型。
可参考前述的图1作为一种具体的应用场景,该模型可以完成文本分类、文本检索及文本生成任务,其中,文本生成在该场景下可认为是一种复合任务。
对于文本分类任务,在这种场景下,输入文本到模型中从C分支中即可得到对应的文本风格标签;对于文本检索任务,则可以提前使用模型输出数据库中存储的全部文本的向量,将向量保存到向量搜索库,在用户输入新的文本后,文本经过模型B分支输出文本向量,然后和向量搜索库的向量进行余弦相似度计算,返回相似度最大的前K个文案。对于文本生成任务,经过预训练任务的设计,用户可以输入实体词如输入品牌和商品,得到与关键词强相关的广告文案,或者输入一些广告文案,需要模型输出不同文本风格的文案。这种情况下,只需要将文本输入模型后通过A和C分支就能生成的文本和对应文本的风格标签,用户可以对风格标签筛选所需的生成文本,也可以在输入的文本后加入对应的风格标签作为prompt,引导模型进行特定文本风格的文本生成。
通过将待识别文本输入训练好的文本处理模型,根据不同分支的输出完成文本生成任务、语义匹配任务和文本分类任务,提升了文本处理模型训练的实用性。
本实施例提供的文本处理模型训练方法,通过各目标任务的任务需求预处理对应的目标数据集,并将预处理后的目标数据集输入文本处理模型进行训练,计算获得相应的目标损失函数,并根据各任务对应的总体目标损失函数判断文本处理模型是否训练完成,提升了文本处理模型训练的效率。
实施例三
本发明实施例还提供一种文本处理模型训练装置以实现前述方法,请参阅图4,图4是本发明实施例公开的一种文本处理模型训练装置的结构示意图。如图4所示,在其他任一实施例的基础上,所述装置包括:
数据集建立模块31,用于建立文本数据集;
其中,所述文本数据集包括多个文本对;每个文本对包括:前后拼接的第一文本和第二文本;
目标任务确定模块32,用于确定所述文本处理模型的目标任务,并根据所述目标任务,从所述文本数据集中获取对应的目标数据集;
训练模块33,用于根据所述目标数据集,训练获得所述文本处理模型;
其中,所述文本处理模型包括对应于所述目标任务的目标分支,所述目标分支用于根据所述目标任务,输出对应于待识别文本的目标信息。
通过建立包括多个前后拼接的文本对的文本数据集,使得各文本处理目标任务共用同一个文本数据集,在文本数据集中按照具体的目标任务需求获取相应的目标数据集,并根据目标数据集训练获得带有各任务分支的文本处理模型,提升了文本处理模型训练的效率。
作为一种可选的实施方式,数据集建立模块31建立文本数据集的具体方式,包括:
获取多个原始文本,以及对应于每个所述原始文本的实体标签和类别标签;
根据所述实体标签,将所述原始文本划分为至少一个相似文本组;
对各所述相似文本组依次执行以下操作,获得多个文本对:
从当前的相似文本组中选取第一原始文本和第二原始文本;
将所述第一原始文本和第二原始文本分别进行正向拼接和反向拼接,分别获得所述第一原始文本在前的文本对和所述第二原始文本在前的文本对。
通过各原始文本的实体标签将原始文本划分为至少一个相似文本组,并对各相似文本组中的文本进行正向和反向拼接,获得多个文本对,完成了数据集的建立,提升了建立文本数据集的效率,进而提升了文本处理模型训练的效率。
作为一种可选的实施方式,所述目标任务包括文本生成任务;
目标任务确定模块32根据所述目标任务,从所述文本数据集中获取对应的目标数据集的具体方式,包括:根据第一比例,从所述文本数据集中获得第一数据集;
请参阅图5,图5是本发明实施例公开的另一种文本处理模型训练装置的结构示意图。如图5所示,所述装置还包括预处理模块34,用于在训练模块33根据所述目标数据集,训练获得所述文本处理模型之前,
对所述第一数据集中各文本对的第一文本进行第一预处理;
其中,所述第一预处理包括:根据所述实体标签,移除对应文本中的非实体词;和/或,根据所述实体标签,切分对应文本并打乱后重新拼接;
根据预设的第一长度,对所述第一预处理后,各文本对的第一文本和第二文本进行长度处理,并对所述长度处理后的各文本对进行切分处理,获得对应于各文本对的第一分字序列;
根据所述第一分字序列,通过第一预设字表获得对应的第一数字序列;
训练模块33根据所述目标数据集,训练获得所述文本处理模型的具体方式,包括:
根据所述第一数字序列,通过所述文本处理模型的嵌入层获得第一句向量;
根据所述各文本对的第一文本对应的第一句向量,获得对应于所述各文本对的第一文本的预测文本;以及,根据对应于所述各文本对的第一文本的预测文本和第二文本,计算获得第一损失函数;
根据所述第一损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的文本生成任务训练完成。
通过文本生成任务的任务需求对各文本对的第一文本进行第一预处理,并获得相应的第一数字序列,对第一数字序列进行处理获得对应的第一句向量;通过各文本对的第一文本对应的第一句向量,可获得对应于所述各文本对的第一文本的预测文本,进而计算获得第一损失函数,完成文本生成任务的训练,提升了文本处理模型训练的效率。
作为一种可选的实施方式,所述目标任务包括语义匹配任务;
目标任务确定模块32根据所述目标任务,从所述文本数据集中获取对应的目标数据集的具体方式,包括:根据第二比例,从所述文本数据集中获得第二数据集;
预处理模块34还用于在训练模块33根据所述目标数据集,训练获得所述文本处理模型之前,
对所述第二数据集中的各文本对进行第二预处理;所述第二预处理包括:根据预设的第二长度,对所述各文本对的第一文本进行长度处理;根据所述各文本对的第一文本,确定第一语义符号,并置于所述第一文本之前;
对所述第二预处理后的各文本对进行切分处理,获得对应于各文本对的第二分字序列;
根据所述第二分字序列,通过第二预设字表获得对应的第二数字序列;
训练模块33根据所述目标数据集,训练获得所述文本处理模型的具体方式,包括:
根据所述第二数字序列,通过所述文本处理模型的嵌入层获得第二句向量;
根据所述第二句向量中所述第一语义符号对应的语义向量,获得对应于同一训练批次的多个所述第一文本的语义向量矩阵;并根据所述语义向量矩阵,计算获得第二损失函数;
根据所述第二损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的语义匹配任务训练完成。
通过语义匹配任务的任务需求对各文本对进行第二预处理,确定第一语义符号,并获得相应的第二数字序列,进而获得相应的第二句向量,根据所述第二句向量中所述第一语义符号对应的语义向量,获得对应于同一训练批次的多个所述第一文本的语义向量矩阵,进而计算获得第二损失函数,完成语义匹配任务的训练,提升了文本处理模型训练的效率。
作为一种可选的实施方式,所述目标任务包括文本分类任务;
目标任务确定模块32根据所述目标任务,从所述文本数据集中获取对应的目标数据集的具体方式,包括:根据第三比例,从所述文本数据集中获得第三数据集;
预处理模块34还用于在训练模块33根据所述目标数据集,训练获得所述文本处理模型之前,
对所述第三数据集中的各文本对进行第三预处理;所述第三预处理包括:根据预设的第三长度,对所述各文本对的第一文本进行长度处理;根据所述各文本对的第一文本,确定第二语义符号,并置于所述第一文本之前;
对所述第三预处理后的各文本对进行切分处理,获得对应于各文本对的第三分字序列;
根据所述第三分字序列,通过第三预设字表获得对应的第三数字序列;
训练模块33根据所述目标数据集,训练获得所述文本处理模型的具体方式,包括:
根据所述第三数字序列,通过所述文本处理模型的嵌入层获得第三句向量;
根据所述第三句向量中所述第二语义符号对应的语义向量,获得所述第三句向量对应的类别,并计算获得第三损失函数;
根据所述第三损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的文本分类任务训练完成。
通过文本分类任务的任务需求对各文本对进行第三预处理,确定第二语义符号,并获得相应的第三数字序列,进而获得相应的第三句向量,根据所述第三句向量中所述第二语义符号对应的语义向量,获得所述第三句向量对应的类别,并计算获得第三损失函数,完成文本分类任务的训练,提升了文本处理模型训练的效率。
作为一种可选的实施方式,所述目标任务为多个,训练模块33根据所述目标数据集,训练获得所述文本处理模型的具体方式,包括:
根据所述目标任务,预处理对应于所述目标任务的目标数据集;
将所述预处理后的目标数据集输入所述文本处理模型,计算获得各目标任务对应的目标损失函数;
根据各目标任务对应的目标损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型训练完成。
通过各目标任务的任务需求预处理对应的目标数据集,并将预处理后的目标数据集输入文本处理模型进行训练,计算获得相应的目标损失函数,并根据各任务对应的总体目标损失函数判断文本处理模型是否训练完成,提升了文本处理模型训练的效率。
作为一种可选的实施方式,所述目标任务包括文本生成任务、语义匹配任务和文本分类任务;如图5所示,所述装置还包括应用模块35,用于在训练模块33确定对所述文本处理模型训练完成之后,
将所述待识别文本输入所述文本处理模型;
根据所述文本处理模型中,所述文本生成任务对应的目标分支,生成对应于所述待识别文本的目标文本;
和/或,根据所述文本处理模型中,所述语义匹配任务对应的目标分支,从所述文本数据集中确定与所述待识别文本相似度最大的预定数量个文本;
和/或,根据所述文本处理模型中,所述文本分类任务对应的目标分支,确定所述待识别文本的文本类型。
通过将待识别文本输入训练好的文本处理模型,根据不同分支的输出完成文本生成任务、语义匹配任务和文本分类任务,提升了文本处理模型训练的实用性。
实施例四
请参阅图6,图6是本发明实施例公开的又一种文本处理模型训练装置的结构示意图。如图6所示,该文本处理模型训练装置可以包括:
处理器(Processor)291,装置还包括了存储有可执行程序代码的存储器(Memory)292;还可以包括通信接口(Communication Interface)293和总线294。其中,处理器291、存储器292、通信接口293、可以通过总线294完成相互间的通信。通信接口293可以用于信息传输。处理器291与存储器292耦合,处理器291可以调用存储器292中的逻辑指令(可执行程序代码),以执行上述任一实施例所述的文本处理模型训练方法。
此外,上述的存储器292中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器292作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本申请实施例中的方法对应的程序指令/模块。处理器291通过运行存储在存储器292中的软件程序、指令以及模块,从而执行功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器292可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器292可以包括高速随机存取存储器,还可以包括非易失性存储器。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被调用时用于实现任一实施例中所述的方法。
本发明实施例还公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行任一实施例中所描述的文本处理模型训练方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(ProgrammableRead-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammableRead-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-ErasableProgrammable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的文本处理模型训练方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (9)

1.一种文本处理模型训练方法,其特征在于,所述方法包括:
建立文本数据集;
其中,所述文本数据集包括多个文本对;每个文本对包括:前后拼接的第一文本和第二文本;
确定所述文本处理模型的目标任务,并根据所述目标任务,从所述文本数据集中获取对应的目标数据集;
根据所述目标数据集,训练获得所述文本处理模型;
其中,所述文本处理模型包括对应于所述目标任务的目标分支,所述目标分支用于根据所述目标任务,输出对应于待识别文本的目标信息;
以及,所述建立文本数据集,包括:
获取多个原始文本,以及对应于每个所述原始文本的实体标签和类别标签;
根据所述实体标签,将所述原始文本划分为至少一个相似文本组;
对各所述相似文本组依次执行以下操作,获得多个文本对:
从当前的相似文本组中选取第一原始文本和第二原始文本;
将所述第一原始文本和第二原始文本分别进行正向拼接和反向拼接,分别获得所述第一原始文本在前的文本对和所述第二原始文本在前的文本对。
2.根据权利要求1所述的方法,其特征在于,所述目标任务包括文本生成任务;
所述根据所述目标任务,从所述文本数据集中获取对应的目标数据集,包括:根据第一比例,从所述文本数据集中获得第一数据集;
所述根据所述目标数据集,训练获得所述文本处理模型之前,所述方法还包括:
对所述第一数据集中各文本对的第一文本进行第一预处理;
其中,所述第一预处理包括:根据所述实体标签,移除对应文本中的非实体词;和/或,根据所述实体标签,切分对应文本并打乱后重新拼接;
根据预设的第一长度,对所述第一预处理后,各文本对的第一文本和第二文本进行长度处理,并对所述长度处理后的各文本对进行切分处理,获得对应于各文本对的第一分字序列;
根据所述第一分字序列,通过第一预设字表获得对应的第一数字序列;
所述根据所述目标数据集,训练获得所述文本处理模型,包括:
根据所述第一数字序列,通过所述文本处理模型的嵌入层获得第一句向量;
根据所述各文本对的第一文本对应的第一句向量,获得对应于所述各文本对的第一文本的预测文本;以及,根据对应于所述各文本对的第一文本的预测文本和第二文本,计算获得第一损失函数;
根据所述第一损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的文本生成任务训练完成。
3.根据权利要求1所述的方法,其特征在于,所述目标任务包括语义匹配任务;
所述根据所述目标任务,从所述文本数据集中获取对应的目标数据集,包括:根据第二比例,从所述文本数据集中获得第二数据集;
所述根据所述目标数据集,训练获得所述文本处理模型之前,所述方法还包括:
对所述第二数据集中的各文本对进行第二预处理;所述第二预处理包括:根据预设的第二长度,对所述各文本对的第一文本进行长度处理;根据所述各文本对的第一文本,确定第一语义符号,并置于所述第一文本之前;
对所述第二预处理后的各文本对进行切分处理,获得对应于各文本对的第二分字序列;
根据所述第二分字序列,通过第二预设字表获得对应的第二数字序列;
所述根据所述目标数据集,训练获得所述文本处理模型,包括:
根据所述第二数字序列,通过所述文本处理模型的嵌入层获得第二句向量;
根据所述第二句向量中所述第一语义符号对应的语义向量,获得对应于同一训练批次的多个所述第一文本的语义向量矩阵;并根据所述语义向量矩阵,计算获得第二损失函数;
根据所述第二损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的语义匹配任务训练完成。
4.根据权利要求1所述的方法,其特征在于,所述目标任务包括文本分类任务;
所述根据所述目标任务,从所述文本数据集中获取对应的目标数据集,包括:根据第三比例,从所述文本数据集中获得第三数据集;
所述根据所述目标数据集,训练获得所述文本处理模型之前,所述方法还包括:
对所述第三数据集中的各文本对进行第三预处理;所述第三预处理包括:根据预设的第三长度,对所述各文本对的第一文本进行长度处理;根据所述各文本对的第一文本,确定第二语义符号,并置于所述第一文本之前;
对所述第三预处理后的各文本对进行切分处理,获得对应于各文本对的第三分字序列;
根据所述第三分字序列,通过第三预设字表获得对应的第三数字序列;
所述根据所述目标数据集,训练获得所述文本处理模型,包括:
根据所述第三数字序列,通过所述文本处理模型的嵌入层获得第三句向量;
根据所述第三句向量中所述第二语义符号对应的语义向量,获得所述第三句向量对应的类别,并计算获得第三损失函数;
根据所述第三损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型的文本分类任务训练完成。
5.根据权利要求1所述的方法,其特征在于,所述目标任务为多个,所述根据所述目标数据集,训练获得所述文本处理模型,包括:
根据所述目标任务,预处理对应于所述目标任务的目标数据集;
将所述预处理后的目标数据集输入所述文本处理模型,计算获得各目标任务对应的目标损失函数;
根据各目标任务对应的目标损失函数,判断所述文本处理模型是否收敛;若判断结果为是,则确定对所述文本处理模型训练完成。
6.根据权利要求5所述的方法,其特征在于,所述目标任务包括文本生成任务、语义匹配任务和文本分类任务;所述确定对所述文本处理模型训练完成之后,所述方法还包括:
将所述待识别文本输入所述文本处理模型;
根据所述文本处理模型中,所述文本生成任务对应的目标分支,生成对应于所述待识别文本的目标文本;
和/或,根据所述文本处理模型中,所述语义匹配任务对应的目标分支,从所述文本数据集中确定与所述待识别文本相似度最大的预定数量个文本;
和/或,根据所述文本处理模型中,所述文本分类任务对应的目标分支,确定所述待识别文本的文本类型。
7.一种文本处理模型训练装置,其特征在于,所述装置包括:
数据集建立模块,用于建立文本数据集;
其中,所述文本数据集包括多个文本对;每个文本对包括:前后拼接的第一文本和第二文本;
目标任务确定模块,用于确定所述文本处理模型的目标任务,并根据所述目标任务,从所述文本数据集中获取对应的目标数据集;
训练模块,用于根据所述目标数据集,训练获得所述文本处理模型;
其中,所述文本处理模型包括对应于所述目标任务的目标分支,所述目标分支用于根据所述目标任务,输出对应于待识别文本的目标信息;
其中,所述数据集建立模块建立文本数据集的具体方式,包括:
获取多个原始文本,以及对应于每个所述原始文本的实体标签和类别标签;
根据所述实体标签,将所述原始文本划分为至少一个相似文本组;
对各所述相似文本组依次执行以下操作,获得多个文本对:
从当前的相似文本组中选取第一原始文本和第二原始文本;
将所述第一原始文本和第二原始文本分别进行正向拼接和反向拼接,分别获得所述第一原始文本在前的文本对和所述第二原始文本在前的文本对。
8.一种文本处理模型训练装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-6任一项所述的文本处理模型训练方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-6任一项所述的文本处理模型训练方法。
CN202310043997.8A 2023-01-29 2023-01-29 文本处理模型训练方法及装置 Active CN115859121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310043997.8A CN115859121B (zh) 2023-01-29 2023-01-29 文本处理模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310043997.8A CN115859121B (zh) 2023-01-29 2023-01-29 文本处理模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN115859121A CN115859121A (zh) 2023-03-28
CN115859121B true CN115859121B (zh) 2023-05-23

Family

ID=85657346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310043997.8A Active CN115859121B (zh) 2023-01-29 2023-01-29 文本处理模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN115859121B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313892A (zh) * 2023-09-26 2023-12-29 上海悦普网络科技有限公司 文本处理模型的训练装置和方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209817A (zh) * 2019-05-31 2019-09-06 安徽省泰岳祥升软件有限公司 文本处理模型的训练方法、装置和文本处理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263324B (zh) * 2019-05-16 2021-02-12 华为技术有限公司 文本处理方法、模型训练方法和装置
CN111666763A (zh) * 2020-05-28 2020-09-15 平安科技(深圳)有限公司 用于多任务场景的网络结构构建方法和装置
CN112528674B (zh) * 2020-12-14 2023-06-30 网易(杭州)网络有限公司 文本处理方法、模型的训练方法、装置、设备及存储介质
CN113408284A (zh) * 2021-01-12 2021-09-17 腾讯科技(深圳)有限公司 文本处理模型的训练方法、装置、电子设备及存储介质
CN114461366A (zh) * 2022-02-08 2022-05-10 阿里巴巴(中国)有限公司 多任务模型训练方法、处理方法、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209817A (zh) * 2019-05-31 2019-09-06 安徽省泰岳祥升软件有限公司 文本处理模型的训练方法、装置和文本处理方法

Also Published As

Publication number Publication date
CN115859121A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN111428504B (zh) 一种事件抽取方法和装置
CN111241209B (zh) 用于生成信息的方法和装置
CN110309282A (zh) 一种答案确定方法及装置
CN112364664B (zh) 意图识别模型的训练及意图识别方法、装置、存储介质
CN115859121B (zh) 文本处理模型训练方法及装置
CN112784580A (zh) 基于事件抽取的金融数据分析方法及装置
CN116467417A (zh) 问题答案的生成方法、装置、设备及存储介质
US20230367972A1 (en) Method and apparatus for processing model data, electronic device, and computer readable medium
CN113254646A (zh) 新闻资讯分类方法及装置
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113343692A (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN111143454B (zh) 一种文本输出方法、装置及可读存储介质
CN117709866A (zh) 一种标书生成方法及系统、计算机可读存储介质
CN112733515A (zh) 文本生成方法、装置、电子设备及可读存储介质
CN113392190B (zh) 一种文本识别方法、相关设备及装置
CN115115432B (zh) 基于人工智能的产品信息推荐方法及装置
WO2022262080A1 (zh) 一种对话关系处理方法、计算机及可读存储介质
CN113221546B (zh) 手机银行资讯数据处理方法及装置
CN112528674B (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN114021004A (zh) 一种理科相似题推荐方法、装置、设备及可读存储介质
CN113051920A (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN112580358A (zh) 文本信息提取方法、装置、存储介质及设备
CN116227496B (zh) 一种基于深度学习的电力舆情实体关系抽取方法及系统
CN117909505B (zh) 事件论元的抽取方法及相关设备
CN114781556B (zh) 基于字符部件信息的字体生成方法、系统、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant