CN115994522A - 文本处理方法、文章生成方法以及文本处理模型训练方法 - Google Patents

文本处理方法、文章生成方法以及文本处理模型训练方法 Download PDF

Info

Publication number
CN115994522A
CN115994522A CN202310105408.4A CN202310105408A CN115994522A CN 115994522 A CN115994522 A CN 115994522A CN 202310105408 A CN202310105408 A CN 202310105408A CN 115994522 A CN115994522 A CN 115994522A
Authority
CN
China
Prior art keywords
text
model
sample
training
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310105408.4A
Other languages
English (en)
Inventor
李晨亮
闭彬
黄松芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202310105408.4A priority Critical patent/CN115994522A/zh
Publication of CN115994522A publication Critical patent/CN115994522A/zh
Priority to PCT/CN2024/073353 priority patent/WO2024160073A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供文本处理方法、文章生成方法以及文本处理模型训练方法,其中所述文本处理方法包括:获取待处理文本;将所述待处理文本输入文本处理模型进行处理,获得文本处理结果,其中,所述文本处理模型基于多种任务类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同。通过多种任务类型的样本文本分阶段训练得到文本处理模型,也即类似于人学习思维的多任务多阶段渐进式训练,让文本模型训练能力更充分,使文本处理模型在下游多个场景表现更强,适用范围更广。从而提高文本模型训练进行文本处理的效率和精准度,提高了文本处理结果的精确度。

Description

文本处理方法、文章生成方法以及文本处理模型训练方法
技术领域
本说明书实施例涉及计算机技术和人工智能领域,特别涉及一种文本处理方法。本说明书一个或者多个实施例同时涉及一种文章生成方法,一种文本处理模型训练方法,一种文本处理装置,一种文章生成装置,一种文本处理模型训练装置,一种计算设备以及一种计算机可读存储介质。
背景技术
随着计算机技术的发展,人工智能技术中自然语言处理技术也得到了快速发展。在人工智能领域中的自然语言处理领域,预训练语言模型凭借着其强大的特征学习能力以及无监督自编码语言模型训练方法实现的双向编码,大幅地提高了各项自然语言处理任务的基准结果。在预训练语言模型的基础上,针对自然语言生成任务,很多公司提出了各样的预训练生成模型。然而,现有的预训练生成模型都是采用单一的训练和学习方式训练得到,使模型适用范围比较单一,很难适应下游丰富的场景。因此,亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本说明书施例提供了一种文本处理方法。本说明书一个或者多个实施例同时涉及一种文章生成方法,一种文本处理模型训练方法,一种文本处理装置,一种文章生成装置,一种文本处理模型训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种文本处理方法,包括:
获取待处理文本;
将所述待处理文本输入文本处理模型进行处理,获得文本处理结果,其中,所述文本处理模型基于多种任务类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同。
根据本说明书实施例的第二方面,提供了一种文章生成方法,包括:
接收前端发送的文章生成请求,其中,所述文章生成请求携带有待扩充的目标语句;
将所述目标语句输入文本处理模型进行处理,获得所述目标语句对应的目标文章,其中,所述文本处理模型基于多种类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同;
根据所述目标文章发送至所述前端,以使所述前端显示所述目标文章。
根据本说明书实施例的第三方面,提供了一种文本处理模型训练方法,应用于云侧设备,包括:
获取多个样本文本集,其中,各样本文本集的任务类型不同,不同任务类型的样本文本对应的训练功能不同,所述样本文本集中包含多个样本文本;
根据所述各样本文本集的任务类型和设定匹配关系,确定各样本文本集的训练指标,其中,所述设定匹配关系记录有所述任务类型与所述训练指标的匹配关系;
从所述多个样本文本集中所述训练指标最低的样本文本集开始,依次根据当前样本文本集对初始模型进行继承训练,直到所述训练指标最高的样本文本集,得到训练好的文本处理模型;
将所述文本处理模型的模型参数发送至端侧设备。
根据本说明书实施例的第四方面,提供了一种文本处理装置,包括:
第一获取模块,被配置为获取待处理文本;
第一处理模块,被配置为将所述待处理文本输入文本处理模型进行处理,获得文本处理结果,其中,所述文本处理模型基于多种任务类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同。
根据本说明书实施例的第五方面,提供了一种文章生成装置,包括:
接收模块,被配置为接收前端发送的文章生成请求,其中,所述文章生成请求携带有待扩充的目标语句;
第二处理模块,被配置为将所述目标语句输入文本处理模型进行处理,获得所述目标语句对应的目标文章,其中,所述文本处理模型基于多种类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同;
第一发送模块,被配置为根据所述目标文章发送至所述前端,以使所述前端显示所述目标文章。
根据本说明书实施例的第六方面,提供了一种文本处理模型训练装置,应用于云侧设备,包括:
第二获取模块,被配置为获取多个样本文本集,其中,各样本文本集的任务类型不同,不同任务类型的样本文本对应的训练功能不同,所述样本文本集中包含多个样本文本;
确定模块,被配置为根据所述各样本文本集的任务类型和设定匹配关系,确定各样本文本集的训练指标,其中,所述设定匹配关系记录有所述任务类型与所述训练指标的匹配关系;
第一训练模块,被配置为从所述多个样本文本集中所述训练指标最低的样本文本集开始,依次根据当前样本文本集对初始模型进行继承训练,直到所述训练指标最高的样本文本集,得到训练好的文本处理模型;
第二发送模块,被配置为将所述文本处理模型的模型参数发送至端侧设备。
根据本说明书实施例的第七方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法、文章生成方法或文本处理模型训练方法的步骤。
根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述文本处理方法、文章生成方法或文本处理模型训练方法的步骤。
根据本说明书实施例的第九方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述文本处理方法、文章生成方法或文本处理模型训练方法的步骤。
本说明书一个实施例提供的文本处理方法,获取待处理文本;将所述待处理文本输入文本处理模型进行处理,获得文本处理结果,其中,所述文本处理模型基于多种任务类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同。通过多种任务类型的样本文本分阶段训练得到文本处理模型,也即类似于人学习思维的多任务多阶段渐进式训练,让文本模型训练能力更充分,使文本处理模型在下游多个场景表现更强,适用范围更广。从而提高文本模型训练进行文本处理的效率和精准度,提高了文本处理结果的精确度。
附图说明
图1A是本说明书一个实施例提供的一种文本处理系统的框架图;
图1B是本说明书一个实施例提供的另一种文本处理系统的框架图;
图1C是本说明书一个实施例提供的再一种文本处理系统的框架图;
图2是本说明书一个实施例提供的一种文本处理方法的流程图;
图3是本说明书一个实施例提供的一种文本处理方法中训练处理文本模型的处理过程流程图;
图4是本说明书一个实施例提供的一种文章生成方法的流程图;
图5是本说明书一个实施例提供的一种文本处理模型训练方法的流程图;
图6是本说明书一个实施例提供的一种文本处理装置的结构示意图;
图7是本说明书一个实施例提供的一种文章生成装置的结构示意图;
图8是本说明书一个实施例提供的一种文本处理模型训练装置的结构示意图;
图9是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
自然语言处理(NLP,Natural Language Processing):是指利用人类交流所使用的自然语言与机器进行交互通讯的技术,包含一系列相对专业的术语,比如命名实体识别、词性标注等。
基于变压器的双向编码器表示模型(BERT,Bidirectional EncoderRepresentation from Transformers):是一种预训练的语言表征模型,也即预训练语言模型,可以在大量的无监督数据上,通过强大的特征学习能力以及通过掩码语言模型实现的双向编码,能够大幅地提高各项自然语言处理任务的基准结果。
生成模型:通常采用序列到序列模型,输入一段内容,生成目标内容,包括摘要生成、对话生成等。
课程学习:类似人类的学习思路,从易到难渐进式训练模型。
损失值:是指预测值和真实值(标签)之间的差异值,计算损失值的损失函数有很多,如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等,在本申请中,不对计算损失值的损失函数的选择作限定。
停止条件:也即训练停止条件,可以是损失值小于或等于预设阈值,还可以是迭代训练次数达到预设迭代值,也可以是损失值收敛,即损失值随着继续训练不再减小。不同的停止条件,可以相同,也可以不同。
随着计算机技术的发展,人工智能技术中自然语言处理技术也得到了快速发展。在人工智能领域中的自然语言处理领域,预训练语言模型凭借着其强大的特征学习能力以及无监督自编码语言模型训练方法实现的双向编码,大幅地提高了各项自然语言处理任务的基准结果。在预训练语言模型的基础上,针对自然语言生成任务,很多公司提出了各样的预训练生成模型。
自然语言生成(NLG,Natural Language Generation)任务,本身也是人工智能很重要的一个体现。自然语言生成是实现使机器能像人类一样,生成高质量的文本信息这一目的的关键技术。根据文本的长短,将自然语言生成可分为句子级别的生成和篇章级别的生成。比如,聊天机器人可以根据上下文生成句子,而在文案创作等场景中,则以篇幅形式的段落文本生成为主。根据输入信息的不同,NLG又可分为数据到文本的生成、文本到文本的生成、摘要的生成等。
自然语言生成通常采用编码器-解码器(encoder-decoder)框架,把不同形式的输入编码成某种意义,这样就把不同的输入的编码过程作为上游任务,或者称为语义信息的提取,然后用解码器对编码信息进行解码,生成所需要的内容。因为预训练语言模型的成功,也有很多公司开始研究预训练生成模型,即在预训练语言模型的基础上,针对自然语言生成任务,很多公司提出了各样的预训练生成模型,在相关的任务上也比传统模型带来了很大的提升。主要有以下三种预训练生成模型:
自然语言理解与生成的统一预训练语言模型(UniLM,Unified Language ModelPre-training for Natural Language Understanding and Generation),其骨架网络采用的是类似BERT的变压器(Transformer),主要改进在于预训练目标。在一个统一的BERT式的网络基础上,设计了两种预训练目标,即自编码和部分自回归,分别对应双向语言模型和序列到序列语言模型(seq2seq,Sequence to Sequence),然后进行联合训练。但是该方案存在一个问题就是,对输入输出的总长度会有限制,只能是最大长度512,如果输入很长的话,需要进行截断等,会损失语义信息。
生成式预训练模型(ERNIE-GEN,An Enhanced Multi-Flow Pre-training andFine-tuning Framework for Natural Language Generation),提出一套基于多流式注意力机制(Multi-Flow attention)结构的预训练和微调框架。但针对生成存在3个问题,即“曝光偏置(exposure bias)”问题、逐字符学习的问题、Encoder和Decoder相关性减弱的问题。该模型在模型设计,以及预训练过程,相比于基于Transformer的端到端模型要更为复杂,使用成本较高。
双向自回归变压器模型(BART,Bidirectional and Auto-RegressiveTransformers),也是基于Transformer的标准神经机器翻译架构。主要通过以下步骤训练得到:使用任意噪声函数破坏文本;学习模型来重建原始文本。同时,通过对多种噪声方法的评估,最终使用随机打乱原始句子的顺序,再使用新型文本填充方法,即用单个掩码令牌(mask token)替换文本段,使性能更优化。由于该方案侧重于重构文本,更多是把输入内容给还原,在一定程度上还是和下游任务存在着不一致问题。
可见,现有的预训练生成模型都是采用单一的训练和学习方式训练得到,使模型适用范围比较单一,很难适应下游丰富的场景。
为了解决上述问题,本说明书实施例提出了一种任务处理方法,获取待处理文本;将所述待处理文本输入文本处理模型进行处理,获得文本处理结果,其中,所述文本处理模型基于多种任务类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同。通过多种任务类型的样本文本分阶段训练得到文本处理模型,也即类似于人学习思维的多任务多阶段渐进式训练,让文本模型训练能力更充分,使文本处理模型在下游多个场景表现更强,适用范围更广。从而提高文本模型训练进行文本处理的效率和精准度,提高了文本处理结果的精确度。
在本说明书中,提供了一种文本处理方法,本说明书同时涉及一种文章生成方法,一种文本处理模型训练方法,一种文本处理装置,一种文章生成装置,一种文本处理模型训练装置,一种计算设备以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1A,图1A示出了本说明书一个实施例提供的一种文本处理系统的框架图,其中,文本处理系统包括云侧设备102和端侧设备104;
端侧设备104:将待处理文本发送至云侧设备102;
云侧设备102:将所述待处理文本输入文本处理模型进行处理,获得文本处理结果,其中,所述文本处理模型基于多种任务类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同。
此外,云侧设备102还可以将文本处理结果发送至所述端侧设备104,以方便用户查看。
或者,参见图1B,图1B示出了本说明书一个实施例提供的另一种文本处理系统的框架图,其中,文本处理系统包括云侧设备102和端侧设备104;
云侧设备102:将文本处理模型的模型参数发送至端侧设备104,其中,所述文本处理模型基于多种任务类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同;
端侧设备104:将所述待处理文本输入文本处理模型进行处理,获得文本处理结果。
本说明书提供的文本处理方法,获取待处理文本;将所述待处理文本输入文本处理模型进行处理,获得文本处理结果,其中,所述文本处理模型基于多种任务类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同。通过多种任务类型的样本文本分阶段训练得到文本处理模型,也即类似于人学习思维的多任务多阶段渐进式训练,让文本模型训练能力更充分,使文本处理模型在下游多个场景表现更强,适用范围更广。从而提高文本模型训练进行文本处理的效率和精准度,提高了文本处理结果的精确度。
参见图1C,图1C示出了本说明书一个实施例提供的再一种文本处理系统的框架图,该系统可以包括云侧设备102以及多个端侧设备104。多个端侧设备104之间通过云侧设备102可以建立通信连接,在文本处理场景中,云侧设备102即用来在多个端侧设备104之间提供文本处理服务,多个端侧设备104可以分别作为发送端或接收端,通过云侧设备102实现实时通信。
用户通过端侧设备104可与云侧设备102进行交互以接收其它端侧设备104发送的数据,或将数据发送至其它端侧设备104等。在文本处理场景中,可以是用户通过端侧设备104向云侧设备102发布待处理文本,云侧设备102根据该待处理文本进行文本处理,并将文本处理结果推送至其他建立通信的端侧设备中。
其中,端侧设备104与云侧设备102之间通过网络建立连接。网络为端侧设备与云侧设备之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。端侧设备104所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至云侧设备102。
端侧设备104可以为浏览器、APP(Application,应用程序)、或网页应用如H5(HyperText Markup Language5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,端侧设备104可以基于云侧设备提供的相应服务的软件开发工具包(SDK,Software Development Kit),如基于实时通信(RTC,Real TimeCommunication)SDK开发获得等。端侧设备104可以部署在电子设备中,需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱端侧设备、社交平台软件等。
云侧设备102可以包括提供各种服务的服务器,例如为多个端侧设备提供通信服务的服务器,又如为端侧设备上使用的模型提供支持的用于后台训练的服务器,又如对端侧设备发送的数据进行处理的服务器等。需要说明的是,云侧设备102可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
参见图2,图2示出了本说明书一个实施例提供的一种文本处理方法的流程图,具体包括以下步骤。
步骤202:获取待处理文本。
本申请实施例的核心在于文本处理,针对不同领域或者不同类别的文本,例如医学领域的文本、天文学领域的文本、长文本、短文本,进行处理的过程基本相同,下面对文本处理过程进行详细介绍。
具体的,文本是指书面语言的表现形式,通常是具有完整、系统含义的一个句子或多个句子的组合,一个文本可以是一个句子、一个段落或者一个篇章,都属于文本;待处理文本也即需要进行处理的文本。
实际应用中,获取待处理文本的方式有多种,例如,可以是某用户向执行主体发送待处理文本的获取指令,或者针对待处理文本的处理指令,相应地,执行主体在接收到该获取指令后,开始对待处理文本进行获取;也可以是执行主体每隔预设时长,自动获取待处理文本,例如,经过预设时长后,具有文本处理功能的服务器自动获取指定存取区域内的待处理文本;或者经过预设时长后,具有文本处理功能的终端自动获取存储于本地的待处理文本。再如,用户上传目标音频,执行主体在接收到目标音频之后,对目标音频进行文本转换,得到待处理文本。本说明书对获取待处理文本的方式不作任何限定。
步骤204:将所述待处理文本输入文本处理模型进行处理,获得文本处理结果,其中,所述文本处理模型基于多种任务类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同。
具体地,文本处理模型是指预先训练的用于对文本进行处理的神经网络模型,可以在后续的应用过程中不断地更新、调整和完善。任务类型表征训练模型的处理功能,例如语义类型的样本文本,用于训练模型的语义理解功能。训练功能即通过训练使模型具备的处理功能。样本文本是指用于训练得到文本处理模型的文本。
实际应用中,基于文本处理模型对待处理文本进行处理之前,需要先确定文本处理模型。为了准确、高效地进行任务处理,可以接收云侧设备发送的文本处理模型的模型参数,基于模型参数构建文本处理模型;可以在本地,预先基于多种任务类型的样本文本分阶段训练得到文本处理模型。
进一步地,在获取了待处理文本的基础上,可以将待处理文本输入至文本处理模型,由文本处理模型对待处理文本进行处理,输出针对待处理文本的预测结果,也即文本处理结果。
在本说明书一个或更多个可选的实施例中,可以获取多种任务类型的样本文本集,然后,基于各任务类型,确定各样本文本集的训练指标,进而根据训练指标,基于各样本文本集进行分阶段训练得到文本处理模型。即所述将所述待处理文本输入文本处理模型进行处理,获得文本处理结果之前,还包括:
获取多个样本文本集,其中,各样本文本集的任务类型不同,所述样本文本集中包含多个样本文本;
根据所述各样本文本集的任务类型和设定匹配关系,确定各样本文本集的训练指标,其中,所述设定匹配关系记录有所述任务类型与所述训练指标的匹配关系;
从所述多个样本文本集中所述训练指标最低的样本文本集开始,依次根据当前样本文本集对初始模型进行继承训练,直到所述训练指标最高的样本文本集,得到训练好的文本处理模型。
具体地,样本文本集是指包含多个样本文本的集合。训练指标是指衡量模型训练的参数,如训练时长、迭代次数、训练精度等等,训练指标越高,则训练难度越大,训练指标越低,则训练难度越低。设定匹配关系是指预先指定的任务类型与训练指标的匹配或关联关系。初始模型是指预先训练的神经网络模型,如神经网络模型、概率神经网络模型,又如BERT模型、Transformer模型、sentence-bert模型等,优选地,为BERT模型。
实际应用中,可以先获取任务类型不同的多个样本文本集。获取多个样本文本集的方式有多种,例如,可以是某用户向执行主体发送多个样本文本集的获取指令,或者针对初始模型的训练指令,相应地,执行主体在接收到该指令后,开始对多个样本文本集进行获取;也可以是执行主体每隔预设时长,自动获取多个样本文本集。本说明书对获取待处理文本的方式不作任何限定。
在获取到多个样本文本集的基础上,针对每个样本文本集,将设定匹配关系中,该样本文本集的任务类型所匹配的训练指标确定为该样本文本集对应的训练指标。遍历各样本文本集,确定各样本文本集对应的训练指标。
进一步地,基于训练指标确定各样本文本集对应的阶段,其中,一个阶段可以对应一个样本文本集,也可以对应多个样本文本集。优选地,为了提高训练效率和训练功能的精准度,一个阶段对应一个样本文本集:一个样本文本集对应的训练指标越低,对应训练的阶段越靠前,相反,一个样本文本集对应的训练指标越高,对应训练的阶段越靠后。也即,先根据多个样本文本集中训练指标最低的样本文本集,对初始模型进行训练,在此基础上,再基于训练指标第二低的样本文本集对初始模型进行训练,以此类推,直至基于训练指标最高的样本文本集,对初始模型进行训练,得到训练好的文本处理模型。通过任务类型,确定各样本文本集的训练指标,按照训练指标从低到高的顺序,根据各文本训练集对初始模型进行继承训练,通过这种类人学习思维的多任务多阶段渐进式训练,即从简单到困难的学习方式,让模型训练能力更充分,在下游多个场景表现更好,提高文本处理模型的鲁棒性。
例如,获取到第一任务类型的样本文本集A、第二任务类型的样本文本集B、第三任务类型的样本文本集C和第四任务类型的样本文本集D。经查询设定匹配关系,第一任务类型所匹配的训练指标为7,第二任务类型所匹配的训练指标为5,第三任务类型所匹配的训练指标为9,第四任务类型所匹配的训练指标为4,则按照样本文本集D、样本文本集B、样本文本集A和样本文本集C的顺序,依次对初始模型进行训练,得到训练好的文本处理模型。
在本说明书一个或更多个可选的实施例中,所述多个样本文本集包括字词填充类型的第一样本文本集、语句还原类型的第二样本文本集和文本续写类型的第三样本文本集。字词填充类型所匹配的训练指标高于所述语句还原类型所匹配的训练指标,语句还原类型所匹配的训练指标高于所述文本续写类型所匹配的训练指标。即所述从所述多个样本文本集中所述训练指标最低的样本文本集开始,依次根据当前样本文本集对初始模型进行继承训练,直到所述训练指标最高的样本文本集,得到训练好的文本处理模型,具体实现过程可以如下:
根据所述第一样本文本集,对所述初始模型的字词填充功能进行训练,得到第一模型;
根据所述第二样本文本集,对所述第一模型的语句还原功能进行训练,得到第二模型;
根据所述第三样本文本集,对所述第二模型的文本续写功能进行训练,得到训练好的文本处理模型。
具体地,字词填充类型是指训练模型进行字词填空或填充能力的任务类型,也即词级别的掩膜任务(Word-level Fill-mask),类似于完形填空,训练指标比较低,是比较简单的学习任务类型。语句还原类型是指训练模型进行语句排序或者语句还原能力的任务类型,也即打乱段落或文本里面的语句进行还原的(Text Shuffle)任务,相对字词填充类型,训练难度更高,即任务难度相比词级别有所增加。文本续写类型是指根据已有的文本进行续写能力训练模型的任务类型,也即续写任务(Auto-regressive Generation),根据输入的内容生成文本的后半部分或前半部分,相对语句还原类型,训练难度更高,即任务难度相比于语句字词填充类型和还原类型更加升级。字词填充功能是指进行填空或者补充文本缺失字词的能力。语句还原功能是指将打乱的语句进行还原或重新排序的能力。文本续写功能是指根据给出的部分语句,写出该部分语句的上文或下文。
实际应用中,在多个样本文本集包括字词填充类型的第一样本文本集、语句还原类型的第二样本文本集和文本续写类型的第三样本文本集,且字词填充类型所匹配的训练指标高于语句还原类型所匹配的训练指标,语句还原类型所匹配的训练指标高于文本续写类型所匹配的训练指标,先基于第一样本文本集对初始模型进行训练,得到第一模型,可以提升第一模型的字词填充功能;然后根据第二样本文本集对初始模型进行训练,得到第二模型,可以提升第二模型的语句还原功能;最后根据第三样本文本集对初始模型进行训练,得到文本处理模型,可以提升文本处理模型的文本续写功能。如此,通过三个阶段,先训练模型的字词填充功能,再训练模型的语句还原功能,最后训练模型的文本续写功能,使模型从词级别的学习,到语句级别的学习,再到文本级别的学习,逐步提升训练或学习的难度,可以使文本处理模型在学习到多种处理功能的情况下,可以提升文本处理模型的训练效率和鲁棒性。
可选地,所述第一样本文本集包括多个携带有字词标签的填空文本,所述填空文本为缺少字词的文本。此时,所述根据所述第一样本文本集,对所述初始模型的字词填充功能进行训练,得到第一模型,具体包括:
从所述第一样本文本集提取第一填空文本,其中,所述第一填空文本为所述第一样本文本集中的任一填空文本;
将所述第一填空文本输入至所述初始模型进行字词填充处理,得到预测字词;
根据所述预测字词与所述第一填空文本携带有的字词标签,确定第一损失值;
根据所述第一损失值对所述初始模型的模型参数进行调整,并返回执行所述从所述第一样本文本集提取第一填空文本的步骤,在达到第一停止条件的情况下,获得第一模型。
具体地,填空文本是指缺少字词的文本,也即对文本的一些字词进行掩膜处理,得到的文本即为填空文本。字词标签是指填空文本实际缺失的字词,也即被进行掩膜处理的字词。预测字词是指初始模型预测的填空文本缺失的字词。第一停止条件是指基于第一样本集,对初始模型进行训练的停止条件。
实际应用中,基于第一样本文本集对初始模型的字词填充功能进行训练的过程为:从第一样本文本集中提取一个填空文本,然后将该填空文本输入至初始模型,由初始模型对该填空文本进行语义理解,得到该填空文本的语义特征,进而基于语义特征,对填空文本中缺失的字词进行预测,即进行字词填充处理,输出该填空文本对应的预测字词。接着,根据预测字词和该填空文本携带的字词标签,按照预设的第一损失函数,确定第一损失值,在未达到第一停止条件的情况下,根据第一损失值调整初始模型的模型参数,然后再次从第一样本文本集中提取一个填空文本,进行下一轮训练;在达到第一停止条件的情况下,将训练好的初始模型确定为第一模型。如此,通过多个填空文本对初始模型进行训练,能够提高第一模型进行字词填空的准确性和速率,提高第一模型的鲁棒性。
此外,此处的语句还原类型,即为是指训练模型进行文本填空和文本重构(语句排序)能力的任务类型,也即片段的mask和打乱段落或文本里面的语句进行还原的(TextInfilling&Shuffle)任务,相对字词填充类型,训练难度更高,即任务难度相比词级别有所增加。
需要说明的是,在填空文本缺少的字词为多个的情况下,初始模型针对填空文本输出的多个预测字词是按照填空文本从前到后缺少字词的顺序输出,或者按照填空文本从后到前缺少字词的顺序输出,相应地,字词标签中也包含多个字词,也是按照填空文本从前到后缺少字词的顺序排列,或者按照填空文本从后到前缺少字词的顺序排列。
可选地,所述第二样本文本集包括多个携带有第一文本标签的乱序文本,所述乱序文本为语句顺序被打乱的文本,所述第一文本标签为语句顺序未被打乱的文本。此时,所述根据所述第二样本文本集,对所述第一模型的语句还原功能进行训练,得到第二模型,具体实现过程可以如下:
从所述第二样本文本集提取第一乱序文本,其中,所述第一乱序文本为所述第二样本文本集中的任一乱序文本;
将所述第一乱序文本输入至所述第一模型进行语句还原处理,得到语句还原后的第一预测文本;
根据所述第一预测文本与所述第一乱序文本携带有的第一文本标签,确定第二损失值;
根据所述第二损失值对所述第一模型的模型参数进行调整,并返回执行所述从所述第二样本文本集提取第一乱序文本的步骤,在达到第二停止条件的情况下,获得第二模型。
具体地,乱序文本是指语句顺序被打乱的文本,也即对文本的一些语句进行打乱处理,得到的文本即为乱序文本。第一文本标签是指语句打乱前的文本,也即乱序文本对应的顺序文本。第一预测文本是指第一模型将乱序文本中的语句进行调整还原对应的文本。第二停止条件是指基于第二样本集,对第一模型进行训练的停止条件。
实际应用中,基于第二样本文本集对第一模型的语句还原功能进行训练的过程为:从第二样本文本集中提取一个乱序文本,然后将该乱序文本输入至第一模型,由第一模型对该乱序文本中的每个语句进行语义理解,得到各语句的语义特征,进而根据各语句的语义特征,对乱序文本中顺序打乱的语句进行排序,即进行语句还原处理,输出语句排序好的文本,即该乱序文本对应的第一预测文本。接着,根据第一预测文本和该乱序文本携带的第一文本标签,按照预设的第二损失函数,确定第二损失值,在未达到第二停止条件的情况下,根据第二损失值调整第一模型的模型参数,然后再次从第二样本文本集中提取一个乱序文本,进行下一轮训练;在达到第二停止条件的情况下,将训练好的第一模型确定为第二模型。如此,通过多个乱序文本对第一模型进行训练,能够提高第二模型进行语句还原的准确性和速率,提高第二模型的鲁棒性。
在本说明书一种可实现的实施例中,所述乱序文本为仅存在语句顺序被打乱的文本。如此,基于第二样本文本集,仅对第一模型的语句还原功能进行训练,使第一模型专门处理语句还原的任务,提高模型训练效率。
在本说明书另一种可实现的实施例中,所述乱序文本为语句顺序被打乱且缺少字词的文本,此时,所述将所述第一乱序文本输入至所述第一模型进行语句还原处理,得到语句还原后的第一预测文本,具体实现过程可以如下:
将所述第一乱序文本输入至所述第一模型的字词填充单元进行字词填充处理,得到第二乱序文本,其中,所述第二乱序文本中缺少的字词被填充;
将所述第二乱序文本输入至所述第一模型的语句还原单元进行语句还原处理,得到语句还原后的第一预测文本。
具体地,字词填充单元为第一模型中用于进行字词填充处理的模块。第二乱序文本为填充字词之后的第一乱序文本。语句还原单元为第一模型中用于进行语句还原处理的模块。
实际应用中,可以先将第一乱序文本输入至第一模型的字词填充单元,由字词填充单元对应乱序文本中的缺失字词的填空语句进行语义理解,得到填空语句的语义特征,根据填空语句的特征对填空语句中缺失的字词进行预测,得到预测字词,将预测字词补充在填空语句中,得到第二乱序文本。然后,将第二乱序文本输入至第一模型的语句还原单元,由语句还原单元,对第二乱序文本中的每个语句进行语义理解,得到各语句的语义特征,进而根据各语句的语义特征,对乱序文本中顺序打乱的语句进行排序,即进行语句还原处理,输出语句排序好的文本,即该乱序文本对应的第一预测文本。即先填空,后排序。如此,在训练第一模型的语句还原功能的情况下,巩固第一模型的字词填空能力,进而提高第二处理模型的鲁棒性。
此外,还可以将第一乱序文本输入至第一模型的语句还原单元进行语句还原处理,得到语句还原后的第三乱序文本,其中,所述第三乱序文本中语句顺序被还原;将所述第三乱序文本输入至所述第一模型的字词填充单元进行字词填充处理,得到第一预测文本。即先排序,后填空。此部分内容与上述“先填空,后排序”类似,仅为填空和排序这两个过程的前后顺序调整。为避免赘述,此处不再详细介绍。
可选地,所述第三样本文本集包括多个携带有第二文本标签的续写文本,所述续写文本为缺失文本内容的文本,所述第二文本标签为所述续写文本缺失的文本内容;此时,所述根据所述第三样本文本集,对所述第二模型的文本续写功能进行训练,得到训练好文本处理模型,具体实现过程可以如下:
从所述第三样本文本集提取第一续写文本,其中,所述第一续写文本为所述第三样本文本集中的任一续写文本;
将所述第一续写文本输入至所述第二模型进行文本续写处理,得到所述第一续写文本的第二预测文本;
根据所述第二预测文本与所述第一续写文本携带有的第二文本标签,确定第三损失值;
根据所述第三损失值对所述第二模型的模型参数进行调整,并返回执行所述从所述第三样本文本集提取第一续写文本的步骤,在达到第三停止条件的情况下,获得训练好的文本处理模型。
具体地,续写文本是指缺失文本内容的文本,也即对文本的部分语句或片段进行掩膜处理,得到的文本即为续写文本。第二文本标签是指续写文本实际缺失的文本内容,也即被进行掩膜处理的语句或片段。第二预测文本是指第二模型预测的续写文本中缺失的文本。第三停止条件是指基于第三样本集,对第二模型进行训练的停止条件。
实际应用中,基于第三样本文本集对第二模型的文本续写功能进行训练的过程为:从第三样本文本集中提取一个续写文本,然后将该续写文本输入至第二模型,由第二模型对该续写文本进行语义理解,得到该续写文本的语义特征,进而根据该续写文本的语义特征,对续写文本的语义进行延伸,根据延伸的语句生成文本,即该续写文本对应的第二预测文本。接着,根据第二预测文本和该续写文本携带的第二文本标签,按照预设的第三损失函数,确定第三损失值,在未达到第三停止条件的情况下,根据第三损失值调整第二模型的模型参数,然后再次从第二样本文本集中提取一个续写文本,进行下一轮训练;在达到第三停止条件的情况下,将训练好的第二模型确定为文本处理模型。如此,通过多个续写文本对第二模型进行训练,能够提高文本处理模型进行语句还原的准确性和速率,提高文本处理模型的鲁棒性。
可选地,所述第三样本文本集包括多个携带有第三文本标签的续写文本,所述续写文本为缺失文本内容的文本,所述第三文本标签为所述续写文本缺失的文本内容与续写文本的结合,即续写文本的源文本;此时,所述根据所述第三样本文本集,对所述第二模型的文本续写功能进行训练,得到训练好文本处理模型,具体实现过程可以如下:
从所述第三样本文本集提取第二续写文本,其中,所述第二续写文本为所述第二样本文本集中的任一续写文本;
将所述第二续写文本输入至所述第二模型进行文本续写处理,得到文本续写的第三预测文本;
根据所述第三预测文本与所述第一续写文本携带有的第三文本标签,确定第六损失值;
根据所述第六损失值对所述第二模型的模型参数进行调整,并返回执行所述从所述第三样本文本集提取第一续写文本的步骤,在达到第三停止条件的情况下,获得训练好的文本处理模型。
具体地,续写文本是指缺失文本内容的文本,也即对文本的部分语句或片段进行掩膜处理,得到的文本即为续写文本。第三预测文本是指第二模型将续写文本中缺失的文本内容进行补充后的文本。第六停止条件是指基于第三样本集,对第二模型进行训练的停止条件。
实际应用中,基于第三样本文本集对第二模型的文本续写功能进行训练的过程为:从第三样本文本集中提取一个续写文本,然后将该续写文本输入至第二模型,由第二模型对该续写文本进行语义理解,得到该续写文本的语义特征,进而根据该续写文本的语义特征,对续写文本的语义进行延伸,根据延伸的语句生成文本并与该续写文本进行拼接,得到续写完成的文本,即该续写文本对应的第三预测文本。接着,根据第三预测文本和该续写文本携带的第三文本标签,按照预设的第六损失函数,确定第六损失值,在未达到第六停止条件的情况下,根据第六损失值调整第二模型的模型参数,然后再次从第二样本文本集中提取一个续写文本,进行下一轮训练;在达到第六停止条件的情况下,将训练好的第二模型确定为文本处理模型。如此,通过多个续写文本对第二模型进行训练,能够提高文本处理模型进行语句还原的准确性和速率,提高文本处理模型的鲁棒性。
在本说明书一种可选的实施例中,所述第三样本文本集包括后文续写类型的第四样本文本集和前文续写类型的第五样本文本集;此时,所述根据所述第三样本文本集,对所述第二模型的文本续写功能进行训练,得到文本处理模型,具体实现过程可以如下:
根据所述第四样本文本集,对所述第二模型的后文续写功能进行训练,得到第三模型;
根据所述第五样本文本集,对所述第三模型的前文续写功能进行训练,得到训练好的文本处理模型。
具体地,所述第四样本文本集包括多个携带有第四文本标签的后文续写文本;所述后文续写文本为缺失后文内容的文本;所述第四文本标签为所述后文续写文本缺失的后文内容,或者所述后文续写文本缺失的文本内容拼接在所述后文续写文本之后的文本,即后文续写文本的源文本;所述第五样本文本集包括多个携带有第五文本标签的前文续写文本;所述前文续写文本为缺失前文内容的文本;所述第五文本标签为所述前文续写文本缺失的前文内容,或者所述前文续写文本缺失的文本内容拼接在所述前文续写文本之前的文本,即后文续写文本的源文本。
实际应用中,从所述第四样本文本集提取第一后文续写文本,其中,所述第一后文续写文本为所述第四样本文本集中的任一后文续写文本;将所述第一后文续写文本输入至所述第二模型进行后文文本续写处理,得到所述第一后文续写文本的第四预测文本;根据所述第四预测文本与所述第一后文续写文本携带有的第四文本标签,确定第七损失值;根据所述第七损失值对所述第二模型的模型参数进行调整,并返回执行所述从所述第四样本文本集提取第一后文续写文本的步骤,在达到第七停止条件的情况下,获得第三模型。其中,第四预测文本是指第二模型预测的后文续写文本中缺失的后文,或者第二模型将后文续写文本中缺失的文本内容进行补充后的文本;第七停止条件是指基于第四样本集,对第二模型进行训练的停止条件。
进一步地,从所述第五样本文本集提取第一前文续写文本,其中,所述第一前文续写文本为所述第五样本文本集中的任一前文续写文本;将所述第一前文续写文本输入至所述第三模型进行前文文本续写处理,得到所述第一前文续写文本的第五预测文本;根据所述第五预测文本与所述第一前文续写文本携带有的第五文本标签,确定第八损失值;根据所述第八损失值对所述第三模型的模型参数进行调整,并返回执行所述从所述第五样本文本集提取第一前文续写文本的步骤,在达到第八停止条件的情况下,获得文本处理模型。其中,第五预测文本是指第三模型预测的前文续写文本中缺失的前文,或者第三模型将前文续写文本中缺失的文本内容进行补充后的文本;第八停止条件是指基于第五样本集,对第三模型进行训练的停止条件。
如此,分别训练模型的后文续写能力和后文续写能力,进行针对性训练,可以提高文本处理模型后文续写能力和后文续写能力的精准度,即提升文本处理模型的鲁棒性。
在本说明书另一种可选的实施例中,所述第三样本文本集包括后文续写类型的续写文本和/或前文续写类型的续写文本,即在不区分前文续写和后文续写的情况下,对第二模型进行训练。如此,可以提高训练文本处理模型的后文续写能力和后文续写能力的效率。
可选地,在得到了文本处理模型之后,为了提高文本处理模型的适用范围,可以基于出题文本对文本处理模型的出题(问题生成)功能进行优化。即所述根据所述第三样本文本集,对所述第二模型的文本续写功能进行训练,得到训练好的文本处理模型之后,还包括:
获取问题生成类型的第六样本文本集,其中,所述第六样本文本集包括多个携带有问题标签的出题文本,所述出题文本为所述问题标签对应的源文本;
从所述第六样本文本集提取第一出题文本,其中,所述第一出题文本为所述第六样本文本集中的任一出题文本;
将所述第一出题文本输入至所述文本处理模型进行问题生成处理,得到预测问题;
根据所述预测问题与所述第一出题文本携带有的问题标签,确定第四损失值;
根据所述第四损失值对所述文本处理模型的模型参数进行调整,并返回执行所述从所述第六样本文本集提取第一出题文本的步骤,在达到第四停止条件的情况下,获得具有问题生成功能的文本处理模型。
具体地,出题文本是指问题标签对应的源文本,也即可以根据出题文本得到问题标签的答案。问题标签是指根据出题文本提出的问题,且该问题可以从出题文本中找到答案。预测问题是指文本处理模型预测的出题文本对应的问题。第四停止条件是指基于第六样本集,对文本处理模型进行出题(问题生成)功能优化的停止条件。
实际应用中,基于第六样本文本集对文本处理模型的问题生成功能进行训练的过程为:从第六样本文本集中提取一个出题文本,然后将该出题文本输入至文本处理模型,由文本处理模型对该出题文本进行语义理解,得到该出题文本的语义特征,进而根据该出题文本的语义特征,生成出题文本对应的问题,即该出题文本对应的预测问题。接着,根据预测问题和该出题文本携带的问题标签,按照预设的第四损失函数,确定第四损失值,在未达到第四停止条件的情况下,根据第四损失值调整文本处理模型的模型参数,然后再次从第六样本文本集中提取一个出题文本,进行下一轮训练;在达到第四停止条件的情况下,得到具有问题生成功能的文本处理模型。如此,通过多个出题文本对文本处理模型进行优化,能够提高文本处理模型进行问题生成的准确性和速率,提高文本处理模型的鲁棒性。
可选地,在得到了文本处理模型之后,为了提高文本处理模型的适用范围,可以基于拓展文本对文本处理模型的简化(摘要生成)功能进行优化。所述根据所述第三样本文本集,对所述第二模型的文本续写功能进行训练,得到训练好的文本处理模型之后,还包括:
获取摘要生成类型的第七样本文本集,其中,所述第七样本文本集包括多个携带有摘要标签的拓展文本,所述拓展文本为所述摘要标签对应的源文本;
从所述第七样本文本集提取第一拓展文本,其中,所述第一拓展文本为所述第七样本文本集中的任一拓展文本;
将所述第一拓展文本输入至所述文本处理模型进行摘要生成处理,得到预测摘要;
根据所述预测摘要与所述第一拓展文本携带有的摘要标签,确定第五损失值;
根据所述第五损失值对所述文本处理模型的模型参数进行调整,并返回执行所述从所述第七样本文本集提取第一拓展文本的步骤,在达到第五停止条件的情况下,获得具有摘要生成功能的文本处理模型。
具体地,拓展文本是指摘要标签对应的源文本,也即可以根据拓展文本,提炼出摘要标签。摘要标签是指拓展文本的概要、内容提要,即摘录要点或摘录下来的要点。预测摘要是指文本处理模型预测的拓展文本对应的摘要。第五停止条件是指基于第七样本集,对文本处理模型进行摘要生成功能优化的停止条件。
实际应用中,基于第七样本文本集对文本处理模型的摘要生成功能进行训练的过程为:从第七样本文本集中提取一个拓展文本,然后将该拓展文本输入至文本处理模型,由文本处理模型对该拓展文本进行语义理解,得到该拓展文本的语义特征,进而根据该拓展文本的语义特征,生成拓展文本对应的摘要,即该拓展文本对应的预测摘要。接着,根据预测摘要和该拓展文本携带的摘要标签,按照预设的第五损失函数,确定第五损失值,在未达到第五停止条件的情况下,根据第五损失值调整文本处理模型的模型参数,然后再次从第七样本文本集中提取一个拓展文本,进行下一轮训练;在达到第五停止条件的情况下,得到具有摘要生成功能的文本处理模型。如此,通过多个拓展文本对文本处理模型进行优化,能够提高文本处理模型进行摘要生成的准确性和速率,提高文本处理模型的鲁棒性。
下述结合附图3,对所述文本处理方法中文本处理模型的训练过程进行进一步说明。参见图3,图3示出了本说明书一个实施例提供的一种文本处理方法中训练处理文本模型的处理过程流程图:
第一阶段(Word-level Fill-mask),即字词填充功能训练阶段,根据携带有字词标签的填空文本对初始模型进行训练,得到第一模型,例如填空文本为“春姑娘悄悄地来了,路边的柳树醒了,展开了黄绿的<>,枝条在微微的春风中轻轻地拂动,就像一群群身着绿装的仙女在<>。五颜六色的花开了,小草偷偷地从土里钻出来,露出了碧绿碧绿的小芽。”,字词标签为“嫩芽翩翩起舞”。
第二阶段,即语句还原功能训练阶段,根据携带有第一文本标签的乱序文本对第一模型进行训练,得到第二模型,例如乱序文本为“五颜六色的花开了,小草偷偷地从土里钻出来,露出了碧绿碧绿的小芽。春姑娘悄悄地来了,路边的柳树醒了,展开了黄绿的<>,枝条在微微的春风中轻轻地拂动,就像一群群身着绿装的仙女在<>。”,第一文本标签为“春姑娘悄悄地来了,路边的柳树醒了,展开了黄绿的嫩芽,枝条在微微的春风中轻轻地拂动,就像一群群身着绿装的仙女在翩翩起舞。五颜六色的花开了,小草偷偷地从土里钻出来,露出了碧绿碧绿的小芽。”。
第三阶段(Text Infilling&Shuffle),即文本续写功能训练阶段,包括后文续写功能训练子阶段和前文本续写功能子阶段。后文续写功能训练子阶段,根据携带有第四文本标签的后文续写文本对第二模型进行训练,得到第三模型,例如后文续写文本为“春姑娘悄悄地来了,路边的柳树醒了,展开了黄绿的嫩芽,枝条在微微的春风中轻轻地拂动,就像一群群身着绿装的仙女在”,第四文本标签为“翩翩起舞。五颜六色的花开了,小草偷偷地从土里钻出来,露出了碧绿碧绿的小芽。”;前文续写功能训练子阶段,根据携带有第五文本标签的前文续写文本对第三模型进行训练,得到文本处理模型,例如前文续写文本为“翩翩起舞。五颜六色的花开了,小草偷偷地从土里钻出来,露出了碧绿碧绿的小芽。”,第五文本标签为“春姑娘悄悄地来了,路边的柳树醒了,展开了黄绿的嫩芽,枝条在微微的春风中轻轻地拂动,就像一群群身着绿装的仙女在”。
第四阶段,即优化阶段,也即针对特定任务的预培训(Task-specific Pre-training),可以根据携带有问题标签的出题文本、携带有摘要标签的拓展文本、携带有关键词标签的待提取关键词文本等中的至少一种进行优化。示例性地,根据携带有摘要标签的拓展文本对文本处理模型进行优化,例如拓展文本为“春姑娘悄悄地来了,路边的柳树醒了,展开了黄绿的嫩芽,枝条在微微的春风中轻轻地拂动,就像一群群身着绿装的仙女在翩翩起舞。五颜六色的花开了,小草偷偷地从土里钻出来,露出了碧绿碧绿的小芽。”,摘要标签“春天来了。”。
具体来说,首先引入词级别的mask任务,使文本处理模型具备了一定的下游任务能力。第二阶段,引入片段mask和shuffle句子任务,文本模型在还原输入的时候学习到语言之间的关联性和结构性,从而进一步提升了理解能力。第三阶段,加入续写生成任务,文本处理模型可以创造性地去生成文本。如表1,表1示出了在中文生成的四个数据集(DureaderQG-robust、CSL、ADGEN、LCSTS)上,各个渐进式阶段训练带来的效果提升。首先模型在较简单的词级别的mask任务上训练,得到一个基础的效果,然后在这个模型基础上,进一步引入更难的片段mask和shuffle句子任务,模型在DureaderQG和LCSTS上都有显著的提升,在此基础上,我们进一步加上最难的续写生成任务,模型再次在三个数据集上取得提升。
表1
Figure BDA0004074716210000171
表2示出了在中文生成的四个数据集(DureaderQG-robust、CSL、ADGEN、LCSTS)上训练的base和l arge两个,本说明书的模型(即PALM2.0-Base、PALM2.0-Large)同比于其他相同规模的不同研究机构的模型,都取得了比较显著的提升。
表2
模型 DureaderQG-robust CSL ADGEN LCSTS
mT5(S) - 56.7 10.2 33.5
BART(B) - 62.1 9.9 37.8
CPT(B) - 63.0 9.8 38.2
PALM2.0-Base 42.1 63.4 10.9 39.7
CPM-2 - - 10.6 35.9
mT5(B) - 61.8 - 36.5
ERNIE-2.0Large 39.3 - - 41.4
RoBERTa Large 37.1 - - 41.0
BART Large - 64.2 10.0 40.6
CPT Large - 63.7 10.7 42.0
PALM2.0-Large 43.0 64.4 11.3 42.6
像人类的学习过程一样,从易到难,从简单的填空到复杂的打乱还原,再到更有难度的续写生成,提升了文本处理模型对文本生成(NLG)任务的处理性能。进一步地,在得到文本处理模型的基础上,进一步地对模型进行优化,进一步提高了文本处理模型的鲁棒性。
本说明书提供的文本处理方法,获取待处理文本;将所述待处理文本输入文本处理模型进行处理,获得文本处理结果,其中,所述文本处理模型基于多种任务类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同。通过多种任务类型的样本文本分阶段训练得到文本处理模型,也即类似于人学习思维的多任务多阶段渐进式训练,让文本模型训练能力更充分,使文本处理模型在下游多个场景表现更强,适用范围更广。从而提高文本模型训练进行文本处理的效率和精准度,提高了文本处理结果的精确度。
下述结合附图4,以本说明书提供的文本处理方法在文章生成领域的应用为例,对所述文本处理方法进行进一步说明。其中,图4示出了本说明书一个实施例提供的一种文章生成方法的处理过程流程图,具体包括以下步骤。
步骤402:接收前端发送的文章生成请求,其中,所述文章生成请求携带有待扩充的目标语句。
步骤404:将所述目标语句输入文本处理模型进行处理,获得所述目标语句对应的目标文章,其中,所述文本处理模型基于多种类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同。
步骤406:根据所述目标文章发送至所述前端,以使所述前端显示所述目标文章。
具体地,文章生成请求是指用于请求生成文章的指令或消息。待扩充的目标语句是指一段文本或者至少一条语句,如“以我的父亲为主题撰写文章”,也即生成文章的要求、提纲或者摘要等等。目标文章是指文本处理模型对目标语句进行拓展,生成的文本。文本处理模型是指预先训练的用于对文本进行处理的神经网络模型,可以在后续的应用过程中不断地更新、调整和完善。任务类型表征训练模型的处理功能,例如语义类型的样本文本,用于训练模型的语义理解功能。训练功能即通过训练使模型具备的处理功能。样本文本是指用于训练得到文本处理模型的文本。
需要说明的是,步骤402和步骤404的实现方式,与上述步骤202和步骤204的实现方式相同,本说明书实施例便不再进行赘述。
进一步地,在获得目标文章之后,可以将目标文章发送给到前端,如显示器,进行显示,以便用户观看。
本说明书提供的文章生成方法,接收前端发送的文章生成请求,其中,所述文章生成请求携带有待扩充的目标语句;将所述目标语句输入文本处理模型进行处理,获得所述目标语句对应的目标文章,其中,所述文本处理模型基于多种类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同;根据所述目标文章发送至所述前端,以使所述前端显示所述目标文章。通过多种任务类型的样本文本分阶段训练得到文本处理模型,也即类似于人学习思维的多任务多阶段渐进式训练,让文本模型训练能力更充分,使文本处理模型在下游多个场景表现更强,适用范围更广。从而提高文本模型训练进行文章生成的效率和精准度,提高了目标文章的精确度。
参见图5,图5示出了本说明书一个实施例提供的一种文本处理模型训练方法的流程图,应用于云侧设备,具体包括以下步骤。
步骤502:获取多个样本文本集,其中,各样本文本集的任务类型不同,不同任务类型的样本文本对应的训练功能不同,所述样本文本集中包含多个样本文本。
步骤504:根据所述各样本文本集的任务类型和设定匹配关系,确定各样本文本集的训练指标,其中,所述设定匹配关系记录有所述任务类型与所述训练指标的匹配关系。
步骤506:从所述多个样本文本集中所述训练指标最低的样本文本集开始,依次根据当前样本文本集对初始模型进行继承训练,直到所述训练指标最高的样本文本集,得到训练好的文本处理模型。
步骤508:将所述文本处理模型的模型参数发送至端侧设备。
具体地,样本文本集是指包含多个样本文本的集合。训练指标是指衡量模型训练的参数,如训练时长、迭代次数、训练精度等等,训练指标越高,则训练难度越大,训练指标越低,则训练难度越低。任务类型表征训练模型的处理功能,例如语义类型的样本文本,用于训练模型的语义理解功能。训练功能即通过训练使模型具备的处理功能。设定匹配关系是指预先指定的任务类型与训练指标的匹配或关联关系。初始模型是指预先训练的神经网络模型,如神经网络模型、概率神经网络模型,又如BERT模型、Transformer模型、sentence-bert模型等,优选地,为BERT模型。文本处理模型是指预先训练的用于对文本进行处理的神经网络模型,可以在后续的应用过程中不断地更新、调整和完善。样本文本是指用于训练得到文本处理模型的文本。
需要说明的是,步骤502至步骤508的实现方式,与上述文本处理方法中训练文本处理模型的实现方式相同,本说明书实施例便不再进行赘述。
本说明书提供的文本处理模型训练方法,获取多个样本文本集,其中,各样本文本集的任务类型不同,不同任务类型的样本文本对应的训练功能不同,所述样本文本集中包含多个样本文本;根据所述各样本文本集的任务类型和设定匹配关系,确定各样本文本集的训练指标,其中,所述设定匹配关系记录有所述任务类型与所述训练指标的匹配关系;从所述多个样本文本集中所述训练指标最低的样本文本集开始,依次根据当前样本文本集对初始模型进行继承训练,直到所述训练指标最高的样本文本集,得到训练好的文本处理模型;将所述文本处理模型的模型参数发送至端侧设备。通过多种任务类型的样本文本分阶段训练得到文本处理模型,也即类似于人学习思维的多任务多阶段渐进式训练,让文本模型训练能力更充分,使文本处理模型在下游多个场景表现更强,适用范围更广。从而提高文本模型训练进行文本处理的效率和精准度,提高了文本处理结果的精确度。
与上述文本处理方法实施例相对应,本说明书还提供了文本处理装置实施例,图6示出了本说明书一个实施例提供的一种文本处理装置的结构示意图。如图6所示,该装置包括:
第一获取模块602,被配置为获取待处理文本;
第一处理模块604,被配置为将所述待处理文本输入文本处理模型进行处理,获得文本处理结果,其中,所述文本处理模型基于多种任务类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同。
可选地,所述装置,还包括:
第二获取模块,被配置为获取多个样本文本集,其中,各样本文本集的任务类型不同,所述样本文本集中包含多个样本文本;
确定模块,被配置为根据所述各样本文本集的任务类型和设定匹配关系,确定各样本文本集的训练指标,其中,所述设定匹配关系记录有所述任务类型与所述训练指标的匹配关系;
第一训练模块,被配置为从所述多个样本文本集中所述训练指标最低的样本文本集开始,依次根据当前样本文本集对初始模型进行继承训练,直到所述训练指标最高的样本文本集,得到训练好的文本处理模型。
可选地,所述多个样本文本集包括字词填充类型的第一样本文本集、语句还原类型的第二样本文本集和文本续写类型的第三样本文本集;
所述第一训练模块,进一步被配置为:根据所述第一样本文本集,对所述初始模型的字词填充功能进行训练,得到第一模型;根据所述第二样本文本集,对所述第一模型的语句还原功能进行训练,得到第二模型;根据所述第三样本文本集,对所述第二模型的文本续写功能进行训练,得到训练好的文本处理模型。
可选地,所述第一样本文本集包括多个携带有字词标签的填空文本,所述填空文本为缺少字词的文本;
所述第一训练模块,进一步被配置为:从所述第一样本文本集提取第一填空文本,其中,所述第一填空文本为所述第一样本文本集中的任一填空文本;将所述第一填空文本输入至所述初始模型进行字词填充处理,得到预测字词;根据所述预测字词与所述第一填空文本携带有的字词标签,确定第一损失值;根据所述第一损失值对所述初始模型的模型参数进行调整,并返回执行所述从所述第一样本文本集提取第一填空文本的步骤,在达到第一停止条件的情况下,获得第一模型。
可选地,所述第二样本文本集包括多个携带有第一文本标签的乱序文本,所述乱序文本为语句顺序被打乱的文本,所述第一文本标签为语句顺序未被打乱的文本;
所述第一训练模块,进一步被配置为:从所述第二样本文本集提取第一乱序文本,其中,所述第一乱序文本为所述第二样本文本集中的任一乱序文本;将所述第一乱序文本输入至所述第一模型进行语句还原处理,得到语句还原后的第一预测文本;根据所述第一预测文本与所述第一乱序文本携带有的第一文本标签,确定第二损失值;根据所述第二损失值对所述第一模型的模型参数进行调整,并返回执行所述从所述第二样本文本集提取第一乱序文本的步骤,在达到第二停止条件的情况下,获得第二模型。
可选地,所述乱序文本为语句顺序被打乱且缺少字词的文本;
所述第一训练模块,进一步被配置为:将所述第一乱序文本输入至所述第一模型的字词填充单元进行字词填充处理,得到第二乱序文本,其中,所述第二乱序文本中缺少的字词被填充;将所述第二乱序文本输入至所述第一模型的语句还原单元进行语句还原处理,得到语句还原后的第一预测文本。
可选地,所述第三样本文本集包括多个携带有第二文本标签的续写文本,所述续写文本为缺失文本内容的文本,所述第二文本标签为所述续写文本缺失的文本内容;
所述第一训练模块,进一步被配置为:从所述第三样本文本集提取第一续写文本,其中,所述第一续写文本为所述第三样本文本集中的任一续写文本;将所述第一续写文本输入至所述第二模型进行文本续写处理,得到所述第一续写文本的第二预测文本;根据所述第二预测文本与所述第一续写文本携带有的第二文本标签,确定第三损失值;根据所述第三损失值对所述第二模型的模型参数进行调整,并返回执行所述从所述第三样本文本集提取第一续写文本的步骤,在达到第三停止条件的情况下,获得训练好的文本处理模型。
可选地,所述第三样本文本集包括后文续写类型的第四样本文本集和前文续写类型的第五样本文本集;
所述第一训练模块,进一步被配置为:根据所述第四样本文本集,对所述第二模型的后文续写功能进行训练,得到第三模型;根据所述第五样本文本集,对所述第三模型的前文续写功能进行训练,得到训练好的文本处理模型。
可选地,所述装置还包括第二训练模块,被配置为:获取问题生成类型的第六样本文本集,其中,所述第六样本文本集包括多个携带有问题标签的出题文本,所述出题文本为所述问题标签对应的源文本;从所述第六样本文本集提取第一出题文本,其中,所述第一出题文本为所述第六样本文本集中的任一出题文本;将所述第一出题文本输入至所述文本处理模型进行问题生成处理,得到预测问题;根据所述预测问题与所述第一出题文本携带有的问题标签,确定第四损失值;根据所述第四损失值对所述文本处理模型的模型参数进行调整,并返回执行所述从所述第六样本文本集提取第一出题文本的步骤,在达到第四停止条件的情况下,获得具有问题生成功能的文本处理模型。
可选地,所述装置还包括第三训练模块,被配置为:获取摘要生成类型的第七样本文本集,其中,所述第七样本文本集包括多个携带有摘要标签的拓展文本,所述拓展文本为所述摘要标签对应的源文本;从所述第七样本文本集提取第一拓展文本,其中,所述第一拓展文本为所述第七样本文本集中的任一拓展文本;将所述第一拓展文本输入至所述文本处理模型进行摘要生成处理,得到预测摘要;根据所述预测摘要与所述第一拓展文本携带有的摘要标签,确定第五损失值;根据所述第五损失值对所述文本处理模型的模型参数进行调整,并返回执行所述从所述第七样本文本集提取第一拓展文本的步骤,在达到第五停止条件的情况下,获得具有摘要生成功能的文本处理模型。
本说明书提供的文本处理方法,获取待处理文本;将所述待处理文本输入文本处理模型进行处理,获得文本处理结果,其中,所述文本处理模型基于多种任务类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同。通过多种任务类型的样本文本分阶段训练得到文本处理模型,也即类似于人学习思维的多任务多阶段渐进式训练,让文本模型训练能力更充分,使文本处理模型在下游多个场景表现更强,适用范围更广。从而提高文本模型训练进行文本处理的效率和精准度,提高了文本处理结果的精确度。
上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
与上述文章生成方法实施例相对应,本说明书还提供了文章生成装置实施例,图7示出了本说明书一个实施例提供的一种文章生成装置的结构示意图。如图7所示,该装置包括:
接收模块702,被配置为接收前端发送的文章生成请求,其中,所述文章生成请求携带有待扩充的目标语句;
第二处理模块704,被配置为将所述目标语句输入文本处理模型进行处理,获得所述目标语句对应的目标文章,其中,所述文本处理模型基于多种类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同;
第一发送模块706,被配置为根据所述目标文章发送至所述前端,以使所述前端显示所述目标文章。
本说明书提供的文章生成装置,通过多种任务类型的样本文本分阶段训练得到文本处理模型,也即类似于人学习思维的多任务多阶段渐进式训练,让文本模型训练能力更充分,使文本处理模型在下游多个场景表现更强,适用范围更广。从而提高文本模型训练进行文章生成的效率和精准度,提高了目标文章的精确度。
上述为本实施例的一种文章生成装置的示意性方案。需要说明的是,该文章生成装置的技术方案与上述的文章生成方法的技术方案属于同一构思,文章生成装置的技术方案未详细描述的细节内容,均可以参见上述文章生成方法的技术方案的描述。
与上述应用于云侧设备的文本处理模型训练方法实施例相对应,本说明书还提供了文本处理模型训练装置实施例,图8示出了本说明书一个实施例提供的一种文本处理模型训练装置的结构示意图,应用于云侧设备。如图8所示,该装置包括:
第二获取模块802,被配置为获取多个样本文本集,其中,各样本文本集的任务类型不同,不同任务类型的样本文本对应的训练功能不同,所述样本文本集中包含多个样本文本;
确定模块804,被配置为根据所述各样本文本集的任务类型和设定匹配关系,确定各样本文本集的训练指标,其中,所述设定匹配关系记录有所述任务类型与所述训练指标的匹配关系;
第一训练模块806,被配置为从所述多个样本文本集中所述训练指标最低的样本文本集开始,依次根据当前样本文本集对初始模型进行继承训练,直到所述训练指标最高的样本文本集,得到训练好的文本处理模型;
第二发送模块808,被配置为将所述文本处理模型的模型参数发送至端侧设备。
本说明书提供的文本处理模型训练装置,通过多种任务类型的样本文本分阶段训练得到文本处理模型,也即类似于人学习思维的多任务多阶段渐进式训练,让文本模型训练能力更充分,使文本处理模型在下游多个场景表现更强,适用范围更广。从而提高文本模型训练进行文本处理的效率和精准度,提高了文本处理结果的精确度。
上述为本实施例的一种应用于云侧设备的文本处理模型装置的示意性方案。需要说明的是,该应用于云侧设备的文本处理模型装置的技术方案与上述的应用于云侧设备的文本处理模型方法的技术方案属于同一构思,应用于云侧设备的文本处理模型装置的技术方案未详细描述的细节内容,均可以参见上述应用于云侧设备的文本处理模型方法的技术方案的描述。
图9示出了根据本说明书一个实施例提供的一种计算设备的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN,Pub l ic Switched Telephone Network)、局域网(LAN,Loca l Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Persona l Area Network)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,Network Interface Contro l ler))中的一个或多个,诸如I EEE802.11无线局域网(WLAN,Wi reless Loca l Area Network)无线接口、全球微波互联接入(Wi-MAX,Wor ldwide Interoperabi l ity for Microwave Access)接口、以太网接口、通用串行总线(USB,Universa l Ser ia l Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Fie ldCommun icat ion)接口,等等。
在本说明书的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
其中,处理器920用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法、文章生成方法或文本处理模型训练方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法、文章生成方法或文本处理模型训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法、文章生成方法或文本处理模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法、文章生成方法或文本处理模型训练方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法、文章生成方法或文本处理模型训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法、文章生成方法或文本处理模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述文本处理方法、文章生成方法或文本处理模型训练方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的文本处理方法、文章生成方法或文本处理模型训练方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述文本处理方法、文章生成方法或文本处理模型训练方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-On ly Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种文本处理方法,包括:
获取待处理文本;
将所述待处理文本输入文本处理模型进行处理,获得文本处理结果,其中,所述文本处理模型基于多种任务类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同。
2.根据权利要求1所述的方法,所述将所述待处理文本输入文本处理模型进行处理,获得文本处理结果之前,还包括:
获取多个样本文本集,其中,各样本文本集的任务类型不同,所述样本文本集中包含多个样本文本;
根据所述各样本文本集的任务类型和设定匹配关系,确定各样本文本集的训练指标,其中,所述设定匹配关系记录有所述任务类型与所述训练指标的匹配关系;
从所述多个样本文本集中所述训练指标最低的样本文本集开始,依次根据当前样本文本集对初始模型进行继承训练,直到所述训练指标最高的样本文本集,得到训练好的文本处理模型。
3.根据权利要求2所述的方法,所述多个样本文本集包括字词填充类型的第一样本文本集、语句还原类型的第二样本文本集和文本续写类型的第三样本文本集;
所述从所述多个样本文本集中所述训练指标最低的样本文本集开始,依次根据当前样本文本集对初始模型进行继承训练,直到所述训练指标最高的样本文本集,得到训练好的文本处理模型,包括:
根据所述第一样本文本集,对初始模型的字词填充功能进行训练,得到第一模型;
根据所述第二样本文本集,对所述第一模型的语句还原功能进行训练,得到第二模型;
根据所述第三样本文本集,对所述第二模型的文本续写功能进行训练,得到训练好的文本处理模型。
4.根据权利要求3所述的方法,所述第一样本文本集包括多个携带有字词标签的填空文本,所述填空文本为缺少字词的文本;
所述根据所述第一样本文本集,对初始模型的字词填充功能进行训练,得到第一模型,包括:
从所述第一样本文本集提取第一填空文本,其中,所述第一填空文本为所述第一样本文本集中的任一填空文本;
将所述第一填空文本输入至初始模型进行字词填充处理,得到预测字词;
根据所述预测字词与所述第一填空文本携带有的字词标签,确定第一损失值;
根据所述第一损失值对所述初始模型的模型参数进行调整,并返回执行所述从所述第一样本文本集提取第一填空文本的步骤,在达到第一停止条件的情况下,获得第一模型。
5.根据权利要求3所述的方法,所述第二样本文本集包括多个携带有第一文本标签的乱序文本,所述乱序文本为语句顺序被打乱的文本,所述第一文本标签为语句顺序未被打乱的文本;
所述根据所述第二样本文本集,对所述第一模型的语句还原功能进行训练,得到第二模型,包括:
从所述第二样本文本集提取第一乱序文本,其中,所述第一乱序文本为所述第二样本文本集中的任一乱序文本;
将所述第一乱序文本输入至所述第一模型进行语句还原处理,得到语句还原后的第一预测文本;
根据所述第一预测文本与所述第一乱序文本携带有的第一文本标签,确定第二损失值;
根据所述第二损失值对所述第一模型的模型参数进行调整,并返回执行所述从所述第二样本文本集提取第一乱序文本的步骤,在达到第二停止条件的情况下,获得第二模型。
6.根据权利要求5所述的方法,所述乱序文本为语句顺序被打乱且缺少字词的文本;
所述将所述第一乱序文本输入至所述第一模型进行语句还原处理,得到语句还原后的第一预测文本,包括:
将所述第一乱序文本输入至所述第一模型的字词填充单元进行字词填充处理,得到第二乱序文本,其中,所述第二乱序文本中缺少的字词被填充;
将所述第二乱序文本输入至所述第一模型的语句还原单元进行语句还原处理,得到语句还原后的第一预测文本。
7.根据权利要求3所述的方法,所述第三样本文本集包括多个携带有第二文本标签的续写文本,所述续写文本为缺失文本内容的文本,所述第二文本标签为所述续写文本缺失的文本内容;
所述根据所述第三样本文本集,对所述第二模型的文本续写功能进行训练,得到训练好文本处理模型,包括:
从所述第三样本文本集提取第一续写文本,其中,所述第一续写文本为所述第三样本文本集中的任一续写文本;
将所述第一续写文本输入至所述第二模型进行文本续写处理,得到所述第一续写文本的第二预测文本;
根据所述第二预测文本与所述第一续写文本携带有的第二文本标签,确定第三损失值;
根据所述第三损失值对所述第二模型的模型参数进行调整,并返回执行所述从所述第三样本文本集提取第一续写文本的步骤,在达到第三停止条件的情况下,获得训练好的文本处理模型。
8.根据权利要求3或7所述的方法,所述第三样本文本集包括后文续写类型的第四样本文本集和前文续写类型的第五样本文本集;
所述根据所述第三样本文本集,对所述第二模型的文本续写功能进行训练,得到训练好的文本处理模型,包括:
根据所述第四样本文本集,对所述第二模型的后文续写功能进行训练,得到第三模型;
根据所述第五样本文本集,对所述第三模型的前文续写功能进行训练,得到训练好的文本处理模型。
9.根据权利要求3所述的方法,所述根据所述第三样本文本集,对所述第二模型的文本续写功能进行训练,得到训练好的文本处理模型之后,还包括:
获取问题生成类型的第六样本文本集,其中,所述第六样本文本集包括多个携带有问题标签的出题文本,所述出题文本为所述问题标签对应的源文本;
从所述第六样本文本集提取第一出题文本,其中,所述第一出题文本为所述第六样本文本集中的任一出题文本;
将所述第一出题文本输入至所述文本处理模型进行问题生成处理,得到预测问题;
根据所述预测问题与所述第一出题文本携带有的问题标签,确定第四损失值;
根据所述第四损失值对所述文本处理模型的模型参数进行调整,并返回执行所述从所述第六样本文本集提取第一出题文本的步骤,在达到第四停止条件的情况下,获得具有问题生成功能的文本处理模型。
10.根据权利要求3或9所述的方法,所述根据所述第三样本文本集,对所述第二模型的文本续写功能进行训练,得到训练好的文本处理模型之后,还包括:
获取摘要生成类型的第七样本文本集,其中,所述第七样本文本集包括多个携带有摘要标签的拓展文本,所述拓展文本为所述摘要标签对应的源文本;
从所述第七样本文本集提取第一拓展文本,其中,所述第一拓展文本为所述第七样本文本集中的任一拓展文本;
将所述第一拓展文本输入至所述文本处理模型进行摘要生成处理,得到预测摘要;
根据所述预测摘要与所述第一拓展文本携带有的摘要标签,确定第五损失值;
根据所述第五损失值对所述文本处理模型的模型参数进行调整,并返回执行所述从所述第七样本文本集提取第一拓展文本的步骤,在达到第五停止条件的情况下,获得具有摘要生成功能的文本处理模型。
11.一种文章生成方法,包括:
接收前端发送的文章生成请求,其中,所述文章生成请求携带有待扩充的目标语句;
将所述目标语句输入文本处理模型进行处理,获得所述目标语句对应的目标文章,其中,所述文本处理模型基于多种类型的样本文本分阶段训练得到,不同任务类型的样本文本对应的训练功能不同;
根据所述目标文章发送至所述前端,以使所述前端显示所述目标文章。
12.一种文本处理模型训练方法,应用于云侧设备,包括:
获取多个样本文本集,其中,各样本文本集的任务类型不同,不同任务类型的样本文本对应的训练功能不同,所述样本文本集中包含多个样本文本;
根据所述各样本文本集的任务类型和设定匹配关系,确定各样本文本集的训练指标,其中,所述设定匹配关系记录有所述任务类型与所述训练指标的匹配关系;
从所述多个样本文本集中所述训练指标最低的样本文本集开始,依次根据当前样本文本集对初始模型进行继承训练,直到所述训练指标最高的样本文本集,得到训练好的文本处理模型;
将所述文本处理模型的模型参数发送至端侧设备。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1-12中任意一项所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1-12中任意一项所述方法的步骤。
CN202310105408.4A 2023-02-02 2023-02-02 文本处理方法、文章生成方法以及文本处理模型训练方法 Pending CN115994522A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310105408.4A CN115994522A (zh) 2023-02-02 2023-02-02 文本处理方法、文章生成方法以及文本处理模型训练方法
PCT/CN2024/073353 WO2024160073A1 (zh) 2023-02-02 2024-01-19 文本处理方法、文章生成方法以及文本处理模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310105408.4A CN115994522A (zh) 2023-02-02 2023-02-02 文本处理方法、文章生成方法以及文本处理模型训练方法

Publications (1)

Publication Number Publication Date
CN115994522A true CN115994522A (zh) 2023-04-21

Family

ID=85990222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310105408.4A Pending CN115994522A (zh) 2023-02-02 2023-02-02 文本处理方法、文章生成方法以及文本处理模型训练方法

Country Status (2)

Country Link
CN (1) CN115994522A (zh)
WO (1) WO2024160073A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117174177A (zh) * 2023-06-25 2023-12-05 北京百度网讯科技有限公司 蛋白质序列生成模型的训练方法、装置及电子设备
WO2024160073A1 (zh) * 2023-02-02 2024-08-08 浙江阿里巴巴机器人有限公司 文本处理方法、文章生成方法以及文本处理模型训练方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6256410B1 (en) * 1998-07-30 2001-07-03 International Business Machines Corp. Methods and apparatus for customizing handwriting models to individual writers
CN111078881B (zh) * 2019-12-09 2023-04-07 携程计算机技术(上海)有限公司 细粒度情感分析方法、系统、电子设备和存储介质
CN111125360B (zh) * 2019-12-19 2023-10-20 网易(杭州)网络有限公司 游戏领域的情感分析方法、装置及其模型训练方法、装置
CN113688245B (zh) * 2021-08-31 2023-09-26 中国平安人寿保险股份有限公司 基于人工智能的预训练语言模型的处理方法、装置及设备
CN114254108B (zh) * 2021-12-13 2024-07-16 重庆邮电大学 一种中文文本对抗样本生成的方法、系统及介质
CN115994522A (zh) * 2023-02-02 2023-04-21 阿里巴巴(中国)有限公司 文本处理方法、文章生成方法以及文本处理模型训练方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024160073A1 (zh) * 2023-02-02 2024-08-08 浙江阿里巴巴机器人有限公司 文本处理方法、文章生成方法以及文本处理模型训练方法
CN117174177A (zh) * 2023-06-25 2023-12-05 北京百度网讯科技有限公司 蛋白质序列生成模型的训练方法、装置及电子设备
CN117174177B (zh) * 2023-06-25 2024-10-15 北京百度网讯科技有限公司 蛋白质序列生成模型的训练方法、装置及电子设备

Also Published As

Publication number Publication date
WO2024160073A1 (zh) 2024-08-08

Similar Documents

Publication Publication Date Title
CN112668671B (zh) 预训练模型的获取方法和装置
CN115994522A (zh) 文本处理方法、文章生成方法以及文本处理模型训练方法
CN114880441B (zh) 视觉内容生成方法、装置、系统、设备和介质
CN111414561B (zh) 用于呈现信息的方法和装置
CN110688857B (zh) 一种文章生成的方法和装置
CN111950287A (zh) 一种基于文本的实体识别方法及相关装置
CN110275963A (zh) 用于输出信息的方法和装置
CN111325571A (zh) 一种多任务学习的商品评论标签自动生成方法、装置及系统
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN112348111A (zh) 视频中的多模态特征融合方法、装置、电子设备及介质
CN113811870A (zh) 用于生成抽象文本摘要的系统和方法
WO2024199423A1 (zh) 一种数据处理方法及相关设备
CN114912450B (zh) 信息生成方法与装置、训练方法、电子设备和存储介质
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN115238045A (zh) 一种生成式事件论元抽取方法、系统及存储介质
CN116662495A (zh) 问答处理方法、训练问答处理模型的方法及装置
CN114860869A (zh) 一种意图泛化的可控制通用对话模型
CN112800339B (zh) 信息流搜索方法、装置及设备
CN114297352A (zh) 对话状态追踪方法、装置、人机对话系统及作业机械
CN116958738A (zh) 图片识别模型的训练方法和装置、存储介质及电子设备
CN115700579A (zh) 广告文本生成方法及其装置、设备、介质
CN114429106A (zh) 页面信息处理方法、装置、电子设备和存储介质
CN113392190A (zh) 一种文本识别方法、相关设备及装置
CN117370540B (zh) 基于大语言模型的推荐模型的生成方法以及相应的产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination