CN113901799B - 模型训练、文本预测方法、装置、电子设备及介质 - Google Patents

模型训练、文本预测方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN113901799B
CN113901799B CN202111479311.7A CN202111479311A CN113901799B CN 113901799 B CN113901799 B CN 113901799B CN 202111479311 A CN202111479311 A CN 202111479311A CN 113901799 B CN113901799 B CN 113901799B
Authority
CN
China
Prior art keywords
training
model
text
copynet
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111479311.7A
Other languages
English (en)
Other versions
CN113901799A (zh
Inventor
李仁刚
赵雅倩
郭振华
徐聪
范宝余
金良
刘璐
闫瑞栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111479311.7A priority Critical patent/CN113901799B/zh
Publication of CN113901799A publication Critical patent/CN113901799A/zh
Application granted granted Critical
Publication of CN113901799B publication Critical patent/CN113901799B/zh
Priority to PCT/CN2022/097424 priority patent/WO2023103308A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了模型训练、文本预测方法、装置、电子设备及计算机可读存储介质,该方法包括:获取训练文本,并利用训练文本和预设文本模板生成训练输入数据;将训练输入数据输入copynet模型,得到训练输出数据;将训练输出数据输入预训练模型,得到训练预测值;利用训练预测值与训练文本的训练标签计算损失值,并利用损失值调节copynet模型的参数;若检测到满足训练完成条件,则将参数调节后的copynet模型确定为文本特征提取模型;其中,文本特征提取模型用于对需要由预训练模型进行预测的待预测数据进行特征提取,得到用于输入预训练模型的输入特征;该方法能够得到最优的用于输入预训练模型的输入特征。

Description

模型训练、文本预测方法、装置、电子设备及介质
技术领域
本申请涉及文本处理技术领域,特别涉及模型训练、文本预测方法、模型训练、文本预测装置、电子设备及计算机可读存储介质。
背景技术
大规模预训练语言模型是近年人工智能领域中最受关注、最有突破性的技术方法。语言模型旨在对自然语言文本进行概率建模,可用于估计任意一个给定文本序列的概率,或者预测文本序列中词在某个位置上出现的概率,是文本语义理解和表示建模的关键技术。为了能够提高大规模预训练语言模型在应用时的准确性,相关技术采用p-tuning方法对输入预训练模型的输入文本数据进行处理,将离散的自然语言数据处理成连续数据,使得保留的信息更多。然而p-tuning的方法需要由人工在输入文本数据中指定锚点词以及锚点词在连续数据中的位置,这使得连续数据的生成过程不是在全空间中进行,而是进行了人为约束,导致生成的连续数据并不是最优情况,进而导致预训练语言模型的预测准确率低。
发明内容
有鉴于此,本申请的目的在于提供模型训练、文本预测方法、装置、电子设备及计算机可读存储介质,得到最优的用于输入预训练模型的输入特征。
为解决上述技术问题,本申请提供了一种模型训练方法,包括:
获取训练文本,并利用所述训练文本和预设文本模板生成训练输入数据;
将所述训练输入数据输入copynet模型,得到训练输出数据;
将所述训练输出数据输入预训练模型,得到训练预测值;
利用所述训练预测值与所述训练文本的训练标签计算损失值,并利用所述损失值调节所述copynet模型的参数;
若检测到满足训练完成条件,则将参数调节后的copynet模型确定为文本特征提取模型。
可选地,所述copynet模型具有dropout机制,所述copynet模型的dropout机制处于激活状态;所述将参数调节后的copynet模型确定为文本特征提取模型,包括:
将所述参数调节后的copynet模型的dropout机制设置为未激活状态,得到所述文本特征提取模型。
可选地,所述将所述训练输入数据输入copynet模型,得到训练输出数据,包括:
利用所述copynet模型对所述训练输入数据进行两次基于随机dropout的特征提取处理,得到第一训练输出数据和第二训练输出数据;
相应的,所述将所述训练输出数据输入预训练模型,得到训练预测值,包括:
将所述第一训练输出数据和所述第二训练输出数据分别输入所述预训练模型,得到第一训练预测值和第二训练预测值。
可选地,所述利用所述训练预测值与所述训练文本的训练标签计算损失值,并利用所述损失值调节所述copynet模型的参数,包括:
利用所述第一训练预测值和所述第二训练预测值计算相对熵损失值;
利用所述训练标签分别与所述第一训练预测值和所述第二训练预测值进行损失计算,得到第一损失值和第二损失值;
利用所述相对熵损失值、所述第一损失值和所述第二损失值生成所述损失值。
可选地,所述利用所述训练文本和预设文本模板生成训练输入数据,包括:
将所述训练文本插入所述预设文本模板的指定位置,得到训练输入序列;
对所述训练输入序列进行词向量编码,得到所述训练输入数据。
本申请还提供了一种文本预测方法,包括:
获取待预测文本,利用所述待预测文本和预设文本模板生成待预测输入数据;
将所述待预测输入数据输入文本特征提取模型,得到输入特征;所述文本特征提取模型根据上述的模型训练方法生成;
将所述输入特征输入预训练模型,得到预测结果;所述预训练模型预先利用无标注文本训练得到。
本申请还提供了一种模型训练装置,包括:
训练获取模块,用于获取训练文本,并利用所述训练文本和预设文本模板生成训练输入数据;
训练输入模块,用于将所述训练输入数据输入copynet模型,得到训练输出数据;
训练预测模块,用于将所述训练输出数据输入预训练模型,得到训练预测值;
损失计算模块,用于利用所述训练预测值与所述训练文本的训练标签计算损失值,并利用所述损失值调节所述copynet模型的参数;
模型确定模块,用于若检测到满足训练完成条件,则将参数调节后的copynet模型确定为文本特征提取模型。
本申请还提供了一种文本预测装置,包括:
获取模块,用于获取待预测文本,利用所述待预测文本和预设文本模板生成待预测输入数据;
特征提取模块,用于将所述待预测输入数据输入文本特征提取模型,得到输入特征;所述文本特征提取模型根据上述的模型训练方法生成;
预测模块,用于将所述输入特征输入预训练模型,得到预测结果;所述预训练模型预先利用无标注文本训练得到。
本申请还提供了一种电子设备,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现上述的模型训练方法,和/或,上述的文本预测方法。
本申请还提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现上述的模型训练方法,和/或,上述的文本预测方法。
本申请提供的模型训练方法,获取训练文本,并利用训练文本和预设文本模板生成训练输入数据;将训练输入数据输入copynet模型,得到训练输出数据;将训练输出数据输入预训练模型,得到训练预测值;利用训练预测值与训练文本的训练标签计算损失值,并利用损失值调节copynet模型的参数;若检测到满足训练完成条件,则将参数调节后的copynet模型确定为文本特征提取模型;其中,文本特征提取模型用于对需要由预训练模型进行预测的待预测数据进行特征提取,得到用于输入预训练模型的输入特征。
可见,该方法通过对copynet模型训练得到文本特征提取模型,copynet模型能够通过学习具备识别输入的数据中的关键词的能力,即其能够自动在输入的数据中选择其认为重要的关键部分,并将关键部分对应的数据直接复制到输出的数据中。此外,通过学习,copynet模型还能够具备在输出的数据中选择合适的位置放置关键词对应的部分连续数据。通过上述方式,尽可能保留关键词相关的信息。由于不需要人工指定锚点词及其位置,因此对连续数据的搜索空间不会受到人为约束,对copynet模型训练得到的文本特征提取模型能够在全空间中进行搜索最优的连续数据,得到最优的用于输入预训练模型的输入特征,使得文本预测的准确性高。
此外,本申请还提供了文本预测方法、模型训练、文本预测装置、电子设备及计算机可读存储介质,同样具有上述有益效果。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种模型训练方法流程图;
图2为本申请实施例提供的一种模型训练过程示意图;
图3为本申请实施例提供的一种文本预测方法流程图;
图4为本申请实施例提供的一种模型训练装置的结构示意图;
图5为本申请实施例提供的一种文本预测装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
大规模预训练语言模型是近年人工智能领域中最受关注、最有突破性的技术方法。语言模型旨在对自然语言文本进行概率建模,可用于估计任意一个给定文本序列的概率,或者预测文本序列中词在某个位置上出现的概率,是文本语义理解和表示建模的关键技术。深度学习技术近 10 年不断发展成熟,成为自然语言模型的主流框架,是实现自然语言处理典型任务的最好方法。但由于缺少大规模有标注数据的支持,面向自然语言处理的深度学习一直受到模型“深度”有限、泛化能力不足的困扰。2018 年,预训练技术成功激活了深度神经网络对大规模无标注数据的自监督学习能力,在 GPU 多机多卡算力和海量无标注文本数据的双重支持下,预训练模型打开了深度学习模型规模与性能齐飞的局面,成为人工智能和深度学习领域的革命性突破,引发了国际著名互联网企业和研究机构的激烈竞争,将模型规模和性能不断推向新的高度。其中最著名的有美国OpenAI在 2020 年发布的预训练语言模型 GPT-3 已经达到了 1750 亿参数量、上万 GPU 的惊人训练规模。同时将GPT-3直接应用在智能问答、对话聊天、文本生成等下游任务中时,它表现出了接近人类的水平。
预训练模型首先在大规模无标注的数据上进行自监督的预训练(pretraining),得到通用的预训练模型,然后在下游任务上使用少量任务数据进行微调(fine-tuning),得到最终模型。
虽然大规模预训练语言模型在很多领域拥有超过以往深度学习模型的性能,并且具备一定的少样本和零样本学习的能力,然而在通用文本数据上进行预训练的大模型应用于一些对特定知识要求比较严格的下游任务时,例如金融、医疗,往往表现得效果不佳。此外,预训练语言模型在一年时间之内从百万参数增长到万亿参数规模,巨大的参数规模已经难以利用下游任务的有标注数据进行微调。因此,如何在缺少大量训练数据的下游任务场景时提升模型的效果成为大规模预训练语言模型应用的技术难点之一。
上述问题的主要解决方法是通过模版来抽取语言模型的特定知识,从而做到不错的零样本效果,而配合少量标注样本,可以进一步提升效果。
最早提出利用模板提升模型在下游任务效果的方法是Pattern-ExploitingTraining(PET),该方法利用模板将分类任务转换为适合Bert模型的完形填空任务,例如:预测新闻文本“八个月了,终于又能在赛场上看到女排姑娘们了。”属于什么主题,可以在文本前面加上前缀“下面报导一则______新闻。”,Bert模型将会预测空白处对应的词语是什么,也就是预测该文本的类别。
通过上面的例子可以看出,同一个任务可以有多种不同的模板(Pattern)。不同的pattern设定其实对模型的影响很大。那么如何寻找一个合适的模板成为提升模型性能的关键问题。PET使用的方法是,首先针对少量样本设计描述的模板(Pattern);再对于每种Pattern,单独用下游任务训练集微调一个模型;其次将不同Pattern对应的模型进行集成,得到融合模型;然后用融合模型预测未标注数据的伪标签;最后用伪标签数据微调一个常规的模型。
尽管人工构建的模板比较简单,语义上也和任务具有较好的关联。但是手工构建模板的弊端是人工无法穷尽不同的模板,需要不断尝试和调整才能取得一个比较好的模版。因此AUTOPROMPT方法提出了一种基于梯度的模版搜索方案,通过梯度找出的关键词(trigger word)和掩码(mask)拼接在文本中,形成一个语义上不通顺、但是对模型而言却具有合理提示(prompt)的样本,并且将类别预测转换为掩码字符(masked token)的预测。
AUTOPROMPT虽然可以自动搜索prompt,但是其假定prompt必须为离散的自然语言,然而prompt的作用是作为大规模预训练模型的输入,只需要模型可以理解,因此连续表示的prompt能够包含更多的信息,并且有利于预训练模型的微调。于是p-tuning方法提出了自动构建连续prompt的思想,该方法利用一个prompt编码网络将原始的离散prompt转换为连续表示,并通过预训练模型的远程监督信号调整prompt编码网络。
然而p-tuning方法并非完全连续表示和全自动生成prompt,该方法需要人工指定锚点词(anchor)及其在prompt中的位置,例如当模板为“thecapitalofBritainis[MASK]”是,需要指定其中的“capital”和“Britain”作为锚点词。因此prompt的生成并非在全空间中进行,而是人为进行了约束,也就导致生成的prompt可能不是最优。为了解决上述问题,本申请提出了如下方式,能够得到具备在全空间中搜索最优prompt的能力的模型。
请参考图1,图1为本申请实施例提供的一种模型训练方法流程图。该方法包括:
S101:获取训练文本,并利用训练文本和预设文本模板生成训练输入数据。
本申请中的各个步骤可以由指定的设备执行,该设备的形式不做限定,例如可以为服务器或终端。其中,训练文本,是指与下游任务类型相匹配的文本,下游任务,是指预训练模型需要执行的文本预测分类任务。示例性的,下游任务可以为医疗任务,或者可以为金融任务。训练文本具有对应的训练标签,训练标签的形式不做限定,例如可以为文字或序号。
预设文本模板,是指用于与训练文本数据相配合,抽取模型所需的特定知识的文本模板,其可以由人为设置,或者可以按照预设规则自动生成。通过将训练文本和预设文本模板进行结合,可以得到对应的训练输入数据,该训练输入数据的生成不需要锚点词的指定。具体的,在一种可行的实施方式中,可以将训练文本和预设文本模板拼接,即可得到训练输入数据。拼接可以为训练文本在前,预设文本模板在后的方式拼接,或者可以将训练文本和预设文本按照指定的字数为单位进行拆分,在拆分后依次穿插摆放拼接,得到训练输入数据。
进一步的,为了提高训练输入数据所携带的信息量,可以生成非离散的训练输入数据。具体的,利用训练文本和预设文本模板生成训练输入数据的过程可以包括如下步骤:
步骤11:将训练文本插入预设文本模板的指定位置,得到训练输入序列。
步骤12:对训练输入序列进行词向量编码,得到训练输入数据
Figure 578758DEST_PATH_IMAGE001
表示训练文本,其中的每个元素为训练文本的一个字,以
Figure 588171DEST_PATH_IMAGE002
表示预设文本模板,其中的p元素为预设文本模板中的字,context元素为训练文本中的字所需要填入的空档,answer元素表示预测的文本部分,其可以利用掩码字符(masktoken)替代,掩码字符为预设的字符,例如可以为M。若指定位置为预设文本模板中的第一个字后,则将训练文本插入预设文本模板的指定位置后,得到的训练输入序列可以为
Figure 855204DEST_PATH_IMAGE003
,其中,Y即为掩码字符。
在得到训练输入序列后,将其输入embedding层,embedding层能够对训练输入序列中的每个字生成对应的词向量,将词向量进行拼接,即可得到一串连续的训练输入数据,其可以用
Figure 991787DEST_PATH_IMAGE004
表示。
S102:将训练输入数据输入copynet模型,得到训练输出数据。
S103:将训练输出数据输入预训练模型,得到训练预测值。
S104:利用训练预测值与训练文本的训练标签计算损失值,并利用损失值调节copynet模型的参数。
为了便于理解,将上述三个步骤综合在一起进行说明。
copynet模型能够通过学习具备识别输入的数据中的关键词的能力,即其能够自动在输入的数据中选择其认为重要的关键部分,并将关键部分对应的数据直接复制到输出的数据中。因此,将训练输入数据输入到copynet模型后,copynet模型能够对其进行处理,得到特征提取后的训练输出数据。在本申请中,训练输出数据是指被输入至执行下游任务的预训练模型中的数据,经过copynet模型的处理,其比原本输入的训练输入数据的特征更加明显,更有利于预训练模型进行准确预测。此外,由于训练输入数据没有被指定锚点词以及锚点词对应的连续数据在训练输出数据中的位置,因此copynet模型能够在全空间中进行最优的训练输出数据(或称为prompt,提示)的搜索。
在得到训练输出数据后,将其输入到预先利用大规模无标注数据训练好的预训练模型中。预训练模型能够基于输入的信息给出对应的预测答案,即训练预测值,可以理解的是,训练输出数据对信息的表达方式越优,预训练模型给出正确的训练预测值的准确率越高。训练输出数据的标准答案即为训练文本对应的训练标签,通过利用训练输出数据与训练标签计算损失值,可以明确copynet模型在特征提取时的偏差。基于损失值对copynet模型进行调参,使得copynet模型学习到如何准确地进行特征提取,得到更优的训练输出数据,进而使得预训练模型能够基于更优的训练输出数据进行预测,预测准确率更高。
在一种可行的实施方式中,为了提高模型训练速度,提高prompt的生成效率,本申请中的copynet模型可以具有dropout机制,且在训练过程中,dropout机制处于激活状态。激活状态的dropout机制能够随机屏蔽部分网络神经元,明显的减少过拟合现象,提高模型的泛化能力。
更进一步的,在另一种可行的实施方式中,为了提高网络参数调节的效率,将训练输入数据输入copynet模型,得到训练输出数据的过程可以包括:
步骤21:利用copynet模型对训练输入数据进行两次基于随机dropout的特征提取处理,得到第一训练输出数据和第二训练输出数据。
相应的,将训练输出数据输入预训练模型,得到训练预测值的过程可以包括:
步骤22:将第一训练输出数据和第二训练输出数据分别输入预训练模型,得到第一训练预测值和第二训练预测值。
即对于同一个训练输入数据,利用copynet对其进行两次处理,由于dropout机制的随机性,两次处理时被屏蔽的网络神经元(或称为隐藏节点)不同,因此可以得到两个不同的训练输出数据,即第一训练输出数据和第二训练输出数据。相应的,两个训练输出数据分别被输入至预训练模型,得到对应的训练预测值。
在模型调参过程中,可以执行如下步骤:
步骤31:利用第一训练预测值和第二训练预测值计算相对熵损失值。
步骤32:利用训练标签分别与第一训练预测值和第二训练预测值进行损失计算,得到第一损失值和第二损失值。
步骤33:利用相对熵损失值、第一损失值和第二损失值生成损失值。
本申请中的损失值包括两个部分,第一部分为第一训练预测值和第二训练预测值之间的相对熵损失值,也被称为KL散度损失值。第二部分为两个训练预测值分别与训练标签之间的损失值,即第一损失值和第二损失值。相对熵损失值用于表示第一训练预测值和第二训练预测值之间的区别(或称为距离),可以理解的是,受到充分训练的copynet模型对应的第一训练预测值和第二训练预测值应当十分近似,其生成训练输出数据时不会严重依赖某一部分参数。此外,受到充分训练的copynet模型对应的训练预测值应当与训练标签想接近,即其输出的训练输出数据应当能够使得预训练模型给出正确的预测值。第一损失值和第二损失值用于表示对应的训练预测值与训练标签之间的距离,具体计算方式不做限定,例如可以为负对数自然损失值,或者可以为欧氏距离等其他损失值。
需要说明的是,步骤31和步骤32的具体执行步骤不做限定,二者可以串行执行或并行执行。在得到相对熵损失值、第一损失值和第二损失值后,利用三者共同生成最终的损失值,具体可以采用加权求和的方式生成。在得到损失值后,可以采用预设的优化算法(例如Adam优化算法)对损失值计算梯度并进行反向传播调整copynet网络参数。可以理解的是,整个网络训练过程是迭代多轮进行的,上述S101至S104步骤可以重复执行多次,对copynet模型进行多轮的迭代训练。
S105:若检测到满足训练完成条件,则将参数调节后的copynet模型确定为文本特征提取模型。
其中,文本特征提取模型用于对需要由预训练模型进行预测的待预测数据进行特征提取,得到用于输入预训练模型的输入特征。训练完成条件,是指表明copynet模型得到了充分训练,可以被应用的条件。训练完成条件具体可以为损失值最小阈值条件,当计算得到的损失值小于设定的最小阈值(例如0.01)时,确定满足训练完成条件;或者,训练完成条件可以为训练轮次条件,训练轮次满足一定数量时确定满足;或者,训练完成条件可以为预测准确率条件,利用测试文本对copynet进行测试,当预训练模型输出的结果的准确率大于预设的准确率阈值时,确定满足条件。
若copynet模型不具备dropout机制,则可以将其直接确定为文本特征提取模型。若copynet模型在训练时采用了dropout机制,则需要将dropout机制设置为未激活状态,得到文本特征提取模型,在应用中利用所有网络神经元参与特征提取。
请参考图2,图2为本申请实施例提供的一种模型训练过程示意图,其中示出了一种优选的模型训练过程。其中,pattern即为预设文本模板,X即为训练文本,整个训练过程如下:
(1)将与下游任务相关的预设文本模板
Figure 660666DEST_PATH_IMAGE005
,和训练文本
Figure 654030DEST_PATH_IMAGE006
拼接在一起作为网络的输入序列
Figure 108494DEST_PATH_IMAGE007
其中Y表示需要预测文本部分,输入时采用Masktoken替代。预设文本模板的具体内容不做限定,例如可以为“the capital of Britain is [MASK]”
(2)将上一步骤的序列(即训练输入序列)输入embedding层,输出序列的词向量编码(即训练输入数据)如下:
Figure 845505DEST_PATH_IMAGE008
(3)将上述的词向量编码输入CopyNet网络,CopyNet网络在训练时使用dropout技术,随机让一些神经元停止工作;
(4)同一个词向量编码两次经过上一步骤的CopyNet网络,由于dropout的随机性,网络会输出两个不同的序列P0、P1,即第一训练输出数据和第二训练输出数据,其中:
Figure 368891DEST_PATH_IMAGE009
;其中,hi表示模型根据当前的学习情况给出的prompt连续表示,e(xi)表示模型从输入的词向量编码复制的词向量。
(5)将上一步骤的P0、P1都作为prompt,分别输入预训练好的预训练语言模型(即预训练模型)中,得到分别对应的预测的输出y0和y1,即第一训练预测值和第二训练预测值;
(6)将上一步骤的y0和y1计算它们之间KL散度得到损失LossKL
(7)将y0和y1分别和训练标签y*计算负对数似然损失,得到y0对应的LossNLL0和y1对应的LossNLL1
(8)将上述损失加权求和得到最终的损失Lossfinal=LossKL+α(LossNLL0+LossNLL1),α为加权系数;
(9)利用Adam优化算法对上一步骤得到的Lossfinal计算梯度进行反向传播调整网络参数;
(10)若检测到损失值Lossfinal小于0.01,则停止模型训练完毕,调参后的copynet模型为文本特征提取模型。
应用本申请实施例提供的模型训练方法,通过对copynet模型训练得到文本特征提取模型,copynet模型能够通过学习具备识别输入的数据中的关键词的能力,即其能够自动在输入的数据中选择其认为重要的关键部分,并将关键部分对应的数据直接复制到输出的数据中。此外,通过学习,copynet模型还能够具备在输出的数据中选择合适的位置放置关键词对应的部分连续数据。通过上述方式,尽可能保留关键词相关的信息。由于不需要人工指定锚点词及其位置,因此对连续数据的搜索空间不会受到人为约束,对copynet模型训练得到的文本特征提取模型能够在全空间中进行搜索最优的连续数据,得到最优的用于输入预训练模型的输入特征,使得文本预测的准确性高。
基于上述实施例,在得到文本特征提取模型后,可以利用其与预训练模型相配合,实现对待预测文本的预测。请参考图3,图3为本申请实施例提供的一种文本预测方法流程图,具体包括如下步骤:
S201:获取待预测文本,利用待预测文本和预设文本模板生成待预测输入数据。
S202:将待预测输入数据输入文本特征提取模型,得到输入特征。
S203:将输入特征输入预训练模型,得到预测结果。
其中,预训练模型预先利用无标注文本训练得到,文本特征提取模型根据上述的模型训练方法生成。待预测文本与预测文本模板均与预训练模型执行的下游任务相对应。
下面对本申请实施例提供的模型训练装置进行介绍,下文描述的模型训练装置与上文描述的模型训练方法可相互对应参照。
请参考图4,图4为本申请实施例提供的一种模型训练装置的结构示意图,包括:
训练获取模块110,用于获取训练文本,并利用训练文本和预设文本模板生成训练输入数据;
训练输入模块120,用于将训练输入数据输入copynet模型,得到训练输出数据;
训练预测模块130,用于将训练输出数据输入预训练模型,得到训练预测值;
损失计算模块140,用于利用训练预测值与训练文本的训练标签计算损失值,并利用损失值调节copynet模型的参数;
模型确定模块150,用于若检测到满足训练完成条件,则将参数调节后的copynet模型确定为文本特征提取模型。
可选地,copynet模型具有dropout机制,copynet模型的dropout机制处于激活状态;模型确定模块150,包括:
状态设置单元,用于将参数调节后的copynet模型的dropout机制设置为未激活状态,得到文本特征提取模型。
可选地,训练输入模块120,包括:
两次处理单元,用于利用copynet模型对训练输入数据进行两次基于随机dropout的特征提取处理,得到第一训练输出数据和第二训练输出数据;
相应的,训练预测模块130,包括:
两次预测单元,用于将第一训练输出数据和第二训练输出数据分别输入预训练模型,得到第一训练预测值和第二训练预测值。
可选地,损失计算模块140,包括:
第一计算单元,用于利用第一训练预测值和第二训练预测值计算相对熵损失值;
第二计算单元,用于利用训练标签分别与第一训练预测值和第二训练预测值进行损失计算,得到第一损失值和第二损失值;
第三计算单元,用于利用相对熵损失值、第一损失值和第二损失值生成损失值。
可选地,训练获取模块110,包括:
插入单元,用于将训练文本插入预设文本模板的指定位置,得到训练输入序列;
连续化处理单元,用于对训练输入序列进行词向量编码,得到训练输入数据。
下面对本申请实施例提供的文本预测装置进行介绍,下文描述的文本预测装置与上文描述的文本预测方法可相互对应参照。
请参考图5,图5为本申请实施例提供的一种文本预测装置的结构示意图,包括:
获取模块210,用于获取待预测文本,利用待预测文本和预设文本模板生成待预测输入数据;
特征提取模块220,用于将待预测输入数据输入文本特征提取模型,得到输入特征;文本特征提取模型根据上述的模型训练方法生成;
预测模块230,用于将输入特征输入预训练模型,得到预测结果;预训练模型预先利用无标注文本训练得到。
下面对本申请实施例提供的电子设备进行介绍,下文描述的电子设备与上文描述的模型训练方法可相互对应参照。
请参考图6,图6为本申请实施例提供的一种电子设备的结构示意图。其中电子设备100可以包括处理器101和存储器102,还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。
其中,处理器101用于控制电子设备100的整体操作,以完成上述的模型训练方法中的全部或部分步骤;存储器102用于存储各种类型的数据以支持在电子设备100的操作,这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、只读存储器(Read-OnlyMemory,ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。
多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件105可以包括:Wi-Fi部件,蓝牙部件,NFC部件。
电子设备100可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field ProgrammableGate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例给出的模型训练方法。
下面对本申请实施例提供的计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的模型训练方法可相互对应参照。
本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的模型训练方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语包括、包含或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
获取训练文本,并利用所述训练文本和预设文本模板生成训练输入数据;
将所述训练输入数据输入copynet模型,得到训练输出数据;
将所述训练输出数据输入预训练模型,得到训练预测值;
利用所述训练预测值与所述训练文本的训练标签计算损失值,并利用所述损失值调节所述copynet模型的参数;
若检测到满足训练完成条件,则将参数调节后的copynet模型确定为文本特征提取模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述copynet模型具有dropout机制,所述copynet模型的dropout机制处于激活状态;所述将参数调节后的copynet模型确定为文本特征提取模型,包括:
将所述参数调节后的copynet模型的dropout机制设置为未激活状态,得到所述文本特征提取模型。
3.根据权利要求2所述的模型训练方法,其特征在于,所述将所述训练输入数据输入copynet模型,得到训练输出数据,包括:
利用所述copynet模型对所述训练输入数据进行两次基于随机dropout的特征提取处理,得到第一训练输出数据和第二训练输出数据;
相应的,所述将所述训练输出数据输入预训练模型,得到训练预测值,包括:
将所述第一训练输出数据和所述第二训练输出数据分别输入所述预训练模型,得到第一训练预测值和第二训练预测值。
4.根据权利要求3所述的模型训练方法,其特征在于,所述利用所述训练预测值与所述训练文本的训练标签计算损失值,并利用所述损失值调节所述copynet模型的参数,包括:
利用所述第一训练预测值和所述第二训练预测值计算相对熵损失值;
利用所述训练标签分别与所述第一训练预测值和所述第二训练预测值进行损失计算,得到第一损失值和第二损失值;
利用所述相对熵损失值、所述第一损失值和所述第二损失值生成所述损失值。
5.根据权利要求1所述的模型训练方法,其特征在于,所述利用所述训练文本和预设文本模板生成训练输入数据,包括:
将所述训练文本插入所述预设文本模板的指定位置,得到训练输入序列;
对所述训练输入序列进行词向量编码,得到所述训练输入数据。
6.一种文本预测方法,其特征在于,包括:
获取待预测文本,利用所述待预测文本和预设文本模板生成待预测输入数据;
将所述待预测输入数据输入文本特征提取模型,得到输入特征;所述文本特征提取模型根据如权利要求1至5任一项所述的模型训练方法生成;
将所述输入特征输入预训练模型,得到预测结果;所述预训练模型预先利用无标注文本训练得到。
7.一种模型训练装置,其特征在于,包括:
训练获取模块,用于获取训练文本,并利用所述训练文本和预设文本模板生成训练输入数据;
训练输入模块,用于将所述训练输入数据输入copynet模型,得到训练输出数据;
训练预测模块,用于将所述训练输出数据输入预训练模型,得到训练预测值;
损失计算模块,用于利用所述训练预测值与所述训练文本的训练标签计算损失值,并利用所述损失值调节所述copynet模型的参数;
模型确定模块,用于若检测到满足训练完成条件,则将参数调节后的copynet模型确定为文本特征提取模型。
8.一种文本预测装置,其特征在于,包括:
获取模块,用于获取待预测文本,利用所述待预测文本和预设文本模板生成待预测输入数据;
特征提取模块,用于将所述待预测输入数据输入文本特征提取模型,得到输入特征;所述文本特征提取模型根据如权利要求1至5任一项所述的模型训练方法生成;
预测模块,用于将所述输入特征输入预训练模型,得到预测结果;所述预训练模型预先利用无标注文本训练得到。
9.一种电子设备,其特征在于,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现如权利要求1至5任一项所述的模型训练方法,和/或,如权利要求6所述的文本预测方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的模型训练方法,和/或,如权利要求6所述的文本预测方法。
CN202111479311.7A 2021-12-07 2021-12-07 模型训练、文本预测方法、装置、电子设备及介质 Active CN113901799B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111479311.7A CN113901799B (zh) 2021-12-07 2021-12-07 模型训练、文本预测方法、装置、电子设备及介质
PCT/CN2022/097424 WO2023103308A1 (zh) 2021-12-07 2022-06-07 模型训练、文本预测方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111479311.7A CN113901799B (zh) 2021-12-07 2021-12-07 模型训练、文本预测方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN113901799A CN113901799A (zh) 2022-01-07
CN113901799B true CN113901799B (zh) 2022-03-08

Family

ID=79195377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111479311.7A Active CN113901799B (zh) 2021-12-07 2021-12-07 模型训练、文本预测方法、装置、电子设备及介质

Country Status (2)

Country Link
CN (1) CN113901799B (zh)
WO (1) WO2023103308A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901799B (zh) * 2021-12-07 2022-03-08 苏州浪潮智能科技有限公司 模型训练、文本预测方法、装置、电子设备及介质
CN114444470B (zh) * 2022-01-24 2022-12-02 开普云信息科技股份有限公司 专利文本中的领域命名实体识别方法、装置、介质及设备
CN114169339B (zh) * 2022-02-14 2022-05-17 北京智源人工智能研究院 医疗命名实体识别模型训练方法、识别方法及联邦学习系统
CN114492363B (zh) * 2022-04-15 2022-07-15 苏州浪潮智能科技有限公司 一种小样本微调方法、系统及相关装置
CN115114433B (zh) * 2022-05-19 2024-04-02 腾讯科技(深圳)有限公司 语言模型的训练方法、装置、设备及存储介质
CN116468096B (zh) * 2023-03-30 2024-01-02 之江实验室 一种模型训练方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111095259A (zh) * 2017-10-25 2020-05-01 谷歌有限责任公司 使用n-gram机器的自然语言处理
CN112069820A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 模型训练方法、模型训练装置和实体抽取方法
US20210232948A1 (en) * 2018-06-07 2021-07-29 Nippon Telegraph And Telephone Corporation Question responding apparatus, question responding method and program

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228758B (zh) * 2017-12-22 2020-09-01 北京奇艺世纪科技有限公司 一种文本分类方法及装置
CN109815331A (zh) * 2019-01-07 2019-05-28 平安科技(深圳)有限公司 文本情感分类模型的构建方法、装置和计算机设备
CN112948575B (zh) * 2019-12-11 2023-09-26 京东科技控股股份有限公司 文本数据处理方法、装置和计算机可读存储介质
CN113127652A (zh) * 2020-01-15 2021-07-16 腾讯科技(北京)有限公司 一种摘要获取方法、设备及计算机可读存储介质
CN113901799B (zh) * 2021-12-07 2022-03-08 苏州浪潮智能科技有限公司 模型训练、文本预测方法、装置、电子设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111095259A (zh) * 2017-10-25 2020-05-01 谷歌有限责任公司 使用n-gram机器的自然语言处理
US20210232948A1 (en) * 2018-06-07 2021-07-29 Nippon Telegraph And Telephone Corporation Question responding apparatus, question responding method and program
CN112069820A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 模型训练方法、模型训练装置和实体抽取方法

Also Published As

Publication number Publication date
CN113901799A (zh) 2022-01-07
WO2023103308A1 (zh) 2023-06-15

Similar Documents

Publication Publication Date Title
CN113901799B (zh) 模型训练、文本预测方法、装置、电子设备及介质
US11934791B2 (en) On-device projection neural networks for natural language understanding
CN109947931B (zh) 基于无监督学习的文本自动摘要方法、系统、设备及介质
CN110210032A (zh) 文本处理方法及装置
CN111782637A (zh) 一种模型构建方法、装置及设备
JP2020086436A (ja) 人工神経網における復号化方法、音声認識装置及び音声認識システム
US11704506B2 (en) Learned evaluation model for grading quality of natural language generation outputs
CN112580346B (zh) 事件抽取方法、装置、计算机设备和存储介质
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
WO2023134083A1 (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
Sartakhti et al. Persian language model based on BiLSTM model on COVID-19 corpus
CN112837669A (zh) 语音合成方法、装置及服务器
CN116304748A (zh) 一种文本相似度计算方法、系统、设备及介质
Yi et al. Exploiting language model for efficient linguistic steganalysis
CN110489730A (zh) 文本处理方法、装置、终端及存储介质
CN117132923A (zh) 视频分类方法、装置、电子设备及存储介质
Wakchaure et al. A scheme of answer selection in community question answering using machine learning techniques
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN113449517A (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
CN115186096A (zh) 针对特定类型分词的识别方法、装置、介质及电子设备
CN117521674B (zh) 对抗信息的生成方法、装置、计算机设备和存储介质
CN112446206A (zh) 一种菜谱标题的生成方法及装置
CN114666077B (zh) Dga域名检测方法及系统、电子设备及存储介质
CN116227484B (zh) 模型训练方法、装置、设备、存储介质和计算机程序产品
KR20190101551A (ko) 퍼지 범주 표현을 이용한 확률 레이블 부착 알고리즘을 사용한 분류 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant