CN113159168A - 基于冗余词删除的预训练模型加速推理方法和系统 - Google Patents

基于冗余词删除的预训练模型加速推理方法和系统 Download PDF

Info

Publication number
CN113159168A
CN113159168A CN202110420970.7A CN202110420970A CN113159168A CN 113159168 A CN113159168 A CN 113159168A CN 202110420970 A CN202110420970 A CN 202110420970A CN 113159168 A CN113159168 A CN 113159168A
Authority
CN
China
Prior art keywords
word
layer
training
model
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110420970.7A
Other languages
English (en)
Other versions
CN113159168B (zh
Inventor
孙茂松
叶德铭
林衍凯
黄宇飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Tencent Technology Shenzhen Co Ltd filed Critical Tsinghua University
Priority to CN202110420970.7A priority Critical patent/CN113159168B/zh
Publication of CN113159168A publication Critical patent/CN113159168A/zh
Application granted granted Critical
Publication of CN113159168B publication Critical patent/CN113159168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种基于冗余词删除的预训练模型加速推理方法和系统,其中所述方法包括:使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型;在微调好的初始模型中添加若干层词选择层,在所述微调好的初始模型中逐层向前传递词的过程中,在输入的词中仅保留通过所述词选择层的词进入到下一层;其中,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。本发明实施例提供的一种预训练语言模型加速推理方法,不但可以降低预训练语言模型推理时的资源消耗,还可以拓展其至长文本处理以获得更好的效果。同时,本发明可以快速得到不同加速度下相对性能较好的模型,具有良好的实用性。

Description

基于冗余词删除的预训练模型加速推理方法和系统
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于冗余词删除的预训练模型加速推理方法和系统。
背景技术
大规模预训练语言模型在无监督文本上进行预训练,并在下游任务微调,其中最具代表性的工作是以多层双向Transformer层为骨架的BERT模型。近年来,以BERT为代表的预训练语言模型在许多自然语言处理任务上取得优异的表现,在自然语言推断,机器问答与文本分类任务上都取得当前最好的效果。
然而,预训练语言模型包含大量参数,在推理时通常会消耗大量的计算资源,导致他们在使用时存在着较大的延迟。在真实的硬件和功耗受限场景下,如在手机终端上,或在实时应用场景下,如在搜索引擎上,人们都难以部署表现最好的预训练语言模型。因此,提高预训练语言模型在下游任务上的推理速度能使得优质的机器理解能力得到更广泛的应用。
在具体应用中,人们需要根据实际需求选择一个符合速度要求时性能最好的预训练语言模型。针对有不同的速度要求,人们需要重新训练不同规模的预训练语言模型,而预训练需要在大规模语料库上进行随机遮盖词预测,耗费大量的计算资源。因此,快速地针对不同的速度要求得到相对性能较好的模型亦十分重要。
此外,在机器问答和文本分类任务中,机器阅读更多的文本时通常能从大量的文本信息中获得更多线索,整合这些线索能获得更好的性能。然而当前的预训练语言模型均以多层双向Transformer层为骨架,参与Transformer层自注意机制的所有词之间需要两两计算注意权重,所以自注意力的时间复杂度与参与序列长度的平方成正比。因此,预训练模型在长文本上的运行时间随着序列变长而急剧增长,这限制了将预训练语言模型在长文本任务上的应用,即限制了其综合建模更多文本信息的能力。
因此,如何在真实世界的应用场景中快速得到满足不同速度要求时相对性能较高的预训练语言模型,如何使得预训练语言模型在大量文本信息的任务上能有更高效的表现,这两者都是亟待解决的问题。
发明内容
本发明提供一种基于冗余词删除的预训练模型加速推理方法和系统,用以解决现有技术中存在的技术缺陷。
本发明提供一种基于冗余词删除的预训练模型加速推理方法,包括:
使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型;
在微调好的初始模型中添加若干层词选择层,在所述微调好的初始模型中逐层向前传递词的过程中,在输入的词中仅保留通过所述词选择层的词进入到下一层;
其中,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。
根据本发明提供的基于冗余词删除的预训练模型加速推理方法,所述使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型包括:
将给定下游任务的句子中的所有单词转化为连续的词向量表示输入预训练语言模型;
在预训练语言模型将输入的词向量表示转化为词的富上下文信息的向量表示后,将所述富上下文信息的向量表示和样本标签输入至所述预训练语言模型中的分类器进行微调训练,得到一个微调好的初始模型。
根据本发明提供的基于冗余词删除的预训练模型加速推理方法,所述将输入的词向量表示转化为词的富上下文信息的向量表示具体包括:
设置第0层的词向量表示为输入单词的词向量表示,第i层的词向量表示Hi通过以下公式得到:
Mi-1=LayerNorm(Hi-1+Self-ATT(Hi-1))
Hi=LayerNorm(Mi-1+FFN(Mi-1))
其中,Hi-1为第i-1层表示,Mi-1为Hi-1通过自注意力机制模块Self-ATT计算得到中间计算结果,Hi为第i层的向量表示,中间计算结果Mi-1通过全连接模块FFN计算得到的第i层的表示,LayerNorm为归一化函数。
根据本发明提供的基于冗余词删除的预训练模型加速推理方法,所述词选择层包括选词策略评估网络:
所述选词策略评估网络用于对所述输入的词进行重要度评估,计算保留所述输入的词的概率值:
Figure BDA0003027824090000031
其中,
Figure BDA0003027824090000032
为输入第t个词选择层时序列中n个词的表示,at为这n个词的动作状态集合,每个词的动作状态为选择或跳过;θ={W1,W2,b1,b2}为可训练的选词策略评估网络的参数,W1,W2为可训练的变换矩阵,b1,b2为可训练的偏置向量;GeLU为GeLU激活函数;σ为sigmoid激活函数,输出为一个0~1的概率值。
根据本发明提供的基于冗余词删除的预训练模型加速推理方法,所述词选择层包括选词修剪网络:
所述选词修剪网络用于筛选出所述输入的词的概率值不小于预设阈值的词;将筛选出的词序列记为
Figure BDA0003027824090000041
其中n*≤n;
将筛选出的词序列传入下一个Transformer层中,得到下一层的表示:
Figure BDA0003027824090000042
其中
Figure BDA0003027824090000043
分别为筛选出的词序列
Figure BDA0003027824090000044
在输入第t个词选择层时的表示;得到的H′包含筛选出的词序列信息进入到下一层。
根据本发明提供的基于冗余词删除的预训练模型加速推理方法,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到包括:
根据
Figure BDA0003027824090000045
使用伯努利分布采样得到筛选出的词序列,并优化词选择层以获得满足预设条件的期望奖励;
期望奖励函数定义为:
R=logpr(y=Y|X)-λ·∑t|{at=Select}|
其中X,Y分别为样本数据以及预先确定的词信息量标签,Pr(y=Y|X)为分类概率值;∑t|{at=Select}|为各选择层的筛选出的词总数;通过调整比例值λ得到满足不同预设条件的词选择层。
根据本发明提供的基于冗余词删除的预训练模型加速推理方法,所述方法还包括:
若当前为最终层,将第r层的表示替换为当前层表示对最终分类器损失函数L的影响设置为词的重要值;所述重要值I的定义为:
Figure BDA0003027824090000046
其中,Hl和Hr分别为第l层和的r层的词序列表示,
Figure BDA0003027824090000047
为最终分类器损失函数L对Hr的导数,其中,r>l;将所述重要度作为预先确定的词信息量标签,选择重要值I最大的K个词作为一种推荐选词序列,协助所述加速推理方法的训练。
本发明还提供了一种基于冗余词删除的预训练模型加速推理系统,包括:
微调模块,用于使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型;
加速推理模块,用于在微调好的初始模型中添加若干层词选择层,在所述微调好的初始模型中逐层向前传递词的过程中,在输入的词中仅保留通过所述词选择层的词进入到下一层;
其中,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于冗余词删除的预训练模型加速推理方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于冗余词删除的预训练模型加速推理方法的步骤。
本发明实施例提供的一种预训练语言模型加速推理方法,能够解决现有技术中存在的预训练语言模型推理效率较低,且难以处理长序列的问题,本发明不但可以降低预训练语言模型推理时的资源消耗,还可以拓展其至长文本处理以获得更好的效果。同时,可以快速得到不同加速度下相对性能较好的模型,具有良好的实用性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的基于冗余词删除的预训练模型加速推理方法的流程示意图;
图2是本发明一实施例提供的基于冗余词删除的预训练模型加速推理系统的示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于冗余词删除的预训练模型加速推理方法,参见图1,包括:
S1:使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型;
大规模预训练语言模型在无监督文本上进行预训练,并在下游任务微调,其中最具代表性的工作是以多层双向Transformer层为骨架的BERT模型。预训练语言模型一般采用BERT模型,近年来,以BERT为代表的预训练语言模型在许多自然语言处理任务上取得优异的表现,在自然语言推断,机器问答与文本分类任务上都取得当前最好的效果。
预训练语言模型BERT的输入为句子的所有单词。首先将这所有单词转化为连续的向量表示。这里,每一个输入的单词转化为一个词向量矩阵中的向量。进一步地,我们还使用位置向量来对词的位置进行区分。最终的词向量定义为词向量矩阵中的向量与位置向量之和。
并通过多层双向Transformer层将输入的词向量表示转化为词的富上下文信息的向量表示。这里,一个Transformer层操作通过残差操作和层规约(LayerNorm)级联一个自注意力机制模块Self-ATT和一个全连接模块FFN。
S2:在微调好的初始模型中添加若干层词选择层,在所述微调好的初始模型中逐层向前传递词的过程中,在输入的词中仅保留通过所述词选择层的词进入到下一层;
在BERT逐层向前传递词的过程删去信息量较少的冗余词,保留需要进一步编码的词进入到后续层。
其中,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。
本发明实施例提供的一种预训练语言模型加速推理方法,能够解决现有技术中存在的预训练语言模型推理效率较低,且难以处理长序列的问题,不但可以降低预训练语言模型推理时的资源消耗,还可以拓展其至长文本处理以获得更好的效果。同时,本发明可以快速得到不同加速度下相对性能较好的模型,具有良好的实用性。
根据本发明提供的基于冗余词删除的预训练模型加速推理方法,所述使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型包括:
将给定下游任务的句子中的所有单词转化为连续的词向量表示输入预训练语言模型;
在预训练语言模型将输入的词向量表示转化为词的富上下文信息的向量表示后,将所述富上下文信息的向量表示和样本标签输入至预训练语言模型中的分类器中进行微调训练,得到一个微调好的初始模型。
根据本发明提供的基于冗余词删除的预训练模型加速推理方法,所述将输入的词向量表示转化为词的富上下文信息的向量表示具体包括:
设置第0层的词向量表示为输入单词的词向量表示,第i层的词向量表示Hi通过以下公式得到:
Mi-1=LayerNorm(Hi-1+Self-ATT(Hi-1))
Hi=LayerNorm(Mi-1+FFN(Mi-1))
其中,Hi-1为第i-1层表示,Mi-1为Hi-1通过自注意力机制模块Self-ATT计算得到中间计算结果,Hi为第i层的向量表示,中间计算结果Mi-1通过全连接模块FFN计算得到的第i层的表示,LayerNorm为归一化函数。最后,将最终层(第L层)的表示HL将输入至分类器进行微调训练。
在预训练语言模型BERT中插入添加若干层词选择层,进一步的,发现添加两层词选择层最为有效。例如,对于包含12层Transformer层的预训练语言模型,在第2层和第6层前加入词选词层,对于包含6层Transformer层的预训练语言模型,在第2层和第4层前加入词选择层。
根据本发明提供的基于冗余词删除的预训练模型加速推理方法,将词在进入词选择层前的当前层的表示,输入至策略评估网络,评估其重要度。也就是说,所述词选择层包括选词策略评估网络:
所述选词策略评估网络用于对所述输入的词进行重要度评估,计算保留所述输入的词的概率值:
Figure BDA0003027824090000081
其中,
Figure BDA0003027824090000082
为输入第t个词选择层时序列中n个词的表示,at为这n个词的动作状态集合,每个词的动作状态为选择或跳过;θ={W1,W2,b1,b2}为可训练的选词策略评估网络的参数,W1,W2为可训练的变换矩阵,b1,b2为可训练的偏置向量;GeLU为GeLU激活函数;σ为sigmoid激活函数,输出为一个0~1的概率值。
根据本发明提供的基于冗余词删除的预训练模型加速推理方法,所述词选择层包括选词修剪网络:
所述选词修剪网络用于筛选出所述输入的词的概率值不小于预设阈值的词;预设阈值可以设为0.5,保留
Figure BDA0003027824090000097
的词。将筛选出的词序列记为
Figure BDA0003027824090000091
其中n*≤n;
将筛选出的词序列传入下一个Transformer层中,得到下一层的表示:
Figure BDA0003027824090000092
其中
Figure BDA0003027824090000093
分别为筛选出的词序列
Figure BDA0003027824090000094
在输入第t个词选择层时的表示;得到的H′包含筛选出的词序列信息进入到下一层。得到的H′包含当前重要的词信息,将继续参与后续层的特征提取。可以认为被删除的词已经编码了足够的信息,并将被删除的冗余词的当前层表示作为他们的最终层表示。
在训练中,我们根据
Figure BDA0003027824090000095
使用伯努利分布采样得到选择词序列,并优化词选择层以获得更高的期望奖励。奖励值包括两项:
(1)选词后最终分类层的预测概率值;
(2)选择的保留词数目。
进一步的,期望的是选词后最终分类层的预测概率值尽量大以满足性能要求,且选择的保留词数目尽量小以满足速度需求。所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到包括:
根据
Figure BDA0003027824090000096
使用伯努利分布采样得到筛选出的词序列,并优化词选择层以获得满足预设条件的期望奖励;
期望奖励函数定义为:
R=log pr(y=Y|X)-λ·∑t|{at=Select}|
其中X,Y分别为样本数据以及预先确定的词信息量标签,Pr(y=Y|X)为分类概率值;∑t|{at=Select}|为各选择层的筛选出的词总数;通过调整比例值λ得到满足不同预设条件的词选择层。
特别地,通过估计删去词对预测的影响,在前期训练中,我们为强化学习提供启发式的参考选词策略以加速收敛,若当前为第l层,我们计算将第r(r>l)层的表示替换为当前层表示对最终分类器损失函数L的影响设置为词的重要度,所述方法还包括:
若当前为最终层,将第r层的表示替换为当前层表示对最终分类器损失函数L的影响设置为词的重要值;选择重要值I最大的K个词,所述重要值I的定义为:
Figure BDA0003027824090000102
其中,Hl和Hr分别为第l层和的r层的词序列表示,
Figure BDA0003027824090000101
为最终分类器损失函数L对Hr的导数,其中,r>l,K可以根据实际需要设定,K为正整数,启发式的参考的选词策略选择重要值I最大的K个词。其中,K设置为当前策略网络的期望选词个数,以与当前采样的选词序列的选词个数保持相近。在强化学习学习训练中,采样若干个选词序列,计算并比较他们的奖励值,以对采样的各个选词序列进行奖惩。在前期训练中,插入一条启发式的参考选词序列作为一种较优解引导策略网络优化。而在中后期训练中我们则不再加入此序列,开放优化自由度,让策略网络自我进化。在训练过程将词选择层进行一个较好的初始化后,以给定任务的损失函数优化选词后的网络,使其适应删除冗余词后的词序列,同时训练词选择网络。两种训练的损失函数以1:1的比例相加联合训练得到最终模型。
本发明实施例公开了一种基于冗余词删除的预训练模型加速推理系统,参见图2,包括:
微调模块10,用于使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型;
加速推理模块20,用于在微调好的初始模型中添加若干层词选择层,在所述微调好的初始模型中逐层向前传递词的过程中,在输入的词中仅保留通过所述词选择层的词进入到下一层;
其中,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。
图3示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行一种基于冗余词删除的预训练模型加速推理方法,该方法包括:
S1:使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型;
S2:在微调好的初始模型中添加若干层词选择层,在所述微调好的初始模型中逐层向前传递词的过程中,在输入的词中仅保留通过所述词选择层的词进入到下一层;
其中,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行一种基于冗余词删除的预训练模型加速推理方法,该方法包括:
S1:使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型;
S2:在微调好的初始模型中添加若干层词选择层,在所述微调好的初始模型中逐层向前传递词的过程中,在输入的词中仅保留通过所述词选择层的词进入到下一层;
其中,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行一种基于冗余词删除的预训练模型加速推理方法,该方法包括:
S1:使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型;
S2:在微调好的初始模型中添加若干层词选择层,在所述微调好的初始模型中逐层向前传递词的过程中,在输入的词中仅保留通过所述词选择层的词进入到下一层;
其中,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于冗余词删除的预训练模型加速推理方法,其特征在于,包括:
使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型;
在微调好的初始模型中添加若干层词选择层,在所述微调好的初始模型中逐层向前传递词的过程中,在输入的词中仅保留通过所述词选择层的词进入到下一层;
其中,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。
2.根据权利要求1所述的基于冗余词删除的预训练模型加速推理方法,其特征在于,所述使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型包括:
将给定下游任务的句子中的所有单词转化为连续的词向量表示输入预训练语言模型;
在预训练语言模型将输入的词向量表示转化为词的富上下文信息的向量表示后,将所述富上下文信息的向量表示和样本标签输入至预训练语言模型中的分类器中进行微调训练,得到一个微调好的初始模型。
3.根据权利要求2所述的基于冗余词删除的预训练模型加速推理方法,其特征在于,所述将输入的词向量表示转化为词的富上下文信息的向量表示具体包括:
设置第0层的词向量表示为输入单词的词向量表示,第i层的词向量表示Hi通过以下公式得到:
Mi-1=LayerNorm(Hi-1+Self-ATT(Hi-1))
Hi=LayerNorm(Mi-1+FFN(Mi-1))
其中,Hi-1为第i-1层表示,Mi-1为Hi-1通过自注意力机制模块Self-ATT计算得到中间计算结果,Hi为第i层的向量表示,中间计算结果Mi-1通过全连接模块FFN计算得到的第i层的表示,LayerNorm为归一化函数。
4.根据权利要求3所述的基于冗余词删除的预训练模型加速推理方法,其特征在于,所述词选择层包括选词策略评估网络:
所述选词策略评估网络用于对所述输入的词进行重要度评估,计算保留所述输入的词的概率值:
Figure FDA0003027824080000021
为输入第t个词选择层时序列中n个词的表示,at为这n个词的动作状态集合,每个词的动作状态为选择或跳过;θ={W1,W2,b1,b2}为可训练的选词策略评估网络的参数,W1,W2为可训练的变换矩阵,b1,b2为可训练的偏置向量;GeLU为GeLU激活函数;σ为sigmoid激活函数,输出为一个0~1的概率值。
5.根据权利要求4所述的基于冗余词删除的预训练模型加速推理方法,其特征在于,所述词选择层包括选词修剪网络:
所述选词修剪网络用于筛选出所述输入的词的概率值不小于预设阈值的词;将筛选出的词序列记为
Figure FDA0003027824080000022
其中n*≤n;
将筛选出的词序列传入下一个Transformer层中,得到下一层的表示:
Figure FDA0003027824080000023
其中
Figure FDA0003027824080000024
分别为筛选出的词序列
Figure FDA0003027824080000025
在输入第t个词选择层时的表示;得到的H′包含筛选出的词序列信息进入到下一层。
6.根据权利要求5所述的基于冗余词删除的预训练模型加速推理方法,其特征在于,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到包括:
根据
Figure FDA0003027824080000026
使用伯努利分布采样得到筛选出的词序列,并优化词选择层以获得满足预设条件的期望奖励;
期望奖励函数定义为:
R=log Pr(y=Y|X)-λ·∑t|{at=Select}|
其中X,Y分别为样本序列数据以及标签,Pr(y=Y|X)为分类概率值;∑t|{at=Select}|为各选择层的筛选出的词总数;通过调整比例值λ得到满足不同预设条件的词选择层。
7.根据权利要求6所述的基于冗余词删除的预训练模型加速推理方法,其特征在于,所述方法还包括:
若当前为最终层,将第r层的表示替换为当前层表示对最终分类器损失函数L的影响设置为词的重要值;所述重要值I的定义为:
Figure FDA0003027824080000031
其中,Hl和Hr分别为第l层和的r层的词序列表示,
Figure FDA0003027824080000032
为最终分类器损失函数L对Hr的导数,其中,r>l;将所述重要度作为预先确定的词信息量标签,选择重要值I最大的K个词作为一种推荐选词序列,协助所述加速推理方法的训练。
8.一种基于冗余词删除的预训练模型加速推理系统,其特征在于,包括:
微调模块,用于使用给定下游任务的句子序列和样本标签在预训练语言模型上进行微调,得到一个微调好的初始模型;
加速推理模块,用于在微调好的初始模型中添加若干层词选择层,在所述微调好的初始模型中逐层向前传递词的过程中,在输入的词中仅保留通过所述词选择层的词进入到下一层;
其中,所述词选择层是基于样本数据以及预先确定的词信息量标签进行训练后得到。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的基于冗余词删除的预训练模型加速推理方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于冗余词删除的预训练模型加速推理方法的步骤。
CN202110420970.7A 2021-04-19 2021-04-19 基于冗余词删除的预训练模型加速推理方法和系统 Active CN113159168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110420970.7A CN113159168B (zh) 2021-04-19 2021-04-19 基于冗余词删除的预训练模型加速推理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110420970.7A CN113159168B (zh) 2021-04-19 2021-04-19 基于冗余词删除的预训练模型加速推理方法和系统

Publications (2)

Publication Number Publication Date
CN113159168A true CN113159168A (zh) 2021-07-23
CN113159168B CN113159168B (zh) 2022-09-02

Family

ID=76868786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110420970.7A Active CN113159168B (zh) 2021-04-19 2021-04-19 基于冗余词删除的预训练模型加速推理方法和系统

Country Status (1)

Country Link
CN (1) CN113159168B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115906918A (zh) * 2022-11-28 2023-04-04 北京百度网讯科技有限公司 预训练模型的微调方法及其装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
WO2020186778A1 (zh) * 2019-03-15 2020-09-24 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN111723547A (zh) * 2020-05-25 2020-09-29 河海大学 一种基于预训练语言模型的文本自动摘要方法
CN111767711A (zh) * 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
CN112487182A (zh) * 2019-09-12 2021-03-12 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020186778A1 (zh) * 2019-03-15 2020-09-24 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN112487182A (zh) * 2019-09-12 2021-03-12 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置
CN111723547A (zh) * 2020-05-25 2020-09-29 河海大学 一种基于预训练语言模型的文本自动摘要方法
CN111767711A (zh) * 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOHN HEWITT 等: "A Structural Probe for Finding Syntax in Word Representations", 《NAACL》 *
YE DEMING 等: "Coreferential Reasoning Learning for Language Representation", 《ARXIV:2004.06870》 *
岳一峰等: "一种基于BERT的自动文本摘要模型构建方法", 《计算机与现代化》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115906918A (zh) * 2022-11-28 2023-04-04 北京百度网讯科技有限公司 预训练模型的微调方法及其装置
CN115906918B (zh) * 2022-11-28 2024-05-17 北京百度网讯科技有限公司 预训练模型的微调方法及其装置

Also Published As

Publication number Publication date
CN113159168B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN109299237B (zh) 基于行动者评论家强化学习算法的循环网络人机对话方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN109947931B (zh) 基于无监督学习的文本自动摘要方法、系统、设备及介质
US11475225B2 (en) Method, system, electronic device and storage medium for clarification question generation
US11636272B2 (en) Hybrid natural language understanding
CN111027292B (zh) 一种限定采样文本序列生成方法及其系统
WO2019220113A1 (en) Device and method for natural language processing
CN111046178B (zh) 一种文本序列生成方法及其系统
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN111104513A (zh) 一种游戏平台用户问答业务的短文本分类方法
CN116051388A (zh) 经由语言请求的自动照片编辑
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN113159168B (zh) 基于冗余词删除的预训练模型加速推理方法和系统
CN117150026B (zh) 文本内容多标签分类方法与装置
CN112989843B (zh) 意图识别方法、装置、计算设备及存储介质
CN113723108A (zh) 一种事件提取方法、装置、电子设备及存储介质
CN115599918B (zh) 一种基于图增强的互学习文本分类方法及系统
CN111984783A (zh) 文本生成模型的训练方法、文本生成方法及相关设备
CN117494762A (zh) 学生模型的训练方法、素材处理方法、装置及电子设备
CN110929516A (zh) 文本的情感分析方法、装置、电子设备及可读存储介质
CN111368524A (zh) 一种基于自注意力双向gru和svm的微博观点句识别方法
CN114626529B (zh) 一种自然语言推理微调方法、系统、装置及存储介质
CN115422324A (zh) 一种文本处理方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant