CN116306796A - 模型自生长训练加速方法、装置、电子设备和存储介质 - Google Patents

模型自生长训练加速方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116306796A
CN116306796A CN202310558620.6A CN202310558620A CN116306796A CN 116306796 A CN116306796 A CN 116306796A CN 202310558620 A CN202310558620 A CN 202310558620A CN 116306796 A CN116306796 A CN 116306796A
Authority
CN
China
Prior art keywords
growth
neural network
training
mask
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310558620.6A
Other languages
English (en)
Other versions
CN116306796B (zh
Inventor
王业全
姚轶群
张正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyuan Artificial Intelligence Research Institute
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202310558620.6A priority Critical patent/CN116306796B/zh
Publication of CN116306796A publication Critical patent/CN116306796A/zh
Application granted granted Critical
Publication of CN116306796B publication Critical patent/CN116306796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了模型自生长训练加速方法、装置、电子设备和存储介质,属于人工智能技术领域。所述模型自生长训练加速方法包括,从基础神经网络结构中确定一个或多个生长维度;定义与所确定的每个生长维度相关联的基于掩码的生长算子,并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,以实现模型自生长训练。本发明在模型层面上实现了大模型的自生长加速,支持横向和纵向生长,在通过保值性实现知识继承的同时,降低了预训练的时间和算力成本。

Description

模型自生长训练加速方法、装置、电子设备和存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及模型自生长训练加速方法、装置、电子设备和存储介质。
背景技术
大模型是一种基于神经网络和自监督学习技术的,在大规模、广泛来源数据集上训练得到的人工智能基础模型。大模型已经在很多自然语言处理、计算机视觉等人工智能领域取得了显著的成功。大模型在使用之前首先需要进行预训练,预训练的目的是使用尽可能多的自监督数据集对模型进行训练,得到单语言、多语言和多模态等各种应用的模型。然而大模型的预训练成本通常较高。典型的模型如语言大模型GPT-3,算力成本超过一千万美元,完整训练一次需要的时间大约为一个月。因此,如何对大模型加速预训练,是节省科研和工程的时间成本和算力成本的一个紧迫问题。
在大模型预训练加速方面,现有技术主要是采用底层硬件、算法优化的方式,模型层面的优化比较少。如图1所示,现有的模型优化例如模型压缩、模型蒸馏、模型剪枝方法等,在训练进程中只能将原始大模型规模缩小以产出小模型,这不但带来精度的损失,降低了保值性,而且会损失后续的扩展性和知识容量。而对于传统的模型自生长方法,主要采用Net2Net实现,该方法保值性的实现严重依赖于初始化时选择的参数,使得初始权重缺乏优化空间;此外,由于保值性本身的非严格特性,在急剧生长的场景下,该方法无法实现完全的知识继承。
发明内容
为了解决现有技术中存在的模型层面上的大模型加速方法效率不高和保值性较低的问题,本发明提供了如下技术方案。
本发明在第一方面提供了一种模型自生长训练加速方法,包括:
从基础神经网络结构中确定一个或多个生长维度;
定义与所确定的每个生长维度相关联的基于掩码的生长算子,并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,以实现模型自生长训练。
优选地,所述生长维度包括所述基础神经网络结构的隐藏层特征宽度、前馈模块的中间层宽度、自注意力模块的头数量以及所述基础神经网络结构的总层数中的任一个或多个。
优选地,所述利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,进一步包括:
根据所确定的生长维度,在基础神经网络结构中增加对应数量的神经元或全连接神经网络层;
将新增神经元或神经网络层所连接的网络权重进行初始化;
利用全0的掩码与所述新增神经元或神经网络层的输出相乘,并在后续的训练中逐渐将掩码递增到1。
优选地,当确定所述生长维度为所述基础神经网络结构的隐藏层特征宽度或前馈模块的中间层宽度时,将对应的生长算子定义为:
Figure SMS_3
,其中,/>
Figure SMS_5
为掩码,该掩码与生长后的神经网络输出/>
Figure SMS_9
长度相同,在原有的神经元上的/>
Figure SMS_2
值为1,新增神经元上/>
Figure SMS_6
值为0;即生长后的/>
Figure SMS_10
等于原神经网络输出/>
Figure SMS_13
与一个全0向量/>
Figure SMS_1
的拼接,/>
Figure SMS_8
为新增的一层全连接神经网络层的连接权重,/>
Figure SMS_12
为生长前的神经网络输入,/>
Figure SMS_15
是所述基础神经网络结构中的非线性激活函数,/>
Figure SMS_4
和/>
Figure SMS_7
分别是生长之后和生长之前的输出神经元数量,即向量/>
Figure SMS_11
与/>
Figure SMS_14
的长度。
优选地,当确定所述生长维度为自注意力模块的头数量时,将对应的生长算子定义为:
对于原有的头head,将由该头head映射得到的V向量与全1掩码相乘;
对于新增的头head,将由该头head映射得到的V向量上与全0掩码相乘。
优选地,当确定所述生长维度为总层数时,将对应的生长算子定义为:
Figure SMS_16
,其中,/>
Figure SMS_17
为掩码,对于新增的神经网络层/>
Figure SMS_18
Figure SMS_19
值为0,/>
Figure SMS_20
和/>
Figure SMS_21
分别为第n层神经网络层的输出和输入。
优选地,在所述基础神经网络结构的层归一化结构中,将归一化均值
Figure SMS_24
和方差/>
Figure SMS_27
的生长算子定义为:/>
Figure SMS_30
,/>
Figure SMS_23
,其中,/>
Figure SMS_26
为掩码,/>
Figure SMS_29
为生长后的神经网络输入,该掩码与输入/>
Figure SMS_32
长度相同,为掩码,该掩码与特征长度相同,对原有神经元而言/>
Figure SMS_22
为1,对新增神经元则/>
Figure SMS_25
为0,为生长后的神经网络输入,/>
Figure SMS_28
和/>
Figure SMS_31
分别为生长后的归一化均值和方差。
本发明在第二方面提供了一种模型自生长训练加速装置,包括:
生长维度确定单元,用于从基础神经网络结构中确定一个或多个生长维度;
自生长训练单元,用于定义与所确定的每个生长维度相关联的基于掩码的生长算子,并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,以实现模型自生长训练。
本发明第三方面提供了一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行前述第一或第二方面的方法。
本发明第四方面提供了一种存储介质,所述存储介质存储有多条指令,所述多条指令可被处理器读取并执行前述第一或第二方面的方法。
本发明的有益效果是:
本发明的模型自生长训练加速方法和装置,在模型层面上实现了大模型的自生长加速,并且与其他的软件优化、硬件级别的优化等方案完全兼容,可以在此基础上进一步大幅降低预训练的时间和算力成本。模型自生长过程支持横向和纵向生长,能够通过保值性实现知识继承,生长后模型的搜索空间也会变得更小,通过模型的训练能够提升模型性能,并且模型加速框架的保值性不依赖于参数初始化,对未来的模型训练过程提供了重要的兼容性保证和优化空间。
附图说明
图1示出了大模型自生长加速技术与传统模型优化技术的对比示意图。
图2示出了本发明所述的模型自生长训练加速方法的流程图。
图3示出了基础模型架构Transformer神经网络结构示意图。
图4示出了根据本发明将基于掩码的生长算子应用于模型自生长的流程示意图。
图5示出了本发明所述的模型自生长训练加速方法的生长流程实施例。
图6示出了本发明所述的模型自生长训练加速方法与传统方法的评测结果对比示意图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
在预训练中从小模型生长到大模型时,需要继承小模型已经学习到的知识。即对任意输入,小模型和大模型能够给出相同的输出,称为模型生长的保值性。本发明中,提出了一种基于递增掩码的大模型结构生长框架(Masked Structural Growth,MSG)。利用这种统一框架在基础模型的预训练任务的流程中引入多种生长维度的独立生长,支持横向和纵向生长,并对生长流程进行优化,对每个生长维度定义了具有保值性的生长算子,该保值性通过对新增结构进行初始全0的掩码来实现。在后续训练中,掩码由0值逐步增加到1,使新结构充分参与到训练过程中。即使在目前传统方法失效的层归一化(LayerNormalization,LN)结构中,本发明的结构生长框架仍然具有严格的保值性,同时将生长过程的保值性与新参数的初始化解耦合,保留了初始权重的优化空间。
实施例一
如图2所示,本发明第一方面提供了一种模型自生长训练加速方法,包括:
S101、从基础神经网络结构中确定一个或多个生长维度。
图3示出了目前最常用的基础模型架构Transformer神经网络结构示意图。在优选的实施例中,根据Transformer神经网络结构的特性,本发明提出的MSG框架从该网络的结构中确定四个可以生长的维度,分别是隐藏层特征宽度(hidden_size)、前馈模块(图3的Feed Forward)的中间层宽度(ffn_size)、自注意力模块(图3的Multi-Head Attention)的头数量(head_number)以及总层数(layer_number)。模型的生长过程即对上述四个维度中的一个或多个维度进行增长或者扩展的过程。
S102、定义与所确定的每个生长维度相关联的基于掩码的生长算子,并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,以实现模型自生长训练。
为了确保模型生长过程严格的保值性,本发明提出的MSG框架对上述每一种生长维度定义了基于掩码(mask)的生长算子。具体地,步骤S102中将生长算子应用于模型生长的过程如下。图4中示出了通过增加神经元对网络中的层进行横向扩展的情形。该层原有神经元为x1和x2,分别与输入层神经元i1、i2和输出层神经元y1、y2连接,a、b、c、d、o、p、q、r、s和t分别代表各神经元之间的网络连接权重。与图4左侧图所示的现有技术相比,中间图是传统Net2Net方法通过分裂已有权重实现生长过程中的保值,而右侧图中本发明提出的MSG方法则在此基础上通过基于mask的生长算子进一步实现保值,从而支持新权重的任意初始化。
S1021、根据所确定的生长维度,在神经网络结构中增加对应数量的神经元或全连接神经网络整层。
S1022、将新增神经元或神经网络层所连接的网络权重进行任意初始化。
S1023、利用全0的掩码与新增神经元或神经网络层的输出相乘,并在后续的训练中逐渐将掩码值递增到1。
具体地,针对隐藏层特征宽度hidden_size和前馈模块的中间层宽度ffn_size维度,假设生长前后的一层全连接神经网络层的连接权重为分别为
Figure SMS_33
和/>
Figure SMS_34
,输入为/>
Figure SMS_35
,输出由/>
Figure SMS_36
扩展到/>
Figure SMS_37
,则上述两个维度的生长算子如下:
Figure SMS_38
(1)。
其中,
Figure SMS_41
为掩码,该掩码表示与生长后的神经网络输出/>
Figure SMS_43
相同长度的掩码,在原有的神经元上的/>
Figure SMS_46
值为1,新增神经元上/>
Figure SMS_42
值则为0。/>
Figure SMS_44
是所述基础神经网络结构中的非线性激活函数。生长后的/>
Figure SMS_47
等于原神经网络输出/>
Figure SMS_49
与一个全0向量/>
Figure SMS_40
的拼接,/>
Figure SMS_45
和/>
Figure SMS_48
分别是生长之后和生长之前的输出神经元数量,即向量/>
Figure SMS_50
与/>
Figure SMS_39
的长度。
如果固定输出
Figure SMS_51
不变,输入由/>
Figure SMS_52
扩展到/>
Figure SMS_53
,由于该层输入一定是其他层的输出,即
Figure SMS_54
一定具有公式(1)中/>
Figure SMS_55
的形式,此时生长前后的输出完全相同:
Figure SMS_56
(2) 。
其中,将掩码由0值逐步增加到1具体包括,在每一次梯度更新之后,将掩码值递增一个固定的增量,使得预设次数的训练之后,掩码值逐步增加到1。以公式(1)为例,掩码
Figure SMS_57
的初始值为0,在网络训练时的每一次梯度更新之后,将/>
Figure SMS_58
值提升一个固定的增量,如果每次增加1/5000,则在5000步梯度更新之后,将/>
Figure SMS_59
值增加到1并保持。
Transformer网络的自注意力模块中,每个头(head)通过不同的连接权重将输入映射为query(Q)、key(K),和value(V)三个向量表示。因此,本发明提出的MSG框架将自注意力模块的头数量head_number的生长算子定义如下:
对于原有的head,在其V向量上乘以全1掩码;
对于新增的head,则在其V向量上乘以全0掩码。
通过将全0的掩码与新增head的value值相乘,保证新head的输出在生长前后对网络没有影响。
对于总层数layer_num的生长算子,本发明提出的MSG框架定义纵向(层数)的生长算子为:
Figure SMS_60
(3)。
其中,
Figure SMS_61
为掩码,对于新增的神经网络层/>
Figure SMS_62
,/>
Figure SMS_63
值为0。/>
Figure SMS_64
和/>
Figure SMS_65
分别为第n层神经网络层的输出和输入。在生长前后,由于新层/>
Figure SMS_66
的输出在公式(3)与全0相乘后被跳过,因此网络的输出保持不变。
层归一化是Transformer中的特殊结构,对所有特征表示内部的神经元按照均值和方差进行归一化。本发明的MSG框架在层归一化结构中也具有严格的保值能力。具体地,将归一化均值
Figure SMS_67
和方差/>
Figure SMS_68
的生长算子定义如下:/>
Figure SMS_69
,/>
Figure SMS_70
(4)。
其中,
Figure SMS_71
为掩码,/>
Figure SMS_72
为生长后的神经网络输入,该掩码是与/>
Figure SMS_73
特征长度相同的掩码,对原有神经元而言/>
Figure SMS_74
为1,对新增神经元则/>
Figure SMS_75
为0,/>
Figure SMS_76
和/>
Figure SMS_77
分别为生长后的归一化均值和方差。
所述层归一化算子可以应用于hidden_size,ffn_size这两个维度,作为其生长算子的一部分,保证层归一化的保值性,并且上述层归一化结构的生长可以与两个维度的上述横向生长保持同步。
以上生长算子可以进行任意组合,形成多阶段、多维度的模型生长流程。本发明的MSG方法的模型生长流程的两种规模的示例schl_B和schl_L如图5所示。其中每一阶段的模型规模可以由(hidden_size,ffn_size,head_number,layer_number)四个维度的大小完全表示,k表示1000个梯度更新步数(step)。随着k值从左向右增加,四个维度分别递增,展示出模型的生长过程。例如阶段700k~900k下,模型schl_B的四个维度表示为(768,3072,12,12),即隐藏层特征宽度为768、前馈模块的中间层宽度为3072、自注意力模块的头数量为12、总层数为12,以此类推。
图6示出了本发明所提出的MSG框架的一个实例在Bert-base和Bert-large两种规模上进行生长预训练(图6的上表和下表分别表示为MSG-SCH1-B和MSG-SCH1-L),并在下游任务上微调后在GLUE任务数据集进行评测的结果(图6的上表为Bert-base,其下表为Bert-large)。FULL-B、N2N-SCH1-B、FULL-L和N2N-SCH1-L均为不同规模的传统训练方法。从上表和下表的wall time(真实时间)列可以看出,本发明的方法相比于不具备自生长的训练方法分别提速80%和120%。在Bert-base规模的预训练上,提速比与目前最优方法持平,且下游性能不下降;在Bert-large规模上,实现了120%提速,显著超越了目前最优方法,且在GLUEAvg、SQuADv1.1等自然语言处理平台的下游任务中呈现出最优性能(每项指标在括号内外的数值分别为三次实验的标准差以及平均值)。在其他平台(如CoLA、SST-2、MRPC、STS-B、QQP、MNLI、RTE)中同样达到优异效果。同时,由于网络权重是被任意初始化的,生长前后的网络输出与网络权重无关,因此该框架的保值性不依赖于参数初始化,对未来的模型训练过程提供了重要的兼容性保证和优化空间。
可以看出,通过本发明的上述模型自生长训练加速方法,在模型层面上实现了大模型的加速,并且与其他的软件优化、硬件级别的模型优化等方案完全兼容,进而可以在此基础上进一步大幅降低预训练成本。本发明的模型自生长过程支持横向和纵向生长,能够通过保值性进行知识继承,完全适应模型的训练过程,生长后模型的搜索空间也会变得更小,因此通过模型的训练也会带来模型性能的提升。本发明的模型自生长训练加速方法的应用范围更广,可以适配到包括视觉、语音、音乐、创作、生物、医学等所有领域的基于Transformer的基础模型。
实施例二
本发明的另一方面还包括与前述实施例一的模型自生长训练加速方法完全对应一致的功能模块架构,即提供了一种模型自生长训练加速装置,包括:
生长维度确定单元,用于从基础神经网络结构中确定一个或多个生长维度;
自生长训练单元,用于定义与所确定的每个生长维度相关联的基于掩码的生长算子,并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,以实现模型自生长训练。
该装置可通过上述实施例一提供的模型自生长训练加速方法实现,具体的实现方式可参见实施例一中的描述,在此不再赘述。
实施例三
本发明还提供了一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行前述实施例一中的任一种方法。其中处理器和存储器可以通过总线或者其他方式连接,以通过总线连接为例。处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的模型自生长训练加速方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的模型自生长训练加速方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例四
本发明还提供了一种存储介质,所述存储介质存储有多条指令,所述指令可被处理器加载并执行,以使所述处理器能够执行如实施例一中的任意一种方法。该存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种模型自生长训练加速方法,其特征在于,包括:
从基础神经网络结构中确定一个或多个生长维度;
定义与所确定的每个生长维度相关联的基于掩码的生长算子,并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,以实现模型自生长训练。
2.根据权利要求1所述的模型自生长训练加速方法,其特征在于,所述生长维度包括所述基础神经网络结构的隐藏层特征宽度、前馈模块的中间层宽度、自注意力模块的头数量以及所述基础神经网络结构的总层数中的任一个或多个。
3.根据权利要求1所述的模型自生长训练加速方法,其特征在于,所述利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,进一步包括:
根据所确定的生长维度,在基础神经网络结构中增加对应数量的神经元或全连接神经网络层;
将新增神经元或神经网络层所连接的网络权重进行初始化;
利用全0的掩码与所述新增神经元或神经网络层的输出相乘,并在后续的训练中逐渐将掩码递增到1。
4.根据权利要求3所述的模型自生长训练加速方法,其特征在于,当确定所述生长维度为所述基础神经网络结构的隐藏层特征宽度或前馈模块的中间层宽度时,将对应的生长算子定义为:
Figure QLYQS_2
,其中,/>
Figure QLYQS_8
为掩码,该掩码与生长后的神经网络输出/>
Figure QLYQS_12
长度相同,在原有的神经元上的/>
Figure QLYQS_4
值为1,新增神经元上/>
Figure QLYQS_5
值为0;即生长后的/>
Figure QLYQS_9
等于原神经网络输出/>
Figure QLYQS_13
与一个全0向量/>
Figure QLYQS_1
的拼接,/>
Figure QLYQS_6
为新增的神经网络层的连接权重,/>
Figure QLYQS_10
为生长前的神经网络输入,/>
Figure QLYQS_14
是所述基础神经网络结构中的非线性激活函数,/>
Figure QLYQS_3
和/>
Figure QLYQS_7
分别是生长之后和生长之前的输出神经元数量,即/>
Figure QLYQS_11
与/>
Figure QLYQS_15
的长度。
5.根据权利要求3所述的模型自生长训练加速方法,其特征在于,当确定所述生长维度为自注意力模块的头数量时,将对应的生长算子定义为:
对于原有的头head,将由该头head映射得到的V向量与全1掩码相乘;
对于新增的头head,将由该头head映射得到的V向量上与全0掩码相乘。
6.根据权利要求3所述的模型自生长训练加速方法,其特征在于,当确定所述生长维度为总层数时,将对应的生长算子定义为:
Figure QLYQS_16
,其中,/>
Figure QLYQS_17
为掩码,对于新增的神经网络层/>
Figure QLYQS_18
,/>
Figure QLYQS_19
值为0,/>
Figure QLYQS_20
和/>
Figure QLYQS_21
分别为第n层神经网络层的输出和输入。
7.根据权利要求1所述的模型自生长训练加速方法,其特征在于,在所述基础神经网络结构的层归一化结构中,将归一化均值
Figure QLYQS_24
和方差/>
Figure QLYQS_26
的生长算子定义为:/>
Figure QLYQS_29
Figure QLYQS_23
,其中,/>
Figure QLYQS_27
为掩码,/>
Figure QLYQS_30
为生长后的神经网络输入,该掩码与输入/>
Figure QLYQS_32
长度相同,对原有神经元而言/>
Figure QLYQS_22
为1,对新增神经元则/>
Figure QLYQS_25
为0,为生长后的神经网络输入/>
Figure QLYQS_28
和/>
Figure QLYQS_31
分别为生长后的归一化均值和方差。
8.一种模型自生长训练加速装置,其特征在于,包括:
生长维度确定单元,用于从基础神经网络结构中确定一个或多个生长维度;
自生长训练单元,用于定义与所确定的每个生长维度相关联的基于掩码的生长算子,并利用所述生长算子对所述基础神经网络结构的所述生长维度进行扩展,以实现模型自生长训练。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1至7任一项所述的模型自生长训练加速方法。
10.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1至7任一项所述的模型自生长训练加速方法。
CN202310558620.6A 2023-05-17 2023-05-17 模型自生长训练加速方法、装置、电子设备和存储介质 Active CN116306796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310558620.6A CN116306796B (zh) 2023-05-17 2023-05-17 模型自生长训练加速方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310558620.6A CN116306796B (zh) 2023-05-17 2023-05-17 模型自生长训练加速方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN116306796A true CN116306796A (zh) 2023-06-23
CN116306796B CN116306796B (zh) 2023-09-15

Family

ID=86781885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310558620.6A Active CN116306796B (zh) 2023-05-17 2023-05-17 模型自生长训练加速方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116306796B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN110766665A (zh) * 2019-09-30 2020-02-07 天聚星信息科技(深圳)有限公司 基于强监督算法和深度学习网络的舌象数据分析方法
CN111625652A (zh) * 2019-07-12 2020-09-04 杭州电子科技大学 基于多路动态掩码的注意力神经网络的方法
CN113326922A (zh) * 2021-05-31 2021-08-31 北京市商汤科技开发有限公司 神经网络的生成方法、装置、电子设备及存储介质
CN113505883A (zh) * 2021-05-31 2021-10-15 华为技术有限公司 一种神经网络训练方法以及装置
CN115238893A (zh) * 2022-09-23 2022-10-25 北京航空航天大学 面向自然语言处理的神经网络模型量化方法和装置
CN115481729A (zh) * 2022-09-20 2022-12-16 鹏城实验室 一种混合算子模型并行训练方法、装置、设备及存储介质
CN115527525A (zh) * 2022-11-23 2022-12-27 广州小鹏汽车科技有限公司 语音识别模型生成方法、语音交互方法、车辆和存储介质
WO2023050809A1 (zh) * 2021-09-30 2023-04-06 浪潮电子信息产业股份有限公司 分布式神经网络训练方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN111625652A (zh) * 2019-07-12 2020-09-04 杭州电子科技大学 基于多路动态掩码的注意力神经网络的方法
CN110766665A (zh) * 2019-09-30 2020-02-07 天聚星信息科技(深圳)有限公司 基于强监督算法和深度学习网络的舌象数据分析方法
CN113326922A (zh) * 2021-05-31 2021-08-31 北京市商汤科技开发有限公司 神经网络的生成方法、装置、电子设备及存储介质
CN113505883A (zh) * 2021-05-31 2021-10-15 华为技术有限公司 一种神经网络训练方法以及装置
WO2023050809A1 (zh) * 2021-09-30 2023-04-06 浪潮电子信息产业股份有限公司 分布式神经网络训练方法
CN115481729A (zh) * 2022-09-20 2022-12-16 鹏城实验室 一种混合算子模型并行训练方法、装置、设备及存储介质
CN115238893A (zh) * 2022-09-23 2022-10-25 北京航空航天大学 面向自然语言处理的神经网络模型量化方法和装置
CN115527525A (zh) * 2022-11-23 2022-12-27 广州小鹏汽车科技有限公司 语音识别模型生成方法、语音交互方法、车辆和存储介质

Also Published As

Publication number Publication date
CN116306796B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN107633298B (zh) 一种基于模型压缩的递归神经网络加速器的硬件架构
EP3564863B1 (en) Apparatus for executing lstm neural network operation, and operational method
CN116362351B (zh) 利用噪声扰动训练预训练语言模型的方法及装置
US20210073641A1 (en) Learning device, learning system, and learning method
CN115169568B (zh) 量子计算处理方法、装置及电子设备
CN115860100A (zh) 一种神经网络模型训练方法、装置及计算设备
CN109102468B (zh) 图像增强方法、装置、终端设备及存储介质
CN109685208B (zh) 一种用于神经网络处理器数据稀梳化加速的方法及装置
CN116306796B (zh) 模型自生长训练加速方法、装置、电子设备和存储介质
Mahima et al. A comparative analysis of the most commonly used activation functions in deep neural network
CN115953651B (zh) 一种基于跨域设备的模型训练方法、装置、设备及介质
CN115599918B (zh) 一种基于图增强的互学习文本分类方法及系统
CN114707655B (zh) 一种量子线路转换方法、系统、存储介质和电子设备
CN114169469A (zh) 一种基于量子网络的识别方法、系统、设备及存储介质
JP2018081294A (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP7073686B2 (ja) ニューラルネットワーク結合低減
CN116502640B (zh) 基于上下文的文本表征模型训练方法及装置
JP2019211627A (ja) モデル学習装置、方法及びプログラム
CN116663516B (zh) 表格机器学习模型训练方法、装置、电子设备及存储介质
CN116151383B (zh) 量子计算处理方法、装置及电子设备
CN116050433B (zh) 自然语言处理模型的场景适配方法、装置、设备及介质
CN115658307B (zh) 一种基于压缩数据直接计算的智能负载处理方法和系统
CN115906917A (zh) 一种基于模型算法划分的神经网络模型部署方法及装置
CN117370269A (zh) 面向模糊系统优化的fpga动态参数重配置系统及方法
CN117746867A (zh) 语音识别加速方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant