CN112561056A - 神经网络模型的训练方法、装置、电子设备和存储介质 - Google Patents

神经网络模型的训练方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112561056A
CN112561056A CN202011439351.4A CN202011439351A CN112561056A CN 112561056 A CN112561056 A CN 112561056A CN 202011439351 A CN202011439351 A CN 202011439351A CN 112561056 A CN112561056 A CN 112561056A
Authority
CN
China
Prior art keywords
model
neural network
layer
model parameters
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011439351.4A
Other languages
English (en)
Inventor
李国良
孙萌
何中军
李芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011439351.4A priority Critical patent/CN112561056A/zh
Publication of CN112561056A publication Critical patent/CN112561056A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种神经网络模型的训练方法、装置、电子设备和存储介质,涉及计算机技术领域。具体实现方案为:神经网络模型中包括共享模型参数的网络层,训练方法包括:获取训练样本集;基于训练样本集对神经网络模型进行前向训练,以确定损失函数值;根据损失函数值,对神经网络模型中的模型参数进行逐层反向传播修正,在确定第i个网络层的模型参数的情况下,对与其共享模型参数的第j个网络层的模型参数进行同步更新,直至确定神经网络模型各个网络层的模型参数,其中,第i个网络层与模型的输出层间的距离,小于第j个网络层与所述模型的输出层间的距离,i和j分别为正整数。本申请通过共享模型参数,简化了模型的训练过程。

Description

神经网络模型的训练方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,具体涉及人工智能、深度学习、自然语言处理、计算机视觉、大数据技术领域,尤其涉及一种神经网络模型的训练方法、装置、电子设备和存储介质。
背景技术
随着计算机技术的蓬勃发展,人工智能领域也得到了迅速发展,模式识别、智能控制、辅助决策等技术也得到了越来越广泛的使用。神经网络模型,作为模式识别、智能控制及辅助决策等领域中必不可少的一部分,如何快速、准确的进行神经网络模型的训练,显得至关重要。
发明内容
本申请提供一种神经网络模型的训练方法、装置、电子设备和存储介质。
根据本申请的一方面,提供了一种方法,包括:
一种神经网络模型的训练方法,其中,所述神经网络模型中包括共享模型参数的网络层,所述训练方法包括:
获取训练样本集;
基于所述训练样本集对所述神经网络模型进行前向训练,以确定损失函数值;
根据所述损失函数值,对所述神经网络模型中的模型参数进行逐层反向传播修正,在确定第i个网络层的模型参数的情况下,对与其共享模型参数的第j个网络层的模型参数进行同步更新,直至确定所述神经网络模型各个网络层的模型参数,其中,第i个网络层与模型的输出层间的距离,小于第j个网络层与所述模型的输出层间的距离,i和j分别为正整数。
根据本申请的另一方面,提供了一种方法,其中,所述方法为一种基于神经网络模型的数据处理方法,包括:
获取待处理的源数据;
将所述源数据,输入神经网络模型,以获取所述源数据对应的目标数据。
根据本申请的另一方面,提供了一种装置,其中,所述神经网络模型中包括共享模型参数的网络层,所述装置包括:
第一获取模块,用于获取训练样本集;
第一确定模块,用于根据所述训练样本集对所述神经网络模型进行前向训练,以确定损失函数值;
第二确定模块,用于根据所述损失函数值,对所述神经网络模型中的模型参数进行逐层反向传播修正,在确定第i个网络层的模型参数的情况下,对与其共享模型参数的第j个网络层的模型参数进行同步更新,直至确定所述神经网络模型各个网络层的模型参数。
根据本申请的另一方面,提供了一种装置,其中,所述装置为一种基于神经网络模型的数据处理装置,包括:
第二获取模块,用于获取待处理的源数据;
第三确定模块,用于将所述源数据,输入神经网络模型,以获取所述源数据对应的目标数据,其中所述神经网络模型由上述一方面实施例的神经网络模型的训练方法生成。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的神经网络的训练方法、或者执行上述一方面实施例所述的基于神经网络模型的数据处理方法。
根据本申请另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的神经网络模型的训练方法、或者执行上述一方面实施例所述的基于神经网络模型的数据处理方法。
本申请提供的神经网络模型的训练方法、装置、电子设备和存储介质,存在如下有益效果:
通过获取到的训练样本集对神经网络模型进行训练,以确定损失函数值,之后在由损失函数值对神经网络模型进行反向传播修正的过程中,若已确定好第i层的模型参数时,可直接将该模型参数作为与第i层共享模型参数的第j层的修正后的模型参数。根据本申请的方案可使得模型参数的更新更加准确、合理,简化了模型的训练过程,避免了误差累积,提高了模型参数的准确性,同时低层参数也不需要经过层层传递才能获得更新,缓解了模型梯度爆炸的发生,提高了模型的训练速度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1A为本申请提供的神经网络模型的一种结构示意图;
图1B为本申请提供的神经网络模型的一种结构示意图;
图1C为本申请提供的神经网络模型的一种结构示意图;
图2A为本申请提供的神经网络模型的一种结构示意图;
图2B为本申请提供的神经网络模型的一种结构示意图;
图3A为本申请提供的神经网络模型的一种结构示意图;
图3B为本申请提供的神经网络模型的一种结构示意图;
图3C为本申请提供的神经网络模型的一种输入结构示意图;
图3D为本申请提供的神经网络模型的一种结构示意图;
图4A为本申请一实施例提供的神经网络模型的训练方法的流程示意图;
图4B为本申请神经网络模型的一种示意图;
图4C为本申请神经网络模型的一种示意图;
图5为本申请另一实施例提供的基于神经网络模型的数据处理方法的流程示意图。
图6为本申请一实施例提供的神经网络模型的训练装置的结构示意图;
图7为本申请另一实施例提供的基于神经网络模型的数据处理装置的结构示意图;
图8是用来实现本申请实施例的神经网络模型的训练方法或者本申请实施例的基于神经网络模型的数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
深度学习是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
自然语言处理是用计算机来处理、理解以及运用人类语言(如中文、英文等),它是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。
计算机视觉是一个跨学科的科学领域,研究如何让计算机从数字图像或视频中获得高水平的理解。从工程学的角度来看,它寻求人类视觉系统能够完成的自动化任务。计算机视觉任务包括获取、处理、分析和理解数字图像的方法,以及从现实世界中提取高维数据以便例如以决策的形式产生数字或符号信息的方法。
大数据技术是指通过多种渠道实现对大量数据的采集,并通过使用云计算技术来实现对数据的深度挖掘和分析,确保能够及时的找出数据之间的规律和特点,总结和归纳出数据所存在的价值。大数据技术对于了解数据特征,预测发展趋势具有十分重要的意义。
为了更清楚的对本申请提供的神经网络模型的训练方法进行说明,下面先对本申请提供的神经网络模型的训练方法中的神经网络模型的结构进行说明。
通常,神经网络模型包括输入层、隐含层和输出层,其中隐含层的层数可以根据需要进行调整,即隐含层可以为一层也可以为多层。隐含层的数量与模型可靠性有关,通常,模型深度越深,模型的处理能力越强,可靠性越高。一般进行神经网络模型训练的时候,为了让模型能够准确学习到的东西足够多,一般都会把模型的层数设置的比较深,由此而来的就会导致模型参数增多,从而为模型的训练增加了难度。本申请中,为了使模型既能拥有足够强的学习能力,同时参数也相对较少,本申请提供的神经网络模型中可以设置共享模型参数的网络层,从而在增加网络层层数提高模型的深度的同时,所使用的模型参数却不会增加太多。
其中,共享模型参数是指至少有两个网络层使用相同的模型参数,本申请中的共享模型参数的网络层可以是两层也可以是多层,比如可以是两层共享同一组参数,或者也可以是多层共享同一组参数,或者,还可以是多组网络层,分别共享了多组模型参数,本申请对此不做限定。
另外,共享模型参数的网络层在神经网络模型中的分布情况可能有多种,比如:
共享模型参数的网络层在神经网络模型中随机分布。即共享同一组模型参数的多个网络层在模型中是无规律分布的。举例来说,在如图1A所示的神经网络模型的结构示意图中,神经网络模型中共包括10层、其中第2个网络层和第5个网络层共享一组模型参数W0、且第4个网络层和第8个网络层共享一组模型参数W1;或者,在如图1B所示的神经网络模型的结构示意图中,也可能是第1个网络层和第9个网络层共享一组模型参数W0、且第3个网络层和第5个网络层共享一组模型参数W1;或者,在如图1C所示的神经网络模型的结构示意图中,也可能是第2个网络层、第4个网络层和第9个网络层一组模型参数W0等等,本实施例对此不做限定。
或者,共享模型参数的网络层在神经网络模型中成对称分布。比如,在如图2A所示的神经网络模型结构图中,该神经网络模型一共有10层,第2个网络层和第9个网络层使用相同的模型参数W0、第4个网络层和第7个网络层使用相同的模型参数W1,其中,第2个网络层和第9个网络层在该神经网络模型中是对称分布的,第4个网络层和第7个网络层在该神经网络模型中是对称分布的。可以理解的是,在进行模型训练时,若使用共享模型参数的网络层成对称分布,可以最大程度的保证低层参数不受高层参数的影响,在提高模型可靠性的情况下,尽量提高了模型训练的速度。
或者,共享模型参数的网络层在神经网络模型中是成组分布的。比如,在如图2B所示的神经网络模型结构示意图中,该神经网络模型一共有10层,第2个网络层和第9个网络层使用相同的模型参数W0、第3个网络层和第8个网络层使用相同的模型参数W1、第4个网络层和第7个网络层使用相同的模型参数W2
需要说明的是,上述例子只是举例说明,不能作为本申请中对神经网络模型的网络层数及其分布方式的限定。
在实际使用过程中,当多个连续的网络层一起重复时,即多个连续的网络层同时与其他连续的网络层共享模型参数,为了方便起见,可将多个网络层看做一个模型块,即一个模型块可以包含多个网络层,每层的模型参数不同、且多个模型块间共享多组模型参数。
举例而言,如图3A所示的神经网络模型结构示意图。如图3A所示,该神经网络模型一共有10个网络层,第2个网络层和第9个网络层共享一组模型参数W0,第3个网络层和第8个网络层共享一组模型参数W1,此时第2、3层可以看作一个模型块,第8、9层可以看作一个模型块,两个模型块共用模型参数W0和W1
比如说,若神经网络模型一共有10个网络层,第2个网络层和第9个网络层共享一组模型参数,第4个网络层和第7个网络层共享一组模型参数,此时第2个网络层和第4个网络层不能看作一个模型块,第7个网络层和第9个网络层也不能看作一个模型块,因为第2个网络层和第4个网络层之间的第3个网络层与第7个网络层和第9个网络层之间的第8个网络层各自的模型参数是未知的,只有在第3个网络层和第8个网络层具有相同的模型参数时,第2、3、4个网络层才能看作一个模型块,第7、8、9个网络层才能看作一个模型块。上述只是举例而言,不能作为对本申请神经网络模型中模型块和模型参数的限定。
另外,共享模型参数的网络层可以是单独的网络层,也可以是分别位于不同的模型块中。
其中,若共享模型参数的网络层分别位于不同的模型块中时,与同一组模型参数对应的各个网络层在各个模型块中的位置可以相同也可以不相同。本申请对此不做限定。
举例来说,在如图3B所示的神经网络模型结构示意图中。模型块1和模型块2各有四个网络层,共享四组模型参数,模型块1中的任一网络层的模型参数与模型块2中的一个网络层的模型参数相同,但是共享同一组模型参数的两个网络层在各自的模型块中的位置没有具体要求,即共享同一组模型参数的两个网络层在各个的模型块中可以在同一位置,也可以在不同位置。比如模型块1中共享模型参数的四个网络层由输入至输出的排序是ABCD,模型块2中的共享模型参数的四个网络层由输入至输出的排序可以和模型块中1中四个网络层的排序一样为ABCD,也可以和模型块1的排序不一样,如DCBA、ACBD、BDCA、CBAD、ADBC等其他排序方式。
此外,共享模型参数的各个模型块在神经网络模型中的位置有多种情况,本申请对此不做限定。
比如,神经网络模型中共包括10个模型块,其中,有两个模型块共享模型参数。那么,共享模型参数的各个模型块在神经网络模型中随机分布,即共享模型参数的模型块可能是第2个模型块和第5个模型块,也可能是第6个模型块和第9个模型块。即共享模型参数的模型块并不是按照特定的规律排序的,而是在神经网络模型中随机分布的。
或者,为了尽量降低底层模型参数受高层模型参数的影响,本申请实施例中共享模型参数的模型块也可以是对称分布的。即共享模型参数的两个模型块中,一个模型块与神经网络模型的输入层间的距离,与另一个模型块与神经网络模型的输出层间的距离相同。比如说,各个模型块中的第K个模型块与模型的输出层间的距离最小,第L个模型块与模型的输入层间的距离最小,那么第K个模型块中的输出层与第L个模型块中的输入层间共享模型参数,第K个模型块中的输入层与所述第L个模型块中的输出层间共享模型参数,其中,K和L分别为正整数。
举例来说,在如图3C所示的神经网络模型结构中,各层结构依次为输入层、模型块A、模型块B、模型块C、模型块D、模型块E、模型块F以及输出层,第1个模型块A与所述模型的输入层间的距离最小,第6个模型块F与所述模型的输出层间的距离最小,那么第6个模型块F中的输出层与第一个模型块A中的输入层共享模型参数,第6个模型块F中的输入层与第一个模型块A中的输出层共享模型参数,极大的保证了模型参数的准确性。
另外,在使用模型块增加模型深度时,为了避免模型较深,丢失原始输入信息,本申请中,还可以将原始的输入信息,分别输入到各个模型块中,从而使每个模型块都可以学习到原始输入信息。即在本申请提供的神经网络模型中,每个模型块的输入信号包括相邻的前一网络层的输出信号和神经网络的输入信号。
下面结合图3D,对该神经网络模型的输入情况做详细说明。
如图3D所示,该神经网络模型中共有6个模型块,模型块1的输入信号是神经网络的输入信号X,模型块2的输入信号包括模型块1的输出信号和神经网络的输入信号X,模型块3的输入信号包括模型块2的输出信号和神经网络的输入信号X,模型块4的输入信号包括模型块3的输出信号和神经网络的输入信号X,模型块5的输入信号包括模型块4的输出信号和神经网络的输入信号X,模型块6的输入信号包括模型块5的输出信号和神经网络的输入信号X。这样,即使在使用较多模型块增加模型深度时,也可以保证每个模型块都能学习到原始的输入信息,保证了模型的准确性。
本申请神经网络模型包括共享模型参数的网络层,通过在神经网络模型中,增加相同模型参数的网络层的形式,增加模型的深度,保证了模型的学习能力,又避免了使用过多的模型参数。并且,通过将共享模型参数的网络层进行对称设置,使得模型参数呈闭合状态,从而使得高层模型参数的梯度与低层模型参数的梯度互相影响,使得梯度更新更加合理,避免了模型梯度爆炸的发生。
需要说明的是,本申请提供的神经网络模型,可用于任何场景。比如可以对图像进行处理,以实现字符识别、人脸识别、图像翻译等。或者,还可以对文本进行处理,以实现文本翻译、摘要生成、文本生成等等,或者,还可以对语音进行处理,以实现语音识别、语音交互等等,本实施例对此不做限定。
图4A为本申请实施例提供的一种神经网络模型的训练方法的流程示意图。该训练方法,适用于包括共享模型参数的网络层的神经网络模型,如图4A所示,该神经网络模型的训练方法包括:
步骤401,获取训练样本集。
其中,训练样本集是已经选定好的样本数据,包含各个输入数据和标注数据,训练样本集可以是任何类型数据,比如是图片,或者是文字等等,本申请对此不做限定。
需要说明的是,本申请实施例中对训练样本集的规模不做限定,即训练样本集中可能仅包含少量的已标注数据,或者也可能包含大量的已标注样本数据。
步骤402,基于训练样本集对神经网络模型进行前向训练,以确定损失函数值。
其中,损失函数是模型对数据拟合程度的反映,拟合的程度越好,损失函数值就越小,拟合的程度越差,损失函数值就越大。常见的损失函数有:均方误差、二元交叉熵、多分类交叉熵等。
本申请实施例中,将训练样本输入到神经网络模型后,神经网络模型对训练样本进行前向传播,最后通过输出层输出经过模型训练之后的预测值,将得到的预测值及对应的标注值代入损失函数中,即可计算出相应的损失函数值。
步骤403,根据损失函数值,对神经网络模型中的模型参数进行逐层反向传播修正,在确定第i个网络层的模型参数的情况下,对与其共享模型参数的第j个网络层的模型参数进行同步更新,直至确定神经网络模型各个网络层的模型参数。
其中,第i个网络层与模型的输出层间的距离,小于第j个网络层与所述模型的输出层间的距离,i和j分别为正整数。
其中,反向传播修正,就是利用前向传播得到的损失函数值由输出层至输入层,对每个网络层的每个参数的梯度进行修正,从而重新确定各层的参数值。神经网络模型的训练就是不停的前向-反向传播的过程,直到模型的预测能力达到预期。
在进行参数计算时,传统的深层神经网络,如图4B所示,梯度从高层到低层反向传播,其中高层的梯度不受低层梯度的影响,同时低层梯度需要在层层传播后才能计算得到,更容易发生梯度爆炸、消失。如图4B所示,x表示输入,Loss表示损失函数,wi表示第i层的参数,si表示第i层的输出,si=si-1*wi。w2的梯度计算如公式1所示,可以看出w2的梯度受到损失函数Loss,s7,w6,w5,w4,w3,s3的影响。
Figure BDA0002821736730000101
本申请实施例中,当神经网络模型中包含共享模型参数的网络层时,比如神经网络模型中的参数分布为如图4C所示的形式,高层参数梯度与低层参数的梯度就能相互影响,从而梯度更新更加合理。同时也保证了低层参数不需要通过层层地传递才能得到更新,缓解了模型梯度爆炸、消失的发生。
w2参数的梯度计算如公式2所示,可以看出w2的梯度受到Loss,s7,w0,w1,w3,s5,s3的影响,低层模型的参数不需要通过层层传递才能得到更新,模型参数更新更加合理,模型训练更加充分。
Figure BDA0002821736730000111
本申请提出的神经网络模型的训练方法,简化了模型参数的计算,提高了模型的训练速度,同时高层参数梯度和低层参数梯度可以相互影响,模型参数更新更加合理。
本申请实施例中,根据确定好的损失函数值对神经网络模型中的模型参数进行逐层反向传播修正参数,若此时已对第i个网络层的模型参数重新计算得到新的模型参数时,可以直接确定与其共享模型参数的第j个网络层的模型参数。第j个网络层的模型参数不用再由损失函数值从输出层往第j层逐层求导确定,从而提高了模型的训练速度,并且避免了误差累积,提高了模型参数的准确性。
举例来说,若神经网络模型中一共有10层,第2层和第9层共享一组模型参数,在进行反向传播确定参数时,先计算出了第9层修正后的模型参数,可以直接将其作为第2层的模型参数使用。因为第2层和第9层使用同一组模型参数,所以可以直接用其中一个修正后的模型参数来作为另一个网络层对应的模型参数,不再需要从输出层一直往输入层方向逐层计算得到,提高了模型参数的准确性。
具体实现时,由第i层模型参数确定与其共享模型参数的第j层模型参数的方式有多种,本申请对此不做限定。
比如,第i个网络层和第j个网络层是两个单独的网络层,确定了第i个网络层的模型参数后,直接将其应用到第j个网络层上,作为第j个网络层的模型参数。
或者,第i个网络层和第j个网络层分别在不同的模型块中,且第i个网络层所在的第一模型块与模型输出层间的距离,小于第j个网络层所在的第二模型块与模型输出层间的距离,那么在确定了第一个模型块中的第i个网络层的模型参数后,可直接将其应用到第二个模型块中的第j个网络层上,作为第j个网络层的模型参数。
或者,第i个网络层和第j个网络层分别在不同的模型块中,且第i个网络层所在的第一模型块与模型输出层间的距离,小于第j个网络层所在的第二模型块与模型输出层间的距离。在训练时,可以在确定了第一个模型块中的各个网络层分别对应的模型参数后,直接用第一个模型块修正后的模型参数来更新第二个模型块,此时第j层模型参数也会根据第i层模型参数得到同步更新。
本申请实施例,通过获取到的训练样本集对神经网络模型进行训练,以确定损失函数值,之后在由损失函数值对神经网络模型进行反向传播修正的过程中,若已确定好第i层的模型参数时,可直接将该模型参数作为与第i层共享模型参数的第j层的修正后的模型参数,使得模型参数的更新更加准确、合理,同时低层参数也不需要经过层层传递才能获得更新,缓解了模型梯度爆炸的发生。即,通过在不同的网络层之间共享模型参数,使得在增加模型深度的情况下,简化了模型的训练过程,模型参数量不会剧增,模型训练更加充分,同时各层参数之间可以相互影响,低层参数无需通过层层传递才能更新。
神经网络模型经过上述步骤已经得到充分训练,该神经网络模型可以应用到诸多场景中。下面结合图5,对本申请提供的基于神经网络模型的数据处理方法进行具体说明。
图5为本申请实施例提供的一种基于神经网络模型的数据处理方法的流程示意图。如图5所示,该基于神经网络模型的数据处理方法包括:
步骤501,获取待处理的源数据。
其中,源数据可以是任何类型的数据,比如是图像数据、语音数据、文本数据等等。本申请对此不做限定。
步骤502,将源数据输入神经网络模型,以获取源数据对应的目标数据。
具体的,若源数据是待处理的图像,想要对该图像进行增强处理,即对应的神经网络模型为图像增强模型。那么将待处理的图像输入到该图像增强模型中,经过该模型处理后,可以得到去除模糊和噪声的图像,即图像得到了较好的增强处理。
或者,若源数据是待识别的语音信息,想要识别该语音信息,对应的神经网络模型为语音识别模型。将待识别的语音信息输入该模型中,经过该模型的处理,可得到较清晰的语音识别结果。
举例来说,如果待识别的语音信息是“我今天出门了”,使用该模型进行识别,可以清楚的得到输出结果“我今天出门了”。即,使用该语音识别模型进行语音识别可以得到较高准确性和可靠性的识别结果。
或者,待处理的源数据是欲进行翻译的文字,对应的神经网络模型为文本翻译模型,将待翻译的文字输入到文本翻译模型中,经过模型的处理,可以得到较为准确的翻译结果。
需要说明的是,上述使用场景只是对本申请实施例的一个说明,不能作为对本申请实施例使用场景的限定。
本申请实施例中,通过获取待处理的源数据,将源数据输入到神经网络模型中,即可得到源数据对应的目标数据。即经过该神经网络模型的处理,既能快速得到目标数据,又极大地提高了输出的目标数据的准确性和可靠性。
为了实现上述实施例,本申请实施例还提出一种神经网络模型的训练装置,其中,所述神经网络模型中包括共享模型参数的网络层。图6为本申请实施例提供的一种神经网络模型的训练装置的结构示意图。
如图6所示,该神经网络模型的训练装置600包括:第一获取模块610、第一确定模块620、第二确定模块630。
其中,第一获取模块610,用于获取训练样本集。
第一确定模块620,用于根据所述训练样本集对所述神经网络模型进行前向训练,以确定损失函数值。
第二确定模块630,用于根据所述损失函数值,对所述神经网络模型中的模型参数进行逐层反向传播修正,在确定第i个网络层的模型参数的情况下,对与其共享模型参数的第j个网络层的模型参数进行同步更新,直至确定所述神经网络模型各个网络层的模型参数。
需要说明的是,前述神经网络模型的训练方法实施例的解释说明,也适用于该实施例的神经网络模型的训练装置,故在此不再赘述。
本申请实施例的神经网络模型的训练装置,通过获取到的训练样本集对神经网络模型进行训练,以确定损失函数值,之后在由损失函数值对神经网络模型进行反向传播修正的过程中,若已确定好第i层的模型参数时,可直接将该模型参数作为与第i层共享模型参数的第j层的修正后的模型参数,简化了模型的训练过程,使得模型参数的更新更加准确、合理,避免了误差累积,提高了模型参数的准确性,同时也提高了模型的训练速度。
本申请实施例还提出一种基于神经网络模型的数据处理装置。图7为本申请实施提供的一种基于神经网络模型的数据处理装置的结构示意图。
如图7所示,该基于神经网络模型的数据处理装置700包括:第二获取模块710和第三确定模块720。
其中,第二获取模块710,用于获取待处理的源数据。
第三确定模块720,用于将所述源数据,输入神经网络模型,以获取所述源数据对应的目标数据。
需要说明的是,前述基于神经网络模型的数据处理方法实施例的解释说明,也适用于该实施例的基于神经网络模型的数据处理装置,故在此不再赘述。
本申请实施例中,通过获取待处理的源数据,将源数据输入到神经网络模型中,即可得到源数据对应的目标数据。即经过该神经网络模型的处理,既能快速得到目标数据,又极大地提高了输出的目标数据的准确性和可靠性。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图8所示,是根据本申请实施例的神经网络模型的训练方法或者本申请实施例的基于神经网络模型的数据处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的神经网络模型的训练方法或者本申请所提供的基于神经网络模型的数据处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的神经网络模型的训练方法或者本申请所提供的基于神经网络模型的数据处理方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的神经网络模型的训练方法或者基于神经网络模型的数据处理方法对应的程序指令/模块(例如,附图6所示的第一获取模块610、第一确定模块620及第二确定模块630)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的神经网络模型的训练方法或者基于神经网络模型的数据处理方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据神经网络模型的训练或者基于神经网络模型的数据处理电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至神经网络模型的训练方法或者基于神经网络模型的数据处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
神经网络模型的训练方法或者基于神经网络模型的数据处理方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与神经网络模型的训练方法或者基于神经网络模型的数据处理方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS(VirtualPrivate Server,虚拟专用服务器)服务中,存在的管理难度大,业务扩展性弱的缺陷。
根据本申请实施例的技术方案,通过获取到的训练样本集对神经网络模型进行训练,以确定损失函数值,之后在由损失函数值对神经网络模型进行反向传播修正的过程中,若已确定好第i层的模型参数时,可直接将该模型参数作为与第i层共享模型参数的第j层的修正后的模型参数,简化了模型的训练过程,使得模型参数的更新更加准确、合理,避免了误差累积,提高了模型参数的准确性,同时低层参数也不需要经过层层传递才能获得更新,缓解了模型梯度爆炸的发生,提高了模型的训练速度。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (11)

1.一种神经网络模型的训练方法,其中,所述神经网络模型中包括共享模型参数的网络层,所述训练方法包括:
获取训练样本集;
基于所述训练样本集对所述神经网络模型进行前向训练,以确定损失函数值;
根据所述损失函数值,对所述神经网络模型中的模型参数进行逐层反向传播修正,在确定第i个网络层的模型参数的情况下,对与其共享模型参数的第j个网络层的模型参数进行同步更新,直至确定所述神经网络模型各个网络层的模型参数,其中,第i个网络层与模型的输出层间的距离,小于第j个网络层与所述模型的输出层间的距离,i和j分别为正整数。
2.如权利要求1所述的方法,其中,所述共享模型参数的网络层在所述神经网络模型中对称分布。
3.如权利要求1所述的方法,其中,所述共享模型参数的网络层分别位于不同的模型块中、且各个模型块间共享模型参数,其中,模型块间共享的模型参数为至少两个网络层对应的至少两组模型参数。
4.如权利要求3所述的方法,其中,每个模型块的输入信号包括:相邻的前一网络层的输出信号和所述神经网络的输入信号。
5.如权利要求3或4所述的方法,其中,与同一组模型参数对应的各个网络层在所述各个模型块中的位置相同。
6.如权利要求3或4所述的方法,其中,所述各个模型块中的第K个模型块与所述模型的输出层间的距离最小,第L个模型块与所述模型的输入层间的距离最小,所述第K个模型块中的输出层与所述第L个模型块中的输入层间共享模型参数,所述第K个模型块中的输入层与所述第L个模型块中的输出层间共享模型参数,其中,K和L分别为正整数。
7.一种基于神经网络模型的数据处理方法,包括:
获取待处理的源数据;
将所述源数据,输入神经网络模型,以获取所述源数据对应的目标数据,其中,所述神经网络模型由如权利要求1-6任一所述的训练方法生成。
8.一种神经网络模型的训练装置,其中,所述神经网络模型中包括共享模型参数的网络层,所述训练装置包括:
第一获取模块,用于获取训练样本集;
第一确定模块,用于根据所述训练样本集对所述神经网络模型进行前向训练,以确定损失函数值;
第二确定模块,用于根据所述损失函数值,对所述神经网络模型中的模型参数进行逐层反向传播修正,在确定第i个网络层的模型参数的情况下,对与其共享模型参数的第j个网络层的模型参数进行同步更新,直至确定所述神经网络模型各个网络层的模型参数。
9.一种基于神经网络模型的数据处理装置,包括:
第二获取模块,用于获取待处理的源数据;
第三确定模块,用于将所述源数据,输入神经网络模型,以获取所述源数据对应的目标数据,其中,所述神经网络模型由如权利要求1-6任一所述的训练方法生成。
10.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6中任一项所述的神经网络模型的训练方法、或者执行如权利要求7所述的基于神经网络模型的数据处理方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的神经网络模型的训练方法、或者执行如权利要求7所述的基于神经网络模型的数据处理方法。
CN202011439351.4A 2020-12-07 2020-12-07 神经网络模型的训练方法、装置、电子设备和存储介质 Pending CN112561056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011439351.4A CN112561056A (zh) 2020-12-07 2020-12-07 神经网络模型的训练方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011439351.4A CN112561056A (zh) 2020-12-07 2020-12-07 神经网络模型的训练方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN112561056A true CN112561056A (zh) 2021-03-26

Family

ID=75060598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011439351.4A Pending CN112561056A (zh) 2020-12-07 2020-12-07 神经网络模型的训练方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112561056A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762502A (zh) * 2021-04-22 2021-12-07 腾讯科技(深圳)有限公司 神经网络模型的训练方法及装置
CN113836438A (zh) * 2021-09-14 2021-12-24 上海任意门科技有限公司 用于帖子推荐的方法、电子设备和存储介质
CN114860405A (zh) * 2022-05-17 2022-08-05 北京百度网讯科技有限公司 多任务模型的参数更新方法、装置和存储介质
CN115223015A (zh) * 2022-09-16 2022-10-21 小米汽车科技有限公司 模型训练方法、图像处理方法、装置和车辆

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170116520A1 (en) * 2015-10-23 2017-04-27 Nec Laboratories America, Inc. Memory Efficient Scalable Deep Learning with Model Parallelization
US20170169326A1 (en) * 2015-12-11 2017-06-15 Baidu Usa Llc Systems and methods for a multi-core optimized recurrent neural network
CN107730002A (zh) * 2017-10-13 2018-02-23 国网湖南省电力公司 一种通信网关机遥控参数智能模糊比对方法
CN108022587A (zh) * 2017-12-15 2018-05-11 深圳市声扬科技有限公司 语音识别方法、装置、计算机设备和存储介质
CN109784194A (zh) * 2018-12-20 2019-05-21 上海图森未来人工智能科技有限公司 目标检测网络构建方法和训练方法、目标检测方法
CN110188358A (zh) * 2019-05-31 2019-08-30 北京神州泰岳软件股份有限公司 自然语言处理模型的训练方法及装置
CN111813532A (zh) * 2020-09-04 2020-10-23 腾讯科技(深圳)有限公司 一种基于多任务机器学习模型的图像管理方法及装置
CN111816160A (zh) * 2020-07-28 2020-10-23 苏州思必驰信息科技有限公司 普通话和粤语混合语音识别模型训练方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170116520A1 (en) * 2015-10-23 2017-04-27 Nec Laboratories America, Inc. Memory Efficient Scalable Deep Learning with Model Parallelization
US20170169326A1 (en) * 2015-12-11 2017-06-15 Baidu Usa Llc Systems and methods for a multi-core optimized recurrent neural network
CN107730002A (zh) * 2017-10-13 2018-02-23 国网湖南省电力公司 一种通信网关机遥控参数智能模糊比对方法
CN108022587A (zh) * 2017-12-15 2018-05-11 深圳市声扬科技有限公司 语音识别方法、装置、计算机设备和存储介质
CN109784194A (zh) * 2018-12-20 2019-05-21 上海图森未来人工智能科技有限公司 目标检测网络构建方法和训练方法、目标检测方法
CN110188358A (zh) * 2019-05-31 2019-08-30 北京神州泰岳软件股份有限公司 自然语言处理模型的训练方法及装置
CN111816160A (zh) * 2020-07-28 2020-10-23 苏州思必驰信息科技有限公司 普通话和粤语混合语音识别模型训练方法及系统
CN111813532A (zh) * 2020-09-04 2020-10-23 腾讯科技(深圳)有限公司 一种基于多任务机器学习模型的图像管理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAWEI DAI等: "Parameters Sharing in Residual Neural Networks", 《NEURAL PROCESSING LETTERS 》, pages 1 *
舒红乔;洪缨;刘岩;: "基于参数共享的卷积神经网络压缩", 网络新媒体技术, no. 01 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762502A (zh) * 2021-04-22 2021-12-07 腾讯科技(深圳)有限公司 神经网络模型的训练方法及装置
CN113762502B (zh) * 2021-04-22 2023-09-19 腾讯科技(深圳)有限公司 神经网络模型的训练方法及装置
CN113836438A (zh) * 2021-09-14 2021-12-24 上海任意门科技有限公司 用于帖子推荐的方法、电子设备和存储介质
CN113836438B (zh) * 2021-09-14 2022-09-02 上海任意门科技有限公司 用于帖子推荐的方法、电子设备和存储介质
CN114860405A (zh) * 2022-05-17 2022-08-05 北京百度网讯科技有限公司 多任务模型的参数更新方法、装置和存储介质
CN115223015A (zh) * 2022-09-16 2022-10-21 小米汽车科技有限公司 模型训练方法、图像处理方法、装置和车辆

Similar Documents

Publication Publication Date Title
CN111639710A (zh) 图像识别模型训练方法、装置、设备以及存储介质
CN112561056A (zh) 神经网络模型的训练方法、装置、电子设备和存储介质
CN110795569B (zh) 知识图谱的向量表示生成方法、装置及设备
CN111931591B (zh) 用于构建关键点学习模型的方法、装置、电子设备及可读存储介质
CN111539227B (zh) 训练语义表示模型的方法、装置、设备和计算机存储介质
CN111523596A (zh) 目标识别模型训练方法、装置、设备以及存储介质
CN112001180A (zh) 多模态预训练模型获取方法、装置、电子设备及存储介质
CN110427524B (zh) 知识图谱补全的方法、装置、电子设备及存储介质
CN112270711B (zh) 模型训练以及姿态预测方法、装置、设备以及存储介质
CN112347769A (zh) 实体识别模型的生成方法、装置、电子设备及存储介质
CN111783948A (zh) 模型训练方法、装置、电子设备以及存储介质
CN111861955A (zh) 构建图像编辑模型的方法以及装置
CN111753761B (zh) 模型生成方法、装置、电子设备及存储介质
CN111079945A (zh) 端到端模型的训练方法及装置
CN111767833A (zh) 模型生成方法、装置、电子设备及存储介质
CN112580822A (zh) 机器学习模型的对抗训练方法装置、电子设备和介质
CN112149634A (zh) 图像生成器的训练方法、装置、设备以及存储介质
CN111241838A (zh) 文本实体的语义关系处理方法、装置及设备
CN111914994A (zh) 多层感知机的生成方法、装置、电子设备及存储介质
CN112215243A (zh) 图像特征提取方法、装置、设备及存储介质
CN112508004A (zh) 一种文字识别方法、装置、电子设备及存储介质
CN111967591A (zh) 神经网络自动剪枝方法、装置及电子设备
CN110909136A (zh) 满意度预估模型的训练方法、装置、电子设备及存储介质
CN112232089B (zh) 语义表示模型的预训练方法、设备和存储介质
CN112329453B (zh) 样本章节的生成方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination