CN109886402B

CN109886402B - 深度学习模型训练方法、装置、计算机设备及存储介质

Info

Publication number: CN109886402B
Application number: CN201910023779.1A
Authority: CN
Inventors: 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-10
Filing date: 2019-01-10
Publication date: 2024-05-14
Anticipated expiration: 2039-01-10
Also published as: WO2020143303A1; CN109886402A

Abstract

本发明实施例公开了一种深度学习模型训练方法、装置、计算机设备及存储介质。其中，该方法属于人工智能技术，该方法包括：将输入样本集合输入到待训练深度学习模型的输入层，并将输入层的输出结果作为待调整样本集合；对待调整样本集合进行非线性激活处理以得到激活样本集合；对激活样本集合进行批标准化处理以得到标准样本集合；将待训练深度学习模型的下一层作为目标层，并将标准样本集合输入到所述目标层中；将目标层的输出结果作为新的待调整样本集合，并继续对待调整样本集合进行非线性激活处理以得到激活样本集合，从而批标准化处理直接作用于深度学习模型的下一层结构，获得了对下一层结构更好的控制，提高了训练效果。

Description

深度学习模型训练方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种深度学习模型训练方法、装置、计算机设备及存储介质。

背景技术

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本等数据。

深度学习模型，例如，卷积神经网络(Convolutional Neural Network，CNN)需经大量数据训练后才能实际使用。在深度学习模型的训练过程中，大多选择用批标准化(Batch Normalization，BN)的方法对深度学习模型的各层进行处理，使得网络在每一层传递的过程中样本的差异性有所降低，然而现有的处理方法对下一层网络的控制不够，导致深度学习模型的训练效果不佳。

发明内容

本发明实施例提供了一种深度学习模型训练方法、装置、计算机设备及存储介质，旨在提高深度学习模型的训练效果。

第一方面，本发明实施例提供了一种深度学习模型训练方法，其包括：

将输入样本集合输入到待训练深度学习模型的输入层，并将所述输入层的输出结果作为待调整样本集合；

对所述待调整样本集合进行非线性激活处理以得到激活样本集合；

对所述激活样本集合进行批标准化处理以得到标准样本集合；

将所述待训练深度学习模型的下一层作为目标层，并将所述标准样本集合输入到所述目标层中；

将所述目标层的输出结果作为新的待调整样本集合，并返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤。

第二方面，本发明实施例还提供了一种深度学习模型训练装置，其包括：

第一输入单元，用于将输入样本集合输入到待训练深度学习模型的输入层，并将所述输入层的输出结果作为待调整样本集合；

第一激活单元，用于对所述待调整样本集合进行非线性激活处理以得到激活样本集合；

第一批标准化单元，用户对所述激活样本集合进行批标准化处理以得到标准样本集合；

第二输入单元，用于将所述待训练深度学习模型的下一层作为目标层，并将所述标准样本集合输入到所述目标层中；

通知单元，用于将所述目标层的输出结果作为新的待调整样本集合，并通知激活单元返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现上述方法。

本发明实施例提供了一种深度学习模型训练方法、装置、计算机设备及存储介质。其中，所述方法包括：将输入样本集合输入到待训练深度学习模型的输入层，并将所述输入层的输出结果作为待调整样本集合；对所述待调整样本集合进行非线性激活处理以得到激活样本集合；对所述激活样本集合进行批标准化处理以得到标准样本集合；将所述待训练深度学习模型的下一层作为目标层，并将所述标准样本集合输入到所述目标层中；将所述目标层的输出结果作为新的待调整样本集合，并返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤。本发明实施例中，通过将批标准化处理调整到非线性激活处理之后(非线性激活处理会提高样本的差异性)，从而批标准化处理直接作用于深度学习模型的下一层结构，能够获得对于下一层结构更好的控制，提高了对待训练深度学习模型的训练效果。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种深度学习模型训练方法的流程示意图；

图2为本发明实施例提供的一种深度学习模型训练方法的子流程示意图；

图3为本发明实施例提供的一种深度学习模型训练方法的子流程示意图；

图4为本发明另一实施例提供的一种深度学习模型训练方法的流程示意图；

图5为本发明实施例提供的一种深度学习模型训练方法的子流程示意图；

图6为本发明实施例提供的一种深度学习模型训练装置的示意性框图；

图7为本发明实施例提供的一种深度学习模型训练装置的第一激活单元单元的示意性框图；

图8为本发明实施例提供的一种深度学习模型训练装置的第一批标准化单元的示意性框图；

图9为本发明实施例提供的一种深度学习模型训练装置的第一批标准化单元的获取单元的示意性框图；

图10为本发明另一实施例提供的一种深度学习模型训练装置的示意性框图；

图11为本发明另一实施例提供的一种深度学习模型训练装置的第一分词单元的示意性框图；以及

图12为本发明实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

请参阅图1，图1是本发明实施例提供的一种深度学习模型训练方法的流程示意图。如图所示，该方法包括以下步骤S1-S5：

S1，将输入样本集合输入到待训练深度学习模型的输入层，并将所述输入层的输出结果作为待调整样本集合。

在本发明实施例中，通过输入样本集合来对待训练深度学习模型进行训练。待训练深度学习模型包括输入层、多个隐藏层以及输出层。

具体实施中，将输入样本集合输入到待训练深度学习模型的输入层，以对待训练深度学习模型的输入层进行训练。

在本发明实施例中，输入层输出结果时，将输入层的输出结果作为待调整样本集合，并对待调整样本集合进行调整后再输入到待训练深度学习模型的下一层中。

S2，对所述待调整样本集合进行非线性激活处理以得到激活样本集合。

具体实施中，对所述待调整样本集合进行非线性激活处理以得到激活样本集合。通过对所述待调整样本集合进行非线性激活处理能够提高待训练深度学习模型的非线性因素，提高待训练深度学习模型的表现力。

在一实施例中，以上步骤S4具体包括如下步骤：

通过预设的非线性激活函数对所述待调整样本集合进行非线性激活处理以得到激活样本集合。

需要说明的是，常用的非线性激活函数包括：Sigmoid函数、Tanh函数以及ReLU(Rectified Linear Unit，修正线性单元)函数，本发明对此不作具体限定。

S3，对所述激活样本集合进行批标准化处理以得到标准样本集合。

具体实施中，通过对所述激活样本集合进行批标准化处理以得到标准样本集合。批标准化处理能够降低样本在深度学习模型的各层传递过程中的差异性，从而提高了模型的训练效果。

在本发明实施例中，先对待调整样本集合进行非线性激活处理得到激活样本集合后，再对激活样本集合进行批标准化处理以得到标准样本集合。通过将批标准化处理调整到非线性激活处理之后(非线性激活处理会提高样本的差异性)，能够获得对于下一层网络更好的控制，从而提高了对待训练深度学习模型的训练效果。

在一实施例中，参见图2，以上步骤S3包括如下步骤S31-S32：

S31，获取所述激活样本集合中各样本的均值以及方差。

具体实施中，对激活样本集合进行批标准化处理需要用到激活样本集合中各样本的均值以及方差，为此首先计算激活样本集合中各样本的均值以及方差。

在一实施例中，参见图3，以上步骤S31具体包括如下步骤S311-S312：

S311，通过以下公式计算激活样本集合中各样本的均值μ。

具体实施中，通过以下公式计算激活样本集合中各样本的均值μ，其中，i为样本的序号，m为样本的数量，x_i为样本的值。

S312，通过以下公式计算激活样本集合中各样本的方差σ。

具体实施中，通过公式计算激活样本集合中各样本的方差σ。

其中，i为样本的序号，m为样本的数量，x_i为样本的值。

S32，根据预设的批标准化公式以及所述激活样本集合中各样本的均值以及方差对所述激活样本集合进行批处理化处理。

具体实施中，在获取了激活样本集合中各样本的均值以及方差后，根据预设的批标准化公式以及所述激活样本集合中各样本的均值以及方差对所述激活样本集合进行批处理化处理。

在本发明实施例中，批标准化公式为其中，在以上公式中，i为样本的序号，x_i为激活样本集合中的样本的数值，y_i为相应的标准样本集合中的样本的数值，μ为激活样本集合中各样本的均值，σ为激活样本集合中各样本的方差，m为激活样本集合中样本的数量，w、γ、β以及ε为待训练深度学习模型的参数，以上随机初始化生成，然后训练过程中通过迭代来更新这些参数。

S4，将所述待训练深度学习模型的下一层作为目标层，并将所述标准样本集合输入到所述目标层中。

具体实施中，将所述待训练深度学习模型的下一层作为目标层，并将所述标准样本集合输入到所述目标层中，以对所述目标层进行训练。

S5，将所述目标层的输出结果作为新的待调整样本集合，并返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤。

本发明的方案中，将目标层的输出结果作为新的待调整样本集合，并且返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤，然后再对激活样本集合进行批标准化处理以得到标准样本集合，之后再将待训练深度学习模型的下一层作为目标层，并将所述标准样本集合输入到所述目标层中，以对所述目标层进行训练。以此类推直到所述待训练深度学习模型输出结果。

通过以上方法，可实现对待训练深度学习模型的上一层的输出结果先后进行非线性激活处理以及批标准化处理后，再输入到待训练深度学习模型的下一层中，直到待训练深度学习模型的输出层时，直接输出结果。

本发明实施例中，通过将批标准化处理调整到非线性激活处理之后(非线性激活处理会提高样本的差异性)，从而批标准化处理直接作用于深度学习模型的下一层结构，能够获得对于下一层结构更好的控制，提高了对待训练深度学习模型的训练效果。

图4是本发明另一实施例提供的一种深度学习模型训练方法的流程示意图。如图4所示，本实施例的深度学习模型训练方法包括步骤S41-S47。其中步骤S43-S47与上述实施例中的步骤S1-S5类似，在此不再赘述。下面详细说明本实施例中所增加的步骤S41-S42。

S41，对训练文本进行分词处理以得到分词样本集合，其中，所述分词样本集合为对所述训练文本进行分词后得到的样本组成的集合。

在本实施例中，训练文本为预存在终端中的文本，可直接调用获取。

具体实施中，分词指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词是文本处理中的一个基础步骤。

通过对训练文本进行分词处理以得到分词样本集合，其中，分词样本集合为对所述训练文本进行分词后得到的样本(词语)组成的集合。

在一实施例中，在一实施例中，参见图5，以上步骤S41具体包括如下步骤S411-S412：

S411，通过预设的分词工具对训练文本进行分词处理以得到初始分词样本集合。

具体实施中，常用的分词工具为结巴分词工具。本实施例中，采用结巴分词工具对训练文本进行分词处理以得到初始分词样本集合。或者，在其他实施例中，可采用其他分词工具来对训练文本进行分词处理，本发明对此不作具体限定。

S412，将所述初始分词样本集合中的停止词去除以得到所述分词样本集合。

具体实施中，将所述初始分词样本集合中的停止词去除以得到分词样本集合。需要说明的是，停止词(stop word)，常为介词、副词或连词等。例如，"在"、"里面"、"也"、"的"、"它"、"为"等都为停止词。

S42，通过预设词向量工具对所述分词样本集合中的样本进行词向量训练以得到所述输入样本集合，其中，所述输入样本集合为所述分词样本集合中的样本的词向量组成的集合。

具体实施中，采用word2vec作为词向量工具，word2vec是一种自然语言处理工具，其作用就是将自然语言中的字词转为计算机可以理解的词向量。

传统的词向量容易受维数灾难的困扰，且任意两个词之间都是孤立的，不能体现词和词之间的关系，因此本实施例采用word2vec来得到词向量，其可通过计算向量之间的距离来体现词与词之间的相似性。

本实施例中，通过word2vec对分词样本集合中的样本进行词向量训练以得到各样本的词向量。将分词样本集合中个样本的词向量组合得到输入样本集合。

或者，在其他实施例中，可采用其他词向量工具对所述分词样本集合中的样本进行词向量训练，本发明对此不作具体限定。

图6是本发明实施例提供的一种深度学习模型训练装置60的示意性框图。如图6所示，对应于以上深度学习模型训练方法，本发明还提供一种深度学习模型训练装置60。该深度学习模型训练装置60包括用于执行上述深度学习模型训练方法的单元，该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地，请参阅图6，该深度学习模型训练装置60包括第一输入单元61、第一激活单元62、第一批标准化单元63、第二输入单元64以及通知单元65。

第一输入单元61，用于将输入样本集合输入到待训练深度学习模型的输入层，并将所述输入层的输出结果作为待调整样本集合；

第一激活单元62，用于对所述待调整样本集合进行非线性激活处理以得到激活样本集合；

第一批标准化单元63，用户对所述激活样本集合进行批标准化处理以得到标准样本集合；

第二输入单元64，用于将所述待训练深度学习模型的下一层作为目标层，并将所述标准样本集合输入到所述目标层中；

通知单元65，用于将所述目标层的输出结果作为新的待调整样本集合，并通知激活单元返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤。

在一实施例中，参见图7，第一激活单元62包括第二激活单元621。

第二激活单元621，用于通过预设的非线性激活函数对所述待调整样本集合进行非线性激活处理以得到激活样本集合。

在一实施例中，参见图8，第一批标准化单元63包括获取单元631以及第二批标准化单元632。

获取单元631，用于获取所述激活样本集合中各样本的均值以及方差；

第二批标准化单元632，用于根据预设的批标准化公式以及所述激活样本集合中各样本的均值以及方差对所述激活样本集合进行批处理化处理。

在一实施例中，参见图9，获取单元631包括第一计算单元6311以及第二计算单元6312。

第一计算单元6211，用于通过以下公式计算激活样本集合中各样本的均值μ；

第二计算单元6312，用于通过以下公式计算激活样本集合中各样本的方差σ；

其中，i为样本的序号，m为样本的数量，x_i为样本的值。

图10是本发明另一实施例提供的一种深度学习模型训练装置60的示意性框图。如图10所示，本实施例的深度学习模型训练装置60是上述实施例的基础上增加了第一分词单元66以及训练单元67。

第一分词单元66，用于对训练文本进行分词处理以得到分词样本集合，所述分词样本集合为对所述训练文本进行分词后得到的样本组成的集合；

训练单元67，用于通过预设词向量工具对所述分词样本集合中的样本进行词向量训练以得到所述输入样本集合，所述输入样本集合为所述分词样本集合中的样本的词向量组成的集合。

在一实施例中，参见图11，第一分词单元66包括第二分词单元661以及去除单元662。

第二分词单元661，用于通过预设的分词工具对训练文本进行分词处理以得到初始分词样本集合；

去除单元662，用于将所述初始分词样本集合中的停止词去除以得到所述分词样本集合。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述深度学习模型训练装置60和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述深度学习模型训练装置60可以实现为一种计算机程序的形式，该计算机程序可以在如图12所示的计算机设备上运行。

请参阅图12，图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是终端，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。

参阅图12，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行一种深度学习模型训练方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种深度学习模型训练方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

在一实施例中，处理器502在实现所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合步骤时，具体实现如下步骤：

在一实施例中，处理器502在实现所述对所述激活样本集合进行批标准化处理以得到标准样本集合步骤时，具体实现如下步骤：

获取所述激活样本集合中各样本的均值以及方差；

根据预设的批标准化公式以及所述激活样本集合中各样本的均值以及方差对所述激活样本集合进行批处理化处理。

在一实施例中，处理器502在实现所述获取所述激活样本集合中各样本的均值以及方差步骤时，具体实现如下步骤：

通过以下公式计算激活样本集合中各样本的均值μ；

通过以下公式计算激活样本集合中各样本的方差σ；

其中，i为样本的序号，m为样本的数量，x_i为样本的值。

在一实施例中，处理器502在实现所述将输入样本集合输入到待训练深度学习模型的输入层，并将所述输入层的输出结果作为待调整样本集合步骤之前，还实现如下步骤：

对训练文本进行分词处理以得到分词样本集合，所述分词样本集合为对所述训练文本进行分词后得到的样本组成的集合；

通过预设词向量工具对所述分词样本集合中的样本进行词向量训练以得到所述输入样本集合，所述输入样本集合为所述分词样本集合中的样本的词向量组成的集合。

在一实施例中，处理器502在实现所述对训练文本进行分词处理以得到分词样本集合步骤时，具体实现如下步骤：

通过预设的分词工具对训练文本进行分词处理以得到初始分词样本集合；

将所述初始分词样本集合中的停止词去除以得到所述分词样本集合。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述激活样本集合进行批标准化处理以得到标准样本集合步骤时，具体实现如下步骤：

获取所述激活样本集合中各样本的均值以及方差；

在一实施例中，所述处理器在执行所述计算机程序而实现所述获取所述激活样本集合中各样本的均值以及方差步骤时，具体实现如下步骤：

通过以下公式计算激活样本集合中各样本的均值μ；

通过以下公式计算激活样本集合中各样本的方差σ；

其中，i为样本的序号，m为样本的数量，x_i为样本的值。

在一实施例中，所述处理器在执行所述计算机程序而实现所述将输入样本集合输入到待训练深度学习模型的输入层，并将所述输入层的输出结果作为待调整样本集合步骤之前，还实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对训练文本进行分词处理以得到分词样本集合步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种深度学习模型训练方法，其特征在于，包括：

将所述目标层的输出结果作为新的待调整样本集合，并返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤；

述对所述激活样本集合进行批标准化处理以得到标准样本集合，包括：

获取所述激活样本集合中各样本的均值以及方差；

根据预设的批标准化公式以及所述激活样本集合中各样本的均值以及方差对所述激活样本集合进行批处理化处理；

所述将输入样本集合输入到待训练深度学习模型的输入层，并将所述输入层的输出结果作为待调整样本集合之前，所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取所述激活样本集合中各样本的均值以及方差，包括：

通过以下公式计算激活样本集合中各样本的均值μ；

通过以下公式计算激活样本集合中各样本的方差σ；

其中，i为样本的序号，m为样本的数量，xi为样本的值。

4.根据权利要求1所述的方法，其特征在于，所述对训练文本进行分词处理以得到分词样本集合，包括：

5.一种深度学习模型训练装置，其特征在于，包括：

通知单元，用于将所述目标层的输出结果作为新的待调整样本集合，并通知激活单元返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤；

所述第一批标准化单元包括：

获取单元，用于获取所述激活样本集合中各样本的均值以及方差；

第二批标准化单元，用于根据预设的批标准化公式以及所述激活样本集合中各样本的均值以及方差对所述激活样本集合进行批处理化处理；

第一分词单元，用于对训练文本进行分词处理以得到分词样本集合，所述分词样本集合为对所述训练文本进行分词后得到的样本组成的集合；

训练单元，用于通过预设词向量工具对所述分词样本集合中的样本进行词向量训练以得到所述输入样本集合，所述输入样本集合为所述分词样本集合中的样本的词向量组成的集合。

6.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现如权利要求1-4中任一项所述的方法。