CN112862096A

CN112862096A - 一种模型训练和数据处理方法、装置、设备及介质

Info

Publication number: CN112862096A
Application number: CN202110156185.5A
Authority: CN
Inventors: 唐浩雨
Original assignee: Bigo Technology Singapore Pte Ltd
Current assignee: Bigo Technology Singapore Pte Ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-05-28

Abstract

本发明公开了一种模型训练和数据处理方法、装置、设备及介质。在对深度学习模型的训练过程中，通过预设的执行条件，确定该次迭代的深度学习模型包含的网络层中的第一目标网络层，后续通过该次迭代的深度学习模型包含的每个第一目标网络层，获取任一样本数据的第二属性信息，基于样本数据的第二属性信息以及该样本数据对应的标签，只需对该次迭代的深度学习模型包含的每个第一目标网络层进行训练即可，从而减少对该次迭代的深度学习模型中需要进行参数调整的网络层的数量，缩短反向传播的路径，从而一定程度上避免了梯度消失的现象，并且使得训练的每个网络层所执行的功能趋于相同，训练完成的深度学习模型更具鲁棒性。

Description

一种模型训练和数据处理方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种模型训练和数据处理方法、装置、设备及介质。

背景技术

随着人工智能技术的发展，越来越多的领域采用模型实现一些较为复杂的功能。比如，在直播过程中，一般需要对数量繁杂的直播间主播的内容进行监管，包括图像和声音，对于声音的监管，其主要是对直播中主播说出的语音内容的监管，通过对主播的语音数据进行语音识别，将该语音数据转换成文字内容，基于该文字内容进行甄别，确定是否需要对该主播的直播间进行管制；对于图像的监管，其主要是对正在直播的视频数据的内容进行监管，通过对视频数据包含的视频帧所对应的图像进行内容识别，基于识别出的图像内容，确定是否需要对该主播的直播间进行管制。因此，模型的精度对其所实现的功能有着至关重要的作用。

现有技术中，为了提高模型的精度，一般会采用增大模型的深度，即增加模型的网络层，从而实现在一定的样本数据的情况下，尽可能的提高模型的精度。对于该种方法，由于其一般是通过反向传播的方法，调整模型中各参数的参数值的，对于一些超大的模型，即深度较高的模型，比如，超大的神经网络端到端语音识别模型，在反向传播到该模型中接近输入层的各个网络层时，极有可能会出现梯度消失的问题，从而无法对这些网络层进行训练，进而不利于模型的训练。

发明内容

本发明实施例提供了一种模型训练和数据处理方法、装置、设备及介质，用于解决现有在训练深度较高的模型时出现的梯度消失的现象，不利于模型的训练的问题。

本发明实施例提供了一种模型训练方法，所述方法包括：

对于每次迭代，确定该次迭代的深度学习模型所包含的每个网络层分别对应的随机值，并将随机值满足预设的执行条件的网络层确定为第一目标网络层；所述随机值为预设的随机范围内的任一数值；

针对样本集中的每个样本数据，通过所述深度学习模型包含的每个所述第一目标网络层，获取该样本数据的第二属性信息；所述每个样本数据均对应有标签，任一样本数据对应的标签用于标识该样本数据的第一属性信息；

基于所述每个样本数据的第一属性信息以及所述每个样本数据分别对应的标签，对所述深度学习模型包含的每个所述第一目标网络层进行训练。

本发明实施例提供了一种基于上述所述的方法训练得到的深度学习模型的数据处理方法，所述方法包括：

获取待处理数据；

通过目标深度学习模型，获取所述待处理数据的目标属性信息；其中，所述目标深度学习模型是基于预先训练完成的深度学习模型确定的。

本发明实施例提供了一种模型的训练装置，所述装置包括：

第一处理单元，用于对于每次迭代，确定该次迭代的深度学习模型所包含的每个网络层分别对应的随机值，并将随机值满足预设的执行条件的网络层确定为第一目标网络层；所述随机值为预设的随机范围内的任一数值；

第二处理单元，用于针对样本集中的每个样本数据，通过所述深度学习模型包含的每个所述第一目标网络层，获取该样本数据的第二属性信息；所述每个样本数据均对应有标签，任一样本数据对应的标签用于标识该样本数据的第一属性信息；

训练单元，用于基于所述每个样本数据的第一属性信息以及所述每个样本数据分别对应的标签，对所述深度学习模型包含的每个所述第一目标网络层进行训练。

本发明实施例提供了一种基于如上述所述的装置训练得到的深度学习模型的数据处理装置，所述装置包括：

获取模块，用于获取待处理数据；

处理模块，用于通过目标深度学习模型，获取所述待处理数据的目标属性信息；其中，所述目标深度学习模型是基于预先训练完成的深度学习模型确定的。

本发明实施例提供了一种电子设备，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述所述模型训练方法的步骤，或实现如上述所述数据处理方法的步骤。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述模型训练方法的步骤，或实现如上述所述数据处理方法的步骤。

在对深度学习模型的训练过程中，通过预设的执行条件，确定该次迭代的深度学习模型包含的网络层中的第一目标网络层，后续通过该次迭代的深度学习模型包含的每个第一目标网络层，获取任一样本数据的第二属性信息，基于样本数据的第二属性信息以及该样本数据对应的标签，只需对该次迭代的深度学习模型包含的每个第一目标网络层进行训练即可，从而减少对该次迭代的深度学习模型中需要进行参数调整的网络层的数量，缩短反向传播的路径，从而一定程度上避免了梯度消失的现象，并且使得训练的每个网络层所执行的功能趋于相同，训练完成的深度学习模型更具鲁棒性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种模型训练过程示意图；

图2为本发明实施例提供的具体的模型训练流程示意图；

图3为本发明实施例提供的一种模型结构示意图；

图4为本发明实施例提供的再一种具体的模型训练流程示意图；

图5为本发明实施例提供的一种数据处理过程示意图；

图6为本发明实施例提供的一种模型训练装置的结构示意图；

图7为本发明实施例提供的一种数据处理装置的结构示意图；

图8为本发明实施例提供的一种电子设备结构示意图；

图9为本发明实施例提供的再一种电子设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在一种可能的应用场景中，在直播过程中，为了维护良好的网络文明环境，一般需要对主播的语音数据的内容进行监管，而如果要获取主播的语音数据的内容，则可以在采集到主播的语音数据后，将该语音数据输入到预先训练的语音识别模型。通过该语音识别模型，获取该语音数据的语音识别结果。后续基于该语音识别结果，进行相应的处理，确定该语音识别结果中是否包含有预先配置的违规内容。因此，为了保证准确地对语音数据的内容进行监管，需要尽可能的提高语音识别模型的精度。

一般情况下，为了提高语音识别模型的精度，可以通过增加语音识别模型的深度，使得语音识别模型可以基于语音数据不同维度上的特征，更准确地确定该语音数据的语音识别结果。但增加语音识别模型的深度的同时，也会增加训练该语音识别模型的难度。因为，在训练语音识别模型的过程中，一般是基于每个语音样本的损失值，通过反向传播的方法，调整模型中各参数的参数值的，但由于语音识别模型的深度较深，导致反向传播到语音识别模型中接近输入层的各个网络层时，会出现梯度消失的问题，从而无法对这些网络层中的参数进行调整，进而获得精度较高的语音识别模型。

同样的，在直播过程中，为了保证网络环境的文明，还需要对主播在直播过程中的视频数据的内容进行监管。在采集到主播的视频数据后，将该视频数据所对应的图像输入到预先训练的违规识别模型。通过该违规识别模型，确定该图像是否违规。因此，为了保证准确地对视频数据的内容进行监管，需要尽可能的提高违规识别模型的精度。

同样的，为了提高违规识别模型的精度，可以通过增加违规识别模型的深度，使得违规识别模型可以基于图像不同维度上的特征，更准确地确定该图像是否存在违规内容。但增加违规识别模型的深度的同时，也会增加训练该违规识别模型的难度。因为，在训练违规识别模型的过程中，一般是基于每个图像样本的损失值，通过反向传播的方法，调整违规识别模型中各参数的参数值的，但由于违规识别模型的深度较深，导致反向传播到违规识别模型中接近输入层的各个网络层时，会出现梯度消失的问题，从而无法对这些网络层中的参数进行调整，进而获得精度较高的违规识别模型。

为了解决上述的问题，本发明实施例提供一种模型训练和数据处理方法、装置、设备及介质。在对深度学习模型的训练过程中，比如，语音识别模型的训练过程中，或，违规识别模型的训练过程中，通过预设的执行条件，确定该次迭代的深度学习模型包含的网络层中的第一目标网络层，后续通过该次迭代的深度学习模型包含的每个第一目标网络层，获取任一样本数据的第二属性信息，基于样本数据的第二属性信息以及该样本数据对应的标签，只需对该次迭代的深度学习模型包含的每个第一目标网络层进行训练即可，从而减少对该次迭代的深度学习模型中需要进行参数调整的网络层的数量，缩短反向传播的路径，从而一定程度上避免了梯度消失的现象，并且使得训练的每个网络层所执行的功能趋于相同，训练完成的深度学习模型更具鲁棒性。

需要说明的是，上述实施例中所举出的应用场景仅是为了方便说明所提出的示例性的场景，并不是对本发明实施例所提供的一种模型训练和数据处理方法、装置、设备及介质的应用场景的一种限定。本领域技术人员应当知道，本发明实施例所提供的一种模型训练和数据处理方法、装置、设备及介质可以应用到所有需要应用模型的应用场景中，比如，自然语言理解应用场景，目标识别应用场景，目标检测应用场景等。

实施例1：

图1为本发明实施例提供的一种模型训练过程示意图，该过程包括：

S101：对于每次迭代，确定该次迭代的深度学习模型所包含的每个网络层分别对应的随机值，并将随机值满足预设的执行条件的网络层确定为第一目标网络层；所述随机值为预设的随机范围内的任一数值。

S102：针对样本集中的每个样本数据，通过所述深度学习模型包含的每个所述第一目标网络层，获取该样本数据的第二属性信息；所述每个样本数据均对应有标签，任一样本数据对应的标签用于标识该样本数据的第一属性信息。

S103：基于所述每个样本数据的第一属性信息以及所述每个样本数据分别对应的标签，对所述深度学习模型包含的每个所述第一目标网络层进行训练。

本发明实施例提供的模型的训练方法应用于电子设备，该电子设备可以是智能设备，也可以是服务器。

在实际应用过程中，当需要通过模型实现某一功能时，一般需要预先对模型进行训练。为了训练该模型，预先收集有用于训练该模型的样本集，基于该样本集中的样本数据以及样本数据对应的标签，对待训练的深度学习模型进行训练。其中，样本数据对应的标签用于表示该样本数据的属性信息(为了方便说明，记为第一属性信息)。

比如，待训练的深度学习模型为原始语义识别模型，通过预先收集的样本集中的语音数据以及语音数据对应的标签，对原始语义识别模型进行训练，以对原始语义识别模型包含的各网络层中的参数的参数值进行调整。其中，语音数据对应的标签用于标识该语音数据对应的文本内容。

具体实施过程中，获取样本集中的任一样本数据，将该样本数据输入到待训练的深度学习模型。通过待训练的深度学习模型，获取样本数据的属性信息(为了方便说明，记为第二属性信息)。根据该第二属性信息以及该样本数据对应的标签，确定损失值。基于该损失值，对该待训练的深度学习模型进行训练，以调整待训练的深度学习模型包含的各网络层中参数的参数值。

由于样本集中包含有若干样本数据，针对每个样本数据，均执行上述的操作，直至达到收敛条件，则确定深度学习模型训练完成。

其中，满足预设的收敛条件可以为基于每个样本数据对应的损失值所确定的损失值和小于预设的收敛阈值，或对待训练的深度学习模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

具体实施中，在基于每个样本数据对应的损失值所确定的损失值和，对待训练的深度学习模型进行训练时，可以采用梯度下降算法，对深度学习模型各网络层中参数的梯度进行反向传播，从而对待训练的深度学习模型包含的各网络层中参数的参数值进行调整并更新。若待训练的深度学习模型的深度较高，即深度学习模型中包含有较多的网络层，在反向传播到该待训练的深度学习模型中接近输入层的各个网络层时，极有可能会出现梯度消失的问题，从而无法对这些网络层进行训练，进而不利于对该待训练的深度学习模型进行训练。基于此，在本发明实施例中，可以通过缩短反向传播的路径的方式避免梯度消失的问题，即通过减少反向传播过程中需要调整参数的网络层(为了方便描述，记为第一目标网络层)的方式避免梯度消失的问题。

为了确定第一目标网络层，在本发明实施例中，预设有执行要求。具体实施过程中，分别确定该待训练的深度学习模型所包含的每个网络层分别对应的随机值，判断每个网络层分别对应的随机值是否满足预设的执行条件。将随机值满足预设的执行条件的网络层确定为第一目标网络层。后续基于该待训练的深度学习模型中包含的每个第一目标网络层，获取样本数据的第二属性信息。基于获取到的第二属性信息以及样本数据对应的标签，对待训练的深度学习模型中包含的各第一目标网络层中的参数的参数值进行训练，即只对待训练的深度学习模型中包含的各第一目标网络层中的参数的参数值进行调整。

具体的，如何对深度学习模型包含的每个第一目标网络层进行训练，与上述对深度学习模型包含的每个网络层进行训练的过程类似，再次不做赘述。

在一种可能的实施方式中，确定随机值满足预设的执行条件的网络层，包括：

若网络层对应的随机值大于预设的阈值，则确定所述网络层为随机值满足预设的执行条件的网络层。

为了准确地确定第一目标网络层，在本发明实施例中，预设有阈值，并确定预设的执行条件为网络层对应的随机值大于预设的阈值。当分别确定每个网络层分别对应的随机值之后，判断每个网络层分别对应的随机值是否满足预设的执行条件，即判断网络层对应的随机值是否大于预设的阈值。若某一网络层对应的随机值大于预设的阈值，则确定该网络层为随机值满足预设的执行条件的网络层；若该网络层对应的随机值不大于预设的阈值，则确定该网络层不为随机值满足预设的执行条件的网络层，后续不再通过该网络层，获取第一目标网络层的第二属性信息。

为了实现对深度学习模型包含的每个网络层中的参数的参数值进行训练，在本发明实施例中，在对待训练的深度学习模型的每次迭代训练，即对于每次迭代，均需要取得该次迭代的深度学习模型所包含的每个网络层分别对应的随机值，确定该次迭代的深度学习模型所包含的每个网络层分别对应的随机值是否满足预设的执行条件，将随机值满足预设的执行条件的网络层确定为第一目标网络层。

其中，每次迭代过程中，每个网络层分别对应的随机值均是在预设的随机范围内确定的数值，每个网络层分别对应的随机值可以相同，也可以不同。

在一种可能的实施方式中，在进行深度学习模型训练时，可以把样本集中的样本数据分训练样本和测试样本，先基于训练样本对原始深度学习模型进行训练，再基于测试样本对上述已训练的深度学习模型的可靠程度进行验证。

实施例2：

下面通过具体的实施方式对本发明实施例提供的模型的训练方法进行详细的说明，图2为本发明实施例提供的具体的模型训练流程示意图，该流程包括：

针对原始深度学习模型训练的每次迭代，均执行以下步骤：

S201：确定该次迭代的深度学习模型所包含的每个网络层分别对应的随机值。

其中，任一网络层对应的随机值为预设的随机范围内的任一数值。

S202：判断某一网络层对应的随机值是否满足与预设的执行条件，若满足，则执行S203，否则，执行，S204。

S203：将该网络层确定为第一目标网络层，执行S205。

S204：获取下一网络层对应的随机值，执行S202。

由于该次迭代的深度学习模型包含有若干个网络层，针对每个网络层均执行上述的步骤，直至确定了该次迭代的深度学习模型包含的最后一个网络层对于的随机值是否满足预设的执行条件，则执行S205。

在一种可能的实施方式中，待训练的深度学习模型中主要包括编码网络、以及解码网络。

比如，图3为本发明实施例提供的一种模型结构示意图。在语音识别中，会采用端到端的声学深度神经网络进行语音识别，如编码解码网络(seq2seq)和它的各种改进网络，一般情况下会具有如图3的结构，其包括有编码网络，对齐(Connectionist TemporalClassification，CTC)算法，以及注意力解码(attention-decoder)网络。其中o_n为输入的语音数据，编码网络中的方块表征编码器(encoder)的深度神经网络，该编码网络输出隐含特征h_n。这个隐含特征可以作为对齐网络的输入，以计算CTC损失函数和文字y_n，亦可以作为注意力解码网络的输入，首先根据编码网络输出的所有h_n通过注意力解码网络中的注意力(attention)神经网络(如图3中H所在的方框所示)先计算出一个注意力权重(attentionweight)a_m,n，具体计算过程可通过如下公式确定：

其中，N表示输入的语音数据所包含的隐含特征总数量，h_1-N表示第1-N个隐含特征，a_m,n为第m时刻时第n个隐含特征所对应的注意力权重，S_m-1为注意力解码网络中的第m-1时刻的一个状态量。

然后根据每个隐含特征分别对应的权重值以及各个隐含特征h_n，对各隐含特征h_n进行更新，更新后的隐含特征为加权隐含特征c_n。具体的，通过如下公式根据每个隐含特征分别对应的权重值以及各个隐含特征h_n，对各隐含特征h_n进行更新：

其中，c_n为第n个加权隐含特征，即为更新后的隐含特征h_n，a_m,n为第m时刻时第n个隐含特征所对应的注意力权重，h_n表示第n个隐含特征。

加权隐含特征c_n结合注意力解码网络中解码器的状态量S_n计算出需要的文字y_n，同时更新状态量S_n：

y_n＝Generate(c_n,S_n-1)

S_n＝Recurrency(S_n-1,c_n,y_n)

公式中的Generate和Recurrency都是注意力解码网络中的一部分网络。通过Generate网络，基于第n-1个状态量S_n-1，以及第n个加权隐含特征c_n，计算出需要的文字y_n,通过Recurrency网络，基于第n-1个状态量S_n-1、第n个加权隐含特征c_n、以及计算出的第n个文字y_n，计算第n个状态量S_n-1。最后注意力解码网络中解码器计算出来的文字y_n，也用来计算注意力解码网络的损失函数。

已知反向传播是从输出端往输入端的各网络层进行反向传播，而在图3中存在两条反向传播的路径，即是第一条从注意力解码网络到编码网络，这条路径既可以训练注意力解码网络中各参数的参数值，又可以训练编码网络中各参数的参数值，第二条从CTC算法到编码网络，这条路径只训练编码网络。

由于CTC算法的损失函数本身缺少上下文建模能力，故此第二条路径只能帮助编码网络的快速收敛。如果需要模型达到高精度，还是要靠第一条路径对模型训练，即靠从注意力解码网络到编码网络的路径对模型训练，但是这条路径传播到编码网络的时候，由于传播的深度已经非常深了，很容易出现梯度消失的问题，从而使得对该深度学习模型的训练失效。因此，采用本发明实施例提供的模型训练方法，对该深度学习模型进行训练。

对于深度学习模型包含的第n个网络层，可以表征为：

h_n＝layer_n(h_n-1)

其中，h_n为第n个网络层输出的隐含特征，那么确定第一目标网络层可通过如下公式确定：

其中，probality p表示预设的阈值，如果第n个网络层对应的随机值大于预设的阈值，则将该网络层确定为第一目标网络层，否则，不将该网络层确定为第一目标网络层。

S205：获取样本集中的任一样本数据。

该样本数据对应有标签，该标签用于标识该样本数据的第一属性信息。

S206：通过该次迭代的深度学习模型包含的每个第一目标网络层，获取该样本数据的第二属性信息。

由于样本集中包含有若干个样本数据，针对每个样本数据，均执行上述S205～S206的步骤。

S207：基于每个样本数据的第一属性信息、以及每个样本数据分别对应的标签，对该次迭代的深度学习模型包含的每个第一目标网络层进行训练。

在获取样本数据的第二属性信息时，是通过该次迭代的深度学习模型中包含的第一目标网络层确定的，则后续对该次迭代的深度学习模型进行训练时，也可只对该次迭代的深度学习模型包含的每个第一目标网络层进行训练，通过如下公式表示只对该次迭代的深度学习模型包含的每个第一目标网络层进行训练。

h_n＝layer_n(h_n-1)(inference)

其中通过上述的步骤，可以将反向传播的路径缩短，极大程度上避免了梯度消失的问题，由于对模型中包含的每个网络层进行标准化，可以让每个网络层所能实现的功能趋同以及稳定，从而获取一个更鲁棒性的深度学习模型，也相当于对包含有每个第一目标网络层的深度学习模型进行的训练，为后续基于训练完成的深度学习模型，确定包含有任意数量的网络层的目标深度学习模型提供了可能性，有利于后续目标深度学习模型部署在其他电子设备上，减少部署模型所需的成本以及延时。

实施例3：

为了方便部署深度学习模型，在上述各实施例的基础上，在本发明实施例中，训练完成深度学习模型之后，所述方法还包括：

根据训练完成的深度学习模型包含的每个网络层，确定满足预设的筛选要求的预设数量的第二目标网络层；

根据所述深度学习模型中的每个网络层的执行顺序以及每个所述第二目标网络层，确定部署在数据处理设备上的目标深度学习模型并发送，以使所述数据处理设备通过所述目标深度学习模型进行数据处理。

在本发明实施例中，在获取到训练完成的深度学习模型之后，可以直接将该训练完成的深度学习模型部署在数据处理设备上，以便数据处理设备通过该深度学习模型进行数据处理。但为了保证深度学习模型的精度，一般训练完成的深度学习模型会非常的大，即包含有大量的参数量，在后续部署模型到进行数据处理设备上时，过大的模型的部署成本和延时都十分不乐观。因此，在本发明实施例中，预设有目标深度学习模型中所需的网络层的数量，并预设了筛选要求。当基于上述实施例获取到预先训练完成的深度学习模型之后，针对预先训练完成的深度学习模型中包含的每个网络层，确定该网络层是否满足预设的筛选要求。若确定该网络层满足预设的筛选要求，且当前获取的第二目标网络层的数量小于预设数量，则将该网络层也确定为第二目标网络层。

其中，可以在依次或随机确定了预先训练完成的深度学习模型中包含的每个网络层中，满足预设的筛选要求的所有网络层(为了方便描述，记为候选网络层)之后，从每个候选网络层中确定预设数量的第二目标网络层；也可以是依次或随机确定了预先训练完成的深度学习模型中包含的某一网络层满足预设的筛选要求后，便将该网络层确定为第二目标网络层，直至确定的第二目标网络层的数量小于预设数量。

需要说明的是，数据处理设备与进行模型训练的电子设备可以相同也可以不同，在此不做具体限定。

在一种可能的实施方式中，所述确定满足预设的筛选要求，包括：

确定按照预设的网络层间隔，从所述深度学习模型包含的每个网络层中筛选出的网络层满足所述筛选要求；和/或

根据所述深度学习模型包含的每个网络层，确定包含有所述预设数量的网络层的组合；通过该组合，分别确定验证集中的每个验证数据的第三属性信息；根据每个所述第三属性信息以及所述每个验证数据分别对应的验证标签，确定所述组合的识别精度；若确定所述识别精度满足预设的精度要求，则确定所述组合满足所述筛选要求，任一验证数据对应的验证标签用于表示该验证数据的第四属性信息。

在本发明实施例中，预设的筛选条件可以是直接通过预设的网络层间隔从深度学习模型包含的每个网络层中筛选，也可以是在确定了深度学习模型中包含有预设数量的网络层的每个组合的识别精度，基于每个组合的识别精度进行筛选的。

具体的，确定网络层是否满足预设的筛选条件，主要包括如下两种方式：

方式一、通过预设的网络层间隔，从预先训练完成的深度学习模型包含的每个网络层中筛选第二目标网络层。

具体实施过程中，先从预先训练完成的深度学习模型包含的每个网络层中，随机选取一个网络层作为第二目标网络层，然后按照预设的网络层间隔，在该深度学习模型包含的每个网络层中，从该第二目标网络层开始进行筛选，直到筛选出预设数量的第二目标网络层。

比如，预设的网络层间隔为α，即从训练完成的深度学习模型包含的每个网络层中，每跳过α个网络层便确定一个网络层为第二目标网络层，按照预设的网络层间隔，在该深度学习模型包含的每个网络层中，从该第二目标网络层开始进行筛选，可通过如下公式确定：

h_n＝layer_n(h_n-α)

其中，第二目标网络层输出的隐含特征h_n为与第n个网络层间隔α个网络层的网络层所输出的。

如果α＝2，训练完成的深度学习模型包含12个网络层，确定的第二目标网络层分别为1，3，5，7，9，11层，一共6层，根据确定的每个第二目标网络层确定目标深度学习模型，该目标深度学习模型的规模对比训练完成的深度学习模型减少了一半的深度。而如果α＝3，那么最后确定的目标深度学习模型的规模对比训练完成的深度学习模型减少了2/3。

方式二、为了尽可能的保证目标深度学习模型的精确度，在本发明实施例中，可以根据深度学习模型包含的每个网络层，确定包含有预设数量的网络层的组合。将识别精度较高的任一组合中包含的网络层确定为满足预设的筛选条件的网络层，进而将该组合中包含的网络层确定为第二目标网络层。

为了确定组合的识别精度，预先收集有验证集，以通过该验证集中包含的每个验证数据以及每个验证数据分别对应的验证标签，确定每个组合的识别精度。其中，任一验证数据对应的标签用于表示该验证数据的属性信息(为了方便描述，记为第四属性信息)。具体的，针对每个组合，通过该组合包含的每个网络层，分别确定验证集中的每个验证数据的属性信息(为了方便描述，记为第三属性信息)。确定了每个验证数据分别对应的第三属性信息以及每个验证数据分别对应的验证标签，确定该组合的识别精度。

在本发明实施例中，可以在确定了任一组合的识别精度之后，便判断该识别精度是否预设的精度要求，也可以在依次或随机确定了每个组合的识别精度之后，然后依次或随机确定每个组合的识别精度是否满足预设的精度要求。

在具体实施过程中，若确定任一组合的识别精度满足预设的精度要求，则确定该组合满足预设的筛选要求；若确定该组合的识别精度不满足预设的精度要求，则确定该组合不满足预设的筛选要求，获取下一组合的识别精度，并执行上述的步骤。

在一些可能的实施方式中，为了进一步保证可以确定目标深度学习模型，上述的方式一和方式二也可以结合使用，该预设的筛选条件可以包括上述的方式一和方式二，即预设的筛选条件包括直接通过预设的网络层间隔从深度学习模型包含的每个网络层中筛选，以及在确定了深度学习模型中包含有预设数量的网络层的每个组合的识别精度，基于每个组合的识别精度进行筛选的。当确定某一组合的识别精度满足上述任一方式中的筛选条件时，则将该组合包含的每个网络层确定为第二目标网络层。

在一种可能的实施方式中，所述确定所述识别精度满足预设的精度要求，包括：

若所述识别精度为所述深度学习模型对应的所有组合的识别精度中的最大值，则确定所述识别精度满足所述精度要求；和/或

若所述识别精度大于预设的精度阈值，则确定所述识别精度满足所述精度要求。

在本发明实施例中，该预设的精度要求可以是识别精度为深度学习模型对应的所有组合的识别精度中的最大值，和/或，识别精度大于预设的精度阈值。

具体实施过程中，确定任一组合的识别精度满足预设的精度要求，包括如下几种情况：

情况一、在本发明实施例中，获取到每个组合的识别精度之后，按照识别精度从大到小的顺序，将每个组合进行排序，将排在第一个的组合的识别精度满足预设的精度要求，即确定识别精度为每个组合的识别精度中的最大值时，则确定该识别精度满足预设的精度要求。

情况二、在本发明实施例中，预设有精度阈值。当获取到组合的识别精度之后，将该识别精度与预设的精度阈值进行比较。若确定该识别精度大于预设的精度阈值，则确定该识别精度满足预设的精度要求；若该识别精度不大于预设的精度阈值，则确定该识别精度不满足预设的精度要求。

其中，可以在获取到任一组合的识别精度之后，便确定该组合的识别精度是否大于预设的精度阈值，若确定该组合的识别精度大于预设的精度阈值，则确定该识别精度满足预设的精度要求，也可以是在确定了每个组合的识别精度之后，分别确定每个组合的识别精度是否大于预设的精度阈值，在确定了对应的识别精度大于预设的精度阈值的每个组合之后，从该确定的每个组合中，确定任一组合的识别精度满足预设的精度要求。

需要说明的是，在设置精度阈值时，可以根据场景的不同，设置不同的值。如果对目标深度学习模型的精度有严格的要求，则可以将该精度阈值设置的大一些；为了保证可以确定出对应的识别精度满足预设的精度要求的组合，进而确定出目标深度学习模型，则可以将该精度阈值设置的小一些。

在一种可能的实施方式中，也可以将上述的情况一和情况二进行结合，预设的精度要求可以同时包括上述情况一和情况二，即该预设的精度要求包括识别精度为深度学习模型对应的所有组合的识别精度中的最大值，和识别精度大于预设的精度阈值。当确定任一组合的识别精度满足上述任一种情况时，便确定该组合的识别精度满足预设的精度要求。

当基于上述的实施例确定了满足预设的筛选条件的第二目标网络层之后，按照每个第二目标网络层在深度学习模型中的执行顺序，对每个第二目标网络层进行相应的处理，确定目标深度学习模型。

在一种可能的实施方式中，根据所述深度学习模型中的每个网络层的执行顺序以及每个所述第二目标网络层，确定部署在数据处理设备上的目标深度学习模型，包括：

根据所述深度学习模型中的每个网络层的执行顺序，确定每个所述第二目标网络层对应的目标顺序；

按照目标顺序从前到后的顺序，将每个所述第二目标网络层依次连接；

将连接后的每个所述第二目标网络层所组成的网络确定为所述目标深度学习模型。

在本发明实施例中，根据深度学习模型中的每个网络层的执行顺序，可以分别确定每个第二目标网络层在深度学习模型中的目标顺序。按照目标顺序从前网络的顺序，将每个第二目标网络层排序。其中，排序在前的第二目标网络层的执行顺序早于排序在后的第二目标网络层的执行顺序。将排序后的每个网络层依次串行连接。将连接后的每个第二目标网络层所组成的网络确定为目标深度学习模型。

实施例4：

下面通过具体的实施方式对本发明提供的数据处理方法进行说明，图4为本发明实施例提供的再一种具体的模型训练流程示意图，以执行主体为服务器进行详细的说明，该流程包括：

S401：预先训练有深度学习模型。

具体的，第一服务器训练深度学习模型的过程已在上述实施例中进行描述，在此不再赘述。

S402：根据训练完成的深度学习模型包含的每个网络层，确定满足预设的筛选要求的预设数量的第二目标网络层。

其中，确定满足预设的筛选要求，包括：

确定按照预设的网络层间隔，从深度学习模型包含的每个网络层中筛选出的网络层满足筛选要求；和/或

根据深度学习模型包含的每个网络层，确定包含有预设数量的网络层的组合；通过该组合，分别确定验证集中的每个验证数据的第三属性信息；根据每个第三属性信息以及每个验证数据分别对应的验证标签，确定组合的识别精度；若确定识别精度满足预设的精度要求，则确定组合满足筛选要求，任一验证数据对应的验证标签用于表示该验证数据的第四属性信息。

S403：根据深度学习模型中的每个网络层的执行顺序，确定每个第二目标网络层对应的目标顺序。

S404：按照目标顺序从前到后的顺序，将每个第二目标网络层依次连接。

S405：将连接后的每个第二目标网络层所组成的网络确定为目标深度学习模型。

S406：将确定的目标学习模型发送至数据处理设备上。

实施例5：

本发明实施例提供了一种基于上述实施例中的方法训练得到的深度学习模型的数据处理方法，图5为本发明实施例提供的一种数据处理过程示意图，该过程包括：

S501：获取待处理数据。

S502：通过目标深度学习模型，获取所述待处理数据的目标属性信息；其中，所述目标深度学习模型是基于预先训练完成的深度学习模型确定的。

在本发明实施例提供的数据处理方法应用于电子设备，该电子设备可以为智能设备，也可以为服务器。该进行数据处理的电子设备与上述实施例中进行模型训练的电子设备可以相同，也可以不同。

由于模型训练的过程一般是离线的，进行模型训练的电子设备通过上述实施例中的方法训练模型，可以直接将训练完成的深度学习模型保存在进行数据处理的电子设备中，以便后续进行数据处理的电子设备，直接通过该训练完成的深度学习模型进行相应的处理，即将该预先训练完成的深度学习模型确定为目标深度学习模型。

在本发明实施例中，将输入到的目标深度学习模型进行处理的数据确定为待处理数据，该待处理数据可以为语音数据、文本内容、图像等数据。获取到该待处理数据之后，将该待处理数据输入到目标深度学习模型。通过该目标深度学习模型，进行相应的处理，即可获取该待处理数据的目标属性信息。

当获取到目标属性信息之后，可以根据该目标属性信息，生成该待处理数据对应的回复信息，也可以直接将该目标属性信息进行其他的处理。

实施例6：

图6为本发明实施例提供的一种模型训练装置的结构示意图，本发明实施例提供了一种模型训练装置，所述装置包括：

第一处理单元61，用于对于每次迭代，确定该次迭代的深度学习模型所包含的每个网络层分别对应的随机值，并将随机值满足预设的执行条件的网络层确定为第一目标网络层；所述随机值为预设的随机范围内的任一数值；

第二处理单元62，用于针对样本集中的每个样本数据，通过所述深度学习模型包含的每个所述第一目标网络层，获取该样本数据的第二属性信息；所述每个样本数据均对应有标签，任一样本数据对应的标签用于标识该样本数据的第一属性信息；

训练单元63，用于基于所述每个样本数据的第一属性信息以及所述每个样本数据分别对应的标签，对所述深度学习模型包含的每个所述第一目标网络层进行训练。

在一些可能的实施方式中，所述第一处理单元61，具体用于若网络层对应的随机值大于预设的阈值，则确定所述网络层为随机值满足预设的执行条件的网络层。

在一些可能的实施方式中，所述装置还包括：

确定单元，用于所述训练单元训练完成深度学习模型之后，根据训练完成的深度学习模型包含的每个网络层，确定满足预设的筛选要求的预设数量的第二目标网络层；根据所述深度学习模型中的每个网络层的执行顺序以及每个所述第二目标网络层，确定部署在数据处理设备上的目标深度学习模型，以使所述数据处理设备通过所述目标深度学习模型进行数据处理；

所述装置还包括：

发送单元，用于将所述目标深度学习模型发送。

在一些可能的实施方式中，所述确定单元，具体用于根据所述深度学习模型中的每个网络层的执行顺序，确定每个所述第二目标网络层对应的目标顺序；按照目标顺序从前到后的顺序，将每个所述第二目标网络层依次连接；将连接后的每个所述第二目标网络层所组成的网络确定为所述目标深度学习模型。

在一些可能的实施方式中，所述确定单元，具体用于确定按照预设的网络层间隔，从所述深度学习模型包含的每个网络层中筛选出的网络层满足所述筛选要求；和/或，根据所述深度学习模型包含的每个网络层，确定包含有所述预设数量的网络层的组合；通过该组合，分别确定验证集中的每个验证数据的第三属性信息；根据每个所述第三属性信息以及所述每个验证数据分别对应的验证标签，确定所述组合的识别精度；若确定所述识别精度满足预设的精度要求，则确定所述组合满足所述筛选要求，任一验证数据对应的验证标签用于表示该验证数据的第四属性信息。

在一些可能的实施方式中，所述确定单元，具体用于若所述识别精度为所述深度学习模型对应的所有组合的识别精度中的最大值，则确定所述识别精度满足所述精度要求；和/或，若所述识别精度大于预设的精度阈值，则确定所述识别精度满足所述精度要求。

实施例7：

图7为本发明实施例提供的一种数据处理装置的结构示意图，本发明实施例提供了一种基于上述实施例中模型训练装置训练得到的深度学习模型的数据处理装置，所述装置包括：

获取模块71，用于获取待处理数据；

处理模块72，用于通过目标深度学习模型，获取所述待处理数据的目标属性信息；其中，所述目标深度学习模型是基于预先训练完成的深度学习模型确定的。

实施例8：

图8为本发明实施例提供的一种电子设备结构示意图，该电子设备，包括：处理器81、通信接口82、存储器83和通信总线84，其中，处理器81，通信接口82，存储器83通过通信总线84完成相互间的通信；

所述存储器83中存储有计算机程序，当所述程序被所述处理器81执行时，使得所述处理器81执行如下步骤：

由于上述电子设备解决问题的原理与模型训练方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

实施例9：

图9为本发明实施例提供的再一种电子设备结构示意图，该电子设备，包括：处理器91、通信接口92、存储器93和通信总线94，其中，处理器91，通信接口92，存储器93通过通信总线94完成相互间的通信；

所述存储器93中存储有计算机程序，当所述程序被所述处理器91执行时，使得所述处理器91执行如下步骤：

获取待处理数据；

由于上述电子设备解决问题的原理与数据处理方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口92用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例10：

在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

由于计算机可读存储介质解决问题的原理与上述实施例中的模型训练方法相似，因此具体实施可以参见服务器的选择方法的实施。

实施例11：

获取待处理数据；

由于计算机可读存储介质解决问题的原理与上述实施例中的数据处理方法相似，因此具体实施可以参见服务器的选择方法的实施。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，确定随机值满足预设的执行条件的网络层，包括：

3.根据权利要求1所述的方法，其特征在于，训练完成深度学习模型之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述深度学习模型中的每个网络层的执行顺序以及每个所述第二目标网络层，确定部署在数据处理设备上的目标深度学习模型，包括：

5.根据权利要求3所述的方法，其特征在于，所述确定满足预设的筛选要求，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述识别精度满足预设的精度要求，包括：

7.一种基于权利要求1-6任一项所述的方法训练得到的深度学习模型的数据处理方法，所述方法包括：

获取待处理数据；

8.一种模型的训练装置，其特征在于，所述装置包括：

9.一种基于权利要求8所述的装置训练得到的深度学习模型的数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理数据；

10.一种电子设备，其特征在于，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-6中任一所述模型训练方法的步骤，或实现如权利要求7所述数据处理方法的步骤。

11.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述模型训练方法的步骤，或实现如权利要求7所述数据处理方法的步骤。