CN113537492A

CN113537492A - 模型训练及数据处理方法、装置、设备、介质、产品

Info

Publication number: CN113537492A
Application number: CN202110814687.2A
Authority: CN
Inventors: 胡峻毅; 刘闯; 叶雨桐; 陈诗昱
Original assignee: Glasssic Technology Chengdu Co ltd
Current assignee: Glasssic Technology Chengdu Co ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-10-22
Anticipated expiration: 2041-07-19
Also published as: CN113537492B

Abstract

本申请提供的模型训练及数据处理方法、装置、设备、介质、产品中，针对待训练的第一神经网络模型，模型训练设备在该模型的在损失函数中引入能量最小正则项，使得训练获得的第二神经网络模型中，位于同一层的卷积核之间满足正交性；由于同一卷积层的每一个卷积算子在两两正交时可以获得最好的训练效果，因此，训练获得的第二神经网络模型能够提高对目标数据的识别精度。

Description

模型训练及数据处理方法、装置、设备、介质、产品

技术领域

本申请涉及机器学习领域，具体而言，涉及一种模型训练及数据处理方法、装置、设备、介质、产品。

背景技术

随着神经网络理论不断研究，神经网络在模式识别、自动控制、信号处理、辅助决策、人工智能等众多研究领域取得了广泛的成功。

目前，在训练神经网络的过程中，为了减小测试误差与训练误差的差距过大所导致的过拟合，通常需要正则化方法(Regularization Method)，该方法的主要目的是通过正则项给模型进行一些修改以约束神经网络模型的参数调整范围，使其倾向于减小测试误差。

发明人研究发现，目前的正则化方法的约束效果过于普适性，难以使得神经网络模型训练出针对特定需求相适应的模型结构。

发明内容

为了克服现有技术中的至少一个不足，本申请的目的之一在于提供一种模型训练方法，应用于训练设备，所述训练设备配置有待训练的第一神经网络模型，所述方法包括：

获取训练样本；

将所述训练样本输入到所述第一神经网络模型；

根据所述第一神经网络模型处理所述训练样本的训练损失，迭代调整所述第一神经网络模型的模型参数，以得到满足收敛条件的第二神经网络模型，其中，所述训练损失依据所述第一神经网络模型的损失函数进行计算获得，所述损失函数包括能量最小正则项，所述能量最小正则项用于使得所述第二神经网络模型中同一层的卷积核之间满足正交性。

本申请的目的之二在于提供一种数据处理方法，应用于数据处理设备，所述数据处理设备配置有预先训练的第二神经网络模型，所述第二神经网络模型通过所述的模型训练方法进行训练获得，所述方法包括：

获取目标数据；

通过所述第二神经网络模型处理所述目标数据，获得所述目标数据的处理结果。

本申请的目的之三在于提供一种模型训练装置，应用于训练设备，所述训练设备配置有待训练的第一神经网络模型，所述模型训练装置包括：

第一获取模块，用于获取训练样本；

第一处理模块，用于将所述训练样本输入到所述第一神经网络模型；

所述第一处理模块，还用于根据所述第一神经网络模型处理所述训练样本的训练损失，迭代调整所述第一神经网络模型的模型参数，以得到满足收敛条件的第二神经网络模型，其中，所述训练损失依据所述第一神经网络模型的损失函数进行计算获得，所述损失函数包括能量最小正则项，所述能量最小正则项用于使得所述第二神经网络模型中同一层的卷积核之间满足正交性。

本申请的目的之三在于提供一种数据处理装置，应用于数据处理设备，所述数据处理设备配置有预先训练的第二神经网络模型，所述第二神经网络模型通过所述的模型训练方法进行训练获得，所述数据处理装置包括：

第二获取模块，用于获取目标数据；

第二处理模块，用于通过所述第二神经网络模型处理所述目标数据，获得所述目标数据的处理结果。

本申请的目的之四在于提供一种电子设备，所述电子设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述的模型训练方法或者所述的数据处理方法。

本申请的目的之五在于提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现所述的模型训练方法或者所述的数据处理方法。

本申请的目的之六在于提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时所述的模型训练方法或者所述的数据处理方法。

相对于现有技术而言，本申请具有以下有益效果：

本申请实施例提供的模型训练及数据处理方法、装置、设备、介质、产品中，针对待训练的第一神经网络模型，模型训练设备在该模型的在损失函数中引入能量最小正则项，使得训练获得的第二神经网络模型中，位于同一层的卷积核之间满足正交性；由于同一卷积层的每一个卷积算子在两两正交时可以获得最好的训练效果，因此，训练获得的第二神经网络模型能够提高对目标数据的识别精度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的模型训练方法的步骤流程示意图；

图2为本申请实施例提供的数据处理方法的步骤流程示意图；

图3为本申请实施例提供的模型训练装置的结构示意图；

图4为本申请实施例提供的数据处理装置的结构示意图；

图5为本申请实施例提供的电子设备的结构示意图。

图标：201A-第一获取模块；202A-第一处理模块；201B-第二获取模块；202B-第二处理模块；120-存储器；130-处理器；140-通信装置。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

相关技术中，在训练神经网络的过程中，为了减小测试误差与训练误差的差距过大所导致的过拟合，通常需要使用到正则化方法(Regularization Method)。其中，本实施例所指的过拟合，具体表现为训练后的神经网络模型在训练样本表现出很好的识别精度，但是，正是由于在训练样本表现出很好的识别精度，导致神经网络模型的泛化能力较差，继而在识别测试样本时，则难以达到与训练样本接近的识别精度。

目前常见的正则化方法包括有参数规范惩罚(Parameter Norm Penalties)，数据集增益(Dataset Augmentation)，多任务学习(Multi-task Learning)，稀疏表示(SparseRepresentations)，集成学习(Bagging and Ensemble)等方法。其中，正则化常常会增加一些模型的偏置，但同时会减少方差，好的正则化方法就是在能够显著减小方差的情况下又不显著地增加偏置。

下面以最为普适的参数规范惩罚方法为例进行示例性说明。所谓参数规范惩罚方法表示在误差函数中添加对于参数的惩罚项以减小神经网络的模型容量。具体表达式为：

式中，θ表示模型参数，X表示训练样本，y表示神经网络模型的输出结果；

表示引入正则项后的损失函数，j(θ；X，y)表示误差函数；Ω(θ)表示正则项；

为惩罚系数，表示正则项权重的超参数。其中，λ＝0时，正则项为零；因此，λ越大，则正则化的影响越大，继而正则化越明显。

参数规范惩罚方法中通常使用基于L₁范数与L₂范数的正则项：

1、L₁范数正则化：

2、L₂范数正则化：

然而，发明人研究发现，目前的正则化方法的约束效果过于普适性，难以使得神经网络模型训练出针对特定需求相适应的模型结构。

基于上述技术问题的发现，发明人经过创造性劳动提出下述技术方案以解决或者改善上述问题。需要注意的是，以上现有技术中的方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案，都应该是发明人在发明创造过程中对本申请做出的贡献，而不应当理解为本领域技术人员所公知的技术内容。

鉴于此，为了至少部分解决上述相关技术中的问题，本实施例提供一种应用于训练设备的模型训练方法，用于训练第一神经网络模型，得到满足预设收敛条件的第二神经网络模型，使得第二神经网络模型中位于同一层的卷积核之间满足正交性。

应理解的是，基于内积的卷积操作是卷积神经网络(Convolutional NeuralNetworks,CNN)中的核心组成部分,也是图像视觉中的关键组件。相关研究表明，同一卷积层的卷积核(又名卷积算子)之间两两正交时，可以获得最好的训练效果。因此，部署有第二神经网络模型的数据处理设备，能够提高对目标数据的识别精度。

需要说明的是，本实施例中为了便于描述，将待训练的神经网络模型称为第一神经网络模型；将待训练的神经网络模型进行训练，训练完成后的神经网络模型称为第二神经网络模型。

本实施例提供该模型训练方法的一种步骤流程图，下面结合图1对该方法的各步骤进行详细阐述。如图1所示，该模型训练方法包括：

步骤S101A，获取训练样本。

其中，在不同的应用场景下，训练样本的具体类型可以存在一定的差异。例如，在计算机视觉场景，该训练样本可以是图像样本；在自然语言场景，该训练样本可以是文本样本；在语音识别场景，该训练样本可以是语音样本。

并且，即使是同一场景下的不同子场景，训练样本之间同样存在一定的差异。以计算机视觉场景为例，由于计算机视觉场景具体包括图像分类、图像语义分割、图像检索、物体检测等应用，因此，本领域技术人员可以根据需要选择相应类型的样本图像。

步骤S102A，将训练样本输入到第一神经网络模型。

本实施例中的第一神经网络模型为卷积神经网络模型。例如，该第一神经网络模型，可以是，但不限于，LeNet、AlexNet、VGG、ResNet以及DenseNet等卷积神经网络模型。因此，本领域技术人员可以根据具体任务需求，选择相适应的网络模型，本实施例不对此做具体的限定。

步骤S103A，根据第一神经网络模型处理训练样本的训练损失，迭代调整第一神经网络模型的模型参数，以得到满足收敛条件的第二神经网络模型。

其中，训练损失依据第一神经网络模型的损失函数进行计算获得，损失函数包括能量最小正则项，能量最小正则项用于使得第二神经网络模型中同一层的卷积核之间满足正交性。

应理解的是，训练设备通过第一神经网络模型中的卷积核对输入的训练样本进行卷积操作，以提取训练样本中的特征信息。若位于同一层的两卷积核之间满足线性相关，则会导致这两个卷积核所提取的特征中存在相近的特征信息，因此，不利于取得满足训练要求的训练效果。而衡量两卷积之间不存在线性相关的极限条件为两卷积核之间满足正交性。

本实施例中所指的正交性，表示将两卷积核之间的参数进行向量相乘，所得到的结果为零。为了便于本领技术人员理解，下面提供一示例用于说明：位于同一层的两卷积核之间满足线性相关时，会导致这两个卷积核所提取的特征中存在相近的特征信息。示例性的，假定存在3*3的两卷积核，其中，卷积核A的参数为：

卷积核B的参数为：

由此可见，卷积核B与卷积核A之间存在线性相关，即相同位置处的参数，卷积核B是卷积核A的两倍。因此，当训练设备使用卷积核A与卷积核B对同一训练样本进行卷积处理时，所提取的特征同样存在线性相关，继而不利于取得满足训练要求的训练效果。

而本实施例中，针对待训练的第一神经网络模型，在该模型的在损失函数中引入能量最小正则项，使得训练获得的第二神经网络模型中，位于同一层的卷积核之间满足正交性；由于同一卷积层的每一个卷积算子在两两正交时可以获得最好的训练效果，因此，训练获得的第二神经网络模型能够提高对目标数据的识别精度。

作为一种可能的实现方式，本实施例中的损失函数Loss的表达式为：

Loss＝j(θ；X，y)+λΩ(W)

式中，j(θ；X，y)表示误差函数，Ω(W)表示能量最小正则项，λ表示惩罚系数，θ表示模型参数，X表示训练样本，y表示第一神经网络模型的输出结果，其中，Ω(W)的表达式为：

式中，

表示第一神经网络模型第i个卷积层的参数，L表示第一神经网络模型中卷积层的数量，N_i表示第i个卷积层中卷积核的个数，

的表达式为：

式中，N表示第i个卷积层中卷积核的数量，ω_i表示第i个卷积核的参数，ω_j表示第j个卷积核的参数，s＝1。

下面为本实施提供支撑能量最小正则项的相应数学理论：

本实施中第一神经网络模型的卷积操作对应的数学表达式可以表示为：

式中，W表示卷积核，x表示神经网络模型处理过程中的特征图，

表示卷积核对应的偏置项。

本实施例中第一神经网络模型包括有批归一化层，并且，将其中的卷积核进行了归一化处理。其中，相关研究表明，将卷积核进行归一化处理后，能够对模型的训练效果带来一定的提升。因此，假定有N个卷积核W_N，将每个卷积核的参数进行归一化处理后，其参数可以表示为：

式中，

表示

空间中的单位球面(即单位球面的半径为1)，x表示该单位超球面中的任意一点，w_N表示x中的第N个点；d表示卷积核的维度，例如，3*3的卷积核，d的值为9，5*5的卷积核，d的值为25。

为了尽可能地满足卷积核正交性参数约束条件,则需要{w₁，…，w_N}尽可能地在超球面上均匀分布。然而，发明人研究发现求解超球面上均匀分布是一个NP-Hard问题,即在可接受的时长内无法完成求解。

鉴于此，发明人引入了一物理概念近似的在数值上进行求解，即假定

表征一优良导体，{w₁，…，w_N}表征其表面的N个电子的位置，因此，电子之间在库伦力的作用下相互排斥，最终，所有电子的分布会达到一个理想的平衡状态。此时，整个优良导体系统的势能最小。因此，本实施例将d维系统的势能表示为：

本实施例的目标是arg min W_N E_d，记为

其中，当s＝0时，该问题转换为怀特问题(Whyte’s problem)；当s＝1时，该问题转换为汤逊问题(Thomson Problem)，当s→∞，该问题转换为唐姆斯问题(Tammes problem)。

此外，本实施例还考虑到第一神经网络模型的存在大量的神经元,计算该正则项的需要花费过多的时间，若训练过程中采用SGD(Stochastic Gradient Descent，随机梯度下降法)方法，则会存在训练样本的多个Mini-Batch。本实施例则只计算Mini-Batch出现的卷积核参数，将其近似为d维系统的最小势能。

进一步地，超球面上的能量最小化时的分布会趋近于球面上的均匀分布，实际上是一个传统的经典势能理论。下面以s与维度d之间的关系分别进行说明：

1、0<s<d；

2、s＝d；

3、s>d.

在传统的经典势能理论中，

所表征优良导体中的能量积分可以表示为：

式中，μ表示

上的概率测度，u与v分别表示

上的两个点。

当0<s<d时，依据经典势能理论中的结论：

此时，i_d(s,μ)是最小且唯一的，其中，

表示d维空间的Hausdorff测度，而经典势能理论中已经证明：

此时，

表面的电子是渐进一致均匀分布的。

当s≥d时，I_d(s,μ)为无穷大，同样，经典势能理论中已经证明：

此时，

表面的电子是渐进一致均匀分布的。式中，

Γ(·)表示高斯Gamma函数。

因此，本实施例通过Ω(W)替换Ω(θ)所表示的正则项，得到损失函数Loss。Ω(W)的表达式为：

本实施例还提供一种数据处理方法，应用于数据处理设备，数据处理设备配置有预先训练的第二神经网络模型。其中，该第二神经网络模型通过上述模型训练方法进行训练获得。如图2所示，该方法包括：

步骤S101B，获取目标数据。

正如前面提到的，训练样本会因应用场景的变化而变化，因此，在计算机视觉场景，该目标数据可以是待识别图像；在自然语言场景，该数据可以是待识别文本；在语音识别场景，该目标数据可以是待识别语音。

步骤S102B，通过第二神经网络模型处理目标数据，获得目标数据的处理结果。

由于该模型训练方法所训练的第二神经网络模型中，同一层的卷积核之间满足正交性，因此，部署有第二神经网络模型在对目标数据进行处理时，能够提高处理精度。

正如前面提到的，本实施例中的第一神经网络模型可以是，但不限于，LeNet、AlexNet、VGG、ResNet以及DenseNet等。本实施例选取Resnet模型进行人脸识别，将CIFAR-10，CIFAR-100以及ImageNet数据集作为目标数据对通过上述模型训练方法训练后的Resnet模型进行了验证，其结果如下表所示：

网络模型	CIFAR-10	CIFAR-100	ImageNet
				Resnet-18	5.95％	27.15％	32.95％
Resnet-18+能量最小正则项	5.71％	27.09％	32.50％
				Resenet-34	4.92％	26.17％	30.04％
Resenet-34+能量最小正则项	4.75％	26.03％	29.50％

由此可见，相较于未使用能量最小正则项进行训练的Resnet模型，使用了能量最小正则项进行训练的Resnet模型，能够降低人脸识别时的错误率。当然，不仅限于进行人脸识别，在进行车辆检测时，同样能够降低车辆检测时的错误率。

基于与模型训练方法相同的发明构思，本实施还提供一种模型训练装置。模型训练装置包括至少一个可以软件形式存储于存储器中的功能模块。如图3所示，从功能上划分，模型训练装置可以包括：

第一获取模块201A，用于获取训练样本。

在本实施例中，该第一获取模块201A用于实现图1中的步骤S101A，关于该第一获取模块201A的详细描述，可以参见步骤S101A的详细描述。

第一处理模块202A，用于将训练样本输入到第一神经网络模型；

第一处理模块202A，还用于根据第一神经网络模型处理训练样本的训练损失，迭代调整第一神经网络模型的模型参数，以得到满足收敛条件的第二神经网络模型，其中，训练损失依据第一神经网络模型的损失函数进行计算获得，损失函数包括能量最小正则项，能量最小正则项用于使得第二神经网络模型中同一层的卷积核之间满足正交性。

在本实施例中，该第一处理模块202A用于实现图1中的步骤S102A，关于该第一处理模块202A的详细描述，可以参见步骤S102A的详细描述。

可选地，第一处理模块202A通过损失函数Loss获得训练损失，其中，损失函数Loss的表达式为：

Loss＝j(θ；X，y)+λΩ(W)

式中，

表示第一神经网络模型第i层卷积层的参数，L表示第一神经网络模型中卷积层的数量，N_i表示第i个卷积层的神经元个数，

的表达式为：

值得说明的是，从功能上划分的角度，该模型训练装置还可以包括其他模块，用于实现模型训练方法的其他步骤或者子步骤。同理，上述第一获取模块201A以及第一处理模块202A，还可以用于实现模型训练方法的其他步骤或者子步骤。本领域技术人员可以根据不同的模块划分标准进行适应性调整，本实施例不对此做具体的限定。

基于与数据处理方法相同的发明构思，本实施还提供一种数据处理装置，应用于数据处理设备，数据处理设备配置有预先训练的第二神经网络模型，第二神经网络模型通过上述模型训练方法进行训练获得。

其中，数据处理装置包括至少一个可以软件形式存储于存储器中的功能模块。如图4所示，从功能上划分，数据处理装置可以包括：

第二获取模块201B，用于获取目标数据。

在本实施例中，该第二获取模块201B用于实现图2中的步骤S101B，关于第二获取模块201B的详细描述，可以参见步骤S101B的详细描述。

第二处理模块202B，用于通过第二神经网络模型处理目标数据，获得目标数据的处理结果。

在本实施例中，该第二处理模块202B用于实现图2中的步骤S102B，关于第二处理模块202B的详细描述，可以参见步骤S102B的详细描述。

值得说明的是，从功能上划分的角度，该数据处理还可以包括其他模块，用于实现数据处理方法的其他步骤或者子步骤。同理，上述第二获取模块201B以及第二处理模块202B，还可以用于实现模型训练方法的其他步骤或者子步骤。本领域技术人员可以根据不同的模块划分标准进行适应性调整，本实施例不对此做具体的限定。

本实施例还提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现上述模型训练方法或者上述数据处理方法。

本实施例还提供一种电子设备，电子设备包括处理器以及存储器，存储器存储有计算机程序。当该电子设备是上述模型训练设备时，计算机程序被处理器执行时，实现上述模型训练方法；当该电子设备是上述数据处理设备时，计算机程序被处理器执行时实现上述数据处理方法。

需要说明的是，本实施例中的训练设备与数据处理设备既可以是同一电子设备，也可以是不同的电子设备。本实施例对此同样不做具体的限定。

其中，本实施例中的电子设备在不同的场景下，可以是不同类型的设备。在一种可能的实现方式中，当该电子设备可以是服务器，例如，Web(网站)服务器、FTP(FileTransfer Protocol，文件传输协议)服务器、数据处理服务器等。

此外，该服务器可以是单个服务器，也可以是服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器可以是分布式系统)。在一些实施例中，服务器相对于用户终端，可以是本地的、也可以是远程的。在一些实施例中，服务器可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(Community Cloud)、分布式云、跨云(Inter-Cloud)、多云(Multi-Cloud)等，或者它们的任意组合。在一些实施例中，服务器可以在具有一个或多个组件的电子设备上实现。

在另外一种可能的实现方式中，当该电子设备可以是用户终端，例如，移动终端、平板计算机、膝上型计算机、或机动车辆中的内置设备等，或其任意组合。在一些实施例中，移动终端可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏设备、导航设备、或销售点(point of sale，POS)设备等，或其任意组合。

本实施例还提供该电子设备的一种结构示意图，如图5所示，该电子设备包括存储器120、处理器130、通信装置140。其中，该存储器120、处理器130以及通信装置140各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，该存储器120可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器120用于存储程序，该处理器130在接收到执行指令后，执行该程序。

该通信装置140用于通过网络收发数据。其中，网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、无线局域网(Wireless Local Area Networks，WLAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、公共电话交换网(Public Switched Telephone Network，PSTN)、蓝牙网络、ZigBee网络、或近场通信(NearField Communication，NFC)网络等，或其任意组合。在一些实施例中，网络可以包括一个或多个网络接入点。例如，网络可以包括有线或无线网络接入点，例如基站和/或网络交换节点，服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。

该处理器130可能是一种集成电路芯片，具有信号的处理能力，并且，该处理器可以包括一个或多个处理核(例如，单核处理器或多核处理器)。仅作为举例，上述处理器可以包括中央处理单元(Central Processing Unit，CPU)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor，ASIP)、图形处理单元(Graphics Processing Unit，GPU)、物理处理单元(Physics Processing Unit，PPU)、数字信号处理器(Digital SignalProcessor，DSP)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、可编程逻辑器件(Programmable Logic Device，PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing，RISC)、或微处理器等，或其任意组合。

综上所述，本申请实施例提供的模型训练及数据处理方法、装置、设备、介质、产品中，针对待训练的第一神经网络模型，模型训练设备在该模型的在损失函数中引入能量最小正则项，使得训练获得的第二神经网络模型中，位于同一层的卷积核之间满足正交性；由于同一卷积层的每一个卷积算子在两两正交时可以获得最好的训练效果，因此，训练获得的第二神经网络模型能够提高对目标数据的识别精度。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，应用于训练设备，所述训练设备配置有待训练的第一神经网络模型，所述方法包括：

获取训练样本；

将所述训练样本输入到所述第一神经网络模型；

2.根据权利要求1所述的模型训练方法，其特征在于，所述损失函数Loss的表达式为：

Loss＝j(θ，；X，y)+λΩ(W)

式中，j(θ，X，y)表示误差函数，Ω(W)表示所述能量最小正则项，λ表示惩罚系数，θ表示模型参数，X表示所述训练样本，y表示所述第一神经网络模型的输出结果，其中，Ω(W)的表达式为：

式中，

表示所述第一神经网络模型第i个卷积层的参数，L表示所述第一神经网络模型中卷积层的数量，N_i表示第i个卷积层中卷积核的个数，

的表达式为：

3.根据权利要求1所述的模型训练方法，其特征在于，所述第一神经网络模型包括批归一化层，所述第一神经网络模型中的卷积核进行了归一化处理。

4.一种数据处理方法，其特征在于，应用于数据处理设备，所述数据处理设备配置有预先训练的第二神经网络模型，所述第二神经网络模型通过权利要求1-3任意一项所述的模型训练方法进行训练获得，所述方法包括：

获取目标数据；

5.一种模型训练装置，其特征在于，应用于训练设备，所述训练设备配置有待训练的第一神经网络模型，所述模型训练装置包括：

第一获取模块，用于获取训练样本；

6.根据权利要求5所述的模型训练装置，其特征在于，所述第一处理模块通过损失函数Loss获得所述训练损失，其中，所述损失函数Loss的表达式为：

Loss＝j(θ；X，y)+λΩ(W)

式中，j(θ；X，y)表示误差函数，Ω(W)表示所述能量最小正则项，λ表示惩罚系数，θ表示模型参数，X表示所述训练样本，y表示所述第一神经网络模型的输出结果，其中，Ω(W)的表达式为：

式中，

表示所述第一神经网络模型第i层卷积层的参数，L表示所述第一神经网络模型中卷积层的数量，N_i表示第i个卷积层中卷积核的个数，

的表达式为：

7.一种数据处理装置，其特征在于，应用于数据处理设备，所述数据处理设备配置有预先训练的第二神经网络模型，所述第二神经网络模型通过权利要求1-3任意一项所述的模型训练方法进行训练获得，所述数据处理装置包括：

第二获取模块，用于获取目标数据；

8.一种电子设备，其特征在于，所述电子设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-3任意一项所述的模型训练方法或者权利要求4所述的数据处理方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-3任意一项所述的模型训练方法或者权利要求4所述的数据处理方法。

10.一种计算机程序产品，其特征在于，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1-3任意一项所述的模型训练方法或者权利要求4所述的数据处理方法。