CN110059804B

CN110059804B - 数据处理方法及装置

Info

Publication number: CN110059804B
Application number: CN201910299409.0A
Authority: CN
Inventors: 陈程鹏
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2021-10-08
Anticipated expiration: 2039-04-15
Also published as: CN110059804A

Abstract

本发明提供了数据处理方法及装置。数据处理方法包括：待搜索网络训练步骤，根据待搜索网络训练方法对所述待搜索网络进行训练，直到所述待搜索网络收敛，获得经训练的待搜索网络；其中，所述待搜索网络包括卷积神经网络；特定模型搜索步骤、特定模型训练步骤、以及数据处理步骤。其中，所述待搜索网络训练方法包括，网络损失获取步骤、中间层特征获取步骤、中间层特征匹配步骤、综合损失计算步骤及综合损失反馈步骤。本发明可以加速模型的训练并促进模型搜索。

Description

数据处理方法及装置

技术领域

本发明一般地涉及机器学习领域，更具体地，涉及数据处理方法及装置。

背景技术

近年来，深度学习实现端到端的的特征提取，相对于手工提取特征是一个巨大的进步，这使得计算机视觉、自然语言处理和语音识别等任务取得极大的进展；而往往一个更优秀的神经网络架构的出现意味着在各个任务上都能得到一定程度的性能提升。但是神经网络架构很依赖于人工设计，这即使对于一个经验丰富的机器学习从业者也是非常消耗时间和精力的。

因此，最近出现了一些模型搜索的方法，实现神经网络架构的自动化设计，代表机器学习的未来方向。在模型搜索的各种方法中，权值共享是一种比较节省计算资源的方法，如超构网络(SuperNet)和一次性网络(One-shot)等不可微分及DARTS和ProxylessNAS等可微分的模型搜索算法都采用这样方法，但这种方法存在的缺陷是：每一层网络的不同运算操作符可能输出具有不同分布的特征，这对于网络后续层的学习具有不利影响。

发明内容

为了解决现有技术中存在的上述问题，本发明实施例提供了数据处理方法及装置、电子设备和计算机可读存储介质。

第一方面，本发明实施例提供一种数据处理方法，其中，所述数据处理方法包括：待搜索网络训练步骤，根据待搜索网络训练方法对所述待搜索网络进行训练，直到所述待搜索网络收敛，获得经训练的待搜索网络；其中，所述待搜索网络包括卷积神经网络；特定模型搜索步骤，搜索所述经训练的待搜索网络，获得执行特定任务的特定模型；特定模型训练步骤，对所述特定模型进行训练，获取经训练的特定模型；数据处理步骤，将待处理图像输入至所述经训练的特定模型进行数据处理，得到数据处理结果；其中，所述待搜索网络训练方法包括：网络损失获取步骤，将训练样本分别输入待搜索网络和指导网络，根据待搜索网络和指导网络分别输出的处理结果，获取待搜索网络的网络损失，其中，待搜索网络包括一个或多个待搜索网络中间层，指导网络包括一个或多个指导网络中间层；中间层特征获取步骤，获取一个或多个待搜索网络中间层中至少一个待搜索网络中间层输出的待搜索中间层特征，并且获取一个或多个指导网络中间层中与至少一个待搜索网络中间层相对应的至少一个指导网络中间层输出的指导中间层特征；中间层特征匹配步骤，将待搜索中间层特征与指导中间层特征进行匹配，获得中间层特征匹配损失；综合损失计算步骤，根据网络损失和中间层特征匹配损失，计算待搜索网络的综合损失；综合损失反馈步骤，将综合损失反馈到待搜索网络，以便对待搜索网络进行训练。

在一例中，中间层特征匹配步骤包括：通过计算待搜索中间层特征与指导中间层特征的明氏距离、皮尔逊相关距离、马氏距离中的任一种来获得中间层特征匹配损失。

在一例中，综合损失计算步骤包括：将网络损失和中间层特征匹配损失进行加权组合得到综合损失。

第二方面，本发明实施例提供一种数据处理装置，该装置包括：待搜索网络训练模块，配置用于通过待搜索网络训练装置对待搜索网络进行训练，直到待搜索网络收敛，获得经训练的待搜索网络；其中，所述待搜索网络包括卷积神经网络；特定模型搜索模块，配置用于搜索经训练的待搜索网络，获得执行特定任务的特定模型；特定模型训练模块，配置用于对特定模型进行训练，获取经训练的特定模型；数据处理模块，配置用于将待处理图像输入至经训练的特定模型进行数据处理，得到数据处理结果。其中，所述待搜索网络训练装置包括：网络损失获取模块，配置用于将训练样本分别输入待搜索网络和指导网络，根据所述待搜索网络和所述指导网络分别输出的处理结果，获取所述待搜索网络的网络损失，其中，所述待搜索网络包括一个或多个待搜索网络中间层，所述指导网络包括一个或多个指导网络中间层；中间层特征获取模块，配置用于获取所述一个或多个待搜索网络中间层中至少一个待搜索网络中间层输出的待搜索中间层特征，并且获取所述一个或多个指导网络中间层中与所述至少一个待搜索网络中间层相对应的至少一个指导网络中间层输出的指导中间层特征；中间层特征匹配模块，配置用于将所述待搜索中间层特征与所述指导中间层特征进行匹配，获得中间层特征匹配损失；综合损失计算模块，配置用于根据所述网络损失和所述中间层特征匹配损失，计算所述待搜索网络的综合损失；综合损失反馈模块，配置用于将所述综合损失反馈到所述待搜索网络，以便对所述待搜索网络进行训练。

第三方面，本发明实施例提供一种电子设备，电子设备包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行上述任何方法。

第四方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上述任何方法。

本发明实施例提供的数据处理方法及装置、电子设备和计算机可读存储介质通过将整体网络的损失函数和中间层特征的匹配损失同时加到网络的训练过程中，应用了模型蒸馏方法，可以提高同一个网络层的不同运算操作符输出特征的相似性，加速模型的训练，并促进模型搜索得到更好的神经网络架构，有利于根据更好的神经网络架构得到更准确的数据处理结果。

附图说明

通过参考附图阅读下文的详细描述，本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示出了根据本发明的实施方式的待搜索网络训练方法的流程图；

图2示出了根据本发明的实施方式的数据处理方法的流程图；

图3示出了根据本发明的实施方式的待搜索网络训练装置的框图；

图4示出了根据本发明的实施方式的数据处理装置的框图；

图5根据本发明的实施方式的电子设备的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

如图1所示，本发明的一个实施方式提出了一种待搜索网络训练方法100。其中，待搜索网络可以包括卷积神经网络。方法100包括步骤S101-S105。本方法100可以应用于多种基于权值共享的模型搜索方法。

在一些实施方式中，在超构网络(SuperNet)和一次性网络(One-shot)等不可微分及DARTS和ProxylessNAS等可微分的模型搜索算法的基础上，增加一个指导网络(teachernetwork)来指导搜索模型的训练过程。在一些实施方式中，可以选取一个性能较好的指导网络，并固定其模型参数。在搜索模型的训练过程中，指导网络和搜索模型输入相同的数据。

S101是网络损失获取步骤，将训练样本分别输入待搜索网络和指导网络，根据待搜索网络和指导网络分别输出的处理结果，获取待搜索网络的网络损失，其中，待搜索网络包括一个或多个待搜索网络中间层，指导网络包括一个或多个指导网络中间层。

在一些实施方式中，训练样本可以包括对Cifar和ImageNet数据集进行划分而得到的训练集。

在一些实施方式中，由于指导网络性能较好，输出结果较准确，所以可以将指导网络输出的处理结果作为基准结果，将待搜索网络的输出结果与该基准结果进行比较，得到待搜索网络的网络损失。

在一些实施方式中，网络损失可以包括分类损失，例如交叉熵损失。

S102是中间层特征获取步骤，获取一个或多个待搜索网络中间层中至少一个待搜索网络中间层输出的待搜索中间层特征，并且获取一个或多个指导网络中间层中与至少一个待搜索网络中间层相对应的至少一个指导网络中间层输出的指导中间层特征。

S103是中间层特征匹配步骤，将待搜索中间层特征与指导中间层特征进行匹配，获得中间层特征匹配损失。

在一些实施方式中，如果待搜索中间层特征与指导中间层特征的特征维度不同，可以进行采样、压缩等操作，使得其特征维度相同。

S104是综合损失计算步骤，根据网络损失和中间层特征匹配损失，计算待搜索网络的综合损失。

S105是综合损失反馈步骤，将综合损失反馈到待搜索网络，以便对待搜索网络进行训练。

需要注意，虽然图1中示出为S101在S102、S103之前执行，但是本发明不限于此，S101也可以在S102、S103之后执行，或者并行执行，本发明在此方面不做限制。

本发明实施方式提供的待搜索网络训练方法100能够应用于如SuperNet和One-shot等不可微分及DARTS和ProxylessNAS等可微分的模型搜索方法，通过将整体网络的损失和中间层特征的匹配损失同时加到网络的训练过程中，对搜索模型进行端到端的训练，既能实现中间层特征的相似，又能实现后续分类的任务。从而达到对待搜索网络的指导学习作用。解决了针对模型搜索中基于权值共享的方法的同一个网络层的不同运算操作符输出特征分布不同的问题，应用了模型蒸馏方法，可以提高同一个网络层的不同运算操作符输出特征的相似性，使得特征更加趋同，加速模型的训练，并促进模型搜索得到更好的神经网络架构。

作为本发明的一个实施方式，中间层特征匹配步骤S103可以包括：通过计算待搜索中间层特征与指导中间层特征的明氏距离、皮尔逊相关距离、马氏距离中的任一种来获得中间层特征匹配损失。

作为示例，明氏距离(Minkowski Distance)也被称为Ls范数，其计算方式如下：

其中，L_feat表示中间层特征匹配损失，f₁表示指导网络的中间层特征，f₂表示待搜索网络的中间层特征，norm(*)表示特征归一化，s＝1表示L1距离，即曼哈顿距离，s＝2表示L2距离，即欧氏距离，s＝∞表示上确界距离(Supermum Distance)，等同于切比雪夫距离。

作为示例，皮尔逊相关距离的计算方式如下：

其中，L_feat表示中间层特征匹配损失，f_1i表示指导网络的第i层特征，f_2i表示待搜索网络的第i层特征，

表示特征f₁的均值，

同理。上式第二项即为皮尔逊相关系数。

作为示例，马氏距离(Mahalanobis Distance)的计算方式如下：

其中，L_feat表示中间层特征匹配损失，f₁表示指导网络的中间层特征，f₂表示待搜索网络的中间层特征，Σ表示数据的协方差。

作为本发明的一个实施方式，综合损失计算步骤S104可以包括：将网络损失和中间层特征匹配损失进行加权组合得到综合损失。

在一些实施方式中，加权组合可以包括加权之后进行线性组合。例如，可以采用以下公式的线性组合：

L＝αL_feat+L_CE

其中，L_feat表示中间层特征匹配损失，L_CE表示网络损失，L表示综合损失，权重α可以表示两个损失之间的相对重要性。

需要注意的是，本发明实施方式的特征匹配方法不限于上述的几种，也可以采用其他适合的特征匹配方法。

如图2所示，本发明的一个实施方式提供了一种数据处理方法200。方法200包括步骤S201-S204。在一些实施方式中，以ImageNet为例，可以首先在训练集中随机选取5000张图片作为验证集，记除了这个验证集之外的训练集为新训练集。新训练集被用于待搜索网络的训练，而验证集在搜索过程中各个神经网络架构的性能指标作为选取神经网络架构的标准。最终选取出在验证集上最优的架构，并用完整的训练集重训该架构，而测试集的性能则为所选取架构的最终性能。

S201是待搜索网络训练步骤，根据上述方法100对待搜索网络进行训练，直到待搜索网络收敛，获得经训练的待搜索网络。方法100的具体实现步骤和有益效果可参见上文对方法100的说明，在此不再赘述。

S202是特定模型搜索步骤，搜索经训练的待搜索网络，获得执行特定任务的特定模型。

在一些实施方式中，该步骤可以基于所训练得到的待搜索网络，利用进化算法等方法，选取出在验证集上性能最好的神经网络架构作为最终得到的特定模型。

S203是特定模型训练步骤，对特定模型进行训练，获取经训练的特定模型。

在一些实施方式中，在搜索得到可用的较小的神经网络架构后，要评估它的真正性能，可以在数据基准上进行重新训练，即使用完整的训练集，并用测试集作为最终的网络性能指标。

S204是数据处理步骤，将待处理图像输入至经训练的特定模型进行数据处理，得到数据处理结果。

在一些实施方式中，数据处理可以包括卷积处理，数据处理结果可以包括待处理图像的特征。

本发明实施方式提供的数据处理方法能够应用于如SuperNet和One-shot等不可微分及DARTS和ProxylessNAS等可微分的模型搜索方法，通过使用待搜索网络训练方法100，将整体网络的损失和中间层特征的匹配损失同时加到网络的训练过程中，应用了模型蒸馏方法，可以提高同一个网络层的不同运算操作符输出特征的相似性，加速模型的训练，并促进模型搜索得到更好的神经网络架构，从而有利于根据更好的神经网络架构得到更准确的数据处理结果。

如图3所示，本发明的一个实施方式提供一种待搜索网络训练装置300，其中，待搜索网络可以包括卷积神经网络。装置300包括模块301-305。

网络损失获取模块301可以配置用于将训练样本分别输入待搜索网络和指导网络，根据待搜索网络和指导网络分别输出的处理结果，获取待搜索网络的网络损失，其中，待搜索网络包括一个或多个待搜索网络中间层，指导网络包括一个或多个指导网络中间层。

中间层特征获取模块302可以配置用于获取一个或多个待搜索网络中间层中至少一个待搜索网络中间层输出的待搜索中间层特征，并且获取一个或多个指导网络中间层中与至少一个待搜索网络中间层相对应的至少一个指导网络中间层输出的指导中间层特征。

中间层特征匹配模块303可以配置用于将待搜索中间层特征与指导中间层特征进行匹配，获得中间层特征匹配损失。

综合损失计算模块304可以配置用于根据网络损失和中间层特征匹配损失，计算待搜索网络的综合损失。

综合损失反馈模块305可以配置用于将综合损失反馈到待搜索网络，以便对待搜索网络进行训练。

作为本发明的一个实施方式，中间层特征匹配模块303还可以配置用于：通过计算待搜索中间层特征与指导中间层特征的明氏距离、皮尔逊相关距离、马氏距离中的任一种来获得中间层特征匹配损失。

作为本发明的一个实施方式，综合损失计算模块304还可以配置用于：将网络损失和中间层特征匹配损失进行加权组合得到综合损失。

如图4所示，本发明的一个实施方式提供了一种数据处理装置400，装置400包括模块401-404。

待搜索网络训练模块401可以配置用于通过上述待搜索网络训练装置300对待搜索网络进行训练，直到待搜索网络收敛，获得经训练的待搜索网络。

特定模型搜索模块402可以配置用于搜索经训练的待搜索网络，获得执行特定任务的特定模型。

特定模型训练模块403可以配置用于对特定模型进行训练，获取经训练的特定模型。

数据处理模块404可以配置用于将待处理图像输入至经训练的特定模型进行数据处理，得到数据处理结果。

装置中的各个模块所实现的功能与上文描述的方法中的步骤相对应，其具体实现和技术效果请参见上文对于方法步骤的描述，在此不再赘述。

如图5所示，本发明的一个实施方式提供了一种电子设备500。其中，该电子设备500包括存储器501、处理器502、输入/输出(Input/Output，I/O)接口503。其中，存储器501，用于存储指令。处理器502，用于调用存储器501存储的指令执行本发明实施例的待搜索网络训练方法和数据处理方法。其中，处理器502分别与存储器501、I/O接口503连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器501可用于存储程序和数据，包括本发明实施例中涉及的待搜索网络训练程序和数据处理程序，处理器502通过运行存储在存储器501的程序从而执行电子设备500的各种功能应用以及数据处理。

本发明实施例中处理器502可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，所述处理器502可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本发明实施例中的存储器501可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(Cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)等。

本发明实施例中，I/O接口503可用于接收输入的指令(例如数字或字符信息，以及产生与电子设备500的用户设置以及功能控制有关的键信号输入等)，也可向外部输出各种信息(例如，图像或声音等)。本发明实施例中I/O接口503可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

在一些实施方式中，本发明提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上文所述的任何方法。

尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本发明的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims

1.一种数据处理方法，其中，所述数据处理方法包括：

待搜索网络训练步骤，根据待搜索网络训练方法对所述待搜索网络进行训练，直到所述待搜索网络收敛，获得经训练的待搜索网络；其中，所述待搜索网络包括卷积神经网络；

特定模型搜索步骤，搜索所述经训练的待搜索网络，获得执行特定任务的特定模型；

特定模型训练步骤，对所述特定模型进行训练，获取经训练的特定模型；

数据处理步骤，将待处理图像输入至所述经训练的特定模型进行数据处理，得到数据处理结果；

其中，所述待搜索网络训练方法包括：

网络损失获取步骤，将训练样本分别输入待搜索网络和指导网络，根据所述待搜索网络和所述指导网络分别输出的处理结果，获取所述待搜索网络的网络损失，其中，所述待搜索网络包括一个或多个待搜索网络中间层，所述指导网络包括一个或多个指导网络中间层，所述训练样本包括对Cifar和ImageNet数据集进行划分而得到的训练集；

中间层特征获取步骤，获取所述一个或多个待搜索网络中间层中至少一个待搜索网络中间层输出的待搜索中间层特征，并且获取所述一个或多个指导网络中间层中与所述至少一个待搜索网络中间层相对应的至少一个指导网络中间层输出的指导中间层特征；

中间层特征匹配步骤，将所述待搜索中间层特征与所述指导中间层特征进行匹配，获得中间层特征匹配损失；

综合损失计算步骤，根据所述网络损失和所述中间层特征匹配损失，计算所述待搜索网络的综合损失；

综合损失反馈步骤，将所述综合损失反馈到所述待搜索网络，以便对所述待搜索网络进行训练。

2.根据权利要求1所述的方法，其中，所述中间层特征匹配步骤包括：

通过计算所述待搜索中间层特征与所述指导中间层特征的明氏距离、皮尔逊相关距离、马氏距离中的任一种来获得所述中间层特征匹配损失。

3.根据权利要求1所述的方法，其中，所述综合损失计算步骤包括：

将所述网络损失和所述中间层特征匹配损失进行加权组合得到所述综合损失。

4.一种数据处理装置，所述装置包括：

待搜索网络训练模块，配置用于通过待搜索网络训练装置对所述待搜索网络进行训练，直到所述待搜索网络收敛，获得经训练的待搜索网络；其中，所述待搜索网络包括卷积神经网络；

特定模型搜索模块，配置用于搜索所述经训练的待搜索网络，获得执行特定任务的特定模型；

特定模型训练模块，配置用于对所述特定模型进行训练，获取经训练的特定模型；

数据处理模块，配置用于将待处理图像输入至所述经训练的特定模型进行数据处理，得到数据处理结果；

其中，所述待搜索网络训练装置包括：

网络损失获取模块，配置用于将训练样本分别输入待搜索网络和指导网络，根据所述待搜索网络和所述指导网络分别输出的处理结果，获取所述待搜索网络的网络损失，其中，所述待搜索网络包括一个或多个待搜索网络中间层，所述指导网络包括一个或多个指导网络中间层，所述训练样本包括对Cifar和ImageNet数据集进行划分而得到的训练集；

中间层特征获取模块，配置用于获取所述一个或多个待搜索网络中间层中至少一个待搜索网络中间层输出的待搜索中间层特征，并且获取所述一个或多个指导网络中间层中与所述至少一个待搜索网络中间层相对应的至少一个指导网络中间层输出的指导中间层特征；

中间层特征匹配模块，配置用于将所述待搜索中间层特征与所述指导中间层特征进行匹配，获得中间层特征匹配损失；

综合损失计算模块，配置用于根据所述网络损失和所述中间层特征匹配损失，计算所述待搜索网络的综合损失；

综合损失反馈模块，配置用于将所述综合损失反馈到所述待搜索网络，以便对所述待搜索网络进行训练。

5.一种电子设备，所述电子设备包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的所述指令执行如权利要求1-3中任一项所述的方法。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行如权利要求1-3中任一项所述的方法。