CN113850012B

CN113850012B - 数据处理模型生成方法、装置、介质及电子设备

Info

Publication number: CN113850012B
Application number: CN202110656502.XA
Authority: CN
Inventors: 顾金东; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2024-05-07
Anticipated expiration: 2041-06-11
Also published as: CN113850012A

Abstract

本申请公开了一种数据处理模型生成方法、装置、可读介质以及电子设备，所述方法包括：对样本数据进行数据增强处理，以获得样本数据对应的第一训练样本和第二训练样本；通过教师模型对第一训练样本进行特征提取，得到教师样本特征；将教师样本特征作为学生模型的训练目标，通过第二训练样本对学生模型进行训练；在满足训练结束条件后，根据训练得到的学生模型生成目标数据处理模型。本申请实施例提供的技术方案极大地降低了对样本数据的要求和训练过程中的数据处理量，提高了学生模型的训练效率。同时，使有限的样本数据扩展为更多的训练样本，降低了样本数据的获取难度，提高了模型学习的灵活性。

Description

数据处理模型生成方法、装置、介质及电子设备

技术领域

本申请属于计算机及图像处理技术领域，具体涉及一种数据处理模型生成方法、装置、可读介质以及电子设备。

背景技术

近年来，随着深度学习的飞速发展，深度神经网络在许多应用领域取得了显著效果。通常，在较高的计算量下，深度神经网络的学习能力随着网络层深度的增加而不断提高，因此深度神经网络在大型数据集上的表现非常卓越。然而，由于其计算量大、存储成本高、模型复杂等特性，使得深度学习无法有效地应用于轻量级移动便携设备。因此，减少深度学习模型尺寸同时保持其性能的模型压缩方法成为目前研究的热点。然而，相关技术中的模型压缩方法灵活性较弱，效率低下。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请的目的在于提供一种数据处理模型生成方法、装置、可读介质以及电子设备，以解决相关技术中模型压缩灵活性较弱，效率低下的问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种数据处理模型生成方法，包括：

对样本数据进行数据增强处理，以获得所述样本数据对应的第一训练样本和第二训练样本；

通过教师模型对所述第一训练样本进行特征提取，得到教师样本特征；

将所述教师样本特征作为所述学生模型的训练目标，通过所述第二训练样本对所述学生模型进行训练；

在满足训练结束条件后，根据训练得到的学生模型生成目标数据处理模型。

根据本申请实施例的一个方面，提供一种数据处理模型生成装置，包括：

数据增强模块，用于对样本数据进行数据增强处理，以获得所述样本数据对应的第一训练样本和第二训练样本；

教师样本特征提取模块，用于通过教师模型对所述第一训练样本进行特征提取，得到教师样本特征；

学生模型训练模块，用于将所述教师样本特征作为所述学生模型的训练目标，通过所述第二训练样本对所述学生模型进行训练；

目标模型生成模块，用于在满足训练结束条件后，根据训练得到的学生模型生成目标数据处理模型。

在本申请的一个实施例中，所述学生模型包括第一网络模型和第二网络模型，所述第一网络模型包括第一特征提取网络和连接至所述第一特征提取网络的预测网络，所述第一特征提取网络与所述第二网络模型为孪生网络；所述学生模型训练模块包括：

第一网络模型训练单元，用于将所述教师样本特征作为所述第一网络模型的训练目标，通过所述第二训练样本对所述第一网络模型进行训练。

在本申请的一个实施例中，所述第一网络模型训练单元还用于：

将所述第二训练样本输入至所述第二网络模型，获取所述第二网络模型的输出特征；

将所述第二网络模型的输出特征作为所述第一网络模型的训练目标，通过所述第二训练样本对所述第一网络模型进行训练。

在本申请的一个实施例中，所述教师模型包括第三网络模型和第四网络模型，所述第三网络模型是以所述第四网络模型的输出特征作为训练目标进行训练得到的，所述第三网络模型包括第二特征提取网络和连接至所述第二特征提取网络的预测网络，所述第二特征提取网络与所述第四网络模型为孪生网络；所述教师样本特征提取模块用于：

将所述第一训练样本输入至所述第四网络模型，获取所述第四网络模型的输出特征；

将所述第四网络模型的输出特征作为所述教师样本特征。

在本申请的一个实施例中，所述第一网络模型训练单元还用于：将以下至少一种特征作为所述第一网络模型的训练目标，通过所述第二训练样本对所述第一网络模型进行训练：

所述第一网络模型针对所述第二训练样本的输出特征、所述第二网络模型针对所述第一训练样本的输出特征、所述第三网络模型针对所述第一训练样本的输出特征、所述第三网络模型针对所述第二训练样本的输出特征以及所述第四网络模型针对所述第二训练样本的输出特征。

在本申请的一个实施例中，若所述第一网络模型以多种特征作为训练目标，则所述第一网络模型训练单元包括：

损失值计算单元，用于获取通过多种特征分别作为训练目标对所述第一网络模型进行训练得到的损失值，得到所述多种特征分别对应的损失值；

参数调整单元，用于根据所述多种特征分别对应的损失值，对所述第一网络模型的参数进行调整，以对所述第一网络模型进行训练。

在本申请的一个实施例中，所述参数调整单元用于：

对所述多种特征分别对应的损失值进行统计处理，将统计处理得到的结果作为所述第一网络模型的损失值；

根据所述第一网络模型的损失值更新所述第一网络模型的参数。

在本申请的一个实施例中，所述第一网络模型的预测网络包括多个预测器，所述多个预测器分别对应于所述第一网络模型的不同训练目标。

在本申请的一个实施例中，所述数据处理模型生成装置还包括：

第二网络模型训练模块，用于根据所述第一网络模型更新后的参数和所述第二网络模型的当前参数，对所述第二网络模型的参数进行更新，以对所述第二网络模型进行训练。

第三网络模型训练模块，用于根据所述第三网络模型针对所述第一训练样本的输出特征和所述第四网络模型针对所述第二训练样本的输出特征确定所述第三网络模型的损失值，并根据所述第三网络模型的损失值更新所述第三网络模型的参数，以对所述第三网络模型进行训练；

第四网络模型训练模块，用于根据所述第三网络模型更新后的参数和所述第四网络模型的当前参数对所述第四网络模型的参数进行更新，以对所述第四网络模型进行训练。

在本申请的一个实施例中，所述第一特征提取网络包括编码网络和变换网络，所述编码网络用于对输入数据进行特征提取得到高维数据特征，所述变换网络用于对所述高维数据特征进行特征处理得到低维数据特征；所述目标模型生成模块具体用于：

将训练得到的所述第一网络模型的编码网络作为所述目标数据处理模型。

样本获取模块，用于获取样本集，所述样本集包括多个样本数据；

所述训练结束条件包括所述学生模型的训练周期达到预设阈值，所述学生模型的一个训练周期是通过所述样本集中的所有样本数据对所述学生模型完成一次训练。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的数据处理模型生成方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的数据处理模型生成方法。

根据本申请实施例的一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上技术方案中的数据处理模型生成方法。

在本申请实施例提供的技术方案中，学生模型利用一个数据增强训练样本，以教师模型针对另一个数据增强训练样本的输出特征作为训练目标进行学习，如此，对于原始的样本数据无需进行打标签处理，极大地降低了对样本数据的要求，提高了学生模型的训练效率。同时，由于学生模型的训练目标是教师模型的输出特征，无需使用预先提取的模板特征进行比对来得到训练目标，极大地降低了训练过程中的数据处理量，进一步提高训练效率。并且，通过数据增强处理，可以使有限的样本数据扩展为更多的训练样本，降低了样本数据的获取难度，提高了模型学习的灵活性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了应用本申请技术方案的示例性系统架构框图。

图2示意性地示出了本申请一个实施例提供的数据处理模型生成方法的流程图。

图3示出了本申请另一个实施例提供的数据处理模型生成方法的示意图。

图4A示出了本申请实施例提供的技术方案的Top1分类性能验证结果。

图4B示出了本申请实施例提供的技术方案的Top5分类性能验证结果。

图4C示出了本申请实施例提供的技术方案的KNN分类性能验证结果。

图5示意性地示出了本申请实施例提供的数据处理模型生成装置的结构框图。

图6示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供的技术方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明。

人工智能(Artificial Intelligence，简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，简称ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

如图1所示，系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。

根据实现需要，本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如，服务器130可以是由多个服务器设备组成的服务器群组。另外，本申请实施例提供的技术方案可以应用于终端设备110，也可以应用于服务器130，或者可以由终端设备110和服务器130共同实施，本申请对此不做特殊限定。

举例而言，服务器130对样本数据进行数据增强处理，获得样本数据对应的第一训练样本和第二训练样本；然后通过教师模型对第一训练样本进行特征提取，得到教师样本特征，并将教师样本特征作为学生模型的训练目标，通过第二训练样本对学生模型进行训练；最后在满足训练结束条件后，根据训练得到的学生模型生成目标数据处理模型。

目标数据处理模型可以部署在终端设备110上，根据终端设备110的需求进行数据处理，如广告图像识别、图像分类、目标检测等。

在本申请的一个实施例中，目标数据处理模型可以通过云服务的形式提供，用户通过终端设备110访问云服务，从而实现对目标数据处理模型的使用。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

下面结合具体实施方式对本申请提供的数据处理模型生成方法做出详细说明。

图2示意性地示出了本申请一个实施例提供的数据处理模型生成方法的流程图。该数据处理模型生成方法可以由服务器来执行，该服务器可以是图1中所示的服务器130；该数据处理模型生成方法也可以由终端设备来执行，该终端设备可以是图1中所示的终端设备110。

如图2所示，本申请一个实施例提供的数据处理模型生成方法至少包括步骤210至步骤240，具体为：

步骤210、对样本数据进行数据增强处理，以获得样本数据对应的第一训练样本和第二训练样本。

具体的，数据增强是通过对原始数据进行扩展，以产生更多的与原始数据等价的数据。对样本数据进行数据增强处理，也就是对样本数据进行扩展，使有限的样本数据产生更多的训练样本。样本数据进行数据增强处理后对应的数据称为第一训练样本和第二训练样本。

在本申请的一个实施例中，第一训练样本可以是样本数据本身，第二训练样本可以是样本数据进行数据增强后得到的新数据。可选的，第一训练样本是样本数据进行数据增强后得到的一个新数据，第二训练样本是样本数据进行数据增强后得到的另一个新数据。可以理解，当需求的数据量较大时，可以对样本数据进行多次数据增强处理以获取更多的训练样本，如数据增强处理后还包括第三训练样本、第四训练样本等。

在本申请的一个实施例中，样本数据为图像数据，那么数据增强处理是基于图像处理技术的数据增强处理，如几何变换、颜色变换、旋转变换、缩放、移动、裁剪、随机擦除等数据增强处理方式。例如，对样本数据进行放大处理，得到第一训练样本；对样本数据进行颜色变换，得到第二训练样本。

在本申请的一个实施例中，样本数据是样本集中的一个数据，而样本集中包括多个样本数据。

继续参考图2，步骤220、通过教师模型对第一训练样本进行特征提取，得到教师样本特征。

步骤230、将教师样本特征作为学生模型的训练目标，通过第二训练样本对学生模型进行训练。

具体的，知识蒸馏是指构建一个轻量化的小模型，利用性能更好的大模型的监督信息来训练这个小模型，以使小模型达到更好的性能和精度。一般的，这个大模型称为教师模型，需要训练的小模型称为学生模型，学生模型也相当于教师模型压缩后得到的模型。将第一训练样本输入至教师模型，教师模型对其进行特征提取等处理，得到的输出特征为教师样本特征。学生模型以第二训练样本作为训练数据，以该教师样本特征作为训练目标进行训练。

可以理解，教师模型和学生模型的训练样本也可以互换，即，教师模型对第二训练样本进行特征提取，学生模型以第一训练样本作为训练数据，以教师模型针对第二训练样本得到的特征作为训练目标进行训练。

在本申请提供的技术方案中，学生模型利用一个数据增强训练样本，以教师模型针对另一个数据增强训练样本的输出特征作为训练目标进行学习，如此，对于原始的样本数据无需进行贴标签处理，极大地降低了对样本数据的要求，提高了学生模型的训练效率。同时，由于学生模型的训练目标是教师模型的输出特征，无需使用预先提取的模板特征进行比对来得到训练目标，极大地降低了训练过程中的数据处理量，进一步提高训练效率。并且，通过数据增强处理，可以使有限的样本数据扩展为更多的训练样本，降低了样本数据的获取难度，提高了模型学习的灵活性。

在本申请的一个实施例中，学生模型包括第一网络模型和第二网络模型。其中，第一网络模型包括第一特征提取网络和与第一特征提取网络连接的预测网络。第一特征提取网络与第二网络模型为孪生网络，也即，第一特征提取网络与第二网络模型具有相同的网络架构。

在本申请的一个实施例中，教师模型包括第三网络模型和第四网络模型。其中，第三网络模型包括第二特征提取网络和与第二特征提取网络连接的预测网络。第二特征提取网络与第四网络模型为孪生网络，也即，第二特征提取网络与第四网络模型具有相同的网络架构。

在本申请的一个实施例中，教师样本特征为第四网络模型针对第一训练样本的输出特征，也即，通过第四网络模型对第一训练样本进行特征提取，得到第四网络模型的输出特征；将第四网络模型的输出特征作为教师样本特征。此时，学生模型以第二训练样本作为训练数据，以第四网络模型针对第一训练样本的输出特征作为训练目标进行训练。

在本申请的一个实施例中，学生模型的训练过程具体包括：将教师样本特征作为第一网络模型的训练目标，通过第二训练样本对第一网络模型进行训练。也即，第一网络模型以第二训练样本作为训练数据，以第四网络模型针对第一训练样本的输出特征作为训练目标进行训练。

在本申请的一个实施例中，第一网络模型的训练目标还可以包括第二网络模型针对第二训练样本的输出特征。也即，将第二训练样本输入至第二网络模型，获取第二网络模型的输出特征；将第二网络模型的输出特征作为第一网络模型的训练目标，通过第二训练样本对第一网络模型进行训练。

在本申请的一个实施例中，第一网络模型的训练目标还可以包括以下至少一种特征：第一网络模型针对第二训练样本的输出特征、第二网络模型针对第一训练样本的输出特征、第三网络模型针对第一训练样本的输出特征、第三网络模型针对第二训练样本的输出特征以及第四网络模型针对第二训练样本的输出特征。

在本申请的一个实施例中，第一网络模型的训练目标可以是多个。优选的，第一网络模型的训练目标是以其他网络模型针对与第一网络模型的训练数据不同的训练样本所得到的输出特征，如，第一网络模型的训练目标包括教师样本特征和第二网络模型针对第二训练样本的输出特征。当训练样本较多时，如还包括第三训练样本，则第一网络模型的训练目标还可以包括第四网络模型针对第三训练样本的输出特征、第二网络模型针对第三训练样本的输出特征等等。

在本申请的一个实施例中，第一网络模型以第一训练样本作为训练数据，以教师样本特征作为训练目标进行训练是指：将第一网络模型针对第一训练样本所得到的输出特征与教师样本特征之间的偏差作为第一网络模型的损失值，根据该损失值更新第一网络模型的参数，实现对第一网络模型的训练。

在本申请的一个实施例中，当第一网络模型的训练目标包括多种特征时，如第一网络模型的训练目标包括教师样本特征和第二网络模型针对第二训练样本的输出特征，第一网络模型的训练过程包括：获取通过多种特征分别作为训练目标对第一网络模型进行训练得到的损失值，得到多种特征分别对应的损失值；根据多种特征分别对应的损失值，对第一网络模型的参数进行调整，以对第一网络模型进行训练。即，对于每个训练目标(一个训练目标即为一种特征)，均有其对应的损失值(即损失函数)，最后根据每种特征对应的损失值对第一网络模型的参数进行调整，实现对第一网络模型的训练。

在本申请的一个实施例中，第一网络模型包括第一特征提取网络和连接至第一特征提取网络的预测网络，第一网络模型的预测网络则包括多个预测器。第一特征提取网络用于对输入数据进行特征提取，预测网络中的多个预测器用于对第一特征提取网络所提取的特征分别进行预测，每个预测器的预测目标即为对应的训练目标，因此，一个预测器对应于第一网络模型的一个训练目标，预测器的数量应与训练目标的数量相同。那么，一个训练目标对应的损失值是指第一网络模型的一个预测器针对第二训练样本的输出特征与该训练目标之间的偏差。示例性的，第一网络模型的训练目标包括教师样本特征(即第四网络模型针对第一训练样本的输出特征)和第二网络模型针对第二训练样本的输出特征，则第一网络模型应有两个预测器，记为第一预测器和第二预测器。多种特征分别对应的损失值包括：第一网络模型的第一预测器针对第二训练样本的输出特征与教师样本特征之间的偏差，以及，第一网络模型的第二预测器针对第二训练样本的输出特征与第二网络模型针对第二训练样本的输出特征之间的偏差。

在本申请的一个实施例中，根据多种特征分别对应的损失值，对第一网络模型的参数进行调整具体包括：对多种特征分别对应的损失值进行统计处理，将统计处理得到的结果作为第一网络模型的损失值；根据第一网络模型的损失值更新第一网络模型的参数。具体的，一个特征对应一个损失值，当有多种特征时，则有多个损失值。多种特征分别对应的损失值的统计处理结果，可以是多个损失值的平均值、加权平均值、平均方差等。优选的，将多个损失值的平均方差作为第一网络模型的损失值。

在本申请的一个实施例中，还包括：根据第一网络模型更新后的参数和第二网络模型的当前参数，对第二网络模型的参数进行更新。也即，在对第一网络模型的参数进行调整之后，根据第一网络模型更新后的参数对第二网络模型的参数进行调整。本实施例中，将第一网络模型更新后的参数和第二网络模型的当前参数进行加权求和，得到第二网络模型的更新参数。一般的，在进行加权求和时，第二网络模型自身的权重往往远大于第一网络模型的权重，如，第二网络模型的权重为0.99，第一网络模型的权重为0.01。

在本申请的一个实施例中，教师模型可以是预先训练好的模型，也可以是没有训练好的模型。若教师模型是预先训练好的模型，则在学生模型的训练过冲，教师模型保持不变，不需对教师模型的参数进行调整。若教师模型是没有训练好的模型，则在学生模型的训练过程中，教师模型需要同步进行训练。

在本申请的一个实施例中，教师模型的训练过程包括：根据第三网络模型针对第一训练样本的输出特征和第四网络模型针对第二训练样本的输出特征确定第三网络模型的损失值，并根据第三网络模型的损失值更新第三网络模型的参数，以对第三网络模型进行训练；根据第三网络模型更新后的参数和第四网络模型的当前参数对第四网络模型的参数进行更新。

具体的，教师模型的训练目标与学生模型的训练目标类似，即，第三网络模型以第一训练样本作为训练数据，以第四网络模型针对第二训练样本的输出特征作为训练目标进行训练。故而，第三网络模型的损失值为第三网络模型针对第一训练样本的输出特征和第四网络模型针对第二训练样本的输出特征之间的偏差。在根据第三网络模型的损失值更新第三网络模型的参数后，进一步根据第三网络模型更新后的参数和第四网络模型的当前参数对第四网络模型的参数进行更新。第四网络模型的更新参数可以是第三网络模型更新后的参数和第四网络模型的当前参数的加权求和值，且第四网络模型自身的权重远大于第三网络模型的权重。

在本申请实施例提供的技术方案中，教师模型无需预先训练，可以与学生模型一同训练，如此，通过一个阶段的训练即可同时得到训练好的教师模型和学生模型，相较于传统的预先训练教师模型，再根据训练好的教师模型得到学生模型的两阶段训练方法，极大地降低了训练耗时，节省计算资源，提高模型压缩效率。

在本申请的一个实施例中，学生模型的训练过程还包括模型超参的调整。采用LARS优化器和同步批正则化(Synchronized Batch Normailization)的方式调节模型超参。采用同步批正则化，需要设定学习率与批样本量的关系，批样本量相当于一个训练周期的样本数据总量。一般的，当批内样本量增大时，学习率同比增长。在训练开始的预设训练周期内，采用余弦衰减学习率(cosine decay learning rate)策略使学习率从0增大到给定值。

继续参考图2，步骤240、在满足训练结束条件后，根据训练得到的学生模型生成目标数据处理模型。

具体的，当学生模型在训练过程中达到训练结束条件时，学生模型的训练过程结束，得到训练好的学生模型。训练结束条件可以是学生模型的某个参数符合预设条件，或者学生模型的训练次数达到预设次数等，如，训练结束条件是第一网络模型的损失值在预设范围内。

在本申请的一个实施例中，在对样本数据进行数据增强处理之前，还包括：获取样本集，样本集包括多个样本数据。也即，模型训练过程是通过样本集中的样本数据进行训练。一般的，将样本集中的所有样本数据对学生模型完成一次训练称为学生模型的一个训练周期。例如，样本集中有1000个样本数据，对于每个样本数据，均执行上述步骤210至步骤230的流程对学生模型进行训练，当1000个样本数据均对学生模型进行了一次训练，则称为一个训练周期。如此，训练结束条件可以是学生模型的训练周期达到预设阈值，如，当训练周期为100时，则停止训练，得到训练好的学生模型。

训练好的学生模型相较于教师模型，其模型尺寸更小，同时具有与教师模型相当的性能，其可以直接作为目标数据处理模型，可应用于低延时低能耗场景，部署于轻量级的移动设备中，如手机、平板电脑。

在本申请的一个实施例中，学生模型中的第一特征提取网络包括编码网络和变换网络。编码网络又称为编码器(Encoder)，其用于对网络的输入数据进行特征提取，得到高维数据特征。变换网络又称为变换器(Projector)，其用于对编码器提取的高维数据特征进行特征提取处理，得到高维数据特征对应的低维数据特征。一般的，当学生模型训练完毕，即得到训练好的第一网络模型，将第一网络模型的编码网络作为目标数据处理网络，以进行下游任务的数据处理，如目标检测、物体分割、图像问答、图像识别等图像特征提取。

在本申请的一个实施例中，得到训练好的学生模型后，还可以与其他模型压缩技术生成目标数据处理模型，如得到训练好的学生模型后，对学生模型进行剪枝、量化等处理方式，生成目标数据处理模型。

示例性的，参考图3，为本申请一个实施例提供的数据处理模型生成方法的示意图。

如图3所示，学生模型包括第一网络模型S和第二网络模型Sema，第一网络模型S包括第一特征提取网络和与第一特征提取网络连接的预测网络，第一特征提取网络包括第一编码器和第一变换器，第一网络模型S的预测网络包括7个变换器。第一特征提取网络与第二网络模型Sema为孪生网络，即第二网络模型Sema与第一特征提取网络具有相同的编码器架构和变换器架构。

教师模型包括第三网络模型T和第四网络模型Tema。第三网络模型T包括第二特征提取网络和与第二特征提取网络连接的预测网络，第二特征提取网络包括第二编码器和第二变换器，第三网络模型T的预测网络包括1个变换器。第二特征提取网络与第四网络模型Tema为孪生网络，即第四网络模型Tema与第二特征提取网络具有相同的编码器架构和变换器架构。

教师模型的第二编码器采用了较大的编码器ResNet50，其输出维度为2048。学生模型的第一编码器采用了相对较小的编码器ResNet18，其输出维度为512。学生模型和教师模型中的变换器和预测器均采用相同的架构，变换器输出维度为256，预测器输出维度为256。

如图3所示，对于样本数据v，对其进行数据增强处理，得到第一训练样本v1和第二训练样本v2。将第一训练样本v1和第二训练样本v2分别输入至第二网络模型Sema，得到第二网络模型Sema针对第一训练样本v1的输出特征Sema-v1，和第二网络模型Sema针对第二训练样本v2的输出特征Sema-v2。

将第一训练样本v1和第二训练样本v2分别输入至第四网络模型Tema，得到第四网络模型Tema针对第一训练样本v1的输出特征Tema-v1，和第四网络模型Tema针对第二训练样本v2的输出特征Tema-v2。

将第一训练样本v1和第二训练样本v2分别输入至第三网络模型T，得到第三网络模型T针对第一训练样本v1的输出特征T-v1，和第三网络模型T针对第二训练样本v2的输出特征T-v2。其中，输出特征T-v1(为了便于描述，将第四网络模型Tema针对第一训练样本v1的输出特征Tema-v1简记为输出特征T-v1，后文将均采用类似描述)是对输出特征Tema-v2的预测，同理，输出特征T-v2是对输出特征Tema-v1的预测。

将第二训练样本v2输入至第一网络模型S，得到第一网络模型S针对第二训练样本v2的输出特征S-v2。在第一网络模型的训练过程中，其训练目标共有7个，包括：输出特征S-v2、输出特征Sema-v1、输出特征Sema-v2、输出特征T-v1、输出特征T-v2、输出特征Tema-v1和输出特征Tema-v2。

将第一训练样本v1输入至第一网络模型S，经第一网络模型S的变换器得到输出特征S-v1，然后由7个预测器分别对输出特征S-v1进行预测，得到的预测特征包括：针对输出特征S-v2的预测特征S-S2(简记为预测特征S-S2，后文采用类似描述)、针对输出特征Sema-v1的预测特征S-Sema1、针对输出特征Sema-v2的预测特征S-Sema2、针对输出特征T-v1的预测特征S-T1、针对输出特征T-v2的预测特征S-T2、针对输出特征Tema-v1的预测特征S-Tema1和针对输出特征Tema-v2的预测特征S-Tema2。

在训练第一网络模型S时，将预测特征S-S2与输出特征S-v2的偏差、预测特征S-Sema1与输出特征Sema-v1的偏差、预测特征S-Sema2与输出特征Sema-v2的偏差、预测特征S-T1与输出特征T-v1的偏差、预测特征S-T2与输出特征T-v2的偏差、预测特征S-Tema1与输出特征Tema-v1的偏差以及预测特征S-Tema2与输出特征Tema-v2偏差的平均方差作为第一网络模型S的损失值Loss，根据该损失值Loss计算梯度Stop-gradient，最后根据梯度Stop-gradient更新第一网络模型S的参数。

第一网络模型S的参数更新后，根据第一网络模型S的更新参数与第二网络模型Sema的当前参数的加权求和值对第二网络模型Sema的参数进行更新。

同时，教师模型进行同步训练。将输出特征T-v1与输出特征Tema-v2的偏差作为第三网络模型T的损失值，更加该损失值更新第三网络模型T的参数。第三网络模型T的参数更新后，根据第三网络模型T的更新参数与第四网络模型Tema的当前参数的加权求和值对第四网络模型Tema的参数进行更新。

在训练过程中的模型超参调节为：采用LARS优化器和同步批正则化(Synchronized Batch Normailization)的方式调节模型超参。设定基本学习率为0.3/256，即当每一批由256个样本数据组成时，学习率是0.3。在训练开始的前10个周期，通过余弦衰减学习率(cosine decay learning rate)策略使学习率从0增大到给定值，以此来预热训练。本实施例中批的大小为2048，平均分布在32个V100的GPU上。

当满足训练结束条件时，如训练周期达到300个，则停止训练，得到训练好的学生模型，将此时第一网络模型S的编码器作为目标数据处理模型，以在下游任务中进行使用。可选的，还可以在训练好的第一网络模型S的编码器上构建一个线性编码器后作为目标数据处理模型，该线性编码器的学习率设为0.001。

在本申请的一个实施例中，图4A示出了本申请实施例提供的技术方案的Top1分类性能验证结果，图4B示出了本申请实施例提供的技术方案的Top5分类性能验证结果，图4C示出了本申请实施例提供的技术方案的KNN(k-Nearest Neighbor，K近邻)分类性能验证结果。其中，Top1分类是指最大概率的类别为正确类别，Top5分类是指在前五大概率类别中包含正确类别，KNN分类是指最相似样本类别为正确类别。

在图4A-图4C中，横坐标是训练的周期数(Epochs)，图4A纵坐标是Top1分类的准确率(Top1 Accu.)，图4B纵坐标是Top5分类的准确率(Top5 Accu.)，图4A纵坐标是KNN分类的准确率(KNN Accu.)。图4A-图4C中的各曲线含义如下：

off-SSD-2v是指：在本发明实施例提供的数据处理模型生成方法中，教师模型为预先训练好的模型，以第四网络模型针对第二训练样本的输出特征和第二网络模型针对第二训练样本的输出特征为训练目标进行训练而得到学生模型的性能。

on-SSD-2v是指：在本发明实施例提供的数据处理模型生成方法中，教师模型与学生模型同步训练，以第四网络模型针对第二训练样本的输出特征和第二网络模型针对第二训练样本的输出特征为训练目标进行训练而得到学生模型的性能。

on-SSD-7v是指：在本发明实施例提供的数据处理模型生成方法中，教师模型与学生模型同步训练，以第四网络模型针对第二训练样本的输出特征、第二网络模型针对第二训练样本的输出特征、第一网络模型针对第二训练样本的输出特征、第二网络模型针对第一训练样本的输出特征、第三网络模型针对第一训练样本的输出特征、第三网络模型针对第二训练样本的输出特征以及第四网络模型针对第二训练样本的输出特征这7种特征作为训练目标进行训练而得到学生模型的性能。

BYOL ResNet50是指：采用编码器ResNet50的教师模型的性能。

Supervised ResNet18是指：采用编码器ResNet18的学生模型对于有标签数据的学习性能。

MoCo-v2是指：采用编码器ResNet18的学生模型对于无标签数据，同时无教师模型辅助时的学习性能。

BYOL(Bootstrap Your Own Latent，自抽样挖掘)是指：采用编码器ResNet18的学生模型对于无标签数据，同时无教师模型辅助时的学习性能。

SEED是指：传统的采用预先训练教师模型，再根据训练好的教师模型得到学生模型的两阶段训练方法所得到的学生模型的性能。

由图4A-图4C可以看出，采用本发明实施例提供的数据处理模型生成方法所得到的学习模型在无标签数据的情况下，展现出的性能最好。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的数据处理模型生成方法。图5示意性地示出了本申请实施例提供的数据处理模型生成装置的结构框图。如图5所示，本申请实施例提供的数据处理模型生成装置，包括：

数据增强模块510，用于对样本数据进行数据增强处理，以获得所述样本数据对应的第一训练样本和第二训练样本；

教师样本特征提取模块520，用于通过教师模型对所述第一训练样本进行特征提取，得到教师样本特征；

学生模型训练模块530，用于将所述教师样本特征作为所述学生模型的训练目标，通过所述第二训练样本对所述学生模型进行训练；

目标模型生成模块540，用于在满足训练结束条件后，根据训练得到的学生模型生成目标数据处理模型。

在本申请的一个实施例中，所述学生模型包括第一网络模型和第二网络模型，所述第一网络模型包括第一特征提取网络和连接至所述第一特征提取网络的预测网络，所述第一特征提取网络与所述第二网络模型为孪生网络；所述学生模型训练模块530包括：

在本申请的一个实施例中，所述教师模型包括第三网络模型和第四网络模型，所述第三网络模型是以所述第四网络模型的输出特征作为训练目标进行训练得到的，所述第三网络模型包括第二特征提取网络和连接至所述第二特征提取网络的预测网络，所述第二特征提取网络与所述第四网络模型为孪生网络；所述教师样本特征提取模块520用于：

将所述第四网络模型的输出特征作为所述教师样本特征。

在本申请的一个实施例中，所述参数调整单元用于：

在本申请的一个实施例中，所述第一特征提取网络包括编码网络和变换网络，所述编码网络用于对输入数据进行特征提取得到高维数据特征，所述变换网络用于对所述高维数据特征进行特征处理得到低维数据特征；所述目标模型生成模块540具体用于：

本申请各实施例中提供的数据处理模型生成装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

图6示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图6示出的电子设备的计算机系统600仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理器601(Central Processing Unit，CPU)，其可以根据存储在只读存储器602(Read-Only Memory，ROM)中的程序或者从存储部分608加载到随机访问存储器603(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器603中，还存储有系统操作所需的各种程序和数据。中央处理器601、在只读存储器602以及随机访问存储器603通过总线604彼此相连。输入/输出接口605(Input/Output接口，即I/O接口)也连接至总线604。

以下部件连接至输入/输出接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至输入/输出接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理器601执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种数据处理模型生成方法，其特征在于，包括：

将所述教师样本特征作为学生模型的训练目标，通过所述第二训练样本对所述学生模型进行训练；其中，所述学生模型包括第一网络模型和第二网络模型，所述第一网络模型包括第一特征提取网络，所述第一特征提取网络与所述第二网络模型为孪生网络；在所述学生模型的训练过程中，以所述教师样本特征和所述第二网络模型的输出特征作为所述第一网络模型的训练目标，对所述第一网络模型进行训练，并根据所述第一网络模型调整后的参数调整所述第二网络模型的参数；

2.根据权利要求1所述的数据处理模型生成方法，其特征在于，以所述教师样本特征和所述第二网络模型的输出特征作为所述第一网络模型的训练目标，对所述第一网络模型进行训练，包括：

将所述教师样本特征和所述第二网络模型的输出特征作为所述第一网络模型的训练目标，通过所述第二训练样本对所述第一网络模型进行训练。

3.根据权利要求1-2任一项所述的数据处理模型生成方法，其特征在于，所述教师模型包括第三网络模型和第四网络模型，所述第三网络模型是以所述第四网络模型的输出特征作为训练目标进行训练得到的，所述第三网络模型包括第二特征提取网络和连接至所述第二特征提取网络的预测网络，所述第二特征提取网络与所述第四网络模型为孪生网络；

通过教师模型对所述第一训练样本进行特征提取，得到教师样本特征，包括：

将所述第四网络模型的输出特征作为所述教师样本特征。

4.根据权利要求3所述的数据处理模型生成方法，其特征在于，所述第一网络模型的训练目标还包括以下至少一种特征：

5.根据权利要求4所述的数据处理模型生成方法，其特征在于，对所述第一网络模型进行训练包括：

获取通过多种特征分别作为训练目标对所述第一网络模型进行训练得到的损失值，得到所述多种特征分别对应的损失值；

根据所述多种特征分别对应的损失值，对所述第一网络模型的参数进行调整，以对所述第一网络模型进行训练。

6.根据权利要求5所述的数据处理模型生成方法，其特征在于，根据所述多种特征分别对应的损失值，对所述第一网络模型的参数进行调整，包括：

7.根据权利要求5所述的数据处理模型生成方法，其特征在于，所述第一网络模型还包括与所述第一特征提取网络连接的预测网络，所述第一网络模型的预测网络包括多个预测器，所述多个预测器分别对应于所述第一网络模型的不同训练目标。

8.根据权利要求5所述的数据处理模型生成方法，其特征在于，所述数据处理模型生成方法还包括：

根据所述第一网络模型更新后的参数和所述第二网络模型的当前参数，对所述第二网络模型的参数进行更新，以对所述第二网络模型进行训练。

9.根据权利要求3所述的数据处理模型生成方法，其特征在于，所述数据处理模型生成方法还包括：

根据所述第三网络模型针对所述第一训练样本的输出特征和所述第四网络模型针对所述第二训练样本的输出特征确定所述第三网络模型的损失值，并根据所述第三网络模型的损失值更新所述第三网络模型的参数，以对所述第三网络模型进行训练；

根据所述第三网络模型更新后的参数和所述第四网络模型的当前参数对所述第四网络模型的参数进行更新，以对所述第四网络模型进行训练。

10.根据权利要求1所述的数据处理模型生成方法，其特征在于，所述第一特征提取网络包括编码网络和变换网络，所述编码网络用于对输入数据进行特征提取得到高维数据特征，所述变换网络用于对所述高维数据特征进行特征处理得到低维数据特征；

根据训练得到的学生模型生成目标数据处理模型，包括：

11.根据权利要求1所述的数据处理模型生成方法，其特征在于，在对样本数据进行数据增强处理之前，所述数据处理模型生成方法还包括：

获取样本集，所述样本集包括多个样本数据；

12.一种数据处理模型生成装置，其特征在于，包括：

学生模型训练模块，用于将所述教师样本特征作为学生模型的训练目标，通过所述第二训练样本对所述学生模型进行训练；其中，所述学生模型包括第一网络模型和第二网络模型，所述第一网络模型包括第一特征提取网络，所述第一特征提取网络与所述第二网络模型为孪生网络；在所述学生模型的训练过程中，以所述教师样本特征和所述第二网络模型的输出特征作为所述第一网络模型的训练目标，对所述第一网络模型进行训练，并根据所述第一网络模型调整后的参数调整所述第二网络模型的参数；

13.一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至11中任意一项所述的数据处理模型生成方法。

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至11中任意一项所述的数据处理模型生成方法。

15.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；

计算机设备的处理器从所述计算机可读存储介质读取并执行所述计算机指令，使得所述计算机设备执行权利要求1至11中任意一项所述的数据处理模型生成方法。