CN115587297A

CN115587297A - 构建图像识别模型和图像识别的方法、装置、设备及介质

Info

Publication number: CN115587297A
Application number: CN202110763464.8A
Authority: CN
Inventors: 廖星宇; 何凌霄; 程鹏; 王林芳; 梅涛
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2023-01-10

Abstract

本公开涉及一种构建图像识别模型和图像识别的方法、装置、设备及介质，可应用于计算机和人工智能技术领域，上述构建图像识别模型的方法包括：获取初始机器学习模型，该初始机器学习模型的超参数为预先确定的目标最优超参数；该目标最优超参数是通过对备选超参数对应的模型进行训练、对训练后的模型进行测试、基于测试结果剔除部分备选超参数以及基于贝叶斯优化得到下一批备选超参数这一过程进行迭代得到的；从源图像样本集中获取待处理的源图像样本；对上述待处理的源图像样本进行预处理操作，得到预处理后的样本数据；以及将上述预处理后的样本数据输入至上述初始机器学习模型中进行训练，训练完成得到的目标机器学习模型为图像识别模型。

Description

构建图像识别模型和图像识别的方法、装置、设备及介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种构建图像识别模型和图像识别的方法、装置、设备及介质。

背景技术

物体重识别是计算机视觉中一项非常重要的任务，该技术可以用于行人/车辆重识别、人脸识别、野生动物保护、商品溯源、拍照购物等应用中，其中包括搜索电视剧中感兴趣的演员的视频、从监控视频中搜索商场中走失的孩子、从城市监控系统中搜索可疑车辆的视频、电子商务平台的拍照购物、商品溯源防伪、东北虎保护等具体应用。

随着人工智能算法的发展，对于海量数据进行训练后可以得到用于进行物体重识别的模型。训练数据通常有两类：学术研究的数据集中的数据和实际场景中采集的数据集中的数据。学术研究的数据集经过精心的人工清洗、筛选和标注，同时数据规模较小，训练得到的模型的效果不是最佳，需要采集海量的实际数据来对模型进行训练，期望得到更为准确的模型。然而，在实现本公开构思的过程中，发明人发现相关技术中至少存在如下技术问题：在实际场景中采集的数据，不仅规模都非常大，同时数据分布也是未知的，采用默认的超参数对应的模型进行训练一般无法得到比较好的效果；同时在大规模数据上进行超参数优化的成本非常高，模型的迭代周期慢。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种一种构建图像识别模型和图像识别的方法、装置、设备及介质。

第一方面，本公开的实施例提供了一种构建图像识别模型的方法。上述方法包括：获取初始机器学习模型，上述初始机器学习模型的超参数为预先确定的目标最优超参数；其中，上述目标最优超参数是通过对备选超参数对应的模型进行训练、对训练后的模型进行测试、基于测试结果剔除部分备选超参数以及基于贝叶斯优化得到下一批备选超参数这一过程进行迭代得到的；从源图像样本集中获取待处理的源图像样本；对上述待处理的源图像样本进行预处理操作，得到预处理后的样本数据；以及将上述预处理后的样本数据输入至上述初始机器学习模型中进行训练，训练完成得到的目标机器学习模型为图像识别模型。

根据本公开的实施例，上述方法还包括：确定目标最优超参数和初始机器学习模型。上述确定目标最优超参数和初始机器学习模型包括：针对具有不同备选超参数的模型，实施训练-测试-剔除和贝叶斯优化的迭代过程，直至迭代达到预设次数T后停止，T≥2且T为整数；在第i次训练-测试-剔除和贝叶斯优化的迭代过程中，i＝1,2…或T，实施以下操作：针对M_i组备选超参数对应的模型进行N_i次训练；对训练后的M_i组模型进行测试；基于所述M_i组模型的测试结果来剔除所述M_i组备选超参数中的部分备选超参数，得到剩余的k_i组待定超参数；以及基于高斯回归过程计算出

组待定超参数的后验概率分布，并基于贝叶斯优化算法计算得到用于第i+1次迭代过程的备选超参数；其中，当i＝1时对应的备选超参数为随机初始化得到的备选超参数；用于第j次迭代过程的备选超参数作为所述目标最优超参数，所述目标最优超参数对应的模型作为初始机器学习模型，j＝2,3,…或T。

根据本公开的实施例，上述具有不同备选超参数的模型进行训练的输入数据为预处理后的训练数据；上述方法还包括：将用于训练图像样本的预处理操作按照是否可被批量化实施分类为单独操作和可批量化操作；将上述训练图像样本按照上述单独操作和上述可批量化操作分步进行预处理，得到预处理后的训练数据；以及将上述预处理后的训练数据输入至具有不同备选超参数的模型中分别进行训练。

根据本公开的实施例，上述对上述待处理的源图像样本进行预处理操作，得到预处理后的样本数据，包括：将用于上述源图像样本的预处理操作按照是否可被批量化实施分类为单独操作和可批量化操作；将上述待处理的源图像样本按照上述单独操作和上述可批量化操作分步进行预处理，得到预处理后的样本数据。

根据本公开的实施例，上述单独操作包括：数据增强处理操作和图像大小变换至统一尺寸操作，上述数据增强处理操作包括以下至少之一：随机翻转、随机亮度变化、随机角度旋转、随机抠图、随机擦除、平移变化；上述可批量化操作包括：归一化操作。

根据本公开的实施例，上述将上述待处理的源图像样本按照上述单独操作和上述可批量化操作分步进行预处理，包括：针对当前组待处理的源图像样本的每个源图像样本，进行上述单独操作的第一预处理，每个源图像样本经过上述第一预处理后得到三维特征图张量；将得到的三维特征图张量放入至待提取数据队列中并进行计数；在上述待提取数据队列中的计数值达到一个批次的预设值时，从上述待提取数据队列中将一个批次的三维特征图张量提取出来，得到初始样本数据；以及对上述初始样本数据进行上述可批量化操作的第二预处理，以得到预处理后的样本数据。

根据本公开的实施例，在当前组待处理的源图像样本处理完成时，从上述源图像样本集中获取下一组待处理的源图像样本进行上述第一预处理，上述下一组待处理的源图像样本的第一预处理过程与上述当前组待处理的源图像样本的第二预处理过程同步进行。

根据本公开的实施例，基于无限循环的生成器来进行计数，在每次数据集遍历完成之后进行数据下标的随机打乱，以重新进行计数。

第二方面，本公开的实施例提供了一种图像识别的方法。上述图像识别的方法包括：获取待处理图像；将待处理图像输入到采用如上所述的构建图像识别模型的方法构建得到的图像识别模型中；以及基于上述图像识别模型进行图像识别，以得到所述待处理图像的图像识别结果。

第三方面，本公开的实施例提供了一种用于构建图像识别模型的装置。上述用于构建图像识别模型的装置包括：模型获取模块、图像获取模块、预处理模块和训练模块。上述模型获取模块用于获取初始机器学习模型，上述初始机器学习模型的超参数为预先确定的目标最优超参数；其中，上述目标最优超参数是通过对备选超参数对应的模型进行训练、对训练后的模型进行测试、基于测试结果剔除部分备选超参数以及基于贝叶斯优化得到下一批备选超参数这一过程进行迭代得到的。上述图像获取模块用于从源图像样本集中获取待处理的源图像样本。上述预处理模块用于对上述待处理的源图像样本进行预处理操作，得到预处理后的样本数据。上述训练模块用于将上述预处理后的样本数据输入至初始机器学习模型中进行训练，训练完成得到的目标机器学习模型为图像识别模型；其中，上述初始机器学习模型为预先确定的目标最优超参数对应的目标最优模型，上述目标最优超参数通过训练-测试-剔除循环过程结合贝叶斯优化来确定。

第四方面，本公开的实施例提供了一种图像识别的装置。上述图像识别的装置包括：图像获取模块、输入模块和图像识别模块。上述图像获取模块用于获取待处理图像。上述输入模块用于将待处理图像输入到采用如上所述的构建图像识别模型的方法或者采用如上所述的用于构建图像识别模型的装置构建得到的图像识别模型中。上述图像识别模块用于基于上述图像识别模型进行图像识别，以得到上述待处理图像的图像识别结果。

第五方面，本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如上所述的构建图像识别模型的方法或图像识别的方法。

第六方面，本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上上述的构建图像识别模型的方法或图像识别的方法。

本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部：

通过对备选超参数对应的模型进行训练、对训练后的模型进行测试、基于测试结果剔除部分备选超参数以及基于贝叶斯优化得到下一批备选超参数这一过程进行迭代来确定目标最优超参数，在每次迭代过程中，在训练-测试-剔除过程中剔除部分超参数，后续结合贝叶斯优化能够选择概率上更优的超参数，将上述概率上更优的超参数作为下一批备选超参数来继续实施训练-测试-剔除过程结合贝叶斯优化；一方面能够提升超参数搜索的时间效率，降低了模型超参数优化的迭代时间和资源消耗，使得计算资源向表现性能更好的超参数对应的模型进行倾斜，进而提升目标最优超参数对应的初始机器学习模型的训练性能，以至少解决相关技术中采用默认的超参数对应的模型进行训练一般无法得到比较好的效果；同时在大规模数据上进行超参数优化的成本非常高，模型的迭代周期慢的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了适用于本公开实施例的构建图像识别模型的方法和装置的系统架构；

图2示意性示出了根据本公开一实施例的构建图像识别模型的方法的流程图；

图3示意性示出了根据本公开另一实施例的构建图像识别模型的方法的流程图；

图4示意性示出了根据本公开实施例的确定目标最优超参数和初始机器学习模型的详细实施过程图；

图5示意性示出了根据本公开实施例的训练-测试-剔除循环过程的详细实施过程图；

图6示意性示出了根据本公开实施例的对待处理的源图像样本进行预处理操作的详细实施过程图；

图7示意性示出了根据本公开实施例的图像识别的方法的流程图；

图8示意性示出了根据本公开实施例的用于构建图像识别模型的装置的结构框图；

图9示意性示出了根据本公开实施例的图像识别的装置的结构框图；以及

图10示意性示出了本公开实施例提供的电子设备的结构框图。

具体实施方式

本公开的实施例提供了一种构建图像识别模型和图像识别的方法、装置、设备及介质。上述方法包括：获取初始机器学习模型，上述初始机器学习模型的超参数为预先确定的目标最优超参数；其中，上述目标最优超参数是通过对备选超参数对应的模型进行训练、对训练后的模型进行测试、基于测试结果剔除部分备选超参数以及基于贝叶斯优化得到下一批备选超参数这一过程进行迭代得到的；从源图像样本集中获取待处理的源图像样本；对上述待处理的源图像样本进行预处理操作，得到预处理后的样本数据；以及将上述预处理后的样本数据输入至初始机器学习模型中进行训练，训练完成得到的目标机器学习模型为图像识别模型。

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

图1示意性示出了适用于本公开实施例的构建图像识别模型的方法和装置的系统架构。

参照图1所示，适用于本公开实施例的构建图像识别模型的方法和装置的系统架构100包括：终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有图像捕获装置、图片/视频播放类应用等。还可以安装有其他通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是显示屏并且支持图片/视频播放的各种电子设备，该电子设备还可以进一步包括图像捕获装置，例如电子设备包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、无人驾驶汽车、视频监控装置等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所拍摄的图像或视频进行数据处理提供服务支持的后台管理服务器(仅为示例)。在一应用场景中，上述数据处理可以是进行图像识别或者图像重识别，图像重识别可以是对识别的图像中的特定目标或者关注目标进行识别的过程。后台管理服务器可以对接收到的图像/视频处理请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的构建图像识别模型的方法一般可以由服务器105或具有一定运算能力的终端设备执行，后续在终端设备101、102、103进行图像数据处理时，可以调用构建好的图像识别模型来进行图像识别或图像重识别。相应地，本公开实施例所提供的构建图像识别模型的装置一般可以设置于服务器105中或上述具有一定运算能力的终端设备中。本公开实施例所提供的构建图像识别模型的方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的构建图像识别模型的装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

本公开的第一个示例性实施例提供了一种构建图像识别模型的方法。

图2示意性示出了根据本公开一实施例的构建图像识别模型的方法的流程图。

参照图2所示，本公开实施例提供的构建图像识别模型的方法，包括以下操作：S201、S202和S203。

在操作S201，获取初始机器学习模型，上述初始机器学习模型的超参数为预先确定的目标最优超参数。

其中，上述目标最优超参数是通过对备选超参数对应的模型进行训练、对训练后的模型进行测试、基于测试结果剔除部分备选超参数以及基于贝叶斯优化得到下一批备选超参数这一过程进行迭代得到的。

上述初始机器学习模型为预先确定的目标最优超参数对应的模型，上述目标最优超参数通过训练-测试-剔除循环过程结合贝叶斯优化来确定，对于每一批超参数，上述训练-测试-剔除循环过程剔除其中的部分超参数，剩余的超参数通过贝叶斯优化后得到更优的备选超参数，以作为下一批用于训练的模型对应的超参数。

在操作S202，从源图像样本集中获取待处理的源图像样本。

在一实施例中，源图像样本集可以是从实际应用场景中获取的数据形成的样本数据库，例如从视频监控装置拍摄的视频数据中截取出一个或多个视频帧所对应的图像数据作为源图像样本集中的源图像样本。在另一实施例中，源图像样本集也可以是由人工从电子设备导入的样本数据形成的样本数据库。待处理的源图像样本为大规模的源图像样本，其个数根据实际训练需要进行设置，例如为10²～10⁶的数量级。

在操作S203，对上述待处理的源图像样本进行预处理操作，得到预处理后的样本数据。

通过对待处理的源图像样本进行预处理，使得源图像样本的格式和尺寸符合机器学习模型输入的要求。

在操作S204，将上述预处理后的样本数据输入至上述初始机器学习模型中进行训练，训练完成得到的目标机器学习模型为图像识别模型。

超参数用来定义模型的复杂性或学习能力。超参数不能直接从标准模型的训练过程中学习得到，需要预先定义。超参数可以包括但不限于是以下中的一种或多种：学习率、深层神经网络隐藏层层数、k均值聚类中的簇数，树的数量或树的深度。

机器学习算法，比如支持向量机(SVM)的超参数包括gamma超参数、kernel超参数、C超参数等，而神经网络模型的超参数包括学习率(learning_rate)、优化器/优化算法(optimizer)、L1/L2正则化(normalization)等。

例如定义一个神经网络模型有9527层网络并且都用RELU作为激活函数，这个9527层和RELU激活函数就是一组超参数。又例如定义这个模型使用RMSProp优化算法和learning rate为0.01，那么这两个控制训练过程的属性也是超参数。

基于上述操作S201～S204，通过对备选超参数对应的模型进行训练、对训练后的模型进行测试、基于测试结果剔除部分备选超参数以及基于贝叶斯优化得到下一批备选超参数这一过程进行迭代来确定目标最优超参数，在每次迭代过程中，在训练-测试-剔除过程中剔除部分超参数，后续结合贝叶斯优化能够选择概率上更优的超参数，将上述概率上更优的超参数作为下一批备选超参数来继续实施训练-测试-剔除过程结合贝叶斯优化；一方面能够提升超参数搜索的时间效率，降低了模型超参数优化的迭代时间和资源消耗，使得计算资源向表现性能更好的超参数对应的模型进行倾斜，进而提升目标最优超参数对应的初始机器学习模型的训练性能。

根据本公开的实施例，上述操作S204中，基于混合精度训练和分布式训练进行上述训练操作。例如，可以基于Apex的半精度FP16+单精度FP32混合精度训练和基于PyTorch的分布式训练。

半精度浮点格式(FP16)使用16位，而单精度(FP32)使用32位，通过混合精度训练和分布式训练，能够降低所需的资源消耗，并提升训练效率。

图3示意性示出了根据本公开另一实施例的构建图像识别模型的方法的流程图。

参照图3所示，本公开实施例提供的构建图像识别模型的方法除了包括上述操作：S201～S204之外，还包括以下操作S301，确定确定目标最优超参数和初始机器学习模型。

上述操作S301可以预先执行，得到目标最优超参数和对应的初始机器学习模型之后在操作S201中直接调用即可，不必每次训练的时候都重新确定一次初始机器学习模型。

图4示意性示出了根据本公开实施例的确定目标最优超参数和初始机器学习模型的详细实施过程图。

参照图4所示，上述确定初始机器学习模型的操作S301包括多轮优化操作，根据实际资源情况或者根据优化的结果可以仅实施1～4轮即可，也可以实施更多轮优化操作(或者描述为多次迭代过程)，针对每一批(每一次迭代过程中)的备选超参数(一批备选超参数对应于一轮优化操作的对象)，实施训练-测试-剔除循环过程和贝叶斯优化过程，优化过程中得到的超参数或者优化最后得到的超参数作为最优超参数的候选，从上述最优超参数的候选中选择一组最优超参数作为上述目标最优超参数。

具体而言，上述确定目标最优超参数和初始机器学习模型包括：针对具有不同备选超参数的模型，实施训练-测试-剔除和贝叶斯优化的迭代过程，直至迭代达到预设次数T后停止，T≥2且T为整数。

在第i次训练-测试-剔除和贝叶斯优化的迭代过程中，i＝1,2…或T，实施以下操作：

针对M_i组备选超参数对应的模型进行N_i次训练；

对训练后的M_i组模型进行测试；

基于所述M_i组模型的测试结果来剔除所述M_i组备选超参数中的部分备选超参数，得到剩余的k_i组待定超参数；以及

基于高斯回归过程计算出

即，在多次训练-测试-剔除和贝叶斯优化的迭代过程中，可以选择迭代过程中的一组备选超参数作为目标最优超参数，或者选择迭代结束时对应的一组备选超参数作为目标最优超参数。针对具有不同备选超参数的模型，实施多次训练-测试-剔除和贝叶斯优化的迭代过程后，得到的上述目标最优超参数对应的模型即为初始机器学习模型。

在图4中示意了第一轮优化操作S3011a和S3011b，第二轮优化操作S3012a和S3012b，第三轮优化操作S3013a和S3013b，后续的优化操作可以参照前面的逻辑依次类推。

在操作S3011a，经过第一预设次数的训练-测试-剔除循环过程，使得第一预设组数的初始超参数经过逐步按比例剔除之后，得到剩余的k₁组待定超参数，k₁≥2。在第一次迭代过程中，这里将备选超参数描述为初始超参数，后续的迭代过程中均描述为备选超参数。

图4中以N₁示例第一预设次数，N₁≥2且为整数，以M₁示例第一预设组数，M₁≥2且为整数。初始超参数可以是用户根据已有超参数的选项随机挑选的多组超参数，也可以是由服务器或具有一定运算能力的终端设备从数据库中随机挑选的多组超参数。

实际上，针对大规模数据，第一预设组数可以是10～30组，或者更多组也可以。删除比例这里采用50％，也可以在20％～60％之间进行调整。

在操作S3011b，基于高斯过程回归计算出上述k₁组待定超参数的后验概率分布，并基于贝叶斯优化算法选择下一批概率上更优的第二预设组数的备选超参数。

图4中以M₂示例第二预设组数，M₂为正整数，在M₂等于1的情况下，可以直接将确定的该组备选超参数作为目标最优超参数。

通过高斯过程回归(假设超参数之间符合联合高斯分布)计算k₁组待定超参数的后验概率分布，得到每一个超参数在每一个取值点的期望均值和方差，其中均值代表这个点最终的期望效果，均值越大表示模型最终指标越大，方差表示这个点的效果不确定性，方差越大表示这个点不确定是否可能取得最大值非常值得去探索。

对应于均值较大而且方差也比较大的点，很有可能这个点的超参数可以训练得到一个效果指标好的模型。但是不能每次都挑选均值最大的，因为有的点方差很大也有可能存在全局最优解，因此选择均值大的点称为开发(exploritation)，选择方差大的点称为探索(exploration)，基于贝叶斯优化算法可以平衡上述开发和探索，使得求解出来的下一批概率上更优的第二预设组数的备选超参数是根据超参数间的联合概率分布求出来的，并且在均值(开发)和方差(探索)之间做出平衡后得到的最优结果。

基于上述操作S3011a的训练-测试-剔除循环过程和操作S3011b的贝叶斯优化过程，实现了第一轮优化，可以得到多组超参数，为了描述方便，将超参数描述为备选超参数，如果要进行第二轮优化，M₂组备选超参数需要作为第二轮的输入继续重复实施上述训练-测试-剔除循环过程和贝叶斯优化过程。如果经过第一轮之后得到的超参数不再进行优化，也可以直接输出性能最好的模型对应的最优超参数作为目标最优超参数。

在操作S3012a，针对上述备选超参数，经过第二预设次数的训练-测试-剔除循环过程，使得上述备选超参数经过逐步按比例剔除之后，得到剩余的k₂组待定超参数，k₂≥1。

在操作S3012b，基于高斯回归过程计算出k₁+k₂组待定超参数的后验概率分布，基于贝叶斯优化算法选择下一批概率上更优的第三预设组数的备选超参数。

需要强调的是，在后一轮优化时，会把前面所有轮经过训练-测试-剔除循环过程筛选出来的待定超参数整体作为一个集合，然后对该集合里面的所有点实施贝叶斯优化过程。

图4中以N₂示例第二预设次数。第一轮优化得到的M₂组备选超参数作为第二轮的输入，再次经过操作S3012a的训练-测试-剔除循环过程和操作S3012b的贝叶斯优化过程，得到下一批概率上更优的M₃组备选超参数。

以此类推，在第三轮优化时，参照图4所示，在操作S3013a，M₃组备选超参数经过N₃次的训练-测试-剔除循环过程，使得上述M₃组备选超参数经过逐步按比例剔除之后，得到剩余的k₃组待定超参数，k₃≥1。上述参数中，N₂≥2且为整数，N₃≥2且为整数，M₃为正整数。

在操作S3013b，基于高斯回归过程计算出k₁+k₂+k₃组待定超参数的后验概率分布，基于贝叶斯优化算法选择下一批概率上更优的M₄组备选超参数，作为第四轮优化的输入。

上述多轮优化操作过程可以不断持续，也可以在任何时候终止，最终可以使用里面效果最好的超参数作为目标最优超参数，作为上述操作S203中初始机器学习模型的超参数。

模型的超参数调优往往需要付出大量的人工成本，才能对固定的场景训练出更好的模型，但往往在更换不同的模型，场景和数据集后都需要再次进行人工优化，需要消耗大量的人力资源。本公开实施例提供的通过训练-测试-剔除循环过程结合贝叶斯优化来确定目标最优超参数，例如通过预设比例为一半剔除的方式，将超参搜索算法的时间复杂度由O(N)(O表示时间复杂度，N表示搜索规模)降低为O(log N)，可以在单位时间内分析更多的超参数，通过基于多阶段迭代优化，可以自动获得一组效果最好的超参数和模型，替代了繁琐而又重复的人工劳动。

图5示意性示出了根据本公开实施例的训练-测试-剔除循环过程的详细实施过程图。

在上述每轮优化操作中均包括训练-测试-剔除循环过程和贝叶斯优化过程，这里结合图5来示例性描述针对当前轮优化操作，如何实施训练-测试-剔除循环过程。

首先，针对具有不同超参数的模型，进行既定次数的训练。这里的既定次数为预设的值。上述超参数包括：初始超参数或备选超参数。在图5中以前述第一轮优化操作中的训练-测试-剔除循环过程作为示例，用于训练的超参数为初始超参数。可以理解的是，在后续几轮优化操作中的训练-测试-剔除循环过程中，用于训练的超参数为备选超参数。在迭代过程的描述中，将首次迭代过程和后续迭代过程中输入的超参数均描述为备选超参数。

参照图5所示，以第一预设比例、第二预设比例和第三预设比例均为1/2作为示例，在进行既定次数的训练期间，循环多次上述训练-测试-剔除循环过程，包括：

首次循环：当上述具有不同备选超参数的模型各自训练多轮(n₁₁次)之后，基于测试数据来测试性能，得到第一测试结果；根据上述第一测试结果，从上述超参数中剔除第一预设比例的超参数；

二次循环：针对剔除第一预设比例后剩余的超参数所对应的模型，继续进行训练，并在训练多轮(n₁₂次)之后，基于测试数据来测试性能，得到第二测试结果；根据上述第二测试结果来剔除第二预设比例的超参数；

三次循环，针对剔除第二预设比例后剩余的超参数所对应的模型，继续进行训练，并在训练多轮(n₁₃次)之后，基于测试数据来测试性能，得到第三测试结果；根据上述第三测试结果来剔除第三预设比例的超参数；

以此类推，通过循环多次上述训练-测试-剔除循环过程，直至完成上述既定次数的训练过程，得到剩余的超参数。

上述循环的次数作为示例，实际上可以是2次循环之后就结束，3次循环之后就结束，或者更多次的循环之后就结束。

可以理解的是，每次循环过程中的训练次数小于既定次数，所有循环的训练次数总和可以等于既定次数。既定次数的值在多轮优化操作中分别可以对应于N₁、N₂、N₃等预设次数的值。

图6示意性示出了根据本公开实施例的对待处理的源图像样本进行预处理操作的详细实施过程图。

根据本公开的实施例，参照图6所示，以图像输入数据来统称待处理的图像数据，这里的图像输入数据可以是操作S203中的待处理的源图像样本。在后续的实施例中，上述图像输入数据也可以是超参数优化过程中的训练图像样本。

参照图6所示，对上述待处理的源图像样本进行预处理操作，得到预处理后的样本数据的操作S203包括：将用于上述源图像样本的预处理操作按照是否可被批量化实施分类为单独操作和可批量化操作；以及将上述待处理的源图像样本按照上述单独操作和上述可批量化操作分步进行预处理，得到预处理后的样本数据。在图6中还示例了执行单独操作的主体为中央处理器CPU，执行可批量化操作的主体为图形处理器GPU。

在一实施例中，参照图6所示，将上述待处理的源图像样本按照上述单独操作和上述可批量化操作分步进行预处理，包括：针对当前组待处理的源图像样本的每个源图像样本，进行上述单独操作的第一预处理，每个源图像样本经过上述第一预处理后得到三维特征图张量(对应于图6的图像输入数据的处理结果)；将得到的三维特征图张量放入至待提取数据队列中并进行计数；在上述待提取数据队列中的计数值达到一个批次的预设值时，从上述待提取数据队列中将一个批次的三维特征图张量提取出来，得到初始样本数据；以及对上述初始样本数据进行上述可批量化操作的第二预处理，以得到预处理后的样本数据。

由此可知，在上述预处理的过程中，输入到GPU的数据是批量化图像数据，将部分可以按批操作的预处理(例如归一化操作)移动到用于训练的机器学习模型的前向，比如神经网络的前向(例如为GPU)中，直接对可批量化操作的批量化数据进行一次操作即可，避免了相关技术中使用for循环对每张图片单独进行归一化的操作的繁琐，提高了预处理的效率。

图6中以虚线线型示意可以同步进行的操作过程。根据本公开的实施例，参照图6所示，在当前组待处理的源图像样本处理完成时，从上述源图像样本集中获取下一组待处理的源图像样本进行上述第一预处理，上述下一组待处理的源图像样本的第一预处理过程与上述当前组待处理的源图像样本的第二预处理过程同步进行。

当前模型在训练更新的同时，下一批数据也同时在进行预处理，而不是要等当前模型完成更新之后，要获取下一批数据的时候才开始做预处理，这样通过异步的方式解耦了预处理和模型前向，能够提升模型的训练效率。

根据本公开的实施例，上述单独操作包括但不限于：数据增强处理操作和图像大小变换至统一尺寸操作，上述数据增强处理操作包括但不限于以下至少之一：随机翻转、随机亮度变化、随机角度旋转、随机抠图、随机擦除、平移变化；上述可批量化操作包括但不限于：归一化操作。其中，数据增强处理操作和图像大小变换至统一尺寸可以交换顺序的前提是：执行于图像大小变换至统一尺寸这一操作之后的操作不会改变尺寸。

基于无限循环的生成器来替代传统的迭代器，能够实现数据传输部分的优化。一般的迭代器会在所有数据遍历结束之后重新初始化，这样每个周期/循环(epoch)开始会产生额外的开销。通过在每次数据集遍历完成之后，即时进行数据下标的随机打乱，这样可以减少额外的开销，使训练流程更加高效。

基于相同的技术构思，在上述确定目标最优超参数的操作S301中，针对具有不同超参数的具有不同备选超参数的模型，进行既定次数的训练时，具有不同备选超参数的模型的输入数据也可以通过上述预处理的方式来提升训练效率。

根据本公开的实施例，上述具有不同备选超参数的模型的输入数据为预处理后的训练数据。

本公开实施例提供的方法还包括：将用于训练图像样本的预处理操作按照是否可被批量化实施分类为单独操作和可批量化操作；将上述训练图像样本按照上述单独操作和上述可批量化操作分步进行预处理，得到预处理后的训练数据；以及将上述预处理后的训练数据输入至具有不同备选超参数的模型中分别进行训练。

可以参照图6中的构思，将本实施例的训练图像样本作为图6中的图像输入数据，则将上述训练图像样本按照上述单独操作和上述可批量化操作分步进行预处理，得到预处理后的训练数据包括：针对每个训练图像样本，进行上述单独操作的第一预处理，每个训练图像样本经过上述第一预处理后得到三维特征图张量(对应于图6的图像输入数据的处理结果)；将得到的三维特征图张量放入至待提取数据队列中并进行计数；在上述待提取数据队列中的计数值达到一个批次的预设值时，从上述待提取数据队列中将一个批次的三维特征图张量提取出来，得到初始训练样本数据；以及对上述初始训练样本数据进行上述可批量化操作的第二预处理，以得到预处理后的训练数据。

本实施例中单独操作和可批量化操作的内容可以参照前面的描述。

根据本公开的实施例，在当前组训练图像样本处理完成时，从训练图像样本集中获取下一组待处理的训练图像样本进行上述第一预处理，下一组训练图像样本的第一预处理过程与当前组训练图像样本的第二预处理过程同步进行。

根据本公开的实施例，在确定目标最优超参数的操作S301中，基于无限循环的生成器来进行计数，在每次数据集遍历完成之后进行数据下标的随机打乱，以重新进行计数。

本公开的第二个示例性实施例提供了一种图像识别的方法。

图7示意性示出了根据本公开实施例的图像识别的方法的流程图。

参照图7所示，本公开实施例提供的图像识别的方法包括以下操作：S701、S702和S703。

在操作S701，获取待处理图像。

在操作S702，将待处理图像输入到采用上述构建图像识别模型的方法构建得到的图像识别模型。

在操作S703，基于上述图像识别模型进行图像识别，以得到上述待处理图像的图像识别结果。

基于构建得到的图像识别模型可以进行图像识别，其中上述图像识别包括：感兴趣区域的识别，能够广泛应用至各个场景中的图像识别且图像识别准确度较高。

本公开的第三个示例性实施例提供了一种用于构建图像识别模型的装置。

图8示意性示出了根据本公开实施例的用于构建图像识别模型的装置的结构框图。

参照图8所示，本公开实施例提供的用于构建图像识别模型的装置800包括：模型获取模块801、图像获取模块802、预处理模块803和训练模块804。

上述模型获取模块801用于获取初始机器学习模型，上述初始机器学习模型的超参数为预先确定的目标最优超参数。其中，上述目标最优超参数是通过对备选超参数对应的模型进行训练、对训练后的模型进行测试、基于测试结果剔除部分备选超参数以及基于贝叶斯优化得到下一批备选超参数这一过程进行迭代得到的。

上述图像获取模块802用于从源图像样本集中获取待处理的源图像样本。

上述预处理模块803用于对上述待处理的源图像样本进行预处理操作，得到预处理后的样本数据。

示例性的，预处理模块803中，执行单独操作的主体为中央处理器CPU，执行可批量化操作的主体为图形处理器GPU。对于单独操作而言，根据CPU的内核和并行线程来决定一批批次图像输入数据处理的并行度。对于同一个图像输入数据而言，可以先进行完单独操作之后再进行可批量化操作。

上述训练模块804用于将上述预处理后的样本数据输入至上述初始机器学习模型中进行训练，训练完成得到的目标机器学习模型为图像识别模型。其中，上述初始机器学习模型为预先确定的目标最优超参数对应的目标最优模型，上述目标最优超参数通过训练-测试-剔除循环过程结合贝叶斯优化来确定。

根据本公开的实施例，上述装置800中可以预先存储有目标最优超参数对应的初始机器学习模型，或者可以调用预先建立好的目标最优模型。

根据本公开的实施例，上述装置800除了包括模型获取模块801、图像获取模块802、预处理模块803和训练模块804之外，也可以进一步包括：初始机器学习模型确定模块，用于确定目标最优超参数及对应的初始机器学习模型。

根据本公开的实施例，确定初始机器学习模型包括：针对具有不同备选超参数的模型，实施训练-测试-剔除和贝叶斯优化的迭代过程，直至迭代达到预设次数T后停止，T≥2且T为整数。

针对M_i组备选超参数对应的模型进行N_i次训练；

对训练后的M_i组模型进行测试；

基于高斯回归过程计算出

组待定超参数的后验概率分布，并基于贝叶斯优化算法计算得到用于第i+1次迭代过程的备选超参数。

其中，当i＝1时对应的备选超参数为随机初始化得到的备选超参数；用于第j次迭代过程的备选超参数作为所述目标最优超参数，所述目标最优超参数对应的模型作为初始机器学习模型，j＝2,3,…或T。

上述确定目标最优超参数包括多轮优化操作，根据实际资源情况或者根据优化的结果可以仅实施1～4轮即可，也可以实施更多轮优化操作，针对每一批的备选超参数(一批备选超参数对应于一轮优化操作的对象)，实施训练-测试-剔除循环过程和贝叶斯优化过程，优化过程中得到的超参数或者优化最后得到的超参数作为最优超参数的候选，从上述最优超参数的候选中选择一组最优超参数作为上述目标最优超参数。最优超参数确定模块具有实施训练-测试-剔除循环过程和贝叶斯优化过程对应的功能模块或子模块。

上述模型获取模块801、图像获取模块802、预处理模块803和训练模块804中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。模型获取模块801、图像获取模块802、预处理模块803和训练模块804中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，模型获取模块801、图像获取模块802、预处理模块803和训练模块804中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

本公开第四个示例性实施例提供了一种图像识别的装置。

图9示意性示出了根据本公开实施例的图像识别的装置的结构框图。

参照图9所示，本公开实施例提供的图像识别的装置900包括：图像获取模块901、输入模块902和图像识别模块903。

上述图像获取模块901用于获取待处理图像。

上述输入模块902用于将待处理图像输入到采用如上所述的构建图像识别模型的方法或者采用如上所述的用于构建图像识别模型的装置构建得到的图像识别模型中。

上述图像识别模块903用于基于上述图像识别模型进行图像识别，以得到上述待处理图像的图像识别结果。

上述图像获取模块901、输入模块902和图像识别模块903中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。图像获取模块901、输入模块902和图像识别模块903中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，图像获取模块901、输入模块902和图像识别模块903中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

本公开的第五个示例性实施例提供了一种电子设备。

参照图10所示，本公开实施例提供的电子设备1000包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001、通信接口1002和存储器1003通过通信总线1004完成相互间的通信；存储器1003，用于存放计算机程序；处理器1001，用于执行存储器上所存放的程序时，实现如上所述的构建图像识别模型的方法或图像识别的方法。

本公开的第六个示例性实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的构建图像识别模型的方法或图像识别的方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种构建图像识别模型的方法，其特征在于，包括：

获取初始机器学习模型，所述初始机器学习模型的超参数为预先确定的目标最优超参数；其中，所述目标最优超参数是通过对备选超参数对应的模型进行训练、对训练后的模型进行测试、基于测试结果剔除部分备选超参数以及基于贝叶斯优化得到下一批备选超参数这一过程进行迭代得到的；

从源图像样本集中获取待处理的源图像样本；

对所述待处理的源图像样本进行预处理操作，得到预处理后的样本数据；以及

将所述预处理后的样本数据输入至所述初始机器学习模型中进行训练，训练完成得到的目标机器学习模型为图像识别模型。

2.根据权利要求1所述的方法，其特征在于，还包括：确定目标最优超参数和初始机器学习模型，所述确定目标最优超参数和初始机器学习模型包括：

针对具有不同备选超参数的模型，实施训练-测试-剔除和贝叶斯优化的迭代过程，直至迭代达到预设次数T后停止，T≥2且T为整数；

针对M_i组备选超参数对应的模型进行N_i次训练；

对训练后的M_i组模型进行测试；

基于高斯回归过程计算出

组待定超参数的后验概率分布，并基于贝叶斯优化算法计算得到用于第i+1次迭代过程的备选超参数；

3.根据权利要求2所述的方法，其特征在于，所述具有不同备选超参数的模型进行训练的输入数据为预处理后的训练数据；所述方法还包括：

将用于训练图像样本的预处理操作按照是否可被批量化实施分类为单独操作和可批量化操作；

将所述训练图像样本按照所述单独操作和所述可批量化操作分步进行预处理，得到预处理后的训练数据；以及

将所述预处理后的训练数据输入至所述具有不同备选超参数的模型中分别进行训练。

4.根据权利要求1所述的方法，其特征在于，所述对所述待处理的源图像样本进行预处理操作，得到预处理后的样本数据，包括：

将用于所述源图像样本的预处理操作按照是否可被批量化实施分类为单独操作和可批量化操作；

将所述待处理的源图像样本按照所述单独操作和所述可批量化操作分步进行预处理，得到预处理后的样本数据。

5.根据权利要求4所述的方法，其特征在于，所述将所述待处理的源图像样本按照所述单独操作和所述可批量化操作分步进行预处理，包括：

针对当前组待处理的源图像样本的每个源图像样本，进行所述单独操作的第一预处理，每个源图像样本经过所述第一预处理后得到三维特征图张量；

将得到的三维特征图张量放入至待提取数据队列中并进行计数；

在所述待提取数据队列中的计数值达到一个批次的预设值时，从所述待提取数据队列中将一个批次的三维特征图张量提取出来，得到初始样本数据；以及

对所述初始样本数据进行所述可批量化操作的第二预处理，以得到预处理后的样本数据。

6.根据权利要求5所述的方法，其特征在于，在当前组待处理的源图像样本处理完成时，从所述源图像样本集中获取下一组待处理的源图像样本进行所述第一预处理，所述下一组待处理的源图像样本的第一预处理过程与所述当前组待处理的源图像样本的第二预处理过程同步进行。

7.根据权利要求5所述的方法，其特征在于，基于无限循环的生成器来进行计数，在每次数据集遍历完成之后进行数据下标的随机打乱，以重新进行计数。

8.一种图像识别的方法，其特征在于，包括：

获取待处理图像；

将待处理图像输入到采用权利要求1-7中任一项所述的方法构建得到的图像识别模型中；以及

基于所述图像识别模型进行图像识别，以得到所述待处理图像的图像识别结果。

9.一种用于构建图像识别模型的装置，其特征在于，包括：

模型获取模块，用于获取初始机器学习模型，所述初始机器学习模型的超参数为预先确定的目标最优超参数；其中，所述目标最优超参数是通过对备选超参数对应的模型进行训练、对训练后的模型进行测试、基于测试结果剔除部分备选超参数以及基于贝叶斯优化得到下一批备选超参数这一过程进行迭代得到的；

图像获取模块，用于从源图像样本集中获取待处理的源图像样本；

预处理模块，用于对所述待处理的源图像样本进行预处理操作，得到预处理后的样本数据；以及

训练模块，用于将所述预处理后的样本数据输入至所述初始机器学习模型中进行训练，训练完成得到的目标机器学习模型为图像识别模型。

10.一种图像识别的装置，其特征在于，包括：

图像获取模块，用于获取待处理图像；

输入模块，用于将待处理图像输入到采用权利要求1-7中任一项所述的方法或者采用权利要求9所述的装置构建得到的图像识别模型中；

图像识别模块，用于基于所述图像识别模型进行图像识别，以得到所述待处理图像的图像识别结果。

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。