CN110516737A

CN110516737A - 用于生成图像识别模型的方法和装置

Info

Publication number: CN110516737A
Application number: CN201910790984.0A
Authority: CN
Inventors: 徐麟; 孙瀚; 陈志远
Original assignee: Nanjing Institute Of Artificial Intelligence Co Ltd
Current assignee: Nanjing Institute Of Artificial Intelligence Co Ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2019-11-29
Anticipated expiration: 2039-08-26
Also published as: CN110516737B

Abstract

本公开实施例公开了一种用于生成图像识别模型的方法和装置，其中，该方法包括：针对样本图像集合中的每个样本图像，通过初始模型确定每个样本图像的特征数据，其中，样本图像集合包括多个子集合，每个子集合对应一个图像类别；基于每个样本图像的特征数据，确定每个图像类别的平均特征数据；基于每个样本图像的特征数据和每个图像类别的平均特征数据，更新初始模型的参数；若初始模型的参数满足预设条件，将更新后的初始模型确定为图像识别模型。本公开实施例可以降低样本对的采样复杂度，提高了模型的训练效率，有助于挖掘难样本对，从而提高了生成的图像识别模型的识别准确性。

Description

用于生成图像识别模型的方法和装置

技术领域

本公开涉及计算机技术领域，尤其是一种用于生成图像识别模型的方法和装置、用于识别图像的方法和装置、计算机可读存储介质及电子设备。

背景技术

学习数据的语义嵌入度量，缩小数据类内差异(或距离)，使相似的同类样本聚集在一起；扩大数据类间差异(或距离)，使不相似的异类样本分开是物体识别任务的重要基石。随着深度学习技术的迅速发展，深度度量学习近年来越来越受到重视。通过端到端地训练深度神经网络，可以学习到复杂的高度非线性的数据深度特征表示(从输入空间到低维语义嵌入度量空间)。深度度量学习到的深度特征表示和语义嵌入度量在视觉识别中有广泛的应用场景和优异的识别性能，例如，2D自然图像检索/分类、人脸识别、3D物体检索/分类、多源异构视觉感知数据跨模态检索(如2D图像/视频、3D物体、文本数据之间的检索匹配)等。为了提高图像识别模型的识别准确性，需要从众多的训练样本中挖掘难样本(即距离较近的异类样本及距离较远的同类样本)，从而使训练的模型能够更准确地提取图像的特征。

发明内容

本公开的实施例提供了一种用于生成图像识别模型的方法和装置、用于识别图像的方法和装置、计算机可读存储介质及电子设备。

本公开的实施例提供了一种用于生成图像识别模型的方法，该方法包括：针对样本图像集合中的每个样本图像，通过初始模型确定每个样本图像的特征数据，其中，样本图像集合包括多个子集合，每个子集合对应一个图像类别；基于每个样本图像的特征数据，确定每个图像类别的平均特征数据；基于每个样本图像的特征数据和每个图像类别的平均特征数据，更新初始模型的参数；若初始模型的参数满足预设条件，将更新后的初始模型确定为图像识别模型。

根据本公开实施例的另一个方面，提供了一种用于识别图像的方法，包括：获取目标图像和待匹配图像集合；将目标图像和待匹配图像集合中的待匹配图像分别输入预先训练的图像识别模型，得到待识别图像的特征数据和待匹配图像的特征数据，其中，图像识别模型是基于上述第一方面中任一实施例的方法训练得到的；基于所得到的特征数据，确定目标图像分别与待匹配图像集合中的图像的相似度；将符合预设条件的相似度对应的待匹配图像，确定为与目标图像匹配的图像。

根据本公开实施例的另一个方面，提供了一种用于生成图像识别模型的装置，该装置包括：第一确定模块，用于针对样本图像集合中的每个样本图像，通过初始模型确定每个样本图像的特征数据，其中，样本图像集合包括多个子集合，每个子集合对应一个图像类别；第二确定模块，用于基于每个样本图像的特征数据，确定每个图像类别的平均特征数据；更新模块，用于基于每个样本图像的特征数据和每个图像类别的平均特征数据，更新初始模型的参数；第三确定模块，用于若初始模型的参数满足预设条件，将更新后的初始模型确定为图像识别模型。

根据本公开实施例的另一个方面，提供了一种用于识别图像的装置，包括：获取模块，用于获取目标图像和待匹配图像集合；识别模块，用于将目标图像和待匹配图像集合中的待匹配图像分别输入预先训练的图像识别模型，得到待识别图像的特征数据和待匹配图像的特征数据，其中，图像识别模型是基于上述第一方面中任一实施例描述的方法训练得到的；第四确定模块，用于基于所得到的特征数据，确定目标图像分别与待匹配图像集合中的图像的相似度；第五确定模块，用于将符合预设条件的相似度对应的待匹配图像，确定为与目标图像匹配的图像。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于执行上述用于生成图像识别模型的方法或用于识别图像的方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述用于生成图像识别模型的方法或用于识别图像的方法。

基于本公开上述实施例，通过确定样本图像集合中的每个样本图像的特征数据和每个图像类别的平均特征数据，再基于每个样本图像的特征数据和每个图像类别的平均特征数据，更新初始模型的参数，从而实现了将图像的特征数据和图像类别的平均特征数据作为样本对对初始模型进行训练，由于图像类别的平均特征数据可以表征一类图像的特征，从而可以避免采集大量的简单样本和低质样本，降低了样本对的采样复杂度，减少了采集样本耗费的时间，并且提高了样本对的质量，从而提高了模型的训练效率，并且基于平均特征数据得到的样本对，可以更全面、准确地表征各个图像类别的特征，有助于挖掘难样本对，从而提高了生成的图像识别模型的识别准确性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统图。

图2是本公开一示例性实施例提供的用于生成图像识别模型的方法的流程示意图。

图3是本公开另一示例性实施例提供的用于生成图像识别模型的方法的流程示意图。

图4(a)是本公开的实施例的更新模型参数前第一梯度和第二梯度的示意图。

图4(b)是本公开的实施例的训练过程中第一梯度和第二梯度的示意图。

图4(c)是本公开的实施例的训练结束后第一梯度和第二梯度的示意图。

图5是本公开一示例性实施例提供的用于识别图像的方法的流程示意图。

图6是本公开一示例性实施例提供的用于生成图像识别模型的装置的结构示意图。

图7是本公开另一示例性实施例提供的用于生成图像识别模型的装置的结构示意图。

图8是本公开一示例性实施例提供的用于识别图像的装置的结构示意图。

图9是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

目前在深度度量学习中被广泛使用的是基于对比损失、三元组损失、N元组损失等技术方案。在图像数量为M的训练集上，基于对比损失、三元组或N元组的目标损失函数使可训练样本数量指数级增加，对比损失可训练样本数量复杂度为O(M^2)，三元组损失样本可训练样本数量复杂度为O(M^3)，N元组损失样本可训练样本数量复杂度为O(M^N)。这样采样复杂度大大增加，使这些方法收敛速度慢。

当训练样本集中包含大量低质量样本以及简单样本的情形下，会导致模型在训练过程中被误导，收敛速度很慢，进而降低模型的识别准确度。

示例性系统

图1示出了可以应用本公开实施例的用于生成图像识别模型的方法或用于生成图像识别模型的装置、以及用于识别图像的方法或用于识别图像的装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如图像处理类应用、搜索类应用、网页浏览器应用、即时通信工具等。

终端设备101可以是各种电子设备，包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

服务器103可以是提供各种服务的服务器，例如对终端设备101上传的图像进行处理的后台图像服务器。后台图像服务器可以利用接收的图像进行模型训练，得到图像识别模型，或者，后台图像服务器可以利用图像识别模型识别图像，得到识别结果(例如图像的类别)。

需要说明的是，本公开的实施例所提供的用于生成图像识别模型的方法或用于识别图像的方法可以由服务器103执行，也可以由终端设备101执行，相应地，用于生成图像识别模型的装置或用于识别图像的装置可以设置于服务器103中，也可以设置于终端设备101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

示例性方法

图2是本公开一示例性实施例提供的用于生成图像识别模型的方法的流程示意图。本实施例可应用在电子设备(例如图1所示的服务器或终端设备)上，如图2所示，包括如下步骤：

步骤201，针对样本图像集合中的每个样本图像，通过初始模型确定每个样本图像的特征数据。

在本实施例中，样本图像集合可以是存储在电子设备上的图像集合，或存储在与该电子设备通信连接的其他电子设备上的图像集合。样本图像集合可以包括各种图像，例如对道路上的行人拍摄的图像，对特定物体(例如汽车等)拍摄的图像等。其中，样本图像集合包括多个子集合，每个子集合对应一个图像类别。作为示例，样本图像集合中的样本图像可以是对多个行人拍摄的图像，每个行人对应一个图像类别，即针对一个图像类别，该图像类别下的样本图像是对同一个行人拍摄的图像。再例如，样本图像集合中的样本图像可以是针对汽车拍摄的图像，每一种汽车，对应一个子集合。例如图像类别为越野车，该类别对应的子集合有多个越野车图像组成。

样本图像的特征数据可以是用于表征样本的特征(例如颜色特征、纹理特征、线条形状特征等)的数据。通常，特征数据的形式可以为向量。

上述初始模型可以是用于提取输入的图像的特征数据的模型，例如初始模型可以包括任何形式的卷积神经网络(例如，ALEXnet，Googlenet，MobleNet等等)，卷积神经网络可以包括参数(例如权重)，利用参数可以提取样本图像的特征数据。

步骤202，基于每个样本图像的特征数据，确定每个图像类别的平均特征数据。

在本实施例中，电子设备可以基于步骤201中确定的每个样本图像的特征数据，确定每个图像类别的平均特征数据。通常，特征数据可以是向量，可以将每个图像类别下的向量的同位置元素取平均，得到新的向量作为平均特征数据。平均特征数据可以用于表征图像类别的总体特征，用平均特征数据代表一类图像，可以避免个别样本图像因比较特殊(例如，不清晰等)造成的过拟合，提高模型的泛化能力。

步骤203，基于每个样本图像的特征数据和每个图像类别的平均特征数据，更新初始模型的参数。

在本实施例中，电子设备可以基于每个样本图像的特征数据和每个图像类别的平均特征数据，按照各种方法更新初始模型的参数，从而完成模型训练。例如，可以采用度量学习方法，由样本图像的特征数据和样本图像所属的图像类别的平均特征数据组成正样本对，以及由样本图像的特征数据和其他图像类别的平均特征数据组成负样本对，更新初始模型的参数。

步骤204，若初始模型的参数满足预设条件，将更新后的初始模型确定为图像识别模型。

在本实施例中，电子设备可以实时地确定初始模型的参数是否满足预设条件。如果满足，将更新后的初始模型确定为图像识别模型。其中，预设条件可以包括但不限于以下至少一种：训练时长超过预设时长，训练次数超过预设次数等。在本实施例中，初始模型的参数满足预设条件时，表示初始模型已经达到了一定的识别精度，即初始模型的参数已经更新至足以达到图像识别的准确性的要求。

本公开的上述实施例提供的方法，通过确定样本图像集合中的每个样本图像的特征数据和每个图像类别的平均特征数据，再基于每个样本图像的特征数据和每个图像类别的平均特征数据，更新初始模型的参数，从而实现了将图像的特征数据和图像类别的平均特征数据作为样本对对初始模型进行训练，由于图像类别的平均特征数据可以表征一类图像的特征，从而可以避免采集大量的简单样本和低质样本，降低了样本对的采样复杂度，减少了采集样本耗费的时间，并且提高了样本对的质量，从而提高了模型的训练效率，并且基于平均特征数据得到的样本对，可以更全面、准确地表征各个图像类别的特征，有助于挖掘难样本对，从而提高了生成的图像识别模型的识别准确性。

在一些可选的实现方式中，电子设备可以按照如下步骤更新初始模型的参数：

对于样本图像集合中的每个样本图像，将该样本图像的特征数据和该样本图像所属的图像类别的平均特征数据作为正样本对，以及将该样本图像的特征数据和其他图像类别的平均特征数据作为负样本对，更新初始模型的参数。

具体地，电子设备可以采用度量学习方法对初始模型进行训练。其中，度量学习所采用的损失函数可以包括但不限于以下至少一种：对比损失、三元组损失、N元组损失等。作为示例，某个样本图像的特征数据为f_a，该样本图像所属的图像类别的平均特征数据为其他图像类别的平均特征数据为如果采用对比损失进行训练，则每次训练时使用两个样本，将f_a和作为正样本对，将f_a分别和等作为负样本对进行训练。如果采用N元组损失进行训练，则每次训练时使用N+1个样本，可以将f_a作为锚点(Anchor)，将作为正样本，将N-1个其他图像类别的平均特数据(或或其他图像类别的平均特数据)作为负样本进行训练。

本可选的实现方式利用样本图像的特征数据和各个图像类别的平均特征数据作为样本对进行模型训练，可以降低样本对的采样复杂度，提高了模型的训练效率，并且基于平均特征数据得到的样本对，可以更全面、准确地表征各个图像类别的特征，提高了训练得到的图像识别模型的识别准确性。

在一些可选的实现方式中，预设条件可以包括以下至少一种：

预设条件一，对于样本图像集合中的每个样本图像，该样本图像的特征数据与该样本图像所属的图像类别的平均特征数据的距离小于或等于预设的第一距离阈值。具体地，每次使用图像集合中的各个样本图像进行参数调整后，重新使用调整参数的初始模型确定每个样本图像的特征数据以及每个图像类别的平均特征数据，然后确定是否满足预设条件一。如果满足预设条件一，则表示每个样本图像被划分到正确的图像类别，每个样本图像的特征数据可以准确地表征其特征。

预设条件二，对于样本图像集合中的每个样本图像，该样本图像的特征数据与其他图像类别的平均特征数据的距离大于或等于预设的第二距离阈值。如果满足预设条件二，则表示每个样本图像与其他图像类别下的样本图像的距离较远，各个图像类别下的样本图像可以被准确地划分。

进一步参考图3，示出了用于生成图像识别模型的方法的又一个实施例的流程示意图。如图3所示，在上述图2所示实施例的基础上，步骤203可以包括如下步骤：

步骤2031，对于样本图像集合中的每个样本图像，确定预设的损失函数对该样本图像的特征数据的第一梯度，以及确定损失函数对每个图像类别的平均特征数据的第二梯度。

在本实施例中，对于某个样本图像，损失函数可以表征该样本图像的特征数据与该样本图像所属的图像类别的平均特征数据之间的距离，以及该样本图像的特征数据与其他图像类别的平均特征数据之间的距离。通过梯度下降法，可以逐渐减小损失函数的损失值，即逐渐缩小该样本图像与该样本图像所属的图像类别的平均特征数据之间的距离，以及增大该样本图像的特征数据与其他图像类别的平均特征数据之间的距离。

作为示例，上述预设的损失函数可以如下式所示：

其中，m为样本图像集合中的样本图像的数量，a为一个样本图像的编号，f_a为样本图像的特征数据，表示c_i类的平均特征数据，i为图像类别的序号，c(a)表示样本图像a所属的类别，表示c(a)类的平均特征数据。

电子设备可以利用公式(1)分别对f_a、求导，即得到的第一梯度为第二梯度包括

步骤2032，基于第一梯度与第二梯度，更新初始模型的参数。

在本实施例中，电子设备可以利用梯度下降法，基于第一梯度与第二梯度，更新初始模型的参数。

参考图4(a)-图4(c)，其示出了基于第一梯度和第二梯度更新初始模型的过程的示意图。

如图4(a)所示，白色圆形点表示待优化的特征数据f_a，f_a分别受到第一负类平均特征数据第二负类平均特征数据第三负类平均特征数据三个负类平均特征数据(如图中的正方形、菱形、三角形表征的点)的排斥梯度和正类平均特征数据的吸引梯度，最终损失函数对f_a形成的切线方向的合梯度为第一梯度损失函数对各个平均特征数据的切线方向的合梯度分别为第二梯度第三梯度第四梯度第五梯度

其中，γ角大于β角，所以f_a此时分类错误，即f_a无法准确地表征对应的样本图像的特征。梯度的大小与图中向量的长度对应，比如对于f_a来说，c₃类(第三负类)离它很近，所以排斥力梯度很大，而c₂(第二负类)离他较远，排斥梯度就较小。在利用损失函数进行优化时，对于难负样本对(即距离较近的异类样本)，可以利用排斥力梯度大的特点，大幅度地增大两者之间的距离。因此，本可选的实现方式可以较准确地挖掘难样本对，提高训练得到的图像识别模型的精度。

如图4(b)所示，其示出了更新模型的参数后得到的特征数据和平均特征数据的示意图。虚线边框的图形表示该平均特征数据指示的点在图4(a)中的位置，实线边框的图形表示在更新后的位置，从图中可以看出，白色的待优化的点已经成功得到优化，此时γ角小于β角，分类正确。f_a的正类平均特征数据指示的点也在向着f_a的位置移动，所以可以看出这种更新会渐渐让类内距离减少(类内相似度intra-class similarity增加)。另外三个负类特征数据指示的点均朝着背离f_a的方向移动，即类间距离增大。

如图4(c)所示，不断经过多次迭代更新后，所有点朝着各自类别的中心点移动，并且远离负类的中心点，最终会形成图4(c)所示的状态——四个类均聚集在中心点附近，类间拉开一个类间间隔(margin)，各类的中心点分散得很开，相比图4(b)所示内类距离大大减少。

上述图3对应实施例提供的方法，通过利用预设的损失函数对样本图像的特征数据的第一梯度，以及损失函数对每个图像类别的平均特征数据的第二梯度，对初始模型进行训练，从而可以在训练过程中，更准确地挖掘难样本对，提高了训练得到的图像识别模型的识别准确性。

在一些可选的实现方式中，电子设备可以按照如下步骤确定第一梯度和第二梯度：

首先，确定该样本图像的特征数据与每个图像类别的平均特征数据之间的距离权重。其中，距离权重可以用于在使用梯度下降法进行训练时，损失函数的损失值每次下降的幅度，即对于距离权重大的样本对，损失值下降的幅度较大，反之，对于权重小的样本对，损失值下降的幅度较小。

基于距离权重，确定第一梯度和第二梯度。作为示例，对于正样本对，距离权重可以用于表征正样本对之间的吸引力，即正样本对对应的距离权重越大，吸引力越大。正样本对对应的距离权重可以基于正样本对之间的距离得到，例如，距离权重可以与正样本对之间的距离成反比。对于负样本对，距离权重可以用于表征负样本对之间的排斥力，即负样本对对应的距离权重越大，排斥力越大。负样本对对应的距离权重可以基于负样本对之间的距离得到，例如，距离权重可以与负样本对之间的距离成正比。

上述距离权重可以应用在上述预设的损失函数中。作为示例，以上述式(1)所示的损失函数为例，式(1)是基于log-sum-exp函数得到的，log-sum-exp函数如下式所示：

由式(2)可知，当x_i越大，对x_i的导数越大。因此，如上述式1所示，越大(表征f_a与之间的距离越大)，越小(表征f_a与之间的距离越小)，则导数越大，即第一梯度、第二梯度越大。因此，该损失函数自动体现了距离权重。

本可选的实现方式，通过使用距离权重，可以在利用损失函数进行训练时，有针对性地基于样本对之间的距离调整损失值下降的幅度，从而有利于挖掘出难样本对，提高训练得到的图像识别模型的识别准确性。

图5是本公开一示例性实施例提供的用于识别图像的方法的流程示意图。本实施例可应用在电子设备(如图1所示的服务器或终端设备)上，如图5所示，包括如下步骤：

步骤501，获取目标图像和待匹配图像集合。

在本实施例中，电子设备可以从本地或从远程获取目标图像和待匹配图像集合。其中，目标图像可以是待利用其进行图像检索的图像。例如，目标图像可以是预设的摄像头对行人拍摄的图像，待匹配图像集合可以是预先存储的行人图像集合。

步骤502，将目标图像和待匹配图像集合中的待匹配图像分别输入预先训练的图像识别模型，得到待识别图像的特征数据和待匹配图像的特征数据。

在本实施例中，电子设备可以将目标图像和待匹配图像集合中的待匹配图像分别输入预先训练的图像识别模型，得到待识别图像的特征数据和待匹配图像的特征数据。其中，图像识别模型可以是如上述图2对应实施例中描述的方法得到的图像识别模型。

步骤503，基于所得到的特征数据，确定目标图像分别与待匹配图像集合中的图像的相似度。

在本实施例中，电子设备可以基于所得到的特征数据，确定目标图像分别与待匹配图像集合中的图像的相似度。其中，相似度可以用特征数据之间的距离表征。例如，当距离为欧式距离时，距离越大，相似度越小。当距离为余弦距离时，距离越大，相似度越大。

步骤504，将符合预设条件的相似度对应的待匹配图像，确定为与目标图像匹配的图像。

在本实施例中，电子设备可以将符合预设条件的相似度对应的待匹配图像，确定为与目标图像匹配的图像。作为示例，本实施例的预设条件可以为目标图像的特征数据和待匹配图像的特征数据之间的相似度大于或等于预设的相似度阈值。可选的，电子设备还可以将与目标图像匹配的图像输出，例如，将与目标图像匹配的图像显示在电子设备包括的显示器上，或将与目标图像匹配的图像发送至与该电子设备通信连接的其他电子设备上。

本公开的上述实施例提供的方法用于识别图像的方法，通过使用上述图2对应实施例中的方法训练得到的图像识别模型，可以准确地提取输入的图像的特征数据，从而可以提高图像匹配的准确性，将该图像识别模型应用到行人重识别领域中，可以提高行人重识别的准确性。

本公开实施例提供的任一种用于生成图像识别模型的方法或用于识别图像的方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种用于生成图像识别模型的方法或用于识别图像的方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种用于生成图像识别模型的方法或用于识别图像的方法。下文不再赘述。

示例性装置

图6是本公开一示例性实施例提供的用于生成图像识别模型的装置的结构示意图。本实施例可应用在电子设备(例如图1所示的服务器或终端设备)上，如图6所示，用于生成图像识别模型的装置包括：第一确定模块601，用于针对样本图像集合中的每个样本图像，通过初始模型确定每个样本图像的特征数据，其中，样本图像集合包括多个子集合，每个子集合对应一个图像类别；第二确定模块602，用于基于每个样本图像的特征数据，确定每个图像类别的平均特征数据；更新模块603，用于基于每个样本图像的特征数据和每个图像类别的平均特征数据，更新初始模型的参数；第三确定模块604，用于若初始模型的参数满足预设条件，将更新后的初始模型确定为图像识别模型。

在本实施例中，针对样本图像集合中的每个样本图像，第一确定模块601可以通过初始模型确定每个样本图像的特征数据样本图像集合可以是存储在生成图像识别模型的装置上的图像集合，或存储在与该生成图像识别模型的装置通信连接的其他电子设备上的图像集合。样本图像集合可以包括各种图像，例如对道路上的行人拍摄的图像，对特定物体(例如汽车等)拍摄的图像等。其中，样本图像集合包括多个子集合，每个子集合对应一个图像类别。作为示例，样本图像集合中的样本图像可以是对多个行人拍摄的图像，每个行人对应一个图像类别，即针对一个图像类别，该图像类别下的样本图像是对同一个行人拍摄的图像。

上述初始模型可以是用于提取输入的图像的特征数据的模型，例如初始模型可以包括卷积神经网络，卷积神经网络可以包括参数(例如权重)，利用参数可以提取样本图像的特征数据。

在本实施例中，第二确定模块602可以基于第一确定模块601确定的每个样本图像的特征数据，确定每个图像类别的平均特征数据。通常，特征数据可以是向量，可以将每个图像类别下的向量的同位置元素取平均，得到新的向量作为平均特征数据。

在本实施例中，更新模块603可以基于每个样本图像的特征数据和每个图像类别的平均特征数据，按照各种方法更新初始模型的参数，从而完成模型训练。例如，对于一个样本图像的特征数据，可以将该样本图像的特征数据和该样本图像所属的图像类别的平均特征数据作为正样本对，将该样本图像的特征数据和其他图像类别的平均特征数据作为负样本对，利用度量学习方法训练初始模型，从而更新初始模型的参数。

在本实施例中，第三确定模块604可以实时地确定初始模型的参数是否满足预设条件。如果满足，将更新后的初始模型确定为图像识别模型。其中，预设条件可以包括但不限于以下至少一种：训练时长超过预设时长，训练次数超过预设次数等。

参照图7，图7是本公开另一示例性实施例提供的用于生成图像识别模型的装置的结构示意图。

在一些可选的实现方式中，更新模块603可以进一步用于：对于样本图像集合中的每个样本图像，将该样本图像的特征数据和该样本图像所属的图像类别的平均特征数据作为正样本对，以及将该样本图像的特征数据和其他图像类别的平均特征数据作为负样本对，更新初始模型的参数。

在一些可选的实现方式中，更新模块603可以包括：第一确定单元6031，用于对于样本图像集合中的每个样本图像，确定预设的损失函数对该样本图像的特征数据的第一梯度，以及确定损失函数对每个图像类别的平均特征数据的第二梯度；更新单元6032，用于基于第一梯度与第二梯度，更新初始模型的参数。

在一些可选的实现方式中，第一确定单元6031可以包括：第一确定子单元60311，用于确定该样本图像的特征数据与每个图像类别的平均特征数据之间的距离权重；第二确定子单元60312，用于基于距离权重，确定第一梯度和第二梯度。

在一些可选的实现方式中，预设条件包括以下至少一种：对于样本图像集合中的每个样本图像，该样本图像的特征数据与该样本图像所属的图像类别的平均特征数据的距离小于或等于预设的第一距离阈值；对于样本图像集合中的每个样本图像，该样本图像的特征数据与其他图像类别的平均特征数据的距离大于或等于预设的第二距离阈值。

本公开上述实施例提供的用于生成图像识别模型的装置，通过确定样本图像集合中的每个样本图像的特征数据和每个图像类别的平均特征数据，再基于每个样本图像的特征数据和每个图像类别的平均特征数据，更新初始模型的参数，从而实现了将图像的特征数据和图像类别的平均特征数据作为样本对对初始模型进行训练，由于图像类别的平均特征数据可以表征一类图像的特征，从而可以避免采集大量的简单样本和低质样本，降低了样本对的采样复杂度，减少了采集样本耗费的时间，并且提高了样本对的质量，从而提高了模型的训练效率，并且基于平均特征数据得到的样本对，可以更全面、准确地表征各个图像类别的特征，有助于挖掘难样本对，从而提高了生成的图像识别模型的识别准确性。

图8是本公开一示例性实施例提供的用于识别图像的装置的结构示意图。本实施例可应用在电子设备上，如图8所示，用于识别图像的装置包括：获取模块801，用于获取目标图像和待匹配图像集合；识别模块802，用于将目标图像和待匹配图像集合中的待匹配图像分别输入预先训练的图像识别模型，得到待识别图像的特征数据和待匹配图像的特征数据；第四确定模块804，用于基于所得到的特征数据，确定目标图像分别与待匹配图像集合中的图像的相似度；第五确定模块805，用于将符合预设条件的相似度对应的待匹配图像，确定为与目标图像匹配的图像。

在本实施例中，获取模块801可以从本地或从远程获取目标图像和待匹配图像集合。其中，目标图像可以是待利用其进行图像检索的图像。例如，目标图像可以是预设的摄像头对行人拍摄的图像，待匹配图像集合可以是预先存储的行人图像集合。

在本实施例中，识别模块802可以将目标图像和待匹配图像集合中的待匹配图像分别输入预先训练的图像识别模型，得到待识别图像的特征数据和待匹配图像的特征数据。其中，图像识别模型可以是如上述图2对应实施例中描述的方法得到的图像识别模型。

在本实施例中，第三确定模块803可以基于所得到的特征数据，确定目标图像分别与待匹配图像集合中的图像的相似度。其中，相似度可以用特征数据之间的距离表征。例如，当距离为欧式距离时，距离越大，相似度越小。当距离为余弦距离时，距离越大，相似度越大。

在本实施例中，第四确定模块804可以将符合预设条件的相似度对应的待匹配图像，确定为与目标图像匹配的图像。作为示例，预设条件可以为目标图像的特征数据和待匹配图像的特征数据之间的相似度大于或等于预设的相似度阈值。

本公开上述实施例提供的用于识别图像的装置，通过使用上述图2对应实施例中的方法训练得到的图像识别模型，可以准确地提取输入的图像的特征数据，从而可以提高图像匹配的准确性，将该图像识别模型应用到行人重识别领域中，可以提高行人重识别的准确性。

示例性电子设备

下面，参考图9来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图9图示了根据本公开实施例的电子设备的框图。

如图9所示，电子设备900包括一个或多个处理器901和存储器902。

处理器901可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备900中的其他组件以执行期望的功能。

存储器902可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器901可以运行程序指令，以实现上文的本公开的各个实施例的用于生成图像识别模型的方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备900还可以包括：输入装置903和输出装置904，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置903可以是鼠标、键盘、摄像头等设备，用于输入图像。在该电子设备是单机设备时，该输入装置903可以是通信网络连接器，用于从终端设备101和服务器103接收所输入的图像。

该输出装置904可以向外部输出各种信息，包括确定出的相似的图像。该输出设备904可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备900中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备900还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用于生成图像识别模型的方法或用于识别图像的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用于生成图像识别模型的方法或用于识别图像的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于生成图像识别模型的方法，包括：

针对样本图像集合中的每个样本图像，通过初始模型确定每个样本图像的特征数据，其中，所述样本图像集合包括多个子集合，每个子集合对应一个图像类别；

基于所述每个样本图像的特征数据，确定每个图像类别的平均特征数据；

基于所述每个样本图像的特征数据和所述每个图像类别的平均特征数据，更新所述初始模型的参数；

若所述初始模型的参数满足预设条件，将更新后的初始模型确定为图像识别模型。

2.根据权利要求1所述的方法，其中，所述基于所述每个样本图像的特征数据和所述每个图像类别的平均特征数据，更新所述初始模型的参数，包括：

对于所述样本图像集合中的每个样本图像，将该样本图像的特征数据和该样本图像所属的图像类别的平均特征数据作为正样本对，以及将该样本图像的特征数据和其他图像类别的平均特征数据作为负样本对，更新所述初始模型的参数。

3.根据权利要求1所述的方法，其中，所述基于所述每个样本图像的特征数据和所述每个图像类别的平均特征数据，更新所述初始模型的参数，包括：

对于所述样本图像集合中的每个样本图像，确定预设的损失函数对该样本图像的特征数据的第一梯度，以及确定所述损失函数对每个图像类别的平均特征数据的第二梯度；

基于所述第一梯度与所述第二梯度，更新所述初始模型的参数。

4.根据权利要求3所述的方法，其中，所述确定预设的损失函数对该样本图像的特征数据的第一梯度，以及确定所述损失函数对每个图像类别的平均特征数据的第二梯度，包括：

确定该样本图像的特征数据与每个图像类别的平均特征数据之间的距离权重；

基于所述距离权重，确定所述第一梯度和所述第二梯度。

5.根据权利要求1-4之一所述的方法，其中，所述预设条件包括以下至少一种：

对于所述样本图像集合中的每个样本图像，该样本图像的特征数据与该样本图像所属的图像类别的平均特征数据的距离小于或等于预设的第一距离阈值；

对于所述样本图像集合中的每个样本图像，该样本图像的特征数据与其他图像类别的平均特征数据的距离大于或等于预设的第二距离阈值。

6.一种用于识别图像的方法，包括：

获取目标图像和待匹配图像集合；

将所述目标图像和所述待匹配图像集合中的待匹配图像分别输入预先训练的图像识别模型，得到所述待识别图像的特征数据和所述待匹配图像的特征数据，其中，所述图像识别模型是基于权利要求1-5之一所述的方法训练得到的；

基于所得到的特征数据，确定所述目标图像分别与待匹配图像集合中的图像的相似度；

将符合预设条件的相似度对应的待匹配图像，确定为与所述目标图像匹配的图像。

7.一种用于生成图像识别模型的装置，包括：

第一确定模块，用于针对样本图像集合中的每个样本图像，通过初始模型确定每个样本图像的特征数据，其中，所述样本图像集合包括多个子集合，每个子集合对应一个图像类别；

第二确定模块，用于基于所述每个样本图像的特征数据，确定每个图像类别的平均特征数据；

更新模块，用于基于所述每个样本图像的特征数据和所述每个图像类别的平均特征数据，更新所述初始模型的参数；

第三确定模块，用于若所述初始模型的参数满足预设条件，将更新后的初始模型确定为图像识别模型。

8.根据权利要求7所述的装置，其中，所述更新模块进一步用于：

9.根据权利要求7所述的装置，其中，所述更新模块包括：

第一确定单元，用于对于所述样本图像集合中的每个样本图像，确定预设的损失函数对该样本图像的特征数据的第一梯度，以及确定所述损失函数对每个图像类别的平均特征数据的第二梯度；

更新单元，用于基于所述第一梯度与所述第二梯度，更新所述初始模型的参数。

10.一种用于识别图像的装置，包括：

获取模块，用于获取目标图像和待匹配图像集合；

识别模块，用于将所述目标图像和所述待匹配图像集合中的待匹配图像分别输入预先训练的图像识别模型，得到所述待识别图像的特征数据和所述待匹配图像的特征数据，其中，所述图像识别模型是基于权利要求1-5之一所述的方法训练得到的；

第四确定模块，用于基于所得到的特征数据，确定所述目标图像分别与待匹配图像集合中的图像的相似度；

第五确定模块，用于将符合预设条件的相似度对应的待匹配图像，确定为与所述目标图像匹配的图像。

11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一所述的方法。

12.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6任一所述的方法。