CN118052990A

CN118052990A - 图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN118052990A
Application number: CN202211428180.4A
Authority: CN
Inventors: 綦晨晓; 霰心培
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2024-05-17

Abstract

本发明公开了一种图像识别方法、装置、电子设备及存储介质，该方法包括对待识别图像进行特征提取，得到第一卷积特征图像，利用第一识别模型对第一卷积特征图像进行识别处理，得到初始识别结果，初始识别结果表征对待识别图像中待识别对象的位置识别和类别识别，基于初始识别结果，对第一卷积特征图像进行多次识别处理，得到目标识别结果。采用本发明实施例，能够提高端到端的人物搜索算法的识别精度。

Description

图像识别方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理及机器学习技术领域，尤其涉及一种图像识别方法、装置、电子设备及存储介质。

背景技术

人物搜索的目的是从一组场景图像中定位一个特定的目标人物，这是一个较困难的细粒度识别和检索问题。其中，人物搜索系统必须包括人与背景分离、区分人物间彼此的身份两个任务。在现实世界的应用中，人物搜索系统必须检测到各种图像大小的人物，并在分辨率、视点发生很大变化以及存在遮挡情况时依旧保证能识别出人物。

目前主流的算法主要包括两步搜索和端到端搜索，后者相对来说更高效，但是后者也面临着检测人物和识别人物身份存在冲突的问题。因此，现有的端到端的人物搜索算法的识别精度有待提升。

发明内容

本发明实施例的目的是提供一种图像识别方法、装置、电子设备及存储介质，以解决现有的端到端的人物搜索算法的识别精度低的技术问题。

第一方面，本发明实施例提供了一种图像识别方法，包括：

对待识别图像进行特征提取，得到第一卷积特征图像；

利用第一识别模型对所述第一卷积特征图像进行识别处理，得到初始识别结果；所述初始识别结果表征对所述待识别图像中待识别对象的位置识别和类别识别；

基于所述初始识别结果，对所述第一卷积特征图像进行多次识别处理，得到目标识别结果。

第二方面，本发明实施例提供了一种图像识别装置，包括：

特征提取模块，用于对待识别图像进行特征提取，得到第一卷积特征图像；

第一识别模块，用于利用第一识别模型对所述第一卷积特征图像进行识别处理，得到初始识别结果；所述初始识别结果表征对所述待识别图像中待识别对象的位置识别和类别识别；

第二识别模块，用于基于所述初始识别结果，对所述第一卷积特征图像进行多次识别处理，得到目标识别结果。

第三方面，本发明实施例提供了一种电子设备，电子设备包括处理器、存储器以及存储在存储器中，并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一项的图像识别方法中的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任一项的图像识别方法中的步骤。

本发明实施例提供了一种图像识别方法、装置、电子设备及存储介质，该方法通过先对待识别图像进行特征提取得到第一卷积特征图像，然后利用第一识别模型对第一卷积特征图像进行识别处理以得到表征对待识别图像中待识别对象的位置识别和类别识别的初始识别结果，然后基于初始识别结果，对第一卷积特征图像进行多次识别处理，以多次提高对第一卷积特征图像的识别精度，从而能够精准的得到待识别图像中目标对象的识别结果，提高了端到端的人物搜索算法的识别精度。

附图说明

图1是本发明实施例提供的图像识别方法的一种流程示意图；

图2是本发明实施例提供的预设的对象识别模型的第一个识别阶段学习嵌入向量的一种方法示意图；

图3是本发明实施例提供的图像识别方法的另一种流程示意图；

图4是本发明实施例提供的具有三个识别阶段的图像识别方法的一种流程示意图；

图5是本发明实施例提供的图像识别装置的一种结构示意图；

图6是本发明实施例提供的电子设备的一种结构示意图；

图7是本发明实施例提供的电子设备的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解的是，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

在相关技术中，主要是通过端到端搜索对待识别图像中的目标人物进行人物识别处理，但是端到端搜索面临着检测人物和识别人物身份存在冲突的问题，因此，相关技术中的图像搜索方法的识别精度有待提升。

为了解决相关技术中存在的技术问题，本发明实施例提供了一种图像识别方法，请参见图1，图1是本发明实施例提供的图像识别方法的一种流程示意图，所述图像识别方法包括步骤101至步骤103；

步骤101，对待识别图像进行特征提取，得到第一卷积特征图像。

在本实施例中，本实施例是通过将待识别图像输入至预设的特征提取网络中，以获取所述待识别图像的卷积特征图像。具体的，预设的特征提取网络可以为任意训练后的图像识别类的网络模型，该网络模型可以是预先训练的，也可以是直接采用现有的图像识别类的网络模型，在此不作具体限定。

步骤102，利用第一识别模型对所述第一卷积特征图像进行识别处理，得到初始识别结果。

其中，所述初始识别结果表征对所述待识别图像中待识别对象的位置识别和类别识别。所述第一识别模型包括RPN网络(RegionProposal Network，区域候选网络)，待识别对象可以为人物对象或指定物体对象，本实施例主要以人物对象为例进行展开说明。

具体的，本实施例是通过将所述第一卷积特征图像输入至RPN网络中，对所述待识别图像中待识别对象的位置和类别进行识别，以对待识别对象进行身份或种类，如人物对象、动物或者其他物体的分类识别，并生成待识别对象的识别框，由于本实施例主要是对人物对象进行识别，因此，通过RPN网络即可得到人物框的特征图和分类结果的初始识别结果。所述RPN网络的工作原理为：根据输入的原图像，经过骨干网络的一系列的卷积或者池化之后，得到一个尺寸m*n的特征图，对应将原图像划分为m*n个区域，原图像的每个区域的中心由这个特征图上的一个像素点坐标表示，通过anchor机制，在每个像素点对应原图像的区域识别并生成k个可能存在目标的候选框，也即生成含有人物对象的候选框的初始识别结果。

步骤103，基于所述初始识别结果，对所述第一卷积特征图像进行多次识别处理，得到目标识别结果。

其中，所述多次识别处理可以为两次，也可以为三次或更多次数的识别处理。具体的，本实施例通过对第一卷积特征图像进行多次识别处理，能够通过渐进式的方式，逐步学习第一卷积特征图像中的特征，以逐步提高识别处理过程中的识别精准度，从而得到准确度更高的目标识别结果。

需要说明的是，本实施例主要以对第一卷积特征图像进行两次识别处理为例进行展开说明。具体的，所述基于所述初始识别结果，对所述第一卷积特征图像进行多次识别处理，得到目标识别结果的步骤，具体为：对所述初始识别结果和所述第一卷积特征图像进行匹配处理，得到第二卷积特征图像；利用第二识别模型对所述第二卷积特征图像进行识别处理，得到第一识别结果；对所述第一识别结果和所述第二卷积特征图像进行匹配处理，得到第三卷积特征图像；利用所述第二识别模型对所述第三卷积特征图像进行识别处理，得到目标识别结果。

其中，所述第一识别结果对所述待识别对象的识别效果优于所述初始识别结果。所述识别效果可以为识别过程的精准度，也可以为最终得到的识别结果的准确度。

在本实施例中，在得到初始识别结果和第一卷积特征图像之后，通过区域特征聚集操作，将初始识别结果中的人物框特征图像匹配到第一卷积特征图像中，从而得到含有所述人物框的第二卷积特征图像。具体的，本实施例提供的区域特征聚集操作包括RolAlign操作，其中，所述RolAlign操作主要是使用双线性内插的方法，获得坐标为浮点数的像素点上的图像数值，从而将整个特征聚集过程转化为一个连续的操作，有效的保证了空间精度。

可选的，所述第二识别模型包括预设的对象识别模型。由于本实施例主要是对第一卷积特征图像进行两次识别处理，因此，所述预设的对象识别模型主要通过两个识别阶段来学习人物检测和人物身份识别的嵌入向量，每个识别阶段学习的嵌入向量的粒度不同，通过两个识别阶段来细化嵌入向量的粒度，即可通过较细粒度的嵌入向量，完成更精准的图像识别。

具体的，第一个识别阶段为对所述第二卷积特征图像进行识别处理，该识别阶段主要是通过预设的对象识别模型中的第一编码处理模块对所述第二卷积特征图像进行编码处理，从而完成第一识别阶段的嵌入向量的学习，得到粗粒度的嵌入向量，并根据所述粗粒度的嵌入向量，得到第一识别结果。第二个识别阶段为对所述第三卷积特征图像进行识别处理，该识别阶段主要是通过预设的对象识别模型中的第二编码处理模块对所述第三卷积特征图像进行编码处理，从而完成第二识别阶段的嵌入向量的学习，得到细粒度的嵌入向量，并根据所述细粒度的嵌入向量，得到准确度更高的目标识别结果。

在一些实施例中，所述第二识别模型包括第一目标分类器以及第一目标框回归器。具体的，所述利用第二识别模型对所述第二卷积特征图像进行识别处理，得到第一识别结果的步骤，具体为：基于所述第一目标分类器和所述第一目标框回归器，对所述第二卷积特征图像进行待识别对象/背景分类处理和待识别对象的目标框回归处理，得到第一识别结果。

其中，在预设的对象识别模型中的第一编码处理模块对所述第二卷积特征图像进行编码处理，从而得到粗粒度的嵌入向量后，即可通过第一目标分类器和第一目标框回归器对所述粗粒度的嵌入向量进行处理，从而实现对所述第二卷积特征图像的待识别对象/背景分类处理和待识别对象的目标框回归处理，得到第一识别结果。

具体的，在得到第一识别结果后，为了将学习到的特征融入至下一识别过程中，本实施例还需要通过将第一识别结果与第二卷积特征图像进行匹配处理，以此得到含有学习到的特征的第三卷积特征图像。

在本实施例中，所述匹配处理为区域特征聚集操作，具体的所述区域特征聚集操作包括RolAlign操作。通过RolAlign操作即可将含有学习到的特征的第一识别结果匹配到第二卷积特征图像中，以此得到第三卷积特征图像，从而能够对第三卷积特征图像进行第二阶段处理，以进一步学习细化粒度的嵌入向量。

在另一些实施例中，所述第二识别模型还包括第二目标框回归器以及第一类别识别器。具体的，所述利用所述第二识别模型对所述第三卷积特征图像进行识别处理，得到目标识别结果的步骤，具体为：基于所述第二目标框回归器和所述第一类别识别器，对所述第三卷积特征图像进行待识别对象的目标框回归处理和待识别对象类别识别处理，得到目标识别结果。

其中，在预设的对象识别模型中的第二编码处理模块对所述第三卷积特征图像进行编码处理，从而得到细粒度的嵌入向量后，即可通过第二目标分类器和第一类别识别器对所述细粒度的嵌入向量进行处理，从而实现对所述第三卷积特征图像的待识别对象的目标框回归处理和待识别对象类别识别处理，得到准确度更高的目标识别结果。

需要说明的是，本实施例提供的类别识别器主要用于对人物身份的识别。具体的，在得到粗粒度的嵌入向量后，未通过类别识别器进行人物身份预测，主要是为了使预设的对象识别模型在第一个识别阶段，即细化嵌入向量之前先集中检测图像中的所有的人物对象，使其能力主要聚焦在人物和背景分类上；而在得到细化后的细粒度的嵌入向量后，通过第一类别识别器进行人物的身份识别，则是为了使预设的对象识别模型在第二个识别阶段，将其能力主要聚焦在人物的身份识别上，从而不仅能够提高预设的对象设备模型的人物和背景分类能力，还能提高预设的对象识别模型的人物身份识别的精度。

作为可选的实施例，所述第二识别模型还包括注意力机制编码层，所述基于所述第一目标分类器和所述第一目标框回归器，对所述第二卷积特征图像进行待识别对象/背景分类处理和待识别对象框回归处理，得到第一识别结果的步骤，具体为：对所述第二卷积特征图像进行多尺度卷积处理，得到多个不同尺度下的卷积特征图像；对每个尺度下的卷积特征图像进行分块处理，得到所述每个尺度下的卷积特征图像对应的多个分块，并从多个所述分块中确定含有待识别对象的目标分块；对所述每个尺度下的卷积特征图像中目标位置的目标分块进行交换处理，得到每个尺度下交换处理后的卷积特征图像；将所述每个尺度下交换处理后的卷积特征图像进行压缩处理，得到每个尺度下对应的一维特征向量；将所述每个尺度下对应的一维特征向量输入至所述注意力机制编码层进行编码处理，得到所述第二卷积特征图像对应的嵌入向量；基于所述第一目标分类器和所述第一目标框回归器，对所述嵌入向量进行待识别对象/背景分类处理和待识别对象框回归处理，得到第一识别结果。

其中，所述对所述第二卷积特征图像进行多尺度卷积处理，得到多个不同尺度下的卷积特征图像的步骤，具体为：将所述第二卷积特征图像中含有待识别对象的特征图像，平均分配至所述注意力机制编码层的多个通道中；通过所述注意力机制编码层的各所述通道，对所述特征图像进行对应尺度的卷积处理，得到多个不同尺度下的卷积特征图像，各所述通道含有不同的卷积核。

在本实施例中，所述分块处理主要是对每个尺度下的卷积特征图像进行tokens化，以将每个尺度下的卷积特征图像分为若干个token。其中，设定每个尺度下的卷积特征图像的高为h，宽为w，每个token的长宽均为d，则token的数量N为：

在相关技术中，还存在遮挡情况下身份的识别比较困难的技术问题，而为了解决该技术问题，本发明实施例引入了一种token级别的遮挡注意力机制，以模拟在实际应用中发现的遮挡，请参见图2，图2是本发明实施例提供的预设的对象识别模型的第一个识别阶段学习嵌入向量的一种方法示意图，具体的，如图2所示，首先对第二卷积特征图像进行多尺度卷积处理，然后从每个尺度下的卷积特征图像中收集token，记为tokens库X＝{x₁，x₂，……，x_P}，其中x_i表示第i个人物对象包含的token，P是在一幅图像中检测到的人物对象的数量。而后，对每个尺度下的卷积特征图像中目标位置的目标token进行交换处理，其中目标位置可以为一个，也可以为多个，并且，目标位置可以是预先设定的，也可以是随机选择，具体交换的tokens对应于卷积特征图像中语义一致的子区域。假设第i个人物对象交换的tokens区域集合为M，则交换后的tokens组成的第i个卷积特征图像表示为：

x_i＝{x_i(M^-),x_j(M)}

其中，x_j表示从tokens库中随机选择的另一个人物对象包含的tokens，M^-表示M的补集区域。将交换后的各个卷积特征图压缩为一维向量，具体为通道数不变，向量的长度为h×w。将压缩后的特征向量送入注意力机制编码层，该层的结构由6个相同的层组成，每一层包含两个子层，第一个子层是多头注意力层，然后是一个全连接层，其中每个子层之间都使用了残差连接和归一化操作。由此，通过图2所示的方法，即可得到第一个识别阶段学习的粗粒度的嵌入向量。

作为可选的实施例，所述预设的对象识别模型在训练过程中所采用的损失函数L为：

其中，L_det为待识别对象进行识别时的损失函数，L_OIM为在线实例匹配损失函数，L_ID为待识别对象类别识别时的损失函数，t表示第t次得到识别结果时的损失，T为得到识别结果的总次数，系数α_OIM和β_ID为用于平衡待识别对象类别识别的两个损失项，I(t>1)为指示函数，表示不考虑第1次得到识别结果时的待识别对象类别识别过程产生的损失。

具体的，损失函数L_det由回归损失项和分类损失项组成，前者是待识别对象框真实值和预测框之间的回归向量的L₁平滑损失，而后者是计算估计待识别对象框的预测分类概率的交叉熵损失。为了监督待识别对象的类别识别即身份识别，本实施例使用经典的非参数在线实例匹配(OIM)损失L_OIM，并添加了另一个交叉熵损失函数L_ID来预测对象的身份，以进行额外的身份监督。

作为可选的实施例，为了进一步的提高人物搜索算法的识别精度，本实施例还可以在上述实施例提及的第一个识别阶段和第二个识别阶段之间，添加一个或多个额外的识别阶段，以进一步的对人物检测任务和人物身份识别任务的嵌入向量的粒度进行细化。为了详细说明添加额外识别阶段的技术方案，本实施例主要以额外添加一个识别阶段为例进行展开说明。具体的，为了额外添加一个识别阶段，所述第二识别模型还包括第二目标分类器、第三目标框回归器以及第二类别识别器，请参见图3，图3是本发明实施例提供的图像识别方法的另一种流程示意图，如图3所示，本发明实施例提供的图像识别方法包括步骤301至步骤308；

步骤301，对待识别图像进行特征提取，得到第一卷积特征图像。

在本实施例中，本实施例是通过将待识别图像输入至预设的特征提取网络中，以获取所述待识别图像的卷积特征图像。具体的，本实施例提供的预设的特征提取网络主要是利用两个3*3的卷积层来提取输入图像的低级特征，然后将提取到的特征送入4个残差单元堆叠而成的模块逐步学习高级特征，并且每个残差单元之间提供记忆连接来达到最终融合不同级别特征的目的。

步骤302，利用第一识别模型对所述第一卷积特征图像进行识别处理，得到初始识别结果。

其中，所述初始识别结果表征对所述待识别图像中待识别对象的位置识别和类别识别。

步骤303，对所述初始识别结果和所述第一卷积特征图像进行匹配处理，得到第二卷积特征图像。

在本实施例中，所述第二识别模型包括第一目标分类器、第一目标框回归器、第二目标框回归器、第一类别识别器、第二目标分类器、第三目标框回归器以及第二类别识别器。

步骤304，基于所述第一目标分类器和所述第一目标框回归器，对所述第二卷积特征图像进行待识别对象/背景分类处理和待识别对象的目标框回归处理，得到第一识别结果。

其中，所述第一识别结果对所述待识别对象的识别效果优于所述初始识别结果。

在本实施例中，对所述第二卷积特征图像进行处理的过程即为第一个识别阶段，该识别阶段主要是学习卷积特征图像中的粗粒度的嵌入向量，然后根据所述第一目标分类器和所述第一目标框回归器，对所述粗粒度的嵌入向量进行待识别对象/背景分类处理和待识别对象的目标框回归处理，得到第一识别结果。

步骤305，对所述第一识别结果和所述第二卷积特征图像进行匹配处理，得到第三卷积特征图像。

在本实施例中，通过RolAlign操作将第一识别结果匹配到第二卷积特征图像中，得到第三卷积特征图像，从而能够使得后续对第三卷积特征图像进行第二个阶段的识别处理，以细化粗粒度的嵌入向量。

步骤306，基于所述第二目标分类器、第三目标框回归器以及第二类别识别器，对所述第三卷积特征图像进行待识别对象/背景分类处理、待识别对象的目标框回归处理以及待识别对象类别识别处理，得到第三识别结果。

其中，所述第三识别结果表征对所述待识别图像中待识别对象的位置识别、类别识别以及待识别对象/背景的分类。

在本实施例中，对所述第三卷积特征图像进行处理的过程即为第二个识别阶段，该识别阶段主要是学习卷积特征图像中的中等粒度的嵌入向量，然后根据所述第二目标分类器、第三目标框回归器以及第二类别识别器，对所述中等粒度的嵌入向量进行待识别对象/背景分类处理、待识别对象的目标框回归处理以及待识别对象类别识别处理，得到第三识别结果。

由于第一个识别阶段专注于人物/背景的分类处理，则本实施例额外添加的第二个识别阶段，则继续进行人物/背景的分类处理，且同时进行类别识别，即人物身份的识别处理，以此进一步的提高人物/背景的识别精度以及人物身份识别的识别精度。

步骤307，对所述第三识别结果和所述第三卷积特征图像进行匹配处理，得到匹配处理后的第三卷积特征图像。

同理，本实施例是通过RolAlign操作将第三识别结果匹配到第三卷积特征图像中，得到匹配处理后的第三卷积特征图像，从而能够使得后续对匹配后的第三卷积特征图像进行第三个阶段的识别处理，以细化中等粒度的嵌入向量。

步骤308，基于所述第二目标框回归器和所述第一类别识别器，对所述匹配处理后的第三卷积特征图像进行待识别对象的目标框回归处理和待识别对象类别识别处理，得到目标识别结果。

其中，所述第三识别结果对应的识别效果优于所述第一识别结果的识别效果，且劣于所述目标识别结果的识别效果。

在本实施例中，对所述匹配处理后的第三卷积特征图像进行处理的过程即为第三个识别阶段，该识别阶段主要是学习卷积特征图像中的细粒度的嵌入向量，然后根据所述第二目标框回归器和所述第一类别识别器，对所述细粒度的嵌入向量进行待识别对象的目标框回归处理和待识别对象类别识别处理，从而能够得到准确度更高的目标识别结果。

具体的，为了更好的说明本实施例提供的具有三个识别阶段的对象识别方法，请参见图4，图4是本发明实施例提供的具有三个识别阶段的图像识别方法的一种流程示意图，如图4所示，本实施例提供的第二识别模型包括三个串联注意力编码器，每个串联注意力编码器表征一个识别阶段。具体的，首先将待识别图像X输入至特征提取网络，以提取出待识别图像的卷积特征图像X1，然后将提取出的卷积特征图像X1输入至RPN网络，以获取该卷积特征图像X1的人物框的特征图像和分类结果的初始识别结果。接着，将得到的人物框的特征图像使用RolAlign操作匹配到卷积特征图像X1中，之后将匹配后的匹配特征图像(记为第一阶段匹配特征图)输入至第一个识别阶段的串联的注意力编码器中以进行第一个识别阶段的编码处理，得到人物检测的粗粒度的嵌入向量，然后将得到的粗粒度的嵌入向量送入人物/背景分类器、人物框回归器，得到的结果后继续使用RolAlign操作匹配到卷积特征图X1中以更新预测结果。然后将更新预测结果后的匹配特征图像(记为第二阶段匹配特征图)输入至第二个识别阶段的串联的注意力编码器中来学习人物检测和人物身份识别的中等粒度的嵌入向量。其中，串联的目的主要体现在第一阶段的结果更新特征图继而继续在第二阶段执行类似操作，起到渐进细化粒度的作用，因此第二阶段的操作与第一阶段是相同的，由此得到了中等粒度的嵌入向量。然后将得到的中等粒度的嵌入向量送入人物/背景分类器、人物框回归器和人物身份识别器，和第一阶段不同的是，第二阶段添加了人物身份识别器，这是因为在第一阶段有意删除了人物身份识别器，使得网络在细化表征之前首先集中检测场景中的所有人物。得到的结果继续使用RolAlign操作匹配到卷积特征图X1中以更新预测结果。然后将更新预测结果后的匹配特征图像(记为第三阶段匹配特征图)输入至第三个识别阶段的串联的注意力编码器中进行相同操作得到最终的细粒度的嵌入向量，并将得到的细粒度的嵌入向量送入人物框回归器和人物身份识别器得到最终的人物识别结果。需要说明的是，第三阶段删除了人物/背景分类器，此时是认为网络随着细化已经具备了分类人物和背景的能力，并使网络在第三阶段主要聚焦于人物身份的识别任务上，以此提高人物搜索算法的识别精度。

综上所述，本发明实施例提供了一种图像识别方法，该方法包括对待识别图像进行特征提取，得到第一卷积特征图像，利用第一识别模型对第一卷积特征图像进行识别处理，得到初始识别结果，初始识别结果表征对待识别图像中待识别对象的位置识别和类别识别，基于初始识别结果，对第一卷积特征图像进行多次识别处理，得到目标识别结果。采用本发明实施例，能够提高端到端的人物搜索算法的识别精度。

根据上述实施例所描述的方法，本实施例将从图像识别装置的角度进一步进行描述，该图像识别装置具体可以作为独立的实体来实现，也可以集成在电子设备，比如终端中来实现，该终端可以包括手机、平板电脑等。

请参见图5，图5是本发明实施例提供的图像识别装置的一种结构示意图，如图5所示，本发明实施例提供的图像识别装置500，包括：

特征提取模块501，用于对待识别图像进行特征提取，得到第一卷积特征图像。

第一识别模块502，用于利用第一识别模型对所述第一卷积特征图像进行识别处理，得到初始识别结果。

第二识别模块503，用于基于所述初始识别结果，对所述第一卷积特征图像进行多次识别处理，得到目标识别结果。

在本实施例中，所述第二识别模块503具体用于：对所述初始识别结果和所述第一卷积特征图像进行匹配处理，得到第二卷积特征图像；利用第二识别模型对所述第二卷积特征图像进行识别处理，得到第一识别结果；所述第一识别结果对所述待识别对象的识别效果优于所述初始识别结果；对所述第一识别结果和所述第二卷积特征图像进行匹配处理，得到第三卷积特征图像；利用所述第二识别模型对所述第三卷积特征图像进行识别处理，得到目标识别结果。

在一些实施例中，所述第二识别模型包括第一目标分类器、第一目标框回归器。所述第二识别模块503具体还用于：基于所述第一目标分类器和所述第一目标框回归器，对所述第二卷积特征图像进行待识别对象/背景分类处理和待识别对象的目标框回归处理，得到第一识别结果。

在另一些实施例中，所述第二识别模型包括第二目标框回归器以及第一类别识别器。所述第二识别模块503具体还用于：基于所述第二目标框回归器和所述第一类别识别器，对所述第三卷积特征图像进行待识别对象的目标框回归处理和待识别对象类别识别处理，得到目标识别结果。

作为可选的实施例，所述第二识别模型还包括第二目标分类器、第三目标框回归器以及第二类别识别器。所述第二识别模块503具体还用于：基于所述第二目标分类器、第三目标框回归器以及第二类别识别器，对所述第三卷积特征图像进行待识别对象/背景分类处理、待识别对象的目标框回归处理以及待识别对象类别识别处理，得到第三识别结果；所述第三识别结果表征对所述待识别图像中待识别对象的位置识别、类别识别以及待识别对象/背景的分类；对所述第三识别结果和所述第三卷积特征图像进行匹配处理，得到匹配处理后的第三卷积特征图像。

作为可选的实施例，所述第二识别模型还包括注意力机制编码层，所述第二识别模块503具体用于：对所述第二卷积特征图像进行多尺度卷积处理，得到多个不同尺度下的卷积特征图像；对每个尺度下的卷积特征图像进行分块处理，得到所述每个尺度下的卷积特征图像对应的多个分块，并从多个所述分块中确定含有待识别对象的目标分块；对所述每个尺度下的卷积特征图像中目标位置的目标分块进行交换处理，得到每个尺度下交换处理后的卷积特征图像；将所述每个尺度下交换处理后的卷积特征图像进行压缩处理，得到每个尺度下对应的一维特征向量；将所述每个尺度下对应的一维特征向量输入至所述注意力机制编码层进行编码处理，得到所述第二卷积特征图像对应的嵌入向量；基于所述第一目标分类器和所述第一目标框回归器，对所述嵌入向量进行待识别对象/背景分类处理和待识别对象框回归处理，得到第一识别结果。

其中，所述第二识别模块503具体还用于：将所述第二卷积特征图像中含有待识别对象的特征图像，平均分配至所述注意力机制编码层的多个通道中；通过所述注意力机制编码层的各所述通道，对所述特征图像进行对应尺度的卷积处理，得到多个不同尺度下的卷积特征图像，各所述通道含有不同的卷积核。

可选的，所述预设的对象识别模型在训练过程中所采用的损失函数L为：

具体实施时，以上各个模块和/或单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块和/或单元的具体实施可参见前面的方法实施例，具体可以达到的有益效果也请参看前面的方法实施例中的有益效果，在此不再赘述。

另外，请参见图6，图6是本发明实施例提供的电子设备的一种结构示意图，该电子设备可以是移动终端如智能手机、平板电脑等设备。如图6所示，电子设备600包括处理器601、存储器602。其中，处理器601与存储器602电性连接。

处理器601是电子设备600的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器602内的应用程序，以及调用存储在存储器602内的数据，执行电子设备600的各种功能和处理数据，从而对电子设备600进行整体监控。

在本实施例中，电子设备600中的处理器601会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能。

该电子设备600可以实现本发明实施例所提供的图像识别方法任一实施例中的步骤，因此，可以实现本发明实施例所提供的任一图像识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

请参见图7，图7是本发明实施例提供的电子设备的另一种结构示意图，如图7所示，图7示出了本发明实施例提供的电子设备的具体结构框图，该电子设备可以用于实施上述实施例中提供的图像识别方法。该电子设备700可以为移动终端如智能手机或笔记本电脑等设备。

RF电路710用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。RF电路710可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路710可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术，包括但并不限于全球移动通信系统(Global System for Mobile Communication,GSM)、增强型移动通信技术(Enhanced DataGSM Environment,EDGE)，宽带码分多址技术(Wideband Code Division MultipleAccess,WCDMA)，码分多址技术(Code Division Access,CDMA)、时分多址技术(TimeDivision Multiple Access,TDMA)，无线保真技术(Wireless Fidelity，Wi-Fi)(如美国电气和电子工程师协会标准IEEE 802.11a，IEEE 802.11b,IEEE802.11g和/或IEEE802.11n)、网络电话(Voice over Internet Protocol,VoIP)、全球微波互联接入(Worldwide Interoperability for Microwave Access，Wi-Max)、其他用于邮件、即时通讯及短消息的协议，以及任何其他合适的通讯协议，甚至可包括那些当前仍未被开发出来的协议。

存储器720可用于存储软件程序以及模块，如上述实施例中图像识别方法对应的程序指令/模块，处理器780通过运行存储在存储器720内的软件程序以及模块，从而执行各种功能应用以及对象识别。

存储器720可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器720可进一步包括相对于处理器780远程设置的存储器，这些远程存储器可以通过网络连接至电子设备700。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入单元730可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元730可包括触敏表面731以及其他输入设备732。触敏表面731，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面731上或在触敏表面731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面731。除了触敏表面731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及电子设备700的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元740可包括显示面板741，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板741。进一步的，触敏表面731可覆盖显示面板741，当触敏表面731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图中，触敏表面731与显示面板741是作为两个独立的部件来实现输入和输出功能，但是在某些实施例中，可以将触敏表面731与显示面板741集成而实现输入和输出功能。

电子设备700还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在翻盖合上或者关闭时产生中断。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于电子设备700还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与电子设备700之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一终端，或者将音频数据输出至存储器720以便进一步处理。音频电路760还可能包括耳塞插孔，以提供外设耳机与电子设备700的通信。

电子设备700通过传输模块770(例如Wi-Fi模块)可以帮助用户接收请求、发送信息等，它为用户提供了无线的宽带互联网访问。虽然图中示出了传输模块770，但是可以理解的是，其并不属于电子设备700的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是电子设备700的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行电子设备700的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器780可包括一个或多个处理核心；在一些实施例中，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解地，上述调制解调处理器也可以不集成到处理器780中。

电子设备700还包括给各个部件供电的电源790(比如电池)，在一些实施例中，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源790还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，电子设备700还包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备的显示单元是触摸屏显示器，移动终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行操作的指令。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的方法实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的图像识别方法中任一实施例的步骤。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的图像识别方法任一实施例中的步骤，因此，可以实现本发明实施例所提供的任一图像识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种图像识别方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。并且，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种图像识别方法，其特征在于，包括：

对待识别图像进行特征提取，得到第一卷积特征图像；

2.如权利要求1所述的图像识别方法，其特征在于，所述基于所述初始识别结果，对所述第一卷积特征图像进行多次识别处理，得到目标识别结果，包括：

对所述初始识别结果和所述第一卷积特征图像进行匹配处理，得到第二卷积特征图像；

利用第二识别模型对所述第二卷积特征图像进行识别处理，得到第一识别结果；所述第一识别结果对所述待识别对象的识别效果优于所述初始识别结果；

对所述第一识别结果和所述第二卷积特征图像进行匹配处理，得到第三卷积特征图像；

利用所述第二识别模型对所述第三卷积特征图像进行识别处理，得到目标识别结果。

3.如权利要求2所述的图像识别方法，其特征在于，所述第二识别模型包括第一目标分类器、第一目标框回归器、第二目标框回归器以及第一类别识别器；

所述利用第二识别模型对所述第二卷积特征图像进行识别处理，得到第一识别结果，包括：

基于所述第一目标分类器和所述第一目标框回归器，对所述第二卷积特征图像进行待识别对象/背景分类处理和待识别对象的目标框回归处理，得到第一识别结果；

所述利用所述第二识别模型对所述第三卷积特征图像进行识别处理，得到目标识别结果，包括：

基于所述第二目标框回归器和所述第一类别识别器，对所述第三卷积特征图像进行待识别对象的目标框回归处理和待识别对象类别识别处理，得到目标识别结果。

4.如权利要求3所述的图像识别方法，其特征在于，所述第二识别模型还包括第二目标分类器、第三目标框回归器以及第二类别识别器；

在所述利用所述第二识别模型对所述第三卷积特征图像进行识别处理，得到目标识别结果之前，所述图像识别方法，还包括：

基于所述第二目标分类器、第三目标框回归器以及第二类别识别器，对所述第三卷积特征图像进行待识别对象/背景分类处理、待识别对象的目标框回归处理以及待识别对象类别识别处理，得到第三识别结果；所述第三识别结果表征对所述待识别图像中待识别对象的位置识别、类别识别以及待识别对象/背景的分类；

对所述第三识别结果和所述第三卷积特征图像进行匹配处理，得到匹配处理后的第三卷积特征图像；

5.如权利要求3所述的图像识别方法，其特征在于，所述第二识别模型还包括注意力机制编码层；所述基于所述第一目标分类器和所述第一目标框回归器，对所述第二卷积特征图像进行待识别对象/背景分类处理和待识别对象框回归处理，得到第一识别结果，包括：

对所述第二卷积特征图像进行多尺度卷积处理，得到多个不同尺度下的卷积特征图像；

对每个尺度下的卷积特征图像进行分块处理，得到所述每个尺度下的卷积特征图像对应的多个分块，并从多个所述分块中确定含有待识别对象的目标分块；

对所述每个尺度下的卷积特征图像中目标位置的目标分块进行交换处理，得到每个尺度下交换处理后的卷积特征图像；

将所述每个尺度下交换处理后的卷积特征图像进行压缩处理，得到每个尺度下对应的一维特征向量；

将所述每个尺度下对应的一维特征向量输入至所述注意力机制编码层进行编码处理，得到所述第二卷积特征图像对应的嵌入向量；

基于所述第一目标分类器和所述第一目标框回归器，对所述嵌入向量进行待识别对象/背景分类处理和待识别对象框回归处理，得到第一识别结果。

6.如权利要求5所述的图像识别方法，其特征在于，所述对所述第二卷积特征图像进行多尺度卷积处理，得到多个不同尺度下的卷积特征图像，包括：

将所述第二卷积特征图像中含有待识别对象的特征图像，平均分配至所述注意力机制编码层的多个通道中；

通过所述注意力机制编码层的各所述通道，对所述特征图像进行对应尺度的卷积处理，得到多个不同尺度下的卷积特征图像，各所述通道含有不同的卷积核。

7.如权利要求2所述的图像识别方法，其特征在于，所述第二识别模型在训练过程中所采用的损失函数L为：

8.一种图像识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器以及存储在所述存储器中，并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的图像识别方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图像识别方法中的步骤。