CN111476070A

CN111476070A - 图像处理方法、装置、电子设备以及计算机可读存储介质

Info

Publication number: CN111476070A
Application number: CN201910068720.4A
Authority: CN
Inventors: 侯军; 蔡晓聪; 伊帅; 闫俊杰
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2020-07-31

Abstract

本发明公开一种图像处理方法及装置，其中该方法包括：首先，对行人的全身图像进行图像截取处理，得到所述行人的半身图像；将所述行人的所述全身图像和所述半身图像作为训练样本，训练行人识别网络，得到训练后的行人识别网络；然后，获取第一问询图像以及行人图像库；通过行人识别网络，从所述行人图像库包括的多张行人图像中搜索与所述第一问询图像匹配的行人图像，得到目标行人图像；基于所述目标行人图像，确定所述第一问询图像的搜索结果上述训练方法得到的行人识别网络在对行人图像进行分类时解决了行人图像分类特征不明显的问题，对不同程度遮挡的行人图像的识别的正确率更高。

Description

图像处理方法、装置、电子设备以及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，特别是涉及图像处理方法、装置、电子设备以及计算机可读存储介质。

背景技术

近年来，随着人们对社会的公共安全越来越关注，视频监控系统大量普及。诸如机场、火车站、校园和办公大楼等公众场所，都需要视频监控为安防保驾护航。另外，通过视频监控追踪顾客的轨迹从而推测出顾客的个人购物喜好在零售业得到广泛青睐。然而，通过监控视频所获得的行人图像往往受到商品货架等不同程度的遮挡，从这些受到不同程度遮挡的行人图像中识别出行人对于现有的计算机视觉分析技术是十分困难的。

发明内容

本公开实施例提供图像处理技术，提高了存在遮挡的行人图像的识别准确率。

根据本公开的第一方面，提供了一种图像处理方法，该方法包括：对行人的全身图像进行图像截取处理，得到所述行人的半身图像，所述半身图像包括所述行人的至少腰部以上部位；将所述行人的所述全身图像和所述半身图像作为训练样本，训练行人识别网络，得到训练后的行人识别网络。

在一可能的实现方式中，所述对行人的全身图像进行图像截取处理，得到所述行人的半身图像，包括：获取所述行人的全身图像的人体关键点信息；根据所述人体关键点信息，对所述行人的全身图像进行截取，得到所述行人的半身图像。

在一可能的实现方式中，所述获取所述行人的全身图像的人体关键点信息，包括：对所述行人的全身图像进行人体关键点检测，得到所述全身图像的人体关键点信息。

在一可能的实现方式中，所述对所述行人的全身图像进行人体关键点检测，得到所述全身图像的人体关键点信息，包括：通过关键点检测神经网络对所述行人的全身图像进行人体关键点检测，得到所述全身图像的人体关键点信息，其中，所述关键点检测网络包括残差网络和特征金字塔网络。

在一可能的实现方式中，所述根据所述人体关键点信息，对所述行人的全身图像进行截取，得到所述行人的半身图像，包括：根据所述人体关键点信息中包含的至少一个人体关键点的位置信息，确定所述行人的腰部以下区域；在所述行人的腰部以下区域对所述全身图像进行随机截取，得到所述行人的半身图像。

在一可能的实现方式中，所述将所述行人的所述全身图像和所述半身图像作为训练样本，训练行人识别网络，得到训练后的行人识别网络，包括：通过所述行人识别网络对所述行人的所述全身图像和所述半身图像进行匹配处理，得到指示所述全身图像和所述半身图像是否对应于同一个行人的匹配结果；基于所述匹配结果对应的网络损失，调节所述行人识别网络的网络参数。

在一可能的实现方式中，所述网络损失是基于附加角裕度损失函数AdditiveAngular Margin Loss损失函数得到的。

在一可能的实现方式中，所述人体关键点信息包含下列关键点中的至少一种关键点的信息：左腰与右腰、左膝与右膝以及左脚腕与右脚腕。

根据本公开的第二方面，提供了一种图像处理方法，该方法包括：获取第一问询图像以及行人图像库，所述第一问询图像包括目标人物的全身图像，所述行人图像库包括多张行人图像，所述多张行人图像包括至少一张行人全身图像和至少一张行人半身图像，其中，所述行人半身图像包括行人的至少腰部以上区域；通过行人识别网络，从所述行人图像库包括的多张行人图像中搜索与所述第一问询图像匹配的行人图像，得到目标行人图像，其中，所述目标行人图像为行人全身图像或行人半身图像；基于所述目标行人图像，确定所述第一问询图像的搜索结果。

在一可能的实现方式中，所述通过行人识别网络，从所述行人图像库包括的多张行人图像中搜索与所述第一问询图像匹配的行人图像，得到目标行人图像，包括：通过所述行人识别网络确定所述第一问询图像与所述行人图像库包括的至少一张行人图像之间的相似度；基于所述第一问询图像与所述行人图像库中的至少一张行人图像之间的相似度，确定与所述第一问询图像匹配的所述目标行人图像。

在一可能的实现方式中，所述基于所述目标行人图像，确定所述第一问询图像的搜索结果，包括：在所述目标行人图像包括行人全身图像的情况下，将所述行人全身图像作为第二问询图像对行人图像库进行图像搜索，直到在所述行人图像库中搜索不到匹配的行人图像或者搜索得到的行人图像不包括行人全身图像；将通过所述第二问询图像搜索得到的行人图像添加到所述第一问询图像的搜索结果中。

在一可能的实现方式中，所述方法还包括：获取至少一张原始行人图像，所述原始行人图像为未经筛选的包括行人的图像；对所述至少一张原始行人图像进行人体关键点检测，得到所述至少一张原始行人图像的人体关键点信息；基于所述至少一个原始行人图像的人体关键点信息，确定是否将所述至少一张原始行人图像添加到所述行人图像库。

在一可能的实现方式中，所述基于所述至少一个原始行人图像的人体关键点信息，确定是否将所述至少一张原始行人图像添加到所述行人图像库，包括：基于所述原始行人图像的人体关键点信息，确定所述原始行人图像是否包含行人的腰部以上区域；在所述原始行人图像包含行人的腰部以上区域的情况下，将所述原始行人图像添加至所述行人图像库。

在一可能的实现方式中，所述人体关键点信息包含下列关键点中的至少一种关键点的信息：左腰与右腰。

在一可能的实现方式中，所述通过所述行人识别网络确定所述第一问询图像与所述行人图像库包括的至少一张行人图像之间的相似度，包括：利用所述行人识别网络，提取所述第一问询图像的第一特征，以及利用所述行人识别网络，提取所述行人图像库中的至少一个行人图像的第二特征；根据所述第一问询图像的第一特征和所述至少一个行人图像中的每个行人图像的第二特征，确定所述第一问询图像与所述任意一张行人图像的相似度。

在一可能的实现方式中，所述方法还包括：获取样本图像，其中，所述样本图像包含行人的全身图像；对所述样本图像进行图像截取处理，得到所述行人的半身图像，其中，所述半身图像包括行人的至少腰部以上区域；将所述行人的全身图像和所述行人的半身图像作为训练样本，训练所述行人识别网络，得到训练后的所述行人识别网络。

根据本公开的第三方面，本公开提供了一种图像处理方法，该方法包括：获取第一问询图像；通过行人识别网络从行人图像库包括的多个行人图像中搜索与所述第一问询图像匹配的行人图像，其中，所述行人识别网络是通过本公开第一方面或其任意可能的实现方式中的图像处理方法训练得到的。

根据本公开的第四方面，本公开提供了一种图像处理装置，该装置包括：半身图像获取单元，用于对行人的全身图像进行图像截取处理，得到所述行人的半身图像，所述半身图像包括所述行人的至少腰部以上部位；训练单元，用于将所述行人的所述全身图像和所述半身图像作为训练样本，训练行人识别网络，得到训练后的行人识别网络。

在一可能的实现方式中，所述半身图像获取单元包括关键点获取单元，图像截取单元，所述关键点获取单元，用于获取所述行人的全身图像的人体关键点信息；所述图像截取单元，用于根据所述人体关键点信息，对所述行人的全身图像进行截取，得到所述行人的半身图像。

在一可能的实现方式中，所述关键点获取单元用于，对所述行人的全身图像进行人体关键点检测，得到所述全身图像的人体关键点信息。

在一可能的实现方式中，所述关键点获取单元用于，通过关键点检测神经网络对所述行人的全身图像进行人体关键点检测，得到所述全身图像的人体关键点信息，其中，所述关键点检测网络包括残差网络和特征金字塔网络。

在一可能的实现方式中，所述图像截取单元用于，根据所述人体关键点信息中包含的至少一个人体关键点的位置信息，确定所述行人的腰部以下区域；在所述行人的腰部以下区域对所述全身图像进行随机截取，得到所述行人的半身图像。

在一可能的实现方式中，所述训练单元用于，通过所述行人识别网络对所述行人的所述全身图像和所述半身图像进行匹配处理，得到指示所述全身图像和所述半身图像是否对应于同一个行人的匹配结果；基于所述匹配结果对应的网络损失，调节所述行人识别网络的网络参数。

根据本公开的第五方面，本公开提供了一种图像处理装置，该装置包括：获取单元，用于获取第一问询图像以及行人图像库，所述第一问询图像包括目标人物的全身图像，所述行人图像库包括多张行人图像，所述多张行人图像包括至少一张行人全身图像和至少一张行人半身图像，其中，所述行人半身图像包括行人的至少腰部以上区域；搜索单元，用于通过行人识别网络，从所述行人图像库包括的多张行人图像中搜索与所述第一问询图像匹配的行人图像，得到目标行人图像，其中，所述目标行人图像为行人全身图像或行人半身图像；确定单元，用于基于所述目标行人图像，确定所述第一问询图像的搜索结果。

在一可能的实现方式中，所述搜索单元包括相似度确定单元，目标行人图像确定单元，所述相似度确定单元，用于通过所述行人识别网络确定所述第一问询图像与所述行人图像库包括的至少一张行人图像之间的相似度；所述目标行人图像确定单元，用于基于所述第一问询图像与所述行人图像库中的至少一张行人图像之间的相似度，确定与所述第一问询图像匹配的所述目标行人图像。

在一可能的实现方式中，所述搜索单元用于，在所述目标行人图像包括行人全身图像的情况下，将所述行人全身图像作为第二问询图像对行人图像库进行图像搜索，直到在所述行人图像库中搜索不到匹配的行人图像或者搜索得到的行人图像不包括行人全身图像；将通过所述第二问询图像搜索得到的行人图像添加到所述第一问询图像的搜索结果中。

在一可能的实现方式中，所述装置还包括：原始图像获取单元，关键点检测单元，图像筛选单元，所述原始图像获取单元，用于获取至少一张原始行人图像，所述原始行人图像为未经筛选的包括行人的图像；所述关键点检测单元，用于对所述至少一张原始行人图像进行人体关键点检测，得到所述至少一张原始行人图像的人体关键点信息；所述图像筛选单元，用于基于所述至少一个原始行人图像的人体关键点信息，确定是否将所述至少一张原始行人图像添加到所述行人图像库。

在一可能的实现方式中，所述图像筛选单元用于，基于所述原始行人图像的人体关键点信息，确定所述原始行人图像是否包含行人的腰部以上区域；在所述原始行人图像包含行人的腰部以上区域的情况下，将所述原始行人图像添加至所述行人图像库。

在一可能的实现方式中，所述相似度确定单元用于，利用所述行人识别网络，提取所述第一问询图像的第一特征，以及利用所述行人识别网络，提取所述行人图像库中的至少一个行人图像的第二特征；根据所述第一问询图像的第一特征和所述至少一个行人图像中的每个行人图像的第二特征，确定所述第一问询图像与所述至少一个行人图像的相似度。

在一可能的实现方式中，所述装置还包括：截取单元，训练单元，所述获取单元，用于获取样本图像，其中，所述样本图像包含行人的全身图像；所述截取单元，用于对所述样本图像进行图像截取处理，得到所述行人的半身图像，其中，所述半身图像包括行人的至少腰部以上区域；所述训练单元，用于将所述行人的全身图像和所述行人的半身图像作为训练样本，训练所述行人识别网络，得到训练后的所述行人识别网络。

根据本公开的第六方面，本公开提供了一种图像处理装置，其特征在于，包括：获取单元和搜索单元，所述获取单元，用于获取第一问询图像；所述搜索单元，用于通过行人识别网络从行人图像库包括的多个行人图像中搜索与所述第一问询图像匹配的行人图像，其中，所述行人识别网络是通过本公开第一方面或其任意可能的实现方式中的图像处理方法训练得到的。

根据本公开的第七方面，提供一种电子设备，包括：处理器和用于存储计算机可读指令的存储器；其中，所述处理器用于调用所述存储器存储的计算机可读指令，以执行上述第一方面所述的图像处理方法或其任意可能的实现方式。

根据本公开的第八方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述图像处理方法或其任意可能的实现方式。

根据本公开的第九方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现上述图像处理方法或其任意可能的实现方式。

可选地，所述计算机程序产品包括存储所述计算机指令的计算机可读存储介质。

在本公开实施例中，对行人的全身图像进行图像截取处理，得到所述行人的半身图像；将所述行人的所述全身图像和所述半身图像作为训练样本，训练行人识别网络，得到训练后的行人识别网络，通过使用行人的全身图像和半身图像来训练行人识别网络，得到训练后的行人识别网络对存在遮挡的行人图像的识别准确率更高。

在本公开实施例中获取第一问询图像以及行人图像库；通过所述行人识别网络，从所述行人图像库包括的多张行人图像中搜索与所述第一问询图像匹配的行人图像，得到目标行人图像；基于所述目标行人图像，确定所述第一问询图像的搜索结果，实现了行人重识别的自动化处理，提高了行人重识别的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图

图1是本公开实施例提供的图像处理方法的示意流程图；

图2是本公开实施例提供的另一图像处理方法的示意流程图；

图3是本公开实施例提供的另一图像处理方法的示意流程图；

图4本公开实施例提供的通过特征金字塔网络和残差网络获取人体关键点信息的示意图；

图5本公开实施例提供的特征金字塔网络和残差网络的结构连接示意图；

图6是本公开实施例提供的两种损失函数对图像分类的示意图；

图7是本公开实施例提供的训练所述行人识别网络的示意图；

图8是本公开实施例提供的图像处理装置的结构示意图；

图9是本公开实施例提供的半身图像获取单元的结构示意图；

图10是本公开实施例提供的另一图像处理装置的结构示意图；

图11是本公开实施例提供的搜索单元的结构示意图；

图12是本公开实施例提供的另一图像处理装置的结构示意图；

图13是本公开实施例提供的另一图像处理装置的结构示意图；

图14是本公开实施例提供的另一图像处理装置的结构示意图；

图15是本公开实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

本公开实施例提供一种图像识别方法，请参见图1，图1是本发明实施例提供的行人重识别方法示意流程图，如图1所示，该方法包括：

101、对行人的全身图像进行图像截取处理，得到所述行人的半身图像。

在本公开实施例中，将包括所述行人的全身的图像称为全身图像，将包括所述行人的至少腰部以上的部位的图像称为行人半身图像。

在一些实施例中，所述行人的全身图像是通过图像传感器采集得到，图像传感器可以采集静态的图像，或者，图像传感器可以采集连续的视频流，相应地，若所述图像传感器可以采集连续的视频流，对采集到的视频流进行选帧操作得到的所述行人的全身图像。

可选地，图像处理装置接收其他设备发送的所述行人的全身图像，例如，该图像可以携带在行人重识别请求或其他消息中发送。例如，图像处理装置从设置在其他设备处的数据库获取所述行人的全身图像。再例如，图像处理装置接收设置有摄像头的终端设备发送的所述行人的全身图像，其中，可选地，终端设备可以向图像处理装置(例如服务器)发送所述行人的全身图像，其中，所述行人的全身图像可以是终端设备通过摄像头采集到的静态图像对或者是从摄像头采集到的视频序列中选帧得到的视频帧图像。再例如，终端设备向图像处理装置发送包括所述行人的全身图像的视频序列，图像处理装置在接收到终端设备发送的视频序列之后，通过选帧得到包括所述行人的全身图像，本公开实施例对此不做限定。

在一些实施例中，步骤101可以通过如下方式实现，获取所述行人的全身图像的人体关键点信息；根据所述人体关键点信息，对所述行人的全身图像进行截取，得到所述行人的半身图像。

在一些实施例中，所述人体关键点信息通过如下方式获取，对所述行人的全身图像进行人体关键点检测，得到所述全身图像的人体关键点信息。参见图4，通过关键点检测神经网络对所述行人的全身图像进行人体关键点检测，得到所述全身图像的人体关键点信息，其中，所述关键点检测网络包括残差网络(Residual Network，ResNet)和特征金字塔网络(Feature Pyramid Network，FPN)。在对人体关键点这类小目标进行检测时，如果单使用ResNet来检测人体关键点，其检测精度将会大幅度下降，因为ResNet进行卷积池化到最后一层时，其语义信息几乎为零。而引入FPN后，通过简单的网络连接改变，在基本不增加原有模型计算量情况下，大幅度提升了人体关键点这类小目标检测的性能。结合图5理解在本方案中的关键点检测神经网络，本方案中的关键点检测神经网络将ResNet作为主网络，其路径是自下而上的，将FPN作为辅网络，其路径是自上而下的，将两个神经网络的每一层横向连接起来，通过这样的连接，每一层预测所用的特征图都融合了不同分辨率、不同语义强度的特征，因此，使用与图像分辨率相同的特征图进行图像识别，保证了每一层都有合适的分辨率以及强语义特征，从而提升了小分辨率图片的识别精度。同时，由于此方法只是在主网络的基础上加上了额外的跨层连接，在实际应用中几乎不增加额外的时间和计算量。

在一些实施例中，上述关键点检测神经网络还可以是其他卷积神经网络，例如可以是LeNet、AlexNet、GoogLeNet、VGGNet、ResNet等任意类型的神经网络模型，或者，人体关键点信息的获取也可以是基于其他机器学习方法实现，本公开实施例对关键点检测的具体实现不作限定。

可选地，图像处理装置接收其他设备发送的所述人体关键点信息，所述人体关键点信息可以携带在行人重识别请求或其他消息中发送，本公开实施例对此不做限定。例如，图像处理装置将所述行人的全身图像发送至其他设备中，在其他设备对所述行人的全身图像进行检测人体关键点信息后，接收其他设备发送的所述人体关键点信息。

在一些实施例中，所述人体关键点信息包含下列关键点中的至少一种关键点的信息：左腰与右腰、左膝与右膝以及左脚腕与右脚腕。可选地，所述人体关键点信息还可以包含：头、颈、左肩、右肩、左手肘、右手肘、左手腕、右手腕中的任意一种或者多种关键点信息，应理解，本公开实施例也可以包括人体其他类型的关键点，或者人体关键点的数量为14之外的其他数值，本公开对此不做具体限定。

可选地，所述人体关键点信息可以包括所述行人的全身图像的多个关键点中每个关键点的位置信息，或者进一步包括置信度等信息，本公开实施例对此不做限定。

在一些实施例中，所述根据所述人体关键点信息，对所述行人的全身图像进行截取，得到所述行人的半身图像，可以通过如下方式实现：根据所述人体关键点信息中包含的至少一个人体关键点的位置信息，确定所述行人的腰部以下区域；在所述行人的腰部以下区域对所述全身图像进行随机截取，得到所述行人的半身图像。在实际应用中，在行人全身图像的下半身进行多次随机截取，从而获得多张行人半身图，再从多张行人半身图中随机抽取一张作为后续深度神经网络的训练样本，多次随机截取操作是为了保证训练样本的随机性和不可预测性，因此，通过上述样本训练得到的行人重识别模型，在面对不同程度遮挡的行人图像有更高的辨识能力。

102、将所述行人的所述全身图像和所述半身图像作为训练样本，训练行人识别网络，得到训练后的行人识别网络。

在一些实施例中，步骤102可以通过如下方式实现：通过所述行人识别网络对所述行人的所述全身图像和所述半身图像进行匹配处理，得到指示所述全身图像和所述半身图像是否对应于同一个行人的匹配结果；基于所述匹配结果对应的网络损失，调节所述行人识别网络的网络参数。所述行人识别网络可以分为卷积层、池化层、全连接层，损失层，通过卷积层和池化层对所述行人的所述全身图像和所述半身图像进行提取特征，得到所述全身图像的第一特征和所述半身图像的第二特征，然后，全连接层根据所述第一特征和所述第二特征，确定所述行人的所述全身图像和所述半身图像的匹配结果，其中所述匹配结果包括所述全身图像和所述半身图像为同一个人的图像概率和不是同一个人的概率，最后，损失层根据所述匹配结果和损失函数，确定所述匹配结果的损失值，其中所述损失值表示了匹配结果与真实结果的不一致程度，基于所述损失值，调节所述行人识别网络的网络参数。

在一些实施例中，所述行人识别网络所使用的损失函数可以是附加角裕度损失函数Additive Angular Margin Loss。

在本公开的实施例中，若在行人识别网络采用Softmax Loss(软最大值损失函数)对行人图像(行人的全身图像和半身图像)进行分类，无法将特征不明显的行人图像有效的区分，原因在于Softmax Loss的分类主要考虑样本是否能正确分类，缺乏类内和类间距离的约束，也就是说，面对行人图像分类特征不明显的问题，使用Softmax Loss难以将同一个行人的特征相似度提高，而将不同行人的特征相似度降低。为了解决该问题，本公开实施例使用Additive Angular Margin Loss来对行人图像进行分类，能将行人图像的特征和行人图像特征权重正则化，消除径向变化，并且让每一行人图像的特征都分布在超球面上，从而使得同一个行人特征距离缩小，不同行人的特征距离扩大，即同一行人的相似度提高，不同行人的相似度降低。具体参见图6，图6左图表示了使用Softmax Loss对行人图像进行分类的分类结果，图6右图表示了使用Additive Angular Margin Loss对行人图像进行分类的分类结果，图中每一种颜色代表一个类别，总共10类，每一个点代表行人的特征，比较左图和右图可知，右图的同一种颜色的点之间的类内距离明显小于左图的，而右图不同种颜色的点之间的类间距离大于左图的。因此，相比于Softmax Loss，Additive Angular MarginLoss在对行人图像这类分类特征不明显的图像进行分类时，具有明显的优势。

如表1所示，表1是在行人重识别中分别应用上述两种不同损失函数的实验结果，表中的记录为top1、top5、top10、top20的行人重识别正确率。下面以top5为例对表1中的数据进行说明，给定1张行人问询图像，采用深度神经网络从行人图像库中识别出与该行人问询图像最相似的5张行人图像，这5张行人图像称为top5，top1、top10、top20的含义以此类推。继续以top5为例进一步解释，在与行人问询图像最相似的5张行人图像中，如果至少有1张行人图像与行人问询图像是同一个人的图像，则认为本次测试正确，否则认为本次测试错误。

具体看表1，测试1与测试2测试次数相同，均为5万次，但测试1与测试2对行人图像的截取位置不同，测试1是从腰和膝盖之间随机截取生成的测试图片，测试2从腰处截取生成的测试图片；测试2与测试3对行人图像的截取位置相同，但是测试次数不同，测试2测试5万次，测试3测试50万次。为了方便描述，将使用Softmax Loss的方案记为第一方案，使用Additive Angular Margin Loss的方案记为第二方案，通过比较实验结果可得出如下结论：通过分别对比测试1、测试2以及测试3中两种方案的正确率，第二方案的识别正确率始终高于第一方案的；对比测试1和测试2，在改变行人图像的截取位置后，第二方案的识别正确率依然稳定在90％以上，而第一方案的识别正确率均下降超过20％；对比测试2和测试3，在增加测试次数后，第二方案的识别正确率虽有下降，但依然保持80％以上的识别正确率，而第一方案的识别正确率最高只有70％左右。综上所述，使用Additive Angular MarginLoss的行人重识别方案具有更高的识别正确率以及稳定性。

表1两种不同损失函数的实验结果

举例来说，例如某一行人图像被遮挡的程度较大，使用该图像作为训练样本对深度神经网络进行训练，从而得到的匹配结果，然而该匹配结果与实际的真实情况相差较远，相应地，通过损失函数Additive Angular Margin Loss确定该匹配结果的损失值也会相对较大，此时根据该损失值对深度神经网络进行反馈，调节该深度神经网络的模型参数，使得该深度神经网路在下次面对此类被遮挡程度较大的行人图像时，会相应的提取更多的特征信息，从而提高对被遮挡程度较大的行人图像的辨识能力。应理解，上述例子仅仅用于举例，不应构成具体限定。

在一些实施例中，所述行人识别网络可以是卷积神经网络，所述卷积神经网络可以是LeNet、AlexNet、GoogLeNet、VGGNet、ResNet等任意类型的卷积神经网络。

在一些实施例中，所述行人识别网络的训练完成条件包括：所述行人识别网络的训练次数达到预设训练次数，和/或，所述行人识别网络对行人图像的重识别正确率满足预设阈值。

参见图7，图7是本公开提供的训练所述行人识别网络的示意图。首先，通过所述关键点检测神经网络检测所述行人的全身图像的人体关键点信息，基于所述人体关键点信息截取所述全身图像，得到所述行人包括至少腰部以上区域的图像，然后将所述行人的全身图像和半身图像输入到所述行人识别网络进行匹配，这里使用的网络模型为残差网络，其中所述残差网络可以是101层的残差网络，也可以是其他网络层数的残差网络，然后通过Additive Angular Margin Loss来确定匹配结果的网络损失，最后根据网络损失调节所述行人识别网络的模型参数。

基于上述图像处理方法，对行人的全身图像进行图像截取处理，得到所述行人的半身图像；将所述行人的所述全身图像和所述半身图像作为训练样本，训练行人识别网络，得到训练后的行人识别网络。上述训练方法得到的行人识别网络解决了行人图像分类特征不明显的问题，对不同程度遮挡的行人图像的识别的正确率更高。

本公开实施例提供一种图像识别方法，请参见图2，图2是本发明实施例提供的图像处理方法示意流程图，如图2所示，该方法包括：

201、获取第一问询图像以及行人图像库。

在本申请实施例中，所述第一问询图像包括目标人物的全身图像，所述行人图像库包括多张行人图像，所述多张行人图像包括至少一张行人全身图像和至少一张行人半身图像，其中，所述行人半身图像包括行人的至少腰部以上区域。

在一些实施例中，所述行人图像库中的行人图像的获取可以通过如下方式实现：首先获取原始行人图像，该原始行人图像是未经筛选的包括行人的图像，该原始行人图像可以是任意遮蔽的行人图像；然后，对该原始行人图像进行人体关键点检测，得到该原始行人图像的人体关键点信息；基于该原始行人图像的人体关键点信息，确定是否将该原始行人图像添加到所述行人图像库；若该原始行人图像包括行人的至少腰部以上区域，则将该原始行人图像添加到所述行人图像库中，反之则不添加。通过对行人图像库的筛选处理，剔除了不包括腰部以上区域的行人图像，保证了行人图像库中的行人图像的质量。

在一些实施例中，所述人体关键点信息包含下列关键点中的至少一种关键点的信息：左腰与右腰。可选地，所述人体关键点信息还可以包含：头、颈、左肩、右肩、左手肘、右手肘、左手腕、右手腕中的任意一种或者多种关键点信息，应理解，本公开实施例还可以包括其他人体关键点信息，本公开对比不做具体限定。

202、通过行人识别网络，从所述行人图像库包括的多张行人图像中搜索与所述第一问询图像匹配的行人图像，得到目标行人图像。

在本申请实施例中，所述目标行人图像为行人全身图像或行人半身图像。

在一些实施例中，步骤202可以通过如下方式实现：通过所述行人识别网络确定所述第一问询图像与所述第一行人图像库包括的至少一张行人图像之间的相似度；基于所述第一问询图像与所述第一行人图像库中的至少一张行人图像之间的相似度，确定与所述第一问询图像匹配的所述目标行人图像。

在一些实施例中，所述通过所述行人识别网络确定所述第一问询图像与所述第一行人图像库包括的至少一张行人图像之间的相似度，可以通过如下方式实现：利用训所述行人识别网络，提取所述第一问询图像的第一特征，以及利用所述行人识别网络，提取所述第一行人图像库中的任意一张行人图像的第二特征；根据所述第一问询图像的第一特征和所述任意一张行人图像中的每张行人图像的第二特征，确定所述第一问询图像与所述任意一张行人图像的相似度。

在一些实现方式中，所述第一特征和所述第二特征之间的相似度的确定可以通过计算所述第一特征对应的第一特征向量和所述第二特征对应的第二特征向量之间的余弦值得到。举例来说，例如第一特征向量为a(x₁，y₁)，第二特征向量为b(x₂，y₂)，可通过如下公式：

从而计算得到这两个向量之间的夹角的余弦值，该余弦值即为所述第一特征向量和第二特征的相似度。应理解，上述例子仅仅用于举例，不应构成具体限定。

203、基于所述目标行人图像，确定所述第一问询图像的搜索结果。

在一些实施例中，所述基于所述目标行人图像，确定所述第一问询图像的搜索结果，包括：在所述目标行人图像包括行人全身图像的情况下，将所述行人全身图像作为第二问询图像对第二行人图像库进行图像搜索，直到在所述第二行人图像库中搜索不到匹配的行人图像或者搜索得到的行人图像不包括行人全身图像，其中，所述第二行人图像库为所述第一行人图像库删除所述目标行人图像之后的图像库；将通过所述第二问询图像搜索得到的行人图像添加到所述第一问询图像的搜索结果中。举例来说，例如使用第一问询图像a在所述第一行人图像库中搜索得到的结果包括全身图像b和半身图像c，将所述全身图像b和半身图像c从所述第一行人图像库中剔除后，得到第二行人图像库，然后继续使用全身图像b在所述第二行人图像库进行搜索，将得到的搜索结果继续加入目标行人图像中，若所述搜索结果全部为半身图像，则结束搜索，若所述搜索结果包括全身图像，则继续使用该全身图像进行搜索。

在一些实施例中，所述方法还包括：获取样本图像，其中，所述样本图像包含行人的全身图像；对所述样本图像进行图像截取处理，得到所述行人的半身图像，其中，所述半身图像包括行人的至少腰部以上区域；将所述行人的全身图像和所述行人的半身图像作为训练样本，训练所述行人识别网络，得到训练后的所述行人识别网络。

基于上述图像处理方法，获取第一问询图像以及第一行人图像库，所述第一问询图像包括目标人物的全身图像，所述第一行人图像库包括多张行人图像，所述多张行人图像包括至少一张行人全身图像和至少一张行人半身图像，其中，所述行人半身图像包括行人的至少腰部以上区域；通过行人识别网络，从所述第一行人图像库包括的多张行人图像中搜索与所述第一问询图像匹配的行人图像，得到目标行人图像，其中，所述目标行人图像为行人全身图像或行人半身图像；基于所述目标行人图像，确定所述第一问询图像的搜索结果。上述图像处理方法，在行人识别中，提高了同一行人的全身图像和半身图像的相似度，降低了不同行人的全身图像和半身图像的相似度，从而解决了行人重识别分类特征不明显的问题，最终提高了行人识别网络面对不同程度遮挡的行人半身图像的识别正确率。

本公开实施例提供一种图像识别方法，请参见图3，图3是本发明实施例提供的图像处理方法示意流程图，如图3所示，该方法包括：获取第一问询图像；通过行人识别网络从行人图像库包括的多个行人图像中搜索与所述第一问询图像匹配的行人图像，其中，所述行人识别网络是通过上文所述的任意图像处理方法训练得到的。

本公开实施例还提供了图像处理装置。图8是本公开实施例提供的图像处理装置的结构示意图。该装置包括：半身图像获取单元701，训练单元702。

半身图像获取单元701，用于对行人的全身图像进行图像截取处理，得到所述行人的半身图像，所述半身图像包括所述行人的至少腰部以上部位；

训练单元702，用于将所述行人的所述全身图像和所述半身图像作为训练样本，训练行人识别网络，得到训练后的行人识别网络。

在一些实施例中，参见图9，所述半身图像获取单701包括关键点获取单元801，图像截取单元802，

所述关键点获取单元801，用于获取所述行人的全身图像的人体关键点信息；

所述图像截取单元802，用于根据所述人体关键点信息，对所述行人的全身图像进行截取，得到所述行人的半身图像。

在一些实施例中，所述关键点获取单元801用于，对所述行人的全身图像进行人体关键点检测，得到所述全身图像的人体关键点信息。

在一些实施例中，所述关键点获取单元801用于，通过关键点检测神经网络对所述行人的全身图像进行人体关键点检测，得到所述全身图像的人体关键点信息，其中，所述关键点检测网络包括残差网络和特征金字塔网络。

在一些实施例中，所述图像截取单元802用于，根据所述人体关键点信息中包含的至少一个人体关键点的位置信息，确定所述行人的腰部以下区域；在所述行人的腰部以下区域对所述全身图像进行随机截取，得到所述行人的半身图像。

在一些实施例中，所述训练单元702用于，通过所述行人识别网络对所述行人的所述全身图像和所述半身图像进行匹配处理，得到指示所述全身图像和所述半身图像是否对应于同一个行人的匹配结果；基于所述匹配结果对应的网络损失，调节所述行人识别网络的网络参数。在一些实施例中，所述人体关键点信息包含下列关键点中的至少一种关键点的信息：左腰与右腰、左膝与右膝以及左脚腕与右脚腕。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文图像处理方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本公开实施例还提供了图像处理装置。图10是本公开实施例提供的图像处理装置的结构示意图。该装置包括：获取单元901，搜索单元902，确定单元903。

所述获取单元901，用于获取第一问询图像以及行人图像库，所述第一问询图像包括目标人物的全身图像，所述行人图像库包括多张行人图像，所述多张行人图像包括至少一张行人全身图像和至少一张行人半身图像，其中，所述行人半身图像包括行人的至少腰部以上区域；所述搜索单元902，用于通过行人识别网络，从所述行人图像库包括的多张行人图像中搜索与所述第一问询图像匹配的行人图像，得到目标行人图像，其中，所述目标行人图像为行人全身图像或行人半身图像；所述确定单元903，用于基于所述目标行人图像，确定所述第一问询图像的搜索结果。

在一些实施例中，参见图11，所述搜索单元902包括相似度确定单元902-1，目标行人图像确定单元902-2，所述相似度确定单元902-1，用于通过所述行人识别网络确定所述第一问询图像与所述第一行人图像库包括的至少一张行人图像之间的相似度；所述目标行人图像确定单元902-2，用于基于所述第一问询图像与所述第一行人图像库中的至少一张行人图像之间的相似度，确定与所述第一问询图像匹配的所述目标行人图像。

在一些实施例中，所述搜索单元902用于，在所述目标行人图像包括行人全身图像的情况下，将所述行人全身图像作为第二问询图像对行人图像库进行图像搜索，直到在所述行人图像库中搜索不到匹配的行人图像或者搜索得到的行人图像不包括行人全身图像；将通过所述第二问询图像搜索得到的行人图像添加到所述第一问询图像的搜索结果中。

在一些实施例中，参见图12，所述装置还包括：原始图像获取单元1101，关键点检测单元1102，图像筛选单元1103，所述原始图像获取单元1101，用于获取至少一张原始行人图像，所述原始行人图像为未经筛选的包括行人的图像；所述关键点检测单元1102，用于对所述至少一张原始行人图像进行人体关键点检测，得到所述至少一张原始行人图像的人体关键点信息；所述图像筛选单元1103，用于基于所述至少一个原始行人图像的人体关键点信息，确定是否将所述至少一张原始行人图像添加到所述行人图像库。

在一些实施例中，所述图像筛选单元1103用于，基于所述原始行人图像的人体关键点信息，确定所述原始行人图像是否包含行人的腰部以上区域；在所述原始行人图像包含行人的腰部以上区域的情况下，将所述原始行人图像添加至所述行人图像库。

在一些实施例中，所述人体关键点信息包含下列关键点中的至少一种关键点的信息：左腰与右腰。

在一些实施例中，所述相似度确定单元902-1用于，利用所述行人识别网络，提取所述第一问询图像的第一特征，以及利用所述行人识别网络，提取所述第一行人图像库中的至少一个行人图像的第二特征；根据所述第一问询图像的第一特征和所述至少一个行人图像中的每个行人图像的第二特征，确定所述第一问询图像与所述至少一个行人图像的相似度。

在一些实施例中，参见图13，所述装置还包括：截取单元1201，训练单元1202，所述获取单元1101，用于获取样本图像，其中，所述样本图像包含行人的全身图像；所述截取单元1201，用于对所述样本图像进行图像截取处理，得到所述行人的半身图像，其中，所述半身图像包括行人的至少腰部以上区域；所述训练单元1202，用于将所述行人的全身图像和所述行人的半身图像作为训练样本，训练所述行人识别网络，得到训练后的所述行人识别网络。

本公开实施例还提供了图像处理装置。图14是本公开实施例提供的图像处理装置的结构示意图。该装置包括：获取单元1301，搜索单元1302。

根据本公开的第六方面，本公开提供了一种图像处理装置，其特征在于，包括：获取单元1301，搜索单元1302，所述获取单元1301，用于获取第一问询图像；所述搜索单元1302，用于通过行人识别网络从行人图像库包括的多个行人图像中搜索与所述第一问询图像匹配的行人图像，其中，所述行人识别网络是通过权利要求1-8任一项所述的图像处理方法训练得到的。

另外，本公开实施例提供了一种电子设备，图15是本公开实施例提供的电子设备结构框图。如图15所示，该电子设备包括：处理器1401，用于存储处理器可执行指令的存储器，其中，所述处理器被配置为：执行上述图像处理方法。

可选地，所述电子设备还可以包括：一个或多个输入设备1402，一个或多个输出设备1403和存储器1404。

上述处理器1401、输入设备1402、输出设备1403和存储器1404通过总线1405连接。存储器1402用于存储指令，处理器1401用于执行存储器1402存储的指令。其中，处理器1401被配置用于调用所述程序指令执行：

对行人的全身图像进行图像截取处理，得到所述行人的半身图像，所述半身图像包括所述行人的至少腰部以上部位；

将所述行人的所述全身图像和所述半身图像作为训练样本，训练行人识别网络，得到训练后的行人识别网络；

获取第一问询图像以及第一行人图像库，所述第一问询图像包括目标人物的全身图像，所述第一行人图像库包括多张行人图像，所述多张行人图像包括至少一张行人全身图像和至少一张行人半身图像，其中，所述行人半身图像包括行人的至少腰部以上区域；

通过行人识别网络，从所述第一行人图像库包括的多张行人图像中搜索与所述第一问询图像匹配的行人图像，得到目标行人图像，其中，所述目标行人图像为行人全身图像或行人半身图像；

基于所述目标行人图像，确定所述第一问询图像的搜索结果。

应当理解，在本公开实施例中，所称处理器1401可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备1402可以包括的移动手机、便携式计算机、监控摄像头等，输出设备1403可以包括显示器(LCD等)。

该存储器1404可以包括只读存储器和随机存取存储器，并向处理器1401提供指令和数据。存储器1404的一部分还可以包括非易失性随机存取存储器。例如，存储器1404还可以存储设备类型的信息。

在一些实现方式中，本公开实施例中所描述的电子设备用于执行上文描述的图像处理方法，相应地，处理器1401用于执行本公开实施例提供的图像处理方法的各个实施例中的步骤和/或流程，在此不再赘述。

在本公开的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现上文描述的图像处理方法，具体实现可参照上文方法实施例描述的图像处理方法的各个实施例中的步骤和/或流程，为了简洁，在此不再赘述。

所述计算机可读存储介质可以是前述任一实施例所述的电子设备的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述电子设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的服务器、设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，也可执行发明实施例所描述的电子设备的实现方式，在此不再赘述。

在本公开所提供的几个实施例中，应该理解到，所揭露的服务器、设备和方法，可以通过其它的方式实现。例如，以上所描述的服务器实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本公开实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

将所述行人的所述全身图像和所述半身图像作为训练样本，训练行人识别网络，得到训练后的行人识别网络。

2.根据权利要求1所述的方法，其特征在于，所述对行人的全身图像进行图像截取处理，得到所述行人的半身图像，包括：

获取所述行人的全身图像的人体关键点信息；

根据所述人体关键点信息，对所述行人的全身图像进行截取，得到所述行人的半身图像。

3.根据权利要求2所述的方法，其特征在于，所述获取所述行人的全身图像的人体关键点信息，包括：

对所述行人的全身图像进行人体关键点检测，得到所述全身图像的人体关键点信息。

4.根据权利要求3所述的方法，其特征在于，所述对所述行人的全身图像进行人体关键点检测，得到所述全身图像的人体关键点信息，包括：

通过关键点检测神经网络对所述行人的全身图像进行人体关键点检测，得到所述全身图像的人体关键点信息，其中，所述关键点检测网络包括残差网络和特征金字塔网络。

5.根据权利要求2-4任一项所述的方法，其特征在于，所述根据所述人体关键点信息，对所述行人的全身图像进行截取，得到所述行人的半身图像，包括：

根据所述人体关键点信息中包含的至少一个人体关键点的位置信息，确定所述行人的腰部以下区域；

在所述行人的腰部以下区域对所述全身图像进行随机截取，得到所述行人的半身图像。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述将所述行人的所述全身图像和所述半身图像作为训练样本，训练行人识别网络，得到训练后的行人识别网络，包括：

通过所述行人识别网络对所述行人的所述全身图像和所述半身图像进行匹配处理，得到指示所述全身图像和所述半身图像是否对应于同一个行人的匹配结果；

基于所述匹配结果对应的网络损失，调节所述行人识别网络的网络参数。

7.一种图像处理方法，其特征在于，包括：

获取第一问询图像以及行人图像库，所述第一问询图像包括目标人物的全身图像，所述行人图像库包括多张行人图像，所述多张行人图像包括至少一张行人全身图像和至少一张行人半身图像，其中，所述行人半身图像包括行人的至少腰部以上区域；

通过行人识别网络，从所述行人图像库包括的多张行人图像中搜索与所述第一问询图像匹配的行人图像，得到目标行人图像，其中，所述目标行人图像为行人全身图像或行人半身图像；

8.一种图像处理装置，其特征在于，包括：

半身图像获取单元，用于对行人的全身图像进行图像截取处理，得到所述行人的半身图像，所述半身图像包括所述行人的至少腰部以上部位；

训练单元，用于将所述行人的所述全身图像和所述半身图像作为训练样本，训练行人识别网络，得到训练后的行人识别网络。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储计算机可读指令的存储器；

其中，所述处理器用于调用所述存储器存储的计算机可读指令，以执行权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1-7中任一项所述的方法。