CN111738362A

CN111738362A - 对象识别方法及装置、存储介质及电子设备

Info

Publication number: CN111738362A
Application number: CN202010764888.1A
Authority: CN
Inventors: 朱翔宇; 罗振波; 付培; 吉翔
Original assignee: Chengdu Ruiyan Technology Co ltd
Current assignee: Chengdu Ruiyan Technology Co ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-10-02
Anticipated expiration: 2040-08-03
Also published as: CN111738362B

Abstract

本申请涉及人工智能技术领域，提供一种对象识别方法及装置、存储介质及电子设备。其中，对象识别方法包括：获取目标图像的整体特征和对照图像的整体特征，并计算目标图像和对照图像在整体特征上的相似度；获取目标图像的非关键特征和对照图像的非关键特征，并计算目标图像和对照图像在非关键特征上的相似度；从目标图像和对照图像在整体特征上的相似度中减去二者在非关键特征上的相似度，得到最终相似度；利用最终相似度识别目标图像中的对象。该方法通过相似度相减，在两幅图像的整体特征中削弱了非关键特征，强化了关键特征，而强化关键特征的影响体现在最终相似度中，从而基于该最终相似度进行目标图像中的对象识别准确率较高。

Description

对象识别方法及装置、存储介质及电子设备

技术领域

本发明涉及人工智能技术领域，具体而言，涉及一种对象识别方法及装置、存储介质及电子设备。

背景技术

跨摄像头的对象识别是人工智能领域的一类常见任务。例如，在行人重识别任务中，通过行人的外观特征检索多个摄像头下属于同一个人的图像；又例如，在外观寻车任务中，通过车辆的外观特征检索多个摄像头下属于同一辆车的图像。

可见，对象识别的关键步骤是确定两幅图像中的对象是否为同一对象（例如，同一个人、同一辆车）。在现有技术中，一般是利用神经网络提取图像的特征，然后计算两幅图像的特征间的相似度进行判断。然而，这些现有方法的识别准确率并不是很高。

发明内容

本申请实施例的目的在于提供一种对象识别方法及装置、存储介质及电子设备，以改善上述技术问题。

为实现上述目的，本申请提供如下技术方案：

第一方面，本申请实施例提供一种对象识别方法，包括：获取目标图像的整体特征和对照图像的整体特征，并计算所述目标图像和所述对照图像在整体特征上的相似度；获取所述目标图像的非关键特征和所述对照图像的非关键特征，并计算所述目标图像和所述对照图像在非关键特征上的相似度；从所述目标图像和所述对照图像在整体特征上的相似度中减去所述目标图像和所述对照图像在非关键特征上的相似度，得到最终相似度；利用所述最终相似度识别所述目标图像中的对象。

在上述方法中，非关键特征可以指那些不能用于精确区分目标图像中的对象和对照图像中的对象的特征，因此从两幅图像在整体特征上的相似度中减去两幅图像在非关键特征上的相似度，相当于在两幅图像的整体特征中削弱了非关键特征，强化了关键特征（可以理解为能够用于精确区分目标图像中的对象和对照图像中的对象的特征），而对关键特征的强化体现在计算得到的最终相似度中，从而基于该最终相似度进行目标图像中的对象识别能够达到较高的准确率。

在第一方面的一种实现方式中，所述目标图像的整体特征和所述对照图像的整体特征分别是利用预训练的第一神经网络对所述目标图像和所述对照图像进行特征提取后得到的；和/或，所述目标图像的非关键特征和所述对照图像的非关键特征分别是利用预训练的第二神经网络对所述目标图像和所述对照图像进行特征提取后得到的。

图像的整体特征和非关键特征均可以采用神经网络进行提取，神经网络良好的学习和泛化能力，能够提取到更多深层次的特征。注意，未提取两类不同的特征，第一神经网络和第二神经网络应采取不同的方式进行训练。

在第一方面的一种实现方式中，所述方法还包括：对所述第一神经网络进行有监督训练，监督信号设置为训练样本中对象的ID；和/或，对所述第二神经网络进行有监督训练，监督信号设置为训练样本中所述非关键特征所表征的属性的值。

ID是用于区分对象相同或不同的基本属性，要确定对象的ID需要将图像中蕴含的特征作为一个整体进行判断，从而将监督信号设置为训练样本中对象的ID，第一神经网络可以学习到图像整体特征的提取方法。

图像的非关键特征表征图像中的某些非关键属性，该非关键属性可以是图像中对象的属性，也可以不是对象的属性，例如，车辆朝向特征表征图像中车辆的朝向，其值可取若干个预设方向之一，这就是一个对象的属性，同时车辆朝向并不能精确区分两辆车到底是不是同一辆车，所以该属性对于车辆识别而言是非关键属性。从而将监督信号设置为训练样本中非关键特征所表征的属性的值，第二神经网络可以学习到图像非关键特征的提取方法。

需要注意，在训练阶段，第一神经网络和第二神经网络的末端可以增设全连接层、softmax分类器等结构以便输出分类结果，而在推理阶段，这些结构不必保留，第一神经网络和第二神经网络直接输出提取到的特征。

在第一方面的一种实现方式中，所述利用所述最终相似度识别所述目标图像中的对象，包括：判断所述最终相似度是否大于相似度阈值；若所述最终相似度大于所述相似度阈值，则确定所述目标图像中的对象与所述对照图像中的对象是同一对象。

上述实现方式提出了最终相似度的一种使用方法，即与一个相似度阈值比较，但这种使用方法并非唯一的，例如，对照图像有1000幅，可以将计算得到的1000个最终相似度降序排序，将排序结果中排在前10的相似度对应的对照图像呈现给用户，这一过程并不涉及阈值比较。

在第一方面的一种实现方式中，所述对象为行人，所述非关键特征包括以下至少一种：域特征、行人朝向特征、行人衣着颜色特征以及行人附属物特征。

在第一方面的一种实现方式中，所述域特征包括采集图像的摄像头的特征，所述目标图像和所述对照图像在域特征上的相似度是指：采集所述目标图像的摄像头的特征和采集所述对照图像的摄像头的特征之间的相似度；所述目标图像的域特征和所述对照图像的域特征均利用预训练的第二神经网络进行提取，所述第二神经网络采用有监督训练，监督信号设置为采集训练样本的摄像头的ID。

不同的摄像头采集的图像，在图像风格、拍摄角度、图像背景等方面通常具有明显区别，可认为属于不同的域，虽然域并不仅仅取决于摄像头，但摄像头是决定域的最主要因素，因此在上述实现方式中，将域特征简化为采集图像的摄像头的特征，将目标图像和对照图像在域特征上的相似度简化为采集目标图像的摄像头的特征和采集对照图像的摄像头的特征之间的相似度，并将摄像头的ID（体现是否为同一摄像头的关键信息）作为训练第二神经网络的监督信号，从而可以有效提取域特征并计算域特征间的相似度。

在第一方面的一种实现方式中，所述对象为车辆，所述非关键特征包括以下至少一种：车辆朝向特征、域特征、车辆颜色特征以及车辆类型特征。

第二方面，本申请实施例提供一种对象识别装置，包括：第一相似度计算模块，用于获取目标图像的整体特征和对照图像的整体特征，并计算所述目标图像和所述对照图像在整体特征上的相似度；第二相似度计算模块，用于获取所述目标图像的非关键特征和所述对照图像的非关键特征，并计算所述目标图像和所述对照图像在非关键特征上的相似度；第三相似度计算模块，用于从所述目标图像和所述对照图像在整体特征上的相似度中减去所述目标图像和所述对照图像在非关键特征上的相似度，得到最终相似度；对象识别模块，用于利用所述最终相似度识别所述目标图像中的对象。

第三方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

第四方面，本申请实施例提供一种电子设备，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种对象识别方法的流程图；

图2示出了本申请实施例提供的一种对象识别装置的模块图；

图3示出了本申请实施例提供的一种电子设备的示意图。

具体实施方式

跨摄像头的对象识别（以下简称对象识别），其基本任务是从多个摄像头采集的图像中检索属于同一对象的图像，从而可以实现对某个特定对象的跟踪等功能，其典型的应用包括行人重识别（待识别的对象为行人）、外观寻车（待识别的对象为车辆）等。其中，外观寻车常作为按车牌寻车的一种辅助手段。

发明人长期实验发现，现有的行人重识别方法受域（domain）的因素影响较大。域是一个比较抽象的概念，简单来说它是指图像中那些与对象没有直接关系的属性构成的集合，例如，行人重识别中的域可以包括图像风格、图像背景（图像中除背景之外的部分）、拍摄角度等与行人没有直接关系的属性，但不包括行人的着装、肤色等与行人直接相关的属性。

域的影响体现在：用在A地采集的图像训练的模型，在B地进行测试时，效果可能会变得很差。这说明，A地采集的图像和B地采集的图像存在某种差异，导致模型被过度拟合。发明人研究发现，这种差异和两地图像中的行人关系不大，主要是两地图像所属的域不同造成的。进一步的，不同的摄像头采集的图像，在图像风格、图像背景、拍摄角度等方面通常具有明显区别，可认为属于不同的域。虽然即使是同一摄像头，在不同环境（例如，不同天气）下采集的图像也可能属于不同的域，但域中最主要的因素是图像风格，而图像风格往往取决于摄像头本身的参数设置，所以采集图像的摄像头仍然是决定两幅图像是否属于同一个域的主要因素。由于A、B两地必然采用不同的摄像头进行拍摄，所以造成了两地采集的图像在域上的差异性。

发明人经长期实验还发现，现有的外观寻车方法受车辆朝向影响较大。两幅图像中的车辆明明在外观上存在细小的区别，却因为朝向相同被误判为同一车辆，或者，两幅图像中的车辆明明在外观完全相同，却因为朝向不同被误判为不同车辆。

发明人对上述现象进行了总结和归纳，认为：现有的对象识别方法基本上是基于从图像中提取出的特征进行识别，然而，特征可以分为两类，一类是非关键特征，一类是关键特征。非关键特征可以指不能用于精确识别图像中对象的身份的特征，关键特征可以指能够用于精确识别图像中对象的身份的特征。导致现有的对象识别方法效果不佳的主要原因是在提取出的特征中非关键特征占比过大。

例如，在行人重识别中，域特征就是一类非关键特征，即使两幅图像中的行人外观不完全相同，但由于两幅图像是同一摄像头采集的，其图像风格、图像背景、拍摄角度均相同，导致两幅图像中的行人容易被误判为同一人；或者，即使两幅图像中的行人外观完全相同，但由于两幅图像是不同的摄像头采集的，其图像风格、图像背景、拍摄角度均不同，导致两幅图像中的行人容易被误判为不是同一人。又例如，在外观寻车中，车辆朝向也是一类非关键特征，原因上文已经分析。

相对地，在行人重识别中，区分行人的关键可能是行人的身材、相貌、肤色等一系列特征的组合；在外观寻车中，区分车辆的关键可能是车标、车内装饰物、轮毂款式等一系列特征的组合。

总的来说，关键特征多为细节特征，这些特征在图像像素中占比较小，因此很容易被非关键特征所掩盖。另外，很难明确指出图像中哪些特征是关键特征，但非关键特征是可以根据先验知识确定的。

基于上述结论，本申请实施例提供一种对象识别方法及装置、存储介质及电子设备，对于从图像中提取到的整体特征，通过削弱其中的非关键特征，相对性地增强其中的关键特征，从而更多地基于关键特征去做对象识别，可以有效提升对象识别的效果，本申请提出的具体技术方案将在后文介绍。需要指出，除该方案本身以外，上面介绍的由发明人发现的现有技术中存在的问题，以及发明人分析出的造成这些问题的原因，均属于发明人对本专利申请的贡献，而不应视为现有技术中业已存在的内容。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1示出了本申请实施例提供的一种对象识别方法的流程图，该方法可以但不限于由图3示出的电子设备执行，其具体结构可参考后文关于图3的阐述。在介绍图1中的方法步骤之前，首先解释一下目标图像、对照图像、非关键特征、关键特征的概念：

目标图像是指待识别的图像，对照图像是指由多个摄像头采集到的图像，对象识别的目的是：给出目标图像中的对象与对照图像中的对象是否为同一对象的结论，或者，至少给出能够得到该结论的某种依据。

例如，在行人重识别中，目标图像可以是某个犯罪嫌疑人的图像，对照图像是可以是犯罪嫌疑人可能的活动地区内的多个摄像头采集到的行人图像，其中可能会拍摄到犯罪嫌疑人。又例如，在外观寻车中，目标图像可以是某辆肇事车辆的图像，对照图像是可以是肇事车辆可能的活动地区内的多个摄像头采集到的车辆图像，其中可能会拍摄到肇事车辆。对照图像的数量通常较多，可以将其保存在一个图像库中。

通过将目标图像和对照图像进行某种比对操作以实现对象识别，这种比对采用逐一比对的方式，即对于对照图像有多幅的情况，将目标图像和每幅对照图像分别进行比对。由于图像比对的方法是固定的，所以下面在介绍图1中的方法时，以目标图像和一幅对照图像进行比对的情况为例。

前文已经给出了非关键特征和关键特征的定义，更具体地，对于目标图像和对照图像而言，非关键特征可以指不能用于精确区分目标图像中的对象和对照图像中的对象的特征，关键特征可以指能够用于精确区分目标图像中的对象和对照图像中的对象的特征。

例如，对于行人重识别而言，非关键特征可以包括域特征、行人朝向特征、行人衣着颜色特征以及行人附属物特征等。其中，域特征前文已经介绍，以图像风格特征为主，还可以进一步包括图像背景特征、拍摄角度特征等。行人朝向特征、行人衣着颜色特征的含义容易理解，行人附属物特征表征行人的佩戴物、购物袋、背包、拉杆箱等属性：比如，犯罪分子在逃跑时可能用佩戴物进行一定程度的伪装（如戴眼镜、戴帽子），导致其外观有别于伪装之前，这些佩戴物不应视为识别犯罪分子身份的关键；又比如，某人进入一超市购物，出来时拿了购物袋，导致其外观有别于购物之前，该购物袋不应视为识别此人身份的关键。

又例如，对于外观寻车而言，非关键特征可以包括车辆朝向特征、域特征、车辆颜色特征、车辆类型特征等。其中，域特征的定义和行人重识别任务中的类似，车辆朝向特征和车辆颜色特征的含义容易理解，车辆类型特征表征车辆的类型属性：如该车辆是轿车、SUV、皮卡、卡车等。

对于行人重识别和外观寻车中的关键特征，这里就不再介绍了。前文已经提到，并不容易明确指出哪些特征是关键特征，并且本申请提出的方案中也不会直接使用关键特征。

参照图1，对象识别方法包括：

步骤S110：获取目标图像的整体特征和对照图像的整体特征，并计算目标图像和对照图像在整体特征上的相似度。

图像的整体特征可以指一种针对于画面中的所有内容所提取出的特征，其中既包括非关键特征，也包括关键特征，但根据前文阐述，整体特征中非关键特征占据了较大的比重，导致关键特征在一定程度上被掩盖起来。

在一些实现方式中，目标图像的整体特征和对照图像的整体特征均可利用预训练的第一神经网络进行提取，该神经网络以图像为输入，输出提取到的整体特征，整体特征可以表示为向量的形式。本申请并不限定第一神经网络的结构，例如可以采用残差网络（ResNet），移动端网络（MobileNet），结构搜索网络（RegNet）等。神经网络良好的学习和泛化能力，因此能够提取到更多深层次的特征，当然，本申请也不排除采用传统方式（如SIFT、HOG等）进行图像整体特征的提取。

对于第一神经网络，可以采用有监督训练，监督信号设置为训练样本中对象的ID（或者说以对象的ID作为训练样本的标签进行损失计算）。例如，对于行人重识别，就是行人的ID（不同的行人分配不同的ID），对于外观寻车，就是车辆的ID（不同的车辆分配不同的ID）。

训练时第一神经网络末端可增设全连接层、softmax分类器等结构以便输出分类结果（即第一神经网络模型预测的训练样本中对象的ID）。由于ID是用于区分对象相同或不同的基本属性，因此要预测对象的ID需要将图像中蕴含的特征作为一个整体进行判断，从而将监督信号设置为训练样本中对象的ID，第一神经网络可以学习到图像中整体特征的提取方法。需要注意，在推理阶段，上面提到的全连接层、softmax分类器等结构不必保留，第一神经网络直接输出提取到的整体特征。

若整体特征采用向量表示，则计算目标图像的整体特征和对照图像的整体特征的相似度，可以实现为计算两个相应的特征向量之间的距离，该距离可以采用余弦距离、欧式距离、杰卡德距离、马氏距离等。不妨将计算得到的整体特征的相似度记为

，其中，i和j分别表示目标图像和对照图像，

和

则分别表示目标图像的整体特征和对照图像的整体特征。

还有一个问题需要特别说明，步骤S110中的“获取”一词，至少涵盖两种情况：第一种情况是直接提取图像中的特征，第二种情况是读取已经提取出的图像中的特征。例如，目标图像有5幅，对照图像有1000幅，可以先将1000幅对照图像的整体特征都提取出来并保存，对于某幅对照图像，在计算它的整体特征与5幅目标图像的整体特征的相似度时，直接读取之前保存的结果即可，没有必要重复提取5次整体特征。对于步骤S120中的“获取”一词，可作类似理解。

步骤S120：获取目标图像的非关键特征和对照图像的非关键特征，并计算目标图像和对照图像在非关键特征上的相似度。

在一些实现方式中，目标图像的非关键特征和对照图像的非关键特征均可利用预训练的第二神经网络进行提取，该神经网络以图像为输入，输出提取到的非关键特征，非关键特征可以表示为向量的形式。本申请并不限定第二神经网络的结构，例如可以采用残差网络（ResNet），移动端网络（MobileNet），结构搜索网络（RegNet）等，但并不要求一定要和第一神经网络采用相同的结构。神经网络良好的学习和泛化能力，因此能够提取到更多深层次的特征，当然，本申请也不排除采用传统方式（如SIFT、HOG等）进行图像非关键特征的提取。

对于第二神经网络，可以采用有监督训练，监督信号设置为训练样本中非关键特征所表征的属性的值（或者说以非关键特征所表征的属性的值作为训练样本的标签进行损失计算）。

例如，对于行人重识别，若非关键特征确定为域特征，则非关键特征所表征的属性就是图像的风格属性、图像的背景属性、摄像头的朝向属性等。不过，由于域特征表征图像中的多种属性，要直接为训练样本的这些属性指定标签比较复杂。而前文提到，域特征中最主要的是采集图像的摄像头的特征，从而，若将域简化为采集图像的摄像头的特征，将目标图像和对照图像在域特征上的相似度简化为采集目标图像的摄像头的特征和采集对照图像的摄像头的特征之间的相似度，则第二神经网络可以简化为一个用于提取采集图像的摄像头的特征的网络，此时可将采集训练样本的摄像头的ID（体现是图像否为同一摄像头采集的关键信息）作为训练第二神经网络的监督信号，因为采集图像的摄像头的特征所表征的属性正是图像的摄像头属性。

又例如，对于外观寻车，若非关键特征确定为车辆朝向特征，则非关键特征所表征的属性就是车辆的朝向属性，该属性可取预设的10个值之一（表示10个不同的方向）。

训练时第二神经网络末端可增设全连接层、softmax分类器等结构以便输出分类结果（即第二神经网络模型预测的训练样本中非关键特征所表征的属性的值，如采集训练样本的摄像头的ID）。图像的非关键特征表征图像中的非关键属性（如图像的摄像头属性，车辆的朝向属性），根据前文分析，这些属性无法用于精确识别图像中的对象，从而将监督信号设置为训练样本中非关键特征所表征的属性的值，第二神经网络可以学习到图像非关键特征的提取方法。需要注意，在推理阶段，上面提到的全连接层、softmax分类器等结构不必保留，第二神经网络直接输出提取到的非关键特征。

若非关键特征采用向量表示，则计算目标图像的非关键特征和对照图像的非关键特征的相似度，可以实现为计算两个相应的特征向量之间的距离，该距离可以采用余弦距离、欧式距离、杰卡德距离、马氏距离等。不妨将计算得到的非关键特征的相似度记为

。其中，i和j分别表示目标图像和对照图像，

和

则分别表示目标图像的整体特征和对照图像的非关键特征。

还需要说明一点，整体特征和非关键特征的提取是独立的，两种特征可以都采用神经网络提取，也可以只有一种采用神经网络提取，也可以都不采用神经网络提取，本申请对比并不限定。

步骤S130：从目标图像和对照图像在整体特征上的相似度中减去目标图像和对照图像在非关键特征上的相似度，得到最终相似度。

步骤S130可以用公式表示为：

其中，

表示最终相似度，λ表示一个比例系数，该比例系数可以根据经验取0.1、0.2、0.5、1等预设值，也可以根据当前的目标图像和/或对照图像的内容进行计算得到。需要注意，步骤S120中提取的非关键特征也可能有多个（相应地也可能需要多个第二神经网络进行非关键特征的提取），此时上式右侧要减去多项非关键特征。例如，对于外观寻车，在目标图像中提取车辆朝向和车辆颜色两个非关键特征，在对照图像中也提取车辆朝向和车辆颜色两个非关键特征，则上式可以写作：

其中，

表示目标图像和对照图像在车辆朝向特征上的相似度，

表示目标图像和对照图像在车辆颜色特征上的相似度（

和

分别表示目标图像的整体特征和对照图像的车辆颜色特征），两个相似度各有一个比例系数

和

。

另外，还需指出，步骤S130中的“减去”操作，并不能简单地理解为做减法（虽然在上面两个公式中，由于相似度都采用数值表示，所以“减去”操作实现为减法操作，但相似度并不一定要通过数值表示），而泛指一种从整体特征的相似度中排除或部分排除非关键特征的相似度的操作。

步骤S140：利用最终相似度识别目标图像中的对象。

根据需求的不同，步骤S140有不同的实现方式，例如：

（1）判断最终相似度是否大于一个相似度阈值（例如，可以是一个预设数值），若最终相似度大于相似度阈值，表明目标图像中的对象与对照图像中的对象高度相似，从而可以确定二者是同一对象。例如，若目标图像有1幅，对照图像有1000幅，可以将1000幅对照图像中满足相似度阈值条件的对照图像全部呈现给用户作为识别结果。

（2）每算出目标图像与一幅对照图像之间的最终相似度后，将得到的最终相似度保存起来，直至获得了目标图像与全部的对照图像之间的最终相似度后，对所有的最终相似度进行降序排序，然后按照用户需求输出。例如，若目标图像有1幅，对照图像有1000幅，以将计算得到的1000个最终相似度降序排序，根据需求的不同，可以将排序结果中排在第一的相似度对应的对照图像呈现给用户作为识别结果，可以将排序结果中排在前10的相似度对应的对照图像按照排序顺序呈现给用户为识别结果，或者也可以将全部的对照图像按照排序的顺序呈现给用户作为识别结果。

综上所述，在本申请实施例提供的对象识别方法中，由于非关键特征可以指那些不能用于精确区分目标图像中的对象和对照图像中的对象的特征，因此从两幅图像在整体特征上的相似度中减去两幅图像在非关键特征上的相似度，相当于在两幅图像的整体特征中削弱了非关键特征，相对性地强化了关键特征，而对关键特征的强化体现在计算得到的最终相似度中，从而基于该最终相似度进行目标图像中的对象识别能够达到较高的准确率。例如，对于行人重识别，若选择域特征为非关键特征，则该方法削弱了域相似性对识别结果的影响，提高了行人重识别的准确率；又例如，对于外观寻车，若选择车辆朝向特征为非关键特征，则该方法削弱了车辆朝向上的相似性对识别结果的影响，提高了车辆搜索的准确率。

在一些对照实施例中，试图通过注意力机制直接提取图像中的关键特征，但效果不如本申请提出的方法。其原因是：第一，依赖于注意力机制的方法普遍比较复杂，运算量大，而本申请的方法运算逻辑非常简单，运算量小；第二，如前文所述，很难严格地确定到底哪些特征属于关键特征，导致对照实施例中的注意力模块在目标设置上并不是十分明确，难以有效聚焦到关键特征，而非关键特征通过一些先验知识容易确定，使得本申请的方法在效果上是十分明确的。

图2示出了本申请实施例提供的对象识别装置200的功能模块图。参照图2，对象识别装置200包括：

第一相似度计算模块210，用于获取目标图像的整体特征和对照图像的整体特征，并计算所述目标图像和所述对照图像在整体特征上的相似度；

第二相似度计算模块220，用于获取所述目标图像的非关键特征和所述对照图像的非关键特征，并计算所述目标图像和所述对照图像在非关键特征上的相似度；

第三相似度计算模块230，用于从所述目标图像和所述对照图像在整体特征上的相似度中减去所述目标图像和所述对照图像在非关键特征上的相似度，得到最终相似度；

对象识别模块240，用于利用所述最终相似度识别所述目标图像中的对象。

在对象识别装置200的一种实现方式中，所述目标图像的整体特征和所述对照图像的整体特征分别是第一相似度计算模块210利用预训练的第一神经网络对所述目标图像和所述对照图像进行特征提取后得到的；和/或，所述目标图像的非关键特征和所述对照图像的非关键特征分别是第二相似度计算模块220利用预训练的第二神经网络对所述目标图像和所述对照图像进行特征提取后得到的。

在对象识别装置200的一种实现方式中，所述装置还包括：模型训练模块，用于对所述第一神经网络进行有监督训练，监督信号设置为训练样本中对象的ID；和/或，用于对所述第二神经网络进行有监督训练，监督信号设置为训练样本中所述非关键特征所表征的属性的值。

在对象识别装置200的一种实现方式中，对象识别模块240利用所述最终相似度识别所述目标图像中的对象，包括：判断所述最终相似度是否大于相似度阈值；若所述最终相似度大于所述相似度阈值，则确定所述目标图像中的对象与所述对照图像中的对象是同一对象。

在对象识别装置200的一种实现方式中，所述对象为行人，所述非关键特征包括以下至少一种：域特征、行人朝向特征、行人衣着颜色特征以及行人附属物特征。

在对象识别装置200的一种实现方式中，所述域特征包括采集图像的摄像头的特征，所述目标图像和所述对照图像在域特征上的相似度是指：采集所述目标图像的摄像头的特征和采集所述对照图像的摄像头的特征之间的相似度；所述目标图像的域特征和所述对照图像的域特征均利用预训练的第二神经网络进行提取，所述第二神经网络采用有监督训练，监督信号设置为采集训练样本的摄像头的ID。

在对象识别装置200的一种实现方式中，所述对象为车辆，所述非关键特征包括以下至少一种：车辆朝向特征、域特征、车辆颜色特征以及车辆类型特征。

本申请实施例提供的对象识别装置200，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法实施例中相应内容。

图3示出了本申请实施例提供的电子设备300的一种可能的结构。参照图3，电子设备300包括：处理器310、存储器320以及通信接口330，这些组件通过通信总线340和/或其他形式的连接机构（未示出）互连并相互通讯。

其中，存储器320包括一个或多个（图中仅示出一个），其可以是，但不限于，随机存取存储器（Random Access Memory，简称RAM），只读存储器（Read Only Memory，简称ROM），可编程只读存储器（Programmable Read-Only Memory，简称PROM），可擦除可编程只读存储器（Erasable Programmable Read-Only Memory，简称EPROM），电可擦除可编程只读存储器（Electric Erasable Programmable Read-Only Memory，简称EEPROM）等。处理器310以及其他可能的组件可对存储器320进行访问，读和/或写其中的数据。

处理器310包括一个或多个（图中仅示出一个），其可以是一种集成电路芯片，具有信号的处理能力。上述的处理器310可以是通用处理器，包括中央处理器（CentralProcessing Unit，简称CPU）、微控制单元（Micro Controller Unit，简称MCU）、网络处理器（Network Processor，简称NP）或者其他常规处理器；还可以是专用处理器，包括图形处理器（Graphics Processing Unit，GPU）、数字信号处理器（Digital Signal Processor,简称DSP）、专用集成电路（Application Specific Integrated Circuits，简称ASIC）、现场可编程门阵列（Field Programmable Gate Array，简称FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且，在处理器310为多个时，其中的一部分可以是通用处理器，另一部分可以是专用处理器。

通信接口330包括一个或多个（图中仅示出一个），可以用于和其他设备进行直接或间接地通信，以便进行数据的交互。通信接口330可以包括进行有线和/或无线通信的接口。

在存储器320中可以存储一个或多个计算机程序指令，处理器310可以读取并运行这些计算机程序指令，以实现本申请实施例提供的对象识别方法以及其他期望的功能。

可以理解，图3所示的结构仅为示意，电子设备300还可以包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。电子设备300可能是实体设备，例如PC机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等，也可能是虚拟设备，例如虚拟机、虚拟化容器等。并且，电子设备300也不限于单台设备，也可以是多台设备的组合或者大量设备构成的集群。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被计算机的处理器读取并运行时，执行本申请实施例提供的对象识别方法。例如，计算机可读存储介质可以实现为图3中电子设备300中的存储器320。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种对象识别方法，其特征在于，包括：

获取目标图像的整体特征和对照图像的整体特征，并计算所述目标图像和所述对照图像在整体特征上的相似度；

获取所述目标图像的非关键特征和所述对照图像的非关键特征，并计算所述目标图像和所述对照图像在非关键特征上的相似度；

从所述目标图像和所述对照图像在整体特征上的相似度中减去所述目标图像和所述对照图像在非关键特征上的相似度，得到最终相似度；

利用所述最终相似度识别所述目标图像中的对象。

2.根据权利要求1所述的对象识别方法，其特征在于，所述目标图像的整体特征和所述对照图像的整体特征分别是利用预训练的第一神经网络对所述目标图像和所述对照图像进行特征提取后得到的；

和/或，

所述目标图像的非关键特征和所述对照图像的非关键特征分别是利用预训练的第二神经网络对所述目标图像和所述对照图像进行特征提取后得到的。

3.根据权利要求2所述的对象识别方法，其特征在于，所述方法还包括：

对所述第一神经网络进行有监督训练，监督信号设置为训练样本中对象的ID；

和/或，

对所述第二神经网络进行有监督训练，监督信号设置为训练样本中所述非关键特征所表征的属性的值。

4.根据权利要求1所述的对象识别方法，其特征在于，所述利用所述最终相似度识别所述目标图像中的对象，包括：

判断所述最终相似度是否大于相似度阈值；

若所述最终相似度大于所述相似度阈值，则确定所述目标图像中的对象与所述对照图像中的对象是同一对象。

5.根据权利要求1-4中任一项所述的对象识别方法，其特征在于，所述对象为行人，所述非关键特征包括以下至少一种：

域特征、行人朝向特征、行人衣着颜色特征以及行人附属物特征。

6.根据权利要求5所述的对象识别方法，其特征在于，所述域特征包括采集图像的摄像头的特征，所述目标图像和所述对照图像在域特征上的相似度是指：采集所述目标图像的摄像头的特征和采集所述对照图像的摄像头的特征之间的相似度；

所述目标图像的域特征和所述对照图像的域特征均利用预训练的第二神经网络进行提取，所述第二神经网络采用有监督训练，监督信号设置为采集训练样本的摄像头的ID。

7.根据权利要求1-4中任一项所述的对象识别方法，其特征在于，所述对象为车辆，所述非关键特征包括以下至少一种：

车辆朝向特征、域特征、车辆颜色特征以及车辆类型特征。

8.一种对象识别装置，其特征在于，包括：

第一相似度计算模块，用于获取目标图像的整体特征和对照图像的整体特征，并计算所述目标图像和所述对照图像在整体特征上的相似度；

第二相似度计算模块，用于获取所述目标图像的非关键特征和所述对照图像的非关键特征，并计算所述目标图像和所述对照图像在非关键特征上的相似度；

第三相似度计算模块，用于从所述目标图像和所述对照图像在整体特征上的相似度中减去所述目标图像和所述对照图像在非关键特征上的相似度，得到最终相似度；

对象识别模块，用于利用所述最终相似度识别所述目标图像中的对象。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如权利要求1-7中任一项所述的方法。

10.一种电子设备，其特征在于，包括存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行权利要求1-7中任一项所述的方法。