CN113221920B

CN113221920B - 图像识别方法、装置、设备、存储介质以及计算机程序产品

Info

Publication number: CN113221920B
Application number: CN202110550422.6A
Authority: CN
Inventors: 陈亮辉; 周洋杰; 付琰; 甘露; 范斌; 罗程亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2024-01-12
Anticipated expiration: 2041-05-20
Also published as: CN113221920A

Abstract

本公开公开了一种图像识别方法、装置、设备、存储介质以及计算机程序产品，涉及人工智能技术领域，具体为计算机视觉和深度学习领域。该方法的一具体实施方式包括：获取候选图片集；提取候选图片集中的图片的特征信息；基于特征信息得到候选图片集中每两张图片的迁移概率；将迁移概率大于预设阈值的两张图片确定为目标图片集中的一个目标图片对；通过预先训练的识别模型对目标图片集中的目标图片对进行识别，得到目标识别结果。该实施方式减少了识别过程中的计算量，提高了识别的准确率和效率。

Description

图像识别方法、装置、设备、存储介质以及计算机程序产品

技术领域

本公开实施例涉及计算机领域，具体涉及计算机视觉、深度学习等人工智能技术领域，尤其涉及图像识别方法、装置、设备、存储介质以及计算机程序产品。

背景技术

随着深度学习技术的不断发展，深度学习技术在各个领域得到了广泛应用。比如，将深度学习技术应用于图像识别领域，而人脸识别是图像识别领域的一项重要技术。近年来人工智能技术飞度发展，并快速应用在计算机视觉研究领域，基于深度学习的人脸识别算法层出不穷。

发明内容

本公开实施例提出了一种图像识别方法、装置、设备、存储介质以及计算机程序产品。

第一方面，本公开实施例提出了一种图像识别方法，包括：获取候选图片集；提取候选图片集中的图片的特征信息；基于特征信息得到候选图片集中每两张图片的迁移概率；将迁移概率大于预设阈值的两张图片确定为目标图片集中的一个目标图片对；通过预先训练的识别模型对目标图片集中的目标图片对进行识别，得到目标识别结果。

第二方面，本公开实施例提出了一种图像识别装置，包括：获取模块，被配置成获取候选图片集；提取模块，被配置成提取候选图片集中的图片的特征信息；得到模块，被配置成基于特征信息得到候选图片集中每两张图片的迁移概率；确定模块，被配置成将迁移概率大于预设阈值的两张图片确定为目标图片集中的一个目标图片对；识别模块，被配置成通过预先训练的识别模型对目标图片集中的目标图片对进行识别，得到目标识别结果。

第三方面，本公开实施例提出了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。

第四方面，本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。

第五方面，本公开实施例提出了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开可以应用于其中的示例性系统架构图；

图2是根据本公开的图像识别方法的一个实施例的流程图；

图3是根据本公开的图像识别方法的另一个实施例的流程图；

图4是根据本公开的图像识别方法的又一个实施例的流程图；

图5是图4所示的图像识别方法的合并步骤的分解流程图；

图6是根据本公开的图像识别装置的一个实施例的结构示意图；

图7是用来实现本公开实施例的图像识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的图像识别方法或图像识别装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送图片等。终端设备101、102、103上可以安装有各种客户端应用，例如拍摄应用等等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以提供各种服务。例如，服务器105可以对从终端设备101、102、103获取到的候选图片集进行分析和处理，并生成处理结果(例如识别结果)。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的图像识别方法一般由服务器105执行，相应地，图像识别装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本公开的图像识别方法的一个实施例的流程200。该图像识别方法包括以下步骤：

步骤201，获取候选图片集。

在本实施例中，图像识别方法的执行主体(例如图1所示的服务器105)可以获取候选图片集。其中，候选图片集中可以包括多张候选图片，候选图片可以为通过图像传感器采集的，图像传感器即能够采集图片的传感器，本实施例中的图像传感器为摄像头传感器(以下简称为摄像头)，也可根据实际情况采用其他的图像传感器，本公开对此不做限定。

图像传感器采集的候选图片中包含有需要进行识别的目标对象。

在实际应用中，本公开提供的图像识别方法可以应用在智慧城市场景下，上述候选图片集可为固定摄像头采集的，固定摄像头为智慧城市中遍布在任意地方的摄像头，例如道路上、小区内等等。固定摄像头实时采集到图片后，会将采集的图片上传至图片数据库中，图片数据库中存储了所有固定摄像头采集的图片。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

步骤202，提取候选图片集中的图片的特征信息。

在本实施例中，上述执行主体可以提取候选图片集中的图片的特征信息。候选图片集中可以包括多张候选图片，上述执行主体可以提取每张候选图片的特征信息，从而得到候选图片集中每张图片的特征信息。

作为示例，上述执行主体可以提取候选图片集中每张候选图片的对象特征信息，对象特征信息即为候选图片中目标对象的对象特征信息，对象特征信息可以包括人脸特征信息和人体特征信息，人脸特征信息可以为目标对象的人脸角度、是否戴眼镜、是否戴帽子、头发颜色等特征信息，人体特征信息可以为目标对象的上半身衣着颜色、上半身衣着类型、下半身衣着颜色、下半身衣着类型等特征信息。上述执行主体还可提取候选图片中目标对象所乘坐车辆的车牌信息、车辆型号信息等特征信息。通过提取候选图片集中每张候选图片中目标对象的相关特征信息，使得提取的特征信息能够更全面地表征每张候选图片的特征。

步骤203，基于特征信息得到候选图片集中每两张图片的迁移概率。

在本实施例中，上述执行主体可以基于步骤202提取的特征信息得到候选图片集中任意两张图片的迁移概率。其中，迁移概率为目标对象从一张图片对应的地点迁移到另一张图片对应的地点的概率。也即基于步骤202提取的候选图片集中的每张候选图片的特征信息可以得到任意两张候选图片对应的地点之间的迁移概率。

其中，任意两张图片的迁移概率的生成方式可以为统计分析的方式，例如预先统计出多个目标对象在一段时间内的行动轨迹，由于行动轨迹反应的是地点的迁移情况，所以对上述行动轨迹进行分析，可以得到地点的迁移规律，从而得到任意两张候选图片对应的地点之间的迁移概率。任意两张图片的迁移概率的生成方式还可以为模型生成的方式，例如预先训练概率生成模型，将任意两张图片输入至训练好的概率生成模型中，输出得到上述两张图片的迁移概率。或者还可以采用其他方式来生成迁移概率，本公开对任意两张图片的迁移概率的生成方式不做具体限定。

步骤204，将迁移概率大于预设阈值的两张图片确定为目标图片集中的一个目标图片对。

在本实施例中，上述执行主体可以将迁移概率大于预设阈值的两张图片确定为目标图片集中的一个目标图片对。通过步骤203可以得到候选图片集中每两张图片的迁移概率，将迁移概率大于预设阈值的两张图片确定为目标图片集中的一个目标图片对。目标图片集为需要进行识别的图片对集合，目标图片集中包含多个目标图片对，每个目标图片对由两张图片组成。

需要说明的是，如果任意两张图片的迁移概率不大于预设阈值，说明目标对象从一张图片对应的地点迁移到另一张图片对应的地点的概率很小，这种情况下就不对这两张图片进行识别了，相当于对候选图片集中的两两候选图片对进行了剪枝操作，减少了计算量。

步骤205，通过预先训练的识别模型对目标图片集中的目标图片对进行识别，得到目标识别结果。

在本实施例中，上述执行主体可以通过预先训练的识别模型对目标图片集中的目标图片对进行识别，得到目标识别结果。该预先训练好的识别模型可以对目标图片集中的每个目标图片对进行识别，得到目标识别结果，其中，目标识别结果为目标图片对中的两张图片中的目标对象为同一个目标对象的概率，可在概率值大于预设阈值的情况下，将目标图片对中的两张图片中的目标对象确定为同一个目标对象。基于目标图片集中每个目标图片对的识别结果可以得到同一个目标对象对应的所有图片，进而可以确定每个目标对象的行动轨迹。

本公开实施例提供的图像识别方法，首先获取候选图片集；然后提取候选图片集中的图片的特征信息；之后基于特征信息得到候选图片集中每两张图片的迁移概率；并将迁移概率大于预设阈值的两张图片确定为目标图片集中的一个目标图片对；最后通过预先训练的识别模型对目标图片集中的目标图片对进行识别，得到目标识别结果。本公开提供了一种图像识别方法，该方法通过确定候选图片集中每两张图片的迁移概率，并将迁移概率大于预设阈值的两张图片确定为需要进行识别的目标图片对，相当于对候选图片集中的两两候选对进行了剪枝操作，减少了识别过程中的计算量，进而提高了识别模型的识别效率和准确度。

继续参考图3，图3示出了根据本公开的图像识别方法的另一个实施例的流程300。该图像识别方法包括以下步骤：

步骤301，获取候选图片集。

在本实施例中，图像识别方法的执行主体(例如图1所示的服务器105)可以获取候选图片集。步骤301与前述实施例的步骤201基本一致，具体实现方式可以参考前述对步骤201的描述，此处不再赘述。

步骤302，提取候选图片集中的图片的特征信息，特征信息包括时空特征信息。

在本实施例中，上述执行主体可以提取候选图片集中每张候选图片的特征信息，特征信息中包括时空特征信息。由于每张图片都是由摄像头拍摄而来的，而现在的摄像头一般为IP(Internet Protocol，网际互连协议)摄像头，时空特征信息即为每张图片对应的摄像头的时空特征信息，例如摄像头的标识信息等。上述执行主体还可以提取候选图片集中每张候选图片中目标对象的对象特征信息，对象特征信息可以包括人脸特征信息和人体特征信息。上述执行主体还可以提取候选图片集中每张候选图片中目标对象所乘坐车辆的相关特征信息，如车辆型号信息、车牌号码等。

在本实施例的一些可选实现方式中，时空特征信息包括：拍摄时间信息和拍摄地点信息。摄像头在拍摄图片时，会产生拍摄的时间信息、拍摄的地点信息等，其中，拍摄的地点信息可为拍摄的摄像头经纬度信息。通过提取图片的时空特征信息，可以辅助对图片的识别。

步骤303，基于时空特征信息和预先统计的各个图片对应的图像传感器之间的迁移规律，得到候选图片集中每两张图片的迁移概率。

在本实施例中，上述执行主体可以预先统计各个图片对应的图像传感器之间的迁移规律，例如可以预先统计出多个目标对象在一段时间内的行动轨迹，对上述行动轨迹进行分析，可以得到摄像头的迁移规律。再基于每张图片对应的摄像头的时空特征信息就可以得到候选图片集中每两张图片的迁移概率。

作为示例，图片A是由摄像头A拍摄而来，摄像头A对应地点A，图片B是由摄像头B拍摄而来，摄像头B对应地点B。根据预先统计的各个图片对应的图像传感器之间的迁移规律知道，到过地点A的目标对象都到过地点B，所以可以得到图片A对应的摄像头与图片B对应的摄像头之间的迁移概率为100％。

步骤304，将迁移概率大于零的两张图片确定为目标图片集中的一个目标图片对。

在本实施例中，上述执行主体可以将迁移概率大于零的两张图片确定为目标图片集中的一个目标图片对。迁移概率应该是一个大于等于零的概率值，而迁移概率等于零就意味着基于统计分析得出了由其中一个地点迁移到另一个地点的概率为零，此种情况下，则无需将该图片对添加至目标图片集中，也即无需对该图片对进行识别，从而减少了计算量。

步骤305，基于拍摄时间信息，将目标图片集分割为多个目标图片子集。

在本实施例中，由于每张图片都有对应的拍摄时间，上述执行主体可以基于每张图片的拍摄时间信息将目标图片集分割为多个目标图片子集，例如可以以两小时为时间间隔，基于该时间间隔将目标图片集分割为对应的多个目标图片子集。

步骤306，通过识别模型分别对多个目标图片子集中的目标图片对进行识别，得到每个目标图片子集的识别结果。

在本实施例中，上述执行主体可以通过识别模型分别对多个目标图片子集中的目标图片对进行识别，得到每个目标图片子集的识别结果。本实施例中采取时间滑动窗口方法对目标图片集中的目标图片对进行识别，也即分别对各个时间段的目标图片对进行识别，从而减少了识别的计算量，提高了识别效率。

具体地，上述执行主体可以通过识别模型对每个目标图片子集内的目标图片对进行识别，得到每个目标图片子集内的目标图片对的识别概率值；若得到的识别概率值不小于预设的概率阈值，则将该识别概率值对应的目标图片对中的目标对象确定为同一目标对象；然后再将同一目标对象对应的所有目标图片作为该目标对象的识别结果；将每个目标图片子集内的所有目标对象的识别结果作为每个目标图片子集的识别结果。

在本实施例的一些可选实现方式中，识别模型通过如下步骤训练得到的：

(1)获取训练样本集，其中，训练样本集中的训练样本包括样本信息和对应的识别预估值，其中，样本信息包括两张样本图片及每张样本图片对应的特征信息。两张样本图片可为图像数据库中任意两张图片，提取每张样本图片对应的特征信息。两张样本图片及每张样本图片对应的特征信息构成了一条样本信息，多条样本信息构成了训练样本集。

(2)将样本信息作为输入，将识别预估值作为输出，训练得到识别模型。该识别模型能对任意两张图片进行识别，输出两张图片中的目标对象为同一目标对象的识别概率值。

步骤307，将每个目标图片子集的识别结果进行合并，得到目标识别结果。

在本实施例中，上述执行主体可以将每个目标图片子集的识别结果进行合并，从而得到最终的目标识别结果。由步骤306可知，每个目标图片子集的识别结果中包括每个目标图片子集内的所有目标对象的识别结果。将每个目标图片子集的识别结果进行合并，得到目标识别结果，目标识别结果中包含了所有目标对象对应的所有目标图片，从而可以生成所有目标对象的行动轨迹。

从图3中可以看出，与图2对应的实施例相比，本实施例中的图像识别方法中通过获取候选图片集中的图片的时空特征信息，并基于该时空特征信息和预先统计的图像传感器之间的迁移规律，确定候选图片集中每两张图片的迁移概率，减少了计算量；同时将摄像头之间迁移概率添加到模型特征中，提高了识别模型的精准度。另外，采取时间滑动窗口方法对目标图片集中的目标图片对进行识别，从而减少了识别过程中的识别量，提高了识别效率。

继续参考图4，图4示出了根据本公开的图像识别方法的又一个实施例的流程400。该图像识别方法包括以下步骤：

步骤401，获取原始图片。

在本实施例中，图像识别方法的执行主体(例如图1所示的服务器105)可以获取原始图片，其中，原始图片可以为任意摄像头采集的包含第一目标对象的图片，在这里，第一目标对象即需要识别的目标对象。

步骤402，提取原始图片中第一目标对象的第一对象特征信息。

在本实施例中，上述执行主体可以提取步骤401获取的原始图片中第一目标对象的第一对象特征信息，其中，第一对象特征信息为第一目标对象对应的特征信息。例如可以通过人脸分割技术对原始图片中第一目标对象的人脸进行分割，并抽取出第一目标对象的人脸角度、是否戴眼镜、是否戴帽子、头发颜色等人脸特征信息。

步骤403，基于第一对象特征信息，在图像数据库中对第一目标对象进行相似度检索，得到候选图片集。

在本实施例中，上述执行主体可以基于步骤402提取的第一对象特征信息，在图像数据库中对第一目标对象进行相似度检索，得到候选图片集。由于图像数据库中存储了所有固定摄像头采集的图片，所以在图像数据库中对第一目标对象进行相似度检索，可以得到与第一目标对象最相似的M张图片，M张图片构成了候选图片集，其中，M为正整数，M可以根据实际情况进行设定，本公开对此不做具体限定。

步骤404，提取候选图片集中的图片的特征信息，特征信息包括时空特征信息。

步骤405，基于时空特征信息和预先统计的各个图片对应的图像传感器之间的迁移规律，得到候选图片集中每两张图片的迁移概率。

步骤406，将迁移概率大于零的两张图片确定为目标图片集中的一个目标图片对。

步骤407，基于拍摄时间信息，将目标图片集分割为多个目标图片子集。

步骤408，通过识别模型分别对多个目标图片子集中的目标图片对进行识别，得到每个目标图片子集的识别结果。

步骤404-408与前述实施例的步骤302-306基本一致，具体实现方式可以参考前述对步骤302-306的描述，此处不再赘述。

步骤409，按照拍摄时间信息的先后顺序，将每个目标图片子集的识别结果依次进行合并，得到目标识别结果。

在本实施例中，上述执行主体可以按照图片的拍摄时间信息的先后顺序，将各个目标图片子集的识别结果依次进行合并，从而得到最终的目标识别结果。

在本实施例中，多个目标图片子集包括：按照拍摄时间信息的先后顺序排列的N个目标图片子集，其中，N为大于等于3的整数。上述执行主体可以依次对N个目标图片子集中的每个目标图片子集对应的识别结果进行合并，从而得到最终的目标识别结果。

从图4中可以看出，与图3对应的实施例相比，本实施例中的图像识别方法可以通过一张原始图片，通过在图像数据库中对原始图片中的目标对象进行相似度检索，能够得到候选图片集，突出了候选图片集的获取过程。由此，本实施例描述的方案应用场景更加广泛。并且，按照拍摄时间信息的先后顺序，将每个目标图片子集的识别结果依次进行合并，能使得生成的最终的识别结果更加准确，从而提升了聚档效果。

继续参考图5，图5是图4所示的图像识别方法的409合并步骤的分解流程图500。该合并步骤包括：

步骤501，将第一个目标图片子集的识别结果作为第一识别结果，将第二个目标图片子集的识别结果作为第二识别结果。

在本实施例中，将第一个目标图片子集的识别结果，将第二个目标图片子集的识别结果作为第二识别结果。目标图片子集是按照拍摄时间信息的先后顺序将目标图片集进行分割得到的，所以第一个目标图片子集、第二个目标图片子集应该是将所有目标图片子集按照拍摄时间信息进行排序而得到的。

作为示例，将目标图片集(假设目标图片集中的图片的拍摄时间为8:00-16:00之间)按照拍摄时间先后顺序、且每个时间段为2小时进行分割得到了四个目标图片子集，分别为：第一目标图片子集、第二目标图片子集、第三目标图片子集和第四目标图片子集，其中，第一目标图片子集中的图片的拍摄时间均在8:00-10:00之间，第二目标图片子集中的图片的拍摄时间均在10:00-12:00之间，第三目标图片子集中的图片的拍摄时间均在12:00-14:00之间，第四目标图片子集中的图片的拍摄时间均在14:00-16:00之间。

步骤502，对第一识别结果和第二识别结果进行合并操作，得到第一合并结果。

在本实施例中，会对第一识别结果和第二识别结果进行合并，从而得到第一合并结果。由于每个识别结果中可以包括多个目标对象，且每个目标对象可以对应有多张图片，所以可以选择每个目标对象对应的多张图片中的预定数目的图片，构建每个目标对象对应的高置信度的数据集，以数据集中的图片代表该目标对象，并使用数据集中的图片与另一个识别结果进行合并。

在本实施例的一些可选实现方式中，步骤502包括：

(1)分别对第一识别结果和第二识别结果进行筛选，得到第一待识别图片集合和第二待识别图片集合。

可以按照预定的筛选条件对第一识别结果和第二识别结果进行筛选，从而得到第一待识别图片集合和第二待识别图片集合。筛选条件可以为选择置信度最高的前5张图片，或者为选择识别概率值最高的前5张图片，或者还可以为选择识别概率值高于0.9的图片，筛选条件可根据不同的情况进行设置，本公开对此不做具体限定。

对第一识别结果与第二识别结果中的每个目标对象对应的图片进行筛选，得到每个目标对象对应的数据集，第一识别结果中的所有目标对象对应的数据集构成第一待识别图片集合，第二识别结果中的所有目标对象对应的数据集构成第二待识别图片集合。

(2)基于识别模型对第一待识别图片集合和第二待识别图片集合中的图片进行识别，得到识别结果。

将第一待识别图片集合中的图片与第二待识别图片集合中的图片进行两两配对，之后使用识别模型对得到的图片对进行识别，可以得到每个图片对中的目标对象为同一目标对象的识别概率值。

(3)响应于识别结果满足预设条件，将第一目标图片子集的识别结果和第二目标图片子集的识别结果进行合并，得到第一合并结果。

在识别概率值满足预设条件的情况下，将其对应的两张图片确定为同一目标对象，并将其对应的目标对象的所有图片进行合并，从而得到第一合并结果，其中，预设条件可以为判断识别概率值是否大于预设阈值。

在上述步骤中，通过对第一识别结果和第二识别结果进行筛选，得到第一待识别图片集合和第二待识别图片集合，再利用识别模型对第一待识别图片集合和第二待识别图片集合中的图片进行识别，在识别结果满足预设条件，将第一目标图片子集的识别结果和第二目标图片子集的识别结果进行合并，得到第一合并结果。可以看出，通过筛选操作选择高置信度的图片来代表各个目标对象，减少了识别过程的计算量，提高了识别效率，也提高了合并的效率。

步骤503，将第一合并结果作为第一识别结果，将第i个目标图片子集的识别结果作为第二识别结果，再次执行合并操作，得到目标识别结果，其中i＝3，4，…，N。

在本实施例中，可以将第一合并结果作为第一识别结果，将第i(i为不小于3的整数)个目标图片子集的识别结果作为第二识别结果，再次执行步骤502的合并操作。

也即该合并过程可表述为：将第一识别结果与第二识别结果的合并结果作为第一识别结果，将第三个目标图片子集的识别结果作为第二识别结果，将第一识别结果与第二识别结果进行合并(如步骤502所示)；将第一、第二、第三个目标图片子集对应的识别结果的合并结果作为第一识别结果，将第四个目标图片子集的识别结果作为第二识别结果，将第一识别结果与第二识别结果进行合并(如步骤502所示)……直至所有的目标图片子集对应的识别结果都已合并完成，则该循环结束，得到最后的目标识别结果。

从图5中可以看出，该合并过程基于拍摄时间信息的先后顺序，将每个目标图片子集的识别结果依次进行合并，减少了合并过程中的计算量，提升了聚档效果。

进一步参考图6，作为对上述各图所示方法的实现，本公开提供了一种图像识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的图像识别装置600可以包括：获取模块601、提取模块602、得到模块603、确定模块604和识别模块605。其中，获取模块601，被配置成获取候选图片集；提取模块602，被配置成提取候选图片集中的图片的特征信息；得到模块603，被配置成基于特征信息得到候选图片集中每两张图片的迁移概率；确定模块604，被配置成将迁移概率大于预设阈值的两张图片确定为目标图片集中的一个目标图片对；识别模块605，被配置成通过预先训练的识别模型对目标图片集中的目标图片对进行识别，得到目标识别结果。

在本实施例中，图像识别装置600中：获取模块601、提取模块602、得到模块603、确定模块604和识别模块605的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-205的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，特征信息包括：时空特征信息；以及得到模块进一步配置成：基于时空特征信息和预先统计的各个图片对应的图像传感器之间的迁移规律，得到候选图片集中每两张图片的迁移概率。

在本实施例的一些可选的实现方式中，时空特征信息包括：拍摄时间信息和拍摄地点信息。

在本实施例的一些可选的实现方式中，识别模块包括：分割子模块，被配置成基于拍摄时间信息，将目标图片集分割为多个目标图片子集；识别子模块，被配置成通过识别模型分别对多个目标图片子集中的目标图片对进行识别，得到每个目标图片子集的识别结果；合并子模块，被配置成将每个目标图片子集的识别结果进行合并，得到目标识别结果。

在本实施例的一些可选的实现方式中，合并子模块包括：合并单元，被配置成按照拍摄时间信息的先后顺序，将每个目标图片子集的识别结果依次进行合并。

在本实施例的一些可选的实现方式中，多个目标图片子集包括：按照拍摄时间信息的先后顺序排列的N个目标图片子集，其中，N为大于等于3的整数；以及合并单元包括：确定子单元，被配置成将第一个目标图片子集的识别结果作为第一识别结果，将第二个目标图片子集的识别结果作为第二识别结果；第一合并子单元，被配置成对第一识别结果和第二识别结果进行合并操作，得到第一合并结果；第二合并子单元，被配置成将第一合并结果作为第一识别结果，将第i个目标图片子集的识别结果作为第二识别结果，再次执行合并操作；其中i＝3，4，…，N。

在本实施例的一些可选的实现方式中，第一合并子单元包括：分别对第一识别结果和第二识别结果进行筛选，得到第一待识别图片集合和第二待识别图片集合；基于识别模型对第一待识别图片集合和第二待识别图片集合中的图片进行识别，得到识别结果；响应于识别结果满足预设条件，将第一目标图片子集的识别结果和第二目标图片子集的识别结果进行合并，得到第一合并结果。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如图像识别方法。例如，在一些实施例中，图像识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的图像识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像识别方法，包括：

获取候选图片集；

提取所述候选图片集中的图片的特征信息；

基于所述特征信息得到所述候选图片集中每两张图片的迁移概率，所述迁移概率为目标对象从一张图片对应的地点迁移到另一张图片对应的地点的概率；

将所述迁移概率大于预设阈值的两张图片确定为目标图片集中的一个目标图片对；

通过预先训练的识别模型对所述目标图片集中的目标图片对进行识别，得到目标识别结果。

2.根据权利要求1所述的方法，其中，所述特征信息包括：时空特征信息；以及

所述基于所述特征信息得到所述候选图片集中每两张图片的迁移概率，包括：

基于所述时空特征信息和预先统计的各个图片对应的图像传感器之间的迁移规律，得到所述候选图片集中每两张图片的迁移概率，所述图像传感器之间的迁移规律用于表征所述目标对象从一个图像传感器所在地点迁移到另一个图像传感器所在地点的规律。

3.根据权利要求2所述的方法，其中，所述时空特征信息包括：拍摄时间信息和拍摄地点信息。

4.根据权利要求1-3任一项所述的方法，其中，所述将所述迁移概率大于预设阈值的两张图片确定为目标图片集中的一个目标图片对，包括：

将所述迁移概率大于零的两张图片确定为目标图片集中的一个目标图片对。

5.根据权利要求3所述的方法，其中，所述通过预先训练的识别模型对所述目标图片集中的目标图片对进行识别，得到目标识别结果，包括：

基于所述拍摄时间信息，将所述目标图片集分割为多个目标图片子集；

通过所述识别模型分别对所述多个目标图片子集中的目标图片对进行识别，得到每个目标图片子集的识别结果；

将所述每个目标图片子集的识别结果进行合并，得到目标识别结果。

6.根据权利要求5所述的方法，其中，所述将所述每个目标图片子集的识别结果进行合并，包括：

按照所述拍摄时间信息的先后顺序，将所述每个目标图片子集的识别结果依次进行合并。

7.根据权利要求6所述的方法，其中，所述多个目标图片子集包括：按照所述拍摄时间信息的先后顺序排列的N个目标图片子集，其中，N为大于等于3的整数；以及

所述按照所述拍摄时间信息的先后顺序，将所述每个目标图片子集的识别结果依次进行合并，包括：

将第一个目标图片子集的识别结果作为第一识别结果，将第二个目标图片子集的识别结果作为第二识别结果；

对所述第一识别结果和第二识别结果进行合并操作，得到第一合并结果；

将所述第一合并结果作为第一识别结果，将第i个目标图片子集的识别结果作为第二识别结果，再次执行所述合并操作；

其中i=3，4，…，N。

8.根据权利要求7所述的方法，其中，所述对第一识别结果和第二识别结果进行合并操作，得到第一合并结果，包括：

分别对所述第一识别结果和第二识别结果进行筛选，得到第一待识别图片集合和第二待识别图片集合；

基于所述识别模型对所述第一待识别图片集合和所述第二待识别图片集合中的图片进行识别，得到识别结果；

响应于所述识别结果满足预设条件，将所述第一个目标图片子集的识别结果和所述第二个目标图片子集的识别结果进行合并，得到第一合并结果。

9.根据权利要求1-8任一项所述的方法，其中，所述识别模型通过如下步骤训练得到的：

获取训练样本集，其中，所述训练样本集中的训练样本包括样本信息和对应的识别预估值，其中，所述样本信息包括两张样本图片及每张样本图片对应的特征信息；

将所述样本信息作为输入，将所述识别预估值作为输出，训练得到所述识别模型。

10.根据权利要求1所述的方法，其中，所述候选图片集通过如下步骤得到的：

获取原始图片；

提取所述原始图片中第一目标对象的第一对象特征信息；

基于所述第一对象特征信息，在图像数据库中对所述第一目标对象进行相似度检索，得到所述候选图片集。

11.一种图像识别装置，包括：

获取模块，被配置成获取候选图片集；

提取模块，被配置成提取所述候选图片集中的图片的特征信息；

得到模块，被配置成基于所述特征信息得到所述候选图片集中每两张图片的迁移概率，所述迁移概率为目标对象从一张图片对应的地点迁移到另一张图片对应的地点的概率；

确定模块，被配置成将所述迁移概率大于预设阈值的两张图片确定为目标图片集中的一个目标图片对；

识别模块，被配置成通过预先训练的识别模型对所述目标图片集中的目标图片对进行识别，得到目标识别结果。

12.根据权利要求11所述的装置，其中，所述特征信息包括：时空特征信息；以及所述得到模块进一步配置成：

13.根据权利要求12所述的装置，其中，所述时空特征信息包括：拍摄时间信息和拍摄地点信息。

14.根据权利要求13所述的装置，其中，所述识别模块包括：

分割子模块，被配置成基于所述拍摄时间信息，将所述目标图片集分割为多个目标图片子集；

识别子模块，被配置成通过所述识别模型分别对所述多个目标图片子集中的目标图片对进行识别，得到每个目标图片子集的识别结果；

合并子模块，被配置成将所述每个目标图片子集的识别结果进行合并，得到目标识别结果。

15.根据权利要求14所述的装置，其中，所述合并子模块包括：

合并单元，被配置成按照所述拍摄时间信息的先后顺序，将所述每个目标图片子集的识别结果依次进行合并。

16.根据权利要求15所述的装置，其中，所述多个目标图片子集包括：按照所述拍摄时间信息的先后顺序排列的N个目标图片子集，其中，N为大于等于3的整数；以及所述合并单元包括：

确定子单元，被配置成将第一个目标图片子集的识别结果作为第一识别结果，将第二个目标图片子集的识别结果作为第二识别结果；

第一合并子单元，被配置成对所述第一识别结果和第二识别结果进行合并操作，得到第一合并结果；

第二合并子单元，被配置成将所述第一合并结果作为第一识别结果，将第i个目标图片子集的识别结果作为第二识别结果，再次执行所述合并操作；

其中i=3，4，…，N。

17.根据权利要求16所述的装置，其中，所述第一合并子单元包括：

18.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

19.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。