CN112906466A

CN112906466A - 图像关联方法、系统及设备以及图像搜索方法及系统

Info

Publication number: CN112906466A
Application number: CN202110055236.5A
Authority: CN
Inventors: 程冰; 王健
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-06-04
Anticipated expiration: 2041-01-15
Also published as: CN112906466B

Abstract

本申请提供一种图像关联方法，包括：获取持续采集得到的视频帧序列；识别并跟踪所述视频帧序列中的目标对象；输出所述目标对象在不同状态下的状态图像；将属于同一目标对象的多个状态图像采用同一关联标识关联存储在一个目标对象集中。本申请还提供一种图像搜索方法、一种图像关联系统、一种图像搜索系统和一种图像关联设备。本申请能够实现图像之间的自动关联，从而节省了大量人工标注的人工成本和时间成本；本申请还通过输入图像的关联标识获得关联图像，再以关联图像去搜索每个姿态对应的更多图像，从而使得搜索结果更加全面。

Description

图像关联方法、系统及设备以及图像搜索方法及系统

技术领域

本申请涉及计算机视觉领域，特别是涉及一种图像关联方法、系统及设备以及一种图像搜索方法及系统。

背景技术

在很多应用场景中，希望得到同一个人的更多人像信息，比如同一个人的不同角度，正面/侧面/背面/只有上半身或者下半身的图片。

传统技术通过人工对样本进行标注，将同一个人的不同姿态标注为同一个人。然而对于海量的数据而言，需要投入巨大的人力成本和时间成本。

发明内容

基于此，有必要针对人工标注的人力成本和时间成本高的问题，提供一种图像关联方法。

为了实现本申请的目的，本申请采用如下技术方案：

一种图像关联方法，包括：

获取持续采集得到的视频帧序列；

识别并跟踪所述视频帧序列中的目标对象；

输出所述目标对象在不同状态下的状态图像；

将属于同一目标对象的多个状态图像采用同一关联标识关联存储在一个目标对象集中。

一种图像搜索方法，其特征在于，包括：

获取输入图像的关联标识；

以所述关联标识从关联图像数据集中检索，得到具有所述关联标识的所有姿态图像；其中，所述关联图像数据集根据上述的图像关联方法获得；

根据所述具有所述关联标识的所有姿态图像，获取搜索源图像；

分别在图像数据库中搜索对应于每个搜索源图像的结果集；

将对应于每个搜索源图像的结果集汇总，得到所述输入图像的检索结果集。

一种图像关联系统，其特征在于，包括：

视频获取模块，用于获取持续采集得到的视频帧序列；

识别跟踪模块，用于识别并跟踪所述视频帧序列中的目标对象；

输出模块，用于输出所述目标对象在不同状态下的状态图像；

存储模块，用于将属于同一目标对象的多个状态图像采用同一关联标识关联存储在一个目标对象集中。

一种图像搜索系统，其特征在于，包括：

关联标识获取模块，用于获取输入图像的关联标识；

关联图像检索模块，用于以所述关联标识从关联图像数据集中检索，得到具有所述关联标识的所有姿态图像；其中，所述关联图像数据集根据上述的图像关联方法获得；

搜索源图像获取模块，用于根据所述具有所述关联标识的所有姿态图像，获取搜索源图像；

图像搜索模块，用于根据所述具有所述关联标识的所有姿态图像，获取姿态搜索源图像，并分别在图像数据库中搜索对应于每个姿态搜索源图像的结果集；

汇总模块，用于将对应于每个姿态搜索源图像的结果集汇总，得到所述输入图像的检索结果集。

一种图像关联设备，包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的图像关联程序，所述图像关联程序被所述处理器执行时实现上述的图像关联方法的步骤。

上述图像关联方法、系统及设备，通过对视频帧序列进行目标对象的识别和跟踪，获取同一目标对象在不同状态下的状态图像，并将属于同一目标对象的多个状态图像采用同一关联标识关联存储在一个目标对象集中，实现了图像之间的自动关联，从而节省了大量人工标注的人工成本和时间成本。

上述图像搜索方法及系统，通过获取输入图像的关联标识；以所述关联标识从关联图像数据集中检索，得到具有所述关联标识的所有姿态图像；再根据所述具有所述关联标识的所有姿态图像，获取搜索源图像；再分别在图像数据库中搜索对应于每个搜索源图像的结果集；最后，将对应于每个搜索源图像的结果集汇总，得到所述输入图像的检索结果集，即，可以通过输入图像的关联标识获得关联图像，再以关联图像去搜索每个姿态对应的更多图像，从而使得搜索结果更加全面。

附图说明

图1为一实施例中的图像关联设备示意图；

图2a为一实施例中图像关联方法的流程图；

图2b为与图2a对应的数据变化过程示意图；

图3a为图2a中步骤S204的其中一种实施方法的流程图；

图3b为获取图像姿态信息的流程图；

图4为图2a中步骤S206的其中一种实施方法的流程图；

图5为一实施例中的对人像集中的人像进行多姿态筛选的示意图；

图6a为一实施例中的图像搜索方法的流程图；

图6b为与图6a对应的数据变化过程示意图；

图7为一实施例的图像关联系统的模块图；

图8为一实施例的图像搜索系统的模块图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的首选实施例。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本申请的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

图1是本申请实施例方案涉及的硬件运行环境的图像关联设备100结构示意图。

本申请实施例的图像关联设备，可以是例如服务器、个人计算机，智能手机、平板电脑、便携计算机等。只要其具备一定的通用数据处理能力即可。

如图1所示，所述图像关联设备100包括：存储器104、处理器102及网络接口106。

处理器102在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器104中存储的程序代码或处理数据，例如执行图像关联程序等。

存储器104至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器104在一些实施例中可以是图像关联设备100的内部存储单元，例如该图像关联设备100的硬盘。存储器104在另一些实施例中也可以是图像关联设备100的外部存储设备，例如该图像关联设备100上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，存储器104还可以包括图像关联设备100的内部存储单元。存储器104不仅可以用于存储安装于图像关联设备100的应用软件及各类数据，例如人脸识别模型训练的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

网络接口106可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该图像关联设备100与其他电子设备之间建立通信连接。

网络可以为互联网、云网络、无线保真(Wi-Fi)网络、个人网(PAN)、局域网(LAN)和/或城域网(MAN)。网络环境中的各种设备可以被配置为根据各种有线和无线通信协议连接到通信网络。这样的有线和无线通信协议的例子可以包括但不限于以下中的至少一个：传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、IEEE802.11、光保真(Li-Fi)、802.16、IEEE 802.11s、IEEE802.11g、多跳通信、无线接入点(AP)、设备对设备通信、蜂窝通信协议和/或蓝牙(BlueTooth)通信协议或其组合。

图1仅示出了具有组件102-106的图像关联设备100，本领域技术人员可以理解的是，图1示出的结构并不构成对图像关联设备100的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

如图2a所示，为一实施例的图像关联方法的流程图。结合图2b，该方法包括以下步骤：

步骤S202：获取持续采集得到的视频帧序列。

“持续采集得到”强调视频帧序列的连贯性，一般地，正常录制且无剪辑的视频均满足该要求。视频来源可以来自网络或本地存储。在一种实施方式中，视频可以来源于监控视频。对于监控网络而言，网络摄像机分布于各个监控点，将监控视频录制并传输给控制中心。网络上的视频源还可以是媒体视频。本申请不作限制。

当确定对视频进行图像关联处理后，网络视频可经过传输、读取、解码等处理得到视频帧序列，本地视频则经过读取和解码处理得到视频帧序列。视频帧序列即图像序列，每个视频帧中包含图像特征。通过对图像特征进行分析，可以获得对图像的理解。

步骤S204：识别并跟踪所述视频帧序列中的目标对象。

目标对象是某个应用场景下的研究对象，其可以是人像、动物图像、物品图像、场景图像或者其他图像。所述目标对象可以是多个，例如场景中的多个人像。

对于某个连贯的视频帧序列，可能存在目标对象进入观察视窗、在观察视窗中停留、移动以及从观察视窗中离开等至少一种情况。

目标对象相对于观察视窗的移动包括但不限于视角移动、位置移动。目标对象相对于观察视窗的移动也不限于目标对象自己的移动，也可以是观察视窗的移动导致二者相对移动。

当目标对象在视频帧中出现时，需要首先将其进行识别，例如将人像识别出来，之后对其进行跟踪。跟踪一般是基于预测获得目标对象在下一帧的位置。跟踪目标对象是将同一目标对象在不同状态下的状态图像进行关联的关键。

该识别和跟踪可以在录制视频时完成，也可以在后期处理视频帧时完成。

步骤S206：输出所述目标对象在不同状态下的状态图像。

当目标对象是一个时，输出该目标对象在不同状态下的状态图像。当目标对象是多个时，需要分别输出每个目标对象各自在不同状态的状态图像。即每个目标对象具有一个图像集合。

目标对象的状态对于不同的应用场景或不同的目标对象而言，具有不同的含义。例如，在获取关联图像集合的应用场景下，对于人像或动物图像而言，状态可以是当前姿态，如人脸处于正面/侧面/背面、身体处于不同的体态等。再例如，在不同拍摄角度或光照条件下识别物品的应用场景下，对于物品而言，状态可以是处在不同的拍摄角度下、不同的光照条件下等。

本步骤通过步骤S204识别和跟踪目标对象后，进一步区分出所述目标对象的不同状态，然后输出所述目标对象在不同状态下的状态图像。

步骤S208：将属于同一目标对象的多个状态图像采用同一关联标识关联存储在一个目标对象集中。

每个目标对象具有一个目标对象集，其包括图像集合，图像集合中的图像根据状态可以进行划分，即每幅图像具有一个确定的状态分类。每个目标对象的图像集合中的所有图像都具有同一个关联标识。当采用同一关联标识进行检索时，就可以得到关于同一个目标对象的所有图像。

关联标识应当具有唯一性，这就将不同的目标对象严格区分。状态图像的存储方式可以是保存在文件系统中，也可以保存在数据库中。当保存在文件系统中时，可以将同一目标对象的所有状态图像保存于同一文件夹下，文件夹的命名可以作为所述关联标识。每个不同的状态还可以用子文件夹区分。当保存在数据库中时，可以为保存所述状态图像的表建立关联标识字段、内容字段等，其中关联标识字段用于保存该关联标识，内容字段则可以保存图像的字节化数据。

上述图像关联方法，通过对视频帧序列进行目标对象的识别和跟踪，获取同一目标对象在不同状态下的状态图像，并将属于同一目标对象的多个状态图像采用同一关联标识关联存储在一个目标对象集中，实现了图像之间的自动关联，从而节省了大量人工标注的人工成本和时间成本。

在本实施例中，以所述目标对象为人像为例进行说明，故所述不同状态下的状态图像为人在不同姿态下的姿态图像。可以理解，所述目标对象不限于人像，还可以是动物图像、物品图像、场景图像或者其他需要多情景识别同一目标情况下的对象等。

如图3a所示，在一个实施例中，所述步骤S204：识别并跟踪所述视频帧序列中的目标对象可以包括：

步骤S302：依序判断每一视频帧是检测帧还是跟踪帧。

视频画面中的对象的运动为连续变化，即不会突变。例如人物的行动，一定是从某个位置逐渐移动到另一个位置。因此视频帧间的差异一般不会变化特别大，可以通过轮廓检测的方法大致判断出场景中的人像。从而将视频帧大致进行分类，以便在步骤S304或S306中作进一步的相应处理。视频帧序列中的第一帧必须是检测帧，即开始时完全没有任何对象。视频帧如果引入了新的人像轮廓，会被判定为检测帧。跟踪帧是检测帧的基础上，基于图像变化的连续性，通过帧间差异跟踪检测帧中的对象。

步骤S304：若视频帧为检测帧，则进行人像识别，并提取人像的姿态信息。

对判定为检测帧的图像帧进行更进一步的处理，包括人像识别和提取人像姿态信息。其中，人像识别包括面部识别，可以采用人工智能方法识别。

本申请实施例中，可以采用人体姿态模型来提取人体的姿态信息。将检测帧输入所述人体姿态模型，可以获得人体姿态完整度和人体面向信息。其中，人体姿态模型为采用包括不同面向和人体完整度的人体图像的训练集训练得到。在训练集中，对每幅人体图像，为其标注人体姿态完整度和人体面向信息(例如正面、侧面、背面)。从而训练得到的人体姿态模型就可以对输入的检测帧进行分类，获取检测帧所具有的人体姿态完整度和人体面向信息。

具体地，请参考图3b，当输入检测帧时，通过检测器302对检测帧进行分析，得到人像框。将人像框输入人体姿态模型304。人体姿态模型304输出人体完整度和人体面向信息。其中，人体完整度被进一步用于得到上半身完整度和下半身完整度。当上半身完整度不低于预设的阈值时，获得上半身标签，当下半身完整度不低于预设的阈值时，获得下半身标签。当同时获得上半身标签和下半身标签时，获得全身标签。上述预设的阈值都可以在40％～60之间选取。即完整度至少大于40％才能认为上半身完整度或下半身完整度符合要求。

根据人体完整度和人体面向信息，可以获得人像目标的姿态信息，例如半身侧面姿态、全身正面姿态等。

步骤S306：若视频帧为跟踪帧，则获取人像的位置信息。

对判定为跟踪帧的图像帧进行更进一步的处理，包括获取人像的位置信息。对于跟踪帧，不需要再进行人像识别和提取姿态信息，只需要获得上一帧的人像和姿态信息即可。若上一帧为跟踪帧，其也能获得上上一帧的人像和姿态信息，直至检测帧。跟踪帧补充了人像的位置信息。

经过上述步骤的处理，可以获得人像的面部信息、姿态信息、位置信息。当姿态和位置变化时，获得多个人像信息，即获得图像帧加上人像信息的集合，人像集。

上述步骤，通过将视频帧划分为检测帧和跟踪帧，可以减少对图像帧的检测量，即不需要对每个视频帧都进行人像识别和提取姿态信息，大大减少了计算量。而跟踪帧始终都保持对目标对象的跟踪，不会丢失不同姿态图像的关联性，并且也及时更新了位置信息。

如图4所示，在一个实施例中，所述步骤S206：输出所述目标对象在不同状态下的状态图像可以包括：

步骤S402：若根据所述检测帧识别到新人像目标，则创建新的人像集，将所述新人像目标的图像及信息添加到所述新的人像集中，并为所述新的人像集分配新的跟踪标识。

通过检测帧识别到新人像目标包括两种情形：一种是在当前已有人像目标时，有新的人像目标加入，此时需要保持对已有人像目标的跟踪；另一种是当前已有人像目标消失后，再有新的人像目标出现。不管哪种情况，都将为新出现的人像目标创建新的人像集。人像集是一系列图像及其人像信息的集合，每幅图像及其人像信息用“人像”概括，例如可以创建一个人像类，其中具有图像类、人像信息属性。该集合对应于同一个人像目标。即：人像目标对应人像集：{人像1、人像2、……}。人像信息即上述的面部信息、姿态信息、位置信息等。

一个跟踪标识对应于一个人像目标，当人像目标不变时，人像信息在采集时可能发生变化，但跟踪标识不发生变化，表示人像信息来自于跟踪的同一个人像目标。可以理解，对于不同的人像目标，跟踪标识应当不同。则通过跟踪标识即可区分人像目标。因此新人像目标对应的人像集需分配新的跟踪标识。

步骤S404：若根据所述检测帧识别的人像目标为已存在人像目标，则获取所述已存在人像目标的人像集，并将识别的人像目标的人像图像及人像信息添加到所述已存在人像目标的人像集中。

在一个实施例中，也可以是在固定的周期确定某一图像帧为检测帧，因为即使不出现新的人像目标，已有的人像目标也可能发生姿态变化。由于跟踪帧只能提供位置信息更新，人像识别及姿态信息只能由检测帧提供，故需要定期给出检测帧来进行人像识别和提取姿态信息。已存在人像目标在其初始被检测到时，即已创建对应的人像集，并且在跟踪过程中也不断收集人像信息，从而形成具有多个人像信息的人像集。在检测帧中检测到的人像目标为已存在人像目标时，可以直接将识别到的人像目标的图像及信息添加到所述已存在人像目标的人像集中。

步骤S406：根据所述跟踪帧获取对应的已存在人像目标的人像集，并将跟踪帧中的人像目标的图像及信息添加到所述对应的已存在人像目标的人像集中。

跟踪帧主要获得的是人像目标的位置信息，其可结合检测帧所获得的面部信息、姿态信息，完善人像信息后添加到人像集中。

步骤S408：输出所述人像集；其中，所述人像集中具有不同姿态下的姿态图像。

经过持续的检测和跟踪，可能获得至少一个目标对象的人像集，当目标对象为多个时，人像集为多个。且每个人像集中具有不同姿态下的姿态图像及其信息。输出的至少一个人像集提供给步骤S208进行关联存储操作。

上述步骤根据检测帧和跟踪帧分别进行不同的处理，并在处理过程中使用人像集存储目标人像对象的图像及信息，使信息的处理和组织更清楚。

进一步地，所述步骤S206：输出所述目标对象在不同状态下的状态图像还可以包括：

步骤S410：为每个人像集设置计数超时参数。

计数超时参数可以用于设定一个计数阈值，对于某个人像集的采集，当计数帧数的数量达到时，即可结束人像集的采集。例如分析了足够数量的图像帧后，不管其中是否有新的人像集出现，都可以结束采集。

此外，对于计算能力相对固定的情况，计数超时参数也可以用于设定一个超时阈值，对于某个人像集的采集，当超时时，即可结束人像集的采集。例如某个目标对象不再被检测或跟踪，就不会有相关的人像信息继续添加到人像集中，则在适当的时间后可以认为人像集不会再出现新的人像信息，避免无法结束采集。

计数超时参数可以由定时器提供。并且可自由设定定时器的时间。

步骤S412：当人像集更新时，所述计数超时参数清零。

当不停地往人像集中添加人像信息时，表明采集过程在活跃的进行中。可以在每次添加人像信息时将计数超时参数清零，避免计时时间到达，中断采集。

步骤S414：当所述计数超时参数超过设定阈值时，将人像集输出。

将所述计数超时参数超过设定阈值的人像集输出，当还存在其他人像集时，根据其对应的计数超时参数判断是继续采集还是输出人像集。

上述步骤，采用为每个人像集设置计数超时参数的方式，判断人像集采集的过程是否活跃，以此反映人像目标是否还在检测或跟踪过程中，有效地避免了计算资源的浪费。

在另一实施例中，还可以根据所述检测帧或跟踪帧判断人像目标是否从视频帧中消失。当人像目标从视频帧中消失时，将对应的人像集输出。该方式不需要设置计数超时参数，也可以实现结束人像集的采集。

所述步骤S206还可以包括：

步骤S416：对每个输出的人像集，将姿态图像对应的姿态进行分类。

如上所述，人像集是人像信息的集合{人像1，人像2，……}，其中每个人像信息包括面部信息、姿态信息以及位置信息等。根据姿态信息将姿态图像进行分类，例如正面姿态包括{人像1，人像2，……，人像i}，侧面姿态包括{人像i+1，人像i+2，……，人像j}，……。即将人像集依据姿态信息分成了几个子集。分类可以与预设的姿态一一对应，或者一个分类与多个姿态对应，例如面部特征清楚的分类可以包括正面姿态，面部特征不清楚的分类可以包括其他剩余的姿态，分类的方式以应用的需求确定，不作限制。

步骤S418：对每种姿态分类，筛选出质量指标大于预设值的图像。

经过分类后，每种姿态分类下可能都具有多张图像。由于跟踪帧也会加入人像信息，图像之间的差异会比较小。可以从一组差异较小的图像中选取一张图像质量最好的图像，且使得选取出来的多张图像相互差异较大。

通过将每个图像的质量指标与预设值，以筛选出质量指标大于预设值的图像，可以得到多种不同姿态下的质量最好的图像，减少对相似图像的冗余存储。图像的质量指标可以包括：对比度、分辨率、清晰度、噪声量、畸变程度等等。所述预设值可以包括对比度的预设值、分辨率的预设值、清晰度的预设值、噪声量的预设值、畸变程度的预设值等等。图像的质量指标可以根据拍摄环境综合确定，所述预设值的大小可以根据实际情况进行相应的调整。

以上实施例中，视频帧序列可以来自多路视频；上述实施例的方法以每一路视频为单位分别进行处理，每一路视频处理后会得到至少一个人像集。

如图5所示，在一个实施例中，对人像集中的人像进行多姿态筛选的过程如下。

首先，初始化存储对象Map，以使存储对象Map为空。存储对象Map用于存放N个人像集，N为正整数。每个人像集具有唯一的跟踪ID，且每个人像集中的人像具有相同的跟踪ID。即人像集Person(x)具有跟踪ID(x)、人像集Person(y)具有跟踪ID(y)、人像集Person(z)具有跟踪ID(z)，且ID(x)、ID(y)、ID(z)都是唯一的，其中，人像集Person(x)代表N个人像集中的第x个人像集，人像集Person(y)代表N个人像集中的第y个人像集，人像集Person(z)代表N个人像集中的第z个人像集。因此，所述唯一的跟踪ID可以作为上述实施例中提到的关联标识。

当一个人像i进入该Map时会进行如下操作：

a.先获取人像i的跟踪ID(m)，并根据跟踪ID(m)查询Map中是否存在对应的人像集Person(m)，如果存在，则更新Person(m)，即将人像i加入人像集Person(m)。如果不存在，则新建立人像集。人像集Person(m)代表具有相同跟踪ID(m)的多个人像的集合。

b.每个人像集Person(m)都有一个超时帧计数T(m)，当人像集Person(m)数据有更新时则计数清零，当计数T(m)超过一定阈值时，将人像集Person(m)从Map中清除，并输出多姿态人像。

c.进行人像多姿态筛选，就是对每个人像按照人像姿态进行分类，并且同一个姿态下，只选取人像质量最好的人像。如图5所示，将人像姿态划分为a、b、c三类。每个人像根据姿态类别被划分到a、b、c三类中。例如正面姿态a包括{人像1，人像2，……，人像i}，侧面姿态b包括{人像i+1，人像i+2，……，人像j}，……背面姿态c包括{人像j+1，人像j+2，……，人像k}。在每个姿态下都选取图像质量最好的人像。其中最佳质量(a)代表正面姿态a下图像质量最佳的人像a_x(1≤a_x≤i)，最佳质量(b)代表侧面姿态b下图像质量最佳的人像b_x(i+1≤b_x≤j)，最佳质量(c)代表背面姿态c下图像质量最佳的人像c_x(j+1≤c_x≤k)。

参考图5，在一个实施例中，多姿态筛选和选取最佳质量的人像是通过级联筛选的过程同步进行的。根据上述实施例的说明，由检测帧和跟踪帧获得人像时，获取了人像的姿态信息和人像图像。其中，根据姿态信息可以将人像归入类别a、b、c；根据人像图像，结合上述的质量指标(例如对比度、分辨率、清晰度、噪声量、畸变程度等)，可以计算人像图像的质量分数。

上述多姿态筛选和选取最佳质量的人像的过程是针对每个人像逐个依序进行的。对于一个人像i，首先根据姿态信息判断其是否属于分类a，并计算出质量分数，若人像i属于分类a，则根据人像i的质量分数和分类a已有最佳质量(a)的质量分数确定是否要更新最佳质量(a)；若人像i不属于分类a，则继续判断人像i是否属于分类b，并根据人像i的质量分数和分类b已有最佳质量(b)的质量分数确定是否要更新最佳质量(b)；然后继续判断人像i是否属于分类c，……，直到所有的分类被遍历完成。需要说明的是，当人像i的分类确定属于某个分类后，人像i的分类遍历终止。然后继续进行下一个人像i+1的多姿态筛选和选取最佳质量的人像的过程。

其中，根据人像i的质量分数和分类a已有最佳质量(a)的质量分数确定是否要更新最佳质量(a)，可以是将人像i的质量分数与分类a的已有最佳质量(a)的质量分数进行比较，如果人像i的质量分数大于分类a的已有最佳质量(a)的质量分数，则采用人像i更新所述最佳质量(a)，否则无需更新最佳质量(a)。分类b、c的最佳质量的人像的更新方式是相同的。

经过人像多姿态筛选，如某人像目标在运动过程中存在有N种姿态(比如正面/侧面/背面/半身等)，就会输出N张人像抓拍图片。并且每张图片都会持有相同的跟踪ID(m)，跟踪ID(m)即是这些图片关联的依据。

如图6a和6b所示，还提供一种以图像搜索方法，包括如下步骤：

步骤S602：获取输入图像的关联标识。

关联标识保存在图像文件中，当输入图像进行图像搜索时，可以从图像文件中读取关联标识。例如，在搜索引擎的搜索框中粘贴、拖入图像文件，点击搜索按钮后，图像文件被发送给服务器，服务器上运行以图像搜索图像的服务程序，其从图像文件中读取关联标识。当然该方法并不限于基于服务器的搜索，也可以适用于本地搜索，此时本地应运行该以图像搜索图像的服务程序。

结合图6b，输入图像为人像X，并获取人像X的关联标识(即，人像关联ID)。

步骤S604：以所述关联标识从关联图像数据集中检索，得到具有所述关联标识的所有姿态图像；其中，所述关联图像数据集根据上述实施例描述的图像关联方法获得。即，根据多个“人像集”形成所述“关联图像数据集”。

该关联图像数据集保存在服务器中或者本地。该关联图像数据集可以是数据库或文件系统。

根据前述图像关联方法的实施例可知，关联图像都具有相同的关联标识。通过获取输入图像的关联标识，再以该关联标识在关联图像数据集中检索，即可得到所有具有该相同关联标识的姿态图像。结合图6b，根据人像关联ID在关联图像数据集检索，以得到与人像X关联的人像A和人像B，即所有姿态图像为人像A和人像B。

步骤S606：根据所述具有所述关联标识的所有姿态图像，获取搜索源图像；

所述搜索源图像是所有姿态图像的子集，可以是所有姿态图像中的一张或多张，也可以是全部。所述搜索源图像用于作为搜索的基础，进一步在图像数据库中搜索。结合图6b，搜索源图像可以是人像A、人像B的其中至少之一。

在一个实施例中，将具有所述关联标识的所有姿态图像提供给用户选择；然后根据用户的选择得到所述搜索源图像。例如，当用户在搜索框添加输入图像后，给出关联的人像A和人像B，并提示选择。默认可以全选。假设人像A是正面半身像，人像B为侧面全身像。则用户可以只选择人像A，再以人像A为基础，搜索得到更多的正面半身像。或者用户同时选择人像A和人像B，再以人像A和人像B基础，搜索得到更多的正面半身像和侧面全身像。

步骤S608：分别在图像数据库中搜索对应于每个搜索源图像的结果集。

图像数据库与前述的关联图像数据集不同。关联图像数据集中仅包含具有关联标识的图像数据，其作为获取关联的姿态图像的途径。图像数据库则是包含更大量图像数据的数据库，其中的图像相互之间不存在关联标识。在图像数据库中搜索，依靠对输入图像的识别和分析，再进行匹配获得搜索结果。关联图像数据集的优势是将图像进行关联，但数据量较小；图像数据库的优势是数据量更大，但图像之间的关联要依靠非直接关联的方式建立，例如图像对比匹配等。

在一个实施例中，对于每个搜索源图像，获取其中包含的面部信息和姿态信息；根据所述面部信息和姿态信息在图像数据库中搜索得到对应的结果集。搜索源图像来自与输入图像关联的姿态图像。根据上述图像关联方法的实施例，姿态图像中包含面部信息和姿态信息，其中面部信息可以作为人像的标识。在采用搜索源图像进行搜索时，基于姿态信息可以得到大量同一姿态的人像图像。基于面部信息则可以进一步对同一姿态的人像图像进行筛选，获得与搜索源图像更加匹配的人像图像，增加获得同一目标人像的图像的概率。

根据人像A和人像B可以分别对应得到搜索结果集A和搜索结果集B。

步骤S610：将对应于每个搜索源图像的结果集汇总，得到所述输入图像的检索结果集。

人像X本身也有一个搜索集。最终的人像搜索集为搜索结果集A+搜索结果集B和X的搜索集。

根据关联标识可以获得同一目标对象的不同姿态图像。服务器可以图像列表返回给浏览器。本地服务程序也可以将结果以文件的方式呈现。

上述图像搜索方法，首先通过输入图像的关联标识获得关联图像，再以关联图像去搜索每个姿态对应的更多图像，从而使得搜索结果更加全面。

如图7所示，还提供一种图像关联系统700，其包括：

视频获取模块702，用于获取持续采集得到的视频帧序列；

识别跟踪模块704，用于识别并跟踪所述视频帧序列中的目标对象；

输出模块706，用于输出所述目标对象在不同状态下的状态图像；

存储模块708，用于将属于同一目标对象的多个状态图像采用同一关联标识关联存储在一个目标对象集中。

所述识别跟踪模块704具体用于：

依序判断每一视频帧是检测帧还是跟踪帧；

若视频帧为检测帧，则进行人像识别，并提取人像的姿态信息；

若视频帧为跟踪帧，则获取人像的位置信息。

所述输出模块706具体用于：

若根据所述检测帧识别到新人像目标，则创建新的人像集，将所述新人像目标的图像及信息添加到所述新的人像集中，并为所述新的人像集分配新的跟踪标识；

若根据所述检测帧识别的人像目标为已存在人像目标，则获取所述已存在人像目标的人像集，并将识别的人像目标的图像及信息添加到所述已存在人像目标的人像集中；

根据所述跟踪帧获取对应的已存在人像目标的人像集，并将跟踪帧中的人像目标的图像及信息添加到所述对应的已存在人像目标的人像集中；

输出所述人像集；其中，所述人像集中具有不同姿态下的姿态图像。

所述输出模块706具体还用于：

为每个人像集设置计数超时参数；

当人像集更新时，所述计数超时参数清零；

当所述计数超时参数超过设定阈值时，将人像集输出。

所述输出模块706具体还用于：

根据所述检测帧或跟踪帧判断人像目标是否从视频帧中消失；

当人像目标从视频帧中消失时，将对应的人像集输出。

所述输出模块706具体还用于：

对每个输出的人像集，将姿态图像对应的姿态进行分类；

对每种姿态分类，筛选出质量指标大于预设值的图像。

如图8所示，还提供一种图像搜索系统800，其包括：

关联标识获取模块802，用于获取输入图像的关联标识。

关联图像检索模块804，用于以所述关联标识从关联图像数据集中检索，得到具有所述关联标识的所有姿态图像；其中，所述关联图像数据集根据上述的图像关联方法获得。

搜索源图像获取模块806，用于根据所述具有所述关联标识的所有姿态图像，获取搜索源图像。

图像搜索模块808，用于根据所述具有所述关联标识的所有姿态图像，获取姿态搜索源图像，并分别在图像数据库中搜索对应于每个姿态搜索源图像的结果集。

汇总模块810，用于将对应于每个姿态搜索源图像的结果集汇总，得到所述输入图像的检索结果集。

所述搜索源图像获取模块806具体用于：

将具有所述关联标识的所有姿态图像提供给用户选择；

根据用户的选择得到所述搜索源图像。

图像搜索模块808具体用于：

获取每个搜索源图像中包含的姿态信息；

根据所述姿态信息在图像数据库中搜索得到对应的结果集。

上述各模块为与方法一一对应的虚拟装置模块，其具体执行的过程在方法实施例中已有描述，在此不赘述。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有上述图像关联程序，所述图像关联程序被处理器执行时实现如上所述的图像关联方法的步骤。

本申请计算机可读存储介质具体实施方式与上述图像关联方法各实施例基本相同，在此不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种图像关联方法，其特征在于，所述图像关联方法包括：

获取持续采集得到的视频帧序列；

识别并跟踪所述视频帧序列中的目标对象；

输出所述目标对象在不同状态下的状态图像；

2.根据权利要求1所述的图像关联方法，其特征在于，所述目标对象为人像，所述不同状态下的状态图像为人在不同姿态下的姿态图像，所述目标对象集为人像集。

3.根据权利要求2所述的图像关联方法，其特征在于，所述识别并跟踪所述视频帧序列中的目标对象，包括：

依序判断每一视频帧是检测帧还是跟踪帧；

若视频帧为跟踪帧，则获取人像的位置信息。

4.根据权利要求3所述的图像关联方法，其特征在于，所述输出所述目标对象在不同状态下的状态图像，包括：

5.根据权利要求4所述的图像关联方法，其特征在于，所述输出所述目标对象在不同状态下的状态图像，还包括：

为每个人像集设置计数超时参数；

当人像集更新时，所述计数超时参数清零；

当所述计数超时参数超过设定阈值时，将人像集输出。

6.根据权利要求4所述的图像关联方法，其特征在于，所述输出所述目标对象在不同状态下的状态图像，还包括：

当人像目标从视频帧中消失时，将对应的人像集输出。

7.一种图像搜索方法，其特征在于，所述图像搜索方法包括：

获取输入图像的关联标识；

以所述关联标识从关联图像数据集中检索，得到具有所述关联标识的所有姿态图像；其中，所述关联图像数据集根据权利要求1～6任一项所述的方法获得；

分别在图像数据库中搜索对应于每个搜索源图像的结果集；

8.一种图像关联系统，其特征在于，所述图像关联系统包括：

视频获取模块，用于获取持续采集得到的视频帧序列；

9.一种图像搜索系统，其特征在于，所述图像搜索系统包括：

关联标识获取模块，用于获取输入图像的关联标识；

关联图像检索模块，用于以所述关联标识从关联图像数据集中检索，得到具有所述关联标识的所有姿态图像；其中，所述关联图像数据集根据权利要求1～6任一项所述的方法获得；

10.一种图像关联设备，其特征在于，所述图像关联设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的图像关联程序，所述图像关联程序被所述处理器执行时实现如权利要求1至6中任一项所述的图像关联方法的步骤。