CN110443190B

CN110443190B - 一种对象识别方法和装置

Info

Publication number: CN110443190B
Application number: CN201910704061.9A
Authority: CN
Inventors: 彭瑾龙; 张睿欣; 汪铖杰; 李季檩; 甘振业; 熊意超; 王亚彪; 姚永强; 葛彦昊
Original assignee: Tencent Technology Chengdu Co Ltd
Current assignee: Tencent Technology Chengdu Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2024-02-02
Anticipated expiration: 2039-07-31
Also published as: CN110443190A

Abstract

本申请实施例公开了一种对象识别方法，针对需要对象识别的多个视频帧，可以从视频帧中识别出与待识别对象对应的第一类特征框和第二类特征框，并将属于同一个待识别对象的同类特征框在视频帧中的集合分别确定为第一类轨迹和第二类轨迹。针对由第一类轨迹和第二类轨迹组成的目标轨迹对，计算目标轨迹对中两类轨迹的关联关系，在进行对象识别时，可以根据从所述多个视频帧中各轨迹对确定出的关联关系确定多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框。由于本申请在对象识别时依据的是轨迹对所携带的信息，相对于单帧更为丰富，且具有时间上的延续性，故即使在复杂的识别场景下，也可以有效提高对象的识别精度。

Description

一种对象识别方法和装置

技术领域

本申请涉及数据处理领域，特别是涉及一种对象识别方法和装置。

背景技术

随着视频处理技术的发展，通过分析视频内容可以实现识别视频中对象的功能。视频中的对象可以是车辆等可移动实体。通过准确的识别对象，可以在交管识别等领域起到重要作用。

然而，目前所采用的对象识别方式，对象识别的准确度并不高，从而导致错误的对象识别。

发明内容

为了解决上述技术问题，本申请提供了一种对象识别方法和装置，即使在复杂的识别场景下，也可以有效提高对象的识别精度。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种对象识别方法，所述方法包括：

识别多个视频帧中与待识别对象对应的第一类特征框和第二类特征框；

根据所述第一类特征框和所述第二类特征框，确定第一类轨迹和第二类轨迹；任一个第一类轨迹包括属于同一个待识别对象的第一类特征框在视频帧中的集合，任一个第二类轨迹包括属于同一个待识别对象的第二类特征框在视频帧中的集合；

根据所述第一类轨迹和第二类轨迹确定目标轨迹对；任一个目标轨迹对包括一个第一类轨迹和一个第二类轨迹；

计算所述目标轨迹对中第一类轨迹和第二类轨迹的关联关系；

根据所述关联关系确定所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框。

第二方面，本申请实施例提供一种对象识别装置，所述装置包括识别单元、第一确定单元、第二确定单元、计算单元和第三确定单元：

所述识别单元，用于识别多个视频帧中与待识别对象对应的第一类特征框和第二类特征框；

所述第一确定单元，用于根据所述第一类特征框和所述第二类特征框，确定第一类轨迹和第二类轨迹；任一个第一类轨迹包括属于同一个待识别对象的第一类特征框在视频帧中的集合，任一个第二类轨迹包括属于同一个待识别对象的第二类特征框在视频帧中的集合；

所述第二确定单元，用于根据所述第一类轨迹和第二类轨迹确定目标轨迹对；任一个目标轨迹对包括一个第一类轨迹和一个第二类轨迹；

所述计算单元，用于计算所述目标轨迹对中第一类轨迹和第二类轨迹的关联关系；

所述第三确定单元，用于根据所述关联关系确定所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框。

第三方面，本申请实施例提供一种用于对象识别的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的方法。

由上述技术方案可以看出，针对需要对象识别的多个视频帧，可以从视频帧中识别出与待识别对象对应的第一类特征框和第二类特征框，并将属于同一个待识别对象的同类特征框在视频帧中的集合分别确定为第一类轨迹和第二类轨迹。针对由第一类轨迹和第二类轨迹组成的目标轨迹对，计算目标轨迹对中两类轨迹的关联关系，在进行对象识别时，可以根据从所述多个视频帧中各轨迹对确定出的关联关系确定所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框。由此可见，相比于传统方式的单帧对象识别，本申请在对象识别时依据的是轨迹对所携带的信息，而轨迹对中的第一类特征框和第二类特征框分别处于多个视频帧中，携带的信息相对于单帧更为丰富，且具有时间上的延续性，故即使在复杂的识别场景下，也可以有效提高对象的识别精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为传统方式基于单个视频帧识别行人的示例图；

图2为本申请实施例提供的对象识别方法的应用场景示意图；

图3为本申请实施例提供的一种对象识别方法的流程图；

图4为本申请实施例提供的识别得到的人脸特征框和人体特征框示例图；

图5为本申请实施例提供的第一类轨迹和第二类轨迹的示例图；

图6a为本申请实施例提供的第一类轨迹所在视频帧与第二类轨迹所在视频帧之间的关系示例图；

图6b为本申请实施例提供的第一类轨迹所在视频帧与第二类轨迹所在视频帧之间的关系示例图；

图7为本申请实施例提供的人头关键点检测模型的结构示例图；

图8为本申请实施例提供的终端设备进行对象识别的结构流程图；

图9a为本申请实施例提供的一种对象识别装置的结构图；

图9b为本申请实施例提供的一种对象识别装置的结构图；

图10为本申请实施例提供的一种终端设备的结构图；

图11为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

如图1所示，图1示出了基于单个视频帧识别行人的示例图，其中，圆圈表示的是人脸1，三角形表示的是人脸2，矩形表示的是人体1。假设人脸2属于行人a，人脸1和人体1实际上属于同一个行人（例如行人b）。若行人a短暂遮挡在行人b的前方一段时间，采用传统方式针对这段时间内的视频帧进行行人识别时，可能会出现图1中虚线框所示的识别结果。视频帧之间通过虚线隔开，针对第i个视频帧中的行人进行识别时，可以识别出人脸1对应的人脸特征框、人脸2对应的人脸特征框、以及人体1对应的人体特征框，利用单帧中人脸特征框和人体特征框之间的位置关系，误以为人脸1对应的人脸特征框和人体1对应的人体特征框可以属于同一个行人，人脸2对应的人脸特征框和人体1对应的人体特征框也可以属于同一个行人，从而误将人脸1对应的人脸特征框、人脸2对应的人脸特征框和人体1对应的人体特征框进行绑定，并分配相同的标识A。针对第i+1和第i+2个视频帧中的行人进行识别时，可以识别出人脸2对应的人脸特征框以及人体1对应的人体特征框，利用单帧中人脸特征框和人体特征框之间的位置关系，误以为人脸2对应的人脸特征框和人体1对应的人体特征框属于同一个行人，从而误将人脸2对应的人脸特征框和人体1对应的人体特征框进行绑定，并分配相同的标识A。

由此可见，基于单个视频帧所携带的信息识别对象时，如待识别对象为行人时，可以从视频帧中检测出的人脸特征框、人体特征框等，人脸特征框用于标识行人的人脸在视频帧中的区域，人体特征框用于标识行人的人体在视频帧中的区域。之后，将单个视频帧中识别属于同一个行人的一个人脸特征框和人体特征框绑定并分配相同的标识，从而完成对单个视频帧的对象识别。

在这种对象绑定实现方式中，识别单个视频帧中对象所依据的是该单个视频帧所携带的信息，由于单个视频帧所携带的信息有限，若该视频中行人a短暂遮挡在行人b的前方一段时间，可能会将行人a的人脸特征框（例如人脸2对应的人脸特征框）与行人b的人体特征框（例如人体1对应的人体特征框）误识别为属于同一个行人，对象识别的准确度并不高。

为此，本申请实施例提供一种对象识别方法，该方法在对象识别时是根据多个视频帧进行识别的，具体依据的是轨迹对所携带的信息，而轨迹对中的第一类特征框和第二类特征框分别处于多个视频帧中，携带的信息相对于单帧更为丰富，且具有时间上的延续性，故即使在复杂的识别场景下，也可以有效提高对象的识别精度。

该方法可以应用到视频处理设备，该视频处理设备可以是终端设备，终端设备例如可以是智能终端、计算机、个人数字助理（Personal Digital Assistant，简称PDA）、平板电脑等设备。

该视频处理设备还可以是服务器，该服务器可以为独立服务器，也可以为集群服务器。服务器可以从终端设备获取多个视频帧，对多个视频帧进行对象识别，并将识别结果返回至终端设备以供后续使用。

本申请实施例提供的对象识别方法，可以应用于交管识别等领域。随着人工智能技术研究和进步，可以通过人工智能(Artificial Intelligence，简称AI)技术对视频中的对象进行识别。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的方案涉及人工智能的计算机视觉技术(Computer Vision，简称CV)等技术。

计算机视觉技术是指用摄影机和电脑等终端设备代替人眼对视频中的对象进行识别、跟踪等机器视觉，并进一步做处理得到更适合人眼观察或供仪器检测的图像。具体通过如下实施例进行说明：

为了便于理解本申请的技术方案，下面结合实际应用场景，以终端设备为例对本申请实施例提供的对象识别方法进行介绍。

参见图2，图2为本申请实施例提供的对象识别方法的应用场景示意图。该应用场景中包括终端设备201，终端设备201在获取到多个视频帧，视频帧中可以包括不同类型的对象。对象是指视频帧中的各类可移动实体，例如可以是行人、动物、车辆等。在本实施例中，待识别对象为需要从多个视频帧中识别的某一类型的对象。例如，在交管识别中，待识别对象可以是车辆；在安防监管中，待识别对象可以是行人。

终端设备201可以识别多个视频帧中与待识别对象对应的第一类特征框和第二类特征框。基于一种类型的待识别对象可以识别出多个类型的特征框，任一类型的特征框是用于标识待识别对象上具有识别特点的部位或结构在视频帧中的区域，通过特征框可以识别出某一类型的待识别对象，并将同一类型的不同待识别对象进行区分。特征框的形状可以是矩形、正方形、圆形、三角形等形状。

不同类型的待识别对象所对应的特征框有所不同，例如，待识别对象是行人，人体具有胳膊、腿等特点，通过人体可以将行人与动物、车辆等对象进行区分，故行人的特征框可以包括人体特征框。另外，不同行人的人脸有所区别，人脸可以体现行人的特点，通过人脸可以将不同行人进行区分，故行人的特征框可以包括人脸特征框。人脸特征框和人体特征框是行人的不同类特征框，本实施例并不限定人脸特征框和人体特征框哪个是第一类特征框，哪个是第二类特征框。

同理，若待识别对象为车辆，车的特征框可以包括车体特征框和车牌特征框，通过车体特征框可以将视频帧中的车辆与其他对象进行区分，通过车牌特征框可以将不同的车辆进行区分。

终端设备201根据第一类特征框和第二类特征框，确定第一类轨迹和第二类轨迹。轨迹是多个视频帧中属于同一待识别对象的同类特征框按照时序关联形成的，轨迹上包括的特征框具有时间上的延续性，轨迹可以体现出待识别对象在多个视频中的移动特点。其中，任一个第一类轨迹包括属于同一个待识别对象的第一类特征框在视频帧中的集合，任一个第二类轨迹包括属于同一个待识别对象的第二类特征框在视频帧中的集合。

终端设备201根据第一类轨迹和第二类轨迹确定目标轨迹对，轨迹对可以是由任一个第一类轨迹和任一个第二类轨迹构成的，目标轨迹对可以包括所有轨迹对，也可以包括部分轨迹对。任一个目标轨迹对包括一个第一类轨迹和一个第二类轨迹。

在同一时序下，属于同一个待识别对象的第一类轨迹和第二类轨迹是相似的，符合待识别对象在时间上的移动特点。而第一类轨迹和第二类轨迹的关联关系可以体现出第一类轨迹和第二类轨迹的相似程度，进而体现出第一类轨迹中包括的第一类特征框与第二类轨迹中第二类特征框属于同一待识别对象的可能性。故终端设备201通过计算得到的目标轨迹对中第一类轨迹和第二类轨迹的关联关系，可以确定多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框，从而实现基于多个视频帧识别多个视频帧中的所有待识别对象。

接下来，将结合附图对本申请实施例提供的对象识别方法进行介绍。参见图3，所述方法包括：

S301、识别多个视频帧中与待识别对象对应的第一类特征框和第二类特征框。

终端设备可以获取多个视频帧，由于待识别对象是可以移动的，因此，随着时间的变化，多个视频帧中包括的待识别对象可以相同，也可以不同。例如，多个视频帧包括第一至第三个视频帧，待识别对象是行人，第一个视频帧中包括行人a和行人b，第二个视频帧中包括行人a和行人b，第三个视频帧中可能由于行人a的移动，行人a移动出画面，使得第三个视频帧中仅包括行人b。

需要说明的是，多个视频帧是从目标视频中提取的一段时间内的视频帧，在一种实现方式中，多个视频帧为周期性从目标视频中提取的。

可以理解的是，在本实施例中，多个视频帧在目标视频中可以是连续的，例如，多个视频帧为目标视频中从第1帧至第6帧多个连续的视频帧。

在一些情况下，目标视频中可能存在一些不清晰的视频帧，为了提取多个清晰的视频帧，从而方便对象识别，在提取多个视频帧时可以去除不清晰的视频帧。在这种情况下，多个视频帧中任意相邻的视频帧间也可以间隔一些视频帧。例如，目标视频帧中包括8个视频帧，其中，第2帧和第3帧不清晰，第7帧不清晰，那么，从目标视频中提取的多个视频帧可以包括第1帧、第4帧、第5帧、第6帧和第8帧。

在本实施例中，任意相邻的视频帧间所间隔的视频帧数量可以相同也可以不同，本实施例对此不做限定。

多个视频帧无论是连续的，还是存在间隔的，多个视频帧在时间上需要具有延续性。

不同类型的待识别对象所对应的第一类特征框和第二类特征框可能有所不同，若待识别对象为行人，第一类特征框可以为人脸特征框，第二类特征框可以为人体特征框。例如，图4中示出了第i和第i+1两个视频帧，第i和第i+1个视频帧中分别包括了两个待识别对象，待识别对象对应的人脸特征框和人体特征框可以参见图4所示。

若待识别对象为车辆，第一类特征框可以为车体特征框，第二类特征框可以为车牌特征框。

需要说明的是，本实施例中的终端设备可以包括多种功能模块，例如联合检测模块、第一跟踪模块、第二跟踪模块、关联关系计算模块、轨迹匹配模块，终端设备可以通过联合检测模块使用目标检测算法例如YOLO算法对多个视频帧进行联合检测，得到第一类特征框和第二类特征框。若待识别对象为行人，则进行的联合检测为人脸人体联合检测，得到人脸特征框和人体特征框。当然，本实施例中，进行联合检测的目标检测算法不局限于YOLO算法，可以采用任一目标检测算法，例如多分类单杆检测器（Single Shot MultiBoxDetector，简称SSD）算法、基于区域的快速卷积神经网络（Faster Region-ConvolutionalNeural Networks，简称Faster R-CNN）算法等。

S302、根据所述第一类特征框和所述第二类特征框，确定第一类轨迹和第二类轨迹。

分别对第一类特征框和第二类特征框进行跟踪，得到第一类轨迹和第二类轨迹。任一个第一类轨迹包括属于同一个待识别对象的第一类特征框在视频帧中的集合，任一个第二类轨迹包括属于同一个待识别对象的第二类特征框在视频帧中的集合。

参见图5所示，图5中多个视频帧中包括的待识别对象为行人a和行人b，根据多个视频帧识别出行人a和行人b对应的人脸特征框（第一类特征框）和人体特征框（第二类特征框）。其中，图5中圆圈表示的是人脸1的人脸特征框，三角形表示的是人脸2的人脸特征框，矩形表示的是人体1的人体特征框，人脸2属于行人a，人脸1和人体1实际上属于同一个行人（例如行人b）。多个视频帧中人脸1的人脸特征框按照时序关联形成第一类轨迹（人脸轨迹），例如图5中圆圈按照时序关联形成黑色实线轨迹；多个视频帧中人脸2的人脸特征框按照时序关联形成另一个第一类轨迹（人脸轨迹），例如图5中三角形按照时序关联形成灰色实线轨迹；多个视频帧中人体1的人体特征框按照时序关联形成第二类轨迹（人体轨迹），例如图5中矩形按照时序关联形成黑色虚线轨迹。

需要说明的是，第一类轨迹可以是由终端设备中的第一跟踪模块对第一特征框进行跟踪得到的，第二类轨迹可以是由终端设备中的第二跟踪模块对第二类特征框进行跟踪得到的。

S303、根据所述第一类轨迹和第二类轨迹确定目标轨迹对。

通过S302可以确定出多个第一类轨迹和多个第二类轨迹，任一个目标轨迹对包括一个第一类轨迹和一个第二类轨迹。

需要说明的是，目标轨迹对的确定方式可以包括多种，一种目标轨迹对的确定方式可以是将任一个第一类轨迹与任一个第二类轨迹确定为一个目标轨迹对，此时目标轨迹对可以包括第一类轨迹和第二类轨迹可以组成的全部轨迹对。例如，通过S302确定出5个第一类轨迹和5个第二类轨迹，任一个第一类轨迹与任一个第二类轨迹可以构成一个轨迹对，故，一共可以得到5×5=25个轨迹对，这25个轨迹对全部可以作为目标轨迹对。

由于目标轨迹对用于后续计算第一类轨迹和第二类轨迹的关联关系，第一类轨迹和第二类轨迹的关联关系可以体现出第一类轨迹中包括的第一类特征框与第二类轨迹中第二类特征框属于同一待识别对象的可能性。在实际情况中，如果第一类轨迹中包括的第一类特征框与第二类轨迹中第二类特征框属于同一待识别对象，那么，第一类轨迹所在的视频帧和第二类轨迹所在的视频帧中一定具有相同的视频帧，不具有相同视频帧的一个第一类轨迹和一个第二类轨迹一定不属于同一待识别对象，故没有必要对不具有相同视频帧的第一类轨迹和第二类轨迹的关联关系进行计算。

因此，为了避免后续对所有的第一类轨迹和第二类轨迹的关联关系都进行计算，避免不必要的计算成本，第二种目标轨迹对的确定方式可以是判断第一类轨迹所在的视频帧和第二类轨迹所在的视频帧中是否具有相同的视频帧，将具有多个相同的视频帧的一个第一类轨迹和一个第二类轨迹确定为一个目标轨迹对。从而避免不必要的计算成本，减少计算量，提高计算效率。

例如图6a所示，其中，带有箭头的实线表示时间轴，多个视频帧按照时间轴的时序依次排列，圆圈按照时序关联形成的轨迹为一个第一类轨迹，矩形按照时序关联形成的轨迹为一个第二类轨迹。若图6a中第一类轨迹所在的视频帧为第1-第6帧，而第二类轨迹所在的视频帧为第7-第12帧，由此可知，该第一类轨迹所在的视频帧和该第二类轨迹所在的视频帧中不具有相同的视频帧，该第一类轨迹和该第二类轨迹不可以确定为一个目标轨迹对。

又如图6b所示，其中，带有箭头的实线表示时间轴，多个视频帧按照时间轴的时序依次排列，圆圈按照时序关联形成的轨迹为一个第一类轨迹，矩形按照时序关联形成的轨迹为一个第二类轨迹。若图6b中第一类轨迹所在的视频帧为第1-第6帧，第二类轨迹所在的视频帧为第3-第8帧，由此可知，该第一类轨迹所在的视频帧和该第二类轨迹所在的视频帧中具有相同的视频帧，即第3帧-第6帧，该第一类轨迹和该第二类轨迹可以确定为一个目标轨迹对。

S304、计算所述目标轨迹对中第一类轨迹和第二类轨迹的关联关系。

第一类轨迹和第二类轨迹的关联关系可以体现出第一类轨迹和第二类轨迹的相似程度，进而体现出第一类轨迹中包括的第一类特征框与第二类轨迹中第二类特征框属于同一待识别对象的可能性，故可以计算目标轨迹对中第一类轨迹和第二类轨迹的关联关系，以便后续用于确定多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框。

计算第一类轨迹和第二类轨迹的关联关系可以包括多种方式。在一种可能的实现方式中，可以计算多个视频帧中单个视频帧的第一类特征框和第二类特征框的关联度，根据计算出的多个关联度，确定多个视频帧的关联关系。例如，对多个关联度求和得到多个视频帧的关联关系。

需要说明的是，若在确定目标轨迹对时，将具有多个相同的视频帧的一个第一类轨迹和一个第二类轨迹确定为一个目标轨迹对。在这种情况下，对于除目标轨迹对之外的其他轨迹对，由于这些轨迹对中第一类轨迹和第二类轨迹不具有的相同的视频帧，则直接将这些轨迹对中第一类轨迹和第二类轨迹的关联关系设置为0。

而对于目标轨迹对，计算目标轨迹对中第一类轨迹和第二类轨迹的关联关系的实现方式可以是确定目标轨迹对中第一类轨迹和第二类轨迹具有的多个相同的视频帧，然后计算多个相同的视频帧中单个视频帧的第一类特征框和第二类特征框的关联度。根据多个相同的视频帧计算出的多个关联度，确定多个相同视频帧的关联关系。例如，将计算出的多个关联度求和得到多个相同视频帧的关联关系，此时，关联关系的计算公式为：

（1）

其中，为多个相同视频帧的关联关系，/>为第一类轨迹，/>为第二类轨迹，/>为多个相同的视频帧中第i个视频帧的第一类特征框和第二类特征框的关联度，/>为第一类特征框，/>为第二类特征框，G为相同的视频帧的集合。

需要说明的是，S303-S304可以是通过终端设备中的关联关系计算模块执行的。

S305、根据所述关联关系确定所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框。

通过S301-S304可以得到所有第一类轨迹和第二类轨迹的关联关系，关联关系越大，则第一类轨迹和第二类轨迹属于同一待识别对象的可能性越大，相应的，第一类特征框和第二类特征框属于同一个待识别对象的可能性越大，因此，根据关联关系的大小可以同时确定出多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框，即确定出每个单个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框。例如，关联关系达到关联关系阈值，则认为第一类特征框和第二类特征框属于同一待识别对象。

在确定出多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框后，可以将单个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框进行绑定，从而识别出每个视频帧中的待识别对象，并为多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框分配相同的标识。其中，标识可以是数字、字母等形式。

参见图5所示，图5中圆圈表示的是人脸1的人脸特征框（第一类特征框），三角形表示的是人脸2的人脸特征框（第一类特征框），矩形表示的是人体1的人体特征框（第二类特征框），人脸2属于行人a，人脸1和人体1实际上属于同一个行人（例如行人b）。通过S3051-S305可以确定出圆圈所表示的第一类特征框与矩形所表示的第二类特征框属于同一行人（行人b），因此，可以将圆圈所表示的第一类特征框与矩形所表示的第二类特征框进行绑定，识别出行人b，并为多个视频帧中圆圈所表示的第一类特征框与矩形所表示的第二类特征框分配标识A。而三角形所表示的第一类特征框与矩形所表示的第二类特征框不属于同一行人，因此，为多个视频帧中三角形所表示的第一类特征框分配与矩形所表示的第二类特征框不同的标识，例如标识B。

可见，与传统方法相比（例如图1），本申请实施例提供的方法，不会误将第i帧-第i+2帧中的三角形所表示的第一类特征框与矩形所表示的第二类特征框识别为属于同一待识别对象，对象的识别精度高。另外，通过本申请实施例提供的方法为多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框分配相同标识，可以避免将多个视频帧中同一待识别对象识别为不同对象而分配不同的标识，从而导致对象追踪错误。

需要说明的是，S305可以是通过终端设备中的轨迹匹配模块执行的。

虽然关联关系越大，第一类特征框和第二类特征框属于同一待识别对象的可能性越大，但是，在一些情况下，若同一个第一类特征框和不同的第二类特征框的关联关系都比较大，需要确定第一类特征框与哪个第二类特征框属于同一待识别对象时，并非将关联关系最大的第一类特征框与第二类特征框确定为属于同一待识别对象，而是需要综合各个轨迹对的关联关系，合理确定属于同一个待识别对象的第一类特征框和第二类特征框。

例如，第一类轨迹包括轨迹A和轨迹B，第二类轨迹包括轨迹甲和轨迹乙。目标轨迹对分别是轨迹A-轨迹甲、轨迹B-轨迹乙、轨迹A-轨迹乙和轨迹B-轨迹甲。其中，轨迹A和轨迹甲的关联关系为0.9、轨迹B和轨迹乙的关联关系为0.1、轨迹A和轨迹乙的关联关系为0.8、轨迹B和轨迹甲的关联关系为0.8。若仅根据一个轨迹对中第一类轨迹和第二类轨迹的关联关系确定属于同一个待识别对象的第一类特征框和第二类特征框，若关联关系阈值为0.5，轨迹A和轨迹甲的关联关系0.9大于0.5，轨迹A和轨迹乙的关联关系0.8也大于0.5，且轨迹A和轨迹甲的关联关系0.9大于轨迹A和轨迹乙的关联关系0.8，可能会确定轨迹A和轨迹甲属于同一待识别对象，进而确定轨迹A上的第一类特征框和轨迹甲上的第二类特征框属于同一待识别对象，剩余的轨迹B和轨迹乙自动属于另一待识别对象。但是，轨迹B和轨迹乙的关联关系仅为0.1，明显小于0.5，即轨迹B和轨迹乙实际上不应该属于同一待识别对象。

在这种情况，为了更加合理地确定出属于同一个待识别对象的特征框，在一种实现方式中，可以根据所确定的各个目标轨迹对对应的关联关系和关联关系阈值，通过二分图匹配方式确定多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框。通过二分图匹配方式可以综合各个轨迹对的关联关系，合理确定属于同一个待识别对象的第一类特征框和第二类特征框。

继续以上述例子为例，如果综合考虑各个轨迹对的关联关系，轨迹A和轨迹甲的关联关系为0.9，0.9大于0.5，但是轨迹B和轨迹乙的关联关系为0.1，0.1小于0.5，通过综合考虑，轨迹B和轨迹乙一定不会属于同一待识别对象，故，也不会确定轨迹A和轨迹甲属于同一待识别对象。轨迹A和轨迹乙的关联关系为0.8，0.8虽然小于0.9，但是明显大于0.5且轨迹B和轨迹甲的关联关系0.8也大于0.5，因此，确定轨迹A和轨迹乙属于同一待识别对象，轨迹B和轨迹甲属于同一待识别对象是更加合理的。

其中，二分图匹配方式可以通过多种二分图匹配算法实现，例如二分图最大权匹配(Kuhn－Munkres，简称KM)算法、贪婪法等。

接下来，将对S304中多个相同视频帧中单个视频帧的第一类特征框和第二类特征框的关联度的计算方式进行介绍。可以理解的是，特征框标识待识别对象上具有识别特点的部位或结构在视频帧中的区域，而特征位置可以表示特征对象上具有识别特点的部位或结构在视频帧中所在位置，故，可以在特征框中识别出标识该部位或结构在视频帧中所在位置的特征位置信息，例如，识别单个视频帧中第一类特征框的第一特征位置信息，以及第二类特征框的第二特征位置信息。第一特征位置信息和第二特征位置信息之间的相似度可以反映出单个视频帧的第一类特征框和第二类特征框的关联度，第一特征位置信息和第二特征位置信息之间的相似度越高，单个视频帧的第一类特征框和第二类特征框的关联度越高。因此，可以根据第一特征位置信息和第二特征位置信息的相似度，确定单个视频帧的第一类特征框和第二类特征框的关联度。

若第一类特征框和第二类特征框的形状为矩形时，单个视频帧的第一类特征框和第二类特征框的关联度的计算公式为：

（2）

其中，为多个相同的视频帧中第i个视频帧的第一类特征框和第二类特征框的关联度，/>为第一类特征框，/>为第二类特征框，第一特征位置信息为（/>，/>），/>为第一特征框的的框宽，/>为第一特征框的框高，第一特征位置信息为（/>，/>）。

不同类型的待识别对象所对应的特征框有所不同，相应的，特征框的特征位置信息也会有所不同。若待识别对象为行人，第一类特征框为人脸特征框，第二类特征框为人体特征框，若第一类特征框与第二类特征框属于同一行人，则人脸与人体上的人头所对应的特征位置信息间的相似度一定很高，人脸与人体上的人头所对应的特征位置信息间的相似度与人脸特征框与人体特征框的关联度有关。因此，为了计算人脸特征框与人体特征框的关联度，若待识别对象为行人，第一类特征框为人脸特征框，第二类特征框为人体特征框，则识别的第一特征位置信息为人脸特征框的形状参数和中心位置坐标（例如公式（2）中的坐标（，/>）），识别的第二特征位置信息为人头关键点位置坐标（例如公式（2）中的坐标（，/>））。

其中，形状参数标识人脸特征框的形状信息，形状参数随着人脸特征框的形状不同而有所不同。若人脸特征框为矩形，则形状参数为人脸特征框的框宽和框高，例如上述公式（2）中的和/>；若人脸特征框为圆形，则形状参数为人脸特征框的半径。

在这种情况下，终端设备还可以包括人头关键点检测模块，终端设备可以通过人头关键点检测模块检测人头关键点，具体的，可以利用人头关键点检测模型检测得到人头关键点。人头关键点检测模型如图7所示，该模型由两部分组成：GlobalNet和RefineNet，GlobalNet对关键点进行粗提取，负责网络所有关键点的检测，重点是对比较容易检测的眼睛、胳膊等部位的关键点；RefineNet精细检测难以识别的关键点，对人体部位上被遮挡的或者有复杂背景的关键点进行精细检测。该模型可以根据获取视频帧识别出人体的不同部位关键点，关键点如图7中灰色圆点所示，本实施例仅利用通过该模型识别出的人头关键点。

该人头关键点检测模型可以是通过机器学习的方式训练得到的，机器学习(Machine Learning，简称ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，例如识别人体中人头关键点，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

除此之外，第一特征位置信息可以为第一特征框的中心位置坐标，第二特征位置信息可以为第二特征框的中心位置坐标。

需要说明的是，在一些情况下，例如待识别对象为行人，第一类特征框为人脸特征框，第二类特征框为人体特征框，同一个行人的人脸和人头关键点应该距离较近，如果人体特征框的人头关键点位于人脸特征框外部，则说明人脸和人头关键点应该距离较远，人脸特征框和人体特征框不属于同一行人。在这种情况下，为了保证第一类特征框和第二类特征框的关联度计算的准确性，在上述公式（2）中加了一个约束条件：

该约束条件的含义是只有当人体特征框对应的人头关键点在人脸特征框内部时，通过上述公式（2）计算，否则/>。

接下来，将结合实际应用场景对本申请实施例提供的对象识别方法进行介绍。该应用场景为安防监管领域，在通过摄像头对行人（待识别对象）进行监管时，需要识别多个视频帧中的对象进行识别，以便对行人进行追踪。

在该应用场景中可以通过终端设备获取多个视频帧，从而根据该多个视频帧进行对象识别。终端设备包括联合检测模块、第一跟踪模块、第二跟踪模块、人头关键点检测模块、关联关系计算模块、轨迹匹配模块，终端设备进行对象识别的结构流程参见图8所示。联合检测模块检测出待识别对象对应的所有的人脸特征框和人体特征框，第一跟踪模块、第二跟踪模块分别得到行人的人脸轨迹和人体轨迹，人头关键点检测模块可以得到人体特征框中的人头关键点，关联关系计算模块可以对人脸轨迹和人体轨迹的关联关系进行计算，轨迹匹配模块可以根据关联关系将属于同一行人的人脸轨迹上的人脸特征框和人体轨迹上的人体特征框进行绑定。

基于前述实施例提供的一种对象识别方法，本实施例还提供一种对象识别装置，参见图9a，所述装置包括识别单元901、第一确定单元902、第二确定单元903、计算单元904和第三确定单元905：

所述识别单元901，用于识别多个视频帧中与待识别对象对应的第一类特征框和第二类特征框；

所述第一确定单元902，用于根据所述第一类特征框和所述第二类特征框，确定第一类轨迹和第二类轨迹；任一个第一类轨迹包括属于同一个待识别对象的第一类特征框在视频帧中的集合，任一个第二类轨迹包括属于同一个待识别对象的第二类特征框在视频帧中的集合；

所述第二确定单元903，用于根据所述第一类轨迹和第二类轨迹确定目标轨迹对；任一个目标轨迹对包括一个第一类轨迹和一个第二类轨迹；

所述计算单元904，用于计算所述目标轨迹对中第一类轨迹和第二类轨迹的关联关系；

所述第三确定单元905，用于根据所述关联关系确定所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框。

在一种实现方式中，所述第二确定单元903，具体用于：

判断所述第一类轨迹所在的视频帧和所述第二类轨迹所在的视频帧中是否具有相同的视频帧；

将具有多个相同的视频帧的一个第一类轨迹和一个第二类轨迹确定为一个目标轨迹对。

在一种实现方式中，针对所述目标轨迹对中的任一个，所述计算单元904，具体用于：

确定所述目标轨迹对中第一类轨迹和第二类轨迹具有的多个相同的视频帧；

计算所述多个相同的视频帧中单个视频帧的第一类特征框和第二类特征框的关联度；

根据所述多个相同的视频帧计算出的多个关联度，确定所述多个相同视频帧的关联关系。

在一种实现方式中，所述计算单元904，还用于：

识别所述单个视频帧中第一类特征框的第一特征位置信息，以及第二类特征框的第二特征位置信息；

根据所述第一特征位置信息和所述第二特征位置信息的相似度，确定所述单个视频帧的第一类特征框和第二类特征框的关联度。

在一种实现方式中，参见图9b，所述装置还包括绑定单元906：

所述绑定单元906，用于将单个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框进行绑定，并为所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框分配相同的标识。

在一种实现方式中，所述第三确定单元905，具体用于：

根据所确定的各个目标轨迹对对应的关联关系和关联关系阈值，通过二分图匹配方式确定所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框。

在一种实现方式中，所述待识别对象为行人，所述第一类特征框为人脸特征框，所述第二类特征框为人体特征框。

在一种实现方式中，若识别所述单个视频帧中第一类特征框的第一特征位置信息，所述第一特征位置信息为人脸特征框的形状参数和中心位置坐标；

若识别所述单个视频帧中第二类特征框的第二特征位置信息，所述第二特征位置信息为人头关键点位置坐标。

在一种实现方式中，所述多个视频帧为周期性从目标视频中提取的。

在一种实现方式中，所述多个视频帧在目标视频中是连续的。

本申请实施例还提供了一种用于对象识别的设备，下面结合附图对用于对象识别的设备进行介绍。请参见图10所示，本申请实施例提供了一种用于对象识别的设备1000，该设备1000还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理（Personal Digital Assistant，简称PDA）、销售终端（Point of Sales，简称POS）、车载电脑等任意智能终端，以终端设备为手机为例：

图10示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图10，手机包括：射频（Radio Frequency，简称RF）电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真（wireless fidelity，简称WiFi）模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low NoiseAmplifier，简称LNA）、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（Global System of Mobile communication，简称GSM）、通用分组无线服务（GeneralPacket Radio Service，简称GPRS）、码分多址（Code Division Multiple Access，简称CDMA）、宽带码分多址（Wideband Code Division Multiple Access，简称WCDMA）、长期演进（Long Term Evolution，简称LTE）、电子邮件、短消息服务（Short Messaging Service，简称SMS）等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器（LiquidCrystal Display，简称LCD）、有机发光二极管（Organic Light-Emitting Diode，简称OLED）等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090（比如电池），优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器1080还具有以下功能：

本申请实施例还提供服务器，请参见图11所示，图11为本申请实施例提供的服务器1100的结构图，服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（Central Processing Units，简称CPU）1122（例如，一个或一个以上处理器）和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130（例如一个或一个以上海量存储设备）。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

本申请实施例还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述各个实施例所述的对象识别方法。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的对象识别方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个（项）”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b或c中的至少一项（个），可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，简称ROM）、随机存取存储器（Random Access Memory，简称RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种对象识别方法，其特征在于，应用于确定属于同一个待识别对象的特征框，所述方法包括：

计算所述目标轨迹对中第一类轨迹和第二类轨迹的关联关系，其中，第一类轨迹和第二类轨迹的关联关系体现出第一类轨迹中包括的第一类特征框与第二类轨迹中第二类特征框属于同一待识别对象的可能性；

根据所述关联关系确定所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框，其中包括：根据所确定的各个目标轨迹对对应的关联关系和关联关系阈值，通过二分图匹配方式确定所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框；

其中，针对所述目标轨迹对中的任一个，所述计算所述目标轨迹对中第一类轨迹和第二类轨迹的关联关系，包括：

根据所述多个相同的视频帧计算出的多个关联度累加求和，确定所述多个相同视频帧的关联关系。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一类轨迹和第二类轨迹确定目标轨迹对，包括：

3.根据权利要求1所述的方法，其特征在于，所述计算所述多个相同的视频帧中单个视频帧的第一类特征框和第二类特征框的关联度，包括：

4.根据权利要求1-3任意一项所述的方法，其特征在于，在所述根据所述关联关系确定所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框之后，所述方法还包括：

将单个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框进行绑定，并为所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框分配相同的标识。

5.根据权利要求1-3任意一项所述的方法，其特征在于，所述待识别对象为行人，所述第一类特征框为人脸特征框，所述第二类特征框为人体特征框。

6.根据权利要求5所述的方法，其特征在于，若识别单个视频帧中第一类特征框的第一特征位置信息，所述第一特征位置信息为人脸特征框的形状参数和中心位置坐标；

7.根据权利要求1-3任意一项所述的方法，其特征在于，所述多个视频帧为周期性从目标视频中提取的。

8.根据权利要求1-3任意一项所述的方法，其特征在于，所述多个视频帧在目标视频中是连续的。

9.一种对象识别装置，其特征在于，应用于确定属于同一个待识别对象的特征框，所述装置包括识别单元、第一确定单元、第二确定单元、计算单元和第三确定单元：

所述计算单元，用于计算所述目标轨迹对中第一类轨迹和第二类轨迹的关联关系，其中，第一类轨迹和第二类轨迹的关联关系体现出第一类轨迹中包括的第一类特征框与第二类轨迹中第二类特征框属于同一待识别对象的可能性；

所述第三确定单元，用于根据所述关联关系确定所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框，其中包括：根据所确定的各个目标轨迹对对应的关联关系和关联关系阈值，通过二分图匹配方式确定所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框；

其中，针对所述目标轨迹对中的任一个，所述计算单元，具体用于：

10.根据权利要求9所述的装置，其特征在于，所述第二确定单元，具体用于：

11.根据权利要求9所述的装置，其特征在于，所述计算单元，还用于：

12.根据权利要求9-11任意一项所述的装置，其特征在于，所述装置还包括绑定单元；

所述绑定单元，用于将单个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框进行绑定，并为所述多个视频帧中属于同一个待识别对象的第一类特征框和第二类特征框分配相同的标识。

13.根据权利要求9-11任意一项所述的装置，其特征在于，所述待识别对象为行人，所述第一类特征框为人脸特征框，所述第二类特征框为人体特征框。

14.根据权利要求13所述的装置，其特征在于，若识别单个视频帧中第一类特征框的第一特征位置信息，所述第一特征位置信息为人脸特征框的形状参数和中心位置坐标；

15.根据权利要求9-11任意一项所述的装置，其特征在于，所述多个视频帧为周期性从目标视频中提取的。

16.根据权利要求9-11任意一项所述的装置，其特征在于，所述多个视频帧在目标视频中是连续的。

17.一种用于对象识别的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-8任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-8任一项所述的方法。