CN110852269B

CN110852269B - 一种基于特征聚类的跨镜头人像关联分析方法及装置

Info

Publication number: CN110852269B
Application number: CN201911096943.8A
Authority: CN
Inventors: 单洪伟; 郝旭宁; 刘见; 谭继双; 王文建; 姜光杰; 刘浩
Original assignee: Hisense TransTech Co Ltd
Current assignee: Hisense TransTech Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2022-05-20
Anticipated expiration: 2039-11-11
Also published as: CN110852269A

Abstract

本发明实施例提供了一种基于特征聚类的跨镜头人像关联分析方法及装置，该方法包括获取多帧第一视频帧图像，将多帧第一视频帧图像进行目标检测跟踪，选取多帧第一视频帧图像中的第一最优视频帧进行结构化分析和特征提取，得到第一最优视频帧的结构化属性和矢量特征，将第一最优视频帧的矢量特征进行聚类分析，得到第一最优视频帧的中心向量，根据第一最优视频帧的中心向量和目标库，对最优视频帧中的人体目标或人脸目标进行关联。本发明实施例通过根据第一最优视频帧的中心向量和目标库，对最优视频帧中的人体目标或人脸目标进行关联，可以提升跨镜追踪的精准追踪检索准确率。

Description

一种基于特征聚类的跨镜头人像关联分析方法及装置

技术领域

本发明实施例涉及计算机视觉技术领域，尤其涉及一种基于特征聚类的跨镜头人像关联分析方法及装置。

背景技术

随着视频图像数据在安防行业内的广泛使用，产生大量视频数据，包含了海量的人体、人脸数据，比如道路卡口中抓拍的车内人脸、道路监控中抓拍的人体和人脸、人脸卡口抓拍的人脸等，如何实现这些人体和人脸信息的关联及快速精准检索，正在变得越来越重要。充分利用现有视频监控资源，对人体数据和人脸数据进行关联，实现大范围场景下精确的跨摄像头行人的精准追踪，已经成为公共安全业务的重点需求。

人脸识别技术在独立场景中应用已比较成熟，但其价值远未充分发挥，主要受限于以下因素：(1)人脸卡口数量有限，其数量不足普通监控的1/10；(2)受限于人脸卡口的建设高度要求(一般不高于3.5m)，只能采集路人，而不能采集车内人脸数据。

综上，目前亟需一种基于特征聚类的跨镜头人像关联分析方法，用以实现大范围跨镜头下的人体目标和人脸目标的信息关联，提升精准追踪检索准确率。

发明内容

本发明实施例提供了一种基于特征聚类的跨镜头人像关联分析方法及装置，用以实现大范围跨镜头下的人体目标和人脸目标的信息关联，提升精准追踪检索准确率。

第一方面，本发明实施例提供了一种基于特征聚类的跨镜头人像关联分析方法，包括：

获取第一视频流，得到多帧第一视频帧图像，所述多帧第一视频帧图像包括人体目标或人脸目标；

将所述多帧第一视频帧图像进行目标检测跟踪，选取所述多帧第一视频帧图像中的第一最优视频帧进行结构化分析和特征提取，得到所述第一最优视频帧的结构化属性和矢量特征；

将所述第一最优视频帧的矢量特征进行聚类分析，得到所述第一最优视频帧的中心向量；

根据所述第一最优视频帧的中心向量和目标库，对所述最优视频帧中的人体目标或人脸目标进行关联；其中，所述目标库包括人体库和人脸库以及所述人体库与所述人脸库的关联关系；所述目标库是对单镜头下的视频流进行关联分析后建立的。

上述技术方案中，通过获取多帧第一视频帧图像，将多帧第一视频帧图像进行目标检测跟踪，选取多帧第一视频帧图像中的第一最优视频帧进行结构化分析和特征提取，得到第一最优视频帧的结构化属性和矢量特征，将第一最优视频帧的矢量特征进行聚类分析，得到第一最优视频帧的中心向量，根据第一最优视频帧的中心向量和目标库，对最优视频帧中的人体目标或人脸目标进行关联，可以提升跨镜追踪的精准追踪检索准确率。

可选地，所述对单镜头下的视频流进行关联分析后建立所述目标库，包括：

获取单镜头下的视频流，得到多帧视频帧图像；所述多帧视频帧图像包括人体目标或人脸目标；

将所述多帧视频帧图像进行目标检测跟踪，确定所述多帧视频帧图像中人体目标与人脸目标的关联信息；

选取所述多帧视频帧图像中的最优视频帧进行结构化分析和特征提取，得到所述最优视频帧的结构化属性和矢量特征；

将所述最优视频帧的矢量特征进行聚类分析，确定出所述最优视频帧中人体目标或人脸目标的中心向量；

根据所述多帧视频帧图像中人体目标与人脸目标的关联信息，将所述最优视频帧的结构化属性和中心向量存入所述目标库中的人体库或人脸库，并确定所述人体目标或所述人脸目标的虚拟身份标识号。

上述技术方案中，通过获取单镜头下的多帧视频帧图像，将多帧视频帧图像进行目标检测跟踪，确定多帧视频帧图像中人体目标与人脸目标的关联信息，根据多帧视频帧图像中人体目标与人脸目标的关联信息，将最优视频帧的结构化属性和中心向量存入所述目标库中的人体库或人脸库，并确定人体目标或所述人脸目标的VID，可以在人体库和人脸库建立人体数据和人脸数据的关联，为跨镜追踪提供基础。

可选地，所述将所述多帧视频帧图像进行目标检测跟踪，确定所述多帧视频帧图像中人体目标与人脸目标的关联信息，包括：

使用第一目标检测模型对所述多帧视频帧图像中的人体目标进行检测，得到人体目标边界框，使用第二目标检测模型对所述多帧视频帧图像中的人脸目标进行检测，得到人脸目标边界框；

根据所述人体目标边界框和所述人脸目标边界框的交并比以及所述人体目标和所述人脸目标的轨迹重叠率确定所述多帧视频帧图像中人体目标与人脸目标的关联信息。

上述技术方案中，通过第一目标检测模型对多帧视频帧图像中的人体目标进行检测，得到人体目标边界框，以及通过第二目标检测模型对多帧视频帧图像中的人脸目标进行检测，得到人脸目标边界框，可以提高对人体目标与人脸目标检测跟踪的时效性，也可以实现人体目标与人脸目标的实时关联。

可选地，所述根据所述人体目标边界框和所述人脸目标边界框的交并比以及所述人体目标和所述人脸目标的轨迹重叠率确定所述多帧视频帧图像中人体目标与人脸目标的关联信息，包括：

若所述人体目标边界框和所述人脸目标边界框的交并比大于第一预设阈值，则判断所述人体目标和所述人脸目标的跟踪链是否断裂，若断裂，则在确定所述人体目标和所述人脸目标的轨迹重叠率大于第二预设阈值时，确定所述人体目标和所述人脸目标关联。

若未断裂，继续确定所述人体目标边界框和所述人脸目标边界框的交并比，直到确定出所述人体目标与所述人脸目标的关联信息为止。

上述技术方案中，通过根据人体目标边界框和所述人脸目标边界框的交并比初步确定人体目标和人脸目标的关联信息，再通过判断人体目标和人脸目标的跟踪链是否断裂以及人体目标和人脸目标的轨迹重叠率来进一步确定人体目标和人脸目标的关联信息，从而可以提高人体目标和人脸目标关联的准确性。

可选地，所述根据所述多帧视频帧图像中人体目标与人脸目标的关联信息，将所述最优视频帧的结构化属性和矢量特征存入所述目标库中的人体库或人脸库，并确定所述人体目标或所述人脸目标的虚拟身份标识号，包括：

根据所述多帧视频帧图像中人体目标与人脸目标的关联信息，判断所述最优视频帧中的人体目标与人脸目标是否关联；

若关联，将所述最优视频帧中的人体目标或人脸目标的矢量特征进行聚类分析，得到所述人体目标和所述人脸目标的中心向量，并建立所述人体目标和所述人脸目标的虚拟身份标识号、入库索引；并将所述虚拟身份标识号、入库索引、中心向量和结构化属性存入所述目标库中的人体库或人脸库，其中，所述人体目标和所述人脸目标的中心向量是根据同一簇中所述人体目标或所述人脸目标的矢量特征求均值确定的；

若不关联，判断所述最优视频帧中的目标是人体目标还是人脸目标，若所述最优视频帧中的目标为所述人体目标，将所述人体目标的中心向量和结构化属性存入所述人体库，若所述最优视频帧中的目标为所述人脸目标，将所述人脸目标的中心向量和结构化属性存入所述人脸库。

上述技术方案中，通过根据多帧视频帧图像中人体目标与人脸目标的关联信息，将最优视频帧的结构化属性和矢量特征存入所述目标库中的人体库或人脸库，并确定人体目标或所述人脸目标的虚拟身份标识号，可以在人体库和人脸库中建立数据的关联，为跨镜头追踪提供基础，其中，通过结合人体目标或人脸目标的结构化属性和矢量特征进行聚类分析，有助于保证聚类的准确性。

可选地，所述根据所述第一最优视频帧的中心向量和目标库，对所述最优视频帧中的人体目标或人脸目标进行关联，包括：

将所述第一最优视频帧中的人体目标或人脸目标的中心向量对所述目标库中的人体目标的中心向量或人脸目标的中心向量进行比对，得到比对结果；

若所述比对结果小于第三预设阈值，则将所述第一最优视频帧中的人体目标或人脸目标与所述比对结果小于第三预设阈值所对应的所述目标库中的人体目标或人脸目标进行关联；

否则，为所述第一最优视频帧中的人体目标或人脸目标的中心向量创建所述人体目标或人脸目标的虚拟身份标识号、入库索引，存入所述目标库中的人体库或人脸库。

上述技术方案中，针对不同摄像头、不同场景下的人体目标或人脸目标进行目标检测跟踪，选取人体目标或人脸目标中的最优视频帧进行结构化分析和特征提取，得到最优视频帧的结构化属性和矢量特征，将最优视频帧的矢量特征进行聚类分析，确定出最优视频帧的中心向量，在存入人体库或人脸库时，将最优视频帧的中心向量与人体库或人脸库中的中心向量进行比对，将同一人体目标或人脸目标在人体库或人脸库归为一组，搭配以图搜图功能，就可以实现人员的跨镜追踪，即可以通过人脸目标来找出对应的人体目标轨迹，也可以通过人体目标来搜索出匹配的人脸目标，刻画出人脸目标的轨迹，真正做到精准追踪。

第二方面，本发明实施例还提供了一种基于特征聚类的跨镜头人像关联分析装置，包括：

获取单元，用于获取第一视频流，得到多帧第一视频帧图像，所述多帧第一视频帧图像包括人体目标或人脸目标；

处理单元，用于将所述多帧第一视频帧图像进行目标检测跟踪，选取所述多帧第一视频帧图像中的第一最优视频帧进行结构化分析和特征提取，得到所述第一最优视频帧的结构化属性和矢量特征；将所述第一最优视频帧的矢量特征进行聚类分析，得到所述第一最优视频帧的中心向量；根据所述第一最优视频帧的中心向量和目标库，对所述最优视频帧中的人体目标或人脸目标进行关联；其中，所述目标库包括人体库和人脸库以及所述人体库与所述人脸库的关联关系；所述目标库是对单镜头下的视频流进行关联分析后建立的。

可选地，所述处理单元具体用于：

第三方面，本发明实施例提供一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行第一方面所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行第一方面所述的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构的示意图；

图2为本发明实施例提供的一种基于特征聚类的跨镜头人像关联分析方法的流程示意图；

图3为本发明实施例提供的一种单镜头人像关联分析方法的流程示意图；

图4为本发明实施例提供的一种单镜头人像的位置信息示意图；

图5为本发明实施例提供的一种计算单镜头人脸目标中心向量的示意图；

图6为本发明实施例提供的一种单镜头人像入库的流程示意图；

图7为本发明实施例提供的另一种单镜头人像关联分析方法的流程示意图；

图8为本发明实施例提供的另一种跨镜头人像关联分析方法的流程示意图；

图9为本发明实施例提供的一种基于特征聚类的跨镜头人像关联分析装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例中监控点为交通道路上、公共交通工具上或者交通设施内部的摄像头，对监控场景下的人、机动车、非机动车进行全天候实时监控并记录相关视频图像数据，视频图像数据包括人体、人脸、车身颜色、车牌号码、车辆品牌、车辆类型等信息。

图1为本发明实施例提供的一种系统架构。参考图1所示，该系统架构可以为服务器100，包括处理器110、通信接口120和存储器130。

其中，通信接口120用于与监控设备进行通信，收发该监控设备传输的信息，实现通信。

处理器110是服务器100的控制中心，利用各种接口和线路连接整个服务器100的各个部分，通过运行或执行存储在存储器130内的软件程序/或模块，以及调用存储在存储器130内的数据，执行服务器100的各种功能和处理数据。可选地，处理器110可以包括一个或多个处理单元。

存储器130可用于存储软件程序以及模块，处理器110通过运行存储在存储器130的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据业务处理所创建的数据等。此外，存储器130可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

需要说明的是，上述图1所示的结构仅是一种示例，本发明实施例对此不做限定。

基于上述描述，图2示例性的示出了本发明实施例提供的一种基于特征聚类的跨镜头人像关联分析方法的流程示意图，该流程可以由基于特征聚类的跨镜头人像关联分析装置执行，该装置可以位于如图1所示服务器100内，也可以是该服务器100。

步骤201，获取第一视频流，得到多帧第一视频帧图像。

在本发明实施例中，该多帧第一视频帧图像可以包括人体目标或人脸目标，该多帧第一视频帧图像可以是与建立目标库时采集视频流的摄像头，也可以是与建立目标库采集的视频流的摄像头不同。由于要实现跨境头跨场景下的人像关联，因此，需要在获取该第一视频流之前，先对单镜头下的视频流进行关联分析建立目标库，具体的，可见如图3所示的单镜头人像关联分析方法的流程，该流程具体步骤可以包括：

步骤301，获取单镜头下的视频流，得到多帧视频帧图像。

通过获取单镜头下的视频流，对单镜头下的视频流进行解码，得到单镜头下的多帧视频帧图像，单镜头下的多帧视频帧图像包括人体目标或人脸目标。

步骤302，将所述多帧视频帧图像进行目标检测跟踪，确定所述多帧视频帧图像中人体目标与人脸目标的关联信息。

该人体目标与人脸目标的关联信息可以是人体目标与人脸目标关联，也可以是人体目标与人脸目标不关联，是否关联都称为关联信息。具体的，可以先使用第一目标检测模型对多帧视频帧图像中的人体目标进行检测，得到人体目标边界框，然后使用第二目标检测模型对多帧视频帧图像中的人脸目标进行检测，得到人脸目标边界框，最后根据人体目标边界框和人脸目标边界框的交并比以及人体目标和人脸目标的轨迹重叠率确定多帧视频帧图像中人体目标与人脸目标的关联信息。其中，第一目标检测模型主要是用来检测人体目标，第二目标检测模型主要是用来检测人脸目标。

当根据人体目标边界框和所述人脸目标边界框的交并比以及人体目标和人脸目标的轨迹重叠率确定多帧视频帧图像中人体目标与人脸目标的关联信息时，可以通过以下步骤来实现：

若人体目标边界框和所述人脸目标边界框的交并比大于第一预设阈值，则初步确定人体目标和人脸目标关联，然后再判断人体目标和人脸目标的跟踪链是否断裂，若断裂，则在确定人体目标和人脸目标的轨迹重叠率大于第二预设阈值时，进一步确定人体目标和人脸目标关联。

若未断裂，继续确定人体目标边界框和人脸目标边界框的交并比，直到确定出人体目标与人脸目标的关联信息为止。该第一预设阈值和第二预设阈值可以依据经验设置。

举例来说，得到单镜头下的多帧视频帧图像之后，将单镜头下的多帧视频帧图像中的人体目标和人脸目标分别输入到人体检测跟踪线程A和人脸检测跟踪线程B，人体检测跟踪线程A使用YOLOv3(You only look once version 3，目标检测算法)目标检测模型对多帧视频帧图像中的人体目标进行检测，得到多帧视频帧图像中的人体目标边界框、人体目标GUID(Globally Unique Identifier，全局唯一标识符)；同时人脸检测跟踪线程B使用MTCNN(Multi-task convolutional neural network，多任务卷积神经网络)人脸检测模型对多帧视频帧图像中的人脸目标进行检测，得到多帧视频帧图像中的人脸目标边界框、人脸目标GUID，GUID是唯一标识符，可使同一目标在不同视频帧图像中都能被跟踪，有助于确保目标的关联性。本发明实施例通过计算人体目标边界框和人脸目标边界框的IoU(Intersection over Union，交并比)来判断人体目标和人脸目标是否关联，若人体目标边界框和人脸目标边界框的IoU大于第一预设阈值(如0.6)，则初步确定人体目标和人脸目标关联，然后再判断人体目标和人脸目标的跟踪链是否断裂，若断裂，则结合人体目标和人脸目标的多帧跟踪信息计算人体目标和人脸目标的轨迹重叠率来进一步确定人体目标和人脸目标的关联信息，若未断裂，继续计算人体目标边界框和所述人脸目标边界框的IoU，直到确定出人体目标与人脸目标的关联信息为止。

进一步的，可以根据DTW(Dynamic Time Warping，动态时间归整)计算人体目标和人脸目标的轨迹重叠率来确定人体目标和人脸目标的关联信息，具体使用下述公式(1)：

其中，如图4所示，p_i为人体目标在第i帧视频帧中的位置

为人体目标边界框的中心坐标；f_j为人脸目标在第j帧视频帧中的位置

为人脸目标边界框的中心坐标，设P＝{p₁，p₂，p₃，…，p_n}是人体目标在多帧图像中的位置信息，F＝{f₁，f₂，f₃，…，f_m}是人脸目标在多帧图像中的位置信息。

根据公式(1)并通过回溯找到最短距离的路径上P与F相对应的轨迹点P′＝{p₁，p₂，p₃，…，p_s}和F′＝{f₁，f₂，f₃，…，f_s}，再通过计算P′和F′的相关系数r来表示人体目标与人脸目标的轨迹重叠率，若r大于第二预设阈值(如95％)，则确定人体目标和人脸目标关联，建立人体目标GUID和人脸目标GUID的关联关系。

步骤303，选取所述多帧视频帧图像中的最优视频帧进行结构化分析和特征提取，得到所述最优视频帧的结构化属性和矢量特征。

当确定了多帧视频帧图像中人体目标与人脸目标的关联信息之后，就可以选取多帧视频帧图像中的最优视频帧，然后对该多帧视频帧图像中的最优视频帧进行结构化分析和特征提取，就可以得到该最优视频帧的结构化属性和矢量特征。其中，结构化属性可以包括衣着和装饰物特征：上衣、裤子、裙子和连衣裙、鞋子、帽子、太阳镜墨镜、围巾以及携带物特征：单肩挎包、双肩背包、手提包、拉杆箱、雨伞，结构化属性包括但不限于以上特征。

步骤304，将所述最优视频帧的矢量特征进行聚类分析，确定出所述最优视频帧中人体目标或人脸目标的中心向量。

通过聚类算法对最优视频帧的矢量特征进行聚类分析确定最优视频帧的中心向量，比如，如图5所示，针对特征相近的同一人脸目标，通过DBSCAN(Density-Based SpatialClustering of Applications with Noise，密度聚类算法)算法可将其归为一类，形成人脸目标的核心点和最大区域边界点，再对该簇中所有人脸目标的特征向量求均值，将该均值作为人脸目标的中心向量。其中图5中的特征向量即为本发明实施例中的矢量特征。

步骤305，根据所述多帧视频帧图像中人体目标与人脸目标的关联信息，将所述最优视频帧的结构化属性和中心向量存入所述目标库中的人体库或人脸库，并确定所述人体目标或所述人脸目标的虚拟身份标识号。

具体的，根据多帧视频帧图像中人体目标与人脸目标的关联信息，按照如图6所示，将人体目标或人脸目标的结构化属性和中心向量存入目标库中的人体库或人脸库。首先，根据多帧视频帧图像中人体目标与人脸目标的关联信息，判断最优视频帧中的人体目标与人脸目标是否关联，若关联，将最优视频帧中的人体目标或人脸目标的矢量特征进行聚类分析，得到人体目标和人脸目标的中心向量，并建立人体目标和人脸目标的VID(Virtual Indentification，虚拟身份标识号)、入库索引，然后将人体目标或人脸目标的VID、入库索引、中心向量和结构化属性存入目标库中的人体库或人脸库，便可在人体库和人脸库建立数据的关联，为跨镜追踪提供基础；若不关联，首先判断最优视频帧中的目标是人体目标还是人脸目标，若最优视频帧中的目标为人体目标，则将最优视频帧中的人体目标的矢量特征进行聚类分析，得到人体目标的中心向量，并建立人体目标的VID、入库索引，再将人体目标的VID、入库索引、中心向量和结构化属性存入人体库，若最优视频帧中的目标为人脸目标，则将最优视频帧中的人脸目标的矢量特征进行聚类分析，得到人脸目标的中心向量，并建立人脸目标的VID、入库索引，再将人脸目标的VID、入库索引、中心向量和结构化属性存入人脸库。

步骤202，将所述多帧第一视频帧图像进行目标检测跟踪，选取所述多帧第一视频帧图像中的第一最优视频帧进行结构化分析和特征提取，得到所述第一最优视频帧的结构化属性和矢量特征。

获取多帧第一视频帧图像后，使用第一目标检测模型对多帧第一视频帧图像中的人体目标进行检测，得到人体目标边界框和人体目标GUID，使用第二目标检测模型对多帧第一视频帧图像中的人脸目标进行检测，得到人脸目标边界框和人脸目标GUID，之后根据人体目标边界框和人脸目标边界框的IoU和人体目标GUID和人脸目标的轨迹重叠率来确定多帧第一视频帧图像中人体目标和人脸目标的关联信息，然后再选取多帧第一视频帧图像中的第一最优视频帧进行结构化分析和特征提取，得到第一最优视频帧的结构化属性和矢量特征。具体过程已在单镜头场景下描述，这里不再赘述。

步骤203，将所述第一最优视频帧的矢量特征进行聚类分析，得到所述第一最优视频帧的中心向量。

在人体数据或人脸数据入库前，先通过聚类算法对第一最优视频帧的矢量特征进行聚类分析，再对聚类簇中所有目标的特征向量求均值得到第一最优视频帧的中心向量。具体过程已在单镜头场景下描述，这里不再赘述。

步骤204，根据所述第一最优视频帧的中心向量和目标库，对所述最优视频帧中的人体目标或人脸目标进行关联。

具体的，将第一最优视频帧中的人体目标或人脸目标的中心向量对目标库中的人体目标的中心向量或人脸目标的中心向量进行比对，得到比对结果；若比对结果小于第三预设阈值，则将第一最优视频帧中的人体目标或人脸目标与比对结果小于第三预设阈值所对应的目标库中的人体目标或人脸目标进行关联；否则，为第一最优视频帧中的人体目标或人脸目标的中心向量创建人体目标或人脸目标的VID、入库索引，存入目标库中的人体库或人脸库。其中，目标库是对单镜头下的视频流进行关联分析后建立的，具体过程已在单镜头场景下描述，这里不再赘述。该第三预设阈值可以依据经验设置。

在将第一最优视频帧中的人体目标或人脸目标的中心向量对目标库中的人体目标的中心向量或人脸目标的中心向量进行比对时，可以作浮点数精确比对，判断该人体目标属于人体库中的哪个目标，如果是同一目标，则返回该目标的VID。

为了更好的解释本发明单镜头下的实施例，下面通过具体的实施场景描述本发明实施例提供的一种单镜头人像关联分析方法的流程。

如图7所示，该流程包括以下步骤：

步骤701，获取单镜头下的视频流。

步骤702，根据视频解码模块对视频流进行解码获得多帧视频帧图像。

步骤703，判断视频流是否结束，若是，视频流关联分析流程结束，否则执行步骤704。

步骤704，将多帧视频帧图像输入到目标检测模型进行检测，得到多帧视频帧图像中的人体目标边界框、人体目标GUID以及人体目标边界框、人脸目标GUID。

步骤705，计算人体目标边界框和人体目标边界框的交并比，并判断该交并比是否大于第一预设阈值，若是，则初步确定人体目标和人脸目标关联，然后再执行步骤706，否则流程结束。

步骤706，判断人体目标和人脸目标的跟踪链是否断裂，若是，执行步骤707，否则重新执行步骤702。

步骤707，计算人体目标和人脸目标的轨迹重叠率并判断该轨迹重叠率是否大于第二预设阈值，若是，执行步骤708，否则执行步骤709。

步骤708，根据人体目标和人脸目标的关联信息，建立人体目标和人脸目标的关联树。

步骤709，选取多帧视频帧图像中的最优视频帧进行结构化分析和特征提取，得到最优视频帧的结构化属性和矢量特征，将最优视频帧的矢量特征进行聚类分析，确定出最优视频帧中人体目标或人脸目标的中心向量。

步骤710，根据多帧视频帧图像中人体目标与人脸目标的关联信息，将最优视频帧的结构化属性和中心向量存入所述目标库中的人体库或人脸库，并确定人体目标或人脸目标的VID。

上述实施例表明，通过获取单镜头下的多帧视频帧图像，将多帧视频帧图像进行目标检测跟踪，确定多帧视频帧图像中人体目标与人脸目标的关联信息，选取多帧视频帧图像中的最优视频帧进行结构化分析和特征提取，得到最优视频帧的结构化属性和矢量特征，将最优视频帧的矢量特征进行聚类分析，确定出最优视频帧中人体目标或人脸目标的中心向量，根据多帧视频帧图像中人体目标与人脸目标的关联信息，将最优视频帧的结构化属性和中心向量存入所述目标库中的人体库或人脸库，并确定人体目标或所述人脸目标的VID，从而可以在人体库和人脸库建立人体数据和人脸数据的关联，为跨镜追踪提供基础。

为了更好的解释本发明跨镜头下的实施例，下面以四个不同镜头A、B、C、D的实施场景描述本发明实施例提供的一种跨镜头人像关联分析方法的流程，其中镜头A为人行道上的人脸监控识别镜头能同时检测出人体和人脸，镜头B为公交车或其他交通设施内部架设的摄像头，仅能检测出人脸，无法有效检测出人体，镜头C为车行道监控视频，仅能检测人体，无法有效检测出人脸，镜头D为车行道卡口，能够检测到驾驶员或副驾驶员人脸。

如图8所示，该方法包括以下步骤：

步骤801，按照单镜头场景下人像关联分析方法的流程将镜头A的人体数据或人脸数据存入目标库中的人体库或人脸库，这里不再详细赘述。

步骤802，对镜头B/D下的人脸目标进行人脸检测跟踪，选取人脸目标中的最优视频帧进行结构化分析和特征提取，得到最优视频帧的结构化属性和矢量特征，将最优视频帧的矢量特征进行聚类分析，确定出最优视频帧的中心向量，在存入人脸库时，将最优视频帧的中心向量与人脸库中的中心向量进行比对，判断该人脸目标属于人脸库中哪个目标，若比对结果小于第三预设阈值(如0.3)，则确定为同一人，返回该人脸目标的VID，否则，为最优视频帧的中心向量创建人脸目标的VID、入库索引，存入人脸库。其中，若为同一人，在人脸数据存入人脸库时更新人脸目标的中心向量。

步骤803，对镜头C下的人体目标进行人体检测跟踪，选取人体目标中的最优视频帧进行结构化分析和特征提取，得到最优视频帧的结构化属性和矢量特征，将最优视频帧的矢量特征进行聚类分析，确定出最优视频帧的中心向量，在存入人体库时，将最优视频帧的中心向量与人体库中的中心向量进行比对，判断该人体目标属于人体库中哪个目标，若比对结果小于第三预设阈值(如0.3)，则确定为同一人，返回该人体目标的VID，否则，为最优视频帧的中心向量创建人体目标的VID、入库索引，存入人体库。其中，若为同一人，在人体数据存入人体库时更新人体目标的中心向量。上述实施例中的步骤不分先后顺序，仅是用于区别不同步骤。

上述实施例表明，获取多帧视频帧图像，将多帧频帧图像进行目标检测跟踪，选取多帧视频帧图像中的最优视频帧进行结构化分析和特征提取，得到最优视频帧的结构化属性和矢量特征，将最优视频帧的矢量特征进行聚类分析，得到最优视频帧的中心向量，根据最优视频帧的中心向量和目标库，对最优视频帧中的人体目标或人脸目标进行关联。将不同摄像头、不同场景下的同一人体目标或人脸目标在人体库或人脸库归为一组，搭配以图搜图功能，就可以实现人员的跨镜追踪，即可以通过人脸目标来找出对应的人体目标轨迹，也可以通过人体目标来搜索出匹配的人脸目标，刻画出人脸目标的轨迹，真正做到精准追踪。

基于相同的技术构思，图9示例性的示出了本发明实施例提供的一种基于特征聚类的跨镜头人像关联分析装置，该装置可以执行基于特征聚类的跨镜头人像关联分析的流程。

如图9所示，该装置包括：

获取单元901，用于获取第一视频流，得到多帧第一视频帧图像，所述多帧第一视频帧图像包括人体目标或人脸目标；

处理单元902，用于将所述多帧第一视频帧图像进行目标检测跟踪，选取所述多帧第一视频帧图像中的第一最优视频帧进行结构化分析和特征提取，得到所述第一最优视频帧的结构化属性和矢量特征；将所述第一最优视频帧的矢量特征进行聚类分析，得到所述第一最优视频帧的中心向量；根据所述第一最优视频帧的中心向量和目标库，对所述最优视频帧中的人体目标或人脸目标进行关联；其中，所述目标库包括人体库和人脸库以及所述人体库与所述人脸库的关联关系；所述目标库是对单镜头下的视频流进行关联分析后建立的。

可选地，所述处理单元902具体用于：

若所述人体目标边界框和所述人脸目标边界框的交并比大于第一预设阈值，则确定所述人体目标和所述人脸目标关联，否则判断所述人体目标和所述人脸目标的跟踪链是否断裂，若断裂，则在确定所述人体目标和所述人脸目标的轨迹重叠率大于第二预设阈值时，确定所述人体目标和所述人脸目标关联。

可选地，所述处理单元902具体用于：

基于相同的技术构思，本发明实施例提供一种计算设备，包括：

存储器，用于存储程序指令；

基于相同的技术构思，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行第一方面所述的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于特征聚类的跨镜头人像关联分析方法，其特征在于，包括：

根据所述第一最优视频帧的中心向量和目标库，对所述最优视频帧中的人体目标或人脸目标进行关联；其中，所述目标库包括人体库和人脸库以及所述人体库与所述人脸库的关联关系；所述目标库是对单镜头下的视频流进行关联分析后建立的；

所述对单镜头下的视频流进行关联分析后建立所述目标库，包括：

获取单镜头下的视频流，得到多帧视频帧图像，所述多帧视频帧图像包括人体目标或人脸目标；

根据所述多帧视频帧图像中人体目标与人脸目标的关联信息，将所述最优视频帧的结构化属性和中心向量存入所述目标库中的人体库或人脸库，并确定所述人体目标或所述人脸目标的虚拟身份标识号；

所述将所述多帧视频帧图像进行目标检测跟踪，确定所述多帧视频帧图像中人体目标与人脸目标的关联信息，包括：

根据所述人体目标边界框和所述人脸目标边界框的交并比以及所述人体目标和所述人脸目标的轨迹重叠率确定所述多帧视频帧图像中人体目标与人脸目标的关联信息；

所述根据所述人体目标边界框和所述人脸目标边界框的交并比以及所述人体目标和所述人脸目标的轨迹重叠率确定所述多帧视频帧图像中人体目标与人脸目标的关联信息，包括：

若所述人体目标边界框和所述人脸目标边界框的交并比大于第一预设阈值，则判断所述人体目标和所述人脸目标的跟踪链是否断裂，若断裂，则在确定所述人体目标和所述人脸目标的轨迹重叠率大于第二预设阈值时，确定所述人体目标和所述人脸目标关联；

2.如权利要求1所述的方法，其特征在于，所述根据所述多帧视频帧图像中人体目标与人脸目标的关联信息，将所述最优视频帧的结构化属性和中心向量存入所述目标库中的人体库或人脸库，并确定所述人体目标或所述人脸目标的虚拟身份标识号，包括：

3.如权利要求1至2任一项所述的方法，其特征在于，所述根据所述第一最优视频帧的中心向量和目标库，对所述最优视频帧中的人体目标或人脸目标进行关联，包括：

4.一种基于特征聚类的跨镜头人像关联分析装置，其特征在于，包括：

处理单元，用于将所述多帧第一视频帧图像进行目标检测跟踪，选取所述多帧第一视频帧图像中的第一最优视频帧进行结构化分析和特征提取，得到所述第一最优视频帧的结构化属性和矢量特征；将所述第一最优视频帧的矢量特征进行聚类分析，得到所述第一最优视频帧的中心向量；根据所述第一最优视频帧的中心向量和目标库，对所述最优视频帧中的人体目标或人脸目标进行关联；其中，所述目标库包括人体库和人脸库以及所述人体库与所述人脸库的关联关系；所述目标库是对单镜头下的视频流进行关联分析后建立的；

所述处理单元具体用于：

5.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至3任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1至3任一项所述的方法。