CN114663648A

CN114663648A - 结构化目标检测方法、装置、设备及存储介质

Info

Publication number: CN114663648A
Application number: CN202210238617.1A
Authority: CN
Inventors: 杨佳杰
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-06-24
Also published as: WO2023168949A1

Abstract

本申请实施例公开了一种结构化目标检测方法、装置、设备和存储介质，所述方法包括：获取待处理的一批视频帧图像；对所述一批视频帧图像中的至少两种目标进行目标检测和跟踪，得到每一所述目标的检测跟踪结果；基于所述至少两种目标的检测跟踪结果，确定所述至少两种目标之间的关联关系；基于每一所述目标的检测跟踪结果，按照预设的选帧策略确定相应所述目标的目标抓拍图像；所述选帧策略用于约束同一目标的所述目标抓拍图像的数量；基于所述至少两种目标之间的关联关系和每一所述目标的目标抓拍图像，确定所述一批视频帧图像的结构化目标。

Description

结构化目标检测方法、装置、设备及存储介质

技术领域

本申请涉及计算机视觉领域，涉及但不限定于结构化目标检测方法、装置、设备及存储介质。

背景技术

视频结构化分析是计算机视觉和深度学习技术在视频监控分析领域常见的落地应用，一般主要包含以人为核心的各种目标的检测跟踪和特征属性分析等功能。目前常见的视频结构化技术存在目标种类较少、功能较为简单或者目标较多时速度较慢等问题。

发明内容

本申请实施例提供一种结构化目标检测方法、装置、设备及存储介质。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种结构化目标检测方法，包括：

获取待处理的一批视频帧图像；

对所述一批视频帧图像中的至少两种目标进行目标检测和跟踪，得到每一所述目标的检测跟踪结果；

基于所述至少两种目标的检测跟踪结果，确定所述至少两种目标之间的关联关系；

基于每一所述目标的检测跟踪结果，按照预设的选帧策略确定相应所述目标的目标抓拍图像；所述选帧策略用于约束同一目标的所述目标抓拍图像的数量；

基于所述至少两种目标之间的关联关系和每一所述目标的目标抓拍图像，确定所述一批视频帧图像的结构化目标。

在一些可能的实施方式中，所述获取待处理的一批视频帧图像，包括：获取摄像模组采集的至少两路视频流；通过至少两个线程分别对所述至少两路视频流中一路视频流进行逐帧解码，得到相应路所述视频流中的当前帧图像；将所述至少两路视频流中的所述当前帧图像作为所述一批视频帧图像。

这样，多路视频在多个线程中同时解码出一帧图像，组成一个批次的视频帧图像，从而便于同时处理多路视频流下全目标结构化的解析问题，减少相关视频结构化技术中存在的目标种类较少的问题。

在一些可能的实施方式中，所述检测跟踪结果包括所述目标的检测框、跟踪标识和跟踪轨迹，所述对所述一批视频帧图像中的至少两种目标进行目标检测和跟踪，得到每一所述目标的检测跟踪结果，包括：对所述一批视频帧图像中当前帧图像的至少两种目标进行目标检测，得到每一所述目标的检测框；基于所述一批视频帧图像中每一所述目标的检测框，对相应所述目标进行跟踪，得到相应所述目标的跟踪标识和跟踪轨迹。

这样，首先对当前帧图像上的多种目标进行检测得到各目标的检测框，然后进一步基于目标的检测框对相应目标进行跟踪，从而确保单目标的检测精度。

在一些可能的实施方式中，所述至少两种目标包括重点目标和非重点目标；所述重点目标用于表征待检测对象身份；所述对所述一批视频帧图像中当前帧图像的至少两种目标进行目标检测，得到每一所述目标的检测框，包括：对所述一批视频帧图像中当前帧图像的所述重点目标进行目标检测，得到所述重点目标的检测框；响应于所述当前帧图像为关键帧图像，对所述当前帧图像中所述非重点目标进行目标检测，得到所述非重点目标的初始检测框；所述关键帧图像为按照预设采样间隔数所采样的；响应于所述当前帧图像为非关键帧图像，对所述当前帧图像中所述非重点目标进行单目标跟踪，得到所述非重点目标的更新检测框。

这样，针对非重点目标采用关键帧检测结合非关键帧预测的方式，可以防止每帧都用模型检测，提升目标检测的效率，进而提升整体性能。

在一些可能的实施方式中，所述一批视频帧图像中各当前帧图像均携带有时间戳；所述响应于所述当前帧图像为所述非关键帧图像，对所述当前帧图像中所述非重点目标进行单目标跟踪，得到所述非重点目标的更新检测框，包括：基于所述非重点目标的初始检测框，对单目标跟踪器进行初始化；所述初始检测框是在所述时间戳早于所述当前帧图像之前的关键帧图像中检测得到的；通过初始化后的所述单目标跟踪器，对所述非重点目标在所述当前帧图像中的位置进行预测，得到所述非重点目标的更新检测框。

这样，利用关键帧检测的非重点目标的初始检测框初始化单目标跟踪器，并通过单目标跟踪器预测非重点目标在非关键帧中的更新检测框，从而利用了单目标跟踪快速、预测精度高的优点，提升整体性能。

在一些可能的实施方式中，所述基于所述一批视频帧图像中每一所述目标的检测框，对相应所述目标进行跟踪，得到相应所述目标的跟踪标识和跟踪轨迹，包括：将所述一批视频帧图像中所有所述目标的检测框输入到多目标跟踪器，得到每一所述目标的跟踪标识；基于一路视频流中属于同一所述目标的所述检测框和相应所述目标的跟踪标识，确定相应所述目标的跟踪轨迹。

这样，通过多目标跟踪器输出每一目标的跟踪标识并确定跟踪轨迹，可以把每一帧检测出来的孤立的目标框串在一起，作为拥有相同跟踪标识的目标来处理，便于后续目标关联和选帧分析时减少数据处理量。

在一些可能的实施方式中，所述至少两种目标包括以下：人脸目标、人体目标、机动车目标、非机动车目标和骑手目标；所述基于所述至少两种目标的检测跟踪结果，确定所述至少两种目标之间的关联关系，包括：基于所述人脸目标的检测框和所述人体目标的检测框之间的位置关系，确定属于同一人的人体人脸匹配关系；基于所述人体目标的检测框和所述机动车目标的检测框之间的位置关系，确定所述人体目标和所述机动车目标之间的人员上下车关系；基于所述骑手目标和所述非机动车目标各自的检测框的位置，以及所述骑手目标和所述非机动车目标各自的跟踪轨迹，确定所述骑手目标和所述非机动车辆之间的骑车关系或推车关系。

这样，利用各目标的检测框把属于同一个人的人脸目标和人体目标匹配关联起来，以及将具有上下车关系的人体目标和机动车目标关联起来；同时结合各目标的检测框和跟踪轨迹，将人体目标和非机动车目标关联起来，便于最后将视频流解析并存储为结构化目标。

在一些可能的实施方式中，所述检测跟踪结果还包括所述目标的质量分数，所述基于每一所述目标的检测跟踪结果，按照预设的选帧策略确定相应所述目标的目标抓拍图像，包括：响应于所述当前帧图像中第一目标的所述质量分数满足第一质量阈值，基于所述第一目标的检测框确定候选抓拍图像；所述第一目标为所述至少两种目标中的任一目标；将所述候选抓拍图像存入所述第一目标的抓拍缓存池中；响应于所述第一目标的抓拍缓存池达到配置的选帧输出条件，确定所述抓拍缓存池中存储的抓拍图像为相应所述第一目标的目标抓拍图像。

这样，针对每一目标，先评估当前帧图像中检测的质量检测分数是否满足第一质量阈值即选帧门槛，然后确定目标的候选抓拍图像并存入抓拍缓存池中，最后按照配置的选帧输出条件筛选出抓拍缓存池中存储的质量最好的目标抓拍图像，从而在节省存储资源的同时提升后续特征提取的精度。

在一些可能的实施方式中，所述将所述候选抓拍图像存入所述第一目标的抓拍缓存池中，包括：在所述第一目标的抓拍缓存池中缓存的图像数量未达到缓存阈值的情况下，直接将所述候选抓拍图像存入所述第一目标的抓拍缓存池中。

这样，通过对比抓拍缓存池中缓存的图像数量与缓存阈值，判定目标的抓拍缓存池未满的情况下再将候选抓拍图像存入抓拍缓存池中，减少目标的候选抓拍图像丢失。

在一些可能的实施方式中，所述将所述候选抓拍图像存入所述第一目标的抓拍缓存池中，包括：在所述第一目标的抓拍缓存池中缓存的图像数量达到所述缓存阈值的情况下，将所述抓拍缓存池中的第一抓拍图像删除；所述第一抓拍图像的质量分数低于所述候选抓拍图像的质量分数；将所述候选抓拍图像存入所述第一目标的抓拍缓存池中。

这样，通过对比抓拍缓存池中缓存的图像数量与缓存阈值，判定目标的抓拍缓存池已满的情况下先删除抓拍缓存池中检测质量较差的抓拍图像，再将候选抓拍图像存入抓拍缓存池中，减少目标的抓拍缓存池溢出，导致质量较好的抓拍图像丢失。

在一些可能的实施方式中，所述方法还包括：响应于所述第一目标的抓拍缓存池达到所述选帧输出条件，清空所述第一目标的抓拍缓存池。

这样，对于第一目标的抓拍缓冲池达到选帧输出条件时选帧流程结束，清空抓拍缓存池便于下一批视频帧的选帧流程正常进行。

在一些可能的实施方式中，所述配置的选帧输出条件包括以下至少一个：快速选帧条件、周期性选帧条件、最大跟踪时间选帧条件、质量阈值选帧条件和跟踪结束选帧条件；所述快速选帧条件用于表征持续跟踪所述第一目标的时间长度满足第一时长阈值；所述周期性选帧条件用于表征跟踪所述第一目标的时间间隔满足间隔阈值；所述最大跟踪时间选帧条件用于表征跟踪所述第一目标的累计时间长度达到第二时长阈值；所述第二时长阈值大于等于所述第一时长阈值；所述质量阈值选帧条件用于表征所述第一目标的抓拍缓存池中存在质量分数满足第二质量阈值的图像；所述第二质量阈值大于所述第一质量阈值；所述跟踪结束选择条件用于表征全程跟踪所述第一目标直至采集的视频流结束。

这样，预先按需配置每种目标的选帧输出条件，利用多种选帧条件约束同一目标用于分析的目标抓拍图像的数量，并提升目标筛选的质量，减少冗余计算，节省了存储资源并提升性能。

在一些可能的实施方式中，所述基于所述至少两种目标之间的关联关系和每一所述目标的目标抓拍图像，确定所述一批视频帧图像的结构化目标，包括：针对每一所述目标的目标抓拍图像进行特征提取和/或属性提取，得到相应所述目标的解析结果；基于所述至少两种目标之间的关联关系，将所述至少两种目标的解析结果进行关联；基于关联后的所述至少两种目标的解析结果，确定所述一批视频帧图像的结构化目标。

这样，对于选帧后的目标抓拍图像进行解析分析，并结合不同目标之间的关联关系对解析结果进行整合，作为一批视频帧图像的结构化目标，提升了视频流场景关心的主要核心目标的结构化分析项的丰富程度。

在一些可能的实施方式中，所述目标为人脸目标，所述人脸目标的所述目标抓拍图像的数量大于等于2；所述针对每一所述目标的所述目标抓拍图像进行特征提取和/或属性提取，得到相应所述目标的解析结果，包括：分别对所述人脸目标的至少两个所述目标抓拍图像进行特征提取，得到至少两个特征向量；对所述至少两个特征向量进行融合，得到所述人脸目标的融合特征；对至少两个所述目标抓拍图像中质量检测分数最高的目标抓拍图像进行属性提取，得到所述人脸目标的属性；将所述人脸目标的融合特征和所述人脸目标的属性，作为所述人脸目标的解析结果。

这样，通过对多张人脸目标的目标抓拍图像进行提取特征并进行特征融合，融合后的特征精度相对较高；同时针对质量最佳的目标抓拍图像进行属性提取，提升整体检测性能。

在一些可能的实施方式中，所述方法通过至少两个线程中的功能模块以并行流水线方式执行；其中，所述并行流水线方式表征每两个前后依赖的所述功能模块之间，通过缓存队列实现将前一所述功能模块输出的结果数据，作为后一所述功能模块的原料数据。

这样，采用多线程设计多个功能模块执行结构化目标检测方法，每两个前后依赖的模块中间均有缓存队列，使得整个系统按照流水线方式并行，保持高吞吐量和高性能。

第二方面，本申请实施例提供一种结构化目标检测装置，包括获取模块、检测跟踪模块、关联匹配模块、选帧模块和确定模块，其中：

所述获取模块，用于获取待处理的一批视频帧图像；

所述检测跟踪模块，用于对所述一批视频帧图像中的至少两种目标进行目标检测和跟踪，得到每一所述目标的检测跟踪结果；

所述关联匹配模块，用于基于所述至少两种目标的检测跟踪结果，确定所述至少两种目标之间的关联关系；

所述选帧模块，用于基于每一所述目标的检测跟踪结果，按照预设的选帧策略确定相应所述目标的目标抓拍图像；所述选帧策略用于约束同一目标的所述目标抓拍图像的数量；

所述确定模块，用于基于所述至少两种目标之间的关联关系和每一所述目标的目标抓拍图像，确定所述一批视频帧图像的结构化目标。

第三方面，本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述结构化目标检测方法中的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述结构化目标检测方法中的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，通过对一批视频帧图像中多种目标执行检测、跟踪、关联、选帧和分析等主要流程步骤，解决了视频流全结构化分析场景下主要核心目标的全量解析问题，同时丰富了核心目标的结构化分析项，提升了全目标结构化视频解析的性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本申请实施例提供的一种结构化目标检测方法的流程示意图；

图2为本申请实施例提供的一种结构化目标检测方法的流程示意图；

图3A为本申请实施例提供的一种结构化目标检测方法的流程示意图；

图3B为本申请实施例提供的目标检测跟踪过程的逻辑流程图；

图4为本申请实施例提供的一种结构化目标检测方法的流程示意图；

图5为本申请实施例提供的一种结构化目标检测方法的流程示意图；

图6为本申请实施例提供的一种结构化目标检测装置的组成结构示意图；

图7为本申请实施例提供的一种电子设备的硬件实体示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。以下实施例用于说明本申请，但不用来限制本申请的范围。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换预设的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请实施例所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本申请实施例提供的方案涉及深度学习技术领域，为了便于理解本申请实施例的方案，首先对相关技术中涉及的名词进行简单说明：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例所涉及机器学习技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

视频结构化分析是计算机视觉和深度学习技术在视频监控分析领域常见的落地应用，一般主要包含以人为核心的各种目标的检测跟踪和特征属性分析等功能。其中结构化一词是相对于非结构化而言的，主要是指把只有大规模平铺像素的视频图像(非结构化数据)中的各种感兴趣的目标检测出来并持续跟踪，提取其中各类目标之间的关联关系，并对其中各个目标进行深层次的属性提取和特征提取，最终以结构化的数据格式存入数据库，以供后续检索和聚类使用。

相关技术中常见的视频结构化技术存在目标种类较少、功能较为简单或者目标较多时速度较慢等问题，或者种类覆盖虽多但性能低下。

本申请实施例提供一种结构化目标检测方法，应用于服务器或电子设备。所述电子设备包括但不限于手机、笔记本电脑、平板电脑和掌上上网设备、多媒体设备、流媒体设备、移动互联网设备、可穿戴设备或其他类型的设备。该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该电子设备至少包括处理器和存储介质。处理器可以用于进行结构化目标检测过程的处理，存储器可以用于存储进行结构化目标检测过程中需要的数据以及产生的数据。

图1为本申请实施例提供的一种结构化目标检测方法的流程示意图，如图1所示，所述方法至少包括以下步骤：

步骤S110，获取待处理的一批视频帧图像；

这里，所述一批视频帧图像中包括至少两张视频帧图像。

在一些实现方式中，视频帧图像可以为电子设备上设置的图像采集装置，如摄像头模组实时采集的视频流中的视频帧图像；在另一些实现方式中，视频帧图像可以为其他设备通过即时通信的方式传输给电子设备进行目标检测的图像；在再一些实现方式中，也可以是电子设备响应于任务处理指令，调用本地存储的视频文件并从中获取的视频帧图像，对此本申请实施例不做限制。

步骤S120，对所述一批视频帧图像中的至少两种目标进行目标检测和跟踪，得到每一所述目标的检测跟踪结果；

这里，所述至少两种目标为视频结构化分析领域中重要的目标或兴趣的目标，例如以人为核心的人脸目标、人体目标、机动车目标、非机动车目标、骑手目标等。在实施中，将一批视频帧图像中每一帧图像上的各种感兴趣的目标检测出来并持续跟踪。

目标检测的过程是指利用深度学习算法模型在视频帧图像内进行多种目标的位置检测和分类过程。目标的检测跟踪结果可以包括目标的检测框(即目标框)、目标的种类、跟踪标识、跟踪轨迹等。

在一些可能的实施方式中，在对视频帧图像进行目标检测之前，还可以对获取的一批视频帧图像进行归一化，即减均值、除方差，消除视频帧图像的平均特性，保留视频帧图像像的差异性特点。

步骤S130，基于所述至少两种目标的检测跟踪结果，确定所述至少两种目标之间的关联关系；

这里，在获取同一视频帧图像中各目标的检测跟踪结果之后，可以根据目标的检测框和跟踪标识将属于同一人的人脸目标和人体目标之间的关联关系识别出来；也可以根据两种目标的检测框之间关系，将人正在上车和人正在下车两种关联关系识别出来；还可以根据目标框位置和跟踪轨迹，将人推着(骑着)非机动车静止或前行的关联关系识别出来。

步骤S140，基于每一所述目标的检测跟踪结果，按照预设的选帧策略确定相应所述目标的目标抓拍图像；

这里，在对一批视频帧图像中所有检测出的目标进行跟踪并确定关联关系之后，可以对目标的检测质量进行评估，进而筛选出质量分数满足条件的视频帧进行分析。

所述选帧策略用于约束同一目标的所述目标抓拍图像的数量；其中，选帧指把某个跟踪目标在整个跟踪轨迹过程中的每一帧上的目标抓拍图像的质量分数进行排序后，选出质量最佳的那一帧图像上的目标进行输出。

其中，跟踪目标是指携带有跟踪标识的目标，持续在一系列视频帧图像中存在，而目标抓拍图像为基于检测出的目标检测框从视频帧图像中截取的区域图像，包括该跟踪目标在某一帧图像上的目标信息(包含目标的检测框、目标小图和其他检测信息)，用于后续进行特征提取、属性分析等。

需要说明的是，对每个目标分别计算质量分数，针对不同目标计算的方式可有不同方案，但最终每个目标均需计算出一个0～1的质量分数，用于表达该目标的质量好坏，用于后续按照质量分数排序后选出最佳质量的目标抓拍图像用于分析特征和属性。

步骤S150，基于所述至少两种目标之间的关联关系和每一所述目标的目标抓拍图像，确定所述一批视频帧图像的结构化目标。

这里，对选帧输出的每一目标的目标抓拍图像进行特征提取以及属性分析，并结合不同目标之间的关联关系，将分析结果进行整合后作为一批视频帧图像的结构化目标输出。

当选帧输出的所有目标的目标抓拍图像的特征和属性都提取分析完毕后，把所有目标整合在一起输出，然后再循环执行每路视频流的每一帧帧图像，直到所有路视频都处理完毕。

需要说明的是，本申请实施例步骤S110至步骤S150描述的流程是一批视频帧图像的单次处理流程，实际运行时是循环执行步骤S110至步骤S150中的流程，不断获取最新的一批视频帧图像进行处理，直到所有路视频帧处理结束或用户下发了停止指令。

在一些可能的实施方式中，上述步骤S110至步骤S150通过至少两个线程中的功能模块以并行流水线方式执行；其中，所述并行流水线方式表征每两个前后依赖的所述功能模块之间，通过缓存队列实现将前一所述功能模块输出的结果数据，作为后一所述功能模块的原料数据。

例如，把视频流下全结构化解析流程按功能拆解为不同的模块，各个模块完成一个独立的功能步骤，主要包含：检测、跟踪、选帧、匹配关联、属性提取、车牌提取和特征提取等。不同的模块按照粒度进行分组并通过不同的线程中执行，使得模块间以并行流水线方式提升性能，同时按照各模块的前后依赖关系，在模块间建立一定大小的缓存队列，使得整个系统按照流水线方式并行，保持高吞吐量和高性能。

在一些可能的实施例中，所述检测跟踪结果包括所述目标的检测框、跟踪标识和跟踪轨迹。图2为本申请实施例提供的一种结构化目标检测方法的流程示意图，如图2所示，所述方法至少包括以下步骤：

步骤S210，获取摄像模组采集的至少两路视频流；

步骤S220，通过至少两个线程分别对所述至少两路视频流中一路视频流进行逐帧解码，得到相应路所述视频流中的当前帧图像；

这里，在每个线程中使用一个视频解码器对一路视频流或视频文件进行逐帧解码，例如线程A对第1路视频流进行逐帧解码，线程B对第2路视频流进行逐帧解码，从而利用多个线程可以同时处理多路视频流，并同时得到各路视频流中的当前帧图像。

需要说明的是，解码算法可采用软解码或硬件解码：软解码一般是指纯中央处理器软件解码，速度较慢；而硬件解码指的是使用特定硬件进行视频解码，解码速度较快，本申请实施例对解码的方式不作限定。视频流经过解码器解码后一般成为像素格式(YUV)或红绿蓝格式(RGB)的彩色帧图像。由于YUV格式图像的灰度图部分的图像内存连续，可直接取出使用，对于只需要灰度图的深度学习模型来说，处理效率较高。RGB格式图像则在某些深度学习模型中需要转成灰度图像，效率可能相对低一些。

视频流中的视频帧图像一般是带有毫秒级时间戳信息的连续帧，如果没有，需要在视频帧图像中手动添加毫秒级连续递增的时间戳字段，用于后续进行多目标跟踪和选帧。

步骤S230，将所述至少两路视频流中的所述当前帧图像作为所述一批视频帧图像；

这里，多路视频流在多个线程中同时解码出当前帧图像，组成一个批次即一批视频帧图像。

步骤S240，对所述一批视频帧图像中当前帧图像的至少两种目标进行目标检测，得到每一所述目标的检测框；

这里，目标的检测框即目标框。可以通过单分类检测模型对一帧图像进行目标检测，也可以通过多分类检测模型对一帧图像进行目标检测。

在一些可能的实施方式中，针对每一种目标依次利用单分类检测模型进行目标检测，得到该目标的检测框。例如针对唯一可确认人员身份的人脸目标，使用单分类检测模型在每一视频帧图像中进行人脸目标检测，以确保人脸目标的检测精度。

在另一可能的实施方式中，针对多种目标同时利用多分类检测模型进行目标检测，得到在一帧图像中的各个目标的检测框。例如针对人体、机动车目标、非机动车目标和骑手目标等非重点目标，利用多分类检测模型在按照一定采样间隔选取的视频帧图像中进行目标检测，减少模型检测耗时较多的问题，达到提速效果。

步骤S250，基于所述一批视频帧图像中每一所述目标的检测框，对相应所述目标进行跟踪，得到相应所述目标的跟踪标识和跟踪轨迹；

这里，通过多目标跟踪器输出目标的跟踪标识，通常上下帧中相同的目标拥有相同的、唯一的跟踪标识，可以用于后续进行目标关联或选帧分析。

在实施中，首先对当前帧图像上的多种目标进行检测得到各目标的检测框，然后进一步基于目标的检测框对相应目标进行跟踪，通过跟踪标识将每一帧检测出来的孤立的目标框串在一起形成跟踪轨迹，从而确保单目标的检测精度。

步骤S260，基于所述至少两种目标的检测跟踪结果，确定所述至少两种目标之间的关联关系；

这里，所述检测跟踪结果包括所述目标的检测框、跟踪标识和跟踪轨迹。

所述至少两种目标之间的关联关系可以包括人体人脸匹配关系、人员上下车关系、人骑车关系或人推车关系等。各种目标之间的关联关系识别可以同时执行，也可以各自执行，互不影响。

其中，人体人脸匹配关系主要是指把属于同一个人的人脸目标和人体目标匹配关联起来；人员上下车关系是指人体目标与机动车目标的关联关系，分别为人正在上车和人正在下车两种关联关系；人骑车关系和人推车关系均是指人体目标与非机动车目标之间的关联关系，人推着非机动车静止或前行等。

可以通过以下过程确定上述关联关系：基于所述人脸目标的检测框和所述人体目标的检测框之间的位置关系，确定属于同一人的人体人脸匹配关系；基于所述人体目标的检测框和所述机动车目标的检测框之间的位置关系，确定所述人体目标和所述机动车目标之间的人员上下车关系；基于所述骑手目标和所述非机动车目标各自的检测框的位置，以及所述骑手目标和所述非机动车目标各自的跟踪轨迹，确定所述骑手目标和所述非机动车辆之间的骑车关系或推车关系。这样，利用各目标的检测框把属于同一个人的人脸目标和人体目标匹配关联起来，以及将具有上下车关系的人体目标和机动车目标关联起来；同时结合各目标的检测框和跟踪轨迹，将人体目标和非机动车目标关联起来，便于最后将视频流解析并存储为结构化目标。

步骤S270，基于每一所述目标的检测跟踪结果，按照预设的选帧策略确定相应所述目标的目标抓拍图像；

这里，所述选帧策略用于约束同一目标的所述目标抓拍图像的数量。

步骤S280，基于所述至少两种目标之间的关联关系和每一所述目标的目标抓拍图像，确定所述一批视频帧图像的结构化目标。

在本申请实施例中，首先针对多路视频在多个线程中同时解码出一帧图像，组成一个批次的视频帧图像，然后对一批视频帧图像同时进行目标检测得到各目标的检测框，进一步基于目标的检测框对相应目标进行跟踪，从而确保单目标的检测精度，提升全结构化解析系统的性能，同时丰富全结构化解析的目标种类。

在一些实施例中，所述至少两种目标包括重点目标和非重点目标；所述重点目标用于表征待检测对象身份。基于图1，图3A为本申请实施例提供的一种结构化目标检测方法的流程示意图，如图3A所示，上述步骤S120“对所述一批视频帧图像中的至少两种目标进行目标检测和跟踪，得到每一所述目标的检测跟踪结果”通过以下步骤实现：

步骤S310，获取对所述一批视频帧图像中当前帧图像的所述重点目标进行目标检测，得到所述重点目标的检测框；

这里，重点目标指当前帧图像中可以唯一表征待检测对象身份的目标。对于行为识别、人群计数等大部分生活场景，主要包含以人为核心的各种目标检测的应用，则人脸目标作为重点目标，能唯一确认人员身份。

在实施中，对于视频流中的每一帧都使用单分类检测模型进行人脸目标的检测，得到人脸目标在各帧图像中的检测框即人脸框，以确保人脸目标的精度。

步骤S320，响应于所述当前帧图像为关键帧图像，对所述当前帧图像中所述非重点目标进行目标检测，得到所述非重点目标的初始检测框；

这里，所述关键帧图像为按照预设采样间隔数所采样的。在一些实施方式中，关键帧可按照帧编号(frame_index)对帧采样间隔数(block_num)进行取模(即frame_index％block_num)是否等于零来判定，结果等于零的即为关键帧，结果不等于零的即为非关键帧。

所述非重点目标为视频帧除重点目标以外的其他目标，例如与人员相关的人体目标、机动车目标、非机动车目标和骑手目标等。

在关键帧图像中，使用多分类检测模型同时进行各类非重点目标的检测，得到各非重点目标的初始检测框。通常针对这几类目标所使用的多分类模型一般较大，速度相对人脸检测模型较慢，如果每帧都用模型检测则耗时较多，因此仅针对当前帧图像为关键帧图像的情况进行多目标同时检测。

步骤S330，响应于所述当前帧图像为非关键帧图像，对所述当前帧图像中所述非重点目标进行单目标跟踪，得到所述非重点目标的更新检测框；

这里，所述一批视频帧图像中各当前帧图像均携带有时间戳，在上一步检测出关键帧图像中非重点目标的初始检测框之后，利用各非重点目标的初始检测框预测之后的非关键帧图像中各非重点目标的更新检测框。这样针对非重点目标可以防止每帧都用模型检测，提升目标检测的效率，进而提升整体性能。

在一些实施方式中，基于所述非重点目标的初始检测框，对单目标跟踪器进行初始化；所述初始检测框是在所述时间戳早于所述当前帧图像之前的关键帧图像中检测得到的；通过初始化后的所述单目标跟踪器，对所述非重点目标在所述当前帧图像中的位置进行预测，得到所述非重点目标的更新检测框。

步骤S340，将所述一批视频帧图像中所有所述目标的检测框输入到多目标跟踪器，得到每一所述目标的跟踪标识；

这里，针对一批视频帧图像中的所有当前帧图像，经过上述步骤S310的重点目标检测，以及步骤320至步骤S330中针对非重点目标的检测结合预测之后，视频帧图像上所有目标的位置和种类均已确定，可以利用多目标跟踪器模块进行多目标跟踪，得出每个目标框的跟踪标识。

步骤S350，基于一路视频流中属于同一所述目标的所述检测框和相应所述目标的跟踪标识，确定相应所述目标的跟踪轨迹。

这里，把每一当前帧图像检测出来的拥有相同跟踪标识的检测框串在一起，作为目标的跟踪轨迹来处理，便于后续进行选帧分析。

值得注意的是，上述步骤S320至步骤S330之所以对于非重点目标采用关键帧检测和非关键帧预测的方式，是因为人体目标、机动车目标、非机动车目标和骑手目标等使用的多分类检测模型一般较大，速度相对人脸检测模型较慢，如果每帧都用模型检测则耗时较多。而采用关键帧检测和非关键帧预测的方式，则利用了单目标跟踪的快速的优点，提升整体性能。单目标跟踪时的关键帧的采样间隔数一般是4至8帧，采样间隔数太少了达不到提速效果，采样间隔数太多了则单目标预测精度下降，预测出的目标的检测框会偏差较大。

在实施中，对每一帧图像进行重点目标检测得到重点目标的检测框之后，把当前视频帧判定为关键帧或非关键帧两种类型，以关键帧检测结合非关键帧预测的方式获得非重点目标的检测框。如图3B所示，为本申请实施例提供的目标检测跟踪过程的逻辑流程图，该过程包括以下步骤：

步骤S311，检测重点目标的检测框；

步骤S312，判断当前帧图像是否为关键帧图像；

若判定结果为是，则执行步骤S313；若判定结果为否，则执行步骤S315。

步骤S313，检测非重点目标的初始检测框；

步骤S314，初始化单目标跟踪器；

这里，单目标跟踪器(SOT)指的是根据关键帧图像中各个目标的初始检测框，预测出接下来几帧图像中各个目标的更新检测框，其中单目标跟踪器初始化的过程，就是把关键帧图像中各检测框位置作为单目标跟踪器跟踪预测目标新位置所需的初始位置的过程。

步骤S315，通过单目标跟踪器预测非重点目标的更新检测框；

这里，跟踪当前帧图像中的不同非重点目标都是用的同一个单目标跟踪器，单目标跟踪器可以一次跟踪预测多个不同的目标框位置。单目标跟踪器有针对这几类非重点目标进行专门的跟踪优化。

步骤S316，将检测到的所有目标的检测框输入到多目标跟踪器，对当前帧图像上每种目标分别进行跟踪。

这里，多目标跟踪器(MOT)旨在把前后帧中属于同一个目标的检测框关联起来，赋予一个唯一的跟踪标识，主要过程是输入当前帧上所有目标的检测框，输出对应每个目标的检测框的跟踪标识，且上下帧中相同的目标拥有相同的、唯一的跟踪标识。

在本申请实施例中，利用关键帧检测的非重点目标的初始检测框初始化单目标跟踪器，并通过单目标跟踪器预测非重点目标在非关键帧中的更新检测框，从而利用了单目标跟踪快速、预测精度高的优点，提升整体性能。同时，这样，通过多目标跟踪器输出每一目标的跟踪标识并确定跟踪轨迹，可以把每一帧检测出来的孤立的目标框串在一起，作为拥有相同跟踪标识的目标来处理，便于后续目标关联和选帧分析时减少数据处理量。

在一些实施方式中，所述检测跟踪结果还包括所述目标的质量分数。基于图1，图4为本申请实施例提供的一种结构化目标检测方法的流程示意图，如图4所示，上述步骤S140“基于每一所述目标的检测跟踪结果，按照预设的选帧策略确定相应所述目标的目标抓拍图像”可以通过以下步骤实现：

步骤S410，响应于所述当前帧图像中第一目标的质量分数满足第一质量阈值，基于所述第一目标的检测框确定候选抓拍图像；

这里，所述第一目标为所述至少两种目标中的任一目标，所述第一质量阈值表征作为选帧条件的最低质量分数，一般为经验值，例如0.3。

在一些实施方式中，如果检测的第一目标的质量分数不低于第一质量阈值，则从当前帧图像中截取第一目标的检测框所在的区域图像作为候选抓拍图像。

在另一些实施方式中，如果检测的第一目标的质量分数低于第一质量阈值，则丢弃该第一目标的检测结果。

步骤S420，将所述候选抓拍图像存入所述第一目标的抓拍缓存池中；

这里，先判断第一目标的抓拍缓存池是否已满，基于判断结果确定将候选抓拍图像直接存储抓拍缓存池还是将候选抓拍图像替换掉已缓存的最低质量的抓拍图像。

在一些实施方式中，在所述第一目标的抓拍缓存池中缓存的图像数量未达到缓存阈值的情况下，直接将所述候选抓拍图像存入所述第一目标的抓拍缓存池中。这样，通过对比抓拍缓存池中缓存的图像数量与缓存阈值，判定目标的抓拍缓存池未满的情况下再将候选抓拍图像存入抓拍缓存池中，有效减少目标的候选抓拍图像丢失。

在另一些实施方式中，在所述第一目标的抓拍缓存池中缓存的图像数量达到所述缓存阈值的情况下，将所述抓拍缓存池中的第一抓拍图像删除；所述第一抓拍图像的质量分数低于所述候选抓拍图像的质量分数；将所述候选抓拍图像存入所述第一目标的抓拍缓存池中。这样，通过对比抓拍缓存池中缓存的图像数量与缓存阈值，判定目标的抓拍缓存池已满的情况下先删除抓拍缓存池中检测质量较差的抓拍图像，再将候选抓拍图像存入抓拍缓存池中，有效减少目标的抓拍缓存池溢出，导致质量较好的抓拍图像丢失。

值得注意的是，由于每个目标的种类和进出画面的时间不同，所以每个目标选帧输出的时机也不同。对于人脸目标来说，人脸特征用于身份比对会比较重要，人脸目标跟踪全程中只取一个抓拍图像用于后续提取特征则可能特征精度不是最佳的，经过实践发现每个人脸跟踪目标在选帧过程中缓存3至5个最佳抓拍用于后续提取特征并进行特征融合，融合后的特征精度相对较高。而对于人体、车辆、非机动车和骑手目标，由于它们的特征相较于人脸特征来说重要性不高，且无法做到有效融合，所以这些目标在选帧过程中缓存的抓拍数量一般只设置为1，既保证了性能，也节省了缓存占用的存储资源。

步骤S430，响应于所述第一目标的抓拍缓存池达到配置的选帧输出条件，确定所述抓拍缓存池中存储的抓拍图像为相应所述第一目标的目标抓拍图像；

这里，所述配置的选帧输出条件包括以下至少一个：快速选帧条件、周期性选帧条件、最大跟踪时间选帧条件、质量阈值选帧条件和跟踪结束选帧条件。通过多种灵活的选帧输出条件，减少信息冗余，提升目标的筛选效率和筛选质量。

其中，所述快速选帧条件用于表征持续跟踪所述第一目标的时间长度满足第一时长阈值。例如，给定一个时间长度即第一时长阈值，当目标一旦持续跟踪超过这个时间长度则触发选帧输出，一般用于目标刚进入画面不久就想要选帧一次进行分析的场景。

所述周期性选帧条件用于表征跟踪所述第一目标的时间间隔满足间隔阈值。例如，从目标进入画面被跟踪开始每隔一定时间选出一次用于后续分析，一般用于目标的状态不断更新变化想要时刻关注目标的特征属性时使用，间隔时间越短，分析频率越高，耗时也会越久。

所述最大跟踪时间选帧条件用于表征跟踪所述第一目标的累计时间长度达到第二时长阈值；所述第二时长阈值大于等于所述第一时长阈值。例如目标跟踪时长达到第二时长阈值时选帧输出，一般用于长期驻留在视频画面中的目标(比如停在画面中的车辆)选帧输出。和快速选帧的区别是，最大跟踪时间到达后目标选帧输出之后便不再选帧了，节省了计算和存储资源。

所述质量阈值选帧条件用于表征所述第一目标的抓拍缓存池中存在质量分数满足第二质量阈值的图像；所述第二质量阈值大于所述第一质量阈值。例如，当目标缓存的质量抓拍图像的质量分数达到第二质量阈值后则选帧输出，而后续可以考虑不再选帧了。相比最大跟踪时间选帧来说，用质量分数是否满足较高的阈值来判定选出条件在某些场景下更为有效和实用，在节省计算量的同时，能保证一定高质量的目标选出。

所述跟踪结束选择条件用于表征全程跟踪所述第一目标直至采集的视频流结束。也就是说，目标跟踪结束后选帧输出该目标跟踪轨迹全程中最佳质量抓拍图像，通常作为默认策略，因为该条件符合直觉，对于一般的目标来说，从跟踪全程选择最好的目标抓拍图像输出是最佳策略。

步骤S440，响应于所述第一目标的抓拍缓存池达到所述选帧输出条件，清空所述第一目标的抓拍缓存池。

这里，对于第一目标的抓拍缓冲池达到选帧输出条件时选帧流程结束，清空抓拍缓存池便于下一批视频帧的选帧流程正常进行。

在本申请实施例中，针对每一目标，先评估当前帧图像中检测的质量检测分数是否满足第一质量阈值即选帧门槛，然后确定目标的候选抓拍图像并存入抓拍缓存池中，最后按照配置的选帧输出条件筛选出抓拍缓存池中存储的质量最好的目标抓拍图像，从而在节省存储资源的同时提升后续特征提取的精度。同时使用多种选帧策略，按需配置每种目标每个场景的选帧逻辑，减少计算和存储资源的重复占用。

基于图1，图5为本申请实施例提供的一种结构化目标检测方法的流程示意图，如图5所示，上述步骤S150“基于所述至少两种目标之间的关联关系和每一所述目标的目标抓拍图像，确定所述一批视频帧图像的结构化目标”包括以下步骤：

步骤S510，针对每一所述目标的目标抓拍图像进行特征提取和/或属性提取，得到相应所述目标的解析结果；

这里，对于与人相关的目标通过特征提取模型进行特征提取，得到一定维度的特征向量，通过属性提取模型进行属性提取，得到人脸属性、人体属性、穿着附属物属性等属性；对于其他不重要的目标如机动车目标，仅通过属性提取模型进行属性提取，得到颜色、类型、车牌位置及内容等属性。

在实施中，针对不同种类的目标分别进行解析。针对人脸目标，分别对所述人脸目标的至少两个所述目标抓拍图像进行特征提取，得到至少两个特征向量；对所述至少两个特征向量进行融合，得到所述人脸目标的融合特征；对至少两个所述目标抓拍图像中质量检测分数最高的目标抓拍图像进行属性提取，得到所述人脸目标的属性；将所述人脸目标的融合特征和所述人脸目标的属性，作为所述人脸目标的解析结果。这样，通过对多张人脸目标的目标抓拍图像进行提取特征并进行特征融合，融合后的特征精度相对较高；同时针对质量最佳的目标抓拍图像进行属性提取，提升整体检测性能。

对于人体目标，一般是选帧输出了一个目标抓拍图像，直接使用深度学习模型进行人体的特征提取，接着使用人体属性模型对人体进行属性提取，然后把人体的特征和属性作为人体目标的解析结果。对于机动车目标，先使用车辆属性模型进行属性提取，然后把车辆属性例如车牌位置及车牌内容作为机动车目标的解析结果。对于非机动车目标，则使用属性模型进行非机动车属性提取，并作为非机动车目标的解析结果。

步骤S520，基于所述至少两种目标之间的关联关系，将所述至少两种目标的解析结果进行关联；

这里，通过不同目标之间的关联关系将各目标的解析结果进行关联，可以极大减少数据分析量。例如对于骑手目标，由于骑手本身主要信息来自于人体，所以使用骑手目标关联到的人体目标的属性作为骑手目标的属性。

步骤S530，基于关联后的所述至少两种目标的解析结果，确定所述一批视频帧图像的结构化目标。

这里，当所有种类的选帧输出的目标抓拍图像的特征和属性都提取分析完毕后，把所有目标的解析结果整合在一起输出，作为一批视频帧图像的结构化目标。

在本申请实施例中，对于选帧后的目标抓拍图像进行解析分析，并结合不同目标之间的关联关系对解析结果进行整合，作为一批视频帧图像的结构化目标，提升了视频流场景关心的主要核心目标的结构化分析项的丰富程度。

本申请实施例所提供的结构化目标检测方法至少用于以下场景：对智慧城市场景下主要种类的目标进行高效的检测跟踪和关联，并通过配置不同的选帧策略对目标进行选帧和识别分析。通过把分析了属性和特征的目标存入数据库，后续遇到需要检索的特定目标时，直接输入目标的图像，提取属性和特征后，即可在数据库中搜索到该目标曾经出现的全部信息。且根据目标间的关联信息，同时可查找到目标关联到的其他目标信息，进而挖掘出更为丰富的信息。

基于前述的实施例，本申请实施例再提供一种结构化目标检测装置，所述装置包括所包括的各模块、以及各模块所包括的各子模块及各单元，可以通过电子设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(Central Processing Unit，CPU)、微处理器(Micro Processing Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable GateArray，FPGA)等。

图6为本申请实施例提供的一种结构化目标检测装置的组成结构示意图，如图6所示，所述装置600包括获取模块610、检测跟踪模块620、关联匹配模块630、选帧模块640和确定模块650，其中：

所述获取模块610，用于获取待处理的一批视频帧图像；

所述检测跟踪模块620，用于对所述一批视频帧图像中的至少两种目标进行目标检测和跟踪，得到每一所述目标的检测跟踪结果；

所述关联匹配模块630，用于基于所述至少两种目标的检测跟踪结果，确定所述至少两种目标之间的关联关系；

所述选帧模块640，用于基于每一所述目标的检测跟踪结果，按照预设的选帧策略确定相应所述目标的目标抓拍图像；所述选帧策略用于约束同一目标的所述目标抓拍图像的数量；

所述确定模块650，用于基于所述至少两种目标之间的关联关系和每一所述目标的目标抓拍图像，确定所述一批视频帧图像的结构化目标。

在一些可能的实施例中，所述获取模块610包括：获取子模块，用于获取摄像模组采集的至少两路视频流；解码子模块，用于通过至少两个线程分别对所述至少两路视频流中一路视频流进行逐帧解码，得到相应路所述视频流中的当前帧图像；第一确定子模块，用于将所述至少两路视频流中的所述当前帧图像作为所述一批视频帧图像。

在一些可能的实施例中，所述检测跟踪结果包括所述目标的检测框、跟踪标识和跟踪轨迹，所述检测跟踪模块620包括：检测子模块，用于对所述一批视频帧图像中当前帧图像的至少两种目标进行目标检测，得到每一所述目标的检测框；跟踪子模块，用于基于所述一批视频帧图像中每一所述目标的检测框，对相应所述目标进行跟踪，得到相应所述目标的跟踪标识和跟踪轨迹。

在一些可能的实施例中，所述至少两种目标包括重点目标和非重点目标；所述重点目标用于表征待检测对象身份；所述检测子模块包括：第一检测单元，用于对所述一批视频帧图像中当前帧图像的所述重点目标进行目标检测，得到所述重点目标的检测框；第二检测单元，用于响应于所述当前帧图像为关键帧图像，对所述当前帧图像中所述非重点目标进行目标检测，得到所述非重点目标的初始检测框；所述关键帧图像为按照预设采样间隔数所采样的；跟踪单元，用于响应于所述当前帧图像为非关键帧图像，对所述当前帧图像中所述非重点目标进行单目标跟踪，得到所述非重点目标的更新检测框。

在一些可能的实施例中，所述一批视频帧图像中各当前帧图像均携带有时间戳；所述跟踪单元包括：初始化子单元，用于基于所述非重点目标的初始检测框，对单目标跟踪器进行初始化；所述初始检测框是在所述时间戳早于所述当前帧图像之前的关键帧图像中检测得到的；预测子单元，用于通过初始化后的所述单目标跟踪器，对所述非重点目标在所述当前帧图像中的位置进行预测，得到所述非重点目标的更新检测框。

在一些可能的实施例中，所述跟踪子模块包括：第一确定单元，用于将所述一批视频帧图像中所有所述目标的检测框输入到多目标跟踪器，得到每一所述目标的跟踪标识；第二确定单元，用于基于一路视频流中属于同一所述目标的所述检测框和相应所述目标的跟踪标识，确定相应所述目标的跟踪轨迹。

在一些可能的实施例中，所述至少两种目标包括以下：人脸目标、人体目标、机动车目标、非机动车目标和骑手目标；所述关联匹配模块630包括：第二确定子模块，用于基于所述人脸目标的检测框和所述人体目标的检测框之间的位置关系，确定属于同一人的人体人脸匹配关系；第三确定子模块，用于基于所述人体目标的检测框和所述机动车目标的检测框之间的位置关系，确定所述人体目标和所述机动车目标之间的人员上下车关系；第四确定子模块，用于基于所述骑手目标和所述非机动车目标各自的检测框的位置，以及所述骑手目标和所述非机动车目标各自的跟踪轨迹，确定所述骑手目标和所述非机动车辆之间的骑车关系或推车关系。

在一些可能的实施例中，所述检测跟踪结果还包括所述目标的质量分数，所述选帧模块640包括：第五确定子模块，用于响应于所述当前帧图像中第一目标的所述质量分数满足第一质量阈值，基于所述第一目标的检测框确定候选抓拍图像；所述第一目标为所述至少两种目标中的任一目标；存储子模块，用于将所述候选抓拍图像存入所述第一目标的抓拍缓存池中；第六确定子模块，用于响应于所述第一目标的抓拍缓存池达到配置的选帧输出条件，确定所述抓拍缓存池中存储的抓拍图像为相应所述第一目标的目标抓拍图像。

在一些可能的实施例中，所述存储子模块，还用于在所述第一目标的抓拍缓存池中缓存的图像数量未达到缓存阈值的情况下，直接将所述候选抓拍图像存入所述第一目标的抓拍缓存池中。

在一些可能的实施例中，所述存储子模块包括：删除单元，用于在所述第一目标的抓拍缓存池中缓存的图像数量达到所述缓存阈值的情况下，将所述抓拍缓存池中的第一抓拍图像删除；所述第一抓拍图像的质量分数低于所述候选抓拍图像的质量分数；存储单元，用于将所述候选抓拍图像存入所述第一目标的抓拍缓存池中。

在一些可能的实施例中，所述选帧模块640还包括清空子模块，用于响应于所述第一目标的抓拍缓存池达到所述选帧输出条件，清空所述第一目标的抓拍缓存池。

在一些可能的实施例中，所述配置的选帧输出条件包括以下至少一个：快速选帧条件、周期性选帧条件、最大跟踪时间选帧条件、质量阈值选帧条件和跟踪结束选帧条件；所述快速选帧条件用于表征持续跟踪所述第一目标的时间长度满足第一时长阈值；所述周期性选帧条件用于表征跟踪所述第一目标的时间间隔满足间隔阈值；所述最大跟踪时间选帧条件用于表征跟踪所述第一目标的累计时间长度达到第二时长阈值；所述第二时长阈值大于等于所述第一时长阈值；所述质量阈值选帧条件用于表征所述第一目标的抓拍缓存池中存在质量分数满足第二质量阈值的图像；所述第二质量阈值大于所述第一质量阈值；所述跟踪结束选择条件用于表征全程跟踪所述第一目标直至采集的视频流结束。

在一些可能的实施例中，所述确定模块650包括提取子模块，用于针对每一所述目标的目标抓拍图像进行特征提取和/或属性提取，得到相应所述目标的解析结果；关联子模块，用于基于所述至少两种目标之间的关联关系，将所述至少两种目标的解析结果进行关联；第七确定子模块，用于基于关联后的所述至少两种目标的解析结果，确定所述一批视频帧图像的结构化目标。

在一些可能的实施例中，所述目标为人脸目标，所述人脸目标的所述目标抓拍图像的数量大于等于2；所述提取子模块，包括：特征提取单元，分别对所述人脸目标的至少两个所述目标抓拍图像进行特征提取，得到至少两个特征向量；融合单元，用于对所述至少两个特征向量进行融合，得到所述人脸目标的融合特征；属性提取单元，用于对至少两个所述目标抓拍图像中质量检测分数最高的目标抓拍图像进行属性提取，得到所述人脸目标的属性；第三确定单元，用于将所述人脸目标的融合特征和所述人脸目标的属性，作为所述人脸目标的解析结果。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述结构化目标检测方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备(可以是具有摄像头的智能手机、平板电脑等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何预设的硬件和软件结合。

对应地，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中任一所述结构化目标检测方法中的步骤。对应地，本申请实施例中，还提供了一种芯片，所述芯片包括可编程逻辑电路和/或程序指令，当所述芯片运行时，用于实现上述实施例中任一所述结构化目标检测方法中的步骤。对应地，本申请实施例中，还提供了一种计算机程序产品，当该计算机程序产品被电子设备的处理器执行时，其用于实现上述实施例中任一所述结构化目标检测方法中的步骤。

基于同一技术构思，本申请实施例提供一种电子设备，用于实施上述方法实施例记载的结构化目标检测方法。图7为本申请实施例提供的一种电子设备的硬件实体示意图，如图7所示，所述电子设备700包括存储器710和处理器720，所述存储器710存储有可在处理器720上运行的计算机程序，所述处理器720执行所述程序时实现本申请实施例任一所述结构化目标检测方法中的步骤。

存储器710配置为存储由处理器720可执行的指令和应用，还可以缓存待处理器720以及电子设备中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random Access Memory，RAM)实现。

处理器720执行程序时实现上述任一项的结构化目标检测方法的步骤。处理器720通常控制电子设备700的总体操作。

上述处理器可以为特定用途集成电路(Application Specific IntegratedCircuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置(Programmable LogicDevice，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述计算机存储介质/存储器可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种电子设备，如移动电话、计算机、平板设备、个人数字助理等。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些预设的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本申请实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得设备自动测试线执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种结构化目标检测方法，其特征在于，所述方法包括：

获取待处理的一批视频帧图像；

2.如权利要求1所述的方法，其特征在于，所述获取待处理的一批视频帧图像，包括：

获取摄像模组采集的至少两路视频流；

通过至少两个线程分别对所述至少两路视频流中一路视频流进行逐帧解码，得到相应路所述视频流中的当前帧图像；

将所述至少两路视频流中的所述当前帧图像作为所述一批视频帧图像。

3.如权利要求1或2所述的方法，其特征在于，所述检测跟踪结果包括所述目标的检测框、跟踪标识和跟踪轨迹，所述对所述一批视频帧图像中的至少两种目标进行目标检测和跟踪，得到每一所述目标的检测跟踪结果，包括：

对所述一批视频帧图像中当前帧图像的至少两种目标进行目标检测，得到每一所述目标的检测框；

基于所述一批视频帧图像中每一所述目标的检测框，对相应所述目标进行跟踪，得到相应所述目标的跟踪标识和跟踪轨迹。

4.如权利要求3所述的方法，其特征在于，所述至少两种目标包括重点目标和非重点目标；所述重点目标用于表征待检测对象身份；

所述对所述一批视频帧图像中当前帧图像的至少两种目标进行目标检测，得到每一所述目标的检测框，包括：

对所述一批视频帧图像中当前帧图像的所述重点目标进行目标检测，得到所述重点目标的检测框；

响应于所述当前帧图像为关键帧图像，对所述当前帧图像中所述非重点目标进行目标检测，得到所述非重点目标的初始检测框；所述关键帧图像为按照预设采样间隔数所采样的；

响应于所述当前帧图像为非关键帧图像，对所述当前帧图像中所述非重点目标进行单目标跟踪，得到所述非重点目标的更新检测框。

5.如权利要求4所述的方法，其特征在于，所述一批视频帧图像中各当前帧图像均携带有时间戳；

所述响应于所述当前帧图像为所述非关键帧图像，对所述当前帧图像中所述非重点目标进行单目标跟踪，得到所述非重点目标的更新检测框，包括：

基于所述非重点目标的初始检测框，对单目标跟踪器进行初始化；所述初始检测框是在所述时间戳早于所述当前帧图像之前的关键帧图像中检测得到的；

通过初始化后的所述单目标跟踪器，对所述非重点目标在所述当前帧图像中的位置进行预测，得到所述非重点目标的更新检测框。

6.如权利要求4或5任一项所述的方法，其特征在于，所述基于所述一批视频帧图像中每一所述目标的检测框，对相应所述目标进行跟踪，得到相应所述目标的跟踪标识和跟踪轨迹，包括：

将所述一批视频帧图像中所有所述目标的检测框输入到多目标跟踪器，得到每一所述目标的跟踪标识；

基于一路视频流中属于同一所述目标的所述检测框和相应所述目标的跟踪标识，确定相应所述目标的跟踪轨迹。

7.如权利要求3至6任一项所述的方法，其特征在于，所述至少两种目标包括以下：人脸目标、人体目标、机动车目标、非机动车目标和骑手目标；

所述基于所述至少两种目标的检测跟踪结果，确定所述至少两种目标之间的关联关系，包括：

基于所述人脸目标的检测框和所述人体目标的检测框之间的位置关系，确定属于同一人的人体人脸匹配关系；

基于所述人体目标的检测框和所述机动车目标的检测框之间的位置关系，确定所述人体目标和所述机动车目标之间的人员上下车关系；

基于所述骑手目标和所述非机动车目标各自的检测框的位置，以及所述骑手目标和所述非机动车目标各自的跟踪轨迹，确定所述骑手目标和所述非机动车辆之间的骑车关系或推车关系。

8.如权利要求2至7任一项所述的方法，其特征在于，所述检测跟踪结果还包括所述目标的质量分数，所述基于每一所述目标的检测跟踪结果，按照预设的选帧策略确定相应所述目标的目标抓拍图像，包括：

响应于所述当前帧图像中第一目标的所述质量分数满足第一质量阈值，基于所述第一目标的检测框确定候选抓拍图像；所述第一目标为所述至少两种目标中的任一目标；

将所述候选抓拍图像存入所述第一目标的抓拍缓存池中；

响应于所述第一目标的抓拍缓存池达到配置的选帧输出条件，确定所述抓拍缓存池中存储的抓拍图像为相应所述第一目标的目标抓拍图像。

9.如权利要求8所述的方法，其特征在于，所述将所述候选抓拍图像存入所述第一目标的抓拍缓存池中，包括：

在所述第一目标的抓拍缓存池中缓存的图像数量未达到缓存阈值的情况下，直接将所述候选抓拍图像存入所述第一目标的抓拍缓存池中。

10.如权利要求8或9所述的方法，其特征在于，所述将所述候选抓拍图像存入所述第一目标的抓拍缓存池中，包括：

在所述第一目标的抓拍缓存池中缓存的图像数量达到所述缓存阈值的情况下，将所述抓拍缓存池中的第一抓拍图像删除；所述第一抓拍图像的质量分数低于所述候选抓拍图像的质量分数；

将所述候选抓拍图像存入所述第一目标的抓拍缓存池中。

11.如权利要求8至10任一项所述的方法，其特征在于，所述方法还包括：

响应于所述第一目标的抓拍缓存池达到所述选帧输出条件，清空所述第一目标的抓拍缓存池。

12.如权利要求8至11任一项所述的方法，其特征在于，所述配置的选帧输出条件包括以下至少一个：快速选帧条件、周期性选帧条件、最大跟踪时间选帧条件、质量阈值选帧条件和跟踪结束选帧条件；

所述快速选帧条件用于表征持续跟踪所述第一目标的时间长度满足第一时长阈值；

所述周期性选帧条件用于表征跟踪所述第一目标的时间间隔满足间隔阈值；

所述最大跟踪时间选帧条件用于表征跟踪所述第一目标的累计时间长度达到第二时长阈值；所述第二时长阈值大于等于所述第一时长阈值；

所述质量阈值选帧条件用于表征所述第一目标的抓拍缓存池中存在所述质量分数满足第二质量阈值的图像；所述第二质量阈值大于所述第一质量阈值；

所述跟踪结束选择条件用于表征全程跟踪所述第一目标直至采集的视频流结束。

13.如权利要求1至12任一项所述的方法，其特征在于，所述基于所述至少两种目标之间的关联关系和每一所述目标的目标抓拍图像，确定所述一批视频帧图像的结构化目标，包括：

针对每一所述目标的目标抓拍图像进行特征提取和/或属性提取，得到相应所述目标的解析结果；

基于所述至少两种目标之间的关联关系，将所述至少两种目标的解析结果进行关联；

基于关联后的所述至少两种目标的解析结果，确定所述一批视频帧图像的结构化目标。

14.如权利要求13所述的方法，其特征在于，所述目标为人脸目标，所述人脸目标的所述目标抓拍图像的数量大于等于2；

所述针对每一所述目标的所述目标抓拍图像进行特征提取和/或属性提取，得到相应所述目标的解析结果，包括：

分别对所述人脸目标的至少两个所述目标抓拍图像进行特征提取，得到至少两个特征向量；

对所述至少两个特征向量进行融合，得到所述人脸目标的融合特征；

对至少两个所述目标抓拍图像中质量检测分数最高的目标抓拍图像进行属性提取，得到所述人脸目标的属性；

将所述人脸目标的融合特征和所述人脸目标的属性，作为所述人脸目标的解析结果。

15.如权利要求1至14所述的方法，其特征在于，所述方法通过至少两个线程中的功能模块以并行流水线方式执行；

其中，所述并行流水线方式表征每两个前后依赖的所述功能模块之间，通过缓存队列实现将前一所述功能模块输出的结果数据，作为后一所述功能模块的原料数据。

16.一种结构化目标检测装置，其特征在于，所述装置包括获取模块、检测跟踪模块、关联匹配模块、选帧模块和确定模块，其中：

所述获取模块，用于获取待处理的一批视频帧图像；

17.一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至15中任一项所述方法中的步骤。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至15中任一项所述方法中的步骤。