CN112884804A - 行动对象追踪方法及相关设备 - Google Patents
行动对象追踪方法及相关设备 Download PDFInfo
- Publication number
- CN112884804A CN112884804A CN202011427225.7A CN202011427225A CN112884804A CN 112884804 A CN112884804 A CN 112884804A CN 202011427225 A CN202011427225 A CN 202011427225A CN 112884804 A CN112884804 A CN 112884804A
- Authority
- CN
- China
- Prior art keywords
- moving object
- tracking
- human body
- face
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000009471 action Effects 0.000 title claims description 196
- 238000001514 detection method Methods 0.000 claims abstract description 160
- 238000004422 calculation algorithm Methods 0.000 claims description 66
- 230000003287 optical effect Effects 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 claims description 31
- 210000000746 body region Anatomy 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 238000012549 training Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 7
- 230000002349 favourable effect Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种行动对象追踪方法及相关设备,其中,该方法包括:确定第一检测框中的第一行动对象的人体状态,其中,所述第一检测框是通过对当前帧图像进行行动对象检测而得到,所述人体状态包括全身可见、上半身可见和仅人脸可见;根据所述第一行动对象的人体状态确定追踪策略,并采用所述追踪策略对所述第一行动对象进行追踪。采用本申请实施例,有利于提高行动对象追踪的精度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种行动对象追踪方法及相关设备。
背景技术
随着人口的不断增加和城市的急剧扩张,智能视频监控变得至关重要。所谓的智能视频监督,即前端摄像头可以执行一些检测和追踪等任务,直接将我们需要的数据提取出来并保存。虽然当前已经有很多多目标追踪算法,但是现有的多目标追踪算法并没有对行动对象的人体状态进行估计,所有人体状态下的行动对象都使用相同的追踪策略进行追踪,从而导致现有的行动对象追踪算法精度不高。
发明内容
本申请实施例公开了一种行动对象追踪方法及相关设备,有利于提高行动对象追踪的精度。
本申请实施例第一方面公开了一种行动对象追踪方法,包括:确定第一检测框中的第一行动对象的人体状态,其中,所述第一检测框是通过对当前帧图像进行行动对象检测而得到,所述人体状态包括全身可见、上半身可见和仅人脸可见;根据所述第一行动对象的人体状态确定追踪策略,并采用所述追踪策略对所述第一行动对象进行追踪。
在一种可能的实现方式中,所述方法还包括:若所述第一行动对象的人体状态为上半身可见且第二行动对象的人体状态为全身可见,则采用所述基于人体的轻量级行动对象重识别模型对所述第一行动对象进行追踪,其中,所述第二行动对象为前一帧图像中的行动对象,基于所述第二行动对象在所述当前帧图像中进行轨迹预测得到预测框;若所述第一行动对象的人体状态为上半身可见且所述第二行动对象的人体状态为人脸可见,则采用所述基于人脸的轻量级行动对象重识别模型对所述第一行动对象进行追踪;若所述第一行动对象的人体状态为上半身可见且所述第二行动对象的人体状态为上半身可见,则采用光流算法对所述第一行动对象进行追踪。
在一种可能的实现方式中,所述方法还包括:若所述第一行动对象的人体状态为全身可见且第二行动对象的人体状态为上半身可见,则采用所述光流算法对所述第一行动对象进行追踪,其中,所述第二行动对象为前一帧图像中的行动对象,基于所述第二行动对象在所述当前帧图像中进行轨迹预测得到预测框。
在一种可能的实现方式中,所述方法还包括:若所述第一行动对象的人体状态为仅人脸可见且第二行动对象的人体状态为上半身可见,则采用所述基于人脸的轻量级行动对象重识别模型对所述第一行动对象进行追踪,其中,所述第二行动对象为前一帧图像中的行动对象,基于所述第二行动对象在所述当前帧图像中进行轨迹预测得到预测框。
在一种可能的实现方式中,所述基于人体的轻量级行动对象重识别模型和所述基于人脸的轻量级行动对象重识别模型通过对预设轻量级行动对象重识别网络进行训练得到;所述预设轻量级行动对象重识别网络包括:第一卷积层、最大池化层、第一注意力模块、第二注意力模块、第二卷积层、第一平均池化层、第三注意力模块、第四注意力模块、第三卷积层、第二平均池化层、第五注意力模块、第六注意力模块、第四卷积层、全局池化层、全连接层。
在一种可能的实现方式中,所述采用所述基于人脸的轻量级行动对象重识别模型对所述第一人脸检测框进行特征提取以得到第一人脸特征,以及采用所述基于人脸的轻量级行动对象重识别模型对所述第一人脸预测框进行特征提取以得到第二人脸特征,包括:对所述第一人脸检测框进行动对象脸矫正以得到第二人脸检测框,以及对所述第一人脸预测框进行动对象脸矫正以得到第二人脸预测框;采用所述基于人脸的轻量级行动对象重识别模型对所述第二人脸检测框进行特征提取以得到所述第一人脸特征,以及采用所述基于人脸的轻量级行动对象重识别模型对所述第二人脸预测框进行特征提取以得到所述第二人脸特征。
本申请实施例第二方面公开了一种行动对象追踪装置,包括:确定单元,用于确定第一检测框中的第一行动对象的人体状态,其中,所述第一检测框是通过对当前帧图像进行行动对象检测而得到,所述人体状态包括全身可见、上半身可见和仅人脸可见;追踪单元,用于根据所述第一行动对象的人体状态确定追踪策略,并采用所述追踪策略对所述第一行动对象进行追踪。
本申请实施例第三方面公开了一种电子设备,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如本申请实施例第一方面中任一项所述的方法中的步骤的指令。
本申请实施例第四方面公开了一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如本申请实施例第一方面中任一项所述的方法。
本申请实施例第五方面公开了一种计算机可读存储介质,其特征在于,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如本申请实施例第一方面中任一项所述的方法。
本申请实施例第六方面公开了一种计算机程序产品,所述计算机程序产品使得计算机执行如本申请实施例第一方面中任一项所述的方法。
可见,本申请实施例中,在行动对象追踪过程中,通过对当前帧图像进行行动对象检测,得到检测框;确定检测框中的行动对象的人体状态,其中,人体状态包括全身可见、上半身可见和仅人脸可见;再根据检测框中的行动对象的人体状态的不同确定对该行动对象的不同追踪策略,并采用该追踪策略对该行动对象进行追踪。由于对行动对象进行追踪的追踪策略是根据行动对象的人体状态确定的,而不同的人体状态采用不同的追踪策略,因此有利于提高行动对象追踪的精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种行动对象追踪方法的流程示意图。
图2是本申请实施例提供的另一种行动对象追踪方法的流程示意图。
图3是本申请实施例提供的又一种行动对象追踪方法的流程示意图。
图4是本申请实施例提供的再一种行动对象追踪方法的流程示意图。
图5是本申请实施例提供的再一种行动对象追踪方法的流程示意图。
图6是本申请实施例提供的一种行动对象追踪装置的结构示意图。
图7是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。
请参阅图1,图1是本申请实施例提供的一种行动对象追踪方法的流程示意图,该行动对象追踪方法可应用于电子设备,该行动对象追踪方法包括但不限于以下步骤。
步骤101、确定第一检测框中的第一行动对象的人体状态,其中,所述第一检测框是通过对当前帧图像进行行动对象检测而得到,所述人体状态包括全身可见、上半身可见和仅人脸可见。
具体地,可以通过行动对象检测算法在当前帧图像中进行行动对象检测,得到第一检测框;然后通过人体位姿估计算法来检测第一检测框中的第一行动对象的人体的关键点,根据第一行动对象的人体的关键点的检测情况来确定第一行动对象的人体状态,也即通过人体关键点获取到矩形框;再通过矩形框评估出第一行动对象的人体状态。其中,人体的14个关键点如图2所示,提前对关键点的位置进行了定义,当1、3、2、4关键点存在时,则将当前的人体状态定义为仅人脸可见,但在大多数情况下,当1和2关键点同时存在,3和4关键点可以存在也可以不存在的情况下,也将其归为仅人脸可见的人体状态;当1、2、3、4、5、6、7、8、9、10这几个关键点同时存在,或者当1、2、3、4、5、7关键点存在,其它关键点可以存在也可以不存在的情况下,我们将这个人体状态定义为上半身可见;当1-14关键点同时存在或者至少1-10关键点同时存在时,我们将这个人体状态定义为全身可见。
步骤102、根据所述第一行动对象的人体状态确定追踪策略,并采用所述追踪策略对所述第一行动对象进行追踪。
应理解,在视频监控场景下,行动对象在很多情况下都可能会遇到遮挡的情况,具体包括障碍物的遮挡和其它人的遮挡,而遮挡情况下如果仍然使用相同的策略来追踪,这样会极大的降低追踪算法的精度。因此,在评估出第一行动对象的人体状态,可以针对第一行动对象的人体状态使用相应的策略来进行追踪,有利于提高追踪的精度。
本申请实施例中,在行动对象追踪过程中,通过对当前帧图像进行行动对象检测,得到检测框;确定检测框中的行动对象的人体状态,其中,人体状态包括全身可见、上半身可见和仅人脸可见;再根据检测框中的行动对象的人体状态的不同确定对该行动对象的不同追踪策略,并采用该追踪策略对该行动对象进行追踪。由于对行动对象进行追踪的追踪策略是根据行动对象的人体状态确定的,而不同的人体状态采用不同的追踪策略,因此有利于提高行动对象追踪的精度。
在一种可能的实现方式中,所述根据所述第一行动对象的人体状态确定追踪策略,并采用所述追踪策略对所述第一行动对象进行追踪,包括:若所述第一行动对象的人体状态为全身可见,则采用基于人体的轻量级行动对象重识别(Person Re-identification,ReID)模型对所述第一行动对象进行追踪;若所述第一行动对象的人体状态为上半身可见,则采用光流算法对所述第一行动对象进行追踪;若所述第一行动对象的人体状态为仅人脸可见,则采用基于人脸的轻量级行动对象重识别模型对所述第一行动对象进行追踪。
其中,行动对象重识别也称行动对象再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行动对象的技术;ReID模型的输入是一个矩形框,也即利用人体的关键点所确定好的包含行动对象的矩形框,ReID模型的输出是一个固定维度的特征向量值。
应理解,本实施例中的第一行动对象仅是多目标追踪(Multiple ObjectTracking,MOT) 中的其中一个待追踪行动对象。在实际的密集场景中会包含多个待追踪行动对象,而要确定多个待追踪行动对象中的每个行动对象的身份,则需要使用ReID模型进行验证,即需要将当前帧的该行动对象的检测结果和上一帧的追踪结果通过ReID模型关联起来;因此,多目标追踪的计算量和行动对象的个数成正比。为了提升整个多目标追踪算法的速度,开发一种轻量级ReID模型变得至关重要。
在一种可能的实现方式中,所述基于人体的轻量级行动对象重识别模型和所述基于人脸的轻量级行动对象重识别模型通过对预设轻量级行动对象重识别网络进行训练得到;所述预设轻量级行动对象重识别网络包括:第一卷积层、最大池化层、第一注意力模块、第二注意力模块、第二卷积层、第一平均池化层、第三注意力模块、第四注意力模块、第三卷积层、第二平均池化层、第五注意力模块、第六注意力模块、第四卷积层、全局池化层、全连接层。
具体地,为了获得鲁棒的特征表示,当前的ReID模型都比较深,运行速度比较慢,为了提升多目标追踪算法的速度,本申请实施例提供了一种轻量级ReID模型,轻量级ReID模型由轻量级ReID网络(也即预设轻量级行动对象重识别网络)训练得到,整个轻量级ReID网络的参数仅有2.2M左右,该轻量级ReID网络架构具体如表1所示。
表1轻量级ReID网络架构
索引 | 网络层名称 | 滤波器个数 | 卷积核大小 | 输出大小 |
0 | 第一卷积层(Convolution) | 64 | 7*7/2 | 128*64 |
1 | 最大池化层(Maxpool) | 3*3/2 | 64*32 | |
2 | 第一注意力模块(Bottleneck) | 256 | 64*32 | |
3 | 第一注意力模块(Bottleneck) | 256 | 64*32 | |
4 | 第二卷积层(Convolution) | 256 | 1*1/1 | 64*32 |
5 | 第一平均池化层(Averagepool) | 256 | 2*2/2 | 32*16 |
6 | 第三注意力模块(Bottleneck) | 384 | 32*16 | |
7 | 第四注意力模块(Bottleneck) | 384 | 32*16 | |
8 | 第三卷积层(Convolution) | 384 | 1*1/1 | 32*16 |
9 | 第二平均池化层(Averagepool) | 384 | 2*2/2 | 16*8 |
10 | 第五注意力模块(Bottleneck) | 512 | 16*8 | |
11 | 第六注意力模块(Bottleneck) | 512 | 16*8 | |
12 | 第四卷积层(Convolution) | 512 | 1*1/1 | 16*8 |
13 | 全局池化层(Globalpool) | 512 | 1*1 | |
14 | 全连接层(FC) | 512 | 1*1 |
其中,注意力模块(Bottleneck)用于关注特征映射中的特定特征,类似于给原始输入的特征映射中每一个像素值乘上一个特定的权重值来强调特征映射中不同像素的重要性;该 Bottleneck是一个由卷积层、激活层和点乘层所构成的一个特定结构,其是根据多目标追踪的应用场景所定制的,其可提取更鲁棒的特征表示,更强调如何更好的关注特征映射中的位置信息。
本申请实施例使用PyTorch深度学习框架来训练该轻量级ReID网络,该轻量级ReID网络训练过程中使用到的一些超参数如表2所示。
表2轻量级ReID网络训练参数
需要指出的是,基于人体的轻量级行动对象重识别模型和基于人脸的轻量级行动对象重识别模型均采用上述轻量级ReID网络训练得到,只是训练的样本不同而已。
本申请实施例中,若第一行动对象的人体状态为全身可见,采用基于人体的轻量级行动对象重识别模型对第一行动对象进行追踪;若第一行动对象的人体状态为上半身可见,采用光流算法对第一行动对象进行追踪;若第一行动对象的人体状态为仅人脸可见,采用基于人脸的轻量级行动对象重识别模型对第一行动对象进行追踪,从而有利于提高行动对象追踪的精度;此外,采用轻量级ReID模型对行动对象进行追踪,可以极大的提升行动对象追踪的速度。
在一种可能的实现方式中,所述采用基于人体的轻量级行动对象重识别模型对所述第一行动对象进行追踪,包括:采用所述基于人体的轻量级行动对象重识别模型对所述第一检测框进行特征提取以得到第一人体特征,以及采用所述基于人体的轻量级行动对象重识别模型对预测框进行特征提取以得到第二人体特征,其中,所述预测框是通过在所述当前帧图像中对第二行动对象进行轨迹预测而得到,所述第二行动对象为前一帧图像中的行动对象;计算所述第一人体特征与所述第二人体特征的第一距离,以及计算所述第一检测框和所述预测框之间的第二距离;根据所述第一距离、所述第二距离和预设超参数计算第一代价矩阵;根据所述第一检测框、所述预测框和所述第一代价矩阵确定所述第一行动对象与所述第二行动对象是否关联。
具体地,采用基于人体的轻量级行动对象重识别模型对行动对象进行追踪的步骤包括:
1、使用卡尔曼滤波(Kalman filter)来预测前一帧图像中的目标(也即前一帧图像中的行动对象)在当前帧图像中的位置,从而前一帧图像中的每个目标在当前帧图像中的预测框。
2、利用马氏距离公式来计算检测框和预测框之间的矩阵d1(i,j),i表示当前帧图像中的第i个预测框,j表示当前帧图像中的第j个检测框。
3、利用特征提取算法对检测框和预测框进行体征提取,从而得到当前帧图像中的每个检测框对应的特征向量,以及得到当前帧图像中的每个预测框对应的特征向量,并计算每个检测框对应的特征向量与每个预测框对应的特征向量之间的欧式距离d2(i,j),i表示当前帧图像中的第i个预测框,j表示当前帧图像中的第j个检测框。
4、计算代价矩阵c,其中,代价矩阵c的计算公式如下:
c(i,j)=lambda*d1(i,j)+(1-lambda)*d2(i,j) (1)
其中,lambda是一个超参数,用来衡量人体特征(也即外观特征)和运动特征的重要性。
5、将代价矩阵c、检测框和追踪框作为匈牙利算法(Hungarian algorithm)的输入,从而对检测框和预测框进行匹配。
其中,卡尔曼滤波是一种运动模型,用来对目标的轨迹进行预测,并且使用确信度较高的追踪结果进行预测结果的修正;匈牙利算法是一种寻找二分图的最大匹配的算法,在多目标追踪问题中可以简单理解为寻找前后两帧的若干目标的匹配最优解的一种算法。
就确定第一行动对象与第二行动对象是否关联来说:采用基于人体的轻量级行动对象重识别模型对第一检测框进行特征提取以得到第一人体特征,以及采用基于人体的轻量级行动对象重识别模型对预测框进行特征提取以得到第二人体特征;计算第一人体特征与第二人体特征的欧式距离(也即第一距离),以及计算第一检测框和预测框之间的马氏距离(也即第二距离);根据该欧式距离、马氏距离通过上述公式计算第一代价矩阵;再将根据第一检测框、预测框和第一代价矩阵输入匈牙利算法,从而确定第一行动对象与第二行动对象是否关联,也即确定第一行动对象是否为第二行动对象,或确定第一行动对象的ID是否为第二行动对象的ID。
本申请实施例中,在确定第一行动对象与第二行动对象是否关联时,为了实现准确地ID 关联,不仅使用ReID模型来获取行动对象的人体特征,而且还获取行动对象的运动特征,并通过权重融合的方式来将人体特征和运动特征结合起来用于评价第一行动对象和第二行动对象是否关联,相比仅采用人体特征来评价第一行动对象和第二行动对象是否关联,有利于提高评价精度,也即有利于提高行动对象追踪的精度。
在一种可能的实现方式中,在所述根据所述第一检测框、所述预测框和所述第一代价矩阵确定所述第一行动对象与所述第二行动对象是否关联之前,所述方法还包括:计算所述第一人体特征与所述第二人体特征的第三距离;根据所述第三距离确定所述第一行动对象与所述第二行动对象是否关联。
具体地,通过基于人体的轻量级ReID模型获取第一人体特征和第二人体特征,计算第一人体特征和第二人体特征的余弦距离(也即第三距离);判断第一人体特征和第二人体特征的余弦距离是否小于设定的第一预设阈值,如果小于则将第一行动对象和第二行动对象关联起来。
本申请实施例中,在获取第一人体特征和第二人体特征后,可以计算第一人体特征和第二人体特征的余弦距离,并通过该余弦距离来初步判断第一行动对象与所述第二行动对象是否关联,再通过人体特征和运动特征融合来判断第一行动对象和第二行动对象是否关联,从而有利于进一步提高行动对象追踪的精度。
在一种可能的实现方式中,在所述根据所述第一检测框、所述预测框和所述第一代价矩阵确定所述第一行动对象与所述第二行动对象是否关联之前,所述方法还包括:计算所述第一检测框和所述预测框之间的第一交并比(Intersection over Union,IoU);根据所述第一交并比确定所述第一行动对象与所述第二行动对象是否关联。
应理解,由于视频的帧率比较快,一个目标在相邻帧之间的运动范围可能会比较小,因而可以考虑使用IoU来进行部分目标的关联,IoU计算的是预测框和检测框的交集和并集的比值。
具体地,通过前述判断第一行动对象和第二行动对象是否关联后,为了进一步确保判断精度,可以通过IoU关联来进一步第一行动对象和第二行动对象是否关联;例如,计算第一检测框和预测框之间的第一交并比,若该第一交并比小于第二预设阈值,则确定第一行动对象与第二行动对象不关联,从而提升多目标追踪算法的精度。
本申请实施例中,在通过人体特征和运动特征融合来判断第一行动对象和第二行动对象是否关联前,计算第一检测框和预测框之间的第一交并比,并根据第一交并比判断第一行动对象与第二行动对象是否关联,从而有利于更进一步提高行动对象追踪的精度。
在一种可能的实现方式中,所述采用光流算法对所述第一行动对象进行追踪,包括:从第二检测框中获取刚体区域,其中,所述第二检测框是通过对前一帧图像进行行动对象检测而得到,所述刚体区域为第二行动对象的左肩、右肩、颈椎、左腰和右腰的最小外接矩形框,所述第二行动对象为所述第二检测框中的行动对象;将所述刚体区域划分成k×k个图像块,其中,所述k为正整数;从所述k×k个图像块中的每个图像块中提取一个特征点,以得到k ×k个第一特征点;根据所述k×k个第一特征点采用光流算法在所述当前帧图像中确定k×k 个第二特征点;根据所述k×k个第二特征点在所述当前帧图像中得到预测框;根据所述第一检测框和所述预测框确定第二代价矩阵;根据所述第一检测框、所述预测框和所述第二代价矩阵确定所述第一行动对象与所述第二行动对象是否关联。
应理解,对于上半身区域而言,由于人头和两个胳膊容易发生剧烈的变化,而人体胸部的那个区域相对来说比较平坦,不容易发生剧烈的形变,而且基本不会完全被遮挡;因而可以选择由关键点2、3、4、9、10构成的矩形区域作为我们待追踪的区域。具体地,首先,获取到人体的2、3、4、9、10关键点;然后,根据2、3、4、9、10关键点获取一个最小外接矩形框,并将其作为的刚体区域,如图2所示。
其中,本申请实施例中的光流算法可以是LK(Lucas-Kanade)光流算法,该算法是一个稀疏光流算法,更具体的说其实就是一个关键点匹配算法。首先,该算法会利用特征点提取算法来获取某个矩形框中的特征点(其实就是一个具有代表性的点);然后大致估算出这些关键点在下一帧中可能的位置;最后在上一帧特征点的基础上加上偏移量就是该下一帧中该矩形框的位置。
具体地,通过前一帧图像的刚体区域在当前帧图像中获得预测框的过程为:在获取到刚体区域后,将刚体区域划分成k×k个图像块,其中,k为正整数;采用LK光流算法从k×k 个图像块中的每个图像块中提取一个特征点,以得到k×k个第一特征点;再根据k×k个第一特征点采用LK光流算法在当前帧图像中确定k×k个第二特征点;最后根据k×k个第二特征点在当前帧图像中得到预测框。需要说明的是,通过前一帧图像中的该刚体区域采用LK 光流算法在当前帧图像中获得预测框的尺寸大小与该刚体区域尺寸大小一致或相近,也即该预测框框住图像区域是当前帧图像中某个行动对象的身体的一部分,例如可能是某个行动对象的上半身。
其中,根据所述第一检测框和所述预测框确定第二代价矩阵,也即计算第一检测框和预测框的马氏距离,将第一检测框和预测框的马氏距离作为第二代价矩阵;根据所述第一检测框、所述预测框和所述第二代价矩阵确定所述第一行动对象与所述第二行动对象是否关联,也即将第一检测框、预测框、第一检测框和预测框的马氏距离输入匈牙利算法,判断第一行动对象与第二行动对象是否关联。
本申请实施例中,在当前帧图像中的第一行动对象为人体上半身可见时,通过在前一帧图像中选择第二行动对象的刚体区域,并将刚体区域划分为多个图像块,采用光流算法提取每个图像块的一个第一特征点,得到多个第一特征点,依据该第一特征点采用光流算法在当前整图像中获取预测框,并通过该预测框和第一行动对象对应的第一检测框来判断第一行动对象与第二行动对象是否关联;由于由于刚体区域内不容易发生剧烈的形变且不容易全部被遮挡,选择刚体区域进行轨迹预测,可以提高轨迹预测的精度;并且将刚体区域划分为多个图像块,采用光流算法提取每个图像块的一个第一特征点,提取的第一特征点是鲁棒的,利用该多个第一特征点进行轨迹预测,可以提高轨迹预测的精度;因此,有利于提高行动对象追踪的精度。
在一种可能的实现方式中,所述采用基于人脸的轻量级行动对象重识别模型对所述第一行动对象进行追踪,包括:从所述第一检测框中获取所述第一行动对象的第一人脸检测框,以及从预测框中获取第一人脸预测框,其中,所述预测框是通过在所述当前帧图像中对第二行动对象进行轨迹预测而得到,所述第二行动对象为前一帧图像中的行动对象;采用所述基于人脸的轻量级行动对象重识别模型对所述第一人脸检测框进行特征提取以得到第一人脸特征,以及采用所述基于人脸的轻量级行动对象重识别模型对所述第一人脸预测框进行特征提取以得到第二人脸特征;计算所述第一人脸检测框和所述第一人脸预测框之间的第二交并比;根据所述第一人脸特征、所述第二人脸特征和所述第二交并比确定所述第一行动对象与所述第二行动对象是否关联。
应理解,在某些情况下,行动对象会受到严重的遮挡,即行动对象仅人脸或者部分人脸可见。对于这种情况而言,由于现有的行动对象检测算法仍然输出完成的矩形框,该矩形框中包括的行动对象的有效区域仅为行动对象的人脸,如果使用人体ReID模型对其进行追踪,追踪精度会变得很差。除此之外,由于人脸区域会发生较大到的变化,LK光流算法也不再适用。
因此,当第一行动对象的人体状态仅为人脸可见时,可以从第一检测框中获取第一行动对象的第一人脸检测框,从预测框中获取第一人脸预测框,然后通过基于人脸的轻量级行动对象重识别模型提取第一人脸检测框和第一人脸预测框中的人脸特征,得到第一人脸特征和第二人脸特征,并计算第一人脸检测框和第一人脸预测框之间的第二交并比,进而判断第一行动对象与第二行动对象是否关联。
本申请实施例中,在第一行动对象仅人脸可见时,从第一检测框中提取第一行动对象的第一人脸检测框,以及从预测框中获取第一人脸预测框,然后基于第一人脸检测框和第一人脸预测框对第一行动对象进行追踪,采用仅包括人脸矩形框进行行动对象追踪,剔除了行动对象检测算法得到的检测框中的无效区域,从而有利于提高行动对象追踪的精度。
在一种可能的实现方式中,所述采用所述基于人脸的轻量级行动对象重识别模型对所述第一人脸检测框进行特征提取以得到第一人脸特征,以及采用所述基于人脸的轻量级行动对象重识别模型对所述第一人脸预测框进行特征提取以得到第二人脸特征,包括:对所述第一人脸检测框进行动对象脸矫正以得到第二人脸检测框,以及对所述第一人脸预测框进行动对象脸矫正以得到第二人脸预测框;采用所述基于人脸的轻量级行动对象重识别模型对所述第二人脸检测框进行特征提取以得到所述第一人脸特征,以及采用所述基于人脸的轻量级行动对象重识别模型对所述第二人脸预测框进行特征提取以得到所述第二人脸特征。
本申请实施例中,在对人脸检测框和人脸预测框进行动对象脸特征提取时,先对人脸检测框和人脸预测框中的人脸进行动对象脸矫正,再对矫正人脸后的人脸检测框和人脸预测框进行动对象脸特征提取,从而有利于人脸特征提取,进而有利于提高行动对象追踪的精度。
在一种可能的实现方式中,所述方法还包括:若所述第一行动对象的人体状态为上半身可见且第二行动对象的人体状态为全身可见,则采用所述基于人体的轻量级行动对象重识别模型对所述第一行动对象进行追踪,其中,所述第二行动对象为前一帧图像中的行动对象,基于所述第二行动对象在所述当前帧图像中进行轨迹预测得到预测框;若所述第一行动对象的人体状态为上半身可见且所述第二行动对象的人体状态为人脸可见,则采用所述基于人脸的轻量级行动对象重识别模型对所述第一行动对象进行追踪;若所述第一行动对象的人体状态为上半身可见且所述第二行动对象的人体状态为上半身可见,则采用光流算法对所述第一行动对象进行追踪。
本申请实施例中,当行动对象在前后两帧图像中是从全身可见过渡到上半身可见时,采用全身可见时的追踪策略对其进行追踪;当行动对象在前后两帧图像中是从仅人脸可见过渡到上半身可见时,采用仅人脸可见时的追踪策略对其进行追踪;当行动对象在前后两帧图像中是均是上半身可见时,采用光流算法对其进行追踪。从而有利于提高行动对象追踪策略。
在一种可能的实现方式中,所述方法还包括:若所述第一行动对象的人体状态为全身可见且第二行动对象的人体状态为上半身可见,则采用所述光流算法对所述第一行动对象进行追踪,其中,所述第二行动对象为前一帧图像中的行动对象,基于所述第二行动对象在所述当前帧图像中进行轨迹预测得到预测框。
本申请实施例中,当行动对象在前后两帧图像中是从上半身可见过渡到全身可见时,为确保追踪精度,采用上全身可见时的追踪策略对其进行追踪,
在一种可能的实现方式中,所述方法还包括:若所述第一行动对象的人体状态为仅人脸可见且第二行动对象的人体状态为上半身可见,则采用所述基于人脸的轻量级行动对象重识别模型对所述第一行动对象进行追踪,其中,所述第二行动对象为前一帧图像中的行动对象,基于所述第二行动对象在所述当前帧图像中进行轨迹预测得到预测框。
本申请实施例中,当行动对象在前后两帧图像中是从上半身可见过渡到仅人脸可见时,为确保追踪精度,采用仅人脸可见时的追踪策略对其进行追踪。
请参阅图3,图3是本申请实施例提供的另一种行动对象追踪方法的流程示意图,该行动对象追踪方法可应用于电子设备,该行动对象追踪方法包括但不限于以下步骤。
步骤301、图像捕获以得到当前帧图像。
本申请实施例的应用场景是视频监控场景,即有一些监视相机悬挂在一定高度处,实时的对特定区域的目标进行抓拍和分析;通过以上的操作,可以获取到待处理的图像,当前帧图像为这些待处理的图像中的任意一个。
步骤302、行动对象检测。
在捕获到当前帧图像之后,首先需要在当前帧图像中执行行动对象检测任务,本申请实施例可以使用性能优异的CenterNet算法作为行动对象检测器,该算法的输入是一张图像,输出是该图像中的行动对象的位置和置信度。应理解,对当前帧图像进行行动对象检测,输出的行动对象可以为该当前帧图像中的多个行动对象,也即得到多目标追踪算法需要追踪的多个检测目标。
步骤303、计算人体位姿。
本申请实施例使用人体位姿对人体的状态进行准确的评估,考虑到整个算法的精度和算法,本申请实施例使用了经典的人体位姿估计算法openpose,该算法是一个实时的、多人的人体位姿估计算法,该算法可以同时输出人体关键点、人脸关键点和人手关键点。应理解,对于行动对象检测得到的多个行动对象中的每个行动对象,都进行动对象体位姿计算。
步骤304、根据人体位姿获取人体状态。
人体位姿估计算法输出人体关键点、人脸关键点和人手关键点后,可以通过关键点获取到矩形框,根据矩形框可以评估出目标当前的状态。应理解,对于上述多个行动对象中的每个行动对象,都进行动对象体状态获取。
其中,人体状态可分为全身可见状态、上半身可见状态和仅人脸可见状态,具体可参阅图2,此处不再赘述。
步骤305、是否为全身可见状态。
应理解,对于上述多个行动对象中的每个行动对象都进行动对象体状态判断,判断其是否为全身可见。其中,当判断到行动对象为全身可见状态,则执行步骤306;否则执行步骤 307。
步骤306、采用基于人体的轻量级ReID模型确定ID。
其中,如图4所示,步骤306包括如下子步骤:
步骤3061、基于人体的轻量级ReID模型匹配。具体如下:
首先,遍历所有的检测目标,使用基于人体的轻量级ReID模型来提取人体特征;然后,遍历所有的轨迹目标,使用基于人体的轻量级ReID模型来提取人体特征;其中,检测目标指的是当前帧图像的检测框,轨迹目标指的是根据前一帧图像的检测框利用卡尔曼滤波器等在当前帧图像中预测出来的预测框。
可选地,在得到检测目标和轨迹目标的人体特征之后,可以计算检测目标和轨迹目标的 ReID模型的余弦距离;最后,判断当前的相似度是否大于设定的阈值,如果大于则将这两个目标关联起来,也即判断检测目标和轨迹目标的余弦距离是否小于第一预设阈值,若小于第一预设阈值,则将检测目标和轨迹目标关联起来,也即前一帧图像的检测框中的行动对象为当前帧图像的检测框中的行动对象,从而将前一帧图像的检测框中的行动对象的ID作为当前帧图像的检测框中的行动对象的ID。
步骤3062、运动模型匹配及融合。
为了实现准确地ID关联,不仅需要使用ReID模型来获得目标的外观特征,而且需要使用运动模型来获得目标的运动特征,并通过权重融合的方式来将外观特征和运动特征结合起来,得到匈牙利匹配算法的代价矩阵。
其中,具体过程参见公式(1)的描述。
步骤3063、IoU匹配。
由于视频的帧率比较快,一个目标在相邻帧图像之间的运动范围可能会比较小,因而可选的考虑使用IoU来进行部分目标的关联,以进而提升MOT算法的精度。IoU匹配具体如下所示:首先,计算基于前一帧图像在当前帧图像中得到的预测框和当前帧图像中的检测框之间的IoU距离;然后,使通过IoU阈值来过滤掉一部分不满足条件的目标。
最后,将上述步骤3062得到的代价矩阵、对应检测框以及对应的预测框传入匈牙利匹配算法中进行最优匹配。
步骤3064、保存ID结果。
具体地,当对当前帧图像中人体状态为全身可见的行动对象进行关联后,得到了该全身可见的行动对象的ID,从而保存该ID。
步骤307、是否为上半身可见状态。
应理解,对于上述判断为非全身可见的行动对象,进行是否为上半身可见判断。其中,当判断到行动对象为上半全身可见状态,则执行步骤308;否则执行步骤309。
步骤308、采用光流算法确定ID。
其中,如图5所示,步骤308包括如下子步骤:
步骤3081、选取刚体区域。
对于上半身区域而言,由于人头和两个胳膊容易发生剧烈的变化,而人体胸部的那个区域相对来说比较平坦,不容易发生剧烈的形变,而且基本不会完全被遮挡。因而可以选择由关键点2、3、4、9、10构成的矩形区域作为我们待追踪的区域。具体地,首先,我们获取到人体的2、3、4、9、10关键点;然后,根据2、3、4、9、10关键点获取一个最小外接矩形框,并将其作为我们的刚体区域。
步骤3082、获取刚体区域内稀疏关键点。
获取到刚体区域之后,需要在这个刚体区域内选择出一些鲁棒的关键点来进行追踪,具体的实现思路如下:首先,将刚体区域划分成多个k×k的子块;然后,使用opencv中的goodFeaturesToTrack(角点检测函数)在每一个子块中选择出一个鲁棒的特征点。
步骤3083、光流匹配。
其中,可以采用LK光流算法,在获取到稀疏关键点之后,LK光流追踪就转变成一个关键点追踪算法。
需要说明的是,当前帧图像中的检测目标为第一次出现上半身可见的行动对象,也即在前一帧图像中为全身可见或仅人脸可见的行动对象,在当前帧图像为上半身可见的行动对象;首先,使用人体位姿获取到当前帧图像的刚体区域;然后,获取该刚体区域中的关键点;接着,使用这些关键点追踪来获取到下一帧图像中各个关键点的位置;最后,根据这些下一帧图像中的关键点获取一个最小外接矩形,该下一帧图像中的最小外界矩形也即下一帧图像中的预测框。此外,对于当前帧图像中的检测目标为第一次出现上半身可见的行动对象,还是采用基于人体的轻量级ReID模型或者基于人脸的轻量级ReID模型进行追踪。
而当前帧图像中的检测目标为非第一次出现上半身可见的行动对象,也即在前一帧图像中也为上半身全身可见的行动对象,先根据检测目标和对应的轨迹目标确定匈牙利匹配算法的代价矩阵,其中,此种情况下,该轨迹目标是基于光流算法根据前一帧图像中的刚体区域预测得到的;然后,将确定的代价矩阵、检测目标和对应的轨迹目标输入匈牙利匹配算法来获得最优的关联ID。
步骤3084、IoU匹配。
可选地,为提升追踪的精度,在进行光流匹配之后,还可以进一步的进行IoU匹配,以对光流匹配的结果进行验证。
步骤3085、保存ID结果。
具体地,当对当前帧图像中人体状态为上半身可见的行动对象进行关联后,得到了该上半身可见的行动对象的ID,从而保存该ID。
步骤309、是否为仅人脸可见状态。
应理解,对于上述判断为非全身可见的行动对象,也非上半身可见的行动对象,进行是否为仅人脸可见判断。其中,当判断到行动对象为仅人脸可见状态,则执行步骤310;否则,执行步骤311。
步骤310、采用基于人脸的轻量级ReID模型确定ID。
具体地,首先,对于检测目标和轨迹目标,根据人体位姿点1、2、3、4来获取人脸区域;然后,使用BlazeFace人脸检测算法来获取精确地人脸区域;接着,使用BlazeFace人脸关键点检测算法来对齐人脸,也即进行动对象脸矫正;接着,使用基于人脸的轻量级ReID模型来分别提取检测目标和轨迹目标的人脸特征;接着,使用检测目标和轨迹目标的人脸特征,以及IoU进行目标ID关联;最终,得到仅人脸可见状态的行动对象的关联ID结果。
步骤311、更新当前帧图像的追踪结果。
通过上面的步骤可以准确地将多个目标关联起来。对于没有关联上的那些检测目标,将其加入临时列表中,当连续N帧该目标都处于丢失状态时,认为该目标已经离开画面,即可以将该目标删除掉;对于新出现的那些目标,为其创建一个新的对象。最终,将所有的结果保存之后,开始下一帧的处理。
需要说明的是,图3、图4、图5所示的方法流程中各个步骤的实现还可以对应参照图1 所示的方法实施例的相应描述。
本申请实施例中,在行动对象追踪过程中,通过对当前帧图像进行行动对象检测,得到检测框;确定检测框中的行动对象的人体状态,其中,人体状态包括全身可见、上半身可见和仅人脸可见;再根据检测框中的行动对象的人体状态的不同确定对该行动对象的不同追踪策略,并采用该追踪策略对该行动对象进行追踪。由于对行动对象进行追踪的追踪策略是根据行动对象的人体状态确定的,而不同的人体状态采用不同的追踪策略,因此有利于提高行动对象追踪的精度。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参见图6,图6是本申请实施例提供的一种行动对象追踪装置600的结构示意图,该行动对象追踪装置应用于电子设备,该行动对象追踪装置600可以包括确定单元601和追踪单元602,其中,各个单元的详细描述如下:
确定单元601,用于确定第一检测框中的第一行动对象的人体状态,其中,所述第一检测框是通过对当前帧图像进行行动对象检测而得到,所述人体状态包括全身可见、上半身可见和仅人脸可见;
追踪单元602,用于根据所述第一行动对象的人体状态确定追踪策略,并采用所述追踪策略对所述第一行动对象进行追踪。
在一种可能的实现方式中,在所述根据所述第一行动对象的人体状态确定追踪策略,并采用所述追踪策略对所述第一行动对象进行追踪方面,所述追踪单元602,具体用于:若所述第一行动对象的人体状态为全身可见,则采用基于人体的轻量级行动对象重识别模型对所述第一行动对象进行追踪;若所述第一行动对象的人体状态为上半身可见,则采用光流算法对所述第一行动对象进行追踪;若所述第一行动对象的人体状态为仅人脸可见,则采用基于人脸的轻量级行动对象重识别模型对所述第一行动对象进行追踪。
在一种可能的实现方式中,在所述采用基于人体的轻量级行动对象重识别模型对所述第一行动对象进行追踪方面,所述追踪单元602,具体用于:采用所述基于人体的轻量级行动对象重识别模型对所述第一检测框进行特征提取以得到第一人体特征,以及采用所述基于人体的轻量级行动对象重识别模型对预测框进行特征提取以得到第二人体特征,其中,所述预测框是通过在所述当前帧图像中对第二行动对象进行轨迹预测而得到,所述第二行动对象为前一帧图像中的行动对象;计算所述第一人体特征与所述第二人体特征的第一距离,以及计算所述第一检测框和所述预测框之间的第二距离;根据所述第一距离、所述第二距离和预设超参数计算第一代价矩阵;根据所述第一检测框、所述预测框和所述第一代价矩阵确定所述第一行动对象与所述第二行动对象是否关联。
在一种可能的实现方式中,在所述根据所述第一检测框、所述预测框和所述第一代价矩阵确定所述第一行动对象与所述第二行动对象是否关联之前,所述追踪单元602,还用于:计算所述第一人体特征与所述第二人体特征的第三距离;根据所述第三距离确定所述第一行动对象与所述第二行动对象是否关联。
在一种可能的实现方式中,在所述根据所述第一检测框、所述预测框和所述第一代价矩阵确定所述第一行动对象与所述第二行动对象是否关联之前,所述追踪单元602,还用于:计算所述第一检测框和所述预测框之间的第一交并比;根据所述第一交并比确定所述第一行动对象与所述第二行动对象是否关联。
在一种可能的实现方式中,在所述采用光流算法对所述第一行动对象进行追踪方面,所述追踪单元602,具体用于:从第二检测框中获取刚体区域,其中,所述第二检测框是通过对前一帧图像进行行动对象检测而得到,所述刚体区域为第二行动对象的左肩、右肩、颈椎、左腰和右腰的最小外接矩形框,所述第二行动对象为所述第二检测框中的行动对象;将所述刚体区域划分成k×k个图像块,其中,所述k为正整数;从所述k×k个图像块中的每个图像块中提取一个特征点,以得到k×k个第一特征点;根据所述k×k个第一特征点采用光流算法在所述当前帧图像中确定k×k个第二特征点;根据所述k×k个第二特征点在所述当前帧图像中得到预测框;根据所述第一检测框和所述预测框确定第二代价矩阵;根据所述第一检测框、所述预测框和所述第二代价矩阵确定所述第一行动对象与所述第二行动对象是否关联。
在一种可能的实现方式中,在所述采用基于人脸的轻量级行动对象重识别模型对所述第一行动对象进行追踪方面,所述追踪单元602,具体用于:从所述第一检测框中获取所述第一行动对象的第一人脸检测框,以及从预测框中获取第一人脸预测框,其中,所述预测框是通过在所述当前帧图像中对第二行动对象进行轨迹预测而得到,所述第二行动对象为前一帧图像中的行动对象;采用所述基于人脸的轻量级行动对象重识别模型对所述第一人脸检测框进行特征提取以得到第一人脸特征,以及采用所述基于人脸的轻量级行动对象重识别模型对所述第一人脸预测框进行特征提取以得到第二人脸特征;计算所述第一人脸检测框和所述第一人脸预测框之间的第二交并比;根据所述第一人脸特征、所述第二人脸特征和所述第二交并比确定所述第一行动对象与所述第二行动对象是否关联。
在一种可能的实现方式中,在所述采用所述基于人脸的轻量级行动对象重识别模型对所述第一人脸检测框进行特征提取以得到第一人脸特征,以及采用所述基于人脸的轻量级行动对象重识别模型对所述第一人脸预测框进行特征提取以得到第二人脸特征方法,所述追踪单元602,具体用于:对所述第一人脸检测框进行动对象脸矫正以得到第二人脸检测框,以及对所述第一人脸预测框进行动对象脸矫正以得到第二人脸预测框;采用所述基于人脸的轻量级行动对象重识别模型对所述第二人脸检测框进行特征提取以得到所述第一人脸特征,以及采用所述基于人脸的轻量级行动对象重识别模型对所述第二人脸预测框进行特征提取以得到所述第二人脸特征。
在一种可能的实现方式中,所述追踪单元602,还用于:若所述第一行动对象的人体状态为上半身可见且第二行动对象的人体状态为全身可见,则采用所述基于人体的轻量级行动对象重识别模型对所述第一行动对象进行追踪,其中,所述第二行动对象为前一帧图像中的行动对象,基于所述第二行动对象在所述当前帧图像中进行轨迹预测得到预测框;若所述第一行动对象的人体状态为上半身可见且所述第二行动对象的人体状态为人脸可见,则采用所述基于人脸的轻量级行动对象重识别模型对所述第一行动对象进行追踪;若所述第一行动对象的人体状态为上半身可见且所述第二行动对象的人体状态为上半身可见,则采用光流算法对所述第一行动对象进行追踪。
在一种可能的实现方式中,所述追踪单元602,还用于:若所述第一行动对象的人体状态为全身可见且第二行动对象的人体状态为上半身可见,则采用所述光流算法对所述第一行动对象进行追踪,其中,所述第二行动对象为前一帧图像中的行动对象,基于所述第二行动对象在所述当前帧图像中进行轨迹预测得到预测框。
在一种可能的实现方式中,所述追踪单元602,还用于:若所述第一行动对象的人体状态为仅人脸可见且第二行动对象的人体状态为上半身可见,则采用所述基于人脸的轻量级行动对象重识别模型对所述第一行动对象进行追踪,其中,所述第二行动对象为前一帧图像中的行动对象,基于所述第二行动对象在所述当前帧图像中进行轨迹预测得到预测框。
在一种可能的实现方式中,所述基于人体的轻量级行动对象重识别模型和所述基于人脸的轻量级行动对象重识别模型通过对预设轻量级行动对象重识别网络进行训练得到;所述预设轻量级行动对象重识别网络包括:第一卷积层、最大池化层、第一注意力模块、第二注意力模块、第二卷积层、第一平均池化层、第三注意力模块、第四注意力模块、第三卷积层、第二平均池化层、第五注意力模块、第六注意力模块、第四卷积层、全局池化层、全连接层。
需要说明的是,各个单元的实现还可以对应参照图1、图3、图4、图5所示的方法实施例的相应描述。当然,本申请实施例提供的行动对象追踪装置600包括但不限于上述单元模块,例如:该行动对象追踪装置600还可以包括存储单元603,存储单元603可以用于存储该行动对象追踪装置600的程序代码和数据。
在图6所描述的行动对象追踪装置600中,在行动对象追踪过程中,通过对当前帧图像进行行动对象检测,得到检测框;确定检测框中的行动对象的人体状态,其中,人体状态包括全身可见、上半身可见和仅人脸可见;再根据检测框中的行动对象的人体状态的不同确定对该行动对象的不同追踪策略,并采用该追踪策略对该行动对象进行追踪。由于对行动对象进行追踪的追踪策略是根据行动对象的人体状态确定的,而不同的人体状态采用不同的追踪策略,因此有利于提高行动对象追踪的精度。
请参见图7,图7是本申请实施例提供的一种电子设备710的结构示意图,该电子设备 710包括处理器711、存储器712和通信接口713,上述处理器711、存储器712和通信接口713通过总线714相互连接。
存储器712包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmableread only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器712用于相关计算机程序及数据。通信接口713用于接收和发送数据。
处理器711可以是一个或多个中央处理器(central processing unit,CPU),在处理器711 是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
该电子设备710中的处理器711用于读取上述存储器712中存储的计算机程序代码,执行图1、图3、图4、图5中任一所示的方法。
需要说明的是,各个操作的实现还可以对应参照图1、图3、图4、图5所示的方法实施例的相应描述。
在图7所描述的电子设备710中,在行动对象追踪过程中,通过对当前帧图像进行行动对象检测,得到检测框;确定检测框中的行动对象的人体状态,其中,人体状态包括全身可见、上半身可见和仅人脸可见;再根据检测框中的行动对象的人体状态的不同确定对该行动对象的不同追踪策略,并采用该追踪策略对该行动对象进行追踪。由于对行动对象进行追踪的追踪策略是根据行动对象的人体状态确定的,而不同的人体状态采用不同的追踪策略,因此有利于提高行动对象追踪的精度。
本申请实施例还提供一种芯片,上述芯片包括至少一个处理器,存储器和接口电路,上述存储器、上述收发器和上述至少一个处理器通过线路互联,上述至少一个存储器中存储有计算机程序;上述计算机程序被上述处理器执行时,图1、图3、图4、图5中任一所示的方法流程得以实现。
本申请实施例还提供一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,图1、图3、图4、图5中任一所示的方法流程得以实现。
本申请实施例还提供一种计算机程序产品,当上述计算机程序产品在计算机上运行时,图1、图3、图4、图5中任一所示的方法流程得以实现。
应理解,本申请实施例中提及的处理器可以是中央处理单元(CentralProcessing Unit, CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器 (Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM) 和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
需要说明的是,当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)集成在处理器中。
应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
还应理解,本文中涉及的第一、第二、第三、第四以及各种数字编号仅为描述方便进行的区分,并不用来限制本申请的范围。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所示方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种行动对象追踪方法,其特征在于,包括:
确定第一检测框中的第一行动对象的人体状态,其中,所述第一检测框是通过对当前帧图像进行行动对象检测而得到,所述人体状态包括全身可见、上半身可见和仅人脸可见;
根据所述第一行动对象的人体状态确定追踪策略,并采用所述追踪策略对所述第一行动对象进行追踪。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一行动对象的人体状态确定追踪策略,并采用所述追踪策略对所述第一行动对象进行追踪,包括:
若所述第一行动对象的人体状态为全身可见,则采用基于人体的轻量级行动对象重识别模型对所述第一行动对象进行追踪;
若所述第一行动对象的人体状态为上半身可见,则采用光流算法对所述第一行动对象进行追踪;
若所述第一行动对象的人体状态为仅人脸可见,则采用基于人脸的轻量级行动对象重识别模型对所述第一行动对象进行追踪。
3.根据权利要求2所述的方法,其特征在于,所述采用基于人体的轻量级行动对象重识别模型对所述第一行动对象进行追踪,包括:
采用所述基于人体的轻量级行动对象重识别模型对所述第一检测框进行特征提取以得到第一人体特征,以及采用所述基于人体的轻量级行动对象重识别模型对预测框进行特征提取以得到第二人体特征,其中,所述预测框是通过在所述当前帧图像中对第二行动对象进行轨迹预测而得到,所述第二行动对象为前一帧图像中的行动对象;
计算所述第一人体特征与所述第二人体特征的第一距离,以及计算所述第一检测框和所述预测框之间的第二距离;
根据所述第一距离、所述第二距离和预设超参数计算第一代价矩阵;
根据所述第一检测框、所述预测框和所述第一代价矩阵确定所述第一行动对象与所述第二行动对象是否关联。
4.根据权利要求3所述的方法,其特征在于,在所述根据所述第一检测框、所述预测框和所述第一代价矩阵确定所述第一行动对象与所述第二行动对象是否关联之前,所述方法还包括:
计算所述第一人体特征与所述第二人体特征的第三距离;
根据所述第三距离确定所述第一行动对象与所述第二行动对象是否关联。
5.根据权利要求3或4所述的方法,其特征在于,在所述根据所述第一检测框、所述预测框和所述第一代价矩阵确定所述第一行动对象与所述第二行动对象是否关联之前,所述方法还包括:
计算所述第一检测框和所述预测框之间的第一交并比;
根据所述第一交并比确定所述第一行动对象与所述第二行动对象是否关联。
6.根据权利要求2所述的方法,其特征在于,所述采用光流算法对所述第一行动对象进行追踪,包括:
从第二检测框中获取刚体区域,其中,所述第二检测框是通过对前一帧图像进行行动对象检测而得到,所述刚体区域为第二行动对象的左肩、右肩、颈椎、左腰和右腰的最小外接矩形框,所述第二行动对象为所述第二检测框中的行动对象;
将所述刚体区域划分成k×k个图像块,其中,所述k为正整数;
从所述k×k个图像块中的每个图像块中提取一个特征点,以得到k×k个第一特征点;
根据所述k×k个第一特征点采用光流算法在所述当前帧图像中确定k×k个第二特征点;
根据所述k×k个第二特征点在所述当前帧图像中得到预测框;
根据所述第一检测框和所述预测框确定第二代价矩阵;
根据所述第一检测框、所述预测框和所述第二代价矩阵确定所述第一行动对象与所述第二行动对象是否关联。
7.根据权利要求2所述的方法,其特征在于,所述采用基于人脸的轻量级行动对象重识别模型对所述第一行动对象进行追踪,包括:
从所述第一检测框中获取所述第一行动对象的第一人脸检测框,以及从预测框中获取第一人脸预测框,其中,所述预测框是通过在所述当前帧图像中对第二行动对象进行轨迹预测而得到,所述第二行动对象为前一帧图像中的行动对象;
采用所述基于人脸的轻量级行动对象重识别模型对所述第一人脸检测框进行特征提取以得到第一人脸特征,以及采用所述基于人脸的轻量级行动对象重识别模型对所述第一人脸预测框进行特征提取以得到第二人脸特征;
计算所述第一人脸检测框和所述第一人脸预测框之间的第二交并比;
根据所述第一人脸特征、所述第二人脸特征和所述第二交并比确定所述第一行动对象与所述第二行动对象是否关联。
8.一种行动对象追踪装置,其特征在于,包括:
确定单元,用于确定第一检测框中的第一行动对象的人体状态,其中,所述第一检测框是通过对当前帧图像进行行动对象检测而得到,所述人体状态包括全身可见、上半身可见和仅人脸可见;
追踪单元,用于根据所述第一行动对象的人体状态确定追踪策略,并采用所述追踪策略对所述第一行动对象进行追踪。
9.一种电子设备,其特征在于,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011427225.7A CN112884804A (zh) | 2020-12-09 | 2020-12-09 | 行动对象追踪方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011427225.7A CN112884804A (zh) | 2020-12-09 | 2020-12-09 | 行动对象追踪方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112884804A true CN112884804A (zh) | 2021-06-01 |
Family
ID=76043426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011427225.7A Pending CN112884804A (zh) | 2020-12-09 | 2020-12-09 | 行动对象追踪方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112884804A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114419580A (zh) * | 2021-12-27 | 2022-04-29 | 北京百度网讯科技有限公司 | 障碍物关联方法、装置、电子设备及存储介质 |
US20230154223A1 (en) * | 2021-11-18 | 2023-05-18 | Realtek Semiconductor Corp. | Method and apparatus for person re-identification |
US12125306B2 (en) * | 2021-11-18 | 2024-10-22 | Realtek Semiconductor Corp. | Method and apparatus for person re-identification |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09249083A (ja) * | 1996-03-15 | 1997-09-22 | Toshiba Corp | 移動体識別装置および方法 |
CN102819849A (zh) * | 2012-08-28 | 2012-12-12 | 湘潭大学 | 基于外观约束双阶段优化的人体上半身三维运动跟踪方法 |
CN110046534A (zh) * | 2018-01-15 | 2019-07-23 | 山东师范大学 | 基于多视角图结构模型的人体目标再识别方法及装置 |
CN111815674A (zh) * | 2020-06-23 | 2020-10-23 | 浙江大华技术股份有限公司 | 一种目标跟踪方法、装置以及计算机可读存储装置 |
US20200349704A1 (en) * | 2018-01-23 | 2020-11-05 | SZ DJI Technology Co., Ltd. | Control method and device for mobile platform, and computer readable storage medium |
-
2020
- 2020-12-09 CN CN202011427225.7A patent/CN112884804A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09249083A (ja) * | 1996-03-15 | 1997-09-22 | Toshiba Corp | 移動体識別装置および方法 |
CN102819849A (zh) * | 2012-08-28 | 2012-12-12 | 湘潭大学 | 基于外观约束双阶段优化的人体上半身三维运动跟踪方法 |
CN110046534A (zh) * | 2018-01-15 | 2019-07-23 | 山东师范大学 | 基于多视角图结构模型的人体目标再识别方法及装置 |
US20200349704A1 (en) * | 2018-01-23 | 2020-11-05 | SZ DJI Technology Co., Ltd. | Control method and device for mobile platform, and computer readable storage medium |
CN111815674A (zh) * | 2020-06-23 | 2020-10-23 | 浙江大华技术股份有限公司 | 一种目标跟踪方法、装置以及计算机可读存储装置 |
Non-Patent Citations (2)
Title |
---|
JIN, PEIFEN, LIU, PEIXUE, CHENG, XIAOFEI: "Safety for pedestrian recognition in sensor networks based on visual compressive sensing and adaptive prediction clustering", SAFETY SCIENCE, vol. 117, 17 September 2020 (2020-09-17) * |
杨楠;杨莘;杜能: "基于DRN和Faster R-CNN融合模型的行为识别算法", 计算机应用研究, vol. 36, no. 10, 16 January 2020 (2020-01-16) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230154223A1 (en) * | 2021-11-18 | 2023-05-18 | Realtek Semiconductor Corp. | Method and apparatus for person re-identification |
US12125306B2 (en) * | 2021-11-18 | 2024-10-22 | Realtek Semiconductor Corp. | Method and apparatus for person re-identification |
CN114419580A (zh) * | 2021-12-27 | 2022-04-29 | 北京百度网讯科技有限公司 | 障碍物关联方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108470332B (zh) | 一种多目标跟踪方法及装置 | |
CN111062263B (zh) | 手部姿态估计的方法、设备、计算机设备和存储介质 | |
CN113313763B (zh) | 一种基于神经网络的单目相机位姿优化方法及装置 | |
CN108960211A (zh) | 一种多目标人体姿态检测方法以及系统 | |
CN110991261A (zh) | 交互行为识别方法、装置、计算机设备和存储介质 | |
CN111104925B (zh) | 图像处理方法、装置、存储介质和电子设备 | |
CN112651291B (zh) | 基于视频的姿势估计方法、装置、介质及电子设备 | |
CN113807361B (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
CN111914756A (zh) | 一种视频数据处理方法和装置 | |
CN110516559B (zh) | 适用于精准监控的目标跟踪方法及装置、计算机设备 | |
CN114677633B (zh) | 基于多部件特征融合的行人检测多目标跟踪系统及方法 | |
CN112634369A (zh) | 空间与或图模型生成方法、装置、电子设备和存储介质 | |
CN114049512A (zh) | 模型蒸馏方法、目标检测方法、装置及电子设备 | |
CN112634368A (zh) | 场景目标的空间与或图模型生成方法、装置及电子设备 | |
WO2022206680A1 (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN112101195A (zh) | 人群密度预估方法、装置、计算机设备和存储介质 | |
CN109214324A (zh) | 基于多相机阵列的最正脸图像输出方法及输出系统 | |
CN115345905A (zh) | 目标对象跟踪方法、装置、终端及存储介质 | |
CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
CN113706481A (zh) | 精子质量检测方法、装置、计算机设备和存储介质 | |
CN113570530A (zh) | 图像融合方法、装置、计算机可读存储介质和电子设备 | |
CN113256683B (zh) | 目标跟踪方法及相关设备 | |
Li et al. | Time-spatial multiscale net for vehicle counting and traffic volume estimation | |
Wang et al. | Object counting in video surveillance using multi-scale density map regression | |
CN111753766A (zh) | 一种图像处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |