CN112668487B

CN112668487B - 一种基于身体重合度与人体相似性相融合的老师跟踪方法

Info

Publication number: CN112668487B
Application number: CN202011608163.XA
Authority: CN
Inventors: 王全强; 王瀚峥; 库浩华
Original assignee: Hangzhou Chingan Technology Co ltd
Current assignee: Hangzhou Chingan Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-05-27
Anticipated expiration: 2040-12-29
Also published as: CN112668487A

Abstract

本发明提供一种基于身体重合度与人体相似性相融合的老师跟踪方法，可以在有外因干扰的情况下，准确无误地进行老师跟踪。本发明包括如下步骤：步骤一，使用yolov3神经网络进行人头框检测，并将人头框扩充为人体框；步骤二，通过人体框重合度与相似度进行人体框跟踪；步骤三，控制PTZ模块对目标跟踪：通过步骤一和步骤二，摄像机得到了一个确切的老师目标，接下来控制PTZ模块让云台转动起来，使老师目标实时居中即可达到老师跟踪的效果。

Description

一种基于身体重合度与人体相似性相融合的老师跟踪方法

技术领域

本发明涉及一种基于身体重合度与人体相似性相融合的老师跟踪方法，用在视频教育用摄像机领域。

背景技术

在视频教育的应用场景中，依赖边缘计算的AI摄像机逐渐走进国内外市场，它通常拥有多种内嵌算法如老师跟踪，学生起立检测等。这些算法的目的是在摄像机工作过程中给与视频观看者一种更合理的更符合逻辑的呈现方式，在老师跟踪的场景下，老师运动时摄像机会自动的转动云台，产生的图像里时刻保持着老师的位置居中，而在学生起立检测的场景下，每当有学生起立发言，摄像机会自动捕捉这个事件，通过转动云台推动变倍镜头的方式，给与发言学生一个特写。此类算法往往成为摄像机基本功能上的一个加分项，而在某些特定的产品设计方案下它也要作为一个必备功能，比如教室宽度超过8米，镜头拍摄的水平角度有限，无法拍全整个画面的时候，其就成为一个必备功能。

在当今人工智能技术发展迅猛的情况下，解决教育资源不足使得AI摄像机在视频教育领域有着举足轻重的作用。在此环境中，更关注围绕人实现的一些神经网络算法，人脸人头人体检测，学生/老师行为分析，学生/老师跟踪等一系列算法。老师跟踪算法是本发明关注的算法，一种以往的做法是用1颗变焦镜头l1加上1颗定焦镜头l2的方案来实现，通常用户看到的输出视频是由l1产生的，而在系统内l2主要负责产生并且输送给算法输入图像i，利用高斯混合模型(GMM)运动检测算法提取出所有前景运动像素点P＝GMM(l2→i)，连接相邻运动像素点并把大面积区域独立成矩形框，在时间序列上匹配矩形框达到一个跟踪的效果，需要假设：1)假设老师第一个走上讲台，2)假设老师一定会运动，3)假设走上讲台的学生不会影响老师，基于这三个假设l2的算法才会发挥它的作用，否则效果会变的非常不理想。l2算法开始工作后，侦测到移动目标即开始跟踪，同时进行ptz (Pan/Tilt/Zoom，意为：云台全方位(左右/上下)移动及镜头变倍、变焦控制)操作控制l1给老师一个特写画面。此类算法与三个假设强相关，这样会带来一些限制和瓶颈，突破这三个假设是本发明要解决的第一个难题。

对于上述算法的实现逻辑来说，首先GMM做运动检测的效果并不是很理想，噪点，光照，物体移动速度都会让GMM无法输出正确结果，其次，前景运动像素点需要通过图像形态学开运算之后，运用相邻点连接的逻辑确定矩形框，用来代表运动的人体框，凌乱的前景运动像素点会导致矩形框在时间序列上时大时小，偶尔还会分离成多个框，进而导致时序上框体匹配的失效，设备内的跟踪算法也就失效了。这是本发明要解决的第二个难题。

发明内容

本发明的目的在于克服现有技术中存在的上述不足，而提供一种结构设计合理的基于身体重合度与人体相似性相融合的老师跟踪方法，可以在有外因干扰的情况下，准确无误地进行老师跟踪。

本发明解决上述问题所采用的技术方案是：一种基于身体重合度与人体相似性相融合的老师跟踪方法，其特征在于：包括如下步骤：

步骤一，使用yolov3神经网络进行人头框检测，并将人头框扩充为人体框，包括如下步骤：

1)首先使用yolov3神经网络进行人头框检测，得到人头框集合H＝{h₁,h₂,...,h_n}，其中人头框

为该人头框左上角坐标点，

为该人头框右下角坐标点；

2)将人头框h扩充为人体框b，b＝[x_min,x_max,y_min,y_max]^T,其中x_min,x_max,y_min,y_max计算为：

θ₁,θ₂,θ₃,θ₄代表左上角与右下角坐标点各自的横纵坐标延伸距离；进而得到人体框集合 B＝{b₁,b₂,...,b_n}

步骤二，通过人体框重合度与相似度进行人体框跟踪，包括如下步骤：

1)初步跟踪，计算两个人体框面积的交并比IOU，得到人体框重合度fun(r)：

当交并比IOU的值r≥阈值thd时，表示两个人体框重叠，设fun(r)＝1；当交并比IOU 的值r＜阈值thd时，表示两个人体框不重叠，设fun(r)＝0；

2)提取当前帧所有人体框的Reid特征；

3)计算相似度纠正跟踪目标：首先根据步骤一得到当前帧人体框集合，根据步骤二2) 提取当前帧每个人体框的reid特征，然后利用历史跟踪目标集合，附加历史每个跟踪目标的一系列Reid特征，重复下列步骤对目标进行纠正与跟踪：

31)将当前帧的所有人体框b,与历史跟踪目标中的一个目标依次计算交并比IOU,得到所有人体框b与老师人体框g匹配成功的数量集合G；

32)当集合G内元素的数量等于0，代表无目标IOU匹配成功，跳过下列步骤；

33)当集合G内元素的数量等于1，代表存在1个目标匹配成功，即为老师，并跳过下列步骤；

34)当集合G内元素的数量大于1，首先整理集合G内指向的所有人体框b的Reid特征f_b，分别计算f_b与老师人体框的Reid特征f_g之间的欧氏距离d,计算出的d值即代表人体框b与老师人体框g的人体框相似度，找到平均最小的d对应的人体框b就是老师目标；

35)重复31)-34)直到所有的人体框b与所有的历史目标判断完毕；

步骤三，控制PTZ模块对目标跟踪：通过步骤一和步骤二，摄像机得到了一个确切的老师目标，接下来控制PTZ模块让云台转动起来，使老师目标实时居中即可达到老师跟踪的效果。

本发明步骤三中，所述的PTZ模块的控制方式为：计算T的中心点，同时计算此中心点与画面中心点距离，控制PTZ模块，尽量地缩小中心点间的距离即可。

本发明所述的扩充人体框使用的θ₁,θ₂,θ₃,θ₄是通过观测与经验获得。

本发明所述的阈值thd是通过观测与经验获得。

本发明步骤二2)中，设f为一个目标某一时刻提取的Reid特征：

f＝reid(b)∈R²⁵⁶，

其中reid()代表Reid特征函数，把人体框b输入函数内，Reid特征函数会把框内人体像素点抽象成为一个256维实数向量，用来代表b在这一时刻的人体特征。

本发明所述的集合

本发明所述的欧氏距离

其中M代表老师人体框g在历史时序中提取出的M个Reid特征，256代表256维特征数量。

本发明与现有技术相比，具有以下优点和效果：

1、在教室环境里，学生坐在课桌内，老师站在讲台后方，无论对于老师还是学生来说，他们绝大多数时间只把一小部分身体暴露给摄像机，这无疑给检测，识别，分类，行为分析等一系列任务增加难度。本发明利用人头检测进而扩充为人体框的方式替代直接的进行人体检测，因为上述场景下人体检测的难度和算法运行效果远低于人头检测的效果，这种做法在老师跟踪算法内解决了讲台遮挡老师身体的问题。想象一个场景，老师在讲台上讲课，一位同学到黑板上做题，他们很大可能进行一次身体交叉，概率上可知此次交叉有50％的概率导致设备由老师跟踪变为学生跟踪，算法出错，为了解决这一难题，本发明会依赖之前扩充的人体框，既计算老师和学生历史的跟踪信息与当前帧检测的人体目标重叠度，又计算当前帧老师目标与学生目标人体的重叠度，来进行人体框匹配与跟踪。值得一提的是，重叠度通常是指计算IOU(交并比)。

2、近年Reid神经网络算法在人体跟踪领域有较大应用，它输入长宽比固定的图像，输出固定维度的人体特征，通常用来表征上述人体检测框的特征特点。Reid神经网络算法的训练与优化不在本发明中探讨，本发明把它当作一个黑盒工具使用。本发明把人体框输入给Reid，得到一系列人体特征向量，与重叠度融合的方式是，当重叠度大于一定阈值，Reid匹配开始进行，当老师与学生目标完全分离，又进入一个Reid特征迭代积攒的过程中。

3、实现边缘计算。

4、在算力有限的iot产品内实现实时的老师跟踪。

4、高准确率的老师跟踪。

5、提出人体重叠度与人体框相似度相融合的概念。

6、在有遮挡，人物交叉，人物背身，强光逆光，老师下讲台，老师长时间无动作等一系列强干扰的情况下，依然可以保证算法运行的效果。

7、算法实现鲁棒性好，可靠性高，可扩展性强，可维护性高。

具体实施方式

下面通过实施例对本发明作进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

本发明实施例包括如下步骤：

步骤一，使用yolov3神经网络进行人头框检测，并将人头框扩充为人体框，其中人体框是矩形的。具体包括如下步骤：

1)首先使用yolov3神经网络进行人头框检测，得到人头框集合H：

H＝yolov3(l2→i)，

其中yolov3是一个代表人头检测算法的函数，l2→i表示定焦镜头l2产生了图像i。

H＝{h₁,h₂,...,h_n}，其中人头框

并且

为该人头框左上角坐标点，

为该人头框右下角坐标点，T代表矩阵的转置。

2)将人头框h扩充为人体框b，b＝[x_min,x_max,y_min,y_max]^T,x_min,x_max,y_min,y_max计算为：

T代表矩阵的转置，θ₁,θ₂,θ₃,θ₄代表左上角与右下角坐标点各自的横纵坐标延伸距离，θ₁,θ₂,θ₃,θ₄是通过观测与经验获得。进而得到人体框集合B＝{b₁,b₂,...,b_n}。

步骤二，使用步骤一中扩充的人体框，在时序上用计算前后帧人体框重合度的方式来达到初步跟踪的目的，但是对于多人密集的场景，某一帧内就存在多处人体框重叠的情况，如果再进行前后帧人体框匹配，很容易出现错误跟踪，导致跟踪目标混乱，因此通过人体框重合度与相似度进行人体框跟踪来纠正这种错误，步骤如下：

1)初步跟踪，计算IOU，得到人体框重合度fun(r)，IOU的值既两个人体框面积的交集和并集的比值r：

其中b₁,b₂分别代表两个人体框面积；

当r≥阈值thd时，表示两个人体框重叠，设fun(r)＝1；当r＜阈值thd时，表示两个人体框不重叠，设fun(r)＝0；阈值thd是通过观测与经验获得。

2)提取当前帧所有人体框的Reid特征；设f为一个目标某一时刻提取Reid特征：

f＝reid(b)∈R²⁵⁶，

31)当前帧的所有b,与历史跟踪目标中的一个目标(假设历史目标有多位学生和一位老师，当前目标为老师人体框g)依次计算IOU,得到

参照步骤二1)，fun(r)函数为0时不重叠，1时重叠，其中g代表老师人体框，集合G代表所有b与老师g匹配成功的数量，即所有b与g计算是否重叠时，fun(r)＝1的目标数量。

33)当集合G内元素的数量等于1，代表存在1个目标匹配成功，即为老师，更新老师人体框，更新Reid特征，其中Reid特征是每隔一定帧数更新一次，具体是每跟踪3帧更新一次Reid特征，并跳过下列步骤；

34)当集合G内元素的数量大于1，首先整理G内指向的所有b的Reid特征f_b，分别计算f_b与老师g的Reid特征f_g之间的欧氏距离，有：

其中M代表老师g在历史时序中提取出的M个Reid特征，本实施例中，所述的M的取值是6，代表每个历史跟踪目标最多维护6个Reid特征；256代表256维特征数量，公式计算出的d值即代表b与g的人体框相似度，利用计算d的公式，找到平均最小的d对应的b就是老师目标，更新老师人体框，更新Reid特征，其中Reid特征是每隔一定帧数更新一次，具体是每跟踪3帧更新一次Reid特征；

35)重复31)-34)直到所有的b与所有的历史目标判断完毕。

步骤三，控制PTZ模块对目标跟踪：

通过步骤一和步骤二，摄像机得到了一个确切的老师目标T，接下来控制PTZ(Pan/Tilt/Zoom，意为：云台全方位(左右/上下)移动及镜头变倍、变焦控制)模块让云台转动起来，使老师目标实时居中即可达到老师跟踪的效果。PTZ模块的控制方式为：计算T的中心点，同时计算此中心点与画面中心点距离，平滑地控制PTZ模块，尽量地缩小中心点间的距离即可。

此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所作的举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。