CN107066975B - 基于深度传感器的视频识别与跟踪系统及其方法 - Google Patents

基于深度传感器的视频识别与跟踪系统及其方法 Download PDF

Info

Publication number
CN107066975B
CN107066975B CN201710250374.2A CN201710250374A CN107066975B CN 107066975 B CN107066975 B CN 107066975B CN 201710250374 A CN201710250374 A CN 201710250374A CN 107066975 B CN107066975 B CN 107066975B
Authority
CN
China
Prior art keywords
area
speaker
audience
matrix
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710250374.2A
Other languages
English (en)
Other versions
CN107066975A (zh
Inventor
卢荣胜
卢奉宇
宋磊
胡晓光
李耀帅
刘国磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201710250374.2A priority Critical patent/CN107066975B/zh
Publication of CN107066975A publication Critical patent/CN107066975A/zh
Application granted granted Critical
Publication of CN107066975B publication Critical patent/CN107066975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Abstract

本发明公开了一种基于深度传感器的视频识别与跟踪系统及其方法,其特征包括:云台相机控制模块、跟踪模块、识别模块、录制模块;并应用于由n+1个深度传感器、两台云台相机、一台主机以及n台从机所组成的教室环境中;在主讲人区的周围放置一台深度传感器,在主讲人区和听众区之间的上方分别放置两台云台相机,其中,一台云台相机朝向主讲人区方向,另一台云台相机朝向听众区方向,在听众区的两侧分别均匀布置剩余n个深度传感器并分别与n台从机相对应。本发明能实现自动识别主讲人的运动并进行跟踪,同时,对听众区进行监视,自动识别与主讲人互动的听众并自动进行切换,从而实现全自动化的课堂和会议录制。

Description

基于深度传感器的视频识别与跟踪系统及其方法
技术领域
本发明涉及视频录制领域,具体地说涉及一种基于深度传感器的视频识别与跟踪系统及其方法。
背景技术
目前国内外对课程及会议进行摄像的方法,大多数是直接请摄影师进行拍摄。或者是在教室安装固定的摄像头进行拍摄。委托摄影师在课堂及会议上录制不但耗费人力物力资源,而且会转移听众的注意力,影响效果。即当前的视频录制存在自动化程度不足的问题。
传统的单摄像头跟踪目标的方法如光流法,时间差分法,或高斯背景建模法针对人物进行跟踪具有抗噪声性能差,易混淆前景与背景,易跟踪错误的目标,难以应用于全帧视频流的实时处理等问题。且采用多目摄像头进行三维空间数据采集需要复杂的算法对数据进行合成计算,实时性不高。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于深度传感器的视频识别与跟踪系统及其方法,以期能实现自动识别主讲人的运动并进行跟踪,同时,对听众区进行监视,自动识别与主讲人互动的听众并自动进行切换,从而实现全自动化的课堂和会议录制。
本发明为解决技术问题采用如下技术方案:
本发明一种基于深度传感器的视频识别与跟踪系统的特点是应用于由n+1个深度传感器、两台云台相机、一台主机以及n台从机所组成的教室环境中;所述教室环境分为主讲人区和听众区;所述主讲人区是从讲台至黑板之间的范围;所述听众区为听众所有座位的范围;在所述主讲人区的周围放置一台深度传感器,记为1号传感器;在所述主讲人区和听众区之间的上方分别放置两台云台相机,其中,一台云台相机朝向主讲人区方向,记为主讲人区的云台相机,另一台云台相机朝向听众区方向,记为听众区的云台相机;在听众区的两侧分别均匀布置剩余n个深度传感器并分别与所述n台从机相对应;
所述视频识别与跟踪系统设置在所述主机上,并包括:云台相机控制模块、跟踪模块、识别模块、录制模块;
所述1号传感器获取主讲人区的深度数据并提取相应的人物数据后发送给所述主机;
所述主机上的识别模块对所提取的人物数据利用骨骼提取方法进行处理,得到骨骼数据,并提取所述骨骼数据的头部坐标点;
所述云台相机控制模块控制所述跟踪模块利用所述主讲人区的云台相机对所述头部坐标点进行全程跟踪,并通过所述录制模块进行录制;
在t时刻令n个深度传感器各自采集听众区的深度数据,并相应发送给各自的从机进行处理,得到t时刻的n个点云数据集,任意一台从机作为监控从机获取其他从机发送的t时刻的n-1个点云数据集并进行计算,得到听众区t时刻的平面矩阵D(t);初始化μ=1;
在第μ次的Δt时间间隔后,监控从机再次得到听众区的t+μ×Δt时刻的平面矩阵D(t+μ×Δt);根据所述t时刻的平面矩阵D(t+(μ-1)×Δt)和t+μ×Δt时刻的平面矩阵D(t+μ×Δt),判断所述监测区域中是否有目标站起,若有目标站起,则计算目标站立者的坐标并返回给主机;并将μ+1赋值给μ,用于获得下一时刻的平面矩阵并判断目标站立者是否坐下;若没有目标站起,则直接将μ+1赋值给μ,用于获得下一时刻的平面矩阵并判断目标站立者是否站起;
若所述主机接收到所述目标站立者的坐标后,通过所述云台相机控制模块控制所述跟踪模块利用所述听众区的云台相机对所述目标站立者进行全程跟踪,并通过所述录制模块进行录制;同时,切断所述主讲人区的云台相机的录制,从而使得所述录制模块所录制的内容能互相衔接;
若所述监控从机发现目标站立者坐下,则发送切换信号给主机;
所述主机根据所述切换信号,切断所述听众区的云台相机,并恢复所述主讲人区的云台相机对主讲人区的录制,从而使得所述录制模块所录制的内容能再次互相衔接。
本发明一种基于深度传感器的视频识别与跟踪方法的特点是应用于由n+1个深度传感器、两台云台相机、一台主机以及n台从机所组成的教室环境中;所述主讲人环境分为主讲人区和听众区;所述主讲人区是从讲台至黑板之间的范围;所述听众区为听众所有座位的范围;在所述主讲人区的周围放置一台深度传感器,记为1号传感器;在所述主讲人区和听众区之间的上方分别放置两台云台相机,其中,一台云台相机朝向主讲人区方向,记为主讲人区的云台相机,另一台云台相机朝向听众区方向,记为听众区的云台相机;在听众区的两侧分别均匀布置剩余n个深度传感器并分别与所述n台从机相对应;所述视频识别与跟踪方法是按如下步骤进行:
步骤1、所述1号传感器获取主讲人区的深度数据并提取相应的人物数据后发送给所述主机;
步骤2、所述主机对所提取的人物数据利用骨骼提取方法进行处理,得到骨骼数据后,再提取所述骨骼数据的头部坐标点;
步骤3、所述主机利用所述主讲人区的云台相机对所述头部坐标点进行全程跟踪和录制;
步骤4、将所述教室环境抽象为一个矩形空间,以所述矩形空间的任意一个顶点作为原点O,与所原点O相连的三条边分别作为X轴,Y轴和Z轴,所述Z轴垂直于地面,从而建立世界坐标系O-XYZ;在所述教室环境的听众区的空间中划分一个监控区域;
步骤5、在t时刻令n个深度传感器在各自坐标系下采集听众区的深度数据并相应发送给各自的从机进行处理,得到t时刻的n个点云数据集,记为{K1(t),K2(t),…,Ki(t),…,Kn(t)};Ki(t)表示t时刻第i个深度传感器所获得的点云数据;并有Ki(t)={ki1(t),ki2(t),…,kij(t),…,kim(t)},kij(t)表示t时刻第i个点云数据的第j个数据点;
步骤6、将在t时刻第i个点云数据的第j个数据点kij转换到世界坐标系下,得到t时刻世界坐标系下的第i个点云数据的第j个数据点wij(t),从而得到t时刻世界坐标系下的第i个点云数据Wi(t)={wi1(t),wi2(t),…,wij(t),…,wim(t)};
步骤7、在t时刻所述世界坐标系下的第i个点云数据Wi(t)中删除处于所述监控区域外的点云数据,并保留在所述监控区域内的点云数据,从而得到t时刻在所述监控区域内的第i个点云数据Wi′(t);
步骤8、任意一台从机作为监控从机获取其他从机发送的t时刻n-1个监控区域内的点云数据集并进行合并,得到t时刻总的点云数据集P(t)={W1′(t),W2′(t),…,Wi′(t),…,Wn′(t)};
步骤9、将所述t时刻总的点云数据集P(t)中的所有数据点投影到世界坐标系中的XOY平面上,得到t时刻二维点集P2d(t);
步骤10、将监控区域向世界坐标系中的XOY平面进行投影,得到的平面记为Pw;将所述平面Pw中与世界坐标系的原点O距离最近的点的坐标记为(x0,y0,0);
步骤11、将所述平面Pw划分为R×S个网格,每个网格的长度记为len,宽度记为wid,并统计每个网格中的t时刻二维点的数量,将t时刻第a行第b列网格中的二维点数量记为dab(t)并作为分布矩阵中第a行第b列的元素值,从而得到分布矩阵D(t);
步骤12、定义时间间隔为Δt,定义变量为μ和η,并初始化μ=1;η=1;
步骤13、在第μ次的Δt时间间隔后,按照步骤5-步骤11获得第μ次的Δt时间间隔后的分布矩阵D(t+μ×Δt);
计算差值矩阵ΔD(t+μ×Δt)=|D(t+μ×Δt)-D(t+(μ-1)×Δt)|;将所述差值矩阵ΔD(t+μ×Δt)中的第a行第b列的元素记为Δdab(t+μ×Δt);
步骤14、建立一个与分布矩阵D(t+μ×Δt)大小相同的矩阵Temp(η),将所述矩阵Temp(η)中的第a行第b列的元素记为tempab(η),并利用式(1)获得第a行第b列的元素tempab(η),从而得到矩阵Temp(η):
式(1)中,Const表示阈值;
步骤15、对所述矩阵Temp(η)进行膨胀运算,得到膨胀处理后的矩阵Temp′(η),所述矩阵Temp′(η)中第a行第b列的元素记为temp′ab(η);
步骤16、建立一个与分布矩阵D(t+μ×Δt)大小相同的矩阵Γ(t+μ×Δt),将所述矩阵Γ(t+μ×Δt)中的第a行第b列的元素记为τab(t+μ×Δt),并利用式(2)获得第a行第b列的元素τab(t+μ×Δt),从而得到矩阵Γ(t+μ×Δt):
步骤17、利用式(3)获得矩阵Γ(t+μ×Δt)中所有元素进行求和,得到求和结果sum(t+μ×Δt):
步骤18、判断sum(t+μ×Δt)>Th是否成立,若成立,则表示在所述监控区域内有人站起,并执行步骤19;否则,表示在所述监控区域内无人站起;并将μ+1赋值给μ后,返回步骤13;Th为阈值;
步骤19、利用式(4)和式(5)获得在所述监控区域内在第μ次的Δt时间间隔的站立者位置的初步坐标
步骤20、利用式(6)和式(7)获得在所述监控区域内第μ次的Δt时间间隔的站立者位置的实际坐标并作为目标站立者的坐标发送给所述主机:
步骤21、所述主机接收到所述目标点后,利用所述听众区的云台相机对所述目标点进行全程跟踪和录制;同时,切断所述主讲人区的云台相机的录制,从而使得所述录制的内容能互相衔接;
步骤22、将μ+1赋值给μ后,按照步骤5-步骤11获得第μ次的Δt时间间隔后的分布矩阵D(t+μ×Δt);
步骤23、建立一个与分布矩阵D(t+μ×Δt)大小相同的矩阵Γ(t+μ×Δt),将所述矩阵Γ(t+μ×Δt)中的第a行第b列的元素记为τab(t+μ×Δt),并利用式(8)获得第a行第b列的元素τab(t+μ×Δt),从而得到矩阵Γ(t+μ×Δt):
步骤24、利用式(9)对矩阵Γ(t+μ×Δt)中所有元素进行求和,得到求和结果sum(t+μ×Δt):
步骤25、若sum(t+μ×Δt)<Th'成立,则表示目标站立者已坐下,并发送切换信号给所述主机;其中Th'为所测阈值;否则,返回步骤22;
步骤26、所述主机根据所述切换信号,切断所述听众区的云台相机,并恢复所述主讲人区的云台相机对主讲人区的录制,从而使得所述录制模块所录制的内容再次能互相衔接;
步骤27、将μ+1赋值给μ,将η+1赋值给η后,返回步骤13。
与现有技术相比,本发明的有益效果在于:
1.本法明基于深度传感器提出的一种结合三维重构技术和计算机视觉技术的跟踪算法和目标识别算法,可以实现对主讲人的自动识别与跟踪并同时对听众区进行监视,实现了自动识别站起与主讲人互动的听众,并自动将画面切换到该听众的位置,解决了当前课堂和会议录制过程中自动化程度不足的缺陷。
2、本发明使用深度传感器进采集数据,克服了传统跟踪的使用单摄像机采集二维数据并利用数字图像处理技术跟踪目标的方法中抗噪声性能差,易混淆前景与背景,易跟踪错误的目标,难以应用于全帧视频流的实时处理等问题,可以极大提高了系统的鲁棒性;同时可以获取目标任务的姿态信息,有利于用于进一步的开发扩展新的功能。
3、本发明提出使用深度传感器恢复出听众区三维信息从而监测听众活动的方法;该方法相比传统的使用双目或多目相机结合计算机视觉技术计算三维信息的方法,极大地提高了程序的运行速度,减少了计算量,同时利用深度传感器相比于相机的价格优势节省了成本。
附图说明
图1是本发明对主讲人所在区域进行跟踪录制的方法的流程图;
图2是本发明对听众所在区域的判断和录制的方法的流程图;
图3是本发明传感器与云台布局的图片。
具体实施方式
本实施例中,一种基于深度传感器的视频识别与跟踪系统,是应用于由n+1个深度传感器、两台云台相机、一台主机以及n台从机所组成的教室环境中;如图3所示,教室环境分为主讲人区和听众区;将教室拆分为两个区域有利于程序的编写,可以分别对主讲人区和听众区同时进行不同的程序操作。主讲人区是从讲台至黑板之间的范围;听众区为听众所有座位的范围;在主讲人区的周围放置一台深度传感器,记为1号传感器,该传感器可以将主讲人的活动范围完全覆盖;在主讲人区和听众区之间的上方分别放置两台云台相机,其中,一台云台相机朝向主讲人区方向,记为主讲人区的云台相机,该云台进行主讲人区域的跟踪与视频录制;另一台云台相机朝向听众区方向,记为听众区的云台相机,该云台进行听众区的跟踪与视频录制;在听众区的两侧分别均匀布置剩余n个深度传感器并分别与n台从机相对应,n台深度传感器进行全听众区域的覆盖,而n台从机则进行n台深度传感器的数据处理以及进一步的运算。比如说,最简单的布置就是一台深度传感器,采集听众区的数据,一台从机进行运算,另一台深度传感器采集主讲人区,两台云台分别朝向主讲人和听众,完成场景搭建;
视频识别与跟踪系统设置在主机上,并包括:云台相机控制模块、跟踪模块、识别模块、录制模块;
如图1所示,1号传感器获取主讲人区的深度数据并提取相应的人物数据后发送给主机,主机上的识别模块对所提取的人物数据利用骨骼提取方法进行处理,得到骨骼数据,并提取骨骼数据的头部坐标点;
云台相机控制模块控制跟踪模块利用主讲人区的云台相机对头部坐标点进行全程跟踪,并通过录制模块进行录制;
如图2所示,在t时刻令n个深度传感器各自采集听众区的深度数据,并相应发送给各自的从机进行处理,得到t时刻的n个点云数据集,任意一台从机作为监控从机获取其他从机发送的t时刻的n-1个点云数据集并进行计算,得到听众区t时刻的平面矩阵D(t);初始化μ=1;
在第μ次的Δt时间间隔后,监控从机再次得到听众区的t+μ×Δt时刻的平面矩阵D(t+μ×Δt);根据t时刻的平面矩阵D(t+(μ-1)×Δt)和t+μ×Δt时刻的平面矩阵D(t+μ×Δt),判断监测区域中是否有目标站起,若有目标站起,则计算目标站立者的坐标并返回给主机;并将μ+1赋值给μ,用于获得下一时刻的平面矩阵并判断目标站立者是否坐下;若没有目标站起,则直接将μ+1赋值给μ,用于获得下一时刻的平面矩阵并判断目标站立者是否站起;
若主机接收到目标站立者的坐标后,通过云台相机控制模块控制跟踪模块利用听众区的云台相机对目标站立者进行全程跟踪,并通过录制模块进行录制;同时,切断主讲人区的云台相机的录制,从而使得录制模块所录制的内容能互相衔接;
若监控从机发现目标站立者坐下,则发送切换信号给主机;
主机根据切换信号,切断听众区的云台相机,并恢复主讲人区的云台相机对主讲人区的录制,从而使得录制模块所录制的内容能再次互相衔接。
本实施例中,一种基于深度传感器的视频识别与跟踪系统,是应用于由n+1个深度传感器、两台云台相机、一台主机以及n台从机所组成的教室环境中;如图3所示,教室环境分为主讲人区和听众区;将教室拆分为两个区域有利于程序的编写,可以分别对主讲人区和听众区同时进行不同的程序操作。主讲人区是从讲台至黑板之间的范围;听众区为听众所有座位的范围;在主讲人区的周围放置一台深度传感器,记为1号传感器,该传感器可以将主讲人的活动范围完全覆盖;在主讲人区和听众区之间的上方分别放置两台云台相机,其中,一台云台相机朝向主讲人区方向,记为主讲人区的云台相机,该云台进行主讲人区域的跟踪与视频录制;另一台云台相机朝向听众区方向,记为听众区的云台相机,该云台进行听众区的跟踪与视频录制;在听众区的两侧分别均匀布置剩余n个深度传感器并分别与n台从机相对应,n台深度传感器进行全听众区域的覆盖,而n台从机则进行n台深度传感器的数据处理以及进一步的运算。比如说,最简单的布置就是一台深度传感器,采集听众区的数据,一台从机进行运算,另一台深度传感器采集主讲人区,两台云台分别朝向主讲人和听众,完成场景搭建;该视频识别与跟踪方法是按如下步骤进行:
步骤1、1号传感器获取主讲人区的深度数据并提取相应的人物数据后发送给主机;
步骤2、主机对所提取的人物数据利用骨骼提取方法进行处理,得到骨骼数据后,再提取骨骼数据的头部坐标点;
步骤3、主机利用主讲人区的云台相机对头部坐标点进行全程跟踪和录制。前三步如图1所示。
步骤4、将教室环境抽象为一个矩形空间,以矩形空间的任意一个顶点作为原点O,与所原点O相连的三条边分别作为X轴,Y轴和Z轴,Z轴垂直于地面,从而建立世界坐标系O-XYZ,这样做可以保证数据转换后每一个点的数据都为正值,便于程序的编写;在教室环境的听众区的空间中划分一个监控区域,划分此监控区域有利于减少数据的数量,加快程序的运行;
步骤5、在t时刻令n个深度传感器在各自坐标系下采集听众区的深度数据并相应发送给各自的从机进行处理,得到t时刻的n个点云数据集,记为{K1(t),K2(t),…,Ki(t),…,Kn(t)};Ki(t)表示t时刻第i个深度传感器所获得的点云数据;并有Ki(t)={ki1(t),ki2(t),…,kij(t),…,kim(t)},kij(t)表示t时刻第i个点云数据的第j个数据点;
步骤6、将在t时刻第i个点云数据的第j个数据点kij转换到世界坐标系下,得到t时刻世界坐标系下的第i个点云数据的第j个数据点wij(t),从而得到t时刻世界坐标系下的第i个点云数据Wi(t)={wi1(t),wi2(t),…,wij(t),…,wim(t)};
步骤7、在t时刻世界坐标系下的第i个点云数据Wi(t)中删除处于监控区域外的点云数据,并保留在监控区域内的点云数据,从而得到t时刻在监控区域内的第i个点云数据Wi′(t)。这个监控区域须根据教室的具体形状确定,可以用以下形式的约束方程组进行描述
其中(x,y,z)为空间中点在世界坐标系下的坐标,N为约束方程的数量。凡是坐标满足以上方程组的点都是所划定的监控区域中的点。
例如当想在教室里划出一个矩形的空间,该空间的下底面距离地面为1米,上底面距地面2米,则我们可以写出方程此时约束方程数量为2即N=2;
或者当想划出一个球形空间,该空间的球心坐标在世界坐标系下为(1,2,3),且半径为1.5米时,我们可以写出约束方程{(x-1)2+(y-2)2+(z-3)2<1.52,此时约束方程数量为1即N=1;
步骤8、任意一台从机作为监控从机获取其他从机发送的t时刻n-1个监控区域内的点云数据集并进行合并,得到t时刻总的点云数据集P(t)={W1′(t),W2′(t),…,Wi′(t),…,Wn′(t)};
步骤9、将t时刻总的点云数据集P(t)中的所有数据点投影到世界坐标系中的XOY平面上,得到t时刻二维点集P2d(t),该过程可以该公式描述
例如则投影后的结果
步骤10、将监控区域向世界坐标系中的XOY平面进行投影,得到的平面记为Pw;将平面Pw中与世界坐标系的原点O距离最近的点的坐标记为(x0,y0,0),这里的x0,y0应当是由使用者对实际场地测量得到的。
步骤11、将平面Pw划分为R×S个网格,每个网格的长度记为len,宽度记为wid,并统计每个网格中的t时刻二维点的数量,将t时刻第a行第b列网格中的二维点数量记为dab(t)并作为分布矩阵中第a行第b列的元素值,从而得到分布矩阵D(t),例如投影后的平面是一个长3米宽2米的矩形,我们令len为1米,wid为1米,则这个区域会被划分为3×2的网格,即R=3,S=2。如果在投影平面上坐标为(2.6,1.3)的位置发现了2个点而其他地方没有点。这个位置是在第2行3列的网格中的,所以生成的分布矩阵
步骤12、定义时间间隔为Δt,定义变量为μ和η,并初始化μ=1;η=1。这里,μ+1代表当前采集的次数。η是检测到有目标站起的次数。
步骤13、在第μ次的Δt时间间隔后,按照步骤5-步骤11获得第μ次的Δt时间间隔后的分布矩阵D(t+μ×Δt);
计算差值矩阵ΔD(t+μ×Δt)=|D(t+μ×Δt)-D(t+(μ-1)×Δt)|;将差值矩阵ΔD(t+μ×Δt)中的第a行第b列的元素记为Δdab(t+μ×Δt);
步骤14、建立一个与分布矩阵D(t+μ×Δt)大小相同的矩阵Temp(η),将矩阵Temp(η)中的第a行第b列的元素记为tempab(η),并利用式(1)获得第a行第b列的元素tempab(η),从而得到矩阵Temp(η):
式(1)中,Const表示阈值;
步骤15、对矩阵Temp(η)进行膨胀运算,得到膨胀处理后的矩阵Temp′(η),矩阵Temp′(η)中第a行第b列的元素记为temp′ab(η)。步骤14到步骤15的目的是标记一个怀疑有目标活动的区域,temp′ab(η)中为1的位置代表该区域是怀疑有人活动的,我们将其称为可疑区域,为0的位置代表我们不感兴趣,称为不感兴趣区域。后续的检查将对temp′ab(η)标记的区域进行,以减小程序的负担和排除一些干扰。
步骤16、建立一个与分布矩阵D(t+μ×Δt)大小相同的矩阵Γ(t+μ×Δt),将矩阵Γ(t+μ×Δt)中的第a行第b列的元素记为τab(t+μ×Δt),并利用式(2)获得第a行第b列的元素τab(t+μ×Δt),从而得到矩阵Γ(t+μ×Δt):
该步骤的作用是利用矩阵Temp′(η)(即我们标记的怀疑有人活动的区域)对分布矩阵D(t)进行过滤。将不感兴趣区域中,即和Temp′(η)中为0的元素位置相同的数据全部舍弃掉。矩阵Γ(t+μ×Δt)为过滤后的分布矩阵。
步骤17、利用式(3)获得矩阵Γ(t+μ×Δt)中所有元素进行求和,得到求和结果sum(t+μ×Δt):
步骤18、判断sum(t+μ×Δt)>Th是否成立,若成立,则表示在监控区域内有人站起,并执行步骤19;否则,表示在监控区域内无人站起;并将μ+1赋值给μ后,返回步骤13;Th为阈值。此步骤的作用是统计可疑区域中点的总数,并将该数值与一个预先设定的阈值进行比较。如果高于该阈值则认为有人站起,反之认为没有人。
步骤19、利用式(4)和式(5)获得在监控区域内在第μ次的Δt时间间隔的站立者位置的初步坐标
步骤20、利用式(6)和式(7)获得在监控区域内第μ次的Δt时间间隔的站立者位置的实际坐标并作为目标站立者的坐标发送给主机:步骤19到20的作用在于在确认有人站起来的情况下进一步计算出这个人在世界坐标系下的具体坐标。以便于我们控制云台相机对其进行拍摄。
步骤21、主机接收到目标点后,利用听众区的云台相机对目标点进行全程跟踪和录制;同时,切断主讲人区的云台相机的录制,从而使得录制的内容能互相衔接;
步骤22、将μ+1赋值给μ后,按照步骤5-步骤11获得第μ次的Δt时间间隔后的分布矩阵D(t+μ×Δt);
步骤23、建立一个与分布矩阵D(t+μ×Δt)大小相同的矩阵Γ(t+μ×Δt),将矩阵Γ(t+μ×Δt)中的第a行第b列的元素记为τab(t+μ×Δt),并利用式(8)获得第a行第b列的元素τab(t+μ×Δt),从而得到矩阵Γ(t+μ×Δt):
步骤24、利用式(9)对矩阵Γ(t+μ×Δt)中所有元素进行求和,得到求和结果sum(t+μ×Δt):
步骤25、若sum(t+μ×Δt)<Th'成立,则表示目标站立者已坐下,并发送切换信号给主机;其中Th'为所测阈值;否则,返回步骤22;步骤23到25表示在确认已经有人站起的情况下我们无需再对分布矩阵进行差分处理,只需要实时监控可疑区域内的点是否已经低于阈值,当低于已经预先设定的阈值之后,我们便认为目标已经坐下,可以将画面切换回主讲人区域。
步骤26、主机根据切换信号,切断听众区的云台相机,并恢复主讲人区的云台相机对主讲人区的录制,从而使得录制模块所录制的内容再次能互相衔接;
步骤27、将μ+1赋值给μ,将η+1赋值给η后,返回步骤13。
综上所述,本发明系统和方法提升了录制系统的自动化程度,录制的准确性,有较好的应用前景。可以作为公司会议录制以及学校公开课视频录制的选择方案。

Claims (2)

1.一种基于深度传感器的视频识别与跟踪系统,其特征是应用于由n+1个深度传感器、两台云台相机、一台主机以及n台从机所组成的教室环境中;所述教室环境分为主讲人区和听众区;所述主讲人区是从讲台至黑板之间的范围;所述听众区为听众所有座位的范围;在所述主讲人区的周围放置一台深度传感器,记为1号传感器;在所述主讲人区和听众区之间的上方分别放置两台云台相机,其中,一台云台相机朝向主讲人区方向,记为主讲人区的云台相机,另一台云台相机朝向听众区方向,记为听众区的云台相机;在听众区的两侧分别均匀布置剩余n个深度传感器并分别与所述n台从机相对应;
所述视频识别与跟踪系统设置在所述主机上,并包括:云台相机控制模块、跟踪模块、识别模块、录制模块;
所述1号传感器获取主讲人区的深度数据并提取相应的人物数据后发送给所述主机;
所述主机上的识别模块对所提取的人物数据利用骨骼提取方法进行处理,得到骨骼数据,并提取所述骨骼数据的头部坐标点;
所述云台相机控制模块控制所述跟踪模块利用所述主讲人区的云台相机对所述头部坐标点进行全程跟踪,并通过所述录制模块进行录制;
在t时刻令n个深度传感器各自采集听众区的深度数据,并相应发送给各自的从机进行处理,得到t时刻的n个点云数据集,任意一台从机作为监控从机获取其他从机发送的t时刻的n-1个点云数据集并进行计算,得到听众区t时刻的平面矩阵D(t);初始化μ=1;
在第μ次的Δt时间间隔后,监控从机再次得到听众区的t+μ×Δt时刻的平面矩阵D(t+μ×Δt);根据t+(μ-1)×Δt时刻的平面矩阵D(t+(μ-1)×Δt)和t+μ×Δt时刻的平面矩阵D(t+μ×Δt),判断监测区域中是否有目标站起,若有目标站起,则计算目标站立者的坐标并返回给主机;并将μ+1赋值给μ,用于获得下一时刻的平面矩阵并判断目标站立者是否坐下;若没有目标站起,则直接将μ+1赋值给μ,用于获得下一时刻的平面矩阵并判断目标站立者是否站起;
若所述主机接收到所述目标站立者的坐标后,通过所述云台相机控制模块控制所述跟踪模块利用所述听众区的云台相机对所述目标站立者进行全程跟踪,并通过所述录制模块进行录制;同时,切断所述主讲人区的云台相机的录制,从而使得所述录制模块所录制的内容能互相衔接;
若所述监控从机发现目标站立者坐下,则发送切换信号给主机;
所述主机根据所述切换信号,切断所述听众区的云台相机,并恢复所述主讲人区的云台相机对主讲人区的录制,从而使得所述录制模块所录制的内容能再次互相衔接。
2.一种基于深度传感器的视频识别与跟踪方法,其特征是应用于由n+1个深度传感器、两台云台相机、一台主机以及n台从机所组成的教室环境中;所述教室环境分为主讲人区和听众区;所述主讲人区是从讲台至黑板之间的范围;所述听众区为听众所有座位的范围;在所述主讲人区的周围放置一台深度传感器,记为1号传感器;在所述主讲人区和听众区之间的上方分别放置两台云台相机,其中,一台云台相机朝向主讲人区方向,记为主讲人区的云台相机,另一台云台相机朝向听众区方向,记为听众区的云台相机;在听众区的两侧分别均匀布置剩余n个深度传感器并分别与所述n台从机相对应;所述视频识别与跟踪方法是按如下步骤进行:
步骤1、所述1号传感器获取主讲人区的深度数据并提取相应的人物数据后发送给所述主机;
步骤2、所述主机对所提取的人物数据利用骨骼提取方法进行处理,得到骨骼数据后,再提取所述骨骼数据的头部坐标点;
步骤3、所述主机利用所述主讲人区的云台相机对所述头部坐标点进行全程跟踪和录制;
步骤4、将所述教室环境抽象为一个矩形空间,以所述矩形空间的任意一个顶点作为原点O,与所原点O相连的三条边分别作为X轴,Y轴和Z轴,所述Z轴垂直于地面,从而建立世界坐标系O-XYZ;在所述教室环境的听众区的空间中划分一个监控区域;
步骤5、在t时刻令n个深度传感器在各自坐标系下采集听众区的深度数据并相应发送给各自的从机进行处理,得到t时刻的n个点云数据集,记为{K1(t),K2(t),…,Ki(t),…,Kn(t)};Ki(t)表示t时刻第i个深度传感器所获得的点云数据;并有Ki(t)={ki1(t),ki2(t),…,kij(t),…,kim(t)},kij(t)表示t时刻第i个点云数据的第j个数据点;
步骤6、将在t时刻第i个点云数据的第j个数据点kij(t)转换到世界坐标系下,得到t时刻世界坐标系下的第i个点云数据的第j个数据点wij(t),从而得到t时刻世界坐标系下的第i个点云数据Wi(t)={wi1(t),wi2(t),…,wij(t),…,wim(t)};
步骤7、在t时刻所述世界坐标系下的第i个点云数据Wi(t)中删除处于所述监控区域外的点云数据,并保留在所述监控区域内的点云数据,从而得到t时刻在所述监控区域内的第i个点云数据Wi′(t);
步骤8、任意一台从机作为监控从机获取其他从机发送的t时刻n-1个监控区域内的点云数据集并进行合并,得到t时刻总的点云数据集P(t)={W1′(t),W′2(t),…,W′i(t),…,W′n(t)};
步骤9、将所述t时刻总的点云数据集P(t)中的所有数据点投影到世界坐标系中的XOY平面上,得到t时刻二维点集P2d(t);
步骤10、将监控区域向世界坐标系中的XOY平面进行投影,得到的平面记为Pw;将所述平面Pw中与世界坐标系的原点O距离最近的点的坐标记为(x0,y0,0);
步骤11、将所述平面Pw划分为R×S个网格,每个网格的长度记为len,宽度记为wid,并统计每个网格中的t时刻二维点的数量,将t时刻第a行第b列网格中的二维点数量记为dab(t)并作为分布矩阵中第a行第b列的元素值,从而得到分布矩阵D(t);
步骤12、定义时间间隔为Δt,定义变量为μ和η,并初始化μ=1;η=1;
步骤13、在第μ次的Δt时间间隔后,按照步骤5-步骤11获得第μ次的Δt时间间隔后的分布矩阵D(t+μ×Δt);
计算差值矩阵ΔD(t+μ×Δt)=|D(t+μ×Δt)-D(t+(μ-1)×Δt)|;将所述差值矩阵ΔD(t+μ×Δt)中的第a行第b列的元素记为Δdab(t+μ×Δt);
步骤14、建立一个与分布矩阵D(t+μ×Δt)大小相同的矩阵Temp(η),将所述矩阵Temp(η)中的第a行第b列的元素记为tempab(η),并利用式(1)获得第a行第b列的元素tempab(η),从而得到矩阵Temp(η):
式(1)中,Const表示阈值;
步骤15、对所述矩阵Temp(η)进行膨胀运算,得到膨胀处理后的矩阵Temp′(η),所述矩阵Temp′(η)中第a行第b列的元素记为temp′ab(η);
步骤16、建立一个与分布矩阵D(t+μ×Δt)大小相同的矩阵Γ(t+μ×Δt),将所述矩阵Γ(t+μ×Δt)中的第a行第b列的元素记为τab(t+μ×Δt),并利用式(2)获得第a行第b列的元素τab(t+μ×Δt),从而得到矩阵Γ(t+μ×Δt):
步骤17、利用式(3)获得矩阵Γ(t+μ×Δt)中所有元素进行求和,得到求和结果sum(t+μ×Δt):
步骤18、判断sum(t+μ×Δt)>Th是否成立,若成立,则表示在所述监控区域内有人站起,并执行步骤19;否则,表示在所述监控区域内无人站起;并将μ+1赋值给μ后,返回步骤13;Th为阈值;
步骤19、利用式(4)和式(5)获得在所述监控区域内在第μ次的Δt时间间隔的站立者位置的初步坐标
步骤20、利用式(6)和式(7)获得在所述监控区域内第μ次的Δt时间间隔的站立者位置的实际坐标并作为目标站立者的坐标发送给所述主机:
步骤21、所述主机接收到所述目标站立者的坐标后,利用所述听众区的云台相机对所述目标站立者的坐标进行全程跟踪和录制;同时,切断所述主讲人区的云台相机的录制,从而使得所述录制的内容能互相衔接;
步骤22、将μ+1赋值给μ后,按照步骤5-步骤11获得第μ次的Δt时间间隔后的分布矩阵D(t+μ×Δt);
步骤23、建立一个与分布矩阵D(t+μ×Δt)大小相同的矩阵Γ(t+μ×Δt),将所述矩阵Γ(t+μ×Δt)中的第a行第b列的元素记为τab(t+μ×Δt),并利用式(8)获得第a行第b列的元素τab(t+μ×Δt),从而得到矩阵Γ(t+μ×Δt):
步骤24、利用式(9)对矩阵Γ(t+μ×Δt)中所有元素进行求和,得到求和结果sum(t+μ×Δt):
步骤25、若sum(t+μ×Δt)<Th'成立,则表示目标站立者已坐下,并发送切换信号给所述主机;其中Th'为所测阈值;否则,返回步骤22;
步骤26、所述主机根据所述切换信号,切断所述听众区的云台相机,并恢复所述主讲人区的云台相机对主讲人区的录制,从而使得所录制的内容再次能互相衔接;
步骤27、将μ+1赋值给μ,将η+1赋值给η后,返回步骤13。
CN201710250374.2A 2017-04-17 2017-04-17 基于深度传感器的视频识别与跟踪系统及其方法 Active CN107066975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710250374.2A CN107066975B (zh) 2017-04-17 2017-04-17 基于深度传感器的视频识别与跟踪系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710250374.2A CN107066975B (zh) 2017-04-17 2017-04-17 基于深度传感器的视频识别与跟踪系统及其方法

Publications (2)

Publication Number Publication Date
CN107066975A CN107066975A (zh) 2017-08-18
CN107066975B true CN107066975B (zh) 2019-09-13

Family

ID=59600827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710250374.2A Active CN107066975B (zh) 2017-04-17 2017-04-17 基于深度传感器的视频识别与跟踪系统及其方法

Country Status (1)

Country Link
CN (1) CN107066975B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918967A (zh) * 2017-12-12 2019-06-21 武汉东信同邦信息技术有限公司 一种基于浅层卷积神经网络的老师姿态识别系统
WO2019206239A1 (en) * 2018-04-27 2019-10-31 Shanghai Truthvision Information Technology Co., Ltd. Systems and methods for detecting a posture of a human object
CN111381606B (zh) * 2018-12-27 2023-07-07 杭州海康威视系统技术有限公司 一种云台控制方法、装置、电子设备及存储介质
CN110390898A (zh) * 2019-06-27 2019-10-29 安徽国耀通信科技有限公司 一种室内、外全彩屏显示控制系统
CN111369671B (zh) * 2020-03-16 2023-11-17 安博思华智能科技有限责任公司 一种调整多媒体黑板的方法、装置、介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038717A (zh) * 2014-06-26 2014-09-10 北京小鱼儿科技有限公司 一种智能录制系统
CN105261039A (zh) * 2015-10-14 2016-01-20 山东大学 一种基于深度图像的自适应调整目标跟踪算法
CN105635712A (zh) * 2015-12-30 2016-06-01 视辰信息科技(上海)有限公司 基于增强现实的视频实时录制方法及录制设备
CN106101734A (zh) * 2016-06-15 2016-11-09 广州科技职业技术学院 互动课堂的视频直播录制方法及系统
CN206021622U (zh) * 2016-07-13 2017-03-15 深圳泰尔智能视控股份有限公司 一种教学录播系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379333A1 (en) * 2014-06-27 2015-12-31 Eric L. Ingram Three-Dimensional Motion Analysis System

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038717A (zh) * 2014-06-26 2014-09-10 北京小鱼儿科技有限公司 一种智能录制系统
CN105261039A (zh) * 2015-10-14 2016-01-20 山东大学 一种基于深度图像的自适应调整目标跟踪算法
CN105635712A (zh) * 2015-12-30 2016-06-01 视辰信息科技(上海)有限公司 基于增强现实的视频实时录制方法及录制设备
CN106101734A (zh) * 2016-06-15 2016-11-09 广州科技职业技术学院 互动课堂的视频直播录制方法及系统
CN206021622U (zh) * 2016-07-13 2017-03-15 深圳泰尔智能视控股份有限公司 一种教学录播系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
3D Video Generation and Service based on a TOF Depth Sensor in MPEG-4 Multimedia Framework;Sung-Yeol Kim et al.;《IEEE Transactions on Consumer Electronics》;20100831;第56卷(第3期);第1730-1738页 *
基于图像识别定位跟踪技术的课件录播系统的设计;王毅 等;《福建电脑》;20121231;第35-37页 *

Also Published As

Publication number Publication date
CN107066975A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
CN107066975B (zh) 基于深度传感器的视频识别与跟踪系统及其方法
CN105448184B (zh) 地图道路的绘制方法及装置
CN104077804B (zh) 一种基于多帧视频图像构建三维人脸模型的方法
CN110458897B (zh) 多摄像头自动标定方法及系统、监控方法及系统
CN100487724C (zh) 一种快速目标识别与定位系统及方法
CN102368810B (zh) 一种半自动化对齐的视频融合系统和方法
CN108337915A (zh) 三维建图方法、装置、系统、云端平台、电子设备和计算机程序产品
CN106097435A (zh) 一种增强现实拍摄系统及方法
CN108154550A (zh) 基于rgbd相机的人脸实时三维重建方法
CN105898107B (zh) 一种目标物体抓拍方法及系统
CN106097348A (zh) 一种三维激光点云与二维图像的融合方法
CN110334701B (zh) 数字孪生环境下基于深度学习和多目视觉的数据采集方法
CN104715479A (zh) 基于增强虚拟的场景复现检测方法
CN108320333A (zh) 场景适应型虚拟现实转换设备和虚拟现实的场景适应方法
CN110598590A (zh) 基于多视角相机的紧密交互人体姿态估计方法及装置
CN109410330A (zh) 一种基于bim技术无人机航拍建模方法
CN110428501A (zh) 全景影像生成方法、装置、电子设备及可读存储介质
CN106022266A (zh) 一种目标跟踪方法及装置
CN110793548A (zh) 基于gnss接收机硬件在环的虚实结合的导航仿真测试系统
JP2021536649A (ja) 対象の検出と追跡のためのビデオ監視システムを構築する方法
CN103986905B (zh) 一种三维环境下基于线路特征的视频空间实时漫游方法
CN110349209A (zh) 基于双目视觉的振捣棒定位方法
CN104199314B (zh) 一种机器人智能仿真测试方法
Zhu et al. Potentials of RGB-D cameras in as-built indoor environment modeling
CN105578173A (zh) 一种快速三维空间投影摄像视觉识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant