CN112597801B - 一种录播系统中教师检测与跟踪方法及系统 - Google Patents
一种录播系统中教师检测与跟踪方法及系统 Download PDFInfo
- Publication number
- CN112597801B CN112597801B CN202011327994.XA CN202011327994A CN112597801B CN 112597801 B CN112597801 B CN 112597801B CN 202011327994 A CN202011327994 A CN 202011327994A CN 112597801 B CN112597801 B CN 112597801B
- Authority
- CN
- China
- Prior art keywords
- detection
- teacher
- layer
- image
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000012937 correction Methods 0.000 claims abstract description 19
- 238000001914 filtration Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 239000013589 supplement Substances 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 210000000988 bone and bone Anatomy 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 108010001267 Protein Subunits Proteins 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000011895 specific detection Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000016776 visual perception Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000035945 sensitivity Effects 0.000 abstract description 3
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明的一种录播系统中教师检测与跟踪方法及系统,包括以下步骤:S100、通过固定在教室后方的摄像头获取教师上课的场景图像,并对图像进行预处理;S200、对预处理的图像进行缩放;S300、把缩放后的图像放入到训练好的教师检测网络进行检测,初步获取目标的坐标点;S400、获取的目标点通过目标检测模块的修正与补充最终送入云台进行控制跟踪。本发明采用卷积网络作为老师特征的提取,能够克服运动检测方法对光线敏感性,提高目标的检测率,与常见的检测网络相比,能够更好的平衡复杂度与精准度之间的关系,采用卡尔曼滤波处理,不仅能修正检测的目标,还能解决运动模糊带来的目标丢失的问题。
Description
技术领域
本发明涉及运动检测技术领域,具体涉及一种录播系统中教师检测与跟踪方法及系统。
背景技术
随着教育和科技的发展,传统的语音教育已经不能满足教育方式多元化的需要。教师进行课堂教育教学方式越来越追求可视化,学生通过课堂学习能力要求探究合作化,然而对于这些问题要求的实现,很大程度上要借助于现代化的信息管理技术基础设施,特别是课堂实践教学的可视化。
现有可使用的技术主要是基于运动检测的方法和模式识别的方法。基于运动检测的方法主要是采用背景建模等方法确定目标区域,然后基于特征来检测行人,这种方法最大的缺点是特别容易受到光线的干扰,检测出错误的目标;基于模式识别的方法主要是采用人工设计的特征,经过少量样本的训练然后用分类器进行分类,典型的组合是HOG特征和SVM分类器结合,这种方法在识别人这种非刚性的物体时精准度也不高。
随着人工智能的发展,基于深度学习的方法广泛应用到目标检测与识别任务,其中最具代表性的有YOLO、SSD等端到端的检测网络,这些网络基于图像的检测精准度高,但是在视频处理时由于运动模糊的原因检测率会降低,并且网络计算复杂度高。
发明内容
本发明提出的一种录播系统中教师检测与跟踪方法及系统,是在保证教师检测准确率的情况下,降低检测模型的复杂度,并使用卡尔曼滤波对坐标进行校正和预测。
为实现上述目的,本发明采用了以下技术方案:
包括以下步骤:
S100、通过固定在教室后方的摄像头获取教师上课的场景图像,并对图像进行预处理;
S200、对预处理的图像进行缩放;
S300、把缩放后的图像放入到训练好的教师检测网络进行检测,初步获取目标的坐标点;
S400、获取的目标点通过目标检测模块的修正与补充最终送入云台进行控制跟踪。
进一步的,所述S100中的对图像进行预处理为对图像做高斯滤波预处理操作。
进一步,所述S300中的训练好的教师检测网络,其中网络架构包含两个部分:backbone和Extra Layers;
backbone部分是对浅层特征的提取,所述backbone后面加入了RFB模块,RFB是一个多分支的卷积块,内部结构包含两部分:一、不同卷积核尺度的多分支卷积,用于模拟多尺度的人眼感受野;二、虫洞卷积操作,用于模拟人类视觉感知中感受野尺度与离心率间的关系;
其中多分支结构,具体地:先1 × 1 卷积降低特征图的通道数,在每个分支上形成BottleNeck结构,再接n × n 卷积;把5×5 卷积替换为两个堆叠的3×3 卷积,不仅降低了参数量,也增加了模型的非线性能力,并进一步使用1 × n + n × 1 卷积替换n ×n 卷积,增加shortcut设计;其次通过虫洞卷积来模拟人眼感受野,具体地,每个分支的常规卷积操作后,连接一个dilates 卷积层,模拟人眼感受野的尺度与离心率。
进一步,S300中的教师检测网络整个网络的构建包含三个基本操作:basicConv层、池化层MaxPool2d、RFB层;
basicConv层又包含三个基本操作:卷积层conv2d、批归一化层BatchNorm2d、激活层ReLU;
Backbone部分由4层basicConv和MaxPool2d组合而成;
输入图像通过第一层basicConv得到128×300×300的特征图,然后通过MaxPool2d把特征图处理成128×150×150,然后依次通过第二层、第三层basicConv和MaxPool2d的组合处理得到128×38×38的特征图;
Extra Layers部分由RFB层和五层basicConv组合而成;
经过RFB处理后得到一个抽头F1,然后依次经过五层basicConv得到64×1×1的特征图并且分别得到五个抽头F2、F3、F4、F5、F6,最终把六个抽头送到检测层进行检测与定位。
进一步的,RFB模块划分成三个部分:一个分支结构、shortcut模块、激活单元ReLU;
其中,分支结构首先通过三个1×1的basicConv操作,在每个分支下分别接不同的卷积处理,最左边的一个分支连接一个3×3的basicConv操作后使用rate=1的空洞处理;中间一个分支依次经过两个3×3的basicConv操作后使用rate=3的空洞处理;右边一个分支依次经过5×5和3×3的basicConv操作后使用rate=5的空洞处理,三个分支最终通过连接处理接一个1×1的basicConv操作;
shortcut模块就是在最右边的分支1×1的basicConv操作后与分支结构的处理结果连接送入到ReLU层进行处理。
进一步的,所述训练好的教师检测网络的训练步骤如下:
(c1)收集老师课堂场景图片,按照COCO或者VOC格式对图像进行标注;
(c2)把图片按照3:1:1分成训练集、测试集、验证集;
(c3)利用Pytorch搭建设计好的网络结构;
(c4)调节学习率、批大小、训练次数这些超参数;
(c5)得到收敛后的网络权重文件。
进一步的,所述S300中的把缩放后的图像放入到训练好的教师检测网络进行检测,其中具体检测步骤如下:
利用前向推理网络加载训练好的权重文件;把输入图像scale变换为300*300的大小送入检测网络;检测网络逐层提取特征并在Detection Conv Layers 层给出目标的坐标位置及该目标的可能性得分;该得分跟预先设定的阈值0.6进行比较,如果大于0.6则判定该目标是老师并返回坐标位置,如果该得分小于0.6判定为没有目标。
进一步的,所述S400中的预测模块采用卡尔曼滤波算法,卡尔曼滤波算法包括预测与校正两个阶段;
在预测阶段,滤波器使用上一状态的估计,做出对当前状态的预测;
在校正阶段,滤波器利用对当前状态的观测值修正在预测阶段获得的预测值,以获得一个更接进真实值的新估计值;
其中,卡尔曼滤波器计算过程如下:
预测:
校正:
更新协方差估计:
其中,表示真实值,/>表示卡尔曼估计值,/>表示预测值,/>表示卡尔曼估计误差协方差矩阵,/>表示预测误差协方差矩阵,/>表示卡尔曼增益,/>表示测量余量,/>表示测量向量,/>表示状态转移矩阵,/>表示控制矩阵,/>表示控制向量,/>表示测量矩阵。
另一方面,一种录播系统中教师检测与跟踪系统,包括以下单元,
图像采集模块,用于通过固定在教室后方的摄像头获取教师上课的场景图像,并对图像进行预处理;
图像缩放模块,用于对预处理的图像进行缩放;
教师检测模块,把缩放后的图像放入到训练好的教师检测网络进行检测,初步获取目标的坐标点;
云台控制模块,用于获取的目标点通过目标检测模块的修正与补充最终送入云台进行控制跟踪。
进一步的,包括以下子单元,
目标预测模块,用于在预测阶段使滤波器使用上一状态的估计,做出对当前状态的预测;
在校正阶段,使滤波器利用对当前状态的观测值修正在预测阶段获得的预测值,以获得一个更接进真实值的新估计值。
由上述技术方案可知,本发明的录播系统中教师检测与跟踪方法具有以下有益效果:
1)、本发明采用卷积网络作为老师特征的提取,能够克服运动检测方法对光线敏感性,提高目标的检测率。
2)、与常见的检测网络相比,能够更好的平衡复杂度与精准度之间的关系。
3)、采用卡尔曼滤波处理,不仅能修正检测的目标,还能解决运动模糊带来的目标丢失的问题。
附图说明
图1是本发明方法的流程示意图;
图2是本发明的教师检测的网络结构示意图;
图3是本发明的RFB模块结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
如图1所示,本实施例所述的录播系统中教师检测与跟踪方法,包括:
通过固定在教室后方的摄像头获取教师上课的场景图像,并对图像进行预处理;对预处理的图像进行缩放;把缩放后的图像放入到训练好的教师检测网络进行检测,初步获取目标的坐标点;获取的目标点通过目标检测模块的修正与补充最终送入云台进行控制。
其中,
(a)图像采集模块
采集教室中老师上课场景的图像,并对图像做高斯滤波预处理操作。
(b)图像缩放模块
采集设备获取图像的分辨率大小为4K,要通过插值方法对图像进行缩放。
(c)教师检测模块
面对复杂的场景,多变的形态,行人检测仍然是一项具有挑战性的工作。目前深度学习方法展现了在视觉检测任务中的优秀表现,但是这些方法很难在实时性及精准度之间取得良好的平衡。特别是在视频处理中,由于运动的模糊性,给行人检测任务增加了难度。
本发明借鉴SSD的检测框架,结合RFB模块设计出教师检测的网络结构,如图2所示;
网络架构主要包含两个部分:backbone和Extra Layers。backbone部分是对浅层特征的提取,这一部分的设计一般都是采用现有的网络设计,在此基础上进行微调,但是这样设计的网络不够灵活,一旦修改backbone的结构,从头训练的代价比较高,而且很难收敛。本设计在加入了RFB模块之后,可以对backbone部分通道进行裁减,而且从头开始训练很容易收敛。
整个网络的backbone部分是图中虚线箭头的部分,该部分是对SSD框架的backbone部分进行裁减,把通道数裁减为128,大大减小了计算复杂度。为了应对backbone的改变带来的收敛难的问题,在backbone后面加入了RFB模块,RFB模块结构如图3所示:
RFB模块受启发于人类视觉的感受野结构,将人眼感受野的尺度、离心率纳入考虑范围,不使用计算量大、层数深的主干网,即使通过轻量级的网络结构,也能提取到高判别性的特征;
RFB是一个多分支的卷积块,内部结构包含两部分:一、不同卷积核尺度的多分支卷积,用于模拟多尺度的人眼感受野;二、空洞卷积操作,用于模拟人类视觉感知中感受野尺度与离心率间的关系;
具体的说,图2所示的教师检测的网络结构,整个网络的构建包含三个基本操作:basicConv层、池化层(MaxPool2d)、RFB层。basicConv层又包含三个基本操作:卷积层(conv2d)、批归一化层(BatchNorm2d)、激活层(ReLU)。
Backbone部分由4层basicConv和MaxPool2d组合而成。输入图像通过第一层basicConv得到128×300×300的特征图,然后通过MaxPool2d把特征图处理成128×150×150,然后依次通过第二层、第三层basicConv和MaxPool2d的组合处理得到128×38×38的特征图。
Extra Layers部分由RFB层和五层basicConv组合而成。RFB层如图三介绍,经过RFB处理后得到一个抽头F1,然后依次经过五层basicConv得到64×1×1的特征图并且分别得到五个抽头F2、F3、F4、F5、F6。最终把六个抽头送到检测层进行检测与定位。
整个网络的构建包含三个基本操作:basicConv层、池化层(MaxPool2d)、RFB层。basicConv层又包含三个基本操作:卷积层(conv2d)、批归一化层(BatchNorm2d)、激活层(ReLU)。
Backbone部分由4层basicConv和MaxPool2d组合而成。输入图像通过第一层basicConv得到128×300×300的特征图,然后通过MaxPool2d把特征图处理成128×150×150,然后依次通过第二层、第三层basicConv和MaxPool2d的组合处理得到128×38×38的特征图。
Extra Layers部分由RFB层和五层basicConv组合而成。RFB层如图三介绍,经过RFB处理后得到一个抽头F1,然后依次经过五层basicConv得到64×1×1的特征图并且分别得到五个抽头F2、F3、F4、F5、F6。最终把六个抽头送到检测层进行检测与定位。
RFB模块如图三所示,可划分成三个部分:一个分支结构、shortcut模块、激活单元(ReLU)。
分支结构首先通过三个1×1的basicConv操作,在每个分支下分别接不同的卷积处理。最左边的一个分支连接一个3×3的basicConv操作后使用rate=1的空洞处理;中间一个分支依次经过两个3×3的basicConv操作后使用rate=3的空洞处理;右边一个分支依次经过5×5和3×3的basicConv操作后使用rate=5的空洞处理。三个分支最终通过连接处理接一个1×1的basicConv操作。
shortcut模块就是在最右边的分支1×1的basicConv操作后与分支结构的处理结果连接送入到ReLU层进行处理。
教师检测模块是训练好的,它的产生主要包含以下步骤:
(c1)收集老师课堂场景图片,按照COCO或者VOC格式对图像进行标注;
(c2)把图片按照3:1:1分成训练集、测试集、验证集;
(c3)利用Pytorch搭建设计好的网络结构;
(c4)调节学习率、批大小、训练次数等超参数;
(c5)得到收敛后的网络权重文件。
具体检测步骤:利用前向推理网络加载训练好的权重文件;把输入图像scale变换为300*300的大小送入检测网络;检测网络逐层提取特征并在Detection Conv Layers 层给出目标的坐标位置及该目标的可能性得分;该得分跟预先设定的阈值0.6进行比较,如果大于0.6则判定该目标是老师并返回坐标位置,如果该得分小于0.6判定为没有目标。
(d)目标预测模块
当老师在上课移动的过程中会出现两种情况,一,由于老师是一种非刚体物体,使用教师检测模块检测出来的目标位置中心点会偏离;二,由于老师在运动过程中造成的运动模糊,会出现检测不到的情况。这两种情况分别会造成特写镜头的偏离与丢失,为了解决这两个问题,加入了目标预测模块。
目标预测模块采用卡尔曼滤波算法,卡尔曼滤波估计实际由两个过程组成:预测与校正,在预测阶段,滤波器使用上一状态的估计,做出对当前状态的预测。在校正阶段,滤波器利用对当前状态的观测值修正在预测阶段获得的预测值,以获得一个更接进真实值的新估计值。
卡尔曼滤波器计算过程如下:
预测:
校正:
更新协方差估计:
其中,表示真实值,/>表示卡尔曼估计值,/>表示预测值,/>表示卡尔曼估计误差协方差矩阵,/>表示预测误差协方差矩阵,/>表示卡尔曼增益,/>表示测量余量,表示测量向量,/>表示状态转移矩阵,/>表示控制矩阵,/>表示控制向量,/>表示测量矩阵。
在实际应用场景中,会有两种状态:一,老师在运动过程中,检测器检测到目标时,卡尔曼滤波器会预测当前帧的状态,然后用最新检测出来的状态来更新当前预测的状态,来获取最佳的检测位置;二,老师在运动过程中,检测器并未检测到目标,此时卡尔曼滤波会完全依赖之前的状态更新当前的检测状态。
(e)云台控制模块
经过预测模块得到的坐标最终发送给相机,相机通过VISCA协议控制云台转动,实现对老师的跟踪。
在使用时,教师检测与跟踪系统包括以下模块:
(1)图像采集单元,利用架设在教室后端的云台摄像机获取教师上课的场景图像并把图像送入图像缩放单元;
(2)图像缩放单元,根据设计好的检测网络,把上课的场景图像缩放到网络所需要的输入大小并把图像送入教师检测单元;
(3)教师检测单元,加载好预训练好的权重文件,根据权重参数与网络结构描述,提取老师特征并进行分类与定位,获取教师的坐标位置并把该坐标位置送入目标预测单元;
(4)目标预测单元,教师检测单元获取的初步位置通过卡尔曼滤波处理,得到修正后的目标位置并送入到云台控制单元;
(5)云台控制单元,根据目标的位置对云台进行控制,达到教师跟踪的目的。
由上可知,本发明采用卷积网络作为老师特征的提取,能够克服运动检测方法对光线敏感性,提高目标的检测率,与常见的检测网络相比,能够更好的平衡复杂度与精准度之间的关系,采用卡尔曼滤波处理,不仅能修正检测的目标,还能解决运动模糊带来的目标丢失的问题。
另一方面,一种录播系统中教师检测与跟踪系统,包括以下单元,
图像采集模块,用于通过固定在教室后方的摄像头获取教师上课的场景图像,并对图像进行预处理;
图像缩放模块,用于对预处理的图像进行缩放;
教师检测模块,把缩放后的图像放入到训练好的教师检测网络进行检测,初步获取目标的坐标点;
云台控制模块,用于获取的目标点通过目标检测模块的修正与补充最终送入云台进行控制跟踪。
进一步的,包括以下子单元,
目标预测模块,用于在预测阶段使滤波器使用上一状态的估计,做出对当前状态的预测;
在校正阶段,使滤波器利用对当前状态的观测值修正在预测阶段获得的预测值,以获得一个更接进真实值的新估计值。
可理解的是,本发明实施例提供的系统与本发明实施例提供的方法相对应,相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种录播系统中教师检测与跟踪方法,其特征在于:
包括以下步骤:
S100、通过固定在教室后方的摄像头获取教师上课的场景图像,并对图像进行预处理;
S200、对预处理的图像进行缩放;
S300、把缩放后的图像放入到训练好的教师检测网络进行检测,初步获取目标的坐标点;
S400、获取的目标点通过目标检测模块的修正与补充最终送入云台进行控制跟踪;
所述S300中的训练好的教师检测网络,其中网络架构包含两个部分:backbone和ExtraLayers;
backbone部分是对浅层特征的提取,所述backbone后面加入了RFB模块,RFB是一个多分支的卷积块,内部结构包含两部分:一、不同卷积核尺度的多分支卷积,用于模拟多尺度的人眼感受野;二、虫洞卷积操作,用于模拟人类视觉感知中感受野尺度与离心率间的关系;
其中多分支结构,具体地:先1 × 1 卷积降低特征图的通道数,在每个分支上形成BottleNeck结构,再接n × n 卷积;把5×5 卷积替换为两个堆叠的3×3 卷积,不仅降低了参数量,也增加了模型的非线性能力,并进一步使用1 × n + n × 1 卷积替换n × n卷积,增加shortcut设计;其次通过虫洞卷积来模拟人眼感受野,具体地,每个分支的常规卷积操作后,连接一个dilates 卷积层,模拟人眼感受野的尺度与离心率;
S300中的教师检测网络整个网络的构建包含三个基本操作:basicConv层、池化层MaxPool2d、RFB层;
basicConv层又包含三个基本操作:卷积层conv2d、批归一化层BatchNorm2d、激活层ReLU;
Backbone部分由四层basicConv和MaxPool2d组合而成;
输入图像通过第一层basicConv得到128×300×300的特征图,然后通过MaxPool2d把特征图处理成128×150×150,然后依次通过第二层、第三层basicConv和MaxPool2d的组合处理得到128×38×38的特征图;
Extra Layers部分由RFB层和五层basicConv组合而成;
经过RFB处理后得到一个抽头F1,然后依次经过五层basicConv得到64×1×1的特征图并且分别得到五个抽头F2、F3、F4、F5、F6,最终把六个抽头送到检测层进行检测与定位。
2.根据权利要求1所述的录播系统中教师检测与跟踪方法,其特征在于:所述S100中的对图像进行预处理为对图像做高斯滤波预处理操作。
3.根据权利要求1所述的录播系统中教师检测与跟踪方法,其特征在于:
RFB模块划分成三个部分:一个分支结构、shortcut模块、激活单元ReLU;
其中,分支结构首先通过三个1×1的basicConv操作,在每个分支下分别接不同的卷积处理,最左边的一个分支连接一个3×3的basicConv操作后使用rate=1的空洞处理;中间一个分支依次经过两个3×3的basicConv操作后使用rate=3的空洞处理;右边一个分支依次经过5×5和3×3的basicConv操作后使用rate=5的空洞处理,三个分支最终通过连接处理接一个1×1的basicConv操作;
shortcut模块就是在最右边的分支1×1的basicConv操作后与分支结构的处理结果连接送入到ReLU层进行处理。
4.根据权利要求1所述的录播系统中教师检测与跟踪方法,其特征在于:所述训练好的教师检测网络的训练步骤如下:
(c1)收集老师课堂场景图片,按照COCO或者VOC格式对图像进行标注;
(c2)把图片按照3:1:1分成训练集、测试集、验证集;
(c3)利用Pytorch搭建设计好的网络结构;
(c4)调节学习率、批大小、训练次数这些超参数;
(c5)得到收敛后的网络权重文件。
5.根据权利要求1所述的录播系统中教师检测与跟踪方法,其特征在于:所述S300中的把缩放后的图像放入到训练好的教师检测网络进行检测,其中具体检测步骤如下:
利用前向推理网络加载训练好的权重文件;把输入图像scale变换为300*300的大小送入检测网络;检测网络逐层提取特征并在Detection Conv Layers 层给出目标的坐标位置及该目标的可能性得分;该得分跟预先设定的阈值0.6进行比较,如果大于0.6则判定该目标是老师并返回坐标位置,如果该得分小于0.6判定为没有目标。
6.根据权利要求1所述的录播系统中教师检测与跟踪方法,其特征在于:所述S400中的预测模块采用卡尔曼滤波算法,卡尔曼滤波算法包括预测与校正两个阶段;
在预测阶段,滤波器使用上一状态的估计,做出对当前状态的预测;
在校正阶段,滤波器利用对当前状态的观测值修正在预测阶段获得的预测值,以获得一个更接进真实值的新估计值;
其中,卡尔曼滤波器计算过程如下:
预测:
校正:
更新协方差估计:
其中,表示真实值,/>表示卡尔曼估计值,/>表示预测值,/>表示卡尔曼估计误差协方差矩阵,/>表示预测误差协方差矩阵,/>表示卡尔曼增益,/>表示测量余量,/>表示测量向量,/>表示状态转移矩阵,/>表示控制矩阵,/>表示控制向量, />表示测量矩阵。
7.一种录播系统中教师检测与跟踪系统,用于实现权利要求1-6任意一项所述的录播系统中教师检测与跟踪方法,其特征在于:包括以下单元,
图像采集模块,用于通过固定在教室后方的摄像头获取教师上课的场景图像,并对图像进行预处理;
图像缩放模块,用于对预处理的图像进行缩放;
教师检测模块,把缩放后的图像放入到训练好的教师检测网络进行检测,初步获取目标的坐标点;
云台控制模块,用于获取的目标点通过目标检测模块的修正与补充最终送入云台进行控制跟踪。
8.根据权利要求7所述一种录播系统中教师检测与跟踪系统,其特征在于:包括以下子单元,
目标预测模块,用于在预测阶段使滤波器使用上一状态的估计,做出对当前状态的预测;
在校正阶段,使滤波器利用对当前状态的观测值修正在预测阶段获得的预测值,以获得一个更接进真实值的新估计值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011327994.XA CN112597801B (zh) | 2020-11-24 | 2020-11-24 | 一种录播系统中教师检测与跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011327994.XA CN112597801B (zh) | 2020-11-24 | 2020-11-24 | 一种录播系统中教师检测与跟踪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112597801A CN112597801A (zh) | 2021-04-02 |
CN112597801B true CN112597801B (zh) | 2023-08-01 |
Family
ID=75183671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011327994.XA Active CN112597801B (zh) | 2020-11-24 | 2020-11-24 | 一种录播系统中教师检测与跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597801B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814242A (zh) * | 2010-04-13 | 2010-08-25 | 天津师范大学 | 教师讲课的运动目标实时跟踪录课装置 |
CN107909598A (zh) * | 2017-10-28 | 2018-04-13 | 天津大学 | 一种基于进程间通信的运动目标检测与跟踪方法 |
CN110246180A (zh) * | 2019-05-17 | 2019-09-17 | 福州瑞芯微电子股份有限公司 | 一种基于深度学习的教师位置检测方法及系统 |
CN110659664A (zh) * | 2019-08-02 | 2020-01-07 | 杭州电子科技大学 | 一种基于ssd的高精度识别小物体的方法 |
CN111476219A (zh) * | 2020-06-02 | 2020-07-31 | 苏州科技大学 | 智能家居环境中图像目标检测方法 |
CN111967287A (zh) * | 2019-05-20 | 2020-11-20 | 江苏金鑫信息技术有限公司 | 一种基于深度学习的行人检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170018110A1 (en) * | 2015-07-15 | 2017-01-19 | Siemens Product Lifecycle Management Software Inc. | Walk simulation system and method |
JP6974697B2 (ja) * | 2017-05-26 | 2021-12-01 | 富士通株式会社 | 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム |
-
2020
- 2020-11-24 CN CN202011327994.XA patent/CN112597801B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814242A (zh) * | 2010-04-13 | 2010-08-25 | 天津师范大学 | 教师讲课的运动目标实时跟踪录课装置 |
CN107909598A (zh) * | 2017-10-28 | 2018-04-13 | 天津大学 | 一种基于进程间通信的运动目标检测与跟踪方法 |
CN110246180A (zh) * | 2019-05-17 | 2019-09-17 | 福州瑞芯微电子股份有限公司 | 一种基于深度学习的教师位置检测方法及系统 |
CN111967287A (zh) * | 2019-05-20 | 2020-11-20 | 江苏金鑫信息技术有限公司 | 一种基于深度学习的行人检测方法 |
CN110659664A (zh) * | 2019-08-02 | 2020-01-07 | 杭州电子科技大学 | 一种基于ssd的高精度识别小物体的方法 |
CN111476219A (zh) * | 2020-06-02 | 2020-07-31 | 苏州科技大学 | 智能家居环境中图像目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112597801A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108986140B (zh) | 基于相关滤波和颜色检测的目标尺度自适应跟踪方法 | |
CN112883819A (zh) | 多目标跟踪方法、装置、系统及计算机可读存储介质 | |
CN113177515B (zh) | 一种基于图像的眼动追踪方法和系统 | |
CN110163211B (zh) | 一种图像识别方法、装置和存储介质 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN109087261A (zh) | 基于非受限采集场景的人脸矫正方法 | |
CN112102201B (zh) | 图像阴影反光消除方法、装置、计算机设备及存储介质 | |
CN107948586B (zh) | 基于视频拼接的跨区域运动目标检测方法和装置 | |
CN111652887A (zh) | 图像分割模型训练方法、装置、计算机设备及存储介质 | |
CN111797733A (zh) | 一种基于图像的行为识别方法、装置、设备和存储介质 | |
CN113111804B (zh) | 一种人脸检测的方法、装置、电子设备及存储介质 | |
CN113706579A (zh) | 一种基于工厂化养殖的对虾多目标跟踪系统及方法 | |
CN108364305A (zh) | 基于改进型dsst的车载摄像视频目标跟踪方法 | |
CN113780201A (zh) | 手部图像的处理方法及装置、设备和介质 | |
CN114596584A (zh) | 海洋生物智能检测识别方法 | |
CN116152928A (zh) | 基于轻量级人体姿态估计模型的防溺水预警方法和系统 | |
CN115496891A (zh) | 一种小麦倒伏程度分级方法和装置 | |
CN113393385B (zh) | 基于多尺度融合的无监督去雨方法、系统、装置及介质 | |
CN109241893B (zh) | 基于人工智能技术的道路选择方法、装置及可读存储介质 | |
CN106295458A (zh) | 基于图像处理的眼球检测方法 | |
CN112597801B (zh) | 一种录播系统中教师检测与跟踪方法及系统 | |
CN113723187A (zh) | 手势关键点的半自动标注方法及系统 | |
CN110210314B (zh) | 人脸检测方法、装置、计算机设备及存储介质 | |
CN114898447A (zh) | 一种基于自注意力机制的个性化注视点检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |