CN109918967A

CN109918967A - 一种基于浅层卷积神经网络的老师姿态识别系统

Info

Publication number: CN109918967A
Application number: CN201711317617.6A
Authority: CN
Inventors: 朱志鹏; 沈振冈; 赵幸
Original assignee: Wuhan ETAH Information Technology Co Ltd
Current assignee: Wuhan ETAH Information Technology Co Ltd
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2019-06-21

Abstract

本发明涉及一种基于浅层卷积神经网络的老师姿态识别系统，包括：一双目探测仪，用于采集视频图像，获得场景的深度图点云，并进行深度图像预处理；一卷积神经网络，将经过深度图像预处理后的点云图，导入到卷积神经网络中，进行训练，根据得到的数据集生成参数模型；参数模型加载为新模型，并与双目探测仪采集的现场深度图结合起来，进行姿态识别；人工判断姿态识别效果，若识别结果不够准确，说明训练不够充分，系统手动开始和结束现场训练，训练后，自动重新加载新模型。所述基于浅层卷积神经网络的老师姿态识别系统用于课堂录播环境，检测老师的姿态，进而根据姿态识别的结果，控制相机转动和画面切换，达到较完美的课堂录制效果。

Description

一种基于浅层卷积神经网络的老师姿态识别系统

技术领域

本发明涉及一种老师姿态识别系统，尤其涉及一种基于浅层卷积神经网络的老师姿态识别系统，属于人工智能技术领域。

背景技术

在传统意义上，学校教育是一种封闭式教育方式，即有校园、教室，学生及老师在规定的时间和地点展开相应的教学过程。很多人因为种种限制无法参与到学校的学习过程，所以随着信息通信技术的发展而出现了远程视频教育，而远程视频教育就需要对老师的教学进行课堂录制。

现有的录制方式都是使用传统的基于画面分析的技术，对老师姿态识别的鲁棒性不够好，容易受到环境限制，导致课堂录制效果较差。

因此有必要设计一种基于浅层卷积神经网络的老师姿态识别系统，以克服上述问题。

发明内容

本发明的目的在于克服现有技术之缺陷，提供了一种基于浅层卷积神经网络的老师姿态识别系统，其用于课堂录播环境，检测老师的姿态，进而根据姿态识别的结果，控制相机转动和画面切换，达到较完美的课堂录制效果。

本发明是这样实现的：

本发明提供一种基于浅层卷积神经网络的老师姿态识别系统，包括：

一双目探测仪，用于采集视频图像，获得场景的深度图点云，并进行深度图像预处理；

一卷积神经网络，将经过深度图像预处理后的点云图，导入到卷积神经网络中，进行训练，根据得到的数据集生成参数模型；

参数模型加载为新模型，并与双目探测仪采集的现场深度图结合起来，进行姿态识别；

人工判断姿态识别效果，若识别结果不够准确，说明训练不够充分，系统手动开始和结束现场训练，训练后，自动重新加载新模型。

进一步地，深度图像预处理包括：根据设定的距离范围，自动获得老师目标的点云图，获取轮廓后，保存到指定大小和格式，作为训练图片。

进一步地，卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。

进一步地，在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。

本发明具有以下有益效果：

所述双目探测仪实时采集老师目标的点云图，导入到加载指定模型的卷积神经网络中，进行推理，得出姿态识别的结果；如果识别结果不够准确，说明训练不够充分，系统可以手动开始和结束现场训练，训练后，自动重新加载新模型。所述基于浅层卷积神经网络的老师姿态识别系统用于课堂录播环境，检测老师的姿态，进而根据姿态识别的结果，控制相机转动和画面切换，达到较完美的课堂录制效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的基于浅层卷积神经网络的老师姿态识别系统的卷积操作示意图；

图2为本发明实施例提供的基于浅层卷积神经网络的老师姿态识别系统的池化操作示意图；

图3为本发明实施例提供的基于浅层卷积神经网络的老师姿态识别系统的双目测距的几何原理图；

图4为本发明实施例提供的基于浅层卷积神经网络的老师姿态识别系统的老师姿态样本图；

图5为本发明实施例提供的基于浅层卷积神经网络的老师姿态识别系统的CNN结构图；

图6为本发明实施例提供的基于浅层卷积神经网络的老师姿态识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1至图6，本发明实施例提供一种基于浅层卷积神经网络的老师姿态识别系统，包括：

一双目探测仪，用于采集视频图像，获得场景的深度图点云，并进行深度图像预处理；深度图像预处理包括：根据设定的距离范围，自动获得老师目标的点云图，获取轮廓后，保存到指定大小和格式，作为训练图片。

一卷积神经网络，将经过深度图像预处理后的点云图，导入到卷积神经网络中，进行训练，根据得到的数据集生成参数模型。

参数模型加载为新模型，并与双目探测仪采集的现场深度图结合起来，进行姿态识别。

卷积神经网络CNN(Convolutional Neural Network)包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核，这里的特征平面，举例来说，例如rgb图片，每一个颜色阈都是一个特征名片，红色一个，绿色一个，蓝色一个，每种颜色排成一个矩形。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值(卷积核)带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。子采样也叫做池化(pooling)，通常有均值子采样(mean pooling，小矩形覆盖范围内取均值)和最大值子采样(max pooling，小矩形覆盖范围内取最大值)两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。

卷积示意图如图1所示，左侧是一个特征平面，右侧是一个卷积核，卷积核在特征平面上游走，产生新的特征平面，卷积核就像用来刷墙的刷子。首先在水平方向上用这个刷子进行刷墙，然后再向下移，对下一行进行水平粉刷。当卷积核沿着图像移动的时候，像素值再一次被使用。实际上，这样可以使参数在卷积神经网络中被共享。

有时图像太大，需要减少训练参数的数量，它被要求在随后的卷积层之间周期性地引进池化层。池化的唯一目的是减少图像的空间大小。池化在每一个纵深维度上独自完成，因此图像的纵深保持不变。池化层的最常见形式是最大池化。如图2为池化操作示意图，在这里，把步幅定为2，池化尺寸也为2。最大化执行也应用在每个卷机输出的深度尺寸中。正如你所看到的，最大池化操作后，4*4卷积的输出变成了2*2。

图3为双目测距的几何原理图。双目探测仪主要是利用了目标点在左右两幅视图上成像的横向坐标直接存在的差异(即视差clip_image004)与目标点到成像平面的距离Z存在着反比例的关系：Z＝fT/d。在OpenCV中，f的量纲是像素点，T的量纲由定标板棋盘格的实际尺寸和用户输入值确定，一般是以毫米为单位(当然为了精度提高也可以设置为0.1毫米量级)，d＝xl-xr的量纲也是像素点。因此分子分母约去，Z的量纲与T相同。

双目视觉基本公式为：

假设目标点在左视图中的坐标为(x,y)，在左右视图上形成的视差为d，目标点在以左摄像头光心为原点的世界坐标系中的坐标为(X,Y,Z)，则存在上图所示的变换矩阵Q，使得Q*[x y d 1]’＝[X Y Z W]’。

为了精确地求得某个点在三维空间里的距离Z，需要获得的参数有焦距f、视差d、摄像头中心距Tx。如果还需要获得X坐标和Y坐标的话，那么还需要额外知道左右像平面的坐标系与立体坐标系中原点的偏移cx和cy。其中f,Tx,cx和cy可以通过立体标定获得初始值，并通过立体校准优化，使得两个摄像头在数学上完全平行放置，并且左右摄像头的cx,cy和f相同(也就是实现图中左右视图完全平行对准的理想形式)。而立体匹配所做的工作，就是在之前的基础上，求取最后一个变量：视差d(这个d一般需要达到亚像素精度)。从而最终完成求一个点三维坐标所需要的准备工作。在清楚了上述原理之后，也就知道了，所有的这几步：标定、校准和匹配，都是围绕着如何更精确地获得f,d,Tx,cx和cy而设计的。最终通过双目视觉探测仪，得到的是特征点的点云，进而根据目标距离，可以得到关注的老师目标的深度图像，如图4为本发明实施例提供的基于浅层卷积神经网络的老师姿态识别系统的老师姿态样本图。

卷积神经网络需要大量的数据集，并且网络层数越深，抽象的效果越好，但是容易发生过拟合，并且难于调整参数。本发明采用先验知识，也就是目标深度图像，最大可能的排除了环境的干扰，可以大大降低CNN的网络层数，降低训练难度，提高训练效率，从而达到和深层神经网络相同甚至更好的效果，将双目视觉图像和卷积神经网络技术结合起来，可以说是事半功倍。本发明使用的数据集自带较多先验知识(老师轮廓深度图)，需要的数据集数量小，占用内存小(均为32*32的图片)，可以不依赖GPU进行训练，由于模型层数少，数据小，因此可以在ARM上进行训练，实时更新模型，根据用户反馈自我改进。

由于使用浅层CNN，训练速度很快，不需要使用GPU来加速，普通的ARM即可完成，因此可以将训练过程放在双目探测仪中，这种优势，直接结果是可以实时训练，完善模型。

模型训练过程：本发明的卷积神经网络的结构如图5所示。CNN结构里面：其中3*3的卷积操作里面，包含了relu非线性操作，dropout的功能是每次训练丢弃一半节点，从而方式网络过拟合。双目探测仪采集视频图像，获得场景的深度图点云，根据设定的距离范围，自动获得老师目标的点云图，获取轮廓后，保存到指定大小和格式，作为训练图片。开始训练后，根据数据集生成参数模型。

模型使用过程为：双目探测仪实时采集老师目标的点云图，导入到加载指定模型的CNN网络中，进行推理，得出姿态识别的结果。如果识别结果不够准确，说明训练不够充分，系统可以手动开始和结束现场训练，训练后，自动重新加载新模型。

综上所述，所述基于浅层卷积神经网络的老师姿态识别系统用于课堂录播环境，检测老师的姿态，进而根据姿态识别的结果，控制相机转动和画面切换，达到较完美的课堂录制效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于浅层卷积神经网络的老师姿态识别系统，其特征在于，包括：

2.如权利要求1所述的基于浅层卷积神经网络的老师姿态识别系统，其特征在于：深度图像预处理包括：根据设定的距离范围，自动获得老师目标的点云图，获取轮廓后，保存到指定大小和格式，作为训练图片。

3.如权利要求1或2所述的基于浅层卷积神经网络的老师姿态识别系统，其特征在于：卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。

4.如权利要求3所述的基于浅层卷积神经网络的老师姿态识别系统，其特征在于：在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。