CN109726697A

CN109726697A - 融合av视频通讯与ai实物识别的在线视频系统及方法

Info

Publication number: CN109726697A
Application number: CN201910007218.2A
Authority: CN
Inventors: 周柳青; 黄海华; 罗智灵; 郭自豪
Original assignee: Beijing Lingyou Intelligence Science And Technology Co Ltd
Current assignee: Beijing Lingyou Intelligence Science And Technology Co Ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-05-07
Anticipated expiration: 2039-01-04
Also published as: CN109726697B

Abstract

本发明提供一种融合AV视频通讯与AI实物识别的在线视频系统及方法，系统包括终端主体、可旋转脚架和双摄像头机构；所述双摄像头机构包括支撑架、双摄像头收容腔、主摄像头、从摄像头、陀螺仪和主控电路板；所述主摄像头前向设置，所述从摄像头前向且斜向下设置，所述主摄像头的主光轴与所述从摄像头的从光轴具有一定的夹角；所述陀螺仪用于采集所述主摄像头的主光轴的设置角度。优点为：(1)采用双摄像头设计，支持同时AV视频通话和AI实物识别，方便使用；(2)支持角度调整以适应不同身高用户和不同适用场景；(3)一体式设计，简洁美观，可靠性高。(4)AI实物识别时，采用透视变换校正图像的方法，提高AI实物识别的精度。

Description

融合AV视频通讯与AI实物识别的在线视频系统及方法

技术领域

本发明属于在线视频教育技术领域，具体涉及一种融合AV视频通讯与AI实物识别的在线视频系统及方法。

背景技术

随着互联网应用越来越广泛，在线视频教育的应用也越来越多。现有技术中，学生在进行在线视频学习时，普遍采用IPAD和笔记本等设备进行在线学习，即：通过IPAD和笔记本的前置摄像头，实现学生和培训教师之间的视频沟通。然而，此种在线教育方式具有以下不足：学生和培训教师之间只能进行视频通讯，使培训教师能够注意到学生的面部表情，但是，当学生在书桌前记笔记或者答试卷时，培训教师无法观察到学生的书写信息，即：无法实现AI实物识别的功能，由此导致培训教师对学生的行为掌握不全面，影响培训教学质量。

为解决上述问题，现有技术中出现了以下三种方案：

(1)单一摄像头兼顾视频通讯和AI实物识别，即：在正常角度进行视频通讯，旋转摄像头到桌面进行AI识别。这种方案缺点很明显，无法同时进行视频通讯和AI实物识别，而且需要用户频繁切换；

(2)设计反光镜，将桌面反射到摄像头，这种设计只能进行AI识别，不具有视频通讯功能；而且，角度单一，使用范围较小；

(3)原摄像头进行视频通讯，外挂摄像头进行AI实物识别。然而，外挂摄像头不美观，还存在可靠性问题。

发明内容

针对现有技术存在的缺陷，本发明提供一种融合AV视频通讯与AI实物识别的在线视频系统及方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种融合AV视频通讯与AI实物识别的在线视频系统，包括终端主体(1)、可旋转脚架(2)和双摄像头机构(3)；所述终端主体(1)的背面安装所述可旋转脚架(2)，通过所述可旋转脚架(2)，调节所述终端主体(1)的使用角度；所述终端主体(1)的顶部安装所述双摄像头机构(3)；

所述双摄像头机构(3)包括支撑架(3.1)、双摄像头收容腔(3.2)、主摄像头(3.3)、从摄像头(3.4)、陀螺仪(3.5)和主控电路板(3.6)；

所述支撑架(3.1)可转动安装于所述终端主体(1)的顶部；所述支撑架(3.1)的顶部一体成形所述双摄像头收容腔(3.2)；所述主摄像头(3.3)、所述从摄像头(3.4)、所述陀螺仪(3.5)和所述主控电路板(3.6)均设置于所述双摄像头收容腔(3.2)的内部；其中，所述主摄像头(3.3)前向设置，所述从摄像头(3.4)前向且斜向下设置，所述主摄像头(3.3)的主光轴与所述从摄像头(3.4)的从光轴具有一定的夹角；所述陀螺仪(3.5)用于采集所述主摄像头(3.3)的主光轴的设置角度；所述主摄像头(3.3)、所述从摄像头(3.4)和所述陀螺仪(3.5)均连接到所述主控电路板(3.6)。

优选的，转动所述支撑架(3.1)，调节所述主摄像头(3.3)的主光轴的角度，当所述主摄像头(3.3)的主光轴为水平方向时，所述主摄像头(3.3)采集所述终端主体(1)正前方的视频信息，进而实现视频通讯；此时，所述从摄像头(3.4)的从光轴与所述主摄像头(3.3)的主光轴的夹角为60度，所述从摄像头(3.4)采集所述终端主体(1)前方底面的视频信息，进而实现对所述终端主体(1)前方底面放置物的AI实物识别。

优选的，所述主摄像头(3.3)设置于所述双摄像头收容腔(3.2)的中心位置，所述主摄像头(3.3)的主光轴与所述双摄像头收容腔(3.2)的轴心平行；所述从摄像头(3.4)倾斜设置于所述双摄像头收容腔(3.2)的底面凹槽中。

优选的，所述主控电路板(3.6)为SOC芯片；

所述陀螺仪(3.5)通过I2C总线连接到SOC芯片；所述主摄像头(3.3)的输出端连接到第一数字信号处理器DSP1的输入端；所述第一数字信号处理器DSP1的输出端连接到USB-HUB集线器的输入端；所述从摄像头(3.4)的输出端连接到第二数字信号处理器DSP2的输入端；所述第二数字信号处理器DSP2的输出端连接到USB-HUB集线器的输入端；所述USB-HUB集线器的输出端通过USB总线连接到SOC芯片。

本发明提供一种基于融合AV视频通讯与AI实物识别的在线视频系统的方法，包括以下步骤：

步骤1，设从摄像头(3.4)的光轴与水平面夹角的有效范围为β1～β2；在β1～β2之间选取若干个角度值；对于每个角度值βi，βi∈[β1，β2]，均预存储对应的透视畸变矩阵；

步骤2，主摄像头(3.3)的主光轴与从摄像头(3.4)的从光轴之间的夹角为固定值，设该夹角为夹角γ；

步骤3，调节可旋转脚架(2)的角度，进而调节终端主体(1)的安装角度；调节支撑架(3.1)的角度，进而调节主摄像头(3.3)和从摄像头(3.4)的安装角度；

步骤4，陀螺仪(3.5)实时采集主摄像头(3.3)的主光轴与水平面的夹角α，并实时将夹角α发送给主控电路板(3.6)；

步骤5，一方面，主摄像头(3.3)实时采集终端主体(1)前方的视频图像，经数字信号处理以及编码后，得到编码后的视频图像；然后，将所述编码后的视频图像发送给主控电路板(3.6)，主控电路板(3.6)再将所述编码后的视频图像通过网络发送给另一端，由此实现视频沟通的功能；

另一方面，主控电路板(3.6)根据陀螺仪(3.5)采集到的夹角α、以及主摄像头(3.3)的主光轴与从摄像头(3.4)的从光轴之间的夹角γ，换算得到从摄像头(3.4)的从光轴与水平面的夹角θ；然后，所述主控电路板(3.6)判断夹角θ是否位于β1～β2之间，如果不位于，则不再进行AI实物识别的过程；如果位于，则执行步骤6；

步骤6，所述主控电路板(3.6)根据步骤1预存储的角度值βi和透视畸变矩阵的映射关系，得到与夹角θ最接近的角度值βi；进而得到与角度值βi对应的透视畸变矩阵；该透视畸变矩阵即为与夹角θ对应的透视畸变矩阵；

然后，所述从摄像头(3.4)实时采集到其采集视野的视频图像信息，并实时发送给所述主控电路板(3.6)；

所述主控电路板(3.6)根据与夹角θ对应的透视畸变矩阵，对实时采集到的视频图像信息进行图形畸变校正，得到校正后的视频图像信息；然后，所述主控电路板(3.6)基于所述校正后的视频图像信息进行AI实物识别。

优选的，步骤1中，通过以下方法，获得与每个角度值βi对应的透视畸变矩阵：

步骤1.1，终端主体(1)通过可旋转脚架(2)支撑于桌面；在终端主体(1)前方的桌面上放置正方形标图，所述正方形标图位于所述从摄像头(3.4)的采集范围；

步骤1.2，调节所述双摄像头机构(3)的角度，使所述从摄像头(3.4)与水平面的夹角为角度值βi；然后，所述从摄像头(3.4)采集所述正方形标图的成像图；所述成像图为梯形形状图；记录所述梯形形状图的四个顶点的坐标，分别为：P1、P2、P3和P4；对所述梯形形状图的四个顶点进行校正，校正为正方形形状图，记录所述正方形形状图的四个顶点的坐标，分别为P1’、P2’、P3’和P4’；

步骤1.3，根据P1、P2、P3和P4四个顶点，与对应的P1’、P2’、P3’和P4’四个顶点的转换关系，得到与角度值βi对应的透视畸变矩阵。

优选的，步骤1中，β1为55度；β2为80度；在55度～80度之间，每隔5度选取一个角度值βi。

本发明提供的融合AV视频通讯与AI实物识别的在线视频系统及方法具有以下优点：

(1)采用双摄像头设计，支持同时AV视频通话和AI实物识别，方便使用；

(2)支持角度调整以适应不同身高用户和不同适用场景；

(3)一体式设计，简洁美观，可靠性高。

(4)AI实物识别时，采用透视变换校正图像的方法，提高AI实物识别的精度。

附图说明

图1为本发明提供的融合AV视频通讯与AI实物识别的在线视频系统的标准光路示意图；

图2为本发明提供的双摄像头机构的结构示意图；

图3为本发明提供的融合AV视频通讯与AI实物识别的在线视频系统的原理图；

图4为本发明的从摄像头的透视畸变示意图；

图5为本发明提供的融合AV视频通讯与AI实物识别的在线视频系统的上仰5°光路示意图；

图6为本发明提供的融合AV视频通讯与AI实物识别的在线视频系统的下俯20°光路示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种融合AV视频通讯与AI实物识别的在线视频系统，融合AV高清视频通讯和AI实物识别技术，本发明采用双摄像头设计，主摄像头为AV视频摄像头，专门用于高清视频通讯；从摄像头专门用于AI实物识别。因此，本发明非常适合应用于在线视频教育同时需要视频通讯和实物教材演习场景，也可应用其他类似场景。本发明采用了摄像，编码，解码，AI识别等多种技术。

参考图1，包括终端主体1、可旋转脚架2和双摄像头机构3；终端主体1的背面安装可旋转脚架2，通过可旋转脚架2，调节终端主体1的使用角度，满足不同身高用户的使用需求；终端主体1的顶部安装双摄像头机构3；

参考图2，双摄像头机构3包括支撑架3.1、双摄像头收容腔3.2、主摄像头3.3、从摄像头3.4、陀螺仪3.5和主控电路板3.6；

支撑架3.1可转动安装于终端主体1的顶部；转动支撑架，可调节主摄像头3.3和从摄像头3.4的设置角度。支撑架3.1的顶部一体成形双摄像头收容腔3.2；主摄像头3.3、从摄像头3.4、陀螺仪3.5和主控电路板3.6均设置于双摄像头收容腔3.2的内部；由于主摄像头3.3、从摄像头3.4、陀螺仪3.5和主控电路板3.6均设置于双摄像头收容腔3.2的内部，尤其对于从摄像头3.4，并非外挂式摄像头，因此，为一体式设计，简洁美观，可靠性高。

其中，主摄像头3.3前向设置，从摄像头3.4前向且斜向下设置，主摄像头3.3的主光轴与从摄像头3.4的从光轴具有一定的夹角，例如，夹角为60度。需要强调的是，主摄像头3.3的主光轴与从摄像头3.4的从光轴之间的夹角为一个固定不变值；陀螺仪3.5用于采集主摄像头3.3的主光轴的设置角度；主摄像头3.3、从摄像头3.4和陀螺仪3.5均连接到主控电路板3.6。

下面对双摄像头机构3进行详细介绍：

(1)主摄像头前向设置，为视频通话使用；在标准光路上，如图1所示状态中，主摄像头的主光轴与水平面平行；但是，当转动支撑架3.1时，主摄像头的主光轴也可以发生倾斜，从而方便不同身高用户使用，例如，如图5，为主光轴上仰5°光路示意图；如图6，为主光轴下俯20°光路示意图。

(2)从摄像头与主摄像头的光轴具有一定夹角，例如，夹角为60°，从摄像头朝向桌面，专门用于AI实物识别使用；

(3)陀螺仪用于采集主摄像头的主光轴与水平面的夹角信息，并实时反馈给主控电路板。

(4)设置可旋转摄像头支架，即支撑架3.1，可灵活调节主摄像头的光轴角度；当主摄像头的光轴角度调节时，同时调节了从摄像头的光轴角度，扩大系统的适用范围。

作为一种具体实现方式，转动支撑架3.1，调节主摄像头3.3的主光轴的角度，当主摄像头3.3的主光轴为水平方向时，主摄像头3.3采集终端主体1正前方的视频信息，进而实现视频通讯；此时，从摄像头3.4的从光轴与主摄像头3.3的主光轴的夹角为60度，从摄像头3.4采集终端主体1前方底面的视频信息，进而实现对终端主体1前方底面放置物的AI实物识别。

主摄像头3.3设置于双摄像头收容腔3.2的中心位置，主摄像头3.3的主光轴与双摄像头收容腔3.2的轴心平行；从摄像头3.4倾斜设置于双摄像头收容腔3.2的底面凹槽中。

(5)主控电路板3.6采用SOC芯片；参考图3，陀螺仪3.5通过I2C总线连接到SOC芯片；主摄像头3.3的输出端连接到第一数字信号处理器DSP1的输入端；第一数字信号处理器DSP1的输出端连接到USB-HUB集线器的输入端；从摄像头3.4的输出端连接到第二数字信号处理器DSP2的输入端；第二数字信号处理器DSP2的输出端连接到USB-HUB集线器的输入端；USB-HUB集线器的输出端通过USB总线连接到SOC芯片。

具体的，陀螺仪直接将角度信息通过I2C传给后级SOC调用；主摄像头在DSP1进行DSP处理和编码后，通过USB HUB传给后级SOC，进行视频通话二次编码和网络发送；从摄像头连接DSP2，进行DSP处理和编码，编码后再发送给USB HUB，然后发送给后级SOC进行AI调用。

本发明中，AI实物识别技术为基于DeepLearning框架实现并进行多轮工程优化的算法集：具有以下特点：

(1)CLSR：Colored Light Spectrum Recovery

有色光纠正算法：自动修正环境光色温偏差，提高AI识别精度

(2)RIR：Robust Image Recognition(Ⅰ&Ⅱ)

鲁棒图像识别：通过正样本和负样本的采样比较进行图像识别

(3)OSRA：Objects Spatial Relationship Abstraction(Ⅰ&Ⅱ)

物体位置区块算法：图像智能定位，剔除画面中其他干扰元素

(4)WSEA：Writing Stroke Extraction&Analysis(Ⅰ&Ⅱ)

笔迹描红对比分析：笔迹对比分析进行文字识别

(5)AHEA:Academic Handwriting&Emotion Analysis

手写笔迹与情感分析：通过更多风格的笔迹采样，分析，进行深层次的手写文字对比识别。

为提高AI实物识别精度，本发明在进行AI实物识别时，还采用了畸变图像的校正功能。

具体的，在标准状态下，即图1所示状态时，主摄像头的光轴水平，从摄像头光轴与水平面成60°拍摄，此时，对于从摄像头，由于拍摄时从摄像头视角的原因，导致透视畸变，参考图4，原始的正方形图像，经从摄像头拍摄后，成像为梯形。

可以看到。距离摄像头越近的边，成像后的对应边越长，距离摄像头越远的边，成像后的对应边越短，由于这种畸变现象，导致AI识别图像的准确度较低。如果需要恢复被拍摄物的形状或者从原来图像中提取标志点的真实位置信息，就应该消除图像的透视效应。对这幅图像透视校正的目的就是纠正这种形变，得到正方形的正视角图像，校正效果相当于是从正方形的正上方视角拍摄的图像。

透视变换，即对畸变图像的校正需要取得畸变图像的一组4个顶点的坐标，和目标图像(校正后图像)的一组4个顶点的坐标，通过两组坐标点可以计算出透视变换的透视畸变矩阵，之后对整个原始图像执行透视畸变矩阵的变换，就可以实现图像校正。

具体思路如下：

(一)标准状态下的校正

(1)标准状态下，主摄像头水平，从摄像头与被拍摄面成60°夹角；

(2)将棋盘格标图或正方形标图放到桌面进行拍摄，如图4示意，保证标图完整落到从摄像头成像区域；

(3)对成像到的图形的4个角点进行校正，校正为正方形，得到校正后图像的4个角点坐标。根据校正前4个角点坐标与校正后4个角度坐标的对应关系，即可获取到透视变换矩阵。

因此，在标准状态下，即主摄像头水平，从摄像头与被拍摄面成60°夹角的状态下时，整个图像进行T_60透视畸变矩阵变换，得到校正后的图像。

(二)实际用户身高，距离，使用习惯的差异，主摄像头并非始终水平，从摄像头与水平面的拍摄角度也会不同，透视变换矩阵并不固定，这样给AI算法带来干扰。因此，增加了陀螺仪测量主摄像头光轴角度数据，同步给系统。系统根据陀螺仪测量到的主摄像头光轴角度数据、以及主摄像头和从摄像头光轴夹角数据，可得到从摄像头光轴与水平面夹角值。从图5仰视和图6俯视角度示意图也可以看出，更大角度范围超出从摄像头的像场，并无实际使用价值。根据电脑模型模拟不同场景和用户身高数据，可以确定支持AI实物识别的主摄像头光轴旋转范围设计为-5°至20°，在其他角度只能进行主摄像头的视频通话。按照这个范围以5°步进从摄像头与水平面的夹角为55°，60°，65°，70°，75°，80°，其中60°角度即为标准角度。

因此，在55°～80°范围内，按5°步进分别进行采样计算透视变换矩阵预存，系统根据陀螺仪的角度信息调用不同参数进行图形校正，即可实现不同角度下的AI识别。

当然，实际应用中，为提高精度，也可以按1°步进进行采样。考虑到陀螺仪误差，镜头装配误差以及AI识别的宽容性，3°至5°步进是比较合理的设计。本发明对步进的角度并不限制，具体根据使用需求设定。

同正方形标图方法拍摄取四角点计算出透视变换矩阵的思路相同，将步进到的55°，65°，70°，75°，80°分别命名为T_55,T65,T_70....T_80，并同标准角度的透视畸变矩阵T_60一并存入系统。

因此，在系统调用从摄像头时候，同时读取陀螺仪角度信息，然后调用对应角度的透视变换矩阵对整个图像进行变换，这样就实现了不同角度的透视变换校正。

具体的，一种基于融合AV视频通讯与AI实物识别的在线视频系统的方法，包括以下步骤：

步骤1，设从摄像头3.4的光轴与水平面夹角的有效范围为β1～β2；在β1～β2之间选取若干个角度值；对于每个角度值βi，βi∈[β1，β2]，均预存储对应的透视畸变矩阵；例如，β1为55度；β2为80度；在55度～80度之间，每隔5度选取一个角度值βi。

步骤1中，通过以下方法，获得与每个角度值βi对应的透视畸变矩阵：

步骤1.1，终端主体1通过可旋转脚架2支撑于桌面；在终端主体1前方的桌面上放置正方形标图，正方形标图位于从摄像头3.4的采集范围；

步骤1.2，调节双摄像头机构3的角度，使从摄像头3.4与水平面的夹角为角度值βi；然后，从摄像头3.4采集正方形标图的成像图；成像图为梯形形状图；记录梯形形状图的四个顶点的坐标，分别为：P1、P2、P3和P4；对梯形形状图的四个顶点进行校正，校正为正方形形状图，记录正方形形状图的四个顶点的坐标，分别为P1’、P2’、P3’和P4’；

步骤2，主摄像头3.3的主光轴与从摄像头3.4的从光轴之间的夹角为固定值，设该夹角为夹角γ；

步骤3，调节可旋转脚架2的角度，进而调节终端主体1的安装角度；调节支撑架3.1的角度，进而调节主摄像头3.3和从摄像头3.4的安装角度；

步骤4，陀螺仪3.5实时采集主摄像头3.3的主光轴与水平面的夹角α，并实时将夹角α发送给主控电路板3.6；

步骤5，一方面，主摄像头3.3实时采集终端主体1前方的视频图像，经数字信号处理以及编码后，得到编码后的视频图像；然后，将编码后的视频图像发送给主控电路板3.6，主控电路板3.6再将编码后的视频图像通过网络发送给另一端，由此实现视频沟通的功能；

另一方面，主控电路板3.6根据陀螺仪3.5采集到的夹角α、以及主摄像头3.3的主光轴与从摄像头3.4的从光轴之间的夹角γ，换算得到从摄像头3.4的从光轴与水平面的夹角θ；然后，主控电路板3.6判断夹角θ是否位于β1～β2之间，如果不位于，则不再进行AI实物识别的过程；如果位于，则执行步骤6；

步骤6，主控电路板3.6根据步骤1预存储的角度值βi和透视畸变矩阵的映射关系，得到与夹角θ最接近的角度值βi；进而得到与角度值βi对应的透视畸变矩阵；该透视畸变矩阵即为与夹角θ对应的透视畸变矩阵；

然后，从摄像头3.4实时采集到其采集视野的视频图像信息，并实时发送给主控电路板3.6；

主控电路板3.6根据与夹角θ对应的透视畸变矩阵，对实时采集到的视频图像信息进行图形畸变校正，得到校正后的视频图像信息；然后，主控电路板3.6基于校正后的视频图像信息进行AI实物识别。

本发明提供的融合AV视频通讯与AI实物识别的在线视频系统及方法，具备以下优点：

(2)支持角度调整以适应不同身高用户和不同适用场景；

(3)一体式设计，简洁美观，可靠性高。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种融合AV视频通讯与AI实物识别的在线视频系统，其特征在于，包括终端主体(1)、可旋转脚架(2)和双摄像头机构(3)；所述终端主体(1)的背面安装所述可旋转脚架(2)，通过所述可旋转脚架(2)，调节所述终端主体(1)的使用角度；所述终端主体(1)的顶部安装所述双摄像头机构(3)；

2.根据权利要求1所述的融合AV视频通讯与AI实物识别的在线视频系统，其特征在于，转动所述支撑架(3.1)，调节所述主摄像头(3.3)的主光轴的角度，当所述主摄像头(3.3)的主光轴为水平方向时，所述主摄像头(3.3)采集所述终端主体(1)正前方的视频信息，进而实现视频通讯；此时，所述从摄像头(3.4)的从光轴与所述主摄像头(3.3)的主光轴的夹角为60度，所述从摄像头(3.4)采集所述终端主体(1)前方底面的视频信息，进而实现对所述终端主体(1)前方底面放置物的AI实物识别。

3.根据权利要求1所述的融合AV视频通讯与AI实物识别的在线视频系统，其特征在于，所述主摄像头(3.3)设置于所述双摄像头收容腔(3.2)的中心位置，所述主摄像头(3.3)的主光轴与所述双摄像头收容腔(3.2)的轴心平行；所述从摄像头(3.4)倾斜设置于所述双摄像头收容腔(3.2)的底面凹槽中。

4.根据权利要求1所述的融合AV视频通讯与AI实物识别的在线视频系统，其特征在于，所述主控电路板(3.6)为SOC芯片；

5.一种基于权利要求1-4任一项所述的融合AV视频通讯与AI实物识别的在线视频系统的方法，其特征在于，包括以下步骤：

6.根据权利要求5所述的基于融合AV视频通讯与AI实物识别的在线视频系统的方法，其特征在于，步骤1中，通过以下方法，获得与每个角度值βi对应的透视畸变矩阵：

7.根据权利要求5所述的基于融合AV视频通讯与AI实物识别的在线视频系统的方法，其特征在于，步骤1中，β1为55度；β2为80度；在55度～80度之间，每隔5度选取一个角度值βi。