CN106657893B

CN106657893B - 具有智能切换功能的录播方法及系统

Info

Publication number: CN106657893B
Application number: CN201610989774.0A
Authority: CN
Inventors: 张新华; 朱俊; 李兵
Original assignee: Zhejiang Lange Technology Co Ltd
Current assignee: Zhejiang Lange Technology Co Ltd
Priority date: 2016-11-10
Filing date: 2016-11-10
Publication date: 2019-09-03
Anticipated expiration: 2036-11-10
Also published as: CN106657893A

Abstract

本发明公开了一种具有智能切换功能的录播方法及系统，通过摄像装置采集教师上课及学生听课的视频，通过分析教师及学生的人体脸部坐标位置及坐标变化的趋势以及脸部像素及RGB参数的变化，有效判断师生的教学场景并对显示的画面进行切换。并且，可以根据不同的教学场景以确定输出图像的剪辑方式。并且，还可以根据不同的教学场景控制音频的拾取方式。本发明的具有智能切换功能的录播方法显著提高了教育录播效率。

Description

具有智能切换功能的录播方法及系统

技术领域

本发明涉及一种视频录播技术领域，尤其涉及教育录播系统的控制技术。

背景技术

随着教育产业的发展，录播技术也得到了广泛的应用。但是，目前的录播系统存在诸多缺点，例如，智能化程度不高，录制时需要导播人工切换；后期的剪辑制作需要专业人员，比较复杂；音频拾取需要用手拿着麦克风，否则达不到良好的录音效果，等等。因此，录播的效率较低。

综上所述，本领域迫切需要一种效率更高的教育录播技术。

发明内容

本发明的目的就是提供一种具有智能切换功能的录播方法及系统，具有更高的智能化程度，效率更高，用户体验更好。

在本发明的第一个方面，提供了一种具有智能切换功能的录播方法，包含：

通过第一摄像机拍摄讲台区域的第一视频数据，同时，通过第二摄像机拍摄学生区域的第二视频数据，并从该第一视频数据中提取教师画面，将当前的录播画面切换为该教师画面；

实时地对该第二视频数据进行图像分析，获得该第二视频数据中的每一个脸部的中心位置对应的水平坐标值和垂直坐标值，和像素点总数；

如果在相隔预定时长的两个视频帧中，存在一个脸部的垂直坐标值的变化量大于预定门限，且变化方向为向上，并且该脸部的像素点总数的变化量小于预定门限，确定该脸部为发言学生脸部，并从该第一视频数据中提取教师画面，从该第二视频数据中提取该发言学生脸部画面，并将当前的录播画面切换为该教师画面和该发言学生脸部画面的组合。

在本发明的优选例中，本方法还包括以下步骤：

当录播画面为教师画面和发言学生脸部画面的组合状态时，

如果在相隔预定时长的两个视频帧中，存在一个脸部的垂直坐标值的变化量大于预定门限，且变化方向为向下，并且该脸部的像素点总数的变化量小于预定门限，则从该第一视频数据中提取教师画面，并将当前的录播画面切换为该教师画面。

在本发明的优选例中，本方法还包括以下步骤：

当录播画面为教师画面时，如果在相隔预定时长的两个视频中，该第一视频数据中脸部的像素点总数逐步减少为0，并且，

其中，分别为当前帧画面R矩阵、B矩阵、G矩阵中第i点色彩数值的大小，分别为当n毫秒前的帧画面R矩阵、B矩阵、G矩阵中第i点色彩数值的大小，N为整幅画面的像素，σ为预先设定的第一阈值，

则将当前的录播画面切换为学生区域的画面。

在本发明的优选例中，本方法还包括以下步骤：

当录播画面为学生区域的画面时，

如果在相隔预定时长的两个视频中，该后一个时间的第二视频数据中脸部的像素点总数比前一个时间的第一视频数据中脸部的像素点总数的减少量大于预定的第二阈值时，则将当前的录播画面切换为该教师画面。

在本发明的优选例中，本方法还包括以下步骤：

当录播画面为教师画面时，如果在相隔预定时长的两个视频中，该后一个时间的第一视频数据中脸部的像素点总数比前一个时间的第一视频数据中脸部的像素点总数的减少量大于预定的第三阈值时，则将当前的录播画面切换为黑板区域的画面。

在本发明的优选例中，本方法还包括以下步骤：

当录播画面为黑板区域的画面时，

如果在相隔预定时长的两个视频中，该第一视频数据中脸部的像素点总数大于预定的第二阈值时，则将当前的录播画面切换为该教师的画面。

在本发明的优选例中，本方法还包含：

进行音频采集；

对视频和采集到的音频进行合成并同步。

在本发明的优选例中，本方法还包含：

在该讲台区域放置拾音器，将该讲台区域的拾音器保持开启，

在该学生区域放置多个拾音器，每个拾音器预先设置有区域范围坐标，

根据该发言学生脸部的中心位置，和该各拾音器的区域范围坐标，确定该发言学生所在的区域范围对应的拾音器，并开启该拾音器。

在本发明的第二个方面，提供了一种具有智能切换功能的录播系统，包含：

起始录播模块，用于通过第一摄像机拍摄讲台区域的第一视频数据，同时，通过第二摄像机拍摄学生区域的第二视频数据，并从该第一视频数据中提取教师画面，将当前的录播画面切换为该教师画面；

分析模块，用于实时地对该第二视频数据进行图像分析，获得该第二视频数据中的每一个脸部的中心位置对应的水平坐标值和垂直坐标值，和像素点总数；

切换模块，用于当在相隔预定时长的两个视频帧中，存在一个脸部的垂直坐标值的变化量大于预定门限，且变化方向为向上，并且该脸部的像素点总数的变化量小于预定门限时，确定该脸部为发言学生脸部，并从该第一视频数据中提取教师画面，从该第二视频数据中提取该发言学生脸部画面，并将当前的录播画面切换为该教师画面和该发言学生脸部画面的组合。

本发明实施方式与现有技术相比，显著提高了教育视频录播的效率。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

图1示出了本发明的一个优选例的具有智能切换功能的录播系统的结构图；

图2示出了本发明的课堂录播设备配件布置示意图；

图3示出了本发明的具有智能切换功能的录播方法中的主要场景的切换关系示意图；

图4示出了本发明的一个优选例中对所拍摄的画面的剪辑方式示意图；

图5示出了本发明的另一个优选例中对说拍摄的画面的剪辑方式示意图。

图6示出了本发明的一个优选例的具有智能切换功能的录播方法的流程示意图。

图7示出了本发明的一个优选例的具有智能切换功能的录播系统的结构示意图。

在各附图中，

101：视频图像采集模块

102：图像算法模块

103：视频采集模块

104：音频采集模块

105：输出模块

701：起始录播模块

702：分析模块

703：切换模块

具体实施方式

本发明通过摄像装置采集教师上课及学生听课的视频，通过分析教师及学生的人体脸部坐标位置及坐标变化的趋势以及脸部像素及RGB参数的变化，有效判断师生的教学场景并对显示的画面进行切换。并且，可以根据不同的教学场景以确定输出图像的剪辑方式。并且，还可以根据不同的教学场景控制音频的拾取方式。

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

在本发明中，四个主要场景分别是：

第一场景：老师在讲台上讲课，学生在听讲。显示的画面为老师电脑屏幕VGA信号为主画面，拍摄讲台区域的第一摄像机为画中小画面。

第二场景：学生起立回答老师的问题。拍摄讲台区域的第一摄像机为主画面，拍摄学生区域的第二摄像机为画中小画面。

第三场景：老师走到讲台下与学生互动。拍摄学生区域的第二摄像机为主画面，不设小画中小画面。

第四场景：老师在黑板上写板书。拍摄讲台区域的第一摄像机为主画面，不设小画中小画面。

在本发明的优选例中，课堂录播设备配件布置如图2所示，其中包含两路摄像机，摄像机A对着学生拍摄，摄像机B对着老师拍摄；包含5路拾音器，一路对着老师，四路均匀地分布在学生座位中间。

两路摄像机的视频数据经过视频采集卡传输到中央主控台，中央主控台的作用为：接收视频数据，通过算法对视频数据进行分析，根据分析结果判断教学场景，并根据不同的教学场景将相应的控制信号发送到各路摄像机、混音器，并根据算法进行导播，完成画面的自动切换，同时，将播出的画面存储在中央主控台的存储装置中。

下面参照图3，进一步说明第一场景的进入和退出条件。如图3所示，第一场景的进入条件有两个，一个为开机运行，换句话说，开机运行即进入第一场景。另一个进入条件为满足上述第二、第三和第四场景的退出条件时，即进入第一场景。另一方面，第一场景的推出条件为若满足上述第二、第三和第四场景的进入条件时，即退出第一场景。

在本发明的优选例中，两路摄像机进行图像处理，经过相关的图像处理算法，判断的结果为摄像机B，即采集讲台区域的摄像机捕捉到有人脸画面，摄像机A，即采集学生区域的摄像机没有捕捉到到人脸移动的，此时，算法判断的教学场景为，教师在讲台上讲课，学生在听讲。算法计算出教师的脸部坐标的中心值为(x，y)，脸部所占的像素点总数为t。

中央处理器自动剪辑所拍摄的画面。

具体地说，在本发明的优选例中，如图4所示，对所拍摄的画面的剪辑原则如下：

首先，调节截取拍摄的画面的大小，保持原画面的高宽比不变，脸部像素占画面图素的比例为a％；

然后，调节截取画面的位置，脸部上边缘距画面上边缘距离u1与脸部上边缘距画面下边缘距离u2的比例为u，且脸部左边缘距画面左边缘距离v1与脸部左边缘距画面右边缘距离v2的比例为v。

进一步地说，在本发明的优选例中，u、v、a为可配置的参数。例如，取值范围为0.1<u<0.3，0.1<v<0.3,0.2<a<0.6，单位是像素点数。

通过上述剪辑方式，保证了人像在画面中位置及大小固定。

另外，如图2所示，第一场景通过拾音器E获取录入音频。

实施例1：第一场景与第二场景的切换方法

第一场景切换到第二场景

在本实施例中，包含以下步骤：

步骤601：通过第一摄像机拍摄讲台区域的第一视频数据，同时，通过第二摄像机拍摄学生区域的第二视频数据，并从该第一视频数据中提取教师画面，将当前的录播画面切换为该教师画面；

步骤602：实时地对该第二视频数据进行图像分析，获得该第二视频数据中的每一个脸部的中心位置对应的水平坐标值和垂直坐标值，和像素点总数；

步骤603：如果在相隔预定时长的两个视频帧中，存在一个脸部的垂直坐标值的变化量大于预定门限，且变化方向为向上，并且该脸部的像素点总数的变化量小于预定门限，确定该脸部为发言学生脸部，并从该第一视频数据中提取教师画面，从该第二视频数据中提取该发言学生脸部画面，并将当前的录播画面切换为该教师画面和该发言学生脸部画面的组合。

第二场景切换到第一场景

在本发明的一个优选例中，当录播画面为教师画面和发言学生脸部画面的组合状态时，如果在相隔预定时长的两个视频帧中，存在一个脸部的垂直坐标值的变化量大于预定门限，且变化方向为向下，并且该脸部的像素点总数的变化量小于预定门限，则从所述第一视频数据中提取教师画面，并将当前的录播画面切换为该教师画面。

具体地说，在上述方法中，当处于第一场景时，摄像机A捕捉学生的画面，并根据算法识别出所有学生的脸部，并计算出学生的脸部坐标的中心值(α，β)及脸部所占的像素点总数为γ，且捕捉到的学生脸总数为n。学生脸部坐标的集合为σ＝{(α1，β1)，(α2，β2)，…，(αn，βn)}，脸部像素点总数的集合为γ＝{γ1，γ2，…，γ3}。

当任何一个学生的脸部在垂直方向的移动大于一定的幅度时，可以用数学公式描述如下，摄像机中当前帧与前一帧的集合相关集合分别为σ，γ，σ’，γ’，它们满足以下条件时，将进入学生起立回答老师问题的模式，即，第二场景。

或|βk-βk’|>b

或|γk-γk’|>γ

其中，k＝1，2，…，n。

其中，a、b、γ为可配置的参数，其具体参数值在本发明中不做限定。

其中，a、b、γ为可配置的参数，在本发明的优选例中，1080P像素的视频中，a、b、γ可以取满足以下条件的任意值，a>20,b>20,γ>20。可以理解，在其他优选例中，上述参数可以根据具体情况灵活调整。

如果满足上述条件，则学生起立回答老师的问题。在这种情况下，由第一场景对应显示的画面切换到第二场景对应显示的画面。

当处于第二场景时，如果起立的学生的脸部移动大于一定的幅度时，则退出第二场景。可以用数学公式描述为，

|αk’-αk”|>a’

或|βk’-βk”|>b’

其中，该学生的脸部中心坐标值为(αk’，βk’)，移动后的学生的脸部中心坐标值为(αk”，βk”)。

a’、b’为可配置的参数，在本发明的优选例中，a、b可以取满足以下条件的任意值，a>20,b>20，单位是像素点数。

可以理解，在其他优选例中，上述参数可以根据具体情况灵活调整。

在这种情况下，由第二场景对应显示的画面切换到第一场景对应显示的画面。

在本发明的优选例中，当判断为第二场景时，老师作为主画面，将学生从学生摄像机中的画面中截取出来，与老师讲课的主画面组成画中画的形式，其中，老师画面的截取参数u、v、a与第一场景的定义相同，但是其值大小可以单独配置。

学生脸部画面配置方式如下：

1.调节截取画面的大小，画面的像素的宽高值分别为a、b；

2.确定学生人脸在画中画的大小，人脸像素占画中画图素的比例为a’％；

3.确定学生人脸在画中画的位置，人脸左边缘距画中画左边缘为a1个像素点，人脸上边缘距画中画上边缘为b1个像素点；

4.确定画中画在整个画面的位置，画中画上边缘距画面上边缘距离u1’与画中画上边缘距画面下边缘距离u2’的比例为u’，且画中画左边缘距画面左边缘距离v1’与画中画左边缘距画面右边缘距离v2’的比例为v’。

在本发明的优选例中，a、b、a’％、a1、b1、u1’、u2’、u’、v1’、v2’、v’均为可配置在参数，可以根据具体情况灵活调整。

处于第二场景时，讲台上的拾音器E一直开启，讲台下的拾音器开启由起立回答问题的学生的具体位置决定。

具体地说，在本发明的优选例中，学生的脸中心位置的坐标(αk，βk)满足以下条件时，拾音器A开启：

Ax1<αk<Ax2；

Ay1<βk<Ay2；

其中，Ax1、Ax2、Ay1、Ay2为可配置的量。

同理，当满足以下条件时，拾音器B开启：

Bx1<αk<Bx2；

By1<βk<By2；

同理可以设定拾音器C、D的开启条件。

实施例2：第一场景与第三场景的切换方法

第一场景切换到第三场景

在本实施例中，包含以下步骤：

则将当前的录播画面切换为学生区域的画面。

第三场景切换到第一场景

当录播画面为学生区域的画面时，

如果在相隔预定时长的两个视频中，所述后一个时间的第二视频数据中脸部的像素点总数比前一个时间的第一视频数据中脸部的像素点总数的减少量大于预定的第二阈值时，则将当前的录播画面切换为该教师画面。

具体地说，在上述方法中，当处于第一场景时，摄像机B，即采集讲台区域的摄像机满足如下条件时，是老师走下讲台与学生互动，换句话说，由第一场景切换到第三场景：

1.摄像机B当画面帧脸部像素点总数为t1，与1秒钟之前的画面帧面像素点总数为t2，

t2<t1；

2.摄像机B画面经过若干帧后，t2变为0。

3.摄像机A，即采集学生区域的摄像机捕捉到的当前画面与n毫秒前捕捉到的画面RBG矩阵数值变化量之和大于某一值σ，其中n、σ可以根据具体情况灵活调整：

其中，分别为当前帧画面R矩阵、B矩阵、G矩阵中第i点色彩数值的大小，分别为当n毫秒前的帧画面R矩阵、B矩阵、G矩阵中第i点色彩数值的大小，N为整幅画面的像素。

在这种情况下，由第一场景对应显示的画面切换到第三场景对应显示的画面。

当摄像机B再次采集到人脸时，即本次互动结束，退出第三场景。在这种情况下，由第三场景对应显示的画面切换到第一场景对应显示的画面。

实施例3：第一场景与第四场景的切换方法

第一场景切换到第四场景

在本实施例中，包含以下步骤：

第四场景切换到第一场景

当录播画面为黑板区域的画面时，

具体地说，在上述方法中，当处于第一场景时，摄像机B画面帧脸部的中心位置坐标为(x1，y1)，像素点总数为t1，此时如果教师开始转身在黑板上板书，则经过图像处理算法，与1秒钟之前的画面帧对比，脸部的中心位置坐标为(x2，y2)，像素点总数为t2，由于开始转身，导致其脸部所占的像素是逐步减小。可以用公式进行关系式如下描述：

|x1-x2|<δx；

且|y1-y2|<δy；

且t2-t1>ε

其中，δx、δy、ε为可配置的参数，在本发明的优选例中，δx、δy、ε可以取满足以下条件的值：δx<50,δy<50,ε>20，单位是像素点数。可以理解，在其他优选例中，上述参数可以根据具体情况灵活调整。

在这种情况下，由第一场景对应显示的画面切换到第四场景对应显示的画面。

当前处于第四场景时，摄像机B画面帧脸部的中心位置坐标为(x1’，y1’)，像素点总数为t1’，当教师由面向黑板转身面向学生区域时，与1秒钟之前的画面帧对比，脸部的中心位置坐标为(x2’，y2’)，像素点总数为t2’，教师由于转身，导致其脸部所占的像素是逐步增大。可以用公式进行关系式如下描述：

|x1’-x2’|<δx’；

且|y1’-y2’|<δy’；

且t2’-t1’>ε’

其中，δx’、δy’、ε’为可配置的参数，在本发明的优选例中，δx’、δy’、ε’可以取满足以下条件的值：δx’<50,δy’<50,ε’<50，单位是像素点数。可以理解，在其他优选例中，上述参数可以根据具体情况灵活调整。

在这种情况下，由第四场景对应显示的画面切换到第一场景对应显示的画面。

在本发明的优选例中，算法模块判断进入第四场景，即，老师在黑板上写板书。第四场景的视频处理显示模式与第一场景相同，仅视频的尺寸参数不同。相应的参数进行重新设置，第二场景的显示画面中的参数设定为u’、v’、a’。

第四场景的音频处理过程：第四场景由拾音器E获取录入音频。

需要指出的是，在本发明的优选例中，将所述教师区域的拾音器保持开启，并且在所述学生区域分开地放置了第一至第四拾音器，学生脸部中心坐标为(x,y)，当(x,y)满足不同的条件时，系统开启不同的拾音器，具体地说：

当Ax1<x<Ax2，Ay1<x<Ay2时，开启第一拾音器；

当Bx1<x<Bx2，By1<x<By2时，开启第二拾音器；

……

依次类推。

由此，通过在不同区域放置拾音器，提高了声音录制的质量和效果。

对于上述实施例1、2和3，可以通过如图1所示的录播系统实现，如图所述，该系统包含视频图像采集模块101、图像算法模块102、视频剪辑模块103、音频采集模块104和输出模块105。

视频图像采集模块101，用于采集老师侧及老师侧多路视频数据，并将视频数据传输到中央主控台。在本发明的优选例中，视频采集的路数，即摄像机数量可以根据实际需要进行调整。

图像算法模块102，位于中央主控台，用于分析及处理视频图像，根据输入的图像判断出人体坐标及人脸所占的像素数，根据前后帧的人体坐标及像素数的变化趋势可以判断出人的动态，并得到相对应的教学场景。如老师转身写黑板的动作、学生站立的动作、老师走下讲台的动作，通过动作对应到相应的教学场景，再通过教学场景确定图像剪辑输出的方式及选取拾音的麦克风。

视频剪辑模块103，根据不同的教学场景对输出的多路镜头自动进行剪辑及其它相应的视频处理，并输出最终录播的视频。

音频采集模块104，根据教学场景及人体的定位，确定并选取录入视频的拾音器。

输出模块105，将音频与视频合成并同步后，输出到显示装置和存储装置中。

实施例4：具有智能切换功能的录播系统

参见图7，根据本发明的一个实施例的具有智能切换功能的录播系统包含：起始录播模块701、分析模块702和切换模块703。

具体地说，起始录播模块701用于通过第一摄像机拍摄讲台区域的第一视频数据，同时，通过第二摄像机拍摄学生区域的第二视频数据，并从所述第一视频数据中提取教师画面，将当前的录播画面切换为该教师画面。分析模块702用于实时地对所述第二视频数据进行图像分析，获得所述第二视频数据中的每一个脸部的中心位置对应的水平坐标值和垂直坐标值，和像素点总数。切换模块703，用于当在相隔预定时长的两个视频帧中，存在一个脸部的垂直坐标值的变化量大于预定门限，且变化方向为向上，并且该脸部的像素点总数的变化量小于预定门限时，确定该脸部为发言学生脸部，并从所述第一视频数据中提取教师画面，从所述第二视频数据中提取该发言学生脸部画面，并将当前的录播画面切换为该教师画面和该发言学生脸部画面的组合。

上述实施方式1-3是与本实施方式相对应的方法实施方式，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明的主要优点包括：

1)免去了后期人工复杂的制作、剪切、编辑，可以实现自动导播、自动跟拍、自动剪辑功能，录制出满足国家教育部规定的国家精品开放课程要求数学教学资源。

2)录制时不需要人工导播即可以实现导播切换镜头的功能，节省大量的人力成本。

3)在不增加硬件的基础上，实现自动导播、自动跟拍、自动剪辑功能，降低成本，能促进产品的推广。

综上所述，本发明提供的具有智能切换功能的录播方法显著提高了效率，因此，在教育录播技术领域有十分广阔的应用前景。

本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(Programmable ArrayLogic，简称“PAL”)、随机存取存储器(Random Access Memory，简称“RAM”)、可编程只读存储器(Programmable Read Only Memory，简称“PROM”)、只读存储器(Read-Only Memory，简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM，简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc，简称“DVD”)等等。

需要说明的是，本发明各设备实施方式中提到的各单元都是逻辑单元，在物理上，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现，这些逻辑单元本身的物理实现方式并不是最重要的，这些逻辑单元所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，这并不表明上述设备实施方式并不存在其它的单元。

需要说明的是，在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

并且，在本专利的权利要求书和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的权利要求书和说明书中，如果提到根据某要素执行某行为，则是指至少根据该要素执行该行为的意思，其中包括了两种情况：仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。

虽然通过参照本发明的某些优选实施例，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种具有智能切换功能的录播方法，其特征在于，包含：

通过第一摄像机拍摄讲台区域的第一视频数据，同时，通过第二摄像机拍摄学生区域的第二视频数据，并从所述第一视频数据中提取教师画面，将当前的录播画面切换为该教师画面；

实时地对所述第二视频数据进行图像分析，获得所述第二视频数据中的每一个脸部的中心位置对应的水平坐标值和垂直坐标值和像素点总数；

如果所述第二视频数据在相隔预定时长的两个视频帧中，存在一个脸部的垂直坐标值的变化量大于预定门限，且变化方向为向上，并且该脸部的像素点总数的变化量小于预定门限，确定该脸部为发言学生脸部，并从所述第一视频数据中提取教师画面，从所述第二视频数据中提取该发言学生脸部画面，并将当前的录播画面切换为该教师画面和该发言学生脸部画面的组合。

2.如权利要求1所述的录播方法，其特征在于，还包括以下步骤：

当录播画面为教师画面和发言学生脸部画面的组合状态时，

如果所述第二视频数据在相隔预定时长的两个视频帧中，存在一个脸部的垂直坐标值的变化量大于预定门限，且变化方向为向下，并且该脸部的像素点总数的变化量小于预定门限，则从所述第一视频数据中提取教师画面，并将当前的录播画面切换为该教师画面。

3.如权利要求1所述的录播方法，其特征在于，还包括以下步骤：

当录播画面为教师画面时，如果在相隔预定时长的两个视频中，所述第一视频数据中脸部的像素点总数逐步减少为0，并且，

其中，分别为所述第一视频数据的当前帧画面R矩阵、B矩阵、G矩阵中第i点色彩数值的大小，分别为当n毫秒前的帧画面R矩阵、B矩阵、G矩阵中第i点色彩数值的大小，N为整幅画面的像素，σ为预先设定的第一阈值，

则将当前的录播画面切换为学生区域的画面。

4.如权利要求3所述的录播方法，其特征在于，还包括以下步骤：

当录播画面为学生区域的画面时，

如果所述第二视频数据在相隔预定时长的两个视频中，后一个时间的第二视频数据中脸部的像素点总数比前一个时间的第一视频数据中脸部的像素点总数的减少量大于预定的第二阈值时，则将当前的录播画面切换为该教师画面。

5.如权利要求1所述的录播方法，其特征在于，还包括以下步骤：

当录播画面为教师画面时，如果所述第一视频数据在相隔预定时长的两个视频中，后一个时间的第一视频数据中脸部的像素点总数比前一个时间的第一视频数据中脸部的像素点总数的减少量大于预定的第三阈值时，则将当前的录播画面切换为黑板区域的画面。

6.如权利要求5所述的录播方法，其特征在于，还包括以下步骤：

当录播画面为黑板区域的画面时，

如果所述第一视频数据在相隔预定时长的两个视频中，所述第一视频数据中脸部的像素点总数大于预定的第二阈值时，则将当前的录播画面切换为该教师的画面。

7.如权利要求1-6任意一项所述的录播方法，其特征在于，还包含：

进行音频采集；

对视频和采集到的音频进行合成并同步。

8.如权利要求1-6任意一项所述的录播方法，其特征在于，还包含：

在所述讲台区域放置拾音器，将所述讲台区域的拾音器保持开启，

在所述学生区域放置多个拾音器，每个拾音器预先设置有区域范围坐标，

根据所述发言学生脸部的中心位置，和所述各拾音器的区域范围坐标，确定该所述发言学生所在的区域范围对应的拾音器，并开启该拾音器。

9.一种具有智能切换功能的录播系统，其特征在于，包含：

起始录播模块，用于通过第一摄像机拍摄讲台区域的第一视频数据，同时，通过第二摄像机拍摄学生区域的第二视频数据，并从所述第一视频数据中提取教师画面，将当前的录播画面切换为该教师画面；

分析模块，用于实时地对所述第二视频数据进行图像分析，获得所述第二视频数据中的每一个脸部的中心位置对应的水平坐标值和垂直坐标值，和像素点总数；

切换模块，用于当所述第二视频数据在相隔预定时长的两个视频帧中，存在一个脸部的垂直坐标值的变化量大于预定门限，且变化方向为向上，并且该脸部的像素点总数的变化量小于预定门限时，确定该脸部为发言学生脸部，并从所述第一视频数据中提取教师画面，从所述第二视频数据中提取该发言学生脸部画面，并将当前的录播画面切换为该教师画面和该发言学生脸部画面的组合。