CN111783687A

CN111783687A - 一种基于人工智能的教学直播方法

Info

Publication number: CN111783687A
Application number: CN202010636776.8A
Authority: CN
Inventors: 麦雪楹
Original assignee: Foshan Haixie Technology Co ltd
Current assignee: Foshan Haixie Technology Co ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-16

Abstract

本申请公开了一种基于人工智能的教学直播方法，包括：教学终端通过云服务器与多个学习终端建立通信，其中，教学终端用于采集教师的教学视频，学习终端用于接收教学视频，并为学生用户提供播放；在接收到直播指令后，教学终端开启直播，并将直播视频通过云服务器分发至多个学习终端；云服务器实时对视频中的语音信息进行语义识别，并通过字幕形式同步显示在多个学习终端上；学习终端通过内置摄像头实时采集学生人脸图像，并将人脸图像上传至云服务器；云服务器基于人脸图像进行学生用户的疲劳程度识别，并当疲劳程度超过阈值时，生成预警指令，并将预警指令发送至教学终端及学习终端，以使教学终端及学习终端分别进行疲劳预警操作。

Description

一种基于人工智能的教学直播方法

技术领域

本申请涉及教学直播领域，尤其涉及一种基于人工智能的教学直播方法。

背景技术

目前在直播领域出现了很多不同类别的直播，例如教学直播、带货直播、娱乐直播等，而作为远程教育的一个应用场景，教学直播一直是教育领域关注的热点。

目前的教学直播系统中，采用了教学终端-云服务器-学生终端的C-S-C架构，可实现视频的实时采集与多级传输，网络时延较低，但是，目前的教学直播只是教师单纯地进行课程讲解，没有互动，也不能知晓学生的听课状态，导致直播效果差、使用体验低。

发明内容

本申请实施例提供一种基于人工智能的教学直播方法，用于解决无法获取学生听课状态导致直播效果差的问题。

本发明实施例提供一种基于人工智能的教学直播方法，包括：

教学终端通过云服务器与多个学习终端建立通信，其中，所述教学终端用于采集教师的教学视频，所述学习终端用于接收所述教学视频，并为学生用户提供播放；

在接收到直播指令后，所述教学终端开启直播，并将直播视频通过云服务器分发至所述多个学习终端；

所述云服务器实时对视频中的语音信息进行语义识别，并通过字幕形式同步显示在所述多个学习终端上；

所述学习终端通过内置摄像头实时采集学生人脸图像，并将所述人脸图像上传至所述云服务器；

所述云服务器基于所述人脸图像进行学生用户的疲劳程度识别，并当所述疲劳程度超过阈值时，生成预警指令，并将所述预警指令发送至所述教学终端及所述学习终端，以使所述教学终端及所述学习终端分别进行疲劳预警操作。

可选地，所述方法还包括：

所述云服务器基于所述人脸图像进行学生用户的情绪识别；

当识别所述学生用户的情绪为负面情绪时，生成负面情绪指令，并将所述负面情绪指令发送至所述教学终端，以使所述教师进行负面情绪应对处理。

可选地，所述云服务器基于所述人脸图像进行学生用户的情绪识别，包括：

定位所述学生用户的人脸区域；

对所述面部器官进行特征点定位，识别出多个特征点，所述特征点定位采用活跃形状模型ASM方法；

对所述特征点进行归一化预处理；

基于预处理结果，采用MPEG-4标准中的面部绘制参数FAP提取出所述面部特征；

基于所述面部特征进行情绪识别，所述情绪包括高兴、惊讶、生气、悲伤、恶心、恐惧或中立，所述负面情绪为生气、悲伤、恶心或恐惧。

可选地，在所述通过字幕形式同步显示在所述多个学习终端上之后，所述方法还包括：

对所述语音信息的语调进行识别；

当所述语音语调高于预设阈值时，对所述字幕的部分或全部汉字进行加粗或高亮显示。

可选地，所述对所述语音信息的语调进行识别，包括：

对所述语音信息中的音量大小进行判断，或对所述语音信息中的语速快慢进行判断。

可选地，所述云服务器基于所述人脸图像进行学生用户的疲劳程度识别，包括：

实时获取所述学生用户的人脸图像；

用人脸模型在图像中匹配人脸区域；

通过模型中眼睛的相对位置，确定所述人脸图像中眼睛的位置；

对眼睛区域二值化处理，并利用直方图均衡化进行图像对比度增强；

建立睁眼和闭眼状态时的眼部灰度一维直方图标准H(open)、H(close)，H＝[h{x1,f(x1)},……,h{xn,f(xn)}]，其中，h为直方图中的矩阵，x1～xn为n个级别灰度，f(xi)为该灰度级别所出现的频率；

计算出当前图像中的眼部一维直方图分别与睁眼状态标准直方图的差值和S1；

算出当前图像的一维直方图与闭眼状态标准直方图的差值和S2，其中S＝∑[fnow(xi)-fstandard(xi)]；

比较S1和S2,S1<S2即为睁眼，S2<S1即为闭眼；

计算PERCLOS值和平均闭眼时长t，其中所述PERCLOS为一定时间内眼睛的闭合程度；

用人脸模型匹配所述用户学生的嘴部区域；

对所述嘴部区域进行二值化处理，并利用直方图均衡化进行图像对比度增强；

识别出所述嘴型张开角度，并基于所述嘴型张开角度的变化曲线，确定是否处于打哈欠状态；

若处理打哈欠状态，则通过获得的PERCLOS值和平均闭眼时长判定疲劳程度。

上述提供的基于人工智能的教学直播的方法，通过对教学过程中的语音进行语义识别，同步输出文字，并对学生进行疲劳程度识别，在学生感觉到疲劳时进行预警，解决了教学直播中无法获取学生状态而导致直播效果差的问题，保证了教学质量，提升了教学直播效果。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为一个实施例中基于人工智能的教学直播流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

本发明实施例提供了一种基于人工智能的教学直播方法，如图1所示，该方法包括：

S101、教学终端通过云服务器与多个学习终端建立通信，其中，所述教学终端用于采集教师的教学视频，所述学习终端用于接收所述教学视频，并为学生用户提供播放；

在本发明实施例中，教学终端和学习终端可以是各类智能终端，例如手机、平板电脑、笔记本电脑、PC、专用教学终端等。本发明对此并无限制。其中，教师用的是教学终端，学生用的是学习终端。

教学终端和云服务器、多个学习终端进行组网，形成典型的客户端-服务器-客户端架构(client-server-client,CSC)，实现信令和数据互传。

S102、接收到直播指令后，所述教学终端开启直播，并将直播视频通过云服务器分发至所述多个学习终端；

在远程教育领域，教学终端实时采集教师的教学内容视频，并进行压缩，同步上传至云服务器，云服务器通过内容分发系统CDN将该教学内容视频分发至给学习终端，以实现教学内容的直播。

S103、所述云服务器实时对视频中的语音信息进行语义识别，并通过字幕形式同步显示在所述多个学习终端上；

云服务器采集到该视频后，将该视频分割为视频画面通道和声音通道，同时，对声音通道的语音信息进行人工智能声音识别，将该声音通道转变为字词句等语义信息，并通过字幕形式同步显示在多个学习终端上。

在现有技术中，语义识别相对比较成熟，本发明实施例可通过内置讯飞语音识别API接口进行识别，具体技术不再累述。

可选地，在本发明实施例中，在所述通过字幕形式同步显示在所述多个学习终端上之后，云服务器还可以对所述语音信息的语调进行识别；当所述语音语调高于预设阈值时，对所述字幕的部分或全部汉字进行加粗或高亮显示。例如，可以对所述语音信息中的音量大小进行判断，或对所述语音信息中的语速快慢进行判断。

S104、所述学习终端通过内置摄像头实时采集学生人脸图像，并将所述人脸图像上传至所述云服务器；

在开启直播的同时，为方便教师了解到学生的听课状态，需要对学生的听课状态进行有效监控，因此，在本发明实施例中，可通过对学生人脸图像进行采集并识别的方式进行监控。

S105、所述云服务器基于所述人脸图像进行学生用户的疲劳程度识别，并当所述疲劳程度超过阈值时，生成预警指令，并将所述预警指令发送至所述教学终端及所述学习终端，以使所述教学终端及所述学习终端分别进行疲劳预警操作。

对于人体疲劳的研究表明，眼睛闭合的频率和持续时间在某种程度上可以反映疲劳的状态。卡内基梅隆研究所经过反复试验和论证，提出了度量疲劳的物理PERCLOS。PERCLOS定义为一定时间内眼睛的闭合程度，它已经成为度量疲劳状态的一种科学有效的方法。当一定时间间隔内眼睛闭合所占的时间比例超过15％时即认为是疲劳状态。PERCLOS方法通过眼睛闭合所占的时间比例进行疲劳驾驶的判定。但是，眼睛的大小因人而异，眼睛的面积因受所在场景和头部运动的影响也是动态变化的，眼睛的睁开程度是相对于自身的最大睁开状态而言的。时间可以转换为视频帧数，在判断眼睛的状态特征时，本发明实施例使用的是类PERCLOS的方法。

目前，PERCLO方法有三种判断疲劳的不同准则，分别EM准则、P70准则、P80准则。其具体含义如下：

EM准则：瞳孔被眼睑覆盖超50％的面积，则认为眼睛是闭合的；

P70准则：瞳孔被眼睑覆盖超70％的面积，则认为眼睛是闭合的；

P80准则：瞳孔被眼睑覆盖超过80％的面积，则认为眼睛是闭合的。

当人注意力特别集中或处在沉思状态时可能也会有眼睑覆盖瞳孔超过50％甚至70％的可能，所以本发明实施例中采用的是P80准则。

统计表明，人在一分钟之内要眨十次左右的眼睛，每次需要0.304秒左右，两次眨眼之间的间隔约为2.840秒。眼睛闭合的频率以及闭合时间的长短与疲劳有密切联系，如果连续监测到学生的PERCLOS>30％且平均闭眼时长>0.25s(阈值)，就判定学生处于疲劳状态，并发出报警。

可选地，在上述方法中，识别率在70％左右。为了保证识别的准确率，还需要增加识别学生是否在打哈欠，当且仅当学生在打哈欠识别成功后，再检测PERCLOS值，最终判断该学生是否处于疲劳状态。

基于此，本发明实施例中提供一种疲劳检测的方法，具体如下：

S1051、实时获取所述学生用户的人脸图像；

S1052、用人脸模型在图像中匹配人脸区域；

S1053、通过模型中眼睛的相对位置，确定所述人脸图像中眼睛的位置；

S1054、对眼睛区域二值化处理，并利用直方图均衡化进行图像对比度增强；

S1055、建立睁眼和闭眼状态时的眼部灰度一维直方图标准H(open)、H(close)，H＝[h{x1,f(x1)},……,h{xn,f(xn)}]，其中，h为直方图中的矩阵，x1～xn为n个级别灰度，f(xi)为该灰度级别所出现的频率；

S1056、计算出当前图像中的眼部一维直方图分别与睁眼状态标准直方图的差值和S1；

S1057、算出当前图像的一维直方图与闭眼状态标准直方图的差值和S2，其中S＝∑[fnow(xi)-fstandard(xi)]；

S1058、比较S1和S2,S1<S2即为睁眼，S2<S1即为闭眼；

S1059、计算PERCLOS值和平均闭眼时长t，其中所述PERCLOS为一定时间内眼睛的闭合程度；

S10510、用人脸模型匹配所述用户学生的嘴部区域；

S10511、对所述嘴部区域进行二值化处理，并利用直方图均衡化进行图像对比度增强；

S10512、识别出所述嘴型张开角度，并基于所述嘴型张开角度的变化曲线，确定是否处于打哈欠状态；

S10513、若处于打哈欠状态，则通过获得的PERCLOS值和平均闭眼时长判定疲劳程度。

此外，本发明实施例中，还可以对学生用户进行情绪识别，具体为：

所述云服务器基于所述人脸图像进行学生用户的情绪识别；当识别所述学生用户的情绪为负面情绪时，生成负面情绪指令，并将所述负面情绪指令发送至所述教学终端，以使所述教师进行负面情绪应对处理。其中，负面情绪可以是惊讶、悲伤、恶心或恐惧，例如老师授课内容过快，学生跟不上(悲伤情绪)，老师授课内容过于抽象，学生无法理解(惊讶情绪)，老师授课过程中发脾气(恐惧情绪)等，则当老师通过教学终端识别出该情绪后，即可应急性采取相应的措施，例如安慰学生、语速放缓、重讲解一遍等。

情绪识别可采用人工智能的图像识别算法进行情绪识别。目前主流的应用技术中，可识别7类不同的情绪，分别是高兴、惊讶、生气、悲伤、恶心、恐惧和中立。其方法如下：

定位所述学生用户的人脸区域；

对所述面部器官进行特征点定位，识别出多个特征点，所述特征点定位采用活跃形状模型(Active Shape Modelling,ASM)方法；例如，可以识别出面部66个特征点；

对所述特征点进行归一化预处理；

基于预处理结果，采用MPEG-4标准中的面部绘制参数(Face AnimationParameter,FAP)提取出所述面部特征；

以上上述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于人工智能的教学直播方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述云服务器基于所述人脸图像进行学生用户的情绪识别；

3.根据权利要求2所述的方法，其特征在于，所述云服务器基于所述人脸图像进行学生用户的情绪识别，包括：

定位所述学生用户的人脸区域；

对所述特征点进行归一化预处理；

4.根据权利要求1所述的方法，其特征在于，在所述通过字幕形式同步显示在所述多个学习终端上之后，所述方法还包括：

对所述语音信息的语调进行识别；

5.根据权利要求4所述的方法，其特征在于，所述对所述语音信息的语调进行识别，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述云服务器基于所述人脸图像进行学生用户的疲劳程度识别，包括：

实时获取所述学生用户的人脸图像；

用人脸模型在图像中匹配人脸区域；

比较S1和S2,S1<S2即为睁眼，S2<S1即为闭眼；

用人脸模型匹配所述用户学生的嘴部区域；

若处于打哈欠状态，则通过获得的PERCLOS值和平均闭眼时长判定疲劳程度。