CN111783687A - 一种基于人工智能的教学直播方法 - Google Patents

一种基于人工智能的教学直播方法 Download PDF

Info

Publication number
CN111783687A
CN111783687A CN202010636776.8A CN202010636776A CN111783687A CN 111783687 A CN111783687 A CN 111783687A CN 202010636776 A CN202010636776 A CN 202010636776A CN 111783687 A CN111783687 A CN 111783687A
Authority
CN
China
Prior art keywords
teaching
cloud server
eye
terminal
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010636776.8A
Other languages
English (en)
Inventor
麦雪楹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Haixie Technology Co ltd
Original Assignee
Foshan Haixie Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan Haixie Technology Co ltd filed Critical Foshan Haixie Technology Co ltd
Priority to CN202010636776.8A priority Critical patent/CN111783687A/zh
Publication of CN111783687A publication Critical patent/CN111783687A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于人工智能的教学直播方法,包括:教学终端通过云服务器与多个学习终端建立通信,其中,教学终端用于采集教师的教学视频,学习终端用于接收教学视频,并为学生用户提供播放;在接收到直播指令后,教学终端开启直播,并将直播视频通过云服务器分发至多个学习终端;云服务器实时对视频中的语音信息进行语义识别,并通过字幕形式同步显示在多个学习终端上;学习终端通过内置摄像头实时采集学生人脸图像,并将人脸图像上传至云服务器;云服务器基于人脸图像进行学生用户的疲劳程度识别,并当疲劳程度超过阈值时,生成预警指令,并将预警指令发送至教学终端及学习终端,以使教学终端及学习终端分别进行疲劳预警操作。

Description

一种基于人工智能的教学直播方法
技术领域
本申请涉及教学直播领域,尤其涉及一种基于人工智能的教学直播方法。
背景技术
目前在直播领域出现了很多不同类别的直播,例如教学直播、带货直播、娱乐直播等,而作为远程教育的一个应用场景,教学直播一直是教育领域关注的热点。
目前的教学直播系统中,采用了教学终端-云服务器-学生终端的C-S-C架构,可实现视频的实时采集与多级传输,网络时延较低,但是,目前的教学直播只是教师单纯地进行课程讲解,没有互动,也不能知晓学生的听课状态,导致直播效果差、使用体验低。
发明内容
本申请实施例提供一种基于人工智能的教学直播方法,用于解决无法获取学生听课状态导致直播效果差的问题。
本发明实施例提供一种基于人工智能的教学直播方法,包括:
教学终端通过云服务器与多个学习终端建立通信,其中,所述教学终端用于采集教师的教学视频,所述学习终端用于接收所述教学视频,并为学生用户提供播放;
在接收到直播指令后,所述教学终端开启直播,并将直播视频通过云服务器分发至所述多个学习终端;
所述云服务器实时对视频中的语音信息进行语义识别,并通过字幕形式同步显示在所述多个学习终端上;
所述学习终端通过内置摄像头实时采集学生人脸图像,并将所述人脸图像上传至所述云服务器;
所述云服务器基于所述人脸图像进行学生用户的疲劳程度识别,并当所述疲劳程度超过阈值时,生成预警指令,并将所述预警指令发送至所述教学终端及所述学习终端,以使所述教学终端及所述学习终端分别进行疲劳预警操作。
可选地,所述方法还包括:
所述云服务器基于所述人脸图像进行学生用户的情绪识别;
当识别所述学生用户的情绪为负面情绪时,生成负面情绪指令,并将所述负面情绪指令发送至所述教学终端,以使所述教师进行负面情绪应对处理。
可选地,所述云服务器基于所述人脸图像进行学生用户的情绪识别,包括:
定位所述学生用户的人脸区域;
对所述面部器官进行特征点定位,识别出多个特征点,所述特征点定位采用活跃形状模型ASM方法;
对所述特征点进行归一化预处理;
基于预处理结果,采用MPEG-4标准中的面部绘制参数FAP提取出所述面部特征;
基于所述面部特征进行情绪识别,所述情绪包括高兴、惊讶、生气、悲伤、恶心、恐惧或中立,所述负面情绪为生气、悲伤、恶心或恐惧。
可选地,在所述通过字幕形式同步显示在所述多个学习终端上之后,所述方法还包括:
对所述语音信息的语调进行识别;
当所述语音语调高于预设阈值时,对所述字幕的部分或全部汉字进行加粗或高亮显示。
可选地,所述对所述语音信息的语调进行识别,包括:
对所述语音信息中的音量大小进行判断,或对所述语音信息中的语速快慢进行判断。
可选地,所述云服务器基于所述人脸图像进行学生用户的疲劳程度识别,包括:
实时获取所述学生用户的人脸图像;
用人脸模型在图像中匹配人脸区域;
通过模型中眼睛的相对位置,确定所述人脸图像中眼睛的位置;
对眼睛区域二值化处理,并利用直方图均衡化进行图像对比度增强;
建立睁眼和闭眼状态时的眼部灰度一维直方图标准H(open)、H(close),H=[h{x1,f(x1)},……,h{xn,f(xn)}],其中,h为直方图中的矩阵,x1~xn为n个级别灰度,f(xi)为该灰度级别所出现的频率;
计算出当前图像中的眼部一维直方图分别与睁眼状态标准直方图的差值和S1;
算出当前图像的一维直方图与闭眼状态标准直方图的差值和S2,其中S=∑[fnow(xi)-fstandard(xi)];
比较S1和S2,S1<S2即为睁眼,S2<S1即为闭眼;
计算PERCLOS值和平均闭眼时长t,其中所述PERCLOS为一定时间内眼睛的闭合程度;
用人脸模型匹配所述用户学生的嘴部区域;
对所述嘴部区域进行二值化处理,并利用直方图均衡化进行图像对比度增强;
识别出所述嘴型张开角度,并基于所述嘴型张开角度的变化曲线,确定是否处于打哈欠状态;
若处理打哈欠状态,则通过获得的PERCLOS值和平均闭眼时长判定疲劳程度。
上述提供的基于人工智能的教学直播的方法,通过对教学过程中的语音进行语义识别,同步输出文字,并对学生进行疲劳程度识别,在学生感觉到疲劳时进行预警,解决了教学直播中无法获取学生状态而导致直播效果差的问题,保证了教学质量,提升了教学直播效果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为一个实施例中基于人工智能的教学直播流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
本发明实施例提供了一种基于人工智能的教学直播方法,如图1所示,该方法包括:
S101、教学终端通过云服务器与多个学习终端建立通信,其中,所述教学终端用于采集教师的教学视频,所述学习终端用于接收所述教学视频,并为学生用户提供播放;
在本发明实施例中,教学终端和学习终端可以是各类智能终端,例如手机、平板电脑、笔记本电脑、PC、专用教学终端等。本发明对此并无限制。其中,教师用的是教学终端,学生用的是学习终端。
教学终端和云服务器、多个学习终端进行组网,形成典型的客户端-服务器-客户端架构(client-server-client,CSC),实现信令和数据互传。
S102、接收到直播指令后,所述教学终端开启直播,并将直播视频通过云服务器分发至所述多个学习终端;
在远程教育领域,教学终端实时采集教师的教学内容视频,并进行压缩,同步上传至云服务器,云服务器通过内容分发系统CDN将该教学内容视频分发至给学习终端,以实现教学内容的直播。
S103、所述云服务器实时对视频中的语音信息进行语义识别,并通过字幕形式同步显示在所述多个学习终端上;
云服务器采集到该视频后,将该视频分割为视频画面通道和声音通道,同时,对声音通道的语音信息进行人工智能声音识别,将该声音通道转变为字词句等语义信息,并通过字幕形式同步显示在多个学习终端上。
在现有技术中,语义识别相对比较成熟,本发明实施例可通过内置讯飞语音识别API接口进行识别,具体技术不再累述。
可选地,在本发明实施例中,在所述通过字幕形式同步显示在所述多个学习终端上之后,云服务器还可以对所述语音信息的语调进行识别;当所述语音语调高于预设阈值时,对所述字幕的部分或全部汉字进行加粗或高亮显示。例如,可以对所述语音信息中的音量大小进行判断,或对所述语音信息中的语速快慢进行判断。
S104、所述学习终端通过内置摄像头实时采集学生人脸图像,并将所述人脸图像上传至所述云服务器;
在开启直播的同时,为方便教师了解到学生的听课状态,需要对学生的听课状态进行有效监控,因此,在本发明实施例中,可通过对学生人脸图像进行采集并识别的方式进行监控。
S105、所述云服务器基于所述人脸图像进行学生用户的疲劳程度识别,并当所述疲劳程度超过阈值时,生成预警指令,并将所述预警指令发送至所述教学终端及所述学习终端,以使所述教学终端及所述学习终端分别进行疲劳预警操作。
对于人体疲劳的研究表明,眼睛闭合的频率和持续时间在某种程度上可以反映疲劳的状态。卡内基梅隆研究所经过反复试验和论证,提出了度量疲劳的物理PERCLOS。PERCLOS定义为一定时间内眼睛的闭合程度,它已经成为度量疲劳状态的一种科学有效的方法。当一定时间间隔内眼睛闭合所占的时间比例超过15%时即认为是疲劳状态。PERCLOS方法通过眼睛闭合所占的时间比例进行疲劳驾驶的判定。但是,眼睛的大小因人而异,眼睛的面积因受所在场景和头部运动的影响也是动态变化的,眼睛的睁开程度是相对于自身的最大睁开状态而言的。时间可以转换为视频帧数,在判断眼睛的状态特征时,本发明实施例使用的是类PERCLOS的方法。
目前,PERCLO方法有三种判断疲劳的不同准则,分别EM准则、P70准则、P80准则。其具体含义如下:
EM准则:瞳孔被眼睑覆盖超50%的面积,则认为眼睛是闭合的;
P70准则:瞳孔被眼睑覆盖超70%的面积,则认为眼睛是闭合的;
P80准则:瞳孔被眼睑覆盖超过80%的面积,则认为眼睛是闭合的。
当人注意力特别集中或处在沉思状态时可能也会有眼睑覆盖瞳孔超过50%甚至70%的可能,所以本发明实施例中采用的是P80准则。
统计表明,人在一分钟之内要眨十次左右的眼睛,每次需要0.304秒左右,两次眨眼之间的间隔约为2.840秒。眼睛闭合的频率以及闭合时间的长短与疲劳有密切联系,如果连续监测到学生的PERCLOS>30%且平均闭眼时长>0.25s(阈值),就判定学生处于疲劳状态,并发出报警。
可选地,在上述方法中,识别率在70%左右。为了保证识别的准确率,还需要增加识别学生是否在打哈欠,当且仅当学生在打哈欠识别成功后,再检测PERCLOS值,最终判断该学生是否处于疲劳状态。
基于此,本发明实施例中提供一种疲劳检测的方法,具体如下:
S1051、实时获取所述学生用户的人脸图像;
S1052、用人脸模型在图像中匹配人脸区域;
S1053、通过模型中眼睛的相对位置,确定所述人脸图像中眼睛的位置;
S1054、对眼睛区域二值化处理,并利用直方图均衡化进行图像对比度增强;
S1055、建立睁眼和闭眼状态时的眼部灰度一维直方图标准H(open)、H(close),H=[h{x1,f(x1)},……,h{xn,f(xn)}],其中,h为直方图中的矩阵,x1~xn为n个级别灰度,f(xi)为该灰度级别所出现的频率;
S1056、计算出当前图像中的眼部一维直方图分别与睁眼状态标准直方图的差值和S1;
S1057、算出当前图像的一维直方图与闭眼状态标准直方图的差值和S2,其中S=∑[fnow(xi)-fstandard(xi)];
S1058、比较S1和S2,S1<S2即为睁眼,S2<S1即为闭眼;
S1059、计算PERCLOS值和平均闭眼时长t,其中所述PERCLOS为一定时间内眼睛的闭合程度;
S10510、用人脸模型匹配所述用户学生的嘴部区域;
S10511、对所述嘴部区域进行二值化处理,并利用直方图均衡化进行图像对比度增强;
S10512、识别出所述嘴型张开角度,并基于所述嘴型张开角度的变化曲线,确定是否处于打哈欠状态;
S10513、若处于打哈欠状态,则通过获得的PERCLOS值和平均闭眼时长判定疲劳程度。
此外,本发明实施例中,还可以对学生用户进行情绪识别,具体为:
所述云服务器基于所述人脸图像进行学生用户的情绪识别;当识别所述学生用户的情绪为负面情绪时,生成负面情绪指令,并将所述负面情绪指令发送至所述教学终端,以使所述教师进行负面情绪应对处理。其中,负面情绪可以是惊讶、悲伤、恶心或恐惧,例如老师授课内容过快,学生跟不上(悲伤情绪),老师授课内容过于抽象,学生无法理解(惊讶情绪),老师授课过程中发脾气(恐惧情绪)等,则当老师通过教学终端识别出该情绪后,即可应急性采取相应的措施,例如安慰学生、语速放缓、重讲解一遍等。
情绪识别可采用人工智能的图像识别算法进行情绪识别。目前主流的应用技术中,可识别7类不同的情绪,分别是高兴、惊讶、生气、悲伤、恶心、恐惧和中立。其方法如下:
定位所述学生用户的人脸区域;
对所述面部器官进行特征点定位,识别出多个特征点,所述特征点定位采用活跃形状模型(Active Shape Modelling,ASM)方法;例如,可以识别出面部66个特征点;
对所述特征点进行归一化预处理;
基于预处理结果,采用MPEG-4标准中的面部绘制参数(Face AnimationParameter,FAP)提取出所述面部特征;
基于所述面部特征进行情绪识别,所述情绪包括高兴、惊讶、生气、悲伤、恶心、恐惧或中立,所述负面情绪为生气、悲伤、恶心或恐惧。
上述提供的基于人工智能的教学直播的方法,通过对教学过程中的语音进行语义识别,同步输出文字,并对学生进行疲劳程度识别,在学生感觉到疲劳时进行预警,解决了教学直播中无法获取学生状态而导致直播效果差的问题,保证了教学质量,提升了教学直播效果。
以上上述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于人工智能的教学直播方法,其特征在于,包括:
教学终端通过云服务器与多个学习终端建立通信,其中,所述教学终端用于采集教师的教学视频,所述学习终端用于接收所述教学视频,并为学生用户提供播放;
在接收到直播指令后,所述教学终端开启直播,并将直播视频通过云服务器分发至所述多个学习终端;
所述云服务器实时对视频中的语音信息进行语义识别,并通过字幕形式同步显示在所述多个学习终端上;
所述学习终端通过内置摄像头实时采集学生人脸图像,并将所述人脸图像上传至所述云服务器;
所述云服务器基于所述人脸图像进行学生用户的疲劳程度识别,并当所述疲劳程度超过阈值时,生成预警指令,并将所述预警指令发送至所述教学终端及所述学习终端,以使所述教学终端及所述学习终端分别进行疲劳预警操作。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述云服务器基于所述人脸图像进行学生用户的情绪识别;
当识别所述学生用户的情绪为负面情绪时,生成负面情绪指令,并将所述负面情绪指令发送至所述教学终端,以使所述教师进行负面情绪应对处理。
3.根据权利要求2所述的方法,其特征在于,所述云服务器基于所述人脸图像进行学生用户的情绪识别,包括:
定位所述学生用户的人脸区域;
对所述面部器官进行特征点定位,识别出多个特征点,所述特征点定位采用活跃形状模型ASM方法;
对所述特征点进行归一化预处理;
基于预处理结果,采用MPEG-4标准中的面部绘制参数FAP提取出所述面部特征;
基于所述面部特征进行情绪识别,所述情绪包括高兴、惊讶、生气、悲伤、恶心、恐惧或中立,所述负面情绪为生气、悲伤、恶心或恐惧。
4.根据权利要求1所述的方法,其特征在于,在所述通过字幕形式同步显示在所述多个学习终端上之后,所述方法还包括:
对所述语音信息的语调进行识别;
当所述语音语调高于预设阈值时,对所述字幕的部分或全部汉字进行加粗或高亮显示。
5.根据权利要求4所述的方法,其特征在于,所述对所述语音信息的语调进行识别,包括:
对所述语音信息中的音量大小进行判断,或对所述语音信息中的语速快慢进行判断。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述云服务器基于所述人脸图像进行学生用户的疲劳程度识别,包括:
实时获取所述学生用户的人脸图像;
用人脸模型在图像中匹配人脸区域;
通过模型中眼睛的相对位置,确定所述人脸图像中眼睛的位置;
对眼睛区域二值化处理,并利用直方图均衡化进行图像对比度增强;
建立睁眼和闭眼状态时的眼部灰度一维直方图标准H(open)、H(close),H=[h{x1,f(x1)},……,h{xn,f(xn)}],其中,h为直方图中的矩阵,x1~xn为n个级别灰度,f(xi)为该灰度级别所出现的频率;
计算出当前图像中的眼部一维直方图分别与睁眼状态标准直方图的差值和S1;
算出当前图像的一维直方图与闭眼状态标准直方图的差值和S2,其中S=∑[fnow(xi)-fstandard(xi)];
比较S1和S2,S1<S2即为睁眼,S2<S1即为闭眼;
计算PERCLOS值和平均闭眼时长t,其中所述PERCLOS为一定时间内眼睛的闭合程度;
用人脸模型匹配所述用户学生的嘴部区域;
对所述嘴部区域进行二值化处理,并利用直方图均衡化进行图像对比度增强;
识别出所述嘴型张开角度,并基于所述嘴型张开角度的变化曲线,确定是否处于打哈欠状态;
若处于打哈欠状态,则通过获得的PERCLOS值和平均闭眼时长判定疲劳程度。
CN202010636776.8A 2020-07-03 2020-07-03 一种基于人工智能的教学直播方法 Withdrawn CN111783687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010636776.8A CN111783687A (zh) 2020-07-03 2020-07-03 一种基于人工智能的教学直播方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010636776.8A CN111783687A (zh) 2020-07-03 2020-07-03 一种基于人工智能的教学直播方法

Publications (1)

Publication Number Publication Date
CN111783687A true CN111783687A (zh) 2020-10-16

Family

ID=72759428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010636776.8A Withdrawn CN111783687A (zh) 2020-07-03 2020-07-03 一种基于人工智能的教学直播方法

Country Status (1)

Country Link
CN (1) CN111783687A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528799A (zh) * 2020-12-02 2021-03-19 广州宏途教育网络科技有限公司 一种教学直播方法、装置、计算机设备和存储介质
CN112528790A (zh) * 2020-12-02 2021-03-19 中国平安人寿保险股份有限公司 基于行为识别的教学管理方法、装置及服务器
CN113177026A (zh) * 2021-04-16 2021-07-27 宋彦震 基于教学视频直播的弹幕学习笔记管理方法
CN114125537A (zh) * 2021-11-29 2022-03-01 Oook(北京)教育科技有限责任公司 直播教学的讨论方法、装置、介质和电子设备
CN114998975A (zh) * 2022-07-15 2022-09-02 电子科技大学成都学院 一种基于大数据的外语教学方法及装置
CN117610806A (zh) * 2023-10-19 2024-02-27 广东清正科技有限公司 一种基于vr技术的实景互动教学管理系统及方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528799A (zh) * 2020-12-02 2021-03-19 广州宏途教育网络科技有限公司 一种教学直播方法、装置、计算机设备和存储介质
CN112528790A (zh) * 2020-12-02 2021-03-19 中国平安人寿保险股份有限公司 基于行为识别的教学管理方法、装置及服务器
CN113177026A (zh) * 2021-04-16 2021-07-27 宋彦震 基于教学视频直播的弹幕学习笔记管理方法
CN113177026B (zh) * 2021-04-16 2022-11-22 山东亿方锦泽信息科技有限公司 基于教学视频直播的弹幕学习笔记管理方法
CN114125537A (zh) * 2021-11-29 2022-03-01 Oook(北京)教育科技有限责任公司 直播教学的讨论方法、装置、介质和电子设备
CN114125537B (zh) * 2021-11-29 2023-07-25 Oook(北京)教育科技有限责任公司 直播教学的讨论方法、装置、介质和电子设备
CN114998975A (zh) * 2022-07-15 2022-09-02 电子科技大学成都学院 一种基于大数据的外语教学方法及装置
CN117610806A (zh) * 2023-10-19 2024-02-27 广东清正科技有限公司 一种基于vr技术的实景互动教学管理系统及方法

Similar Documents

Publication Publication Date Title
CN111783687A (zh) 一种基于人工智能的教学直播方法
CN109522815B (zh) 一种专注度评估方法、装置及电子设备
CN107203953B (zh) 一种基于互联网、表情识别和语音识别的教学系统及其实现方法
CN109726624B (zh) 身份认证方法、终端设备和计算机可读存储介质
US20190012599A1 (en) Multimodal machine learning for emotion metrics
CN106599881A (zh) 学生状态的确定方法、装置及系统
CN116484318B (zh) 一种演讲训练反馈方法、装置及存储介质
Yargıç et al. A lip reading application on MS Kinect camera
CN110992222A (zh) 教学交互方法、装置、终端设备及存储介质
CN110837750A (zh) 一种人脸质量评价方法与装置
CN114708658A (zh) 一种在线学习专注度识别方法
EP4163881A1 (en) Video highlight extraction method and system, and storage medium
CN114495217A (zh) 基于自然语言和表情分析的场景分析方法、装置及系统
Lefter et al. Addressing multimodality in overt aggression detection
CN117292022A (zh) 基于虚拟对象的视频生成方法、装置及电子设备
CN116229311B (zh) 视频处理方法、装置及存储介质
US11983309B2 (en) Device and method to acquire timing of blink motion performed by a dialogue device
CN109977891A (zh) 一种基于神经网络的目标检测与识别方法
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
CN115905977A (zh) 家庭同胞互动过程中负面情绪的监督系统及方法
CN113076885B (zh) 一种基于人眼动作特征的专注度分级方法及系统
CN113762056A (zh) 演唱视频识别方法、装置、设备及存储介质
JP6838739B2 (ja) 近時記憶支援装置
CN116843805B (zh) 一种包含行为的虚拟形象生成方法、装置、设备及介质
Gupta et al. An adaptive system for predicting student attentiveness in online classrooms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201016