CN114998968A - 一种基于音视频分析课堂交互行为的方法 - Google Patents
一种基于音视频分析课堂交互行为的方法 Download PDFInfo
- Publication number
- CN114998968A CN114998968A CN202210686072.0A CN202210686072A CN114998968A CN 114998968 A CN114998968 A CN 114998968A CN 202210686072 A CN202210686072 A CN 202210686072A CN 114998968 A CN114998968 A CN 114998968A
- Authority
- CN
- China
- Prior art keywords
- audio
- speaker
- interaction behavior
- classroom interaction
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000006399 behavior Effects 0.000 claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 12
- 230000000694 effects Effects 0.000 claims abstract description 9
- 230000008859 change Effects 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 230000007547 defect Effects 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000013145 classification model Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 claims description 2
- 230000004807 localization Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000012545 processing Methods 0.000 abstract description 4
- 238000011161 development Methods 0.000 abstract description 2
- 230000018109 developmental process Effects 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract 1
- 230000003111 delayed effect Effects 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003012 network analysis Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000012482 interaction analysis Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
- G09B5/065—Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Electrically Operated Instructional Devices (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于音视频分析课堂交互行为的方法,包括如下步骤:通过教室中录音设备收录音频数据,利用说话人分割聚类算法处理得到课堂说话人变化序列,分析序列变化得到言语类课堂交互行为;通过教室中摄像头采集讲台上下视频数据,利用自搭建人脸检测网络FDN和人体站立姿态识别网络得到教师和学生位置信息,以音频说话人序列作为辅助分析得到非言语类课堂交互序行为。本发明解决了现有课堂交互行为分析方法无法充分利用课堂数据、反馈滞后等问题,利用深度学习技术实现自动化课堂交互行为分析,能够及时且客观反馈教学情况、有效促进教学活动的开展。
Description
技术领域
本发明涉及语音信号处理和计算机视觉技术领域,尤其涉及一种基于音视频分析课堂交互行为的方法。
背景技术
传统的课堂交互分析主要是通过人力方式展开,往往采取线下听课、网上问卷的形式来分析课堂。在处理所收集到的评价数据时,使用的工具为Office办公软件。传统方式往往无法对教学质量进行客观评价和详尽评估。同时对于课堂场景下产生的大量数据,也无法物尽其用,会导致评价数据过于单一、积累量小且分析维度欠缺。然而对课堂进行评价旨在提升教学质量,帮助高校教师发现教学存在的缺陷进而调整自我。人工智能的快速发展极大地加速了教育信息化进程。现有的利用信息技术手段去分析课堂交互行为的方法对于课堂数据的利用不够完整,所涵盖的课堂交互行为种类较少,无法对课堂交互进行全面且精准的刻画。
例如:中国专利(专利申请号CN201910702610.9)公开了一种基于声学信号的课堂交互网络分析方法,其技术方案通过采集课堂语音信号,将其转换成音频信号。对音频信号使用声纹识别和情绪识别技术,得到每段音频的说话人起始位置、性别以及情绪状态。同时使用社交网络分析手段对说话人进行建模构建,最终描述了课堂中交互个体的差异以及课堂的交互组成。该技术存在的缺点:1.其基于声纹特征对课堂交互行为进行分析,需要分析出说话人情绪、性别等特征,非常依赖于音频源的质量;2.分析维度欠缺,仅使用课堂音频数据对课堂交互行为进行分析,同时并未给出具体的课堂交互分类结果。
目前传统课堂交互行为分析方法不够精准且反馈滞后,已有利用信息技术的课堂交互行为分析方法分析维度不够全面、最终结果可视化效果不佳。
发明内容
1.要解决的技术问题
本发明的目的是为了解决现有技术中传统课堂交互行为分析方法不够精准且反馈滞后,已有利用信息技术的课堂交互行为分析方法分析维度不够全面、最终结果可视化效果不佳的问题,而提出的一种基于音视频分析课堂交互行为的方法。
2.技术方案
为了实现上述目的,本发明采用了如下技术方案:
一种基于音视频分析课堂交互行为的方法,包括如下步骤:
S1、通过录音设备采集课程中音频数据,通过摄像头采集到讲台上和讲台下两个视角的视频数据。
S2、将步骤S1中的音频数据输入到说话人分割聚类算法中,得到课堂场景中说话人序列;将步骤S1中的讲台上视频数据输入到人脸检测算法中,得到讲台上人脸个数;将步骤S1中的讲台下视频数据输入到人体站立姿态检测算法中,得到讲台下站立姿态检测结果。
S3、将步骤S2中的说话人序列进行角色区分,说话时间最长的标记为教师,其余为学生,根据角色变化分析得到言语类课堂交互行为;将步骤S2得到的讲台上人脸个数和讲台下人体站立姿态结果,结合说话人角色序列得到教师与学生位置关系,最终分析得到非言语类课堂交互行为。
优选地,所述说话人分割聚类算法包含三个模块:数据前处理模块、LA-TDNN模块、说话人聚类模块。
优选地,所述数据前处理模块用于对语音数据进行特征参数提取、语音活动检测以及与语音时序分段。
优选地,所述LA-TDNN模块以TDNN为基础进行相应的改良。在帧级特征提取部分增加了LSTM层,以弥补TDNN的时间延迟层只关注局部特征的缺点,在时域池化部分将传统的基于统计池化替换成了基于双重多头注意力机制的池化,通过注意力机制为不同帧提供不同的权重,能够更有效的捕捉说话人特征。
优选地,所述说话人聚类模块学习LA-TDNN输出的x-vector,建立PLDA模型,采用适当的无监督聚类方法,利用PLDA模型计算说话人特征之间的相似性,判断两者是否属于统一说话人,从而达到聚类的效果。
优选地,所述S2中人脸检测算法包含三个模块:特征提取模块、特征融合模块、回归与分类模块。
优选地,所述特征提取模块根据残差网络思想构建特征提取网络,负责从原始图像中提取有效特征,同时使得模型训练和收敛速度更快。
优选地,所述特征融合模块采用双向特征融合机制充分结合深层和浅层信息,在传统FPN模块之后根据PANet的思想增加了一个自底向上的融合过程,PANet使得自底向上的路径增强,FPN层自顶向下传达强语义特征,而PANet自底向上传达强定位特征。
优选地,所述回归与分类模块为了解决分类得分和回归准确率相关性比较低,在框回归子网络中增加一个IoU预测分支,将IoU预测值和分类得分共同作为最终的检测置信度,最终得到得到所包含的目标框位置和类别信息。
优选地,所述人体站立姿态检测算法包含两个模块:人体动作特征提取模块、分类模块;其中人体动作特征提取模块,利用OpenPose 提取人体站立姿态关键点,并将所有关键点信息整合起来;分类模块利用MLPClassifier构建二分类模型,将人体站立姿态关键点信息送入分类网络进行训练,最终得到人体站立姿态检测模型。
3.有益效果
相比于现有技术,本发明的优点在于:
(1)本发明中,摒弃了利用人力的方式,聚焦于高校课堂场景,结合理论和实践研究对现有的课堂交互行为分析框架提供了新的分析视角。同时提出了利用音视频和多种人工智能技术来分析课堂交互行为的算法,降低人力成本、有效提升课堂交互行为分析的质量。
(2)本发明中,提出了一种精确度更高的说话人分割聚类算法,该算法在公开数据集上说话人分离错误率仅有16.63%。
(3)本发明中,提出了一种检测速度更快且针对小目标的人脸检测算法,该算法在WiderFace困难目标验证集和测试集上AP表现分别为90.2%、89.7%。
附图说明
图1为本发明提出的基于音视频分析课堂交互行为的流程图;
图2为本发明提出的说话人分割聚类算法的网络结构图;
图3为本发明提出的FDN人脸检测算法的网络结构图;
图4本发明提出的说话人序列变化图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1:
参照图1-4,一种基于音视频分析课堂交互行为的方法,包括如下步骤:
S1、通过录音设备采集课程中音频数据,通过摄像头采集到讲台上和讲台下两个视角的视频数据。
S2、将步骤S1中的音频数据输入到说话人分割聚类算法中,得到课堂场景中说话人序列;将步骤S1中的讲台上视频数据输入到人脸检测算法中,得到讲台上人脸个数;将步骤S1中的讲台下视频数据输入到人体站立姿态检测算法中,得到讲台下站立姿态检测结果。
如图2所示,说话人分割聚类算法网络包含三个模块:数据前处理模块、LA-TDNN模块、说话人聚类模块。数据前处理包括对语音数据进行特征参数提取、语音活动检测以及与语音时序分段。LA-TDNN 为提出说话人特征,采取融合LSTM和双重多头自注意力机制的说话人特征提取网络架构。说话人聚类包括对说话人特征提取网络输出的说话人特征建立高斯PLDA模型和进行无监督聚类。
如图3所示,人脸检测算法包含三个模块:特征提取模块、特征融合模块、回归与分类模块。特征提取网络根据残差网络思想设计,任务是得到特征图。框分类网络在输出的特征图上使用卷积得到物体的分类,框回归网络使用卷积得到框回归值。为了解决分类得分和定位准确率相关性比较低,在框回归子网络中增加一个IoU预测分支,将IoU预测值和分类得分共同作为最终的检测置信度。
S3、将步骤S2中的说话人序列进行角色区分,说话时间最长的标记为教师,其余为学生,根据角色变化分析得到言语类课堂交互行为;将步骤S2得到的讲台上人脸个数和讲台下人体站立姿态结果,结合说话人角色序列得到教师与学生位置关系,最终分析得到非言语类课堂交互行为。
实施例2:
言语类课堂交互行为分析流程包括如下步骤:
步骤一、对得到的说话人序列数据进行预处理,说话时长少于 50ms的设定为干扰噪声,从结果数据中剔除;
步骤二、统计所有角色的活动语音时长,将时长最长的角色标记为老师。其余角色统一为学生;
步骤三、借助栈的思想,将说话人时序变化数据入栈,若已入栈序列匹配到不同言语类课堂交互,则将栈中数据依次弹出,并记录下课堂交互行为。
非言语类课堂交互行为分析过程中,首先对原始视频数据进行抽帧处理,设定每5分钟截取1张图片,然后依次将这些图片送入人脸检测网络中检测是否含有人脸。根据人脸的数据以及第3章得出的每段音频的说话人序列,判断此时讲台上人脸的角色信息,同时根据讲台下视角人体站姿检测,从而得出最终的课堂交互行为结果。
本发明中,摒弃了利用人力的方式,聚焦于高校课堂场景,结合理论和实践研究对现有的课堂交互行为分析框架提供了新的分析视角。同时提出了利用音视频和多种人工智能技术来分析课堂交互行为的算法,降低人力成本、有效提升课堂交互行为分析的质量。
本发明中,提出的一种精确度更高的说话人分割聚类算法,该算法在公开数据集上说话人分离错误率仅有16.63%,提出了一种检测速度更快且针对小目标的人脸检测算法,该算法在WiderFace困难目标验证集和测试集上AP表现分别为90.2%、89.7%。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于音视频分析课堂交互行为的方法,其特征在于,包括如下步骤:
S1、通过录音设备采集课程中音频数据,通过摄像头采集到讲台上和讲台下两个视角的视频数据。
S2、将步骤S1中的音频数据输入到说话人分割聚类算法中,得到课堂场景中说话人序列;将步骤S1中的讲台上视频数据输入到人脸检测算法中,得到讲台上人脸个数;将步骤S1中的讲台下视频数据输入到人体站立姿态检测算法中,得到讲台下站立姿态检测结果。
S3、将步骤S2中的说话人序列进行角色区分,说话时间最长的标记为教师,其余为学生,根据角色变化分析得到言语类课堂交互行为;将步骤S2得到的讲台上人脸个数和讲台下人体站立姿态结果,结合说话人角色序列得到教师与学生位置关系,最终分析得到非言语类课堂交互行为。
2.根据权利要求1所述的一种基于音视频分析课堂交互行为的方法,其特征在于,所述说话人分割聚类算法包含三个模块:数据前处理模块、LA-TDNN模块、说话人聚类模块。
3.根据权利要求2所述的一种基于音视频分析课堂交互行为的方法,其特征在于,所述数据前处理模块用于对语音数据进行特征参数提取、语音活动检测以及与语音时序分段。
4.根据权利要求2所述的一种基于音视频分析课堂交互行为的方法,其特征在于,所述LA-TDNN模块以TDNN为基础进行相应的改良。在帧级特征提取部分增加了LSTM层,以弥补TDNN的时间延迟层只关注局部特征的缺点,在时域池化部分将传统的基于统计池化替换成了基于双重多头注意力机制的池化,通过注意力机制为不同帧提供不同的权重,能够更有效的捕捉说话人特征。
5.根据权利要求2所述的一种基于音视频分析课堂交互行为的方法,其特征在于,所述说话人聚类模块学习LA-TDNN输出的x-vector,建立PLDA模型,采用适当的无监督聚类方法,利用PLDA模型计算说话人特征之间的相似性,判断两者是否属于统一说话人,从而达到聚类的效果。
6.根据权利要求1所述的一种基于音视频分析课堂交互行为的方法,其特征在于,所述S2中人脸检测算法包含三个模块:特征提取模块、特征融合模块、回归与分类模块。
7.根据权利要求6所述的一种基于音视频分析课堂交互行为的方法,其特征在于,所述特征提取模块根据残差网络思想构建特征提取网络,负责从原始图像中提取有效特征,同时使得模型训练和收敛速度更快。
8.根据权利要求6所述的一种基于音视频分析课堂交互行为的方法,其特征在于,所述特征融合模块采用双向特征融合机制充分结合深层和浅层信息,在传统FPN模块之后根据PANet的思想增加了一个自底向上的融合过程,PANet使得自底向上的路径增强,FPN层自顶向下传达强语义特征,而PANet自底向上传达强定位特征。
9.根据权利要求6所述的一种基于音视频分析课堂交互行为的方法,其特征在于,所述回归与分类模块为了解决分类得分和回归准确率相关性比较低,在框回归子网络中增加一个IoU预测分支,将IoU预测值和分类得分共同作为最终的检测置信度,最终得到得到所包含的目标框位置和类别信息。
10.根据权利要求1所述的一种基于音视频分析课堂交互行为的方法,其特征在于,所述人体站立姿态检测算法包含两个模块:人体动作特征提取模块、分类模块;其中人体动作特征提取模块,利用OpenPose提取人体站立姿态关键点,并将所有关键点信息整合起来;分类模块利用MLPClassifier构建二分类模型,将人体站立姿态关键点信息送入分类网络进行训练,最终得到人体站立姿态检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210686072.0A CN114998968B (zh) | 2022-06-16 | 2022-06-16 | 一种基于音视频分析课堂交互行为的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210686072.0A CN114998968B (zh) | 2022-06-16 | 2022-06-16 | 一种基于音视频分析课堂交互行为的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114998968A true CN114998968A (zh) | 2022-09-02 |
CN114998968B CN114998968B (zh) | 2024-05-31 |
Family
ID=83035472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210686072.0A Active CN114998968B (zh) | 2022-06-16 | 2022-06-16 | 一种基于音视频分析课堂交互行为的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998968B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492375A (zh) * | 2016-06-13 | 2017-12-19 | 深圳市巨龙科教高技术股份有限公司 | 一种课堂行为分析方法和系统 |
CN108399376A (zh) * | 2018-02-07 | 2018-08-14 | 华中师范大学 | 学生课堂学习兴趣智能分析方法及系统 |
WO2019095446A1 (zh) * | 2017-11-17 | 2019-05-23 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评价功能的跟随教学系统 |
CN110232531A (zh) * | 2019-06-26 | 2019-09-13 | 安徽米阳智能科技有限公司 | 一种教室课堂行为分析系统 |
CN111046819A (zh) * | 2019-12-18 | 2020-04-21 | 浙江大华技术股份有限公司 | 一种行为识别处理方法及装置 |
CN111461173A (zh) * | 2020-03-06 | 2020-07-28 | 华南理工大学 | 一种基于注意力机制的多说话人聚类系统及方法 |
CN111709358A (zh) * | 2020-06-14 | 2020-09-25 | 东南大学 | 基于课堂视频的师生行为分析系统 |
-
2022
- 2022-06-16 CN CN202210686072.0A patent/CN114998968B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492375A (zh) * | 2016-06-13 | 2017-12-19 | 深圳市巨龙科教高技术股份有限公司 | 一种课堂行为分析方法和系统 |
WO2019095446A1 (zh) * | 2017-11-17 | 2019-05-23 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评价功能的跟随教学系统 |
CN108399376A (zh) * | 2018-02-07 | 2018-08-14 | 华中师范大学 | 学生课堂学习兴趣智能分析方法及系统 |
CN110232531A (zh) * | 2019-06-26 | 2019-09-13 | 安徽米阳智能科技有限公司 | 一种教室课堂行为分析系统 |
CN111046819A (zh) * | 2019-12-18 | 2020-04-21 | 浙江大华技术股份有限公司 | 一种行为识别处理方法及装置 |
CN111461173A (zh) * | 2020-03-06 | 2020-07-28 | 华南理工大学 | 一种基于注意力机制的多说话人聚类系统及方法 |
CN111709358A (zh) * | 2020-06-14 | 2020-09-25 | 东南大学 | 基于课堂视频的师生行为分析系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114998968B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sadjadi et al. | The 2021 NIST speaker recognition evaluation | |
CN108399376B (zh) | 学生课堂学习兴趣智能分析方法及系统 | |
US11276407B2 (en) | Metadata-based diarization of teleconferences | |
CN108648757B (zh) | 一种基于多维度课堂信息的分析方法 | |
Sadjadi et al. | The 2019 NIST Audio-Visual Speaker Recognition Evaluation. | |
CN110544481B (zh) | 一种基于声纹识别的s-t分类方法、装置及设备终端 | |
CN110991238B (zh) | 一种基于语音情感分析和微表情识别的演讲辅助系统 | |
CN112183334B (zh) | 一种基于多模态特征融合的视频深度关系分析方法 | |
CN110427977B (zh) | 一种课堂互动行为的检测方法 | |
CN108876951A (zh) | 一种基于声音识别的教学考勤方法 | |
CN113076770A (zh) | 基于方言识别的人物画像智能终端 | |
CN112329438A (zh) | 基于域对抗训练的自动谎言检测方法及系统 | |
CN116050892A (zh) | 一种基于人工智能的智能教育评价监督方法 | |
CN113920534A (zh) | 一种视频精彩片段提取方法、系统和存储介质 | |
US20220157322A1 (en) | Metadata-based diarization of teleconferences | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
CN113837594A (zh) | 多场景下客服的质量评价方法、系统、设备及介质 | |
CN114998968B (zh) | 一种基于音视频分析课堂交互行为的方法 | |
CN115905977A (zh) | 家庭同胞互动过程中负面情绪的监督系统及方法 | |
CN113313982B (zh) | 一种基于5g网络的教育系统 | |
CN112885356B (zh) | 一种基于声纹的语音识别方法 | |
CN108629024A (zh) | 一种基于声音识别的教学考勤方法 | |
CN111950472A (zh) | 教师磨课测评方法及系统 | |
Liu et al. | Design of Voice Style Detection of Lecture Archives | |
CN110353703A (zh) | 基于鹦鹉学舌语言范式行为分析的孤独症评估装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |