CN118071551A

CN118071551A - 基于人工智能的智慧课堂学生参与度多维评估方法及系统

Info

Publication number: CN118071551A
Application number: CN202410116738.8A
Authority: CN
Inventors: 吴昊; 郭艺涵
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-05-24

Abstract

本发明公开了一种基于人工智能的智慧课堂学生参与度多维评估方法及系统，涉及音视频数据处理技术领域。该方法包括：提取学生听课视频中的图像；进行人脸检测，以得到对应的人脸区域图像；对每个人脸区域图像进行专注度检测；确定学习专注度；实时采集课堂中的发言语音信号，进行声纹识别，若为学生身份，则对该学生的发言语音信号进行识别，根据语音内容识别结果判定是否为有效发言；确定发言踊跃度；根据该课堂学生的学习专注度和发言踊跃度对该课堂学生的参与度进行评估。本发明结合多种智能模型实现精准高效的学习专注度检测、身份识别及语音内容识别；结合学习专注度和发言踊跃度，从多个维度对学生的参与度进行更加有效的评估。

Description

基于人工智能的智慧课堂学生参与度多维评估方法及系统

技术领域

本发明涉及音视频数据处理技术领域，具体而言，涉及一种基于人工智能的智慧课堂学生参与度多维评估方法及系统。

背景技术

随着教育理念的发展和社会需求的变化，需要更加全面、深入地提升教学质量。为了实现这一目标，教师也在不断地探索和创新教学方法。在实际授课过程中，学生的参与度作为重要的评价指标能够直接反应教师的教学质量，对教师改进教学方法有较好的指导作用。

以往，学生的参与度往往通过听课等方式进行评估，消耗了巨大的人力资源。尽管部分信息技术已经应用于学生参与度的评估，但评估效果仍然不够理想。因此，充分利用人工智能领域的相关技术，实现智慧课堂学生参与度多维评估有非常重要的价值和意义。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明提供一种基于人工智能的智慧课堂学生参与度多维评估方法及系统，结合基于图像金字塔的卷积神经网络加权校验式专注度检测模型、基于多语音去噪结果优选的互验式声纹识别模型、基于识别置信度评估的智能语音识别模型，实现精准高效的学习专注度检测、身份识别及语音内容识别；结合学习专注度和发言踊跃度，从多个维度对学生的参与度进行更加有效的评估。

为解决上述技术问题，本发明采用的技术方案为：

第一方面，本发明提供一种基于人工智能的智慧课堂学生参与度多维评估方法，包括以下步骤：

采集课堂中学生听课视频，按照预设的提取周期提取学生听课视频中的图像，以得到多幅图像；

利用人脸检测技术分别对各幅图像中的人脸进行检测，以得到各幅图像对应的一个或多个人脸区域图像；

利用基于图像金字塔的卷积神经网络加权校验式专注度检测模型，对各幅图像对应的每个人脸区域图像进行专注度检测，生成并根据专注度检测结果确定对应图像的高专注度学生比率；

根据所有图像的高专注度学生比率确定该课堂学生的学习专注度；

实时采集课堂中的发言语音信号，并利用基于多语音去噪结果优选的声纹识别模型进行声纹识别，以得到声纹识别结果，若声纹识别结果为学生身份，则记录该学生的身份信息；

利用基于识别置信度评估的智能语音识别模型，对该学生的发言语音信号进行语音识别，以得到语音内容识别结果；

若语音内容识别结果包括预置的课堂学习内容数据，则认定该同学的发言为有效发言；

计算并根据课堂中进行有效发言的同学的比率，确定该课堂学生的发言踊跃度；

根据该课堂学生的学习专注度和发言踊跃度对该课堂学生的参与度进行评估，以得到最终的参与度评估结果。

首先，本发明提出了基于图像金字塔的卷积神经网络加权校验式专注度检测模型，对人脸区域图像进行专注度检测；该模型对多个尺度的人脸区域图像进行检测，将所有尺度的人脸区域图像的检测结果进行加权，并根据加权结果得到该人脸区域图像的专注度检测结果，显著地提升了人脸区域图像的专注度检测精度。其次，本发明提出了基于多语音去噪结果优选的互验式声纹识别模型，对提取的语音信号进行声纹识别；该模型在多个去噪语音信号中选出最优的去噪语音信号，在此基础上利用多种声纹识别模型互验的方式对发言同学的身份进行识别，显著地提升了发言同学的身份识别精度。再次，本发明提出了基于识别置信度评估的智能语音识别模型，对同学的发言语音信号进行语音识别；该模型通过识别结果的语义合理性对识别结果的置信度进行评估，若识别置信度较低则利用基于深度学习的语音识别模型再次对该语音信号进行识别，这种语音识别方案能够在保证识别精准度的前提下显著降低计算资源消耗。最后，本发明充分结合了学习专注度和发言踊跃度，从多个维度对学生的参与度进行更加有效的评估。

基于第一方面，进一步地，上述利用基于图像金字塔的卷积神经网络加权校验式专注度检测模型，对各幅图像对应的每个人脸区域图像进行专注度检测的方法包括以下步骤：

针对任意一幅图像，将任意一个人脸区域图像进行多尺度重建，以得到多个不同尺度的人脸区域图像，利用预置的基于卷积神经网络的专注度检测模型对多个尺度的人脸区域图像进行检测，以得到多个尺度的检测结果；

将所有尺度的检测结果进行加权处理，以得到并根据加权结果确定对应人脸区域图像的专注度检测结果；其中，专注度高的加权系数为1，专注度低的加权系数为-1；

若专注度检测结果大于0，则认定该人脸区域图像的专注度高；反之，则认定该人脸区域图像的专注度低。

基于第一方面，进一步地，上述利用基于多语音去噪结果优选的声纹识别模型进行声纹识别的方法包括以下步骤：

利用多种语音去噪模型分别对发言语音信号进行去噪，以得到多个去噪语音信号；

对多个去噪语音信号分别进行峰值信噪比检测，以确定最优去噪语音信号；

利用多种声纹识别模型对最优去噪语音信号进行声纹识别，以得到多个识别结果，若多个识别结果一致，则将对应的识别结果输出为最终的声纹识别结果。

基于第一方面，进一步地，上述利用基于识别置信度评估的智能语音识别模型，对该学生的发言语音信号进行语音识别的方法包括以下步骤：

利用简易语音识别模型对该学生的发言语音信号进行语音识别，以得到初步语音识别结果；

对初步语音识别结果进行语义合理性检测，以得到语义合理性检测结果；

若语义合理性检测结果为合理性高，则认定该初步语音识别结果的置信度高，将该初步语音识别结果输出为最终的语音内容识别结果；

若语义合理性检测结果为合理性低，则认定该初步语音识别结果的置信度低，利用基于深度学习的语音识别模型再次对该发言语音信号进行识别，以得到最终的语音内容识别结果。

第二方面，本发明提供一种基于人工智能的智慧课堂学生参与度多维评估系统，包括图像提取模块、人脸检测模块、专注度检测模块、专注度确定模块、声纹识别模块、语音内容识别模块、有效发言认定模块、踊跃度确定模块以及参与度评估模块，其中：

图像提取模块，用于采集课堂中学生听课视频，按照预设的提取周期提取学生听课视频中的图像，以得到多幅图像；

人脸检测模块，用于利用人脸检测技术分别对各幅图像中的人脸进行检测，以得到各幅图像对应的一个或多个人脸区域图像；

专注度检测模块，用于利用基于图像金字塔的卷积神经网络加权校验式专注度检测模型，对各幅图像对应的每个人脸区域图像进行专注度检测，生成并根据专注度检测结果确定对应图像的高专注度学生比率；

专注度确定模块，用于根据所有图像的高专注度学生比率确定该课堂学生的学习专注度；

声纹识别模块，用于实时采集课堂中的发言语音信号，并利用基于多语音去噪结果优选的声纹识别模型进行声纹识别，以得到声纹识别结果，若声纹识别结果为学生身份，则记录该学生的身份信息；

语音内容识别模块，用于利用基于识别置信度评估的智能语音识别模型，对该学生的发言语音信号进行语音识别，以得到语音内容识别结果；

有效发言认定模块，用于若语音内容识别结果包括预置的课堂学习内容数据，则认定该同学的发言为有效发言；

踊跃度确定模块，用于计算并根据课堂中进行有效发言的同学的比率，确定该课堂学生的发言踊跃度；

参与度评估模块，用于根据该课堂学生的学习专注度和发言踊跃度对该课堂学生的参与度进行评估，以得到最终的参与度评估结果。

本系统通过图像提取模块、人脸检测模块、专注度检测模块、专注度确定模块、声纹识别模块、语音内容识别模块、有效发言认定模块、踊跃度确定模块以及参与度评估模块等多个模块的配合，结合基于图像金字塔的卷积神经网络加权校验式专注度检测模型、基于多语音去噪结果优选的互验式声纹识别模型、基于识别置信度评估的智能语音识别模型，实现精准高效的学习专注度检测、身份识别及语音内容识别；结合学习专注度和发言踊跃度，从多个维度对学生的参与度进行更加有效的评估。首先，本发明提出了基于图像金字塔的卷积神经网络加权校验式专注度检测模型，对人脸区域图像进行专注度检测；该模型对多个尺度的人脸区域图像进行检测，将所有尺度的人脸区域图像的检测结果进行加权，并根据加权结果得到该人脸区域图像的专注度检测结果，显著地提升了人脸区域图像的专注度检测精度。其次，本发明提出了基于多语音去噪结果优选的互验式声纹识别模型，对提取的语音信号进行声纹识别；该模型在多个去噪语音信号中选出最优的去噪语音信号，在此基础上利用多种声纹识别模型互验的方式对发言同学的身份进行识别，显著地提升了发言同学的身份识别精度。再次，本发明提出了基于识别置信度评估的智能语音识别模型，对同学的发言语音信号进行语音识别；该模型通过识别结果的语义合理性对识别结果的置信度进行评估，若识别置信度较低则利用基于深度学习的语音识别模型再次对该语音信号进行识别，这种语音识别方案能够在保证识别精准度的前提下显著降低计算资源消耗。最后，本发明充分结合了学习专注度和发言踊跃度，从多个维度对学生的参与度进行更加有效的评估。

第三方面，本申请提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器；当一个或多个程序被处理器执行时，实现如上述第一方面中任一项的方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。

本发明至少具有如下优点或有益效果：

1、本发明提出了基于图像金字塔的卷积神经网络加权校验式专注度检测模型，对人脸区域图像进行专注度检测；该模型对多个尺度的人脸区域图像进行检测，将所有尺度的人脸区域图像的检测结果进行加权，并根据加权结果得到该人脸区域图像的专注度检测结果，显著地提升了人脸区域图像的专注度检测精度。

2、本发明提出了基于多语音去噪结果优选的互验式声纹识别模型，对提取的语音信号进行声纹识别；该模型在多个去噪语音信号中选出最优的去噪语音信号，在此基础上利用多种声纹识别模型互验的方式对发言同学的身份进行识别，显著地提升了发言同学的身份识别精度。

3、本发明提出了基于识别置信度评估的智能语音识别模型，对同学的发言语音信号进行语音识别；该模型通过识别结果的语义合理性对识别结果的置信度进行评估，若识别置信度较低则利用基于深度学习的语音识别模型再次对该语音信号进行识别，这种语音识别方案能够在保证识别精准度的前提下显著降低计算资源消耗。

4、本发明充分结合了学习专注度和发言踊跃度，从多个维度对学生的参与度进行更加有效的评估。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例一种基于人工智能的智慧课堂学生参与度多维评估方法的流程图；

图2为本发明实施例一种基于人工智能的智慧课堂学生参与度多维评估系统的原理框图；

图3为本发明实施例提供的一种电子设备的结构框图。

附图标记说明：100、图像提取模块；200、人脸检测模块；300、专注度检测模块；400、专注度确定模块；500、声纹识别模块；600、语音内容识别模块；700、有效发言认定模块；800、踊跃度确定模块；900、参与度评估模块；101、存储器；102、处理器；103、通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例的描述中，“多个”代表至少2个。

实施例：

如图1所示，第一方面，本发明实施例提供一种基于人工智能的智慧课堂学生参与度多维评估方法，包括以下步骤：

S1、采集课堂中学生听课视频，按照预设的提取周期提取学生听课视频中的图像，以得到多幅图像；利用音视频采集设备，对课堂中学生听课视频进行实时拍摄。对于拍摄的视频，每隔固定的时间提取一帧图像。

S2、利用人脸检测技术分别对各幅图像中的人脸进行检测，以得到各幅图像对应的一个或多个人脸区域图像；对于第一帧提取图像，利用人脸检测技术对图像中的人脸进行检测，每个检测到的人脸区域均定义为人脸区域图像。

S3、利用基于图像金字塔的卷积神经网络加权校验式专注度检测模型，对各幅图像对应的每个人脸区域图像进行专注度检测，生成并根据专注度检测结果确定对应图像的高专注度学生比率；

进一步地，包括：针对任意一幅图像，将任意一个人脸区域图像进行多尺度重建，以得到多个不同尺度的人脸区域图像，利用预置的基于卷积神经网络的专注度检测模型对多个尺度的人脸区域图像进行检测，以得到多个尺度的检测结果；将所有尺度的检测结果进行加权处理，以得到并根据加权结果确定对应人脸区域图像的专注度检测结果；其中，专注度高的加权系数为1，专注度低的加权系数为-1；若专注度检测结果大于0，则认定该人脸区域图像的专注度高；反之，则认定该人脸区域图像的专注度低。

在本发明的一些实施例中，利用基于图像金字塔的卷积神经网络加权校验式专注度检测模型，对每个人脸区域图像都进行专注度检测，得到整幅图像的高专注度学生比率。

基于图像金字塔的卷积神经网络加权校验式专注度检测模型具体包括：将某一个人脸区域图像重建为不同的图像尺度，利用基于卷积神经网络的专注度检测模型(已提前训练好)对多个尺度的人脸区域图像进行检测。将所有尺度的人脸区域图像的检测结果进行加权(专注度高为1,专注度低为-1。不同尺度的人脸区域图像乘以不同的加权系数，人脸区域图像尺度越大时加权系数越高)，并根据加权结果得到该人脸区域图像的专注度检测结果(加权结果大于0时，认定该人脸区域图像的专注度高；加权结果小于等于0时，认定该人脸区域图像的专注度低)。

S4、根据所有图像的高专注度学生比率确定该课堂学生的学习专注度；按照上述方法，对每一帧提取图像都进行相同操作，得到每一帧图像的高专注度学生比率。如果高专注度学生比率较高的帧图像占大多数，则认定该课堂学生的学习专注度较高。

S5、实时采集课堂中的发言语音信号，并利用基于多语音去噪结果优选的声纹识别模型进行声纹识别，以得到声纹识别结果，若声纹识别结果为学生身份，则记录该学生的身份信息；

进一步地，包括：利用多种语音去噪模型分别对发言语音信号进行去噪，以得到多个去噪语音信号；对多个去噪语音信号分别进行峰值信噪比检测，以确定最优去噪语音信号；利用多种声纹识别模型对最优去噪语音信号进行声纹识别，以得到多个识别结果，若多个识别结果一致，则将对应的识别结果输出为最终的声纹识别结果。

在本发明的一些实施例中，利用音视频采集设备，对课堂中的语音信号进行实时提取。对于提取的语音信号，利用基于多语音去噪结果优选的声纹识别模型进行声纹识别。如果识别出某位同学发言，记录该同学的身份并继续进行下一步。

基于多语音去噪结果优选的互验式声纹识别模型具体包括：利用多种语音去噪模型分别对语音信号进行去噪，对多个去噪结果分别进行峰值信噪比检测，保留峰值信噪比最高的去噪语音信号作为最优去噪语音信号。在此基础上，利用多种声纹识别模型对该最优去噪语音信号进行声纹识别，若多种模型的声纹识别结果一致则最终将该结果输出。

S6、利用基于识别置信度评估的智能语音识别模型，对该学生的发言语音信号进行语音识别，以得到语音内容识别结果；

进一步地，包括：利用简易语音识别模型对该学生的发言语音信号进行语音识别，以得到初步语音识别结果；对初步语音识别结果进行语义合理性检测，以得到语义合理性检测结果；若语义合理性检测结果为合理性高，则认定该初步语音识别结果的置信度高，将该初步语音识别结果输出为最终的语音内容识别结果；若语义合理性检测结果为合理性低，则认定该初步语音识别结果的置信度低，利用基于深度学习的语音识别模型再次对该发言语音信号进行识别，以得到最终的语音内容识别结果。

S7、若语音内容识别结果包括预置的课堂学习内容数据，则认定该同学的发言为有效发言；

在本发明的一些实施例中，利用基于识别置信度评估的智能语音识别模型，对该同学的发言语音信号进行语音识别。如果识别出该同学的发言内容为课堂学习相关内容(例如，回答教师问题、给其他同学分享学习案例等)，认定该同学的发言为有效发言。

基于识别置信度评估的智能语音识别模型具体包括：利用普通的(简易)语音识别模型对语音信号进行识别，如果识别结果的语义合理性较高则认为该识别结果的置信度较高，直接将该识别结果作为最终的识别结果；如果识别结果的语义合理性较低则认为该识别结果的置信度较低，利用基于深度学习的语音识别模型再次对该语音信号进行识别，并将该识别结果作为最终的识别结果。上述简易语音识别模型包括N-gram语言模型、基于隐马尔可夫模型的语音识别算法；上述简易语音识别模型可以是基于HMM的语音识别模型；上述基于深度学习的语音识别模型可以是基于RNN的语音识别模型。

S8、计算并根据课堂中进行有效发言的同学的比率，确定该课堂学生的发言踊跃度；按照上述方法，对所有在课堂中进行有效发言的同学完成识别。如果在课堂中进行有效发言的同学的比率较高，则认定该课堂学生的发言踊跃度较高。

S9、根据该课堂学生的学习专注度和发言踊跃度对该课堂学生的参与度进行评估，以得到最终的参与度评估结果。如果该课堂学生的学习专注度较高且发言踊跃度较高，则认定该课堂学生的参与度较高。

如图2所示，第二方面，本发明实施例提供一种基于人工智能的智慧课堂学生参与度多维评估系统，包括图像提取模块100、人脸检测模块200、专注度检测模块300、专注度确定模块400、声纹识别模块500、语音内容识别模块600、有效发言认定模块700、踊跃度确定模块800以及参与度评估模块900，其中：

图像提取模块100，用于采集课堂中学生听课视频，按照预设的提取周期提取学生听课视频中的图像，以得到多幅图像；

人脸检测模块200，用于利用人脸检测技术分别对各幅图像中的人脸进行检测，以得到各幅图像对应的一个或多个人脸区域图像；

专注度检测模块300，用于利用基于图像金字塔的卷积神经网络加权校验式专注度检测模型，对各幅图像对应的每个人脸区域图像进行专注度检测，生成并根据专注度检测结果确定对应图像的高专注度学生比率；

专注度确定模块400，用于根据所有图像的高专注度学生比率确定该课堂学生的学习专注度；

声纹识别模块500，用于实时采集课堂中的发言语音信号，并利用基于多语音去噪结果优选的声纹识别模型进行声纹识别，以得到声纹识别结果，若声纹识别结果为学生身份，则记录该学生的身份信息；

语音内容识别模块600，用于利用基于识别置信度评估的智能语音识别模型，对该学生的发言语音信号进行语音识别，以得到语音内容识别结果；

有效发言认定模块700，用于若语音内容识别结果包括预置的课堂学习内容数据，则认定该同学的发言为有效发言；

踊跃度确定模块800，用于计算并根据课堂中进行有效发言的同学的比率，确定该课堂学生的发言踊跃度；

参与度评估模块900，用于根据该课堂学生的学习专注度和发言踊跃度对该课堂学生的参与度进行评估，以得到最终的参与度评估结果。

本系统通过图像提取模块100、人脸检测模块200、专注度检测模块300、专注度确定模块400、声纹识别模块500、语音内容识别模块600、有效发言认定模块700、踊跃度确定模块800以及参与度评估模块900等多个模块的配合，结合基于图像金字塔的卷积神经网络加权校验式专注度检测模型、基于多语音去噪结果优选的互验式声纹识别模型、基于识别置信度评估的智能语音识别模型，实现精准高效的学习专注度检测、身份识别及语音内容识别；结合学习专注度和发言踊跃度，从多个维度对学生的参与度进行更加有效的评估。首先，本发明提出了基于图像金字塔的卷积神经网络加权校验式专注度检测模型，对人脸区域图像进行专注度检测；该模型对多个尺度的人脸区域图像进行检测，将所有尺度的人脸区域图像的检测结果进行加权，并根据加权结果得到该人脸区域图像的专注度检测结果，显著地提升了人脸区域图像的专注度检测精度。其次，本发明提出了基于多语音去噪结果优选的互验式声纹识别模型，对提取的语音信号进行声纹识别；该模型在多个去噪语音信号中选出最优的去噪语音信号，在此基础上利用多种声纹识别模型互验的方式对发言同学的身份进行识别，显著地提升了发言同学的身份识别精度。再次，本发明提出了基于识别置信度评估的智能语音识别模型，对同学的发言语音信号进行语音识别；该模型通过识别结果的语义合理性对识别结果的置信度进行评估，若识别置信度较低则利用基于深度学习的语音识别模型再次对该语音信号进行识别，这种语音识别方案能够在保证识别精准度的前提下显著降低计算资源消耗。最后，本发明充分结合了学习专注度和发言踊跃度，从多个维度对学生的参与度进行更加有效的评估。

如图3所示，第三方面，本申请实施例提供一种电子设备，其包括存储器101，用于存储一个或多个程序；处理器102。当一个或多个程序被处理器102执行时，实现如上述第一方面中任一项的方法。

还包括通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的实施例中，应该理解到，所揭露的方法及系统，也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于人工智能的智慧课堂学生参与度多维评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于人工智能的智慧课堂学生参与度多维评估方法，其特征在于，所述利用基于图像金字塔的卷积神经网络加权校验式专注度检测模型，对各幅图像对应的每个人脸区域图像进行专注度检测的方法包括以下步骤：

3.根据权利要求1所述的一种基于人工智能的智慧课堂学生参与度多维评估方法，其特征在于，所述利用基于多语音去噪结果优选的声纹识别模型进行声纹识别的方法包括以下步骤：

4.根据权利要求1所述的一种基于人工智能的智慧课堂学生参与度多维评估方法，其特征在于，所述利用基于识别置信度评估的智能语音识别模型，对该学生的发言语音信号进行语音识别的方法包括以下步骤：

5.一种基于人工智能的智慧课堂学生参与度多维评估系统，其特征在于，包括图像提取模块、人脸检测模块、专注度检测模块、专注度确定模块、声纹识别模块、语音内容识别模块、有效发言认定模块、踊跃度确定模块以及参与度评估模块，其中：

6.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-4中任一项所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。