CN115798020A

CN115798020A - 一种基于人工智能的中小学生学习投入度检测方法与系统

Info

Publication number: CN115798020A
Application number: CN202310043105.4A
Authority: CN
Inventors: 于晓
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2023-01-29
Filing date: 2023-01-29
Publication date: 2023-03-14

Abstract

本发明公开了一种基于人工智能的中小学生学习投入度检测方法与系统，涉及语音分析技术领域。该方法包括：采集目标学生的课程学习过程中的语音信息和视频信息；提取待检测语音，进行识别，得到第一身份信息；提取待识别人脸图像，进行识别，得到第二身份信息；若第一身份信息和第二身份信息相同，则对该目标学生的语音信息进行识别，以得到语音识别结果；若语音识别结果与预置的课堂学习内容不匹配，则认定该目标学生的学习投入度不高；反之，则按照预设的提取周期提取视频信息中的各帧图像，并对每一帧图像进行检测，以得到对应的图像检测结果；判定该目标学生的学习投入度。本发明结合多种识别检测技术，实现精准的中小学生学习投入度检测。

Description

一种基于人工智能的中小学生学习投入度检测方法与系统

技术领域

本发明涉及语音分析技术领域，具体而言，涉及一种基于人工智能的中小学生学习投入度检测方法与系统。

背景技术

随着我国教育事业的不断发展，教育质量越来越受到全社会的广泛关注。中小学生群体作为学生群体的重要组成部分，他们的学习投入度直接影响着他们的学习质量。因此，对中小学生的学习投入度检测越来越受到学校、教师、家长们的重视。

然而，传统的学习投入度检测高度依赖于主观评价的方式，不仅消耗巨大的人力资源，而且无法保证较高的准确性。尽管部分现代信息技术已经应用于学习投入度的检测，但检测结果仍然存在明显的误差。随着人工智能领域技术的不断更新换代，可以为学习投入度的精准检测提供直接支持。因此，如何基于人工智能实现中小学生学习投入度精准检测成为一个亟需解决的问题。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种基于人工智能的中小学生学习投入度检测方法与系统，将基于多声源定位模型交叉互验的声纹识别技术、基于遮挡区域自适应修复的低耗人脸识别技术、基于相同词汇聚类式后验的语音识别技术以及基于置信度评估的自适应学习投入度低耗检测技术相结合，实现精准的中小学生学习投入度检测。

本发明的实施例是这样实现的：

第一方面，本发明实施例提供一种基于人工智能的中小学生学习投入度检测方法，包括以下步骤：

基于每位学生课桌上安装的音视频提取设备采集目标学生的课程学习过程中的语音信息和视频信息；

提取语音信息中的任意一段语音信号，作为待检测语音，利用基于多声源定位模型交叉互验的声纹识别技术对待检测语音进行识别，以识别得到第一身份信息；

提取视频信息中的任意一帧人脸视频图像，作为待识别人脸图像，利用基于遮挡区域自适应修复的低耗人脸识别技术对待识别人脸图像进行识别，以识别得到第二身份信息；

若第一身份信息和第二身份信息相同，则确定该目标学生的身份信息，并利用基于相同词汇聚类式后验的语音识别技术，对该目标学生的语音信息进行识别，以得到语音识别结果；

若语音识别结果与预置的课堂学习内容不匹配，则认定该目标学生的学习投入度不高；反之，则按照预设的提取周期提取视频信息中的各帧图像，并利用基于置信度评估的自适应学习投入度低耗检测技术，对每一帧图像进行检测，以得到对应的图像检测结果；

根据各个图像检测结果判定该目标学生的学习投入度高或者不高。

为了解决现有技术中的问题，本方法利用基于多声源定位模型交叉互验的声纹识别技术，将多种声源定位模型的定位结果进行深度互验，更加精准地判别出某段语音信号是否混入其他同学的语音信号，以得到精度更高的声纹识别结果。还利用基于遮挡区域自适应修复的低耗人脸识别技术，对人脸遮挡区域尺寸不同的人脸图像使用不同的图像修复模型，保证了能够利用尽可能低的计算资源消耗完成图像修复过程，以得到精度更高的人脸识别结果。本方法还利用基于相同词汇聚类式后验的语音识别技术，将所有词汇的对应语音信号都进行编码，在此基础上完成所有词汇对应语音信号的聚类，通过此方式对识别结果进行深度检验，以降低语音识别过程中的识别错误率。在此基础上，利用基于置信度评估的自适应学习投入度低耗检测技术，根据置信度评估结果选择性地使用复杂的学习投入度检测模型，在保证学习投入度检测精度的前提下，最大限度地降低了计算资源消耗。本发明将基于多声源定位模型交叉互验的声纹识别技术、基于遮挡区域自适应修复的低耗人脸识别技术、基于相同词汇聚类式后验的语音识别技术以及基于置信度评估的自适应学习投入度低耗检测技术相结合，实现精准的中小学生学习投入度检测。

基于第一方面，在本发明的一些实施例中，上述利用基于多声源定位模型交叉互验的声纹识别技术对待检测语音进行识别，以识别得到第一身份信息的方法包括以下步骤：

利用多种声源定位模型对待检测语音进行定位，以得到多个定位结果；

若所有的定位结果均为离音视频提取设备近，则利用声纹识别模型对该待检测语音进行声纹识别，识别得到第一身份信息。

基于第一方面，在本发明的一些实施例中，上述利用基于遮挡区域自适应修复的低耗人脸识别技术对待识别人脸图像进行识别，以识别得到第二身份信息的方法包括以下步骤：

将待识别人脸图像和预置的通用人脸模板图像进行比对，在比对过程中找出待识别人脸图像中的人脸遮挡区域；

若人脸遮挡区域小于预置的参照区域范围，则利用基础图像修复模型对待识别人脸图像进行修复；反之，则利用基于深度学习的图像修复模型对待识别人脸图像进行修复；

对修复后的图像进行识别，以识别得到第二身份信息。

基于第一方面，在本发明的一些实施例中，上述利用基于相同词汇聚类式后验的语音识别技术，对该目标学生的语音信息进行识别，以得到语音识别结果的方法包括以下步骤：

利用语音识别方法对该目标学生的语音信息进行识别，生成初步识别结果；

将初步识别结果中的所有词汇对应的语音信号进行编码，并进行所有词汇对应语音信号的聚类；

若某个词汇对应的语音信号未与其它相同词汇的对应语音信号聚类成功，则对该词汇对应的语音信号进行二次语音识别，直至聚类完成，得到语音识别结果。

基于第一方面，在本发明的一些实施例中，上述利用基于置信度评估的自适应学习投入度低耗检测技术，对每一帧图像进行检测，以得到对应的图像检测结果的方法包括以下步骤：

选取学习投入度高的面部图像作为正样本，选取学习投入度低的面部图像作为负样本；

基于SVM模型，利用正样本和负样本，训练得到简易学习投入度检测模型；

基于卷积神经网络，利用正样本和负样本，训练得到复杂学习投入度检测模型；

利用简易学习投入度检测模型对任意一帧图像进行检测，若能够置信度高地检测出结果，则将该检测结果作为对应的图像检测结果；反之，则利用复杂学习投入度检测模型对该帧图像进行检测，以得到对应的图像检测结果。

第二方面，本发明实施例提供一种基于人工智能的中小学生学习投入度检测系统，包括：信息采集模块、第一身份识别模块、第二身份识别模块、语音识别模块、图像检测模块以及投入度判定模块，其中：

信息采集模块，用于基于每位学生课桌上安装的音视频提取设备采集目标学生的课程学习过程中的语音信息和视频信息；

第一身份识别模块，用于提取语音信息中的任意一段语音信号，作为待检测语音，利用基于多声源定位模型交叉互验的声纹识别技术对待检测语音进行识别，以识别得到第一身份信息；

第二身份识别模块，用于提取视频信息中的任意一帧人脸视频图像，作为待识别人脸图像，利用基于遮挡区域自适应修复的低耗人脸识别技术对待识别人脸图像进行识别，以识别得到第二身份信息；

语音识别模块，用于若第一身份信息和第二身份信息相同，则确定该目标学生的身份信息，并利用基于相同词汇聚类式后验的语音识别技术，对该目标学生的语音信息进行识别，以得到语音识别结果；

图像检测模块，用于若语音识别结果与预置的课堂学习内容不匹配，则认定该目标学生的学习投入度不高；反之，则按照预设的提取周期提取视频信息中的各帧图像，并利用基于置信度评估的自适应学习投入度低耗检测技术，对每一帧图像进行检测，以得到对应的图像检测结果；

投入度判定模块，用于根据各个图像检测结果判定该目标学生的学习投入度高或者不高。

为了解决现有技术中的问题，本系统通过信息采集模块、第一身份识别模块、第二身份识别模块、语音识别模块、图像检测模块以及投入度判定模块等多个模块的结合，利用基于多声源定位模型交叉互验的声纹识别技术，将多种声源定位模型的定位结果进行深度互验，更加精准地判别出某段语音信号是否混入其他同学的语音信号，以得到精度更高的声纹识别结果。还利用基于遮挡区域自适应修复的低耗人脸识别技术，对人脸遮挡区域尺寸不同的人脸图像使用不同的图像修复模型，保证了能够利用尽可能低的计算资源消耗完成图像修复过程，以得到精度更高的人脸识别结果。并利用基于相同词汇聚类式后验的语音识别技术，将所有词汇的对应语音信号都进行编码，在此基础上完成所有词汇对应语音信号的聚类，通过此方式对识别结果进行深度检验，以降低语音识别过程中的识别错误率。在此基础上，利用基于置信度评估的自适应学习投入度低耗检测技术，根据置信度评估结果选择性地使用复杂的学习投入度检测模型，在保证学习投入度检测精度的前提下，最大限度地降低了计算资源消耗。本发明将基于多声源定位模型交叉互验的声纹识别技术、基于遮挡区域自适应修复的低耗人脸识别技术、基于相同词汇聚类式后验的语音识别技术以及基于置信度评估的自适应学习投入度低耗检测技术相结合，实现精准的中小学生学习投入度检测。

第三方面，本申请实施例提供一种电子设备，其包括存储器，用于存储一个或多个程序；处理器。当一个或多个程序被处理器执行时，实现如上述第一方面中任一项的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。

本发明实施例至少具有如下优点或有益效果：

本发明实施例提供一种基于人工智能的中小学生学习投入度检测方法与系统，利用基于多声源定位模型交叉互验的声纹识别技术，将多种声源定位模型的定位结果进行深度互验，更加精准地判别出某段语音信号是否混入其他同学的语音信号，以得到精度更高的声纹识别结果。还利用基于遮挡区域自适应修复的低耗人脸识别技术，对人脸遮挡区域尺寸不同的人脸图像使用不同的图像修复模型，保证了能够利用尽可能低的计算资源消耗完成图像修复过程，以得到精度更高的人脸识别结果。并利用基于相同词汇聚类式后验的语音识别技术，将所有词汇的对应语音信号都进行编码，在此基础上完成所有词汇对应语音信号的聚类，通过此方式对识别结果进行深度检验，以降低语音识别过程中的识别错误率。在此基础上，利用基于置信度评估的自适应学习投入度低耗检测技术，根据置信度评估结果选择性地使用复杂的学习投入度检测模型，在保证学习投入度检测精度的前提下，最大限度地降低了计算资源消耗。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例一种基于人工智能的中小学生学习投入度检测方法的流程图；

图2为本发明实施例一种基于人工智能的中小学生学习投入度检测方法中利用基于多声源定位模型交叉互验的声纹识别技术对待检测语音进行识别的流程图；

图3为本发明实施例一种基于人工智能的中小学生学习投入度检测方法中利用基于遮挡区域自适应修复的低耗人脸识别技术对待识别人脸图像进行识别的流程图；

图4为本发明实施例一种基于人工智能的中小学生学习投入度检测系统的原理框图；

图5为本发明实施例提供的一种电子设备的结构框图。

附图标记说明：100、信息采集模块；200、第一身份识别模块；300、第二身份识别模块；400、语音识别模块；500、图像检测模块；600、投入度判定模块；101、存储器；102、处理器；103、通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例的描述中，“多个”代表至少2个。

实施例：

如图1-图3所示，第一方面，本发明实施例提供一种基于人工智能的中小学生学习投入度检测方法，包括以下步骤：

S1、基于每位学生课桌上安装的音视频提取设备采集目标学生的课程学习过程中的语音信息和视频信息；在每位同学的课桌前端，安装一个微型音视频提取设备，用来提取每位同学课堂学习过程中的语音、视频信号。对于某位同学，微型音视频提取设备自动提取他课程学习过程中的语音、视频信号。其中，视频信号主要包含该同学课堂学习过程中的面部区域视频。

S2、提取语音信息中的任意一段语音信号，作为待检测语音，利用基于多声源定位模型交叉互验的声纹识别技术对待检测语音进行识别，以识别得到第一身份信息；

进一步地，如图2所示，包括：

S21、利用多种声源定位模型对待检测语音进行定位，以得到多个定位结果；

S22、若所有的定位结果均为离音视频提取设备近，则利用声纹识别模型对该待检测语音进行声纹识别，识别得到第一身份信息。

在本发明的一些实施例中，对于该同学的语音信号，任意提取其中一段语音信号（通常不超过10秒即可），利用基于多声源定位模型交叉互验的声纹识别技术，初步识别出该同学的身份信息。

基于多声源定位模型交叉互验的声纹识别技术具体包括:对于某一段语音信号，利用多种声源定位模型对该段语音信号进行定位。如果对于所有的声源定位模型，都认定该语音信号的声源位置离微型音视频提取设备很近，则认定该段语音信号没有混入其他同学的语音信号。在此基础上，利用声纹识别模型对该段语音信号进行声纹识别，识别出该同学的实际身份。声源定位常用模型包括：高分辨率谱估计模型、声达时间差模型、基于波束形成的最小方差无失真响应模型等。

S3、提取视频信息中的任意一帧人脸视频图像，作为待识别人脸图像，利用基于遮挡区域自适应修复的低耗人脸识别技术对待识别人脸图像进行识别，以识别得到第二身份信息；

进一步地，如图3所示，包括：

S31、将待识别人脸图像和预置的通用人脸模板图像进行比对，在比对过程中找出待识别人脸图像中的人脸遮挡区域；

S32、若人脸遮挡区域小于预置的参照区域范围，则利用基础图像修复模型对待识别人脸图像进行修复；反之，则利用基于深度学习的图像修复模型对待识别人脸图像进行修复；

S33、对修复后的图像进行识别，以识别得到第二身份信息。

在本发明的一些实施例中，对于该同学的视频信号，任意提取一帧图像作为待识别人脸图像。对于待识别人脸图像，利用基于遮挡区域自适应修复的低耗人脸识别技术进行识别，再次识别出该同学的身份信息。

基于遮挡区域自适应修复的低耗人脸识别技术具体包括：将待识别人脸图像和通用人脸模板图像进行比对，在比对过程中找出待识别人脸图像中的人脸遮挡区域。如果人脸遮挡区域较小，直接利用较为简易的图像修复模型对待识别人脸图像进行修复即可；如果人脸遮挡区域较大，利用基于深度学习的图像修复模型对待识别人脸图像进行修复。

S4、若第一身份信息和第二身份信息相同，则确定该目标学生的身份信息，并利用基于相同词汇聚类式后验的语音识别技术，对该目标学生的语音信息进行识别，以得到语音识别结果；

进一步地，包括：利用语音识别方法对该目标学生的语音信息进行识别，生成初步识别结果；将初步识别结果中的所有词汇对应的语音信号进行编码，并进行所有词汇对应语音信号的聚类；若某个词汇对应的语音信号未与其它相同词汇的对应语音信号聚类成功，则对该词汇对应的语音信号进行二次语音识别，直至聚类完成，得到语音识别结果。

在本发明的一些实施例中，利用基于相同词汇聚类式后验的语音识别技术，对该学生的语音信号进行识别。对于语音信号的识别结果，如果绝大多数的识别内容都与课堂学习无关，直接认定该同学的学习投入度不高；对于语音信号的识别结果，如果绝大多数的识别内容都与课堂学习相关，则继续进行下一步。

基于相同词汇聚类式后验的语音识别技术具体包括：利用语音识别技术对语音信号进行识别，得到初步的语音识别结果。在识别结果中，将所有词汇的对应语音信号都进行编码，在此基础上完成所有词汇对应语音信号的聚类。如果某个词汇的对应语音信号，与其它相同词汇的对应语音信号没有聚成一类，则对该词汇对应的语音信号进行二次语音识别。

S5、若语音识别结果与预置的课堂学习内容不匹配，则认定该目标学生的学习投入度不高；反之，则按照预设的提取周期提取视频信息中的各帧图像，并利用基于置信度评估的自适应学习投入度低耗检测技术，对每一帧图像进行检测，以得到对应的图像检测结果；

进一步地，包括：选取学习投入度高的面部图像作为正样本，选取学习投入度低的面部图像作为负样本；基于SVM模型，利用正样本和负样本，训练得到简易学习投入度检测模型；基于卷积神经网络，利用正样本和负样本，训练得到复杂学习投入度检测模型；利用简易学习投入度检测模型对任意一帧图像进行检测，若能够置信度高地检测出结果，则将该检测结果作为对应的图像检测结果；反之，则利用复杂学习投入度检测模型对该帧图像进行检测，以得到对应的图像检测结果。

S6、根据各个图像检测结果判定该目标学生的学习投入度高或者不高。

在本发明的一些实施例中，对于该同学的视频信号，每隔30秒钟自动提取一帧图像。利用基于置信度评估的自适应学习投入度低耗检测技术，对每一帧图像进行检测。如果检测到学习投入度较高的帧图像不超过总数的4/5,则认定该同学的学习投入度不高；如果检测到学习投入度较高的帧图像超过总数的4/5,则认定该同学的学习投入度较高。

基于置信度评估的自适应学习投入度低耗检测技术具体包括：挑选出足量的学习投入度较高的面部图像作为正样本，挑选出足量的学习投入度较低的面部图像作为负样本。基于SVM模型，利用少量正样本和少量负样本，训练出简易的学习投入度检测模型；基于卷积神经网络，利用足量正样本和足量负样本，训练出复杂的学习投入度检测模型。对于某一帧图像，先利用简易的学习投入度检测模型对其进行检测，如果已经能够置信度较高地检测出结果，则直接得到该帧图像的学习投入度检测结果；如果不能够置信度较高地检测出结果，再利用复杂的学习投入度检测模型对其进行检测，并最终得到该帧图像的学习投入度检测结果。

利用上述方法，对教室中所有同学的学习投入度进行检测，并对班级学生的整体学习投入度进行评估。

如图4所示，第二方面，本发明实施例提供一种基于人工智能的中小学生学习投入度检测系统，包括：信息采集模块100、第一身份识别模块200、第二身份识别模块300、语音识别模块400、图像检测模块500以及投入度判定模块600，其中：

信息采集模块100，用于基于每位学生课桌上安装的音视频提取设备采集目标学生的课程学习过程中的语音信息和视频信息；

第一身份识别模块200，用于提取语音信息中的任意一段语音信号，作为待检测语音，利用基于多声源定位模型交叉互验的声纹识别技术对待检测语音进行识别，以识别得到第一身份信息；

第二身份识别模块300，用于提取视频信息中的任意一帧人脸视频图像，作为待识别人脸图像，利用基于遮挡区域自适应修复的低耗人脸识别技术对待识别人脸图像进行识别，以识别得到第二身份信息；

语音识别模块400，用于若第一身份信息和第二身份信息相同，则确定该目标学生的身份信息，并利用基于相同词汇聚类式后验的语音识别技术，对该目标学生的语音信息进行识别，以得到语音识别结果；

图像检测模块500，用于若语音识别结果与预置的课堂学习内容不匹配，则认定该目标学生的学习投入度不高；反之，则按照预设的提取周期提取视频信息中的各帧图像，并利用基于置信度评估的自适应学习投入度低耗检测技术，对每一帧图像进行检测，以得到对应的图像检测结果；

投入度判定模块600，用于根据各个图像检测结果判定该目标学生的学习投入度高或者不高。

为了解决现有技术中的问题，本系统通过信息采集模块100、第一身份识别模块200、第二身份识别模块300、语音识别模块400、图像检测模块500以及投入度判定模块600等多个模块的结合，利用基于多声源定位模型交叉互验的声纹识别技术，将多种声源定位模型的定位结果进行深度互验，更加精准地判别出某段语音信号是否混入其他同学的语音信号，以得到精度更高的声纹识别结果。还利用基于遮挡区域自适应修复的低耗人脸识别技术，对人脸遮挡区域尺寸不同的人脸图像使用不同的图像修复模型，保证了能够利用尽可能低的计算资源消耗完成图像修复过程，以得到精度更高的人脸识别结果。并利用基于相同词汇聚类式后验的语音识别技术，将所有词汇的对应语音信号都进行编码，在此基础上完成所有词汇对应语音信号的聚类，通过此方式对识别结果进行深度检验，以降低语音识别过程中的识别错误率。在此基础上，利用基于置信度评估的自适应学习投入度低耗检测技术，根据置信度评估结果选择性地使用复杂的学习投入度检测模型，在保证学习投入度检测精度的前提下，最大限度地降低了计算资源消耗。本发明将基于多声源定位模型交叉互验的声纹识别技术、基于遮挡区域自适应修复的低耗人脸识别技术、基于相同词汇聚类式后验的语音识别技术以及基于置信度评估的自适应学习投入度低耗检测技术相结合，实现精准的中小学生学习投入度检测。

如图5所示，第三方面，本申请实施例提供一种电子设备，其包括存储器101，用于存储一个或多个程序；处理器102。当一个或多个程序被处理器102执行时，实现如上述第一方面中任一项的方法。

还包括通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-OnlyMemory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（ElectricErasable Programmable Read-Only Memory，EEPROM）等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（NetworkProcessor，NP）等；还可以是数字信号处理器（Digital Signal Processing，DSP）、专用集成电路（ApplicationSpecific Integrated Circuit，ASIC）、现场可编程门阵列（Field－ProgrammableGate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的实施例中，应该理解到，所揭露的方法及系统和方法，也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random AccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于人工智能的中小学生学习投入度检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于人工智能的中小学生学习投入度检测方法，其特征在于，所述利用基于多声源定位模型交叉互验的声纹识别技术对待检测语音进行识别，以识别得到第一身份信息的方法包括以下步骤：

3.根据权利要求1所述的一种基于人工智能的中小学生学习投入度检测方法，其特征在于，所述利用基于遮挡区域自适应修复的低耗人脸识别技术对待识别人脸图像进行识别，以识别得到第二身份信息的方法包括以下步骤：

对修复后的图像进行识别，以识别得到第二身份信息。

4.根据权利要求1所述的一种基于人工智能的中小学生学习投入度检测方法，其特征在于，所述利用基于相同词汇聚类式后验的语音识别技术，对该目标学生的语音信息进行识别，以得到语音识别结果的方法包括以下步骤：

5.根据权利要求1所述的一种基于人工智能的中小学生学习投入度检测方法，其特征在于，所述利用基于置信度评估的自适应学习投入度低耗检测技术，对每一帧图像进行检测，以得到对应的图像检测结果的方法包括以下步骤：

6.一种基于人工智能的中小学生学习投入度检测系统，其特征在于，包括：信息采集模块、第一身份识别模块、第二身份识别模块、语音识别模块、图像检测模块以及投入度判定模块，其中：

7.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。