CN112749641A

CN112749641A - 适用于儿童语言教学场景的数据采集方法、服务器及系统

Info

Publication number: CN112749641A
Application number: CN202011602244.9A
Authority: CN
Inventors: 徐华昕; 冯帅
Original assignee: Qingdao Shenzhong Education Consulting Co ltd
Current assignee: Qingdao Shenzhong Education Consulting Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-05-04

Abstract

本发明实施例公开了一种适用于儿童语言教学场景的数据采集方法、服务器及系统。方法包括：获取课堂活动中的音视频数据、去噪；采用自然语言处理技术进行识别，以得到课堂活动中的教学知识点片段；采用神经网络得到儿童学员对课堂活动的感兴趣片段。实施本发明实施例，可以帮助专业教学提供者在课堂活动音视频内容中识别并分离出反映学员兴趣的片段，便于了解学员个体感兴趣的教学内容或活动形式，并可以帮助家长关注孩子在课堂上的表现、了解孩子的学习兴趣、知悉学习内容及辅导孩子课下复习。同时，将标记好的片段发给社交媒体上订阅用户(家长)从而支持教学活动扩展(如课下学习，在线学习等)。

Description

适用于儿童语言教学场景的数据采集方法、服务器及系统

技术领域

本发明涉及儿童语言教学技术领域，具体涉及一种适用于儿童语言教学场景的数据采集方法、音视频分析服务器及系统。

背景技术

儿童语言教学是一个影响到儿童智力发育、性格塑造、社会属性养成、探索精神和学习能力培养的全面教育重要组成部分。大量研究已经表明，语言学习自孩子出生起就应该开始有意识地引导，学龄前3-8岁为关键时期。在母语之外，学习第二语言或外语对激发儿童智力潜能、掌握更多的语言技能大有裨益，并已广泛获得家长认可。专业语言教学活动，作为家庭内部语言教学活动的必要补充，是很多孩子家长的选择。但与更高年龄层(8岁以上)的学习者相比，3-8岁儿童由心理发展水平影响，其学习动力在很大程度上为孩子兴趣所决定，记忆效果依赖多次重复，学习习惯尚不稳固需要外界推动。对这一年龄层的孩子来说，即使是在以专业教学活动为主的学习模式下，家长如果能够持续追踪孩子学习兴趣、督促复习并创造具有吸引力的复习机会，将产生明显的助力效果。对家长来说，看到孩子的点滴成长、了解孩子的兴趣所在和心理特点对推动孩子长期坚持学习并最终获得在语言、认知和学习能力的全面发展具有重要意义。

目前，与本申请相关的领域有：

(1)评估教学质量或学生参与度(或专注度、接收度等)的课堂活动监测方法及系统；

(2)运用大数据技术实现教学目标、内容、方法等方面的个性化教学；

(3)对课堂录像内容的分类、分析、剪辑或基于分类结果控制摄像(如切换摄像头，调整摄像头焦距等)；

(4)对课堂录像中人体面部表情、姿态、肢体动作的识别。

针对上述领域，对应的现有技术如下：

(1)课堂活动监测一般通过一些传感设备(如定位学员位置的红外设备、定位声源的设备)，或方便老师、学员主动输入的交互设备(固定在桌上的触摸屏、iPad之类)，以及语音识别记录课堂活动(签到、提问、发言等)。教学质量或学生参与度(或专注度、接收度等)的评估通过事先制定的规则计算得到。

(2)大数据个性化教学通过对个体微观教与学活动(包括历史记录、面部表情、问题回答等)建立针对学员个体的模型，模型实现可能是基于规则也可能是基于人工智能技术。

(3)课堂录像内容分类一般通过规则分为事先定义的意义较为明晰的若干类，如老师讲课，老师板书，学生回答问题等。采用的方法多为比较成熟的基于人工的规则判断或基于人工智能的规则推理。

(4)对视频内容进行人体面部表情、姿态、肢体动作识别一般在一定程度上运用了人工智能方法，具体实现可能采用规则推理或机器学习(含深度学习)算法，有时辅以人工定义的模型(如各个体的典型面部照片)。

由于儿童语言教学的独特性，儿童语言教学课堂活动呈现出如下特点：

(1)小班教学，老师与学员互动密切；

(2)老师和学员肢体动作丰富频繁；

(3)课堂音效丰富甚至嘈杂；

(4)学员一般不能有意识地配合数据采集，数据采集需要通过客观手段获得。

基于以上特点，现有技术中已有的课堂教学活动监测分析系统往往不能满足儿童语言教学课堂特定用途和场景需求。并且，现有课堂活动监测分析系统一般没有分离录像片段以直接满足某用途功能。

发明内容

本发明实施例的目的在于提供一种适用于儿童语言教学场景的数据采集方法、音视频分析服务器及系统，从课堂活动音视频内容中识别并分离出教学知识点片段和学员对课堂活动感兴趣的片段，为专业教学提供者提供帮助。

为实现上述目的，第一方面，本发明实施例提供了一种适用于儿童语言教学场景的数据采集方法，包括：

获取课堂活动中的音频数据和视频数据；所述音频数据由设置于教室内的拾音器所采集，所述视频数据由设置于所述教室内的摄像头所采集；

对所述音频数据进行去噪处理；

采用自然语言处理技术对去噪后所述音频数据进行处理，并结合音视频常用剪辑规则，得到课堂活动中的与各教学知识点相对应的音视频片段；

从所述音频数据和视频数据中提取特征；所述特征包括音频特征和视频特征，所述音频特征包括来自于所述音频数据的频域特征、能量分布特征、语音识别结果、说话者ID、说话时长、间隔，所述视频特征包括来自于所述视频数据的人物面部轮廓、肢体参考点位置、肢体参考点在相邻帧中的位移；

将所述特征输入二值分类算法中，得到儿童学员对课堂活动的感兴趣片段和不感兴趣片段。

作为本申请一种具体的实施方式，得到课堂活动中的教学知识点片段，具体包括：

将去噪后的音频数据与预先建立的个体声纹模型进行比对，得到老师人声片段，并将所述老师人声片段中的说话段落识别为文字；

通过自然语言处理技术对所述文字进行主题段落划分，在保留句子完整性的基础上得到多个段落，并结合常用音视频剪辑规则，分割出与各教学知识点相对应的音视频片段。

作为本申请的一种优选实施方式，获取课堂活动中的视频数据之后，所述方法还包括：

采用人脸识别算法对所述视频数据进行识别，得到识别结果；

将所述识别结果与预先建立的个体模型进行比对，以实现学员个体识别。

进一步地，作为本申请的一种优选实施方式，所述方法还包括：

存储课堂活动中的与各教学知识点相对应的音视频片段、儿童学员对课堂的感兴趣片段和不感兴趣片段至音视频数据库；

将课堂活动中的与各教学知识点相对应的音视频片段、儿童学员对课堂的感兴趣片段和不感兴趣片段通过API集成到社交媒体并推送至订阅用户。

第二方面，本发明实施例还提供了适用于儿童语言教学场景的音视频分析服务器，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

第三方面，本发明实施例提供了一种适用于儿童语言教学场景的数据采集系统，包括摄像头、拾音器及音视频分析服务器，所述摄像头和拾音器均与所述音视频分析服务器通信。其中，该音视频分析服务器如上述第二方面所述。

第四方面，本发明实施例提供了另一种适用于儿童语言教学场景的数据采集系统，包括摄像头、拾音器及音视频分析服务器，所述摄像头和拾音器均与所述音视频分析服务器通信。

所述音视频分析服务器包括：

数据获取模块，用于获取课堂活动中的音频数据和视频数据；所述音频数据由设置于教室内的拾音器所采集，所述视频数据由设置于所述教室内的摄像头所采集；

音视频分析剪辑模块，用于：

对所述音频数据进行去噪处理；

将所述特征输入二值分类的算法中，得到儿童学员对课堂活动的感兴趣片段和不感兴趣片段。

实施本发明实施例，可以帮助专业教学提供者在课堂活动音视频内容中识别并分离出反映学员兴趣的片段，便于了解学员个体感兴趣的教学内容(如某一类词汇或表达法)或活动形式(如游戏、歌唱)。且，分离出的音视频片段可以帮助家长关注孩子在课堂上的表现、了解孩子的学习兴趣、知悉学习内容及辅导孩子课下复习。

同时，识别并分离出课堂活动音视频中教学内容(知识点)片段，儿童学员表现出对课堂反应“有兴趣”和“兴趣不高”的片段，并将这些标记好的片段发给社交媒体上订阅用户(家长)从而支持教学活动扩展(如课下学习，在线学习等)。

此外，本发明实施例还可以为语言教学和儿童教育心理学研究提供关于儿童专注力、语言和认知能力养成的实证数据。长期积累的课堂活动音视频数据也为语言(包括母语和外语)教学提供者和儿童心理学者研究儿童的专注力形成与转移、语言学习内容的分解与引导、教学活动的设计提供实证数据。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明第一实施例提供的适用于儿童语言教学场景的数据采集方法的示意流程图；

图2是本发明实施例提供的适用于儿童语言教学场景的数据采集系统的结构示意图；

图3是图2所示音视频分析服务器的一种结构示意图；

图4是图2所示音视频分析服务器的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

请参考图1，本发明实施例提供的适用于儿童语言教学场景的数据采集方法。需要说明的是，图1所示的方法步骤，其执行主体均为音视频分析服务器。如图1所示，该方法可以包括：

S101，获取课堂活动中的音频数据和视频数据。

其中，所述音频数据由设置于教室内的拾音器所采集，所述视频数据由设置于所述教室内的摄像头所采集。

S102，采用人脸识别算法对所述视频数据进行识别，得到识别结果。

S103，将识别结果与预先建立的个体模型进行比对，以实现学员个体识别。

S104，对所述音频数据进行去噪处理。

具体地，步骤S104包括：

以独立分量分析(Independent Component Analysis)为基础的去噪算法从背景噪音(主要是嘈杂音乐声)中分离出人声。(参考文献：Mohanaprasad et al.Noisereduction in speech signals using adaptive independent component analysis(ICA)for hands free communication devices,International Journal of SpeechTechnology,March2019)。数据为基础频域信号或经常规处理过的中间结果。分离后的人声分量经过卡尔曼滤波得到较平滑的信号。

优选的1：独立分量分析可以进一步完善采用自适应的独立分量分析，其中的参考值参数可以通过常规的二值分类方法(如

Bayes，SVM，Logistic Regression)获得。

优选的2:如果有多个拾音器，可以将不同拾音器的敏感频域范围调整为较偏向人声或音乐声，然后对各自拾音器声音信号进行独立分量分析，并对结果人声加以合成。

S105，从所述音频数据和视频数据中提取特征。

其中，所述特征包括音频特征和视频特征，所述音频特征包括单不仅限于来自于音频的频域特征、能量分布特征、语音识别结果(文字)、说话者ID、说话时长、间隔等；所述视频特征包括单不仅限于来自于视频人物面部轮廓、肢体参考点位置、肢体参考点在相邻帧中的位移等；

S106，采用自然语言处理技术对去噪后所述音频数据进行处理，并结合音视频常用剪辑规则，得到课堂活动中与各教学知识点相对应的音视频片段。

步骤S106具体包括：

从音频特征中建立由频域特征和能量分布特征描述的个体声纹模型。将去噪后的音频数据与预先建立的个体声纹模型进行比对，得到老师人声片段，并将所述老师人声片段中的说话段落识别为文字；

通过自然语言处理技术对所述文字进行主题段落划分(Topic detection)，在保留句子完整性的基础上得到多个段落，并结合常用视频剪辑规则，即人物移动过程的完整性，分割出与各教学知识点相对应的音视频片段。

S107，将所述特征输入二值分类算法(包括但不限于

Bayes，SVM，LogisticRegression，神经网络、决策树)中，得到儿童学员对课堂活动的感兴趣片段和不感兴趣片段。

需要明的是，步骤S106和S107的结果将被标记为“教学内容片段-xx”，“xx(学员姓名)感兴趣的教学活动”或“xx(学员姓名)不感兴趣的教学活动”，存入音视频数据库。一个片段可能拥有多个标记，除非多个标记之间互斥(如一个片段不能同时被标记为张三感兴趣和不感兴趣的片段)。

S108，将课堂活动中的教学知识点片段、儿童学员对课堂的感兴趣片段和不感兴趣片段通过API集成至社交媒体并推送至订阅用户。

具体地，音视频分析服务器的对外接口模块与外部家长信息数据库连通，生成的教学知识点、学员感兴趣/不感兴趣音视频片段通过社交媒体API集成至社交媒体内容并向相关家长推送其订阅的片段(自己孩子感兴趣的教学活动、教学内容片段等)。

其中，S102-S108可在S101启动后(可配置自动启动时间)一段时间(此时间间隔可配置)后自动启动并持续进行，以满足家长对订阅内容的时效性要求。

进一步地，上述方法还包括用音视频数据库存储所有音视频数据并支持检索、查询。音视频数据含原始数据、中间及最终识别分类结果(知识点片段、感兴趣/不感兴趣片段等)、模型中的音视频部分。音视频数据库通过标准的数据传输接口与音视频分析服务器实现数据互通。音视频数据库在具体实现上分为以二进制形式存放在文件系统上的原始数据，及存放在关系型数据库中用于描述原始数据的元数据。

实施本发明实施例的数据采集方法，可以帮助专业教学提供者在课堂活动音视频内容中识别并分离出反映学员兴趣的片段，便于了解学员个体感兴趣的教学内容(如某一类词汇或表达法)或活动形式(如游戏、歌唱)。且，分离出的音视频片段可以帮助家长关注孩子在课堂上的表现、了解孩子的学习兴趣、知悉学习内容及辅导孩子课下复习。

同时，识别并分离出课堂活动音视频中教学内容(知识点)片段，儿童学员表现出对课堂反应“有兴趣”和“兴趣不高”的片段，并将这些标记好的片段发给社交媒体上订阅用户(家长)从而支持扩展。

进一步地，本发明实施例还可以为语言教学和儿童教育心理学研究提供关于儿童专注力、语言和认知能力养成的实证数据。长期积累的课堂活动音视频数据也为语言(包括母语和外语)教学提供者和儿童心理学者研究儿童的专注力形成与转移、语言学习内容的分解与引导、教学活动的设计提供实证数据。

进一步地，现有的课堂录像内容分类一般只适用于高度结构化(课堂动作相对静态，音效相对安静，课堂进程可预见性高)场景，本发明适用于语言和肢体动作交互频繁、音效嘈杂场景；

现有的识别人体面部表情、姿态、肢体动作技术一般只适用于高度结构化的画面(如学员位置相对固定，学员动作种类单一明确且不频繁)，本发明适用于动作丰富的课堂场景。

基于相同的发明构思，如图2所示，本发明实施例提供了一种适用于儿童语言教学场景的数据采集系统，包括摄像头100、拾音器200及音视频分析服务器300。

本实施例中，拾音器200可使用一个或多个，摄像头100至少包括2个，安装在教室的不同固定位置(一般来说是天花板墙角)以获得最佳视野，并与音视频分析服务器300通过网络连接(连接方式不限，可以是专用有线连接，局域网或Wi-Fi)。可选地，在其他实施例中，摄像头可以选用带人脸识别功能的摄像头，视频分析和剪辑的准确度会更高。此外，摄像头也可以选用带云台功能和调焦功能的摄像头，获得的课堂活动视频质量更高。

拾音器200，安装在教室的固定位置(一般来说是天花板中部)以获得最佳拾音覆盖，并与音视频分析服务器300通过网络连接(局域网或Wi-Fi)。

如图3所示，音视频分析服务器300主要包括：

数据获取模块301，用于获取课堂活动中的音频数据和视频数据；所述音频数据由设置于教室内的拾音器所采集，所述视频数据由设置于所述教室内的摄像头所采集；

音视频分析剪辑模块302，用于：

对所述音频数据进行去噪处理；

将所述特征输入二值分类的算法(包括但不限于

Bayes，SVM，LogisticRegression，神经网络、决策树)中，得到儿童学员对课堂活动的感兴趣片段和不感兴趣片段；

音视频数据库303，用于存储所有音视频数据并支持检索、查询。音视频数据含原始数据、中间及最终识别分类结果(知识点片段、感兴趣/不感兴趣片段等)、模型中的音视频部分。音视频数据库可置于音视频分析服务器实体内或外，通过规范的数据传输接口实现数据互通。音视频数据库在具体实现上分为两部分：原始数据以二进制形式存放在文件存储装置(硬盘、磁带)中，描述原始数据的元数据存放在关系型数据库中。

对外接口模块304，用于将课堂活动中的教学知识点片段、儿童学员对课堂的感兴趣片段和不感兴趣片段通过API集成到社交媒体并推送至订阅用户。

具体地，音视频分析服务器的对外接口模块与外部家长信息数据库连通，生成的教学知识点、学员感兴趣/不感兴趣音视频片段通过社交媒体API集成至社交媒体内容并向相关家长推送其订阅的片段。

进一步地，音视频分析剪辑模块302主要用于：

通过自然语言处理技术对所述文字进行主题段落划分，在保留句子完整性的基础上得到多个段落，并结合常用视频剪辑规则，分割出与各教学知识点相对应的音视频片段；

进一步地，上述音视频分析服务器300还包括模型模块，其内存储有事先建立好的个体模型，包括老师声纹、学员声纹、老师人脸和学员人脸。即模型模块提供分析所需模型，包括但不限于人物面部模型，人物肢体模型，人员声纹模型，常见课堂活动环境模型，知识点清单。音视频分析服务器300可采用现有的人脸识别算法对视频数据进行识别，得到识别结果，再结合学员人脸模型进行比对，从而实现学员的个体识别。

可选地，如图4所示，本发明实施例提供了另一种音视频分析服务器，包括：一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104，上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序，所述计算机程序包括程序指令，所述处理器101被配置用于调用所述程序指令执行上述方法实施例部分的方法。

应当理解，在本发明实施例中，所称处理器101可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括键盘等，输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如，存储器104还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的适用于儿童语言教学场景的数据采集方法的实施例中所描述的实现方式，在此不再赘述。

需要说明的是，关于音视频分析服务器更为具体的工作流程，请参考前述方法实施例部分，在此不再赘述。

实施本发明实施例的数据采集系统及音视频分析服务器，可以帮助专业教学提供者在课堂活动音视频内容中识别并分离出反映学员兴趣的片段，便于了解学员个体感兴趣的教学内容(如某一类词汇或表达法)或活动形式(如游戏、歌唱)。且，分离出的音视频片段可以帮助家长关注孩子在课堂上的表现、了解孩子的学习兴趣、知悉学习内容及辅导孩子课下复习。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种适用于儿童语言教学场景的数据采集方法，其特征在于，包括：

对所述音频数据进行去噪处理；

2.如权利要求1所述的数据采集方法，其特征在于，对所述音频数据进行去噪处理，具体包括：

采用以独立分量分析和卡尔曼滤波算法为基础的去噪算法对所述音频数据进行去噪处理。

3.如权利要求1所述的数据采集方法，其特征在于，得到课堂活动中的与各教学知识点相对应的音视频片段，具体包括：

通过自然语言处理技术对所述文字进行主题段落划分，在保留句子完整性的基础上得到多个段落，并结合常用视频剪辑规则，分割出与各教学知识点相对应的音视频片段。

4.如权利要求1所述的数据采集方法，其特征在于，获取课堂活动中的视频数据之后，所述方法还包括：

5.如权利要求1-4任一项所述的数据采集方法，其特征在于，还包括：

6.一种适用于儿童语言教学场景的音视频分析服务器，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求5所述的方法。

7.一种适用于儿童语言教学场景的数据采集系统，包括摄像头、拾音器及音视频分析服务器，所述摄像头和拾音器均与所述音视频分析服务器通信，其特征在于，所述音视频分析服务器如权利要求6所述。

8.一种适用于儿童语言教学场景的数据采集系统，包括摄像头、拾音器及音视频分析服务器，所述摄像头和拾音器均与所述音视频分析服务器通信，其特征在于，所述音视频分析服务器包括：

音视频分析剪辑模块，用于：

对所述音频数据进行去噪处理；

将所述音频征输入二值分类算法中，得到儿童学员对课堂活动的感兴趣片段和不感兴趣片段。

9.如权利要求8所述的数据采集系统，其特征在于，所述音视频分析剪辑模块具体用于：

10.如权利要求8或9所述的数据采集系统，其特征在于，所述数据采集系统还包括：

音视频数据库，用于存储课堂活动中与各教学知识点相对应的音视频片段、儿童学员对课堂的感兴趣片段和不感兴趣片段至音视频数据库；

对外接口模块，用于将课堂活动中与各教学知识点相对应的音视频片段、儿童学员对课堂的感兴趣片段和不感兴趣片段通过社交媒体API推送至订阅用户。