CN113840109A

CN113840109A - 一种课堂音视频智能笔记方法

Info

Publication number: CN113840109A
Application number: CN202111110757.2A
Authority: CN
Inventors: 叶利华; 孙洪波; 金煜威; 羊海丰; 徐建成
Original assignee: Hangzhou Haiyan Technology Co ltd
Current assignee: Hangzhou Haiyan Technology Co ltd
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-12-24
Anticipated expiration: 2041-09-23
Also published as: CN113840109B

Abstract

本发明公开了一种课堂音视频智能笔记方法。通过在教室部署图像获取设备拍摄教学内容展示区域，采用人工智能处理方法实现针对所拍摄教学内容展示区域进行处理，完成对教师、学生的肖像和声音进行脱敏；在内容脱敏处理的同时，对在授课过程中所涉及的知识要点进行提取，实现知识点视频片段自动切分；智能笔记对所提取的知识点与教学大纲知识纲要进行智能匹配，建立知识点智能检索引擎，提供给题目搜索知识点以及对应知识点搜索讲解视频应用。本发明通过采用人工智能语义识别技术为基础，实现了对视频中出现的人物肖像和敏感语音进行脱敏处理、对视频中教学内容知识点进行自动提取、对知识点出现位置进行自动打标，实现课堂音视频智能笔记。

Description

一种课堂音视频智能笔记方法

技术领域

本发明属于音视频处理技术领域，具体涉及一种课堂音视频智能笔记方法。

背景技术

近年来，随着以物联网、云计算、大数据、人工智能、AR为代表的新一代信息技术在教育领域的广泛应用，课堂的教学环境正在经历着从多媒体教室向智慧教室，从数字校园向智慧校园的转变。近来，教育部发布《教育信息化2.0行动计划》要求“大力推进智能教育，开展以学习者为中心的智能化教学支持环境建设，推动人工智能在教学、管理等方面的全流程应用，利用智能技术加快推动人才培养模式、教学方法改革，探索泛在、灵活、智能的教育教学新环境建设与应用模式。”

随着国家发展和时代的进步，国民的教育观念也在与时俱进，越来越多的家长和教师认识到注意力的集中对于学生成长，学习和发展的重要作用。为降低家庭培养负担和教育公平，降低学生学习负担，促进青少年全面发展，培养符合国家未来发展需要的人才，中共中央办公厅、国务院办公厅印发的《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》，该意见中强调了提高课后服务质量、拓展课后服务渠道、做强做优免费线上学习服务等，提升学校课后服务水平，满足学生多样化需求。

与其它教学学习方式相比，课堂教学学习方式是中小学生最合理的教学方式，教师在教学过程中会根据教学大纲、学生关联知识掌握情况、过程反馈等因素，及时调整课堂教学进度、知识讲解方式，尽可能使所有学生理解相关的知识点。授课结束后，通常教师布置的作业与当天课堂讲解知识直接关联，强化当天学习知识点的理解，学生在听课过程中做到认真听讲，是完成知识学习最重要的环节。然而，在课堂教学过程中有相当一部分学生对老师讲述的知识存在不注意听讲的问题，造成知识未理解或理解不够全面。因此，下课后对当天学习知识的回顾是加深、巩固知识的最有效途径，如何在不增加家长各方面的负担进行有效回顾成为当下迫切需要解决的问题。

作为学生接触新知识的第一来源，教师在上课过程中，针对知识点需要展开大量详细描述，为更加形象解释内容，教师还会伴随大量肢体动作配合知识描述。学生在课堂中对这些知识已经有初步理解，然而人的记忆曲线决定了学习需要及时回顾课堂内容，但是绝大部分学生在听课过程中根本无法完整记录整个描述内容。虽然一些公开课堂也有相关内容的讲解，但是相对本班课堂教学内容而言，学生对自己老师讲解知识的方法已经熟悉，对相关内容已经在课堂中有所了解，回顾本班老师课堂内容会有更好的效果，通过课堂音视频录像可以有效解决该问题。然而，课堂教学过程中包含一些教师和学生的个人隐私信息，将课堂原始数据直接对外发布，对学生、教师、学校等方面都有较大压力，实际推广难度大。

发明内容

本发明要解决的技术问题是提供一种课堂音视频智能笔记方法，通过在教室部署图像获取设备拍摄黑板、电子白板或PPT播放区，采用人工智能处理方法实现针对所拍摄黑板、电子白板或PPT播放区进行处理，完成对教师、学生的肖像和声音进行脱敏；在内容脱敏处理的同时，对在授课过程中电子白板或PPT播放区或黑板中所涉及的知识要点进行提取，实现知识点视频片段自动切分；智能笔记对所提取的知识点与教学大纲知识纲要进行智能匹配，建立知识点智能检索引擎，提供给题目搜索知识点以及对应知识点搜索讲解视频应用。

一种课堂音视频智能笔记方法，包括如下步骤：

S1.安装至少一个以上图像获取设备，所述图像获取设备朝向讲台上的教学内容展示区域，在讲台位置安装拾音器；所述的教学内容展示区域为黑板区、电子白板或PPT播放区；

S2.设置图像获取设备拍摄范围，分别标定教学内容展示区域以及整个讲台活动区；

S3.对所拍摄的音视频进行视频和音频内容分离，分别获得视频流和音频流，对所述视频流执行步骤S4-S8，对所述音频流执行步骤S9-S13；

S4.对视频流进行解码获得视频帧流，采用语义分割算法对视频帧内含的人体部位进行分割，并对分割后的人体部位进行填充或替换，生成新的视频帧；

S5.对标定教学内容展示区域进行文字检测和识别；

S6.通过采用前后视频帧内容识别方法对所识别的文字信息进行分析比较，提取课堂知识点，并记录每个知识点第一次出现的时间位置；

S7.按照标定的讲台活动区，切除图像多余部分并调整为标准尺寸；

S8.针对分割后的视频帧流，采用标准视频压缩算法生成脱敏后的视频流；

S9.对音频流采用语音分段处理算法，将长语音流分割为多段短语音流；

S10.采用语音识别算法，将各段短语音转换为文字，并利用上下文语义识别获得语音文本转换数据；

S11.对所获语音文本数据进行内容审核，标定出现敏感内容的位置；

S12.根据标定的位置，对相应时间位置的语音内容进行过滤，去除不适合公开播放的语音内容，并对声音进行优化处理；

S13.合并所有处理后的短语音流，生成新的音频流；

S14.合并S8所获视频流和S13所获音频流，得到脱敏后的音视频文件；

S15.按照文字内容识别结果，标定出现知识点的起始位置；

S16.将所得到的脱敏音视频文件和知识点，发布到流媒体平台，得到便于学生观看的课堂音视频智能笔记；

S17.学生提交题目，课堂音视频智能笔记通过分析题目内容，实现题目到课堂知识点转换，提供课堂知识点播放链接。

本发明的有益效果：

本发明通过采用人工智能语义识别技术为基础，对课堂教学中所录制的教学视频内容采用图像和语音处理技术，实现对视频中出现的人物肖像和敏感语音进行脱敏处理、对视频中教学内容知识点进行自动提取、对知识点出现位置进行自动打标，实现课堂音视频智能笔记。

本发明通过对课堂视频内容进行语义分析，提取教师课堂教学中所涉及的知识点，利用模糊匹配算法，识别每次课中所涉及的知识点，标注视频知识点位置、发布带有知识点快照的流媒体播放内容；提高学生知识回顾效率，大幅降低课堂视频内容运营成本，有效降低学生的学习压力，减轻义务教育阶段学生作业负担和校外培训负担。

附图说明

图1为本发明的音视频智能笔记视频采集装置安装结构示意图；

图2为本发明的音视频智能笔记系统处理流程图。

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单的介绍，对于本领域一般技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。

具体实施方式

为了使本发明解决的技术问题、实施方案、优点更加清晰，下面结合系统实例以及上述附图进行详细描述。

本发明提供了一种课堂音视频智能笔记方法，通过音视频录制方式采集课堂讲课视频和语音内容，采用基于人工智能方法结构化课堂音视频内容，对音视频中涉及教师、学生的肖像和声音进行脱敏处理，避免课堂视频内容对外发布给师生造成压力；在隐私信息脱敏的同时，完成对手授课知识内容的结构化，提取课堂知识点和起始时间位置。该方法核心内容包括视频个人信息脱敏和教学过程知识点结构化。

如图1所示，与普通教室不同之处有两个地方，本发明在教室中安装了一个面向讲台黑板区域2的摄像机1和一个在讲台区域3的高保真拾音器4。其中摄像机要求能以较小畸变的方式拍摄讲台黑板区域，拾音器能够清晰采集讲台区域教师的讲课说话内容。

本发明内容处理内容涉及四个方面：视频人体脱敏、视频知识点提取、音频内容脱敏与优化和题目知识点分解。视频人体脱敏是针对课堂视频中出现教师和学生肖像，采用人体分割技术，将视频中出现的所有人体位置以像素方式标记出来，根据不同的脱敏方式配置，可以采用人体打马赛克或模糊、卡通形象替换、统一颜色替换、人体部位分颜色替换、帧背景像素替换等方式。针对电子白板或PPT和黑板上出现的文本信息，这些文字内容包括知识点、题目、说明等，通过基于语义的内容文字识别方法，将这些内容按行进行转换，得到课堂内容文本描述；对文本内容采用知识点语义筛选算法，提炼出当前视频中的可能知识点，并根据前后帧关系抽象出当堂授课过程中所有知识点以及知识点出现的起始时间位置。通过拾音器采集课程教学语音流，对其中可能包含的敏锐语音内容，采用语音分段方法，将音频文件分割为一些语音片段，利用语义语音识别方法，将每个片段的音频内容识别转换为文本内容，通过模糊语义理解方式，识别敏感内容，根据敏感内容定位音频出现的位置，对音频进行处理。将处理后的视频和音频重新合成，得到脱敏后的音视频流媒体。将该流媒体结合知识点起始位置信息发布到互联网平台，提供流媒体服务。所发布的流媒体除可以按课堂知识点直接播放外，还提供题目知识点视频搜索功能。上述内容可以采用图2的处理流程进行描述，具体如下：

S1.安装一个以上摄像机，摄像机朝向黑板区域，在讲台位置安装一个高保真拾音器；

S2.设置相机拍摄范围，分别标定黑板区、电子白板或PPT播放区以及整个讲台活动区；

S3.对所拍摄的音视频进行视频和音频内容分离，分别获得视频流和音频流；

S4.对所获取的视频流进行解码获得视频帧流，并采用语义分割算法对视频帧内含的人体部位进行分割，并对分割后的人体部位进行填充或替换，并生成新的视频帧；

S5.对标定的标定黑板区、电子白板或PPT播放区进行文字检测和识别；

S9.针对音频流，采用语音分段处理算法，将长语音流分割为多段短语音流；

S12.根据标定位置，对相应时间位置的语音内容进行过滤，去除不适合公开播放语音内容，并对声音进行优化处理；

S13.合并所有处理后的短音频流，生成新的音频流；

S15.按照文字内容识别结果，标定出现知识点的起始位置；

S16.将所生成的音视频文件和知识点，发布到流媒体平台，得到便于学生观看的课堂音视频智能笔记；

其中，S1和S2为硬件安装要求和系统初始化配置环节；S4-S8为原始视频和脱敏视频的前处理和后处理环节；S9-S13为音频内容脱敏处理过程；S14-S17为课堂音视频智能笔记合成、发布与应用方式。

进一步说，S1在教室安装一台网络摄像机，摄像机要求能够清晰拍摄黑板和PPT或电子白板，摄像机所拍摄的图像文字能够清晰显示；在讲台范围内安装一个高保真拾音器，保证能清晰地采集教师上课过程中的讲话内容；

进一步说，S4采用基于语义的人体快速分割算法，其中人体分割算法能精确分割人体脸部以及其它躯体部位，根据配置可以对人脸和人体进行不同方式的替换处理。对人脸和人体部分的处理方法可以根据需要采用多样化，主要有以下方式：

1)打马赛克或模糊，马赛克区域采用椭圆等方式填充，椭圆计算方法如下：

式中用a表示椭圆长半轴的长，b表示椭圆短半轴的长，且a>b>0，(h,k)为椭圆中心点坐标，K为分割出人体的点数，p(x_i,y_i)为分割点。

2)卡通形象替换，根据分割人像的位置，采用预先设置好的卡通形象，按照比例关系裁剪替换相应区域。

3)整体用统一颜色替换，对分割出的人体部位，统一采用指定颜色进行替换。

4)人体部位分颜色替换，对分割出的不同人体部位分别采用指定颜色进行替换。

5)帧背景像素替换，采用背景提取算法，实时更新最新背景，对于分割像素内容采用对应背景像素进行替换。其中背景更新计算方法如下：

当前帧像素更新方法如下：

进一步说，S5对所检测到的文字分行区域，按照文字分区区域位置进行区域重组；然后按照检测的文字区域长度进行过滤，将普通内容框去掉，获得可能的知识点位置；将这些可能内容区域通过文字识别算法获得文字短句，所获内容按照知识点规则进行过滤，获得当前图像的知识点列表。

进一步说，S6中跟踪记录一节课堂所有知识点，在S5中所获取的将知识点列表与前面图像中积累的知识点进行比较，判断是否有新增加知识点，假如有新增知识点，则更新整个视频的知识点列表，并记录新增知识点的时间起始位置。

进一步说，S8针对S7裁剪后的视频帧，采用当前主流视频压缩编码格式H264、H265、AV1等格式进行压缩，生成脱敏后的视频流。

进一步说，S9针对S3中分割出的音频流，通过音频声音大小幅值来判断说话停顿点，即音频幅值小于阈值T，则将音频切分为多段短语音流。

进一步说，S11针对S10中语音识别输出文字流，对文字内容进行语义识别，标出敏感词汇的语音位置；S12对原始语音敏感内容擦除处理，并音频去噪、变声优化处理。

进一步说，S15按照识别后的知识点标定起始出现位置，并生成知识点快照。

进一步说，S16将生成的脱敏音视频以及知识点快照，统一发布到流媒体平台，学生可以通过快照快速点播所需知识点视频。

进一步说，基于S15生成的视频知识点快照，构建题目知识点内容图谱关系，学生在面对解题困难的题目时，将题目提交到课堂音视频智能笔记系统，系统分析题目内容，将题目转换为所涉及知识点，提供播放课堂音视频智能笔记知识点链接。学生通过回顾教师课堂知识点讲解，加深理解知识点，提升举一反三的能力，进而达到提升自学能力的目标。

本发明还提供了音视内容去个人隐私的视频结构化重构方法，它包括：

将视频中涉及个人隐私部分的内容去除，包括肖像和语音；

对视频中电子白板或PPT部分区域的视频内容进行结构化，识别内含文字，通过语义理解方式抽取其中出现的知识点，对知识点首次出现位置进行打标，实现课堂视频非结构化数据转化为知识点结构化数据；

对语音部分通过基于语义的语音识别方式，分段识别其中的讲话内容，过滤可能出现敏感内容，屏蔽相对应位置的语音，对语音进行去噪、变声增强；

根据系统设定参数实现全流程自动完成，达到利用人工智能技术生成知识片段内容视频。

综上，本发明提供了一种课堂音视频智能笔记方法，所用方法通过网络摄像机采集教师课堂授课过程，通过对录制视频和语音内容进行分析和处理，隐去拍摄过程中出现的教师和学生肖像以及授课过程一些敏感用词，实现课堂视频内容脱敏；在脱敏的同时，对授课过程中电子白板、黑板等载体上出现的文本内容进行提取，分析当次教学过程中出现的知识点位置，实现视频知识点快速点播的目标，提高学生课后知识内容回顾效率；在此基础上实现题目知识点转换，定位、播放课堂授课知识点视频内容，延展课堂内容课后服务，辅助提高学生自主学习能力。

以上为本发明的最佳实施方式，依据本发明公开的内容，本领域的普通技术人员能够显而易见地想到的一些雷同、替代方案，均应落入本发明保护的范围。

Claims

1.一种课堂音视频智能笔记方法，其特征在于该方法包括如下步骤：

S1. 安装至少一个以上图像获取设备，所述图像获取设备朝向讲台上的教学内容展示区域，在讲台位置安装拾音器；所述的教学内容展示区域为黑板区、电子白板或PPT播放区；

S2. 设置图像获取设备拍摄范围，分别标定教学内容展示区域以及整个讲台活动区；

S3. 对所拍摄的音视频进行视频和音频内容分离，分别获得视频流和音频流，对所述视频流执行步骤S4-S8，对所述音频流执行步骤S9- S13；

S4. 对视频流进行解码获得视频帧流，采用语义分割算法对视频帧内含的人体部位进行分割，并对分割后的人体部位进行填充或替换，生成新的视频帧；

S5. 对标定教学内容展示区域进行文字检测和识别；

S6. 通过采用前后视频帧内容识别方法对所识别的文字信息进行分析比较，提取课堂知识点，并记录每个知识点第一次出现的时间位置；

S7. 按照标定的讲台活动区，切除图像多余部分并调整为标准尺寸；

S8. 针对分割后的视频帧流，采用标准视频压缩算法生成脱敏后的视频流；

S9. 对音频流采用语音分段处理算法，将长语音流分割为多段短语音流；

S10. 采用语音识别算法，将各段短语音转换为文字，并利用上下文语义识别获得语音文本转换数据；

S11. 对所获语音文本数据进行内容审核，标定出现敏感内容的位置；

S12. 根据标定的位置，对相应时间位置的语音内容进行过滤，去除不适合公开播放的语音内容，并对声音进行优化处理；

S13. 合并所有处理后的短语音流，生成新的音频流；

S14. 合并S8所获视频流和S13所获音频流，得到脱敏后的音视频文件；

S15. 按照文字内容识别结果，标定出现知识点的起始位置；

S16. 将所得到的脱敏音视频文件和知识点，发布到流媒体平台，得到便于学生观看的课堂音视频智能笔记；

S17. 学生提交题目，课堂音视频智能笔记通过分析题目内容，实现题目到课堂知识点转换，提供课堂知识点播放链接。

2.根据权利要求1所述的一种课堂音视频智能笔记方法，其特征在于：S4中所述语义分割算法用于精确分割人体脸部以及躯体部位，根据配置对人体脸部以及躯体部位进行不同方式的替换处理，包括马赛克、模糊处理、卡通形象替换、统一颜色替换、分颜色替换或帧背景像素替换。

3.根据权利要求1所述的一种课堂音视频智能笔记方法，其特征在于：S5中对所检测到的文字分行区域，按照文字分行区域位置进行区域重组；然后按照检测的文字区域长度进行过滤，将普通内容框去掉，获得可能的知识点位置；将这些可能的知识点位置通过文字识别算法获得文字短句，所获内容按照知识点规则进行过滤，获得当前图像的知识点列表。

4.根据权利要求3所述的一种课堂音视频智能笔记方法，其特征在于：S6中跟踪记录一节课堂所有知识点，将S5中所获取的知识点列表与前面图像中积累的知识点进行比较，判断是否有新增加知识点；假如有新增知识点，则更新整个知识点列表，并记录新增知识点的时间起始位置。

5.根据权利要求1所述的一种课堂音视频智能笔记方法，其特征在于：S9中通过音频声音大小幅值来判断说话停顿点，即音频幅值小于阈值T，则将音频分割。

6.根据权利要求1所述的一种课堂音视频智能笔记方法，其特征在于：S15中还包括生成知识点快照步骤，通过知识点快照构建题目知识点内容图谱关系。