CN111553323A

CN111553323A - 视频处理方法及装置、电子设备和存储介质

Info

Publication number: CN111553323A
Application number: CN202010442733.6A
Authority: CN
Inventors: 孙贺然; 王磊; 白登峰; 夏建明; 曹军
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-08-18
Also published as: TW202145131A; WO2021232775A1; KR20210144658A; JP2022537475A

Abstract

本公开涉及一种视频处理方法及装置、电子设备和存储介质。所述方法包括：获取视频，其中，所述视频中的至少部分视频帧包含目标对象；根据所述视频，对所述目标对象在观看教学课程过程中的至少一类学习行为进行检测；在检测到所述目标对象执行至少一类学习行为的情况下，根据至少部分包含所述至少一类学习行为的视频帧和/或所述目标对象执行所述至少一类学习行为的持续时间，生成学习状态信息。

Description

视频处理方法及装置、电子设备和存储介质

技术领域

本公开涉及计算机视觉领域，尤其涉及一种视频处理方法及装置、电子设备和存储介质。

背景技术

在教学过程中，由于老师需要集中精力授课，使得机构或者老师难以掌握学生的听课状态，家长也无法了解孩子在学校的表现。学生是否真正上课以及是否在认真听课、课堂互动表现如何，都无法量化评估。

因此，如何在保证教学质量的同时，掌握每个学生在教学过程中的学习状态，成为目前一个亟待解决的问题。

发明内容

本公开提出了一种视频处理的方案。

根据本公开的一方面，提供了一种视频处理方法，包括：

获取视频，其中，所述视频中的至少部分视频帧包含目标对象；根据所述视频，对所述目标对象在观看教学课程过程中的至少一类学习行为进行检测；在检测到所述目标对象执行至少一类学习行为的情况下，根据至少部分包含所述至少一类学习行为的视频帧和/或所述目标对象执行所述至少一类学习行为的持续时间，生成学习状态信息。

在一种可能的实现方式中，所述学习行为包括以下行为中的至少一类：执行至少一种目标手势、表现目标情绪、关注所述教学课程的展示区域、与其他对象产生至少一种互动行为、在至少部分所述视频帧中未出现、闭眼以及在所述教学课程的展示区域内的目光交流。

在一种可能的实现方式中，所述根据所述视频，对所述目标对象的至少一类学习行为进行检测，包括：对所述视频进行目标对象检测，得到包含所述目标对象的视频帧；对包含所述目标对象的视频帧进行至少一类学习行为检测。

在一种可能的实现方式中，所述学习行为包括执行至少一种目标手势；所述对包含所述目标对象的视频帧进行至少一类学习行为检测，包括：对包含所述目标对象的视频帧进行至少一种目标手势的检测；在检测到包含至少一种所述目标手势的连续视频帧的数量超过第一阈值的情况下，将包含所述目标手势的视频帧中的至少一帧记录为手势开始帧；在手势开始帧以后的视频帧中，不包含所述目标手势的连续视频帧的数量超过第二阈值的情况下，将不包含所述目标手势的视频帧中的至少一帧记录为手势结束帧；根据所述手势开始帧与所述手势结束帧的数量，确定所述视频中所述目标对象执行至少一种目标手势的次数和/或时间。

在一种可能的实现方式中，所述学习行为包括表现目标情绪；所述对包含所述目标对象的视频帧进行至少一类学习行为检测，包括：对包含所述目标对象的视频帧进行表情检测和/或微笑值检测；在检测到视频帧中所述目标对象展示至少一种第一目标表情或微笑值检测的结果超过目标微笑值情况下，将检测到的视频帧作为第一检测帧；在检测到连续的所述第一检测帧的数量超过第三阈值的情况下，确定所述目标对象产生所述目标情绪。

在一种可能的实现方式中，所述学习行为包括关注所述教学课程的展示区域；所述对包含所述目标对象的视频帧进行至少一类学习行为检测，包括：对包含所述目标对象的视频帧进行表情检测和人脸角度检测；在检测到视频帧中所述目标对象展示至少一种第二目标表情且人脸角度在目标人脸角度范围以内的情况下，将检测到的视频帧作为第二检测帧；在检测到连续的所述第二检测帧的数量超过第四阈值的情况下，确定所述目标对象关注所述教学课程的展示区域。

在一种可能的实现方式中，所述根据至少部分包含所述至少一类学习行为的视频帧，生成学习状态信息，包括：获取所述视频中包含至少一类学习行为的视频帧，作为目标视频帧集合；对所述目标视频帧集合中的至少一个视频帧进行人脸质量检测，将人脸质量大于人脸质量阈值的视频帧作为目标视频帧；根据所述目标视频帧，生成所述学习状态信息。

在一种可能的实现方式中，所述根据所述目标视频帧，生成所述学习状态信息，包括：将所述目标视频帧中的至少一帧作为学习状态信息；和/或，识别在至少一帧所述目标视频帧中所述目标对象所在区域，基于所述目标对象所在区域，生成所述学习状态信息。

在一种可能的实现方式中，所述根据所述目标对象执行所述至少一类学习行为的持续时间，生成学习状态信息，包括：在检测到所述目标对象执行至少一类学习行为的时间不小于时间阈值的情况下，记录至少一类所述学习行为的持续时间；将至少一类所述学习行为对应的所述持续时间，作为所述学习状态信息。

在一种可能的实现方式中，所述方法还包括：对所述视频中的至少部分视频帧中的背景区域进行渲染，其中，所述背景区域为所述视频帧中所述目标对象以外的区域。

在一种可能的实现方式中，所述方法还包括：统计至少一个所述目标对象的学习状态信息，得到至少一个所述目标对象的统计结果；根据至少一个所述目标对象的统计结果，生成学习状态统计数据。

在一种可能的实现方式中，所述根据至少一个所述目标对象的统计结果，生成学习状态统计数据，包括：根据至少一个所述目标对象所属的类别，获取至少一个所述类别包含的目标对象的统计结果，生成至少一个类别的学习状态统计数据，其中，所述目标对象所属的类别包括所述目标对象参与的课程、所述目标对象注册的机构以及所述目标对象使用的设备中的至少一种；和/或，将至少一个所述目标对象的统计结果进行可视化处理，生成至少一个所述目标对象的学习状态统计数据。

根据本公开的一方面，提供了一种视频处理装置，包括：

视频获取模块，用于获取视频，其中，所述视频中的至少部分视频帧包含目标对象；

检测模块，用于根据所述视频，对所述目标对象在观看教学课程过程中的至少一类学习行为进行检测；

生成模块，用于在检测到所述目标对象执行至少一类学习行为的情况下，根据至少部分包含所述至少一类学习行为的视频帧和/或所述目标对象执行所述至少一类学习行为的持续时间，生成学习状态信息。

根据本公开的一方面，提供了一种电子设备，包括：

处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：执行上述视频处理方法。

根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述视频处理方法。

在本公开实施例中，可以在检测到目标对象存在至少一类学习行为的情况下，利用包含学习行为的视频帧来生成直观的学习状态信息，以及根据学习行为的持续时间来生成量化的学习状态信息，采用上述方式可以灵活地得到具有评估价值的学习状态信息，便于老师或家长等相关人员与机构，有效且准确地掌握学生的学习状态。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1示出根据本公开一实施例的视频处理方法的流程图。

图2示出根据本公开一实施例的视频处理装置的框图。

图3示出根据本公开一应用示例的示意图。

图4示出根据本公开实施例的一种电子设备的框图。

图5示出根据本公开实施例的一种电子设备的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的视频处理方法的流程图，该方法可以应用于视频处理装置，视频处理装置可以为终端设备、服务器或者其他处理设备等。其中，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一个示例中，该数据处理方法可以应用于云端服务器或本地服务器，云端服务器可以为公有云服务器，也可以为私有云服务器，根据实际情况灵活选择即可。

在一些可能的实现方式中，该视频处理方法也可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

如图1所示，在一种可能的实现方式中，所述视频处理方法可以包括：

步骤S11，获取视频，其中，视频中的至少部分视频帧包含目标对象。

步骤S12，根据视频，对目标对象在观看教学课程过程中的至少一类学习行为进行检测。

步骤S13，在检测到目标对象执行至少一类学习行为的情况下，根据至少部分包含至少一类学习行为的视频帧和/或目标对象执行至少一类学习行为的持续时间，生成学习状态信息。

其中，目标对象可以是任意被获取学习状态信息的对象，即具有学习状态评价需求的对象，其具体实现形式可以根据实际情况灵活确定。在一种可能的实现方式中，目标对象可以是学生，比如小学生、中学生或大学生等；在一种可能的实现方式中，目标对象可以是进修的成年人，比如参加职业教育培训的成年人，或是在老年大学中学习的老年人等。

本公开实施例中，视频可以是目标对象在观看教学课程过程中所录制的视频，其中，教学课程的实现形式不受限定，可以是预先录制的课程视频，也可以是直播课程或是教师现场授课的课程等；视频中的至少部分视频帧可以包含目标对象，即录制的视频中目标对象的出现情况可以根据实际情况灵活决定。在一种可能的实现方式中，目标对象可以一直在视频中，在一种可能的实现方式中，目标对象也可以在某些时刻或某些时间段，未出现在视频帧等。

目标对象观看教学课程的场景可以根据实际情况灵活决定，在一种可能的实现方式中，这一场景可以为线上场景，即目标对象通过网络课堂等在线教育方式观看教学课程等；在一种可能的实现方式中，这一场景也可以为线下场景，即目标对象通过传统的面对面授课的方式来观看老师当场传授的教学课程，或是目标对象在教室等特定的教学场所中观看通过视频或其他多媒体形式所播放的教学课程等。

视频的具体实现形式可以根据视频处理方法的应用场景灵活决定。在一种可能的实现方式中，视频可以是实时视频，比如目标对象通过在线课堂学习的过程中所实时录制的视频，或是目标对象在教室上课的过程中，通过部署在教室的摄像头来采集到的实时视频等；在一种可能的实现方式中，视频也可以是录制视频，比如目标对象通过在线课堂学习后，录制到的目标对象学习的回放视频，或是目标对象在教室上课后，通过部署在教室的摄像头来采集到的的完整课堂学习视频等。

为了便于描述，后续各公开实施例均以视频是目标对象通过在线课堂学习的过程中所实时录制的视频为例，对视频处理过程进行说明。其他应用场景下的视频处理过程可以参考后续各公开实施例进行灵活扩展，在此不再赘述。

在通过步骤S11获取如上述各公开实施例所述的视频后，可以通过步骤S12，对目标对象在观看教学课程过程中的至少一类学习行为进行检测。其中被检测的学习行为的种类和数量可以根据实际情况灵活决定，不局限于下述各公开实施例。在一种可能的实现方式中，目标对象执行的学习行为可以包括以下行为中的至少一类：比如执行至少一种目标手势、表现目标情绪、关注教学课程的展示区域、与其他对象产生至少一种互动行为、在至少部分视频帧中未出现、闭眼以及在教学课程的展示区域内的目光交流等。

其中，目标手势可以是反映目标对象在观看教学课程过程中，可能会产生的某些预设手势，其具体实现形式可以根据实际情况灵活设定，详见后续各公开实施例，在此先不做展开。

目标情绪可以是目标对象在观看教学课程过程中，反映出对教学课程真实感受的某些情绪，其具体实现形式同样可以根据实际情况灵活设定，在此先不做展开。

关注教学课程的展示区域可以体现目标对象在观看教学课程的过程中的关注度，其中，展示区域的具体区域范围可以根据实际情况灵活设定，不局限于下述各公开实施例。在一种可能的实现方式中，展示区域可以是线上课堂中教学课程视频的展示区域，比如学生通过电脑、手机或是平板电脑等终端设备进行在线学习的过程中，展示区域可以是这些终端设备中播放教学课程的屏幕等；在一种可能的实现方式中，展示区域可以是线下课堂中教师的教学区域，比如教室中的讲台或是黑板等位置。

与其他对象产生至少一种互动行为可以是目标对象在观看教学课程过程中，与教学课程中相关的其他对象所产生的与学习相关的互动，其中，其他对象的实现形式可以根据实际情况灵活决定，在一种可能的实现方式中，其他对象可以是授课对象，比如教师等，在一种可能的实现方式中，其他对象也可以是教学过程中除目标对象以外的学习对象，比如目标对象的同学等；与其他对象产生的互动行为可以根据对象的不同灵活发生变化，在一种可能的实现方式中，在其他对象为授课教师的情况下，与其他对象产生的互动可以包括接收老师所发送的奖励，比如收到老师发的小红花或点名表扬等，在一种可能的实现方式中，在其他对象为授课教师的情况下，与其他对象产生的互动可以包括回答老师的问题或根据老师的点名进行发言等，在一种可能的实现方式中，在其他对象为同学的情况下，与其他对象产生的互动可以包括小组互助、小组讨论或小组学习等。

在至少部分视频帧中未出现可以是学习对象在某些时刻或某些时间段，离开了教学课程等情况，比如目标对象在线学习的过程中，可能由于私人原因暂时离开当前的在线学习设备，或是离开当前的在线学习设备的拍摄范围内等。

闭眼可以是目标对象在观看教学课程的过程中进行的闭眼操作，在教学课程的展示区域内的目光交流，可以是观看教学课程的展示区域，与之相对应的，根据视频中目标对象在教学课程的展示区域内的目光交流的情况，还可以进一步确定目标对象未观看教学课程的展示区域的情况等。

通过上述公开实施例中提到的各类学习行为，可以对目标对象的学习过程进行全面且灵活的行为检测，从而提升根据检测所得到的学习状态信息的全面性和准确性，更加灵活准确地掌握目标对象的学习状态。

具体地，步骤S12对上述公开实施例中的各类学习行为执行哪类或哪几类检测，可以根据实际情况灵活设定。在一种可能的实现方式中，可以对上述公开实施例中提到的各类学习行为同时进行检测，具体的检测方式与过程可以详见下述各公开实施例，在此先不做展开。

在检测到目标对象执行至少一类学习行为的情况下，可以根据至少部分包含至少一类学习行为的视频帧和/或目标对象执行至少一类学习行为的持续时间，来生成学习状态信息。其中，学习状态信息的具体实现形式，可以根据学习行为的种类，以及对应执行的操作所灵活决定。在一种可能的实现方式中，在根据至少部分包含至少一类学习行为的视频帧生成学习状态信息的情况下，学习状态信息可以包括由视频帧所组成的信息；在一种可能的实现方式中，在根据目标对象执行至少一类学习行为的持续时间的情况下，学习状态信息可以为数字形式的数据信息；在一种可能的实现方式中，学习状态信息也可以同时包含有视频帧信息和数据信息这两种形式的信息；在一种可能的实现方式中，学习状态信息也可以包含其他状态的信息等。具体地，如何生成学习状态信息以及学习状态信息的实现形式，可以参考后续各公开实施例，在此先不做展开。

上述公开实施例中已经提到，视频可以是目标对象在观看教学课程过程中所录制的视频，而目标对象观看教学课程的场景可以根据实际情况灵活决定，因此，相应地，步骤S11中获取视频的方式也可以根据场景不同而灵活发生变化。在一种可能的实现方式中，在目标对象观看教学课程的场景为线上场景的情况下，即目标对象可以通过在线课堂观看教学课程的情况下，获取视频的方式可以包括：如果视频处理装置与目标对象进行在线学习的设备为同一装置，则可以通过目标对象进行在线学习的设备对目标对象观看教学课程的过程进行视频采集；如果视频处理装置与目标对象进行在线学习的设备为不同装置，则可以通过目标对象进行在线学习的设备对目标对象观看教学课程的过程进行视频采集，并实时和/或非实时地传输到视频处理装置中。在一种可能的实现方式中，在目标对象观看教学课程的场景为线下场景的情况下，即目标对象参加面对面授课或是在特定教学场景中观看教学课程视频等情况下，获取视频的方式可以包括：通过部署在线下的图像采集设备(如摄像头、监视器等)来采集目标对象的视频。进一步地，如果部署在线下的图像采集设备可以进行视频处理，即可以作为视频处理装置，则步骤S11中的获取视频过程已完成；如果部署在线下的图像采集设备无法进行视频处理，则可以将部署在线下的图像采集设备采集的视频实时和/或非实时地传输到视频处理装置中。

如上述各公开实施例所述，步骤S12中对目标对象进行学习行为检测的方式可以根据实际情况灵活决定。在一种可能的实现方式中，步骤S12可以包括：

步骤S121，对视频进行目标对象检测，得到包含目标对象的视频帧。

步骤S122，对包含目标对象的视频帧进行至少一类学习行为检测。

通过上述公开实施例可以看出，在一种可能的实现方式中，可以通过对视频进行目标对象检测，确定视频中包含目标对象的视频帧。在确定了哪些视频帧包含有目标对象以后，可以对包含目标对象的视频帧中的目标对象，进行至少一类学习行为检测。

其中，目标对象检测的方式可以根据实际情况灵活决定，不局限于下述实施例。在一种可能的实现方式中，可以通过人脸检测或是人脸跟踪等方式，对视频中的目标对象进行检测。在一种可能的实现方式中，在通过人脸检测或是人脸跟踪等方式对视频帧进行检测后，可能检测到多个对象，在这种情况下，还可以进一步对检测到的人脸图像进行筛选，从中选定一个或多个对象作为目标对象，具体的筛选方式可以根据实际情况灵活设定，在本公开实施例中不做限定。

在一种可能的实现方式中，在得到了包含目标对象的视频帧后，可以通过步骤S122，对包含目标对象的视频帧进行至少一类学习行为检测。步骤S122的实现方式可以根据学习行为的不同而灵活发生变化，详见下述各公开实施例，在此先不做展开。在需要对目标对象的多类学习行为进行检测的情况下，可以同时采用多种方式进行组合来实现多类学习行为检测。

在一些可能的实现方式中，在对视频进行目标对象检测后，即可以完成对目标对象在观看教学课程过程中的学习行为检测。即可以通过对视频进行目标对象检测，确定上述公开实施例中提到的在至少部分视频帧中未出现这一学习行为。并进一步根据未检测到目标对象的视频帧，来得到学习状态信息，或是根据未检测到目标对象的视频帧来统计目标对象在至少部分视频帧中未出现的时间作为学习状态信息。

在本公开实施例中，通过对视频进行目标对象检测，得到包含目标对象的视频帧，以及对包含目标对象的视频帧进行至少一类学习行为检测，通过上述过程，可以利用对视频进行的目标对象检测，更加有针对性地对目标对象的至少一类学习行为进行检测，从而使得学习行为检测更为准确，进一步提高后续得到的学习状态信息的准确性与可靠性。

如上述各公开实施例所述，步骤S122的实现方式可以根据学习行为的不同而灵活发生变化。在一种可能的实现方式中，学习行为可以包括：执行至少一种目标手势；

在这种情况下，对包含目标对象的视频帧进行至少一类学习行为检测，可以包括：

对包含目标对象的视频帧进行至少一种目标手势的检测；

在检测到包含至少一种目标手势的连续视频帧的数量超过第一阈值的情况下，将包含目标手势的视频帧中的至少一帧记录为手势开始帧；

在手势开始帧以后的视频帧中，不包含目标手势的连续视频帧的数量超过第二阈值的情况下，将不包含目标手势的视频帧中的至少一帧记录为手势结束帧；

根据手势开始帧与手势结束帧的数量，确定视频中所述目标对象执行至少一种目标手势的次数和/或时间。

通过上述公开实施例可以看出，在学习行为包括执行至少一种目标手势的情况下，对目标对象的视频帧进行的学习行为检测可以包括目标手势检测。

其中，目标手势具体包含哪些手势，可以根据实际情况进行灵活设定，不局限于下述公开实施例。示例性的，目标手势包括举手手势、点赞手势、OK手势以及胜利手势中的一种或多种。

在一种可能的实现方式中，目标手势可以包括在观看教学课程的过程中，目标对象根据听课情况所反映的与学习相关的手势，比如用于回答问题的举手手势、对授课内容或授课教师表示赞赏的点赞手势(竖起大拇指等)、对授课内容表示明白或认同的OK手势以及与授课教师之间进行互动的胜利手势(比如Yeah手势等)中等。

具体地，对包含目标对象的视频帧进行至少一种目标手势的检测的方式可以根据实际情况灵活决定，不局限于下述公开实施例。在一种可能的实现方式中，可以通过手势识别的相关算法来实现目标手势的检测，比如可以识别视频帧中目标对象的手部关键点或者手部检测框对应的图像区域，基于手部关键点或手部检测框对应的图像区域进行手势检测，基于手势检测结果确定目标对象是否在执行目标手势。在一种可能的实现方式中，可以通过具有手势检测功能的神经网络，实现目标手势的检测。具有手势检测功能的神经网络的具体结构与实现方式可以根据实际情况进行灵活设定，在目标手势包含多种手势的情况下，在一种可能的实现方式中，可以将包含目标对象的视频帧输入到可以同时检测到多个手势的神经网络，来实现目标手势的检测；在一种可能的实现方式中，也可以将包含目标对象的视频帧分别输入到多个具有单一手势检测功能的神经网络中，来实现多个目标手势的检测。

在通过上述任意公开实施例进行目标手势检测的过程中，如果检测到包含至少一种目标手势的连续视频帧的数量超过第一阈值的情况下，可以从这些包含目标手势的连续视频帧中，选定至少一帧作为手势开始帧。其中，第一阈值的数量可以根据实际情况灵活设定，不同的目标手势对应的第一阈值的数量可以相同，也可以不同，比如可以将举手手势对应的第一阈值设定为6，点赞手势对应的第一阈值设定为7，则在检测到包含举手手势的连续视频帧的数量不小于6的情况下，可以从包含举手手势的视频帧中选定至少一帧作为举手手势的手势开始帧，在检测到点赞手势的连续视频帧的数量不小于7的情况下，可以从包含点赞手势的视频帧中选定至少一帧作为点赞手势的手势开始帧。在一种可能的实现方式中，为了便于目标手势的检测，可以将不同目标手势对应的第一阈值设定为同一数值，在一个示例中，第一阈值的数量可以设置为6。

手势开始帧的选定方式同样可以根据实际情况灵活设定，在一种可能的实现方式中，可以将检测到的包含目标手势的连续视频帧中的第一帧，作为该目标手势的手势开始帧，在一种可能的实现方式中，为了减少手势检测的误差，也可以将检测到的包含目标手势的连续视频帧中的第一帧以后的某一帧，作为该目标手势的手势开始帧。

在确定了手势开始帧以后，可以从手势开始帧以后的视频帧中确定手势结束帧，即确定手势开始帧中的目标手势的结束时间。具体的确定方式可以根据实际情况灵活选择，不局限于下述公开实施例。在一种可能的实现方式中，可以在检测到手势开始帧以后的视频帧中，检测到不包含手势开始帧中的目标手势的连续视频帧数量超过第二阈值的情况下，将不包含目标手势的连续视频帧中的至少一帧记录为手势结束帧。其中，第二阈值的数值同样可以根据实际情况灵活设定，不同目标手势对应的第二阈值的数值可以相同也可以不同，具体的设定方式可以参考第一阈值，在此不再赘述。在一个示例中，不同目标手势对应的第二阈值的数值可以相同，比如可以设置为10，即在手势开始帧以后，检测到连续10帧不包含手势开始帧中的目标手势的情况下，可以认为目标对象结束执行目标手势。在这种情况下，可以从不包含目标手势的连续视频帧中选定至少一帧作为手势结束帧，选定的方式同样可以参考手势开始帧，在一个示例中，可以将不包含目标手势的连续视频帧中的最后一帧作为手势结束帧；在一个示例中，也可以将不包含目标手势的连续视频帧中的最后一帧以前的某一帧作为手势结束帧。在一种可能的实现方式中，如果在检测到手势开始帧以后，存在某一帧或某几帧不包含目标对象的视频帧，则也可以将不包含目标对象的某一或某些视频帧作为手势结束帧。

在确定了手势开始帧与手势结束帧以后，可以根据视频帧中包含的手势开始帧与手势结束帧的数量，来确定目标对象执行某种或某些目标手势的次数，进一步地，还可以确定执行某种或某些目标手势的持续时间等。具体确定哪些与目标手势相关的内容，可以根据步骤S13中学习状态信息的需求来灵活决定，详见后续各公开实施例，在此先不做展开。

通过对包含目标对象的视频帧进行至少一种目标手势的检测，并根据检测情况确定手势开始帧与手势结束帧，从而进一步确定视频中目标对象执行至少一种目标手势的次数和/或时间，通过上述过程，可以对视频中目标对象根据学习状态所反馈的手势进行全面且准确的检测，从而提高后续得到的学习状态信息的全面性与精度，继而可以准确地掌握目标对象的学习状态。

在一种可能的实现方式中，学习行为可以包括：表现目标情绪；

对包含目标对象的视频帧进行表情检测和/或微笑值检测；

在检测到视频帧中目标对象展示至少一种第一目标表情或微笑值检测的结果超过目标微笑值情况下，将检测到的视频帧作为第一检测帧；

在检测到连续的第一检测帧的数量超过第三阈值的情况下，确定目标对象产生目标情绪。

其中，目标情绪可以为根据实际需求设定的任意情绪，比如可以为表明目标对象在专注学习的开心情绪，或是表明目标对象学习状态不佳的厌烦情绪等。下述各公开实施例以目标情绪为开心情绪为例进行说明，目标情绪为其他情绪的情况可以参考后续各公开实施例进行相应扩展。

通过上述公开实施例可以看出，在学习行为包括表现目标情绪的情况下，可以通过表情检测和/或微笑值检测，来实现目标对象的学习行为检测。在一种可能的实现方式中，可以仅通过表情检测或微笑值检测来实现表现目标情绪这一学习行为的检测，在一种可能的实现方式中，可以通过表情检测与微笑值检测，来共同确定目标对象是否表现目标情绪。后续各公开实施例均以通过表情检测与微笑值检测来共同确定目标对象是否表现目标情绪为例进行说明，其余实现方式可以参考后续各公开实施例进行相应扩展，在此不再赘述。

其中，表情检测可以包括对目标对象展示的表情进行检测，比如可以检测目标对象展示何种表情，具体的表情划分可以根据实际情况灵活设定，在一种可能的实现方式中，可以将表情划分为高兴、平静以及其他等；而微笑值检测可以包括对目标对象的微笑强度进行检测，比如可以检测目标对象的微笑幅度有多大，微笑值检测的结果可以通过数值来反馈，比如可以将微笑值检测的结果设定为在[0,100]之间，数值越高，表明目标对象的微笑强度或是幅度越高等。具体的表情检测与微笑值检测的方式可以根据实际情况灵活决定，任何能检测到目标对象的表情或是微笑程度的方式，均可以作为相应的检测方式，不局限于下述各公开实施例。在一种可能的实现方式中，可以通过表情识别神经网络来实现目标对象的表情检测，在一种可能的实现方式中，可以通过微笑值检测神经网络，来实现目标对象的微笑值检测。具体地表情识别神经网络与微笑值检测神经网络的结构与实现方式在本公开实施例中不做限定，任何可以通过训练实现表情识别功能的神经网络以及通过训练实现微笑值检测功能的神经网络均可以应用于本公开实施例。在一种可能的实现方式中，也可以通过对视频中目标对象的人脸关键点以及嘴部关键点进行检测，来分别实现表情检测和微笑值检测。

具体在表情检测与微笑值检测达到何种检测结果的情况下，确定目标对象产生目标情绪，其实现方式可以根据实际情况灵活设定。在一种可能的实现方式中，可以认为检测到视频帧中目标对象展示至少一种第一目标表情，或是微笑值检测的结果超过目标微笑值的情况下，认为该视频帧中的目标对象表现出目标情绪，在这种情况下，可以将该视频帧作为第一检测帧。其中，第一目标表情的具体表情种类可以根据实际情况灵活设定，不局限于下述公开实施例。在一种可能的实现方式中，可以将高兴作为第一目标表情，即可以将检测到的目标对象的表情为高兴的视频帧均作为第一检测帧。在一种可能的实现方式中，可以将高兴与平静均作为第一目标表情，即可以将检测到的目标对象的表情为高兴或平静的视频帧，均作为第一检测帧。同理，目标微笑值的具体数值同样可以根据实际情况进行灵活设定，在此不做具体限定。因此，在一种可能的实现方式中，还可以将微笑值的检测结果超过目标微笑值的视频帧，作为第一检测帧。

在一种可能的实现方式中，可以在检测到某一视频帧为第一检测帧的情况下，确定目标对象产生目标情绪。在一种可能的实现方式中，为了提高检测的准确性，减小检测误差对学习行为检测结果的影响，可以在检测到连续的第一检测帧的数量超过第三阈值的情况下，确定目标对象产生目标情绪。其中，可以将连续视频帧中每一帧均为第一检测帧的视频帧序列，作为连续的第一检测帧。第三阈值的数量可以为根据实际情况灵活设定的数量，其数值可以与第一阈值或第二阈值相同，也可以不同，在一个示例中，第三阈值的数量可以为6，即检测到连续6帧均为第一检测帧的情况下，可以认为目标对象产生目标情绪。

进一步地，在确定目标对象产生目标情绪以后，还可以从连续的第一检测帧中选定一帧作为目标情绪开始帧，然后在目标情绪开始帧以后，连续10帧未检测到目标对象的表情为第一目标表情，或是连续10帧中目标对象的微笑值检测结果不超过第三阈值，或是某帧或某几帧检测不到目标对象的情况下，可以进一步确定目标情绪结束帧，然后根据目标情绪开始帧或是目标情绪结束帧来确定目标对象产生目标情绪的次数和/或时间等，具体的过程可以参考目标手势的相应过程，在此不再赘述。

通过对包含目标对象的视频帧进行表情检测和/或微笑值检测，并根据表情检测以及微笑值检测的结果，来确定第一检测帧，从而在检测到连续的第一检测帧的数量超过第三阈值的情况下，确定目标对象产生目标情绪，通过上述过程，可以基于目标对象的表情以及微笑程度来灵活确定目标对象在学习过程中的情绪，从而可以更加全面和准确地感知目标对象在学习过程中的情绪状态，生成更为准确的学习状态信息。

在一种可能的实现方式中，学习行为可以包括：关注教学课程的展示区域；

对包含目标对象的视频帧进行表情检测和人脸角度检测；

在检测到视频帧中目标对象展示至少一种第二目标表情且人脸角度在目标人脸角度范围以内的情况下，将检测到的视频帧作为第二检测帧；

在检测到连续的第二检测帧的数量超过第四阈值的情况下，确定目标对象关注教学课程的展示区域。

其中，教学课程的展示区域的实现形式可以参考上述各公开实施例，在此不再赘述。

通过上述公开实施例可以看出，在学习行为包括关注教学课程的展示区域的情况下，可以通过表情检测和人脸角度检测，来实现目标对象的学习行为检测。在一种可能的实现方式中，也可以仅通过人脸角度检测来实现关注教学课程的展示区域这一学习行为的检测。后续各公开实施例均以通过表情检测与人脸角度检测来确定目标对象是否关注教学课程的展示区域为例进行说明，其余实现方式可以参考后续各公开实施例进行相应扩展，在此不再赘述。

其中，表情检测的实现方式可以参考上述各公开实施例，在此不再赘述；人脸角度检测可以是对人脸的朝向角度等进行检测。具体的人脸角度检测方式可以根据实际情况灵活决定，任何能检测到目标对象的人脸角度的方式，均可以作为人脸角度检测的检测方式，不局限于下述各公开实施例。在一种可能的实现方式中，可以通过人脸角度检测神经网络，来实现目标对象的人脸角度检测。具体地人脸角度检测神经网络的结构与实现方式在本公开实施例中不做限定，任何可以通过训练实现人脸角度检测功能的神经网络均可以应用于本公开实施例。在一种可能的实现方式中，也可以通过对视频中目标对象的人脸关键点进行检测，来确定目标对象的人脸角度。人脸角度检测可以检测出的人脸的角度的形式也可以根据实际情况灵活决定，在一种可能的实现方式中，可以通过检测出目标对象的人脸的偏航角与俯仰角，来确定目标对象的人脸角度。

具体在表情检测与人脸角度检测达到何种检测结果的情况下，确定目标对象关注教学课程的展示区域，其实现方式可以根据实际情况灵活设定。在一种可能的实现方式中，可以认为检测到视频帧中目标对象展示至少一种第二目标表情，且检测到的人脸角度在目标人脸角度范围以内的情况下，认为该视频帧中的目标对象关注了教学课程的展示区域，在这种情况下，可以将该视频帧作为第二检测帧。其中，第二目标表情的具体表情种类可以根据实际情况灵活设定，可以与上述公开实施例中提到的第一目标表情相同，也可以与上述公开实施例中提到的第一目标表情不同，不局限于下述公开实施例。在一种可能的实现方式中，可以将平静作为第二目标表情，即可以将检测到的目标对象的表情为平静且人脸角度在目标人脸角度范围以内的视频帧均作为第二检测帧。在一种可能的实现方式中，可以将其他以外的表情均作为第二目标表情，即可以将检测到的目标对象的人脸角度在目标人脸角度范围以内，且表情不是“其他”的视频帧，均作为第二检测帧。同理，目标人脸角度范围的具体范围数值同样可以根据实际情况进行灵活设定，在此不做具体限定。在一种可能的实现方式中，该目标人脸角度范围可以是静态的，在一个示例中，可以将教师授课中可能移动到的总体位置(比如线下场景中教师所处的讲台区域等)作为目标人脸角度范围；在一个示例中，可以将目标对象观看教学课程过程中可能关注到的固定区域(比如线上场景中目标对象所关注的显示屏等)作为目标人脸角度范围。在一种可能的实现方式中，该目标人脸角度范围也可以是动态的，在一个示例中，可以根据教师授课中移动的当前位置来灵活确定目标人脸角度范围，即可以随着教师的移动，来动态更改目标人脸角度范围的数值。

在一种可能的实现方式中，可以在检测到某一视频帧为第二检测帧的情况下，确定目标对象关注教学课程的展示区域。在一种可能的实现方式中，为了提高检测的准确性，减小检测误差对学习行为检测结果的影响，可以在检测到连续的第二检测帧的数量超过第四阈值的情况下，确定目标对象关注教学课程的展示区域。其中，可以将连续视频帧中每一帧均为第二检测帧的视频帧序列，作为连续的第二检测帧。第四阈值的数量可以为根据实际情况灵活设定的数量，其数值可以与第一阈值、第二阈值或第三阈值相同，也可以不同，在一个示例中，第四阈值的数量可以为6，即检测到连续6帧均为第二检测帧的情况下，可以认为目标对象关注教学课程的展示区域。

进一步地，在确定目标对象关注教学课程的展示区域以后，还可以从连续的第二检测帧中选定一帧作为关注开始帧，然后在关注开始帧以后，连续10帧未检测到目标对象的表情为第二目标表情，或是连续10帧中目标对象的人脸角度不在目标人脸角度范围以内，或是某帧或某几帧检测不到目标对象的情况下，可以进一步确定关注结束帧，然后根据关注开始帧或是关注结束帧来确定目标对象关注教学课程展示区域的次数和/或时间等，具体的过程可以参考目标手势以及目标情绪的相应过程，在此不再赘述。

通过对包含目标对象的视频帧进行表情检测和人脸角度检测，并根据表情检测以及人脸角度检测的结果，来确定第二检测帧，从而在检测到连续的第二检测帧的数量超过第四阈值的情况下，确定目标对象关注教学课程的展示区域，通过上述过程，可以基于目标对象的表情以及人脸角度来灵活确定目标对象是否关注教学课程的展示区域，从而可以更加全面和准确地感知目标对象在学习过程中的精力集中情况，生成更为准确的学习状态信息。

在一种可能的实现方式中，学习行为还可以包括：与其他对象产生至少一种互动行为。互动行为的实现方式可以参考上述各公开实施例，在此不再赘述。在这种情况下，对包含目标对象的视频帧进行互动行为检测的方式可以根据实际情况灵活决定，在一种可能的实现方式中，如果互动行为为线上的互动行为，比如收到老师通过线上课堂发送的小红花，或是根据老师在线上课堂的点名进行发言的情况下，则对互动行为的检测方式可以为直接根据其他对象传递的信号，确定目标对象是否产生互动行为。在一种可能的实现方式中，如果互动行为为线下的互动行为，比如目标对象在教室中受到老师的点名而发言的情况下，检测目标对象是否发生互动行为的方式可以包括：通过对目标对象的目标动作进行识别，来确定目标对象是否发生互动行为，其中，目标动作可以根据互动行为的实际情况灵活设定，比如目标动作可以包括有起立后发言、或是人脸朝向其他对象且发言时间超过一定时间数值等。

在一种可能的实现方式中，学习行为还可以包括在至少视频中未出现，在这种情况下的学习行为检测方式可以参考上述公开实施例中提到的目标对象检测，在此不再赘述。在一种可能的实现方式中，学习行为还可以包括闭眼，在这种情况下的学习行为检测方式可以为闭眼检测，闭眼检测的具体过程可以根据实际情况灵活设定，在一个示例中，可以通过具有闭眼检测功能的神经网络来实现，在一个示例中，也可以通过对眼睛及眼球内的关键点检测来确定目标对象是否闭眼等。在一种可能的实现方式中，学习行为还可以包括在教学课程的展示区域内的目光交流，在这种情况下的学习行为检测方式可以参考上述公开实施例中的关注教学课程的展示区域的过程，具体的检测方式可以灵活发生变化，比如可以对目标对象同时进行闭眼与人脸角度检测，将人脸角度在目标人脸角度范围内且无闭眼的视频帧作为第三检测帧，然后在第三检测帧的数量超过某一设定阈值的情况下，认定目标对象在教学课程的展示区域内进行目光交流等。

在通过上述任意公开实施例的任意组合方式，实现对目标对象的至少一类学习行为的检测以后，可以在检测到目标对象执行至少一类学习行为的情况下，通过步骤S13生成学习状态信息。步骤S13的具体实现方式不受限定，可以根据检测到的学习行为的实际情况所灵活变化，不局限于下述各公开实施例。

通过上述公开实施例中步骤S13的实际内容可以看出，步骤S13在生成学习状态信息的过程中，可能存在如下几种生成方式，比如可以根据包含至少一类学习行为的视频帧来生成学习状态信息；或是根据目标对象执行至少一类学习行为的持续时间来生成学习状态信息；或是对上述两种情况进行组合，既根据包含至少一类学习行为的视频帧来生成一部分学习状态信息，又根据目标对象执行至少一类学习行为的持续时间来生成另外一类学习状态信息。在既可以根据学习行为的视频帧来生成学习状态信息，又可以根据目标对象执行至少一类学习行为的持续时间来生成学习状态信息的情况下，具体根据哪类学习行为对应生成哪种学习状态信息，其映射方式可以根据实际情况灵活设定。在一种可能的实现方式中，可以将一些积极的学习行为与根据包含学习行为的视频帧来生成学习状态信息这一过程相对应，比如在目标对象执行至少一种目标手势、展现积极的目标情绪、关注教学课程的展示区域以及与其他对象产生至少一种互动行为等情况下，可以根据包含上述学习行为的视频帧，来生成学习状态信息；在一种可能的实现方式中，也可以将一些消极的学习行为，比如目标对象在至少部分视频帧中未出现、闭眼或是在教学课程的展示区域内未进行目光交流等情况下，可以根据上述学习行为的持续时间，来生成学习状态信息。

在一种可能的实现方式中，根据至少部分包含至少一类学习行为的视频帧，生成学习状态信息，可以包括：

步骤S1311，获取视频中包含至少一类学习行为的视频帧，作为目标视频帧集合；

步骤S1312，对目标视频帧集合中的至少一个视频帧进行人脸质量检测，将人脸质量大于人脸质量阈值的视频帧作为目标视频帧；

步骤S1313，根据目标视频帧，生成学习状态信息。

其中，包含至少一类学习行为的视频帧，可以是在学习行为检测的过程中，检测到目标对象执行其中至少一类行为的视频帧，比如上述公开实施例中提到的第一检测帧、第二检测帧以及第三检测帧等，或是在手势开始帧与手势结束帧之间的包含目标手势的视频帧等。

在确定了包含至少一类学习行为的视频帧以后，如何得到目标视频帧集合，其实现方式可以灵活决定。在一种可能的实现方式中，可以按照学习行为的类别，分别获取包含每类学习行为的每个视频帧，从而组成每类学习行为的目标视频帧集合；在一种可能的实现方式中，也可以按照学习行为的类别，分别获取包含每类学习行为的部分帧等，然后基于每类学习行为的部分帧来得到该类学习行为的目标视频帧集合，具体选择哪些部分帧，其选择方式可以灵活决定。

在得到了与学习行为对应的目标视频帧集合以后，可以通过步骤S1312，来从目标视频帧集合中选择得到目标视频帧。通过步骤S1312可以看出，在一种可能的实现方式中，可以对目标视频帧集合中的视频帧进行人脸质量检测，然后将人脸质量大于人脸质量阈值的视频帧作为目标视频帧。

其中，人脸质量的检测方式可以根据实际情况灵活设定，不局限于下述公开实施例，在一种可能的实现方式中，可以通过对视频帧中的人脸进行人脸识别，从而确定视频帧中人脸的完整度来确定人脸质量；在一种可能的实现方式中，也可以基于视频帧中人脸的清晰度来确定人脸质量；在一种可能的实现方式中，也可以基于视频帧人脸的完整度、清晰度以及亮度等多个参数来综合评判视频帧中的人脸质量；在一种可能的实现方式中，还可以通过将视频帧输入到人脸质量神经网络，来得到视频帧中的人脸质量，人脸质量神经网络可以通过大量包含人脸质量打分标注的人脸图片训练得到，其具体实现形式可以根据实际情况灵活选择，在本公开实施例中不做限制。

人脸质量阈值的具体数值可以根据实际情况灵活决定，本公开实施例对此不做限制。在一种可能的实现方式中，可以分别为每类学习行为设置不同的人脸质量阈值；在一种可能的实现方式中，也可以分别为每类学习行为设置相同的人脸阈值。在一种可能的实现方式中，还可以将人脸质量阈值设置为目标视频帧集合中人脸质量的最大值，在这种情况下，可以直接将每类学习行为下，人脸质量最高的视频帧作为目标视频帧。

在一些可能的实现方式中，可能存在某些视频帧，同时包含多类学习行为，在这种情况下，处理包含多类学习行为的视频帧的方式可以根据实际情况灵活变化。在一种可能的实现方式中，可以将这些视频帧分别归属在每类学习行为下，然后从每类学习行为对应的视频帧集合中按照步骤S1312进行选择，来得到目标视频帧；在一种可能的实现方式中，也可以直接将同时包含多类学习行为的视频帧选定为目标视频帧。

在通过上述任意实施例确定目标视频帧以后，可以通过步骤S1313，来根据目标视频帧生成学习状态信息。步骤S1313的实现方式可以根据实际情况灵活选择，详见下述各公开实施例，在此先不做展开。

在本公开实施例中，通过获取视频帧中包含至少一类学习行为的视频帧，作为目标视频帧集合，从而根据每类学习行为的目标视频帧集合，选定人脸质量较高的视频帧作为目标视频帧，继而根据目标视频帧来生成学习状态信息。通过上述过程，可以使得生成的学习状态信息，是基于具有较高人脸质量且包含有学习行为的视频帧所得到的信息，具有更高的准确性，从而可以更加精准地把握目标对象的学习状态。

如上述公开实施例所述，步骤S1313的实现方式可以灵活变化。在一种可能的实现方式中，步骤S1313可以包括：

将目标视频帧中的至少一帧作为学习状态信息；和/或，

识别在至少一帧目标视频帧中目标对象所在区域，基于目标对象所在区域，生成学习状态信息。

通过上述公开实施例可以看出，在一种可能的实现方式中，可以直接将目标视频帧中的至少一帧作为学习状态信息，在一个示例中，可以对得到的目标视频帧进行进一步的选定，这一选定可以是随机的，也可以是有一定条件的，然后将选定的目标视频帧直接作为学习状态信息；在一个示例中，也可以直接将得到的每个目标视频帧均作为学习状态信息。

在一种可能的实现方式中，还可以对目标视频帧中的目标对象所在区域进行进一步识别，从而根据目标对象所在的区域来生成学习状态信息。其中，识别目标对象区域的方式在本公开实施例中不做限定，在一种可能的实现方式中，可以通过上述公开实施例中提到的具有目标对象检测功能的神经网络来实现。在确定了目标对象在目标视频帧中的区域后，可以进一步对目标视频帧进行相应处理，来得到学习状态信息。其中，处理的方式可以灵活决定，在一个示例中，可以将目标视频帧中目标对象所在区域的图像，作为学习状态信息；在一个示例中，也可以对目标视频帧目标对象所在区域以外的背景区域进行渲染，比如增加其他贴纸，或是对背景区域增加马赛克，或是替换背景区域的图像等，来得到不显示目标对象当前背景的学习状态信息，从而可以对目标对象进行更好的隐私保护，也可以利用贴纸等渲染方式，增加学习状态信息的多样性和美观。

通过将目标视频中的至少一帧作为学习状态信息，和/或根据目标视频帧中目标对象所在区域来生成学习状态信息，通过上述方式，可以使得最终得到的学习状态信息更为灵活，从而可以根据目标对象的需求，来得到更加突出目标对象的学习状态信息，或是更为保护目标对象隐私的学习状态信息。

上述各公开实施例可以通过任意组合，来得到以包含学习行为的视频帧为基础所生成的学习状态信息，比如表1示出根据本公开一实施例的学习状态信息生成规则。

表1学习状态信息生成规则

其中，M、N、X、Y、Z均为正整数，具体数值可根据实际需求来设定。

其中，精彩时刻为目标对象产生积极学习行为所对应的时刻。通过表1可以看出，在一个示例中，可以在检测到目标对象执行举手等目标手势、产生开心这一目标情绪、或是聚精会神关注教学课程的展示区域以及与老师产生点名发言等互动等学校行为的情况下，对视频进行一定的数据处理，并在数据处理后，对视频帧进行进一步地图像处理，从而得到目标视频帧作为学习状态信息。

在一种可能的实现方式中，根据目标对象执行至少一类学习行为的持续时间，生成学习状态信息，可以包括：

步骤S1321，在检测到目标对象执行至少一类学习行为的时间不小于时间阈值的情况下，记录至少一类学习行为的持续时间；

步骤S1322，将至少一类学习行为对应的持续时间，作为学习状态信息。

其中，时间阈值可以是根据实际情况灵活设定的某一数值，不同类学习行为的时间阈值可以相同，也可以不同。在检测到目标对象在一定时间内执行某一类学习行为的情况下，可以统计目标对象执行这些学习行为的时间，从而作为学习状态信息反馈到老师或家长处。具体的统计条件以及在哪些学习行为下统计时间，其实现方式均可以根据实际情况灵活设定。

在一种可能的实现方式中，在检测到目标对象的未出现在视频中(比如视频中无人、视频帧中有人但无法确定是否为目标对象或是镜头中有人但并非目标对象)的时间超过一定时长、目标对象闭眼或是目标对象未观看教学课程的展示区域的情况下，可以统计这些学习行为的时长并将其作为学习状态信息。

在本公开实施例中，通过在检测到目标对象执行至少一类学习行为的时间不小于时间阈值的情况下，记录至少一类学习行为的持续时间并作为学习状态信息，通过上述过程，可以将学习状态信息进行量化，更为直观且精确地掌握目标对象的学习状态。

在一种可能的实现方式中，本公开实施例中提出的视频处理方法，还可以包括：

对视频中的至少部分视频帧中的背景区域进行渲染，其中，背景区域为视频帧中目标对象以外的区域。

其中，背景区域的分割方式，以及对背景区域的渲染方式，可以参考上述公开实施例中，对目标视频帧中目标对象所在区域进行识别以及识别后的渲染过程，在此不再赘述。对背景区域进行渲染的过程中，在一个示例中，可以通过当前的视频处理装置中预设的通用模板进行渲染；在一个示例中，也可以通过调用非视频处理装置的数据库中的其他模板或定制模板等进行渲染，比如可以从非视频处理装置的云端服务器中，调用其他的背景模板等，对视频中的背景区域进行渲染等。

通过对视频中的至少部分视频帧中的背景区域进行渲染，一方面可以保护视频中目标对象的隐私，减小目标对象由于没有合适的视频采集位置导致隐私泄露的可能性，另一方面，也可以增强目标对象观看教学课程过程的趣味性。

统计至少一个目标对象的学习状态信息，得到至少一个目标对象的统计结果；

根据至少一个目标对象的统计结果，生成学习状态统计数据。

在本公开实施例中，一个视频中包含的目标对象可以为一个，也可以为多个，另外，本公开实施例中的视频处理方法，可以用于对单个视频进行处理，也可以用于对多个视频进行处理。因此，相应的，可以得到一个目标对象的学习状态信息，也可以得到多个目标对象的学习状态信息。在这种情况下，可以对至少一个目标对象的学习状态信息进行统计，来得到至少一个目标对象的统计结果。其中，统计结果可以包含有目标对象的学习状态信息以外，还可以包含有其他与目标对象观看教学课程所相关的信息。比如，在一种可能的实现方式中，在步骤S12以前，即对目标对象进行学习行为检测以前，还可以获取目标对象的签到数据。目标对象的签到数据可以包含有目标对象的身份信息以及签到时间等，具体签到数据的获取方式可以根据目标对象的实际签到方式所灵活决定，在本公开实施例中不做限定。

在得到了至少一个目标对象的统计结果以后，可以根据至少一个统计结果生成学习状态统计数据。具体地，学习状态统计数据的生成方式与内容，可以根据统计结果的实现形式所灵活变化。详见下述各公开实施例，在此先不做展开。

在本公开实施例中，通过统计至少一个目标对象的学习状态信息，得到至少一个目标对象的统计结果，从而根据至少一个目标对象的统计结果来生成学习状态统计数据，通过上述过程，可以有效地对多个目标对象的学习状态进行综合评估，从而更加便于教师掌握整个课堂的整体学习情况，也便于其他相关人员更加全面的了解目标对象当前所处的学习位置等。

在一种可能的实现方式中，根据至少一个所述目标对象的统计结果，生成学习状态统计数据，包括：

根据至少一个目标对象所属的类别，获取至少一个类别包含的目标对象的统计结果，生成至少一个类别的学习状态统计数据，其中，目标对象所属的类别包括目标对象参与的课程、目标对象注册的机构以及目标对象使用的设备中的至少一种；和/或，

将至少一个目标对象的统计结果进行可视化处理，生成至少一个目标对象的学习状态统计数据。

其中，目标对象所属的类别可以是根据目标对象的身份所划分的类别，举例来说，目标对象所属的类别可以包括目标对象参与的课程、目标对象注册的机构以及目标对象使用的设备中的至少一种，其中，目标对象参与的课程可以是上述公开实施例中提到的目标对象观看的教学课程，目标对象注册的机构可以是目标对象所在的教育机构、或是目标对象所在的年级或是目标对象所在的班级等，目标对象使用的设备可以是线上场景中，目标对象参加在线课程所使用的终端设备等。

在本公开实施例中，可以根据目标对象所属的类别，来获取至少一个类别包含的目标对象的统计结果，即可以将目标对象所属类别下的至少一个统计结果进行汇总，来得到该类别下的整体学习状态统计数据。举例来说，可以按照使用设备、课程、教育机构等类别进行划分，分别得到同一设备下不同目标对象的统计结果、同一课程下不同目标对象的统计结果以及同一教育机构中不同目标对象的统计结果等。在一个示例中，还可以将这些统计结果以报表的形式进行展现。在一个示例中，报表中每个类别下的统计结果，既可以包含有每个目标对象的总体学习状态信息，还可以包含有每个目标对象的具体学习状态信息，比如关注教学课程展示区域的时间长度、微笑的时间长度等，除此以外，还可以包含有其他与观看教学课程相关的信息，比如目标对象的签到时间、签到次数、目标对象和预设数据库中的人脸匹配的情况、签到设备以及签到课程等。

除此之外，还可以对至少一个目标对象的统计结果进行可视化处理，来得到至少一个目标对象的学习状态统计数据。其中，可视化处理的方式可以根据实际情况灵活决定，比如可以将数据整理成图表或视频等形式。学习状态统计数据中包含的内容可以根据实际情况灵活决定，比如可以包含有目标对象的总体学习状态信息、目标对象观看的教学课程名称以及目标对象的具体学习状态信息等，具体包含哪些数据可以根据实际情况灵活设定。在一个示例中，可以将目标对象的身份、目标对象观看的教学课程名称、目标对象的关注教学课程展示区域的时长、目标对象的关注程度强弱、目标对象与其他目标对象之间的数据比较结果、目标对象的互动次数以及目标对象的情绪等内容，整理成可视化的报告，并发送给目标对象或目标对象的其他相关人员，比如目标对象的家长等。

在一个示例中，可视化处理后的学习状态统计数据除了图片与视频以外，包含的文字内容的形式可以为“上课科目为XX，A学生专注时长30分钟，专注力为集中，高于班上10％的同学，互动次数3次，微笑5次，特此提出表扬，愿继续努力”或是“上课科目为XX，B学生注意力较不集中，举手等手势互动频次较低，建议家长密切关注，及时调整孩子的学习习惯”等。

在本公开实施例中，通过获取至少一个目标对象所属的类别，从而生成至少一个类别的学习状态统计数据，和/或，将至少一个目标对象的统计结果进行可视化处理，生成至少一个目标对象的学习状态统计数据。通过上述过程，可以通过不同的数据统计方式，更为直观与全面地掌握目标对象的学习状态。

图2示出根据本公开实施例的视频处理装置的框图。如图所示，所述视频处理装置20可以包括：

视频获取模块21，用于获取视频，其中，视频中的至少部分视频帧包含目标对象；

检测模块22，用于根据视频，对目标对象在观看教学课程过程中的至少一类学习行为进行检测；

生成模块23，用于在检测到目标对象执行至少一类学习行为的情况下，根据至少部分包含至少一类学习行为的视频帧和/或目标对象执行至少一类学习行为的持续时间，生成学习状态信息。

在一种可能的实现方式中，学习行为包括以下行为中的至少一类：执行至少一种目标手势、表现目标情绪、关注教学课程的展示区域、与其他对象产生至少一种互动行为、在至少部分视频帧中未出现、闭眼以及在教学课程的展示区域内的目光交流。

在一种可能的实现方式中，检测模块用于：对视频进行目标对象检测，得到包含目标对象的视频帧；对包含目标对象的视频帧进行至少一类学习行为检测。

在一种可能的实现方式中，学习行为包括执行至少一种目标手势；检测模块进一步用于：对包含目标对象的视频帧进行至少一种目标手势的检测；在检测到包含至少一种目标手势的连续视频帧的数量超过第一阈值的情况下，将包含目标手势的视频帧中的至少一帧记录为手势开始帧；在手势开始帧以后的视频帧中，不包含目标手势的连续视频帧的数量超过第二阈值的情况下，将不包含目标手势的视频帧中的至少一帧记录为手势结束帧；根据手势开始帧与手势结束帧的数量，确定视频中目标对象执行至少一种目标手势的次数和/或时间。

在一种可能的实现方式中，学习行为包括表现目标情绪；检测模块进一步用于：对包含目标对象的视频帧进行表情检测和/或微笑值检测；在检测到视频帧中目标对象展示至少一种第一目标表情或微笑值检测的结果超过目标微笑值情况下，将检测到的视频帧作为第一检测帧；在检测到连续的第一检测帧的数量超过第三阈值的情况下，确定目标对象产生目标情绪。

在一种可能的实现方式中，学习行为包括关注教学课程的展示区域；检测模块进一步用于：对包含目标对象的视频帧进行表情检测和人脸角度检测；在检测到视频帧中目标对象展示至少一种第二目标表情且人脸角度在目标人脸角度范围以内的情况下，将检测到的视频帧作为第二检测帧；在检测到连续的第二检测帧的数量超过第四阈值的情况下，确定目标对象关注教学课程的展示区域。

在一种可能的实现方式中，生成模块用于：获取视频中包含至少一类学习行为的视频帧，作为目标视频帧集合；对目标视频帧集合中的至少一个视频帧进行人脸质量检测，将人脸质量大于人脸质量阈值的视频帧作为目标视频帧；根据目标视频帧，生成学习状态信息。

在一种可能的实现方式中，生成模块进一步用于：将目标视频帧中的至少一帧作为学习状态信息；和/或，识别在至少一帧目标视频帧中目标对象所在区域，基于目标对象所在区域，生成学习状态信息。

在一种可能的实现方式中，生成模块用于：在检测到目标对象执行至少一类学习行为的时间不小于时间阈值的情况下，记录至少一类学习行为的持续时间；将至少一类学习行为对应的持续时间，作为学习状态信息。

在一种可能的实现方式中，装置还用于：对视频中的至少部分视频帧中的背景区域进行渲染，其中，背景区域为视频帧中目标对象以外的区域。

在一种可能的实现方式中，装置还用于：统计至少一个目标对象的学习状态信息，得到至少一个目标对象的统计结果；根据至少一个目标对象的统计结果，生成学习状态统计数据。

在一种可能的实现方式中，装置还用于：根据至少一个目标对象所属的类别，获取至少一个类别包含的目标对象的统计结果，生成至少一个类别的学习状态统计数据，其中，目标对象所属的类别包括目标对象参与的课程、目标对象注册的机构以及目标对象使用的设备中的至少一种；和/或，将至少一个目标对象的统计结果进行可视化处理，生成至少一个目标对象的学习状态统计数据。

应用场景示例

学生学习的方式通常是老师授课，学生听课，课堂缺少互动和趣味性，学生不容易提起兴趣听课，不能通过学生的实时表现对学生形成正向激励。同时，机构或者老师也无法掌握学生的听课状态，家长也无法了解孩子在学校的表现，尤其是受疫情影响，学生在线上课的时间非常多，然而，学生是否真正上课以及是否在认真听课、课堂互动表现如何，都无法量化评估。因此，如何有效地把握学生的学习状态，成为目前一个亟待解决的问题。

本公开应用示例提出了一套学习系统，该系统可以通过上述公开实施例中提出的视频处理方法，来有效地掌握学生的学习状态。

图3示出根据本公开一应用示例的示意图。如图所示，在一个示例中，学习系统可以由用户端、教育软件服务化(SaaS，Software-as-a-Service)后台以及互动课堂后台等三部分所构成。其中，学生通过用户端观看教学课程，用户端可以包含两部分，分别是用于学习的硬件设备(比如图中安装了Windows系统或是IOS系统以及SDK的客户端)，以及学生登入在线课堂的应用程序(即图中的用户APP)。教育SaaS后台可以是学生所在的教育机构的服务器所搭建的平台，互动课堂后台可以是汇总不同教育机构的数据并进行数据维护的服务器所搭建的平台，无论是教育SaaS后台还是互动课堂后台，均可以通过API接口，与用户端之间进行数据交互。从而实现上述各公开实施例中所提到的学习状态信息生成以及学习状态统计数据的生成。

在本公开应用示例中，学习状态信息的生成过程可以包括：

用户端通过采集学生观看教学课程过程的视频，并对采集的视频进行处理，从而获取每个学生的学习状态信息，教育SaaS后台以及互动课堂后台通过API接口，调用不同用户端中生成的学习状态信息，并对这些学习状态信息通过上述公开实施例中提到的任意方式进行统计处理，生成学习状态统计数据。

在一个示例中，用户端对采集的视频进行处理，获取每个学生的学习状态信息的过程可以包括：

A.获取学生上课的精彩时刻(即上述公开实施例中提到的积极的学习行为)。

在一个示例中，可以通过定义一定的规则，制作学生的精彩视频集锦，可以将学生的表现剪辑成一小段视频或者是一些精彩图片并提供给家长，这样家长可以及时评估学生的上课表现，如果效果好，可能会鼓励学生继续参加相关课程。

在一个示例中，获取学生的精彩时刻可以在学生签到成功后进行，后去的精彩时刻的视频或图片会上传后台或云端，同时，还可以选择学生是否实时可见上传的精彩时刻的内容。在一个示例中，精彩时刻定义规则可以包括：产生至少一种目标手势，目标手势可以包括举手、点赞、手势OK以及手势Yeah等，在一段时间范围内如果检测到学生执行以上的手势，则可以对包含有手势的视频进行图片或视频帧抽取。表现开心的目标情绪，在一段时间范围内如果检测到学生的表情是高兴，且微笑值达到某一目标微笑值(比如99分)，则可以有高兴标签的视频帧或是达到目标微笑值的视频帧进行图片或视频帧抽取。关注教学课程的展示区域，在一段时间范围内如果学生人脸朝向一直较正，即headpose在某个阈值范围内，则可以对这段时间范围内的视频进行图片或视频帧抽取。

B.对学生的学习情况进行学情检测(针对上述公开实施例中提到的消极的学习行为)。

在一个示例中，可以将学生可能不在画面中，或者有不专注的情况，通过学情检测，将数据实时推送给家长，便于家长第一时间关注孩子，及时纠正孩子的不良学习习惯，起到辅助监督作用。

在一个示例中，对学生进行学情检测的过程可以在学生签到成功后进行，如镜头前多长时间范围内无人出现、未观看屏幕、闭眼等，则判断该人专注度较低，在这种情况下，可以统计学生出现上述学习行为的时长，并将其作为学情检测的结果，得到相应的学习状态数据。具体的学情检测配置规则可以参考上述各公开实施例，在此不再赘述。

通过上述各公开示例，可以得到包含有精彩时刻以及学情检测的学习状态信息，进一步地，教育SaaS后台以及互动课堂后台通过API接口，调用不同用户端中生成的学习状态信息，来生成学习状态统计数据的过程可以包括：

C.报表生成(即上述公开实施例中的生成至少一个类别的学习状态统计数据)。

在一个示例中，后台或云端API可以分设备、课程、机构等不同维度查看学生的签到信息以及学习状态信息，主要数据指标可以包括：签到时间、签到次数、比中人脸库(即上述公开实施例中的目标对象和预设数据库中的人脸匹配的情况)、签到设备、签到课程、专注时长以及微笑时长等。

D.分析报告(即上述公开实施例中的可视化处理生成至少一个目标对象的学习状态统计数据)。

在一个示例中，教育SaaS后台或互动课堂后台可以将学生在在线课堂的表现情况，统一整理成一个完整的学情分析报告。报告通过可视化的图形界面说明学生上课的情况，进一步地，后台还可以选择较好的情况推送给家长或老师，从而可以用于机构老师分析学生情况，逐步辅助孩子改善学习行为。

除上述过程以外，学习系统还可以在学生通过用户端进行学习的过程中，对学生的学习视频进行背景分割处理。在一个示例中，用户端可以针对于学生没有适合直播的位置背景或者出于隐私保护不愿意显示背景画面的情况，提供背景分割功能。在一个示例中，用户端的SDK可以支持若干不同的背景模版，比如可以预设置若干通用模版，在一个示例中，学生也可通过用户端从互动课堂后台调用定制模版。在一个示例中，SDK可以提供背景模版预览接口给用户端的APP，便于学生通过APP预览可以调用的定制模板；学生在上课过程中，也可以通过用户端中APP上背景分割的贴纸，用于对直播背景进行渲染，在一个示例中，如果学生不满意贴纸，也也可以手动触发关闭。用户端的APP可以将学生使用贴纸的数据上报相应后台(教育SaaS后台或互动课堂后台)，相应后台可以分析学生使用了哪些背景贴纸以及使用量等信息，作为额外的学习状态信息等。

本公开应用示例中提出的学习系统，除了可以应用于在线课堂外，还可以扩展应用于其他相关领域，比如在线会议等。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是易失性计算机可读存储介质或非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为上述方法。

在实际应用中，上述存储器可以是易失性存储器(volatile memory)，例如RAM；或者非易失性存储器(non-volatile memory)，例如ROM，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器提供指令和数据。

上述处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本公开实施例不作具体限定。

电子设备可以被提供为终端、服务器或其它形态的设备。

基于前述实施例相同的技术构思，本公开实施例还提供了一种计算机程序，该计算机程序被处理器执行时实现上述方法。

图4是根据本公开实施例的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端。

参照图4，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关人员信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器804，上述计算机程序指令可由电子设备800的处理器820执行以完成上述方法。

图5是根据本公开实施例的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图5，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态人员信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种视频处理方法，其特征在于，包括：

获取视频，其中，所述视频中的至少部分视频帧包含目标对象；

根据所述视频，对所述目标对象在观看教学课程过程中的至少一类学习行为进行检测；

在检测到所述目标对象执行至少一类学习行为的情况下，根据至少部分包含所述至少一类学习行为的视频帧和/或所述目标对象执行所述至少一类学习行为的持续时间，生成学习状态信息。

2.根据权利要求1所述的方法，其特征在于，所述学习行为包括以下行为中的至少一类：执行至少一种目标手势、表现目标情绪、关注所述教学课程的展示区域、与其他对象产生至少一种互动行为、在至少部分所述视频帧中未出现、闭眼以及在所述教学课程的展示区域内的目光交流。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述视频，对所述目标对象的至少一类学习行为进行检测，包括：

对所述视频进行目标对象检测，得到包含所述目标对象的视频帧；

对包含所述目标对象的视频帧进行至少一类学习行为检测。

4.根据权利要求3所述的方法，其特征在于，所述学习行为包括执行至少一种目标手势；

所述对包含所述目标对象的视频帧进行至少一类学习行为检测，包括：

对包含所述目标对象的视频帧进行至少一种目标手势的检测；

在检测到包含至少一种所述目标手势的连续视频帧的数量超过第一阈值的情况下，将包含所述目标手势的视频帧中的至少一帧记录为手势开始帧；

在手势开始帧以后的视频帧中，不包含所述目标手势的连续视频帧的数量超过第二阈值的情况下，将不包含所述目标手势的视频帧中的至少一帧记录为手势结束帧；

根据所述手势开始帧与所述手势结束帧的数量，确定所述视频中所述目标对象执行至少一种目标手势的次数和/或时间。

5.根据权利要求3或4所述的方法，其特征在于，所述学习行为包括表现目标情绪；

对包含所述目标对象的视频帧进行表情检测和/或微笑值检测；

在检测到视频帧中所述目标对象展示至少一种第一目标表情或微笑值检测的结果超过目标微笑值情况下，将检测到的视频帧作为第一检测帧；

在检测到连续的所述第一检测帧的数量超过第三阈值的情况下，确定所述目标对象产生所述目标情绪。

6.根据权利要求3至5中任意一项所述的方法，其特征在于，所述学习行为包括关注所述教学课程的展示区域；

对包含所述目标对象的视频帧进行表情检测和人脸角度检测；

在检测到视频帧中所述目标对象展示至少一种第二目标表情且人脸角度在目标人脸角度范围以内的情况下，将检测到的视频帧作为第二检测帧；

在检测到连续的所述第二检测帧的数量超过第四阈值的情况下，确定所述目标对象关注所述教学课程的展示区域。

7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述根据至少部分包含所述至少一类学习行为的视频帧，生成学习状态信息，包括：

获取所述视频中包含至少一类学习行为的视频帧，作为目标视频帧集合；

对所述目标视频帧集合中的至少一个视频帧进行人脸质量检测，将人脸质量大于人脸质量阈值的视频帧作为目标视频帧；

根据所述目标视频帧，生成所述学习状态信息。

8.根据权利要求7所述的方法，其特征在于，所述根据所述目标视频帧，生成所述学习状态信息，包括：

将所述目标视频帧中的至少一帧作为学习状态信息；和/或，

识别在至少一帧所述目标视频帧中所述目标对象所在区域，基于所述目标对象所在区域，生成所述学习状态信息。

9.根据权利要求1至8中任意一项所述的方法，其特征在于，所述根据所述目标对象执行所述至少一类学习行为的持续时间，生成学习状态信息，包括：

在检测到所述目标对象执行至少一类学习行为的时间不小于时间阈值的情况下，记录至少一类所述学习行为的持续时间；

将至少一类所述学习行为对应的所述持续时间，作为所述学习状态信息。

10.根据权利要求1至9中任意一项所述的方法，其特征在于，所述方法还包括：

对所述视频中的至少部分视频帧中的背景区域进行渲染，其中，所述背景区域为所述视频帧中所述目标对象以外的区域。

11.根据权利要求1至10中任意一项所述的方法，其特征在于，所述方法还包括：

统计至少一个所述目标对象的学习状态信息，得到至少一个所述目标对象的统计结果；

根据至少一个所述目标对象的统计结果，生成学习状态统计数据。

12.根据权利要求11所述的方法，其特征在于，所述根据至少一个所述目标对象的统计结果，生成学习状态统计数据，包括：

根据至少一个所述目标对象所属的类别，获取至少一个所述类别包含的目标对象的统计结果，生成至少一个类别的学习状态统计数据，其中，所述目标对象所属的类别包括所述目标对象参与的课程、所述目标对象注册的机构以及所述目标对象使用的设备中的至少一种；和/或，

将至少一个所述目标对象的统计结果进行可视化处理，生成至少一个所述目标对象的学习状态统计数据。

13.一种视频处理装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至12中任意一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至12中任意一项所述的方法。