CN113537162B

CN113537162B - 一种视频处理方法、装置及电子设备

Info

Publication number: CN113537162B
Application number: CN202111077288.9A
Authority: CN
Inventors: 崔晓宇
Original assignee: Beijing Tuoke Network Technology Co ltd
Current assignee: Beijing Tuoke Network Technology Co ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2022-01-28
Anticipated expiration: 2041-09-15
Also published as: CN113537162A

Abstract

本发明提供了一种视频处理方法、装置及电子设备，其中，该方法包括：获取用户端上传的待处理视频；提取待处理视频中用户的人体图像，并确定待处理视频中用户的表情标识；将用户的人体图像嵌入至预设的教室图像，得到合成图像，并将用户的表情标识显示在合成图像上。通过本发明实施例提供的视频处理方法、装置及电子设备，能够将人体图像与预设的教室图像进行嵌入合成并显示，尽可能的还原线下教学场景，从而获得沉浸式的学习体验，解决了线上教育仪式感不强、学习气氛不足的问题。同时，本发明实施例通过将该用户的表情标识显示在合成图像上，基于这些表情信息能够提醒老师每个学生的学习状态，帮助老师及时发现教学过程中出现的问题。

Description

一种视频处理方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种视频处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着互联网的普及，远程网络教育规模化、产业化逐渐成为一种趋势，但是这种新型的教育模式在技术应用上总是有其不可避免的应用弊端和欠缺。比如，在网络课堂场景下，因师生处于异地上课的情况，双方缺少传统线下教育的仪式感，比较不利于营造学习氛围；且相比于传统的线下教学模式，网络授课的老师很难对课堂中的学生进行管理，难以发现学生上课过程中不专注的现象，导致无法了解学生的学习情况和对本节课程所教授的知识的掌握程度，难以提升在线教育的教学质量。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种视频处理方法、装置、电子设备及计算机可读存储介质。

第一方面，本发明实施例提供了一种视频处理方法，包括：获取用户端上传的待处理视频；提取所述待处理视频中用户的人体图像，并确定所述待处理视频中所述用户的表情标识；将所述用户的所述人体图像嵌入至预设的教室图像，得到合成图像，并将所述用户的所述表情标识显示在所述合成图像上。

可选地，提取所述待处理视频中用户的人体图像包括：获取所述待处理视频中的关键帧，识别所述关键帧中是否包含与所述用户相对应的人体，在所述关键帧中包含与所述用户相对应的人体的情况下，清除所述关键帧中除与所述用户相对应的人体以外的数据，得到所述用户的所述人体图像。

可选地，获取所述待处理视频中的关键帧包括：获取所述待处理视频中已判断过是否为关键帧的视频帧，将所述已判断过是否为关键帧的视频帧作为前视频帧，提取所述前视频帧的特征；将所述待处理视频中与所述前视频帧间隔预设帧数的视频帧作为目标视频帧，提取所述目标视频帧的特征，所述前视频帧的时间戳早于所述目标视频帧的时间戳；比较所述目标视频帧的特征与所述前视频帧的特征，确定所述目标视频帧是否为关键帧。

可选地，比较所述目标视频帧的特征与所述前视频帧的特征，确定所述目标视频帧是否为关键帧包括：在所述前视频帧是关键帧的情况下，若所述目标视频帧的特征与所述前视频帧的特征的差异值小于预设阈值，确定所述目标视频帧是关键帧；若所述目标视频帧的特征与所述前视频帧的特征的差异值不小于预设阈值，确定所述目标视频帧不是关键帧；在所述前视频帧不是关键帧的情况下，若所述目标视频帧的特征与所述前视频帧的特征的差异值小于预设阈值，确定所述目标视频帧不是关键帧；若所述目标视频帧的特征与所述前视频帧的特征的差异值不小于预设阈值，确定所述目标视频帧是关键帧。

可选地，提取所述目标视频帧的特征包括：基于预设的卷积核提取所述目标视频帧的特征，所述目标视频帧的特征为：

其中，

表示N×N的卷积核，

表示亮度系数，

表示宽度偏移量，

表示高度偏移量，

表示输入矩阵定义的宽度坐标，

表示输入矩阵定义的高度坐标，

表示所述目标视频帧。

可选地，确定所述待处理视频中所述用户的表情标识包括：将包含与所述用户相对应的人体的关键帧作为当前关键帧，确定位于所述当前关键帧与下一关键帧之间的最后双向预测帧；所述最后双向预测帧为多个连续的双向预测帧中的最后一个双向预测帧，或者位于所述下一关键帧之前的最后一个双向预测帧；根据所述最后双向预测帧识别所述用户的表情标识。

第二方面，本发明实施例提供了一种视频处理装置，包括：获取模块、处理模块以及合成模块。

获取模块用于获取用户端上传的待处理视频。

处理模块用于提取所述待处理视频中用户的人体图像，并确定所述待处理视频中所述用户的表情标识。

合成模块用于将所述用户的所述人体图像嵌入至预设的教室图像，得到合成图像，并将所述用户的所述表情标识显示在所述合成图像上。

第三方面，本发明实施例提供了一种电子设备，包括：总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述收发器、所述存储器和所述处理器通过所述总线相连，所述计算机程序被所述处理器执行时实现如上所述的视频处理方法中的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，包括：可读存储介质上存储的计算机程序；所述计算机程序被处理器执行时实现如上所述的视频处理方法中的步骤。

本发明实施例提供的视频处理方法、装置、电子设备及计算机可读存储介质，通过对用户上传的待处理视频进行提取人体图像和确定用户表情标识的处理，再将该人体图像与预设的教室图像进行嵌入合成，能够将学生的人体图像显示在教室画面中，尽可能的还原线下教学场景，使网络授课环境下的学生产生一种自己本身正处于线下真实教室的感觉，从而获得沉浸式的学习体验，解决了线上教育仪式感不强、学习气氛不足的问题。同时，本发明实施例通过将该用户的表情标识显示在合成图像上，通过这些表情信息能够提醒老师每个学生的学习状态，帮助老师及时发现教学过程中出现的问题，从而进一步帮助学生调整学习状态。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1示出了本发明实施例所提供的一种视频处理方法的流程图；

图2示出了本发明实施例所提供的视频处理方法中，获取待处理视频中的关键帧的具体方法的流程图；

图3示出了本发明实施例所提供的视频处理方法中，确定待处理视频中用户的表情标识的具体方法的流程图；

图4本发明实施例所提供的视频处理方法的一种详细流程图；

图5示出了本发明实施例所提供的视频处理装置的结构示意图；

图6示出了本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。

图1示出了本发明实施例所提供的一种视频处理方法的流程图。如图1所示，该方法包括步骤101-103。

步骤101：获取用户端上传的待处理视频。

本发明实施例中，用户端可以是网络授课环境下的学生端，待处理视频可以是学生端上传的视频。例如，用户（比如学生）需要参与网络授课时，可以将自己能够操作的设备（智能手机、平板电脑、个人电脑等）作为用户端，基于该用户端的视频采集功能采集并生成待处理视频，进而可以上传该待处理视频。

步骤102：提取待处理视频中用户的人体图像，并确定待处理视频中用户的表情标识。

其中，待处理视频通过解码处理可以得到多帧图像数据，一般包括有用户的图像数据，此外，还可以包括无用户的图像数据；例如，有用户的图像数据是存在与用户相对应的人体的图像数据，反之，无用户的图像数据是画面中只有静物或环境，不存在与用户相对应的人体的图像数据。本发明实施例通过识别有用户的图像数据，从中提取出与用户相对应的人体，即人体图像。此外，本发明实施例通过对待处理视频进行处理能够确定该待处理视频中用户的表情标识，该表情标识具体可以用文字的形式清楚地表示该用户的表情和状态，例如，疑惑、疲倦等；也可以用其他形式（例如符号的形式）来表示，本实施例对此不做限定。

可选地，上述步骤102中“提取待处理视频中用户的人体图像”包括：获取待处理视频中的关键帧，识别关键帧中是否包含与用户相对应的人体，在关键帧中包含与用户相对应的人体的情况下，清除关键帧中除与用户相对应的人体以外的数据，得到用户的人体图像。

通常情况下，待处理视频通过解码会得到关键帧、前向预测帧及双向预测帧。关键帧会将本帧画面的所有内容保存，其所包含的数据相对于前向预测帧和双向预测帧而言相对完整，包含的数据也最多；前向预测帧表示当前这一帧跟前一帧画面的差别，解码时需要用之前缓存的画面叠加上本前向预测帧所包含的差别才能生成最终画面，前向预测帧的实质是一种差别帧，该前向预测帧不包含完整的画面数据，只包含与前一帧的画面有差别的数据；双向预测帧表示本帧与前帧和后帧的差别，换言之，要解码双向预测帧不仅需要根据之前的缓存画面，还需要根据解码之后的画面，通过将前、后画面的与本帧数据叠加才能得到最终的画面，双向预测帧压缩率高。由于关键帧所包含的数据最完整，因此，本发明实施例采用提取待处理视频中的关键帧的方法，从该关键帧中进一步提取人体图像。

例如，当获得待处理视频的关键帧后，基于谷歌在开源跨平台框架MediaPipe（一种多媒体机器学习模型应用框架）或者OpenCV（一种跨平台计算机视觉和机器学习软件库）能够识别该关键帧中是否包含与上传该待处理视频的用户相对应的人体。当需要识别大量数据时，通常也可以采用构建第一识别模型的方式，基于第一识别模型对待处理视频中的关键帧进行识别，确定该关键帧中是否包含与用户相对应的人体。其中，该第一识别模型可以是简单的神经网络，或者LSTM（Long Short-Term Memory，长短期记忆网络）等。

并且，在该关键帧中包含与用户相对应的人体的情况下，可以采用视频分割技术对该关键帧进行分割，具体方式可以是沿该关键帧中与该用户相对应的人体轮廓清除该人体以外的其他数据，得到只包含该用户人体数据的人体图像。其中，可以采用半监督视频物体分割、交互式视频物体分割或无监督视频物体分割等视频分割技术进行处理，本发明实施例对此不做限定。

本发明实施例选择待处理视频中的关键帧进行处理，由于关键帧中所包含的数据完整，在处理关键帧时不需要同时处理其他视频帧便能够直接得到人体图像，方便快捷。

步骤103：将用户的人体图像嵌入至预设的教室图像，得到合成图像，并将用户的表情标识显示在合成图像上。

其中，教室图像为模拟教室内部场景的图像。例如，可以拍摄无人的教室内部，将拍摄得到的图像作为教室图像；或者，通过仿真软件仿真无人的教室，将仿真的图像（例如渲染图）作为教室图像。本发明实施例根据上述步骤102描述的过程可以得到用户的人体图像，将该人体图像嵌入至预设的教室图像中，使该人体图像的图层位于该预设的教室图像的图层之上，得到合成图像。该合成图像能够呈现出一种用户即便在网络授课环境下也像在现实课堂中一样，营造出一种人在教室的效果。此外，本发明实施例还可以将该用户的表情标识通过json（JavaScript Object Notation，一种轻量级的数据交换格式）数据反馈到该合成图像上进行展示。具体地，可以通过Popover（气泡弹出框/弹出式气泡/气泡）的方式将该用户的表情标识实时显示在该合成图像上，也可以将用户的表情标识以表格的方式显示在该合成图像的右下方。

本发明实施例通过对用户上传的待处理视频进行提取人体图像和确定用户表情标识的处理，再将该人体图像与预设的教室图像进行嵌入合成，能够将学生的人体图像显示在教室画面中，尽可能的还原线下教学场景，使网络授课环境下的学生产生一种自己本身正处于线下真实教室的感觉，从而获得沉浸式的学习体验，解决了线上教育仪式感不强、学习气氛不足的问题。同时，本发明实施例通过将该用户的表情标识显示在合成图像上，通过这些表情信息能够提醒老师每个学生的学习状态，帮助老师及时发现教学过程中出现的问题，从而进一步帮助学生调整学习状态。

可选地，上述步骤“获取待处理视频中的关键帧”可以包括以下步骤201-203。

步骤201：获取待处理视频中已判断过是否为关键帧的视频帧，将已判断过是否为关键帧的视频帧作为前视频帧，提取前视频帧的特征。

目前，用户端上传的视频一般都是高清视频，在网络课堂系统开发的过程中，发明人发现利用现有方案对高清视频进行关键帧提取时，通常会消耗较高的计算资源，过程较为复杂，运算时间较长，无法快速准确地从高清视频中提取关键帧。而本发明实施例可以先获取待处理视频中解码后已经能够确定该视频帧是否是关键帧的视频帧，将该视频帧作为前视频帧，从该前视频帧中提取可以表示该前视频帧的特征。如果该前视频帧是关键帧，则该前视频帧的特征即可表示关键帧的特征；如果该前视频帧不是关键帧，则该前视频帧的特征即可表示非关键帧的特征，如前向预测帧或者双向预测帧的特征。本发明实施例基于前视频帧的特征可以进一步方便地提取待处理视频中的其余关键帧。

步骤202：将待处理视频中与前视频帧间隔预设帧数的视频帧作为目标视频帧，提取目标视频帧的特征，前视频帧的时间戳早于目标视频帧的时间戳。

本发明实施例中，可以基于待处理视频中的前视频帧确定目标视频帧，并提取该目标视频帧的特征。其中，在解码待处理视频的过程中，得到的每一帧视频帧在该视频的时间轴上都分别对应一个时间戳，该目标视频帧的时间戳晚于该前视频帧的时间戳，并且，该目标视频帧是与前视频帧间隔预设帧数的视频帧，该预设帧数是可以随情况实时调整改变的，且该预设帧数不小于1。其中，当判断过几个目标视频帧是否是关键帧之后，能够初步确定所采集的两个关键帧之间间隔帧数的规律，将这种已经形成一定规律的间隔帧数作为预设帧数，故可以在之后判断目标视频帧是否是关键帧时，将基于该规律所确定的预设帧数作为前视频帧与目标视频帧之间的间隔帧数。由于随着目标视频帧的采集与判断，两个关键帧之间间隔帧数的规律也会有一定的变化，因此，针对该预设帧数通常也会随规律的变化而相应的作出适当调整。例如，在根据是关键帧的前视频帧所判断的目标视频帧也是关键帧，且该前视频帧与该目标视频帧相隔5帧的情况下，由于该目标视频帧已经确定是关键帧，因此该目标视频帧也可作为前视频帧，用于确定之后的目标视频帧是否是关键帧，基于此，可以确定两个关键帧之间间隔帧数的规律为两帧之间间隔5帧，即令预设帧数为5，故可以将与前视频帧相隔5帧的视频帧作为目标视频帧，进一步判断该目标视频帧是否是关键帧。

步骤203：比较目标视频帧的特征与前视频帧的特征，确定目标视频帧是否为关键帧。

本发明实施例通过提取目标视频帧的特征，将该目标视频帧的特征与上述步骤201中获得的前视频帧的特征进行对比，在该目标视频帧的特征与前视频帧的特征相同或不同的情况下，能够分别确定该目标视频帧是关键帧或者不是关键帧。并且，通过动态调整预设帧数的方法可以智能的判断关键帧可能存在的位置，区别于传统方案需要逐个获取视频帧进行一一解码，再从中提取关键帧的过程，减少了逐一解码带来的性能消耗，尤其是当待处理视频为高清视频时，逐一解码确定关键帧的方案比较耗费资源、运算时间较长，而本方法在这种情况下能够提高效率，具有明显优势。

可选地，上述步骤203具体可以包括以下步骤A1或A2。

步骤A1：在前视频帧是关键帧的情况下，若目标视频帧的特征与前视频帧的特征的差异值小于预设阈值，确定目标视频帧是关键帧；若目标视频帧的特征与前视频帧的特征的差异值不小于预设阈值，确定目标视频帧不是关键帧。

其中，由于前视频帧是已经经过识别的视频帧，可以确定前视频帧的种类，其可以是关键帧，也可以不是关键帧。在该前视频帧是关键帧的情况下，该前视频帧的特征表示关键帧的特征。如果该目标视频帧的特征与该前视频帧的特征之间的差异小于预设阈值，即该目标视频帧与关键帧之间仅存在很小的差异，可以认为该目标视频帧是关键帧；如果该目标视频帧的特征与该前视频帧的特征之间的差异不小于预设阈值，即该目标视频帧与关键帧之间存在较大差异，可以认为该目标视频帧不是关键帧。其中，该预设阈值可以是预先设置的固定值，也可以是基于实际情况动态设置的值。此外，可以利用两个特征之间的相似度表示差异值，相似度越大，差异值越小。

步骤A2：在前视频帧不是关键帧的情况下，若目标视频帧的特征与前视频帧的特征的差异值小于预设阈值，确定目标视频帧不是关键帧；若目标视频帧的特征与前视频帧的特征的差异值不小于预设阈值，确定目标视频帧是关键帧。

同理，在该前视频帧不是关键帧的情况下，该前视频帧的特征表示非关键帧的特征，如前向预测帧的特征或者双向预测帧的特征。如果该目标视频帧的特征与该前视频帧的特征之间的差异小于预设阈值，即该目标视频帧与关键帧之间存在较大的差异，可以认为该目标视频帧不是关键帧；如果该目标视频帧的特征与该前视频帧的特征之间的差异不小于预设阈值，即该目标视频帧与关键帧之间仅存在较小的差异，可以认为该目标视频帧是关键帧。

本发明实施例通过特征对比的方式能够方便快速地确定目标视频帧的种类，不仅判断方式简单易行，其结果也较为准确。

可选地，可以基于现有的技术方案提取目标视频帧的特征，或者，上述步骤202中“提取目标视频帧的特征”包括：基于预设的卷积核提取目标视频帧的特征，该目标视频帧的特征为：

其中，

表示N×N的卷积核，

表示亮度系数，

表示宽度偏移量，

表示高度偏移量，

表示输入矩阵定义的宽度坐标，

表示输入矩阵定义的高度坐标，

表示目标视频帧。

本发明实施例利用预设的卷积核在目标视频帧上“滑过”，即对该目标视频帧进行卷积处理，从而可以提取到该目标视频帧的特征，该目标视频帧的特征可以用式子

表示。其中，卷积核

是一个二维的、大小为N×N滤波器矩阵；

表示亮度系数，亮度系数越大表示该目标视频帧的画面亮度越高；

表示宽度偏移量，即一种优化边缘系数，当该宽度偏移量

等于1时，该卷积核从该目标视频帧画面的左上角开始移动，当该宽度偏移量

小于0时，则该卷积核从该目标视频帧画面的左上角向左偏移；

表示高度偏移量，也是一种优化边缘系数，当该高度偏移量

等于1时，则该卷积核从该目标视频帧画面的左上角开始移动，当该高度偏移量

小于0时，则该卷积核从该目标视频帧画面的左上角向上偏移；

表示输入矩阵定义的宽度坐标，该输入矩阵为前一次的运算结果矩阵，且首次为初始卷积核，

表示输入矩阵定义的高度坐标，M表示目标视频帧。基于上式对目标视频帧M进行卷积运算“*”，可以提取出该目标视频帧的特征。

可选地，上述步骤102中“确定待处理视频中用户的表情标识”具体可以包括以下步骤301-302。

步骤301：将包含与用户相对应的人体的关键帧作为当前关键帧，确定位于当前关键帧与下一关键帧之间的最后双向预测帧；最后双向预测帧为多个连续的双向预测帧中的最后一个双向预测帧，或者位于下一关键帧之前的最后一个双向预测帧。

本发明实施例中，基于当前关键帧和下一关键帧能够提取出最后双向预测帧。其中，当前关键帧表示所提取的包含与用户相对应的人体的关键帧，最后双向预测帧是位于该当前关键帧与下一关键帧之间的某一个双向预测帧。通常情况下，待处理视频可以被解码成为如：I,B,B,B,P,B,B,B,P,I的多个视频帧（共10帧）的解码序列，其中，I表示关键帧，P表示前向预测帧，B表示双向预测帧。上述解码序列中第一个I为当前关键帧，最后一个I帧可以为下一关键帧。本发明实施例所要确定的最后双向预测帧（B帧）是位于上述解码序列中两个关键帧（I帧）之间的某个双向预测帧（B帧），其可以是多个连续的双向预测帧中的最后一个双向预测帧，例如上述解码序列中三个连续的B帧中的最后一个B帧，即上述序列中的第4帧为最后双向预测帧；或者，最后双向预测帧也可以是在解码序列中位于下一关键帧之前的最后一个双向预测帧，例如上述解码序列中，下一关键帧（第10帧）之前的最后一个B帧为第8帧，故也可以将该序列中的第8帧作为最后双向预测帧。

步骤302：根据最后双向预测帧识别用户的表情标识。

其中，当得到最后双向预测帧后，可以从该最后双向预测帧中识别用户的表情标识。本发明实施例可以基于样本视频中的最后双向预测帧与表情标识，训练得到能够识别用户表情标识的第二识别模型，基于待处理视频中提取出的最后双向预测帧及该第二识别模型能够准确识别待处理视频中用户的表情标识。该第二识别模型可以使用Keras（一种基于OpenCV的高度模块化的神经网络函数经配置后所得到的卷积神经网络）模型，本发明实施例对此不做限定。

本发明实施例在提取两个关键帧之间的最后双向预测帧时利用了双向预测帧的特点，即包含的数据少、解码快等优点，提升了识别效率。而最后双向预测帧还可以与后续解码序列中的前向预测帧关系紧密，根据该最后双向预测帧进行表情识别的同时，可以兼顾接下来的解码序列中的表情变化，表情识别更加准确，识别效果更好。

下面通过一个实施例详细介绍该视频处理方法流程，该方法应用于线上授课场景。参见图4所示，该方法包括以下步骤401-408。

步骤401：构建用于识别人体图像的第一识别模型，构建用于识别学生表情标识的第二识别模型。

步骤402：获取学生上传的待处理视频。

步骤403：从该待处理视频中提取关键帧。

其中，可以采用现有识别关键帧的方式确定该待处理视频中的第一个关键帧，之后基于上述步骤201-203中所描述的过程进一步提取其他关键帧，此处不再赘述。

步骤404：基于第一识别模型判断该关键帧是否包含人体，若该关键帧包含人体，执行步骤405；若该关键帧不包含该学生，则重复执行步骤403直至确定包含人体的关键帧。

其中，该人体一般为该学生的人体。

步骤405：对该关键帧进行分割处理得到该学生的人体图像。

步骤406：将包含人体的该关键帧作为当前关键帧，确定该当前关键帧与下一关键帧之间的最后双向预测帧，基于第二识别模型确定最后双向预测帧中的表情标识。

需要说明的是，步骤406可以与步骤403同时进行。

步骤407：将该学生的人体图像嵌入至预设的教室图像，生成合成图像。

步骤408：将该学生的表情标识以气泡的形式显示在合成图像上。

本发明实施例还提供了一种视频处理装置，参见图5所示，该装置包括：获取模块51、处理模块52以及合成模块53。

获取模块51用于获取用户端上传的待处理视频。

处理模块52用于提取所述待处理视频中用户的人体图像，并确定所述待处理视频中所述用户的表情标识。

合成模块53用于将所述用户的所述人体图像嵌入至预设的教室图像，得到合成图像，并将所述用户的所述表情标识显示在所述合成图像上。

可选地，处理模块52包括：第一处理子模块。

第一处理子模块用于获取所述待处理视频中的关键帧，识别所述关键帧中是否包含与所述用户相对应的人体，在所述关键帧中包含与所述用户相对应的人体的情况下，清除所述关键帧中除与所述用户相对应的人体以外的数据，得到所述用户的所述人体图像。

可选地，第一处理子模块包括：第一提取单元、第二提取单元以及比较单元。

第一提取单元用于获取所述待处理视频中已判断过是否为关键帧的视频帧，将所述已判断过是否为关键帧的视频帧作为前视频帧，提取所述前视频帧的特征。

第二提取单元用于将所述待处理视频中与所述前视频帧间隔预设帧数的视频帧作为目标视频帧，提取所述目标视频帧的特征，所述前视频帧的时间戳早于所述目标视频帧的时间戳。

比较单元用于比较所述目标视频帧的特征与所述前视频帧的特征，确定所述目标视频帧是否为关键帧。

可选地，比较单元包括：第一比较子单元和第二比较子单元。

第一比较子单元用于在所述前视频帧是关键帧的情况下，若所述目标视频帧的特征与所述前视频帧的特征的差异值小于预设阈值，确定所述目标视频帧是关键帧；若所述目标视频帧的特征与所述前视频帧的特征的差异值不小于预设阈值，确定所述目标视频帧不是关键帧。

第二比较子单元用于在所述前视频帧不是关键帧的情况下，若所述目标视频帧的特征与所述前视频帧的特征的差异值小于预设阈值，确定所述目标视频帧不是关键帧；若所述目标视频帧的特征与所述前视频帧的特征的差异值不小于预设阈值，确定所述目标视频帧是关键帧。

可选地，第二提取单元提取所述目标视频帧的特征包括：基于预设的卷积核提取所述目标视频帧的特征，所述目标视频帧的特征为：

其中，

表示N×N的卷积核，

表示亮度系数，

表示宽度偏移量，

表示高度偏移量，

表示输入矩阵定义的宽度坐标，

表示输入矩阵定义的高度坐标，

表示所述目标视频帧。

可选地，处理模块52还包括：第二处理子模块和第三处理子模块。

第二处理子模块用于将包含与所述用户相对应的人体的关键帧作为当前关键帧，确定位于所述当前关键帧与下一关键帧之间的最后双向预测帧；所述最后双向预测帧为多个连续的双向预测帧中的最后一个双向预测帧，或者位于所述下一关键帧之前的最后一个双向预测帧。

第三处理子模块用于根据所述最后双向预测帧识别所述用户的表情标识。

本发明实施例提供的视频处理装置，通过对用户上传的待处理视频进行提取人体图像和确定用户表情标识的处理，再将该人体图像与预设的教室图像进行嵌入合成，能够将学生的人体图像显示在教室画面中，尽可能的还原线下教学场景，使网络授课环境下的学生产生一种自己本身正处于线下真实教室的感觉，从而获得沉浸式的学习体验，解决了线上教育仪式感不强、学习气氛不足的问题。同时，本发明实施例通过将该用户的表情标识显示在合成图像上，通过这些表情信息能够提醒老师每个学生的学习状态，帮助老师及时发现教学过程中出现的问题，从而进一步帮助学生调整学习状态。

此外，本发明实施例还提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该收发器、该存储器和处理器分别通过总线相连，计算机程序被处理器执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图6所示，本发明实施例还提供了一种电子设备，该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。

在本发明实施例中，该电子设备还包括：存储在存储器1150上并可在处理器1120上运行的计算机程序，计算机程序被处理器1120执行时实现上述视频处理方法实施例的各个过程。

收发器1130，用于在处理器1120的控制下接收和发送数据。

本发明实施例中，总线架构（用总线1110来代表），总线1110可以包括任意数量互联的总线和桥，总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。

总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个，包括存储器总线以及存储器控制器、外围总线、加速图形端口（Accelerate Graphical Port，AGP）、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制，这样的体系结构包括：工业标准体系结构（Industry Standard Architecture，ISA）总线、微通道体系结构（Micro Channel Architecture，MCA）总线、扩展ISA（Enhanced ISA，EISA）总线、视频电子标准协会（Video Electronics Standards Association，VESA）、外围部件互连（Peripheral Component Interconnect，PCI）总线。

处理器1120可以是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括：通用处理器、中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，FPGA）、复杂可编程逻辑器件（Complex Programmable LogicDevice，CPLD)、可编程逻辑阵列（Programmable Logic Array，PLA）、微控制单元（Microcontroller Unit，MCU）或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如，处理器可以是单核处理器或多核处理器，处理器可以集成于单颗芯片或位于多颗不同的芯片。

处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成，或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器（Random Access Memory，RAM）、闪存（FlashMemory）、只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

总线1110还可以将，例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起，总线接口1140在总线1110和收发器1130之间提供接口，这些都是本领域所公知的。因此，本发明实施例不再对其进行进一步描述。

收发器1130可以是一个元件，也可以是多个元件，例如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发器1130从其他设备接收外部数据，收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质，还可以提供用户接口1160，例如：触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。

应理解，在本发明实施例中，存储器1150可进一步包括相对于处理器1120远程设置的存储器，这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络（ad hoc network）、内联网（intranet）、外联网（extranet）、虚拟专用网（VPN）、局域网（LAN）、无线局域网（WLAN）、广域网（WAN）、无线广域网（WWAN）、城域网（MAN）、互联网（Internet）、公共交换电话网（PSTN）、普通老式电话业务网（POTS）、蜂窝电话网、无线网络、无线保真（Wi-Fi）网络以及两个或更多个上述网络的组合。例如，蜂窝电话网和无线网络可以是全球移动通信（GSM）系统、码分多址（CDMA）系统、全球微波互联接入（WiMAX）系统、通用分组无线业务（GPRS）系统、宽带码分多址（WCDMA）系统、长期演进（LTE）系统、LTE频分双工（FDD）系统、LTE时分双工（TDD）系统、先进长期演进（LTE-A）系统、通用移动通信（UMTS）系统、增强移动宽带（Enhance Mobile Broadband，eMBB）系统、海量机器类通信（massive Machine Type of Communication，mMTC）系统、超可靠低时延通信（UltraReliable Low Latency Communications，uRLLC）系统等。

应理解，本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器，或可包括易失性存储器和非易失性存储器两者。其中，非易失性存储器包括：只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）或闪存（Flash Memory）。

易失性存储器包括：随机存取存储器（Random Access Memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如：静态随机存取存储器（Static RAM，SRAM）、动态随机存取存储器（Dynamic RAM，DRAM）、同步动态随机存取存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（Double Data RateSDRAM，DDRSDRAM）、增强型同步动态随机存取存储器（Enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（Synchlink DRAM，SLDRAM）和直接内存总线随机存取存储器（DirectRambus RAM，DRRAM）。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。

在本发明实施例中，存储器1150存储了操作系统1151和应用程序1152的如下元素：可执行模块、数据结构，或者其子集，或者其扩展集。

具体而言，操作系统1151包含各种系统程序，例如：框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序，例如：媒体播放器（Media Player）、浏览器（Browser），用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括：小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。

此外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读存储介质包括：永久性和非永久性、可移动和非可移动媒体，是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括：电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括：相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、非易失性随机存取存储器（NVRAM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置（例如在其上记录有指令的凹槽中的穿孔卡或凸起结构）或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定，计算机可读存储介质不包括暂时信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波（例如穿过光纤电缆的光脉冲）或通过导线传输的电信号。

在本申请所提供的几个实施例中，应该理解到，所披露的装置、电子设备和方法，可以通过其他的方式实现。例如，以上描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的、机械的或其他的形式连接。

所述作为分离部件说明的单元可以是或也可以不是物理上分开的，作为单元显示的部件可以是或也可以不是物理单元，既可以位于一个位置，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（包括：个人计算机、服务器、数据中心或其他网络设备）执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。

在本发明实施例的描述中，所属技术领域的技术人员应当知道，本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此，本发明实施例可以具体实现为以下形式：完全的硬件、完全的软件（包括固件、驻留软件、微代码等）、硬件和软件结合的形式。此外，在一些实施例中，本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式，该计算机可读存储介质中包含计算机程序代码。

上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括：电、磁、光、电磁、红外或半导体的系统、装置或器件，或者以上任意的组合。计算机可读存储介质更具体的例子包括：便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM）、闪存（Flash Memory）、光纤、光盘只读存储器（CD-ROM）、光存储器件、磁存储器件或以上任意组合。在本发明实施例中，计算机可读存储介质可以是任意包含或存储程序的有形介质，该程序可以被指令执行系统、装置、器件使用或与其结合使用。

上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输，包括：无线、电线、光缆、射频（Radio Frequency，RF）或者以上任意合适的组合。

可以以汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，例如：Java、Smalltalk、C++，还包括常规的过程式程序设计语言，例如：C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括：局域网（LAN）或广域网（WAN），可以连接到用户计算机，也可以连接到外部计算机。

本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。

应当理解，流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合，都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行，产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。

也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样，存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。

也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，包括：

获取用户端上传的待处理视频；

提取所述待处理视频中用户的人体图像，并确定所述待处理视频中所述用户的表情标识；

将所述用户的所述人体图像嵌入至预设的教室图像，得到合成图像，并将所述用户的所述表情标识显示在所述合成图像上；

所述提取所述待处理视频中用户的人体图像包括：

获取所述待处理视频中的关键帧，识别所述关键帧中是否包含与所述用户相对应的人体，在所述关键帧中包含与所述用户相对应的人体的情况下，清除所述关键帧中除与所述用户相对应的人体以外的数据，得到所述用户的所述人体图像；

所述确定所述待处理视频中所述用户的表情标识包括：

将包含与所述用户相对应的人体的关键帧作为当前关键帧，确定位于所述当前关键帧与下一关键帧之间的最后双向预测帧；所述最后双向预测帧为多个连续的双向预测帧中的最后一个双向预测帧，或者位于所述下一关键帧之前的最后一个双向预测帧；

根据所述最后双向预测帧识别所述用户的表情标识。

2.根据权利要求1所述的方法，其特征在于，所述获取所述待处理视频中的关键帧包括：

获取所述待处理视频中已判断过是否为关键帧的视频帧，将所述已判断过是否为关键帧的视频帧作为前视频帧，提取所述前视频帧的特征；

将所述待处理视频中与所述前视频帧间隔预设帧数的视频帧作为目标视频帧，提取所述目标视频帧的特征，所述前视频帧的时间戳早于所述目标视频帧的时间戳；

比较所述目标视频帧的特征与所述前视频帧的特征，确定所述目标视频帧是否为关键帧。

3.根据权利要求2所述的方法，其特征在于，所述比较所述目标视频帧的特征与所述前视频帧的特征，确定所述目标视频帧是否为关键帧包括：

在所述前视频帧是关键帧的情况下，若所述目标视频帧的特征与所述前视频帧的特征的差异值小于预设阈值，确定所述目标视频帧是关键帧；若所述目标视频帧的特征与所述前视频帧的特征的差异值不小于预设阈值，确定所述目标视频帧不是关键帧；

在所述前视频帧不是关键帧的情况下，若所述目标视频帧的特征与所述前视频帧的特征的差异值小于预设阈值，确定所述目标视频帧不是关键帧；若所述目标视频帧的特征与所述前视频帧的特征的差异值不小于预设阈值，确定所述目标视频帧是关键帧。

4.根据权利要求2或3所述的方法，其特征在于，所述提取所述目标视频帧的特征包括：

基于预设的卷积核提取所述目标视频帧的特征，所述目标视频帧的特征为：

其中，

表示N×N的卷积核，

表示亮度系数，

表示宽度偏移量，

表示高度偏移量，

表示输入矩阵定义的宽度坐标，

表示输入矩阵定义的高度坐标，

表示所述目标视频帧。

5.一种视频处理装置，其特征在于，包括：获取模块、处理模块以及合成模块；

所述获取模块用于获取用户端上传的待处理视频；

所述处理模块用于提取所述待处理视频中用户的人体图像，并确定所述待处理视频中所述用户的表情标识；

所述合成模块用于将所述用户的所述人体图像嵌入至预设的教室图像，得到合成图像，并将所述用户的所述表情标识显示在所述合成图像上；

所述处理模块包括：第一处理子模块；

所述第一处理子模块用于获取所述待处理视频中的关键帧，识别所述关键帧中是否包含与所述用户相对应的人体，在所述关键帧中包含与所述用户相对应的人体的情况下，清除所述关键帧中除与所述用户相对应的人体以外的数据，得到所述用户的所述人体图像；

所述处理模块还包括：第二处理子模块和第三处理子模块；

所述第二处理子模块用于将包含与所述用户相对应的人体的关键帧作为当前关键帧，确定位于所述当前关键帧与下一关键帧之间的最后双向预测帧；所述最后双向预测帧为多个连续的双向预测帧中的最后一个双向预测帧，或者位于所述下一关键帧之前的最后一个双向预测帧；

所述第三处理子模块用于根据所述最后双向预测帧识别所述用户的表情标识。

6.一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的视频处理方法中的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的视频处理方法中的步骤。