CN114466240A

CN114466240A - 视频处理方法、装置、介质及电子设备

Info

Publication number: CN114466240A
Application number: CN202210101143.6A
Authority: CN
Inventors: 陈奕名; 张建鑫
Original assignee: Beijing Jinghong Software Technology Co ltd
Current assignee: Beijing Jinghong Software Technology Co ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-10
Anticipated expiration: 2042-01-27
Also published as: CN114466240B

Abstract

本公开涉及一种视频处理方法、装置、介质及电子设备，所述方法包括：获取录制的教学视频；确定所述教学视频中与目标用户对应的目标视频；提取所述目标视频中的视频讲述者的唇部区域图像；确定所述唇部区域图像对应的关键帧图像；根据所述关键帧图像和所述目标用户对应的目标帧图像，对所述教学视频进行处理，以获得更新后的教学视频。由此，可以对录制的教学视频中与目标用户对应的部分进行更新，使得更新后的教学视频与实际观看视频的目标用户相匹配，基于录播的教学视频实现直播的播放效果，贴合用户的使用需求。并且，降低视频处理的数据量的同时，提高视频处理的效率和准确率。

Description

视频处理方法、装置、介质及电子设备

技术领域

本公开涉及图像处理领域，具体地，涉及一种视频处理方法、装置、介质及电子设备。

背景技术

随着教育水平和网络技术的不断发展，录播课逐渐成为教育场景中非常重要的一环，可以通过录制录播课以为学生提供视频教学。

然而现有技术中，录播课通常都是由教师提前录制好的视频，其难以达到根据实际的观看场景进行交互的直播水平，不能保证教学视频的良好效果。例如：录播老师不能针对具体的学生进行表扬，只能泛泛地概括。或者在当前录制的过程中针对具体学生表扬后，再由其他学生观看时，则会使得观看学生接收到不匹配的内容，降低录播视频的观看体验。

发明内容

本公开的目的是提供一种视频处理方法、装置、介质及电子设备，以使得处理后的录播视频与实际观看用户的信息相匹配，达到直播视频的效果。

为了实现上述目的，根据本公开的第一方面，提供一种视频处理方法，所述方法包括：

获取录制的教学视频；

确定所述教学视频中与目标用户对应的目标视频；

提取所述目标视频中的视频讲述者的唇部区域图像；

确定所述唇部区域图像对应的关键帧图像；

根据所述关键帧图像和所述目标用户对应的目标帧图像，对所述教学视频进行处理，以获得更新后的教学视频。

可选地，所述教学视频包括通过红外摄像装置获得的红外视频和通过光学摄像装置获得的光学视频，所述红外摄像装置和所述光学摄像装置预先进行图像配准；

所述提取所述目标视频中的视频讲述者的唇部区域图像，包括：

基于相同的图像帧抽取方式分别对所述目标视频对应的红外视频和所述光学视频中进行图像帧抽取，获得目标图像帧对，其中，每一所述目标图像帧对中包含红外视频帧和与该红外视频对应的光学视频帧；

针对每一所述目标图像帧对，根据所述目标图像帧对中的红外视频帧确定唇部区域的位置信息，并基于确定出的位置信息从所述目标图像帧对中的光学视频帧中提取唇部区域图像。

可选地，所述根据所述目标图像帧对中的红外视频帧确定唇部区域的位置信息，包括：

检测所述红外视频帧的第一目标特征点和第二目标特征点，其中，所述第一目标特征点用于表征唇部区域的上下边界点，所述第二目标特征点用于表示所述唇部区域的左右边界点；

基于所述红外摄像装置和所述光学摄像装置对应的图像配准信息，对确定出的所述第一目标特征点和第二目标特征点分别对应的位置信息进行坐标转换，获得所述唇部区域的位置信息。

可选地，所述确定所述唇部区域图像对应的关键帧图像，包括：

将所述唇部区域图像输入关键帧识别模型，以基于所述关键帧识别模型的多个卷积层的卷积核对所述唇部图像进行卷积特征提取，并基于提取出的卷积特征获得所述唇部区域图像对应的关键帧向量，其中，所述关键帧识别模型基于全卷积网络获得，所述多个卷积层包括串联的至少一个横向卷积层和至少一个纵向卷积层；

根据所述关键帧向量和所述唇部区域图像，确定所述关键帧图像。

可选地，通过以下方式基于所述关键帧识别模型的多个卷积层的卷积核对所述唇部图像进行卷积特征提取：

若当前的卷积层为横向卷积层，则将所述横向卷积层的卷积核中偶数行对应的数值进行取负值操作，获得更新后的横向卷积核，并基于所述横向卷积核对目标图像进行卷积特征提取；

若当前的卷积层为纵向卷积层，则将所述纵向卷积层的卷积核中偶数列对应的数值进行取负值操作，获得更新后的纵向卷积核，并基于所述纵向卷积核对目标图像进行卷积特征提取；

其中，若当前的卷积层为所述多个卷积层中的第一个卷积层，所述目标图像为所述唇部区域图像，若当前的卷积层不是所述第一个卷积层，所述目标图像为当前的卷积层的上一卷积层的输出图像。

可选地，所述根据所述关键帧向量和所述唇部区域图像，确定所述关键帧图像，包括：

根据所述关键帧向量对应的图像序列的长度对所述唇部区域图像进行分组，获取至少一个分组，其中，所述关键帧向量中的元素与所述分组一一对应；

针对每一所述分组，根据所述分组中的图像、该分组在所述关键帧向量中对应的元素，确定所述分组中的目标图像，其中，所述关键帧图像包括每一所述分组中的目标图像。

可选地，所述确定所述教学视频中与目标用户对应的目标视频，包括：

获取所述教学视频对应的目标音频信息；

对所述目标音频信息进行语音识别，获得所述教学视频对应的文本信息；

确定所述文本信息中检测到的目标文本所对应的目标时段，并将所述目标时段对应的教学视频确定为所述目标视频。

根据本公开的第二方面，提供一种视频处理装置，所述装置包括：

获取模块，用于获取录制的教学视频；

第一确定模块，用于确定所述教学视频中与目标用户对应的目标视频；

提取模块，用于提取所述目标视频中的视频讲述者的唇部区域图像；

第二确定模块，用于确定所述唇部区域图像对应的关键帧图像；

处理模块，用于根据所述关键帧图像和所述目标用户对应的目标帧图像，对所述教学视频进行处理，以获得更新后的教学视频。

根据本公开的第三方面，提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面任一所述方法的步骤。

根据本公开的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面任一所述方法的步骤。

通过上述技术方案，可以对录制的教学视频中与目标用户对应的部分进行更新，使得更新后的教学视频与实际观看视频的目标用户相匹配，基于录播的教学视频实现直播的播放效果，贴合用户的使用需求。并且，在对教学视频进行更新的过程中，可以通过提取唇部区域图像以确定目标视频中对应发音的关键帧图像，从而可以根据关键帧图像和目标用户对应的目标帧图像进行视频处理，降低视频处理的数据量的同时，提高视频处理的效率和准确率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开的一种实施方式提供的视频处理方法的流程图；

图2是根据本公开的一种实施方式提供的唇部区域图像提取的示意图；

图3是关键帧识别模型的示例性结构示意图；

图4是根据本公开的一种实施方式提供的卷积处理的示意图；

图5是根据本公开的一种实施方式提供的视频处理装置的框图；

图6是根据一示例性实施例示出的一种电子设备的框图；

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1所示，为根据本公开的一种实施方式提供的视频处理方法的流程图，如图1所示，所述方法可以包括：

在步骤11中，获取录制的教学视频。其中，可以通过在线下教室中安装摄像装置以对教师的上课过程进行录制，获得该教学视频。

在步骤12中，确定教学视频中与目标用户对应的目标视频，其中，该目标视频即需要根据目标用户的信息进行修改的视频，以实现教学视频与目标用户的适配。

示例地，可以在获得用户授权的情况下，将登录账户对应的用户作为目标用户，并获得该目标用户的信息；或者可以在登录账户之后，对目标用户的名称和信息等进行设置。作为示例，教学视频中的视频讲述者录制时打招呼的语句为“XX的小朋友大家好”，则该教学视频中该“XX”对应的部分需要根据实际观看的目标用户进行修改，则该“XX”对应的视频部分即为该目标视频。作为示例，确定出的目标用户为A1班的学生，打招呼的时候应该是“A1班的小朋友大家好”，确定出的目标用户为A2班的学生，打招呼的时候应该是“A2班的小朋友大家好”。

在步骤13中，提取目标视频中的视频讲述者的唇部区域图像。

其中，在用户的发音过程中，发音与口型信息是对应的。而唇部区域图像中可以表示出视频讲述者在讲课时的口型信息，从而可以通过提取唇部区域图像以便于后续确定对应的口型信息，确定目标视频中需要进行替换的部分。并且，在该实施例中，通过提取唇部区域图像从而只需要对唇部区域图像进行识别处理，以降低数据处理量。

在步骤14中，确定唇部区域图像对应的关键帧图像。

其中，每一个发音会持续一段时间，而在这一段时间内的口型会有很多，而实际上并不用记录所有的口型。因此，在该实施例中，可以从多个唇部区域图像中筛选出其中的关键帧图像，即针对每一发音的多个口型从中选择出发音过程中关键口型的图像帧作为该关键帧图像。例如，在发音“w”时，只需要记录噘嘴的关键帧。

在步骤15中，根据关键帧图像和目标用户对应的目标帧图像，对教学视频进行处理，以获得更新后的教学视频。

其中，目标用户对应的目标帧图像可以是对应于目标用户的发音信息的关键帧图像。示例地，接上文所示，目标用户为A1班的学生，对应于目标用户的发音信息即为对该“A1班”的发音信息，该目标用户对应的目标帧图像可以是该视频讲述者在对“A1班”进行发音时的关键帧图像。作为示例，针对每一视频讲述者，该视频讲述者可以预先针对发音中声母和韵母录制视频，从而可以从该录制的视频中确定出该视频讲述者在发音信息中的各个发音对应的关键帧图像，并将该发音与发音对应的关键帧图像的对应关系进行存储。其中，在该录制视频的过程中，可以从多个角度获得视频讲述者的发音视频，如可以获取到侧脸、仰头等视角下的对应的发音口型，以匹配头部转动等情况下的不同角度的图像替换。因此，在确定出目标用户对应的发音信息后，可以根据该发音信息和对应关系，确定该发音信息中的每一发音对应的关键帧图像，并将确定出的各个关键帧图像作为该目标用户对应的目标帧图像，以实现图像帧的替换。并且，可以以目标用户对应的发音信息的音频替换该目标视频对应的音频，实现对教学视频中目标视频部分的音频和图像的替换，以获得更新后的教学视频。

在一种可能的实施例中，目标帧图像可以是唇部区域图像，即通过目标帧图像替换对应的关键帧图像，实现目标视频中的图像的更新。在另一实施例中，目标帧图像可以是视频讲述者在录制该发音对应的关键帧图像的完整图像，从而以该目标帧图像对包含关键帧图像的完整图像帧进行替换，实现目标视频中的图像的更新。在该实施例中，在对目标视频中的关键帧图像进行替换之后，可以基于视频内插或者视频帧率转换(frame rate upconversion，FRUC)技术实现视频插帧，以提高更新后的教学视频的流畅度，该视频插帧技术为现有技术，在此不再赘述。

由此，通过上述技术方案，可以对录制的教学视频中与目标用户对应的部分进行更新，使得更新后的教学视频与实际观看视频的目标用户相匹配，基于录播的教学视频实现直播的播放效果，贴合用户的使用需求。并且，在对教学视频进行更新的过程中，可以通过提取唇部区域图像以确定目标视频中对应发音的关键帧图像，从而可以根据关键帧图像和目标用户对应的目标帧图像进行视频处理，降低视频处理的数据量的同时，提高视频处理的效率和准确率。

在一种可能的实施例中，在步骤12中确定教学视频中与目标用户对应的目标视频的示例性实现方式如下，该步骤可以包括：

获取所述教学视频对应的目标音频信息。其中，可以通过本领域中常用的音频分离技术从教学视频中将其对应的音频信息分离出来，在此不再赘述。

作为示例，该目标音频信息可以是分离出来的全部音频信息。作为另一示例，教师在教学视频的中间讲课部分通常不会涉及与目标用户相关的信息，一般是在教学视频的开始部分与目标用户打招呼，以及在教学视频的结束部分出现与目标用户对应的评论环节。因此，在该实施例中可以将分离出的音频信息的初始时段和结束时段的音频信息作为该目标音频信息。其中，初始时段为包含教学视频开始时刻的时段，结束时段为包含教学视频结束时刻的时段，初始时段和结束时段的时长可以根据具体的应用场景进行设置，本公开对此不进行限定。由此以在一定程度上降低后续进行语音识别时的音频信息的数据量。

之后，对所述目标音频信息进行语音识别，获得教学视频对应的文本信息；确定所述文本信息中检测到的目标文本所对应的目标时段，并将所述目标时段对应的教学视频确定为所述目标视频。

其中，可以基于本领域中的语音识别技术对该目标音频信息进行语音识别，本公开对此不进行限定。在进行语音识别获得文本信息后，则可以进一步对文本信息进行检测，例如可以通过文本检测模型进行检测，以确定出文本信息中用于表示与目标用户进行交互的语句，以及该语句中与目标用户的信息对应的文本，即目标文本。其中，该文本检测模型可以是根据包含训练文本以及训练文本中标注的用户文本的训练样本进行训练的，通过将训练文本作为输入，以其对应的标注的用户文本作为目标输出对神经网络进行训练获得的，其中，可以采用本领域中常用的神经网络模型和训练方式进行训练，在此不再赘述。

接上述示例，在教学视频中若对目标音频信息进行语音识别获得的文本信息为“AAA的小朋友大家好”，则通过文本检测模型对该文本信息进行检测，确定出的目标文本为“AAA”，则可以将该目标文本在教学视频中对应的时段作为该目标时段，并将该目标时段对应的教学视频作为目标视频，即教学视频中视频讲述者讲出“AAA”的视频部分。

由此，通过上述技术方案，可以通过对教学视频的音频信息进行分析，从而确定教学视频中需要进行图像替换的视频部分，即确定与目标用户对应的视频部分，无需对全部的视频图像进行检测，降低视频分析处理的数据量，同时提高视频处理的效率。

在一种可能的实施例中，所述教学视频包括通过红外摄像装置获得的红外视频和通过光学摄像装置获得的光学视频，所述红外摄像装置和所述光学摄像装置预先进行图像配准。

图像配准(Image registration)可以将不同的传感器(如摄像装置)获取的两幅或多幅图像进行匹配、叠加。在本公开实施例中，可以预先对红外摄像装置和光学摄像装置进行图像配准。示例地，可以基于激光进行配准，例如在红外摄像装置和光学摄像装置的视野范围内，利用激光分别照射两个摄像装置的中心，以获得以下数值信息：激光本身的空间坐标、激光到红外摄像装置的距离、激光到光学摄像装置的距离。之后，则可以根据以上数值信息确定出激光与两个摄像装置的相对位置进而直接完成配准，实现光学视频中的图像对应的坐标系与红外视频中的图像对应的坐标系之间的转换映射。

相应地，所述提取所述目标视频中的视频讲述者的唇部区域图像的示例性实现方式如下，该步骤可以包括：

基于相同的图像帧抽取方式分别对所述目标视频对应的红外视频和所述光学视频中进行图像帧抽取，获得目标图像帧对，其中，每一所述目标图像帧对中包含红外视频帧和与该红外视频对应的光学视频帧。

其中，可以根据图像处理的精度要求预先设置图像帧抽取方式，图像帧抽取方式可以是间隔预设时段抽取一个图像帧，图像处理精度越高，则该预设时段的时长越短。对红外视频和光学视频以相同的方式进行抽取可以保证抽取所得的目标图像帧对中的图像的时间一致性。

示例地，为便于图像的快速识别，可以在教师的唇部区域中涂抹特殊发光材料，该材料可以是透明的，对于教师的正常视频录制过程没有任何影响。通过红外摄像装置可以捕捉该发光材料的反光，从而可以基于红外视频帧中的反光效果快速且准确地确定出唇部区域的位置信息，之后，则可以基于该唇部区域的位置信息从光学视频帧中确定唇部区域图像，以进行提取。

由此，通过上述技术方案，在对唇部区域图像进行提取时，可以通过红外视频帧的图像直接确定唇部区域的位置信息，无需对光学视频帧的图像进行图像识别，进一步降低数据处理量，同时也可以保证唇部区域的位置信息的准确性，以保证唇部区域图像的准确性，为后续进行视频处理提供可靠的数据支持。

在一种可能的实施例中，根据所述目标图像帧对中的红外视频帧确定唇部区域的位置信息的示例性实现方式如下，该步骤可以包括：

检测所述红外视频帧的第一目标特征点和第二目标特征点，其中，所述第一目标特征点用于表征唇部区域的上下边界点，所述第二目标特征点用于表示所述唇部区域的左右边界点。

示例地，为了便于对唇部区域的快速定位，用户可以在其唇部区域的上下边界处涂抹发光材料C1，在唇部区域的左右边界处涂抹发光材料C2，发光材料C1和C2的特征不同，例如可以是纹理不同或者反光亮度不同等，其可以从现有的可涂抹发光材料中选择任意特征不同的两种即可，本公开对此不进行限定。

示例地，如图2所示，M1和M2为识别出的第一目标特征点，N1和N2为识别出的第二目标特征点，因此，在识别出上述特征点后，可以基于该红外视频帧的坐标系确定上述特征点的位置信息，示例地，该位置信息可以通过坐标表示。其中，图2所示的虚线区域可以是确定出的唇部区域，为了保证唇部区域图像的准确性，可以在基于M1、M2、N1和N2形成的外接四边形的基础上，以该外接四边形的中心点扩大范围获得该唇部区域，以使得可以把用户讲话过程中的口型信息获取到。

如上文所述，由于红外摄像装置和光学摄像装置为配准过，则该红外摄像装置和光学摄像装置对应的图像配置信息中可以表示出该红外视频帧对应的坐标系与该光学视频帧对应的坐标系之间的转换，则在确定出上述特征点在红外视频帧中的位置信息后，可以基于该图像配准信息进行坐标系转换映射，以获得上述特征点在光学视频帧中的位置信息，即唇部区域的位置信息。

由此，通过上述技术方案可以基于红外视频帧中的特征分别确定唇部区域的边界特征点，以便于快速定位唇部区域，提高唇部区域识别的效率和准确率。同时通过红外摄像装置和光学摄像装置的配准信息进行坐标转换，以获得光学视频帧中的唇部区域的位置信息，降低光学图像中进行唇部区域识别的复杂度。

在一种可能的实施例中，在步骤13中确定唇部区域图像对应的关键帧图像的示例性实现方式如下，该步骤可以包括：

将所述唇部区域图像输入关键帧识别模型，以基于所述关键帧识别模型的多个卷积层的卷积核对所述唇部图像进行卷积特征提取，并基于提取出的卷积特征获得所述唇部区域图像对应的关键帧向量，其中，所述关键帧识别模型基于全卷积网络获得，所述多个卷积层包括串联的至少一个横向卷积层和至少一个纵向卷积层。

示例地，如图3所示，为关键帧识别模型的示例性结构示意图。其中，该关键帧识别模型包含4个卷积层K1-K4，其中，K1和K3为横向卷积层，K2和K4为纵向卷积层。因此，在该实施例中，则可以通过该串联的多个卷积层对该唇部区域图像进行特征提取，以保证获得的卷积特征的准确性。

在一种可能的实施例中，通过以下方式基于所述关键帧识别模型的多个卷积层的卷积核对所述唇部图像进行卷积特征提取：

若当前的卷积层为横向卷积层，则将所述横向卷积层的卷积核中偶数行对应的数值进行取负值操作，获得更新后的横向卷积核，并基于所述横向卷积核对目标图像进行卷积特征提取。

针对当前的卷积层K1，其为横向卷积层，且当前的卷积层为多个卷积层中的第一个卷积层，则该卷积层K1对应的目标图像为唇部区域图像，即将所述横向卷积层的卷积核中偶数行对应的数值进行取负值操作，获得更新后的横向卷积核，并基于所述横向卷积核对唇部区域图像进行卷积特征提取。

示例地，如图4所示，目标图像的矩阵表示如X所示，c为当前的卷积层K的卷积核，则基于该卷积核c对目标图像进行卷积处理后所得的特征图的矩阵如X’所示，其中，X’中每一元素的计算如下：

σ₁₁＝x₁₁k₁₁+x₁₂k₁₂-x₂₁k₂₁-x₂₂k₂₂

σ₁₂＝x₁₂k₁₁+x₁₃k₁₂-x₂₂k₂₁-x₂₃k₂₂

σ₂₁＝x₂₁k₁₁+x₂₂k₁₂-x₃₁k₂₁-x₃₂k₂₂

σ₂₂＝x₂₂k₁₁+x₂₃k₁₂-x₃₂k₂₁-x₃₃k₂₂

其中，获得卷积处理后的特征图后，可以通过池化层对该特征图以最大池化的方式进行池化处理，从而获得该卷积层的输出图像。其中，池化处理的方式为现有技术，在此不再赘述。

若当前的卷积层为纵向卷积层，则将所述纵向卷积层的卷积核中偶数列对应的数值进行取负值操作，获得更新后的纵向卷积核，并基于所述纵向卷积核对目标图像进行卷积特征提取。

针对卷积层K2，其为纵向卷积层，且当前的卷积层不是多个卷积层中的第一个卷积层，则该卷积层K2对应的目标图像为当前的卷积层的上一卷积层的输出图像，即卷积层K1的输出图像，即将所述纵向卷积层的卷积核中偶数列对应的数值进行取负值操作，获得更新后的纵向卷积核，并基于所述纵向卷积核对目标图像进行卷积特征提取。

示例地，在当前的卷积层为纵向卷积层时，基于该卷积核c对目标图像进行卷积处理后所得的特征图的矩阵如X’中每一元素的计算如下：

σ₁₁＝x₁₁k₁₁-x₁₂k₁₂+x₂₁k₂₁-x₂₂k₂₂

σ₁₂＝x₁₂k₁₁-x₁₃k₁₂+x₂₂k₂₁-x₂₃k₂₂

σ₂₁＝x₂₁k₁₁-x₂₂k₁₂+x₃₁k₂₁-x₃₂k₂₂

σ₂₂＝x₂₂k₁₁-x₂₃k₁₂+x₃₂k₂₁-x₃₃k₂₂

同样地获得卷积处理后的特征图后，可以通过池化层对该特征图以最大池化的方式进行池化处理，从而获得该卷积层的输出图像。

由此，通过上述技术方案，可以通过横向卷积和纵向卷积的计算方式对目标图像中的不同方向上的相邻像素进行不同的计算，以体现相邻的不同方向上的像素之间的差别，从而使得卷积处理过程中的特征图可以包含目标图像中更加全面的特征，提高关键帧识别的准确性。并且通过上述方式可以匹配具有不同纹理方向性的第一目标特征点和第二目标特征点的卷积处理，提高关键帧检测的准确性。

之后，在确定出关键帧向量后，可以根据关键帧向量和唇部区域图像，确定关键帧图像。

其中，可以预先设置该关键帧识别模型输入的图像序列的长度，示例地，该图像序列的长度可以设置为10，则在对关键帧识别模型的训练过程中，每10张图像会形成为一个图像序列，针对每一图像序列会返回一个关键帧结果，则在训练的过程中可以输入10的n倍数张图像，则会返回n个关键帧结果。

该关键帧识别模型用于识别出连续的图像序列中的与该图像序列中的其他图像差异最大的图像。因此在确定该关键帧识别模型的训练样本时，可以选择一张不同的图片作为图像序列中的关键帧，该图像序列中的其他图像可以用相似的图像代替，以获得训练样本。通过以图像序列作为输入，以关键帧作为目标输出，使得关键帧识别模型学习这些图像序列中的不同特征。作为示例，可以对关键帧识别模型的输出进行归一化处理，从而可以基于输出的识别结果确定该关键帧在对图像序列中的位置，进而获得关键帧。如上文所述示例，例如，若输出的识别结果为0.1，则表示图像序列中的第1帧(0.1*10)为关键帧，若输出的识别结果为0.2，则表示图像序列中的第2帧(0.2*10)为关键帧。

由此，通过上述技术方案，可以通过关键帧识别模型快速且准确地识别出目标视频中的关键帧图像，无需对目标视频中的全部视频帧进行替换，从而可以在一定程度上降低视频处理的处理量，提高视频处理效率。

在一种可能的实施例中，所述根据所述关键帧向量和所述唇部区域图像，确定所述关键帧图像的示例性实现方式如下，该步骤可以包括：

根据所述关键帧向量对应的图像序列的长度对所述唇部区域图像进行分组，获取至少一个分组，其中，所述关键帧向量中的元素与所述分组一一对应。

其中，图像序列的长度即为该关键帧识别模型进行训练时设置的图像序列中的图像的数量，如上文示例，该图像序列的长度为10，则可以根据该图像序列的长度对唇部区域图像以10张图像为一组进行分组，获取至少一个分组。示例地，在提取唇部区域图像时，提取的唇部区域图像的数量可以是该图像序列的长度的整数倍。

作为示例，若唇部区域图像为一个分组，则该关键帧向量为1*1的向量，如关键帧向量表示为[0.2]，则表示该分组中的第2帧为目标图像。若唇部区域图像为三个分组，则该关键帧向量为1*3的向量，如关键帧向量表示为[0.2,0.6,0.9]，则表示第一个分组中的第2帧为目标图像，第二个分组中的第6帧为目标图像，第三个分组中第9帧为目标图像，则可以确定出的唇部区域图像对应的关键帧图像为第2帧、第16(10+6)帧和第29(10+10+9)帧的图像。

由此，通过上述技术方案，可以确定出多张唇部区域图像中的与用户发音相关的具有代表性的关键帧，并且提高确定出的关键帧图像的准确性，保证更新后的教学视频的可用性和流畅度，提升用户使用体验。

本公开还提供一种视频处理装置，如图5所示，所述装置10包括：

获取模块100，用于获取录制的教学视频；

第一确定模块200，用于确定所述教学视频中与目标用户对应的目标视频；

提取模块300，用于提取所述目标视频中的视频讲述者的唇部区域图像；

第二确定模块400，用于确定所述唇部区域图像对应的关键帧图像；

处理模块500，用于根据所述关键帧图像和所述目标用户对应的目标帧图像，对所述教学视频进行处理，以获得更新后的教学视频。

所述提取模块包括：

第一处理子模块，用于基于相同的图像帧抽取方式分别对所述目标视频对应的红外视频和所述光学视频中进行图像帧抽取，获得目标图像帧对，其中，每一所述目标图像帧对中包含红外视频帧和与该红外视频对应的光学视频帧；

第一确定子模块，用于针对每一所述目标图像帧对，根据所述目标图像帧对中的红外视频帧确定唇部区域的位置信息，并基于确定出的位置信息从所述目标图像帧对中的光学视频帧中提取唇部区域图像。

可选地，所述第一确定子模块包括：

检测子模块，用于检测所述红外视频帧的第一目标特征点和第二目标特征点，其中，所述第一目标特征点用于表征唇部区域的上下边界点，所述第二目标特征点用于表示所述唇部区域的左右边界点；

转换子模块，用于基于所述红外摄像装置和所述光学摄像装置对应的图像配准信息，对确定出的所述第一目标特征点和第二目标特征点分别对应的位置信息进行坐标转换，获得所述唇部区域的位置信息。

可选地，所述第二确定模块包括：

第二处理子模块，用于将所述唇部区域图像输入关键帧识别模型，以基于所述关键帧识别模型的多个卷积层的卷积核对所述唇部图像进行卷积特征提取，并基于提取出的卷积特征获得所述唇部区域图像对应的关键帧向量，其中，所述关键帧识别模型基于全卷积网络获得，所述多个卷积层包括串联的至少一个横向卷积层和至少一个纵向卷积层；

第二确定子模块，用于根据所述关键帧向量和所述唇部区域图像，确定所述关键帧图像。

可选地，所述第二确定子模块包括：

分组子模块，用于根据所述关键帧向量对应的图像序列的长度对所述唇部区域图像进行分组，获取至少一个分组，其中，所述关键帧向量中的元素与所述分组一一对应；

第三确定子模块，用于针对每一所述分组，根据所述分组中的图像、该分组在所述关键帧向量中对应的元素，确定所述分组中的目标图像，其中，所述关键帧图像包括每一所述分组中的目标图像。

可选地，所述第一确定模块包括：

获取子模块，用于获取所述教学视频对应的目标音频信息；

识别子模块，用于对所述目标音频信息进行语音识别，获得所述教学视频对应的文本信息；

第四确定子模块，用于确定所述文本信息中检测到的目标文本所对应的目标时段，并将所述目标时段对应的教学视频确定为所述目标视频。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种电子设备700的框图。如图6所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的视频处理方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的视频处理方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的视频处理方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的视频处理方法。

图7是根据一示例性实施例示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图7，电子设备1900包括处理器1922，其数量可以为一个或多个，以及存储器1932，用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1922可以被配置为执行该计算机程序，以执行上述的视频处理方法。

另外，电子设备1900还可以包括电源组件1926和通信组件1950，该电源组件1926可以被配置为执行电子设备1900的电源管理，该通信组件1950可以被配置为实现电子设备1900的通信，例如，有线或无线通信。此外，该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如WindowsServer^TM，Mac OSX^TM，Unix^TM，Linux^TM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的视频处理方法的步骤。例如，该非临时性计算机可读存储介质可以为上述包括程序指令的存储器1932，上述程序指令可由电子设备1900的处理器1922执行以完成上述的视频处理方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的视频处理方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取录制的教学视频；

确定所述教学视频中与目标用户对应的目标视频；

提取所述目标视频中的视频讲述者的唇部区域图像；

确定所述唇部区域图像对应的关键帧图像；

2.根据权利要求1所述的方法，其特征在于，所述教学视频包括通过红外摄像装置获得的红外视频和通过光学摄像装置获得的光学视频，所述红外摄像装置和所述光学摄像装置预先进行图像配准；

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标图像帧对中的红外视频帧确定唇部区域的位置信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述唇部区域图像对应的关键帧图像，包括：

5.根据权利要求4所述的方法，其特征在于，通过以下方式基于所述关键帧识别模型的多个卷积层的卷积核对所述唇部图像进行卷积特征提取：

6.根据权利要求4所述的方法，其特征在于，所述根据所述关键帧向量和所述唇部区域图像，确定所述关键帧图像，包括：

7.根据权利要求1所述的方法，其特征在于，所述确定所述教学视频中与目标用户对应的目标视频，包括：

获取所述教学视频对应的目标音频信息；

8.一种视频处理装置，其特征在于，所述装置包括：

获取模块，用于获取录制的教学视频；

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。