CN113747239B

CN113747239B - 视频剪辑方法及其装置

Info

Publication number: CN113747239B
Application number: CN202111049167.3A
Authority: CN
Inventors: 邵泉; 杜建平
Original assignee: Beijing Kuailai Culture Communication Group Co ltd
Current assignee: Beijing Kuailai Culture Communication Group Co ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2023-05-05
Anticipated expiration: 2041-09-08
Also published as: CN113747239A

Abstract

本发明公开了视频剪辑方法及其装置，第一图像帧和虚拟对象构成第一视频数据；利用mediacodec技术对第一视频数据进行解码得到视频解码数据，将视频解码数据输入预先训练的神经网络模型进行处理，提取至少一个关键视频；利用OpenGL技术对具有虚拟对象的关键视频中每个具有虚拟对象的第二图像帧进行分段渲染，得到多个具有虚拟对象的第三图像帧；利用mediacodec技术将多个具有虚拟对象的第三图像帧进行重新编码生成目标视频。通过增强现实技术用户即可观看到基于真实环境叠加有虚拟对象的视频画面，以使虚拟对象更好地融合在真实环境中；基于多模态信息和相似度匹配相结合的方式，使其得到的关键视频更为精确。

Description

视频剪辑方法及其装置

技术领域

本发明涉及视频处理技术领域，更具体地，涉及一种视频剪辑方法及其装置。

背景技术

视频剪辑技术是一种对视频进行裁剪得到该视频的其中一个或多个片段的技术，该技术应用于终端中安装的各应用程序中，如短视频应用程序、直播应用程序、游戏社区应用程序、社交应用程序等，示意性的，以社交应用程序为例进行说明，对总时长60秒的社交录制视频A进行剪辑，得到该社交录制视频A中第10秒至第19秒以及30秒至39秒之间的视频片段作为社交精彩瞬间，但在现有技术中，通常用户在图像帧上直接加载贴图，虽然图像帧与贴图位于同一个画面，但无法使虚拟对象更好地融合在真实环境中，使得人眼的视觉效果较差；此外，通过人工方式进行视频分割，费时费力，而采用非人工的一些视频分割，则无法正确理解图像帧的信息，导致对视频画面解读的准确性也明显降低，最终影响目标视频所呈现的视频画质效果，同时不便于个性化定制，即无法保证提取的关键视频中每一帧都过滤镜，进而无法保证每一帧画面均具有完整滤镜。

现有技术中，专利文献(CN106534971)公开了一种音视频剪辑方法及装置，该方案公开了在确定了待进行滤镜处理的GOP组后，只需对该音视频片段中的该GOP组进行相应的解码、滤镜处理以及编码，实现对音视频片段相应的部分进行二次编码以及滤镜处理的过程，但是该方案仅对该音视频片段中涉及的淡入的时长或者淡出的时长增加滤镜，即前音视频片段解码后的最后几帧做淡出滤镜，以及后音视频片段解码后的最后几帧做淡入滤镜，并非对音视频片段中每一帧进行渲染。

发明内容

有鉴于此，本发明提供了一种视频剪辑方法和装置。

第一方面，本申请提供一种视频剪辑方法，包括以下步骤：

采集源视频数据，所述源视频数据包括至少一个第一图像帧；

基于AR场景对第一图像帧进行渲染得到虚拟对象，所述第一图像帧和所述虚拟对象构成第一视频数据，其中，所述虚拟对象与所述第一图像帧中预设特征标记相匹配；

利用mediacodec技术对所述第一视频数据进行解码得到视频解码数据，将所述视频解码数据输入预先训练的神经网络模型进行处理，提取至少一个关键视频，其中，将所述视频解码数据输入预先训练的神经网络模型进行处理，提取至少一个关键视频包括：

将视频解码数据中至少一个具有所述虚拟对象的所述第一图像帧进行细节分割，得到多个具有虚拟对象的第二图像帧；

根据与所述多个具有虚拟对象的第二图像帧中相关的多模态信息，对所述多个具有虚拟对象的第二图像帧进行特征编码，得到用于表征所述多模态信息融合的特征融合信息，其中，多模态信息包括文本信息、音频信息、动作信息、色调信息和物体信息中的至少一种；

根据特征融合信息，对所述多个具有虚拟对象的第二图像帧进行相似度匹配，根据相似度匹配结果得到具有虚拟对象的关键视频；

利用OpenGL技术对所述具有虚拟对象的关键视频中每个具有虚拟对象的第二图像帧进行分段渲染，得到多个具有虚拟对象的第三图像帧；

利用mediacodec技术将所述多个具有虚拟对象的第三图像帧进行重新编码生成目标视频。

优选地，所述根据特征融合信息，对所述多个具有虚拟对象的第二图像帧进行相似度匹配，根据相似度匹配结果得到具有虚拟对象的关键视频之后包括：

读取所述关键视频中的每个第二图像帧，并将读取后的所述每个第二图像帧依次存储至缓存队列中；

在所述缓存队列中获取所述关键视频，将所述关键视频预先提交给所述mediacodec编码器。

优选地，所述利用OpenGL技术对所述具有虚拟对象的关键视频中每个具有虚拟对象的第二图像帧进行分段渲染，得到多个具有虚拟对象的第三图像帧：

创建OpenGL环境，将所述关键视频中每个具有虚拟对象的第二图像帧依次发送给绘图表面进行纹理操作；

利用绘图线程渲染当前具有虚拟对象的第二图像帧，当前具有虚拟对象的第二图像帧渲染完成后，再处理下一个具有虚拟对象的第二图像帧，直至每个关键视频中不存在具有虚拟对象的第二图像帧。

优选地，所述利用mediacodec技术将所述多个具有虚拟对象的第三图像帧进行重新编码生成目标视频包括：

根据所述关键视频中多个具有虚拟对象的第二图像帧的渲染顺序，将关键视频中多个具有虚拟对象的第二图像帧整理成为一个对象；

将所述对象过一遍整体效果后输出到mediacodec编码器中进行编码，并提取封面帧。

第二方面，本申请还提供一种视频剪辑装置，包括：

源视频数据采集模块，用于采集源视频数据，所述源视频数据包括至少一个第一图像帧；

第一视频数据构成模块，用于基于AR场景对第一图像帧进行渲染得到虚拟对象，所述第一图像帧和所述虚拟对象构成第一视频数据，其中，所述虚拟对象与所述第一图像帧中预设特征标记相匹配；

关键视频提取模块，用于利用mediacodec技术对所述第一视频数据进行解码得到视频解码数据，将所述视频解码数据输入预先训练的神经网络模型进行处理，提取至少一个关键视频；

所述关键视频提取模块包括：

细节分割单元，用于将视频解码数据中至少一个具有所述虚拟对象的所述第一图像帧进行细节分割，得到多个具有虚拟对象的第二图像帧；

特征编码单元，用于根据与所述多个具有虚拟对象的第二图像帧中相关的多模态信息，对所述多个具有虚拟对象的第二图像帧进行特征编码，得到用于表征所述多模态信息融合的特征融合信息，其中，多模态信息包括文本信息、音频信息、动作信息、色调信息和物体信息中的至少一种；

相似度匹配单元，用于根据特征融合信息，对所述多个具有虚拟对象的第二图像帧进行相似度匹配，根据相似度匹配结果得到具有虚拟对象的关键视频；

分段渲染模块，用于利用OpenGL技术对所述具有虚拟对象的关键视频中每个具有虚拟对象的第二图像帧进行分段渲染，得到多个具有虚拟对象的第三图像帧；

目标视频生成模块，用于利用mediacodec技术将所述多个具有虚拟对象的第三图像帧进行重新编码生成目标视频。

优选的，视频剪辑装置还包括：

图像帧缓存模块，用于读取所述关键视频中的每个第二图像帧，并将读取后的所述每个第二图像帧依次存储至缓存队列中；

关键视频获取模块，用于在所述缓存队列中获取所述关键视频，将所述关键视频预先提交给所述mediacodec编码器。

优选的，分段渲染模块包括：

纹理操作模块，用于创建OpenGL环境，将所述关键视频中每个具有虚拟对象的第二图像帧依次发送给绘图表面进行纹理操作；

当前图像帧渲染模块，用于利用绘图线程渲染当前具有虚拟对象的第二图像帧，当前具有虚拟对象的第二图像帧渲染完成后，再处理下一个具有虚拟对象的第二图像帧，直至每个关键视频中不存在具有虚拟对象的第二图像帧。

优选的，所述目标视频生成模块包括：

对象整理模块，用于根据所述关键视频中多个具有虚拟对象的第二图像帧的渲染顺序，将关键视频中多个具有虚拟对象的第二图像帧整理成为一个对象；

编码模块，用于将所述对象过一遍整体效果后输出到mediacodec编码器中进行编码，并提取封面帧。

与现有技术相比，本发明提供的视频剪辑方法及其装置，至少实现了如下的有益效果：

通过增强现实技术用户即可观看到基于真实环境叠加有虚拟对象的视频画面，以使虚拟对象更好地融合在真实环境中，使得人眼的视觉效果得到明显改善，且其实现过程方便；基于多模态信息和相似度匹配相结合的方式，使其得到的关键视频更为精确，从而提高了视频分割的准确性；同时整体上实现便于个性化定制，如对每个第二图像帧进行纹理操作、调整至少部分第二图像帧的色彩等，利用mediacodec对源视频数据解码更加快速，有效提高软解码效率，将关键视频中每个第二图像帧都过滤镜，进而保证每帧画面都具有完整滤镜，同时针对滤镜后的多个具有虚拟对象的第三图像帧进行重新编码是为了视频合成，从而将新视频分享给更多用户，进而提高用户体验。

当然，实施本发明的任一产品必不特定需要同时达到以上所述的所有技术效果。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是本发明实施例提供的视频剪辑方法的流程图；

图2是本发明实施例提供的视频剪辑方法中利用神经网络模型提权关键视频的流程图；

图3是本发明实施例提供的视频剪辑装置的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

对本申请中涉及的专业名称进行解释：

视频剪辑：对视频源进行非线性编辑的软件，属多媒体制作软件范畴。软件通过对加入的图片、背景音乐、特效、场景等素材与视频进行重混合，对视频进行切割、合并，通过二次编码，生成具有不同表现力的新视频。

图像帧，是影像动画中最小单位的单幅影像画面，相当于电影胶片上的每一格镜头，一帧就是一副静止的画面，连续的帧就形成动画。

关键帧，指角色或者物体运动或变化中的关键动作所处的那一帧。

图1是本发明实施例提供的视频剪辑方法的流程图之一；图2是本发明实施例提供的视频剪辑方法中利用神经网络模型提权关键视频的流程图；如图1所示，一种视频剪辑方法，包括以下步骤：

具体的，源视频数据可以直接通过手机内置的摄像头采集，智能手机、平板电脑等电子设备，即打开手机内置的摄像头，点击视频录制按钮进行录制，得到一系列第一图像帧。

具体的，增强现实(Augmented Reality，简称AR)，增强现实技术也被称为扩增现实，是将虚拟物体与真实现实场景无缝结合在一起，真实环境和虚拟物体之间重叠之后，能够在同一个画面以及空间中同时存在。在一系列第一图像帧上基于AR场景渲染一个或多个虚拟对象，虚拟对象与第一图像帧中预设特征标记相匹配，通常AR服务的软件预先配置一个或多个对应的虚拟对象模型，虚拟对象模型的位置和大小可以采用人手对显示屏幕进行调节，将一个或多个虚拟对象模型叠加在第一图像帧中的对应的预设特征标记中，如以人脸图像为例进行示意，人脸图像中具有多个预设特征标记，如：眼部特征标记、耳部特征标记、嘴部特征标记、鼻部特征标记和头发特征标记，基于AR场景在头发特征标记处叠加有头饰模型，以及嘴部特征标记处叠加有冰激凌模型，这样用户即可观看到基于真实环境叠加有虚拟对象的视频画面，以使虚拟对象更好地融合在真实环境中，使得人眼的视觉效果得到明显改善，且其实现过程方便。

利用mediacodec技术对所述第一视频数据进行解码得到视频解码数据，将所述视频解码数据输入预先训练的神经网络模型进行处理，提取至少一个关键视频；

具体的，第一视频数据通过mediacodec解码器进行解码，从而得到视频解码数据，采用mediacodec解码器解码更加快速，软解码效率高；将所述视频解码数据输入预先训练的神经网络模型进行处理，提取至少一个关键视频，如提取的关键视频为30秒的短视频，也可以提取两个及两个以上的关键视频，如两个或者两个以上30秒短视频，关键视频可以理解为精彩瞬间片段，关键视频便于用户预览，同时也可以分段渲染关键视频，神经网络模型可以由多个专家模型构成，也可以集成多个专家模型各自的功能到一个神经网络中，如该神经网络模型可以包括：文本提取器、音频提取器、色调提取器、物体提取器以及动作提取器，根据文本提取器识别文本信息；根据音频提取器识别出音频信息；根据色调提取器识别色调信息(RGB特征)，物体提取器识别出物体信息，动作提取器识别出动作信息。

其中，如图2所示，将所述视频解码数据输入预先训练的神经网络模型进行处理，提取至少一个关键视频包括：

基于镜头和色彩变换的参数对视频解码数据中多个具有所述虚拟对象的第一图像帧进行细节分割，针对镜头分割常用方法包括边缘分割法、直方图方法、块匹配法、镜头渐变检测算法、特征提取方法、特征的检测尺度等方法进行视频分割；如色彩变换方面，基于色调进行视频分割。

多模态信息包括文本信息、音频信息、动作信息、色调信息和物体信息中的至少一种，根据上述信息对所述多个具有虚拟对象的第二图像帧进行特征提取和特征融合处理，特征融合处理可以采用整合为多功能提取的一个神经网络模型作为专家模型，也可以使用不同类型的神经网络模型，对具有虚拟对象的第二图像帧相关的多模态信息进行特征提取，如利用各个提取器分别识别文本信息、音频信息、色调信息(RGB特征)、物体信息和动作信息；由于可以基于多模态信息进行特征编码，可以得到包含更多视频内容细节的信息，根据相似度匹配后，得到关键视频更为精确，从而提高了视频分割的准确性。

根据多模态信息(文本信息、音频信息、动作信息、色调信息和物体信息)，对多个具有虚拟对象的第二图像帧进行评分，将评分作为相似度匹配结果，相似度匹配结果为针对同一事件内容的相邻图像帧相似的情况下，将相邻图像帧进行视频合并，直至对多个具有虚拟对象的第二图像帧分别依据相邻图像帧合并结束，根据视频合并结果得到关键视频，由于针对同一事件内容的相似度合并，更关注视频内容细节上的相似度，从而提高分割更准确，进而大大提高了最终视频分割结构的准确度。

具体地，以在30秒的短视频中可以仅提取第1秒-第5秒的具有虚拟对象的关键视频举例，以720P每秒60帧示意，如关键视频中第1秒至第2秒之间包括120个第二图像帧，可以每十个第二图像帧形成一个第二图像帧片段，也可以每三十个第二图像帧形成一个第二图像帧片段；以每三十个第二图像帧形成一个第二图像帧片段举例：将第1个第二图像帧-第30个第二图像帧为第一个第二图像帧片段，第31个第二图像帧-第60个第二图像帧为第二个第二图像帧片段，第61个第二图像帧-第90个第二图像帧为第三个第二图像帧片段，第91个第二图像帧-第120个第二图像帧为第四个第二图像帧片段；

用户通过OpenGL将上述四个视频片段进行分段渲染，即依次渲染第一个第二图像帧片段中将第1个第二图像帧-第30个第二图像帧、第二个第二图像帧片段中第31个第二图像帧-第60个第二图像帧、第三个第二图像帧片段中第61个第二图像帧-第90个第二图像帧、第四个第二图像帧片段中第91个第二图像帧-第120个第二图像帧，分别将渲染后的第一个第二图像帧片段、第二个第二图像帧片段、第三个第二图像帧片段和第四个第二图像帧片段形成多个具有虚拟对象的第三第二图像帧，从而使关键视频中每个第二图像帧都进行了滤镜，进而保证每帧画面都是完整滤镜，用户可以根据自己的喜好过滤每个第二图像帧。

具体的，还以上述示例为例，将视频渲染数据中渲染后的第一个第二图像帧片段、第二个第二图像帧片段、第三个第二图像帧片段和第四个第二图像帧片段通过mediacodec编码器进行重新编码，生成一个目标视频，也就是说目标视频为一个新视频，针对滤镜后的多个具有虚拟对象的第三图像帧进行重新编码是为了视频合成，从而将新视频分享给更多用户，进而提高用户体验。

本实施例提供的视频剪辑方法中，通过增强现实技术用户即可观看到基于真实环境叠加有虚拟对象的视频画面，以使虚拟对象更好地融合在真实环境中，使得人眼的视觉效果得到明显改善，且其实现过程方便；基于多模态信息和相似度匹配相结合的方式，使其得到的关键视频更为精确，从而提高了视频分割的准确性；同时整体上实现便于个性化定制，如对每个第二图像帧进行特效处理、调整部分第二图像帧的纹理、色彩等，利用mediacodec对源视频数据解码更加快速，有效提高软解码效率，将关键视频中每个第二图像帧都过滤镜，进而保证每帧画面都具有完整滤镜，同时针对滤镜后的多个具有虚拟对象的第三图像帧进行重新编码是为了视频合成，从而将新视频分享给更多用户，进而提高用户体验。

图2是本发明实施例提供的视频剪辑方法的流程图之二；如图2所示，所述根据特征融合信息，对所述多个具有虚拟对象的第二图像帧进行相似度匹配，根据相似度匹配结果得到具有虚拟对象的关键视频之后包括：

具体地，在对源视频数据解码之前，需要先创建mediacodec解码器和mediacodec编码器，利用MediaCodec解码器对源视频数据进行解码，得到视频解码数据，视频解码数据即为解码好的视频数据，配置mediacodec编码器时需要设置视频合成文件中多个关键视频之间的间隔；从mediacodec解码器中依次读取关键视频中每个第二图像帧，并将读取后的每个第二图像帧存储在缓存队列里面；从缓存队列中获取关键视频，该关键视频中均为解码好的视频数据，最后将每个关键视频设置给mediacodec编码器，即将解码好的数据设置给mediacodec编码器。

利用OpenGL技术对所述具有虚拟对象的关键视频中每个具有虚拟对象的第二图像帧进行分段渲染，得到多个具有虚拟对象的第三图像帧包括：

具体的，创建OpenGL环境，将关键视频中每个具有虚拟对象的第二图像帧提交给surface对应的纹理Texture Id操作，先通知OpenGl开始处理当前第二图像帧的纹理ID，再处理当前第二图像帧中纹理的内部通知，如：将当前第二图像帧缩放到合适的位置中；以吃冰激凌的人脸图像为例，可以将人脸图像的纹理进行操作，如嘴部、鼻子和/或眼睛，根据用户的喜好调节人脸图像的纹理，若纹理与人脸图像中部分特征不匹配，可以适当调整纹理的大小以及位置，通知绘图线程surafceview去渲染render当前第二图像帧，在当前第二图像帧渲染完成后，再处理下一个具有虚拟对象的第二图像帧，直至每个关键视频中不存在第二图像帧。

所述利用mediacodec技术将所述多个具有虚拟对象的第三图像帧进行重新编码生成目标视频包括：

具体的，根据关键视频中多个具有虚拟对象的第二图像帧的渲染顺序，将关键视频中多个具有虚拟对象的第二图像帧整理成为一个对象，通过导出的mediacodec过一遍整体的效果后输出到mediacodec编码器中，在mediacodec编码器中将关键视频中多个具有虚拟对象的第二图像帧进行重新编码，用户可以根据自己的喜好选择封面帧，该封面帧实际上为一个关键帧。

通过上述实施例可知，本发明提供的是视频剪辑方法，至少实现了如下的有益效果：通过增强现实技术用户即可观看到基于真实环境叠加有虚拟对象的视频画面，以使虚拟对象更好地融合在真实环境中，使得人眼的视觉效果得到明显改善，且其实现过程方便；基于多模态信息和相似度匹配相结合的方式，使其得到的关键视频更为精确，从而提高了视频分割的准确性；同时整体上实现便于个性化定制，如对每个第二图像帧进行纹理操作、调整至少部分第二图像帧的色彩等，利用mediacodec对源视频数据解码更加快速，有效提高软解码效率，将关键视频中每个第二图像帧都过滤镜，进而保证每帧画面都具有完整滤镜，同时针对滤镜后的多个具有虚拟对象的第三图像帧进行重新编码是为了视频合成，从而将新视频分享给更多用户，进而提高用户体验。

图3是本发明实施例提供的视频剪辑装置的结构示意图；如图3所示，一种视频剪辑装置，包括：

源视频数据采集模块，用于采集源视频数据，所述源视频数据包括至少一个第一图像帧和渲染在所述第一图像帧上的基于增强现实场景的虚拟对象，其中，所述虚拟对象与第一图像帧中预设特征标记相匹配；

第一视频数据构成模块，用于基于AR场景对第一图像帧进行渲染得到虚拟对象，第一图像帧和虚拟对象构成第一视频数据，其中，虚拟对象与第一图像帧中预设特征标记相匹配；

所述关键视频提取模块包括：

特征编码单元，用于根据与所述多个具有虚拟对象的第二图像帧中相关的多模态信息，对所述多个具有虚拟对象的第二图像帧进行特征编码，得到用于表征所述多模态信息融合的特征融合信息，其中，多模态信息包括音频信息、动作信息、色调信息和物体信息中的至少一种；

本实施例提供的视频剪辑装置中，通过增强现实技术用户即可观看到基于真实环境叠加有虚拟对象的视频画面，以使虚拟对象更好地融合在真实环境中，使得人眼的视觉效果得到明显改善，且其实现过程方便；基于多模态信息和相似度匹配相结合的方式，使其得到的关键视频更为精确，从而提高了视频分割的准确性；同时整体上实现便于个性化定制，如对每个第二图像帧进行纹理操作、调整至少部分第二图像帧的色彩等，利用mediacodec对源视频数据解码更加快速，有效提高软解码效率，将关键视频中每个第二图像帧都过滤镜，进而保证每帧画面都具有完整滤镜，同时针对滤镜后的多个具有虚拟对象的第三图像帧进行重新编码是为了视频合成，从而将新视频分享给更多用户，进而提高用户体验。

在本发明的一个具体实施例中，视频剪辑装置还包括：

在本发明的一个具体实施例中，分段渲染模块包括：

在本发明的一个具体实施例中，目标视频生成模块包括：

所述目标视频生成模块包括：

通过上述实施例可知，本发明提供的视频剪辑装置，至少实现了如下的有益效果：通过增强现实技术用户即可观看到基于真实环境叠加有虚拟对象的视频画面，以使虚拟对象更好地融合在真实环境中，使得人眼的视觉效果得到明显改善，且其实现过程方便；基于多模态信息和相似度匹配相结合的方式，使其得到的关键视频更为精确，从而提高了视频分割的准确性；同时整体上实现便于个性化定制，如对每个第二图像帧进行纹理操作、调整至少部分第二图像帧的色彩等，利用mediacodec对源视频数据解码更加快速，有效提高软解码效率，将关键视频中每个第二图像帧都过滤镜，进而保证每帧画面都具有完整滤镜，同时针对滤镜后的多个具有虚拟对象的第三图像帧进行重新编码是为了视频合成，从而将新视频分享给更多用户，进而提高用户体验。

虽然已经通过例子对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上例子仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种视频剪辑方法，其特征在于，包括以下步骤：

在对所述源视频数据解码之前，需要先创建mediacodec解码器和mediacodec编码器；配置所述mediacodec编码器时需要设置视频合成文件中多个所述关键视频之间的间隔；

其中，将所述视频解码数据输入预先训练的神经网络模型进行处理，提取至少一个关键视频包括：

根据特征融合信息，对所述多个具有虚拟对象的第二图像帧进行相似度匹配，根据相似度匹配结果得到具有虚拟对象的关键视频；读取所述关键视频中的每个第二图像帧，并将读取后的所述每个第二图像帧依次存储至缓存队列中；在所述缓存队列中获取所述关键视频，将每个所述关键视频设置给所述mediacodec编码器；

2.根据权利要求1所述的视频剪辑方法，其特征在于，所述利用OpenGL技术对所述具有虚拟对象的关键视频中每个具有虚拟对象的第二图像帧进行分段渲染，得到多个具有虚拟对象的第三图像帧：

3.根据权利要求2所述的视频剪辑方法，其特征在于，所述利用mediacodec技术将所述多个具有虚拟对象的第三图像帧进行重新编码生成目标视频包括：

4.一种视频剪辑装置，其特征在于，包括：

所述关键视频提取模块包括：

所述视频剪辑装置，还包括：分段渲染模块，用于利用OpenGL技术对所述具有虚拟对象的关键视频中每个具有虚拟对象的第二图像帧进行分段渲染，得到多个具有虚拟对象的第三图像帧；

目标视频生成模块，用于利用mediacodec技术将所述多个具有虚拟对象的第三图像帧进行重新编码生成目标视频；

关键视频获取模块，用于在所述缓存队列中获取所述关键视频，将每个所述关键视频设置给所述mediacodec编码器。

5.根据权利要求4所述的视频剪辑装置，其特征在于，分段渲染模块包括：

6.根据权利要求5所述的视频剪辑装置，其特征在于，所述目标视频生成模块包括：