CN113329259A

CN113329259A - 一种基于连续兴趣点的视频剪辑方法及存储介质

Info

Publication number: CN113329259A
Application number: CN202110585574.XA
Authority: CN
Inventors: 许含瑞
Original assignee: Rockchip Electronics Co Ltd
Current assignee: Rockchip Electronics Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-31
Anticipated expiration: 2041-05-27
Also published as: CN113329259B

Abstract

一种基于连续兴趣点的视频剪辑方法及存储介质，其中方法包括如下步骤，加载和解码视频流，送入视频智能剪辑模块，所述视频智能剪辑模块加载人工智能模型，所述人工智能模型被训练为识别视频流中特定连续画面特征，进行步骤，人工智能模型对加载的视频流进行识别，仅保留具有满足特定连续画面特征条件的视频片段，删除其余片段，将保留的视频片段重编码为新视频。通过上述技术方案，能够基于连续兴趣点的特征，利用视频浓缩用的人工智能模型来进行视频剪辑。在筛选阶段考虑多种不同的记忆兴趣点功能的，从而在视频中持续追踪连续兴趣点。最终完成视频的素材浓缩。

Description

一种基于连续兴趣点的视频剪辑方法及存储介质

技术领域

本发明涉及视频处理领域，尤其涉及一种基于连续兴趣点的视频剪辑方法及电子设备。

背景技术

电影或者实时视频的剪辑需要专业的视频剪辑师来进行，视频剪辑是一项非常标准的艺术工作。假设某部电影讲述的是主人公被动卷入挑战世界上最难的8个精进项目，如果我们先从这部电影中剪辑出8个视频片段，每个视频片段3-5分钟。普通用户对于视频剪辑是无所适从的。专业的视频剪辑师也需要投入高性能的设备、专业的剪辑软件和大量分析/剪辑时间，才能产生作品级的视频剪辑样片。

发明内容

为此，需要提供一种精简视频的剪辑方法，以满足普通用户对于长视频所要表达的内容的精炼剪辑的需求；

为实现上述目的，发明人提供了一种基于连续兴趣点的视频剪辑方法，包括如下步骤，加载和解码视频流，送入视频智能剪辑模块，所述视频智能剪辑模块加载人工智能模型，所述人工智能模型被训练为识别视频流中特定连续画面特征，

进行步骤，人工智能模型对加载的视频流进行识别，仅保留具有满足特定连续画面特征条件的视频片段，删除其余片段，将保留的视频片段重编码为新视频。

具体地，所述连续画面特征包括单主角模式、耍帅模式、正反派模式、英雄模式、场面模式和事件中心模式中的一种或多种，单主角模式的视频片段特征是单个人物角色；耍帅模式的视频片段特征是出现人物角色和移动的场景；正反派模式的视频片段特征是两个人物的言语交流或动作交互；场面模式视频片段特征是广角的景物；事件中心模式的视频片段特征是剧情相关的道具，所述连续画面特征是以多层向量权重参数的形式存储在人工智能模型文件中,人工智能模型具有短时记忆能力的多层卷积神经网络。

进一步地，视频智能剪辑模块包括图像后处理模块，图像后处理模块用于将多个连续画面特征进行多特征融合，多特征融合包括：画面特征按照权重优选，各帧中的画面特征占比大于第一阈值，且连续时间长度大于第二阈值。

进一步地，还包括步骤，根据用户需求的格式将保留的视频片段重编码为新视频。

具体地，所述格式包括ts、mp4、mkv、mov和hls。

一种基于连续兴趣点的视频剪辑存储介质，存储有计算机程序，所述计算机程序在被运行时执行包括如下步骤，加载和解码视频流，送入视频智能剪辑模块，所述视频智能剪辑模块加载人工智能模型，所述人工智能模型被训练为识别视频流中特定连续画面特征，

具体地，所述连续画面特征包括单主角模式、耍帅模式、正反派模式、英雄模式、场面模式和事件中心模式中的一种或多种，单主角模式的视频片段特征是单个人物角色；耍帅模式的视频片段特征是出现人物角色和移动的场景；正反派模式的视频片段特征是两个人物的言语交流或动作交互；场面模式视频片段特征是广角的景物；事件中心模式的视频片段特征是剧情相关的道具，所述连续画面特征是以多层向量权重参数的形式存储在人工智能模型文件中,人工智能模型优选具有短时记忆能力的多层卷积神经网络。

具体地，视频智能剪辑模块包括图像后处理模块，图像后处理模块用于将多个连续画面特征进行多特征融合，多特征融合包括：画面特征按照权重优选，各帧中的画面特征占比大于第一阈值，且连续时间长度大于第二阈值。

优选地，所述计算机程序在被运行时还执行包括步骤，根据用户需求的格式将保留的视频片段重编码为新视频。

可选地，所述格式包括ts、mp4、mkv、mov和hls。

一种基于连续兴趣点的视频剪辑电子设备，包括上述的存储介质，还包括CPU单元、GPU单元、OpenCL单元、NPU单元、硬件视频Codec单元；其中CPU单元用于执行软件和逻辑控制类型的负载任务；GPU单元负责加速图形渲染类型的负载任务；OpenCL单元负责加速计算类型的负载任务；NPU单元负责加速深度学习的负载任务；硬件视频Codec单元负责加速视频编解码类型的负载任务。

具体地，还包括存储器、内存；所述存储器负责数据和程序的动态写入和动态读出，存储器可以存储操作系统、应用程序、通讯录、即时消息、数字图像、或数字视频，

所述内存用于暂时存放CPU中的运算数据，与硬盘等外部存储器交换的数据。

具体地，还包括通信组件、I/O接口、通信组件、电源组件、传感器组件、视频组件、音频组件、显示组件、安全组件。所述通信组件用于接入标准数据通信网络，或接入近场通信网络；

所述I/O接口是可编程的，用于作为处理器外部设备或组件交换信息的物理通道；

所述电源组件用于为其他组件或部件提供外部电源；

所述传感器组件还可以包括图像传感器、压力传感器、陀螺仪传感器、加速度传感器、磁传感器、接近传感器或温度传感器中的一种或多种；

所述视频组件用于硬件编码和解码视频数据；

音频组件用于硬件音频采集和输出，所述硬件音频采集要求对原始音频数据进行3A音频处理；

所述显示组件用于显示输出和显示输出切换和管理；

所述安全组件用于安全存取身份信息、指纹信息或账户信息。

通过上述技术方案，能够基于连续兴趣点的特征，利用视频浓缩用的人工智能模型来进行视频剪辑。在筛选阶段考虑多种不同的记忆兴趣点功能的，从而在视频中持续追踪连续兴趣点。最终完成视频的素材浓缩。

附图说明

图1为本发明一实施方式所述的基于连续兴趣点的视频剪辑方法流程图。

图2为本发明一实施方式所述的基于连续兴趣点的视频剪辑电子设备框图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，介绍了一种基于连续兴趣点的视频剪辑方法，可以运行于视频处理需求的微机、摄像装置内，方法包括如下步骤，S100加载和解码视频流，送入视频智能剪辑模块，所述视频智能剪辑模块加载人工智能模型，所述人工智能模型被训练为识别视频流中特定连续画面特征，

进行步骤S102，人工智能模型对加载的视频流进行识别，仅保留具有满足特定连续画面特征条件的视频片段，并对视频片段做智能的视频后处理，将后处理的图像重编码为新视频。这里的连续画面特征条件为，连续的若干帧镜头表达了特定的内容或采用了特殊的镜头语言，且连续若干帧之间具有可归因的相关性，连续若干帧需要达到1S以上。当然，这些连续画面特征条件也是在人工智能模型的训练之初，在进行素材标注的时候就需要确定的。最终才能体现在保留的视频片段结果中。通过上述方案，我们达到了基于连续兴趣点的特征，利用视频浓缩用的人工智能模型来进行视频剪辑的技术效果。最终浓缩需要形成的视频格式可以根据用户需求确定，可用格式包括ts、mp4、mkv、mov和hls等。

在一些具体的实施例中，所述连续画面特征包括单主角模式、耍帅模式、正反派模式、英雄模式、场面模式和事件中心模式中的一种或多种，单主角模式的视频片段特征是单个人物角色；耍帅模式的视频片段特征是出现人物角色和移动(变换)的场景；正反派模式的视频片段特征是两个人物的言语交流或动作交互；场面模式视频片段特征是广角的或宏大的景物；事件中心模式的视频片段特征是剧情相关的道具。在本实施例中，所述连续画面特征是以多层向量权重参数的形式存储在人工智能模型文件中,而人工智能模型中配置了多种卷积层和卷积核。所述连续画面特征模型优选具有短时记忆能力的多层卷积神经网络，多层卷积神经网络用于识别画面特征，短时记忆用于识别时间连续特征。

示例性地，具体的多层卷积神经网络可以根据实际情况进行微调整，如本例中，所述连续画面特征模型为五层卷积神经网络模型串联LSTM单元。其中，第一层为输入层，获取的图像金字塔，可以作为输入层的输入；第二层为12*12的卷积层，卷积核为12*12*8，参数个数为(12x12+1)x8*w*h,进行图像特征的提取；第三层为8*8的卷积层，卷积核为8*8*12，参数个数为(8x8+1)x12*w*h,基于第二层的提取结果再次进行图像特征的提取；第四层为5*5的卷积层，卷积核为5*5*16，参数个数为(5x5+1)x16*w*h,基于第三层的提取结果再次进行图像特征的提取；第五层为3*3的卷积层，卷积核为3*3*20，参数个数为(3x3+1)x20*w*h,基于第四层的提取结果再次进行图像特征的提取；前五层构成五层卷积神经网络模型。卷积神经网络模型的后级是LSTM单元；最后一层为输出回归层，1*1*100的卷积，最后输出感兴趣区域(ROI)，其可反映出如下结果：1.感兴趣区域的类型和矩形区域；2.感兴趣区域的得分。需要说明的是，在实际应用中，不限于上述卷积神经网络模型结构，本领域技术人员还可以根据实际需求采用更多层的模型结构。模型输入层还可以配置图像预处理模块，图像预处理模块可以完成图像大小、角度、色彩空间、剪裁等数字图像变换。

在其他一些进一步的实施例中，我们的视频智能剪辑模块包括图像后处理模块。图像后处理模块用于将多个连续画面特征进行多特征融合。对于多特征融合我们优选以下特征指标：特征区域的类型、特征区域的分数、特征区域的矩形、特征区域的时间戳等。特征区域评分的融合公式如下：

特征区域评分＝MAX(S)*(Weihht+Score+ΔD/MAX(D)+ΔT/MAX(T))

其中MAX(S)为最大基准分数；Weight为特征区域类型的权重；Score为特征区域的分数；ΔD/MAX(D)为特征区域的矩形中心和画面中心的归一化距离权重；ΔT/MAX(T)为特征区域的时间戳的归一化时间权重。当画面出现多线多种画面特征时，按照上述特征区域评分公式，选取得分最大的为最终的特征区域。图像后处理模块按照最终目标图像的尺寸，将特征图像区域扩大到目标图像的尺寸。

具体的多特征融合包括：画面特征按照权重优选，画面特征即每帧的画面中出现的符合单主角模式、耍帅模式、正反派模式、英雄模式、场面模式和事件中心模式的特征。而在选取的视频片段中，各帧中的画面特征占比大于第一阈值，且连续时间长度大于第二阈值。如画面特征占比大于50％，同时连续20S，这时候就会筛选出该20S的视频片段。同时不同的画面特征之间也会按照权重比较，权重参数正相关于画面特征占比，也正相关于连续的时间长度。

最后筛选出的多个视频/图像片段，我们还对其进行步骤，根据用户需求的格式将保留的视频片段重编码为新视频。通过上述方案，我们最终提供了一个能够利用视频浓缩用的人工智能模型来进行视频剪辑。在筛选阶段考虑多种不同的记忆兴趣点功能的，从而在视频中持续追踪连续兴趣点的视频剪辑方法。

在本发明的其他一些实施例中，还介绍一种基于连续兴趣点的视频剪辑，存储有计算机程序，所述计算机程序在被运行时执行包括如下步骤，加载和解码视频流，送入视频智能剪辑模块，所述视频智能剪辑模块加载人工智能模型，所述人工智能模型被训练为识别视频流中特定连续画面特征，

可选地，所述格式包括ts、mp4、mkv、mov和hls。

请参阅图2，介绍了基于连续兴趣点的电子设备框图。电子设备可以是智能手机、个人计算机、平板电脑、无人机云台/控制器、游戏机主机、手持医疗终端、数字机顶盒、运动相机、智能运动设备等。参照图-2，电子设备具有以下一个或多个组件：处理器、存储器、内存、通信组件、I/O接口、电源组件、传感器组件、视频组件、音频组件、显示组件和安全组件等。

基于连续兴趣点的电子设备的处理器，处理器和其他组件一般建立双向连接，进行双向数据和控制交互。处理器优选的具有CPU单元、GPU单元、OpenCL单元、NPU单元和硬件视频Codec单元的异构多处理器。其中CPU单元负责执行软件和逻辑控制类型的负载任务；GPU单元负责加速图形渲染类型的负载任务；OpenCL单元负责加速计算类型的负载任务；NPU单元负责加速深度学习的负载任务；硬件视频Codec单元负责加速视频编解码类型的负载任务。

存储器负责数据和程序的动态写入和动态读出。存储器可以存储操作系统、应用程序、通讯录、即时消息、数字图像、数字视频等。存储器的物理电子设备可以是静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)等。

内存用于暂时存放CPU中的运算数据，与硬盘等外部存储器交换的数据。内存一般采用半导体存储单元，包括随机存储器(RAM)，只读存储器(ROM)，以及高速缓存(CACHE)。

通信组件可以接入标准数据通信网络，如WiFi，2G/3G/4G/5G，或它们的组合。通信组件还可是接入近场通信网络，如蓝牙、近场通信(NFC)，或它们的组合。

I/O接口是处理器外部设备或组件交换信息的物理通道。I/O接口是可编程的，其工作方式由程序进行控制。

电源组件为多种组件提供外部电源。电源组件可以包含电源管理单元(PMU)、单路或多路电源。处理器单元可以对电源组件进行电源管理，管理系统的电源分配和功耗控制。

传感器组件还可以包括图像传感器，如CMOS/CCD图像传感器，用于摄像类应用。在一些实施例中，该传感器组件还可以包括压力传感器、陀螺仪传感器、加速度传感器、磁传感器、接近传感器或温度传感器。

视频组件用于硬件编码和解码视频数据。视频组件一般具有H263/H264/H265/VP8/VP9等硬件编解码器。

音频组件用于硬件音频采集和输出。硬件音频采集要求对原始音频数据进行3A音频处理。

显示组件用于显示输出和显示输出切换和管理。显示组件提供一个输出接口的屏幕，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。

安全组件用于保护敏感用户信息，可以用于安全存取身份信息、指纹信息、账户信息等敏感用户信息。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种基于连续兴趣点的视频剪辑方法，其特征在于，包括如下步骤，加载和解码视频流，送入视频智能剪辑模块，所述视频智能剪辑模块加载人工智能模型，所述人工智能模型被训练为识别视频流中特定连续画面特征，

2.根据权利要求1所述的基于连续兴趣点的视频剪辑方法，其特征在于，所述连续画面特征包括单主角模式、耍帅模式、正反派模式、英雄模式、场面模式和事件中心模式中的一种或多种，单主角模式的视频片段特征是单个人物角色；耍帅模式的视频片段特征是出现人物角色和移动的场景；正反派模式的视频片段特征是两个人物的言语交流或动作交互；场面模式视频片段特征是广角的景物；事件中心模式的视频片段特征是剧情相关的道具，所述连续画面特征是以多层向量权重参数的形式存储在人工智能模型文件中,人工智能模型具有短时记忆能力的多层卷积神经网络。

3.根据权利要求1所述的基于连续兴趣点的视频剪辑方法，其特征在于，视频智能剪辑模块包括图像后处理模块，图像后处理模块用于将多个连续画面特征进行多特征融合，多特征融合包括：画面特征按照权重优选，各帧中的画面特征占比大于第一阈值，且连续时间长度大于第二阈值。

4.根据权利要求1所述的基于连续兴趣点的视频剪辑方法，其特征在于，还包括步骤，根据用户需求的格式将保留的视频片段重编码为新视频。

5.根据权利要求4所述的基于连续兴趣点的视频剪辑方法，其特征在于，所述格式包括ts、mp4、mkv、mov和hls。

6.一种基于连续兴趣点的视频剪辑存储介质，其特征在于，存储有计算机程序，所述计算机程序在被运行时执行包括如下步骤，加载和解码视频流，送入视频智能剪辑模块，所述视频智能剪辑模块加载人工智能模型，所述人工智能模型被训练为识别视频流中特定连续画面特征，

7.根据权利要求6所述的基于连续兴趣点的视频剪辑存储介质，其特征在于，所述连续画面特征包括单主角模式、耍帅模式、正反派模式、英雄模式、场面模式和事件中心模式中的一种或多种，单主角模式的视频片段特征是单个人物角色；耍帅模式的视频片段特征是出现人物角色和移动的场景；正反派模式的视频片段特征是两个人物的言语交流或动作交互；场面模式视频片段特征是广角的景物；事件中心模式的视频片段特征是剧情相关的道具，所述连续画面特征是以多层向量权重参数的形式存储在人工智能模型文件中,人工智能模型优选具有短时记忆能力的多层卷积神经网络。

8.根据权利要求6所述的基于连续兴趣点的视频剪辑存储介质，其特征在于，视频智能剪辑模块包括图像后处理模块，图像后处理模块用于将多个连续画面特征进行多特征融合，多特征融合包括：画面特征按照权重优选，各帧中的画面特征占比大于第一阈值，且连续时间长度大于第二阈值。

9.根据权利要求6所述的基于连续兴趣点的视频剪辑存储介质，其特征在于，所述计算机程序在被运行时还执行包括步骤，根据用户需求的格式将保留的视频片段重编码为新视频。

10.根据权利要求9所述的基于连续兴趣点的视频剪辑存储介质，其特征在于，所述格式包括ts、mp4、mkv、mov和hls。