CN113256655A

CN113256655A - 一种基于画面特征的视频分割方法及存储介质

Info

Publication number: CN113256655A
Application number: CN202110585144.8A
Authority: CN
Inventors: 许含瑞
Original assignee: Rockchip Electronics Co Ltd
Current assignee: Rockchip Electronics Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-13

Abstract

一种基于画面特征的视频分割方法及存储介质，其中方法包括如下步骤，加载视频图像，送入视频智能分析模块，所述视频智能分析模块加载人工智能模型，所述人工智能模型被训练为识别视频图像中特定帧的组态特征，进行步骤，人工智能模型对加载的视频图像进行识别，保留具有组态特征的画面，删除不具有组态特征的画面，并对具有组态特征的画面进行分割，裁剪出感兴趣的画面，并放大到统一尺寸，按照原顺序编码为特征格式的视频。上述方案能够让人工智能识别图像帧中的特定组态，为了进行某些组态的呈现，还可以识别组态特征的大小尽心更智能化的裁剪从而生成新的视频剪辑，达到方便地提取视频要素的效果。

Description

一种基于画面特征的视频分割方法及存储介质

技术领域

本发明涉及视频处理领域，尤其涉及一种基于画面特征的视频分割方法。

背景技术

运动相机、行车记录仪和IP网络摄像头，一般都会客观的记录拍摄到的视频图像。视频记录设备具备强大的视频编码能力，但是视频记录设备不能够理解视频内容，只能记录原始视频，然后存储保存。对于冗长和枯燥的记录视频，普通用户对于这类视频，基本没有动力或兴趣去发掘和剪辑其中有意思的视频剪辑。

发明内容

为此，需要提供一种能够自动处理视频的方法，以满足在现有环境下视频流冗余信息多、不能够自动提取兴趣点的问题；

为实现上述目的，发明人提供了一种基于画面特征的视频分割方法，包括如下步骤，加载视频图像，送入视频智能分析模块，所述视频智能分析模块加载人工智能模型，所述人工智能模型被训练为识别视频图像中特定帧的组态特征，

进行步骤，人工智能模型对加载的视频图像进行识别，保留具有组态特征的画面，删除不具有组态特征的画面，并对具有组态特征的画面进行分割，裁剪出感兴趣的画面，并放大到统一尺寸，按照原顺序编码为特征格式的视频。

进一步地，所述组态特征包括单主角特征、双主角特征、特写特征、强关联特征、运动增强特征和动物增强特征中的一种或多种，所述组态特征是以多层向量权重参数的形式存储在人工智能模型文件中。

具体地，还进行步骤，人工智能模型对具有组态特征的画面进行特征匹配，输出具有组态特征的内容区域，对具有组态特征的画面进行内容区域整合，得到裁剪后区域。

具体地，还包括步骤，对具有组态特征的画面进行内容区域的加权兴趣值计算，保留具有最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域；根据最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域进行内容区域匹配得到裁剪后区域。

进一步地，内容区域的加权兴趣值计算具体为：

加权兴趣值＝初始权重*距离因子*视频流相关因子

其中初始权重为内容区域的组态特征类型决定，单主角特征：双主角特征：特写特征：强关联特征：运动增强特征：动物增强特征的初始权重比为 1:2:3:3:2:1；所述距离因子为内容区域的中心点与画面中心的距离；所述视频流相关因子根据视频类型确定或根据前后帧的内容确定。

一种基于画面特征的视频分割存储介质，存储有计算机程序，所述计算机程序在被运行时执行包括如下步骤，加载视频图像，加载人工智能模型，所述人工智能模型被训练为识别视频图像中特定帧的组态特征，

计算机程序还继续执行步骤，人工智能模型对加载的视频图像进行识别，保留具有组态特征的画面，删除不具有组态特征的画面。

具体地，所述组态特征包括单主角特征、双主角特征、特写特征、强关联特征、运动增强特征和动物增强特征中的一种或多种，所述组态特征是以多层向量权重参数的形式存储在人工智能模型文件中。

进一步地，所述计算机程序在被运行时还执行步骤，人工智能模型对具有组态特征的画面进行特征匹配，输出具有组态特征的内容区域，对具有组态特征的画面进行内容区域整合，得到裁剪后区域。

进一步地，所述计算机程序在被运行时还执行步骤，对具有组态特征的画面进行内容区域的加权兴趣值计算，保留具有最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域；根据最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域进行内容区域匹配得到裁剪后区域。

进一步地，内容区域的加权兴趣值计算具体为：

加权兴趣值＝初始权重*距离因子*视频流相关因子

一种基于画面特征的视频分割电子设备，包括上述的存储介质，还包括 CPU单元、GPU单元、OpenCL单元、NPU单元、硬件视频Codec单元；其中CPU 单元用于执行软件和逻辑控制类型的负载任务；GPU单元负责加速图形渲染类型的负载任务；OpenCL单元负责加速计算类型的负载任务；NPU单元负责加速深度学习的负载任务；硬件视频Codec单元负责加速视频编解码类型的负载任务。

进一步地，还包括存储器、内存；所述存储器负责数据和程序的动态写入和动态读出，存储器可以存储操作系统、应用程序、通讯录、即时消息、数字图像、或数字视频，

所述内存用于暂时存放CPU中的运算数据，与硬盘等外部存储器交换的数据。

具体地，还包括通信组件、I/O接口、电源组件、传感器组件、视频组件、音频组件、显示组件、安全组件。所述通信组件用于接入标准数据通信网络，或接入近场通信网络；

所述I/O接口是可编程的，用于作为处理器外部设备或组件交换信息的物理通道；

所述电源组件用于为其他组件或部件提供外部电源；

所述传感器组件还可以包括图像传感器、压力传感器、陀螺仪传感器、加速度传感器、磁传感器、接近传感器或温度传感器中的一种或多种；

所述视频组件用于硬件编码和解码视频数据；

音频组件用于硬件音频采集和输出，所述硬件音频采集要求对原始音频数据进行3A音频处理；

所述显示组件用于显示输出和显示输出切换和管理；

所述安全组件用于安全存取身份信息、指纹信息或账户信息。

通过上述技术方案，能够让人工智能识别图像帧中的特定组态，为了进行某些组态的呈现，还可以识别组态特征的大小尽心更智能化的裁剪从而生成新的视频剪辑，达到方便地提取视频要素的效果。

附图说明

图1为本发明一实施方式所述的基于画面特征的视频分割方法流程图。

图2为本发明一实施方式所述的基于画面特征的视频分割电子设备示意图。

图3为本发明一实施方式所述的内容区域整合画面图。

附图标记说明

301、内容区域甲；302、内容区域乙；303、内容区域丙；3、裁剪后的区域。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，介绍了一种基于画面特征的视频分割方法，包括如下步骤， S100加载视频图像，送入视频智能分析模块，所述视频智能分析模块加载人工智能模型，所述人工智能模型被训练为识别视频图像中特定帧的组态特征，

进行步骤S102，人工智能模型对加载的视频图像进行识别，保留具有组态特征的画面，删除不具有组态特征的画面，并进行S104对具有组态特征的画面进行分割，裁剪出感兴趣的画面，S106放大到统一尺寸，按照原顺序编码为特征格式的视频。这里的特征格式可以是用户的自定义格式，是封装音频和视频数据包的容器，常用的媒体格式，包括ts、mp4、mkv、mov、hls等。能够让人工智能识别图像帧中的特定组态，为了进行某些组态的呈现，还可以识别组态特征的大小尽心更智能化的裁剪从而生成新的视频剪辑，达到方便地提取视频要素的效果。

在进一步的实施例中，所述组态特征包括单主角特征、双主角特征、特写特征、强关联特征、运动增强特征和动物增强特征中的一种或多种，在我们的实施例中，单主角特征是指单个人物在画面中占比较大时，具有的图像特征。双主角特征是指双人物在画面中占比较大时，具有的图像特征。特写特征是指人物的细节(如人脸/接吻/打斗等)在画面中占比较大时，具有的图像特征。强关联特征包括时间维度的强关联，运动维度的强关联。运动增强特征是指运动动作画面在画面中占比较大时，具有的图像特征。动物增强特征是指动物在画面中占比较大时，具有的图像特征。判断时优选人和动作的组合区域。组态特征的识别通过人工智能模型进行判断识别，具体地，只需要将视频素材作为训练素材，可以使用人工标注或自动标注等方式对训练素材进行具体的组态特征的标注，再输入人工智能模型中进行训练即可，训练过程可以参考现有技术，此处不再赘述。在其他一些实施例中，所述组态特征是以多层向量权重参数的形式存储在人工智能模型文件中。

示例性地，具体的多层卷积神经网络可以根据实际情况进行微调整，如本例中，所述连续画面特征模型为五层卷积神经网络模型串联分类层。其中，第一层为输入层，获取的图像金字塔，可以作为输入层的输入；第二层为12*12 的卷积层，卷积核为12*12*8，参数个数为(12x12+1)x8*w*h,进行图像特征的提取；第三层为8*8的卷积层，卷积核为8*8*12，参数个数为(8x8+1)x12*w*h, 基于第二层的提取结果再次进行图像特征的提取；第四层为5*5的卷积层，卷积核为5*5*16，参数个数为(5x5+1)x16*w*h,基于第三层的提取结果再次进行图像特征的提取；第五层为3*3的卷积层，卷积核为3*3*20，参数个数为 (3x3+1)x20*w*h,基于第四层的提取结果再次进行图像特征的提取；前五层构成五层卷积神经网络模型。卷积神经网络模型的后级是分类层；分类层包含若干全连接层，最后输出图像特征类型和特征区域。，其可反映出如下结果： 1.图像特征的类型和矩形区域；2.图像特征的得分。需要说明的是，在实际应用中，不限于上述卷积神经网络模型结构，本领域技术人员还可以根据实际需求采用更多层的模型结构。模型输入层还可以配置图像预处理模块，图像预处理模块可以完成图像大小、角度、色彩空间、剪裁等数字图像变换。

在进一步地具体实施例中，还进行步骤，人工智能模型对具有组态特征的画面进行特征匹配，输出具有组态特征的内容区域，对具有组态特征的画面进行内容区域整合，这里的内容区域整合步骤可以是，通过以下约束条件得到裁剪后区域：裁剪区域需要包括画面中所有具有组态特征的内容区域；还可以是需要整合前后若干帧中具有组态特征的内容区域作为裁剪区域的大小，从而提升帧间变换的顺滑度。

在其他一些具体的实施例中，还包括步骤，对具有组态特征的画面进行内容区域的加权兴趣值计算，保留具有最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域；根据最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域进行内容区域匹配得到裁剪后区域。在本实施例中，进行内容区域的加权兴趣值的计算，仅保留排名前二高的加权兴趣值的内容区域，有助于提升裁剪之后的图片展示有效信息的效率。我们发现通过这种方式裁剪区域拼接的视频更加地顺畅，内容紧凑，冗余信息少。在某些优选的实施例中，内容区域的加权兴趣值计算具体为：

加权兴趣值＝初始权重*距离因子*视频流相关因子

其中初始权重为内容区域的组态特征类型决定，单主角特征、双主角特征、特写特征、强关联特征、运动增强特征：动物增强特征的初始权重比为 1:2:3:3:2:1。上述初始权重也可以归一化为:

0.0833:0.1667:0.25:0.25:0.1667:0.0833；

所述距离因子为内容区域的中心点与画面中心的距离；所述视频流相关因子根据视频类型确定或根据前后帧的内容确定，如视频流的前后帧具有相同的组态特征，则相关因子就越大，前后帧的组态特征与本帧的组态特征类型相同、所在区域坐标越接近，则相关因子也会也越大。视频流相关因子与前后帧的组态特征与本帧内容区域的接近程度、组态类型相同度正相关。通过设计加权兴趣值的做法，我们能够量化每个帧画面中内容组态区域的信息强度，从而更好地选取帧画面中的裁剪区域，同时考虑了视频流相关因子的做法，也是基于视频流中数据特性、相关程度对裁剪区域的选取进行了优化，避免前后帧画面的裁剪区域进行大幅的变化从而影响观感。

同时，在其他一些进一步的实施例中，我们还提供一种基于画面特征的视频分割存储介质，存储有计算机程序，所述计算机程序在被运行时执行包括如下步骤，加载视频图像，加载人工智能模型，所述人工智能模型被训练为识别视频图像中特定帧的组态特征，

进一步地，内容区域的加权兴趣值计算具体为：

加权兴趣值＝初始权重*距离因子*视频流相关因子

其中初始权重为内容区域的组态特征类型决定，单主角特征：双主角特征：特写特征：强关联特征：运动增强特征：动物增强特征的初始权重比为1:2:3:3:2:1；所述距离因子为内容区域的中心点与画面中心的距离；所述视频流相关因子根据视频类型确定或根据前后帧的内容确定。

在图3所示的实施例中，我们给出了一种内容区域整合的实例，粗框表示原画面帧的范围，其中根据智能化识别出了具有组态特征，面积较大，距离原画面帧中心中等的内容区域301，以及具有组态特征，面积较小，距离原画面帧中心距离较近的内容区域302，以及具有组态特征，面积较小，距离原画面帧中心距离较远的内容区域303、在本例中，假设内容区域303没有特写特征、强关联特征等高权重的情况，经过测算，内容区域301的加权兴趣之和内容区域302的加权兴趣值排列第一、第二名。则最终整合生成了裁剪后区域3。

请参阅图2，介绍了一种基于画面特征的视频分割电子设备。电子设备可以是智能手机、个人计算机、平板电脑、无人机云台/控制器、游戏机主机、手持医疗终端、数字机顶盒、运动相机、智能运动设备等。参照图2，电子设备具有以下一个或多个组件：处理器、存储器、内存、通信组件、I/O接口、电源组件、传感器组件、视频组件、音频组件、显示组件和安全组件等。

基于连续兴趣点的电子设备的处理器，处理器和其他组件一般建立双向连接，进行双向数据和控制交互。处理器优选的具有CPU单元、GPU单元、OpenCL 单元、NPU单元和硬件视频Codec单元的异构多处理器。其中CPU单元负责执行软件和逻辑控制类型的负载任务；GPU单元负责加速图形渲染类型的负载任务；OpenCL单元负责加速计算类型的负载任务；NPU单元负责加速深度学习的负载任务；硬件视频Codec单元负责加速视频编解码类型的负载任务。

存储器负责数据和程序的动态写入和动态读出。存储器可以存储操作系统、应用程序、通讯录、即时消息、数字图像、数字视频等。存储器的物理电子设备可以是静态随机存取存储器(SRAM)，电可擦除可编程只读存储器 (EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)等。

内存用于暂时存放CPU中的运算数据，与硬盘等外部存储器交换的数据。内存一般采用半导体存储单元，包括随机存储器(RAM)，只读存储器(ROM)，以及高速缓存(CACHE)。

通信组件可以接入标准数据通信网络，如WiFi，2G/3G/4G/5G，或它们的组合。通信组件还可是接入近场通信网络，如蓝牙、近场通信(NFC)，或它们的组合。

I/O接口是处理器外部设备或组件交换信息的物理通道。I/O接口是可编程的，其工作方式由程序进行控制。

电源组件为多种组件提供外部电源。电源组件可以包含电源管理单元 (PMU)、单路或多路电源。处理器单元可以对电源组件进行电源管理，管理系统的电源分配和功耗控制。

传感器组件还可以包括图像传感器，如CMOS/CCD图像传感器，用于摄像类应用。在一些实施例中，该传感器组件还可以包括压力传感器、陀螺仪传感器、加速度传感器、磁传感器、接近传感器或温度传感器。

视频组件用于硬件编码和解码视频数据。视频组件一般具有 H263/H264/H265/VP8/VP9等硬件编解码器。

音频组件用于硬件音频采集和输出。硬件音频采集要求对原始音频数据进行3A音频处理。

显示组件用于显示输出和显示输出切换和管理。显示组件提供一个输出接口的屏幕，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。

安全组件用于保护敏感用户信息，可以用于安全存取身份信息、指纹信息、账户信息等敏感用户信息。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种基于画面特征的视频分割方法，其特征在于，包括如下步骤，加载视频图像，送入视频智能分析模块，所述视频智能分析模块加载人工智能模型，所述人工智能模型被训练为识别视频图像中特定帧的组态特征，

2.根据权利要求1所述的基于画面特征的视频分割方法，其特征在于，所述组态特征包括单主角特征、双主角特征、特写特征、强关联特征、运动增强特征和动物增强特征中的一种或多种，所述组态特征是以多层向量权重参数的形式存储在人工智能模型文件中。

3.根据权利要求1所述的基于画面特征的视频分割方法，其特征在于，还进行步骤，人工智能模型对具有组态特征的画面进行特征匹配，输出具有组态特征的内容区域，对具有组态特征的画面进行内容区域整合，得到裁剪后区域。

4.根据权利要求1所述的基于画面特征的视频分割方法，其特征在于，还包括步骤，对具有组态特征的画面进行内容区域的加权兴趣值计算，保留具有最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域；根据最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域进行内容区域匹配得到裁剪后区域。

5.根据权利要求4所述的基于画面特征的视频分割方法，其特征在于，内容区域的加权兴趣值计算具体为：

加权兴趣值＝初始权重*距离因子*视频流相关因子

6.一种基于画面特征的视频分割存储介质，其特征在于，存储有计算机程序，所述计算机程序在被运行时执行包括如下步骤，加载视频图像，加载人工智能模型，所述人工智能模型被训练为识别视频图像中特定帧的组态特征，

7.根据权利要求6所述的基于画面特征的视频分割存储介质，其特征在于，所述组态特征包括单主角特征、双主角特征、特写特征、强关联特征、运动增强特征和动物增强特征中的一种或多种，所述组态特征是以多层向量权重参数的形式存储在人工智能模型文件中。

8.根据权利要求6所述的基于画面特征的视频分割存储介质，其特征在于，所述计算机程序在被运行时还执行步骤，人工智能模型对具有组态特征的画面进行特征匹配，输出具有组态特征的内容区域，对具有组态特征的画面进行内容区域整合，得到裁剪后区域。

9.根据权利要求6所述的基于画面特征的视频分割存储介质，其特征在于，所述计算机程序在被运行时还执行步骤，对具有组态特征的画面进行内容区域的加权兴趣值计算，保留具有最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域；根据最高加权兴趣值的内容区域及具有次高加权兴趣值的内容区域进行内容区域匹配得到裁剪后区域。

10.根据权利要求9所述的基于画面特征的视频分割存储介质，其特征在于，内容区域的加权兴趣值计算具体为：

加权兴趣值＝初始权重*距离因子*视频流相关因子