CN112019923B

CN112019923B - 视频剪切处理方法

Info

Publication number: CN112019923B
Application number: CN202010911650.7A
Authority: CN
Inventors: 王思明; 程婷
Original assignee: Shenzhen Aizhuo Soft Technology Co ltd
Current assignee: Shenzhen Aizhuo Soft Technology Co ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2021-05-07
Anticipated expiration: 2040-09-02
Also published as: CN112019923A

Abstract

本申请提供了一种视频剪切处理方法，智能终端采集视频数据，该视频数据包括：图像数据以及音频数据；智能终端对音频数据进行识别处理确定该音频数据属于钢琴曲目后，从图像数据抽取部分图片，对部分图片进行分类识别确定部分图片中每张图片是否具有钢琴，对视频进行剪切处理。本申请提供的技术方案具有用户体验度高的优点。

Description

视频剪切处理方法

技术领域

本申请涉及图像领域，具体涉及一种视频剪切处理方法。

背景技术

视频（Video）泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。连续的图像变化每秒超过24帧（frame）画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面；看上去是平滑连续的视觉效果，这样连续的画面叫做视频。视频技术最早是为了电视系统而发展，但现在已经发展为各种不同的格式以利消费者将视频记录下来。现有的视频剪切处理一般为常规的处理，例如，将视频的内容进行背景的更换、添加等等。

对于视频拍摄，有一种特殊的场景，即小孩打卡的视频拍摄，例如弹钢琴，此种视频场景下，视频的对象的移动较小，并且背景也是固定的，但是在拍摄视频时若出现一些干扰，例如有人走过或有动物经过等情况，需要将视频重新拍摄，打卡的视频重新拍摄非常浪费时间，影响了用户的体验度。

发明内容

本发明的目的在于提供视频剪切处理方法，该技术方案能够针对性有其他物体经过等特殊情况时，对经过的物体进行过滤处理，提高用户体验度。

第一方面，提供一种视频剪切处理方法，所述方法包括如下步骤：

智能终端采集视频数据，该视频数据包括：图像数据以及音频数据；

智能终端对音频数据进行识别处理确定该音频数据属于钢琴曲目后，从图像数据抽取部分图片，对部分图片进行分类识别确定部分图片中每张图片是否具有钢琴；

若部分图片具有钢琴，智能终端将该图像数据划分为多个图像区间，接收目标对象选择的剪切图像区间；

智能终端获取剪切图像区间对应的音频区间，对音频区间识别确定音频区间中每个音符对应的音符的类别以及音符时间，将剪切图像区间按音符时间划分为多个子图像区间，智能终端遍历剪切图像区间中每个子图像区间执行剪切处理得到更新图像区间，该剪切处理具体包括：确定第i子图像区间对应的音符类别即音符γ，从图像数据中的剩余区间查找与该音符γ匹配的第Ω子图像区间，采用第Ω子图像区间替换第i子图像区间；

智能终端将更新图像区间替换图像数据中的剪切图像区间得到剪切后的图像数据，将图像数据与音频数据结合起来得到剪切视频文件。

第二方面，提供一种计算机可读存储介质，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行第一方面提供的方法。

本申请提供的技术方案对于钢琴这种类别的视频拍摄，采用特殊的视频替换方式，因为钢琴的位置相对固定，并且对于打卡视频来说，其角度也相对固定，不会随意移动，此种视频的拍摄会非常的稳定，但是若出现其他的物体，则会对整个视频产生影响，另外，对于打卡视频来说，其有个特点，其在实际演凑时，音符重复的可能性较大，而对于钢琴，音符特定的位置是固定，因此使得图像数据的替换成为了可能，即对于需要进行处理的图像区间，即剪切图像区间按音符划分成多个子图像区间，然后从剩余区间查找与该音符对应的子图像区间对剪切图像区间中的子图像区间进行替换更新，以达到对剪切图像区间处理的目的，提高视频的质量，提高用户体验度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种终端的结构示意图；

图2为本发明提供的视频剪切处理方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面结合本申请实施例中的附图对本申请实施例进行描述。

本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/“，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式，以实现设备间的通信，本申请实施例对此不做任何限定。

本申请中的“| |”表示绝对值。

随着智能手机的发展，视频拍摄已经从专用的设备变换成通用设备，用户拍摄视频也越来越多，有些特定的视频场景，视频中图像所占的比重较小，但是音频所占的比重较大，例如音乐类的打卡视频，现在小孩学习钢琴，吉他等等乐器会出现打卡，打卡即在特定的时间频率进行视频的上传，若在视频上传时，出现一些动物或不相关的人物出现，视频要重新拍摄，但是这种特殊情况的视频重新拍摄需要小孩重新进行演凑，影响了小孩的心情，因此需要一种能够对此种情况的视频进行处理的方案。

参阅图1，图1提供了一种智能终端，该智能终端具体可以包括：处理器、摄像头、存储器、通信接口和总线，其中，该处理器、摄像头、存储器、通信接口通过总线连接。该智能终端具体可以包括：智能手机、平板电脑、智能摄像头、智能电视、智能音箱等等。

参阅图2，图2提供了一种视频剪切的方法，该方法可以由如图1所示的智能终端执行，该方法如图2所示，包括如下步骤：

步骤S201、智能终端采集视频数据，该视频数据包括：图像数据以及音频数据。

步骤S202、智能终端对音频数据进行识别处理确定该音频数据属于钢琴曲目后，从图像数据抽取部分图片，对部分图片进行分类识别确定部分图片中每张图片是否具有钢琴。

上述分类识别可以通过神经网络方式来识别，当然也可以通过通用识别器来识别，例如快速循环神经网络来识别类别，例如分类器等等。

步骤S203、若部分图片具有钢琴，智能终端将该图像数据划分为多个图像区间，接收目标对象选择的剪切图像区间。

上述目标对象具体可以包括：家长或学生，当然还可以为老师等等。上述剪切图像区间可以为目标对象不喜欢的视频，例如具有瑕疵的图像数据，例如有其他人走过的图像区间。

步骤S204、智能终端获取剪切图像区间对应的音频区间，对音频区间识别确定音频区间中每个音符对应的音符的类别以及音符时间，将剪切图像区间按音符时间划分为多个子图像区间，智能终端遍历剪切图像区间中每个子图像区间执行剪切处理得到更新图像区间，该剪切处理具体可以包括：确定第i子图像区间对应的音符类别即音符γ，从图像数据中的剩余区间查找与该音符γ匹配的第Ω子图像区间，采用第Ω子图像区间替换第i子图像区间。

上述i为子图像区间的编号，该Ω为剩余区间的子图像区间的标识号，该γ为音符的类别，上述音符的类别可以参见钢琴音符来确定。

上述确定第i子图像区间对饮的音符类别可以通过语音识别算法来确定，例如科大讯飞的音符识别器，当然也可以为百度语音或苹果的siri来确定。

步骤S205、智能终端将更新图像区间替换图像数据中的剪切图像区间得到剪切后的图像数据，将图像数据与音频数据结合起来得到剪切视频文件。

本申请提供的技术方案的特点在于，对于钢琴这种类别的视频拍摄，采用特殊的视频替换方式，因为钢琴的位置相对固定，并且对于打卡视频来说，其角度也相对固定，不会随意移动，此种视频的拍摄会非常的稳定，但是若出现其他的物体，则会对整个视频产生影响，另外，对于打卡视频来说，其有个特点，其在实际演凑时，音符重复的可能性较大，而对于钢琴，音符特定的位置是固定，因此使得图像数据的替换成为了可能，即对于需要进行处理的图像区间，即剪切图像区间按音符划分成多个子图像区间，然后从剩余区间查找与该音符对应的子图像区间对剪切图像区间中的子图像区间进行替换更新，以达到对剪切图像区间处理的目的，提高视频的质量。

上述对部分图片进行分类识别确定部分图片中每张图片是否具有钢琴具体可以包括：

将部分图片中的每个图片进行识别处理得到每张图片是否具有钢琴，具体实现可以包括：

将部分图片中的一张图片组成输入数据矩阵，该组成输入数据矩阵的具体方式可以为，将一张图片通过Resize函数得到输入数据矩阵，当然输入数据矩阵的方式还可以有其他方式。

将输入数据矩阵与钢琴向量执行乘法操作得到乘积结果，将该乘积结果与模板结果执行减法操作得到向量差，若该向量差大于向量阈值，确定该一张图片具有钢琴，若该向量差小于向量阈值，确定该一张图片不具有钢琴。

上述将输入数据矩阵与钢琴向量执行乘法操作得到乘积结果具体可以包括：

执行存储操作，该存储操作具体可以包括：确定钢琴向量（即第α向量）中相同元素值的个数最大值，将第α向量中最大值对应的元素值β排列至α’向量的头部位置，并生成该元素值β在第α向量的位图bitmap，将该bitmap排列至α’向量的头部另一位置，将第α向量中与元素值β相同的元素删除后排列到α’向量的后续位置，按α’向量的行值升序的顺序存储α’向量；计算操作具体可以包括：智能终端提取α’向量以及输入数据矩阵与α’向量的对应行向量，将行向量中bitmap为1的元素值相加后与头部位置的元素值β相乘得到乘积结果，将行向量剩余位置的元素与α’向量剩余位置的对应元素值相乘得到乘积结果，将所有乘积结果相加得到乘积结果的一个元素值，将输入数据矩阵的剩余行向量与钢琴向量均执行存储操作以及计算操作得到该乘积结果。

上述β为最大元素值的具体取值。

上述对于相同的元素值合并的方式能够减少存储量以及计算量，通过bitmap方式能够方便的确定相同元素值的位置，进而实现对最大元素值计算的实现。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频剪切处理方法，其特征在于，所述方法包括如下步骤：

2.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1所述的方法。