CN107566907B

CN107566907B - 视频剪辑方法、装置、存储介质及终端

Info

Publication number: CN107566907B
Application number: CN201710850710.7A
Authority: CN
Inventors: 梁昆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2019-08-30
Anticipated expiration: 2037-09-20
Also published as: CN107566907A

Abstract

本申请实施例公开了视频剪辑方法、装置、存储介质及终端。该方法包括：获取视频中的待分类图像；获取基于机器学习的预设分类模型，预设分类模型由多个已知类别的图像样本训练得到，用于对图像进行基于目标内容的分类；将待分类图像输入至预设分类模型中，并获取预设分类模型的输出结果；根据输出结果对待分类图像进行归类，并按照归类结果对视频进行剪辑处理，得到剪辑视频。本申请实施例通过采用上述技术方案，能够丰富图像的分类维度并提高分类准确度，可实现视频的自动按类别剪辑。

Description

视频剪辑方法、装置、存储介质及终端

技术领域

本申请实施例涉及多媒体技术领域，尤其涉及视频剪辑方法、装置、存储介质及终端。

背景技术

随着多媒体技术的发展，各种图像及音视频为人们的生活增添了诸多乐趣。

人们在观看影片、电视剧或者自己拍摄的短片等视频文件时，通常会选择自己感兴趣的片段进行观看，但是准确的找到这些片段是比较困难的，尤其对于习惯使用移动终端观看视频的用户来说，基本使用手指在触摸屏上对进度条进行相关操作，观看不方便。

发明内容

本申请实施例提供视频剪辑方法、装置、存储介质及终端，可以优化对视频进行剪辑的方案。

第一方面，本申请实施例提供了一种视频剪辑方法，包括：

获取视频中的待分类图像；

获取基于机器学习的预设分类模型，所述预设分类模型由多个已知类别的图像样本训练得到，用于对图像进行基于目标内容的分类；

将所述待分类图像输入至所述预设分类模型中，并获取所述预设分类模型的输出结果；

根据所述输出结果对所述待分类图像进行归类，并按照归类结果对所述视频进行剪辑处理，得到剪辑视频。

第二方面，本申请实施例提供了一种视频剪辑装置，包括：

图像获取模块，用于获取视频中的待分类图像；

模型获取模块，用于获取基于机器学习的预设分类模型，所述预设分类模型由多个已知类别的图像样本训练得到，用于对图像进行基于目标内容的分类；

模型输入模块，用于将所述待分类图像输入至所述预设分类模型中，并获取所述预设分类模型的输出结果；

剪辑模块，用于根据所述输出结果对所述待分类图像进行归类，并按照归类结果对所述视频进行剪辑处理，得到剪辑视频。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的视频剪辑方法。

第四方面，本申请实施例提供了一种终端，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例所述的视频剪辑方法。

本申请实施例中提供的视频剪辑方案，将视频中需要进行分类的图像输入至基于机器学习的预设分类模型中，根据输出结果对图像进行归类，并按照归类结果对视频进行剪辑,其中，预设分类模型是基于机器学习的模型，能够丰富图像的分类维度并提高分类准确度，可实现视频的自动按类别剪辑。

附图说明

图1为本申请实施例提供的一种视频剪辑方法的流程示意图；

图2为本申请实施例提供的另一种视频剪辑方法的流程示意图；

图3为本申请实施例提供的另一种视频剪辑方法的流程示意图；

图4为本申请实施例提供的另一种视频剪辑方法的流程示意图；

图5为本申请实施例提供的一种视频剪辑装置的结构框图；

图6为本申请实施例提供的一种终端的结构示意图；

图7为本申请实施例提供的一种移动终端的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本申请的技术方案。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1为本申请实施例提供的一种视频剪辑方法的流程示意图，该方法可以由视频剪辑装置执行，其中该装置可由软件和/或硬件实现，一般可集成在手机、平板电脑、计算机或服务器等终端中。如图1所示，该方法包括：

步骤101、获取视频中的待分类图像。

示例性的，本申请实施例中所述的视频可以是影片、电视剧或者用户自己拍摄的短片等视频文件，还可以是其他类型或者来源的视频文件，本申请不做限定。视频文件的格式可以有很多种，如运动图像专家组(Motion Picture Experts Group，MPEG)格式、音频视频交错(Audio Video Interleaved，AVI)格式、流媒体(Flash Viedo，FLV)格式以及RealMedia可变比特率(RealMedia Variable Bitrate，RMVB)格式等等，本申请不做限定。视频一般都是由静止的画面(图像)组成的,一张静止的画面可被称为一帧图像，视频包含的图像总数可被称为帧数，每秒钟播放的图像可被称为帧率。

示例性的，本申请中的待分类图像可以是视频中包含的所有图像，也可以是其中的部分图像。当待分类图像为视频中包含的部分图像时，本步骤可以是以预设采样频率获取视频中的待分类图像，预设采样频率可根据实际需求设置，例如1秒每次。当待分类图像为视频中包含的部分图像时，本步骤还可以是对视频中包含的图像进行图像识别，获取符合预设筛选条件的图像作为待分类图像。

示例性的，可在终端中提供视频剪辑功能的操作界面，用户可通过该操作界面触发视频剪辑事件，根据用户的选择操作确定即将进行自动剪辑的视频，然后根据用户设置获取该视频中的待分类图像。

步骤102、获取基于机器学习的预设分类模型。

其中，所述预设分类模型由多个已知类别的图像样本训练得到，用于对图像进行基于目标内容的分类。

可选的，目标内容包括拍摄场景、人物动作和人物表情中的至少一个。其中，每种目标内容下可以包含多种分类模式。以拍摄场景为例，按照室内外的分类模式划分时，类别可包括室内和室外；按照天气情况的分类模式划分时，类别可包括晴天、阴天、雨天、雾霾天及雪天等等；按照昼夜分类模式划分时，类别可包括白天和黑夜，还可包括清晨、晌午以傍晚等；按照景色分类模式划分时，类别可包括海边、森林、瀑布、草原及星空等等；按照场所分类模式划分时，可包括工作场所、娱乐场所、旅游场所、家居场所及商场等等。人物动作可包括步行、跑步、游泳、打篮球和踢足球等等。人物表情可包括微笑、大笑、皱眉以及哭泣等等。上述类别仅作为示意性说明，还可以有其他的分类方式以及类别，本申请不再一一举例。

可选的，预设分类模型可以对图像具体属于那种类别进行识别，还可以仅对图像是否属于特定类别进行识别。例如，以目标内容为人物动作为例，预设分类模型可以识别当前图像中是否包含人物，如果包含人物，那么人物的动作具体是步行、跑步、游泳、打篮球、踢足球还是其他动作，预设分类模型还可以仅识别当前图像中是否包含跑步的人物。

本申请实施例中，对预设分类模型的来源不做限定，可以是从终端本地获取，也可从与终端对应的预设服务器获取。当终端检测到待分类图像获取完毕时或者在检测到视频剪辑事件被触发时，可从移动终端本地存储空间中获取预设分类模型，也可从对应的预设服务器获取预设分类模型。可选的，对于不同的目标内容，或者对于不同目标内容下的不同分类模式，可对应不同的预设分类模型，可先确定目标内容或者目标内容下的目标分类模式，然后获取与目标内容对应的或者与目标分类模式对应的预设分类模型。

示例性的，预设分类模型的训练或更新过程可在移动终端本地进行；也可在预设服务器中进行，当预设分类模型训练完毕或更新完毕后，可直接发送至移动终端进行存储，或在预设服务器本地进行存储，等待移动终端主动获取。

可选的，本申请实施例中的基于机器学习的预设分类模型包括基于神经网络的模型，例如，预设分类模型中可包括一个或多个卷积神经网络层，还可包括一个或多个激活函数层，也可包括一个或多个循环神经网络层。用于训练的初始模型可基于神经网络理论建立，还可基于经验对网络层数或相关参数进行预先设置。

本申请实施例中，对所述多个已知类别的图像样本的来源和数量不做具体限定。可以理解的是，对于基于机器学习的模型来说，一般图像样本的数量越多，模型的输出结果越准确。图像样本的来源可以是所有移动终端用户或指定用户群体(如与当前用户的属性相同的用户群体，属性可包括性别、年龄段和职业等等)发送的类别已知的图像，这些图像可包括视频截图，这里的类别可由发送图像的用户来确定；图像样本的来源还可以是当前移动终端的图库中的图像，图库中的图像可包括视频截图，图像对应的类别可由当前移动终端用户根据个人习惯设定。图像样本的来源还可以是由设计人员从网络或其他途径收集的图像，并由设计人员根据经验或者大数据等确定所收集的图像的类别。

步骤103、将待分类图像输入至预设分类模型中，并获取预设分类模型的输出结果。

示例性的，可将待分类图像中所有像素数据输入至预设分类模型中，也可提取待分类图像中的特征数据并输入至预设分类模型中，本申请实施例不作具体限定，可与预设分类模型的训练方式相对应。

预设分类模型的输出结果与预设分类模型本身实现的功能相关。如上述举例，输出结果可以是不包含人物、步行类、跑步类、游泳类、打篮球类、踢足球类和其他动作类，输出结果还可以是跑步类和其他类。

示例性的，输出结果可以以类别标签的形式体现，如当前待分类图像输入至预设分类模型后，识别出属于跑步类，那么可为当前待分类图像添加跑步类标签。此外，也可不对输出结果进行标记，而直接进入下一步骤中的对待分类图像进行归类。可选的，当以类别标签形式体现时，可将所有待分类图像分别输入至预设分类模型后，再根据输出结果进行归类；还可在每次将当前待分类图像输入至预设分类模型后，便执行一次归类操作，如将当前待分类图像划入其所属类别对应的图集，例如存储至所属类别对应的存储空间。

步骤104、根据输出结果对待分类图像进行归类，并按照归类结果对视频进行剪辑处理，得到剪辑视频。

示例性的，根据输出结果对待分类图像进行归类，可以是根据类别标签进行分类，如将类别标签相同的图像划入该类别标签对应的图集中；也可如上文所述直接根据每次输入的输出结果进行归类。

示例性的，按照归类结果对视频进行剪辑处理，得到的剪辑视频可以是一个或者多个，可由预设分类模型能够输出的类别的总数确定。例如，预设类别模型能够输出N种类别，那么剪辑视频可以是n个，n为小于或等于N的正整数。

可选的，可根据实际需求选择需要剪辑的类别，如选择步行和跑步两个类别，那么可分别剪辑得到步行对应的剪辑视频和跑步对应的剪辑视频。剪辑处理的过程可以是将所需类别对应的图集中的所有图像按照播放顺序进行拼接，再将拼接后的连续图像与音频数据进行合成，形成剪辑视频，音频数据可以是原视频中的音频数据，也可以是其他来源的音频数据，本实施例不做限定。

可选的，对于包含背景音乐的视频，可根据拼接后的连续图像对应的时间长度从背景音乐中截取相应时间长度的音频数据，将截取的音频数据与连续图像进行合成。

本申请实施例中提供的视频剪辑方法，将视频中需要进行分类的图像输入至基于机器学习的预设分类模型中，根据输出结果对图像进行归类，并按照归类结果对视频进行剪辑,其中，预设分类模型是基于机器学习的模型，能够丰富图像的分类维度并提高分类准确度，可实现视频的自动按类别剪辑。

在一些实施例中，所述根据所述输出结果对所述待分类图像进行归类，并按照归类结果对所述视频进行剪辑处理，包括：确定目标类别；若当前待分类图像对应的输出结果与所述目标类别匹配时，确定所述当前待分类图像为感兴趣图像，并将所述当前待分类图像归入感兴趣图集；依据所述感兴趣图集对所述视频进行剪辑处理。可选的，目标类别可包括一个或者多个，每个目标类别可对应一个感兴趣图集。此处优化的好处在于，预设分类模型可能能够输出多种类别的结果，但是用户对其中的某些类别并不关心，可有选择性的对用户关心的图像进行归类，并进行相应的剪辑操作，减少运算量，提高视频剪辑效率。

在一些实施例中，所述依据所述感兴趣图集对所述视频进行剪辑处理，得到剪辑视频，包括：获取所述感兴趣图集中的图像对应的时间轴位置；根据所述时间轴位置对所述感兴趣图集中的图像进行拼接操作，以及根据所述时间轴位置提取与所述感兴趣图集中的图像对应的音频数据；根据拼接后的图像和所提取的音频数据生成剪辑视频。对于视频来说，除了图像以外，声音也是其重要组成部分，在对视频进行剪辑时，可保留视频中原有的音频数据，通过时间轴位置确定图像与音频数据之间的联系，使生成的剪辑视频中图像与音频数据的对应关系不变，避免声音信息的丢失。

进一步的，在一些实施例中，还可包括：判断当前感兴趣图像与上一帧感兴趣图像之间的时间差是否小于预设时长，若是，则将所述当前感兴趣图像与所述上一帧感兴趣图像之间的图像归入感兴趣图集。其中，预设时长可根据实际需求来设定，可由用户自主设置(如用户可根据自身需求设置为2秒或1分钟等)，也可由终端自动设置。例如，可预先设定预设时长与视频总时长之间的联系，如预设时长为视频总时长与预设比例值的乘积，预设比例值例如可以是1/100等，本申请实施例不做限定。可以理解的是，在视频拍摄的过程中，受拍摄手法或拍摄环境等多种因素的影响，相同类别的两帧图像之间，很可能会短暂的出现少量其他类别的图像，为了保证剪辑视频中图像、声音或情节等连贯性，可将这些其他类别的图像也一同进行归入剪辑视频内。

例如，对用户自己拍摄的短视频进行剪辑的情况，假设用户拍摄的是自己孩子生活中的各种活动，视频中，孩子可能会在走路，可能会坐下玩玩具，还可能会站着拍皮球等等，用户希望将孩子走路的部分(对应行走类别)剪辑出来，而孩子走路过程中可能会摔倒再爬起，而摔倒和爬起对应的图像不属于行走类别，但若将这部分排除，会影响孩子动作的连续性，摔倒和爬起的时间通常会比较短，若处于预设时长内，则可一同被归入感兴趣图集，最后生成的剪辑视频也会包含这部分的图像，使视频剪辑更加智能化，满足用户的观看需求。

在一些实施例中，在所述按照归类结果对所述视频进行剪辑处理后，得到剪辑视频，还包括：对所述剪辑视频进行播放；在所述剪辑视频的播放过程中，接收图像获取指令；根据所述图像获取指令获取当前播放图像；接收用户输入的类别修正信息；将所述当前播放图像和所述类别修正信息反馈至所述预设分类模型，用于对所述预设分类模型进行训练及更新。

机器学习模型的优势包括能够不断的学习及更新，使其更加贴合用户的实际需求。本申请实施例中，可通过采用上述手段收集用户的反馈信息。在剪辑视频生成完毕后，对剪辑视频进行播放，用户在观看视频的过程中，可能会发现一些自己不希望被剪辑下来的图像，可通过执行截图操作将图像进行截取，截图操作可以是按下预设按键或多个预设按键的组合，还可以是在触摸屏上输入预设触摸操作等，本申请实施例不做限定。在用户输入截图操作后，终端会接收图像获取指令，并根据该指令获取当前播放图像，用户可根据自己的分类习惯输入当前播放图像对应的类别作为类别修正信息，终端将当前播放图像和类别修正信息作为新的图像样本反馈至预设分类模型，使得预设分类模型所在设备利用新的图像样本对预设分类模型进行训练及更新。可选的，预设分类模型所在设备可以是终端本身，由于之前已经获取到了预设分类模型，因此可在终端本地进行训练及更新；此外，预设分类模型所在设备还可以是预设分类模型最初的来源，即若步骤102中终端从其他设备获取预设分类模型，那么可将当前播放图像和类别修正信息发送至该其他设备。

上述优化的好处在于，在根据当前播放图像和用户输入的类别修正信息对预设分类模型进行训练及更新后，预设分类模型能够更加贴合终端用户的分类习惯，使视频剪辑更加智能化，视频剪辑也更加准确及智能。

在一些实施例中，所述获取基于机器学习的预设分类模型，包括：从预设服务器获取基于机器学习的预设分类模型。所述将所述当前播放图像和所述类别修正信息反馈至所述预设分类模型，用于对所述预设分类模型进行训练及更新，包括：将所述当前播放图像和所述类别修正信息反馈至所述预设服务器，用于指示所述预设服务器对所述预设分类模型进行训练及更新。这样设置的好处在于，预设分类模型的训练及更新过程由服务器来完成，可减轻终端的运算量，同时服务器的计算能力较强，能够提高训练速度。此外，主动从预设服务器获取预设分类模型，而不是被动的等待预设服务器发送的预设分类模型，可在保证预设分类模型是最新的基础上减少接收预设分类模型的次数，减少数据传输量，降低终端的功耗，对于移动终端来说，还可节约流量。

图2为本申请实施例提供的另一种视频剪辑方法的流程示意图，该方法包括如下步骤：

步骤201、检测到视频自动剪辑事件被触发时，确定需要被剪辑的原始的视频。

步骤202、确定目标内容为人物动作。

步骤203、获取视频中的待分类图像。

可选的，可对视频中的图像进行识别，获取包含人物的图像作为待分类图像。

步骤204、从终端本地读取与人物动作对应的基于机器学习的预设分类模型。

其中，所述预设分类模型由多个已知动作类别的图像样本训练得到，用于对图像进行基于人物动作的分类。

步骤205、将待分类图像输入至预设分类模型中，并获取预设分类模型的输出结果。

步骤206、确定目标类别为跑步。

步骤207、对每个待分类图像逐一进行判定并归类，若当前待分类图像对应的输出结果与跑步匹配时，确定为跑步类图像，将该跑步类图像归入跑步对应的感兴趣图集。

步骤208、对于每两个相邻的跑步类图像之间的图像进行再次判定并归类，若当前跑步类图像与上一帧跑步类图像之间的时间差小于预设时长，则将该两帧图像之间的其他类别的图像归入感兴趣图集。

步骤209、依据感兴趣图集对视频进行剪辑处理，得到剪辑视频。

步骤210、播放剪辑视频图像，并监听图像获取指令。

步骤211、在接收到图像获取指令时，截取当前播放图像。

步骤212、接收用户输入的类别修正信息，并根据当前播放图像和类别修正信息对所述预设分类模型进行训练及更新。

本申请实施例以目标内容为人物动作为例进行说明，在确定即将被剪辑的视频后，筛选出待分类的图像，将这些图像分别输入与人物动作对应的预设分类模型中，对图像进行分类，针对跑步类图像进行剪辑，实现了视频的按类别自动剪辑，无需用户手动筛选。此外，在播放剪辑视频的过程中接收用户的反馈，对类型进行修正，随后训练并更新预设分类模型，使视频剪辑更贴合用户自身习惯和需求，使视频剪辑更加智能化。

图3为本申请实施例提供的另一种视频剪辑方法的流程示意图，该方法包括如下步骤：

步骤301、检测到视频自动剪辑事件被触发时，确定需要被剪辑的原始的视频。

步骤302、确定目标内容为人物动作。

步骤303、获取视频中的待分类图像。

步骤304、从终端本地读取与人物动作对应的基于机器学习的预设分类模型。

步骤305、将待分类图像输入至预设分类模型中，并获取预设分类模型的输出结果。

步骤306、确定目标类别为跑步和步行。

步骤307、对每个待分类图像逐一进行判定并归类，若当前待分类图像对应的输出结果与跑步匹配时，确定为跑步类图像，将该跑步类图像归入跑步对应的感兴趣图集，若当前待分类图像对应的输出结果与步行匹配时，确定为步行类图像，将该步行类图像归入步行对应的感兴趣图集。

步骤308、依据两个感兴趣图集对视频进行剪辑处理，得到分别对应跑步和步行的两个剪辑视频。

可选的，也可根据用户需求将跑步和步行均归入同一个感兴趣图集中，剪辑出一个剪辑视频。

本申请实施例以两个感兴趣图集为例进行说明，可通过一次剪辑流程完成不相同的两个类别的子视频的剪辑，同理，还可以完成更多类别的子视频的剪辑，有效提高视频剪辑的针对性及剪辑效率。

图4为本申请实施例提供的另一种视频剪辑方法的流程示意图，该方法包括如下步骤：

步骤401、检测到视频自动剪辑事件被触发时，确定需要被剪辑的原始的视频。

步骤402、确定目标内容为拍摄场景，目标分类模式为按照场所划分。

步骤403、获取视频中的待分类图像。

步骤404、从对应的预设服务器获取与拍摄场景下按照场所划分的分类模式对应的基于机器学习的预设分类模型。

其中，所述预设分类模型由多个已知场所类别的图像样本训练得到，用于对图像进行基于拍摄场景中的不同场所的分类。

步骤405、将待分类图像输入至预设分类模型中，并获取预设分类模型的输出结果。

步骤406、确定目标类别为旅游场所。

步骤407、对每个待分类图像逐一进行判定并归类，若当前待分类图像对应的输出结果与旅游场所匹配时，确定为旅游场所类图像，将该旅游场所类图像归入旅游场所对应的感兴趣图集。

步骤408、依据感兴趣图集对视频进行剪辑处理，得到剪辑视频。

步骤409、播放剪辑视频图像，并监听图像获取指令。

步骤410、在接收到图像获取指令时，截取当前播放图像。

步骤411、接收用户输入的类别修正信息。

步骤412、将当前播放图像和类别修正信息发送至预设服务器，用于指示预设服务器根据对预设分类模型进行训练及更新。

本申请实施例以目标内容为拍摄场景为例进行说明，实现了视频的按类别自动剪辑，无需用户手动筛选。此外，在播放剪辑视频的过程中接收用户的反馈，对类型进行修正，随后将修正信息和对应的图像反馈给对应的预设服务器，对预设分类模型进行训练及更新，使视频剪辑更贴合用户自身习惯和需求，使视频剪辑更加智能化。

图5为本申请实施例提供的一种视频剪辑装置的结构框图，该装置可由软件和/或硬件实现，一般可集成在手机、平板电脑、计算机或服务器等终端中，可通过执行视频剪辑方法来进行视频剪辑。如图5所示，该装置包括：

图像获取模块501，用于获取视频中的待分类图像；

模型获取模块502，用于获取基于机器学习的预设分类模型，所述预设分类模型由多个已知类别的图像样本训练得到，用于对图像进行基于目标内容的分类；

模型输入模块503，用于将所述待分类图像输入至所述预设分类模型中，并获取所述预设分类模型的输出结果；

剪辑模块504，用于根据所述输出结果对所述待分类图像进行归类，并按照归类结果对所述视频进行剪辑处理，得到剪辑视频。

本申请实施例提供的视频剪辑装置，将视频中需要进行分类的图像输入至基于机器学习的预设分类模型中，根据输出结果对图像进行归类，并按照归类结果对视频进行剪辑,其中，预设分类模型是基于机器学习的模型，能够丰富图像的分类维度并提高分类准确度，可实现视频的自动按类别剪辑。

可选的，所述目标内容包括拍摄场景、人物动作和人物表情中的至少一个。

可选的，所述剪辑模块包括：

目标类别确定单元，用于确定目标类别；

图集归纳单元，用于在当前待分类图像对应的输出结果与所述目标类别匹配时，确定所述当前待分类图像为感兴趣图像，并将所述当前待分类图像归入感兴趣图集；

视频剪辑单元，用于依据所述感兴趣图集对所述视频进行剪辑处理。

可选的，所述视频剪辑单元用于：

获取所述感兴趣图集中的图像对应的时间轴位置；

根据所述时间轴位置对所述感兴趣图集中的图像进行拼接操作，以及根据所述时间轴位置提取与所述感兴趣图集中的图像对应的音频数据；

根据拼接后的图像和所提取的音频数据生成剪辑视频。

可选的，所述图集归纳单元还用于：

判断当前感兴趣图像与上一帧感兴趣图像之间的时间差是否小于预设时长，若是，则将所述当前感兴趣图像与所述上一帧感兴趣图像之间的图像归入感兴趣图集。

可选的，该装置还包括：

视频播放模块，用于在所述按照归类结果对所述视频进行剪辑处理，得到剪辑视频之后，对所述剪辑视频进行播放；

指令接收模块，用于在所述剪辑视频的播放过程中，接收图像获取指令；

播放图像获取模块，用于根据所述图像获取指令获取当前播放图像；

修正信息接收模块，用于接收用户输入的类别修正信息；

反馈模块，用于将所述当前播放图像和所述类别修正信息反馈至所述预设分类模型，用于对所述预设分类模型进行训练及更新。

可选的，所述模型获取模块用于：从预设服务器获取基于机器学习的预设分类模型；

所述反馈模块用于：将所述当前播放图像和所述类别修正信息反馈至所述预设服务器，用于指示所述预设服务器对所述预设分类模型进行训练及更新。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行视频剪辑方法，该方法包括：

获取视频中的待分类图像；

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDRRAM、SRAM、EDORAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的视频剪辑操作，还可以执行本申请任意实施例所提供的视频剪辑方法中的相关操作。

本申请实施例提供了一种终端，该终端中可集成本申请实施例提供的视频剪辑装置。图6为本申请实施例提供的一种移动终端的结构示意图。如图6所示，移动终端600可以包括：存储器601，处理器602及存储在存储器上并可在处理器运行的计算机程序，所述处理器602执行所述计算机程序时实现如本申请实施例所述的视频剪辑方法。

本申请实施例提供的终端，将视频中需要进行分类的图像输入至基于机器学习的预设分类模型中，根据输出结果对图像进行归类，并按照归类结果对视频进行剪辑,其中，预设分类模型是基于机器学习的模型，能够丰富图像的分类维度并提高分类准确度，可实现视频的自动按类别剪辑。

图7为本申请实施例提供的又一种移动终端的结构示意图，如图7所示，该移动终端可以包括：壳体(图中未示出)、存储器701、中央处理器(central processing unit，CPU)702(又称处理器，以下简称CPU)、电路板(图中未示出)和电源电路(图中未示出)。所述电路板安置在所述壳体围成的空间内部；所述CPU702和所述存储器701设置在所述电路板上；所述电源电路，用于为所述移动终端的各个电路或器件供电；所述存储器701，用于存储可执行程序代码；所述CPU702通过读取所述存储器701中存储的可执行程序代码来运行与所述可执行程序代码对应的计算机程序，以实现以下步骤：

获取视频中的待分类图像；

所述移动终端还包括：外设接口703、RF(Radio Frequency，射频)电路705、音频电路706、扬声器711、电源管理芯片708、输入/输出(I/O)子系统709、其他输入/控制设备170、触摸屏712、其他输入/控制设备170以及外部端口704，这些部件通过一个或多个通信总线或信号线707来通信。

应该理解的是，图示移动终端700仅仅是移动终端的一个范例，并且移动终端700可以具有比图中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

下面就本实施例提供的用于视频剪辑的移动终端进行详细的描述，该移动终端以手机为例。

存储器701，所述存储器701可以被CPU702、外设接口703等访问，所述存储器701可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

外设接口703，所述外设接口703可以将设备的输入和输出外设连接到CPU702和存储器701。

I/O子系统709，所述I/O子系统709可以将设备上的输入输出外设，例如触摸屏712和其他输入/控制设备170，连接到外设接口703。I/O子系统709可以包括显示控制器7071和用于控制其他输入/控制设备170的一个或多个输入控制器7092。其中，一个或多个输入控制器7092从其他输入/控制设备170接收电信号或者向其他输入/控制设备170发送电信号，其他输入/控制设备170可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是，输入控制器7092可以与以下任一个连接：键盘、红外端口、USB接口以及诸如鼠标的指示设备。

触摸屏712，所述触摸屏712是用户移动终端与用户之间的输入接口和输出接口，将可视输出显示给用户，可视输出可以包括图形、文本、图标、视频等。

I/O子系统709中的显示控制器7071从触摸屏712接收电信号或者向触摸屏712发送电信号。触摸屏712检测触摸屏上的接触，显示控制器7071将检测到的接触转换为与显示在触摸屏712上的用户界面对象的交互，即实现人机交互，显示在触摸屏712上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是，设备还可以包括光鼠，光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸。

RF电路705，主要用于建立手机与无线网络(即网络侧)的通信，实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地，RF电路705接收并发送RF信号，RF信号也称为电磁信号，RF电路705将电信号转换为电磁信号或将电磁信号转换为电信号，并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路705可以包括用于执行这些功能的已知电路，其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC(COder-DECoder，编译码器)芯片组、用户标识模块(Subscriber Identity Module，SIM)等等。

音频电路706，主要用于从外设接口703接收音频数据，将该音频数据转换为电信号，并且将该电信号发送给扬声器711。

扬声器711，用于将手机通过RF电路705从无线网络接收的语音信号，还原为声音并向用户播放该声音。

电源管理芯片708，用于为CPU702、I/O子系统及外设接口所连接的硬件进行供电及电源管理。

上述实施例中提供的视频剪辑装置、存储介质及终端可执行本申请任意实施例所提供的视频剪辑方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的视频剪辑方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种视频剪辑方法，其特征在于，包括：

获取视频中的待分类图像；

根据所述输出结果对所述待分类图像进行归类，并按照归类结果对所述视频进行剪辑处理，得到剪辑视频；

所述目标内容包括拍摄场景、人物动作和人物表情中的至少一个；其中，每种目标内容下包含多种分类模式；

在所述按照归类结果对所述视频进行剪辑处理，得到剪辑视频之后，还包括：

对所述剪辑视频进行播放；

在所述剪辑视频的播放过程中，接收图像获取指令；

根据所述图像获取指令获取当前播放图像；

接收用户根据分类习惯输入的所述当前播放图像对应的类别，并将所述类别作为类别修正信息；

将所述当前播放图像和所述类别修正信息反馈至所述预设分类模型，用于对所述预设分类模型进行训练及更新。

2.根据权利要求1所述的方法，其特征在于，所述根据所述输出结果对所述待分类图像进行归类，并按照归类结果对所述视频进行剪辑处理，包括：

确定目标类别；

若当前待分类图像对应的输出结果与所述目标类别匹配时，确定所述当前待分类图像为感兴趣图像，并将所述当前待分类图像归入感兴趣图集；

依据所述感兴趣图集对所述视频进行剪辑处理。

3.根据权利要求2所述的方法，其特征在于，所述依据所述感兴趣图集对所述视频进行剪辑处理，得到剪辑视频，包括：

获取所述感兴趣图集中的图像对应的时间轴位置；

根据拼接后的图像和所提取的音频数据生成剪辑视频，得到剪辑视频。

4.根据权利要求2所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，所述获取基于机器学习的预设分类模型，包括：

从预设服务器获取基于机器学习的预设分类模型；

所述将所述当前播放图像和所述类别修正信息反馈至所述预设分类模型，用于对所述预设分类模型进行训练及更新，包括：

将所述当前播放图像和所述类别修正信息反馈至所述预设服务器，用于指示所述预设服务器对所述预设分类模型进行训练及更新。

6.一种视频剪辑装置，其特征在于，包括：

图像获取模块，用于获取视频中的待分类图像；

剪辑模块，用于根据所述输出结果对所述待分类图像进行归类，并按照归类结果对所述视频进行剪辑处理，得到剪辑视频；

该装置还包括：

修正信息接收模块，用于接收用户根据分类习惯输入的所述当前播放图像对应的类别，并将所述类别作为类别修正信息；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的视频剪辑方法。

8.一种终端，其特征在于，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-5任一所述的视频剪辑方法。