CN110830845A

CN110830845A - 一种视频生成方法、装置及终端设备

Info

Publication number: CN110830845A
Application number: CN201810904965.1A
Authority: CN
Inventors: 罗世嘉
Original assignee: Ucweb Inc
Current assignee: Alibaba China Co Ltd
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2020-02-21

Abstract

本发明公开了一种视频生成方法、装置及终端设备，该视频生成方法包括：获取反映视频拍摄场景的参数，作为视频场景参数；根据视频场景参数选取匹配的配乐，作为当前配乐；根据当前配乐生成视频。这样，实施简单便捷，可以降低用户在制作视频时选取配乐而花费的时间，节省视频制作成本，提升用户体验。

Description

一种视频生成方法、装置及终端设备

技术领域

本发明涉及视频制作技术领域，更具体地，涉及一种视频生成方法、装置及终端设备。

背景技术

短视频作为近来在互联网上的十分热门的内容传播方式，是指用户拍摄的时长较短(一般是5分钟以内)的视频内容，通过互联网的媒体平台或者社交平台进行传播，随着移动终端普及和网络的提速，短视频以其短、平、快的传播特点，带来极大的流量效应，获得越来越多的用户和网络平台的青睐。

用户在拍摄短视频时，为了使得视频内容更为精彩，通常会选取某段音乐作为所拍摄的短视频的配乐。而目前提供短视频拍摄、制作服务的短视频平台，虽然可以提供多首音乐曲目供用户选择作为配乐，但是，用户受限于自身的个人经验，很难迅速从众多音乐曲目中选取与视频场景相配的配乐，往往耗费较多时间选取的配乐却与视频场景、内容并不实际相配，影响短视频的拍摄效果。

发明内容

本发明的一个目的是提供一种自动选取视频配乐的视频生成方法的新技术方案。

根据本发明的第一方面，提供了一种视频生成方法，包括：

获取反映视频拍摄场景的参数，作为视频场景参数；

根据所述视频场景参数选取匹配的配乐，作为当前配乐；

根据所述当前配乐生成视频。

可选的是，所述获取视频场景参数包括：

从预先存储的视频图像中选取关键视频帧；或者，调用摄像头获取当前视频帧，作为关键视频帧；

根据所述关键视频帧确定所述视频场景参数。

可选的是，所述视频场景参数至少包括色彩参数、和/或情绪指数。

可选的是，所述视频场景参数包括情绪指数；

所述根据所述关键视频帧确定所述视频场景参数的步骤包括：

对所述关键视频帧中识别到的物体、动作速度、和/或人物面部表情进行分析，得到所述情绪指数。

可选的是，所述根据所述视频场景参数选取匹配的配乐，作为当前配乐的步骤包括：

根据所述视频场景参数确定视频场景的特性标签；

选取与所述特性标签匹配的配乐，作为所述当前配乐。

可选的是，所述选取与所述特性标签匹配的配乐，作为所述当前配乐的步骤包括：

根据所述特性标签得到多个匹配的配乐，作为备选配乐；

选取所述备选配乐中热门指数最高的一个作为所述当前配乐。

根据所述特性标签得到多个匹配的配乐，作为备选配乐；

根据用户选取配乐的历史记录确定用户的配乐偏好；

选取与所述配乐偏好匹配配乐，作为当前配乐。

将所述特性标签发送至服务器，以使所述服务器根据所述特性标签确定匹配的配乐；

接收所述服务器发送的配乐，作为所述当前配乐。

根据所述视频场景参数选取匹配的音乐曲目；

根据预先设置的播放时长、及所述视频场景参数截取所述匹配的音乐曲目，得到所述当前配乐。

可选的是，所述根据所述当前配乐生成视频的步骤包括：

根据预先存储的视频图像和所述当前配乐合成所述视频；

或者，

调用摄像头拍摄视频图像；

根据拍摄的视频图像和所述当前配乐合成所述视频。

根据本发明的第二方面，提供了一种视频生成装置，包括：

参数获取模块，用于获取视频场景参数；其中，所述视频场景参数至少包括色彩参数、和/或情绪指数；

配乐选取模块，用于根据所述视频场景参数选取匹配的配乐，作为当前配乐；以及，

视频生成模块，用于根据所述当前配乐生成视频。

根据本发明的第三方面，提供了一种终端设备，包括：

根据本发明第二方面所述的视频生成装置；

或者，

处理器和存储器，所述存储器用于存储指令，所述指令用于控制所述处理器执行根据本发明第一方面所述的视频生成方法。

本发明的一个有益效果在于，通过本发明的实施例，获取视频场景参数，选取与视频场景参数匹配的配乐作为当前配乐，再根据当前配乐来生成视频。这样，实施简单便捷，可以降低用户在制作视频时选取配乐而花费的时间，节省视频制作成本，提升用户体验。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是显示可用于实现本发明的实施例的终端设备的硬件配置的例子的框图。

图2为本发明提供的视频生成方法的一种实施方式的流程图；

图3为本发明提供的选取当前配乐的一种实施方式的流程图；

图4为本发明提供的选取当前配乐的另一种实施方式的流程图；

图5为本发明提供的视频生成装置的一种实施结构的方框原理图；

图6为本发明提供的视频生成装置的另一种实施结构的方框原理图；

图7为本发明提供的视频生成装置的再一种实施结构的方框原理图；

图8为本发明提供的终端设备的一种实施结构的方框原理图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

终端设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。如图1所示，终端设备1000可以包括处理器1010、存储器1020、摄像头1030、通信装置1040、显示装置1050、输入装置1060、扬声器1070、麦克风1080，等等。其中，处理器1010可以是中央处理器CPU、微处理器MCU等。存储器1020例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。用户可以通过摄像头1030采集视频图像。通信装置1040例如能够进行有线或无线通信。显示装置1050例如是液晶显示屏、触摸显示屏等。输入装置1060例如可以包括触摸屏、键盘等。用户可以通过扬声器1070和麦克风1080输入/输出语音信息。

图1所示的终端设备1000的硬件配置仅是解释性的，并且决不是为了要限制本发明、其应用或用途。

应用于本发明的实施例中，终端设备1000的所述存储器1020用于存储指令，所述指令用于控制所述处理器1010进行操作以执行本发明实施例提供的任意一项视频生成方法。本领域技术人员应当理解，尽管在图1中对终端设备1000示出了多个装置，但是，本发明可以仅涉及其中的部分装置，例如，终端设备1000只涉及处理器1010、存储装置1020和摄像头1030等。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

本发明实施例的总体构思，是提供一种新的生成视频的技术方案，通过获取视频场景参数，选取与视频场景参数匹配的配乐作为当前配乐，再根据当前配乐来生成视频。这样，实施简单便捷，可以降低用户在制作视频时选取配乐而花费的时间，节省视频制作成本，提升用户体验。

<方法>

在本实施例中，提供一种视频生成方法，可以通过终端设备实施。

该终端设备可以任意具有处理器和处理器的电子设备，例如，可以是便携式电脑、台式计算机、手机、平板电脑等。在一个例子中，终端设备可以是图1所示的终端设备1000。

图2为本发明提供的视频生成方法的一种实施方式的流程图。

根据图2所示，该视频生成方法可以包括如下步骤S2100～S2300。

步骤S2100，获取反映视频拍摄场景的参数，作为视频场景参数。

视频场景参数可以至少包括色彩参数、和/或情绪指数。

在本发明的一个实施例中，可以根据终端设备中已经预先存储的视频图像生成视频。那么，获取视频场景参数的方法可以为：

从预先存储的视频图像中选取关键视频帧，根据关键视频帧确定视频场景参数。

在已经预先拍摄好视频图像的情况下，该视频图像会预先存储在终端设备的缓存或者是内存中。

如果用户在通过本实施例的终端设备拍摄该视频图像后选择保存，那么，该视频图像可以存储在终端设备的内存中。或者，该视频图像也可以是通过其他拍摄设备采集的，并通过有线(例如可以是数据线)或者无线方式(例如可以但不限于为蓝牙、Wi-Fi、GPRS、3G网络或者是4G网络等)传输至本实施例的终端设备中，该视频图像也可以是存储在终端设备的内存中。

如果用户在通过本实施例的终端设备拍摄该视频图像之后，还未点击保存，同时，也没有退出拍摄应用程序，此时，该视频图像可以是保存在本实施例的终端设备的缓存中。在用户点击保存的情况下，该视频图像可以保存至本实施例的终端设备的内存中。

从预先存储的视频图像中选取关键视频帧的方式可以为：基于镜头的方法、帧平均法和直方图平均法、基于运动的分析方法、基于聚类的方法、模板匹配法、或直方图比较法。

基于镜头的方法可以是选取预先存储的视频图像在时间轴上的第一帧图像或者是最后一帧图像作为关键视频帧。

帧平均分是从存储的视频图像中所有视频帧在某个位置上的平均值，然后选取存储的视频图像中该点位置的像素值最接近平均值的视频帧，作为关键视频帧。

直方图平均法是将存储的视频图像中所有视频帧的统计直方图取平均值，选择与该平均值直方图最接近的视频帧，作为关键视频帧。

基于运动的分析法通过光流分析来计算存储的视频图像中的运动量，在运动量局部最小值出选取能够反映该视频图像的静止的视频帧，作为关键视频帧。

基于聚类的方法可以对存储的视频图像中所有视频帧进行聚类来选取关键视频帧。该方法可以包括以下三个步骤：首先是特征提取阶段，这里的特征主要是视频帧间直方图的差别，第一阶段提取的特征作为第二阶段的输入进行聚类，第三阶段即是关键图像帧的选取。

模板匹配法是通过将存储的视频图像中的所有视频帧与预存的模板进行匹配，选取与模板相似度最高的视频帧作为关键视频帧。

直方图比较法是通过存储的视频图像中的所有视频帧的直方图与预存的标准直方图进行比较，选取与标准直方图相似度最高的视频帧作为关键视频帧。直方图中的数值都是统计而来，描述了对应视频帧中关于颜色的数量特征，可以反映图像颜色的统计分布和基本色调。

在本发明的另一个实施例中，可以根据终端设备调用摄像头实时拍摄的视频图像生成视频。那么，获取视频场景参数的方法可以为：

调用摄像头获取当前视频帧，作为关键视频帧；根据关键视频帧确定视频场景参数。

调用摄像头具体可以是打开视频拍摄的应用程序，在此情况下，如果接收到用户输入的拍摄指令，则可以开始进行拍摄。

在打开视频拍摄的应用程序的情况下，尽管还未开始进行拍摄，摄像头依然会根据预先设置的频率来获取视频帧。因此，可以将当前采样时刻获取的当前视频帧作为关键视频帧。在时间轴上，当前视频帧是摄像头获取的最新的视频帧。

根据前述的实施例中的方法获取关键视频帧后，根据关键视频帧确定视频场景参数的方式相同。具体可以如下所述：

在视频场景参数包括情绪指数的情况下，

根据关键视频帧确定视频场景参数的方式可以为：

对关键视频帧中识别到的物体、动作速度、和/或人物面部表情进行分析，得到情绪指数。

在一个例子中，可以根据关键视频帧中识别到的物体确定拍摄场景，再根据拍摄场景确定情绪指数。

具体的，可以预先存储有能够反映物体与情绪指数之间对应关系的对照表。通过查找该对照表，可以确定与关键视频帧中识别到的物体对应的情绪指数。

该情绪指数可以但不限于是1-10的分数。

例如，在关键视频帧中识别到的物体包括办公桌的情况下，可以确定与办公桌对应的情绪指数为3。

例如，在关键视频帧中识别到的物体包括花或者树的情况下，可以确定与花或者树对应的情绪指数为9。

在一个例子中，可以识别关键视频帧中的物体，根据关键视频帧和前一视频帧确定该物体的运动速度，根据运动速度确定情绪指数。

前一视频帧是相对于关键视频帧而言的，前一视频帧可以为在时间轴上处于关键视频帧之前的视频帧。前一视频帧与关键视频帧可以是相邻的视频帧。前一视频帧与关键视频帧之间可以包括设定数量的视频帧，该设定数量为正整数。

识别出关键视频帧中的物体、及该物体的位置；再识别出前一视频帧中该物体的位置；根据该物体在关键视频帧中的位置、该物体在前一视频帧中的位置、关键视频帧和前一视频帧的获取时间间隔，确定该物体的运动速度。

可以是预先存储有能够反映物体运动速度的范围与情绪指数之间对应关系的情绪指数。通过查找该对照表，可以确定与关键视频帧中物体的运动速度对应的情绪指数。

例如，可以在关键视频帧中物体的运动速度处于0-5像素/秒的情况下，确定对应的情绪指数为1。

例如，可以在关键视频帧中物体的运动速度处于30-35像素/秒的情况下，确定对应的情绪指数为7。

在一个例子中，在关键视频帧中识别到人物，可以将关键视频帧与预先存储对应每个面部表情的图像模板进行匹配，以确定关键视频帧中人物的面部表情；再根据人物的面部表情确定情绪指数。

可以是预先存储有能够反映面部表情与情绪指数之间对应关系的情绪指数。通过查找该对照表，可以确定与关键视频帧中人物的面部表情对应的情绪指数。

在关键视频帧与对应大笑的面部表情的图像模板的匹配度最高的情况下，可以确定关键视频帧中人物的面部表情为大笑，确定大笑的面部表情对应的情绪指数为10。

在关键视频帧与对应大哭的面部表情的图像模板的匹配度最高的情况下，可以确定关键视频帧中人物的面部表情为大哭，确定大哭的面部表情对应的情绪指数为1。

在一个例子中，在关键视频帧中识别到的物体包括树，识别到的人物的面部表情为平静的情况下，根据关键视频帧中的物体包括树可以确定情绪指数为9，根据识别到的人物的面部表情为平静可以确定情绪指数为5，那么，可以计算根据关键视频帧中的物体包括树可以确定情绪指数和根据识别到的人物的面部表情为平静可以确定情绪指数的加权平均值，例如可以是7，作为最终确定的情绪指数。

在视频场景参数包括色彩参数的情况下，根据关键视频帧确定视频场景参数的方式包括：

可以获取关键视频帧的任意一个像素点(例如可以是中心像素点)的像素值，作为色彩参数；

还可以获取关键视频帧中所有像素点的像素值的平均值，作为色彩参数；

还可以获取关键视频帧中所有像素点的RGB值(包括红色分量、绿色分量和蓝色分量)，计算所有像素点红色分量的平均值得到红色平均值，计算所有像素点绿色分量的平均值作为绿色平均值，计算所有像素点蓝色分量的平均值作为蓝色平均值，将红色平均值、绿色平均值和蓝色平均值作为色彩参数。

步骤S2200，根据视频场景参数选取匹配的配乐，作为当前配乐。

在一个例子中，步骤S2200可以进一步包括如图3所示的步骤S2211～S2212。

步骤S2211，根据视频场景参数确定视频场景的特性标签。

该特性标签可以包括伤心、孤单、郁闷、痛苦、兴奋、幸福、感动、放松、温馨、愤怒等。

在一个例子中，视频场景参数包括情绪指数。可以预先存储有能够反映心情指数与特性标签之间的对应关系的对照表。通过查找该对照表，可以确定与获取的关键视频帧的情绪指数对应的特性标签。

例如，在获取的关键视频帧的情绪指数为1的情况下，可以确定对应的特性标签为痛苦。

例如，在获取的关键视频帧的情绪指数为5的情况下，可以确定对应的特性标签为放松。

例如，在获取的关键视频帧的情绪指数为9的情况下，可以确定对应的特性标签为兴奋。

在一个例子中，视频场景参数包括视频场景的色彩参数。可以预先存储有能够反映色彩参数的范围与特性标签之间的对应关系的对照表。通过查找该对照表，可以确定与获取的关键视频帧的色彩参数对应的特性标签。

例如，在色彩参数处于第一范围内的情况下，可以确定对应的特性标签为温馨。

例如，在色彩参数处于第二范围内的情况下，可以确定对应的特性标签为寂寞。

在一个例子中，视频场景参数包括视频场景的色彩参数和情绪指数。

可以预先设定色彩参数和情绪指数的优先级，根据优先级较高的色彩参数或者情绪指数来确定视频场景的特性标签。

还可以是对色彩但是和情绪指数进行综合分析来确定视频场景的特性标签。

步骤S2212，选取与特性标签匹配的配乐，作为当前配乐。

具体的，所有的配乐可以是预先存储在终端设备内的，也可以是存储在云端服务器中的。存储在终端设备或者是云端服务器内的配乐可以均具有对应的标签。配乐的标签可以是使用终端设备的用户根据配乐的节奏、内容等预先标记的，也可以是其他用户标记的。云端服务器可以获取用户对配乐进行标记的标签。而且，在任一终端设备下载该配乐的同时，服务器也可以将对应的标签发送至该终端设备。

终端设备可以是从本地存储的所有配乐中选取与特性标签匹配的配乐，作为当前配乐。

在一个例子中，与特性标签匹配的配乐有多个的情况下，将根据特性标签得到多个匹配的配乐，作为备选配乐。

从备选配乐中选取当前配乐的方式至少可以包括：从备选配乐中任选一个作为当前配乐；从选取备选配乐中热门指数最高的一个作为当前配乐；或者，从备选配乐中选取播放次数最多的一个作为当前配乐。

从备选配乐中选取当前配乐的方式还可以包括：

获取用户选取配乐的历史记录确定用户的配乐偏好；从备选配乐中选取该配乐偏好匹配的配乐作为当前配乐。

例如，根据用户选取配乐的历史记录确定用于的配乐偏好为搞笑的情况下，可以从备选配乐中选取与搞笑的匹配度最高的一个作为当前配乐。

在一个例子中，配乐可以是存储在服务器内的。那么，选取与特性标签匹配的配乐，作为当前配乐的步骤可以进一步包括：

将特性标签发送至服务器，以使服务器根据该特性标签确定匹配的配乐；

接收服务器发送的配乐，作为当前配乐。

服务器根据特性标签选取匹配的配乐的方式，可以参照前述的终端设备根据特性标签选取当前配乐的方式，在此不再赘述。

在服务器得到的匹配的一个配乐时，可以将该匹配的配乐发送至终端设备。在服务器得到的匹配的多个配乐时，可以从匹配的多个配乐中选择一个发送至终端设备，具体可以参照前述的终端设备从多个备选配乐中选取当前配乐的方式。

那么，终端设备可以将接收到的服务器发送的一个配乐作为当前配乐。

在一个例子中，根据本发明实施例的方法生成的视频为具有时长限制的短视频。终端设备或者是服务器内可以未存储有符合时长的配乐。那么，根据视频场景参数选取匹配的配乐，作为当前配乐的步骤还可以包括如图4所示的步骤S2221～S2222。

步骤S2221，根据视频场景参数选取匹配的音乐曲目。

例如，可以是预先根据视频场景参数确定视频场景的特性标签；选取与该特性标签匹配的音乐曲目。

在该特性标签匹配的音乐曲目有多个的情况下，可以选取其中任意一个、或者是热门指数最高的一个、或者是播放次数最多的一个、或者是最新的一个用于执行步骤S2222。

根据视频场景参数选取匹配的音乐曲目的具体方式，可以参照前述的根据视频场景参数选取匹配的配乐的方式，在此不再赘述。

步骤S2222，根据预先设置的播放时长、及视频场景参数截取该音乐曲目，得到当前配乐。

例如，短视频的播放时长可以是15s，那么，可以是截取该音乐曲目中的前15s的音乐片段、后15s的音乐片段、或者是其中任意的15s的音乐片段。还可以是截取该音乐曲目中与视频场景参数匹配的15s的音乐片段，作为当前配乐。

步骤S2300，根据当前配乐生成视频。

在本发明的一个实施例中，视频场景参数是根据预先存储的视频图像中的关键视频帧确定的。那么，根据当前配乐生成视频的步骤可以包括：

根据预先存储的视频图像和当前配乐合成视频。

在本发明的另一个实施例中，视频场景参数是根据调用摄像头获取的当前视频帧获取的。那么，根据当前配乐生成视频的步骤还可以包括：

调用摄像头拍摄视频图像，根据拍摄的视频图像和当前配乐合成视频。可以是在拍摄视频图像的过程中播放并同时录制该当前配乐，以生成视频。

如果用户使用了根据本发明的实施例的当前配乐来生成视频，则可以默认当前配乐的匹配是正确的。对匹配逻辑有正向确定的作用。如果用户更换了其他配乐来生成视频，则可以获取更换后的配乐，根据更换后的配乐来适应性更改获取视频场景参数、和/或选取与视频场景参数匹配的当前配乐的方法，以提高后续匹配配乐的准确性。

通过本发明的实施例，获取视频场景参数，选取与视频场景参数匹配的配乐作为当前配乐，再根据当前配乐来生成视频。这样，实施简单便捷，可以降低用户在制作视频时选取配乐而花费的时间，节省视频制作成本，提升用户体验。

<装置>

与上述方法相对应的，本发明还提供了一种视频生成装置。图5为本发明提供的视频生成装置的一种实施结构的方框原理图。

根据图5所示，该视频生成装置包括参数获取模块5100、配乐选取模块5200和视频生成模块5300。该参数获取模块5100用于获取反映视频拍摄场景的参数，作为视频场景参数；该配乐选取模块5200用于根据视频场景参数选取匹配的配乐，作为当前配乐；该视频生成模块5300用于根据当前配乐生成视频。

在一个例子中，参数获取模块5100还可以用于：从预先存储的视频图像中选取关键视频帧；根据关键视频帧确定视频场景参数。

或者，参数获取模块5100还可以用于：调用摄像头获取当前视频帧，作为关键视频帧；

根据关键视频帧确定视频场景参数。

在一个例子中，视频场景参数可以至少包括色彩参数、和/或情绪指数。

在视频场景参数包括情绪指数的实施例中，根据关键视频帧确定视频场景参数的步骤包括：对关键视频帧中识别到的物体、动作速度、和/或人物面部表情进行分析，得到情绪指数。

在一个例子中，配乐选取模块5200可以包括如图6所示的标签确定单元5211和配乐选取单元5212。该标签确定单元5211用于根据视频场景参数确定视频场景的特性标签；该配乐选取单元5212用于选取与特性标签匹配的配乐，作为当前配乐。

在一个例子中，配乐选取单元5212还可以用于：

根据特性标签得到多个匹配的配乐，作为备选配乐；

选取备选配乐中热门指数最高的一个作为当前配乐。

在一个例子中，配乐选取单元5212还可以用于：

根据特性标签得到多个匹配的配乐，作为备选配乐；

根据用户选取配乐的历史记录确定用户的配乐偏好；

选取与配乐偏好匹配配乐，作为当前配乐。

在一个例子中，配乐选取单元5212还可以用于：

将特性标签发送至服务器，以使服务器根据特性标签确定匹配的配乐；

接收服务器发送的配乐，作为当前配乐。

在一个例子中，配乐选取模块5200还可以包括如图7所示的曲目选取单元5221和曲目截取单元5222。该曲目选取单元5221用于根据视频场景参数选取匹配的音乐曲目；该曲目截取单元5222用于根据预先设置的播放时长、及视频场景参数截取匹配的音乐曲目，得到当前配乐。

在一个例子中，视频生成模块5300还可以用于：根据预先存储的视频图像和当前配乐合成视频。

或者，视频生成模块5300还可以用于：调用摄像头拍摄视频图像；根据拍摄的视频图像和当前配乐合成视频。

本领域技术人员应当明白，可以通过各种方式来实现本实施例的视频生成装置。例如，可以通过指令配置处理器来实现视频生成装置。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现视频生成装置。例如，可以将视频生成装置固化到专用器件(例如ASIC)中。可以将视频生成装置分成相互独立的单元，或者可以将它们合并在一起实现。视频生成装置可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

在本实施例中，视频生成装置可以具体各种实施形式，例如，视频生成装置可以是任意提供应用推荐服务功能的软件产品，比如应用商店等，或者，视频生成装置可以设置于能实现应用推荐服务功能的任意电子设备中，比如设置在客户端中，或者是部分功能单元设置在客户端、部分功能单元设置在服务器等等。

以上已经结合附图描述了本实施例，根据本实施例，提供一种视频生成装置。通过获取视频场景参数，选取与视频场景参数匹配的配乐作为当前配乐，再根据当前配乐来生成视频。这样，实施简单便捷，可以降低用户在制作视频时选取配乐而花费的时间，节省视频制作成本，提升用户体验。

<终端设备>

本发明还提供了一种终端设备，在一方面，该终端设备可以包括前述的视频生成装置。

图8为本发明另一方面提供的终端设备的一种实施结构的方框原理图。

如图8所示，该终端设备800包括处理器810和存储器820。存储器820用于存储指令，该指令用于控制该处理器810执行前述的视频生成方法。

该处理器810例如可以是中央处理器CPU、微处理器MCU等。该存储器820例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。

在本实施例中，终端设备800还可以包括其他的装置或者模块，例如，如图1所示的终端设备1000。

在本实施例中，终端设备800还可以包括其他的装置或者模块，例如，如图1所示的终端设备1000。终端设备800也可以具有多种实体形式，例如，受控设备可以是手机、平板电脑、掌上电脑、台式计算机等。

本领域技术人员应当明白，可以通过各种方式来实现终端设备800。例如，可以通过指令配置处理器来实现终端设备800。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现终端设备800。例如，可以将终端设备800固化到专用器件(例如ASIC)中。可以将终端设备800分成相互独立的单元，或者可以将它们合并在一起实现。终端设备800可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

以上已经结合附图描述了本实施例，根据本实施例，提供一种终端设备。通过获取视频场景参数，选取与视频场景参数匹配的配乐作为当前配乐，再根据当前配乐来生成视频。这样，实施简单便捷，可以降低用户在制作视频时选取配乐而花费的时间，节省视频制作成本，提升用户体验。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种视频生成方法，其特征在于，包括：

获取反映视频拍摄场景的参数，作为视频场景参数；

根据所述视频场景参数选取匹配的配乐，作为当前配乐；

根据所述当前配乐生成视频。

2.根据权利要求1所述的视频生成方法，其特征在于，所述获取视频场景参数包括：

根据所述关键视频帧确定所述视频场景参数。

3.根据权利要求2所述的视频生成方法，其特征在于，所述视频场景参数至少包括色彩参数、和/或情绪指数。

4.根据权利要求3所述的视频生成方法，其特征在于，所述视频场景参数包括情绪指数；所述根据所述关键视频帧确定所述视频场景参数的步骤包括：

5.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述视频场景参数选取匹配的配乐，作为当前配乐的步骤包括：

根据所述视频场景参数确定视频场景的特性标签；

选取与所述特性标签匹配的配乐，作为所述当前配乐。

6.根据权利要求5所述的视频生成方法，其特征在于，所述选取与所述特性标签匹配的配乐，作为所述当前配乐的步骤包括：

根据所述特性标签得到多个匹配的配乐，作为备选配乐；

7.根据权利要求5所述的视频生成方法，其特征在于，所述选取与所述特性标签匹配的配乐，作为所述当前配乐的步骤包括：

根据所述特性标签得到多个匹配的配乐，作为备选配乐；

根据用户选取配乐的历史记录确定用户的配乐偏好；

选取与所述配乐偏好匹配配乐，作为当前配乐。

8.根据权利要求5所述的视频生成方法，其特征在于，所述选取与所述特性标签匹配的配乐，作为所述当前配乐的步骤包括：

接收所述服务器发送的配乐，作为所述当前配乐。

9.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述视频场景参数选取匹配的配乐，作为当前配乐的步骤包括：

根据所述视频场景参数选取匹配的音乐曲目；

10.根据权利要求9所述的视频生成方法，其特征在于，所述根据所述当前配乐生成视频的步骤包括：

根据预先存储的视频图像和所述当前配乐合成所述视频；

或者，

调用摄像头拍摄视频图像；

根据拍摄的视频图像和所述当前配乐合成所述视频。

11.一种视频生成装置，其特征在于，包括：

视频生成模块，用于根据所述当前配乐生成视频。

12.一种终端设备，其特征在于，包括：

根据权利要求11所述的视频生成装置；

或者，

处理器和存储器，所述存储器用于存储指令，所述指令用于控制所述处理器执行根据权利要求1-10中任一项所述的视频生成方法。