CN117337560A

CN117337560A - 视频混音方法

Info

Publication number: CN117337560A
Application number: CN202280035748.8A
Authority: CN
Inventors: I·拉希德; 乔丹·史密斯; 弗雷泽·史密斯; W·霍金斯; E·P·纽顿-雷克斯
Original assignee: Lemon Inc Cayman Island
Current assignee: Lemon Inc Cayman Island
Priority date: 2021-06-03
Filing date: 2022-05-23
Publication date: 2024-01-02
Also published as: EP4099326A1; WO2022255941A3; WO2022255941A2; US20240242736A1

Abstract

本发明涉及用于生成视频混音的方法，该方法包括：接收输入视频(101)；从输入视频中选择至少一个节选(103)，其中所选择的节选的音频信号包括至少一个起始点；确定至少一个节选的多个子序列(104)；以及根据预定模式重新排列多个子序列(105)以形成视频混音。

Description

视频混音方法

本发明属于视频编辑领域。

背景技术

一般而言，(音乐)混音是对较旧的音乐片段的重新排列。视频混音是对先前录制的视频或其部分进行重新排列。因此，视频混音是其中组合多个视频片段以获得视频混音的视频编辑应用。视频混音是在已经存在的作品的基础上，用它来创造新的意义，以创造性的方式表达新的想法。然而，编辑视频可能是困难和乏味的，因此需要开发技术来帮助人们完成这项任务。

视频编辑是对先前录制的视频或部分视频进行处理和排列。视频编辑被用来组织和呈现视频信息，并且近年来通过可用于个人计算机的编辑软件已经突出地平明化。允许用户创建短视频的软件目前很受欢迎，这些短视频通常以音乐为背景，并且可以进行加速、减速或通过滤镜编辑。要制作音乐视频，用户可以从各种音乐流派或录音中选择背景音乐，并录制具有速度调节的短视频。因此，可以手动创建与所选择的音轨匹配的视频剪辑。

将先前记录的视频转换成音乐视频或音乐混音通常需要视频编辑步骤，例如剪切和同步音频(声音)和视频(图像)部分的相对定时，以及将附加的背景音乐合并到视频剪辑。这通常会给没有设计音乐混音经验的用户带来问题，比如那些无法手动按耳朵对齐每个部分的用户，这特别耗时。使用用户生成或专业录制的自动视频混音是可取的，因为它向更广泛的业余观众开放了视频混音，并减少了制作混音视频所需的时间。

鉴于现有技术的局限性，本发明背后的技术问题可以从提供一种从原始视频自动创建视频混音的方法中看出。因此，需要一种更方便的视频混音方法，该方法易于处理，并为用户提供了一种快速编辑视频的方式。

下面描述的实施例不限于解决上述已知方法的任何或所有缺点的实现。

发明内容

提供本发明内容是为了以简化形式介绍一组概念，这些概念将在下面的具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用它来确定所要求保护的主题的范围；促进本发明的工作和/或用于实现基本上类似的技术效果的变体和备选特征应当被认为属于本文公开的本发明的范围。

本发明涉及自动视频混音。具体地，本发明提供了一种视频混音生成方法，其中源视频基于被重新排列成视频混音的源视频的音频信息被自动分割成精确测量的子序列。视频混音中音频信息的重复使得音频声音具有音乐性，即混音具有节奏。结果，所创建的视频混音让许多用户感到悦耳，这鼓励许多用户在自己的几个视频上尝试这种方法。

在第一方面，本公开提供了一种用于生成视频混音的方法，该方法包括以下步骤：接收输入视频；从输入视频中选择至少一个节选，其中所选择的至少一个节选的音频信号包括至少一个起始点；确定至少一个节选的多个子序列；以及根据预定模式重新排列多个子序列以形成视频混音。

首先，将解释用于描述视频数据和编辑概念的术语。

视频(剪辑)是称为帧的图像序列，通常包括音频。输入视频或源视频可以由诸如移动电话、相机或平板电脑的便携式设备的高质量相机来捕获。记录输入视频的设备可以与负责生成视频混音的设备共享记录的源内容。视频混音是对先前录制的视频或其中的一部分进行重新排列。多剪辑视频混音是对至少两个先前录制的视频或同一视频的两个部分的重新排列。

节选是从原始输入视频中选择的用于视频混音的帧序列。通常，节选是从较大的输入视频取出/提取的预定长度的输入视频的片段。子序列是(视频)节选内的帧序列。子序列可以是节选的全部或部分。多个子序列的特定顺序或排列被称为模式。模式可以指定歌曲结构，并且可以对应于特定的歌曲布局。模式通常被分成每个都包括多个子序列的“块”。模式可以在歌曲中提供重复形式。

音频信号中的“起始点”是指音符或其他声音的开始，这两者都可以出现在音频信号中。用于起始点检测的技术及其优点在本领域中是公知的。可以使用不止一种这样的技术，并且可以组合它们的结果。可以使用音频信号处理库来执行一种技术。例如，可以使用包括onset_strength属性的“librosa”python包。另一种技术可以使用常数-Q变换“CQT”，其中数据序列被变换到频域，并且可以使用librosa包来实现这一点。在信号处理中，起始点检测是公知的研究领域。音乐起始点检测可以指对例如音乐信号中的离散事件开始的时刻的检测。

通过基于其起始点选择输入视频的节选，可以自动确定突出的视频剪辑。重新排列包括预定节奏模式中的至少一个起始点的这种节选的多个子序列允许以可预测或周期性的方式在整个视频混音中重复至少一个起始点。这允许视频混音创建的自动化。例如，一个人的脚步可以变成鼓一样的节奏。在声音在时间上的放置的意义上，至少一个起始点的重复赋予了所创建的视频混音的节奏。同时，在视频混音中重复与起始点对应的视频图像部分，使得视频混音突出。

本发明基于这样的发现，即当注意到输入视频的音频信号中的起始点时，可以自动创建视频混音。根据预定模式，向视频混音赋予节奏，这使得更容易实现进一步的自动化视频编辑，例如添加背景音乐。根据本发明的视频到视频混音的转换可以允许用户在没有设计音乐混音的经验的情况下创建突出的视频剪辑。

至少一个节选可以具有预定长度，其中每个子序列可以具有对应于预定长度的除数的长度，并且视频混音可以具有对应于预定长度的倍数的长度。这允许基于每个大小/长度的输入视频创建视频混音，其中与输入视频的大小无关，所得到的视频混音总是具有相同的大小/长度。因此，可以从不同的输入视频创建具有相似模式的视频混音。当涉及到将音乐背景音乐添加到视频混音中时，这一点尤其有用。子序列的长度小于或等于节选的大小，并且最终视频混音通常长于节选的预定长度。因此，视频混音可能包含大量重复的子序列。子序列的长度可以选择为例如节选的1、1/2、1/4、1/8、1/16等。这允许组合大量(不同)子序列，同时仍然匹配预定长度。

该至少一个节选可以以该至少一个起始点开始。换言之，选择节选使得其音轨以至少一个起始点开始，其中与该起始点相关联的响度的增加可能特别高。在这种情况下，即使非常短的子序列，例如仅对应于节选的1/8，仍然包括至少一个起始点。从而确保包含至少一个起始点的视频部分在所得到的视频混音中具有高重复次数。一般而言，节选不应该是安静的，而是被选择为使得其具有高密度的起始点。

该方法可以包括通过将起始点检测函数应用于输入视频来检测至少一个起始点。用于起始点检测的技术及其优点在本领域中是公知的。可以使用不止一种这样的技术，并且可以组合它们的结果。可以使用音频信号处理库来应用起始点检测功能。可以用第三方库librosa来计算起始点，其中该算法涉及从信号的频谱包络检测峰值，然后从峰值回溯到它们之前的局部最小值。基于检测到的起始点，标识节选中包括起始点的时刻/点。起始点可以对应于例如击球手击打棒球或音频信号中的其他事件的时刻。

该方法可以包括在检测到输入视频中多于一个的起始点的情况下应用起始点选择，其中起始点选择基于起始点强度、起始点响度和起始点密度中的至少一个。通常，输入视频包括多个起始点，其中每个起始点具有不同的强度和/或响度。应选择具有预定长度的节选，使得其包含大量检测到的起始点、具有最高强度的起始点或具有最大响度的起始点或所有三个因素的组合。在具有语音的视频中，这些标准已经被发现足以选择具有语音的节选。考虑到特定的输入视频，用户也可以选择这些选项之一。当输入视频中的起始点的数目太高时，可以实现阈值，使得只有具有一定响度的起始点被认为是用于节选选择的起始点。

当确定多个子序列时，节选可以被切成子序列，其中大多数子序列包括至少一个起始点。一旦选择了节选，就确定存在于预定模式中的那些子序列，其中根据其确定的长度将节选自动切成子序列。根据预定模式，以特定顺序组装子序列。

当确定多个子序列时，可以确定与节选的前半部分内的起始点相对应的循环点，其中具有比节选更短的长度的子序列从循环点开始。当节选在与节选开始时不同的时间点或另一个时间点具有强起始点时，在视频混音中重复附加起始点可能是更可取的。因此，选择循环点以使其对应于起始点，例如节选中的第二起始点接近节选开始处的第一起始点。由于循环点是较短子序列开始的时间点，因此它必须在节选的前半部分内。默认情况下，并且在节选仅包括节选开始处的单个起始点的情况下，循环点将被设置为零。在节选中定义循环点的选项允许创建更复杂的视频混音，包括不同起始点的重复。

预定模式可以对应于音乐背景音轨。具体地，它可能是从它建立到高潮的意义上建立的。由于模式确定如何分割和重组节选的子序列，因此用户可以在视频混音创建过程开始时选择预定模式或特定歌曲布局。还可以想到，可以从多个预定模式中随机选择预定模式。

为了创建更复杂的视频混音，可以选择多剪辑选项来创建它们。该方法还可能为输入视频自动选择多剪辑选项，输入视频例如在输入视频的两个不同时间包含不能被组合在一个节选中的多个起始点。当选择多剪辑选项时，从输入视频中选择第二节选，使得第二节选的音频信号包括至少一个起始点。第二节选是根据与第一节选相同的标准选择的。优选地，第一和第二节选不重叠。确定第二节选的多个子序列，并且根据预定的多剪辑模式将第一和第二节选的多个子序列重新排列到视频混音中。预定的多剪辑模式可以包括排列相应节选的子序列的至少两个部分。

视频混音可以包括多个块，每个块包括多个子序列，优选地，在视频混音中重复至少一个块。在一些实施例中，在视频混音中多次重复至少一个块或在整个视频混音中周期性地重复它可能是有利的，从而所得到的音频听起来像是音乐的并且传递歌曲结构。对于多剪辑视频混音，视频混音可以包括至少一个包括来自第一节选的子序列的块和至少一个包括来自第二节选的子序列的其他块。

为了创建音乐视频混音，可能希望将(附加的)音轨合并到视频混音中，其中音轨对应于与预定模式匹配的特定组成的音乐背景音轨和/或基于乐器音轨的音乐背景音轨中的至少一个。添加音乐不仅使视频混音更有趣、更具娱乐性或更吸引人，还可以增加专业的触感。如果视频混音的子序列随着背景音轨的节拍被及时地重新排列，即当音频与视频同步时，这是特别有效的。因此，应选择背景音轨的节拍以匹配存在于预定模式中的最短子序列的长度或长度的除数。用户可以选择特殊的背景音乐来生成视频混音，在这种情况下，该方法将自动选择与所述背景音乐匹配的预定模式，反之亦然。通过向用户提供从不同乐器音轨中选择的多个选项，可以设计适合特定音乐流派的背景音乐。

备选地或附加地，可以从源视频的声音生成背景音轨，并将其添加到视频混音。例如，背景音轨可以包括节选的子序列的音频信号和(多个)无声的组合。

尽管用于生成视频混音的方法可以是全自动的，但是该方法的至少一些参数可以由用户选择或设置。还可以通过允许该方法随机选择一些参数来添加惊喜元素。例如，在选择至少一个节选的步骤中，可以改变起始点强度、起始点响度和起始点密度之间的权重，从而选择不同的节选。

用于生成视频混音的方法可以由计算机实现。

本文描述的方法可以由有形存储介质上的机器可读形式的软件来执行，有形存储介质例如是计算机程序的形式，计算机程序包括计算机程序代码装置，其适于当程序在计算机上运行时执行本文描述的任何方法的所有步骤，并且其中计算机程序可以在计算机可读介质上实现。有形(或非瞬态)存储介质的示例包括盘、拇指驱动器、存储卡等，并且不包括传播信号。该软件可以适合于在并行处理器或串行处理器上执行，使得该方法步骤可以以任何适当的顺序或同时执行。

本申请承认固件和软件可能是有价值的、可单独交易的商品。它的目的是包含软件，这些软件在“哑巴”或标准硬件上运行或控制，以执行预期的功能。它还旨在包括对硬件的配置进行“描述”或定义的软件，诸如用于设计硅芯片或用于配置通用可编程芯片以执行所需功能的诸如HDL(硬件描述语言)软件。

在其他方面，本发明涉及一种数据处理系统，包括被配置为执行用于生成视频混音的方法的处理器、包括指令的计算机程序和/或包括指令的计算机可读介质，当该程序由计算机执行时，该指令使得计算机执行用于生成视频混音的方法，该计算机可读介质包括当由计算机执行时使计算机执行用于生成视频混音的方法的指令。

优选特征可以适当地组合，这对技术人员来说是显而易见的，并且可以与本发明的任何方面组合。

附图说明

将参考以下附图以示例的方式描述本发明的实施例，其中：

图1是示出可在根据本发明的一些实施例的方法中执行的一系列步骤的流程图；

图2示出了从一个节选确定的四个不同子序列的示例；

图3示出了图2中的多个子序列如何根据模式重新排列的示例；

图4示出了a)具有第一循环点的第一节选和b)具有第二循环点的第二节选的四个不同子序列的示例；

图5示出了多剪辑选项中的视频混音；

图6示出了示例性的剪辑包，每个剪辑包包括用于不同乐器的多个短音轨，以用于由用户选择以生成背景音轨；

图7示出了如何基于图6中选择的短音轨组装用于视频混音的背景音轨；以及

图8示出了从来自a)针对块输入视频的和b)完整输入视频的声音生成的背景音轨的示例模式。

在整个附图中使用共同的附图标记来表示相似的特征。

具体实施方式

下面仅以示例的方式描述本发明的实施例。这些示例代表了申请人目前已知的将本发明付诸实践的最佳方式，尽管它们不是实现这一点的唯一方式。本说明书阐述了该示例的功能以及用于构建和操作该示例的步骤序列。然而，相同或等同的功能和序列可以通过不同的示例来实现。

图1是示出用于生成视频混音的方法的流程图。在第一步骤101中，接收输入视频。输入视频可以具有任何大小/长度。输入视频可以由用户使用诸如移动电话、相机、平板电脑等的便携式设备来捕获。在第二步骤102中，对输入视频或其部分进行起始点检测。如上所述，音频起始检测涉及找到一段音频中所有声波事件的时间位置。输入视频的音频信号通常包括多个起始点。在步骤103中，基于至少一个检测到的起始点来选择至少一个节选。选择节选可以包括将输入视频修剪或剪切到预定长度，使得其在节选的开始处或前半部分内的任何其他位置处包括至少一个起始点。在下面的示例中，使用2秒(2s)的节选的预定长度。然而，任何其他预定长度同样适合于生成视频混音。

基于检测到的起始点从输入视频中选择节选可以基于以下因素中的一个或全部：

·起始点强度，例如，由所应用的起始点检测函数确定的与起始点相关的响度增加的大小；

·起始点响度，即起始点时音频信号的响度；以及

·起始点密度，即在候选起始点周围或之后的预定长度的时间窗口中的起始点次数。

如上所述，典型地，音频信号包括多个起始点，然而，上述因素用于确定突出起始点。声音越大，前面的语境越安静，起始点就可能特别“强”。在具有语音的视频中，这些标准已经被发现足以选择包括语音在内的节选。

在一个示例中，输入视频可以包含四个起始点，其中三个起始点在开始时彼此更接近(例如，在时间1.2s、1.3s和1.7s)以及第四稍后(例如在5.4s)。所选择的节选应具有2s的预定长度，对应于输入视频的2s窗口。为了选择节选，起始点选择算法考虑从四个检测到的起始点中的每一个开始的2s窗口，并对每个窗口中起始点的总数进行计数。这导致从1.2s开始的第一窗口包含三个起始点，从1.3s开始的第二窗口包含两个起始点，从1.7s开始的第三窗口包含一个起始点，以及从5.4s开始的第四窗口包含一个起始点。因此，当基于起始点密度选择节选时，将选择第一窗口作为节选。

在步骤104中，基于所选择的节选确定多个子序列。在实践中，该步骤将取决于包括在所需视频混音的预定模式中的预定长度的子序列以及至少一个(多个)起始点的(多个)位置。根据预定模式的音频信号的重复将使音频声音变得音乐化。较短的子序列可以在节选的开始处或在所谓的循环点处的节选内开始。在步骤105中，按照预定模式对子序列进行重新排列，以生成包括音频和视频的视频混音。在步骤106中，可以可选地将音乐添加到视频混音中，这将在下面更详细地描述。在步骤107中，在已经生成视频混音之后，可以以任何适合的方式将其存储或递送给例如用户。

图1的方法可以在任何计算系统中执行。本发明可以使用在适当配置的处理器上运行的一个或多个算法在软件中实现。这些方法的步骤或操作可以在单个计算机上或在跨多个位置的分布式计算系统中执行。该软件可以是基于客户端或基于网络的，例如可通过服务器访问，或者该软件可以是基于客户端和基于网络的软件的组合。

图2示出节选的子序列a)-d)的示例集合。每个子序列包括由播放按钮指示的帧序列和由字幕指示的音频序列。所有四个子序列具有相同的共同开始，但每个子序列具有不同的长度。每个子序列的长度对应于节选长度的除数。换句话说，可以将相同长度的子序列相加，以对应于节选/第一子序列的预定长度。如图2a)所示的第一子序列‘1’的长度对应于节选的全长。在这个示例中，视频节选具有预定长度2s。如图2b)所示的第二子序列‘2’对应于节选的前半部分。如图2c)所示的第三子序列‘3’对应于节选的第一四分之一，如图2d)所示的第四子序列‘4’具有对应于节选的1/8的长度，第五子序列‘5’(未示出)具有对应于节选的1/16的长度，依此类推。子序列由其各自的序号‘n’表示，其中子序列相对于节选的序号和长度之间的关系由(1/2)^(n-1)给出，其中n是整数。换句话说，n+1阶子序列的长度是n阶子序列的一半。

图3示出了两个示例视频混音或其部分，这两个视频混音都基于图2中使用的相同节选。两个视频混音都是4s长，相当于节选长度的两倍。如虚线垂直线所示，两种混音都包括两个或更多个子序列。如图3a)中所描述的视频混音的模式可以用‘1,1’来描述，这意味着两个第一子序列‘1’被播放两次并且一个接一个地无间隙地被播放。如上所述，第一子序列‘1’对应于完整节选。在如图3b)所示的示例中，该模式可以用‘3,3,1,2’来描述。在这种情况下，视频混音由四个子序列组成，这些子序列以‘3’,‘3’,‘1’,‘2’的顺序播放。当播放视频混音时，它将显示节选的第一四分之一部分两次，然后是完整节选和节选的前半部分。用于长度为4s的节奏模式的其他示例(图3中未示出)是‘1,2,3,3’、‘3,3,3,3,3,3,4,4,4,4’或‘4,4,4,4,4,4,4,4,5,5,5,5,5,5,5,5,6,6,6,6,6,6,6,6,3’。

从上面的示例可以看出，存在包括共享相同长度的多个子序列的许多重复模式。具有特定预定义长度的模式，例如‘1,1’、‘3,3,1,2’和‘3,3,3,3,3,3,4,4,4,4’被认为是块。优选地，视频混音由构建歌曲结构/布局的预定数量的块组成，例如四个块。在图3所示的示例中，每个块都具有4s长。长度为16秒的视频混音包括四个这样的块，其中可以形成不同的块序列，例如‘AAAA’、‘AABA’或‘ABAB’，仅举几个示例。由该示例提供了包括形式为‘AABC’的四个块的模式的示例，该四个块在第三块中形成高潮：‘1,2,3,3 1,2,3,34,4,4,4,4,4,4,4,5,5,5,5,5,5,5,5,6,6,6,6,6,6,6,6,3*1,2,2’，其中‘3*’表示与第三子序列‘3’相同长度的无声。

在图2和图3所示的示例中被选为节选的短视频剪辑除了包含视频音轨中的可视信息之外，还包含音频音轨中的语音。标题“Here's how old that guy is”是为了说明什么是听不到/看不到的，即对理解内容很重要的声音/口述内容。其是包括用于检测(语音或响亮的非语音声音)(多个)起始点的语音的音频信号，其中存在至少一个起始点，标记可以检测到语音内容的开始/单个瞬间/最早时间点，例如句子的起始点。

在备选示例中，如图4所示，从输入视频(所谓的多剪辑选项)中选择两个节选用于生成视频混音。可选地，节选‘X’和‘Y’被选择成使它们不重叠。通常，当选择多剪辑选项时，四个块中的至少一个将从第二节选中派生，例如，这些块具有形式‘XXXY’。图4a)示出了如何将节选‘X’切割成一组精确测量的子序列‘1’、‘2’、‘3’和‘4’，其中图4b)示出了节选‘Y’的相同情况。对于节选‘X’，已经选择了0.5的循环点，而对于节选‘Y’，已经选择了0.33的循环点。所选择的循环点分别对应于节选‘X’和‘Y’中的强起始点，如下面详细列出的。

图4的顶行显示了两个节选的第一子序列‘1’，其对应于节选的全长。独立于所选择的循环点，播放完整的节选。第二行示出了两个节选‘X’和‘Y’的第二子序列‘2’，具有与原始节选的一半相对应的相同长度。然而，子序列在节选的不同时间开始。节选‘X’的子序列‘2’(也可以表示为‘X2’)在对应于视频节选的一半的循环点0.5(50％)处开始。如图4a)所示，剩余的子序列‘3’和‘4’也从节选的50％处的相同循环点开始。因此，当选择循环点时，它对于所有子序列都是相同的。对于第二节选‘Y’，子序列‘2’、‘3’和‘4’在对应于循环点0.33的视频的33％处开始。

设置循环点，以对应于节选的强起始点时刻。在缺省情况下，其中所选择的节选例如在开始处仅包括一个起始点，则循环点将被设置为零。然而，如果节选包含几个起始点或在节选中间的起始点特别强，则可以相应地选择循环点。只能在0到0.5之间选择循环点，即在视频的前半部分。在具有语音的视频中，如图4a和图4b所示，循环点对应于单词发音“guy”和“must”的开始。

图5示出了选择了多剪辑选项的视频混音。视频混音包括如图4所示的节选‘X’和‘Y’，其中‘X’具有0.5的循环点，而‘Y’具有0.33的循环点。而‘X’和‘Y’指的是各自的节选，下面的数字‘1’和‘2’对应于如图4所示的子序列的顺序。在视频混音中，节选被安排为形式‘XXYY’，这意味着前两个块(图5中的顶行)使用与后两个块(图5中的底行)不同的节选。如箭头所示，前两个块和后两个块是连续播放的，没有间隙。这四个块的模式结构是相同的，可以用‘AAAA’来描述。这意味着每个节选的子序列在每个块中根据模式‘1,2,2’被重新排列。因此，视频混音的(完整)模式对应于‘1,2,2 1,2,2 1,2,2 1,2,2’。

根据预定义模式重复节选(或其部分)的音频信号使得混音的音频声音具有音乐性。仅参考图5中视频的语音内容，所得到的16s长混音将包括以下内容：“Here's how oldthat guy is–guy is–guy is；Here's how old that guy is–guy is–guy is；Things youmust know about me–must know about me–must know about me；Things you must knowabout me–must know about me–must know about me”。因此，预定模式可以被认为是通过重新排列节选的多个子序列而被赋予混音的歌曲布局。换句话说，音频和视频是根据歌曲布局自动生成的。例如，它可以把一个人的脚步变成鼓状的节奏。该方法的优点之一是，用户只需输入视频并通过一次点击接收视频混音。

此外，可能希望将音乐添加到视频混音中，以使视频混音更具娱乐性或吸引力。但是，附加音频必须自动与视频同步。可以以背景音音轨的形式添加音乐，该背景音音轨是从输入视频的声音产生的，或者是与预定模式匹配的全合成背景音音轨。例如，可以选择与专门设计的预定模式匹配的音乐。

为了构建音乐伴奏，可以从预先谱曲的音乐片段组装背景音轨。在图6的示例中，示出了四个示例性剪辑包a)‘EDM’，b)‘OLD Skool’，c)‘Hip Hop’和d)‘Retro Groove’，用户从其中手动选择d)‘Retro Groove’。每个剪辑包包括四种不同乐器的40个短音轨，例如每个乐器10个短音轨，例如鼓、贝斯、和弦或其他。在图6中的示例中，选择了来自不同乐器的四个短音轨。短音轨是例如已经被编辑为无缝循环的乐器记录，即平滑和连续地循环。

如图7所示，首先将长度为4s的四个短音轨相加，然后根据需要重复任意次数，直到它们与输出视频混音的长度匹配，例如16s。然后，背景音轨可以与视频混音合并并且自动与视频混音同步。备选地，用户可以选择完全预先合成的音频剪辑。然后将音频剪辑与视频混音合并在一起，以获得具有与视频混音的长度相同的长度的音乐视频混音。

备选地或附加地，可以基于相同的或新的视频节选(使用与如上所述的用于从输入视频中选择节选的相同标准)来生成背景音音轨。图8a示出了长度为4s并且模式为‘4,4,_,_,4,_,_,_,4,4,_,_,4,_,_,4’的背景音轨的示例，其中‘4’表示第四子序列(即节选的前1/8)，而‘_’表示无声。在根据该模式生成音频之后，将其重复四次以生成图8b)中所示的16s背景音轨。然后可以将该背景音轨添加到视频混音中。

在上述实施例中，服务器可以包括单个服务器或服务器网络。在一些示例中，服务器的功能可以由分布在地理区域上的服务器网络来提供，例如全球分布的服务器网络，并且用户可以基于用户位置连接到服务器网络中的适当一个。

为了清楚起见，以上描述参考单个用户讨论了本发明的实施例。应当理解，在实践中，该系统可以由多个用户共享，并且可能由非常多的用户同时共享。

上述实施例是全自动的。在一些示例中，系统的用户或操作员可以手动指示要执行的方法的一些步骤。在一些示例中，该方法可以被设计为使得每次用户输入相同的视频时，创建不同的输出视频混音。

在本发明的所述实施例中，该系统可以实现为任何形式的计算和/或电子设备。这样的设备可以包括一个或多个处理器，其可以是微处理器、控制器或任何其他适合类型的处理器，用于处理计算机可执行指令以控制设备的操作，以便收集和记录路由信息。在一些示例中，例如在使用片上系统架构的情况下，处理器可以包括以硬件(而不是软件或固件)实现方法的一部分的一个或多个固定功能块(也称为加速器)。可以在基于计算的设备处提供包括操作系统或任何其他适合的平台软件的平台软件，以使应用软件能够在该设备上执行。

本文描述的各种功能可以以硬件、软件或其任意组合来实现。如果以软件实现，则这些功能可以作为计算机可读介质上的一个或多个指令或代码来存储或传输。计算机可读介质可以包括例如计算机可读存储介质。计算机可读存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术实现的易失性或非易失性、可移除或不可移除介质。计算机可读存储介质可以是可由计算机访问的任何可用存储介质。作为示例而非限制，这种计算机可读存储介质可以包括RAM、ROM、EEPROM、闪存或其他存储设备、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或可用于以指令或数据结构的形式携带或存储期望的程序代码并可由计算机访问的任何其他介质。本文使用的磁盘和盘包括致密盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光盘(BD)。此外，传播的信号不包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质，该通信介质包括便于将计算机程序从一个地方转移到另一个地方的任何介质。例如，连接可以是通信介质。例如，如果使用同轴电缆、光纤电缆、双绞线、DSL或红外、无线电和微波等无线技术从网站、服务器或其他远程来源传输软件，则通信介质的定义中包括这些技术。上述各项的组合也应包括在计算机可读介质的范围内。

备选地或另外地，本文描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如，但不限于，可以使用的硬件逻辑组件可以包括现场可编程门阵列(FPGA)、程序专用集成电路(ASIC)、程序专用标准产品(ASSP)、片上系统(SOC)。复杂可编程逻辑器件(CPLD)等。

尽管被示为单个系统，但是可以理解，计算设备可以是分布式系统。因此，例如，几个设备可以通过网络连接进行通信，并且可以共同执行被描述为由计算设备执行的任务。

尽管被示为本地设备，但是可以理解，计算设备可以位于远程并且经由网络或其他通信链路(例如使用通信接口)来访问。

本文使用的术语‘计算机’指的是具有处理能力的任何设备，使得它可以执行指令。本领域技术人员将认识到，这样的处理能力被合并到许多不同的设备中，因此术语‘计算机’包括PC、服务器、移动电话、个人数字助理和许多其他设备。

本领域技术人员将认识到，用于存储程序指令的存储设备可以分布在网络上。例如，远程计算机可以存储被描述为软件的过程的示例。本地或终端计算机可以访问远程计算机并下载部分或全部软件以运行该程序。备选地，本地计算机可以根据需要下载软件片段，或者在本地终端执行一些软件指令，并在远程计算机(或计算机网络)执行一些软件指令。本领域技术人员还将意识到，通过利用本领域技术人员已知的常规技术，所有或部分软件指令可以由诸如DSP、可编程逻辑阵列等的专用电路来执行。

应当理解，上述益处和优点可涉及一个实施例或可涉及多个实施例。实施例不限于解决任何或所有所述问题或具有任何或所有所述益处和优点的那些实施例。变体应被视为包括在本发明的范围内。

任何提及‘一个’物品都是指这些物品中的一个或多个。本文使用的术语‘包括’是指包括所标识的方法步骤或元素，但是这些步骤或元素不包括排他性列表，并且方法或装置可以包含附加的步骤或元素。

如本文使用的，术语“组件”和“系统”旨在包括计算机可读数据存储，该计算机可读数据存储被配置有计算机可执行指令，计算机可执行指令当由处理器执行时，使得某些功能被执行。计算机可执行指令可以包括例程、函数等。还应当理解，组件或系统可以位于单个设备上或分布在多个设备上。

此外，如本文所使用的，术语“示例性的”意指“作为某物的说明或示例”。

此外，就在详细说明书或权利要求书中使用术语“包含”的程度而言，该术语旨在以类似于术语“包括”的方式而是包含性的，因为当在权利要求中用作过渡词时，“包括”被解释为过渡词。

附图示出了示例性方法。虽然这些方法被示出并描述为以特定序列执行的一系列动作，但是应当理解和理解的是，这些方法不受序列顺序的限制。例如，一些动作可以以与本文描述的不同的顺序发生。此外，一个行为可以与另一个行为同时发生。此外，在一些情况下，可能不需要所有动作来实现本文描述的方法。

此外，本文描述的动作可以包括可以由一个或多个处理器实现和/或存储在一个或多个计算机可读介质上的计算机可执行指令。计算机可执行指令可以包括例程、子例程、程序、执行线程等。更进一步地，方法的动作结果可以存储在计算机可读介质中、显示在显示设备上等。

本文描述的方法的步骤的顺序是示例性的，但是这些步骤可以以任何适当的顺序执行，或者在适当的情况下同时执行。此外，在不脱离本文描述的主题的范围的情况下，可以在任何方法中添加或替换步骤，或者可以从任何方法中删除各个步骤。上述任何示例的各方面可以与所描述的任何其他示例的各方面相结合，以在不损失所寻求的效果的情况下形成进一步的示例。

应当理解，以上对优选实施例的描述仅以示例的方式给出，并且本领域的技术人员可以进行各种修改。以上描述的内容包括一个或多个实施例的示例。当然，为了描述上述方面，不可能描述上述设备或方法的每一种可能的修改和改变，但是本领域的普通技术人员可以认识到，各种方面的许多进一步的修改和排列是可能的。因此，所描述的方面旨在包含落入所附权利要求的范围内的所有这样的更改、修改和变化。

Claims

1.一种用于生成视频混音的方法，所述方法包括：

接收输入视频(101)；

从所述输入视频中选择至少一个节选(103)，其中所选择的所述节选的音频信号包括至少一个起始点；

确定所述至少一个节选的多个子序列(104)；以及

根据预定模式重新排列所述多个子序列(105)以形成所述视频混音。

2.根据权利要求1所述的方法，其中所述至少一个节选具有预定长度，其中每个子序列具有与所述预定长度的除数相对应的长度，并且其中所述视频混音具有与所述预定长度的倍数相对应的长度。

3.根据权利要求1或2所述的方法，其中所述至少一个节选在所述至少一个起始点处开始。

4.根据前述权利要求中的任一项所述的方法，其中所述方法还包括：

通过将起始点检测函数应用于所述输入视频来检测所述至少一个起始点(102)。

5.根据权利要求4所述的方法，其中所述方法还包括：

在所述输入视频中的多于一个起始点被检测到的情况下应用起始点选择，其中所述起始点选择基于起始点强度、起始点响度和起始点密度中的至少一项。

6.根据前述权利要求中的任一项所述的方法，其中确定所述多个子序列包括将所述节选切分为子序列，其中所述子序列的大多数子序列包括所述至少一个起始点。

7.根据前述权利要求中的任一项所述的方法，其中确定所述多个子序列包括确定与所述节选的前半部分内的起始点相对应的循环点，其中具有比所述节选更短的长度的子序列在所述循环点处开始。

8.根据前述权利要求中的任一项所述的方法，其中所述预定模式对应于音乐背景音轨。

9.根据前述权利要求中的任一项所述的方法，其中所述方法还包括：

从所述输入视频中选择第二节选，使得所述第二节选的音频信号包括至少一个起始点；

确定所述第二节选的多个子序列；以及

根据预定多剪辑模式将所述第一节选和所述第二节选的所述多个子序列排列到所述视频混音中。

10.根据前述权利要求中的任一项所述的方法，其中所述视频混音包括多个块，每个块包括多个子序列，优选地，其中至少一个块在所述视频混音中被重复。

11.根据前述权利要求中的任一项所述的方法，其中所述视频混音包括包括来自所述第一节选的子序列的至少一个块和包括来自所述第二节选的子序列的至少一个其他块。

12.根据前述权利要求中的任一项所述的方法，还包括：

将音轨合并到所述视频混音中，其中所述音轨对应于匹配所述预定模式的特定组成的音乐背景音轨和/或基于乐器音轨的音乐背景音轨中的至少一项。

13.根据前述权利要求中的任一项所述的方法，还包括：

根据来自所述输入视频的声音生成并且添加背景音轨。

14.一种数据处理系统，包括被配置为执行权利要求1-13中任一项的方法的处理器。

15.一种计算机可读介质，包括指令，所述指令当由计算机执行时，使所述计算机执行权利要求1-13中的任一项的方法。