CN117836854A

CN117836854A - 基于视频剪辑生成视听内容

Info

Publication number: CN117836854A
Application number: CN202180101075.7A
Authority: CN
Inventors: 尼古拉斯·詹姆斯·克拉克; 格伦·墨菲; 杰森·布里格斯·康威尔; 克诺尔·帕特里克·奥沙利文; 菲利普·洛伊德·伯克; 朴垠映; 菲利普·弗朗西斯·罗威; 唐纳德·彼得·特纳尔; 卡尔·大卫·莫勒斯泰德特; 芬恩·阿珂·阿克塞尔·埃里森; 斯万特·斯坦·约翰·斯特德勒; 约翰·菲利普·克莱森; 奥乐·弗雷德里克·约瑟夫森
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2024-04-05
Also published as: WO2023009104A1

Abstract

一种方法包括：由计算设备的内容生成组件捕获包括视频和与视频相关联的音频的初始内容；基于音频中的一个或多个瞬态点来识别与视频相关联的音频中的一个或多个音频剪辑；针对每个音频剪辑，从初始内容的视频中提取对应的视频剪辑；提供控制界面以启用用户生成的音频剪辑序列，其中，音频剪辑序列中的每个音频剪辑是从一个或多个识别的音频剪辑中选择的；生成包括视频剪辑序列的新视听内容以对应于用户生成的音频剪辑序列，其中，视频剪辑序列中的每个视频剪辑是用户生成的音频剪辑序列中的每个音频剪辑的所提取的对应视频剪辑；以及由控制界面提供新视听内容。

Description

基于视频剪辑生成视听内容

背景技术

许多现代计算设备，诸如移动电话、个人计算机和平板计算机，包括图像捕获设备，诸如静态和/或视频相机。图像捕获设备能够捕获图像，诸如包括人、动物、风景和/或对象的图像。本公开总体上涉及从捕获的视频来生成视听内容。

发明内容

本主题技术的各方面涉及从捕获的视频创建视听内容。音频内容的相关部分能够与视频的对应部分一起从视频中提取。然后，用户能够对音频内容的这样的部分进行排序以创建新的视听内容。

因此，在第一示例实施例中，提供了一种设备，该设备包括被配置为启用视听内容的生成的图形用户界面。设备还包括一个或多个处理器。设备还包括数据存储。数据存储上存储有计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时使计算设备执行功能。功能包括由计算设备的内容生成组件，捕获包括视频和与视频相关联的音频的初始内容。功能还包括基于音频中的一个或多个瞬态点来识别与视频相关联的音频中的一个或多个音频剪辑。功能还包括针对一个或多个识别的音频剪辑中的每个音频剪辑，从初始内容的视频中提取对应的视频剪辑。功能附加地包括经由图形用户界面，提供控制界面以启用用户生成的音频剪辑序列，其中，音频剪辑序列中的每个音频剪辑是从一个或多个识别的音频剪辑中选择的。功能还包括生成包括视频剪辑序列的新视听内容以对应于用户生成的音频剪辑序列，其中，视频剪辑序列中的每个视频剪辑是用户生成的音频剪辑序列中的每个音频剪辑的所提取的对应视频剪辑。功能还包括通过控制界面，提供新视听内容。

在第二示例实施例中，提供了一种计算机实现的方法，其包括由计算设备的内容生成组件，捕获包括视频和与视频相关联的音频的初始内容。计算机实现的方法还包括基于音频中的一个或多个瞬态点来识别与视频相关联的音频中的一个或多个音频剪辑。计算机实现的方法还包括针对一个或多个识别的音频剪辑中的每个音频剪辑，从初始内容的视频中提取对应的视频剪辑。计算机实现的方法附加地包括经由计算设备的图形用户界面，提供控制界面以启用用户生成的音频剪辑序列，其中，音频剪辑序列中的每个音频剪辑是从一个或多个识别的音频剪辑中选择的。计算机实现的方法还包括生成包括视频剪辑序列的新视听内容以对应于用户生成的音频剪辑序列，其中，视频剪辑序列中的每个视频剪辑是用户生成的音频剪辑序列中的每个音频剪辑的所提取的对应视频剪辑。计算机实现的方法还包括通过控制界面，提供新视听内容。

在第三示例实施例中，提供了一种包括非暂时性计算机可读介质的制品，所述非暂时性计算机可读介质上存储有程序指令，所述程序指令在由计算设备的一个或多个处理器执行时使计算设备执行操作。操作包括由计算设备的内容生成组件，捕获包括视频和与视频相关联的音频的初始内容。操作还包括基于音频中的一个或多个瞬态点来识别与视频相关联的音频中的一个或多个音频剪辑。操作还包括针对一个或多个识别的音频剪辑中的每个音频剪辑，从初始内容的视频中提取对应的视频剪辑。操作附加地包括经由计算设备的图形用户界面，提供控制界面以启用用户生成的音频剪辑序列，其中，音频剪辑序列中的每个音频剪辑是从一个或多个识别的音频剪辑中选择的。操作还包括生成包括视频剪辑序列的新视听内容以对应于用户生成的音频剪辑序列，其中，视频剪辑序列中的每个视频剪辑是用户生成的音频剪辑序列中的每个音频剪辑的所提取的对应视频剪辑。操作还包括通过控制界面，提供新视听内容。在第四示例实施例中，提供了一种系统，所述系统包括用于由计算设备的内容生成组件，捕获包括视频和与视频相关联的音频的初始内容的装置；用于基于音频中的一个或多个瞬态点来识别与视频相关联的音频中的一个或多个音频剪辑的装置；用于针对一个或多个识别的音频剪辑中的每个音频剪辑，从初始内容的视频中提取对应的视频剪辑的装置；用于经由计算设备的图形用户界面，提供控制界面以启用用户生成的音频剪辑序列的装置，其中，音频剪辑序列中的每个音频剪辑是从一个或多个识别的音频剪辑中选择的；用于生成包括视频剪辑序列的新视听内容以对应于用户生成的音频剪辑序列的装置，其中，视频剪辑序列中的每个视频剪辑是用户生成的音频剪辑序列中的每个音频剪辑的所提取的对应视频剪辑；以及用于通过控制界面，提供新视听内容的装置。

应当理解，根据以下详细描述，本主题技术的其他配置对于本领域的技术人员而言将变得显而易见，其中通过图示的方式示出和描述了主题技术的各种配置。如将认识到的，本主题技术能够具有其他和不同的配置，并且其若干细节能够在各种其他方面进行修改，而不脱离本主题技术的范围。因此，附图和详细描述本质上被认为是说明性的而非限制性的。

附图说明

被包括以提供进一步理解并且并入本说明书中和构成本说明书的一部分的附图图示了所公开的各方面，并且与说明书一起用于解释所公开的方面的原理。

图1图示了根据示例实施例的计算设备。

图2是根据示例实施例的提取音频和视频剪辑的示意图。

图3是图示根据示例实施例的音频剪辑和对应视频剪辑的示例查找表。

图4图示了根据示例实施例的音频剪辑和对应的视听内容的示例序列。

图5图示了根据示例实施例的示例控制界面。

图6图示了根据示例实施例的另一示例控制界面。

图7图示了根据示例实施例的另一示例控制界面。

图8图示了根据示例实施例的另一示例控制界面。

图9图示了根据示例实施例的用于创建视听内容的示例网络环境。

图10是图示根据示例实施例的机器学习模型的训练阶段和推断阶段的图。

图11图示了根据示例实施例的流程图。

具体实施方式

本文描述了示例方法、设备和系统。应当理解，词语“示例”和“示例性”在本文中用于意指“用作示例、实例或图示”。本文中描述为“示例”或“示例性”的任何实施例或特征不一定被解释为优选的或优于其他实施例或特点。在不脱离本文呈现的主题的范围的情况下，能够利用其他实施例，并且能够进行其他改变。

因此，本文描述的示例实施例不意味着是限制性的。如本文中总体描述的并且在附图中示出的本公开的各方面能够以各种各样的不同配置来布置、替换、组合、分离和设计，所有这些都在本文中被考虑。

此外，除非上下文另有说明，否则每个附图中所说明的特征可以彼此组合使用。因此，附图通常应当被视为一个或多个整体实施例的组件方面，应当理解，并非所有示出的特征对于每个实施例都是必需的。

I.概述

视频和/或声音编辑可以是复杂的过程，其通常需要专门的设备、工作室环境和有经验的编辑器来剪切、编辑和/或合成视听内容以生成音轨、视频内容等。计算设备(例如，针对移动设备的那些计算设备)的操作系统具有简单的内置音频处理效果并且提供有限的选项以创建和/或编辑视听内容。可以向一些操作系统提供可以用于创建新音频内容的音频处理架构。一些移动应用可以提供合并不同音轨、和/或为现有音轨创建新节拍(beat)的能力。

根据一个或多个实施方式，本文公开了用于创建视听内容的方法和系统。根据本主题技术的各个方面，提供了用户友好的图形用户界面，其使得用户能够从现有视频内容创建视听内容。例如，能够从视频提取包括语音、乐器声音和/或其他声音的音频剪辑。在本主题技术的一些方面，能够将敲击声音设置为不同的节奏(rhythm)，能够跨音符的集合对旋律声音进行音高调节(re-pitched)等，以生成音频剪辑。然后，用户可以合成这些音频剪辑以创建新的音频内容。然后能够与对应于所提取的音频剪辑的视频剪辑的部分一起播放音频内容。

II.示例设备

图1图示了根据示例实施例的计算设备100。计算设备100能够是计算机、电话、个人数字助理(PDA)或任何其他类型的电子设备。这样的电子系统包括各种类型的计算机可读介质和用于各种其他类型的计算机可读介质的界面。计算设备100包括总线102、内容捕获组件110、内容提取组件120、内容生成组件130、一个或多个音频组件140、网络接口150、图形用户界面160、控制界面162和控制器170，包括处理器172和存储器174。在一些示例中，计算设备100可以采取台式设备、服务器设备或移动设备的形式。计算设备100可以被配置为与环境交互。例如，计算设备100可以记录来自计算设备100周围的环境的音频信号。

总线102共同地表示通信地连接计算设备100的众多内部设备的所有系统、外围设备和芯片组总线。例如，总线102将处理器172与存储器174通信地连接。总线102还连接到输入和输出设备接口(未示出)。输入设备接口使得用户能够向计算设备100传送信息和选择命令。与输入设备接口一起使用的输入设备包括例如字母数字键盘、定点设备(也称为“光标控制设备”)和声音捕获设备(例如，麦克风)。输出设备接口例如启用声音的回放、由计算设备100生成的图像的显示等。与输出设备接口一起使用的输出设备包括例如打印机、显示设备(例如，阴极射线管(CRT)或液晶显示器(LCD))、以及声音回放设备(例如，扬声器)。一些实施方式包括设备，例如充当输入和输出设备这两者的触摸屏。总线102还通过网络接口150将计算设备100耦合到网络(未示出)。以这种方式，计算机能够是计算机的网络的一部分(例如，LAN、WAN或内联网，或网络的网络，例如因特网)。计算设备100的任何或所有组件能够与本主题公开结合使用。

在一些实施例中，计算设备100能够包括内容捕获组件120，诸如静态和/或视频相机。内容捕获组件120能够捕获图像，诸如包括人、动物、风景和/或对象的图像。内容能够包括静止图像、音频、视频和/或视听内容。例如，内容捕获组件120能够捕获包括视频和与视频相关联的音频的初始内容。

在一些实施例中，计算设备100能够包括内容提取组件120。例如，内容提取组件120能够基于音频中的一个或多个瞬态点来识别与视频相关联的音频中的一个或多个音频剪辑。此外，例如，内容提取组件120能够针对一个或多个识别的音频剪辑中的每个音频剪辑，从初始内容的视频中提取对应的视频剪辑。如本文所使用的术语“剪辑(clip)”通常是指音频或视频的一部分。能够基于时间标记、和/或与视听内容相关联的元数据来识别剪辑。

在一些实施例中，计算设备100能够包括内容生成组件130。例如，内容生成组件130能够生成包括视频剪辑序列的新视听内容以对应于用户生成的音频剪辑序列。视频剪辑序列中的每个视频剪辑是用户生成的音频剪辑序列中的每个音频剪辑的所提取的对应视频剪辑。

在一些实施例中，计算设备100能够包括一个或多个音频组件140。一个或多个音频组件140能够包括能够被配置为向计算设备100的环境输出音频的音频输出组件。在一些实施例中，音频输出组件可以是计算设备100的一部分。例如，音频输出组件可以包括位于计算设备100上的多个扬声器。在一些实施例中，音频输出组件可以是通信地耦合到计算设备100的第二设备的一部分。例如，音频输出组件可以是被配置为输出音频的网络设备、一个或多个扬声器、音频放大器系统、耳机、汽车音频等。

在一些实施例中，一个或多个音频组件140能够包括音频输入组件。音频输入组件能够被配置为记录来自计算设备100的环境的音频。例如，当计算设备100的相机捕获视频图像时，音频输入组件能够被配置为同时记录与视频图像相关联的音频。在一些实施例中，音频输入组件可以是计算设备100的一部分。例如，音频输入组件可以包括位于计算设备100上的多个麦克风。在一些实施例中，音频输入组件可以是通信地耦合到计算设备100的第二设备的一部分。例如，音频输入组件可以是被配置为记录音频的网络设备，诸如麦克风(例如，在耳机、汽车音频中)等。例如，音频输入组件可以是被配置为捕获音频并且将音频信号传送到计算设备100的智能设备(例如，智能手表、移动设备)。

网络接口150能够包括可配置为经由网络进行通信的一个或多个无线接口和/或有线接口。无线接口能够包括一个或多个无线发射器、接收器和/或收发器，诸如蓝牙^TM收发器、收发器、Wi-Fi^TM收发器、WiMAX^TM收发器、和/或可配置为经由无线网络进行通信的其他类似类型的无线收发器。有线接口能够包括一个或多个有线发射器、接收器和/或收发器，诸如以太网收发器、通用串行总线(USB)收发器、或可配置为经由双绞线、同轴电缆、光纤链路或与有线网络类似的物理连接进行通信的类似收发器。

在一些实施例中，网络接口150能够被配置为提供可靠的、安全的和/或认证的通信。对于本文描述的每个通信，能够提供用于促进可靠通信(例如，安全音频内容递送)的信息，可能作为安全数据分组传输(例如，分组/消息排序信息、封装报头和/或页脚、大小/时间信息、以及诸如循环冗余校验(CRC)和/或奇偶校验值的传输验证信息)的一部分。能够使用一个或多个密码协议和/或算法(诸如但不限于数据加密标准(DES)、高级加密标准(AES)、Rivest-Shamir-Adelman(RSA)算法、Diffie-Hellman算法、诸如安全套接字层(SSL)或传输层安全(TLS)的安全套接字协议、和/或数字签名算法(DSA))来使通信安全(例如，被编码或加密)和/或被解密/解码。也能够使用其他密码协议和/或算法，或者除了本文中列出的那些之外，还可以使用其他密码协议和/或算法来保护(然后解密/解码)通信。

图形用户界面160可以被配置为通过一个或多个屏幕(包括触摸屏)、阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)、使用数字光处理(DLP)技术的显示器、和/或其他类似技术向用户提供输出信号。图形用户界面160还可以被配置为生成可听输出，诸如利用扬声器、扬声器插孔、音频输出端口、音频输出设备、耳机、和/或其他类似的设备。图形用户界面160还可以被配置有能够生成触觉输出的一个或多个触觉组件，诸如通过与计算设备100的触摸和/或物理接触可检测的振动和/或其他输出。

图形用户界面160可以包括控制界面162。控制界面162能够使得用户能够生成音频剪辑序列，其中，音频剪辑序列中的每个音频剪辑是从识别的音频剪辑的集合中选择的。控制界面162能够提供新视听内容。控制界面162能够包括对应于多个音频通道的多个可选择的选项卡(tab)。用户对多个可选择的选项卡中的选项卡的选择使得用户能够访问一个或多个通道界面以与对应于用户所选择的选项卡的音频通道中的音频剪辑或视频剪辑中的一个或多个进行交互。在一些实施例中，多个音频通道能够包括与旋律音符、敲击声音、音乐作品、乐器声音、静音或人声乐句中的一个或多个相对应的音频剪辑。在一些实施例中，多个音频通道中的每个音频通道能够与不同于初始内容的给定视听内容相关联。

在一些实施例中，控制界面162的一个或多个通道界面能够包括具有与一个或多个识别的音频剪辑相对应的一个或多个图标的界面。用户生成的音频剪辑序列能够基于选择一个或多个图标中的至少一个图标以生成序列的用户指示。

在一些实施例中，控制界面162的一个或多个通道界面能够包括显示多个用户生成的序列的界面，多个用户生成的序列中的每个序列对应于多个音频通道，并且还包括使得用户能够链接一个或多个序列以生成新序列的可选择的选项。

在一些实施例中，控制界面162的一个或多个通道界面能够包括显示多个用户生成的序列的界面，多个用户生成的序列中的每个序列对应于多个音频通道，并且还包括使得用户能够混合一个或多个序列以生成新音频轨道的可选择的选项。

在一些实施例中，控制界面162的一个或多个通道界面能够包括显示一对坐标轴的界面。横轴对应于针对用户生成的序列的多个音高调整，并且纵轴对应于针对用户生成的序列的多个同时可调整的音频滤波器调整。

在一些实施例中，控制界面162的一个或多个通道界面能够包括显示多个音频通道的多个相应音量控件的界面。多个相应音量控件能够使得用户能够同时控制多个音频通道中的每个音频通道的音量设置。

在一些实施例中，控制界面162的一个或多个通道界面能够包括针对音频剪辑序列中的音频剪辑，显示用于调整节拍速度(tempo)的第一工具、用于调整摇摆(swing)的第二工具、以及用于调整根音乐音符的第三工具的界面。

在一些实施例中，控制界面162的一个或多个通道界面能够包括显示多个视频编辑图标的界面，并且其中，对多个视频编辑图标中的视频编辑图标的用户选择使得能够将视频编辑特征应用于视频剪辑序列的视频剪辑。

控制器170可以包括一个或多个处理器172和存储器174。处理器172能够包括一个或多个通用处理器和/或一个或多个专用处理器(例如，显示驱动器集成电路(DDIC)、数字信号处理器(DSP)、张量处理单元(TPU)、图形处理单元(GPU)、专用集成电路(ASIC)等)。在不同的实施方式中，处理器172能够是单个处理器或多核处理器。处理器172可以被配置为执行包含在存储器174中的计算机可读指令和/或如本文所述的其他指令。

存储器174可以包括能够由处理器172读取和/或访问的一个或多个非暂时性计算机可读存储介质。一个或多个非暂时性计算机可读存储介质能够包括易失性和/或非易失性存储组件，诸如光学、磁性、有机或其他存储器或磁盘存储，其能够全部或部分地与处理器172中的至少一个集成。在一些示例中，存储器174可以使用单个物理设备(例如，一个光学、磁性、有机或其他存储器或磁盘存储单元)来实现，而在其他示例中，存储器174能够使用两个或更多个物理设备来实现。ROM存储由处理器172和计算设备100的其他模块所需的静态数据和指令。一些实施方式使用作为读写存储器设备的永久存储设备。例如，一些实施方式可以使用可移动存储设备(例如，软盘、闪存驱动器)作为永久存储设备。像永久存储设备一样，可以使用作为读写存储器设备的系统存储器。然而，系统存储器是易失性读写存储器，诸如随机存取存储器。系统存储器可以存储处理器172在运行时需要的指令和数据中的一些指令和数据。在一些实施方式中，本公开的过程被存储在系统存储器、永久存储设备或ROM中。例如，包括存储器174的各种存储器单元包括用于显示与相应应用程序相关联的图形元素和识别符、接收预定用户输入以显示与相应应用程序相关联的快捷方式的视觉表示、以及显示快捷方式的视觉表示的指令。从这些各种存储器单元，处理器172检索要执行的指令和要处理的数据，以便执行一些实施方式的过程。

在示例实施例中，处理器172被配置为执行存储在存储器174中的指令以便执行操作。

操作可以包括由计算设备的内容生成组件，捕获包括视频和与视频相关联的音频的初始内容。

操作可以包括基于音频中的一个或多个瞬态点来识别与视频相关联的音频中的一个或多个音频剪辑。例如，在一些实施例中，在初始内容中识别一个或多个音频剪辑能够包括在初始内容的音轨中，识别旋律音符、敲击声音、音乐作品、乐器声音、音频强度的改变、静音或人声乐句中的一个或多个。例如，可以基于指示这样的音频的瞬态点来识别与旋律音符、敲击声音、音乐作品、乐器声音、静音或人声乐句相对应的音频。初始内容中的瞬态点能够包括瞬态位置、暂停或剪切(cut)中的一个或多个。在一些实施例中，能够通过经过训练的机器学习模型来执行对初始内容中的一个或多个音频剪辑的识别。例如，能够训练机器学习模型以识别瞬态点，并且能够部署经过训练的机器学习模型以识别相关音频剪辑。在一些实施例中，经过训练的机器学习模型能够识别一个或多个音频剪辑中的音频剪辑的分类。例如，经过训练的机器学习模型能够识别音频剪辑对应于旋律音符、敲击声音、音乐作品、人声乐句等。然后，基于分类，可以为音频剪辑生成视觉标签。例如，如果音频剪辑对应于由手的轻敲产生的敲击声音，则视觉标签可以是手的示意性表示。此外，例如，如果音频剪辑对应于由小提琴产生的旋律音符，则视觉标签可以是小提琴的示意性表示。可以生成附加的和/或替代的视觉标签。在一些实施例中，能够经由控制界面在对应于音频剪辑的可选择的图标上显示视觉标签。例如，图5的第一键540可以对应于与由手的轻敲产生的敲击声音相对应的第一音频剪辑，并且第一键540上的视觉标记是手的示意性表示。

操作还可以包括针对一个或多个识别的音频剪辑中的每个音频剪辑，从初始内容的视频中提取对应的视频剪辑。

操作还可以包括经由图形用户界面160，提供控制界面162以启用用户生成的音频剪辑序列，其中，从一个或多个识别的音频剪辑中选择音频剪辑序列中的每个音频剪辑。

在一些实施例中，一个或多个识别的音频剪辑能够包括包含初始节奏的多个敲击声音，并且提供控制界面162的操作能够包括生成多个敲击声音的多个修改版本，其中，多个修改版本与不同于初始节奏的修改节奏相关联。操作还能够包括经由控制界面162，提供多个敲击声音的多个修改版本，其中，用户生成的音频剪辑序列基于多个敲击声音的多个修改版本。

在一些实施例中，一个或多个识别的音频剪辑中的音频剪辑能够包括音乐音符，并且提供控制界面162的操作能够包括生成音乐音符的多个音高调节后版本。控制界面162的一个或多个通道界面能够包括具有与音乐音符的多个音高调节后版本相对应的一个或多个图标的界面，并且用户生成的音频剪辑序列能够基于选择一个或多个图标中的至少一个图标以生成序列的用户指示。

操作还可以包括生成包括视频剪辑序列的新视听内容以对应于用户生成的音频剪辑序列，其中，视频剪辑序列中的每个视频剪辑是用户生成的音频剪辑序列中的每个音频剪辑的所提取的对应视频剪辑。

操作还可以包括基于第二初始内容中的一个或多个第二瞬态点来识别第二初始内容中的一个或多个第二音频剪辑。操作还可以包括经由控制界面，启用第二用户生成的第二音频剪辑序列，其中，第二音频剪辑序列中的每个第二音频剪辑是从一个或多个识别的第二音频剪辑中选择的。新视听内容的生成包括生成第二视频剪辑序列以对应于用户生成的音频剪辑序列和用户生成的第二音频剪辑序列。

操作还可以包括由控制界面162，提供新视听内容。在一些实施例中，新视听内容的提供能够包括提供用户可选择的虚拟选项卡以启用将新视听内容自动上传到社交网络站点。

III.音频和视频剪辑的提取

图2是根据示例实施例的提取音频和视频剪辑的示意图200。计算设备(例如，计算设备100)的媒体捕获组件(例如，内容捕获组件110)可以用于捕获包括视频和与视频相关联的音频的初始内容205。在一些实施例中，初始内容205可以是存储在计算设备(例如，计算设备100)的存储器(例如，存储器174)中的先前捕获的视听内容。初始内容205通常能够包括伴随有音频内容的任何视频内容。例如，初始内容205能够是轻敲不同表面并且生成敲击声音的范围的对象的视频。作为另一示例，初始内容205能够是吹制蒸汽并且生成鸣笛声音的水壶的视频。而且，例如，初始内容205能够是新闻卷盘(newsreel)的视频，其中一个或多个个体正在传送一些新闻。在一些情况下，初始内容205能够是演奏音乐作品的管弦乐队的视频、音乐独奏会的视频(例如，钢琴、长笛等)、体育广播的视频、音乐会的视频等。此外，例如，初始内容205能够是鸟啁啾、起飞的飞行器、到达车站的火车的视频等。在一些情况下，初始内容205能够是伴随有静默的视频部分。

在一些实施例中，可以基于初始内容205中的一个或多个瞬态点，在与初始内容205的视频相关联的音频中识别一个或多个音频剪辑。如本文所述，初始内容205能够与音频轨道210相关联。如图所示，音频轨道210是对应于音频轨道的波形的示意图。在一些情况下，可以从初始内容205提取音频轨道210以用于进一步分析。音频轨道210可以包括用户可能感兴趣的音频部分。例如，音频轨道210能够包括敲击声音、旋律音符、人类语音、静音、和/或可能感兴趣的其他音频的音频。每个这样的音频部分在音频轨道210中具有指示音频特性的变化的起始点。如本文中所使用，瞬态点通常可以指代音频轨道中的音频部分的这样的起始点。

可以基于对音频轨道210的特性的分析来检测瞬态点。例如，音频强度的改变(例如，音量的改变)、话音的发生(例如，说话的人)、乐器的改变(例如，从长笛到钢琴)、音高的改变、背景噪声量的改变(例如，欢呼人群)、从声音到静音的改变、音频内容的类型的改变(例如，从话音到音乐、背景噪声等)、音乐流派的改变(例如，古典音乐、摇滚、蓝调、爵士等)、第二歌曲在第一歌曲已经播放之后开始播放的点等，能够充当瞬态点。也可以通过剪切、暂停等来指示瞬态点。

在一些实施例中，可以通过使用经过训练以检测瞬态点的机器学习模型来检测瞬态点。例如，可以在包括具有指示先前分类的音频部分的起始点的先前已知瞬态点的音频轨道的标记数据上训练机器学习模型。一旦被训练，机器学习模型就能够将初始内容205和/或音频轨道210作为输入，并且检测一个或多个瞬态点。本文参考图10提供了这样的机器学习模型的进一步描述。

瞬态点与用户感兴趣的音频部分相关联。因此，能够为一个或多个识别的瞬态点中的每一个来识别一个或多个音频剪辑。如图2所示，可以在音轨215中识别瞬态点T₁,T₂,T₃。对于瞬态点T₁,T₂,T₃中的每一个，可以分别识别对应的音频剪辑A₁,A₂,A₃。在一些实施例中，可以从初始内容205和/或音频轨道210提取一个或多个音频剪辑(例如，音频剪辑A₁,A₂,A₃)。

在一些实施例中，控制器170可以针对一个或多个识别的音频剪辑(例如，音频剪辑A₁,A₂,A₃)中的每个音频剪辑从初始内容205中提取对应的视频剪辑。例如，可以识别对应于A₁的视频剪辑V₁、对应于A₂的视频剪辑V₂、以及对应于A₃的视频剪辑V₃。在一些情况下，视频剪辑可以稍微向后偏移(从音频剪辑或瞬态点的开始)，使得视频剪辑在音频剪辑中捕获的音频发生之前捕获图像。例如，当利用叉敲击花瓶以产生声音时，可以捕获导向产生声音的利用叉的实际敲击的视频图像。因此，视频剪辑的起始点可以被配置为在对应的瞬态点之前。如图所示，视频剪辑V₂的起始点T₂′偏移到与音频剪辑A₂相对应的瞬态点T₂之前。同样地，视频剪辑V₃的起始点T₃′偏移到与音频剪辑A₃相对应的瞬态点T₃之前。然而，对于诸如V₁的一些视频剪辑，起始点可以被配置为与音频剪辑A₁的对应瞬态点T₁重合。

在一些实施例中，在视频剪辑的起始点与对应音频剪辑的瞬态点之间可以使用固定偏移(例如，N个视频帧)。在其他实施例中，可以基于音频和/或视频的类型动态地确定这样的偏移。例如，当音频剪辑包括人声乐句时，可能不存在针对对应视频剪辑的偏移。此外，例如，当音频剪辑包括由钢琴演奏的音乐音符时，可能没有针对对应视频剪辑的偏移。然而，当音频剪辑包括火车汽笛的声音时，可以偏移对应视频剪辑的开始以捕获列车在车站处接近站台的图像。通常，还能够训练机器学习模型以识别对应于音频剪辑的视频剪辑的开始是否必须相对于音频剪辑的瞬态点偏移。在一些实施例中，能够训练机器学习模型以确定偏移的长度(例如，视频帧的数量)。

图3是示出根据示例实施例的音频剪辑和对应的视频剪辑的示例查找表300。在一些实施例中，控制器170可以将所提取的音频剪辑和对应的视频剪辑存储在存储器174中的查找表300中。例如，查找表300的第一行305可以存储一个或多个识别的音频剪辑(例如，音频剪辑A₁,A₂,A₃)，并且查找表300的第二行310可以存储一个或多个对应的所提取的视频剪辑(例如，视频剪辑V₁,V₂,V₃)。

然后，用户可以通过对一个或多个识别的音频剪辑进行排序来创建新视听内容。例如，用户可以选择特定的音频剪辑并且将其重复某个次数以生成新音频内容。相应的视频剪辑同样能够被排序以生成新视听内容。通常，用户能够使用一个或多个识别的音频剪辑的任何组合。附加地，控制器170可以经由控制界面(例如，控制界面162)使一个或多个识别的音频剪辑的变化可用(例如，通过改变相应的音频特性，诸如低音、高音、音高、节奏等)。因此，用户可以访问从其生成新音乐创作的大量音频声音。

图4示出了根据示例实施例的音频剪辑和对应的视听内容的示例序列400。例如，一个或多个识别的音频剪辑中的音频剪辑(例如，音频剪辑A₁)可以包括音乐音符。第一序列405可以包括音频剪辑A₁的重复，诸如例如A₁A₁A₁A₁A₁A₁，并且对应的视频剪辑V₁可以被类似地排序以生成第一视听内容V₁V₁V₁V₁V₁V₁V₁V₁。作为另一示例，第二序列410可以包括音频剪辑的序列，诸如例如A₁A₂A₂A₁A₂A₂A₁A₃A₁A₁A₁，并且对应的视频剪辑可以被类似地排序以生成第二视听内容V₁V₂V₂V₁V₂V₂V₁V₃V₁V₁V₁。作为另一示例，第三序列415可以包括诸如例如A₁A₂A₁A₂A₃的音频剪辑序列的序列，以生成新序列A₁A₂A₁A₂A₃A₁A₂A₁A₂A₃A₁A₂A₁A₂A₃A₁A₂A₁A₂A₃，并且对应的视频剪辑可以被类似地排序以生成第三视听内容V₁V₂V₁V₂V₃V₁V₂V₁V₂V₃V₁V₂V₁V₂V₃V₁V₂V₁V₂V₃。

在一些实施例中，序列中的特定音频和/或视频剪辑可以被编辑为序列的一部分。例如，在上面的说明性示例中，音频剪辑A_k和/或视频剪辑V_j可以对应于音频剪辑和/或视频剪辑的编辑版本，并且为了简单起见本文使用相同的符号。例如，在第一序列405中，第一视听内容V₁V₁V₁V₁V₁V₁V₁V₁可以包括视频剪辑V₁的一个或多个编辑版本(例如，具有不同的图像纹理、色调、对比度、亮度、颜色、锐度、分辨率等)。作为另一示例，在第一序列405中，音频剪辑序列A₁A₁A₁A₁A₁A₁可以是音频剪辑A₁的音高调节后版本。

如可以注意到的，可以基于序列的长度、重复的类型、一个或多个音频剪辑和/或视频剪辑的不同版本等，根据音频剪辑和对应的视频剪辑的集合来生成多个序列。此外，例如，可以通过改变节奏、音频强度等来进一步修改所生成的序列。此外，例如，可以合并、混合和/或排序两个或更多个所生成的序列以生成附加序列。

IV.示例用户界面

图5示出了根据示例实施例的示例性控制界面500。在一些实施例中，控制界面能够包括对应于多个音频通道的多个可选择的选项卡，其中，用户对多个可选择的选项卡中的选项卡的选择，使得用户能够访问一个或多个通道界面以与对应于用户所选择的选项卡的音频通道中的音频剪辑或视频剪辑中的一个或多个进行交互。控制界面500包括用于一个或多个这样的音频通道的可选择的选项卡。例如，第一音频通道CH1 505可以与第一初始内容(例如，初始内容205)相关联。附加的可选择的选项卡、第二音频通道CH2、第三音频通道CH3、第四音频通道CH4等可以与附加的初始内容相关联。如图所示，第一音频通道CH1505的可选择的选项卡被显示为已经被选择。在选择可选择的选项卡时，控制界面500显示各种选项卡、图标和/或特征以启用用户生成的音频剪辑序列，例如参考图3所描述的。例如，记录选项卡“REC(记录)”510允许用户记录新视听内容。播放选项卡“PLAY(播放)”515允许用户播放新视听内容。控制界面500的顶部通道界面的显示屏520、视频通道界面525能够显示新视听内容。

在一些实施例中，一个或多个通道界面包括具有与一个或多个识别的音频剪辑相对应的一个或多个图标的界面。用户生成的音频剪辑序列基于选择一个或多个图标中的至少一个图标以生成序列的用户指示。能够提供控制界面500的底部通道界面、键盘通道界面530以使得用户能够生成音频剪辑序列。键盘通道界面530可以包括可选择的键的阵列535。例如，第一键540可以对应于第一音频剪辑，第二键可以对应于第二音频剪辑等。当用户连续轻敲键时，控制器170生成对应于被轻敲的键的序列的音频剪辑序列。

在一些实施例中，一个或多个识别的音频剪辑能够包括包含初始节奏的多个敲击声音，并且控制器170能够生成多个敲击声音的多个修改版本。多个修改版本能够与不同于初始节奏的修改节奏相关联。在一些实施例中，控制器170能够经由键盘通道界面530的键提供多个敲击声音的多个修改版本。用户生成的音频剪辑序列能够基于多个敲击声音的多个修改版本。例如，当用户连续轻敲键盘通道界面530的键时，控制器170生成对应于被轻敲的键的序列的音频剪辑序列。

擦除选项卡“ERASE(擦除)”545允许用户擦除一个或多个轻敲，从而从序列擦除对应的音频剪辑。前向箭头选项卡550使得用户能够在视频通道界面525与控制界面的其他可用通道界面(例如，图6的模式通道界面635、图7的混合器通道界面720、图8的主通道界面820等)之间切换(例如，通过向左滑动)。同样地，前向箭头选项卡555使得用户能够在键盘通道界面530与控制界面的其他可用通道界面(例如，图6的键盘通道界面645、图7的键盘通道界面765、图8的功能通道界面840等)之间切换(例如，通过向左滑动)。

图6示出了根据示例实施例的另一示例控制界面600。控制界面600包括用于一个或多个音频通道的可选择的选项卡。例如，第二音频通道CH2 605可以与第二初始内容(例如，不同于初始内容205)相关联。附加的可选择的选项卡、第一音频通道CH1、第三音频通道CH3、第四音频通道CH4等可以与附加的初始内容相关联。如图所示，第二音频通道CH2 605的可选择的选项卡被显示为已经被选择。在选择可选择的选项卡时，控制界面600显示各种选项卡、图标和/或特征以启用用户生成的音频剪辑序列，例如参考图3所描述的。例如，记录选项卡“REC”610允许用户记录新视听内容。播放选项卡“PLAY”615允许用户播放新视听内容。

在一些实施例中，一个或多个通道界面能够包括显示多个用户生成的序列的界面，对应于多个音频通道的多个用户生成的序列中的每个序列，并且还包括使得用户能够链接一个或多个序列以生成新序列的可选择的选项。例如，控制界面600的顶部通道界面、模式通道界面635使得用户能够基于一个或多个所生成的序列来生成模式。可选择编号的图标的阵列620能够使得用户能够选择序列的序列(例如，图4的第三序列415)。例如，为了说明的目的，显示了标记为“1”到“16”的阵列620的可选择的图标。阵列620的每个这样的图标可以与所生成的序列相关联。用户可以选择一个或多个序列，并且可以显示序列的示意性表示，具有对应的节拍间隔。例如，第一序列625的第一示意性表示(例如，对应于图5的第一音频通道CH1 505)、第二序列630的第二示意性表示(例如，对应于第二音频通道CH2605)等可以显示在模式通道界面635中。可选择的选项卡“CHAIN(链接)”640能够使得用户能够链接第一序列625、第二序列630等，以形成新音频序列。

在一些实施例中，一个或多个通道界面能够包括显示多个用户生成的序列的界面，对应于多个音频通道的多个用户生成的序列中的每个序列，并且还包括使得用户能够混合一个或多个序列以生成新音频轨道的可选择的选项。例如，模式通道界面635能够被配置为通过使得能够混合与第一音频通道CH1 505、第二音频通道CH2 605等相对应的一个或多个识别的音频剪辑来启用用户生成的模式。

能够提供控制界面600的底部通道界面、声音通道界面645以使得用户能够修改音频序列的音频特性。通道界面645可以包括擦除选项卡“ERASE”650以使得用户能够擦除被执行以修改音频序列的音频特性的一个或多个编辑。在一些实施例中，一个或多个通道界面能够包括显示一对坐标轴的界面，其中，横轴对应于针对用户生成的序列的多个音高调整，并且纵轴对应于针对用户生成的序列的多个同时可调整的音频滤波器调整。例如，显示器655可以使用用户可调整的图标660显示该对坐标轴。沿着水平轴移动用户可调整的图标660能够使音高调整665被应用于用户生成的序列(例如，音高随着用户可调整的图标660沿着水平轴从左向右移动而增加)。沿着纵轴移动用户可调整的图标660能够使滤波器调整670被应用于用户生成的序列(例如，当用户可调整的图标660沿着纵轴从底部移动到顶部时，滤波器打开)。本文使用的术语“滤波器”通常是指基于频率的放大器电路。例如，滤波器能够是低通滤波器、高通滤波器、全通滤波器、带通滤波器等。

后向箭头选项卡675使得用户能够在声音通道界面645与控制界面的其他可用通道界面(例如，图5的键盘通道界面530)之间切换(例如，通过向右滑动)。同样地，前向箭头选项卡680使得用户能够在声音通道界面645与控制界面的其他可用的通道界面(例如，图7的键盘通道界面765、图8的功能通道界面840等)之间切换(例如，通过向左滑动)。

后向箭头选项卡685使得用户能够在模式通道界面635与控制界面的其他可用通道界面(例如，图5的视频通道界面525)之间切换(例如，通过向右滑动)。同样地，前向箭头选项卡680使得用户能够在模式通道界面635与控制界面的其他可用通道界面(例如，图7的混合器通道界面720、图8的主通道界面820等)之间切换(例如，通过向左滑动)。

图7图示了根据示例实施例的另一示例控制界面700。控制界面700包括用于一个或多个音频通道的可选择的选项卡。例如，第三音频通道CH3 705可以与另一初始内容(例如，不同于初始内容205)相关联。附加的可选择的选项卡、第一音频通道CH1、第二音频通道CH2、第四音频通道CH4等可以与附加的初始内容相关联。如图所示，第三音频通道CH3 705的可选择的选项卡被显示为已经被选择。在选择可选择的选项卡时，控制界面700显示各种选项卡、图标和/或特征以启用用户生成的音频剪辑序列，例如参考图3所描述的。例如，记录选项卡“REC”710允许用户记录新视听内容。播放选项卡“PLAY”715允许用户播放新视听内容。

在一些实施方式中，一个或多个通道界面能够包括显示多个音频通道的多个相应音量控件的界面。多个相应音量控件能够使得用户能够同时控制多个音频通道中的每一个的音量设置。例如，能够提供控制界面700的顶部通道界面、混合器通道界面720以使得用户能够同时调整音频通道CH1、CH2、CH3和CH4的音量水平725。例如，第一音量控件730能够被配置为调整对应于第一音频通道CH1的第一生成序列的音量设置，第二音量控件735能够被配置为调整对应于第二音频通道CH2的第二生成序列的音量设置，第三音量控件740能够被配置为调整对应于第三音频通道CH3的第三生成序列的音量设置，并且第四音量控件745能够被配置为调整对应于第四音频通道CH4的第四生成序列的音量设置。每个音量控件能够与相应的静音图标750相关联，静音图标750使得用户能够使对应的音频通道静音755。例如，在第一音量控件730下方显示的静音图标的用户选择能够使对应于第一音频通道CH1的第一生成序列的音频静音，等等。

能够提供控制界面700的底部通道界面、键盘通道界面765以使得用户能够将音频剪辑中的音乐音符音高调节到另一个音符。键盘通道界面765可以包括擦除选项卡“ERASE”770以使得用户能够擦除被执行以音高调节音乐音符的一个或多个编辑。在一些实施例中，一个或多个通道界面能够包括具有与音乐音符的多个音高调节后版本相对应的一个或多个图标的界面。例如，键盘通道界面765使得用户能够基于音乐音符的音高调节后版本来生成一个或多个序列。可选择的标记图标的阵列760能够使用户能够选择音乐音符的音高调节后版本的序列。阵列760的每个这样的图标可以与不同的音符相关联。例如，为了说明的目的，显示了标记为“do”、“re”、“mi”、“fa”、“sol”、“la”和“ti”的可选择的图标。用户可以连续地选择阵列760的一个或多个可选择的图标，并且控制器170能够基于音乐音符的对应的音高调节后版本来生成序列(例如，图4的第一序列405)。

后向箭头选项卡775使得用户能够在键盘通道界面765与控制界面的其他可用通道界面(例如，图5的键盘通道界面530、图6的声音通道界面645等)之间切换(例如，通过向右滑动)。同样地，前向箭头选项卡780使得用户能够在键盘通道界面765与控制界面的其他可用通道界面(例如，图8的功能通道界面840等)之间切换(例如，通过向左滑动)。

后向箭头选项卡785使得用户能够在混合器通道界面720与控制界面的其他可用通道界面(例如，图5的视频通道界面525、图6的模式通道界面635等)之间切换(例如，通过向右滑动)。同样地，前向箭头选项卡790使得用户能够在混合器通道界面720与控制界面的其他可用通道界面(例如，图8的主通道界面820等)之间切换(例如，通过向左滑动)。

图8图示了根据示例实施例的另一示例控制界面800。控制界面800包括用于一个或多个音频通道的可选择的选项卡。例如，第四音频通道CH4 805可以与另一初始内容相关联。附加的可选择的选项卡、第一音频通道CH1、第二音频通道CH2、第三音频通道CH3等可以与附加的初始内容相关联。如图所示，第四音频通道CH4 805的可选择的选项卡被显示为已经被选择。在选择可选择的选项卡时，控制界面800显示各种选项卡、图标和/或特征以启用用户生成的音频剪辑序列，例如参考图3所描述的。例如，记录选项卡“REC”810允许用户记录新视听内容。播放选项卡“PLAY”815允许用户播放新视听内容。

在一些实施例中，一个或多个通道界面能够包括针对音频剪辑序列中的音频剪辑，显示用于调整节拍速度的第一工具、用于调整摇摆的第二工具、以及用于调整根音乐音符的第三工具的界面。例如，能够提供控制界面800的顶部通道界面、主通道界面820。主通道界面820能够包括用于调整节拍速度的第一工具825、用于调整摇摆的第二工具830和用于调整根音乐音符的第三工具835。例如，节拍速度能够被测量为每分钟节拍(BPM)。如图所示，第一工具825显示指示以120BPM正在播放的敲击声音序列的“120”。术语“摇摆”是指调整节奏的技术，该节奏在一拍中的两部分脉动划分中的延长和缩短第一和第二连续音符之间交替。在一些实施例中，第一音符可以是第二音符的两倍长。此外，例如，摇摆节奏可以涉及摇摆的第八个音符，其中，音符在准三连音节奏中被执行为不均匀的第八音符。附加的和/或替代的摇摆节奏可以应用于生成的序列。根音乐音符可以是音阶的设置，诸如例如，A、B、C、D、E、F和G调音阶的小调、大调和/或降调。

在一些实施例中，一个或多个通道界面能够包括显示多个视频编辑图标的界面。对多个视频编辑图标中的视频编辑图标的用户选择启用将视频编辑特征应用于视频剪辑序列的视频剪辑。例如，能够提供控制界面800的底部通道界面(功能通道界面840)以使得用户能够将视频编辑特征应用于视频剪辑序列的视频剪辑。功能通道界面840能够包括对应于每个音频通道CH1、CH2、CH3和CH4的可选择的图标。例如，第一音频通道CHI可以与在其正上方显示的可选择的图标相关联。第一可选择的图标845可以被配置为调整带(tape)，第二可选择的图标850可以被配置为调整滤波器，第三可选择的图标855可以被配置为调整电子脉冲(glitch)，并且第四可选择的图标860可以被配置为调整空间。可以为每个音频通道提供类似的可调整的图标，并且在一个示例布置中，可以在相应音频通道的可选择地图标上方竖直地显示。功能通道界面840可以包括擦除选项卡“ERASE”865以使得用户能够擦除应用于视频剪辑的一个或多个视频编辑特征。

后向箭头选项卡870使得用户能够在功能通道界面840与控制界面的其他可用通道界面(例如，图5的键盘通道界面530、图6的声音通道界面645、图7的键盘通道界面765等)之间切换(例如，通过向右滑动)。同样地，后向箭头选项卡875使得用户能够在主通道界面820与控制界面的其他可用通道界面(例如，图5的视频通道界面525、图6的模式通道界面635、图7的混合器通道界面720等)之间切换(例如，通过向右滑动)。

通常，本文描述的一个或多个通道界面(例如，图5的键盘通道界面530、图6的声音通道界面645、图7的键盘通道界面765、图8的功能通道界面840、图5的视频通道界面525、图6的模式通道界面635、图7的混合器通道界面720、图8的主通道界面820等)能够用于每个音频通道(例如，第一音频通道CH1、第二音频通道CH2、第三音频通道CH3、第四音频通道CH4等)。附加的和/或替代的通道界面能够被配置为向用户提供进一步的编辑能力。

在一些实施例中，可以经由计算设备(例如，计算设备100)提供新视听内容。在一些实施例中，新视听内容的提供能够包括提供用户可选择的虚拟选项卡以启用将新视听内容自动上传到社交网络站点，和/或与其他用户共享新视听内容。例如，可以提供表示一个或多个媒体上传站点的可选择的图标，并且控制界面(例如，一个或多个控制界面162)可以使得用户能够通过选择相应的可选择地图标来将新视听内容直接上传到一个或多个媒体上传站点。

V.示例网络环境

图9示出了根据示例实施例的用于创建视听内容的示例网络环境900。网络环境900包括计算设备902、904和906、服务器910和存储912。在一些方面，网络环境900能够具有比图9中所示的计算设备更多或更少的计算设备(例如，902-906)和/或服务器(例如，910)。

计算设备902、904和906中的每一个能够表示具有处理器、存储器和通信能力的各种形式的处理设备。计算设备902、904和906可以彼此通信，与服务器910通信，和/或与图9中未示出的其他系统和设备通信。作为非限制性示例，处理设备能够包括台式计算机、膝上型计算机、手持式计算机、个人数字助理(PDA)、蜂窝电话、网络设备、相机、智能电话、增强型通用分组无线电服务(EGPRS)移动电话、媒体播放器、导航设备、电子邮件设备、游戏控制台、有线/无线耳机/头戴式耳机、可穿戴设备、无线或有线扬声器、或这些处理设备或其他处理设备中的任何处理设备的组合。

计算设备902、904和906中的每一个可以被配置有用于实现期望的音频信号处理效果的内置控制界面和/或音频处理架构。例如，包括一个或多个控制界面的应用可以作为客户端应用被安装在计算设备902、904和906上。计算设备902、904和906可以与单个用户相关联。捕获的媒体内容和/或新视听内容可以经由网络908传输到服务器910并且从服务器910接收。此外，例如，计算设备902、904和906中的每一个可以包括一个或多个麦克风、一个或多个扬声器、一个或多个传感器(例如，加速度计、陀螺仪)、换能器等。

网络908能够是计算机网络，诸如例如局域网(LAN)、广域网(WAN)、互联网、蜂窝网络或其组合，其连接任何数量的移动客户端、固定客户端和服务器。此外，网络908能够包括但不限于以下网络拓扑中的任何一个或多个，包括总线网络、星形网络、环形网络、网状网络、星形总线网络、树或分层网络等。在一些方面，每个客户端(例如，计算设备902、904和906)与服务器(例如，服务器910)之间的通信能够经由虚拟专用网络(VPN)、安全外壳(SSH)隧道、安全套接字层(SSL)通信或其他安全网络连接来发生。在一些方面，网络908还可以包括公司网络(例如，内联网)和一个或多个无线接入点。

服务器910可以表示单个计算设备，诸如包括处理器和存储器的计算机服务器。处理器可以执行存储在存储器中的计算机指令。服务器910被配置为经由网络908与客户端设备(例如，计算设备902、904和906)上的客户端应用(例如，应用)通信。例如，当用户将设备从计算设备902切换到计算设备906时，服务器910可以将新视听内容从计算设备902传输到计算设备906。在一个或多个实施方式中，计算设备902、计算设备904、计算设备906、或服务器910可以是或可以包括关于图1讨论的计算设备100组件的全部或部分。

VI.用于生成推断/预测的训练机器学习方法

图10示出了图示根据示例实施例的经过训练的机器学习模型1032的训练阶段1002和推断阶段1004的图1000。一些机器学习技术涉及在训练数据的输入集上训练一个或多个机器学习算法以标识训练数据中的模式并且提供关于训练数据(在训练数据中的模式)的输出推断和/或预测。所得到的经过训练的机器学习算法能够被称为经过训练的机器学习模型。例如，图10示出了训练阶段1002，其中在训练数据1010上训练一个或多个机器学习算法1020以成为经过训练的机器学习模型1032。然后，在推断阶段1004期间，经过训练的机器学习模型1032能够接收输入数据1030和一个或多个推断/预测请求1040(可能作为输入数据1030的一部分)，并且响应性地提供一个或多个推断和/或预测1050作为输出。

这样，经过训练的机器学习模型1032能够包括一个或多个机器学习算法1020的一个或多个模型。机器学习算法1020可以包括但不限于：人工神经网络(例如，卷积神经网络、递归神经网络、贝叶斯网络、隐马尔可夫模型、马尔可夫决策过程、逻辑回归函数、支持向量机、合适的统计机器学习算法、和/或启发式机器学习系统)。机器学习算法1020可以是监督的或无监督的，并且可以实现在线学习和离线学习的任何合适的组合。

在一些示例中，能够使用设备上协处理器(诸如图形处理单元(GPU)、张量处理单元(TPU)、数字信号处理器(DSP)和/或专用集成电路(ASIC))来加速机器学习算法1020和/或经过训练的机器学习模型1032。这样的设备上协处理器能够用于加速机器学习算法1020和/或经过训练的机器学习模型1032。在一些示例中，能够训练、驻留和执行经过训练的机器学习模型1032以在特定计算设备上提供推断，和/或以其他方式对特定计算设备进行推断。

在训练阶段1002期间，能够通过使用无监督、监督、半监督和/或强化学习技术将至少训练数据1010作为训练输入提供来训练机器学习算法1020。训练数据1010能够包括包括音频轨道的视频的集合。视频可以被标记以识别瞬态点、感兴趣的音频剪辑、对应的视频剪辑(具有可能从瞬态点偏移的起始点)等等。无监督学习涉及将训练数据1010的一部分(或全部)提供给机器学习算法1020，并且机器学习算法1020基于训练数据1010的所提供部分(或全部)来确定一个或多个输出推断。监督学习涉及将训练数据1010的一部分提供给机器学习算法1020，其中机器学习算法1020基于训练数据1010的所提供部分来确定一个或多个输出推断，并且基于与训练数据1010相关联的正确结果来接受或校正输出推断。在一些示例中，机器学习算法1020的监督学习能够由用于训练输入的一组规则和/或一组标签来管理，并且该组规则和/或该组标签可以用于校正机器学习算法1020的推断。

半监督学习涉及对于部分而非全部训练数据1010具有正确的结果。在半监督学习期间，监督学习被用于具有正确结果的训练数据1010的一部分，并且无监督学习被用于不具有正确结果的训练数据1010的一部分。强化学习涉及机器学习算法1020接收关于先验推断的奖励信号，其中奖励信号能够是数值。在强化学习期间，机器学习算法1020能够输出推断并且作为响应接收奖励信号，其中，机器学习算法1020被配置为尝试最大化奖励信号的数值。在一些示例中，强化学习还利用提供表示由奖励信号随时间提供的数值的预期总数的数值的值函数。在一些示例中，能够使用其他机器学习技术(包括但不限于增量学习和课程学习)来训练机器学习算法1020和/或经过训练的机器学习模型1032。

在一些示例中，机器学习算法1020和/或经过训练的机器学习模型1032能够使用迁移学习技术。例如，迁移学习技术能够涉及在一组数据上预训练并且附加地使用训练数据1010来训练经过训练的机器学习模型1032。更具体地，能够在来自一个或多个计算设备的数据和提供给特定计算设备的所得的经过训练的机器学习模型上对机器学习算法1020进行预训练，其中，特定计算设备旨在在推断阶段1004期间执行经过训练的机器学习模型。然后，在训练阶段1002期间，能够使用训练数据1010附加地训练被预训练的机器学习模型，其中，能够从特定计算设备的内核和非内核数据导出训练数据1010。能够使用监督或无监督学习来执行使用特定计算设备的数据的训练数据1010的机器学习算法1020和/或被预训练的机器学习模型的这种进一步训练。一旦至少在训练数据1010上训练了机器学习算法1020和/或被预训练的机器学习模型，就能够完成训练阶段1002。经过训练得到的机器学习模型能够用作经过训练的机器学习模型1032中的至少一个。

具体地，一旦训练阶段1002已经完成，经过训练的机器学习模型1032能够被提供给计算设备，如果尚未在计算设备上。推断阶段1004能够在经过训练的机器学习模型1032被提供给特定计算设备之后开始。

在推断阶段1004期间，经过训练的机器学习模型1032能够接收输入数据1030并且生成和输出关于输入数据1030的一个或多个对应的推断和/或预测1050。这样，输入数据1030能够用作经过训练的机器学习模型1032的输入，用于向内核组件和非内核组件提供对应的推断和/或预测1050。例如，经过训练的机器学习模型1032能够响应于一个或多个推断/预测请求1040来生成推断和/或预测1050。在一些示例中，经过训练的机器学习模型1032能够由其他软件的一部分执行。例如，经过训练的机器学习模型1032能够由推断或预测守护进程执行以容易地用于在请求时提供推断和/或预测。输入数据1030能够包括来自执行经过训练的机器学习模型1032的特定计算设备的数据和/或来自除了特定计算设备之外的一个或多个计算设备的输入数据。

输入数据1030能够包括与初始内容(例如，初始内容205)相对应的初始内容(例如，初始内容205)和/或音频轨道(例如，音频轨道210)。

推断和/或预测1050能够包括输出瞬态点(例如，图2的瞬态点T₁,T₂,T₃)、音频剪辑(例如，图2的音频剪辑A₂,A₂,A₃)和/或对应的视频剪辑(例如，图2的视频剪辑V₁,V₂,V₃)、和/或由在输入数据1030(和训练数据1010)上操作的经过训练的机器学习模型1032产生的其他输出数据。在一些示例中，经过训练的机器学习模型1032能够使用输出推断和/或预测1050作为输入馈送1060。经过训练的机器学习模型1032还能够依赖于过去的推断作为用于生成新推断的输入。

在一些示例中，可能在训练机器学习模型之后，单个计算设备(“CD_SOLO”)能够包括机器学习模型的经过训练的版本。然后，计算设备CD_SOLO接收识别瞬态点，识别一个或多个音频剪辑，和/或从输入视听内容中提取对应的视频剪辑的请求，并且使用机器学习模型的经过训练的版本来识别瞬态点，识别一个或多个音频剪辑，和/或提取对应的视频剪辑。

在一些示例中，诸如第一客户端设备(“CD_CLI”)和服务器设备(“CD_SRV”)的两个或更多个计算设备能够用于提供输出；例如，第一计算设备CD_CLI能够生成识别瞬态点、识别一个或多个音频剪辑、和/或从输入视听内容中提取对应的视频剪辑的请求并且将该请求发送到第二计算设备CD_SRV。然后，CD_SRV能够使用机器学习模型的经过训练的版本来识别瞬态点，识别一个或多个音频剪辑，和/或提取对应的视频剪辑。然后，在接收到对请求的响应时，CD_CLI能够经由一个或多个控制界面(例如，控制界面162)提供所请求的输出。

VII.示例操作方法

图11图示了与使用由操作系统提供的音频处理阶段有关的操作的流程图1100。操作可以由计算设备100、902-906或前述示例实施例中的其他示例实施例执行和/或与之一起使用。

框1110涉及由计算设备的内容生成组件，捕获包括视频和与视频相关联的音频的初始内容。

框1120涉及基于音频中的一个或多个瞬态点来识别与视频相关联的音频中的一个或多个音频剪辑。

框1130涉及针对一个或多个识别的音频剪辑中的每个音频剪辑，从初始内容的视频中提取对应的视频剪辑。

框1140涉及经由计算设备的图形用户界面，提供控制界面以启用用户生成的音频剪辑序列，其中，音频剪辑序列中的每个音频剪辑是从一个或多个识别的音频剪辑中选择的。

框1150涉及生成包括视频剪辑序列的新视听内容以对应于用户生成的音频剪辑序列，其中，视频剪辑序列中的每个视频剪辑是针对用户生成的音频剪辑序列中的每个音频剪辑的所提取的对应视频剪辑。

框1160涉及由控制界面，提供新视听内容。

在一些实施例中，一个或多个识别的音频剪辑包括包含初始节奏的多个敲击声音。这样的实施例涉及生成多个敲击声音的多个修改版本，其中，多个修改版本与不同于初始节奏的修改节奏相关联。这样的实施例还涉及经由控制界面提供多个敲击声音的多个修改版本。用户生成的音频剪辑序列能够基于多个敲击声音的多个修改版本。

在一些实施例中，控制界面包括对应于多个音频通道的多个可选择的选项卡。对多个可选择的选项卡中的选项卡的用户选择能够使得用户能够访问一个或多个通道界面以与对应于用户所选择的选项卡的音频通道中的音频剪辑或视频剪辑中的一个或多个进行交互。

在一些实施例中，多个音频通道包括与旋律音符、敲击声音、音乐作品、乐器声音、静音或人声乐句中的一个或多个相对应的音频剪辑。

在一些实施例中，多个音频通道中的每个音频通道能够与不同于初始内容的给定视听内容相关联。

在一些实施例中，一个或多个通道界面包括具有与一个或多个识别的音频剪辑相对应的一个或多个图标的界面。用户生成的音频剪辑序列能够基于选择一个或多个图标中的至少一个图标以生成序列的用户指示。

在一些实施例中，一个或多个识别的音频剪辑中的音频剪辑包括音乐音符。这样的实施例涉及生成音乐音符的多个音高调节后版本。一个或多个通道界面能够包括具有与音乐音符的多个音高调节后版本相对应的一个或多个图标的界面。用户生成的音频剪辑序列能够基于选择一个或多个图标中的至少一个图标以生成序列的用户指示。

在一些实施例中，一个或多个通道界面包括显示多个用户生成的序列的界面，多个用户生成的序列中的每个序列对应于多个音频通道，并且还包括使得用户能够链接一个或多个序列以生成新序列的可选择的选项。

在一些实施例中，一个或多个通道界面包括显示多个用户生成的序列的界面，多个用户生成的序列中的每个序列对应于多个音频通道，并且还包括使得用户能够混合一个或多个序列以生成新音频轨道的可选择的选项。

在一些实施例中，一个或多个通道界面包括显示一对坐标轴的界面。横轴能够对应于针对用户生成的序列的多个音高调整，并且纵轴能够对应于针对用户生成的序列的多个同时可调整的音频滤波器调整。

在一些实施例中，一个或多个通道界面包括显示多个音频通道的多个相应音量控件的界面。多个相应音量控件能够使得用户能够同时控制多个音频通道中的每个音频通道的音量设置。

在一些实施例中，一个或多个通道界面包括针对音频剪辑序列中的音频剪辑，显示用于调整节拍速度的第一工具、用于调整摇摆的第二工具、以及用于调整根音乐音符的第三工具的界面。

在一些实施例中，一个或多个通道界面包括显示多个视频编辑图标的界面。对多个视频编辑图标中的视频编辑图标的用户选择能够启用将视频编辑特征应用于视频剪辑序列中的视频剪辑。

一些实施例涉及基于第二初始内容中的一个或多个第二瞬态点来识别第二初始内容中的一个或多个第二音频剪辑。这些实施例还涉及经由控制界面，启用第二用户生成的第二音频剪辑序列，其中，第二音频剪辑序列中的每个第二音频剪辑是从一个或多个识别的第二音频剪辑中选择的。新视听内容的生成包括生成第二视频剪辑序列以对应于用户生成的音频剪辑序列和用户生成的第二音频剪辑序列。

在一些实施例中，计算设备能够包括图像捕获设备。初始内容能够由图像捕获设备捕获。

在一些实施例中，初始内容中的瞬态点包括瞬态位置、暂停或剪切中的一个或多个。

在一些实施例中，识别初始内容中的一个或多个音频剪辑涉及在初始内容的音轨中，识别旋律音符、敲击声音、音乐作品、乐器声音、音频强度的改变、静音或人声乐句中的一个或多个。

在一些实施例中，能够通过经过训练的机器学习模型来执行对初始内容中的一个或多个音频剪辑的识别。这些实施例中的一些涉及由经过训练的机器学习模型来识别一个或多个音频剪辑中的音频剪辑的分类。这样的实施例还涉及基于分类来生成与音频剪辑相关联的视觉标签。这些实施例还涉及经由控制界面在对应于音频剪辑的可选择的图标上显示视觉标签。

一些实施例涉及经由计算设备来提供新视听内容。在这样的实施例中，提供新视听内容能够涉及提供用户可选择的虚拟选项卡以启用将新视听内容自动上传到社交网络站点。

许多上述特征和应用被实现为被指定为记录在计算机可读存储介质(也称为计算机可读介质)上的指令集的软件过程。当这些指令由一个或多个处理单元(例如，一个或多个处理器、处理器的核或其他处理单元)执行时，它们使得处理单元执行指令中指示的动作。计算机可读介质的示例包括但不限于磁介质、光学介质、电子介质等。计算机可读介质不包括无线地或通过有线连接传递的载波和电子信号。

在本说明书中，术语“软件”旨在包括例如驻留在只读存储器或其他形式的电子存储的固件，或可以存储在磁存储、光学、固态等中的应用，其能够被读入存储器以供处理器处理。此外，在一些实施方式中，本主题公开的多个软件方面能够被实现为较大程序的子部分，同时保持本主题公开的不同软件方面。在一些实施方式中，多个软件方面也能够实现为单独的程序。最后，一起实现此处描述的软件方面的单独程序的任何组合都在本主题公开的范围内。在一些实施方式中，软件程序在被安装为在一个或多个电子系统上操作时，定义执行和进行软件程序的操作的一个或多个特定机器实施方式。

计算机程序(也称为程序、软件、软件应用、脚本或代码)能够以任何形式的编程语言编写，包括编译或解释语言、声明性或过程语言，并且它能够以任何形式部署，包括作为独立程序或作为模块、组件、子例程、对象或适用于计算环境中的其他单元。计算机程序可以但不必对应于文件系统中的文件。程序能够存储在文件的一部分中，该文件保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)、专用于所讨论的程序的单个文件中、或多个协调文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。计算机程序能够被部署为在一个计算机上或在位于一个站点处或分布在多个站点上并且通过通信网络互连的多个计算机上执行。

上述这些功能能够在数字电子电路、计算机软件、固件或硬件中实现。技术能够使用一个或多个计算机程序产品来实现。可编程处理器和计算机能够被包括在移动设备中或被封装为移动设备。过程和逻辑流程能够由一个或多个可编程处理器和由一个或多个可编程逻辑电路执行。通用和专用计算设备和存储设备能够通过通信网络互连。

一些实施方式包括电子组件，例如，在机器可读或计算机可读介质(可替选地称为计算机可读存储介质、机器可读介质或机器可读存储介质)中存储计算机程序指令的微处理器、存储和存储器。这种计算机可读介质的一些示例包括RAM、ROM、只读光盘(CD-ROM)、可记录光盘(CD-R)、可重写光盘(CD-RW)、只读数字通用盘(例如，DVD-ROM、双层DVD-ROM)、各种可记录/可重写DVD(例如，DVD-RAM、DVD-RW、DVD+RW等)、闪存(例如，SD卡、迷你SD卡、微SD卡等)、磁性或固态硬盘驱动器、只读和可记录光盘、高密度光盘、任何其他光学或磁性介质和软盘。计算机可读介质能够存储可由至少一个处理单元执行的计算机程序，并且包括用于执行各种操作的指令集。计算机程序或计算机代码的示例包括例如由编译器产生的机器代码，以及包括由计算机、电子组件或使用解释器的微处理器执行的较高级代码的文件。

虽然以上讨论主要涉及执行软件的微处理器或多核处理器，但是一些实施方式由一个或多个集成电路(例如，专用集成电路(ASIC)或现场可编程门阵列(FPGA))执行。在一些实施方式中，这样的集成电路执行存储在电路本身上的指令。

如本说明书和本申请的任何权利要求中所使用的，术语“计算机”、“服务器”、“处理器”和“存储器”都是指电子或其他技术设备。这些术语排除人或人群。为了说明书的目的，术语显示器或显示是指在电子设备上显示。如本说明书和本申请的任何权利要求中所使用的，术语“计算机可读介质”和“计算机可读介质”完全限于以可由计算机读取的形式存储信息的有形物理对象。这些术语排除任何无线信号、有线下载信号和任何其他短时信号。

为了提供与用户的交互，本说明书中描述的主题的实施方式能够在具有用于向用户显示信息的显示设备(例如，CRT或LCD监视器)和键盘以及定点设备(例如，鼠标或轨迹球)的计算机上实现，用户能够通过该设备向计算机提供输入。其他类型的设备也能够用于提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且能够以任何形式接收来自用户的输入，包括声学、语音或触觉输入。另外，计算机能够通过向用户使用的设备发送文档和从该设备接收文档来与用户交互；例如，通过响应于从web浏览器接收的请求将网页发送到在用户的客户端设备上的web浏览器。

本说明书中描述的主题的实施例能够在计算系统中实现，该计算系统包括后端组件，例如，作为数据服务器，或者包括中间件组件，例如，应用服务器，或者包括前端组件，例如，具有图形用户界面或web浏览器的客户端计算机，用户能够通过该图形用户界面或web浏览器与本说明书中描述的主题的实施方式，或者一个或多个这样的后端组件、中间件组件或前端组件的任何组合进行交互。系统的组件能够通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN)、网络间(例如，互联网)和对等网络(例如，自组织对等网络)。

计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系由于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施方式中，服务器向客户端设备传输数据(例如，HTML页面)(例如，出于向与客户端设备交互的用户显示数据和从用户接收用户输入的目的)。能够在服务器处从客户端设备接收在客户端设备处生成的数据(例如，用户交互的结果)。

应当理解，所公开的过程中的步骤的任何特定顺序或层级是示例性方法的图示。基于设计偏好，应当理解，可以重新布置过程中的步骤的特定顺序或层级，或者执行所有示出的步骤。可以同时执行一些步骤。例如，在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统组件的分离不应被理解为在所有实施例中需要这种分离，并且应当理解，所描述的程序组件和系统通常能够在单个软件产品中集成在一起或封装到多个软件产品。

提供先前的描述以使本领域技术人员能够实践本文描述的各个方面。对这些方面的各种修改对于本领域技术人员将是显而易见的，并且本文定义的一般原理可以应用于其他方面。因此，权利要求不旨在限于本文所示的方面，而是要符合与语言权利要求一致的全部范围，其中对单数形式的元素的引用不旨在表示“一个和仅一个”，除非具体如此陈述，而是“一个或多个”。除非另外特别说明，否则术语“一些”是指一个或多个。男性(例如，他)中的发音包括女性和神经元性别(例如，她的和它的)，反之亦然。标题和副标题(如果有的话)仅用于方便，并且不限制本主题公开。

如本文所使用的，短语“至少一个”在一系列项目之前，其中术语“和”或“或”用于分离任何项目，作为整体修改列表，而不是列表的每个成员(例如，每个项目)。短语“至少一个”不需要选择所列出的每个项目中的至少一个；相反，短语允许包括项目中的任何一个、和/或项目的任何组合中的至少一个、和/或项目中的每个项目中的至少一个的含义。作为示例，短语“A、B和C中的至少一个”或“A、B或C中的至少一个”各自指的是仅A、仅B或仅C；A、B和C的任何组合；和/或A、B和C中的每一个的至少一个。

诸如一方面、各方面、另一方面、一些方面、一个或多个方面、实施方式、该实施方式、另一实施方式、一些实施方式、一个或多个实施方式、实施例、该实施例、另一实施例、一些实施例、一个或多个实施例、配置、该配置、另一配置、一些配置、一个或多个配置、主题技术、公开、本公开、其其他变型等的短语是为了方便起见，并且不暗示与这样的短语相关的公开对于主题技术是必要的，或者这样的公开适用于主题技术的所有配置。与这样的短语相关的公开可应用于所有配置或一个或多个配置。涉及这样的短语的公开可以提供一个或多个示例。诸如一个方面或一些方面的短语可以指一个或多个方面，反之亦然，并且这类似地适用于其他前述短语。

本领域普通技术人员已知或以后将已知的贯穿本公开描述的各个方面的元素的所有结构和功能等同物通过引用明确地并入本文，并且旨在由主题技术涵盖。此外，本文所公开的任何内容都不旨在专用于公众，而不管是否在以上描述中明确地叙述了这样的公开内容。在35U.S.C.§112第六段的规定下不应当解释权利要求元素，除非使用短语“用于……的装置”来明确地叙述元件，或者在方法权利要求的情况下，使用短语“用于……的步骤”来叙述元件。此外，在说明书或权利要求书中使用术语“包括”、“具有”等的范围内，这样的术语旨在以类似于术语“包含”的方式具有包容性，因为“包含”在用作权利要求书的过渡词时被解释为包含。

Claims

1.一种计算设备，包括：

图形用户界面，所述图形用户界面被配置为启用视听内容的生成；

一个或多个处理器；以及

数据存储，其中，所述数据存储上存储有计算机可执行指令，所述计算机可执行指令在由所述一个或多个处理器执行时使所述计算设备执行包括以下的功能：

由所述计算设备的内容生成组件，捕获包括视频和与所述视频相关联的音频的初始内容；

基于所述音频中的一个或多个瞬态点来识别与所述视频相关联的所述音频中的一个或多个音频剪辑；

针对一个或多个识别的音频剪辑中的每个音频剪辑，从所述初始内容的所述视频中提取对应的视频剪辑；

经由所述图形用户界面，提供控制界面以启用用户生成的音频剪辑序列，其中，所述音频剪辑序列中的每个音频剪辑是从所述一个或多个识别的音频剪辑中选择的；

生成包括视频剪辑序列的新视听内容以对应于所述用户生成的音频剪辑序列，其中，所述视频剪辑序列中的每个视频剪辑是针对所述用户生成的音频剪辑序列中的每个音频剪辑的所提取的对应视频剪辑；以及

通过所述控制界面，提供所述新视听内容。

2.根据权利要求1所述的计算设备，其中，所述一个或多个识别的音频剪辑包括包含初始节奏的多个敲击声音，并且其中，提供所述控制界面还包括：

生成所述多个敲击声音的多个修改版本，其中，所述多个修改版本与不同于所述初始节奏的修改节奏相关联；以及

经由所述控制界面提供所述多个敲击声音的所述多个修改版本，

其中，所述用户生成的音频剪辑序列基于所述多个敲击声音的所述多个修改版本。

3.根据权利要求1所述的计算设备，其中，所述控制界面包括对应于多个音频通道的多个可选择的选项卡，其中，对所述多个可选择的选项卡中的选项卡的用户选择使得用户能够访问一个或多个通道界面以与对应于用户所选择的选项卡的所述音频通道中的音频剪辑或视频剪辑中的一个或多个进行交互。

4.根据权利要求3所述的计算设备，其中，所述多个音频通道包括与旋律音符、敲击声音、音乐作品、乐器声音、静音或人声乐句中的一个或多个相对应的音频剪辑。

5.根据权利要求3所述的计算设备，其中，所述多个音频通道中的每个音频通道与不同于所述初始内容的给定视听内容相关联。

6.根据权利要求3所述的计算设备，其中，所述一个或多个通道界面包括具有与所述一个或多个识别的音频剪辑相对应的一个或多个图标的界面，并且其中，所述用户生成的音频剪辑序列基于选择所述一个或多个图标中的至少一个图标以生成所述序列的用户指示。

7.根据权利要求3所述的计算设备，其中，所述一个或多个识别的音频剪辑中的音频剪辑包括音乐音符，并且其中，提供所述控制界面还包括：

生成所述音乐音符的多个音高调节后版本，

其中，所述一个或多个通道界面包括具有与所述音乐音符的所述多个音高调节后版本相对应的一个或多个图标的界面，以及

其中，所述用户生成的音频剪辑序列基于选择所述一个或多个图标中的至少一个图标以生成所述序列的用户指示。

8.根据权利要求3所述的计算设备，其中，所述一个或多个通道界面包括显示多个用户生成的序列的界面，所述多个用户生成的序列中的每个序列对应于所述多个音频通道，并且还包括使得用户能够链接所述一个或多个序列以生成新序列的可选择的选项。

9.根据权利要求3所述的计算设备，其中，所述一个或多个通道界面包括显示多个用户生成的序列的界面，所述多个用户生成的序列中的每个序列对应于所述多个音频通道，并且还包括使得用户能够混合所述一个或多个序列以生成新音频轨道的可选择的选项。

10.根据权利要求3所述的计算设备，其中，所述一个或多个通道界面包括显示一对坐标轴的界面，其中，横轴对应于针对所述用户生成的序列的多个音高调整，并且纵轴对应于针对所述用户生成的序列的多个同时可调整的音频滤波器调整。

11.根据权利要求3所述的计算设备，其中，所述一个或多个通道界面包括显示所述多个音频通道的多个相应音量控件的界面，其中，所述多个相应音量控件使得用户能够同时控制所述多个音频通道中的每个音频通道的音量设置。

12.根据权利要求3所述的计算设备，其中，所述一个或多个通道界面包括针对所述音频剪辑序列中的音频剪辑，显示用于调整节拍速度的第一工具、用于调整摇摆的第二工具、以及用于调整根音乐音符的第三工具的界面。

13.根据权利要求3所述的计算设备，其中，所述一个或多个通道界面包括显示多个视频编辑图标的界面，并且其中，对所述多个视频编辑图标中的视频编辑图标的用户选择使得能够将视频编辑特征应用于所述视频剪辑序列中的视频剪辑。

14.根据权利要求1所述的计算设备，所述功能还包括：

基于第二初始内容中的一个或多个第二瞬态点来识别所述第二初始内容中的一个或多个第二音频剪辑；以及

经由所述控制界面，启用第二用户生成的第二音频剪辑序列，其中，所述第二音频剪辑序列中的每个第二音频剪辑是从一个或多个识别的第二音频剪辑中选择的，

其中，生成所述新视听内容包括生成第二视频剪辑序列以对应于所述用户生成的音频剪辑序列和所述用户生成的第二音频剪辑序列。

15.根据权利要求1所述的计算设备，其中，所述初始内容中的所述瞬态点包括瞬态位置、暂停或剪切中的一个或多个。

16.根据权利要求1所述的计算设备，其中，在所述初始内容中识别所述一个或多个音频剪辑包括在所述初始内容的音轨中，识别旋律音符、敲击声音、音乐作品、乐器声音、音频强度的改变、静音或人声乐句中的一个或多个。

17.根据权利要求1所述的计算设备，其中，在所述初始内容中识别所述一个或多个音频剪辑是通过经过训练的机器学习模型来执行的。

18.根据权利要求1所述的计算设备，其中，识别所述一个或多个音频剪辑还包括：

由经过训练的机器学习模型，识别所述一个或多个音频剪辑中的音频剪辑的分类；

基于所述分类，生成与所述音频剪辑相关联的视觉标签；以及

经由所述控制界面，在与所述音频剪辑相对应的可选择的图标上显示所述视觉标签。

19.根据权利要求1所述的计算设备，还包括：

提供用户可选择的虚拟选项卡以使得能够将所述新视听内容自动上传到社交网络站点。

20.一种计算机实现的方法，包括：

由计算设备的内容生成组件，捕获包括视频和与所述视频相关联的音频的初始内容；

经由所述计算设备的图形用户界面，提供控制界面以启用用户生成的音频剪辑序列，其中，所述音频剪辑序列中的每个音频剪辑是从所述一个或多个识别的音频剪辑中选择的；

通过所述控制界面，提供所述新视听内容。

21.一种包括非暂时性计算机可读介质的制品，所述非暂时性计算机可读介质上存储有程序指令，所述程序指令在由计算设备的一个或多个处理器执行时使所述计算设备执行操作，所述操作包括：

通过所述控制界面，提供所述新视听内容。