CN111345044B

CN111345044B - 基于所捕获的表演的内容来增强该表演的视听效果系统

Info

Publication number: CN111345044B
Application number: CN201880054029.4A
Authority: CN
Inventors: 大卫·施坦维尔; 佩里·R·库克; 保罗·T·齐; 周炜; 乔恩·摩勒多佛; 安东·霍姆伯格; 李景希
Original assignee: Smule Inc
Current assignee: Smule Inc
Priority date: 2017-08-21
Filing date: 2018-08-21
Publication date: 2023-03-21
Anticipated expiration: 2038-08-21
Also published as: DE112018004717T5; WO2019040492A1; CN111345044A

Abstract

视觉效果调度被应用于视听表演，其中与不同的音乐结构元素相对应地应用不同的视觉效果。应用于一个或多个音轨(例如，声乐或背景音轨)的分割技术被用于计算音乐结构的一些成分。在一些情况下，所应用的视觉效果调度是以情绪命名的，并且其可以由表演者选择作为他或她的视觉表情的成分或者可以使用机器学习技术从视听表演中确定。

Description

基于所捕获的表演的内容来增强该表演的视听效果系统

技术领域

本发明总体上涉及声乐音频表演(vocal audio performance)的捕获和/或处理，尤其涉及适用于以与表演的(或其潜在的)音乐结构一致的方式将所选择的视觉效果应用于表演同步视频(performance synchronized video)的技术。

背景技术

移动电话和便携式计算设备的安装基数在绝对数量和计算能力上每天都在增长。它们无处不在，深深扎根于世界各地人们的生活方式中，几乎跨越了每一个文化和经济障碍。从计算上讲，当前的移动电话提供的速度和存储能力可与不到十年前的台式电脑相比，使它们非常适合实时声音合成和其他音乐应用。结果之一是，一些现代移动电话(例如，苹果公司(Apple Inc.)推出的如

手持数字设备)能够相当好地支持音频和视频播放。

类似于传统的声学仪器，移动电话可以作为私人的声音产生和捕获设备。然而，与大多数传统仪器相比，它们的声学带宽和功率被限制。尽管如此，尽管存在这些缺点，但移动电话确实具有普遍性、数量优势和超移动性的优势，这使得(至少在理论上)几乎可以随时随地将艺术家聚集在一起进行表演。已经在多个研究机构中对移动音乐领域进行了探索。实际上，最近关于诸如Smule Ocarina^TM、Smule Magic Piano、以及Smule Sing！Karaoke^TM(均可从Smule,Inc.获得)等应用的经验显示了可以以提供引人入胜的用户体验的方式提供先进的数字声学技术。

随着数字声学研究人员寻求将他们的创新转化到可部署到现代手持设备的商业应用中，呈现了重大的实际挑战，所述现代手持设备为例如可以在现实世界约束(由处理器、存储器和它们的其他受限的计算资源导致)中或在典型为无限网络的通信带宽和传输延迟约束中进行操作的

手持设备和其他平台。期望改进的技术和功能性性能，特别是对于视频而言。

发明内容

已发现，尽管移动设备平台和应用程序执行环境施加了许多实际限制，但仍可以捕获或操纵视听表演(包括声乐音乐)，并且(在一些情况下)视听表演可以与其他用户的视听表演进行协调，以创造引人入胜的用户体验。在一些情况下，在与背景音轨的可听渲染相对应的卡拉OK式歌词呈现的情境下，在移动设备上或使用机顶盒式设备捕获个人用户的声乐表演(以及表演同步视频)。在一些情况下，可以结合卡拉OK式歌词呈现向演唱者呈现音调提示，以及，可选地，可以提供连续的自动音调校正(或将音调转换为和声)。

在一些情况或实施例中，用户的声乐音频以及表演同步视频被捕获并与其他用的视听贡献进行协调以形成复合的二重唱式或合唱团式或玻璃窗音乐视频式的视听表演。在一些情况下，在与背景音轨的可听渲染相对应的与卡拉OK式歌词呈现的情境下，在移动设备、电视式显示器和/或机顶盒设备上捕获个人用户的声乐表演(以及表演同步视频)。多个演唱者的贡献可以以在给定表演时间线上的任何给定时间处选择贡献者中的一个或多个的表演同步视频用于呈现的方式被协调和混音。选择提供了视觉布局序列，该视觉布局序列与表演乐谱的其他编码的方面相对应，该其他方面为例如音调音轨、背景音频、歌词、片段和/或声乐部分。

视觉效果调度被应用于视听表演，其中与音乐结构的不同元素相对应地应用不同的视觉效果。在一些情况下，应用于一个或多个音轨(例如，声乐或背景音轨)的分割技术被用于计算音乐结构的一些成分。在一些情况下，所应用的视觉效果调度是以情绪命名的，并且其可以由表演者选择作为他或她的视觉表情的成分或者可以使用机器学习技术从视听表演中确定。

在本发明的一些实施例中，方法包括：访问第一视听表演的机器可读编码，以及将第一视觉效果调度应用于第一视听表演编码的至少一部分。第一视听表演作为具有表演同步视频的声乐音频而被捕获，并且第一视听表演具有至少包括音乐片段边界的关联的音乐结构编码，该音乐片段边界被编码为与第一视听表演编码在时间上对准。所应用的视觉效果调度针对第一视听表演编码的不同音乐结构元素编码不同的视觉效果，并且提供与所编码的音乐片段边界中的至少一些音乐片段边界在时间上对准的视觉效果过渡。

在一些实施例中，该方法还包括：至少分割第一视听表演编码的音轨，以提供关联的音乐结构编码。在一些情况或实施例中，关联的音乐结构编码包括分组部分或音乐片段元数据。在一些情况或实施例中，不同的视觉效果在程度上不同，或在类型上不同，或在这二者上都不同。

在一些实施例中，该方法还包括：从多个视觉效果调度中选择第一视觉效果调度。在一些情况或实施例中，选择是基于至少针对所捕获的声乐音频而以计算方式确定的情绪的。在一些情况或实施例中，选择是基于由声乐音频的表演者进行的用户界面选择来进行的，用户界面选择在声乐音频的捕获之前进行或与之同时进行。在一些实施例中，方法还包括：(i)(在第一视听表演的视听渲染之后)从多个以情绪命名的视觉效果调度中选择第二视觉效果调度，第二视觉效果调度与第一视觉效果调度不同，以及(ii)将第二视觉效果调度应用于第一视听表演编码的至少一部分。在一些实施例中，该方法还包括：从多个以情绪命名的视觉效果调度中选择第二视觉效果调度，第二视觉效果调度与第一视觉效果调度不同；以及，将第二视觉效果调度应用于第一视听表演编码的至少一部分。

在一些实施例中，该方法还包括：将第一视听表演流式传输到一个或多个远程客户端设备处的观众。在一些情况或实施例中，所流式传输第一视听表演与背景音轨的编码混音，声乐音频是针对该背景音轨捕获的。在一些情况或实施例中，流式传输的第一视听表演在在被应用了第一视觉效果调度的情况下被流式传输的。在一些实施例中，该方法还包括：提供所应用的视觉效果调度的标识，以用于远程客户端设备中的一个或多个远程客户端设备处的视频效果渲染。

在一些实施例中，该方法还包括：(从、向、或经由内容服务器或服务平台)把第一视听表演至少与针对一个或多个所应用的视觉效果调度的标识符一起进行传输。在一些情况或实施例中，选择基于用户界面选择，用户界面选择在第一视听表演的视听渲染期间进行或在其之前进行。

在一些情况或实施例中，针对特定的以情绪命名的视觉效果调度，情绪值被参数化为二维量，其中情绪参数化的第一维度对情感进行编码，并且其中情绪参数化的第二维度对强度进行编码。在一些实施例中，该方法还包括：基于以下各项中的一项或多项来确定情绪参数化的强度维度：(i)通过声乐音频以计算方式确定的时变音频信号强度或声乐能量密度度量以及(ii)背景音轨的节拍、节奏、信号强度或能量密度。

在一些实施例中，该方法还包括：对第一视听表演编码进行分割，以识别不同的音乐结构元素。在一些情况或实施例中，分割至少部分地基于对声乐强度以计算方式的确定，其中至少一些分割边界被约束为与从相应的音频背景音轨中提取的节拍或节奏在时间上对准。在一些情况或实施例中，分割至少部分地基于相似性分析，该相似性分析是对时间上对准的歌词音轨执行的，以将第一视听表演编码的特定部分分类为主歌或副歌。

在一些情况或实施例中，针对所应用的视觉效果调度的给定元素，由所应用的视觉效果调度编码的不同的视觉效果包括以下各项中一项或多项：(i)基于粒子的效果或镜头光晕，(ii)不同源视频之间的过渡或不同源视频的布局，(iii)源视频中的帧的动画或运动，(iv)图案或纹理的矢量图形或图像；以及(v)颜色、饱和度或对比度。在一些情况或实施例中，关联的音乐结构对不同类型的音乐片段进行编码，并且所应用的视觉效果调度针对所编码的音乐片段中的不同的音乐片段定义不同的视觉效果。在一些情况或实施例中，关联的音乐结构对事件或过渡进行编码，并且所应用的视觉效果调度针对所编码的事件或过渡中的不同的事件或过渡定义不同的视觉效果。

在一些情况或实施例中，机器可读编码还对第二视听表演的至少一部分进行编码，第二视听表演作为具有表演同步视频的第二声乐音频被捕获，第一视听表演和第二视听表演组成分组表演。在一些情况或实施例中，关联的音乐结构对分组部分进行编码，并且所应用的视觉效果调度针对与所编码的音乐结构相对应的特定表演同步视频具有时间上的选择性。

在一些情况或实施例中，第一视听表演和第二视听表演呈现为二重唱。在一些情况或实施例中，针对至少一些音乐结构元素，所应用的视觉效果调度对分组表演中的各个表演者的表演同步视频的颜色匹配进行编码。在一些情况或实施例中，针对至少一些音乐结构元素，所应用的视觉效果调度对分组表演中的各个表演者的表演同步视频之间的界面处的视觉模糊或交融进行编码。在一些情况或实施例中，第一视听表演和第二视听表演是针对公共的背景音轨而捕获的。

在一些实施例中，该方法还包括：在联网声乐捕获设备处捕获第一视听表演，联网声乐捕获设备与内容服务器或服务平台通信地耦合，音乐结构编码是从内容服务器或服务平台提供的。在一些情况或实施例中，视听表演捕获是根据卡拉OK式操作机制在联网声乐捕获设备处执行的，在卡拉OK式操作机制中歌词被与背景音轨的可听渲染相对应地进行视觉呈现。

在一些实施例中，该方法至少部分地在内容服务器或服务平台上执行，内容服务器或服务平台与地理上分布的联网声乐捕获设备通信地耦合。在一些实施例中，该方法至少部分地在联网声乐捕获设备上执行，联网声乐捕获设备与内容服务器或服务平台通信地耦合。在一些实施例中，该方法至少部分地体现为在内容服务器或服务平台上可执行的指令的计算机程序产品编码，内容服务器或服务平台与地理上分布的多个联网声乐捕获设备通信地耦合。

在根据(一个或多个)本发明的一些实施例中，系统包括：地理上分布的一组联网设备，该设备被配置为捕获视听表演，该视听表演包括具有表演同步视频的声乐音频；服务平台，该服务平台被配置为(i)接收所捕获的视听表演的编码，以及与关联的音乐结构编码相对应地，(ii)将特定视觉效果调度应用于视听表演编码的至少一部分，关联的音乐结构编码至少包括音乐片段边界，该音乐片段边界被编码为与视听表演编码在时间上对准。所应用的视觉效果调度针对视听表演编码的不同的音乐结构元素编码不同的视觉效果，并提供与所编码的音乐片段边界中的至少一部分在时间上对准的视觉效果过渡。

在一些情况或实施例中，服务平台被配置为：响应于用户或表演者的选择，改变所应用的视觉效果调度，并将所得的所捕获的视听表演提供给地理上分布的联网设备中的各个设备，以在其上进行视听渲染。在一些情况或实施例中，所应用的视觉效果调度是从多个哥视觉效果调度中选择的。

在根据(一个或多个)本发明的一些实施例中，系统包括：联网设备的至少主客配对，其中主设备和客设备被配置为至少捕获声乐音频。主设备被配置为(i)从客设备接收至少声乐音频的相应编码的编码，以及(ii)与关联的音乐结构编码相对应地，将所选择的视觉效果调度应用于视听表演编码，关联的音乐结构编码至少包括音乐片段边界，该音乐片段边界被编码为与视听表演编码在时间上对准。所应用的视觉效果调度针对视听表演编码的不同的音乐结构元素编码不同的视觉效果，并且提供与所编码的音乐片段边界中的至少一些音乐片段边界在时间上对准的视觉效果过渡。

在一些情况或实施例中，主设备和客设备经由通信网络而作为本地对等端和远程对等端被耦合，针对视听内容的传输具有不可忽略的对等延迟，主设备作为本地对等端被通信地耦合以接收混音音频表演的媒体编码，所述混音音频表演组成在客设备处捕获的声乐音频，并且客设备作为远程对等端被通信地耦合以提供媒体编码，该媒体编码是从表演者中的第一表演者捕获并与背景音轨混音的。在一些情况或实施例中，关联的音乐结构编码基于至少对从客设备接收的音轨的分割而在主设备处以计算方式确定的。在一些情况或实施例中，主设备被配置为将视听表演编码渲染为混音视听表演，该混音视听表演包括来自表演者中的第一表演者和第二表演者的声乐音频和表演同步视频，并且将视听表演编码以应用了所选择的视觉效果调度、看起来是现场广播的形式来传输。

参考下文的描述和所附权利要求，根据(一个或多个)本发明的这些和其他实施例将被理解。

附图说明

参考附图通过示例而非限制地示出本发明，在附图中，相似的附图标记通常表示相似的元素或特征。

图1描绘了根据(一个或多个)本发明的一些实施例的示意性移动电话式便携式计算设备、电视式显示器、机顶盒式媒体应用平台以及示例性内容服务器之间的信息流，其中视觉效果调度应用于视听表演。

图2A、图2B和图2C是沿协调视听表演时间线的声乐表演同步视频的连续快照，其中，根据本发明的一些实施例，两个贡献的演唱者中的一者、另一者或这两者的视频具有基于情绪和基于以计算方式定义的音频特征(例如在所捕获的声乐上计算的声音强度)应用的声乐效果。

图3A、图3B和图3C示出了根据(一个或多个)本发明的一些实施例的分割和视频效果(VFX)引擎的示例性实现方式。图3A描绘了涉及音乐结构的示例性编码的信息流，而图3B描绘了关注示例性VFX渲染流水线的替代视图。最后，图3C图示地描绘了声乐部分和分段到视觉布局、过渡、后处理视频效果和基于粒子的效果的示例性映射。

图4描绘了根据(一个或多个)本发明的一些实施例的主和客配置中的说明性移动电话式便携式计算设备之间的信息流，其中视觉效果调度被应用于现场流式传播的、二重唱式的分组视听表演。

图5是示出了根据(一个或多个)本发明的一些实施例的信息传输的流程图，该信息传输有助于或涉及复合的视听表演的流程图，该复合的视听表演被分割，以提供用于视频效果映射的音乐结构。

图6是根据(一个或多个)本发明的一些实施例的硬件和软件组件的功能框图，该硬件和软件组件可在说明性移动电话式便携式计算设备处执行，以促进所捕获的视听表演的处理。

图7示出了根据(一个或多个)本发明的一些实施例的处理步骤和处理结果，该处理用于将颜色校正和以情绪命名的视频效果应用于分组表演的各个表演者的视频，其中各个表演者的视频是使用相应的捕获设备的相机分开捕获的。

图8A和图8B示出了在使用和不使用根据(一个或多个)本发明的一些实施例应用的视觉模糊技术的情况下的分组表演的视觉效应。

图9示出了根据(一个或多个)本发明的一些实施例的移动设备的特征，该移动设备可以充当用于执行软件实现的平台，该软件实现包括视听捕获。

图10是根据(一个或多个)本发明的一些实施例的示出了示例性设备的协作的网络图。

技术人员将理解，附图中的元素或特征是为了简单和清楚而示出的，并且不一定按比例绘制。例如，某些所示的元件或特征的尺寸或显著性相对于其他元件或特征可能被放大，以帮助改进对本发明实施例的理解。

具体实施方式

用于承载(一个或多个)发明的模式

已经开发了一些技术，以用于对便携式计算设备和客厅式娱乐设备上的视听表演进行捕获、音调校正、和声化、编码和/或渲染。可以捕获声乐音频以及表演同步视频，并将其与其他用户的视听贡献进行协调，以形成二重唱式或合唱团式或玻璃窗音乐视频式视听表演。在一些情况下，在与背景音轨的可听渲染一致的卡拉OK式歌词呈现的情境下，在移动设备、电视式显示器和/或机顶盒设备上捕获个人用户的声乐表演(以及表演同步视频)。在一些情况下，可以结合卡拉OK式歌词呈现向演唱者呈现音调提示者，可选地，可以提供连续的自动音调校正(或将音调转换为和声)。

通常，以选择用于呈现的方式对多个演唱者的贡献进行协调和混音，并且在给定表演时间线上的给定时间将以情绪命名的视觉效果应用于贡献者中的一个或多个的表演同步视频。在一些情况或实施例中，(一个或多个)本发明的技术甚至可以应用于单个表演者的视听内容。通常，选择是根据某些音轨的分割来进行的，以确定视听表演的音乐结构。基于该音乐结构，基于粒子的效果、视频源之间的过渡、动画或帧的运动、矢量图形或图案/纹理的图像、颜色/饱和度/对比度和/或编码在视频效果调度中的其他视觉效果被应用于视听表演的各个部分。以这种方式，视觉效果与表演的编码方面或诸如声乐音轨、背景音频、歌词、片段和/或声乐部分等特征对应地被应用。在给定视听表演的整个过程中，所应用的特定视觉效果基于所执行的分割和/或基于针对一个或多个声乐音轨计算所确定的声乐强度而变化。

一般地，对于给定的歌曲，歌曲的音乐结构的各个方面对于从以情绪命名的视觉效果调度中应用的特定视觉效果具有可选性，并且强度度量(通常是声乐强度，但在一些情况下，是非声乐音频的功率密度)被用于调节或以其他方式控制所应用的视觉效果的大小或显著程度。例如，在一些情况、情境或实施例中，来自例如{主歌、副歌、主歌、副歌、桥段......}的歌曲形式被用于约束该映射。在一些情况下，例如在二重唱中，声乐部分序列(例如，你唱一行，我唱一行，你唱两个词，我唱三个，我们一起唱......)提供用于创建视觉布局序列的结构信息。在一些情况、情境或实施例中，歌曲的构建强度(例如，通过声功率、节奏或某些其他度量来测量)可对于应用于特定声乐效果调度的特定视觉效果具有选择性。

可选地，在一些情况或实施例中，声乐音频可以根据音调校正设置在声乐捕获设备处(例如，在便携式计算设备，例如移动电话、个人数字助理、膝上型计算机、笔记本计算机、平板型计算机或上网本处)实时地进行音调校正。在一些情况下，音调校正设置为声乐表演或其部分编码特定的音调或乐谱。在一些情况下，音调校正设置包括与歌词和背景音轨一起提供的或与之相关联的乐谱编码旋律和/或和声序列。如果需要的话，和声音符或和弦可以被编码为显式的目标，或者相对于乐谱编码的旋律或者甚至是演唱者所发出的实际音调进行编码。机器可用的乐器数字接口式(MIDI式)编码可用于歌词、背景音轨、音符目标、声乐部分(例如，声乐部分1、声乐部分2等一起)、音乐片段信息(例如，前奏/尾奏部分、主歌、前副歌、副歌、桥段、过渡和/或其他片段编码)等。在一些情况或实施例中，传统的MIDI式编码可被扩展为也对要应用的乐谱对齐的视觉效果的进程进行编码。

基于音调校正的声乐、表演同步视频和乐谱编码的和声混音的引人注目和变革性质，用户/演唱者可以克服与分享他们的声乐表演相关的自然的害羞或焦虑。相反，即使是地理上分散的演唱者也被鼓励与朋友和家人分享，或者合作和贡献声乐表演，作为社交音乐网络的一部分。在一些实现方式中，这些互动通过社交网络和/或电子邮件介导的表演分享和加入团体表演的邀请来促进。使用在诸如上述便携式计算设备的客户端捕获的上传的声乐，内容服务器(或服务)可以通过处理和混音多个贡献的演唱者上传的视听内容来调和这样的协调表演。取决于特定系统的目标和实现方式，除了视频内容之外，上传的内容还可以包括音调校正的声乐表演(其具有或不具有和声)、干的(即未校正的)声乐、和/或用户声调的控制音轨和/或音调校正选择等。

社交音乐可以通过各种方式进行调和。例如，在一些实现方式中，第一用户的声乐表演作为种子表演被提供给其他潜在的声乐表演者，该第一用户的声乐表演在便携式计算设备处针对背景音轨而被捕获，并且通常根据乐谱编码的旋律和/或和声提示而被校正音调。表演同步视频也被捕获，并且可以与音调校正的所捕获的声乐一起提供。所提供的声乐通常与背景乐器/声乐混音，并形成用于捕获第二(可能是相继的)用户声乐的背景音轨。通常，相继的声乐贡献者在地理上是分离的，并且可能彼此未知(至少是先验的)，但是声乐的亲密度以及协作经验本身往往会将这种分离最小化。随着连续的声乐表演和视频被捕获(例如，在各自的便携式计算设备处)并作为社交音乐体验的一部分而被添加，针对其捕获各自声乐的背景音轨可以演变为包括先前捕获的、其他贡献者的声乐。

在一些情况下，声乐(以及通常同步的视频)作为现场或非脚本表演的一部分被捕获，其中该表演具有协作贡献者之间的声乐互动(例如二重唱或对话)。可以设想，在至少一些协作贡献者之间存在不可忽略的网络通信延迟，特别是在那些贡献者在地理上分离的情况下。因此，存在以组合的视听表演仍然可以以作为直播互动协作而呈现给接收者、听众和/或观看者的方式来传播(例如，广播)的方式来管理延迟和所捕获的视听内容的技术挑战。

例如，在一种用于实现现场互动表演协作的复制的技术中，实际的和不可忽略的网络通信延迟(实际上)在客表演者和主表演者之间的一个方向上被掩饰(mask)，而在另一个方向上被容忍。例如，在主表演者的“现场秀”互联网广播上的捕获的客表演者的视听表演可以包括以看起来是实时同步方式演唱的客表演者+主表演者二重唱。在一些情况下，客表演者可以是将特定的音乐表演推广流行的表演者。在一些情况下，客表演者可以是业余演唱者，有机会“在录音室”与作为主表演者(或与之在一起)的流行艺术家或团体一起“现场”(尽管是远程的)演唱。尽管传送客表演者的视听贡献流时涉及不可忽略的从客表演者到主表演者的网络通信延迟(可为200至500ms或更大)，但主表演者与客表演者明显同步地进行表演(尽管在绝对意义上在时间上相对于客表演者是滞后的)，该明显同步地表演的声乐被捕获并与客表演者的贡献进行混音以供广播或传播。

其结果是看起来是现场互动表演(至少从所传播或广播的表演的主表演者和接收者、听众和/或观众的角度来看)。虽然从客表演者到主表演者的网络通信延迟是不可忽略的，但是应理解，在主表演者到客表演者的方向上存在延迟并且该延迟被容忍。然而，虽然主表演者到客表演者的延迟对客表演者来说是可识别的(也许是相当明显的)，但在看起来是现场广播或其他传播中，该延迟不必是明显的。已经发现，主表演者的声乐的延迟的可听渲染(或者更普遍地说，主持人捕获的视听表现)不必在心理声学上干扰客表演者的表演。

表演同步视频可以被捕获并包括在构成看起来是现场广播的组合视听表演中，其中视觉效果可以至少部分地基于从所捕获的声音音频中提取的(或在其上计算的)时变的、计算定义的音频特征。在一些情况或实施例中，在协调视听混音的过程中，这些计算定义的音频特征对于贡献的演唱者中的一个或多个的特定同步视频(或其显著性)具有选择性。

在一些情况下，令人着迷的视觉动画和/或听众评论和打分的设施，以及二重唱、合唱团或合唱组的形成或加和逻辑与例如在另一个类似配置的移动设备处捕获和音调校正的声乐表演的可听渲染联合提供，该声乐表演与背景乐器和/或声乐混音。合成的和声和/或附加的声乐(例如，从在其他位置的另一个演唱者捕获的声乐，并且可选地被音调变换以与其他声乐和声)也可以包括在混音中。所捕获的声乐表演(或对分组表演的个体贡献)的地理编码和/或听众反馈可以以提示来自用户操纵地球仪上的特定地理位置的表演或认可的方式来促进动画或显示伪像。通过这种方式，所描述功能的实现可以将原本平凡的移动设备转变为培养全球连通性、协作性和社区感的社交工具。

卡拉OK式声乐表演捕获

使用移动电话式和/或电视式视听设备进行的音调校正的、卡拉OK式的声乐捕获提供了有用的描述性情境，但(一个或多个)本发明的实施例不限于此。类似地，虽然(一个或多个)本发明的实施例不限于多表演者情境，协调的多表演者视听内容(包括异步捕获或准备的多声乐内容，或通过本文中所述的延迟管理技术来捕获和现场直播的多声乐内容)提供了有用的描述性情境。

在例如图1所示的实施例中，苹果公司(Apple Inc.)推出的

手持设备(或者更一般地，手持设备101)托管与内容服务器110协同执行的软件，以提供声乐捕获和对所捕获的声乐的连续实时的乐谱编码的音调校正以及和声化。可以使用相机来捕获表演同步视频，该相机由电视或其他视听媒体设备101A或诸如Apple TV^TM设备的连接的机顶盒设备(101B)提供(或与连接)。还可以使用由手持设备101提供的机载相机捕获来表演同步视频。

如典型的卡拉OK式应用(例如，由Smule,Inc.推出的Sing！Karaoke^TM应用)，乐器和/或声乐的背景音轨可以被可听见地呈现给用户/演唱者，以针对其进行演唱。在这样的情况下，可以将歌词与可听渲染(104，104A)相对应地进行显示(102，102A)，以协助用户的卡拉OK式声乐表演。在图1所示的配置中，歌词、时间信息、音调和和声提示(105)、背景音轨(例如，乐器/声乐)、表演协调视频、视频效果的调度(107)等都可以来源于联网内容服务器110。在一些情况或情景下，可以从诸如iTunes^TM媒体库等的媒体商店或驻留在手持设备、机顶盒、媒体流设备等上(或可从以上设备中访问)的其他视听内容商店中获得背景音频和/或视频。

为了简单起见，可以假定无线局域网180提供手持设备101、任何视听和/或机顶盒设备和到托管服务平台(例如，内容服务器110)的广域网网关之间的通信。图10描绘了示例性网络配置。然而，基于本文中的描述，本领域技术人员将认识到，可以单独地或组合地使用多种数据通信设施中的任何一种，包括802.11Wi-Fi、BluetoothTM、4G-LTE无限、有线数据网络、有线或无限视听互联(例如，符合HDMI、AVI、Wi-Di标准的设施)，以促进本文中描述的通信和/或视听渲染。

再次参考图1中的示例，在手持设备101处捕获用户声乐103，并且可选地在手持设备处或使用视听显示器和/或机顶盒设备(101B)的计算设施连续实时地进行音调校正，并且与背景音轨可听地混音呈现(参见104、104A)，以向用户提供他/她自己的声乐表演的改进的音调质量再现。注意，虽然所捕获的声乐103和可听渲染104、104A是使用以手持设备101或电视/视听媒体设备101A的麦克风和扬声器设施为中心的视觉符号示出的，但受益于本公开的本领域技术人员将理解，在许多情况下，麦克风和扬声器功能可以使用连接或无线连接的耳塞、耳机、扬声器、反馈隔离麦克风等提供。因此，除非特别限制，否则应广泛地理解声乐捕获和可听渲染，而不应局限于特定的音频换能器配置。

音调校正(如果提供)通常基于乐谱编码的音符集或提示(例如，音调和和声提示105)，乐谱编码的音符集或提示提供连续的音调校正算法，该算法具有当前音调或音阶中的目标音符的表演同步序列。除表演同步旋律目标外，乐谱编码的和声音符序列(或集合)还可以提供音调变换算法，以将音调变换为用户自己的所捕获的声乐的和声版本，其中该算法具有附加目标(其通常被编码为相对于主旋律音符音轨的偏移，并且通常仅针对其中选中的部分进行编码)。在一些情况下，音调校正设置可以是特定艺术家的特征，例如，与特定背景音轨相关联的最初表演(或使之流行)的艺术家的声乐。此外，歌词、旋律和和声音轨音符设置和相关的时间和控制信息可以作为编码在适当容器或对象中的乐谱而封装(例如，编码在预期数字接口(MIDI)、或Java Script对象简谱(json)类型格式)，以将其与(一个或多个)背景音轨一起提供。通过使用这样的信息，手持设备101、视听显示器101A和/或机顶盒设备(或两者)可以显示与(一个或多个)背景音轨的可听表演对应的歌词以及甚至与目标音符、和声和当前检测的声乐音调相关的视觉提示，以协助由用户进行的卡拉OK式声乐表演。因此，如果演唱者选择了被Bruno Mars推广流行的“当我还是你另一半的时候(When I was your Man)”，则可以从内容服务器110下载your_man.json and your_man.m4a(如果尚不可用或未基于先前的下载进行缓存)，然后将其用于提供背景音乐、同步歌词，以及在一些情况或实施例中，提供乐谱编码的音符音轨，以用于在用户演唱时提供连续实时的音调校正。

可选地，至少对于某些实施例或体裁，和声音符音轨可以被乐谱编码以对所捕获的声乐进行和声变换。通常，所捕获的音调校正的(可能被和声化)声乐表演以及表演同步视频被保存在手持设备或机顶盒上，作为一个或多个视听文件本地，并且后续被压缩和编码，以作为MPEG-4容器文件上传到(106)内容服务器110上。MPEG-4是一个用于互联网、移动网络和高级广播应用的数字多媒体内容的编码表示和传输的国际标准。如果需要，可以使用其他合适的编解码器、压缩技术、编码格式和/或容器。

根据实现方式，干声乐和/或音调校正的声乐的编码可以被上传(106)到内容服务器110。通常，这样的声乐(例如编码在MPEG-4容器中或其他位置)无论是已经被音调校正或在内容服务器110处被音调校正的之后都可以与例如背景音频和其他捕获的(并且可能被音调变换的)声乐表演混音(111)，以产生根据特定目标或网络(例如，手持设备120、视听显示器和/或机顶盒设备、社交媒体平台等)的能力或限制而选择的质量或编码特性的文件或流。

如本文中进一步详细描述的，多个演唱者的表演(包括表演同步视频)可以被加和和组合，例如呈现为二重唱式的表演、合唱团、玻璃窗音乐视频式风格或声乐即兴演出。在一些实施例中，表演同步视频贡献(例如，图1中所示，表演同步视频122包括在手持设备101处或使用视听和/或机顶盒设备101A、101B捕获的表演)可以在所得的混音视听表演渲染123中呈现，其中在整个混音视听表演渲染123中应用视频效果并且该视频效果动态变化。所应用的视频效果至少部分基于视频效果(VFX)调度的应用，该视频效果调度是基于用户选择或以计算方式确定情绪选择的(113)。在一些情况或实施例中，一个或多个VFX调度可以是可应用于呈现特定情绪的以情绪命名的配方和/或滤镜。分割和VFX引擎112确定音乐结构，并根据所选择的视频效果应用特定的视觉效果。一般地，所应用的特定视觉效果基于声乐和/或背景音轨音频的分割、所确定或编码的音乐结构、所选择或检测的情绪或风格以及以计算方式确定的声乐或音频强度。

VFX调度选择可以由手持设备101的用户进行或者使用视听和/或机顶盒设备101A、101B来进行。例如，用户可以选择以情绪命名的VFX调度，该调度包括选择的视频效果，该视频效果用于提供“悲伤”或“忧郁”视频处理效果的调色板。一个这样的调色板可以提供和应用与所确定或编码的音乐结构相关的滤镜，该滤镜提供倾向于引起“悲伤”或“忧郁”情绪的颜色、饱和度和对比度，并且该调色板通过很少视觉能量来提供源视频之间的过渡和/或包括基于粒子的效果，该基于粒子的效果呈现雨、雾或其他与所选择的情绪一致的效果。其他调色板可以提供和应用同样与所确定或编码的音乐结构相关的滤镜，该滤镜提供倾向于唤起“活泼”或“精力充沛”的情绪的颜色、饱和度和对比度，该其他调色板通过显著视觉能量或运动来提供源视频之间的过渡，包含镜头光晕或基于粒子的效果，该基于粒子的效果通过气泡、气球、烟花或其他与所选择的情绪一致的视觉特征来增强视觉场景。

在一些实施例中，给定VFX调度的配方和/或滤镜可以例如基于从音频表演中提取的计算特征(例如，平均声能)或者基于背景音轨的节奏、节拍或音频能量而被参数化。在一些情况或实施例中，可以采用歌词或音乐选择元数据来进行VFX调度选择。一般而言，将在说明书的上下文以及权利要求中理解，在一些情况或实施例中，例如，当用户或贡献的演唱者或后处理视频编辑器寻求创建特定情绪(无论是该情绪是“悲伤”、“沉思”、“活泼”还是“浪漫”)时，视觉效果调度可被反复地选择并应用于给定的表演或部分表演。.

为了最初说明的简单起见，图1描绘了表演106的表演同步音频(103)和视频(105)捕获，该表演106被上传到内容服务器110(或服务平台)并分发给一个或多个潜在的贡献的演唱者或表演者，例如，作为其他贡献的演唱者或表演者(#2、#3......#N)针对其捕获其他视听(AV)表演的种子表演。图1描绘了其它捕获的AV表演#2、#3.....#N的提供，其用于在内容服务器110处进行音频混音和视觉布置111，以产生表演同步视频122。一般地，应用的视觉效果可以根据特定的视觉效果调度和一个或多个组成AV表演的分割在整个混音视听表演渲染123中变化。在一些情况下，分割可以基于声乐音频的信号处理和/或基于预编码的音乐结构，包括声乐部分或片段符号、短语或歌词的重复结构等。

图2A、图2B和图2C是沿着协调视听表演时间线151的声乐表演同步视频的连续快照191、192和193，其中，根据本发明的一些实施例，以视频123为例，两个贡献的演唱者中的另一个或两者具有基于情绪和基于计算定义的音频特征(例如在所捕获的声乐上计算的声音强度)应用的声乐效果。尽管图2A、图2B和图2C不试图准确地描绘特定的视频效果(这些视频效果往往是动态的，并且在视觉上是微妙的)，但受益于本公开的普通技术人员将理解，对于协调视听表演的第一部分(由快照191表示)，基于表演者的相应的所选择或检测到的情绪以及基于特定表演的声乐强度，VFX被应用于个人表演者的表演同步视频。对于协调视听表演的第二部分(由快照192表示)，基于所选择的或检测到的表演者的情绪和当前的声乐强度，VFX被应用于单个表演者的表演同步视频。最后，对于协调视听表演的第三部分(例如，由快照193表示的合唱)，基于表演者的联合的或合成的情绪(无论是检测到的还是所选择的)和联合声音强度的当前度量，VFX被应用于的两个表演者的表演同步视频。

如受益于本公开有益的本领域技术人员将理解的，表演时间线151携带跨各音频分割边界、跨片段和/或组合部分过渡并通过分立时刻的表演同步视频，使得快照191、192和193将被期望在表演时间线的不同部分基于音频的音乐结构应用特定VFX调度的不同方面(例如，VFX调度的不同VFX配方和VFX滤镜)。

图3A、图3B和图3C示出了根据(一个或多个)本发明的一些实施例的分割和视频效果(VFX)引擎112(回顾图1)的示例性实现方式。特别地，图3A描绘了涉及音乐结构115的示例性编码的信息流，在该音乐结构115中，提取表演同步声乐音轨(例如，声音#1和声音#2)和背景音轨的音频特征，以为音乐结构编码115提供分割和注释。

特征提取和分割117提供音乐结构编码115的注释和过渡标记，以在视频渲染119之前应用来自所选择的视觉效果调度的配方和滤镜。例如，在所示的示例性实现方式中，特征提取和分割对以下进行操作：

·声乐：分割“演唱”和“非演唱”、瞬时响度、每个分段的相对响度。

·背景音轨：节奏、瞬时响度、节奏检测。

·midi文件：音调、和声、歌词、“部分”布置标记(每个演唱者应该演唱的时间)。

在示例性实现方式中，声乐音轨被视为包括演唱分段和静默分段。特征提取寻求将独唱声带的部分分为静默分段和歌唱分段。对于部分1和部分2的二重唱音轨，特征提取寻求将它们分为静默分段、部分1演唱分担、部分2演唱分段和一起演唱分段。接下来，执行分段分类。例如，在一些实现方式中，计算每个分段的全局平均声乐强度和平均声乐强度，以确定每个分段相对于特定演唱者的歌曲表演的“音乐强度”。换句话说，分割算法观察以确定给定的片段是“较大声”的片段，还是“较安静”的片段。在某些实现中，还从歌词元数据中检索每个歌词行的开始时间和结束时间，以协助分段分类。有效的分段类型和分类标准包括：

·前奏：第一歌词行开始之前的(一个或多个)分段。

·主歌：该分段的强度低于演唱者的平均声乐强度。

·桥段：类似于主歌，但位于歌曲的后半部分。

·前副歌：副歌分段前的分段。

·过门：静默分段，但不是前奏也不是尾奏分段。

·尾奏：最后歌词行的结尾之后的(一个或多个)分段。

特征提取和分割117还可以包括进一步的音频信号处理，以提取背景音轨中的节拍和强拍的时间，并将所确定的片段与强拍对准。在一些实现方式中，计算每分钟节拍数(BPM)来确定歌曲的节奏，并使用声乐强度和音调信息来识别高潮、保持和渐强等时刻。例如，时刻类型和分类标准可以包括：

·高潮：如果分段具有最高的声乐强度，则该分段也被标记为高潮分段。

·保持：如果音符的音调长度超过预定阈值。

·渐强：具有增强音调的音符序列。

通常，这些和其他注释和分割可以与样式、配方和滤镜一起使用，以提供表演驱动的视觉效果。

图3B描绘了将其视觉效果调度分解为用于VFX设计的视频样式命名的配方(116B)和用于示例性VFX渲染流水线中的特定视频滤镜(116A)的实施例的附加细节。视频样式可以是用户选择的，或者在一些实施例中，视频样式可以基于以计算方式确定的情绪来选择。一般地，对于给定的视频样式，为特定的歌曲节奏、录制类型(独唱、二重唱或合作艺术家)等定义和专门化了多个配方。配方通常定义每个分段类型或时刻的视觉效果，如布局、过渡、后处理、颜色过滤、水印和徽标。基于所确定的歌曲的节奏和录制类型，从其集合(116B)中选择适当的配方。

VFX设计器118基于所选择的视频样式配方(116B)将提取的特征(在音乐结构编码115中注释或标记的分段和时刻，如上所述)映射到特定的视觉效果。VFX设计器118生成包含一系列视觉效果配置的视频渲染任务。对于每个视觉效果配置，生成一组配置参数。参数为例如预构建的视频效果的名称、输入视频、开始和结束时间、效果期间的背轨音轨强度和声乐强度、效果期间的节拍时间信息、视频效果的特定控制参数等。配置中指定的视频效果可以被预构建和编码，以便直接由VFX渲染器119使用来渲染编码的视频效果。声乐强度和背向音轨强度用于驱动视觉效果。节拍时间信息用于将所应用的视频效果与音频对齐。

最后，图3C图示地描绘了声乐部分和分段到视觉布局、过渡、后处理视频效果和基于粒子的效果的示例性映射，例如可以表示为音乐结构编码115(回顾图3A)，或者在一些实施例中，由用于VFX设计的视频样式命名的配方(116B)表示以及用于VFX渲染的特定视频滤镜(116A)表示。例如，以计算方式确定的片段(前奏、主歌、过门、前副歌、桥段和尾奏)映射到特定的视觉布局、后处理效果和基于粒子的效果，其中片段之间存在编码的视觉过渡。

图4描绘了先前描述的信息流的变化。具体地，图4描绘了根据(一个或多个)本发明的一些实施例的主和客配置中的说明性移动电话类型便携式计算设备之间的流，其中视觉效果调度应用于现场流式传输的、二重唱式的分组视听性能。

在图4的说明中，当前主机设备101B的当前主用户至少部分地控制现场流122的内容，该现场流122缓冲到并被流式传输到设备120A、120B…120N上的观众。在所示配置中，当前客设备101A的当前客用户对当前主机设备101B对分组视听表演混音111作出贡献，该分组视听表演混音111由当前主设备101B作为现场流122提供(最终经由内容服务器110)。虽然处于简单的目的，设备120A、120B......120N，以及事实上当前客设备101A和当前主设备101B被示出为诸如移动电话的手持设备，但受益于本公开的本领域技术人员将理解，任何给定的观众成员可以在任何合适的计算机、智能电视、平板电脑上，通过机顶盒或其他支持流媒体的客户端接收现场流122。

在所示的配置中，在卡拉OK式的表演捕获的情境中捕获被混音以形成分组视听表演混音111的内容，其中歌词102、可选音调提示105和(通常)从内容服务器110向当前客设备101A和当前主设备101B中的一个或两个提供的背景音轨磁道107。当前主机(位于当前主设备101B上)通常对现场流进行最终控制，例如，从观众中选择特定用户(或多个用户)作为(一个或多个)当前客设备，从请求队列中选择特定歌曲(和/或歌曲的声乐部分，以用于特定用户)，和/或开始、停止或暂停分组AV表演。一旦当前主设备选择或批准客设备和/或歌曲，客设备用户可以(在一些实施例中)开始/停止/暂停用于本地可听渲染的背景音轨107A的运转，而是控制提供给当前主设备101B的客设备混音106(背景音轨运转与捕获的客设备视听内容混音)。当前客设备101A上的歌词102A的滚动和可选音调提示105A与背景音轨107A在时间上对应，并且类似地受到当前客设备的开始/停止/暂停控制。在一些情况下，背景音频和/或视频可以从媒体商店(如iTunes^TM)中获得，该媒体商店可从手持设备、机顶盒等访问。

如受益于本公开的本领域技术人员将理解的，在图4的客-主现场流配置中，分割和VFX引擎功能(如前所述，回顾图1，分割和VFX引擎112)的实例可以被分布到图4的主设备101B、客设备101A和现场流配置。因此，与图3A、图3B的分割和VFX引擎112相关的描述将被理解为类似地描述与图4的设备或组件相关的类似功能112A、1112B和/或112C的类似功能的实现方式。

通常，在根据图4的客-主现场流配置的实施例中，歌曲请求132是来源于观众的，并且通过到内容服务器110的内容选择和客设备队列控制逻辑112的信令路径来传送。主设备控制131和客设备控制133被图示为双向信令路径。基于本公开，将理解与所描述的操作一致的其它队列和控制逻辑配置，包括主设备或客设备控制的队列和/或歌曲选择。

尽管存在不可忽略的时间延迟(通常为100ms至250ms，但可能更多)，但当前主设备101B接收客设备混音106并将其以可听渲染为背景音轨，其中针对该背景音轨当前主设备的视听表演在当前主设备101B处捕获。在当前主设备101B处的歌词滚动102B和可选的音调提示105B在时间上与背景音轨相对应，此处，该背景音轨是是客设备混音106。考虑到当前客设备101A和当前主设备101B之间的对等通信信道中的时间延迟，以及对于客设备侧的开始/停止/暂停控制，为促进与客设备混音106的同步，可以在客设备混音中编码标记信标，以在屏幕上提供歌词102B和可选的音调提示105B的适当阶段控制。替代地，包括在客设备混音106中的任何背景音轨107A(或任何渗滤(bleed through)，如果背景音轨是被单独编码或传送的)的阶段分析可以用于在当前主设备101B处的屏幕上提供对歌词102B和可选的音调提示105B的适当的阶段控制。

应理解，当前客设备101A和当前主设备101B之间的对等通信信道中的时间延迟影响客设备混音106和相反方向上的通信(例如，主设备麦克风103C信号编码)。各种通信信道中的任一种可以用于传输视听信号和当前客设备101A和当前主设备101B之间，以及客设备101A、主设备101B之间，以及内容服务器110之间和观众设备120A、120B......120N和内容服务器110之间的控制。例如，各电信运营商无线设施和/或无线局域网以及各广域网网关(未示出)可以提供去往和来自设备101A、101B、120A、120B......120N的通信。基于本文的描述，本领域技术人员将认识到，各种数据通信设施中的任何一种，包括802.11Wi-Fi、蓝牙^TM、4G-LTE无线、有线数据网络、有线或无线视听互连(例如符合HDMI、AVI、Wi-Di标准或设施的)可被单独或组合使用来促进本文所述的通信和/或视听渲染。

用户声乐103A和103B在相应的手持设备101A、101B处被捕获，并且可以可选地被连续且实时地进行音调校正，并与本地适当的背景音轨(例如，当前客设备101A上的背景音轨107A，以及当前主设备101B上的客设备混音106)进行可听渲染混音，以向用户提供他/她自己的声乐表演的改进的音质再现。音调校正通常基于乐谱编码的音符集或提示(例如，分别在视觉上显示在当前客设备101A和当前主设备101B上的音调和和声提示105A，105B)，乐谱编码的音符集或提示为相应设备上执行的连续的音调校正算法提供当前声调或音阶中的目标音符的表演同步的序列。除表演同步的旋律目标外，乐谱编码的和声音符序列(或集合)还为音调变换算法提供了附加的目标(通常编码为相对于主旋律音符音轨的偏移，并且通常仅对其所选部分进行乐谱化)，以用于音调转换为用户自己的所捕获的声乐的和声版本。在一些情况下，音调校正设置可以是特定艺术家的特征，例如表演过与特定背景音轨相关联的声乐的艺术家。

一般地，歌词、旋律和和声音轨音符集以及相关的时间和控制信息可以封装在适当的容器或对象中(例如，在乐器数字接口(MIDI)或JavaScript对象简谱(json)类型格式中)，以与(一个或多个)背景音轨一起提供。使用这些信息，设备101A和101B(以及相关联的视听显示器和/或机顶盒设备，未具体示出)可以显示与(一个或多个)背景音轨的可听表演相对应的歌词以及甚至与目标音符、和声和当前检测到的声乐音调相关的视觉提示，以促进用户进行卡拉OK式的声乐表演。因此，如果演唱者选择了被Bruno Mars推广流行的“当我还是你另一半的时候(When I was your Man)”，则可以从内容服务器下载your_man.jsonand your_man.m4a(如果尚不可用或未基于先前的下载进行缓存)，然后将其用于提供背景音乐、同步歌词，以及在一些情况或实施例中，提供乐谱编码的音符音轨，以用于在用户演唱时提供连续实时的音调校正。可选地，至少对于特定的实施例或体裁，和声音符音轨可以被乐谱编码，以对所捕获的声乐进行和声转换。通常，所捕获的音调校正(可能和声化)的声乐表演以及表演同步视频被作为一个或多个视听文件本地保存在手持设备或机顶盒上，并且随后被压缩和编码以用于作为MPEG-4容器文件被传输到内容服务器110(例如，作为客设备混音106或分组视听表演混音111或其组成编码)。MPEG-4是一个用于互联网、移动网络和高级广播应用的数字多媒体内容的编码表示和传输的国际标准。如果需要，可以使用其他合适的编解码器、压缩技术、编码格式和/或容器。

如受益于本公开的本领域技术人员将理解的，可以对多个演唱者的表演(包括表演同步视频)进行加和和组合，例如形成二重唱式的表演、合唱俱乐部或声乐即兴表演。在本发明的一些实施例中，社交网络结构可至少部分代替或通知主设备控制地理上分布的演唱者的配对和/或地理上分布的虚拟合唱团的形成。例如，参考图4，单独的演唱者可以以被捕获的方式(通过声乐音频和表演同步视频)作为当前主设备和客设备用户进行表演，并最终作为现场流122被流式传播给观众。这样的所捕获的视听内容可以转而通过内容服务器介导的公开呼叫被分发给演唱者的社交媒体联系人、观众成员等。以这种方式，演唱者本人、观众成员(和/或代表他们的内容服务器或服务平台)可以邀请其他人参加协调的视听表演，或者作为观众或客设备队列的成员。

图5是示出了根据(一个或多个)本发明的一些实施例的信息传输的流程图，该信息传输有助于或涉及复合的视听表演的流程图，该复合的视听表演被分割，以提供用于视频效果映射的音乐结构。视频效果调度210为音乐结构的各个分割的元素指定特定的视觉布局或以情绪命名的视觉效果，例如基于粒子的效果、源视频之间的过渡、帧运动的动画、图案/纹理的矢量图形/图像、和/或颜色/饱和度/对比度。一般地，所应用的视频效果的强度是基于从所捕获的视听表演的强度度量(通常为声乐强度)而确定的，但在一些情况或实施例中，可以包括一个或多个音轨(包括背景音轨)的能量密度。在可在诸如手持设备101、101A或101B的用户设备处实现的信号处理流水线的图示配置中，用户/演唱者跟着背景音轨卡拉OK样式演唱。从麦克风输入201捕获的声乐被实时连续地音调校正(252)和和声化(255)，从而与背景音轨进行混音(253)，该混音在一个或多个声能换能器202处被可听渲染。

音调校正和添加的和声二者都被选择以对应于音乐乐谱的音调音轨207，在所示的配置中，音调音轨207以及歌词208和背景音轨209的音频编码被无线地传送(261)到(一个或多个)设备(例如，从内容服务器110到手持设备101或机顶盒设备，回顾图1)，将在该设备上执行声乐捕获和音调校正。

在图5的计算流程中，音调校正或转换的声乐可以被组合(254)或聚合，以与可听渲染的背景音轨混音(253)，和/或传输(262)到内容服务器110或远程设备(例如，手持设备120或520、电视和/或机顶盒设备，或一些其他的具有媒体能力的计算系统511)。在一些实施例中，可以在内容服务器110处执行音调校正或声乐的转换和/或视听表演的分割。

如前所述，受益于本发明的本领域技术人员将理解，在其他实施例中，可以在手持设备101、视听和/或机顶盒设备、或其他用户设备处部署如前所述的分割和VFX引擎功能的实例(回顾图1，分割和VFX引擎112)。因此，与图3A、3B和3C相关的分割和VFX引擎112的描述将被理解为类似地描述与图5的信号处理流水线相关的类似功能112D的实现。

图6是根据(一个或多个)本发明的一些实施例的硬件和软件组件的功能框图，该硬件和软件组件可在说明性移动电话式便携式计算设备处执行，以促进所捕获的视听表演的处理。在一些实施例中(回顾图1)，可以使用电视式显示器和/或机顶盒设备的设施来执行声乐音频和表演同步视频的捕获。然而，在其它实施例中，手持设备(例如，手持设备101)本身可以支持声乐音频和性能同步视频两者的捕获。

因此，图6示出了根据某些实现方式的基础信号处理流程，这些实现方式适用于移动电话式手持设备101捕获声乐音频和表演同步视频，以生成音调校正的和可选地和声化的声乐，以用于可听渲染(本地或在远程目标设备处)，以及与包括分割和视觉效果引擎112的内容服务器或服务平台110进行通信，从而对所捕获的视听表演进行分段以揭示音乐结构，基于所揭示的音乐结构，从视频效果调度中引用特定的视觉效果。如前所述，声乐强度被测量并用于(在一些实施例中)改变或调制以情绪命名的视觉效果。

多表演者视觉效应融合的示例性视觉效果

图7示出了根据(一个或多个)本发明的一些实施例的处理步骤和处理结果，该处理用于将颜色校正和以情绪命名的视频效果(参见图701B、702B)应用于分组表演的各个表演者(701A和702A)的视频，其中各个表演者的视频是使用相应的捕获设备的相机分开捕获的。图8A和图8B示出了在使用(802)和不使用(801)根据(一个或多个)本发明的一些实施例应用的视觉模糊技术的情况下的分组表演的视觉效应。

示例性移动设备和网络

图9示出了根据(一个或多个)本发明的一些实施例的可作为用于执行软件实现(包括视听捕获)的平台的移动设备的特征。具体地，图9示出了根据本发明的一些实施例的可作为用于执行软件实现的平台的移动设备的特征。更具体地，图9是移动设备900的框图，该移动设备900通常与商用版本的iPhone^TM移动数字设备一致。尽管本发明的实施例当然不限于iPhone部署或应用程序(甚至不限于iPhone类设备)，但是iPhone设备平台及其丰富的传感器、多媒体设施、应用程序编程接口和无线应用程序交付模型的补充，提供了用于部署某些实现的高性能的平台。基于本文的描述，本领域的普通技术人员理解可适用于(现在或以后)本文所述发明技术的给定实现或部署的广泛的其他的移动设备平台。

简而言之，移动设备900包括可对用户的触觉和/或触感接触敏感的显示器902。触摸显示器902可以支持多个触摸特征，处理多个同时触摸点，包括处理与每个触摸点的压力、程度和/或位置相关的数据。这样的处理有助于手势和通过多个手指进行的交互以及其他交互。当然，也可以使用其它触摸敏感显示技术，例如，使用触笔或其它定点设备进行接触的显示器。

通常，移动设备900在触摸敏感显示器902上呈现图形用户界面，从而提供对各种系统对象的用户访问，以及用于传送信息。在一些实现方式中，图形用户界面可以包括一个或多个显示对象904、906。在所示的示例中，显示对象904、906是系统对象的图形表示。系统对象的示例包括设备功能、应用、窗口、文件、警报、事件、或其他可识别的系统对象。在本发明的一些实施例中，应用程序当被执行时提供本文描述的数字声学功能中的至少一部分。通常，移动设备900支持网络连接，包括例如移动无线电和无线互联功能，以使得用户能够与移动设备900及其相关联的网络启用功能一起行进。在一些情况下，移动设备900可以与附近的其他设备交互(例如，通过Wi-Fi、蓝牙等)。例如，移动设备900可以被配置为与对等方或一个或多个设备的基站交互。因此，移动设备900可以授权或拒绝对其他无线设备的网络访问。

移动设备900包括各种输入/输出(I/O)设备、传感器和换能器。例如，扬声器960和麦克风962通常被包括以促进音频，例如，如本文其它地方所描述的声乐表演的捕获和背景音轨的可听渲染以及混音音调校正的声乐表演。在本发明的一些实施例中，扬声器960和麦克风962可以为本文描述的技术提供适当的换能器。可以包括外部扬声器端口964，以促进免提语音功能，例如扬声器电话功能。还可以包括音频插孔966，从而使用耳机和/或麦克风。在一些实施例中，外部扬声器和/或麦克风可以用作用于本文所述技术的换能器。

也可以使用或提供其他传感器。可以包括接近传感器968，以促进检测移动设备900的用户定位。在一些实现方式中，环境光传感器970可用于促进调整触摸敏感显示器902的亮度。如方向箭头974所示，加速计972可用于检测移动设备900的移动。因此，显示对象和/或媒体可以根据检测到的方向(例如，纵向或横向)来呈现。在一些实现方式中，移动设备900可以包括用于支持位置确定能力的电路和传感器，例如由全球定位系统(GPS)或其他定位系统(例如，使用Wi-Fi接入点、电视信号、蜂窝网格、统一资源定位器(URl)的系统)提供的位置确定能力，以促进本文所述的地理编码。移动设备900还包括相机镜头和成像传感器980。在一些实现方式中，相机镜头和传感器980的实例位于移动设备900的前表面和后表面上。相机允许捕获静止图像和/或视频，以与捕获到的音调校正的声乐相关联。

移动设备900还可以包括一个或多个无线通信子系统，例如802.11b/g/n/ac通信设备和/或蓝牙^TM通信设备988。还可以支持其他通信协议，包括其他802.x通信协议(例如WiMax、Wi-Fi、3G)、第四代协议和调制(4G-LTE)以及以上的协议(例如5G)、码分多址(CDMA)、全球移动通信系统(GSM)、增强数据GSM环境(EDGE)等。可以包括端口设备990(例如，通用串行总线(USB)端口、对接端口、或一些其他有线端口连接)，并且该端口设备990用于建立到其他计算设备(例如，其他通信设备900、网络接入设备、个人计算机、打印机，或能够接收和/或发送数据的其他处理设备)的有线连接。端口设备990还可以使用一个或多个协议(例如，TCP/IP、HTTP、UDP和任何其他已知协议)允许移动设备900与主设备同步。

图10是示出根据(一个或多个)本发明的一些实施例的示例性设备的协作的网络图。具体地，图10示出了符合本文功能描述的在视听捕获中采用并通过声乐音频和视频捕获代码、用户接口代码、音调校正代码、音频渲染流水线和回放代码编程的手持设备或便携式计算设备(例如移动设备1001)的各个实例。例如，第一设备实例被描述为应用于声乐音频和表演同步视频捕获，而设备实例1020A在呈现或回放模式下操作，以实现具有针对表演同步视频的动态视觉显著性的混音视听表演。另外的电视式显示器和/或机顶盒设备1020B被类似地描绘为在呈现或回放模式下操作，但如本文其它地方所述，这样的设备也可以作为声乐音频和表演同步视频捕获设施的一部分操作。上述设备中的每一个经由无线数据传输和/或中间网络1004与服务器1012或服务平台通信，服务器1012或服务平台托管如本文中关于内容服务器110所解释的(回顾图1、图4、图5和图6)存储和/或功能。所捕获的、音调校正的具有表演同步视频的声乐表演可以(可选地)被流式传输和在膝上型计算机1011处视听渲染，其中该声乐表演被混音，从而呈现应用了视觉效果混音的AV表演渲染(如本文所述)。

其他实施例

虽然参考了各实施例来描述(一个或多个)本发明，但是应当理解，这些实施例是说明性的，并且(一个或多个)本发明的范围不限于这些实施例。许多变化、修改、添加和改进都是可能的。例如，虽然说明和描述了特定视频效果、过渡和视听混音技术，但受益于本公开的本领域的技术人员将理解，适合于给定的部署、实现方式、音乐体裁或用户人口统计的许多变化和适应体。同样，虽然已经描述了根据卡拉OK式界面捕获的音调校正声乐表演，但是其他变体和适应体将被理解。此外，虽然在某些说明性应用和设备/系统配置的上下文中描述了某些说明性信号处理技术，本领域普通技术人员将认识到修改所描述的技术以适应其他合适的信号处理技术和效果是简单的。

根据本发明的实施例可以采用计算机程序产品的形式(和/或被提供为计算及程产品)，该计算及程序产品编码在机器可读介质中作为软件的指令序列和其他功能结构，该计算机程序产品可以在计算系统(例如iPhone手持设备、移动或便捷式计算设备、或内容服务器平台)中执行，以执行本文中描述的方法。一般而言，机器可读介质可以包括有形物品，其以机器(例如计算机、移动设备或便携式计算设备的计算设备)可读的形式(例如，作为应用、源代码或目标代码、功能描述信息等)对信息进行编码，以及对信息传输有关的有形存储。机器可读介质可以包括但不限于磁存储介质(例如磁盘和/或磁带存储)；光存储介质(例如CD-ROM、DVD等)；磁光存储介质；只读存储器(ROM)；随机存取存储器(RAM)；可擦除可编程存储器(例如，EPROM和EEPROM)；闪存；或适用于存储电子指令、操作序列、功能描述信息编码等的其他类型的介质。

一般地，可以为本文中描述为单个实例的组件、操作或结构提供多个实例。各组件、操作和数据存储之间的边界在一定程度上是任意的，并且在特定说明性配置的上下文中示出了特定操作。设想功能的其他分配，并且该分配可落入(一个或多个)本发明的范围。一般而言，在示例性配置中呈现为单独的组件的结构和功能可以实现为组合结构或组件。类似地，表示为单个组件的结构和功能可以实现为单独的组件。这些和其他变化、修改、添加和改进可以落入(一个或多个)本发明的范围。

Claims

1.一种用于处理视听表演的方法，包括：

访问第一视听表演的机器可读编码，所述第一视听表演作为具有表演同步视频的声乐音频而被捕获，并且所述第一视听表演具有至少包括音乐片段边界的关联的音乐结构编码，所述音乐片段边界被编码为与所述第一视听表演编码在时间上对准；

将第一视觉效果调度应用于所述第一视听表演编码的至少一部分，其中，所应用的视觉效果调度针对所述第一视听表演编码的不同音乐结构元素对不同的视觉效果进行编码，并且提供与所编码的音乐片段边界中的至少一些音乐片段边界在时间上对准的视觉效果过渡。

2.根据权利要求1所述的方法，还包括：

至少分割所述第一视听表演编码的音轨，以提供所述关联的音乐结构编码。

3.根据权利要求1所述的方法，

其中，所述关联的音乐结构编码包括分组部分或音乐片段元数据。

4.根据权利要求1所述的方法，

其中，所述不同的视觉效果在程度上不同，或在类型上不同，或在这两者上都不同。

5.根据权利要求1所述的方法，还包括：

从多个视觉效果调度中选择所述第一视觉效果调度。

6.根据权利要求5所述的方法，

其中，所述选择是基于至少针对所捕获的声乐音频而以计算方式确定的情绪的。

7.根据权利要求5所述的方法，

其中，所述选择是基于由所述声乐音频的表演者进行的用户界面选择的，所述用户界面选择是在捕获所述声乐音频之前进行的或与之同时进行的。

8.根据权利要求5所述的方法，还包括：

从以情绪命名的所述多个视觉效果调度中选择第二视觉效果调度，所述第二视觉效果调度与所述第一视觉效果调度不同；以及

将所述第二视觉效果调度应用于所述第一视听表演编码的至少一部分。

9.根据权利要求5所述的方法，还包括：

将所述第一视听表演流式传输到一个或多个远程客户端设备处的观众。

10.根据权利要求9所述的方法，

其中，流式传输的第一视听表演与背景音轨的编码混音，所述声乐音频是针对该背景音轨捕获的。

11.根据权利要求9所述的方法，

其中，流式传输的第一视听表演是在被应用了所述第一视觉效果调度的情况下被流式传输的。

12.根据权利要求8所述的方法，还包括：

提供所应用的视觉效果调度的标识，以用于远程客户端设备中的一个或多个远程客户端设备处的视频效果渲染。

13.根据权利要求5所述的方法，还包括：

从、向、或经由内容服务器或服务平台，把所述第一视听表演至少与针对一个或多个所应用的视觉效果调度的标识符一起进行传输。

14.根据权利要求5所述的方法，

其中，所述选择是基于在所述第一视听表演的视听渲染期间或视听渲染之前进行的用户界面选择的。

15.根据权利要求14所述的方法，还包括：

在所述第一视听表演的所述视听渲染之后，从以情绪命名的所述多个视觉效果调度选择第二视觉效果调度，所述第二视觉效果调度与所述第一视觉效果调度不同；以及

16.根据权利要求5所述的方法，

其中，针对特定的以情绪命名的视觉效果调度，情绪值被参数化为二维量，其中，情绪参数化的第一维度对情感进行编码，并且其中，所述情绪参数化的第二维度对强度进行编码。

17.根据权利要求16所述的方法，还包括：

基于以下各项中的一项或多项来确定所述情绪参数化的强度维度：(i)通过所述声乐音频来以计算方式确定的时变音频信号强度或声乐能量密度度量，以及(ii)背景音轨的节拍、节奏、信号强度或能量密度。

18.根据权利要求1所述的方法，还包括：

对所述第一视听表演编码进行分割，以识别所述不同的音乐结构元素。

19.根据权利要求18所述的方法，

其中，所述分割至少部分地基于对声乐强度以计算方式进行的确定，其中至少一些分割边界被约束为与从相应的音频背景音轨以计算方式提取的节拍或节奏在时间上对准。

20.根据权利要求18所述的方法，

其中，所述分割至少部分地基于相似性分析，所述相似性分析是对时间上对准的歌词音轨以计算方式执行的，以将第一视听表演编码的特定部分分类为主歌或副歌。

21.根据权利要求1所述的方法，还包括：

对与所述第一视听表演编码相关联的音频背景音轨进行分割，以识别所述不同的音乐结构元素。

22.根据权利要求1所述的方法，其中，针对所应用的视觉效果调度的给定元素，由所应用的视觉效果调度编码的所述不同的视觉效果包括以下各项中的一项或多项：

基于粒子的效果或镜头光晕；

不同源视频之间的过渡或不同源视频的布局；

源视频中的帧的动画或运动；

图案或纹理的矢量图形或图像；以及

颜色、饱和度或对比度。

23.根据权利要求1所述的方法，其中，针对所应用的视觉效果调度的给定元素，由所应用的视觉效果调度编码的所述不同的视觉效果包括以下中各项中的一项或多项：

声乐表演者的面部、头部或身体的视频图像的视觉增强或装饰；以及

背景消除。

24.根据权利要求1所述的方法，

其中，所述关联的音乐结构对不同类型的音乐片段进行编码；并且

其中，所应用的视觉效果调度针对所编码的音乐片段中不同的音乐片段定义不同的视觉效果。

25.根据权利要求1所述的方法，

其中，所述关联的音乐结构对事件或过渡进行编码；并且

其中，所应用的视觉效果调度针对所编码的事件或过渡中的不同的事件或过渡定义不同的视觉效果。

26.根据权利要求1所述的方法，其中，所述机器可读编码还对第二视听表演的至少一部分进行编码，所述第二视听表演作为具有表演同步视频的第二声乐音频被捕获，所述第一视听表演和所述第二视听表演组成分组表演。

27.根据权利要求26所述的方法，

其中，所述关联的音乐结构对分组部分进行编码，并且

其中，所应用的视觉效果调度针对与所编码的音乐结构相对应的特定表演同步视频在时间上有选择性。

28.根据权利要求26所述的方法，

其中，所述第一视听表演和所述第二视听表演呈现为二重唱。

29.根据权利要求26所述的方法，

其中，针对至少一些音乐结构元素，所应用的视觉效果调度对所述分组表演中的各个表演者的表演同步视频的颜色匹配进行编码。

30.根据权利要求26所述的方法，

其中，针对至少一些音乐结构元素，所应用的视觉效果调度对所述分组表演中的各个表演者的表演同步视频之间的界面处的视觉模糊或交融进行编码。

31.根据权利要求26所述的方法，

其中，所述第一视听表演和所述第二视听表演是针对公共的背景音轨而捕获的。

32.根据权利要求1至27中任一项所述的方法，还包括：

在联网声乐捕获设备处捕获所述第一视听表演，所述联网声乐捕获设备与内容服务器或服务平台通信地耦合，所述音乐结构编码是从所述内容服务器或所述服务平台提供的。

33.根据权利要求32所述的方法，

其中，所述视听表演捕获是根据卡拉OK式操作机制在所述联网声乐捕获设备处执行的，在所述卡拉OK式操作机制中歌词与背景音轨的可听渲染相对应地被视觉呈现。

34.根据权利要求1至27中任一项所述的方法，

所述方法至少部分地在内容服务器或服务平台上执行，所述内容服务器或所述服务平台与地理上分布的联网声乐捕获设备通信地耦合。

35.根据权利要求1至27中任一项所述的方法，

所述方法至少部分地在联网声乐捕获设备上执行，所述联网声乐捕获设备与内容服务器或服务平台通信地耦合。

36.根据权利要求1至27中任一项所述的方法，

所述方法至少部分地体现为在内容服务器或服务平台上可执行的指令的计算机程序产品编码，所述内容服务器或服务平台与地理上分布的多个联网声乐捕获设备通信地耦合。

37.一种用于处理视听表演的系统，包括：

地理上分布的一组联网设备，所述设备被配置为捕获视听表演，所述视听表演包括具有表演同步视频的声乐音频；以及

服务平台，所述服务平台被配置为(i)接收所捕获的视听表演的编码，以及与关联的音乐结构编码相对应地(ii)将特定视觉效果调度应用于所述视听表演编码的至少一部分，所述关联的音乐结构编码至少包括音乐片段边界，所述音乐片段边界被编码为与所述视听表演编码在时间上对准，

其中，所应用的视觉效果调度针对所述视听表演编码的不同的音乐结构元素对不同的视觉效果进行编码，并且提供与所编码的音乐片段边界中的至少一些音乐片段边界在时间上对准的视觉效果过渡。

38.根据权利要求37所述的系统，

其中，所述服务平台被配置为：响应于用户或表演者的选择，改变所应用的视觉效果调度，并将所得到的捕获的视听表演提供给所述地理上分布的联网设备中的各个设备，以在其上进行视听渲染。

39.根据权利要求38所述的系统，

其中，所应用的视觉效果调度是从多个视觉效果调度中选择的。

40.一种用于处理视听表演的系统，包括：

联网设备的至少主客配对，其中主设备和客设备被配置为至少捕获声乐音频；并且

所述主设备被配置为(i)从所述客设备接收至少声乐音频的各个编码中的编码，以及与关联的音乐结构编码相对应地(ii)将所选择的视觉效果调度应用于视听表演编码，所述关联的音乐结构编码至少包括音乐片段边界，所述音乐片段边界被编码为与所述视听表演编码在时间上对准，

41.根据权利要求40所述的系统，

所述主设备和所述客设备经由通信网络而作为本地对等端和远程对等端被耦合，针对视听内容的传输具有不可忽略的对等延迟，所述主设备作为所述本地对等端被通信地耦合以接收混音音频表演的媒体编码，所述混音音频表演组成在所述客设备处捕获的声乐音频，并且所述客设备作为所述远程对等端被通信地耦合以提供所述媒体编码，所述媒体编码是从所述表演者中的第一表演者捕获并与背景音轨混音的。

42.根据权利要求40所述的系统，

其中，关联的音乐结构编码是基于至少对从所述客设备接收的音轨的分割而在所述主设备处以计算方式确定的。

43.根据权利要求40所述的系统，

所述主设备被配置为将所述视听表演编码渲染为混音视听表演，所述混音视听表演包括来自所述表演者中的第一表演者和第二表演者的声乐音频和表演同步视频，并且将所述视听表演编码以应用了所选择的视觉效果调度、看起来是现场广播的形式来传输。