CN113302945A

CN113302945A - 用于捕获的视听表演的增强现实过滤器

Info

Publication number: CN113302945A
Application number: CN201980089530.9A
Authority: CN
Inventors: 大卫·施坦维尔; 安东·霍姆伯格; 哈维尔·维勒加斯; 保罗·T·池; 大卫·杨; 佩里·R·库克
Original assignee: Smule Inc
Current assignee: Smule Inc
Priority date: 2018-12-03
Filing date: 2019-12-03
Publication date: 2021-08-24
Also published as: US20220051448A1; EP3892001A1; WO2020117823A1; EP3892001A4; ZA202104513B

Abstract

视觉效果，包括增强现实类型的视觉效果，被应用于视听表演，该视听表演具有根据以计算方式确定的音频特征或编码在经时间同步的音轨中的音乐结构元素或从其计算确定的音乐结构元素而应用的不同的视觉效果和/或其参数。应用于一个或多个音频音轨(例如，人声或背景音轨)的分段技术用于计算音乐结构的一些组成部分。在一些情况下，应用视觉效果基于从所捕获的视听表演或与其时间同步的音频音轨中以计算方式提取的音频特征。

Description

用于捕获的视听表演的增强现实过滤器

技术领域

本发明总体涉及人声音频表演的捕获和/或处理，尤其涉及适用于以与从音频、视频或视听编码中以计算方式提取的音频或视觉特征一致的方式、或与表演的音乐结构或基本结构一致的方式将所选增强现实类型的视觉效果应用于表演同步的视频的技术。

背景技术

移动电话和便携式计算设备的安装基数在绝对数量和计算能力上每天都在增长。它们无处不在，深深扎根于世界各地人们的生活方式中，几乎跨越了每一个文化和经济障碍。从计算上讲，当前的移动电话提供的速度和存储能力可与不到十年前的台式电脑相比，使它们非常适合实时声音合成和其他音乐应用。结果之一是，一些现代移动电话(例如，苹果公司(Apple Inc.)推出的如

手持数字设备)能够相当好地支持音频和视频播放。

类似于传统的声学仪器，移动电话可以作为私人的声音产生和捕获设备。然而，与大多数传统仪器相比，它们的声学带宽和功率被限制。尽管如此，尽管存在这些缺点，但移动电话确实具有普遍性、数量优势和超移动性的优势，这使得(至少在理论上)几乎可以随时随地将艺术家聚集在一起进行表演。已经在多个研究机构中对移动音乐领域进行了探索。实际上，最近关于诸如Smule Ocarina^TM、Smule Magic Piano、以及Smule Sing！Karaoke^TM(均可从Smule,Inc.获得)等应用的经验显示了可以以提供引人入胜的用户体验的方式提供先进的数字声学技术。

随着数字声学研究人员寻求将他们的创新转化到可部署到现代手持设备的商业应用中，呈现了重大的实际挑战，所述现代手持设备为例如可以在现实世界约束(由处理器、存储器和它们的其他受限的计算资源导致)中或在典型为无限网络的通信带宽和传输延迟约束中进行操作的

手持设备和其他平台。期望改进的技术和功能性性能，特别是对于视频和增强现实而言。

发明内容

已发现，尽管移动设备平台和应用程序执行环境施加了许多实际限制，但仍可以捕获或操纵视听表演(包括声乐音乐)，并且(在一些情况下)视听表演可以与其他用户的视听表演进行协调，以创造引人入胜的用户体验。在一些情况下，在与背景音轨的可听渲染相对应的卡拉OK式歌词呈现的情境下，在移动设备上或使用机顶盒式设备捕获个人用户的声乐表演(以及表演同步视频)。在一些情况下，可以结合卡拉OK式歌词呈现向演唱者呈现音调提示，以及，可选地，可以提供连续的自动音调校正(或将音调转换为和声)。

在一些情况或实施例中，用户的声乐音频以及表演同步视频被捕获并与其他用的视听贡献进行协调以形成复合的二重唱式或合唱团式或玻璃窗音乐视频式的视听表演。在一些情况下，在与背景音轨的可听渲染相对应的与卡拉OK式歌词呈现的情境下，在移动设备、电视式显示器和/或机顶盒设备上捕获个人用户的声乐表演(以及表演同步视频)。多个演唱者的贡献可以以在给定表演时间线上的任何给定时间处选择贡献者中的一个或多个的表演同步视频用于呈现的方式被协调和混音。选择提供了视觉布局序列，该视觉布局序列与表演乐谱的其他编码的方面相对应，该其他方面为例如音调音轨、背景音频、歌词、片段和/或声乐部分。

视觉效果时间表(schedule)(包括增强现实类型(AR类型)被应用于视听表演，其中与音乐结构的不同元素相对应地应用不同的视觉效果。在一些情况下，应用于一个或多个音轨(例如，声乐或背景音轨)的分段技术被用于计算音乐结构的一些成分。在一些情况下，所应用的视觉效果时间表是以情绪命名的，并且其可以由表演者选择作为他或她的视觉表情的成分或者可以使用机器学习技术从视听表演中确定。

AR类型视觉效果是基于以下各项中的一项或多项而计算确定或参数化的：(i)从所捕获的视听表演或从与其时间同步的背景音轨中提取的音频特征，(ii)在与所捕获的(一个或多个)视听表演时间同步的乐谱中编码的音乐结构元素，以及(iii)与所捕获的(一个或多个)视听表演或可由此计算确定的特征/结构时间同步的歌词。通常，应用的AR类型视觉效果(例如，视觉音阶(scale)、视野中的运动、时间、颜色、强度或亮度等)的一个或多个属性是基于这些音频特征、音乐结构元素或歌词而被计算确定或参数化的。可以设想在手持设备处近乎实时地应用和呈现AR类型视觉效果的实施例，以及在网络连接的服务器或云驻留服务平台处执行视觉效果应用和视听呈现以提供流式传输的(或可流式传输的)内容的实施例。还可以设想针对单个和多个表演者(例如，二重唱风格或更大聚合的)视听表演内容的实施例。

在根据本发明的一些实施例中，一种方法，包括：访问与时间同步的背景音轨、乐谱和歌词相关联地捕获的视听表演的计算机可读编码，以及使用一种或多种应用视觉效果来增强视听表演的呈现，其中，应用视觉效果中的至少一种的视觉音阶、视野中的运动、时间、颜色或强度基于从视听表演或从经时间同步的背景音轨中以计算方式提取的音频特征。

在一些情况或实施例中，应用视觉效果中的至少一种的视觉音阶、视野中的运动、时间、颜色或强度基于编码在经时间同步的乐谱或歌词中的音乐结构元素或从时间同步的乐谱或歌词中计算确定的音乐结构元素。在一些情况或实施例中，应用视觉效果中的至少一种包括歌词中的文本的表演同步呈现，其中，视觉音阶、视野中的运动、时间、所呈现文本的字体颜色或亮度基于从视听表演或经时间同步的背景音轨中提取的音频特征或基于编码在经时间同步的乐谱或歌词中的音乐结构元或从时间同步的乐谱或歌词中以计算方式确定的音乐结构元素。

在根据本发明的一些实施例中，一种方法，包括：访问与经时间同步的背景音轨、乐谱和歌词相关联地捕获的视听表演的计算机可读编码，以及使用一种或多种应用视觉效果来增强视听表演的呈现，其中，应用视觉效果中的至少一种的视觉音阶、视野中的运动、时间、颜色或强度基于编码在时间同步的乐谱或歌词中的音乐结构元素或从经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素。

在一些情况或实施例中，应用视觉效果中的至少一种的视觉音阶、视野中的运动、时间、颜色或强度基于从视听表演或经时间同步的背景音轨中以计算方式提取的音频特征。在一些情况或实施例中，应用视觉效果中的至少一种包括歌词中的文本的表演同步呈现，其中，视觉音阶、视野中的运动、时间、所呈现文本的字体颜色或亮度基于从视听表演或经时间同步的背景音轨中提取的音频特征或基于编码在经时间同步的乐谱或歌词中的音乐结构元素或从经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素。

在根据本发明的一些实施例中，一种方法，包括：访问与经时间同步的背景音轨、乐谱和歌词相关联地捕获的视听表演的计算机可读编码，以及利用一种或多种应用视觉效果来增强视听表演的呈现，其中，应用视觉效果中的至少一种包括歌词中的文本的表演同步呈现，其中，视觉音阶、视野中的运动、时间、所呈现文本的字体颜色或亮度基于从视听表演或经时间同步的背景音轨中提取的音频特征或基于编码在经时间同步的乐谱或歌词中的音乐结构元素或从经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素。

在一些情况或实施例中，应用视觉效果中的至少一种的视觉音阶、视野中的运动、时间、颜色或强度基于从视听表演或经时间同步的背景音轨中以计算方式提取的音频特征。在一些情况或实施例中，应用视觉效果中的至少一种的视觉音阶、视野中的运动、时间、颜色或强度基于编码在经时间同步的乐谱或歌词中的音乐结构元素或从经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素。

在一些情况或实施例中，应用视觉效果至少部分地基于从观众的成员接收到的输入而被控制，或者应用视觉效果包括至少部分地基于输入的内容，其中，视听表演被流式传输到观众。在一些情况或实施例中，该方法还包括：接收来自观众的成员的喜欢/喜爱或点赞/点踩指示，并且基于该指示来呈现应用视觉效果。在一些情况或实施例中，该方法还包括：接收来自观众的至少一名成员的聊天流量，并且基于接收到的聊天流量的量、内容或关键词来呈现应用视觉效果。在一些情况或实施例中，应用视觉效果包括并从视觉上呈现来自接收到的聊天流量的内容或关键词。

在一些情况或实施例中，该方法进一步包括：经由通信网络从远程便携式计算设备来接收访问的编码，视听表演是在远程便携式计算设备处与以下项相关联地被捕获的：经时间同步的背景音轨的卡拉OK风格的可听呈现、经时间同步的歌词的视觉呈现、以及与经时间同步的乐谱相对应的音调提示的视觉呈现。

在一些情况或实施例中，该方法还包括：与以下项相关联地捕获视听表演：经时间同步的背景音轨的卡拉OK风格的可听呈现、经时间同步的歌词的视觉呈现、以及与经时间同步的乐谱相对应的音调提示的视觉呈现。

在一些情况或实施例中，该方法还包括：与经时间同步的歌词的卡拉OK风格的视觉呈现相关联地捕获第二视听表演，所捕获的第二视听表演包括第二表演者的表演同步视频；以及将所捕获的第二视听表演与第一视听表演进行合成，以产生所访问的视听表演，其中，第一视听表演包括第一表演者的表演同步视频，其中，利用一种或多种应用视频效果的增强被应用于在视野中检测到的第一表演者视觉信息和第二表演者视觉信息中的一者或两者。在一些情况或实施例中，所捕获的第一视听表演和第二视听表演在合成和增强之后呈现为二重唱。

在一些情况或实施例中，应用视觉效果包括：对在所捕获的视听表演的视野中检测到的声乐表演者的面部或身体视觉进行动态渲染的视觉增强。在一些情况或实施例中，对面部或身体视觉进行动态渲染的视觉增强包括以下各项中的一项或多项：合成纹身视觉信息，该视觉信息增强在所捕获的视听表演的视野中检测到的声乐表演者的面部或身体视觉信息；合成的耳朵、鼻子、头发、天线、帽子或眼镜视觉信息，该视觉信息增强在所捕获的视听表演的视野中检测到的声乐表演者的面部视觉信息；对在所捕获的视听表演的视野中检测到的声乐表演者的眼睛、嘴巴或耳朵的扭曲；以及在所捕获的视听表演的视野中检测到的声乐表演者的视觉化身的呈现。

在一些情况或实施例中，应用视觉效果包括以下各项中的一项或多项：基于粒子的效果或镜头光晕；不同源视频之间的转换或不同源视频的布局；源视频内的帧的动画或运动；图案或纹理的矢量图形或图像；以及颜色、饱和度或对比度。在一些情况或实施例中，应用视觉效果被应用到以下各项中的一项或作为以下各项中的一项：在视野中检测到的声乐表演者；合成前景；在背景中检测到的视觉特征；以及合成背景。在一些情况或实施例中，应用视觉效果包括：检测到的反射表面的经动态渲染的视觉增强或所捕获的视听表演的合成增强，用于包括表观的反射表面，其中，经动态渲染的视觉增强呈现表演同步的第二声乐表演者视觉信息，作为在所检测到的反射表面或表观的反射表面中的表观映像。

在一些情况或实施例中，应用视觉效果包括以下各项中的一项或两项：合成背景，其中，所捕获的视听表演的去背景版本是依托合成背景而呈现的；以及在视觉上叠加的合成前景。

在一些情况或实施例中，提取的音频特征包括以下各项中的一项或多项：从所捕获的视听表演的声乐音频中以计算方式确定的时变音频信号强度或音频能量密度度量；以计算方式确定的亮度、呼吸或颤音度量；以及背景音频音轨的节拍、节奏、信号强度或能量密度。

在一些情况或实施例中，该方法进一步包括：对视听表演编码的声乐音频音轨进行分段，以提供以计算方式提取的音频特征。在一些情况或实施例中，分段是至少部分地基于对声乐强度的计算确定，其中，至少一些分段边界被限制以与从经时间同步的背景音轨中以计算方式提取的节拍或节奏在时间上对齐。在一些情况或实施例中，分段至少部分地基于对经时间同步的歌词以计算方式执行的相似性分析，以将视听表演编码的特定部分分类为诗歌或合唱。在一些情况或实施例中，该方法还包括：对经时间同步的背景音轨进行分段，以提供以计算方式提取的音频特征。

在一些情况或实施例中，该方法所述方法至少部分地在内容服务器或服务平台上执行，其中，地理上分散并由网络连接的声乐捕获设备通信地耦合到该内容服务器或服务平台。在一些情况或实施例中，该方法至少部分地在由网络连接的声乐捕获设备上执行，该设备通信地耦合到内容服务器或服务平台。在一些情况或实施例中，该方法至少部分地在由网络连接的声乐捕获设备上执行，由网络连接的声乐捕获设备通信地耦合到至少一个其他的由网络连接的声乐捕获设备，其中，由网络连接的声乐捕获设备作为主设备，至少一个其他的由网络连接的声乐捕获设备用作配对客设备。

在一些情况或实施例中，该方法至少部分地由能够在如下的内容服务器或服务平台上执行的指令的计算机程序产品编码来实现：多个地理上分散的、由网络连接的声乐捕获设备通信地耦合到内容服务器或服务平台。在一些情况或实施例中，该方法至少部分地由能够在如下的由网络连接的声乐捕获设备上执行的指令的计算机程序产品编码来实现：在由网络连接的声乐捕获设备上，视听表演的增强呈现在听觉上和视觉上呈现给人类用户。

在一些情况或实施例中，经时间同步的乐谱对不同类型的音乐片段进行编码；并且应用视觉效果包括针对不同的经编码音乐片段的不同视觉效果。在一些情况或实施例中，提取的音频特征对应于视听表演中的一个或多个事件或转换；并且应用视觉效果使用针对不同事件或转换的不同视觉效果来增强视听表演。

在根据本发明的一些实施例中，一种系统，包括：网络连接设备的至少主设备和客设备对，被配置为至少捕获声乐音频；主设备被配置为：(i)从客设备接收至少声乐音频的编码，(ii)将接收到的至少声乐音频的编码与本地捕获的视听表演进行合成，并且(iii)基于从声乐音频、本地捕获的视听表演、相关联的背景音轨或所得的经合成视听表演编码中以计算方式提取的音频特征，使用一种或多种应用视觉效果来增强经合成视听表演编码，其中，应用视觉效果中的至少一种应用视觉效果的视觉音阶、视野中的运动、时间、颜色或强度基于以计算方式提取的音频特征。

在根据本发明的一些实施例中，一种系统，包括：网络连接设备的至少主设备和客设备对，被配置为至少捕获声乐音频；主设备被配置为：(i)从客设备接收至少声乐音频的编码，(ii)将接收到的至少声乐音频的编码与本地捕获的视听表演进行合成，并且(iii)基于编码在经时间同步的乐谱或歌词中的音乐结构元素或从经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素，利用一种或多种应用视觉效果来增强经合成视听表演编码，其中，应用视觉效果中的至少一种应用视觉效果的视觉音阶、视野中的运动、时间、颜色或强度基于所编码的音乐结构元素或以计算方式确定的音乐结构元素。

在根据本发明的一些实施例中，一种系统，包括：网络连接设备的至少主设备和客设备对，被配置为至少捕获声乐音频；主设备被配置为(i)从客设备接收至少声乐音频的编码，(ii)将接收到的至少声乐音频的编码与本地捕获的视听表演、以及从视听表演中提取的音频特征或从经时间同步的背景音轨中提取的音频特征进行合成，或(iii)基于编码在经时间同步的乐谱或歌词中的音乐结构元素或从经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素，利用一种或多种应用视觉效果来增强经合成视听表演编码，其中，应用视觉效果中的至少一种应用视觉效果包括表演同步歌词中的文本的表演同步呈现，其中，视觉音阶、视野中的运动、时间、所呈现文本的字体颜色或亮度基于提取的音频特征或所编码的音乐结构元素或以计算方式确定的音乐结构元素。

在一些情况或实施例中，主设备和客设备经由具有不可忽略的对等延迟的通信网络耦合为本地对等方和远程对等方，以用于传输视听内容，其中，主设备通信地耦合为本地对等方，用于接收包括人声音频的媒体编码，并且其中，客设备通信地耦合为远程对等方，用于提供从第一表演者捕获的并且与相关联的背景音轨混合的媒体编码。

在一些情况或实施例中，主设备被配置为将视听表演编码呈现为混合视听表演并且将视听表演编码作为应用了增强视觉效果的表观的现场直播进行传输，其中，混合视听表演包括来自第一表演者和第二表演者的声乐音频和表演同步视频。

在根据本发明的一些实施例中，一种系统，包括：在地理上分散的一组网络连接设备，被配置为捕获包括声乐音频和表演同步视频的视听表演；以及服务平台，被配置为：(i)接收所捕获的视听表演的编码，(ii)对接收到的编码进行合成，并且(iii)基于从接收到的编码或所得的经合成视听表演编码之一中以计算方式提取的音频特征，利用一种或多种应用视觉效果来增强经合成视听表演编码，其中，应用视觉效果中的至少一种应用视觉效果的视觉音阶、视野中的运动、时间、颜色或强度基于以计算方式提取的音频特征。

在根据本发明的一些实施例中，一种系统，包括：在地理上分散的一组网络连接设备，被配置为捕获包括声乐音频和表演同步视频的视听表演；以及服务平台，被配置为：(i)接收所捕获的视听表演的编码，(ii)对接收到的编码进行合成，并且(iii)基于编码在经时间同步的乐谱或歌词中的音乐结构元素或从经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素，利用一种或多种应用视觉效果来增强经合成视听表演编码，其中，应用视觉效果中的至少一种应用视觉效果的视觉音阶、视野中的运动、时间、颜色或强度基于经编码的音乐结构元素或以计算方式确定的音乐结构元素。

在根据本发明的一些实施例中，一种系统，包括：在地理上分散的一组网络连接的设备，被配置为捕获包括声乐音频和表演同步视频的视听表演；以及服务平台，被配置为：(i)接收所捕获的视听表演的编码，(ii)对接收到的编码进行合成，并且(iii)基于从视听表演或经合成视听表演之一或从经时间同步的背景音轨中提取的音频特征，或者基于编码在经时间同步的乐谱或歌词中的音乐结构元素或从经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素，利用一种或多种应用视觉效果来增强经合成视听表演编码，其中，应用视觉效果中的至少一种应用视觉效果包括表演同步歌词中的文本的表演同步呈现，其中，视觉音阶、视野中的运动、时间、所呈现文本的字体颜色或亮度基于提取的音频特征或经编码的音乐结构元素或以计算方式确定的音乐结构元素。

根据(一个或多个)本发明的这些和其他实施例将参考随后的描述和所附权利要求来理解。

附图说明

参考附图通过示例而非限制地示出本发明，在附图中，相似的附图标记通常表示相似的元素或特征。

图1描绘了根据(一个或多个)本发明的一些实施例的示意性移动电话式便携式计算设备、电视式显示器、机顶盒式媒体应用平台以及示例性内容服务器之间的信息流，其中增强现实类型的视觉效果时间表应用于视听表演。

图2A、图2B和图2C是沿协调视听表演时间线的声乐表演同步视频的连续快照，其中，根据本发明的一些实施例，两个贡献的演唱者中的一者、另一者或这两者的视频具有基于情绪和基于以计算方式定义的音频特征(例如在所捕获的声乐上计算的声音强度)应用的声乐效果。

图3A、图3B和图3C示出了根据(一个或多个)本发明的一些实施例的分段和视频效果(VFX)引擎的示例性实现方式。图3A描绘了涉及音乐结构的示例性编码的信息流，而图3B描绘了关注示例性VFX渲染流水线的替代视图。最后，图3C图示地描绘了声乐部分和分段到视觉布局、转换、后处理视频效果和基于粒子的效果的示例性映射。

图4描绘了根据(一个或多个)本发明的一些实施例的主和客配置中的说明性移动电话式便携式计算设备之间的信息流，其中视觉效果时间表被应用于现场流式传播的、二重唱式的分组视听表演。

图5是示出了根据(一个或多个)本发明的一些实施例的信息传输的流程图，该信息传输有助于或涉及复合的视听表演的流程图，该复合的视听表演被分段，以提供用于视频效果映射的音乐结构。

图6是根据(一个或多个)本发明的一些实施例的硬件和软件组件的功能框图，该硬件和软件组件可在说明性移动电话式便携式计算设备处执行，以促进所捕获的视听表演的处理。

图7示出了根据(一个或多个)本发明的一些实施例的处理步骤和处理结果，该处理用于将颜色校正和以情绪命名的视频效果应用于分组表演的各个表演者的视频，其中各个表演者的视频是使用相应的捕获设备的相机分开捕获的。

图8A和图8B示出了在使用和不使用根据(一个或多个)本发明的一些实施例应用的视觉模糊技术的情况下的分组表演的视觉信息(visuals)。

图9、图10和图11示出了根据本发明的一些实施例应用的基于提取的音频特征或经编码或计算确定的音乐结构元素的增强现实类型的视觉效果，包括对象覆盖、化身、合成纹身和其他面部装饰、眼睛过滤器、反射表面效果、基于歌词的增强和面部变形类型效果的使用。

图12示出了根据(一个或多个)本发明的一些实施例的移动设备的特征，该移动设备可以充当用于执行软件实现的平台，该软件实现包括视听捕获。

图13是根据(一个或多个)本发明的一些实施例的示出了示例性设备的协作的网络图。

技术人员将理解，附图中的元素或特征是为了简单和清楚而示出的，并且不一定按比例绘制。例如，某些所示的元件或特征的尺寸或显著性相对于其他元件或特征可能被放大，以帮助改进对本发明实施例的理解。

具体实施方式

已经开发了一些技术，以用于对便携式计算设备和客厅式娱乐设备上的视听表演进行捕获、音调校正、和声化、编码和/或渲染。可以捕获声乐音频以及表演同步视频，并将其与其他用户的视听贡献进行协调，以形成二重唱式或合唱团式或玻璃窗音乐(window-paned)视频式视听表演。在一些情况下，在与背景音轨的可听渲染一致的卡拉OK式歌词呈现的情境下，在移动设备、电视式显示器和/或机顶盒设备上捕获个人用户的声乐表演(以及表演同步视频)。在一些情况下，可以结合卡拉OK式歌词呈现向演唱者呈现音调提示，可选地，可以提供连续的自动音调校正(或将音调转换为和声)。

通常，以选择用于呈现的方式对多个演唱者的贡献进行协调和混音，并且在给定表演时间线上的给定时间将以情绪命名的视觉效果应用于贡献者中的一个或多个的表演同步视频。在一些情况或实施例中，(一个或多个)本发明的技术甚至可以应用于单个表演者的视听内容。通常，选择是根据某些音轨的分段来进行的，以确定视听表演的音乐结构。编码在视频效果时间表中或定义在过滤器中的以下项被应用于视听表演的各个部分：基于音乐结构、基于粒子的效果、视频源之间的转换、动画或帧运动、矢量图形或图案/纹理图像、颜色/饱和度/对比度和/或其他视觉效果，包括增强现实类型(AR类型)的视觉效果。

以这种方式，视觉效果与表演的编码方面或诸如声乐音轨、背景音频、歌词、片段和/或声乐部分等特征对应地被应用。在给定视听表演的整个过程中，所应用的视觉效果基于所执行的分段和/或基于针对一个或多个声乐音轨以计算方式确定的声乐强度而变化。在VR类型视觉效果的情况下，应用的视觉效果及其动态特性可以基于这样的分段、人声强度、时间同步的歌词和/或在时间同步的乐谱中编码的音乐结构元素以计算方式来确定。

一般地，对于给定的歌曲，歌曲的音乐结构的各个方面对于从以情绪命名的视觉效果时间表中应用的特定视觉效果具有可选性，并且强度度量(通常是声乐强度，但在一些情况下，是非声乐音频的功率密度)被用于调节或以其他方式控制所应用的视觉效果的大小或显著程度。例如，在一些情况、情境或实施例中，来自例如{主歌、副歌、主歌、副歌、桥段......}的歌曲形式被用于约束该映射。在一些情况下，例如在二重唱中，声乐部分序列(例如，你唱一行，我唱一行，你唱两个词，我唱三个，我们一起唱......)提供用于创建视觉布局序列的结构信息。在一些情况、情境或实施例中，歌曲的构建强度(例如，通过声功率、节奏或某些其他度量来测量)可对于应用于特定声乐效果时间表的特定视觉效果具有选择性。

可选地，在一些情况或实施例中，声乐音频可以根据音调校正设置在声乐捕获设备处(例如，在便携式计算设备，例如移动电话、个人数字助理、膝上型计算机、笔记本计算机、平板型计算机或上网本处)实时地进行音调校正。在一些情况下，音调校正设置为声乐表演或其部分编码特定的音调或乐谱。在一些情况下，音调校正设置包括与歌词和背景音轨一起提供的或与之相关联的乐谱编码旋律和/或和声序列。如果需要的话，和声音符或和弦可以被编码为显式的目标，或者相对于乐谱编码的旋律或者甚至是演唱者所发出的实际音调进行编码。机器可用的乐器数字接口式(MIDI式)编码可用于歌词、背景音轨、音符目标、声乐部分(例如，声乐部分1、声乐部分2等一起)、音乐片段信息(例如，前奏/尾奏部分、主歌、前副歌、副歌、桥段、转换和/或其他片段编码)等。在一些情况或实施例中，传统的MIDI式编码可被扩展为也对要应用的乐谱对齐的视觉效果的进程进行编码。

基于音调校正的声乐、具有视觉效果(包括AR类型视觉效果)的表演同步视频和乐谱编码的和声混音的引人注目和变革性质，用户/演唱者可以克服与分享他们的声乐表演相关的自然的害羞或焦虑。相反，即使是地理上分散的演唱者也被鼓励与朋友和家人分享，或者合作和贡献声乐表演，作为社交音乐网络的一部分。在一些实现方式中，这些互动通过社交网络和/或电子邮件介导的表演分享和加入团体表演的邀请来促进。使用在诸如上述便携式计算设备的客户端捕获的上传的声乐，内容服务器(或服务)可以通过处理和混音多个贡献的演唱者上传的视听内容来调和这样的协调表演。取决于特定系统的目标和实现方式，除了视频内容之外，上传的内容还可以包括音调校正的声乐表演(其具有或不具有和声)、干的(即未校正的)声乐、原始视频、和/或用户声调的控制音轨、视觉效果时间表/AR过滤器、和/或音调校正选择等。

社交音乐可以通过各种方式进行调和。例如，在一些实现方式中，第一用户的声乐表演作为种子表演被提供给其他潜在的声乐表演者，该第一用户的声乐表演在便携式计算设备处针对背景音轨而被捕获，并且通常根据乐谱编码的旋律和/或和声提示而被校正音调。表演同步视频也被捕获，并且可以与音调校正的所捕获的声乐一起提供所提供的声乐通常与背景乐器/声乐混音，并形成用于捕获第二(可能是相继的)用户声乐的背景音轨。通常，相继的声乐贡献者在地理上是分离的，并且可能彼此未知(至少是先验的)，但是声乐的亲密度以及协作经验本身往往会将这种分离最小化。随着连续的声乐表演和视频被捕获(例如，在各自的便携式计算设备处)并作为社交音乐体验的一部分而被添加，针对其捕获各自声乐的背景音轨可以演变为包括先前捕获的、其他贡献者的声乐。

在一些情况下，声乐(以及通常同步的视频)作为现场或非脚本表演的一部分被捕获，其中该表演具有协作贡献者之间的声乐互动(例如二重唱或对话)。可以设想，在至少一些协作贡献者之间存在不可忽略的网络通信延迟，特别是在那些贡献者在地理上分离的情况下。因此，存在以组合的视听表演仍然可以以作为直播互动协作而呈现给接收者、听众和/或观看者的方式来传播(例如，广播)的方式来管理延迟和所捕获的视听内容的技术挑战。

美国申请No.15/944,537，其通过引用并入本文，详述了应对此类挑战的各种合适的技术方案。例如，在一种用于实现现场互动表演协作的复制的技术中，实际的和不可忽略的网络通信延迟(实际上)在客表演者和主表演者之间的一个方向上被掩饰(mask)，而在另一个方向上被容忍。例如，在主表演者的“现场秀”互联网广播上的捕获的客表演者的视听表演可以包括以看起来是实时同步方式演唱的客表演者+主表演者二重唱。在一些情况下，客表演者可以是将特定的音乐表演推广流行的表演者。在一些情况下，客表演者可以是业余演唱者，有机会“在录音室”与作为主表演者(或与之在一起)的流行艺术家或团体一起“现场”(尽管是远程的)演唱。尽管传送客表演者的视听贡献流时涉及不可忽略的从客表演者到主表演者的网络通信延迟(可为200至500ms或更大)，但主表演者与客表演者在表观上同步地进行表演(尽管在绝对意义上在时间上相对于客表演者是滞后的)，该表观上同步地表演的声乐被捕获并与客表演者的贡献进行混音以供广播或传播。

其结果是看起来是现场互动表演(至少从所传播或广播的表演的主表演者和接收者、听众和/或观众的角度来看)。虽然从客表演者到主表演者的网络通信延迟是不可忽略的，但是应理解，在主表演者到客表演者的方向上存在延迟并且该延迟被容忍。然而，虽然主表演者到客表演者的延迟对客表演者来说是可识别的(也许是相当明显的)，但在看起来是现场广播或其他传播中，该延迟不必是明显的。已经发现，主表演者的声乐的延迟的可听渲染(或者更普遍地说，主持人捕获的视听表现)不必在心理声学上干扰客表演者的表演。

表演同步视频可以被捕获并包括在构成看起来是现场广播的组合视听表演中，其中视觉效果可以至少部分地基于从所捕获的声乐音频中提取的(或在其上计算的)时变的、计算定义的音频特征。在一些情况或实施例中，在协调视听混音的过程中，这些计算定义的音频特征对于贡献的演唱者中的一个或多个的特定同步视频(或其显著性)具有选择性。

在一些情况下，令人着迷的视觉动画和/或听众评论和打分的设施，以及二重唱、合唱团或合唱组的形成或加和逻辑与例如在另一个类似配置的移动设备处捕获和音调校正的声乐表演的可听渲染联合提供，该声乐表演与背景乐器和/或声乐混音。合成的和声和/或附加的声乐(例如，从在其他位置的另一个演唱者捕获的声乐，并且可选地被音调变换以与其他声乐和声)也可以包括在混音中。所捕获的声乐表演(或对分组表演的个体贡献)的地理编码和/或听众反馈可以以提示来自用户操纵地球仪上的特定地理位置的表演或认可的方式来促进动画或显示伪像。通过这种方式，所描述功能的实现可以将原本平凡的移动设备转变为培养全球连通性、协作性和社区感的社交工具。

卡拉OK式声乐表演捕获

使用移动电话式和/或电视式视听设备进行的音调校正的、卡拉OK式的声乐捕获提供了有用的描述性情境，但(一个或多个)本发明的实施例不限于此。类似地，虽然(一个或多个)本发明的实施例不限于多表演者情境，协调的多表演者视听内容(包括异步捕获或准备的多声乐内容，或通过本文中所述的延迟管理技术来捕获和现场直播的多声乐内容)提供了有用的描述性情境。

在例如图1所示的实施例中，苹果公司(Apple Inc.)推出的

手持设备(或者更一般地，手持设备101)托管与内容服务器110协同执行的软件，以提供声乐捕获和对所捕获的声乐的连续实时的乐谱编码的音调校正以及和声化。可以使用相机来捕获表演同步视频，该相机由电视或其他视听媒体设备101A或诸如Apple TV^TM设备的连接的机顶盒设备(101B)提供(或与连接)。还可以使用由手持设备101提供的机载相机捕获来表演同步视频。

如典型的卡拉OK式应用(例如，由Smule,Inc.推出的Sing！Karaoke^TM应用)，乐器和/或声乐的背景音轨可以被可听见地呈现给用户/演唱者，以针对其进行演唱。在这样的情况下，可以将歌词与可听渲染(104，104A)相对应地进行显示(102，102A)，以协助用户的卡拉OK式声乐表演。在图1所示的配置中，歌词、时间信息、音调和和声提示(105)、背景音轨(例如，乐器/声乐)、表演协调视频、视频效果的时间表(107)等都可以来源于联网内容服务器110。在一些情况或情景下，可以从诸如iTunes^TM媒体库等的媒体商店或驻留在手持设备、机顶盒、媒体流设备等上(或可从以上设备中访问)的其他视听内容商店中获得背景音频和/或视频。

为了简单起见，可以假定无线局域网180提供手持设备101、任何视听和/或机顶盒设备和到托管服务平台(例如，内容服务器110)的广域网网关之间的通信。图10描绘了示例性网络配置。然而，基于本文中的描述，本领域技术人员将认识到，可以单独地或组合地使用多种数据通信设施中的任何一种，包括802.11Wi-Fi、Bluetooth^TM、4G-LTE无限、有线数据网络、有线或无限视听互联(例如，符合HDMI、AVI、Wi-Di标准的设施)，以促进本文中描述的通信和/或视听渲染。

再次参考图1中的示例，在手持设备101处捕获用户声乐103，并且可选地在手持设备处或使用视听显示器和/或机顶盒设备(101B)的计算设施连续实时地进行音调校正，并且与背景音轨可听地混音呈现(参见104、104A)，以向用户提供他/她自己的声乐表演的改进的音调质量再现。注意，虽然所捕获的声乐103和可听渲染104、104A是使用以手持设备101或电视/视听媒体设备101A的麦克风和扬声器设施为中心的视觉符号示出的，但受益于本公开的本领域技术人员将理解，在许多情况下，麦克风和扬声器功能可以使用连接或无线连接的耳塞、耳机、扬声器、反馈隔离麦克风等提供。因此，除非特别限制，否则应广泛地理解声乐捕获和可听渲染，而不应局限于特定的音频换能器配置。

音调校正(如果提供)通常基于乐谱编码的音符集或提示(例如，音调和和声提示105)，乐谱编码的音符集或提示提供连续的音调校正算法，该算法具有当前音调或音阶中的目标音符的表演同步序列。除表演同步旋律目标外，乐谱编码的和声音符序列(或集合)还可以提供音调变换算法，以将音调变换为用户自己的所捕获的声乐的和声版本，其中该算法具有附加目标(其通常被编码为相对于主旋律音符音轨的偏移，并且通常仅针对其中选中的部分进行编码)。在一些情况下，音调校正设置可以是特定艺术家的特征，例如，与特定背景音轨相关联的最初表演(或使之流行)的艺术家的声乐。

此外，歌词、旋律和和声音轨音符设置和相关的时间和控制信息可以作为编码在适当容器或对象中的乐谱而封装(例如，编码在预期数字接口(MIDI)、或Java Script对象简谱(json)类型格式)，以将其与(一个或多个)背景音轨一起提供。通过使用这样的信息，手持设备101、视听显示器101A和/或机顶盒设备(或两者)可以显示与(一个或多个)背景音轨的可听表演对应的歌词以及甚至与目标音符、和声和当前检测的声乐音调相关的视觉提示，以协助由用户进行的卡拉OK式声乐表演。因此，如果演唱者选择了被Bruno Mars推广流行的“当我还是你另一半的时候(When I was your Man)”，则可以从内容服务器110下载your_man.json and your_man.m4a(如果尚不可用或未基于先前的下载进行缓存)，然后将其用于提供背景音乐、同步歌词，以及在一些情况或实施例中，提供乐谱编码的音符音轨，以用于在用户演唱时提供连续实时的音调校正。

可选地，至少对于某些实施例或体裁，和声音符音轨可以被乐谱编码以对所捕获的声乐进行和声变换。通常，所捕获的音调校正的(可能被和声化)声乐表演以及表演同步视频一起作为一个或多个视听文件而本地地保存在手持设备或机顶盒上，并且后续被压缩和编码，以作为MPEG-4容器文件上传到(106)内容服务器110上。MPEG-4是一个用于互联网、移动网络和高级广播应用的数字多媒体内容的编码表示和传输的国际标准。如果需要，可以使用其他合适的编解码器、压缩技术、编码格式和/或容器。

根据实现方式，干声乐和/或音调校正的声乐的编码可以被上传(106)到内容服务器110。通常，这样的声乐(例如编码在MPEG-4容器中或其他位置)无论是已经被音调校正或在内容服务器110处被音调校正的之后都可以与例如背景音频和其他捕获的(并且可能被音调变换的)声乐表演混音(111)，以产生根据特定目标或网络(例如，手持设备120、视听显示器和/或机顶盒设备、社交媒体平台等)的能力或限制而选择的质量或编码特性的文件或流。

如本文中进一步详细描述的，多个演唱者的表演(包括表演同步视频)可以被加和和组合，例如呈现为二重唱式的表演、合唱团、玻璃窗音乐视频式风格或声乐即兴演出。在一些实施例中，表演同步视频贡献(例如，图1中所示，表演同步视频122包括在手持设备101处或使用视听和/或机顶盒设备101A、101B捕获的表演)可以在所得的混音视听表演渲染123中呈现，其中在整个混音视听表演渲染123中应用视频效果并且该视频效果动态变化。应用到其上的视频效果至少部分地基于以下项的应用：基于用户选择或(i)计算确定的音频特征，(ii)在时间同步的音频音轨、乐谱或歌词中编码或从时间同步的音频音轨、乐谱或歌词中以计算方式确定的音乐结构元素，或(iii)情绪而选择(113)的视频效果(VFX)时间表。在一些情况或实施例中，一个或多个VFX时间表可以是可应用于呈现特定情绪的以情绪命名的配方和/或过滤器。分段和VFX引擎112确定音乐结构，并根据所选择的视频效果应用特定的视觉效果。一般地，所应用的特定视觉效果基于声乐和/或背景音轨音频的分段(以识别音频特征)、所确定或编码的音乐结构、所选择或检测的情绪或风格以及以计算方式确定的声乐或音频强度。

AR类型视觉效果通常是动态的并跟踪所捕获的视频。面部图像识别和跟踪技术通常使用可从Apple或Google相关实体获得的应用编程接口(API)来提供，以用在iOS和Android操作系统应用中。然而，除了使用这种面部跟踪API提供的图像增强动态之外，本文设想的AR类型视觉效果还包括动态和/或基于音频特征和/或在时间同步的音频音轨、乐谱或歌词中编码或从时间同步的音频音轨、乐谱或歌词中以计算方式确定的音乐结构元素的属性，例如视觉音阶、视野中的运动、时间、颜色、强度或亮度等。

在以情绪命名的配置或使用中，VFX时间表选择可以由手持设备101的用户进行或者使用视听和/或机顶盒设备101A、101B来进行。例如，用户可以选择以情绪命名的VFX时间表，该时间表包括选择的视频效果，该视频效果用于提供“悲伤”或“忧郁”视频处理效果的调色板。一个这样的调色板可以提供和应用与所确定或编码的音乐结构相关的过滤器，该过滤器提供倾向于引起“悲伤”或“忧郁”情绪的颜色、饱和度和对比度，并且该调色板通过很少视觉能量来提供源视频之间的转换和/或包括基于粒子的效果，该基于粒子的效果呈现雨、雾或其他与所选择的情绪一致的效果。其他调色板可以提供和应用同样与所确定或编码的音乐结构相关的过滤器，该过滤器提供倾向于唤起“活泼”或“精力充沛”的情绪的颜色、饱和度和对比度，该其他调色板通过显著视觉能量或运动来提供源视频之间的转换，包含镜头光晕或基于粒子的效果，该基于粒子的效果通过气泡、气球、烟花或其他与所选择的情绪一致的视觉特征来增强视觉场景。

在一些实施例中，给定VFX时间表的配方和/或过滤器可以例如基于从音频表演中提取的计算特征(例如，平均声能)或者基于背景音轨的节奏、节拍或音频能量而被参数化。在一些情况或实施例中，可以采用歌词或音乐选择元数据来进行VFX时间表选择。一般而言，将在说明书的上下文以及权利要求中理解，在一些情况或实施例中，例如，当用户或贡献的演唱者或后处理视频编辑器寻求创建特定情绪(无论是该情绪是“悲伤”、“沉思”、“活泼”还是“浪漫”)时，视觉效果时间表可被反复地选择并应用于给定的表演或部分表演。.

为了最初说明的简单起见，图1描绘了表演106的表演同步音频(103)和视频(105)捕获，该表演106被上传到内容服务器110(或服务平台)并分发给一个或多个潜在的贡献的演唱者或表演者，例如，作为其他贡献的演唱者或表演者(#2、#3......#N)针对其捕获其他视听(AV)表演的种子表演。图1描绘了其他捕获的AV表演#2、#3.....#N的提供，其用于在内容服务器110处进行音频混音和视觉布置111，以产生表演同步视频122。一般地，应用的视觉效果可以根据特定的视觉效果时间表和一个或多个组成AV表演的分段在整个混音视听表演渲染123中变化。在一些情况下，分段可以基于声乐音频的信号处理和/或基于预编码的音乐结构，包括声乐部分或片段符号、短语或歌词的重复结构等。

图2A、图2B和图2C是沿着协调视听表演时间线151的声乐表演同步视频的连续快照191、192和193，其中，根据本发明的一些实施例，以视频123为例，两个贡献的演唱者中的另一个或两者具有基于情绪和基于计算定义的音频特征(例如在所捕获的声乐上计算的声音强度)应用的声乐效果。尽管图2A、图2B和图2C不试图准确地描绘特定的视频效果(这些视频效果往往是动态的，并且在视觉上是微妙的)，但受益于本公开的普通技术人员将理解，对于协调视听表演的第一部分(由快照191表示)，基于表演者的相应的所选择或检测到的情绪以及基于特定表演的声乐强度，VFX被应用于个人表演者的表演同步视频。对于协调视听表演的第二部分(由快照192表示)，基于所选择的或检测到的表演者的情绪和当前的声乐强度，VFX被应用于单个表演者的表演同步视频。最后，对于协调视听表演的第三部分(例如，由快照193表示的合唱)，基于表演者的联合的或合成的情绪(无论是检测到的还是所选择的)和联合声音强度的当前度量，VFX被应用于的两个表演者的表演同步视频。

如受益于本公开有益的本领域技术人员将理解的，表演时间线151携带跨各音频分段边界、跨片段和/或组合部分转换并通过分立时刻的表演同步视频，使得快照191、192和193将被期望在表演时间线的不同部分基于音频的音乐结构应用特定VFX时间表的不同方面(例如，VFX时间表的不同VFX配方和VFX过滤器)。

图3A、图3B和图3C示出了根据(一个或多个)本发明的一些实施例的分段和视频效果(VFX)引擎112(回顾图1)的示例性实现方式。特别地，图3A描绘了涉及音乐结构115的示例性编码的信息流，在该音乐结构115中，提取表演同步声乐音轨(例如，声音#1和声音#2)和背景音轨的音频特征，以为音乐结构编码115提供分段和注释。

特征提取和分段117提供音乐结构编码115的注释和转换标记，以在视频渲染119之前应用来自所选择的视觉效果时间表的配方和过滤器。例如，在所示的示例性实现方式中，特征提取和分段对以下进行操作：

·声乐：分段“演唱”和“非演唱”、瞬时响度、每个分段的相对响度。

·背景音轨：节奏、瞬时响度、节奏检测。

·midi文件：音调、和声、歌词、“部分”布置标记(每个演唱者应该演唱的时间)。

在示例性实现方式中，声乐音轨被视为包括演唱分段和静默分段。特征提取寻求将独唱声带的部分分为静默分段和歌唱分段。对于部分1和部分2的二重唱音轨，特征提取寻求将它们分为静默分段、部分1演唱分担、部分2演唱分段和一起演唱分段。接下来，执行分段分类。例如，在一些实现方式中，计算每个分段的全局平均声乐强度和平均声乐强度，以确定每个分段相对于特定演唱者的歌曲表演的“音乐强度”。换句话说，分段算法观察以确定给定的片段是“较大声”的片段，还是“较安静”的片段。在某些实现中，还从歌词元数据中检索每个歌词行的开始时间和结束时间，以协助分段分类。有效的分段类型和分类标准包括：

·前奏：第一歌词行开始之前的(一个或多个)分段。

·主歌：该分段的强度低于演唱者的平均声乐强度。

·桥段：类似于主歌，但位于歌曲的后半部分。

·前副歌：副歌分段前的分段。

·过门：静默分段，但不是前奏也不是尾奏分段。

·尾奏：最后歌词行的结尾之后的(一个或多个)分段。

除了从所捕获的视听表演的人声音频计算确定的音频信号强度或音频能量密度的时变度量之外，受益于本公开的本领域技术人员将理解的是，可以从视听表演编码和/或时间同步的音轨中提取的附加音频特征，其可以反过来触发或参数化应用的视觉效果，包括VR类型的视觉效果，如本文所述。例如，在一些情况或实施例中，可以采用亮度、呼吸或颤音的计算确定的度量。

特征提取和分段117还可以包括进一步的音频信号处理，以提取背景音轨中的节拍和强拍的时间，并将所确定的片段与强拍对准。在一些实现方式中，计算每分钟节拍数(BPM)来确定歌曲的节奏，并使用声乐强度和音调信息来识别高潮、保持和渐强等时刻。例如，时刻类型和分类标准可以包括：

·高潮：如果分段具有最高的声乐强度，则该分段也被标记为高潮分段。

·保持：如果音符的音调长度超过预定阈值。

·渐强：具有增强音调的音符序列。

通常，这些和其他注释和分段可以与样式、配方和过滤器一起使用，以提供表演驱动的视觉效果。

图3B描绘了将其视觉效果时间表分解为用于VFX设计的视频样式命名的配方(116B)和用于示例性VFX渲染流水线中的特定视频过滤器(116A)的实施例的附加细节。视频样式可以是用户选择的，或者在一些实施例中，视频样式可以基于以计算方式确定的音频特征、音乐结构的元素或情绪来选择。一般地，对于给定的视频样式，为特定的歌曲节奏、录制类型(独唱、二重唱或合作艺术家)等定义和专门化了多个配方。配方通常定义每个分段类型或时刻的视觉效果，如布局、转换、后处理、颜色过滤、水印和徽标。基于所确定的歌曲的节奏和录制类型，从其集合(116B)中选择适当的配方。

VFX设计器118基于所选择的视频样式配方(116B)将提取的特征(在音乐结构编码115中注释或标记的分段和时刻，如上所述)映射到特定的视觉效果。VFX设计器118生成包含一系列视觉效果配置的视频渲染任务。对于每个视觉效果配置，生成一组配置参数。参数为例如预构建的视频效果的名称、输入视频、开始和结束时间、效果期间的背轨音轨强度和声乐强度、效果期间的节拍时间信息、视频效果的特定控制参数等。在配置中指定的视频效果可以被预先构建和编码以供VFX渲染器119直接使用以渲染所编码的视频效果。节拍时间信息通常用于将应用的视频效果与音频进行对齐。AR类型视觉效果通常是动态的，并且具有基于在时间同步的音频音轨、乐谱或歌词中编码或从时间同步的音频音轨、乐谱或歌词中计算确定的音频特征和/或音乐结构元素的属性，例如视觉音阶、视野中的运动、时间、颜色、强度或亮度等。例如，人声强度和背景音轨强度用于驱动一些视觉效果。同样，视觉效果可能由从表演同步的音频音轨或MIDI编码的乐谱、歌词或片段中的分段、节拍分析或歌词重复中计算确定的乐谱编码的元素或音乐结构来驱动。

最后，图3C图示地描绘了声乐部分和分段到视觉布局、转换、后处理视频效果和基于粒子的效果的示例性映射，例如可以表示为音乐结构编码115(回顾图3A)，或者在一些实施例中，由用于VFX设计的视频样式命名的配方(116B)表示以及用于VFX渲染的特定视频过滤器(116A)表示。例如，以计算方式确定的片段(前奏、主歌、过门、前副歌、桥段和尾奏)映射到特定的视觉布局、后处理效果和基于粒子的效果，其中片段之间存在编码的视觉转换。

图4描绘了先前描述的信息流的变化。具体地，图4描绘了根据(一个或多个)本发明的一些实施例的主和客配置中的说明性移动电话类型便携式计算设备之间的流，其中视觉效果时间表应用于现场流式传输的、二重唱式的分组视听性能。

在图4的说明中，当前主机设备101B的当前主用户至少部分地控制现场流122的内容，该现场流122缓冲到并被流式传输到设备120A、120B…120N上的观众。在所示配置中，当前客设备101A的当前客用户对当前主机设备101B对分组视听表演混音111作出贡献，该分组视听表演混音111由当前主设备101B作为现场流122提供(最终经由内容服务器110)。虽然处于简单的目的，设备120A、120B......120N，以及事实上当前客设备101A和当前主设备101B被示出为诸如移动电话的手持设备，但受益于本公开的本领域技术人员将理解，任何给定的观众成员可以在任何合适的计算机、智能电视、平板电脑上，通过机顶盒或其他支持流媒体的客户端接收现场流122。

在所示的配置中，在卡拉OK式的表演捕获的情境中捕获被混音以形成分组视听表演混音111的内容，其中歌词102、可选音调提示105和(通常)从内容服务器110向当前客设备101A和当前主设备101B中的一个或两个提供的背景音轨磁道107。当前主机(位于当前主设备101B上)通常对现场流进行最终控制，例如，从观众中选择特定用户(或多个用户)作为(一个或多个)当前客设备，从请求队列中选择特定歌曲(和/或歌曲的声乐部分，以用于特定用户)，和/或开始、停止或暂停分组AV表演。一旦当前主设备选择或批准客设备和/或歌曲，客设备用户可以(在一些实施例中)开始/停止/暂停用于本地可听渲染的背景音轨107A的运转，而是控制提供给当前主设备101B的客设备混音106(背景音轨运转与捕获的客设备视听内容混音)。当前客设备101A上的歌词102A的滚动和可选音调提示105A与背景音轨107A在时间上对应，并且类似地受到当前客设备的开始/停止/暂停控制。在一些情况下，背景音频和/或视频可以从媒体商店(如iTunes^TM)中获得，该媒体商店可从手持设备、机顶盒等访问。

如受益于本公开的本领域技术人员将理解的，在图4的客-主现场流配置中，分段和VFX引擎功能(如前所述，回顾图1，分段和VFX引擎112)的实例可以被分布到图4的主设备101B、客设备101A和现场流配置。因此，与图3A、图3B的分段和VFX引擎112相关的描述将被理解为类似地描述与图4的设备或组件相关的类似功能112A、1112B和/或112C的类似功能的实现方式。

通常，在根据图4的客-主现场流配置的实施例中，歌曲请求132是来源于观众的，并且通过到内容服务器110的内容选择和客设备队列控制逻辑112的信令路径来传送。主设备控制131和客设备控制133被图示为双向信令路径。基于本公开，将理解与所描述的操作一致的其它队列和控制逻辑配置，包括主设备或客设备控制的队列和/或歌曲选择。

尽管存在不可忽略的时间延迟(通常为100ms至250ms，但可能更多)，但当前主设备101B接收客设备混音106并将其以可听渲染为背景音轨，其中针对该背景音轨当前主设备的视听表演在当前主设备101B处捕获。在当前主设备101B处的歌词滚动102B和可选的音调提示105B在时间上与背景音轨相对应，此处，该背景音轨是是客设备混音106。考虑到当前客设备101A和当前主设备101B之间的对等通信信道中的时间延迟，以及对于客设备侧的开始/停止/暂停控制，为促进与客设备混音106的同步，可以在客设备混音中编码标记信标，以在屏幕上提供歌词102B和可选的音调提示105B的适当阶段控制。替代地，包括在客设备混音106中的任何背景音轨107A(或任何渗滤(bleed through)，如果背景音轨是被单独编码或传送的)的阶段分析可以用于在当前主设备101B处的屏幕上提供对歌词102B和可选的音调提示105B的适当的阶段控制。

应理解，当前客设备101A和当前主设备101B之间的对等通信信道中的时间延迟影响客设备混音106和相反方向上的通信(例如，主设备麦克风103C信号编码)。各种通信信道中的任一种可以用于传输视听信号和当前客设备101A和当前主设备101B之间，以及客设备101A、主设备101B之间，以及内容服务器110之间和观众设备120A、120B......120N和内容服务器110之间的控制。例如，各电信运营商无线设施和/或无线局域网以及各广域网网关(未示出)可以提供去往和来自设备101A、101B、120A、120B......120N的通信。基于本文的描述，本领域技术人员将认识到，各种数据通信设施中的任何一种，包括802.11Wi-Fi、蓝牙^TM、4G-LTE无线、有线数据网络、有线或无线视听互连(例如符合HDMI、AVI、Wi-Di标准或设施的)可被单独或组合使用来促进本文所述的通信和/或视听渲染。

用户声乐103A和103B在相应的手持设备101A、101B处被捕获，并且可以可选地被连续且实时地进行音调校正，并与本地适当的背景音轨(例如，当前客设备101A上的背景音轨107A，以及当前主设备101B上的客设备混音106)进行可听渲染混音，以向用户提供他/她自己的声乐表演的改进的音质再现。音调校正通常基于乐谱编码的音符集或提示(例如，分别在视觉上显示在当前客设备101A和当前主设备101B上的音调和和声提示105A，105B)，乐谱编码的音符集或提示为相应设备上执行的连续的音调校正算法提供当前声调或音阶中的目标音符的表演同步的序列。除表演同步的旋律目标外，乐谱编码的和声音符序列(或集合)还为音调变换算法提供了附加的目标(通常编码为相对于主旋律音符音轨的偏移，并且通常仅对其所选部分进行乐谱化)，以用于音调转换为用户自己的所捕获的声乐的和声版本。在一些情况下，音调校正设置可以是特定艺术家的特征，例如表演过与特定背景音轨相关联的声乐的艺术家。

一般地，歌词、旋律和和声音轨音符集以及相关的时间和控制信息可以封装在适当的容器或对象中(例如，在乐器数字接口(MIDI)或Java Script对象简谱(json)类型格式中)，以与(一个或多个)背景音轨一起提供。使用这些信息，设备101A和101B(以及相关联的视听显示器和/或机顶盒设备，未具体示出)可以显示与(一个或多个)背景音轨的可听表演相对应的歌词以及甚至与目标音符、和声和当前检测到的声乐音调相关的视觉提示，以促进用户进行卡拉OK式的声乐表演。因此，如果演唱者选择了被Bruno Mars推广流行的“当我还是你另一半的时候(When I was your Man)”，则可以从内容服务器下载your_man.jsonand your_man.m4a(如果尚不可用或未基于先前的下载进行缓存)，然后将其用于提供背景音乐、同步歌词，以及在一些情况或实施例中，提供乐谱编码的音符音轨，以用于在用户演唱时提供连续实时的音调校正。可选地，至少对于特定的实施例或体裁，和声音符音轨可以被乐谱编码，以对所捕获的声乐进行和声转换。通常，所捕获的音调校正(可能和声化)的声乐表演以及表演同步视频被作为一个或多个视听文件本地保存在手持设备或机顶盒上，并且随后被压缩和编码以用于作为MPEG-4容器文件被传输到内容服务器110(例如，作为客设备混音106或分组视听表演混音111或其组成编码)。MPEG-4是一个用于互联网、移动网络和高级广播应用的数字多媒体内容的编码表示和传输的国际标准。如果需要，可以使用其他合适的编解码器、压缩技术、编码格式和/或容器。

如受益于本公开的本领域技术人员将理解的，可以对多个演唱者的表演(包括表演同步视频)进行加和和组合，例如形成二重唱式的表演、合唱俱乐部或声乐即兴表演。在本发明的一些实施例中，社交网络结构可至少部分代替或通知主设备控制地理上分布的演唱者的配对和/或地理上分布的虚拟合唱团的形成。例如，参考图4，单独的演唱者可以以被捕获的方式(通过声乐音频和表演同步视频)作为当前主设备和客设备用户进行表演，并最终作为现场流122被流式传播给观众。这样的所捕获的视听内容可以转而通过内容服务器介导的公开呼叫被分发给演唱者的社交媒体联系人、观众成员等。以这种方式，演唱者本人、观众成员(和/或代表他们的内容服务器或服务平台)可以邀请其他人参加协调的视听表演，或者作为观众或客设备队列的成员。

图5是示出了根据(一个或多个)本发明的一些实施例的信息传输的流程图，该信息传输有助于或涉及复合的视听表演的流程图，该复合的视听表演被分段，以提供用于视频效果映射的音乐结构。视频效果时间表210为音乐结构的各个分段的元素指定特定的视觉布局或以情绪命名的视觉效果，例如基于粒子的效果、源视频之间的转换、帧运动的动画、图案/纹理的矢量图形/图像、和/或颜色/饱和度/对比度。一般地，所应用的视频效果的强度是基于从所捕获的视听表演的强度度量(通常为声乐强度)而确定的，但在一些情况或实施例中，可以包括一个或多个音轨(包括背景音轨)的能量密度。

在可在诸如手持设备101、101A或101B的用户设备处实现的信号处理流水线的图示配置中，用户/演唱者跟着背景音轨卡拉OK样式演唱。从麦克风输入201捕获的声乐被实时连续地音调校正(252)和和声化(255)，从而与背景音轨进行混音(253)，该混音在一个或多个声能换能器202处被可听渲染。

音调校正和添加的和声二者都被选择以对应于音乐乐谱的音调音轨207，在所示的配置中，音调音轨207以及歌词208和背景音轨209的音频编码被无线地传送(261)到(一个或多个)设备(例如，从内容服务器110到手持设备101或机顶盒设备，回顾图1)，将在该设备上执行声乐捕获和音调校正。

在图5的计算流程中，音调校正或转换的声乐可以被组合(254)或聚合，以与可听渲染的背景音轨混音(253)，和/或传输(262)到内容服务器110或远程设备(例如，手持设备120或520、电视和/或机顶盒设备，或一些其他的具有媒体能力的计算系统511)。在一些实施例中，可以在内容服务器110处执行音调校正或声乐的转换和/或视听表演的分段。

如前所述，受益于本发明的本领域技术人员将理解，在其他实施例中，可以在手持设备101、视听和/或机顶盒设备、或其他用户设备处部署如前所述的分段和VFX引擎功能的实例(回顾图1，分段和VFX引擎112)。因此，与图3A、3B和3C相关的分段和VFX引擎112的描述将被理解为类似地描述与图5的信号处理流水线相关的类似功能112D的实现。

图6是根据(一个或多个)本发明的一些实施例的硬件和软件组件的功能框图，该硬件和软件组件可在说明性移动电话式便携式计算设备处执行，以促进所捕获的视听表演的处理。在一些实施例中(回顾图1)，可以使用电视式显示器和/或机顶盒设备的设施来执行声乐音频和表演同步视频的捕获。然而，在其它实施例中，手持设备(例如，手持设备101)本身可以支持声乐音频和性能同步视频两者的捕获。

因此，图6示出了根据某些实现方式的基础信号处理流程，这些实现方式适用于移动电话式手持设备101捕获声乐音频和表演同步视频，以生成音调校正的和可选地和声化的声乐，以用于可听渲染(本地或在远程目标设备处)，以及与包括分段和视觉效果引擎112的内容服务器或服务平台110进行通信，从而对所捕获的视听表演进行分段以揭示音乐结构，基于所揭示的音乐结构，从视频效果时间表中引用特定的视觉效果。如前所述，声乐强度被测量并用于(在一些实施例中)改变或调制以情绪命名的视觉效果。

多表演者视觉效应融合的示例性视觉效果

图7示出了根据(一个或多个)本发明的一些实施例的处理步骤和处理结果，该处理用于将颜色校正和以情绪命名的视频效果(参见图701B、702B)应用于分组表演的各个表演者(701A和702A)的视频，其中各个表演者的视频是使用相应的捕获设备的相机分开捕获的。图8A和图8B示出了在使用(802)和不使用(801)根据(一个或多个)本发明的一些实施例应用的视觉模糊技术的情况下的分组表演的视觉效应。

图9、图10和图11示出了根据(一个或多个)本发明的一些实施例应用的基于提取的音频特征或经编码或计算确定的音乐结构元素的各种示例性增强现实类型的视觉效果，包括根据本发明的一些实施例应用的对象覆盖、化身、合成纹身和其他面部装饰、眼睛过滤器、反射表面效果、基于歌词的增强和面部变形类型效果的使用。

示例性移动设备和网络

图12示出了根据(一个或多个)本发明的一些实施例的可作为用于执行软件实现(包括视听捕获)的平台的移动设备的特征。具体地，图12示出了根据本发明的一些实施例的可作为用于执行软件实现的平台的移动设备的特征。更具体地，图12是移动设备1200的框图，该移动设备1200通常与商用版本的iPhone^TM移动数字设备一致。尽管本发明的实施例当然不限于iPhone部署或应用程序(甚至不限于iPhone类设备)，但是iPhone设备平台及其丰富的传感器、多媒体设施、应用程序编程接口和无线应用程序交付模型的补充，提供了用于部署某些实现的高性能的平台。基于本文的描述，本领域的普通技术人员理解可适用于(现在或以后)本文所述发明技术的给定实现或部署的广泛的其他的移动设备平台。

简而言之，移动设备1200包括可对用户的触觉和/或触感接触敏感的显示器1202。触摸显示器1202可以支持多个触摸特征，处理多个同时触摸点，包括处理与每个触摸点的压力、程度和/或位置相关的数据。这样的处理有助于手势和通过多个手指进行的交互以及其他交互。当然，也可以使用其它触摸敏感显示技术，例如，使用触笔或其它定点设备进行接触的显示器。

通常，移动设备1200在触摸敏感显示器1202上呈现图形用户界面，从而提供对各种系统对象的用户访问，以及用于传送信息。在一些实现方式中，图形用户界面可以包括一个或多个显示对象1204、1206。在所示的示例中，显示对象1204、1206是系统对象的图形表示。系统对象的示例包括设备功能、应用、窗口、文件、警报、事件、或其他可识别的系统对象。在本发明的一些实施例中，应用程序当被执行时提供本文描述的数字声学功能中的至少一部分。

通常，移动设备1200支持网络连接，包括例如移动无线电和无线互联功能，以使得用户能够与移动设备1200及其相关联的网络启用功能一起行进。在一些情况下，移动设备1200可以与附近的其他设备交互(例如，通过Wi-Fi、蓝牙等)。例如，移动设备1200可以被配置为与对等方或一个或多个设备的基站交互。因此，移动设备1200可以授权或拒绝对其他无线设备的网络访问。

移动设备1200包括各种输入/输出(I/O)设备、传感器和换能器。例如，扬声器1260和麦克风1262通常被包括以促进音频，例如，如本文其它地方所描述的声乐表演的捕获和背景音轨的可听渲染以及混音音调校正的声乐表演。在本发明的一些实施例中，扬声器1260和麦克风1262可以为本文描述的技术提供适当的换能器。可以包括外部扬声器端口1264，以促进免提语音功能，例如扬声器电话功能。还可以包括音频插孔1266，从而使用耳机和/或麦克风。在一些实施例中，外部扬声器和/或麦克风可以用作用于本文所述技术的换能器。

也可以使用或提供其他传感器。可以包括接近传感器1268，以促进检测移动设备1200的用户定位。在一些实现方式中，环境光传感器1270可用于促进调整触摸敏感显示器1202的亮度。如方向箭头1274所示，加速计1272可用于检测移动设备1200的移动。因此，显示对象和/或媒体可以根据检测到的方向(例如，纵向或横向)来呈现。在一些实现方式中，移动设备1200可以包括用于支持位置确定能力的电路和传感器，例如由全球定位系统(GPS)或其他定位系统(例如，使用Wi-Fi接入点、电视信号、蜂窝网格、统一资源定位器(URl)的系统)提供的位置确定能力，以促进本文所述的地理编码。移动设备1200还包括相机镜头和成像传感器1280。在一些实现方式中，相机镜头和传感器1280的实例位于移动设备1200的前表面和后表面上。相机允许捕获静止图像和/或视频，以与捕获到的音调校正的声乐相关联。

移动设备1200还可以包括一个或多个无线通信子系统，例如802.11b/g/n/ac通信设备和/或蓝牙^TM通信设备1288。还可以支持其他通信协议，包括其他802.x通信协议(例如WiMax、Wi-Fi、3G)、第四代协议和调制(4G-LTE)以及以上的协议(例如5G)、码分多址(CDMA)、全球移动通信系统(GSM)、增强数据GSM环境(EDGE)等。可以包括端口设备1290(例如，通用串行总线(USB)端口、对接端口、或一些其他有线端口连接)，并且该端口设备1290用于建立到其他计算设备(例如，其他通信设备1200、网络接入设备、个人计算机、打印机，或能够接收和/或发送数据的其他处理设备)的有线连接。端口设备1290还可以使用一个或多个协议(例如，TCP/IP、HTTP、UDP和任何其他已知协议)允许移动设备1200与主设备同步。

图13是示出根据(一个或多个)本发明的一些实施例的示例性设备的协作的网络图。具体地，图13示出了符合本文功能描述的在视听捕获中采用并通过声乐音频和视频捕获代码、用户接口代码、音调校正代码、音频渲染流水线和回放代码编程的手持设备或便携式计算设备(例如移动设备1301)的各个实例。例如，第一设备实例被描述为应用于声乐音频和表演同步视频捕获，而设备实例1320A在呈现或回放模式下操作，以实现具有针对表演同步视频的动态视觉显著性的混音视听表演。另外的电视式显示器和/或机顶盒设备1320B被类似地描绘为在呈现或回放模式下操作，但如本文其它地方所述，这样的设备也可以作为声乐音频和表演同步视频捕获设施的一部分操作。上述设备中的每一个经由无线数据传输和/或中间网络1304与服务器1312或服务平台通信，服务器1312或服务平台托管如本文中关于内容服务器110所解释的(回顾图1、图4、图5和图6)存储和/或功能。所捕获的、音调校正的具有表演同步视频的声乐表演可以(可选地)被流式传输和在膝上型计算机1311处视听渲染，其中该声乐表演被混音，从而呈现应用了视觉效果混音的AV表演渲染(如本文所述)。

其他实施例

虽然参考了各实施例来描述(一个或多个)本发明，但是应当理解，这些实施例是说明性的，并且(一个或多个)本发明的范围不限于这些实施例。许多变化、修改、添加和改进都是可能的。例如，虽然说明和描述了特定视频效果、转换和视听混音技术，但受益于本公开的本领域的技术人员将理解，适合于给定的部署、实现方式、音乐体裁或用户人口统计的许多变化和适应体。同样，虽然已经描述了根据卡拉OK式界面捕获的音调校正声乐表演，但是其他变体和适应体将被理解。此外，虽然在某些说明性应用和设备/系统配置的上下文中描述了某些说明性信号处理技术，本领域普通技术人员将认识到修改所描述的技术以适应其他合适的信号处理技术和效果是简单的。

根据本发明的实施例可以采用计算机程序产品的形式(和/或被提供为计算及程产品)，该计算及程序产品编码在机器可读介质中作为软件的指令序列和其他功能结构，该计算机程序产品可以在计算系统(例如iPhone手持设备、移动或便捷式计算设备、或内容服务器平台)中执行，以执行本文中描述的方法。一般而言，机器可读介质可以包括有形物品，其以机器(例如计算机、移动设备或便携式计算设备的计算设备)可读的形式(例如，作为应用、源代码或目标代码、功能描述信息等)对信息进行编码，以及对信息传输有关的有形存储。机器可读介质可以包括但不限于磁存储介质(例如磁盘和/或磁带存储)；光存储介质(例如CD-ROM、DVD等)；磁光存储介质；只读存储器(ROM)；随机存取存储器(RAM)；可擦除可编程存储器(例如，EPROM和EEPROM)；闪存；或适用于存储电子指令、操作序列、功能描述信息编码等的其他类型的介质。

一般地，可以为本文中描述为单个实例的组件、操作或结构提供多个实例。各组件、操作和数据存储之间的边界在一定程度上是任意的，并且在特定说明性配置的上下文中示出了特定操作。设想功能的其他分配，并且该分配可落入(一个或多个)本发明的范围。一般而言，在示例性配置中呈现为单独的组件的结构和功能可以实现为组合结构或组件。类似地，表示为单个组件的结构和功能可以实现为单独的组件。这些和其他变化、修改、添加和改进可以落入(一个或多个)本发明的范围。

Claims

1.一种方法，包括：

访问视听表演的计算机可读编码，所述视听表演是与经时间同步的背景音轨、乐谱和歌词相关联地捕获的；以及

利用一种或多种应用视觉效果来增强所述视听表演的呈现，其中，所述应用视觉效果中的至少一种应用视觉效果的视觉音阶、视野中的运动、时间、颜色或强度基于从所述视听表演或从所述经时间同步的背景音轨中以计算方式提取的音频特征。

2.根据权利要求1所述的方法，

其中，所述应用视觉效果中的至少一种应用视觉效果的视觉音阶、视野中的运动、时间、颜色或强度基于编码在所述经时间同步的乐谱或歌词中的音乐结构元素或从所述经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素。

3.根据权利要求1所述的方法，

其中，所述应用视觉效果中的至少一种应用视觉效果包括所述歌词中的文本的表演同步呈现，其中，视觉音阶、视野中的运动、时间、所呈现文本的字体颜色或亮度基于从所述视听表演或所述经时间同步的背景音轨中提取的音频特征或基于编码在所述经时间同步的乐谱或歌词中的音乐结构元素或从所述经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素。

4.一种方法，包括：

利用一种或多种应用视觉效果来增强所述视听表演的呈现，其中，所述应用视觉效果中的至少一种应用视觉效果的视觉音阶、视野中的运动、时间、颜色或强度基于编码在所述经时间同步的乐谱或歌词中的音乐结构元素或从所述经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素。

5.根据权利要求4所述的方法，

其中，所述应用视觉效果中的至少一种应用视觉效果的视觉音阶、视野中的运动、时间、颜色或强度基于从所述视听表演或所述经时间同步的背景音轨中以计算方式提取的音频特征。

6.根据权利要求4所述的方法，

7.一种方法，包括：

利用一种或多种应用视觉效果来增强所述视听表演的呈现，其中，所述应用视觉效果中的至少一种应用视觉效果包括所述歌词中的文本的表演同步呈现，其中，视觉音阶、视野中的运动、时间、所呈现文本的字体颜色或亮度基于从所述视听表演或所述经时间同步的背景音轨中提取的音频特征或基于编码在所述经时间同步的乐谱或歌词中的音乐结构元素或从所述经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素。

8.根据权利要求7所述的方法，

其中，所述应用视觉效果中的至少一种的视觉音阶、视野中的运动、时间、颜色或强度基于从所述视听表演或所述经时间同步的背景音轨中以计算方式提取的音频特征。

9.根据权利要求7所述的方法，

10.根据权利要求1、4或7所述的方法，

其中，所述应用视觉效果至少部分地基于从观众的成员接收到的输入而被控制，或者所述应用视觉效果包括至少部分地基于所述输入的内容，其中，所述视听表演被流式传输到所述观众。

11.根据权利要求10所述的方法，还包括：

接收来自所述观众的成员的喜欢/喜爱或点赞/点踩指示，并且基于所述指示来呈现所述应用视觉效果。

12.根据权利要求10所述的方法，还包括：

接收来自所述观众的至少一名成员的聊天流量，并且基于接收到的聊天流量的量、内容或关键词来呈现所述应用视觉效果。

13.根据权利要求12所述的方法，

其中，所述应用视觉效果包括并从视觉上呈现来自所述接收到的聊天流量的内容或关键词。

14.根据权利要求1、4或7所述的方法，还包括：

经由通信网络从远程便携式计算设备来接收所访问的编码，所述视听表演是在所述远程便携式计算设备处与以下项相关联地被捕获的：所述经时间同步的背景音轨的卡拉OK风格的可听呈现、所述经时间同步的歌词的视觉呈现、以及与所述经时间同步的乐谱相对应的音调提示的视觉呈现。

15.根据权利要求1、4或7所述的方法，还包括：

与以下项相关联地捕获所述视听表演：所述经时间同步的背景音轨的卡拉OK风格的可听呈现、所述经时间同步的歌词的视觉呈现、以及与所述经时间同步的乐谱相对应的音调提示的视觉呈现。

16.根据权利要求1、4或7所述的方法，还包括：

与所述经时间同步的歌词的卡拉OK风格的视觉呈现相关联地捕获第二视听表演，所捕获的第二视听表演包括第二表演者的表演同步视频；以及

将所述所捕获的第二视听表演与第一视听表演进行合成，以产生所访问的视听表演，其中，所述第一视听表演包括第一表演者的表演同步视频，

其中，利用所述一种或多种应用视频效果的增强被应用于在所述视野中检测到的第一表演者视觉信息和第二表演者视觉信息中的一者或两者。

17.根据权利要求16所述的方法，

其中，所捕获的第一视听表演和第二视听表演在所述合成和所述增强之后呈现为二重唱。

18.根据权利要求1、4或7所述的方法，其中，所述应用视觉效果包括：

对在所捕获的视听表演的视野中检测到的声乐表演者的面部或身体视觉进行动态渲染的视觉增强。

19.根据权利要求18所述的方法，其中，对面部或身体视觉进行所述动态渲染的视觉增强包括以下各项中的一项或多项：

合成纹身视觉信息，该视觉信息增强在所述所捕获的视听表演的视野中检测到的所述声乐表演者的面部或身体视觉信息；

合成的耳朵、鼻子、头发、天线、帽子或眼镜视觉信息，该视觉信息增强在所述所捕获的视听表演的视野中检测到的所述声乐表演者的面部视觉信息；

对在所述所捕获的视听表演的视野中检测到的所述声乐表演者的眼睛、嘴巴或耳朵的扭曲；以及

在所述所捕获的视听表演的视野中检测到的所述声乐表演者的视觉化身的呈现。

20.根据权利要求1、4或7所述的方法，其中，所述应用视觉效果包括以下各项中的一项或多项：

基于粒子的效果或镜头光晕；

不同源视频之间的转换或不同源视频的布局；

源视频内的帧的动画或运动；

图案或纹理的矢量图形或图像；以及

颜色、饱和度或对比度。

21.根据权利要求1、4或7所述的方法，其中，所述应用视觉效果被应用到以下各项中的一项或作为以下各项中的一项：

在所述视野中检测到的声乐表演者；

合成前景；

在背景中检测到的视觉特征；以及

合成背景。

22.根据权利要求1、4或7所述的方法，其中，所述应用视觉效果包括：检测到的反射表面的经动态渲染的视觉增强或所述所捕获的视听表演的合成增强，用于包括表观的反射表面，其中，所述经动态渲染的视觉增强效果呈现表演同步的第二声乐表演者视觉信息作为在所述检测到的反射表面或所述表观的反射表面中的表观映像。

23.根据权利要求1所述的方法，其中，所述应用视觉效果包括以下各项中的一项或两项：

合成背景，其中，所述所捕获的视听表演的去背景版本是依托所述合成背景而呈现的；以及

在视觉上叠加的合成前景。

24.根据权利要求1、5或8所述的方法，其中，所述提取的音频特征包括以下各项中的一项或多项：

从所捕获的视听表演的声乐音频中以计算方式确定的时变音频信号强度或音频能量密度度量；

以计算方式确定的亮度、呼吸或颤音度量；以及

背景音频音轨的节拍、节奏、信号强度或能量密度。

25.根据权利要求1所述的方法，还包括：

对所述视听表演编码的声乐音频音轨进行分段，以提供所述以计算方式提取的音频特征。

26.根据权利要求25所述的方法，

其中，所述分段是至少部分地基于对声乐强度的计算确定，其中，至少一些分段边界被限制以与从所述经时间同步的背景音轨中以计算方式提取的节拍或节奏在时间上对齐。

27.根据权利要求25所述的方法，

其中，所述分段至少部分地基于对所述经时间同步的歌词以计算方式执行的相似性分析，以将视听表演编码的特定部分分类为诗歌或合唱。

28.根据权利要求1、5或8所述的方法，还包括：

对所述经时间同步的背景音轨进行分段，以提供所述以计算方式提取的音频特征。

29.根据权利要求1、4或7所述的方法，

其中，所述方法至少部分地在如下的内容服务器或服务平台上执行：地理上分散的、网络连接的声乐捕获设备通信地耦合到所述内容服务器或服务平台。

30.根据权利要求1、4或7所述的方法，

其中，所述方法至少部分地在通信地耦合到内容服务器或服务平台的网络连接的、声乐捕获设备上执行。

31.根据权利要求1、4或7所述的方法，

其中，所述方法至少部分地在网络连接的声乐捕获设备上执行，所述网络连接的声乐捕获设备通信地耦合到至少一个其他的网络连接的声乐捕获设备，其中，所述网络连接的声乐捕获设备作为主设备，所述至少一个其他的网络连接的声乐捕获设备用作配对客设备。

32.根据权利要求1、4或7所述的方法，

其中，所述方法至少部分地体现为能够在如下的内容服务器或服务平台上执行的指令的计算机程序产品编码：多个地理上分散的、网络连接的声乐捕获设备通信地耦合到所述内容服务器或服务平台。

33.根据权利要求1、4或7所述的方法，

其中，所述方法至少部分地体现为能够在如下的网络连接的声乐捕获设备上执行的指令的计算机程序产品编码：在所述网络连接的声乐捕获设备上，所述视听表演的增强呈现在听觉上和视觉上呈现给人类用户。

34.根据权利要求1、4或7所述的方法，

其中，所述经时间同步的乐谱对不同类型的音乐片段进行编码；并且

其中，所述应用视觉效果包括针对不同的经编码音乐片段的不同视觉效果。

35.根据权利要求1、5或8所述的方法，

其中，所述提取的音频特征对应于所述视听表演中的一个或多个事件或转换；并且

其中，所述应用视觉效果利用针对不同事件或转换的不同视觉效果来增强所述视听表演。

36.一种系统，包括：

网络连接设备的至少主设备和客设备对，被配置为至少捕获声乐音频；

所述主设备被配置为：(i)从所述客设备接收至少声乐音频的编码，(ii)将接收到的至少声乐音频的编码与本地捕获的视听表演进行合成，并且(iii)基于从所述声乐音频、所述本地捕获的视听表演、相关联的背景音轨或所得的经合成视听表演编码中以计算方式提取的音频特征，使用一种或多种应用视觉效果来增强经合成视听表演编码，

其中，所述应用视觉效果中的至少一种应用视觉效果的视觉音阶、视野中的运动、时间、颜色或强度基于所述以计算方式提取的音频特征。

37.一种系统，包括：

所述主设备被配置为：(i)从所述客设备接收至少声乐音频的编码，(ii)将接收到的至少声乐音频的编码与本地捕获的视听表演进行合成，并且(iii)基于编码在经时间同步的乐谱或歌词中的音乐结构元素或从所述经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素，利用一种或多种应用视觉效果来增强经合成视听表演编码，

其中，所述应用视觉效果中的至少一种应用视觉效果的视觉音阶、视野中的运动、时间、颜色或强度基于所编码的音乐结构元素或所述以计算方式确定的音乐结构元素。

38.一种系统，包括：

所述主设备被配置为(i)从所述客设备接收至少声乐音频的编码，(ii)将接收到的至少声乐音频的编码与本地捕获的视听表演、以及从所述视听表演中提取的音频特征或从经时间同步的背景音轨中提取的音频特征进行合成，或(iii)基于编码在经时间同步的乐谱或歌词中的音乐结构元素或从所述经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素，利用一种或多种应用视觉效果来增强经合成视听表演编码，

其中，所述应用视觉效果中的至少一种应用视觉效果包括表演同步歌词中的文本的表演同步呈现，其中，视觉音阶、视野中的运动、时间、所呈现文本的字体颜色或亮度基于所述提取的音频特征或所编码的音乐结构元素或所述以计算方式确定的音乐结构元素。

39.根据权利要求36-38中任一项所述的系统，

其中，所述主设备和所述客设备经由具有不可忽略的对等延迟的通信网络耦合为本地对等方和远程对等方，以用于传输视听内容，

其中，所述主设备通信地耦合为所述本地对等方，用于接收包括所述声乐音频的媒体编码，并且

其中，所述客设备通信地耦合为所述远程对等方，用于提供从第一表演者捕获的并且与相关联的背景音轨混合的媒体编码。

40.根据权利要求36-38中任一项所述的系统，

其中，所述主设备被配置为将所述视听表演编码呈现为混合视听表演并且将所述视听表演编码作为应用了增强视觉效果的表观的现场直播进行传输，其中，所述混合视听表演包括来自所述第一表演者和第二表演者的声乐音频和表演同步视频。

41.一种系统，包括：

在地理分散的一组网络连接设备，被配置为捕获包括声乐音频和表演同步视频的视听表演；以及

服务平台，被配置为：(i)接收所捕获的视听表演的编码，(ii)对接收到的编码进行合成，并且(iii)基于从所述接收到的编码或所得的经合成视听表演编码之一中以计算方式提取的音频特征，利用一种或多种应用视觉效果来增强所述经合成视听表演编码，

42.一种系统，包括：

服务平台，被配置为：(i)接收所捕获的视听表演的编码，(ii)对接收到的编码进行合成，并且(iii)基于编码在经时间同步的乐谱或歌词中的音乐结构元素或从所述经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素，利用一种或多种应用视觉效果来增强经合成视听表演编码，

其中，所述应用视觉效果中的至少一种应用视觉效果的视觉音阶、视野中的运动、时间、颜色或强度基于经编码的音乐结构元素或所述以计算方式确定的音乐结构元素。

43.一种系统，包括：

在地理分散的一组网络连接的设备，被配置为捕获包括声乐音频和表演同步视频的视听表演；以及

服务平台，被配置为：(i)接收所捕获的视听表演的编码，(ii)对接收到的编码进行合成，并且(iii)基于从所述视听表演或经合成视听表演之一或从所述经时间同步的背景音轨中提取的音频特征，或者基于编码在经时间同步的乐谱或歌词中的音乐结构元素或从所述经时间同步的乐谱或歌词中以计算方式确定的音乐结构元素，利用一种或多种应用视觉效果来增强经合成视听表演编码，

其中，所述应用视觉效果中的至少一种应用视觉效果包括表演同步歌词中的文本的表演同步呈现，其中，视觉音阶、视野中的运动、时间、所呈现文本的字体颜色或亮度基于所述提取的音频特征或经编码的音乐结构元素或所述以计算方式确定的音乐结构元素。