CN110692252B

CN110692252B - 具有用于广域广播的延迟管理的视听协作方法

Info

Publication number: CN110692252B
Application number: CN201880036672.4A
Authority: CN
Inventors: 安东·霍姆伯格; 本杰明·赫什; 珍妮·杨; 佩里·R·库克; 杰弗里·C·史密斯
Original assignee: Smule Inc
Current assignee: Smule Inc
Priority date: 2017-04-03
Filing date: 2018-04-03
Publication date: 2022-11-01
Anticipated expiration: 2038-04-03
Also published as: US20230353812A1; DE112018001871T5; WO2018187360A2; WO2018187360A3; US11553235B2; CN110692252A; US11032602B2; US20220030056A1; US20180288467A1

Abstract

已经开发了促进群体视听表演的现场直播的技术。包括声乐的视听表演被捕获，并且以可以创建引人注目的用户和收听者体验的方式与其他用户的表演相协调。例如，在一些情况或实施例中，可以在以艺术家的风格演唱的视听现场直播中支持具有主机表演者的二重唱，其中，积极的歌手请求或排队针对现场无线电演出娱乐格式的特定歌曲。所开发的技术提供了一种通信延迟容忍机制，用于对在地理上分离的设备处(例如，在全球分布但网络连接的移动电话或平板计算机处，或者在地理上与现场演播室分离的视听捕获设备处)捕获的声音表演进行同步。

Description

具有用于广域广播的延迟管理的视听协作方法

技术领域

本发明一般涉及多个表演者视听表演的捕获、处理和/或广播，并且具体地涉及适于管理在多个地理上分布的表演者的近实时视听协作的上下文中捕获的针对视听内容的传输延迟的技术。

背景技术

移动电话、个人媒体播放器和便携式计算设备的安装基础，连同媒体流媒体和电视机顶盒，每天都在绝对数量和计算能力方面增长。世界上人们的生活方式中普遍存在并且深深地确立，这些设备中的许多设备超越了文化和经济障碍。通过计算方式，这些计算设备提供了与不到十年前的工程工作站或工作组计算机相当的速度和存储能力，并且通常包括强大的媒体处理器，使得它们适合于实时声音合成和其他音乐应用。部分地作为结果，一些便携式手持设备(例如，

iPod

和其他

或安卓设备)，以及媒体应用程序平台和机顶盒(STB)型设备(例如，Apple

设备)相当有能力地支持音频和视频处理，而同时提供适合于高级用户接口的平台。实际上，应用程序(例如，SmuleOcarina^TM、Leaf

I Am T-Pain^TM、

Sing！Karaoke^TM、Guitar！By

和Magic

应用程序(其可从smule公司获得))已经表明，可以使用这种设备以提供引人注目的音乐体验的方式来传递先进的数字声学技术。

Sing！Karaoke^TM实现方式先前已经证明了使用地理上分布的手持设备相对于彼此在非实时的基础上捕获的声音表演的增长，以及其中(典型地利用在相同的局域网或个人区域网段上的短距离的、可忽略的延迟通信)支持便携式手持设备与本地媒体应用程序平台(例如，室内)之间的更紧密耦合的协调的实现方式也是如此。期望改进的技术和功能能力以将“现在”或“现场感”的亲密感觉扩展到协作的声音表演，其中表演者被更显著的地理距离分开，并且设备之间的通信延迟不可忽略。

随着研究人员试图将他们的创新转变到可部署到现代手持设备和媒体应用程序平台的商业应用，在由处理器、存储器和前述的其它有限计算资源所施加的真实世界约束内和/或在无线和广域网的典型通信带宽和传输延迟约束内，存在显著的实际挑战。例如，当应用程序(例如，Sing！Karaoke)已经证明了表演后视听混合模拟大量表演者的二重唱或协作声音表演的希望，创造了现在的感觉，并且在没有物理共同定位的情况下，现场协作已经证明是难以捉摸的。

期望改进的技术和功能能力，特别是相对于以如下方式来管理通信延迟和所捕获的视听内容：组合的视听表演仍然可以以作为地理上分布的表演者的现场交互协作而呈现给接收者、收听者和/或观看者的方式来传播(例如，广播)。还期望提供“现在”或“现场感”的亲密感觉的观众介入和参与构造。

发明内容

已经发现，虽然通过移动设备平台和媒体应用程序执行环境施加了实际限制，但是包括声乐的视听表演可以被捕获并且可以(以创建令人叹服的用户和收听者体验的方式)与其他用户的视听表演进行协调。在一些情况下，在歌词的卡拉OK型呈现的上下文中并且与伴奏轨迹(backing track)的可听呈现相对应地，捕获协作贡献者的声音表演(与表演同步视频一起)。在一些情况下，通过协作贡献者之间的声音交互(例如，二重唱或对话)，将声音(以及通常同步的视频)捕获为现场或非描述性表演的部分。无论是哪种情况，可以想象，在至少一些协作贡献者之间将存在不可忽略的网络通信延迟，特别是在那些贡献者在地理上分离的情况下。作为结果，存在以如下方式来管理延迟和所捕获的视听内容的技术挑战：组合的视听表演仍然可以以作为现场交互协作而呈现给接收者、收听者和/或观看者的方式来传播(例如，广播)。

在一种用于完成现场交互表演协作的这种传真的技术中，实际的和不可忽略的网络通信延迟在访客(guest)和主机(host)表演者之间的一个方向上被(有效地)标记，并且在另一方向上被容忍。例如，在主机表演者的“现场演出”互联网广播上的访客表演者的所捕获的视听表演可以包括以明显的(apparent)实时同步的方式进行演唱的访客+主机二重唱。在一些情况下，主机可以是已经普及了特定音乐表演的表演者。在一些情况下，访客可以是业余歌手，其被给予“在演播厅中”作为(或者与)演出的主机与流行艺术家或者群体(通过远程的方式)进行“现场”演唱的机会。尽管从访客到主机的不可忽略的网络通信延迟(可能是200-500ms或更多)涉及访客的视听贡献流的传送，但是主机以与访客明显同步的方式(尽管在绝对意义上在时间上滞后于访客)进行表演，并且明显同步地表演的声音被捕获并且与访客的贡献混合在一起以用于广播或传播。

结果是明显的现场交互表演(至少从传播或广播表演的接收者、收听者和/或观看者的角度)。尽管标记了从访客到主机的不可忽略的网络通信延迟，但是将理解，延迟存在并且在主机到访客方向上是容许的。然而，尽管对于访客而言主机到访客的延迟是可辨别的(并且可能相当引人注意)，但是在明显现场广播或其他传播中，该主机到访客的延迟不必是明显的。已经发现，主机声音(或者更一般地，主机的所捕获的视听表演的主机声音)的滞后可听呈现不需要心理声学地干扰访客的表演。

表演同步的视频可以被捕获并且被包括在构成明显现场广播的组合的视听表演中，其中视觉可以至少部分地基于从所捕获的声音音频中提取(或者通过所捕获的声音音频而计算出)的时变、计算定义的音频特征。在一些情况或实施例中，在协调的视听混合的过程中，这些计算定义的音频特征对于贡献歌手中的一个或多个贡献歌手(或其显著性)的特定同步视频是选择性的。

可选地，并且在一些情况或实施例中，可以根据音调校正设置而在访客表演者的设备处(或更一般地，在便携式计算设备(例如，移动电话、个人数字助理、膝上型计算机、笔记本计算机、平板电脑或上网本)处或者在内容或媒体应用程序服务器上)对声音音频进行实时的音调校正。在一些情况下，音调校正设置会为声音表演或其部分来编码特定的音调或音阶。在一些情况下，音调校正设置包括(与歌词和伴奏轨迹一起提供的、或者与歌词和伴奏轨迹相关联的)得分编码旋律(score-coded melody)和/或和声序列(harmonysequence)。如果需要的话，和声音符或和弦可以被编码为明确的目标，或者相对于得分编码旋律或者甚至由歌手所发声的实际音调。

使用在访客表演者设备(例如，前述便携式计算设备)处捕获的上传的声音，用于主机的内容服务器或服务可以通过操纵和混合多个贡献歌手的上传的视听内容以用于进一步广播或其他传播来进一步调解协调的表演。取决于特定系统的目标和实现方式，除了视频内容之外，上传可以包括经音调校正的声音表演(具有或不具有和声)、干(即，未经校正的)声音、和/或用户声调的控制轨迹和/或音调校正选择等。

经合成的和声和/或附加声音(例如，从在另一其他位置处的另一歌手捕获的声音并且可选地音调改变以与其他声音进行和声)也可以被包括在混合中。所捕获的声音表演(或对组合的表演的单独贡献)和/或收听者反馈的地理编码可以通过下列方式来促进动画或显示伪影：暗示从用户可操纵地球仪上的特定地理地点发出的表演或批注。以这种方式，所描述的功能的实现方式可以将普通的移动设备和起居室或娱乐系统变换为培养全球连通、协作和社区的独特感觉的社交乐器。

在根据(一个或多个)本发明的一些实施例中，提供了一种音频协作方法，用于广播在主机设备和访客设备之间具有不可忽略的对等通信延迟的地理上分布的表演者的联合表演。该方法包括(1)在作为本地对等方进行操作的主机设备处接收混合的音频表演的媒体编码，该混合的音频表演的媒体编码(i)包括在作为远程对等方进行通信耦合的访客设备处从表演者中的第一表演者捕获的声音音频，并且(ii)与伴奏音频轨迹进行了混合；(2)在主机设备处，对所接收的混合的音频表演进行可听的呈现，并且相应地捕获来自表演者中的第二表演者的声音音频；以及(3)将所捕获的第二表演者声音音频与所接收的混合的音频表演进行混合，以用于作为广播传输给观众，其中，广播混合包括第一表演者和第二表演者的声音音频以及伴奏音频轨迹，在它们之间具有可忽略的时间滞后。

在一些实施例中，该方法还包括通过广域网，将广播混合作为现场直播传输到多个接收者，多个接收者构成观众。在一些实施例中，该方法还包括第二表演者在主机设备处选择性地将第一表演者加入联合表演。

在一些情况或实施例中，加入的第一表演者是从观众中选择的，并且至少在联合表演的持续时间内，加入的第一表演者被与去往观众的广播的现场直播传输解耦合。在一些情况或实施例中，向观众传输的现场直播广播相对于第一表演者声音音频捕获在时间上滞后至少几秒。

在一些实施例中，该方法还包括将第一表演者回归到观众，并且与此同时，将第一表演者重新耦合到现场直播传输。在一些实施例中，该方法还包括选择性地加入第三表演者作为新的远程对等方，并且此后(1)在主机设备处接收第二媒体编码，该第二媒体编码(i)包括在作为新的远程对等方进行通信耦合的新的访客设备处从第三表演者捕获的声音音频，并且(ii)与第二伴奏音频轨迹进行混合；(2)在主机设备处，对第二媒体编码进行可听的呈现，并且相应地捕获来自第二表演者的附加声音音频；以及(3)将所捕获的附加声音音频与所接收的第二媒体编码进行混合，以用于作为广播的延续而传输给观众，其中，广播混合包括第二表演者和第三表演者的声音音频以及第二伴奏音频轨迹，在它们之间具有可忽略的时间滞后。

在一些实施例中，该方法还包括将第二表演者捕获声音音频提供给访客设备远程对等方，以用于在访客设备处进行可听的呈现，该呈现相对于捕获来自第一表演者的声音音频存在至少一些访客侧时间滞后。在一些情况或实施例中，明显的(apparent)访客侧时间滞后为至少约40-1200ms。

在一些情况或实施例中，基本上全部的不可忽略的对等通信延迟在访客侧时间滞后中是明显的。在一些情况或实施例中，在主机设备处或者在第一表演者和第二表演者的广播混合中，不可忽略的对等通信延迟都不是明显的。在一些情况或实施例中，不可忽略的对等通信延迟包括输入信号到发送的延迟、网络延迟、抖动缓冲器延迟、以及缓冲器和输出延迟。不可忽略的对等通信延迟可能变化，并且在一些情况下，可能是心理声学地上显著的。在一些情况或实施例中，不可忽略的对等通信延迟为至少约30-100ms。在一些情况或实施例中，不可忽略的对等通信延迟为至少约100-250ms。在一些情况或实施例中，不可忽略的对等通信延迟为约100-600ms。

在一些情况或实施例中，在主机设备处接收混合的音频表演并且将第二表演者捕获声音音频提供给访客设备是使用Web实时通信(WebRTC)型框架经由对等视听连接来进行的。在一些实施例中，该方法还包括通过广域网来提供第一表演者和第二表演者的声音音频的广播混合。在一些情况或实施例中，广播混合的提供是经由实时消息传输协议(RTMP)型视听流传输协议来进行的。在一些情况或实施例中，至少访客设备构成移动手持电话或媒体播放器。

在一些实施例中，该方法还包括在主机设备处，根据对声音旋律的音符序列进行编码的声音得分来对第二表演者声音进行音调校正。在一些实施例中，该方法还包括在主机设备处，根据对声音旋律的至少一些部分的至少第一组和声音符进行编码的声音得分来对第二表演者声音进行音调校正。

在一些情况或实施例中，包括在所接收的混合的表演中的第一表演者声音是经音调校正的声音。在一些情况或实施例中，第一表演者声音和第二表演者声音中的一个是根据对声音旋律的音符序列进行编码的声音得分来进行音调校正的，并且第一表演者声音和第二表演者声音中的另一个是根据对声音旋律的至少一些部分的至少第一组和声音符进行编码的声音得分来进行音调校正的。

在一些情况或实施例中，第一表演者声音和第二表演者声音中的任一个或两个在被包括在广播中之前受到计算处理以应用一个或多个音频效果。在一些情况或实施例中，所应用的音频效果包括以下各项中的一项或多项：混响效果，数字滤波，频谱均衡化，非线性失真，音频压缩，音调校正或音调偏移，信道相对增益和/或相位延迟，用于操纵第一表演者或第二表演者在立体声场内的明显放置。

在一些情况或实施例中，所接收的媒体编码包括与所捕获的第一表演者声音在表演上同步的视频，该方法还包括在主机设备处捕获与所捕获的第二表演者声音在表演上同步的视频，并且广播混合是至少第一表演者和第二表演者的所捕获的音频和视频的视听混合。

在一些实施例中，该方法还包括基于对第一表演者声音和第二表演者声音中任一者或两者以计算方式定义的音频特征的评估，在广播混合中动态地改变第一表演者和第二表演者中的一个或另一个的至少视觉显著性。在一些实施例中，该方法还包括至少部分地基于对第一表演者音频或视频和第二表演者音频或视频中任一者或两者以计算方式定义的音频或视频特征，将一个或多个视频效果应用于广播混合。

在一些实施例中，该方法还包括在主机设备处接收来自观众的成员的聊天消息。在一些实施例中，该方法还包括将聊天消息的至少一些内容合并为广播混合的视频的部分。在一些实施例中，该方法还包括在主机设备处从观众的成员接收以下一项或多项：聊天消息、表情符号、动画GIF、投票指示。在一些实施例中，该方法还包括将所接收的聊天消息内容、表情符号、动画GIF、或投票指示中的至少一些的视觉呈现合并为广播混合的一部分。

在一些实施例中，该方法还包括对来自广播混合的一个或多个接收者的播放列表请求进行排队。在一些实施例中，响应于由第二表演者在主机设备处对排队的播放列表请求中的特定播放列表请求的选择，该方法还包括从内容储存库获取以下一项或多项：伴奏音频轨迹、歌词、得分编码音符目标。在一些实施例中，响应于由第二表演者在主机设备处对排队的播放列表请求中的特定播放列表请求的选择，该方法还包括要求向通信地耦合的访客设备提供以下一项或多项：伴奏音频轨迹、歌词、得分编码音符目标。

在一些情况或实施例中，广播混合被呈现为声音二重唱。在一些实施例中，该方法还包括在主机设备处接收至少另一混合的音频表演的媒体编码，该另一混合的音频表演的媒体编码(i)包含在作为另一远程对等方进行通信耦合的另一访客设备处从第三表演者捕获的声音音频，并且(ii)与伴奏音频轨迹在时间上对准或可对准。在一些情况或实施例中，现场直播的音频包括以下两者：所捕获的与第一表演者和第二表演者之间的交互对话相对应的对话型音频部分以及所捕获的与第一表演者和第二表演者中的任一者或两者针对伴奏音频轨迹的声乐表演相对应的声音表演音频部分。

在一些实施例中，该方法还包括从现场直播中选择片段的精彩剪辑集合，其中，片段的精彩剪辑集合通常包括声乐表演部分，并且通常不包括对话型音频部分。在一些实施例中，该方法还包括基于观众对现场直播的反应、歌曲结构和音频功率中的一个或多个，从现场直播中选择片段的精彩剪辑集合。在一些实施例中，该方法还包括基于现场直播的特定音频部分与歌词段、副歌或音乐章节边界的对应关系来选择片段的精彩剪辑集合，无论是得分编码的还是通过音频特征分析以计算方式确定的。在一些实施例中，响应于用户的选择，该方法还包括保存或共享精彩剪辑中的一个或多个精彩剪辑的视听编码。

在一些实施例中，该方法还包括从访客设备接收一个或多个歌词同步标记。歌词同步标记向主机设备传送在访客设备处视觉地呈现的歌词与访客设备捕获的声音音频的时间对准。在一些实施例中，该方法还包括在主机设备处视觉地呈现歌词，其中，基于所接收的一个或多个歌词同步标记，歌词的视觉呈现与从访客设备接收的混合的音频表演的媒体编码在时间上对准。在一些情况或实施例中，所接收的一个或多个歌词同步标记对呈现在主机设备上的歌词的进度与访客设备处的暂停或其他时间控制进行协调。

在根据(一个或多个)本发明的一些实施例中，一种系统，用于传播在地理上分布的第一表演者和第二表演者的联合表演的明显现场广播，该系统包括：主机设备和访客设备，该主机设备和该访客设备由通信网络耦合为本地对等方和远程对等方，它们之间针对视听内容的传输具有不可忽略的对等延迟。主机设备被通信耦合作为本地对等方，以接收混合的音频表演的媒体编码，该混合的音频表演的媒体编码包含访客设备处捕获的声音音频，并且访客设备被通信耦合作为远程对等方，以提供从表演者中的第一表演者捕获的并且与伴奏音频轨迹混合的媒体编码。主机设备被配置为可听的呈现所接收的混合的音频表演，相应地捕获来自表演者中的第二表演者的声音音频，并且将所捕获的第二表演者声音音频与所接收的混合的音频表演进行混合，以用于作为明显现场广播进行传输。

在根据(一个或多个)本发明的一些实施例中，一种音频协作方法，用于对在地理上分布的第一设备和第二设备处各自捕获的第一表演者和第二表演者的协调视听作品进行现场直播广播，该方法包括：(a)在第二设备处接收混合的音频表演的媒体编码，该混合的音频表演的媒体编码(i)包括在第一设备处从表演者中的第一表演者捕获的声音音频，并且(ii)与伴奏音频轨迹进行了混合；(b)在第二设备处，对所接收的混合的音频表演进行可听的呈现，并且相应地捕获来自表演者中的第二表演者的声音音频；(c)将所捕获的第二表演者声音音频与所接收的混合的音频表演进行混合，以提供广播混合，该广播混合包括第一表演者和第二表演者的捕获的声音音频以及伴奏音频轨迹，在它们之间不具有明显时间滞后；以及(d)将广播混合提供给服务平台，该服务平台被配置为将广播混合现场直播到构成观众的多个接收者设备。

在一些情况或实施例中，第一设备作为当前现场直播访客与第二设备相关联，并且第二设备作为当前现场直播主机来操作。当前现场直播主机控制来自观众的作为当前现场直播访客的特定设备的关联和分离。在一些情况或实施例中，当前现场直播主机从来自观众的请求队列中进行选择以关联为当前现场直播访客。

在一些情况或实施例中，第一设备以现场直播访客角色进行操作，并且第二设备以现场直播主机角色进行操作。该方法还包括以下各项中的任一项或两项：第二设备释放现场直播主机角色，以供另一设备承担；以及第二设备将现场直播主机角色传递给从包括第一设备和观众的集合中选择的特定设备。

附图说明

参考附图，通过示例而非限制性的方式示出了(一个或多个)本发明，其中，相似的参考标号通常表示相似的元件或者特征。

图1描绘了根据(一个或多个)本发明的一些实施例的在用于现场直播二重唱型群体视听表演的主机和访客配置中的说明性移动电话型便携式计算设备之间的信息流。

图2是描绘根据(一个或多个)本发明的一些实施例的在以用于生成群体视听表演现场直播的“主机同步”对等配置的方式进行耦合的相应访客和主机设备处捕获和处理的音频信号的流的流程图。

图3是描绘根据(一个或多个)本发明的一些实施例的在以用于生成群体视听表演现场直播的“共享延迟”对等配置的方式进行耦合的相应访客和主机设备处捕获和处理的音频信号的流的流程图。

图4是示出根据(一个或多个)本发明的一些实施例的针对在访客或主机设备处捕获的视听表演、可以基于得分编码的音调校正设置来执行的可选的实时连续音调校正与和声生成信号流的流程图。

图5是根据(一个或多个)本发明的一些实施例的可以在说明性移动电话型便携式计算设备处执行以便于处理和传送所捕获的视听表演以供在网络连接设备的多歌手现场直播配置中进行使用的硬件和软件组件的功能框图。

图6示出了根据(一个或多个)本发明的一些实施例的可以充当用于执行至少一些视听表演捕获的软件实现方式和/或现场直播表演设备的平台的移动设备的特征。

图7是示出根据(一个或多个)本发明的一些实施例的示例性设备的协作的网络图。

技术人员将理解，附图中的元件或特征是为了简单和清楚而示出的，并且不一定按比例绘制。例如，为了帮助增进对本发明的实施例的理解，所示出的元件或特征中的一些的尺寸或显著性可能相对于其他元件或特征被放大。同样，尽管为了简明或避免可能以其它方式模糊本发明概念的描述的复杂性而在单个流程的附图中进行了说明，但是将理解多个数据和控制流(包括组成信号或编码)与描述相一致。

具体实施方式

用于执行(一个或多个)本发明的模式

尽管当然考虑了仅有音频的实施例，但是可以设想，现场直播内容通常将包括与声音结合捕获的表演同步的视频。此外，虽然网络连接的移动电话被示出为视听捕获设备，但是基于本文的描述将理解，视听捕获和观看设备可以包括适当配置的计算机、智能TV和/或起居室型机顶盒配置、以及甚至具有音频和/或视听捕获设备或能力的智能虚拟辅助设备。最后，尽管详细地描述了对声乐的应用，但是基于本文的描述将理解，音频或视听捕获应用不必限于声音二重唱，而是可以适用于其他形式的群体表演，其中一个或多个连续表演与先前表演相加来产生现场直播。

在一些情况下，在歌词的卡拉OK型呈现的上下文中并且与伴奏轨迹的可听呈现相对应地，捕获协作贡献者的声音表演(与表演同步视频一起)。在一些情况下，通过协作贡献者之间的声音交互(例如，二重唱或对话)，将声音(以及通常同步的视频)捕获为现场或非描述性表演的部分。在每种情况下，可以想象，在至少一些协作贡献者之间将存在不可忽略的网络通信延迟，特别是在那些贡献者在地理上分离的情况下。结果，存在以如下方式来管理延迟和所捕获的视听内容的技术挑战：组合的视听表演仍然可以以作为现场交互协作而呈现给接收者、收听者和/或观看者的方式来传播(例如，广播)。

在一种用于完成现场交互表演协作的这种传真的技术中，实际的和不可忽略的网络通信延迟在访客和主机表演者之间的一个方向上被(有效地)标记，并且在另一方向上被容忍。例如，在主机表演者的“现场演出”互联网广播上的访客表演者的所捕获的视听表演可以包括以明显的实时同步的方式进行演唱的访客+主机二重唱。在一些情况下，主机可以是已经普及了特定音乐表演的表演者。在一些情况下，访客可以是业余歌手，其被给予“在演播厅中”作为(或者与)演出的主机与流行艺术家或者群体(通过远程的方式)进行“现场”演唱的机会。尽管从访客到主机的不可忽略的网络通信延迟(可能是200-500ms或更多)用于传送访客的视听贡献，但是主机以与访客明显同步的方式(尽管在绝对意义上在时间上滞后于访客)进行表演，并且明显同步地表演的声音被捕获并且与访客的贡献混合在一起以用于广播或传播。

尽管为了说明的目的，本文的大部分描述假设特定主机设备上的固定主机表演者，但是基于本文的描述将理解，根据(一个或多个)本发明的一些实施例可以提供主机/访客控制逻辑，该主机/访客控制逻辑允许主机“传递麦克风”，使得新用户(在由当前主机对用户进行选择的一些情况下和在其他情况下，在当前主机“丢弃麦克风”之后“拾取麦克风”的用户)可以接管作为主机。同样地，基于本文的描述将理解，根据(一个或多个)本发明的一些实施例可以提供主机/访客控制逻辑，该主机/客户控制逻辑对访客(和/或积极的主机)进行排队并且自动地将经排队的用户分配到适当角色。

在一些情况或实施例中，在卡拉OK型用户界面框架中，单独的主机和访客角色表演者的声音音频与表演同步的视频一起被捕获，并且与其他用户的视听贡献相协调，以形成二重唱型或合唱团型群体视听表演。例如，在与伴奏轨迹的可听呈现相对应的歌词的卡拉OK型呈现的上下文中，可以在移动设备、电视型显示器和/或机顶盒设备上捕获单独用户的声音表演(与表演同步的视频一起)。在一些情况或实施例中，可以提供得分编码的连续音调校正以及用户可选择的音频和/或视频效果。与前述一致，但不限制于所声明的任何特定实施例，使用便携式手持设备的卡拉OK型声音表演捕获提供了说明性环境。

卡拉OK型声音表演捕获

尽管本发明的实施例不限于此，但是使用移动电话型和/或电视型视听设备的音调校正、卡拉OK型、声音捕获提供了有用的描述性上下文。例如，在诸如图1所示的一些实施例中，可以从Apple公司获得的iPhone^TM手持设备(或者更一般地，分别作为访客和主机设备进行操作的手持设备101A、101B)执行与内容服务器110进行协同操作以提供声音捕获的软件。该配置可选地提供连续实时、得分编码的音调校正和所捕获的声音的协调。还可以使用由计算机、电视或其它视听设备(未具体示出)或连接的机顶盒设备(例如，Apple TV^TM设备)提供的或者与之连接的相机来捕获表演同步的视频。在一些实施例中，可以使用机载相机来捕获表演同步的视频，该机载相机由与所连接的机顶盒设备配对的手持设备提供。在申请号为15/337,866的、在2016年10月28日提交的、发明人名字为Hersh、Shimmin、Yang和Cook、题为“具有无线手持设备视听输入的视听媒体应用程序平台(Audiovisual MediaApplication Platform with Wireless Handheld Audiovisual Input)”的共同拥有的、共同未决的美国专利申请中详细描述了合适的技术，其全部内容通过引用以其整体并入本文。

在图1的图示中，当前主机设备101B的当前主机用户至少部分地控制现场直播122的内容，该现场直播122被缓冲用于设备120A、120B、...、120N上的观众，并且被流传输到设备120A、120B、...、120N上的观众。在所示配置中，当前访客设备101A的当前访客用户对由当前主机设备101B作为现场直播122提供(最终经由内容服务器110)的群体视听表演混合111做出贡献。尽管为了简单起见，设备120A、120B、...、120N以及实际上当前访客设备101A和主机设备101B被示出为手持设备(例如，移动电话)，但是受益于本公开的本领域技术人员将理解，观众的任何给定成员可以经由机顶盒或其他具有流传输媒体能力的客户端在任何合适的计算机、智能电视、平板电脑上接收现场直播122。

在所示配置中，在卡拉OK型表演捕获的上下文中，对被混合以形成群体视听表演混合111的内容进行捕获，其中，将歌词102、可选音调提示105以及通常的伴奏轨迹107从内容服务器110提供给当前访客设备101A和当前主机设备101B中的任一个或两者。例如，(当前主机设备101B上的)当前主机通常通过以下操作来对现场直播实行最终控制：从观众中选择特定用户(或多个用户)来充当(一个或多个)当前访客、通过从请求队列中选择特定歌曲(和/或针对特定用户的其声音部分)和/或通过开始、停止或暂停群体AV表演。一旦当前主机选择或者批准了访客和/或歌曲，则访客用户可以(在一些实施例中)开始/停止/暂停用于本地可听呈现的伴奏轨迹107A的滚动，并且以其他方式对被提供给当前主机设备101B的访客混合106的内容(伴奏轨迹滚动与所捕获的访客视听内容混合)进行控制。在当前访客设备101A处的歌词102A和可选音调提示105A的滚动与伴奏轨迹107A在时间上一致，并且同样受到当前访客的开始/停止/暂停控制。在一些情况或情境中，可以从媒体商店(例如，驻留在手持设备、机顶盒等中的iTunes^TM库或者可以从手持设备、机顶盒等进行存取的iTunes^TM库)呈现伴奏音频和/或视频。

通常，歌曲请求132是观众发起的，并且通过信令路径被传送到内容服务器110的内容选择和访客队列控制逻辑112。主机控制131和访客控制133被示出为双向信令路径。基于本公开，将理解与所描述的操作一致的其他队列和控制逻辑配置，包括主机或者访客控制的队列和/或歌曲选择。

在图1所示的配置中，并且尽管存在不可忽略的时间滞后(通常为100-250ms，但可能更大)，当前主机设备101B接收并且可听地将访客混合106呈现为伴奏轨迹，在当前主机设备101B处针对该伴奏轨迹捕获当前主机的视听表演。在当前主机设备101B处的歌词滚动102B和可选音调提示105B与伴奏轨迹(在此为访客混合106)在时间上对应。为了基于当前访客设备101A和当前主机设备101B之间的对等通信信道中的时间滞后以及访客侧开始/停止/暂停控制来促进与访客混合106的同步，可以在访客混合中编码标记信标，以在屏幕上提供歌词102B和可选音调提示105B的适当相位控制。可选地，可以使用对包括在访客混合106中的任何伴奏轨迹107A的相位分析(或者任何渗透，在伴奏轨迹被单独编码或传送的情况下)来提供对当前主机设备101B处的屏幕上的歌词102B和可选音调提示105B的适当相位控制。

应当理解，当前访客设备101A和当前主机设备101B之间的对等通信信道中的时间滞后影响访客混合106和相反方向上的通信(例如，主机麦克风103C信号编码)。各种通信信道中的任何一种都可以被用于在当前访客设备101A与当前主机设备101B之间、以及在访客设备101A和主机设备101B与内容服务器110之间、以及在观众设备120A、120B、...、120N与内容服务器110之间传送视听信号和控制。例如，相应的电信运营商无线设施和/或无线局域网以及相应的广域网网关(未具体示出)可以向设备101A、101B、120A、120B、...、120N提供通信和提供来自设备101A、101B、120A、120B、...、120N的通信。基于本文的描述，本领域技术人员将认识到，可以单独地或组合地采用各种数据通信设施(包括802.11Wi-Fi、蓝牙^TM、4G-LTE无线、有线数据网络、诸如根据HDMI、AVI、Wi-Di标准或设施的有线或无线视听互连)中的任何一种，以促进本文描述的通信和/或视听呈现。

用户声音103A和103B在各自的手持设备101A、101B处被捕获，并且可以可选地连续地和实时地进行音调校正，并且与本地适当的伴奏轨迹(例如，在当前访客设备101A处的伴奏轨迹107A和在当前主机设备101B处的访客混合106)进行音频混合地呈现，以向用户提供他/她自己的声音表演的经改进的音质再现。音调校正通常基于得分编码的音符集合或提示(例如，分别在当前访客设备101A处和当前主机设备101B处视觉地显示的音调和和声提示105A、105B)，其提供在相应设备上执行的连续音调校正算法(其具有当前音调或音阶中的目标音符的表演同步序列)。除了表演同步旋律目标之外，得分编码的和声音符序列(或集合)提供了具有附加目标(通常被编码为相对于引导旋律音符轨迹的偏移，并且通常仅对其所选部分打分)的音调移位算法，用于音调移位以与用户自己捕获的声音的版本进行协调。在一些情况下，音调校正设置可以是特定艺术家(例如，表演与特定伴奏轨迹相关联的声音的艺术家)的特性。

通常，歌词、旋律以及和声轨迹音符集合以及相关联的定时和控制信息可以被封装在适当的容器或对象中(例如，在音乐的乐器数字接口、MIDI或Java脚本对象符号、字符串、类型格式中)，以便与(一个或多个)伴奏轨迹一起提供。使用这样的信息，设备101A和101B(以及相关联的视听显示器和/或机顶盒设备，未具体示出)可以显示歌词，乃至与目标音符、和声以及当前检测到的与(一个或多个)伴奏轨迹的听觉表演相对应的声音音调相关联的视觉提示，以便促进用户的卡拉OK型的声音表演。因此，如果积极的歌手选择了如由布鲁诺马尔斯(Bruno Mars)推广的“旧情人(When I Was Your Man)”，则your_man.json和your_man.m4a可以从内容服务器下载(在基于先前的下载尚未可用或缓存的情况下)，并且又被用于提供背景音乐、同步歌词，以及在一些情况或实施例中，在用户演唱时提供用于连续、实时音调校正的得分编码音符轨迹。可选地，至少对于某些实施例或流派，和声音符轨迹可以是得分编码的，用于和声移位到所捕获的声音。通常，所捕获的音调校正(可能是配有和声的)的声音表演与表演同步视频一起在手持设备或机顶盒上被本地地保存为一个或多个视听文件，并且随后被压缩和编码以作为MPEG-4容器文件传送(例如，作为访客混合106或群体视听表演混合111或前述的组成编码)到内容服务器110。MPEG-4是用于互联网、移动网络和高级广播应用的数字多媒体内容的编码表示和传输的一个合适标准。如果需要，则可以采用其他合适的编解码器、压缩技术、编码格式和/或容器。

如受益于本公开的本领域技术人员将理解的，可以对多个歌手的表演(包括表演同步的视频)进行积累和组合，诸如以形成二重唱型表演、合唱团或声音干扰会话。在本发明的一些实施例中，社交网络结构可以至少部分地取代或通知对地理上分布的歌手的配对和/或地理上分布的虚拟合唱团的形成的主机控制。例如，相对于图1，各个歌手可以以捕获的方式(具有声音音频和表演同步的视频)作为当前主机和访客用户来执行，并且最终作为现场直播122被流传输给观众。这种所捕获的视听内容可以进而通过由内容服务器所调解的开放呼叫被分发到歌手的社交媒体联系人、观众的成员等。以这种方式，歌手本身、观众的成员(和/或代表他们的内容服务器或服务平台)可以邀请其他人加入协调的视听表演，或者作为观众的成员或访客队列。

在此示出和描述了伴奏轨迹的供应和使用的情况下，应当理解，所捕获的、音调校正的(并且可能但不一定是配有和声的)声音本身可以被混合(如与访客混合106)以产生用于激发、引导或框住随后的声音捕获的“伴奏轨迹”。此外，可以邀请附加歌手来演唱特定部分(例如，男高音、二重唱中的部分B等)或简单地演唱，随后的声音捕获设备(例如，图1的配置中的当前主机设备101B)可以音调偏移并且将其所捕获的声音置于二重唱或虚拟合唱团内的一个或多个位置中。在共同拥有的、专利号为8,983,829的、题为“对从地理上分布的表演者捕获的声音进行协调和混合(COORDINATING AND MIXING VOCALS CAPTURED FROMGEOGRAPHICALLY DISTRIBUTED PERFORMERS)”的、并且发明人为Cook、Lazier、Lieber和Kirk的美国专利中描述了表演增长的这些和其它方面(对于内容服务器所调解的实施例)，该美国专利通过引用并入本文。

同步方法

基于本文的描述，本领域技术人员将理解容许在访客设备101A和主机设备101B之间的对等通信信道中的不可忽略的时间滞后的各种主机—访客同步方法。如图1的上下文所示，伴奏轨迹(例如，伴奏轨迹107A)可以提供用于在相应对等设备(访客设备101A和主机设备101B)处执行的时间相位的声音捕获的同步时间线，并且最小化(或消除)针对其用户的感知延迟。

图2是描绘根据(一个或多个)本发明的一些实施例的在以用于生成群体视听表演现场直播的“主机同步”对等配置的方式进行耦合的相应访客和主机设备处捕获和处理的音频信号的流的流程图。更具体地，图2示出了在对等会话期间访客设备101A和主机设备101B(回看图1)的示例性配置以及在其间(例如，访客混合106和主机麦克风音频103C)流动的视听信号如何提供用户体验，其中主机设备歌手(在主机设备101B处)总是以完美同步的方式听到(从访客麦克风本地输入103A捕获的)访客声音和伴奏轨迹107A。虽然访客将察觉到主机的累积的声音延迟了(在访客扬声器或耳机240A处提供的混合中)完整的音频往返(RTT)延迟，但是被提供给主机设备101B并且被混合为现场直播(122)的多声音表演的音频流(包括与伴奏轨迹混合的远程访客麦克风)对主机歌手或观众表现出零(或可忽略的)延迟。

标记实际延迟的关键是在从访客设备101A供应到广播者的设备(主机设备101B)的音频混合中包括轨迹107A。该音频流确保了从广播者的角度来看，访客的语音和伴奏轨迹总是同步的(基于在主机扬声器或耳机240B处的可听呈现)。在网络延迟显著的情况下，访客仍然可以感觉到广播者正在轻微地不同步地进行演唱。然而，只要访客关注与伴奏轨迹在时间上同步的演唱，而不是主机的轻微延迟的语音，则主机声音与访客声音的多声音混合以及伴奏轨迹在被流传输到观众时是同步的。

图3是描绘根据(一个或多个)本发明的一些实施例的在以用于生成群体视听表演现场直播的可选“共享延迟”对等配置的方式进行耦合的相应访客和主机设备处捕获和处理的音频信号的流的流程图。更具体地，图3示出了在对等会话期间访客设备101A和主机设备101B(回看图1)的示例性配置以及在其间(例如，访客混合106和主机麦克风音频103C)流动的视听信号如何进行组合以将其他歌手的音频延迟的访客和主机歌手的感知限制到仅在伴奏轨迹之后的单向滞后(名义上为完整音频往返延迟的一半)。

这种有限的延迟感知是通过在两个设备上本地播放伴奏轨迹并且使得它们实时保持同步来实现的。访客设备101A向主机发送包含歌曲中的当前位置的周期性定时消息，并且主机设备101B相应地调整歌曲的回放位置。

我们已经利用两种不同的方法进行了实验，以在两个设备(访客设备101A和主机设备101B)上保持伴奏轨迹同步：

·方法1：我们在主机侧通过单向网络延迟来调整我们接收的回放位置，其被近似为网络RTT/2。

·方法2：我们使用网络时间协议(NTP)来同步两个设备的时钟。这样，我们不需要基于单向网络延迟来调整定时消息，我们简单地将NTP时间戳添加到每个歌曲定时消息。

对于“共享延迟”配置，方法2已经被证明比方法1更稳定。作为优化，为了避免过度的定时调整，如果我们当前距离访客的伴奏轨迹回放位置超过50ms，则主机仅更新伴奏轨迹回放位置。

得分编码的音调轨迹

图4是示出根据(一个或多个)本发明的一些实施例的针对所捕获的声音表演的实时连续得分编码的音调校正和配有和声生成的流程图。在所示的配置中，用户/歌手(例如，在访客设备101A或主机设备101B处的访客或主机歌手，回看图1)与伴奏轨迹卡拉OK型一起演唱。在当前访客设备101A处的访客歌手的情况下，操作的伴奏轨迹是伴奏轨迹107A，而对于在当前主机设备101B处的主机歌手，操作的伴奏轨迹是客户混合106，其至少在采用“主机同步”方法的实施例中传送与访客歌手混合的原始伴奏轨迹。在任一情况下，从麦克风输入201捕获(251)的声音可以可选地实时地连续地音调校正(252)和配有和声(255)，以便与在一个或多个声学换能器202处可听地呈现的操作的伴奏轨迹进行混合(253)。

选择音调校正和所添加的和声两者以对应于得分207，在所示配置中，将其与歌词208和操作的伴奏轨迹209(例如，伴奏轨迹107A或访客混合106)的音频编码一起无线地传送(261)到要对其执行声音捕获和音调校正的(一个或多个)设备(例如，从内容服务器110到访客设备101A，或者经由访客设备101A到主机设备101B，回看图1)。在一些情况或实施例中，内容选择和访客队列控制逻辑112是针对在相应的访客设备101A和主机设备101B处选择的旋律或/和和声音符而选择的。

在本文描述的技术的一些实施例中，基于得分207来确定最接近由用户/歌手发声的音符的音符(在当前音阶或音调中)。虽然该最接近音符可能通常是与得分编码的声音旋律相对应的主音调，但是其不必是。实际上，在一些情况下，用户/歌手可能旨在演唱和声，并且发声的音符可能更接近近似和声轨迹。

手持设备处的视听捕获

尽管不需要在所有实施例中都支持表演同步的视频捕获，但是手持设备101(例如，当前访客设备101A或当前主机设备101B，回看图1)本身可以捕获声音音频和表演同步的视频两者。因此，图5示出了根据某些实现方式的基本信号处理流程(350)，其适于移动电话型手持设备101来捕获声音音频和表演同步的视频，以生成音调校正的和可选地配有和声的声音以用于可听呈现(本地和/或在远程目标设备处)，并且与内容服务器或服务平台110进行通信。

基于本文的描述，本领域普通技术人员将理解到，将信号处理技术

(采样、滤波、抽取等)和数据表示适当地分配到(可执行以提供图5所示的信号处理流程350的)软件的功能块(例如，(一个或多个)解码器352、数模(D/A)转换器351、捕获353、353A和编码器355)的适当分配。类似地，相对于图4，信号处理流程250和说明性得分编码的音符目标(包括和声音符目标)，本领域普通技术人员将理解到，将信号处理技术和数据表示适当地分配到功能块和信号处理构造(其可以至少部分地实现为在手持或其他便携式计算设备上可执行的软件)(例如，(一个或多个)解码器258、捕获251、数模(D/A)转换器256、混合器253、254和编码器257)。

如本领域普通技术人员将理解的，音调检测和音调校正在音乐和语音编码领域中具有丰富的技术历史。实际上，在本领域中已经采用了各种各样的特征提取、时域以及甚至频域技术，并且可以在根据本发明的一些实施例中采用这些技术。考虑到这一点，并且意识到根据(一个或多个)本发明的多歌手同步技术通常独立于任何特定的音调检测或音调校正技术，本说明书不旨在详尽地列举可能适用于根据本说明书的各种设计或实现方式的各种各样的信号处理技术。相反，我们简单地注意到，在根据本发明的一些实施例中，音调检测方法对平均幅度差函数(AMDF)进行计算并且执行逻辑以挑选与音调周期的估计相对应的峰值。基于这样的估计，使用音调偏移叠加(PSOLA)技术来促进波形的重新采样以产生音调偏移的变型，同时减少了拼接的非周期性效应。在申请号为8,983,829的、题为“对从地理上分布的表演者捕获的声音进行协调和混合(COORDINATING AND MIXING VOCALSCAPTURED FROM GEOGRAPHICALLY DISTRIBUTED PERFORMERS)”的、并且发明人名字为Cook、Lazier、Lieber和Kirk的共同拥有的美国专利中更详细地描述了基于AMDF/PSOLA技术的特定实现方式。

示例性移动设备

图6示出了根据本发明的一些实施例的可以充当用于执行软件实现方式的平台的移动设备的特征。更具体地，图6是通常与iPhone^TM移动数字设备的商业可用版本一致的移动设备400的框图。尽管本发明的实施例当然不限于iPhone部署或应用程序(甚至不限于iPhone型设备)，但iPhone设备平台及其丰富的传感器、多媒体设施、应用程序接口和无线应用交付模型的补充，提供了可以在其上部署某些实现方式的功能强大的平台。基于本文的描述，本领域普通技术人员将理解可能适用于(现在或此后)本文描述的发明技术的给定实现方式或部署的各种各样的附加移动设备平台。

简要地总结，移动设备400包括显示器402，其可以对与用户的触觉和/或触觉接触敏感。触敏显示器402可以支持多个触摸特征，处理多个同时发生的触摸点，包括处理与每个触摸点的压力、程度和/或位置相关联的数据。这样的处理促进了手势以及与多个手指的交互和其他交互。当然，也可以使用其他触敏显示技术，例如其中使用触笔或其他指示设备进行接触的显示器。

通常，移动设备400在触敏显示器402上呈现图形用户界面，向用户提供对各种系统对象的存取并且用于传达信息。在一些实现方式中，图形用户界面可以包括一个或多个显示对象404、406。在所示的示例中，显示对象404、406是系统对象的图形表示。系统对象的示例包括设备功能、应用程序、窗口、文件、警报、事件或其他可标识的系统对象。在本发明的一些实施例中，当应用程序被执行时提供本文描述的数字声学功能中的至少一些。

通常，移动设备400支持网络连通，包括诸如移动无线电和无线网络互连功能两者以使得用户能够随身携带移动设备400及其相关联的网络使能的功能。在某些情况下，移动设备400可以与附近的其他设备进行交互(例如，经由Wi-Fi、蓝牙等)。例如，移动设备400可以被配置为与用于一个或多个设备的对等方或基站进行交互。这样，移动设备400可以授予或拒绝对其他无线设备的网络存取。

移动设备400包括各种输入/输出(I/O)设备、传感器和换能器。例如，通常包括扬声器460和麦克风462以促进音频，例如声音表演的捕获和伴奏轨迹的可听呈现以及如本文其他地方所述的混合的音调校正的声音表演。在本发明的一些实施例中，扬声器460和麦克风662可以为本文描述的技术提供适当的换能器。可以包括外部扬声器端口464以促进免提语音功能，例如扬声器电话功能。还可以包括音频插孔466，以用于耳机和/或麦克风。在一些实施例中，外部扬声器和/或麦克风可以被用作用于本文描述的技术的换能器。

也可以使用或提供其他传感器。可以包括接近传感器468以促进对移动设备400的用户位置的检测。在一些实现方式中，可以利用环境光传感器470来促进对触敏显示器402的亮度的调节。可以使用加速度计472来检测移动设备400的运动，如由方向箭头474所指示的。因此，可以根据检测到的取向(例如，肖像或风景)来呈现显示对象和/或媒体。在一些实现方式中，移动设备400可以包括用于支持位置确定能力(例如，由全球定位系统(GPS)或其他定位系统(例如，使用Wi-Fi存取点、电视信号、蜂窝网格、统一资源定位符(URL)的系统)提供的用来促进本文描述的地理编码的位置确定能力)的电路和传感器。移动设备400还包括相机镜头和成像传感器480。在一些实现方式中，相机镜头和传感器480的实例位于移动设备400的前表面和后表面上。相机允许捕获静止图像和/或视频以与所捕获的音调校正的声音进行关联。

移动设备400还可以包括一个或多个无线通信子系统，例如802.11b

/g/n/ac通信设备和/或蓝牙^TM通信设备488。还可以支持其他通信协议，包括其他802.x通信协议(例如，WiMax、Wi-Fi、3G)、第四代协议和调制(4G-LTE)和超越(例如，5G)、码分多址(CDMA)、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)等。端口设备490(例如，通用串行总线(USB)端口或者对接口或者一些其他有线端口连接)可以被包括，并且被用于建立与其他计算设备(例如，其他通信设备400、网络存取设备、个人计算机、打印机或其他能够接收和/或发送数据的处理设备)的有线连接。例如，端口设备490还可以允许移动设备400使用一个或多个协议(例如，TCP/IP、HTTP、UDP和任何其他已知协议)来与主机设备进行同步。

图7示出了根据本文的功能描述而利用声音音频和视频捕获代码、用户接口代码、音调校正代码、音频呈现管线和回放代码进行编程(或可编程)的计算设备的各个实例(701、720A、720B和711)。设备实例701被描绘为以声音音频和表演同步的视频捕获模式进行操作，而设备实例720A和720B被描绘为以接收现场直播的混合的视听表演的模式进行操作。尽管电视型显示器和/或机顶盒设备720B被描述为以现场直播接收模式进行操作，但是这样的设备和计算机711可以作为声音音频和表演同步的视频捕获设施的部分(作为访客设备101A或主机设备101B，回看图1)进行操作。前述设备中的每一个均经由无线数据传输和/或中间网络704与服务器712或服务平台(其对本文关于内容服务器110所解释的存储和/或功能进行托管)进行通信。所捕获的音调校正的声音表演与表演同步的视频进行混合以定义如本文所描述的多歌手视听表演，可以(可选地)在膝上型计算机711处对多歌手视听表演进行现场直播和视听呈现。

其他实施例

尽管参考各种实施例描述了(一个或多个)本发明，但是应当理解，这些实施例是说明性的，并且(一个或多个)本发明的范围不限于它们。许多变化、修改、增加和改进都是可能的。例如，尽管已经描述了根据卡拉OK型界面捕获的音调校正声音表演，但是将理解其他变型。此外，尽管已经在某些说明性应用的上下文中描述了某些说明性信号处理技术，但是本领域普通技术人员将认识到，修改所描述的技术以适应其他合适的信号处理技术和效果是直接的。

根据本发明的实施例可以采取如下形式和/或被提供为如下产品：在计算机可读介质中编码为软件的指令序列和其他功能构造的计算机程序产品(其可以依次在计算系统(例如，iPhone手持设备、移动或便携式计算设备、媒体应用程序平台、机顶盒或内容服务器平台)中执行以执行本文描述的方法)。通常，机器可读介质可以包括有形物品，该有形物品以机器(例如，计算机、移动设备或便携式计算设备的计算设施、媒体设备或流媒体等)以及与信息的发送有关的非暂态存储装置可读的形式(例如，作为应用程序、源代码或目标代码、功能描述信息等)对信息进行编码。机器可读介质可以包括但不限于磁性存储介质(例如，磁盘和/或磁带存储装置)；光学存储介质(例如，CD-ROM、DVD等)；磁光存储介质；只读存储器(ROM)；随机存取存储器(RAM)；可擦除的可编程存储器(例如，EPROM和EEPROM)；闪存；或者适合存储电子指令、操作序列、功能描述性信息编码等的其他类型的介质。

通常，可以为本文描述为单个实例的组件、操作或结构提供多个实例。各种组件、操作和数据存储之间的边界在某种程度上是任意的，并且在特定说明性配置的上下文中说明了特定操作。设想功能的其他分配，并且可以落入(一个或多个)本发明的范围内。通常，在示例性配置中呈现为单独的组件的结构和功能可以被实现为组合的结构或组件。类似地，呈现为单个组件的结构和功能可以被实现为单独的组件。这些和其他变型、修改、添加和改进可以落入(一个或多个)本发明的范围内。

Claims

1.一种音频协作方法，用于广播在主机设备和访客设备之间具有不可忽略的对等通信延迟的地理上分布的第一表演者和第二表演者的联合表演，所述方法包括：

在作为本地对等方进行操作的所述主机设备处接收混合的音频表演的媒体编码，所述混合的音频表演的媒体编码(i)包括在作为远程对等方进行通信耦合的所述访客设备处从表演者中的第一表演者捕获的声音音频，并且(ii)与伴奏音频轨迹进行了混合；

在所述主机设备处，对所接收的混合的音频表演进行可听的呈现，并且相应地捕获来自所述表演者中的第二表演者的声音音频；

在所述主机设备处，将所捕获的第二表演者声音音频与所接收的混合的音频表演进行混合，以提供广播混合用于作为所述广播传输给观众，其中，所述广播混合包括所述第一表演者和所述第二表演者的声音音频以及所述伴奏音频轨迹，在它们之间具有可忽略的时间滞后；以及

在与所述主机设备分离的内容服务器处缓冲所述广播混合并且将缓冲的广播混合从所述内容服务器传输给所述观众。

2.根据权利要求1所述的方法，还包括：

通过广域网，将所述广播混合作为现场直播传输到多个接收者，所述多个接收者构成所述观众。

3.根据权利要求1所述的方法，还包括：

所述第二表演者在所述主机设备处选择性地将所述第一表演者加入所述联合表演。

4.根据权利要求3所述的方法，

其中，加入的第一表演者是从所述观众中选择的，并且至少在所述联合表演的持续时间内，所述加入的第一表演者被与去往所述观众的所述广播的现场直播传输解耦合。

5.根据权利要求4所述的方法，

其中，向所述观众传输的现场直播广播相对于第一表演者声音音频捕获在时间上滞后至少几秒。

6.根据权利要求4所述的方法，还包括：

将所述第一表演者回归到所述观众，并且与此同时，将所述第一表演者重新耦合到所述现场直播传输。

7.根据权利要求6所述的方法，还包括：

选择性地加入第三表演者作为新的远程对等方，并且

此后，

在所述主机设备处接收混合的音频表演的第二媒体编码，所述混合的音频表演的第二媒体编码(i)包括在作为所述新的远程对等方进行通信耦合的新的访客设备处从所述第三表演者捕获的声音音频，并且(ii)与第二伴奏音频轨迹进行了混合；

在所述主机设备处，对所述第二媒体编码进行可听的呈现，并且相应地捕获来自所述第二表演者的附加声音音频；以及

将所捕获的附加声音音频与所接收的第二媒体编码进行混合，以用于作为所述广播的延续而传输给所述观众，其中，所述广播混合包括所述第二表演者和所述第三表演者的声音音频以及所述第二伴奏音频轨迹，在它们之间具有可忽略的时间滞后。

8.根据权利要求1所述的方法，还包括：

将所述第二表演者捕获声音音频提供给所述访客设备远程对等方，以用于在所述访客设备处进行可听的呈现，该呈现相对于捕获来自所述第一表演者的声音音频存在至少一些访客侧时间滞后。

9.根据权利要求8的方法，其中，明显的所述访客侧时间滞后为至少约40-1200ms。

10.根据权利要求8所述的方法，

其中，基本上全部的所述不可忽略的对等通信延迟在所述访客侧时间滞后中是明显的。

11.根据权利要求10所述的方法，

其中，在所述主机设备处或者在第一表演者和第二表演者的所述广播混合中，所述不可忽略的对等通信延迟都不是明显的。

12.根据权利要求1所述的方法，其中，所述不可忽略的对等通信延迟包括：

输入信号到发送的延迟，

网络延迟，

抖动缓冲器延迟，以及

缓冲器和输出延迟。

13.根据权利要求1所述的方法，其中，所述不可忽略的对等通信延迟为至少约100-250ms。

14.根据权利要求1所述的方法，其中，所述不可忽略的对等通信延迟为约100-600ms。

15.根据权利要求1所述的方法，其中，所述不可忽略的对等通信延迟为至少约30-100ms。

16.根据权利要求1所述的方法，

其中，在所述主机设备处接收混合的音频表演并且将所述第二表演者捕获声音音频提供给所述访客设备是使用Web实时通信(WebRTC)型框架经由对等视听连接来进行的。

17.根据权利要求1所述的方法，还包括：

通过广域网来提供所述第一表演者和所述第二表演者的声音音频的广播混合。

18.根据权利要求17所述的方法，

其中，所述广播混合的提供是经由实时消息传输协议(RTMP)型视听流传输协议来进行的。

19.根据权利要求1所述的方法，

其中，至少所述访客设备构成移动手持电话或媒体播放器。

20.根据权利要求1所述的方法，还包括：

在所述主机设备处，根据对声音旋律的音符序列进行编码的声音得分来对第二表演者声音进行音调校正。

21.根据权利要求20所述的方法，还包括：

在所述主机设备处，根据对所述声音旋律的至少一些部分的至少第一组和声音符进行编码的声音得分来对第二表演者声音进行音调校正。

22.根据权利要求1所述的方法，

其中，包括在所接收的混合的表演中的第一表演者声音是经音调校正的声音。

23.根据权利要求1所述的方法，

其中，第一表演者声音和第二表演者声音中的一个是根据对声音旋律的音符序列进行编码的声音得分来进行音调校正的；并且

其中，所述第一表演者声音和所述第二表演者声音中的另一个是根据对所述声音旋律的至少一些部分的至少第一组和声音符进行编码的声音得分来进行音调校正的。

24.根据权利要求1所述的方法，

其中，第一表演者声音和第二表演者声音中的任一个或两个在被包括在所述广播中之前受到计算处理以应用一个或多个音频效果。

25.根据权利要求24所述的方法，其中，所应用的音频效果包括以下各项中的一项或多项：

混响效果，

数字滤波，

频谱均衡化，

非线性失真，

音频压缩，

音调校正或音调偏移，

信道相对增益和/或相位延迟，用于操纵第一表演者或第二表演者在立体声场内的明显放置。

26.根据权利要求1所述的方法，

其中，所接收的媒体编码包括与所捕获的第一表演者声音在表演上同步的视频，

其中，所述方法还包括在所述主机设备处捕获与所捕获的第二表演者声音在表演上同步的视频，并且

其中，所述广播混合是至少所述第一表演者和所述第二表演者的所捕获的音频和视频的视听混合。

27.根据权利要求26所述的方法，还包括：

基于对所述第一表演者声音和所述第二表演者声音中任一者或两者以计算方式定义的音频特征的评估，在所述广播混合中动态地改变所述第一表演者和所述第二表演者中的一个或另一个的至少视觉显著性。

28.根据权利要求26所述的方法，还包括：

至少部分地基于对第一表演者音频或视频和第二表演者音频或视频中任一者或两者以计算方式定义的音频或视频特征，将一个或多个视频效果应用于所述广播混合。

29.根据权利要求1所述的方法，还包括：

在所述主机设备处接收来自所述观众的成员的聊天消息。

30.根据权利要求1所述的方法，还包括：

将聊天消息的至少一些内容合并为所述广播混合的视频的一部分。

31.根据权利要求1所述的方法，还包括：

在所述主机设备处从所述观众的成员接收以下一项或多项：聊天消息、表情符号、动画GIF、投票指示。

32.根据权利要求31所述的方法，还包括：

将所接收的聊天消息内容、表情符号、动画GIF、或投票指示中的至少一些的视觉呈现合并为所述广播混合的一部分。

33.根据权利要求1所述的方法，还包括：

对来自所述广播混合的一个或多个接收者的播放列表请求进行排队。

34.根据权利要求33所述的方法，还包括：

响应于由所述第二表演者在所述主机设备处对排队的播放列表请求中的特定播放列表请求的选择，从内容储存库获取以下一项或多项：所述伴奏音频轨迹、歌词、得分编码音符目标。

35.根据权利要求33所述的方法，还包括：

响应于由所述第二表演者在所述主机设备处对排队的播放列表请求中的特定播放列表请求的选择，要求向通信耦合的访客设备提供以下一项或多项：所述伴奏音频轨迹、歌词、得分编码音符目标。

36.根据权利要求1所述的方法，

其中，所述广播混合被呈现为声音二重唱。

37.根据权利要求1所述的方法，还包括：

在所述主机设备处接收至少另一混合的音频表演的媒体编码，所述另一混合的音频表演的媒体编码(i)包含在作为另一远程对等方进行通信耦合的另一访客设备处从第三表演者捕获的声音音频，并且(ii)与所述伴奏音频轨迹在时间上对准或可对准。

38.根据权利要求2所述的方法，

其中，所述现场直播的音频包括以下两者：

所捕获的与所述第一表演者和所述第二表演者之间的交互对话相对应的对话型音频部分；以及

所捕获的与所述第一表演者和所述第二表演者中的任一者或两者针对所述伴奏音频轨迹的声乐表演相对应的声音表演音频部分。

39.根据权利要求38所述的方法，还包括：

从所述现场直播中选择片段的精彩剪辑集合，

其中，片段的精彩剪辑集合通常包括声乐表演部分，并且通常不包括所述对话型音频部分。

40.根据权利要求38所述的方法，还包括：

基于所述现场直播的特定音频部分与歌词段、副歌或音乐章节边界的对应关系来选择片段的精彩剪辑集合，无论是得分编码的还是通过音频特征分析以计算方式确定的。

41.根据权利要求38所述的方法，还包括：

基于观众对所述现场直播的反应、歌曲结构、和音频功率中的一个或多个，从所述现场直播中选择片段的精彩剪辑集合。

42.根据权利要求38所述的方法，还包括：

响应于用户的选择，保存或共享精彩剪辑中的一个或多个精彩剪辑的视听编码。

43.根据权利要求1所述的方法，还包括：

从所述访客设备接收一个或多个歌词同步标记，所述歌词同步标记向所述主机设备传送在所述访客设备处视觉地呈现的歌词与所述访客设备捕获的所述声音音频的时间对准。

44.根据权利要求43所述的方法，还包括：

在所述主机设备处视觉地呈现所述歌词，其中，基于所接收的一个或多个歌词同步标记，所述歌词的视觉呈现与从所述访客设备接收的所述混合的音频表演的媒体编码在时间上对准。

45.根据权利要求43所述的方法，

其中，所接收的一个或多个歌词同步标记对呈现在所述主机设备上的所述歌词的进度与所述访客设备处的暂停或其他时间控制进行协调。

46.一种用于传播在地理上分布的第一表演者和第二表演者的联合表演的明显现场广播的系统，所述系统包括：

主机设备和访客设备，所述主机设备和所述访客设备由通信网络耦合为本地对等方和远程对等方，它们之间针对视听内容的传输具有不可忽略的对等延迟，所述主机设备被通信耦合作为所述本地对等方以接收混合的音频表演的媒体编码，所述混合的音频表演的媒体编码包含所述访客设备处捕获的声音音频，并且所述访客设备被通信耦合作为所述远程对等方以提供从表演者中的第一表演者捕获的并且与伴奏音频轨迹混合的所述媒体编码；

所述主机设备被配置为可听地呈现所接收的混合的音频表演，相应地捕获来自表演者中的第二表演者的声音音频，并且将所捕获的第二表演者声音音频与所接收的混合的音频表演进行混合以呈现广播混合，在所述主机设备处呈现的所述广播混合在与所述主机设备分离的内容服务器处被缓冲，并且缓冲的广播混合被提供用于作为所述明显现场广播进行传输。

47.一种音频协作方法，用于对在地理上分布的第一设备和第二设备处各自捕获的第一表演者和第二表演者的协调视听作品进行现场直播广播，所述方法包括：

在所述第二设备处接收混合的音频表演的媒体编码，所述混合的音频表演的媒体编码(i)包括在所述第一设备处从表演者中的第一表演者捕获的声音音频，并且(ii)与伴奏音频轨迹进行了混合；

在所述第二设备处，对所接收的混合的音频表演进行可听的呈现，并且相应地捕获来自所述表演者中的第二表演者的声音音频；

在所述第二设备处，将所捕获的第二表演者声音音频与所接收的混合的音频表演进行混合，以提供广播混合，所述广播混合包括所述第一表演者和所述第二表演者的捕获的声音音频以及所述伴奏音频轨迹，在它们之间不具有明显时间滞后；以及

将所述广播混合提供给与所述第二设备分离的服务平台，所述服务平台被配置为将所述提供的广播混合现场直播到构成观众的多个接收者设备。

48.根据权利要求47所述的方法，

其中，所述第一设备作为当前现场直播访客与所述第二设备相关联，并且

其中，所述第二设备作为当前现场直播主机来操作，所述当前现场直播主机控制来自所述观众的作为所述当前现场直播访客的特定设备的关联和分离。

49.根据权利要求48所述的方法，

其中，所述当前现场直播主机从来自所述观众的请求队列中进行选择以关联为所述当前现场直播访客。

50.根据权利要求47所述的方法，其中，所述第一设备以现场直播访客角色进行操作，并且所述第二设备以现场直播主机角色进行操作，所述方法还包括以下各项中的任一项或两项：

所述第二设备释放所述现场直播主机角色，以供另一设备承担；以及

所述第二设备将所述现场直播主机角色传递给从包括所述第一设备和所述观众的集合中选择的特定设备。