CN108040497A

CN108040497A - 基于从异地分布的表演者捕获的内容自动产生协调的视听作品

Info

Publication number: CN108040497A
Application number: CN201680032651.6A
Authority: CN
Inventors: 凯文·索昂; 布纳·金姆; 乔恩·摩勒多佛; 约翰·史姆因; 珍妮·杨; 佩里·库克
Original assignee: Sate Co
Current assignee: Sate Co; Smule Inc
Priority date: 2015-06-03
Filing date: 2016-06-03
Publication date: 2018-05-15
Anticipated expiration: 2036-06-03
Also published as: AU2016270352A1; US20160358595A1; WO2016196987A1; US11158296B2; US10424283B2; CN108040497B; KR102573612B1; US11756518B2; GB2554322B; US9911403B2; KR20180027423A; GB2554322A; GB2554322A8; GB201719624D0; US20200286457A1; AU2016270352B2; US20180350338A1; US20220223128A1

Abstract

捕获用户的声乐音频以及表演同步的视频并使其与其他用户的视听贡献相协调以形成合成的二重奏式或合唱团式或窗口分栏的音乐视频式的视听表演。在一些情况下，在卡拉OK式的歌词演示的情境中，与伴奏的有声渲染相一致地在移动装置、电视型显示器和/或机顶盒设备上捕获各个用户的声乐表演(以及表演同步的视频)。多个歌手的贡献以这样一种方式被协调和混合：在沿给定的表演时间轴的任何给定时间上选择所述贡献者中的一个或多个的表演同步的视频以进行呈现。该选择与视觉进程相一致，该视觉进程与表演乐谱的其他编码方面(例如，音高轨、伴奏音频、歌词、章节和/或声部)相一致地对视觉布局序列进行编码。

Description

基于从异地分布的表演者捕获的内容自动产生协调的视听作品

技术领域

本发明一般涉及视听表演的捕获和/或处理，且特别地涉及适于与声乐表演捕获的便携式装置实施方案相结合使用的技术。

背景技术

手机和其他便携式计算装置的安装基数在绝对数量和计算能力方面每天都在增长。其普通存在且深深扎根于世界各地人们的生活方式中，几乎超越了所有的文化和经济壁垒。从计算上来说，今天的手机提供了可与小于十年前的台式电脑相媲美的速度和存储能力，这使其非常适合实时声音合成和其他音乐应用。部分地，其结果是，一些现代的手机(例如，可从苹果公司购得的手持数字装置)能够支持音频和视频回放。

像传统的原声乐器一样，手机能够是私人的声音产生和捕获装置。然而，与大多数传统乐器相比，其在声学带宽和功率上稍显有限。尽管有着这些缺点，但手机确实具有普遍存在、数量上的优势以及超级移动性的优点，这使得其适宜(至少在理论上)几乎随时随地地将艺术家聚集在一起进行表演。移动音乐领域已在几个发展的研究机构中进行了探索。事实上，近期与诸如Smule Ocarina^TM、Smule Magic Piano、以及Smule Sing！Karaoke^TM(均可从Smule公司购得)之类的应用的体验已显示，先进的数字声学技术可以按提供引人注目的用户体验的方式进行传输。

随着数字声学研究员寻求将其创新转换成可部署到现代手持装置(例如，手持机)和可在由处理器、存储器及其其他有限的计算资源所施加的现实世界的约束内和/或在无线网络典型的通信带宽和传输延迟的约束内进行操作的其他平台的商业应用，出现了显著的实际挑战。期望获得改进的技术和功能性能力，特别是相对于视频的。

发明内容

已经发现，尽管移动装置平台和应用执行环境施加了许多实际的限制，但包括声乐在内的视听(audiovisual)表演仍可以按创建引人注目的用户体验的方式进行捕获并与其他用户的视听表演相协调。在一些情况下，在卡拉OK式的歌词演示的情境中，与伴奏的有声(audible)渲染(rendering)相一致地在移动装置上捕获各个用户的声乐表演(以及表演同步的视频)。在一些情况下，音高提示可以结合卡拉OK式的歌词演示被呈现给歌手，且可选地，可以提供连续的自动音高修正(或将音高转换成和声)。

捕获用户的声乐音频以及表演同步的视频并使其与其他用户的视听贡献相协调以形成合成的二重奏式或合唱团式或窗口分栏的音乐视频式的视听表演。在一些情况下，在卡拉OK式的歌词演示的情境中，与伴奏的有声渲染相一致地在移动装置、电视型显示器和/或机顶盒设备上捕获各个用户的声乐表演(以及表演同步的视频)。多个歌手的贡献以这样一种方式进行协调和混合：在沿给定的表演时间轴的任何给定时间上选择贡献者中的一个或多个的表演同步的视频以进行呈现。选择与视觉进程相一致，该视觉进程与表演乐谱的其他编码方面(例如，音高轨、伴奏音频、歌词、章节和/或声部)相一致地对视觉布局序列进行编码。

在本发明的一些实施例中，一种根据异地分布的表演者贡献来制备协调的视听作品的方法包括：经由通信网络接收与种子的各个有声渲染在时间上保持一致地在各个远程装置上捕获的表演的多个视听编码，接收的视听编码中的每一者均包括各个表演者声乐作品(vocal)以及时间同步的视频；检索视觉进程，该视觉进程与种子在时间上保持一致地对一连串的模板化屏幕布局进行编码，模板化屏幕布局中的每一者均指定其中视频中的各个是可视觉渲染的视觉单元的数量和布置；将包括各个表演者声乐作品和协调的视频的所捕获的表演中的各个表演关联至视觉单元中的各个；以及根据视觉进程和关联将协调的视听作品渲染为捕获的表演的音频混合和协调的视觉呈现。

在一些情况或实施例中，模板化屏幕布局中相继的屏幕布局改变视觉单元的空间布置或数量或改变空间布置和数量两者。在一些情况或实施例中，音频混合包括与在视觉进程中的给定点处的起作用的特定模板化屏幕布局相一致的已被关联至当时起作用的模板化屏幕布局的视觉单元的所捕获的表演中的各个的表演者声乐作品。在一些情况或实施例中，在音频混合中的给定时间点处，所包括的表演者声乐作品仅是针对被关联至当时起作用的模板化屏幕布局的视觉单元的相应所捕获的表演的那些表演者声乐作品。

在一些情况或实施例中采用的视觉进程中，从一个模板化屏幕布局至另一个的至少一些转换与在音乐章节之间的边界在时间上相一致。在一些情况或实施例中采用的视觉进程中，从一个模板化屏幕布局至另一个的至少一些转换与在选自以下集合的各个部分之间的转换在时间上相一致：第一声部；第二声部；以及多歌手部。在一些情况或实施例中采用的视觉进程中，从一个模板化屏幕布局至另一个的至少一些转换与种子所对应的基础歌曲的第N个节拍韵律(N≥1)在时间上相一致。在一些情况或实施例中采用的视觉进程中，在至少一些相继的模板化屏幕布局中的视觉单元的数量与种子所对应的基础歌曲的强度相一致地增加。在一些情况或实施例中采用的视觉进程中，至少一些视觉单元的空间布置或大小从一个模板化屏幕布局至下一个相继的模板化屏幕布局发生变化。

在一些实施例中，该方法还包括根据对应于种子的结构化音乐布置产生视觉进程。在一些情况或实施例中，结构化音乐布置包括与用于表演者声乐作品的音高轨以及用于表演者声乐作品的歌词中的任一者或两者相一致的音乐章节的编码。在一些情况或实施例中采用的视觉进程中，从一个模板化屏幕布局至另一个的至少一些转换与在结构化音乐布置的音乐章节之间的边界在时间上相一致。在一些情况或实施例中，结构化音乐布置包括伴奏的编码。在一些情况或实施例中采用的视觉进程中，从一个模板化屏幕布局至另一个的至少一些转换与经计算从伴奏中提取的第N个节拍韵律(N≥1)在时间上相一致。

在一些情况或实施例中，模板化屏幕布局中的每一者均限定了一组视觉单元的视觉范围，在该组视觉单元中，与表演者中的各个的声乐作品相一致地捕获的视频被渲染。在一些情况或实施例中，模板化屏幕布局包括：至少一个有一个表演者的布局；至少一个有两个表演者的布局；多个有三个和四个表演者的布局；以及针对至少一个表演者数量为N的，多个有N个表演者的布局，其中N≥4。

在一些实施例中，该方法还包括与检索到的视觉进程相一致地，从第一模板化屏幕布局转换至下一个相继的模板化屏幕布局，其中对于与特定表演者的声乐作品相一致地捕获的视频，该转换是从第一布局的第一视觉单元至下一个相继布局的第二视觉单元。在一些情况或实施例中，第一视觉单元至第二视觉单元的转换包括下列中的一个或多个：滑动转换；淡入或淡出转换；缩放转换；以及裁剪转换。

在一些情况或实施例中，渲染是针对适合于通过通信网络进行存储或传输的视听编码或容器格式的渲染。在一些情况或实施例中，渲染是针对显示器和音频换能器的渲染。

在一些实施例中，该方法还包括在音频混合中，对针对已被关联至当时起作用的模板化屏幕布局的特定视觉单元的所捕获的表演的表演者声乐作品的音频幅度进行缩放，其中针对特定表演者的声乐作品的缩放幅度与特定表演者的视频所关联至的特定视觉单元的大小相一致。在一些实施例中，该方法还包括在音频混合中，平移(从左到右)针对已被关联至当时起作用的模板化屏幕布局的特定视觉单元的所捕获的表演的表演者声乐作品，其中针对特定表演者的声乐作品的平移与该特定表演者的视频所关联至的特定视觉单元的横向放置相一致。

在一些实施例中，该方法还包括将协调的视听作品的编码传输至异地分布的表演者中的一个或多个。在一些实施例中，该方法还包括经通信网络接收种子表演的视听编码，该种子表演包括第一表演者声乐作品以及按伴奏的有声渲染在第一远程装置处捕获的时间同步的视频，其中种子包括第一表演者的种子表演。

将参考下面的描述和所附权利要求来理解根据(一个或多个)本发明的这些和其他实施例。

附图说明

参考附图以示例而非限制的方式说明本发明，其中相同的标记通常表示相似的元件或特性。

图1描绘了根据(一个或多个)本发明的一些实施例的在说明性手机型便携式计算装置和内容服务器之间的信息流，其中捕获种子表演且将其与额外的表演者的贡献相混合。

图2描绘了根据(一个或多个)本发明的一些实施例的在用于视听内容捕获且使用内容服务器以进行视听表演合生(accretion)的说明性手机型便携式计算装置之间的信息流。

图3描绘了用于各种数量的歌手的模板化屏幕布局，如可以根据(一个或多个)本发明的一些实施例的所采用的对要用于协调多个视听表演的视觉进程进行编码。

图4A、4B和4C为根据(一个或多个)本发明的一些实施例的沿经协调的视听表演时间轴的声乐表演同步的视频的连续截屏，其中使用被与乐谱相一致地编码的视觉进程来协调多个作出贡献的歌手的视频。

图5描绘了根据(一个或多个)本发明的一些实施例的乐谱编码，其中除了歌词、用于对所捕获的用户声乐作品的声乐提示和/或连续音高修正的音高轨、以及伴奏外(但却与其相一致地)，对模板化屏幕布局的视觉进程进行编码。

图6是描绘了根据(一个或多个)本发明的一些实施例的针对所捕获的视听表演的基于乐谱编码的音高修正设置的可选的实时连续的音高修正以及和声产生的流程图。

图7是根据(一个或多个)本发明的一些实施例的可在说明性手机型便携式计算装置上执行的用于辅助处理所捕获的视听表演的硬件和软件组件的功能框图。

图8描绘了根据(一个或多个)本发明的一些实施例的可以充当用于执行软件实施方案(包括视听捕获)的平台的移动装置的特性。

图9是描绘了根据(一个或多个)本发明的一些实施例的示例性装置的协作的网络图。

本领域技术人员将理解的是，出于简单和清楚的目的，描绘了图中的元件或特性，但其不一定是按比例绘制的。例如，所描绘的元件或特性中的一些的尺寸或突出性可以相对于其他元件或特性被放大以助于增进对本发明的实施例的理解。

具体实施方式

用于执行(一个或多个)本发明的(一个或多个)模式

已经开发了技术来促进在便携式计算装置和客厅式娱乐设备上进行视听表演的捕获、音高修正、和声化、编码和/或渲染。捕获声乐音频以及表演同步的视频并将其与其他用户的视听贡献相协调以形成二重奏式或合唱团式或窗口分栏的音乐视频式的视听表演。

在一些情况下，在卡拉OK式的歌词演示的情境中，与伴奏的有声渲染相一致地在移动装置、电视型显示器和/或机顶盒设备上捕获各个用户的声乐表演(以及表演同步的视频)。在一些情况下，音高提示可以与卡拉OK式的歌词演示相结合地被呈现给歌手，且可选地，可以提供连续的自动音高修正(或将音高转换成和声)。

多个歌手的贡献以这样一种方式进行协调和混合：在沿给定的表演时间轴的任何给定时间上选择贡献者中的一个或多个的表演同步的视频以进行呈现。该选择与视觉进程相一致，所述视觉进程与表演乐谱的其他编码方面(例如，音高轨、伴奏音频、歌词、章节和/或声部)相一致地对视觉布局序列进行编码。在这种布局中的各个视觉单元的数量、视觉布置和大小在给定的协调表演的整个过程中发生变化。

一般而言，对于给定的歌曲，歌曲的音乐结构方面用于创建映射的视觉布局序列。例如，在一些情况、情形或实施例中，歌曲形式(例如，{主歌、副歌、主歌、副歌、桥接……})用于限制该映射。在一些情况下，例如在二重奏中，声部的排序(例如，你唱一行，我唱一行，你唱两个词，我唱三个，我们一起唱……)提供了用于创建视觉布局序列的结构信息。在一些情况、情形或实施例中，构建歌曲的强度(例如，通过声功率、拍子或某种其他测量来测量的)能够得到这样的视觉布局序列：根据测量到的强度添加越来越多的歌手。

在一些情况、情形或实施例中，对特定贡献的选择、视频到经协调的屏幕布局的特定视觉单元的映射和/或对特定表演同步的视频和/或音频的突出呈现可以至少部分地基于从所捕获的声乐音频中提取的(或通过其计算出的)由计算限定的音频特性。类似地，在一些情况、情形或实施例中，特定贡献的选择、视频到协调的屏幕布局的特定视觉单元的映射和/或特定表演同步的视频和/或音频的突出呈现可以至少部分地基于从捕获的视频提取的(或通过其计算出的)由计算限定的视频特性。

根据特定表演同步的视频的定位和/或突出性，可以相应地修改操作性的音频混合设置。例如，在一些情况、情形或实施例中，可以采用空间化过滤器来根据用于相应视频的当前屏幕布局位置左右平移捕获的音频。类似地，可以使用空间化过滤器来根据(i)其中其中呈现相应视频的特定视觉单元的更高(或更低)的当前屏幕布局位置和/或(ii)歌手堆叠的视深改变捕获的音频。例如，对于被映射至副歌的捕获的声乐作品，一些实施例将更大的混响应用于按更小的(且明显更远的)视觉单元呈现视频的那些声乐作品。

可选地且在一些情况或实施例中，能够根据音高修正设置在移动装置(或更一般地，在诸如手机、个人数字助理、膝上型计算机、笔记本电脑、平板电脑或上网本之类的便携式计算装置)上实时地对声乐音频进行音高修正。在一些情况下，音高修正设置对针对声乐表演或针对其一部分的特定音调或音阶进行编码。在一些情况下，音高修正设置包括乐谱编码的旋律和/或和声序列，其与歌词和伴奏一起提供或用于与歌词和伴奏相关联。如果需要的话，和声音符或和弦可以被编码为明确的目标或相对于乐谱编码的旋律甚或歌手发出的实际音高进行编码。机器可用的乐器数字接口式(MIDI式)编码可以用于歌词、伴奏、音符目标、声部(例如，声部1、声部2……共同地)以及音乐章节信息(例如，序曲/尾声、主歌、预合唱、副歌、桥接、转换和/或其他章节编码)等。在一些情况或实施例中，传统的MIDI式编码可以被扩展为也对至一连串的模板化屏幕布局的视觉单元的映射的乐谱对齐的视觉进程进行编码，如本文所描绘和描述的。

基于音高修正的声乐作品、表演同步的视频和乐谱编码的和声混合的引人注目且革新性的性质，用户/歌手可以克服与共享其声乐表演相关联的在其他方式中天然存在的害羞或焦虑。代替地，其甚至鼓励异地分布的歌手与朋友和家人分享或进行合作并将声乐表演贡献为社交音乐网络的一部分。在一些实施方案中，这些交互是通过社交网络和/或电子邮件介导的表演分享以及对加入群组表演的邀请来促进的。通过使用在诸如前述的便携式计算装置之类的客户端上捕获的上传声乐作品，内容服务器(或服务)能够通过操纵和混合多个作出贡献的歌手所上传的视听内容来调解这种经协调的表演。根据特定系统的目标和实施方案，除了视频内容外，上传可以包括音高修正的声乐表演(具有或没有和声)、干(即，未修正的)声乐作品和/或用户音调的控制轨和/或音高修正选择等。

社交音乐能够按各种方式进行调解。例如，在一些实施方案中，在便携式计算装置处按伴奏捕获的且通常根据乐谱编码的旋律和/或和声提示进行音高修正的第一用户的声乐表演作为种子表演被供给至其他可能的声乐表演者。还捕获了表演同步的视频，且该视频可以供给有经音高修正的捕获的声乐作品。所供给的声乐作品通常与伴奏器乐曲/声乐作品相混合且形成用于捕获第二(且可能是相继的)用户的声乐作品的伴奏。通常，相继的声乐贡献者在地理上是分开的且对彼此来说可能是陌生的(至少推理上是)，然而声乐作品的亲密性及其本身的协作经历则趋向于使这种分离最小化。随着相继的声乐表演和视频被捕获(例如，在各个便携式计算装置上)且被合生为社交音乐体验的一部分，捕获各个声乐作品所依赖的伴奏可以演变为包括先前捕获的其他贡献者的声乐作品。一般而言，第一、第二或第N代视听表演都可以被用作种子，然而为了简化描述，本文中的许多实例和说明均假定为第一代种子。

在一些情况下，与混合有伴奏器乐曲和/或声乐作品的声乐表演(例如，在另一个被类似配置的移动装置处捕获和音高修正的)的有声渲染相关联地提供有用于听众评论和排名的迷人的视觉动画和/或设施，以及二重奏、合唱团或合唱组的形成或合生逻辑。合成的和声和/或额外的声乐作品(例如，从在其他位置处的另一个歌手捕获的且可选地进行音高转换以与其他声乐作品进行和声化的声乐作品)也可以被包括在混合中。所捕获的声乐表演(或对组合表演的个体贡献)和/或听众反馈的地理编码可以以提示源于在用户操纵的地球仪上的特定地理场所的表演或演出的方式促进动画或显示非自然信号。以这种方式，所描述的功能的实施方案能够将其他平凡的移动装置转变为促进全球连通性、协作性和社区性的社交工具。

卡拉OK式声乐表演捕获

尽管本发明的实施例并不限于此，但是使用了手机式和/或电视式视听设备的音高修正的卡拉OK式声乐捕获提供了一种有用的描述性环境。例如，在一些实施例中，诸如图1中所示，可从苹果公司购得的手持机(或更一般地说，为手持机101)持有软件，该软件与内容服务器110协同执行以提供声乐捕获以及对所捕获的声乐作品的连续实时的乐谱编码的音高修正及和声化。可以使用由电视或其他视听媒体装置或诸如Apple TV^TM装置之类的连接的机顶盒设备(未在图1中单独示出)提供的或与其结合提供的相机来捕获表演同步的视频。表演同步的视频还可以，或替代地通过使用由手持机101提供的板上相机来进行捕获。

如卡拉OK式应用(例如，可从Smule公司购得的Sing！Karaoke^TM应用)的典型情况一样，器乐曲和/或声乐作品的伴奏能够被有声渲染以供用户/歌手根据其进行演唱。在这样的情况下，歌词可以与该有声渲染相一致地被显示(102)，以便用户进行卡拉OK式声乐表演。在图1所示的配置中，歌词、配时信息、音高及和声提示、伴奏(例如，器乐曲/声乐作品)、表演协调的视频等可以全部源于网络连接的内容服务器110。在一些情况或情形中，可以从媒体存储设备(例如，iTunes^TM库)或驻于手持机、机顶盒、媒体流装置等中或可从其进行访问的其他视听内容存储设备对伴奏音频和/或视频进行渲染。

为了简单起见，可以假定无线局域网将手持机101、任何视听和/或机顶盒设备和广域网网关之间的通信提供至主机服务平台(例如，内容服务器110)。图9描绘了示例性网络配置。然而，基于本文的描述，本领域的技术人员将认识到的是，可以单独或组合采用包括802.11 Wi-Fi、Bluetooth^TM、4G-LTE无线、有线数据网络、有线或无线视听互连(例如，根据HDMI、AVI、Wi-Di标准或设施)的各种数据通信设施中的任一者以便进行本文描述的通信和/或视听渲染。

再次参考图1的实例，用户的声乐作品103在手持机101处被捕获且可选地在手持机处或通过使用视听显示器和/或机顶盒设备(未具体示出)的计算设施被连续且实时的音高修正并被混合有伴奏地有声渲染(见104)以向用户提供他/她自己的声乐表演的改进的音质渲染。要注意的是，尽管所捕获的声乐作品103和有声渲染104是使用以手持机101的麦克风和扬声器设施为中心的方便的视觉符号体系示出的，但受益于本公开的本领域的技术人员将理解，在许多情况下，麦克风和扬声器的功能可以使用附接或无线连接的耳塞、耳机、扬声器、反馈隔离的麦克风等来提供。相应地，除非特别限制，应广泛地理解声乐捕获和有声渲染且其不限于特定的音频换能器配置。

当提供时，音高修正通常基于乐谱编码的音符集合或提示(例如，音高及和声提示105)，其向连续的音高修正算法提供当前音调或音阶中目标音符的表演同步序列。除了表演同步的旋律目标外，乐谱编码的和声音符序列(或集合)能够向音高转换算法提供额外的目标(通常被编码为相对于主旋律音符轨的偏移且通常仅针对其所选部分进行打分)以音高转换至用户自己捕获的声乐作品的和声版本。在一些情况下，音高修正设置可以是特定艺术家(例如，最初表演(或唱红)与特定伴奏相关联的声乐作品的艺术家)的特征。

另外，歌词、旋律以及和声轨音符集以及相关的配时和控制信息可以被封装为在合适的容器或对象(例如，在乐器数字接口(MIDI)或Java脚本对象符号(json)类型格式)中编码的乐谱以与(一个或多个)伴奏一起被供给。使用这样的信息，手持机101、视听显示器和/或机顶盒设备或两者可以根据(一个或多个)伴奏的有声表演来显示歌词以及甚至与目标音符相关的视觉提示、和声、以及当前检测到的声乐音高，以便用户进行卡拉OK式的声乐表演。因此，如果有抱负的歌手选择Anna Kendrick唱红的“当我离开”时，则gone、json和gone.m4a可以从内容服务器110被下载(如果尚不可用或未基于之前的下载进行缓存)，且依次用于提供背景音乐、同步歌词以及在一些情形或实施例中，乐谱编码的音符轨以用于在用户演唱时进行连续实时的音高修正。

可选地，至少对于某些实施例或流派，和声音符轨可以是乐谱编码的以用于至所捕获的声乐作品的和声转换。典型地，所捕获的经音高修正(可能被和声化)的声乐表演以及表演同步的视频一起作为一个或多个视听文件被本地保存在手持机装置或机顶盒上且随后被压缩和编码以用于上传(106)至内容服务器110作为MPEG-4容器文件。MPEG-4是用于互联网、移动网络和高级广播应用的数字多媒体内容的编码表示和传输的国际标准。如果需要的话，可以采用其他合适的编解码器、压缩技术、编码格式和/或容器。

根据实施方案，可以将干声乐作品和/或经音高修正的声乐作品的编码上传(106)至内容服务器110。一般而言，这种声乐作品(经编码的，例如，在MPEG-4容器中或以其他方式进行的)，无论其是已进行了音高修正还是在内容服务器110处进行了音高修正，均能够随后混合(111)有例如伴奏音频和其他捕获的(且可能是音高转换的)声乐表演以产生根据特定目标或网络(例如，手持机120、视听显示器和/或机顶盒设备、社交媒体平台等)的能力或限制选择的质量或编码特征的文件或流。

如本文进一步详细描述的，多个歌手的表演(包括表演同步的视频)可以被合生和组合，以使得呈现为二重奏式表演、合唱团、窗口分栏的音乐视频式作品或声乐即兴演出。在一些实施例中，表演同步的视频贡献(例如，在图1的图示中，包括在手持机101处或使用视听和/或机顶盒设备捕获的种子表演的表演同步的视频122)可以呈现在所得到的混合的视听表演渲染123中，其中屏幕定位、大小或其他视觉突出性在整个混合的视听表演渲染123中动态地变化。定位、大小或其他视觉突出性的视觉进程至少部分地基于一连串的模板化屏幕布局，如本文更详细解释的。

为了简化初始说明，图1描绘了被上传到内容服务器110(或服务平台)并充当种子表演的初始种子表演106的表演同步的音频(103)和视频(105)的捕获，其中该种子表演被分发至一个或多个可能的作出贡献的歌手或表演者，且其他作出贡献的歌手或表演者(#2、#3……#N)根据该种子表演捕获额外的视听(AV)表演。图1描绘了供给其他捕获的AV表演#2、#3……#N以用于在内容服务器110进行音频混合和视觉布置111以产生表演同步的视频122。

图2以稍微扩大的细节图描绘了将背景器乐曲/声乐作品107、歌词/配时信息108、音高及和声提示109和种子表演106提供给额外的歌手或表演者(#2……#N)。这些额外的歌手或表演者通常是异地分布的且在一些情况下，可能从未亲自见过面。和第一个或种子表演者一样，用于第二个……第N个表演者的音频(103.2……103.N)和视频(105.2……105.N)可以以上述方式按使用手持机、视听显示器和/或机顶盒设备、或两者的卡拉OK式提供。要注意的是，尽管图1和图2的图示假定为使用手持机(101)或客厅式视听显示器和/或机顶盒设备来捕获初始种子表演，但受益于本公开的本领域的技术人员将理解，在一些情况或实施例中，工作室设备甚或现有的音乐视频内容可以被用作种子表演106。

包括用于第二个……第N个表演者的声乐作品的捕获的视听表演(#2……#N)被供给至内容服务器110，在内容服务器110中其与其他AV表演(通常包括种子表演)相组合并被供给或呈现(例如，在手持机120处)为表演同步的视听作品122。再次参考图1且在一般情况下，表演视觉表现(及相应的视频)的数量、布局、各个表演者的视觉定位和/或突出性等都可以根据编码视觉进程在整个混合的视听表演渲染123中发生变化。

在图1的图示中，基于编码视觉进程的当前状态选择了两个表演者(已捕获的AV表演(例如，#2、#3……)所来自的两个、三个或更多个表演者中的两个表演者)。然而，受益于本公开的本领域技术人员将理解的是，在任何给定时间，表演者的不同数量、选择、布置和/或视觉布局可以基于编码视觉进程出现在混合的视听表演渲染123中。一般而言，编码视觉进程在与已根据其捕获AV表演的基础背景轨的声部排序或其他音乐结构保持时间对准的情况下进行编码或以其他方式选择用于改变所呈现的表演者的数量和在屏幕上的位置布局。在一些情况或实施例中，可以基于相应声乐作品(或视频)的音频(或视频)特性分析来选择特定的表演者以包括在其中(或选择其以突出显示)。

在本发明的一些实施例中，社交网络构造可以促进异地分布的歌手的配对或编组。例如，相对于图1，第一个歌手可以按一种方式进行捕获(声乐音频和表演同步的视频)并上传(106)至内容服务器或服务平台。这样捕获的视听内容可以经由内容服务器介导的公开呼叫或通过由第一个歌手发起的电子通信被转而分发至第一个歌手的社交媒体联系人。以这种方式，第一个歌手本身(和/或代表其的内容服务器或服务平台)可以邀请其他人加入协调的视听表演。

诸如所示和所述的视听捕获可以包括从初始的或先前的贡献者捕获的声乐作品(通常是经音高修正的声乐作品)以及表演同步的视频。这样的视听捕获能够是(或能够形成其基础)用于来自另一个(可能是远程的)用户/歌手的后续视听捕获(见，例如，其他捕获的视频表演#2、#3……#N)的伴奏视听轨。通常，随后执行的视听内容的捕获可以本地执行或在另一个(地理上分开的)手持装置上执行或使用另一个(地理上分开的)视听和/或机顶盒配置来执行。在一些情况或实施例中，特别是与客厅式、视听显示器和/或机顶盒配置(例如，使用网络连接的Apple Tv装置和电视监视器)相结合的情况下，额外表演者的初始和相继的视听捕获可以使用通用(并置)的一组手持装置和视听和/或机顶盒设备来完成。

在本文示出和描述了伴奏的供给和使用的情况下，将要理解的是，所捕获的经音高修正的(且可能但不一定经和声化的)声乐作品本身可以被混合以产生用于激励、引导或拟定后续声乐捕获的“伴奏”。而且，额外的歌手可以被邀请来演唱特定的部分(例如，男音高、二重奏中的B部分等)或者简单地演唱，在这之后，内容服务器110可以进行音高转换并将其捕获的声乐作品置于二重奏、四重奏或虚拟合唱团内的一个或多个位置上。在共同拥有的题为“协调并混合从异地分布的表演者捕获的声乐作品(COORDINATING AND MIXINGVOCALS CAPTURED FROM GEOGRAPHICALLY DISTRIBUTED PERFORMERS)”且发明人为Cook、Lazier、Lieber和Kirk的美国专利No.8,983,829中更详细地描述了表演合生的这些和其他方面。

视觉进程和模板化屏幕布局

图3描绘了用于各种数量的歌手的模板化屏幕布局，如可以根据(一个或多个)本发明的一些实施例所采用的那样，用于对协调多个视听表演有用的视觉进程进行编码。示例性的布局被示为用于混合的多表演者的视听表演的过程中(回忆混合的视频表演渲染123，见图1)。示出了单个歌手(131)和多个歌手的布局(132、133、134、135、136、138……)，包括用于至少一些数量的歌手的多个替代的布局。说明性地，参考五个歌手的布局，示出了三个替代的布局135.1、135.2和135.3。

通常，根据(一个或多个)本发明的实施例将在整个混合的视听表演渲染时间轴中采用各种布局，包括用于给定数量的表演者的多个布局变化，以便在所得的混合的视听表演渲染中提供视觉趣味。图4A、4B和4C描绘了沿协调的AV表演时间轴130采用的一系列的布局(122A、122B和122C)。在一些情况下，用于给定数量的表演者的布局变化中的一个或多个趋向于使特定歌手(或多个特定歌手)相对于其他人而言最具突出的特色(或更具突出的特色)。再次参考图3，该突出性的实例包括布局135.1、136.1和138.1，分别为所示的五个、六个和八个歌手的布局中的。如前所述，可以根据音频特性分析(例如，音频功率、谱通量和基于乐谱的质量度量)来确定特定表演者的视觉突出性。在一些情况和实施例中，可以向种子表演者提供突出的视觉位置。

尽管描绘了某些示例性布局，但受益于本公开的本领域的技术人员将理解许多合适的变型。还要注意的是，虽然为了简单起见已经示出了具有大致为矩形的组成窗格的大致为方形的形式因子，但在一些情况和实施例中也可以采用其他形式因子和分栏几何形状。例如，风景、肖像和信箱的形式因子在许多手持装置的部署中将是可取的。

乐谱编码的视觉进程和音高轨

图5描绘了根据(一个或多个)本发明的一些实施例的乐谱编码，其中除了歌词108、用于对所捕获的用户声乐作品的声乐提示和/或连续音高修正的音高轨109、以及伴奏107外(但却通常与其在时间上相一致)，对模板化屏幕布局的视觉进程进行编码。通常，乐谱编码的视觉进程151对时变数量的表演者进行编码且可选择用于与时变数量的表演者相对应的视觉布局153的序列(152)。

与通常采用的音乐作品风格相一致地，总乐谱被分解在音乐章节(在这里，在图5的实例中，其被描绘为主歌、主歌、预副歌、副歌)中且歌手的计数趋于在典型的章节中构建。例如，在主歌161中，歌手的计数从一构建到二、到四、到六(随后为五、然后为六)且最后高达八个歌手。与时变数量的表演者相对应的视觉布局153的示例性选择被示为序列152的一部分。模板化屏幕布局的相继的屏幕布局改变视觉单元的空间布置或数量或空间布置和数量两者。

通常，在总的混合的AV表演渲染123(回忆图1)中的音频混合包括与在视觉进程中的给定点处的起作用的特定模板化屏幕布局相一致的已被关联至当时起作用的模板化屏幕布局的视觉单元的所捕获的表演中的各个的表演者声乐作品。在一些情况或实施例中，在乐谱和相应的音频混合中的给定时间点(例如，点P1)处，所包括的表演者声乐作品是针对被关联至当时起作用的模板化屏幕布局(例如，布局L1)的(一个或多个)视觉单元的各个所捕获的表演的那些表演者声乐作品。相应地，在时间点P1和对应的布局L1的情况下，针对混合的AV表演中的六个表演者的六个声乐作品与表演同步的视觉表现一起被渲染，且表演者1(通常是种子表演者)在布局L1的突出位置上具有视觉特色。

如受益于本公开的本领域的技术人员将理解的，从一个模板化屏幕布局至另一个的至少一些转换与在音乐章节之间的边界在时间上相一致，而其他的则位于给定章节的内部。例如，从一个模板化屏幕布局至另一个的转换可以与在各个部分(例如，第一声部、第二声部以及多歌手部)之间的转换在时间上相一致。类似地，从一个模板化屏幕布局到另一个的转换可以与给定章节内的内部标记(例如，在图5中所示的主歌161)在时间上相一致。特别地，在一些情况或实施例中采用的视觉进程，特别是在给定章节内的，可以与该表演所对应的基础歌曲的第N个节拍韵律(N≥1)在时间上相一致。

在一些情况或实施例中采用的视觉进程中，在至少一些相继的模板化屏幕布局中的视觉单元的数量与种子所对应的基础歌曲的构建强度相一致地增加。典型地，至少一些视觉单元的空间布置或大小从一个模板化屏幕布局至下一个相继的模板化屏幕布局发生变化。在(一个或多个)本发明的一些实施例中，如图5中所示的视觉进程151的计算机可读编码是根据与伴奏或与种子表演相应的结构化音乐布置进行制备的。

图6为描绘了根据(一个或多个)本发明的一些实施例的针对所捕获的视听表演的基于乐谱编码的音高修正设置的可选的实时连续的音高修正以及和声产生的流程图。在所示的配置中，用户/歌手用伴奏卡拉OK风格进行演唱。从麦克风输入601捕获(651)的声乐作品实时地被连续音高修正(652)及和声化(655)以与在一个或多个声换能器202处被有声渲染的伴奏相混合(653)。

选择音高修正和添加的和声两者以与音乐乐谱的音高轨609相对应，该音乐乐谱在所示的配置中被无线传送(661)至(一个或多个)装置(例如，从内容服务器110至手持机101或机顶盒设备，回忆图1)，在该装置上，要执行声乐捕获和音高修正，以及歌词608和伴奏607的音频编码。在本文描述的技术的一些实施例中，基于音乐乐谱的音高轨609来确定最接近用户/歌手发出的音符的音符(在当前的音阶或音调中)。虽然这个最接近的音符通常可能是与乐谱编码的声乐旋律相对应的主音高，但却不一定是。事实上，在一些情况下，用户/歌手可能打算演唱和声且所发出的音符可能更接近和声轨。

因此，给定的声乐表演更接近旋律或和声的计算确定可能导致视觉突出性的相应确定，诸如在多表演者的视觉布局中的突出位置上(回忆图3的布局135.1、136.1和138.1，以及在图5中所示的视觉布局的序列152的布局L1中的表演者1的位置上)。在一些模式或实施例中，与被确定为(或被音高修正为)旋律的声乐作品相对应的表演同步的视频可以按通常更突出的方式进行视觉呈现，而与被确定为(或被音高修正为)和声的声乐作品相对应的表演同步的视频可以按更少的突出性进行视觉呈现。

在图6的计算流程中，音高修正或转换的声乐作品可以被组合(654)或聚集以与有声渲染的伴奏相混合(653)和/或被传送(662)至内容服务器110或远程装置(例如，手持机120或620、电视和/或机顶盒设备、或一些其他具有媒体能力的计算系统611)。在一些实施例中，可以在内容服务器110处执行对声乐作品的音高修正或转换以及所导致的对所需视觉突出性的确定。

手持装置上的视听捕获

图7为根据(一个或多个)本发明的一些实施例的可在说明性手机型便携式计算装置上执行的以便处理捕获的视听表演的硬件和软件组件的功能框图。在一些实施例中(回忆图1)，可以使用电视型显示器和/或机顶盒设备的设施执行对声乐音频和表演同步的视频的捕获。然而，在其他实施例中，手持装置(例如，手持装置101)本身可以支持对声乐音频和表演同步的视频两者的捕获。因此，图7描绘了根据某些实施方案的基础信号处理流程(750)，该实施方案适于手机型手持装置101捕获声乐音频和表演同步的视频，以产生用于有声渲染的经音高修正的和可选地经和声化的声乐作品(本地和/或在远程目标装置进行)以及以与内容服务器或服务平台110进行通信。

基于本文的描述，本领域的普通技术人员将理解信号处理技术(采样、过滤、抽取等)和数据表示至可执行用于提供如在图7中所示的信号处理流程750的软件的功能块(例如，(一个或多个)解码器752、数字-模拟(D/A)转换器751、捕获器753和编码器755)的适当分配。同样地，相对于图6、信号处理流程650和说明性乐谱编码的音符目标(包括和声音符目标)而言，本领域的普通技术人员将理解信号处理技术和数据表示至被至少部分地实施为可在手持机(101)或其他便携式计算装置上执行的软件的如在图6中所示的功能块和信号处理构造(例如，(一个或多个)解码器658、捕获器651、数字-模拟(D/A)转换器656、混合器653、654和编码器657)的适当分配。

如本领域的普通技术人员将理解的，音高检测和音高修正在音乐和语音编码领域中拥有丰富的技术历史。事实上，各种各样的特性挑选的时域且甚至是频域技术已用于本领域中且可以在根据本发明的一些实施例中被采用。考虑到这一点并且认识到根据本发明的视觉突出技术通常不依赖于任何特定音高检测或音高修正技术，本发明并不寻求详尽地列出可能适于根据本发明的各种设计或实施方案的各种各样的信号处理技术。代替地，我们仅仅注意到，在根据本发明的一些实施例中，音高检测方法计算平均幅度差函数(AMDF)并执行逻辑以挑选与音高周期的估计相对应的峰值。建构于这种估计，音高转换重叠相加(PSOLA)技术被用于促进波形的重采样以产生音高转换的变型，且同时减少接合的非周期性效应。在共同拥有的题为“协调并混合从异地分布的表演者捕获的声乐作品(COORDINATING AND MIXING VOCALS CAPTURED FROM GEOGRAPHICALLY DISTRIBUTEDPERFORMERS)”且发明人为Cook、Lazier、Lieber和Kirk的美国专利No.8,983,829中更详细地描述了基于AMDF/PSOLA技术的实施方案。

示例性移动装置和网络

图8描绘了根据(一个或多个)本发明的一些实施例的可以充当用于执行软件实施方案(包括视听捕获)的平台的移动装置的特性。特别地，图8描绘了根据本发明的一些实施例的可以充当用于执行软件实施方案的平台的移动装置的特性。更具体地说，图8为通常与iPhone^TM移动数字装置的商业可用版本一致的移动装置800的框图。尽管本发明的实施例当然不限于iPhone的部署或应用(甚或iPhone类型的装置)，但iPhone装置平台连同其丰富的传感器、多媒体设施、应用程序员接口和无线应用交付模型补充提供了高能力平台，在该平台上要部署某些实施方案。基于本文的描述，本领域的普通技术人员将理解可能适于(现在或者之后)本文所述的本发明技术的给定实施方案或部署的各种各样的额外的移动装置平台。

简而言之，移动装置800包括能够对与用户的触觉和/或触觉接触敏感的显示器802。触敏显示器802能够支持多点触摸特性，处理多个同时的触摸点，包括处理与每个触摸点的压力、程度和/或位置有关的数据。这样的处理便于用多个手指做手势和交互以及进行其他交互。当然，也能够使用其他触敏显示技术，例如，使用触笔或其他指示装置进行接触的显示器。

典型地，移动装置800在触敏显示器802上呈现图形用户界面，其向用户提供了对各种系统对象的访问并用于传达信息。在一些实施方案中，图形用户界面能够包括一个或多个显示对象804、806。在所示的实例中，显示对象804、806是系统对象的图形表示。系统对象的实例包括装置功能、应用、窗口、文件、警报、事件或其他可识别的系统对象。在本发明的一些实施例中，当被执行时，应用提供了本文所述的数字声学功能中的至少一些。

典型地，移动装置800支持网络连接，包括例如，移动无线电和无线网络互连功能以使用户能够用移动装置800及其相关联的网络使能的功能进行游历。在一些情况下，移动装置800能够与附近的其他装置(例如，经Wi-Fi、蓝牙等)进行交互。例如，移动装置800能够被配置为与对等体或用于一个或多个装置的基站进行交互。就这点而言，移动装置800可以准予或拒绝对其他无线装置的网络访问。

移动装置800包括各种输入/输出(I/O)装置、传感器和换能器。例如，通常包括扬声器860和麦克风862以促进音频，诸如本文其他地方所述的声乐表演的捕获和伴奏的有声渲染，以及混合的经音高修正的声乐表演。在本发明的一些实施例中，扬声器860和麦克风862可以为本文所述的技术提供合适的换能器。能够包括外部扬声器端口864以便实现免提语音功能，诸如扬声器电话功能。还能够包括音频插孔866以使用耳机和/或麦克风。在一些实施例中，外部扬声器和/或麦克风可以被用作用于本文所述技术的换能器。

还能够使用或提供其他传感器。能够包括接近传感器868以便检测移动装置800的用户定位。在一些实施方案中，能够利用环境光传感器870以便调整触敏显示器802的亮度。能够利用加速度计872以检测移动装置800的移动，如由方向箭头874所示的。相应地，显示对象和/或媒体能够根据检测到的环境判定(例如，肖像或风景)来呈现。在一些实施方案中，移动装置800可以包括用于支持位置确定能力(例如，由全球定位系统(GPS)或其他定位系统(例如，使用了Wi-Fi访问点的系统、电视信号、蜂窝网格、统一资源定位符(URL))所提供的能力)的电路和传感器，以便进行本文所述的地理编码。移动装置800还包括相机镜头和成像传感器880。在一些实施方案中，相机镜头和传感器880的例子位于移动装置800的前和后表面上。相机允许捕获静止图像和/或视频以与所捕获的经音高修正的声乐作品相关联。

移动装置800还能够包括一个或多个无线通信子系统，诸如802.11b/g/n/ac通信装置和/或Bluetooth^TM通信装置888。还能够支持其他通信协议，包括其他802.x通信协议(例如，WiMax、Wi-Fi、3G)、第四代协议和调制(4G-LTE)、码分多址(CDMA)、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)等。能够包括端口装置890(例如，通用串行总线(USB)端口或对接端口或一些其他有线端口连接)且将其用于建立至其他计算装置(例如，其他通信装置800、网络访问装置、个人计算机、打印机或能够接收和/或发送数据的其他处理装置)的有线连接。端口装置890还可以允许移动装置800与使用一种或多种协议(例如，TCP/IP、HTTP、UDP及任何其他已知协议)的主机装置相同步。

图9为描绘了根据(一个或多个)本发明的一些实施例的示例性装置的协作的网络图。特别地，图9描绘了在视听捕获(103、103.2……103.N)中采用的且根据本文的功能描述用声乐音频和视频捕获代码、用户界面代码、音高修正代码、音频渲染流水线和反馈代码进行编程的手持装置或便携式计算装置(例如，移动装置800)的各个例子。第一个装置例子被描述为例如在种子表演的声乐音频中所采用的，并且种子表演的表演同步的视频捕获(103)被描述成当装置例子520在用于具有表演同步的视频的动态视觉突出性的混合视听表演的呈现或回放模式中操作的同时进行操作。尽管额外的电视型显示器和/或机顶盒设备920A同样被描绘为在呈现或回放模式中进行操作，如在本文的其他地方所述的，但这种设备也可以作为声乐音频和表演同步的视频捕获设施的一部分进行操作。前述设备中的每一者均经由无线数据传输和/或介入网络904与托管关于内容服务器110的存储设备和/或本文所解释的功能的服务器912或服务平台进行通信。如本文所述的，用于基于模板化屏幕布局的视觉进程呈现经混合的视听表演渲染而混合有表演同步的视频的所捕获的经音高修正的声乐表演可以(可选)地在膝上型计算机911处被流式传输和视听渲染。

其他实施例

尽管参考了各种实施例描述了(一个或多个)本发明，但是将理解的是这些实施例是说明性的，且(一个或多个)本发明的范围不限于其。许多变型、修改、添加和改进都是可能的。例如，尽管示出和描述了特定的模板化屏幕布局、转换和音频混合技术，但受益于本公开的本领域的技术人员将理解适于给定的部署、实施方案、音乐流派或用户人口统计的数量变化和适应性改变。同样地，虽然已经描述了根据卡拉OK式界面捕获的音高修正声乐表演，但将理解其他变型和适应性改变。此外，尽管已在某些说明性应用和装置/系统配置的情境中描述了某些说明性的信号处理技术，但本领域的普通技术人员将认识到，易于修改所述的技术以适应其他合适的信号处理技术和效果。

根据本发明的实施例可以采用在机器可读介质中被编码为指令序列和软件的其他功能构造的计算机程序产品的形式和/或按其进行提供，该计算机程序产品可以转而在计算系统(诸如，iPhone手持机、移动或便携式计算装置或内容服务器平台)中执行以执行本文所述的方法。通常，机器可读介质能够包括有形物品，其按机器(例如，计算机、移动装置或便携式计算装置的计算设施等)以及伴随信息传输而来的有形存储设备可读的形式(例如，作为应用、源或目标代码、功能描述性信息等)编码信息。机器可读介质可以包括但不限于磁存储介质(例如，磁盘和/或磁带存储设备)；光存储介质(例如，CD-ROM、DVD等)；磁光存储介质；只读存储器(ROM)；随机存取存储器(RAM)；可擦写可编程存储器(例如，EPROM和EEPROM)；闪存；或适于存储电子指令、操作序列、功能描述性信息编码等的其它类型的介质。

通常，可以提供用于本文所述的组件、操作或结构的多个例子以作为单个例子。在各种组件、操作和数据存储之间的边界有些随意，且在特定说明性的配置的情境中描述了特定的操作。设想了功能的其他分配，且其可能落在(一个或多个)本发明的范围内。通常，在示例性配置中作为单独组件呈现的结构和功能可以被实施为组合的结构或组件。类似地，被呈现为单个组件的结构和功能可以被实施为单独的组件。这些和其他变型、修改、添加和改进可以落在(一个或多个)本发明的范围内。

Claims

1.一种根据异地分布的表演者贡献来制备协调的视听作品的方法，所述方法包括：

经由通信网络接收与种子的各个有声渲染在时间上保持一致地在各个远程装置上捕获的表演的多个视听编码，接收到的视听编码中的每一者均包括各个表演者声乐作品以及时间同步的视频；

检索视觉进程，所述视觉进程与所述种子在时间上保持一致地对一连串的模板化屏幕布局进行编码，所述模板化屏幕布局中的每一者均指定其中所述视频中的各个是可视觉渲染的视觉单元的数量和布置；

将包括所述各个表演者声乐作品和协调的视频的所捕获的表演中的各个表演关联至所述视觉单元中的各个视觉单元；以及

根据所述视觉进程和所述关联将所述协调的视听作品渲染为所捕获的表演的音频混合和协调的视觉呈现。

2.根据权利要求1所述的方法，

其中，相继的模板化屏幕布局改变所述视觉单元的空间布置或数量，或者改变空间布置和数量两者。

3.根据权利要求1所述的方法，

其中，所述音频混合包括与在所述视觉进程中的给定点处的起作用的特定模板化屏幕布局相一致的所捕获的表演中的各个表演的表演者声乐作品，该表演者声乐作品已被关联至当时起作用的所述模板化屏幕布局的视觉单元。

4.根据权利要求3所述的方法，

其中，在所述音频混合中的给定时间点处，所包括的表演者声乐作品仅是针对被关联至当时起作用的所述模板化屏幕布局的视觉单元的相应的捕获的表演的那些表演者声乐作品。

5.根据权利要求1所述的方法，

其中，在所述视觉进程中，从一个模板化屏幕布局至另一个的至少一些转换与在音乐章节之间的边界在时间上相一致。

6.根据权利要求5所述的方法，

其中，在所述视觉进程中，从一个模板化屏幕布局至另一个的至少一些转换与在选自以下集合的各个部分之间的转换在时间上相一致：

第一声部；

第二声部；以及

多歌手部。

7.根据权利要求5所述的方法，

其中，在所述视觉进程中，从一个模板化屏幕布局至另一个的至少一些转换与所述种子所对应的基础歌曲的第N个节拍韵律在时间上相一致，N≥1。

8.根据权利要求2所述的方法，

其中，在所述视觉进程中，在至少一些相继的模板化屏幕布局中的视觉单元的数量与所述种子所对应的基础歌曲的强度相一致地增加。

9.根据权利要求2所述的方法，

其中，在所述视觉进程中，至少一些视觉单元的所述空间布置或大小从一个模板化屏幕布局至下一个相继的模板化屏幕布局发生变化。

10.根据权利要求1所述的方法，其还包括：

根据对应于所述种子的结构化的音乐布置产生所述视觉进程。

11.根据权利要求10所述的方法，

其中，结构化的音乐布置包括与以下各项中的任一者或两者相一致的音乐章节的编码：

表演者声乐作品的音高轨；以及

表演者声乐作品的歌词。

12.根据权利要求11所述的方法，

其中，在所述视觉进程中，从一个模板化屏幕布局至另一个的至少一些转换与在所述结构化的音乐布置的所述音乐章节之间的边界在时间上相一致。

13.根据权利要求10所述的方法，

其中，结构化的音乐布置包括伴奏的编码。

14.根据权利要求13所述的方法，

其中，在所述视觉进程中，从一个模板化屏幕布局至另一个的至少一些转换与从所述伴奏经计算提取的第N个节拍韵律在时间上相一致，N≥1。

15.根据权利要求1所述的方法，

其中，所述模板化屏幕布局中的每一者限定了一组视觉单元的视觉范围，在该组视觉单元中，与所述表演者中的各个表演者的声乐作品相一致地捕获的视频被渲染。

16.根据权利要求15所述的方法，其中，所述模板化屏幕布局包括：

至少一个有一个表演者的布局；

至少一个有两个表演者的布局；

多个有三个和四个表演者的布局；以及

针对至少一个表演者数量为N的，多个有N个表演者的布局，其中N≥4。

17.根据权利要求1所述的方法，还包括：

与所检索到的视觉进程相一致地，从第一模板化屏幕布局转换至下一个相继的模板化屏幕布局，其中对于与特定表演者声乐作品相一致地捕获的视频，所述转换是从第一布局的第一视觉单元至下一个相继布局的第二视觉单元。

18.根据权利要求15所述的方法，其中第一视觉单元至第二视觉单元的转换包括以下各项中的一个或多个：

滑动转换；

淡入或淡出转换；

缩放转换；以及

裁剪转换。

19.根据权利要求1所述的方法，

其中，所述渲染是针对适合于通过所述通信网络进行存储或传输的视听编码或容器格式的渲染。

20.根据权利要求1所述的方法，

其中，所述渲染是针对显示器和音频换能器的渲染。

21.根据权利要求1所述的方法，还包括：

在所述音频混合中，缩放针对已被关联至当时起作用的所述模板化屏幕布局的特定视觉单元的所捕获的表演的表演者声乐作品的音频幅度，其中，针对特定表演者的声乐作品的缩放幅度与该特定表演者的视频所关联至的所述特定视觉单元的大小相一致。

22.根据权利要求1所述的方法，还包括：

在所述音频混合中，平移(从左到右)针对已被关联至当时起作用的所述模板化屏幕布局的特定视觉单元的所捕获的表演的表演者声乐作品，其中，针对特定表演者的声乐作品的所述平移与该特定表演者的视频所关联至的所述特定视觉单元的横向放置相一致。

23.根据权利要求1所述的方法，还包括：

将所述协调的视听作品的编码传输至所述异地分布的表演者中的一个或多个。

24.根据权利要求1所述的方法，还包括：

经所述通信网络接收种子表演的视听编码，所述种子表演包括第一表演者声乐作品以及按伴奏的有声渲染在第一远程装置处捕获的时间同步的视频，

其中，所述种子包括所述第一表演者的所述种子表演。