CN114303387A

CN114303387A - 用于用户参与声乐捕获应用的短片段生成

Info

Publication number: CN114303387A
Application number: CN202080059849.XA
Authority: CN
Inventors: 乔恩·摩勒多佛; 大卫·施坦维尔; 杰弗里·C·史密斯; 佩里·R·库克
Original assignee: Smule Inc
Current assignee: Smule Inc
Priority date: 2019-08-25
Filing date: 2020-08-25
Publication date: 2022-04-08
Also published as: WO2021041393A1; US20210055905A1; EP4018434A1; US11693616B2; EP4018434A4

Abstract

用户界面技术为用户歌手提供了用于独奏视听捕获和为其他用户(例如，加入者)进行的后续表演提供种子的机制。视听捕获可以针对预先存在的音频(或视听)作品的完整长度作品或跨越预先存在的音频(或视听)作品的大部分或全部的种子，并且在一些情况下，可以混合用户针对音频(或视听)作品的至少一些部分捕获的媒体内容，以为一个或多个加入者的进一步贡献提供种子。短种子或短片段可跨越少于音频(或视听)作品的全部(在一些情况下，远少于全部)。例如，音频(或视听)作品的主歌、合唱、副歌、叠句或其他有限的组成部分可以构成短种子或短片段。描述了允许系统自动识别合适的短种子或短片段的计算技术。在针对短种子或短片段进行视听捕获之后，可以在社交网络中发布、现场直播或以其他方式传播所产生的独奏或团体的、全长或短形式的表演。

Description

用于用户参与声乐捕获应用的短片段生成

技术领域

本发明一般涉及对视听表演的捕获和/或处理，并且具体地涉及用户界面技术，该用户界面技术适合于呈现较大音频作品的生成或选择的短种子或短片段以用于捕获和潜在地操纵编码音频和/或视觉表演的媒体片段。

背景技术

移动电话、个人媒体播放器、便携式计算设备、流媒体播放器和电视机顶盒的安装基数在数量上每天都在增长并且其计算能力也每天都在增长。这些设备无处不在，深深扎根于世界各地人们的生活方式中，这些设备中的许多超越了文化和经济壁垒。在计算方面，这些计算设备提供的速度和存储能力可与不到十年前的工程工作站或工作组计算机相当，并且通常包括强大的媒体处理器，使其适合于实时声音合成和其他音乐应用。实际上，一些现代设备，诸如

iPod

和其他

或Android设备，相当有能力支持音频和视频处理，同时提供适用于高级用户界面的平台。

诸如Smule Ocarina^TM、

I Am T-Pain^TM、

Smule(fka Sing！Karaoke^TM)、Gitar！By

和Magic

等可从Smule公司获得的应用已经表明先进的数字声学技术可以通过使用此类设备来实行以提供引人入胜的音乐体验。当研究者寻求将他们的创新转变为可部署在现代手持设备和媒体应用平台上的商业应用时，在处理器、存储器和其他有限的计算资源所施加的现实世界的限制下和/或典型的无线网络的通信带宽和传输延迟限制下，仍然存在巨大的实践挑战。需要改进的技术和功能能力，尤其是对于视听内容和用户界面。

发明内容

已经发现，尽管移动设备平台和媒体应用执行环境施加了实践限制，但是包括声乐(vocal)音乐的视听表演可以被捕获并与包括其他用户的表演的视听内容进行协调，以创造引人入胜的用户体验。在一些情况下，个人用户的声乐表演(连同表演同步视频)在移动设备上被捕获，其中歌词与伴奏音轨的可听渲染相对应地以卡拉OK式呈现。例如，可以使用用户界面设计来促进表演捕获，从而向用户歌手视觉地呈现歌词和基音提示(pitchcue)，并由此提供时间同步的音频伴奏音轨的可听渲染。在共有的于2015年10月30日提交的标题为“COORDINATING AND MIXING AUDIOVISUAL CONTENT CAPTURED FROMGEOGRAPHICALLY DISTRIBUTED PERFORMERS(对从地理上分散的表演者捕获的视听内容进行协调和混合)”的美国专利9,866,731中详细描述了示例性技术，包括用于对地理上分散的表演者的视听内容进行捕获、协调和混合的示例性技术，该专利通过引用整体并入本文。

基于这些和相关技术，设想了用户界面改进，为用户歌手提供了对其他用户(例如，加入者)进行后续表演提供种子的机制，并确实用于短形式的独奏视听捕获。在一些情况下，种子可以是跨越预先存在的音频(或视听)作品的大部分或全部的完整长度的种子，并且可以混合用户针对音频(或视听)作品的至少一些部分捕获的媒体内容，以进一步为一个或多个加入者的贡献提供种子。在一些情况下，可以使用跨越音频(或视听)作品少于全部(并且在一些情况下，远少于全部)的短种子或短片段。例如，在一些情况或实施例中，音频(或视听)作品的主歌、合唱、副歌、叠句或其他有限的“组成部分”可以构成协作种子。同样，音频(或视听)作品的这种有限“组成部分”可以支持独奏的、短形式的视听捕获。

这种短种子或短片段可以基于索引(或可索引)到音频或视听作品的各种输入来计算生成。例如，短种子或短片段(作为更完整的音频或视听作品的一部分或子集)的时间范围可以通过针对音频或视听作品处理用户表演的一组声乐捕获来计算。可以使用响度或频谱能量度量和/或基音或与声乐基音轨道的时序对应来选择用于包含在样本中的代表表演或作为其门限，或对这种样本的各个表演在计算中的贡献进行施加权重。音频或视听作品的联合(一起唱)部分可以提供高水平的用户参与度。相应地，上述计算方法可以可选地应用于选择在二重奏或多声部合唱中用户已捕获的音频或视听作品中的部分或有利地进行施加权重。同样，对关联歌词轨道的文本分析可用于识别指示音乐结构的元素的重复，例如合唱、副歌、叠句或其他重复特征。在一些情况下，音乐结构的元素可以基于用户策划、上传元数据或MIDI编码的表演时间线的专业或计算介导的注释而与音频或视听作品相关联(或可相关联)。

无论种子的限度或范围如何，提供种子的用户都可以可选地要求(或呼叫)其他人加入。通常，呼叫邀请其他用户通过一起唱歌、演唱特定声乐部分或音乐部分、演唱和声或其他二重唱部分、说唱、谈话、拍手、录制视频、添加来自相机胶卷的视频剪辑等加入全长或短形式的种子或剪辑。由此产生的团体表演，无论是全长还是只是组成部分，都可以在社交网络中发布、现场直播或以其他方式传播。

在一些情况或实施例中，表演时间线的部分(通常为对应于音乐部分的那些部分)可以被标记和标明以供用户选择。标记/标明可以基于人工或自动来源。例如，特定部分可以由最初上传曲目或相应歌词的用户或由媒体内容管理者标记或标明。以互补方式或替代地，特定部分可以由经过训练以识别部分和边界(例如，从音频背景或声轨、歌词进行识别，或基于众包数据，例如用户倾向于唱得最多或最响亮的地方，进行识别)的机器学习机器人进行标记或标明。

此外，设想到可以提供协作特征，以允许用户向演进的表演时间线贡献媒体内容和/或其他时间同步信息。为了促进内容的协作和/或添加，共享服务平台可以将媒体内容和表演时间线数据展示为多用户并发访问数据库。替代地或附加地，特别是一旦表演时间线已经用种子音频或视频被至少部分地定义，则可以通过(例如，经由共享服务平台或以点对点方式)发布表演时间线以供另外的用户加入来促进协作，另外的用户进而可以捕获、编辑和向表演时间线添加另外的媒体片段、歌词信息、基音音轨、声乐声部(part)指定和/或基于媒体片段的或映射表演/风格/流派的音频或视频效果/滤镜。在一些情况下，使用本文所述的用户界面和平台特征来完成对另外的捕获、编辑和向表演时间线的添加，以促进针对卡拉OK式表演的视听内容和数据的非线性媒体片段捕获和编辑。

受益于本公开的本领域技术人员将理解这些以及其他用户界面改进以及视听表演捕获系统的其他方面。可选地，在一些情况或实施例中，可以在移动设备处(或更一般地，在诸如移动电话、个人数字助理、膝上型计算机、笔记本计算机、平板型计算机或上网本的便携式计算设备处)或内容或媒体应用服务器上根据基音(pitch)校正设置来实时地对声乐音频进行基音校正。在一些情况下，基音校正设置为声乐表演或其部分编码特定的音调(key)或音阶(scale)。在一些情况下，基音校正设置包括与歌词音轨和伴奏音轨一起提供或与之相关联的乐谱编码(score-coded)的旋律和/或和声序列。如果需要，和声音符或和弦可以被编码为明确的目标，或者被编码为与乐谱编码的旋律或甚至歌手演唱的实际基音有关。

基于经基音校正的声乐、表演同步视频和乐谱编码的和声混音的引人入胜和变革性，用户/歌手可以克服与共享其声乐表演相关联的原本自然害羞或焦虑。代替地，作为社交音乐网络的一部分，甚至在地理上分散的歌手被鼓励与朋友和家人分享或协作并贡献声乐表演。在一些实施方式中，这些交互通过社交网络和/或电子邮件为媒介来共享表演以及邀请加入团体表演来促进。在一些实现中，可以支持现场直播。客厅风格的大屏幕用户界面可以有助于这些交互。使用在客户端(诸如上述便携式计算设备)、内容服务器(或服务)处捕获的上传声乐可以通过对多个贡献歌手的上传视听内容进行操纵和混合来调节此种协调表演。根据特定系统的目标和实现，除了视频内容外，上传还可以包括经基音校正的声乐表演(有或没有和声)、干声乐(即未校正的声乐)和/或用户音调和/或基音校正选择的控制音轨等。

社交音乐可以多种方式进行调节。例如，在一些实施方式中，在便携式计算设备处第一用户的声乐表演(该第一用户的声乐表演是相对于伴奏音轨所捕获的并且通常是根据乐谱编码的旋律和/或和声提示经基音校正的)作为种子被提供给其他潜在的声乐表演者。表演同步视频也被捕获，并且可以与经基音校正的所捕获的声乐音频一起被提供。提供的声乐与伴奏乐器/声乐混音，并形成用于捕获第二用户的声乐的伴奏音轨。通常，接连的声乐贡献者在地理位置上是分离的，并且可以彼此不知道(至少先天是不知道的)，但是声乐的亲密感以及协作体验本身倾向于最小化了这种分离。随着接连的声乐表演和视频被捕获(例如，在相应的便携式计算设备处)并作为社交音乐体验的一部分被添加，伴奏音轨(各声乐是相对于此伴奏音轨而被捕获的)可以演进为包括先前捕获的其他贡献者的声乐。

在一些情况下，完整表演或特定声乐声部(例如，二重奏中的声部A或声部B)的完整表演可以构成社交音乐协作的种子。然而，使用本文所述的技术，捕获即使是整体表演的很小或孤立的部分(例如副歌、引人注意部分(hook)、前奏、独白、二重奏或团体声部、主歌或其他有限的部分、分节或选择的大型表演的选定片段)也可以方便地被捕获、重新捕获或编辑以用作协作种子，无论它是否构成完整的表演时间线。在一些情况下，选择的分节、位置或预先标记/标注的片段边界可以对应于音乐结构的元素。因此，根据本发明的实施例可以促进地理上分散的表演者的社交音乐网络中的“短种子”协作机制。

在一些情况下，迷人的视觉动画和/或听众评论和排名功能、以及二重奏、合唱团或合唱团体形成或添加逻辑，与混合了伴奏乐器和/或声乐的声乐表演(例如，其在另一类似配置的移动设备上捕获并且经基音校正)的可听渲染相关联地提供。合成的和声和/或另外的声乐(例如，从在其他位置的另一歌手捕获的声乐，并且可选地经基音偏移以与其他声乐和声)也可以被包括在混音中。音频或视觉滤镜或效果可以在捕获后被应用或重新应用，以宣传或发布内容。在一些情况下，宣传或发布的内容可以采取对另外的歌手的协作请求或开放呼吁的形式。对捕获的声乐表演(或对于组合表演的个人贡献)和/或听众反馈的地理编码可以以如下方式促进动画或显示人为元素(artifact)：暗示源自用户可操纵的地球上的特定地理位置的表演或代言(endorsement)。以该种方式，所描述功能的实现可以将原本普通的移动设备以及客厅或娱乐系统转变为社交工具，从而促进全球连接性、协作性和社区性的独特感。

在根据本发明的一些实施例中，一种系统，包括：多个媒体捕获设备，所述多个媒体捕获设备经由各自的网络通信接口而通信地耦合，用于在至少相应的成对表演者之间与对音频作品进行基线媒体编码相关地进行协作。所述媒体捕获设备中的第一媒体捕获设备为其第一用户提供用户界面，以供从包括完整音频作品及其种子不完全部分(或剪辑)的表演捕获选项中进行选择。所述第一媒体捕获设备被配置为至少捕获所述第一用户的声乐音频，所述声乐音频是针对所选的完整音频作品或所述种子不完全部分(或剪辑)在所述第一媒体捕获设备上的可听呈现而表演的。所述媒体捕获设备中的第二媒体捕获设备被配置为(i)通过该第二媒体捕获设备的网络通信接口接收关于由所述第一用户在所述第一媒体捕获设备处选择的完整音乐作品或种子不完全部分(或剪辑)的指示，以及(ii)捕获第二用户的媒体内容，所述媒体内容是针对所选的完整音频作品或种子不完全部分(或剪辑)混合了所捕获的第一用户的声乐音频而在所述第二媒体捕获设备上的可听呈现而表演的。

在一些情况或实施例中，所述种子不完全部分(或剪辑)的时间范围是至少部分地基于以下方式而确定的：对针对所述音频作品在相应媒体捕获设备上的可听呈现的多个用户表演的声乐捕获进行计算评估，以识别完整音频作品中多个用户一起演唱的特定部分。在一些情况或实施例中，所述种子不完全部分(或剪辑)的时间范围是至少部分地基于以下方式而确定的：对针对所述音频作品在相应媒体捕获设备上的可听呈现的多个用户表演的声乐捕获进行计算评估，以识别完整音频作品中各个用户唱得最响亮或具有最高基音或与所述音频作品的声乐基音轨道具有时序对应性的特定部分。

在一些情况或实施例中，所述种子不完全部分(或剪辑)的时间范围是至少部分地基于以下方式而确定的：对所述音频作品的歌词轨道进行计算分析，以识别表示合唱、副歌、叠句或其他重复声乐元素的重复。一些情况或实施例中，所述种子不完全部分(或剪辑)的时间范围是至少部分地基于以下方式而确定的：从所述音频作品的至少伴奏音轨提取音乐信息检索(MIR)特征，以识别指示合唱、副歌、叠句或音乐结构的其他反复出现或独特的元素的相似性。在一些情况或实施例中，所述种子不完全部分(或剪辑)的时间范围是至少部分地基于从表演同步视频中提取的视觉特征而确定的。

在一些情况或实施例中，所述种子不完全部分的时间范围是至少部分地基于测得的表演者或非表演者用户参与标记而确定的。在一些情况或实施例中，所测得的表演者或非表演者用户参与标记包括以下中的一项或多项：(i)用户选择收听针对所述音频作品的可听呈现捕获的用户表演的感兴趣点或感兴趣部分；(ii)用户使用社交媒体机制表达爱意或喜欢的感兴趣点或感兴趣部分；(iii)基于在时间上索引到所述音频作品的用户掌声度量的聚合叠加而识别的兴趣点或感兴趣部分；和(iv)用户发起聊天、转发剪辑或发起声乐捕获的感兴趣点或感兴趣部分。

在一些情况或实施例中，所述种子不完全部分(或剪辑)的时间范围是至少部分地基于用户策划或上传者元数据捕获而确定的，所述用户策划或上传者元数据标记或标明了所述音频作品的特定部分。

在一些情况或实施例中，所述第一媒体捕获设备的用户界面还允许所述第一用户指定要从所述第二用户的表演中捕获的媒体内容的一个或多个类型，所述第二用户的表演针对声乐所选完整或种子不完全部分(或剪辑)混合了所捕获的所述第一用户的声乐音频而在所述第二媒体捕获设备上的可听呈现。在一些情况或实施例中，所指定的要捕获的媒体内容的所述一个或多个类型是从包括以下各项的集合中选择的：(i)声乐音频、声乐和声、或声乐二重唱部分；(ii)说唱、谈话、拍手、或打击乐；和(iii)视频。

在一些情况或实施例中，所述第一媒体捕获设备的用户界面还允许所述第一用户将所选的完整音乐作品或种子不完全部分(或剪辑)作为协作请求而张贴到包括所述第二用户在内的其他在地理上分散的用户和媒体捕获设备，所述协作请求请求捕获和添加进一步的声乐音频、视频、或表演同步的视听内容。

在一些实施例中，所述系统还包括：服务平台，所述服务平台通信地耦合到所述第一媒体捕获设备和所述第二媒体捕获设备，所述服务平台被配置为：识别所述音频作品的至少种子不完全部分(或剪辑)并将该种子不完全部分(或剪辑)提供到所述第一媒体捕获设备和所述第二媒体捕获设备。在一些实施例中，所述系统还包括：在所述第一媒体捕获设备上的用户界面，所述第一用户通过所述用户界面从所述音频作品的预先标明或标记的部分中选择所述种子不完全部分(或剪辑)。在一些情况或实施例中，所述音频作品的预先标明或标记的部分是由与所述第一媒体捕获设备和所述第二媒体捕获设备通信地耦合的服务平台提供的，所述预先标明或标记的部分已经基于以下各项中的一项或多项而被标明或标记：(i)被编码以用于所述音频作品的音乐结构；(ii)机器学习算法，该机器学习算法应用于所述音频作品的伴奏音频、声乐音频或歌词或者与所述音频作品相对应的伴奏音频、声乐音频或歌词；(iii)众包数据；和(iv)由所述音频作品的用户上传者或由其第三方策划者提供的数据。

在一些情况或实施例中，对所述音频作品的基线媒体编码还对同步的视频内容进行编码。在一些情况或实施例中，所述第一媒体捕获设备还被配置为捕获表演同步的视频内容。在一些情况或实施例中，所述第一媒体捕获设备和所述第二媒体捕获设备是执行应用软件的移动电话型便携式计算设备，所述移动电话型便携式计算设备在其至少一个操作模式下，在其多点触摸敏感显示器上以与所述音频作品的可听呈现在时间上对应的方式提供对包括歌词在内的表演时间线的卡拉OK风格呈现，并且所述移动电话型便携式计算设备经由相应移动电话型便携式计算设备的机载音频和视频接口来捕获相应的第一用户或第二用户的声乐和/或表演同步的视频。

在根据本发明的一些实施例中，一种方法包括：在经由网络通信接口通信地耦合的媒体捕获设备处，呈现用户界面选项，用于进行与对音频作品进行基线媒体编码相关的声乐表演捕获。呈现的用户界面选项允许用户从包括完整音频作品及其剪辑或种子不完全部分的表演捕获选项中进行选择，第一媒体捕获设备被配置为至少捕获第一用户的声乐音频，所述声乐音频是针对所选的完整音频作品或不完全部分而在所述第一媒体捕获设备上的可听呈现而表演的。所述不完全部分的时间范围是至少部分地基于以下方式而确定的：对针对所述音频作品在相应其他媒体捕获设备上的可听呈现的多个用户表演的声乐捕获进行计算评估，以识别完整音频作品的多个用户一起演唱的特定部分。

在一些实施例中，所述方法还包括：经由所述网络通信接口，向至少第二媒体捕获设备提供关于由所述第一用户在所述第一媒体捕获设备处所选的不完全部分的指示，作为用于捕获第二用户的媒体内容的种子，所述媒体内容是针对所述音频作品的所选种子不完全部分(或剪辑)混合了所捕获的所述第一用户的声乐音频而在所述第二媒体捕获设备上的可听呈现而表演的。

在一些情况或实施例中，所述种子不完全部分的时间范围是至少部分地基于以下方式而确定地：对针对所述音频作品在相应媒体捕获设备上的可听呈现的多个用户表演的声乐捕获进行计算评估，以识别完整音频作品的多个用户一起演唱的特定部分。在一些情况或实施例中，所述不完全部分的时间范围是至少部分地基于以下方式而确定地：对针对所述音频作品在相应媒体捕获设备上的可听呈现的多个用户表演的声乐捕获进行计算评估，以识别完整音频作品的各个用户唱得最响亮或具有最高基音或与所述音频作品的声乐基音轨道具有时序对应性的特定部分。在一些情况或实施例中，所述不完全部分的时间范围是至少部分地基于以下方式而确定的：对所述音频作品的歌词轨道进行计算分析，以识别表示合唱、副歌、叠句或其他重复声乐元素的重复。在一些情况或实施例中，所述不完全部分的时间范围是至少部分地基于以下方式而确定的：从所述音频作品的至少伴奏音轨提取音乐信息检索(MIR)特征，以识别指示合唱、副歌、叠句或音乐结构的其他反复出现或独特的元素的相似性。

在一些情况或实施例中，不完全部分捕获选项的时间范围是至少部分地基于测得的表演者或非表演者用户参与标记而确定的。在一些情况或实施例中，测得的表演者或非表演者用户参与标记包括以下中的一项或多项：(i)用户选择收听针对所述音频作品的可听呈现捕获的用户表演的感兴趣点或感兴趣部分；(ii)用户使用社交媒体机制表达爱意或喜欢的感兴趣点或感兴趣部分；(iii)基于在时间上索引到所述音频作品的用户掌声度量的聚合叠加而识别的感兴趣点或感兴趣部分；和(iv)用户发起聊天、转发剪辑或发起声乐捕获的感兴趣点或感兴趣部分。在一些情况或实施例中，所述不完全部分的时间范围是至少部分地基于用户策划或上传者元数据捕获而确定的，所述用户策划或上传者元数据捕获标记或标明了所述音频作品的特定部分。

在根据本发明的一些实施例中，一种系统包括：服务平台和多个媒体捕获设备。所述多个媒体捕获设备通过各自的网络通信接口而通信地耦合到所述服务平台，用于进行与对音频作品的媒体编码相关的媒体捕获。所述媒体捕获设备为其各自的用户提供用户界面，以供从包括所述服务平台向相应媒体捕获设备识别的所述音频作品的一个或多个不完全部分的表演捕获选项中进行选择。所述服务平台基于以下中的一项或多项来识别所述不完全部分中的各个部分：(i)被编码以用于所述音频作品的音乐结构；(ii)机器学习算法，该机器学习算法应用于针对所述音频作品捕获的视听表演的伴奏音频、声乐音频或歌词或者对应于针对所述音频作品捕获的视听表演的伴奏音频、声乐音频或歌词；(iii)为表演者和/或非表演者用户参与所述音频作品而测得的众包感兴趣点或感兴趣部分数据。所述媒体捕获设备被配置为至少捕获相应用户的声乐音频，所述声乐音频是针对所述音频作品的相应所选的不完全部分在相应媒体捕获设备上的可听呈现而表演的。

在一些情况或实施例中，各个用户能选择的表演捕获选项包括完整音频作品。在一些情况或实施例中，各个用户在相应媒体捕获设备处能选择的表演捕获选项包括由所述服务平台识别的所述音频作品的多个单独的不完全部分。在一些情况或实施例中，各个用户在相应媒体捕获设备上能选择的表演捕获选项包括由所述服务平台识别的所述音频作品的多个不完全部分的用户定义的连接，所述用户定义的连接构成的音乐作品达不到完整音频作品。

在一些情况或实施例中，所识别的一个或多个不完全部分的时间范围是至少部分地基于以下方式而确定的：对针对所述音频作品在相应媒体捕获设备上的可听呈现的多个用户表演的声乐捕获进行计算评估，以识别完整音频作品的多个用户一起演唱的特定部分。在一些情况或实施例中，所识别的一个或多个不完全部分的时间范围是至少部分地基于以下方式而确定的：对针对所述音频作品在相应媒体捕获设备上的可听呈现的多个用户表演的声乐捕获进行计算评估，以识别完整音频作品的各个用户唱得最响亮或具有最高基音或与所述音频作品的声乐基音轨道具有时序对应性的特定部分。

在一些情况或实施例中，所识别的一个或多个不完全部分的时间范围至少部分地基于以下方式而确定的：对所述音频作品的歌词轨道进行计算分析，以识别表示合唱、副歌、叠句或其他重复声乐元素的重复。在一些情况或实施例中，所识别的一个或多个不完全部分的时间范围是至少部分地基于以下方式而确定的：从所述音频作品的至少伴奏音轨提取的音乐信息检索(MIR)特征，以识别指示合唱、副歌、叠句或音乐结构的其他反复出现或独特的元素的相似性。

在一些情况或实施例中，所识别的一个或多个不完全部分的时间范围是至少部分地基于从表演同步视频中提取的视觉特征而确定的。在一些情况或实施例中，所识别的一个或多个不完全部分的时间范围是至少部分地基于所测得的表演者或非表演者用户参与标记而确定的。

在一些情况或实施例中，测得的表演者或非表演者用户参与标记包括以下中的一项或多项：(i)用户选择收听针对所述音频作品的可听呈现捕获的用户表演的感兴趣点或感兴趣部分；(ii)用户使用社交媒体机制表达爱意或喜欢的感兴趣点或感兴趣部分；(iii)基于在时间上索引到所述音频作品的用户掌声度量的聚合叠加识别的感兴趣点或感兴趣部分；和(iv)用户发起聊天、转发剪辑或发起声乐捕获的感兴趣点或感兴趣部分。

在一些情况或实施例中，所识别的一个或多个不完全部分的时间范围是至少部分地基于用户策划或上传者元数据捕获而确定的，所述用户策划或上传者元数据捕获标记或标明了所述音频作品的特定部分。

在一些情况或实施例中，由所述第一用户在所述媒体捕获设备中的第一媒体捕获设备处选择的不完全部分作为种子不完全部分被传送到所述媒体捕获设备中的第二媒体捕获设备，所述第二媒体捕获设备的第二用户针对所述种子不完全部分捕获媒体内容。

附图说明

参考附图并通过示例而非限制的方式示出了本申请的(一个或多个)发明，在附图中，相似的附图标记通常指示相似的元件或特征。

图1描绘了根据本申请的(一个或多个)发明的一些实施例的用于在准备团体视听表演中进行非线性视听捕获和/或编辑的说明性移动电话类型便携式计算设备之间的信息流。

图2更详细地描绘了便携计算设备上的示例性用户界面，该示例性用户界面具有歌词、基音提示的视觉同步呈现和与声乐捕获会话有关的擦刷器。

图3示出了与声乐捕获滚动行为有关的示例性用户界面，其中歌词和表演时间线的呈现中的当前点与用户在便携式计算设备的触摸屏上的手势相对应地向前或向后移动。

图4示出了与声乐捕获中的暂停有关的示例性用户界面。

图5示出了另一示例性用户界面，其中擦刷器以与用户在便携式计算设备的触摸屏上的手势相对应地向前或向后移动。

图6示出了根据本申请的发明的一些实施例的时间索引遍历机制。

图7示出了关于参考一些前述附图引入的擦刷机制的一些说明性变形例。

图8示出了使用捕获的声乐表演作为音频种子，用户向音频种子增加视频，并最终更新表演时间线以增加或改变流或声乐声部选择。

图9描绘了包括另外的多用户协作方面的说明性序列。

图10描绘了具有多用户协作的说明性序列，其涉及由用户创建或捕获的视频作为初始种子表演。

图11描绘了示例性的特殊邀请选项，包括对特定声乐声部的用户指定，加入者被引导以针对该特定声乐声部演唱或为其提供音频。

图12A和图12B(在本文中一起称为图12)描绘了根据本发明的一些实施例的布置的自由风格创建。

图13示出了根据本发明的一些实施例的短种子协调流程。

图14和图15示出了用于对视听内容进行捕获、协调和/或混合的示例性技术。

图16示出了根据本申请的(一个或多个)发明的一些实施例的可以用作用于执行软件实现方式的平台的移动电话类型设备的特征。

图17示出了根据本申请的(一个或多个)发明的一些实施例的设备和相关服务平台可以在其中操作的系统。

图18示出了用于由用户表演者选择短种子(或短片段)与完整歌曲作为声乐捕获的音频基线的用户界面选项。

图19描绘了用于针对预先识别的短片段或者替代地针对用户选择和加入的短片段来捕获视听内容的用户界面流程和对应的示例性用户界面呈现。

图20描绘了从多个用户的掌声指示聚合的掌声度量的示例性用户界面呈现。

技术人员将理解，图中的元素或特征是为了简单和清楚起见而示出的，并且不一定按比例绘制。例如，一些示出的元素或特征的尺寸或显著性可能相对于其他元素或特征被夸大以便提高对本发明实施例的理解。

具体实施方式

已经开发出有助于对视听表演进行捕获、基音校正、合成、编码和渲染的技术。声乐音频连同表演同步视频可以被捕获并与其他用户的视听贡献进行协调，以形成多表演者、二重奏风格或合唱团风格的视听表演。对表演时间线的各个片段或部分的非线性捕获和/或编辑允许多个贡献者自由地协作，通常使用独立的和地理上分散的音频和/或视频捕获。在一些情况下，音频和视频可以被分开捕获并在捕获后关联。在一些情况下，在移动设备、电视类型显示器和/或机顶盒装备上捕获个人用户的表演(音频、视频、或者在一些情况下连同表演同步视频一起)，其中歌词以与伴奏音轨或声乐表演的可听渲染相对应地以拉卡OK式呈现。所捕获的一个贡献者的音频、视频或视听内容可以用作团体表演的种子。

卡拉OK式声乐表演捕获

图1描绘了根据本申请的(一个或多个)发明的一些实施例的说明性移动电话类型便携式计算设备(101A，101B)和内容服务器110之间的信息流。在所示的流中，歌词102、基音提示105和伴奏音轨107被提供给便携式计算设备(101A，101B)中的一个或多个以促进声乐捕获(并且在一些情况下为视听捕获)。各个设备的用户界面提供了擦刷器(103A，103B)，从而给定的用户歌手能够使用在触摸屏上的手势控制来对时间同步内容(例如，音频、歌词、基音提示等)进行向前和向后移动。在一些情况下，擦刷器控制还允许对表演同步视频进行向前和向后移动。

虽然本发明的实施例不限于此，但是使用移动电话类型的经基音校正的卡拉OK式声乐捕获提供了有用的描述性情境。例如，在与图1中所示的实施例一致的一些实施例中，可从Apple公司获得的iPhone^TM手持设备(或更一般地，便携式计算设备101A、101B)托管有与内容服务器110协作执行以提供声乐捕获的软件，通常所捕获的声乐是连续实时的、经乐谱编码基音校正和/或和声的。可以使用车载相机提供的相机来捕获表演同步(或可表演同步的)视频。在一些实施例中，可以使用配置有电视(或其他视听装备)或连接的机顶盒装备(未在图1中具体示出)的一个或多个相机或与之协同来捕获音频、视频和/或视听内容。在一些实施例中，传统的台式/膝上型计算机可以被适当地配置并且托管应用或网络应用以支持本文描述的一些功能。

示出了两声部表演的捕获(例如，作为二重奏，其中从个人歌手中分开捕获视听内容106A和106B)；然而，受益于本公开的本领域技术人员将理解，本发明的技术也可以用于独奏和大型多声部表演。通常，视听内容可以响应于协作请求而被发布、流传输或者可以发起或被捕获。在所示的实施例中，内容选择、团体表演和所捕获的视听表演的传播都经由内容服务器110来协调。内容服务器110的内容选择和表演添加模块112在所示的设计中执行音频混音和视频拼接，而视听渲染器/流控制模块113将团体视听表演混合结果111提供给下游观众。在其他实施例中，点对点通信可以用于所示出的流程中的至少一些。

在一些情况下，无线局域网可以支持便携式计算设备101A实例、视听和/或机顶盒装备、以及广域网网关(未具体示出)之间的通信，该广域网网关又与远程设备101B和/或内容服务器110通信。虽然图1描绘了其中内容服务器110在便携式计算设备101A和101B之间起中间角色的配置，但是受益于本公开的本领域技术人员将意识到便携式计算设备101A和101B之间的点对点通信或主机对访客通信也可以或可替代地被支持。本领域技术人员将认识到各种数据通信设施中的任何一种，包括802.11Wi-Fi、BluetoothTM、4G-LTE、5G或其他通信、无线或有线数据网络和/或有线或无线视听互连可以被单独地或组合地使用，以促进本文所述的通信和/或视听渲染。

作为典型的卡拉OK式应用(诸如Smule公司提供的Smule应用)，乐器和/或声乐的伴奏音轨可以被可听地渲染以供用户/歌手在此伴奏音轨下演唱。在此种情况下，可以与本地可听渲染相对应地显示歌词(102A，102B)，以促进给定用户的卡拉OK式表演。注意，通常，单个用户可以在团体表演中表演相同或不同的声部，并且音频或视听捕获不一定是同步的而且通常不是同步的。在一些实施例中，表演者贡献的音频或视听捕获可以是独立且异步的，通常跨越时区和大洲。然而，在一些实施例中，可以采用实时流传输技术。在图1的图示配置中，歌词、定时信息、基音与和声提示、伴奏音轨(例如，乐器/声乐)、表演协调视频等都可以源自连接网络的内容服务器110。在一些情况或情形下，可以从诸如驻留在手持设备、机顶盒、内容服务器等或从其可访问的音乐库的媒体存储库来渲染伴奏音频和/或视频。

用户声乐或视听内容106A、106B在相应的设备101A、101B处被捕获，可选地被连续且实时地进行基音校正(在手持设备上或使用未具体示出的视听显示器和/或机顶盒装备的计算设施)，并且被可听地渲染，以向用户提供对他/她自己的声乐表演的改进的音质再现。基音校正通常基于乐谱编码的音符集或提示(例如，基音与和声提示105)，其为连续基音校正算法提供当前音调或音阶中表演同步的目标音符序列。除了表演同步的旋律目标外，乐谱编码的和声音符序列(或集合)也为基音移位算法提供了额外的目标(通常被编码为相对于主旋律音符音轨偏移，并且通常仅针对其选定部分改写乐谱)，以用于基音移位到用户自己捕获的声乐的和声版本。在一些实施例中，音符/基音目标和乐谱编码的定时信息可以用于评估声乐表演质量。

歌词102、旋律与和声音轨音符集105以及相关的定时和控制信息可以封装在适当的容器或对象中(例如，在乐器数字接口(MIDI)或Java脚本对象符号(json)、类型格式)用于与伴奏音轨107一起提供。使用此类信息，便携式计算设备101A、101B可以显示歌词(102A，102B)、甚至与目标音符有关的视觉提示(105A，105B)、和声以及当前检测的与(一个或多个)伴奏音轨的可听表演相对应的声乐基音，以便促进用户进行卡拉OK式声乐表演。因此，如果有抱负的歌手选择布鲁诺·马尔斯(Bruno Mars)推广的歌曲“When I Was YourMan”，则your_man.json和your_man.m4a可以从内容服务器下载(如果基于先前的下载还没有可用的或被缓存的)，并且进而用于提供背景音乐、同步歌词，并且在一些情况或实施例中提供乐谱编码的音符音轨，用于在用户演唱时进行连续实时的基音校正。可选地，至少对于某些实施例或体裁，和声音符音轨可以被乐谱编码以用于和声移位到所捕获的声乐。

通常，所捕获的经基音校正的(可能是和声的)声乐表演以及表演同步视频作为一个或多个音频或视听文件被本地保存在手持设备或机顶盒上，然后被压缩和编码以作为MPEG-4容器文件上传(106A，106B)到内容服务器110。虽然MPEG-4是用于因特网、移动网络和高级广播应用的数字多媒体内容的编码表示和传输的示例性标准，但是如果需要，还可以采用其他合适的编解码器、压缩技术、编码格式和/或容器。取决于实现方式，可以将干声乐和/或经基音校正的声乐的编码上传(106A，106B)到内容服务器110。通常，然后可以将已经基音校正或在内容服务器110处基音校正的这种声乐(例如，在MPEG-4容器中被编码或以其他方式被编码)与例如伴奏音频和其他捕获(并且可能经基音移位)的声乐表演混音，以生成具有根据特定目标或网络的能力或限制所选的质量或编码特性的文件或流。在一些实施例中，可以在诸如内容服务器110的服务器或服务平台上执行音频处理和混音和/或视频同步和拼接以提供复合的多表演者的视听作品。

非线性片段捕获和/或编辑

图2更详细地描绘了与便携式计算设备101A(回看图1)上的声乐捕获会话有关的歌词102A、基音提示105A和擦刷器103A的示例性用户界面呈现。在多个参考帧中(例如，在歌词102A中、在基音提示105A中以及在擦刷器103A中的表演时间线的音频包络描绘中)标记(281A，281B，281C)当前的声乐捕获点。可以采用多种标记技术或符号表示中的任何一种。通常，特定形式的用户界面标记和符号表示是设计选择的问题，但可以包括颜色提示(例如，针对歌词102A中的词、行或音节位置281B)、竖直或水平条标记(请参见图2用户界面呈现的基音提示105A和擦刷器103A部分中的标记281A、281C)或其他。

如将参考随后的附图和说明书所理解的，图2的示例性用户界面呈现(和其上的变体)提供了一种机制，从而用户可以基于屏幕上的手势控制在表演时间线中向前或向后移动。通过在擦刷器103A中操纵当前位置281C向前或向后，声乐捕获点在表演时间线中相应地向前或向后移动。相应地，歌词102A和基音提示105A以视觉同步的方式推进或倒回。同样地，在伴奏音轨和/或所捕获的音频、视频或视听内容中的位置被推进或倒回。以此方式，便携式计算设备101A的用户在屏幕上的用户界面操纵向前或向后移动，并且促进对表演时间线的非线性遍历。例如，用户不是在表演时间线的开头处开始声乐、视频或视听捕获，或者在最近的停止或暂停位置重新开始，而是可以在表演时间线中向前或向后移动到任意点。重新录制、配音和/或选择性地仅捕获表演的特定分节或部分都通过所提供的非线性访问而被促进。在一些实施例中，非线性访问允许在分开的运行中捕获音频和视频。

可视地表示为表演时间线的音频包络的擦刷器103A中的当前位置281C可在便携式计算设备的触摸屏显示器上通过向左(时间向后)和向右(时间向前)滑动类型手势进行横向操纵101A。用户界面手势约定是设计选择的问题，如果需要，可以采用其他手势来达到类似或互补的效果。在一些实施例中，当前位置也可以(或可替代地)通过对显示器的基音音轨105A或歌词102A窗格中的手势来操纵。在每种情况下，屏幕上的元素(例如，基音音轨105A、歌词102A和表演时间线的音频包络)的呈现都被视觉地同步，以使其中一个向前或向后移动导致另一个(多个)相应地向前或向后移动。如果并且当开始或重新开始捕获时，屏幕上的元素(例如，基音音轨105A、歌词102A和表演时间线的音频包络)的每者从表演时间线内的连贯的视觉同步的起始点起以时间对应地方式向前滚动。在提供用于表演同步的视频的实施例或显示模式中，视频滚动或捕获可以可选地在表演时间线内的视觉同步的起点处发起。

图3示出了与声乐捕获滚动行为有关的另一示例性用户界面，其中歌词102A的呈现中的当前点(281B)及表演时间线中的其对应点(281C)与用户在便携式计算设备101A(回看图1)的触摸屏上的手势相对应地向前或向后移动。尽管在所示的实施例中提供了歌词102A的扩展呈现并且隐藏了基音提示，但是其他实施例可以不同地分配屏幕空间。通过用户歌手在便携式计算设备101A(回看图1)的触摸屏上的向上或向下移动，结合歌词在屏幕上的呈现来表达用于对于歌词向前和向后滚动的用户界面手势。在一些情况或实施例中，对于歌词进行细粒度(行、词或音节级)移动连同对于其他显示特征(例如擦刷器103A的音频包络)进行视觉同步遍历可以作为用户歌手在捕获或重新捕获期间进行表演时间线遍历的优选机制。如前所述，触摸屏手势提供对于歌词102A和表演时间线的同步移动。在一些实施例中，可以采用附加或替代的手势表达。

虽然示例性用户界面特征强调歌词和基音提示，但是音乐结构的元素(诸如片段、团体声部，二重奏中的声部A/B等)也可以用于标记表演时间线中的当前位置可以被推进到或从其倒回的点。在一些情况或实施例中，推进可以被自动化或脚本化。在一些情况下，用户界面可以支持“寻找”到音乐结构重要性的下一个或上一个点、选择的片段或位置、或预先标记/标签的片段边界。

图4示出了与声乐捕获中的暂停有关的类似用户界面特征，其中歌词102A的呈现中的当前点(281B)及表演时间线中的其对应点(281C)与用户在便携式计算设备101A(回看图1)的触摸屏上的手势相对应地向前或向后移动。暂停时，在擦刷器103A中呈现表演时间线的扩展呈现。如前所述，歌词102A和时间线擦刷器103A的呈现中的当前点与用户的触摸屏手势相对应地向前或向后移动。对于屏幕上呈现的特征(例如，歌词102A和表演时间线)的向前和向后移动是时间同步的。用户对歌词的选择可用于为后续加入指定声乐部分，并为协作请求提供媒体内容(例如，音频和/或视频)的种子。

图5示出了使用时间线擦刷器103A进行擦刷，其中歌词102A和基音提示105A的呈现中的当前点(281C)及其对应点(281B，281A)与用户在便携式计算设备101A(回看图1)的触摸屏上的手势相对应地向前或向后移动。触摸屏手势提供对于歌词102A、基音提示105A和表演时间线的同步移动。在一些实施例中，可以采用附加或替代的手势表达。

图6示出了基音音轨605和歌词音轨602数据的计算机可读编码的时间索引遍历，其与用户在对从伴奏音轨和/或所捕获的声乐计算的说明性音频信号包络的触摸屏显示上表达的向前和向后用户界面手势有关。通常，MIDI、json或其他合适的存储器中数据表示格式可以用于基音、歌词、音乐结构和与给定表演或音乐编曲有关的其他信息。受益于本公开的本领域技术人员将理解，使用各种数据结构索引技术中的任何一种来促进表演时间线中的位置的视觉同步呈现，例如使用显示器的擦刷器103A、歌词102A和基音提示105A部分。

图7示出了关于参考前述附图引入的(一个或多个)擦刷机制的一些说明性变体。具体地，在一个图示的变体中，替代地(或另外地)，基于触摸屏的基音提示呈现部分(105A)中的从一边到另一边的手势来支持擦刷。如前所述，移动歌词(102A)和遍历表演时间线(103A)的音频信号包络呈现在视觉上与基于基音提示的擦刷同步。个人用户歌手的声乐声部(例如，歌词701.1，702.2)可以诸如通过其他屏幕上的符号表示的替代颜色而被标记在表演时间线中。类似符号表示可以被用在用户界面的基音提示105A和时间线擦刷器103A部分中，以识别由个人歌手演唱或将要演唱的二重奏(声部A、声部B)或团体声部。在一些情况或实施例中，可以提供用户界面设施，以沿着表演时间线推进/倒回或选择音乐结构重要性的点。示例包括音乐分节边界、接连的二重奏中下一个声部A(或声部B)分节的开始、已作为协作请求的一部分分配给用户歌手的特定音乐分节等。在加载音乐编曲时，根据本发明的一些实施例的用户界面和擦刷机制通过使用视觉同步呈现的表演时间线、歌词或音高基音部分允许用户推进/倒回到或甚至选择针对声乐、视频和/或视听捕获、重新捕获或回放的编曲中的任意或没有标记的点、分节或片段。

图8示出了使用捕获的声乐表演作为音频种子，用户向音频种子增加视频，并最终更新表演时间以增加或改变流或声乐声部选择。图9描绘了包括额外的多用户协作方面的说明性序列。例如，在第一用户(用户A)捕获声乐表演作为音频种子之后，第二用户(用户B)加入用户A的表演并增加音频和/或视频媒体片段。在说明性序列中，用户B还增加了声乐声部指定，诸如通过将特定歌词标记为二重奏的声部B。从此，多个潜在的加入者被邀请(例如，作为公开呼吁的一部分)，并且根据用户B的声乐声部指定，向具有增加的音频、视频的用户A的初始音频种子中增加额外的媒体内容。与图18的说明一致，提供种子的第一用户(用户A)可以选择剪辑/短种子选项(而不是完整歌曲)作为她/他的声乐捕获的音频基线。本文描述了用于为第一用户(用户A)或甚至为独奏者生成这样的剪辑/短种子的计算技术。此外，描述了用于允许提供种子的第一用户(用户A)自行指定这种短种子(或剪辑)的用户界面技术。

图10描绘了具有多用户协作的类似序列，但在其中由第一用户(用户A)创建或捕获的视频被提供作为初始种子表演。第二用户(用户B)加入用户A的视频，并增加了音频片段，此处为捕获的声乐音频。用户A依次邀请用户(例如，用户B和其他用户)来增加额外音频，此处为主要音频(旋律)和两个额外的声乐和声声部。结果得到具有因协作而增加的多个音频层的视频。

图11描绘了某些示例性的特殊邀请选项，包括对用于后续加入的特定声乐声部的用户指定和对指定用于后续加入种子媒体内容(例如，音频和/或视频)的声乐部分的用户选择。在每种情况下，加入者被引导演唱或更一般地为指定的声乐部分提供音频。

也可以设想自由形式且协作的编曲创建过程。例如，如图12步骤1所示，用户(用户A)可以执行并捕获自由风格模式的表演，例如吉他表演的原声音频以及表演同步视频。用户A的初始自由形式捕获提供了用于进一步协作的初始种子。接下来(在一个所示流程中)，用户(例如，用户A或另一用户B)可以输入歌词(步骤2)以伴随该视听表演。本文所述的时间线编辑和擦刷设施可以在输入、操纵输入的歌词以及将输入的歌词对齐到表演时间线中的期望点尤其有用。接下来(在所示流程中)，用户(用户A、B或另一用户C)可以向歌手(例如，二重奏中的声部A与声部B)分配(步骤3)特定的歌词部分。更一般地，更大数量的声乐声部可以被分配在团体编曲中。

对于至少一些实施例，图12中步骤4所示的自由形式且协作的编曲创建过程的高级特征提供了基音线捕获机制，从而针对演进的表演时间线的卡拉OK式滚动捕获音频音轨并用于计算基音音轨。通常，各种基音检测技术中的任何一种可以被用来从所捕获的音频计算基音音轨。声乐音频和音乐乐器音频(例如，来自钢琴的音频)都是可以设想的。在每种情况下，计算基音音轨都会增加到表演时间线。

注意，用户生成的编曲不必限于歌词和基音线。作为示例(参见步骤5+)，媒体片段捕获和编辑平台可以被扩展以允许用户(用户A、B、C或另一用户D)指定如下事物，诸如：歌曲部分(“副歌”、“主歌”等)、和声声部、基于片段的视频或音频效果/滤镜等。还要注意，虽然图12的有序流程是说明性的，其他实施例可以改变步骤的顺序、省略步骤或包括适合于特定自由形式协调和特定音频或视听作品的附加步骤。

短种子、短片段和其他变体

尽管以上描述的大部分展示了在完整表演时间线的上下文中的非线性片段捕获和编辑技术的灵活性，但受益于本公开的本领域技术人员将理解协作种子(或更一般地短片段是否用作协作种子)可以跨越完整的音频(或视听作品)但不必跨越完整的音频(或视听作品)。在一些情况下，种子或用户选择可能是完整长度，跨越预先存在的音频(或视听)作品的大部分或全部。在一些情况下，可以使用跨越少于音频(或视听)作品的全部(并且在一些情况下，远少于其全部)的短种子或短片段或剪辑。通常，无论选择短片段、短片段的集合(多片段)还是全长的音频(或视听)作品，做出选择的用户表演者都可以捕获与其相反或与之相关的表演。当用于协作时或在用于协作的情况，短形式的或全长的内容(歌词、乐谱、背景音轨等)也形成种子，其他用户可以根据该种子(或使用该种子)捕获媒体内容作为协作的一部分。

例如(如图13所示)，音频(或视听)作品的主歌、合唱、副歌、叠句或其他有限的“组成部分”可以构成后续加入的种子。提供种子的用户可以选择音频或视听作品1301的预先标记的部分(这里是音乐部分)。得到的短种子1311构成了用于多个协作(这里是协作#1和#2)的种子。无论其限度或范围如何，种子或种子部分/剪辑界定了其他人加入的协作请求(或呼叫)。通常，呼叫邀请其他用户通过一起唱歌、演唱特定声乐部分或音乐部分、演唱和声或其他二重唱部分、说唱、谈话、拍手、录制视频、添加来自相机胶卷的视频剪辑等来加入完整长度或短形式的种子。邀请1321和1322在图13的短种子示例中是说明性的。所产生的团体表演，无论是完整长度还是只是一个组成部分，都可以在社交网络中发布、现场直播或以其他方式传播(1341)。

为清楚起见，短片段、短片段的集合(多片段)或完整长度的音频(或视听)作品可以为其他用户的协作或进一步的表演捕获提供种子但这不是必须的。在一些实施例中，短片段、短片段的集合(多片段)或完整长度的音频(或视听)作品仅用于独奏表演捕获。因此，如本文所用，术语“短种子”、“短形式种子”和“种子不完全部分”表示短片段，其也用作(或可用作)协作的种子，而术语“短片段”或“短形式内容”和“不完全部分”仅表示音频(或视听)作品的不完全部分。在每种情况下，都采用计算技术来确定完整音频(或视听)作品的适当不完全部分，以进行短形式的表演捕获。

在一些实施例中，短种子或短片段可以基于索引(或可索引)到音频或视听作品1301的各种输入来计算生成。例如，短种子或片段(作为更完整的音频或视听作品的一部分或子集)的时间范围可以通过针对音频或视听作品处理对于用户表演的一组声乐捕获来计算得出。可以使用响度或频谱能量度量和/或基音或与声乐基音轨道的时序对应来选择用于包含在样本中的代表表演或作为其门限，或对这种样本的各个表演在计算中的贡献施加权重。此外，由于已经观察到音频或视听作品的联合(一起唱)部分提供了高水平的用户参与度，上述计算方法可以可选地应用于选择音频或视听作品中用户已在二重奏或多声部合唱中捕获的部分或对其有利地进行施加权重。同样，对关联歌词轨道的文本分析可用于识别指示音乐结构元素的重复，例如合唱、副歌、叠句或其他重复特征。在一些情况下，音乐结构的元素可以基于用户策划、上传元数据或MIDI编码的表演时间线的专业或计算介导的注释而与音频或视听作品相关联(或可相关联)。在一些情况下，可以使用计算确定的音乐信息检索(MIR)特征来识别音频或视听作品的重复或独特元素。

另外，或作为替代，对于音频或视听作品本身的计算分析或针对其捕获的用户声乐的计算分析，一些实施例可以利用时间索引(或可索引)的表演者或非表演者参与数据。例如，用户选择收听针对音频或视听作品的可听呈现捕获的用户表演的感兴趣点或感兴趣部分可用于选择指定为短种子或短片段的部分或对其进行有利地施加权重。同样，感兴趣点或感兴趣部分可以通过用户掌声度量的聚合叠加来识别，这些用户掌声度量在时间上被索引(或可索引)到音频或视听作品。类似地，可以采用将“爱”、“喜欢”或类似确认编码为社交媒体机制的一部分的用户界面指示，如可以是用户发起聊天选项、用户转发特定剪辑或用户表演者发起进一步声乐捕获。图20描绘了从多个用户的掌声指示聚合的这种掌声度量的示例性用户界面呈现。

一般而言，所设想的技术可以在选择更完整的音频或视听作品的短种子/片段、不完全部分/剪辑或子集时采用前述技术中的一个、一些或全部。短种子/片段不完全部分/剪辑通常可以使用内容服务器或服务平台和/或联网媒体捕获设备的计算设施来计算。在一些实施例中，短种子/片段不完全部分(或剪辑)的时间范围可以编码为开始/结束时间戳元数据，索引到完整的音频或视听作品或与其对齐的显式MIDI轨道并存储在由内容服务器或服务平台介导的数据库中。在一些实施例中，可以将短种子/片段不完全部分(或剪辑)简化为存储在由内容服务器或服务平台介导的数据库中的单独编码的剪辑。

基于前述且不失一般性，用于生成或建议短种子/片段不完全部分/剪辑的示例性技术集包括：

语音分段(输入1)：在收集点(通常是网络连接的内容或应用服务平台110，媒体捕获设备101与之通信地耦合，回想图1等)，收集和/或计算来自编曲的10+二重唱表演的语音分段数据(描述歌手何时唱歌或不唱歌)。对于每个二重唱，确定两位歌手何时同时演唱，以创建“实际一起演唱”分段。这些分段被聚合和规范化以提供这首歌的“实际一起唱歌”的代表性分段。

重复歌词分段(输入2)：从编曲元数据中解析歌词行，并识别歌词中与相关联音频或视听作品同步或可以与之同步的匹配的行以及重复的部分。通常，计算使用带有模糊匹配的行相似性分析，以允许相似的行匹配，即使是同音异义词或有其他细微的变化。该计算找到连续匹配行的最长序列，并将序列映射回其组成歌词的开始和结束时间，从而创建“重复歌词”分段。

社区源发或上传元数据(输入3)：从编曲元数据中解析标签或注释，例如“一起唱歌”部分。通常，此类元数据可以由用户社区或原始媒体内容上传者提供。通常，社区源发或上传的元数据仅提供与相关联音频或视听作品的粗略时序对齐，但如果不能获得更精确的编曲元数据，则仍可使用此类元数据。在一些情况下，可以将统计技术应用于社区源发的元数据，以提高计时精度置信度。

精确定时的编曲元数据(输入4)：如果可获得精确定时的编曲元数据，可以解析精确定时的编曲元数据以识别音频或视听作品的已经被预先识别为音乐部分的片段，例如预合唱、合唱或一起唱歌(二重唱)，其推动用户协作和参与。

一般来说，短种子/片段生成技术可以合并来自所有输入的分段，当(1)或(4)可用时可选地省略(3)。从合并的分段中，选择满足最小期望长度阈值的第一片段可以提供合适的短种子(或剪辑)。如果没有找到这样的片段，则不建议进行这种编曲。值得注意的是，随着附加的表演、分段和元数据变得可用，可以重复短种子/片段生成计算。假设识别出至少最小期望长度的合适片段，通常期望修剪(优选地在某种分类的分段边界处)到期望最大长度并且将开始和结束对齐到最近的歌词行时序。在一些情况或实施例中，这是提供给或被识别用于声乐捕获的建议的短种子/片段不完全部分/剪辑。短种子还是完整歌曲可以由用户表演者用户选择作为用于声乐捕获的音频基线，如图18所示。注意，虽然设想短种子/片段不完全部分/剪辑可以用在种子/加入协作机制中，但受益于本公开的本领域技术人员也将理解，短片段不完全部分也可以(或替代地)用于独奏表演捕获。

图19描绘了用于针对预先识别的短片段或者替代地针对用户选择和加入的短片段来捕获视听内容的用户界面流程和对应的示例性用户界面呈现。在所示流程中，向媒体捕获设备处的用户呈现已根据上述计算技术中的一种或多种识别的预先识别的短片段。用户可以针对最初为她选择的识别的短片段1902启动(1901)视听捕获，或者可以改变(1903)选择。在所示流程中，用户可以(在1904)替代地(i)选择完整的音频作品，(ii)选择根据上述计算技术中的一种或多种识别的替代片段，或者(iii)选择替代或附加片段和/或改变根据上述计算技术中的一种或多种识别的选定片段以定义多片段连接1905。在这样的选择之后，用户可以启动(1906)针对完整音频作品的视听捕获，替代短片段或多片段连接与她的选择1904一致。

在一些情况或实施例中，可以由人类用户使用允许向前和向后遍历视听内容的擦刷技术来选择(或进一步细化)种子/片段不完全部分/剪辑，可选地包括基音提示、波形或包络类型的表演时间线、歌词、视频和/或在录制时间、编辑期间和/或回放中的其他时间同步内容。以这种方式，可以促进所选表演部分的重新捕获、团体声部的协调以及配音。直接滚动到表演时间线、歌词、基音提示和其他时间同步内容中的任意点允许用户方便地在捕获或视听编辑会话中移动。对于涉及短种子/片段(或剪辑)的选择或实施例，可以采用擦刷技术来定义界定特定部分或组成部分的开始点和停止点。同样，在全长种子的情况下，可以使用擦刷技术来定义界定表演时间线中邀请加入者参与的部分的开始点和停止点。

在一些情况下，用户歌手可以被引导通过表演时间线、歌词、基音提示和与团体声部信息相对应的其他时间同步内容，例如在对二重唱的引导的短形式捕获中。擦刷器允许用户歌手在时间同步内容中方便地向前和向后移动。在一些情况下，时间同步的视频捕获和/或回放也与擦刷器相关联地得到支持。注意，虽然可以为多个媒体行(例如，背景音频、声乐、歌词、基音提示和/或团体声部信息)的同步遍历提供擦刷，但也可以设想单媒体擦刷。

不需要在所有情况或实施例中都采用擦刷技术。可以标记和标明表演时间线的部分(通常对应于音乐部分的部分)以供用户选择。标记/标明可以基于人工或自动来源。例如，特定部分可以由最初上传曲目或相应歌词的用户或由媒体内容管理者标记或标明。以互补方式或替代地，特定部分可以由经过训练以识别部分和边界(例如，从音频伴奏、或声轨、歌词进行识别，或基于众包数据，例如用户倾向于唱最多或最响亮的地方，进行识别)的机器学习机器人进行标记或标明。受益于本公开的本领域技术人员将理解这些和其他变化。

示例性视听处理流程、设备和系统

图14和图15示出了用于为地理上分散的表演者捕获、协调和/或混合视听内容的示例性技术。具体地，图14是示出根据本发明的一些实施例的用于所捕获的声乐表演的实时连续乐谱编码的基音校正与和声生成的流程图。在所示的配置中，用户/歌手跟着伴奏音轨、卡拉OK式进行演唱。从麦克风输入201捕获的声乐(251)被连续实时地进行基音校正(252)与进行和声(255)，以与在一个或多个声换能器202上可听渲染的伴奏音轨进行混音(253)。

基音校正和增加的和声两者都是对应于乐谱207而选择的，在所示配置中该乐谱207与歌词208和音频编码的伴奏音轨209一起被无线通信(261)到要执行声乐捕获和基音校正的一个或多个设备(例如，从内容服务器110到手持设备101，回看图1，或机顶盒装备)。在本文描述的技术的一些实施例中，最接近用户/歌手所发声的音符(以当前音阶或音调)是基于乐谱207确定的。尽管该最接近的音符通常可以是与乐谱编码的声乐旋律相对应的主基音，但不一定如此。实际上，在一些情况下，用户/歌手可以意欲演唱和声，并且发声的音符可以更近似于和声音轨。

在一些实施例中，可以使用电视类型显示器和/或机顶盒装备的设施来执行声乐音频和表演同步视频的捕获。然而，在其他实施例中，手持设备(例如，手持设备301)可以本身支持对声乐音频和表演同步视频两者的捕获。因此，图15示出了根据某些实现方式的基本信号处理流(350)，该实现方式适合于移动电话类型手持设备301捕获声乐音频和表演同步视频，以生成用于可听渲染(在本地和/或在远程目标设备处)的经基音校正并且可选进行和声的声乐，并与内容服务器或服务平台310通信。

基于本文的描述，本领域普通技术人员将理解信号处理技术(采样、过滤、抽取等)以及数据表示被适当分配到可执行以提供图15所示的信号处理流350的软件的功能块(例如，解码器352、数模(D/A)转换器351、捕获353、353A和编码器355)。同样地，相对于图14的信号处理流250和说明性乐谱编码音符目标(包括和声音符目标)，本领域普通技术人员将理解信号处理技术和数据表示被适当分配到功能块和信号处理结构(例如，解码器(258)、捕获251、数模(D/A)转换器256、混音器253、254和编码器257)，这些功能块和信号处理结构至少部分地实现为在手持或其他便携式计算设备上可执行的软件。

如本领域普通技术人员将理解的，在音乐和语音编码领域中，基音检测和基音校正具有丰富的技术历史。实际上，各种各样的特征拾取、时域甚至频域技术已经在本领域中被采用，并且可以在根据本发明的一些实施例中被采用。在根据本发明的一些实施例中，基音检测方法计算平均幅度差函数(AMDF)并执行逻辑以拾取与基音周期的估计相对应的峰值。基于此种估计，基音移位叠加(PSOLA)技术用于促进重新采样波形以生成基音移位的变体，同时减少拼接的非周期性影响。在共同拥有的标题为“Coordinating and MixingVocals Captured from Geographically Distributed Performers(对从地理上分散的表演者捕获的声乐进行协调和混音)”的发明人名称为Cook、Lazier、Lieber和Kirk的美国专利No.8,983,829中更详细地描述了基于AMDF/PSOLA技术的实现。

图16示出了根据本发明的一些实施例的可以用作用于执行软件实现方式的平台的移动设备的特征。更具体地，图16是总体上与iPhone^TM移动数字设备的商业可用版本一致的移动设备400的框图。虽然本发明的实施例当然不限于iPhone部署或应用(甚至不限于iPhone类型的设备)，但iPhone设备平台连同其丰富补充的传感器、多媒体设施、应用编程接口和无线应用交付模型，提供了在其上部署某些实现方式的高能力平台。基于本文的描述，本领域普通技术人员将认识到可以适用于(现在或此后)本文描述的发明技术的给定实现方式或部署的多种额外移动设备平台。

简要地总结，移动设备400包括显示器402，该显示器402可以对用户的触感和/或触觉接触敏感。触敏显示器402可以支持多点触摸特征、处理多个同时触摸点，包括处理与每个触摸点的压力、程度和/或位置有关的数据。此处理有助于利用多个手指的手势和交互以及其他交互。当然，也可以使用其他触敏显示技术，例如在其中使用触笔或其他点选设备进行接触的显示器。

典型地，移动设备400在触敏显示器402上呈现图形用户界面，从而向用户提供对各种系统对象的访问并用于传达信息。在一些实现方式中，图形用户界面可以包括一个或多个显示对象404、406。在所示示例中，显示对象404、406是系统对象的图形表示。系统对象的示例包括设备功能、应用、窗口、文件、警报、事件或其他可识别的系统对象。在本发明的一些实施例中，应用在被执行时提供本文描述的数字声学功能中的至少一些。

典型地，移动设备400支持网络连接性，包括例如移动无线电和无线网络互连功能，以使能用户使用移动设备400及其相关联的使能网络功能进行旅行。在一些情况下，移动设备400可以与附近的其他设备交互(例如，经由Wi-Fi、蓝牙等)。例如，移动设备400可以被配置为与一个或多个设备的基站或对等设备交互。如此，移动设备400可以允许或拒绝对其他无线设备的网络访问。

移动设备400包括各种输入/输出(I/O)设备、传感器和换能器。例如，通常包括扬声器460和麦克风462以有助于音频，诸如本文其他地方描述的声乐表演的捕获和伴奏音轨的可听渲染以及经混音且基音校正的声乐表演。在本发明的一些实施例中，扬声器460和麦克风662可以为本文描述的技术提供适当的换能器。可以包括外部扬声器端口464，以促进免提语音功能，例如扬声器电话功能。还可以包括音频插孔466用于使用耳机和/或麦克风。在一些实施例中，外部扬声器和/或麦克风可以用作本文所述技术的换能器。

也可以使用或提供其他传感器。可以包括接近传感器468以促进检测移动设备400的用户定位。在一些实施方式中，可以利用环境光传感器470来促进调整触敏显示器402的亮度。加速度计472可以用于检测移动设备400的移动，如方向箭头474所指示的。因此，可以根据检测到的方向(例如，横向或纵向)来呈现显示对象和/或媒体。在一些实现方式中，移动设备400可以包括电路和传感器，用于支持位置确定能力，诸如全球定位系统(GPS)或其他定位系统(例如，使用Wi-Fi接入点、电视信号、蜂窝网格、统一资源定位符(URL)的系统)所提供的位置确定能力，以促进本文描述的地理编码。移动设备400还包括相机镜头和成像传感器480。在一些实施方式中，相机镜头和传感器480的实例位于移动设备400的前正面和背面上。相机允许捕获静止图像和/或视频，以与所捕获的经基音校正的声乐相关联。

移动设备400还可以包括一个或多个无线通信子系统，诸如802.11b/g/n/ac通信设备和/或BluetoothTM通信设备488。还可以支持其他通信协议，包括其他802.x通信协议(例如，WiMax、Wi-Fi、3G)、第四代或第五代协议和调制(4G-LTE、5G)、码分多址(CDMA)、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)等。可以包括端口设备490，例如通用串行总线(USB)端口、或对接端口或一些其他有线端口连接，并且将端口设备用于建立到其他计算设备(诸如其他通信设备400、网络访问设备、个人计算机、打印机或其他能够接收和/或发送数据的处理设备)的有线连接。端口设备490还可以允许移动设备400使用一个或多个协议(诸如例如，TCP/IP、HTTP、UDP和任何其他已知协议)与主机设备同步。

图17示出了根据本文的功能描述的使用声乐音频和视频捕获代码、用户界面代码、基音校正代码、音频渲染流水线和回放代码编程的便携式计算设备(诸如移动设备400)的各个实例(501和520)。描绘了设备实例501在声乐音频和表演同步视频捕获模式下操作，而设备实例520在针对混合的视听表演的呈现或回放模式下操作。同样描绘了电视类型的显示器和/或机顶盒装备520A在呈现或回放模式下操作，尽管如本文其他地方所描述的，但是此装备也可以作为声乐音频和表演同步视频捕获设施的一部分操作。前述设备中的每一个经由无线数据传输和/或中间网络504与服务器512或服务平台通信，该服务器512或服务平台托管本文关于内容服务器110、210所解释的存储和/或功能。使用本文描述的技术所捕获的经基音校正的声乐表演以及表演同步视频捕获可以(可选地)在膝上型计算机511处被流传输和视听渲染。

其他实施例

尽管参考各种实施例描述了本发明，但是应当理解这些实施例是说明性的，并且本发明的范围不限于它们。许多变体、修改、增加和改进都是可能的。例如，尽管已经描述了根据卡拉OK式界面捕获的基音校正声乐表演，但是将认识到其他变体。此外，尽管已经在某些说明性应用的上下文中描述了某些说明性信号处理技术，但是本领域普通技术人员将认识到，修改所描述的技术以适应其他合适的信号处理技术和效果是显然的。

根据本发明的实施例可以采用计算机程序产品的形式和/或作为计算机程序产品被提供，此计算机程序产品在计算机可读介质中被编码为软件的指令序列和其他功能构成，该计算机程序产品可以进而在计算系统(诸如iPhone手持设备、移动或便携式计算设备、媒体应用平台、机顶盒或内容服务器平台)中运行，以执行本文所述的方法。通常，机器可读介质可以包括有形物品，该有形物品以机器(例如，计算机、移动或便携计算设备的计算设施、媒体设备或流媒体等)可读的形式(例如，作为应用、源代码或对象代码、功能描述信息等)对信息进行编码，以及易于信息传输的非暂态存储。机器可读介质可以包括但不限于磁存储介质(例如，磁盘和/或磁带存储)；光学存储介质(例如，CD-ROM、DVD等)；磁光存储介质；只读存储器(ROM)；随机存取存储器(RAM)；可擦除可编程存储器(例如，EPROM和EEPROM)；闪存或其他类型的适合存储电子指令、操作序列、功能描述性信息编码等的介质。

通常，可以为本文描述的组件、操作或结构提供多个实例作为单个实例。各种组件、操作和数据存储之间的边界在某种程度上是任意的，并且在特定说明性配置的上下文中示出了特定操作。可以设想其他的功能分配，并且可以落入本发明的范围内。通常，在示例性配置中表示为单独的组件的结构和功能可以被实现为组合的结构或组件。类似地，被表示为单个组件的结构和功能可以被实现为单独的组件。这些和其他变体、修改、添加和改进可以落入本发明的范围内。

Claims

1.一种系统，包括：

多个媒体捕获设备，所述多个媒体捕获设备经由各自的网络通信接口而通信地耦合，用于在至少相应的成对表演者之间与对音频作品进行基线媒体编码相关地进行协作；

所述媒体捕获设备中的第一媒体捕获设备为其第一用户提供用户界面，以供从包括完整音频作品及其种子不完全部分的表演捕获选项中进行选择，所述第一媒体捕获设备被配置为至少捕获所述第一用户的声乐音频，所述声乐音频是针对所选的所述完整音频作品或所述种子不完全部分在所述第一媒体捕获设备上的可听呈现而表演的；并且

所述媒体捕获设备中的第二媒体捕获设备被配置为(i)通过该第二媒体捕获设备的网络通信接口接收关于由所述第一用户在所述第一媒体捕获设备处选择的所述完整音频作品或所述种子不完全部分的指示，以及(ii)捕获第二用户的媒体内容，所述媒体内容是针对所选的所述完整音频作品或所述种子不完全部分混合了所捕获的所述第一用户的所述声乐音频而在所述第二媒体捕获设备上的可听呈现而表演的。

2.根据权利要求1所述的系统，

其中，所述种子不完全部分的时间范围是至少部分地基于以下方式确定的：对针对所述音频作品在相应媒体捕获设备上的可听呈现的多个用户表演的声乐捕获进行计算评估，以识别所述完整音频作品中多个用户一起演唱的特定部分。

3.根据权利要求1所述的系统，

其中，所述种子不完全部分的时间范围是至少部分地基于以下方式确定的：对针对所述音频作品在相应媒体捕获设备上的可听呈现的多个用户表演的声乐捕获进行计算评估，以识别所述完整音频作品中各个用户唱得最响亮或具有最高基音或与所述音频作品的声乐基音轨道具有时序对应性的特定部分。

4.根据权利要求1、2或3所述的系统，

其中，所述种子不完全部分的时间范围是至少部分地基于以下方式确定的：对所述音频作品的歌词轨道进行计算分析，以识别表示合唱、副歌、叠句或其他重复声乐元素的重复。

5.根据权利要求1、2或3所述的系统，

其中，所述种子不完全部分的时间范围是至少部分地基于以下方式确定的：从所述音频作品的至少伴奏音轨提取音乐信息检索(MIR)特征，以识别指示合唱、副歌、叠句或音乐结构的其他反复出现或独特的元素的相似性。

6.根据权利要求1、2或3所述的系统，

其中，所述种子不完全部分的时间范围是至少部分地基于从表演同步视频中提取的视觉特征而确定的。

7.根据权利要求1、2或3所述的系统，

其中，所述种子不完全部分捕获选项的时间范围是至少部分地基于测得的表演者或非表演者用户参与标记而确定的。

8.根据权利要求7所述的系统，其中，所述测得的表演者或非表演者用户参与标记包括以下中的一项或多项：

用户选择收听针对所述音频作品的可听呈现捕获的用户表演的感兴趣点或感兴趣部分；

用户使用社交媒体机制表达爱意或喜欢的感兴趣点或感兴趣部分；

基于在时间上索引到所述音频作品的用户掌声度量的聚合叠加而识别的感兴趣点或感兴趣部分；和

用户发起聊天、转发剪辑或发起声乐捕获的感兴趣点或感兴趣部分。

9.根据权利要求1、2或3所述的系统，

其中，所述种子不完全部分的时间范围是至少部分地基于用户策划或上传者元数据捕获而确定的，所述用户策划或上传者元数据标记或标明了所述音频作品的特定部分。

10.根据权利要求1所述的系统，

其中，所述第一媒体捕获设备的用户界面还允许所述第一用户指定要从所述第二用户的表演中捕获的媒体内容的一个或多个类型，所述第二用户的表演针对所选的所述完整音乐作品或所述种子不完全部分混合了所捕获的所述第一用户的声乐音频而在所述第二媒体捕获设备上的可听呈现。

11.根据权利要求10所述的系统，其中，所指定的要捕获的媒体内容的所述一个或多个类型是从包括以下各项的集合中选择的：

声乐音频、声乐和声、或声乐二重唱部分；

说唱、谈话、拍手、或打击乐；和

视频。

12.根据权利要求1、2、3或10所述的系统，

其中，所述第一媒体捕获设备的用户界面还允许所述第一用户将所选的所述完整音乐作品或所述种子不完全部分作为协作请求而张贴到包括所述第二用户在内的其他在地理上分散的用户和媒体捕获设备，所述协作请求请求捕获和添加进一步的声乐音频、视频、或表演同步的视听内容。

13.根据权利要求1所述的系统，还包括：

服务平台，所述服务平台通信地耦合到所述第一媒体捕获设备和所述第二媒体捕获设备，所述服务平台被配置为：识别所述音频作品的至少所述种子不完全部分并将所述种子不完全部分提供到所述第一媒体捕获设备和所述第二媒体捕获设备。

14.根据权利要求1、2、3、10或13所述的系统，还包括：

在所述第一媒体捕获设备上的用户界面，所述第一用户通过所述用户界面从所述音频作品的预先标明或标记的部分中选择所述种子不完全部分。

15.根据权利要求14所述的系统，其中，所述音频作品的预先标明或标记的部分是由与所述第一媒体捕获设备和所述第二媒体捕获设备通信地耦合的服务平台提供的，所述预先标明或标记的部分已经基于以下各项中的一项或多项而被标明或标记：

被编码以用于所述音频作品的音乐结构；

机器学习算法，该机器学习算法应用于所述音频作品的伴奏音频、声乐音频或歌词或者与所述音频作品相对应的伴奏音频、声乐音频或歌词；

众包数据；和

由所述音频作品的用户上传者或由其第三方策划者提供的数据。

16.根据权利要求1、2、3、10或13所述的系统，

其中，对所述音频作品的所述基线媒体编码还对同步的视频内容进行编码。

17.根据权利要求1、2、3、10或13所述的系统，

其中，所述第一媒体捕获设备还被配置为捕获表演同步的视频内容。

18.根据权利要求1、2、3、10或13所述的系统，

其中，所述第一媒体捕获设备和所述第二媒体捕获设备是执行应用软件的移动电话型便携式计算设备，所述移动电话型便携式计算设备在其至少一个操作模式下，在其多点触摸敏感显示器上以与所述音频作品的可听呈现在时间上对应的方式提供对包括歌词在内的表演时间线的卡拉OK风格呈现，并且所述移动电话型便携式计算设备经由相应移动电话型便携式计算设备的机载音频和视频接口来捕获相应的第一用户或第二用户的声乐和/或表演同步的视频。

19.一种方法，包括：

在经由网络通信接口而通信地耦合的用于相对于对音频作品的基线媒体编码进行声乐表演捕获的媒体捕获设备处，向其用户呈现用户界面选项，以从包括完整音频作品及其剪辑或种子不完全部分的表演捕获选项中进行选择，第一媒体捕获设备被配置为至少捕获第一用户的声乐音频，所述声乐音频是针对完整音频作品或不完全部分在所述第一媒体捕获设备上的可听呈现而表演的，

其中，所述不完全部分的时间范围是至少部分地基于以下方式而确定的：对针对所述音频作品在相应其他媒体捕获设备上的可听呈现的多个用户表演的声乐捕获进行计算评估，以识别所述完整音频作品的多个用户一起演唱的特定部分。

20.根据权利要求19所述的方法，还包括：

经由所述网络通信接口，向至少第二媒体捕获设备提供关于由所述第一用户在所述第一媒体捕获设备处所选的不完全部分的指示，作为用于捕获第二用户的媒体内容的种子，所述媒体内容是针对所述音频作品的所选种子不完全部分混合了与所捕获的所述第一用户的声乐音频而在所述第二媒体捕获设备上的可听呈现而表演的。

21.根据权利要求19所述的方法，

其中，所述不完全部分的时间范围是至少部分地基于以下方式而确定的：对针对所述音频作品在相应媒体捕获设备上的可听呈现的多个用户表演的声乐捕获进行计算评估，以识别所述完整音频作品的各个用户唱得最响亮或具有最高基音或与所述音频作品的声乐基音轨道具有时序对应性的特定部分。

22.根据权利要求19-21中的任一项所述的方法，

其中，所述不完全部分的时间范围是至少部分地基于以下方式而确定的：对所述音频作品的歌词轨道进行计算分析，以识别表示合唱、副歌、叠句或其他重复声乐元素的重复。

23.根据权利要求19-21中的任一项所述的方法，

其中，所述不完全部分的时间范围是至少部分地基于以下方式而确定的：从所述音频作品的至少伴奏音轨提取音乐信息检索(MIR)特征，以识别指示合唱、副歌、叠句或音乐结构的其他反复出现或独特的元素的相似性。

24.根据权利要求19-21中的任一项所述的方法，

其中，所述不完全部分捕获选项的时间范围是至少部分地基于测得的表演者或非表演者用户参与标记而确定的。

25.根据权利要求24所述的系统，其中，所述测得的表演者或非表演者用户参与标记包括以下中的一项或多项：

26.根据权利要求19-21中的任一项所述的方法，

其中，所述不完全部分的时间范围是至少部分地基于用户策划或上传者元数据捕获而确定的，所述用户策划或上传者元数据标记或标明了所述音频作品的特定部分。

27.一种系统，包括：

服务平台；和

多个媒体捕获设备，所述多个媒体捕获设备通过各自的网络通信接口而通信地耦合到所述服务平台，用于进行与音频作品的媒体编码相关的媒体捕获，所述媒体捕获设备为其各自的用户提供用户界面，以供从包括所述服务平台向相应媒体捕获设备识别的所述音频作品的一个或多个不完全部分的表演捕获选项中进行选择，

其中，所述服务平台基于以下中的一项或多项来识别所述不完全部分中的单个部分：

(i)被编码以用于所述音频作品的音乐结构；

(ii)机器学习算法，该机器学习算法应用于针对所述音频作品捕获的视听表演的伴奏音频、声乐音频或歌词或者与针对所述音频作品捕获的视听表演相对应的伴奏音频、声乐音频或歌词；

(iii)为表演者和/或非表演者用户参与所述音频作品而测得的众包感兴趣点或感兴趣部分数据，以及

其中，所述媒体捕获设备被配置为至少捕获相应用户的声乐音频，所述声乐音频是针对所述音频作品的相应所选的不完全部分在相应媒体捕获设备上的可听呈现而表演的。

28.根据权利要求27所述的系统，

其中，各个用户能选择的表演捕获选项包括所述完整音频作品。

29.根据权利要求27所述的系统，

其中，各个用户在相应媒体捕获设备处能选择的表演捕获选项包括由所述服务平台识别的所述音频作品的多个单独的不完全部分。

30.根据权利要求27所述的系统，

其中，各个用户在相应媒体捕获设备上能选择的表演捕获选项包括由所述服务平台识别的所述音频作品的多个不完全部分的用户定义的连接，所述用户定义的连接构成的音乐作品达不到所述完整音频。

31.根据权利要求27、29或30所述的系统，

其中，所识别的一个或多个不完全部分的时间范围是至少部分地基于以下方式而确定的：对针对所述音频作品在相应媒体捕获设备上的可听呈现的多个用户表演的声乐捕获进行计算评估，以识别完整音频作品的多个用户一起演唱的特定部分。

32.根据权利要求27、29或30所述的系统，

其中，所识别的一个或多个不完全部分的时间范围至少部分地基于以下方式而确定的：对针对所述音频作品在相应媒体捕获设备上的可听呈现的多个用户表演的声乐捕获进行计算评估，以识别所述完整音频作品的各个用户唱得最响亮或具有最高基音或与所述音频作品的声乐基音轨道具有时序对应性的特定部分。

33.根据权利要求27、29或30所述的系统，

其中，所识别的一个或多个不完全部分的时间范围是至少部分地基于以下方式而确定的：对所述音频作品的歌词轨道进行计算分析，以识别表示合唱、副歌、叠句或其他重复声乐元素的重复。

34.根据权利要求27、29或30所述的系统，

其中，所识别的一个或多个不完全部分的时间范围是至少部分地基于以下方式而确定的：从所述音频作品的至少伴奏音轨提取音乐信息检索(MIR)特征，以识别指示合唱、副歌、叠句或音乐结构的其他反复出现或独特的元素的相似性。

35.根据权利要求27、29或30所述的系统，

其中，所识别的一个或多个不完全部分的时间范围是至少部分地基于从表演同步视频中提取的视觉特征而确定的。

36.根据权利要求27、29或30所述的系统，

其中，所识别的一个或多个不完全部分的时间范围是至少部分地基于测得的表演者或非表演者用户参与标记而确定的。

37.根据权利要求36所述的系统，其中，所述测得的表演者或非表演者用户参与标记包括以下中的一项或多项：

38.根据权利要求27、29或30所述的系统，

其中，所识别的一个或多个不完全部分的时间范围是至少部分地基于用户策划或上传者元数据捕获而确定的，用户策划或上传者元数据标记或标明了所述音频作品的特定部分。

39.根据权利要求27、29或30所述的系统，

其中，由所述第一用户在所述媒体捕获设备中的第一媒体捕获设备处选择的所述不完全部分作为种子不完全部分被传送到所述媒体捕获设备中的第二媒体捕获设备，所述第二媒体捕获设备的第二用户针对所述种子不完全部分而捕获媒体内容。