CN109923609A

CN109923609A - 用于音调轨道生成的众包技术

Info

Publication number: CN109923609A
Application number: CN201780056045.2A
Authority: CN
Inventors: 斯蒂芬·苏里文; 约翰·史姆因; 迪安·谢弗; 佩里·R·库克
Original assignee: Sate Co
Current assignee: Sate Co; Smule Inc
Priority date: 2016-07-13
Filing date: 2017-07-13
Publication date: 2019-06-21
Also published as: US20230005463A1; US20180018949A1; US11900904B2; EP3485493A4; US20200312290A1; US11250826B2; EP3485493A1; US10460711B2; WO2018013823A1

Abstract

数字信号处理和机器学习技术可以用在声乐捕获和表演社交网络中，以从针对普通时间基线(例如，背景轨道或流行艺术家的原始表演)而捕获的声乐表演的集合来通过计算生成声乐音调轨道。以这种方式，经众包的音调轨道可以被生成和分发以用于后续卡拉OK式声乐音频捕获或其他应用。歌曲的大量表演可以用于生成音调轨道。经众包的声乐表演集合的各个音频信号编码的通过计算确定的音调轨道被聚合并且被处理作为经训练的隐马尔可夫模型(HMM)或其他统计模型的观察序列以产生输出音调轨道。

Description

用于音调轨道生成的众包技术

技术领域

本发明总体涉及音频表演的处理，具体地涉及适用于从源自多个表演者的并且在相应多个声乐捕捉平台处捕获的声乐音频表演生成音调轨道的计算技术。

背景技术

移动电话、个人媒体播放器和便携式计算设备的安装基础以及流媒体播放器和电视机顶盒每天都在数量和计算能力方面增长。这些设备在世界各地的人们的生活方式中普遍存在并且根深蒂固，超越了文化和经济障碍。在计算上，这些计算设备提供的速度和存储能力可与不到十年前的工程工作站或工作组计算机相媲美，并且通常包括强大的媒体处理器，使得它们适用于实时声音合成和其他音乐应用。部分结果是，一些现代设备(例如，iPod和其他或Android设备)非常适合支持音频和视频处理，同时提供适用于高级用户界面的平台。确实，应用(例如，从Smule公司可以获得的应用Smule Ocarina^TM、LeafI Am T-Pain^TM、Sing！Karaoke^TM、Guitar！By和Magic)已经表明，可以使用这些设备以提供引人入胜的音乐体验的方式提供先进的数字声学技术。

已经证明数字声学技术的开发特别成功的一个应用领域是视听表演捕获，包括卡拉OK式(Karaoke-style)的声乐音频捕获。针对被设计用于吸引大众市场的声乐捕捉应用并且针对至少一些用户统计数据，用户体验的重要贡献者可以是大量高质量声乐乐谱(包括由当前流行的一组声乐艺术家推广的最新音乐表演的声乐音轨)的可用性。因为当前流行的歌手和表演的集合在不断变化，所以生成和维护包括不断变化的标题集合的声乐音调轨道的内容库可能是一项艰巨的任务。

作为结果，许多卡拉OK式应用省略了在适当内容(包括声乐音调轨道)可用于声乐乐谱未广泛发表的新音乐出版物和作品时可能需要的特征。相比之下，先进的卡拉OK式声乐捕捉实现方式的一些特征(并且实际上是其用户体验的一些引人注目的方面，包括提供表演同步(或可同步)的声乐音调提示、捕获的声乐表演的实时连续音调校正、自动和声生成、用户表演评分、比赛等)可以取决于高质量音乐乐谱(包括音调轨道)的可用性。

为了支持这些和其他特征，需要自动和/或半自动技术来产生音乐乐谱内容(包括音调轨道)。具体地，需要自动和/或半自动技术来产生用于大众市场、卡拉OK式声乐捕捉应用的声乐音调轨道。

发明内容

已经发现，数字信号处理和机器学习技术可以用在声乐捕获和表演社交网络中，以从针对普通时间基线(例如，背景轨道)而捕获的声乐表演的集合来通过计算生成声乐音调轨道。以这种方式，经众包的(crowd-sourced)音调轨道可以被生成和分发以用于后续卡拉OK式声乐音频捕获或其他应用。

在根据本发明的一些实施例中，一种方法包括：接收对应于背景轨道而被捕获的各个声乐表演的多个音频信号编码；处理音频信号编码以针对每个声乐表演通过计算估计声乐音调的时变序列；并且聚合根据声乐表演通过计算估计的声乐音调的时变序列。方法包括至少部分地基于聚合来提供合成音调轨道的计算机可读编码，以与背景轨道相对应地用作与卡拉OK式声乐捕获有关的(i)声乐音调提示以及(ii)音调校正音符目标中的任一者或两者。

在一些实施例中，方法还包括众包来自地理上分布的一组网络连接的声乐捕获设备的接收到的音频信号编码。在一些实施例中，方法还包括对接收到的音频信号编码进行时间对准，以考虑各个语音捕获设备处的不同音频流水线延迟。在一些实施例中，聚合包括基于每个帧的来自各个声乐表演的音调估计的加权分布。在一些实施例中，各个音调估计的加权至少部分地基于作为声乐音调的计算估计的一部分而确定的置信度等级。

在一些实施例中，方法还包括根据基于统计的预测模型来处理经聚合的声乐音调的时变序列，该基于统计的预测模型用于与背景轨道相关联的音乐风格或类型的典型的声乐音调转换。在一些实施例中，方法还包括将合成音调轨道提供给网络连接的声乐捕获设备以作为对歌词与背景轨道的时间对应关系进行编码的数据结构的一部分。

在根据本发明的一些实施例中，一种音调轨道生成系统包括：地理上分布的第一组网络连接的设备和服务平台。地理上分布的第一组网络连接的设备被配置为捕获与背景轨道相对应的各个声乐表演的音频信号编码。服务平台被配置为接收和处理音频信号编码，从而针对每个声乐表演计算估计声乐音调的时变序列，并且聚合声乐音调的时变序列以准备经众包的音调轨道。

在一些实施例中，系统还包括地理上分布的第二组网络连接的设备，被通信地耦合以接收经众包的音调轨道，该经众包的音调轨道与背景音轨相对应地用作与各个网络连接的设备处的卡拉OK式声乐捕获有关的(i)声乐音调提示以及(ii)音调校正音符目标中的任一者或两者。在一些实施例中，服务平台还被配置为对接收到的音频信号编码进行时间对准，以考虑各个网络连接的设备处的不同音频流水线延迟。

在一些实施例中，聚合包括在服务平台处基于每个帧来确定来自各个声乐表演的音调估计的加权分布。在一些实施例中，各个音调估计的加权至少部分地基于作为声乐音调的计算估计的一部分而确定的置信度等级。在一些实施例中，服务平台还被配置为根据用于声乐音调转换的基于统计的预测模型来处理经聚合的声乐音调的时变序列。在一些情况或实施例中，基于统计的预测模型可预测与背景轨道相关联的音乐风格或类型的典型的声乐音调转变。

在根据本发明的一些实施例中，一种准备音调轨道的计算机可读编码的方法包括：从被配置用于声乐捕获的各个地理上分布的网络连接的便携式计算设备接收针对相同背景轨道在各个网络连接的便携式计算设备处单独捕获的各个声乐音频表演的各个音频信号编码；计算估计各个音频信号编码的相应帧的音调和置信度等级；使用置信度等级作为权重来将基于每个帧的估计的结果聚合为音调估计的加权直方图；并且使用维特比类型的动态编程算法，来基于经训练的隐马尔可夫模型(HMM)和作为经训练的HMM的观察序列的经聚合的直方图，计算音调轨道的至少前体。

在一些实施例中，方法还包括在音调估计之前，对各个音频信号编码进行时间对准。在一些情况或实施例中，时间对准至少部分地基于特定于在其上捕获了各个声乐音频表演的各个地理上分布的网络连接的便携式计算设备的音频信号路径元数据。在一些情况或实施例中，时间对准至少部分地基于标识各个音频信号编码中的相应音频特征的数字信号处理。在一些情况或实施例中，每个帧的音调的计算估计基于YIN音调跟踪算法。

在一些实施例中，方法还包括选择用于音调估计的针对相同背景轨道单独捕获的声乐音频表演的子集，其中，选择基于计算定义的音频特征的对应关系。在一些情况或实施例中，计算定义的音频特征包括频谱峰值和逐帧自相关最大值中的任一者或两者。在一些情况或实施例中，选择基于表演的频谱聚类和距音频特征空间中的计算的平均值的阈值化距离中的任一者或两者。

在一些实施例中，方法还包括训练HMM。在一些情况或实施例中，训练包括，针对选择声乐表演和相应预先存在的音调轨道数据：以帧速率对音调轨道和声乐表演的音频编码进行采样；计算(i)静音到每个音符、(ii)每个音符到静音、(iii)每个音符到另一音符、和(iv)每个音符到相同音符的转换概率；并且基于针对选择声乐表演而计算的音调估计的聚合来计算发射概率。在一些情况或实施例中，训练采用非参数下降算法，从而在选择声乐表演上使用HMM参数来计算最小化在音调跟踪(tracking)的连续迭代中的平均误差。

在一些实施例中，方法还包括(i)通过高通滤波和抽取来对HMM输出进行后处理以标识音符转换；(ii)基于经标识的音符转换的定时，将HMM输出的样本解析为离散的MIDI事件；(iii)输出MIDI事件作为音调轨道。在一些实施例中，方法还包括评估并且可选地接受音调轨道，其中，用于音调轨道评估和接受的误差标准针对八度音程误差进行归一化。在一些实施例中，方法还包括将音调轨道作为自动计算的经众包的数据制品(artifact)提供给多个地理上分布的网络连接的便携式计算设备以用于其上的后续卡拉OK型音频捕获。

在一些实施例中，方法至少部分地在地理上分布的网络连接的便携式计算设备通信地耦合的内容服务器或服务平台上被执行。在一些实施例中，方法至少部分地被实现为在地理上分布的网络连接的便携式计算设备通信地耦合的内容服务器或服务平台上可执行的指令的计算机程序产品编码。

在一些实施例中，方法还包括在后续卡拉OK式音频捕获过程中使用经准备的音调轨道，来(i)提供计算确定的表演同步的声乐音调提示，并且(ii)驱动经捕获的声乐表演的实时连续音调校正。

在一些实施例中，方法还包括计算评估各个声乐音频表演的音频信号编码与经准备的音调轨道的对应关系，并且基于经评估的对应关系，选择各个声乐音频表演中的一个或多个声乐音频表演来用作声乐预览轨道。

参考以下说明书和所附权利要求，将理解根据本发明的这些和其他实施例。

附图说明

通过示例而非限制的方式参考附图来说明本发明，其中，相同附图标记通常表示相似元件或特征。

图1描绘了根据本发明的一些实施例的说明性移动电话型便携式计算设备和内容服务器之间的信息流。

图2描绘了根据本发明的一些实施例的采用隐马尔可夫模型的示例性音调轨道生成过程的功能流程。

图3A和3B描绘了根据本发明的一些实施例的采用隐马尔可夫模型计算的示例性训练流程。

技术人员将理解，附图中的元件或特征是为了简单和清楚而示出的，并且不一定按比例绘制。例如，一些示出的元件或特征的尺寸或突出部分可能与其他元件或特征相比被夸大，以便努力帮助改进对本发明实施例的理解。

具体实施方式

根据本发明的一些实施例的音调轨道生成系统利用歌曲的大量表演(10s、100s或更多)来生成音调轨道。这类系统从针对普通时间基线(通常是流行歌曲的音频背景音轨(backing track))而捕获的许多表演的音频信号编码来通过计算估计音调的时间序列，并且通常执行对给定歌曲的经估计的音调轨道的聚合。可以采用各种音调估计算法来估计声乐音调，包括时域技术(例如，基于平均幅度差函数(AMDF)或自相关的算法)、频域技术、以及甚至组合频谱和时间方法的算法。在不失一般性的情况下，本文描述了基于YIN估计器的技术。

根据各个声乐表演而估计的音调的时变序列的聚合(例如，经众包的音调轨道的聚合)可以基于诸如(例如，针对给定表演和帧的)音调估计置信度之类的因素、和/或其他加权或选择的因素(包括基于表演者熟练程度元数据的因素、或通过计算确定的特定表演的品质因数)。在一些实施例中，音调轨道生成系统可以采用基于统计的预测模型，该基于统计的预测模型试图基于歌曲训练语料库中典型的音调转换来约束合成聚合的音调轨道中的帧到帧音调转换。例如，在本文描述的实施例中，系统将经聚合的数据视为隐马尔可夫模型(HMM)的观察序列。HMM对受约束的转换和发射概率进行编码，该受约束的转换和发射概率通过对歌曲的语料库执行转换和发射统计计算而被训练为模型，例如，使用已经包括乐谱编码数据(例如，MIDI类音调轨道)的歌曲目录。通常，如果需要，训练语料库可以专用于特定音乐类型或风格和/或区域。

图1描绘了根据本发明的一些实施例的用于声乐音频(或在一些情况下，视听)捕获的说明性移动电话型便携式计算设备(101、101A、101B、...、101N)和内容服务器110之间的信息流。内容服务器110可以被实现为一个或多个物理服务器，可以被实现为虚拟化的、托管的和/或分布式的应用和数据服务，或可以使用任意其他适当的服务平台。使用作为这类服务平台的一部分而实现的音调跟踪数字信号处理技术(112)来处理从多个表演者和设备捕获的声乐音频，并且聚集各个音调轨道(113)。在一些实施例中，聚合被表示为直方图或其他加权分布，并且被用作经训练的隐马尔可夫模型(HMM 114)的观察序列，该经训练的隐马尔可夫模型进而生成音调轨道作为其输出。然后可以在后续声乐音频捕获中采用合成音调轨道(以及在一些情况或实施例中，导出的和声提示)以支持(例如，托管Sing！Karaoke^TM应用的移动电话型便携式计算设备101、或流媒体设备或机顶盒处的)实时连续音调校正、视觉提供的声乐音调提示、实时用户表演评分、比赛等。

在这些技术的一些示例性实施方式中，处理流程可选地包括选择特定声乐表演和/或预处理(例如，时间对准以考虑从中获得众包的一组音频信号编码的声乐捕捉设备中的不同音频流水线延迟)，跟随着各个表演的音调跟踪，聚合所得音调跟踪数据，并且使用HMM或音调转换的其他统计模型来处理经聚合的数据。图2描绘了根据本发明的一些实施例的采用HMM的音调轨道生成过程的一部分的示例性功能流程。功能流程的特定步骤(包括根据经众包的声乐表演的音频信号编码的声乐音调的计算估计[音调跟踪232]，音调估计的聚合233，以及诸如使用HMM 234之类的统计技术)将参考图2进行更详细地描述。

音频编码的可选选择

通常，捕获的声乐表演的音频信号编码(或音频文件)的组、数据库或集合231被存储在内容服务器或其他服务平台处，由内容服务器或其他服务平台接收，或以其他方式在内容服务器或其他服务平台处可用，并且各个捕获的声乐表演与或可以与背景轨道(该各个捕获的声乐表演针对该背景轨道被捕获)相关联。根据设计条件和/或可用数据集，可以对针对给定背景轨道的一些或所有表演捕获执行音调跟踪(232)。虽然一些实施例依赖于大且通常具有代表性的样本的统计收敛，但是存在若干选项用于从表演集合中选择最适合于音调跟踪和/或进一步处理的记录。

在一些情况或实施例中，表演或表演者元数据可以用于标识特定音频信号编码，该特定音频信号编码有可能将音乐上一致的发声数据贡献给众包样本集合。类似地，表演或表演者元数据可以用于标识音频信号编码，该音频信号编码在众包样本集合中可能不太理想，因此被排除在众包样本集合之外。在一些情况或实施例中，可以使用从音频信号编码本身提取的一个或多个通过计算确定的音频特征来选择有可能将有用数据贡献给众包样本集合的特定表演。如本文其他地方所讨论的，相对于聚合233，一些音调估计算法产生置信度度量，并且这些置信度度量可以被阈值化并且可以用于选择以及用于聚合。在一些情况或实施例中可以采用的附加示例性音频特征包括：

·频谱图峰值(时频位置)和

·逐帧自相关最大值。

通常，选择是可选的，并且可以在处理的各个阶段处使用。

选项1-无选择

在一些情况或实施例中，为了简单起见，不需要和/或可以省略对表演的子集的选择。例如，在足够数量的表演可用于生成针对歌曲的置信的音调轨道而不需要过滤异常表演时，可以不需要选择。

选项2-聚类

在一些情况或实施例中，可以通过执行音频特征提取并且使用频谱聚类算法聚类表演，来将聚类技术用于将声乐表演的音频信号编码放入两个(或更多个)类别中。最接近平均值的聚类可以被视为表示更好的音调可跟踪表演的聚类，并且可以定义被选择用于后续处理的声乐表演的众包子集。

选项3-平均距离

在一些情况或实施例中，可以对声乐表演的经众包的音频信号编码中的一些或全部执行特征提取，并且可以计算每个特征向量的平均值和方差(或“距离”的其他度量)。以这种方式，可以针对每个声乐表演计算距每个特征的方差加权的平均值的多维距离，并且可以应用阈值来选择某些音频信号编码以用于后续处理。在一些情况或实施例中，适当的阈值是所有特征的标准偏差的均方根(RMS)。

针对N个特征的集合，

受益于本公开的本领域技术人员将理解各种各样的选择标准(无论是基于元数据的、基于音频特征的、基于元数据和音频特征两者的等等)。

预处理

在一些情况或实施例中，组、数据库或集合231的各个音频信号编码(或音频文件)通过以下方式进行预处理：(i)基于延迟元数据(该延迟元数据表征各个声乐捕获设备处的不同音频流水线延迟)、或使用音频信号中的计算上可区分的对准特征来对经众包的音频性能进行时间对准，和(ii)对音频信号进行归一化例如以具有最大峰值到峰值幅度为范围[-1,1]。在进行预处理之后，音频信号以48kHz的采样率进行重新采样。

通常，延迟元数据可以来自各个声乐捕获设备，或可以采用经众包的设备/配置延迟数据库。共同拥有的共同未决的于2016年6月9日提交的、序列号为15/178,234的、发明人为Chaudhary、Steinwedel、Shimmin、Jabr和Leistikow的、题为“用于声乐捕获应用中的录制的同步的众包设备延迟估计(CROWD-SOURCED DEVICE LATENCY ESTIMATION FORSYNCHRONIZATION OF RECORDINGS IN VOCAL CAPTURE APPLICATIONS)”的美国专利申请描述了适用于众包延迟元数据的技术。共同拥有的共同未决的于2016年3月14日提交的、序列号为14/216,136的、发明人为Chaudhary的、题为“用于声乐捕获应用中的录制的同步的延迟自动估计(AUTOMATIC ESTIMATION OF LATENCY FOR SYNCHRONIZATION OF RECORDINGSIN VOCAL CAPTURE APPLICATIONS)”的美国专利申请描述了基于往返设备延迟测量的其他技术。在一些情况或实施例中，可以使用标识计算上可区分的对准特征(例如，音频信号编码本身中的声乐开始或节奏特征)的信号处理技术来执行时间对准。

音调跟踪

在一些情况或实施例中，通过使用汉宁窗口以512个样本的跳跃大小窗口化具有1024个样本的窗口大小的重新采样音频来执行声乐音调估计(音调跟踪232)。然后使用YIN音调跟踪算法基于每个帧来执行音调跟踪。参见《美国声学学会杂志》第111期:1917-30(2002)，作者为Cheveigné和Kawahara的：YIN，用于语音和音乐的基本频率估计器。这类音调跟踪器将返回在DC和奈奎斯特之间的估计音调以及每帧的在0和1之间的置信度。YIN音调跟踪仅是一种示例技术。更一般地，受益于本公开的本领域技术人员将理解可以采用的各种适当的音调跟踪算法，包括时域技术(例如，基于平均幅度差函数(AMDF)、自相关等的算法)、频域技术、统计技术、以及甚至组合频谱和时间方法的算法。

聚合

在一些情况或实施例中，使用YIN技术计算的音调估计(例如，音调轨道)的时间序列通过跨每个帧的表演获取音调估计的加权直方图来进行聚合(233)，其中权重是音调估计的置信度等级，或是从音调估计的置信度等级导出的。通常，音调跟踪算法可以具有可能的跟踪音符(或音调)的预定义的最小和最大频率。在一些实现方式中，有效频率范围之外的音符(或音调)被视为具有零或可忽略的置信度，因此不会有意义地贡献给直方图的信息内容或聚合。

实际上，一些经众包的声乐表演可能有不同长度的音频文件。在这种情况下，最大或全长信号将通常决定整个聚合的长度。针对其音频信号编码(或音频文件)不包括完整的音频帧集合(例如，音频信号编码缺少帧的最后部分或较后部分)的各个表演，缺少的帧可以被视为具有零或可忽略的置信度，因此不会有意义地贡献任何置信度给直方图的信息内容或聚合。聚合音调通常在对数频率范围内被量化为离散频率。

虽然本文描述了基于置信度加权直方图的聚合，但是在包括相等权重聚合、基于与从音调估计处理本身导出的权重不同的权重的聚合、基于元数据权重的聚合等的其他实施例中可以采用经众包的声乐音调估计的其他聚合。通常，受益于本公开的本领域技术人员将理解用于聚合来自经众包的声乐表演或其他一组声乐表演的逐帧音调估计的各种技术。

虽然(例如，下面描述的)一些实施例采用基于统计的技术来对经聚合的音调估计进行操作并且由此产生合成音调轨道，但是受益于本公开的本领域技术人员将理解，在一些情况下或实施例中，即使不使用考虑音调转换概率的统计技术，来自经众包的声乐表演或其他一组声乐表演的逐帧音调估计本身可以提供适当的合成音调轨道。

隐马尔可夫模型

在一些情况或实施例中，置信度加权的聚合直方图的时间序列被视为隐马尔可夫模型(HMM)234的观察序列。HMM 234使用基于受约束的训练阶段的转换和发射概率矩阵的参数。通常，在不编码潜在音乐语法的情况下，转换概率矩阵编码在音符和静音之间转换的概率，以及从任何音符到任何其他音符的转换的概率。也就是说，所有音符转换概率都用相同值进行编码。在给定真实隐藏状态的情况下，发射概率矩阵编码观察给定音符的概率。利用该模型，系统使用维特比算法来查找通过观察序列的在隐藏状态音符和休止符之间进行最佳转换的路径。由维特比算法计算的最佳序列被视为输出音调轨道235。

训练

图3A和3B描绘了根据本发明的一些实施例的采用隐马尔可夫模型的示例性训练流程。训练HMM通常涉及使用具有一些声乐音调序列编码(例如，包括声乐音调轨道信息的MIDI类型文件)的歌曲的数据库和针对每个这类歌曲的一组声乐音频表演。通过对声乐音调序列数据进行观察来执行训练。通常，训练基于数据库中广泛的歌曲，包括来自不同类型和原籍国的歌曲。通过这种方式，HMM训练可以避免过度学习特定于类型或地区的音乐倾向。尽管如此，在一些情况或实施例中，可能期望将训练语料库专门化为特定音乐类型或风格和/或国家或地区。

无论训练语料库的风格或地区范围如何，针对训练语料库中表示的每个给定歌曲，通常期望包括给定歌曲的多个表演，并且以与上面关于提供给经训练的HMM的观察序列所描述的方式类似的方式来聚合数据。受益于本公开的本领域技术人员将理解本文详细描述的训练技术的各种适当的变型。

选项1-观察MIDI数据

在所描述的技术的一些变型中，通过计算(313、323)(将(1)从静音转换为任意特定音符、(2)从任意特定音符转换为静音、(3)从任意特定音符转换为任意其他特定音符、以及(4)从任意特定音符转换为相同音符的)音符的百分比，来对符号MIDI数据执行转换概率的训练。参考图3A和3B所示，首先以与从音频数据(321、322)计算的音符直方图的帧速率相同的速率来解析和采样(312)MIDI数据311。优选地，这些转换概率是基于逐帧样本被计算的(参见323)，而不是基于逐音符样本被计算的。下面更详细地描述该HMM训练方法。

HMM的发射概率是通过以与上面关于经众包的声乐表演所描述的方式类似的方式来对每个歌曲的表演集合执行音调跟踪和聚合(314)而被计算的。基于观察以下各项来计算误差概率(313、323)：

1.针对每个歌曲的所有演奏，观察每个歌曲的每个帧中的静音的加权聚合概率，其中，给定歌曲的MIDI音调信息指示针对由静音帧的数量加权的给定帧的声乐音调信息中的静音，

2.针对给定歌曲的所有演奏，观察每个帧中的给定音符的加权聚合概率，其中，给定歌曲的MIDI音调信息指示给定音符，

3.针对给定歌曲的所有演奏，观察每个帧中的任意其他音符的加权聚合概率，其中，给定歌曲的MIDI音调信息指示给定音符，

4.针对每个歌曲的所有演奏，观察每个歌曲的每个帧中的静音的加权聚合概率，其中，给定歌曲的MIDI音调信息指示针对该歌曲的所有演奏的任意音符，以及

5.针对每个歌曲的所有表演，观察每个歌曲的每个帧中的任意音符的加权聚合概率，其中，给定歌曲的MIDI音调信息指示针对该歌曲的所有表演的静音。

选项2-迷你批量下降(Minibatch Descent)

因为根据系统参数不存在参数形式的误差，所以通常不能执行传统的梯度下降算法。然而，存在可以用于优化HMM参数的非参数下降算法，例如，马尔可夫链蒙特卡罗(MCMC)、模拟退火、和随机游走技术。针对这些情况中的每一种，使用例如上述技术来执行音调跟踪(或估计)，其中，HMM参数被初始化为合理值，以便优化技术不从局部/全局最大值开始。下降算法遵循以下过程：

1.在歌曲(每个歌曲使用表演记录的语料库)的(足够大)子集上执行具有给定参数的音调跟踪；

2.在歌曲的子集上计算平均误差；

3.(在起始位置的合理范围内)随机地更新参数；

4.在歌曲的另一子集上执行具有新参数的音调跟踪；

5.计算平均误差；并且

6.计算平均误差与先前平均误差之间的差异。

a.如果差异低于某个阈值并且平均误差低于某个阈值，则完成下降并且记录最终参数。

b.否则，根据误差中的变化来更新参数，并且算法从步骤4继续进行。

选项3-网格

可以通过离散地划分参数空间并且针对参数的每个排列计算大批量歌曲上的平均误差，来计算最佳转换矩阵。跨所有歌曲跟踪的平均误差与所使用的参数一起被记录。记录生成最小平均误差的参数。

后处理

再次参考图2，在一些实施例中，HMM 234输出一系列平滑样本向量，指示根据时间被表示为MIDI音符编号的音调。对这些平滑样本向量进行高通滤波和抽取，使得仅捕获音符转换(开始(onset)、偏移和改变)以及它们的原始定时。然后将这些样本解析为离散的MIDI事件并且写入包括给定歌曲的声乐音调信息的新MIDI文件(音调轨道235)。注意，通常，在给定可用表演的数量的情况下(1)未满足某些接受标准和/或(2)未能收敛时，从结果中丢弃音调轨道。

接受标准

在一些情况下，音调跟踪算法无法产生可接受的结果。在后处理期间，系统通过对音符直方图和HMM的内部状态进行测量来确定是否应该输出音调轨道(例如，音调轨道235)。在一些情况或实施例中，使用具有MIDI声乐音调信息和下面描述的误差度量的歌曲数据库，针对误差标准来训练决策阈值。在一些情况或实施例中，使用简单的贝叶斯决策最大似然估计来训练决策边界。

收敛

每个歌曲都将具有用于在其上跟踪音调的一组表演。为了确定最佳可能的音调轨道具有来自该组表演的结果，若干度量是通过以下方式从拒绝度量进行计算的：增加在音调跟踪中使用的表演的数量，并且计算这些度量中的每个度量的斜率，以及一个生成的音轨与前一个生成的音轨之间的均方距离。如果度量的斜率从不收敛到某些预定阈值，则歌曲的生成的音调轨道(例如，音调轨道235)不被认为是正确的。

误差估计

某些类型的误差容易被容忍(例如，整个音调轨道被八度音程偏移)。为了最好地表示从音乐理论角度来看似乎令人不安的音调轨道，可以计算某些类别的误差。

1.针对MIDI指示静音但生成的音调轨道具有非静音的每个帧，误差被视为1；

2.针对MIDI指示音符但生成的音调轨道具有静音的每个帧，误差被视为1；并且

3.针对所有其他帧，误差被计算为简单幅度距离。

这三种类型的误差与权重进行组合以产生总体误差度量。

生成的MIDI轨道在计算上述3个误差度量之前经历相对的预处理，其中通过采用(中值窗口为几秒钟的持续时间的)中值滤波的基于帧的八度音程误差来计算区域八度音程误差(相对于参考MIDI音调信息)。这样做的目的是逐句地(on a phrase-by-phrasebasis)消除八度音程误差，使得完全正确但(在特定区域内)以八度音程偏移的音调轨道被认为与具有许多音符不正确但始终在正确八度内的音调轨道相比更正确。

代表性(或预览)表演

基于前面的描述，应当理解，用作经众包的样本的给定歌曲的某些表演可以与其他经众包的样本相比更紧密对应于给定歌曲的HMM生成的音调轨道(235)。在一些情况或实施例中，可能期望通过计算评估经众包的声乐音频表演中的各个声乐音频表演与HMM生成的音调轨道的对应关系。通常，对应关系度量可以被建立为后处理步骤，或作为聚合和HMM观察序列计算的副产品。基于评估的对应关系，各个声乐音频表演中的一个或多个声乐音频表演可以被选择用作声乐预览音轨，或用作声乐(主旋律、二重奏部分A/B等)，后续歌手针对该声乐将以卡拉OK式声乐捕捉的方式进行演唱。在一些情况或实施例中，可以采用单个“最佳匹配”(基于任意适当的统计测量)。在一些情况或实施例中，可以采用一组顶部匹配，作为旋转组，或作为蒙太奇、组表演、二重奏等。

变型和其他实施例

虽然参考各种实施例描述了本发明，但是应当理解这些实施例是说明性的，并且本发明的范围不限于它们。可以进行许多变化、修改、添加和改进。例如，虽然已经描述了从根据卡拉OK式界面捕获的经众包的声乐表演生成的音调轨道，但是受益于本公开的技术人员将理解其他变型。在一些情况或实施例中，众包可以来自(构成使用本发明技术生成的音调轨道的更大用户群的)表演者和/或设备的子集。在一些情况或实施例中，来自一组高级用户或半专业歌唱家的声乐捕捉(可能包括演播室捕捉)可以形成或被包括在一组声乐表演中，从该组声乐表演中可以估计和聚合音调。虽然一些实施例采用基于统计的技术来约束音调转换并且由此产生合成音调轨道，但是其他实施例可以更直接地将逐帧音调估计的加权聚合解析为合成音调轨道。

虽然已经在某些说明性应用的上下文中描述了某些说明性信号处理技术，但是本领域普通技术人员将认识到，修改所描述的技术以适应其他适当的信号处理技术和效果是直截了当的。同样地，对特定采样技术、音调估计算法、用于提取的音频特征、乐谱编码格式、统计分类器、动态编程技术和/或机器学习技术的引用仅仅是说明性的。受益于本公开及其教导的本领域技术人员将理解对明确描述的实施例的一系列替代实施例。

根据本发明的实施例可以采用一个或多个计算机程序产品的形式和/或被提供为一个或多个计算机程序产品，该一个或多个计算机程序产品在机器可读介质中被编码为指令序列和/或软件的其他功能构造，该指令序列和/或软件的其他功能构造进而可以包括在诸如iPhone手持设备、移动或便携式计算设备、媒体应用平台或机顶盒之类的计算系统上、或(在音调估计、聚合、统计建模、和视听内容存储和获取代码的情况下)在内容服务器或其他服务平台上可执行以执行本文描述的方法的组件(尤其是声乐捕获、延迟确定，以及在一些情况下，音调估计代码)。通常，机器可读介质可以包括以机器(例如，计算机、服务器、无论是物理的还是虚拟的服务器、移动或便携式计算设备的计算设施、媒体设备或流传输器等)可读的形式(例如，作为应用、源或目标代码、功能描述性信息等)对信息进行编码的有形制品，以及与这些应用程序、源或目标代码、功能描述信息的传输相关的非暂态存储装置。机器可读介质可以包括但不限于磁存储介质(例如，磁盘和/或磁带存储器)；光存储介质(例如，CD-ROM、DVD等)；磁光存储介质；只读存储器(ROM)；随机存取存储器(RAM)；可擦除可编程存储器(例如，EPROM和EEPROM)；闪存；或适用于存储电子指令、操作序列、功能描述信息编码等的其他类型的介质。

通常，多个实例可以针对本文描述的组件、操作或结构被提供作为单个实例。各种组件、操作和数据存储之间的边界在某种程度上是任意的，并且在特定说明性配置的上下文中示出了特定操作。设想了其他功能分配，并且可以落入本发明的范围内。通常，在示例性配置中作为单独组件呈现的结构和功能可以被实现为组合结构或组件。类似地，作为单个组件呈现的结构和功能可以被实现为单独组件。这些和其他变型、修改、添加和改进可以落入本发明的范围内。

Claims

1.一种方法，包括：

接收对应于背景轨道而被捕获的各个声乐表演的多个音频信号编码；

处理所述音频信号编码以针对每个声乐表演通过计算估计声乐音调的时变序列；

聚合根据所述声乐表演通过计算估计的所述声乐音调的时变序列；以及

至少部分地基于所述聚合，提供合成音调轨道的计算机可读编码，以与所述背景轨道相对应地用作与卡拉OK式声乐捕获有关的(i)声乐音调提示以及(ii)音调校正音符目标中的任一者或两者。

2.根据权利要求1所述的方法，还包括：

众包来自地理上分布的一组网络连接的声乐捕获设备的接收到的音频信号编码。

3.根据权利要求1所述的方法，还包括：

对所述接收到的音频信号编码进行时间对准，以考虑各个声乐捕获设备处的不同音频流水线延迟。

4.根据权利要求1或2所述的方法，

其中，所述聚合包括基于每个帧的来自各个声乐表演的音调估计的加权分布。

5.根据权利要求4所述的方法，

其中，各个音调估计的加权至少部分地基于作为声乐音调的计算估计的一部分确定的置信度等级。

6.根据权利要求1或2所述的方法，还包括：

根据基于统计的预测模型来处理经聚合的声乐音调的时变序列，所述基于统计的预测模型用于与所述背景轨道相关联的音乐风格或类型的典型的声乐音调转换。

7.根据权利要求1或2所述的方法，还包括：

将所述合成音调轨道提供给网络连接的声乐捕获设备以作为对歌词与所述背景轨道的时间对应关系进行编码的数据结构的一部分。

8.一种音调轨道生成系统，包括：

地理上分布的第一组网络连接的设备，被配置为捕获与背景轨道相对应的各个声乐表演的音频信号编码；以及

服务平台，被配置为接收和处理所述音频信号编码，从而针对每个声乐表演通过计算估计声乐音调的时变序列，并且聚合所述声乐音调的时变序列以准备经众包的音调轨道。

9.根据权利要求8所述的系统，还包括：

地理上分布的第二组网络连接的设备，被通信地耦合以接收所述经众包的音调轨道，所述经众包的音调轨道与所述背景轨道相对应地用作与各个网络连接的设备处的卡拉OK式声乐捕获有关的(i)声乐音调提示以及(ii)音调校正音符目标中的任一者或两者。

10.根据权利要求8或9所述的系统，

其中，所述服务平台还被配置为对接收到的音频信号编码进行时间对准，以考虑各个网络连接的设备处的不同音频流水线延迟。

11.根据权利要求8或9所述的系统，

其中，所述聚合包括在所述服务平台处基于每个帧来确定来自各个声乐表演的音调估计的加权分布。

12.根据权利要求11所述的系统，

13.根据权利要求8或9所述的系统，

其中，所述服务平台还被配置为根据用于声乐音调转换的基于统计的预测模型来处理经聚合的声乐音调的时变序列。

14.根据权利要求13所述的系统，

其中，所述基于统计的预测模型可预测与所述背景轨道相关联的音乐风格或类型的典型的声乐音调转变。

15.一种准备音调轨道的计算机可读编码的方法，所述方法包括：

从被配置用于声乐捕获的各个地理上分布的网络连接的便携式计算设备接收针对相同背景轨道在各个网络连接的便携式计算设备处单独捕获的各个声乐音频表演的各个音频信号编码；

通过计算估计所述各个音频信号编码的相应帧的音调和置信度等级；

使用所述置信度等级作为权重来将基于每个帧的估计的结果聚合为音调估计的加权直方图；并且

使用维特比类型的动态编程算法，来基于经训练的隐马尔可夫模型(HMM)和作为所述经训练的HMM的观察序列的经聚合的直方图，计算音调轨道的至少前体。

16.根据权利要求15所述的方法，还包括：

在音调估计之前，对所述各个音频信号编码进行时间对准。

17.根据权利要求16所述的方法，

其中，所述时间对准至少部分地基于特定于在其上捕获了所述各个声乐音频表演的所述各个地理上分布的网络连接的便携式计算设备的音频信号路径元数据。

18.根据权利要求16或17所述的方法，

其中，所述时间对准至少部分地基于标识所述各个音频信号编码中的相应音频特征的数字信号处理。

19.根据权利要求15-17中任一项所述的方法，

其中，每个帧的音调的计算估计基于YIN音调跟踪算法。

20.根据权利要求15-17中任一项所述的方法，还包括：

选择用于音调估计的针对所述相同背景轨道被单独捕获的声乐音频表演的子集，其中，所述选择基于通过计算定义的音频特征的对应关系。

21.根据权利要求20所述的方法，其中，所述计算定义的音频特征包括以下一者或两者：

频谱峰值，以及

逐帧自相关最大值。

22.根据权利要求20所述的方法，其中，所述选择基于以下一者或两者：

表演的频谱聚类，以及

距音频特征空间中的计算的平均值的阈值化距离。

23.根据权利要求15-17中任一项所述的方法，还包括：

训练所述HMM。

24.根据权利要求23所述的方法，其中，训练包括，针对声乐表演的选择和相应预先存在的音调轨道数据：

以帧速率对音调轨道和声乐表演的音频编码进行采样；

计算(i)静音到每个音符、(ii)每个音符到静音、(iii)每个音符到另一音符、和(iv)每个音符到相同音符的转换概率；以及

基于针对声乐表演的选择而计算的音调估计的聚合来计算发射概率。

25.根据权利要求23所述的方法，其中，所述训练采用非参数下降算法，从而在声乐表演的选择上使用HMM参数来通过计算最小化在音调跟踪的连续迭代中的平均误差。

26.根据权利要求15-17中任一项所述的方法，还包括：

通过高通滤波和抽取来对HMM输出进行后处理从而标识音符转换；

基于经标识的音符转换的定时，将所述HMM输出的样本解析为离散的MIDI事件；以及

输出所述MIDI事件作为所述音调轨道。

27.根据权利要求15-17中任一项所述的方法，还包括：

评估并且可选地接受所述音调轨道，

其中，用于音调轨道评估和接受的误差标准针对八度音程误差进行归一化。

28.根据权利要求15-17中任一项所述的方法，还包括：

将所述音调轨道作为自动计算的经众包的数据制品提供给多个地理上分布的网络连接的便携式计算设备以用于其上的后续卡拉OK型音频捕获。

29.根据权利要求15-17中任一项所述的方法，

所述方法至少部分地在所述地理上分布的网络连接的便携式计算设备通信地耦合的内容服务器或服务平台上被执行。

30.根据权利要求15-17中任一项所述的方法，

所述方法至少部分地被实现为在所述地理上分布的网络连接的便携式计算设备通信地耦合的内容服务器或服务平台上可执行的指令的计算机程序产品编码。

31.根据权利要求15-17中任一项所述的方法，还包括：

在后续卡拉OK式音频捕获过程中使用经准备的音调轨道，来(i)提供通过计算确定的表演同步的声乐音调提示，并且(ii)驱动经捕获的声乐表演的实时连续音调校正。

32.根据权利要求15-17中任一项所述的方法，还包括：

计算评估各个声乐音频表演的音频信号编码与经准备的音调轨道的对应关系；以及

基于经评估的对应关系，选择所述各个声乐音频表演中的一个或多个声乐音频表演来用作声乐预览轨道。