CN105810190A

CN105810190A - 音乐内容和实时音乐伴奏的自动转录

Info

Publication number: CN105810190A
Application number: CN201610037156.6A
Authority: CN
Inventors: G.拉特利奇; P.R.卢皮尼; N.坎贝尔
Original assignee: Crown Audio Inc
Current assignee: Harman International Industries Inc; Crown Audio Inc
Priority date: 2015-01-20
Filing date: 2016-01-20
Publication date: 2016-07-27
Anticipated expiration: 2036-01-20
Also published as: US9773483B2; EP3048607B1; JP6735100B2; US20160210947A1; JP2016136251A; CN105810190B; EP3048607A2; EP3048607A3

Abstract

在至少一个实施方案中，提供一种对包括在由计算装置所接收到的音频信号中的音乐内容执行自动转录的方法。所述方法包括：使用所述计算装置来处理所述接收到的音频信号，以提取表征所述音乐内容的至少一部分的音乐信息，以及使用所述计算装置来产生表示所述所提取的音乐信息的替代音乐演绎的多种音乐记谱法。所述方法进一步包括应用所述多种音乐记谱法中的选定一种来转录所述接收到的音频信号的所述音乐内容。

Description

音乐内容和实时音乐伴奏的自动转录

相关申请的交叉引用

本申请要求2015年1月20日提交的美国临时申请号62/105,521的权益，所述申请的公开内容以全文引用的方式并入本文中。

技术领域

本文所公开的方面通常涉及信号处理，且更明确地说，涉及包括处理包括在音频信号中的音乐内容的各种应用程序。

背景技术

对于音乐转录，可存在多种方式来演绎一首乐曲。然而，常规的实施方式仅提供对乐曲(或音频)的一种演绎，且依靠用户来修复或校正转录过程期间演奏的任何错误。

发明内容

在至少一个实施方案中，提供一种对包括在由计算装置所接收到的音频信号中的音乐内容执行自动转录的方法。所述方法包括：使用计算装置来处理接收到的音频信号，以提取表征音乐内容的至少一部分的音乐信息；使用所述计算装置，产生多种音乐记谱法，其表示所提取的音乐信息的替代音乐演绎。所述方法还包括应用所述多种音乐记谱法中的选定一种来转录接收到的音频信号的音乐内容。

在至少一个实施方案中，提供一种对包括在接收到的音频信号中的音乐内容执行自动转录的计算机程序产品。所述计算机程序产品包括计算机可读存储媒体，其具有随之包含的计算机可读程序代码。所述计算机可读程序代码可由一个或多个计算机处理器执行来：处理接收到的第一音频信号，以提取表征音乐内容的至少一部分的音乐信息，且产生表示所提取的音乐信息的替代音乐演绎的多种音乐记谱法。所述计算机可读程序代码还可由一个或多个计算机处理器执行来应用所述多种音乐记谱法中的选定一种来转录接收到的音频信号的音乐内容。

在至少一个实施方案中，提供一种用于对包括在接收到的音频信号中的音乐内容执行自动转录的音乐转录装置。所述装置包括一个或多个计算机处理器，其被配置来处理接收到的音频信号以提取表征音乐内容的至少一部分的音乐信息，且产生表示所提取的音乐信息的替代音乐演绎的多种音乐记谱法。所述一个或多个计算机处理器进一步被配置来应用所述多种音乐记谱法中的选定一种以转录接收到的音频信号的音乐内容；且输出经转录的音乐内容。

附图说明

所附权利要求书中以特殊性来指出本公开的实施方案。然而，通过参考结合附图进行的以下详细描述，将更明白且将最好地理解各种实施方案的其它特征，其中：

图1示出根据一个实施方案的用于对包括在音频信号中的音乐内容执行自动转录的系统的一个实例。

图2A和2B示出根据一个实施方案的用于执行音乐内容的自动转录的系统中使用的一个实例音乐信息和用户简档。

图3示出根据一个实施方案的对包括在音频信号中的音乐内容执行自动转录的方法。

图4A示出根据一个实施方案的为所提取的音乐信息产生多个音乐记谱法的方法。

图4B示出根据一个实施方案的执行多个音乐记谱法中的一个选择的方法。

图5A和5B各自示出根据一个实施方案的对应于同一音乐信息的替代音乐记谱法。

图6示出根据一个实施方案的音乐记谱法的选择以及使用选定音乐记谱法的转录。

图7示出根据一个实施方案的用于对包括在接收到的音频信号中的音乐内容执行实时音乐伴奏的系统的一个实例。

图8是示出根据一个实施方案的用于执行实时音乐伴奏的系统的时序的一个实例的图表。

图9示出根据一个实施方案的用于执行实时音乐伴奏的系统的实施方式的一个实例。

图10示出根据一个实施方案的为包括在接收到的音频信号中的音乐内容执行实时音乐伴奏的方法。

具体实施方式

如所要求，本文公开本发明的详细实施方案；然而，将理解，所公开的实施方案仅为可以各种和替代形式体现的本发明的实例。图不一定是按比例绘制的；一些特征可能被夸大或最小化，以显示特定组件的细节。因此，本文所公开的特定结构和功能细节将不被解释为限制性的，而是仅作为教示本领域的技术人员以各种方式使用本发明的代表性基础。

音频信号的自动转录

若干实施方案通常公开一种用于对包括在音频信号中的音乐内容执行自动转录的方法、系统和装置。关于音乐内容的信息可以大量不同方式表示，例如数字表示或模拟(例如，乐谱)，使用特定风格的记谱法的音符。甚至在特定风格的记谱法(例如，通常用于书面音乐的五线谱记谱法)内，含糊性可允许同一音乐信息的替代演绎。举例来说，通过更改拍号，拍子和/或音调长度，可引入表示同一音乐信息多个竞争演绎。这些演绎中的每一者在技术上可为准确的。因此，执行音乐内容的准确转录取决于若干因素，其中的一些可为主观的，基于用户对音乐信息的意图或偏好。

图1示出根据一个实施方案的用于对包括在音频信号中的音乐内容执行自动转录的系统的一个实例。系统100包括计算装置105，其可与一个或多个输入装置185、一个或多个输出装置190以及包括其它计算装置的网络195操作地耦合。

计算装置105通常包括使用一个或多个连接115互连的处理器110、存储器120以及输入/输出(或I/O)180。计算装置105可以任何合适形式实施。计算装置105的一些非限制实例包括通用计算装置，例如个人计算机、桌上型计算机、膝上型计算机、上网本计算机、平板计算机、网络浏览器、电子书阅读器以及个人数字助理(PDA)。计算装置105的其它实例包括通信装置，例如移动电话，以及媒体装置(包括录音机、编辑器以及播放器，例如电视机、机顶盒、音乐播放器、数字相框以及数字相机)。在一些实施方案中，计算装置105可实施为特定的音乐装置，例如数字音频工作站、控制台、乐器踏板、电子乐器(例如数字钢琴)，等等。

在一个实施例中，连接115可表示计算装置105内的共用总线。在替代实施方案中，系统100是分布式的，且包括用于执行本文所描述的功能的多个离散计算装置105。在此实施方案中，连接115可包括装置内连接(例如，总线)，以及计算装置之间的有线或无线联网连接。

处理器110可包括适合执行本文所描述的功能的任何处理元件，且可包括单个或多个核心处理器，以及其组合。处理器110可包括在单个计算装置105内，或可表示跨若干联网计算装置而包括的处理元件的集合。

存储器120可包括针对其大小、相对性能或其它能力而选择的多种计算机可读媒体：易失性和/或非易失性介质、可装卸和/或非可装卸介质等。存储器120可包括高速缓冲存储器、随机存取存储器(RAM)、存储装置等。包括作为存储器120的一部分的存储装置可通常提供非易失性存储器，且包括一个或多个不同存储元件，例如快闪存储器、硬盘驱动器、固态驱动器、光学存储装置和/或磁性存储装置。存储器120可包括在单个计算装置中，或可表示包括在联网计算装置中的存储器的集合。

存储器120可包括用于执行本文所描述的各种功能的多个模块。所述模块通常包括程序代码，其可由所述处理器110中的一个或多个执行，且可实施为软件和/或固件。在另一实施方案中，所述模块中的一个或多个作为单独的专用集成电路(ASIC)在硬件中实施。如图所示，模块包括提取模块130、演绎模块132、评分模块134、转录模块136、伴奏模块138、合成模块140、指令模块142和游戏模块144。所述模块可独立操作，且可互动来执行某些功能。举例来说，游戏模块144在操作期间可向演绎模块132、转录模块136等等发出呼叫。所属领域的技术人员将认识到，本文所提供的模块仅为非排它性实例；可根据需要包括不同的功能和/或功能群组来合适地操作系统100。

存储器120包括一个或多个音频信号125。如本文所使用，信号或音频信号通常指代对应于将呈现给一个或多个收听者的声音的时变电信号。此类信号通常是用一个或多个音频换能器(例如麦克风、吉他拾音器，或其它装置)产生。在将这些信号递送到例如扬声器或耳机等音频输出装置之前，可例如使用放大或滤波或其它技术来处理这些信号。

音频信号125可具有任何合适形式，不管是模拟还是数字。音频信号可为单声道的(即，包括单个音高)或多音的(即，包括多个音高)。音频信号125可包括使用一个或多个输入装置185同时产生且通过输入/输出180接收的信号，以及包括在存储器120中的一个或多个预录文件、音轨、流式传输介质等。输入装置185包括音频输入装置186和用户接口(UI)装置187。音频输入装置186可包括无源装置(例如，乐器或声乐作品的麦克风或拾取器)和/或有源供电的装置，例如提供MIDI输出的电子乐器。用户接口装置187包括此项技术中已知的允许用户与计算装置105(例如，键盘、鼠标、触摸屏等)相互作用并控制其操作的各种装置。

提取模块130被配置来分析一个或多个音频信号125中的一些或全部，以便提取表示音频信号125的音乐内容的各种性质的音乐信息160。在一个实施例中，提取模块130对音频信号125的一部分进行取样，并提取对应于所述部分的音乐信息。提取模块130可将任何合适的信号处理技术应用于音频信号125，来确定包括在其中的音乐内容的特性。音乐信息160包括音乐内容的基于时间的特性，例如音符的时序(起点和/或持续时间)。音乐信息160还包括音乐内容的基于频率的特性，例如音符的音高或频率(例如，440Hz)。

演绎模块132被配置来分析音乐信息160，并产生表示所述音乐信息的多个可能的记谱法133(即，音乐演绎)。如上文所论述，存在大量方式来表示音乐信息，其可根据文化规范、个人偏好而变化，不管所述表示将看起来经格式化(例如，乐谱)还是由计算系统(例如MIDI)处理，等等。演绎模块132可与存储在存储器120中的其它数据相互作用，来改进所产生的记谱法的准确度，例如用户简档信息170和/或音乐类型信息175。

转向图2A，演绎模块132可评定音频信号125的音乐信息160，并尝试根据若干不同音乐特性来准确地分类所述信息。所述特性中的一些可主要为基于音高或频率的，例如调号205、和弦220以及音符225的一些方面(例如，音符音高、有区别的多音音符)等等。音符群组225可分类为曲调226或协调227；这些部分可一起包括在记谱法133中，或可单独演绎。其它特性可主要是基于节拍的，例如旋律或小节数207、拍号210、拍子215、音符225的其它方面(例如，音符起点和长度)、节奏230等等。节奏230可对应于音乐信息的整体“风格”或“感觉”，在音符225的时序模式中反映。节奏230的实例包括正统节拍(straighttime)231、摇摆节拍(swingtime)232，以及所属领域的技术人员已知的其它节奏233(例如，断奏摇摆(staccatoswing)、无序播放(shuffle)等等)。演绎模块132还可包括所属领域的技术人员将知晓的其它特性235，例如音乐动态(例如，对信号音量或振幅、速度等的基于节拍的变化)。下文相对于图5A和5B来提供音乐特性的额外论述。

返回图1，演绎模块132所产生的记谱法133可包括上文所论述的多个音乐特性。针对特定音乐信息160所产生的每一记谱法133可包括相同的一组(或至少一部分共享的一组)音乐特性，但所述共享音乐特性的一个或多个值通常在记谱法之间变化。以此方式，记谱法133提供同一音乐信息160的可充分区别的多个替代表示。提供替代表示可对估计最终用户正寻求的记谱法有用，其可完全反映主观偏好。替代表示可适应不同类型的音乐的可能性，且还可对克服人类音乐演奏内出现的轻微变化有帮助。下文相对于图5A和5B来论述实例记谱法。

在系统100的一个实施方式中，典型的场景可包括音乐家使用乐器(例如，吉他)来提供音频信号125。为了指示应通过使用处理器110执行的算法来学习音频信号中的乐句，音乐家可踩在脚踏开关上，或提供乐句将在大约第一音符被奏响的时间开始的替代指示。音乐家弹奏具有特定拍号(例如，3/4或4/4)和特定感觉(例如，正统或摇摆)的乐句，其中相关联的和弦在所述乐句期间的各个点任选地改变。在完成所述乐句后，音乐家可即刻提供另一指示(例如，再次踩在脚踏开关上)。乐句的开始还可通过指令(即，“装备”)算法来收听乐器信号以交叉某一能量水平，而不是使用单独的指示。在一个实施例中，可通过在用户所指示的开始和结束的范围(例如，+/-100ms)内搜索最近的音符起点来确定乐句的开始和结束的更准确位置。

虽然正弹奏所述乐句，但音频信号125(例如，来自吉他的乐器信号)的实时分析由系统100执行。举例来说，可使用多音音符检测来提取所弹奏的音符音高(例如，吉他上的扫弦)，且可使用起点检测来确定对吉他进行扫弦或拾取的时间。除确定扫弦的时间之外，可对应于每次扫弦来提取特征，其可稍后用于整体分析来使扫弦彼此相关，来确定扫弦重点(例如，小节开始扫弦、下扫弦或上扫弦等)。举例来说，可提取若干频带中的频谱能量，作为每一起点的特征向量。

当音乐家指示乐句的结束时，演绎模块132可执行完整分析来产生对应于所述乐句的多种记谱法。在一个实施例中，完整分析通过假定乐句的记谱法且接着对检测到的音符进行评分来起作用，且对照所述假定而开始。举例来说，一种记谱法可能包括4/4正统感觉时序的4个小节。在此情况下，可预期找出四分之一和百分之一音符位置处或附近的起点，其可通过将乐句分成32个章节(即，4个小节x每小节8个音符)来估计。如果检测到的起点在四分之一音符/八分之一音符的预期位置处出现，那么记谱法将通常接收较高得分。在一个实施例中，当与八分之一音符相比时，将较大的评分权重应用于四分之一音符，且将更大的评分权重应用于对应于小节的开始的起点。使用针对每一起点所提取的特征，可对检测到的起点中的每一者确定相似性旋律。如果与小节的开始相关联的起点具有高相似性旋律，那么增加起点得分。

还可分析所述音符来确定是否弹奏特定和弦。在一个实施例中，在和弦变化的时序在小节边界附近发生的情况下，演绎更有可能。在一个实施例中，和弦变化得分可包括在记谱法得分的整体计算中。另外，可基于将更可能弹奏什么来将先验得分(或概率)指派给每一记谱法。举例来说，相比于3/4记谱法，可能将较大的先验得分指派给4/4记谱法，或相比于奇数数目的小节，可将较大的先验得分指派给偶数数目的小节。通过适当地按比例缩放得分(例如，0与1之间)，可通过将起点得分乘以和弦变化得分和先验得分来计算记谱法的整体得分。归因于乐句的较大数目的可能记谱法，可使用标准的动态编程方法来降低计算负载。

在一些情况下，不同记谱法假定的得分可非常接近(例如，见图5A)，从而使其难以选择单个“正确”记谱法。出于此理由，可通过容易的方法将记谱法假定的顶部评分子集提供给最终用户，来选择记谱法假定而无单调乏味的编辑。在一个实施例中，可使用单个“替代时序”按钮来在具有两个最大得分的记谱法假定之间交替。在一个实施例中，可使用例如按钮或旋钮等用户接口(UI)元件来从第一特定类型的最佳记谱法(例如，4/4记谱法)交替到第一不同类型的最佳记谱法(例如，3/4记谱法)。另外，可使用例如按钮或旋钮等用户接口(UI)元件来从第二特定类型的最佳记谱法(例如，半节拍记谱法(halftimenotation))交替到第二不同类型的最佳记谱法(例如，双节拍记谱法(doubletimenotation))。并且，可使用例如按钮或旋钮等用户接口(UI)元件来从第三特定类型的最佳记谱法(例如，半节拍记谱法)来交替到第三不同类型的最佳记谱法(例如，双节拍记谱法)。

所述多种记谱法133表示音乐信息160的不同音乐演绎。评分模块134被配置来基于匹配音频信号125的旋律或(对应于音乐信息160的)音频信号125的一部分来将得分指派给所产生的记谱法133中的每一者。可使用任何合适的算法来确定或定量相对匹配。在一些实施方案中，可正统地进行匹配，即，将针对特定记谱法133确定的音符225和/或和弦220的序列与音频信号125进行比较。在一个实施例中，可确定记谱法133与音频信号之间的音符的时序和/或音高的变化。举例来说，在处理期间，提取模块130可确定包括在音频信号内的音符具有特定时间长度(例如，425毫秒(ms))。还假设，演绎模块132所产生的记谱法中的一者包括正统节拍中的每分钟160拍(bpm)的拍子，其中四分之一音符对应于一拍。对于此实例，将预期四分之一音符具有0.375s或375ms的时间值(即，60s/min除以160bpm)。演绎模块可将425ms音符视为充分接近预期的375ms，以将所述音符分类为四分之一音符(也许在预定裕量内，以适应用户不精确性)。或者，演绎模块可将此分类视为考虑特定记谱法参数的最佳可能分类；例如下一最近可能音符分类可为具有562.5ms的预期时间值(1.5x375ms)的加附点的四分之一音符。此处，显然，与当分类为加附点的四分之一音符(137.5ms)时相比，当将425ms音符分类为四分之一音符(50ms)时，错误较少。当然，演绎模块可将额外或替代逻辑应用于个别音符或音符群组来进行此分类。可进一步处理对应于个别音符或音符群组的分类的错误量，来确定记谱法133与音频信号125的整体匹配得分。在一些实施方案中，可对错误量进行总计和/或加权，来确定匹配得分。

在一些实施方案中，匹配旋律和得分计算还可基于包括在一个或多个用户简档170中的信息，以及音频信号125/音乐信息160的一个或多个选定或指定种类175。种类175通常包括若干不同广度类别的音乐类型。选定种类可辅助演绎模块132准确地处理和演绎音乐信息160，因为种类可暗示音乐信息160的某些音乐品质(例如节奏信息、预期音符/和弦组或调号等等)。常见种类175的一些实例包括摇滚、乡村、节奏蓝调(R&B)、爵士、蓝调、流行乐(pop)、金属乐等等。当然，这些实例通常反映西方音乐偏好；种类175还可包括不同文化内常见的音乐类型。在一个实施例中，可在演绎模块132操作以演绎音乐信息160之前指定种类信息。在一个实施例中，音频信号的种类175是由最终用户经由UI187的元件来选择。

转向图2B，用户简档170可包括最终用户特定的偏好信息250和历史信息260(或使用历史)。历史信息260通常包括与最终用户使用系统100的先前会话有关的信息，且趋向于显示用户的音乐偏好。历史信息260可包括指示音乐信息160的先前例子、选定的对应种类175、选定的对应记谱法133、未选定的记谱法133等等的数据。最终用户的偏好250可由最终用户通过UI187来明确地确定或指定，或可由计算装置105基于最终用户与系统110的各种功能/模块的交互来隐含地确定。偏好250可包括若干不同类别，例如种类偏好251和演绎偏好252。

评分模块134可在对记谱法133进行评分时，考虑(特定最终用户和/或其它最终用户)的用户简档170以及种类175。举例来说，假定一个最终用户的历史260指示对金属乐的强烈种类偏好251。与金属乐种类一致，最终用户还可具有对快节拍和正统节拍感觉的演绎偏好252。当为特定最终用户对多种记谱法133进行评分时，评分模块134可通常将较低得分给予那些具有可与不同种类(例如爵士乐或R&B)进行比较、具有较慢的拍子、摇摆节拍感觉等等音乐特性的记谱法。当然，在其它实施方案中，评分模块134可考虑若干不同最终用户的历史260来评定趋势、特性相似性等。

返回图1，转录模块136被配置来将选定的记谱法应用于音乐信息160，以产生一个或多个转录150。当选定记谱法133时，可根据记谱法的特性来处理整个音频信号。举例来说，可使用多种记谱法133来对对应于音频信号125的经取样部分的初始音乐信息160进行分类。

在一些实施方案中，从多个所产生的记谱法133选择记谱法可包括通过UI187向最终用户呈现记谱法133的一些或全部(例如，记谱法的最高得分子集)，例如，使用图形用户接口来显示与不同记谱法有关的信息。最终用户可接着手动选择所述记谱法中的一者。在其它实施方案中，可自动选择记谱法，而不从最终用户接收选择输入。举例来说，转录模块可选择具有最高得分的记谱法。

当选择记谱法133中的一者时，应用选定记谱法的音乐特性(例如，音高/频率和时序信息)来对对应于完整音频信号的音乐信息160进行分类。在一个实施例中，在选择记谱法之后，确定整个音频信号，其可节省处理时间和能量。这可为有用的，因为可能要求处理器110执行大量并行处理，来基于初始(有限的)音乐信息160来产生各种记谱法133。在另一实施方案中，在选择记谱法133之前或与之同时，确定整个音频信号的音乐信息160。

转录模块136可输出选定的记谱法，作为具有任何合适格式(例如音乐得分、和弦图、乐谱、吉他谱等等)的转录150。在一些实施方案中，可提供转录150，作为可由计算装置105和/或其它联网计算装置读取的数字信号(或文件)。举例来说，可产生转录150作为文件，并存储在存储器120中。在其它实施方案中，可使用显示装置192将转录150视觉上提供给最终用户，显示装置192可包括视觉显示装置(例如，电子视觉显示器和/或例如发光二极管(LED)的视觉指示器)、打印装置等等。

在一些实施方案中，可使用对应于音频信号125的转录150和/或音乐信息160来产生补充音乐信息和/或补充音频信号155。在一个实施例中，伴奏模块138基于完成的转录150来产生一个或多个补充音频信号155。在另一实施方案中，伴奏模块138基于音乐信息160产生补充音频信号155。在下文相对于图7到10更详细论述的一些实施方案中，可在接收音频信号125的同时输出补充音频信号155。因为音乐作品通常具有一些可预测性(例如，音调、节奏等的相对一致性)，所以可产生补充音频信号155(即，在输出音符之前某一量的时间产生音符)作为前瞻性的。

可基于与音乐信息160的音乐兼容性来选择包括在补充音频信号155内的音乐信息。通常，音乐可兼容性质(在时序、音高、音量等方面)对于补充音频信号与音频信号155的同时输出来说是合意的。举例来说，可使补充音频信号155的节奏与针对音频信号125所确定的节奏匹配，使得每一信号的音符或和弦与收听者的和谐或可预测时序同步或至少随之提供。类似地，补充音频信号155的音高内容可基于音符的音乐兼容性来选择，其在一些情况下基于文化偏好而为主观的。举例来说，补充音频信号155可包括形成辅音和/或不和谐和声的音符，其中音乐信息包括在接收到的音频信号中。通常，辅音和声包括与其它音符的和声频率互补的音符，且不和谐和声由导致复杂交互(例如打拍子)的音符组成。辅音和声通常被描述为由3、4、5、7、8、9和12个半音程的音符间隔组成。辅音和声有时被视为“令人愉悦的”，而不和谐和声被视为“令人不快的”。然而，此令人愉悦/令人不快分类是主要简化，因为存在不和谐和声在音乐方面合意(例如，为了唤起“想要转变为”辅音和谐的感觉)的时间。在大多数音乐形式中，且明确地说，在西方流行音乐中，绝大多数的和谐音符是辅音，而不和谐和声仅在不谐和音用于音乐目的的某些条件下产生。

使用计算装置105的某些模块确定的音乐信息160和/或转录150可与为最终用户提供不同功能性的各种应用模块交互。在一些实施方案中，应用程序模块可为独立商用程序(即，音乐程序)，其包括根据本文所描述的各种实施方案提供的功能性。应用模块的一个实例是合成模块140。类似于伴奏模块138，合成模块140被配置来基于音乐信息160和/或转录150产生补充音乐信息。然而，代替于产生用于输出的不同补充音频信号155，合成模块140操作来基于转录150向最终用户提供建议或推荐。所述建议可被设计来校正或调整转录150中所描绘的音符/和弦，为同一乐器添加和声声部，为不同乐器添加声部等等。这可对希望安排一段音乐但不会弹奏多种乐器或在音乐理论和合成方面不是特别知识渊博的音乐家来说尤其有用。合成模块140的最终结果是经修改的转录150，例如与音频信号125中提供的声部相比，具有较大的和声深度和/或包括额外的乐器声部的音乐得分。

另一实例应用模块是指令模块142，例如训练最终用户如何弹奏乐器或如何为音乐合成物评分。音频信号125可表示最终用户在乐器上弹奏规定课程或一段音乐的意图，且对应的音乐信息160和/或转录150可用来评定最终用户的学习进度，且自适应地更新训练程序。举例来说，指令模块142可执行若干功能，例如确定音频信号125与规定课程/音乐的相似性，使用音乐信息160来识别最终用户的特定能力和/或缺陷等等。

另一实例应用模块是游戏模块144。在一些实施方案中，游戏模块144可与指令模块142集成，来为最终用户提供更吸引人的学习环境。在其它实施方案中，游戏模块144可不具备特定指令模块功能性。游戏模块144可用来评定音频信号125与规定的乐谱或一首音乐的相似性，确定音频信号125与一首音乐的和声兼容性，执行音频信号本身的定量或定性分析，等等。

图3示出根据一个实施方案对包括在音频信号中的音乐内容执行自动转录的方法。方法300可结合本文所描述的各种实施方案使用，例如系统100的一部分以及使用包括在存储器120中的功能模块中的一个或多个。

方法300在框305处开始，其中计算装置接收音频信号。所述音频信号通常包括音乐内容，且可以任何合适形式提供，不管是数字还是模拟。任选地，在框315中，对音频信号的一部分进行取样。在一些实施方案中，同时接收多个音频信号。单独的音频信号可表示音乐合成物的不同声部，例如最终用户弹奏乐器和歌唱等。

在框325中，计算装置处理音频信号的至少所述部分来提取音乐信息。所提取的信息的一些实例包括音符起点、音频水平、多音音符检测等等。在一个实施例中，所提取的音乐信息仅对应于音频信号的所述部分。在另一实施方案中，所提取的音乐信息对应于整个音频信号。

在框335中，计算装置针对所提取的音乐信息产生多个音乐记谱法。所述记谱法提供所提取的音乐信息的替代演绎，每一记谱法通常包括多个音乐特性，例如拍号、调号、拍子、音符、和弦、节奏类型。记谱法可共享一组特性，且在一些实施方案中，某些共享特性的值可在记谱法之间不同，使得可为最终用户区分不同记谱法。

在框345中，计算装置为音乐记谱法中的每一者产生得分。所述得分通常基于记谱法与音频信号的匹配程度。还可基于音乐的指定种类和/或对应于计算装置的最终用户的一个或多个用户简档来执行评分。

在框355中，选择多种音乐记谱法中的一种。在一个实施例中，所述选择通过计算装置自动发生，例如选择对应于最大所计算得分的记谱法。在其它实施方案中，向最终用户呈现两种或多种音乐记谱法，来通过用户接口接收选择输入。在一个实施例中，向最终用户呈现多种音乐记谱法的子集，例如特定数目的具有对应最大所计算得分的记谱法。

在框365中，使用选定乐谱来转录音频信号的音乐内容。所述转录可呈任何合适格式，数字或模拟、视觉或计算机可读等。所述转录可作为音乐得分、和弦图、吉他谱或任何替代合适音乐表示而提供。

在框375中，将所述转录输出到输出装置。在一个实施例中，使用电子显示装置向最终用户视觉上显示所述转录。在另一实施方案中，可将所述转录打印(使用打印机装置)在纸或另一合适介质上，供最终用户使用。

图4A示出根据一个实施方案的为所提取的音乐信息产生多种音乐记谱法的方法。方法400通常对应于方法300的框335，且可结合本文所描述的各种实施方案使用。

在框405处，计算装置确定对应于所提取的音乐信息的音符值和长度。所述确定是基于所提取的音乐信息，其可包括所确定的音符起点、音频水平、多音音符检测等等。所述确定可包括使用基线记谱法规则的系统，根据音高和/或持续时间来对音符进行分类。举例来说，根据现今常用的五线谱记谱法，将音符音高分类为从A到G，并用临时记号来修改，且相对于其它音符且相对于拍子、拍号等来对音调长度进行分类。当然，在其它文化中，替代乐谱系统可盛行，且此类替代系统可因此指定基线分类规则。

在框410到430处，计算装置基于框405中所确定的音符信息来确定各种特性。在框410处，确定一个或多个调号。在框415处，确定一个或多个拍号。在框420处，确定一个或多个拍子。在框425处，确定一个或多个节奏风格或“感觉”。在框430处，确定对应于音符信息的小节数。依序或大体上同时确定框410到430。在一个实施例中，对应于一个框而选定的值可影响其它框的值。举例来说，拍号、拍子和音调长度全部是相关的，使得调整这些性质中的一个需要对至少一个其它性质进行调整，以便准确地反映音乐内容。在另一实例中，可基于拍号、拍子和音调长度中的一个或多个来确定小节数目。

在框435处，计算装置输出针对所提取的音乐信息的多种音乐记谱法。所述多种音乐记谱法可包括上文所确定的特性的各种组合。

接下来，图4B示出根据一个实施方案执行多种音乐记谱法中的一个的选择的方法。方法450通常对应于方法300的框355，且可结合本文所描述的各种实施方案使用。

在框455处，计算装置选择音乐记谱法的对应于最高所计算得分的子集。在一些实施方案中，所述子集限于预定数目的记谱法(例如，两个、三个、四个等)，其可基于为所显示的记谱法对于最终用户的可读性。在另一实施方案中，所述子集限于超过特定阈值的所有记谱法。

在框465处，向最终用户呈现音乐记谱法的所述子集。在一个实施例中，这可使用电子显示器来执行(例如，在显示器上为所述子集中的每一者显示信息)。在另一实施方案中，经由视觉指示器来提供音乐记谱法，例如被照明来指示不同音乐特性的LED。在框475处，计算装置接收最终用户对音乐记谱法中的一个的选择。在若干实施方案中，可通过用户接口，例如图形用户接口，来提供选择输入。

作为通过框455到475的方法分支的替代方案，在框485中，计算装置可自动选择对应于最高所计算得分的乐谱。

图5A和5B各自示出根据一个实施方案对应于同一音乐信息的替代音乐记谱法。图5A示出第一组音符520_1-8。为了所述实例的简单性，假定音符520中的每一者大体上对应于同一频率/音高(此处，“B平”或“Bb”)，且具有大体上相同的长度。

记谱法500包括五线谱501、谱号502、调号503、拍号504和拍子505，其中的每一者是所属领域的技术人员已知的。旋律510包括音符520_1-8，其基于拍号504，且拍子505显示为八分之一音符515₁、515₂等。

记谱法525包括相同的调号503和拍号504。然而，拍子530不同于拍子505，指示每分钟应弹奏160个四分之一音符(160拍每分钟(bpm)，其中一个四分之一音符接收一拍)。另一方面，拍子505指示80bpm。因此，在记谱法525中，音符520以不同长度显示–四分之一音符540₁、540₂等等。在记谱法525中，音符520还分成两个小节或旋律535₁(对于音符520_1-4)和535₂(对于音符520_5-8)，因为在4/4歌曲中，每旋律可仅包括四个四分之一音符。由于拍子530已从拍子505的80bpm增加到160bpm，这意味着四分之一音符的长度已切成一半，使得记谱法525中所描绘的八个四分之一音符将同一时间长度表示为记谱法500中所描绘的八个八分之一音符。

记谱法500和525本质上显示相同的所提取音乐信息(音符520_1-8)；然而所述记谱法在拍子和音调长度方面不同。在替代实施方案中，记谱法可包括对应于某些bpm值的定性拍子指示符(例如，柔板、快板、急板)。当然，可通过调整拍号(例如，每旋律两拍，或半音符接收一拍)和音调长度来提供若干替代记谱法。且虽然此处未描绘，但音符的音高性质可不同地描绘(例如，D#或Eb)，或不同音调基于同一调号(例如，降B大调或G小调)。

图5B示出对应于第二组音符560_1-12的替代音乐演绎的记谱法550、575。为了突出音乐演绎的时序方面，以与图5A的记谱法(例如，未描绘音符音高/频率信息)相比，以不同风格的转录来呈现记谱法550、575。

记谱法550包括拍号(即，4/4拍552)、感觉(即，三连音感觉554)和拍子(即，60bpm556)。基于这些特性，记谱法550将音符560_1-12分组为单个旋律或小节558内且相对于时轴的三连音565_1-4。每一三连音565还包括一个三连音八分音符，其对应于小节558内的大调拍(即，560₁、560₄、560₇、560₁₀)。

接下来，记谱法575包括拍号(即，3/4拍576)、感觉(即，正统感觉578)和拍子(即，90bpm580)。基于这些特性，记谱法575将音符560_1-12分组成两个旋律或小节582₁、582₂上的八分音符对590_1-6。每一八分音符对590还包括对应于小节582内的大调节拍(即，560₁、560₃、560₅、…、560₁₁)的一个八分音符。

如在图5A中，记谱法550和575提供本质上相同音乐信息(即，音符560_1-12)的替代演绎。仅使用音符起点时序信息，可能难以识别音符560_1-12的单个“正确”演绎。然而，音符的演绎中的差异导致小节数目以及那些小节内的大调节拍的时序的差异。所属领域的技术人员将了解，替代记谱法中的此类差异可能对包括在音频信号中的音乐内容的转录，以及对合适的实时音乐伴奏的产生具有可感知的影响，这在下文更详细地描述。举例来说，弹奏根据记谱法550演绎的一首音乐(例如，再现包括在音频信号中的音乐内容，或弹奏基于音乐内容而产生的伴奏)的音乐家将以风格上完全不同于根据记谱法575演绎的一首音乐的方式来弹奏。

虽然本文提供的实例相对较简单，但所属领域的技术人员还将认识到，多种记谱法可根据若干不同音乐特性而变化，例如不同拍子和摇摆指示符的组合，以及基于音高的特性。并且，虽然所示的记谱法在客观上且准确地描绘音符，但最终用户将明确地偏好(或至少将选择)所述记谱法中的一者来转录音频信号的音乐内容。因此，产生这些多种竞争替代记谱法以便适应无形或主观因素(例如有意或无意的最终用户偏好)可为有益的。

图6示出根据一个实施方案的乐谱的选择以及使用选定乐谱来进行转录。显示布置600可表示电子显示装置在第一时间的显示屏605，以及在第二时间的显示屏625。显示屏605、625包括UI(例如UI187)的元件。

显示屏605包括对应于上文在图5B所述的音符560_1-12的若干记谱法550、575和610，每一记谱法在显示屏605的单独部分中显示。所述记谱法可以转录格式(例如，如图5B中出现的记谱法550和575)在显示屏上显示，和/或可包括所列出的关于记谱法的音乐特性(例如，降B大调的音调、4/4正统节拍、160bpm等等)的信息。

所述记谱法可在预定位置中和/或有序地显示。在一个实施例中，所述记谱法是根据所计算的得分来排序的(即，记谱法550具有最大得分，且对应于位置606₁)，其中递减的得分对应于位置606₂和606₃。

显示屏605还包括区域615(“其它”)，最终用户可选择所述区域615来为音频信号指定另一记谱法。最终用户输入可为选择完全不同的所产生记谱法(例如未经排名且当前在显示屏605上显示的一种记谱法)，和/或可包括最终用户指定的对所产生的记谱法的一个或多个离散改变。

在选择记谱法后，计算装置即刻使用关于选定记谱法的信息来产生完整音频信号的转录。如图所示，用户的手620在显示屏605上选择记谱法550。显示屏625根据记谱法550示出音频信号的转录640。在一个实施例中，为最终用户选择显示的音符560_1-12已经根据选定记谱法来转录630₁，且在记谱法的选择之后，计算装置对转录640的对应于音符560_13-n(未图示，但包括在旋律630₂-630_k中)的部分635进行转录。虽然针对转录640示出乐谱格式，但替代转录是可能的。另外，转录640可包括关于音频信号的动态内容(例如，音量变化、重音等)的信息。

实时音乐伴奏的产生

若干实施方案是针对为包括在计算装置接收到的音频信号中的音乐内容执行实时伴奏。希望创建适合随乐器信号(例如，由音乐家弹奏)输出的音乐伴奏信号的音乐家可使用乐器信号来训练自动伴奏系统。然而，在伴奏信号适合重放之前，音乐家通常必须等待处理的完成，如果该过程不是完全异步的话，这导致乐器演奏的中断。

自动伴奏装置可通过在学习阶段内接收音频信号或衍生信号(例如MIDI信号)来操作。为了确定伴奏信号的最适当音乐性质(基于音调、和弦结构、小节数、拍号、拍子、感觉等)，在音乐家指示学习阶段完成之后(例如，在歌曲声部结束时)，必须发生相当复杂的后处理分析。此后处理需要大量的时间，即使在非常快速的现代信号处理装置上也是如此。

图7示出根据一个实施方案用于对包括在接收到的音频信号中的音乐内容执行实时音乐伴奏的系统的一个实例。在一些实施方案中，系统700可包括在上文所述的系统100内，例如使用提取模块130和伴奏模块138。

系统700被配置来接收含有音乐内容的音频信号125作为一个输入。在一些实施方案中，可通过操作乐器(例如吉他)来产生音频信号125。在其它实施方案中，音频信号125可呈衍生音频信号的形式，例如来自基于MIDI的键盘的输出。

系统700进一步被配置来接收一个或多个控制输入735、745。控制输入735、745通常致使系统700在不同模式下操作。如图所示，控制输入735对应于系统700的“学习”模式，且控制输入745对应于“伴奏”模式。在一个实施例中，系统700在操作期间通常在可用模式中的选定一者下操作。通常，在伴奏模式下产生合适的补充音频信号之前，执行学习操作模式来分析音频信号。在一个实施例中，最终用户可使用与系统的UI相关联的无源装置(例如，一个或多个电开关)或有源装置(例如，通过电子显示装置的图形用户接口)来控制所述控制输入735，且因此控制系统700的操作。

在操作期间，音频信号125由提取模块130的特征提取模块705接收，提取模块130通常被配置来执行音频信号的实时音乐特征提取。还可使用下文所论述的初步分析模块715来执行实时分析。在执行更广泛的音乐信息分析的过程中，可使用许多音乐特征，例如音符起点、音频水平、多音音符检测等。在一个实施例中，特征提取模块705可针对接收到的音频信号大体上连续地执行实时提取。在一个实施例中，可执行实时提取，而不考虑控制输入的状态。系统700可甚至在无最终用户的明确指令(如由控制输入证明)的情况下，使用特征提取模块705来从音频信号125提取有用信息。以此方式，可捕获在最终用户所指示的开始时间(即，在学习模式开始时)之前发生的任何事件。在一个实施例中，在系统700在学习模式下的操作之前，特征提取模块705对接收到的音频信号进行操作。

在操作期间，最终用户可操作UI来指令系统700转变到学习模式。举例来说，为了转变到学习模式，最终用户可操作开关，例如脚踏开关的吉他踏板，或使用GUI来做出选择。在一些实施方案中，系统700可被配置来“自动装备”，使得特征提取模块705在检测到接收到的音频信号的第一音符起点后即刻自动进入学习模式。

在进入学习模式后，系统可即刻操作初步分析模块715，其被配置来实时执行音频信号125的有限分析。有限分析的实例包括确定音频信号的音乐内容的音调。当然，可执行额外或替代分析，通常相对于音高和/或时序信息，但所述分析可仅确定有限的一组特性，使得所述分析大体上实时完成(换句话说，无可感知的延迟，且能够在接收到音频信号的若干部分时处理所述部分)。在一个实施例中，初步分析模块715还确定对应于音频信号125的既定第一音乐和弦。

在演奏某一量的音乐曲目之后，最终用户可指示学习阶段的完成和伴奏阶段的开始。音频信号125中所含有的所演奏量可反映最终用户所要的歌曲的任何量，但在一些情况下，其对于最终用户来说可能感觉起来较自然，以在歌曲的特定章节(或其它分部)结束时，例如在重复所述章节之前或在开始另一章节之前，提供转变指示。在一个实施例中，最终用户操作脚踏开关来向系统提供适当的控制输入745，以指示伴奏应开始。

在一个实施例中，当最终用户提供转变到伴奏模式的指示时，伴奏模块138大体上立即输出一个或多个补充音频信号155。“大体上立即”通常是基于最终用户对音频信号和补充音频信号155的相对时序的感知来界定。在一个实施例中，“大体上立即”包括在音频信号内的下一拍之前或同时，输出补充音频信号。在一个实施例中，“大体上立即”包括在最终用户无法在听觉上感知的时间量内，例如在40ms或更少的时间内，输出补充音频信号。通过“大体上立即”开始伴奏信号的输出，系统700给予最终用户脚踏开关或其它UI元件的操作已触发立即伴奏的印象。此印象对于最终用户来说可能尤其重要，最终用户将偏好连续的、不受中断的音乐演奏，而不是因处理完成而停止，且在已产生伴奏信号时重新开始而导致的中断。

在一些实施方案中，“大体上立即”输出的补充音频信号的初始部分对应于初步分析模块715所执行的音频信号的受限初步分析。因此，与在对接收到的音频信号完成全部分析之后产生的稍后部分相比，以较少的音乐复杂性来产生补充音频信号155的那些初始部分。在一个实施例中，针对补充音频信号155的初始部分产生并输出单个音符或和弦，且可或可不保持所述音符或和弦，直到完成音频信号的全部分析为止。在一个实施例中，补充音频信号的初始部分是基于所述音频信号的所确定的音调和所确定的第一和弦。

可产生对应于一个或多个不同乐器声部的补充音频信号155。在一个实施例中，伴奏模块138为用于产生音频信号125的相同乐器输出补充音频信号。举例来说，对于来自吉他的输入信号，输出的补充音频信号可对应于吉他声部。在另一实施方案中，伴奏模块138为一个或多个不同乐器输出补充音频信号155。举例来说，输入吉他信号可对应于针对低音吉他和/或架子鼓而产生的补充音频信号。以此方式，系统700可用来有效地将单个音乐家变为具有若干乐器声部的“单人乐队”。另外，实时伴奏方面使系统700适合在现场音乐演奏或录音中使用。特征提取和实时伴奏的自适应性质还使系统700适合包括即兴创作在内的音乐演奏，即兴创作在某些风格或种类的所演奏音乐(例如爵士、蓝调等)内是常见的。

在触发补充音频信号155的输出后，最终用户的转变到伴奏模式的指示还可用信号通知系统700开始音频信号725的更完整分析(即，使用全部分析模块725)，以便产生补充音频信号的在音乐方面更复杂且在补充音频信号的初始部分之后的后续部分。举例来说，可分析学习模式内所提取的特征，以确定产生合适的补充音频信号所需的若干参数。所确定的参数的实例包括：歌曲章节或声部的长度、小节或旋律的数目、和弦进程、每旋律的拍数、拍子，以及节奏或感觉的类型(例如，正统还是摇摆节拍)。

在一些实施方案中，在现代处理器上使用高效编程技术(例如动态编程)使得有可能在音频信号内的下一大调节拍出现之前完成所提取的特征的分析。以此方式，后续部分有可能随音频信号的下一大调节拍开始，从而给予最终用户学习模式与伴奏模式之间的连续音乐流的印象。即使在处理需要额外时间来完成的情况下，如果至少补充音频信号的初始部分与音频信号的第一拍同步开始，那么只要后续部分在相当短的时间量内开始，最终用户可仍认为这对于音乐演奏来说是可接受地连续的。在一个实施例中，初始部分之后的第一后续部分对应于音频信号的音乐内容的分部而开始，例如与下一拍、下一旋律或章节的开始等同步。

图8是示出根据一个实施方案用于执行实时音乐伴奏的系统的时序的一个实例的图表。图表800通常对应于系统700的操作及其提供的描述。

图表800在第一绘图上示出音频信号805。音频信号可对应于吉他声部或另一乐器声部。音频信号805包括四个重复的章节810₁、810₂、810₃、810₄(即，各自含有相似的音乐信息，音频信号中归因于人类演奏、噪声等可能具有很小的变化性)。章节810中的每一者在相应的时间t₀、t₁、t₂、t₃开始，所述时间在第二绘图(即，时间)上描绘。

另一所包括的绘图，标记为分析，提供跨系统700的各种模式执行的信号处理的概观。第一周期815包括连续提取模式，其中从接收到的音频信号提取特定的一组音乐特征。在一个实施例中，此模式在接收到音频信号805之前(即，t₀之前)开始。将提取的所述组音乐特征可因稍后演奏的音频信号的完整分析而受限。在周期815期间提取的实例特征包括音符起点、音频水平、多音音符检测等等。在周期815内，系统700可或多或少连续地更新所提取的特征，或可以一个或多个离散时间间隔(即，时间A、B、C)更新特征。

在时间D，其对应于时间t₁，最终用户操作UI的元件来指令系统700进入学习模式。在一个实施例中，这包括最终用户操作电开关(例如，踩在脚踏开关上)。在另一实施方案中，这包括使用所显示的GUI来选择模式。最终用户可在任何时间相对于音频信号的音乐来操作UI，但在一些情况下，可选择自然转变点处(例如连续章节810之间)的转变模式。

响应于最终用户输入，系统进入学习模式，且在周期820A的第一子周期825期间，开始接收到的音频信号的初步分析。所述初步分析可使用在周期815期间提取的特征来执行，且可包括确定音频信号805的音乐内容的额外的一组特征。从初步分析确定的特征的一些实例包括音频信号805的音乐内容的音调、音频信号的第一和弦、音频信号内的大调节拍的时序等等。在一个实施例中，与在周期815期间确定的所述组特征相比，在初步分析(即，子周期825)期间确定的所述组特征可需要较多的处理。进行所述特定组特征的确定可在进入伴奏模式(即，时间E处)之前完成。在一个实施例中，初步分析的完成触发进入伴奏模式(即，时间F)。在另一实施方案中，系统保留在学习模式下，等待来自最终用户的输入以转变到伴奏模式，且可对音频信号805执行额外处理。所述额外处理可包括(连续地或周期性地)更新初步分析所确定的所述组特征，和/或可包括对音频信号执行下一阶段(例如，对应于下文所论述的“完整分析”的一些或全部)的特征确定。

一种适合在音频信号的初步分析中使用的实例方法包括：

首先，系统确定最终用户开始学习模式的时间之后的最近音符起点。接下来，在预定间隔(例如，“早期”学习阶段)期间，系统分析检测到的音符，且明确地说尝试将检测到的音符分组成具有相似根音的和弦。

接下来，系统应用组合具有相同根音的杂乱和弦片段的第二分组算法，甚至在所述和弦片段可能因其它片段而分开的情况下也是如此。在一个实施例中，所述其它片段可包括相对较短持续时间的一个或多个不稳定片段。

接下来，系统确定在所述预定间隔期间，是否找到合适稳定的和弦根音。如果找到了稳定的和弦根音，那么可保存所述音符作为补充音频信号的可能的开始音符。

如果和弦根音不够稳定，那么系统可继续监视来自音频信号的传入音符，并使用任何已知技术来估计音乐内容的音调。所述系统可使用此估计音调的根音音符，作为补充音频信号的开始音符。实例方法在此步骤之后结束。

在时间F，系统700进入伴奏模式，在此期间，产生一个或多个补充音频信号840、850，和/或输出到相关联的音频输出装置，例如扬声器或耳机。可通过最终用户操作UI的元件(这通常向系统700指示学习模式的结束)来触发模式的转变。学习模式的结束的明确信令允许系统对音频信号805中捕获的音乐演奏的既定长度作出初始估计。当与其不确定音频信号是否将包括将分析的显著较多和/或显著不同的音乐内容的分析中的较早时间相比时，所述系统可因此通常使较大的置信度与学习模式期间确定的音乐特征(或至少转变时间(时间F)时音乐特征的状态)相关联。

在进入伴奏模式后(或替代地，在终止学习模式后)，系统700即刻对音频信号805的音乐内容执行完整分析。所述完整分析可包括进一步确定音乐特征，使得所确定的特征的量针对序列中的每一步骤或模式而增加(例如，连续提取模式到学习模式到伴奏模式)。在完整分析中，系统可确定产生合适的补充音频信号所必需的若干音乐参数。所确定的参数的实例包括：歌曲章节或声部的长度、小节或旋律的数目、和弦进程、每旋律的拍数、拍子，以及节奏或感觉的类型(例如，正统或摇摆节拍)。在一个实施例中，完整分析仅在从学习模式转变为伴奏模式之后开始。在另一实施方案中，在完成初步分析的特征确定之后，针对完整分析的特征确定的一些或全部在学习模式下开始。

为了向最终用户提供UI元件的操作触发适合音乐演奏而无中断的直接伴奏，所述系统可在时间F接收到转变为伴奏模式的输入后，即刻在时间G大体上立即(上文更全面地定义)开始输出补充音频信号。在一个实施例中，时间F与G之间的间隔对于最终用户来说是听觉上无法感知的，例如40ms或以下的间隔。

然而，在一些情况下，完成对音频信号805的完整分析所需的时间可延长超过时间G。此时间示出为子周期820B。在一些实施方案中，为了向最终用户提供“直接伴奏”印象，尽管完整分析正部分地完成，系统700基于完成的分析(例如，初步分析或完整分析的完成部分)产生补充音频信号的初始部分。所述初始部分由补充音频信号840的子周期842表示。在一个实施例中，初始部分可包括单个音符或和弦，其在一些情况下可持续子周期842的长度。

在时间H完整分析完成后，系统可产生补充音频信号的后续部分，其基于所述完整分析。分别针对补充音频信号840和850的时间子周期844和854来描绘一个后续部分。通常，后续部分在音乐方面比初始部分复杂，因为完整音乐分析可用于产生补充音频信号。为了向最终用户提供无缝印象，在一个实施方案中，系统700可延迟补充音频信号的后续部分的输出，以与音频信号的下一所确定分部(例如，下一节拍、大调节拍、旋律、乐句、声部等)对应。此所确定的延迟由时间H与I之间的时间间隔表示。

在一个实施例中，产生多个补充音频信号840、850，其中的每一者可对应于不同的乐器声部(例如低音吉他或架子鼓)。在一个实施例中，所产生的所有补充音频信号包括相同时间长度的初始部分(例如，比后续部分简单)。然而，在其它实施方案中，所述补充音频信号中的一个或多个可具有不同长度的初始部分，或一些补充音频信号完全不包括初始部分。如果音频信号805的某些类型的分析在复杂性方面不同，或者或多或少是处理器集中的，或如果产生补充音频信号中的某些声部是或多或少处理器集中的，那么系统700可对应优先考虑音频信号的分析和/或补充音频信号的产生。举例来说，产生低音吉他声部要求确定正确的频率信息(音符音高)以及时序信息(与音频信号的节奏匹配)，而鼓声部可仅需要时序信息。因此，在一个实施方案中，系统700可在输入音频信号的分析内优先考虑确定节拍或节奏，使得即使确定低音吉他声部所需的处理要求产生初始、较简单部分(例如，补充音频信号840)，鼓声部也可开始完整演奏，且无序包括初始的较简单部分(例如，补充音频信号850)。不同乐器的声部的此类经排序或分层引入还可增强最终用户的现实或无缝印象。当然，在另一实施方案中，系统700可优先考虑需要额外分析的那些声部，使得所有的音乐声部均在较早时间完成，而无错列的引入。在一个实施例中，分层或相同时间引入可为最终用户可选的，例如通过UI。

图9示出根据一个实施方案的用于执行实时音乐伴奏的系统的实施方式的一个实例。所述实施方式描绘具有外壳905的吉他脚踏板900，外壳905中围封有电路。所述电路可通常对应于计算装置105的针对系统100和700而描绘和描述的部分(例如，包括具有各种功能模块的处理器110、存储器120)。为了简单，可能未明确描绘或描述脚踏板的部分，但所属领域的技术人员将理解。

脚踏板900支持一个或多个输入以及向系统的一个或多个输出。如图所示，外壳905可包括开口来支持穿过音频输入端口955；控制输入端口960；一个或多个音频输出端口970₁、970₂；以及数据输入/输出端口975的有线连接。在另一实施方案中，所述端口中的一个或多个可包括与计算装置、乐器、音频输出装置等的无线连接。音频输出端口970₁、970₂可各自提供单独的输出音频信号，例如所产生的对应于不同仪器声部或也许反映在相同音频信号上执行的不同处理的补充音频信号。在一个实施例中，数据输入/输出端口975可用来提供音频输入端口955处接收到的信号的自动转录。

外壳905支持一个或多个UI元件，例如多个旋钮910、脚踏开关920，以及视觉指示器930，例如LED。旋钮910可各自控制音乐分析和/或伴奏的单独功能。在一个实施例中，种类选择旋钮910A允许用户选择伴奏的类型来与特定音乐类型匹配，风格选择旋钮910B指示哪些风格与自动转录最佳匹配(例如，使用颜色或亮度来指示特定风格的匹配程度有多大)，且拍子调整旋钮910C用来致使正产生的伴奏加快或减慢，例如以促进练习。低音(音量)水平旋钮910D和鼓水平旋钮910E控制每一乐器在输出混合中的水平。当然，可提供替代功能。旋钮910可包括选择标记915(例如，选择标记915A)，其定向指示连续(低音水平旋钮910D或鼓水平旋钮910E)或离散选定位置(种类旋钮910A)。旋钮910还可对应于视觉指示器(例如，示出指示器917_9-11)，其可基于旋钮的位置或旋转等而点亮。颜色和/或亮度水平可为变量，且可用来指示信息，例如风格与所学演奏的匹配程度有多大。

可操作脚踏开关920来选择模式，例如学习模式和伴奏模式。在一种配置中，使脚踏板900通电，且默认进入连续提取模式。最终用户可接着第一次按压脚踏开关920，来致使系统进入学习模式(其可通过点亮视觉指示符930A来指示)，且第二次按压脚踏开关920，来致使系统终止学习模式，和/或进入伴奏模式(对应于视觉指示符930B)。当然，其它配置是可能的，例如模式之间基于时间的转变。

外壳905还支持UI元件选择和/或指示其它功能性，例如按钮942，其在一些情况下可被点亮。按钮942可用来选择和/或指示将处理器110用于输入信号(“吉他FX”940)的所要的音频处理效果的应用。在一个实施例中，按压吉他FX940按钮一次将点亮按钮为绿色，且产生对弹奏吉他来说最适当的效果，且再次按压所述按钮将使所述按钮变为红色，并产生对主音吉他弹奏来说最适当的效果。还可提供相似的按钮或元件来选择和/或指示一个或多个音乐声部945(其可存储在存储器120中)，以及交替节拍950。在一个实施例中，可点亮替代节拍按钮950，使得其可在如由自动转录以及拍子旋钮910C的设定所确定的当前拍子设定下闪烁绿色。当被按压时，指示器可在作为仍提供与自动转录的良好匹配的替代拍子的拍子(例如是原始拍子的两倍或一半的拍子)下闪烁红色。

图10示出根据一个实施方案对包括在接收到的音频信号中的音乐内容执行实时音乐伴奏的方法。方法1000可通常结合系统100、700使用，并与上文所述的图7到9的描述一致。

方法1000在框1005处开始，其中系统接收音频信号。所述音频信号包括音乐内容，其可包括声音信号、乐器信号和/或从声音或乐器信号得出的信号。所述音频信号可为记录的(即，从存储器接收到的)，或通过音乐演奏现场产生。所述音频信号可以任何合适格式表示，不管是模拟还是数字。

在框1015处，任选地对音频信号的一部分进行取样。在框1025处，所述系统处理音频信号的至少经取样部分，以从对应的音乐内容提取音乐信息。在一个实施例中，所述系统处理整个接收到的音频信号。在一个实施例中，音乐信息的所述处理和提取在多个级或阶段期间发生，其中的每一者可对应于不同模式的系统操作。在一个实施例中，对于处理的每一后续步骤，音乐特征集合在数目和/或复杂性方面增加。

在框1035处，所述系统任选地维持所提取的音乐信息达最近的时间周期，其具有预定长度。通常，这可对应于以预定间隔更新音乐信息。在一个实施例中，更新音乐信息可包括丢弃前一组所提取的音乐信息。

在框1045处，所述系统确定在音乐方面与所提取的音乐信息兼容的补充音乐信息。这可由伴奏模块执行。在框1055处，所述系统产生对应于补充音乐信息的一个或多个补充音频信号。在一个实施例中，所述补充音频信号对应于不同的乐器，其可与用来产生接收到的音频信号的乐器不同。

在框1065处，在接收音频信号的同时，输出补充音频信号。通常，使用与所述系统耦合的音频输出装置来输出补充音频信号。最终用户可通过所述系统的UI元件来控制输出补充音频信号的开始时间。可确定补充音频信号的时序，以为最终用户提供无缝、无中断音乐演奏的印象，最终用户在一些情况下可能正在弹奏对应于接收到的音频信号的乐器。在一个实施例中，基于接收到的音频信号的处理的正在进行的完成，补充音频信号包括具有较小音乐复杂性的初始部分，以及具有较大音乐复杂性的后续部分。在一个实施例中，补充音频信号的输出在对于最终用户来说听觉上无法感知的较短时间周期内发生，例如在所指示的开始时间的40ms内。在一个实施例中，所述系统可延迟补充音频信号的部分的输出，来与音频信号的所确定分部对应，例如与下一大调节拍、拍子、乐句、声部等等对应。方法1000在框1065之后结束。

已出于说明的目的呈现了本公开的各种实施方案的描述，但其无意为详尽的或限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下，所属领域的技术人员将明白许多修改和变化。本文所使用的术语经选择来最好地阐释实施方案的原理、对市场上找到的技术的实际应用或技术改进，或使所属领域的技术人员能够理解本文所公开的实施方案。

在前述内容中，参考本公开中所呈现的实施方案。然而，本公开的范围不限于特定所描述实施方案。代替的是，包括先前的特征和元件的任何组合，不管是否与不同实施方案有关，以便实施和实践所包括的实施方案。此外，尽管本文所公开的实施方案可实现优于其它可能解决方案或优于现有技术的优点，但不管特定优点是否是由给定实施方案实现，均不限制本公开的范围。因此，先前的方面、特征、实施方案和优点仅仅是例示性的，且除非权利要求中明确陈述，否则不被视为所附权利要求书的要素或限制。同样地，对“本发明”的提及不应被解释为本文所公开的任何发明性标的物的概括，且不应被视为所附权利要求书的要素或限制，除非权利要求中明确陈述。

本公开的方面可采取全硬件实施方案、全软件实施方案(包括固件、常驻软件、微码等)，或组合软件和硬件方面的实施方案的形式，其在本文可全部一般地称为“电路”、“模块”或“系统”。

本公开可实施为系统、方法和/或计算机程序产品中的任一者。计算机程序产品可包括计算机可读存储媒体(或介质)，其上具有计算机可读程序指令，所述指令用于致使处理器进行本公开的方面。

计算机可读存储媒体可为可保持和存储供指令执行装置使用的指令的有形装置。计算机可读存储媒体可例如为但不限于电子存储装置、磁性存储装置、光学存储装置、电磁存储装置、半导体存储装置，或前述各项的任何合适组合。计算机可读存储媒体的更具体实例的非详尽列表包括以下：便携式计算机软盘；硬盘；随机存取存储器(RAM)；只读存储器(ROM)；可擦除可编程只读存储器(EPROM或快闪存储器)；静态随机存取存储器(SRAM)；便携式压缩光盘只读存储器(CD-ROM)；数字多功能磁盘(DVD)；存储器棒；软磁盘；机械编码的装置，例如穿孔卡片，或上面记录有指令的凹槽中的凸起结构；以及前述各项的任何合适组合。如本文所使用，并不将计算机可读存储媒体解释为暂时性信号本身，例如无线电波或其它自由传播的电磁波、传播穿过波导管或其它传输介质的电磁波(例如，穿过光纤缆线的光脉冲)，或穿过电线传输的电信号。

可将本文所描述的计算机可读程序指令从计算机可读存储媒体下载到相应的计算/处理装置，或经由例如因特网、局域网、广域网和/或无线网络等网络下载到外部计算机或外部存储装置。所述网络可包括铜传输缆线、光学传输光纤、无线传输、路由器、防火墙、交换器、网关计算机和/或边缘服务器。每一计算/处理装置中的网络适配卡或网络接口接收来自网络的计算机可读程序指令，并转发所述计算机可读程序指令，以供存储在相应计算/处理装置内的计算机可读存储媒介中。

用于进行本公开的操作的计算机可读程序指令可为汇编程序指令、指令集架构(ISA)指令、机器指令、机器相关指令、微码、固件指令、状态设置数据，或以一种或多种编程语言的任何组合编写的任何源代码或对象代码，所述编程语言包括以对象为导向的编程语言，例如Smalltalk、C++等；以及常规程序编程语言，例如“C”编程语言或类似的编程语言。计算机可读程序指令可完全在用户的计算机上、部分地在用户的计算机上、作为独立软件封装、部分地在用户的计算机上和部分地在远程计算机上或完全在远程计算机或服务器上执行。在后者场景中，远程计算机可通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或可进行到外部计算机的连接(例如，使用因特网服务提供商通过因特网)。在一些实施方案中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以个人化电子电路，以便执行本公开的方面。

本文根据本公开的实施方案，参考方法、设备(系统)以及计算机程序产品的流程图说明和/或框图来描述本公开的方面。将理解，流程图说明和/或框图中的每个框，以及流程图说明和/或框图中的框的组合可由计算机可读程序指令实施。

可将这些计算机可读程序指令提供给生产机器的通用计算机、专用计算机或其它可编程数据处理设备的处理器，使得可实施经由所述计算机的处理器或其它可编程数据处理设备执行的指令来执行或实施流程图和/或框图的框中所指定的功能/动作。这些计算机可读程序指令也可存储在计算机可读存储媒体中，其可指导计算机、可编程数据处理设备和/或其它装置以特定方式起作用，使得里面存储有指令的计算机可读存储媒体包括制品，所述制品包括实施流程图和/或框图的框中所指定的功能/动作的方面的指令。

计算机可读程序指令也可加载到计算机、其它可编程数据处理设备或其它装置上，以致使一系列操作步骤在计算机、其它可编程设备或其它装置上执行，以产生计算机实施的过程，使得在计算机、其它可编程设备或其它装置上执行的指令实施流程图和/或框图的框中所指定的功能/动作。

图中的流程图和框图示出了根据本公开各种实施方案的系统、方法和计算机程序产品的可能实施方式的架构、功能性和操作。在这点上，流程图或框图中的每一框可表示指令的模块、片段或部分，其包括用于实施指定逻辑功能的一个或多个可执行指令。在一些替代实施方式中，框中所述的功能可以与图中所述的次序不同的次序发生。举例来说，连续示出的两个框事实上可大体上同时执行，或所述框可有时以反向次序执行，取决于所涉及的功能性。还将注意，框图和/或流程图说明的每一框，以及框图和/或流程图说明中的框的组合，可由执行指定功能或动作或进行专用硬件和计算机指令的组合的基于专用硬件的系统来实施。

可通过云计算基础设施来向最终用户提供本公开的实施方案。云计算通常是指经由网络提供可缩放计算资源作为服务。更正式地说，可将云计算定义为提供计算资源与其下面的技术架构(例如，服务器、存储库、网络)之间的抽象的计算能力，从而实现对可用最小的管理精力或服务提供商交互来快速提供或释放的共享可配置计算资源库的方便的按需网络存取。因此，云计算允许用户在“云”中存取虚拟计算资源(例如，存储库、数据、应用程序，以及甚至完全虚拟化的计算系统)，而不管下面的用于提供所述计算资源的物理系统(或那些系统的位置)如何。

通常，在计次收费基础上向用户提供云计算资源，其中用户仅为实际使用的计算资源(例如，用户所消耗的存储空间的量，或用户所例示的虚拟化系统的数目)付费。用户可在任何时间，从因特网上的任何地方存取驻存在云中的资源中的任一者。在本公开的上下文中，用户可存取云中可用的应用程序(例如，其包括存储器120中所示的功能模块中的一个或多个)或相关数据(例如，来自用户简档170的信息)。举例来说，评分模块134在云中的计算系统上执行，且其评分算法可基于从不同用户简档、种类等收集的数据而自适应地更新。在此情况下，评分模块134可将评分算法的迭代存储在云中的存储位置处，其可由最终用户的各种计算装置存取，以提供系统100的最先进或改进的性能。这样做允许用户从附接到连接到云(例如，通过因特网)的网络的任何计算系统存取此信息。

虽然上文描述了实例实施方案，但不希望这些实施方案描述本发明的所有可能形式。相反，说明书中所使用的词语是描述词而不是限制词，且应理解，在不脱离本发明的精神和范围的情况下，可进行各种改变。另外，可组合各种实施中实施方案的特征以形成本发明的进一步实施方案。

Claims

1.一种对包括在由计算装置所接收到的音频信号中的音乐内容执行自动转录的方法，所述方法包括：

使用所述计算装置来处理所述接收到的音频信号，以提取表征所述音乐内容的至少一部分的音乐信息；

使用所述计算装置来产生表示所述所提取的音乐信息的替代音乐演绎的多种音乐记谱法；以及

应用所述多种音乐记谱法中的选定一种来转录所述接收到的音频信号的所述音乐内容。

2.如权利要求1所述的方法，其还包括：

向所述计算装置的最终用户呈现所述多种音乐记谱法，

其中选择所述多种音乐记谱法中的一种是通过所述最终用户使用与所述计算装置耦合的输入装置来执行。

3.如权利要求2所述的方法，其还包括：

向所述计算装置的最终用户呈现来自所述多种音乐记谱法的替代音乐记谱法；以及

经由输入装置加上所述计算装置来选择所述替代音乐记谱法。

4.如权利要求3所述的方法，其中所述替代音乐记谱法对应于半节拍记谱法和双节拍记谱法中的一者。

5.如权利要求3所述的方法，其中所述替代音乐记谱法对应于4/4记谱法和3/4记谱法中的一者。

6.如权利要求3所述的方法，其中所述替代音乐记谱法对应于正统节拍和摇摆节拍中的一者。

7.如权利要求1所述的方法，其还包括为所述多种音乐记谱法中的每一种产生得分。

8.如权利要求7所述的方法，其中为所述多种记谱法中的每一种产生所述得分是至少部分地基于使在所述音频信号中检测到的起点位置与特定音乐记谱法的预期拍子位置匹配。

9.如权利要求7所述的方法，其中为所述多种音乐记谱法中的每一种产生所述得分是至少部分地基于使在所述音频信号中检测到的音符或和弦的时间位置和持续时间中的至少一者与特定音乐记谱法中的音符或和弦的预期时间位置和持续时间中的至少一者匹配。

10.如权利要求7所述的方法，其中为所述多种音乐记谱法中的每一种产生所述得分是进一步基于(i)使在所述音频信号中检测到的起点位置与特定音乐记谱法的预期拍子位置匹配，以及(ii)使在所述音频信号中检测到的音符或和弦的时间位置和持续时间中的至少一者与所述特定音乐记谱法中的音符或和弦的预期时间位置和持续时间中的至少一者匹配。

11.如权利要求7所述的方法，其中为所述多种音乐记谱法中的每一种产生所述得分是至少部分地基于特定音乐记谱法的先验概率。

12.如权利要求7所述的方法，其中为所述多种音乐记谱法中的每一种产生所述得分是至少部分地基于使用历史。

13.如权利要求1所述的方法，其还包括：

为所述多种音乐记谱法中的每一者产生相应的匹配得分，其指示匹配所述接收到的音频信号的量度，

其中选择所述多种音乐记谱法中的一种是基于所产生的多个匹配得分。

14.如权利要求13所述的方法，其中所述多种音乐记谱法中的所述选定一种对应于最大匹配得分。

15.如权利要求13所述的方法，其还包括：

向所述计算装置的最终用户呈现所述多种音乐记谱法中对应于所述多个匹配得分中的两个或更多个最大匹配得分的子集，

其中选择所述多种音乐记谱法中的一种是由所述最终用户使用与所述计算装置耦合的输入装置针对所述两个或更多个最大匹配得分来执行。

16.如权利要求13所述的方法，其中产生所述多个匹配得分是基于指定音乐类型以及最终用户的简档中的至少一者。

17.如权利要求1所述的方法，其中所述多个音乐记谱法在调号、拍号、节拍和音符值中的至少一者的方面不同。

18.如权利要求1所述的方法，其还包括：

使用所述计算装置来确定在音乐方面与所述所提取的音乐信息兼容的补充音乐信息，

其中所述经转录的音乐内容也包括所述补充音乐信息。

19.如权利要求18所述的方法，其中所述音频信号是使用第一类型的乐器来产生，且其中所述补充音乐信息是为第二类型的乐器而产生。

20.一种用于对包括在接收到的音频信号中的音乐内容执行自动转录的计算机程序产品，所述计算机程序产品包括：

计算机可读存储媒体，其随之包含计算机可读程序代码，所述计算机可读程序代码可由一个或多个计算机处理器执行来：

处理接收到的第一音频信号，以提取表征所述音乐内容的至少一部分的音乐信息；

产生表示所述所提取的音乐信息的替代音乐演绎的多种音乐记谱法；以及

21.一种用于对包括在接收到的音频信号中的音乐内容执行自动转录的音乐转录装置，所述装置包括：

一个或多个计算机处理器，其被配置来：

处理所述接收到的音频信号，以提取表征所述音乐内容的至少一部分的音乐信息；

产生表示所述所提取的音乐信息的替代音乐演绎的多种音乐记谱法；

应用所述多种音乐记谱法中的选定一种来转录所述接收到的音频信号的所述音乐内容；以及

输出所述经转录的音乐内容。

22.如权利要求21所述的音乐转录装置，其中使用与所述一个或多个计算机处理器耦合的显示装置来执行所述经转录的音乐内容的输出。

23.如权利要求21所述的音乐转录装置，其中使用与所述一个或多个计算机处理器耦合的输入装置来执行选择所述多种音乐记谱法中的一种。

24.如权利要求21所述的音乐转录装置，其中所述多种音乐记谱法在调号、拍号、节拍和音符值中的至少一者的方面不同。

25.如权利要求21所述的音乐转录装置，其中所述一个或多个计算机处理器进一步被配置来：

确定在音乐方面与所述所提取的音乐信息兼容的补充音乐信息，

其中所述经转录的音乐内容的输出也包括所述补充音乐信息。

26.如权利要求25所述的音乐转录装置，其中所述一个或多个计算机处理器进一步被配置来：

产生对应于所述补充音乐信息的补充音频信号；以及

与所述接收到的音频信号同时，使用与所述一个或多个计算机处理器耦合的音频输出装置来输出所述补充音频信号。