CN101657816B

CN101657816B - 用于分布式音频文件编辑的门户网站

Info

Publication number: CN101657816B
Application number: CN2008800120237A
Authority: CN
Inventors: R·D·陶布; J·A·卡瓦尼利亚; G·图特洛特
Original assignee: MUSEAMI Inc (US)
Current assignee: MUSEAMI Inc (US)
Priority date: 2007-02-14
Filing date: 2008-02-14
Publication date: 2012-08-22
Anticipated expiration: 2028-02-14
Also published as: CN101657816A; CN101657817A

Abstract

描述了用于通过网络合作处理音乐稿件的方法、系统和设备。本发明的实施方式提供了门户，该门户可通过网络被多个工作站访问并配置成提供用于编辑音乐元素的一组编辑能力。在门户可接收音乐稿件。音乐稿件的至少一部分包括音乐元素。在某些实施方式中，从音频信号或乐谱图像解构音乐元素。可通过网络在门户接收多个合作请求。一些合作请求可来源于第一工作站，而其它合作请求可来源于第二工作站。响应于合作请求的至少一个，音乐元素的至少一部分可使用门户的编辑能力而得到编辑。

Description

用于分布式音频文件编辑的门户网站

交叉引用

本申请要求2007年2月14日提交的标题为“COLLABORATIVEMUSIC SHARING”(律师签号026287-000300US)的共同未决的美国临时专利申请号60/889,816以及2007年2月14日提交的标题为“MUSIC-BASED SEARCH ENGINE”(律师签号026287-000400US)的共同未决的美国临时专利申请号60/889,821的优先权利益，这两个专利申请由此通过引用被并入，如在本文件中为了所有的目的充分阐述的。本申请要求2008年2月13日提交的Robert D.Taub等人的标题为“MUSICSCORE DECONSTRUCTION”(律师签号026287-000500US)的美国临时专利申请号61/028,490的优先权利益。要求该临时申请提交日的优先权，且该临时申请的公开为了所有目的在这里通过引用被并入。

本申请进一步涉及2008年2月14日提交的标题为“MUSIC-BASEDSEARCH ENGINE”(律师签号026287-000410US)的共同未决的美国临时专利申请号_____，其同本申请同时提交并由此通过引用被并入，如在本文件中为了所有的目的充分阐述的。

背景

本发明通常涉及音频应用，尤其是涉及合作式音乐创作。

由于很多原因，合作来创作和体验音乐可能是合乎需要的。一个原因是，音乐家在音乐的很多方面有不同的技能水平，包括在不同乐器上的演奏、读谱、音乐理论、作曲、作词、配器和制作。另一原因是每个音乐家可能有特别的影响、背景、亲和力和影响艺术视野的其它特点。又一原因是，音乐家可能希望从遥远的地点一起工作。

即使是相对先进的音乐合作环境也常常在功能上受限，这是因为它们缺乏以很多有用的方式处理音乐稿件(music contribution)的能力的缘故。例如，一些现有的环境允许投稿人(contributor)上载音频文件作为曲目，其可被分组用于重放。一些环境甚至可提供某些有限的信号处理能力，如信号振幅的更改(例如，渐弱)，或剪切、复制或粘贴信号的部分的能力。

然而，某些类型的音乐合作可能要求在更基础的级别上(例如，单独的音符、音调、拍速、和弦变化、乐旨、模式、音色等)处理音乐稿件。例如，投稿人可能希望改变声道的乐器演奏法，以使旋律的乐段变调，插入个别的音符、分析某些稿件的和弦进行、使来自多个投稿人的稿件同步，以及可利用很多其它能力。提供这些能力中的很多能力可能要求处理音乐稿件以从音频信号提取某些类型的基本信息。

至少由于这些原因，在基础级别提供对音乐合作的提高的能力可能是合乎需要的。

概述

除了其它许多东西以外，还描述了对来自多个投稿人的音乐稿件的合作式创作和处理的方法、系统和设备。

本发明的实施方式便于合作地处理来自多个合作者的音乐稿件。在一方面，本发明的技术可被实现为网络站点，例如门户网站。该门户网站可利用音频信号处理、音乐特征识别技术和音乐转录技术来为音乐项目提供合作环境。因此，本发明的实施方式可提供用于在合作的发展努力中伺服多个用户的网络站点。

该门户可提供各种特征和功能。在某些实施方式中，该门户可支持音频编辑功能，包括编辑音频文件、启动音频文件、共享音频文件、公布音频文件、启动打印文件、定制音频文件(例如铃声)、支持对铃声和音频文件的门户拍卖或市场、以及将音乐和音频添加到视频文件。在其它实施方式中，该门户可支持联网和合作功能，包括会议(例如，通过文本、音频或视频)和限制访问(例如，对门户的某些部分、对某些文件或对某些功能)。在又一些其它实施方式中，该门户可支持制作功能，包括乐谱的生成和合作项目的音频输出。

从作为例子示出本发明原理的优选实施方式的下列描述中，本发明的其它特征和优点应很明显。

附图的简要说明

参考下列附图可实现对本发明的性质和优点的进一步的理解。在附图中，相似的部件或特征可具有相同的参考符号。进一步地，通过在参考标记后跟有破折号和区分开相似部件的第二标记，可区分开相同类型的各种部件。如果在说明书中只使用第一参考标记，则此描述适用于具有相同的第一参考标记的相似部件中的任一个，而不考虑第二参考标记。

图1示出用于音乐稿件的合作处理的根据本发明构造的系统的高级的简化结构图。

图2示出根据本发明的用于音乐稿件的合作处理的示例性方法的流程图。

图3示出根据本发明的用于产生音乐稿件的各种例证性类型的音乐输入。

图4A示出根据本发明的用于解构音乐输入数据的方法的流程图。

图4B示出根据本发明的用于解构音乐微元素的方法的实施方式。

图4C示出根据本发明的用于解构音乐宏元素的方法的实施方式。

图5A示出根据本发明的用于解构音频信号输入以产生音乐元素的示例性系统的简化结构图。

图5B示出根据本发明的音频解构单元的一个实施方式的低级结构图。

图6A示出根据本发明处理音乐图像数据以提供光学字符识别(OCR)特征的示例性系统。

图6B示出从图6A所示捕获设备产生的、作为输入提供到OCR处理器的示例性图像数据。

图7示出根据本发明的可合并在合作门户的实施方式中的各种模块的一个示例性配置。

图8A示出观看功能的例证性实施方式，包括合作项目的一部分的三个对齐的视图。

图8B示出图8A所示的观看功能的放大视图的例证性实施方式，集中在了特定音符上。

图9示出根据本发明的用于合作门户的GUI的实施方式。

图10提供用于实现本发明的某些实施方式的计算系统的结构图。

图11示出根据本发明的作为手持式消费电子设备的产品的例证性实施方式。

图12提供示出与图11所示设备类似的设备的实施方式的操作的简化处理流程图。

详细描述

该描述仅提供示例性实施方式，且不是用来限制本发明的范围、适用性或配置。更确切地，实施方式的随后描述将给本领域技术人员提供用于实现本发明实施方式的可行的描述。可在元件的功能和布置上进行各种变化，而不偏离本发明的实质和范围。

因此，不同实施方式可在适合时省略、替换或添加不同的程序或部件。例如，应认识到，在可选实施方式中，可按不同于所描述的顺序执行方法，并可添加、省略或合并不同的步骤。此外，关于某些实施方式描述的特征，可合并在不同的其它实施方式中。实施方式的不同方面和元件可按类似的方式合并。

还应认识到，下面的系统、方法和软件可单独地或共同为一较大系统的部件，其中其它程序可优于其应用，或以其他方式更改其应用。此外，在下面的实施方式之前、之后或与其同时，可能需要一定数量的步骤。

综述

本发明的实施方式便于合作地处理来自多个合作者的音乐稿件。在一方面，本发明的技术可被实现为网络站点，例如门户网站。该门户网站可利用音频信号处理、音乐特征识别技术和音乐转录技术来为音乐项目提供合作环境。因此，本发明的实施方式提供用于在合作性发展努力中伺服多个用户的网络站点。

该门户可提供各种特征和功能。在某些实施方式中，该门户可支持音频编辑功能，包括编辑音频文件、启动音频文件、共享音频文件、公布音频文件、启动打印文件、定制设计音频文件(例如铃声)、支持铃声和音频文件的门户拍卖或市场、以及将音乐和音频添加到视频文件。在其它实施方式中，该门户可支持联网和合作功能，包括会议(例如，通过文本、音频或视频)和限制访问(例如，对门户的某些部分、对某些文件或对某些功能)。在又一些其它实施方式中，该门户可支持制作功能，包括乐谱的生成和合作项目的音频输出。

图1示出用于音乐稿件的合作处理的根据本发明构造的系统100的高级简化结构图。系统100包括通过网络110连接到多个工作站104的门户160。网络110可为多个工作站104之间的通信的任何服务商。例如，网络110可为互联网或局域网(LAN)。

工作站104可为配置成与网络110通信并接收音乐稿件102的任何设备或系统。在一些实施方式中，工作站104是多功能设备。例如，工作站104可为计算机(例如，膝上型计算机、桌上型计算机等)。在其它实施方式中，工作站104是专用设备。例如，工作站104之一可为专用的便携式设备，其特别被开发来提供合作环境，包括接收音乐稿件102和与网络110通信。在某些实施方式中，工作站104是音乐稿件设备的网络接口。例如，工作站104之一可为电子吉他或数字音频部件的直接网络接口。

应认识到，根据本发明，工作站104存在接收音乐稿件102的很多方法。例如，可通过内部或外部麦克风、线路电平音频端口、文件传输(例如，来自固定的或可移除的存储器或在网络上)、乐谱图像捕获设备等接收音乐稿件102。下面进一步讨论音乐输入实施方式。

在一些实施方式中，工作站104配置成产生音乐输出106。在一个实施方式中，音乐输出106包括配置成通过扬声器播放的音频输出。在另一实施方式中，音乐输出106包括配置成被储存、播放和/或在网络上共享的音频文件。在又一实施方式中，音乐输出106包括由其它相容的系统使用的音乐元素数据(例如，音高、音程、拍速、音调、振幅等)。在再一实施方式中，音乐输出106包括乐谱表示数据，其配置成由乐谱编辑软件使用、被发送到文档编辑或公布系统、或被打印。

根据音乐稿件102的类型和合作者希望如何使用音乐稿件102，解构来自音乐稿件102的音乐元素可能是合乎需要的。在各种实施方式中，合作者可能希望以非解构(例如，信号级)形式来使用一些音乐稿件102，同时他们可能希望以解构(例如，乐谱级)形式来使用其它音乐稿件102。例如，假定第一音乐稿件102包括特殊声音(例如，使用音槌击高张力的线)的已录制的样本，以及第二音乐稿件102包括鼓点的已录制的演奏。合作者可能希望解构鼓点以提取关于拍速和节拍的音乐元素信息，并使用该音乐元素来使该特殊声音样本同步到某些节奏位置(即，不从特殊声音样本提取任何音乐元素)。下面更充分描述音乐解构。

在一些实施方式中，系统100包括用于提供音乐解构功能的一个或多个音乐解构单元120。在某些实施方式中，音乐解构单元120驻留在工作站104上。例如，音乐解构单元120可被实现为客户级软件。在这些实施方式中，音乐稿件102在通过网络110被发送到门户160之前可被解构成音乐元素。在其它实施方式中，音乐解构单元120可设置为门户160的部分(例如，元件120-3)。音乐稿件102可在工作站104被接收，通过网络110被发送到门户160，并接着在门户160被解构成音乐元素。

在某些实施方式中，门户160可与一个或多个数据存储器115操作性地通信。在一些实施方式中，门户160通过网络110与数据存储器115通信。在其它实施方式中，门户160与数据存储器115直接通信。数据存储器115可配置成存储关于音乐稿件102或音乐输出106的一种或多种类型的信息。例如，数据存储器115可配置成存储原始音频文件(例如，包含数字化音频信号数据的文件)、编码的音频文件(例如，包含关于文件内容数据或音频信号数据的元数据的文件)、音乐元素信息(例如，储存在多维关系数据库中的、与其相应的音乐稿件相关的被解构的音乐元素)、编辑数据(例如，对一个或多个音乐稿件进行的编辑的日志或记录、或某些指示符和时间戳数据，以有效地记录编辑而不保存音乐稿件的多个副本)等。

应认识到，在本发明的实施方式中，某些类型的数据安全可能是合乎需要的。在一些实施方式中，数据存储器115配置成使用某些类型的数据安全(例如，加密、口令保护等)来存储数据。在其它实施方式中，系统100的不同部件之间的物理和虚拟通信链接是安全的(例如，通过安全套接层加密)。例如，门户160和工作站104之间或门户160和数据存储器115之间的网络通信可能是安全的。在又一些其它实施方式中，音乐输出106可被保护以防止复制、删除等。例如，某些数字版权管理(DRM)技术可用于限制音乐输出106文件的未经授权的复制或共享。

在一些实施方式中，门户160通过网络接口单元150与网络110进行通信。网络接口单元150的某些实施方式通过提供某些类型的网络功能来促进门户160和网络110之间的通信。例如，网络接口单元150可发送和/或解译网络业务，以允许门户160的有效合作、文件传输和其它能力。

网络接口单元150的各种实施方式提供了增强的能力。在一些实施方式中，网络接口单元150配置成通过网络110接收和处理来自工作站104的登录信息。在一个实施方式中，登录信息用于验证工作站104的用户，以确定用户对门户160的访问权。访问权可确定例如是否用户可进入门户160，用户可访问哪些文件，用户可使用门户160的哪些功能，等等。

应认识到，根据本发明，门户160的很多实施方式是可能的。在一些实施方式中，门户160配置成通过网页浏览器使用，并且可通过网络地址来定位。在这些实施方式的某些中，门户160配置成可扩展到很多不同的浏览环境(例如，通过用XML、HTML或另一可扩展标记语言编写)。在其它实施方式中，门户160被实现为驻留在工作站104上的客户端应用程序。在这些实施方式中，可在服务器上实现某种功能(例如，文件管理)，而合作处理中的大部分在客户工作站104上进行。在又一实施方式中，门户160可驻留在局域网的分离的网络服务器上，或工作站104可用于向网络提供应用程序。

门户160的实施方式包括合作接口单元130。在各种实施方式中，合作接口单元130配置成执行门户160的功能，包括合作功能(例如，虚拟会议、改变和文件管理等)、音乐观看功能(例如，显示乐谱视图、信号视图、钢琴卷帘视图、音色曲线、音符包络曲线、柱状图等)和音乐编辑功能(例如，同步、声道编辑、音符编辑、信号编辑、乐器法编辑等)。下面更充分描述合作接口单元130的实施方式和功能。

门户160的实施方式进一步包括输出产生单元140。在一些实施方式中，输出产生单元140可配置成从合作接口单元130接收合作的输出，并产生输出数据。由输出产生单元140产生的数据可被传送到数据存储器115(例如，直接地或通过网络110)或工作站104。在一些实施方式中，由输出产生单元140产生的输出数据可为音乐输出106。在其它实施方式中，由输出产生单元140产生的输出数据可由工作站104使用来产生音乐输出106。

图2示出根据本发明的用于音乐稿件的合作处理的示例性方法200的流程图。使用如图1所示系统100的系统可执行方法200的一些实施方式。方法200在块202开始，接收用于验证用户的登录信息。在块210，方法200根据登录信息确定用户是否有访问门户的权限。如果用户没有足够的访问权，则可在块220拒绝用户对门户的访问。如果用户有足够的访问权，则可在块230提供对门户的访问。

在块232，门户可接收音乐稿件。一些音乐稿件可接收自登录到该门户中的用户或从另一用户(例如，通过用户的工作站和通过网络)。其它音乐稿件可接收自一个或多个数据存储器。在某些情况下，在块232接收的一些或所有音乐稿件可在块234被解构成音乐元素。为了不同的目的，可在一个或多个级别执行解构，如下面进一步描述的。

在块236，门户可从一个或多个用户接收合作请求。该合作请求可包括关于与处理用户间合作、处理文件管理、处理编辑、编译或查看音乐稿件等相关的任何请求。在一个实施方式中，合作请求包括编辑门户上的音乐稿件的请求。在块238，响应于合作请求并至少部分地根据该合作请求来编辑音乐稿件。接着，在块240，可产生输出数据。例如，在块240产生的输出数据可包括与在块238中执行的编辑有关的信息。

应认识到，关于图1和2描述的实施方式用来提供本发明的示例性结构和示例性功能的综述。因此，上面提供的描述不应被解释为限制本发明的范围。为了另外的清楚，下面进一步讨论某些功能的进一步描述。

音乐输入

用于产生音乐稿件的很多不同类型的音乐输入是可能的。图3示出根据本发明的用于产生音乐稿件的各种例证性类型的音乐输入。应认识到，图3所示的音乐输入设备只提供很多可能的音乐输入设备中的一些，且不应被解释为限制本发明的能力。

音乐输入的一个实施方式包括原始音频文件302。原始音频文件302可包括被数字化成数字信号表示的音频信号数据。例如，数字信号信息可包括样本，每个样本有时间戳和电压电平，其中该样本代表音频信号的模拟版本。在其它例子中，数字信号信息可被编码，以在算法上(例如，包括误差校正信息、编解码信息等)表示音频信号。

音乐输入的另一实施方式包括增强型音频文件304。增强型音频文件304可包括补充或代替存在于原始音频文件302中的数据的信息。在某些实施方式中，增强型音频文件304可包括关于该文件的内容、其格式或其它有用信息的元数据。例如，元数据可包括手工输入的关于音频文件的信息，包括声道名称、专辑名称、艺术家名称、风格等。在另一例子中，元数据可与其它系统相容(例如，专辑序列号和歌曲的声道号可被提供到元数据中，以允许某个数据库搜索来返回关于歌曲的其它信息，例如其标题)。

通过将原始音频文件302传送通过编码器330来产生增强型音频文件304的一些实施方式。例如，增强型音频文件304可由MPEG-7编码器产生，MPEG-7编码器可使用XML来存储元数据并将元数据附到增强型音频文件304内的某些时间戳。在其它实施方式中，通过将原始音频文件302传送通过音频解构器320，可产生增强型音频文件304。音频解构器320可从原始音频文件302解构音乐元素(如下面更充分描述的)，并将它们储存在增强型音频文件304中。

音乐输入的又一实施方式包括来自相容的乐器306的数字化输出。在一个实施方式中，乐器数字接口(MIDI)装置(例如键盘)用于产生MIDI数据。MIDI数据可包括音乐元素。在一些情况下，所包括的音乐元素可用于产生其它音乐元素。例如，MIDI数据可包括音符音高，而该音符音高可被分析来确定音调。在其它实施方式中，相容的乐器306可操作来以可用的格式输出数据。例如，键盘可具有可与其它部件相容的数字同轴、光学或其它类型的输出。

音乐输入的又一实施方式包括来自传感器308的模拟输出。在一个实施方式中，一个或多个麦克风用于检测一个或多个乐器所产生的压力波，并将它们转换成模拟音频信号。在另一实施方式中，电磁拾音器用于将电吉他的钢弦中的运动转换成模拟音频信号。

音乐输入的另一实施方式甚至包括可编辑的乐谱文件310。可编辑的乐谱文件310可为包括可编辑的乐谱数据的任何类型的文件。例如，可编辑的乐谱文件310可使用乐谱编辑软件340来产生。音乐输入的一些实施方式包括乐谱图像312。乐谱图像312的实施方式可包括任何类型的可用数字图像。在一个实施方式中，乐谱图像312是打印出的物理乐谱的数字化表示(例如，活页乐谱)，其通过借助于图像捕获设备(例如，扫描仪、数码照相机或视频摄像机等)将打印出的乐谱转换成数字图像来产生。在其它实施方式中，通过将乐谱图像312传送通过乐谱解构器350来将乐谱图像312转换成可编辑的乐谱文件310。乐谱解构器350可操作来从乐谱图像312解构音乐元素，如下面更充分描述的。

在某些实施方式中，编码器330、音频解构器320、乐谱解构器350、乐谱编辑器340或其它应用可驻留在工作站104(或服务器计算机)上。在其它实施方式中，音乐输入可为用于合作的音乐稿件102，或用于产生音乐稿件102。稿件102可接着被传送到工作站104、网络110或对提供合作功能有用的任何其它地点。

音频解构

在本发明的一些实施方式中，提供从音乐输入数据如音频信号数据和乐谱图像数据解构出音乐元素可能是合乎需要的。应认识到，存在很多方法来从不同类型的音乐输入数据解构出音乐元素。在一些情况下，数据储存在音频文件中的方式可使解构起来简单。例如，音乐元素数据可作为头部信息储存在增强型音频文件中。然而在其它情况下，从音乐输入数据提取某些类型的音乐元素可能并不简单。

图4A示出根据本发明的用于解构音乐输入数据的方法400的流程图。方法400开始为，在块402接收音乐输入数据。在一些实施方式中，在块402接收的音乐输入数据可包括用于合作的音乐稿件。

在块410，从音乐输入解构音乐微元素。作为例子，音乐微元素可包括音符音高和值、时间戳、音符包络和音色、音调、拍速和其它类似的元素。在某些实施方式中，音乐微元素可包括其它音乐微元素(例如，连音、三连音、按声道或乐器分组的音符、按小节分组的音符、按投稿人分组的音符等)的组。在其它实施方式中，音乐微元素可包括其它音乐微元素的组成部分(例如，符干、符尾、附点等)。

在块450，解构音乐宏元素。作为例子，音乐宏元素可包括从分析音乐微元素的组和模式产生的信息。在一些实施方式中，音乐宏元素包括关于音乐微元素(例如，节奏调号、重复的乐旨、和弦/音调变化、曲式(例如，A-B-A或合唱-独唱-独唱-合唱)等)的组的局部和全局模式信息。在其它实施方式中，音乐宏元素包括从音乐微元素的集合中得到的统计信息(例如，音符或节奏模式的柱状图等)。接着，可在块490输出音乐微元素和宏元素。

图4B示出根据本发明的用于解构音乐微元素的方法410的流程图。方法410开始为，在块402接收音乐输入信号。在一些实施方式中，可预处理音乐输入信号。例如，音频信号可从模拟转换到数字、下变频到较低的采样率、为与某些编码器或解码器的相容转换代码、解析成单音调音频声道、或任何其它有用的处理。

在一些实施方式中，在块412提取音高信息并在块414提取音符开始事件。在方法410的一些实施方式中，在块412提取的音高信息和在块414提取的音符开始事件用于从在块402接收到的音频信号提取和处理其它信息。

在某些实施方式中，上述信息用于在块416确定音符时值、在块418确定休止符、在块420确定时间窗上的拍速、在块424确定窗上的音调、以及在块428确定乐器。在其它实施方式中，在块416确定的音符时值、在块418确定的休止符以及在块420确定的拍速用于在块422确定音符值；在块424确定的音调用于在块426确定音调音高标志；以及在块428确定的乐器用于在块430确定声道。在不同实施方式中，块412-430的输出配置成用于在块490-1产生作为音乐微元素的输出。

图4C示出根据本发明的用于解构音乐宏元素的方法450的流程图。方法450开始为，在块452接收(例如，来自图4B的方法410的)音乐微元素。音乐微元素可用于产生很多类型的音乐宏元素。

在一些实施方式中，音乐微元素用于在块454确定曲式(例如，前奏-独唱-合唱-独唱-过渡乐节-合唱-合唱-终奏)；在块456确定风格(例如，摇滚、古典、爵士、印度古典等)；在块458确定节奏调号(例如，第一乐章是以每分钟90拍的拍速(bpm)的4/4拍，第二乐章是以120bpm的拍速的3/4拍，而第三乐章返回到4/4拍，同时保持在120bpm的拍速)；在块460确定轮廓(例如，歌曲仅以鼓声和低音乐器在相对低的音量和快的拍速开始，且一分钟之后，歌曲在中等音量和较慢的拍速增加干净的吉他线)；在块462确定音调变化(例如，歌曲以C大调的音调开始，变调到F大调，快速变调到D小调和G大调，并返回到C大调)；以及在块464确定和弦变化(例如，歌曲的一部分从Am⁷变化到Dm⁷、到Gm⁷、到C⁷、到F⁶，或歌曲从iii⁷变化到vi⁷、到ii⁷、到V⁷、到I⁶)。在各种实施方式中，块454-464的输出配置成用于在块490-2产生作为音乐宏元素的输出。

应认识到，根据本发明，很多其它类型的音乐微元素和音乐宏元素是可能的。进一步地，根据合作所需要的音乐元素的类型，音乐输入信号可在按很多不同的级别进行解构。例如，临时鼓声道可只用于提供节奏信息。在这种情况下，解构或保留关于音高、音色、音调等的音乐元素可能是对资源的浪费。在另一例子中，声乐线可用于提供对歌曲的一个乐段中的音高变化的轮廓的一般指示。在这种情况下，解构准确的音高、音符时值等可能不重要；更确切地，仅以近似的音高值和时值来提取音高移动的大致方向可能是更有效的。

应进一步认识到，根据可用的音乐数据的类型和各种应用需要，可能存在从音乐输入解构出音乐元素的很多方法。图5A示出根据本发明的实施方式的用于解构音频信号输入以产生音乐元素的示例性系统的简化结构图。如所示，输入102由音乐解构单元120接收，音乐解构单元120解构输入102以产生被解构的输出570。

在一些实施方式中，输入102由音乐解构单元120在音频接收器单元506接收。在一个实施方式中，乐曲由麦克风或麦克风阵列实时地接收，并转换成模拟电子输入102，供音频接收器单元506接收。在其它实施方式中，输入102可包括数字数据，例如适合于重放的已录制的音乐文件。如果输入102是模拟信号，则它可由音频接收器单元506转换成数字表示，以备由信号处理器单元510、音符处理器单元530和乐谱处理器单元550进行数字信号处理。当输入102被实时地接收时，可能没有方法来预先确定输入102的全长。因此，输入102可按预定的间隔(例如，消逝时间的量、数字样本的数量、所使用的存储器的量等)被接收和存储，并可被相应地处理。在另一实施方式中，已录制的声音片断由音频接收器506接收并被数字化，从而具有固定的持续时间。

图5B提供了音乐解构单元120的一个实施方式的低级结构图。一个或多个音频源502可用于产生音乐输入信号102。音频源502可为能够向音频接收器506提供音乐输入信号102的任何东西。在一些实施方式中，一个或多个麦克风、转换器和/或其它传感器用作音频源502。麦克风可将来自现场表演演奏(或已录制的演奏的重放)的压力或电磁波转换成电信号，以用作音乐输入信号102。例如，在现场表演的音频演奏中，麦克风可用于检测和转换来自歌手的音频，而电磁“拾音器”可用于检测和转换来自吉他和贝司的音频。在其它实施方式中，音频源502可包括配置成提供音乐输入信号102或音频文件的模拟或数字设备，从音频文件可读取音乐输入信号102。例如，数字化音频文件能够以音频格式储存在存储介质上，并作为音乐输入信号102由存储介质提供给音频接收器506。

应认识到，根据音频源502，音乐输入信号102可具有不同的特征。音乐输入信号102可为单音调或复调的，可包括音频数据的多个声道，可包括来自很多类型的乐器的音频，并可包括某种文件格式，等等。类似地，应认识到，音频接收器506可为能够接收音乐输入信号102的任何东西。进一步地，音频接收器506可包括一个或多个端口、解码器、或与音频源502连接、接收或解释音乐输入信号102所必需的其它部件。

音频接收器506可提供额外的功能。在一个实施方式中，音频接收器506将模拟音乐输入信号102转换成数字音乐输入信号102。在另一实施方式中，音频接收器506配置成将音乐输入信号102下变频到较低的采样率，以减小系统500的计算负担。在一个实施方式中，音乐输入信号102被下采样到大约8-9kHz。这可提供音乐输入信号102的较高的频率分辨率，并可减小对系统500的设计的某些限制(例如，滤波器规范)。

在又一实施方式中，音频接收器506包括阈值检测部件，其配置成在检测到音频电平超过某个阈值时开始接收音乐输入信号102(例如，开始录制)。例如，阈值检测部件可在规定的一段时间内分析音频，以检测音乐输入信号102的振幅是否在某个预定量的时间内保持在预定阈值之上。阈值检测部件可进一步配置成当音乐输入信号102的振幅在预定量的时间内落在预定阈值之下时停止接收音乐输入信号102(例如，停止录制)。在又一实施方式中，阈值检测部件可用于为系统500产生标志，其表示音乐输入信号102的振幅在一定量的时间内超过阈值或落在阈值之下的条件，而不是实际上开始或终止对音乐输入信号102的接收。

根据图5B，音频接收器506将音乐输入信号102传送到包括振幅提取单元512和频率提取单元514的信号处理器单元510。振幅提取单元512配置成从音乐输入信号102提取与振幅有关的信息。频率提取单元514配置成从音乐输入信号102提取与频率有关的信息。

在一个实施方式中，频率提取单元514使用变换算法将信号从时域变换到频域。例如，当在时域中时，音乐输入信号102可被表示为振幅随着时间的变化。然而，在应用快速傅立叶(FFT)算法之后，同一音乐输入信号102可被表示为其每个频率分量的振幅的曲线(例如，在频率范围内的每个频带的相对强度或组成，如泛音系列一样，信号将在该泛音系列上被处理)。对于处理效率，可能希望将该算法限制到某个频率范围。例如，频率范围可只覆盖可听声谱(例如，大约20Hz到20kHz)。

在不同实施方式中，信号处理器单元510可用其它方式提取与频率有关的信息。例如，很多变换算法以固定宽度的线性频率“存储段(bucket)”输出信号。这可限制变换的可能频率分辨率或有效性，特别是考虑到，音频信号在本质上内在地可以是对数的(而不是线性的)。用于从音乐输入信号102提取与频率有关的信息的很多算法在本领域中是已知的。

振幅提取单元512所提取的与振幅有关的信息和频率提取单元514所提取的与频率有关的信息可接着由音符处理单元530的不同部件使用。在一些实施方式中，音符处理单元530包括音符开始检测器单元532、音符时值检测器单元534、音高检测器单元536、休止符检测器单元544、包络检测器单元538、音色检测器单元540和音符力度强弱检测器单元542中的全部或一些。

音符开始检测器单元532配置成检测音符的开始。音符的开始(或起始)一般在乐曲中表现为音高的变化(例如圆滑奏)、振幅的变化(例如包络的附加部分)或音高和振幅的变化的一些组合。因此，音符开始检测器单元532可配置成每当有频率(或音高)和/或振幅的某种类型的变化时产生音符开始事件。

音乐音符也可以其时值(例如，音符以秒或样本的数量为单位持续的时间的量)为特征。在一些实施方式中，音符处理单元530包括音符时值检测器单元534，其配置成检测音符开始事件所标记的音符的时值。

值得注意的是，乐曲的某些特征是心理声学的，而不纯粹地是信号的物理属性。例如，频率是信号的物理特性(例如，表示正弦波每秒所传播的周期数)，但音高是更复杂的心理声学现象。一个原因是乐器所演奏的单个音高的音符通常由很多频率组成，每个频率振幅不同，被称为音色。大脑可检测那些频率之一(例如，一般是基频)作为“音高”，而其它频率仅是感测到给音符添加了“和声色彩”。在一些情况下，听者所感受到的音符的音高可能为信号最缺乏或完全缺乏的频率。

在一些实施方式中，音符处理单元530包括音高检测器单元536，其配置成检测由音符开始事件标记的音符的音高。在其它实施方式中，音高检测器单元536配置成跟踪音乐输入信号102的音高，而不是(或除了)跟踪个别音符的音高。应认识到，音高检测器单元536在一些情况下可由音符开始检测单元532使用，以确定音乐输入信号102的超过阈值的音高的变化。

音符处理单元530的一些实施方式包括配置成检测音乐输入信号102内休止符的存在的休止符检测器单元544。休止符检测器单元544的一个实施方式使用振幅提取单元512所提取的与振幅有关的信息和音高检测器单元536所得到的置信度信息。例如，与振幅有关的信息可揭示音乐输入信号102的振幅在某个时间窗内相对低(例如，在本底噪声处或附近)。在相同的时间窗内，音高检测器单元536可确定特定音高的存在的非常低的置信度。使用这个和其它信息，休止符检测器单元544检测休止符的存在以及休止符可能开始的时间位置。

在一些实施方式中，音符处理单元530包括音色检测器单元540。振幅提取单元512所提取的与振幅有关的信息和频率提取单元514所提取的与频率有关的信息可由音色检测器单元540使用，来对音乐输入信号102的一部分检测音色信息。音色信息可揭示音频信号102的该部分的谐波成分。在一些实施方式中，音色检测器单元540可检测关于在音符开始事件处开始的特定音符的音色信息。

在音色检测器单元540的一个实施方式中，与振幅有关的信息和与频率有关的信息与高斯滤波器卷积，以产生滤波的频谱。滤波的频谱可接着用于产生在音高检测器单元536所检测到的音高周围的包络。该包络可相应于在该音高处的音符的音色。

在一些实施方式中，音符处理单元530包括包络检测器单元538。振幅提取单元512所提取的与振幅有关的信息可由包络检测器单元538使用，来对音乐输入信号102的一部分检测包络信息。例如，击钢琴上的键可使音槌击打一组弦，导致具有大起奏振幅的音频信号。该振幅经历快速衰减，直到它在弦共振的地方维持在稍微稳态的振幅(当然，当弦中的能量耗尽时，振幅可在包络的该部分上缓慢地减小)。最后，当钢琴键被释放时，制音器落在弦上，使振幅快速下降到零。这种类型的包络一般称为ADSR(起奏、衰减、维持、释放)包络。包络检测器单元538可配置成检测ADSR包络的一些或所有部分，或任何其它类型的有用包络信息。

在不同实施方式中，音符处理单元530还包括音符力度强弱检测器单元542。在某些实施方式中，对于在某些音符开始事件处开始的特定音符，音符力度强弱检测器单元542提供与包络检测器单元538类似的功能。在其它实施方式中，音符力度强弱检测器单元542配置成检测相对于被包络检测器单元538检测到的包络模式是异常的或符合某种预定的模式的音符包络。例如，断奏音符可以以急剧的起奏和其ADSR包络的短持续部分为特征。在另一例子中，重音音符可以明显大于周围音符的起奏振幅的起奏振幅为特征。

应认识到，音符力度强弱检测器单元542和其它音符处理单元可用于识别音符的多个其它属性，这些属性可被描述为被解构的输出570的部分。例如，音符可被标记为圆滑奏、重音、断奏、装饰音符等。根据本发明可提取很多其它音符特征。

与多个音符或音符开始事件(包括休止符)有关的信息可用于产生其它信息。根据图5B的实施方式，音符处理单元530的不同部件可与乐谱处理单元550的不同部件操作性地通信。乐谱处理单元550可包括拍速检测单元552、节拍检测单元554、音调检测单元556、乐器识别单元558、声道检测单元562和全局力度强弱检测单元564中的全部或一些。

在一些实施方式中，乐谱处理单元550包括拍速检测单元552，其配置成在一时间窗内检测音乐输入信号102的拍速。一般，一首乐曲的拍速(例如，乐曲似乎在心理声学上传递的速度)可部分地由音符和休止符的存在和时值影响。因此，拍速检测单元552的某些实施方式使用来自音符开始检测器单元532、音符时值检测器单元534和休止符检测器单元544的信息来确定拍速。拍速检测单元552的其它实施方式进一步使用所确定的拍速来给音符和休止符分配音符值(例如，四分音符、八分音符等)。

节拍指示在音乐的每个小节中有多少拍，以及哪个音符值被认为是单拍。例如，4/4的节拍表示每个小节有四拍(分子)，以及单拍由四分音符(分母)表示。由于这个原因，节拍可帮助确定音符和小节线位置，以及提供有用的解构输出570可能需要的其它信息。在一些实施方式中，乐谱处理单元550包括配置成检测音乐输入信号102的节拍的节拍检测单元554。

在一些实施方式中，从拍速信息和拍速检测单元552所提取的音符值并从其它信息(例如，音符力度强弱检测器单元542所提取的音符力度强弱信息)推断简单的节拍。然而，通常，确定节拍是涉及复杂的模式识别的复杂任务。

例如，假定音符值的下列序列从音乐输入信号102被提取：四分音符、四分音符、八分音符、八分音符、八分音符、八分音符。此简单的序列可被表示为4/4的一个小节、2/4的两个小节、1/4的四个小节、8/8的一个小节或很多其它节拍。假定在第一个四分音符和第一个八分音符上有重音(例如，增加的起奏振幅)，这可使序列更可能为2/4的两个小节、4/8的两个小节或4/4的一个小节。进一步地，假定4/8是非常罕见的节拍，则可足以消除此猜测。更进一步地，若知道音乐输入信号102的风格是民谣，则最可能的候选节拍更可能是4/4。

上面的例子示出涉及即使是非常简单的音符值序列的复杂性。很多音符序列复杂得多，涉及不同值的很多音符、跨越多个小节的音符、附点音符和装饰音符、切分音以及在解释节拍中的其它困难。由于这个原因，传统计算算法可能难于准确地确定节拍。因此，节拍检测单元554的不同实施方式使用被培训来检测那些复杂模式的人工神经网络(ANN)560。通过给ANN 560可提供不同节拍的很多样本和针对每个样本改进的代价函数来培训ANN 560。在一些实施方式中，使用学习范式来培训ANN560。学习范式可包括例如有监督的学习、没有监督的学习或强化学习算法。

应认识到，通过使用拍速和节拍信息中的任一个或两个可产生很多有用类型的信息，以用作音乐元素或解构的输出570。例如，这些信息可允许确定：在哪里将音符分为小节(例如，作为八分音符组)，而不是使用符尾单独地指定音符；何时将一音符分在两个小节中，并将其用连接线连起来；或何时将音符组指定为三连音符(或高阶组)、装饰音符、颤音或波音、滑音等。

在产生音乐元素或解构的输出570中可能有用的另一组信息涉及音乐输入信号102的一部分的音调。音调信息可包括例如被识别的根音高和相关调式。例如，“A小调”表示音调的根音高是“A”，而调式是小调。每个音调以调号为特征，调号标识“在音调中”(例如，与音调关联的全音阶的部分)和“在音调外”(例如，在音调的范式中的临时记号)的音符。“A小调”例如不包含升号或降号，而“D大调”包含两个升号且不包含降号。

在一些实施方式中，乐谱处理单元550包括配置成检测音乐输入信号102的音调的音调检测单元556。音调检测单元556的一些实施方式基于将音高序列与一组代价函数进行比较来确定音调。代价函数可例如试图最小化一首乐曲在特定的时间窗内的临时记号的数量。在其它实施方式中，音调检测单元556可使用人工神经网络来进行或改进复杂的音调确定。在又一些其它实施方式中，可对照代价函数来评估音调变化的序列，以改进音调确定。在另一些其它实施方式中，音调检测单元556所得到的音调信息可用于给音符(或音符开始事件)赋予特定的音调音高标志。例如，F大调中的“B”可被指定为“B-本位音”。当然，音调信息可用于产生调号或乐谱表示的其它信息。在一些实施方式中，音调信息可进一步用于产生和弦或其它和声信息。例如，以弦线乐谱的格式可产生吉他和弦，或可提供爵士和弦。

在其它实施方式中，乐谱处理单元550还包括配置成识别正演奏音乐输入信号102的乐器的乐器识别单元558。乐器常常被认为具有特定的音色。然而，根据被演奏的音符或音符被演奏的方式，在单个乐器上可能有音色的差异。例如，根据例如在其构造中使用的材料、演奏者的触摸、被演奏的音符(例如，在开弦上演奏的音符具有与在用手指弹奏的弦上演奏的相同音符不同的音色，以及在小提琴音区下部的音符具有与上部音区中的音符不同的音色)、音符是用弓拉的还是弹拨的等，每个小提琴的音色不同。然而，在小提琴音符之间仍然可能有足够的类似，以将其识别为小提琴，而不是另一乐器。

乐器识别单元558的实施方式配置成比较单个或多个音符的特征，以确定明显由音乐输入信号102的乐器演奏的音高的音域、由该乐器在那些音高的每个音高处产生的音色、和/或在该乐器上演奏的音符的振幅包络。在一个实施方式中，音色差异被用于通过将乐器的一般音色符号样本与来自音乐输入信号102的检测到的音色进行比较，以检测不同的乐器。例如，即使以相同音量演奏相同时值的相同音符时，萨克斯和钢琴由于其不同的音色也可能发出非常不同的声音。当然，如上所述，只基于音色的识别的准确性可能是有限的。

在另一实施方式中，音高音域用于检测不同的乐器。例如，大提琴一般可演奏范围从中央C音之下的大约两个八度到中央C音之上的大约一个八度的音符。然而，小提琴一般可演奏范围从恰好在中央C音之下到中央C音之上的大约四个八度的音符。因此，即使小提琴和大提琴可具有相似的音色(它们都是拉奏弦乐器)，其音高音域可充分不同以用于识别。当然，假定音域在某种程度上确实交叠，存在误差是可能的。进一步地，其它乐器(例如钢琴)具有可与很多乐器交叠的较大音域。

在又一实施方式中，包络检测用于识别不同的乐器。例如，在槌打乐器(例如钢琴)上演奏的音符的发声可能不同于在木管乐器(例如长笛)、簧乐器(例如双簧管)、铜管乐器(例如小号)或弦乐器(例如小提琴)上演奏的音符。然而，每种乐器能够产生很多不同类型的包络，取决于音符如何被演奏。例如，小提琴可被弹拨或拉奏，或音符可被连奏或断奏。

至少由于上面提到的困难，准确的乐器识别可能需要检测复杂的模式，包括可能在多个音符上的音乐输入信号102的多个特征。因此，乐器识别单元558的一些实施方式利用被培训来检测这些复杂模式的组合的人工神经网络560。

乐谱处理单元550的一些实施方式包括配置成识别来自音乐输入信号102内的音频声道的声道检测单元562。在一些情况下，音乐输入信号102可以为已经被声道分离的格式。例如，在某些数字音频磁带(DAT)上的音频可被储存为8个分离的数字音频声道。在这些情况下，声道检测单元562可配置成仅仅识别这些分立的音频声道。

然而在其它情况下，多个声道可储存在单个音乐输入信号102中，且需要通过从音乐输入信号提取某些数据来进行识别。因此，声道检测单元562的一些实施方式配置成使用从音乐输入信号102提取的信息来识别分开的音频声道。例如，演奏可包括同时演奏的5种乐器(例如爵士五重奏)。可能希望将那些分开的乐器识别为分开的声道。

声道检测可用很多不同的方式完成。在一个实施方式中，声道检测单元562使用音高检测来确定是否不同的音符序列表现为被限制到某些音高音域。在另一实施方式中，声道检测单元562使用来自乐器识别单元558的乐器识别信息来确定不同的声道。

很多乐谱也包含关于乐曲或演奏的全局力度强弱的信息。与上述音符力度强弱不同，全局力度强弱指跨越多个音符的力度强弱。例如，整个曲子或曲子的一部分可被标记为强的(高声)或弱的(轻柔)。在另一例子中，音符的序列可在声音渐强中逐渐增大。为了产生这种类型的信息，乐谱处理单元550的一些实施方式包括全局力度强弱检测单元564。全局力度强弱检测单元564的实施方式使用振幅信息，在一些情况下包括音符力度强弱信息和/或包络信息，以检测全局力度强弱。

在某些实施方式中，从音乐输入信号102预先确定或适应性地产生阈值，以帮助力度强弱确定。例如，摇滚演奏的平均音量可被认为是强的。超过该平均值某个数量(例如，阈值、标准偏差等)的振幅可被认为是极强的，而落在该平均值之下某个数量的振幅可被认为是弱的。

某些实施方式可进一步考虑力度强弱变化出现的时值。例如，以两分钟的平静音符开始并随后转换到两分钟的较大声的音符段的部分可被认为弱音段后跟随有强音段。另一方面，在几个音符的过程中增加、对几个更多的音符保持在该较高的音量并接着返回到原始振幅的平静段，可被认为渐强段跟随有渐弱段。

可产生上面描述的所有不同类型的信息以及任何其它有用的信息，以用作音乐元素或解构的输出570。除了参考系统的各种部件描述的音乐元素或解构的输出570以外，任何数量的其它音乐元素或解构的输出570也可从相同的或其它信息产生。在一个例子中，例如，音符被确定为断奏附点八分音符。其它音乐元素570可包括音符主体、符干、符尾、时值附点、断奏附点和音符的其它特征。其它音乐元素570甚至也可包括在显示器上的或打印出的音符表示的风格和颜色、符干的方向(例如，该方向可以是默认的，或根据其在五线谱上的位置来指示其反向，或它可被改变以指明音符是特定音符序列的部分)、音符主体的大小(例如，它可为了易读性按大小排列，以将它与其它音符区分开，或为了某个其它原因)、音符符头的形状(例如，对于击发声，它可为不同的形状)、或任何其它有用的信息。在其它例子中，音乐元素或解构的输出570可包括五线谱线、谱号、小节号、歌词、歌词对齐、页标题、五线谱标题、页边空白、乐器数据、重放数据等。在又一些其它实施方式中，音乐元素或解构的输出570可包括关于是哪个合作者增加或编辑了一文件的一部分、其他合作者是赞成还是反对该编辑的信息、或其它有用的合作信息。音乐元素或解构的输出570可被保存或输出。

应认识到，上面描述的各种单元和部件可用各种方法实现，而不偏离本发明。例如，某些单元可为其它单元的部件，或可实现为另一单元的额外功能。进一步地，根据本发明，可用很多方法连接单元，且数据可在其间以很多方式流动。更进一步地，在2008年2月1日提交的RobertD.Taub等人的标题为“MUSIC TRANSCRIPTION”的美国申请号12/024,981中进一步描述了的涉及音频解构的各种实施方式，该专利申请为了所有目的在这里通过引用被并入。

乐谱解构

除了或代替从音频信号解构出音乐元素，从乐谱图像解构出音乐元素在一些情况下可能是合乎需要的。本发明的实施方式配置成接受乐谱图像作为输入。应认识到，从乐谱图像解构出音乐元素或执行乐谱解构的很多方法是可能的。

图6A示出根据本发明处理音乐图像数据以提供光学字符识别(OCR)特征的系统。OCR处理器602接收使用乐谱捕获设备606例如摄像机或扫描仪捕获的乐谱604的图像数据。OCR处理器602产生包括相应于乐谱输入的数据的乐谱输出，但是是以可被多样化地利用的数字形式。乐谱的数字表示可容易由其它系统处理，包括但不限于，打印出的输出，供搜索机构使用，用于分配和与多个用户合作，并用于例如使用MIDI部件产生音频输出。例如，图6A示出乐谱可被提供到打印功能608、搜索功能610、分配功能612和音频/MIDI输出614。

所捕获的乐谱图像可使用任何图像捕获设备产生，包括网络摄像头、电话摄像机、对准即拍摄像机以及其它的和更复杂的摄像机。一旦乐谱的图像被捕获，它就被提供给OCR处理器用于调节和额外的处理。

图6B示出从捕获设备606(图6A)产生的、作为输入提供到OCR处理器602的示例性图像数据652。图6B示出，OCR处理器602包括接收图像数据的图像预处理部件654。图像数据可以为例如位图图像(.bmp)、JPEG数据、TIFF数据的形式和数码摄像机通常使用的其它文件格式等。图像处理部件执行二值化、图像的倾斜校正以及不相关的背景成分的移除。二值化操作涉及对所捕获的图像中的亮度和对比度的调节。倾斜校正操作涉及图像的校正，这些图像从一方向旋转，将音乐五线谱线对齐为平行于图像的底部边缘。不相关的背景成分移除通过移除噪声伪像和其它不需要的背景成分来清理图像。如果需要，预处理操作可由外部图像处理例程或模块执行。

预处理部件654向神经网络(NN)处理部件656提供所产生的数据。NN处理部件656识别在所捕获的图像中的音乐符号，并执行对光学图像的认知处理。也就是说，神经网络执行识别在所捕获的音乐图像中的音乐符号的计算机过程，且在必要的场合认知地解译识别出的符号并从输入数据推断，以确定在所捕获的图像中的伪像或符号的适当标记。

NN处理部件656包括被培训的神经网络，其接收经调节的乐谱图像。如果需要，被培训的神经网络可利用其输出来提供反馈并调节其操作。这样的反馈可能需要因子图操作，以利用反向传播技术或调节已被培训的神经网络的网络节点权重。使用输出作为反馈的其它技术对本领域技术人员是已知的。

NN处理部件656的输出被提供到产生NN的输出的后处理部件658。后处理部件的输出可接着被提供到各种功能，例如图6A所示的打印、搜索、分配和音频功能。后处理部件对NN输出执行解译功能，以确定NN所识别的哪些伪像类型可能是正确的。由后处理部件658所进行的解译是基于NN所产生的置信度值。本领域技术人员应熟悉对NN置信度值输出数据的解译技术。后处理接着产生以适当格式的OCR处理器输出，例如音乐音符信息或相应于识别出的音乐伪像的其它信息。例如，音乐信息可采取电子乐器表示的形式，例如MIDI格式、或其它数据格式、或信息的其它组合。

应认识到，上面描述的各种单元和部件可用各种方法实现，而不偏离本发明。例如，某些单元可为其它单元的部件，或可实现为另一单元的额外功能。进一步地，根据本发明，可用很多方法连接单元，且数据可在其间以很多方式流动。更进一步地，在2008年2月13日提交的RobertD.Taub等人的标题为“MUSIC SCORE DECONSTRUCTION”的美国临时申请号61/028,490中进一步描述了的涉及乐谱分解的各种实施方式，该专利申请为了所有目的在这里通过引用被并入。在2005年12月15日提交的Robert D.Taub的标题为“SYSTEM AND METHOD FOR MUSICSCORE CAPTURE AND SYNCHRONIZED AUDIO PERFORMANCEWITH SYNCHRONIZED PRESENTATION”的美国专利申请第11/303,812号中可找到乐谱捕获技术的其它方面，该专利申请为了所有目的在这里通过引用被并入。

合作门户

本发明的很多方面涉及合作门户的功能和/或构成。在一些实施方式中，合作门户可实现为图1的门户160。合作门户的各种实施方式可提供关于文件管理、音乐观看、音乐编辑、虚拟会议、会话记录和合作音乐处理的其它方面的功能。应认识到，就图形用户界面(GUI)设计和实现、合作门户所允许的用户互动的水平、GUI控制的类型、模块和部件之间的功能交叉和依赖性、网络设计和接口、文件管理和合作门户的其它方面而言，可存在很多可能性。因此，下面的描述仅用来说明本发明的一些示例性实施方式，且本领域技术人员应认识到，本发明的范围不受所公开的特定实施方式的限制。

图7示出根据本发明的可包括在合作门户700中的实施方式中的各种模块的一个示例性配置。在一些实施方式中，合作门户700包括三个主要的层：登录层702、GUI层710和输出产生层790。应认识到，分成三层仅用来使合作门户700的各种功能的讨论清楚，并且可以或可以不影响合作门户700的实际实现。

登录层702可操作来控制合作门户700的各个meta-GUI方面。登录层702的一些实施方式实现为图1的网络接口单元150。在一些实施方式中，登录层702可操作来控制网络路由和权限。由于各种原因，保护或管理GUI或合作项目元素可能是合乎需要的。例如，比如说，服务器为很多不同的合作者存储关于很多不同合作项目的数据。合作者可能希望限制对其合作文件的访问，例如以保护数据免遭不希望有的编辑或删除，保护数据免遭不希望有的观看或复制，查看谁正在使用文件以及它们何时被使用，以及为了其它原因。

在一些实施方式中，登录层702可操作来接收登录信息，使用该登录信息可确定用户访问权限。用户可以被或可以不被限制访问整个合作门户700(例如，合作门户700可作为订阅服务操作)、合作门户700的某些部分(例如，可能有允许访问不同价格的不同功能的分层定价结构，不同级别的用户可访问不同的功能，不同类型的合作项目可与不同类型的功能相关，等等)、某些文件(例如，用户只可访问与给定合作项目相关的文件，用户只可访问该用户上载或投稿的文件，用户对项目中的不同文件可以有不同类型的访问(例如，读、写、编辑、删除、评论等)，等等)、或其它信息(例如，合作者信息、某些文件管理功能、某些公布和/或共享功能等)。

在其它实施方式中，登录层702可操作来接收登录或其它信息以确定用户的特征，而不是访问权限。例如，某个配置或偏好信息可能与给定的用户、用户工作站、用户类别等相关。例如，对于给定的合作项目，一组用户可为该合作项目的“所有者”(例如，有对相关文件的所有方面的完全权限)，第二组用户可为“合作者”(例如，有对某些合作和编辑能力的使用权)，第三组用户可为“投稿人”(例如，只有对他们投稿的文件的编辑权)，第四组用户可为“爱好者”(例如，没有对任何文件的编辑权，但有权听被公布的输出文件)，以及第五组用户可能根本没有使用权。在另一实施方式中，登录信息用于配置合作门户700的偏好，以匹配关于用户的配置文件。例如，可给新用户和专家用户提供不同的特征组和菜单。

在又一些其它实施方式中，登录层702可操作来接收登录信息或关于某些用户的能力或偏好的其它信息，包括没有权访问特定合作项目的那些用户。在一个实施方式中，用户向门户提交关于他们知道如何演奏哪些乐器、其技能水平、其影响力等的信息。这可帮助乐队和其他人找到要联系来接收音乐稿件或某些类型的反馈的人。在另一实施方式中，用户向门户提交关于其收听偏好的信息。乐队、制作人、其他用户以及其他人和实体可接着使用该信息来向那些用户指示或建议可能合意的内容，以满足其偏好。

在又一些其它实施方式中，登录层702可控制各种网络业务和/或文件管理功能。例如，根据各种网络特征(例如，用户工作站的地理位置、登录到合作门户700或特定合作项目中的用户的数量、在给定时间传输的数据的量、被传输的数据的类型、所使用的加密的类型等)发送或控制网络业务和/或文件上载和下载的流量可能是合乎需要的。在某些实施方式中，登录层702可操作来收集某些类型的网络信息，并使用该信息来执行上面的功能。

在合作门户700的一个示例性使用中，用户可发起一合作项目。用户可通过建立关于该项目的偏好来开始。例如，用户可设定访问权限、文件处理偏好、音乐创作偏好、乐谱表示权限等。用户也可上载至少一个音乐稿件，以开始合作项目的创作。在合作门户700的另一示例性使用中，用户可登录到合作门户700中以访问现有的合作项目。用户可接着将额外的音乐稿件上载到该项目，编辑关于合作项目的现有信息，或以其他方式与合作项目交互。

GUI层710可操作来根据本发明的实施方式控制各种用户界面功能。完全为了描述的清楚，GUI层710的一些功能可关于两个子层被描述：乐谱层720和合作层730。应认识到，合作门户700的实施方式可以或可以不使用这些层来实现。

如这里描述的乐谱层720可处理合作门户700的与音乐有关的方面中的任何一个或全部，这些方面包括观看722、编辑724、录制和重放726以及制作728功能。这些不同功能中的任何一个或全部可用很多不同的方法处理音频和有关数据。例如，用户可在信号级、在乐谱表示级或以任何其它形式与音频数据交互。进一步地，取决于所使用的数据表示的类型，用户可能能够或可能不能够利用各种功能。例如，可能希望只在合作门户700的乐谱表示模式中提供音符编辑能力，而只可在合作门户700的信号表示模式中提供信号处理功能。

当然，合作门户700也可操作来在多个表示模式中同时操作。在一些实施方式中，观看功能722可操作来提供如图8A和8B所示的多个视图。图8A示出观看功能722的例证性实施方式，其包括一合作项目的一部分的三个对齐的视图。图8B示出图8A所示的观看功能722的放大视图的例证性实施方式，集中于一特定的音符。

首先转到图8A，其示出乐谱表示视图810、信号表示视图820和钢琴卷帘表示视图830。可对齐这些视图的时间标尺。在一些实施方式中，不同的视图可操作来随着重放或录制的进行而滚动。在某些实施方式中，当重放或录制进行时，某些元素可保持在适当的位置，以增强观看体验。例如，当视图滚动时，当前重放位置条812可保持在观看窗的一个位置(例如，中央)上，以表示当前正播放或接收什么数据。在另一例子中，当视图滚动时，谱号、调号、声道标题、节拍和其它元素可保持在观看窗的一个位置(例如，左边)上。

乐谱表示视图810可提供关于乐谱(例如，活页乐谱)元素的信息，包括音符、五线谱、小节号、歌词、调号等。在乐谱表示视图810中提供关于所显示的(或可显示的)音乐元素中的任何一个或全部的某些编辑能力可能是合乎需要的。例如，可添加、删除或移动音符；音符的部分可被变调、数字转换(例如，到最接近的八分音符)等；可转换符干方向；可添加或更改表达标记(例如，断奏附点、圆滑奏、重音等)；可更改谱号、调号、拍号和其它信息，可添加、更改、排列歌词，等等；可添加反复符号、小节线和其它小节处理；等等。

信号表示视图820可提供关于一个或多个音频信号的信息，包括振幅、包络等。在信号表示视图820中提供关于所显示的(或可显示的)音乐元素中的任何一个或全部元素的某些编辑能力可能是合乎需要的。例如，可清理信号(例如，通过使用滤波器、或通过比较该信号与其它信号数据)；可产生包络；可解构出音符开始和其它音乐元素信息(例如，以不同的分辨率或使用来自其它音乐稿件的更多信息进行解构)；可对信号进行标准化(例如，以避免多个音乐稿件之间的平均或峰值音量中的差异，或避免削波)；可对某些部分进行重新采样(例如，以不同的采样率)；可添加谐波效应(例如，失真、滤波、混响等)；可添加包络和有关的效果(例如，摇摄、渐强、减弱等)；可剪切、复制或粘贴信号的部分等；等等。

钢琴卷帘表示视图830可提供与在乐谱表示视图810中所提供的类似或不同的信息，但由于各种原因，可被不同地表示。例如，用户可能不理解如何阅读活页乐谱，这使乐谱表示视图810对该用户可能是不合需要的表示方案。在另一例子中，用户可能希望微移音符，以细微地影响该音符的表现性重放，但不够影响该音符在乐谱上的位置。如所示，钢琴卷帘表示视图830示出与钢琴键盘有关的音符音高和音符时值随着时间的过去的条线图式表示。也可提供其它信息，例如包括小节线。

应认识到，可提供很多其它观看功能。在一个实施方式中，每个视图显示在可选择的窗口中，该窗口可与其它窗口中的一些或全部对齐(如所示)或可被独立地显示(例如，可被最大化到显示器的较大部分)。在各种实施方式中，可提供用于增强用户界面体验的菜单和控制。例如，可提供可点击的图标，以允许用户执行与特定的表示有关的各种功能(例如，在乐谱表示视图810中，可提供“添加音符”图标)。在另一实施方式中，控制可根据当前活动的表示或用户的其它动作而变化。例如，如果用户在信号表示视图820中选择音频信号的一部分(例如，通过使用鼠标点击和拖曳)，“对选择提取音符开始”图标可能出现(或变成可选择的)。在又一些其它实施方式中，当用户在不同的表示视图中左击、右击、双击或以其它方式选择音符或其它音乐元素时，可给提供用户不同的菜单和选项。

在一些实施方式中，可提供放大功能。例如，放大信号表示视图820以能够更清楚地看到音频信号的方面可能是合乎需要的。当多个窗对齐地显示时，这些窗都可一起缩放，以维持对齐。用户可能能够例如通过选择缩放窗(例如，信号表示视图820中的信号的一部分)或通过选择特定的音乐元素来缩放。在各种实施方式中，“放大”视图可提供额外的信息，且可以或可以不处在分开的窗或框中。

例如，通过选择特定的音符，可给用户提供对该音符特定的额外视图。图8B示出这种情况的实施方式。用户在图8A的乐谱表示视图810中选择音符814。给用户提供了三个新的表示视图：音符包络视图840、音符音色视图850和音符信息视图860。

在音符包络视图840中，可提供音频信号的关于该音符的部分。也可提供其它信息，包括所得出的包络、包络交叉等。在音符音色视图850中，可提供音频信号的关于该音符的部分的谐波成分。也可提供其它信息，包括所识别出的具有高置信度的频率、置信度值、峰值位置和振幅、基频标识、泛音系列、叠加的乐器音色图(例如，模拟的大钢琴的谐波成分)、本底噪声阈值等。在音符信息视图860中，可提供关于选定音符的各种类型的文本信息。例如，可提供关于下列内容的信息：音符的表示音乐位置(例如，声道、五线谱、小节、开始时间戳、终止时间戳、时值等)；所提取的信息(例如，所提取的音符开始和音符终止时间、峰值振幅、ADSR包络信息等)；量化的或以其他方式校准的信息(例如，四舍五入的开始和终止时间、预测的音符值、预测的音高、预测的音调、预测的乐器或声道等)；关于各种信息的置信度值(例如，只可能以96％的置信度确定音符是四分音符等)；等等。

返回到图7，合作门户700的乐谱层720的其它功能涉及编辑功能724。编辑功能724可涉及音乐稿件的信号级、音乐稿件的音乐元素、多个音乐稿件中的或作为整体的合作项目的共享元素或特征、或合作项目的任何其它有用的方面。在一些实施方式中，编辑功能724直接影响合作项目的音乐元素(例如，音符、拍速、力度强弱等)。在其它实施方式中，编辑功能724影响音乐元素的重放(例如，通过表现的细微之处、效果、乐器等)。在又一些其它实施方式中，编辑功能724影响音乐元素的显示(例如，“摆动的”八分音符可被显示为八分音符，即使它使用切分音来演奏)。

编辑功能724的一些方面涉及音频和乐谱解构。上面更充分地讨论了音频和乐谱解构的实施方式。在合作门户700的一些实施方式中，在不同的解构级别接收音乐稿件。根本没有解构的音乐稿件可以在它们被上载到合作门户700或添加到合作项目时被解构。在一些情况下，音乐稿件(或其部分)可在没有任何解构的情况下添加到合作项目。

在某些实施方式中，以前没有被解构(或以前在特定的级别被解构)的音乐稿件可以在需要时被解构。例如，低音线可添加到合作项目以对一构想进行试验，并可保持为音频录制，而没有解构成音乐元素。稍后，合作者可能希望进一步对低音线的组成部分进行试验。因此，他们可能希望解构出节奏(例如，以将另一声道重新调准到该低音线的节奏或改变拍速)，解构出音符音高或音程(例如，这样，此选择可能被变调到不同的音调，或可改变乐器)，等等。

应认识到，虽然可在信号级执行某些功能，但是，音乐元素级可提供更多或改进的功能。例如，在没有首先在音符级提取某些音乐元素的情况下从信号确定音调或节拍可能不实际。在另一例子中，可能在信号级减慢乐段的拍速(例如，通过将样本智能地插到数字音频信号中)，但可能增加不希望有的伪像(例如，可能有混叠，或某些类型的失真或混响可能在时间延长时听起来很奇怪)。通过在解构音乐元素之后改变拍速可改进结果(例如，音符效果可保持联系到一音符，而不影响效果本身)，

合作门户700的乐谱层720的其它功能涉及录制和重放功能726。一些实施方式提供非合作式音乐创作和处理环境所提供的传统类型的录制和音频重放功能726。然而，其它实施方式利用合作门户700的合作性质来提供额外的功能。

在各种实施方式中，音乐稿件可用各种方式添加到一合作项目，包括通过上载、从数据库添加、或直接录制到该项目中。在一个实施方式中，投稿人通过连同项目的其它部分一起表演而将其音乐稿件录制到合作项目中。例如，投稿人可演奏合作项目的一部分，同时通过重放录制声乐作品。在另一实施方式中，音乐稿件以更先进的方式被添加。例如，投稿人可上载音频样本(例如，弹子落进水晶饮水玻璃杯中的录音)，并指导合作门户700将样本添加到每隔三个小节的第一拍。

在一些实施方式中，可录制音乐稿件以提供特定的数据。例如，用户可录制节拍器声道(例如，以帮助录制其它声道或帮助拍速和节拍确定)、一组基本的根音位置和弦(例如，以帮助音调确定)、一组声乐音节(例如，以充当应用于吉他声道的音码滤波器)等。在某些实施方式中，所提供的音频信息可实质上实时地、以特定的时间间隔、在用户请求时或在任何其它有用的时间被解构。

也可用各种方法来实现录制和重放功能726的重放功能以利用合作门户700的合作性质。在一个实施方式中，用户可能能够播放合作项目中的特定声道的全部或一部分。在另一实施方式中，用户可能能够播放整个合作项目及其所有组成的声道和音乐稿件。在又一实施方式中，用户可能能够播放满足特定特征的所有音乐稿件(例如，来自特定的投稿人或投稿人的组，在特定的时间范围期间被添加或更改，被安排好以备合作者考虑，等等)。在又一些其它实施方式中，用户可能能够跳到合作项目的最近被修改的特定部分，在各种所提出的稿件之间转换到特定的部分，或执行任何其它有用的重放功能。

应认识到，也可根据本发明提供很多其它重放和录制功能。例如，音乐稿件可在它们被载入(例如，它们可为流式的)时播放。在另一例子中，音频可在被上载、录制、重放等时被处理或解构。

合作门户700的乐谱层720的其它功能涉及制作功能728。在一些情况下，合作者可能希望设计合作数据的形式或添加与各种类型的制作有关的合作数据。在一个实施方式中，合作门户700包括歌词处理功能。例如，歌词处理功能可包括添加和编辑歌词；使歌词与音符或其它音乐元素对齐；并设计歌词显示的形式(例如，字体、尺寸、跨越多个音符的音节或单词的处理，等等)。

在另一实施方式中，制作功能728包括非音乐(或间接的音乐)乐谱表示信息的处理。例如，合作门户700可允许用户添加小节号；声道标题；乐谱标题；页眉、页脚和页边空白；表情和力度强弱标记；乐谱符号表示法(例如，西格纳、尾奏等)；乐器特有的标记(例如，弦线记谱栅格、拉奏或弹拨的方向等)；文本信息(例如，演奏乐谱上的指引文本、版权信息等)；或对演奏者或其他参与者可能有用的任何其它数据。

制作功能728的又一些其它实施方式可包括音频制作特征而不是乐谱制作特征。例如，合作门户700可提供关于采样(例如，为了改变采样率)、低半音(例如，为了除去声道特有的或投稿人特有的数据)、编码(例如，对于特定的编解码或媒体播放器)等的能力。其它信息可被提供给合作门户700的输出产生层790或由输出产生层790提供。

在合作门户700的各种实施方式中，提供了与合作层730有关的功能。在一些实施方式中，合作层730包括文件管理功能732和会议功能734。

图9示出根据本发明的用于合作门户700的GUI 900的实施方式，GUI 900示出各种合作层730功能。GUI 900的一些功能可涉及文件管理功能732，而GUI 900的其它功能可涉及会议功能734。

GUI 900提供了很多方面，每个方面提供各种类型和级别的功能，包括视频会议区910、聊天区920、音乐区930和很多按钮950。视频会议区910提供对视频会议有用的特征。例如，可在视频会议的时间为每个在线的合作者提供视频窗，因此合作者都可以有虚拟的“现场直播”合作会话。应认识到，根据本发明可包括各种音频和视频特征来增强视频会议区910和能力。例如，可提供音频和视频控制(例如，音量、分辨率等)、“呼叫”控制(例如，参加会议、邀请、挂断、转移等)，以及呼叫者控制选项(例如，将屏幕控制传递到会议的特定出席者，等等)。

在各种实施方式中，聊天区920可包括对文本会议或对记录有用的各种特征。在一个实施方式中，聊天区920仅仅充当记录由会议会话中的参与者输入的文本信息的虚拟记事本。在其它实施方式中，聊天区920可操作来记录和/或显示视频、音频和其它数据。例如，投稿人可播放即兴小段并将它与文本“你们认为这怎么样？”一起附到聊天区920。在又一些其它实施方式中，聊天区920可充当接受徒手画的图画和文本(例如，使用鼠标作为笔)的虚拟白板。在又一些其它实施方式中，聊天区920可操作来翻译信息，以获得增强的记录或可用性)。例如，聊天区920可自动转录在音频或视频会议期间讲的对话，将徒手画的文字转换成可编辑的文本，或其它类似的功能。

音乐区930可提供对合作项目的音乐部分的合作处理有用的任何功能。在一个实施方式中，各种表示视图可显示和/或捕获在音乐区930的表示框932中。例如，如所示，合作项目的一部分的乐谱和信号表示可显示在表示框932中。

音乐区930也可包括重放控制框634。如所示，重放控制框634可包括任何数量的控制和指示器，包括播放控制(例如，播放、暂停、停止、录音等)、进度条(例如，显示消逝的重放时间的进度指示器、对在装入期间的重放的进度指示器(例如，流式重放)、章节或其它索引指示器等)、用于评论的指示器(例如，合作者输入评论或标注位置的位置)、以及任何其它有用的指示器或控制。

在一些实施方式中，音乐区930提供增强的功能。在一个实施方式中，合作者可向合作文件的部分提供评论936。例如，比如说，一乐队将其合作文件张贴到歌迷网站上，以让歌迷听和评论。当听该项目时，歌迷(John)可将评论936添加到文件，表达某些想法，例如“我喜欢这段，但我认为，如果有爵士风格更强的低音即兴小段，那么它听起来更棒，就像他们的上一张专辑上的一样”。接着，此评论936可作为该文件的一部分显示出来，供合作者和其它爱好者观看。其他歌迷可接着响应于John的评论来张贴文本、视频、音频或其它评论936。例如，另一歌迷(Mary)可张贴陈述“我喜欢它本来的样子！”的响应。又一歌迷(Steve)可张贴包含他创作的新低音线的音频片段的响应，他认为这个音频片段将完美地适合该歌曲。以这种方式，评论936可以变成一种博客工具。如所示，在视频会议会话期间，合作者可停下其合作项目，及其相关的评论936，并讨论对其项目的反应。

音乐区930的另一增强的功能可以是以合作方式在音乐区930内编辑的能力。在各种实施方式中，合作者可从音乐区930内使用合作门户700的所有可适用的功能。在其它实施方式中，提供了进一步的功能，如在音乐区930上虚拟“画图”的能力。例如，在视频会议会话期间，合作者可能希望暂停合作项目的重放，并指出他不喜欢的音符。使用虚拟画图功能，合作者可虚拟地绘制在该音符周围的圆圈和甚至指向音符938的箭头。应认识到，这个和其它类似的信息可暂时在会话期间储存在与合作项目相关的会议会话的日志中，或根本不存储，取决于某些偏好。

GUI 900的实施方式也可提供任何数量的其它控制。在一些实施方式中，提供了用于使用合作门户700的其它某些功能的多个按钮950。应认识到，根据本发明可用很多其它方式提供对门户功能的使用，包括通过使用菜单、其它窗口和模块等。作为例子，在图9中示出8个按钮950：“添加稿件(Add Contribution)”、“爵士音乐即兴演奏会的模式(Jam SessionMode)”、“转换重放(Toggle Playback)”、“播放/录制选项(Play/RecordOptions)”、“偏好(Preferences)”、“合作菜单(Collaboration Menu)”、“公告板(Bulletin Board)”和“搜索(Search)”。

“添加稿件”按钮可允许GUI 900的用户将音乐稿件添加到合作项目。在添加过程期间，也可提供其它选项(例如，通过提供其它菜单)。例如，音乐稿件可作为新声道添加或添加到现有的声道，或作为对项目的部分的很多选项之一；音频可在添加期间被处理(例如，通过下变频、解构等)；或音频可被同步或量化到某些参数(例如，到鼓声道)。

“爵士音乐即兴演奏会的模式”按钮可允许用户输入虚拟的即兴演奏会。在该示例性模式中，参与者可在一起“即兴演奏”(例如，表演)的同时演奏合作项目的全部或部分。额外的选项可允许参与者例如重复演奏合作项目的某些部分(例如，以对相同乐段不断尝试新的理念或实践歌曲的片段)，录制即兴演奏会的全部或部分(例如，实时地)，自动解构即兴演奏会的全部或部分(例如，以产生音乐元素、产生乐谱等)，等等。

“转换重放”按钮可允许合作者在合作项目中的多个可能的乐段之间转换。例如，假定三个不同的合作者(例如，两个歌迷和一个乐队成员)都为声乐声道提出了想法。在合作项目的重放期间(例如，在视频会议期间)，合作者可能能够在三个提交中转换，以决定他们最喜欢哪个，如果有的话。

额外的功能可允许合作者选择他们更喜欢的乐段。例如，GUI 900的一些实施方式可给合作者提供投票表决按钮，以允许合作者投票表决特定的意见。当然，很多额外的控制、指示器和功能可支持或增强此能力。例如，合作门户700可操作来记录选票，产生统计数字，确定优胜者，考虑其它各方(例如，歌迷)的投票，等等。

“播放/录制选项”按钮可提供对任何数量的播放和录制选项的访问途径。例如，选择该按钮可使一菜单显示在GUI 900中，该菜单具有选择播放哪些声道、是否锁定某些声道以防止进一步的编辑等的选项。上面进一步讨论了可利用的一些其它播放和录制功能。

“偏好”按钮可给用户提供对任何数量的偏好的访问途径。在一些实施方式中，很多偏好可用于配置GUI 900。例如，用户可选择GUI 900所提供的不同框、区域、控制和指示器的尺寸、可用性和功能。在其它实施方式中，偏好可用于配置会议、用户配置文件和合作门户700的任何其它特征。

“合作菜单”按钮可提供与合作有关的选项。例如，该菜单可提供会议选项(例如，开始会议、结束会议、邀请出席者、阻挡出席者、显示出席者信息等)、安全设置(例如，关于数字版权管理、加密、文件访问等)、改变用户状态(例如，给特定的用户提供特定的许可)、公布选项(例如，输入公布模式、向歌迷网站公布合作项目、烧毁试播曲目等)，等等。

合作菜单的其它特征可涉及文件管理。与合作项目有关的音乐稿件和其它文件可来自不同的源，储存在不同的位置，以不同的格式储存，包含不同类型的信息，具有不同的安全设置，等等。因此，合作门户700的很多功能可涉及允许某些用户处理文件管理。此外，在合作环境中提供与改变管理有关的功能可能是合乎需要的。例如，合作者可能希望能够锁定文件以防止进一步的改变，对某些用户限制改变，记录文件的以前的版本(例如，在一些情况下限制到某个数量的版本，在某个量的时间内等)，以及对合作项目的改变有其它类型的控制。

“公告板”按钮可提供对虚拟公告板的访问途径，其中用户可张贴不同类型的内容。例如，歌迷可张贴关于乐队(例如，关于音乐指导、最近的巡回演出音乐会、最近的专辑、成员等)、试听磁带和音乐稿件等的一般评论；合作者可张贴对歌迷的问题、即将来临的演出的传单、对歌迷评论的反应等；以及任何其它有用的信息。

“搜索”可提供对各种搜索功能的访问途径，包括基于音乐的搜索功能。在一个实施方式中，合作者可搜索具有某些特征(例如，来自地理区域、经过某种培训、具有某些影响等)的音乐家，作为其乐队、乐团、管弦乐队等的可能的未来投稿人或成员。在另一实施方式中，音乐家可能希望搜索音乐“剪贴画”。例如，音乐家可能希望从头到尾浏览以7/8节拍写的主旋律库，以得到对合作项目的某些部分的启发。该库可例如从解构的音频文件的数据库中自动产生，被贡献出作为开放式音乐共享数据库，张贴到数据库用于出售等。在又一个实施方式中，音乐家可能希望搜索与他们写的乐段类似的乐段，以避免或检测可能的侵权或乐曲作品的其它未经授权的使用。在Robert D.Taub等人的标题为“MUSIC-BASEDSEARCHING”的美国专利申请第_____号中提供了基于音乐的搜索功能的实施方式，该申请同本申请同时提交并为了所有目的在这里通过引用被并入。

虽然上面的描述主要集中于音乐家的乐队和乐团对GUI 900的使用，应认识到，很多其它类型的用户是可能的。在一个实施方式中，制作人和工程师可使用合作门户700来在最终音乐输出上进行合作。在另一实施方式中，市场人员、音乐节目主持人和其他人可与乐队和/或其他人合作，以评论、帮助完成或预览音乐。在又一个实施方式中，音乐家可使用合作门户来学习音乐。例如，乐团能够一起在GUI 900内练习，或乐队的新成员或可能的成员能够演奏歌曲来练习或试音。

在合作门户700的一个示例性用法中，学生可能希望通过互联网与其钢琴老师会面，以得到对难的乐段的帮助。乐谱可显示在音乐区930中，且学生和老师可在视频会议区910开始视频会议。当学生演奏时，老师能够使用GUI 900的各种特征指出错误或改进的区域。可选地，老师能够演奏乐曲的某些部分，以让学生听。

在合作门户700的另一示例性用法中，学生可能希望练习钢琴曲。乐谱可显示在音乐区930中，且学生可进入练习模式。当学生演奏时，他的音乐输入可自动解构成音乐元素(例如，至少到显示为乐谱表示所必需的水平)。学生演奏的乐谱表示也可显示在音乐区930中。例如，当学生演奏时，他可看到其演奏的乐谱表示上覆在音乐区930中的原始乐谱上(例如，以不同的颜色)。学生可接着能够清楚地看到其演奏中有错误的地方(例如，在音符音高和/或时值上)。进一步的功能可帮助学生识别改进的区域、需要额外的练习的区域、需要额外的练习的技能、显示随着时间的过去的提高的得分和学习进程、供学生的老师所使用的练习日志和记录、以及任何其它有用的信息。例如，合作门户700可识别出，每当在音乐中出现大的跳跃时，学生演奏不正确的音符。合作门户700可接着产生或识别一组练习曲(或其它乐曲)以帮助学生练习该技能。

应认识到，在合作项目创作期间或之后，很多不同类型的数据的很多类型的输出是可能的。如图7所示，合作门户700的其它功能可涉及输出产生。在一些实施方式中，输出产生由输出产生单元处理，如图1所示的输出产生单元140一样。

在各种实施方式中，来自合作项目的输出用于产生乐谱表示的输出。在一个实施方式中，处理从音频输入或乐谱输入解构的或以其他方式接收到的音乐元素，以自动产生乐谱表示。传统软件包和库可用于从乐谱表示产生活页乐谱。很多这样的工具接受以诸如MIDI等预定格式、以乐曲表示的形式的输入。因此，系统的一些实施方式产生实质上与MIDI标准一致的乐谱表示，以确保与这样的传统工具的相容性。一旦产生乐谱表示，可能的应用就是大量的。在不同实施方式中，乐谱显示在设备显示器上、被打印出、导入到音乐出版程序中、被储存或与其它人共享(例如，用于另一合作的音乐项目)。

在另一实施方式中，来自合作项目的输出用于产生音频表示输出。在一个实施方式中，音频表示输出与音频存储器和/或重放设备相容。例如，音频表示输出可适合于烧录成音频光盘、MP3文件或任何其它专有的或非专有的格式。在另一实施方式中，音频表示输出可配置成由音频信号处理系统使用。在又一实施方式中，音频表示输出可操作来直接或间接地通过音频重放部件(例如，数字家庭音频部件、扬声器、声卡等)播放。

在输出产生的其它实施方式中，来自合作门户700的表示输出被配置成被储存，供随后使用或发送到另一系统。在一个实施方式中，输出数据通过网络发送到客户工作站，用于进一步的处理。例如，客户工作站可用于解构音频输出，以重放音频信号数据或执行合作门户700的任何其它输出功能。

示例性实施方式

上面描述的系统和方法可用很多方式实现。一种这样的实现包括各种电子部件。例如，使用适合于在硬件中执行一些或全部适用功能的一个或多个专用集成电路(ASIC)，可单独地或共同地实现各种系统的单元。可选地，功能可由一个或多个其它处理单元(或核心)在一个或多个集成电路上执行。在其它实施方式中，可使用其它类型的集成电路(例如，结构化的/平台ASIC、现场可编程门阵列(FPGA)和其它半定制IC)，其可用本领域已知的任何方式编程。每个单元的功能也可使用包含在存储器中的指令来整体或部分地实现，这些指令被设计成由一个或多个通用或专用处理器执行。

图10提供了用于实现本发明的某些实施方式的计算系统1000的结构图。在一个实施方式中，计算系统1000可起图1所示的门户160的作用。应注意，图10只表示提供各种部件的一般化图示，在适合时可利用这些部件中的任何一个或全部。因此，图10广泛示出各个系统元件可如何以相对分开的或相对更综合的方式实现。

示出包括硬件元件的计算机系统1000，这些硬件元件可通过总线1026电连接(或可在适当时以其他方式进行通信)。硬件元件可包括：一个或多个处理器1002，其包括但不限于，一个或多个通用处理器和/或一个或多个专用处理器(例如，数字信号处理芯片、图形加速芯片和/或类似物)；一个或多个输入设备1004，其可包括但不限于，鼠标、键盘和/或类似物；以及一个或多个输出设备1006，其可包括但不限于，显示设备、打印机和/或类似物。

计算系统1000可进一步包括(和/或与其通信的)一个或多个存储设备1008，其可包括但不限于，本地和/或网络可访问的存储器，和/或可包括但不限于，磁盘驱动器、驱动器阵列、光学存储设备、固态存储设备例如随机存取存储器(RAM)和/或只读存储器(ROM)，这些存储器可为可编程的、可快速更新的，等等。计算系统1000也可包括通信子系统1014，其可包括但不限于，调制解调器、网卡(无线或有线)、红外通信设备、无线通信设备和/或芯片组(例如蓝牙设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备等)和/或类似物。通信子系统1014可允许使用网络(例如，下面描述的网络，列举一个例子)和/或这里描述的任何其它设备交换数据。在很多实施方式中，计算系统1000将进一步包括工作存储器1018，其可包括RAM或ROM设备，如上所述。

计算系统1000也可包括被显示为当前位于工作存储器1018内的软件元件，包括操作系统1024和/或其它代码，例如一个或多个应用程序1022，应用程序1022可包括本发明的计算机程序，和/或可设计成实现本发明的方法和/或配置本发明的系统，如这里所述的。仅仅作为例子，关于上面讨论的方法描述的一个或多个程序可被实现为计算机(和/或计算机内的处理器)可执行的代码和/或指令。在一个实施方式中，图1的音频和/或乐谱解构单元120以及各种其它客户端方法被实现为计算系统1000可读取的应用程序1022。

这些指令和/或代码的集合可储存在计算机可读介质1010b上。在一些实施方式中，计算机可读存储介质1010b是上面描述的存储设备1008。在其它实施方式中，计算机可读存储介质1010b可包括在计算机系统内。在又一些其它实施方式中，计算机可读存储介质1010b可与计算机系统分离(即，可移除的介质，例如光盘等)和/或设置在安装包中，使得存储介质可用于使用储存在其上的指令/代码给通用计算机编程。这些指令可采取可由计算机系统1000执行的可执行代码的形式，和/或可采取源代码和/或可安装的代码的形式，源代码和/或可安装的代码当在计算机系统1000上编译和/或安装(例如，使用各种通常可得到的编译器、安装程序、压缩/解压缩工具等)时接着呈现可执行代码的形式。在这些实施方式中，计算机可读存储介质1010b可由计算机可读存储介质阅读器1010a读取。

对本领域技术人员来说很明显，可根据特定的要求进行相当多的变化。例如，也可使用定制的硬件，和/或特定的元件可在硬件、软件(包括可移植软件，例如小程序等)或两者中实现。进一步地，可使用到其它计算设备例如网络输入/输出设备的连接。

在一些实施方式中，一个或多个输入设备1004可与音频接口1030-1连接。音频接口1030-1可配置成通过与麦克风、乐器、数字音频设备或其它音频信号或文件源例如物理地、光学地、电磁地等连接来接收音乐稿件102-1。在其它实施方式中，一个或多个输入设备1004可与乐谱接口1030-2连接。乐谱接口1030-2可配置成通过与摄像机、扫描仪、数字成像设备或其它数字图像源连接来接收乐谱稿件102-2。

进一步地，在一些实施方式中，一个或多个输出设备1006可与音频输出设备106-1连接。音频输出设备106-1可配置成将本发明的实施方式产生的音频信号数据输出到能够处理该数据的一个或多个系统或设备，例如扬声器、音频部件、数模转换器、光盘烧录器等。在其它实施方式中，一个或多个输出设备1006可与乐谱输出设备106-2连接。乐谱输出设备106-2可配置成将本发明的实施方式产生的乐谱表示数据输出到能够处理该数据的一个或多个系统或设备，例如乐谱转录软件、乐谱公布系统、文件存储设备等。

在一个实施方式中，本发明使用计算机系统(例如计算系统1000)来执行本发明的方法。根据一组实施方式，响应于处理器1002执行包含在工作存储器1018中的一个或多个指令的一个或多个序列(其可合并到操作系统1024和/或其它代码中，例如应用程序1022)，这样的方法的一些或全部程序由计算系统1000来实现。这样的指令可从另一机器可读介质被读取到工作存储器1018中，例如一个或多个存储设备1008(或1010)。仅作为例子，包含在工作存储器1018中的指令的序列的执行可使处理器1002执行这里描述的方法的一个或多个程序。

如这里使用的术语“机器可读介质”和“计算机可读介质”指参与提供使机器以特定的方式操作的数据的任何介质。在使用计算系统1000实现的实施方式中，各种机器可读介质可包括向处理器1002提供供执行的指令/代码，和/或可用于储存和/或承载这样的指令/代码(例如，作为信号)。在很多实现中，计算机可读介质是物理和/或可触知的存储介质。这样的介质可采取很多形式，包括但不限于，非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘，例如存储设备(1608或1010)。易失性介质包括但不限于，动态存储器，例如工作存储器1018。传输介质包括同轴电缆、铜线和光纤，包括构成总线1026的导线以及通信子系统1014的不同部件(和/或通信子系统1014提供与其它设备的通信的介质)。因此，传输介质也可采取波的形式(包括但不限于，无线电波、声波和/或光波，例如在无线电波和红外数据传输期间产生的波)。

物理和/或可触知的计算机可读介质的一般形式包括，例如，软盘、软碟、硬盘、磁带或任何其它磁性介质、CD-ROM、任何其它光学介质、穿孔卡片、纸带、具有孔的图案的任何其它物理介质、RAM、PROM、EPROM、FLASH-EPROM、任何其它存储器芯片或盒式磁带、诸如以下描述的载波、或计算机可从其读取指令和/或代码的任何其它介质。

机器可读介质的各种形式可涉及将一个或多个指令的一个或多个序列传送到处理器1002用于执行。仅作为例子，指令可最初被承载在远程计算机的磁盘和/或光盘上。远程计算机可将指令装入其动态存储器中，并在传输介质上作为信号发送指令，以被计算系统1000接收和/或执行。根据本发明的不同实施方式，形式可能为电磁信号、声信号、光信号和/或类似信号的这些信号，都是指令可编码在其上的载波的例子。

通信子系统1014(和/或其部件)通常接收信号，且总线1026接着可能将该信号(和/或该信号所承载的数据、指令等)传送到工作存储器1018，处理器1002从工作存储器1018取回并执行这些指令。工作存储器1018所接收的指令可在被处理器1002执行之前或之后可选地储存在存储设备1008上。

应认识到，根据本发明，可以或可以不包括关于图10描述的部件或功能的系统的很多实施方式是可能的。在一些实施方式中，系统被实现为专用设备。该设备可包括一个或多个内部麦克风，其配置成检测声压并将其转换成由系统使用的音乐稿件。可选地，该设备可包括用于与外部麦克风、媒体设备、数据存储器或其它音频源连接的一个或多个音乐输入端口。在这些实施方式中的某些中，设备可为手持式或便携式设备。在其它实施方式中，系统可在多功能或通用设备中实现(例如，作为储存在计算机可读介质上的软件模块，用于由计算机执行)。在这些实施方式中的某些中，音频源可为声卡、外部麦克风或所储存的音频文件。输入接着被产生并提供到该系统。

系统的其它实施方式可被实现为简化或单声道形式，以作为从用户接收音频的听音设备来操作，这些用户对着一个麦克风演奏乐器或演唱某个曲调或旋律或其一部分。在单麦克风布置中，系统相继地将来自一个麦克风的已录制的乐曲转换成相应的乐谱。这可提供文本到语音软件的音乐等价物，其将口语单词和句子转换成计算机可读的文本。作为声音到音符转换，曲调或旋律将被记录下来，就好像一个乐器正在演奏。

应认识到，系统的不同实现也可包括涉及与用户和其它系统的相容性的不同类型的接口和功能。例如，可为线路电平输入(例如，来自立体声系统或吉他放大器)、麦克风输入、网络输入(例如，来自互联网)或其它数字音频部件提供输入端口。类似地，可为扬声器、音频部件、计算机和网络等的输出提供输出端口。进一步地，在一些实现中，系统可提供用户输入(例如，物理或虚拟键盘、滑块、旋钮、开关等)和/或用户输出(例如，显示器、扬声器等)。例如，可提供接口能力，以允许用户听录制品或由系统从录制品提取的数据。

在一个实施方式中，本发明的特征在包括可安装在数字计算机上的应用程序的软件中实现。软件实现优选地为演奏者提供输入和输出接口。也就是说，安装有软件的主机计算机一般包括用于产生演奏者可阅读的乐谱的视觉表示的显示器，以随着演奏者的乐器演唱或演奏该乐器。计算机也一般包括用于录制演奏者的会话的输入接口，例如麦克风，并包括输出接口，例如扬声器，以使演奏者能够听已录制的演奏。计算机实现可包括图像捕获，其中包括五线谱上的音符的乐谱可通过光学输入装置被数字化，并接着输入到计算机中。数字化的乐谱可通过OCR技术被解译，这样形成的已解译的数据被处理，以便产生乐谱的合成音频再现，在适当时包括使单词与适当音高匹配的合成的声乐再现，使得音频再现与乐谱的视觉表示同步。在下面提供的额外详细的描述中，计算机软件实现被称为“Level X”实现或被称为“eMuse X”产品(名称“eMuse”指来自美国普林斯顿、新泽西的MuseAmi公司-本发明中所有权利的受让人-的产品实施方式)。

在另一实施方式中，本发明的特征体现在一可包括显示器、输入接口、音频和视觉输出接口以及OCR图像解译接口的手持式设备中。该手持式设备实现包括各种方便的用户控制旋钮和用于设备功能的方便导航的机制。该显示器支持由用户对功能进行选择的菜单选项的视觉表示。

如下面进一步详细描述的，计算设备通过从外部源接收乐谱数据，并随后产生乐谱数据的合成音频再现和乐谱的同步视觉表示来解译和处理乐谱数据。

外部源可由通过网络连接向计算设备提供乐谱数据的网络数据源组成。网络连接可由通过无线连接的计算设备和网络之间的通信组成。

将记录有数据的介质接受进入计算设备的阅读器中，而该阅读器接着从该记录有数据的介质获得乐谱数据，通过这种方式，可从记录有数据的介质读取乐谱数据。记录有数据的介质包含充足的数据，来根据合成音乐制作的MIDI规范合成音频再现。也就是说，计算设备可接收指定乐谱的数据，并可按选定的拍速、音色、谱号、调号、拍号等产生或合成相应的音乐乐音。记录有数据的介质可包括闪存设备。

可给计算设备提供用于录制用户对一乐谱的演奏并提供已录制的用户演奏的重放的能力。用户演奏重放可独立于合成乐谱再现而发生，或可与其同时发生。此外，可将用户演奏重放连同相应于该已录制的用户演奏的乐谱的视觉表示一起提供给用户。以这种方式，提供了“听音”特征。

在一个可选方案中，通过光学地捕获乐谱的数字图像、接着解译并处理数字信息以产生表示适当的音乐音符的数据的集合、因而产生相应于该乐谱的数据，由此，该设备可获得由其用来产生合成音频再现和乐谱的同步视觉表示的乐谱数据。

此外，可提供用于确定乐谱数据的合成音频再现的特征的音乐情境信息，其中所有特征都可被用户调节。这样的音乐情境信息可包括多个调号、拍号、音色、拍速和表现性术语，例如连奏、渐强、渐慢等。

在另一可选方案中，通过与网络数据源的通信来实现产生乐谱数据的音频重放和音乐音符的视觉表示。如果需要，网络数据源向计算设备提供乐谱数据。在又一可选方案中，网络数据源可向计算设备提供决定乐谱数据的合成音频再现的音乐特征的音乐情境信息。此外，网络数据源可通过无线连接提供音乐情境信息。

在一个可选方案中，通过将记录有数据的介质插入计算设备的阅读器中来实现产生乐谱数据的合成音频再现和乐谱的合成视觉表示。如果需要，计算设备从记录有数据的介质获得乐谱数据，且记录有数据的介质也可向计算设备提供用于确定乐谱数据的合成音频再现的音乐特征的音乐情境信息。

一个可选的特征是提供对乐谱的用户乐器演奏和/或声乐演奏的录制。另一可选方案是根据MIDI规范产生合成音频再现。此外，产生视觉表示可包括显示与相应的合成音频再现同步的乐谱。另一选择是同时提供同步的重放、乐谱数据的视觉表示和音频再现的重放，以及已录制的用户演奏的音频组成和用户演奏所产生的乐谱的同步的相应视觉表示。

根据本发明，计算设备可以可选地数字地捕获乐谱并解译数字图像，以及产生乐谱数据的合成音频再现和乐谱的同步视觉表示，该数字图像为计算设备产生的相应于数字捕获的乐谱的乐谱数据。该计算设备可接收音乐情境信息，该音乐情境信息由计算设备使用来确定乐谱数据的合成音频再现的音乐特征。类似于上面描述的可选实施方式，音乐情境信息可包括多个调号、拍号、音色、拍速和表现性术语，例如连奏、渐强、渐慢等，这些信息可由用户选择来确定乐谱数据的合成音频再现的音乐特征。作为选择，该计算设备从光学地数字捕获的乐谱来识别出音乐情境信息，并可选地可以从网络数据源获得音乐情境信息。如果需要，网络数据源通过与计算设备的无线连接来提供音乐情境信息。

可给计算设备提供其自己的扩音器，用于所合成的再现和/或用户所录制的演奏的音频重放。此外，该设备可包括用于连接到耳机或外部扩音器等的输出插孔，并可设置有允许设备向无线声音重放系统(例如使用无线部件实现的家庭立体声系统)传输音频演奏的无线传输能力。该设备具有充足的计算存储器，使它能够储存预定长度的乐段。

下面额外详细的描述涉及在手持式设备实现中的特征的各种实现，且分别被称为“Level 1”和“Level 2”或“eMuse 1”和“eMuse 2”。

下面的讨论描述了可安装在一系列数字计算设备上的音乐重放软件，并且也描述了手持式活页乐谱阅读设备的实施方式，这些设备在这里被共同称为eMuse产品。

图11示出作为手持式的、电池供电的“对准即拍”消费电子设备1100的产品的例证性实施方式，设备1100从活页乐谱捕获选定乐段-几个小节或甚至整页-的图像，数字地设计该乐段的形式并编码该乐段，接着演奏选定的乐段，全部都是实际上即时实时地进行的。重放声音是针对乐器的，即，以用户选择的音色(例如，钢琴、小提琴、长笛的声音)演奏。可同时演奏多种音色。设备1100设计成识别音乐变量，例如调号、节拍、音量和拍速，并解释乐文术语，例如强音、轻声演奏、渐强音、连奏等。当该设备正重放乐段1104时，LCD屏幕1102显示乐段1104，每个被演奏的音符以独特的颜色加亮，以便将其与乐谱的其余部分区别开。

图11的设备1100包括数字“音乐卡”特征，其支持编码有一个或多个已录制的或下载的乐曲的数据卡(未示出)的插入，并允许快速参考特定的小节。数据卡可包括可记录的介质，例如一般由便携式电话和数字摄像机使用的介质。数据卡被接收到设备1100的卡插槽1106中。设备1100也使用表示被编码的乐曲的数字数据来工作。下载的文件也可保存在设备的存储器内。被编码的乐曲提供了丰富的收听体验，允许快速参考乐谱的特定小节。

设备1100的录制/重放特征允许用户立即参考乐谱来评估已录制的演奏。也就是说，设备1100可录制用户对乐曲的演奏，并重放用户的演奏，以及(或同时)重放接收到的乐曲。用户演奏重放能够呈现相应的视觉表示，提供“听音”特征。节拍器和音乐调音器能力也合并到该设备中，且可对“缺一音乐(music minus one)”特征调节该设备。在多音度线或多声部乐曲中，“缺一音乐”特征允许用户确定乐曲的哪些部分将由MIDI接口重放。这允许用户随着设备演奏/唱特定的部分。

图11示出具有翻转顶部1108的手持式设备1100，LCD屏幕1102合并到盖或顶部1108的下侧。该设备也包括用于音乐重放的扬声器1110(在图11中示出了立体声对)以及用于录制用户演奏的麦克风1112。可实现图像捕获能力，如图11所示的，其中翻转顶部1108包括摄像机系统，其包括安装在翻转顶部1108的外侧表面中的并为了图像捕获的目的由镜头快门按钮1114触发的光学透镜。提供了各种用户界面控制，其被示为用于调节音量1116、重放拍速1118、菜单导航1120和位置1122的拇指轮。设备1100可设置有用于更容易与网络或其它设备连接的USB端口1124。开/关开关1125打开和关闭设备1100。

如图11所示，控制按钮也被提供来用于控制涉及乐谱的再现(合成演奏)和用户演奏的重放的功能。图11示出用于播放/暂停1126、停止1128、下一首/重置1130和录制1132的功能的示例性控制按钮。图11也示出节拍器读出显示器1134，其显示定时指示器并与重放拍速1118关联。结合菜单拇指轮1120和/或位置拇指轮1122的操作使用LCD屏幕1102的菜单导航来实现对节拍器功能和设备1100的其它特征的选择。可通过下一首/重置控制按钮1130的操作来实现选择。键盘或辅助键盘1135可用于通过辅助键盘1135的专用功能键的输入或来自辅助键盘1135的字母数字输入。在LCD屏幕1102上，提供了来自音乐乐段1104的音乐音符的图形图像，其在整个屏幕内移动，单独的音符出现在屏幕上或在显示器中被加亮，作为被演奏的音符。显示器优选地提供在重放期间扩展的音乐五线谱图像，由此，预定数量的音乐音符或小节显示为被演奏的音乐乐段1104。

在设备1100的一个实施方式中，数字摄像机系统1114捕获乐谱内的乐段(单个音符、几个小节或甚至整页)的图像。数字摄像机可构造到设备1100中，并可包括类似于本领域技术人员熟悉的透镜和图像传感器组合。LCD屏幕1102允许用户准确地确定捕获哪些小节。该设备可读取单个五线谱表乐曲行、二重奏、三重奏、四重奏或甚至完整的乐队指挥乐谱。设备1100提供了多个同时的音色。

OCR模块可接收音乐摘录的“照片”，其包括数字化的图像数据。重要的额外音乐情境信息，例如调号和节拍也通过乐谱数字图像或通过列出所有可用的调号和拍号的“备忘单”(例如从网站下载，接着无线地或通过USB端口传输到该设备，见下文)发送到OCR模块。“备忘单”也可包括用户可从其选择期望音色的部分，或者，用户可手工指定(输入)期望的音色。

在另一实施方式中，设备1100可提供MIDI合成器功能。OCR模块可将声音信息发送到产生合成声音的MIDI模块。这提供了可调节的音色；用户为特定的乐段或乐曲指定乐器的类型(钢琴、小提琴、长笛等)。该模块也可提供可调节的拍速，以便用户可听到比在乐谱中指示的节拍器(如果有的话)慢(或快)的乐段，而没有音高的任何改变。该设备通过其自己的小扩音器重放，并且还具有用于耳机和/或外部扬声器的耳机插孔1134和无线能力。

在各种实施方式中，设备1100可提供某些视觉显示能力。例如，LCD屏幕1102可帮助用户确保被捕获(拍摄)的小节是预期要听到的小节。包括游标1136的LCD屏幕1102将音乐乐段1104显示为被重放的乐段，其来自用户所拍摄的乐段或来自具有存储的数据的音乐卡。游标指示当音乐乐段1104实时地播放时当前被演奏的音符的乐谱中的确切的音乐位置，而不管固定的拍速。不同于传统类型的移动游标，当音符被演奏时，游标1136可替代地通过加亮音符(例如，使其更亮)或通过给与它不同于其它音符的显示颜色来指示正被演奏的音符。另一选择是LCD屏幕1102显示音符1138的名称(用英语和用视唱标记)，特别是对于单旋律音乐乐段1104。如果音乐乐段1104由多个同时的音乐旋律组成，则用户可指定音符1138的名称所显示针对的旋律。

LCD屏幕1102也可显示被选择用于播放的音乐乐段1104的指示符。指示符称为乐段标记1139。在图11中，乐段标记1139被示为包围在圆圈中的数字“1”。数字“1”指示当前正显示音乐乐段1104的第一小节，且圆圈指示重放在第一小节开始。如果重放继续到下一小节，“2”将代替“1”被显示，但“2”将被包围。

在另一实施方式中，设备1100可提供录制传感器功能。例如，麦克风1112可配置成使得用户可录制他/她自己演奏(和/或演唱)的有问题的音乐乐段1104，并重放该录制结果，以比较该用户的演奏与设备1100的演奏(即，以前录制的演奏或合成的再现)。该特征对进行音符、调音、节奏和力度强弱的调节的学生可能有帮助。如上所述，可通过麦克风1112录制用户演奏以提供“听音”特征。

设备1100的一些实施方式提供了无线能力。例如，设备1100可操作来允许与网络和其它有无线能力的设备进行无线通信，并允许下载具有情境信息的被编码的音乐文件。可例如通过安装到无线平台例如PDA或智能电话的eMuse软件来为便携式的音乐互动提供这里描述的特征。此外，设备1100可使用家用PC和/或立体声系统或另一部件的计算和存储器(以及重放音频)。

在另一实施方式中，用户的演奏可由设备1100录制，且用户的演奏可被音乐音符解译处理，以产生数据，从该数据产生相应于用户的已录制的演奏的音乐音符的显示。以这种方式，该设备可采用“听音”并可将用户的现场表演的音频演奏转换成相应于该演奏的乐谱的视觉显示。因此，该设备的音乐解译特征可处理光学或电子网络通信所接收的乐谱数据，并可处理用户的现场表演的演奏所产生的、麦克风所捕获的乐谱数据。

这里描述的软件可用在各种平台上。在一个实施方式中，eMuse的某些方面被嵌入高端便携式电话中，在高端便携式电话中的便携式电话摄像机拍摄乐谱中的特定乐段。所捕获的图像接着被压缩，并发送到远程服务器，其对图像数据执行OCR操作，以将图像解译成相应的音乐音符信息。该服务器接着发送回MIDI文件和图形文件，使该版本的eMuse能够播放被拍摄的音乐，并在播放该音乐时，将音符显示在LCD上。

图12提供了示出图11中设备1100的实施方式的操作的处理流程图的简化图示。在初始操作中，乐谱的数字表示被提供到该设备。该数字表示可通过视觉表示1202例如打印出的页接收到设备，视觉表示1202使用数字图像捕获设备1204例如与设备一起操作的数字摄像机被数字地捕获。从光学输入1206得到的数字数据接着被提供到音符数据解译过程1208。可选地，乐谱的数字表示可被电子地提供(1210)，例如通过相应于乐谱的数字数据的无线传输或在网络上数据的有线传输，或通过存储介质例如存储卡或其它介质输入。乐谱1210的电子接收的版本被提供到音符数据解译过程1208。

音符数据解译过程1208接收相应于乐谱的数字数据，并对其进行处理，以产生一组音乐音符和足够的附随信息，以指定音乐音符并能通过适当的硬件再现。过程1208包括使用机器学习技术培训的处理器，以识别乐谱数字数据1206、1210，并产生经适当转换的数据。过程1208可例如使用神经网络软件工程技术被培训，以将解译过程的准确性增加到实质上100％的准确性。根据本发明，输入的乐谱数据必须被产生来用于对用户的实时的视频和视觉显示，因此，输入的乐谱数据的解译必须是实时的，且必须达到100％的解译(转换)准确性。过程1208利用光学字符识别(OCR)技术，但被调整为适于音乐音符识别并适于将(电子或光学扫描得到的)数字数据解译为适合的表示。

解译过程输出1212包括被提供到设备的显示屏1214的乐谱的视觉表示，以及还包括被提供到适当的设备系统和硬件1216的乐谱的合成音频再现，该合成音频再现用于通过该设备的扩音器或类似物进行音频表示。

其它能力

应认识到，除了上面描述的能力以外，很多其它处理能力也是可能的。一组额外的处理能力包括增加提供给用户的可定制性的量。例如，实施方式可允许本发明的各种部件和方法的增强的可定制性。

在一些实施方式中，由于各种原因，部件和方法的不同阈值、窗和其它输入每一个都是可调节的。例如，如果音调确定看起来进行得太频繁(例如，用户可能不希望与音调的短暂偏离作为音调变化展现在乐谱上)，用户能够调节音调提取窗。对于另一例子，录制品可包括在录制时因在演奏期间使用的60Hz电源而出现的背景噪声。用户可能希望调节各种滤波算法，以忽略此60Hz音高，以便不将它表示为乐谱上的下部音符。在又一例子中，用户可调节音高被量化成的乐曲盒(bin)的分辨率，以调节音符音高分辨率。

在其它实施方式中，可给用户提供较小的可定制性。在一个实施方式中，用户能够调节表示准确性水平。根据一个或多个参数，包括选择对单独的乐谱表示元素如拍速和音高的准确性，用户可输入(例如，通过物理或虚拟滑块、旋钮、开关等)系统是应产生更准确的还是较不准确的乐谱表示。

例如，很多内部设置可一起起作用，使得最小音符值是十六分音符。通过调节表示的准确性，较长或较短的时值可被检测到并表示为最小值。这可能在演奏者不严格按恒定拍子演奏(例如，没有打击乐器组，没有节拍器)的情况下是有用的，且如果太灵敏的话，系统可产生不合需要的表示(例如，三拍附点音符)。作为另一例子，很多内部设置可一起起作用，以便最小音高变化是半音级(即，以半音音阶计的音符)。

在又一些其它实施方式中，可给用户提供甚至更小的可定制性。在一个实施方式中，用户可输入他或她是新用户还是高级用户。在另一实施方式中，用户可输入系统是应具有高灵敏性还是低灵敏性。在任一实施方式中，在很多部件或方法中的很多不同的参数可在一起调节，以符合期望水平。例如，在一种情况下，歌手可能希望准确地转录音高和时值中的每个波动(例如，作为对找到错误或以所有其美学的细微之处忠实地再现特定的演奏的实际帮助)；而在另一情况下，歌手可能希望通过使系统忽略小偏差来产生容易阅读的乐谱用于发表。

在某些实施方式中，可定制性的水平、功能的类型以及系统和方法的其它方面可用不同的方式指定。在一个实施方式中，用户可选择某些偏好，操作某些物理或虚拟控制，或以其他方式有效地与系统进行互动以确定这些方面。在另一实施方式中，系统可自动选择不同的方面(例如，根据与用户有关的登录和/或配置文件信息，根据用户使用该系统的模式等)。

另一组额外的处理能力包括使用不同类型的输入来改进或以其他方式影响对输入音频信号的处理。一个实施方式使用一个或多个经培训的人工神经网络(ANN)来改进某些确定。例如，心理声学确定(例如，节拍、音调、乐器等)可完全适合于使用经培训的ANN。

另一实施方式给用户提供使多个声道分层的能力(例如，一人乐队)。用户可通过演奏鼓声道来开始，使用本发明的系统实时地处理该鼓声道。用户可接着相继地演奏吉他声道、键盘声道和声乐声道，其中每个都被处理。在一些情况下，用户可选择多个声道来一起处理，而在其它情况下，用户可选择使每个声道被单独地处理。来自一些声道的信息可接着用于改进或引导对其它声道的处理。例如，鼓声道可被独立地处理，以产生高置信度拍速和节拍信息。拍速和节拍信息可接着与其它声道一起使用来更准确地确定音符时值和音符值。对于另一例子，吉他声道可在小时间窗内提供很多音高，这可使确定音调更容易。该音调确定可接着用于将音调音高确定分配给键盘声道中的音符。对于又一例子，多个声道可在一维或多维中被排列、量化或标准化(例如，声道可被标准化为具有相同的拍速、平均音量、音高音域、音高分辨率、最小音符时值等)。进一步地，在“一人乐队”的一些实施方式中，用户可使用一个乐器来产生音频信号，接着使用本系统或方法来转换到不同的乐器(例如，使用键盘演奏四重奏的所有四个声道，并使用该系统来将键盘输入转换成弦乐四重奏)。在一些情况下，这可包括调节音色、使音乐旋律变调和其它处理。

又一实施方式使用音频输入信号之外的输入来改进或引导处理。在一个实施方式中，从用户、从另一系统(例如，计算机系统或互联网)或从数字音频文件中的头部信息来接收风格信息，以改进各种代价函数。例如，音调代价函数可对蓝调、印度古典、民谣等不同；或不同的乐器可能在不同的风格中更可能(例如，“风琴类”声音可能在赞美诗音乐中更可能是管风琴，而在波尔卡音乐中更可能是手风琴)。

另一组额外的处理能力包括使用在多个部件或方法中的信息来改进复杂的确定。在一个实施方式中，乐器识别方法的输出用于根据所识别的乐器的已知能力或限制来改进确定。例如，比如乐器识别方法确定乐曲谱线可能是由钢琴演奏的。然而，音高识别方法确定该乐曲旋律包含快速微弱的颤音(例如，在检测到的音调音高标志的仅一个或两个半音程内的音高的颤音)。因为这一般不可能是在钢琴上产生的效果，系统可确定该旋律正由另一乐器(例如，电子键盘或风琴)演奏。

又一组额外的能力涉及使用用于处理铃声(例如，用于便携式电话、互联网协议的语音电话和其它设备)的系统和方法的各种功能。在一个实施方式中，解构的音乐元素被操作以符合铃声的规范。例如，一些设备可能对铃声的带宽、复调深度和音乐长度有限制。因此，在一些情况下，系统可自动调节合作项目来符合铃声规范，或可给用户提示根据那些规范引导用户所需要或要求的信息。用户可接着能够例如听铃声，将铃声下载到便携式电话或其它设备(或存储位置)，在网络上与其他人共享铃声，拍卖或出售铃声，等等。

又一组额外的能力涉及将音频或乐谱输出配置为用于出售或拍卖的产品。例如，合作门户可包括音乐拍卖功能或音乐商店功能。购买功能可包括与以下项有关的能力：版税和定价、投票表决(例如，展示在给定时间跨度内最流行的，或优胜者获得门户上的特别节目)、按设备或规范搜索、不同的付款处理、安全的电子商务、版权保护和数字版权管理等。

又一组额外的能力涉及使用解构的或接收到的音乐元素来搜索类似的作品，以避免(检测)版权侵犯。该能力可能需要被合并到系统中的额外模块或被合并到方法中的额外步骤，以调整搜索来获得该特定结果。例如，在一些实施方式中，可提供关于版权法和政策的信息，以帮助系统和方法确定是否有潜在的侵权。

合作门户的一些实施方式可包括这种和其它类型的搜索功能。例如，可能希望将音乐模拟提供到“剪贴画”，由此合作者可搜索特定类型的音乐主题(例如，“Hawaii five-O”鼓花等)来添加到一项目。也可搜索其它类型的信息。例如，合作者可能希望找到类似的乐曲并看其乐谱表示，来确定该乐曲是如何编曲的；或看类似的和弦序列，并找到解译类似的和弦序列以帮助制定有趣的声乐旋律的任何爵士声乐即席创作。应认识到，提供这种和其它功能的基于音乐搜索的很多方法是可能的。在RobertD.Taub等人的标题为“MUSIC-BASED SEARCH ENGINE”的美国申请第____号中更充分描述了的基于音乐搜索的一些实施方式，该专利申请同本申请同时提交并为了所有目的在这里通过引用被并入。

再一组额外的能力涉及将音乐添加到视频信息。在一些实施方式中，合作门户可允许用户提供视频数据。例如，用户可提供视频片段，以用作对合作项目的启发，作为与合作项目同步的音乐视频，作为合作者正为其写乐谱的较大的视频项目(例如电影)的一部分，等等。在另一例子中，用户可提供某些时间码信息(例如，电影与电视工程师学会(SMPTE)时间码)，供合作者使用来使合作音频项目与视频项目同步。

应认识到，根据本发明，很多这样的额外处理能力是可能的。进一步地，应注意，上面讨论的方法、系统和设备只被确定为例子。必须强调，不同实施方式可在适合时省略、替换或添加各种程序或部件。例如，应认识到，在可选实施方式中，方法可按不同于所描述的顺序执行，且可添加、省略或合并不同的步骤。此外，关于某些实施方式描述的特征可合并在各种其它实施方式中。实施方式的不同方面和元件可以类似的方式合并。此外，应强调技术是发展的，因此，这些元件中的很多是例子，且不应被解释为限制本发明的范围。

在说明书中给出了具体的细节，以提供对实施方式的彻底理解。然而，本领域普通技术人员应理解，在没有这些具体细节的情况下可实现该实施方式。例如，在没有不必要的细节的情况下示出了公知的电路、过程、算法、结构和技术，以便避免使实施方式含糊。进一步地，这里提供的标题只用来有助于对不同实施方式的清楚描述，且不应被解释为限制本发明的范围或本发明的任何部分的功能。例如，某些方法或部件可被实现为其它方法或部件的部分，即使它们是在不同的标题下描述的。

此外，注意，实施方式可被描述为一过程，其被描绘为流程图或结构图。虽然每个实施方式可将操作描述为顺序的过程，但这些操作中的很多操作可并行或同时执行。此外，可重新排列操作的顺序。过程可以有未包括在附图中的额外步骤。

Claims

1.一种用于通过网络合作处理音乐稿件的方法，所述方法包括：

在一门户接收音乐稿件，所述音乐稿件包括一组音乐元素，且所述门户可通过所述网络来访问；

根据所述音乐稿件的类型和合作者希望如何使用所述音乐稿件，在所述门户在一个或多个级别对所述音乐稿件进行解构；

在所述门户通过所述网络接收多个合作请求，所述多个合作请求中的每个至少部分地涉及所述音乐稿件，

其中，所述多个合作请求的至少第一部分来自第一用户，而所述多个合作请求的至少第二部分来自第二用户，以及

其中至少一个合作请求涉及所述一组音乐元素；以及

响应于所述合作请求中的至少一个而在所述门户产生与所述音乐稿件的至少一部分有关的音乐输出。

2.如权利要求1所述的方法，进一步包括：

在所述门户接收所述音乐稿件，所述音乐稿件包括音频信号；以及

解构所述音频信号以产生所述一组音乐元素的至少一部分。

3.如权利要求1所述的方法，其中所述音乐稿件是第一音乐稿件，且所述方法进一步包括：

在所述门户接收第二音乐稿件，所述第二音乐稿件包括音频信号。

4.如权利要求3所述的方法，进一步包括：

至少部分地根据所述一组音乐元素编辑所述第二音乐稿件。

5.如权利要求3所述的方法，进一步包括：

根据所述一组音乐元素的至少一部分使所述第一音乐稿件和所述第二音乐稿件同步。

6.如权利要求1所述的方法，其中，所述音乐稿件在所述门户通过所述网络接收自多个工作站之一。

7.如权利要求1所述的方法，其中所述音乐稿件在所述门户接收自距多个工作站远距离的数据存储器。

8.如权利要求1所述的方法，进一步包括：

至少部分地根据所述音乐稿件和所述编辑步骤的结果来产生一组输出数据。

9.如权利要求8所述的方法，其中所述一组输出数据包括音频信号数据。

10.如权利要求8所述的方法，其中所述一组输出数据包括音乐元素数据。

11.如权利要求8所述的方法，其中所述一组输出数据包括乐谱表示数据。

12.如权利要求8所述的方法，进一步包括：

将所述一组输出数据储存在一数据存储器中。

13.如权利要求1所述的方法，进一步包括：

通过所述网络从用户接收登录信息，所述用户使用多个工作站之一。

14.如权利要求13所述的方法，进一步包括：

至少部分地根据所述登录信息确定所述用户的一组访问权限。

15.如权利要求13所述的方法，进一步包括：

至少部分地根据所述登录信息确定所述用户的一组偏好。

16.一种用于通过网络合作处理音乐稿件的系统，所述系统包括：

门户，所述门户可被多个用户通过所述网络访问且所述门户包括：

合作单元，其可操作来：

接收多个音乐稿件，所述音乐稿件中的至少一个包括一组音乐元素；

根据所述音乐稿件的类型和合作者希望如何使用所述音乐稿件，在所述门户在一个或多个级别对所述音乐稿件进行解构；以及

接收并解译多个合作请求，所述多个合作请求中的至少第一个通过所述网络接收自第一用户，且所述多个合作请求中的至少第二个通过所述网络接收自第二用户；

编辑单元，其可操作来提供一组编辑能力，用于至少部分地根据所述多个合作请求来编辑音乐元素；

输出产生单元，其可操作来至少部分地根据所述音乐稿件和所述多个合作请求来产生输出数据；以及

网络接口单元，其可操作来促进多个工作站和所述门户之间通过所述网络的通信。

17.如权利要求16所述的系统，进一步包括：

音频解构单元，其可操作来：

接收一音乐稿件；以及

将该音乐稿件解构成一组音乐元素。

18.如权利要求17所述的系统，其中所述音频解构单元驻留在所述多个工作站中的至少一个上。

19.如权利要求16所述的系统，进一步包括：

乐谱解构单元，其可操作来：

接收乐谱图像；以及

将所述乐谱图像解构成一组音乐元素。

20.如权利要求17所述的系统，其中所述乐谱解构单元驻留在所述多个工作站中的至少一个上。

21.如权利要求16所述的系统，其中所述网络接口单元进一步可操作来接收来自所述工作站之一的用户的登录信息。

22.如权利要求16所述的系统，其中所述网络接口单元进一步可操作来提供所述门户和所述多个工作站之间的安全虚拟连接。

23.如权利要求16所述的系统，进一步包括：

数据存储器，其与所述门户操作性地通信并可操作来储存一组音频数据记录，每个音频数据记录与所述多个音乐稿件中的至少一个相关。

24.如权利要求23所述的系统，其中所述数据存储器通过所述网络与所述门户操作性地通信。

25.如权利要求24所述的系统，其中所述网络接口单元进一步可操作来提供所述门户和所述数据存储器之间的安全虚拟连接。

26.如权利要求16所述的系统，其中由所述输出产生单元产生的输出数据包括音频数据、音乐元素或乐谱表示数据中的至少一个。

27.如权利要求16所述的系统，其中所述网络是互联网。

28.如权利要求16所述的系统，其中所述网络是局域网。

29.一种用于通过网络合作处理音乐稿件的装置，所述装置包括：

用于在一门户接收音乐稿件的模块，所述音乐稿件包括一组音乐元素，且所述门户可通过所述网络来访问；

用于根据所述音乐稿件的类型和合作者希望如何使用所述音乐稿件，在所述门户在一个或多个级别对所述音乐稿件进行解构的模块；

用于在所述门户通过所述网络接收多个合作请求的模块，所述多个合作请求中的每个至少部分地涉及所述音乐稿件，

其中至少一个合作请求涉及所述一组音乐元素；以及

用于响应于所述合作请求中的至少一个而在所述门户产生与所述音乐稿件的至少一部分有关的音乐输出的模块。