CN105706161B

CN105706161B - 基于音高分布的自动音频协调

Info

Publication number: CN105706161B
Application number: CN201480051936.5A
Authority: CN
Inventors: S·J·鲍尔; J·G·冈萨雷斯; T·布鲁尔; M·K·朗德尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-09-19
Filing date: 2014-09-17
Publication date: 2019-07-09
Anticipated expiration: 2034-09-17
Also published as: WO2015042082A1; CN105706161A; EP3047480B1; US9257954B2; US20150078583A1; EP3047480A1

Abstract

标识了两个音频样本和/或两组音频样本。标识了各音频样本和/或各组音频样本的音高分布，一音频样本或一组音频样本的音高分布是指多个音符音高的每一个音高有多少存在于该音频样本或该组音频样本中。基于各音频样本和/或各组音频样本的音高分布，可以自动调节一个音频样本和/或一组音频样本的至少一个音高(但不必要取决于音高分布)以提高各音频样本和/或各组音频样本的和声相干性。

Description

基于音高分布的自动音频协调

背景

随着计算技术的发展，人们发现计算机的用途已扩展。一种这样的用途是音乐，有各种软件程序允许创作和播放音乐。尽管这些程序是有用的，但是它们也不是没有问题。一种这样的问题是这些软件程序一般提供了对音乐各种方面的大量控制，允许用户独立地调节音乐的许多不同方面。然而，这种控制要求和用户的关于如何编写音乐有关的部分的专门知识，这会导致如果没有这种专门音乐知识而降低用户的用户体验。

概述

提供该概述以便以简化形式介绍概念的选集，所述概念在以下详细描述中被进一步描述。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

按照一个或多个方面，获得第一音频的第一音高分布和第二音频的第二音高分布。第一音频是一音频样本或一组音频样本，第二音频是一音频样本或一组音频样本。基于第一音高分布和第二音高分布，确定用于提高第一音频和第二音频的和声相干性的音高变调。音高变调被用于提高第一音频和第二音频之间的和声相干性。

附图简述

各附图中使用相同数字来引用相同的特征。

图1是图示按照一个或多个实施例的示例音频协调系统的框图，该示例音频协调系统实现基于音高分布的自动音频协调。

图2是图示按照一个或多个实施例的用于自动调节一个或多个音频样本的音高的示例过程的流程图。

图3图示两个不同的示例音频样本的示例音高分布。

图4图示音高分布的示例经变调的版本。

图5图示两个示例音频样本的音高变调相关的示例表格。

图6图示按照一个或多个实施例的音高变调以及相应的权重的示例表格。

图7图示示出相对的升调和降调组合的音高变调组合的示例表格。

图8是图示按照一个或多个实施例的用于组合音频样本的示例过程的流程图。

图9图示一示例系统，该示例系统包括示例计算设备，该示例计算设备代表可以实现此处描述的各种技术的一个或多个系统和/或设备。

详细描述

此处讨论了基于音高分布的自动音频协调。标识了两个音频样本和/或两组音频样本。标识了各音频样本和/或各组音频样本的音高分布，一音频样本或一组音频样本的音高分布是指多个音符音高的每一个音高有多少存在于该音频样本或该组音频样本中。基于各音频样本和/或各组音频样本的音高分布，自动调节一个音频样本和/或一组音频样本的至少一个音高以提高各音频样本和/或各组音频样本的和声相干性。因此，用户能使两个音频样本和/或两组音频样本中的至少一个被自动调节，以使两个音频样本和/或两组音频样本听上去协调。

图1是图示按照一个或多个实施例的示例音频协调系统100的框图，该示例音频协调系统100实现基于音高分布的自动音频协调。音频协调系统100可以使用各种不同类型的设备来实现，诸如实体设备或虚拟设备。例如，系统100可以使用实体设备来实现，诸如台式电脑、服务器电脑、膝上型或笔记本电脑、平板或记事本电脑、移动站、娱乐设施、通信上耦合至显示设备的机顶盒、电视机或其他显示设备、蜂窝或其他无线电话、游戏控制台、汽车电脑、任何其他通用计算设备等等。系统100也可以用虚拟设备来实现，诸如在实体设备上运行的虚拟机。虚拟机可以在各种不同实体设备的任一个(例如，以上列出的各种类型中的任一个)上运行。因此，系统100可以用各种不同设备中的一者或多者来实现，设备范围从具有大量内存和处理器资源的全资源设备(例如，个人电脑、游戏控制台)到具有有限内存和/或处理资源的低资源设备(例如，传统机顶盒、手持游戏控制台)。

音频协调系统100包括用户输入模块102、输出模块104、音高修改模块106以及音频组合模块108。音频协调系统100获得一个或多个音频样本122。每个样本122包括用于一个或多个声音的音频数据。音频样本122可以包括之前记录的样本、实况样本(例如，在样本被音频协调系统100获得或者被另一设备或系统捕捉时的近乎同时(例如，在样本的阈值时间量内)被呈现的音频)、是以前组合的样本的结果的样本(如下更详细讨论)、等等。音频样本122可以从各种不同的源获得，诸如从本地数据存储(例如，由与实现系统100的设备相同的设备所实现)获得、从远程(例如，经由网络访问)数据存储获得，从系统100的麦克风获得，从捕捉或以其他方式接收实况样本的另一设备或系统获得，等等。当样本122中一个或多个声音的音频数据被一设备回放时，该设备播放那一个或多个声音。

多个样本122可任选地被一起分组成一组样本。一组样本可以包括该组中多个样本中的一者或多者的音频数据、以及/或者该组中所包括的各样本的指示(例如，样本的文件名或其他标识符)。

样本中一个或多个声音中的每一个声音可以具有各种特征(也称为参数)。每个音频样本122可具有标识该样本122的各参数中的至少一些参数的相应音频样本元数据124。每组样本也可具有标识该组样本的各参数中的至少一些参数的相应音频样本元数据124。该组样本的各参数是指与该组中每一个样本相对应的元数据的聚合(例如，级联、平均、等等)。与一样本122或一组样本相对应的样本元数据124可以以各种方式被存储，诸如作为与相应的样本122或一组样本相同的数据结构或文件的一部分被存储、被存储在单独数据库中或其他记录中、被存储在远程云或基于服务器的数据库中、等等。

用户输入模块102从实现系统100的设备的用户接收用户输入。用户输入可以以各种不同的方式被提供，诸如通过按压实现系统100的设备的键区或键盘的一个或多个按键、按压实现系统100的设备的控制器(例如，远程控制设备、鼠标、跟踪板、等等)的一个或多个按键、按压实现系统100的设备的触摸板或触摸屏的特定部分、在实现系统100的设备的触摸板或触摸屏上作出特定的姿势、以及/或者在实现系统100的设备的控制器(例如，远程控制设备、鼠标、跟踪板等等)上作出特定的姿势。用户输入也可以经由其他实体反馈输入被提供至实现系统100的设备，诸如轻触实现系统100的设备的任一部分、可由实现系统100的设备的运动检测或其他组件所识别的动作(诸如摇晃实现系统100的设备、旋转实现系统100的设备、弯曲或弯折实现系统100的设备、等等)、等等。用户输入也可以以其他方式被提供，诸如经由到麦克风的语音或其他可听输入、经由图像捕捉设备所观察到的手部或其他身体部分的运动、等等。

输出模块104生成、管理和/或输出用于显示、回放和/或其他演示的内容。该内容可由输出模块104创建或者从系统100的其他模块获得。该内容可以是例如用户界面(UI)的显示或回放部分。该内容可由实现系统100的设备的组件(例如，扬声器、交互式显示设备、等等)显示或以其他方式回放。或者，输出模块104可以生成被输出至其他设备或组件(例如，扬声器、显示设备等)的一个或多个信号，所述其他设备或组件与实现系统100的设备分开。

音高修改模块106更改样本122中的一者或多者的音高，从而得到经修改的音频样本130。样本122的音高由模块106更改以允许样本122在用一个或多个其他样本122回放或者与所述一个或多个其他样本122组合时听上去更好(例如，与一个或多个其他样本122更加协调地相干)。如何更改样本122的音高是基于样本122的音高分布以及一个或多个其他样本122的音高分布确定的，所述样本122正在用所述一个或多个其他样本122回放或者与其组合，如以下更详细讨论的。

音频组合模块108组合不同的样本122，任选地创建一个新样本122或一组样本。不同样本122的组合包括调节样本122中的一者或多者的音高，如以下进一步详细讨论的。

音频协调系统100可以在各种不同的环境或场景中使用。在一个或多个实施例中，系统100通过更改一样本122或一组样本122的音高来生成经修改的音频样本130。经修改的音频样本130可由系统100回放、由系统100保存、被提供至另一设备或系统、等等。例如，音频协调系统100的用户可以正在提供一个样本122作为实况样本(例如，唱卡拉OK的用户)，且系统100可以更改该实况样本的音高以提高与另一组样本122(例如，用户嗓音歌唱的歌曲的之前录制的乐器版本)的协调。

或者，系统100可以将经修改的音频样本130与另一样本122或另一组样本122组合，从而得到新的组合音频样本组。新的组合音频样本组可由系统100回放、由系统100保存、被提供至另一设备或系统、等等。

尽管特定模块102－108被图示为被包括于音频协调系统100中，但应当注意，系统100不需要包括全部的模块102－108。例如，如果系统100更改了音频样本122的音高而得到经修改的音频样本，但并不将该经修改的音频样本与另一个音频样本或另一组音频样本组合，则系统100不需要包括音频组合模块108。

每个样本122具有一个相应的和声内容，该和声内容是指样本中所使用的音符。在一个或多个实施例中，样本中所使用的音符是指样本中包括的音符，而不考虑各音符的八度音程。样本中使用的音符可以是例如D、E、F#(升F)以及B。或者，样本中使用的音符可以包括音符以及该音符(以上或以下)的八度音程。所使用的音符也可以为空，诸如由无音高击鼓组成的样本。对于一组样本，该组中使用的音符是指该组中的各样本中包括的音符(例如，在该组的至少一个样本中包括的每个音符不需要被包括在该组中的每一个样本中)。

样本122的和声内容可以在与该样本相对应的元数据124中被标识。尽管此处讨论了样本122的和声内容，但是对应于样本122的元数据124可以包括描述样本122的一个或多个方面、参数或特征的各种附加数据。

样本122的和声内容可以以各种不同方式生成。在一个或多个实施例中，通过使用各种公共和/或专属技术中的任一种来分析样本122，自动地生成样本122的和声内容(以及其他元数据124)。或者，样本122的和声内容(以及其他元数据124)通过由一个或多个人指派而被手动生成(所述人可以是、但不必须是音频协调系统100的用户)。

音高修改

图1的音高修改模块106确定如何更改样本122的音高以便改进样本122与一个或多个其他样本122的协调。在一个或多个实施例中，该确定基于样本的音高分布而作出，并且被用于自动地更改样本122中的一个或多个样本的音高。

图2是图示按照一个或多个实施例、用于自动调节一个或多个样本的音高的示例过程200的流程图。过程200由音高修改模块实现，诸如图1的音高修改模块106，并且可以用软件、固件、硬件或者它们的组合来实现。过程200被示出为一组动作，并且不限于图示的用于执行各种动作的操作的次序。过程200是用于自动调节一个或多个样本的音高的示例过程；此处参照不同的附图包括了用于自动调节一个或多个样本的音高的附加讨论。

在过程200中，确定一个或多个样本或样本组的音高分布(动作202)。在一个或多个实施例中，样本的音高分布指示每个音高有多少存在于该样本中。通过将该样本分解成由回放该样本而生成的声波中的一组频率，确定该样本的音高分布。不同音高(也称为半音或音符)与不同的频率或频率范围相关联，如本领域技术人员已知。声音可以是12个不同的可能音高之一：A、A#、B、C、C#、D、D#、E、F、F#、G、或G#(或降半音的四分等音)。每个音高有多少存在于样本中是通过样本在被回放时有多少导致具有与音高相关联的基频(rootfrequency)的声音来确定的(例如，样本回放时间中的多少百分比导致具有与音高相关联的频率的声音)。每个音高有多少存在于样本中的这一分解和确定可以使用各种公共和/或专属的信号处理技术中的任一种来执行。音高分布可以替代地以其他方式表示，诸如简单地被表示为所存在的各音符的列表(例如，由人类音乐家检测)，并且不需要依赖于计算机或数字信号处理分析。不管此处特定示例中每一个音符的百分比列表，音高分布数据的源还可以是人工输入的关于每个所使用样本的元数据。在音高分布是所存在的音符的列表的情况下，可以如此处讨论地执行音高变调和音高相关，然而可以使用一个音符的缺席或存在的指示(例如，一个值(例如0)表示缺席，另一个值(例如1)表示存在)，而不是每个音符的百分比。

在一组样本的音高分布于动作202中被确定的情况下，该组样本的音高分布可以通过确定该组样本中的每一个样本的音高分布、然后组合(例如，取平均、相加然后归一化为1、等等)该组样本中每一个音高的音高分布来确定。或者，一组样本的音高分布可以以其他方式来确定。例如，各样本可以被同时回放(或如同被同时回放那样被分析)，且该组样本的音高分布如同该组样本是单个样本那样地确定。

还确定另外一个或多个样本或样本组的音高分布(动作204)。由此，在动作202和204中确定了两个不同样本(和/或样本组)的音高分布。这两个样本(和/或样本组)可以以不同方式被标识，诸如由用户选择、由音频协调系统100自动确定、等等。

图3图示两个不同的示例样本的示例音高分布。图示了样本1的音高分布302，表示该样本的7％(例如，显示为0.07)是用于音符A的音高，该样本的12％(例如，显示为0.12)是用于音符A#的音高，该样本的4％(例如，显示为0.04)是用于音符B的音高，等等。还图示了样本2的音高分布304，表示该样本的9％(例如，显示为0.09)是用于音符A的音高，该样本的6％(例如，显示为0.06)是用于音符A#的音高，该样本的17％(例如，显示为0.17)是用于音符B的音高，等等。应当注意，样本的音高分布标识了每个音高有多少存在于该样本中，而无论该特定音符在哪个八度音程内。例如，对于样本1，该样本的7％是用于音符A的音高，且该7％可以包括在一个或多个八度音程中的音符A的音高。

返回图2，动作202和204中确定的音高分布通过计算所确定的音高分布与所确定的音高分布中的一者或两者的经变调的版本之间的相关而彼此相比较(动作206)。音高分布的经变调的版本是指被升或降一个或多个半音的音高的值(例如，百分比)。例如，音高可以被升一个半音，从而导致音高分布中音符A的百分比变成音符G#在变调之前的百分比，导致音高分布中音符A#的百分比变成音符A在变调之前的百分比，以此类推。

图4图示音高分布的示例经变调的版本。图示了音高分布402，其中图3的样本2的音高被向上变调了一个半音。还图示了音高分布404，其中图3的样本2的音高被向上变调了两个半音。

返回图2，在动作206中，计算在动作202和204中确定的音高分布与在动作202和204中确定的音高分布的经变调的版本之间的相关。会得到不同音高分布的变调一个半音的音高数量为11，因此在动作206中计算的相关的数量为12，其中一个相关用于原始音高分布，然后对于每一个经变调的音高分布有一个相关。音高分布中各音高的值可以被视为一个向量，并且相关是两个样本的音高分布向量的点积。例如，图3的音高分布302中各音高的值可以被视为向量[0.07 0.12 0.04 0.12 0.04 0.14 0.08 0.03 0.070.06 0.16 0.07]。写该向量以及图3的示例音高分布的一种替代方式是使用整数百分比，得到向量[7％ 12％4％ 12％ 4％ 14％ 8％ 3％ 7％6％ 16％ 7％]。音高相关是根据以下公式确定的：

其中P(S1,S2)是指两个样本之间的音高相关，D(S1)是两个样本中的一个样本的音高分布，D(S2)是两个样本中的另一个样本的音高分布，d_i是两个样本中的一个样本的音高分布中音高i的值，d′_i是两个样本中的另一个样本的音高分布中音高i的值。

对于在动作202和204中确定的音高分布以及对于在动作202和204中确定的音高分布的每一个经变调的版本，使用公式(1)来计算音高相关。图5图示了图3的样本1和样本2的音高变调相关的示例表格502。表格502图示了样本1和样本2的音高分布在没有变调时的音高变调相关为0.0689，样本1未变调和样本2升调一个半音的音高分布的音高变调相关为0.0904，以此类推。

返回图2，确定用于提高在动作202和204中确定的各样本或样本组之间的协调的适当音高变调(动作208)。在一个或多个实施例中，适当音高变调是得到近似最高(例如，最大或者在最高的阈值量之内)音高相关的音高变调。例如，参照图5的表格502，适当的音高变调会是+11个半音(具有音高相关0.0945)。应当注意，会出现这样的场景，其中最高音高相关源自于无变调的样本，因此在动作208中确定的适当音高变调可以为零(无变调)。

动作208中对适当音高变调的确定任选地考虑了执行多少音高修改以获得适当的变调。优选的是将音高变调较少数量的半音。在一个或多个实施例中，对音高相关加权以生成经加权的音高相关，较大的权重被用于以较少音高修改获得的所选音高相关，较小的权重被用于以更多音高修改获得的所选音高相关。

图6图示按照一个或多个实施例的音高变调以及相应的权重的示例表格602。如表格602中所示，音高变调0对应于权重1.0，音高变调3对应于权重0.98，音高变调5对应于权重0.97，以此类推。每个音高相关都与权重相乘以获得经加权的音高相关，所述权重对应于该音高被变调的变调量(例如，半音数量)。例如，由音高被变调+3个半音而得到的音高相关乘以0.98以获得经加权的音高相关。图2的动作208中的适当音高变调于是就是得到近似最高(例如，最大或者在最大的阈值数量内)的经加权音高相关的音高变调。

返回图2，各样本或样本组中的一者的音高被变调一个量，该量由动作208中确定的适当音高变调所指示(动作210)。其音高被变调的样本或样本组可以是、但不必须是在比较所确定的音高分布时在动作206中被变调的样本或样本组。在一个或多个实施例中，各样本或样本组中的一者被变调一个量，该量由动作208中确定的所确定的适当音高变调所指示(例如，使用图5的表格502的示例，变调+11个半音)。

应当注意，由于音高分布不表示声音的八度音程，因此可以执行降调而非升调。图7图示示出相对的升调和降调组合的音高变调组合的示例表格702。音高升调在表格702左侧被图示，等价的音高降调在表格702的右侧被图示。因此，如表格702所示，音高变调+1等价于音高变调-11，音高变调+3等价于音高变调-9，以此类推。

返回图2，在一个或多个实施例中，动作210中的变调量是音高升调和等价的音高降调中具有较小绝对值的一者。通过选择音高升调和音高降调中具有较小绝对值的一者，可以减少所执行的变调数量，得到听上去与样本的原始(未变调)版本更接近的样本的经变调的版本。例如，如果动作208中确定的适当的音高变调为+11，则在动作210中，变调量会是-1(根据表格702等价于+11，但具有较小绝对值)。根据另一示例，如果动作208中确定的适当的音高变调为+5，则在动作210中，变调量会是+5(根据表格702等价于-7，但具有较小绝对值)。

通过使用各种公共和/或专属技术中的任一种，各样本或样本组中的一者的音高可以以各种不同方式的任一种在动作210中被变调，而不改变节奏。一个样本的音高变调是指例如，将该样本中的近似全部音符或声音(例如，阈值数量的音符或声音)变调近似相同的量(例如，变调相同数量的半音或者在阈值数量的半音内)。一组样本的音高变调是指将该组中的各样本中的近似全部音符或声音(例如，阈值数量的音符或声音)变调近似相同的量(例如，变调相同数量的半音或者在阈值数量的半音内)。

应当注意，尽管过程200是参照动作202或动作204中确定的样本或样本组之一的音高被变调而讨论的，但是替代地可以对动作202中确定的样本或样本组的音高以及动作204中确定的样本或样本组的音高两者进行变调。例如，如果在动作208确定样本2的音高要被变调+5，则样本2的音高可以被变调+3且样本1的音高被变调-2。又例如，如果在动作208确定样本2的音高要被变调+5，则样本2的音高可以被变调+3且样本1的音高被变调-2。

在以上讨论中，不考虑特定音符处于哪个八度音程中，而参照基于每个音高有多少存在于样本中而确定的音高分布。或者，音高分布可以基于对于多个音符和多个八度音程、每个音高有多少存在于样本中而确定。例如，对于每个八度音程中(或至少在多个八度音程中)的每一个音符，可以确定样本有多少是用于第一八度音程中音符A的音高(A1)、样本有多少是用于第二八度音程中音符A的音高(A2)、样本有多少是用于第三八度音程中音符A的音高(A3)、以此类推。如以上讨论地确定了在所确定的音高分布以及所述所确定的音高分布的经变调的版本之间的相关，尽管存在会得到一个不同的音高分布音高的较大数量的音高变调(例如，用于每一个附加八度音程的附加十二个音高变调)。还确定了用于提高各样本或样本组之间的协调性的适当音高变调，且如以上讨论的，各样本或样本组之一的音高被变调一个由所确定的音高变调所指示的量，尽管基于被用于确定音高分布的八度音程的数量而使用了不同的相对升调和降调的组合。

应当注意，此处讨论的音高修改使用了各样本的音高分布来理解各样本的和声构成。因此，音高修改不需要依赖于各样本中的音乐的调及/或和弦进程。

音频组合

图1的音频组合模块108组合了不同的样本或样本组，任选地创建一个新样本或样本组。此处对被组合的样本或样本组的引用包括一样本与另一样本组合的场景、一样本与一组样本组合的场景、以及一组样本与另一组样本组合的场景。组合各样本和/或各样本组的结果可以是一新样本或一组新样本，或者之前的样本或样本组可以被组合的样本或样本组所代替。

图8是图示按照一个或多个实施例的用于组合音频样本的示例过程800的流程图。过程800由音频组合模块实现，诸如图1的音频组合模块108，并且可以用软件、固件、硬件或者它们的组合来实现。过程800被示出为一组动作，并且不限于图示的用于执行各种动作的操作的次序。过程800是用于组合音频样本的示例过程；此处参照不同的附图包括了组合音频样本的附加讨论。

在过程800中，标识了要组合的样本和/或样本组(动作802)。样本或样本组可由用户选择来标识，用户选择可以经由以上讨论的各种不同的用户输入而接收。例如，对样本或样本组的用户选择可以是来自菜单的样本或样本组的选择、样本或样本组的图标或其他图形表示的选择、等等。或者，可以自动标识各样本和/或样本组中的一个或多个。例如，用户可以请求唱一首歌，并且使其歌唱与歌曲的乐器版本组合，该情况下，用户的歌唱在动作802中被自动标识为样本之一。

获得样本或样本组的和声内容(动作804)。和声内容是指在以上讨论的样本或样本组中使用的音符。和声内容可以以各种方式获得，诸如通过检取之前生成的和声内容(例如，被存储为与样本或样本组相关联的元数据)、响应于对样本或样本组的选择而生成和声内容、在样本被接收时(例如，在接收到实况样本的音频数据时)生成和声内容、等等。

动作802中标识的样本或样本组使用所述样本或样本组的音高分布来组合，以自动地调节样本中的至少一个样本的特征，以提高各样本的音乐兼容性(动作806)。可以调节各样本或样本组中的至少一者的各种不同的特征，包括样本或样本组的音高。因此，在动作806中，自动地更改样本或样本组的音高，以使在动作802中标识的样本或样本组听上去协调相干。样本或样本组响应于用户请求被组合以组合所述样本或样本组，所述样本或样本组可以经由以上讨论的各种用户输入的任一种被接收。例如，可以显示并由用户选择一用户可选择的“组合”按钮、图标、菜单项等，以请求所选择的样本或样本组被组合。举另一个例子，对样本或样本组的选择可以是用于组合样本或样本组的用户请求。对于此处讨论的技术可以使用用于组合样本或样本组的用户意图的任意表示。

也保存经调节的样本或样本组以及与经组合的样本或样本组相对应的聚合元数据(动作808)。经调节的样本或样本组可以被保存为一个新的样本或样本组(例如，新样本122)，或者，经调节的样本或样本组可以覆写和替换该样本的之前版本。如果两个样本被组合，则可以创建包括这两个样本的一组新样本(这两个样本中的一者或多者已经如以上讨论地被调节)。如果一样本与一组样本组合，则该样本(已经如以上讨论地被调节)被添加至该组样本或者包括该组样本的一组新样本，并且可以生成该组样本与之组合的样本。与该样本和/或样本组相对应的元数据被适当更新，以反映该样本的调节以及/或者该样本向该组样本的添加。

或者，经调节的样本和/或聚合元数据不需要被保存。例如，经组合的样本可以被回放(例如，作为实况表演)而无须被保存。

示例系统

尽管参照特定模块讨论了特定功能，但应当注意，此处讨论的个别模块的功能可以被分成多个模块，以及/或者多个模块的至少一个功能可以被组合到单个模块中。此外，此处讨论的执行动作的特定模块包括该特定模块本身执行该动作，或者该特定模块调用或以其他方式访问执行该动作的另一组件或模块(或者连同该特定模块而执行该动作)。由此，执行一动作的特定模块包括该特定模块本身执行该动作、以及/或者另一模块调用了执行该动作的该特定模块或以其他方式被执行该动作的该特定模块访问。

图9一般在900图示示例系统，该示例系统包括示例计算设备902，该示例计算设备902代表可以实现此处描述的各种技术的一个或多个系统和/或设备。计算设备902可以是例如服务提供者的服务器、与客户机相关联的设备(例如，客户机设备)、片上系统、以及/或者任何其他适当的计算设备或计算系统。

图示的示例计算设备902包括彼此通信耦合的处理系统904、一个或多个计算机可读介质906以及一个或多个I/O接口908。尽管未示出，计算设备902还可以包括将各个组件彼此耦合的系统总线或者其他数据和命令传输系统。系统总线可以包括不同总线结构的任一个或任意组合，不同总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线以及/或者使用各种总线体系结构的任一个的处理器或本地总线。还构想了各种其他示例，诸如控制和数据线。

处理系统904代表使用硬件来执行一个或多个操作的功能性。因此，处理系统904被图示为包括硬件元件910，该硬件元件910可以被配置为处理器、功能块等等。这可以包括硬件实现为专用集成电路或者用一个或多个半导体形成的其他逻辑器件。硬件元件910不受限于形成它们的材料或者其中采用的处理机制。例如，处理器可包括(诸)半导体和/或晶体管(例如，电子集成电路(IC))。在这一上下文中，处理器可执行指令可以是电可执行指令。

计算机可读介质906被图示为包括存储器/储存912。存储器/储存912表示与一个或多个计算机可读介质相关联的存储器/储存容量。存储器/储存912可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/储存912可以包括固定介质(例如，RAM、ROM、固定硬驱等)以及可移动介质(例如，闪存、可移动硬驱、光碟等)。计算机可读介质906可以用以下进一步描述的各种其他方式来配置。

(诸)输入/输出接口908代表允许用户将命令和信息输入计算设备902的功能性，并且也允许使用各种输入/输出设备将信息呈现给用户和/或其他组件或设备。输入设备的示例包括键盘、光标控制设备(例如，鼠标)、话筒(例如，用于语音输入)、扫描仪、触摸功能性(例如，被配置成检测实体触摸的电容性或其他传感器)、相机(例如，可以采用诸如红外频率等可见或不可见的波长来检测不包括手势之类的触摸的移动)等等。输出设备的示例包括显示设备(例如，监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等等。因此，计算设备902可以以以下进一步描述的各种方式来配置以支持用户交互。

计算设备902还包括音频协调系统914。音频协调系统914提供用于基于以上讨论的音高分布来自动协调音频的各种功能。音频协调系统914可以实现例如图1的音频协调系统100。

各种技术可在此用软件、硬件元件或程序模块的一般上下文来描述。一般而言，这种模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、组件、数据结构等等。此处使用的术语“模块”、“功能性”和“组件”一般表示软件、固件、硬件或者它们的组合。”此处描述的技术的特征是平台独立的，意指这些技术可以在具有各种处理器的各种商业计算平台上实现。

所述的模块和技术的实现可以被存储于某一形式的计算机可读介质上或者跨该某一形式的计算机可读介质被发射。计算机可读介质可以包括可由计算设备902存取的各种介质。通过示例、但非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

“计算机可读存储介质”是指允许对信息进行永久存储的介质和/或设备，以及/或者有形的存储器，与仅信号传输、载波或信号本身相反。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质这样的硬件、以及/或者以适用于存储信息的方法或技术实现的存储设备，所述信息诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或者其他数据。计算机可读存储介质的示例可以包括但不限于：RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字化视频盘(DVD)或其他光学存储器、硬盘、磁性盒带、磁带、磁盘存储器或其他磁性存储设备、或者适用于存储期望信息且可由计算机存取的其他存储设备、有形介质或制品。

“计算机可读信号介质”是指被配置成诸如经由网络将指令发射至计算设备902的硬件的信号承载介质。信号介质一般可以将计算机可读指令、数据结构、程序模块或其他数据体现于已调数据信号中，所述已调数据信号诸如载波、数据信号或其他传输介质。信号介质也包括任何信息传递介质。术语“已调数据信号”意指具有以对信号中的信息编码的方式被设置或改变的一个或多个特征的信号。通过示例但非限制，通信介质包括诸如有限网络或直线连接这样的有线介质、以及诸如声学、RF、红外及其他无线介质等无线介质。

如前所述，硬件元件910和计算机可读介质906表示指令、模块、可编程器件逻辑和/或以硬件形式实现的固定器件逻辑，它们可在一些实施例中用于实现此处描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及其他硅实现或其他硬件设备的组件。在该上下文中，硬件元件可以作为处理设备以及硬件设备操作，该处理设备执行由硬件元件所体现的指令、模块和/或逻辑定义的程序任务，该硬件设备用于存储指令供执行，例如前述的计算机可读存储介质。

以上的组合也可用于实现此处描述的各种技术和模块。因此，软件、硬件或程序模块及其他程序模块可以被实现为在某一形式的计算机可读存储介质上体现以及/或者由一个或多个硬件元件910体现的一个或多个指令和/或逻辑。计算设备902可以被配置成实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，将模块实现为可由计算设备902实现为软件的模块可以至少部分地以硬件来实现，例如通过使用处理系统的计算机可读存储介质和/或硬件元件910。指令和/或功能可由一个或多个制品(例如，一个或多个计算设备902和/或处理系统904)执行/操作，以实现此处描述的技术、模块和示例。

如图9进一步图示，示例系统900为在个人计算机(PC)、电视设备和/或移动设备上运行应用时的无缝用户体验启用无处不在的环境。在利用应用、播放视频游戏、观看视频等等的同时从一个设备转换到下一个设备时，服务和应用对于公共用户体验在所有三个环境中基本类似地运行。

在示例系统900中，多个设备通过中央计算设备互连。中央计算设备可以在多个设备本地，或者可以位于多个设备远程。在一个实施例中，中央计算设备可以是具有一个或多个服务器计算机的云，该一个或多个服务器计算机通过网络、互联网或其他数据通信链路连接至多个设备。

在一个或多个实施例中，该互连体系结构允许跨多个设备传递功能性以便向多个设备的用户提供公共的且无缝的体验。多个设备的每一个可以具有不同的物理要求和能力，且中央计算设备使用平台来启用体验向设备的传递，该体验既适合于该设备也对于全部设备公共。在一个或多个实施例中，创建目标设备的类，且体验适合于设备的基本类。设备的类可由设备的实体特征、使用类型或其他公共特征所定义。

在各种实现中，计算设备902可以假定各种不同的配置，诸如用于计算机916、移动设备918以及电视920的用途。这些配置的每一个包括一般可具有不同构造和能力的设备，且因此计算设备902可以根据不同设备类的一个或多个类来配置。例如，计算设备902可以被实现为设备的计算机916类，该类包括个人计算机、台式计算机、多屏计算机、膝上型计算机、上网本等等。

计算设备902也可以被实现为设备的移动918类，该类包括移动设备，诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏计算机等等。计算设备902也可以被实现为设备的电视920类，该类包括在休闲观看环境中具有一般较大屏幕或者连接至该较大屏幕的设备。这些设备包括电视机、机顶盒、游戏控制台等等。

此处描述的技术可由计算设备902的这些各种配置所支持，并且不限于此处描述的技术的具体示例。该功能性可以全部或部分地通过使用分布式系统来实现，诸如经由以下所述的平台924的“云”922上。

云922包括资源926的平台924以及/或者代表该平台924。平台924抽象云922的硬件(例如，服务器)和软件资源的基本功能性。资源926可以包括在计算机处理在位于计算设备902远程的服务器上执行时可利用的应用和/或数据。资源926也可以包括通过互联网和/或通过订户网络提供的服务，所述订户网络诸如蜂窝或Wi-Fi网络。

平台924可以抽象资源和功能以便将计算设备902与其他计算设备相连。平台924也用于抽象资源的缩放比例以便为经由平台924实现的对资源926的所遇需求提供相应级别的规模。因此，在互连的设备实施例中，此处描述的功能性的实现可以遍布系统900分布。例如，功能性可以部分地在计算设备902上以及经由平台924实现，该平台924抽象云922的功能性。

尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种方法，包括：

获得第一音频的第一音高分布，所述第一音频包括一音频样本或一组音频样本；

获得第二音频的第二音高分布，所述第二音频包括一音频样本或一组音频样本；

基于所述第一音高分布和所述第二音高分布，确定用于提高所述第一音频和所述第二音频的和声相干性的音高变调；以及

由设备使用所述音高变调来提高所述第一音频和所述第二音频的和声相干性；

其中所述确定包括：

生成表示所述第一音高分布的第一向量；

生成表示所述第二音高分布的第二向量；以及

生成所述第一音高分布和所述第二音高分布的音高相关，所述音高相关是所述第一向量和所述第二向量的点积之和。

2.如权利要求1所述的方法，其特征在于，所述使用包括通过将所述第一音频样本或音频样本组变调由所述音高变调所指示的量而自动修改所述第一音频样本或音频样本组。

3.如权利要求1所述的方法，其特征在于，所述第一音高分布标识各音符的多个音高中的每个音高有多少存在于所述第一音频样本或音频样本组中而不论各音符的每一个音符处于哪个八度音程，所述第二音高分布标识各音符的多个音高中的每个音高有多少存在于所述第二音频样本或音频样本组中而不论各音符的每一个音符处于哪个八度音程。

4.如权利要求1所述的方法，其特征在于，所述第一音高分布为多个八度音程中多个音符的每个音符标识多个音高中的每个音高有多少存在于所述第一音频样本或音频样本组中，并且所述第二音高分布为所述多个八度音程中多个音符的每个音符标识多个音高中的每个音高有多少存在于所述第二音频样本或音频样本组中。

5.一种计算设备，包括：

一个或多个处理器；以及

计算机可读存储介质，其上存储有多个指令，所述多个指令响应于由所述一个或多个处理器的执行，使所述一个或多个处理器执行以下动作，所述动作包括：

基于第一音频和第二音频的音高分布，确定用于对所述第一音频和所述第二音频中的一者或两者进行变调的量，以提高所述第一音频和所述第二音频的和声相干性，以及

通过基于所确定的量对所述第一音频和所述第二音频中的一者或两者进行变调来使用所确定的量来提高所述第一音频和所述第二音频的和声相干性；

其中所述使用包括：

生成表示所述第一音频的音高分布的第一向量；

生成表示所述第二音频的音高分布的第二向量；以及

生成所述第一音频的音高分布和所述第二音频的音高分布的音高相关，所述音高相关是所述第一向量和所述第二向量的点积之和。

6.如权利要求5所述的计算设备，其特征在于，所述使用还包括：

将所述第一音频的音高分布变调一特定量，从而得到表示经变调的音高分布的附加向量；以及

生成经变调的音高分布和所述第二音频的音高分布的音高相关，所述音高相关是所述附加向量和所述第二向量的点积之和。

7.如权利要求6所述的计算设备，其特征在于，所述使用还包括：

对于所述第一音频的音高分布的多个附加变调，重复对所述第一音频的音高分布进行变调以及为经变调的音高分布以及所述第二音频的音高分布生成音高相关，从而得到多个音高相关。

8.如权利要求7所述的计算设备，其特征在于，所述使用还包括：选择得到最高音高相关的经变调的音高分布来作为用于对所述第一音频进行变调以提高所述第一音频和所述第二音频的和声相干性的所述量。