CN101278349A

CN101278349A - 处理用于重放的音频的方法和设备

Info

Publication number: CN101278349A
Application number: CNA2006800360424A
Authority: CN
Inventors: S·C·波斯; F·维格诺利; A·N·莱马
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-09-30
Filing date: 2006-09-12
Publication date: 2008-10-01
Also published as: US8069036B2; EP1938325A2; JP2009510658A; KR20080066007A; WO2007036824A2; US20080221895A1; WO2007036824A3

Abstract

公开了一种处理用于重放的音频以提供在音频轨道的开始区域和在前音频轨道的结束区域之间的平滑过渡的方法和设备。为每个音频轨道计算代表色谱图的数量，并且识别用于每个音频轨道的开始和结束区域的混合点。使代表音频轨道开始区域的混合点处的色谱图的数量与代表在前音频轨道的结束区域的混合点处的色谱图的数量相互关联，从而确定用于重放的音频轨道的次序和/或确定该混合过渡的持续时间。

Description

处理用于重放的音频的方法和设备

技术领域

本发明涉及一种对用于重放的音频进行处理的方法和设备。特别是，本发明涉及音频的重放，其中提供在连续音频片段之间的平滑过渡。

背景技术

由于声频压缩的发展、家庭宽带因特网接入的可用性以及电子音乐分配系统的普及，用户现在能够在其本地数据库中获得和存储数量不断增加的音频文件。此外，具有大容量随机存取存储器和复杂再现能力(rendering capability)的消费者设备使整个电子音乐数据库可用于即时重放。与仅仅手动选择有限数量歌曲的传统音乐重放相反，对在考虑用户兴趣的同时利用整个数据库生成智能播放列表的生成技术存在强烈的需求。此外，所希望的是以具有平滑过渡的无缝流动方式来呈现这些歌曲。提供歌曲之间的平滑过渡的自动音频混合和重放系统是已知的，并且通常将其称作自动DJ。

自动DJ是在消费者硬件平台中的软件功能，其具有音乐“知识”并因此能够从给定数据库中选择歌曲并将这些歌曲混合。自动DJ不是人类DJ用于进行音频混合的工具，而是人类DJ的代替者，并且可以最小介入地进行工作。

自动DJ不是仅提供交叉衰减过渡，而是能够根据音频内容和用户偏好来应用不同类型的过渡。可以将自动DJ分成两个部分：(1)生成播放列表，根据其相似程度将歌曲分类，即它具有一些“音乐知识”；(2)将连续的歌曲进行混合并且播放该混合。将歌曲进行混合包括以下步骤：计算过渡的类型和尺寸，确定精确的混合点以及播放该音乐。这种自动DJ系统提供复杂的声音处理功能以实现在连续轨道之间的各种过渡(例如节拍的均衡和拍子相位(beat phase)的同步)以及连续轨道的分析。其根据直接的标准来确定过渡，然后执行该过渡。

有许多执行自动音频混合的现有产品，例如Bpm DJ和DJ Mix Pro。Bpm DJ是一种在实况转播的情况下(at live events)将预定义播放列表混合的封闭系统。预定义的混合基于不同的种类。例如，选择包括南达科他州婚礼SJ混合、苏福尔斯城、布鲁金斯混合、chamberlain混合、或Watertown event混合或逍遥音乐会(prom)、学校舞会、聚会等。所有这些都基于已知的数据库和播放列表。但是，该方法需要对于歌曲的先验知识，并且将仅仅以预定义的歌曲集合进行工作。DJMix Pro在其播放列表的选择中提供了更多灵活性，并且在一定程度上基于该输入播放列表来进行拍子混合。但是，其缺乏确定重要的歌曲语义的能力，如乐句(phrase)边界。在US2003/0183964中也公开了将歌曲自动地混合以产生两首歌之间的无缝过渡。已知的自动混合方法的缺点在于所产生的混合过渡经常很短或者质量差。

发明内容

因此，所希望的是提供一种简单而有效的系统，用于对播放列表中的连续音乐轨道进行自动选择、排序和混合以产生(几乎)无缝过渡。此外，所希望的是提供一种自动DJ，其能够利用可用的整个数据库来提供不同的播放列表，其中重放的次序可以最优化以提供在音频轨道之间的平滑过渡。音乐轨道是一段音频，例如为了随后的重放而以数字格式存储的一首歌。

特别地，这可以根据本发明的第一方面通过一种用于为重放而处理音频以提供在音频轨道的开始区域和在前音频轨道的结束区域之间的平滑过渡的方法来实现，所述方法包括以下步骤：使代表在所述音频轨道的所述开始区域的混合点处的色谱图的数量与代表在所述在前音频轨道的所述结束区域的混合点处的色谱图的数量相互关联；以及基于代表色谱图的数量之间的相关性，使重放期间在所述音频轨道的所述开始区域和所述在前音频轨道的所述结束区域的混合点处的连续音频轨道之间的过渡平滑。代表色谱图的数量可以是色谱图本身或者是从该色谱图获得的一个或多个值。

这也可以根据本发明的第二方面通过一种用于为重放而处理音频以提供在音频轨道的开始区域和在前音频轨道的结束区域之间的平滑过渡的设备来实现上述目的，所述设备包括：相关器，其用于使代表在所述音频轨道的所述开始区域的混合点处的色谱图的数量与代表在所述在前音频轨道的所述结束区域的混合点处的色谱图的数量相互关联；以及基于代表色谱图的数量之间的相关性，使重放期间在所述音频轨道的所述开始区域和所述在前音频轨道的所述结束区域的混合点处的连续音频轨道之间的过渡平滑。

色谱图已经证明对于产生音频轨道的平滑混合是非常有用的。该系统可以利用具有歌曲的任何先验知识的任何音频集合来工作。

色谱图可用于这样选择播放列表中的音频记录并将其分类，即每一对连续记录在其混合点处都具有类似的和声或和弦环境。可以通过寻找播放列表中任两个连续音频记录的混合点的色谱图之间的最大相关性来实现音频记录的这种最优排列。

优选的是，基于连续音频轨道的开始和结束区域的色谱图的相互性来选择多个音频轨道以按次序进行重放。更优选的是，确定重放的次序以使连续音频轨道的开始和结束区域的色谱图的相关性最优。

可以基于局部搜索法来确定播放列表的次序，在该局部搜索法中，计算关于音频轨道序列是否满足预定义约束的惩罚(penalty)；以及迭代地获得具有最小惩罚的音频轨道序列。可以基于音频轨道的色谱图之间的相关性来计算该惩罚。

附加的或者可替换的是，可以基于连续音频轨道的开始和结束区域的色谱图的相关性来确定所述连续音频轨道之间的混合过渡的持续时间。

在本发明的优选实施例中，通过在预定数量的八度音上谐波地压缩每个音频轨道的内容的基于振幅FFT的频谱来计算色谱图。八度音的数量可以是六个。这样，通过将频谱与汉明窗(Hamming window)相乘来过滤每个音频轨道的谐波地压缩的振幅谱。在频谱峰处与在频谱峰周围提取该振幅谱的值。

色谱图是在音乐音频中所有12个色度的似然性的编码。色度是由音符名称(例如“C”、“C#”、“D”，…)所代表的、忽视其八度音的音符的音阶位置种类。因此，相隔一个八度音的两个音高共用相同的色度但是其音高的高度不同。因此，色度实质上因其八度音周期性而循环。按照这种方式，色谱图将音乐样品的和声/和弦内容以非常紧凑的形式概括为12元素特征向量。

以特定音调组成或者利用特定和弦相继进展的音乐具有相对更经常出现的特殊色度；可以发现这些色度更加稳定。大调(或其相对应的大调三和弦)的色谱图最经常出现其主音，以及三和弦的其他两个音高(大三度、完全五度)，随后是由非音阶音高而结束的该大音阶的其余音高。另一方面，小调(及其对应的小调三和弦)的色谱图的不同之处在于较少出现大三度，但是比较经常出现小三度。色度图仅仅取决于音高和音调中心之间的关系而不是取决于绝对音高。因此，不同大调或小调(和音)的色谱图是彼此的所有变调。例如，C大调的色谱图可以移动6个位置以达到G大调的色谱图。这使得两个音频样品的色谱图之间的Pearson(皮尔森)积矩相关性成为用于计算在两个音频样品之间的和声相似性的优秀候选。

附图说明

为了更完整地理解本发明，参考下面结合附图的描述，在附图中：

图1是已知自动DJ系统的简单示意图；

图2是音频轨道的典型混合材料的图示；

图3是根据本发明实施例的自动DJ系统的简单示意图；以及

图4是图3的自动DJ系统的混频器的简单示意图。

具体实施方式

图1中示出了已知的自动DJ的基本示意图。它包括歌曲数据库101，其向内容分析器103和播放器105输出歌曲。内容分析器103对数据库103中存储的歌曲进行分析以提取代表内容的节奏和感知特性的参数。这些参数尤其包括歌曲分段参数、节拍和拍子位置(开始)，和声调号(signature)等。这些参数(共同地称作自动DJ元信息)可以方便地脱机计算，并存储在链接的特征数据库107中或者增加到该数据库107中。

播放列表生成器109是反馈的用户偏好，并且利用数据库101创建适合的播放列表。假定这种播放列表，过渡计划者111将与该播放列表中的歌曲相对应的自动DJ元信息进行比较，并且决定最佳播放顺序，并且生成由播放器105执行的一组命令。最后，播放器105使这些歌曲从数据库101流入到执行命令序列的输出提供设备113(例如扬声器)中，所述命令序列指示应当怎样按照有节奏的一致和平滑的方式混合和重放这些歌曲。

为了执行无缝的歌曲过渡，先决条件是以混合方式成功播放的歌曲在其混合点处具有音乐上类似的性质。因此，歌曲的选择及其在播放列表中的顺序对于保证混合中的音乐相似性是很重要的。节拍方面的很小的不相似性能够通过应用诸如时间拉伸算法的音乐转换技术来校正。可以通过使歌曲的拍子(即感知的音乐中的脉冲)对准来混合歌曲，称作“拍子混合”。也可以相对于相似的音调(或相似的和音/和弦环境)来混合歌曲，“和音混合”。

存在许多产生在播放列表中的歌曲的正确的“最佳”顺序的已知技术。一种已知的技术称作局部搜索。在该方法中，用户偏好被规定为对播放列表的约束。为了产生对该播放列表的“最佳”拟合，使用于违反约束的惩罚最小化。为了实现这个，使用罚函数，这些罚函数以数值表示约束被满足到何种程度。局部搜索按照迭代的方式工作，从而找到解决方案(播放列表)，并且在每次迭代中，对该解决方案做出随机的微小的改变。这种能够对解决方案所做的改变是(i)增加一首歌，(ii)删除一首歌，(iii)用一首新歌代替一首歌，以及(iv)交换播放列表中的两首歌。然后将每次迭代的每个解决方案的惩罚与在前的惩罚进行比较直到找到最小的惩罚。

在自动DJ中产生合适的播放列表的另一种已知方法是利用核函数的线性组合高斯对用户偏好进行建模。该模型通过利用核函数表示歌曲元数据之间的相似性来尝试学习用户的偏好。一旦自动DJ是受过训练的，那么将学习的特性直接应用于其他更大的歌曲集。基本的假定是该元数据一贯地概括其链接到的歌曲。

在许多情况下，不存在有效的假定，因为附着于文件的音频内容的元数据是任意填充的，并且不必然代表歌曲的特性。此外，不允许歌曲的拍子混合。

为了帮助读者理解本发明的原理，将参考图2至4来描述混合过程的基本要素的细节。

图2说明音乐轨道的典型构成。音乐轨道的结构仅仅是一个例子，将要实现的过渡类型取决于在什么地方应用混合，或者相反地，所用的间隔可以取决于设想的过渡类型。

如图2中所示，音乐轨道(或歌曲)可以被分解为三个主要部分，即，Intro(引子)、Meat(内容)和Outro(尾声)。这些和几个其他区域可以规定如下：

第一可听见的部分(声音渐强时刻)201。在该位置轨道刚好超过第一时间的听觉阈。

引子结束202。它仅用于分析的目的。它被用作融入时刻指示器的锚。它降低了部分引子处于拍子混合过渡的概率。

融入时刻203。这识别拍子开始的位置，在拍子混合的情况下，其将与播放列表中在前轨道的融出时刻同步。

融出时刻204。这识别拍子开始的位置，在拍子混合的情况下，其将与播放列表中下一个轨道的融入时刻同步。

尾声的开始205。这仅用于分析的目的。它被用作融出时刻指示器的锚。它降低了部分尾声处于拍子混合过渡的概率。

最后的可听见的部分(声音渐弱时刻)206。在该位置轨道刚好超过上一个时间的听觉阈。

基于上面的定界符，存在四个混合(分析)区域：

声音渐强区域(区域A)：其中应用声音渐强的过渡类型的区域。其完全位于歌曲的引子并由声音渐强时刻201开始延伸。它的实际持续时间取决于在前歌曲的特性。

融入区域(区域B)：其中与在前歌曲能够发生拍子混合的区域。其完全处于歌曲的内容中并且由融入时刻203开始延伸。它的精确持续时间取决于在前歌曲的特性。

融出区域(区域C)：其中与下一个歌曲能够发生拍子混合的区域。其完全处于歌曲的内容中并且延伸直到融出时刻204。它的实际持续时间取决于下一个歌曲的特性。

声音渐弱区域(区域D)：其中应用声音渐弱的过渡类型的区域。其完全位于歌曲的尾声部分并延伸直到声音渐弱时刻206。它的实际持续时间取决于下一个歌曲的特性。

对于每个分析区域，将自动DJ元信息存储在数据库中。在这些区域外面，如果为任意区域实时计算元信息是可能的，那么可以实现优质混合(fancy mix)。当元信息不可得到时，该优选实施例的自动DJ可以利用简单的CD风格的过渡。

在根据本发明实施例的自动DJ系统中的第一步是提取信号特征，其使得能够对内容进行自动选择和分类。为此，识别两类自动DJ特征，即，对于进行在艺术上一致的混合所必需的特征集(称作播放列表特征)，以及对于执行节奏上一致的混合所必需的特征集(称作节奏特征)。

播放列表特征是用于构成满足用户标准的有意义的(在艺术上一致的)歌曲集合的特征集。可以基于连同记录一起交付的元数据来起动播放列表的生成。这种元数据在大多数情况下被手动地编辑，并且以该歌曲详情的某个直观知识为基础，如艺术家的流派。通常提供的元数据包括发行年份、艺术家名字、流派标签等。基于元数据的播放列表生成方法基本上假定已编辑的元数据正确地描述了其所链接的歌曲。但是，这种假定是非常不可能实现的，因为附着于偷窃的内容上的元数据在大多数情况下是被任意填充的，并且该元数据不必然代表该歌曲的特性。因此，在歌曲特征和元数据之间的链接可能导致有瑕疵的模型。

生成播放列表的另一种方式基于低级特征，利用一些信号处理工具来提取这些低级特征以便根据内容本身自动地生成元数据。这允许将歌曲分级。这具有以下优点，利用客观数量测量歌曲相似性，并因此具有产生一致模型的潜力。利用两种播放列表生成方法：基于分类的方法和基于相似性度量的方法。在第一种方法中，特征集首先被提取，随后基于这些特征。获得一个模型并对其进行训练以便执行歌曲的分类和自动贴标签。一旦对歌曲被贴标签，就利用元数据来生成用于混合的播放列表。如上所述，一种已知的方法是局部搜索。第二种方法基于歌曲相似性，该歌曲相似性以某一客观的距离测量为基础。本文的构思是，给定客观的距离测量和“种子”歌曲，收集相似的歌曲并基于它们的似然性程度进行分类。

节奏特征是明显的歌曲特征，其很容易进行建模。这些一般是清楚的客观概念，如节奏、拍子相位、节拍和乐句边界等。在歌曲语义学中，最低的级别是歌曲的拍子，其中由拍子周期将每个连续的拍子分开。拍频称作歌曲的节奏。一组拍子形成歌曲的节拍。每个节拍的拍子数量取决于歌曲的流派。在舞曲中，例如每个节拍有4拍。在更高的抽象级别上，是歌曲的乐句。这一般是四个节拍的集合，并且通常与歌曲中歌唱乐句的开始重合。在歌曲混合的领域中，人类DJ总是设法将要被混合的歌曲的乐句边界对齐。按照这种方式，产生有节奏的声音混合。但是，乐句检测和对准需要较深厚的乐感并且经常难于建模。在这些情况下，节拍对准的拍子混合可能是足够的。通常，对于节奏上可接受的音乐混合来说，乐句对准是理想的，节拍对准是可实行的，拍子对准是不充分的。

图3中示出了根据本发明实施例的自动DJ。

自动DJ 501包括第一混频器503和第二混频器505。将每个混频器的这一对输入终端连接到自动DJ 501的相应的输入终端507a、507b、507c、507d。每个混频器503和505都连接到自动DJ 501的控制终端509。每个混频器503、505的输出都连接到加法器511的相应的输入端。加法器511的输出连接到自动DJ 501的输出终端513。

第一对输入终端507a、507b连接到第一低通滤波器515和第一高通滤波器517的输出端。第二对输入终端507c、507d连接到第二低通滤波器519和第二高通滤波器521的输出端。

在过渡周期期间，第一低通滤波器515和第一高通滤波器517将第一输入信号x[n]分解成两个互补的分量x_L[n]和x_H[n]，第二低通滤波器519和第二高通滤波器521将第二输入信号y[n]分解成它的两个互补的分量y_L[n]和y_H[n]。优选的是，这些是低频(低音)和高频(高音)分量。随后，使用第一混频器503将两个信号x_L[n]和y_L[n]的对应的频率分量混合。使用第二混频器505将两个信号x_H[n]和y_H[n]的对应的频率分量混合。第一和第二混频器503、505的过渡概览(profile)与图4中所示的相似。

然后，通过加法器511将混频器503、505的输出z_L[n]和z_H[n]相加以生成在自动DJ 501的输出终端513上输出的输出混合信号z[n]。在自动DJ 501的控制终端509上输入的控制信号指示如何在两个混频器503、505中执行混合，并且包含混合点的位置以及重叠的尺寸的信息。

原则上，能够选择多个频带，每个频带都具有其自己的过渡概览。此外，在每个频带中的过渡概览都能够从零重叠变化为非常大的重叠。

关于图4，提供了混频器503，505的更详细的描述。应该理解，第一和第二混频器503、505基本上是相似的，并且为简单起见这里仅示出和描述了第一混频器503。

第一混频器503包括相位比较器601。相位比较器601的输入端连接到混频器503的输入终端603、605。混频器503的输入终端603、605也连接到相应的第一和第二延迟元件607、609的输入端。延迟元件607、609受由相位比较器601所产生的控制信号C的控制。第一延迟元件607的输出端连接到第一增益元件611的输入端。第二延迟元件609的输出端连接到第二增益元件613的输入端。第一和第二增益元件611、613的输出端连接到加法器615的相应的输入端。加法器615的输出端连接到混频器503的输出终端617。

将输入信号x_L[n]和y_L[n]分别安排在输入终端603和605。在相位比较器601中比较x_L[n]和y_L[n]的相位。比较器601的输出是控制信号C，其控制延迟元件607、609以便使加法过程中的相位冲突减到最小。为了防止听觉假象(audible artifact)，适度地改变延迟元件607、609。增益元件611、613实现交叉衰落轮廓。按照这种方式，相位冲突的问题(在这种情况下是待混合的信号的低音分量)得到补偿。

增益元件611、613的增益受在自动DJ 501的控制终端509上输入的控制信号的控制。

当人类DJ在准备进行混合时考虑的一个重要特征是待混合的歌曲的音调的相似性。例如，将C大调与升F小调混合是更困难的。在信号处理中，用所谓的歌曲的色谱图来代表歌曲的音调。色谱图是基于音高的感知组织的音频信号的随时间变化的频谱的抽象，其中高度多余的八度音关系是不受重视的并且强调的是音高结构。色谱图是歌曲的音调的表现，并且基于表1中所示的频率到音调的映射。

音调	C	C#	D	D#	E	F	F#	G	G#	A	A#	B
音调	C	C#	D	D#	E	F	F#	G	G#	A	A#	B	索引	0	1	2	3	4	5	6	7	8	9	10	11
频率(Hz)	8.1816.3532.7065.41	8.6617.3234.6569.30	9.1818.3536.7173.42	9.7219.4538.8977.78	10.3020.6041.2082.41	10.9121.8343.6587.31	11.5623.1246.2592.50	12.2524.5049.0098.00	12.9825.9651.9103.83	13.7527.5055.00110.00	14.5729.1458.27116.54	15.4330.8761.74123.47	索引	0	1	2	3	4	5	6	7	8	9	10	11

表1

通过获得在0到20kHz的频率范围内的12个八度音盒(bin)的信号的归一化累积能量来计算歌曲的色谱图。为了更加具体，让x(f)是音频信号的频率响应，f_kj1和f_kj2代表第k个八度音盒中第j个频率范围的下界和上界。f_kj1和f_kj2使每个频谱区的宽度是表1中给出的中心频率周围的半音的一半。这样，由下式给出第k个色谱图值μ_k：

μ_{k} = \underset{j}{Σ} \frac{1}{(f_{kj 2} - f_{kj 1})} {&Integral;}_{f_{kj 1}}^{f_{kj 2}} {| x (f) |}^{2} d_{f}

歌曲W的色谱图x是通过将12个色谱图的值收集成单一向量而构成的直方图，即

x＝[μ₀μ₁μ₂…μ₁₁]

在根据本发明实施例的自动DJ系统中，混合的持续时间(重叠的尺寸)与待混合的两首歌的色谱图之间的相似性成比例。这两个色谱图之间的相似性由两个色谱图向量x、y的Pearson积矩相关性p(x，y)规定为：

p(x，y)＝-(p(x，y)-1)/2

其中x和y代表尺寸M(＝12)的色谱图向量，p(x，y)是Pearson积矩相关性，其给出为：

p (x, y) = \frac{Σxy - \frac{ΣxΣy}{M}}{\sqrt{(Σ x^{2} - \frac{{Σx}^{2}}{M}) (Σ y^{2} - \frac{Σ y^{2}}{M})}}

Pearson相关性落在间隔[-1，1]中，其中1的值表示完全对应，0的值代表没有对应，-1的值代表完全相反的对应。假设p(x，y)，那么利用下面的关系式来计算该混合的持续时间：

Δ＝Kp(x，y)+θ，

其中θ是容许的最小重叠，并且其通常等于即将播完的歌曲的拍子周期。K是将相关值映射成持续时间的常数。K通常依据拍子来测量，并且可以具有在16-32个拍子的范围内的值(即1到2个乐句的最大重叠)。

当待混合的歌曲的色谱图离得很远时，该混合间隔很短，并且可能生成不太令人愉快的混合。

为了克服该问题，所希望的是将两个内容用人工生成的过渡模式(pattern)桥接起来。该模式一般是打击乐器模式，其能够适合任何色谱图。该打击乐器模式称作单一音调信号，这是因为它相对于八度音盒具有或多或少平坦的频谱，并因此对所有种类的歌曲提供几乎恒定的相关值。假定歌曲的色谱图不匹配，那么在两首歌曲之间插入人工模式从而能够更平滑地过渡。

假定歌曲A和歌曲B具有不匹配的音调，那么利用人工生成的过渡模式来跨接该不匹配。可以这样设计打击乐器模式，使其色谱图从接近歌曲A逐步地过渡到接近歌曲B，或者可以将其选择为具有如上所讨论的单一音调。除了色谱图之外，人工的模式也可以用于匹配非常不同的节奏以及具有完全不同风格的歌曲。后者例如可以通过引入声效应来实现，如在待混合的歌曲之间的突变(break)。

在优选实施例中，自动DJ元信息从歌曲的数据库中得到。对于每个分析来说，自动DJ元信息(即节奏和拍子开始、小节边界、拍子强度、频谱形状参数(色谱图))脱机地计算并被存储在链接的数据库中，如上面参考图1描述的。此外，也可以收集用于客观似然性度量(称作似然性参数)的其他(所谓的非自动DJ)元信息，如流派、时代、艺术家和低级特征。尽管自动DJ确定在任两首歌曲之间的最优过渡(从长时间融合到暂停混合的范围)，但是当也使用关于非自动DJ元信息的约束并且该约束令人满意时播放列表变得更有吸引力。在几种加权组合中使用自动DJ元信息和似然性参数的应用被进行以提供从用户提供的种子歌曲开始的播放列表。两个“预置的”用户偏好被实现；或者该播放列表包含尽可能多的同步混合，或者该播放列表包含优化的关于其和声调号的连续匹配的轨道。

自动生成的播放列表供给过渡设计者，其分析在每个过渡中所用的分析区域的自动DJ元信息。根据该分析，确定优选的过渡类型和进行该过渡所需的参数。然后由播放器来执行生成的命令集以进行所需的混合。

优化歌曲在播放列表中的顺序以提供所需的平滑过渡的优选技术是利用基于局部搜索的方法。在该方法中，和声相似性可以被建模为在包括长度为N的连续歌曲S＝s₁s₂…s_N的播放列表中两个(相继的)位置i和j＝(i+1)之间的二进制约束，如

HarmonicSimilar(i，j)

≡

1≤i≠j≤N，s_i.x≈s_j.yholds

其中s_i.x代表在歌曲s_i的混合点x处的色谱图。混合点例如可以包括两首连续的歌曲的尾声和引子(例如最后10秒和最初10秒)。为了实现该局部搜索，必须将色谱图之间的上面的近似进一步实施为罚函数。该罚函数表明一个色谱图以从0到1的范围内的数值如何接近另一个色谱图。

由于必须相对于和声相似性而将整个播放列表最优地排序，因此必须找到歌曲序列s₁s₂…s_N，其中使所有罚函数P^*的总和减为最小，即，

P^{*} = {\arg \min}_{s_{1} s_{2} . . . s_{N}} Σ_{i = 1}^{N - 1} p (s_{i} . x, s_{i + 1} . y)

显然，该问题也可以表示为最大化问题。

首先，本发明优选实施例的方法是为每首歌曲(或者为每首歌曲的每个相关的混合点)计算色谱图。混合点可以是歌曲的引子和尾声。该计算可以脱机或联机地进行。但是，出于速度的目的，优选脱机地进行该计算。

如上所述，色谱图规定为谱表示的重构，其中以多对一的方式将频率映射到12个色度值的有限集。这通过将频率分配给“盒”来进行，所述“盒”代表对于该频率的等程音阶的理想色度值，例如如上面表1中所示。“盒”对应于在八度音中的12个色度。对于谱表示，使用基于谐波压缩振幅FFT的频谱的总和，其中通过对该信号进行向下取样来截去高于5kHz的频谱内容。假定较高频率区域内的谐波对较低频率区域内的音高没有显著的贡献。优选的是，仅增加有限数量的谐波压缩的频谱(比如15)。增强谱分量(即，峰值)以抵消对音高没有贡献的假的峰值。较高频率处的谱分量对于音高的贡献少于较低频率处的谱分量的贡献。通过内插法将频率横坐标变换为对数横坐标，因为人类的音高感知遵循对数法则。总体上，每个八度音上的171个点通过三次样条法在6个八度音上(从25Hz到5kHz)进行内插。需要这样来实现用于从线性到对数频率域的较高分辨率以及防止数值不稳定性。

加权函数被用于对人类的听觉灵敏度进行建模；感知的音高的响度取决于其频率。例如，具有相等振幅的音高的响度在低于400Hz的频率处开始急剧地下降。

谐波压缩意味着用整因子n乘以线性频率横坐标。在对数频率域中，乘法等于轴(shaft)(或加法)。压缩的等级n指的是将要转换成和谐音(resolve)的谐波指数。进行压缩的数量总计为调查研究的谐波的数量。将所有这些不同的压缩频谱显示相加；利用一系列的渐减因子来实现较高的谐波比较低的谐波对音高的贡献小。

从算法观点来看，输入信号分割成100毫秒的不重叠时间帧。如果该信号是立体声格式，那么通过首先将两个通道进行平均来产生单声道版本。一方面，通过在具有可用的全程节奏(30-300位分；或者在每秒5个事件和每隔两秒1个事件之间)的音乐演奏中音符的最小持续时间，另一方面通过长的帧在计算上大集中来产生帧长度。

由于进一步的处理仅仅考虑从A0(27.5Hz)到A6(1760.0Hz)的音乐音高，因此在从25Hz直到5kHz的6个八度音上进行该谐波压缩，从而也捕获一些较高音高频率的谐波。因此，将不考虑大于5kHz的频率处的频谱内容。至少10kHz的低通滤波和抽取过程通过特殊因子将该信号bandlimnit和向下取样。低通滤波由理想低通滤波器的FIR近似而下降。该向下取样使计算时间必要性引人注目地减小而不会严重地影响结果。在帧中的“剩余”样品与汉明窗口相乘，零填塞的，并且根据1024点FFT来计算振幅谱。该频谱由按照线性频标的以4.88Hz隔开的512个点组成。其次，应用旨在增强峰值而不会严重地影响频率或其幅度的过程。通过将在与相对最大值分开的多于两个FFT点(9.77Hz)的点处的所有值设定等于0，来仅仅考虑在频谱峰值处或频谱峰值周围的值。然后利用汉宁滤波器使最后得到的频谱平滑。

因为4.88Hz的线性分辨率对于较低的音高区域极其有限(在C2和C#2之间的音高频率差是3.89Hz)，为171(内插法)计算对数频标上的频谱的值，计算对数频标上的频谱的值。内插的频谱与上升的反正切函数相乘，模仿人类听觉系统对于低于1250Hz的频率的灵敏度。该结果沿着对数频标发生移位，与渐减因子h相乘，并为了所有待转换成和谐音的谐波(N＝15)而相加，导致在至少6个八度音上定义的谐波压缩的频谱。

通过将频谱区域定位于与平均律中每个色度相对应的谐波压缩的频谱中而为每个帧计算色谱图。对于音高级C来说，其归结为以C1(32.7Hz)、C2(65.4Hz)、C3(130.8Hz)、C4(261.6Hz)、C5(523.3Hz)和C6(1046.5Hz)的音高频率为中心的四个频谱区域。每个频谱区域的宽度是与其中心相距半音程的一半。将所有四个频谱区域的振幅相加以形成一个色度区域。然后，取得属于色度区域的振幅的范数H和不属于色度区域的所有振幅的范数R。计算

的商以提供色度的似然性。将所有帧上的色谱图相加并且使其标准化导致完整的音乐样品的色谱图。

尽管优选实施例涉及特定的相关技术以使混合点处的色谱图相关联，但是可以理解，本发明不限于这种技术，并且意图是，在混合点处的色谱图的相关性包括任何其他的相关联或距离测量，如卡方距离(chi-square distance)、欧几里得距离、熵测量、分布测量等。

尽管已经在附图中示出并且在上述详细说明中描述了本发明的优选实施例，但是应该理解本发明不限于所公开的实施例，而是能够进行许多修改，而不背离如所附的权利要求中所陈述的本发明的范围。

Claims

1.一种用于为重放而处理音频以提供在音频轨道的开始区域和在前音频轨道的结束区域之间的平滑过渡的方法，所述方法包括以下步骤：

使代表在所述音频轨道的所述开始区域的混合点处的色谱图的数量与代表在所述在前音频轨道的所述结束区域的混合点处的色谱图的数量相互关联；以及

基于代表色谱图的数量之间的相关性，使重放期间在所述音频轨道的所述开始区域和所述在前音频轨道的所述结束区域的混合点处的连续音频轨道之间的过渡平滑。

2.根据权利要求1所述的方法，其中使连续的音频轨道之间的过渡平滑的步骤包括：

基于代表色谱图的数量之间的相关性来确定音频轨道被重放的次序。

3.根据权利要求2所述的方法，其中通过使代表连续音频轨道的所述开始和结束区域的色谱图的数量之间的相关性最优化来确定重放的次序。

4.根据权利要求2或3所述的方法，其中确定次序的步骤包括以下步骤：

计算关于音频轨道序列是否满足预定义约束的惩罚，该惩罚是基于代表音频轨道的色谱图的数量之间的相关性来计算的；以及

迭代地获得具有最小惩罚的音频轨道序列。

5.根据前面任一项权利要求所述的方法，其中基于代表所述连续音频轨道的所述开始和结束区域的色谱图的数量之间的相关性，确定连续音频轨道之间的混合过渡的持续时间。

6.一种用于为重放而处理音频以提供在音频轨道的开始区域和在前音频轨道的结束区域之间的平滑过渡的设备，所述设备包括：

相关器，其用于使代表在所述音频轨道的所述开始区域的混合点处的色谱图的数量与代表在所述在前音频轨道的所述结束区域的混合点处的色谱图的数量相互关联；以及

基于代表色谱图的数量之间的相互性，使重放期间在所述音频轨道的所述开始区域和所述在前音频轨道的所述结束区域的混合点处的连续音频轨道之间的过渡平滑。

7.根据权利要求6所述的设备，其中该设备进一步包括：

播放列表生成器，其用于基于代表该播放列表中的连续音频轨道的所述开始和结束区域的色谱图的数量之间的所述相关性，选择多个音频轨道以按次序重放。

8.根据权利要求6或7所述的设备，进一步包括：

过渡持续时间确定器，其用于基于代表所述连续音频轨道的所述开始和结束区域的色谱图的数量之间的所述相关性，确定在连续音频轨道之间的混合过渡的持续时间。

9.一种计算机程序产品，包括用于执行根据权利要求1至6中任一项所述的方法的多个程序代码部分。