CN101689225B

CN101689225B - 生成音乐小样和识别相关的歌曲结构

Info

Publication number: CN101689225B
Application number: CN2008800226299A
Authority: CN
Inventors: T·张
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2007-06-29
Filing date: 2008-06-27
Publication date: 2013-06-19
Anticipated expiration: 2028-06-27
Also published as: EP2162844A2; WO2009005735A3; EP2162844A4; CN101689225A; US8208643B2; US20090005890A1; KR20100029779A; WO2009005735A2

Abstract

除了别的以外，提供了用于为音乐作品生成音频小样的系统、方法、软件程序和技术，其中对输入音乐作品(70)内的不同重复片段(72、73)的位置进行识别(13)。另外，基于表明歌唱何时出现的计算的歌唱度量(110、120、130)来检测(15)音乐作品(70)内的歌唱片段。获得通过参照一般音乐结构来定义音频小样位置的小样标准(17)；并且基于小样标准，连同多个不同重复片段(72、73)中的至少一个的位置，以及歌唱片段的至少一部分的位置，来选择(18)音乐作品的片段作为音频小样(201)。然后，音频小样被播放和/或存储以用于将来播放(19)。

Description

生成音乐小样和识别相关的歌曲结构

技术领域

本发明涉及的系统、方法和技术用于生成音乐小样，即，旨在代表整个音乐作品的音乐作品选定片段，这些系统、方法和技术还用于识别音乐作品的结构，以便于例如随后生成音乐小样。

背景技术

现有的用于生成音乐小样的自动化技术是很少的。在由本发明人提交的并且题为“System and Method for Generating an Audio Thumbnailof an Audio Track”的共同受让的美国专利申请第10/259572号中描述了一种这样的技术，通过引用将该美国专利申请并入在本文中，就像在文中作了完整阐述一样。然而，人们还是希望有所改进，特别是在快速生成更适当地代表整个音乐作品的音乐小样的方面。

发明内容

本发明通过，除了别的以外，提供用于生成音频小样或用于生成音乐作品的标记结构(其，例如，可以之后被用来生成音频小样)的系统、方法、软件程序和技术来解决该需求。

因此，在一个代表性实施例中，本发明针对为音乐作品生成音频小样，其中，输入音乐作品内的不同重复片段的位置被识别。另外，基于表明歌唱何时出现的计算的歌唱度量来检测音乐作品内的歌唱片段。获得参照一般音乐结构来定义音频小样位置的小样标准，并且基于小样标准、多个不同重复片段中的至少一个的位置以及歌唱片段的至少一部分的位置，将音乐作品的一个片段选作音频小样。然后，播放音频小样和/或存储音频小样以用于将来播放。

在另一代表性实施例中，本发明涉及对音乐作品做摘要，其中，输入音乐作品内的不同重复片段的位置被识别。另外，基于表明歌唱何时出现的计算的歌唱度量来检测音乐作品内的歌唱片段。然后，基于多个不同重复片段中的至少一个的位置以及歌唱片段的至少一部分的位置来为音乐作品生成标记结构，并且存储音乐作品的标记结构。

以上概述只是意在提供对本发明特定方面的简要说明。通过参照权利要求以及与附图相关的优选实施例的以下详细说明，可以获得对本发明的更完整的理解。

附图说明

在以下公开中，参照附图来描述本发明。然而，应当理解的是，附图只是示出了本发明的特定的代表性和/或示范性实施例和特征，并非意在以任何形式限制本发明的范围。以下是对各附图的简要说明。

图1是示出用于生成音乐小样的示范性处理的流程图。

图2是示出用于初始地识别音乐作品内的重复片段的示范性处理的流程图。

图3示出了用于初始地识别音乐作品内的相似或重复片段的示范性时间曲线。

图4示出了由初始地识别音乐作品内的重复片段对的处理所得到的示范性的一组结果。

图5示出了示范性的短时平均过零率曲线。

图6示出了示范性的短时能量曲线。

图7示出了示范性的短时音调曲线。

图8是示出示范性的改进和标记音乐作品的结构信息的处理的流程图。

图9示出了音乐作品的时间间隔，其中已经标记了前奏、间奏和结尾。

图10示出了由根据特定探索规则的初始应用来组合重复对所得到的结果的实例。

图11示出了应用了全部可用探索规则之后的音乐作品的最终结构的实例。

图12示出了音乐作品的结构以及该音乐作品的音频小样的序列。

具体实施方式

图1是示出根据本发明的代表性实施例的用于生成音乐小样的处理10的流程图。在优选实施例中，响应于触发事件而自动执行整个处理10，使得可以用软件或者用文中所述的任何其它方式来实施处理10。

初始地，在步骤12中输入要为其生成小样的音乐作品。注意，可以由用户手动地启动处理10，例如，在用户选择他或她愿意听到其代表性样本的特定音乐作品的情况下。作为替换，例如，可以每当将新音乐文件复制到特定计算机系统文件夹中时自动地执行处理10。一般地，假定每个输入音乐作品由单个时域音频强度信号代表。在特定音乐作品实际上包括多个通道的情况下，可以使用这些通道中的任一单个通道，可以将不同的通道组合成单个信号，或者可以分别地处理各单个通道并对结果进行组合。

在优选实施例中，输入音乐作品的音频处理包括两个主要步骤：识别重复片段的步骤13和检测歌唱片段(其中歌唱被检测为存在的音乐作品片段)的步骤15。在某些实施例中，步骤13和15相互独立，因此可以按任何顺序执行它们，或者甚至可以并行地执行它们。在另外的实施例中，例如，在只对检测重复片段中的歌唱的起点(比如作为主歌或副歌的起点)感兴趣的情况下，重复信息被用来限定处理将在何处搜索歌唱。

在步骤13中对重复片段进行识别。优选地，该识别基于对频域度量的分析，并且只对具有指定最短持续时间(例如，至少12秒)的重复片段进行识别。现在主要参照图2来讨论一种用于初始地识别重复片段的技术，尽管应当理解的是可以改为使用多种其它技术。

初始地，在图2的步骤31中，音乐作品的音频信号被分成多个帧。在优选实施例中，每个帧时长250毫秒(ms)并且相邻帧重叠例如帧时长的一半(即，在该情况下为125毫秒)。

在步骤32中，为每个帧执行频域变换。优选地，该变换为快速傅立叶变换(FFT)，尽管可以改为使用其它频域变换。

在步骤34中，为每个帧生成“色度特征向量”。优选地，如下来确定该色度特征向量。首先，计算FTT幅度，然后，使用下面的频率到音符号转换公式将FFT频段(FFT Bin)分配到12个音调等级中。

m＝69+12log₂(f/440)

优选地选择七个八音度，跨度为从33Hz到4000Hz，并且通过将不同八音度中的对应音符的幅度相加来为12个音调等级中的每一个确定一个值。相应地，由单个12元色度特征向量来代表每个帧。

在步骤35中，定义重叠帧组的一个序列。在优选实施例中，每个组包括五秒间隔内的所有帧，并且这些组重叠它们长度的3/4，使得每个组的起点从上一组的起点偏移1¹/₄秒。然而，在本发明的可替换实施例中可以使用其它持续时间和/或偏移。持续时间优选地足以允许有意义的比较，并且偏移优选地被选为准确度和处理速度之间的折衷。

在步骤37中识别相似的组。一般来说，在优选实施例中，每个组与每个随后的组作比较，并且最多识别四个这样的随后的组(假设一个片段在音乐作品的进程中最多重复五次)。如果预期更多或更少的重复，则优选地适当调节该最大数目。

更具体地，本发明实施例以以下方式来识别相似的组。对于每个组，生成代表该组与在其之后的所有组之间的欧氏距离(尽管可以改为使用其它的距离度量)的时间曲线。即，曲线的x轴表示时间而y轴表示距离值。然后，选定曲线中的四个最低的最小值(再次假设一个片段在音乐作品中最多重复五次)，条件是每个最小值满足特定幅度和锐度标准(以下进行讨论)，并且进一步的条件是重复对彼此距离至少五秒。标出这些最小值中的每一个的x轴值T，其是两个组之间的时间差。

图3示出了这样的时间曲线50的实例。对于四个选定的最小值51-54中的每一个，示出了位置(对于最小值51-54，分别为T＝11、38、43和55)和锐度值(对于最小值51-54，分别为1.1、1.1、1.2和1.0)。优选地，如下来计算锐度：

Sharpness(i)＝(d(i-2)+d(i+2)-d(i)*2)/4，

其中d(i)为与组i相关的距离值，并且锐度阈值优选地最小为0.2，幅度阈值优选地最大为10。然而，应当注意的是，可以改为使用用于计算锐度和/或其它阈值的其它方法。

在已经为每个组识别了满足所要求标准的最小值之后，将共有至少一个相同T值的连续组连接在一起。例如，如果有N个连续组，从组M开始，在组M+N-1处结束，并且它们中的每一个在其距离曲线中都具有x轴值为S(即，T＝S)的识别的最小值；那么，这N个组被连接在一起以形成一个片段。类似地，同样包含N个组的匹配片段，从M+S开始并在M+S+N-1处结束而形成。这两个组一起被识别为一对重复片段。如上所述，在优选实施例中，优选地忽略比指定最小持续时间短的片段。在本实施例中，这样的对中的每个片段都必须持续至少12秒。

以这种方式，持续时间最少五秒的重复片段以1¹/₄秒的递增增大。然而，如上所述，在可替换实施例中可以调节这些值。

在图4中示出了由以上处理得到的示范性的一组结果。在该实例中，识别了七对重复片段P1-P7，并且识别的片段(例如，片段72、73、75、81、83、85、86和88)中的每一个指示音乐作品70的连续部分，该连续部分与该音乐作品70水平排列。如图4所示，片段72与片段73配对(P1)，并且还与片段75配对(P2)。片段73独立地与片段75配对(P3)。片段81与片段83配对(P4)。片段85(可以看成是片段81的一部分)与片段86配对(P5)并与片段88配对(P6)，并且类似地，片段86独立地与片段88配对(P7)。

如上所述，初始地识别重复片段的以上方法只是示范性的。例如，可以使用不同的探索规则组来引导以上步骤，使其对重复片段中的微小变化具有鲁棒性。

回到图1，现在讨论用于在步骤15中检测歌唱片段的优选方法。开始时，注意到若干不同的度量和标准可以被计算来指示在音乐作品内有没有歌唱。如下描述优选的歌唱度量。

可以有效地用于指示歌唱的一类度量对由音频信号产生的过零次数或过零率进行考察。过零发生率可以被解释为对信号的频率内容的简单度量。特别地，文中将短时平均过零率(ZCR)定义为：

Z_{n} = \frac{1}{2} \underset{m}{Σ} | sgn [x (m)] - sgn [x (m - 1)] | w (n - m),

其中

sgn [x (m)] = \{\begin{matrix} 1 & x (m) &GreaterEqual; 0 \\ - 1 & x (m) < 0 \end{matrix}

并且

总之，ZCR是在包括之前N个采样(其中N优选被选定以对应于25ms的时间间隔，即，N＝采样率*25ms)的滑动窗上的过零次数的计数。因为歌唱声中的清音分量一般具有较高的频率并由此有较高的ZCR，而浊音分量一般具有较低的频率并由此有较低的ZCR，所以在音乐作品的有人声部分期间的ZCR曲线中通常有尖锐的峰。

与本领域普通使用一致，如文中所使用的，“浊音声音”是有声带振动的声音，而清音声音是没有声带振动的声音。例如，在英语中，“ssss”声是清音的而“zzzz”声是浊音的。在英语中，如上述实例所示，元音几乎总是浊音的，辅音可以是浊音的或者清音的。

在不出现歌唱时的纯音乐部分期间，ZCR值通常在相对小的范围内，然而在有人声的部分中，ZCR的动态范围大得多，并具有尖锐且高的峰。在优选实施例中，ZCR曲线中满足特定标准的峰表明歌唱片段。更优选地，首先定位ZCR曲线中的峰。确定每个峰的左底部和右底部。然后，将峰值处的幅度、左边的长度以及右边的长度与预定的阈值作比较。如果各值均高于其对应的阈值，则该峰被视为“显著峰”。在优选实施例中，峰值幅度的阈值为80，并且左边长度和右边长度的阈值为60。

图5示出了ZCR曲线100的实例。这里，峰105具有左底部107和右底部108，以及对应的左边110(从左底部107延伸到峰105)和右边111(从右底部108延伸到峰105)。因为峰105的ZCR大于80，并且左边110和右边111的长度都大于60，所以在本实施例中峰105被视为显著峰。在图5中还示出了另外的显著峰113-115。

没有任何显著峰并且其动态范围小于阈值的部分被认为没有人声。优选地通过寻找“突出比”(定义为峰值幅度与其之前的100个ZCR值的平均值和变化幅度之和之间的比)高于指定阈值(例如，2.0)的第一显著峰来检测歌唱声的起点(尤其是在例如前奏或间奏片段的不重复片段之后)。在某些子实施例中，如果不满足以上标准但满足第二标准，则该峰值仍然被定义为歌唱的起点。在一个这样的实施例中，第二标准是：突出比高于1.5，峰值幅度高于100，并且左边和右边都长于80。

在再另一实施例中，可以还(或改为)计算峰的锐度并将其包括在用于定义显著峰和/或用于确定歌唱起点的标准中。在该情况下，优选地以类似于上述的锐度度量的方式来定义该锐度，并且要求其在预定阈值之上。

用于区分歌唱片段的另一工具是短时能量函数，优选地如下定义之：

E_{n} = \frac{1}{N} \underset{m}{Σ} {[x (m) w (n - m)]}^{2},

其中

即，在由之前N个采样(其中，N再次优选被选择以对应于25ms的时间间隔)构成的滑动窗上的平均信号能量。在人声部分中，尖锐峰和低水平最小值(分别由浊音和清音分量生成)在能量函数曲线中交替出现，而在无人声部分中，一般没有高且尖锐的峰，或者局部最小值连续地在较高的水平。因此，在本发明的优选实施例中，检测显著峰并检查局部最小值以定位音乐作品中的人声片段。

例如，在前奏或间奏之后，歌唱的起点常常导致能量曲线的突然上升。相应地，在检测到具有尖锐峰和低水平最小值的片段之后，优选地通过在能量曲线中寻找这样的突然上升来检测该片段内的实际歌唱起点。

为了检测尖锐峰，优选使用与上述的用于检测ZCR曲线中显著峰的方法类似的方法。即，将峰值幅度、左边长度、右边长度以及锐度与预定阈值作比较。峰值幅度的阈值优选地是基于整个音乐作品上的能量的平均值和变化幅度的自适应阈值。例如，在一实施例中，阈值被设为：平均值+标准偏差*c，其中c可以是2或3。边长度和锐度的阈值优选地与用于ZCR曲线的阈值相同，如上所述。

为了检测低水平最小值，优选地基于音乐作品的局部片度的能量曲线的平均值和变化幅度来确定自适应阈值。优选地基于能量曲线的全局和局部平均值和变化幅度值来确定这些自适应阈值。优选地，首先基于全局平均值和变化幅度，例如平均值-标准偏差*c，其中c＝2，来确定自适应阈值，并且没有采样低于阈值的片段被标记为无人声。优选地，对于歌曲剩下的部分，对于滑动窗(例如，长2-5秒)内的每个片段，基于局部平均值和变化幅度来计算阈值，并且将片段中的采样与该阈值进行核对；比较最小值的幅度与阈值，并且如果一个最小值的幅度低于阈值，则它被检测到。

基于以上检测来识别歌曲中的人声片段，例如，同时具有尖锐峰和低水平最小值的片段。优选地，通过基于能量曲线的全局和/或局部平均值和变化幅度值检测能量曲线中的突然上升，来识别该片段内实际的歌唱起点(例如，在前奏或间奏之后)。更优选地，计算局部片段(例如，长5-10秒)的平均值和标准偏差(std)，然后确定阈值t1＝平均值+标准偏差*c，其中c为常数(例如，在一个实施例中c＝2)。接下来，在该局部片段中，大于t1的第一点A被识别并被标为歌唱起点。作为替换，可以在能量的一阶差分曲线中执行检测，即，如果a(i)为能量曲线，则其一阶差分为b(i)＝a(i+1)-a(i)。还可以估算检测的置信度评分，该置信度评分优选地是局部片段中的A之后和A之前的最大值之间的比值；在该情况下，基于置信度评分，优选地确定采用来自a(i)的结果还是来自b(i)的结果。

图6中示出了短时能量函数曲线120的实例。在这里，片段121为无歌唱前奏，片段122包括歌唱，而片段123为间奏。如上所述，歌唱的起点124由能量的突然增加标记。

用于识别歌唱片段的另一工具是短时音调曲线。一般来说，音调对应于音频信号的基频(如果有的话)。在音调的时间曲线中，和声音频信号由音调值缓慢改变(即，相邻点之间的幅度差异很小)的片段表征。相反地，音调曲线中的与非和声内容对应的片段的跳跃性很强。总体上是连续和声的音乐一般表现出连续可检测的但是变化的音调。

在优选实施例中，通过分别计算时域和频域中的自相关并随后以预定权重将它们相加来估算音调。参见，例如，W.Chou，L.Gu，“Robustsinging detection in speech/music discriminator design，”Proc.of ICASSP’01，vol.2，pp.865-868，Salt Lake City，May 2001。虽然已证明了该音调计算方法对于背景噪声具有鲁棒性，在可替换实施例中可以使用其它方法，例如，基于所希望的准确度和效率方面的折衷。

由于在歌唱片段内音调值常常有小变化(例如，单个音符期间的抖动)，而在很多乐器片段中音调更经常不变，故乐器音乐的音调曲线通常比人声信号的音调曲线更平坦。因此，片段内音调值的变化优选地被用作区分歌唱与纯乐器音乐的度量。

此外，歌唱声的音调通常具有120-500Hz的范围，而乐器的音调范围常常更宽。相应地，在优选实施例中，音调曲线中具有慢变幅度、具有抖动、并且在指定音调范围内的片段被检测为表明存在歌唱。

为了检测慢变音调幅度，检查相邻音调值之间的差异。对于慢变音调的片段，每一对相邻音调之间的差异优选低于指定阈值(例如，5)，并且片段长度优选长于预定阈值(例如，3或4个音频帧)。

为了检测抖动，计算片段中音调值的变化，并且将其与预定阈值作比较。因为歌唱声的基频一般在120到500Hz的范围内，则对于采样率16000Hz的音频信号，音调范围是32到133。相应地，在优选实施例中，片段中的音调值必须属于该范围。更优选地，对于被检测为包括歌唱的片段，必须满足全部三个标准(慢变幅度、抖动和在指定音调范围内)。

图7中示出了Beatles的歌曲“Yesterday”的一部分的短时音调曲线的实例。在这里，x轴为时间而y轴为音调值。120-500Hz的正常歌唱范围对应于由两条水平线132围住的区段，并且歌唱135的起点不仅由音调130中的抖动137的出现证明，而且还由音调值开始落入该范围的事实证明。

概括地说，用于检测输入音乐作品中的歌唱的度量优选地基于ZCR、短时能量函数和短时音调曲线。在计算时，这些函数中的每一个优选地被每隔20ms计算一次，窗口时长为25ms。通过组合来自这三个度量的结果，常常有可能获得更准确的结果。例如，强有力的打击乐器可能导致高ZCR峰，这在其他情况下有可能被错误地检测为歌唱声。然而，这样的非和声声音不具有音调曲线中的人声特点。

因为音调估算在计算上开销最大，所以在优选实施例中为整个音乐作品只计算ZCR和能量函数。即，首先用ZCR和能量特征来检测音乐作品中的候选人声部分。优选地，通过使用ZCR或短时能量函数(例如，如上所述)检测到的任何候选人声部分被组合以产生一组候选人声片段。然后，对于每个候选人声片段，从该片段的起点开始计算音调，直到找到该片段的满足指定音调歌唱标准(例如，上述的三个音调标准)的部分为止。基于来自该音调分析的结果来调节歌唱起点的位置。如果在候选部分中没有检测到人声成分，则将其标记为无人声。

回到图1，在步骤16中基于以上取得的信息来生成音乐作品的结构16，并且在特定实施例中将其存储以用于将来使用。该步骤16的执行可以简单到只是基于该信息来标记音乐作品的不同部分，例如，标记出重复对中的每一个位于何处，以及一个或多个歌唱片段位于何处。然而，在优选实施例中，在该步骤16中执行附加处理以改进在先前步骤中识别的结构信息。

现在参照图8来描述用于执行该处理的一种示范性方法150。初始地，在步骤151中将音乐作品的每个不重复片段标记为，例如，前奏(如果在开始处发生)、间奏(如果在中间发生)或者结尾。因此，继续图4所示的实例，图9中的标记的前奏171、间奏172和结尾173与音乐作品70的没有发现表现出任何重复的那些部分对应。

在步骤152中，以时间顺序对在图1的步骤13中识别的重复对进行排序(如果有必要)，并对其进行处理以改进结构信息。一般来说，该处理优选地包括根据预定义的探索规则来合并和/或分开任何重叠片段，视情况而定。

作为该处理的结果，一些重叠片段可能被合并，一些可能被分开，并且一些可能被去掉。例如，如果两个对之间有冲突(即，它们中只有一个可以是正确的)，则通常在优选实施例中保留较长的对而放弃较短的对。在另一方面，如果较长的对太长(例如，长于指定阈值)，则优选地分开该较长的对。以下是在一个代表性实施例中使用的探索规则的具体实例：

·如果对A包括片段A1和A2，对B包括片段B1和B2，A1与B1重叠，并且A2不与B2重叠，则适用以下规则：如果A1长于B1则A1、A2、B2被标记为重复片段；否则，B1、A2、B2被标记为重复片段。

·如果A1与B1重叠，A2与B2重叠，并且对A的长度长于指定阈值(例如30或40秒)，则对A可以被分成2或3对。一对和对B1相同，并且在B之前和/或之后有一新的对，条件是分开之后的每个对长于预定阈值(例如，12秒)。

在图4的实例中，各个重复对在图4中已经按时间顺序排列，因而不需要执行额外的排序。图10示出了初始地根据上述的第一个点出的探索规则来组合完全同延于彼此的重叠片段之后的结果。如图10所示，已经将相关的对简单地组合成具有两个以上片段的组。

然后，图11示出了在已经分解了所有重叠片段之后的最终结果。更具体地，参照图11，根据上述的第二个点出的探索规则，已经基于片段81与片段73的重叠将片段81分成片段81A和81B，类似地，已经基于片段83与片段75的重叠将片段83分成片段83A和83B。因为那些部分已经被覆盖，所以将片段81A和83A从进一步考虑除去。另外，片段81B完全重叠片段85并大于片段85，因此将片段85从进一步考虑除去。类似地，片段83B完全重叠片段86并大于片段86，因此将片段86从进一步考虑除去。

在该处理结束之后，在步骤154中标记所得的片段。在优选实施例中，仅基于重复来识别初步结构。然后，基于歌唱信息适当地修改该初步结构。更优选地，使用探索规则以直接方式生成初步结构。例如，如果在步骤152中已经识别了三个重复片段，则对全部三个片段分配相同的标记。如果有两组重复片段，并且一个组包括比另一个组更长的片段，则两组中较长的一个优选地被标记为“主歌”，而两组中较短的一个优选地被标记为“副歌”。作为替换，一组重复片段中的每个片段可以被简单标记为A，另一重复组中的每个片段可以被标记为B，等等。

然后，使用歌唱检测信息来修改初步结构，例如，使其更精确。例如，不包括歌唱的任何重复片段优选地被重新标记为前奏、间奏或结尾，视情况而定。另外，或作为替换，如果之前标记的前奏、间奏或结尾的部分或全部被检测为具有歌唱，则在特定实施例中其被标记新类型的主歌片段(例如，如果已有标记为A和B的主歌，则该片段被标记为C)。类似地，适当地区分纯乐器音乐作品(该作品中的任何位置都没有歌唱)并对其编索引(例如，使用相同的技术)。

另外，在步骤155中优选地使用歌唱信息和重复信息来调节直接相邻的片段之间的任何边界失配。例如，如果在前奏的检测结尾和第一主歌的检测起点之间有间隙，则优选地进行对音频特征和重复对的进一步检查以调节它们的位置，使得它们会合。在可替换实施例中，近似的转换点(例如，一秒或两秒以内)是足够的，并且将小样的起点简单地设为最早的转换点。

重新参照图11所示的实例，最终结果是片段72、73和75被标记为主歌，片段81B和83B被标记为副歌，并且根据片段88与副歌81B和83B的一部分的重复的事实，片段88被标记为缩短的副歌。在该实例中，假设片段72、73、75、81B、83B和88中的每一个都至少以歌唱开始。如果检测到并非如此，则任何这样的片段被优选地重新标记为前奏、间奏或结尾，视情况而定。

注意到在本实施例中，在大多数小样标准只基于歌唱的开始(条件是歌唱片段具有足够的持续时间)的假设下，没有对歌唱片段的精确结尾进行检测。为此，只基于ZCR和短时能量函数歌唱度量来确定的大致结尾通常将是足够的。在可替换实施例中，例如使用上述基于音调的歌唱度量来找到一个或多个歌唱片段的精确结尾。

一旦已经识别了输入音乐作品的最终结构，该结构可以被立即处理(例如，生成一个或多个音频小样)或者可以被存储(例如，用于以后生成一个或多个音频小样)。

重新回到图1，在步骤17中获得用于识别音乐作品的音频小样的标准。在优选实施例中，该标准直接地或间接地基于旋律重复和/或歌唱的出现。即，用户(或自动化系统)优选地能够基于这些考虑之一或二者来定义该标准。更优选地，小样标准可以被定义为对结构标记的一般参考。例如，标准可以被定义为开始于音乐作品中的歌唱起点的20秒、作为重复组的一部分的整个第一片段，或者作为重复组的一部分的一片段内的歌唱的第一次出现。可以为每个音乐作品单独地指定该标准。然而，在优选实施例中，使用一个或多个默认小样定义来在大范围的不同音乐作品上生成小样。

在特定实施例中，如上所述，在方法10中使用检测到的旋律重复和歌唱的出现/不出现来自动生成输入音乐作品的标记结构。在这些实施例中，优选地相对于该结构来定义音频小样。此外，在本发明的特定实施例中，为单个音乐作品生成多个小样。这样做允许用户听音乐作品的短片段，然后，如果基于最开始的小样该作品看起来可以引起用户的兴趣，则允许用户听一个或更多另外的小样以获得对整个音乐作品的更好的感受。

例如，第一小样可以是歌曲的第一主歌；第二小样可以是重复最多次数的副歌/合唱。小样的长度可以是固定的(例如，在第一主歌起点处开始的15秒)或者等于片段的长度(例如，整个副歌，第一次出现)。在图12中示出了音乐作品70的结构和音乐作品70的五个小样201-205，小样201第一个被播放，小样202第二个被播放，小样203第三个被播放，小样204第四个被播放，并且小样205第五个被播放。

应当理解的是，图1所示的步骤的顺序只是示范性的。例如，步骤17可以位于处理10中的任何位置。

在步骤18中，基于旋律重复和已为音乐作品生成的歌唱信息，音频小样被选为与在步骤17中获得的标准对应的音乐作品片段。步骤18的执行通常是对该信息和/或对在该标准中指定的音乐作品的其它特点直接应用该标准。

在步骤19中，选定的小样被播放和/或存储以用于将来播放。例如，在一个代表性实施例中，实时生成小样并立即播放之。在另一个代表性实施例中，为一大批音乐作品生成小样并将它们与这些音乐作品一起存储起来，使得可以在任何希望的时候对它们进行回放。

例如，如上所述的用于生成音频小样的方法可以并入用于浏览音乐的更大系统中。在于2006年7月31日提交的题为“Method and Systemfor Browsing Music”的美国专利申请第11/496999号中描述了这样的系统的一个示例，通过参考将该美国专利申请并入文中，就像在文中作了完整阐述一样。在一个实例中，小样被呈现给用户，并且如果用户选择相应的音乐作品，则其被加到用户的播放列表中。然后，随机地或者基于对已经存在于用户的播放列表中的音乐作品的接近程度来呈现另外的小样。

系统环境

一般来说，除了清楚说明的情况以外，文中所述的所有系统、方法和技术都可以用一个或多个可编程通用计算装置来实现。这些装置一般将包括，例如，例如经由公用总线彼此互连的以下元件中的至少一些元件：一个或多个中央处理器(CPU)；只读存储器(ROM)；随机存取存储器(RAM)；用于与其它装置进行接口连接的输入/输出软件和电路(例如，使用诸如串行端口、并行端口、USB连接或火线连接的硬线连接，或者使用诸如蓝牙或802.11协议的无线协议)；用于与一个或多个网络连接的软件和电路，例如，使用诸如以太网卡的硬线连接，或者使用无线协议，比如码分多址(CDMA)、全球移动通信系统(GSM)、蓝牙、802.11协议，或者任何其它基于蜂窝或不基于蜂窝的系统，在本发明的很多实施例中，这些网络又连接于互联网或任何其它网络；显示器(比如阴极射线管显示器、液晶显示器、有机发光显示器、聚合物发光或任何其它薄膜显示器)；其它输出装置(比如一个或多个扬声器、耳机和打印机)；一个或多个输入装置(比如鼠标、触控板、写字板、触敏显示器或其它定点装置、键盘、小键盘、麦克风和扫描仪)；大容量存储器(比如硬盘驱动器)；实时时钟；可移动存储读取/写入装置(比如用于从RAM读取和向RAM写入、磁盘、磁带、光磁盘、光盘等)；以及调制解调器(例如，用于发送传真，或者用于经由拨号连接与互联网或与任何其它计算机网络连接)。在操作中，在由这样的通用计算机执行的范围内，实现以上方法和功能的处理步骤一般初始地时存储在大容量存储器(例如硬盘)中，接着下载到RAM中，然后由CPU在RAM之外执行。然而在一些情况下，这些处理步骤初始地就存储在RAM或ROM中。

可以从不同的厂商获得用于实施本发明的适合的装置。在不同的实施例中，根据任务的大小和复杂程度来使用不同类型的装置。适合的装置包括大型计算机、多处理器计算机、工作站、个人计算机，以及甚至较小的计算机，比如PDA、无线电话或任何其它设备或装置，不论是独立式、硬布线到网络中，或是无线连接于网络。

另外，尽管以上已经描述了通用的可编程装置，在可替换实施例中，可以改为(或另外)使用一个或多个专用处理器或计算机。一般，应当注意的是，除了特别说明的情况以外，可以以软件、硬件、固件或它们的任何组合来实施任何上述功能，基于已知的工程折衷方案来选择特定实施方式。更具体地，在以固定的、预定的或逻辑的方式来实施上述功能的情况下，本领域技术人员将容易理解的是，可以通过编程(例如，软件或固件)、逻辑元件(硬件)的适当的装置或者二者的任何组合来实现该功能。

应当理解的是，本发明还涉及机器可读媒介，其上存储有用于执行本发明的方法和功能的程序指令。该媒介以实例的方式包括磁盘、磁带、诸如CD ROM和DVD ROM的光学可读媒介，或者半导体存储器，诸如PCMCIA卡、不同类型的存储卡、USB存储装置等。在各情况下，该媒介可以采取便携式物品的形式，比如微型磁盘驱动器或小磁盘、软盘、盒式磁带、卡式磁带、卡、棒等，或者其可以采取相对较大的或不能移动的物品的形式，比如设在计算机或其它装置中的硬盘驱动器、ROM或RAM。

以上描述主要强调了电子计算机和装置。然而，应当理解的是，可以改为使用任何其它计算装置或其它类型的装置，比如，采用电子、光学、生物性和化学处理的任何组合的装置。

附加考虑

在特定的例子中，以上描述涉及点击或双击用户接口按钮、拖动用户接口项，或者经由特定用户接口机构和/或以特定方式输入命令或信息。所有的这些参考只是意在作为示范，应当理解的是，本发明包括用户使用相同或其它用户接口机构以任何其它方式进行的相应的命令或信息的输入。另外，或作为替换，可以由自动化(例如，计算机执行的)处理来输入这些命令或信息。

以上描述了本发明的若干不同实施例，每个这样的实施例被描述为包括特定特征。然而，本领域技术人员可以理解的是，意在与任何单个实施例的讨论相关地描述的特征不限于该实施例，而是也可以以不同组合包括和/或设置在任何其它实施例中。

类似地，在以上讨论中，功能有时属于特定模块或组件。然而，功能通常可以在任何不同的模块或组件之间按需要重新分配，在一些情况下完全排除了对特定组件或模块的需要以及/或者增加新组件或模块的需求。本领域技术人员可以理解的是，参照本发明的具体实施例，优选地根据已知的工程折衷方案进行功能的精确分配。

因此，尽管已经关于其示范性实施例和附图详细描述了本发明，对于本领域技术人员来说显而易见的是，可以在不背离本发明的精神和范围的情况下实现本发明的不同的改变和修改。相应地，本发明不限于附图所示的和上述的确切的实施例。相反地，本文的意图在于，不背离本发明精神的所有这些改变被认为是在仅由所附于此的权利要求限定的其范围之内。

Claims

1.一种为音乐作品生成音频小样的方法，包括：

输入(12)音乐作品(70)；

识别(13)所述音乐作品(12)内多个不同重复片段(72、73)的位置；

基于表明歌唱何时出现的计算的歌唱度量(110、120、130)来检测所述音乐作品(70)内的歌唱片段(15)；

获得通过参照一般音乐结构来定义音频小样位置的小样标准(17)；

基于所述小样标准，连同所述多个不同重复片段(72、73)中的至少一个的位置，以及所述歌唱片段的至少一部分的位置，来选择(18)所述音乐作品的片段作为音频小样(201)；以及

播放所述音频小样和存储所述音频小样以用于将来播放中的至少其一(19)，其中所述方法进一步包括步骤：基于所述多个不同重复片段(72、73)的位置并基于所述歌唱片段的至少一部分的位置来生成(16)所述音乐作品(70)的标记结构以及其中，所述生成(16)标记结构的步骤包括使用歌唱信息和重复信息来调节直接相邻的片段之间的任何边界失配。

2.如权利要求1所述的方法，其中所述标记结构通过以下步骤来生成(154)：首先使用所述音乐作品内的所述多个不同重复片段的位置来产生初步结构；随后使用所述歌唱片段的至少一部分的位置来修改所述初步结构。

3.如权利要求1所述的方法，其中所述小样标准通过参照在所述标记结构内标识的标记来定义所述音频小样的位置。

4.如权利要求1所述的方法，其中所述歌唱度量包括以下的至少一个：与所述音乐作品的音频信号的至少一部分中的过零相关的第一度量(100)；与所述音乐作品的音频信号的至少一部分的局部能量相关的第二度量(120)；以及与所述音乐作品的音频信号的至少一部分内的音调的估算相关的第三度量(130)。

5.如权利要求1所述的方法，进一步包括步骤：基于第二小样标准和以下至少之一来选择所述音乐作品的第二片段作为第二音频小样 (202)：(1)所述多个不同重复片段中的至少一个的位置；(2)所述歌唱片段和基于所述计算的歌唱度量检测到的第二歌唱片段中的至少一个的至少一部分的位置。

6.如权利要求1所述的方法，其中通过识别重复片段的初始组并随后基于指定规则对所述初始组中的片段执行组合(39、152)和分开(152)处理，来识别所述音乐作品内的所述多个不同重复片段。

7.如权利要求6所述的方法，其中通过比较随时间的频域度量(50)来识别(37)所述重复片段的初始组。

8.如权利要求1所述的方法.其中基于与所述音乐作品的音频信号的至少一部分内的音调的估算相关的度量(130)来检测所述歌唱片段。

9.如权利要求8所述的方法，其中与所述音调的估算相关的度量(130)是选择性地为所述音乐作品的已经首先用不同的度量计算识别的部分计算的。