CN1703734A

CN1703734A - 从声音确定音符的方法和装置

Info

Publication number: CN1703734A
Application number: CN03825477.8A
Authority: CN
Inventors: 张国强; 宗国盛; 梁素洪
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2002-10-11
Filing date: 2003-09-25
Publication date: 2005-11-30
Also published as: US20060021494A1; AU2003267931A1; US7619155B2; WO2004034375A1

Abstract

这个方法和装置提取标志性的，类似于乐谱的高级别音乐结构。哼唱或其他发音方式被利用这个发明转换成为一序列音符，其代表所述用户(一般人类，但潜在地可用于动物)试图表达的旋律。这些检索音符的每一个包含信息，如音高，开始时间和持续时间，以及所述序列包含每个音符的相对顺序。本发明的一个可能的应用是一个音乐检索系统，其中哼唱形成对某个搜索工具的查询。

Description

从声音确定音符的方法和装置

技术领域

本发明涉及从声音确定音符，如哼唱或歌声。特别地，涉及转换这种声音到音符，并为音乐检索的目的识别它们。它还涉及所述组成装置和处理。

背景技术

由于个人数字音乐设备市场的崛起，家庭带宽的增长以及3G无线设备的出现，多媒体内容正日益成为流行资源。针对于多媒体内容的有效的搜索机制的需求正在增长。虽然，现存很多基于内容的对图像的检索系统，但是检索多媒体内容的所述音频内容的机制却很少。这种机制的一种可能性在于通过哼唱检索，即，一个用户通过一个想要的音乐作品的哼唱旋律在一个系统中搜索。这包括了一个旋律转录技术。

图1显示了一个已知的哼唱识别系统的流程图。所述旋律转录技术包括一个静音鉴别器101，音高检测器102以及音符提取器103。假设每一个音符将通过合理数量的静音分割开。这就减少了静音检测的分割问题。

在美国专利No.6,188,010中，使用一个快速傅利叶转换(FFT)算法，通过从波形数据得到所述频谱信息来分析声音。所述声音的频率被得到，并且最后选择出具有最接近音高的音符。

在美国专利No.5,874,686中，使用一种基于自相关的方法来检测每一个音符的音高。为了提高音高追踪算法的性能和鲁棒性，使用一个立方线小波转换或其他合适的小波转换。

在美国专利No.6,121,530中，所述声音的发出时间被分成每一个音符的发出时间，与所述下一个音符的发出时间之间的差异作为所述音符的时间间隔被确定，并且在它的时间间隔中包含的每一个音符的所述基本频率中的最大值被定义为最高音高值。

自动旋律转录是从哼唱中提取一个可接受的音乐描述。典型的哼唱信号包括一序列听得见的波形，其间散布着静音。然而，在一个声波中定义每一个音符的边界有难度，而且在定义精确的音高上也有很大争论。声音识别包括使用近似。当音符间的边界清楚并且音高固定时，现有技术能够生成合理的结果。然而，当每一个可听到的波形可能包含很多音符并且音高并不固定时，如真人哼唱的时候，情况并不一定这样。一个哼唱者不能维持一个音高的情况经常导致一个单一音符的音高变化，这可能被误解为音符的改变。另一方面，如果一个哼唱者在哼唱一串同一个音符时没有足够的停顿，所述转录系统可能会将其释为一个音符。在大量变化的情况下以及人类发声系统的自然局限下，任务会更加的困难。

发明内容

本发明的一个目的是为识别哼唱的曲调等提供一个改进的系统，并提供可以被用于该系统的组成处理和装置。

根据本发明的第一方面，提供一个方法用于转录音乐声音信号到音符，包括步骤：

生成音符标记，表示所述声音信号中音符的开始和结尾；以及

检测由所述音符标记做标记的音符的所述音高值。

优选地，该方法进一步包括检测所述声音信号的被认为是静音的部分。

这个方法还进一步包括从所述音高值中提取音符来生成音符描述符的步骤。

根据本发明的第二个方面，提供一个方法来检测所述声音信号的被认为是静音的部分，包括步骤：

划分所述声音信号成至少一组的块；

在一组内得到所述块的短时距能量值；

根据所述短时距能量值得到一个阈值；以及

使用所述阈值来分类所述组的块是静音或不是。

根据本发明的第三个方面，提供一种方法来生成音符标记，表示音乐声音信号中音符的开始和结束，包括步骤：

提取所述声音信号的包络；

差分所述包络来计算一个梯度函数；以及

从所述梯度函数中提取音符标记，表示所述声音信号中音符的开始和结束。

所述包络提取处理包括步骤：

对于所述声音信号执行全波整流；以及

低通滤波所述全波整流的输出。

差分处理包括步骤：

确定所述包络的梯度；以及

低通滤波所述梯度。

音符标记提取的处理包括步骤：

从所述梯度函数中除去小梯度；

提取剩余梯度的所述上升和下降的转折点；

除去不需要的上升和下降；以及

记录剩余的上升和下降作为所述音符标记。

根据本发明的第四个方面，提供一个方法，检测音乐声音信号中音符的音高值，包括步骤：

在所述声音信号中分离音符；

划分所述音符成为一个或多个组的块；

得到所述块的音高值；以及

通过分群所述块的所述音高值，得到所述音符的所述音高值。

这个分离音符的处理可以使用音符标记来完成。

一个或多个上述的方面可以合并。

根据本发明的第五个方面，提供一个方法识别音乐，包括步骤：

接收模仿一曲音乐的一个音乐声音信号；

使用上述第一方面的方法，转录所述音乐声音信号到一序列音符和时间标记；

将所述的一序列音符和时间标记和数据库中的多个序列音乐的音符和时间标记进行比较；以及

识别通过比较被认为最相近的一曲音乐。

接着，被识别的一曲音乐就被检索。

本发明不局限于人类使用。它可用于与动物进行实验。而且，它不局限于哼唱，还可用于吹口哨，歌唱或其他声音形式。

本发明还提供装置，可根据上述方法操作，并且装置对应于上述方法。

这个方法和装置提取标志性的，类似于乐谱的高级别音乐结构。哼唱或其他发音方式被利用这个发明转换成为一序列音符，其代表所述用户(一般人类，但潜在地可用于动物)试图表达的旋律。这些检索音符的每一个包含信息，如音高，开始时间和持续时间，以及所述序列包含每个音符的相对顺序。本发明的一个可能的应用是一个音乐检索系统，其中哼唱形成对某个搜索工具的查询。通过哼唱来查询的音乐检索可以被用于不同应用，如个人电脑，蜂窝电话，便携式自动唱片点唱机或汽车自动唱片点唱机。

附图简要说明

本发明将根据非限定性实例，并参考附图进行进一步描述，其中：

图1是现有技术中的旋律转录技术的流程图；

图2是本发明的一个实施例的一个示意框图；

图3是图2的实施例中使用的一种旋律转录技术的流程图；

图4是图2的实施例中使用的一种静音鉴别器的工作的流程图；

图5A是图2的实施例中使用的基于梯度分割的流程图；

图5B是一个典型的哼唱波形的显示；

图5C是所述包络检波器输出的显示，图5B中的所述波形作为输入；

图5D是所述微分器输出的显示，图5C中的所述波形作为输入；

图5E是由所述音符标记提取器生成的音符标记，图5D中的所述波形作为输入；

图6是用在图2的实施例中的包络检波器操作的流程图；

图7是用在图2的实施例中的差分器操作的流程图；

图8是用于选择合理的上升和下降标准的示意显示；

图9是用在图2的实施例中的音符标记提取器操作的流程图；

图10是用在图2的实施例中的梯度域值函数的流程图；

图11是用在图2的实施例中的边缘检测器操作的流程图；

图12是用在图2的实施例中的音高检测器操作的流程图；

图13是用在图2的实施例中的主音高检测器操作的流程图。

具体实施方式

一个稳健旋律转录系统被用来作为一个解决方案的全体来解决转录哼唱信号到音符描述符的问题。一个旋律技术被用来生成音符描述符。这个信息被一个特征提取器用来得到在一个搜索工具中使用的特征。

图2是本发明的一个实施例的示意框图。来自于一个PC，蜂窝电话，便携式自动唱片点唱机，音乐亭或诸如此类东西的一个数字化哼唱输入信号S200被输入到一个旋律转录设备2中。它被平行输入到一个音高检测器202，一个静音鉴别器204以及基于梯度的分割单元206中，其中它先进入到一个包络检波器208中。所述包络检波器208从所述哼唱信号中，生成一个包络信号S210，其被输入到一个差分电路212中。另一个到这里的输入是来自于所述静音鉴别器204的一个静音标记信号S214。来自于所述差分电路212的输出是一个梯度函数信号S216，其被输入到一个音符标记提取器218中，它还接收来自于所述静音鉴别器204的所述静音标记信号S214。所述音符标记提取器218输出一个音符标记信号S220，其和所述静音标记信号S214，哼唱输入信号S200一起，被输入到所述音高检测器202中。所述基于梯度的分割单元206由所述包络检波器208，所述差分电路212以及所述音符标记提取器218组成。

使用所述的三个输入，所述音高检测器202生成一个音高值信号S222，从其中一个音符提取电路224生成一个音符描述符信号S226。这就被从所述旋律转录设备2输出。在本例中，一个特征提取电路228从所述音符描述符信号S226中生成一个特征信号S230。一个MPEG-7描述符生成器232用此来生成一个特征描述符信号S234，其被馈送入一个搜索工具236中。使用一个音乐数据库238搜索得到一个搜索结果S240。

图2中显示的所述静音鉴别器204被用来从静音中分隔所述输入哼唱信号S200的所述可听到部分。所述音高检测器202被用来计算所述哼唱输入S200的音高。所述可听到的波形的结构很复杂，但是本发明使用上升和下降对的检测来表示一个音符的存在。这样，所述包络检波器208被用来消除所述可听到波形的复杂结构。所述差分器212计算所述包络S210的梯度。另一个困难在于表征一个音符存在的所述上升和下降对的不明确的性质。不像乐器，人类不能过渡到其边界被很好定义的下一个音符。由于哼唱者的表达或失误引起音量的改变，所述问题更加复杂。所述音量改变可能在一个特定音符的持续时间中引起一个人为的上升和下降。因此，所述音符标记提取器218被用来消除所有人为的上升和下降。剩下的所述合理的上升和下降对被用来作为音符标记，标记一个音符的所述开始和结束。知道每一个音符的位置，所述音高检测器202计算每一个音符的音高。最后，所述音符提取器224被用来映射所述音高值和音符标记来生成音符描述符。一个音符描述符包括一些信息，如音高，开始时间和一个特定音符的间隔。

在这个优选的实施例中，所述旋律转录系统包括两个主要步骤：分割和音高检测。所述分割步骤搜索所述数字信号S200来找到所述哼唱者试图表达的所有音符的开始和持续时间。所述静音鉴别器204分隔所述发音的部分。这个信息用在现有技术中来分割所述数字信号。只有当哼唱者在每一个音符之间插入一定量的静音时，这才可行。大多数没有经验的哼唱者在音符之间插入静音是有困难的。在这个发明中，一个基于梯度的分割方法用来在发音部分搜索音符，这样就不那么依赖静音鉴别。

所述哼唱信号类似于一个幅度调制(AM)信号，其中所述音量被所述音高频率调制。所述音高信号在本例中没用，其被除去来提取所述包络。所述包络显示出一个典型的哼唱信号的一些有趣的特性。所述包络突然增加从静音到一个稳定的级别。所述稳定级别再次突然下降到静音之前，被维持了一会儿。这样，被一个稳定的级别和音符的下降跟随的所述上升的存在是音符存在的证据。所述基于梯度的分割从这些唯一特性中导出来提取所述音符标记。

这些音符标记用于本发明中来提高所述音高检测器202的性能。所述方法利用在每一对开始和结束音符标记内的音高被假设是稳定的事实。每一个音符的信号被分成相等长度的块。在每个块中的所述信号被假定是固定的，并且所述音高(频率)由自相关检测。在一个理想的情况下，这些值是相同的。然而，所述自相关音高检测器202对于引起音高检测错误的和声敏感。而且，哼唱者经常不能在一个特定音符的持续时间内维持所述音高。本发明选择一个k-mean分群法来找到所述显著的音高值。

通过哼唱检索音乐被认为是极好的方法来感知手持设备的接口，如手提电话和便携式自动唱片点唱机。这个发明还能被用于铃声检索系统，其中一个使用者能够通过对可移动的设备哼唱，下载想要的铃声。

这样，在本实施例中，一个使用者向附属于PC，蜂窝电话，便携式自动唱片点唱机，音乐亭或诸如此类设备的一个麦克哼唱一个曲调，其中所述输入声音被转换成一个数字信号并被作为查询的一部分进行传输。所述查询被发送到一个搜索工具中。所述搜索工具中的旋律转录和特征提取模块提取相关的特征。同时，所述搜索工具要求在其列表上的来自于音乐元数据服务器的MPEG-7适应音乐元数据。所述搜索进行下去来匹配所述音乐元数据和从所述哼唱查询提取的特征。所述结果被发送回所述用户，带有匹配程度的一个表示(以得分形式)以及所述歌曲的位置。所述用户可以激活由所述搜索工具提供的一个链接来从所述相关的音乐搜集服务器下载或接收歌曲——可能以一定价格。所述MPEG-7描述符生成器是可选的并依赖于所述应用场景。

这样的一个机制要求一个稳健旋律转录子系统，其在一个音乐乐谱上提取类似于这样的标志性的高级别音乐结构。这样，所述哼唱必须被转换成为一序列音符，其代表所述用户试图表达的旋律。所述音符包含一些信息，例如音高，各音符的开始时间和持续时间。这样，它要求两个主要步骤：所述声波的分割和每一个分割的音高的检测。

在如图1所示的现有技术中，所述旋律转录技术包括一个静音鉴别器，音高检测器和音符提取器。图3是一个相似的流程图，显示了本发明的组成。同样，有一个静音鉴别器步骤301和一个音高检测器步骤304，其引导到一个音符提取器步骤305。然而，在本发明中，一个附加的步骤被引入到传统技术中，以一个“高级模式”的可选步骤302的方式，跟随静音鉴别器步骤301。所述高级模式的选择激活所述基于梯度的分割步骤303。这个步骤由图2所显示的所述基于梯度的分割单元206中的处理过程组成。这样，所述处理303在每一个发音的波形中搜索音符标记。找到的音符标记被分别在所述音高检测器和音符提取器步骤，304和305中处理。

静音鉴别器

图4显示了图2中的一个示范性的静音鉴别器204的操作的流程图，所述静音鉴别器在所述输入波形中分隔发音部分。所述第一步骤用来从数字化哼唱波形中分隔所述发音部分和静音部分。通过防止静音部分的处理，它提高了性能，减少了计算。使用C编程语言的语法，一个数据结构被建立。

struct markers{

int start；

int interval；

}；

其中标记是struct，其标记所述发音部分的开始和间隔。这样，有具有seg_count个项的这些标记的一个矩阵。

所必需的参数被初始化为：seg_count＝0，can_start＝1以及count＝0，如401所示。所述参数can_start被初始化为“1”来表示允许生成一个新的标记。这就防止了在发音部分的间隔被记录之前生成一个标记。随后进行处理402来计算所述数字化哼唱波形的短时距能量函数。所述数字化哼唱波形被分成相等长度的块。每个块的所述短时距能量，E_n，被如下计算：

E_{n} = \frac{1}{CAL_LENGTH} Σ_{m}^{CAL_LENGTH} {[(x (m) w (n - m))]}^{2}

其中x(m)是所述离散的时间音频信号，w(m)是一个矩形窗口函数以及CAL_LENGTH是窗口的长度和哼唱波形的块的宽度。

为了适应于不同的记录环境，所述阈值，thres，被作为所述短时距能量的平均值计算，并且设定计数数字，i＝0，如403所示。thres，是短时距能量的平均值。这是一个参考值，用来确定在一个特定时间的信号是静音还是发音的。利用所述阈值，每个块的所述短时距能量被测试，如404和405所示。在404，所述当前短时距能量值，能量(i)被测试来确定其级别是否大于或等于所述阈值的0.9倍，同时，can_start＝1。如果符合所述标准，所述处理进行到框406，其中所述当前块的开始被记录作为406中的一个发音部分的开始。所述位置被如下计算：

markers[seg_count].start＝i*CAL_LENGTH

其中i是所述当前短时距能量的索引。

而且，所述can_set被置于“-1”来表示所述算法期望一个静音部分，因此，另一个发音部分不能被记录。如果，在步骤404，不符合所述标准，所述处理会进行到步骤405，其中所述当前短时距能量值，energy(i)，被测试来确定它的级别是否低于0.5*thres，以及，同时所述can_start＝-1。做这些，意味着到达了一个静音部分的开始，以及，如果这些标准达到了，在步骤407中这就作为所述发音部分的一个间隔被记录。所述位置被如下计算：

markers[seg_count].interval＝i*CAL_LENGTH-markers[seg_count].start.

接着，所述can_start被再次置于“1”来标志允许新标记的记录以及所述seg_count被增加，如408所示。如果不符合所述标准，步骤406和408的输出，连同步骤405的输出，在步骤409重新聚集，其询问是否所有块已经被测试过。如果答案是否定的，在步骤410中，i，所述当前短时距能量的索引被增加1，并且所述处理回到步骤404。步骤404-410的处理被重复，直到所述短时距能量函数中的所有值被测试过。

基于梯度的分割

图5A中显示了本发明中基于梯度的分割的流程图。所述哼唱信号类似于一个幅度调制(AM)信号，其中所述音量由所述音高频率调制。所述音高信号对于所述分割算法无用。这样，所述音高频率被消除掉来简化问题。所述包络检波器步骤501消除所述音高频率。这样，只留下关于所述音量变化的信息。所述差分器步骤502处理这个变化来生成一个梯度函数并消除所述梯度函数中的较小梯度值。最后，所述音符标记提取器步骤503从所述阈值梯度函数中提取音符标记。图5B显示了带有三个音符的一个典型的哼唱信号。所述包络检波器，差分器和音符标记提取器的输出被分别显示在图5C，5D和5E中。

包络检波器

图6显示了一个示例性包络检波器的流程图，其在所述基于梯度的分割中使用，如501所示。所述包络检波器包括两个步骤：全波整流(处理601至605)以及一个滑动平均低通滤波器。

所述整流器很简单。在步骤601，所述信号中的一个计数的点，i，被置为“i＝0”。接下来，步骤602确定在所述当前信号点的所述信号级别是否大于或等于0。如果不是，则在步骤603，该点的所述包络级别被置于所述当前信号级别的负，并且在步骤605中，i被增加1。如果所述当前信号点大于或等于0，则在步骤604中，该点的所述包络级别被置于其真实的信号级别，并且步骤605中，i被再次增加1。步骤605被步骤606跟随，其确定是否“i＜LEN”，其中LEN是一个样本数，这里选择为200。如果它是，则所述处理回到步骤602。如果不是，则所述处理继续到所述滤波器。

所述低通滤波器由一个简单的滑动平均滤波器来实现以得到所述离散时间音频信号的一个平滑的包络。不提其简单性，所述滑动平均滤波器对于平常任务来说是最佳的，如减少随机噪音，同时保持一个刺耳步骤反应。这个性质对于本发明是理想的，由于它期望减少随机噪音粗糙度，同时保持所述梯度。如其名字所示，所述滑动平均滤波器通过平均来自于所述离散信号的多个点来在所述最佳信号中生成每个点。这样，它可以被写成：

y (t) = \frac{1}{ENVLEN} Σ_{j = 0}^{ENVLEN - 1} x (t + j)

其中，x(t)是具有LEN样本的所述离散时间音频信号，y(t)是x(t)的所述包络信号，以及ENVLEN是所述平均中的点的个数。在这个实施例中，所述ENVLEN被选成200。

所述处理607初始化所述必要的参数“temp”，“i”，“j”到0，来开始所述滤波。在进行滤波之前，所述处理608通过检验所述和“i+j＜LEN”来确保所述滤波器在所述离散时间音频信号的限制内工作。所述处理609和610计算在当前值后的所有数据的总和。特别地，步骤609提供一个更新的临时总和，“temp＝temp+[i+j]”。在所述样本内的所有“i”的所述包络的平均值被计算，如611所述，“env[i]＝temp/ENVLEN”。步骤612检测步骤608-611的处理是否为所述输入缓冲器中的所有数据重复，并且只有当它已经完成了所述包络处理的末尾。所述“i”和“j”被增加，分别如609和610所示。所述“++j”是一个前增量，其表示j在检测所述条件之间被增加。“i++”是一个后增量，其表示“i”在执行所述等式之后被增加，步骤610所示。

差分器

图7显示了示例性差分器的一个流程图。所述差分器包括两个步骤：梯度计算和滑动平均低通滤波器。所述差分器处理由所述包络检波器生成的所述包络来生成一个梯度函数。所述算法只计算在所述发音部分内的所述梯度值，所述发音部分由所述静音鉴别器生成的所述marker来做标记。所述梯度函数主要描述所述输入信号的变化。这可以如下计算：

\frac{&PartialD; y (t)}{&PartialD; t} \approx \frac{y (t + GRADLEN) - y (t)}{GRADLEN}

其中y(t)是所述包络信号并且GRADLEN是t到下一个点的所述偏差。在本实施例中，所述GRADLEN被选择为20。

所述处理在步骤701被初始化。所述索引“j”跟踪被处理的所述分割。所述索引“i”跟踪在被处理的一个分割内部的点的数目。判定702防止包含所述包络的所述缓冲器溢出。“I+Gradlen”被相对于“LEN”进行检测来防止所述缓冲器的溢出，如702所示。所述梯度被如下计算：

Gradient = \frac{[x (i + L) - x (i)]}{L}

其中“L”是所述步长，例如100。因此，当有溢出时，在步骤703，所述x(I+L)被置为0。当没有缓冲器溢出时，所述梯度根据上述的公式在步骤704被计算。处理703中的所述计算满足当要被计算的所述梯度在所述缓冲器末尾附近的情况。所述步骤705检验是否在所述“j”发音段内的所有梯度都计算了。如果是，它将进行到步骤706，如不是，就到判定702。所述步骤706增加“j”来处理所述下一个发音段。所述“i”被初始化为0来从所述段的开头开始。所述判定707将检验是否所有发音的部分都被处理了。如果并非所有的发音段都被处理了，它将进行到判定702。

所述处理708为所述过滤操作初始化必需的参数。所述滤波器平滑所述梯度来降低粗糙度。所述缓冲器的索引被测试来防止缓冲器溢出，如709所示。所述滑动平均滤波器被选择来平滑所述梯度函数。所述滤波器只应用于所述发音部分来减少计算。所述滤波器长度被定义为FLEN，并且所述当前值后的所有数据都被相加，如710所示。如果索引k大于FLEN，它就被测试，如711所示。在本发明中，所述FLEN选择为200。当达到FLEN时，所述梯度，grad，被更新，如712所示。所述处理为在所述发音部分内的所有点重复，如713所示。所述处理709到714被重复，直到所有发音部分被处理。

音符标记提取器

理想地，只有一对正的和负的梯度峰值来标记音符的开始和结束。然而，人类的哼唱是不完美的，并且所述问题由于引起一个特定音符内的幅度变化的表达而进一步复杂起来。这样，所述音符标记提取器必须根据预先设定的标准来除去不合理的梯度峰值。这些标准从以下假设中推导出：每一个音符必须被一个上升标记，并马上跟随一个下降。任何之间的东西被认为是一个人为的警报，必须被除去。图8显示了一个例子来说明这个观点。图8显示了用于选择合理的上升和下降的示例性标准。所述选择合理的上升和下降的标准基于观点：每一个音节只有一个上升和下降。所述1306标记是所述合理的上升，因为它是第一个检测到的标记。因为，期望下降标记，所述1307标记是一个人为的上升。再往下，所述1308标记被暂时认为是一个下降标记。如果上升标记跟随它，它将是一个合理的下降标记。然而，一个下降标记1309跟随它。这样，标记1308被放弃，所述标记1309被临时认为是一个下降标记。所述上升标记1310的检测意味着标记1309能够作为一个合理的下降标记正式地被记录。

图9中的所述流程图显示了上述技术的一个示例性实施例来除去多余的标记。所述音符标记提取器除去多余的开/关标记，并记录一组合理的音符标记。一个梯度阈值模块1001首先被命令来除去由所述差分器212生成的小的梯度值。它生成一列开/关脉冲。一个边缘监测器函数被命令来从开始于位置0的所述开/关脉冲中搜索边缘，如1002所示。根据最近的标记的位置，所必需的参数被初始化，如1003所示。在处理1003中，pos和pg是：

参数	定义
参数	定义	Pos	在所述梯度矩阵中的所述合理的上升和下降的位置
Pg	所述合理的上升和下降的所述梯度值	Pos	在所述梯度矩阵中的所述合理的上升和下降的位置

所述算法进入一个循环来搜索和除去所有多余的标记，如1004-1015所示。所述下一个边缘被使用所述边缘检测器检测，从在最后一次搜索中找到的边缘的位置开始，如1004所示。所述测试1005确保所述边缘检测器找到一个边缘。所述1007测试当检测到一个上升标记，而一个上升标记被记录在前一个反复中的情况。在这种情况下，所述检测到的上升标记被放弃，以及所述索引被增加到所述上升标记的位置，如1011所示。所述1008为以下情况进行测试：当检测到一个下降标记，并且一个上升标记在前一个反复中被检测到时。这样，所述检测到的下降标记被记录作为一个合理的下降标记，如1012所示。1009测试当检测到一个下降标记，但是在前一个反复中已经记录了一个下降标记的情况。这样，所述当前的被检测的标记替代所述前一个标记，如1013所示。最后，所述1010测试以下情况：当一个上升标记被检测到，并且一个下降标记在前一个反复中被检测到时。因此，所述上升标记被记录，如1014所示。当所述边缘检测器不能找到任何边缘时，对于那些还未决的标记，有标记的最终记录，如1006所示。因为没有更多的边缘，所以所述处理1006跳出所述循环，继续到所述处理1016。当所有标记的一半被记录时，所述seg_count被计算，如1016所示。所述处理1017和1018用来自于pos的数据更新所述标记struct。

梯度阈值

图10显示了除去不想要的小梯度阈值的一个简单方法的流程图。所述梯度阈值被测试，如901所示。如果所述绝对值小于GRADTHRES，它被设定到0，如904所示。如果所述值大于GRADTHRES，并且为正，它将被设定一个正的数字。如果所述值大于GRADTHRES，并且为负，它将被设定一个负的数字。这里+10和-10被分别用来作为一个例子。这个处理被显示于902-905。在最后，所述梯度阈值函数将生成正的和负的脉冲，如1301-1305中显示的那些一样。

边缘检测器

图8所示的所述开/关脉冲表征高梯度的位置。1301和1302所述的脉冲的所述正沿是梯度值从低到高过渡的位置。另一方面，1301和1302所述的脉冲的所述负沿是梯度值从高到低过渡的位置。这样，所述开脉冲的负沿是所述增长的包络到一个级别值的转折点。所述开脉冲的负沿使用所述边缘检测器被检测来得到所述开标记，如1306和1307所示。类似地，所述关脉冲的正沿使用所述边缘检测器被检测来得到所述关标记，如1308和1309所示。

图11显示了示例性脉冲边缘检测器的流程图。所述脉冲边缘检测器检测从由start设定的位置开始的下一个正沿或负沿。所述处理801初始化所述搜索索引，i，到理想的开始位置。所述ps被设定-1到前面的过渡没有被检测到的信号。一个非零梯度和ps＝-1表示这是第一次检测到一个边缘，如802所测试的。因此，ps被设定1到检测到第一个边缘的信号，如804所测试的。当所述梯度值是零且ps＝1，所述第二个边缘被检测到，如803所测试的。这是开脉冲的一个负沿以及关脉冲的一个正沿。已经检测这个边缘之后，所述当前的搜索索引将被返回作为检测到的边缘，如808所示。802-805的所述处理将重复直到所有数据都用完。如果所有数据都用完，如在806测试的，并且没有检测到任何边缘，如807所示，会返回一个-1。

音高检测器

所述音高检测器202检测记录在所述标记数据结构中的所有音符的音高。每一个音符间隔被分成块，其包括PLEN样本。在本发明中，所述PLEN被选为100。这样，对于一个8KHz取样音频信号，所述音高检测范围介于80到8KHz之间。每块中的信号假设是固定的，并且所述音高(频率)被自相关检测，如下所示：

r_{xx} (n) = \frac{1}{PLEN} Σ_{k = 0}^{PLEN - n - 1} x (k) x (k + n)

其中所述x(k)是离散的时间音频信号。

利用此等式，可以找到属于相同音符的音高值的集合。在理想情况下，这些值是相同的。然而，所述自相关音高检测器对于导致错误的和声是敏感的。而且，所述哼唱者可能在一个特定音符的持续时间内不能保持音高。

图12显示了一个示例性音高检测器的流程图。所述处理1101计算输入数据的平方。所述音高检测器是一个基于自相关的音高，带有修正的被检测。1102-1114的所述处理计算归一化的自相关函数，并寻找在音符中每一块的音高值。

使用C语言的语法，建立如下的一个数据结构。

struct hum_des{

int pitch；

int start；

int interval；

}；

其中标记是struct，其标记发音部分的开始和间隔。这样，有这些标记的具有note_count个项的一个矩阵。一个音符的位置和间隔被记录：

hum_des[j].start＝marker[j].start

hum_des[j].interval＝marker[j].interval

其中，j是索引，并且0＜＝j＜标记的总数。

检测到的音高值可能因为一个用户不能在单个音符内保持音高而变化。如1116所示的所述FindDom函数找到所述主音高值。在本发明中，在1118，所述被检测的音高值被校正到最近的MIDI数目。所述MIDI数目如下计算：

hum_des [j] . pitch = 49 + \frac{floor [12 \log (\frac{\det ected_pitch}{440})]}{\log 2}

所述floor(x)函数返回一个浮点值，代表小于或等于x的最大的整数。所述处理被重复直到在所述输入数据中的所有音符被检测它们的音高，如1119所示。

主音高检测器

主音高检测器的功能是从音高值集合中收集统计数据来找到显著的音高值。在本发明中，所述k-mean分群法被选择来找到所述显著音高值。所述k-mean分群法不需要关于数据的任何预先的知识或假设，除了需要的群的数目。确定群的数目在大多数应用中都存在问题。在本发明中，所述群算法只需要分群所述音高值为两组：显著的群和离群。

图13显示了一个示例性主音高检测器(图12的步骤1117)的流程图，其使用一个k-mean分群算法，该算法分类所述音高为两组。所述k-mean分群是对于群数据的一个迭代的算法，来揭示根本的特征。所述音高的数目被测试来检验其是否大于3，如判定1202所示。所述数据的较低的20％和较高的20％被放弃来避免不稳定的音符部分，如1204所示。如果音高的数目小于3，所有的音高将被用于计算。这通过设定“lower＝0”和“upper”到音高的数目来得到，如1203所示。所述两个群的中心被初始化为所述数据的最大值和最小值，如1201-1210所设。所述索引“j”被设为较低的，如1205所示。所述处理1211初始化必要的参数并为较晚进行的比较存储当前的中心。

经受测试的所述音符的音高值包含在矩阵pitch中。所述处理1212比较来自于两个中心的所述音高值的绝对距离。所述音高值被加到称为temp1和temp2的累加值上，依赖于比较的结果，如1213和1214所示。这个处理重复，直到所述音符中的所有音高值被测试，如1215所示。所述新的中心被计算，以及项的数目被增加，如1218和1219所示。它们是项音高值的平均值。所述处理1220和1221测试所述两个中心是否改变。如果两个中心不改变，所述迭代马上停止。如果任何中心有变化，从1211到1221的处理的迭代重复，直到到达循环的最大数目(MAXLOOP)。在这个示例性实施例中，循环的所述最大数目是10。

如果两个中心的项的数目接近，如1223测试的，所述两个中心的平均值被返回，作为主音高。如果它们不足够接近，具有较大数目项的中心被返回，作为主音高，如1225-1227所示。这样，具有最高数目项的群被分类作为显著的群，而另一个群作为离群。所述音符的音高被设定成显著的群的中心。

实际上，本发明有可能工作，而不需要静音鉴别器。

音符提取是一个简单的模块来从音符标记生成器和音高检测器收集信息。它就填充一个结构，其描述开始时间，持续时间和音高值。特征提取转换所述音符描述符为特征，其被所述搜索工具使用。当前的特征是所述旋律曲线，其被指定在MPEG-7标准。所述描述生成是一个可选模块，其转换所述特征到用于存储或传输的一个格式。

发明的效果

本发明实现了转换人类(或动物，如海豚等)哼唱，歌唱，吹口哨或其他音响到音符。所述基于梯度的分割超越了传统的依赖静音的分割方法。所述改进的基于自相关的音高检测器能够允许一个用户在单一音节中不能维持音高的情况。这意味着，所述用户可以自然地哼唱，而不用有意识地在音符之间停顿，这种停顿可能对于具有较少音乐背景的用户不容易。

描述了得到特定处理的示例性装置，同时，达到相似目的的其他装置也被包含在内。

Claims

1、一个方法，用于转录一个音乐声音信号到音符，包括步骤：

(a)生成音符标记，指示所述声音信号中音符的开始和结尾；以及

(b)检测由所述音符标记做标记的音符的所述音高值。

2、根据权利要求1所述的方法，进一步包括检测所述声音信号的被认为是静音的部分。

3、根据权利要求2所述的方法，其中所述音符标记生成步骤使用所述静音检测步骤的结果。

4、根据权利要求2或3中的任何一个所述的方法，其中所述音高值检测步骤使用所述静音检测步骤的结果和所述音符标记生成步骤的结果。

5、一种方法，生成音符标记，表示音乐声音信号中音符的开始和结束，包括步骤：

(a)提取所述声音信号的包络；

(b)差分所述包络来计算一个梯度函数；以及

(c)从所述梯度函数中提取音符标记，表示所述声音信号中音符的开始和结束。

6、根据权利要求5所述的方法，其中所述包络提取处理包括步骤：

(i)对于所述声音信号执行全波整流；以及

(ii)低通滤波所述全波整流的输出。

7、根据权利要求5或6中的任何一个所述的方法，其中所述差分处理包括步骤：

(a)确定所述包络的梯度；以及

(b)低通滤波所述梯度。

8、根据权利要求5-7中的任何一个所述的方法，其中所述音符标记提取处理包括步骤：

(i)从所述梯度函数中除去小梯度；

(ii)提取剩余梯度的所述上升和下降的转折点；

(iii)除去不需要的上升和下降；以及

(iv)记录剩余的上升和下降作为所述音符标记。

9、根据权利要求5-8中的任何一个所述的方法，其中任何一个或多个所述的包络提取步骤，所述差分步骤和所述音符标记提取步骤根据所述音乐声音信号中的静音的确定来执行。

10、一个方法，检测音乐声音信号中音符的音高值，包括步骤：

(a)在所述声音信号中分离音符；

(b)划分所述音符成为一个或多个组的块；

(c)得到所述块的音高值；以及

(d)通过分群所述块的所述音高值，得到所述音符的所述音高值。

11、根据权利要求10所述的方法，其中所述分离音符的处理使用音符标记来进行。

12、根据权利要求10或11中的任何一个所述的方法，其中一组中的所述块长度相等。

13、根据权利要求10-12中的任何一个所述的方法，其中每一组包含相同数目的块。

14、根据权利要求10-13中的任何一个所述的方法，其中得到所述音高值的处理包括在所述块音高值上应用k-mean分群。

15、根据权利要求10-14中的任何一个所述的方法，进一步包括步骤(e)凑整检测到的所述音符的音高值到最近的音符值。

16、根据权利要求10-15中的任何一个所述的方法，其中所述音符分离步骤根据所述音乐声音信号中的静音的确定来执行。

17、根据权利要求10-16中的任何一个所述的方法，其中所述音符分离步骤根据所述音乐声音信号中的音符标记的确定来执行。

18、根据权利要求17所述的方法，其中所述音符标记使用权利要求5-9中任何一个所述的方法来确定。

19、根据权利要求1-4中的任何一个所述的方法，其中所述音符标记生成步骤根据权利要求5-9中任何一个所述的方法来执行。

20、根据权利要求1-4和19中的任何一个所述的方法，其中所述音高值检测步骤根据权利要求14-23中任何一个所述的方法来执行。

21、根据权利要求1-4，19和20中的任何一个所述的方法，进一步包括从所述音高值中提取音符来生成音符标记符的步骤。

22、一个方法，用于识别音乐，包括步骤：

接收模仿一曲音乐的一个音乐声音信号；

使用根据权利要求1-4，19-21中任何一个所述的方法，转录所述音乐声音信号到一序列音符和时间标记；

识别通过比较被认为最相近的一曲音乐。

23、根据权利要求22所述的方法，进一步包括检索所述被识别的音乐的步骤。

24、根据权利要求22或23中的任何一个所述的方法，其中在所述数据库中的音乐包含歌曲，以及相关序列的音符和时间标记包含所述歌曲的歌唱部分的音符和时间标记的序列。

25、根据前面任何一个权利要求所述的方法，其中所述音乐声音信号是数字化的。

26、根据前面任何一个权利要求所述的方法，其中所述音乐声音信号是由一个人产生的声音的一个音频信号。

27、根据权利要求26所述的方法，其中所述声音包括一个或多个以下组的：哼唱，歌唱和吹口哨一曲音乐的至少一部分。

28、一个装置，用于转录一个音乐声音信号到音符，根据前面任何一个权利要求所述的方法，可操作。

29、一个装置，用于转录一个音乐声音信号到音符，包括：

(a)音符标记生成装置，用于生成音符标记，指示所述声音信号中音符的开始和结尾；以及

(b)音高值检测装置，用于检测由所述音符标记做标记的音符的所述音高值。

30、根据权利要求29所述的装置，进一步包括静音检测装置，用于检测所述声音信号中的静音。

31、根据权利要求30所述的装置，其中所述音符标记生成装置使用所述静音检测装置的结果来生成音符标志。

32、根据权利要求30或31中的任何一个所述的装置，其中所述音高值检测装置使用所述静音检测装置和所述音符标记生成装置的结果，来检测所述音高值。

33、一种装置，用于生成音符标记，表示音乐声音信号中音符的开始和结束，包括：

(a)包络提取装置，用于提取所述声音信号的包络；

(b)差分装置，用于差分所述包络来计算一个梯度函数；以及

(c)音符标记提取装置，用于从所述梯度函数中提取音符标记，表示所述声音信号中音符的开始和结束。

34、根据权利要求33所述的装置，其中所述包络提取装置包括：

(i)整流装置，对于所述声音信号执行全波整流；以及

(ii)滤波装置，用于低通滤波所述整流装置的输出。

35、根据权利要求33或34中的任何一个所述的装置，其中所述差分装置包括：

(a)梯度确定装置，用于确定所述包络的梯度；以及

(b)梯度滤波装置，用于低通滤波所述梯度。

36、根据权利要求33-35中的任何一个所述的装置，其中所述音符标记提取装置包括：

(i)梯度除去装置，从所述梯度函数中除去小梯度；

(ii)上升和下降提取装置，提取剩余梯度的所述上升和下降的转折点；

(iii)上升和下降除去装置，除去不需要的上升和下降；以及

(iv)上升和下降记录装置，记录剩余的上升和下降作为所述音符标记。

37、根据权利要求33-36中的任何一个所述的装置，其中任何一个或多个所述包络提取装置，所述差分装置和所述音符标志提取装置根据所述音乐声音信号中的静音的确定来执行。

38、一个装置，检测音乐声音信号中音符的音高值，包括：

(a)音符分离装置，在所述声音信号中分离音符；

(b)音高值划分装置，划分所述音符成为一个或多个组的块；

(c)块音高值得到装置，得到所述块的音高值；以及

(d)音符音高值得到装置，通过分群所述块的所述音高值，得到所述音符的所述音高值。

39、根据权利要求38所述的装置，其中所述音符分离装置使用音符标记来分离音符。

40、根据权利要求38或39中的任何一个所述的装置，其中一组中的所述块长度相等。

41、根据权利要求38-40中的任何一个所述的装置，其中每一组包含相同数目的块。

42、根据权利要求38-41中的任何一个所述的装置，其中得到所述音高值装置被操作来在所述块音高值上应用k-mean分群。

43、根据权利要求38-42中的任何一个所述的装置，进一步包括凑整装置，用于凑整检测到的所述音符的音高值到最近的音符值。

44、根据权利要求38-43中的任何一个所述的装置，其中所述音符分离装置根据所述音乐声音信号中的静音的确定来工作。

45、根据权利要求38-43中的任何一个所述的装置，其中所述音符分离装置根据所述音乐声音信号中的音符标记的确定来工作。

46、根据权利要求45所述的装置，其中所述音符标记使用权利要求33-37中任何一个所述的装置来确定。

47、根据权利要求29-32中的任何一个所述的装置，其中所述音符标记生成装置包括根据权利要求33-37中任何一个所述的装置。

48、根据权利要求29-32和47中的任何一个所述的装置，其中所述音高值检测装置包括权利要求38-47中任何一个所述的装置。

49、根据权利要求29-42，47和48中的任何一个所述的装置，进一步包括从所述音高值中提取音符来生成音符标记符的音符提取装置。

50、一个装置，用于识别音乐，包括：

接收装置，接收模仿一曲音乐的一个音乐声音信号；

转录装置，使用权利要求29-32，47-49中任何一个所述的装置，转录所述音乐声音信号到一序列音符和时间标记；

音乐比较装置，将所述的一序列音符和时间标记和数据库中的多个序列音乐的音符和时间标记进行比较；以及

识别装置，识别通过比较被认为最相近的一曲音乐。

51、根据权利要求50所述的装置，进一步包括检索装置，用于检索所述被识别的音乐。

52、根据权利要求50或51中的任何一个所述的装置，其中在所述数据库中的音乐包含歌曲，以及相关序列的音符和时间标记包含所述歌曲的歌唱部分的音符和时间标记的序列。

53、根据权利要求28-52中的任何一个所述的装置，可操作来获得一个数字音乐声音信号。

54、根据权利要求28-53中的任何一个所述的装置，可操作来获得是由一个人产生的声音的一个音频信号的一个音乐声音信号。

55、根据权利要求所54所述的装置，其中所述声音包括一个或多个以下组的：哼唱，歌唱和吹口哨一曲音乐的至少一部分。

56、软件，其当安装上，可根据权利要求1-28中的任何一个所述的方法操作。

57、一个存储设备，包括根据权利要求56所述的软件。

58、一个计算机，已经安装了根据权利要求56所述的软件。