CN102750948B

CN102750948B - 音乐搜索设备及方法

Info

Publication number: CN102750948B
Application number: CN201210107281.1A
Authority: CN
Inventors: 澁谷崇; 安部素嗣
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-04-19
Filing date: 2012-04-12
Publication date: 2016-05-18
Anticipated expiration: 2032-04-12
Also published as: JP5732994B2; US8754315B2; CN102750948A; EP2515295A1; EP2515295B1; US20120266743A1; JP2012226080A

Abstract

本公开提供了音乐搜索设备及方法、程序以及记录介质。指数计算单元基于变换到时频域的所述输入信号的每个区域的信号分量的强度和通过对所述信号分量的强度进行近似而获得的函数，计算所述信号分量的音调指数。相似度计算单元计算基于所述指数而获得的所述输入信号的每个区域中的特征量与基于对变换到所述时频域的所述参考信号计算出的指数而获得的所述参考信号的每个区域中的特征量之间的相似度。音乐识别单元基于所述相似度来识别所述输入信号中的音乐。本技术可应用于从输入信号中识别音乐的音乐搜索设备。

Description

音乐搜索设备及方法

技术领域

本技术涉及音乐搜索设备及方法、程序以及记录介质，并且尤其涉及能够从输入信号中设别出音乐的音乐搜索设备及方法、程序以及记录介质。

背景技术

过去，为了识别作为输入信号而输入的音乐，进行将输入信号的特征量与作为要被识别的音乐的候选的参考信号的特征量进行匹配的处理。然而，例如，当诸如戏剧的电视节目的音频源被用作输入信号时，包括诸如对话、声音(环境噪声)、白噪声、粉红噪声以及音效的非音乐信号分量的噪声分量(在下文中简称为“噪声”)经常与诸如背景音乐(BGM)的音乐信号分量混合，并且由这种噪声导致的输入信号的特征量的变化影响匹配处理结果。

就这一点而言，已经提出了如下技术：该技术使用屏蔽模式来屏蔽输入信号的特征量中具有低可靠性的分量，从而只使用具有高可靠性的分量来进行匹配处理。

特别地，针对特征矩阵预先准备多种屏蔽模式，其中特征矩阵代表被变换为时频域中的信号的输入信号的特征量，而屏蔽模式用于屏蔽与预定的时频域相对应的矩阵分量。使用所有屏蔽模式进行输入信号的特征量与数据库中多个参考信号的特征量之间的匹配处理。被计算出最高相似度的那个参考信号的音乐被识别为输入信号的音乐(例如，参见日本专利申请公开(JP-A)2009-276776)。

发明内容

然而，难以评估输入信号上叠加有噪声的时间和频率，并且难以预先准备适合于输入信号的屏蔽模式。因此，在JP-A2009-276776中公开的技术中，难以进行适当的匹配处理，因而很难以高准确度从音乐与噪声混合的输入信号中识别出音乐。

同时，还存在这样一种技术：该技术产生屏蔽模式，使得输入信号中平均功率高的时间段中的分量被视为叠加有音乐以外的噪声的分量，并且只使用输入信号中平均功率低的时间段的特征量进行匹配。根据该技术，尽管可以产生取决于输入信号的屏蔽模式，但是该屏蔽模式中没有考虑到频率分量，并且该屏蔽模式不一定是适于输入信号的屏蔽模式。此外，如图1的左侧所示，在时频域的输入信号中，音乐信号分量DM中包括了来自对话的噪声Dv。在此情况下，在该技术中，只使用对话中断的区域S1和S2中的几个段的特征量来进行匹配处理。因此，很难以高准确度从音乐与噪声混合的输入信号中识别出音乐。为了以高准确度从音乐与噪声混合的输入信号中识别出音乐，希望使用如图1的右侧所示的区域S3和S4中的音乐信号分量Dm的特征量来进行匹配处理。

本技术是鉴于上述问题而作出的，并且希望以高准确度从输入信号中识别出音乐。

根据本技术的一实施例，提供了一种音乐搜索设备，用于将输入信号与仅包括音乐的参考信号进行比较并识别所述输入信号的音乐，所述音乐搜索设备包括：指数计算单元，用于基于变换到时频域的所述输入信号的每个区域的信号分量的强度和通过对所述信号分量的强度进行近似而获得的函数，计算所述信号分量的音调指数；相似度计算单元，用于计算基于所述指数而获得的所述输入信号的每个区域中的特征量与基于对变换到所述时频域的所述参考信号计算出的指数而获得的所述参考信号的每个区域中的特征量之间的相似度；以及音乐识别单元，用于基于所述相似度来识别所述输入信号的音乐。

所述指数计算单元可以包括：最大点检测单元，用于从预定时间段的所述输入信号中检测所述信号分量的强度为最大的最大点；以及近似处理单元，用于通过模板函数对所述最大点附近的所述信号分量的强度进行近似，并且，所述指数计算单元可以基于所述最大点附近的所述信号分量的强度与所述模板函数之间的误差来计算所述指数。

所述指数计算单元可以根据所述模板函数的曲率来调节所述指数。

所述指数计算单元可以根据所述模板函数的最大点的频率来调节所述指数。

所述音乐搜索设备可以进一步包括权重分布产生单元，用于基于所述输入信号的每个区域中的第一特征量和所述参考信号的每个区域中的第一特征量来产生所述输入信号和所述参考信号的每个区域上的权重分布，并且计算所述输入信号的每个区域中的第一特征量与所述参考信号的每个区域中的第一特征量之间的第一特征量相似度。所述相似度计算单元基于所述权重分布的权重和所述第一特征量相似度来计算所述输入信号的每个区域中的第二特征量与所述参考信号的每个区域中的第二特征量之间的相似度。

所述音乐搜索设备可以进一步包括：第一特征量计算单元，用于计算通过在时间方向上过滤所述指数而获得的所述指数的时间平均量，作为所述第一特征量；以及第二特征量计算单元，用于计算通过在时间方向上过滤所述指数而获得的所述指数的时间变化量，作为所述第二特征量。

根据本技术的另一实施例，一种音乐搜索方法将输入信号与仅包括音乐的参考信号进行比较并识别所述输入信号的音乐，所述音乐搜索方法可以包括：基于变换到时频域的所述输入信号的每个区域的信号分量的强度以及通过对所述信号分量的强度进行近似而获得的函数，计算所述信号分量的音调指数；计算基于所述指数而获得的所述输入信号的每个区域中的特征量与基于对变换到所述时频域的所述参考信号计算出的指数而获得的所述参考信号的每个区域中的特征量之间的相似度；以及基于所述相似度识别所述输入信号的音乐。

根据本技术的另一实施例，提供了一种程序或者由记录介质记录的程序，所述程序使计算机执行将输入信号与仅包括音乐的参考信号进行比较并识别所述输入信号的音乐的信号处理。所述信号处理可以包括：基于变换到时频域的所述输入信号的每个区域的信号分量的强度以及通过对所述信号分量的强度进行近似而获得的函数，计算所述信号分量的音调指数；计算基于所述指数而获得的所述输入信号的每个区域中的特征量与基于对变换到所述时频域的所述参考信号计算出的指数而获得的所述参考信号的每个区域中的特征量之间的相似度；以及基于所述相似度识别所述输入信号的音乐。

根据本技术的另一实施例，基于变换到时频域的输入信号的每个区域的信号分量的强度和通过对该信号分量的强度进行近似而获得的函数来计算该信号分量的音调指数。计算基于该指数而获得的输入信号的每个区域中的特征量与基于对变换到该时频域的参考信号计算出的指数而获得的参考信号的每个区域中的特征量之间的相似度。基于该相似度识别该输入信号的音乐。

根据本技术的上述实施例，能够以高准确度从输入信号中识别出音乐。

附图说明

图1是用于描述用于匹配处理的输入信号的特征量的图；

图2是示出根据本技术实施例的音乐搜索设备的配置的框图；

图3是示出指数计算单元的功能配置示例的框图；

图4是示出第一特征量计算单元的功能配置示例的框图；

图5是示出第二特征量计算单元的功能配置示例的框图；

图6是用于描述音乐识别处理的流程图；

图7是用于描述输入信号分析处理的流程图；

图8是用于描述指数计算处理的流程图；

图9是用于描述峰值检测的图；

图10是用于描述对峰值周围的功率谱进行近似的图；

图11是用于描述指数调节函数的图；

图12是用于描述输入信号的音调指数的示例的图；

图13是用于描述第一特征量计算处理的流程图；

图14是用于描述第一特征量的示例的图；

图15是用于描述第二特征量计算处理的流程图；

图16是用于描述第二特征量的示例的图；

图17是用于描述参考信号分析处理的流程图；

图18是用于描述匹配处理的流程图；

图19是用于描述屏蔽模式的产生示例的图；

图20是用于描述输入信号的第二特征量与参考信号的第二特征量之间的匹配处理的图；

图21是示出按时间序列排列的相似度的示例的图；

图22是用于描述相似度的时间连续性的图；以及

图23是示出计算机的硬件配置示例的框图。

具体实施方式

下文中将参照附图详细描述本发明的优选实施例。注意，在本文字说明和附图中，由相同的附图标记来表示具有基本相同的功能和结构的结构元件，并且省略对这些结构元件的重复说明。

根据本技术的实施例，提供了一种音乐搜索设备，用于将输入信号与仅包括音乐的参考信号进行比较并识别所述输入信号的音乐，所述音乐搜索设备包括：指数计算单元，用于基于变换到时频域的所述输入信号的每个区域的信号分量的强度和通过对所述信号分量的强度进行近似而获得的函数，计算所述信号分量的音调指数；相似度计算单元，用于计算基于所述指数而获得的所述输入信号的每个区域中的特征量与基于对变换到所述时频域的所述参考信号计算出的指数而获得的所述参考信号的每个区域中的特征量之间的相似度；以及音乐识别单元，用于基于所述相似度来识别所述输入信号的音乐。

根据本技术的实施例，提供了一种音乐搜索方法，用于将输入信号与仅包括音乐的参考信号进行比较并识别所述输入信号的音乐，所述音乐搜索方法包括：基于变换到时频域的所述输入信号的每个区域的信号分量的强度以及通过对所述信号分量的强度进行近似而获得的函数，计算所述信号分量的音调指数；计算基于所述指数而获得的所述输入信号的每个区域中的特征量与基于对变换到所述时频域的所述参考信号计算出的指数而获得的所述参考信号的每个区域中的特征量之间的相似度；以及基于所述相似度识别所述输入信号的音乐。

下文中将参照附图描述本技术的实施例。将按照以下顺序进行描述。

1.音乐搜索设备的配置

2.音乐识别处理

<1.音乐搜索设备的配置>

图2示出根据本技术实施例的音乐搜索设备的配置。

图2的音乐搜索设备11通过将音乐信号分量与诸如对话或环境噪声的噪声分量(噪声)相混合的输入信号与包括未混合有噪声的音乐信号分量的参考信号进行比较来识别输入信号的音乐，然后输出识别结果。

音乐搜索设备11包括输入信号分析单元31、参考信号分析单元32和匹配处理单元33。

输入信号分析单元31分析从外部装置等输入的输入信号，从输入信号中提取代表输入信号的特征的特征量，并将该特征量输出到匹配处理单元33。

输入信号分析单元31包括剪切单元51、时频变换单元52、指数计算单元53、第一特征量计算单元54和第二特征量计算单元55。

剪切单元51从输入信号中剪切出与预定时间相对应的信号，并且将剪切出的信号输出到时频变换单元52。

时频变换单元52将来自剪切单元51的与预定时间相对应的输入信号变换为时频域中的信号(谱图，spectrogram)，并且将该谱图提供给指数计算单元53。

指数计算单元53根据来自时频变换单元52的输入信号的谱图，针对谱图的每个时频域来计算代表信号分量包括音乐的音调指数，并且将计算出的音调指数提供给第一特征量计算单元54和第二特征量计算单元55。

在此，音调指数代表音调关于时间的稳定性，这种稳定性是由输入信号中每个频率的信号分量的强度(功率谱)来表示的。一般来说，由于音乐包括特定声调(频率)的声音并且连续地发声，所以音调在时间方向上是稳定的。然而，对话具有音调在时间方向上不稳定的特征，并且，在环境噪声中，在时间方向上连续的音调是很少见的。就这一点而言，指数计算单元53通过对与预定时间段相对应的输入信号中音调的存在或不存在以及音调的稳定性进行量化，来计算音调指数。

第一特征量计算单元54基于来自指数计算单元53的谱图的每个时频域的音调指数来计算第一特征量，并将第一特征量提供给匹配处理单元33，该第一特征量是代表输入信号音乐度如何(音乐性)的特征量。

第二特征量计算单元55基于来自指数计算单元53的谱图的每个时频域的音调指数来计算第二特征量，并将第二特征量提供给匹配处理单元33，该第二特征量是代表输入信号的音乐的特性的特征量。

参考信号分析单元32分析存储在存储单元(未示出)中的或者从外部装置输入的参考信号，从参考信号中提取代表参考信号的特征的特征量，并且将所提取的特征量提供给匹配处理单元33。

参考信号分析单元32包括时频变换单元61、指数计算单元62、第一特征量计算单元63和第二特征量计算单元64。

时频变换单元61将参考信号变换为谱图，并且将该谱图提供给指数计算单元62。

指数计算单元62根据来自时频变换单元61的参考信号的谱图，针对谱图的每个时频域来计算表示信号分量包括音乐的音调指数，并且将计算出的音调指数提供给第一特征量计算单元63和第二特征量计算单元64。

第一特征量计算单元63基于来自指数计算单元62的谱图的每个时频域的音调指数来计算第一特征量，并将第一特征量提供给匹配处理单元33，该第一特征量是代表参考信号的音乐性的特征量。

第二特征量计算单元64基于来自指数计算单元62的谱图的每个时频域的音调指数来计算第二特征量，并将第二特征量提供给匹配处理单元33，该第二特征量是代表参考信号的音乐的特性的特征量。

匹配处理单元33通过基于来自输入信号分析单元31的输入信号的第一特征量和来自参考信号分析单元32的参考信号的第一特征量进行来自输入信号分析单元31的输入信号的第二特征量与来自参考信号分析单元32的参考信号的第二特征量之间的匹配处理，来识别包括在输入信号中的音乐。

匹配处理单元33包括屏蔽模式产生单元71、相似度计算单元72和比较确定单元73。

屏蔽模式产生单元71基于来自输入信号分析单元31的输入信号的每个时频域的第一特征量和来自参考信号分析单元32的参考信号的每个时频域的第一特征量，产生被用于输入信号的第二特征量与参考信号的第二特征量之间的匹配处理的屏蔽模式，然后将所产生的屏蔽模式提供给相似度计算单元72。此外，屏蔽模式产生单元71还计算第一特征量相似度，并将第一特征量相似度提供给相似度计算单元72，该第一特征量相似度是来自输入信号分析单元31的输入信号的每个时频域的第一特征量与来自参考信号分析单元32的参考信号的每个时频域的第一特征量之间的相似度。

相似度计算单元72使用来自屏蔽模式产生单元71的屏蔽模式和第一特征量相似度，计算来自输入信号分析单元31的输入信号的第二特征量与来自参考信号分析单元32的参考信号的第二特征量之间的相似度，并且将计算出的相似度提供给比较确定单元73。

比较确定单元73基于来自相似度计算单元72的相似度，确定包括在输入信号中的音乐是否是参考信号的音乐，并且输出代表参考信号的音乐的属性的音乐属性信息作为识别结果。

[指数计算单元的配置]

接下来，将参照图3描述图2中所示的指数计算单元53的详细配置。

图3的指数计算单元53包括时间段选择单元81、峰值检测单元82、近似处理单元83、音调度计算单元84和输出单元85。

时间段选择单元81在来自时频变换单元52的输入信号的谱图中选择预定时间段的谱图，并且将所选择的谱图提供给峰值检测单元82。

峰值检测单元82在时间段选择单元81所选择的预定时间段(时帧)的谱图中检测峰值，该峰值是每个单位频率处信号分量的强度最强的点。

近似处理单元83通过预定函数来对该预定时间段的谱图中由峰值检测单元82检测到的峰值周围的信号分量的强度(功率谱)进行近似。

音调度计算单元84基于由近似处理单元83近似的预定函数与由峰值检测单元82检测到的峰值周围的功率谱之间的距离(误差)，计算通过在与该预定时间段相对应的谱图上对音调指数进行量化而获得的音调度。

输出单元85保持由音调度计算单元84计算出的、与该预定时间段相对应的谱图上的音调度。输出单元85将所保持的所有时间段的谱图上的音调度提供给第一特征量计算单元54和第二特征量计算单元55，作为剪切单元51所剪切出的与预定时间相对应的输入信号的音调指数。

以此方式，在时频域中针对每个预定时间段并针对每个单位频率来计算具有音调度(元素)的音调指数。

[第一特征量计算单元的配置]

接下来，将参照图4描述图2中所示的第一特征量计算单元54的详细配置。

图4的第一特征量计算单元54包括过滤处理单元91、再采样处理单元92和二值化处理单元93。

过滤处理单元91通过在时间方向上对来自指数计算单元53的、在输入信号的时频域中的每个预定时间段和每个单位频率处具有音调度(元素)的音调指数进行过滤，来计算音调指数的时间平均量，并且将该时间平均量提供给再采样处理单元92，作为代表输入信号的音乐性的第一特征量。

再采样处理单元92在时间方向上对来自过滤处理单元91的第一特征量进行再采样(向下采样)，并且将向下采样的第一特征量提供给二值化处理单元93。

二值化处理单元93对来自再采样处理单元92的向下采样的第一特征量进行二值化处理，并且将得到的第一特征量提供给匹配处理单元33。

[第二特征量计算单元的配置]

接下来，将参照图5描述图2中所示的第二特征量计算单元55的详细配置。

图5中所示的第二特征量计算单元55包括过滤处理单元101、再采样处理单元102和三值化处理单元103。

过滤处理单元101通过在时间方向上对来自指数计算单元53的、在输入信号的时频域中的每个预定时间段和每个单位频率处具有音调度(元素)的音调指数进行过滤，来计算音调指数的时间变化量，并且将该时间变化量提供给再采样处理单元102，作为代表输入信号的音乐的特性的第二特征量。

再采样处理单元102在时间方向上对来自过滤处理单元101的第二特征量进行再采样(向下采样)，并且将向下采样的第二特征量提供给三值化处理单元103。

三值化处理单元103对来自再采样处理单元102的向下采样的第二特征量进行三值化处理，并且将得到的第二特征量提供给匹配处理单元33。

图2中所示的参考信号分析单元32的指数计算单元62、第一特征量计算单元63和第二特征量计算单元64与输入信号分析单元31的指数计算单元53、第一特征量计算单元54和第二特征量计算单元55具有相同的功能，并且将省略其详细描述。

<2.音乐识别处理>

接下来，将参考图6的流程图描述音乐搜索设备11的音乐识别处理。当包括要被识别的音乐的输入信号被输入到音乐搜索设备11时，音乐识别处理开始。输入信号在时间上连续地输入到音乐搜索设备11。

在步骤S11中，输入信号分析单元31执行输入信号分析处理以分析从外部装置输入的输入信号，并且从输入信号中提取输入信号的特征量。

[输入信号分析处理的细节]

在此，将参照图7的流程图来描述图6的流程图的步骤S11中的输入信号分析处理的细节。

在步骤S31中，输入信号分析单元31的剪切单元51从输入信号中剪切出与预定时间(例如，15秒)相对应的信号，并且将剪切出的信号提供给时频变换单元52。

在步骤S32中，时频变换单元52使用诸如Hann窗口的窗口函数或者使用离散傅里叶变换(DFT)等，将来自剪切单元51的与预定时间相对应的输入信号变换为谱图，并且将该谱图提供给指数计算单元53。在此，窗口函数不局限于Hann函数，并且可以使用正弦窗口或哈明窗口(Hammingwindow)。此外，本发明不局限于DFT，并且可以使用离散余弦变换(DCT)。此外，变换后的谱图可以是功率谱、振幅谱和对数振幅谱中的任何一个。此外，为了增加频率分辨率，可以通过补零(zero-padding)过采样来将频率变换长度增加为大于窗口的长度(例如，两倍或四倍)。

在步骤S33中，指数计算单元53执行指数计算处理，因而根据来自时频变换单元52的输入信号的谱图计算谱图的每个时频域中的输入信号的音调指数。

[指数计算处理的细节]

在此，将参照图8的流程图描述图7的流程图的步骤S33中的指数计算处理的细节。

在步骤S51中，指数计算单元53的时间段选择单元81在来自时频变换单元32的输入信号的谱图中选择预定时间段(例如，在具有25秒持续时间的输入信号的第一秒期间)的谱图，并且将所选择的谱图提供给峰值检测单元82。

在步骤S52中，峰值检测单元82针对每个时帧(时间区间)而在时间段选择单元81所选择的与一秒相对应的谱图中检测峰值，该峰值是时频域中每个频带上的信号分量的功率谱(强度)为该频带附近最强的那个点。

例如，在图9的上部所示的变换到时频域的输入信号的谱图中，在某一帧的某一频率附近的时频域Γ中检测到图9的下部所示的峰值p。

在步骤S53中，近似处理单元83通过作为预先定义的典型函数的模板函数，对时间段选择单元81所选择的与一秒相对应的谱图上由峰值检测单元82检测到的每个时帧的每个频带的峰值周围的功率谱进行近似。在下文中，该模板函数是二次函数，但不限于二次函数。该模板函数可以是任何其它函数，如三次函数或更高次函数的高维函数或者三角函数。

如上所述，在图9的下侧检测到峰值p。然而，具有峰值的功率谱不局限于在时间方向上稳定的音调(在下文中称为“持续音调”)。由于峰值可以是由诸如噪声、旁瓣、干扰或随时间变化的音调的信号分量所引起的，所以可能无法基于峰值适当地计算出音调指数。此外，由于DFT峰值是离散的，所以峰值频率不一定是真正的峰值频率。

根据Proc.ICMC’87中J.O.SmithIII和X.Serra的文献“PARSHL：Aprogramforanalysis/synthesisofinharmonicsoundsbasedonasinusoidalrepresentation”，可以通过二次函数来对某一时帧中峰值周围的对数功率谱的值进行近似，而与该值是音乐还是人类语音无关。

这样，在本技术中，通过二次函数对每个时帧的每个频带的峰值周围的功率谱进行近似。

此外，在本技术中，在以下假定之下确定峰值是否由持续音调引起。

a)通过经由在时间方向上扩展二次函数而获得的函数来对持续音调进行近似。

b)因为由音乐导致的峰值在时间方向上是持续的，所以对频率随时间的变化进行零阶近似(zero-orderapproximation)(不改变)。

c)需要在一定程度上允许振幅随时间的变化，并且例如通过二次函数来对该变化进行近似。

这样，如图10中所示，通过经由在某一时帧中在时间方向上扩展二次函数而获得的隧道式函数(tunneltypefunction)(四次函数)来对持续音调建模，并且可以由下面关于时间t和频率ω的公式(1)来代表该持续音调。这里，ω_p表示峰值频率。

[公式1]

g(t，ω)＝f(ω-ω_p)²+ct²+dt+e---(1)

这样，通过在所关注的峰值周围基于假定a)至c)应用四次函数(例如通过最小二乘近似)而获得的误差可被用作音调(持续音调)指数。也就是说，下面的公式(2)可被用作误差函数。

[公式2]

J (a, b, c, d, e) = \underset{Γ}{Σ} {(f (k, n) - g (k, n))}^{2} &RightArrow; \min - - - (2)

在公式(2)中，f(k，n)表示第n帧和第k区间的DFT谱，而g(k，n)是与表示持续音调的模型的公式(1)具有相同涵义的函数，并由下面的公式(3)来表示。

[公式3]

g(k，n)＝ak²+bk+cn²+dn+e---(3)

在公式(2)中，Γ表示目标峰值周围的时频域。在时频域Γ中，根据用于时频变换的窗口的数目，将频率方向上的大小确定为不大于由频率变换长度确定的主瓣的样本点的数目。此外，根据定义持续音调所必需的时间长度来确定时间方向上的大小。

回到图8，在步骤S54中，音调度计算单元84基于由近似处理单元83近似的二次函数与由峰值检测单元82检测到的峰值周围的功率谱之间的误差，即公式(2)的误差函数，计算时间段选择单元81所选择的与一秒相对应的谱图上的音调度，该音调度就是音调指数。

在此，由下面的公式(4)表示通过将公式(2)的误差函数应用于平面模型而获得的误差函数，并且此时可以由以下公式(5)来表示音调度η。

[公式4]

J^{,} (e^{,}) = \underset{Γ}{Σ} {(f (k, n) - e^{,})}^{2} &RightArrow; \min - - - (4)

[公式5]

η (k, n) = 1 - \sqrt{J (\hat{a}, \hat{b}, \hat{c}, \hat{d}, \hat{e}) / J^{,} (\overset{^,}{e})} - - - (5)

在公式(5)中，a帽(“^”附加到“a”的字符被称为“a帽”，并且在本公开中使用类似的表示法)、b帽、c帽、d帽和e帽分别是使J(a，b，c，d，e)最小化的a、b、c、d和e，并且e’帽是使J(e’)最小化的e’。

以这种方式，计算出音调度η。

同时，在公式(5)中，a帽代表了表示持续音调的模型的曲线(二次函数)的峰值曲率。

当输入信号的信号分量是正弦波时，理论上，该峰值曲率是由用于时频变换的窗口函数的类型和大小所确定的整数。因此，由于实际获得的峰值曲率a帽的值偏离理论值，所以信号分量是持续音调的可能性被视为降低了。此外，即使峰值具有旁瓣特性，由于改变了所获得的峰值曲率，所以也可以说峰值曲率a帽的偏离影响了音调指数。换句话说，通过根据偏离峰值曲率a帽的理论值的值来调节音调度η，可以获得更适当的音调指数。由下面的公式(6)表示根据偏离峰值曲率a帽的理论值的值而调节的音调度η’。

[公式6]

η^{,} (k, n) = D (\hat{a} - a_{ideal}) η (k, n) - - - (6)

在公式(6)中，值a_idcal是由用于时频变换的窗口函数的类型和大小所确定的峰值曲率的理论值。函数D(x)是具有图11中所示的值的调节函数。根据函数D(x)，随着峰值曲率值与理论值之间的差增加，音调度减小。换句话说，根据公式(6)，音调度η’在不是峰值的元素上是零(0)。函数D(x)不局限于具有图11中所示形状的函数，并且可以使用任何函数，只要随着峰值曲率值与理论值之间的差增加，音调度减小即可。

如上所述，通过根据曲线(二次函数)的峰值曲率来调节音调度，获得更适当的音调度。

同时，由公式(5)中的a帽和b帽给出的值“-(b帽)/2(a帽)表示从离散的峰值频率到真正的峰值频率的偏移。

理论上，真正的峰值频率处于距离离散的峰值频率±0.5区间的位置处。当从离散的峰值频率到真正的峰值频率的偏移值“-(b帽)/2(a帽)”显著不同于所关注的峰值的位置时，用于计算公式(2)的误差函数的匹配不正确的可能性高。换句话说，由于认为这影响音调指数的可靠性，所以可以通过根据偏移值“-(b帽)/2(a帽)”从所关注的峰值的位置(峰值频率)kp的偏离值来调节音调度η，来获得更适当的音调指数。特别地，可以将通过把公式(6)的左手侧乘以如下项而获得的值用作音调度η：在该项中，将“-(b帽)/2(a帽)-kp”赋值给图11中所示的函数D(x)。

可以通过上述技术以外的技术计算音调度η。

特别地，首先，给出通过用二次函数“ak²+bk+c”来代替表示持续音调的模型g(k，n)而获得的以下公式(7)的误差函数，其中二次函数“ak²+bk+c”是通过对公式(2)的误差函数中峰值周围的功率谱的时间平均形状进行近似而获得的。

[公式7]

J (a, b, c) = \underset{Γ}{Σ} {(f (k, n) - ({ak}^{2} + bk + c))}^{2} &RightArrow; \min - - - (7)

接下来，给出通过用二次函数“a’k²+b’k+c’”代替表示持续音调的模型g(k，n)而获得的以下公式(8)的误差函数，其中二次函数“a’k²+b’k+c’”是通过对公式(2)的误差函数中所关注的峰值的第m帧的功率谱的时间平均形状进行近似而获得的。这里，m表示所关注的峰值的帧数目。

[公式8]

J^{,} (a^{,}, b^{,}, c^{,}) = \underset{Γ, n = m}{Σ} {(f (k, n) - (a^{,} k^{2} + b^{,} k + c^{,}))}^{2} &RightArrow; \min - - - (8)

这里，当将公式(7)中使J(a，b，c)最小化的a、b和c分别称为a帽、b帽和c帽并将公式(8)中使J(a’，b’，c’)最小化的a’、b’和c’分别称为a’帽、b’帽和c’帽时，由下面的公式(9)给出音调度η。

[公式9]

η^{,} (k, n) = D_{1} (1 - \frac{\hat{a}}{{\hat{a}}^{,}}) D_{2} {(- \frac{\hat{b}}{2 \overset{^,}{a}}) - (- \frac{\overset{^,}{b}}{2 \overset{^,}{a}})} - - - (9)

在公式(9)中，函数D1(x)和D2(x)是具有图8中所示的值的函数。根据公式(9)，在不是峰值的元素上，音调度η’是零(0)，并且当a帽是零(0)或a’帽是零(0)时，音调度η’是零(0)。

此外，可以通过S形函数等对以上述方式计算出的音调度η执行非线性变换。

回到图8，在步骤S55中，输出单元85保持由音调度计算单元84计算出的与一秒相对应的谱图的音调度，并且确定是否已经对所有时间段(例如，15秒)进行了上述处理。

当在步骤S55中确定没有对所有时间段进行上述处理时，处理返回到步骤S51，并且对下一个时间段(一段)的谱图重复步骤S51至S55的处理。可以对如上所述的具有一秒长度的每个时间段的谱图进行步骤S51至S55的处理，或者，可以进行步骤S51至S55的处理使得作为处理目标的谱图的时间段移位例如0.5秒，并且处理目标的时间段与前一处理目标的时间段部分重叠。

然而，当在步骤S55中确定已经对所有时间段进行了上述处理时，处理前进到步骤S56。

在步骤S56中，输出单元85将通过按时间序列排列所保持的各时间段(每个时间段具有一秒长度)的音调度而获得的矩阵提供(输出)给第一特征量计算单元54和第二特征量计算单元55。然后，处理返回到步骤S33。

图12是用于描述由指数计算单元53计算出的音调指数的示例的图。

如图12中所示，从输入信号的谱图计算出的输入信号的音调指数S具有作为时间方向和频率方向上的元素(在下文中称为“分量”)的音调度。音调指数S中每个四边形(方块)代表在每个时间和每个频率处的分量，并且具有作为音调度的值(尽管未示出)。此外，如图12中所示，音调指数S的时间粒度例如是一秒。

如上所述，从输入信号的谱图计算出的输入信号的音调指数具有每个时间和每个频率处的分量，因此可以作为矩阵来处理。在下文中，将作为矩阵的音调指数适当地称为指数矩阵。

此外，可以不对极低的频带计算音调度，因为包括由诸如嗡嗡的噪声的非音乐信号分量导致的峰值的可能性很高。此外，例如可以不对高于8kHz的高频带计算音调度，因为该频带不是构成音乐的重要元素的可能性很高。此外，甚至当离散的峰值频率中功率谱的值小于诸如-80dB的预定值时，也可以不计算音调度。

回到图7的流程图，在步骤S33之后，在步骤S34中，第一特征量计算单元54基于来自指数计算单元53的音调指数来执行第一特征量计算处理，因而计算出代表输入信号的音乐性的第一特征量。

[第一特征量计算处理的细节]

在此，将参照图13的流程图来描述图7的流程图的步骤S34中的第一特征量计算处理的细节。

在步骤S71中，过滤处理单元91通过例如使用诸如Hann窗口的窗口函数(平滑过滤器)在时间方向上过滤来自指数计算单元53的指数矩阵，来计算音调指数的时间平均量，并且将该时间平均量提供给再采样处理单元92，作为代表输入信号的音乐性的第一特征量。

在步骤S72中，再采样处理单元92在时间方向上对来自过滤处理单元91的第一特征量进行再采样(向下采样)，并且将向下采样的第一特征量提供给二值化处理单元93。

在步骤S73中，二值化处理单元93对来自再采样处理单元92的向下采样的第一特征量进行二值化处理，并且将得到的第一特征量提供给匹配处理单元33。然后，处理返回到步骤S34。

图14示出通过上述处理获得的第一特征量的示例。

在图14中，以从左向右的顺序示出时频域的输入信号、音调指数和第一特征量。当输入信号中包括音乐信号分量时，音调指数中对应的时频域的值增加(示出了持续音调)。在音调指数具有大值(示出了持续音调)的区域中，通过上述第一特征量计算处理示出了具有大值的第一特征量。因此，如图14中所示，第一特征量在与输入信号的音乐信号分量相同的区域中具有值。此外，由于该值被二值化为诸如0和1的值，所以使第一特征量的信息量减少，因而能够以高速度进行后续处理。

用于二值化处理的阈值可以是固定值或者是从每个时帧的平均值等获得的统计值。

此外，在第一特征量计算处理中，可以在频率方向上和时间方向上进行再采样，并且可以进行量化处理代替二值化处理。

回到图7的流程图，在步骤S34之后，在步骤S35中，第二特征量计算单元55基于来自指数计算单元53的音调指数来执行第二特征量计算处理，并且计算出代表输入信号的音乐的特性的第二特征量。

[第二特征量计算处理的细节]

在此，将参照图15的流程图来描述图7的流程图的步骤S35中的第二特征量计算处理的细节。

在步骤S91中，过滤处理单元101通过使用诸如一个周期的正弦窗口的窗口函数(过滤器)在时间方向上过滤来自指数计算单元53的指数矩阵，来计算音调指数的时间平均变化量，并且将该时间平均变化量提供给再采样处理单元102，作为代表输入信号的音乐的特性的第二特征量。

在步骤S92中，再采样处理单元102在时间方向上对来自过滤处理单元101的第二特征量进行再采样(向下采样)，并且将向下采样的第二特征量提供给三值化处理单元103。

在步骤S93中，三值化处理单元103对来自再采样处理单元102的向下采样的第二特征量进行三值化处理，并且将得到的第二特征量提供给匹配处理单元33。然后，处理返回到步骤S35。

图16示出通过上述处理获得的第二特征量的示例。

在图16中，以从左向右的顺序示出时频域的输入信号、音调指数和第二特征量。当在输入信号中包括音乐信号分量时，在音调指数中对应的时频域的值增加(示出了持续音调)。在音调指数具有大值(示出了持续音调)的区域中，通过上述第二特征量计算处理，示出了在音调的上升沿具有大值(正值)而在音调的下降沿具有小值(负值)的第二特征量。因此，如图16中所示，第二特征量在与输入信号的音乐信号分量相同的区域中具有值，并且该值在图16中的区域s1中变为正值并在区域s2中变为负值。此外，由于该值被三值化为诸如-1、0和1的值，所以使第二特征量的信息量减少，因而能够以高速度进行后续处理。

用于三值化处理的阈值可以是固定值或者是从每个时帧的平均值等获得的统计值。

此外，在第二特征量计算处理中，可以在频率方向上和时间方向上进行再采样，并且可以进行量化处理代替三值化处理。

第一特征量和第二特征量在时间方向和频率方向上的粒度变为彼此相等。

回到图7的流程图，在步骤S35之后，处理返回到图6的流程图的步骤S11。

在图6的流程图中，在步骤S11之后，处理前进到步骤S12。在步骤S12中，参考信号分析单元32执行参考信号分析处理以分析从外部装置输入的参考信号，并且提取代表参考信号的特征的特征量。

[参考信号分析处理的细节]

在此，将参照图17的流程图来描述图6的流程图的步骤S12中的参考信号分析处理的细节。

在步骤S111中，参考信号分析单元32的时频变换单元61将输入的参考信号变换为谱图，并且将该谱图提供给指数计算单元62。

在步骤S112中，与指数计算单元53类似，指数计算单元62执行指数计算处理，以根据来自时频变换单元61的参考信号的谱图来针对该谱图的每个时频域计算参考信号的音调指数，并且将计算出的音调指数提供给第一特征量计算单元63和第二特征量计算单元64。

步骤S112的指数计算处理与参照图8的流程图描述的指数计算处理基本相同，因而将省略对它的描述。

在步骤S113中，与第一特征量计算单元54类似，第一特征量计算单元63执行第一特征量计算处理，以基于来自指数计算单元62的音调指数计算代表参考信号的音乐性的第一特征量，并且将该第一特征量提供给匹配处理单元33。

步骤S113的第一特征量计算处理与参照图13的流程图描述的第一特征量计算处理基本相同，因而将省略对它的描述。可以使用任何其它值作为用于该二值化处理的阈值。

在步骤S114中，与第二特征量计算单元55类似，第二特征量计算单元64执行第二特征量计算处理，以基于来自指数计算单元62的音调指数计算代表参考信号的音乐的特性的第二特征量，并且将该第二特征量提供给匹配处理单元33。

步骤S114的第二特征量计算处理与参照图15的流程图描述的第二特征量计算处理基本相同，因而将省略对它的描述。

此时，参考信号分析处理单元32从音乐搜索设备11中的数据库(未示出)中读取代表该参考信号的音乐的属性的音乐属性信息(歌曲名、表演者姓名、歌曲ID等)，并且将该音乐属性信息以与计算出的参考信号的特征量(第一特征量和第二特征量)相关联的形式提供给匹配处理单元33。

此外，在音乐搜索设备11中的数据库(未示出)中可以存储多个参考信号的特征量和音乐属性信息，并且可以由匹配处理单元33来获取这些特征量和音乐属性信息。

在图17的流程图中，在步骤S114之后，处理返回到图6的流程图的步骤S12。

输入信号和参考信号的第一特征量和第二特征量被作为矩阵来处理，并且在时间方向上和频率方向上的粒度彼此相同。

此外，代表音乐的特性的第二特征量不局限于输入信号(参考信号)的音调指数的时间变化量，并且可以使用任何其它评估值。

在图6的流程图中，在步骤S12之后，处理前进到步骤S13。在步骤S13中，匹配处理单元33执行匹配处理，识别包括在输入信号中的音乐，并且输出识别结果。

[匹配处理的细节]

在此，将参照图18的流程图来描述图6的流程图的步骤S13中的匹配处理的细节。

在步骤S131中，屏蔽模式产生单元71基于来自输入信号分析单元31的输入信号的每个时频域的第一特征量和来自参考信号分析单元32的参考信号的每个时频域的第一特征量，产生被用于输入信号的第二特征量与参考信号的第二特征量之间的匹配处理的屏蔽模式，然后将所产生的屏蔽模式提供给相似度计算单元72。

例如，当提供图19的左上部所示的第一特征量S1作为来自输入信号分析单元31的第一特征量并且提供图19的左下部所示的第一特征量A1作为参考信号分析单元32的第一特征量时，屏蔽模式产生单元71产生以如下值作为元素的屏蔽模式W：这些值是通过将第一特征量S1的元素乘以第一特征量A1的元素而获得的。如上所述，产生该屏蔽模式作为权重分布，在该权重分布中，在输入信号和参考信号的谱图中，根据第一特征量对音调指数高的区域进行权重设置，并且屏蔽音调指数低的区域。

在步骤S132中，屏蔽模式产生单元71基于来自输入信号分析单元31的输入信号的每个时频域的第一特征量的元素和来自参考信号分析单元32的参考信号的每个时频域的第一特征量的元素，计算输入信号的第二特征量S1与参考信号的第二特征量A1之间的相似度R1，并且将计算出的相似度R1提供给相似度计算单元72。

在步骤S133中，相似度计算单元72使用来自屏蔽模式产生单元71的屏蔽模式W和第一特征量相似度R1，计算来自输入信号分析单元31的输入信号的第二特征量与来自参考信号分析单元32的参考信号的第二特征量之间的相似度，并且将计算出的相似度提供给比较确定单元73。

在此，将参照图20描述计算输入信号的第二特征量与参考信号的第二特征量之间的相似度的示例。

在图20中，在上部示出参考信号的第二特征量L，在左下部示出输入信号的第二特征量S2，并且在右下部示出屏蔽模式W。如上所述，这些可以作为矩阵来处理。

如图20中所示，参考信号的第二特征量L在时间方向上的分量的数目大于输入信号的第二特征量S2在时间方向上的分量的数目(此外，输入信号的第二特征量S2在时间方向上的分量的数目等于屏蔽模式W在时间方向上的分量的数目)。因此，当计算输入信号的第二特征量与参考信号的第二特征量之间的相似度时，相似度计算单元72从参考信号的第二特征量L中顺序剪切出在时间方向上的分量的数目与输入信号的第二特征量S2相等的部分矩阵A2，同时在时间方向上移位该部分矩阵A2(在图20中的右方向上)(同时给出时间方向上的偏移)，然后计算部分矩阵A2与输入信号的第二特征量S2之间的相似度。在此，当在剪切部分矩阵A2时在时间方向上的偏移为t时，可以由下面的公式(10)和(11)来表示屏蔽模式W和第一特征量相似度R1。

[公式10]

W_f(t+u)＝S1_fuA1_f(t+u)---(10)

[公式11]

R 1 (t) = \frac{Σ {A 1}_{f (t + u)} {S 1}_{fu}}{\sqrt{Σ {A 1}_{f (t + u)}^{2} \cdot Σ {S 1}_{fu}^{2}}} - - - (11)

然后，由以下公式(12)来表示部分矩阵A2与输入信号的第二特征量S2之间的相似度R(t)，该公式(12)使用了公式(10)中所示的屏蔽模式W和公式(11)中所示的第一特征量的相似度R1。

[公式12]

R (t) = \frac{\underset{W_{f (t + u)} &NotEqual; 0}{Σ} W_{f (t + u)} \exp (- α {({A 2}_{f (t + u)} - {S 2}_{fu})}^{2})}{\underset{W_{f (t + u)} &NotEqual; 0}{Σ} W_{f (t + u)}} R 1 (t) - - - (12)

在公式(10)至(12)中，f和u表示参考信号的第二特征量的部分矩阵A2以及输入信号的第二特征量S2和屏蔽模式W的各个矩阵的频率分量和时间分量。换句话说，附有作为附加字符的f和u的A1、S1、W、A2和S2分别表示各个矩阵A1、S1、W、A2和S2中的各个元素。

不需要对每个矩阵的所有元素计算公式(12)中所示的相似度R(t)，而希望对未被屏蔽模式W屏蔽的时频域中的元素(不为零(0)的元素)计算相似度R(t)，从而可抑制计算成本。此外，由于未被屏蔽模式W屏蔽的时频域中的元素的值代表输入信号和参考信号的每个时频域的音乐性，所以可以计算相似度R(t)，使得将大的权重赋予音乐性高(只包括音乐分量)的时频域的元素。也就是说，能够以高准确度计算相似度。此外，当屏蔽模式W的所有元素均为零(0)时，相似度R(t)为零(0)。

以此方式，相似度计算单元72对所有部分矩阵A2(用于剪切所有部分矩阵A2的时间偏移t)计算相似度，并且将最高相似度提供给比较确定单元73，作为输入信号的第二特征量与参考信号的第二特征量之间的相似度。比较确定单元73将来自相似度计算单元72的相似度存储在内部存储区中。

此外，屏蔽模式W不局限于公式(10)中所示的矩阵元素之间的相乘，而可以通过诸如加权几何平均或加权算术平均的任何其它计算来获得。

此外，在矩阵元素之间的计算之后，可以通过S形函数等对屏蔽模式W的各元素进行非线性变换。

此外，不局限于由公式(12)来计算第一特征量相似度R1。例如，可以基于两个矩阵的元素之间的差(如平方误差或绝对误差)来计算第一特征量相似度R1，或者第一特征量相似度R1可以是预定的固定值。

此外，当输入信号和参考信号的第二特征量被三值化时，可以使用如以下公式(13)和(14)中所示的离散函数来计算相似度R(t)。

[公式13]

R (t) = \frac{\underset{W_{f (t + u)} &NotEqual; 0}{Σ} W_{f (t + u)} I ({A 2}_{f (t + u)}, {S 2}_{fu})}{\underset{W_{f (t + u)} &NotEqual; 0}{Σ} W_{f (t + u)}} R 1 (t) - - - (13)

[公式14]

回到图18的流程图，在步骤S134中，相似度计算单元72确定是否已经对与所有时间相对应的输入信号进行了相似度计算处理。

当在步骤S134中确定还没有对与所有时间相对应的输入信号进行相似度计算处理时，处理返回到步骤S131，并且重复步骤S131至S134的处理，直到对与所有时间相对应的输入信号都进行了相似度计算处理为止。

然后，当在步骤S134中确定已经对与所有时间相对应的输入信号进行了相似度计算处理时，处理前进到步骤S135。在步骤S135中，比较确定单元73基于从相似度计算单元72提供的相似度来确定包括在输入信号中的音乐是否与参考信号的音乐相同，并且输出代表参考信号的音乐的属性的音乐属性信息作为识别结果。

特别地，首先，比较确定单元73将从相似度计算单元72提供的并且接着被存储的、与所有时间相对应的输入信号的相似度按时间序列进行排列。

图21示出按时间序列排列的相似度的示例。

在图21中所示的按时间序列排列的相似度当中，比较确定单元73将相似度大于预定阈值THs的段Ts设置为与所有时间相对应的输入信号中的候选段，该候选段包括参考信号的音乐的可能性为高。此外，比较确定单元73指定候选段Ts中最高的相似度Rp。此外，比较确定单元73获得相似度的时间连续性。

在此，将参照图22描述相似度的时间连续性。

如上所述，存储在比较确定单元73中的相似度是与预定时间相对应的特征量(第二特征量)的矩阵S2和参考信号的特征量(第二特征量)L的部分矩阵A2之间的相似度当中最高的相似度。

在此，当对与所有时间相对应的输入信号的所有特征量的矩阵S2计算相似度时，如果一些输入信号中包括参考信号的音乐，那么如图22中所示，认为其间相似度最高的输入信号的特征量的矩阵S2和参考信号的特征量的部分矩阵A2这一对矩阵在时间方向上移位相同时间间隔。因此，比较确定单元73使用其间相似度最高的输入信号的特征量的矩阵S2和参考信号的特征量的部分矩阵A2这一对矩阵在时间方向上以相同间隔移位的量作为相似度的时间连续性的指数。

然后，比较确定单元73基于候选段Ts的长度、最高相似度Rp的值和相似度的时间连续性的指数，使用预定的判别函数来确定包括在输入信号中的音乐是否与参考信号的音乐相同。当确定包括在输入信号中的音乐与参考信号的音乐相同时，比较确定单元73输出代表参考信号的音乐的属性的音乐属性信息作为识别结果。

然而，当确定包括在输入信号中的音乐与参考信号的音乐不同时，比较确定单元73输出代表包括在输入信号中的音乐与参考信号的音乐不同的信息。

根据以上处理，当将音乐与噪声混合的输入信号与仅包括音乐的参考信号相比较时，计算时频域的输入信号和参考信号中的音调指数，计算基于该指数而获得的输入信号的特征量与参考信号的特征量之间的相似度，并且基于该相似度识别输入信号的音乐。由于该音调指数是将功率谱关于时间的稳定性进行量化的指数，所以根据该指数获得的特征量能够可靠地代表音乐性。因此，能够以高准确度计算相似度，并且能够以高准确度从音乐与噪声混合的输入信号中识别出音乐。

此外，使用输入信号的特征量和参考信号的特征量来产生屏蔽模式。因此，与只使用输入信号的特征量产生的屏蔽模式相比，能够通过更可靠地屏蔽输入信号而进行匹配处理。

特别地，在输入信号中包括具有小声音的音乐的情况中，如果使用只根据输入信号的特征量而产生的屏蔽模式，那么当参考信号的音乐中包括该声音时，参考信号的其它音乐会被屏蔽，因而可能尽管输入信号和参考信号是不同的音乐，却确定输入信号与参考信号相同。例如，如果输入信号中包括只有贝斯(低音调)的音乐，那么就可能仅基于参考信号的音乐的贝斯的进展与包括在输入信号中的音乐的贝斯的进展相类似这一事实而确定输入信号与参考信号相同。

因此，在本技术中，基于输入信号的第一特征量和参考信号的第一特征量以及用于产生屏蔽模式的输入信号的第一特征量与参考信号的第一特征量之间的相似度来产生屏蔽模式。因此，基于包括在输入信号和参考信号两者中的声音的特征量进行匹配处理。因此，不仅仅基于包括在输入信号中的声音与包括在参考信号中的声音的一部分相类似这一事实来进行输入信号是否与参考信号相同的确定。因此，能够以高准确度从音乐与噪声混合的输入信号中识别出音乐。

此外，由于使用从频率分量和时间分量的角度获得的特征量进行匹配处理，所以甚至能够以高准确度从如图1中所示的包括了中断时间非常短的对话作为噪声的输入信号中识别出音乐。因此，能够以高准确度识别出诸如戏剧的电视广播中被演员的对话所覆盖的BGM。

在参考图7的流程图描述的音乐识别处理中，在输入信号分析处理和匹配处理之间执行参考信号分析处理。然而，可以在执行匹配处理之前执行参考信号分析处理、可以在执行输入信号分析处理之前执行参考信号分析处理、或者可以与输入信号分析处理并行地执行参考信号分析处理。

本技术不仅可以应用于图2中所示的音乐搜索设备11，而且还可以应用于通过网络(如因特网)发送或接收信息的网络系统。特别地，诸如移动电话的终端装置可被设置有图2的剪切单元51，而服务器可被设置有图2中除剪切单元51以外的配置。在此情况下，服务器可以对经由因特网从终端装置发送来的输入信号进行音乐识别处理。然后，服务器可以将识别结果经由因特网发送到终端装置。终端装置可以通过显示单元等显示从服务器接收到的识别结果。

图23是示出计算机的硬件配置示例的框图。

在该计算机中，CPU(中央处理单元)901、ROM(只读存储器)902和RAM(随机存取存储器)903通过总线904相互连接。

输入和输出接口905连接到总线904。输入和输出接口905还连接到包括键盘、鼠标和麦克风的输入单元906、包括显示器和扬声器的输出单元907、包括硬盘或非易失性存储器的存储单元908、包括网络接口的通信单元909以及用于驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移动介质911的驱动910。

在具有上述配置的计算机中，CPU901通过输入和输出接口905及总线904将存储在存储单元908中的程序加载到RAM903中并执行该程序，从而进行上述系列处理。

由计算机(CPU901)执行的程序是以被记录在作为程序包介质(packagemedium)的可移动介质911如磁盘(包括软盘)、光盘(如CD-ROM(压缩盘只读存储器)和DVD(数字多用功能盘))、磁光盘或半导体存储器上的状态来提供的，或者是通过有线或无线传输介质如局域网、因特网和数字卫星广播来提供的。

通过将可移动介质911安装在驱动910上，可以通过输入和输出接口905将该程序安装到存储单元908中。可以由通信单元909通过有线或无线传输介质接收该程序，并可以将该程序安装存储单元908中。或者，可以将该程序预先安装在ROM902或者存储单元908中。

由计算机执行的该程序可以是根据本公开中描述的过程按时间序列进行处理的程序，或者可以是并行进行处理或者在需要时(如被调用时)进行处理的程序。

本领域技术人员应该理解，可以根据设计要求和其它因素进行各种修改、组合、子组合和替换，只要这些修改、组合、子组合和替换在所附权利要求或其等同的范围内即可。

本申请包含与2011年4月19日提交到日本专利局的日本优先权专利申请JP2011-092987中所公开的主题相关的主题，该日本优先权专利申请的全部内容通过引用合并于此。

Claims

1.一种音乐搜索设备，用于将输入信号与仅包括音乐的参考信号进行比较并识别所述输入信号中的音乐，所述音乐搜索设备包括：

指数计算单元，用于基于变换到时频域的所述输入信号的每个区域的信号分量的强度和通过对所述信号分量的强度进行近似而获得的函数，计算所述信号分量的音调指数；

相似度计算单元，用于计算基于所述指数而获得的所述输入信号的每个区域中的特征量与基于对变换到所述时频域的所述参考信号计算出的指数而获得的所述参考信号的每个区域中的特征量之间的相似度；以及

音乐识别单元，用于基于所述相似度来识别所述输入信号中的音乐，

其中，所述指数计算单元包括：

最大点检测单元，用于从预定时间段的所述输入信号中检测所述信号分量的强度为最大的最大点；以及

近似处理单元，用于通过模板函数对所述最大点附近的所述信号分量的强度进行近似，以及

其中，所述指数计算单元基于所述最大点附近的所述信号分量的强度与所述模板函数之间的误差来计算所述指数。

2.根据权利要求1所述的音乐搜索设备，其中，所述指数计算单元根据所述模板函数的曲率来调节所述指数。

3.根据权利要求1所述的音乐搜索设备，其中，所述指数计算单元根据所述模板函数的最大点的频率来调节所述指数。

4.根据权利要求1所述的音乐搜索设备，进一步包括：

权重分布产生单元，用于基于所述输入信号的每个区域中的第一特征量和所述参考信号的每个区域中的第一特征量来产生所述输入信号和所述参考信号的每个区域上的权重分布，并且计算所述输入信号的每个区域中的第一特征量与所述参考信号的每个区域中的第一特征量之间的第一特征量相似度，

其中，所述相似度计算单元基于所述权重分布的权重和所述第一特征量相似度来计算所述输入信号的每个区域中的第二特征量与所述参考信号的每个区域中的第二特征量之间的相似度。

5.根据权利要求4所述的音乐搜索设备，进一步包括：

第一特征量计算单元，用于计算通过在时间方向上过滤所述指数而获得的所述指数的时间平均量，作为所述第一特征量；以及

第二特征量计算单元，用于计算通过在时间方向上过滤所述指数而获得的所述指数的时间变化量，作为所述第二特征量。

6.一种音乐搜索方法，用于将输入信号与仅包括音乐的参考信号进行比较并识别所述输入信号中的音乐，所述音乐搜索方法包括：

基于变换到时频域的所述输入信号的每个区域的信号分量的强度以及通过对所述信号分量的强度进行近似而获得的函数，计算所述信号分量的音调指数；

计算基于所述指数而获得的所述输入信号的每个区域中的特征量与基于对变换到所述时频域的所述参考信号计算出的指数而获得的所述参考信号的每个区域中的特征量之间的相似度；以及

基于所述相似度识别所述输入信号中的音乐，

其中，计算所述信号分量的所述指数包括：

从预定时间段的所述输入信号中检测所述信号分量的强度为最大的最大点；以及

通过模板函数对所述最大点附近的所述信号分量的强度进行近似，以及

其中，基于所述最大点附近的所述信号分量的强度与所述模板函数之间的误差来计算所述指数。