CN102547521B

CN102547521B - 内容再现设备和方法

Info

Publication number: CN102547521B
Application number: CN201110418202.4A
Authority: CN
Inventors: 角尾衣未留; 松本恭辅; 井上晃
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-12-21
Filing date: 2011-12-14
Publication date: 2016-05-18
Anticipated expiration: 2031-12-14
Also published as: JP2012134715A; US8804976B2; JP5641326B2; CN102547521A; US20120155658A1

Abstract

公开了内容再现设备和方法。一种内容再现设备包括：麦克风，其收集外壳周围环境中的声音；特征量提取器，其提取多个特征量；距离计算器，其计算所提取出的特征量向量与作为音乐信号的波形的特征量预先设定的维度相同的特征量向量之间的向量间距离；判断器，其判断所述麦克风所收集的声音中是否包含音乐；处理器，其对所述麦克风所收集的声音的信号进行处理，以改变所述麦克风所收集的声音的音量或频率特性；以及相加器，其将所述麦克风所收集的声音的信号与所再现的内容的声音的信号相加并输出。

Description

内容再现设备和方法

技术领域

本公开内容涉及一种内容再现设备和方法以及程序，且尤其涉及一种其中在能够一直注意周围环境的声音的同时还可以惬意地听音乐的内容再现设备和方法以及程序。

背景技术

在相关领域中已经研究出将音频信号分类成音乐或声音的技术。

例如，在叠加的声音或背景噪音的音量与音乐等相比很大的情况下，难以对音频信号是音乐还是声音进行分类。因此，提出了如下技术作为音乐节段检测技术，该技术通过对来自输入的音频信号的每个短帧时间周期计算音频特征量向量序列，来计算表示每个帧是否包含音乐的音乐信息评估值，并确定音乐的起始时间和结束时间等(例如日本未审查专利申请公布号2009-8836)。

此外，已提出如下技术，该技术基于由接收声音水平检测器所检测的接收到的声音的水平和由外界声音检测器所检测的外界声音的水平来对可变增益放大器的增益进行控制，以提供在对作为目标的音频信号源等进行接收的同时还能够精确地对周围环境的声音进行接收的耳机(例如日本未审查专利申请公布号2005-295175)。

发明内容

然而，在用户正在使用耳机听音乐的情况下，例如，当音乐正与周围环境的声音一起播放时，如果使周围环境的声音在耳机内听得见，则会感觉其非常吵人。

期望在能够一直注意周围环境的声音的同时能够惬意地听音乐。

根据本公开内容的一个实施例，提供一种内容再现设备，包括：麦克风，其收集外壳周围环境中的声音；特征量提取器，其提取多个特征量作为特征量向量，所述多个特征量向量是从所述麦克风所收集的声音的信号的波形中获得的；距离计算器，其计算如下两个特征量向量之间的向量间距离，所述两个特征量向量分别是所提取出的特征量向量以及作为音乐信号的波形的特征量预先设定的维度相同的特征量向量；判断器，其通过对计算出的距离进行阈值判断，来判断所述麦克风所收集的声音中是否包含音乐；处理器，其对所述麦克风所收集的声音的信号进行处理，以在所述判断器判断出所述麦克风所收集的声音中包含音乐的情况下改变所述麦克风所收集的声音的音量或频率特性；相加器，其将所述麦克风所收集的声音的信号与所再现的内容的声音的信号相加并输出；以及节奏检测器，其检测所述麦克风所收集的声音的节奏，其中，所述判断器基于所述节奏检测器的检测结果对所计算的向量间距离进行加权。

所述特征量提取器可以包括帧分割单元和音频特征量提取单元，所述帧分割单元用于将所述麦克风所收集的声音的信号的波形分割为在时间上具有预定长度的帧，所述音频特征量提取单元用于提取多个类型的特征量。

所述特征量提取器可以将所述麦克风所收集的声音的信号的波形分割为在时间上具有预定长度的帧，所述判断器还在预先设定的多个帧中判断所述麦克风所收集的声音中是否包含音乐，以及所述处理器在所述判断器在预先设定的多个帧中判断出所述麦克风所收集的声音中包含音乐的情况下对所述麦克风所收集的声音的信号进行处理。

所述内容再现设备还可以包括另外的处理器，其可以对所再现的内容的声音的信号进行处理，以在所述判断器判断出所述麦克风所收集的声音中包含音乐的情况下改变所再现的内容的声音的音量或频率特性。

所述节奏检测器可以检测所述麦克风所收集的声音的信号的波形的波峰，可以计算所检测出的波峰在时间上的位置与预先设定的拍子间隔中的拍子在时间上的位置之间的匹配度，并判断所述拍子与所述波峰是否匹配，以及可以保存在单位时间内与所述波峰匹配的拍子的个数。

所述节奏检测器可以判断在比所述单位时间短的预定时间段内所述拍子与所述波峰是否匹配，以及可以基于该判断结果对所述拍子间隔进行更新。

所述内容再现设备还可以包括加权控制器，其根据每单位时间内与所述波峰匹配的拍子的数量来设置加权系数，并用所述距离计算器所计算出的所述向量间距离乘以所述加权系数。

在从所述判断器判断出所述麦克风所收集的声音中包含音乐之后直到判断出所述麦克风所收集的声音中不包含音乐的期间内，所述加权控制器可以根据拍子的数量改变加权系数的值。

根据本公开内容的另一实施例，提供一种内容再现方法，包括：由麦克风收集外壳周围环境中的声音；由特征量提取器提取多个特征量作为特征量向量，所述多个特征量向量是从所述麦克风所收集的声音的信号的波形中获得的；由距离计算器计算如下两个特征量向量之间的向量间距离，所述两个特征量向量分别是所提取出的特征量向量以及作为音乐信号的波形的特征量预先设定的相同维度的特征量向量；由判断器通过对所计算出的距离进行阈值判断，来判断所述麦克风所收集的声音中是否包含音乐；由处理器对所述麦克风所收集的声音的信号进行处理，以在所述判断器判断出所述麦克风所收集的声音中包含音乐的情况下改变所述麦克风所收集的声音的音量或频率特性；由相加器将所述麦克风所收集的声音的信号与所再现的内容的声音的信号相加并输出；以及由节奏检测器检测所述麦克风所收集的声音的节奏，其中，所述判断器基于所述节奏检测器的检测结果对所计算的向量间距离进行加权。

根据本公开内容的又一实施例，提供一种程序，包括使计算机用作内容再现设备，所述内容再现设备包括：麦克风，其收集外壳周围环境中的声音；特征量提取装置，用于提取多个特征量作为特征量向量，所述多个特征量向量是从所述麦克风所收集的声音的信号的波形中获得的；距离计算装置，用于计算如下两个特征量向量之间的向量间距离，所述两个特征量向量分别是所提取出的特征量向量以及作为音乐信号的波形的特征量预先设定的相同维度的特征量向量；判断装置，用于通过对所计算出的距离进行阈值判断，来判断所述麦克风所收集的声音中是否包含音乐；处理装置，用于对所述麦克风所收集的声音的信号进行处理，以在所述判断器判断出所述麦克风所收集的声音中包含音乐的情况下改变所述麦克风所收集的声音的音量或频率特性；以及相加装置，用于将所述麦克风所收集的声音的信号与所再现的内容的声音的信号相加并输出。

根据本公开内容的一个实施例，收集外壳周围环境中的声音；提取多个特征量作为特征量向量，所述多个特征量向量是从所收集的声音的信号的波形中获得的；计算如下两个特征量向量之间的向量间距离，所述两个特征量向量分别是所提取出的特征量向量以及作为音乐信号的波形的特征量预先设定的相同维度的特征量向量；通过对所计算出的距离进行阈值判断，来判断所收集的声音中是否包含音乐；对所收集的声音的信号进行处理，以在判断出所收集的声音中包含音乐的情况下改变所收集的声音的音量或频率特性；以及将所收集的声音的信号与所再现的内容的声音的信号相加并输出。

可以在能够一直注意周围环境的声音的同时惬意地听音乐。

附图说明

图1是示出根据应用了本公开内容的音乐再现设备的一个实施例的配置示例的框图；

图2是示出根据应用了本公开内容的音乐再现设备的一个实施例的另一配置示例的框图；

图3是示出根据应用了本公开内容的音乐再现设备的一个实施例的另一配置示例的框图；

图4是示出引用检测单元的详细配置示例的框图；

图5是描绘图4中的帧分割单元和音频特征量提取单元的处理的图；

图6是描述音乐再现处理的示例的流程图；

图7是描述音乐再现处理的另一示例的流程图；

图8是示出音乐检测单元的不同详细配置示例的框图；

图9是描述节奏检测单元的处理的图；

图10是示出节奏检测单元的详细配置示例的框图；

图11是示出跟踪器的详细配置示例的框图；

图12是描述拍子数量和加权系数的图；

图13是描述拍子数量和加权系数的另一图；

图14是描述评估结果的图，其中通过F度量(F-measure)来评估音乐检测单元对音乐的检测结果；

图15是描述音乐检测处理的不同示例的流程图；

图16是描述节奏检测处理的示例的流程图；以及

图17是示出个人计算机的配置示例的框图。

具体实施方式

下文将参照附图描述本公开内容的实施例。

图1是示出应用了本公开内容实施例的音乐再现设备20的实施例的配置示例的框图。音乐再现设备20可被配置为例如所谓的耳机立体音响装置(headphonestereo)，或者可以简单地被配置为耳机。也就是说，在此描述的音乐再现设备20并不一定本身包括再现音乐内容等功能，而是可以被配置为例如与数字音频播放器等连接的耳机。

附图中示出的音乐再现设备20被配置为包括麦克风21、音乐检测单元22、处理单元23、相加器24、处理单元25和扬声器26。

麦克风21收集周围环境的声音，并输出与所收集的声音对应的信号。在此，所收集的声音例如包括沿用户正在步行的道路行驶的自行车的声音、用户周围环境中的人声、用户逗留的店铺等中作为背景音乐正在播放的音乐等。

音乐检测单元22通过判断从麦克风21输出的信号中是否包括音乐来从周围环境的声音中检测音乐。在此，音乐检测单元22的详细配置将随后描述。

处理单元23基于音乐检测单元22的检测结果来处理从麦克风21输出的信号。处理单元23例如可以执行处理以调节从麦克风21输出的信号的音量，或者可以执行处理以调节从麦克风21输出的信号的频率特性。

处理单元25基于音乐检测单元22的检测结果来处理由再现单元(未示出)所再现的音乐的内容的信号(音乐信号)。处理单元25例如可以执行处理以调节音乐信号的音量，或者可以执行处理以调节音乐信号的频率特性。

在此，可以不设置处理单元25。

相加器24将从处理单元23输出的信号与从处理单元25输出的信号相加，并输出相加所得的信号给扬声器26。

扬声器26输出与输入的信号对应的声音，该声音成为用户的耳朵听得见的声音。

也就是说，使用音乐再现设备20，必要时除了所再现的音乐以外还能够听见周围环境的声音。

也就是说，例如，在正在用耳机听音乐的情况下，由于周围环境的声音不容易听见，所以将周围环境的声音叠加在音乐上以被听见。这样做，希望通过能够注意到人的呼喊或者能够听见车辆移动的声音来提高安全性。

然而，在周围环境中正在播放音乐的情况下，如果该音乐被叠加，则该叠加的音乐与正在再现的内容的音乐形成竞争。因此，音乐检测单元22检测该音乐，以便处理单元23或处理单元25执行改变音量或改变频率特性等的处理，比如执行滤波处理。

如图2中所示，音乐检测单元22至处理单元25可被设置在外壳之内，比如该附图中用虚线示出的耳机。或者，如图3中所示，音乐检测单元22至处理单元25可被设置在外壳之外，比如该附图中用虚线示出的数字音频播放器。

在根据本公开内容的一个实施例中，音乐检测单元包括特征量提取器、距离计算器和判断器。在根据本公开内容的另一实施例中，除了特征量提取器、距离计算器和判断器以外，音乐检测单元还包括节奏检测器。在根据本公开内容的又一实施例当中，除了特征量提取器、距离计算器、判断器和节奏检测器以外，音乐检测单元还包括加权控制器。在根据本公开内容的一个实施例中，特征量提取器包括帧分割单元和音频特征量提取单元。

图4是示出音乐检测单元22的一个详细配置示例的框图。如图中所示，音乐检测单元22被配置为包括帧分割单元41、音频特征量提取单元42以及识别单元43。

帧分割单元41通过将输入信号乘以短时窗函数来将输入信号分割为在时间上具有预定长度的多个帧。此外，通过对从信号中分割出的每个帧执行傅里叶变换来执行频率分析。

在此，短时窗函数可被设置为使得一部分时间段重叠，且例如使用比如汉明窗(Hammingwindow)、汉宁窗(Hannwindow)和布莱克曼窗(Blackmanwindow)等窗函数。

音频特征量提取单元42例如在帧分割单元41执行傅里叶变换之前和之后提取多个类型的特征量。

将参照图5给出进一步的描述。图5是描述帧分割单元41和音频特征量提取单元42的处理的示例的图。在附图的顶部示出的波形61表示图1至图3的麦克风21所收集的声音的信号的波形。

帧分割单元41将波形61分割为在时间上具有预定长度的帧：帧62-1、帧62-2、帧62-3等。

音频特征量提取单元42例如在帧分割单元41执行傅里叶变换之前和之后提取具有小维度的多个类型的特征量。

例如，在傅里叶变换之前提取比如过零率(zerocross)等特征量，而在傅里叶变换之后提取比如Mel频率倒谱系数(MFCC)、频谱质心(spectrumcentroid)、频谱流量(spectrumflux)、衰减截止频率(rolloff)等特征量。

在图5的示例中，从帧62-1中包含的波形中提取出特征量组63-1。类似地，通过从帧62-2中包含的波形中提取出特征量组63-2、从帧62-3中包含的波形中提取出特征量组63-3等，从而提取出多个特征量组。

分别将特征量组63-1、特征量组63-2、特征量组63-3等作为每个帧的特征量提供给识别单元43。

使用预先从音乐信号中提取出的多个特征量向量，识别单元43例如通过具有用于正确答案的标签的普通监督学习，来学习音乐信号的特征量。例如，执行使用高斯混合模型(Gaussianmixturemodel)、k个最近邻分类器(kNNclassifier)、支持向量机(supportvectormachine)等的学习。

从上述学习获得典型特征量向量，该典型特征量向量是具有与例如特征量组63-1、特征量组63-2、特征量组63-3等相同的维度的特征量向量，并且对应于音乐信号。该典型特征量向量可例如获得多个特征量向量，比如与叙事曲(ballade)音乐的信号对应的特征量向量、与摇滚音乐的信号对应的特征量向量等。

识别单元43计算每个帧的特征量向量与上述典型特征量向量之间的距离，将计算出的向量间距离与阈值进行比较，并在向量间距离等于或小于阈值的情况下将与该帧有关的识别标识转变为“开”(ON)。在此，在存在多个典型特征量向量的情况下，计算每个帧的特征量向量与这多个典型特征量向量之间的距离，并在其中任意距离等于或小于阈值的情况下将与这样的帧有关的识别标识转变为“开”。

此外，例如在过去的10个帧的识别标识均为“开”的情况下，识别单元43判断出当前帧是音乐信号的帧。

在此，以上描述的判断方法仅作为示例，还可以通过其他方法来判断帧是否属于音乐信号。

以此方式来检测麦克风21所收集的声音中的音乐。

此外，在音乐检测单元22检测到音乐的情况下，处理单元23执行处理，比如降低从麦克风21输出的信号的音量、通过从麦克风21输出的信号中去除预定频带的信号来改变频率特性等。

这样做，除了能够通过能够注意到人的呼喊或者能够听见车辆的移动来提高安全性以外，例如，甚至在用户周围环境中正在播放音乐时还能避免打扰。

接下来，将参照图6的流程图来描述图1的音乐再现设备20进行的音乐再现处理的示例。

在步骤S21，麦克风21收集周围环境的声音。在此，所收集的声音的信号被输出给音乐检测单元22和处理单元23。

在步骤S22，音乐检测单元22执行音乐检测处理，该处理将在下文参照图7描述。

在步骤S23，处理单元23或处理单元25判断是否检测到音乐。

在步骤S23中判断出检测到音乐的情况下，处理进行到步骤S24，从而处理单元23或处理单元25对输入的信号进行处理。这时，例如执行降低(或增大)音量或者使频率特性被加以限定的滤波处理等。也就是说，与从处理单元23或处理单元25输出的信号对应的声音的音量、频率特性等被设置成不同于通常值的特殊值。

简而言之，在麦克风21所收集的声音中包括音乐的情况下，处理单元23或处理单元25执行使得内容的音乐更容易听取的处理。

另一方面，在步骤S23中判断出没有检测到音乐的情况下，跳过步骤S24的处理。也就是说，处理单元23或处理单元25不对输入的信号进行处理，而是将其原样输出。

在此，相加器24将从处理单元23输出的信号与音乐信号相加并输出。

以此方式来执行音乐再现处理。

接下来，将参照图7描述图6的步骤S22的音乐检测处理的详细示例。

在步骤S41，帧分割单元41通过将输入的信号乘以短时窗函数，来将输入的信号分割为在时间上具有预定长度的多个帧。此外，通过对从信号中分割出的每个帧执行傅里叶变换，来执行频率分析。

在步骤S42，与步骤S41的处理一起，在帧分割单元41执行傅里叶变换之前和之后提取多个类型的特征量。这时，如上文所述，在傅里叶变换之前提取比如过零率等特征量，而在傅里叶变换之后提取Mel频率倒谱系数(MFCC)、频谱质心、频谱流量、衰减截止频率等特征量。

在步骤S43，识别单元43计算由在步骤S42中提取的特征量组成的特征量向量与对应于被预先学习的音乐信号的典型特征量向量之间的距离。

在步骤S44，识别单元43判断在步骤S43中计算出的向量间距离是否等于或小于阈值。在步骤S44中判断出计算出的向量间距离等于或小于阈值的情况下，处理进行至步骤S45。

在步骤S45，识别单元43将与该帧有关的识别标识转变为“开”。

在步骤S46，识别单元43判断过去的例如预定数量的帧(例如10个帧)的识别标识是否为“开”。

在步骤S46中判断出过去的预定数量的帧的识别标识为“开”的情况下，处理进行至步骤S47，从而识别单元43输出音乐检测信号作为识别结果。这样，通知处理单元23或处理单元25已检测到了音乐。

另一方面，在步骤S46中判断出过去的预定数量的帧的识别标识为“关”(OFF)的情况下，跳过步骤S47的处理。

此外，在步骤S44中判断出计算出的向量间距离并不等于或小于阈值的情况下，跳过步骤S45至步骤S47的处理。

以此方式来执行音乐检测处理。

顺便提及，在上文参照图4描述的示例中，音乐是基于对特征量向量的向量间距离的比较的结果来检测的。然而，采用这样的方法，存在不能稳定地检测音乐的情况。

例如，在音乐检测单元22的检测结果变化并在短时间段内不稳定的情况下，当周围环境的声音中包括很多噪音等时，存在检测结果缺乏准确性的可能性。

因此，本公开内容的实施例还提出一种能够更稳定且准确地检测音乐的方法。

图8是示出图1的音乐检测单元22的不同配置示例的框图。在图8中，音乐检测单元22被配置为包括帧分割单元81、音频特征量提取单元82、识别单元83和节奏检测单元84。

由于图8的帧分割单元81、音频特征量提取单元82和识别单元83分别是与图4的帧分割单元41、音频特征量提取单元42和识别单元43相同的功能模块，因此将省略其详细描述。在图8的示例中，与图4的情况不同，设置了节奏检测单元84。

节奏检测单元84基于从麦克风21所收集的声音来检测节奏。此外，例如通过基于节奏检测单元84对节奏的检测结果来对由识别单元83进行的阈值判断的加权进行调节，能够更稳定且准确地检测音乐。

图9是用于描述节奏检测单元的处理的图。在该附图中，横轴是时间，且在区域91中示出了帧分割单元81所分割的多个帧的波形，该波形是麦克风21所收集的声音的信号的波形。

区域91中示出的波形的包络被示出在区域92中。该包络是例如通过使区域91中示出的波形的信号通过低通滤波器而获得的。通过获得该包络，检测该波形的波峰变得容易。

在区域93中，基于包络获得的该波形的波峰被图示为在附图中的竖直方向上延伸的多个条。也就是说，在区域93中示出的多个条在附图中的水平方向上的位置对应于波峰在时间上的位置。

在图9的区域93的下方示出了跟踪器1、跟踪器2、跟踪器3、跟踪器4等的检测结果。

跟踪器1、跟踪器2、跟踪器3、跟踪器4等各自是被设置于节奏检测单元84上的功能模块，并且例如根据节奏(tempo)来设置拍子间隔。在此，在无需单独区分跟踪器1、跟踪器2、跟踪器3、跟踪器4等的情况下，将这些跟踪器简单地称为跟踪器。

例如，预先设定如下比如bpm(beatsperminute，每分钟拍子数)的不同节奏的拍子间隔：bpm＝100用于跟踪器1、bpm＝50用于跟踪器2等。

各个跟踪器中的每个跟踪器均计算设定的拍子间隔与区域93中示出的波峰位置之间的匹配度。在图9中，在附图中的水平方向上的线(该线被示出在其中书写跟踪器1、跟踪器2、跟踪器3、跟踪器4的部分的右边)上的、被在附图中的竖直方向上延伸的多个条图示的、在附图中的水平方向上的位置是由各个跟踪器设定的拍子的位置。

跟踪器1例如设定与条101-1至条101-7示出的位置对应的拍子间隔。跟踪器1基于条101-1与在区域93中示出的波峰的位置之间在时间上的差，来计算这些拍子的位置(拍子位置)与这些波峰的位置(波峰位置)之间的匹配度(波峰匹配度)。例如，在波峰匹配度超过阈值的情况下，判断出由跟踪器1设定的拍子与波峰匹配。在图9的示例中，与波峰匹配的拍子被添加圆圈，例如，在跟踪器1的条101-1、条101-2、条101-4和条101-6处拍子与波峰匹配。

此外，跟踪器1例如对单位时间内与波峰匹配的拍子的数量进行计数，并保存该数量。如果图9中示出的时间是单位时间，则在跟踪器1的情况下有4个拍子与波峰匹配。

在此，例如，在比单位时间短的预定时间段内没有检测到与波峰匹配的拍子的情况下，改变跟踪器1的节奏和执行对拍子间隔的更新。例如，把bpm＝100的节奏变成bpm＝105，以重新设定拍子间隔。或者，对拍子间隔的更新可以通过使跟踪器1的旋律变化来执行。例如，在跟踪器1设定的作为初始值的拍子间隔是摇滚旋律的短拍子间隔的情况下，可以通过把曲调改变成巴萨诺瓦(bossanova)来重新设置长拍子间隔。

对跟踪器2、跟踪器3、跟踪器4等也执行类似的处理。这样，各个跟踪器分别保存了在跟踪器自身设定的拍子间隔中与波峰匹配的拍子的数量(拍子数量)。

节奏检测单元84例如从各个跟踪器的拍子数量中选择最大的拍子数量，并将该数量提供给识别单元83。在这种情况下，识别单元83例如通过将对应于该拍子数量的加权系数乘以上述特征量向量的向量间距离来进行阈值判断。

图10是示出节奏检测单元84的详细配置示例的框图。如该附图中所示，节奏检测单元84被配置为包括包络计算单元121、波峰检测单元122、选择单元123、跟踪器131-1、跟踪器131-2等。在此，图10的跟踪器131-1、跟踪器131-2等对应于图9的跟踪器1、跟踪器2等。

包络计算单元121基于从帧分割单元81输出的帧分割信号的波形来计算包络。因此，例如获得如图9的区域92中所示的包络。

波峰检测单元122基于包络计算单元121所计算的包络来检测波形的波峰。因此，例如获得如图9的区域93中所示的波峰位置。波峰检测单元122的检测结果被提供给跟踪器131-1、跟踪器131-2等。

选择单元123从跟踪器131-1、跟踪器131-2等保存的拍子数量中选出最大拍子数量。

图11是示出图10的跟踪器131的详细配置示例的框图。在此，由于图10的跟踪器131-1、跟着去131-2等分别被类似地配置，因此在此将这样的跟踪器一起称为跟踪器131。

如图11中所示，跟踪器131被配置为包括拍子间隔设置单元151、波峰匹配度计算单元152、拍子间隔更新单元153和拍子数量保存单元154。

拍子间隔设置单元151设置拍子间隔，例如类似上文参照图9所述的条101-1、101-2等。

波峰匹配度计算单元152例如基于如上文参照图9所述的拍子位置与波峰位置在时间上的差来计算波峰匹配度。

例如在预定时间段内没有检测到与波峰匹配的拍子的情况下，拍子间隔更新单元153通过改变节奏、旋律等来重新设置(更新)拍子间隔。

拍子数量保存单元154保存拍子数量，该拍子数量是在单位时间内与波峰匹配的拍子的数量。

以此方式，拍子数量被保存，从而通过对应于所设定的拍子数量的加权系数执行加权。

图12和图13是描述拍子数量与加权系数的图。

图12是描述在从音乐检测单元22没有输出音乐检测信号的情况下(即在没有检测到音乐的情况下)拍子数量与加权系数之间的关系的图。

如该附图中所示，当拍子数量增大时，加权系数的值减小。特别地，当拍子数量超过N时，加权系数的值急剧地减小。例如，当识别单元83在图7的步骤S44的处理中进行阈值判断时，如果用图12中示出的加权系数乘以在步骤S43中计算出的向量间距离，那么，当拍子数量的值增大时，输出音乐检测信号的可能性增大。不过，在拍子数量等于或小于N的情况下，即使拍子数量的值增大，输出音乐检测信号的可能性也不会增大很多。

图13是描述在从音乐检测单元22输出音乐检测信号的情况下(即在检测到音乐的情况下)拍子数量与加权系数之间的关系的图。

如该附图中所示，当拍子数量增大时，加权系数的值减小。特别地，加权系数的值在0和M的拍子数量之间急剧地减小。例如，当识别单元83在图7的步骤S44的处理中进行阈值判断时，如果用图13中示出的加权系数乘以在步骤S43中计算出的向量间距离，那么，当拍子数量的值增大时，输出音乐检测信号的可能性增大。不过，在拍子数量超过M的情况下，即使拍子数量的值小，输出音乐检测信号的可能性也很大。

也就是说，在检测到音乐之前，只要没有检测到某一拍子数量，就将加权系数设置为使得不输出音乐检测信号；而在检测到音乐之后，除非检测到的拍子数量相当少，否则总将加权系数设置为使得输出音乐检测信号。这样，能够更准确和稳定地检测音乐。

以此方式，通过识别单元83基于节奏检测单元84的检测结果执行处理，更准确和稳定地检测音乐成为可能。其原因在于：即使在例如周围环境的声音中包括大噪音的情况下，检测音乐的拍子位置也相对容易。

图14是描述评估结果的图，其中通过F度量(F-measure)来评估音乐检测单元22对音乐的检测结果。该附图中的横轴表示周围环境的声音中的噪声大小的度(SNR，信噪比)，而该附图中的纵轴表示F度量。此外，该附图中通过连接点而形成的具有方形记号的线181表示具有图8中示出的配置的音乐检测单元22的检测结果，而该附图中通过连接点而形成的具有菱形记号的线182表示具有图4中示出的配置的音乐检测单元22的检测结果。

如图14中所示，线182向附图中的右手边急剧地下降，即随着周围环境的声音中的噪音的度变大，F度量减小且整体性能下降。另一方面，线181向附图中的右手边平缓地下降，即即使周围环境的声音中的噪音的度增大，F度量也没有减小很多且整体性能没有下降。

也就是说，可见如果使用图8中示出的配置的音乐检测单元22的话，即使在周围环境的声音中包括大噪音的情况下，也能够更准确和稳定地检测音乐。

接下来，将参照图15的流程图描述在采用图8的配置的情况下图6的步骤S22的音乐检测处理的示例。

由于图15的步骤S81至步骤S83分别是与图7的步骤S41至步骤S43相同的处理，因此省略其详细描述。

在步骤S84，节奏检测单元84执行将在下文参照图16详细描述的节奏检测处理。对周围环境的声音中的节奏的检测因此被执行。

在步骤S85，识别单元83设置加权系数，该加权系数对应于随步骤S84的处理一起输出的拍子数量；并将步骤S83的处理中计算出的向量间距离乘以该加权系数。此时，例如如上文参照图12和图13所述，设置该加权系数并将其乘以向量间距离。

由于图15的步骤S86至步骤S89的处理与图7的步骤S44至步骤S47的处理相同，因此省略其详细描述。

接下来，将参照图16描述图15的步骤S84的节奏检测处理的详细示例。

在步骤S101，包络计算单元121基于从帧分割单元81输出的帧分割信号的波形来计算包络。这样，获得例如图9的区域92中示出的包络。

在步骤S102，波峰检测单元122基于通过步骤S101的处理而计算出的包络来检测波形的波峰。这样，获得例如图9的区域93中示出的波峰位置。波峰检测单元122的检测结果被提供给跟踪器131-1、跟踪器131-2等。因此，步骤S103至步骤S109的处理是同时用各个跟踪器执行的处理。

在步骤S103，拍子间隔设置单元151将拍子间隔设置为例如上文参照图9描述的条101-1、条101-2等。

在步骤S104，波峰匹配度计算单元152基于例如拍子位置与波峰位置之间在时间上的差来计算波峰匹配度。

在步骤S105，波峰匹配度计算单元152例如通过对在步骤S104的处理中计算出的波峰匹配度进行阈值判断来判断波峰位置是否与拍子位置匹配。

在步骤S105中判断出存在匹配的情况下，处理进行至步骤S106。

在步骤S106，拍子数量保存单元154对拍子数量进行计数并保存。

另一方面，当在步骤S105中判断出不存在匹配的情况下，处理进行至步骤S107。

在步骤S107，拍子间隔更新单元153判断例如在预定时间段内是否检测到与波峰匹配的拍子。

在步骤S107中判断出在预定时间段内没有检测到与波峰匹配的拍子的情况下，处理进行至步骤S108。

在步骤S108，拍子间隔更新单元153重新设置(更新)拍子间隔。拍子间隔是通过例如改变节奏、旋律等来更新的。在此，这时清除拍子数量保存单元154所保存的拍子数量。

另一方面，在步骤S107中判断出在预定时间段内检测到与波峰匹配的拍子的情况下，跳过步骤S108的处理。

在步骤S107中判断出在预定时间内检测到与波峰匹配的拍子的情况下，在步骤S108的处理之后或者在步骤S106的处理之后，处理执行至步骤S109。

在步骤S109，判断是否已处理完单位时间的帧，在判断出尚未处理完单位时间的帧的情况下，处理返回步骤S103并再次执行其后的处理。

另一方面，在步骤S109中判断出已处理完单位时间的帧的情况下，处理进行至步骤S110。在步骤S110，选择单元123从由跟踪器131-1、跟踪器131-2等通过步骤S106的处理保存的各个拍子数量中选出最大拍子数量，并将其输出。

节奏检测处理因此被执行。

在此，以上描述的系列处理可由硬件执行，或者可由软件执行。在以上描述的系列处理由软件执行的情况下，从网络或记录介质把对软件进行配置的程序安装到被构建成为专用硬件的计算机上。此外，如图17中所示，把该程序例如安装在通用个人计算机700上，该通用个人计算机700能够通过安装不同类型的程序来执行不同类型的功能。

在图17中，CPU(中央处理单元)701根据来自存储单元708的存储在ROM(只读存储器)702上的程序或从RAM(随机存取存储器)703加载的程序来执行不同类型的处理。用于CPU701执行不同类型的处理等的数据必要时也被存储在RAM703当中。

CPU701、ROM702和RAM703通过总线704彼此连接。此外，输入输出接口705连接至总线704。

由键盘和鼠标等组成的输入单元706、由LCD(液晶显示器)组成的显示器以及由扬声器等组成的输出单元707均连接至输入输出接口705。此外，由硬盘等配置的存储单元708以及由调制解调器、网络接口(比如局域网网卡)等配置的通信单元709连接至输入输出接口705。通信单元709经由包括因特网的网络来执行通信处理。

此外，驱动器710被连接至输入输出接口705，以在必要时将比如磁盘、光盘、光磁盘或半导体存储器的可移动介质711适配至输入输出接口705。此外，必要时将从该可移动介质读取的计算机程序安装至存储单元708。

在以上描述的系列处理由软件执行的情况下，从比如因特网的网络或者由可移动介质711等组成的记录介质安装对软件进行配置的程序。

在此，这样的记录介质可以不仅由图17中示出的作为分布式的以便独立于设备主体传输程序给用户的可移动介质711(可移动介质711包括磁盘(包括软盘(注册商标floppydisk))、光盘(包括CD-ROM(只读光盘)和DVD(数字多功能盘))、光磁盘(包括MD(微型盘)(注册商标Mini-Disc))、半导体存储器等)来配置，而且包括在被构建成为设备主体的状态下预先传输给用户的由其中记录有程序的ROM702配置的记录介质、包含在存储单元708之中的硬盘等。

在此，本说明书中的上述系列处理不仅包括按所述顺序以时间序列执行的处理，还包括不一定以时间序列执行的并行或单独执行的处理。

此外，本公开内容的实施例并不限于以上描述的实施例，且各种修改在不背离本公开内容范围的范围内都是可以的。

本公开内容包含的主题涉及在2010年12月21号递交日本专利局的日本优先权专利申请JP2010-284367中公开的内容，因此通过引用将该申请的整体内容合并于此。

Claims

1.一种内容再现设备，包括：

麦克风，其收集外壳周围环境中的声音；

特征量提取器，其提取多个特征量作为特征量向量，所述多个特征量向量是从所述麦克风所收集的声音的信号的波形中获得的；

距离计算器，其计算如下两个特征量向量之间的向量间距离：所提取出的特征量向量，以及作为音乐信号的波形的特征量预先设定的维度相同的特征量向量；

判断器，其通过对计算出的距离进行阈值判断，来判断所述麦克风所收集的声音中是否包含音乐；

处理器，其对所述麦克风所收集的声音的信号进行处理，以在所述判断器判断出所述麦克风所收集的声音中包含音乐的情况下改变所述麦克风所收集的声音的音量或频率特性；

相加器，其将所述麦克风所收集的声音的信号与所再现的内容的声音的信号相加并输出；以及

节奏检测器，其检测所述麦克风所收集的声音的节奏，

其中，所述判断器基于所述节奏检测器的检测结果对所计算的向量间距离进行加权。

2.根据权利要求1所述的内容再现设备，

其中，所述特征量提取器包括帧分割单元和音频特征量提取单元，所述帧分割单元用于将所述麦克风所收集的声音的信号的波形分割为在时间上具有预定长度的帧，所述音频特征量提取单元用于提取多个类型的特征量。

3.根据权利要求1所述的内容再现设备，

其中，所述特征量提取器将所述麦克风所收集的声音的信号的波形分割为在时间上具有预定长度的帧，

所述判断器还在预先设定的多个帧中判断所述麦克风所收集的声音中是否包含音乐，以及

所述处理器在所述判断器在预先设定的多个帧中判断出所述麦克风所收集的声音中包含音乐的情况下对所述麦克风所收集的声音的信号进行处理。

4.根据权利要求1所述的内容再现设备，还包括：

另外的处理器，其对所再现的内容的声音的信号进行处理，以在所述判断器判断出所述麦克风所收集的声音中包含音乐的情况下改变所再现的内容的声音的音量或频率特性。

5.根据权利要求1所述的内容再现设备，

其中，所述节奏检测器

检测所述麦克风所收集的声音的信号的波形的波峰，

计算所检测出的波峰在时间上的位置与预先设定的拍子间隔中的拍子在时间上的位置之间的匹配度，并判断所述拍子与所述波峰是否匹配，以及

保存在单位时间内与所述波峰匹配的拍子的个数。

6.根据权利要求5所述的内容再现设备，

其中，所述节奏检测器

判断在比所述单位时间短的预定时间段内所述拍子与所述波峰是否匹配，以及

基于该判断结果对所述拍子间隔进行更新。

7.根据权利要求5所述的内容再现设备，还包括：

加权控制器，其根据每单位时间内与所述波峰匹配的拍子的数量来设置加权系数，并用所述距离计算器所计算出的所述向量间距离乘以所述加权系数。

8.根据权利要求7所述的内容再现设备，

其中，在从所述判断器判断出所述麦克风所收集的声音中包含音乐之后直到判断出所述麦克风所收集的声音中不包含音乐的期间内，所述加权控制器根据拍子的数量改变加权系数的值。

9.一种内容再现方法，包括：

由麦克风收集外壳周围环境中的声音；

由特征量提取器提取多个特征量作为特征量向量，所述多个特征量向量是从所述麦克风所收集的声音的信号的波形中获得的；

由距离计算器计算如下两个特征量向量之间的向量间距离：所提取出的特征量向量，以及作为音乐信号的波形的特征量预先设定的相同维度的特征量向量；

由判断器通过对所计算出的距离进行阈值判断，来判断所述麦克风所收集的声音中是否包含音乐；

由处理器对所述麦克风所收集的声音的信号进行处理，以在所述判断器判断出所述麦克风所收集的声音中包含音乐的情况下改变所述麦克风所收集的声音的音量或频率特性；

由相加器将所述麦克风所收集的声音的信号与所再现的内容的声音的信号相加并输出；以及

由节奏检测器检测所述麦克风所收集的声音的节奏，