CN101740027A

CN101740027A - 声音处理装置、声音处理方法及程序

Info

Publication number: CN101740027A
Application number: CN200910209332A
Authority: CN
Inventors: 难波隆一; 安部素嗣; 西口正之
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-11-04
Filing date: 2009-11-04
Publication date: 2010-06-16
Also published as: US8818805B2; JP2010112996A; US20100111329A1

Abstract

本发明公开了声音处理装置、声音处理方法及程序。提供了声音处理装置，包括：输入校正单元，对从第一输入装置输入的第一输入声音的特性与从第二输入装置输入的第二输入声音的特性之间的差别进行校正；声音分离单元，将第二输入声音以及经输入校正单元校正后的第一输入声音分离为多个声音；声音类型估计单元，估计经声音分离单元分离的多个声音的声音类型；混合比率计算单元，根据由声音类型估计单元估计出的声音类型计算每个声音的混合比率；以及声音混合单元，以由混合比率计算单元计算出的混合比率来混合由声音分离单元分离的多个声音。

Description

声音处理装置、声音处理方法及程序

技术领域

本发明涉及声音处理装置、声音处理方法及程序，并且具体地涉及通过将呼叫麦克风用作成像麦克风(imaging microphone)来调节声音的声音处理装置、声音处理方法及程序。

背景技术

近年来，诸如移动电话之类的通信装置越来越多地被装配有成像应用功能。如果通信装置装配有成像功能，则该通信装置装配有呼叫麦克风和成像麦克风。这些麦克风以进行呼叫时呼叫麦克风被使用而在成像期间成像麦克风被使用的方式彼此独立地被使用。

然而，如果在成像期间使用呼叫麦克风以及成像麦克风，则可以提高成像声音的质量。例如，如果成像麦克风是单声道的，则可以新获得诸如利用麦克风之间的空间传输特性的声音源分离之类的质量提高。如果成像麦克风是立体声的，则可以通过进一步的声音源分离来获得通过更精确地确定声音源方向而带来的功能化改进。

例如，可以考虑通过分离源自多个声音源的声音来仅强调呼叫语音的方法。作为强调声音的方法，可以考虑如下方法：将包括多个部分的音乐信号分离为各个部分并且在重新混合经分离的声音之前强调重要部分(例如，日本专利申请早期公开No.2002-236499)。

发明内容

然而，日本专利申请早期公开No.2002-236499是意图用于音乐信号的而不是用于成像声音的技术。还存在如下问题：通常呼叫麦克风的特性与成像麦克风的特性极为不同并且各个麦克风的布置未必被优化用于提高呼叫语音的质量。

本发明是鉴于上面的问题而作出的，并且希望提供能够利用具有不同特性的麦克风分离源自各个声音源的经混合声音并且以所希望比率重新混合经分离声音的新颖的改进的声音处理装置、声音处理方法以及程序。

根据本发明的一个实施例，提供了声音处理装置，包括：输入校正单元，对从第一输入装置输入的第一输入声音的特性与不同于第一输入声音的特性的、从第二输入装置输入的第二输入声音的特性之间的差别进行校正；声音分离单元，将经输入校正单元校正后的第一输入声音以及第二输入声音分离为多个声音；声音类型估计单元，估计经声音分离单元分离的多个声音的声音类型；混合比率计算单元，根据由声音类型估计单元估计出的声音类型计算每个声音的混合比率；以及声音混合单元，以由混合比率计算单元计算出的混合比率来混合由声音分离单元分离的多个声音。

根据上面的配置，从声音处理装置的第一输入装置输入的第一输入声音的特性与从第二输入装置输入的第二输入声音的特性之间的差异被校正。第二输入声音以及输入被校正的第一输入声音被分离为由多个声音源产生的声音，并且经分离的多个声音类型被估计。然后，根据估计出的声音类型计算每个声音的混合比率，并且以该混合比率重新混合每个经分离的声音。然后，从利用重新混合后的经混合声音校正了其特性的第一输入声音中提取呼叫语音。

因此，可以利用第一装置作为第二装置来分离源自各个声音源的混合声音，然后以所希望比率重新混合。此外，在装配有成像装置的声音处理装置进行成像期间，除了利用成像麦克风之外还利用呼叫麦克风在各种情形中所记录的声音可以被连续且舒适地听到，而没有用户的任何音量操作。

第一输入装置可以是呼叫麦克风，并且第二输入装置可以是成像麦克风。

输入校正单元可以向呼叫麦克风和/或成像麦克风的特性不充分的频带设置标志，并且声音分离单元可以不对由输入校正单元设置了标志的频带中的声音进行分离。

输入校正单元可以校正第一输入声音和/或第二输入声音的频率特性和/或动态范围。

输入校正单元可以对第一输入声音和/或第二输入声音执行采样速率转换。

输入校正单元可以校正因A/D转换引起的第一输入声音和第二输入声音之间的延时差异。

可以包括：同一性确定单元，判断经声音分离单元分离的声音在多个块间是否相同；以及记录单元，以块为单位记录经声音分离单元分离的声音。

声音分离单元可以利用声音的统计独立性以及空间传输特性的差异来将输入声音分离为多个声音。

声音分离单元可以利用各声音源的时间-频率分量之间的重叠很少来将输入声音分离为源自特定声音源的声音以及其它声音。

声音类型估计单元可以利用输入声音在离散时间处的幅度信息分布、方向、音量、过零数等来估计输入声音是稳定声音还是不稳定声音。

声音类型估计单元可以估计被估计为不稳定声音的声音是噪声声音还是人发出的语音。

混合比率计算单元可以计算不显著改变由声音类型估计单元估计为稳定声音的声音的音量的混合比率。

混合比率计算单元可以计算降低被声音类型估计单元估计为噪声声音的声音的音量而不降低被估计为人发出的语音的声音的音量的混合比率。

根据本发明的另一实施例，提供了声音处理方法，包括以下步骤：对从第一输入装置输入的第一输入声音的特性与不同于第一输入声音的特性的、从第二输入装置输入的第二输入声音的特性之间的差别进行校正；将经校正的第一输入声音以及第二输入声音分离为多个声音；估计经分离的多个声音的声音类型；根据估计出的声音类型计算每个声音的混合比率；以及以计算出的混合比率来混合经分离的多个声音。

根据本发明的另一实施例，提供了一种用于使得计算机用作声音处理装置的程序，声音处理装置包括：输入校正单元，对从第一输入装置输入的第一输入声音的特性与不同于第一输入声音的特性的、从第二输入装置输入的第二输入声音的特性之间的差别进行校正；声音分离单元，将第二输入声音以及经输入校正单元校正后的第一输入声音分离为多个声音；声音类型估计单元，估计经声音分离单元分离的多个声音的声音类型；混合比率计算单元，根据由声音类型估计单元估计出的声音类型计算每个声音的混合比率；以及声音混合单元，以由混合比率计算单元计算出的混合比率来混合由声音分离单元分离的多个声音。

根据本发明，如上所述，可以利用具有不同特性的麦克风来分离源自各个声音源的混合声音，然后以所希望比率重新混合。

附图说明

图1是示出了根据本发明一个实施例的声音处理装置的功能配置的框图；

图2是图示出根据本实施例由输入校正单元进行的校正的一个示例的示意图；

图3是示出根据本实施例由输入校正单元进行的标志设置处理的流程图；

图4是示出了根据本实施例的声音类型估计单元的配置的功能框图；

图5是示出了基于两个输入声音的相位差估计输入声音的声音源位置的状态的示意图；

图6是示出了基于三个输入声音的相位差估计输入声音的声音源位置的状态的示意图；

图7是示出了基于两个输入声音的音量估计输入声音的声音源位置的状态的示意图；

图8是示出了基于三个输入声音的音量估计输入声音的声音源位置的状态的示意图；

图9是图示出根据本实施例由声音处理装置执行的声音处理方法的流程图。

具体实施方式

下面，将参考附图详细描述本发明的优选实施例。注意，在本说明书和附图中，用相同的标号表示具有基本上相同的功能和结构的结构元件，并且省略对这些结构元件的重复说明。

将以如下所示的顺序来描述“具体实施方式”：

[1]实施例的目的

[2]声音处理处理装置的功能配置

[3]声音处理装置的操作

[1]实施例的目的

首先，将描述实施例的目的。近年来，诸如移动电话之类的通信装置越来越多地被装配有成像应用功能。如果通信装置装配有成像功能，则该通信装置装配有呼叫麦克风和成像麦克风。这些麦克风以进行呼叫时呼叫麦克风被使用而在成像期间成像麦克风被使用的方式彼此独立地被使用。

然而，如果在成像期间使用呼叫麦克风以及成像麦克风，则可以提高成像声音的质量。例如，如果成像麦克风是单声道的，则可以新寻求诸如利用麦克风之间的空间传输特性的声音源分离之类的功能化改进。如果成像麦克风是立体声的，则可以通过进一步的声音源分离来获得通过更精确地确定声音源方向而带来的功能化改进。

然而，存在如下问题：通常呼叫麦克风的特性与成像麦克风的特性极为不同并且各个麦克风的布置未必被优化用于提高呼叫语音的质量。因此，在关注上面的情形的情况下，开发出了根据本发明实施例的声音处理装置10。根据本实施例的声音处理装置10，可以利用呼叫麦克风作为成像麦克风来分离源自各个声音源的经混合声音，然后以所希望比率重新混合。

[2]声音处理装置的功能配置

接下来，将参考图1描述声音处理装置10的功能配置。作为根据本实施例的声音处理装置10，例如可以以具有通信功能和成像功能的移动电话为例。当利用具有通信功能和成像功能等的移动电话摄取图像时，通常源自所希望声音源的声音未以成像装置的操作者所希望的适当音量平衡被记录，这是因为源自所希望声音源的声音被源自其它声音源的声音掩盖。此外，如果在诸如移动或不连续之类的各种情形中记录的声音被再现，则每个所记录的音量水平可能波动较大，从而使得通常难以以固定再现音量舒适地收听声音。然而，根据本实施例中的声音处理装置10，通过除了利用成像麦克风之外还利用呼叫麦克风来检测多个声音源的出现，变得能够自适应地调节声音源之间的音量平衡并且还能够调节多个记录素材的音量水平。

图1是示出本实施例中的声音处理装置10的功能配置的框图。如图1所示，声音处理装置10包括：第一声音记录单元102、输入校正单元104、第二声音记录单元110、声音分离单元112、记录单元114、存储单元116、同一性(identity)确定单元118、混合比率计算单元120、声音类型估计单元122以及声音混合单元124。

第一声音记录单元102具有记录声音并离散地量化所记录声音的功能。第一声音记录单元102是本发明第一输入装置的一个示例，并且例如是呼叫麦克风。第一声音记录单元102包含两个或更多个物理上分离的记录单元(例如，麦克风)。第一声音记录单元102可以包含两个记录单元，一个用于记录左边的声音，另一个用于记录右边的声音。第一声音记录单元102将经离散量化的声音作为输入声音提供给输入校正单元104。第一声音记录单元102可以以预定长度的块为单位将输入声音提供给输入校正单元104。

输入校正单元104具有校正具有不同特性的呼叫麦克风的特性的功能。即，对从作为第一输入装置的呼叫麦克风输入的第一输入声音(呼叫语音)的特性与从作为第二输入装置的成像麦克风输入的第二输入声音(成像期间的声音)的特性之间的差异进行校正。校正输入声音例如是在采样频率与其它麦克风的采样频率不同时执行速率转换，并且在频率特性不同时应用频率特性的逆特性。如果由A/D转换等导致的延时量不同，则可以校正延时量。

这里，将参考图2描述由输入校正单元104进行的校正的一个示例。图2是图示出由输入校正单元104进行的校正的一个示例的示意图。如图2所示，检测器208检测如下间隔(单个声音源处于主导地位的间隔)，在该间隔中，仅呼叫语音主要地被输入作为第二输入装置的成像麦克风中，并且此外足够音量的呼叫语音被输入作为第一输入装置的呼叫麦克风。

这里，假设通过对麦克风之一应用延时来使成像麦克风和呼叫麦克风的相位对齐(align)。此外，例如假设向呼叫麦克风输入和成像麦克风输入应用了动态范围转换和FIR滤波器之后的输出的差异或平方误差被设为评估函数。然后，通过适应性地更新FIR滤波器系数和动态范围转换曲线的倾斜度以使得评估函数最小化，从而使两个麦克风输入的特性对齐。

此时，如果作为校正的结果未获得充分的特性或者麦克风特性原本就不充分，则输入校正单元104可以对适用频带设置标志。可以不在设置了标志的频带上执行由后面所述的声音分离单元112进行的分离处理。

这里，将参考图3描述输入校正单元104进行的标志设置。图3是示出了输入校正单元104进行的标志设置处理的流程图。如图3所示，首先，第一频率块(频率f)被设为0(S102)。

接下来，判断频率f是否是终止频率(S104)。如果在步骤S104频率f是终止频率，则处理终止。如果在步骤S104频率f不是终止频率，则判断特定校正的评估函数是否足够地收敛(S106)。即，判断作为输入校正单元104的校正结果是否获得了充分的特性。

如果在步骤S106判定特定校正的评估函数足够收敛，则标志(Flag)被设为1(S108)。在此情况中，执行声音分离处理。另一方面，如果在步骤S106判定特定校正的评估函数不足够收敛，则标志(Flag)被设为0(S110)。在此情况中，不执行声音分离处理。然后，处理下一频率块(f++)(S112)。

返回图1，第二声音记录单元110具有记录声音并离散地量化所记录声音的功能。第二声音记录单元110是本发明第二输入装置的一个示例，并且例如是成像麦克风。第二声音记录单元110包含两个或更多个物理上分离的记录单元(例如，麦克风)。第二声音记录单元110可以包含两个记录单元，一个用于记录左边的声音，而另一个用于记录右边的声音。第二声音记录单元110将经离散量化的声音作为输入声音提供给声音分离单元112。第二声音记录单元110可以以预定长度的块为单位将输入声音提供给声音分离单元112。

声音分离单元112具有将输入声音分离为源自多个声音源的多个声音的功能。更具体地，利用声音源的统计独立性以及空间传输特性差异来分离由第二声音记录单元110提供的输入声音。如上所述，当输入声音由第二声音记录单元110以预定长度的块为单位来提供时，可以以块为单位来分离声音。

作为通过声音分离单元112分离声音源的具体技术，例如可以使用利用独立分量分析的技术(文章1：Y.Mori，H.Saruwatari，T.Takatani，S.Ukai，K.Shikano，T.Hietaka，T.Morita的Real-Time Implementation of Two-Stage Blind Source Separation Combining SIMO-ICA and Binary Masking，IWAENC2005学报，(2005))。还可以使用利用声音的时间-频率分量之间的重叠很少的技术(文章2：O.Yilmaz和S.Richard的BlindSeparation of Speech Mixtures via Time-Frequency Masking，IEEETRANSACTIONS ON SIGNAL PROCES SING，VOL.52，NO.7，7月(2004))。

如果在较高频率处发生由麦克风的布置引起的空间混叠(spatialaliasing)，则可以利用不发生空间混叠的较低频率处的声音源方向信息以及声音从声音源方向到各个麦克风的路径差异来分离声音。不在被输入校正单元104设置了标志的、具有不充分的特性的前述频带上执行声音分离处理。在此情况下，校正单元104利用基于与设置了标志的频带相邻的频带中的经分离声音获得的声音源方向信息来进行校正。

同一性确定单元118具有如下功能：当声音分离单元112以块为单位将输入声音分离为多个声音时判断分离后的声音在多个块间是否相同。同一性确定单元118例如利用由声音分离单元112提供的经分离声音在离散时间处的幅度信息分布、音量、方向信息等，来判断连续块之间的分离声音是否源自相同声音源。

记录单元114具有以块为单位将经声音分离单元112分离的声音的音量信息记录在存储单元116中的功能。记录在存储单元116中的音量信息例如包括：由同一性确定单元118获取的每个经分离声音的声音类型信息，以及由声音分离单元112获取的经分离声音的平均值、最大值、方差等。除了实时声音之外，还可以记录过去被执行了声音处理的经分离声音的音量平均值。如果在输入声音之前可获得输入声音的音量信息，则可以记录音量信息。

声音类型估计单元122具有估计经声音分离单元112分离的多个声音的声音类型的功能。例如根据从经分离声音的音量以及幅度信息的分布、最大值、平均值、方差、过零数等获得的声音信息，以及方向距离信息来估计声音类型(稳定或不稳定，噪声或声音)。这里，将描述声音类型估计单元122的详细功能。下面将描述声音处理装置10被安装在成像装置中的情况。声音类型估计单元122判断是否包含源自成像装置附近的任何声音，例如成像装置的操作者的语音或操作者的操作产生的噪声。从而，可以估计出产生声音的声音源。

图4是示出声音类型估计单元122的配置的功能框图。声音类型估计单元122包括音量检测单元130、声音质量检测单元138、距离/方向估计器144以及声音估计器146，其中，音量检测单元130包括音量检测器132、平均音量检测器134和最大音量检测器136，声音质量检测单元138包括频谱检测器140和声音质量检测器142。

音量检测器132检测以预定长度的帧(例如，数十msec)给出的输入声音的音量值序列(幅度)，并且将检测到的输入声音的音量值序列输出给平均音量检测器134、最大音量检测器136、声音质量检测器142和距离/方向估计器144。

平均音量检测器134基于从音量检测器132输入的以帧为单位的音量值序列，例如以帧为单位检测输入声音的音量的平均值。平均音量检测器134将检测到的音量平均值输出给声音质量检测器142和声音估计器146。

最大音量检测器136基于从音量检测器132输入的以帧为单位的音量值序列，例如以帧为单位检测输入声音的音量的最大值。最大音量检测器136将检测到的输入声音的音量最大值输出给声音质量检测器142和声音估计器146。

频谱检测器140例如通过对输入声音执行FFT(快速傅立叶变换)来在输入声音的频域中检测各个频谱。频谱检测器140将检测到的频谱输出给声音质量检测器142和距离/方向估计器144。

声音质量检测器142具有输入给它的输入声音、音量的平均值、音量的最大值以及频谱，检测人类语音的相似度、音乐的相似度、稳定性以及输入声音的脉冲特性(impulse property)，然后将检测结果输出到声音估计器146。人类语音的相似度可以是指示出部分还是所有输入声音与人类语音相匹配或者输入声音与人类语音的类似程度的信息。此外，音乐的相似度可以是指示部分还是所有输入声音与音乐相匹配或者输入声音与音乐的类似程度的信息。

稳定性例如指示像空调声音的，声音的统计特性不随着时间显著改变的一种特性。脉冲特性例如指示像吹出的声音或爆破音的，能量集中在较短的时间段中的充满噪声的一种特性。

声音质量检测器142例如可以基于输入声音的频谱分布与人类语音的频谱分布的匹配程度来检测人类语音的相似度。声音质量检测器142还可以通过将各帧的音量的最大值相比较或者与其它帧相比较，来检测音量的最大值增加时的较高脉冲特性。

声音质量检测器142可以利用诸如过零方法和LPC(线性预测编码)分析之类的信号处理技术来分析输入声音的声音质量。根据过零方法，输入声音的基本周期被检测到，因此，声音质量检测器142根据该基本周期是否包含在人类语音的基本周期(例如，100到200Hz)中来检测人类语音的相似度。

距离/方向估计器144具有输入给它的输入声音、输入声音的音量值序列、输入声音的频谱等。距离/方向估计器144具有如下功能：基于输入，作为位置信息计算单元来估计输入声音的声音源，或者诸如产生了输入声音所包含的主导声音的声音源的方向信息和距离信息之类的位置信息。距离/方向估计器144即使在由成像装置的主体引起的声音的回响或反射具有较大影响时，也可以基于过去的平均音量值和最大音量值，通过组合输入声音的相位、音量和音量值序列以及声音源的位置信息估计方法，来总地估计声音源的位置。将参考图5至图8描述距离/方向估计器144对方向信息和距离信息的估计方法的一个示例。

图5是示出了基于两个输入声音的相位差来估计输入声音的声音源位置的状态的示意图。如果假设声音源是点声音源，则可以测量到达构成第二声音记录单元110的麦克风M1和麦克风M2的每个输入声音的相位以及输入声音的相位差。此外，可以根据输入声音的相位差以及频率f和声速c的值来计算从麦克风M1到输入声音的声音源位置的距离与从麦克风M2到输入声音的声音源位置的距离之间的差值。声音源出现在距离差是常数的一组点上。已经知道，距离差是常数的这样一组点形成了双曲线。

例如，假设麦克风M1位于(x1，0)而麦克风M2位于(x2，0)(基于该假设，不失一般性)。如果要确定的一组声音源位置上的点在(x，y)并且距离差为d，则下面所示的公式1成立：

[式1]

\sqrt{{(x - x_{1})}^{2} + y^{2}} - \sqrt{{({x - x}_{2})}^{2} + y^{2}} = d

(公式1)

此外，公式1可被扩展为公式2，从公式2导出表示双曲线的公式3：

[式2]

{(x-x₁)²+2y²+(x-x₂)²-d²}²＝4{(x-x₁)²+y²}{(x-x₂)²+y²}

(公式2)

[式3]

\frac{{(x - \frac{x_{1} + x_{2}}{2})}^{2}}{{(\frac{d}{2})}^{2}} - \frac{y^{2}}{{(\frac{1}{2})}^{2}} = 1

(公式3)

距离/方向估计器144还可以基于由麦克风M1和麦克风M2所记录的输入声音之间的音量差，来确定距离/方向估计器144更接近麦克风M1和麦克风M2中的哪个。因此，例如如图5所示，可以确定声音源出现在更接近麦克风M2的双曲线1上。

顺便提及，用来计算相位差的输入声音的频率f需要满足公式4中的与麦克风M1和麦克风M2之间的距离有关的条件：

[式4]

f < \frac{c}{2 d}

(公式4)

图6是示出了基于三个输入声音间的相位差来估计输入声音的声音源位置的状态的示意图。假设构成了第二声音记录单元110的麦克风M3、麦克风M4和麦克风M5的布置如图6所示。与到达麦克风M3和麦克风M4的输入声音的相位相比，到达麦克风M5的输入声音的相位可能被延时。在此情况中，距离/方向估计器144可以确定声音源位于麦克风M5相对于连接麦克风M3和麦克风M4的直线1的相对侧(前/后确定(front/back determination))。

此外，距离/方向估计器144基于到达麦克风M3和麦克风M4的每个的输入声音的相位差来计算声音源将出现在其上的双曲线2。随后，距离/方向估计器144可以基于到达麦克风M4和麦克风M5的每个的输入声音的相位差来计算声音源将出现在其上的双曲线3。结果，距离/方向估计器144可以估计出双曲线2和双曲线3的交点P1是声音源位置。

图7是示出了基于两个输入声音的音量来估计输入声音的声音源位置的状态的示意图。如果假设声音源是点声音源，则根据平方反比定律(inverse square law)，在一个点处测得的音量与距离的平方成反比。如果假设了如图7所示的构成第二声音记录单元110的麦克风M6和麦克风M7，则到达麦克风M6和麦克风M7的音量的比率为常数的一组点形成圆圈。距离/方向估计器144可以通过根据从音量检测器132输入的音量值来确定音量的比率，从而确定声音源将出现在其上的圆圈的半径和中心位置。

如图7所示，假设麦克风M6位于(x3，0)而麦克风M7位于(x4，0)。在此情况中(基于该假设，不失一般性)，如果要确定的一组声音源位置上的点在(x，y)，则从每个麦克风到声音源的距离r1和r2可以表达为下面的公式5：

[式5]

r_{1} = \sqrt{{({x - x}_{3})}^{2} + y^{2}}

r_{2} = \sqrt{{({x - x}_{4})}^{2} + y^{2}}

(公式5)

这里，由于平方反比定律，下面的公式6成立：

[式6]

(公式6)

利用正常数d(例如，4)将公式6变换为公式7：

[式7]

\frac{r_{2}^{2}}{r_{1}^{2}} = d

(公式7)

通过将r1和r2代入公式7得出了下面的公式8：

[式8]

\frac{{({x - x}_{4})}^{2} + y^{2}}{{({x - x}_{3})}^{2} + y^{2}} = d

{(x - \frac{x_{4} - {dx}_{3}}{1 - d})}^{2} + y^{2} = \frac{d {(x_{4} - x_{3})}^{2}}{{(1 - d)}^{2}}

(公式8)

如图7所示，从公式8，距离/方向估计器144可以估计出声音源出现在圆圈1上，圆圈1的中心坐标用公式9表示并且其半径用公式10表示。

[式9]

(\frac{x_{4} - {dx}_{3}}{1 - d}, 0)

(公式9)

[式10]

| \frac{x_{4} - x_{3}}{1 - d} | \sqrt{d}

(公式10)

图8是示出了基于三个输入声音的音量来估计输入声音的声音源位置的状态的示意图。假设了如图8所示的构成第二声音记录单元110的麦克风M3、麦克风M4和麦克风M5的布置。与到达麦克风M3或麦克风M4的输入声音的相位相比，到达麦克风M5的输入声音的相位可能被延时。在此情况中，距离/方向估计器144可以确定声音源位于相对于连接麦克风M3和麦克风M4的直线2的、麦克风M5的相对侧(前/后确定)。

此外，距离/方向估计器144基于到达麦克风M3和麦克风M4的每个的输入声音的音量比率来计算声音源将出现在其上的圆圈2。随后，距离/方向估计器144可以基于到达麦克风M4和麦克风M5的每个的输入声音的音量比率来计算声音源将出现在其上的圆圈3。结果，距离/方向估计器144可以估计出圆圈2和圆圈3的交点P2是声音源位置。如果使用四个或更多个麦克风，则包括声音源的空间布置，距离/方向估计器144可以进行更精确地估计。

距离/方向估计器144如上所述那样基于输入声音的相位差或音量比率来估计输入声音的声音源的位置，并且将估计出的声音源的方向信息或距离信息输出给声音估计器146。下面的表1列出了上述音量检测单元130、声音质量检测单元138和距离/方向估计器144的每个组件的输入/输出。

[表1]

块	输入	输出
块	输入	输出	音量检测器	输入声音	帧内的音量值序列(幅度)

块	输入	输出
块	输入	输出	平均音量检测器	帧内的音量值序列(幅度)	音量的平均值
最大音量检测器	帧内的音量值序列(幅度)	音量的最大值	平均音量检测器	帧内的音量值序列(幅度)	音量的平均值
最大音量检测器	帧内的音量值序列(幅度)	音量的最大值	频谱检测器	输入声音	频谱
声音质量检测器	输入声音音量的平均值音量的最大值频谱	人类语音的相似度音乐的相似度稳定或不稳定脉冲特性	频谱检测器	输入声音	频谱
声音质量检测器	输入声音音量的平均值音量的最大值频谱	人类语音的相似度音乐的相似度稳定或不稳定脉冲特性	距离/方向估计器	输入声音帧内的音量值序列(幅度)频谱	方向信息距离信息

如果源自多个声音源的声音被叠加在输入声音上，则距离/方向估计器144难以精确地估计出输入声音中所主要包含的声音的声音源位置。然而，距离/方向估计器144可以估计出与输入声音中所主要包含的声音的声音源位置接近的位置。估计出的声音源位置可以用作声音分离单元112进行声音分离的初始值，因此，声音处理装置10即使在距离/方向估计器144估计出的声音源位置存在误差时，也可以执行所希望的操作。

将参考图4继续描述声音类型估计单元122的配置。声音估计器146基于输入声音的音量、声音质量和位置信息中的至少一个，总地判断输入声音中是否包含源自声音处理装置10附近的特定声音源的任何邻近声音，例如操作者的语音或从操作者的操作产生的噪声。如果声音估计器146确定输入声音中包含邻近声音，则声音估计器146具有如下功能：作为声音确定单元来将在输入声音中包含邻近声音的消息(操作者语音出现信息)以及由距离/方向估计器144估计出的位置信息输出到声音分离单元112。

更具体地，如果距离/方向估计器144估计出输入声音的声音源的位置在成像方向上处于对视频成像的成像单元(未示出)之后并且输入声音具有与人类语音的声音质量相匹配或类似的声音质量，则声音估计器146可以确定邻近声音包含在输入声音中。

如果输入声音的声音源的位置在成像方向上处于成像单元之后并且输入声音具有与人类语音的声音质量相匹配或类似的声音质量，则声音估计器146可以确定在输入声音中主要包含操作者的语音作为邻近声音。结果，可从后面所述的声音混合单元124获得降低了操作者语言的声音比率的经混合声音。

声音估计器146使输入声音的声音源的位置在离记录位置设置距离的范围内(声音处理装置10的附近，例如，声音处理装置10的1m内)。如果输入声音包含脉冲声音并且输入声音高于过去的平均音量，则声音估计器146可以确定输入声音包含由特定声音源产生的邻近声音。这里，当成像装置的操作者操作成像装置的按钮或者将成像装置从一只手移到另一只手时，通常会产生诸如“滴答”和“砰”之类的脉冲声音。此外，脉冲声音由装配有声音处理装置10的成像装置产生，因此，很有可能记录较大音量的脉冲声音。

因此，声音估计器146使输入声音的声音源的位置在离记录位置设置距离的范围内。如果输入声音包含脉冲声音并且输入声音高于过去的平均音量，则输入声音可被确定为主要包含从操作者的操作产生的噪声作为邻近声音。结果，可从后面所述的声音混合单元124获得降低了从操作者的操作产生的噪声的声音比率的经混合声音。

另外，表2总结了输入到声音估计器146的信息以及声音估计器146基于输入信息的确定结果的示例。通过组合近程传感器(proximitysensor)、温度传感器等，可以提高声音估计器146的确定精度。

[表2]

返回图1，混合比率计算单元120具有根据由声音类型估计单元122估计出的声音类型计算每个声音的混合比率的功能。例如，利用由声音分离单元112分离的经分离声音、声音类型估计单元122的声音类型信息以及记录在记录单元114中的音量信息来计算降低主导声音的音量的混合比率。

当声音类型更稳定时，也参考输出类型估计单元122的输出信息来计算使得连续块之间的音量信息不会极大地改变的混合比率。当声音类型不稳定(不稳定)并且更可能是噪声时，混合比率计算单元120降低所关注的声音的音量。另一方面，如果声音类型是不稳定的并且更可能是由人发出的语音，则与噪声声音相比，较少地降低所关注的声音的音量。

声音混合单元124具有以混合比率计算单元120提供的混合比率来混合经声音分离单元112分离的多个声音的功能。例如，声音混合单元124可以将声音处理装置10的邻近声音与要记录的声音相混合，以使得邻近声音所占的音量比率低于邻近声音在输入声音中所占的音量比率。因此，如果输入声音的邻近声音的音量不必要地高，则可以获得这样的混合声音，其中，从要记录的声音在输入声音中所占的音量比率起增加要记录的声音在混合声音中所占的音量比率。结果，可以防止要记录的声音被邻近声音埋没。

[3]声音处理装置的操作

在前面已描述了根据本实施例的声音处理装置10的功能配置。接下来，将参考图9描述由声音处理装置10执行的声音处理方法。图9是示出了根据本实施例的由声音处理装置10执行的声音处理方法的处理流程的流程图。如图9所示，首先，声音处理装置10的第一声音记录单元102记录作为第一输入声音的呼叫语音。此外，第二声音记录单元110记录作为第二输入声音的成像期间的声音(S202)。

接下来，判断第一声音是否被输入以及第二声音是否被输入(S204)。如果第一输入声音以及第二输入声音都未被输入，则处理在步骤S204终止。

如果在步骤S204确定第一输入声音被输入，则输入校正单元104校正第一输入声音的特性与第二输入声音的特性之间的差别(S206)。在步骤S206，如果作为校正结果未获得充分的特性或者麦克风特性原本就不充分，则输入校正单元104向适用频带设置一标志(S208)。

接下来，声音分离单元112判断是否向要分离的块的频带设置了标志(S208)。如果在步骤S208确定标志被设置(标志＝1)，则声音分离单元112分离输入声音。在步骤S210，声音分离单元112可以以预定长度的块为单位来分离输入声音。如果在步骤S208确定标志未被设置(标志＝0)，则执行步骤S212中的处理而不分离输入声音。

然后，同一性确定单元118判断在步骤S210中以预定长度的块为单位被分离的第二输入声音在多个块间是否相同(S212)。同一性确定单元118可以利用在步骤S210中分离的以块为单位的声音在离散时间处的幅度信息的分布、音量、方向信息等，来确定同一性。

接下来，声音类型估计单元122计算每块的音量信息(S214)以估计每块的声音类型(S216)。在步骤S216，声音类型估计单元122将声音分离为由操作者发出的语音、对象产生的声音、从操作者的操作产生的噪声、脉冲声音、稳定环境声音等。

接下来，混合比率计算单元120根据在步骤S216中估计出的声音类型来计算每个声音的混合比率(S218)。混合比率计算单元120基于在步骤S214中计算出的音量信息以及在步骤S216中计算出的声音类型信息来计算减小主导声音的音量的混合比率。

然后，利用在步骤S218中计算出的每个声音的混合比率来混合在步骤S210中分离的多个声音(S220)。在前面，已描述了由声音处理装置10执行的声音分离方法。

根据上面的实施例，如上所述，从声音处理装置10的呼叫麦克风输入的第一输入声音的特性与从成像麦克风输入的第二输入声音的特性之间的差异被校正。输入被校正的第一输入声音以及第二输入声音被分离为由多个声音源产生的声音，并且多个经分离的声音类型被估计。然后，根据估计出的声音类型计算每个声音的混合比率，并且以混合比率重新混合每个经分离的声音。然后，从利用重新混合后的经混合声音校正了其特性的第一输入声音中提取呼叫语音。

因此，可以利用呼叫麦克风作为成像麦克风分离源自各个声音源的混合声音，然后以所希望比率重新混合。此外，在装配有成像装置的声音处理装置10进行成像期间，除了利用成像麦克风之外还利用呼叫麦克风在各种情形中所记录的声音可以被连续且舒适地听到，而没有用户的任何音量操作。此外，在记录期间可以独立地调节主要的各个声音源的音量。另外，通过在成像期间额外地使用呼叫麦克风，当所希望的呼叫语音被音量高于所希望声音的音量的声音掩盖而使得难以听见时，可以防止通过记录应用记录的声音中的所希望声音不能被听见。此外，可以利用比以前更少数目的麦克风从以用户所希望的音量自动被重新混合的多个声音源的经混合声音中提取出各个声音源。

本领域的技术人员应当明白，可以根据设计要求和其它因素进行各种修改、组合、子组合和变更，只要它们在所附权利要求或其等同物的范围之内。

本申请包含与2008年11月4日向日本专利局提交的日本优先专利申请JP 2008-283069中公开的主题有关的主题，该申请的全部内容通过引用而结合于此。

Claims

1.一种声音处理装置，包括：

输入校正单元，对从第一输入装置输入的第一输入声音的特性与不同于所述第一输入声音的特性的、从第二输入装置输入的第二输入声音的特性之间的差别进行校正；

声音分离单元，将所述第二输入声音以及经所述输入校正单元校正后的第一输入声音分离为多个声音；

声音类型估计单元，估计经所述声音分离单元分离的多个声音的声音类型；

混合比率计算单元，根据由所述声音类型估计单元估计出的声音类型计算每个声音的混合比率；以及

声音混合单元，以由所述混合比率计算单元计算出的混合比率来混合由所述声音分离单元分离的多个声音。

2.根据权利要求1所述的声音处理装置，其中，所述第一输入装置是呼叫麦克风，并且所述第二输入装置是成像麦克风。

3.根据权利要求2所述的声音处理装置，其中，所述输入校正单元向呼叫麦克风和/或成像麦克风的特性不充分的频带设置标志，并且

所述声音分离单元不对由所述输入校正单元设置了标志的频带中的声音进行分离。

4.根据权利要求1所述的声音处理装置，其中，所述输入校正单元校正所述第一输入声音和/或第二输入声音的频率特性和/或动态范围。

5.根据权利要求1所述的声音处理装置，其中，所述输入校正单元对所述第一输入声音和/或第二输入声音执行采样速率转换。

6.根据权利要求1所述的声音处理装置，其中，所述输入校正单元校正因A/D转换引起的所述第一输入声音和所述第二输入声音之间的延时差异。

7.根据权利要求1所述的声音处理装置，其中

所述声音分离单元以块为单位将输入声音分离为多个声音，包括：

同一性确定单元，判断经所述声音分离单元分离的声音在多个块间是否相同；以及

记录单元，以块为单位记录经所述声音分离单元分离的声音。

8.根据权利要求1所述的声音处理装置，其中，所述声音分离单元利用声音的统计独立性以及空间传输特性的差异来将输入声音分离为多个声音。

9.根据权利要求1所述的声音处理装置，其中，所述声音分离单元利用各声音源的时间-频率分量之间的重叠很少来将输入声音分离为源自特定声音源的声音以及其它声音。

10.根据权利要求1所述的声音处理装置，其中，所述声音类型估计单元利用输入声音在离散时间处的幅度信息分布、方向、音量、过零数等来估计输入声音是稳定声音还是不稳定声音。

11.根据权利要求10所述的声音处理装置，其中，所述声音类型估计单元估计被估计为不稳定声音的声音是噪声声音还是人发出的语音。

12.根据权利要求10所述的声音处理装置，其中，所述混合比率计算单元计算不显著改变由所述声音类型估计单元估计为稳定声音的声音的音量的混合比率。

13.根据权利要求11所述的声音处理装置，其中，所述混合比率计算单元计算降低被所述声音类型估计单元估计为噪声声音的声音的音量而不降低被估计为人发出的语音的声音的音量的混合比率。

14.一种声音处理方法，包括以下步骤：

对从第一输入装置输入的第一输入声音的特性与不同于所述第一输入声音的特性的、从第二输入装置输入的第二输入声音的特性之间的差别进行校正；

将所述第二输入声音以及经校正的第一输入声音分离为多个声音；

估计经分离的多个声音的声音类型；

根据估计出的声音类型计算每个声音的混合比率；以及

以计算出的混合比率来混合经分离的多个声音。

15.一种用于使得计算机用作声音处理装置的程序，所述声音处理装置包括：