CN101740038B

CN101740038B - 声音处理装置、声音处理方法

Info

Publication number: CN101740038B
Application number: CN200910209328.3A
Authority: CN
Inventors: 难波隆一; 安部素嗣; 西口正之
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-11-04
Filing date: 2009-11-04
Publication date: 2013-07-10
Anticipated expiration: 2029-11-04
Also published as: US20100111313A1; JP4952698B2; JP2010112994A; US8996367B2; CN101740038A

Abstract

本发明公开了一种声音处理装置、声音处理方法及程序。提供了一种声音处理装置，包括：声音分离单元，将输入声音分离为由多个声源产生的多个声音；声音类型估计单元，估计经声音分离单元分离的多个声音的声音类型；混合比计算单元，根据由声音类型估计单元估计出的声音类型计算每个声音的混合比；以及声音混合单元，以由混合比计算单元计算出的混合比来混合经声音分离单元分离的多个声音。

Description

声音处理装置、声音处理方法

技术领域

本发明涉及声音处理装置、声音处理方法及程序，并且更具体地涉及对基于输入声音特性而分离的声音进行重新混合的声音处理装置、声音处理方法及程序。

背景技术

通话语音、拍摄对象的声音等通常是由诸如移动电话和摄录像机之类的装配有能够记录声音的声音记录装置的设备来记录的。记录在声音记录装置中的声音具有源自各种声源的声音，包括人发出的语音以及混合在其中的环境噪声。如果源自各种声源的声音被混合并且源自所希望声源的声音比源自其它声源的声音相对低地被记录，则存在的问题在于难以确定所希望声音的内容。

因此，已公开了如下技术：对源自各种声源的声音在其中被混合的经混合声音进行分离，并且随后以所希望的音量重新混合每个经分离的声音(例如，日本专利申请早期公开No.2003-131686以及日本专利申请早期公开No.5-56007)。根据日本专利申请早期公开No.2003-131686，预先学习表示语音的相似度或音乐的相似度的特性数据并且针对旁白信号被叠加在其上的音乐信号估计出语音信号对音乐信号的混合比，以能够强调所希望的语音。根据日本专利申请早期公开No.5-56007，被预先添加了用于将广播语音分离为语音信号和背景噪声的额外信息的广播语音在被接收之后被分离为语音信号和背景噪声，以使得可以以所希望的音量重新混合语音信号。

发明内容

然而，日本专利申请早期公开No.2003-131686存在的问题在于难以在不预先学习的情况下来分离经混合的声音。日本专利申请早期公开No.5-56007存在的问题在于难以在不预先添加信息的情况下以所希望的比率重新混合语音。

本发明是鉴于上面的问题作出的，并且希望提供能够在不用预先学习的情况下分离源自各种声源的经混合声音并以所希望比率重新混合的新颖的经改进声音处理装置、声音处理方法以及程序。

根据本发明的一个实施例，提供了一种声音处理装置，包括：声音分离单元，将输入声音分离为由多个声源产生的多个声音；声音类型估计单元，估计经声音分离单元分离的多个声音的声音类型；混合比计算单元，根据由声音类型估计单元估计出的声音类型计算每个声音的混合比；以及声音混合单元，以由混合比计算单元计算出的混合比来混合经声音分离单元分离的多个声音。

根据上面的配置，输入到声音处理装置的输入声音被分离为由多个声源产生的声音，并且多个经分离声音的类型被估计。然后，根据估计出的声音类型计算每个声音的混合比，并且以该混合比重新混合每个经分离的声音。因此，通过分离源自各个声源的经混合声音并以所希望比率重新混合各个经分离的声音，变得能够独立地控制源自不同声源的声音。可以防止所希望声音因被音量高于所希望声音的音量的声音掩盖而难以被听见。而且，可以将源自各个声源的音量调节为所希望音量，而无需针对每个不同声源布置麦克风等。

声音分离单元可以以预定长度的块为单位将输入声音分离为多个声音，包括：相同性确定单元，判断经声音分离单元分离的声音在多个块间是否相同；以及记录单元，以块为单位记录经声音分离单元分离的声音的音量信息。

声音分离单元可以利用声音的统计独立性以及空间传输特性的差异来将输入声音分离为多个声音。

声音分离单元可以利用声源的时间频率成分之间的少量重叠(apaucity of overlapping)，来将输入声音分离为源自特定声源的声音以及其它声音。

声音类型估计单元可以利用输入声音的离散时间处的幅度信息分布、方向、音量、过零数等来估计输入声音是稳定声音还是不稳定声音。

声音类型估计单元可以对被估计为不稳定声音的声音是噪声声音还是人发出的语音进行估计。

混合比计算单元可以计算出不会显著改变被声音类型估计单元估计为稳定声音的声音的音量的混合比。

混合比计算单元可以计算出使被声音类型估计单元估计为噪声声音的声音的音量降低而不使被估计为人发出的语音的声音的音量降低的混合比。

根据本发明的另一实施例，提供了一种声音处理方法，包括以下步骤：将由声音处理装置输入的输入声音分离为多个声音；估计多个经分离声音的声音类型；根据估计出的声音类型计算每个声音的混合比；以及以计算出的混合比来混合多个经分离声音。

根据本发明的另一实施例，提供了一种使得计算机用作声音处理装置的程序，所述声音处理装置包括：声音分离单元，将输入声音分离为多个声音；声音类型估计单元，估计经声音分离单元分离的多个声音的声音类型；混合比计算单元，根据由声音类型估计单元估计出的声音类型计算每个声音的混合比；以及声音混合单元，以由混合比计算单元计算出的混合比来混合由声音分离单元分离的多个声音。

根据本发明，如上所述，源自各种声源的经混合声音可以被分离，并且随后以所希望比率被重新混合而不用执行预处理。

附图说明

图1是示出根据本发明实施例的声音处理装置的功能配置的框图；

图2是示出根据本实施例的声音类型估计单元的配置的功能框图；

图3是示出基于两个输入声音的相位差来估计输入声音的声源位置的状态的示意图；

图4是示出基于三个输入声音的相位差来估计输入声音的声源位置的状态的示意图；

图5是示出基于两个输入声音的音量来估计输入声音的声源位置的状态的示意图；

图6是示出基于三个输入声音的音量来估计输入声音的声源位置的状态的示意图；

图7是图示出根据本实施例的微调降低比率的状态的示意图；以及

图8是示出根据本实施例由声音处理装置执行的声音处理方法的处理流程的流程图。

具体实施方式

下面，将参考附图详细描述本发明的优选实施例。注意，在本说明书和附图中，用相同的标号表示具有基本上相同的功能和结构的结构元件，并且省略对这些结构元件的重复说明。

将以如下所示的顺序来描述“具体实施方式”：

[1]实施例的目的

[2]声音处理装置的功能配置

[3]声音处理装置的操作

[1]实施例的目的

首先，将描述本发明实施例的目的。通话语音、拍摄对象的声音等通常是由诸如移动电话和摄录像机之类的装配有能够记录声音的声音记录装置的设备来记录的。记录在声音记录装置中的声音具有源自各种声源的声音，包括人发出的语音以及混合在其中的环境噪声。如果源自各种声源的声音被混合并且源自所希望声源的声音比源自其它声源的声音相对低地被记录，则存在的问题在于难以确定所希望声音的内容。

因此，已公开了如下技术：对源自各种声源的声音在其中被混合的经混合声音进行分离，并且随后以所希望的音量重新混合每个经分离的声音。例如已知了如下技术：预先学习表示语音的相似度或音乐的相似度的特性数据并且针对旁白信号被叠加在其上的音乐信号来估计出语音信号对音乐信号的混合比，以能够强调所希望的语音。此外，已知了如下技术：被预先添加了用于将广播语音分离为语音信号和背景噪声的额外信息的广播语音在被接收之后被分离为语音信号和背景噪声，以使得可以以所希望的音量重新混合语音信号。

然而，在相关技术中，存在的问题在于难以在不预先学习或不预先添加信息的情况下分离经混合的声音或以所希望比率重新混合声音。即，由于与实时输入的声音或广播声音不同，难以针对个人拍摄的内容等进行预先学习或预先添加信息，因此，难以获取所希望的声音。因此，鉴于所关注的上述情形，开发出了根据本发明实施例的声音处理装置10。根据本实施例中的声音处理装置10，源自各种声源的经混合声音可以被分离并且随后以所希望比率被重新混合而不用执行预处理。

[2]声音处理装置的功能配置

接下来，将参考图1描述声音处理装置10的功能配置。如上所述，根据本实施例的声音处理装置10可以分离源自各种声源的经混合声音，并且随后以所希望比率进行重新混合而不用执行预处理。作为声音处理装置10，例如，可以以安装在成像装置中的声音记录/再现装置为例。

为了利用安装在成像装置中的声音处理装置来记录声音信号，源自所希望声源的声音可能因为被源自其它声源的声音掩盖所以未以成像装置的操作者所希望的适当音量平衡被记录。此外，如果在多种情形中记录的声音被再现，则记录水平可能波动较大，所以通常难以以固定再现音量舒适地收听声音。然而，根据本实施例中的声音处理装置10，通过以固定再现音量来记录声音，变得能够以操作者所希望的适当音量平衡来记录源自所希望声源的声音或舒适地收听声音。

图1是示出根据本实施例的声音处理装置10的功能配置的框图。如图1所示，声音处理装置10包括：声音记录单元110、声音分离单元112、记录单元114、存储单元116、相同性确定单元118、混合比计算单元120、声音类型估计单元122以及声音混合单元124。

声音记录单元110记录声音并离散地量化所记录的声音。声音记录单元110包含两个或更多个实体上分离的记录单元(例如，麦克风)。声音记录单元110可以包含两个记录单元，一个记录单元用于记录左边的声音，而另一个记录单元用于记录右边的声音。声音记录单元110将经离散量化的声音作为输入声音提供给声音分离单元112。声音记录单元110可以以预定长度的块为单位将输入声音提供给声音分离单元112。

声音分离单元112具有将输入声音分离为源自多个声源的多个声音的功能。更具体地，利用声源的统计独立性以及空间传输特性差异来分离由声音记录单元110提供的输入声音。如上所述，当以预定长度的块为单位从声音记录单元110来提供输入声音时，可以以块为单位来分离声音。

作为通过声音分离单元112分离声源的具体技术，例如可以使用利用独立成分分析的技术(文章1：Y.Mori，H.Saruwatari，T.Takatani，S.Ukai，K.Shikano，T.Hietaka，T.Morita的Real-Time Implementation of Two-StageBlind Source Separation Combining SIMO-ICA and Binary Masking，IWAENC2005学报，(2005))。还可以使用利用声音的时间-频率成分之间的少量重叠的技术(文章2：0.Yilmaz和S.Richard的BlindSeparation of Speech Mixtures via Time-Frequency Masking，IEEETRANSACTIONS ON SIGNAL PROCESSING，VOL.52，NO.7，7月(2004))。

相同性确定单元118具有如下功能：当声音分离单元112以块为单位将输入声音分离为多个声音时，判断分离后的声音在多个块间是否相同。相同性确定单元118例如利用由声音分离单元112提供的经分离声音在离散时间处的幅度信息分布、音量、方向信息等，来判断连续块之间的分离声音是否源自相同声源。

记录单元114具有以块为单位将经声音分离单元分离的声音的音量信息记录在存储单元116中的功能。记录在存储单元116中的音量信息例如包括：由相同性确定单元118获取的每个经分离声音的声音类型信息，以及由声音分离单元112获取的经分离声音的平均值、最大值、方差等。除了实时声音之外，还可以记录过去被执行了声音处理的经分离声音的音量平均值。如果在输入声音之前可获得该输入声音的音量信息，则可以记录音量信息。

声音类型估计单元122具有估计经声音分离单元112分离的多个声音的声音类型的功能。例如根据从经分离声音的音量以及幅度信息的分布、最大值、平均值、方差、过零数等获得的声音信息以及方向距离信息，来估计声音类型(稳定或不稳定，噪声或声音)。这里，将描述声音类型估计单元122的详细功能。下面将描述声音处理装置10被安装在成像装置中的情况。声音类型估计单元122判断源自成像装置附近的任何声音，例如成像装置的操作者的语音或操作者的操作产生的噪声是否被包含。从而，可以估计出产生声音的声源。

图2是示出声音类型估计单元122的配置的功能框图。声音类型估计单元122包括音量检测单元130、声音质量检测单元138、距离/方向估计器144以及声音估计器146，其中，音量检测单元130包括音量检测器132、平均音量检测器134和最大音量检测器136，声音质量检测单元138包括频谱检测器140和声音质量检测器142。

音量检测器132检测以预定长度的帧(例如，数十msec)给出的输入声音的音量值序列(幅度)，并且将检测到的输入声音的音量值序列输出给平均音量检测器134、最大音量检测器136、声音质量检测器142和距离/方向估计器144。

平均音量检测器134基于从音量检测器132输入的以帧为单位的音量值序列，例如以帧为单位检测输入声音的音量的平均值。平均音量检测器134将检测到的音量平均值输出给声音质量检测器142和声音估计器146。

最大音量检测器136基于从音量检测器132输入的以帧为单位的音量值序列，例如以帧为单位检测输入声音的音量的最大值。最大音量检测器136将检测到的输入声音的音量最大值输出给声音质量检测器142和声音估计器146。

频谱检测器140例如通过对输入声音执行FFT(快速傅立叶变换)来检测在输入声音的频域中的各个频谱。频谱检测器140将检测到的频谱输出给声音质量检测器142和距离/方向估计器144。

声音质量检测器142具有输入给它的输入声音、音量的平均值、音量的最大值以及频谱，检测人类语音的相似度、音乐的相似度、稳定性以及输入声音的脉冲特性(impulse property)，然后将检测结果输出到声音估计器146。人类语音的相似度可以是指示出部分还是所有输入声音与人类语音相匹配或者输入声音与人类语音的类似程度的信息。此外，音乐的相似度可以是指示部分还是所有输入声音与音乐相匹配或者输入声音与音乐的类似程度的信息。

稳定性例如指示像空调声音的，声音的统计特性不随时间显著改变的一种特性。脉冲特性例如指示像吹出的声音或爆破音的，能量集中在较短的时间段中的充满噪声的一种特性。

声音质量检测器142例如可以基于输入声音的频谱分布与人类语音的频谱分布的匹配程度来检测人类语音的相似度。声音质量检测器142还可以通过将各帧的音量的最大值相比较或者与其它帧相比较，来检测音量的最大值增加时的较高脉冲特性。

声音质量检测器142可以利用诸如过零方法和LPC(线性预测编码)分析之类的信号处理技术来分析输入声音的声音质量。根据过零方法，输入声音的基本周期被检测到，因此，声音质量检测器142可以根据该基本周期是否包含在人类语音的基本周期(例如，100到200Hz)中来检测人类语音的相似度。

距离/方向估计器144具有输入给它的输入声音、输入声音的音量值序列、输入声音的频谱等。距离/方向估计器144具有如下功能：基于输入，作为位置信息计算单元来估计输入声音的声源，或者诸如产生了输入声音所包含的主导声音的声源的方向信息和距离信息之类的位置信息。距离/方向估计器144通过将输入声音的相位、音量和音量值序列与基于过去的平均音量值和最大音量值的声源位置信息估计方法相结合，即使在由成像装置的主体引起的声音的回响或反射具有较大影响时，也可以总地估计出声源的位置。将参考图3至图6描述距离/方向估计器144对方向信息和距离信息的估计方法的一个示例。

图3是示出了基于两个输入声音的相位差来估计输入声音的声源位置的状态的示意图。如果假设声源是点声源，则可以测量到达构成声音记录单元110的麦克风M1和麦克风M2的每个输入声音的相位以及输入声音的相位差。此外，可以根据输入声音的相位差以及频率f和声速c的值来计算从麦克风M1到输入声音的声源位置的距离与从麦克风M2到输入声音的声源位置的距离之间的差值。声源出现在距离差是常数的一组点上。已经知道，距离差是常数的这样一组点形成了双曲线。

例如，假设麦克风M1位于(x1，0)而麦克风M2位于(x2，0)(基于该假设，不失一般性)。如果要确定的一组声源位置上的点在(x，y)处并且距离差为d，则下面所示的公式1成立：

[式1]

\sqrt{{(x - x_{1})}^{2} + y^{2}} - \sqrt{{(x - x_{2})}^{2} + y^{2}} = d

(公式1)

此外，公式1可被扩展为公式2，从公式2导出表示双曲线的公式3：

[式2]

{(x-x₁)²+2y²+(x-x₂)²-d²}²＝4{(x-x₁)²+y²}{(x-x₂)²+y²}

(公式2)

[式3]

\frac{{(x - \frac{x_{1} + x_{2}}{2})}^{2}}{{(\frac{d}{2})}^{2}} - \frac{y^{2}}{{(\frac{1}{2})}^{2}} = 1

(公式3)

距离/方向估计器144还可以基于由麦克风M1和麦克风M2所记录的输入声音之间的音量差，来确定距离/方向估计器144更接近麦克风M1和麦克风M2中的哪个。因此，例如如图3所示，可以确定声源出现在更接近麦克风M2的双曲线1上。

顺便提及，用来计算相位差的输入声音的频率f需要满足公式4中的与麦克风M1和麦克风M2之间的距离有关的条件：

[式4]

f < \frac{c}{2 d}

(公式4)

图4是示出了基于三个输入声音间的相位差来估计输入声音的声源位置的状态的示意图。假设构成了声音记录单元110的麦克风M3、麦克风M4和麦克风M5的布置如图4所示。与到达麦克风M3和麦克风M4的输入声音的相位相比，到达麦克风M5的输入声音的相位可能被延迟。在此情况中，距离/方向估计器144可以确定声源位于相对于连接麦克风M3和麦克风M4的直线1的、麦克风M5的相对侧(前/后确定(front/backdetermination))。

此外，距离/方向估计器144基于到达麦克风M3和麦克风M4的每个的输入声音的相位差来计算声源将出现在其上的双曲线2。随后，距离/方向估计器144可以基于到达麦克风M4和麦克风M5的每个的输入声音的相位差来计算声源将出现在其上的双曲线3。结果，距离/方向估计器144可以估计出双曲线2和双曲线3的交点P1是声源位置。

图5是示出了基于两个输入声音的音量来估计输入声音的声源位置的状态的示意图。如果假设声源是点声源，则根据平方反比定律(inversesquare law)，在一点处测得的音量与距离的平方成反比。如果假设了如图5所示的构成声音记录单元110的麦克风M6和麦克风M7，则到达麦克风M6和麦克风M7的音量的比率为常数的一组点形成圆周。距离/方向估计器144可以通过根据从音量检测器132输入的音量值来确定音量的比率，从而确定声源将出现在其上的圆周的半径和中心位置。

如图5所示，假设麦克风M6位于(x3，0)而麦克风M7位于(x4，0)。在此情况中(基于该假设，不失一般性)，如果要确定的一组声源位置上的点在(x，y)，则从每个麦克风到声源的距离r1和r2可以表达为下面的公式5：

[式5]

r_{1} = \sqrt{{(x - x_{3})}^{2} + y^{2}}

r_{2} = \sqrt{{(x - x_{4})}^{2} + y^{2}}

(公式5)

这里，由于平方反比定律，下面的公式6成立：

[式6]

(公式6)

利用正常数d(例如，4)将公式6变换为公式7：

[式7]

\frac{r_{2}^{2}}{r_{1}^{2}} = d

(公式7)

通过将r1和r2代入公式7得出了下面的公式8：

[式8]

\frac{{(x - x_{4})}^{2} + y^{2}}{{(x - x_{3})}^{2} + y^{2}} = d

{(x - \frac{x_{4} - d x_{3}}{1 - d})}^{2} + y^{2} = \frac{d {(x_{4} - x_{3})}^{2}}{{(1 - d)}^{2}}

(公式8)

如图5所示，从公式8，距离/方向估计器144可以估计出声源出现在圆周1上，圆周1的中心坐标用公式9表示并且其半径用公式10表示。

[式9]

(\frac{x_{4} - {dx}_{3}}{1 - d}, 0)

(公式9)

[式10]

| \frac{x_{4} - x_{3}}{1 - d} | \sqrt{d}

(公式10)

图6是示出了基于三个输入声音的音量来估计输入声音的声源位置的状态的示意图。假设了如图6所示的构成声音记录单元110的麦克风M3、麦克风M4和麦克风M5的布置。与到达麦克风M3或麦克风M4的输入声音的相位相比，到达麦克风M5的输入声音的相位可能被延迟。在此情况中，距离/方向估计器144可以确定声源位于相对于连接麦克风M3和麦克风M4的直线2的、麦克风M5的相对侧(前/后确定)。

此外，距离/方向估计器144基于到达麦克风M3和麦克风M4的每个的输入声音的音量比率来计算声源将出现在其上的圆周2。随后，距离/方向估计器144可以基于到达麦克风M4和麦克风M5的每个的输入声音的音量比率来计算声源将出现在其上的圆周3。结果，距离/方向估计器144可以估计出圆周2和圆周3的交点P2是声源位置。如果使用四个或更多个麦克风，则距离/方向估计器144可以进行更精确地估计，包括声源的空间布置。

距离/方向估计器144如上所述那样基于输入声音的相位差或音量比率来估计输入声音的声源的位置，并且将估计出的声源的方向信息或距离信息输出给声音估计器146。下面的表1列出了上述音量检测单元130、声音质量检测单元138和距离/方向估计器144的每个组件的输入/输出。

[表1]

块	输入	输出
			音量检测器	输入声音	以帧为单位的音量值序列(幅度)
平均音量检测器	以帧为单位的音量值序列(幅度)	音量的平均值
			最大音量检测器	以帧为单位的音量值序列(幅度)	音量的最大值
频谱检测器	输入声音	频谱
			声音质量检测器	输入声音音量的平均值音量的最大值频谱	人类语音的相似度音乐的相似度稳定或不稳定脉冲特性
距离/方向估计器	输入声音以帧为单位的音量值序列(幅度) 频谱	方向信息距离信息

如果源自多个声源的声音被叠加在输入声音上，则距离/方向估计器144难以精确地估计出输入声音中所主要包含的声音的声源位置。然而，距离/方向估计器144可以估计出与输入声音中所主要包含的声音的声源位置接近的位置。估计出的声源位置可以用作声音分离单元112进行声音分离的初始值，因此，声音处理装置10即使在距离/方向估计器144估计出的声源位置存在误差时，也可以执行所希望的操作。

将参考图2继续描述声音类型估计单元122的配置。声音估计器146基于输入声音的音量、声音质量和位置信息中的至少一个，总地判断输入声音中是否包含源自声音处理装置10附近的特定声源的任何邻近声音，例如操作者的语音或从操作者的操作产生的噪声。如果声音估计器146确定输入声音中包含邻近声音，则声音估计器146具有如下功能：作为声音确定单元来将在输入声音中包含邻近声音的消息(操作者语音出现信息)以及由距离/方向估计器144估计出的位置信息输出到声音分离单元112。

更具体地，如果距离/方向估计器144估计出输入声音的声源的位置在成像方向上处于对视频成像的成像单元(未示出)之后并且输入声音具有与人类语音的声音质量相匹配或类似的声音质量，则声音估计器146可以确定邻近声音被包含在输入声音中。

如果输入声音的声源的位置在成像方向上处于成像单元之后并且输入声音具有与人类语音的声音质量相匹配或类似的声音质量，则声音估计器146可以确定在输入声音中主要包含操作者的语音作为邻近声音。结果，可从后面所述的声音混合单元124获得降低了操作者语音的声音比率的经混合声音。

声音估计器146使输入声音的声源的位置在离记录位置设置距离的范围内(声音处理装置10的附近，例如，声音处理装置10的1m内)。如果输入声音包含脉冲声音并且输入声音高于过去的平均音量，则声音估计器146可以确定输入声音包含由特定声源产生的邻近声音。这里，当成像装置的操作者操作成像装置的按钮或者将成像装置从一只手移到另一只手时，通常会产生诸如“滴答”和“砰”之类的脉冲声音。此外，脉冲声音由装配有声音处理装置10的成像装置产生，因此，很有可能记录较大音量的脉冲声音。

因此，声音估计器146使输入声音的声源的位置在离记录位置设置距离的范围内。如果输入声音包含脉冲声音并且输入声音高于过去的平均音量，则输入声音可被确定为主要包含从操作者的操作产生的噪声作为邻近声音。结果，可从后面所述的声音混合单元124获得降低了从操作者的操作产生的噪声的声音比率的经混合声音。

另外，表2总结了输入到声音估计器146的信息以及声音估计器146基于输入信息的确定结果的示例。通过组合近程传感器(proximitysensor)、温度传感器等，可以提高声音估计器146的确定精度。

[表2]

返回图1，混合比计算单元120具有根据由声音类型估计单元122估计出的声音类型计算每个声音的混合比的功能。例如，利用由声音分离单元112分离的经分离声音、声音类型估计单元122的声音类型信息以及记录在记录单元114中的音量信息来计算降低主导声音的音量的混合比。

当声音类型较稳定时，也参考输出类型估计单元122的输出信息来计算使得连续块之间的音量信息不会显著地改变的混合比。当声音类型不稳定(非稳定)并且更可能是噪声时，混合比计算单元120降低所关注的声音的音量。另一方面，如果声音类型是不稳定的并且更可能是由人发出的语音，则与噪声声音相比，较少地降低所关注的声音的音量。

这里，将参考图7描述对降低比率进行微调(fine-tune)的方法。人类听觉或掩盖效应(masking effect)的频率特性(响度特性)可以用作微调降低比率的方法。更具体地，可以考虑如下方法。在人类听觉特性中，可感知2至4kHz的频率成分。如果其音量占主导的经分离声音主要包含这个频带，则具有倾向性地来设置混合比以使得与其它频带相比较多地抑制所关注频带。

如图7所示，针对2至4kHz(频带a)，即人类更易感知到的频带设置较小的混合比。因此，可以避免其它经分离声音被主导音量的经分离声音掩盖。针对具有较小分离精度的频带(频带b)相对地减小混合比。

此外，考虑频谱掩盖效应(即这样的现象，其中，如果某个时刻在某个频率处存在较大声音，则邻近频率中的声音因被掩盖而不能听见)。在此情况中，声音分离单元112的分离精度不充分有保证的频带(频带b)中的声音的混合比相对地被减小。因此，可以设置具有倾向性以便被邻近频率(其分离精度充分有保证)的声音掩盖的混合比。

通过利用上面的技术，自动地计算出了这样的经分离声音的重新混合比，其使得能够听见因较低幅度而被主导声源掩盖的声音。就此而言，在从经分离声音的音量信息和重新混合比确定的先前块和当前块之间的每个声源的音量没有显著改变的情况下，如果可能，可以使总音量在时间方向上可平滑连接的范围内保持恒定。可替代地，可以根据用户指定的设置来计算使特定声源显著减小的混合比。

返回图1，声音混合单元124具有以混合比计算单元120提供的混合比来混合经声音分离单元112分离的多个声音的功能。例如，声音混合单元124可以将声音处理装置10的邻近声音与要记录的声音相混合，以使得邻近声音所占的音量比率低于邻近声音在输入声音中所占的音量比率。因此，如果输入声音的邻近声音的音量不必要地高，则可以获得这样的混合声音，其中，从要记录的声音在输入声音中所占的音量比率起增加要记录的声音在混合声音中所占的音量比率。结果，可以防止要记录的声音被邻近声音埋没。

[3]声音处理装置的操作

在前面已描述了根据本实施例的声音处理装置10的功能配置。接下来，将参考图8描述由声音处理装置10执行的声音处理方法。图8是示出了根据本实施例由声音处理装置10执行的声音处理方法的处理流程的流程图。如图8所示，首先，声音处理装置10的声音记录单元110记录声音(S102)。

接下来，声音记录单元110判断声音是否被输入(S104)。如果在步骤S104中不存在输入声音，则声音记录单元110终止处理。如果在步骤S104中存在输入声音，则声音分离单元112将输入声音分离为多个声音(S106)。在步骤S106，声音分离单元112可以以预定长度的块为单位来分离输入声音。

然后，相同性确定单元118判断在步骤S106中以预定长度的块为单位被分离的输入声音在多个块间是否相同(S108)。相同性确定单元118可以利用在步骤S106中分离的以块为单位的声音在离散时间处的幅度信息的分布、音量、方向信息等，来确定相同性。

接下来，声音类型估计单元122计算每块的音量信息(S110)以估计每块的声音类型(S112)。在步骤S112，声音类型估计单元122将声音分离为由操作者发出的语音、对象产生的声音、从操作者的操作产生的噪声、脉冲声音、稳定环境声音等。

接下来，混合比计算单元120根据在步骤S112中估计出的声音类型来计算每个声音的混合比(S114)。混合比计算单元120基于在步骤S110中计算出的音量信息以及在步骤S112中计算出的声音类型信息来计算减小主导声音的音量的混合比。

然后，利用在步骤S114中计算出的每个声音的混合比来混合在步骤S106中分离的多个声音(S116)。在前面，已描述了由声音处理装置10 执行的声音分离方法。

根据上面的实施例，如上所述，输入到声音处理装置10的输入声音被分离为由多个声源产生的声音，并且多个经分离的声音类型被估计。然后，根据估计出的声音类型计算每个声音的混合比，并且以该混合比重新混合每个经分离的声音。因此，可以独立地控制源自不同声源的音量。此外，可以防止所希望声音因被音量高于所希望声音的音量的声音掩盖而不能被听见。而且，可以将源自各个声源的音量调节为所希望音量，而无需针对每个不同声源布置麦克风等。此外，即使所希望声音的音量在预定长度的各块间不同，也可以自动地调节音量，而不用用户的任何音量操作。

本领域的技术人员应当明白，可以根据设计要求和其它因素进行各种修改、组合、子组合和变更，只要它们在所附权利要求或其等同物的范围之内。

在上面的实施例中，例如，通过应用到装配有声音处理装置10的成像装置来描述了本发明，然而，本发明不限于这种示例。例如，本发明还可以应用到通信装置或者一般没有成像功能的声音记录装置。

本申请包含与2008年11月04日向日本专利局提交的日本优先权专利申请JP 2008-283067中公开的主题有关的主题。

Claims

1.一种声音处理装置，包括：

声音分离单元，所述声音分离单元将输入声音分离为由多个声源产生的多个声音；

声音类型估计单元，所述声音类型估计单元估计经所述声音分离单元分离的多个声音的声音类型；

混合比计算单元，所述混合比计算单元根据由所述声音类型估计单元估计出的声音类型计算每个声音的混合比；以及

声音混合单元，所述声音混合单元以由所述混合比计算单元计算出的混合比来混合经所述声音分离单元分离的多个声音，

其中所述声音分离单元以预定长度的块为单位将所述输入声音分离为多个声音，并且所述声音处理装置还包括：相同性确定单元，所述相同性确定单元判断经所述声音分离单元分离的声音在多个块间是否相同；以及记录单元，所述记录单元以块为单位记录经所述声音分离单元分离的声音的音量信息，

并且其中所述混合比计算单元还根据所述记录单元中的所述音量信息来计算每个声音的混合比，并且，在从经分离声音的音量信息和所述混合比确定的先前块和当前块之间的每个声源的音量没有显著改变、在时间方向上能平滑连接的范围内，使总音量尽可能保持恒定。

2.根据权利要求1所述的声音处理装置，其中，所述声音分离单元利用声音的统计独立性以及空间传输特性的差异来将所述输入声音分离为多个声音。

3.根据权利要求1所述的声音处理装置，其中，所述声音分离单元利用声源的时间频率成分之间的少量重叠，来将所述输入声音分离为源自特定声源的声音以及其它声音。

4.根据权利要求1所述的声音处理装置，其中，所述声音类型估计单元利用所述输入声音的离散时间处的幅度信息分布、方向、音量、过零数来估计输入声音是稳定声音还是不稳定声音。

5.根据权利要求4所述的声音处理装置，其中，所述声音类型估计单元对被估计为不稳定声音的声音是噪声声音还是人发出的语音进行估计。

6.根据权利要求4所述的声音处理装置，其中，所述混合比计算单元计算不会显著改变被所述声音类型估计单元估计为稳定声音的声音的音量的混合比。

7.根据权利要求6所述的声音处理装置，其中，所述混合比计算单元计算使被所述声音类型估计单元估计为噪声声音的声音的音量降低而不使被估计为人发出的语音的声音的音量降低的混合比。

8.一种声音处理方法，包括以下步骤：

将由声音处理装置输入的输入声音分离为多个声音，并且以预定长度的块为单位将所述输入声音分离为多个声音；

判断经分离的声音在多个块间是否相同；

以块为单位记录经分离的声音的音量信息；

估计多个经分离声音的声音类型；

根据估计出的声音类型和所记录的音量信息来计算每个声音的混合比；以及

以计算出的混合比来混合多个经分离声音，

其中在从经分离声音的音量信息和所述混合比确定的先前块和当前块之间的每个声源的音量没有显著改变、在时间方向上能平滑连接的范围内，使总音量尽可能保持恒定。