CN101246690B

CN101246690B - 声音处理设备及声音处理方法

Info

Publication number: CN101246690B
Application number: CN2008100082947A
Authority: CN
Inventors: 难波隆一; 安部素嗣; 井上晃; 东山惠祐; 高桥秀介; 西口正之
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-02-15
Filing date: 2008-02-15
Publication date: 2011-07-13
Anticipated expiration: 2028-02-15
Also published as: US8422695B2; JP4449987B2; US20130182857A1; US9762193B2; CN101246690A; JP2008197577A; US20080199152A1

Abstract

本发明提供了声音处理设备、声音处理方法及程序。一种声音处理设备包括：声音判定部分，用来基于特定声源的位置信息判定输入声音是否包括从该声源发出的第一声音；声音分离部分，用来在声音判定部分判定输入声音包括第一声音的情况下，将输入声音分离成第一声音和从不同于特定声源的声源发出的第二声音；以及声音混合部分，用来以预定的音量比混合由声音分离部分分离的第一声音和第二声音。

Description

声音处理设备及声音处理方法

技术领域

本发明涉及声音处理(sound processing)设备、声音处理方法及程序。

背景技术

当今，能够记录对象的视频和对象发出的声音的视频/声音记录设备被广泛使用。视频/声音记录设备的操作者能够通过操纵视频/声音记录设备上的操作装置来调整视频/声音记录设备的拍摄方向或者放大或缩小对象的图像。

音量随着与声源距离增大而减小。因此，在视频/声音记录设备中，由视频/声音记录设备的操作者引起的诸如操作者的语音或操作装置的操作声之类的声音可能无意中以比对象发出的声音更高的音量被记录下来。

第2005-341073号日本未实审专利申请公布公开的声音处理设备用于记录抑制了由操作者引起的声音的音量的声音。具体而言，该声音处理设备包括五个定向麦克风，左前、右前、左后、右后，还有一个可拆卸。因此，位于后部中央的操作者的语音实际上不被左前、右前、左后和右后麦克风中的任一个拾取，它可根据需要或目的由可拆卸的麦克风拾取。

第2006-154314号日本未实审专利申请公布公开了一种使用基于ICA(独立成分分析)的BSS(盲声源分离)来对包括来自多个声源的声音的混合声中的来自一个或多个声源的信号进行分离的技术。

发明内容

但是，相关技术中的视频/声音记录设备需要包括大量麦克风，这导致了很大的硬件尺寸。另外，相关技术中的视频/声音记录设备使用麦克风的方向性来选择操作者的声音，这对操作者的位置进行了约束。

鉴于前述问题，需要一种能够通过调整从特定的声源发出的声音占全部声音的音量比例来记录声音的新的改进的声音处理设备、声音处理方法和程序。

根据本发明的实施例，提供了一种声音处理设备，其包括：声音判定部分，用来基于输入声音的音量和品质中的至少一个和声源的位置信息来判定输入声音是否包括从特定的声源发出的第一声音；声音分离部分，用来在声音判定部分判定输入声音包括第一声音的情况下，将输入声音分离成第一声音和从不同于特定声源的声源发出的第二声音；以及声音混合部分，用来以预定的音量比例混合由声音分离部分分离的第一声音和第二声音。

在该配置中，声音分离部分分离输入声音中包括的从特定的声源发出的第一声音，声音混合部分以第一声音的音量比例低于输入声音中第一声音的音量比例的方式来混合第一声音以及作为输入声音中包括的另一个声音的第二声音。因此，若输入声音中从特定的声源发出的第一声音的音量过高，则声音混合部分可以生成第二声音的音量比例高于输入声音中第二声音的音量比例的混合声。因此，声音处理设备可以防止第二声音不当地掩埋在第一声音中。

另外，声音混合部分可按如下方式来混合从附近发出的第一声音以及作为输入声音中包括的另一个声音的第二声音，即以第一声音的音量比例高于输入声音中第一声音的音量比例的方式。在该配置中，可以在希望拾取来自声音拾取者的声音时增强从声音拾取者发出的第一声音。若声音判定部分判定输入声音不包括第一声音，则声音分离部分可不分离输入声音。

特定的声源可位于离输入声音的拾取位置规定距离之内。换言之，第一声音可从离输入声音的拾取位置规定距离内的位置发出。因为音量随离开声源的距离增大而减小，所以从拾取位置附近的声源发出的声音很可能以更高的音量被拾取为输入声音。因此，声音混合部分可以抑制输入声音的拾取位置附近的第一声音的音量比例，并校正由拾取位置和声源之间距离的不同造成的音量不平衡关系。

第一声音可包括由拾取输入声音时使用的设备的操作者引起的声音，第二声音可包括从拾取目标发出的声音。在该配置中，可以抑制从操纵位于拾取输入声音时使用的设备附近的设备的操作者发出的第一声音的音量比例，并防止从拾取目标发出的第二声音不当地掩埋在第一声音中。

声音判定部分可基于输入声音的音量和品质中的至少一个来判定输入声音是否包括第一声音。声音判定部分可基于输入声音的音量或相位来估计输入声音的声源位置信息或者输入声音中包括的从一个或多个声源发出的每个声音的声源位置信息。

声音处理设备还可包括用来拍摄视频的拍摄部分，且声音判定部分可包括位置信息计算部分，该部分用来基于输入声音中包括的从一个或多个声源发出的声音的音量和相位中的至少一个来计算声源的位置信息，并且若位置信息计算部分计算出输入声音的声源位置在拍摄部分的拍摄方向后方且输入声音匹配或近似于人声，则声音判定部分判定输入声音包括从特定的声源发出的第一声音。操作者经常从拍摄部分的拍摄方向后方操纵声音处理设备。因此，若输入声音的声源位置在拍摄部分的拍摄方向后方且输入声音匹配或近似于人声，则声音判定部分可以判定输入声音主要包括操作者的声音作为第一声音。因此可以获得操作者声音的音量比例被声音混合部分减小的混合声。

若输入声音的声源位置在离拾取位置规定距离之内，输入声音包括冲激声，且输入声音的音量高于过去的平均音量，则声音判定部分可以判定输入声音包括从特定的声源发出的第一声音。当输入声音拾取设备的操作者操纵设备按钮或改变设备的手持方式时，很可能出现啪嗒或砰之类的冲激声。另外，由于这类冲激声在设备中生成，因此很可能以相对较高的音量被拾取。因此，若输入声音的声源位置在离声音拾取位置规定距离之内，输入声音包括冲激声，且输入声音的音量高于过去的平均音量，则声音判定部分可以判定：输入声音主要包括由操作者的动作引起的噪声作为第一声音。因此可以获得由操作者的动作造成的噪声的音量比例被声音混合部分减小的混合声。

声音处理设备可包括用来拾取输入声音的多个拾取部分，和用来将声音混合部分混合的混合声记录到存储器中的记录部分。在该配置中，记录部分将第一声音的音量比例低于输入声音中第一声音的音量比例的混合声记录到存储器中。这允许重放设备重放第一声音的音量比例被适当调整的混合声，而不需在重放设备上安装专门的音量校正功能。

声音处理设备可包括：存储器，用来存储输入声音；以及再现部分，用来再现存储器中存储的输入声音并将输入声音输出到声音判定部分和声音分离部分中的至少一个。在该配置中，声音判定部分和声音分离部分基于从再现部分输入的输入声音来生成混合声并将混合声作为再现声音输出。这实现了第一声音的音量比例被适当调整的混合声的重放，而不需在将输入声音记录到存储器的记录设备上安装专门的音量校正功能。

声音处理设备可包括音量校正部分，用来根据对输入声音的音量进行了校正的情况下的校正度来反向校正声音分离部分分离的第二声音的音量。例如，若输入音量因为第一声音的音量过大而被整体抑制，则第二声音的音量也被相应地抑制。音量校正部分可以根据抑制输入音量的程度来增大第二声音的音量，从而避免第二声音过小。

根据本发明的另一实施例，提供了一种声音处理设备，其包括：声音分离部分，用于分离输入声音；声音判定部分，用于基于输入声音的音量和品质中的至少一个和声源的位置信息来判定声音分离部分分离的声音是否包括从特定的声源发出的第一声音；以及声音混合部分，用于以预定混合比来混合声音分离部分分离的第一声音以及从不同于特定声源的声源发出的第二声音。

根据本发明的另一实施例，提供了使得计算机充当如下声音处理设备的程序，所述声音处理设备包括：声音判定部分，用来基于声源的位置信息来判定输入声音是否包括从特定的声源发出的第一声音；声音分离部分，用来在声音判定部分判定输入声音包括第一声音的情况下，将输入声音分离成第一声音和从不同于特定声源的声源发出的第二声音；以及声音混合部分，用来以预定的音量比混合由声音分离部分分离的第一声音和第二声音。

上述程序可使得包括CPU、ROM、RAM等的计算机的硬件资源执行位置信息计算部分、声音判定部分和声音分离部分的功能。因此可以使得实现该程序的计算机充当上述声音处理设备。

声音判定部分可基于声源的位置信息、输入声音的音量和品质中的至少一个来判定输入声音是否包括第一声音。

该程序还可包括用来拍摄视频的拍摄部分，且声音判定部分可包括位置信息计算部分，所述部分用来基于输入声音中包括的从一个或多个声源发出的声音的音量和相位中的至少一个来计算声源的位置信息，并且若位置信息计算部分计算出输入声音的声源位置在拍摄部分的拍摄方向后方且输入声音匹配或近似于人声，则声音判定部分判定输入声音包括从特定的声源发出的第一声音。

若输入声音的声源位置在离拾取位置规定距离之内，输入声音包括冲激声，且输入声音的音量高于过去的平均音量，则声音判定部分可以判定输入声音包括从特定的声源发出的第一声音。

根据本发明的另一实施例，提供了一种声音处理方法，包括以下步骤：基于输入声音的音量和品质中的至少一个和声源位置信息来判定输入声音是否包括从特定的声源发出的第一声音；若判定输入声音包括第一声音，则将输入声音分离成第一声音和从不同于特定声源的声源发出的第二声音；以及以预定的音量比混合彼此分离开的第一声音和第二声音。

根据本发明的上述实施例，可以在适当调整了从特定声源发出的声音占全部声音的音量比例后输出或记录声音。

附图说明

图1是示出使用根据本发明第一实施例的声音记录设备的场景示例的图示；

图2A至2C是示出由普通声音记录方法记录的声音的时间域幅度的图示；

图3是示出作为根据本发明第一实施例的声音处理设备示例的声音记录设备的配置的功能框图；

图4是示出声音判定部分的配置的功能框图；

图5是示出基于两个输入声音之间的相位差来估计输入声音的声源位置的方法的图示；

图6是示出基于三个输入声音之间的相位差来估计输入声音的声源位置的方法的图示；

图7是示出基于两个输入声音的音量来估计输入声音的声源位置的方法的图示；

图8是示出基于三个输入声音的音量来估计输入声音的声源位置的方法的图示；

图9是示出声音记录设备和操作者之间的位置关系的图示；

图10是示出根据本发明的第一实施例在声音记录设备中执行的声音处理方法的流程的流程图；

图11是示出根据本发明第二实施例的声音重放设备的配置的功能框图；

图12是示出根据本发明第三实施例的声音重放设备的配置的功能框图；

图13是相互对比地示出AGC实施之前声音的音量和AGC实施之后声音的音量的图示。

具体实施方式

下面，将参考附图来详细描述本发明的优选实施例。注意，在本说明书及附图中，实际上具有相同的功能和结构的结构元素以相同的参考符号来表示，且这些结构元素的重复性描述被省略。

【第一实施例】

下面描述根据本发明第一实施例的声音记录设备10。在该实施例中，参考图1和图2A至2C来描述使用声音记录设备10的示例性场景，然后参考图3至10来描述声音记录设备10的配置及操作。

图1是示出使用本实施例的声音记录设备10的场景示例的图示。在图1的示例中，作为对象的孩子站在学校前面，手持具有视频拍摄功能的声音记录设备10的操作者将声音记录设备10瞄准该对象。

响应于操作者的呼唤“喂”，对象应答“嗨”。具有视频拍摄功能的声音记录设备10将来自操作者的呼唤“喂”和来自对象的应答“嗨”连同对象的视频一起记录。下文中参考图2A至2C来描述由普通声音记录方法记录的声音。

图2A至2C是示出由普通声音记录方法记录的声音的时间域幅度的图示。若声源被假定为点声源，则拾取的音量与声源和声音拾取位置之间的距离的平方成反比。于是，拾取的音量随着拾取位置远离声源而减小。因此，来自靠近拾取位置的操作者的呼唤“喂”被拾取为具有图2A所示幅度的声音。

另一方面，来自离拾取位置比操作者远的对象的应答“嗨”被拾取为具有的幅度如图2B所示比操作者的语音小的声音。这种情况下，普通声音记录方法记录如图2C所示的声音，其中仅仅简单地将操作者的呼唤“喂”和对象的应答“嗨”相互叠加。

但是，在图2C所示的声音中，操作者的呼唤“喂”过于显著以致对象的应答“嗨”被不当地掩埋其中。另外，操作者造成的操作噪声以相对高于来自对象的声音的音量级(level)被记录。于是，从对象发出的声音被操作者引起的声音掩盖，因此经常无法以操作者想要的适当音量平衡记录来自对象的声音。

鉴于上述问题，发明了根据本实施例的声音记录设备10。本实施例的声音记录设备10抑制由操作者引起的声音的音量比例并以适当的音量平衡记录来自对象的声音和由操作者引起的声音。下面详细描述声音记录设备10的配置和操作。

图3是示出作为根据本实施例的声音处理设备示例的声音记录设备10的配置的功能框图。声音记录设备10包括声音拾取部分110、声音判定部分120、声源分离部分140、声音混合部分150、记录部分160和存储部分170。虽然图1说明了作为声音记录设备10的示例的视频摄像机，但是声音记录设备10不限于视频摄像机，它可以是诸如PC(个人电脑)、移动电话、PHS(个人手提电话系统)、便携声音处理设备、便携视频处理设备、PDA(个人数字助理)、家用游戏机和便携游戏机之类的信息处理设备。

声音拾取部分110拾取声音并执行所拾取声音的离散量化。声音拾取部分110包括物理上相互分开的两个或多个拾取部分(例如麦克风)。在图3的示例中，声音拾取部分110包括两个拾取部分，一个用于拾取左声L一个用于拾取右声R。声音拾取部分110输出离散量化的左声L和右声R，作为声音判定部分120和声源分离部分140的输入声音。

声音判定部分120判定来自声音拾取部分110的输入声音是否包括从声音记录部分10附近发出的邻近声(proximity sound)(第一声音)，如操作者的语音或由操作者的动作引起的噪声。下面参考图4来描述声音判定部分120的详细配置。

图4是示出声音判定部分120的配置的功能框图。声音判定部分120包括具有音量检测器124、平均音量检测器126和最大音量检测器128的音量检测部分122，具有频谱检测器132和品质检测器134的品质检测部分130，距离/方向估计器136，以及操作者声音估计器138。在图4中，为了使示图清晰，左声L和右声R一起被示为输入声音。

音量检测器124检测每个预定的帧周期(例如，几十微秒)内给定的输入声音的音量线(volume string)(幅度)，并将检测到的输入声音的音量线输出到平均音量检测器126、最大音量检测器128、品质检测器134和距离/方向估计器136。

平均音量检测器126例如基于从音量检测器124输入的每帧的音量线来检测每帧输入声音的音量平均值。然后平均音量检测器126将检测到的音量平均值输出到品质检测器134和操作者声音估计器138。

最大音量检测器128例如基于从音量检测器124输入的每帧的音量线来检测每帧输入声音的音量最大值。然后最大音量检测器128将检测到的音量最大值输出到品质检测器134和操作者声音估计器138。

频谱检测器132通过例如对输入声音执行FFT(快速傅立叶变换)来检测输入声音的频域中的每个频谱。然后频谱检测器132将检测到的频谱输出到品质检测器134和距离/方向估计器136。

品质检测器134接收输入声音、音量平均值、音量最大值和频谱，基于这些输入来检测关于输入声音是人声的可能性、是音乐的可能性、平稳性(stationarity)、冲激性(impulsiveness)等，并将结果输出到操作者声音估计器138。是人声的可能性可以是指示输入声音的部分或整体是否与人声相匹配或多接近于人声的信息。是音乐的可能性可以是指示输入声音的部分或整体是否为音乐或多接近于音乐的信息。

平稳性指示声音的统计特性不随时间发生重大变化，如空调声。冲激性指示由于聚能集中(spot energy concentration)造成的高度嘈杂的属性，如碰撞声或爆破声。

品质检测器134例如可基于输入声音的频谱分布和人声的频谱分布之间的匹配度来检测是人声的可能性。另外，品质检测器134可将每帧的音量最大值与另一帧的音量最大值相比较，并判定当音量最大值较大时冲激性较高。

品质检测器134可利用诸如过零点或LPC(线性预测编码)分析之类的信号处理技术来分析输入声音的品质。由于过零点技术检测输入声音的基本周期，因此品质检测器134可基于检测到的基本周期是否在人声的基本周期(例如100到200Hz)内来检测是人声的可能性。

距离/方向估计器136充当位置信息计算部分，该部分接收输入声音、输入声音的音量线、输入声音的频谱等，并估计诸如输入声音的声源或者输入声音中主要包括的声音的声源的方向信息和距离信息之类的位置信息。距离/方向估计器136联合使用各种基于输入声音的相位、音量、音量线、过去平均音量和最大音量等等的声源位置信息估计方法，从而甚至在声音记录设备10主体的回响或声音反射影响严重时也全面估计声源位置。下面参考图5至8描述距离/方向估计器136中使用的估计方向信息和距离信息的方法的示例。

图5是示出基于两个输入声音之间的相位差来估计输入声音的声源位置的方法的图示。若声源被假定为点声源，则可以测量分别到达组成声音拾取部分110的麦克风M1和麦克风M2的输入声音的相位以及输入声音之间的相位差。另外，利用输入声音的相位差、频率f和声速c，可以计算麦克风M1到输入声音的声源位置的距离与麦克风M2到输入声音的声源位置的距离之差。声源存在于距离差恒定的点的集合中。距离差恒定的这些点的集合由双曲线表示。

例如，假设麦克风M1位于(x1，0)，假设麦克风M2位于(x2，0)(利用该假设保持一般性)。若将要计算的声源位置的点的集合中的一点为(x，y)且上述距离差为d，则获得下述表达式1。

[表达式1]：

\sqrt{{(x - x_{1})}^{2} + y^{2}} - \sqrt{{(x - x_{2})}^{2} + y^{2}} = d

表达式1可被扩展成表达式2，表达式2可被整理成表示双曲线的表达式3。

[表达式2]：

{(x-x₁)²+2y²+(x-x₂)²-d²}²＝4{(x-x₁)²+y²}{(x-x₂)²+y²}

[表达式3]：

\frac{{(x - \frac{x_{1} + x_{2}}{2})}^{2}}{{(\frac{d}{2})}^{2}} - \frac{y^{2}}{{(\frac{1}{2})}^{2}} = 1

距离/方向估计器136可以基于分别由麦克风M1和麦克风M2拾取的输入声音之间的音量差来判定声源位于麦克风M1和麦克风M2中的哪个附近。例如，距离/方向估计器136可以判定声源存在于如图5所示的麦克风M2附近的双曲线1上。

用于计算相位差的输入声音的频率f需满足表达式4表示的条件，该表达式与麦克风M1和麦克风M2之间的距离有关。

[表达式4]：

f < \frac{c}{2 d}

图6是示出基于三个输入声音之间的相位差来估计输入声音的声源位置的方法的图示。假设组成声音拾取部分110的麦克风M3、麦克风M4和麦克风M5按图6所示设置。若到达麦克风M5的输入声音的相位与到达麦克风M3和麦克风M4的输入声音的相位相比滞后，则距离/方向估计器136判定声源位于麦克风M5关于连接麦克风M3和麦克风M4的直线1的相反一侧(深度判定)。

另外，距离/方向估计器136可以基于分别到达麦克风M3和麦克风M4的输入声音之间的相位差来计算上面可能存在声源的双曲线2，还可基于分别到达麦克风M4和麦克风M5的输入声音之间的相位差来计算上面可能存在声源的双曲线3。结果，距离/方向估计器136可以将双曲线2和双曲线3的交点P1估计为声源位置。

图7是示出基于两个输入声音的音量来估计输入声音的声源位置的方法的图示。若声源被假定为点声源，则在给定点处测量到的音量根据平方反比定律(inverse square law)与距离的平方成反比。假设麦克风M6和麦克风M7如图7所示组成声音拾取部分110，则分别到达麦克风M6和麦克风M7的声音的音量比恒定的点的集合由圆表示。距离/方向估计器136可以根据从音量检测器124输入的音量值来计算音量比，然后计算上面存在声源的圆的半径和圆心。

如图7所示，当麦克风M6位于(x3，0)且麦克风M7位于(x4，0)时(利用该假设保持一般性)，若将要计算的声源位置的点的集合中的一点为(x，y)，则分别从麦克风M6和M7到声源的距离r1和r2如下述表达式5所示。

[表达式5]：

r_{1} = \sqrt{{(x - x_{3})}^{2} + y^{2}}, r_{2} = \sqrt{{(x - x_{4})}^{2} + y^{2}}

表达式6由平方反比定律获得。

[表达式6]：

\frac{1}{r_{1}^{2}} : \frac{1}{r_{2}^{2}} = const .

利用正常数d(例如4)，表达式6可转化为表达式7。

[表达式7]：

\frac{r_{2}^{2}}{r_{1}^{2}} = d

若将r1和r2代入表达式7并整理，则获得下述表达式8。

[表达式8]：

\frac{{(x - x_{4})}^{2} + y^{2}}{{(x - x_{3})}^{2} + y^{2}} = d

{(x - \frac{x_{4} - {dx}_{3}}{1 - d})}^{2} + y^{2} = \frac{d {(x_{4} - x_{3})}^{2}}{{(1 - d)}^{2}}

根据表达式8，距离/方向估计器136估计声源存在于圆心坐标由表达式9来表示且半径由表达式10来表示的圆1上，如图7所示。

[表达式9]：

(\frac{x_{4} - {dx}_{3}}{1 - d}, 0)

[表达式10]：

| \frac{x_{4} - x_{3}}{1 - d} | \sqrt{d}

图8是示出基于三个输入声音的音量来估计输入声音的声源位置的方法的图示。假设组成声音拾取部分110的麦克风M3、麦克风M4和麦克风M5按图8所示设置，若到达麦克风M5的输入声音的相位与到达麦克风M3和麦克风M4的输入声音的相位相比滞后，则距离/方向估计器136判定声源位于麦克风M5关于连接麦克风M3和麦克风M4的直线2的相反一侧(深度判定)。

另外，距离/方向估计器136可以基于分别到达麦克风M3和麦克风M4的输入声音的音量比来计算上面可能存在声源的圆2，还可基于分别到达麦克风M4和麦克风M5的输入声音的音量比来计算上面可能存在声源的圆3。结果，距离/方向估计器136可以将圆2和圆3的交点P2估计为声源位置。通过使用4个或更多麦克风，距离/方向估计器136可以取得包括声源的空间布局在内的更精确的估计。

距离/方向估计器136如上所述基于输入声音的音量比或相位差来估计输入声音的声源位置，然后将有关估计的声源的方向信息和距离信息输出到操作者声音估计器138。下面的表1总结了上述音量检测部分122、品质检测部分130和距离/方向估计器136中每个元件的输入和输出。

[表1]：

若从多个声源发出的声音叠加到输入声音上，则距离/方向估计器136很难估计输入声音中主要包括的声音的精确声源位置。但是，距离/方向估计器136可以估计输入声音中主要包括的声音的声源位置附近的位置。另外，由于估计的声源位置可被用作声源分离部分140中声音分离的默认值，因此即使距离/方向估计器136估计的声源位置有误差，声音记录设备10也可以执行希望的操作。

参考回图4，下面进一步描述声音判定部分120的配置。操作者声音估计器138基于输入声音的音量、品质和位置信息中的至少一个来全面判定输入声音是否包括从位于声音记录设备10附近的特定声源发出的邻近声，如来自操作者的声音或由操作者的动作引起的噪声。当操作者声音估计器138判定输入声音包括邻近声时，它还充当将指示输入声音包括邻近声的信息(操作者声音存在信息)、距离/方向估计器136估计的位置信息等输出到声源分离部分140的声音判定部分。

具体而言，当距离/方向估计器136估计输入声音的声源位于拍摄视频的拍摄部分(未示出)的拍摄方向后方且输入声音匹配或近似于人声时，操作者声音估计器138可判定输入声音包括邻近声。如图9所示，操作者从拍摄部分的拍摄方向后方(通常情况下是取景器的左后方)操纵声音记录设备10(习惯右手的人正常拍摄而非自拍期间)。

因此，若输入声音的声源位置在拍摄部分的拍摄方向后方且输入声音匹配或近似于人声，则操作者声音估计器138可以判定输入声音主要包括作为邻近声的操作者声音。因此可以获得操作者的音量比例被声音混合部分150减少的混合声，如后所述。

另外，若输入声音的声源位置在离声音拾取位置规定距离之内(例如，声音记录设备10附近，离声音记录设备10一米以内之类)，输入声音包括冲激声，并且输入声音的音量高于过去平均音量，则操作者声音估计器138可判定输入声音包括从特定声源发出的邻近声。当声音记录设备10的操作者操纵声音记录设备10的按钮或改变声音记录设备10的手持方式时，很可能出现啪嗒或砰之类的冲激声。由于这类冲激声在声音记录设备10中生成，因此很可能以相对较高的音量被拾取。

因此，若输入声音的声源位置在离声音拾取位置规定距离之内，输入声音包括冲激声，且输入声音的音量高于过去的平均音量，则操作者声音判定估计器138可以判定输入声音主要包括作为邻近声的由操作者的动作引起的噪声。因此可以获得由操作者的动作造成的噪声的音量比例被声音混合部分150减少的混合声，如后所述。

下面的表2总结了被输入到操作者声音估计器138的信息以及操作者声音估计器138做出的判定结果的示例。可以通过联合使用邻近度传感器、温度传感器等来增强操作者声音估计器138中的判定精度。

参考回图3，下面进一步描述声音记录设备10的配置。当声源分离部分140从声音判定部分120接收操作者声音存在信息时，它基于从声音判定部分120输入的声源位置信息来将从声音拾取部分110输入的输入声音分离成诸如操作者声音之类的邻近声和不同于邻近声的诸如对象声音之类的拾取目标声(第二声音)。因此，声源分离部分140输出双倍数目的输入声音。图3示出声源分离部分140接收左声L和右声R作为输入声音，输出左邻近声L1和右邻近声R1作为邻近声，还输出左拾取目标声L2和右拾取目标声R2作为拾取目标声的示例。

具体而言，声源分离部分140充当利用使用ICA(独立分量分析)的技术、使用声音的时间-频率分量之间的微小重叠的技术等等来根据声源分离声音的声音分离部分。

声音混合部分150以混合声中邻近声的音量比例低于输入声音中邻近声的音量比例的方式来混合从声源分离部分140输入的邻近声和拾取目标声。在该配置中，当输入声音中从特定声源发出的邻近声的音量过高时，声音混合部分150可以生成拾取目标声的音量比例高于输入声音中拾取目标声的音量比例的混合声。因此，声音记录设备10可以避免拾取目标声被不当地掩埋在邻近声中。

声音混合部分150混合左邻近声L1和左拾取目标声L2以生成混合左声L，并混合右邻近声R1和右拾取目标声R2以生成混合右声R。然后声音混合部分150将混合左声L和混合右声R作为混合声输出到记录部分160。

声音混合部分150可根据被声源分离部分140分离的邻近声和拾取目标声的平均音量比计算适当的混合比，并以算出的混合比来混合邻近声和拾取目标声。另外，声音混合部分150可在当前帧和前一帧之间的混合比之差不超过预定限度的范围内改变每帧中将使用的混合比。

记录部分160将从声音混合部分150输入的混合声记录到存储部分170中。存储部分170可以是诸如EEPROM(电可擦除可编程只读存储器)和EPROM(可擦除可编程只读存储器)之类的非易失性存储器，诸如硬盘和扁圆状磁盘之类的磁盘，诸如CD-R(可录致密盘)/RW(可改写)、DVD-R(可录数字万用盘)/RW/+R/+RW/RAM(随机存取存储器)和BD(蓝光盘(注册商标))-R/BD-RE之类的光盘，或者诸如MO(磁光)盘之类的存储器。存储部分170还可存储对象的视频数据。

如上所述，在本实施例的声音记录设备10中，记录部分160将邻近声的音量比例低于输入声音中邻近声的音量比例的混合声记录到存储部分170中。这允许重放设备重放适当调整了邻近声的音量比例的混合声，而不需在重放设备上安装专门的音量校正功能。

前面描述了根据本实施例的声音记录设备10的配置。现在参考图10，在下文中描述在本实施例的声音记录设备10中执行的声音处理方法。

图10是示出根据本实施例在声音记录设备10中执行的声音处理方法的流程的流程图。在声音记录设备10中，声音拾取部分110首先拾取声音(S210)。若没有输入声音，则过程结束。另一方面，若存在输入声音，则距离/方向估计器136估计诸如发出全部或部分输入声音的声源的距离或方向之类的位置信息(S230)。

然后，操作者声音估计器138判定输入声音是否包括诸如从操作者发出的声音或由操作者的动作引起的噪声之类的邻近声(S240)。若操作者声音估计器138判定输入声音包括邻近声，则声源分离部分140将输入声音分离成邻近声和不同于邻近声的拾取目标声(S250)。

之后，声音混合部分150以预定的混合比来混合被声源分离部分140分离的邻近声和拾取目标声，从而生成混合声(S260)。在步骤S260之后或者当步骤S240判定输入声音不包括诸如从操作者发出的声音或由操作者的动作引起的噪声之类的邻近声时，记录部分160将混合声或者输入声音存储到存储部分170中。

如上所述，在本实施例的声音记录设备10中，声源分离部分140基于距离/方向估计器136估计的输入声音的声源位置信息来分离输入声音中包括的从特定声源发出的邻近声，并且声音混合部分150以混合声中邻近声的音量比例低于输入声音中邻近声的音量比例的方式来混合邻近声和作为输入声音包括的其他声音的拾取目标声。

因此，若输入声音中从特定声源发出的邻近声的音量过高，则声音混合部分150可以生成拾取目标声的音量比例高于输入声音中拾取目标声的音量比例的混合声。结果，声音记录设备10可以抑制邻近声的相对音量从而避免拾取目标声被不当地掩埋在邻近声中。另外，声音记录设备10可以记录输入声音中包括的诸如噪声或从操作者发出的声音之类的邻近声的效果被减轻或消除的高品质混合声。

声音记录设备10可以记录邻近声的音量比例低于输入声音中邻近声的音量比例的混合声。这允许重放设备重放适当调整了邻近声的音量比例的混合声，而不需在重放设备上安装专门的音量校正功能。

另外，由于本实施例的声音记录设备10可以通过软件处理输入声音并记录调整了邻近声和拾取目标声的音量比的混合声，因此可以缩小诸如麦克风数目之类的硬件规模。

【第二实施例】

下面描述根据本发明第二实施例的声音重放设备11。本实施例的声音重放设备11能够重放调整了预存声音中包括的邻近声的音量比例的混合声。下面参考图11来描述声音重放设备11的配置。

图11是示出根据本实施例的声音重放设备11的配置的功能框图。本实施例的声音重放设备11包括声音判定部分120、声源分离部分140、声音混合部分150、存储部分172、再现部分174和声音输出部分180。在对本实施例的描述中，将不重复描述与第一实施例中描述的配置实际上相同的配置，这里主要描述与第一实施例的配置不同的配置。

存储部分172存储记录在具有声音记录功能的给定设备中的声音。再现部分174读出存储部分172中存储的声音并根据需要对其进行解码。然后，再现部分174将存储部分172中存储的声音输出到声音判定部分120和声源分离部分140。声音判定部分120和声源分离部分140将来自再现部分174的输出视为输入声音，并执行与第一实施例中描述的处理实际上相同的处理。

声音输出部分180输出由声音混合部分150混合的混合声。声音输出部分180例如可以扬声器或耳机。与第一实施例中的存储部分170类似，本实施例的存储部分172也可以是诸如EEPROM和EPROM之类的非易失性存储器，诸如硬盘和圆盘状磁盘之类的磁盘，诸如CD-R/RW、DVD-R/RW/+R/+RW/RAM和BD(蓝光盘(注册商标))-R/BD-RE之类的光盘，或者诸如MO(磁光)盘之类的存储器。

如上所述，在本实施例的声音重放设备11中，声音判定部分120、声源分离部分140和声音混合部分150基于从再现部分174输入的输入声音来生成混合声并将混合声作为再现声音输出。这实现了邻近声的音量比例被适当调整的混合声的重放，而不需在将输入声音记录到存储部分172中的记录设备上安装专门的音量校正功能。这还实现了诸如噪声或从操作者发出的声音之类的邻近声的效果被减轻或消除的高品质混合声的输出。

【第三实施例】

下面描述根据本发明第三实施例的声音重放设备12。若对输入声音进行了AGC(自动增益控制)，则本实施例的声音重放设备12能够反向校正输入声音中包括的拾取目标声的音量并增强拾取目标声。下面参考图12和13来描述本实施例的声音重放设备12的配置和操作。

图12是示出根据本实施例的声音重放设备12的配置的功能框图。声音重放设备12包括声音判定部分120、声源分离部分140、声音混合部分150、存储部分172、再现部分174、声音输出部分180和音量校正部分190。在对本实施例的描述中，将不详细描述与第二实施例中描述的配置实际上相同的配置，这里主要描述与第二实施例的配置不同的配置。

本实施例的存储部分172存储被部分或全部进行了AGC(音量校正)的声音。AGC是一种压缩器机制，它的一个目标是通过自动降低过高音量输入的音量级来避免限幅噪声(clipping noise)。下面参考图13来描述被实施了AGC的声音的音量。

图13是以对比的方式示出AGC实施之前声音(原始声音)的音量和AGC实施之后声音的音量的图示。若AGC实施之前声音的音量高于阈值th，则在设为发动时间(attack time)的时间内AGC将音量压缩至预定比例。图13示出AGC实施之前声音的音量在设为发动时间的时间内被压缩至1/2至2/3的情况。之后，若AGC实施以后声音的音量低于阈值th，则在设为解除时间的时间内解除AGC。

常常是在过高音量级的邻近声从声音记录设备附近输入时，音量超过阈值th而导致AGC的实施。因此，由来自远处声源的拾取目标声造成AGC实施的情况不常有。但是，由于输入声音全部被AGC压缩，因此不仅输入声音中的邻近声而且原本低音量级的拾取目标声都被AGC实施所压缩。

鉴于上述问题，发明了根据本实施例的声音重放设备12。本实施例的声音重放设备12能够利用音量校正部分190的功能来在输入声音被实施AGC时增强拾取目标声。

音量校正部分190基于声源分离部分140分离的邻近声的音量变化来检测其间施加了AGC的发动时间，并扫描在声源分离部分140分离的拾取目标声中与发动时间相对应的时间段。虽然拾取目标声可能包括背景环境声、从对象发出的声音等，但是若它只包括背景环境声，则它的音量级近似恒定。因此，音量校正部分190可以在拾取目标声的音量以预定级别或更高级别变化的时间段内判定AGC被实施。

这种情况下，音量校正部分190执行反向校正，将该时间段中拾取目标声的音量调整为与先前和后续时间段的音量基本上相等，从而增强拾取目标声。

若发动时间和解除时间的估计值以及音量校正部分190执行的反向校正度被存储，则当拾取目标声包括从对象发出的声音时，这些值可被有效使用。具体而言，当拾取目标声包括从对象发出的声音时，音量校正部分190从邻近声中检测发动时间，并扫描拾取目标声中与发动时间相对应的时间段的全部先前和后续时间段中的音量值。作为扫描结果，若音量值以对应于发动时间或解除时间的时间宽度而变化，则音量校正部分190可判定实施了AGC并执行反向校正。

声音混合部分150以邻近声的音量比例被抑制的音量比来混合音量被音量校正部分190反向校正过的拾取目标声和被声源分离部分140分离的邻近声，从而生成混合声。

如前所述，若由于邻近声音量过高而造成输入声音的音量被整体抑制并且拾取目标声的音量被相应地抑制，则根据本发明第三实施例的声音重放设备12可以根据输入声音音量的抑制度来增大拾取目标声的音量，从而避免拾取目标声太小。

虽然音量校正部分190包括在本实施例的声音重放设备12中，但是若音量校正部分190包括在第一实施例的声音记录设备10中，则可以在对输入声音实施AGC时将包括根据AGC程度被增强的拾取目标声的混合声记录到存储部分170中。

本领域技术人员应该理解，取决于涉及要求和其他因素可以想到各种修改、组合、子组合及变更，只要它们落入所附权利要求或其等同物的范围之内。

例如，不必以根据流程图所示次序的时间顺序来执行声音记录设备10的过程的每一步，并行或单独执行的处理(例如，并行处理或对象处理)可被包括在内。

另外，虽然图3示出声音判定部分120判定声音拾取部分110拾取的输入声音是否包括邻近声的情况，但是本发明不限于这种情况。例如，声音判定部分120可接收声源分离部分140分离的声音，估计分离的声音的声源位置，判定分离的声音是否包括邻近声，并将分离的声音输出到声音混合部分150。这种情况下，声源分离部分140对每个的声源声音进行不带默认值的盲分离。

另外，可以创建计算机程序，所述程序使得声音记录设备10、声音重放设备11或声音重放设备12中内置的诸如CPU、ROM或RAM之类的硬件执行与声音记录设备10、声音重放设备11或声音重放设备12中每一个的配置相同的功能。另外，可以提供存储这种计算机程序的存储器。还可以通过利用硬件实现声音记录设备10、声音重放设备11或声音重放设备12的每个功能框图所示的每个功能块来获得硬件上的处理序列。

本发明包含与2007年2月15日向日本专利局递交的日本专利申请JP2007-035410相关的主题，其全部内容通过引用方式结合于此。

Claims

1.一种声音处理设备，包括：

声音判定部分，用来基于输入声音的音量和品质中的至少一个和声源的位置信息来判定输入声音是否包括从特定声源发出的第一声音；

声音分离部分，用来在所述声音判定部分判定所述输入声音包括所述第一声音的情况下，将所述输入声音分离成所述第一声音和从不同于所述特定声源的声源发出的第二声音；以及

声音混合部分，用来以预定的音量比混合由所述声音分离部分分离的所述第一声音和所述第二声音。

2.如权利要求1所述的声音处理设备，其中

所述特定声源位于离所述输入声音的拾取位置规定距离之内。

3.如权利要求2所述的声音处理设备，其中

所述第一声音包括由用于拾取所述输入声音的设备的操作者引起的声音，并且

所述第二声音包括从拾取目标发出的声音。

4.如权利要求3所述的声音处理设备，还包括：

拍摄部分，用来拍摄视频，其中

所述声音判定部分包括位置信息计算部分，所述位置信息计算部分用来基于输入声音中包括的从一个或多个声源发出的声音的音量和相位中的至少一个来计算声源的位置信息，并且若所述位置信息计算部分计算出所述输入声音的声源位置在所述拍摄部分的拍摄方向后方且所述输入声音匹配或近似于人声，则所述声音判定部分判定所述输入声音包括所述从特定的声源发出的第一声音。

5.如权利要求3所述的声音处理设备，其中

若所述输入声音的声源位置在离拾取位置规定距离之内，所述输入声音包括冲激声，且所述输入声音的音量高于过去的平均音量，则所述声音判定部分判定所述输入声音包括所述从特定的声源发出的第一声音。

6.如权利要求1所述的声音处理设备，包括：

多个拾取部分，用来拾取所述输入声音；以及

记录部分，用来将所述声音混合部分混合的混合声记录到存储器中。

7.如权利要求4所述的声音处理设备，包括：

存储器，用来存储所述输入声音；以及

再现部分，用来再现所述存储器中存储的输入声音并将所述输入声音输出到所述声音判定部分和所述声音分离部分中的至少一个。

8.如权利要求1所述的声音处理设备，包括：

音量校正部分，用来根据对所述输入声音的音量进行了校正的情况下的校正度来反向校正所述声音分离部分分离的第二声音的音量。

9.一种声音处理设备，包括：

声音分离部分，用于分离输入声音；

声音判定部分，用于基于输入声音的音量和品质中的至少一个和声源的位置信息来判定所述声音分离部分分离的声音是否包括从特定声源发出的第一声音；以及

声音混合部分，用于以预定混合比来混合所述声音分离部分分离的所述第一声音以及从不同于所述特定声源的声源发出的第二声音。

10.一种用于声音处理的方法，包括：

声音判定步骤，用来基于输入声音的音量和品质中的至少一个和声源的位置信息来判定输入声音是否包括从特定声源发出的第一声音；

声音分离步骤，用来在所述声音判定步骤判定所述输入声音包括所述第一声音的情况下，将所述输入声音分离成所述第一声音和从不同于所述特定声源的声源发出的第二声音；以及

声音混合步骤，用来以预定的音量比混合由所述声音分离步骤分离的所述第一声音和所述第二声音。

11.如权利要求10所述的方法，还包括：

拍摄步骤，用来拍摄视频，其中

所述声音判定步骤包括位置信息计算步骤，所述位置信息计算步骤用来基于输入声音中包括的从一个或多个声源发出的声音的音量和相位中的至少一个来计算声源的位置信息，并且若所述位置信息计算步骤计算出所述输入声音的声源位置在所述拍摄步骤的拍摄方向后方且所述输入声音匹配或近似于人声，则所述声音判定步骤判定所述输入声音包括所述从特定的声源发出的第一声音。

12.如权利要求10所述的方法，其中

若所述输入声音的声源位置在离拾取位置规定距离之内，所述输入声音包括冲激声，且所述输入声音的音量高于过去的平均音量，则所述声音判定步骤判定所述输入声音包括所述从特定的声源发出的第一声音。