CN101398475B

CN101398475B - 声源方向检测装置和方法以及声源方向检测相机

Info

Publication number: CN101398475B
Application number: CN2008101671474A
Authority: CN
Inventors: 川口贵义; 小玉康广; 樱庭洋平
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-09-27
Filing date: 2008-09-26
Publication date: 2011-12-07
Anticipated expiration: 2028-09-26
Also published as: JP4872871B2; US20090086993A1; JP2009086055A; CN101398475A; US8098843B2

Abstract

本发明提供了声源方向检测装置和方法以及声源方向检测相机。这里公开的声源方向检测装置包括：多个麦克风，被配置为收集来自声源的声音以形成音频帧；频率分解部分，被配置为将音频帧分解为频率分量；误差范围确定部分，被配置为确定与声音一起收集的噪声的影响，作为相对相位的误差范围；功率水平分散部分，被配置为基于由误差范围确定部分确定的误差范围，针对由频率分解部分分解得到的每个频率分量来分散所述声音的功率水平；功率水平相加部分，被配置为将经功率水平分散部分分散的功率水平相加；以及声源方向检测部分，被配置为基于由功率水平相加部分相加得到的功率水平的最高点所处的相位，来检测声源的方向。

Description

声源方向检测装置和方法以及声源方向检测相机

技术领域

本发明涉及通过分析例如在会议期间由讲话者发出的声音来检测该讲话者的方向的声源方向(sound source direction)检测装置、声源方向检测方法和声源方向检测相机。

背景技术

存在在所谓的视频会议期间用于链接例如在远程位置处的讲话者的视频会议系统。利用这一类系统进行操作，参与视频会议的人们的谈话和姿势被实时地在所链接的远程位置之间交换。这样的一种视频会议系统通常由下述组件构成：用于收集从正在进行中的会议发出的声音的麦克风、用于对参与者成像的相机、并入到相机中以便收集周围声音的声源检测麦克风、以及用于基于由声源检测麦克风收集的周围声音来检测声源(即，讲话者)的方向的声源方向检测部分。视频会议系统还包括：驱动部分，其将相机对准于声源方向检测部分所检测到的讲话者的方向；以及将由相机成像的视频帧和由检测麦克风收集的音频帧转换为合适的发送格式之后将转换后的数据发送到在相对的远程位置处设立的另一个会议系统的装置。

声源方向检测部分通过分析讲话者的语音来检测讲话者相对于相机的方向。当讲话者的方向被检测到时，驱动部分相应地将相机对准讲话者并开始对该讲话者成像。不同方法已被提出并被用于确定讲话者的方向(在下文中称为声源方向)。以下参考图12A到12C来概述的是通常如何使用两个麦克风来确定声源方向。

图12A示出了如何相对声源来布置两个麦克风。通常使用两个麦克风来检测声源方向。第一麦克风101a与第二麦克风102a相距距离D。当针对链接第一麦克风101a和第二麦克风102a的线段的中点绘制垂直线时，在一方的垂直线和另一方的箭头101b和102b之间形成了角度θ。角度θ 处的箭头表示声源100的方向。假设从第一麦克风101a或第二麦克风102a到声源100的距离比第一麦克风101a和第二麦克风102a之间的距离D长的足够多。因此，指示出来自声源100且进入第一和第二麦克风101a和102a的声音的方向的箭头101b和102b被视为相互平行。

在这种情况下，在一方的第一麦克风101a和另一方的由从第二麦克风102a向箭头101b引出的垂直线与箭头101b形成的交叉点之间具有距离L。距离L与两个麦克风在接收来自声源100的声波时在它们之间的时间差相对应。换而言之，将距离L[m]除以声速[m/s]得到两点之间的时间差，即，与由声源生成的声波同相的波表面到达第二麦克风102a之时和该声表面到达第一麦克风101a之时之间的时间差。于是从两个麦克风之间的距离D和根据所述时间差计算得到的距离L中获得sinθ的值。在计算得到sinθ的值的情况下，相机被相应地对准于声源方向A。

图12B在复平面上示出了由第一和第二麦克风101a和102a检测到的声音。如图12B所示，在以下两个矢量之间存在相位差φ：表示第一麦克风101a所检测到的声音的矢量B，和表示第二麦克风102a所检测到的声音的矢量C。该相位差φ可归因于以下事实：第一麦克风101a和声源100之间的距离与第二麦克风102a和声源100之间的距离不同，而声波来自同一声源。考虑相位差φ的影响使得可以获得两点之间的时间差，即，给定频率分量的声波到达第一麦克风101a之时和相同频率分量的声波到达第二麦克风102a之时之间的时间差。这样获得的时间差又能够计算sinθ的值，藉此来检测声源方向。

首先按预定单位时间间隔来收集声音，并例如通过快速傅立叶变换(FFT)来分解成构成用于估计声源方向的矢量的频率分量。因而获得了第一麦克风101a和第二麦克风102a之间的相位差φ。在复平面上可见的矢量的长度表示所涉及的频率分量的声功率水平。理想情况下，第一麦克风101a所检测到的声源方向应当与第二麦克风102a所检测到的声源方向一致，该方向即图12B所示的矢量B的方向。例如，如果声源位于正前方(即，从第一麦克风101a到声源100的距离等于从第二麦克风102a到声源100的距离时)，则相位差为零。如果声源位于斜前方(即，从第一麦克风101a到声源100的距离与从第二麦克风102a到声源100的距离不等时)，则发生相位差。即，在复平面上的多个矢量揭示了相位差的存在。

图12C示出了通过在相对于面对第一和第二麦克风101a和102a的正前方(即，针对链接第一麦克风101a和第二麦克风102a的线段的垂直线的方向)的±90度的方向上进行分析而获得的典型柱状图。在图12C所示的柱状图中，横轴表示sinθ的值，纵轴表示相加功率水平(additionalpower level)。因为人的语音包含各种频率，所以针对所涉及的各个频率来计算功率水平。在所涉及的每个角度处，所获得的功率水平被添加到柱状图。结果指向声源方向的角度。

因为将在这里解释的原因，sinθ的值包括|sinθ|>1。显然包括|sinθ|≤1。通常，使用以下表达式(1)来得到sinθ的值：

其中，f[Hz]表示频率，φ表示相位差

如果基于时间差、声速和麦克风之间的距离来确定sinθ的值，并且如果声波到达第二麦克风102a早于到达第一麦克风101a，则时间差取正值。如果声波到达第二麦克风102a晚于到达第一麦克风101a，则时间差变为负值。因此sinθ的值可以是正的或负的。如果在以上的表达式(1)中，分子大于分母，则sinθ的值可以小于-1或者大于1。在|sinθ|>1时出现的值源于错误或者声波衍射。由于这些原因，在|sinθ|>1时显示的柱状图也需要考虑。

在通过多个麦克风来收集声音的情况下，针对所涉及的各个频率估计得到的角度被添加到如上所述的柱状图。随后，功率水平为最高的角度被检测为声音方向。

日本专利早期公开No.Hei7-336790公开了一种麦克风系统，该麦克风系统收集多个声音信号，并找到它们之间的时间延迟以及所收集的信号中的最高功率水平。时间延迟和最高功率水平在收集声音时被用于从一个声音信号切换到另一个声音信号。

日本专利早期公开No.2004-12151公开了一种声音方向估计装置，其具有用于防止在估计声源位于被反射的声音和被同时输入的噪声中的哪里时的精度恶化的配置。

日本专利早期公开No.2006-194700公开了用于最小化声音方向中的由反射导致的那些错误的技术。

发明内容

在被实现时，目前为止所提出的技术会导致错误地检测讲话者所处的位置。错误检测声源方向的主要原因被视为是在声源100周围发生的噪声分量的影响。以下将参考图13A和13B来论述在声源100周围生成的噪声的影响。

图13A是伴随声音的噪声的影响的示意性图示。如图13A所示，噪声具有特定功率水平(N)，噪声分量在复平面上按预定间隔旋转。具有比噪声高的功率水平P的声音被分解为频率分量，这些频率分量又被用于求取声源方向。此时，从正确的声源方向偏离最大量N的方向被检测作为视在(apparent)且错误的声源方向。当视在声源方向被检测到时，创建得到变形的柱状图，该变形柱状图指示了附有预定频率范围内的相加功率水平的频率分量。

图13B是所涉及的每个频率分量均附有相加功率水平的典型柱状图表示。在这个示例中，给出最大柱状图值的相加值111指示出sinθ的值处于“-0.6”的方向上。但是，事实上，正确的声源方向A是图12C所示的相加值110(sinθ＝0.3)的方向。即，功率水平可能在特定频率范围内被在错误的方向上相加，其结果是操作中的相机可能从讲话者偏离。

本发明的实施例是鉴于上述情况而作出的，并且提供了可靠地检测声源(即，讲话者)的方向的配置。

在根据本发明一个实施例来执行本发明时，提供了一种声源方向检测方法，该方法包括以下步骤：按预定单位时间间隔，将由多个麦克风通过收集来自声源的声音而形成的音频帧分解为频率分量；确定在声源周围发生的噪声的影响，作为误差范围；基于在误差范围确定步骤中确定的误差范围，针对在频率分解步骤中分解得到的频率分量来分散所确定的功率水平；将分散后的功率水平相加；以及基于相加得到的功率水平的最高点所处的相位来检测声源的方向。

根据本发明另一个实施例，提供了一种声源方向检测方法，该方法包括以下步骤：按预定的单位时间间隔，将由多个麦克风通过收集来自声源的声音而形成的第一音频帧分解为频率分量；将针对分解得到的每个频率分量来确定的功率水平相加；基于相加得到的功率水平的最高点所处的相位，来检测声源的方向；对相加得到的功率水平进行平滑；存储经平滑的功率水平；以及将得自第一音频帧的经平滑的功率水平与针对第二音频帧中的每个频率分量来确定的功率水平相加，其中，第二音频帧由所述多个麦克风通过从第一音频帧开始继续收集声音而形成。

在如上所述地具体化并实现本发明的实施例的情况下，无论是否在声源(即，讲话者)周围发生噪声，都可以可靠地检测该声源的方向。

此外，通过使用连续的音频帧，可以比之前更加可靠地检测讲话者的方向。

根据上述本发明的实施例，声源(讲话者)的方向被可靠地检测到，以使得操作中的相机可以相应地被指向所检测到的方向。从而防止相机对准与讲话者的方向不一致的方向。

当从连续音频帧中可靠地检测到讲话者的方向时，相机被指向正确检测到的方向。这种配置还防止了相机指向错误方向。

附图说明

在阅读以下描述和所附附图之后，本发明的实施例的其它目的和优点将变得清楚可见，在附图中：

图1是示出如何配置作为本发明第一实施例的视频会议系统的外视图；

图2是示出作为第一实施例的视频会议系统通常如何设置的示意图；

图3是示出作为第一实施例的视频会议系统的典型内部结构的框图；

图4是构成由第一实施例执行的声源方向检测处理的步骤的流程图；

图5A和5B是示出由第一实施例显示的典型柱状图的图形表示；

图6A和6B是示出关于第一实施例在高频范围内具有最小的相位影响的典型柱状图的图形表示；

图7是示出被实现为本发明第二实施例的视频会议系统的典型内部结构的框图；

图8A和8B是示出通常逐帧地计算和显示的典型柱状图的图形表示；

图9是构成由第二实施例执行的声源方向检测处理的步骤的流程图；

图10A到10D是示出由第二实施例显示的典型柱状图的图形表示；

图11A和11B是示出关于第二实施例的反射声音的影响的示意图；

图12A到12C是示出用于检测声源方向的常见处理的示意图；以及

图13A和13B是示出使用传统设置的柱状图来检测声源方向的常见处理的图形表示。

具体实施方式

以下将参考图1到图6B来描述本发明的第一优选实施例。第一实施例被示例性地实现为视频会议系统10，视频会议系统10能够发送和接收在远程位置之间的实时的图像和声音。

图1是示出第一实施例的视频会议系统10通常如何被配置的外视图。用于对讲话者成像的相机1在其外壳的底部包含用于收集声音以检测它们的源的第一麦克风1a和第二麦克风1b。第一和第二麦克风1a和1b相隔预定距离(例如，大约10厘米)。第一和第二麦克风1a和1b将所收集的声音转换为音频帧，该音频帧被发送给控制设备2。第一和第二麦克风1a和1b所收集的声音不被用于记录讲话者的谈话，而仅仅被用于检测声源。相机的外壳被固定安装以使得第一和第二麦克风1a和1b在它们的方位上是固定的。

相机1配备有驱动部分1d，该驱动部分1d能够摇头(panning)和俯仰摆动(tilting)。驱动部分1d包括用于对讲话者成像的镜头部分1c。镜头部分1c包含未示出的变焦控制机构和聚焦控制机构。当视频会议系统10检测讲话者的方向时，驱动部分1d将镜头部分1c指向讲话者，并调整该部分的角度。驱动部分1d通过分析镜头部分1c所拍摄的图像来识别讲话者的脸部，并执行变焦控制以便将讲话者的脸部置于屏幕中间。

相机1与控制设备2相连接，控制设备2控制系统的各个组件。在操作时，相机1将所捕捉的光学图像转换为电信号，这些电信号构成了被发送给控制设备2的视频帧。能够收集所有方向的声音的不定向麦克风3收集音频帧并将它们发送给控制设备2。控制设备2与显示设备4相连接，显示设备4结合了用于输出声音的扬声器并且其设有用于显示图像的液晶显示器。显示设备4显示在远程位置处的相对方的会议室的示图，并通过扬声器来输出每个讲话者的谈话。

控制设备2根据MPEG-4(运动图像专家组第4阶段)标准来压缩相机1所获得的视频帧和不定向麦克风3所获得的音频帧，并将压缩后的帧分割成UDP(用户数据报协议)分组。为了安全通信，在发送之前对这些分组进行加密。所述加密例如使用AES(高级加密标准，它是对称密钥密码术的一个版本)来进行。通常使用SDP(会话描述协议)或RTP(实时传送协议)作为实现实时通信建立的传输协议。控制设备2通过路由器5以多播方式向相对方发送分组。经由诸如因特网之类的网络在所涉及的各个位置之间收发数据。

在从相对方接收到分组之后，控制设备2使得显示设备4显示相对方的图像并输出它们的语音。此外，显示设备4还可以将其屏幕分割成多个部分以同时显示讲话者11a到11d。以这种方式，在虚拟地消除在远程位置之间的距离的情况下，这些远程位置所涉及的各方可以举行会议。

以下将参考图2来说明视频会议系统10的典型设置。图2给出了会议室13的鸟瞰图。在会议室13的中间是桌子12，在桌子12上布置了不定向麦克风3。四个人11a到11d坐在桌子12的周围，在相对侧各自有两个人以进行会议。显示设备4被按下述方式来布置为接近会议室的一面墙：该方式使得显示设备4不会遮挡相机1的视线并且可以被会议室13中的每个人11a到11d看到。在操作时，显示设备4显示正在连接的相对方的图像，并输出他们的语音。

用于对各个人11a到11d成像的相机1被设置在会议室13的一个角落。当这些人中的一个开始讲话时，相机1检测讲话者的方向并通过摇头、俯仰和变焦操作来对那个人成像。相机1可以在约为120度的摇头范围内适当地对每个讲话者成像。

以下将参考图3来描述视频会议系统10的典型内部结构。相机1配备有镜头部分1c。图像光通过镜头部分1c输入以在CCD(电荷耦合器件)成像部分1f的成像区域上形成图像。用于在变焦和聚焦操作中控制镜头部分1c的相机驱动部分1e使用由控制设备2提供的控制信号来驱动镜头部分1c。相机1通过成像所获得的模拟视频信号被馈送给控制部分16，控制部分16被并入在控制设备2中并且其控制其它组成部分。控制部分16通过适当的数字化处理将模拟形式的视频帧转换为数字形式的视频帧。

第一和第二麦克风1a和1b所收集的模拟信号的音频帧也被提供给控制部分16。控制部分16又通过合适的数字化处理将模拟形式的音频帧转换为数字形式的音频帧。

控制设备2设有用于检测声源方向的声源方向检测装置20。声源方向检测装置20包括：频率分解部分21，用于将控制部分16所提供的数字音频信号分解成多个频率；误差范围确定部分22，用于确定可应用于噪声的误差范围；功率水平分散部分23，用于基于所确定的误差范围对每个频率分散功率水平；功率水平相加部分24，用于将分散后的功率水平分布(功率水平值)相加；以及声源方向检测部分25，用于基于在预定频率范围内被相加的功率水平分布来检测声源方向。

频率分解部分21从数字音频信号中提取多个频率分量。将要提取的频率分量的频率值落在例如200Hz到4kHz的可听范围内。频率分量的解析度依据FFT设置而不同。误差范围确定部分22确定由在声源周围出现的噪声导致的相位误差范围。示例性地，这样的噪声源自空调机。如果这样确定了相位误差范围，则功率水平分散部分23在该误差范围内分散功率水平。功率水平相加部分24将分散后的功率水平相加。在稍后将论述的图5A和5B的柱状图中示例性地指示了这样相加得到的功率水平。

基于由功率水平相加部分24相加得到的功率水平，声源方向检测部分25通过找出相加得到的功率水平中的最高者所处的相位来检测声源方向。这时，声源方向检测部分25参考相位表26，相位表26列出了与相位 θ相关联的相位差φ。声源方向检测部分25根据由有效相位差φ确定的时间差来检测sinθ的值。所检测到的sinθ的值随后被从声源方向检测部分25发送到控制部分16。给定来自声源方向检测部分25的sinθ的值，控制部分16使得驱动部分1d将镜头部分1c对准讲话者的方向。

以下将参考图4来说明用于估计声源方向的典型处理。在图4的步骤S1中，第一和第二麦克风1a和1b收集来自声源的声音，将所收集的声源形成音频帧，并将音频帧发送到控制设备2。控制设备2所接收的音频帧被转换为数字信号，该数字信号被转发到频率分解部分21。

在步骤S2中，频率分解部分21将音频帧分解成多个频率分量。此时，频率分解部分21通过对音频帧进行快速傅立叶变换来将声音分解成频率分量。

在步骤S3中，误差范围确定部分22确定由噪声导致的误差范围。所确定的声源方向在噪声的影响之下可能偏移。通过在误差范围内按正态分布分散功率水平来规避这个瓶颈。这使得可以最小化偏移的声源方向对相加后的功率水平的不利影响。

在步骤S4中，功率水平相加部分24进行检验以判定给定频率分量是否落在预定频率范围内。示例性地，进行检验以查看感兴趣的频率分量是否被包括在200Hz到4kHz的范围内。频率值最初被设置为200Hz并在之后以几十Hz的单位来递增，并且在每个频率范围内获得的功率水平被相加。

如果发现频率分量落在预定频率范围内，则功率水平分散部分23前进到步骤S5，并在预定误差范围内按正态分布来分散功率水平。在步骤S6中，功率水平相加部分24将经功率水平分散部分23分散的功率水平分布相加。控制随后返回到步骤S4，对另一个频率分量进行校验，并且将得自新的频率分量的分散后的功率水平分布相加。

当分散在预定频率范围内的所有功率水平分布都已经被相加时，到达步骤S7。在步骤S7中，声源方向检测部分25根据相加得到的功率水平的最高点所位于的sinθ的值求得相位，并根据这样获得的相位来检测声源方向。

现在将参考图5A和5B来说明通过参考图4描述的处理来显示的典型柱状图。图5A是示出通过相加某些频率处的功率水平分布而获得的柱状图的图形表示。所收集的声音被分解成多个频率分量。针对每个频率分量确定的功率水平在误差范围32内按正态分布分散。其结果是，分散后的功率水平的最高者被加到sinθ＝0.3的估计值。在这个示例中，分散后的功率水平被与中心位于sinθ＝0.3的sinθ的五个值相加。

图5B是示出通过将预定频率范围内的分散后的功率水平分布相加而获得的柱状图的图形表示。声源方向检测部分25将具有最高相加功率水平的sinθ的值视为估计方向33的表示，推测声源位于该估计方向33上。这使得可以正确地检测过去被错误估计的声源方向，如图5B所示。

以下将参考图6A和6B来说明当高频声音被相加时所显示的典型柱状图。因为除声源方向的正确候选之外，sinθ的位置随频率而变化，所以可以通过将柱状图相加来选择精确的声源方向。过去，在涉及高频的情况下，存在完全不同的方向被错误地估计为声源方向的情况。相反，本实施例的声源方向检测装置20即使在高频的情况下也能够正确地检测声源方向。以下将描述第一实施例是如何能够进行声源方向的正确检测的。

图6A是与高频处的声功率水平相加的普通柱状图的图形表示。假设声源的正确方向位于sinθ＝0.3。从图6A中可见，从3kHz声波获得的功率水平35和从4kHz声波获得的功率水平36在与sinθ＝0.3处的方向相反的方向上被分散并被相加。这是因为在高频处(sinθ_0＝f(φ，频率)和sinθ_1＝f(φ+2π，频率))存在多个θ候选。在其它方向上相加得到的值的影响因而可能导致对声源的错误检测。

当如上所述在相加之前对功率水平进行分散时，即使在低频处，检测到的声源方向也变得或多或少是正确的。因而从低频开始相加柱状图。如果发现在高频处存在多个候选，则改变在该点处要被相加的值。

图6B示出了由第一实施例的声源方向检测装置20在高频处将声功率水平向其相加的典型柱状图。从图6B也可见，从3kHz声波获得的功率水平35和从4kHz声波获得的功率水平36被分散在各个方向且在各个方向被相加。与前一示例的不同之处在于，频率分量越高，则要被相加的值被加权为变得更大。如果sinθ_1表示将由第一麦克风1a相加的针对最高达3kHz的频率的功率水平，并且sinθ_2表示将由第二麦克风1b相加的针对也是最高达3kHz的频率的功率水平，则以下表达式(2)和(3)被用于找到要被相加的功率水平：

\sin θ_1 = \frac{hist (\sin θ_1)}{{hist}_{(~ 3 khz)} (\sin θ_1) + {hist}_{(~ 3 khz)} (\sin θ_2)} \times (P - N) . . . (2)

\sin θ_2 = \frac{hist (\sin θ_2)}{{hist}_{(~ 3 khz)} (\sin θ_1) + {hist}_{(~ 3 khz)} (\sin θ_2)} \times (P - N) . . . (3)

因而根据sinθ的值来加权要被相加的功率水平，并且相应地检测到正确的声源方向。

根据上述第一实施例的声源方向检测装置20，通过最小化由麦克风与目标声音一起收集的噪声的不利影响可以检测到声源的正确方向。对声源方向的精确检测使得可以对当前的讲话者进行正确成像。

在以上描述中，声源方向检测装置20被示出为配备有用于确定在单位时间内在声音中包括的噪声的影响作为误差范围的误差范围确定部分22。可替代地，误差范围一旦被确定就可以存储在适当的存储器配置中达预定时间段(例如，3秒)。在这种情况下，控制从频率分解部分21传送到功率水平分散部分23。替代处理允许适当地计算误差范围，这是因为噪声的影响在延长的时间段内保持不变。附加的益处在于，因为少了一个要执行的处理步骤，所以提高了处理速度。

以下参考图7描述的是被实现为本发明第二实施例的声源方向检测装置40的典型内部结构。包括声源方向检测装置40的视频会议系统50被按与上述第一实施例的视频会议系统10相同的方式来配置和建立，因而将不再对其进行详细描述。在图7的标号中，已结合第一实施例在图3中使用的那些标号指示相似或相应部分。

声源方向检测装置40包括：频率分解部分21，用于将数字音频信号分解成多个频率；功率水平相加部分41，用于将分散后的功率水平相加；以及声源方向检测部分25，用于基于相加得到的功率水平分布的相加值来检测声源方向。声源方向检测装置40还包括：相加功率水平平滑部分42，用于使用预定公式来平滑每音频帧(或者在下文中简称为帧)的由功率水平相加部分4相加得到的值；以及经平滑相加功率水平存储部分43，用于存储经平滑的相加功率水平的值。功率水平相加部分41将从经平滑相加功率水平存储部分43提取的经平滑的相加值与分解得到的频率分量的相加功率水平相加。这样相加得到的功率水平被示出在稍后将论述的图10A到10D的柱状图之一中。

基于由功率水平相加部分41相加得到的功率水平，声源方向检测部分25将相加得到的功率水平的最高点所处的相位视为声源方向。此时，声源方向检测部分25参考相位表26，相位表26列出了与sinθ相关联的相位差φ。声源方向检测部分25根据利用有效的相位差φ确定的时间差来检测sinθ的值。检测到的sinθ的值随后被从声源方向检测部分25发送到控制部分16。给定来自声源方向检测部分25的sinθ的值的情况下，控制部分16使得驱动部分1d将镜头部分1c对准讲话者的方向。

以下参考图8A和8B描述的是基于按时间连续获得的相同频率分量的那些帧(即，第一帧和第二帧)来显示的柱状图。图8A示出了第一帧的典型柱状图，图8B指示了第二帧的典型柱状图。过去，按预定单位时间收集的声音被分解为每帧频率分量，并被与每帧功率水平相加。换而言之，与第一帧相加得到的功率水平在再次与第二帧相加之前被复位。在这种情况下，即使在帧为时间连续的情况下，柱状图也可能因帧的不同而不同，并且估计得到的声源方向也可能相应地分散。这个瓶颈通过本实施例的配置来规避。

以下参考图9描述的是由第二实施例的声源方向检测装置40执行的用于估计声源方向的典型处理。声源方向检测装置40获得时间连续音频帧(例如，在随后描述中的第一和第二帧)的每个的相加功率水平，并将这样获得的功率水平相加。该处理使得可以在根据第二帧来检测声源方向之前保持根据第一帧检测得到的声源方向的影响不变，同时在根据第二帧检测声源方向时考虑到余留的影响。

在图9的步骤S11中，第一和第二麦克风1a和1b收集声音，将所收集的声源形成音频帧，并将音频帧发送到控制设备2。控制设备2所接收的音频帧(即，第一帧)被转换为数字信号，该数字信号被转发到频率分解部分21。

在步骤S12中，频率分解部分21将音频帧分解为多个频率分量。此时，频率分解部分21通过对音频帧进行快速傅立叶变换来将声音分解为频率分量。

在步骤S13中，功率水平相加部分24进行检验以判定给定频率分量是否落在预定频率范围内。示例性地，进行检验以查看感兴趣的频率分量是否被包括在200Hz到4kHz的范围内。频率值最初被设置为200Hz，并在之后以几十Hz为单位递增，并且在各个频率范围内获得的功率水平被相加。

如果发现频率分量落在预定频率范围内，则到达步骤S14。在步骤S14中，功率水平相加部分41将从该频率分量得到的功率水平分布相加。控制随后返回到步骤S13，对另一个频率分量进行检验，并且将从该新频率分量获得的功率水平分布相加。

在步骤S15中，功率水平相加部分41将从经平滑相加功率水平存储部分43提取的经平滑的第一帧的功率水平与由多个麦克风通过从第一帧开始继续收集声音而生成的功率水平，按针对当前第二帧的每个频率分量确定的方式相加。

当分散在预定频率范围内的所有功率水平分布都已被相加时，到达步骤S16。在步骤S16中，声源方向检测部分25根据相加得到的功率水平的最高点所位于的sinθ的值求得相位，并根据这样获得的相位来检测声源方向。在步骤S17中，相加功率水平平滑部分42使用预定公式针对每个相位来平滑功率水平分布。这个步骤将失真的柱状图形成为平滑形状。

在步骤S18中，经平滑相加功率水平存储部分43存储针对经平滑的帧确定的功率水平分布的值。针对经平滑的帧确定的功率水平分布的值在步骤S15中被相加。

以下参考图10A到10D描述的是与由第二实施例的声源方向检测装置40针对第一和第二帧确定的功率水平分布相加的典型柱状图。图10A示出了第一帧的典型柱状图。即使在相同频率分量处，也因帧的不同而随时间显示不同的柱状图。这里假设函数hist(1，x)表示针对第一帧在sinθ＝x 处的相加值。

图10B示出了在空间方向(sinθ)上经平滑的第一帧的典型柱状图。相加功率水平平滑部分42使用以下表达式(4)对图10A的柱状图的相加得到的功率水平进行平滑：

hist_smooth(1，x)＝0.25×hist(1，x1)+0.5×hist(1，x)+0.25×hist(1，x+1)

...(4)

其中，hist_smooth(1，x)是表示经平滑的功率水平分布的函数。

图10C示出了第二帧的典型柱状图。对于第二帧，在sinθ＝x处的相加值用函数hist_add(2，x)表示。第二帧是根据在第一帧之后收集的声音来创建的。第一和第二帧是按时间连续方式创建的音频帧。应当注意，第一和第二帧可以在时间上相互部分重叠，或者不可以部分重叠。

图10D示出了通过将第一帧的柱状图与第二帧的柱状图相加而获得的典型柱状图。在这种情况下，函数hist_smooth(1，x)和hist_add(2，x)被相加，每个函数被通过使用以下表达式(5)来加权以置信系数“c”(0≤c≤1)，以增加声源方向的精确度：

置信系数：c(0到1)

hist(1，x)＝c×hist_add(1，x)+(1-c)×hist_smooth(0，x)...(5)

其结果是，获得了表示第二帧的经平滑的柱状图。置信系数“c”是指示与先前的柱状图相比在感兴趣的帧中可以具有多少置信度的值。即，置信系数“c”越高，则该帧就越可能是可以用以正确地检测讲话者的方向的声音分量。例如，先前的柱状图可能包含由并入在显示设备4中的扬声器输出的声音的影响。

讲话者所发出的每个句子的初始音节的音量变得越来越大，从而表示高置信度。相反，讲话者所发出的句子的尾部音节的音量变为逐渐降低，从而表示低置信度。在这种情况下，高置信度与高置信系数“c”相匹配，而低置信度与低置信系数“c”相匹配，藉此来适当地检测讲话者的方向。

第二实施例的视频会议系统50能够通过去除从墙壁和其它障碍物反射的声音的影响来检测讲话者的方向。以下将参考图11A和11B来说明从墙壁等反射的声音。

图11A示出了直接收集来自声源的声音的一个示例。在这种情况下，已知的是，麦克风之间的功率比为与到声源的距离的平方成反比。例如，假设第一和第二麦克风1a和1b相隔10厘米，并且从第二麦克风1b到声源(即，讲话者)的距离L1是1米。在这种情况下，如果第一麦克风1a和声源之间的距离L2近似为1.1米，则L1与L2之比为1比1.1(L1:L2＝1:1.1)。如果第一麦克风1a的功率水平用P1表示，第二麦克风1b的功率水平用P2表示，则P1与P2之比为1比(1/1.21)。即，第一麦克风1a与第二麦克风1b的功率比接近1比1。

图11B示出了在声音收集时直接声音和从墙壁反射的声音被混合的一个示例。在反射声音的影响之下，第一麦克风1a与第二麦克风1b的功率比不再为1:1。在这种情况下，功率比在某些频率处可能极大地不同。这可能需要降低加到柱状图的功率水平的比例。结果是降低了反射声音对柱状图的不利影响。这继而防止了对声源方向的错误检测。

上述第二实施例的声源方向检测装置40能够根据连续的音频帧来检测声源方向。在检测处理中，声源方向检测装置40存储先前获得的经历过柱状图计算的音频帧的功率水平，提取所存储的功率水平，并将所提取的值与新近获得的音频帧的功率水平相加。连续使用关于先前检测到的声源方向的信息有助于增加对声源方向的当前检测的精确度。

如果第一麦克风1a和第二麦克风1b之间的功率水平之差在给定频率范围内很显著，则将要与柱状图相加的功率水平的比例可以相应地降低。这种措施考虑了以下因素：在仅涉及直接声音的情况下，麦克风之间的功率水平之差与从各个麦克风到声源的距离的平方成反比。在也涉及反射声音的情况下，多个声音收集麦克风之间的功率水平之差往往变为很大，这是因为混合声音的相位同时彼此加强和抵消。由于这些原因，在因为混合存在直接声音和反射声音而通常会错误地检测声源方向的一般设置中，第二实施例的声源方向检测装置40将反射声音的不利影响最小化以精确地检测声源方向。

在第一和第二实施例的以上描述中，控制设备被示出为配备有声源方向检测装置。可替代地，可以直接将声源方向检测装置安装在相机中。这种替代结构使得相机可以独自检测声源方向并将其自身对准讲话者的方向。作为另一个替代实现方式，可以将声源方向检测装置建立在控制设备的外部。作为又一个替代实现方式，构成声源方向检测装置的组件可以使用软件程序来实现。在这种情况下，可以通过从合适的网站下载更新程序来容易地提高该装置的功能性。

本领域技术人员应当了解，在所附权利要求或其等同物的范围内，依据设计要求和其它因素可以进行各种修改、组合、子组合和变更。

本发明包含与在2007年9月27日向日本专利局提交的日本专利申请JP2007-252734相关的主题，该申请的全部内容通过引用而结合于此。

Claims

1.一种声源方向检测装置，包括：

多个麦克风，被配置为收集来自声源的声音以形成音频帧；

频率分解部分，被配置为将所述音频帧分解为频率分量；

误差范围确定部分，被配置为确定与所述声音一起收集的噪声的影响，作为相对相位的误差范围；

功率水平分散部分，被配置为基于由所述误差范围确定部分确定的所述误差范围，针对由所述频率分解部分分解得到的每个频率分量来分散所述声音的功率水平；

功率水平相加部分，被配置为将经所述功率水平分散部分分散的功率水平相加；以及

声源方向检测部分，被配置为基于由所述功率水平相加部分相加得到的功率水平的最高点所处的相位，来检测所述声源的方向。

2.一种声源方向检测方法，包括以下步骤：

按预定单位时间间隔，将由多个麦克风通过收集来自声源的声音而形成的音频帧分解为频率分量；

确定在所述声源周围发生的噪声的影响，作为误差范围；

基于在所述误差范围确定步骤中确定的所述误差范围，针对在所述频率分解步骤中分解得到的频率分量来分散所确定的功率水平；

将分散后的功率水平相加；以及

基于相加得到的功率水平的最高点所处的相位来检测所述声源的方向。

3.一种声源方向检测相机，包括：

多个麦克风，被配置为收集来自声源的声音以形成音频帧；

频率分解部分，被配置为按预定单位时间间隔将所述音频帧分解为频率分量；

误差范围确定部分，被配置为确定在所述声源周围发生的噪声的影响；

功率水平分散部分，被配置为基于由所述误差范围确定部分确定的所述误差范围，针对由所述频率分解部分分解得到的频率分量来分散所确定的功率水平；

声源方向检测部分，被配置为基于由所述功率水平相加部分相加得到的功率水平的最高点所处的相位来检测所述声源的方向。

4.一种声源方向检测装置，包括：

多个麦克风，被配置为收集来自声源的声音以形成第一音频帧；

频率分解部分，被配置为将所述第一音频帧分解为频率分量；

功率水平相加部分，被配置为将针对由所述频率分解部分分解得到的每个频率分量来确定的功率水平相加；

声源方向检测部分，被配置为基于由所述功率水平相加部分相加得到的功率水平的最高点所处的相位，检测所述声源的方向；

相加功率水平平滑部分，被配置为对由所述功率水平相加部分相加得到的功率水平进行平滑；以及

经平滑相加功率水平存储部分，被配置为存储经平滑的功率水平；

其中，所述功率水平相加部分将得自所述第一音频帧且从所述经平滑相加功率水平存储部分提取的所述功率水平与针对第二音频帧中的每个频率分量来确定的功率水平相加，其中，所述第二音频帧由所述多个麦克风通过从所述第一音频帧开始继续收集声音而形成。

5.如权利要求4所述的声源方向检测装置，其中，所述功率水平相加部分将针对从所述第一音频帧和所述第二音频帧分解得到的频率分量来确定的相加功率水平乘以置信系数，以使得所述声源的方向更加精确。

6.如权利要求5所述的声源方向检测装置，其中，所述功率水平相加部分针对由所述多个麦克风收集的声音，对相对于具有低音频功率比的频率分量而言具有高音频功率比的频率分量追加低功率水平。

7.一种声源方向检测方法，包括以下步骤：

按预定的单位时间间隔，将由多个麦克风通过收集来自声源的声音而形成的第一音频帧分解为频率分量；

将针对分解得到的每个频率分量来确定的功率水平相加；

基于相加得到的功率水平的最高点所处的相位，检测所述声源的方向；

对所述相加得到的功率水平进行平滑；

存储经平滑的功率水平；以及

将得自所述第一音频帧的所述经平滑的功率水平与针对第二音频帧中的每个频率分量来确定的功率水平相加，其中，所述第二音频帧由所述多个麦克风通过从所述第一音频帧开始继续收集声音而形成。

8.一种声源方向检测相机，包括：

频率分解部分，被配置为按预定单位时间间隔，将所述第一音频帧分解为频率分量；

声源方向检测部分，被配置为基于由所述功率水平相加部分相加得到的功率水平的最高点所处的相位，来检测所述声源的方向；