CN101310558A

CN101310558A - 远程会议设备以及声音发出/采集设备

Info

Publication number: CN101310558A
Application number: CNA2006800423457A
Authority: CN
Inventors: 石桥利晃; 铃木智; 田中良; 鹈饲训史
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2005-11-15
Filing date: 2006-11-10
Publication date: 2008-11-19
Anticipated expiration: 2026-11-10
Also published as: JP2007142595A; JP4929685B2; CN101310558B

Abstract

一种远程会议设备，其包括扬声器阵列和布置在扬声器阵列两侧的麦克风阵列。在各个麦克风阵列前面关于扬声器阵列中心线对称地设置多个焦点。指向焦点输出一簇声音采集束。通过计算指向关于中心线对称的焦点的声音采集束之间的差，消除了从扬声器阵列SPA进入麦克风的声音分量。另外，根据特定时段内差值的波高度值的平方和来估计哪个所设置的焦点最近。另外，通过比较指向相互对称的焦点的声音采集束的波高度值的平方和可以判定说话者的位置。

Description

远程会议设备以及声音发出/采集设备

技术领域

本发明涉及具有麦克风阵列和扬声器阵列的设备，其用于对接收到的声音和声场进行再现，更具体地说，该技术用于指定说话者或声源相对于麦克风阵列的位置。

背景技术

现有技术中，已经提出了用于在发送器侧接收声音并且在发送器侧再现声音的声场的装置(参见专利文献1至3)。在这种设备中，由多个麦克风拾取的声音信号等被发送，并且在接收器侧利用多个扬声器对发送器侧的声场进行再现。这种设备具有这样的优点，即说话者的位置可由声音指定。

在专利文献1中，公开了一种立体声信息的创造方法等，该方法通过发送由多个麦克风阵列接收到的声音信息，并随后从数目与麦克风阵列数目相同的扬声器阵列输出声音信息，从而对发送源的声场进行再现。

根据专利文件1所述的方法，毫无疑问地，可以在发送方对声场本身进行发送，并通过声音指定说话者位置。然而，却存在必须使用大量线路资源的问题。因此，公开了用于指定说话者的位置信息并发送该信息的装置等(例如，参见专利文献2)。

在专利文献2中，公开了这样的设备：在发送器侧，麦克风拾取说话者的声音，随后根据由麦克风获取的说话者信息来产生说话者位置信息，并且随后将说话者位置信息与声音信息进行多路复用并发送，同时在接收器侧，根据发送过来的说话者位置信息来对扬声器发声的位置进行改变，从而在接收器侧对说话者的声音和位置进行再现。

在专利文献3中，提出了这样一种会议设备：由于让所有说话者都分别握住麦克风是不实际的，所以通过利用麦克风控制部分来对输入至各个麦克风的声音信号的相位进行位移和合成，从而指定说话者。在专利文献3中，通过改变与说话者的座位位置对应的相移模式，从而确定给出最大声音的相位模式，并且随后根据所确定的相移模式来指定说话者的位置。

在专利文献4的谈话会议设备(声音发出/采集设备)中，从布置在上表面的扬声器发出经由网络输入的声音信号，并且，将由布置在侧表面的各个麦克风(它们的前端被设置成朝向多个不同方向)所拾取的声音信号经由网络发送至外部。

同样，在专利文献5的家庭广播设备(声音发出/采集设备)中，通过对来自麦克风阵列的各个麦克风的声音采集信号分别进行延迟处理，来检测说话者方向，并且降低从靠近该说话者的扬声器发出来的声音的音量。

专利文献1：JP-A-2-114799

专利文献2：JP-A-9-261351

专利文献3：JP-A-10-145763

专利文献4：JP-A-8-298696

专利文献5：JP-A-11-55784

发明内容

本发明所解决的问题

然而，在以上专利文献中，存在以下问题。

在专利文献1中的方法中，如上所述，存在必须使用大量线路资源的问题，等等。

在专利文献2、3中的方法中，可以根据从麦克风获取的说话者信息来产生说话者位置信息。但是，来自扬声器的声音会干扰位置检测，该扬声器输出的声音是从对面设备发送的。因此，存在这样的问题：由于声源被误认为在不同于实际方向的其它方向上，所以麦克风阵列(专利文献3中的照相机)会指向错误方向。

在专利文献4中的设备中，由于麦克风和扬声器被放置成彼此紧密相邻，所以来自扬声器的许多迂回声音会包含在各个麦克风的声音采集信号中。因此，在根据各个麦克风的声音采集信号来指定说话者方向并随后选择与有关方向对应的声音采集信号时，有时候会由于迂回声音的存在而错误地检测出说话者方向。

在专利文献5中的设备中，通过对包含迂回声音的声音采集信号进行延迟处理来检测说话者方向。因此，与专利文献4类似，迂回声音的影响不能被消除，因此有时候，说话者的方向被错误检测。

因此，本发明的目的是提供一种即使从一个扬声器发出声音在麦克风附近迂回并随后被麦克风检测到时也能够估计真实的声源的远程会议设备，所述扬声器输出的声音是由对面设备发送的。并且，本发明的另一个目的是提供声音发出/采集设备，它能够通过去除迂回声音的影响来精确地检测说话者位置。

用于解决问题的装置

在本发明中，用于解决上述问题的装置被构建如下。

(1)本发明的远程会议设备包括：扬声器阵列，其包括向上或向下发出声音的多个扬声器；第一麦克风阵列和第二麦克风阵列，它们被布置成在所述扬声器阵列的纵向方向上从所述扬声器阵列两侧拾取声音；第一束产生部分，所述第一束产生部分通过分别以预定量的延迟对分别由所述第一麦克风阵列的麦克风拾取到的声音信号进行延迟处理并对延迟后的声音信号进行合成，从而产生多个第一声音采集束，所述第一声音采集束分别将焦点放置在事先在所述第一麦克风阵列侧确定的多个第一声音采集区域上；第二束产生部分，所述第二束产生部分通过分别以预定量的延迟对分别由所述第二麦克风阵列的麦克风拾取到的声音信号进行延迟处理并对延迟后的声音信号进行合成，从而产生多个第二声音采集束，所述第二声音采集束分别将焦点放置在事先在所述第二麦克风阵列侧确定的多个第二声音采集区域上；差信号计算部分，其计算分别朝向所述多个第一声音采集区域和所述多个第二声音采集区域产生的声音采集束中那些与关于所述扬声器阵列的中心线沿纵向方向处在相互对称位置的声音采集区域对相对应的声音采集束的差信号；第一声源位置估计部分，其选择一对其中的差信号的信号强度较大的声音采集区域；以及第二声源位置估计部分，其从由所述第一声源位置估计部分所选择的所述声音采集区域对中选择与强度较大的声音采集束相对应的声音采集区域，从而估计出声源位置存在于所选择的声音采集区域中。

第一束产生部分和第二束产生部分产生第一和第二采声音集束从而分别将焦点放置于对称位置上的声音采集区域中。并且，从对面设备发送过来并从扬声器阵列输出的声音分别被几乎对称地输出至一对麦克风阵列的两侧。因此，可以这样考虑，从扬声器阵列输出的声音被大致平均地输入至第一和第二采声音集束，并且差信号计算部分计算了第一和第二采声音集束之间的差信号，所以从扬声器阵列输出的声音可被消除。同样，即使在计算出声音采集束的有效值之间的差值时，从扬声器阵列输出的声音被大致平均地输入至声音采集束所指向的焦点，从而类似地可以消除从扬声器阵列输出的声音。

并且，即使计算出这个差值，除了从扬声器阵列输出的声音之外的输入至麦克风阵列的声音也从不会消除。作为典型示例，当说话者仅对一侧的麦克风阵列说话并且产生了指向说话者方向的声音采集束时，说话者的声音被输入至一个声音采集束中，但是该声音不会被输入至对面侧的声音采集束中。于是，说话者声音本身或者反相的声音仍保留在差值的计算中。并且，当声源出现在两侧时，这些信号彼此不同，因此在大多数情况下，输入至一对麦克风阵列的声音不对称。因此，即使计算出该差值，说话者的声音仍保留下来。并且，即使在计算出有效值时，还是可以类似地提取出说话者声音的存在。

第一声源位置估计部分估计声源位置可能存在于具有较大差信号的声音采集区域对中的一个声音采集区域中。第二声源位置估计部分对分别从声音采集区域对中拾取的声音信号进行比较，并且估计声源位置存在于哪一侧。这样，根据本发明，可以正确地估计声源(包括说话者的声音，下文同此)的位置，即使从扬声器输出的声音可能会围绕麦克风迂回并且被该麦克风拾取。

在这种情况下，可以通过实时地计算特定时段内的峰值平方的时间平均值来获取声音信号的有效值。通过利用特定时段内的峰值平方的时间平均值、FFT变换后的增益中的多个预定频率增益的平方和等等，可以对差信号的信号强度进行比较。通过使用在预定时间(它长于计算有效值时所使用的时间)内获取的数据，可以根据有效值之间的差信号的时间平均值或者差信号的平方的时间平均值来计算出有效值的差信号的信号强度。这在以下说明中同样正确。

(2)在本发明的远程会议设备中，在发明(1)中，所述第一束产生部分和所述第二束产生部分在由所述第二声源位置估计部分所选择的所述声音采集区域中进一步设置多个狭窄的声音采集区域，从而产生多个分别将焦点放置在所述狭窄的声音采集区域上的狭窄的声音采集束。所述远程会议设备还包括：第三声源位置估计部分，其估计出声源位置存在于与所述多个狭窄的声音采集区域相对应的声音采集束中其中的声音信号的强度较大的一个声音采集束的区域中。

在本发明中，在由第二声源位置估计部分估计出来的声源位置所处的声音采集区域中设置多个狭窄的声音采集区域，随后在狭窄的声音采集区域中分别产生狭窄的声音采集束。第三声源位置估计部分在狭窄的声音采集区域中选择信号强度较大的区域。因此，相对于通过从头开始逐步缩小声源位置的范围来精细地估计出声源位置的情况，本发明可以在更短的时间内估计出声源位置。

(3)本发明的一种远程会议设备包括：扬声器阵列，其包括向上或向下发出声音的多个扬声器；第一麦克风阵列和第二麦克风阵列，它们适于将多个麦克风排列成沿所述扬声器阵列的纵向方向在扬声器阵列的中心线两侧相互对称；差信号计算部分，其通过对由所述第一麦克风阵列和所述第二麦克风阵列的各个麦克风中的放置在相互对称的位置上的每对麦克风所拾取的声音信号进行相减，从而计算出差信号；第一束产生部分，所述第一束产生部分通过在调整延迟量的同时对所述差信号进行相互合成，从而产生多个第一声音采集束，所述第一声音采集束将焦点分别放置在处于相互对称位置的多对预定的声音采集区域中；第一声源位置估计部分，其从所述多对声音采集区域中选择出其中的差信号的信号强度较大的一对声音采集区域；第二和第三束产生部分，其根据由所述第一和第二麦克风阵列的每个麦克风所拾取的所述声音信号来产生声音采集束，从而在由所述第一声源位置估计部分所选择的所述声音采集区域对中的每个声音采集区域中拾取声音信号；以及第二声源位置估计部分，其选择出与一声音信号相对应的声音采集区域，从而估计声源位置存在于所选择的声音采集区域中，其中所述声音信号是由所述第二束产生部分和第三束产生部分产生的声音采集束所拾取的声音信号中信号强度较大的声音信号。

在本发明中，首先，通过对由位于麦克风阵列两侧的对称位置上的一对麦克风所拾取的声音信号进行相减，从而计算出差信号，随后利用该差信号来在多个预定方向上产生声束。由于两侧的麦克风阵列是关于扬声器阵列左右对称的，所以从扬声器阵列迂回的声音已经从差信号中消除。第一声源位置估计部分根据该差信号来估计声源的位置。可以通过从当前产生出来的多个声音采集束中选择其信号强度较大的声音采集束来执行该估计。当声音采集束分别由第一和第二麦克风阵列形成时，估计出声源的位置是处于一对焦点位置中的一个位置上。

根据本发明，在远程会议设备中，即使从扬声器输出的声音可能会围绕麦克风迂回并且被该麦克风拾取，还是可以正确地估计出声源的位置。

(4)本发明的一种声音发出/采集设备包括：扬声器，其沿着分别关于预定参考表面对称的方向发出声音；第一麦克风阵列和第二麦克风阵列，所述第一麦克风阵列在所述预定参考表面的一侧拾取声音，所述第二麦克风阵列在所述预定参考表面的另一侧拾取声音；声音采集束信号产生部分，所述声音采集束信号产生部分产生第一声音采集束信号，从而根据所述第一麦克风阵列的一个声音采集信号分别从多个第一声音采集区域中拾取声音，并且所述声音采集束信号产生部分产生第二声音采集束信号，从而根据所述第二麦克风阵列的声音采集信号分别从被提供在与所述第一声音采集区域关于所述预定参考表面对称的位置上的多个第二声音采集区域中拾取声音；以及声音采集束信号选择部分，其将关于所述预定参考表面相互对称的所述声音采集束信号彼此相减、从构成了信号电平最高的差信号的两个声音采集束信号中仅仅提取高频分量、并且根据所述提取出来的高频分量的结果，从所述两个声音采集束信号中选择一个其信号电平较高的具有高频分量的声音采集束信号。

根据该结构，由于第一声音采集束信号和第二声音采集束信号关于参考表面对称，所以关于一平面对称的声音采集束的迂回声音的分量在垂直于参考表面的方向上具有相同的幅度。为此，这些迂回声音分量被抵消并且因此抑制了包含在差信号中的迂回声音分量。并且，由于相对于一平面的对称关系，所以，从未指向声源(说话者)方向的一组声音采集束信号得出的差信号的信号电平几乎为0，而从其中一个声音采集束信号指向声源方向的一组声音采集束信号得出的差信号的信号电平为高电平。因此，可以通过选择高电平的差信号来选择与参考表面平行的沿着麦克风阵列的麦克风排列方向的声源的位置。随后，通过比较从中检测出差信号的两个声音采集束信号的信号电平来检测与参考表面正交的方向上的声源的位置。此时，可以通过仅利用高频分量来消除从扬声器迂回的声音的影响。这是因为在该声音发出/采集设备所连接的公共通信网络中，高频带是受限的，并且声音采集束信号的高频分量仅由来自说话者的语音产生。

(5)在本发明的声音发出/采集设备中，在发明(4)中，所述声音采集束信号选择部分包括：差信号检测部分，其将相互对称的所述声音采集束信号彼此相减，从而检测出信号电平最高的差信号；高频分量信号提取部分，所述高频分量信号提取部分具有高通滤波器，所述高通滤波器仅仅使得所述差信号检测部分从其中检测出差信号的两个声音采集束信号的高频分量分别通过，并且高频分量信号提取部分从通过所述高频滤波器的高频分量信号中检测出信号电平较高的高频分量信号；以及选择部分，其选择与由所述高频分量信号提取部分所检测到的高频分量信号相对应的声音采集束信号，并且输出所选择的声音采集束信号。

根据该结构，差信号检测部分、具有高通滤波器的高频分量信号提取部分、以及选择部分都作为上面提到的声音采集束信号选择部分的分立结构。差信号检测部分将对称地产生的声音采集束信号进行相减，并且检测具有高电平的差信号。高频分量信号提取部分从通过对从中检测出差信号的声音采集束信号施加高通处理而获得的高频分量信号中检测出信号电平较高的高频分量信号。选择部分从在其中检测出差信号的两个声音采集束信号中选择与检测出来的高频分量信号相对应的声音采集束信号。

(6)在本发明的声音发出/采集设备中，在发明(4)中，第一麦克风阵列和第二麦克风阵列由这样的麦克风阵列构成，其中多个麦克风沿着所述预定参考表面分别成直线排列。

根据该结构，麦克风阵列被构建成沿着预定参考表面。因此，当将要根据来自各个麦克风的声音采集信号来产生声音采集束信号时，可以对各个声音采集信号仅施加诸如延迟处理等之类的简单的信号处理。

(7)在本发明的声音发出/采集设备中，在发明(4)或(5)中，所述扬声器由沿着所述预定参考表面成直线排列的多个分立的扬声器构成。

根据该结构，多个分立的扬声器是沿着预定参考表面排列的。

因此，可以更加容易地相对预定参考表面对称地发出声音。

(8)在本发明的声音发出/采集设备中，在发明(4)或(5)中，进一步包括迂回声音去除部分，其根据所述输入声音信号和由所述声音采集束信号选择部分所选择的声音采集束信号来执行控制，以使得从所述扬声器发出的声音不包含在所述输出声音信号中。

根据该结构，可以进一步从正从声音采集束信号选择部分输出的声音采集束信号中去除迂回声音分量。

根据本发明，能够精确地检测出诸如说话者之类的声源的方向并且能在该方向上有效地拾取声音的声音发出/采集设备可被构建成与发出的声音信号无关。

附图说明

图1A是示出了根据本发明第一实施例的远程会议设备的外部透视图的视图。

图1B是沿着箭头线A-A看到的同一远程会议设备的底视图。

图1C是示出了同一远程会议设备的使用模式的视图。

图2A是解释了同一远程会议设备中的声音发出束的视图。

图2B是解释了同一远程会议设备中的声音采集束的视图。

图2C是解释了设置在同一远程会议设备的麦克风阵列中的声音采集区域的视图。

图4是同一远程会议设备的发送部分的框图。

图5是同一远程会议设备的第一束产生部分的框图。

图6是一远程会议设备的接收部分的框图。

图7是根据本发明第二实施例的远程会议设备的发送部分的框图。

图8是根据本发明第三实施例的远程会议设备的发送部分的框图。

图9A是示出了根据本发明的声音发出/采集设备的麦克风/扬声器装置的平面图。

图9B是示出了由该声音发出/采集设备创建的声音采集束区域的视图。

图10是本实施例的声音发出/采集设备的功能框图。

图11是示出了图10中所示的声音采集束选择部分19的结构的框图。

图12A是示出了两个与会者A、B在将本发明的声音发出/采集设备700放置在桌子C上的同时举行会议并且与会者A正在说话的情况的视图。

图12B是示出了与会者B正在说话的情况的视图。

图12C是示出了与会者A、B中没有人正在说话的情况的视图。

具体实施方式

<第一实施例>

下文中将通过参考图1A至1C对作为本发明第一实施例的远程会议设备的结构和使用模式进行说明。第一实施例的远程会议设备提供了这样一种设备：利用扬声器阵列来输出从对面设备发送的声音，从而在对面设备侧再现说话者的位置，同时利用麦克风阵列来拾取说话者的声音，从而对说话者的位置进行检测，并随后将拾取到的声音和位置信息发送至对面设备。

图1A至1C示出了该远程会议设备的外部视图和使用模式。图1A是远程会议设备的外部透视图，图1B是远程会议设备沿着箭头线A-A的底视图。而图1C是该远程会议设备的使用模式的视图。

如图1A所示，远程会议设备1具有长方体主体和支脚111。支脚111对远程会议设备1的主体进行支撑并且将其提升至与安置表面相距预定距离。沿着长方体主体的纵向方向排成一排的多个扬声器SP1至SP4组成了扬声器阵列SPA，该扬声器阵列被向下地布置在远程会议设备1的下表面。该扬声器阵列SPA将声音从远程会议设备1的下表面向下地输出，随后该声音被会议桌的安置表面等反射，随后该声音到达会议的与会者(参见图1C)。

同样，如图1A和1B所示，沿着纵向方向将通过排列麦克风而组建的麦克风阵列分别布置在主体的两侧表面(下文中，两侧表面被称为右侧表面(图1B中的上面)和左侧表面(图1B中的下面))。也就是说，由麦克风MR1至MR4组成的麦克风阵列MR被布置在主体的右侧表面，而由麦克风ML1至ML4组成的麦克风阵列ML被布置在主体的左侧表面。远程会议设备1拾取作为说话者的会议与会者的说话语音，并且利用这些麦克风阵列MR、ML来检测说话者的位置。

虽然在图1A中被省略，但其实远程会议设备1的内部布置有发送部分2(参见图4)和接收部分3(参见图6)。发送部分2通过对麦克风阵列MR、ML所拾取的声音进行处理来估计说话者(这不仅可以是人类的语音，也可以是物体产生的声音。在后面的描述中也是如此)的位置，随后将位置和麦克风阵列MR、ML所拾取的声音进行多路复用，并发送声音。接收部分3将从对面设备接收到的声音作为来自扬声器SP1至SP4的声束来输出。

此处，在图1B中，麦克风阵列MR、ML被布置在关于扬声器阵列SPA的中心线101对称的位置上。但是，在第一实施例中，这些阵列并非总是对称布置的。即使麦克风阵列MR、ML被布置成左右不对称，在发送部分2(参见图4)中还是可以执行信号处理，从而以左右对称的形式形成左右声音采集区域(参见图3)。

接下来，下文中将通过参考图1C对远程会议设备1的使用模式进行说明。在使用中通常将远程会议设备1放置在会议桌100的中央。说话者998和/或说话者999坐在会议桌100的同一侧或者两侧。扬声器阵列SPA所输出的声音被会议桌反射并到达左右说话者。在这种情况下，由于扬声器阵列SPA将声音作为声束输出，所以声音能够精确定位至相对于左右说话者的特定位置。后面将会详细描述扬声器阵列SPA对声音的声束成形处理。

同样，麦克风阵列MR、ML拾取说话者的声音。与麦克风阵列MR、ML连接的信号处理部分(发送部分2)根据声音输入至各个麦克风单元MR1至MR4、ML1至ML4的时间差来检测说话者的位置。

同样，在图1A和1C中，为了便于说明，扬声器的个数和麦克风的个数分别被设置为4个。但是，这些个数并不限于4，而是可以布置一个或者多个扬声器和麦克风。同样，麦克风阵列MR、ML和扬声器阵列SPA可以布置成多行而不是一行。为此，在以下说明中，利用下标i来表示扬声器阵列的每个扬声器以及麦克风阵列的每个麦克风，于是，例如，扬声器SP1至SPN为SPi(i＝1至N)而麦克风ML1至MLN为MLi(i＝1至N)。SPi(i＝1至N)中i＝1对应于SP1。

随后，下文中将参考图2A、2B来说明扬声器阵列SPA对声音的声束成形处理，即麦克风阵列MR、ML分别形成的声音发出束和声音采集束。

图2A是说明了声音发出束的视图。信号处理部分(接收部分3)将声音信号提供给扬声器阵列SPA的各个扬声器单元SP1至SPN。该信号处理部分以延迟时间DS1至DSN对从对面设备接收到的声音信号进行延迟处理，如图2A所示，并且将延迟后的信号提供到扬声器单元SP1至SPN。在图2A中，最靠近虚拟声源位置(焦点FS)的扬声器发出无延迟时间的声音，将延迟模式给至各个扬声器，以使得每个扬声器都经过与距离相对应的延迟时间之后再发出声音，这是因为扬声器与虚拟声源位置距离更远。由于这种延迟模式，所以从各个扬声器单元SP1至SPN输出的声音都进行传播，以形成与图2A中的虚拟声源发出的声音相同的波阵面。因此，作为用户的与会者能够听到彷佛对面的说话者处在虚拟声源位置一样的声音。

图2B是解释了声音采集束的视图。分别以延迟时间DM1至DMN对输入至各个麦克风单元MR1至MRN的声音信号进行延迟，如图2B所示，并随后对其进行合成。在图2B中，由最远离声音采集区域(焦点FM)的麦克风所拾取的声音被无延迟地输入至加法器，将延迟模式给至各个麦克风所拾取的声音信号，以使得每个声音都经过响应于距离的更短延迟时间后输入至加法器，这是因为声音更靠近声音采集区域。由于这种延迟模式，所以在声波传播中，各个声音信号都与声音采集区域(焦点FM)距离相等，并且在合成时产生了各个声音信号，以使得声音信号在声音采集区域中相位加强，而声音信号在其它区域中则由于相位差而相互抵消。这样，由于输入至多个麦克风的声音被延迟以使得在声波传播中各个声音都与声音采集区域距离相等，并且随后将声音合成，所以仅仅来自声音采集区域的声音会被拾取。在本实施例的远程会议设备中，麦克风阵列MR、ML分别同时对与多个声音采集区域(图3中为4个)相关的声音采集束进行成形。于是，无论说话者处于声音采集区域的什么位置，说话者的声音都能被拾取，并且可以根据声音可被拾取的声音采集区域来对说话者的位置进行检测。

接下来，下文中将参考图3对由声音采集束感测声源位置以及用于从声源位置采集声音的操作进行说明。图3是从顶部看过去的远程会议设备和说话者的平面图。也就是说，图3是沿着图1C中的箭头线B-B看到的视图，其说明了麦克风阵列形成声音采集束的一种模式。

《对声源位置感测/排除了虚幻(Demon)声源的声音采集设备的说明》

首先，下文中将说明远程会议设备的声源位置感测和声音采集设备的原理。在该说明中，假设的是，声束不是从扬声器阵列SPA输出的。

在此，将在下文中对提供给右侧表面上的麦克风阵列MR的声音采集信号的处理进行说明。远程会议设备1的发送部分2(参见图4)形成了具有作为通过上述延迟合成产生的焦点的声音采集区域411至414的声音采集束。这些多个声音采集区域是通过假定使用了远程会议设备1参与会议的说话者的位置来确定的。

可以这样认为，说话者(声源)出现在这些声音采集区域411R至414R中拾取到的声音信号的电平最高的区域。例如如图3所示，当声源999出现在声音采集区域414R时，从声音采集区域414R拾取到的声音信号的电平高于从其它声音采集区域411R至413R拾取到的声音的电平。

类似地，对于左侧表面的麦克风阵列ML，所形成的四个系统声音采集束与右侧表面轴对称，随后从声音采集区域411L至414L中检测出拾取到的声音的声音信号电平最高的区域。在这种情况下，轴对称线被设置成与扬声器SPA的轴基本一致。

由此，说明了本实施例的远程会议设备的声源位置感测和声音采集设备的原理。

在声音不是从扬声器阵列SPA发出并且麦克风阵列MR、ML并不拾取迂回声音的情况下，可适当地根据该原理进行声源位置感测和声音采集。远程会议设备1双向地发送/接收声音信号，并且扬声器阵列SPA发出的声音与麦克风阵列MR、ML的声音采集是并行进行的。

如图2A所示，将延迟模式给至提供到扬声器阵列SPA的各个扬声器的声音信号，于是，形成了与声音从设置在扬声器阵列后方的虚拟声源位置到达的情况相同的波阵面。相反，以图2B所示的模式对麦克风阵列MR所拾取的声音信号进行延迟并随后进行合成，于是合成后的声音信号的定时与从预定声音采集区域到达的声音信号的定时一致。

此处，当扬声器阵列的虚拟声源位置与麦克风阵列MR的多个声音采集区域中的任何一个一致时，提供给扬声器阵列SPA的各个扬声器SP1至SPN的延迟模式与提供至麦克风阵列MR拾取声音信号所处的声音采集区域的延迟模式正好是相反的关系。因此，声音信号从扬声器阵列SPA发出，随后围绕麦克风阵列MR迂回，随后被阵列拾取并在高电平进行合成。

在采用上述通用声源检测系统对声音信号进行处理的情况下，存在这样的问题，即在高电平合成的迂回声音信号会被误认为是实际并不存在的声源(虚幻声源)。

因此，除非该虚幻声源被消除，否则从对面设备到达的声音信号会返回从而产生回声。同样，无法检测并拾取真实声源(说话者)的声音。

以上说明是关于麦克风阵列MR的。但是可以类似地给出与麦克风阵列ML相关的说明(这是因为麦克风阵列MR、ML是左右对称的)。

也就是说，声束被会议桌100反射并随后左右对称地进行辐射。因此，虚幻声源也类似地在右侧麦克风阵列MR和左侧麦克风阵列ML上左右对称地产生出来。

为此，即使通过相互比较左侧声音采集区域411L至414L和右侧声音采集区域411R至414R估计出音量电平可能为高电平并且可能存在声源，但当左右对应区域中的音量电平同样地为高电平时，声源被确定为由扬声器阵列SPA的迂回声束产生的虚幻声源。因此，该声源从声音采集的异议中去除。于是，可以从真实声源检测并采集声音，并且可以防止由于迂回声音而产生的回声。

为此，远程会议设备1的发送部分2将从左侧麦克风阵列ML的声音采集区域411L至414L所拾取到的声音信号的电平与从右侧麦克风阵列MR的声音采集区域411R至414R所拾取到的声音信号的电平进行比较。于是，在具有基本相等的声音信号电平的左右声音采集区域对被去除之后左右声音采集区域中的电平大不相同时，发送部分2确定出声源存在于电平较高的声音采集区域中。

设备仅将具有较高电平的声音信号发送至对面设备，并且还将指示了检测出声音信号的声音采集区域的位置的位置信息添加至信号(数字信号)的子码，等等。

用于执行上述虚幻声源排除处理的信号处理部分(发送部分)的结构将在下文中进行说明。在这种情况下，将对图3中狭窄的声音采集束431至434与图7中的第二实施例的说明同时进行说明。

下面将说明用于执行上述虚幻声源消除处理的信号处理部分(发送部分)的结构。在此情况下，将结合对图7中的第二实施例的说明来对图3中的窄声音采集束431到434进行说明。

《形成声音采集束的发送部分的结构》

图4是远程会议设备1的发送部分2的结构框图。此处，粗线箭头表示多个系统中的声音信号被发送，而细线箭头表示一个系统中的声音信号被发送。同样，虚线箭头表示指令输入被发送。

图4中的第一束产生部分231和第二束产生部分232对应于形成了图3中分别具有作为焦点的左右声音采集区域411R至414R、411L至414L的四个系统声音采集束的信号处理部分。

右侧麦克风阵列MR的麦克风单元MR1至MRN所拾取的声音信号经由A/D转换器211输入至第一束产生部分231。类似地，左侧麦克风阵列ML的麦克风单元ML1至MLN所拾取的声音信号经由A/D转换器212输入至第二束产生部分232。

第一束产生部分231和第二束产生部分232分别形成了四个声音采集束，分别从四个声音采集区域411R至414R、411L至414L拾取声音，并且将拾取到的声音信号输出至差值计算电路22和选择器271、272。

图5是示出了第一束产生部分231的详细结构的视图。第一束产生部分231具有与各个声音采集区域41j(j＝1至K)相对应的多个延迟处理部分45j。为了在各个声音采集区域41j(j＝1至K)中产生具有焦点的声音采集束输出MBj，各个延迟处理部分45j根据延迟模式数据40j对每个麦克风输出的声音信号进行延迟。延迟处理部分45j接收存储在ROM中的延迟模式数据40j，并且将延迟量分别设置为延迟46ji(j＝1至K，i＝1至N)。

加法器47j(j＝1至K)对经历了延迟的数字声音信号进行相加，并且输出得到的信号来作为麦克风束输出MBj(j＝1至K)。声音采集束输出MBj组成了分别将图3所示的声音采集区域41j引至焦点的声音采集束。随后，各个延迟处理部分45j计算的麦克风束输出MBj被分别输出至差值计算电路22，等等。

图5中还说明了第一束产生部分231，但是第二束产生部分232同样具有与上述结构类似的结构。

在图4中，差值计算电路22通过比较各个声音采集区域中所拾取到的声音信号中在左右对称的位置上所拾取的声音信号之间的音量电平，从而计算出差值。更具体的说，差值计算电路22计算差值

D(411)＝|P(411R)-P(411L)|

D(412)＝|P(412R)-P(412L)|

D(413)＝|P(413R)-P(413L)|

D(414)＝|P(414R)-P(414L)|

其中P(A)是声音采集区域A的信号电平。差值计算电路22将这些计算出来的差值D(411)至D(414)输出至第一估计部分251。

在这种情况下，差值计算电路22可被构建成通过对从左右声音采集区域所拾取到的声音信号的信号波形本身进行相减来输出差值信号。同样，差值计算电路22可被构建成输出音量电平值的相减值，这些音量电平值是这样获得的：每隔预定时间周期，就对从左右声音采集区域所拾取到的声音信号的有效值在预定时间内进行积分。

当差值计算电路22输出差值信号时，可在差值计算电路22和第一估计部分251之间插入BPF 241，以便使第一估计部分251中的估计变得容易。BPF 241被设置成使说话语音的频率范围中的1kHz至2kHz附近的频带通过，在该频段中能够很好地把握声音采集束的指向性控制。

这样，从关于扬声器阵列SPA的中心线左右对称的左右声音采集区域所拾取到的声音采集信号的音量电平彼此相减。因此，来自扬声器阵列SPA的左右对称地围绕左右麦克风阵列ML、MR迂回的声音分量彼此抵消。结果就是，迂回声音信号决不会被误认为虚幻声源。

第一估计部分251对正从差值计算电路22输入的差值的最大值进行选择，随后选择最大差值所处的声音采集区域对。为了将声音采集区域输入至第二估计部分252，第一估计部分251将选择信号输出至选择器271、272，选择信号使这些声音采集区域中的声音信号输出至第二估计部分252。

选择器271根据该选择信号来选择信号，于是，由第一估计部分251从第一束产生部分231所拾取的四个声音采集区域的信号中选择出来的声音采集区域的信号可被作为声束提供至第二估计部分252和信号选择部分26。同样，选择器272根据该选择信号来选择信号，于是，由第一估计部分251从第二束产生部分232所拾取的四个声音采集区域的信号中选择出来的声音采集区域的信号可被作为束提供至第二估计部分252和信号选择部分26。

第二估计部分252对由第一估计部分251估计出来的并且有选择地从选择器271、272输出的声音采集区域的声音信号进行接收。第二估计部分252对左右声音采集区域中的输入声音信号进行比较，随后将较大电平的声音信号确定为来自真实声源的声音信号。第二估计部分252将指示了真实声源所处的声音采集区域的方向和距离的信息作为位置信息2522输出至多路复用部分28，并且指示信号选择部分26将声音信号从真实声源有选择地输入至多路复用部分28。

多路复用部分28将从第二估计部分252输入的位置信息2522连同由信号选择部分26所选择的真实声源的声音信号261一起进行多路复用，并且将多路复用后的信号发送至对面设备。

估计部分251、252每隔预定周期就重复地执行声源位置的估计。例如，每0.5秒重复一次估计。在这种情况下，0.5秒钟时间内的信号波形或幅度有效值可相互比较。如果通过按照这种方式每预定周期重复地估计声源位置来改变了声音采集区域，那么可以响应于说话者的移动来采集声音。

在这种情况下，当真实声源位置和由迂回产生的虚幻声源位置彼此重叠时，左右信号波形之间的差值可作为声音采集信号输出至对面设备。这是因为，差信号仅仅消除虚幻声源波形并且保留来自真实声源的信号波形。

同样，为了应对说话者存在于两个声音采集区域的情况或者说话者移动的情况，可以考虑下文给出的模式。第一估计部分251按照差信号强度大小的顺序选择强度较大的两个声音采集区域，并且还输出它们之间的强度比值。第二估计部分252比较信号强度最大的一对或者两对，并且对真实声源处于哪一侧进行估计。由第一估计部分251和第二估计部分252在一侧通过指出的强度比值的权重所选择出来的两个声音信号被信号选择部分26多路复用，随后信号选择部分26对得到的声音信号进行合成，并随后将合成后的信号作为输出信号261输出。这样，如果在通过信号强度比值给出权重时两个位置上的声音信号总是被合成，那么和上面一样地总是对说话者的移动进行交叉淡化，因此声像的定位很自然地移动。

《形成声束的接收部分3的结构》

接下来，下文中将参考图6对接收部分3的内部结构进行说明。接收部分3包括声音信号接收部分31，用于从对面设备接收声音信号并且从声音信号的子码中分离出位置信息；参数计算部分32，用于根据声音信号接收部分31所分离出来的位置信息来确定声音信号所处的位置，并且计算用于在该位置中定位声像的指向性控制参数；指向性控制部分33，用于根据从参数计算部分32输入的参数来对所接收到的声音信号的指向性进行控制；D/A转换器34i(i＝1至N)，用于将其指向性受控的声音信号转换成模拟信号；以及放大器35i(i＝1至N)，用于放大从D/A转换器34i(i＝1至N)输出的模拟声音信号。放大器35i所输出的模拟声音信号被提供至图1A至1C所示的外部扬声器SPi(i＝1至N)。

声音信号接收部分31是用于通过因特网、公用电话线等与对面设备保持通信的功能部分，其具有通信接口、缓冲存储器等。声音信号接收部分31从对面设备接收包含位置信息2522的声音信号30作为子码。声音信号接收部分31将位置信息从接收到的声音信号子码中分离出来，并且将其输入至参数计算部分32，并且将声音信号输入至指向性控制部分33。

参数计算部分32是一种计算部分，它计算用于指向性控制部分33中的参数。参数计算部分32计算对分别提供至扬声器的声音信号的每个延迟量，从而在根据接收到的位置信息确定的位置中产生焦点，并且将指向性给至声音信号从而使得声音信号从该焦点发出。

指向性控制部分33根据由扬声器SPi(i＝1至N)的每个输出系统的参数计算部分32所设置的参数来对由声音信号接收部分31所接收到的声音信号进行处理。也就是说，分别并行地提供与扬声器SPi(i＝1至N)相对应的多个处理部分。每个处理部分都根据由参数技术部分32所计算出来的参数(延迟量参数等)来对声音信号设置延迟量等，并且分别将延迟量输出至D/A转换器34i(i＝1至N)。

D/A转换器34i(i＝1至N)把从每个输出系统的指向性控制部分33输出的数字声音信号转换成模拟信号，并且输出该模拟信号。放大器35i(i＝1至N)分别放大从D/A转换器34i(i＝1至N)输出的模拟信号，并且将放大后的信号输出至扬声器SPi(i＝1至N)。

为了在对面设备中通过自身设备再现声源的位置关系，上述接收部分3根据位置信息对从对面设备接收到的声音信号执行声束成形处理，并且将来自布置在设备主体下表面的扬声器阵列SPA的声音信号输出以再现指向性，从而使得声音从虚拟声源位置输出。

<第二实施例>

接下来，下文中将参考图7对根据第二实施例的远程会议设备进行说明。该实施例是图4中的第一实施例的应用，在它们的说明中，相同的标号被赋予相同的部分。同样，在说明声音采集束时辅助性地参见了图3。

在第一实施例中，在假设真实声源存在于差信号较大的声音采集区域对中的一个声音采集区域的基础上，第二估计部分252对真实声源存在于哪一侧进行估计。在第二实施例中，第一束产生部分231和第二束产生部分232具有详细位置搜索束(窄束)产生功能2313、2323，分别用于详细地对第二估计部分252所估计的真实声源所处的声音采集区域进行搜索，从而精确地检测出声源位置。

如图3所示，当第二估计部分252估计真实声源999存在于声音采集区域414R时，这个第二估计部分252将估计出来的结果通知给第一束产生部分231。这样，由于第二估计部分252估计了真实声源存在于扬声器阵列MR、ML的哪一侧，所以仅将估计结果通知2523、2524之一输入至第一和第二束产生部分231、232中的一个。在估计出真实声源存在于左侧区域的情况下，第二估计部分252将估计出来的结果通知给第二束产生部分232。

第一束产生部分231根据该通知来操作详细位置搜索束产生功能2313，从而分别产生具有图3所示的作为焦点的狭窄的声音采集束431至434的窄束。因此，第一束产生部分231详细地搜索了声源999的位置。

同样，第二实施例的设备配置有第三估计部分253和第四估计部分254。第三和第四估计部分253、254从详细位置搜索束产生功能2313、2323所输出的声音采集束中按照信号强度的顺序选择强度较大的两个声音采集束。在这种情况下，仅仅估计部分253、254以外的第二估计部分252进行了估计。

在图3的示例中，从指向狭窄的声音采集区域431至434的声音采集束中拾取声音信号，并且真实声源999存在于在声音采集区域434和声音采集区域433之上延伸的部分。在这种情况下，第三估计部分253按照信号强度从大到小的顺序选择从声音采集区域434、433中拾取的声音信号。第三估计部分253通过响应于两个所选择的声音信号的信号强度来按比例地对所选择的声音采集区域的焦点位置进行分配，从而估计出说话者的位置，并且将其输出。同样，第三估计部分253在给出权重的同时对两个所选择的声音信号进行合成，并且将合成后的信号作为声音信号输出。

于是，描述了右侧区域中的第一束产生部分231(详细位置搜索束产生功能2313)和第三估计部分253。类似地对左侧区域中的第二束产生部分232(详细位置搜索束产生功能2323)和第四估计部分254进行构建，并且它们执行类似的处理操作。

在某些情况下，当说话者频繁移动时，上述第二实施例中的设备的详细位置搜索功能中的处理跟不上该移动。因此，可以考虑这样的情况，该功能应该仅在从第二估计部分252输出的说话者位置停留了预定时间时起作用。在这种情况下，当从第二估计部分252输出的说话者位置在预定时间内移动时，即使布置了图7所示的装置，还是可以执行与图4中的第一实施例相类似的操作。

在此，用于执行窄化估计的估计部分253、254分别对应于本实施例的“第三声源位置估计部分”。

<第三实施例>

接下来，下文中将参考图8对根据本发明第三实施例的远程会议设备的发送部分进行说明。图8是该发送部分的框图。本实施例的设备的发送部分2的不同点在于，A/D转换器211、212的输出是差值计算电路22的输入，布置了用于通过利用差值计算电路22的输出信号来产生第二采集束的第三束产生部分237，提供了第四束产生部分238和第五束产生部分239，并且略去了选择器271、272。同样的标号赋予同样的部分，并且以上说明相应地适用于余下的部分。于是，下文中将对本实施例的设备的不同点及重点进行说明。

如图8所示，A/D转换器211、212的输出被直接输入至差值计算电路22。因此，在第二实施例的设备中，相同编号的麦克风阵列MRi和麦克风阵列MLi被布置在相互对称的位置上。差值计算电路22分别计算“(麦克风阵列MRi的声音信号)-(麦克风阵列MLi的声音信号)”(i＝1至N)。于是，和图4中所示的设备一样，可以消除从扬声器阵列SPA迂回至麦克风阵列MR、ML附近并输入麦克风阵列MR、ML的声音。

此处，在第三实施例的设备中，必需在纵向上关于扬声器阵列SPA的中心线左右对称地布置各个麦克风阵列MR、ML。差值计算电路22被布置用于消除麦克风之间的迂回声音。在这种情况下，差值计算电路22总是在远程会议设备1的麦克风阵列MR、ML的工作期间执行计算。

与第一束产生部分231和第二束产生部分232相同，第三束产生部分237根据差值计算电路22的一簇输出信号来输出具有作为焦点的四个虚拟声音采集区域的声音采集束。虚拟声音采集区域对应于关于扬声器阵列SPA的中心线101左右对称地布置的声音采集区域对(411R和411L、412R和412L、413R和413L、414R和414L：参见图3)。从第三束产生部分237输出的声音信号与第一实施例中的差信号D(411)、D(412)、D(413)、D(414)类似。在通过BPF 241将差信号输出至第一估计部分251时，与图4所示的设备的第一估计部分251相类似地执行声源位置的估计。估计出来的结果2511、2512被输出至第四束产生部分238和第五束产生部分239。

随后，下文中将对图8中的第四束产生部分238和第五束产生部分239进行说明。A/D转换器211、212所输出的数字声音信号分别被直接输入至第四束产生部分238和第五束产生部分239。第四束产生部分238和第五束产生部分239根据这些数字声音信号来产生具有作为焦点的声音采集区域(这些声音采集区域是由从第一估计部分251输入的估计出来的结果所指示的)的声音采集束，并且拾取该声音采集区域的声音信号。换句话说，第四束产生部分238和第五束产生部分239所产生的声音采集束对应于第一实施例中的选择器271、272所选择的声音采集束。

按照这样的方式，第四束产生部分238和第五束产生部分239仅输出由第一估计部分251所指示的声音采集束所拾取的一个系统的声音信号。第四束产生部分238和第五束产生部分239从各个声音采集束的作为焦点的声音采集区域中拾取的声音信号被输入至第二估计部分252中。

随后的操作类似于第一实施例中的操作。第二估计部分252对两个声音信号进行比较，随后确定声源存在于音量较大的声音采集区域中。第二估计部分252将指示了真实声源所存在的声音采集区域的方向和位置的信息作为位置信息2522输出至多路复用部分28。同样，第二估计部分252命令信号选择部分26选择性地将该真实声源的声音信号输入至多路复用部分28。多路复用部分28将位置信息2522与信号选择部分26所选择的真实声源的声音信号261进行多路复用，并且将这个多路复用后的信号发送至对面设备。

此处，在图8所示的第三实施例中，与第二实施例相同，如果估计在多级中执行，那么可以首先在大范围内搜索声源的位置，随后可以再次进行搜索从而将范围限制在狭小的范围。在这样的情况下，第二估计部分252输出指令输入2523、2524，它们命令第四和第五束产生部分238、239在第一次搜索完成以后对更窄的范围进行搜索。只有声源所处一侧的束产生部分采用该操作。当束产生部分接收到该指令输入时，它从内部读取与更窄的范围相对应的延迟模式，并且在ROM中重写延迟模式40j。

在第一和第三实施例中，第一估计部分251分别从左右声音采集区域411R至414R、411L至414L中一个接一个地选择声音采集区域(41jR，41jL)，随后第二估计部分252对真实声源存在于声音采集区域41jR、41jL中的哪一个进行估计。但是，并非总是需要提供第二估计部分。

这是因为，例如，即使在由于真实声源的对面不存在噪声源(例如，仅在右侧或者左侧使用远程会议设备，等等)而使得声音采集区域41jR、41jL两者中的声音的合成信号(或差信号)作为声音采集信号被原样地输出至对面设备的情况下，也不会产生问题。

同样，这些实施例中给出的数值等不应被解释为限制本发明。同样，当信号在结构块之间交换以实现以上附图中的功能时，在某些情况下，与前述实施例类似的优点可通过这样的结构实现，即这些块的一些功能可由其它块处理。

<第四实施例>

图9A是示出了根据本发明第四实施例的声音发出/采集设备700的麦克风/扬声器装置的平面图，图9B是示出了由图9A所示的声音发出/采集设备700创建的声音采集束区域的视图。

图10是本实施例的声音发出/采集设备700的功能框图。同样，图11是示出了图10所示的声音采集束选择部分19的结构的框图。

本实施例的声音发出/采集设备700包含框架101中的多个扬声器SP1至SP3、多个麦克风MIC11至MIC17、MIC21至MIC27、以及图10中所示的功能部分。

框架101大致为长方体形状，它在一个方向上是狭长的。支脚(未示出)被布置在框架101的长侧(表面)的两个端部。这些支脚将框架101的下表面提升至与安置地面相距预定距离，并且它们分别具有预定高度。在以下说明中，框架101的四个侧表面中的稍长表面被称为长表面，而稍短表面被称为短表面。

具有相同形状的不定向分立扬声器SP1至SP3被布置在框架101的下表面。沿着纵向以预定间隔布置这些分立扬声器SP1至SP3。同样，分立扬声器SP1至SP3被布置成这样，对分立扬声器SP1至SP3的中心线进行连接的直线被设置成沿着框架101的长表面，并且它们在水平方向上的位置与对短表面的中央进行连接的中心线800一致。也就是说，对分立扬声器SP1至SP3的中央进行连接的直线被设置在包含中心线800的垂直参考表面上。通过按照这种方式来排列/布置分立扬声器SP1至SP3，构建了扬声器阵列SPA10。在这样的状态中，当扬声器阵列SPA10的分立扬声器SP1至SP3发出未经相对延迟控制的声音时，发出的声音平均地传播至两个长表面。这时，传播至两个对立长表面的发声沿着与参考表面正交的相互对称的方向行进。

框架101的一个长表面上布置着具有相同规格的麦克风MIC11至MIC17。沿着纵向以预定间隔布置这些麦克风MIC11至MIC17，从而构建麦克风阵列MA10。同样，框架101的另一个长表面上布置着具有相同规格的麦克风MIC21至MIC27。沿着纵向以预定间隔布置这些麦克风MIC21至MIC27，从而构建麦克风阵列MA20。麦克风阵列MA10和麦克风阵列MA20被布置成这样，它们的排列坐标轴的垂直位置彼此一致。麦克风阵列MA10的麦克风MIC11至MIC17和麦克风阵列MA20的麦克风MIC21至MIC27分别被布置在关于参考表面对称的位置上。具体地说，例如，麦克风MIC11和麦克风MIC21被放置成关于参考表面对称，类似地，麦克风MIC17和麦克风MIC27具有对称关系。

在本实施例中，扬声器阵列SPA10的扬声器数被设置为3个，麦克风阵列MA10和麦克风阵列MA20的麦克风数分别被设置为7个。但是，这些数目并不限于此，可以按照规范适当地设置扬声器数和麦克风数。同样，扬声器阵列的每个扬声器间隔和麦克风阵列的每个麦克风间隔都可以设置成不相等。例如，可以在纵向上将扬声器和麦克风布置成在中央部位比较密集而向两端逐渐疏散。

于是，如图10所示，本实施例的声音发出/采集设备700在功能上包含输入/输出连接器11、输入/输出I/F 12、发声指向性控制部分13、D/A转换器14、发声放大器15、扬声器阵列SPA10(扬声器SP1至SP3)、麦克风阵列MA10、MA20(麦克风MIC11至MIC17、MIC21至MIC27)、声音采集放大器16、A/D转换器17、声音采集束产生部分181、182、声音采集束选择部分19、和回声消除部分20。

输入/输出I/F 12将经由输入/输出连接器11从其它声音发出/采集设备输入的输入声音信号从与网络相对应的数据格式(协议)转换成其它格式，并且将声音信号经由回声消除部分20提供至发声指向性控制部分13。并且，输入/输出I/F 12将回声消除部分20所产生的输出声音信号转换成与网络相对应的数据格式，并且经由输入/输出连接器11将声音信号发至网络。这时，输入/输出I/F 12传送声音信号至网络，该声音信号是通过限制输出声音信号的频带而获得的。这是因为包含全频分量的声音信号具有巨大的数据量，因此如果输出声音信号未经处理就传送至网络，那么网络上的传输速率将显著降低；并且，除非预定的高频分量(例如3.5kHz或者更高的频率分量)没有传播，否则就可以再现对面的声音发出/采集设备的说话声。因此，来自对面的声音发出/采集设备的输入声音信号是这样的声音信号，其中不包含超过预定阈值的高频分量。

发声指向性控制部分13根据所指定的发声指向性来对输入声音信号提供延迟处理、放大处理等(这些处理是针对扬声器阵列SPA10的扬声器SP1至SP3的)，并且产生各个发声信号。发声指向性控制部分13将这些各个发声信号输出到分别提供给扬声器SP1至SP3的D/A转换器14。D/A转换器14将各个发声信号转换成模拟格式，并且将信号分别输出到发声放大器15。发声放大器15将各个发声信号放大并且将信号提供至扬声器SP1至SP3。

扬声器SP1至SP3将所提供的各个发声信号转换成声音并且将其发射至外部。这时，由于扬声器SP1至SP3被布置在框架101的下表面，所以发出的声音被放置着声音发出/采集设备700的桌面反射，并且从与会者就座的设备侧斜向上传播。

作为麦克风阵列MA10、MA20的麦克风MIC11至MIC17、MIC21至MIC27，可以采用不定向或者定向的麦克风，但是希望的是采用定向的麦克风。各个麦克风都从声音发出/采集设备700外部拾取声音，随后将声音电转换成声音采集信号，随后将声音采集信号输出到声音采集放大器16。声音采集放大器16放大声音采集信号，并且将放大后的信号提供至A/D转换器17。A/D转换器17将声音采集信号转换成数字信号，并且将数字信号提供至声音采集束产生部分181、182。由布置在一个长表面上的麦克风阵列MA10的麦克风MIC11至MIC 17所拾取的声音采集信号被输入至声音采集束产生部分181中，而由布置在另一个长表面上的麦克风阵列MA20的麦克风MIC21至MIC27所拾取的声音采集信号被输入至声音采集束产生部分182中。

声音采集束产生部分181将预定的延迟处理提供给来自麦克风MIC11至MIC17的声音采集信号，并且产生声音采集束信号MB11至MB14。如图9B所示，对于声音采集束信号MB11至MB14，具有预定的不同宽度的区域分别被设置为沿着它布置有麦克风MIC11至MIC17的长表面侧上的声音采集区域。

声音采集束产生部分182将预定的延迟处理提供给来自麦克风MIC21至MIC27的声音采集信号，并且产生声音采集束信号MB21至MB24。如图9B所示，对于声音采集束信号MB21至MB24，具有预定的不同宽度的区域分别被设置为沿着它布置有麦克风MIC21至MIC27的长表面侧的声音采集区域。

这时，所形成的声音采集束信号MB11和声音采集束信号MB21是关于具有中心轴800的垂直表面(参考表面)的对称束。类似地，声音采集束信号MB12和声音采集束信号MB22、声音采集束信号MB13和声音采集束信号MB23、以及声音采集束信号MB14和声音采集束信号MB24是关于参考表面的对称束。

声音采集束选择部分19从输入声音采集束信号MB11至MB14、MB21至MB24中选择最佳声音采集束信号MB，并且将最佳声音采集束信号MB输出到回声消除部分20。

图11是示出了声音采集束选择部分19的主要结构的框图。

声音采集束选择部分19具有信号微分电路191、BPF(带通滤波器)192、全波整流电路193A、193B、峰值检测电路194A、194B、电平比较器195A、195B、信号选择电路196、198、以及HPF(高通滤波器)197。

信号微分电路191对声音采集束信号MB11至MB14、MB21至MB24中的关于参考表面对称的声音采集束信号之间的差值进行计算。具体地说，信号微分电路191计算声音采集束信号MB11和MB21的差值以产生差信号MS1，并且计算声音采集束信号MB12和MB22的差值以产生差信号MS2。并且，信号微分电路191计算声音采集束信号MB13和MB23的差值以产生差信号MS3，计算声音采集束信号MB14和MB24的差值以产生差信号MS4。在据此产生的差信号MS 1至MS4中，由于作为信号源的声音采集束信号是关于参考表面上的扬声器阵列的轴对称的，所以相互包含在声音采集束信号中的迂回声音分量被抵消。因此，产生了这样的信号，其中来自扬声器的迂回声音分量被抑制。

BPF 241是带通滤波器，其具有在束特性中占主导的频带以及人类语音的主要分量的频带来作为通频带。BPF 241对差信号MS1至MS4进行带通滤波处理，并且将滤波后的信号输出到全波整流电路193A。全波整流电路193A在全波范围内对差信号MS1至MS4进行整流(计算绝对值)，并且峰值检测电路194A检测经过全波整流后的差信号MS1至MS4的峰值，并且输出峰值数据Ps1至Ps4。电平比较器195A对峰值数据Ps1至Ps4进行比较，并将选择指令数据给至信号选择电路196，这些数据用于选择与最高电平峰值数据Ps相对应的差信号MS。在这种情况下，利用了这样的事实：与说话者所处的声音采集区域相对应的声音采集束信号的信号电平高于与其它区域相对应的声音采集束信号的信号电平。

图12A至12C是示出了这样的情况的视图，其中两个与会者A、B在将本实施例的声音发出/采集设备700放置在桌子C上的同时举行会议。图12A示出了与会者A正在说话的情况，图12B示出了与会者B正在说话的情况，图12C示出了与会者A、B中没人说话的情况。

例如，如图12A所示，当与声音采集束信号MB13相对应的区域中的与会者A开始说话时，声音采集束信号MB13的信号电平变得高于声音采集束信号MB11、MB12、MB14、MB21至MB24的信号电平。因此，通过用声音采集束信号MB23减去声音采集束信号MB13获得的差信号MS3的信号电平变得高于差信号MS1、MS2、MS4的信号电平。于是，差信号MS3的峰值数据Ps3高于其它峰值数据Ps1、Ps2、Ps4，随后电平比较器195A检测出峰值数据Ps3并且将用于选择差信号MS3的选择指令数据提供至信号选择电路196。相反，如图12B所示，当与声音采集束信号MB21相对应的区域中的与会者B开始说话时，电平比较器195A检测出峰值数据Ps1并且将用于选择差信号MS1的选择指令数据提供至信号选择电路196。

在此，如图12C所示，当与会者A、B中没人说话时，一旦电平比较器195A检测出所有的峰值数据Ps1至Ps4都没有到达预定阈值，它就立刻将先前的选择指令数据提供至信号选择电路196。

信号选择电路196选择两个声音采集束信号MB1x、MB2x(x＝1至4)，它们组成了由所提供的选择指令数据指示的差信号MS。例如，信号选择电路196在图12A中的情况下选择组成差信号MS3的声音采集束信号MB13、MB23，而信号选择电路196在图12B中的情况下选择组成差信号MS1的声音采集束信号MB11、MB21。

HPF 197执行滤波处理从而仅仅使所选的声音采集束信号MB1x、MB2x的高频分量通过，并且将该分量输出到全波整流电路193B。由于提供了高频分量通过处理(即对高频分量之外的分量进行衰减)，所以如上所述，可以去除不包含高频分量的输入声音信号(即迂回声音的分量)。于是，形成了经高通处理过的信号，其中仅包含来自自己的设备一侧的说话者的声音。全波整流电路193B在全波范围内对与声音采集束信号MB1x、MB2x相对应的经高通处理过的信号进行整流(计算绝对值)，并且峰值检测电路194B检测经高通处理过的信号的峰值并输出峰值数据Pb1、Pb2。电平比较器195B对峰值数据Pb1、Pb2进行比较，并将选择指令数据给至信号选择电路198，这些数据用于选择与较高电平的峰值数据Ps相对应的声音采集束信号Mbax(a＝1或2)。在这种情况下，利用了这样的事实：与说话者所处的声音采集区域相对应的声音采集束信号的信号电平高于与参考表面对面的声音采集区域相对应的声音采集束信号的信号电平。

例如，如图12A所示，当与声音采集束信号MB13相对应的区域中的与会者A开始说话时，声音采集束信号MB13的信号电平变得高于声音采集束信号MB23的信号电平。因此，声音采集束信号MB13的峰值数据Pb1变得高于声音采集束信号MB23的峰值数据Pb2，电平比较器195B检测出峰值数据Pb1并将用于选择声音采集束信号MB13的选择指令数据提供至信号选择电路198。相反，如图12B所示，当与声音采集束信号MB21相对应的区域中的与会者B开始说话时，电平比较器195B检测出峰值数据Pb2并将用于选择声音采集束信号MB21的选择指令数据提供至信号选择电路198。在这种情况下，如图12C所示，当说话者都不发声并且两个声音采集束信号MB1x、MB2x的峰值数据Pb1、Pb2都低于预定阈值时，电平比较器195B将先前的选择指令数据提供至信号选择电路198。

信号选择电路198从声音采集束信号MB1x、MB2x中选择具有较高信号电平的声音采集束信号，其中声音采集束信号MB1x、MB2x是由信号选择电路196根据电平比较器195B的选择指令数据来选择的，并且信号选择电路198将这个信号作为声音采集束信号MB输出至回声消除部分20。

例如，如上所述，在图12A的情况中，信号选择电路198根据选择指令数据来从声音采集束信号MB13和声音采集束信号MB23中选择声音采集束信号MB13，并且输出该信号。相反，在图12B的情况中，信号选择电路198从声音采集束信号MB11和声音采集束信号MB21中选择声音采集束信号MB21，并且输出该信号。并且，在图12A的情况中，信号选择电路198根据选择指令数据在先前的声音采集束信号是声音采集束信号MB13时输出声音采集束信号MB13，并且在先前的声音采集束信号是声音采集束信号MB21时输出声音采集束信号MB21。根据这种处理的应用，可以在不受从扬声器到麦克风的迂回声音的影响的情况下检测出说话者方向，并且可以产生在该方向上能设置指向性中心的声音采集束信号MB。也就是说，可以以高S/N比拾取来自说话者的语音。

回声消除部分20具有自适应滤波器201和后置处理器22。自适应滤波器201根据响应于输入声音信号的所选声音采集束信号MB的声音采集指向性来产生伪迂回声音信号。后置处理器22用从声音采集束选择部分19中输出的声音采集束信号MB减去伪迂回声音信号，并且将相减后的信号作为输出声音信号输出至输入/输出I/F 12。由于执行了这种回声消除处理，所以可以执行足够的回声去除，并且只有属于自己的设备的说话者的语音能作为输出声音信号发送至网络。

如上所述，可以通过利用本发明的结构来在不受迂回声音的影响的情况下检测出说话者方向。于是，可以以高S/N比拾取说话者的语音，随后可将该语音发送到对面的声音发出/采集设备。

Claims

1.一种远程会议设备，其包括：

扬声器阵列，其包括向上或向下发出声音的多个扬声器；

第一麦克风阵列和第二麦克风阵列，它们被布置成在所述扬声器阵列的纵向方向上从所述扬声器阵列两侧拾取声音；

第一束产生部分，所述第一束产生部分通过分别以预定量的延迟对分别由所述第一麦克风阵列的麦克风拾取到的声音信号进行延迟处理并对延迟后的声音信号进行合成，从而产生多个第一声音采集束，所述第一声音采集束分别将焦点放置在事先在所述第一麦克风阵列侧确定的多个第一声音采集区域上；

第二束产生部分，所述第二束产生部分通过分别以预定量的延迟对分别由所述第二麦克风阵列的麦克风拾取到的声音信号进行延迟处理并对延迟后的声音信号进行合成，从而产生多个第二声音采集束，所述第二声音采集束分别将焦点放置在事先在所述第二麦克风阵列侧确定的多个第二声音采集区域上；

差信号计算部分，其计算分别朝向所述多个第一声音采集区域和所述多个第二声音采集区域产生的声音采集束中那些与关于所述扬声器阵列的中心线沿纵向方向处在相互对称位置的声音采集区域对相对应的声音采集束的差信号；

第一声源位置估计部分，其选择一对其中的差信号的信号强度较大的声音采集区域；以及

第二声源位置估计部分，其从由所述第一声源位置估计部分所选择的所述声音采集区域对中选择与强度较大的声音采集束相对应的声音采集区域，从而估计出声源位置存在于所选择的声音采集区域中。

2.如权利要求1所述的远程会议设备，其中所述第一束产生部分和所述第二束产生部分在由所述第二声源位置估计部分所选择的所述声音采集区域中进一步设置多个狭窄的声音采集区域，从而产生多个分别将焦点放置在所述狭窄的声音采集区域上的狭窄的声音采集束，并且

所述远程会议设备还包括：

第三声源位置估计部分，其估计出声源位置存在于与所述多个狭窄的声音采集区域对应的声音采集束中其中的声音信号的强度较大的一个声音采集束的区域中。

3.一种远程会议设备，其包括：

扬声器阵列，其包括向上或向下发出声音的多个扬声器；

第一麦克风阵列和第二麦克风阵列，它们适于将多个麦克风排列成沿所述扬声器阵列的纵向方向在扬声器阵列的中心线两侧相互对称；

差信号计算部分，其通过对由所述第一麦克风阵列和所述第二麦克风阵列的各个麦克风中的放置在相互对称的位置上的每对麦克风所拾取的声音信号进行相减，从而计算出差信号；

第一束产生部分，所述第一束产生部分通过在调整延迟量的同时对所述差信号进行相互合成，从而产生多个第一声音采集束，所述第一声音采集束将焦点分别放置在处于相互对称位置的多对预定的声音采集区域中；

第一声源位置估计部分，其从所述多对声音采集区域中选择出其中的差信号的信号强度较大的一对声音采集区域；

第二束产生部分，其根据由所述第一麦克风阵列的每个麦克风所拾取的所述声音信号来产生声音采集束，从而在由所述第一声源位置估计部分所选择的所述声音采集区域对中的每个声音采集区域中拾取声音信号；

第三束产生部分，其根据由所述第二麦克风阵列的每个麦克风所拾取的所述声音信号来产生声音采集束，从而在由所述第一声源位置估计部分所选择的所述声音采集区域对中的每个声音采集区域中拾取声音信号；以及

第二声源位置估计部分，其选择出与一声音信号相对应的声音采集区域，从而估计声源位置存在于所选择的声音采集区域中，其中所述声音信号是由所述第二束产生部分和第三束产生部分产生的声音采集束所拾取的声音信号中信号强度较大的声音信号。

4.一种声音发出/采集设备，其包括：

扬声器，其沿着分别关于预定参考表面对称的方向发出声音；

第一麦克风阵列和第二麦克风阵列，所述第一麦克风阵列在所述预定参考表面的一侧拾取声音，所述第二麦克风阵列在所述预定参考表面的另一侧拾取声音；

声音采集束信号产生部分，所述声音采集束信号产生部分产生第一声音采集束信号，从而根据所述第一麦克风阵列的一个声音采集信号分别从多个第一声音采集区域中拾取声音，并且所述声音采集束信号产生部分产生第二声音采集束信号，从而根据所述第二麦克风阵列的声音采集信号分别从被提供在与所述第一声音采集区域关于所述预定参考表面对称的位置上的多个第二声音采集区域中拾取声音；以及

声音采集束信号选择部分，其将关于所述预定参考表面相互对称的所述声音采集束信号彼此相减、从构成了信号电平最高的差信号的两个声音采集束信号中仅仅提取高频分量、并且根据所述提取出来的高频分量的结果，从所述两个声音采集束信号中选择一个其信号电平较高的具有高频分量的声音采集束信号。

5.如权利要求4所述的声音发出/采集设备，其中所述声音采集束信号选择部分包括：

差信号检测部分，其将相互对称的所述声音采集束信号彼此相减，从而检测出信号电平最高的差信号；

高频分量信号提取部分，所述高频分量信号提取部分具有高通滤波器，所述高通滤波器仅仅使得所述差信号检测部分从其中检测出差信号的两个声音采集束信号的高频分量分别通过，并且高频分量信号提取部分从通过所述高频滤波器的高频分量信号中检测出信号电平较高的高频分量信号；以及

选择部分，其选择与由所述高频分量信号提取部分所检测到的高频分量信号相对应的声音采集束信号，并且输出所选择的声音采集束信号。

6.如权利要求4或5所述的声音发出/采集设备，其中所述扬声器由沿着所述预定参考表面成直线排列的多个分立的扬声器构成。

7.如权利要求4至6中任一权利要求所述的声音发出/采集设备，进一步包括：

迂回声音去除部分，其根据所述输入声音信号和由所述声音采集束信号选择部分所选择的声音采集束信号来执行控制，以使得从所述扬声器发出的声音不包含在所述输出声音信号中。