CN103475976B

CN103475976B - 电子设备定向音频视频采集

Info

Publication number: CN103475976B
Application number: CN201310384381.3A
Authority: CN
Inventors: M·蒂科; M·S·阿马莱南; K·奥茨坎; M·K·韦维莱南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2008-07-31
Filing date: 2008-11-26
Publication date: 2017-04-12
Anticipated expiration: 2028-11-26
Also published as: CN102160398B; WO2010014074A1; US9668077B2; CN103475976A; CN107067414B; US9445193B2; CN107067414A; US20100026780A1; CN102160398A; US20110164141A1; EP2319251A1; EP2319251B1

Abstract

本文公开了一种装置。该装置包括壳体、电子电路以及音频‑视觉源跟踪系统。电子电路位于壳体中。音频‑视觉源跟踪系统包括第一视频相机和麦克风阵列。第一视频相机和麦克风阵列附接至壳体。音频‑视觉源跟踪系统被配置成从第一视频相机接收视频信息。音频‑视觉源跟踪系统被配置成至少部分地响应于所述视频信息而从麦克风阵列采集音频信息。音频‑视觉源跟踪系统可以包括附接至壳体的第二视频相机，其中第一视频相机和第二视频相机一起估计麦克风阵列的声束定向。

Description

电子设备定向音频视频采集

本申请为2011年3月15日进入中国国家阶段的、申请日为2008年11月26日的、题为“电子设备定向音频视频采集”的第200880131153.2号中国专利申请的分案申请。

技术领域

本发明涉及一种电子设备，并且更具体地涉及用于电子设备的定向音频视频采集。

背景技术

具有免提电话或者免提应用的电子设备在本领域中是已知的。在免提语音通话期间，可将除用户的语音之外的任何声音视为背景噪声，这些背景噪声应当被衰减(或者消除)以提高电话交谈的质量。噪声可能涉及与发送和接收信号相对应的环境、网络和音频链。环境噪声(或者干扰的声音／背景噪声)在免提语音通话期间可能很容易造成干扰，并且有时可能会超过用户的语音(信号)水平，使得分离二者变得非常困难。这可能导致较差的信噪比(SNR)。

在本领域中存在若干种用于语音通信的仅针对音频源的跟踪技术。通过使用能够对源(用户)方向之外的敏感度进行衰减的定向性图案而提供音频发送的常规配置，可以改善SNR并在传输源信号之前从该信号中消除不需要的信号。然而，这假设了已经知晓或者可以估计信号的到达方向(DOA)。此外，使用常规技术的基于音频的跟踪一般不适合于静默的移动源。

在手持移动通信设备的情况中，声源的相对位置由于设备的移动可能也会发生移动。相比于在其中可以假设设备相比于声源的移动是处于相对静止中的传统会议室设置而言，设备的连续把持(例如，由于自然的手势和手部动作)使得源跟踪任务的挑战性大为增加。设备移动可以引起DOA中非常快的改变，而声源的移动则不大可能造成这种情况。

在典型的移动通信语音通话中，用户与设备的相对位置可以改变。由于仅针对音频的跟踪系统为了计算一个或多个DOA角而需要音频数据，因此这对跟踪信息造成处理延迟(从而妨碍了实时源位置信息更新)。遗憾的是，在实时语音通信中为了流畅运行而需要最小化端对端延迟。这可能引起若干问题。例如，当用户在讲话停顿期间移动时，源跟踪器在该静默期中可能失去正确的源位置。当通话者开始讲话时，语句的开头可能因错误的位置信息而失真。从多麦克风降噪的角度来看，这意味着用户的语音被作为背景噪声源处理，直至考虑到正确的位置信息。

另一类定向音频采集算法通过利用信号的统计属性来形成麦克风阵列的定向性图案。这些算法并不利用专用的声源位置信息，而是试图自适应于所需的源。通常这些算法不仅需要适应于源位置中的变化，而且还需要适应于室内冲击响应中的变化。这使得这些算法对环境中瞬时变化的反应相对较慢。在没有外部控制的可能性的情况下，对关于源方向做出自主判断的算法进行控制也是有意义的。例如，在大声的干扰源(又称为干扰机)的情况中，控制麦克风阵列以将源归类为噪声源变得更加困难，特别是当干扰源的信号统计与所需源相似时，例如在通话者争相发言的情况下尤为如此。

此外，人脸检测和人脸的视频跟踪在本领域中是已知的。脸部检测对输入图像中的一张脸(或者多张脸)的定位进行处理。该过程包括在没有关于脸部位置的先前知识可用时对整个图像进行扫描。脸部跟踪还可以扩展至通过使用时间相关性在视频序列中定位人脸而进行的脸部检测。使用关于上一帧中的脸部位置的知识来缩小当前帧中的搜索范围，而不是单独地在每个帧中对脸部进行检测。

例如，特此通过引用整体并入的“Face Detection In Color Images”(R.L.Hsu，M.Abdel-Mottaleb，and A.K.Jain，IEEE Transactions on Pattern Analysis andMachine Intelligence，24：696-706，2002)描述了一种基于肤色检测的脸部检测途径。用于基于肤色检测的脸部检测(或跟踪)的途径一般对在图像中所发现的肤色像素进行确定和分组。接下来，针对每个这样的像素组计算边界框(或者最佳拟合椭圆)。选择核实特定形状和尺寸限制的皮肤部分作为候选脸部。最后，基于对候选脸部内的孔洞是由于特征(诸如眼睛和嘴)与肤色不同而造成的这一观察，在每个候选脸部内搜索这些特征。

另外，特此通过引用整体并入的“Detecting Faces In Images：A Survey”(M.Yang，D.J.Kriegman，and N.Ahuja，IEEE Transactions on Pattern Analysis andMachine Intelligence，24：34-58，2002)描述了一种基于脸部纹理信息的脸部检测途径。

此外，特此通过引用整体并入的“A Hybrid Approach To Face Detection UnderUnconstrained Environments”(A.Hadid，M.Pietikainen，International Conference ofPattern Recognition(ICPR2006))描述了一种基于颜色和纹理信息的脸部检测途径。

特此通过引用整体并入的美国专利No.6,826,284公开了一种系统，其中源跟踪信息实现了举例而言诸如相机调向的设备控制。

此外，特此通过引用整体并入的“Knowing Who To Listen To In SpeechRecognition：Visually Guided Beamforming”(U.Bub，M.Hunke，and A.Waibel，Interactive System Laboratories，IEEE1995)和“Listen：A System For Locating AndTracking Individual Speakers”(M.Collobert，R.Ferraud，G.Le Tourneur，O.Bernier，J.E.Viallet，Y.Mahieux，D.Collobert，France Telecom，IEEE Transactions(1999))公开了使用一种机械设备来移动相机朝向用户脸部，用于在固定的电话会议条件下使用的视觉和音频跟踪。

“Joint Audio-Video O bject Localization and Tracking”(N.Strobel，S.Spors and R.Rabenstein，IEEE Signal Processing Magazine (2001))公开了一种物体跟踪方法。

另外，美国专利No.5,335,011公开了使用一种声音定位技术，该技术基于每个用户位置的先验知识。

然而，尽管有上述进展，但仍然存在对于提供改进的音频采集系统的强烈需求。

发明内容

根据本发明的一个方面，公开了一种装置。该装置包括壳体、电子电路以及音频-视觉源跟踪系统。电子电路位于壳体之中。音频-视觉源跟踪系统包括第一视频相机和麦克风阵列。第一视频相机和麦克风阵列附接至壳体。音频-视觉源跟踪系统被配置成从第一视频相机接收视频信息。音频-视觉源跟踪系统被配置成至少部分地响应于所述视频信息而从麦克风阵列采集音频信息。

根据本发明的另一方面，公开了一种方法。提供了一种壳体。在该壳体中安装电子电路。在该壳体附近提供跟踪系统。其中跟踪系统包括第一视频相机和麦克风。第一视频相机附接至壳体。麦克风靠近第一视频相机。跟踪系统被配置成从第一视频相机接收视频信号。跟踪系统被配置成至少部分地响应于所述视频信号而从麦克风采集音频信号。

根据本发明的又一方面，公开了一种方法。使用一种装置的相机采集第一图像。确定该第一图像的一部分相对于所述装置的麦克风阵列的方向。至少部分地基于该第一图像的所述部分的方向来控制麦克风阵列的预定特性。

根据本发明的另一方面，公开了一种机器可读的程序存储设备，其有形地体现指令程序，该指令程序可由机器执行用于进行操作，以感测音频信号。分析图像的一部分。计算出与该图像的所述部分相对应的方向。该方向是相对于一种装置的。至少部分地基于计算出的方向而从该装置导引麦克风阵列。

根据本发明的又一方面，公开了一种装置。该装置包括壳体、电子电路以及音频-视觉优化系统。电子电路位于壳体之中。音频-视觉优化系统包括第一视频相机和麦克风阵列。第一视频相机和麦克风阵列附接至壳体。第一视频相机包括至少一个可调参数。音频-视觉优化系统被配置成从麦克风阵列接收音频信息。音频-视觉优化系统被配置成至少部分地响应于所述音频信息而对第一视频相机的所述至少一个可调参数进行调节。

根据本发明的另一方面，公开了一种方法。使用一种装置的相机来采集图像。确定该图像的一部分的第一位置。采集对应于该第一位置的音频信息。至少部分地响应于采集到的音频信息而控制所述相机的参数。

根据本发明的又一方面，公开了一种机器可读的程序存储设备，其有形地体现指令程序，该指令程序可由机器执行用于进行操作，以采集音频-视觉信息。调整一种设备的麦克风阵列。评估由该麦克风阵列所接收到的音频信息。至少部分地基于经评估的音频信息而调节所述设备的相机参数。

附图说明

在联系附图进行的以下描述中，对本发明的前述方面和其他特征进行解释，在附图中：

图1是包含有本发明的特征的一种电子设备的正面的透视图；

图2是图1中所示电子设备的背面的透视图；

图3是用在图1中所示电子设备中的一种示例性算法的框图；

图4是用在图1中所示电子设备中的一种跟踪系统的一部分相对于用户和坐标系的视图；

图5是用在图1中所示电子设备的跟踪系统中的脸部检测元素的视图；

图6是包含有本发明的特征的另一电子设备的透视图；

图7是用在图6中所示电子设备中的一种跟踪系统的一部分相对于用户的视图；

图8是图1和图6中所示电子设备的一种示例性方法的框图；

图9是图1和图6中所示电子设备的另一示例性方法的框图；

图10是图示了图1和图6中所示电子设备的组件的示意图；

图11是图1和图6中所示电子设备的一种示例性方法的框图；

图12是用在图1和图6中所示电子设备中的一个示例性脸部位置表的框图；

图13是用在图12中所示表中的另一示例性算法的框图；

图14是用在图12中所示表中的另一示例性算法的框图；以及

图15是图1和图6中所示电子设备的另一示例性方法的框图。

具体实施方式

参考图1，示出了包含有本发明的特征的电子设备10的透视图。尽管将参考附图中所示的示例性实施方式描述本发明，但是应当理解，本发明可以在许多替代形式的实施方式之中实施。此外，可以使用任何合适的尺寸、形状或者类型的元件或材料。

根据图1和图2中所示的本发明的一个示例，设备10为多功能便携式电子设备。然而，在替代实施方式中，本发明的该示例性实施方式的特征例如可以用于诸如移动电话、游戏设备、音乐播放器或者PDA之类的任何合适类型的手持便携式电子设备。此外，如本领域中已知，设备10可以包括多个特征或者应用，举例而言，比如相机、音乐播放器、游戏机或者因特网浏览器。

还参考图2，设备10总体上包括具有正面14和背面16的壳体12、与天线20相连的收发器18、壳体12内的电子电路22(举例而言，比如控制器和存储器)、用户输入区域24以及显示器26。显示器26也可以构成用户输入部分，比如触摸屏。应当注意的是，在替代实施方式中，设备10可以具有本领域中已知的任何合适类型的特征。

电子设备10还包括主相机28，以及音频-视觉源跟踪系统30。主相机28安装在壳体12内靠近设备10的背面16处。相机28可以包括静止图像数码相机和／或视频相机，或者任何其他合适类型的图像拍摄设备。

音频-视觉源跟踪系统30包括副相机32和麦克风阵列34。

副相机32安装在壳体12内靠近设备10的正面14处。相机32例如可以包括视频相机。该视频相机可被定向或者配置成采集设备的用户脸部的图像。在使用所述设备进行视频通话时，该视频相机可以用于视频采集。然而，也可以提供任何合适类型的图像拍摄设备。例如，在替代实施方式中，该视频相机也可以是安装至计算机的、用于视频通话的web摄像头。

还应当注意的是，根据本发明的一个实施方式，相机还可以是在下述移动电话中用于视频通话的相机，在这样的移动电话中已集成双相机：一个面向背面，而另一个面向用户专门用于视频免提通话。

麦克风阵列34安装在壳体12内靠近副相机32处。麦克风阵列34可以围绕相机32(与之非常接近)。然而，在替代实施方式中，可以提供针对相机34的任何合适的位置或定向。麦克风阵列34被配置用以采集设备用户的语音。麦克风34可被配置用于二维(2D)或三维(3D)麦克风阵列声束调向。在图1中所示的示例中，麦克风阵列34包括四个麦克风。然而，在替代实施方式中，可以提供更多或者更少的麦克风。例如，在一个实施方式中，麦克风阵列34可以包括三个麦克风。

相机32和麦克风阵列34的相对位置和定向可以是事先已知的(固定的)，或者基于视觉与声音源跟踪信息的时间平均而估计。然而，应当注意的是，可以使用本领域中已知的任何适当的定位手段来提供相机和麦克风阵列的相对位置和定向。麦克风阵列或者相机，或者二者，可以提供关于源距离的信息。

应当注意，尽管附图示出了主相机28位于电子设备10的背面16而音频-视觉源跟踪系统30位于该设备的正面14，但替代实施方式可包括在任何适当位置上的相机28和音频-视觉源跟踪系统30。例如，可将主相机28提供在电子设备10的正面14，并且可以将音频-视觉源跟踪系统30提供在设备10的背面16。在另一示例中，可将主相机28和音频-视觉源跟踪系统30二者都提供在电子设备10的正面14或者背面16。此外，可将相机28和音频-视觉源跟踪系统30二者或其中之一提供在壳体12的侧面。还可以利用相机信息来跟踪设备的移动。还应当理解，可以提供两个以上的相机或者单独一个相机(其中所述单独一个相机充当主相机和副相机)。

根据本发明的各种示例性实施方式，音频-视觉源跟踪系统30为电话交谈和视频电话交谈提供脸部跟踪辅助定向音频采集。音频-视觉源跟踪系统30提高了嘈杂环境中免提语音／视频通话的上行音频性能(或音频质量)，而这可被最终用户在移动语音通话期间察觉到。

音频-视觉源跟踪系统30可以提供人脸的视频跟踪以及对麦克风阵列的定向敏感度的控制，以用于定向音频采集，从而提高嘈杂环境中语音和／或视频通话的质量。本发明的示例可以包括用于鲁棒并高效的脸部检测和跟踪的先进技术。这样的技术和算法已由若干研究团队开发出来，并且它们目前正用于若干应用之中(例如脸部识别、脸部跟踪等)。脸部跟踪算法可以实现高的性能并且即使在例如计算能力相对较低的机器上(比如移动电话上)也可以实时运行。

音频-视觉源跟踪系统30被配置成使用与用户的脸部位置相对应的视频信息，用以协助音频采集过程。这可以通过确定对设备讲话的用户的嘴部参考点并且将麦克风阵列的声束形成为朝向用户的嘴部(或者参考点)而进行。

音频-视觉源跟踪系统30检测和跟踪由副相机所采集的视频帧中用户的脸部(因为副相机被定向为朝着设备用户)。相机和麦克风在设备内的固定位置允许相机相对于麦克风阵列的定向(或者声束定向)的已知定向。应当注意的是，对于麦克风声束定向或者声束定向的参考还可以指用户相对于麦克风阵列的面部方向。音频-视觉源跟踪系统30可被配置用于选择性地加强沿着朝向用户嘴部的特定空间方向的音频采集敏感度。例如，可将麦克风阵列34的敏感度调节为朝向用户的方向(举例而言，比如在用户正在讲话时)。因此有可能剔除不需要的声音，而这提高了传输至远端用户的音频的质量。不需要的声音可能来自设备的侧面或者任何其他方向(举例而言，比如朝向用户嘴部的方向之外的任何其他方向)，并且可被视为能被消除或者显著降低的背景噪声。

在可能有明显的反射以及直接声音路径的封闭环境中，本发明的示例通过降低并／或消除来自周围物体的反射而改善直接声音路径(因为期望的源的声学房间反射未与直接声音路径的DOA对准)。房间反射的衰减可能也是有益的，因为混响使得语音更加难以理解。本发明的实施方式通过凭借相应地导引麦克风阵列的声束朝向用户来跟踪用户脸部的位置，而在讲话分音的静默部分期间提供音频增强。

本发明的各种示例性实施方式通过凭借使用关于所需信号的方向的额外信息来允许对移动中的源在讲话停顿期间的分离、降低和估计(在非常低的SNR水平上)，而克服了常规纯音频技术的限制。

现在还参考图3，其示出了音频-视觉源跟踪系统30的示例性算法100。该算法可被提供用于实现用户的视频跟踪并且控制麦克风阵列(对于要被传输的所需音频信号)的定向麦克风声束的敏感度。该算法可以包括以下步骤。使用副相机采集图像帧(步骤102)。在当前图像帧中检测用户的脸部。可以例如使用肤色途径来检测脸部位置(步骤104)。确定脸部边界矩形的中心并且计算嘴部的大致位置(如图5中所示)。还可以基于嘴部的颜色与肤色不同这一事实(眼睛和嘴在像素的肤色组中表现为孔洞)来检测嘴部(步骤106)。基于视频帧中的嘴部位置并且基于关于相机焦距的知识来确定相对于麦克风阵列的脸部方向(举例而言，比如嘴部的3D方向)。如果麦克风阵列靠近相机，则可将定义该3D方向的(沿水平和垂直方向的)两个角确定如下：

θ_x=atan(x／f)，θ_y=atan(y／f)

其中f表示相机焦距，而x、y是嘴部相对于帧图像坐标的位置(见图4、图5)(步骤108)。增加麦克风阵列沿着确定于步骤108中的方向的定向性(相对敏感度)(步骤110)。使用副相机采集新的帧(步骤112)。通过在邻近先前帧中的先前脸部位置处进行搜索而跟踪新的帧中新的脸部位置(步骤114)。返回步骤106。

应当注意，可将所述算法提供为无限循环。然而，在替代实施方式中，该算法可以例如通过特定的用户界面(UI)命令而成为开始／停止算法。然而，可以提供任何适当的算法。

现在还参考图4，示出了示例说明如何可以确定朝向所述(跟踪脸部／嘴部)位置的方向(如以上算法100中所示)的一个示例的视图。用户40的嘴部38的(相对于相机32的光心36的)方向由两个角θ_x、θ_y定义。在所示实施方式中，麦克风阵列34紧紧围绕相机32的光心36。此外，在42处示出了图像所投射到的图像传感器平面，在44处示出了原点处于相机光心的3D坐标系，并且在46处示出了2D图像坐标系。

现在还参考图5，示出了示例说明各种脸部检测元素(如在以上算法100中所示)的视图。在200处示出了由副相机所采集的示例图像帧。在图像帧200中示出了检测到的用户40的脸部。在202处示出了脸部区域的边界矩形。在204处示出了该边界矩形的中心。在206处示出了假设为嘴部38的位置的、在所述中心之下的位移。在208处示出了近似于嘴部位置的感兴趣点。

本发明的各种示例性实施方式提供了改进的配置，该配置允许高质量的免提语音和／或视频通话(即使是在嘈杂环境中)。此外，还可以提供在讲话停顿期间(比如在讲话分音之间的停顿期间发送音频)的通话者跟踪的优点。另外，本发明的示例可以利用具有两个相机(一个相机面向用户)的移动设备中的已有相机硬件。再另外，只要麦克风阵列位于靠近相机模块处，那么本发明的实施方式便可以适配于单相机产品。

现在还参考图6和图7，示出了具有包括两个相机332和三个麦克风334在内的音频-视觉源跟踪系统330的电子设备300。音频-视觉源跟踪系统330通过使用两个相机332估计相对于用户40的嘴部38的声束定向370而提供上行音频中的音频质量改善。如果麦克风阵列334如图6中所示位于远离相机视角(实际上相机模块本身)处，则用户40的脸部位置与麦克风阵列的中心之间的距离可能难以计算。例如，对于较大的距离380，可以提供深度390信息来估计声束定向370。另一方面，当相机32与麦克风34之间的距离相对较小时，只有一个相机可以具备设备10的音频-视觉源跟踪系统30的配置。可以通过使用两个相机332估计深度390来提供对相关于用户40脸部的麦克风声束方向370的估计。本发明的实施方式因此在移动电话设计中提供灵活性，其中可以通过具有更好的麦克风位置灵活性而设计麦克风阵列。此外，应当注意的是，可以使用一个或多个相机来估计用户40的嘴部38的仰角(方位角)396。还可以使用提供针对图像的深度图的单个3D相机技术来获取距离信息。

图8示出了制造电子设备10、300的方法400。该方法包括以下步骤。提供壳体(步骤402)。在壳体内安装电子电路(步骤404)。在壳体附近提供跟踪系统，其中所述跟踪系统包括第一视频相机和麦克风，其中第一视频相机附接至壳体，其中麦克风靠近第一视频相机，其中跟踪系统被配置成从第一视频相机接收视频信号，并且其中跟踪系统被配置成至少部分地响应于所述视频信号而从麦克风采集音频信号(步骤406)。应当注意，任何上述步骤都可以单独执行，或者结合一个或多个所述步骤执行。

图9示出了方法500。该方法包括以下步骤。使用一种装置的相机采集第一图像(步骤502)。确定该第一图像的一部分相对于所述装置的麦克风阵列的方向(步骤504)。至少部分地基于第一图像的所述部分的方向来控制麦克风阵列的预定特性(步骤506)。

现在还参考图10，设备10、300一般包括控制器600，举例而言，比如微处理器。电子电路包括耦合至控制器600的存储器602，举例而言，比如位于印刷电路板上。该存储器可包括多个存储器，举例而言，包括可移动存储模块。所述设备具有用户可以使用的应用604，比如软件。该应用例如可以包括电话应用、因特网浏览应用、游戏娱乐应用、数码相机应用等等。这些只是一些示例，而不应被视为限制。一个或多个用户输入24、324耦合至控制器600，并且一个或多个显示器26、326耦合至控制器600。音频-视觉跟踪系统30、330也耦合至控制器600。设备10、300可被编程为自动地改变采集或者感测音频信号。然而，在一个替代实施方式中，这可能并不是自动的。用户可能需要主动地在跟踪系统30、330中选择变化。

本发明的各种示例性实施方式提供了相比于仅针对音频的常规配置的优势。在双向通信系统中，由于用户的(以及相应的嘴部参考点的)相对位置和／或手持机的位置可能改变，因而会出现挑战。仅针对音频的跟踪系统需要音频数据来计算到达方向(DOA)，并因此对于跟踪信息引入处理延迟。在实时语音通信中，为了流畅的操作而希望最小化点对点延迟。比如，当用户在讲话的静默部分期间移动时，源跟踪器将失去嘴部参考点。错误的嘴部参考点(这相应地意味着错误的麦克风声束定向)可能很容易在初始讲话分音开始时造成失真。这种情况下音频-视觉源跟踪系统可能是有益的，因为它可以实时地更新源位置信息。具有空间方向性的一个或多个麦克风通过凭借衰减对于除期望源的方向之外的方向的敏感度来突出来自所述期望源的方向的声音，而改善音频信号的采集。通过音频-视觉源跟踪，可以将麦克风阵列的最高敏感度调向成朝向期望的源(一般是用户的脸部(或者嘴部))。

仍参考图10，设备10可以包括根据本发明的另一示例的音频-视觉源跟踪系统730。与跟踪系统30类似，跟踪系统(或者音频-视觉优化系统)730(也示于图1中)包括副相机32和麦克风阵列34。类似地，系统730被配置成通过将音频敏感度调整为朝向人脸方向而优化设备10的音频采集。如上所述，可以通过调整麦克风阵列34的敏感度声束而朝期望的空间方向最大化音频敏感度。然而，系统730在存在多个通话者的情况下(举例而言，比如在电话会议期间)提供优化通信的音频视觉质量的技术效果。

音频-视觉优化系统730提供一种方法，以在具有多个参与者的一般通信方案中(举例而言，比如电话会议，或者当在一个位置上存在多个参与者时的专属视频电话交谈，或者视频录制)同时优化针对活跃通话者的音频和视频质量采集。

根据本发明的一个示例，在图11中示出了一种方法900。所公开的方法可以包括以下处理部分或者步骤。检测并跟踪存在于由一个或多个相机所采集到的视频帧中的所有脸的位置(步骤902)。这可以在视频通话期间在单独线程中连续运行的单独进程中实现。该进程例如可以监控视频流中所有检测到的脸的位置，并且在可被其它进程访问的表中更新这些位置。通过以很短的时间间隔连续地将麦克风阵列的敏感度调整为朝向各个脸方向来检测通话者(步骤904)。如果在这样的方向上检测到的音频水平超过阈值，则将对应的脸视为活跃通话者的脸。当关于当前方向的音频水平下降至阈值以下时，继续进行脸方向的连续扫描。每当麦克风阵列检测到一个活跃通话者时，就针对该活跃通话者的脸部的最佳检测而优化相机参数(步骤906)。举例而言，这可以包括比如自动对焦至所述脸上，并且根据该脸部的照明而自动曝光之类的操作。然而，在替代实施方式中，可以调节和／或优化任何相机参数或操作。以这种方式，系统可以处理在其中通话者的脸并不全都处于相同照明条件下并且处于离一个或多个相机的相同距离处的情况。此外，一些脸可能处于现场的非常亮或者非常暗的区域之中，并因此需要调节曝光参数以正确地采集它们的图像。另一方面，一些脸可能位于距相机更近或更远处，使得它们无法同时被全部对焦。在这种情况下，系统可以提供在每一时刻对活跃通话者脸部进行正确对焦的保证。

此外，本发明的各种实施方式还可以处理其中麦克风阵列未被置于在空间上接近相机之处的情况。例如，参考图6和图10，设备300可以包括根据本发明的另一示例的音频-视觉源跟踪系统830。与跟踪系统330类似，跟踪系统830(或者音频-视觉优化系统)包括两个相机332和三个麦克风334。类似地，系统830被配置成通过将音频敏感度调整为朝向人脸的方向而优化设备的音频采集。如上所述，音频-视觉优化系统830允许对相对于用户嘴部的声束定向进行估计。系统830在无需将麦克风阵列位置限制在一个或多个相机附近的情况下，在有多个通话者的情况中提供经优化的通信音频视觉质量。

当麦克风阵列不接近相机时，检测到的脸部相对于麦克风阵列的方向可能不再与该脸部相对于相机光心的方向相同(或者接近)。如图7中所示(以及上文所讨论)，示出了在其中麦克风阵列334被置于距相机的距离380处并且通过立体视觉使用两个相机332估计深度信息的情况。在这样的情况中，在没有深度信息的知识的情况下，或者换言之在没有3D空间中的脸部位置的知识的情况下，可能无法确定用户40的脸部(或者嘴部38)相对于麦克风阵列334的方向。音频-视觉优化系统830的两个相机332允许基于由每个相机所采集的图像中的脸部相对位置来进行对深度(或者深度信息)的估计(见图7)。距离380越大，确定关于脸部的深度信息就越重要，以便估计相对于麦克风阵列的脸部定向。应当注意的是，在替代实施方式中，可以提供两个以上的相机332。此外，在其它实施方式中，在假设已知典型的脸部尺寸的知识的情况下，可以通过分析采集到的图像中的脸部尺寸而提供使用单个相机的深度估计。

本发明的各种实施方式可以提供可移动相机镜头／光学器件，所述镜头／光学器件由麦克风阵列在一定灵活度内控制和调向，这提供了改善的视角灵活性。此外，可以伴随语音／视频通话、视频录制或者其它相关使用情况而利用本发明的实施方式。

根据本发明的一个实施方式，系统730、830包括两个可运行在不同线程中的进程。这两个进程可通过“脸部位置表(FPT)”1000进行通信(见图12)。FPT1000可由一个进程更新，并由另一进程读取。FPT中的每个行1002对应于一张检测到的脸，并且包括该脸部在3D空间中的位置。第一进程可以是“脸部跟踪器(FT)”进程1100，而第二进程可以是“音频-视觉优化器(AVO)”进程1200。图12示出了本发明的使用所述两个进程(“脸部跟踪器”1100和“音频-视觉优化器”1200)的一个实施方式的示意图，所述两个进程运行在不同线程中，并且通过包含该场景中所检测到的每张脸的位置的表(“脸部位置表”)1000进行通信。FT进程1100可被配置成连续检测视频流中的脸并且在FPT1000中更新它们的位置。AVO进程1200可被配置成扫描FPT1000中的脸部位置，检测活跃通话者的脸部，并优化(来自FT进程1100的)对应的方向／位置中的音频视觉检测。

现在还参考图13，可以提供一种运行在FT进程1100中的算法1102来针对每个相机执行以下步骤。采集图像帧(步骤1104)。基于例如肤色方法来检测该图像帧中所有脸的位置(步骤1106)。以检测到的脸在所述图像中从左至右并且自上而下的位置顺序来标记所述检测到的脸(步骤1108)。一般而言，每张真实的脸在所有相机中都将具有相同的标记。此外，可以为每个相机提供步骤1104-步骤1108中的各个步骤。基于其在不同相机帧中的相对位置来估计深度(步骤1110)。用新的脸部位置来更新FPT表1000(步骤1112)。移至步骤1104。可以为每个脸部标记提供步骤1108、步骤1110中的各个步骤。

现在还参考图14，可以提供一种运行在AVO进程1200中(并且假设在FPT表1000中存在K张脸)的算法1202来执行以下步骤。将麦克风阵列敏感度声束调整为朝向来自FPT表1000的第一张脸(步骤1204)。如果音频水平高于阈值(步骤1206)，则调节针对当前脸部区域的相机自动曝光(步骤1208)、调节针对当前脸部区域的相机自动对焦(步骤1210)，并返回步骤1206。否则(如果音频水平不高于阈值)，则将麦克风阵列敏感度声束调整为朝向来自FPT表的下一张脸(步骤1212)，并且返回步骤1206。

图15示出了一种方法1300。该方法1300包括以下步骤。使用一种装置的相机采集图像(步骤1302)。确定该图像的一部分的第一位置(步骤1304)。采集对应于该第一位置的音频信息(步骤1306)。至少部分地响应于采集到的音频信息来控制所述相机的参数(步骤1308)。

根据本发明的各种示例性实施方式，公开了一种用于改善的音频-视觉通信的方法。本发明的实施方式涉及在存在多个参与者时的一般通信方案(举例而言，比如视频通话、视频录制)中同时优化关于活跃通话者的音频和视频(采集)质量。本发明的实施方式提供这样一种方法：该方法标识多个通话者群组内的活跃通话者，并且相应地更新视觉参数。

具有麦克风(音频)和相机(视频)的常规设备配置一般被独立地考虑，并且该情境限于两个领域(音频和视频)相互联系的情况。单独地(独立地)考虑麦克风和相机，可能会限制分别在音频和视频质量中可能实现的技术效果。本发明的各种实施方式提供了对两种类型的传感器(麦克风和相机)所采集到的信息的结合，以提高彼此的质量。例如，常规配置一般利用改进的相机、镜头和软件支持来仅仅改善成像和视频录制。然而，这些改善一般被采用在较窄的范围或应用类别内。本发明的实施方式因此提高质量，并且创造了将改进的技术适配于移动电话设备中的机会。

在一般音频视觉通信方案(比如视频会议或者其他视频电话设置)中，处于一个位置的一个或多个通话者通过音频和视频信号与处于另一位置的一个或多个通话者通信。在一种简单的常规设置中，在每个位置的一个相机和一个麦克风似乎就足以实现这一通信方案。然而，由于视频质量一般取决于对所有通话者而言可能并不一定都是最佳的相机设置(例如，活跃通话者可能不在焦点，或者处于现场的非常暗／亮的区域之中，使得相机无法正确采集图像)，因而可能出现各种技术问题。此外，存在于一个位置的背景噪声可能会干扰来自活跃通话者方向的音频信号。另外，相机和麦克风可能未被放置在空间上靠近的位置处，使得活跃通话者相对于麦克风阵列的方向在没有3D空间中脸部位置的知识的情况下可能无法确定出来。

相应地，本发明的实施方式可以减轻由常规配置所造成的上述各种技术问题。根据本发明的各种实施方式，音频和视觉组件可以提供视频检测和人脸跟踪；控制麦克风阵列的定向敏感度，用于定向音频采集(自适应声束成形)；以及立体成像，用以采集针对(图像中的)物体的(相对于相机的)深度信息。如上所述，音频和视觉组件可以包括至少一个视频相机，其采集用户脸部的图像；以及麦克风阵列，其被配置成采集用户的语音(其中麦克风阵列无需被置于一个或多个相机附近)。麦克风阵列可以包括至少3个被配置用于对麦克风阵列进行二维(2D)声束调向的麦克风(例如，其可以是全向麦克风)。当麦克风阵列与相机之间的距离增大时，所述至少一个视频相机可以包括多个相机。然而，可以提供任何适当的音频／视觉组件配置。

本发明的实施方式在具有一个或多个参与者并且／或者在嘈杂环境中的免提语音和／或视频通话期间提供改进的音频和视频采集质量。本发明的实施方式提供了分别针对音频数据和视觉数据的优化，并因此提高了许多用例(举例而言，比如视频通话、视频录制情况)的质量。本发明的实施方式提供了一种用于标识多通话者群组内的通话者并且更新视觉参数的方法。系统通过一个或多个相机来检测／跟踪脸的位置，通过麦克风阵列的帮助来检测活跃通话者，并且使用最佳检测来优化视觉信息。

本发明的各种实施方式可适用于静默情况，并且还可以适用于多通话者群组。本发明的实施方式还可以包括由麦克风阵列控制的可移动相机镜头／光学器件，这样可以产生针对视角的提高的灵活性。

本发明的示例提供了改善的配置，其通过优化针对每个时刻的活跃通话者的视频参数(曝光、对焦)而允许在不同的位置和照明条件的情况下的增强的音频／视频采集。此外，本发明的一些实施方式可在讲话停顿期间实现通话者跟踪，因为它依靠对可见现场中出现的所有脸部的连续视频跟踪。另外，本发明的实施方式可以增强视频录制和电视电话会议语音通话，以及与音频数据和视觉数据二者相关的质量。

根据本发明的一个示例，公开了一种装置。该装置包括以下元件。壳体。处于该壳体中的电子电路。包括第一视频相机和麦克风阵列的音频-视觉源跟踪系统，其中第一视频相机和麦克风阵列附接至壳体，其中音频-视觉源跟踪系统被配置成从第一视频相机接收视频信息，并且其中音频-视觉源跟踪系统被配置成至少部分地响应于所述视频信息而从麦克风阵列采集音频信息。

根据本发明的另一示例，公开了一种机器可读的程序存储设备。该程序存储设备有形地体现指令程序，该指令程序可由机器执行用于进行操作，以感测音频信号。该程序存储设备可以进行以下操作。分析图像的一部分。计算与所述图像的所述部分相对应的方向，其中该方向是相对于一种装置的。至少部分地基于计算的方向而导引所述装置的麦克风阵列。

根据本发明的又一示例，公开了一种装置。该装置包括壳体、电子电路和音频-视觉优化系统。电子电路位于壳体中。音频-视觉优化系统包括第一视频相机和麦克风阵列。所述第一视频相机和麦克风阵列附接至壳体。第一视频相机包括至少一个可调参数。音频-视觉优化系统被配置成从麦克风阵列接收音频信息。音频-视觉优化系统被配置成至少部分地响应于所述音频信息而调节第一视频相机的所述至少一个可调参数。

根据本发明的另一示例，公开了一种机器可读的程序存储设备。公开了有形地实现可由机器为了进行采集音频-视觉信息的操作而执行的指令程序的程序存储设备。调整一种设备的麦克风阵列。评估由该麦克风阵列所接收到的音频信息。至少部分地基于经评估的音频信息来调节所述设备的相机参数。

应当理解，本发明的组件可以可操作地耦合或连接，并且可以存在任何数量的介于中间的元件及其任何组合(包括无介于中间的元件)。连接可以是直接的或间接的，并且此外组件之间可以仅具有功能上的关系。

应当理解，前文的描述仅仅是对本发明的示例说明。本领域中技术人员可在不背离本发明的情况下设计出各种替代和修改。因此，本发明旨在囊括处于随附权利要求书范围内的所有这样的替代、修改和变动。

Claims

1.一种电子装置，其包括：

壳体；

位于所述壳体之中的电子电路；以及

包括第一视频相机和麦克风阵列的音频-视觉优化系统，所述第一视频相机被配置成检测并跟踪由所述第一视频相机输出的视频帧中的每个脸的位置，所述麦克风阵列被配置成通过以一段时间间隔连续地将所述麦克风阵列的敏感度调整为分别朝向各个脸、并且确定在一个方向上检测到的音频水平是否超过阈值来检测活跃通话者，其中如果所检测到的音频水平超过所述阈值，则将所述方向上的所述脸视为所述活跃通话者的脸，其中所述第一视频相机的至少一部分和所述麦克风阵列的至少一部分安装在所述壳体内，其中所述第一视频相机包括至少一个可调参数，其中所述音频-视觉优化系统被配置成从所述麦克风阵列接收音频信息，其中所述音频-视觉优化系统被配置成如果检测到所述活跃通话者则至少部分地响应于所述音频信息来为所述活跃通话者调节所述第一视频相机的所述至少一个可调参数，并且其中所述电子装置是多功能便携式电子设备。

2.根据权利要求1所述的电子装置，其中所述至少一个可调参数包括自动对焦参数。

3.根据权利要求1所述的电子装置，其中所述至少一个可调参数包括自动曝光参数。

4.根据权利要求1所述的电子装置，其中所述麦克风阵列被配置用于麦克风阵列声束调向。

5.根据权利要求1所述的电子装置，其中所述麦克风阵列包括至少三个麦克风。

6.根据权利要求1所述的电子装置，其中所述音频-视觉优化系统还包括第二视频相机。

7.根据权利要求6所述的电子装置，其中所述第一视频相机和所述第二视频相机与所述麦克风阵列间隔开来。

8.根据权利要求6或者7所述的电子装置，其中所述第一视频相机和所述第二视频相机被配置用于估计深度信息。

9.一种用于电子装置的方法，包括：

使用所述电子装置的相机来采集视频；

检测并跟踪由所述相机输出的视频帧中的每个脸的位置；

使用所述电子装置的麦克风阵列来采集与所述位置相对应的音频信息；以及

通过以一段时间间隔连续地将所述麦克风阵列的敏感度调整为分别朝向各个脸、并且确定在一个方向上检测到的音频水平是否超过阈值来检测活跃通话者，其中如果所检测到的音频水平超过所述阈值，则将所述方向上的所述脸视为所述活跃通话者的脸；

如果检测到所述活跃通话者则至少部分地响应于采集到的音频信息来为所述活跃通话者控制所述相机的参数；

其中所述相机的至少一部分和所述麦克风阵列的至少一部分安装在所述电子装置的壳体内；并且

其中所述电子装置是多功能便携式电子设备。

10.根据权利要求9所述的方法，其中所述控制所述参数还包括控制所述相机的曝光和/或对焦参数。

11.根据权利要求9或者10所述的方法，其中所述麦克风阵列被配置用于麦克风阵列声束调向。

12.根据权利要求11所述的方法，其中所述麦克风阵列包括至少三个麦克风。