CN111602414A

CN111602414A - 视频会议期间控制音频信号聚焦说话者

Info

Publication number: CN111602414A
Application number: CN201980008718.6A
Authority: CN
Inventors: 托雷·鲁德伯格; 克里斯蒂安·舒德特
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-01-16
Filing date: 2019-01-14
Publication date: 2020-08-28
Anticipated expiration: 2039-01-14
Also published as: US10356362B1; EP3741135A1; WO2019143565A1; US20190222804A1; US20190289259A1; CN111602414B; US10805575B2

Abstract

一种非暂时性计算机可读存储介质可以包括其上存储的指令。当所述指令由至少一个处理器执行时，所述指令可以被配置为使得计算系统确定视频系统正在瞄准多个人中的单个说话者，从多个麦克风接收音频信号，接收到的所述音频信号包括由所述单个说话者生成的音频信号，基于确定所述视频系统正在瞄准所述单个说话者，传送单声道信号，所述单声道信号是基于接收到的所述音频信号，确定所述视频系统没有正在瞄准所述单个说话者，以及基于确定所述视频系统没有正在瞄准所述单个说话者，传送立体声信号，所述立体声信号是基于接收到的所述音频信号。

Description

视频会议期间控制音频信号聚焦说话者

相关申请的交叉引用

本申请是2018年1月16日提交的标题为“视频会议期间控制音频信号聚焦说话者”的美国非临时专利申请第15/872,450号的继续申请，并且要求该美国非临时专利申请的优先权，该美国非临时专利申请的公开内容通过引用被完全结合在本文中。

背景技术

在视频会议期间，一次可以单个人说话。摄像机可以瞄准和/或聚焦正在说话的单个人。在视频会议的接收端的人可以将源自说话者以外的源的噪声感知为源自与说话者相同的方向，这可能被感知为是不自然的。

发明内容

根据示例，一种非暂时性计算机可读存储介质可以包括其上存储的指令。当所述指令由至少一个处理器执行时，所述指令可以被配置为使得计算系统确定视频系统正在瞄准多个人中的单个说话者，从多个麦克风接收音频信号，接收到的所述音频信号包括由所述单个说话者生成的音频信号，基于确定所述视频系统正在瞄准所述单个说话者，传送单声道信号，所述单声道信号是基于接收到的所述音频信号，确定所述视频系统没有正在瞄准所述单个说话者，以及基于确定所述视频系统没有正在瞄准所述单个说话者，传送立体声信号，所述立体声信号是基于接收到的所述音频信号。

根据示例，一种非暂时性计算机可读存储介质可以包括其上存储的指令。当所述指令由至少一个处理器执行时，所述指令可以被配置为使得计算系统确定视频系统正在瞄准的说话者的第一方向，从多个麦克风接收音频信号，基于接收到的所述音频信号，生成第一音频信号并且聚焦所述第一方向，确定所述说话者以外的噪声源的第二方向，基于接收到的所述音频信号，生成第二音频信号并且聚焦所述第二方向，以及基于所述第一音频信号和所述第二音频信号，生成立体声信号。

根据示例，一种方法可以由计算系统进行。所述方法可以包括，确定视频系统正在瞄准单个说话者，从麦克风阵列确定所述单个说话者的第一方向，基于确定所述视频系统正在瞄准所述单个说话者和所述单个说话者的所述第一方向，基于在所述第一方向上对由所述麦克风阵列接收到的多个第一方向音频信号进行波束形成来生成第一波束形成信号，确定所述单个说话者以外的噪声源的第二方向，基于在所述第二方向上对由所述麦克风阵列在所述第二方向上接收到的多个第二方向音频信号进行波束形成来生成第二波束形成信号，基于所述第一波束形成信号和所述第二波束形成信号来生成单声道信号，所述第一波束形成信号相对于所述第二波束形成信号具有更大的权重，确定所述视频系统没有正在瞄准所述单个说话者，以及基于确定所述视频系统没有正在瞄准所述单个说话者，生成立体声信号，所述立体声信号包括作为不同信号的所述第一波束形成信号和所述第二波束形成信号。

在附图和下面的描述中阐述了一个或多个实施方式的细节。根据描述和附图，以及根据权利要求书，其它特征将是显而易见的。

附图说明

图1是根据示例的视频会议系统的图。

图2是根据示例的可以实施视频会议系统的特征的计算系统的框图。

图3是示出根据示例的在视频会议系统从其接收输入的位置内的波束形成的方向的图。

图4A是示出根据示例的当摄像机正在聚焦单个人时波束形成信号的权重的图。

图4B是示出根据示例的当摄像机已经缩小并且正在瞄准和/或聚焦多个人时波束形成信号的权重的图。

图4C是示出根据另一示例的当摄像机正在瞄准和/或聚焦单个人并且视频会议系统正在对单个人和多个噪声源进行波束形成时波束形成信号的权重的图。

图5是示出根据示例的麦克风和朝向不同的音频信号源的波束形成的方向的图。

图6是示出根据示例的麦克风和沿着波束形成的方向的麦克风之间的数个波长的图。

图7是示出根据示例的方法的流程图。

图8是示出根据另一示例的方法的流程图。

图9是示出根据另一示例的方法的流程图。

图10示出了可以用于实施本文描述的技术的计算机设备和移动计算机设备的示例。

具体实施方式

当诸如摄像机的视频系统正在瞄准和/或聚焦单个说话者时，计算系统可以生成和/或传送单声道音频信号。当生成视频信号的视频系统正在聚焦和/或瞄准单个说话者时，单声道音频信号可以聚焦单个说话者，并且可以通过对沿着路径朝向诸如单个人类说话者的对象发射的音频信号进行波束形成和/或优先加权来生成单声道音频信号。

在立体声音频会议中，可以通过在两个不同的方向上进行波束形成来生成两个音频信号。简单地在两个不同的方向上进行波束形成的技术问题是，该两个不同的方向独立于语音源，诸如向左和向右，以形成左音频通道和右音频通道，语音源，即人类说话者，没有被作为目标，导致从人类说话者捕获语音不佳。仅在朝向人类说话者的一个方向上进行波束形成的技术问题是，当音频信号在接收端被再现时，来自其它源的噪声将似乎源自与语音源相同的方向。对在两个不同的方向上进行波束形成和在单个方向上进行波束形成的这些技术问题的技术方案是，在语音源和/或人类说话者的方向上生成一个或多个波束形成信号，并且在语音源和/或人类说话者以外的噪声源的方向上生成第二波束形成信号，并且在语音源和/或人类说话者的方向上衰减和/或减小波束形成信号的权重。在语音源和/或人类说话者的方向上以及在噪声源的方向上进行波束形成的技术优点包括，语音被清楚地再现，并且来自噪声源的噪声被再现，具有从语音源和/或人类说话者的方向以外的方向接收的质量。另一技术优点是，与参与者将他们的头转向当前正在说话的人的面对面会议相比，当摄像机正在聚焦和/或瞄准单个说话者时，聚焦单个说话者的音频信号可以克服在视频会议期间听到来自不同源的声音的不自然体验。

有时，诸如通过在语音源和/或单个说话者的方向上进行波束形成，计算系统可以生成聚焦语音源和/或单个说话者的单个单声道信号。生成聚焦语音源和/或单个说话者的单个单声道信号的技术问题是，当视频系统不再瞄准和/或聚焦语音源和/或单个说话者时，聚焦单个说话者的音频信号将不对应于视频信号，该视频信号捕获比仅单个说话者更多的对象和/或人。有时，计算系统可以使用从不同的方向接收的音频信号来生成立体声信号。生成立体声信号的技术问题是，当单个人类说话者正在说话并且视频系统正在生成仅单个说话者的图像时，从不同的方向捕获噪声的音频信号将不对应于视频图像。这些技术问题的技术方案是，当视频系统不再瞄准和/或聚焦单个说话者时，诸如当视频系统缩小并且显示单个说话者以外的人时，计算系统从单声道信号转换为立体声信号。当视频系统不再瞄准和/或聚焦单个说话者时转换到立体声信号的技术优点包括，将音频输出匹配到视频输出，并且减小看到一组人但是仅听到来自他们中的一个人的声音的不自然体验，即使其他人也可能正在发出噪声，诸如通过窃窃私语或打乱纸张。立体声信号可以包括当视频系统正在瞄准和/或聚焦单个说话者时生成和/或传送的单声道信号，以及附加音频信号，该附加音频信号可以包括来自不同组的麦克风的音频信号和/或聚焦不同的方向。基于视频系统是否正在聚焦单个说话者来控制音频信号聚焦说话者，可以为查看者/收听者创建更自然的体验。计算系统还可以通过生成第二和/或附加音频信号，诸如通过朝向单个说话者以外的噪声源对接收的音频信号进行波束形成或优先加权，并且组合来自单个说话者和噪声源的音频信号，其中，来自单个说话者的音频信号具有比来自噪声源的音频信号更大的权重，来创建自然发声组合音频信号和/或立体声信号。包括来自单个说话者和噪声源的音频信号的立体声信号避免了收听者和查看者部分的不自然体验，即，来自说话者以外的源的噪声似乎源自与说话者相同的方向。

图1是根据示例的视频会议系统的图。视频会议系统可以经由网络104从第一位置(例如，第一会议室)102向第二位置(例如，第二会议室)106发送视频和音频信号，使得第二位置106中的一个或多个人124能够看到和听到第一位置102中的一个或多个人114A,114B,114C。作为非限制性示例，视频会议系统可以包括图1中示出的组件的任何组合，诸如位置102,106中的组件，位置102,106和服务器122中的组件，仅位置102中的组件，或者位置102和服务器122中的组件。

位置102可以包括一个或多个人114A,114B,114C，任何数量的这些人可以正在说话和/或可以是噪声源和/或音频信号。虽然图1的示例位置102中示出了三个人114A,114B,114C，但是任何数量的人114A,114B,114C可以在位置102中。在一些示例中，人114A,114B,114C可以各自坐在桌子118后面的椅子116A,116B,116C上。位置102可以包括门道120，该门道120可以是噪声源和/或音频信号，诸如来自由门道120的门打开和关闭生成的噪声，或者来自源自位置102外部和通过门道120进入位置102的噪声。

视频会议系统可以包括第一位置102中的摄像机108。摄像机108可以是视频系统的一部分，并且可以捕获位置102内的光信号和/或视频信号。摄像机108可以放大到位置102的一小部分，诸如瞄准、聚焦诸如人114B的单个人类说话者和/或捕获诸如人114B的单个人类说话者的图像，和/或可以缩小以接收和/或处理来自位置102的较大部分的视频信号，诸如捕获坐在桌子118处的所有或多个人114A,114B,114C的图像、瞄准和/或聚焦坐在桌子118处的所有或多个人114A,114B,114C。摄像机108还可以左右平移和/或上下平移，以改变摄像机108正在聚焦的人114A,114B,114C和/或位置102的一部分。可以手动控制摄像机108，或者可以通过使得摄像机108聚焦位置102中的主动说话者的软件来控制摄像机108，诸如通过启发式或机器学习技术。在一些示例中，摄像机108可以向计算设备112和/或麦克风110发送指示摄像机108正在聚焦的方向的信号。

视频会议系统可以包括第一位置102中的数个和/或多个麦克风110和/或麦克风110的阵列。麦克风110可以捕获位置102中的音频信号。麦克风110、从麦克风110接收音频信号的计算设备112、和/或视频会议系统的其它组件，可以基于接收到的音频信号来生成诸如一个或多个波束形成信号的音频信号，该接收到的音频信号各自聚焦从特定方向接收的音频信号和/或沿着特定路径接收的音频信号。麦克风110和/或计算设备112可以通过例如在与摄像机108正在瞄准和/或聚焦相同的方向(诸如摄像机108正在瞄准和/或聚焦的单个说话者的方向)上对由麦克风110接收的音频信号进行波束形成，来生成波束形成信号。通过波束形成生成波束形成信号可以包括偏移接收到的音频信号的相位，使得由麦克风110从摄像机108正在瞄准和/或聚焦的方向接收的信号彼此相长干涉，和/或基于麦克风的位置和聚焦的方向来增加或减少由不同的麦克风接收的信号的幅度。偏移可以是基于方向、已知的声速以及麦克风之间的已知距离，使得由两个(或更多个)麦克风110接收的来自摄像机108正在瞄准和/或聚焦的方向的音频信号引起相长干涉，该音频信号被处理为好像同时由两个(或更多个)麦克风110接收该音频信号一样，然而，由麦克风110接收的来自摄像机108正在瞄准和/或聚焦的方向以外的方向的音频信号被处理为好像在不同的时间接收该音频信号一样，导致相消干涉。

视频会议系统可以包括位置102中的计算设备112。计算设备112可以从摄像机108接收视频信号，并且可以从麦克风110接收音频信号。在一些示例中，基于由计算设备112确定哪个(哪些)人114A,114B,114C正在主动说话，计算设备112可以控制摄像机108的方向、瞄准和/或聚焦。在一些示例中，诸如通过由麦克风110进行波束形成，和/或对由计算设备112从麦克风110接收的音频信号进行波束形成，计算设备112可以控制聚焦的方向和/或聚焦音频信号和/或波束形成音频信号的生成。在记录说话者的视频和音频信号的位置102中的计算设备112可以被认为是本地计算设备。

在一些示例中，当摄像机108正在瞄准和/或聚焦单个说话者时，视频会议系统可以基于由麦克风110接收的音频信号来生成单声道信号，并且当摄像机108已经停止和/或不再瞄准和/或聚焦单个说话者时，视频会议系统可以基于由麦克风接收的音频信号来传送立体声信号。接收系统可以从所有说话者传送相同的单声道信号，并且可以从第一(或更多个)说话者传送来自立体声信号的第一信号，并且从第二(或更多个)说话者传送来自立体声信号的第二信号。

在一些示例中，单声道信号可以是基于从一组麦克风接收的信号，该一组麦克风可以包括来自麦克风110的一些或全部麦克风。在一些示例中，立体声信号可以包括从第一麦克风和/或来自麦克风110的第一组麦克风接收的第一音频信号，以及从第二麦克风和/或来自麦克风110的第二组麦克风接收的第二音频信号，第一组不同于第二组。

在一些示例中，视频会议系统可以通过在特定的方向上聚焦音频信号来生成单声道信号，诸如基于在摄像机108正在聚焦和/或瞄准的方向上波束形成的第一波束形成音频信号，诸如在摄像机108正在聚焦和/或瞄准的单个说话者的方向上。如果和/或当摄像机108停止聚焦和/或瞄准对象，和/或不再聚焦和/或瞄准对象时，视频会议系统可以诸如通过生成第二(或更多个)波束形成信号并且将第二波束形成信号与在摄像机108正在聚焦和/或瞄准的方向上聚焦的第一波束形成信号组合，来生成立体声信号。基于多个波束形成信号生成立体声信号可以使得来自位置102的更多部分的噪声与从说话者传送的音频信号一起被传送到视频会议的远程参与者。

在一些示例中，视频会议系统可以通过在多个方向上对音频信号进行波束形成来生成多个聚焦音频信号和/或波束形成音频信号。例如，视频会议系统可以基于在人类说话者的第一方向上对从第一方向接收的音频信号进行波束形成来生成聚焦第一方向的第一波束形成信号。视频会议系统还可以基于在不同于第一方向的噪声源的第二方向上对从第二方向接收的音频信号进行波束形成来生成聚焦第二方向的第二波束形成信号。视频会议系统可以基于组合第一波束形成信号和第二波束形成信号来生成组合信号和/或立体声信号。第一波束形成信号可以在组合信号和/或立体声信号内具有更大的权重，使得在第一方向上的人类说话者的语音容易被听见，但是仍然提供来自噪声源的一些背景噪声，以创建更类似于由实际在位置102中并且在摄像机108和麦克风110附近的人体验的声音。

摄像机108、麦克风110和/或计算设备112可以被组合到一个装置中，或者可以在位置102中被设置为独立的组件，并且经由有线或无线接口彼此进行通信。计算设备112可以在与摄像机108和麦克风110相同的位置102中，或者可以在位置102的外部，并且经由有线或无线接口与摄像机108和麦克风110进行通信。视频会议系统还可以包括位置102中的显示器和/或扬声器，使得摄像机108和麦克风110从其捕获视频和音频输入的人114A,114B,114C可以查看和收听远程位置(诸如第二位置106)中的人。

计算设备112可以经由网络104与远程第二位置106中的计算设备132和/或远程服务器122进行通信。网络104可以包括便于计算设备之间通信的多个接口和/或设备，诸如因特网，或者在公司或大学校园内维护的视频会议系统的示例中，包括局域网(LAN)。服务器122可以进行本文中描述的功能、方法和/或技术的任何组合，诸如控制摄像机108的聚焦、瞄准和/或方向，对由麦克风110接收的音频信号进行波束形成，和/或组合波束形成信号和/或来自不同的麦克风的信号以生成立体声信号，或者可以简单地在计算设备112,132之间传送视频和音频数据。虽然图1的视频会议系统中示出了两个位置102,106，但是视频会议系统中可以包括任何数量的位置，其中，每个位置中的人在显示器上查看并且从电扬声器收听远程位置中的一个或多个人类说话者。

第二位置106可以远离第一位置102。第二位置106可以包括计算设备132。第二位置106中的计算设备132可以从第一位置102中的计算设备112和/或服务器122接收视频和音频信号。第二位置106中的计算设备132可以分别向显示器128和电扬声器130A,130B传送视频和音频信号，以向第二位置106中的人124呈现视频和音频。在一些示例中，诸如当摄像机108已经停止和/或没有聚焦和/或瞄准单个说话者时，第一电扬声器130A可以基于经由计算设备132从计算设备112接收的组合信号和/或立体声信号来输出第一单声道信号和/或音频信号，诸如由人类说话者说出的词语，并且第二电扬声器130B可以基于经由计算设备132从计算设备112接收的组合信号和/或立体声信号来输出第二单声道信号和/或音频信号，诸如由说话者以外的噪声源生成的噪声。在一些示例中，诸如当摄像机108正在聚焦和/或瞄准单个说话者并且计算设备112传送单声道信号时，两个扬声器130A,130B可以输出相同的单声道信号。在呈现而不是记录和/或捕获说话者的视频和音频的第二位置106中的计算设备132可以被认为是远程计算设备。

第二位置106可以包括显示器128以及一个或多个扬声器130A,130B。显示器128可以基于由显示器128从第二位置106中的计算设备132接收的视频数据来呈现图像，该视频数据可以是由摄像机108捕获的视频。作为非限制性示例，显示器128可以包括通过朝向查看者投射光来生成图像的传统屏幕，诸如阴极射线管(CRT)显示器、等离子体显示器、发光二极管(LED)显示器、液晶显示器(LCD)，将图像投射到屏幕上的投影仪，或者创建第一位置102中的说话者和/或其它人的全息图像的全息系统。

扬声器130A,130B可以基于从第二位置106中的计算设备132接收的音频信号来输出声音，该音频信号可以是基于由第一位置102中的计算设备112和/或麦克风110生成的组合信号。扬声器130A,130B可以输出相同的声音，或者在接收立体声信号的示例中，扬声器130A,130B可以各自输出不同的声音，诸如基于在不同的方向上进行波束形成而生成的不同的音频信号或由不同组的麦克风接收的音频信号的声音。

人124可以在第二位置106中在显示器128上观看并且从扬声器130A,130B收听第一位置102中的人114A,114B,114C。人124可以坐在椅子126上。在一些示例中，第二位置106还可以包括摄像机和麦克风，用于从人124捕获视频和音频信号以向其它位置(诸如第一位置102)中的人呈现和/或输出。

图2是根据示例的可以实施视频会议系统的特征的计算系统200的框图。本文中描述的计算系统200的特征可以被包括在第一位置102中的计算设备112，服务器122，第二位置106中的计算设备132，或者计算设备112、服务器122和/或计算设备132的任何组合中，和/或由第一位置102中的计算设备112，服务器122，第二位置106中的计算设备132，或者计算设备112、服务器122和/或计算设备132的任何组合来进行。

计算系统200可以包括瞄准确定器202。瞄准确定器202可以确定摄像机108的瞄准和/或聚焦的方向。瞄准确定器202可以确定摄像机108正在瞄准和/或聚焦单个人类说话者，并且从摄像机108和/或麦克风110确定单个说话者的方向。摄像机108可以通过指向说话者的方向来瞄准和/或聚焦单个人类说话者，使得说话者位于或靠近由摄像机捕获的图像的中间，和/或可以通过调整摄像机108的镜头来聚焦单个人类说话者，使得从说话者反射的光汇聚在摄像机108的传感器上。

在一些示例中，瞄准确定器202可以基于接收和/或处理来自摄像机108的单个说话者信号来确定摄像机108的瞄准和/或聚焦的方向。单个说话者信号可以指示摄像机108正在瞄准和/或聚焦单个说话者和/或正在捕获位置102中的仅单个人114B的图像，并且可以指示单个说话者的方向。摄像机108可以基于视频数据已经确定单个说话者正在说话，诸如单个说话者的面部表情(包括唇部运动)，由摄像机108捕获的其他人的身体语言(诸如其他人面对单个说话者或倾斜他们的身体朝向单个说话者)，或者摄像机108仅捕获单个人114B的图像而不捕获位置102中的其他人114A,114C的图像。可以基于摄像机108正在指向的方向和/或基于说话者在捕获的图像内的位置来确定单个说话者的方向。

当摄像机108正在瞄准和/或聚焦单个说话者时，计算系统200可以在单个说话者的方向上聚焦和/或进行波束形成操作，并且向远程计算设备132发送单个说话者音频信号。单个说话者音频信号可以包括组合信号(下面讨论)和仅单个说话者正在说话的指示，该单个说话者音频信号可以提示远程计算设备132输出音频作为立体声音频输出或单声道音频输出。在一些示例中，瞄准确定器202可以基于接收和/或处理来自摄像机108的多个说话者信号来确定摄像机108不再瞄准和/或聚焦单个说话者，和/或已经停止瞄准和/或聚焦单个说话者。多个说话者信号可以指示摄像机108正在瞄准和/或聚焦多个说话者，和/或捕获包括多个人114A,114B,114C的宽视图。

在一些示例中，瞄准确定器202可以确定摄像机108不再瞄准和/或聚焦诸如人114B的单个说话者，和/或摄像机108已经停止瞄准和/或聚焦单个说话者。根据示例实施例，瞄准确定器202可以基于从摄像机108接收多个说话者信号，或者基于由摄像机108捕获的图像中的多个人，来确定摄像机108不再和/或已经停止瞄准和/或聚焦单个说话者。当摄像机108不再瞄准和/或聚焦单个说话者和/或已经停止瞄准和/或聚焦单个说话者时，计算系统200可以向远程计算设备132发送多个说话者音频信号。多个说话者音频信号可以包括组合信号和/或立体声信号(下面讨论)和多个人类说话者正在说话的指示，该多个说话者音频信号可以提示远程计算设备132以立体声方式输出音频，诸如通过第一电扬声器输出来自第一人类说话者的聚焦音频信号和/或波束形成音频信号，以及通过第二电扬声器输出来自第二人类说话者的聚焦音频信号和/或波束形成音频信号。在一些示例中，响应于摄像机108恢复瞄准和/或聚焦单个说话者和/或瞄准和/或聚焦新的单个说话者，计算系统200可以生成聚焦单个说话者的单声道信号，并且向远程计算设备传送生成的单声道信号。

计算系统200可以包括方向确定器204。方向确定器204可以确定聚焦、波束形成和/或优先加权音频信号的一个或多个方向。

在一些示例中，方向确定器204可以确定计算系统200应该在瞄准确定器202已经确定摄像机108正在瞄准和/或聚焦的第一方向(诸如单个说话者的方向)上聚焦和/或波束形成音频信号。在一些示例中，方向确定器204还可以基于由麦克风110在第一方向上接收的第一方向音频信号(诸如指示人类语音的音频信号)，以及比较由不同的麦克风110接收和/或处理音频信号的时间，来确定单个说话者的第一方向。方向确定器204可以例如确定由不同的麦克风接收和/或处理的音频信号之间的延迟，并且基于确定的延迟、已知的声速和麦克风之间的已知距离来确定方向(例如，如果两个麦克风之间的延迟等于声音在麦克风之间行进所花费的时间，则方向将在一条线上或一条线附近，该条线在首先接收和/或处理音频信号的麦克风的方向上延伸通过两个麦克风)。在一些示例中，方向确定器204可以基于确定第一方向上的多个第一方向音频信号作为时间的函数而改变来确定单个说话者的第一方向，诸如通过在多个方向上进行波束形成操作并且确定在采样周期内在音频幅度上具有最大改变的方向。方向确定器204可以例如在采样周期内在多个方向上进行波束形成操作以生成多个波束形成信号，并且基于人类语音具有高度变化的假设(例如，基于词语和/或句子之间的暂停)来确定在采样周期内具有最大改变的波束形成信号的方向是在说话者的方向上。

在一些示例中，方向确定器204可以确定计算系统200应该聚焦和/或波束形成音频信号的第二方向。第二方向可以是单个说话者以外的噪声源。作为非限制性示例，噪声源可以是第二人类说话者，或者其它类型的噪声，诸如在背景中说话的人、门的打开和/或关闭、或者正在被移动的纸张或椅子。方向确定器204可以基于比较接收和/或处理由不同的麦克风110在第二方向上接收的第二方向音频信号的时间来确定噪声源的第二方向。

在一些示例中，方向确定器204可以确定计算系统200应该聚焦和/或波束形成音频信号的第三方向。第三方向可以是单个说话者以外的噪声源。作为非限制性示例，噪声源可以是第二或第三人类说话者，或者其它类型的噪声，诸如在背景中说话的人、门的打开和/或关闭、或者正在被移动的纸张或椅子。方向确定器204可以基于比较由不同的麦克风110接收和/或处理音频信号的时间来确定噪声源的第三方向。

计算系统200可以包括波束形成器206。波束形成器206可以聚焦沿着路径接收的音频信号，该路径可以是直线或者在反射的音频信号的示例中可以弯曲，以生成聚焦音频信号和/或波束形成信号。波束形成器206可以通过组合和/或修改由麦克风110和/或从麦克风110接收的信号来生成聚焦音频信号和/或波束形成信号，使得由多个麦克风在聚焦和/或进行波束形成操作的方向上接收的音频信号和/或噪声经历相长干涉和/或被放大，同时由多个麦克风在聚焦的方向以外和/或进行波束形成操作以外的方向上接收的音频信号和/或噪声经历相消干涉和/或在幅度上被减小。波束形成器206可以对从单个说话者114B的方向接收的多个音频信号进行波束形成，和/或可以对从单个说话者114B以外的方向接收的多个音频信号进行波束形成。

波束形成器206可以包括麦克风选择器208。麦克风选择器208可以选择多个麦克风110，诸如两个麦克风110，对于该两个麦克风110，与两个麦克风110相交的线最接近地平行于进行波束形成的方向。

波束形成器206可以包括移相器210。移相器210可以偏移由选择的麦克风110中的一个接收的音频信号的相位，使得由选择的麦克风110接收的音频信号彼此相长干涉，放大在波束形成的方向上接收的音频信号。移相器210可以基于选择的麦克风110之间的距离和声速来修改和/或偏移音频信号的相位，延迟更靠近噪声源的麦克风110的相位，使得相对于在聚焦和/或波束形成的方向上从噪声源接收的音频信号，更靠近噪声源的选择的麦克风110的相移信号与更远离噪声源的选择的麦克风110的信号相匹配。聚焦和/或波束形成的方向以外的方向上的噪声源将在选择的麦克风110之间经历不同程度的相消干涉，减小在聚焦和/或波束形成的方向以外的方向上从噪声源接收的音频信号的幅度。

在波束形成器206狭窄地聚焦波束形成的方向的示例中，波束形成器206可以仅处理来自选择的麦克风110的信号，使得由波束形成器206处理的所有音频信号在波束形成的方向上经历相长干涉。在更宽的波束形成的示例中，波束形成器206还可以处理来自选择的麦克风以外的麦克风110的信号，以在波束形成的方向和/或选择的噪声源的方向以外的方向上处理来自噪声源的音频信号。根据示例实施方式，当摄像机108放大说话者时，波束形成器206可以减小从选择的麦克风110以外的麦克风110接收的信号的权重，以使得波束形成变窄(和/或增加在聚焦的方向上的聚焦)，和/或当摄像机108缩小远离说话者时，波束形成器206可以增加从选择的麦克风110以外的麦克风110接收的信号的权重，以使得波束形成变宽(和/或减少在聚焦的方向上的聚焦)。

在一些示例中，波束形成器206可以通过使得波束形成变宽来减小聚焦和/或波束形成，诸如通过增加从选择的麦克风110以外的麦克风110接收的信号的权重，和/或通过增加在单个说话者的方向上聚焦的波束形成信号以外的波束形成信号的权重。在一些示例中，波束形成器206可以通过停止波束形成来减小波束形成，诸如停止和/或结束从麦克风110接收的信号的相位的偏移。

计算系统200可以包括信号组合器212。信号组合器212可以组合由波束形成器206处理的音频信号，该音频信号可以在不同的方向上被聚焦和/或波束形成，和/或可以组合由不同组的麦克风接收的音频信号。例如，信号组合器212可以将在主动人类说话者和/或单个人类说话者的方向上进行波束形成的第一聚焦和/或波束形成信号与在主动人类说话者和/或单个人类说话者的方向以外的噪声源的方向上进行波束形成的第二、附加和/或第三波束形成信号进行组合。信号组合器212可以将第一聚焦和/或波束形成信号添加到第二聚焦和/或波束形成信号以生成单声道信号，或者可以包括第一聚焦和/或波束形成信号以及第二聚焦和/或波束形成信号作为不同的音频信号以生成包括多个聚焦和/或波束形成信号的立体声信号。

信号组合器212可以包括信号权重器214。信号权重器214可以对由信号组合器212组合的音频信号的信号进行加权。例如，信号权重器214可以减小某些信号的权重和/或幅度，诸如由波束形成器206在主动人类说话者和/或单个人类说话者的方向以外的方向上和/或在波束形成器206正在聚焦和/或进行波束形成的路径的外部处理或生成的信号。与从路径的外部发射的声音相比，信号权重器可以对波束形成音频信号进行优先加权，诸如沿着通过多个麦克风和说话者中的至少一个的路径发射的音频信号。如果瞄准确定器202确定摄像机108正在瞄准和/或聚焦主动人类说话者和/或单个人类说话者，则与由波束形成器206在主动人类说话者和/或单个人类说话者的方向上处理或生成的信号的权重和/或幅度相比，信号权重器214可以减小由波束形成器206在主动人类说话者和/或单个人类说话者的方向以外的方向上处理或生成的信号的相对权重和/或幅度。如果瞄准确定器202确定摄像机108不再瞄准和/或聚焦主动人类说话者和/或单个人类说话者，和/或已经停止瞄准和/或聚焦主动人类说话者和/或单个人类说话者，诸如通过缩小以捕获更多人114A,114B的图像，则与由波束形成器206在主动人类说话者和/或单个人类说话者的方向上处理或生成的信号的权重和/或幅度相比，信号权重器214可以增加由波束形成器206在主动人类说话者和/或单个人类说话者的方向以外的方向上处理或生成的信号的相对权重和/或幅度。

在一些示例中，由信号组合器212生成的组合信号可以包括多个聚焦和/或波束形成信号，其中，对于进行波束形成的每个方向具有一个聚焦和/或波束形成信号，以形成立体声信号。每个聚焦和/或波束形成信号可以包括单个波束形成信号和进行波束形成的方向的指示。例如，组合和/或立体声信号可以包括包括第一波束形成信号和第一方向的指示符的第一聚焦和/或波束形成信号，以及包括第二波束形成信号和第二方向的指示符的第二聚焦和/或波束形成信号。计算设备112可以向计算设备132发送组合和/或立体声信号，并且计算设备132可以基于指示的方向向每个扬声器130A,130B传送一个聚焦和/或波束形成信号，以在第二位置106中创建立体声效果。

计算系统200可以包括至少一个处理器216。至少一个处理器216可以包括一个或多个处理器，并且可以被包括在一个或多个计算设备中。至少一个处理器216可以执行指令，诸如被存储在存储器中的指令，以使得计算系统200进行本文中描述的方法、功能和/或技术的任何组合。

计算系统200可以包括至少一个存储器设备218。至少一个存储器设备218可以被包括在一个或多个计算设备中。至少一个存储器设备218可以包括非暂时性计算机可读存储介质。至少一个存储器设备218可以存储指令，当该指令由至少一个处理器216执行时，该指令使得计算系统200进行本文中描述的方法、功能和/或技术的任何组合。至少一个存储器设备218可以存储数据，该数据被访问以进行本文中描述的方法、功能和/或技术的任何组合，和/或由本文中描述的方法、功能和/或技术的任何组合生成该数据。

计算系统200可以包括输入/输出节点220。输入/输出节点220可以从其它计算设备接收信号和/或向其它计算设备发送信号。输入/输出节点220可以包括一个或多个摄像机108、麦克风110、显示器128和/或扬声器130A,130B。输入/输出节点220可以包括用于从用户接收输入的设备，诸如经由键盘、鼠标和/或触摸屏。输入/输出节点220还可以包括用于向用户提供输出的设备，诸如屏幕或监视器、打印机或扬声器。作为非限制性示例，输入/输出节点220还可以包括用于与其它计算设备进行通信的设备，诸如联网和/或通信接口，包括有线接口(诸如以太网(电气和电子工程师协会(IEEE)802.3)、通用串行总线(USB)、同轴电缆和/或高清晰度多输入(HDMI))和/或无线接口(诸如无线保真(IEEE 802.11)、蓝牙(IEEE 802.15)和/或蜂窝网络协议(诸如长期演进(LTE)和/或LTE-Advanced))。

图3是示出根据示例的在视频会议系统从其接收输入的位置102内的波束形成的方向302,304,306的图。波束形成的方向可以表示由计算系统200和/或麦克风110聚焦的方向。在一些示例中，麦克风110、计算系统200和/或视频会议系统可以在第一方向302上朝向作为主动说话者的单个人114B聚焦和/或进行波束形成，以生成第一聚焦和/或波束形成信号。在一些示例中，麦克风110、计算系统200和/或视频会议系统可以在第二方向304上朝向诸如可以与人114B同时说话的人114A的另一噪声源聚焦和/或进行波束形成，以生成第二聚焦和/或波束形成信号。在一些示例中，麦克风110、计算系统200和/或视频会议系统可以在第三方向306上朝向诸如门道120的噪声源聚焦和/或进行波束形成，以生成第三聚焦和/或波束形成信号，这可以允许噪声从位置102的外部行进到位置102中，和/或可以生成来自门道120中的门的打开和/或关闭的噪声。基于第一方向302上的波束形成而生成的聚焦和/或波束形成音频信号可以与第二音频信号和/或第三音频信号组合以生成组合信号和/或立体声信号。

图4A是示出根据示例的当摄像机108正在聚焦单个人114B时波束形成信号的权重410,412的图。在该示例中，摄像机108聚焦单个人114B，并且由摄像机108、计算设备112、计算系统200和/或视频会议系统生成的图像402A示出、呈现和/或显示作为主动说话者的单个人114B的人图像414B。信号组合器212可以基于第一信号406和第二信号408和/或附加信号来生成组合信号404A，该组合信号404A可以是单声道的，该第一信号406可以是在第一方向302上朝向作为主动说话者的人114B的波束形成信号，该第二信号408和/或附加信号可以是在第二方向上朝向噪声源(诸如作为主动说话者的人114B以外的人114A)的波束形成信号。基于确定摄像机108和/或视频系统正在第一方向302上聚焦主动和/或单个说话者，信号权重器214可以在组合信号404A中给予第一信号206比第二信号408的权重412更大的权重410。在第二信号408的权重412为零的示例中，组合信号404A仅包括第一信号406。在第二信号408的权重412大于零的示例中，组合信号404A可以包括第一信号406和第二信号408。

图4B是示出根据示例的当摄像机108已经缩小并且正在瞄准和/或聚焦多个人114A,114B,114C时波束形成信号的权重410,412的图。在该示例中，摄像机108不再瞄准和/或聚焦和/或已经停止瞄准和/或聚焦作为单个说话者和/或主动说话者的人114B。摄像机108已经缩小以呈现更宽的图像402B，该图像402B包括坐在桌子图像418(其是桌子118的表示)处的三个人图像414A,414B,414C(其是人114A,114B,114C的表示)。在一些示例中，基于确定摄像机108不再瞄准和/或聚焦和/或已经停止瞄准和/或聚焦单个说话者，计算系统200可以减小波束形成，诸如通过在组合信号404B内相对于第一信号406的权重410增加第二信号408的权重412，和/或相对于第二信号408的权重412减少第一信号406的权重410。在摄像机108已经缩小之后，第一信号406可以在组合信号404B中具有比当摄像机108正在瞄准和/或聚焦单个人时在组合信号404A中的权重更少的权重。在一些示例中，当摄像机108不再瞄准和/或聚焦和/或已经停止瞄准和/或聚焦作为单个说话者和/或主动说话者的人114B时，组合信号404B可以是包括来自音频信号406,408的大致相等的贡献的单声道信号，并且相同的组合单声道信号可以由两个扬声器130A,130B输出。在一些示例中，当摄像机108不再瞄准和/或聚焦和/或已经停止瞄准和/或聚焦作为单个说话者和/或主动说话者的人114B时，组合信号404B可以是包括来自第一信号406和第二信号408中的每一个的不同音频信号的立体声信号，并且第一信号406和第二信号408中的每一个可以由不同的扬声器130A,130B输出。

图4C是示出根据另一示例的当摄像机108正在瞄准和/或聚焦单个人114B并且视频会议系统正在对单个人114B和多个噪声源进行波束形成时波束形成信号的权重的图。在该示例中，摄像机108正在瞄准和/或聚焦作为单个说话者和/或主动说话者的人114B，但是已经缩小以呈现更宽的图像402C，该图像402C包括坐在桌子图像418处的三个人图像414A,414B,414C和门道图像420(其是门道120的表示)。在该示例中，基于确定摄像机108正在瞄准和/或聚焦单个说话者，计算系统200可以在第一方向302上对人114B(由人图像414B表示)进行波束形成以生成第一波束形成信号406，在第二方向304上对诸如人114A(由人图像414A表示)的第一噪声源进行波束形成以生成第二波束形成信号408和/或第二附加信号，以及在第三方向306上对诸如门道120(由门道图像420表示)的第二噪声源进行波束形成以生成第三波束形成信号422。第二方向304可以远离和/或不同于第一方向302，并且第三方向306可以远离和/或不同于第一方向302和第二方向304。基于摄像机108瞄准和/或聚焦单个说话者和/或人114B，用于生成组合信号404C的第一信号406、第二信号408和第三信号422的加权和可以具有比第二信号的权重412和第三信号422的权重424更大的第一信号406的权重410。基于所有信号406,408,422具有大于零的权重，组合信号404C可以是组合单声道信号，该组合单声道信号由于强调第一信号406而将聚焦单个说话者，但是由于来自第二信号408和第三信号422的贡献还包括背景噪声。

图5是示出根据示例的麦克风110和朝向不同的音频信号源的波束形成的方向302,304,306的图。方向302,304,306可以是音频信号沿其从噪声源(诸如人114A,114B和门道120)行进到麦克风110的路径，和/或光束沿其从对象114A,114B(和/或人),120(和/或门道)朝向摄像机108行进的路径，基于该路径来创建图像414A,414B,420。噪声源可以包括来自麦克风110的第一方向302的人114B、来自麦克风110的第二方向304的人114A、以及来自麦克风110的第三方向306的门道120。在该示例中，多个麦克风110形成麦克风110的阵列。在该示例中，麦克风110的阵列包括以圆形图案布置的八个麦克风110A,110B,110C,110D,110E,110F,110G,110H。麦克风110A,110B,110C,110D,110E,110F,110G,110H中的每一个可以在与其它麦克风110A,110B,110C,110D,110E,110F,110G,110H中的每一个不同的位置中。在确定要聚焦和/或波束形成的噪声源的方向之后，计算系统200可以确定一对麦克风110A,110B,110C,110D,110E,110F,110G,110H，当画出通过麦克风的线或射线时，该对麦克风110A,110B,110C,110D,110E,110F,110G,110H比任何其它对麦克风110A,110B,110C,110D,110E,110F,110G,110H更接近地平行于要聚焦和/或波束形成的噪声源的方向。

在图5中示出的示例中，麦克风110A,110E形成最接近地平行于第一方向302的线。麦克风选择器208可以选择麦克风110A,110E用于在第一方向302上聚焦和/或进行波束形成，并且移相器210可以将来自麦克风110A(麦克风110A比麦克风110E更靠近作为噪声源的人114B)的信号延迟声音行进从麦克风110A到麦克风110E的距离所花费的时间量，从而使得由两个麦克风110A,110E从任何噪声源沿着第一方向302的线接收的音频信号彼此相长干涉。

在图5中示出的示例中，麦克风110H,110E形成最接近地平行于第二方向304的线。麦克风选择器208可以选择麦克风110H,110E用于在第二方向304上聚焦和/或进行波束形成，并且移相器210可以将来自麦克风110H(麦克风110H比麦克风110E更靠近作为噪声源的人114A)的信号延迟声音行进从麦克风110H到麦克风110E的距离所花费的时间量，从而使得由两个麦克风110H,110E从任何噪声源沿着第二方向304的线接收的音频信号彼此相长干涉。

在图5中示出的示例中，麦克风110C,110D形成最接近地平行于第三方向306的线。麦克风选择器208可以选择麦克风110C,110D用于在第三方向306上进行波束形成，并且移相器210可以将来自麦克风110C(麦克风110C比麦克风110D更靠近作为噪声源的门道120)的信号延迟声音行进从麦克风110C到麦克风110D的距离所花费的时间量，从而使得由两个麦克风110C,110D从任何噪声源沿着第三方向306的线接收的音频信号彼此相长干涉。

图6是示出根据示例的麦克风110A,110E和沿着波束形成的方向302的麦克风110A,110E之间的数个波长λ的图。在该示例中，麦克风110A,110E相隔四个半波长。麦克风110A,110B之间的距离可以已经被预先确定并且被存储在计算系统200的存储器218中。其它对麦克风110A,110B,110C,110D,110E,110F,110G,110H之间的距离也可以已经被预先确定并且被存储在计算系统200的存储器218中。当沿着第一方向302进行波束形成时，移相器210可以将由麦克风110A接收的音频信号的相位延迟声音行进麦克风之间的距离的时间量，在该示例中是从麦克风110A到麦克风110E的四个半波长(或其它对麦克风110A,110B,110C,110D,110E,110F,110G,110H的一些其它距离和/或数个波长)，和/或一个麦克风110A和说话者114B之间的距离以及麦克风110E和单个说话者114B之间的距离的差，诸如通过将麦克风110A,110E之间的距离和/或距离差除以已知的声速。

图7是示出根据示例的方法700的流程图。根据该示例，方法700包括，瞄准确定器202确定视频系统正在瞄准多个人中的单个说话者(702)。方法700还可以包括，计算系统200从多个麦克风110接收音频信号，接收到的音频信号包括由单个说话者生成的音频信号(704)。方法700还可以包括，基于确定视频系统正在瞄准单个说话者，计算系统200传送单声道信号，单声道信号是基于接收到的音频信号(706)。方法700还可以包括，瞄准确定器202确定视频系统没有正在瞄准单个说话者(708)。方法700还可以包括，基于确定视频系统没有正在瞄准单个说话者，计算系统200传送立体声信号，立体声信号是基于接收到的音频信号。

根据示例，单声道信号可以是基于接收到的音频信号并且可以聚焦单个说话者，以及立体声信号可以包括单声道信号和附加信号。附加信号可以是基于接收到的音频信号并且可以聚焦单个说话者以外的噪声源。

根据示例，方法700可以进一步包括，计算系统200通过在单个说话者的方向上对接收到的音频信号进行波束形成操作来生成单声道信号。

根据示例，方法700可以进一步包括，计算系统200通过与从穿过多个麦克风和说话者中的至少一个的路径的外部发射的声音相比，对沿着路径发射的音频信号进行优先加权来生成单声道信号。

根据示例，确定视频系统正在瞄准单个说话者可以包括，处理来自视频系统的单个说话者信号，单个说话者信号指示视频系统正在瞄准单个说话者，以及确定视频系统没有正在瞄准单个说话者可以包括，处理来自视频系统的多个说话者信号，多个说话者信号指示视频系统正在瞄准多个说话者。

根据示例，立体声信号可以包括基于多个麦克风中的第一麦克风的第一音频信号和基于多个麦克风中的第二麦克风的第二音频信号。

根据示例，方法700可以进一步包括，计算系统200通过相对于多个麦克风中的至少一个其它麦克风，偏移从多个麦克风中的至少一个麦克风接收到的音频信号的相位来生成单声道信号，偏移是基于至少一个麦克风与单个说话者之间的距离以及至少一个其它麦克风与单个说话者之间的距离的差。

根据示例，方法700可以进一步包括，计算系统200通过偏移由多个麦克风中的第一麦克风从单个说话者接收到的至少第一音频信号的相位来生成单声道信号，使得从单个说话者接收到的第一音频信号的至少一部分与由多个麦克风中的第二麦克风接收到的第二音频信号的至少一部分相长干涉，第二麦克风在与第一麦克风不同的位置中。

根据示例，方法700可以进一步包括，基于确定视频系统正在瞄准单个说话者，计算系统200通过对由多个麦克风从单个说话者的方向接收到的多个音频信号进行波束形成来生成第一音频信号，通过对由多个麦克风从远离单个说话者的方向接收到的多个音频信号进行波束形成来生成第二音频信号，以及基于第一音频信号和第二音频信号的加权和来生成单声道信号，第一音频信号相对于第二音频信号接收更大的权重。在该示例中，传送立体声信号可以包括，将第一音频信号和第二音频信号作为不同的音频信号来传送。

根据示例，计算系统200可以包括，摄像机，摄像机被配置为瞄准单个说话者并且捕获单个说话者的图像，多个麦克风，多个麦克风被配置为在单个说话者的方向上捕获接收到的音频信号，以及本地计算设备，本地计算设备被配置为从摄像机接收捕获到的图像，向远程计算设备发送捕获到的图像，从多个麦克风接收音频信号，确定摄像机正在瞄准单个说话者，基于确定摄像机正在瞄准单个说话者，在单个说话者的方向上对接收到的音频信号进行波束形成，以生成第一波束形成信号，基于波束形成，向远程计算设备传送单声道信号，确定摄像机没有正在瞄准单个说话者，基于确定摄像机没有正在瞄准单个说话者，在单个说话者的方向以外的方向上对接收到的音频信号进行波束形成，以生成第二波束形成信号，以及向远程计算设备传送立体声信号，立体声信号包括第一波束形成信号和第二波束形成信号。

图8是示出根据另一示例的方法800的流程图。根据该示例，方法800可以包括，方向确定器204确定视频系统正在瞄准的说话者的第一方向(802)。方法800还可以包括，计算系统200从多个麦克风110接收音频信号(804)。方法800还可以包括，波束形成器206基于接收到的音频信号，生成第一音频信号并且聚焦第一方向(806)。方法800还可以包括，方向确定器204确定说话者以外的噪声源的第二方向(808)。方法800还可以包括，波束形成器206基于接收到的音频信号，生成第二音频信号并且聚焦第二方向(810)。方法800还可以包括，信号组合器212基于第一音频信号和第二音频信号，生成组合和/或立体声信号(812)。

根据示例，确定第一方向(802)可以包括，确定第一音频信号作为时间的函数而改变。

根据示例，生成第一音频信号(806)可以包括，在第一方向上对接收到的音频信号进行波束形成，以及生成第二音频信号(810)可以包括，在第二方向上对接收到的音频信号进行波束形成。

根据示例，生成立体声信号(812)可以包括，基于第一音频信号和第二音频信号的加权和来生成立体声信号，第一音频信号相对于第二音频信号接收更大的权重。

根据示例，立体声信号可以包括第一音频信号和第一方向的指示符，以及第二音频信号和第二方向的指示符。

根据示例，噪声源可以是第一噪声源。在该示例中，方法800可以进一步包括，确定第二噪声源的第三方向，第三方向不同于第一方向和第二方向，第二方向不同于第一方向，以及基于接收到的音频信号和第三方向，生成第三音频信号。在该示例中，生成立体声信号(812)可以包括，基于第一音频信号、第二音频信号和第三音频信号的加权和来生成立体声信号，第一音频信号相对于第二音频信号和第三音频信号接收更大的权重。

根据示例，计算系统200可以包括，视频系统，视频系统被配置为在第一方向上瞄准说话者，多个麦克风，多个麦克风被配置为接收音频信号，以及本地计算设备，本地计算设备被配置为向远程计算设备发送由视频系统接收到的视频信号，确定第一方向，生成第一音频信号，确定第二方向，生成第二音频信号，生成立体声信号，以及向远程计算设备发送立体声信号。

根据示例，方法800可以进一步包括，远离计算系统200的至少两个电扬声器130A,130B基于立体声信号来输出输出的音频信号。

图9是示出根据另一示例的方法900的流程图。方法900可以由计算系统200进行。方法900可以包括，瞄准确定器202确定视频系统正在瞄准单个说话者(902)。方法900还可以包括，方向确定器204从麦克风110的阵列确定单个说话者的第一方向(904)。方法900还可以包括，基于确定视频系统正在瞄准单个说话者和单个说话者的第一方向，波束形成器206基于在第一方向上对由麦克风110的阵列接收到的多个第一方向音频信号进行波束形成来生成第一波束形成信号(906)。方法900还可以包括，方向确定器204确定单个说话者以外的噪声源的第二方向(908)。方法900还可以包括，波束形成器206基于在第二方向上对由麦克风的阵列在第二方向上接收到的多个第二方向音频信号进行波束形成来生成第二波束形成信号(910)。方法900还可以包括，信号组合器212基于第一波束形成信号和第二波束形成信号来生成单声道信号，第一波束形成信号相对于第二波束形成信号具有更大的权重(912)。方法900还可以包括，瞄准确定器202确定视频系统没有正在瞄准单个说话者(914)。方法900还可以包括，基于确定视频系统没有正在瞄准单个说话者，信号组合器212生成立体声信号，立体声信号包括作为不同信号的第一波束形成信号和第二波束形成信号(916)。

根据示例，方法900还可以包括，向远离计算系统的视频会议系统发送单声道信号，以及向视频会议系统发送立体声信号。

根据示例，生成第一波束形成信号(906)可以包括，修改由麦克风的阵列接收到的音频信号的相位，修改是基于麦克风的阵列中的麦克风与单个说话者之间的距离的差。

图10示出了可以与本文描述的技术一起被使用的通用计算机设备1000和通用移动计算机设备1050的示例。计算设备1000旨在表示各种形式的数字计算机，诸如膝上型计算机、台式计算机、平板计算机、工作站、个人数字助理、电视机、服务器、刀片服务器、大型机和其它适当的计算设备。计算设备1050旨在表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话和其它类似的计算设备。本文示出的组件，它们的连接和关系以及它们的功能仅意味着是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实施方式。

计算设备1000包括处理器1002、存储器1004、存储设备1006、连接到存储器1004和高速扩展端口1010的高速接口1008、以及连接到低速总线1014和存储设备1006的低速接口1012。处理器1002可以是基于半导体的处理器。存储器1004可以是基于半导体的存储器。组件1002、1004、1006、1008、1010和1012中的每一个使用各种总线来互连，并且可以被安装在通用主板上或以其它适当的方式来安装。处理器1002可以处理用于在计算设备1000内执行的指令，包括被存储在存储器1004中或存储设备1006上的指令，以在外部输入/输出设备上显示用于GUI的图形信息，该外部输入/输出设备诸如是被耦合到高速接口1008的显示器1016。在其它实施方式中，多个处理器和/或多个总线可以适当地与多个存储器和存储器类型一起被使用。而且，可以连接多个计算设备1000，其中，每个设备提供必要操作的部分(例如，作为服务器阵列(server bank)、一组刀片服务器、或多处理器系统)。

存储器1004在计算设备1000内存储信息。在一个实施方式中，存储器1004是一个或多个易失性存储器单元。在另一实施方式中，存储器1004是一个或多个非易失性存储器单元。存储器1004还可以是另一形式的计算机可读介质，诸如磁盘或光盘。

存储设备1006能够为计算设备1000提供大容量存储。在一个实施方式中，存储设备1006可以是计算机可读介质或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备或带设备，闪存或其它类似的固态存储器设备，或设备的阵列，包括存储区域网络中的设备或其它配置。计算机程序产品可以被有形地体现在信息载体中。计算机程序产品还可以包含指令，当该指令被执行时，进行一个或多个方法，诸如上面描述的那些方法。信息载体是计算机或机器可读介质，诸如存储器1004、存储设备1006、或处理器1002上的存储器。

高速控制器1008管理计算设备1000的带宽密集操作，而低速控制器1012管理较低的带宽密集操作。这种功能的分配仅是示例性的。在一个实施方式中，高速控制器1008被耦合到存储器1004、显示器1016(例如，通过图形处理器或加速器)以及高速扩展端口1010，该高速扩展端口1010可以接受各种扩展卡(未示出)。在实施方式中，低速控制器1012被耦合到存储设备1006和低速扩展端口1014。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口可以被耦合到一个或多个输入/输出设备，该一个或多个输入/输出设备诸如是键盘、指示设备、扫描仪或者例如通过网络适配器的诸如交换机或路由器的联网设备。

如图中示出的，计算设备1000可以以数个不同的形式来实施。例如，它可以被实施为标准服务器1020，或者以一组这样的服务器被多次实施。它还可以被实施为机架服务器系统1024的一部分。另外，它可以以诸如膝上型计算机1022的个人计算机来实施。替代地，来自计算设备1000的组件可以与移动设备中的其它组件(未示出)组合，诸如设备1050。这种设备中的每一个可以包含计算设备1000,1050中的一个或多个，并且整个系统可以由彼此进行通信的多个计算设备1000,1050组成。

可以以数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合来实现本文描述的系统和技术的各种实施方式。这些各种实施方式可以包括一个或多个计算机程序的实施方式，该一个或多个计算机程序可以在包括至少一个可编程处理器的可编程系统上执行和/或解释，该至少一个可编程处理器可以是专用的或通用的，被耦合为从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令并且向存储系统、至少一个输入设备和至少一个输出设备传送数据和指令。

这些计算机程序(也被已知为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以以高级的面向过程和/或面向对象的编程语言、和/或以汇编/机器语言来实施。如本文中使用的，术语“机器可读介质”、“计算机可读介质”指的是用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，该可编程处理器包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指的是用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，本文描述的系统和技术可以被实施在具有用于向用户显示信息的显示器设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可以通过其向计算机提供输入的键盘和指示设备(例如，鼠标或轨迹球)的计算机上。其它种类的设备也可以用于提供与用户的交互；例如，向用户提供的反馈可以是任何形式的感觉反馈(例如，视觉反馈、听觉反馈或触觉反馈)；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。

本文描述的系统和技术可以被实施在计算系统中，该计算系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有图形用户界面或网页浏览器的客户端计算机，用户可以通过该图形用户界面或网页浏览器与本文描述的系统和技术的实施方式进行交互)，或者这种后端、中间件或前端组件的任何组合。系统的组件可以通过数字数据通信的任何形式或介质(例如，通信网络)来互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端与服务器的关系通过在各自计算机上运行并且彼此具有客户端-服务器关系的计算机程序而出现。

已经描述了数个实施例。然而，应该理解的是，在不脱离本发明的精神和范围的情况下，可以进行各种修改。

另外，图中描绘的逻辑流程不需要示出的特定顺序或按顺序来实现期望的结果。另外，可以提供其它步骤，或者可以从描述的流程中消除步骤，并且可以向描述的系统添加其它组件，或者可以从描述的系统中移除其它组件。因此，其它实施例在以下权利要求的范围内。

根据其它方面，本公开包括以下实施例：

实施例1：一种其上存储有指令的非暂时性计算机可读存储介质，当所述指令由至少一个处理器执行时，所述指令被配置为使得计算系统：

确定视频系统正在瞄准多个人中的单个说话者；

从多个麦克风接收音频信号，接收到的所述音频信号包括由所述单个说话者生成的音频信号；

基于确定所述视频系统正在瞄准所述单个说话者，传送单声道信号，所述单声道信号是基于接收到的所述音频信号；

确定所述视频系统没有正在瞄准所述单个说话者；以及

基于确定所述视频系统没有正在瞄准所述单个说话者，传送立体声信号，所述立体声信号是基于接收到的所述音频信号。

实施例2：根据权利要求1所述的非暂时性计算机可读存储介质，其中：

所述单声道信号是基于接收到的所述音频信号并且聚焦所述单个说话者；以及

所述立体声信号包括所述单声道信号和附加信号，所述附加信号是基于接收到的所述音频信号并且聚焦所述单个说话者以外的噪声源。

实施例3：根据实施例1或实施例2所述的非暂时性计算机可读存储介质，其中，所述指令进一步被配置为使得所述计算系统通过在所述单个说话者的方向上对接收到的所述音频信号进行波束形成操作来生成所述单声道信号。

实施例4：根据实施例1至3中任一项所述的非暂时性计算机可读存储介质，其中，所述指令进一步被配置为使得所述计算系统通过与从穿过所述多个麦克风和所述说话者中的至少一个的路径的外部发射的声音相比，对沿着所述路径发射的音频信号进行优先加权来生成所述单声道信号。

实施例5：根据实施例1至4中任一项所述的非暂时性计算机可读存储介质，其中：

确定所述视频系统正在瞄准所述单个说话者包括，处理来自所述视频系统的单个说话者信号，所述单个说话者信号指示所述视频系统正在瞄准所述单个说话者；以及

确定所述视频系统没有正在瞄准所述单个说话者包括，处理来自所述视频系统的多个说话者信号，所述多个说话者信号指示所述视频系统正在瞄准多个说话者。

实施例6：根据实施例1至5中任一项所述的非暂时性计算机可读存储介质，其中，所述立体声信号包括基于所述多个麦克风中的第一麦克风的第一音频信号和基于所述多个麦克风中的第二麦克风的第二音频信号。

实施例7：根据实施例1至6中任一项所述的非暂时性计算机可读存储介质，其中，所述指令进一步被配置为使得所述计算系统通过相对于所述多个麦克风中的至少一个其它麦克风，偏移从所述多个麦克风中的至少一个麦克风接收到的音频信号的相位来生成所述单声道信号，所述偏移是基于所述至少一个麦克风与所述单个说话者之间的距离以及所述至少一个其它麦克风与所述单个说话者之间的距离的差。

实施例8：根据实施例1至7中任一项所述的非暂时性计算机可读存储介质，其中，所述指令进一步被配置为使得所述计算系统通过偏移由所述多个麦克风中的第一麦克风从所述单个说话者接收到的至少第一音频信号的相位来生成所述单声道信号，使得从所述单个说话者接收到的所述第一音频信号的至少一部分与由所述多个麦克风中的第二麦克风接收到的第二音频信号的至少一部分相长干涉，所述第二麦克风在与所述第一麦克风不同的位置中。

实施例9：根据实施例1至8中任一项所述的非暂时性计算机可读存储介质，其中，所述指令被配置为使得所述计算系统：

基于确定所述视频系统正在瞄准所述单个说话者：

通过对由所述多个麦克风从所述单个说话者的方向接收到的多个音频信号进行波束形成来生成第一音频信号；

通过对由所述多个麦克风从远离所述单个说话者的方向接收到的多个音频信号进行波束形成来生成第二音频信号；以及

基于所述第一音频信号和所述第二音频信号的加权和来生成所述单声道信号，所述第一音频信号相对于所述第二音频信号接收更大的权重，

其中，传送所述立体声信号包括，将所述第一音频信号和所述第二音频信号作为不同的音频信号来传送。

实施例10根据实施例1至9中任一项所述的非暂时性计算机可读存储介质，其中，所述计算系统包括：

摄像机，所述摄像机被配置为瞄准所述单个说话者并且捕获所述单个说话者的图像；

所述多个麦克风，所述多个麦克风被配置为在所述单个说话者的方向上捕获接收到的所述音频信号；以及

本地计算设备，所述本地计算设备被配置为：

从所述摄像机接收捕获到的所述图像；

向远程计算设备发送捕获到的所述图像；

从所述多个麦克风接收所述音频信号；

确定所述摄像机正在瞄准所述单个说话者；

基于确定所述摄像机正在瞄准所述单个说话者，在所述单个说话者的所述方向上对接收到的所述音频信号进行波束形成，以生成第一波束形成信号；

基于所述波束形成，向所述远程计算设备传送所述单声道信号；

确定所述摄像机没有正在瞄准所述单个说话者；

基于确定所述摄像机没有正在瞄准所述单个说话者，在所述单个说话者的所述方向以外的方向上对接收到的所述音频信号进行波束形成，以生成第二波束形成信号；以及

向所述远程计算设备传送所述立体声信号，所述立体声信号包括所述第一波束形成信号和所述第二波束形成信号。

实施例11：一种其上存储有指令的非暂时性计算机可读存储介质，当所述指令由至少一个处理器执行时，所述指令被配置为使得计算系统：

确定视频系统正在瞄准的说话者的第一方向；

从多个麦克风接收音频信号；

基于接收到的所述音频信号，生成第一音频信号并且聚焦所述第一方向；

确定所述说话者以外的噪声源的第二方向；

基于接收到的所述音频信号，生成第二音频信号并且聚焦所述第二方向；以及

基于所述第一音频信号和所述第二音频信号，生成立体声信号。

实施例12：根据实施例11所述的非暂时性计算机可读存储介质，其中，确定所述第一方向包括，确定所述第一音频信号作为时间的函数而改变。

实施例13：根据实施例11或实施例12所述的非暂时性计算机可读存储介质，其中：

生成所述第一音频信号包括，在所述第一方向上对接收到的所述音频信号进行波束形成；以及

生成所述第二音频信号包括，在所述第二方向上对接收到的所述音频信号进行波束形成。

实施例14：根据实施例11至13中任一项所述的非暂时性计算机可读存储介质，其中，生成所述立体声信号包括，基于所述第一音频信号和所述第二音频信号的加权和来生成所述立体声信号，所述第一音频信号相对于所述第二音频信号接收更大的权重。

实施例15：根据实施例11至14中任一项所述的非暂时性计算机可读存储介质，其中，所述立体声信号包括：

所述第一音频信号和所述第一方向的指示符；以及

所述第二音频信号和所述第二方向的指示符。

实施例16：根据实施例11至15中任一项所述的非暂时性计算机可读存储介质，其中：

所述噪声源是第一噪声源；以及

所述指令进一步被配置为使得所述计算系统：

确定第二噪声源的第三方向，所述第三方向不同于所述第一方向和所述第二方向，所述第二方向不同于所述第一方向；以及

基于接收到的所述音频信号和所述第三方向，生成第三音频信号；

其中，生成所述立体声信号包括，基于所述第一音频信号、所述第二音频信号和所述第三音频信号的加权和来生成所述立体声信号，所述第一音频信号相对于所述第二音频信号和所述第三音频信号接收更大的权重。

实施例17：根据实施例11至16中任一项所述的非暂时性计算机可读存储介质，其中，所述计算系统包括：

所述视频系统，所述视频系统被配置为在所述第一方向上瞄准所述说话者；

所述多个麦克风，所述多个麦克风被配置为接收所述音频信号；以及

本地计算设备，所述本地计算设备被配置为：

向远程计算设备发送由所述视频系统接收到的视频信号；

确定所述第一方向；

生成所述第一音频信号；

确定所述第二方向；

生成所述第二音频信号；

生成所述立体声信号；以及

向所述远程计算设备发送所述立体声信号。

实施例18：根据实施例11至17中任一项所述的非暂时性计算机可读存储介质，其中，所述指令进一步被配置为使得远离所述计算系统的至少两个电扬声器基于所述立体声信号来输出输出的音频信号。

实施例19：一种由计算系统进行的方法，所述方法包括：

确定视频系统正在瞄准单个说话者；

从麦克风阵列确定所述单个说话者的第一方向；

基于确定所述视频系统正在瞄准所述单个说话者和所述单个说话者的所述第一方向，基于在所述第一方向上对由所述麦克风阵列接收到的多个第一方向音频信号进行波束形成来生成第一波束形成信号；

确定所述单个说话者以外的噪声源的第二方向；

基于在所述第二方向上对由所述麦克风阵列在所述第二方向上接收到的多个第二方向音频信号进行波束形成来生成第二波束形成信号；

基于所述第一波束形成信号和所述第二波束形成信号来生成单声道信号，所述第一波束形成信号相对于所述第二波束形成信号具有更大的权重；

确定所述视频系统没有正在瞄准所述单个说话者；以及

基于确定所述视频系统没有正在瞄准所述单个说话者，生成立体声信号，所述立体声信号包括作为不同信号的所述第一波束形成信号和所述第二波束形成信号。

实施例20：根据实施例19所述的方法，进一步包括：

向远离所述计算系统的视频会议系统发送所述单声道信号；以及

向所述视频会议系统发送所述立体声信号。

实施例21：根据实施例19或实施例20所述的方法，其中，生成所述第一波束形成信号包括，修改由所述麦克风阵列接收到的音频信号的相位，所述修改是基于所述麦克风阵列中的麦克风与所述单个说话者之间的距离的差。

Claims

1.一种其上存储有指令的非暂时性计算机可读存储介质，其特征在于，当所述指令由至少一个处理器执行时，所述指令被配置为使得计算系统：

确定视频系统正在瞄准多个人中的单个说话者；

确定所述视频系统没有正在瞄准所述单个说话者；以及

2.根据权利要求1所述的非暂时性计算机可读存储介质，其特征在于：

3.根据权利要求1所述的非暂时性计算机可读存储介质，其特征在于，所述指令进一步被配置为使得所述计算系统通过在所述单个说话者的方向上对接收到的所述音频信号进行波束形成操作来生成所述单声道信号。

4.根据权利要求1所述的非暂时性计算机可读存储介质，其特征在于，所述指令进一步被配置为使得所述计算系统通过与从穿过所述多个麦克风和所述说话者中的至少一个的路径的外部发射的声音相比，对沿着所述路径发射的音频信号进行优先加权来生成所述单声道信号。

5.根据权利要求1所述的非暂时性计算机可读存储介质，其特征在于：

6.根据权利要求1所述的非暂时性计算机可读存储介质，其特征在于，所述立体声信号包括基于所述多个麦克风中的第一麦克风的第一音频信号和基于所述多个麦克风中的第二麦克风的第二音频信号。

7.根据权利要求1所述的非暂时性计算机可读存储介质，其特征在于，所述指令进一步被配置为使得所述计算系统通过相对于所述多个麦克风中的至少一个其它麦克风，偏移从所述多个麦克风中的至少一个麦克风接收到的音频信号的相位来生成所述单声道信号，所述偏移是基于所述至少一个麦克风与所述单个说话者之间的距离以及所述至少一个其它麦克风与所述单个说话者之间的距离的差。

8.根据权利要求1所述的非暂时性计算机可读存储介质，其特征在于，所述指令进一步被配置为使得所述计算系统通过偏移由所述多个麦克风中的第一麦克风从所述单个说话者接收到的至少第一音频信号的相位来生成所述单声道信号，使得从所述单个说话者接收到的所述第一音频信号的至少一部分与由所述多个麦克风中的第二麦克风接收到的第二音频信号的至少一部分相长干涉，所述第二麦克风在与所述第一麦克风不同的位置中。

9.根据权利要求1所述的非暂时性计算机可读存储介质，其特征在于，所述指令被配置为使得所述计算系统：

基于确定所述视频系统正在瞄准所述单个说话者：

10.根据权利要求1所述的非暂时性计算机可读存储介质，其特征在于，所述计算系统包括：

本地计算设备，所述本地计算设备被配置为：

从所述摄像机接收捕获到的所述图像；

向远程计算设备发送捕获到的所述图像；

从所述多个麦克风接收所述音频信号；

确定所述摄像机正在瞄准所述单个说话者；

确定所述摄像机没有正在瞄准所述单个说话者；

11.一种其上存储有指令的非暂时性计算机可读存储介质，其特征在于，当所述指令由至少一个处理器执行时，所述指令被配置为使得计算系统：

确定视频系统正在瞄准的说话者的第一方向；

从多个麦克风接收音频信号；

确定所述说话者以外的噪声源的第二方向；

12.根据权利要求11所述的非暂时性计算机可读存储介质，其特征在于，确定所述第一方向包括，确定所述第一音频信号作为时间的函数而改变。

13.根据权利要求11所述的非暂时性计算机可读存储介质，其特征在于：

14.根据权利要求11所述的非暂时性计算机可读存储介质，其特征在于，生成所述立体声信号包括，基于所述第一音频信号和所述第二音频信号的加权和来生成所述立体声信号，所述第一音频信号相对于所述第二音频信号接收更大的权重。

15.根据权利要求11所述的非暂时性计算机可读存储介质，其特征在于，所述立体声信号包括：

所述第一音频信号和所述第一方向的指示符；以及

所述第二音频信号和所述第二方向的指示符。

16.根据权利要求11所述的非暂时性计算机可读存储介质，其特征在于：

所述噪声源是第一噪声源；以及

所述指令进一步被配置为使得所述计算系统：

17.根据权利要求11所述的非暂时性计算机可读存储介质，其特征在于，所述计算系统包括：

本地计算设备，所述本地计算设备被配置为：

向远程计算设备发送由所述视频系统接收到的视频信号；

确定所述第一方向；

生成所述第一音频信号；

确定所述第二方向；

生成所述第二音频信号；

生成所述立体声信号；以及

向所述远程计算设备发送所述立体声信号。

18.根据权利要求11所述的非暂时性计算机可读存储介质，其特征在于，所述指令进一步被配置为使得远离所述计算系统的至少两个电扬声器基于所述立体声信号来输出输出的音频信号。

19.一种由计算系统进行的方法，其特征在于，所述方法包括：

确定视频系统正在瞄准单个说话者；

从麦克风阵列确定所述单个说话者的第一方向；

确定所述单个说话者以外的噪声源的第二方向；

确定所述视频系统没有正在瞄准所述单个说话者；以及

20.根据权利要求19所述的方法，其特征在于，进一步包括：

向所述视频会议系统发送所述立体声信号。

21.根据权利要求19所述的方法，其特征在于，生成所述第一波束形成信号包括，修改由所述麦克风阵列接收到的音频信号的相位，所述修改是基于所述麦克风阵列中的麦克风与所述单个说话者之间的距离的差。