CN107810646B

CN107810646B - 用于会议应用的过滤声音

Info

Publication number: CN107810646B
Application number: CN201680037226.6A
Authority: CN
Inventors: S·C·赖特; D·奥斯本; J·汤普森; H·哈艾; F·W·古安; M·桑德斯
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-06-24
Filing date: 2016-06-07
Publication date: 2020-04-03
Anticipated expiration: 2036-06-07
Also published as: EP3314914A1; US20170098453A1; CN107810646A; US20160379660A1; WO2016209607A1; US9530426B1; US10127917B2

Abstract

一种会议系统包括近眼显示设备，该近眼显示设备显示从通信伙伴的远程通信设备接收的视频。音频流被传送到远程通信设备。音频流包括由空间上各异的话筒阵列捕捉的一个或多个现实世界音频源产生的现实世界声音以及由一个或多个虚拟音频源产生的虚拟声音。音频流中背景声音的相对音量可至少部分基于对应音频源(包括现实世界和/或虚拟化的音频源)的现实世界定位被选择性地降低。

Description

用于会议应用的过滤声音

背景

现代的通信网络使得两个或更多个人能够通过共享音频和/或视频流实时地相互通信。噪声消除可被使用以从由话筒捕捉的音频流中过滤远场噪声，或移除由音频话筒的存在而产生的回声或反馈，以便强调近场声音，诸如人的话音。

附图简述

图1描绘了其中用户经由通信设备与通信伙伴进行通信的示例会议系统。

图2描绘了包括现实世界和虚拟对象两者的物理空间的示例增强现实视图。

图3说明性地描绘了包括话筒、现实世界音频源和虚拟音频源的示例三维物理空间。

图4是描绘示例会议方法的流程图。

图5描绘了示例近眼显示设备。

图6描绘了示例计算系统。

详细描述

图1描绘了其中用户110经由通信设备120与通信伙伴150进行通信的示例会议系统100。在这个示例中，通信设备120采取了近眼显示设备的形式。近眼显示设备可包括增强现实显示或虚拟现实显示。通信伙伴150通过远程通信设备152(在这个示例中为智能电话)的方式与用户110通信。通信设备120、152可采取各种形式，诸如智能电话、膝上型计算机、视频电话等。在音频会议的上下文中，这些通信设备包括至少一个音频话筒。这些通信设备在音频/视频会议的上下文内可进一步包括相机。

音频和/或视频流可被传送到通信设备(诸如通信设备120和远程通信设备152)并可被从该通信设备接收，以促进两个或更多个用户之间的音频/视频通信。在这个示例中，通信设备120经由右和左近眼显示器向用户110显示计算机生成的图形内容。近眼显示器可采取透视近眼显示器的形式，其使得用户能够透过透视近眼显示器来查看现实世界环境的物理空间。在另一实现中，物理空间的相机视图连同覆盖的图形内容可一起经由近眼显示器来显示。在这个上下文中，显示设备120可被称为增强现实设备。

图形内容可由近眼显示设备120显示以提供物理地存在于物理空间内的虚拟对象的外观。图1描绘了可经由右和左近眼显示器被显示给用户110的图形内容的示例。在这个示例中，图像内容提供虚拟监视器130的外观，在该虚拟监视器130上，通信伙伴150的视频流被呈现在132处。虚拟监视器130可与物理对象一起呈现，该物理对象诸如物理地显示图形内容172的物理的、现实世界监视器170。虚拟对象的其他示例在图1中被描绘，包括用于控制虚拟监视器132的操作或会议系统100的其他方面的虚拟按钮134。

通信设备120可经由通信设备120的一个或多个音频扬声器或其他声音换能器和/或经由外围声音换能器来向用户110呈现通信伙伴150的音频流。由虚拟音频源产生的虚拟声音也可经由通信设备120和/或外围声音换能器被呈现给用户110。在一个示例中，通信伙伴150的音频流可被呈现为虚拟声音，该虚拟声音由具有在虚拟监视器130的虚拟化现实世界位置处的虚拟音频源产生，使得用户感受到该虚拟声音就好像由虚拟监视器130产生一样。声音方向性可使用任何合适的音频处理来实现，该任何合适的音频处理包括头部相关传递函数和串话消除(cross-talk cancelation)的应用。

由物理空间内的现实世界对象产生的现实世界声音可直接被用户的自然听力听到。例如，用户110可通过自然听力的方式听到由现实世界监视器170生成的现实世界声音。现实世界声音可通过放大或抑制经由通信设备120的一个或多个音频扬声器呈现给用户110的音频流内的现实世界声音(例如，经由声音再现和/或噪声消除)来增强。虚拟声音和现实世界声音可被组合成经由通信设备120的一个或多个音频扬声器呈现给用户110的音频流。虚拟声音和现实世界声音可相对于彼此来被放大或抑制以在音频呈现中向用户110提供理想的平衡。

用户110的物理空间内的现实世界声音可经由话筒来捕捉并被传送到远程通信设备152以供呈现给通信伙伴150。在这个示例中，现实世界声音可包括用户110的语音和/或由现实世界监视器170产生的声音。在一些示例中，特定的现实世界声音可在从通信设备120传送到远程通信设备152的音频流内被放大或抑制。例如，由现实世界监视器170产生的远场声音可从音频流中过滤，而近场声音(诸如用户110的话音)可被包括在被传送到远程通信设备的音频流内或在被传送到远程通信设备的音频流内被放大。

附加地或替换地，由具有用户110的物理空间内虚拟化的现实世界位置的虚拟音频源产生的虚拟声音可被包括在被传送到远程通信设备152的音频流内。虚拟声音和现实世界声音可相对于彼此来被放大或抑制以在通信设备152处的音频呈现中提供理想的平衡。用户110还可经由通信设备120通过放大或抑制现实世界声音和/或虚拟声音来控制哪些声音与通信伙伴150共享或被呈现给用户110。在一个示例中，(现实的或虚拟的)各个音频源可由用户110个别地选择以在音频流内包括、省略、增加或减少它们的存在。在另一示例中，一个或多个音频包括区域可被建立，并且定位在音频包括区域内的现实和/或虚拟对象将被包括，而定位在音频包括区域外部的现实和/或虚拟对象将被排除。在另一示例中，一个或多个音频排除区域可被建立，并且定位在音频排除区域内的现实和/或虚拟对象将被排除，而定位在音频排除区域外部的现实和/或虚拟对象将被包括。在又一示例中，可使用单个声音选择、音频包括区域、和音频排除区域的组合。

图2描绘了包括现实世界和虚拟对象两者的物理空间200的示例增强现实视图。如之前参考图1描述的，增强现实设备可被用于向用户提供物理空间的增强现实视图。

在这个示例中，现实世界对象210和220是在物理空间内具有现实世界位置的现实世界源的现实世界音频源。现实世界音频源的现实世界定位可通过经由从不同位置观测物理空间的多个话筒捕捉由现实世界音频源产生的现实世界声音来被标识。现实世界音频源的现实世界定位可被称为观测到的现实世界定位。现实世界音频源的观测到的现实世界定位包括音频源的观测到的位置，并可任选地包括该现实世界音频源的观测到的取向。

并且，在这个示例中，虚拟对象230是虚拟声音的在物理空间内具有现实世界位置的虚拟音频源。虚拟音频源的现实世界定位可由3D虚拟模型来定义，在该3D虚拟模型中，一个或多个虚拟音频源的现实世界定位被映射到物理空间。虚拟音频源的现实世界定位可被称为虚拟化的现实世界定位。虚拟音频源的虚拟世界定位包括虚拟音频源的虚拟位置，并可任选地包括该虚拟音频源的虚拟取向。

在这个示例中，虚拟对象230是先前描述的图1中呈现从通信伙伴接收的视频流的虚拟监视器130。尽管图2中再次描绘了虚拟监视器，但是虚拟对象可采取任何形式，并且虚拟音频源可产生任何虚拟声音，包括模拟在虚拟对象的显而易见的现实世界位置处产生的现实世界声音的声音。

在图2中，现实世界对象210和220采取输出物理空间200内的现实世界声音的现实世界监视器的形式。尽管图2中再次描绘了现实世界监视器，但是现实世界对象可以是任何物理对象，并且现实世界音频源可以是现实世界声音的任何物理源。人类主体是可存在于物理空间内的物理对象的另一示例。在物理空间内说话或移动的人类主体是现实世界声音的现实世界音频源的一示例。

在图2的增强现实视图内，图形指示符被显示为虚拟对象，这些虚拟对象标识虚拟音频源的虚拟化的现实世界位置和/或物理空间内现实世界音频源的现实世界位置。在这个示例中，图形指示符232经由增强现实设备来显示，该图形指示符232将虚拟对象230标识为虚拟声音的虚拟音频源。并且，在这个示例中，图形指示符212将现实世界对象210标识为现实世界音频源，并且图形指示符222将现实世界对象220标识为另一现实世界音频源。在至少一些实现中，标识虚拟音频源的图形指示符相较于标识现实世界音频源的图形指示符而言可具有不同的视觉外观，并且可传达关于音频源的状态信息，诸如音量水平、静音开/关、音频源产生的声音是否与通信伙伴共享等。图形指示符可由用户选择来改变应用到音频源的状态的音频处理政策。

图3示意性地描绘包括空间上各异的话筒阵列的多个话筒M1、M2、M3的示例三维物理空间300。话筒M1、M2、M3中的每一个具有物理空间300内与空间上各异的话筒阵列的其他话筒不同的现实世界位置。空间上各异的话筒阵列的多个话筒可被板载地定位在单个设备上或可被分布在多个设备之间。在一示例中，话筒M1和M2可被板载地定位在通信设备(诸如可穿戴、头戴式增强现实设备)上，并且话筒M3可被板载地定位在另一通信设备上或可形成观测物理空间300的独立音频记录设备的一部分。

物理空间300还包括多个现实世界音频源R1、R2、R3，每一个现实世界音频源都具有物理空间300内相应的现实世界位置。作为一个示例，R1可对应于说话或作出另一人类生成的声音的通信设备的用户，并且R2和R3可对应于物理空间300内的其他现实世界音频源。

物理空间300还包括多个虚拟音频源V1、V2、V3，每一个都具有物理空间300内相应的虚拟化的现实世界位置。作为一个示例，V1可对应于呈现伴随视频的虚拟声音的虚拟监视器。V2和V3可对应于其他虚拟音频源，无论表示虚拟音频源的对应的虚拟对象是否被呈现在物理空间的增强现实视图内。

由现实世界和虚拟音频源产生的现实世界和虚拟声音可被单独地表征为焦点声音或背景声音。在音频流内焦点声音可相对于背景声音被放大(例如，在相对音量上增加)和/或在音频流内背景声音可相对于焦点声音被抑制(在相对音量上减小)。焦点声音可被分配到音频焦点层，而背景声音可被分配到背景音频层。音频焦点和背景音频层可单独地或整体地定义由音频流的发送方来实现的音频处理策略。替换地或附加地，音频处理策略或该策略的一部分可被音频流的接收方实现和/或被发送方和接收方之间的中间通信设备实现。

在至少一些实现中，由音频源产生的声音可基于该音频源在物理空间内的定位而被表征为焦点声音或背景声音。替换地或附加地，用户选择可定义由音频源产生的声音被表征为焦点声音还是背景声音。

关于基于音频源在物理空间内的定位来表征声音，图3还描述了物理空间300内的第一音频焦点区域310和第二音频焦点区域312。作为非限制示例，第一音频焦点区域310由三维圆锥形或锥形来表示，而第二音频焦点区域312由三维立方体来表示。

取决于实现，音频焦点区域可具有各种三维形状。音频焦点区域的形状可基于物理空间或定位在物理空间内的物理对象的几何形状或可以是用户定义的。音频焦点区域可被用于标识由位于音频焦点区域内的音频源产生的焦点声音。焦点声音在音频流内可相对于背景声音被强调。音频焦点区域可被称为音频包括区域。由音频包括区域之外的音频源产生的背景声音可被完全过滤或可在音量上被降低，目标是从音频流中完全过滤背景声音。

在一个示例中，第一音频焦点区域310可对应于由观测物理空间300的相机捕捉的视频流的相机视图，并且可被称为观察区域。观察区域的几何形状可基于近眼显示设备的视野或注视轴(例如，围绕该注视轴和/或注视轴定义查看区域的中心线)。(诸如在例如面向外的头戴式相机的情况下)相机可被板载地定位在通信设备上，或者相机可形成独立视频记录设备的一部分。由该相机捕捉的视频流伴随由空间上各异的话筒阵列的一个或多个话筒捕捉的音频流，任选地可被传送到远程通信设备以供呈现给通信伙伴。

在图3中描绘的第二音频焦点区域312在物理空间内300物理上与第一音频焦点区域310分开并且不与第一音频焦点区域310重叠。然而，在其他示例中，第二音频焦点区域312可部分地与第一音频焦点区域310重叠或可完全驻留在第一音频焦点区域310内。第二音频焦点区域312可驻留在视频流的相机视图的内部或外部。第二音频焦点区域312相比于查看区域可被称为辅助音频焦点区域。

在这个示例中，由位于音频焦点区域内部的音频源产生的声音可被表征为焦点声音，焦点声音相对于音频流内的背景声音被放大或保持不被抑制。作为对比，由位于音频焦点区域外部的音频源产生的声音可被表征为背景声音，背景声音在音频流内相对于焦点声音被抑制。

背景音频区域可替换地或附加地被用于标识由位于背景音频区域内的音频源产生的背景声音。取决于实现，背景音频区域可具有各种三维形状。背景音频区域的形状可基于物理空间或定位在物理空间内的物理对象的几何形状或可以是用户定义的。背景声音在音频流内可相对于焦点声音被去强调。背景音频区域可被称为音频排除区域。由音频排除区域内部的音频源产生的背景声音可被完全或大部分过滤或可在音量上被降低，目标是从音频流中完全或大部分过滤背景声音。

如在图3中描绘的，现实世界音频源R1和R2中的每一个都具有位于第一音频焦点区域310内的现实世界位置，而现实世界音频源R3具有在第一音频焦点区域310和第二音频焦点区域312两者外部的现实世界位置。在此，现实世界音频源R1和R2被分配到音频焦点层322，而现实世界音频源R3被分配到背景音频层324。

如在图3中进一步描绘的，虚拟音频源V1具有第一音频焦点区域310内虚拟化的现实世界位置，虚拟音频源V2具有第二音频焦点区域312内虚拟化的现实世界位置，并且虚拟音频源V3具有在第一音频焦点区域310和第二音频焦点区域312两者之外的虚拟化的现实世界位置。在此，虚拟音频源V1和V2被分配到音频焦点层322，而虚拟音频源V3被分配到背景音频层324。在这个示例中，由现实世界音频源R1、R2以及虚拟音频源V1、V2产生的声音可相对于由现实世界音频源R3和虚拟音频源V3产生的声音被放大。替换地或附加地，由现实世界音频源R3以及虚拟音频源V3产生的声音可相对于由现实世界音频源R1、R2和虚拟音频源V1、V2产生的声音被抑制。

由现实世界和虚拟音频源产生的现实世界和虚拟声音可被单独地表征为私有声音或共享声音。私有声音可被限制以在单个主体用户的单个通信设备处呈现，而共享声音可被传送到一个或多个附加通信伙伴的一个或多个附加通信设备并由该一个或多个附加通信伙伴的一个或多个附加通信设备呈现。私有声音可被分配到私有层，而共享声音可被分配到共享层。私有和共享层可单独地或整体地定义由音频流的发送方来实现的音频处理策略。替换地或附加地，音频处理策略或该策略的一部分可被音频流的接收方实现和/或被发送方和接收方之间的中间通信设备实现。

在至少一些实现中，由音频源产生的声音可基于该音频源在物理空间内的定位被表征为私有声音或共享声音。在一个示例中，位于远离主体用户的远场声音可被表征为私有声音，而位于更靠近主体用户的近场声音可被表征为共享声音。在另一示例中，可在3D物理空间内定义私有和共享区域，在这些私有和共享区域内，音频源可被表征为私有或共享。替换地或附加地，用户选择可定义由音频源产生的声音被表征为私有声音还是共享声音。在又一示例中，虚拟声音可被表征为私有声音，而现实世界声音可被表征为共享声音，或反之亦然。

图3描绘了先前描述的音频焦点层322和背景音频层324可与其相关联的私有层320。私有层322可定义声音如何仅被私有层的主体用户听到和/或仅被呈现给私有层的主体用户。图3还描绘了共享层330，该共享层330可定义声音如何被一个或多个附加通信伙伴听到和/或被呈现给一个或多个附加通信伙伴。在这个上下文内，主体用户的通信设备典型的是音频流的发送方，而通信伙伴的通信设备典型的是音频流的接收方。私有和共享层中的差异可被使用，以提供不同的音频流，来被呈现在音频流的发送方和接收方处。然而，不同的隐私设定可被应用到不同的通信伙伴，使得每个通信伙伴听到的声音可被单独地控制。

在示出的示例中，共享层330与不同于音频焦点层322的音频焦点层332相关联，并进一步与不同于背景音频层324的背景音频层334相关联。例如，音频焦点层332不包括R2或V2。因此，由R2或V2产生的声音可在被传送到通信伙伴的音频流内被抑制或从被传送到通信伙伴的音频流中完全过滤。在此，区域312可被定义为私有区域，在该私有区域内，由音频源(例如，V2)产生的声音被表征为私有声音。这个示例提供了一个场景，在这个场景中，一通信伙伴相较于主体用户和/或另一通信伙伴而言接收声音的不同表示。

图3描绘了一示例，其中提供了两个不同的音频焦点层和两个背景音频层。在至少一些实现中，可提供多个音频焦点层和/或背景音频层，其中每个层定义要被应用到由被分配该层的音频源产生的声音的不同水平的过滤。多个层中的每个层可进一步与相应的一组一个或多个用户定义的3D区域和/或用户选择相关联，使得存在于特定用户定义的区域内或外部的音频源或被用户选择的音频源被过滤以实现特定的音量减少或音量增加。

作为非限制示例，用户可定义第一排除区域，针对该第一排除区域，由位于该第一排除区域内的音频源产生的声音被从音频流中完全消除。用户可定义第二排除区域，针对该第二排除区域，由位于该第二排除区域内的音频源产生的声音在音量上被降低，但不从音频流中被消除。用户可将第一虚拟音频源和第一现实世界音频源选择为音频流内的正常或默认音量，并还可选择第二虚拟音频源和第二现实世界音频源用于在音频流内的音量增加或音量降低。在至少一些实现中，来自通信伙伴的反馈被自动地从音频流中过滤，而不考虑音频源的现实世界定位或用户选择。这种对反馈的自动过滤可采取单独反馈层的形式(例如，覆写反馈层)，该单独反馈层消除或大大减少来自通信伙伴的反馈。

图4是描绘示例通信方法400的流程图。在一个示例中，方法400可由会议系统执行，该会议系统支持两个或更多个通信伙伴之间经由他们相应的通信设备的音频和/或视频会议。

在410，该方法包括捕捉由一个或多个现实世界音频源产生的现实世界声音。在一个示例中，包括多个话筒的空间上各异的话筒阵列捕捉来自多个不同位置的现实世界声音。多个话筒可被板载地定位在单个设备上，或可分布在位于物理空间内或观测物理空间的两个、三个或更多个设备之间。

在一个示例中，用户的通信设备(诸如近眼显示设备)例如可包括两个或更多个话筒，该两个或更多个话筒捕捉来自板载地在通信设备上相互间隔的第一和第二位置的现实世界声音。附加地或替换地，一个或多个话筒可相对于通信设备被板外地定位并可板载地位于捕捉来自一个或多个附加或替换位置的现实世界声音的一个或多个其他设备上。在一个示例中，两个或更多个通信设备可由相互在音频捕捉范围内的相应用户操作，其中每个通信设备具有一个或多个捕捉相同物理空间内观测到的现实世界声音的话筒。附加地或替换地，独立的音频捕捉设备可通过经由一个、两个或更多个话筒捕捉现实世界声音来观测物理空间。

在412，该方法包括获得由一个或多个虚拟音频源产生的虚拟声音。虚拟声音可包括任何预先记录的现实世界声音或任何计算机生成的声音，其可包括人工声音和/或预先记录的现实世界声音的增强和/或时间延迟的形式。虚拟声音可通过生成或参考定义3D虚拟空间的虚拟模型来获得，该3D虚拟空间包括位于该3D虚拟空间内相应位置处的一个或多个虚拟音频源。每个虚拟音频源可与具有相关联的虚拟声学特性的相应虚拟声音相关联。

在一个示例中，虚拟音频源可采取虚拟点源的形式，该虚拟点源在虚拟空间中具有三个自由度上(3DOF)的位置，其以虚拟音量水平发射全向的虚拟声音。在另一示例中，虚拟音频源可提供有向声音传播模式，其在虚拟空间中具有以虚拟音量水平发射虚拟声音的六个自由度(6DOF)上的位置/取向。

在420，该方法包括经由一个或多个相机捕捉视频流和/或对物理空间进行成像。该一个或多个相机可板载地位于单个设备上，或可被分布在两个或更多个设备之间。在一个示例中，板载地位于通信设备上的相机可由用户操作来捕捉用户的视频流(即，自捕捉)和/或位于周围物理空间内的其他物理对象的视频流。一些通信设备(诸如可穿戴和/或头戴式设备)可包括板载相机，其捕捉靠近用户的第一人称视角的视频流。在另一示例中，在用户的通信设备远程的设备可包括捕捉用户和/或周围物理空间的视频流的相机。具有板载相机的两个或更多个通信设备可由同一物理空间内的相应用户操作来观测彼此和/或物理周围环境。位于物理空间内的独立视频捕捉设备可包括用于从一个或多个有利视点捕捉用户和/或物理周围环境的视频流的相机。

一个或多个相机可包括对物理空间进行成像以获得跨像素阵列的深度的测量的深度相机。可从获得自一个或多个深度相机的深度测量中生成物理空间的模型(包括位于物理空间中的物理对象)。在一个示例中，深度测量可通过在物理空间内改变位置或取向的单个相机的方式从两个或更多个有利视点获得和/或从具有不同有利视点的两个或更多个相机获得。

在430，该方法包括标识一个或多个现实世界音频源中的每一个现实世界音频源的现实世界定位。在一个示例中，基于经由空间上各异的话筒阵列的多个话筒捕捉的相关现实世界声音之间的相位/到达时间方面的差异的接收波束成形可被用于标识每个现实世界音频源的现实世界位置。现实世界定位可指3D空间中的3DOF位置、3D空间内的6DOF位置/取向或其他自由度定义。

在420执行的深度相机成像可被用于提升在430所标识的现实世界位置的准确度。例如，现实世界音频源的可能现实世界位置范围可基于从深度相机成像获得的模型而被减少。在430标识的现实世界位置可基于在410捕捉的现实世界声音和/或在420执行的深度相机成像随着时间被解析或以其他方式被改进。在物理空间内改变深度相机和/或话筒的有利视点可进一步使得音频源的现实世界位置能够被更准确地标识。

在432，该方法包括标识一个或多个虚拟音频源中的每一个的虚拟化的现实世界定位。在一个示例中，描述虚拟音频源的位置/取向和声学特征的虚拟模型可被映射到物理空间的模型或与物理空间的模型对准，以标识虚拟音频源中的每一个的虚拟化的现实世界位置/取向。虚拟化的现实世界定位可指3DOF位置、6DOF位置/取向或其他自由度定义。

在434，该方法包括将现实世界和虚拟音频源的定位映射到物理空间。每个现实世界或虚拟音频源可被映射到物理空间的模型内的3DOF位置、6DOF位置/取向或其他自由度定义。观测物理空间的话筒也可被映射到物理空间的模型内的3DOF位置或6DOF位置/取向。当话筒和/或相机跨相对于彼此移动的两个或更多个设备分布时，共享坐标系可被用于解析现实世界定位。

在440，该方法包括在物理空间的增强现实视图内显示标识现实世界和/或虚拟音频源的位置和/或状态的虚拟对象。虚拟对象可经由近眼显示设备、透视近眼显示设备、或其他提供覆盖有虚拟对象的物理空间的相机视图的显示设备来显示。替换地或附加地，该方法在440包括显示标识物理空间的背景音频和/或音频焦点区域的虚拟对象。虚拟对象可采取覆盖物理空间的现实世界视图的图形指示符的形式。

虚拟对象可被用于向用户提供以下的反馈：(1)物理空间的增强现实视图内音频源的位置；(2)音频源的状态，诸如(2.1)音频源是现实世界音频源还是虚拟音频源，(2.2)从用户的有利视点观测到的音频源的音量，(2.3)音频源的绝对音量，(2.4)在被传送到远程通信设备的音频流内由音频源产生的声音是否已经与通信伙伴共享，(2.5)在被传送到远程通信设备的音频流内由音频源产生的声音是否被抑制或放大，(2.6)在被呈现给用户的音频流内由音频源产生的声音是否被抑制或放大，(2.7)音频源是否已被选择用于音量降低或音量增加；以及(3)定义被应用到由音频源产生的声音的音频处理策略的背景音频区域或音频焦点区域的边界。

虚拟对象可被显示以从用户视角提供物理地存在于物理空间内的虚拟对象的外观。虚拟表面可具有3D空间中位于或靠近音频源的位置的显而易见的现实世界位置。虚拟对象可采取覆盖有纹理的虚拟表面的形式。虚拟表面可被显示为不透明或透明的表面。纹理可包括图像或可从图像中得到，并可包括颜色或光线处理。

在一个示例中，虚拟对象可包括颜色或光线处理，该颜色或光线处理提供音频源和/或表示该音频源的现实世界或虚拟对象的突出显示的外观。在另一示例中，虚拟对象可采取被呈现在音频源和/或表示音频源的对象处或附近的图形图标或文本的形式。图形图标或突出显示的外观或文本的人类可读信息可在视觉上传达关于音频源的状态信息。定义背景音频区域或音频焦点区域的边界可通过在物理空间内具有显而易见的3D位置的线条或突出显示被表示在增强现实视图内。这些各种形式的视觉反馈可使得用户能够在逐音频源的基础上和/或在逐区域的基础上查看当前选择。

在442，该方法包括获得对于背景和/或焦点声音的用户选择。在一个示例中，用户可将一个或多个音频源分配到背景音频层或分配到音频焦点层以定义要被应用到由这些源产生的声音的音频处理策略。如先前关于图3描述的，用户可定义区域和/或使用用户选择来将单个音频源和/或音频源组分配到音频焦点层和/或背景音频层。多个音频焦点层和/或多个背景音频层可被用于实现任何理想数量的不同的音频处理，包括声音的消除、音量到一个或多个不同水平的降低、音量到一个或多个不同水平的增加、和/或声音在音频信号内的包括。主体用户和该主体用户的每个远程通信伙伴可(例如，通过区域或用户选择)定义要被应用到在他们特定通信设备处呈现的音频流或要被应用到被传送到另一通信伙伴的远程通信设备的音频流的不同的音频处理策略。

用户选择可经由用户输入设备作为用户输入来接收。用户输入设备可采取各种不同的形式，包括使得用户能够通过移动身体部位来提供用户输入的光学身体跟踪用户输入设备、使得用户能够说出命令的话筒、手持式遥控器、游戏控制器、定点设备(诸如计算机鼠标)、键盘等。用户输入设备可形成主体用户的通信设备的一部分，并且用户选择可从主体用户的通信设备接收。用户输入设备可形成通信伙伴的远程通信设备的一部分，并且用户选择可在通信网络上从通信伙伴的远程通信设备接收。对由一个或多个音频源产生的声音的放大、抑制、和/或过滤可响应于用户从多个现实世界和/或虚拟音频源中对一个或多个音频源的选择而被执行。

在一个示例中，用户可通过将用户输入引导在虚拟对象处或将用户输入朝向虚拟对象引导来在特定音频源处引导用户选择，该虚拟对象表示该音频源或标识物理空间的增强现实视图内该音频源的位置和/或状态。在另一示例中，用户可在3D空间内移动音频焦点区域或背景音频区域的边界和/或可添加或移除音频焦点区域或背景音频区域来改变音频处理策略如何被应用到音频流。音频源的状态可在440响应于在442获得的用户输入被可视地更新。

在至少一些实现中，多个预先定义的模式可被用户选择来改变被应用到音频流的音频处理策略。在一个示例中，响应于对于第一过滤器模式的用户选择，虚拟声音可被标识为被包括在针对其相对音量被降低的背景声音内，并且响应于对于第而过滤器模式的用户选择，虚拟声音可被标识为从针对其相对音量被降低的背景声音中排除。在这个示例中，现实世界声音的音量可相对于虚拟声音被降低或增加。例如，虚拟声音可从音频流中被过滤或现实世界声音可从音频流中被过滤。

在450，该方法包括在由一个或多个现实世界音频源产生的现实世界声音之中标识背景声音和/或焦点声音。在452，该方法包括在由一个或多个虚拟音频源产生的虚拟声音之内或之中标识背景声音和/或焦点声音。在450和452标识的背景和/或焦点声音可基于在442获得的用户选择和/或底层音频源相对于背景音频区域和/或音频焦点区域的定位。例如，每个虚拟音频源可以与虚拟化的现实世界位置相关联，该虚拟化的现实世界位置与描述3D空间中的物理空间的模型进行比较，以确定虚拟音频是驻留在音频焦点区域内还是背景音频区域内。类似地，每个现实世界音频源的每个现实世界位置可与描述物理空间的模型进行比较，以确定现实世界音频源是驻留在音频焦点区域内还是背景音频区域内。

在460，该方法包括将现实世界声音和虚拟声音组合到音频流内。作为460的子过程，在470，该方法包括在音频流中相对于焦点声音选择性地降低背景声音的相对音量。在一个示例中，音频过滤器被配置成选择性地降低背景声音的相对音量。在至少一些实现中，背景声音的相对音量可被降低到零或朝向零的目标降低以从音频流中完全过滤或大部分过滤背景声音，或者目标是从音频流中完全或大部分过滤背景声音。

背景声音的相对音量可至少部分基于对应音频源的现实世界定位而在音频流中被选择性地降低。在一个示例中，降低被标识为背景声音的现实世界声音的相对音量可至少部分基于经由空间上各异的话筒阵列捕捉的现实世界声音的一个或多个现实世界音频源的观测到的现实世界定位。例如，具有背景音频区域内的现实世界位置的现实世界声音可被标识为背景声音并在音频流内在相对音量方面被降低。如果被定位在背景音频区域的外部，这些声音可从在音频流内在相对音量方面被降低的背景声音中排除。

降低被标识为背景声音的虚拟声音的相对音量可至少部分基于虚拟声音的一个或多个虚拟音频源的虚拟化的现实世界定位。例如，具有背景音频区域内的虚拟化的现实世界位置的虚拟声音可被标识为背景声音并在音频流内在相对音量方面被降低。如果被定位在背景音频区域的外部，这些声音可从在音频流内在相对音量方面被降低的背景声音中排除。

在至少一些实现中，音频源能被单独地选择来用于相对于其他音频源的音量降低。例如，如先前关于442描述的，用户选择可从一个或多个源获得，该用户选择标识背景声音以用于相对于焦点声音的音量降低。用户选择可被单独地使用或与定位组合来标识背景声音。

在至少一些实现中，与远程通信伙伴相关联的音频源可被自动地过滤，而与对应的虚拟声音源的虚拟化的定位和/或用户的个别选择无关。这样的过滤可减少或消除对于通信伙伴而言不想要的反馈。

替换地或附加地，在472，作为460的子过程，该方法包括在音频流内相对于背景声音选择性地增加焦点声音的相对音量。在一个示例中，具有音频放大器形式的音频过滤器被配置成选择性的增加焦点声音的相对音量。增加被标识为焦点声音的现实世界声音的相对音量可至少部分基于经由空间上各异的话筒阵列捕捉的现实世界声音的一个或多个现实世界音频源的观测到的现实世界定位。增加被标识为焦点声音的虚拟声音的相对音量可至少部分基于虚拟声音的一个或多个虚拟音频源的虚拟化的现实世界定位。在一个示例中，如果音频源位于音频焦点区域内或者如果音频源位于背景音频区域外部，则焦点声音可被标识并在相对音量方面增加。

在至少一些实现中，音频源能被单独地选择来用于相对于其他音频源的音量增加。例如，如先前关于442描述的，可从一个或多个源获得标识焦点声音以用于相对于背景声音的音量增加的用户选择。用户选择可被单独地使用或与定位组合来标识焦点声音。

在480，该方法包括将音频流(以及在420捕捉的相关联的视频流，如果有的话)传送到通信伙伴的远程通信设备。音频流可包括由空间上各异的话筒阵列捕捉的一个或多个现实世界音频源产生的现实世界声音。附加地或替换地，音频流可包括由一个或多个具有虚拟化的现实世界定位的虚拟音频源产生的虚拟声音。在一个示例中，通信设备或中间设备的音频通信接口被配置成将音频流传送到远程通信设备。

在涉及多个通信伙伴的多个远程通信设备的会议场景中，音频流和视频流可被传送到每个远程通信设备。在至少一些实现中，中间服务器系统可促进音频流和视频流到远程通信设备中的每一个的传输。取决于实现，音频流和视频流可在一个或多个通信网络上被传送，该一个或多个通信网络包括个域网、局域网和/或广域网中的一个或多个。在一些场景中，远程通信设备可驻留在与传送音频和视频流的通信设备相同的一般物理空间附近或在该相同的一般物理空间内。

在490，该方法包括接收来自通信伙伴的远程通信设备的音频流(以及相关联的视频流，如果有的话)。在涉及多个通信伙伴的多个远程通信设备的会议场景中，音频流和视频流可从每个远程通信设备被接收。在至少一些实现中，中间服务器系统可促进多个音频流和视频流作为组合的或合成的音频/视频流到通信设备的传输。

在492，该方法包括显示从通信伙伴的远程通信设备接收的视频流并呈现从通信伙伴的远程通信设备接收的音频流。在一个示例中，视频流可作为纹理被覆盖在虚拟对象的表面上以提供虚拟监视器的外观。例如，近眼增强现实设备可被配置成显示在物理空间内具有显而易见的现实世界位置的虚拟对象。音频流可经由一个或多个音频扬声器或其他声音换能器被呈现给用户。

图5描绘了示例近眼显示设备500。在这个示例中，近眼显示设备500采取可穿戴、头戴式增强现实设备或被用户佩戴的虚拟现实设备的形式。近眼显示设备500是图1的通信设备120的非限制示例。可以理解，近眼显示设备500可采取与图5中描绘的配置不同的各种形式。近眼显示设备500单独地或者与一个或多个远程设备组合地可以形成执行或以其他方式实现在此描述的各种过程和技术的会议系统。在至少一些实现中，

近眼显示设备500包括显示计算机生成的图形的一个或多个显示面板。在至少一些实现中，近眼显示设备500被配置成显示从通信伙伴的远程通信设备接收的视频。近眼显示设备500可包括用于右眼查看的右近眼显示面板510和用于左眼查看的左近眼显示面板512。右近眼显示面板510被配置成在右眼显示坐标处显示右眼虚拟对象。左近眼显示面板512被配置成在左眼显示坐标处显示左眼虚拟对象。在另一示例中，单一的显示面板可在用户的右眼和左眼两者上方延伸，从而提供被用户的右眼和左眼两者共享的通用近眼显示器。

右近眼显示面板510和左近眼显示面板512可以至少部分透明或完全透明，从而使用户能够透过显示面板查看现实世界环境的物理空间。在这个上下文中，显示面板可被称为透视显示面板。从现实世界环境接收的光穿过透视显示面板传递给用户的一只眼睛或双眼。由右近眼显示面板510和左近眼显示面板512(如果被配置为透视显示面板)显示的图形内容可以被用于在视觉上增强用户透过透视显示面板查看的现物理空间的外观。在此配置中，用户能够在用户查看物理空间内的物理对象的同时查看物理空间内不存在的虚拟对象。这产生虚拟对象是物理对象或物理上呈现位于物理空间内的基于光的效果的错觉或外观。

近眼显示设备500可以包括形成传感器子系统520的各种板载传感器。传感器子系统可以包括一个或多个面向外的相机522(例如背离用户和/或朝向用户的查看方向)、一个或多个面向内的相机524(例如面向用户和/或朝向用户的一只或两只眼睛)以及本文所述的各种其他传感器。一个或多个面向外的相机(例如，深度相机)可以被配置为观测物理空间并输出针对由一个或多个面向外的相机所观测的物理空间的观测信息(例如，跨像素阵列的深度信息)。

面向外的相机和面向内的相机(诸如522、524)可以包括红外、近红外和/或可见光相机。(一个或多个)面向外的相机可以包括一个或多个深度相机，并且/或者面向内的相机可以包括一个或多个眼睛跟踪相机。在一些实现中，传感器子系统520可与一个或多个向近眼显示设备发送观测信息的板外传感器通信。例如，游戏控制台使用的深度相机可以将深度图和/或建模的虚拟身体模型发送到近眼显示设备。

近眼显示设备500的传感器子系统520还可包括一个或多个加速计/惯性传感器560来标识例如近眼显示设备的取向、运动和/或加速度或其中的改变。近眼显示设备500的传感器子系统520还可包括一个或多个话筒。近眼显示设备500的一个或多个话筒可形成如本文中讨论的空间上各异的话筒阵列的一部分。在一个示例中，近眼显示设备500包括两个话筒582a和582b来提供显示设备板载上的空间各异性。

近眼显示设备500可包括一个或多个音频扬声器。近眼显示设备500的两个音频扬声器580a和580b可被包括来提供立体声。立体声效果可向用户提供虚拟声音被定位在物理空间内的虚拟化的现实世界位置处的感受。在其他实现中，近眼显示设备可被通信地耦合到板外扬声器。在任一情况下，一个或多个扬声器可被用于播放伴随由被近眼显示设备显示的图形内容的音频流。

音频流的音量可以根据各种不同的参数进行调制。作为一个示例，音频流的音量可根据与近眼显示设备和虚拟音频源的虚拟化的现实世界位置之间的距离的反比关系来调制。声音可被局部化到音频源，使得用户越靠近该音频源，该音频源的音量就越增加。作为另一示例，音频流的音量可与音频源的直接度(例如，有向音频源的取向)成比例地调制。

当存在两个或更多个音频源时，由音频源产生的相应声音可被混合在一起或被独立地播放。当被混合在一起时，任何特定音频源的相对贡献可以基于各种不同的参数(诸如接近度或查看直接度)来被加权。例如，用户越靠近特定音频源和/或用户越直接地看着音频源，与该音频源相关联的音量将被播放得越大。

当被独立地播放时，基于各种不同的参数(诸如接近度和/或查看直接度)，由特定音频源产生的声音而非由其他音频源产生的声音可被播放。例如，当用户在其中存在若干个音频源的物理空间中四处看时，可以仅播放由最直接在用户的视野中的音频源产生的声音。可以使用眼睛跟踪来更准确地评估用户的焦点或注视轴指向哪里，并且这样的焦点可以用作调制音量的参数。

近眼显示设备500可以包括允许显示设备佩戴在用户的头上的一个或多个特征。在所示示例中，头戴式显示器500采取眼镜的形式并且包括鼻托592和耳托590a和590b。在其他实现中，显示设备可以包括具有脸部前方透视护目镜的帽子、护目镜或头盔。此外，虽然在头戴式透视近眼显示设备的上下文中描述，但是此处描述的概念可以应用于不是头戴式的透视显示器(例如挡风玻璃)以及不透视的显示器(例如，不透明的显示器，其渲染相机所观察到的现实对象以及不在相机视野内的虚拟对象)。

近眼显示设备500可以包括板载逻辑子系统530，该板载逻辑子系统530包括执行如由逻辑子系统执行的指令所定义的本文描述的过程或操作的一个或多个处理器设备和/或逻辑机。此类过程或操作可以包括生成图像信号并将图像信号提供给显示面板，处理音频信息，接收来自传感器的传感信号，并且制定响应于这些传感信号的控制策略和规程。近眼显示设备500可以包括板载数据存储子系统540，板载数据存储子系统540包括保持逻辑子系统530可执行的指令(例如，软件和/或固件)，并且可以另外保持其他合适类型的数据的一个或多个存储器设备。

逻辑子系统530和数据存储子系统540可被统称为近眼显示设备500的板载控制器或板载计算设备。在一个示例中，这种板载控制器或计算设备可包括或以其他方式实现本文中描述的音频过滤器和/或空间音频放大器。此外，这种板载控制器或计算设备可包括接收波束成形引擎，该接收波束成形引擎被配置成接收并处理从空间上各异的话筒阵列的多个话筒接收的音频信号，并标识由话筒观测的每个音频源的现实世界位置。

近眼显示设备500可以包括支持在通信网络上与远程设备(即，板外设备)的有线和/或无线通信的通信子系统550。作为一个示例，通信子系统可以被配置为无线地接收和/或传送来自远程设备的视频流、音频流、坐标信息、虚拟对象描述和/或其它信息，以渲染模拟虚拟监视器的虚拟对象和纹理。在至少一些实现中，通信子系统550可包括音频通信接口，该音频通信接口被配置成将音频流传送到一个或多个通信伙伴的一个或多个远程通信设备和/或从一个或多个通信伙伴的一个或多个远程通信设备接收音频流。

逻辑子系统530可以经由通信子系统550与远程计算系统通信以通过通信网络发送和/或接收信号信息。在一些示例中，与近眼显示设备500相关的至少一些信息处理和/或控制任务可以由一个或多个远程计算设备执行或者在一个或多个远程计算设备的辅助下执行。如此，用于近眼显示设备500的信息处理和/或控制任务可以跨板载和远程计算系统分布。

上述技术、过程、操作和方法可以绑定到集成到头戴式显示器的计算系统和/或被配置为与头戴式显示器通信的计算系统。特别地，此处描述的方法和过程可以被实现为计算机应用、计算机服务、计算机API、计算机库和/或可由头戴式显示器和/或其他计算系统实现的其他计算机程序产品。

图6示意性示出了可以执行上述方法和过程中的一个或多个的计算系统600的非限制性示例。如前所述，计算系统600可以包括会议系统或形成会议系统的一部分。以简化形式示出了计算系统600。应当理解，在不脱离本公开的范围的情况下，实际上可使用任何计算机架构。在不同实现中，计算系统600可采取头戴式显示计算机、大型计算机、服务器计算机、台式计算机、膝上型计算机、平板计算机、家庭娱乐计算机、网络计算设备、移动计算设备、移动通信设备、游戏设备等等的形式。

计算系统600包括逻辑子系统602和数据存储子系统604。计算系统600可任选地包括显示子系统606、音频子系统608、传感器子系统610、通信子系统612、和/或在图6中未示出的其他组件。

逻辑子系统602可包括被配置为执行一个或多个指令的一个或多个物理设备。例如，逻辑子系统可被配置为执行一个或多个指令，该一个或多个指令是一个或多个应用、服务、程序、例程、库、对象、组件、数据结构、或其它逻辑构造的部分。可实现这样的指令以执行任务、实现数据类型、变换一个或多个设备的状态、或以其他方式得到所希望的结果。

逻辑子系统可包括被配置为执行软件指令的一个或多个处理器。附加地或替代地，逻辑子系统可包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑机。逻辑子系统的处理器可以是单核或多核，并且在其上执行的程序可被配置为用于并行或分布式处理。逻辑子系统可任选地包括遍布两个或更多个设备分布的独立组件，该设备可被远程定位和/或被配置为用于进行协同处理。该逻辑子系统的一个或多个方面可被虚拟化并由以云计算配置进行配置的可远程访问的联网计算设备执行。

数据存储子系统604包括一个或多个物理、非瞬态设备，该一个或多个物理、非瞬态设备被配置为保持逻辑子系统可执行来实现此处描述的方法和过程的数据和/或指令。在实现这样的方法和过程时，数据存储子系统604的状态可以被变换(例如，以保持不同的数据)。

数据存储器子系统604可包括可移动介质和/或内置设备。数据存储子系统604可包括光学存储设备(例如，CD、DVD、HD－DVD、蓝光盘等)、半导体存储器设备(例如，RAM、EPROM、EEPROM等)和/或磁性存储设备(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)等等。数据存储子系统604可包括具有以下特性中的一个或多个特性的设备：易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址，以及内容可寻址。在一些实现中，逻辑子系统602和数据存储子系统604可以被集成到一个或多个共同设备中，诸如专用集成电路或片上系统。

图6还示出以可移动计算机可读存储介质614形式的数据存储子系统的一方面，该介质可以用于存储和/或传输可执行以实现此处所述的方法和过程的数据和/或指令。可移动计算机可读存储介质614可采用CD、DVD、HD-DVD、蓝光盘、EEPROM和/或软盘等形式。

应当领会，数据存储子系统604包括一个或多个物理非瞬态设备。相比之下，在一些实现中，此处描述的指令的各方面可通过纯信号(例如，电磁信号、光信号等)以瞬态方式传播，该纯信号在至少有限持续时间内不由物理设备保持。此外，与本公开有关的数据和/或其他形式的信息可以通过纯信号来传播。

可实现软件模块或程序以执行一个或多个特定功能。在某些情况下，可以通过执行由数据存储子系统604所保持的指令的逻辑子系统602来实例化此类模块或程序。将理解，不同的模块或程序可以从相同的应用、服务、代码块、对象、库、例程、API、函数等实例化。类似地，相同的模块或程序可由不同的应用、服务、代码块、对象、例程、API、函数等来实例化。术语“模块”和“程序”意在涵盖单个或成组的可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。

当被包括时，显示子系统606可被用来呈现由数据存储子系统604保持的数据的视觉表示。由于此处描述的方法和过程改变了由数据存储子系统保持的数据，并由此变换了数据存储子系统的状态，因此同样可以转变显示子系统606的状态以视觉地表示底层数据的改变。显示子系统606可包括使用实质上任何类型的技术的一个或多个显示设备。这样的显示设备可以与共享外壳(例如，具有板载计算的头戴式显示器)中的逻辑子系统602和/或数据存储子系统604组合，或者这样的显示设备可以是外围显示设备(具有板外计算的近眼显示器)。

作为一个非限制性示例，显示子系统可以包括位于头戴式显示器的透镜内的图像产生元件(例如，透视OLED显示器)。作为另一示例，显示子系统可以包括在透镜的边缘上的光调制器，并且透镜可以用作用于将来自光调制器的光递送到用户的眼睛的光导。在任一种情况下，因为透镜至少部分透明，所以光可以穿过透镜到达用户的眼睛，从而允许用户透视透镜。

传感器子系统可以包括和/或被配置为与各种不同传感器通信。例如，近眼显示设备可包括至少一个面向内的相机和/或至少一个面向外的相机。面向内的相机可以是被配置为获取图像数据以允许跟踪观看者的眼睛的眼睛跟踪图像传感器。面向外的相机可检测基于姿势的用户输入或提供物理空间的深度成像。例如，面向外的相机可以包括深度相机、可见光相机或另一位置跟踪相机。此外，这种面向外的相机可以具有立体声配置。例如，近眼显示设备可以包括两个深度相机，以从用户的视角的两个不同的角度立体地观测物理空间。在一些实现中，也可以经由一个或多个板外相机来检测基于姿势的用户输入。

此外，面向外的相机可以捕捉物理空间的图像，其可以作为输入提供给板载或板外3D建模系统。3D建模系统可以用于生成物理空间的3D模型。这样的3D建模可被用于定位近眼显示设备在物理空间中的精确位置，使得可以渲染虚拟监视器以便相对于物理空间出现在精确的位置。此外，3D建模可被用来准确地标识虚拟对象可以被约束到其的现实世界表面。为了促成这种3D建模，传感器子系统可以任选地包括红外投影仪以辅助结构化光线和/或飞行时间深度分析。

传感器子系统还可以包括一个或多个运动传感器，以在观看者佩戴头戴式显示器时检测观看者头部的运动。例如，运动传感器可以输出用于跟踪观看者头部运动和眼睛定向的运动数据。如此，运动数据可以促成检测沿着翻滚、俯仰和/或偏航轴的用户的头部的倾斜。此外，运动传感器可以使得能够确定和/或细化头戴式显示器的位置。类似地，运动传感器也可以被用作用户输入设备，使得用户可以经由颈部、头部或身体的姿势与近眼显示设备交互。运动传感器的非限制性示例包括加速度计、陀螺仪、罗盘和定向传感器。此外，近眼显示器可被配置有全球定位系统(GPS)能力。

音频子系统608可以包括或被配置为利用一个或多个扬声器来播放如上所讨论的音频流和/或其他声音。传感器子系统还可以包括一个或多个话筒，以允许使用语音命令作为用户输入以及支持接收波束成形。

当包括通信子系统612时，通信子系统612可被配置为将计算系统600与一个或多个其他计算设备通信地耦合。通信子系统612可包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可被配置为经由无线电话网、无线局域网、有线局域网、无线广域网、有线广域网等进行通信。在一些实现中，通信子系统可允许计算系统600经由诸如互联网之类的网络发送消息至其他设备和/或从其他设备接收消息。

在一个示例中，一种会议系统包括：近眼显示设备，该近眼显示设备被配置成显示从通信伙伴的远程通信设备接收的视频；包括多个话筒的空间上各异的话筒阵列；音频通信接口，该音频通信接口被配置成向通信伙伴的远程通信设备传送音频流，所述音频流包括由空间上各异的话筒阵列捕捉的一个或多个现实世界音频源产生的现实世界声音以及由一个或多个虚拟音频源产生的虚拟声音；以及音频过滤器，该音频过滤器被配置成至少部分基于对应音频源的现实世界定位来选择性地降低音频流中背景声音的相对音量。在这个示例或任何其他示例中，音频过滤器被配置成至少部分基于一个或多个虚拟音频源的虚拟化的现实世界定位来选择性地降低音频流中背景虚拟声音的相对音量。

在这个示例或任何其他示例中，一个或多个虚拟音频源的虚拟化的现实世界定位被映射到物理空间。在这个示例或任何其他示例中，音频过滤器被配置成至少部分基于一个或多个现实世界音频源的观测到的现实世界定位来选择性地降低音频流中背景虚拟声音的相对音量。在这个示例或任何其他示例中，使用由在物理空间内具有空间上各异的定位的多个话筒中的每一个捕捉的现实世界声音的接收波束成形来标识一个或多个现实世界音频源的观测到的现实世界定位。在这个示例或任何其他示例中，响应于对于第一过滤器模式的用户选择，声音被包括在背景声音内；以及

其中响应于对于第二过滤器模式的用户选择，该声音从背景声音中排除。在这个示例或任何其他示例中，音频源能被单独地选择来用于相对于其他音频源的音量降低。在这个示例或任何其他示例中，如果对应音频源的现实世界定位不在三维音频包括区域内，则声音被包括在背景声音内；并且如果对应音频源的现实世界定位在三维音频包括区域内，则该声音从背景声音中被排除。在这个示例或任何其他示例中，三维音频包括区域基于近眼显示设备的视野或注视轴。在这个示例或任何其他示例中，三维音频包括区域是用户定义的。在这个示例或任何其他示例中，如果对应音频源的现实世界定位在三维音频排除区域内，则声音被包括在背景声音内；并且如果对应音频源的现实世界定位不在三维音频排除区域内，则该声音从背景声音中被排除。在这个示例或任何其他示例中，三维音频排除区域基于近眼显示设备的视野或注视轴。在这个示例或任何其他示例中，三维音频排除区域是用户定义的。在这个示例或任何其他示例中，近眼显示设备被配置成显示图形指示符，该图形指示符覆盖物理空间的现实世界视图并标识所选用于音量降低的音频源。在这个示例或任何其他示例中，近眼显示设备被配置成显示图形指示符，该图形指示符覆盖物理空间的现实世界视图并标识音频源的现实世界定位。

在一个示例中，一种会议方法包括：经由空间上各异的话筒阵列的多个话筒捕捉由具有在物理环境内的现实世界定位的一个或多个现实世界源产生的现实世界声音；将现实世界声音和虚拟声音组合到音频流内，虚拟声音由具有在物理环境内的虚拟化的现实世界定位的一个或多个虚拟音频源产生；经由增强现实显示设备显示虚拟对象，该虚拟对象表示在对应的虚拟化的现实世界定位处的该虚拟音频源；基于一个或多个虚拟音频源的虚拟化的现实世界定位来选择性地从音频流中过滤虚拟声音；以及将音频流传送到通信伙伴的远程通信设备。在这个示例或任何其他示例中，该方法还包括基于一个或多个现实世界音频源的观测到的现实世界定位来从音频流中选择性地过滤现实世界声音。在这个示例或任何其他示例中，该方法还包括在通信网络上接收来自远程通信设备的用户选择；以及响应于用户选择从音频流中过滤选自多个现实世界音频源和虚拟音频源中的一音频源。

在一个示例中，一种会议系统包括：包括多个话筒的空间上各异的话筒阵列；音频通信接口，该音频通信接口被配置成向通信伙伴的远程通信设备传送音频流，该音频流包括由空间上各异的话筒阵列捕捉的一个或多个现实世界音频源产生的现实世界声音以及由具有虚拟化的现实世界定位的一个或多个虚拟音频源产生的虚拟声音；音频过滤器，该音频过滤器被配置成选择性地放大或抑制音频流内现实世界声音和虚拟声音中的一个或多个的相对音量；以及增强现实显示设备，该增强现实显示设备被配置成在物理空间的增强现实视图内显示从通信伙伴的远程通信设备接收的视频并显示标识一个或多个现实世界音频源的观测到的现实世界定位和一个或多个虚拟音频源的虚拟化的现实世界定位的图形指示符。在这个示例或任何其他示例中，音频流内现实世界声音和虚拟声音中的一个或多个的相对音量响应于被引导在一个或多个图形指示符处的用户输入而被选择性地放大或抑制。

应该理解，此处所述的配置和/或方法在本质上是示例性的，并且这些具体实现或示例不应被认为是限制性的，因为多个变体是可能的。本文描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。由此，所例示的各个动作可以按所例示的顺序执行、按其他顺序执行、并行地执行，或者在某些情况下被省略。同样，上述过程的次序可以改变。

本公开的主题包括本文公开的各种过程、系统和配置以及其他特征、功能、动作和/或性质的所有新颖和非显而易见的组合和子组合，以及其任何和所有等同物。

Claims

1.一种会议系统，包括：

近眼显示设备，所述近眼显示设备被配置成显示从通信伙伴的远程通信设备接收的视频；

包括多个话筒的空间上各异的话筒阵列；

音频通信接口，所述音频通信接口被配置成向所述通信伙伴的所述远程通信设备传送音频流，所述音频流包括由所述空间上各异的话筒阵列捕捉的一个或多个现实世界音频源产生的现实世界声音以及由一个或多个虚拟音频源产生的虚拟声音；以及

音频过滤器，所述音频过滤器被配置成至少部分基于所述一个或多个现实世界音频源的现实世界定位以及所述一个或多个虚拟音频源的虚拟化的现实世界定位来选择性地降低所述音频流中背景声音的相对音量。

2.如权利要求1所述的会议系统，其特征在于，所述一个或多个虚拟音频源的虚拟化的现实世界定位被映射到物理空间。

3.如权利要求1所述的会议系统，其特征在于，所述音频过滤器被配置成至少部分基于所述一个或多个现实世界音频源的观测到的现实世界定位来选择性地降低所述音频流中背景虚拟声音的相对音量。

4.如权利要求3所述的会议系统，其特征在于，所述一个或多个现实世界音频源的观测到的现实世界定位使用由在物理空间内具有空间上各异的定位的多个话筒中的每一个捕捉的所述现实世界声音的接收波束成形来被标识。

5.如权利要求1所述的会议系统，其特征在于，响应于对于第一过滤器模式的用户选择，所述虚拟声音被包括在背景声音内；以及

其中响应于对于第二过滤器模式的用户选择，该虚拟声音从背景声音中排除。

6.如权利要求1所述的会议系统，其特征在于，音频源能被单独地选择来用于相对于其他音频源的音量降低。

7.如权利要求1所述的会议系统，其特征在于，如果对应音频源的现实世界定位不在三维音频包括区域内，则由所述对应音频源产生的声音被包括在所述背景声音内；以及

其中如果所述对应音频源的所述现实世界定位在所述三维音频包括区域内，则由所述对应音频源产生的所述声音被从所述背景声音中排除。

8.如权利要求7所述的会议系统，其特征在于，所述三维音频包括区域基于所述近眼显示设备的视野或注视轴。

9.如权利要求7所述的会议系统，其特征在于，所述三维音频包括区域是用户定义的。

10.如权利要求1所述的会议系统，其特征在于，如果对应音频源的现实世界定位在三维音频排除区域内，则由所述对应音频源产生的声音被包括在所述背景声音内；以及

其中如果所述对应音频源的所述现实世界定位不在所述三维音频排除区域内，则由所述对应音频源产生的所述声音被从所述背景声音中排除。

11.如权利要求10所述的会议系统，其特征在于，所述三维音频排除区域基于所述近眼显示设备的视野或注视轴。

12.如权利要求10所述的会议系统，其特征在于，所述三维音频排除区域是用户定义的。

13.如权利要求1所述的会议系统，其特征在于，所述近眼显示设备被配置成显示图形指示符，所述图形指示符覆盖物理空间的现实世界视图并标识所选用于音量降低的音频源。

14.如权利要求1所述的会议系统，其特征在于，所述近眼显示设备被配置成显示图形指示符，所述图形指示符覆盖物理空间的现实世界视图并标识音频源的现实世界定位。

15.一种会议方法，包括：

经由空间上各异的话筒阵列的多个话筒捕捉由具有在物理环境内的现实世界定位的一个或多个现实世界源产生的现实世界声音；

将所述现实世界声音和虚拟声音组合到音频流内，所述虚拟声音由具有在所述物理环境内的虚拟化的现实世界定位的一个或多个虚拟音频源产生；

经由增强现实显示设备显示虚拟对象，所述虚拟对象表示在对应的虚拟化的现实世界定位处的所述虚拟音频源；

基于所述一个或多个虚拟音频源的所述虚拟化的现实世界定位来选择性地从所述音频流中过滤所述虚拟声音；

基于所述一个或多个现实世界音频源的观测到的现实世界定位来从所述音频流中选择性地过滤所述现实世界声音；以及

将所述音频流传送到通信伙伴的远程通信设备。

16.如权利要求15所述的会议方法，其特征在于，进一步包括：

在通信网络上接收来自所述远程通信设备的用户选择；

响应于所述用户选择，从所述音频流中过滤选自所述多个现实世界音频源中的音频源。

17.一种会议系统，包括：

包括多个话筒的空间上各异的话筒阵列；

音频通信接口，所述音频通信接口被配置成向通信伙伴的远程通信设备传送音频流，所述音频流包括由所述空间上各异的话筒阵列捕捉的一个或多个现实世界音频源产生的现实世界声音以及由一个或多个具有虚拟化的现实世界定位的虚拟音频源产生的虚拟声音；

音频过滤器，所述音频过滤器被配置成选择性地放大或抑制所述音频流内所述现实世界声音和所述虚拟声音中的一个或多个的相对音量；以及

增强现实显示设备，所述增强现实显示设备被配置成在物理空间的增强现实视图内显示从所述通信伙伴的远程通信设备接收的视频并显示图形指示符，所述图形指示符标识所述一个或多个现实世界音频源的观测到的现实世界定位和所述一个或多个虚拟音频源的所述虚拟化的现实世界定位。

18.如权利要求17所述的会议系统，其特征在于，所述音频流内所述现实世界声音和所述虚拟声音中的一个或多个的相对音量响应于被引导在所述图形指示符处的用户输入而被选择性地放大或抑制。

19.一种包括用于执行如权利要求15-16中的任一项所述的方法的装置的计算机系统。

20.一种具有指令的计算机可读存储介质，所述指令在被执行时使机器执行如权利要求15-16中的任一项所述的方法。