CN103036691A

CN103036691A - 选择性的空间音频通信

Info

Publication number: CN103036691A
Application number: CN2012105461452A
Authority: CN
Inventors: A.巴-齐夫; E.格森; K.卡蒂尔; E.奥菲克; G.金奇
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-12-17
Filing date: 2012-12-17
Publication date: 2013-04-10
Anticipated expiration: 2032-12-17
Also published as: WO2013090216A1; US8958569B2; CN103036691B; US20130156220A1

Abstract

本申请涉及选择性的空间音频通信。获得与多个发声来源相关的音频数据，所述音频数据指向参与者实体。确定与所述发声来源之一相关的发声实体。从所述参与者实体获得听众焦点指示，其指示在发声实体上的听众焦点。确定所述参与者和发声实体之间的空间位置关系。启动滤波操作以增强与所述发声实体相关的音频数据的一部分，所述部分相对于所述音频数据中与除了第一个之外的发声来源相关的另一部分而被增强。基于所述空间位置关系，启动基于参与者位置收听感觉的第一部分的流的空间化。基于所述滤波操作和空间化，启动音频数据的空间流至参与者实体的传输。

Description

选择性的空间音频通信

背景技术

电子装置的用户越来越期望他们与其他人通信的能力更加灵活。例如，移动电话用途可以包括输入电话号码，激活“拨号”功能，以及等待听众接电话以开始会话。随着移动装置技术的进步，许多用户可以使用他们各自装置上的摄像机以进行具有装置视频的会话，随着会话的进行向每个参与者提供其他参与者的视频流。如果任一参与者（或者参与者双方）处于正在说话的一群人中，则该群中所有参与者的声音和图像都可以被传送给该会话另一端的相应听众。还可能包括经由三方呼叫（例如，拨打第二个电话号码，并且等待第三参与者接听）的另一个参与者（或者参与者群）。作为另一个示例，会议呼叫可被用来包括经由每个参与者拨入的若干参与者。如果多个参与者同时开始说话，则对于听众来说，可能难以确定谁正在说话，以及正在说什么。

发明内容

依照一个概括的方面，一种系统可以包括音频数据获取部件，其获得与多个发声来源相关的音频数据的第一集合，音频数据的第一集合指向第一参与者实体。该系统还可以包括音频来源确定部件，其确定与多个发声来源中的第一个相关的第一发声实体。该系统还可以包括焦点确定部件，其经由装置处理器，从第一参与者实体获得第一听众焦点指示，其指示在第一发声实体上的第一听众焦点。该系统还可以包括空间关系部件，其确定第一参与者实体和第一发声实体之间的空间位置关系。该系统还可以包括音频增强部件，其对音频数据的第一集合启动第一滤波操作，以增强与第一发声实体相关的音频数据的第一集合的第一部分，相对于音频数据的第一集合的另一部分增强第一部分，所述另一部分与除了多个发声来源的第一个之外的多个发声来源相关。该系统还可以包括空间化（spatialization）部件，其基于第一参与者实体和第一发声实体之间的空间位置关系，启动基于第一参与者位置收听感觉（perspective）的、该第一部分的流的空间化。该系统还可以包括空间音频传输部件，其基于第一滤波操作和空间化，启动音频数据的空间流至第一参与者实体的传输。

依照另一方面，有形地包含在计算机可读存储媒介上的计算机程序产品可以包括可执行代码，可执行代码可以促使至少一个数据处理设备从第一参与者实体获得第一参与者焦点指示，其指示在第二参与者实体上的第一参与者实体的第一焦点。此外，至少一个数据处理设备可以基于第一参与者焦点指示，经由装置处理器，获得与作为第一发声来源的第一参与者实体相关的音频数据的集合的第一部分，该第一部分指向第二参与者实体。此外，至少一个数据处理设备可以确定第一参与者实体和第二参与者实体之间的空间位置关系。此外，至少一个数据处理设备可以经由装置处理器获得与作为第二发声来源的第三参与者实体相关的音频数据的集合的第二部分，第二部分指向第二参与者实体。此外，至少一个数据处理设备可以对音频数据的集合启动第一滤波操作，以增强第一部分，所述第一部分相对于音频数据的集合中与除了第一发声来源之外的一个或多个发声来源相关的另一部分而被增强，另一部分包括第二部分。此外，至少一个数据处理设备可以基于第一参与者实体和第二参与者实体之间的空间位置关系，启动基于第二参与者位置收听感觉的、第一部分的空间化。此外，至少一个数据处理设备可以基于第一滤波操作和空间化，启动音频数据的第一空间流至第二参与者实体的传输。

依照另一方面，可以从第一参与者实体获得第一参与者焦点指示，其指示在第二参与者实体上的第一参与者实体的第一焦点。基于第一参与者焦点指示，可以经由装置处理器获得与作为第一发声来源的第一参与者实体相关的音频数据集合的第一部分，第一部分指向第二参与者实体。可以确定第一参与者实体和第二参与者实体之间的第一空间位置关系。可以从第一参与者实体获得第二参与者焦点指示，其指示在第三参与者实体上的第一参与者实体的第二焦点。可以获得与作为第一发声来源的第一参与者实体相关的音频数据集合的第二部分，第二部分指向第三参与者实体。可以对音频数据的集合启动第一滤波操作，以增强第一部分，所述第一部分相对于音频数据的集合中与包括除了第一发声来源之外的至少一个发声来源的发声来源相关的第一其他部分而被增强，第一其他部分包括第二部分。基于第一参与者实体和第二参与者实体之间的空间位置关系，可以启动基于第二参与者位置收听感觉的、第一部分的第一空间化。基于第一滤波操作和空间化，可以启动音频数据的第一空间流至第二参与者实体的传输。可以对音频数据的集合启动第二滤波操作，以增强第二部分，所述第二部分相对于音频数据的集合中与包括除了第一发声来源之外的至少一个发声来源的发声来源相关的第二其他部分而被增强，第二其他部分包括第一部分。基于第一参与者实体和第三参与者实体之间的空间位置关系，可以启动基于第三参与者位置收听感觉的、第二部分的第二空间化。基于第二滤波操作和第二空间化，可以启动音频数据的第二空间流至第三参与者实体的传输。

提供本发明内容而以简化形式介绍精选的观点，在以下的具体实施方式中将进一步描述这些观点。本发明内容没有打算标识所要求保护的主题的主要特征或基本特征，也没有打算用来限制所要求保护的主题的范围。在以下的附图和说明书中将阐述一个或多个实现方式的细节。根据说明书和附图，以及根据权利要求，将会明了其他特征。

附图说明

图1是用于选择性的空间音频通信的示例系统的方框图。

图2是图示图1的系统的示例性操作的流程图。

图3是图示图1的系统的示例性操作的流程图。

图4是图示图1的系统的示例性操作的流程图。

图5描述了与图1的系统的示例交互。

图6描述了与图1的系统的示例交互。

具体实施方式

许多会话可能发生在房间或者局部空间中，其中，这些参与者也许能实际地看到其他每个参与者，并且还可能会基于倾听从特定的相应三维（3-D）方向实际发出的他们的说话声（或者其他声音），而感知其余参与者相对于相应听众的3-D位置的位置。例如，如果第一参与者正向前看，直接在他/她身后的第二参与者越过第一参与者的左肩说话，那么，第一参与者可以感知第二参与者的位置，基于第一参与者双耳所接收的且由第一参与者的大脑处理的音频信号，以指示第二参与者直接在他/她身后。

例如，然后，第一参与者可以转动他/她的头部和/或身体以面向第二参与者的方向，以与第二参与者进行集中讨论（focused discussion）。随着第一参与者转动他/她的头部和/或身体，第一参与者和第二参与者的方向感觉可以动态地改变，这是因为随着转动的动作，第一参与者的双耳以动态的不同的感觉接收来自第二参与者的声音。例如，听众感觉可以从“越过左肩”动态地改变为稍微向左，在第一参与者前面，因为第一参与者的双耳是对应于第一参与者的头部/身体朝向第二参与者的运动而被定位的。例如，第一参与者的这种动态运动可以示意第一参与者要以更集中的方式与第二参与者说话的愿望。

依照本文论述的示例性实施例，电子装置的用户可以发送和接收空间音频数据。空间音频数据可以与以下信息一起传送给听众，该信息指示听众的与位置有关的听众感觉，该位置与空间音频数据的发声发送者来源相关，以便听众（们）可以感觉到空间音频数据是从发声发送者发出的，该发声发送者相对于相应的听众被定位在与空间音频数据的发声发送者来源相关的位置。例如，如果Joe Smith与一个位置相关，该位置处于与Ann Smith相关的位置的正后方5英尺处，则Ann Smith可以接收来自Joe Smith的空间音频数据，其感觉指示Joe Smith在听众Ann Smith正后方5英尺处。同样，如果Tim Smith也包含于会话中，但是坐在隔壁房间中，那么Tim Smith可以接收来自Joe Smith的空间音频，其感觉指示Joe Smith位于听众Tim Smith的隔壁房间。例如，由Tim接收的空间音频数据可以指示导航的感觉，以便Tim可以导航不同的方向（例如，绕着墙壁，上/下楼梯），以到达与Joe Smith相关的位置。例如，空间音频数据可以在不同方向上提供距离的感觉，以便Tim可以在空间音频所感觉出的方向上进行导航，以到达Joe的相关的位置。

依照本文论述的示例性实施例，电子装置的用户可以发送和接收空间音频数据，基于会话中的参与者的一个或多个选择。可以确定参与者之间的位置关系，并且可以滤波及增强空间音频数据，以提供听众感觉：由各自的听众所接收的空间音频数据是从与空间音频数据的各自的发声发送者相关的位置发出的。

依照本文论述的示例性实施例，对会话中的参与者的选择可以是基于从各个参与者（例如，听众和/或发送者）接收的3-D音频输入和/或触觉反馈。例如，第一参与者可以将第一参与者的头部的方位更改为朝着与第二实体相关的位置移动的方向，以指示选择第二实体作为第二参与者。例如，第一参与者可以说出与第二实体相关的名字或者标签，以指示选择第二实体作为第二参与者。例如，第一参与者可以激活图标（例如，经由菜单或者显示图），以指示选择第二实体作为第二参与者。

依照本文论述的示例性实施例，可以“空间化”音频数据，以包括提供与参与者实体之间的空间位置关系有关的参与者位置收听感觉的信息。例如，可以通过使用与头部有关的传递函数实现音频数据流的空间化，如同本文将进一步论述的。例如，音频数据流的空间化可以包括：基于参与者实体之间的空间位置关系，确定立体声格式化的音频数据。

在此，“立体声”格式涉及音频数据的格式化，其为听众提供从与该听众有关的不同方向、或者从与该听众有关的不同位置发出的声音的感觉。依照一个示例性实施例，该格式化可以基于模仿进入听众左耳或右耳的声音的音频感觉的技术，这种感觉基于从远方或附近发出的声音、或者从相对于该听众的角度（例如，在用户的上面、后面、下面、前面、或者向用户的右边或左边）发出的声音。例如，当模仿从相对于听众较远的距离发出的声音，或者模仿描述位于远离听众的距离的实体的声音时，可以基本上静音（mute）该声音。依照一个示例性实施例，该格式化可以基于与音频数据相关的调制技术。

依照本文论述的示例性实施例，滤波及增强空间音频数据可以包括确定经滤波和增强的空间音频数据，其可以为各自的听众提供“群会话”感觉，基于相比该空间音频中与其他参与者相关的另一部分用更高的清晰度（对于所选择的听众而言）增强与所选择的参与者相关的空间音频的一部分。此外，可以混合从多个参与者接收的空间音频数据，以提供与期望的参与者有关的“群会话”效应。因此，所选择的听众可以在会话中感觉出多个参与者的“鸡尾酒会效应”。例如，多个参与者可以实际位于公共休息室，或者可以实际位于不同的各自的地理位置。

依照本文论述的示例性实施例，基于实际的物理位置或者基于与各参与者相关的其他位置，可以确定参与者之间的位置关系。

依照本文论述的示例性实施例，可以由一个或多个其他参与者选择虚拟参与者。例如，虚拟参与者可以位于与其余参与者不同的物理位置，或者虚拟参与者可以与虚拟化的、计算机化的实体（例如，国际商用机器公司（IBM）的计算机化的实体“WATSON”）相关。例如，虚拟参与者可以与音频数据相关，该音频数据被先前记录和存储以在另一个参与者请求时作为空间音频流而供传输或收听。例如，先前记录的音频数据可以存储在服务器上，或者存储在与请求者相关的用户装置上。

因此，基于各参与者的手势/运动/音频输入，可以简单且流畅地启动空间音频会话，以识别会话中的其他期望的参与者。

如本文将进一步论述的，图1是用于提供选择性的空间音频通信的系统100的结构图。如图1所示，系统100可以包括选择性的空间音频通信系统102，其包括音频数据获取部件104，音频数据获取部件104可以获得与多个发声来源108相关的音频数据106的第一集合，音频数据106的第一集合指向第一参与者实体110。例如，音频数据106的第一集合可以包括多个发声来源108之间的会话，并且指向（至少）第一参与者实体110。

例如，音频数据可以包括与人表达短语相关的音频信号，短语可以包括一个或多个词。例如，音频数据可以包括与人表达字母表的字母（例如，人拼写一个或多个词）相关的音频信号。例如，音频数据可以包括由处理与表达相关的音频信号产生的音频特征数据，例如从模拟信号到数值数字形式的处理，其还可被压缩，以供存储或者网络上更轻便的传输。例如，音频数据可以包括由多个说话者和/或其他声音产生的音频信号。例如，音频数据可以包括与一个或多个会话相关的音频信号。

依照一个示例性实施例，选择性的空间音频通信系统102可以包括可执行指令，其被存储在计算机可读存储媒介上，如以下所述。依照一个示例性实施例，计算机可读存储媒介可以包括任意数量的存储装置，以及任意数量的存储介质类型，其包括分布式装置。

例如，实体储存库112可以包括一个或多个数据库，并且可以经由数据库接口部件114进行访问。数据处理领域的普通技术人员将会理解：存在许多用于存储本文论述的储存库信息的技术，例如各种类型的数据库结构（例如，SQL服务器）以及非数据库结构。

依照一个示例性实施例，选择性的空间音频通信系统102可以包括存储器116，其可以存储音频数据106的第一集合。在此，“存储器”可以包括被配置为存储数据和/或指令的单个存储装置或者多个存储装置。此外，存储器116可以跨接多个分布式存储装置。

依照一个示例性实施例，用户接口部件118可以管理用户120和选择性的空间音频通信系统102之间的通信。用户120可以与接收装置122相关，接收装置122可以与显示器124及其他输入/输出装置相关。例如显示器124可以被配置为经由内部装置总线通信或者经由至少一个网络连接与接收装置122进行通信。

依照一个示例性实施例，选择性的空间音频通信系统102可以包括网络通信部件126，其可以管理选择性的空间音频通信系统102和其他实体之间的网络通信，所述其他实体可以经由至少一个网络128与选择性的空间音频通信系统102进行通信。例如，至少一个网络128可以包括因特网、至少一个无线网络或者至少一个有线网络中的至少一个。例如，至少一个网络128可以包括蜂窝网络、无线电网络、或者可以支持用于选择性的空间音频通信系统102的数据传输的任何类型的网络。例如，网络通信部件126可以管理选择性的空间音频通信系统102和接收装置122之间的网络通信。例如，网络通信部件126可以管理用户接口部件118和接收装置122之间的网络通信。

如图1b所示，用户120可以包括多个用户120a，120b，120c，……，120x。每个用户120还可以与各自的接收装置122和/或显示器124相关。因此，用户120a，120b，120c，……，120x的每一个可以包括发声来源108和第一参与者实体110的一个或多个。

音频来源确定部件130可以确定与多个发声来源108的第一个相关的第一发声实体132。例如，可以基于用户标识确定发声实体。例如，可以基于与发声实体相关的实际或者虚拟位置来确定发声实体。

焦点确定部件134可以经由装置处理器136从第一参与者实体110获得第一听众焦点指示138，其指示在第一发声实体132上的第一听众焦点140。例如，第一参与者实体110可以提供选择指示，其指示在第一发声实体132上的第一听众焦点的请求。例如，第一参与者实体110可以在朝向与第一发声实体132相关的位置的方向上改变他/她的身体方位。例如，第一参与者实体110可以发出与第一发声实体132相关的名字或者标签。例如，第一参与者实体110可以基于激活显示器和/或菜单上的图标或者其他（多个）图示符号而提供选择指示。

在此，“处理器”可以包括单个处理器或者多个处理器，被配置为处理与处理系统相关的指令。因此，处理器可以包括并行和/或以分布式方式处理指令的多个处理器。尽管在图1中将装置处理器136描述为在选择性的空间音频通信系统102的外部，但是数据处理领域的普通技术人员将会理解：装置处理器136可以实现为单个部件和/或实现为分布式单元，其可位于选择性的空间音频通信系统102和/或其元件的任意一个的内部或外部。

依照一个示例性实施例，选择性的空间音频通信系统102可以直接与接收装置122进行通信（图1未示出），而不用经由网络128，如图1所示。例如，选择性的空间音频通信系统102可以驻留在一个或多个后端服务器上，或者桌面计算机装置上，或者移动装置上。例如，尽管图1未示出，但是用户120可以直接与接收装置122进行交互，接收装置122可以托管选择空间音频通信系统102的至少一部分、装置处理器136的至少一部分和显示器124。依照示例性实施例，部分的系统100可以操作为多个装置上的分布式模块，或者可以经由一个或多个网络或者连接与其他部分进行通信，或者可以被托管在单个装置上。

空间关系部件142可以确定在第一参与者实体110和第一发声实体132之间的空间位置关系144。例如，空间位置关系144可以包括三维（3-D）空间关系144（例如，彼此的左、右，彼此上、下，彼此前、后，彼此附近，彼此远离，为导航障碍所分隔）。例如，麦克风阵列可被用来确定讲话的参与者之间的空间关系。例如，摄像机及其他传感器可以确定与实际参与实体相关的位置属性。

例如，许多装置可以包括传感器，例如加速计、回转仪和/或磁力计。例如，加速计可以提供对直线加速度的测量。例如，回转仪可以提供对旋转加速度的测量。例如，磁力计可以提供对三个方向（例如，三轴罗盘）上的磁场的测量。因此，可能的是，基于头部的当前方位、速度和角度，预测与移动中的参与者相关的、即将到来的头部的角度（例如，如果该传感器被包含在附着于与参与者相关的头部上的装置中的话）。

音频增强部件146可以对音频数据106的第一集合启动第一滤波操作，以增强与第一发声实体132相关的第一集合音频数据106的第一部分148，相对于音频数据106的第一集合中的另一部分150增强第一部分148，所述另一部分150与除了多个发声来源108的第一个之外的多个发声来源108相关。例如，第一滤波操作可以基本上滤除除了与第一发声实体132相关的声音之外的声音。例如，第一滤波操作可以滤除除了与第一发声实体132相关的声音之外的多个声音，以相比第一发声实体132的背景声音而相对增强与第一发声实体132相关的声音。

空间化部件152可以基于第一参与者实体110和第一发声实体132之间的空间位置关系144，启动基于第一参与者位置收听感觉154的第一部分148的流的空间化。例如，可以“空间化”第一部分148的流以包括如下信息：该信息提供与参与者实体之间的空间位置关系有关的参与者位置收听感觉。例如，可以经由使用与头部有关的传递函数实现第一部分148的流的空间化，如同本文将进一步论述的。例如，第一部分148的流的空间化可以包括基于参与者实体之间的空间位置关系，确定立体声格式化的音频数据。

空间音频传输部件156可以基于第一滤波操作和空间化，启动音频数据的空间流158至第一参与者实体110的传输。

依照一个示例性实施例，空间关系部件142可以基于相对于与该第一参与者实体110相关的当前位置164的当前距离160和方向162，确定第一参与者实体110和第一发声实体132之间的空间位置关系144。例如，随着参与者/实体的任一个（或者双方）移动，或者随着与参与者/实体的一个或多个相关的位置移动，空间位置关系144可以动态地改变。

依照一个示例性实施例，空间关系部件142可以基于相对于与第一参与者实体110相关的当前位置164的当前导航距离166和导航方向168，确定第一参与者实体110和第一发声实体132之间的空间位置关系144。例如，如果第一参与者实体110和第一发声实体132被墙壁、围墙或者其他导航障碍所分隔，则当前导航距离166可以包括导航该导航障碍而包含的距离，并且导航方向168可以包括导航障碍的导航的措施（例如，绕开导航障碍导航的左/右转动，用于上或下斜坡或楼梯的上和下方向）。

依照一个示例性实施例，空间关系部件142可以基于相对于第一参与者实体110有关的位置164的动态改变距离160和动态改变方向162，来确定第一参与者实体110和第一发声实体132之间的空间位置关系144。

依照一个示例性实施例，空间音频数据流158可以包括与接收从第一发声实体132发出的第一部分148的听众感觉的提供相关的信息，其基于第一参与者实体110和第一发声实体132之间的空间位置关系144，包括以下的一个或多个听众感觉：与第一参与者实体110和第一发声实体132之间的距离相关的听众感觉，与第一参与者实体110和第一发声实体132之间的位置差的方向相关的听众感觉，或者与环境声噪音相关的听众感觉，其中环境声噪音与靠近第一参与者实体110或者第一发声实体132的地理环境中的一个或多个对象相关。

依照一个示例性实施例，空间化部件152可以启动第一部分148的流的空间化，基于启动生成空间音频数据流158的一个或多个操作。

依照一个示例性实施例，空间音频数据流158可以包括与接收从第一发声实体132发出的第一部分148的听众感觉的提供相关的信息，基于第一参与者实体110和第一发声实体132之间的空间位置关系144。

依照一个示例性实施例，焦点确定部件134可以经由装置处理器136从第一参与者实体110获得第一听众焦点指示138，基于以下的一个或多个：与关联于第一发声实体132的名字相关的音频输入170，指示第一发声实体132的选择172的选择指示，与关联于第一参与者实体110的第一身体部分的位置焦点相关的焦点174的方向，与关联于第一参与者实体110的第二身体部分的位置方位176相关的焦点174的方向，与关联于第一参与者实体110的第三身体部分的运动相关的焦点174的方向，或者与关联于第一参与者实体110的用户装置的位置焦点相关的焦点174的方向。例如，第一听众焦点指示138可以基于由第一参与者实体110使用的移动电话的位置焦点，指向另一参与者、或者指向表示另一参与者的对象。例如，第一听众焦点指示138可以基于第一参与者实体110的双眼的位置焦点。例如，第一听众焦点指示138可以基于第一参与者实体110的手势（例如，指向另一参与者或者表示另一参与者的对象的手指）。例如，第一听众焦点指示138可以基于由第一参与者实体110提到的、与另一参与者相关的名字或者标签的正常会话（音频）。

依照一个示例性实施例，指示对第一发声实体132的选择172的选择指示可以包括以下的一个或多个：指示对触摸显示器上所显示的图标的选择的触摸输入、基于音频菜单的音频选择、或者基于显示的菜单上的选择激活的选择指示。

依照一个示例性实施例，群确定部件178可以确定多个发声来源108。例如，群确定部件178可以确定一群参与者实体的成员（其任一个或者所有都可以包括发声来源108）。

依照一个示例性实施例，群位置确定部件180可以确定与多个发声来源108的每一个相关的空间位置182。

依照一个示例性实施例，虚拟参与者确定部件184可以确定包括在多个发声来源108中的一个或多个虚拟参与者186。例如，虚拟参与者186可以包括可位于与其他参与者隔离开的地理场所中的参与实体。例如，虚拟参与者186可以包括参与实体，该参与实体可以在当前实际存在的实体间的动态会话之前录制音频数据。例如，虚拟参与者186可以包括可包括计算机化的实体（例如，经由人工智能技术）的参与实体。

依照一个示例性实施例，群位置确定部件180可以确定与一个或多个虚拟参与者186相关的空间位置182。例如，可以经由通过与虚拟参与者186相关的装置获得的全球定位（GPS）坐标确定空间位置182。例如，可以通过虚拟参与者186提供空间位置182。例如，可以由发请求的参与者提供空间位置182。

依照一个示例性实施例，群位置传输部件188可以启动与多个发声来源108的每一个相关的空间位置182的一个或多个的指示的传输。

依照一个示例性实施例，音频来源确定部件130可以确定与多个发声来源108的第一个相关的第一发声实体132，基于以下的一个或多个：确定多个发声来源108的第一个的地理位置164，确定与关联于多个发声来源108的第一个的装置客户端相关的帐号，基于语音识别操作确定多个发声来源108的第一个的标识，基于触觉输入识别操作确定多个发声来源108的第一个的标识，从多个发声来源108的一个或多个接收多个发声来源108的第一个的标识的指示，或者从第一参与者实体110接收多个发声来源108的第一个的标识的指示。

依照一个示例性实施例，音频数据获取部件104可以获得音频数据106的第一集合，其包括与多个发声来源108相关的会话音频数据的混合，音频数据106的第一集合至少指向第一参与者实体110。

依照一个示例性实施例，音频增强部件146可以对会话音频数据的混合启动第一滤波操作，以增强与第一发声实体132相关的第一会话，所述第一会话相对于与除了多个发声来源108的第一个之外的多个发声来源108相关的另一部分会话音频数据而得到增强。

依照一个示例性实施例，空间化部件152可以基于一个或多个与头部有关的传递函数190来启动第一部分148的流的空间化。例如，与头部有关的传递函数可以基于一个或多个数学模型，该数学模型可以模拟人的头部的形状和/或人双耳的各部分的结构。例如，数学模型可以使用频移和相移技术来更改音频数据，以提供关联的声音是从3-D空间（即，“空间化的音频”）的特定点发出的听众感觉。借助于传感器检测参与者的头部运动（例如，确定耳朵方位），可以动态地调整空间化的音频，以符合参与者实体头部的动态运动。

依照一个示例性实施例，空间化部件152可以基于生成与第一部分148相关的立体声音频流来启动第一部分148的流的空间化。

图2是依照示例性实施例，图示图1的系统的示例性操作的流程图。在图2a的示例中，可以获得与多个发声来源相关的音频数据的第一集合，音频数据的第一集合指向第一参与者实体（202）。例如，音频数据获取部件104可以获得与多个发声来源108相关的音频数据106的第一集合，音频数据106的第一集合指向第一参与者实体110，如上所述。

可以确定与多个发声来源的第一个相关的第一发声实体（204）。例如，音频来源确定部件130可以确定与多个发声来源108的第一个相关的第一发声实体132，如上所述。

可以从第一参与者实体获得指示第一发声实体上的第一听众焦点的第一听众焦点指示（206）。例如，焦点确定部件134可以经由装置处理器136从第一参与者实体110获得第一听众焦点指示138，其指示在第一发声实体132上的第一听众焦点140，如上所述。

可以确定第一参与者实体和第一发声实体之间的空间位置关系（208）。例如，空间关系部件142可以确定第一参与者实体110和第一发声实体132之间的空间位置关系144，如上所述。

可以对音频数据的第一集合启动第一滤波操作，以增强与第一发声实体相关的第一集合音频数据的第一部分，所述第一部分相对于该音频数据的第一集合中与除了发声来源的第一个之外的多个发声来源相关的另一部分而被增强（210）。例如，音频增强部件146可以对音频数据106的第一集合启动第一滤波操作，以增强与第一发声实体132相关的第一集合音频数据106的第一部分148，所述第一部分148相对于该音频数据106的集合中与除了多个发声来源108的第一个之外的多个发声来源108相关的另一部分150而被增强，如上所述。

基于第一参与者实体和第一发声实体之间的空间位置关系，可以启动基于第一参与者位置收听感觉的第一部分的流的空间化（212）。例如，空间化部件152可以基于第一参与者实体110和第一发声实体132之间的空间位置关系144，启动基于第一参与者位置收听感觉154的第一部分148的流的空间化，如上所述。

基于第一滤波操作和空间化，可以启动音频数据的空间流至第一参与者实体的传输（214）。例如，空间音频传输部件156可以基于第一滤波操作和空间化来启动音频数据的空间流158至第一参与者实体110的传输，如上所述。

依照一个示例性实施例，可以基于相对于与第一参与者实体相关的当前位置的当前距离和方向，来确定第一参与者实体和第一发声实体之间的空间位置关系（216）。例如，空间关系部件142可以基于相对于与第一参与者实体110相关的位置164的当前距离160和方向162，确定第一参与者实体110和第一发声实体132之间的空间位置关系144，如上所述。

依照一个示例性实施例，可以基于相对于与第一参与者实体相关的当前位置的当前导航距离和导航方向来确定第一参与者实体和第一发声实体之间的空间位置关系（218）。例如，空间关系部件142可以基于相对于与第一参与者实体110相关的当前位置164的当前导航距离166和导航方向168，确定第一参与者实体110和第一发声实体132之间的空间位置关系144，如上所述。

依照一个示例性实施例，可以基于相对于与第一参与者实体相关的位置的动态改变距离和动态改变方向来确定第一参与者实体和第一发声实体之间的空间位置关系（220）。例如，空间关系部件142可以基于相对于与第一参与者实体110相关的位置164的动态改变距离160和动态改变方向162，确定第一参与者实体110和第一发声实体132之间的空间位置关系144如上所述。

依照一个示例性实施例，空间音频数据流可以包括与接收从第一发声实体发出的第一部分的听众感觉的提供相关的信息，基于第一参与者实体和第一发声实体之间的空间位置关系，其包括以下的一个或多个听众感觉：与第一参与者实体和第一发声实体之间的距离相关的听众感觉，与第一参与者实体和第一发声实体之间的位置差的方向相关的听众感觉，或者与环境声噪音相关的听众感觉，其中环境声噪音与靠近第一参与者实体或者第一发声实体的地理环境中的一个或多个对象相关（222）。例如，空间音频数据流158可以包括与接收从第一发声实体132发出的第一部分148的听众感觉的提供相关的信息，基于第一参与者实体110和第一发声实体132之间的空间位置关系144，其包括以下的一个或多个听众感觉：与第一参与者实体110和第一发声实体132之间的距离相关的听众感觉，与第一参与者实体110和第一发声实体132之间的位置差的方向相关的听众感觉，或者与环境声噪音相关的听众感觉，其中环境声噪音与靠近第一参与者实体110或者第一发声实体132的地理环境中的一个或多个对象相关，如上所述。

依照一个示例性实施例，可以启动第一部分的流的空间化，其基于启动生成空间音频数据流的一个或多个操作（224）。例如，空间化部件152可以基于启动生成空间音频数据流158的一个或多个操作来启动第一部分148的流的空间化。

依照一个示例性实施例，空间音频数据流可以包括与接收从第一发声实体发出的第一部分的听众感觉的提供相关的信息，其基于第一参与者实体和第一发声实体之间的空间位置关系（226）。

依照一个示例性实施例，可以从第一参与者实体获得第一听众焦点指示，基于以下的一个或多个：与关联于第一发声实体的名字相关的音频输入，指示对第一发声实体的选择的选择指示，与关联于第一参与者实体的第一身体部分的位置焦点相关的焦点的方向，与关联于第一参与者实体的第二身体部分的位置方位相关的焦点的方向，与关联于第一参与者实体的第三身体部分的运动相关的焦点的方向，或者与关联于第一参与者实体的用户装置的位置焦点相关的焦点的方向（228）。例如，焦点确定部件134可以经由装置处理器136从第一参与者实体110获得第一听众焦点指示138，基于以下的一个或多个：与关联于第一发声实体132的名字相关的音频输入170，指示第一发声实体132的选择172的选择指示，与关联于第一参与者实体110的第一身体部分的位置焦点相关的焦点174的方向，与关联于第一参与者实体110的第二身体部分的位置方位176相关的焦点174的方向，与关联于第一参与者实体110的第三身体部分的运动相关的焦点174的方向，或者与关联于第一参与者实体110的用户装置的位置焦点相关的焦点174的方向，如上所述。

依照一个示例性实施例，指示第一发声实体的选择的选择指示可以包括以下的一个或多个：指示对触摸显示器上显示的图标的选择的触摸输入、基于音频菜单的音频选择、或者基于显示的菜单上的选择激活的选择指示（230）。

依照一个示例性实施例，可以确定多个发声来源（232）。例如，群确定部件178可以确定多个发声来源108，如上所述。

依照一个示例性实施例，可以确定与多个发声来源的每一个相关的空间位置（234）。例如，群位置确定部件180可以确定与多个发声来源108的每一个相关的空间位置182，如上所述。

依照一个示例性实施例，可以确定包含在多个发声来源中的一个或多个虚拟参与者（236）。例如，虚拟参与者确定部件184可以确定包含在多个发声来源108中的一个或多个虚拟参与者186，如上所述。

依照一个示例性实施例，可以确定与一个或多个虚拟参与者相关的空间位置（238）。例如，群位置确定部件180可以确定与一个或多个虚拟参与者186相关的空间位置182，如上所述。

依照一个示例性实施例，可以启动与多个发声来源的每一个相关的空间位置的一个或多个的指示的传输（240）。例如，群位置传输部件188可以启动与多个发声来源108的每一个相关的空间位置182的一个或多个的指示的传输，如上所述。

依照一个示例性实施例，可以基于以下的一个或多个来确定与多个发声来源的第一个相关的第一发声实体：确定多个发声来源的第一个的地理位置，确定与关联于多个发声来源的第一个的装置客户端相关的帐号，基于语音识别操作确定多个发声来源的第一个的标识，基于触觉输入识别操作确定多个发声来源的第一个的标识，从多个发声来源的一个或多个接收多个发声来源的第一个的标识的指示，或者从第一参与者实体接收多个发声来源的第一个的标识的指示（242）。例如，音频来源确定部件130可以基于以下的一个或多个来确定与多个发声来源108的第一个相关的第一发声实体132：确定多个发声来源108的第一个的地理位置164，确定与关联于多个发声来源108的第一个的装置客户端相关的帐号，基于语音识别操作确定多个发声来源108的第一个的标识，基于触觉输入识别操作确定多个发声来源108的第一个的标识，从多个发声来源108的一个或多个接收多个发声来源108的第一个的标识的指示，或者从第一参与者实体110接收多个发声来源108的第一个的标识的指示，如上所述。

依照一个示例性实施例，可以获得包括与多个发声来源相关的会话音频数据的混合的音频数据的第一集合，音频数据的第一集合至少指向第一参与者实体（244）。例如，音频数据获取部件104可以获得音频数据106的第一集合，其包括与多个发声来源108相关的会话音频数据的混合，音频数据106的第一集合至少指向第一参与者实体110，如上所述。

依照一个示例性实施例，可以对会话音频数据的混合启动第一滤波操作，以增强与第一发声实体相关的第一会话，所述第一会话相对于会话音频数据中与除了多个发声来源的第一个之外的多个发声来源相关的另一部分而被增强（246）。例如，音频增强部件146可以对会话音频数据的混合启动第一滤波操作，以增强与第一发声实体132相关的第一会话，所述第一会话相对于会话音频数据中与除了多个发声来源108的第一个之外的多个发声来源108相关的另一部分而被增强，如上所述。

依照一个示例性实施例，可以基于一个或多个与头部有关的传递函数启动第一部分的流的空间化（248）。例如，空间化部件152可以基于一个或多个与头部有关的传递函数190启动第一部分148的流的空间化，如上所述。

依照一个示例性实施例，可以基于生成与第一部分相关的立体声音频流来启动第一部分的流的空间化（250）。例如，空间化部件152可以基于生成与第一部分148相关的立体声音频流来启动第一部分148的流的空间化，如上所述。

图3是依照示例性实施例，图示图1的系统的示例性操作的流程图。在图3的示例中，可以从第一参与者实体获得第一参与者焦点指示，其指示在第二参与者实体上的第一参与者实体的第一焦点（302）。例如，焦点确定部件134可以经由装置处理器136从第一参与者实体获得第一参与者焦点指示，其指示在第二参与者实体上的第一参与者实体的第一焦点，如上所述。

基于第一参与者焦点指示，可以获得与作为第一发声来源的第一参与者实体相关的音频数据集合的第一部分，第一部分指向第二参与者实体（304）。例如，音频数据获取部件104可以获得与发声来源108相关的音频数据106的第一集合，音频数据106的第一集合指向第一参与者实体110，如上所述。

可以确定第一参与者实体和第二参与者实体之间的空间位置关系（306）。例如，空间关系部件142可以确定第一参与者实体110和第一发声实体132之间的空间位置关系144，如上所述。

可以获得与作为第二发声来源的第三参与者实体相关的音频数据的集合的第二部分，第二部分指向第二参与者实体（308）。例如，音频数据获取部件104可以获得第二部分，如上所述。

可以对音频数据的集合启动第一滤波操作以增强第一部分，所述第一部分相对于音频数据的集合中与除了第一发声来源之外的一个或多个发声来源相关的另一部分而被增强，另一部分包括第二部分（310）。例如，音频增强部件146可以对音频数据106的第一集合启动第一滤波操作，以增强与第一发声实体132相关的音频数据106的第一集合的第一部分148，所述第一部分148相对于音频数据106的第一集合中与除了多个发声来源108的第一个之外的多个发声来源108相关的另一部分150而被增强，如上所述。

可以基于第一参与者实体和第二参与者实体之间的空间位置关系启动基于第二参与者位置收听感觉的第一部分的空间化（312）。例如，空间化部件152可以基于第一参与者实体110和第一发声实体132之间的空间位置关系144启动基于第二参与者位置收听感觉154的第一部分148的流的空间化，如上所述。

基于第一滤波操作和空间化，可以启动音频数据的第一空间流至第二参与者实体的传输（314）。例如，空间音频传输部件156可以基于第一滤波操作和空间化启动音频数据的空间流158至参与者实体110的传输，如上所述。

依照一个示例性实施例，可以基于相对于与第一参与者实体相关的当前位置的当前距离和方向来确定第一参与者实体和第二参与者实体之间的空间位置关系（316）。例如，空间关系部件142可以基于相对于与第一参与者实体110相关的位置164的当前距离160和方向162，来确定第一参与者实体110和第一发声实体132之间的空间位置关系144，如上所述。

图4是依照示例性实施例，图示图1的系统的示例性操作的流程图。在图4a的示例中，可以从第一参与者实体获得第一参与者焦点指示，其指示在第二参与者实体上的第一参与者实体的第一焦点（402）。例如，焦点确定部件134可以经由装置处理器136从第一参与者实体获得第一参与者焦点指示，其指示在第二参与者实体上的第一参与者实体的第一焦点，如上所述。

基于第一参与者焦点指示，可以获得与作为第一发声来源的第一参与者实体相关的音频数据集合的第一部分，第一部分指向第二参与者实体（404）。例如，音频数据获取部件104可以获得与发声来源108相关的音频数据106的第一集合，音频数据106的第一集合指向第一参与者实体110，如上所述。

可以确定第一参与者实体和第二参与者实体之间的第一空间位置关系（406）。例如，空间关系部件142可以确定第一参与者实体110和第一发声实体132之间的空间位置关系144，如上所述。

可以从第一参与者实体获得指示在第三参与者实体上的第一参与者实体的第二焦点的第二参与者焦点指示（408）。例如，焦点确定部件134可以经由装置处理器136从第一参与者实体获得在第三参与者实体上的第一参与者实体的第二焦点。

可以获得与作为第一发声来源的第一参与者实体相关的音频数据的集合的第二部分，第二部分指向第三参与者实体（410）。例如，音频数据获取部件104可以获得与作为第一发声来源的第一参与者实体相关的音频数据的集合的第二部分，第二部分指向第三参与者实体。

可以对音频数据的集合启动第一滤波操作以增强第一部分，所述第一部分相对于音频数据的集合的第一其他部分而被增强，第一其他部分与包括除了第一发声来源之外的至少一个发声来源的发声来源相关，第一其他部分包括第二部分（412）。例如，音频增强部件146可以对音频数据106的第一集合启动第一滤波操作，以增强与第一发声实体132相关的第一集合音频数据106的第一部分148，所述第一部分148相对于音频数据106的第一集合的另一部分150而被增强，另一部分150与除了多个发声来源108的第一个之外的多个发声来源108相关，如上所述。

可以基于第一参与者实体和第二参与者实体之间的空间位置关系启动基于第二参与者位置收听感觉的第一部分的第一空间化（414）。例如，空间化部件152可以基于第一参与者实体110和第一发声实体132之间的空间位置关系144启动基于第二参与者位置收听感觉154的、第一部分148的流的空间化，如上所述。

基于第一滤波操作和空间化，可以启动音频数据的第一空间流至第二参与者实体的传输（416）。例如，空间音频传输部件156可以基于第一滤波操作和空间化启动音频数据的空间流158至参与者实体110的传输，如上所述。

可以对音频数据的集合启动第二滤波操作以增强第二部分，所述第二部分相对于音频数据的集合的第二其他部分而被增强，第二其他部分与包括除了第一发声来源之外的至少一个发声来源的发声来源相关，第二其他部分包括第一部分（418）。例如，音频增强部件146可以对音频数据的集合启动第二滤波操作，以增强第二部分。

可以基于第一参与者实体和第三参与者实体之间的空间位置关系启动基于第三参与者位置收听感觉的第二部分的第二空间化（420）。例如，空间化部件152可以启动基于第三参与者位置收听感觉的、第二部分的第二空间化。

基于第二滤波操作和第二空间化，可以启动音频数据的第二空间流至第三参与者实体的传输（422）。例如，空间音频传输部件156可以基于第二滤波操作和第二空间化启动音频数据的空间流158至参与者实体110的传输，如以上第二讨论的。

依照一个示例性实施例，从第一参与者实体获得指示在第二参与者实体上的第一参与者实体的第一焦点的第一听众焦点指示138可以包括以下的一个或多个：接收与关联于第二参与者实体的名字相关的音频输入，确定指示第二参与者实体的选择的选择指示，确定与关联于第一参与者实体的第一身体部分的位置焦点相关的焦点的方向，确定与关联于第一参与者实体的第二身体部分的位置方位相关的焦点的方向，确定与关联于第一参与者实体的第三身体部分的运动相关的焦点的方向，或者确定与关联于第一参与者实体的用户装置的位置焦点相关的焦点的方向（424）。

依照一个示例性实施例，三维（3-D）空间化的（例如，立体声）音频可以用来提供直播通信流（例如，基于“鸡尾酒会”效应），以有助于通信参与者过滤和定位信息。例如，可以基于位于用户的口袋或者附接于他/她头部的装置中的传感器来估算他/她头部的角度。

本文论述的示例性技术可以利用3-D音频和/或触觉反馈作为用户接口的基础，来选择对于特定通信参与者要对给定集合中的哪些信息进行聚焦或者增强。

本文论述的示例性技术可以利用3-D音频来指示与用户的当前环境相关的环境信息（例如，空间注释，地理围栏（geofence）），以提供与关联于通信参与者的位置、方向和环境相关的信息。

本文论述的示例性技术可以利用3-D音频和/或触觉反馈来为用户提供用于查找位置或者查找彼此的信息。

本文论述的示例性技术可以提供可见的附属菜单（例如，结合3-D音频），用于选择哪些朋友/家庭要重新作为会话中有效的参与者。

本文论述的示例性技术可以利用被称为与头部有关的传递函数（HRTF）的数学模型，其可以包括人的头部（例如，尤其是双耳）的物理成分的参数化的简化。在单个声源中，HRTF可能产生偏移和频率改变，因为它是由人耳独立接收的。然后，人脑可以重建3-D效果（例如，同时，大脑可以处理正常出现的声音）。

可以持续正常会话，即使该会话是非活动的。因此，用户可能希望指示期望的听众参与者，他们希望与这些参与者在不同时间点进行讲话。因此，依照示例性实施例，用户可以基于音频选择、触摸选择或者方向选择的一个或多个来选择听众。

依照一个示例性实施例，可以将用户社交网络上的“朋友”直接加入会话（即，不用知道用于拨号的7个或10个数字号码或者全部名字）。因此，可以通过读出开始于接受者名字的句子、并且然后适当地路由消息来启动声音选择。对于这样的通信，可以为低置信度匹配延迟传输。在此情况下，可以缓冲音频，并且在发声之后（例如，在.传输之前）可以请求确认请求。当置信度足够高时，可以毫不延迟地传输通信。

依照一个示例性实施例，触摸选择可以是基于触摸显示器上的朋友的名字或者图标，并且交谈可以启动消息的传输和路由。

依照一个示例性实施例，触摸的持续时间可以指示分割消息的请求，以避免拖尾噪声。例如，单个短暂触摸（例如，小于1秒的持续时间）可以激活记录，用沉默检测来去激活（de-active）记录行为。

依照一个示例性实施例，持续触摸可以提供记录的更加精细的控制。例如，触摸可被用来激活记录，并且触摸的解除可以去激活记录行为。

依照一个示例性实施例，短暂和持续的触摸操作都可被用来指示记录音频数据的持续时间。

依照本文论述的示例性实施例，方向选择可以指示哪些参与者可被包括在有效的会话中。例如，给定有效会话的小的集合以及休眠会话的较大集合，参与者可以通过观测与空间化音频的方向相匹配的方向提示，在有效的会话中间进行选择。例如，如果第一会话参与者对着第二会话参与者的左耳进行交谈，那么向左转可以指示第二会话参与者正在向会话中的第一会话参与者发言。

然而，参与者可能向左转，因为他/她的身体导航动作绕了个拐角。因此，可以从有意的旋转中分析出步行/驾驶运动。此外，经由位于用户头部上而不是包括在移动电话中的传感器可以更好地感知这样的运动。因此，可以经由参与者身体（例如，不仅仅是参与者的头部）的转动来感知朝向另一参与者的运动。

此外，对于超过特定数量的有效会话（例如，6个会话）来说，可能难以确定这样的方向选择。因此，依照一个示例性实施例，听觉菜单可被用来选择有效的参与者。依照一个示例性实施例，可以基于该选择来提供音频反馈（例如，以确保选择的精确度）。例如，该系统可以以接受者名字形式提供音频反馈（例如，除非会话是正在进行的会话中的直接响应）。

依照一个示例性实施例，临时缓冲可被用于异步功能。例如，如果接受者不能接收的话，发送者电话可以将音频缓冲相对小、预定的有限时段。在预定时段之后，可以将缓冲的音频上传到云或者传输给接受者。在另一端，如果接受者还没准备好进行收听，接受者可以缓冲输入的音频。

依照一个示例性实施例，在预定量的时间过去后，可以将高速缓存的音频转换成副本和倒带（基于用户服务条件合同中的用户许可），从而降低带宽和存储成本。

依照一个示例性实施例，自适应算法考虑最近的过去以及会话模式来帮助预测系统何时检测新的音频数据，更加频繁或更不频繁（例如，以助于有效使用诸如CPU和电池电源的系统资源）。

依照一个示例性实施例，在记录空间音频时可以对其进行压缩，以保存带宽。

依照一个示例性实施例，可以将空间化提示，例如说话者的3-D位置和方位，发送给服务器，以在为接收新的数据而唤醒电话前，确定任何改变的潜在意义，如果没有有效的语音信息，未引起注意的延迟对于以适度频率发送来说是重要的。

本文论述的示例性技术可以混合和保存多个空间化的音频流，其可以涵盖从同步（例如，全双工会话，包括群）到异步，以便用户在任一点可以 “取消”（scrub）会话、收听、加速和/或评论。这种技术可以包括客户端和服务器处理的组合，以实现音频信息的适时及可靠传输。例如，用户可以生成为了听众参与者稍后收听而可至少部分地记录的消息。

依照一个示例性实施例，当听众参与者收听消息时，他/她可以在消息的不同点提供反馈，作为该消息不同特征的响应或者评论（例如，音频消息的内部评论）。例如，该消息的原始发送者可以以内部音频评论的形式接收反馈，以便原始发送者可以知道接受者的评论/反馈所涉及的是哪部分。

依照一个示例性实施例，当听众参与者收听消息时，他/她可以加快记录的重放，以向前跳到该消息的其他部分（例如，无需以消息的原始发送者记录的原始速度收听全部的消息）。

依照一个示例性实施例，如果听众参与者收听消息，同时原始发送者仍在记录消息的最新部分，则听众参与者可以“取消（scrub）”，或者向前跳过消息，并且最终，听众参与者可以在原始发送者当前记录的地方插入消息中，以启动原始发送者和听众参与者之间的直播会话（例如，不用再收听记录）。因此，基于“取消”行为，空间音频消息传输可以从异步切换到同步模式。

图5描述了与图1的系统交互的示例。如图5所示，选择性的空间音频通信系统102可以获得与多个发声来源108相关的音频数据106的第一集合，音频数据106的第一集合指向第一参与者实体110。例如，多个发声来源108可以包括第一发声参与者502，第二发声参与者504和第三发声参与者506。例如，第一参与者实体110可以包括名为“Jim”或者“爸爸”的第一听众实体508（如图5所示）。

如图5所示，基于 “Jim”的音频提及，或者基于选择（例如，当她开始说话时实际地将她的头部转向第一听众实体508），第一发声参与者502可以选择“Jim”作为会话的焦点。例如，第一听众实体508可以从第一发声参与者502以立体声格式接收空间音频数据，以致于第一听众实体508以说话者正位于第一听众实体508的身后且靠左的听众感觉来听取接收的空间音频数据。

同样，第一听众实体508可以从第二发声参与者504以立体声格式接收空间音频数据，以致于第一听众实体508以说话者在不同房间内正位于第一听众实体508前面且靠左的听众感觉来听取接收的空间音频数据。例如，听众感觉可以提供绕过导航障碍（例如，墙壁）的指引效果，以在通向第二发声参与者504的路径上对第一听众实体508进行动态地指引。例如，第二发声参与者504可以包括虚拟参与者。例如，可以将从第二发声参与者504发出的会话排除在群会话音频数据的混合之外，该群会话音频数据的混合是从位于相同地理场所的一群参与者处获得的。

同样，第一听众实体508可以从第三发声参与者506以立体声格式接收空间音频数据，以致于第一听众实体508以说话者正在不同房间内位于第一听众实体508前面且稍微靠左的听众感觉来听取接收的空间音频数据。例如，该听众感觉可以提供绕过导航障碍（例如，墙壁）指引的效果，以在通向第三发声参与者506的路径上对第一听众实体508进行动态地指引。

例如，可以将音频数据传输到第一听众实体508，作为从发声参与者502，504，506提供的会话的会话混合，或者可以将音频数据以独立流的形式进行传输。例如，第一听众实体508可以选择他在特定时间希望听取哪个（些）发声参与者502，504，506。

如图5所示，第一听众实体508还可以包括发声实体。例如，第一听众实体508可以通过选择名为“Jake”的第二听众实体510而发起会话。例如，第一听众实体508可以基于将他的头部定位成看着“Jake”以及然后开始他与“Jake”的会话，来选择“Jake”作为听众。例如，当“Jim”跟“Jake”说话时将注意焦点转向“Jake”的动作可以表示静音“Jim”从发声参与者502，504，506接收的会话的愿望。例如，可以记录“Jim” 可从发声参与者502，504，506接收到的会话，直到“Jim”发信号表示收听的期望。因此，会话可以是同步或者异步的。

如图5所示，第四发声参与者512可以启动与第三听众实体514的会话。如果希望，可以与房间516（或者其他期望的会话群）内的所有会话参与者共享（例如，使他们可以获得）该会话。

图6依照示例性实施例描述了与图1的系统进行交互的示例。如图6所示，用户装置602可以包括指示参与者604面向实体606的显示器。例如，参与者604可以加入与位于对应于实体606的位置的另一个参与者的会话。如图6所示，波纹608可以表示正由另一个参与者传输的新的音频数据。例如，参与者604可以通过将他/她的头部向右转（在新的音频数据的突出方向上）或者通过触摸显示器上的波纹608，来提供选择接收新的音频数据的指示，以选择新的数据作为他新的听众注意焦点。

因此，本文论述的示例性技术可以提供选择性的空间音频通信。

多年来，用户私密性和机密性都一直是数据处理环境中的考虑。因此，用于确定选择性的空间音频通信的示例性技术可以使用由用户提供的数据，该用户经由一个或多个签约协议（例如，“服务条件”（TOS）协议）向与选择性的空间音频通信相关的相关应用或服务提供了许可。例如，所有方都可以提供进行记录的允诺，尽管其可以明确地指示出（经由用户接受的文本协议）每一方可以控制记录如何发生，以及，如果有的话，将保持纪录在何种级别或者持续时间。

本文描述的各种技术的实现方法可以实现在数字电子电路中、计算机硬件、固件、软件中，或者它们的组合中。这些实现方法可以实现为计算机程序产品，即，实体地编入信息载体或者传播信号中的计算机程序，以供数据处理设备执行或者以控制数据处理设备，信息载体例如是，机器可用或机器可读存储装置（例如，磁或者数字媒介，例如通用串行总线（USB）存储装置、磁带、硬盘驱动器、光盘、数字化视频盘（DVD）等），数据处理设备例如是可编程处理器、计算机、或者多个计算机。可以以编程语言的任何形式编写计算机程序，例如如上所述的计算机程序，程序语言包括汇编或者解释语言，并且可以以任何形式配置计算机程序，包括作为独立程序或者作为模块、部件、子程序，或者适于在计算环境中使用的其他单元。可以实现上述技术的计算机程序可被配置为在一个计算机或者多个计算机上执行，所述计算机在一个位置上或者分散在多个位置上并且通过通信网络进行互连。

可以通过执行计算机程序的一个或多个可编程处理器执行方法步骤，以通过对输入数据进行操作且产生输出来实现功能。一个或多个可编程处理器可以并行地执行指令，和/或被安排成采用分布式配置以进行分布式处理。还可以通过专用逻辑电路，例如FPGA（现场可编程门阵列）或者ASIC（专用集成电路）来执行方法步骤，并且设备也可以实现为专用逻辑电路。

适用于执行计算机程序的处理器包括，例如，通用和专用微处理器两者，以及任意类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或者随机存取存储器或者两者接收指令和数据。计算机的元件可以包括用于执行指令的至少一个处理器以及用于存储指令和数据的一个或多个存储装置。通常，计算机还可以包括用于存储数据的一个或多个大容量存储装置，例如，磁盘，磁光盘或者光盘，或者可操作地耦接以从大容量存储装置接收数据或者将数据传输到大容量存储装置，或者上述接收和传输两者。适用于编入计算机程序指令和数据的信息载体包括所有形式的非易失性存储器，举例来说，包括半导体存储装置，例如，EPROM，EEPROM和闪速存储装置；磁盘，例如，内部硬盘或者可移动盘；磁光盘；和CD ROM及DVD-ROM盘。处理器和存储器还可以被辅以专用逻辑电路或者被并入专用逻辑电路。

为了提供与用户的交互，可以在具有显示装置、键盘和指示装置的计算机上实现这些实现方式，显示装置例如是阴极射线管（CRT）或者液晶显示器（LCD）监视器，用于给用户显示信息，键盘和指示装置例如是鼠标或者轨迹球，通过这些用户可以为计算机提供输入。其他类型的装置也可用来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈、或者触觉反馈；并且，可以以任何形式接收来自用户的输入，包括声音、语音、或者触觉输入。

可以在计算系统中实现这些实现方式，计算系统包括后端部件，例如作为数据服务器，或者包括中间件部件，例如应用服务器，或者包括前端部件，例如，具有图形用户界面或者网络浏览器的客户端计算机（通过该图形用户界面或者网络浏览器用户可以与实现方式进行交互），或者这样的后端、中间件或者前端部件的任意组合。这些部件可以通过数字数据通信的任意形式或媒介互连，例如通信网络。通信网络的示例包括局域网（LAN）和广域网（WAN），例如，因特网。

尽管已经以具体到结构特征和/或方法动作的语言描述了本主题，但是应当理解的是，在附加的权利要求中所定义的主题没有必要局限于如上所述的具体特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式而公开的。虽然所描述的实现方式的某些特征被示例为这里描述的样子，但是对于本领域技术人员来说，将会想到众多修改、置换、改变及等价物。因此，应当了解到，所附的权利要求预期覆盖落入实施例范围的所有这些修改和改变。

Claims

1.一种系统，包括：

音频数据获取部件（104），其获得与多个发声来源（108）相关的音频数据（106）的第一集合，所述音频数据（106）的第一集合指向第一参与者实体（110）；

音频来源确定（130）部件，其确定与多个发声来源（108）的第一个相关的第一发声实体（132）；

焦点确定部件（134），其经由装置处理器（136）从所述第一参与者实体（110）获得第一听众焦点指示（138），所述第一听众焦点指示（138）指示在所述第一发声实体（132）上的第一听众焦点（140）；

空间关系部件（142），其确定所述第一参与者实体（110）和所述第一发声实体（132）之间的空间位置关系（144）；

音频增强部件（146），其对所述音频数据（106）的第一集合启动第一滤波操作，以增强所述音频数据（106）的第一集合中与所述第一发声实体（132）相关的第一部分（148），所述第一部分（148）相对于所述音频数据（106）的第一集合中与除了所述多个发声来源的第一个之外的多个发声来源（108）相关的另一部分（150）而被增强；

空间化部件（152），其基于所述第一参与者实体（110）和所述第一发声实体（132）之间的空间位置关系（144）启动基于第一参与者位置收听感觉（154）的第一部分（148）的流的空间化；以及

空间音频传输部件（156），其基于所述第一滤波操作和所述空间化，启动音频数据（106）的空间流（158）至所述第一参与者实体（110）的传输。

2.如权利要求1所述的系统，其中：

所述空间关系部件（142）基于相对于与第一参与者实体（110）相关的当前位置（164）的当前距离（160）和方向（162）确定所述第一参与者实体（110）和所述第一发声实体（132）之间的空间位置关系（144）。

3.如权利要求1所述的系统，其中：

所述空间关系部件（142）基于相对于与第一参与者实体（110）相关的当前位置（164）的当前导航距离（166）和导航方向（168）确定所述第一参与者实体（110）和所述第一发声实体（132）之间的空间位置关系（144）。

4.如权利要求1所述的系统，其中：

所述空间关系部件（142）基于相对于与第一参与者实体（110）相关的位置（164）的动态改变距离和动态改变方向确定所述第一参与者实体（110）和所述第一发声实体（132）之间的空间位置关系（144）。

5.如权利要求4所述的系统，其中：

所述空间音频数据流（158）包括与接收从所述第一发声实体（132）发出的第一部分（148）的听众感觉的提供相关的信息，其基于所述第一参与者实体（110）和所述第一发声实体（132）之间的空间位置关系（144），所述听众感觉包括以下的一个或多个：

与所述第一参与者实体和所述第一发声实体之间的距离相关的听众感觉，

与所述第一参与者实体和所述第一发声实体之间的位置差的方向相关的听众感觉，或者

与环境声噪音相关的听众感觉，所述环境声噪音与地理环境中靠近所述第一参与者实体或者第一发声实体的一个或多个对象相关。

6.如权利要求1所述的系统，其中：

所述焦点确定部件（134）经由所述装置处理器（136）从所述第一参与者实体（110）获得第一听众焦点指示（138），基于以下的一个或多个：

与关联于所述第一发声实体（132）的名字相关的音频输入（170），

指示所述第一发声实体（132）的选择（172）的选择指示，

与关联于所述第一参与者实体（110）的第一身体部分的位置焦点相关的焦点（174）的方向，

与关联于所述第一参与者实体（110）的第二身体部分的位置方位相关的焦点（174）的方向，

与关联于所述第一参与者实体（110）的第三身体部分的运动相关的焦点（174）的方向，或者

与关联于所述第一参与者实体（110）的用户装置的位置焦点相关的焦点（174）的方向。

7.如权利要求6所述的系统，其中：

指示所述第一发声实体（132）的选择的选择指示包括以下的一个或多个：

指示在触摸屏显示器上显示的图标的选择的触摸输入，

基于音频菜单的音频选择，或者

基于在显示的菜单上的选择激活的选择指示。

8.一种计算机程序产品，其可实体地包含在计算机可读存储媒介上，并且包括可执行代码，使得至少一个数据处理设备：

从第一参与者实体（110）获得（302）指示在第二参与者实体上的第一参与者实体（110）的第一焦点的第一参与者焦点指示；

基于第一参与者焦点指示，经由装置处理器（136），获得（304）与作为第一发声来源（108）的第一参与者实体（110）相关的音频数据（106）的集合的第一部分（148），所述第一部分（148）指向第二参与者实体；

确定（306）第一参与者实体（110）和第二参与者实体之间的空间位置关系（144）；

经由所述装置处理器（136），获得（308）与作为第二发声来源的第三参与者实体相关的音频数据（106）的集合的第二部分，第二部分指向第二参与者实体；

启动（310）对音频数据（106）的集合的第一滤波操作，以增强所述第一部分（148），所述第一部分相对于音频数据（106）的集合与除了第一发声来源之外的一个或多个发声来源（108）相关的另一部分（150）而被增强，所述另一部分（150）包括第二部分；

基于所述第一参与者实体（110）和所述第二参与者实体之间的空间位置关系（144），启动（312）基于第二参与者位置收听感觉（154）的第一部分（148）的空间化；以及

基于所述第一滤波操作和所述空间化，启动（314）音频数据（106）的第一空间流（158）至第二参与者实体的传输。

9.一种方法，包括：

从第一参与者实体（110）获得（402）指示在第二参与者实体上的第一参与者实体（110）的第一焦点的第一参与者焦点指示；

基于第一参与者焦点指示，经由装置处理器（136），获得（404）与作为第一发声来源（108）的第一参与者实体（110）相关的音频数据（106）的集合的第一部分（148），所述第一部分（148）指向第二参与者实体；

确定（406）第一参与者实体（110）和第二参与者实体之间的空间位置关系（144）；

从第一参与者实体（110）获得（408）指示在第三参与者实体上的第一参与者实体的第二焦点的第二参与者焦点指示；

经由所述装置处理器（136）获得（410）与作为第一发声来源（108）的第一参与者实体（110）相关的音频数据（106）的集合的第二部分，所述第二部分指向第三参与者实体；

启动（412）对音频数据（106）的集合的第一滤波操作，以增强所述第一部分（148），所述第一部分相对于音频数据（106）的集合中与包括除了第一发声来源之外的至少一个发声来源的发声来源（108）相关的第一其他部分而被增强，所述第一其他部分包括第二部分；

基于所述第一参与者实体（110）和所述第二参与者实体之间的空间位置关系（144），启动（414）基于第二参与者位置收听感觉（154）的第一部分（148）的第一空间化；

基于所述第一滤波操作和所述空间化，启动（416）音频数据的第一空间流（158）至第二参与者实体的传输；

启动（418）对音频数据（106）的集合的第二滤波操作，以增强所述第二部分，所述第二部分相对于音频数据（106）的集合中与包括除了第一发声来源之外的至少一个发声来源的发声来源（108）相关的第二其他部分而被增强，所述第二其他部分包括第一部分（148）；

基于所述第一参与者实体（110）和所述第三参与者实体之间的空间位置关系（144），启动（420）基于第三参与者位置收听感觉（154）的第二部分的第二空间化；以及

基于所述第二滤波操作和所述第二空间化，启动（422）音频数据的第二空间流（158）至所述第三参与者实体的传输。

10.如权利要求9所述的方法，其中：

从第一参与者实体（110）获得（424）指示在第二参与者实体上的第一参与者实体（110）的第一焦点的第一参与者焦点指示包括以下的一个或多个：

接收与关联于所述第二参与者实体的名字相关的音频输入，

确定指示第二参与者实体的选择（172）的选择指示，

确定与关联于所述第一参与者实体（110）的第一身体部分的位置焦点相关的焦点（174）的方向，

确定与关联于所述第一参与者实体（110）的第二身体部分的位置方位相关的焦点（174）的方向，

确定与关联于所述第一参与者实体（110）的第三身体部分的运动相关的焦点（174）的方向，或者

确定与关联于所述第一参与者实体（110）的用户装置的位置焦点相关的焦点（174）的方向。