CN104765444A

CN104765444A - 车载手势交互空间音频系统

Info

Publication number: CN104765444A
Application number: CN201510002271.5A
Authority: CN
Inventors: J.E.纳曼; D.迪森索; S.马蒂
Original assignee: Crown Audio Inc
Current assignee: Harman International Industries Inc; Crown Audio Inc
Priority date: 2014-01-03
Filing date: 2015-01-04
Publication date: 2015-07-08
Anticipated expiration: 2035-01-04
Also published as: CN105874408B; US20160320847A1; JP6553052B2; EP2891955B1; US10126823B2; EP3090321A1; EP2891955A1; US20150193197A1; JP2015143987A; US10585486B2; WO2015103439A1; EP3090321A4; CN104765444B; JP2017509181A; CN105874408A; JP6494286B2

Abstract

本发明的一个实施方案阐述了一种基于手势来修改音频参数的技术。所述技术包括获取与用户的手部相关联的传感器数据，以及分析所述传感器数据来确定至少一个手部位置。所述技术还包括基于所述至少一个手部位置来确定对应于音频事件的第一虚拟对象与对应于所述用户的所述手部的第二虚拟对象之间的交互。所述技术还包括基于所述交互来修改与所述音频事件相关联的空间音频参数，以便生成修改过的音频流，以及使所述修改过的音频流重现来输出到用户。

Description

车载手势交互空间音频系统

相关申请的交叉引用

本申请要求2014年1月3日提交并且代理人案号为HRMN/0078USL的序列号为61/923,560的美国临时专利申请，以及2014年1月3日提交并且代理人案号为HRMN/0080USL的序列号为61/923,571的美国临时专利申请的权益。这些相关申请的主题据此以引用方式并入本文。

技术领域

本发明的实施方案总体上涉及音频信号处理，并且更具体来说涉及一种车载手势交互空间音频系统。

背景技术

如导航系统、通信设备和媒体播放器的电子设备的使用在日常生活的所有方面变得越来越流行。这类设备为用户提供了对信息内容的便利访问，所述信息内容如导航指令和媒体内容，如音乐、新闻和播客。另外，这类设备为用户提供了对广泛范围的通信服务的访问，这些通信服务中的许多服务使得用户能够利用音频、视频和/或文本接口彼此交互。

电子设备的用户时常遇到的一个问题会在电子设备为这个设备的用户同时重现多个音频事件时发生。例如，在同一设备上操作多个软件应用程序(例如，多重任务处理)的用户可能难以将由一个软件应用程序所生成的音频内容与由另一个软件应用程序所生成的音频内容进行区分。因此，在一些情形下，用户可能不知道哪些声音是与哪个软件应用程序相关联的，和/或用户可能会由于多个音频事件的同时呈现而分心，从而会抑制用户有效地与具体软件应用程序交互的能力。另外，通过通信服务与一个或多个人员交谈而同时又使用单独的软件应用程序(例如，媒体播放器)的用户可能难以在单独音频事件(例如，音乐)重现时关注对话。

如前述说明，使得用户能够更加有效地聆听音频事件的技术将是有用的。

发明内容

本发明的一个实施方案阐述一种基于手势来修改音频参数的方法。所述方法包括获取与用户的手部相关联的传感器数据，以及分析所述传感器数据来确定至少一个手部位置。所述方法还包括基于所述至少一个手部位置来确定对应于音频事件的第一虚拟对象与对应于所述用户的所述手部的第二虚拟对象之间的交互。所述方法还包括基于所述交互来修改与所述音频事件相关联的空间音频参数，以便生成修改过的音频流，以及使所述修改过的音频流重现来输出到用户。

另外的实施方案尤其提供被配置来实现以上阐述方法的系统和非暂时性计算机可读介质。

所公开技术的至少一个优势在于，它使得用户能够修改虚拟声音空间内正在重现音频事件的位置。例如，用户可以与立体显示器交互来抓取与音频事件相关联的虚拟对象，并且将虚拟对象重新定位在虚拟三维空间内的所需位置处。另外，当用户与音频事件交互时，视觉、听觉和/或触觉反馈可以被提供给用户(例如，通过立体显示器提供)。因此，音频事件可以被重新定位在声音空间内，从而使得用户能够更加有效地同时聆听多个音频事件和/或与多个音频事件交互。

附图说明

因此，使本发明的上述特征可得到详细理解的方式，即对以上简要概述的本发明的更具体描述可参照实施方案来获得，实施方案中的一些在附图中示出。然而，应指出的是，附图只示出本发明的典型实施方案，并因此不视为对本发明范围的限制，因为本发明可承认其它同等有效的实施方案。

图1A示出根据各种实施方案的用于辨别用户手势并修改音频流的空间音频参数的手势交互空间音频系统(“手势系统”)；

图1B示出根据各种实施方案的用户通过一个或多个手势来与图1A的手势系统交互，以便修改空间音频参数；

图1C示出根据各种实施方案的音频事件的空间音频参数由图1A的手势系统响应于分裂手势而得以修改；

图2为根据各种实施方案的可以结合图1A的手势系统来实现或耦接至图1A的手势系统的计算设备的方框图；

图3示出根据各种实施方案的用户在汽车环境中与图1A的手势系统交互；

图4A至图4C示出根据各种实施方案的用户与图1A的手势系统交互，以便重新定位由通信服务生成的音频事件；

图5A至图5E示出根据各种实施方案的用户与虚拟对象交互，以便重新定位音频事件；

图6A示出根据各种实施方案的两个用户与单独的手势系统交互，以便在两个不同的声音空间之间传递音频事件；

图6B示出根据各种实施方案的两个用户与单个手势系统交互，以便在两个不同的声音空间之间传递音频事件；

图7A和图7B示出根据各种实施方案的可以结合图1A的手势系统来实现的立体显示器；

图8A至图8E示出根据各种实施方案的用户与立体显示器交互，以便重新定位音频事件；

图9为根据各种实施方案的基于手势来修改音频参数的方法步骤的流程图；以及

图10为根据各种实施方案的基于虚拟对象的定位来修改音频参数的方法步骤的流程图。

具体实施方式

在以下描述中，阐述了许多特定细节以提供对本发明的实施方案的更全面理解。然而，本领域技术人员将明白的是，本发明的实施方案可在没有这些特定细节中的一个或多个细节的情况下加以实施。

图1A示出根据各种实施方案的用于辨别用户手势并修改音频流的空间音频参数的手势交互空间音频系统100(“手势系统100”)。手势系统100包括一个或多个传感器140。传感器140被配置来获取与用户做出的手势相关联的数据，和/或获取使得手势系统100能够跟踪用户相对于他或她的环境的位置和/或方位的数据。传感器140可以被配置来获取用户的手部、手臂和/或手指的图像，如图1B所示，图中示出根据各种实施方案的用户通过一个或多个手势来与图1A的手势系统100交互，以便修改空间音频参数。在一些实施方案中，传感器140包括视觉传感器，如摄像机。另外，在一些实施方案中，传感器140包括超声传感器、雷达传感器、激光传感器、热传感器和/或深度传感器，如飞行时间(time-of-flight)传感器、结构光传感器等。

在一些实施方案中，传感器140被配置来检测用户空手做出的一个或多个手势，并且响应于手势来修改与音频流相关联的一个或多个音频参数。在这类实施方案中，分析传感器140所获取的数据来确定用户指尖、关节、手部、手腕和/或手臂的位置。例如并且无限制地，如图1B所示，可以由分析传感器140所获取的数据来确定用户的手指正在形成‘V’形手部位置(例如，通过使用食指和中指或者任何其它手指组合来摆出字母V)。然后，响应于‘V’形手部位置，手势系统100可以使一个或多个音频事件移动到(例如，分裂到)虚拟声音空间的侧面。

特定实例展示于图1C中，图中示出根据各种实施方案的音频事件的空间音频参数由图1A的手势系统100响应于分裂手势而得以修改。如图所示，当用户通过通信服务对两个人讲话时，手势系统100可以检测到已经做出的分裂手势(例如，基于检测‘V’形手部位置)，并且作为响应使与第一人员的语音相关联的第一音频事件移动到声音空间的一侧，并使与第二人员的语音相关联的第二音频事件移动到声音空间的另一侧。另外，分裂手势可以用来将其它类型的音频事件(例如，音乐、播客、通知等)移动到声音空间的侧面。此外，在一些实施方案中，其它类型的手势可以用来在声音空间内均匀地分布音频事件，从而根据预定样式在声音空间内分布音频事件，以便使音频事件从多个位置进行播放，和/或使一个或多个音频事件静音。

在一些实施方案中，传感器140被配置来通过跟踪附接到用户的另一设备的位置，以便检测由用户做出的一个或多个手势。例如并且无限制地，可以跟踪耦接至用户手臂的一个或多个设备的位置，以便检测用户正在做出的手势。尽管图1A和图1B中展示两个传感器140，但是定位于手势系统100中任何位置上的任何数量的传感器140都可以用来检测用户手势。在一些实施方案中，至少两个传感器140包括在手势系统100中，以便使得能够获取立体图像并且因此允许更加精确地确定用户手指、手部、手臂等的深度。在其它实施方案中，使用捕获图像、获取深度测量值、计算位置等的单个传感器来检测手势。另外，在各种实施方案中，传感器140可以定位在不同于设备主体102的对象上，其中传感器140被设置在如车辆的内部和/或外部表面上，和/或耦接至用户，如耦接至一幅眼镜上、手表上、可配戴设备上、用户的身体上(例如，Thalmic Labs^TM提供的手臂配戴式Myo^TM)等。

图2为根据各种实施方案的可以结合图1A的手势系统100来实现或耦接至图1A的手势系统的计算设备200的方框图。如图所示，计算设备200包括处理单元210、输入/输出(I/O)设备220和存储设备230。存储设备230包括被配置来与数据库234交互的应用程序232。

扬声器130被配置来重现音频流，如多通道音频流，其由与手势系统100整合或耦接至手势系统100的电子设备加以输出。例如并且无限制地，扬声器130可包括两个或更多个扬声器，所述扬声器能够在声音空间内的特定位置处呈现音频流中所包括的音频事件(例如，语音、通知、音乐、导航方向等)。在一些实施方案中，多个扬声器分布在环境(例如，车厢)内，以便在声音空间中的特定位置处呈现音频事件。在相同或其它实施方案中，音频信号处理技术可以用来使用两个或更多个扬声器在声音空间中的特定位置处虚拟地呈现音频事件。

处理单元210可包括中央处理单元(CPU)、数字信号处理单元(DSP)等。在各种实施方案中，处理单元210被配置来分析由传感器140所获取的传感器数据，以便检测用户手势和/或确定用户相对于车辆环境的位置和/或方位。另外，处理单元210可以被配置来修改与由手势系统100输出到扬声器130的音频流相关联的空间音频参数。例如并且无限制地，处理单元210可以执行应用程序232，所述应用程序处理音频流中所包括的一个或多个音频事件，以便在由扬声器130所产生的声音空间中的特定位置处呈现音频事件。

在各种实施方案中，处理单元210对传感器140所获取的数据进行分析，以便检测用户已经做出的一个或多个手势。然后，响应于检测到手势，处理单元210修改手势系统100正在重现的音频流的空间音频参数。例如并且无限制地，处理单元210可以修改空间音频参数，以便修改声音空间内的音频事件的感知位置。在一些实施方案中，处理单元210基于双耳线索(例如，耳间时差、耳间强度差)、频谱线索、动态范围线索、头部相关的转移功能(例如，描述声波如何与听者身体交互的空间滤波器)、回响等来修改音频流的空间音频参数。例如并且无限制地，处理单元210可以基于与用户耳朵、耳道和/或头部的形状相关联的一个或多个参数来处理音频流，以便增加重现音频事件的角度分辨率。在相同或其它实施方案中，处理单元210通过修改以下来修改音频流的空间音频参数：哪些扬声器130正在重现音频事件，和/或由扬声器130中的一个或多个扬声器重现音频事件的级别。例如并且无限制地，处理单元210可以通过增加和/或降低某些扬声器130正在重现音频事件的级别，以便修改声音空间内的音频事件的感知位置。在一些实施方案中，音频信号处理由处理单元210通过如OpenAL的中间件加以执行。

I/O设备220可包括输入设备、输出设备以及能够接收输入并提供输出的设备。例如并且无限制地，I/O设备220可包括有线和/或无线通信设备，其发送数据到手势系统100中所包括的传感器140和/或耦接至手势系统100的扬声器130，和/或从传感器140和/或扬声器130接收数据。此外，在一些实施方案中，I/O设备220包括一个或多个有线或无线通信设备，其接收(例如，通过网络，如局域网和/或互联网来接收)将由扬声器130所重现的音频流。另外，如下文结合图7A和图7B进一步详细描述的，I/O设备220可包括立体显示器，所述立体显示器使得用户能够查看并修改声音空间内正在重现音频事件的位置。

存储单元230可包括存储模块或存储模块的集合。存储单元230内的软件应用程序232可以由处理单元210执行来实现计算设备200的整体功能，并且因此将手势系统100的操作进行总体协调。数据库234可以存储数字信号处理算法、音频流、手势辨别数据、立体显示器数据等。

计算设备200总体上可以是微处理器、特殊应用集成电路(ASIC)、系统级芯片(SoC)、如平板计算机或手机的移动计算设备、媒体播放器等。一般来说，计算设备200可以被配置来协调手势系统100的整体操作。在其它实施方案中，计算设备200可以耦接至手势系统100但与手势系统100分开。在这类实施方案中，手势系统100可包括单独的处理器，它从计算设备200接收数据(音频流)并传输数据(传感器数据)到计算设备200，所述计算设备200可包括在消费者电子设备中，所述消费者电子设备如车辆主机单元(head unit)、导航系统、智能电话、便携式媒体播放器、个人计算机等。然而，本文所公开的实施方案涵盖被配置来实现手势系统100的功能性的任何技术上可行的系统。

图3示出根据各种实施方案的用户在汽车环境中与图1A的手势系统100交互。如上所述，音频流中包括的音频事件可以(例如，通过处理单元210)加以处理，以便在由扬声器130所产生的声音空间中的特定位置处呈现音频事件。例如并且无限制地，如图所示，处理单元210可以修改与环境音频源(例如，音乐)和点音频源(例如，语音电话)相关联的空间音频参数，以便呈现声音空间左侧上的环境音频源和声音空间右侧上的点音频源。尽管图3中展示五个扬声器130，但是在其它实施方案中，两个或更多个扬声器130可以用来在聆听环境中产生二维或三维声音空间。

如上文所述，手势系统100检测由用户做出的手势，并且作为响应来修改扬声器130所重现的音频流的一个或多个参数。在某些实施方案中，用户做出一个或多个手势来选择性地在声音空间内重新定位一个或多个人员的语音。特定实例展示于在图4A至图4C中，图中示出根据各种实施方案的用户与图1A的手势系统100交互，以便重新定位由通信服务所生成的音频事件。

如图4A所示，最初(例如，当发起语音电话时)，用户正与之讲话的人员的语音可以从声音空间内的类似或相同位置进行呈现。然后，用户可以将他或她的手部移动到与语音相关联的位置，并且与对应于每个语音的虚拟对象交互，以便使语音在声音空间内重新定位。例如并且无限制地，如图4B和图4C所示，用户可以通过在声音空间内将他或她的手部移动到左边或右边和/或向上移动、向下移动、向前移动或向后移动(例如，在二维X、Y平面内，或三维平面X、Y、Z空间内移动)以便与虚拟对象交互，从而重新定位音频事件。然后，通过由传感器140所获取的并且传递给处理单元210的数据来确定手部手势和虚拟对象的新位置。作为响应，处理单元210修改与音频事件相关联的一个或多个参数，以使得用户感知定位于新位置(例如，多个明显不同的点音频源)处的语音。因此，手势系统100可以精确地模拟实时对话，其中多个人员相对于用户位于不同的位置处，从而使得用户能够更加容易地区分多个语音。

处理单元210被配置来使用各种技术确定用户是否正在尝试重新定位音频事件。在一种技术中，处理单元210跟踪与音频事件相关联的第一虚拟对象的位置(例如，三维空间内的坐标)，并且确定(例如，通过传感器140)与用户手指、手部和/或手臂相关联的第二虚拟对象何时与第一虚拟对象交互(例如，抓取)。然后，处理单元210实现物理模型，以便基于与第二虚拟对象的交互来确定第一虚拟对象的新位置。例如并且无限制地，在一些实施方案中，处理单元210检测用户手部的位置，以便确定用户何时已经抓取、推动、拖拉、滑动与音频事件相关联的虚拟对象等。然后，处理单元210实现物理模型，以便(例如，基于抓取、推动、拖拉和/或滑动的速度、距离和/或持续时间)确定音频事件的新位置。然后，可以修改音频流的一个或多个参数，以使得用户感知位于新位置处的音频事件。

在一些实施方案中，用户将他或她的手部移动到声音空间内与音频事件的感知位置(例如，点音频源)相关联的位置，并且做出抓取手势来抓取对应于音频事件的虚拟对象。然后，在用户做出抓取手势时，用户将音频事件移动到预期位置(例如，如图4B和图4C所示)。作为响应，处理单元210修改与音频流相关联的一个或多个参数(例如，空间音频参数)，以使得用户感知从相对于用户的所需角度和/或距离呈现的音频事件。

另外，用户可以使用如滑动手势的其它类型的手势来重新定位音频事件，如图5A至图5E所示，图中示出根据各种实施方案的用户与虚拟对象交互，以便重新定位音频事件。为了解释的清晰性，图5A至图5E包括与某些音频事件(例如，环境音乐和语音电话)相关联的虚拟对象的视觉表示。然而，在一些实施方案中，这些视觉表示对于手势系统100的用户是不可见的。

如图5A和图5B所示，在用户聆听由媒体播放器所生成的环境音频源(例如，使用两个或更多个扬声器130在用户四周呈现的音乐)时，用户可以从通信服务接收拨入电话的通知。然后，用户可以选择将与音乐相关联的虚拟对象滑动到声音空间的左侧，如图5C和图5D所示。作为响应，处理单元210跟踪用户手部的位置，并且任选地实现物理模型，以便基于滑动手势的速度、距离和/或持续时间来确定与音乐相关联的虚拟对象的新位置。在一些实施方案中，处理单元210分析从传感器140所接收的数据，以便确定滑动手势发起的地方和/或手势结束的地方。然后，处理单元210基于虚拟对象的新位置来修改环境音频源的一个或多个参数(例如，声音平衡和/或方向)，以便使声音空间由音频事件所跨越的部分被重新调整大小。因此，如图5E所示，如拨入电话的点音频源可以置于声音空间的右侧上，而如音乐的环境音频源继续从声音空间的左侧播放。因此，音乐大致上并不干涉拨入电话，从而使得用户能够更加有效地同时聆听多个音频事件和/或与多个音频事件交互。

如上文所述，声音空间内的一个或多个音频事件的位置可以基于单个手部位置(例如，静态手势)进行修改，而不需要用户使用他或她的手臂来抓取、推动、拖拉、滑动单个音频事件等。在这类实施方案中，与静止手部位置相关联的一个或多个手指的方位可以向手势系统100指示声音空间内的一个或多个音频事件的位置将如何得以修改。例如并且无限制地，用户可以使用上述的‘V’形手部位置(例如，分裂手势)来使一个或多个音频事件以分裂方式移动到声音空间的侧面。

在各种实施方案中，为了使得用户能够重新定位与用户无法触及的虚拟对象相关联的音频事件，手势的效果可以在做出手势的一个或多个方向上扩展。例如并且无限制地，当用户做出滑动手势来重新定位用户无法触及的音频事件时，手部矢量510可以由手势系统100确定。在一些实施方案中，手部矢量510在用户的手指、手部和/或手臂的方向上延伸，从而使得用户能够重新定位他或她无法触及的音频事件。

手部矢量510与设置在声音空间内的一个或多个音频事件(例如，虚拟对象)之间的交互由处理单元210来确定，例如并且无限制地，基于物理模型和/或本文所述技术中的任何技术来确定。然后，处理单元210基于手部矢量510与一个或多个音频事件之间的交互来修改音频事件的一个或多个参数。例如并且无限制地，当用户做出滑动手势时，处理单元210可以生成手部矢量510，其包括从用户的手部延伸的一维线或二维平面。然后，在用户做出滑动手势时，处理单元210可以基于手部的变化位置来更新线或平面的位置。然后，可以确定线或平面与声音空间中包括的一个或多个音频事件之间的交互(例如，交叉、冲突)，以便确定音频事件的新位置。例如并且无限制地，处理单元210可以确定与用户的手部相关联的平面移过声音空间，以便使音频事件从声音空间的一侧扫掠到声音空间的另一侧，如图5C和图5D所示。此外，尽管所提供的实例是参考滑动手势和环境音频源(例如，音乐)来描述，但是手部矢量510也可以用来做出任何其它类型的手势(例如，抓取、推动或拖拉手势)，以便使得用户能够与他或她无法触及的任何类型音频事件(例如，环境音频源、点音频源等)交互。

在一些实施方案中，处理单元210实施一个或多个算法，以便在声音空间内重新定位音频事件之前识别单个音频事件。例如并且无限制地，处理单元210可以使用算法来识别通过通信服务接收的两个或更多个语音。然后，一旦识别出与每一个语音相关联的特性(例如，基本音高、频谱、节奏、声调等)，便可以修改与每一个语音相关联的空间音频参数，以便在声音空间中重新定位语音。类似技术可以用来识别其它类型的音频事件(例如，音乐、通知等)，并且在声音空间内重新定位音频事件。因此，单个音频事件可以在声音空间内加以隔离和重新定位，即使当多个音频事件在被处理单元210接收和处理之前合并在单个音频通道中时也是如此。

如上文所述，在一些实施方案中，传感器140被配置来跟踪用户在他或她的环境内的位置和/或方位。在这类实施方案中，用户的位置和/或方位可以由手势系统100使用，以便维持音频事件相对于用户环境的位置。例如并且无限制地，当用户将他或她的头部转向最初位于声音空间一侧上的音频事件时，手势系统100可以跟踪用户的头部相对于环境的方位的变化，并且作为响应，修改与音频事件相关联的空间音频参数，以使得在用户前方重新定位音频事件。因此，相对于用户的环境来说，音频事件在相对静态的角位置和/或距离处为用户重现。另外，当用户改变他或她在周围环境内的位置时，手势系统100可以基于用户是否移向用户环境内的(例如，更为大声)或远离(更为安静)对象来修改特定音频事件的响度。

图6A示出根据各种实施方案的两个用户与单独手势系统100交互，以便在两个不同的声音空间之间传递音频事件。在各种实施方案中，一个或多个手势系统100可以被配置来在多个声音空间内生成声音事件，和/或在多个声音空间内跟踪一个或多个用户做出的手势。例如并且无限制地，如图所示，手势系统100可以为第一用户(或第一组用户)生成第一声音空间602，为第二用户生成第二声音空间604，为第三用户生成第三声音空间等。在一些实施方案中，声音空间602、声音空间604等可包括不同组的扬声器120、传感器140、处理单元210等，以使得位于声音空间内的每一个用户(或每组用户)大致上只听到与这个声音空间相关联的声音事件。例如并且无限制地，声音空间602可以通过手势系统100-1来实现，而声音空间604可以通过手势系统100-2来实现。此外，手势系统100-1和手势系统100-2可以任选地彼此通信，和/或与一个或多个实施其它声音空间的其它手势系统100通信。

在一些实施方案中，一个或多个部件可以在多个声音空间之间共享，和/或与一个或多个其它声音空间中包括的部件通信，如图6B所示，图中示出根据各种实施方案的两个用户与单个手势系统100交互，以便在两个不同的声音空间之间传递音频事件。在多个声音空间之间共享部件(例如，如图6B所示)和/或使与不同声音空间相关联的部件之间能够通信(例如，如图6A所示)，使得能够跨声音空间来做出手势，和/或使得能够在声音空间之间传递音频事件。例如并且无限制地，包括一个或多个处理单元210的单个计算设备200可以实现声音空间602和声音空间604(例如，通过跟踪手势、修改音频参数、更新显示等等)。另外，声音空间602和声音空间604可以使用共同的传感器140和/或扬声器120。例如并且无限制地，传感器140可以用来跟踪与声音空间602和声音空间604相关联的手势。另外，共享的传感器140可以用来跟踪与两个或更多个声音空间相关联的手势，如用户做出手势来将音频事件(例如，图6A和图6B所示的语音电话)从第一声音空间传递到第二声音空间中的情况。在一些实施方案中，声音空间602可以与第一用户(如车辆驾驶员)相关联，而声音空间604可以与第二用户(如车内乘客)相关联。

如图6A和图6B所示，如点音频源(例如，语音电话)或环境音频源(例如，音乐)的音频事件可以最初在与第一用户(或第一组用户)相关联的声音空间602内生成。然后，第一用户可以做出手势(例如，抓取手势、滑动手势、静态手势等)，以便将音频事件从声音空间602传递到与第二用户(或第二组用户)相关联的声音空间604。另外，用户可以做出手势来与位于第二声音空间(例如，声音空间604)内的一个或多个用户共享音频事件—当前是在第一声音空间(例如，声音空间602)内生成，以便使得在两个声音空间内都生成音频事件。如上文所述，每一个声音空间602、604可包括不同组的扬声器120(并且任选地包括一个或多个共享扬声器)，以使得位于具体声音空间内的用户听到他或她的声音空间内生成的音频事件，但是大致上不会听到其它声音空间内生成的音频事件。因此，通过使得音频事件能够在不同的声音空间之间传递和/或共享，每一个用户可以定制化他或她的聆听体验，而大致上不会被附近声音空间中生成的音频事件干扰。

一旦用户的手指、手部、手臂等邻近音频事件的当前位置(例如，与音频事件相关联的虚拟对象)，手势系统100便可以通过一个或多个反馈设备来产生听觉和/或触觉反馈，如音频通知、振动、超声、气压等。产生听觉和/或触觉反馈使得用户能够更容易地与音频事件交互并重新定位音频事件。在相同或其它实施方案中，当发起手势时和/或当完成手势时，如一旦用户释放虚拟对象，手势系统100便可以为用户提供听觉和/或触觉反馈。另外，视觉反馈可以被提供给用户来使得用户能够更加容易地与音频事件交互，和/或查看他或她的手势是如何影响声音空间内包括的音频事件。以下将结合图7A至图8E进一步详细描述这类技术。

图7A和图7B示出可以结合图1A的手势系统100来实现的立体显示器。如图所示，在一些实施方案中，手势系统100包括为用户生成视觉反馈的立体显示器710。在各种实施方案中，立体显示器710可以实现电子全息照相术和/或类似的显示技术，以便显示对应于由扬声器130所重现的一个或多个音频事件的虚拟对象的视觉表示(例如，三维图像)。尽管图7A至图8E所示的立体显示器710被展示为实现于汽车环境中，但是相似类型的显示器可以实现于任何其它类型的聆听环境中，如家里、办公室、移动环境等中。

在操作中，立体显示器710显示对应于由扬声器130产生的声音空间内包括的音频事件的一个或多个视觉表示。因此，用户可以查看音频事件的位置，并且通过一个或多个手势来更加有效地与音频事件交互，所述一个或多个手势随后由耦接至手势系统100的传感器140检测。例如并且无限制地，立体显示器710可以显示环境音频源(例如，音乐)和点音频源(例如，语音电话)，如图8A至图8E所示，图中示出根据各种实施方案的用户与立体显示器710交互，以便重新定位音频事件。在一些实施方案中，当音频事件是跨越声音空间的一部分的环境音频源时，视觉表示跨越立体显示器710的对应部分。在相同或其它实施方案中，当音频源是在声音空间内的特定位置处呈现的点音频源时，视觉表示位于立体显示器710上对应于声音空间内的位置的显示位置处。因此，音频事件的视觉表示大致上可以反映或匹配音频事件在声音空间内的位置。

如图8A和图8B所示，在用户聆听环境音乐源时，用户可以接收拨入语音电话的通知。然后，用户可以将他或她的手部放在相对于立体显示器710所显示的一个或多个音频事件的所需位置处，并且做出手势，如滑动手势。在用户做出手势时，传感器140跟踪用户手部的位置，并且更新音频事件的位置。另外，音频事件的视觉表示在立体显示器710的位置被更新来反映用户的手部和与音频事件相关联的虚拟对象之间的交互，如图8C和图8D所示。然后，如图8E中所示，用户可以接听语音电话，所述语音电话可以在立体显示器710上作为点音频源显示到用户的右侧。因此，用户能够接收反映他或她与音频事件交互的视觉反馈，从而使得用户能够更加有效地在声音空间内重新定位音频事件。

在各种实施方案中，用户使用上文所述技术中的一种或多种来与立体显示器710交互。例如并且无限制地，处理单元210可以跟踪与音频事件相关联的第一虚拟对象的位置，并且(例如，通过传感器140)确定与用户手指、手部和/或手臂相关联的第二虚拟对象何时与第一虚拟对象交互(例如，抓取)。在相同或其它实施方案中，手势系统100可以通过检测用户的手指、手部、手臂等何时邻近由立体显示器710所生成的图像或与之相交，以便确定用户与音频事件之间的交互。在一些实施方案中，通过传感器140来检测用户与由立体显示器710所生成的图像之间的交互。例如并且无限制地，一个或多个传感器140可以检测用户的手部正在做出邻近由立体显示器710所产生的三维图像(或同时与之相交)的手势。然后，处理单元210可以修改一个或多个音频参数，和/或显示与对应于三维图像的音频事件相关联的位置。

尽管以上所提供的实例将立体显示器710描述成用来提供视觉反馈以用于通过滑动手势与某些类型的音频事件交互，但是立体显示器710也可以用来针对上述手势、交互技术和/或音频事件中的任何一项而提供视觉反馈。例如并且无限制地，立体显示器710可以通过显示用户在声音空间内抓取和移动的一个或多个音频事件(例如，点音频源)(如图4A至图4C所示的点音频源)来提供反馈。另外，立体显示器710可以用来针对通过单个手部位置(例如，静态手势)发起的动作来提供视觉反馈，而不需要用户使用他或她的手臂来抓取、推动、拖拉、滑动单个音频事件等。此外，立体显示器710可以结合由手势系统100所提供的其它类型的反馈(例如，触觉反馈、听觉反馈等)来提供视觉反馈。

图9为根据各种实施方案的基于手势来修改音频参数的方法步骤的流程图。尽管方法步骤是结合图1A至图8B的系统来描述，但是本领域技术人员将理解的是，被配置来以任何顺序来执行方法步骤的任何系统都落在本发明的范围内。

如图所示，方法900开始于步骤910上，其中在处理单元210上执行的应用程序232通过传感器140来获取与用户(例如，用户的手部、手臂、手指等)相关联的传感器数据。在步骤920，应用程序232分析传感器数据以便基于用户手部、手指、手臂等的位置和/或方位来确定一个或多个手部位置。然后，在步骤930，应用程序232基于一个或多个手部位置来确定是否已经做出手势(例如，分裂手势)。如果用户尚未做出手势，那么方法900返回步骤910，其中应用程序232继续获取传感器数据。

如果用户已经做出手势，那么方法900进行至步骤940，其中应用程序232修改与音频流相关联的一个或多个参数。例如并且无限制地，如果手势是分裂手势，那么应用程序232可以修改与音频流相关联的一个或多个空间音频参数，以便使一个或多个音频事件移动到声音空间的侧面。然后，在步骤950，应用程序232更新音频事件在可选显示器上所显示的视觉表示。例如并且无限制地，应用程序232可以使通过立体显示器710所生成的一个或多个三维图像的位置得以修改。接着，在步骤960，应用程序232基于修改过的空间音频参数，通过扬声器130来使修改过的音频流重现给用户。然后方法900结束。

图10为根据各种实施方案的基于虚拟对象的定位来修改音频参数的方法步骤的流程图。尽管所述方法步骤是结合图1A至图8B的系统来描述，但是本领域技术人员将理解的是，被配置来以任何顺序来执行方法步骤的任何系统都落在本发明的范围内。

如图所示，方法1000开始于步骤1010，其中显示器(例如，立体显示器710)显示音频流中包括的一个或多个音频事件的视觉表示。然后，在步骤1020，在处理单元210上执行的应用程序232通过传感器140来获取与用户(例如，用户的手部、手臂、手指等)相关联的传感器数据。在步骤1030，应用程序232分析传感器数据，以便基于用户手部、手指、手臂等的位置和/或方位来确定一个或多个手部位置。

在步骤1040，应用程序232确定与音频事件相关联的虚拟对象是否定位成邻近手部位置(例如，用户手部、手指、手臂等的位置)中的一个或多个。如果虚拟对象并不定位成邻近手部位置，那么方法1000返回步骤1020，其中应用程序232继续获取传感器数据。如果虚拟对象定位成邻近手部位置，那么方法1000进行至步骤1050，其中应用程序232基于手部位置来检测用户是否正在做出手势(例如，抓取手势)。

如果用户并未做出手势，那么方法1000返回步骤1020，其中应用程序232继续获取传感器数据。如果用户正在做出手势，那么方法1000进行至步骤1060，其中应用程序232确定用户与虚拟对象之间的交互。例如并且无限制地，应用程序232可以继续获取传感器数据，并且确定其它手部/手臂/手指等的位置，以便确定用户将虚拟对象移动到的位置。

然后，在步骤1070，应用程序232基于用户与虚拟对象之间的交互来确定与音频流相关联的一个或多个参数。例如并且无限制地，当用户抓取与音频事件相关联的虚拟对象时，应用程序232可以动态地修改与音频事件相关联的空间音频参数，以使得用户可以听到从声音空间内第一位置移动到声音空间内第二位置的音频事件。在步骤1080，应用程序232使显示器基于用户与虚拟对象之间的交互(如，通过将视觉表示从第一显示位置移动到第二显示位置)来更新一个或多个音频事件的表示。

接着，在步骤1090，应用程序232确定用户是否已经完成手势(例如，通过释放虚拟对象完成手势)。如果用户尚未完成手势，那么方法1000返回步骤1060。如果用户已经完成手势，那么应用程序232会停止修改与音频事件相关联的参数和视觉表示，并且方法1000结束。

总之，音频事件的视觉表示会被显示给用户。然后，在处理单元上执行的应用程序通过一个或多个传感器来检测由用户做出的手势。响应于手势，应用程序修改与音频流相关联的一个或多个参数，并且更新视觉表示的位置。然后，手势系统基于修改过的参数来为用户重现音频流。另外，手势系统可以显示音频事件的三维视觉表示，并且通过物理模型来确定用户和与音频事件相关联的虚拟对象之间的交互。然后，可以基于交互来修改三维视觉表示和与音频流相关联的一个或多个音频参数。

本文所述技术的至少一个优势在于，用户能够修改虚拟声音空间内正在重现音频事件的位置。例如，用户可以与立体显示器交互来抓取与音频事件相关联的虚拟对象，并且将虚拟对象重新定位在虚拟三维空间内的所需位置处。另外，当用户与音频事件交互时，视觉、听觉和/或触觉反馈可以被提供给用户(例如，通过立体显示器提供)。因此，音频事件可以被重新定位在声音空间内，从而使得用户能够更加有效地同时聆听多个音频事件和/或与多个音频事件交互。

已出于说明目的提出各种实施方案的描述，但是这些描述并不意图是详尽的或受限于所公开的实施方案。在不背离所描述实施方案的范围和精神的情况下，许多修改和变化对于本领域的一般技术人员来说是明显的。

本发明实施方案的各个方面可体现为系统、方法或计算机程序产品。因此，本公开的各个方面可以采用以下形式：完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或结合软件方面与硬件方面的实施方案，所述实施方案在本文中全部可总体上称为“电路”、“模块”或“系统”。另外，本公开的各个方面可采用体现在一个或多个计算机可读介质中的计算机程序产品的形式，所述一个或多个计算机可读介质上体现有计算机可读程序代码。

可使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备或前述各项的任何适合组合。计算机可读存储介质的更具体实例(并非详尽名单)将包括以下介质：具有一个或多个导线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程序只读存储器(EPROM或闪存存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备或前述介质的任何适合组合。在本文件的上下文中，计算机可读存储介质可以是任何有形介质，所述有形介质可含有或存储供指令执行系统、装置或设备使用或结合指令执行系统、装置或设备来使用的程序。

以上参照根据本公开的实施方案的方法、装置(系统)和计算机程序产品的流程图图解和/或方框图来描述了本公开的各个方面。将理解的是，流程图图解和/或方框图中的每一个方框以及流程图图解和/或方框图中方框的组合可由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器来产生一种机器，以使得通过计算机或其它可编程数据处理装置的处理器来执行的指令允许实现在流程图和/或方框图的一个或多个方框中指定的功能/操作。这类处理器可不限于通用处理器、专用处理器、特殊应用处理器或现场可编程处理器。

附图中的流程图和方框图示出根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实现方式的体系结构、功能性和操作。在这方面，流程图或方框图中的每一个方框可以表示代码的模块、区段或部分，其包括用于实现所指定逻辑功能的一个或多个可执行指令。还应指出的是，在一些替代实现方式中，方框中提到的功能可能不按附图中提到的顺序出现。例如，连续展示的两个方框实际上可以大致上同时执行，或者这些方框有时可以按相反的顺序执行，这取决于所涉及的功能性。还将指出的是，方框图和/或流程图图解中的每一个方框以及方框图和/或流程图图解中的方框的组合可以由基于专用硬件的系统或者专用硬件与计算机指令的组合来实现，所述基于专用硬件的系统执行指定的功能或动作。

本发明已在以上参照特定实施方案加以描述。然而，本领域的一般技术人员将理解的是，在不背离如随附权利要求书阐明的本发明的更广泛精神和范围的情况下，可对所述特定实施方案做出各种修改和变化。例如并且无限制地，虽然本文中的许多描述涉及可获取并处理与用户手势和/或用户的环境相关联的数据的特定类型的传感器和算法，但是本领域技术人员将了解的是，本文所述的系统和技术可适用于其它类型的传感器和算法。因此，将前述描述和图式视为说明性而不是限制性意义。

虽然前文针对本公开的各个实施方案，但是可在不背离本公开的基本范围的情况下设计本公开的其它和另外的实施方案，并且本公开的范围由随附的权利要求书来确定。

Claims

1.一种用于基于手势来修改音频参数的方法，所述方法包括：

获取与用户的手部相关联的传感器数据；

分析所述传感器数据来确定至少一个手部位置；

基于所述至少一个手部位置来确定对应于音频事件的第一虚拟对象与对应于所述用户的所述手部的第二虚拟对象之间的交互；

基于所述交互来修改与所述音频事件相关联的空间音频参数，以生成修改过的音频流；以及

使所述修改过的音频流重现来输出到用户。

2.如权利要求1所述的方法，其中修改所述空间音频参数包括将所述音频事件从声音空间内的第一位置移向所述声音空间内的第二位置。

3.如权利要求2所述的方法，其还包括显示所述第一虚拟对象的视觉表示，并且基于所述交互来将所述视觉表示从与所述声音空间内的所述第一位置相关联的第一显示位置移动到与所述声音空间内的所述第二位置相关联的第二显示位置。

4.如权利要求3所述的方法，其中所述视觉表示包括三维图像，并且所述传感器数据包括三维空间中的与所述用户的所述手部相关联的坐标。

5.如权利要求4所述的方法，其中确定所述交互包括基于与所述用户的所述手部相关联的所述坐标来检测所述第二虚拟对象邻近所述第一虚拟对象。

6.如权利要求3所述的方法，其中确定所述交互包括检测所述第二虚拟对象邻近所述第一虚拟对象。

7.如权利要求6所述的方法，其还包括响应于检测到所述第二虚拟对象邻近所述第一虚拟对象，使听觉反馈和触觉反馈中的至少一个得以生成。

8.如权利要求3所述的方法，其中分析所述传感器数据包括确定发起抓取手势的第一手部位置，并且确定终止所述抓取手势的第二手部位置，其中所述第一手部位置与所述声音空间内的所述第一位置相关联，而所述第二手部位置与所述声音空间内的所述第二位置相关联。

9.如权利要求3所述的方法，其中所述音频事件包括跨越所述声音空间一部分的环境音频源，并且所述视觉表示跨越所述显示器的对应于所述声音空间的所述部分的一部分。

10.如权利要求1所述的方法，其还包括：

基于所述至少一个手部位置来确定所述第一虚拟对象与所述第二虚拟对象之间的第二交互；

基于所述第二交互来将所述音频事件从与所述用户相关联的第一声音空间移动到与第二用户相关联的第二声音空间，以便生成第二修改过的音频流；以及

使所述第二修改过的音频流在所述第二声音空间内重现。

11.一种用于基于手势来修改音频参数的系统，其包括：

至少一个传感器，其被配置来获取与用户的手部相关联的传感器数据；

处理器，其耦接至所述至少一个传感器并且被配置来：

分析所述传感器数据来确定至少一个手部位置；

基于所述交互来修改与所述音频事件相关联的空间音频参数，以便生成修改过的音频流；以及

使所述修改过的音频流重现来输出到用户；以及

显示器，其耦接至所述处理器并且被配置来显示所述第一虚拟对象的视觉表示。

12.如权利要求11所述的系统，其中所述处理器被配置来通过将所述音频事件从声音空间内的第一位置移向所述声音空间内的第二位置而修改所述空间音频参数。

13.如权利要求12所述的系统，其中所述处理器还被配置来基于所述交互使所述视觉表示从所述显示器上的与所述声音空间内的所述第一位置相关联的第一位置，移动到所述显示器上的与所述声音空间内所述第二位置相关联的第二位置。

14.如权利要求11所述的系统，其中所述显示器包括立体显示器，并且所述视觉表示包括三维图像。

15.如权利要求14所述的系统，其中所述传感器数据包括三维空间中的与所述用户的所述手部相关联的第一坐标，并且所述处理器被配置来通过确定出与所述用户的所述手部相关联的所述第一坐标邻近与所述第二虚拟对象相关联的第二坐标而确定所述交互。

16.如权利要求14所述的系统，其中所述处理器被配置来通过确定所述用户的所述手部正在做出邻近所述三维图像的手势而确定所述交互。

17.如权利要求11所述的系统，其中所述至少一个手部位置包括与所述用户相关联的第一手部位置以及与第二用户相关联的第二手部位置，并且所述处理器还被配置来：

基于所述第二手部位置来确定对应于第二音频事件的第三虚拟对象与对应于所述第二用户的手部的第四虚拟对象之间的第二交互；

基于所述第二交互来将所述第二音频事件从与所述第二用户相关联的第二声音空间移动到与所述用户相关联的第一声音空间。

18.如权利要求11所述的系统，其中所述处理器还被配置来基于所述至少一个手部位置来检测所述第二虚拟对象邻近所述第一虚拟对象，并且作为响应使视觉反馈、听觉反馈和触觉反馈中的至少一个得以生成。

19.如权利要求11所述的系统，其中所述音频事件包括环境音频源，并且所述处理器被配置来通过修改声音空间的由所述音频事件跨越的一部分而修改所述空间音频参数。