CN105874408B

CN105874408B - 用手势交互的可穿戴式空间音频系统

Info

Publication number: CN105874408B
Application number: CN201480072176.6A
Authority: CN
Inventors: T.科尔曼; S.马蒂; D.迪森索
Original assignee: Crown Audio Inc
Current assignee: Crown Audio Inc
Priority date: 2014-01-03
Filing date: 2014-12-31
Publication date: 2020-01-07
Anticipated expiration: 2034-12-31
Also published as: EP3090321A1; JP6553052B2; JP2015143987A; US10126823B2; CN104765444A; EP2891955B1; US20150193197A1; JP6494286B2; CN105874408A; US10585486B2; EP2891955A1; US20160320847A1; CN104765444B; EP3090321A4; JP2017509181A; WO2015103439A1

Abstract

本发明的一个实施方案阐述了一种用于基于手势来修改音频参数的技术。所述技术包括获取与用户的手部相关联的传感器数据以及分析所述传感器数据以确定至少一个手部位置。所述技术还包括基于所述至少一个手部位置来检测手部手势以及，响应于所述手部手势，修改与音频流相关联的空间音频参数以生成修改的音频流。所述技术还包括促使所述修改的音频流再现用于输出至所述用户。

Description

用手势交互的可穿戴式空间音频系统

相关申请

本申请要求提交于2014年1月3日的美国临时专利申请序列号61/923,560(具有代理人档案号HRMN/0078USL)和提交于2014年1月3日的美国临时专利申请序列号61/923,571(具有代理人档案号HRMN/0080USL)的权益。这些相关申请的主题以引用方式并入本文。

发明领域

本发明的实施方案大体涉及音频信号处理，并且更具体地涉及一种用手势交互的可穿戴式空间音频系统。

发明背景

电子装置(诸如智能电话、便携式媒体播放器和个人计算机)已经越来越普遍地用于日常生活中的各个方面。此类装置使用户方便地访问音频内容和视频内容，诸如流式且能够下载的音乐、电影、播客、电视等等。另外，此类装置允许用户访问各种各样通信服务，其中许多通信服务提供使得用户能够与其他用户交互的音频和/或视频界面。

电子装置用户常常遇到的问题是电子装置何时才为此装置的用户同时再现多个音频事件。例如，正在相同装置上操作多个软件应用程序(例如，多任务化)的用户可能难以在一个软件应用程序所生成的音频内容与另一软件应用程序所生成的音频内容之间进行区分。因此，在一些状况下，用户可能并不知道哪些声音是与哪个软件应用程序相关联和/或用户可能因多个音频事件同时呈现而分神，这会抑制用户有效与特定软件应用程序交互的能力发生此后一状况的常见使用情况是用户经由通信服务来与一个或多个人交谈时，所述通信服务在正在电子装置上执行的同时还使用相同电子装置运行单独软件应用程序(例如，媒体播放器)。如果在会话过程中，生成并为用户播放与单独软件应用程序相关的单独音频事件，那么用户可能难以将注意力集中于会话上。

由于先前内容所例示的那样，使用户能够更有效地聆听不同音频事件的技术将会是有用的。

发明概述

本发明的一个实施方案阐述了一种用于基于手势来修改音频参数的方法。所述方法包括获取与用户的手部相关联的传感器数据以及分析所述传感器数据以确定至少一个手部位置。所述方法还包括：基于所述至少一个手部位置来检测手部手势以及，响应于所述手部手势，修改与音频流相关联的空间音频参数以生成修改的音频流。所述方法还包括促使所述修改的音频流再现用于输出至所述用户。

除其他外，另外实施方案提供一种被配置来实施以上所阐述的方法的系统和非暂态计算机可读介质。

有利地，所公开的技术使得用户能够修改音频事件将在声音空间内再现的位置。例如，用户可直观地抓取与所述音频事件相关联的虚拟对象，并且将所述虚拟对象定位在虚拟三维声音空间内的期望位置。因此，音频事件可以在所述声音空间内重新定位，从而使得所述用户能够更有效地同时聆听多个音频事件和/或与之交互。另外，为进一步辅助所述用户在虚拟三维声音空间内重新定位音频事件，当用户的手部接近与所述音频事件相关联的虚拟对象时，可向所述用户提供听觉和/或触觉反馈。

附图简述

因此，为了能够详细理解本发明的上述特征结构所用方式，上文所简要概述的本发明的更具体的描述可以参考实施方案进行，一些实施方案示出在附图中。然而，应当注意，附图仅仅示出本发明的典型实施方案，并且因此不应视为限制本发明的范围，因为本发明可允许其他等效实施方案。

图1示出根据各种实施方案的用于识别用户手势并修改音频流的空间音频参数的音频系统；

图2是根据各种实施方案的可结合图1的音频系统来实施或耦接到图1的音频系统的计算装置的方框图；

图3A-3C示出根据各种实施方案的用户通过执行手势来与图1的音频系统交互；

图4A-4C示出根据各种实施方案的用户与图1的音频系统交互以重新定位通信服务所生成的音频事件；

图5A-5E示出根据各种实施方案的用户与虚拟对象交互以重新定位音频事件；

图6是根据各种实施方案的用于基于手势来修改音频参数的方法步骤的流程图；以及

图7是根据各种实施方案的用于通过重新定位虚拟对象来修改音频参数的方法步骤的流程图。

具体实施方案

在以下描述中，阐述许多特定细节以提供对本发明的实施方案更完整的理解。然而，本领域的技术人员将会清楚，本发明的实施方案可在没有这些特定细节中的一个或多个的情况下实践。

图1示出根据各种实施方案的用于识别用户手势并修改音频流的空间音频参数的音频系统100。音频系统100可以包括(但不限于)扬声器130以及一个或多个传感器140。扬声器130被配置来向音频系统100的用户再现一个或多个音频流。传感器140被配置来获取与用户所执行的手势相关联的数据和/或使得音频系统100能够跟踪用户相对于他或她的环境的位置和/或定向。例如，但不限于，传感器140可配置来获取用户的手部和/或手臂图像，以检测用户所执行的一个或多个手势。在一些实施方案中，传感器140包括视觉传感器，诸如相机。另外，在一些实施方案中，传感器140包括超声传感器、雷达传感器、激光传感器、热学传感器和/或深度传感器，诸如飞行时间传感器、结构光传感器等等。

在各种实施方案中，传感器140被配置来检测用户裸手来执行的一个或多个手势。例如，但不限于，可以分析传感器140所获取的数据，以确定用户指尖、关节、手部、腕部、手臂等的位置。随后，可以使用这些位置中的一个或多个检测将由用户来执行的手势。在相同或其他的实施方案中，传感器140被配置来通过跟踪附接到用户的另外装置的位置来检测用户所执行的一个或多个手势。例如，但不限于，可以跟踪耦接到用户手臂的一个或多个装置的位置来检测将由用户来执行的手势。虽然在图1中示出四个传感器140，但是也可使用位于音频系统100中的任何位置处的任何数量传感器140来对用户手势进行检测。在一些实施方案中，在音频系统100中包括至少两个传感器140，以使得能够获取立体图像，并且因此允许更准确地确定用户手指、手部、手臂等的深度。在其他实施方案中，使用用于捕获图像、获取深度测量、计算位置等的单个传感器检测手势。另外，在各种实施方案中，传感器140可定位在除了设置有扬声器130的装置主体102之外的对象上，诸如在眼镜、手表、可穿戴式装置、用户身体(例如，Thalmic Labs^TM的可穿戴在手臂上的Myo^TM)等等上。

扬声器130被配置来再现通过与音频系统100集成或耦接到所述音频系统的电子装置输出的音频流，诸如多声道音频流。例如，但不限于，扬声器130可以包括能够在声音空间内的特定位置处呈现包括在音频流中的音频事件(例如，语音、通知、音乐等等)的两个或更多个的扬声器。在一些实施方案中，许多个扬声器分布在耳机内，以在相对于用户耳部的特定位置处呈现音频事件。在相同或其他的实施方案中，可以使用音频信号处理技术利用两个或更多个的扬声器在声音空间内的特定位置处虚拟呈现音频事件。

在各种实施方案中，音频系统100包括一对耳机，诸如图1所示置于耳朵上的耳机。然而，一般来说，任何类型的有线或无线耳机(包括罩耳耳机、挂耳耳机和入耳耳机)都可用于执行本文所述技术。在其他实施方案中，音频系统100可为能够向用户再现声音的任何声学装置，包括辅助医疗装置(诸如助听装置)或移动通信装置(诸如

耳机)。

图2是根据各种实施方案的可结合图1的音频系统100来实施或耦接到图1的音频系统100的计算装置的方框图。如图所示，计算装置200包括处理单元210、输入/输出(I/O)装置220和存储装置230。存储装置230包括被配置来与数据库234交互的应用程序232。

处理单元210可以包括中央处理单元(CPU)、数字信号处理单元(DSP)等等。在各种实施方案中，处理单元210被配置来分析传感器140所获取的传感器数据，以检测用户手势和/或确定用户相对于周围环境的位置和/或定向。另外，处理单元210可被配置来修改与音频系统100再现的音频流相关联的空间音频参数。例如，但非限制，处理单元210可以执行应用程序232，所述应用程序处理包括在音频流中的一个或多个音频事件，以在声音空间中的特定位置处呈现扬声器130所产生的音频事件。

在各种实施方案中，处理单元210执行对传感器140所获取的数据的分析，以检测用户已执行的一个或多个手势。随后，响应于检测手势，处理单元210修改音频系统100所再现的音频流的空间音频参数。例如，但不限于，处理单元210可以修改空间音频参数，以修改音频事件在声音空间内的感知位置。在一些实施方案中，处理单元210基于双耳提示(例如，耳间时间差异、耳间强度差异)、频谱提示、动态范围提示、头部相关传递函数(例如，描述声波如何与聆听者的身体交互的空间滤波器)、混响等等，修改音频流的空间音频参数。例如，但不限于，处理单元210可以基于与用户耳部、耳孔和/或头部形状相关联的一个或多个参数来处理音频流，以增大再现音频事件的位置的角分辨率。在相同或其他的实施方案中，处理单元210通过修改哪些扬声器130在扬声器130中的一个或多个再现音频事件的位置处再现音频事件和/或音频电平来对音频流的空间音频参数进行修改。例如，但不限于，处理单元210可以通过增大和/或减小某些扬声器130再现音频事件时所处的电平来对音频事件在声音空间内的感知位置进行修改。在一些实施方案中，音频信号处理经由中介软件(诸如OpenAL)来由处理单元210执行。

I/O装置220可以包括输入装置、输出装置以及能够接收输入和提供输出的装置。例如，但不限于，I/O装置220可以包括向音频系统100中包括的传感器140发送数据和/或从其接收数据的有线和/或无线通信装置。另外，I/O装置220可以包括接收将由扬声器130再现的音频流(例如，经由网络，诸如局域网和/或互联网)的一个或多个有线或无线通信装置。

存储单元230可以包括存储模块或存储模块集合。存储单元230内的软件应用程序232可由处理单元210执行，以实施计算装置200的总体功能，并且由此协调音频系统100的整体操作。数据库234可以存储数字信号处理算法、音频流、手势识别数据等等。

整体来看，计算装置200可是微处理器、专用集成电路(ASIC)、片上系统(SoC)、移动计算装置(诸如平板型计算机或蜂窝电话)、媒体播放器等等。一般来说，计算装置200可被配置来协调音频系统100的总体操作。在其他实施方案中，计算装置200可耦接到音频系统100，但与所述音频系统分开。在此类实施方案中，音频系统100可以包括从计算装置200接收数据(例如，音频流)并向所述计算装置传输数据(例如，传感器数据)的单独的处理器，所述单独的处理器可被包括在消费电子装置(诸如智能电话、便携式媒体播放器、个人计算机等等)中。然而，本文所公开的实施方案也构想了被配置来实施音频系统100的功能的任何技术上可行的系统。

图3A-3C示出根据各种实施方案的用户通过执行手势来与图1的音频系统100交互。如上所述，音频系统100检测用户所执行的手势，并且作为响应，修改音频系统100所再现的音频流的一个或多个参数。例如，但不限于，如图3A所示，用户可执行用于通过以下方式来修改包括在音频流中的音频事件的空间音频参数的手势：将他或她的手部移动到音频事件在音频系统100所生成的声音空间内的感知位置。一旦用户的手部与音频事件的感知位置接近，用户就会执行手部手势来与音频事件交互。随后，如图3B所示，用户可以重新定位音频事件，诸如通过在将他或她的手部在声音空间内向左或右和/或向上、向下、向前或向后移动(例如，在二维X、Y平面内，或者在三维X、Y、Z平面内)来实现所述操作。随后，经由传感器140检测手势以及音频事件的新位置，并将它们传送到处理单元210以修改音频流的一个或多个参数。

在一些实施方案中，用户将他或她的手部移动到与在声音空间内的音频事件的感知位置(例如，点音频源)相关联的位置，并执行抓取手部手势以抓取对应于音频事件的虚拟对象。随后，当用户正在执行抓取手部手势时，用户将音频事件移动到期望位置。作为响应，处理单元210修改与音频流相关联的一个或多个参数(例如，空间音频参数)，使得用户感知如从相对于用户的期望角度和/或距离来呈现的音频事件。

例如，但不限于，用户可抓取并重新定位一个或多个人的语音，如图4A-4C所示，这些附图示出根据各种实施方案的用户与图1的音频系统100交互以重新定位通信服务所生成的音频事件。如图4A所示，最初，与用户说话的人的语音可从声音空间中的类似位置呈现。然而，用户可以将他或她的手部向语音所相关联的位置移动，并执行用于抓取对应于每个语音的虚拟对象的手势。随后，用户可以将与每个语音相关联的音频事件移动到期望位置，如图4B和图4C所示。作为响应，处理单元210修改与每个音频事件相关联的一个或多个参数，使得用户感知如位于新的位置(例如，多个不同点音频源)的语音。因此，音频系统100可准确地模拟实时会话，在这种实时会话中，多个人是位于相对于用户的不同位置，从而使得用户更容易地区分多个语音。

一旦用户手指、手部、手臂等等与音频事件(例如，与音频事件相关联的虚拟对象)的当前位置接近，那么音频系统100可以经由一个或多个反馈装置再现听觉和/或触觉反馈，诸如音频通知、振动、超声、空气压力等等。产生听觉和/或触觉反馈使得用户能够更容易地与音频事件交互并重新定位所述音频事件。在相同或其他的实施方案中，音频系统100在手势发起时和/或在手势完成时(诸如在用户释放虚拟对象后)，可向用户提供听觉和/或触觉反馈。

处理单元210可以使用各种技术确定用户是否正在尝试重新定位音频事件。在一种技术中，处理单元210跟踪与音频事件相关联的第一虚拟对象所在位置，并且确定(例如，经由传感器140)与用户手指、手部和/或手臂相关联的第二虚拟对象何时正与第一虚拟对象交互(例如，抓取)。随后，处理单元210可以基于与第二虚拟对象的交互，使用物理模型确定第一虚拟对象的新位置。例如，但不限于，在一些实施方案中，处理单元210检测用户的手部的位置，以确定用户何时抓取、推动、拉动、扫划(等等)与音频事件相关联的虚拟对象。随后，处理单元210使用物理模型确定(例如，基于抓取、推动、拉动和/或扫划的速度、距离和/或持续时间)音频事件的新位置。接着，可以修改音频流的一个或多个参数，使得用户感知如位于新的位置的音频事件。

例如，但不限于，用户可以使用扫划手势重新定位音频事件，如图5A-5E所示，这些附图示出根据各种实施方案的用户与虚拟对象交互以重新定位音频事件。例如，但不限于，如图5A和图5B所示，当用户正在聆听媒体播放器所生成的环境音频来源(例如，音乐)时，用户可从通信服务接收来电通知。随后，用户可以选择将与音频相关联的虚拟对象向声音空间左侧扫划，如图5C和图5D所示。作为响应，处理单元210跟踪用户的手部的位置，并任选地基于扫划手势的速度、距离和/或持续时间，使用物理模型确定与音频相关联的虚拟对象的新位置。在一些实施方案中，处理单元210使用从传感器140接收的数据来确定发起手势和/或完成手势的位置。随后，处理单元210基于虚拟对象的新位置修改环境音频来源的一个或多个参数(例如，声音平衡和/或方向)，使得用户感知如从声音空间左侧接收到的音乐。因此，如图5E所示，点音频源(诸如来电)可以放在声音空间右侧，而环境音频来源(诸如音频)继续从声音空间左侧播放。因此，音乐基本不受来电干扰，从而使得用户能够更有效地同时聆听多个音频事件和/或与之交互。

在另一技术中，基于单个手部位置(例如，静态手势)修改一个或多个音频事件在声音空间内的位置，而不需要用户使用他或她的手臂抓取、推动、拉动、扫划(等等)单独音频事件。在此类实施方案中，与手部位置相关联的一个或多个手指的定向可向音频系统100指示将要如何修改一个或多个音频事件在声音空间内的位置。例如，但不限于，用户可以使用‘V’手部位置(例如，通过使用他或她的食指或中指来形成字母V)指示一个或多个音频事件移(例如，拆分)向声音空间两侧。在特定实例中，当用户正在经由通信服务与两个人说话时，音频系统100检测(例如，基于‘V’手部位置)是否已检测到拆分手势，并且作为响应，促使与第一人的语音相关联的第一音频事件移向声音空间一侧，并且促使与第二人的语音相关联的第二音频事件移向声音空间的另一侧。另外，拆分手势可以用于将其他类型音频事件(例如，音乐、播客、通知等等)向声音空间两侧移动。在相同或其他的实施方案中，手势可以用于将音频事件均匀地分布在声音空间内，根据预定模型来将音频事件分布在声音空间内，使音频事件从多个位置播放，和/或减弱一个或多个音频事件。

在一些实施方案中，处理单元210在将音频事件重新定位在声音空间内之前，使用一个或多个算法识别单独音频事件。例如，但不限于，处理单元210可以使用用于识别经由通信服务接收的两个或更多个语音的算法。随后，一旦已识别出与每个语音相关联的特征(例如，基节(base pitch)、频谱、声调、音调等等)，就可修改与每个语音相关联的空间音频参数，以在声音空间内重新定位语音。可以使用类似技术识别其他类型音频事件(例如，音乐、通知等等)并且在声音空间内重新定位音频事件。因此，单独音频事件可以隔离并且重新定位在声音空间内，甚至是在音频事件在由处理单元210接收和处理之前已合并为单个音频声道时也是如此。

如上所述，在一些实施方案中，传感器140被配置来跟踪用户在他或她的环境内的位置和/或定向。在此类实施方案中，用户位置和/或定向可由音频系统100用来维持音频事件相对于用户环境的位置。例如，但不限于，当用户将他或她的头部转向朝最初位于声音空间一侧上的音频事件时，音频系统100可以跟踪用户头部相对于环境的定向上的变化，并且作为响应，修改与音频事件相关联的空间音频参数，使得音频事件重新定位在用户的前方。因此，音频事件相对于用户环境以相对静态的角位置和/或距离来再现给用户。另外，当用户改变他或她在周围环境内的位置时，音频系统100可以基于用户是正朝向(例如，声音更响)还是远离(例如，声音更轻)用户环境内的对象移动，修改特定音频事件响度。

图6是根据各种实施方案的用于基于手势来修改音频参数的方法步骤的流程图。虽然方法步骤结合图1-5E的系统进行描述，但是本领域的技术人员将会理解，被配置来以任何顺序执行所述方法步骤的任何系统属于本发明的范围之内。

如图所示，方法600在步骤610处开始，在步骤610处，处理单元210经由传感器140获取与用户(例如，用户的手部、手臂、手指等等)相关联的传感器数据。在步骤620处，处理单元210分析传感器数据，以基于用户的手部、手指、手臂等的位置和/或定向确定一个或多个手部位置。随后，在步骤630处，处理单元210基于一个或多个手部位置确定手势(例如，拆分手势)是否已经执行。如果用户尚未执行手势，那么方法600返回步骤610，在步骤610处，处理单元210继续获取传感器数据。

如果用户已经执行手势，那么方法600继续步骤640，在步骤640处，处理单元210修改与音频流相关联的一个或多个参数。例如，但不限于，如果手势是拆分手势，那么处理单元210可以修改与音频流相关联的一个或多个空间音频参数，以促使一个或多个音频事件移向声音空间两侧。接着，在步骤650处，处理单元210基于所修改的空间音频参数，促使修改的音频流经由扬声器130来再现给用户。随后，方法600结束。

图7是根据各种实施方案的用于通过重新定位虚拟对象来修改音频参数的方法步骤的流程图。虽然方法步骤结合图1-5E的系统进行描述，但是本领域的技术人员将会理解，配置用于以任何顺序执行所述方法步骤的任何系统落在本发明的范围之内。

如图所示，方法700在步骤710处开始，在步骤710处，处理单元210经由传感器140获取与用户(例如，用户的手部、手臂、手指等等)相关联的传感器数据。在步骤720处，处理单元210分析传感器数据，以基于用户的手部、手指、手臂等的位置和/或定向确定一个或多个手部位置。在步骤730处，处理单元210确定与音频事件相关联的虚拟对象是否接近手部位置中的一个或多个。如果虚拟对象并不接近手部位置，那么方法700返回步骤710，在步骤710处，处理单元210继续获取传感器数据。如果虚拟对象接近手部位置，那么方法700继续步骤740，在步骤740处，处理单元210基于手部位置，检测用户是否正在执行手势(例如，抓取手势)。

如果用户并未执行手势，那么方法700返回步骤710，在步骤710处，处理单元210继续获取传感器数据。如果用户正在执行手势，那么方法700继续步骤750，在步骤750处，处理单元210确定用户与虚拟对象之间的交互。例如，但不限于，处理单元210可以继续获取传感器数据，并且确定另外手部/手臂/手指等的位置以确定用户要将虚拟对象移动到的位置。

随后，在步骤760处，处理单元210基于用户与虚拟对象之间的交互，修改与音频流相关联的一个或多个参数。例如，但不限于，当用户抓取与音频事件相关联的虚拟对象时，处理单元210可动态地修改与音频事件相关联的空间音频参数，使得用户可以听到正在声音空间内移动的音频事件。在步骤770处，处理单元210确定用户是否已经完成手势(例如，通过释放虚拟对象)。如果用户尚未完成手势，那么方法700返回步骤750。如果用户已经完成手势，那么处理单元210停止修改与音频事件相关联的参数，并且方法700结束。

总之，处理单元经由一个或多个传感器检测用户所执行的手势。响应于手势，处理单元修改与音频流相关联的一个或多个参数。随后，音频系统基于所修改的参数向用户再现音频流。另外，音频系统可以经由物理模型确定用户和与一个或多个音频事件相关联的虚拟对象之间的交互。接着，可以基于所述交互修改与音频流相关联的一个或多个参数。

本文所述技术的至少一个优点是用户能够修改音频事件将在声音空间内再现的位置。例如，用户可直观地抓取与所述音频事件相关联的虚拟对象，并且将所述虚拟对象定位在虚拟三维声音空间内的期望位置。因此，音频事件可以在所述声音空间内重新定位，从而使得所述用户能够更有效地同时聆听多个音频事件和/或与之交互。另外，为进一步辅助所述用户在虚拟三维声音空间内重新定位音频事件，当用户的手部接近与所述音频事件相关联的虚拟对象时，可向所述用户提供听觉和/或触觉反馈。

对各种实施方案的描述出于例示目的呈现，而不意图穷举或限制于所公开的实施方案。在不背离所述实施方案的范围和精神的情况下，许多的修改和变型将对本领域的普通技术人员显而易见。

本实施方案的方面可体现为一种系统、方法或计算机程序产品。因此，本公开的方面可以采用以下形式：完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微码等等)或结合软件和硬件方面的实施方案，所有这些在本文中可统称为“电路”、“模块”或“系统”。此外，本公开的方面可以采用计算机程序产品形式，所述计算机程序产品体现在具有计算机可读程序代码体现在其上的一个或多个计算机可读介质中。

一个或多个计算机可读介质的任何组合都可利用。计算机可读介质可为计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可为例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置，或者以上项的任何合适组合。计算机可读存储介质更多实例(非穷举性列表)将会包括以下：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光学纤维、便携式压缩盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置，或者以上项的任何合适组合。在本文献上下文中，计算机可读存储介质可为任何有形介质，它可容纳或者说是存储将由指令执行系统、设备或装置使用或与之结合的程序。

以上参考根据本公开的实施方案的方法、设备(系统)和计算机程序产品的流程图和/或方框图描述本公开的方面。将会理解，方框图和/或流程图中的每个方框以及方框图和/或流程图中的方框组合可以通过计算机程序指令实施。这些计算机程序指令可提供到通用计算机、特殊用途计算机的处理器或其他可编程数据处理设备以产生机器，使得经由计算机的处理器或其他可编程数据处理设备来执行的指令实现方框图和/或流程图中指定的功能/动作实施。这样的处理器可为但不限于通用处理器、特殊用途处理器、专用处理器或现场可编程处理器。

附图中的流程图和方框图示出根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实施方案的架构、功能和操作。就此而言，流程图或方框图中的每个方框可以表示包括用于实施指定逻辑功能的一个或多个可执行指令的代码的模块、节段或部分。还应指出，在一些替代实施方案中，方框中指出的功能可不按照附图中指出的顺序进行。例如，连续地示出的两个方框可实际上基本同时执行，或者这些方框有时可以逆向顺序执行，这取决于所涉及的功能。还将指出，方框图和/或流程图中的每个方框以及方框图和/或流程图中的方框组合可由执行指定功能或动作的基于特殊用途硬件的系统实施，或由特殊用途硬件和计算机指令组合实施。

以上已经参考特定实施方案来描述本发明。然而，本领域的普通技术人员将会理解，在不背离如随附权利要求书中阐述的本发明的更广的精神和范围的情况下，可以对本发明做出各种的修改和改变。例如，但不限于，虽然本文描述中的许多部分提到的是可获取和处理与用户手势和/或用户环境相关联的数据的特定类型传感器和算法，但是本领域的技术人员也将了解，本文描述的系统和技术可适用于其他类型传感器和算法。先前的描述和附图因此被视为是示例性的而非限制性的意义。

尽管先前内容针对本公开的实施方案,但也可在不脱离本公开的基本范围的情况下设计本公开的另外实施方案,并且本公开的范围是由随附权利要求书来确定。

Claims

1.一种用于基于手势来修改音频参数的方法，所述方法包括：

经由至少一个传感器获取与用户的手部相关联的传感器数据；

分析所述传感器数据以确定至少一个手部位置；

响应于检测所述至少一个手部位置与包括在音频流中的音频事件相关联的虚拟对象之间的交集，使得触觉反馈在所述用户上被生成；

基于所述至少一个手部位置来检测手部手势；

响应于所述手部手势，修改与所述音频事件相关联的空间音频参数以生成修改的音频流；以及

使所述修改的音频流再现用于输出给所述用户，

其中修改所述空间音频参数包括:将包括在所述音频流中的第一音频事件朝声音空间的第一侧移动，并且将包括在所述音频流中的第二音频事件朝所述声音空间的第二侧移动。

2.如权利要求1所述的方法，其中分析所述传感器数据包括：确定发起所述手部手势所处的第一手部位置，并且确定完成所述手部手势所处的第二手部位置。

3.如权利要求2所述的方法，其中修改所述空间音频参数包括：将包括在所述音频流中的音频事件从声音空间中的与所述第一手部位置相关联的第一位置朝所述声音空间中的与所述第二手部位置相关联的第二位置移动。

4.如权利要求3所述的方法，其中所述手部手势包括抓取手势。

5.如权利要求3所述的方法，其中修改所述空间音频参数还包括经由物理模型确定对应于所述音频事件的第一虚拟对象和对应于所述用户的所述手部的第二虚拟对象之间的交互。

6.如权利要求1所述的方法，其中所述传感器数据包括图像数据和深度数据中的至少一个。

7.如权利要求6所述的方法，其还包括响应于检测所述至少一个手部位置与所述虚拟对象之间的所述交集，使得听觉反馈被生成。

8.一种用于基于手势来修改音频参数的系统，包括：

至少一个传感器，其被配置来获取与用户的手部相关联的传感器数据；

处理器，其耦接到所述至少一个传感器并配置来：

分析所述传感器数据以确定至少一个手部位置；

基于所述至少一个手部位置来检测手部手势；以及

响应于所述手部手势，将包括在音频流中的第一音频事件从声音空间中的第一位置朝所述声音空间中的第二位置移动以生成修改的音频流；

反馈装置，其被配置来响应于检测所述至少一个手部位置和与所述第一音频事件相关联的虚拟对象之间的交集在所述用户上产生触觉反馈；以及

扬声器，其耦接到所述处理器并被配置来再现所述修改的音频流，

其中所述第二位置对应于所述声音空间的第一侧，并且所述处理器还被配置成，响应于所述手部手势，将包括在所述音频流中的第二音频事件朝所述声音空间的第二侧移动。

9.如权利要求8所述的系统，其中所述手部手势包括拆分手势。

10.如权利要求8所述的系统，其中所述处理器被配置来分析所述传感器数据以确定发起所述手部手势所处的第一手部位置和完成所述手部手势所处的第二手部位置，并且其中所述声音空间中的所述第一位置与所述第一手部位置相关联，所述声音空间中的所述第二位置与所述第二手部位置相关联。

11.如权利要求10所述的系统，其中所述手部手势包括推动手势和扫划手势中的至少一个。

12.如权利要求10所述的系统，其中所述处理器被配置来通过确定所述第一手部位置和所述第二手部位置之间的距离来移动所述第一音频事件。

13.如权利要求8所述的系统，其中所述至少一个传感器包括第一传感器和第二传感器，并且其中所述处理器被配置来通过确定相对于所述第二传感器的第二位置的所述第一传感器的第一位置来确定所述至少一个手部位置。

14.如权利要求8所述的系统，其中所述处理器被配置来基于头部相关传递函数来将所述第一音频事件从所述声音空间中的所述第一位置朝所述声音空间中的所述第二位置移动。

15.如权利要求8所述的系统，其中所述处理器还被配置来响应于检测所述至少一个手部位置和与所述第一音频事件相关联的虚拟对象之间的交集而使所述扬声器产生听觉反馈。

16.一种非暂态计算机可读存储介质，其包括当由处理器执行时通过执行以下步骤而使所述处理器基于手势来修改音频参数的指令：

分析所述传感器数据以确定第一手部位置和第二手部位置；

基于所述第一手部位置和所述第二手部位置来检测手部手势，其中所述手势包括拆分手势；

响应于所述拆分手势，通过将包括在所述音频流中的第一音频事件朝声音空间的第一侧移动，并且将包括在所述音频流中的第二音频事件朝所述声音空间的第二侧移动来修改与音频流相关联的空间音频参数以生成修改的音频流；以及

使所述修改的音频流再现用于输出给所述用户。