CN113168225B

CN113168225B - 使用无监督机器学习来定位用于回声定位的空间化声音节点

Info

Publication number: CN113168225B
Application number: CN201980076681.0A
Authority: CN
Inventors: S·S·阿拉博卢; W·J·德雷维斯; B·M·阿泰加; N·巴拉钱德尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-11-21
Filing date: 2019-11-07
Publication date: 2024-03-01
Anticipated expiration: 2039-11-07
Also published as: EP3864494B1; US20200158865A1; EP3864494A1; US11287526B2; WO2020106458A1; CN113168225A

Abstract

本文中所描述的是用于生成回声定位声音以帮助没有视力或视力受限的用户导航三维空间(例如，物理环境、计算机游戏体验和/或虚拟现实体验)的系统。从用户接收输入以生成用以导航三维空间的回声定位声音。至少基于接收到的输入，使用无监督机器学习算法将三维空间的数字表示分段为一个或多个深度平面。针对每个深度平面，针对特定深度平面内的每个对象，确定对象分段；根据由经确定的分段所限定的每个对象的深度级别和表面积来确定多个回声声音节点的位置；以及生成包括来自源于经确定的定位的每个回声声音节点的空间化声音的回声定位声音。

Description

使用无监督机器学习来定位用于回声定位的空间化声音节点

背景技术

回声定位通过发射听觉声音并且收听由附近对象产生的声波的反射来允许人们感知人们的周围环境。视觉受损的人们可以利用回声定位来导航。

发明内容

本文中所描述的是用于生成回声定位声音以帮助用户导航三维空间的系统，包括：处理系统，包括处理器和存储器，该存储器具有存储在其上的计算机可执行指令，当该计算机可执行指令由处理器执行时，使处理系统：接收来自用户的输入以生成用以导航三维空间的回声定位声音；至少基于接收到的输入：使用无监督机器学习算法将三维空间的数字表示分段为一个或多个深度平面；针对每个深度平面，确定针对特定深度平面内的每个对象的对象分段；根据由经确定的分段所限定的每个对象的深度级别和表面积来确定多个回声声音节点的位置；以及生成回声定位声音，该回声定位声音包括来自源于经确定的定位的每个回声声音节点的空间化声音。

提供本发明内容以简化形式介绍了挑选的概念，该概念将在下面的详细描述中进一步描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用来限制所要求保护的主题的范围。

附图说明

图1是图示了用于生成回声定位声音以帮助用户导航三维空间的系统的功能框图。

图2是图示示例性初始深度级别的示图。

图3是图示示例性深度级别和分段对象的示图。

图4是图示位于对象上的示例性回声节点的示图。

图5是图示生成回声定位声音以帮助用户在三维空间中导航的方法的流程图。

图6是图示了生成回声定位声音以帮助用户导航三维空间的方法的流程图。

图7是图示了示例性计算系统的功能框图。

具体实施方式

现在参考附图来描述与生成用以帮助用户导航三维空间的回声定位声音有关的各种技术，其中相似的附图标记始终被用来指代相似的要素。在以下描述中，出于解释的目的，阐述了许多具体细节以便提供对一个或多个方面的透彻理解。然而，明显的是，该(多个)方面可以在没有这些具体细节的情况下被实践。在其他实例中，公知的结构和设备以框图形式被示出，以便有利于描述一个或多个方面。进一步地，应理解，被描述为由某些系统组件执行的功能性可以由多个组件执行。类似地，例如，组件可以被配置为执行被描述为由多个组件执行的功能性。

主题公开支持执行或被配置为执行关于生成用以帮助用户导航三维空间的回声定位声音的各种动作的各种产品和过程。以下是一个或多个示例性系统和方法。

主题公开的方面与帮助(例如，没有视力或视力受限的)用户导航三维空间(例如，物理环境、计算机游戏体验和/或虚拟现实体验)的技术问题有关。与解决该问题相关联的技术特征涉及从用户接收输入以生成用于导航三维空间的回声定位声音；至少基于(例如，响应于)接收到的输入：使用无监督机器学习算法将三维空间的数字表示分段为一个或多个深度平面；针对每个深度平面，确定针对特定深度平面内的每个对象的对象分段；根据由经确定的分段所限定的每个对象的深度级别和表面积，确定多个回声声音节点的位置；以及生成回声定位声音，该回声定位声音包括来自源于经确定的位置的每个回声声音节点的空间化声音。因此，这些技术特征的方面表现出更高效地并且有效地帮助没有视力或视力受限的用户使用计算机生成的回声定位声音来在三维空间中导航的技术效果。

此外，术语“或”旨在表示包括性的“或”而不是排他性的“或”。即，除非另有规定或从上下文中清楚得知，否则短语“X采用A或B”旨在表示任何自然的包括性排列。即，短语“X采用A或B”由以下实例中的任一来满足：X采用A；X采用B；或X采用A和B。此外，在该申请和所附权利要求中所使用的冠词“一(a)”和“一(an)”通常应被解释为表示“一个或多个”，除非另有规定或从上下文中清楚得知冠词“一(a)”和“一(an)”指向单数形式。

如本文中所使用的，术语“组件”和“系统”及其各种形式(例如，组件、系统、子系统等)旨在指代与计算机有关的实体，或指代硬件、硬件和软件的组合、软件或正在执行的软件。例如，组件可以是但不限于在处理器上运行的过程、处理器、对象、实例、可执行文件、执行线程、程序和/或计算机。通过说明，在计算机上运行的应用和计算机均可以是组件。一个或多个组件可以驻留在执行的过程和/或线程内，并且组件可以定位在一个计算机上和/或分布在两个或多个计算机之间。进一步地，如本文中所使用的，术语“示例性”旨在表示用作某事物的图示或示例，而并非旨在指示优先。

没有视力或低视力的(多个)人可能难以导航例如与游戏体验相关联的物理世界和/或虚拟世界。回声定位允许没有视力或低视力的人响应于发射的听觉声音并且通过收听由附近对象产生的声波的反射来感知人的周围环境。

本文中所描述的是生成用以帮助用户导航三维空间(例如，物理空间和/或虚拟环境)的回声定位声音的系统和方法。响应于生成用以以导航三维空间的回声定位声音的用户输入(例如，请求)，与三维空间(例如，计算机图像)相关联的表示使用无监督机器学习算法(例如，聚类算法)(从用户的视角)被分段为深度级别(例如，平面)。针对每个深度级别，对象分段针对特定深度级别内的每个对象来确定。根据由经确定的分段所限定的每个对象的深度级别和表面积来确定多个回声声音节点的位置(例如，预定的数量和/或基于三维空间而动态确定)。生成包括来自每个回声声音节点的空间化声音的回声定位声音，该每个回声声音节点源于经确定的位置。例如，与较近和/或较大的对象相关联的空间化声音相对于与较远和/或较小的对象相关联的空间化声音可以更大声。

在一些实施例中，系统和方法可以提供能够与(多个)三维游戏合并以允许更广泛的玩家群体(例如，视力受限的(多个)用户和/或无视力的(多个)用户)的可访问性特征。由系统和方法提供的空间音频提示可以允许用户导航三维游戏。例如，使用无监督机器学习，系统和方法可以针对每个回声声音节点确定最好/最佳位置和声音，以便帮助用户导航三维空间。

参照图1，图示了用于生成回声定位声音以帮助用户导航三维空间的系统100。系统100可以通过定位回声声音节点并且从回声声音节点生成回声定位声音来帮助没有视力或低视力的(多个)人导航物理世界和/或虚拟世界(例如，游戏体验)。

系统100包括输入组件110，该输入组件110接收来自用户的输入以生成回声定位声音来帮助导航三维空间。在一些实施例中，输入可以经由输入设备(例如，诸如鼠标、轨迹球、触控笔、触摸板、键盘、麦克风、操纵杆、游戏板、卫星天线、扫描仪、相机、其他计算机等的定点设备)来接收。在一些实施例中，输入可以经由例如虚拟现实/增强现实耳机的按钮或触敏输入来接收。在一些实施例中，输入可以是经由麦克风接收到的语音命令。在一些实施例中，输入可以基于用户的(多个)手势和/或(多个)运动来推断。

在一些实施例中，输入可以基于手势，例如，来自各种触摸(例如，(多个)触摸屏)和/或动作敏感系统(例如，虚拟现实可视化/操纵系统)的手势。在一些实施例中，输入组件110可以从手势敏感显示器和/或从不相干的显示器和传感器(未示出)接收手势，该手势敏感显示器可以是具有显示器和传感器的集成系统。在一些实施例中，输入组件110可以经由虚拟现实可视化/操纵系统(未示出)或增强现实可视化/操纵系统(未示出)来接收手势。虚拟现实可视化/操纵系统和/或增强现实可视化/操纵系统可以包括加速度计/陀螺仪、3D显示器、头跟踪、眼跟踪、凝视跟踪和/或沉浸式增强现实系统。

在一些实施例中，三维空间包括计算机生成的游戏体验。例如，三维空间可以经由计算机显示器(例如，LCD、LED、等离子)、虚拟现实耳机和/或增强现实耳机来显示。在一些实施例中，当用户使用由系统100生成的回声定位声音来导航三维空间时，三维空间不被显示给用户(因为用户没有视力或视力受限)。在一些实施例中，三维空间包括虚拟现实、混合现实和/或增强现实环境。

在一些实施例中，三维空间包括物理环境。例如，三维空间的数字表示可以使用数字相机、三维相机和/或深度相机来捕获。例如，表示可以基于来自深度感测相机的(多个)深度图像来生成。

系统100还包括(多个)深度平面组件120，该(多个)深度平面组件120响应于接收到的输入，使用无监督机器学习算法将三维空间的数字表示分段为一个或多个(多个)深度平面。在一些实施例中，三维空间的数字表示基于用户的当前(例如，静止的)位置。在一些实施例中，三维空间的数字表示基于用户的预测或推断位置(例如，基于用户在物理环境和/或计算机生成的虚拟环境中移动的方向和速度)。

在一些实施例中，当三维空间包括计算机生成的游戏体验时，数字表示可以是根据(例如，定向的或行进方向上的)用户视角的游戏体验的视图。在一些实施例中，当三维空间包括虚拟现实、混合现实和/或增强现实环境时，数字表示可以是根据(例如，定向的或行进方向上的)用户视角的虚拟现实、混合现实和/或增强现实环境的视图。在一些实施例中，当三维空间包括物理环境时，数字表示可以是从用户视角获得的物理环境(例如，图像和/或三维图像)的视图(例如，定向视图或行进方向上的视图)。

在一些实施例中，三维空间的数字表示形成深度平面的分段可以基于预定数量的平面和关联距离(例如，(1)零到五英尺、(2)大于五英尺到十英尺、和(3)大于十英尺的三个平面)来执行。在一些实施例中，三维空间的数字表示形成深度平面的分段可以使用聚类算法来执行，以标识适当数量的簇(例如，深度平面)。在一些实施例中，聚类算法包括采用肘部法则(elbow method)的k均值聚类算法(例如，其中k等于数据簇的数目)，该肘方法检查作为簇数目的函数的方差百分比。例如，簇的数目(k)可以在来自附加数目的簇的边际增益下降(例如，在阈值量以下)的点处来选择。以该方式，簇的最佳数量可以被确定，其中添加附加的(多个)簇将不显著有益于数据的建模。

一旦三维空间的表示已被分段为(多个)深度平面，对象分段组件130可以针对每个深度级别来确定针对特定深度级别内的(多个)对象的对象分段。在一些实施例中，对象分段组件130可以利用无监督机器学习算法来确定对象分段。这些经确定的分段可以在特定深度级别处限定特定对象的表面积。参照图2，示出了图示示例性初始深度级别的示图200。转到图3，示图300示出了图2的示图200的示例性深度级别和分段的对象。图解300包括四个深度级别310、320、330和340。

返回参照图1，接下来，空间节点定位组件140根据由经确定的分段所限定的对象的深度级别和表面积来确定针对多个回声声音节点中的每个多个回声声音节点的位置。在一些实施例中，回声声音节点的数量是预定的(例如，三十)。在一些实施例中，回声声音节点的数量基于对象的表面积及它们关联的深度级别而被动态地确定。在一些实施例中，回声声音节点的数量不超过预定的最大数量(例如三十)。在一些实施例中，回声声音节点的数量大于或等于预定的最小数量(例如，三)。

在一些实施例中，回声声音节点可以以深度的递减顺序来放置，并且(例如，基于由经确定的对象分段所限定的特定对象的表面积)与特定对象的尺寸和形状相称。简要地参照图4，示图400示出了位于图2和图3的对象上的示例性回声声音节点410。

在一些实施例中，由第一回声声音节点生成的第一声音可以以高音量和短延迟来输出，以指示对象接近用户。由第二回声声音节点生成的第二声音可以以比第一声音更低的音量和更长的延迟来输出，以指示第二对象比第一对象离用户更远。

系统100包括声音生成组件150，该声音生成组件150生成回声定位声音，每个回声定位声音包括空间化声音，该空间化声音源于在经确定的位置处的特定回声声音节点。系统100包括输出组件160，该输出组件160向用户提供所生成的回声定位声音。在一些实施例中，回声定位声音通过(多个)计算机扬声器、耳机(例如，立体声、虚拟现实、增强现实、混合现实)和/或房间扬声器来提供。

在一些实施例中，所生成的回声定位声音可以使用以下来提供：基于声道的音频输出(例如，利用杜比5.1环绕声系统)、球形声音表示(例如，环境立体声、高阶环境立体声)和/或基于对象的音频输出。

在一些实施例中，所生成的回声定位声音可以经由头戴式设备向用户提供，该头戴式设备被配置为基于头部相关传递函数(HRTF)来修改音频信号以产生与回声定位声音相对应的空间化音频信号。HRTF基于模拟定位来修改音频信号以解释音频信号的音量和方向感知的变化，音频信号源于该模拟位置(例如，(多个)回声声音节点)。

图5和图6图示了与生成回声定位声音以帮助用户在三维空间中导航有关的示例性方法。虽然方法作为按顺序执行的一系列动作来示出和描述，但应理解和领会，方法不受顺序的限制。例如，一些动作可以以与本文中描述的顺序不同的顺序发生。另外，动作可以与另一动作同时发生。进一步地，在一些实例中，实现本文中所描述的方法可能不需要所有动作。

此外，本文中所描述的动作可以是计算机可执行指令，该计算机可执行指令可以由一个或多个处理器来实现，和/或存储在(多个)计算机可读介质上。计算机可执行指令可以包括例程、子例程、程序、执行线程、和/或诸如此类。更进一步，方法的动作的结果可以存储在计算机可读介质中，显示在显示器设备上，和/或诸如此类。

参照图5，生成回声定位声音以帮助用户导航三维空间500的方法被图示。在一些实施例中，方法500由系统100执行。

在510处，输入从用户接收以生成用以导航三维空间的回声定位声音。在520处，至少基于(例如，响应于)接收到的输入，三维空间的数字表示使用无监督机器学习算法(例如，从用户的视角)被分段为一个或多个深度平面。

在530处，针对每个深度平面，对象分段针对特定深度平面内的每个对象来确定。在540处，多个回声声音节点的定位根据由经确定的分段所限定的每个对象的深度级别和表面积来确定。

在550处，回声定位声音被生成，该回声定位声音包括来自源于经确定的位置的每个回声声音节点的空间化声音。在一些实施例中，所生成的回声定位声音可以使用以下来提供：基于声道的音频输出(例如，利用杜比5.1环绕声系统)、球形声音表示(例如，环境立体声、高阶环境立体声)和/或基于对象的音频输出。

转到图6，生成回声定位声音以帮助用户导航三维空间600的方法被图示。在一些实施例中，方法600由系统100执行。

在610处，从用户接收输入以生成用以导航三维空间的回声定位声音。在620处，三维空间的数字表示被捕获。例如，三维空间的数字表示可以使用数字相机、三维相机和/或深度相机来捕获。

在630处，响应于接收到的输入，三维空间的数字表示使用无监督机器学习算法(例如，从用户的视角)被分段为一个或多个深度平面。

在640处，针对每个深度平面，对象分段针对特定深度平面内的每个对象来确定。在650处，多个回声声音节点的位置根据由经确定的分段所限定的每个对象的深度级别和表面积来确定。

在660处，回声定位声音被生成，该回声定位声音包括来自源于经确定的位置的每个回声声音节点的空间化声音。在一些实施例中，所生成的回声定位声音可以使用以下来提供：基于声道的音频输出(例如，利用杜比5.1环绕声系统)、球形声音表示(例如，环境立体声、高阶环境立体声)和/或基于对象的音频输出。

本文中所描述的是用于生成回声定位声音以帮助用户导航三维空间的系统，该系统包括：处理系统，包括一个或多个处理器；以及存储器，具有存储在其上的计算机可执行指令，当该计算机可执行指令由一个或多个处理器执行时，使处理系统：接收来自用户的输入以生成用以导航三维空间的回声定位声音；至少基于接收到的输入：使用无监督机器学习算法将三维空间的数字表示分段为一个或多个深度平面；针对每个深度平面，针对特定深度平面内的每个对象来确定对象分段；根据由经确定的分段所限定的每个对象的深度级别和表面积来确定多个回声声音节点的位置；以及生成回声定位声音，该回声定位声音包括来自源于经确定的位置的每个回声声音节点的空间化声音。

系统可以还包括，其中无监督机器学习算法包括聚类算法，其中由该聚类算法标识的每个簇包括深度级别。

系统可以包括存储器，该存储器具有存储在其上的进一步计算机可执行指令，当该计算机可执行指令由一个或多个处理器执行时，使处理系统：捕获三维空间的数字表示。系统可以还包括，其中三维空间的数字表示使用数字相机、三维相机或深度相机中的至少一个来捕获。系统可以还包括，其中回声定位声音由虚拟现实耳机、混合现实耳机或增强现实耳机中的至少一个来生成。系统可以还包括，其中回声定位声音使用基于声道的音频输出、球形声音表示或基于对象的音频输出中的至少一个来生成。

系统可以还包括，其中输入基于用户的手势或移动中的至少一个来推断。系统可以还包括，其中输入基于用户的手势。系统可以还包括，其中三维空间包括计算机生成的游戏体验。系统可以还包括，其中三维空间包括物理环境。

本文中所描述的是生成回声定位声音以帮助用户导航三维空间的方法，包括：接收来自用户的输入以生成用以导航三维空间的回声定位声音；至少基于接收到的输入：使用无监督机器学习算法将三维空间的数字表示分段为一个或多个深度平面；针对每个深度平面，确定针对特定深度平面内的每个对象的对象分段；根据由经确定的分段所限定的每个对象的深度级别和表面积来确定多个回声声音节点的位置；以及生成回声定位声音，该回声定位声音包括来自源于经确定的位置的每个回声声音节点的空间化声音。

方法可以还包括，其中无监督机器学习算法包括采用肘部法则的k均值聚类算法，该k均值聚类算法检查作为簇数目的函数的方差百分比以确定多个簇。方法可以还包括，使用数码相机、三维相机或深度相机中的至少一个来捕获三维空间的数字表示。

方法可以还包括，其中回声定位声音由虚拟现实耳机、混合现实耳机或增强现实耳机中的至少一个来生成。方法可以还包括，其中回声定位声音使用基于声道的音频输出、球形声音表示或基于对象的音频输出中的至少一个来生成。方法可以还包括，其中三维空间包括计算机生成的游戏体验。

本文中所描述的是计算机存储介质，该计算机存储介质存储计算机可读指令，该计算机可读指令在被执行时使计算设备：接收来自用户的输入以生成用以导航三维空间的回声定位声音；至少基于接收到的输入：使用无监督机器学习算法将三维空间的数字表示分段为一个或多个深度平面；针对每个深度平面，确定针对特定深度平面内的每个对象的对象分段；根据由经确定的分段所限定的每个对象的深度级别和表面积来确定多个回声声音节点的位置；以及生成回声定位声音，该回声定位声音包括来自源于经确定的位置的每个回声声音节点的空间化声音。

计算机存储介质可以还包括，其中无监督机器学习算法包括聚类算法，其中由聚类算法所标识的每个簇包括深度级别。计算机存储介质可以还包括，其中回声定位声音由虚拟现实耳机、混合现实耳机或增强现实耳机中的至少一个来生成，以及其中回声定位声音使用基于声道的音频输出、球形声音表示或基于对象的音频输出中的至少一个来生成。计算机存储介质可以还包括，其中三维空间包括计算机生成的游戏体验。

参考图7，所图示的是示例通用处理系统、计算机或计算设备702(例如，移动电话、台式机、膝上型计算机、平板电脑、手表、服务器、手持式、可编程的消费者或工业用电子产品、机顶盒、游戏系统、计算节点等)。例如，计算设备702可以在用于生成回声定位声音以帮助用户在三维空间100中导航的系统中使用。

计算机702包括一个或多个(多个)处理器720、存储器730、系统总线740、(多个)大容量存储设备750和一个或多个接口组件770。系统总线740通信地耦合至少以上系统成分。然而，应理解，计算机702以其最简单的形式可以包括被耦合到存储器730的一个或多个处理器720，该处理器720执行存储在存储器730中的各种计算机可执行动作、指令和/或组件。指令可以是例如用于实现被描述为由以上所讨论的一个或多个组件执行的功能性的指令，或可以是用于实现以上所述的方法中的一个或多个方法的指令。

(多个)处理器720可以利用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、分立的门或晶体管逻辑、分立的硬件组件或被设计以执行本文中所述的功能的其任何组合。通用处理器可以是微处理器，但备选地，处理器可以是任何处理器、控制器、微控制器或状态机。(多个)处理器720也可以被实现为计算设备的组合，例如DSP和微处理器的组合、多个微处理器、多核处理器、与DSP核相结合的一个或多个微处理器或任何其他该配置。在一个实施例中，(多个)处理器720可以是图形处理器。

计算机702可以包括各种计算机可读介质或以其他方式与各种计算机可读介质交互，以有利于控制计算机702实现所要求保护的主题的一个或多个方面。计算机可读介质可以是能够由计算机702访问的任何可用介质，并且包括易失性介质和非易失性介质以及可移动介质和不可移动介质。计算机可读介质可以包括两个不同并且互斥的类型，即计算机存储介质和通信介质。

计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术来实现的易失性介质和非易失性介质、可移动介质和不可移动介质。计算机存储介质包括诸如存储器设备(例如，随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)等)、磁存储设备(例如，硬盘、软盘、盒式录音带、磁带等)、光盘(例如，压缩盘(CD)、数字通用盘(DVD)等)和固态设备(例如，固态驱动器(SSD)、闪存驱动器(例如，卡、棒、键驱动器)等)的存储设备或与发送或传达由计算机702可访问的所需信息相反的任何其他类似介质。因此，计算机存储介质不包括调制数据信号以及关于通信介质而描述的调制数据信号。

通信介质在诸如载波或其他传输机制的调制数据信号中体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传递介质。术语“调制数据信号”是指具有以将信息编码在信号中的该方式来设置或改变其特性中的一个或多个特性的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质和诸如声学、RF、红外和其他无线介质的无线介质。

存储器730和(多个)大容量存储设备750是计算机可读存储介质的示例。取决于计算设备的确切配置和类型，存储器730可以是易失性的(例如，RAM)、非易失性的(例如，ROM、闪存等)或两者的某组合。作为示例，基本输入/输出系统(BIOS)(包括诸如在启动期间在计算机702内的要素之间传递信息的基本例程)可以存储在非易失性存储器中，而易失性存储器可以充当外部高速缓存存储器以有利于处理器720的处理等等。

(多个)大容量存储设备750包括用于存储相对于存储器730的大量数据的可移动计算机存储介质/不可移动计算机存储介质、易失性计算机存储介质/非易失性计算机存储介质。例如，(多个)大容量存储设备750包括但不限于一个或多个设备，诸如磁盘驱动器或光盘驱动器、软盘驱动器、闪存、固态驱动器或记忆棒。

存储器730和(多个)大容量存储设备750可以包括或已在其上存储有以下：操作系统760、一个或多个应用762、一个或多个程序模块764和数据766。操作系统760用作控制和分配计算机702的资源。应用762包括系统和应用软件中的一个或两个，并且可以通过存储在存储器730和/或(多个)大容量存储设备750中的程序模块764和数据766来开发操作系统760对资源的管理，以执行一个或多个动作。因此，应用762可以根据其提供的逻辑将通用计算机702转变成专业机器。

所要求保护的主题的全部或部分可以使用标准编程和/或工程技术来实现，以产生软件、固件、硬件或其任何组合来控制计算机以实现所公开的功能性。作为示例而非限制，系统100或其部分可以是应用程序762或形成应用程序762的部分，并且包括存储在存储器和/或(多个)大容量存储设备750中的一个或多个模块764和数据766。一个或多个模块764和数据766当由一个或多个(多个)处理器720执行时可以实现其功能性。

根据一个特定实施例，(多个)处理器720可以对应于片上系统(SOC)或类似架构，该类似架构包括在单个集成电路衬底上的硬件和软件，或换言之，将硬件和软件集成在单个集成电路衬底上。这里，(多个)处理器720可以包括一个或多个处理器以及至少类似于(多个)处理器720和存储器730的存储器等等。常规处理器包括最少数量的硬件和软件，并且广泛依赖于外部硬件和软件。相反，处理器的SOC实现更为强大，因为它在其中嵌入了可以实现特定功能性的硬件和软件，而对外部硬件和软件的依赖最少或没有依赖。例如，系统100和/或相关联的功能性可以被嵌入在SOC架构中的硬件内。

计算机702还包括一个或多个接口组件770，该一个或多个接口组件770被通信耦合到系统总线740，并且有利于与计算机702的交互。作为示例，接口组件770可以是端口(例如，串行、并行、PCMCIA、USB、FireWire等)或接口卡(例如声音、视频等)等。在一个示例实现中，接口组件770可以被体现为用户输入/输出接口，以使用户能够例如通过一个或多个手势或语音输入经由一个或多个输入设备(例如，诸如鼠标、轨迹球、触控笔、触摸板、键盘、麦克风、操纵杆、游戏板、卫星天线、扫描仪、相机、其他计算机等的定点设备)来将命令和信息输入到计算机702中。在另一示例实现中，接口组件770可以被体现为输出外围接口，以将输出提供给显示器(例如，LCD、LED、等离子等)、扬声器、打印机和/或其他计算机等等。再更进一步，接口组件770可以被体现为网络接口，以使得能够与诸如在有线或无线通信链路上的其他计算设备(未示出)通信。

以上已描述的内容包括所要求保护的主题的方面的示例。当然，针对描述所要求保护的主题的目的，不可能描述组件或方法的每一可想象的组合，但本领域的普通技术人员可以认识到，所公开的主题的许多进一步的组合和排列是可能的。因此，所公开的主题旨在涵盖落入所附权利要求的精神和范围内的所有该更改、修改和变化。另外，就在详细描述或权利要求中使用术语“包括”来说，该术语旨在以与术语“包含”类似的方式被包括在内，因为“包含”在权利要求中用作过渡词时被解释。

Claims

1. 一种用于生成回声定位声音的系统，包括：

一个或多个处理器；以及

存储器，所述存储器具有存储在其上的计算机可执行指令，所述计算机可执行指令由所述一个或多个处理器执行时，使所述系统：

使用无监督机器学习算法将三维空间的数字表示分段为两个或多个深度平面；

确定针对相应深度平面内的相应对象的对象分段；

确定所述相应对象的相应表面区域；

至少基于为所述相应对象确定的所述相应表面区域以及所述相应对象的所述深度平面，选择所述三维空间中的第一个多个离散位置，以用于将第一多个回声声音节点放置在第一深度平面中的第一对象上，并选择所述三维空间中的第二多个离散位置中，以用于将第二多个回声声音节点放置在第二深度平面中的第二对象上，其中所述三维空间中的至少一些其他位置未被选择以接收回声声音节点；

将所述第一多个回声声音节点放置在所述第一对象上的所述第一多个离散位置处，并且将所述第二多个回声声音节点放置在第二对象上的所述第二多个离散位置处；以及

生成源于所述第一多个回声声音节点和所述第二多个回声声音节点的多个空间化的回声定位声音。

2.根据权利要求1所述的系统，其中所述无监督机器学习算法包括聚类算法，由所述聚类算法标识的每个簇包括不同的深度级别。

3.根据权利要求1所述的系统，所述存储器还具有存储在其上的计算机可执行指令，所述计算机可执行指令当由所述一个或多个处理器执行时使所述系统：

捕获所述三维空间的所述数字表示。

4.根据权利要求3所述的系统，其中所述三维空间的所述数字表示使用以下中的至少一个来捕获：数码相机、三维相机或深度相机。

5.根据权利要求1所述的系统，其中所述多个空间化的回声定位声音由虚拟现实耳机、混合现实耳机或增强现实耳机中的至少一个来生成。

6.根据权利要求1所述的系统，其中所述多个空间化的回声定位声音使用基于声道的音频输出、球形声音表示或基于对象的音频输出中的至少一个来生成。

7.根据权利要求1所述的系统，所述存储器还具有存储在其上的计算机可执行指令，所述计算机可执行指令由所述一个或多个处理器执行时，使所述系统：

基于用户的运动，推断用以请求所述多个空间化的回声定位声音的输入。

8. 根据权利要求1所述的系统，所述存储器还具有存储在其上的计算机可执行指令，所述计算机可执行指令由所述一个或多个处理器执行时，使所述系统：

检测用户的手势；以及

响应于检测到所述手势，生成所述多个空间化的回声定位声音的输入。

9.根据权利要求1所述的系统，其中所述三维空间包括计算机生成的游戏体验。

10.根据权利要求1所述的系统，其中所述三维空间包括物理环境。

11.一种生成回声定位声音的方法，包括：

接收来自用户的输入以生成用以导航三维空间的回声定位声音；

响应于接收到的所述输入：

使用无监督机器学习算法将所述三维空间的数字表示分段为两个或多个深度平面；

确定针对相应深度平面内的相应对象的对象分段；

确定所述相应对象的相应表面区域；

12.根据权利要求11所述的方法，其中所述无监督机器学习算法包括采用肘部法则的k均值聚类算法，所述k均值聚类算法检查作为簇数目的函数的方差百分比以确定多个簇。

13.根据权利要求11所述的方法，还包括：

使用以下中的至少一个来捕获所述三维空间的所述数字表示：数码相机、三维相机或深度相机。

14.根据权利要求11所述的方法，其中所述多个空间化的回声定位声音由虚拟现实耳机、混合现实耳机或增强现实耳机中的至少一个来生成。

15.根据权利要求11所述的方法，其中所述多个空间化的回声定位声音使用基于声道的音频输出、球形声音表示或基于对象的音频输出中的至少一个来生成。

16.根据权利要求11所述的方法，其中所述第一多个回声声音节点的数目大于所述第二多个回声声音节点。

17.根据权利要求16所述的方法，其中生成所述多个回声定位声音包括：对源于所述第一多个回声声音节点的第一声音应用不同于源于所述第二多个回声声音节点的第二声音的音量和延迟。

18.一种存储计算机可读指令的计算机存储介质，所述计算机可读指令在被执行时使计算设备：

确定针对相应深度平面内的相应对象的对象分段；

确定所述相应对象的相应表面区域；

19.根据权利要求18所述的计算机存储介质，其中所述无监督机器学习算法包括聚类算法，由所述聚类算法标识的每个簇包括不同的深度级别。

20.根据权利要求19所述的计算机存储介质，其中所述多个空间化的回声定位声音由虚拟现实耳机、混合现实耳机或增强现实耳机中的至少一个来生成，并且其中所述多个空间化的回声定位声音使用基于声道的音频输出、球形声音表示或基于对象的音频输出中的至少一个来生成。