CN112204640B

CN112204640B - 针对视觉受损者的辅助设备

Info

Publication number: CN112204640B
Application number: CN201980035570.5A
Authority: CN
Inventors: D·穆克霍帕德亚
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-05-28
Filing date: 2019-05-13
Publication date: 2022-07-08
Anticipated expiration: 2039-05-13
Also published as: CN112204640A; US20190362149A1; EP3803836A1; US10909372B2; WO2019231643A1

Abstract

公开了用于使用辅助设备提供听觉感觉替代的设备、系统和方法。真实世界中的对象通过深度相机来观察，并且进行分类。该分类用于标识与对象相对应的声音。在某些情况下，对象的位置也可以用于标识声音。该设备被配置为允许视力受损的选手参加运动事件。

Description

针对视觉受损者的辅助设备

背景技术

据估计，世界人口中有15％有残疾。在很多情况下，具有残疾的人在他们的社会的社会经济活动中处于边缘地位。与不具有残疾的人相比，具有残疾的人被认为更少可能参加体育、娱乐和休闲活动。

体育或运动竞赛的概念已经被认为具有独特属性，其可以促进社会发展进程并且增加社会包容。参加体育运动已经被视为一项基本权利，但它对具有残疾的人生活的影响可能尤为重要。参加体育运动的具有残疾的人表现出成就感、改进的自我概念和自尊、更好的社交技能、以及增强的移动性和独立性。虽然这些好处类似于不具有残疾的人，但是鉴于具有残疾的人有被排除在其他社会活动之外的经历，因此其积极成果对具有残疾的人来说更为重要。

辅助技术已帮助许多人规避、减轻或消除了对诸如体育竞赛等主要生活活动的障碍。这样的辅助技术被定义为这样的任何物品、设备或产品系统，无论其是从商业上还是从现成获取，无论其是经修改的还是定制的，这样的物品、设备或产品系统用于增加、维持或改进具有残疾的人功能性能力。

辅助技术的好处跨年龄、残疾和健康挑战的类别。从幼儿到老年人，人们可能会面临一系列身体和认知上的限制。如今，市场上有成千上万的辅助技术产品，以通过从简单到复杂的各种需求来帮助具有残疾的人。但是，用以增加视觉受损者在体育运动中的包容而做出的努力是有限的。因此，仍存在针对辅助技术的新的和改进的想法的显著空间，其以简单有效的方式使得视觉受损个体能够具有参加体育活动的能力。

发明内容

根据本公开的第一方面，一种辅助设备包括：相机，该相机包括一个或多个面向外部的图像传感器，被配置为捕获针对第一对象的第一图像数据，该第一对象被包括在由相机观察到的物理空间中；一个或多个处理器；以及一个或多个计算机可读介质。附加地，该一个或多个计算机可读介质包括指令，该指令在由一个或多个处理器执行时，使一个或多个处理器：基于所捕获的第一图像数据，自动地将第一对象分类为与第一对象分类相关联，至少基于第一对象与第一对象分类相关联，自动标识第一音频信号，以及通过被包括在辅助设备中的扬声器，发射第一音频信号。

根据第二方面，一种呈现与在相机的视场中所捕获的对象相对应的音频信号的方法包括：捕获针对第一对象的第一图像数据，第一对象被包括在由相机观察到的物理空间中，以及基于所捕获的第一图像数据，自动地将第一对象分类为与第一对象分类相关联。该方法还包括至少基于第一对象与第一对象分类相关联，自地动标识第一音频信号，以及通过被包括在辅助设备中的扬声器，发射第一音频信号。

提供本“发明内容”以便以简化的形式介绍一些概念，这些概念将在下面的“具体实施方式”中进一步描述。本“发明内容”既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本公开的任何部分中指出的任何或所有缺点的实现。

附图说明

附图仅通过示例而非限制的方式描绘了根据本教导的一种或多种实现。在附图中，相似的附图标记指代相同或相似的元素。此外，应当理解，附图不一定按比例绘制。

图1示出了用于使用辅助设备的系统和方法的一个示例；

图2是呈现了辅助设备的组件的实现的概念图；

图3是辅助设备的实现的立体图；

图4示出了辅助设备的实现的一些组件；

图5是呈现了标识图像中的特征的方法的实现的示意图；

图6A和6B描绘了视觉图像被转换为声景(soundscape)的一个示例；

图7是将特定音频信号分配给不同姿态的方法的实现；

图8图示了使用辅助设备的实现的盲人选手的一个示例；

图9是沿着相对于辅助设备的水平方向的可能对象定位的一个示例的示意图；

图10是沿着相对于辅助设备的垂直方向的可能对象定位的一个示例的示意图；

图11是棒球场的等距视图、以及可能音频信号的实现，该可能音频信号可以针对不同球轨迹而发射；

图12是呈现在辅助设备上执行的操作方法的一种实现的流程图；

图13是城市街区的一般表示，其中各种真实世界对象包围使用辅助设备的一种实现的个体；

图14是对两个个体进行通信的描绘，其中个体中的一个个体穿戴辅助设备的实现；

图15是示例计算设备的框图，该示例计算设备可以用于提供本文中所描述的机制的实现；以及

图16是示出被配置为从机器可读介质读取指令的示例机器的组件的框图。

具体实施方式

在以下详细描述中，通过示例的方式阐述了多个具体细节，以提供对相关教导的透彻理解。然而，显然，可以在没有这些细节的情况下实践本教导。在其他情况下，为了避免不必要地混淆本教导的各个方面，已经在相对较高的水平上在没有细节的情况下描述了公知的方法、过程、组件和/或电路系统。在以下材料中，对方向的指示(诸如“顶部”或“左侧”)仅用于在以下讨论中提供参考框架，而并非旨在指示所所描述的制品的所需要的、期望或预期的定向。

出于本申请的目的，术语“社会包容”(social inclusion)是指改进关于个体和群体参与社会的各方面的过程，即，提供基于根据他们的身份而弱势的群体的能力、机会和尊严。最有影响力的内部障碍之一来自具有残疾的人的态度和动机，尤其是自我意识和低水平的信心。通常，术语“残疾”(disability)可以被理解为描述实质上限制主要生活活动的任何身体或精神障碍。残疾包括但不限于学习障碍、失明或低视力、听力丧失、言语障碍和移动障碍。

以下描述提出了各种方法和系统的实现以用于促进视力受损的选手参与体育活动，尤其是关注棒球和垒球。然而，应当理解，以下实现中的一些或全部实现也可以容易适于或用于各种各样的体育活动中，诸如篮球、美式橄榄球、足球、保龄球、网球、射箭、排球、高尔夫、英式橄榄球、曲棍球和其他运动。此外，本文中描述的系统可以适于跨各种各样的应用和行业而使用，包括军事、教育、娱乐、研究和医疗保健。

为了本公开的目的，与失明相关联的各种术语(包括但不限于低视力、盲、法定盲、视力或视觉受损和其他这样的术语)将指代人的视敏度和/或视场的缩减。当个体在矫正之后(例如，使用眼镜或隐形眼镜)在其较好眼睛中具有的视敏度为20/70至20/200、或在矫正之后的视场被限制为20-40”时，该个体被标识为具有低视力。法定盲被定义为在矫正之后在较好眼睛中的视敏度小于20/200、或视场被限制为20”。此外，尽管具有法定盲的个体可能会有一些功能性残余视觉，但是被标识为盲的个体要么没有视觉、要么只有感知光的能力。

通常，本文中使用的术语“感觉替代”是指将一种类型的人类感觉信号或模态转换为另一模态的概念。例如，第一模态可以包括视觉信号，并且第二模态可以包括音频信号。其他模态可以包括基于触觉的信号、温度、前庭信号、味道、气味、以及可以被生物感觉器官感知的其他信号。感觉信号的这样的转化可以用于促进具有某种形式的感觉丧失、尤其是失明的个体的日常功能性。以下实现描述了一种设备，该设备被配置为应用感觉替代，以使得盲人能够通过他们的完整的感觉之一——在该情况中，通过他们的听觉——来处理视觉所得信息。在一种实现中，该设备被配备为通过相机接收视觉图像，并且将数据转换为音频传输，以用于使用户受益。因此，该设备可以用于将信息从第一感觉模态转化为第二感觉模态，并且允许盲人选手参与具有有视力的选手的活动。

作为总体概述，图1呈现了用于感觉替换的系统和方法在棒球比赛中的一种实现，其中具有视觉障碍的第一选手110在击球。第二选手120(具有正常视力)朝向第一选手110投掷。出于说明该球跨第一选手110与第二选手120之间的距离的运动的目的，随着球150移动，该球150以快照示出，其中虚线表示球随着时间的路径。另外，仅出于说明的目的，波形160被呈现在球150的所描绘的行程或飞行正上方。如果球本身在产生声音(诸如哔哔声、哨声、啁啾声、音乐或任何其他实质上连续或重复的声音)，则随着它的接近在第一选手110看来，该声音会具有在频率中的向上偏移。该波形160表示随着球朝着第一选手110移动，将与球150相关联的声音的频率中的一个可能偏移，如可能由第一选手110所听到的那样。可以理解，即使在嘈杂的环境或背景下，人类听觉系统通常也能够处理复杂且快速改变的声音模式，并且这种偏移将很容易辨别。

可以观察到的是，每个波之间的距离随着其接近第一选手而减小。例如，在第一波与第二波之间存在第一距离162，在第三波与第四波之间存在小于第一距离162的第二距离164，并且在第五波与第六波之间存在小于第二距离164的第三距离166。每个波之间的距离的该减小是由于多普勒效应引起的，多普勒效应每当声波的源相对于观察者移动时都可以观察到。通常，多普勒效应或多普勒频移可以被描述为由移动中的波源产生的效应，其中对于波源朝向其而接近的观察者，存在在频率中的明显的向上偏移，而对于波源从其远离的观察者，存在在频率中的明显的向下偏移。重要的是要注意，这种效应是频率中的明显改变，并且不是由源的频率的实际改变引起的。相反，该效应仅因为观察者(此处，第一选手110)与球150之间的距离减小而被观察到。

虽然波形160被引入作为音频发射球的可能表示，但是应当理解，图1中的球150实际上并未被配置为发射音频。而是，所描述的音频经由穿戴在头部上的辅助设备(“设备”)100被呈现给第一选手110。设备100包括轻重量、无线且实质上自含式(self-contained)的系统，该系统被配置为在体育比赛期间，辅助视力受损的选手。在一些实现中，设备100包括被配置为产生声音的系统，该声音例如通过不同的区域标记声音，来促进标识投手、捕手、守场员、垒位和其他真实世界对象。在一种实现中，设备100被配置为产生声音，该声音促进通过广播实质上连续的音频信号，来标识球的飞行。在另一实现中，设备100被配置为例如作为对简单手姿势的响应，来辅助用户标识选手、情绪、年龄、性别。现在将在下面关于图2-4呈现关于设备100的组件的附加细节。

在图2中，示出了用于辅助设备的系统200的代表性架构的一个示例。在不同实现中，系统200可以被配置为产生、广播、生成、发射或以其他方式输出声音，该声音与由系统200接收的各种输入相关联或相关。在一种实现中，系统200包括多个硬件组件(“硬件”)202和软件组件(“软件”)206。如本文中使用的，术语“组件”是指硬件、软件或固件的任何组合。硬件202可以包括深度感测相机(“深度相机”)212、音频输出设备(诸如，小扬声器或一组耳机222)、计算机处理器(“计算机”)232、功率源242和安装容器(mounting receptacle，“容器”)252。在一些实现中，深度相机212、耳机222、计算机处理器232和功率源242中的每项可以容易地从容器252移除，以进行清洁、维修或更换。在一种实现中，容器252可以被制造成具有特定固定部分和如下元件，该元件诸如口袋、磁体、钩环紧固件、螺钉、松紧带、带子、纽扣、拉链、或者其他紧固件，其可以在将组件插入容器252中或从容器252中移除组件时松开或拧紧。

在不同实现中，深度相机212可以包括被配置为检测在高光或低光设置中的对象、动作和/或运动的各种模块。例如，深度相机可以包括软件和硬件两者，包括但不限于RGB相机、红外相机、深度传感器和/或多阵列麦克风、以及针对以每个模块的相关联的编程性。在一种实现中，相机可以被配置为从深度传感器、彩色相机传感器和/或麦克风阵列接收信息。此外，深度相机可以包括一个或多个面向外部的图像传感器，被配置为捕获针对对象的图像数据，该对象在由深度相机所观察的物理空间中。

作为一个示例，可以使用Microsoft

设备的各种专有版本，包括Kinect1，2、以及与

的Project Kinect相关联的产品线。这样的设备可以允许灵敏且精确的手跟踪能力、高保真空间映射，同时保持小、轻重量和功率高效。在一些情况下，(多个)相机可以被配置为检测实质上小的变化，诸如手指移动，面部表情和心率(参见图14)。在一种实现中，相机可以包括至少1920×1080像素的彩色图像分辨率、以及至少84.1×53.8的视场(FOV)。此外，相机可以被配备为用70.6×60度的FOV提供至少512×424像素的深度图像分辨率。

在一些实现中，深度相机212可以被配置为提供全身3D运动捕获、面部识别和/或语音识别能力。附加地，传感器的麦克风阵列可以被配置为进行声学源定位和/或环境噪声抑制。在一些实现中，深度传感器包括与单色CMOS传感器相结合的红外激光投影仪，以在任何环境光条件下按3D捕获视频数据。深度传感器的感测范围可以是可调节的，并且各种软件可以被实现，以能够基于比赛过程(gameplay)和选手的身体环境自动校准传感器，适应其他选手、设备或其他障碍物的存在。

如本文中引用的，术语“自动地”或“自动”被限定为不需要用户干预、通知或介入。因此，针对过程或任务的发生，不需要用户协助。作为另一示例，术语“自动”是指这样的功能、过程、方法或其任何部分，其在事件或条件发生时由计算机软件执行而无需用户干预。

在不同实现中，软件技术被配置为支持高级姿势识别、面部识别和/或语音识别。在一种实现中，软件可以被配置为利用特征提取来提供运动分析。例如，深度相机可以用于提供或生成骨骼跟踪图、和/或声学噪声抑制和回声消除、波束成形以标识当前声音源、以及与语音识别应用程序编程接口集成。如将在下面进一步讨论的，机器学习算法(MLA)可以实现以使得系统能够有效地检测和标识比赛过程的特定阶段。

在不同实现中，音频输出可以包括一对小扬声器驱动器和/或电声换能器，它们可以将电信号转换为对应声音。在一种实现中，系统200可以包括高保真噪声消除耳机或入耳耳机，其能够提供三维音频平面或立体声声景。

关于计算机处理器232，可以使用被配置为提供视觉提示处理、机器学习(ML)模型执行、音频提示生成和/或云服务管理的各种类型的处理器。例如，可以使用任何Win IoT设备。在一些实现中，处理器可以包括Raspberry Pi2、Raspberry Pi3和/或其相关版本。例如，处理器可以包括具有1.2GHz 64位四核ARM Cortex-A53处理器的

BCM2837SoC、具有1.4GHz 64位四核ARM Cortex-A53处理器的

BCM2837B0SoC、或其他

处理器和/或类似的替代。诸如卫星、无线网络、

wifi、

和/或经由无线网络访问或传送数据的任何其他手段的无线机制也可以与计算机处理器232或深度相机212一起被包括。

此外，功率源242通常可以包括任何商用级电池组，其具有足够功率以用于延长的时间段操作深度感测相机、耳机和(多个)处理器的。例如，在某些情况下，电池可以提供至少6小时的使用时间。功率源可以是可再充电的(例如，经由太阳能、电、感应或其他充电手段)和/或可移除的。在电池由太阳供以功率的情况中，太阳电池板可以沿着头盔的外表面而被包括。在一些实现中，电池被配置为在延长的使用期内供应功率，并且然后可以被更换。这些硬件组件中的每个硬件组件可以安置、装配、固定、附接、保持、集成、固定、安装或以其他方式设置在诸如容器252等壳体上，这将关于图3更详细地描述。

现在参考图2的第二部分，可以看出，在一种实现中，软件206可以包括投掷动作标识符组件(“投掷标识符”，“pitch identifier”)216、手姿势管理组件226、球飞行检测组件236、面部识别组件246和区域标记组件248。投掷标识符216可以理解为是指被配置为标识投掷动作的一组(多个)算法和软件。例如，投掷标识符216可以包括一组(多个)ML算法和代码，其被配置为标识投掷动作和/或生成音频提示。该方面将关于图5-7进一步讨论。

在一些实现中，手姿势管理组件226可以被配置为检测和标识的多个手姿势，该多个手姿势可以与各种命令相关联。在一个示例中，至少8-10个手姿势可利用，以用于例如调节音频音量、请求面部识别、变更系统设置和其他设备偏好。因此，用户(诸如图1中的第一选手110)可以能够通过手姿势对系统的应用中的至少一些进行控制。

在一些实现中，手姿势可以用于生成与连续的一变量操纵相关联的命令(诸如在正负方案中)。例如，第一手姿势可以指示一个变量的正增量(诸如音频音量的增加)，而第二手姿势可以指示同一变量的负增量(诸如音频音量的减小)。其他手姿势可以用于其他命令，诸如音频的类型、请求面部识别、有关某个视场内个体的表情的查询、以及与系统200的操作和使用相关的任何其他指令。应当理解，各种ML算法和模型可以用于对各种手姿势进行检测、标识和/或分类。

在不同实现中，球飞行检测组件236可以包括一程序，该程序被配置为检测朝向用户的抛射运动。该组件包括为了检测在朝向设备和/或远离设备的整个行程中的球的飞行所需的数据和训练。球飞行检测组件236可以被理解为指代被配置为标识棒球(或其他类型的球，取决于运动)的一组(多个)算法和软件。例如，球飞行检测组件236可以包括一组(多个)ML算法和代码，其被配置为标识运动中的一个或多个球和/或生成与球的标识相对应的音频提示。

在一些实现中，面部识别组件246可以被配置为检测和标识面部表情和/或个体面部。例如，面部识别组件246可以访问本地存储的数据和/或与基于云的服务通信以标识不同的人。诸如这些人的图像和/或飞行时间数据等标识数据可以被添加到云数据库中，以允许盲人选手请求对例如投手的标识。这可以是重要的，因为一个投手可能具有不同模式、习惯和/或能力，在确定何时、如何和是否击球或以其他方式响应时，盲人选手可以考虑这些模式、习惯和/或能力。

类似地，区域标记组件248可以被配置为检测和标识边界，区域或真实世界对象，该边界，区域或真实世界对象与使用系统的目的相关。例如，在棒球比赛期间，区域标记组件248可以访问本地存储的数据和/或与基于云的服务通信，以标识不同区域，诸如“一垒”、“二垒”、“三垒”、“本垒”、“外场”、“内场”、“界外地区”、“选手席”(dugout)、以及其他这样的相关地标或参考区。诸如这些区域的图像和/或飞行时间数据的标识数据可以被添加到云数据库中，以允许盲人选手请求标识特定场地或场地类型。这可以是重要的，因为一个场地可能具有变化的对象放置、人群放置、周围结构或地面质地(例如，草(grass)、草皮(turf)或其他地面类型)，在确定何时、如何和是否击球或做出其他反应时，盲人选手可以考虑这些。在一些实现中，实质上不变的真实世界对象本身可以被配置或适于为与系统无线通信以增加标识的准确性。作为一个非限制性示例，垒位可以包括发射器，该发射器可以向系统200发出信号，并且提供如下信息，该信息用更高的特异性来描述对象的身份和/或定位和/或功能。然后，该信息可以被集成到系统200中，并且被呈现给选手的对应音频信号可以适应相关信息。

在不同实现中，该设备还可以包括训练模块，穿戴者可以通过该训练模块学习使用系统并且解释各种声音，以及请求个性化设置或偏好。训练模块可以存储在本地，也可以从云网络下载。在一些实现中，训练模块可以包括多个会话，该多个会话关注比赛过程的具体方面。在另一实现中，取决于要进行的特定比赛的类型，一系列训练模块可以是可利用的。

此外，在不同实现中，该设备可以包括允许容易地移动、运输、穿戴和携带系统200的措施。在某些情况下，设备100被设计为使得整个系统是自含式的，并且易于从其当前定位运输或移动。该设备具有被配置为可以由一个人移动的重量。例如，在一些实现中，该设备可以包括在0.5到10磅之间的重量。在其他实施例中，该设备的重量可以在2到6磅之间。本文所示的实现描绘了设备100被并入一容器中，该容器具有头戴式头盔形式。更具体地，设备100可以包括一结构，该结构可以在延长的时间舒适地穿戴在人体上。此外，设备100可以是耐水的、防水的和/或防污的。

现在参考图3和4，包括辅助设备100的硬件组件的一种实现被呈现。在图3中，容器252是棒球头盔。在其他实现中，容器252可以包括任何其他头戴式或固定式装置，包括但不限于安全帽、其他运动型头盔、护目镜、头带装置、头带和其他这样的平台。在一些其他实现中，辅助设备100可以包括一容器，该容器可以固定或安装在人体的另一区上，另一区包括颈部、手臂、腿、躯干、腹部、前额、背部、后部和/或胸部。

图3所示的头盔包括内部区350和外部区352。在一种实现中，诸如耳机222(包括第一扬声器310和第二扬声器320)、功率源242、计算机处理器232和/或深度感测相机212的至少一部分等组件可以沿着内部区350设置或固定。在一些实现中，耳机可以集成在头盔的壳体内和/或被放置在开孔或其他声学上透明材料的后面，开孔或其他声学上透明材料沿着头盔的内表面延伸。通常，耳机的位置将与人的头部的预期尺寸、以及其对应耳朵定位对准。类似地，在不同实现中，功率源242可以设置在沿着头盔表面的任何地方，或者可以设置在头盔壳体自身内。在一些情况下，缓冲物可以被提供，以减少原本通过与组件直接接触而引起的不适感。图3中的深度相机212作为水平条而被看到，该水平条安装在头盔帽沿的上方，并且通过开孔从内部区350延伸到外部区352上。深度相机通常被定位成使得相机的方向与当头盔被穿戴时用户的估计注视实质上对准。此外，在该示例中，功率源242、计算机处理器232和深度相机212均沿着头盔的中心或中线实质上均匀设置，以便平衡组件的重量。但是，在其他实现中，每个组件可以定位在其他位置，包括沿着头盔的后部分、冠(最上端)部分或侧部分。在一些实现中，各个组件可以无线地、或经由集成在头盔壳体内的线来传送或传输信号。

在不同实现中，设备100包括用于舒适和稳定使用的措施。例如，包括头盔和相关系统的设备可以穿戴在不同大小的人的头上。在一些实现中，与第一头盔相关联的曲率和体积可以总体上对应于成年男性或女性头部的平均尺寸，而第二头盔的曲率和体积可以总体上对应于儿童头部的平均曲率。固定机构(诸如带子、夹具、系紧带)可以包括“通用大小化设计”，以允许调节设备的大小或适合度。然而，在其他实现中，每个设备可以根据特定个体的大小和比例来定制和构建，由此使舒适性和可穿戴性最大化。在一些其他实现中，可能存在与性别和共同的解剖比例相对应的标准尺寸，诸如头围和形状。例如，该设备可以在超小(XS)、小(S)、中等(M)、大(L)、超大(XL)、加大(2XL)等中可利用。该大小可以根据设备是旨在用于女性还是男性还是儿童而变化。

为清楚起见，图4中示出了设备100的分解图，包括容器252、计算机处理器232、深度相机212、功率源242和耳机222的实现。这些附图仅作为组件的表示形式或符号标识符符提供，而不应当理解为限定或限制设备的功能或特征。在不同实现中，组件可以并入或包括对其他能力的访问，这些灵力可以增强性能和/或使错误最小化。例如，陀螺仪传感器和/或加速度计以及相关联的处理可以向系统提供有关设备的定向和旋转的重要信息。因此，在一些实现中，该设备可以包括措施420，用于通过角速度和加速度的测量，对在3D坐标空间内的移动的高度准确识别、以及对当转向时的移动的检测。该信息可以继而由系统在确定真实世界对象的位置和/或运动时使用。

附加地，如前所述，设备100可以被配置为与云服务或网络(“云”)410通信。云410可以指代宽阵列的服务器，该宽阵列的服务器向设备提供信息以及从设备接收信息。该连接促进软件更新、机器学习算法改变、分类请求、帮助服务和其他数据。在一些实现中，分类数据的仅一部分可以是本地可利用的，而大量更多的数据可以通过云410而可访问。训练和分类数据收集和生成的一些示例关于图5进行描述。

如上所述，在不同实现中，该系统可以使用由机器学习模型生成的数据来训练，以便标识投掷动作，标识诸如球、人的对象，和/或标识各种手姿势。这样的数据可以跟随如下项而生成：对大数目的棒球相关图像的积累、检查和/或分析，该棒球相关图像可以用作训练集。作为一般示例，图5示出了与特定投掷动作阶段相对应的一组训练数据510(由图像的层表示)，该一组训练数据510可以被馈送或输入到ML程序中。照片的数目的范围从100到100,000以上。附加地，在一些实现中，该设备可以被配置为将在比赛过程期间本地捕获的图像数据传输到云或本地ML程序，以提供补充训练数据，该补充训练数据可以用于微调针对特定选手的ML标识和/或增加针对未来设备或对当前设备的更新的训练集。在一种实现中，第一ML程序模型可以被配置为在每个图像中标识骨骼动作，如对应标识符图像520所示出的。通常，过头扔掷或投掷的阶段包括投球前绕肩(wind up)、跨步、挥臂(cocking)、加速、减速和随球(follow through)。为简单起见，在图5中，投掷动作已经分为四个“动作桶”(action bucket)或阶段，包括阶段1、阶段2、阶段3和阶段4。在这种情况下，投掷的阶段1对应于投球前绕肩，阶段2对于早期挥臂，阶段3对应于晚期挥臂，阶段4对应于随球。尽管在图5中图示了一种类型的投掷，但是，应当理解，在不同实现中，训练数据集将包括各种各样的投掷类型，包括但不限于快速球(诸如四缝线、两缝线、切球(cutter)、指叉球(spillter)和叉球(forkball))、变向球(breaking ball，诸如曲线球、滑球(slider)和螺旋球(screwball))、以及变速球(诸如变速球、掌心球、圈指变速球(circle changeup))。

在不同实现中，训练系统可以被使用，训练系统包括第二ML模型(可以被称为“ML模型训练模块”)，该第二ML模型被配置为根据从训练数据存储库中获取的训练数据、或根据设备生成的数据来生成经训练的ML模型。该ML模型的生成可以称为“训练”或“学习”。训练系统可以包括和/或具有对适于训练的大量计算资源(诸如云)的访问，包括适于机器学习训练的许多计算机服务器系统。在一些实现中，ML模型训练器被配置为根据相同或相似的训练数据自动生成多个不同ML模型以进行比较。例如，不同的基础ML算法可以被训练，诸如但不限于决策树、随机决策森林、神经网络、深度学习(例如，卷积神经网络)、支持向量机、回归(例如，支持向量回归、贝叶斯线性回归或高斯过程回归)。作为另一示例，模型的大小或复杂度可以在不同ML模型之间变化，诸如决策树的最大深度、或卷积神经网络中的隐藏层的数目和/或大小。作为另一示例，不同训练方案可以用于训练不同ML模型，诸如但不限于选择训练数据的训练、验证和测试集、训练数据项的排序和/或加权、或者训练迭代的数目。所得到的多个经训练的ML模型中的一个或多个ML模型可以基于诸如但不限于准确度、计算效率和/或功率效率等因素来选择。在一些实现中，可以产生单个经训练的ML模型。

在一些实现中，ML模型和/或它们的对应对象分类系统可以被配置为使用尤其是机器学习和推理技术，以基于包括针对真实世界对象的图像数据在内的图像数据，来标识和/或分类真实世界对象。机器学习技术可以基于训练数据的语料库，生成一个或多个模型以标识和/或表征真实世界对象，训练数据的语料库以经标记的图像数据、或以其他方式先前经表征的图像数据的形式。在一些实现中，训练数据的一个或多个部分可以经由(多个)设备本身来提供。此外，训练数据可以连续地更新，并且由对象分类系统使用的一个或多个模型可以被修改或重新生成，以反映对训练数据的更新。

在一些实现中，该模型还可以并入空间分类系统，该空间分类系统被配置为使用尤其是机器学习和推理技术，来标识、分类和/或确定物理空间的边界。机器学习技术可以基于训练数据的语料库，生成用于标识、分类和/或确定物理空间的边界的一个或多个模型，训练数据的语料库的一个或多个部分可以被提供。该训练数据也可以被连续更新，并且由空间分类系统使用的一个或多个模型被修改或重新生成，以反映对训练数据的更新。

在图5中，训练数据510可以包括深度图像数据，深度图像数据由训练事件检测器(其可以利用由远程系统提供的服务)处理，并且可以使用第一ML模型，其被配置为基于深度图像数据生成“骨骼”，诸如第一骨骼522，第一骨骼522标识在阶段1中所表示的第一投掷姿态512的多个顶点550。在一些实现中，训练事件检测器生成标有顶点(诸如顶点550)的训练事件实例数据项。然后，由训练事件实例数据标识的顶点可以从深度图像中的位置(例如，其可以是三维位置)转化为对应的二维RGB图像中的对应位置。在一些实现中，设备生成的训练数据项可以使用RGB或其他图像数据来产生，并且被传输到远程训练系统，在某些情况中，设备生成的训练数据项包括标识所转化的顶点的位置的标签。随着时间，远程训练系统可以被配置为从本地操作的辅助设备和/或其他训练数据收集设备，接收和累积越来越多的设备生成的训练数据项，由此增加了对于ML模型训练可利用的训练数据的数量和种类，从而提高了经训练的ML模型的准确性、有效性和鲁棒性。

在不同实现中，第二ML模型(也被称为ML聚类程序)可以用来创建第二训练数据集，以用于将骨骼动作分类或标记为适当或有用的参考标识符。在一些实现中，与阶段1所示的第一姿态512相关联的任何标签或标记也可以被传达、转移、附接、标记、链接和/或关联到所得到的骨骼数据(此处，第一骨骼522)。类似地，针对阶段2中的第二姿态514的任何(多个)标签也可以与所得到的骨骼数据(此处，第二骨骼524)相关联，针对阶段3中的第三姿态516的(多个)标签可以与所得到的骨骼数据(此处，第三骨骼526)结果相关联，针对阶段4中的第四姿态518的(多个)标签可以与所得到的骨骼数据(此处，第四骨骼528)相关联。因此，当设备捕获图像并且经由第一ML模型生成对应骨骼数据时，第二ML模型可以被训练以检测特定动作或序列，并且然后这些特定投掷姿态中的一个或多个投掷姿态可以自动地被标识和分类。如将在下面关于图7讨论的，这些姿态分类然后可以经由第三ML模型与特定音频信号配对。

可以理解，为了使视力受损的选手对与比赛过程有关的信息采取动作，设备应当以如下形式来提供缺少的感觉输入：容易被选手接收和理解的形式。图6A和6B的图示提供了视觉输入与听觉输入之间的一种可能的转换或相关的一个示例。在该示例中，图6A的图像由深度相机编码，并且可以被转换成声学表示，该声学表示在此将被称为“声景”。在图6A中，当穿戴设备100的盲人选手600准备通过朝向诸如投手610和捕手620等对象定向，而在棒球场690上击球时，可以存在特定声音，该特定对象可以与每个对象相关联。这些声音可以经由设备100广播给盲人选手600，并且向盲人选手提供感觉替代的经微调的形式。例如，如果至少一些声学不变量对应于某些视觉不变量，则选手的如下能力可以被促进：成功识别声景的听觉模式、并且将它们感知为与特定对象和姿态相对应。

在图6B中，视觉景观用虚线描绘，以表示盲人选手没有视觉输入。替代地，声波被覆盖在某些对象上，以说明声景的一个示例。因此，投手610与第一声波612相关联，而捕手与第二声波622相关联。在比赛过程期间，随着选手准备击球，与投手相关的信息高度重要。因此，在一种实现中，经由设备100提供的声景将主要(如果不是全部的话)集中于如下对象的动作：该对象已经经由ML模型分类为投手(参见图5)。声景偏好还可以由选手经由手姿势或其他输入方式来调节。在这种情况下，设备100产生听觉(auditory)信号650，该听觉信号650表示被检测到的对象的类型、以及在实质上实时期间这样的对象的特定姿态。为了本申请的目的，术语“实时”涉及如下设备和/或系统：其中输入数据在毫秒内被处理，使得其实际上立即可利用作为反馈。因此，在随着时间的经过，对象和对象姿态改变的情况下，由设备100发射的(多个)听觉信号也将以如下方式而改变：能够实时地捕获并且向选手呈现不断变化的视觉信息的方式。

接下来参考图7，其示出了在设备使用期间，可以被提供给选手的一系列声音配对的实现的示意图。在图7中，沿着上部行所示出的骨骼姿态(参见图5)已经经由第一ML模型被生成。这些姿态中的每个姿态已经由第二ML模型确定为落入到预定义的“动作桶”或分类类别。下部行示出了第三ML模型的功能的一个示例，第三ML模型被训练以将所识别的姿态与特定声音类型配对。在这种情况下，四个姿态中的每个姿态与特定声音唯一配对或分配给特定声音。例如，第一姿态512(此处，第一骨骼522)的骨骼动作被示出为经由第三ML模型与第一声音722配对。类似地，第二姿态514(此处，第二骨骼524)的骨骼动作被示出为与第二声音722配对，第三姿态516(此处，第三骨骼526)的骨骼动作被示出为与第三声音726配对，第四姿态518(此处，第四骨骼528)的骨骼动作被示出为与第四声音728配对。可以看出，在该示例中，第一声音722、第二声音724、第三声音726和第四声音728中的每项彼此不同。

在不同实现中，该设备可以产生不同的哔哔声或音乐声，以标识投手的定位和位置。类似地，该方案可以用于指示场地选手的位置和垒位定位。例如，针对与比赛过程相关但在比赛期间实质上保持静止的对象，类似于商用螺柱寻找器的独特区域标记音频提示可以被发射。在一些实现中，两种声音之间的强度和频率可以被选手使用，以确定对象的动作和/或投掷阶段。

因此，可以理解，辅助设备的计算机处理器包括存储装置和指令，以允许其获取针对真实世界对象的图像数据，该真实世界对象在由深度相机观察到的三维物理空间中。辅助设备还可以基于所获取的图像数据，自动地将对象分类为与对象分类相关联。基于该分类，辅助设备将自动地标识或生成音频信号，该音频信号直接对应于该对象分类、或唯一地表示该对象分类。然后，该音频信号可以通过耳机发射，以用于使盲人选手受益。

此外，相同的过程可以重复，以向选手提供持续的或实时的音频反馈。在对象(例如，投手)在一时间段改变姿态的时，辅助设备可以继续捕获针对对象的附加图像数据，并且自动地确定针对对象的经更新的姿态分类，并且由此基于针对对象的经更新的姿态，生成重复的音频信号。

通过这个过程，用户可以能够基于由设备发射的声音，容易地区分不同姿态。第三ML模型和/或其训练集可以被包括在设备中，或容易地由设备经由云而可访问，并且用作深度感测相机与耳机之间的感觉转化桥梁。在一种实现中，该设备可以被配置为在比赛过程期间，生成感觉替代声景，该感觉替代声景可以由用户依赖。

图7所图示的波形和文本被提供仅用于符号化声音，而不应当理解为限制或指示可以被分配给这些姿态的实际声音。此外，在不同实现中，这些声音可以由选手自定义、调节和/或选择。例如，声音可以由选手添加，从云下载，或从与设备系统一起提供的预设声音菜单中选择。声音可以由用户针对音量、强度、类型和其他特性、而调节。

如前所述，为使视力受损的选手对与比赛过程相关的信息采取动作，缺少的感觉输入应当以由选手容易接收和理解的形式提供。通常，当生成感觉替代时，听觉刺激，在被递送为模仿声音时，可以对于用户是较直观的，该模仿声音与移动对象或特定事件自然相关。因此，在一些实现中，该设备可以被配置为使来自真实世界的声音和对象配对的直观性最大化。一种特别相关且直观的动作提示是大多数人每天都会体验到一种——多普勒频移。频移是由每个相继波前的间距的改变而引起的，因此，正接近的对象产生频率中的系统性的增加，而正远离的对象产生频率中的降低。在一些实现中，该效应可以并入本文中描述的设备框架中，以向用户提供较直观的体验。

提供可靠的、有效的信号对于盲人选手在比赛过程至关重要，该信号可以建立球的定向、轨迹、位置和/或速度。参考图8-10的序列，其描绘了可以为运动中的对象生成的感觉替代类型的实现。在图8中，盲人选手800被示出为在击球，针对由投手802所投掷的求做好准备。该球被图示为跨多个坐标，以表示在比赛过程期间可能发生的飞行中的球的一个示例轨迹。例如，球可以占据三维空间中的任何点，如由(x_n，y_n，z_n)所符号化的，其中x_n是指沿着x轴的点，y_n是指沿着y轴的点，z_n是指沿着z轴的点。因此，出于说明的目的，第一球位置810可以理解为占据由第一组坐标(x₁，y₁，z₁)标识的空间，第二球位置820占据由第二组坐标(x₂，y₂，z₂)标识的空间，第三球位置830占据由第三组坐标(x₃，y₃，z₃)标识的空间，第四球位置840占据由第四组坐标(x₄，y₄，z₄)标识的空间，第五球位置850占据由第五组坐标(x₅，y₅，z₅)标识的空间，第六球位置860占据由第六组坐标(x₆，y₆，z₆)标识的空间，第七球位置870占据由第七组坐标(x₇，y₇，z₇)标识的空间。在该示例中，每组坐标互不相同。对于有视力的选手，当球跨球场移动朝向选手时，球的位置确定主要基于所接收的示出球的移动的视觉信号。为了允许盲人选手“看到”球的轨迹，该设备可以被配置为发射一系列声音，该一系列的声音直接对应于球在三维空间中的位置。此外，为了提供有关球的接近和速度的信息，由设备产生的声音可以利用变化的频率被发射。在一些实现中，如果球本身被配备为当球在飞行中发射声音，则声音可以大致地或实质上模仿或模拟选手将听到的声音。换言之，对于每组坐标，该设备可以被配置为生成音频信号，对于该特定坐标空间相对于选手和设备的定位，该音频信号是唯一的或“键控”(keyed)的。另外，如上面关于多普勒频移讨论的，由设备生成的信号的频率可以随着球接近选手而增加，或者随着球移动离开选手而减小。

在不同实现中，辅助设备的计算机处理器包括存储装置和指令，该存储装置和指令允许其获取针对各种真实世界对象的图像数据，该各种真实世界对象在由深度相机观察到的三维物理空间中。辅助设备可以自动地将对象(例如，棒球)分类为与对象分类相关联，以及自动地确定对象相对于辅助设备的定位或位置。该信息可以用于标识特定音频信号，如通过机器学习程序而分配的该特定音频信号与对象的所确定的位置相对应。当对象在一时间段移动通过物理空间时，该设备可以继续捕获针对对象的持续的图像数据，并且确定和更新其估计位置。该信息可以由设备用来基于其分类和位置，自动地标识另外的音频信号，并且将另外的音频信号提供给听者。

接下来参考图9，其示出了用以更好地说明所提出的实现中的一些实现的示意图。在图9中，穿戴有设备100的选手900的二维“鸟瞰图”被示出。相对于沿着水平平面(XY)的选手900和设备100，球或其他对象可以占据跨水平平面的多个位置，并且这由也包括在图9中的多个圆形“球”符号表示。应当理解，以下示例中所提供的值仅用于说明目的，无意限制设备可以以任何方式生成或发射的听觉信号的范围或特性。

在一些实现中，为了可靠地将声音定位在虚拟听觉空间中，听觉幅度差(IAD)、听觉时间差(ITD)和强度可以被调节，以对应于在球本身发射声音的情况下用户将听到的声音类型。因此，对于诸如直接设置在听者前方(方位角为0°)的第一球954等对象，相关联的声音将在相同时间到达左耳和右耳，并且在两只耳朵处具有相同的强度水平。然而，当对象被定位成更朝向一侧时，其相关联的声音将在到达一只耳朵之前到达另一只耳朵，从而给出ITD。通常，对于在由第二球910和第三球920表示的+/-90°方位角(直接向左或向右)处的声音，针对平均大小的头部的最大ITD约为0.69ms。IAD也将随方位角增加离开0而增加，但最大IAD还将取决于频率，其在高频处大于在低频处。在一些实现中，该设备可以被配置为使得IAD和ITD值的最极端组合出现，以给选手对象被定位于+/-90°方位角(与左耳或右耳直接相对)处的印象，而如图9所示，中间的ITD和IAD表明定位的中间印象。

因此，在不同实现中，选手900周围的X-Y坐标空间可以在立体声声景中模拟。换言之，选手900可以听到在左耳机980和右耳机990之间不同声音，以表示球相对于设备的空间位置。作为一个非限制性示例，第一球954可以被呈现为一声音，该声音同时通过左耳机和右耳机发射(50：50)。然而，第四球950可以呈现为通过左耳机发射的声音，跟随有0.55ms的延迟之后通过右耳机发射的相同声音(90：10)。同样，第五球952可以利用如下来呈现：在左耳机与右耳机之间的0.27ms的延迟(70：30)。相反地，第六球956和第七球958均可以初始地通过右耳机呈现，并且然后分别跟随有0.27ms的延迟(30：70)和0.55ms的延迟(10：90)的延迟之后通过左耳机呈现。

在一些实现中，这些模式可以随着球接近选手而改变。在另一非限制性示例中，第二球910可以呈现为通过左耳机发射的声音、以及跟随有0.69ms的延迟(100：0)之后，通过右耳机发射的相同声音。类似地，第八球912可以利用在左耳机与右耳机之间的0.42ms的延迟来呈现(80：20)，并且第九球914利用在左耳机与右耳机之间的0.18ms的延迟来呈现(60：40)。相反地，第十球916、第十一球918和第三球920均可以初始地通过右耳机呈现，并且然后分别跟随有0.18ms的延迟(40：60)、0.42ms的延迟(20：80)和0.69ms的延迟(0：100)之后通过左耳机呈现。

在另一实现中，由设备生成的声音的强度或响度也可以被配置为对应于对象与选手之间的距离。例如，参考图9，两个环被示出；外环960在距设备100距离d₁处，内环962在距设备100距离d₂处。在一种实现中，与响应于在由内环表示的较近距离处检测到的球而生成的声音相比，响应于在由外环表示的较远距离处检测到的球而生成的声音可以处于较低的强度(较安静)。换言之，随着球接近选手，该设备可以被配置为生成在响度中相应增加的声音。在一种实现中，随着对象接近，其相关联的音频签名可以被配置为在频谱和立体声平移二者加宽，以允许对其大小变化估计。

如先前关于图8所述，该设备可以包括用于生成声音的措施，该声音通过三维空间准确地映射移动对象的定位。在一些实现中，由设备生成的声音可以被配置为表示沿着垂直平面(上下)、以及水平平面(如关于图9所述)的对象的位置，由此提供空间对象在所模拟的三维声景中的位置。在图10中，示意图示出了这样的过程的一个非限制性示例。在图10中，针对选手900和设备100的二维侧视图被示出。选手与球之间的虚线大致指示设备的视场的方向。为了简单起见，仅三个方向被描绘，包括与第一球1040相关联的“向上”方向、与第二球1050相关联的水平或法线方向、以及与第三球1060相关联的向下方向。相对于沿着垂直(Z)轴的选手900和设备100，球或其他对象可以占据跨垂直轴的多个位置。应当理解，以下示例中提供的值仅用于说明目的，而非旨在限制设备可以以任何方式生成或发射的听觉信号的范围或特性。

在不同实现中，声音可以被调节，以适应球沿着Z轴的相对位置。在一种实现中，与球位置配对的声音的强度可以随着球向上或向下行进而不同。在图10中，示出了针对每个球的样本波形的曲线图被呈现在图的右侧。这些曲线图表示声音如何可以随着球在Z方向上移动而改变的示例。第一球1040已经被分配或被标记以生成由第一波形1042表示的声音，第二球1050已经被分配或被标记以生成由第二波形1052表示的声音，并且第三球1060已经被分配或被标记以生成由第三波形1062表示的声音。可以看出，第一波形1042包括在频率方向上，朝向第三个四分之一的强度中的缓慢下沉(dip)，第二波形1052示出了朝向波形结束部的小的下沉，第三波形1062示出了朝向波形的中心区的急剧、中等的下沉。因此，在不同实现中，该设备可以被配置为具有以下能力：自动确定对象在三维空间中的位置，对对象进行分类，确定对象是否相关，以及回放一音频，该音频唯一地与球的空间位置及其分类相对应。

结果，该设备能够呈现全面的听觉感觉信息，该听觉感觉信息可以精确编码针对听者的移动对象的定向和距离。当对象移动时，由耳机发射的对应音频签名可以在频率谱、强度谱和立体声平移谱内移动，从而允许对其轨迹的多维评估。如本文所述，这些声音可以被配置为从左耳移动到右耳再返回，以按照如下方式来模拟对象从上到下以及从一侧到另一侧的运动：类似于装配有警报声音的球的方式。此外，当将球朝向视力受损的击球手而扔掷时，声音音调或频率可以增加，而当将球被扔掷离开击球手时，声音音调或频率可以降低，从而提供类似于在自然界中观察到的多普勒效应的直观体验。

虽然上面的讨论主要集中在击球期间设备的可应用性，诸如在投掷、以及球朝向击球手的传入飞行期间，但是应当理解，其用途可以扩展为包括比赛过程的其他方面。参考图11，其示出了棒球内场1150的鸟瞰图。在不同实现中，盲人选手1100可以在打出之后跟随球的轨迹。例如，在选手1100已成功击中球之后，或者当选手在“观看”另一击球手击球时，该球可以采取多种路径中的一种路径。使用上述技术，设备100可以在球移动离开选手时，继续提供针对飞行中的球的听觉感觉替代。在该示例中，沿着第一路径1110行进的球将与第一模式的声音(“第一模式”)1112相关联，并且沿着第二路径1120行进的球将与第二模式的声音(“第二模式”)1122相关联，第二模式1122不同于第一模式1112。

因此，当选手面对场地时，和/或当他/她移动或重新定向时，该设备可以发射一信号，该信号指示球是否在他或她的视线内、以及球是否可以根据比赛规则被赋予“界内球”或“界外球”或其他分类的状态、并且与其注视方向(即，设备的视场)相对应。该设备还配置为适应头部运动和身体定向改变。听觉信号还可以被配置为指示在球行进时该球的大致速度、以及球是否被接住或掉落到地面上。布置在场地上的捕手和其他选手也可以通过各种听觉信号来呈现，连同相关对象(诸如本垒、设备、裁判员和其他对象)。在一些实现中，该设备可以从网络接收信号，该信号可以向选手提供各种音频报道(commentary)或分数更新。例如，用户可以经由手姿势输入请求，以听取来自比赛最近期30秒(或其他时间段)的报道，听取队伍名单、天气更新、各个选手的统计信息，估计看台中人群的大小，从横幅或显示器读取信息、或对设备可访问的任何其他信息、或可以使其对设备可访问的任何其他信息。

此外，用于区分面孔和表情的能力对于选手可以是高度重要的。通常知道的是，可以提供对方队伍将如何比赛的见解的任何信息(包括正投掷的个体的身份)都是极大受欢迎的。例如，情感表达提供相关的信息和提示。确实，有视力的选手经常在职业棒球比赛中观察并且检查感知到的投手的情绪表情。有视力的选手已经宣称，直接在投掷前的短时间段中，投手的所感知的情绪显示可以提供关于即将发生的事情的信息，并且因此可能影响击球手的未来行为。在某些队伍中，选手被训练以关注投手上，并且获取有关即将到来的投掷的提示，该提示包括评估投手的情绪。这可以使选手识别并且针对另一队伍中的特定选手的倾向和偏好做好准备。例如，在棒球中，了解击球手仅在某些投掷类型上挥棒的趋势、或者投手在特定情形中倾向于扔掷低球的趋势可以影响选手针对投掷或挥棒做准备的方式。因此，在一些实现中，本文所描述的设备可以被配置为向用户提供音频反馈，该音频反馈描述在设备的视场中的选手的表情或推定的情绪状态。各种手姿势或其他方式的用户输入可以用来提交对于这些情绪评估的请求。

可以理解，辅助设备的计算机处理器包括存储装置和指令，该存储装置和指令允许其自动地对对象进行分类，并且将对象与对象分类相关联。取决于分类，例如，如果初始分类已经将对象标记为人，则另外的或附加的确定或分类可以发生。响应于例如用户的语音或手姿势命令，辅助设备可以自动标识对象的特定区或部分，并且对人的面部表情进行评价和分类。该设备然后可以标识特定音频信号，该特定音频信号与特定面部表情分类相关联。

应当理解，在不同实现中，多于一个音频流可以按照实质上同时的方式(即，以单个音频传输)向用户广播。例如，穿戴该设备的盲人选手可能听到声景，该声景同时包括描述投手的投球前绕肩的哔哔声、以及描述投手情绪状态的言语。众所周知，视觉受损人士通常会发展对各种声音定位提示的敏感性，这是由于盲人听者的如下长期经验所致：使用声音作为其主要信息源来定位声音源、以及声音反射对象。因此，用户可以学习或被训练以非常有效地从重叠音频信号的流或传输中区分不同的音频提示。

现在参考图12，在辅助设备上所执行的操作方法1200的一种实现的概述被呈现。在图12中，第一步骤1210包括捕获针对第一对象的第一图像数据，第一对象被包括在由深度相机观察到的物理空间中，第二步骤1220包括基于所捕获的第一图像数据，自动地将第一对象分类为与第一对象分类相关联。第三步骤1230涉及至少基于第一对象与第一对象分类相关联，自动地标识第一音频信号。在第四步骤1240中，该方法可以包括通过被包括在辅助设备中的扬声器，发射第一音频信号。

在其他实现中，附加步骤可以被包括。例如，另一步骤可以包括基于第一图像数据，自动地确定第一对象在物理空间中相对于辅助设备的第一位置，以及部分基于第一对象的所确定的第一位置，自动地标识第一音频信号。在另一示例中，该方法可以包括：当第一对象在第一时间段移动通过物理空间时，捕获针对第一对象的第二图像数据；以及基于第二图像数据，自动地确定第一对象在物理空间中相对于辅助设备的第二位置。该方法还可以包括基于第一对象与第一对象分类相关联、以及第一对象的第二位置，自动地标识第二音频信号，以及通过(多个)扬声器发射第二音频信号。

在另一实现中，该方法还可以涉及基于第二图像数据，自动地确定第一对象相对于辅助设备的经更新的位置，以及基于第一对象的经更新的位置，通过(多个)扬声器重复地发射音频信号，从而为提供针对第一对象的实时的听觉感觉替代传输。在一些实现中，该方法可以包括：当第一对象在第一时间段改变姿态时，捕获针对第一对象的第二图像数据；基于第二图像数据，自动地确定针对第一对象的经更新的姿态；以及基于针对第一对象的经更新的姿态，通过扬声器重复地发射音频信号，从而提供针对第一对象的实时的听觉感觉替代传输。

在另一示例中，该方法还可以包括：基于第一图像数据，自动地标识第一对象的第一部分；以及基于第一图像数据，自动地将第一部分分类为与第一面部表情分类相关联。该方法还可以包括：至少基于第一对象与第一面部表情分类相关联，自动地标识第二音频信号；以及通过(多个)扬声器发射第二音频信号。在一种实现中，该方法包括：当第一对象接近辅助设备时，增加听觉传输的频率；而当第一对象远离辅助设备时，降低听觉传输的频率。

在一些实现中，该方法可以包括：基于由深度相机捕获的第二图像数据，自动地将多个对象分类为与相应对象分类相关联，多个对象被包括在物理空间中；至少基于多个对象与多个对象的相应对象分类相关联，自动地标识多个音频信号；以及通过(多个)扬声器发射多个音频信号。附加地，该方法可以包括：捕获针对第二对象的第二图像数据，第二对象被包括在由深度相机观察到的物理空间中；基于第二图像数据，自动地将第二对象分类为与第一命令分类相关联；至少基于第二对象与第一命令分类相关联，自动标识第二音频信号；以及通过(多个)扬声器发射第二音频信号。

为了更好地理解本文所描述的系统和方法的重要性和更广泛的应用，关于图13和14呈现了其功能的附加示例。在图13中典型的市区或城市交叉口被图示。盲人1300定位在一个拐角1392上，穿戴系统1310。众所周知，行人通常被认为时候弱势道路使用者的一个子类别，并且对于盲人行人存在特定的脆弱性、风险和危险，其延伸超出了有视力的行人所经历的那些。视觉受损个体可能经历对独自出门或到陌生的地方缺乏信心，或者可能发现环境中的障碍使导航更困难。

例如，对于盲人来说，过马路可以分为多种挑战，包括准确确定街道的边缘、他们在哪条街道上、人行横道是可利用的、其他行人的相对位置、交通工具接邻近度和类型、将要穿越的人行横道的宽度、区分信号和交通模式、确保在人行横道上正确且安全地对准、能够按下人行横道信号按钮、评估交叉路口的几何形状以及其他这样的任务。

具有视力受损的行人传统上会尝试通过几个信号灯周期来聆听交通模式，并且在人行横道区域搜索具有按钮的杆，以及评估其他声音以确保安全通过。然而，沿着繁忙的街道行走仍然是一项困难而富挑战性的活动。为了改进这些类型的体验，并且促进沉浸在真实世界环境中，系统可以被配置为在如下环境中操作和使用：除了与运动事件相关联的环境之外的环境。在图13中，系统1310被示出为在典型的城市景观环境中使用的期间。在不同实现中，系统1310可以使用以上参考图1-12描述的一种或多种机制和方法来接收关于外部世界的信息。因此，当盲人1300将他或她的视线指向不同区域处时，他或她将被呈现有高度特定且“实况”的音频流，该音频流与在该人周围发生的活动直接相关。

作为一些示例，一些真实世界对象被图示为邻近于盲人1300。在第一示例中，经由系统1310，盲人1300能够经由通过系统1310呈现的第一音频信号，“查看”道路上的一个或多个经标记或带标签的人行横道区域1340。附加地，系统1310被配置为标识一个或多个人行横道信号1330，包括经由第二信号而标识在信号上显示的内容(例如，“停止”、“通行”、“不要行走”、手或行走符号等)。类似地，系统1310可以被配置为经由第三信号标识灌木1390，以及经由第四信号标识其他实质上静止对象以及相邻建筑物1394。非常重要的是对盲人1300附近的交通工具或交通的标识。系统1310可以被配置为经由第五信号快速标识汽车1380的各种型号和类型，或者经由第六信号快速标识诸如卡车1370等较大交通工具。最后，还示出了同类的行人1350的一个示例，其可以针对用户被转化为第七信号。

应当理解，上述每个音频信号可以被配置为在一个或多个方面(例如，以上关于图1-12描述的频率、响度、音调、类型以及其他)改变，以便传达所描述的对象的相对定位中的改变、以及其大小和分类。此外，多个音频流可以被呈现，以便提供有关周围环境的信息阵列。在一些实现中，对象本身可以适于向系统无线广播信号，并且增强设备的准确性和性能。

在不同实现中，该系统还可以适于在较私人的设定或人际交互中使用。这样的一个示例在图14中示出，其中装配有系统1410的盲人1400在与个体1440对话。在对话期间，盲人1400可以容易地参与并且回答任何口头问题、评论、指令或陈述。然而，在很多情况下，在交互期间，重要的非语言提示和交流被表达，特别是在有视力的人没有识别出他们正在与视觉受损人士说话的情况下。在图14中，当两个个体彼此说话时，可以看出的是，个体1440做出一手姿势，该手姿势与指向一方向的手姿势类似。通常，这个手姿势不会由盲人注意到。然而，系统1410被配置为检测和标识手姿势，并且然后可以将信息传达给用户。另外，如前所述，面部表情可以为他人提供高度有意义的上下文。在这种情况下，个体1440表现出总体上的沮丧，如他们的表情1450所示出的。通过使用系统1410，盲人1300可以快速接收关于个体1440的所感知的情绪状态的信息，并且做出适应于该附加信息的经斟酌的响应。因此，系统1410可以提供各种各样的益处，其可以改进视觉受损人士的日常生活。

如前所述，参加体育运动、以及参加社会活动可以具有对视觉受损个体的物理和心理因素的极大的积极影响。此外，与队友的认同感可以促进他们的归属感，并且有助于发展他们的物理能力。如所公开的实现所提供的，将有视力的选手加入比赛中的可能性可以增加盲人在其社会中的参与度，并且改进他们的同龄人对盲人的感知。通过向个体广播与视觉事件相对应的一个或多个音频流，每个音频流携带不同类型的信息，该设备可以为盲人选手提供接收针对比赛过程的信息的机会，该信息允许与有视力的选手和队友一起参与，这既自然又真实。

结合图1-14描述的系统、设备和技术的详细示例在本文中被呈现以用于说明本发明及其益处。这样的使用示例不应当被解释为对本公开的逻辑过程实现的限制，也不应当将与本文中描述的相比的用户接口方法的变化视为在本公开的范围之外。在一些实现中，在图1-14中描述的各种特征可以在相应模块中实现，模块也可以被称为和/或包括逻辑、组件、单元和/或机构。模块可以构成软件模块(例如，体现在机器可读介质上的代码)或硬件模块。

在一些示例中，硬件模块可以机械地、电子地或者以其任何适当的组合来实现。例如，硬件模块可以包括被配置为执行某些操作的专用电路装置或逻辑。例如，硬件模块可以包括专用处理器，诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件模块还可以包括如下可编程逻辑或电路装置，该可编程逻辑或电路装置由软件暂时地配置为执行某些操作，并且硬件模块还可以包括用于这样的配置的机器可读介质数据和/或指令的一部分。例如，硬件模块可以包括被涵盖在可编程处理器内的软件，其被配置为执行一组软件指令。应当理解，关于在专用且永久配置的电路装置中、还是在暂时地配置的电路系统中(例如，由软件配置)、以还是机械方式来实现硬件模块的决定受到成本、时间、支持和工程考虑因素的驱动。

因此，短语“硬件模块”应当被理解为涵盖能够执行某些操作的有形实体，并且可以以某种物理方式来配置或布置，硬件模块应当被理解为一实体，该实体被物理构造、永久地配置(例如，硬连线)和/或暂时地配置(例如，编程)，以某种方式操作或执行本文中所述的某些操作。如本文中使用的，“硬件实现的模块”是指硬件模块。考虑其中硬件模块暂时地配置(例如，编程)的示例，硬件模块中的每个硬件模块不需要在时间中的任一实例处被配置或实例化。例如，在硬件模块包括由软件配置为成为专用处理器的可编程处理器的情况下，可编程处理器可以在不同时间分别被配置为不同的专用处理器(例如，包括不同的硬件模块)。软件可以相应地将一个或多个特定处理器，例如以在时间的一个实例中构成特定硬件模块，并且在时间的不同实例处构成不同硬件模块。使用一个或多个处理器实现的硬件模块可以被称为“处理器实现的”或“计算机实现的”。

硬件模块可以向其他硬件模块提供信息或者从其他硬件模块接收信息。因此，所描述的硬件模块可以被认为是通信耦合的。在同时存在多个硬件模块的情况下，通信可以通过两个或多个硬件模块之间或之中的信号传输(例如，通过适当的电路和总线)来实现。在其中多个硬件模块在不同时间被配置或实例化的实现中，这样的硬件模块之间的通信可以例如通过存储器设备中存储和取回信息来实现，该多个硬件模块具有对存储器设备的访问。例如，一个硬件模块可以执行操作并且将输出存储在存储器设备中，然后另一硬件模块可以访问存储器设备以取回和处理所存储的输出。

在一些示例中，方法的操作中的至少一些操作可以由一个或多个处理器或处理器实现的模块执行。而且，一个或多个处理器还可以支持在“云计算”环境中或作为“软件即服务”(SaaS)的相关操作的执行。例如，操作中的至少一些操作可以由多个计算机和/或在多个计算机之中(作为包括处理器的机器的示例)执行，其中这些操作可以经由网络(例如，互联网)和/或经由一个或多个软件接口(例如，应用程序编程接口(API))可访问。操作中的某些操作的执行可以分布在处理器之中，不仅驻留在单个计算机中，而且可以跨多个计算机部署。处理器或处理器实现的模块可以位于单个地理位置(例如，在家庭或办公室环境或服务器场内)，也可以分布在多个地理位置。

图15是示出示例软件架构1502的框图1500，示例软件架构1502的各个部分可以与本文中所描述的各种硬件架构结合使用，其可以实现上述特征中的任何特征。图15是软件架构的非限制性示例，并且应当理解，可以实现很多其他架构以促进本文中描述的功能性。软件架构1502可以在诸如图16的机器1600等硬件上执行，机器1600尤其包括处理器1010、存储器1030和输入/输出(I/O)组件1050等。代表性的硬件层1504被示出并且可以表示例如图16的机器1600。代表性的硬件层1504包括处理单元1506和相关联的可执行指令1508。可执行指令1508表示软件架构1502的可执行指令，包括本文中描述的方法、模块等的实现。硬件层1504还包括存储器/存储装置1510，存储器/存储装置1510还包括可执行指令1508和随附数据。硬件层1504还可以包括其他硬件模块1512。由处理单元1508保持的指令1508可以是由存储器/存储装置1510保持的指令1508的一部分。

示例软件架构1502可以被概念化为层，每个层提供各种功能性。例如，软件架构1502可以包括诸如操作系统(OS)1514、库1516、框架1518、应用1520和表示层1544等层和组件。在操作上，层内的应用1520和/或其他组件可以援引到其他层的API调用1524，并且接收对应结果1526。所示出的层本质上是代表性的，并且其他软件架构可以包括附加的或不同的层。例如，某些移动或专用操作系统可能不提供框架/中间件1518。

OS 1514可以管理硬件资源并且提供共同服务。OS 1514可以包括例如内核1528、服务1530和驱动器1532。内核1528可以充当硬件层1504与其他软件层之间的抽象层。例如，内核1528可以负责存储器管理、处理器管理(例如，调度)、组件管理、联网、安全设置等。服务1530可以为其他软件层提供其他共同服务。驱动器1532可以负责控制底层硬件层1504或与底层硬件层1504接口连接。例如，取决于硬件和/或软件配置，驱动器1532可以包括显示驱动器、相机驱动器、存储器/存储装置驱动器、外围设备驱动器(例如，经由通用串行总线(USB))、网络和/或无线通信驱动器、音频驱动器等。

库1516可以提供可以由应用1520和/或其他组件和/或层使用的共同基础设施。库1516通常提供由其他软件模块用来执行任务的功能性，而不是而不是直接与OS 1514交互。库1516可以包括系统库1534(例如，C标准库)，其可以提供诸如存储器分配、串操作、文件操作等功能。另外，库1516可以包括API库1536，诸如媒体库(例如，支持图像、声音和/或视频数据格式的呈现和操纵)、图形库(例如，用于在显示器上绘制2D和3D图形的OpenGL库)、数据库库(例如，SQLite或其他关系数据库功能)、和Web库(例如，可以提供网络浏览功能性的WebKit)。库1516还可以包括各种各样的其他库1538以为应用1520和其他软件模块提供许多功能。

框架1518(有时也被称为中间件)提供高级通用基础设施，其可以由应用1520和/或其他软件模块使用。例如，框架1518可以提供各种图形用户接口(GUI)功能、高级资源管理或高级定位服务。框架1518可以为应用1520和/或其他软件模块提供广泛范围的其他API。

应用1520包括内置应用1540和/或第三方应用1542。内置应用1540的示例可以包括但不限于联系人应用、浏览器应用、定位应用、媒体应用、即时通讯应用和/或游戏应用。第三方应用1542可以包括由除特定平台的供应者以外的实体开发的任何应用。应用1520可以使用经由OS 1514、库1516、框架1518和表示层1544而可利用的功能，来创建用户接口以与用户交互。

某些软件架构使用如虚拟机1548所示的虚拟机。虚拟机1548提供执行环境，在该环境中，应用/模块可以像在硬件机器(例如，图16的机器1600)上执行一样执行。虚拟机1548可以由主机OS(例如，OS 1514)或管理程序来托管，并且可以具有虚拟机监控器1546，虚拟机监控器1546管理虚拟机1548的操作以及与主机操作系统的互操作。软件架构在虚拟机1548内执行，诸如OS 1550、库1552、框架1554、应用1556和/或表示层1558，该软件架构可以与在虚拟机外部的软件架构1502不同。

图16是示出示例机器1600的组件的框图，示例机器1600被配置为从机器可读介质(例如，机器可读存储介质)读取指令并且执行本文中描述的特征中的任何特征。示例机器1600是以计算机系统的形式，在该计算机系统内，用于使机器1600执行本文中描述的特征中的任何特征的指令1616(例如，以软件组件的形式)可以被执行。这样，指令1616可以用于实现本文中描述的模块或组件。指令1616使未编程和/或未配置的机器1600作为被配置为执行所描述的特征的特定机器来操作。机器1600可以被配置为作为独立设备操作，或者可以被耦合(例如，联网)到其他机器。在网络部署中，机器1600可以在服务器-客户端网络环境中以服务器机器或客户端机器的能力而操作，或者在对等或分布式网络环境中作为节点而操作。机器1600可以体现为例如服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、游戏和/或娱乐系统、智能电话、移动设备、可穿戴设备(例如，智能手表)和物联网(IoT)设备。此外，尽管仅示出了单个机器1600，但是术语“机器”包括单独地或联合地执行指令1616的机器的集合。

机器1600可以包括处理器1610、存储器1630和I/O组件1650，其可以经由例如总线1602而通信地耦合。总线1602可以包括多个总线，多个总线经由各种总线技术和协议耦合机器1600的各个元件。在一个示例中，处理器1610(包括例如中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、ASIC或其任何合适的组合)可以包括一个或多个处理器1612a至1612n，其可以执行指令1616并且处理数据。在一些示例中，一个或多个处理器1610可以执行由一个或多个其他处理器1610提供或标识的指令。术语“处理器”包括多核处理器，该多核处理器包括可以同时执行指令的核。虽然图16示出了多个处理器，但是机器1600可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如，多核处理器)、每个具有单个核的多个处理器、每个具有多个核的多个处理器、或其任何组合。在一些示例中，机器1600可以包括分布在多个机器之中的多个处理器。

存储器/存储装置1630可以包括主存储器1632、静态存储器1634或其他存储器、以及存储单元1636，这两者均对处理器1610诸如经由总线1602而可访问。存储单元1636和存储器1632、1634存储体现本文中描述的功能中的任何一个或多个功能的指令1616。存储器/存储装置1630还可以存储用于处理器1610的暂时、中间和/或长期数据。在指令的执行期间，指令1616还可以完全或部分地驻留在存储器1632和1634内、在存储单元1636内、在处理器1610中的至少一个处理器内(例如，在命令缓冲器或高速缓冲存储器内)，在至少一个I/O组件1650的存储器内、或其任何合适的组合。因此，存储器1632和1634、存储单元1636、处理器1610中的存储器、以及I/O组件1650中的存储器是机器可读介质的示例。

如本文中使用的，“机器可读介质”是指能够暂时地或永久存储指令和数据的设备，该指令和数据使机器1600以特定方式操作，并且机器可读介质可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪存、光存储介质、磁存储介质和设备、高速缓存、网络可访问或云存储、其他类型的存储和/或其任何合适的组合。术语“机器可读介质”适用于单个介质、或多种介质的组合，以用于存储由机器1600执行的指令(例如，指令1616)，使得指令在由机器1600的一个或多个处理器1610执行时，使机器1600执行本文中描述的特征中的一个或多个特征。因此，“机器可读介质”可以是指单个存储设备、以及包括多个存储装置或设备的“基于云的”存储系统或存储网络。术语“机器可读介质”不包括信号本身。

I/O组件1650可以包括适于接收输入、提供输出、产生输出、传输信息、交换信息、捕获测量等的各种硬件组件。特定机器中所包括的特定I/O组件1650将取决于机器的类型和/或功能。例如，诸如移动电话等移动设备可以包括触摸输入设备，而无头服务器或IoT设备可以不包括这样的触摸输入设备。图16所示的I/O组件的特定示例绝不是限制性的，并且其他类型的组件可以被包括在机器1600中。I/O组件1650的分组仅是为了简化该讨论，并且该分组绝不是限制性的。在各种示例中，I/O组件1650可以包括用户输出组件1652和用户输入组件1654。用户输出组件1652可以包括例如用于显示信息的显示组件(例如，液晶显示器(LCD)或投影仪)、声学组件(例如，扬声器)、触觉组件(例如，振动电机或力反馈设备)、和/或其他信号发生器。例如，用户输入组件1654可以包括字母数字输入组件(例如，键盘或触摸屏)、指点组件(例如，鼠标设备、触摸板或另一种指点工具)、和/或触觉输入组件(例如，物理按钮或触摸屏，该物理按钮或触摸屏提供触摸或触摸姿势的位置和/或力)，其被配置用于接收各种用户输入(诸如用户命令和/或选择)。

在一些示例中，I/O组件1650可以包括生物学组件1656和/或定位组件1662以及各种各样的其他环境传感器组件。生物学组件1656可以包括例如用于以下操作的组件：检测身体表情(例如，面部表情、语音表情、手或身体姿势、或眼睛跟踪)，测量生物信号(例如，心率或脑电波)，以及标识个人(例如，经由基于语音、视网膜和/或面部的标识)。例如，定位组件1662可以包括位置传感器(例如，全球定位系统(GPS)接收器)、高度传感器(例如，气压传感器，高度可以从气压传感器得出)、和/或定向传感器(例如，磁力计)。

I/O组件1650可以包括通信组件1664，通信组件1664实现可操作以经由相应通信耦合器1672和1682，将机器1600耦合到(多个)网络1670和/或(多个)设备1680的多种技术。通信组件1664可以包括一个或多个网络接口组件、或与(多个)网络1670接口的其他合适的设备。通信组件1664可以包括例如适于提供有线通信、无线通信、蜂窝通信、近场通信(NFC)蓝牙通信、Wi-Fi和/或经由其他模态的通信的组件。(多个)设备1680可以包括其他机器或(例如，经由USB耦合的)各种外围设备。

在一些示例中，通信组件1664可以检测标识符或者包括适于检测标识符的组件。例如，通信组件1664可以包括射频标识(RFID)标签读取器、NFC检测器、光学传感器(例如，一维或多维条形码、或其他光学码)、和/或声学检测器(例如，用于标识经标记的音频信号的麦克风)。在一些示例中，位置信息可以基于来自通信组件1662的信息来确定，诸如但不限于经由互联网协议(IP)地址的地理位置、经由Wi-Fi、蜂窝、NFC、Bluetooth的位置、或者其他无线站标识和/或信号三角测量。

尽管已经描述了各种实施例，但是该描述旨在是示例性的，而不是限制性的，并且应当理解，在实施例的范围内，可以有更多的实施例和实现。尽管特征的很多可能组合在附图中示出并且在本详细描述中讨论，但是所公开的特征的很多其他组合也是可能的。除非特别限制，否则任何实施例的任何特征可以与任何其他实施例中的任何其他特征或元素组合或被其替代。因此，应当理解，本公开中示出和/或讨论的任何特征可以以任何合适的组合一起实现。因此，除了仅由所附权利要求及其等同物限制，实施例不受其他限制。同样，可以在所附权利要求的范围内进行各种修改和改变。

尽管前面已经描述了被认为是最佳模式和/或其他示例，但是应当理解，可以对其进行各种修改，并且本文中公开的主题可以以各种形式和示例来实现，并且这些教导可以应用于多个应用中，这里仅描述了其中的一些应用。所附权利要求书旨在要求落入本教导的真实范围内的任何和所有应用、修改和变化。

除非另有说明，否则本说明书(包括所附权利要求书)中阐述的所有测量、值、额定值、位置、幅度、大下和其他规格均为近似值而非精确值。它们旨在具有一合理范围，该合理的范围与它们所涉及的功能以及它们所涉及的领域中的常规手段相一致。

保护范围仅受所附权利要求的限制。当根据本说明书和随后的审查历史进行解释时，该范围的旨在并且应当解释为与权利要求中所使用的语言的普通含义相一致，并且涵盖所有结构和功能上的等同物。尽管如此，所有权利要求均不旨在涵盖不满足美国专利法第101、102或103条要求的主题，也不应当以这种方式来解释。特此拒绝对这样的主题的任何非预期的接受。

除了上面直接陈述的，任何已经陈述或说明的内容，无论其是否在权利要求中提及，都不旨在或应当被解释为将任何组件、步骤、特征、对象、利益、优势或等同物捐献给公众。

本文中使用的术语和短语应当被理解为与这样的术语和短语在相应的调查和研究领域中所具有的普通含义，除非本文中另有明确的含义。诸如第一和第二等等关系术语可以仅用于区分一个实体或动作与另一实体或动作，而不一定要求或暗示在这些实体或动作之间的任何实际的这用的关系或顺序。术语“包括”、“包含”或其任何其他变体旨在覆盖非排他性包括，使得包括一系列元素的过程、方法、制品或装置不仅仅包括这些元素，而且还包括可以包括未明确列出的、或对这样的是过程、方法、物品或装置是固有的其他元素。在没有其他限制的情况下，以“一”或“一个”开头的元素并不排除在包括该元素的过程、方法、制品或装置中存在附加的相同元素。

本公开的“摘要”被提供以允许读者快速地确定技术公开的性质。提交“摘要”的前提是，它不会被用来解释或限制权利要求的范围或含义。另外，在前述的“具体实施方式”中，可以看出，出于简化本公开的目的，各种特征在各种示例中被组合在一起。这种公开的方法不应当被解释为反映以下意图：权利要求需要记载比每个权利要求中明确记载的特征更多的特征。相反，如所附权利要求所反映的，发明主题在于单个公开示例的所有特征。因此，所附权利要求于此被并入“具体实施方式”中，其中每个权利要求独立地作为单独要求保护的主题。

Claims

1.一种辅助设备，包括：

相机，包括一个或多个面向外部的图像传感器，所述图像传感器被配置为捕获针对第一对象的第一图像数据，所述第一对象被包括在由所述相机观察的物理空间中；

一个或多个处理器；以及

一个或多个非暂态计算机可读介质，包括指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器：

基于所捕获的第一图像数据，自动地将所述第一对象分类为与第一对象分类相关联，其中所述第一对象被分类为所述物理空间中的人；

使用第一机器学习模型自动确定由所述第一对象表示的所述人的第一姿态，所述第一机器学习模型被训练以基于被包括在所述第一图像数据中的深度数据来确定所述人的所述第一姿态；

使用第二机器学习模型自动地标识表示所述人的所述第一姿态的第一音频信号，所述人由所述第一对象表示，所述第二机器学习模型被训练以标识与所述第一姿态相关联的第一动作、并且标识与所述第一动作相关联的所述第一音频信号；以及

通过被包括在所述辅助设备中的扬声器，发射所述第一音频信号。

2.根据权利要求1所述的辅助设备，其中所述指令还使所述一个或多个处理器：

基于所述第一图像数据，自动地确定所述第一对象在所述物理空间中相对于所述辅助设备的第一位置；以及

部分基于所述第一对象的所确定的所述第一位置，自动地标识所述第一音频信号。

3.根据权利要求2所述的辅助设备，其中所述指令还使所述一个或多个处理器：

当所述第一对象在第一时间段移动通过所述物理空间时，捕获针对所述第一对象的第二图像数据；

基于所述第二图像数据，自动地确定所述第一对象在所述物理空间中相对于所述辅助设备的第二位置；

基于所述第一对象与所述第一对象分类均相关联、以及所述第一对象的所述第二位置，自动地标识第二音频信号；以及

通过所述扬声器发射所述第二音频信号。

4.根据权利要求3所述的辅助设备，其中所述指令还使所述一个或多个处理器：

基于所述第二图像数据，自动地确定所述第一对象相对于所述辅助设备的经更新的位置；以及

基于所述第一对象的所述经更新的位置，通过所述扬声器重复地发射音频信号，从而提供针对所述第一对象的实时的听觉感觉替代传输。

5.根据权利要求4所述的辅助设备，其中所述指令还使所述一个或多个处理器：随着所述第一对象接近所述辅助设备而增加所述听觉传输的频率。

6.根据权利要求1所述的辅助设备，其中所述指令还使所述一个或多个处理器：

当所述第一对象在第一时间段将姿态从所述第一姿态改变到至少一个经更新的姿态时，捕获针对所述第一对象的第二图像数据；

通过使用所述第一机器学习模型以及被包括在所述第二图像数据中的深度数据，基于所述第二图像数据，自动地确定针对所述第一对象的所述至少一个经更新的姿态；以及

基于针对所述第一对象的所述经更新的姿态，通过所述扬声器重复地发射音频信号，从而提供针对所述第一对象的实时的听觉感觉替代传输。

7.根据权利要求1所述的辅助设备，其中所述指令还使所述一个或多个处理器：

基于所述第一图像数据，自动地标识所述第一对象的第一部分；

基于所述第一图像数据，自动地将所述第一部分分类为与第一面部表情分类相关联；

至少基于所述第一对象与所述第一面部表情分类相关联，自动地标识第二音频信号；以及

通过所述扬声器发射所述第二音频信号。

8.根据权利要求1所述的辅助设备，其中所述指令还使所述一个或多个处理器：

基于由所述相机捕获的第二图像数据，自动地将被包括在所述物理空间中的多个对象分类为与相应对象分类相关联；

至少基于所述多个对象与所述多个对象的相应对象分类相关联，自动地标识多个音频信号；以及

通过所述扬声器发射所述多个音频信号。

9.根据权利要求1所述的辅助设备，其中所述指令还使所述一个或多个处理器：

捕获针对第二对象的第二图像数据，所述第二对象被包括在由所述相机观察的所述物理空间中；

基于所述第二图像数据，自动地将所述第二对象分类为与第一命令分类相关联；

至少基于所述第二对象与所述第一命令分类均相关联，自动地标识第二音频信号；以及

通过所述扬声器发射所述第二音频信号。

10.一种在辅助设备上执行的用以呈现音频信号方法，所述音频信号与在相机的视场中所捕获的对象相对应，所述方法包括：

捕获针对第一对象的第一图像数据，所述第一对象被包括在由所述相机观察的物理空间中；

通过被包括在所述辅助设备中的扬声器，发射所述第一音频信号和第二音频信号。

11.根据权利要求10所述的方法，还包括：

12.根据权利要求11所述的方法，还包括：

基于所述第一对象与所述第一对象分类相关联、以及所述第一对象的所述第二位置，自动地标识第二音频信号；以及

通过所述扬声器发射所述第二音频信号。

13.根据权利要求12所述的方法，还包括：

14.根据权利要求13所述的方法，还包括：随着所述第一对象接近所述辅助设备而增加听觉传输的频率。

15.根据权利要求14所述的方法，还包括：随着所述第一对象移动远离所述辅助设备而减小所述听觉传输的频率。

16.根据权利要求10所述的方法，还包括：

17.根据权利要求10所述的方法，还包括：

至少基于所述第一对象与所述第一面部表情分类相关联，自动标识第二音频信号；以及

通过所述扬声器发射所述第二音频信号。

18.根据权利要求10所述的方法，还包括：

通过所述扬声器发射所述多个音频信号。

19.根据权利要求10所述的方法，还包括：

至少基于所述第二对象与所述第一命令分类相关联，自动地标识第二音频信号；以及

通过所述扬声器发射所述第二音频信号。

20.一种机器可读介质，包括指令，所述指令在由辅助设备所包括的一个或多个处理器执行时，使所述辅助设备执行根据权利要求11所述的方法。