CN114115515A

CN114115515A - 用于帮助用户的方法和头戴式单元

Info

Publication number: CN114115515A
Application number: CN202110854146.2A
Authority: CN
Inventors: D·克罗克斯福德; L·J·拉赫廷马基; S·T·L·埃利斯
Original assignee: ARM Ltd
Current assignee: ARM Ltd
Priority date: 2020-08-26
Filing date: 2021-07-27
Publication date: 2022-03-01
Also published as: GB202013373D0; GB2598333A; US20220066207A1; GB2598333B

Abstract

本发明提供了一种用于帮助用户诸如听力受损的用户的头戴式单元。该头戴式单元包括用于监测佩戴该头戴式单元的用户以便确定该用户正在观看的注视方向的跟踪传感器。传感器检测位于所标识的注视方向上的声源。可使用对来自该声源的所捕获的音频的语音识别或对该声源的图像的计算机视觉来识别来自该声源的声音。用户界面向该用户提供信息以帮助该用户识别来自该声源的声音。

Description

用于帮助用户的方法和头戴式单元

技术领域

本发明涉及用于帮助用户的方法和头戴式单元。在一些实施方案中，该方法和头戴式单元可用于在关于声源的信息内帮助听力受损的用户。

背景技术

据估计，约六分之一的英国成年人受听力损失的困扰。这些人中约800万人超过60岁，并且约670万人可受益于助听器(来源：Hearing Link-英国听力损失慈善机构)。常规的助听器包括麦克风、放大器和扬声器。这些部件用于放大环境声音，以使听力损失的用户更容易听到。然而，由于放大器放大用户本地的声音，因此遭受听力损失的人在嘈杂的环境中仍难以听到。

已经提出了针对该问题的一些解决方案。Sonova AG(RTM)公司的Phonak的名为“Roger clip-onmic”的产品是将音频从麦克风传输到助听器的夹式麦克风。在使用中，可将夹式麦克风给另一个人，诸如进行演示的人，并且助听器的佩戴者可更清楚地听到另一人的声音，而不会被佩戴者与另一人之间可能存在的背景噪声分散注意力。

遗憾的是，存在夹式麦克风的使用对于听力受损的用户不方便的情况。用户可能发现在演示开始之前必须接近演示者是不方便的或尴尬的。此外，如果半途加入演示，则要求演示者佩戴麦克风可能会引起混乱或是不可能的。在听力受损的用户希望听到几个不同的人的声音的情况下，为他们希望听到声音的每个人提供麦克风通常是不切实际的。

发明内容

根据第一方面，提供了一种由头戴式单元执行用于帮助用户的方法，该方法包括：监测佩戴头戴式单元的用户，以便确定用户正在观看的注视方向；检测位于所标识的方向上的声源；以及向用户提供信息以帮助用户识别来自声源的声音。

根据第二方面，提供了一种程序，该程序在由头戴式显示器执行时使头戴式显示器执行根据第一方面的方法。

根据第三方面，提供了一种用于帮助用户的头戴式单元，该头戴式单元包括：跟踪传感器，该跟踪传感器被配置为监测佩戴头戴式单元的用户，以便确定用户正在观看的注视方向；传感器，该传感器被配置为检测位于所标识的注视方向上的声源；和用户界面，该用户界面被配置为向用户提供信息以帮助用户识别来自声源的声音。

通过以下参照附图给出的仅以举例的方式给出的优选实施方案的描述，其他特征和优点将变得显而易见。

附图说明

图1是示出XR系统的部件的示意图；

图2描绘了一副智能眼镜202和相关联的应用程序；

图3是示出用于向听力受损的用户提供信息的步骤的流程图；

图4是确定用户是否参与会话的步骤的流程图；并且

图5是示出用于跟踪涉及三个或更多个人的多人会话的步骤的流程图。

具体实施方式

将参考附图描述具体实施方案。然而，首先描述某些更一般的方面和实施方案。

根据第一方面，提供了一种由头戴式单元执行用于帮助用户的方法，该方法包括：监测佩戴头戴式单元的用户，以便确定用户正在观看的注视方向；检测位于所标识的方向上的声源；以及向用户提供信息以帮助用户识别来自声源的声音。实施方案允许基于用户正在观看的方向来标识声源，并且向用户提供信息以允许用户识别来自该特定声源的声音。

监测用户可通过使用头戴式单元的传感器进行眼睛跟踪以跟踪用户的眼睛来执行。注视方向可基于所跟踪的用户眼睛的位置来确定。

来自声源的声音可以是语音。在其他实施方案中，声音可以是语音之外的声音，诸如已经从声源识别的音乐、拍手声等。声源可以是由对人的检测过程标识的人，或者可以是由对象检测过程检测的对象。

在一些实施方案中，标识声源的步骤包括在注视方向上捕获一个或多个图像，并且对至少一个捕获的图像执行计算机视觉以便标识声源。

相机可生成由在包括注视方向的方向上拍摄的图像组成的视频数据，并且该方法可以对所生成的视频数据的至少一部分执行自动唇读。在此类实施方案中，提供给用户的信息基于自动唇读的结果。可以对已经对人的嘴部部分定位时的视频数据的一部分执行自动唇读。

该方法可包括将定向麦克风指向包括所检测到的声源的方向的方向。在此类实施方案中，提供给用户的信息可基于由定向麦克风检测到的声音。

在一些实施方案中，除了在所检测到的声源的方向上检测声音之外，还从其他方向检测声音。该方法可包括对从其他方向检测到的声音执行声音识别过程，并且在声音识别过程识别预先确定的声音的情况下，向用户通知所识别的预先确定的声音。

在使用定向麦克风的实施方案中，可以对来自定向麦克风的声音信号执行语音识别。提供给用户的信息可基于语音识别的结果。

在一些实施方案中，可以对来自定向麦克风的声音信号执行语音识别。该方法可包括将来自定向麦克风的声音信号内的语音改变为具有不同的口音。在此类实施方案中，提供给用户的信息可包括向用户播放改变的语音。

信息可经由用户界面提供给用户。信息可以不同方式提供给用户，包括在显示器上显示文本、通过音频单元回放放大的声音、以及在显示器上显示手势中的一者或多者。音频单元可以是扬声器、头戴式耳机、耳机、骨传导耳机、助听器或任何其他类型的音频回放设备。

如果来自声源的声音是语音，则可识别语音中包括的语言。该方法可包括将语音从所识别的语言翻译为另一种语言。

检测声源的步骤可包括检测人。该方法可包括通过执行以下各项中的一项或多项来检测人是否在说话：检测人嘴部部分的运动；将定向麦克风指向人的方向，并且对由定向麦克风记录的声音执行语音识别。

该方法还可以包括通过检测用户和人是否相继说话来确定是否正在与人进行会话。除此之外或另选地，可通过以下方式识别会话：基于对来自定向麦克风的音频信号执行的计算机视觉识别和语音识别中的至少一者来检测来自人的语音，并且使用神经网络来分析所检测到的语音以确定是否正在进行会话。此外，可通过接收来自用户的输入来识别会话，以指示他们正与人进行会话。

在确定正在与人进行会话的情况下，该方法可包括跟踪此人。可通过标测头戴式单元周围的区域并且跟踪人在标测区域内的位置来跟踪人。

可控制定向麦克风以在跟踪人的方向上拾取声音。此外或另选地，可控制相机以在跟踪人的方向上捕获视频。

该方法还可以确定另外的人是否将添加到会话中。添加另外的人可包括确定用户未在看向已包括在会话中的人、在新的注视方向上捕获一个或多个图像、以及对至少一个所捕获的图像执行计算机视觉以便标识一个或多个所捕获图像内的另外的人。该方法还可包括通过以下各项中的一者或多者来确定是否正在与另外的人进行会话：检测用户、已包括在会话中的一个或多个人和另外的人是否相继说话；基于对声音信号的计算机视觉和语音识别中的至少一者来检测来自另外的人的语音，并且使用神经网络来分析来自用户、已包括在会话中的一个或多个人和另外的人的所检测到的语音以确定是否正在进行会话；以及接收来自用户的输入以指示正在与另外的人进行会话。

接收来自用户的指示正在与另外的人进行会话的输入的步骤可通过由头戴式单元的相机检测到的来自用户的手势来执行。

现在将参考附图描述具体实施方案。

图1是示出扩展现实(XR)系统100的部件的示意图。在本申请中使用术语“扩展现实”，但在本领域中也使用术语混合现实(MR)、虚拟现实(VR)和增强现实(AR)。术语“扩展现实”应该以其最广泛的意义理解为涵盖所有这些术语并且覆盖所有类型的沉浸式技术。XR系统100包括XR设备，诸如头戴式耳机、一副智能眼镜或任何其他类型的合适的可穿戴设备，如将结合图2更详细描述的。一般来讲，XR设备的功能获得由其他设备执行的处理，诸如由连接的移动设备诸如移动电话或膝上型电脑执行的处理的支持。此外，XR设备可连接到互联网，并且可直接或经由连接的移动设备访问云处理和存储装置。

XR系统100包括一个或多个传感器102，该一个或多个传感器被布置成生成表示XR系统100的用户所处的环境的一部分的传感器数据。传感器102包括用于生成图像数据的一个或多个相机，该图像数据表示落入一个或多个相机的视场内的环境的一部分。前置相机被布置成面向与佩戴XR头戴式耳机的用户的头部基本上相同的方向。可提供另一个广角相机以捕获用户周围的宽视场。这样，可以捕获来自用户视场的图像数据和来自用户视场外部的图像数据。

传感器102包括用于捕获深度信息的深度传感器。该深度传感器可包括立体相机，XR系统100可以使用立体匹配从该立体相机导出深度信息，该深度信息指示与环境中的对象的距离。在其他实施方案中，深度传感器包括红外相机、声音导航测距(声纳)收发器和/或光检测与测距(LIDAR)系统。在一些实施方案中，在XR系统100中不提供深度传感器，并且不确定深度信息。在其他实施方案中，可使用用于单目镜深估计的卷积神经网络从相机所捕获的图像导出深度信息。XR系统100被配置为组合图像数据和相关联的深度信息以生成环境的一部分的三维表示，例如以RGB-D格式，以及/或者作为点云或体积表示。

传感器102包括用于确定XR系统100的用户的位置和/或取向(统称为位置或姿势)的位置传感器。该位置传感器包括全球定位系统(GPS)模块、一个或多个加速度计和/或用于确定取向的霍尔效应磁力计(电子罗盘)。该一个或多个加速度计可包括在惯性测量单元中。另外，XR系统100能够通过使用即时定位与地图构建(SLAM)技术分析图像数据和/或深度信息来确定或细化用户的估计位置。一般来讲，该SLAM过程不是处理器密集的，并且在XR系统100可操作时连续运行。

XR系统100包括用户界面104，用户可经由该用户界面与XR系统100进行交互。用户界面104包括输入设备和输出设备，其中的一些或全部可以是与传感器102相同的XR设备的一部分。输出设备包括用于向用户提供视觉信息的一个或多个显示器。一个或多个显示器可包括不透明显示器，该不透明显示器被布置为生成和显示与使用一个或多个相机和/或深度传感器生成的环境的一部分的表示对应的图像数据，其中附加信息或虚拟对象与所生成的环境的表示重叠或以其他方式组合。可以提供透明显示器，用户可通过该透明显示器直接观察环境，并且例如使用波导或激光扫描显示技术在该透明显示器上投影信息或虚拟对象。

输出设备可包括例如安装在听筒或头戴式耳机中的一个或多个扬声器，从而允许XR系统100以音频的形式向用户输出信息。扬声器可包括骨传导扬声器，该骨传导扬声器允许用户继续听到环境声音以及由扬声器生成的那些环境声音。

用户界面104的输入设备被布置成从XR系统100的用户接收信息。输入设备包括用于捕获由用户发出的语音或其他声音的一个或多个本地麦克风。另外，输入设备包括用于检测外部声音的麦克风阵列，XR系统100可根据该外部声音确定音频源的方向。麦克风阵列是波束形成麦克风阵列(另选地被称为可操纵麦克风阵列)，其允许使用数字信号处理从指定方向拾取声音。使用本地麦克风和麦克风阵列，XR系统100可将用户发出的声音与环境中的其他声音区分开。

输入设备包括被布置成跟踪用户眼睛的取向和/或运动的一个或多个眼睛跟踪传感器。眼睛跟踪传感器可例如为能够通过分析由面向眼睛的相机诸如红外相机生成的眼睛的图像来跟踪眼睛的取向的光学眼睛跟踪传感器。眼睛跟踪传感器可生成眼睛跟踪数据，XR系统100可从该眼睛跟踪数据确定用户当前正在看向环境的哪个部分或环境中的哪个对象。

输入设备还包括按钮或触摸输入设备。例如，XR系统100可包括一个或多个滚轮、触敏区域或触控板。输入设备可包括硬件和/或软件以利用姿势识别、眼睛跟踪/眨眼和语音识别。在另外的变型形式中，用户界面功能可由与XR系统100的其余部分通信的单独设备(诸如移动电话触摸屏)的用户界面提供。如上所述，输入设备可以是容纳传感器102的XR设备的一部分，或者可以是单独的远程设备的一部分。

XR系统100包括存储器108和处理电路110。存储器108和处理电路110可以是容纳传感器102的XR设备的一部分。另选地，如前所述，存储器108和处理电路110中的一些可以是一个或多个单独设备的一部分，例如专用计算设备、智能电话、平板电脑或膝上型计算机、台式计算机、服务器或联网系统中的一个或多个设备。在示例中，在XR设备处本地发生某些数据存储和处理任务，而远程发生其他数据存储和处理任务。这样，由XR设备执行的数据存储和处理可保持到必要的最小值，从而允许XR设备具有对于XR设备的长时间使用和/或日常使用而言实用且有吸引力的尺寸、重量和形状因数。

存储器电路108包括例如一个或多个固态驱动器(SSD)和/或NVRAM(非易失性RAM)以及易失性随机存取存储器(RAM)形式的非易失性存储器，例如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)。可包括其他类型的存储器，诸如可移除存储装置、同步DRAM等。

处理电路110可包括各种处理单元，包括中央处理单元(CPU)、图形处理单元(GPU)和/或用于有效地执行神经网络操作的专用神经处理单元(NPU)。神经网络可用于某些任务，包括对象检测和SLAM，如将在下文更详细描述的。处理电路110可包括其他专家处理单元，诸如专用集成电路(ASIC)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)。

存储器108保持程序代码形式的机器可读指令，该机器可读指令在由处理电路110执行时使XR系统100执行下文所述的方法。存储器108还被布置为存储用于执行所述方法的另外的数据。

图2示出了形成XR系统100的一部分的智能电话204上的一副智能眼镜202和相关联的应用程序。智能眼镜202包括中心框架部分213和两个折叠臂206a、206b，其中中心部分213用作两个镜片208a、208b的支撑件。中心框架部分213和臂206a、206b容纳各种传感器和用户界面部件，如下文将描述的。在该示例中，镜片208a、208b是中性的，但是在其他示例中，镜片可以是与特定用户的处方匹配的矫正镜片，和/或可以是着色的，例如在智能太阳镜的情况下。镜片208a、208b中的每一者是透明显示器，对应的投影部件210a、210b被布置在该透明显示器上以向用户显示信息。

中心框架部分213容纳两个前置相机212a、212b和侧面相机(未示出)以捕获用户周围的图像。XR系统100被布置成使用立体匹配来分析由前置相机212a、212b生成的图像数据以确定深度信息。中心框架部分213还容纳用于接收来自用户和来自周围环境的声音输入的波束形成麦克风阵列214，以及用于分别跟踪用户的右眼和左眼的方向和运动的光学眼睛跟踪传感器216a、216b。光学眼睛跟踪传感器216a和216b包括用于确定用户正在观看的方向的相关联的处理电路。该相关联的处理电路可包括内置于智能眼镜202中的神经处理单元(NPU)或ASIC。对用户正在观看的方向的确定可以不同方式执行，但在该实施方案中，使用受过训练的卷积神经网络执行，该卷积神经网络可基于由光学眼睛跟踪传感器216a和216b检测到的眼睛位置来确定用户正在特定方向上观看的概率。臂206a、206b容纳专用电源、处理电路和存储器电路，以及全球定位系统(GPS)接收器、电子罗盘和加速度计。臂还包括通信模块，该通信模块包括用于与运行相关联的应用程序的智能电话204无线通信的天线。需注意，虽然无线通信模块允许与移动智能电话204通信，但智能眼镜可用作不与智能电话204持续通信的独立设备。

智能眼镜202包括覆盖用户耳朵的扬声器(未示出)。在其他实施方案中，智能眼镜202例如通过蓝牙(RTM)耦接到入耳式耳机或助听器，并且可通过入耳式耳机向用户提供声音。在有利的变型形式中，智能眼镜202的臂包括骨传导扬声器，该骨传导扬声器通过振动向用户提供声音，同时继续允许用户听到在本地发生的内容。

AR系统100被布置成使用智能眼镜202的车载GPS接收器和电子罗盘以及/或者通过使用SLAM处理来自相机212a、212b的图像数据来确定用户的位置(即，位置和取向)。XR系统100被配置为持续监测用户的位置，但是在其他实施方案中可以仅在检测到某些事件时(例如，在加速度计检测到用户的运动时)确定用户的位置。在其他实施方案中，GPS定位信息可由连接的智能电话提供。另选地或除此之外，可使用SLAM提供位置和取向信息。

包括上述特征的各种组合的XR系统可商购获得。示例包括Microsoft(RTM)Hololens(RTM)2和Magic Leap(RTM)1。下面描述各种方法，并且应当理解，每种方法所需的硬件配置取决于该方法中使用的传感器。

智能电话204上的应用程序可用于根据用户的偏好配置智能眼镜202。例如，用户可使用应用程序来选择显示在镜片208a、208b上的信息的类型，以及智能眼镜202是否如上所述连续地监测用户的位置。应用程序在智能电话204上具有相关联的存储装置，除了智能眼镜202的存储器电路之外，该相关联的存储装置也可以用于存储供XR系统100使用的数据。XR系统100还可以利用智能电话204的处理能力来执行某些资源密集型处理任务，诸如SLAM。在智能眼镜202和智能电话204之间共享AR系统200的存储和处理需求允许智能眼镜202的尺寸、重量和形状因数类似于一副常规眼镜，使得用户可长期且每天舒适地佩戴智能眼镜202。虽然在该图中结合智能电话204描述了智能眼镜，但智能眼镜可被配置为独立设备。

图3是示出用于向用户提供信息的步骤的流程图。在步骤S30中，光学眼睛跟踪传感器216a和216b跟踪用户的眼睛，并且相关联的处理电路确定用户最有可能观看的方向。并行地，前置相机212a和212b记录图像并且将图像存储在存储器108中。在步骤S31中，从存储器108读取由前置相机212a和212b捕获的图像或部分图像，该存储器包括捕获根据在步骤S30中进行的确定的用户正在观看的方向周围的区域的图像数据。可基于神经网络为用户正在观看的方向提供的置信度来选择图像或部分图像所覆盖的视角。在一些实施方案中，图像或部分图像的视角被选择为在15度至45度的区域中，以便将图像限制于用户最可能观看的区域。

在步骤S31中，对图像执行计算机视觉以标识图像内的声源。在本发明的实施方案中，计算机视觉处理是确定图像内是否存在人的对人的检测过程。对人的检测优选地使用神经网络来执行，诸如使用基于区域的卷积神经网络(R-CNN)，诸如基于ResNet的网络。基于区域的卷积神经网络的使用允许定位人在图像内的位置。如果未检测到人，则该方法在步骤S31处结束。然而，如果检测到人，则波束形成麦克风阵列214被控制以检测来自检测到人的方向的声音。现在可执行清理来自定向麦克风的声音的任选步骤。从一定距离检测到的声音可包括由于声波的反射或干扰而引起的环境噪声和其他失真。音频降噪可用于清理音频信号。机器学习网络当前提供了用于音频降噪的良好方法。例如，Rim Park和JinwonLee在康奈尔大学公布的论文“A Fully Convolutional Neural Network for SpeechEnhancement”arXiv：1609.07132中提出了CR-CED(级联冗余编码器-解码器网络)。

在进行或不进行降噪的情况下，可另外使用语音识别软件来分析音频信号，以便确定来自波束形成麦克风的音频信号中是否存在语音。语音识别处理是熟知的，并且被集成到智能电话助理和用于计算设备的其他语音控制中。因此，合适的语音识别程序用于对来自波束形成麦克风的音频信号进行语音识别。如果未检测到语音，则该方法在步骤S31处结束。然而，如果检测到语音，则该方法前进至步骤S32。

在步骤S32中，提供信息以帮助用户。存在向用户呈现信息的若干方式，并且可基于可用硬件和/或用户偏好来选择呈现方法。向用户提供信息的第一方式是经由扬声器向用户提供放大的声音。使用波束形成麦克风、对麦克风音频信号执行的降噪处理以及在扬声器回放之前放大音频信号的组合可使得用户更容易在嘈杂的环境中听到来自远处扬声器的声音或来自扬声器的声音。

向用户呈现信息的第二方式是将所识别的语音作为文本显示给用户。在这种情况下，上述语音识别程序用于处理来自波束形成麦克风的音频信号。语音识别程序生成与在音频信号中检测到的语音对应的文本。该文本在显示器上显示给用户，诸如通过投影到镜片208a和208b上，从而允许用户阅读所说的内容。这种呈现信息的方法对于听力严重受损或听力完全损失的用户特别有用。另选地或除此之外，所识别的语音可以手势语言在镜片208a和208b上呈现给用户。在通过手势语言显示的情况下，在镜片208a和208b上向用户显示对应于所识别的语音内容的一系列手势，以允许用户读取所识别的语音内容。

在上述实施方案中，波束形成麦克风阵列214用于检测来自所确定的用户正在观看的方向的声音。在另一个实施方案中，代替使用波束形成麦克风，而是由相机在包括检测到人的方向的方向上捕获视频。对所捕获的视频执行面部识别，并且标识并且定位面部的嘴部部分。与对人的检测一样，嘴部区域的标识优选地使用基于区域的卷积神经网络诸如基于ResNet的卷积神经网络来执行。

通过执行唇读来分析嘴部区域的局部视频，以基于嘴部区域的视频中的唇部运动识别人所说的内容，并且将所识别的语音记录为文本。受过训练以执行唇读的神经网络的示例在由康奈尔大学以arXiv：1611.01599公布的Yannis M Assael、BrendanShillingford、Shimon Whiteson和Nando de Freitas所著的“LipNet：End-to-EndSentence-level Lipreading”中有所讨论。基于所捕获的视频的基于计算机视觉的分析，生成对应于语音的文本。该文本可如前所述通过投影到镜片208a和208b上而显示给用户，或者被转换为手势并且显示给用户。

可任选地通过确定所捕获的视频中的唇部是否正在运动来在所标识的嘴部区域上执行对是否存在正在发生的语音的确认。如果执行该步骤，则可仅在确定语音正在发生的情况下执行自动唇读。

可将上面讨论的语音识别和唇读方法进行组合。在此类具体实施中，来自波束形成麦克风的音频信号由语音识别程序分析，并且来自相机的视频由计算机视觉和唇读过程分析。来自语音识别的文本和来自唇读识别的文本可组合以提高XR系统100的总体准确度。该组合可涉及比较由语音识别程序和由唇读程序检测到的字词的置信水平，并且在检测到的字词不匹配的情况下，选取具有较高置信水平的字词。其他方法包括分析字词的组合，这些字词包括已通过语音识别和唇读程序以不同方式检测到的字词和该字词任一侧的字词。分析来自语音识别和唇读程序中的每一者的字词的组合以确定字词的更可能的组合。在本领域中已考虑到自动语音识别中的错误检测，并且由Rahhal Errattahi、Asmaa E1Hannani和Hassan Ouahmane在2015年的自然语言和语音处理国际会议(ICNLSP2015)上发表的论文“Automatic Speech Recognition Errors Detection and Correction：AReview”中进行了讨论。因此，可应用类似的方法来标识语音识别和唇读程序所识别的错误并且对这些错误进行校正。

设想了唇读方法的其他变型形式。例如，可在显示器上向用户显示由基于区域的卷积神经网络识别的嘴部区域的视频，而不是执行自动唇读。显示给用户的图像可以是嘴部区域的放大图像。这可使得用户更容易看到他们正在观看的人的嘴部的运动，否则这可能从远处难以看清。该显示方法可与自动唇读方法相组合，使得字幕显示在显示器中显示的嘴部区域的放大视频图像下方。

在上文已标识了向用户提供信息的若干不同方法。向用户提供信息的方法可被配置为根据情况动态地变化。例如，当用户正在看向人时，可以在显示器上向用户显示放大的嘴部区域的视频。然而，如果XR系统100检测到用户已经将视线从所标识的人移开，可能为了关注其他事物，则显示器可改变到提供信息的另一种方式，诸如通过扬声器提供增强的音频或通过显示手势或文本。将结合图4更详细地讨论在用户将视线移开的情况下对所检测到的人的跟踪。

当在步骤S31中检测声源时，可执行附加处理。除了先前描述的对人的检测之外，XR系统100还可以执行对人的识别。对人的识别将针对智能眼镜202的用户已知的联系人的生物识别细节的数据库执行。如将在下文更详细讨论的，数据库细节可与智能眼镜202的佩戴者的用户配置文件相关联。在步骤S31中分析的图像内检测到多于一个人的情况下，可由AR系统100执行对人的识别。在这种情况下，XR系统100可优先从在生物识别细节数据库中识别的图像中选择人，作为波束形成麦克风或唇读的目标。可在镜片208a和208b上显示消息，以要求用户确认是否已选择正确的人。用户可使用输入设备确认是否已选择正确的人。

对人进行识别的替代或补充方法是对来自波束形成麦克风的音频信号执行语音识别以确定说话人的身份。使用语音识别或计算机视觉，说话人的身份为智能眼镜202的其他应用程序提供有用的上下文信息，诸如允许智能眼镜202为已识别的人显示联系方式或名片。

现在将参考图4和图5描述智能眼镜202的与会话相关的其他功能。图4是确定用户是否参与会话的步骤的流程图。会话检测方法从结合图3所述的情况开始，其中已经检测到用户正在观看的方向，已经执行计算机视觉以检测用户正在观看的方向上的人，并且波束形成麦克风正在用于从所检测到的人的方向拾取声音。这些步骤的描述将不再重复。如前所述，来自麦克风的音频信号在S40中经受语音识别。在步骤S41中，执行处理以确定是否正在进行会话。该处理可在具有或不具有来自用户的输入的情况下进行。例如，在语音识别程序已检测到语音的时间段之后，智能眼镜202可在镜片208a和208b上显示询问用户“你在进行会话吗？”的消息。用户可通过使用输入设备向智能眼镜202确认他或她是否处于会话中。在一个示例中，用户可通过使用手势向智能眼镜202指示正在进行会话的提示作出响应。例如，在前置相机212a和212b的视野中抬起用户的右手可指示正在进行会话，而在前置相机212a和212b的前方抬起用户的左手可指示未在进行会话。

在其他实施方案中，可基于所检测到的语音自动执行会话检测。智能眼镜202的本地麦克风被布置成从用户拾取声音，并且波束形成麦克风被布置成从包括其他用户的周围环境拾取声音。通常，在会话中，每个人依次说话，并且会话具有自然节奏。因此，如果从用户和所检测到的人检测到的语音被检测为交替，则AR系统100可确定正在进行会话。典型的语音模式可用于训练卷积神经网络，并且受过训练的卷积神经网络用于自动确定是否正在进行会话。

如果在步骤S41中确定正在进行会话，则方法前进至步骤S42。否则，该方法在步骤S41处终止。在步骤S42中，一旦确定正在与检测到的人进行会话，XR系统100就跟踪所检测到的人的位置。可通过存储人在周围环境内的位置来执行跟踪。调用智能眼镜202使用SLAM对周围环境进行建模。因此，可以基于检测到人的方向和来自深度传感器的深度信息来确定人在环境内的位置。所检测到的人的位置被存储为XR系统100中的位置。定期检查和更新人的位置以便跟踪此人。更新人的位置的过程涉及捕获人先前所在的区域的图像，如先前所述的执行对人的识别，以及更新检测到的人的位置。波束形成麦克风被控制以继续从所检测到的用户在进行会话的人所处的方向收集声音。因此，波束形成麦克风跟踪所检测到的人。

在步骤S42中，继续进行结合S32描述的向用户提供信息的过程。智能眼镜202的会话特征是有用的，因为已经确定会话正在进行中，用户现在可将视线从他们在进行会话的人身上移开并且仍然接收关于语音的信息。这是可能的，因为XR系统100正在跟踪进行会话的人，并且波束形成麦克风从所检测到的用户的方向收集声音，而用户不需要在他们进行会话的人的方向上持续观看。可以设想的是，这在许多情况下可能是有用的，诸如当参加演示并且希望将视线从演示者身上移开以观看所显示的幻灯片时，或者当在行走期间进行会话时，在行走期间为了导航和避开障碍物，必须将视线从正在与之交谈的人身上移开。为了适应在各种方向上观看的用户，智能眼镜202的相机可被配置为覆盖宽视场，可能为360度的视场。类似地，为了允许跟踪所检测到的人，波束形成麦克风阵列可被配置为围绕智能眼镜202，以便允许从各种方向拾取声音。

在步骤S43中，结束会话。对会话结束的检测可在具有或不具有用户交互的情况下执行。例如，用户可使用输入设备来指示会话已结束。另选地，可自动检测会话的结束。例如，语音识别所检测到的某些表达，诸如“再见”或“稍后再见”可被用来表示会话的结束。此外，如果XR系统100使用相机跟踪的人在预先确定的时间段(例如，10至30秒)内从智能眼镜202的相机视野中消失，则XR系统100可能不可能跟踪进行会话的人，并且人可能已经离开并且会话可能已经结束。如果使用对会话结束的自动检测，则可向用户显示消息以允许用户确认会话的结束或指示会话正在继续。

图5是示出用于跟踪涉及包括用户在内的三个或更多个人的多个人会话的步骤的流程图。已经结合图4描述了开始涉及单个其他人的会话。因此，图5的方法可在与单个其他人的会话已开始并且根据先前结合图4所述的方法正在进行的情况下实现。在步骤S50中，用户在新的方向上将视线从第一检测到的人身上移开。如前所述，由于第一人在用户周围区域内的位置，建立第一人的身份。任选地，可执行前面描述的类型的进一步的对人的识别步骤来建立第一人的身份。

在用户现在正在观看的新方向上捕获图像或图像序列。对在新方向上捕获的一个或多个图像执行对人的识别。如果未检测到人，则该方法在步骤S50中结束。否则，如果检测到人，则在步骤S51中，波束形成麦克风被控制以在检测到的第二人的方向上拾取声音。由于波束形成麦克风通过数字信号处理工作以控制所捕获音频的方向，因此可能检测来自多个方向的声音。因此，波束形成麦克风继续检测来自第一人的声音，并且开始从所检测到的第二人的方向接收声音。

在步骤S52中，确认是否正在与检测到的第二人进行会话。该处理类似于上述步骤S41。在一些具体实施中，响应于来自智能眼镜202的提示，用户通过使用输入设备确认应该将所检测到的第二人添加到会话中。另选地或除此之外，如果例如从用户、第一检测到的人和第二检测到的人检测到语音交替，则可自动检测到包括第二人的会话。如前所述，典型的语音模式可用于训练卷积神经网络，并且此类神经网络可用于基于来自用户和两个检测到的人的识别的语音模式来自动确定是否正在进行会话。

在步骤S53中，如果确认第二人是会话的一部分，则以与在S42中结合第一检测到的人所述相同的方式跟踪第二人。如果确定第二人不是会话的一部分，则图5的方法结束，但是与第一人的会话继续。

结合图4和图5的会话的描述基于利用定向麦克风的跟踪和语音识别。然而，该实施方案也可以使用先前结合图3所述类型的计算机视觉和唇读来实现，或者作为使用定向麦克风的声音的语音识别和利用唇读的计算机视觉的组合来实现。

可重复图5的方法以添加另外的用户，使得可配置涉及包括用户在内的三人以上的会话。

当会话结束时，执行类似于S43的处理。这可以对人逐一执行，使得如果一个人离开并且不再被检测到，则可以从会话中移除此人并且不再对其进行跟踪，而与其余人的会话可以继续由智能眼镜202记录。

其他特征可包括在智能眼镜202中，以补充或增强结合图3所述的提供给用户的信息。AR系统可包括用于将语音从一种语言翻译为另一种语言的翻译功能。在这种情况下，语音由语音识别程序或唇读程序识别。然后将对应于所识别的语音的文本翻译成用户所选择的语言。所翻译的语音可作为镜片208a和208b上的文本或手势输出给用户。在其他实施方案中，文本可经受文本到语音的转换并且经由扬声器输出给用户。

在一些具体实施中，智能眼镜202可被配置为接收和存储用户配置文件，该用户配置文件包括关于用户的信息，诸如用户的优选语言、优选输出方法、音量设置等。存储在配置文件中的优选语言可用于为上述翻译功能选择目标语言。来自智能眼镜202位置传感器的自动语言检测和/或位置信息可用于确定源语言。与优选输出方法相关的配置文件信息可包括诸如关于用户是否优选查看显示器中的文本或手势的偏好的信息。在一些具体实施中，当用户开始使用智能眼镜202时，例如在完成登录操作之后，用户配置文件被存储在云存储中并且被下载。这样，如果用户在不同情况下使用多个智能眼镜202，则用户配置文件中的信息可在设备之间同步。

在一些实施方案中，由波束形成麦克风检测到的声音可经由智能眼镜202的扬声器提供给用户。如上所述，用户的音频输出可经受音频降噪。在另外的实施方案中，以这种方式检测和输出的语音可受到口音校正。口音校正涉及将包括在音频信号中的语音(例如，具有苏格兰口音的语音)改变为另一种语音。使用AI技术可能基于真实语音创建人造语音并且将一种语音转换为另一种语音。这样的一个示例是由Descript的AI研究部门开发的lyrebird API。使用此类技术，在来自波束形成麦克风的音频信号中检测到的语音可被转换为对用户更清楚或具有用户更熟悉的口音的语音。用户的口音偏好可存储在用户配置文件中。

在其他实施方案中，智能眼镜202可被配置为向用户自动提出智能眼镜202的设置的调整。例如，如果XR系统100在会话中反复检测到字词诸如“请再说一遍”或“对不起”，则眼镜可向用户呈现选项，诸如在镜片208a和208b上显示的菜单中，建议选项诸如“是否启用口音校正？”、“是否启用翻译功能？”、“是否启用音频降噪？”、“是否从扬声器切换到文本显示？”。调整设置的自动提议还可以基于检测到的背景噪声水平，可能与某些关键字词的检测相结合。这样，可以方便地提示用户调整智能眼镜202的设置，以便更好地理解所说的内容。

一些实施方案的另一个特征是在检测到预先确定的声音的情况下通知用户的功能。在用户正在听来自波束形成麦克风的放大的声音的实施方案中，很可能用户将不知道来自其他方向的声音。然而，可能需要向用户通知来自其他方向的一些声音，诸如例如警报发出的声音或正在接近的车辆的声音。因此，在另外的实施方案中，分析由麦克风阵列捕获的声音以检测某些预先确定的声音，并且在检测到预先确定的声音的情况下，向用户通知所检测到的声音。通知可通过在镜片208a和208b上显示消息来进行，或者可通过改变经由扬声器播放给用户的音频来通知，以允许用户听到所检测到的声音。需要检测和通知的预先确定的声音将根据情况而变化。因此，该特征对于工业或受控环境可能特别有用，在工业或受控环境中，可以容易地预期应当通知的预先确定的声音。该特征的另一个应用是检测麦克风是否检测到用户的名称。用户的名称可存储在用户配置文件信息中，并且如果针对名为John的用户检测到表达诸如“嘿，John”，则AR系统可向智能眼镜202佩戴者进行通知。可被通知给用户的预先确定的声音的另外的示例包括门铃的声音和电话铃声的声音。

上述实施方案处理用户正在与人进行会话的情况。然而，也可能使用电信设备(诸如智能扬声器)与另一个人进行会话。图3的方法可适于考虑到这一点。当用户发起呼叫时，用户通常将看向其智能扬声器或其他电信设备，诸如智能电视或其他IOT设备。在这种情况下检测声源的步骤涉及标识在用户正在观看的方向上捕获的图像内的电信设备。电信设备的检测可以由对象识别程序来执行。对象识别程序可以为任何已知类型，并且可以使用基于区域的卷积神经网络来实现。智能扬声器可由对象识别程序识别，并且波束形成麦克风可被引导以从电信设备的方向接收声音。一旦标识出电信设备的位置，就存储该位置以供将来参考。这是有利的，因为对象检测处理所需的处理相当密集，而使用SLAM保持位置信息所需的处理相对较低。因此，对于不趋于四处移动的电信设备，对象检测处理可能仅偶尔执行，从而减少计算负载。另外，对于用户经常占用的位置诸如住宅或工作场所，XR系统100可存储电信设备的位置。在一些具体实施中，当XR系统100确定用户处于已知环境中时，智能眼镜202可监测来自已知电信设备存在的方向的声音。这样，AR系统100可检测并且迅速吸引佩戴者对来自电信设备的声音(诸如来电)的关注。

上文所述的实施方案已被描述为呈智能眼镜202的形式。智能眼镜202可特别适用于听力受损的用户，因为所提供的附加信息可允许听力受损的用户理解原本在所处情况下难以理解的语音。然而，已经考虑了其他具体实施和使用案例。例如，对于听力未受损的用户，增强的听力可用于诸如嘈杂夜间的情况或期望通过高声工业机械的声音进行通信的嘈杂的工业情况。在另外的应用中，XR系统100可允许具有正常听力的用户听到比用户通常能够听到的声音更远的声音。结合工业应用，XR系统100可在工业安全眼镜中实现或实现为安全头盔的一部分。此外，XR系统100可被实现在或另外包括护耳器，以在可穿戴设备提供关于环境中的特定声音的信息时保护用户免受过度周围噪声的影响。

上述实施方案应理解为例示性示例。设想了另外的实施方案。例如，在上述实施方案中，已经描述了使用即时定位与地图构建(SLAM)技术的组合以及使用基于区域的卷积神经网络(R-CNN)的人或对象识别的具体实施。然而，替代方案将是使用语义SLAM技术，其中移动对象诸如人被识别并且位于场景内。

上面已经给出了识别来自所检测到的人的语音和识别来自对象(诸如所识别的电信设备)的语音的示例。一般来讲，声源可以是人或另一个对象，诸如电视机、电信设备或其他对象。对来自声源的声音执行的识别处理可比使用语音识别程序更一般，并且可包括标识其他声音诸如音乐、枪声、拍手声、汽车噪声等的能力。类似于上述实施方案，所识别的声音可以文本描述的形式诸如“音乐”、“拍手声”等提供给用户，或者以向用户显示的手势的形式提供给用户。

应当理解，相对于任何一个实施方案所述的任何特征结构可单独使用，或与所述的其他特征结构组合使用，并且还可与任何其他实施方案的一个或多个特征结构组合使用，或与任何其他实施方案的任何特征结构组合使用。此外，在不脱离所附权利要求中限定的范围的情况下，也可以采用上文未描述的等同物和修改形式。

Claims

1.一种由头戴式单元执行的用于帮助用户的方法，所述方法包括：

监测佩戴所述头戴式单元的用户，以便确定所述用户正在观看的注视方向；

检测位于所标识的注视方向上的声源；以及

向所述用户提供信息以帮助所述用户识别来自所述声源的声音。

2.根据权利要求1所述的方法，其中监测所述用户包括使用所述头戴式单元的传感器执行眼睛跟踪以跟踪所述用户的眼睛。

3.根据权利要求1所述的方法，其中标识所述声源包括在所述注视方向上捕获一个或多个图像并且对至少一个所捕获的图像执行计算机视觉以便标识声源。

4.根据权利要求1所述的方法，其中提供给所述用户的所述信息基于以下各项中的至少一者：

对由在包括所述注视方向的方向上拍摄的图像组成的视频数据的至少一部分执行的自动唇读；以及

由指向包括所检测到的声源的方向的方向的定向麦克风检测到的声音。

5.根据权利要求1所述的方法，其中检测声源包括检测人。

6.根据权利要求5所述的方法，其中所述方法还包括通过以下各项中的至少一者来确定是否正在与所述人进行会话：

检测用户和所述人是否相继说话；

基于对来自定向麦克风的音频信号执行的计算机视觉和语音识别中的至少一者来检测来自所述人的语音，并且使用神经网络来分析所检测到的语音以确定是否正在进行会话；以及

接收来自所述用户的输入以指示他们正在与所述人进行会话。

7.根据权利要求6所述的方法，其中在确定正在与所述人进行会话的情况下，所述方法包括跟踪所述人，跟踪所述人包括以下各项中的至少一者：控制定向麦克风以在跟踪所述人的方向上拾取声音，以及控制相机以在跟踪所述人的方向上捕获视频。

8.根据权利要求6所述的方法，还包括确定另外的人是否将添加到会话中，所述方法包括：

确定所述用户未看向已包括在所述会话中的人；

在新的注视方向上捕获一个或多个图像并且对至少一个所捕获的图像执行计算机视觉，以便标识所述一个或多个所捕获的图像内的所述另外的人；

通过以下各项中的一者确定是否正在与所述另外的人进行会话：

检测所述用户、已包括在所述会话中的一个或多个人和所述另外的人是否相继说话；

基于对声音信号的计算机视觉和语音识别中的至少一者来检测来自所述另外的人的语音，并且使用神经网络来分析来自所述用户、已包括在所述会话中的所述一个或多个人和所述另外的人的所检测到的语音以确定是否正在进行会话；或者

接收来自所述用户的输入以指示正在与所述另外的人进行会话。

9.一种程序，所述程序在由头戴式显示器执行时，使所述头戴式显示器执行用于帮助用户的方法，所述方法包括：

检测位于所标识的注视方向上的声源；以及

10.一种用于帮助用户的头戴式单元，所述头戴式单元包括：

跟踪传感器，所述跟踪传感器被配置为监测佩戴所述头戴式单元的用户，以便确定所述用户正在观看的注视方向；

传感器，所述传感器被配置为捕获信息以检测位于所标识的注视方向上的声源；和

用户界面，所述用户界面被配置为向所述用户提供信息以帮助所述用户识别来自所述声源的声音。