CN113906368A

CN113906368A - 基于生理观察修改音频

Info

Publication number: CN113906368A
Application number: CN201980096120.7A
Authority: CN
Inventors: R·A·巴拉加斯; S·G·巴里卡
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2019-04-05
Filing date: 2019-04-05
Publication date: 2022-01-07
Also published as: WO2020204934A1; EP3935474A1; US20220026986A1; EP3935474A4; US11853472B2

Abstract

一种示例非暂时性计算机可读存储介质，包括指令，当由计算设备的处理资源执行时，所述指令使处理资源进行以下操作：响应于标识用户的凝视的注意力空间区域，增强与注意力空间区域相关联的音频。所述指令进一步使处理资源至少部分地基于用户当听到音频时的生理观察来修改增强。

Description

基于生理观察修改音频

背景技术

虚拟现实环境创建虚构的环境或将真实环境复制为虚拟的、模拟的环境。为此，软件和硬件设备的组合为用户提供听觉、视觉和其它感觉，以创建虚拟现实环境。例如，虚拟现实头戴式耳机提供模拟真实环境的听觉和视觉感觉。

增强现实环境也由计算设备利用软件和硬件设备的组合来生成真实世界环境的交互体验而创建。计算设备通过生成感官信息（例如，听觉、视觉、触觉等）并将其覆盖在真实世界环境上来增强真实世界环境。

附图说明

以下详细描述参考附图，其中：

图1描绘了根据本文中所描述的示例的具有用以呈现接口的显示器和用以生成音频的音频设备的计算设备；

图2描绘了根据本文中所描述的示例的具有用以呈现接口的显示器和用以生成音频的音频设备的计算设备；

图3描绘了根据本文中所描述的示例的包括基于生理观察修改音频的指令的计算机可读存储介质304；

图4描绘了根据本文中所描述的示例的基于生理观察修改音频的方法的流程图；

图5描绘了根据本文中所描述的示例的基于生理观察修改音频的方法的流程图；以及

图6描绘了根据本文中所描述的示例的基于生理观察修改音频的方法的流程图。

具体实施方式

数字环境（比如虚拟现实环境、增强现实环境和游戏环境）向用户提供听觉、视觉、战术和其它感觉，以为用户创建沉浸式体验。例如，在虚拟现实环境中，穿戴在用户的眼睛之上的虚拟现实头戴式耳机使用户沉浸在视觉环境中。诸如扬声器或耳机之类的音频设备提供与视觉环境相关联的音频。用户的沉浸式体验可能被用户无法将听觉注意力（大脑中选择性注意力的影响）集中在特定刺激上同时过滤掉一系列其它刺激而削弱。例如，用户可能难以将听觉注意力集中于与注意力空间区域（即，用户在显示器上正在看的地方）相关联的声音。

本文中所描述的示例提供了基于用户当听到音频时的心理观察来修改与用户的注意力空间区域相关联的音频。在比如本文中所描述的那些的数字环境中，将听觉注意力集中在特定的注意力空间区域上可能是有用的。例如，当用户看着注意力空间区域（例如，在一群个体之中谈话的人）时，本文中所描述的示例提供了与注意力空间区域相关联的增强音频。增强音频可以包括应用滤波器来抑制噪声或干扰源、增加音量、通过共振峰增强来改善语音质量或可懂度等。

本文中所描述的附加示例还提供了抑制与除了注意力空间区域以外的区域相关联的音频。例如，从注意力空间区域之外的源发出的音频可以在音量上降低、在可懂度方面最小化等。在一些示例中，可以组合抑制与除了注意力空间区域以外的区域相关联的音频来施行针对注意力空间区域的增强音频。

本文中所描述的进一步示例提供了观察用户的生理状况并应用那些生理观察来修改增强和/或抑制。例如，如果观察到用户显示不理解音频的迹象（例如，用户扬起眉毛、用户将耳朵转向注意力空间区域等），则可以修改增强和/或抑制以增加用户对音频的听力/理解。作为一个这样的示例，当用户的认知负荷高时，与注意力空间区域相关联的音频被放大。这减少了用户的总体认知工作量。可以根据从瞳孔数据、脑电图（EEG）感测、心电图（ECG）感测、光电容积图（PPG）感测、功能磁共振成像（fMRI）感测以及诸如此类获得的测量结果来计算或估计认知工作量。

在又附加的示例中，本技术提供了将音频注意力从注意力空间区域转移开。例如，当用户闭上他/她的眼睛时，音频注意力被引导到用户后面，而不是注意力空间区域。

图1-3包括根据如本文中所描述的各种示例的组件、模块、引擎等。在不同的示例中，可以根据本文中所描述的教导使用更多、更少和/或其它组件、模块、引擎、组件/模块/引擎的布置等。此外，本文中所描述的组件、模块、引擎等被实现为执行机器可读指令的软件模块、硬件模块或专用硬件（例如，专用硬件、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、嵌入式控制器、硬连线电路等）、或这些的一些组合。

图1-3涉及诸如图1的计算设备100和图2的计算设备200之类的计算设备的组件、引擎和模块。在示例中，计算设备100和200是任何适当类型的计算设备，诸如智能电话、平板、台式计算机、膝上型计算机、工作站、服务器、智能监视器、智能电视、数字标牌、科学仪器、零售销售点设备、视频墙、成像设备、外设、联网装备、可穿戴计算设备或诸如此类。

图1描绘了根据本文中所描述的示例的具有用以呈现接口130的显示器120和用以生成音频142的音频设备140的计算设备100。计算设备100包括处理资源102，其表示能够处理数据或解释和执行指令的任何合适类型或形式的（一个或多个）处理单元。例如，处理资源102包括中央处理单元（CPU）、微处理器和/或适合于检索和执行指令的其它硬件设备。指令例如被存储在非暂时性有形计算机可读存储介质（诸如存储器资源104（以及图3的计算机可读存储介质304））上，所述存储器资源104可以包括存储可执行指令的任何电子、磁性、光学或其它物理存储设备。因此，存储器资源104可以例如是随机存取存储器（RAM）、电可擦可编程只读存储器（EPPROM）、存储驱动器、光盘以及存储用以使可编程处理器施行本文中所描述的技术的指令的任何其它合适类型的易失性或非易失性存储器。在示例中，存储器资源104包括主存储器（诸如其中在运行时期间存储指令的RAM）和辅存储器（诸如其中存储指令副本的非易失性存储器）。

替代地或附加地，在其它示例中，计算设备100包括用于施行本文中所描述的技术的专用硬件，诸如集成电路、ASIC、专用特殊处理器（ASSP）、FPGA或专用硬件的前述示例的任何组合。在一些实现中，可以视情况使用多个处理资源（或利用多个处理核心的处理资源）连同多个存储器资源和/或存储器资源类型。

显示器120一般表示展示、显示或呈现消息、图像、视图、接口、接口的部分或其它呈现以供计算设备100的用户感知的硬件和编程的任何组合。在示例中，显示器120可以是或包括监视器、投影设备、触摸屏和/或触摸/感官显示设备。例如，显示器120可以是任何合适类型的输入接收设备，以接收来自用户的触摸输入。例如，显示器120可以是轨迹板、触摸屏或用以识别与显示器120的表面的接触点的存在的另一设备。接触点可以包括来自触笔、电子笔、用户手指或其它用户身体部位或另一合适来源的触摸。显示器120可以接收多点触摸手势，诸如“捏拉缩放”、多点触摸滚动、多点触摸轻敲、多点触摸旋转和其它合适的手势，包括用户定义的手势。

显示器120可以显示文本、图像和其它适当的图形内容，诸如应用的接口130。在图1所示出的示例中，呈现引擎（未示出）使显示器120呈现接口130。例如，当应用在计算设备100上执行时，呈现引擎将接口130呈现在显示器120上。

音频设备140，诸如电声换能器（即扬声器），通过将来自计算设备100的信号转换为计算设备100的用户可以听到的声波来生成音频142。可以使用不同类型的音频设备，诸如喇叭、耳机以及诸如此类。

在示例中，音频142对应于或以其它方式与呈现在显示器120上的接口130的内容相关联。例如，如果接口130示出室外场景，则音频142可以包括鸟声、风声、雨声或其它室外声音。作为另一示例，如果接口130示出体育赛事，则音频142可以包括评论员或分析员的对话声音、人群噪声、运动员噪声、裁判的哨声以及诸如此类。

空间音频使用例如头部相关传送函数（HRTF）向用户输送沉浸式音频。HRTF创建延迟和信号衰减，其帮助用户感知音频源的距离和方向。图1的计算设备100例如通过增强与注意力空间区域相关联的音频和/或抑制与除了注意力空间区域以外的区域相关联的音频来改善空间音频。计算设备100通过基于当用户在听音频时的用户的生理观察来修改增强和/或抑制而进一步改善空间音频。

注意力空间区域引擎110基于用户的凝视、用户的头部方向或用户的另一方向指示器来标识用户的注意力空间区域132。例如，注意力空间区域引擎110使用眼睛跟踪技术或其它合适的技术来确定注意力空间区域132。注意力空间区域132表示用户已经将他或她的凝视集中到的区域。例如，在接口130的情况下，注意力空间区域132是用户已经将他或她的凝视集中到的接口130的区域（或部分）。注意力空间区域132之外的区域被称为除了注意力空间区域132以外的区域134。在其它示例中，注意力空间区域引擎110通过使用传感器（例如，定位传感器、倾斜传感器、加速度计、陀螺仪以及诸如此类）检测用户头部的取向来标识注意力空间区域132。

增强/抑制引擎112使用注意力空间区域132来增强与注意力空间区域132相关联的音频。例如，增强与注意力空间区域132相关联的音频可以包括对音频应用滤波器以去除噪声、改善清晰度、放大音频以及诸如此类。这可以结合认知负荷分析来完成，使得如果认知负荷被估计为高，则那么可以调整非空间注意力区域的抑制量和空间注意力区域的增强量，以将认知负荷降低到预确定阈值以下。作为一个这样的示例，如果注意力空间区域132集中于进行交谈的两个个体上，则可以增强音频以增加语音频率内的频率音量（例如，从大约300Hz到大约3400Hz）。这可以改善用户对注意力空间区域132内发生的交谈的听力和理解。

增强/抑制引擎112还使用注意力空间区域132来抑制与除了注意力空间区域132以外的区域134相关联的音频。例如，抑制与除了注意力空间区域132以外的区域134相关联的音频可以包括对与区域134相关联的音频应用滤波器以减少或消除这样的音频。作为示例，如果注意力空间区域132集中于上面的示例的交谈上，则可以抑制与区域134相关联的音频，从而改善与注意力空间区域132相关联的音频。例如，增强/抑制引擎112可以应用滤波器来降低与区域134相关联的音频的音量。这也改善了用户对注意力空间区域132内发生的交谈的听力和理解。在示例中，可以减少与除了注意力空间区域132以外的区域134相关联的音频但不可以完全消除，这使得用户能够以低注意力水平继续监视除了注意力空间区域132以外的区域134。

生理观察引擎114在听到音频（例如，已经被增强/抑制的音频）时观察用户的生理反应。例如，生理观察引擎114可以通过基于瞳孔扩张、心率、皮肤电反应、面部表情、大脑活动以及诸如此类及其组合估计认知工作量来观察指示用户正在争取理解或识别与注意力空间区域相关联的音频的生理反应。响应于确定的对与注意力空间区域132相关联的音频的低理解，生理观察引擎114可以使增强/抑制引擎112修改音频以改善理解。例如，增强/抑制引擎112可以增加与注意力空间区域132相关联的音频的电平，从与注意力空间区域132相关联的音频去除噪声，降低与除了注意力空间区域132以外的区域134相关联的音频的电平以及诸如此类。

在一些示例中，生理观察引擎114使用肌电图（EMG）来检测用户的面部表情，以确定用户对音频的理解。例如，生理观察引擎114使用EMG来检测指示困惑或缺乏理解的用户的面部表情。响应于检测到这样的困惑或缺乏理解，生理观察引擎114可以使增强/抑制引擎112诸如通过修改增强/抑制来修改音频以改善理解。

图2描绘了根据本文中所描述的示例的具有用以呈现接口（例如，接口130）的显示器220和用以生成音频（例如，音频142）的音频设备240的计算设备200。类似于图1的计算设备100，图2的示例计算设备200包括处理资源202、显示器220和音频设备240。

此外，计算设备200包括注意力空间区域模块210、眼睛跟踪模块211、增强模块212、抑制模块213和生理观察引擎214。这些模块可以例如存储在计算机可读存储介质（例如，图3的计算机可读存储介质304）或存储器（例如，图1的存储器资源104）中，或者可以使用专用硬件来实现所述模块，以用于施行本文中所描述的技术。

显示器220向用户呈现接口（例如，虚拟现实接口、增强现实接口、游戏接口等）。

注意力空间区域模块210通过跟踪用户眼睛的眼球移动来标识用户的凝视关于虚拟现实接口的注意力空间区域。注意力空间区域模块210可以利用眼睛跟踪模块211来跟踪用户眼睛的眼球移动。

增强模块212通过增强与注意力空间区域相关联的音频来调整与虚拟现实接口相关联的音频。抑制模块213通过抑制与除了注意力空间区域以外的区域相关联的音频来调整与虚拟现实接口相关联的音频。

生理观察引擎214至少部分地基于用户当听到音频时的生理观察来修改增强或抑制中的至少一个。

根据示例，注意力空间区域模块210可以基于用户输入（例如，用户将用户的凝视从之前的注意力区域移动到新的注意力区域、用户的手势、用户的头部运动等）标识新的注意力空间区域。增强模块212然后可以增强与新的注意力空间区域相关联的音频。类似地，抑制模块213可以抑制与除了新的注意力空间区域以外的区域相关联的音频。生理观察引擎214然后可以至少部分地基于用户当听到与新的注意力空间区域相关联的音频时的第二生理观察来修改增强或抑制中的至少一个。

在示例中，新的注意力空间区域是不在用户的视野内的区域。例如，新的注意力空间区域可以在用户后面。用户输入可以用于将音频注意力从视觉注意力转移开。例如，虚拟现实头戴式显示器（HMD）中的EMG传感器可以检测到用户何时正在扬起他或她的眉毛。在这样的示例中，眉毛运动的幅度可以在语义上映射到音频注意力的方向旋转的幅度。替代地，用户闭上他或她的眼睛可能是将音频注意力集中在用户后面的指示。作为另一示例，控制器（未示出）可以映射到方向性麦克风隐喻（metaphor），其中控制器（例如，使用控制器方向）指定音频注意力空间区域的参数。

虚拟化身也可以适于表示社交虚拟环境中的音频注意力。例如，如果第一人正在努力集中在第二人的语音上，并且第一人对空间音频的修改是显著的，则可以通过第一人的虚拟化身的耳朵在视觉上变得更大并指向第二人来表示。替代地，如果第一人的视觉注意力指向第二人，但是第一人的音频注意力是游荡的，则可以通过将第一人的虚拟化身的虚拟耳朵指向第一人的音频注意力的焦点来表示。

图3描绘了根据本文中所描述的示例的包括基于生理观察修改音频的指令的计算机可读存储介质304。计算机可读存储介质304在其不涵盖暂时性信号而是由存储指令的存储组件构成的意义上来说是非暂时性的。计算机可读存储介质可以代表图1的存储器资源104，并且可以以模块或引擎的形式存储机器可执行指令，所述指令在诸如图1的计算设备100和/或图2的计算设备200之类的计算设备上可执行。

在图3中所示出的示例中，指令包括注意力空间区域指令310、增强指令312、抑制指令313和生理观察指令314。计算机可读存储介质304的指令可执行以施行本文中所描述的技术，包括关于图4的方法400和/或图5的方法500描述的功能性。下面参考图4和5的功能块来描述这些模块的功能性，但是不应将其解释为限于此。

特别地，图4描绘了根据本文中所描述的示例的基于生理观察修改音频的方法400的流程图。方法400由计算设备（诸如图1的计算设备100和/或图2的计算设备200）可执行。作为示例，参考存储在图3的计算机可读存储介质304上的指令和图1的计算设备100的组件来描述方法400，但不限于此。

在图4的框402处，响应于标识用户的凝视的注意力空间区域132的注意力空间区域指令310，增强指令312增强与注意力空间区域132相关联的音频。在框404处，增强指令312至少部分地基于用户当听到音频时由生理观察指令314施行的生理观察来修改增强。在示例中，生理观察包括对用户的瞳孔扩张、用户的心率、用户的皮肤电反应或用户的面部表情中的至少一个的观察。

还可以包括附加过程。例如，方法400可以包括注意力空间区域指令310，其通过跟踪用户眼睛的眼球移动来标识用户的凝视的注意力空间区域132。在另一示例中，方法400可以包括抑制指令313，其抑制与除了注意力空间区域132以外的注意力区域134相关联的音频，并且至少部分地基于用户的生理观察来修改抑制。

在又另一示例中，方法400可以包括注意力空间区域指令310，其响应于检测到用户的凝视的改变而标识新的注意力空间区域。在示例中，增强指令312至少部分地基于用户当听到与新的注意力空间区域相关联的音频时由生理观察指令314施行的第二生理观察来增强与新的注意力空间区域相关联的音频，修改与新的注意力空间区域相关联的音频的增强。在示例中，抑制指令313至少部分地基于用户当听到与新的注意力空间区域相关联的音频时由生理观察指令314施行的第二生理观察来抑制与新的注意力空间区域相关联的音频，以及修改与新的注意力空间区域相关联的音频的抑制。

应当理解，图4中所描绘的过程表示图示并且在不脱离本公开范围的情况下，可以添加其它过程或者可以去除、修改或重新布置现有过程。

图5描绘了根据本文中所描述的示例的基于生理观察修改音频的方法500的流程图。方法500由计算设备（诸如图1的计算设备100和/或图2的计算设备200）可执行。作为示例，参考存储在图3的计算机可读存储介质304上的指令和图1的计算设备100的组件来描述方法500，但不限于此。

在框502处，响应于标识用户的凝视的注意力空间区域132的注意力空间区域指令310，抑制指令313抑制与除了注意力空间区域132以外的区域134相关联的音频。在框504处，抑制指令313至少部分地基于用户当听到音频时由生理观察指令314施行的生理观察来修改抑制。

还可以包括附加过程，并且应当理解，图5中所描绘的过程表示图示并且在不脱离本公开范围的情况下，可以添加其它过程或者可以去除、修改或重新布置现有过程。

图6描绘了根据本文中所描述的示例的基于生理观察修改音频的方法600的流程图。方法600由计算设备（诸如图1的计算设备100和/或图2的计算设备200）可执行。

在图6的示例中，由认知负荷模块602接收生理信号。

生理信号的示例从监视和观察来自用户的生理反应的信号接收，并且可以包括EEG、PPG、EMG、fMRI、瞳孔扩张、凝视方向等及其组合。

认知负荷模块602使用生理信号来确定用户的认知压力/负荷。例如，通过基于瞳孔扩张、心率或皮肤电反应估计用户的认知工作量，生理信号可以用于检测用户是否正在争取理解或识别注意力空间区域内的音频信号。响应于音频信号的低可懂度/理解，可以动态地修改音频以增强可懂度，例如，通过放大与注意力空间区域132相关联的音频源（例如，说话者的语音）和/或通过抑制与除了注意力空间源132以外的区域134相关联的音频源（例如，背景噪声）。

作为示例，如果EEG指示指示用户处于相对于正常的高认知负荷下的脑波模式，则认知负荷模块602确定附加音频增强和/或抑制对于增加用户的听力和/或对音频的理解是有用的。类似地，如果（如使用眼睛跟踪技术确定的）用户的凝视在延长的时段内（例如，超过阈值时间段）固定在注意力空间区域132上，则认知负荷模块602确定用户高度集中于注意力空间区域132，并且附加音频增强和/或抑制对用户是有用的。

HRTF和频谱/响度模块604接收来自认知负荷模块602的结果以及位置信息。例如，位置信息可以包括来自HMD的传感器的头部取向信息。位置信息还可以包括音频源的位置/定位。

HRTF和频谱/响度模块604使用认知负荷模块602结果和位置信息来生成到音频设备（例如，图1的音频设备140）的信号，所述音频设备相应地生成音频。特别地，HRTF和频谱/响度模块604创建延迟和信号衰减，以帮助用户感知音频源的距离和方向。本技术通过观察用户的生理反应并使用那些生理反应在HRTF和频谱/响度模块604处生成音频信号来帮助增加用户对音频的听力/理解。

应当强调的是，上述示例仅仅是实现的可能示例，并且为了清楚地理解本公开而阐述。在大体上不脱离本公开的原理的情况下，可以对上述示例进行许多变化和修改。另外，本公开的范围意图覆盖上面的讨论的所有元件、特征和方面的任何和所有适当组合和子组合。所有这样的适当修改和变化都意图包括在本公开的范围内，并且元件或步骤的单独方面或组合的所有可能的权利要求都意图由本公开支持。

Claims

1.一种非暂时性计算机可读存储介质，包括指令，当由计算设备的处理资源执行时，所述指令使处理资源进行以下操作：

响应于标识用户的凝视的注意力空间区域，增强与注意力空间区域相关联的音频；以及

至少部分地基于用户当听到音频时的生理观察来修改增强。

2.根据权利要求1所述的非暂时性计算机可读存储介质，其中所述生理观察包括对用户的瞳孔扩张、用户的心率、用户的皮肤电反应、用户的面部表情或用户的大脑活动中的至少一个的观察。

3.根据权利要求1所述的非暂时性计算机可读存储介质，其中所述指令进一步使处理资源通过跟踪用户的眼睛的眼球移动来标识用户的凝视的注意力空间区域。

4.根据权利要求1所述的非暂时性计算机可读介质，其中所述指令进一步使处理资源进行以下操作：

抑制与除了注意力空间区域以外的区域相关联的音频；以及

至少部分地基于用户的生理观察来修改抑制。

5.根据权利要求1所述的非暂时性计算机可读介质，其中所述指令进一步使处理资源进行以下操作：

响应于检测到用户的凝视的改变，标识新的注意力空间区域。

6.根据权利要求5所述的非暂时性计算机可读介质，其中所述指令进一步使处理资源进行以下操作：

增强与新的注意力空间区域相关联的音频；以及

至少部分地基于用户当听到与新的注意力空间区域相关联的音频时的第二生理观察来修改与新的注意力空间区域相关联的音频的增强。

7.根据权利要求5所述的非暂时性计算机可读介质，其中所述指令进一步使处理资源进行以下操作：

抑制与新的注意力空间区域相关联的音频；以及

至少部分地基于用户当听到与新的注意力空间区域相关联的音频时的第二生理观察来修改与新的注意力空间区域相关联的音频的抑制。

8.一种方法，包括：

响应于标识用户的注意力空间区域，由计算设备抑制与除了注意力空间区域以外的区域相关联的音频；以及

至少部分地基于用户当听到音频时的生理观察，由计算设备修改抑制。

9.根据权利要求8所述的方法，其中所述生理观察包括对用户的瞳孔扩张、用户的心率、用户的皮肤电反应、用户的面部表情或用户的大脑活动中的至少一个的观察。

10.根据权利要求8所述的方法，进一步包括基于通过跟踪用户的眼睛的眼球移动确定的用户的凝视或基于通过检测用户的头部取向确定的用户的头部方向来标识用户的注意力空间区域。

11.一种计算设备，包括：

显示器；和

处理资源，用以：

在显示器上呈现虚拟现实接口；

通过跟踪用户眼睛的眼球移动来标识用户的凝视关于虚拟现实接口的注意力空间区域；

通过增强与注意力空间区域相关联的音频以及通过抑制与除了注意力空间区域以外的区域相关联的音频来调整与虚拟现实接口相关联的音频；以及

至少部分地基于用户当听到音频时的生理观察来修改增强或抑制中的至少一个。

12.根据权利要求11所述的计算设备，其中所述处理资源进一步用以：

基于用户输入标识新的注意力空间区域，所述新的注意力空间区域是不在用户视野内的区域。

13.根据权利要求12所述的计算设备，其中所述处理资源进一步用以：

增强与新的注意力空间区域相关联的音频；以及

抑制与除了新的注意力空间区域以外的区域相关联的音频。

14.根据权利要求13所述的计算设备，其中所述处理资源进一步用以：

至少部分地基于用户当听到与新的注意力空间区域相关联的音频时的第二生理观察来修改增强与新的注意力空间区域相关联的音频或抑制与除了新的注意力空间区域以外的区域相关联的音频中的至少一个。

15.根据权利要求11所述的计算设备，其中所述生理观察包括对用户的瞳孔扩张、用户的心率、用户的皮肤电反应、用户的面部表情中的至少一个的观察。