CN112352441B

CN112352441B - 增强型环境意识系统

Info

Publication number: CN112352441B
Application number: CN201980043847.9A
Authority: CN
Inventors: 理查德·F·莱恩; 马尔科姆·格雷厄姆·斯莱尼
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-06-27
Filing date: 2019-06-20
Publication date: 2022-07-12
Anticipated expiration: 2039-06-20
Also published as: EP3695618A1; US20200007993A1; US10536786B1; CN112352441A; WO2020005672A1; EP3695618B1

Abstract

方法、系统和装置，包括在计算机存储介质上编码的计算机程序，用于增强型环境意识系统以增强型听觉体验向用户呈现新的重要声音。在一个方面，一种方法包括：检测在当前听觉环境中在检测之前不存在的新声音；调节被确定为所述新声音的特性的电输入信号以生成调节后的电信号；从调节后的电信号以及从未被确定为新声音的特性的电输入信号生成电输出信号；以及将电输出信号提供给音频输出换能器。

Description

增强型环境意识系统

背景技术

多种听力助理设备修改听觉环境以提供增强型听觉体验。此类设备的示例包括常规助听器、个人声音放大设备和增强现实系统。这些设备中的一些可以确定用户对听力(例如，使用眼睛凝视)感兴趣的内容，并且提供听觉环境的增强。

然而，人们一次理解多个听觉源的能力有限。而且，这种能力会随着年龄的增长而退化，尤其是在与年龄有关的听力损失起作用时。

发明内容

本说明书描述了与增强型环境意识系统以增强型听觉体验向用户呈现新声音有关的技术。

通常，本说明书中描述的主题的一个创新方面可以体现在方法中，该方法包括系统的动作，该系统包括音频输出换能器，该音频输出换能器将电输出信号转换成原声声音；和信号处理设备，该信号处理设备接收电输入信号作为输入并且与音频输出换能器进行数据通信以将电输出信号提供给音频输出换能器，并且其中信号处理设备被布置为执行指令，该指令使信号处理设备执行包括下述的操作：基于电输入信号和描述当前听觉环境的数据，检测在当前听觉环境中在检测之前不存在的新声音，调节被确定为新声音的特性的电输入信号以生成调节后的电信号，从被确定为新声音的特性的调节后的电信号和从未被确定为新声音的特性的电输入信号生成电输出信号，以及向音频输出换能器提供电输出信号。

这些和其他实施例可以各自可选地包括以下特征中的一个或多个。在一些实施方式中，描述当前听觉环境的数据包括从在检测到新声音的电输入信号之前接收到的该电输入信号生成的数据。

在一些实施方式中，该系统进一步包括将原声声音转换成电输入信号的多个音频输入换能器，其中信号处理设备与音频输入换能器进行数据通信并且基于电输入信号和描述当前听觉环境的数据检测在当前听觉环境中在检测之前不存在的新声音包括从音频输入换能器提供的电输入信号中检测新声音。

在一些实施方式中，生成被确定为新声音的特性的调节后的电信号包括在当前感兴趣声音的持续时间内存储被确定为新声音的特性的电输入信号。

在一些实施方式中，从调节后的电信号和未被确定为新声音的特性的电输入信号生成电输出信号包括从未被确定为新声音的特性的电输入信号和被确定为新声音的特性的存储的电输入信号生成电输出信号。

在一些实施方式中，生成被确定为新声音的特性的调节后的电信号包括监视电输入信号以检测不存在当前感兴趣声音，其中存储被确定为新声音的特性的电输入信号在监视期间发生。监视电输入信号以检测不存在当前感兴趣声音可以包括检测指示当前感兴趣声音的结束的韵律信号。

在一些实施方式中，从调节后的电信号和未被确定为新声音的特性的电输入信号生成电输出信号包括在不存在当前感兴趣声音时将被确定为新声音的特性的存储的电输入信号插入在所生成的电输出信号中。

在一些实施方式中，新声音是由语音(例如，人讲话或人讲话的计算机音频文件)生成的声音。

在一些实施方式中，当调节后的电信号用于使音频输出换能器生成音频输出时，生成被确定为新声音的特性的调节后的电输入信号以导致新声音中的频移。

在一些实施方式中，基于电输入信号和描述当前听觉环境的数据，检测在当前听觉环境中在检测之前不存在的新声音包括确定指示新声音的源的方向性分量。从调节后的电信号和未被确定为新声音的特性的电输入信号来生成电输出信号可以包括生成电输出信号，使得电输出信号使音频输出换能器生成如源自通过方向性分量定义的位置的新声音。

在一些实施方式中，调节被确定为新声音的特性的电输入信号以生成调节后的电信号包括调节被确定为新声音的特性的电输入信号的幅度。

该方面的其他实施例包括相应的方法、装置和计算机程序。

可以实施本说明书中描述的主题的特定实施例，以实现以下优点中的一个或多个。在听力设备集中于一个特定源的对话情形下，增强型环境意识系统可以通过增强声音源的可听性使用户意识到新声音。可以调节新声音以使其适合听觉环境，使得在易于将其与前景声音分离的时间和地点将新声音呈现给用户，并以一种允许用户听觉系统轻松地将前景与背景分离的方式呈现给用户。

可以向用户提供实时和个性化的听觉环境，其中系统可以检测和识别用户感兴趣的新声音，并且仅在用户的听觉环境中突出感兴趣的新声音。通过仅突出作为用户感兴趣的声音的新声音，系统可以向用户提供具有降低的背景噪音和较少的分散注意力的声音的听觉环境。此外，该系统可以考虑用户听觉环境中的当前感兴趣声音，并且确定用户听觉环境中检测到的新声音相对于当前感兴趣声音的重要性或兴趣水平，并相应地调节新声音的呈现。例如，可以通过实时地分级声音来增强虚拟现实体验，使得用户的焦点被吸引到虚拟现实体验的虚拟环境中的新重要声音，并且/或者警告虚拟现实体验之外的听觉环境中的新重要声音。

本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1是用于增强型环境意识系统的示例操作环境的框图。

图2是增强型环境意识系统的示例操作的流程图。

图3是用于生成电输出信号的示例过程的流程图。

图4A是用于生成电输出信号的另一示例过程的流程图。

图4B是用于生成电输出信号的另一示例过程的流程图。

图5是用于生成电输出信号的另一示例过程的流程图。

在各个附图中，相似的附图标记和名称指示相似的元件。

具体实施方式

概述

本专利申请中的技术旨在帮助用户意识到其环境中的新听觉对象。当用户处于被聚焦的听觉情形下时，该技术增强新源的可听性。该技术实现了两个主要特征：检测和呈现。检测涉及标识当前听觉环境中的新声音，并且呈现涉及调节新声音的呈现，使得用户更有可能注意到新声音。

更具体地，本专利申请中的技术涉及在用户的听觉环境中检测新声音、相对于听觉环境调节新声音以及将调节后的新声音和听觉环境呈现给用户。用户的听觉环境可以包括自然生成的声音和机器生成的声音。在一些实施方式中，通过过滤过程向用户呈现用户的听觉环境，例如，其中声音使用波束形成(例如，将用户的注意力集中到一个特定声源)、背景噪声衰减(例如，以减少不必要的噪音)、或者自然声音vs机器生成的声音的水平调节来处理。

为了在用户的听觉环境中突出新声音而对新声音进行调节可以通过在新声音的呈现中强加时间延迟(例如，在听觉环境中的暂停期间)、通过新声音的频率变换(例如，区分相对于听觉环境的新声音频率)、通过调节新声音的振幅(例如，增加新声音的相对音量以吸引注意力)、或它们的组合。系统可以部分地基于正被调节的声音的类型来确定新声音的调节的类型。例如，当在用户的听觉环境中向用户呈现新声音时，可以将语音和非语音的新声音类型彼此不同地调节，以更好地突出新声音。新声音的调节类型可以部分地基于新声音的确定的重要性(例如，基于声音的分类)，使得调节后的新声音的呈现或多或少地干扰用户的听觉环境。新声音的调节类型可以部分地基于用户偏好，使得当在用户的听觉环境中向用户呈现新声音时，用户可以选择对特定类型的声音(例如，一类声音)的调节类型。

这些特征和附加特征在下面更详细地描述。

示例操作环境

图1是其中增强型环境意识系统102向用户104提供增强型听觉体验的示例环境100的框图。用户104的听觉环境包括呈现给用户104的所有声音(例如，在用户的可听范围内的所有声音)。听觉环境可以包括来自真实环境的声音(例如，用户周围区域中的音频信号)、或来自虚拟环境的声音(例如，合成的音频信号)或其组合。

在一些实施方式中，听觉环境可以包括用户104的标称可听范围之外的频率(例如，高音声音或低音声音)。在听觉环境中呈现给用户104的声音的可听范围可部分取决于音频输入换能器106的灵敏度(例如，音频输入换能器106将声压转换为电压的转换效率)。

增强型环境意识系统102可选地包括音频输入换能器106，该音频输入换能器106可以在用户104的听觉环境中从一个或多个音频源108a、108b接收音频输入声音。音频输入换能器106可以将来自一个或多个源108a、108b的音频输入信号转换成电输入信号110。音频源108a、108b是人类、动物、发声装置或生成声音并且被呈现给用户104的环境事件。源108a、108b可以包括人(例如，人讲话)、环境噪声(例如，天气、交通)、警报(例如，警报器、警报)、动物(例如，狗叫)等等。

增强型环境意识系统102还可以接收电输入信号110，该电输入信号110是源自一个或多个虚拟源112的声音的特性。电输入信号110例如包括存储的电信号(例如，存储为声音文件的一部分并进行电子处理的数据)，以及可以从存储的音频文件(例如，mp3文件)(例如，由计算机)生成的电信号。可以由虚拟现实系统、增强现实系统、计算机、媒体回放设备(例如，mp3播放器、视频播放器)、用户的智能电话或其他设备提供作为源自虚拟源112的声音的特性的电输入信号110，其中通过将电输入信号110提供给一个或多个音频输出换能器(例如，扬声器，耳机)来产生源自虚拟源112的声音。

电输入信号110可以用于描述例如代表用户104的当前听觉环境。在一些实施方式中，附加数据也可以用于描述当前听觉环境。例如，描述用户104的当前听觉环境的此类数据的示例可以包括与用户104的视野(例如，在虚拟或增强现实体验中)的内容有关的信息以及从最近一段时间(例如，最后三秒)开始缓冲的音频数据。增强型环境意识系统102可以通过监视当前听觉环境的声谱图中的变化来定义当前听觉环境的背景水平。背景估计和减法算法可用于从当前听觉环境中移除背景噪声，例如，执行语音增强。在IEEETransactions on Acoustics,Speech,and Signal Processing，第32卷，第6期，第1109-1121页，1984年12月Ephraim,Y.等人的“Speech enhancement using a minimum-meansquare error short-time spectral amplitude estimator”中描述了一种用于执行语音增强的示例过程。也可以使用其他过程。

增强型环境意识系统102可以监视用户104周围区域中的声音以检测新声音。例如，增强型环境意识系统102可以连续或周期性地扫描用户周围的区域(例如，围绕用户周围半径的波束转向)以检查新声音，并处理音频输入和电输入信号110以检测听觉环境中的新声音。由音频输入换能器106、虚拟源112或音频输入换能器106和虚拟源112的组合提供的电输入信号110被提供给新声音检测器114。

在一些实施方式中，基于电输入信号110和从音频输入换能器106提供的电输入信号110中描述当前听觉环境的数据来检测新声音。例如，新声音可以是在用户104周围的区域中的人讲话、车门关闭或警报。

在一些实施方式中，基于电输入信号110和从虚拟源112提供的电输入信号110中描述当前听觉环境的数据来检测新声音。例如，新声音可以是在用户104参与其中的虚拟现实体验中的虚拟人讲话，或者可替代地，在用户所位于的物理环境中的真实人讲话。

新声音检测器114可以基于电输入信号110和描述当前听觉环境的数据检测在听觉环境中在检测之前不存在的新声音。取决于新声音的实际起源，可以确定新声音源自源108a、108b和/或源自虚拟源112。

更具体地，新声音是在由新声音检测器114检测到新声音之前被确定为不属于听觉环境的一部分的声音。新声音可以是例如，人讲话、警报、车门关闭、狗吠或者在用户104的听觉环境中检测到并且在这种检测之前不存在的其他声音。在一个示例中，新声音是由语音(例如，讲话的人)生成的声音。在另一个示例中，新声音不是语音信号(例如，驶过的汽车)。

由新声音检测器114检测到的新声音的电信号特性被提供给电信号调节器116。电信号调节器116可以执行对确定为新声音的特性的电输入信号的一个或多个调节(例如，时间延迟、频率或音高移位、幅度移位等)，以生成调节后的电信号。

对被确定为新声音的特性的电输入信号的调节可以部分地取决于新声音的分类。对被确定为新特性的电输入信号的调节可能部分地基于新声音的分类，使来自由调节后的电信号生成的输出电信号的音频输出或多或少地侵入用户的听觉环境。类型声音对用户的重要性(例如，分类为来自警报的声音)、新声音的源(例如，在用户的视野中对比用户后面的源)的相对位所、新声音的熟悉程度(例如，用户的配偶讲话对比商业电台)，每个都会影响对确定为新声音的特性的电输入信号进行的调节的类型。在一个示例中，新声音的源在用户104的视野之外的位置可以导致第一类型的调节(例如，新声音的时间延迟)并且新声音的源在用户104的视野内的位置可以导致第二类型的调节(例如，新声音的频率偏移)。下面参考图3、图4A和图4B更详细地讨论调节后的电信号。

在一些实施方式中，对被确定为新声音的特性的电输入信号的调节可以部分取决于用户偏好。用户104可以向增强型环境意识系统102指示用户喜欢新声音的调节类型。在一个示例中，用户104可以基于声音的类型(例如，语音类型的声音)来指定用于新声音的调节类型(例如，频移)。在另一个示例中，用户104可以指定用于所有新声音的调节类型(例如，幅度偏移)。

在一些实施方式中，对被确定为新声音的特性的电输入信号的调节可以部分取决于用户的听觉环境中的当前感兴趣声音的分类。例如，当确定当前感兴趣声音是语音类型的声音(例如，用户104参与对话)时，可以将时间延迟调节应用于确定为新声音的特性的电输入信号。在另一示例中，当确定当前感兴趣声音是非语音类型的声音(例如，用户104正在收听音乐)时，可以将幅度偏移调节应用于确定为新声音的特性的电输入信号。

在一些实施方式中，对被确定为新声音的特性的电输入信号的调节可以部分地取决于用户的听觉环境的情形(例如，时间和物理空间)。当检测到新声音时，用户可以基于用户的情形来发现特定新声音或多或少重要，并且确定为新声音的特性的电输入信号的调节类型可以取决于重要性而不同。例如，用户的听觉环境可能是工作场所设置(例如，用户在工作中)，而新声音是电话铃声，这可能对用户来说非常重要。结果，可以通过幅度的移位(例如，使其更大声)来调节被确定为电话铃声的特性的电输入信号。在另一个示例中，在用户的工作场所中打喷嚏的同事对用户的重要性可能较低，使得可以将确定为打喷嚏的特性的电输入信号进行时间延迟。

在一些实施方式中，新声音检测器114可以检测当前听觉环境中存在的多个新声音。新声音检测器114可以对多个新声音进行排名(例如，依据新声音对用户的相对重要性进行排名)，以确定调节的类型或电输入信号被确定为每个新声音的特性应被调节的程度。例如，新声音检测器114可以在用户104的当前听觉环境中检测到两种新声音：用户104的视野之外的讲话的人和用户的移动电话铃声。新声音检测器可以确定讲话的人的排名高于用户的移动电话铃声，并相应调节每种声音的电输入信号。在另一个示例中，新声音检测器114可以在用户104的当前听觉环境中检测到两种新声音：用户104的视野内的讲话的人和用户104的视野外的讲话的人。新声音检测器可以确定用户的视野内的讲话的人的排名高于用户的视野外的用户的排名(例如，因为其可以防止音频/视觉不同步)。

在一些实施方式中，被确定为不是新声音的特性的电输入信号和调节后的电信号被存储为存储的电信号118。电信号被存储多长时间可以例如取决于新声音的持续时间。例如，可以将调节后的电信号存储在存储的电信号118中，直到确定当前感兴趣声音不存在为止(例如，当前人讲话完成陈述)。可替代地，可以仅存储用于新声音的电信号的最近的N秒。

电输出信号生成器120可以从调节后的电信号和未被确定为新声音的特性的电输入信号生成电输出信号。在一些实施方式中，电输出信号生成器120接收所存储的电信号118，该电信号118包括调节后的电信号和未确定为新声音的特性的电输入信号。

在一些实施方式中，新声音检测器114不检测到新声音，使得没有电信号被调节，并且新声音检测器114用作用于接收到的电输入信号110的通道并将其提供给电输出信号生成器120。

电输出信号被提供给一个或多个音频输出换能器122，其将电输出信号转换成原声声音。然后，可以将原声声音提供给一个或多个音频输出设备124，以将原声声音呈现给用户104。音频输出设备124可以包括例如耳机、扬声器、助听器等。

在一些实施方式中，音频输出设备124可以是虚拟现实或增强现实系统的组件。音频输出设备124可以为虚拟现实或增强现实系统提供音频，其还包括虚拟现实或增强现实体验的视觉呈现。在一个示例中，增强现实系统包括可佩戴的“智能”眼镜，其包括音频输出设备124(例如，耳塞、集成扬声器)。

由新声音检测器116、电信号调节器116、电输出信号生成器120执行的过程由一个或多个信号处理设备126执行。信号处理设备126可以与音频输出换能器122、或音频输出换能器和音频输入换能器106进行数据通信。信号处理设备126可以接收电输入信号110作为输入，并可以将电输出信号提供给音频输出换能器122。

增强型环境意识系统的示例操作

图2是增强型环境意识系统102的示例操作200的流程图。当前听觉环境和新声音可以包括来自真实源(例如，源108a、108b)、虚拟源(例如，虚拟源112)或真实源和虚拟源的组合(例如，在增强现实体验中)的声音。

检测到在当前听觉环境中不存在的新声音(202)。新声音检测器114可以从由新声音检测器114接收的电输入信号110中检测新声音，其中电输入信号110可以源自虚拟源112、转换来自一个或多个源108a和108b的音频信号的音频输入换能器或其组合。在一些实施方式中，在用户104的当前听觉环境中对声音计算的声谱图的方差可以用于确定在听觉环境中是否存在新声音。例如，可以通过查看当前听觉环境的声谱图或当前听觉环境的调制声谱图的统计信息来捕获当前听觉环境，并且可以将与法线的偏离检测为新声音。

例如，新声音检测器114可以使用机器学习技术来识别与当前听觉环境不同的新声音。可以使用统计模型来表征电输入信号110，并确定电输入信号110是否是新声音的特性(例如，确定为在当前听觉环境的范围之外)。新声音检测器114可以使用环境声音背景模型、听觉显着性模型、双耳定位模型和语音检测器中的一个或多个来评估电输入信号110以确定在当前听觉环境中是否存在新声音。新声音检测器可以使用其他过程来确定当前听觉环境中是否存在新声音。

例如，环境声音背景模型可以用于标识电输入信号中的背景噪声，使得新声音检测器114可以更好地将当前听觉环境中的潜在新声音与背景噪声分离。在IEEETransactions on Audio,Speech,and Language Processing,第14卷，第3期，第920-930页，2006年5月中的N.Mesgarani等人的“Discrimination of speech from nonspeechbased on multiscale spectro-temporal Modulations”中描述了增强型意识系统102可以如何使用语音活动检测器区分新声音(例如，可以检测新语音信号)的一个示例。在另一个示例中，可以使用音频事件分类器来检测何时存在新类型的声音，如在Hershey，Shawn等人的“CNN Architectures for Large-Scale Audio Classification”中所描述的，其已在ICASSP 2017上接受公开，最新修订于2017年1月10日(arXiv：1609.09430v2)。也可以使用其他过程。增强型环境意识系统102可以区分前景声音(例如，与用户相关的重要声音)和背景声音(例如，与用户无关的不重要的声音)。

在另一个示例中，听觉显着性模型可以用于确定在听觉环境中对于用户104感知上显眼的是什么。可以监视用户104对由增强型环境意识系统102在听觉环境中检测到的声音的反应(例如，凝视跟踪、脑电图信号)，以便于确定用户104感知到了什么声音。一种确定听觉显着性的方法在Kaya、EM等人在Philosophical transactions of the RoyalSociety B第372卷，发行号1714，2017年2月19日中的“Modeling auditory attention”中描述。例如，可以使用在Current Biology第28卷，第5期，803-809.e3中的Broderick、Michael P.等人的“Electrophysiological correlates of semantic dissimilarityreflect the comprehension of natural,narrative speech”描述的系统来确定为新语音话题。另外，脑电信号可以用于确定声音何时有趣(例如，应进行调节以吸引对用户的听觉环境中的声音的注意力)，例如，如在Conf Proc IEEE Eng Med Biol Soc.2017年7月；2017：1644-1647中的O'Sullivan，J.等人的“Neural decoding of attentionalselection in multi-speaker environments without access to separated sources”所描述的。也可以使用其他过程。

在另一个示例中，双耳定位模型可以用于确定新声音源相对于用户104的定向。例如，新声音检测器114可以使用双耳定位模型来确定新声音源与用户104的相对位置(例如，在用户之后，在用户前面)。使用双耳定位模型提取的位所信息可以被增强型环境意识系统102用来确定应该对新声音进行的调节的类型。在一个示例中，可以通过使用在IEEETransactions on Speech and Audio Processing第6册，第5卷，1998年12月中的Brown、C.Phillip等人的“A Structural Model for Binaural Sound Synthesis”所描述的过程通过创建听觉水平差(ILD)和听觉时间差(ITD)来合成定向声音。也可以使用其他过程。

新声音检测器114可以确定新声音的类别。被确定为存在于听觉环境中的声音可以被分类(例如，作为警报、人讲话、音乐、风)，并且可以确定每种声音类别的重要性。

新声音检测器114可以例如使用神经网络/机器学习来对新声音进行分类，其包括声音源的类型(例如，人、动物、机器)、新声音的重要程度(例如，重要或不重要)、用户对新声音的熟悉度(例如，来自已知人的语音vs车门关闭)、声音源相对于用户的位置(例如，在用户前面或在用户后面的源)。新声音检测器114可以进一步将新声音的语音类型(例如，对话语音、警报语音)分类为被分类为基于语音的新声音。例如，新声音检测器114可以区分是警报类型的语音(例如，“Look out behind you！(注意在你后面！)”)和对话类型的语音(例如，“Nice to meet you(很高兴见到你”))。例如，可以使用Acoustics,Speech and SignalProcessing,1998.Proceedings of the 1998IEEE International Conference on,Seattle,WA,1998,第985-988页，第2卷中的Slaney，M等人的“Baby Ears:a recognitionsystem for affective vocalizations”中描述的系统来检测情绪和/或情绪变化。在另一个示例中，可以使用在ICASSP 2017上接受公开、最新修订于2017年1月10日(arXiv：1609.09430v2)的Hershey，Shawn等人所描述的AudioSet技术对新声音进行识别和分类。也可以使用其他过程。

在一个示例中，语音检测器可用于例如通过使用降噪(例如，经由频谱减法)、电输入信号的特征检测以及电输入信号的特征的分类来检测电输入信号中是否存在人类语音，以确定电输入信号是否是人类语音的特性。在IEEE Transactions on Audio,Speech,andLanguage Processing，第14卷，第3册，第920-930页，2006年5月中的Mesgarani，N等人的“Discrimination of speech from nonspeech based on multiscale spectro-temporalModulations”中描述用于执行语音检测的一个示例方法。也可以使用其他过程。

在一些实施方式中，增强型环境意识系统102可以使用从增强现实或虚拟现实系统提供的数据来确定是否存在新声音(例如，由存在新声音的虚拟现实环境提供的数据)。例如，虚拟现实系统可以向增强型环境意识系统102提供与在虚拟现实体验中向用户104呈现什么音频/视觉有关的数据。

被确定为新声音的特性的电输入信号110被调节以生成调节后的电信号(204)。电信号调节器116可以从新声音检测器114接收被确定为新声音的特性的电输入信号110，并对电输入信号执行一个或多个调节。对被确定为新声音的特性的电输入信号的调节可以包括频移、时延、幅度移位或其组合。参考图3、图4A和图4B描述了针对被确定为新声音的特性的电输入信号的调节类型的更多细节。

从调节后的电信号和从未确定为新声音的特性的电输入信号生成电输出信号(206)。电输出信号可以由电输出信号生成器120从存储的电信号118或电输入信号110(例如，未被确定为新声音的特性的电输入信号)生成。在一些实施方式中，新声音检测器114在用户104的当前听觉环境中未检测到新声音，并且电输出信号生成器120可以从电输入信号110生成电输出信号。

电输出信号被提供给音频输出换能器122(208)，以将电输出信号转换成音频信号，该音频信号可以被提供给一个或多个音频输出设备124(例如，耳机或扬声器)，以为用户104产生声音。例如，从调节后的电信号生成的电输出信号和不是新声音的特性的电输入信号被提供给音频输出换能器122。

生成调节后的电信号

通知用户新声音的一种方式是在不再存在用户的当前感兴趣声音之后呈现新声音。这可以通过存储指示感兴趣新声音的电信号来完成。在一些实施方式中，通过在当前感兴趣声音的持续时间(例如，新声音的时间延迟)内存储电输入信号(例如，存储的电信号118)来生成被确定为新声音的特性的调节后的电信号。图3是用于生成电输出信号的示例过程300的流程图。在当前感兴趣声音的持续时间内，存储被确定为新声音的特性的电输入信号(302)。当前感兴趣声音可以是用户104(例如，通过监视眼睛凝视、脑电图信号等)正在关注的声音。例如，当前感兴趣声音可以是用户104正在与其讲话的讲话人，这可以由用户104看着讲话人来确定。在另一个示例中，可以通过确定用户(例如，使用凝视跟踪)正在看什么或在虚拟现实或增强现实体验(例如，投影在屏幕上的内容)的视觉组件中呈现给用户的东西，来在虚拟现实或增强现实系统中确定当前感兴趣声音。

可以在当前感兴趣声音正在将音频输入提供给增强型意识系统102的间隔内确定当前感兴趣声音的持续时间。例如，在讲话人的主动参与的持续时间内。

在一些实施方式中，当前感兴趣声音由虚拟/增强现实系统提供，并且当前感兴趣声音的持续时间可以由虚拟/增强现实系统提供给增强型环境意识系统102。例如，如果用户104正在收听虚拟现实系统中的虚拟现实体验中的人讲话，则虚拟现实系统可以向增强型环境意识系统102提供与用户的体验有关的信息以及在虚拟现实体验中的人将会积极地讲话多长时间。

监视电输入信号以检测不存在当前感兴趣声音(304)。可以通过监视当前感兴趣声音的电输入信号特性来确定不存在当前感兴趣声音。不存在当前感兴趣声音可以是当前感兴趣声音的暂停或结束。在一个示例中，当前感兴趣声音是会话语音，其中可以通过监视当前感兴趣声音的韵律信号(例如，语音的拐点、强调、对比度、语音的焦点)来检测讲话人在对话中的暂停。韵律信号可能是讲话人语气的音高下降、指示陈述或表达的想法的结论。

在一些实施方式中，通过虚拟/增强现实系统通过虚拟/增强现实体验向用户提供当前感兴趣声音，其中虚拟/增强现实系统可以向增强型环境意识系统102提供有关何时不存在当前感兴趣声音将会发生的信息。例如，用户可以在虚拟现实系统上通过虚拟现实游戏玩游戏，使得虚拟现实系统具有出现的现在和将来的知识，并且可以向增强型环境意识系统102提供与何时将在虚拟现实游戏中的当前感兴趣声音中存在间隙有关的信息。

在确定当前感兴趣声音不存在时，将被确定为新声音的特性的所存储的电输入信号插入到所生成的电输出信号中(306)。例如，可以存储(例如，在存储的电信号118中)用户的听觉环境中的警报的电输入信号特性，直到与用户104正在讲话的人暂停为止，此时，警报的电信号特性被插入电输出信号中。

从未被确定为新声音的特性的电输入信号和被确定为新声音的特性的存储的电输入信号生成电输出信号(308)。在一些实施方式中，在延迟的时间段之后将新声音提供给用户104，其中该延迟取决于增强型环境意识系统102检测到不存在当前感兴趣声音。换句话说，在检测到当前感兴趣声音不存在时通过插入作为新声音的特性的存储的电输入信号(例如，在存储的电信号118中)来生成来自调节后的电信号和不是新声音的特性的电输入信号的电输出信号。

在一个示例中，增强型环境意识系统102可以监视当前感兴趣声音(例如，人与用户104的讲话)并延迟将新声音(例如，电话铃声)提供给用户104。新声音的延迟可以通过(例如，在存储的电信号118中)存储电话铃声的电输入信号特性来完成，直到人与用户的讲话暂停或结束他们的语音(例如，呼吸暂停，完成声明)。

图4A是用于生成电输出信号的另一示例过程400的流程图。当调节后的电信号用于使音频输出换能器生成音频输出时，调节被确定为新声音的特性的电输入信号以引起新声音的频移(402)。在一些实施方式中，新声音中的频移可以使新声音的音调进行移位，其中高音声音对应于高频声波，而低音声音对应于低频声波。

例如，当通过音频输出设备播放新声音时，频移可以将新声音的频率移位到较低频率，使得较低频率导致新声音在用户104的可听范围内并且在前景声音的范围之外。

在另一个示例中，频移可以是将新声音的音调移位到与当前听觉环境中包括的声音的音调不同的音调(例如，提升新声音的音调以使其与背景声音不同)。

从被确定为新声音的特性的频移电输入信号中生成被确定为新声音的特性的调节后的电输入信号(404)。可以将调节后的电输入信号存储(例如，在存储的电信号118中)，并提供给电输出信号生成器120，以将其合并在电输出信号中。

图4B是用于生成电输出信号的另一示例过程410的流程图。当调节后的电信号用于使音频输出换能器生成音频输出时，调节确定为新声音的特性的电输入信号以调节新声音中的幅度。在一些实施方式中，新声音中的幅度调节可以是增加或减小新声音的幅度，其中增加的幅度对应于用户104更大的感知声音，而减小的幅度对应于用户104更安静感知的声音。

例如，幅度调节可以是当通过音频输出设备播放新声音时将新声音的幅度调节为较高幅度，使得较高幅度导致用户104感知的新声音相对于听觉环境更大声。

从被确定为新声音的特性的幅度被调节的电输入信号生成被确定为新声音的特性的调节后的电输入信号(414)。可以将调节后的电输入信号存储(例如，在存储的电信号118中)，并将其提供给电输出信号生成器120，以将其合并在电输出信号中。

图5是用于生成电输出信号的另一示例过程500的流程图。在一些实施方式中，基于电输入信号和描述当前听觉环境的数据来确定指示在检测之前在当前听觉环境中不存在的新声音的源(例如，108a、108b)的方向性分量(502)。方向性分量包括新声音的源108a相对于用户104的位所的信息(例如，在用户104的前面、在用户104的后面、在用户104的上方/下方等)。例如，新声音可以是人与用户104的讲话，并且谁在用户104后面。与方向性分量有关的信息可以存储在存储的电信号118中，并在生成新声音的电输出信号时由电输出信号生成器120使用。

从调节后的电信号和未确定是新声音的特性的电输入信号生成电输出信号。生成电输出信号，使得电输出信号使音频输出换能器122生成新声音如源自由方向性分量所定义的位置(504)。用户可以感知由音频输出设备124提供给用户104的音频信号如源自方向性组件所定义的位置(例如，通过输出平移，通过变化双耳时间差(ITD)和双耳水平差(ILD)提示合成三维声音位所，或者通过完整的三维声音渲染使用)。在一个示例中，使用多个音频输出设备124的环绕声可以向用户104提供音频信号，使得用户感知音频信号如源自方向性组件所定义的位置。

在一些实施方式中，增强现实或虚拟现实体验根据用户的虚拟/增强现实体验中存在虚拟源提供新声音如源自由方向性组件所定义的位置。例如，虚拟现实体验向用户示出人正在用户左侧讲话，并且向用户呈现人正在讲话的音频信号，使得用户感知人正在在他们的左侧讲话。

当用户104相对于源移动时，源的方向性分量可以改变。在一个示例中，如果源在用户的后面，则可以利用指示源在用户的后面的方向性分量向用户呈现音频信号。如果用户104然后转向面对源，则指示源的方向性分量将反映该相对运动，并且将指示源在用户的前面。

在一些实施方式中，增强型环境意识系统102监视用户104对新声音的呈现的反应，并响应地调节听觉环境的呈现。例如，如果用户104对新声音的呈现做出反应(例如，转向面对新声音的源、停止讲话、集中注意力)，则增强型环境意识系统102可以确定新声音是用户104的当前感兴趣声音。例如，可以使用来自用户104的指示用户正在集中注意力的脑电图EEG信号、来自用户的可穿戴设备(例如，智能眼镜，耳机)的加速度计数据、用户语音的变化(例如，用户停止讲话)来确定用户104对新声音的反应。

在另一个示例中，如果用户104对新声音的呈现没有反应(例如，继续讲话，不指示集中注意力)，则增强型环境意识系统102可以确定新声音不是用户104的当前感兴趣声音。增强型环境意识系统102可以将新声音衰减到背景水平(例如，降低新声音的幅度)，或者在用户的听觉环境中将新声音调节为较低的优先级。

在一些实施方式中，增强型环境意识系统102可以使用用户104对新声音的呈现的反应来细化新声音检测器114用来检测和标识可能对用户104感兴趣的新声音的一个或多个机器学习模型。例如，如果用户104忽略新声音的呈现(例如，窗户打开)，则增强型环境意识系统102可以取消强调相同分类的声音以供检测到的将来新声音。在另一示例中，如果用户104做出反应并对新声音(例如，配偶讲话)的呈现集中注意力，则增强型环境意识系统102可以强调相同分类的声音的重要性(例如，用户的配偶应始终被呈现为感兴趣新声音)。可以在训练期间内使用对声音呈现的反应来训练模型，以区分用户104感兴趣的新声音和用户104不感兴趣的新声音，使得当通过调节后的电信号生成的电输出信号被提供给音频输出换能器122时通过电信号调节器116仅调节是感兴趣的新声音的特性的电输入信号以突出感兴趣的新声音。

在一些实施方式中，系统可以根据用户的口头指示来处理来自用户的语音输入以处理新声音。例如，用户可能对新声音不感兴趣，并且可能会说出“I don’t want tolisten to that new sound(我不想收听那个新声音)”，并且系统可能会抑制作为新声音的特性的电信号。一个示例用例是使用户了解物理环境声音的声音耳机。用户可能正在收听交响曲，并且当用户的电话铃响时，系统可以向用户呈现电话铃声的新声音。用户可能会说出“I don’t want to listen to that new sound(我不想收听那个新声音)”，并且耳机将不再向用户呈现电话铃声，例如，可能会使用户与物理环境的声音隔离开。相反，假设用户正在收听交响曲，并且物理环境中存在噪音，例如，洗衣机失衡或电话响起等。如果用户对新声音感兴趣，则用户可能说出：“I want to listen more closely(我想更紧密地收听)”。然后，系统可以在抑制当前感兴趣声音的同时继续向用户呈现新声音，例如，用于生成交响乐的电信号被暂停或抑制。

本说明书中描述的主题和操作的实施例可以在数字电子电路中或在包括在本说明书中公开的结构及其等同结构的计算机软件、固件或硬件或其中一种或多种的组合中实现。本说明书中描述的主题的实施例可以实施为一个或多个计算机程序，即，计算机程序指令的一个或多个模块，其被编码在计算机存储介质上以由数据处理装置执行或控制数据处理装置的操作。

计算机存储介质可以是或包括在计算机可读存储设备、计算机可读存储基板、随机或串行访问存储器阵列或设备或它们中的一个或多个的组合中。此外，虽然计算机存储介质不是传播信号，但是计算机存储介质可以是被编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质还可以是或被包含在一个或多个单独的物理组件或介质(例如，多个CD、磁盘、或其它存储设备)中。

本说明书中描述的操作可以被实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其它源接收到的数据执行的操作。

术语“数据处理装置”涵盖用于处理数据的所有类型的装置、设备和机器，例如包括前述的可编程处理器、计算机、片上系统、或多个或组合。该装置可以包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括为在讨论中的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或其中一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础设施，诸如web服务、分布式计算和网格计算基础设施。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言编写，包括编译或解释语言、声明性或过程语言，并且能够以任何形式部署，包括作为独立程序或作为模块、组件、子例程、对象或其它适合在计算环境中使用的单元。计算机程序可以但是不必对应于文件系统中的文件。程序可以存储在保存其它程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)、专用于讨论中的程序的单个文件、或多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。可以将计算机程序部署为在位于一个站点或分布在多个站点并通过通信网络互连的一个计算机或多个计算机上执行。

可以通过执行一个或多个计算机程序的一个或多个可编程处理器来执行本说明书中描述的处理和逻辑流程，以通过对输入数据进行操作并生成输出来执行动作。过程和逻辑流程也可以由专用逻辑电路，例如，FPGA(场可编程门阵列)或ASIC(专用应用集成电路)执行，并且装置也可以实现为该专用逻辑电路。

例如，适于执行计算机程序的处理器包括通用和专用微处理器，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的重要元件包括用于根据指令执行动作的处理器和用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括一个或多个用于存储数据的大容量存储设备，例如，磁盘、磁光盘或光盘，或可操作地耦合至所述大容量存储设备以从其接收数据或对其传输数据，或者两者。但是，计算机不必具有此类设备。此外，计算机可以嵌入到另一个设备中，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或便携式存储设备(例如，通用串行总线(USB)闪存驱动器)，仅举几例。适于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备，例如包括半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或被并入专用逻辑电路中。

为了提供与用户的交互，本说明书中描绘的主题的实施例能够在具有显示设备和键盘与指点设备的计算机上实施，所述显示设备例如是用于向用户显示信息的CRT(阴极射线管)、OLED(有机发光二极管)、或者LCD(液晶显示器)监视器，所述指点设备例如为鼠标和轨迹球，用户能够通过其向计算机提供输入。其它类型的设备也能够用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且能够以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机能够通过向用户使用的设备发送文档以及从用户使用的设备接收文档来与用户进行交互；例如，通过响应于从web浏览器接收到的请求而将网页发送到用户的用户设备上的web浏览器。

本说明书描述的主题的实施例可以在包括后端组件(例如，作为数据服务器)或包括中间件组件(例如，应用服务器)或包括前端组件(例如，具有图形用户界面或web浏览器的用户计算机，用户可以通过该图形用户界面或web浏览器与本说明书中描述的主题的实施方式进行交互)或者一个或多个此类后端组件、中间件组件或前端组件的组合的计算系统中实现。系统的组件可以通过数字数据通信的任何形式或介质(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、网际网络(例如，互联网)和对等网络(例如，ad hoc对等网络)。

计算系统可以包括用户和服务器。例如，用户和服务器通常彼此远离，并且通常通过通信网络进行交互。用户和服务器之间的关系是通过在相应计算机上运行并彼此具有用户-服务器关系的计算机程序而产生的。在一些实施例中，服务器将数据(例如，HTML页面)传送到用户设备(例如，出于向与用户设备交互的用户显示数据并从其接收用户输入的目的)。可以从服务器处的用户设备接收在用户设备处生成的数据(例如，用户交互的结果)。

尽管本说明书包含许多特定的实施方式细节，但是这些不应被解释为对任何特征或可能要求保护的范围的限制，而应被解释为对于特定实施例特定的特征的描述。在本说明书中在单独的实施方式的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中来实施。而且，尽管以上可以将特征描述为以某些组合起作用并且甚至最初如此要求保护，但是在某些情况下，可以从组合中切除所要求保护的组合中的一个或多个特征，并且所要求保护的组合可以针对子组合或子组合的变体。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应理解为要求以所示的特定顺序或以连续的顺序执行这样的操作，或者执行所有图示的操作以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，在上述实施例中的各种系统组件的分离不应被理解为在所有实施例中都需要这种分离，并且应当理解的是，所描述的程序组件和系统通常可以被一起集成在单个软件产品中或打包到多种软件产品。

因此，已经描述了本主题的特定实施例。其它实施例在所附权利要求的范围内。在一些情况下，能够以不同的顺序执行权利要求中记载的动作，并且仍然实现期望的结果。另外，附图中描绘的过程不一定需要所示的特定顺序或连续顺序来实现期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种用于生成电输出信号的系统，包括：

音频输出换能器，所述音频输出换能器将电输出信号转换成原声声音；和

信号处理设备，所述信号处理设备接收电输入信号作为输入并且与所述音频输出换能器进行数据通信以将所述电输出信号提供给所述音频输出换能器，并且其中所述信号处理设备被布置为执行指令，所述指令使所述信号处理设备执行操作，所述操作包括：

基于从由换能器生成的音频输入信号生成的所述电输入信号和描述当前听觉环境的数据，检测在所述当前听觉环境中在所述检测之前不存在的所述当前听觉环境中的新声音；

调节被确定为所述新声音的特性的电输入信号以生成调节后的电信号，对被确定为所述新声音的特性的所述电输入信号的调节包括：

基于所述电输入信号和描述所述当前听觉环境的数据确定在所述当前听觉环境中检测到的所述新声音的分类；

基于所述新声音的分类和描述所述当前听觉环境的数据相对于所述当前听觉环境向所述新声音分配重要性；以及

基于所分配的重要性相对于未被确定为所述当前听觉环境中的所述新声音的特性的电输入信号，调节被确定为所述新声音的特性的电输入信号；

从被确定为所述新声音的特性的所述调节后的电信号和从未被确定为所述新声音的特性的所述电输入信号生成电输出信号；以及

向所述音频输出换能器提供所述电输出信号。

2.根据权利要求1所述的系统，其中，描述所述当前听觉环境的数据包括从在检测到所述新声音的接收到的电输入信号之前接收到的电输入信号生成的数据。

3.根据权利要求2所述的系统，进一步包括将原声声音转换成电输入信号的多个音频输入换能器，并且其中：

所述信号处理设备与所述音频输入换能器进行数据通信；并且

基于所述电输入信号和描述所述当前听觉环境的数据来检测在所述当前听觉环境中在所述检测之前不存在的所述新声音包括从所述音频输入换能器提供的所述电输入信号中检测所述新声音。

4.根据权利要求1所述的系统，其中：

生成被确定为所述新声音的特性的所述调节后的电信号包括在当前感兴趣声音的持续时间内存储被确定为所述新声音的特性的所述电输入信号；并且

从所述调节后的电信号和未被确定为所述新声音的特性的电输入信号生成所述电输出信号包括从未被确定为所述新声音的特性的所述电输入信号和被确定为所述新声音的特性的所存储的电输入信号生成所述电输出信号。

5.根据权利要求3所述的系统，其中：

生成被确定为所述新声音的特性的所述调节后的电信号包括：

监视所述电输入信号以检测不存在当前感兴趣声音；

并且其中，存储被确定为所述新声音的特性的所述电输入信号发生在所述监视期间。

6.根据权利要求5所述的系统，其中，监视所述电输入信号以检测不存在当前感兴趣声音包括检测指示所述当前感兴趣声音的结束的韵律信号。

7.根据权利要求4所述的系统，其中，从所述调节后的电信号和未被确定为所述新声音的特性的电输入信号生成所述电输出信号包括在不存在所述当前感兴趣声音时将被确定为所述新声音的特性的所存储的电输入信号插入在所生成的电输出信号中。

8.根据权利要求3所述的系统，其中，所述新声音是由语音生成的声音。

9.根据权利要求1所述的系统，其中：

生成被确定为所述新声音的特性的所述调节后的电输入信号包括：当所述调节后的电信号用于使所述音频输出换能器生成音频输出时，调节被确定为所述新声音的特性的所述电输入信号以导致所述新声音中的频移。

10.根据权利要求1所述的系统，其中，基于所述电输入信号和描述所述当前听觉环境的数据检测在所述当前听觉环境中在所述检测之前不存在的新声音包括确定指示所述新声音的源的方向性分量。

11.根据权利要求10所述的系统，其中，从所述调节后的电信号和未被确定为所述新声音的特性的电输入信号生成电输出信号包括生成所述电输出信号，使得所述电输出信号使所述音频输出换能器生成源自通过所述方向性分量定义的位置的所述新声音。

12.根据权利要求1所述的系统，其中，调节被确定为所述新声音的特性的电输入信号以生成调节后的电信号包括调节被确定为所述新声音的特性的所述电输入信号的幅度。

13.一种在数据处理装置中实现的方法，包括：

由所述数据处理装置接收电输入信号作为输入；

调节被确定为所述新声音的特性的电输入信号以生成调节后的电信号，其中，对被确定为所述新声音的特性的所述电输入信号的调节包括：

从被确定为所述新声音的特性的所述调节后的电信号和从未被确定为所述新声音的特性的电输入信号生成电输出信号；以及

向所述音频输出换能器提供所述电输出信号。

14.根据权利要求13所述的方法，其中，描述所述当前听觉环境的数据包括从在检测到所述新声音的接收到的电输入信号之前接收到的电输入信号生成的数据。

15.根据权利要求14所述的方法，进一步包括：

将原声声音转换成所述电输入信号；和

从自所述音频输入换能器提供的所述电输入信号检测所述新声音。

16.根据权利要求13所述的方法，其中：

17.根据权利要求16所述的方法，其中：

监视所述电输入信号以检测不存在当前感兴趣声音；

18.根据权利要求17所述的方法，其中，监视所述电输入信号以检测不存在当前感兴趣声音包括检测指示所述当前感兴趣声音的结束的韵律信号。

19.根据权利要求15所述的方法，其中，从所述调节后的电信号和未被确定为所述新声音的特性的电输入信号生成所述电输出信号包括在不存在所述当前感兴趣声音时将被确定为所述新声音的特性的所存储的电输入信号插入在所生成的电输出信号中。

20.根据权利要求13所述的方法，其中，调节被确定为所述新声音的特性的电输入信号以生成调节后的电信号包括调节被确定为所述新声音的特性的所述电输入信号的幅度。