CN110313031A

CN110313031A - 针对语音隐私的自适应语音可懂度控制

Info

Publication number: CN110313031A
Application number: CN201780085246.5A
Authority: CN
Inventors: S·巴里特卡尔; W·刘; M·S·阿斯雷亚; R·斯威特
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2017-02-01
Filing date: 2017-02-01
Publication date: 2019-10-08
Anticipated expiration: 2037-02-01
Also published as: EP3535755A4; EP3535755A1; CN110313031B; US20210183402A1; US11380347B2; WO2018143979A1

Abstract

在一些示例中，针对语音隐私的自适应语音可懂度控制可以包括基于在扬声器的近端处的背景噪声来确定与从扬声器发出的语音相关联的噪声估计，以及通过使用指定因子来将噪声估计与针对从扬声器发出的语音的语音水平估计进行比较。针对语音隐私的自适应语音可懂度控制还可以包括基于比较来确定要应用于扬声器以在指定水平产生语音以关于扬声器保持轴上可懂度的增益值，并且将增益值应用于扬声器。

Description

针对语音隐私的自适应语音可懂度控制

附图说明

本公开的特征通过示例的方式示出，并且不限于以下(多个)附图，附图中相同的附图标记指示相同的元件，其中：

图1示出了根据本公开的示例的用于语音隐私装置的自适应语音可懂度控制的布局；

图2示出了根据本公开的示例的用于确定掩蔽阈值的掩蔽者和被掩蔽者(复合音调)以说明图1的用于语音隐私装置的自适应语音可懂度控制的操作；

图3示出了根据本公开的示例的用于图1的语音隐私装置的自适应语音可懂度控制的、利用掩蔽阈值进行针对语音隐私的自适应控制的语音处理；

图4示出了根据本公开的示例的用于图1的语音隐私装置的自适应语音可懂度控制的、利用语音可懂度指数(SII)、清晰度指数(AI)、语音传输指数(STI)进行针对语音隐私的自适应控制的语音处理；

图5示出了根据本公开的示例的用于图1的语音隐私装置的自适应语音可懂度控制的、针对语音隐私的自适应控制的语音处理以及输入预处理；

图6示出了根据本公开的示例的用于图1的语音隐私装置的自适应语音可懂度控制的、使得语音处理适应于隐私的基于计算机视觉的人物检测；

图7示出了根据本公开的示例的用于图1的语音隐私装置的自适应语音可懂度控制的、在训练期间的基于标记的学习系统；

图8示出了根据本公开的示例的用于图1的语音隐私装置的自适应语音可懂度控制的、由相机捕获的在不同距离处的人物的示例；

图9示出了根据本公开的示例的用于图1的语音隐私装置的自适应语音可懂度控制的、在相同距离处的两个人之间的大小差异的示例；

图10示出了根据本公开的示例的用于图1的语音隐私装置的自适应语音可懂度控制的、在应用期间的经训练的图7的基于标记的学习系统；

图11A示出了根据本公开的示例的在训练期间的无标记学习系统，以及图11B示出了根据本公开的示例的用于图1的语音隐私装置的自适应语音可懂度控制的、在应用期间的经训练的图11A的无标记学习系统；

图12示出了根据本公开的示例的用于图1的语音隐私装置的自适应语音可懂度控制的麦克风阵列输入；

图13示出了根据本公开的示例的用于图1的语音隐私装置的自适应语音可懂度控制的利用麦克风阵列的主动噪声消除；

图14示出了根据本公开的示例的针对语音隐私的自适应语音可懂度控制的框图；

图15示出了根据本公开的示例的针对语音隐私的自适应语音可懂度控制的方法的流程图；以及

图16示出了根据本公开的示例的针对语音隐私的自适应语音可懂度控制的另一框图。

具体实施方式

出于简化和说明的目的，通过主要参考示例来描述本公开。在以下描述中，阐述了许多具体细节以便于提供对本公开的透彻理解。然而，显而易见的是，可以在不限于这些具体细节的情况下实践本公开。在其他实例中，没有详细描述一些方法和结构以免不必要地模糊本公开。

在整个本公开中，术语“一(a)”和“一个(an)”旨在表示特定元素中的至少一个。如本文所使用的，术语“包括(includes)”表示包括但不限于此，术语“包含(including)”表示包含但不限于此。术语“基于”意味着至少部分地基于。

本文公开了用于语音隐私装置的自适应语音可懂度控制、针对语音隐私的自适应语音可懂度控制的方法，以及其上存储有用于提供针对语音隐私的自适应语音可懂度控制的机器可读指令的非暂时性计算机可读介质。本文所公开的装置、方法和非暂时性计算机可读介质基于使用定向扬声器的感知导出的语音处理来提供语音隐私。本文所公开的装置、方法和非暂时性计算机可读介质还包括用于估计可能在远场中的(例如，目标收听者的)期望收听位置的距离的相机，因此基于目标收听者的近场位置或远场位置来使语音处理适应。

关于本文所公开的装置、方法和非暂时性计算机可读介质，互联网协议语音(VoIP)通信包括利用鲁棒的分组丢失隐藏技术的低延时、低延迟、低分组丢失，在分组传输之前的低抖动，高质量语音编码以及高信噪比(SNR)语音采集。在声音通信环境中(例如，在办公室、家庭、零售场所等中)，可能期望在超出指定的语音区域(例如，超出目标收听者的收听区域)时保持语音隐私。例如，当利用诸如外部扬声器之类的扬声器收听时，可能期望在超出指定收听区域的区域中保持语音隐私。语音隐私从隐私角度而言影响对话所针对的人而且从安全角度而言影响可能能够收听对话的无心的人。

根据示例，本文所公开的装置、方法和非暂时性计算机可读介质通过以下操作来提供超出指定收听区域的语音隐私：基于在扬声器近端处的背景噪声来确定与从扬声器发出的语音相关联的噪声估计，以及通过使用指定因子将噪声估计与针对从扬声器发出的语音的语音水平估计进行比较。此外，本文所公开的装置、方法和非暂时性计算机可读介质通过以下操作来提供超出指定收听区域的语音隐私：基于比较来确定要应用于扬声器以在指定水平产生语音以关于扬声器保持轴上可懂度的增益值，并且将增益值应用于扬声器。

对于本文所公开的装置、方法和非暂时性计算机可读介质，如本文所描述的模块可以是用于实现相应模块的功能的硬件和编程的任何组合。在本文所描述的一些示例中，硬件和编程的组合可以以多种不同方式实现。例如，用于模块的编程可以是存储在非暂时性机器可读存储介质上的处理器可执行指令，并且用于模块的硬件可以包括用于执行这些指令的处理资源。在这些示例中，实现这样的模块的计算设备可以包括存储指令的机器可读存储介质和用于执行指令的处理资源，或者机器可读存储介质可以被单独存储并且可由计算设备和处理资源访问。在一些示例中，一些模块可以以电路实现。

图1示出了根据本公开的示例的用于语音隐私装置(下文中也称为“装置100”)的自适应语音可懂度控制的布局。

参考图1，装置100可以包括噪声估计确定模块102，该噪声估计确定模块102用于基于在扬声器104的近端处的背景噪声来确定与从扬声器104发出的语音108相关联的噪声估计106。如本文参考图5所公开的，语音预处理110可以由语音预处理模块112执行，并且语音预处理110基于对从扬声器104发出的语音108进行的远端语音水平估计。此外，可以基于语音预处理110以及与扬声器104相关联的增益值114来生成经调制的超声水平估计。

指定因子比较模块116可以通过使用指定因子将噪声估计106与针对从扬声器104发出的语音108的语音水平估计进行比较。如本文参考图3-5所公开的，根据示例，指定因子可以包括掩蔽阈值、语音可懂度指数、清晰度指数或语音传输指数。

增益值确定模块118可以基于比较来确定要应用于扬声器104以在指定水平产生语音108以关于扬声器104保持轴上可懂度的增益值114。

增益值应用模块120可以将增益值114应用于扬声器104。

基于相机的跟踪模块122可以通过使用相机124来确定目标收听者126距扬声器104的距离。就这一点而言，增益值确定模块118可以基于比较以及目标收听者126距扬声器104的距离来确定要应用于扬声器104以在指定水平产生语音108以关于扬声器104保持轴上可懂度的增益值114。

如将要认识到的，装置100的一些示例可以配置有更多的模块或更少的模块，其中模块可以被配置为执行更多的操作或更少的操作。此外，在一些示例中，可以通过利用处理资源执行指令以使得处理资源执行对应的操作来实现模块。

装置100可以结合具有扬声器104的基于VoIP的通信系统(例如，Skype^TM等)以语音隐私应用实现。根据示例，扬声器104可以包括压电换能器和用于调制入站语音的超声调制器。语音预处理模块112可以校正由扬声器104的压电换能器生成的非线性失真分量。压电换能器可以产生超声频率(例如，在载波频率≥40kHz的情况下)并且接收语音信号，该语音信号由超声调制器载波频率进行超声调制以生成定向音频波阵面。

由于超声波的非线性相互作用可以对定向音频波阵面进行解调，该定向音频波阵面可以以高功率以及以分贝声压级(dBSPL)的高强度利用空气进行传输。经解调的定向音频波阵面可以被目标收听者126的听觉感知为在域[x,y]kHz中的基带音频，其中x≥.020且y≤20。根据示例，对于扬声器104，x≈1且y≈8。

在对定向音频波阵面进行解调之后，沿着传播路径的定向音频波阵面可以被感知为窄带。这可能影响用于语音通信设备的扬声器104的用例。另外地，定向音频波阵面还可以在幅度上受到限制，以使得由于谐波相关信号分量而引起的在压电换能器的输出处的非线性失真伪像最小化。在相对较高的音频信号水平下，低至无环境噪声水平，语音可以是轴偏离可理解的，因此促进无心的收听者对于对话的理解。沿着扬声器104的轴偏离，在相对较低的频率(例如，接近1kHz)处，基带音频频谱中的方向性可能降低，因此有助于语音理解。此外，来自扬声器104附近区域内的边界或反射表面的反射可以进一步降低语音隐私，因此增加无心的收听者的轴偏离理解。

装置100在指定的收听区域内(例如，在指定的收听位置处)提供具有可接受的语音可懂度的相对高的语音水平，并且在环境噪声条件下提供相当低的语音可懂度轴偏离。关于语音可懂度，可懂度可以被描述为“语音清楚度”或者收听者可以容易理解的扬声器的输出的比例。

语音可懂度指数(SII)可以被描述为可以表示信噪比(SNR)测量的度量，并且可以用于测量可懂度。关于语音可懂度指数，可以使用四个测量过程(其使用不同数量和大小的频带)来对沿着基底膜的人类听觉进行建模。按照准确度降序，四个测量过程可以包括基于21个频带、18个频带、17个频带和6个频带的测量。语音可懂度指数的值可以从0(彻底不可懂)到1(完全可懂)变化。语音可懂度指数可以以宽带宽(例如，150Hz至8.5kHz)和相对高的分辨率两者为特征。语音可懂度指数可以包括混响、噪声和失真，所有这些都可以在调制传递函数中说明。可以表示信噪比(SNR)测量的附加度量包括语音传输指数(STI)、清晰度指数(AI)和掩蔽阈值。

关于掩蔽阈值，如果在频率上与低水平语音信号接近的较强信号同时出现，则可以使得低水平语音信号是听不到的。这种现象可以描述为掩蔽。掩蔽较弱信号的相对较强的信号可以被表示为掩蔽者，以及被掩蔽的相对较弱的信号可以被表示为被掩蔽者。掩蔽在掩蔽者所位于的频带中可以是最大的，并且在较小程度上，掩蔽在相邻频带中也可以是高效的。可以定义掩蔽阈值，可以使得低于该掩蔽阈值的任何语音的存在是听不到的。掩蔽阈值可以取决于声压级(SPL)、掩蔽者的频率以及掩蔽者和被掩蔽者的特性，例如，掩蔽者是音调还是噪声。

图2示出了根据本公开的示例的用于装置100的确定掩蔽阈值的包括掩蔽者和被掩蔽者(复合音调)的同时掩蔽。另外地，时间掩蔽可以被并入到设计中。参考图2，安静时的阈值在200处示出，以及掩蔽阈值在202处示出。在202处示出了被掩蔽者被显示为低于掩蔽阈值。可以通过分析掩蔽者(例如，特定频带中的噪声)、被掩蔽者(对应频带中的语音)与相同频带的可听度阈值之间的水平的相对差异来导出从掩蔽释放(RM)曲线。因此，在一个示例中，增益曲线可以对应于RM曲线。

图3-5示出了在存在具有任意信噪比的环境噪声的情况下用于控制语音隐私的方法。具体地，图3示出了根据本公开的示例的用于装置100的利用掩蔽阈值进行针对语音隐私的自适应控制的语音处理。图4示出了根据本公开的示例的用于装置100的利用语音可懂度指数(SII)、清晰度指数(AI)或语音传输指数(STI)进行针对语音隐私的自适应控制的语音处理。此外，图5示出了根据本公开的示例的用于装置100的针对语音隐私的自适应控制的语音处理以及输入预处理。

关于图3-5，在存在任意信噪比环境噪声的情况下控制语音隐私可以包括在呼叫(例如，Skype^TM呼叫)开始的前几毫秒期间在近端计量背景噪声，然后持续地更新噪声估计，同时确保近端语音没有在计算噪声估计中使用。例如，参考图3，在框300处，在存在任意信噪比环境噪声的情况下控制语音隐私可以包括在近端计量背景噪声。近端背景噪声可以由麦克风(例如，图5的麦克风530)确定，因此可以估计以dBA/dBC为单位的近端背景噪声的水平。在框302处，可以持续地更新噪声估计，同时确保近端语音没有在确定框302处的噪声估计中使用(例如，还参见图13的框1306)。关于声学回波消除(AEC)框304，回波消除器可以减去经反射的远端语音，并且如果不存在近端语音，则可以将噪声估计确定为残差。如果存在近端语音，则可以使用声音活动检测器(VAD)来识别近端语音部分以及非语音和噪声部分以导出噪声估计器。可以通过麦克风(例如，图5的麦克风530)来确定近端语音。可替代地，如果使用麦克风阵列(如本文参考图12所公开的)，则可以使用语音方向来估计近端语音(如本文参考图13所公开的)。

来自框302处的噪声估计的输出可以被转发到阈值处理框306(示出为掩蔽阈值306)。框302处的噪声估计可以包括通过来自宽带频谱的数据的帧确定的均方根(RMS)水平。可替代地，可以按照语音可懂度指数标准根据子带处理导出框302处的噪声估计。

框306处的掩蔽阈值可以以与本文关于图2所公开的类似的方式将来自框302的噪声估计与来自框308的远端语音水平估计进行比较。

可以使用宽带或经由子带中的分析来确定来自框308的远端语音水平估计。这提供了在子带处理的情况下应用总体恒定增益或频率相关增益。

可以以与本文关于近端分析所公开的类似的方式根据框310处的噪声抑制和框312处的声音活动检测来确定框308处的远端语音水平估计。框310处的噪声抑制可以针对近端用户消除远端噪声。

来自框306处的比较的输出可以被应用于宽带增益控制、动态范围压缩或者平滑和时间常数框314，以确保在回放期间以仅仅足够保持轴上可懂度的水平再现远端语音。关于宽带增益控制，可以利用函数G(f)*x(f)，其中x是帧中的语音，并且G(dB,f)＝RM(f)+epsilon，其中epsilon是产生最小可辨差异的标称值(例如，0.5dB)，并且f是频率分组值(bin value)。假定扬声器316(即，超声波发射器)是定向的，这将确保语音的可懂度(因此理解)在轴偏离中是低的。

框318可以包括调制和放大。在放大之前，调制利用超声载波对远端语音进行调制。在框318处的数模(D/A)转换器可以将来自框310的数字信号转换为用于扬声器316的模拟信号。

来自框300和框304的输出还可以用于在框320处进行编码。编码的示例可以包括语音编码器，例如，运动图像专家组(MPEG)、统一语音和音频编码(USAC)、自适应多速率宽带(AMR-WB)等。在框320处的编码可以受到在框322处的噪声抑制，该噪声抑制针对远端用户消除了近端噪声(如本文参考图12和图13所公开的)。

参考图4，与图3的框300-304、308-314和318-322相比，框400-404、408-414和418-422包括类似的功能。关于框406，可以将来自框402处的噪声估计的输出递送到框406，框406可以包括语音可懂度指数、清晰度指数或语音传输指数。语音可懂度指数可以表示例如0与1之间的测量，该测量表示在各种不利收听条件下(例如，噪声掩蔽、滤波和混响等)的语音的可懂度。清晰度指数可以被描述为用于对具有特定听觉损失的用户可听到的语音的量进行预测的工具。对于给定用户的清晰度指数数字的范围可以从0到1，表示可听到的平均语音信号的比例。语音传输指数可以被描述为语音传输质量的测量。语音传输指数可以测量传输信道(例如，房间、电声设备、电话线等)的一些物理特性，并且表示信道跨语音信号的特性进行承载的能力。可以在具有或没有噪声抑制的情况下指定在框406处的语音可懂度指数、清晰度指数或语音传输指数。框406可以将来自框402的噪声估计与来自框408的远端语音水平估计进行比较。框408可以抑制远端噪声以在语音被近端噪声标记之前确定更清楚的远端语音。

来自框406处的比较的输出可以被应用于宽带增益控制或动态范围压缩框414，以确保在回放期间以仅仅足够保持轴上可懂度的水平再现远端语音。假定扬声器416是定向的，这将确保语音的可懂度(因此理解)在轴偏离中是低的。

参考图5，与图3的框302-304、308-314和318-322相比，框502-504、508-514和518-522包括类似的功能。在框502处的噪声估计可以根据在麦克风530处的近端噪声来确定。例如，可以根据如本文所公开的图13的框1306获得在框502处的噪声估计。

在框524处的语音预处理可以接收来自框514的输入，并且可以基于非线性声学模型确定在框528处的经调制的超声水平估计。超声换能器可以在诸如空气之类的介质中生成声波。当超声强度增加时，单一频率超声波可能由于介质非线性而生成谐波。当两个不同频率的超声信号从超声换能器发出时，介质非线性产生除了原始频率和谐波之外的和频和差频的声学信号。

参数化音频再现系统利用前述的非线性过程来产生差异音调，例如，在20HZ到20000HZ的人类听觉范围内。可以将音频信号调制到超声载波上。经调制的超声波可以由超声换能器放大并发出。空气非线性可以对超声波进行解调以再现音频信号。然而，可能由参数化再现中固有的各种谐波和其他音频伪像导致失真，因此经解调的音频可能无法恢复原始音频。

关于参数化再现过程中的失真，可以通过在将音频信号调制到超声载波上之前对音频信号进行预处理来校正失真。可以定义空气非线性模型(即，非线性声学模型)来表示超声波传播模型。一旦定义了该函数，就可以导出反函数并将其用于音频预处理。该反函数可以调节输入音频信号，使得当输入音频信号被馈送到非线性系统时，(在调节之前的)原始输入信号在输出中利用减少的失真被恢复。

关于框506，可以将来自框502处的噪声估计的输出递送到框506，框506可以包括掩蔽阈值(类似于框306)，或者语音可懂度指数、清晰度指数或语音传输指数(类似于框406)。框506可以将来自框502的噪声估计与来自框508的远端语音水平估计进行比较。来自框506处的比较的输出可以被应用于宽带增益控制或动态范围压缩框514，以确保在回放期间以仅仅足够保持轴上可懂度的水平再现远端语音。假定扬声器516是定向的，这将确保语音的可懂度(因此理解)在轴偏离中是低的。

为了进一步提高关于图3-5执行的分析的准确性，可以估计目标收听者的距离以分别在框314、414和514处调整增益/压缩设置。例如，关于目标收听者的距离，目标收听者越远，增益越高，这在动态范围压缩中表示更高的压缩比，以及关于动态范围压缩参数的降低的阈值。例如，可以确定目标收听者126相对于扬声器516的位置的距离以保持可接受的语音隐私。就这一点而言，如本文参考图6所公开的相机124可以定位在相对于扬声器104固定且经校准的距离处。例如，在个人计算机类型设备的情况下，相机可以定位在相对于扬声器104固定且经校准的距离处(例如，其中相机124被安装到个人计算机的屏幕，并且扬声器104被设置为个人计算机的组件)。可替代地，如本文参考图7-11B所公开的，相机可以定位在相对于扬声器104任意位置处，在这种情况下，相机可以识别目标收听者126和扬声器104两者以估计到目标收听者126的距离。

使用基于相机的检测来确定到目标收听者126的距离的第一技术包括用于使得语音处理适应于隐私的基于计算机视觉的人物检测。就这一点而言，图6示出了根据本公开的示例的用于装置100的使得语音处理适应于隐私的基于计算机视觉的人物检测。

参考图6，关于利用基于相机的跟踪模块122进行的语音隐私处理的基于相机的跟踪，可以将基于计算机视觉的距离估计分成测量阶段和应用阶段。

在测量阶段期间，可以设置参考相机(未示出，或相机124)以及具有诸如捕获系统的镜头失真、分辨率、高度之类的特性的相机捕获系统。可以在第一查找表(LUT 1)中捕获这些相机捕获系统特性。该参考设置可以用于测量以下受试者类型中的每一个的面部大小：(a)成年男性，表示为am；(b)成年女性，表示为af；(c)儿童男性，表示为cm；以及(d)儿童女性，表示为cf。可以采用附加受试者类型来增加准确性。对于受试者类型中的每一个，可以例如通过围绕检测到的面部的边界框的大小来测量面部大小，其中记录x像素和y像素。x像素和y像素可以表示边界框的水平像素和垂直像素的数量，从而指示对于对应距离检测到的面部的大小。可以在不同距离处进行对受试者类型中的每一个的面部大小的测量。测量出的值可以连同受试者类型(例如，am、af、cm或cf)一起存储。第二查找表(LUT 2)可以包括诸如受试者类型、距离、x像素和y像素之类的条目。一旦测量阶段完成，测量出的值可以被应用于不同类型的相机系统。

关于应用阶段，参考图6，在框600处，估计在相机124前面的人物(例如，目标收听者126)的距离的第一步骤可以包括面部检测。可以例如通过关于像素值x、y在面部周围应用边界框来测量人物的面部的大小。由于针对相机600的实际相机系统以及捕获特性可能区别于参考相机和捕获系统，因此可以对前述像素值进行归一化。就这一点而言，当前相机系统和特性以及来自LUT 1的值可以用于生成在框604处的经归一化的像素值x、y。关于在框604处的经归一化的像素值x、y，相机可以包括不同的镜头和传感器，因此，可以关于水平像素和垂直像素不同地记录人物和物体。例如，与远距相机相比，广角相机中的面部可能看起来更小。由于可能在测量阶段期间关于所使用的相机来固定相机大小是不可能的，因此在应用阶段期间所观察到的大小可能需要关于经归一化的相机进行归一化。如图6中所示，这些水平像素和垂直像素可以被表示为x'和y'。可以在框606处分析检测到的面部以提取面部特征以在框608处将面部分类为四种受试者类型(例如，am、af、cm或cf)中的一种。在框604处的经归一化的像素值与来自框608的受试者类型可以用作索引以根据在框610处的LUT 2确定估计的距离值。

图7示出了根据本公开的示例的用于装置100的在训练期间的基于标记的学习系统。

参考图7，关于利用基于相机的跟踪模块122进行的语音隐私处理来进行基于相机的跟踪，可以使用用于范围估计的基于标记的学习来补充图6的基于计算机视觉的人物检测技术以延伸至非人。例如，关于不在相对于扬声器104固定且经校准的位置处的远程相机，可以由基于相机的跟踪模块122实现具有参考标记的学习方法。学习技术可以包括训练阶段，之后是应用阶段。

图7示出了基于标记的学习系统，其中可以利用标记700捕获用于训练的图像。标记700可以定位在相对于相机124固定距离和固定定向处。对于基于标记的学习系统，可以针对由相机124捕获的每个对应的图像生成描述物体和距离值的标签704。标记700可以提供对在不同距离处的各种物体的大小的参考。标签704和利用标记700捕获的图像可以由神经网络706接收。神经网络706可以关于距离学习物体或人物的大小。例如，神经网络706可以在距离相机10英尺或距离相机5英尺等站立的人物的数百个图像上进行训练。在应用阶段期间经训练的神经网络可以在任何后续新图像上确定人物距相机的距离以对新图像进行分类。神经网络可以包括深度神经网络。神经网络706可以包括权重并且预测输出。如果预测的输出不同于实际输出，则可能生成误差。该误差可以反向传播到神经网络706，并且可以因此调整权重。可以重复这些迭代，直到误差是最小化的。可以将作为结果的神经网络指定为经训练的神经网络，并且可以在应用阶段期间使用权重来对距离值进行分类。

图8示出了根据本公开的示例的用于装置100的由相机捕获的在不同距离处的人物的示例。关于图8，可以将各种物体用于训练。例如，如图8中所示，可以在10英尺、5英尺和3英尺的距离处捕获诸如成年男性之类的物体。

图9示出了根据本公开的示例的用于装置100的在相同距离处的两个人之间的大小差异的示例。例如，图9示出了在5英尺处的儿童男性和成年男性的大小差异。在应用阶段期间，可能需要使相同标记在与在训练系统中相同的距离和定向处。就这一点而言，相机124可以捕获受试者，并且输出图像可以关于参考捕获系统被归一化。

图10示出了根据本公开的示例的用于装置100的在应用期间的图7的基于标记的学习系统。关于图10，由相机124捕获的图像可以被馈送到经训练的基于标记的学习系统1002，该经训练的基于标记的学习系统1002对图像进行分类并且输出估计的距离，如1004处所示。

图11A示出了根据本公开的示例的在训练期间的无标记学习系统，以及图11B示出了根据本公开的示例的用于装置100的在应用期间的经训练的图11A的无标记学习系统。

参考图11A，关于针对由基于相机的跟踪模块122进行的范围估计的无标记学习，用于范围估计的无标记学习系统可以由装置100实现为对图7的基于标记的学习系统的扩展。与图7的基于标记的学习系统相比，可以移除来自图7的标记700以用于无标记学习系统。对于图11A的无标记学习系统，可以基于绝对大小和距离使用图像内的现有物体来确定范围。可以利用有标签图像的不同集合对无标记学习系统进行训练。例如，可以针对由相机124捕获的每个对应图像生成描述物体和距离值的标签1100。标签1100和由相机124捕获的图像可以由神经网络1104接收。可以利用带有标签的物体对神经网络1104进行训练，使得在应用阶段期间当具有这些物体的图像被呈现给神经网络1104时，神经网络1104可以估计关于相机124的距离。

参考图11B，在应用阶段期间，过程类似于用于范围估计的基于标记的学习系统。当图像被馈送到经训练的无标记学习系统并且图像包括经训练的无标记学习系统已经利用其训练的物体时，可以由经训练的无标记学习系统执行距离估计。关于图11B，由相机124捕获的图像可以被馈送到经训练的无标记学习系统1108中，该经训练的无标记学习系统1108对图像进行分类并且输出估计的距离，如1110处所示。

图7-11B的基于标记的技术和无标记的技术也可以与视频一起使用。例如，包括语音隐私的应用可以利用物体的三维(3D)空间中的定向。在这种情况下，可以根据与物体在图像内的x、y位置组合的距离来推断物体的定向。

图12示出了根据本公开的示例的到装置100的麦克风阵列输入。

关于与语音隐私相结合的预处理，语音预处理模块112可以执行远端语音预处理、噪声抑制和声学回波消除(AEC)等。例如，如图12中所示，超声发射器1200和麦克风的阵列(表示为麦克风阵列1202)可以如图12中所示布置。麦克风阵列1202可以包括两个或更多个麦克风。麦克风之间的间隔d可以小于感兴趣频率的最小波长，即，kd≤1，其中k＝2π/λ是波的数量。在麦克风阵列1202处的声音(语音和噪声)可以由模数转换器数字化。到达时间可以用于计算传入声音方向。例如，如果声音以垂直方向传入，则声音将同时到达麦克风阵列1202的两个麦克风。如果声音以图12的定向从右向左方向传入，则声音将首先到达麦克风阵列1202的右侧麦克风，然后到达麦克风阵列1202的左侧麦克风。根据示例，θ＝90°的传入声音方向可以用作参考声音和噪声，并且来自其他方向的声音可以用作参考噪声。以这种方式，可以在将近端噪声发送到远端之前将近端噪声消除。诸如最小均方之类的自适应技术可以用于噪声消除。在将近端噪声发送到远端之前，噪声消除可以消除近端噪声。

图13示出了根据本公开的示例的用于装置100的利用麦克风阵列的主动噪声消除。

在框1300处，可以将快速傅立叶变换(FFT)应用于传入语音和噪声，并且可以由框1302处的源定位器接收来自框1300的结果。根据示例，近端用户在直接对麦克风阵列1202讲话时，可以面向超声发射器1200的中心，因此θ＝90°的传入声音方向可以用作在框1304处的参考声音和噪声，并且来自其他方向的声音可以用作在框1306处的参考噪声。可以在框1308处将诸如最小均方之类的自适应算法用于进行噪声消除以生成语音。

对于装置100，关于扬声器104的硬件，扬声器104可以包括用作波导的格栅。就这一点而言，格栅可以包括用于分散和/或阻挡超声波、增加和/或降低声音水平的特定的机械和物理解剖结构，以及信道、焦点、漏斗(funnel)，将超声波信号指引和/或引导到目标收听者126的期望收听位置。扬声器格栅可以被装配和预调节以用于特定用例和期望的用户体验。

图14-16分别示出了根据示例的针对语音隐私的自适应语音可懂度控制的框图1400、方法1500的流程图以及另一框图1600。框图1400、方法1500和框图1600可以通过示例而非限制的方式在上面参考图1所描述的装置100上实现。框图1400、方法1500和框图1600可以在其他装置中实践。除了示出框图1400之外，图14还示出了可以执行框图1400的指令的装置100的硬件。硬件可以包括处理器1402和存储机器可读指令的存储器1404，机器可读指令当由处理器执行时使得处理器执行框图1400的指令。存储器1404可以表示非暂时性计算机可读介质。图15可以表示针对语音隐私的自适应语音可懂度控制的方法以及该方法的步骤。图16可以表示其上存储有用于提供针对语音隐私的自适应语音可懂度控制的机器可读指令的非暂时性计算机可读介质1602。当执行机器可读指令时使得处理器1604执行同样在图16中示出的框图1600的指令。

图14的处理器1402和/或图16的处理器1604可以包括单个或多个处理器或其他硬件处理电路以执行本文所描述的方法、功能和其他过程。这些方法、功能和其他过程可以体现为存储在计算机可读介质上的机器可读指令，计算机可读介质可以是非暂时性的(例如，图16的非暂时性计算机可读介质1602)，例如，硬件存储设备(例如，RAM(随机存取存储器)、ROM(只读存储器)、EPROM(可擦除可编程ROM)、EEPROM(电可擦除可编程ROM)、硬盘驱动器和闪速存储器)。存储器1404可以包括RAM，其中用于处理器的机器可读指令和数据可以在运行时期间驻留。

参考图1-14，并且特别是图14中示出的框图1400，在框1406处，存储器1404可以包括指令，该指令用于(例如，通过噪声估计确定模块102)基于在扬声器104的近端处的背景噪声来确定与从扬声器104发出的语音108相关联的噪声估计106。

在框1408处，存储器1404可以包括指令，该指令用于(例如，通过指定因子比较模块116)通过使用指定因子来将噪声估计106与从针对扬声器104发出的语音108的语音水平估计进行比较(例如，参见关于图3-5的讨论)。

在框1410处，存储器1404可以包括指令，该指令用于(例如，通过增益值确定模块118)基于比较来确定要应用于扬声器104以在指定水平产生语音108以关于扬声器104保持轴上可懂度的增益值114。

在框1412处，存储器1404可以包括指令，该指令用于(例如，通过增益值应用模块120)将增益值114应用于扬声器104。

根据示例，扬声器104可以包括超声调制器以对语音108进行调制，以及包括压电换能器以接收经调制的语音108并且针对在指定位置处的目标收听者126生成定向音频波阵面。

根据示例，用于(例如，通过噪声估计确定模块102)基于在扬声器104的近端处的背景噪声来确定与从扬声器104发出的语音108相关联的噪声估计106的机器可读指令还包括用于以下操作的机器可读指令：基于在扬声器104的近端处的背景噪声并且通过实质上消除从扬声器104发出的近端语音108来确定与从扬声器104发出的语音108相关联的噪声估计106。

根据示例，用于(例如，通过指定因子比较模块116)通过使用指定因子来将噪声估计106与针对从扬声器104发出的语音108的语音水平估计进行比较的机器可读指令还包括用于以下操作的机器可读指令：通过使用包括掩蔽阈值的指定因子，将噪声估计106与针对从扬声器104发出的语音108的语音水平估计进行比较。

根据示例，用于(例如，通过指定因子比较模块116)通过使用指定因子来将噪声估计106与针对从扬声器104发出的语音108的语音水平估计进行比较的机器可读指令还包括用于以下操作的机器可读指令：通过使用包括可懂度指数、清晰度指数或语音传输指数的指定因子，将噪声估计106与针对从扬声器104发出的语音108的语音水平估计进行比较。

根据示例，用于(例如，通过增益值应用模块120)将增益值114应用于扬声器104的机器可读指令还包括用于以下操作的机器可读指令：基于语音预处理110来确定远端语音108的经调制的超声水平估计并将增益值114和经调制的超声水平估计应用于扬声器104。

根据示例，用于(例如，通过增益值确定模块118)基于比较来确定要应用于扬声器104以在指定水平产生语音108以关于扬声器104保持轴上可懂度的增益值114的机器可读指令还包括用于以下操作的机器可读指令：通过使用相机124来确定目标收听者126距扬声器104的距离，并且基于比较以及目标收听者126距扬声器104的距离来确定要应用于扬声器104以在指定水平产生语音108以关于扬声器104保持轴上可懂度的增益值114。

参考图1-13和图15，并且特别是图15，对于方法1500，在框1502处，该方法可以包括(例如，通过噪声估计确定模块102)基于在扬声器104的近端处的背景噪声来确定与从扬声器104发出的语音108相关联的噪声估计106。

在框1504处，该方法可以包括(例如，通过指定因子比较模块116)通过使用指定因子来将噪声估计106与针对从扬声器104发出的语音108的语音水平估计进行比较。

在框1506处，该方法可以包括(例如，通过基于相机的跟踪模块122)通过使用相机124来确定目标收听者126距扬声器104的距离。

在框1508处，该方法可以包括(例如，通过增益值确定模块118)基于比较以及目标收听者126距扬声器104的距离来确定要应用于扬声器104以在指定水平产生语音108以关于扬声器104保持轴上可懂度的增益值114。

在框1510处，该方法可以包括(例如，通过增益值应用模块120)将增益值114应用于扬声器104。

根据示例，对于方法1500，(例如，通过基于相机的跟踪模块122)通过使用相机124来确定目标收听者126距扬声器104的距离可以进一步包括确定一组参考值，每个参考值包括人物类型、与人物类型相关联的人物距参考点的距离以及人物的面部大小，通过使用相机124来检测扬声器104的目标收听者126的面部，提取目标收听者126的检测到的面部的面部特征，基于所提取的面部特征来对目标收听者126的人物类型进行分类，以及基于目标收听者126的人物类型和目标收听者126的检测到的面部的面部大小与参考值的比较来确定目标收听者126距扬声器104的距离(例如，参见关于图6的讨论)。

根据示例，对于方法1500，(例如，通过基于相机的跟踪模块122)通过使用相机124来确定目标收听者126距扬声器104的距离可以进一步包括参考位于指定距离和指定定向处的标记来确定多个图像，多个图像中的每一个包括人物，基于学习将多个图像中的每一个与人物距标记的距离相关联地进行分类，通过相机124来确定目标收听者126的图像，基于经分类的多个图像来分析所确定的目标收听者126的图像，以及基于对所确定的目标收听者126的图像的分析来确定目标收听者126距扬声器104的距离(例如，参见关于图7-10的讨论)。

根据示例，对于方法1500，(例如，通过基于相机的跟踪模块122)通过使用相机124来确定目标收听者126距扬声器104的距离可以进一步包括确定多个图像，多个图像中的每一个包括人物和物体，基于学习将多个图像中的每一个与人物距物体的距离相关联地进行分类，通过相机124来确定目标收听者126的图像，基于经分类的多个图像来分析所确定的目标收听者126的图像，以及基于对所确定的目标收听者126的图像的分析来确定目标收听者126距扬声器104的距离(例如，参见关于图11A-11B的讨论)。

参考图1-13和图16，并且特别是图16，对于框图1600，在框1606处，非暂时性计算机可读介质1602可以包括指令，该指令用于(例如，通过噪声估计确定模块102)基于在扬声器104的近端处的背景噪声来确定与从扬声器104发出的语音108相关联的噪声估计106。

在框1608处，非暂时性计算机可读介质1602可以包括指令，该指令用于(例如，通过指定因子比较模块116)通过使用掩蔽阈值、语音可懂度指数、清晰度指数或语音传输指数来将噪声估计106与针对从扬声器104发出的语音108的语音水平估计进行比较。

在框1610处，非暂时性计算机可读介质1602可以包括指令，该指令用于(例如，通过增益值确定模块118)基于比较来确定要应用于扬声器104以在指定水平产生语音108以关于扬声器104保持轴上可懂度的增益值114。

在框1612处，非暂时性计算机可读介质1602可以包括指令，该指令用于(例如，通过增益值应用模块120)将增益值114应用于扬声器104。

本文所描述和说明的是示例及其变型中的一些。本文所使用的术语、描述和附图仅以说明的方式阐述并且不意味着限制。在主题的精神和范围内的许多变型是可能的，主题的精神和范围旨在由所附权利要求书及其等同物限定，其中除非另有指示，否则所有术语均以其最宽泛的合理含义表示。

Claims

1.一种用于语音隐私装置的自适应语音可懂度控制，包括：

处理器；以及

存储器，其存储机器可读指令，所述机器可读指令当由所述处理器执行时，使得所述处理器进行以下操作：

基于在扬声器的近端处的背景噪声来确定与从所述扬声器发出的语音相关联的噪声估计；

通过使用指定因子来将所述噪声估计与针对从所述扬声器发出的所述语音的语音水平估计进行比较；

基于所述比较来确定要应用于所述扬声器以在指定水平产生所述语音以关于所述扬声器保持轴上可懂度的增益值；以及

将所述增益值应用于所述扬声器。

2.根据权利要求1所述的装置，其中所述扬声器包括用于对所述语音进行调制的超声调制器，以及用于接收经调制的语音并且针对在指定位置处的目标收听者生成定向音频波阵面的压电换能器。

3.根据权利要求1所述的装置，其中用于基于在所述扬声器的所述近端处的所述背景噪声来确定与从所述扬声器发出的所述语音相关联的所述噪声估计的所述机器可读指令还包括用于使得所述处理器进行以下操作的机器可读指令：

基于在所述扬声器的所述近端处的所述背景噪声并且通过实质上消除从所述扬声器发出的近端语音来确定与从所述扬声器发出的所述语音相关联的所述噪声估计。

4.根据权利要求1所述的装置，其中用于通过使用所述指定因子来将所述噪声估计与针对从所述扬声器发出的所述语音的所述语音水平估计进行比较的所述机器可读指令还包括用于使得所述处理器进行以下操作的机器可读指令：

通过使用包括掩蔽阈值的所述指定因子，将所述噪声估计与针对从所述扬声器发出的所述语音的所述语音水平估计进行比较。

5.根据权利要求1所述的装置，其中用于通过使用所述指定因子来将所述噪声估计与针对从所述扬声器发出的所述语音的所述语音水平估计进行比较的所述机器可读指令还包括用于使得所述处理器进行以下操作的机器可读指令：

通过使用包括可懂度指数、清晰度指数或语音传输指数的所述指定因子，将所述噪声估计与针对从所述扬声器发出的所述语音的所述语音水平估计进行比较。

6.根据权利要求1所述的装置，其中用于将所述增益值应用于所述扬声器的所述机器可读指令还包括用于使得所述处理器进行以下操作的机器可读指令：

基于语音预处理来确定远端语音的经调制的超声水平估计；以及

将所述增益值和所述经调制的超声水平估计应用于所述扬声器。

7.根据权利要求1所述的装置，其中用于基于所述比较来确定要应用于所述扬声器以在所述指定水平产生所述语音以关于所述扬声器保持所述轴上可懂度的所述增益值的所述机器可读指令还包括用于使得所述处理器进行以下操作的机器可读指令：

通过使用相机来确定目标收听者距所述扬声器的距离；以及

基于所述比较以及所述目标收听者距所述扬声器的所述距离来确定要应用于所述扬声器以在所述指定水平产生所述语音以关于所述扬声器保持所述轴上可懂度的所述增益值。

8.一种针对语音隐私的自适应语音可懂度控制的方法，包括：

通过处理器基于在扬声器的近端处的背景噪声来确定与从所述扬声器发出的语音相关联的噪声估计；

通过使用相机来确定目标收听者距所述扬声器的距离；以及

基于所述比较以及所述目标收听者距所述扬声器的所述距离来确定要应用于所述扬声器以在指定水平产生所述语音以关于所述扬声器保持轴上可懂度的增益值；以及

将所述增益值应用于所述扬声器。

9.根据权利要求8所述的方法，其中通过使用所述相机来确定所述目标收听者距所述扬声器的所述距离还包括：

确定一组参考值，每个参考值包括人物类型、与所述人物类型相关联的人物距参考点的距离以及所述人物的面部大小；

通过使用所述相机来检测所述扬声器的所述目标收听者的面部；

提取所述目标收听者的检测到的面部的面部特征；

基于所提取的面部特征来对所述目标收听者的所述人物类型进行分类；以及

基于所述目标收听者的所述人物类型和所述目标收听者的所述检测到的面部的面部大小与所述参考值的比较来确定所述目标收听者距所述扬声器的所述距离。

10.根据权利要求8所述的方法，其中通过使用所述相机来确定所述目标收听者距所述扬声器的所述距离还包括：

参考位于指定距离和指定定向处的标记来确定多个图像，所述多个图像中的每一个包括人物；

基于学习将所述多个图像中的每一个与所述人物距所述标记的距离相关联地进行分类；

通过所述相机来确定所述目标收听者的图像；

基于经分类的多个图像来分析所确定的所述目标收听者的图像；以及

基于对所确定的所述目标收听者的图像的所述分析来确定所述目标收听者距所述扬声器的所述距离。

11.根据权利要求8所述的方法，其中通过使用所述相机来确定所述目标收听者距所述扬声器的所述距离还包括：

确定多个图像，所述多个图像中的每一个包括人物和物体；

基于学习将所述多个图像中的每一个与所述人物距所述物体的距离相关联地进行分类；

通过所述相机来确定所述目标收听者的图像；

12.一种非暂时性计算机可读介质，其上存储有用于提供针对语音隐私的自适应语音可懂度控制的机器可读指令，所述机器可读指令当被执行时使得处理器进行以下操作：

通过使用掩蔽阈值、语音可懂度指数、清晰度指数或语音传输指数来将所述噪声估计与针对从所述扬声器发出的所述语音的语音水平估计进行比较；

将所述增益值应用于所述扬声器。

13.根据权利要求12所述的非暂时性计算机可读介质，其中用于基于在所述扬声器的所述近端处的所述背景噪声来确定与从所述扬声器发出的所述语音相关联的所述噪声估计的所述机器可读指令当被执行时还使得所述处理器进行以下操作：

14.根据权利要求12所述的非暂时性计算机可读介质，其中用于将所述增益值应用于所述扬声器的所述机器可读指令当被执行时还使得所述处理器进行以下操作：

15.根据权利要求12所述的非暂时性计算机可读介质，其中用于基于所述比较来确定要应用于所述扬声器以在所述指定水平产生所述语音以关于所述扬声器保持所述轴上可懂度的所述增益值的所述机器可读指令当被执行时还使得所述处理器进行以下操作：

通过使用相机来确定目标收听者距所述扬声器的距离；以及