CN114402388A

CN114402388A - 上下文感知语音可懂度增强

Info

Publication number: CN114402388A
Application number: CN202080063374.1A
Authority: CN
Inventors: D·诺; P·丘巴列夫; 郭晓雨
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2019-09-11
Filing date: 2020-09-09
Publication date: 2022-04-26
Also published as: WO2021050542A1; JP2022547860A; KR20220062578A; US20220165287A1; EP4029018A1; EP4029018B1

Abstract

一种方法包括：用麦克风检测环境中的噪声以产生噪声信号；接收要通过扬声器播放到环境中的语音信号；基于麦克风的麦克风传递函数执行噪声信号的多频带校正，以产生校正后的噪声信号；基于扬声器的扬声器传递函数执行语音信号的多频带校正，以产生校正后的语音信号；以及基于校正后的噪声信号和校正后的语音信号计算多频带语音可懂度结果。

Description

上下文感知语音可懂度增强

优先权声明

本申请要求2019年9月11日提交的美国临时申请No.62/898,977的优先权，其通过引用整体并入本文。

技术领域

本公开涉及语音可懂度处理。

背景技术

诸如人工智能(Al)喇叭、移动电话、电话会议、物联网(IoT)设备等的语音回放设备经常用于包括高等级背景噪声的声学环境中。语音回放设备播放的语音可能被背景噪声掩盖，导致语音可懂度降低。有许多提高语音可懂度的技术可用。其中一些技术还利用噪声捕获设备来增强嘈杂环境中的语音可懂度。然而，这些技术没有指定和解决与特定于实现方式的限制相关联的实际挑战，诸如回放设备的物理限制、噪声捕获设备的物理限制、语音可懂度处理的信号净空以及长期语音特性。

附图说明

图1是在其中可以实现针对语音可懂度处理的实施例的示例系统的高级框图。

图2是在图1的系统中实现的示例语音可懂度处理器(VIP)和相关联的语音和噪声处理的框图。

图3示出了语音可懂度指数(SII)的频带-重要性函数的示例曲线图。

图4示出了两个不同扬声器的示例扬声器频率响应。

图5是示例理想化麦克风频率响应和示例理想化扬声器频率响应，以及基于这两个频率响应之间的相互关系确定的各种频率分析范围的频率曲线图。

图6示出了语音信号的短片段及其对应频谱的曲线图。

图7示出了语音信号的另一短片段及其对应频谱的曲线图。

图8示出了语音信号的长片段及其对应频谱的曲线图。

图9是VIP的语音增强器的一部分的高级块/信号流程图。

图10是VIP执行的多频带语音可懂度分析/处理和语音可懂度增强的示例方法的流程图。

具体实施方式

示例实施例

解决上述挑战和顾虑可以实现从未处理语音到处理后语音的自然转换的最佳性能。因此，本文提供的实施例引入了用于语音可懂度分析的新颖特征和改进，其提高了噪声环境中的语音可懂度，并克服了本文描述的实际挑战。实施例包括但不限于：(1)结合多频带语音和噪声校正的数字到声学等级转换，(2)短片段语音可懂度分析，(3)长片段的语音和噪声描画(profiling)，以及(4)全局和每频带增益分析。因为在实施例中执行的分析结果产生用于回放的语音信号的相对增益调整参数，既有宽带的、又有每个频带的，所以在实施例中的处理不限于特定的音频信号处理，并且可以包括诸如压缩器、扩展器和共振峰增强的已知动态处理的任意组合。

如本文所使用的，术语：“话音”、“语音”和“语音/话音”是同义词并且可以互换使用；“帧”、“片段”和“时间片段”是同义词并且可以互换使用；“话音(或语音)可懂度”和“可懂度”是同义词并且可以互换使用；“区间(bin)”和“频带”是同义词并且可以互换使用；以及“带宽(BW)”和“通带”是同义词并且可以互换使用。

图1是其中可以实现本文呈现的实施例的示例系统100。系统100是一个示例，并且可以有许多变化。这样的变化可以省略或添加音频分量。系统100可以表示支持与远程通信设备(未示出)进行语音通信(例如，语音呼叫)的语音通信设备。系统100还可以表示与通信设备耦合的多媒体回放设备。系统100的非限制性示例包括电话(例如，移动电话、智能电话、互联网协议(IP)语音(VoIP)电话等)、计算机(例如，台式计算机、膝上型计算机、平板电脑等)以及配备有语音通信设备的家庭影院音响系统。

系统100部署在声学环境中，例如房间、开放空间等。系统100包括彼此耦合的语音发送路径、语音回放路径和媒体回放路径。语音发送包括彼此耦合的表示语音/噪声捕获设备(也简称为“噪声捕获设备”)的麦克风104、声学回声消除器106和噪声预处理器108。麦克风104将声学环境中的声音转换为代表该声音的声音信号。声音信号表示声学环境中的背景噪声(简称为“噪声”)，并且还可以表示来自说话者的语音。例如，声学回声消除器106和噪声预处理器108(统称为“预处理器”)分别消除回声和降低声音信号中的噪声，并发送处理后的声音信号(例如，处理后的语音)以便在例如远程站回放。

语音回放路径包括语音可懂度处理器(VIP)120、系统音量控制122和扬声器124(更一般地，回放设备)。在语音回放路径中，VIP 120接收要通过扬声器124回放的语音信号(即，语音回放信号)。例如，语音信号可能已经从上述远程通信设备(例如，远程移动电话)传输到系统100用于回放。此外，VIP 120从麦克风104接收表示声学环境中的噪声的噪声信号。VIP 120接收的噪声信号可以是由声学回声消除器106产生的回声消除噪声信号，以避免VIP的自激活。根据本文提出的实施例，VIP 120同时处理用于回放的语音信号与噪声信号(例如，由麦克风104感测到的噪声)，以增强语音信号的可懂度，从而产生可懂度增强的语音信号。VIP 120将可懂度增强的语音信号提供给扬声器124(通过系统音量控制122)，以便由扬声器回放到声学环境中。

媒体回放路径包括音频后处理器130、系统音量控制122和扬声器124。音频后处理器130处理媒体信号以供扬声器124回放(通过系统音量控制122)。系统100还可以包括开关140，以选择性地将语音回放或媒体回放引导到扬声器124。

系统100还包括耦合到麦克风104和扬声器124的控制器150。控制器150可以被配置为实现例如声学回声消除器106、噪声预处理器108、VIP 120、音频后处理器130、开关140和系统音量控制122。控制器150包括处理器150a和存储器150b。处理器150a可以包括例如被配置为执行存储在存储器150b中的软件指令的微控制器或微处理器。存储器150b可以包括只读存储器(ROM)、随机存取存储器(RAM)或其他物理/有形(例如，非瞬态)存储器存储设备。因此，一般而言，存储器150b可以包括编码有软件的一个或多个计算机可读存储介质(例如，存储器设备)，软件包括计算机可执行指令，并且当该软件被(处理器150a)执行时，其可操作为执行本文描述的操作。例如，存储器150b存储或编码有用于控制逻辑的指令，以实现VIP 120(例如，下面结合图2-9描述的VIP的模块)和上述系统100的其他模块，并执行系统100的总体控制。

存储器150b还存储本文描述的由控制逻辑使用和生成的信息/数据150c。

图2是根据实施例的VIP 120和由VIP执行的处理的示例高级框图。VIP包括耦合到语音增强器204的语音和噪声分析器202。语音和噪声分析器202从麦克风104接收噪声信号。语音和噪声分析器202还接收用于回放的语音信号。在示例中，噪声信号和语音信号是时域信号，并且可以各自为脉冲编码调制(PCM)格式，但其他格式也是可能的。语音和噪声分析器202同时分析/处理噪声信号和语音信号，以产生多频带语音可懂度结果205，并将其提供给语音增强器204。语音增强器204基于多频带语音可懂度结果205处理语音信号，以增强或提高语音信号的可懂度，从而产生可懂度增强的语音信号。通过系统音量控制122和扬声器124回放可懂度增强的语音信号。

语音和噪声分析器202包括噪声校正路径206、语音校正路径208、两条校正路径之后的语音可懂度计算器210、以及语音可懂度计算器210之后的增益确定器212。噪声校正路径206包括噪声数字到声学等级转换器(DALC)222和噪声DALC之后的多频带噪声校正器224。语音校正路径208包括语音DALC 226和语音DALC之后的多频带语音校正器228。语音可懂度计算器210包括短片段分析器230、长片段分析器232和静音/暂停检测器234。噪声校正路径206接收表征麦克风104或与麦克风104相关联的预先测量和/或导出的噪声拾取设备参数240(例如，已知的麦克风参数)。语音校正路径208接收表征扬声器124或与扬声器124相关联的预先测量和/或导出的回放设备参数242(例如，已知的扬声器参数)。

总体地，噪声校正路径206基于噪声拾取设备参数240对噪声信号应用多频带噪声校正。具体地，基于噪声拾取设备参数240，噪声DALC 222执行噪声信号的数字到声学等级转换(例如，缩放)，并且噪声校正器224对转换或缩放后的噪声信号执行多频带噪声校正，以产生校正后的噪声信号。噪声校正路径206将校正后的噪声信号提供给语音可懂度计算器210。类似地，语音校正路径208对语音信号应用多频带语音校正。具体地，基于回放设备参数242，语音DALC 226执行语音信号的数字到声学等级转换(例如，缩放)，并且语音校正器228对转换/缩放后的语音信号应用多频带校正，以产生校正后的语音信号。语音校正路径208将校正后的语音信号提供给语音可懂度计算器210。

语音可懂度计算器210对校正后的噪声信号和校正后的语音信号执行多频带语音可懂度分析，以产生多频带语音可懂度结果(MVIR)，并将其提供给增益确定器212。更具体地，短片段分析器230对校正后的噪声/语音的短/中长度帧/片段执行多频带语音可懂度分析，以产生短/中长度片段多频带语音可懂度结果(也称为“短期语音可懂度结果”或简称为“短期结果”)。短期结果包括对应于噪声/语音的短/中长度片段序列的每频带语音可懂度值、全局语音可懂度值、每频带噪声功率值和每频带语音功率值的序列。

另一方面，长片段分析器232对校正后的噪声/语音的长帧/片段(其比短/中长度分段长)执行长期噪声和语音描画(包括语音可懂度分析)，以产生长片段语音可懂度结果(也称为“长期语音可懂度结果”或简称为“长期结果”)，诸如长期每频带语音可懂度值和长期全局增益值。例如，长期噪声和语音描画可以对短期结果序列中的值执行移动平均(例如，在长度上等于长片段的时间片段上)，以产生长期结果。此外，长期噪声和语音描画可以采用短期结果的其他类型的长期处理，诸如跨多个短/中长度片段的噪声/语音功率值的峰值保持和重置，例如如下所述。

静音/暂停检测器234检测校正后的语音信号中的静音/暂停，以在静音期间中断可懂度分析，例如，以防止在静音期间激活可懂度分析，等等。

提供给增益确定器212的语音可懂度结果可以包括短期结果和长期结果的组合。增益确定器212基于前述语音可懂度结果导出短/中长度片段的全局增益和每频带增益，并将增益提供给语音增强器204。语音增强器204可以包括语音压缩器、语音扩展器、共振峰增强器等。语音增强器204部分地基于分析结果205对(未校正的)语音信号执行语音增强处理。例如，语音增强器204将增益应用于语音信号以产生可懂度增强的语音信号，该可懂度增强的语音信号通过系统音量控制122和扬声器124回放。

本文呈现的实施例包括但不限于由噪声和语音校正路径206、208执行的多频带噪声和语音校正、由短片段分析器230执行的短/中长度片段语音可懂度分析、由长片段分析器232执行的长期噪声和语音描画、以及由增益确定器212执行的全局和每频带增益分析。下面将更全面地描述各实施例。

多频带噪声和语音校正

多频带噪声和语音分析是已知的。这种分析的一种形式包括语音可懂度指数(SII)。SII分析接收要通过扬声器回放到声学环境中的多频带语音信号、以及表示由麦克风检测到的声学环境中的噪声的噪声信号。SII分析计算(i)语音信号的每个频带的语音信号与噪声信号的等级之间的差，例如，计算语音信号的每个频带的语音噪声比(SNR)，将每个频带的SNR乘以对应频带的频带-重要性函数，并对结果求和。

图3示出了语音可懂度指数的频带-重要性函数的不同曲线图。频带-重要性函数基本上根据其对于语音/语音可懂度的贡献/重要性来向语音信号的频带应用不同的权重。除了频带-重要性函数，研究还讨论了与第二共振峰和其他因素相比，人类语音的基本共振峰和第一共振峰可能不会影响话音/语音的可懂度。这些都是计算语音可懂度时要考虑的重要因素。

基于可懂度指数或每个频带的可懂度贡献因子直接操纵语音信号的频率响应可能会降低通过扬声器回放时的语音质量。例如，当改变频率平衡和/或引入时间变化的波动时，这样的操纵可能导致语音听起来不自然。此外，如果在可懂度分析之前没有补偿换能器频率响应(例如，麦克风和扬声器的频率响应)，则上述可懂度分析(例如，SII)的结果将不准确。此外，如果扬声器的限制(例如，其小尺寸或小驱动器)阻止扬声器再现语音的全频带，则扬声器可以进一步降低语音/话音质量以改变频率平衡以及导致不准确的语音可懂度结果。增加扬声器不能再现的语音频率的增益不能解决问题，并且会导致非线性失真和/或会给扬声器的驱动器带来压力。

图4示出了被表示为spk1和spk2的两个不同扬声器的扬声器频率响应。由于不同扬声器和不同麦克风的换能器特性不同，在计算多频带语音可懂度时，应考虑给定系统的扬声器补偿和麦克风补偿。

因此，除了针对每个频带的可懂度贡献因子之外，由噪声和语音校正路径206、208执行的多频带噪声和语音校正还分别基于扬声器和麦克风的特性来校正用于计算多频带语音可懂度结果的噪声和语音的频带。作为示例，噪声校正路径206基于噪声拾取设备参数240校正噪声信号(H_ns)的频带(例如，调整频带的功率等级)，以产生校正后的噪声信号(H_{An_ns})，并且语音校正路径208基于回放设备参数242校正语音信号(H_spch)的频带(例如，调整频带的功率等级)，以产生校正后的语音信号(H_{An_spch})。然后，语音可懂度计算器210对校正后的噪声信号(H_{An_ns})和校正后的语音信号(H_{An_spch})执行多频带语音可懂度分析。

噪声拾取设备参数240的示例包括麦克风的传递函数H_mic(例如，已知的麦克风传递函数)、与麦克风相关联的增益G_mic(即，噪声信号的输出增益)、噪声信号的声学到数字转换增益C_mic、以及麦克风的灵敏度。回放设备参数242的示例包括扬声器的传递函数H_spk(即，已知的扬声器传递函数)、与扬声器相关联的增益G_spk(即，语音信号的输出增益)、语音信号的声学到数字转换增益C_spk、以及扬声器的灵敏度(其可以单独提供或合并到其他参数中)。传递函数可以包括对应换能器(例如，麦克风或扬声器)的时域脉冲响应的频域表示，包括跨越传递函数的多个连续频带上的幅度和相位信息。

作为示例，语音校正路径208根据以下公式，使用回放设备参数242校正语音信号(H_spch)(例如，语音信号的频谱)以在z域中产生校正后的语音信号(H_{An_spch})：

H_{An_spch}(z)＝H_spch(z)*H_spk(z)*g_spk*c_spk 公式(1)

例如，语音DALC 226基于参数g_spk和c_spk对语音信号进行缩放，而语音校正器228基于扬声器传递函数H_spk(z)对缩放后的语音信号执行多频带校正。

类似地，噪声校正路径206根据以下公式，使用噪声拾取设备参数240来校正噪声信号(H_ns)，以在z域中产生校正后的噪声信号(H_{An_ns})：

H_{An_ns}(z)＝H_ns(z)*H_mic(z)^-1*g_mic*c_mic 公式(2)

例如，噪声DALC 222基于参数g_mic和c_mic缩放噪声信号，而噪声校正器224基于麦克风传递函数H_mic(z)对缩放后的噪声信号执行多频带校正。这产生对声学环境中的噪声的准确估计。

噪声和语音信号的上述缩放可以分别包括部分基于麦克风灵敏度和扬声器灵敏度的缩放。在一个示例中，缩放后的噪声/语音值由下式给出：

Scale_val＝10^(A/20)/10^(D/20)＝10^((A-D)/20).

其中A＝声学等级(dB)并且D＝等效数字等级(dB)

针对麦克风104和扬声器124分开执行这种缩放，以便将各自的输入信号(即，噪声或语音)与其相应的声学等级(以dB为单位)相匹配。备选地，可以执行缩放以对准麦克风和扬声器灵敏度的噪声和语音等级。由于随后对缩放后的值执行的语音可懂度计算使用来自相同声学环境的(校正后的)语音信号和(校正后的)噪声信号的比率，因此如果调整了由不同的麦克风和扬声器灵敏度引起的增量，则可懂度计算将是准确的。

在这种情况下：

Scale_val_mic＝10^(Aspk/20)/10^(Amic/20)

其中，A_spk和A_mic是基于相同等级的数字等级(dBFS)测量/计算的声学等级(DB)。

因为缩放调整了相对增量，所以缩放后的值可以仅应用于噪声信号。备选地，Scale_val_mic的逆可以仅应用于语音信号。

公式(1)和(2)的语音和噪声信号校正改进了后续多频带语音可懂度分析。除了语音和噪声校正之外，本文提供的实施例对麦克风104和扬声器124的频率响应执行多频带(频率)区域分析。多频带区域分析可以在噪声校正路径206、语音校正路径208和/或语音可懂度计算器210中执行，或者由语音和噪声分析器202的单独模块执行。多频带区域分析检查/确定麦克风的频率范围和扬声器的频率范围之间的重叠和非重叠的相互关系，并且基于它们确定的相互关系，将用于多频带语音可懂度分析的频带划分为不同的频率分析区域/范围。然后，基于(即，考虑)由多频带区域分析建立的不同频率分析区域来执行多频带语音可懂度分析。例如，多频带语音可懂度分析可以将不同类型的可懂度分析应用于不同频率分析范围内的语音分析带，如下所述。

图5示出了理想化(砖墙)麦克风频率响应502和理想化扬声器频率响应504的频率曲线图，以及基于这两个频率响应之间的相互关系通过多频带区域分析确定的各种频率分析范围(a)-(g)。麦克风频率响应502具有有用/响应麦克风频率范围或带宽(BW)/频率通带(例如，3dB BW，尽管可以使用被认为是有用的麦克风通带的其他量度)，其从麦克风频率响应的最小(“min”)/起始频率fmic1扩展到最大(“max”)/停止频率fmic2。类似地，扬声器频率响应504具有从扬声器频率响应的最小/起始频率fspk1延伸到最大/停止频率fspk2的有用/响应扬声器频率范围或BW/频率通带(例如，3dB BW，尽管可以使用被认为有用的扬声器通带的其他测量)。

在图5的示例中，最小或起始频率fspk1、fmic1的关系是fspk1>fmic1，最大或停止频率fmic2、fspk2的关系是fmic2>fspk2。因此，麦克风通带大于并完全包含扬声器通带，即扬声器通带完全在麦克风通带内。在这种情况下，扬声器通带和麦克风通带仅在扬声器通带上重叠。在另一示例中，反之亦然，即，最小频率的关系是fmic1>fspk1，而最大频率的关系是fspk2>fmic2，使得扬声器通带大于并完全包含麦克风通带，即，麦克风通带完全在扬声器通带内。在这种情况下，扬声器通带和麦克风通带仅在麦克风通带上重叠。

在图5的示例中，对于在区域中执行多频带语音可懂度，多频带区域分析可以根据以下内容来对频率分析区域(a)-(g)(简称为“区域(a)-(g)”)进行分类：

a.区域(a)和(b)可以被定义为通过语音可懂度分析保持不变的区域，或者被定义为用于净空保留(即，保留净空)的衰减区域。

b.区域(c)和(g)不应被包括在语音可懂度分析中，因为噪声捕获设备(例如，麦克风)不能提供准确的分析结果。fmic1以下和fmic2以上的频率区域/部位包括不稳定的捕获频率区域/频带，其中H_mic的逆(即，H_mic ^-1)不够稳定，不足以应用于噪声信号以进行噪声校正。

c.区域(d)和(f)应被包括在用于计算(全局)噪声等级和掩蔽阈值的语音可懂度分析中，但不用于每频带语音可懂度分析；例如，由语音可懂度分析导致的区域(d)和(f)中的任何每频带语音等级增加不能为在这些区域中没有响应的回放设备所适应。

d.对于与图5中所示相反的扬声器和麦克风频率响应的布置，即扬声器通带大于麦克风通带，区域(d)(即，在fspk1和fmic1之间)中的噪声信号等级可以使用与该区域相邻的频带(例如，fmic1之上/相邻的频带)中的噪声信号等级来近似。在这种情况下，校正后的噪声信号可以被计算为：H_{An_ns}(k)＝alpha*H_{An_ns}(k+1)，其中alpha是0到1.0范围内的近似系数，尽管最小值优选地大于0。

在图5的示例中，其中麦克风通带比扬声器通带宽并包含扬声器通带，区域(d)和(f)应该被包括在全局噪声等级和掩蔽阈值计算中，因为在公式(2)的校正被应用于噪声信号之后噪声信号的等级被认为是准确的。然而，在备选/反转示例中，其中扬声器通带比麦克风通带宽并包含麦克风通带，则区域(d)和(f)的处理应该不同，因为区域中的噪声信号的等级不准确，而语音信号的等级是准确的。在这种情况下，区域(d)和(f)可以从全局分析和每频带分析两者中排除。

考虑如上所述的频率分析范围提高了语音可懂度分析的准确性，因为从分析中去除了具有不准确噪声等级的频带。语音可懂度分析还通过处理扬声器和麦克风的频带范围/通带中的差异来提供最佳的全局语音可懂度结果和每频带语音可懂度结果。

然后，可以将语音校正和噪声校正与每个频带(即，每个语音分析带)的可懂度贡献因子相结合。例如，使用语音/噪声校正，可以根据以下公式计算每频带(语音)可懂度值V_idx(i)(对于频带i＝1到N)：

V_idx(i)＝I(i)*A(i)，i＝从max(fmic1，fspk1)到min(fmic2，fspk2)

公式(3)，其中：i＝标识给定频带的频带索引(例如，频带i＝1到频带i＝21)；

I＝重要性因子；

A＝频带可听度值；以及

函数max(fmic1,fspk1)到min(fmic2,fspk2)确定/定义扬声器和麦克风通带之间的频率重叠(例如，扬声器和麦克风通带在其上重叠的“重叠通带”)。

语音和噪声分析器202使用上述关系基于扬声器和麦克风的起始频率和停止频率来确定重叠通带。

频带可听度值A基于分别从公式(1)和(2)得到的校正后的语音信号和校正后的噪声信号语音。例如，频带可听度值A可以与给定频带中的校正后的语音信号功率与校正后的噪声信号功率的比率成正比。基于噪声拾取设备参数240和回放设备参数242来定义/校正每频带频率分析范围，如上所述。

从上面可以得出，公式(3)基于不同的频率分析区域从语音分析带1到N产生语音可懂度结果如下：

a.从频带1(即，最低频带)到max(fmic1,fspk1)＝>可懂度N/A。

b.从fspk1到fspk2＝>每频带语音可懂度值由公式(1)和(2)给出。

c.从min(fmic2,fspk2)到频带N(即，最高频带)＝>可懂度N/A。

如果max(fmic1,fspk1)是fspk1，则图5中所示的区域(a)可以被衰减以保留用于处理的净空。如果max(fmic1,fspk1)是fmic1，则可以利用fspk1以下的区域来保留净空。在语音信号达到系统(例如，扬声器)的最大(或接近最大)输出等级的某些情况下，该净空可能是关键的。在这种情况下，不能提高可懂度，因为没有用于语音可懂度分析的净空。备选地，可以引入压缩器/限制器来增加均方根(RMS)值，同时保留语音信号的峰值；然而，如果压缩量超过特定等级，则这会引入诸如不自然的声音和“泵送”的压缩伪像。因此，如果扬声器不能完全再现某一区域中的特定频率范围，则该区域中的语音信号可以被衰减以保留更多的净空。

利用语音校正及其分析区域计算，可以根据以下公式计算全局语音可懂度值(也称为全局语音噪声比(SNR)(Sg)，等效地称为全局语音噪声比)：

其中：如果fmic1≥fspk1，C1＝fmic1，或者如果fmic1<fspk1，C1＝fspk1；

如果fmic2<fspk2，C2＝fmic2，或者如果fmic2≥fspk2，C2＝fspk2；

∝是归一化系数；以及

H_spch(j)和H_noise(i)分别是第j和第i频带的校正后的语音和噪声信号。

根据上述关系，频率C1＝max(fmic1,fspk1)，频率C2＝min(fmic2,fspk2)，并且频率范围C1到C2是麦克风通带和扬声器通带之间的重叠频率范围(即，重叠通带)。公式(4)的分子仅在重叠频率范围上对校正后的语音功率进行累加/求和，而分母仅在麦克风的频率范围/通带上对校正后的噪声功率累加/求和。

短片段分析器230产生根据公式(3)计算的每频带语音可懂度值序列，以及根据公式(4)计算的全局语音噪声比(Sg)序列。长片段分析器232在等于长片段的多个短/中长度片段上处理(例如，平均)来自短片段分析器230的噪声功率和语音功率的存储值(即，值序列)，以产生长片段的每频带可懂度值和长片段的全局可懂度值。长片段分析器232可以对短期存储值执行进一步的操作，诸如峰值保持和复位，如下所述。

以上结合图5描述的实施例确定用作公式(3)和(4)的频率范围设置或限制的分析区域。在另一实施例中，可以将相应的权重系数直接应用于H_{An_spch}和H_{An_ns}，以实质上计算公式(3)和(4)而不限制范围，因为限制被包括在各自的权重系数中。在本实施例中，根据下式应用校正：

H_{An_spch}＝W_sp*H_{An_spch}.

H_{An_ns}＝W_ns*H_{An_ns}，

其中，W_sp和W_ns是应用于每个频带(0到pi)的语音和噪声的加权系数。

总而言之，实施例提供了使用噪声/语音校正来计算噪声/语音可懂度的综合方法，如下：

a.使用回放和噪声捕获设备特性，校正语音和噪声信号，并定义用于分析的语音和噪声的频带或范围。

b.交叉检查设备的语音可懂度贡献加权系数和频率范围。

c.在给定语音和噪声分析器202的语音和噪声输入的情况下，执行分析以产生具有每频带和/或全局处理增益值的处理增益参数的语音可懂度值。

注意，对于本文描述的分析，频带不限于特定频带。频带可以是倍频带(octaveband)、三分之一倍频带、临界频带等。

短/中长度片段语音可懂度分析

许多语音回放用例要求最小时延。因此，使用大约一秒或更长时间的长片段(例如，长语音/噪声段)进行语音可懂度分析(称为“长片段分析”)是不切实际的，因为长片段分析可能引入太多时延。相反，通常，用于分析和处理语音/噪声的短/中长度片段的持续时间约为2至32ms。此外，噪音可能不是静态的，而是动态的，例如，考虑有狗叫，嘈杂的汽车经过等等。因此，相对短于长片段的短/中长度片段的多频带语音可懂度分析(称为“短/中长度片段分析”)是优选的。也就是说，与长期分析相比，通常更倾向于短/中长度片段分析。

短/中长度片段分析的问题在于，当与其他处理(例如，增益处理)相结合时，短/中长度片段分析可能会产生不想要的伪影。例如，处理增益的调整过快可能会导致不自然的语音波动以及频繁的语音频率平衡改变。减轻此类伪影的常见方法是通过设置攻击和衰减时间来向增益改变添加平滑。

然而，语音可懂度结果的这种平滑引入了准确性和稳定性之间的折衷。为了在保持稳定语音声音的同时获得最佳的准确性，长期声音和噪声描画可以改善结果。与传统方法不同，本文提供的实施例将传统的短/中长度片段分析与长期语音和噪声描画相结合，如下所述。

长期语音和噪声描画

与2到32ms的短/中长度片段相比，由长期语音和噪声描画分析的长片段可以是两个词到几个句子的长度(例如，大约1到30秒)。对于长期语音和噪声描画，不必长期存储噪声/语音信号。相反，长期语音和噪声描画利用滑动窗口随时间(即，在长片段上)累积短期结果(即，短/中长度片段特性)。由长期语音和噪声描画产生的长期分析不会增加语音可懂度结果的时延，因为长期分析采用语音和噪声的过去样本。

图6、图7和图8示出了语音信号的不同时间片段及其对应的频谱。图6包括示出语音信号的短时间片段(即，“短片段”)的顶部曲线图和示出短片段的频谱的底部曲线图。短片段包括横跨大约23ms的短片段的1024个语音样本。类似地，图7包括示出语音信号的另一短片段的顶部曲线图和示出该短片段的第二频谱的底部曲线图。图6和图7的顶部曲线图中所示的短片段每个都是周期性的，如典型的语音那样。图6和图7的底部曲线图中所示的频谱不同，因为它们代表的不同音素具有不同的共振峰频率。

图8包括示出语音信号的长时间片段(即，“长片段”)的顶部曲线图和示出长片段的频谱的底部曲线图。长片段包括横跨大约4.24秒的1024个语音样本。图6和图7的短片段以及图8的长片段捕获共同的数据，包括语音的基频，但是长片段显示更长时间片段上的语音的频谱特性。因此，包括长期语音和噪声描画的语音可懂度分析可以受益于更宽的频带分析值，并捕获长片段上的语音信号的长期特性，而不是仅尝试基于可能随时间快速改变的每频带分析动态地分配窄带频率增益。此外，长期语音和噪声描画还捕获长片段上的语音的时间特性。

环境中持续噪声的示例包括风扇噪声或嗡嗡声加上偶尔的瞬时/动态噪声，诸如狗叫和汽车经过。在这种情况下，长期语音和噪声描画可以识别出静态/持续噪声的特性，而短/中长度片段分析可以识别出动态噪声。长期语音和噪声描画可以捕获峰值噪声，然后可以通过将长期结果与短期结果进行比较来重置该峰值噪声，以识别持续背景噪声已改变或已去除。例如，长期语音和噪声描画可以包括长片段的语音/噪声的峰值保持，但是随后使用短期结果来确定是否重置峰值，例如，当语音回放改变到另一扬声器或合成语音时。另一示例是采用几个词长度的片段进行分析，使得滑动窗口可以慢慢捕获从一个说话者到另一个说话者的过渡。

全局和每频带增益分析

增益确定器212基于短片段分析器230产生的结果来计算多频带增益值，包括要应用于(未校正的)语音信号的每频带增益(调整)和全局增益(调整)。增益确定器212将增益提供给语音增强器204，语音增强器204将增益应用于语音信号。增益计算可以是灵活的，取决于为提高可懂度而应用的处理。如果存在计算资源限制，则可以对分析带进行分组以有效地减少要处理的分析带的数量，或者可以从处理中省略一些分析带。如果处理已经包含某些智能，例如共振峰位置增强或频谱峰值增强，则基于上述分析方法，该处理可以使用该智能来提供关于处理选择性地增加/降低其增益的频率位置的可懂度信息和适当的全局增益参数。

在示例中，可以根据以下或类似的关系来计算增益

全局增益(g_Global)＝Wg*St_g/Sc

每频带增益(g_perband(i))＝Wpb*St_pb/Sc(i)

其中：g_Global和g_perband应用于语音输出信号；

Wg和Wpb是全局和每频带权重系数；

St_g和St_pb是短期/中长度片段的每频带和全局可懂度值(例如，语音噪声比(SNR)值)；以及

Sc是当前SNR。

权重Wg和Wpb可以基于可懂度值的阈值来确定，使得权重随当前语音可懂度值而变化(例如，当可懂度值相对较高时，对g_Global应用更多的权重(Wg)，并对g_perband应用更少的权重(Wpb)，反之亦然)。

图9是根据实施例的语音增强器204的一部分的高级块/信号流程图。在该示例中，语音增强器204包括多频带压缩器904，其将每频带增益值g_pb(i)和全局增益g_Global应用于语音信号，以产生可懂度增强的语音信号。

图10是例如执行由VIP 120执行的语音可懂度处理的示例方法1000的流程图。方法1000的操作基于上述操作。

在1002，麦克风检测声学环境中的噪声，以产生噪声信号。

在1004，VIP 120的输入端接收用于通过扬声器回放到声学环境中的语音信号。

在1006，VIP 120执行噪声信号的数字到声学等级(DAL)转换，并基于麦克风的已知或导出的麦克风传递函数执行噪声信号的多频带校正，以产生校正后的噪声信号。多频带校正调整噪声信号的频谱以补偿麦克风传递函数。

在1008，VIP 120执行语音信号的DAL转换，并基于扬声器的已知或导出的扬声器传递函数执行语音信号的多频带校正，以产生校正后的语音信号。多频带校正调整语音信号的频谱以补偿扬声器传递函数。

在1010，VIP 120基于麦克风传递函数和扬声器传递函数之间的关系来确定用于多频带语音可懂度计算的频率分析区域。例如，VIP 120基于通带的起始和停止频率，确定麦克风传递函数的麦克风通带和扬声器传递函数的扬声器通带相重叠的重叠通带。例如，给定通带的起始和停止频率可以对应于与给定通带相对应的传递函数的相反的3dB下降点(或其他适合的“X”dB下降点)。

在1012，VIP 120在多个语音分析带上，基于噪声信号(例如，对校正后的噪声信号)和基于语音信号(例如，对校正后的语音信号)执行多频带语音可懂度分析，以计算多频带语音可懂度结果。例如，分析可以限于重叠通带中的语音分析带。结果包括每频带语音可懂度值和全局声音/语音噪声比。多频带语音可懂度分析包括短/中长度片段/帧的分析/基于其的分析，以产生短期结果，以及较长片段的分析/基于其的分析，以产生长期结果。

在1014，VIP 120基于每频带语音可懂度值和全局声音/语音噪声比，来计算每频带增益和全局增益。

在1016，VIP基于增益来增强语音信号的可懂度，并通过扬声器播放增强的语音信号。

在各种实施例中，可以省略方法1000的一些操作，和/或可以重新排序/置换方法1000的操作。例如，可以省略转换/校正操作1006和1008，使得操作1012在多个语音分析带上基于噪声信号(未校正)和语音信号(未校正)执行多频带语音可懂度分析，以计算多频带语音可懂度结果。在另一示例中，操作1006和1008可以被修改为省略它们各自的多频带校正，从而仅留下它们各自的DAL转换。

在实施例中，一种方法包括：用麦克风检测环境中的噪声以产生噪声信号；接收要通过扬声器播放到环境中的语音信号；基于麦克风的麦克风传递函数和扬声器的扬声器传递函数之间的关系，确定用于多频带语音可懂度计算的频率分析区域；以及基于噪声信号和语音信号，在频率分析区域上计算多频带语音可懂度结果。该方法还包括：基于麦克风传递函数执行噪声信号的多频带校正，以产生校正后的噪声信号；以及基于扬声器传递函数执行语音信号的多频带校正，以产生校正后的语音信号，其中计算包括基于校正后的噪声信号和校正后的语音信号，在频率分析区域上计算多频带语音可懂度结果。

在另一实施例中，一种装置包括：麦克风，用于检测环境中的噪声，以产生噪声信号；扬声器，用于将语音信号播放到环境中；以及控制器，耦合到麦克风和扬声器，并且被配置为执行：基于麦克风的麦克风传递函数对噪声信号进行的多频带校正，以产生校正后的噪声信号；基于扬声器的扬声器传递函数对语音信号进行的多频带校正，以产生校正后的语音信号；基于校正后的噪声信号和校正后的语音信号计算多频带语音可懂度结果；基于多频带语音可懂度结果计算多频带增益值；以及基于多频带增益值增强语音信号。

在又一实施例中，提供了一种非瞬态计算机可读介质。该非瞬态计算机可读介质编码有指令，该指令当由处理器执行时使处理器执行：从麦克风接收表示环境中的噪声的噪声信号；接收要通过扬声器播放到环境中的语音信号；对噪声信号进行的数字到声学等级转换，并基于麦克风传递函数对噪声信号进行的多频带校正，以产生校正后的噪声信号；对语音信号进行的数字到声学等级转换，并基于扬声器传递函数对语音信号进行的多频带校正，以产生校正后的语音信号；以及基于校正后的噪声信号和校正后的语音信号，计算多频带语音可懂度结果，包括每频带语音可懂度值和全局语音噪声比。

尽管本文如在一个或多个具体示例中实施的那样说明和描述了这些技术，但是它并不旨在限于所示的细节，因为可以在权利要求的等同领域和范围内进行各种修改和结构改变。

下面提出的每个权利要求代表单独的实施例，并且组合不同权利要求和/或不同实施例的实施例在本公开的范围内，并且对于审阅本公开之后的本领域普通技术人员来说将是显而易见的。

Claims

1.一种方法，包括：

用麦克风检测环境中的噪声以产生噪声信号；

接收要通过扬声器播放到所述环境中的语音信号；

基于所述麦克风的麦克风传递函数和所述扬声器的扬声器传递函数之间的关系，确定用于多频带语音可懂度计算的频率分析区域；和

基于所述噪声信号和所述语音信号，在所述频率分析区域上计算多频带语音可懂度结果。

2.如权利要求1所述的方法，还包括：

使用所述多频带语音可懂度结果增强所述语音信号的可懂度。

3.如权利要求1所述的方法，其中：

所述确定包括将所述麦克风传递函数的麦克风通带和所述扬声器传递函数的扬声器通带相重叠的重叠通带确定为所述频率分析区域；并且

所述计算包括在限于所述重叠通带的语音分析带上计算每频带语音可懂度值。

4.如权利要求3所述的方法，其中，所述计算还包括计算(i)在限于所述重叠通带的语音分析带上基于所述语音信号的语音功率与(ii)在所述麦克风通带上基于所述噪声信号的噪声功率的全局语音噪声比。

5.如权利要求3所述的方法，还包括：

确定所述扬声器通带的起始频率是否大于所述麦克风通带的起始频率；以及

当所述扬声器通带的起始频率更大时，在低于所述麦克风通带的起始频率的频带内衰减所述语音信号。

6.如权利要求3所述的方法，其中，所述确定包括：

识别分别定义所述麦克风通带和所述扬声器通带的起始频率和停止频率；以及

将所述重叠通带计算为从最大起始频率延伸到最小停止频率的通带。

7.如权利要求1所述的方法，其中：

所述计算多频带语音可懂度结果包括计算每频带语音可懂度值和全局语音噪声比。

8.如权利要求1所述的方法，其中，所述计算多频带语音可懂度结果包括：

基于所述语音信号和所述噪声信号的短/中长度片段执行多频带语音可懂度分析，以产生短期语音可懂度结果；以及

基于所述语音信号和所述噪声信号的比所述短/中长度片段长的长片段执行多频带语音可懂度分析，以产生长期语音可懂度结果。

9.如权利要求1所述的方法，还包括：

基于所述麦克风传递函数执行所述噪声信号的多频带校正，以产生校正后的噪声信号；以及

基于所述扬声器传递函数执行所述语音信号的多频带校正，以产生校正后的语音信号，

其中所述计算包括基于所述校正后的噪声信号和所述校正后的语音信号，在所述频率分析区域上计算所述多频带语音可懂度结果。

10.如权利要求9所述的方法，还包括：

在执行所述噪声信号的多频带校正之前，基于所述麦克风的灵敏度执行所述噪声信号的数字到声学等级转换；以及

在执行所述语音信号的多频带校正之前，基于所述扬声器的灵敏度执行所述语音信号的数字到声学等级转换。

11.一种装置，包括：

麦克风，用于检测环境中的噪声以产生噪声信号；

扬声器，用于将语音信号播放到所述环境中；以及

控制器，耦合到所述麦克风和所述扬声器，并且被配置为执行：

基于所述麦克风的麦克风传递函数对所述噪声信号的多频带校正，以产生校正后的噪声信号；

基于所述扬声器的扬声器传递函数对所述语音信号的多频带校正，以产生校正后的语音信号；

基于所述校正后的噪声信号和所述校正后的语音信号计算多频带语音可懂度结果；

基于所述多频带语音可懂度结果计算多频带增益值；以及

基于所述多频带增益值增强所述语音信号。

12.如权利要求11所述的装置，其中，所述控制器还被配置为执行：

13.如权利要求11所述的装置，其中，所述控制器还被配置为执行：

确定所述麦克风传递函数的麦克风通带和所述扬声器传递函数的扬声器通带相重叠的重叠通带，

其中所述控制器被配置为通过在限于所述重叠通带的语音分析带上计算每频带语音可懂度值来执行所述计算。

14.如权利要求13所述的装置，其中，所述控制器还被配置为通过以下方式执行所述计算：计算(i)在限于所述重叠通带的语音分析带上基于所述语音信号的语音功率与(ii)在所述麦克风通带上基于所述噪声信号的噪声功率的全局语音噪声比。

15.如权利要求13所述的装置，其中，所述控制器还被配置为执行：

16.如权利要求11所述的装置，其中：

所述控制器被配置为通过计算每频带语音可懂度值和全局语音噪声比来执行所述计算多频带语音可懂度结果。

17.如权利要求11所述的装置，其中，所述计算多频带语音可懂度结果包括：

对所述校正后的语音信号和所述校正后的噪声信号的短/中长度片段执行多频带语音可懂度分析，以产生短期语音可懂度结果；以及

对所述校正后的语音信号和所述校正后的噪声信号的比所述短/中长度片段长的长片段执行多频带语音可懂度分析，以产生长期语音可懂度结果。

18.如权利要求11所述的装置，还包括：

在所述噪声信号的多频带校正之前，基于所述麦克风的灵敏度执行所述噪声信号的数字到声学等级转换；以及

在所述语音信号的多频带校正之前，执行所述语音信号的数字到声学等级转换。

19.一种编码有指令的非瞬态计算机可读介质，所述指令在由处理器执行时使所述处理器执行：

从麦克风接收表示环境中噪声的噪声信号；

接收要通过扬声器播放到所述环境中的语音信号；

所述噪声信号的数字到声学等级转换，以及基于麦克风传递函数对所述噪声信号的多频带校正，以产生校正后的噪声信号；

所述语音信号的数字到声学等级转换，以及基于扬声器传递函数对所述语音信号的多频带校正，以产生校正后的语音信号；以及

基于所述校正后的噪声信号和所述校正后的语音信号，计算多频带语音可懂度结果，所述多频带语音可懂度结果包括每频带语音可懂度值和全局语音噪声比。

20.如权利要求19所述的非瞬态计算机可读介质，其中，使所述处理器执行所述计算的指令包括使所述处理器在语音分析带上执行所述校正后的噪声信号和所述校正后的语音信号的语音可懂度指数(SII)分析的指令。

21.如权利要求19所述的非瞬态计算机可读介质，还包括使所述处理器执行以下操作的指令：

其中使所述处理器执行所述计算的指令包括使所述处理器在限于所述重叠通带的语音分析带上执行计算所述每频带语音可懂度值的指令。