CN110268471B

CN110268471B - 具有嵌入式降噪的asr的方法和设备

Info

Publication number: CN110268471B
Application number: CN201780084886.4A
Authority: CN
Inventors: 滕建忠; 任晓林; 曾新贵; 高益
Original assignee: Serenes Operations
Current assignee: Serenes Operations
Priority date: 2017-01-26
Filing date: 2017-01-26
Publication date: 2023-05-02
Anticipated expiration: 2037-01-26
Also published as: WO2018140020A1; US11308946B2; CN110268471A; US20190348032A1; EP3574499B1; EP3574499A4; EP3574499A1

Abstract

用于利用嵌入式噪声处理对麦克风信号中的语音执行特征提取以减少处理量的方法和设备。在实施例中，特征提取和噪声估计使用相同傅里叶变换的输出，使得语音的噪声滤波被嵌入有语音的特征提取。

Description

具有嵌入式降噪的ASR的方法和设备

技术领域

本发明涉及具有嵌入式降噪的ASR的方法和设备。

背景技术

如本领域所公知的，计算机语音识别(又称，自动语音识别或ASR)是通过计算机自动将说出的单词转换成文本的处理。ASR的说明性应用包括语音转录、语音翻译、设备的声音控制等。语音识别系统通过将声音与单词的声学特征进行匹配来操作。使用大量训练数据对这些声学特征，也称为声学模型，进行训练。通常，从大量不同的说话者收集该训练数据来制作ASR系统，该ASR系统可以识别来自广泛的说话者(又称，独立于ASR系统的说话者)的音频。众所周知，这种通用声学模型虽然对广泛的用户表现良好，但与仅针对给定用户进行训练的声学模型相比，对该用户可能表现不佳。为了将声学模型与特定用户进行匹配，在实践中，ASR系统可以使用来自目标说话者的少量音频数据来调整其通用声学模型，以创建比通用声学模型明显更好的说话者特定声学模型。该处理称为声学模型调整或说话者调整。

可以在有监督或无监督的情况下执行声学模型调整。在这两种情况下，ASR系统都使用来自目标用户的音频文件和相应的转录。在有监督的调整中，转录的正确性由人工明确或隐含地验证。在无监督的模型调整中，系统使用在没有明确的人工验证的情况下自动生成的转录。在无监督的调整中，转录可能是不正确的，并且对不正确的转录的调整可能潜在地降低性能。最小化不正确的调整是无监督的调整的一个挑战。

语音识别技术的一个应用是允许声音命令“唤醒”“睡眠”的设备。一些设备，如智能手机和电视，设计为在一段时间内未被主动使用时进入睡眠模式以节省功率。一旦这些设备进入睡眠模式，它们必须首先被“唤醒”以执行任务，如在智能手机的情况下拨打电话，或者在电视的情况下显示具体频道。传统上，通过按一下按钮来唤醒设备。在基于声音的唤醒中，可以使用声音命令唤醒设备。使用声音唤醒设备的优点是用户不需要物理定位和触摸设备。例如，对于电视，用户可以只是说“唤醒电视”并且电视醒来，然后用户可以说“显示CNN”而用户不必明确地打开电视。在这种情况下，“唤醒电视”是唤醒短语。

在基于语音的唤醒任务中，设备虽然正在睡眠，但却不断地在环境音频中听取预先指定的短语或一组唤醒短语。当设备检测到唤醒短语时，它会醒来并准备执行任务。

基于声音的唤醒系统的挑战之一是唤醒音频与背景的比可以非常小。例如，在典型情况下，系统可以在发出单次唤醒之前收听几个小时。针对需要被检测的单个唤醒音频事例，必须拒绝几个小时的背景音频。应当理解，唤醒系统应该消耗尽可能少的功率，以便在等待唤醒短语时最大化电池电荷水平。

发明内容

本发明的实施例提供用于通过特征提取自动进行语音识别的方法和设备，其具有用于降低功耗的嵌入式噪声处理。在实施例中，一种设备包括唤醒系统，以检测唤醒短语，将设备从低功率睡眠状态转换到活动状态。例如，期望在睡眠状态期间最小化功耗以维持电池功率。

在本发明的一个方面，一种方法包括：接收麦克风信号；确定所述麦克风信号是否包含高于噪声阈值的噪声；当超过所述噪声阈值时，确定所述麦克风信号是否包含语音；当发现不存在语音时，确定所述麦克风信号的噪声估计；当发现存在语音时，使用所述噪声估计对所述麦克风信号进行噪声滤波；以及当发现存在语音时，对所述麦克风信号进行特征提取，其中所述特征提取和所述噪声估计使用相同傅里叶变换的输出，使得所述语音的噪声滤波被嵌入所述语音的特征提取。

在本发明的另一方面，一种系统包括：处理器和存储器，被配置为：确定麦克风信号是否包含高于噪声阈值的噪声；当超过所述噪声阈值时，确定所述麦克风信号是否包含语音；当发现不存在语音时，确定所述麦克风信号的噪声估计；当发现存在语音时，使用所述噪声估计对所述麦克风信号进行噪声滤波；以及当发现存在语音时，对所述麦克风信号进行特征提取，其中所述特征提取和所述噪声估计使用相同傅里叶变换的输出，使得所述语音的噪声滤波被嵌入所述语音的特征提取。

在本发明的另一方面，一种物品包括：非暂时性计算机可读介质，其具有存储的指令，所述指令使机器能够：确定麦克风信号是否包含高于噪声阈值的噪声；当超过所述噪声阈值时，确定所述麦克风信号是否包含语音；当发现不存在语音时，确定所述麦克风信号的噪声估计；当发现存在语音时，使用所述噪声估计对所述麦克风信号进行噪声滤波；以及当发现存在语音时，对所述麦克风信号进行特征提取，其中所述特征提取和所述噪声估计使用相同傅里叶变换的输出，使得所述语音的噪声滤波被嵌入所述语音的特征提取。

附图说明

从以下对附图的描述中可以更全面地理解本发明的前述特征以及本发明本身，其中：

图1是具有无监督唤醒的系统的示意图；

图1A示出通用声学模型状态和用户特定声学模型状态；

图2是示出用于利用嵌入式噪声处理执行特征提取的示例性步骤序列的流程图；

图3是示出使用Mel倒谱系数通过嵌入式噪声处理进行特征提取的示例性实施方式的图；

图4示出具有嵌入有特征提取的噪声处理的系统唤醒的说明性实施方式的示意图；和

图5是可以执行本文描述的处理的至少一部分的说明性计算机的示意图。

具体实施方式

图1示出系统100的说明性高级架构，其包括具有通过嵌入式噪声处理以降低功耗的自动语音识别(ASR)和特征提取的设备唤醒系统102。在一个实施例中，设备上的相对小的低功率唤醒系统包含自动语音识别(ASR)系统104，ASR系统104为了唤醒短语持续地收听环境音频。在检测到唤醒短语时，唤醒电路唤醒主系统106。例如，如果唤醒短语是“HelloDragon”，则设备的用户10可以说“Hello Dragon，call home”，其通过麦克风108被提供给唤醒系统102。设备100在接收到唤醒短语(Hello Dragon)时唤醒，然后执行来自用户的声音命令(“call home”)。

ASR模块104使用声学模块110和语言模块112提供基于声音的唤醒功能，以本领域公知的方式识别语音。通常，当设备接收到唤醒短语时，相应的字符串被转换为音素序列。针对每个音素，处理模块102识别相邻音素以创建被转换为状态序列的三音子。每个三音子都有一系列声学状态的模型。通常，给定的三音子模型具有两个或几个状态：开始和结束，或者开始、中间和结束。结果是一组声学模型状态被用于声学模型查找以进行评分。三音子被映射到声学模型或声学模型状态，从而创建序列。

图1A示出通用声学模型状态150和用户特定声学模型状态152。给定的用户仅使用通用模型150的一小部分。在通用模型中，模型参数被用于模拟更宽的参数空间，使得有时用户的声音不能被正确地模拟。在调整后的模型152中，使用与通用模型相同数量的参数来仅模拟用户的声音空间，从而为该用户产生更好且更鲁棒的模型。

在有监督的调整中，即登记中，要求用户将唤醒短语说出几次，例如三次。ASR系统处理话语并估计用户特定模型152。在无监督的调整中，系统不要求用户特别提供这些话语，而是根据用户对唤醒系统的正常使用自动识别唤醒话语并调整模型。

在本发明的实施例中，设备唤醒系统102包括嵌入有语音特征提取处理的降噪处理，以便减少处理开销。应当理解，设备唤醒性能可能因噪声而降低。例如，在具有多个乘客的汽车中行进的具有蜂窝电话的人可能遭受风噪声、道路噪声、一个或多个对话或其他噪声源形式的噪声。在设备唤醒的情况下，噪声可以指不是用户对包括设备唤醒短语的设备直接讲出的声音。一些实施例非常适合于减小稳态噪声以及非稳态噪声的影响。

图2示出用于低功率唤醒的示例性处理。在步骤200中，确定在设备附近是否存在噪声。例如，可以分析来自设备的麦克风的输出信号以确定噪声水平是否低于给定的阈值。如果是，则可以在步骤202中执行自动语音识别(ASR)特征提取。在步骤204中，ASR使用特征提取输出来执行剩余语音识别处理。在步骤202和204中，由于噪声低于步骤200的阈值，因此不执行降噪处理。

如果在步骤200中确定噪声水平高于噪声阈值，则在步骤206中，确定是否存在语音。例如，声音活动检测(VAD)模块可以确定麦克风信号中是否存在语音。如果不存在语音，则在步骤208中，获得噪声估计。在实施例中，噪声估计是作为ASR特征提取(FE)处理的一部分获得的。在步骤210中，执行噪声滤波。如果在步骤206中确定存在语音，则处理进行到噪声滤波210而不获得新的噪声估计。在实施例中，使用噪声估计直到不存在语音时在步骤208中更新噪声估计。

图3示出使用来自图2的信息执行具有嵌入式噪声处理的自动语音识别特征提取的示例性处理。在步骤300中，语音输入信号由预加重模块处理，随后是语音成帧302。在实施例中，例如通过汉明窗口处理，将成帧的语音加窗304。例如，利用快速傅里叶变换(FFT)306处理加窗的语音信号，以将信号转换到频域。处理FFT 306输出，以确定用于输入到梅尔滤波器组310和离散余弦变换312的信号幅度308。

应当理解，特征提取(FE)是自动语音识别的基本部分，其能够显著影响性能。特征提取努力生成紧凑的特征向量序列，其提供给定输入信号的表示。特征提取通常在许多阶段中执行。语音分析或声学前端执行信号的谱-时(spectro-temporal)分析，并生成描述短语音间隔的功率谱包络的原始特征。另一个阶段编译由静态和动态特征组成的扩展特征向量。再一个阶段将扩展特征向量变换为更紧凑和鲁棒的向量，然后将其提供给语音识别器模块。

在实施例中，可使用倒谱分析声道形状分离出激发(excitation)。梅尔倒谱分析使用具有梅尔标度的非线性频率轴的倒谱。为了获得梅尔倒谱，首先用分析窗口对语音波形进行加窗，然后计算其DFT。然后通过一系列梅尔滤波器频率响应对幅度输出进行加权，其中心频率和带宽大致匹配听觉临界频带滤波器的中心频率和带宽。

梅尔频率倒谱系数(MFCC)提供紧凑的表示，其是以梅尔频率标度表示的短期能谱的实对数的余弦变换的结果。梅尔频率倒谱系数(MFCC)的性能可能受到滤波器数量、滤波器形状、滤波器间隔方式以及功率谱翘曲方式的影响。传统的MFCC计算排除了第0个系数，该系数可以被视为广义频带能量(FBE)，其导致FBE-MFCC。

MFCC共同构成MFC，其中系数来自音频的倒谱表示。在MFC中，频带在梅尔标度上等间隔，以比在正常倒谱中使用的线性间隔频带更接近人类听觉系统的响应。该频率翘曲可以允许更好地表示声音，例如，在音频压缩中。典型地通过取得信号的加窗摘录(windowedexcerpt)的傅里叶变换，将来自FFT的谱功率映射到梅尔标度，例如通过使用三角形重叠窗口，取得每个梅尔频率的功率的对数(logs)，并且如同信号一样取得梅尔对数功率的离散余弦变换，来导出MFCC，其中所得MFCC对应于所得谱的幅度。

再次参考图3，FFT 306的输出被提供给噪声估计模块314，如图2的说明性实施例中所述，当检测到噪声但不存在语音时，噪声估计模块314产生麦克风信号的噪声估计。在实施例中，受到噪声和语音的影响，大约每六帧产生一次噪声估计。应当理解，可以每个持续时间和/或驱动的事件以任何适当的数量产生噪声估计，以满足特定应用的需要。

FFT 306的输出还被提供给滤波器模块316，滤波器模块316为麦克风信号提供降噪。在实施例中，滤波器模块316使用来自噪声估计模块314的噪声估计来执行降噪处理。通常，可以使用任何合适的噪声处理技术来满足特定应用的需要。在希望最小化用于降噪的处理周期的数量的某些实施例中，一些噪声处理技术可能优于其他技术。例如，在加性高斯白噪声的情况下，可以使用线性技术，如维纳滤波。在实施例中，基于维纳的滤波器被用于降噪，以适应减少的处理源。

在示例性实施例中，计算噪声估计：

pnoiseStats＝1./Squares(FFT(silence_frame))

其中Squares(x)＝x.^2，例如，Squares([1,2,3])＝[1,4,9])

如上所述，针对存在噪声但不存在语音的帧确定噪声估计，其通过执行快速傅里叶变换(FFT)如上表示为“silence_frame”。

下面阐述示例性过滤器处理。应当注意，FFT输出被滤波以降低噪声并且作为幅度输出提供给梅尔滤波器组模块310(图3)。也就是说，幅度被计算为绕过幅度模块308的滤波处理的一部分。如上所述，针对例如通过图2的步骤206的VAD确定的包含语音的帧执行滤波。根据语音帧的FFT，计算初始幅度：

magy＝Squares(FFT(speech_frame))

在示例性实施例中，根据初始幅度和噪声估计，确定滤波器系数α和β。第一/α滤波器系数可以被计算为：

α＝magy.*pnoiseStats-1，

其中magy指的是上述语音帧的初始幅度，并且pnoiseStats指的是上述噪声估计。

使用计算出的第一滤波器系数α和初始幅度(下面等式右侧的magy)，通过下式生成新的幅度值(下面等式左侧的magy)：

magy＝((α)/(α+1)).^2.*magy

在示例性实施例中，根据噪声估计和使用α滤波器系数生成的幅度值，将第二滤波器系数β计算为：

β＝magy.*pnoiseStats

然后根据β滤波器系数和使用上述α系数生成的幅度，计算新的幅度值：

magy＝β/(β+1).*magy

使用α和β滤波器系数计算出的该幅度值被提供给图3的梅尔滤波器组模块310。

在基于维纳滤波器的实施例中，α和β是中间迭代变量，并且magy是滤波器的输出，使得α和β用于生成输出。

如上所述，在没有降噪处理的情况下，FFT 306输出被提供给幅度模块308，如图3中所示，并且通过噪声滤波，滤波器模块316向梅尔滤波器组模块310提供滤波后的即噪声减小的幅度信息。

在实施例中，不对相同帧执行噪声估计和滤波，以便减少处理给定帧所需的CPU周期的数量。另外，例如使用MFCC将降噪处理嵌入到特征提取中，进一步减少了处理所需的每帧CPU周期。在传统处理中，除了用于特征提取的FFT之外，还可以生成仅用于降噪处理的FFT。相反，在本发明的实施例中，用于特征提取的FFT也用于降噪处理。应当理解，通过将降噪嵌入到特征提取处理中，还消除了仅用于降噪的逆变换。本领域普通技术人员将理解执行傅里叶变换和逆傅里叶变换所需的处理器周期量以及相关处理和资源，如存储器。在实施例中，重复使用可以减少处理周期，例如，可以重复使用来自图3的步骤308的幅度信息的信息。在实施例中，当在步骤314中执行滤波处理时跳过步骤308，因为它可以使用维纳滤波器信息，这也减少了CPU周期。

虽然结合使用MFCC唤醒设备示出并描述了本发明的说明性实施例，但应理解，本发明的实施例适用于通常希望减少处理器周期数量的ASR。

应当理解，本发明的实施例可以在各种各样的设备和配置中实现。例如，电池供电的移动电话典型地包括两个处理器，如主/基本处理器和辅助/数字信号处理器(DSP)。主处理器在电话的有效使用期间进行大量处理，如电话呼叫、实用应用程序、电子邮件、游戏等。在一个实施例中，DSP用于以低功率提供计算。例如，在电话处于待机模式或未被主动使用时，DSP处于活动状态并收听来电。

在一个实施例中，无监督的唤醒功能在设备上的两个分开的语音识别系统上运行。相对较大的第一语音系统在设备的主处理器上运行，而相对较小的第二语音系统在DSP上运行。第一语音系统可以包括用于特定移动应用的整套语音识别模型，如用于识别访问联系人、电子邮件、歌曲、执行任务和运行应用程序的命令。该整套模型使用户能够选择自定义短语或单词作为语音唤醒短语。

第一语音系统接收唤醒短语并使用该短语将语音模型和代码转换为用于在DSP上使用的相对小的系统。也就是说，主处理器预先计算较小的语音系统，其可以包括识别状态和声学模型信息的网络。识别状态的网络可以由解码器使用，该解码器搜索通过一系列状态的最佳路径。声学模型信息可包括来自语音记录的测量。将相对小的声学模型信息子集用于DSP唤醒特征的实施例可以很好地起作用。这两个部分一起组合成与主处理器声音识别系统相比较小的系统。

然后，DSP上的识别器用作唤醒短语检测器。例如，识别器基本上确定是否接收到唤醒候选。一旦DSP识别器确定已经说出唤醒短语，主处理器识别器就变为活动的。在美国专利公开No.2013/0289994中示出并描述了示例性多处理器唤醒实施方式，其通过引用合并于此。

图4示出根据本发明的说明性实施例的具有ASR和嵌入式噪声滤波的唤醒功能的多处理器实施方式。用户400操作具有包括唤醒特征的声音命令功能的电子设备402。用户400可以输入特定的唤醒短语。在用户400输入唤醒短语之后，主处理器404创建语音识别系统或状态以供数字信号处理器406使用。主处理器404可以访问声学模型408和语音识别状态410，同时生成用于唤醒功能的数据。主处理器404可以从独立于说话者的声学模型408收集声学模型数据，以用作辅助声学模型412。然后DSP 406可以接收该数据并将其存储为动态语音识别状态414。在语音识别期间，DSP 406可以访问语音识别状态414和辅助声学模型412。DSP 406上的识别特征可以在主处理器404不活动、待机等时运行。在DSP 406检测到候选唤醒短语之后，DSP向主处理器404发信号以变为活动状态。在实施例中，DSP 406可以包括具有嵌入式降噪的特征提取，如上所述。

图5示出可以执行本文描述的处理的至少一部分的示例性计算机500。计算机500包括处理器502、易失性存储器504、非易失性存储器506(例如，硬盘)、输出设备507和图形用户界面(GUI)508(例如，鼠标、键盘、显示器)。非易失性存储器506存储计算机指令512、操作系统516和数据518。在一个示例中，计算机指令512由处理器502从易失性存储器504中执行。在一个实施例中，物品520包括非暂时性的计算机可读指令。

处理可以在硬件、软件或两者的组合中实现。处理可以在可编程计算机/机器上执行的计算机程序中实现，每个可编程计算机/机器包括处理器、存储介质或处理器可读的其他制品(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备和一个或多个输出设备。程序代码可以应用于使用输入设备输入的数据，以执行处理和生成输出信息。

系统可以至少部分地通过(例如，在机器可读存储设备中的)计算机程序产品执行处理，以由数据处理设备(例如，可编程处理器、一个或多个计算机)执行或控制数据处理设备的操作。每个这样的程序可以用高级过程或面向对象的编程语言实现，以与计算机系统通信。但是，程序可以用汇编语言或机器语言实现。语言可以是编译语言或解释语言，并且可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元。可以将计算机程序部署为在一个计算机上或在一个站点的多个计算机上执行，或者分布在多个站点上并通过通信网络互连。计算机程序可以存储在存储介质或设备(例如，CD-ROM、硬盘或磁盘)上，该存储介质或设备可由通用或专用可编程计算机读取，用于在该存储介质或设备被计算机读取时配置和操作计算机。处理还可以作为配置有计算机程序的机器可读存储介质来实现，其中在执行时，计算机程序中的指令使计算机操作。

可以由执行一个或多个计算机程序的一个或多个可编程处理器执行处理，以执行系统的功能。系统的全部或部分可以作为专用逻辑电路(例如，FPGA(现场可编程门阵列)和/或ASIC(专用集成电路))来实现。

已经描述了本发明的示例性实施例，对于本领域普通技术人员来说，显而易见的是，也可以使用结合其概念的其他实施例。本文包含的实施例不应限于所公开的实施例，而应仅受所附权利要求的精神和范围限制。本文引用的所有出版物和参考文献都通过引用整体明确地并入本文。

Claims

1.一种用于具有嵌入式降噪的自动语音识别的方法，包括：

接收麦克风信号；

确定所述麦克风信号是否包含高于噪声阈值的噪声；

当超过所述噪声阈值时，

确定所述麦克风信号是否包含语音；

当发现不存在语音时，确定所述麦克风信号的噪声估计；

当发现存在语音时，使用所述噪声估计对所述麦克风信号进行噪声滤波；以及

当发现存在语音时，对所述麦克风信号进行特征提取，其中所述特征提取和所述噪声估计使用相同傅里叶变换的输出，使得所述语音的所述噪声滤波被嵌入所述语音的所述特征提取。

2.根据权利要求1所述的方法，其中不对所述麦克风信号的同一帧执行所述噪声估计和所述噪声滤波。

3.根据权利要求1所述的方法，还包括在所述噪声滤波之后确定所述麦克风信号是否包含唤醒短语。

4.根据权利要求1所述的方法，其中在包含所述麦克风的设备处于睡眠状态时执行所述特征提取。

5.根据权利要求1所述的方法，其中所述特征提取包括使用梅尔频率倒频谱系数MFCC。

6.根据权利要求1所述的方法，还包括使用主处理器和低功率处理器为设备提供唤醒短语的处理。

7.根据权利要求6所述的方法，其中所述低功率处理器执行所述特征提取和噪声处理以识别所述唤醒短语。

8.根据权利要求6所述的方法，其中，所述低功率处理器针对由所述主处理器执行的自动语音识别操作执行去噪和特征提取。

9.一种用于具有嵌入式降噪的自动语音识别的系统，包括：

处理器和存储器，被配置为：

确定麦克风信号是否包含高于噪声阈值的噪声；

当超过所述噪声阈值时，

确定所述麦克风信号是否包含语音；

当发现不存在语音时，确定所述麦克风信号的噪声估计；

10.根据权利要求9所述的系统，其中不对所述麦克风信号的同一帧执行所述噪声估计和所述噪声滤波。

11.根据权利要求9所述的系统，还包括在所述噪声滤波之后确定所述麦克风信号是否包含唤醒短语。

12.根据权利要求9所述的系统，其中在包含所述麦克风的设备处于睡眠状态时执行所述特征提取。

13.根据权利要求9所述的系统，其中所述特征提取包括使用梅尔频率倒频谱系数MFCC。

14.根据权利要求9所述的系统，还包括使用主处理器和低功率处理器为设备提供唤醒短语的处理。

15.根据权利要求14所述的系统，其中所述低功率处理器执行所述特征提取和噪声处理以识别所述唤醒短语。

16.一种用于具有嵌入式降噪的自动语音识别的物品，包括：

非暂时性计算机可读介质，其具有存储的指令，所述指令使机器能够：

确定麦克风信号是否包含高于噪声阈值的噪声；

当超过所述噪声阈值时，

确定所述麦克风信号是否包含语音；

当发现不存在语音时，确定所述麦克风信号的噪声估计；

17.根据权利要求16所述的物品，其中不对所述麦克风信号的同一帧执行所述噪声估计和所述噪声滤波。

18.根据权利要求16所述的物品，还包括用于在所述噪声滤波之后确定所述麦克风信号是否包含唤醒短语的指令。

19.根据权利要求16所述的物品，其中在包含所述麦克风的设备处于睡眠状态时执行所述特征提取。

20.根据权利要求16所述的物品，其中所述特征提取包括使用梅尔频率倒频谱系数MFCC。

21.根据权利要求16所述的物品，还包括使用主处理器和低功率处理器为设备提供唤醒短语的处理。