CN105900171A

CN105900171A - 依赖于情境的瞬态抑制

Info

Publication number: CN105900171A
Application number: CN201580003757.9A
Authority: CN
Inventors: 简·斯科格隆; 亚历杭德罗·吕布斯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-03-31
Filing date: 2015-03-31
Publication date: 2016-08-24
Anticipated expiration: 2035-03-31
Also published as: JP2017513046A; BR112016020066A2; CN105900171B; JP6636937B2; US20150279386A1; US9721580B2; AU2015240992C1; AU2015240992A1; EP3127114A2; KR20160102300A; WO2015153553A2; WO2015153553A3; KR101839448B1; AU2015240992B2; BR112016020066B1; EP3127114B1

Abstract

所提供的是用于提供对于音频信号的依赖于情境的瞬态噪声抑制的方法和系统。取决于每个参与者是否在讲话(音频的浊音段或清音段/非语音段是否存在)，将不同策略(例如，侵略性的层级)的瞬态抑制和信号恢复应用在与视频/音频会议中的参与者相关联的音频信号上。如果参与者未在讲话或者存在清音声音/非语音声音，用于瞬态抑制和信号恢复的较高侵略性策略可以被利用。在另一方面，检测到浊音音频(例如，参与者正在讲话)的情况下，方法和系统应用较轻柔、较低侵略性的抑制和恢复过程。

Description

依赖于情境的瞬态抑制

背景技术

在典型的音频或视频通话(尤其是在涉及许多参与者的音频或视频通话)中，由未讲话的参与者生成的噪声能够影响正在讲话的参与者的话音，由此导致注意力分散或者甚至打断对话。一种示例场景是，会议通话的每个参与者都使用他或她自己的计算机来连接到通话并且还使用该计算机来并行地进行任务(例如，键入关于通话的笔记)。虽然计算机(例如，膝上型计算机)中内嵌的麦克风、扬声器、和网络摄像机已经使会议通话的建立变得很容易，但是这些特征也引入了特定的噪声滋扰，诸如反馈、风扇噪声和敲键噪声。通常由按键输入所导致的机械脉冲引起的敲键噪声能够包括令人不快的敲键声，除了主对话外通话的所有参与者都能够听到该敲键声。例如，在膝上型计算机的场境中，由于膝上型计算机外壳内的麦克风与键盘之间的机械连接，敲键噪声能够是极大的滋扰。

诸如敲键声的瞬态噪声对全体用户体验的影响取决于其发生时的情境。例如，与静默时段期间或仅存在背景噪声的情况期间相比，在活跃的浊音话音段中，与来自正在讲话的参与者的语音混合的敲键声被更好地遮盖而较少被其他参与者察觉。在后面这些情境下，敲键声可能更容易被参与者注意并且被感知为较大的烦扰或干扰。

发明内容

本发明内容以简化的形式介绍了概念的选择，从而提供对本公开的一些方面的基本理解。本发明内容不是本公开的广泛概述，也并非旨在标识本公开的关键的或重要的元素，也并非旨在记述本公开的范围。本发明内容仅呈现本公开的概念中的一些以作为下文所提供的具体实施方式的前序。

本公开大体涉及用于信号处理的方法和系统。更具体地，本公开的方面涉及考虑到所检测到的瞬态和已分类的段，在不同类型的音频段(例如，浊音话音段、清音段等)上执行不同类型或量的噪声抑制。

本公开的一个实施例涉及用于抑制音频信号中的瞬态噪声的计算机实现的方法，所述方法包括估计包含瞬态噪声的所述音频信号的段语音概率，所估计的语音概率是所述段包含语音数据的概率；响应于确定所述段的所估计的语音概率大于阈值概率，在所述段上执行第一类型的抑制；以及响应于确定所述段的所估计的语音概率小于所述阈值概率，在所述段上执行第二类型的抑制，其中所述第二类型的抑制将包含在所述段中的所述瞬态噪声抑制到与所述第一类型的抑制不同的程度。

在另一实施例中，用于抑制瞬态噪声的方法进一步包括将所述段的所估计的语音概率与阈值概率进行比较；以及基于所述比较来确定所估计的语音概率大于所述阈值概率。

在又另一实施例中，用于抑制瞬态噪声的方法进一步包括将所述段的所估计的语音概率与阈值概率进行比较；以及基于所述比较来确定所估计的语音概率小于所述阈值概率。

在又另一实施例中，用于抑制瞬态噪声的方法进一步包括接收所述音频信号的所述段的所估计的瞬态概率，所估计的瞬态概率是瞬态噪声存在于所述段中的概率；以及基于所接收的所估计的瞬态概率，确定所述音频信号的所述段包含瞬态噪声。

本公开的另一实施例涉及用于抑制音频信号中的瞬态噪声的系统，所述系统包括至少一个处理器以及被耦合至所述至少一个处理器的计算机可读介质，所述计算机可读介质具有存储于其上的指令，当由所述至少一个处理器执行所述指令时，致使所述至少一个处理器：估计包含瞬态噪声的所述音频信号的段的语音概率，所估计的语音概率是所述段包含语音数据的概率；响应于确定所述段的所估计的语音概率大于阈值概率，在所述段上执行第一类型的抑制；以及响应于确定所述段的所估计的语音概率小于所述阈值概率，在所述段上执行第二类型的抑制；其中所述第二类型的抑制将包含在所述段中的所述瞬态噪声抑制到与所述第一类型的抑制不同的程度。

在另一实施例中，进一步致使用于抑制瞬态噪声的所述系统中的所述至少一个处理器识别声带振动的所述段的区域；以及确定声带振动的所述段的所述区域是包含浊音话音的区域。

在又另一实施例中，进一步致使用于抑制瞬态噪声的所述系统中的所述至少一个处理器将所述段的所估计的语音概率与阈值概率进行比较；以及基于所述比较来确定所估计的语音概率大于所述阈值概率。

在又另一实施例中，进一步致使用于抑制瞬态噪声的所述系统中的所述至少一个处理器将所述段的所估计的语音概率与阈值概率进行比较；以及基于所述比较来确定所估计的语音概率小于所述阈值概率。

在另一实施例中，进一步致使用于抑制瞬态噪声的所述系统中的所述至少一个处理器接收所述音频信号的所述段的所估计的瞬态概率，所估计的瞬态概率是瞬态噪声存在于所述段中的概率；以及基于所接收的所估计的瞬态概率，确定所述音频信号的所述段包含瞬态噪声。

本公开的另一实施例涉及用于抑制音频信号中的瞬态噪声的计算机实现的方法，所述方法包括：估计包含瞬态噪声的所述音频信号的段的语音概率，所估计的语音概率是所述段包含语音数据的概率；响应于确定所述段的所估计的语音概率与第一语音状态相对应，在所述段上执行第一类型的抑制；以及响应于确定所述段的所估计的语音概率与第二语音状态相对应，在所述段上执行第二类型的抑制，其中所述第二类型的抑制将包含在所述段中的所述瞬态噪声抑制到与所述第一类型的抑制不同的程度。

在又另一实施例中，用于抑制瞬态噪声的所述方法进一步包括，响应于确定所述段的所估计的语音概率与第三语音状态相对应，在所述段上执行第三类型的抑制，其中所述第三类型的抑制将包含在所述段中的所述瞬态噪声抑制到与所述第一类型和所述第二类型的抑制不同的程度。

在一个或多个其他实施例中，本文所述的方法和系统可以选择性地包括以下附加特征中的一个或多个：所估计的语音概率基于从基音估计器所接收的浊音度信息；估计所述音频信号的所述段的所述语音概率包括识别包含浊音话音的所述段的区域；识别包含浊音话音的所述段的区域包括识别声带振动的所述段的区域；所述音频信号的所述段的所估计的语音概率基于被接收用于所述音频信号的所述段的语音活动数据；所述第二类型的抑制将包含在所述段中的所述瞬态噪声抑制到比所述第一类型的抑制更大的程度；和/或所述第二类型的抑制将包含在所述段中的所述瞬态噪声抑制到比所述第一类型的抑制更小的程度。

根据以下给出的具体实施方式，本公开进一步的适用范围将变得显而易见。然而，应当理解，尽管指示了优选实施例，但具体实施方式和具体示例仅以图示说明的方式给出，这是因为根据此具体实施方式，本公开的精神和范围内的各种变化和修改对于本领域技术人员将变得显而易见。

附图说明

根据结合所附权利要求和附图对以下具体实施方式的学习，本公开的这些以及其他目的、特征和特性对于本领域技术人员将变得显而易见，其全部内容形成本说明书的一部分。在附图中：

图1为图示根据本文所述的一个或多个实施例的依赖于情境的噪声抑制的示例应用的示意图。

图2为图示根据本文所述的一个或多个实施例的用于依赖于情境的瞬态噪声抑制的示例系统的框图。

图3为图示根据本文所述的一个或多个实施例的用于音频信号的瞬态噪声抑制和恢复的示例方法的流程图。

图4为图示根据本文所述的一个或多个实施例的用于基于确定音频信号包含清音/非话音音频数据的音频信号的恢复的示例方法的流程图。

图5为图示根据本文所述的一个或多个实施例的用于基于确定音频信号包含语音数据的音频信号的恢复的示例方法的流程图。

图6为图示根据本文所述的一个或多个实施例的为了依赖于情境的瞬态噪声抑制所布置的示例计算设备的框图。

本文提供的标题仅仅为了方便起见，并且未必影响本公开中所要求保护的范围或内涵。

在附图中，为了便于理解和方便，相同附图标记和任何缩略语识别具有相同或相似结构或功能的元素或动作。在以下具体实施方式的过程中将详细描述附图。

具体实施方式

现在将描述各种示例和实施例。以下描述提供了用于全面理解以及使能对这些示例进行描述的具体细节。然而相关领域技术人员将理解，本文所述的一个或多个实施例可以在没有这些细节中的许多的情况下被实践。同样，相关领域技术人员还将理解，本公开的一个或多个实施例能够包括本文未详细描述的许多其他明显特征。此外，以下可以不对一些公知的结构或功能详细示出或描述，从而防止不必要地模糊相关描述。

在现有的噪声抑制方法论的场境中，在抑制和话音失真之间通常要作出设计权衡。例如，在至少一些现有途径中，较高的抑制通常要以使经过对噪声加以抑制的话音信号失真为代价。

本公开的实施例涉及用于提供对于音频信号的依赖于情境的瞬态噪声抑制的方法和系统。鉴于与用于瞬态噪声的噪声抑制的现有途径相关的以上所述缺陷，本公开的方法和系统被设计为在信号中检测到较少话音或未检测到话音的情境中，执行增大(例如，较高水平或较高侵略性策略)的瞬态噪声抑制和信号恢复；而在信号的浊音话音段期间，执行降低(例如，较低水平或较低侵略性策略)的瞬态噪声抑制和信号恢复。如以下将更详细描述的，考虑到所检测到的瞬态和已分类的段，本公开的方法和系统在不同类型的音频段(例如，浊音话音段、清音段等)期间利用不同类型(例如，量)的噪声抑制。

根据本文所述的一个或多个实施例，取决于用户是否在讲话(例如，与用户相关联的信号是否包含音频的浊音段或清音段/非话音段)，不同种类(例如，类型、量等)的抑制可以被应用在与用户相关联的音频信号。例如，根据至少一个实施例，如果参与者未在讲话或者与该参与者相关联的信号包含清音/非话音音频段，用于瞬态抑制和信号恢复的较高侵略性的策略可以被用于该参与者的信号。在另一方面，在参与者的信号中检测到浊音音频(例如，该参与者正在讲话)的情况下，本文所述的方法和系统可以应用较轻柔、较低侵略性的抑制和恢复。

对包含浊音音频的信号应用较轻柔的抑制和恢复使信号的任何失真最小化，因此保持了从该信号所生成的合成的话音的可懂度。通过根据对于每个信号所确定的“语音状态”来应用不同的抑制和恢复方案，无需在抑制所有所检测到的瞬态(并由此使包含在信号中的话音失真)与完全不执行任何抑制(并因此防止失真，但允许信号包含瞬态)之间进行选择。根据本文所述的一个或多个实施例，例如，可以基于对于段所生成的语音概率估计来对于音频段确定语音状态，其中所述语音概率估计是该段包含语音数据(例如，话音)的概率。

本文所述的一个或多个实施例涉及噪声抑制组件，该噪声抑制组件被配置为抑制从音频流所检测到的包括敲键声在内的瞬态噪声。例如，根据至少一个实施例，噪声抑制在频域中被执行并且依赖于假设已给出的瞬态噪声的存在概率。应当理解，本领域技术人员已知的各种瞬态噪声检测器中的任何一种都可以被用于这个目的。

图1图示出了根据本公开的一个或多个实施例的依赖于情境的瞬态噪声抑制的示例应用。例如，多个用户(例如，参与者、个人等)120a、120b、120c、一直到120n(其中n为任意数字)可以参与音频/视频通信会话(例如，音频/视频会议)。例如，用户120可以通过有线或无线连接或网络105来相互通信，并且用户120中的每一个可以使用合适的用户设备130(例如，膝上型计算机、桌面计算机、平板计算机、智能手机等)中的任意一种来参与通信会话。

根据至少一个实施例，被用于参与通信会话的计算设备130中的一个或多个可以包括作为可能的瞬态噪声源的组件或附件。例如，计算设备130中的一个或多个可以具有键盘或打字板，如果在通信会话期间所述键盘或打字板被参与者120使用，则可以生成可被其他参与者察觉(例如，被察觉为听得见的敲键声或声音)的瞬态噪声。

图2图示出了根据本文所述的一个或多个实施例的用于基于信号的所确定的语音状态在传入的音频信号上执行依赖于情境的瞬态抑制的示例系统。根据至少一个实施例，系统200可以在用于视频/音频会议的通信路径的发送侧端点处(例如，在与图1中示出的用户120中的一个或多个用户相关联的端点处)操作，并且可以包括瞬态检测器220、语音活动检测(VAD)单元230、噪声抑制器240、以及发射单元270。此外，系统200可以执行与以下将更详细描述的图3至图5所图示的算法类似的一种或多种算法。

输入到检测系统200内的音频信号210可以被传递到瞬态检测器220、VAD单元230以及噪声抑制器240。根据至少一个实施例，瞬态检测器可以被配置为主要或专门使用与信号2相关联的传入的音频数据来检测音频信号210中瞬态噪声的存在。例如，瞬态检测器可以利用音频信号210的某些时频表示(例如，离散小波变换(DWT)、小波包变换(WPT)等)作为预测性模型的基础(例如，通过利用瞬态噪声脉冲与话音信号之间的频谱特性和时间特性的比较)来识别信号中的离群瞬态噪声事件。因此，瞬态检测器可以确定存在于信号210中的瞬态噪声的所估计的概率，并且将该瞬态概率估计(225)发送至噪声抑制器240。

VAD单元230可以被配置为分析输入信号210并且使用本领域技术人员已知的各种技术中的任意来检测语音数据是否存在于信号210中。基于其对信号210的分析，VAD单元230可以将语音概率估计(235)发送至噪声抑制器240。

瞬态概率估计(225)和语音概率估计(235)可以被噪声抑制器240用来确定将多种类型的抑制/恢复中的哪一种应用到信号210。如本文将更详细描述的，取决于信号是否包含语音音频(例如，话音数据)，噪声抑制器240可以在音频信号210上执行“硬”或“软”恢复。

应当注意到，根据本公开的一个或多个其他实施例，除了以上所述的发送方侧端点以外或代替该发送侧端点，系统200可以在视频/音频会议中的参与者之间的通信路径中的其他点处操作。例如，系统200可以在用于在通信路径的接收者端点处播放的所接收的信号上执行依赖于情境的瞬态抑制。

图3图示出了根据本文所述的一个或多个实施例的用于音频信号的瞬态噪声抑制和恢复的示例过程。根据至少一个实施例，示例过程300可以由上文详细描述并在图2中图示出的用于依赖于情境的瞬态抑制的示例系统200中的组件中的一个或多个来执行。

如图所示，取决于音频段被确定为浊音段还是清音/非话音段，过程300应用不同的抑制策略(例如，块315和块320)。例如，在块305处对音频信号段应用快速傅里叶变换(FFT)以将该段变换至频域后，在块310处可以做出与该段相关联的语音概率是否大于阈值概率的确定。例如，阈值概率可以是预定的固定概率。根据至少一个实施例，与音频段相关联的语音概率基于在示例过程300之外和/或之前所生成的语音信息。例如，例如，在块310处所利用的语音概率可以基于从语音活动检测单元(例如，图2所示的示例系统200中的VAD单元230)接收的语音信息。在另一示例中，例如，与段相关联的语音概率可以基于与从基音估计算法或基音估计器接收的话音内的浊音度相关的信息。例如，与从基音估计器接收的话音内的浊音度相关的信息可以被用来识别声带振动的音频段的区域。

如果在块310处确定与音频段相关联的语音概率大于阈值概率，则在块320处通过“软”恢复(例如，与块315处的“硬”恢复相比，较低侵略性的抑制)来处理该段。在另一方面，如果在块310处确定与音频段相关联的语音概率等于或小于阈值概率，则在块315处通过“硬”恢复(例如，与块320处的“软”恢复相比，较高侵略性的抑制)来处理该段。

基于(在块310处)与段相关联的语音概率和阈值概率的比较(分别在块315和块320处)执行软恢复或硬恢复，允许清音/非话音音频块的较高侵略性抑制以及包含浊音声音的音频块的较保守的抑制处理。根据本公开的至少一个实施例，在块315处所执行的(用于硬恢复的)操作可以与在图4中示出并在下文更具体描述的示例过程400中的块405处所执行的操作相对应。类似地，在块320处所执行的(用于软恢复的)操作可以与在图5中图示出并也在下文更具体描述的示例过程500中的块510处所执行的操作相对应。

在块315处和在块320处的抑制/恢复过程其中一项之后，在块325处可以对于音频段更新频谱均值。在块330处，信号可以经过快速傅里叶逆变换(IFFT)来被变换回时域。

图4图示出了用于基于确定音频信号包含清音/非话音音频数据的音频信号的硬恢复的示例过程。例如，可以基于具有(例如，与信号包含语音数据的不同概率相对应的多个可能的语音状态的)第一语音状态的音频信号来执行硬恢复过程400，其中所述第一语音状态与和该信号为低(指示该信号包含清音/非语音数据的概率高)相关联的语音概率估计相对应，第二语音状态与比与第一语音状态相对应的概率估计更高的语音概率估计相对应，以此类推。根据本文所述的一个或多个实施例，可以由上文详细描述并在图2中图示出的用于依赖于情境的瞬态抑制的示例系统200中的组件中的一个或多个(例如，噪声抑制器240)来执行示例过程400。应当理解，根据至少一个实施例，除了以上所介绍的示例对应外或代替该示例对应，语音状态可以以一种或多种其他方式来与语音概率估计相对应。

此外，根据本公开的至少一个实施例，在示例过程400中的(包括块410和块415的)块405处所执行的操作可以与上文所述且在图3中图示出的示例过程300中的块315处所执行的操作相对应。

应当注意到，在执行过程400时，可能有必要保持对频谱均值的跟踪以抑制所检测到的瞬态并且恢复原始音频信号。还应当注意到，根据至少一个实施例，包括块405的操作可以对于每个频率区间以迭代的方式来执行。例如，在块410处，可以将给定频率区间的幅值与(所跟踪的)频谱均值进行比较。

如果在块410处确定幅值大于频谱均值，则对信号进行抑制并且在块415处计算出新幅值。在另一方面，如果在块410处确定幅值不大于频谱均值(例如，等于或小于频谱均值)，则不执行抑制并且可以对于下一频率重复块405的操作。

如果由于块410处所做的确定而执行了抑制，则在块415处可以计算出新幅值。根据至少一个实施例，取决于检测概率(例如，图2所示的示例系统200中，在噪声抑制器240处接收的来自瞬态检测器220的瞬态概率估计(225))，块415处所计算的新幅值可以是先前的幅值与频谱均值的线性组合。例如，可以按照如下计算新幅值：

新幅值＝(1–检测)*幅值+检测*频谱均值

其中，“检测”与存在瞬态的所估计的概率相对应而“幅值”与先前幅值相对应(例如，在块410处进行比较的幅值)。鉴于以上计算，如果(例如，基于所估计的概率)确定存在瞬态，则新幅值为频谱均值。然而，如果瞬态概率估计指示该块中不存在瞬态，则不进行抑制。

图5图示出了用于基于确定音频信号包含语音数据的音频信号的软恢复的示例过程。例如，可以基于具有第二语音状态的音频信号来执行软恢复过程500，其中如上文关于图4所示的示例过程400所描述的，第二语音状态与比和第一语音状态相对应的语音概率估计更高的语音概率估计相对应。根据本文所述的一个或多个实施例，可以由上文详细描述并在图2中图示出的用于依赖于情境的瞬态抑制的示例系统200中的组件(例如，噪声抑制器240)中的一个或多个来执行示例过程500。

此外，根据本公开的至少一个实施例，在示例过程500中的(包括块515、块520、以及块525的)块510处所执行的操作可以与上文所述且在图3中图示出的示例过程300中的块320处所执行的操作相对应。

正如用于以上所述的硬恢复的示例过程(例如，过程400)，应当注意到在执行过程500时，用于音频块的频谱均值可以在块505处被算出。还应当注意到，根据至少一个实施例，包括块510的操作可以对于每个频率区间以迭代的方式来执行。

在块515处，对于给定的频率区间，(在块505处确定的)块均值的因子可以被计算出来。根据至少一个实施例，块均值的因子可以是固定的频谱加权，弱化典型的话音频谱频率。例如，在块515处确定的块均值的因子可以是当前块频谱的平均数值。在块515处计算的因子可以具有(例如，在1到5之间的)连续值，该因子对于话音频率(例如300Hz到3500Hz)而言是较低的。

在块520处，可以将频率的幅值与所计算的频谱均值相比较并且也可以与在块515处计算出的块均值的因子相比较。例如，在块520处，可以确定该幅值是否大于频谱均值且小于块均值的因子。在块520处确定这样的条件是否被满足使得有可能在保持语音泛音的同时抑制泛音之间的瞬态噪声。

如果在块520处确定该幅值大于频谱均值且小于块均值的因子，则执行抑制并且在块525处继续操作，在块525处可以计算出新的幅值。在另一方面，如果在块520处确定该幅值不大于频谱均值(例如，等于或小于频谱均值)、该幅值不小于块均值的因子(例如，等于或大于块均值的因子)，或者以上二者，则不执行抑制并且可以对于下一频率重复块510的操作。

如果由于在块520处作出的确定而执行抑制，则可以在块525处计算出新幅值。根据至少一个实施例，可以以与在示例过程400的块415处所执行的新幅值计算(上文所述并且在图4中图示出)类似的方式来在块525处计算出的新幅值。例如，取决于检测概率(例如，在图2中所示的示例系统200中，在噪声抑制器240处接收的来自瞬态检测器220的瞬态概率估计(225))在块525处计算的新幅值可以是先前幅值和频谱均值的线性组合。例如，在块525处新幅值可以被计算如下：

新幅值＝(1-检测)*幅值+检测*频谱均值

其中“检测”与存在瞬态的所估计的概率相对应而“幅值”与先前幅值相对应(例如，在块520处进行比较的幅值)。鉴于以上计算，如果(例如，基于所估计的概率)确定存在瞬态，则新幅值为频谱均值。然而，如果瞬态概率估计指示该块中不存在瞬态，则不进行抑制。

图6是根据本文所述的一个或多个实施例的用于依赖于情境的瞬态噪声抑制所布置的示例性计算机(600)的高层级框图。在非常基本的配置(601)中，计算设备(600)通常包括一个或多个处理器(610)和系统存储器(620)。存储器总线(630)能够被用于处理器(610)与系统存储器(620)之间的通信。

取决于所期望的配置，处理器(610)可以是任何类型，包括但不限于：微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或者其任何组合。处理器(610)可以包括一个诸如层级一缓存(611)和层级二缓存(612)的多层级缓存、处理器核(613)和寄存器(614)。该处理器核(613)能够包括算法逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核(DSP核)或者其任何组合。存储器控制器(616)还可以与处理器(610)—起使用，或者在一些实施方式中，存储器控制器(615)可以是处理器(610)的内部部分。

取决于所期望的配置，系统存储器(620)可以是任何类型，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪速存储器等)或者其任何组合。系统存储器(620)通常包括操作系统(621)、一个或多个应用(622)以及程序数据(624)。应用(622)可以包括用于基于确定信号是否包含语音数据来将不同种类(例如，类型、量、层级等)的抑制/恢复应用到音频信号的依赖于情境的瞬态抑制算法(623)。根据至少一个实施例，取决于用户是否在讲话(例如，与该用户相关联的信号是否包含音频的浊音段或清音/非话音段)，依赖于情境的瞬态抑制算法(623)可以操作以在与用户相关联的音频信号上执行更多/更少侵略性的抑制/恢复。例如，根据至少一个实施例，如果参与者未在讲话或者与该参与者相关联的信号包含清音/非话音音频段，则对于该参与者的信号，依赖于情境的瞬态抑制算法(623)可以应用用于瞬态抑制和信号恢复的更具侵略性的策略。另一方面，在参与者的信号中检测到浊音音频(例如，该参与者正在讲话)的情况下，依赖于情境的瞬态抑制算法(623)可以应用较轻柔、较少侵略性的抑制和恢复。

程序数据(624)可以包括储存指令，所述指令当由一个或多个处理设备执行该储存指令时，实现用于根据本文所述的一个或多个实施例的用于音频信号的依赖于情境的瞬态噪声抑制和恢复的方法。此外，根据至少一个实施例，程序数据(624)可以包括音频信号数据(625)，其可以包括与音频信号包含语音数据的概率有关的数据、或与瞬态噪声存在于该信号中的概率有关的信号、或者以上两者。在一些实施例中，应用(622)能够被布置为在操作系统(621)上与程序数据(624)共同操作。

计算设备(600)能够具有附加特征或功能，以及促进基本配置(601)与任何所需设备和接口之间的通信的附加接口。

系统存储器(620)是计算机存储介质的示例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪速存储器或其它存储技术、CD-ROM、数字化视频光盘(DVD)或其它光学存储设备、磁带盒、磁带、磁盘存储或其它磁性存储设备、或者能够用于储存所期望的信息并且能够由计算设备600访问的任何其它介质。任何这样的计算机存储介质能够是计算设备(600)的一部分。

计算设备(600)能够被实现为小型便携式(或移动)电子设备的一部分，诸如，蜂窝电话、智能电话、个人数据助理(PDA)、个人媒体播放器设备、平板式计算机(平板)、无线web收看设备、个人耳机设备、专用设备、或者包括任何上述功能的混合设备。计算设备(600)还能够被实现为包括膝上型计算机和非膝上型计算机配置这二者的个人计算机。

经由对框图、流程图、和/或示例的使用，前述的详细描述已阐述了设备和/或处理的各种实施例。在包含一个或多个功能和/或操作的这样的框图、流程图、和/或示例的范围内，本领域技术人员将理解，能够由广泛的硬件、软件、固件或实际上其任何组合单独地和/或共同地实现这样的框图、流程图、或示例内的每个功能和/或操作。在一个实施例中，可以经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、或者其它集成的形式来实现本文所描述的主题的若干部分。然而，本领域技术人员将认识到，本文所公开的实施例的一些方面能够整体或部分地作为在一个或多个计算机上运行的一个或更多个计算机程序、作为在一个或更多个处理器上运行的一个或更多个程序、作为固件、或者作为实际上其任何组合，来等效地实现在集成电路中，并且根据该公开，对于软件和/或固件来设计电路和/或编写代码完全在本领域技术人员的技能范围之内。

此外，本领域技术人员将理解的是，本文所述的主题的机制能够以各种形式被分布作为程序产品，并且，本文所述的主题的说明性实施例的应用与用于实际执行分布的非瞬时性信号承载介质的特定类型无关。非瞬时性信号承载介质的示例包括但不限于以下：诸如软盘、硬盘驱动器、光盘(CD)、数字视频盘(DVD)、数字磁带、计算机存储器等的可记录型介质；以及诸如数字和/或模拟通信介质(例如，光缆、波导、有线通信链路、无线通信链路等)的传输型介质。

对于本文使用的相对多的任何复数和/或单数术语，只要其适合于上下文和/或应用，则本领域的技术人员能够将复数转化为单数和/或将单数转化为复数。为清楚起见，本文明确阐述了各种单数/复数排列组合。

因此，已经描述了本主题的特定实施例。其他实施例落入以下权利要求的范围内。在一些情况下，权利要求中所引用的动作能够按不同的顺序执行且依然能够获得所期望的结果。此外，附图中所描绘的过程未必要求所示的特定顺序或依次顺序，以获得所期望的结果。在某些实施方式中，多任务和并行处理可以是有利的。

Claims

1.一种用于抑制音频信号中的瞬态噪声的计算机实现的方法，所述方法包括：

估计包含瞬态噪声的所述音频信号的段的语音概率，所估计的语音概率是所述段包含语音数据的概率；

响应于确定所述段的所估计的语音概率大于阈值概率，对所述段执行第一类型的抑制；以及

响应于确定所述段的所估计的语音概率小于所述阈值概率，对所述段执行第二类型的抑制，

其中所述第二类型的抑制将在所述段中包含的所述瞬态噪声抑制到与所述第一类型的抑制不同的程度。

2.根据权利要求1所述的方法，其中所估计的语音概率基于从基音估计器所接收的浊音度信息。

3.根据权利要求1所述的方法，其中估计所述音频信号的所述段的所述语音概率包括：识别包含浊音话音的所述段的区域。

4.根据权利要求3所述的方法，其中识别包含浊音话音的所述段的区域包括：识别声带振动的所述段的区域。

5.根据权利要求1所述的方法，进一步包括：

将所述段的所估计的语音概率与阈值概率进行比较；以及

基于所述比较来确定所估计的语音概率大于所述阈值概率。

6.根据权利要求1所述的方法，进一步包括：

将所述段的所估计的语音概率与阈值概率进行比较；以及

基于所述比较来确定所估计的语音概率小于所述阈值概率。

7.根据权利要求1所述的方法，进一步包括：

接收所述音频信号的所述段的所估计的瞬态概率，所估计的瞬态概率是瞬态噪声存在于所述段中的概率；以及

基于所接收的所估计的瞬态概率，确定所述音频信号的所述段包含瞬态噪声。

8.根据权利要求1所述的方法，其中所述音频信号的所述段的所估计的语音概率是基于针对所述音频信号的所述段所接收的语音活动数据。

9.根据权利要求1所述的方法，其中所述第二类型的抑制将在所述段中包含的所述瞬态噪声抑制到比所述第一类型的抑制更大的程度。

10.一种用于抑制音频信号中的瞬态噪声的系统，所述系统包括：

至少一个处理器；以及

被耦合至所述至少一个处理器的计算机可读介质，所述计算机可读介质具有存储于其上的指令，当由所述至少一个处理器执行所述指令时，致使所述至少一个处理器：

11.根据权利要求10所述的系统，其中所估计的语音概率基于从基音估计器所接收的浊音度信息。

12.根据权利要求10所述的系统，其中进一步致使所述至少一个处理器：

识别声带振动的所述段的区域；以及

确定声带振动的所述段的所述区域是包含浊音话音的区域。

13.根据权利要求10所述的系统，其中进一步致使所述至少一个处理器：

将所述段的所估计的语音概率与阈值概率进行比较；以及

基于所述比较来确定所估计的语音概率大于所述阈值概率。

14.根据权利要求10所述的系统，其中进一步致使所述至少一个处理器：

将所述段的所估计的语音概率与阈值概率进行比较；以及

基于所述比较来确定所估计的语音概率小于所述阈值概率。

15.根据权利要求10所述的系统，其中进一步致使所述至少一个处理器：

16.根据权利要求10所述的系统，其中所述音频信号的所述段的所估计的语音概率是基于针对所述音频信号的所述段所接收的语音活动数据。

17.根据权利要求10所述的系统，其中所述第二类型的抑制将在所述段中包含的所述瞬态噪声抑制到比所述第一类型的抑制更大的程度。

18.一种用于抑制音频信号中的瞬态噪声的计算机实现的方法，所述方法包括：

响应于确定所述段的所估计的语音概率与第一语音状态相对应，对所述段执行第一类型的抑制；以及

响应于确定所述段的所估计的语音概率与第二语音状态相对应，对所述段执行第二类型的抑制，

19.根据权利要求18所述的方法，其中所述第二类型的抑制将在所述段中包含的所述瞬态噪声抑制到比所述第一类型的抑制更小的程度。

20.根据权利要求18所述的方法，进一步包括：

响应于确定所述段的所估计的语音概率与第三语音状态相对应，对所述段执行第三类型的抑制，

其中所述第三类型的抑制将在所述段中包含的所述瞬态噪声抑制到与所述第一类型和所述第二类型的抑制不同的程度。