CN106157967A - 脉冲噪声抑制 - Google Patents

脉冲噪声抑制 Download PDF

Info

Publication number
CN106157967A
CN106157967A CN201510208739.6A CN201510208739A CN106157967A CN 106157967 A CN106157967 A CN 106157967A CN 201510208739 A CN201510208739 A CN 201510208739A CN 106157967 A CN106157967 A CN 106157967A
Authority
CN
China
Prior art keywords
noise
present frame
power
audio signal
impulsive noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510208739.6A
Other languages
English (en)
Inventor
D·古纳万
施栋
G·迪金斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority to CN201510208739.6A priority Critical patent/CN106157967A/zh
Priority to PCT/US2016/029569 priority patent/WO2016176329A1/en
Priority to US15/569,555 priority patent/US10319391B2/en
Priority to EP16721587.0A priority patent/EP3289586B1/en
Publication of CN106157967A publication Critical patent/CN106157967A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/03Reduction of intrinsic noise in microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本文中公开的示例实施例涉及脉冲噪声抑制。公开了一种音频信号中的脉冲噪声抑制的方法。该方法包括从音频信号的当前帧中确定与脉冲噪声相关的特征。该方法还包括基于脉冲噪声相关的特征,在当前帧中检测脉冲噪声,以及响应于在当前帧中检测到脉冲噪声,向当前帧应用抑制增益,以抑制脉冲噪声。还公开了相应的音频信号中的脉冲噪声抑制的系统和计算机程序产品。

Description

脉冲噪声抑制
技术领域
本文中公开的实施例总体上涉及音频信号处理,并且更具体地,涉及用于音频信号中的脉冲噪声抑制的方法和系统。
背景技术
通信系统,诸如在电话会议系统、电话系统或音频记录系统中采用的这些,通常操作在嘈杂环境中。在这些情景中,噪声信号可能连同所期望的音频数据一起被系统采集。典型的噪声信号可以被分类为平稳噪声和非平稳噪声。平稳噪声包括持续较长时间段并且展现出相对稳定特性的噪声。另一方面,非平稳噪声包括具有随着时间快速变化的特性的噪声。平稳噪声的一个示例是采集设备所处的房间中的背景噪声。非平稳噪声的一个示例是通过按压采集设备上的机械按钮(例如,静音按钮)而产生的点击声,该点击声被表示为在所采集的信号中出现的短期突发。
通常需要处理处理所采集的信号以抑制平稳噪声和非平稳噪声,以便在回放时提高感知质量。因为平稳的背景噪声具有稳定的特性并且能够被更容易地预测,已经存在研究出并且已经应用了许多噪声抑制算法来有效地从所采集的信号中移除平稳的背景噪声。然而,由于非平稳噪声(例如,脉冲噪声)具有快速变化的特性,它们相对难以被抑制或者甚至难以从所采集的信号中被可靠地检测。
当前,一种脉冲噪声抑制的现有方案涉及借助语音活动检测来将所采集的信号的帧简单地划分为语音帧或非语音帧,并且然后仅向非语音帧应用抑制增益。这是基于非语音帧具有更少的可能性包含有价值的音频数据,这在语音帧包含脉冲噪声的情况中是不合实际的。因此,这个方案具有较高的噪声抑制错误率和对语音质量的较高影响。音频信号分析的延迟可能允许做出更好的决策,使用未来的帧来帮助判断是否抑制当前帧。然而,所引入的延迟在交互式语音或通信应用中是不可接受的。
发明内容
为了解决上述问题和其他潜在的问题,本文中公开的示例实施例提出了一种音频信号中的脉冲噪声抑制的方法和系统。
在一个方面,本文中公开的示例实施例提供了一种音频信号中的脉冲噪声抑制的方法。该方法包括从音频信号的当前帧中确定与脉冲噪声相关的特征。该方法还包括基于脉冲噪声相关的特征,在当前帧中检测脉冲噪声,以及响应于在当前帧中检测到脉冲噪声,向当前帧应用抑制增益,以抑制脉冲噪声。这方面的实施例还包括相应的计算机程序产品。
在另一个方面,本文中公开的示例实施例提供了一种音频信号中的脉冲噪声抑制的系统。该系统包括特征确定单元,被配置为从音频信号的当前帧中确定与脉冲噪声相关的特征。该系统还包括噪声检测单元,被配置为基于脉冲噪声相关的特征,在当前帧中检测脉冲噪声,以及噪声抑制单元,被配置为响应于在当前帧中检测到脉冲噪声,向当前帧应用抑制增益,以抑制脉冲噪声。
通过下文描述将会理解,根据本文中公开的示例实施例,基于从输入音频信号提取的脉冲噪声的特有特征,在该音频信号的每个帧中检测脉冲噪声的存在,并且在检测到脉冲噪声时对音频信号的相应帧执行噪声抑制。由于对音频信号中被检测到脉冲噪声的相应帧执行噪声抑制,增加了脉冲噪声移除的效率并且减少了对语音质量的影响。此外,特征提取和噪声抑制均基于当前帧而不需要前瞻性查看,这引入了较小的处理延迟。本发明的实施例所带来的其他益处将通过下文描述而清楚。
附图说明
通过参考附图阅读下文的详细描述,本文中所公开的示例实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本文中所公开的若干实施例,其中:
图1示出了根据本发明的一个示例实施例的音频信号中的脉冲噪声抑制的方法的流程图;
图2示出了根据本发明的一个示例实施例的示例三声道方向性麦克风拓扑和该拓扑中的麦克风的极化图案;
图3示出了根据本发明的一个示例实施例的脉冲噪声抑制的系统的框图;
图4示出了根据本发明的一个示例实施例的针对脉冲噪声的功率谱模型的示意图;
图5示出了根据本发明的一个示例实施例的图3的系统中的噪声抑制器的框图;
图6示出了根据本发明的一个示例实施例的音频信号中的脉冲噪声抑制的系统的框图;以及
图7示出了适于实现本文中公开的示例实施例的示例计算机系统的框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考附图中示出的若干示例实施例来描述本文中所公开的示例实施例的原理。应当理解,描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本文中所公开的示例实施例,而并非以任何方式限制本文中所公开的主题的范围。
本文中所公开的示例实施例可以被配置为特征化脉冲噪声,以便在音频信号中检测脉冲噪声的存在,并且然后在检测到脉冲噪声的音频帧中执行噪声抑制。根据本文中所公开的实施例,由于相较于语音信号或其他正常信号,脉冲噪声通常存在一些特有的特征,通过从输入音频信号中提取这些特征并且利用这些特征来检测脉冲噪声,可以对存在脉冲噪声的相应音频帧具体地执行噪声抑制。所提出的方案从而增加了脉冲噪声移除的效率并且维持了对语音质量的最小影响。此外,所提出的方案仅涉及低的延迟信号处理,该处理仅使用来自当前音频帧的信息以及可能使用来自先前的音频帧的信息而不需要前瞻性查看。
首先参照图1,其示出了根据本发明的一个示例实施例的音频信号中的脉冲噪声抑制的方法100的流程图。
在步骤S101,从音频信号的当前帧中确定与脉冲噪声相关的特征。
根据本文中公开的实施例,音频信号可以由如下的设备来采集,该设备具有一个麦克风或者具有多个麦克风的麦克风阵列。取决于所配备的麦克风或麦克风阵列,音频信号可以是单声道信号或多声道信号。将理解的是,当麦克风阵列处的单个声道是有效的时候,所采集的音频信号也可以是单声道的。图2描绘了示例三声道方向性麦克风拓扑和该拓扑中的麦克风的极化图案。配备有这个麦克风拓扑的设备可以采集来自三个输入声道的信号并且将这些信号组合在一起以获得所采集的音频信号。应当注意的是,图2是出于示例性解释说明而被给出,并且要被处理的音频信号可以由具有其他麦克风拓扑的设备采集(例如,全方位麦克风阵列,或者具有比三个麦克风更多或更少的麦克风的麦克风阵列)。
音频采集设备可以是任何类型的具有一个或多个麦克风的通信设备或音频记录设备,包括但不限于电话会议设备、移动手持式设备、多媒体设备、台式计算机、膝上型计算机、个人数字助理(PDA)、或者它们的组合。
音频采集设备通常操作在嘈杂环境中并且采集到与所期望的音频数据重叠的噪声信号,音频数据包括语音或其他声音。如以上所讨论的,因为脉冲噪声具有一些特有的特征,可以从音频信号中特征化脉冲噪声。例如,脉冲噪声通常是在功率方面高于普通语音的短期突发的噪声,并且具有更多的高频分量。因此,音频信号的高频范围与低频范围之间的频谱倾斜(spectral tilt)或者音频信号的当前帧与先前帧的功率之前的功率差异(也被称为增量功率)可以用于指示在当前帧中是否存在脉冲噪声。
此外,所采集的脉冲噪声大多数时候涉及机械噪声(例如,处理噪声(handling noise)、按钮噪声、与桌面耦合的噪声),并且在麦克风阵列处具有不同于普通语音信号和其他声学噪声的特性。通常机械脉冲噪声的声音源接近于采集设备(例如,离采集设备小于50cm)。例如,通过按压设备上的机械按钮(例如,静音按钮、数字键按钮、扬声器按钮等)而产生点击声,并且该按钮通常位于非常接近麦克风阵列的位置。对于机械脉冲噪声,可能存在与麦克风阵列的机械耦合而不是麦克风的可行的声学上承受的激励。就此而言,从所采集的音频信号的声源(例如,机械按键)到采集设备(更具体地,是麦克风阵列)的空间邻近度可以指示是否存在脉冲噪声。在一些实施例中,由相应的多个麦克风采集的信号之间的相位和/或强度的高相关性可以指示近的空间性。理由是脉冲噪声在麦克风处通常是相关的,因为这些麦克风以类似的方式接收这类噪声,而没有跨越麦克风阵列的声学传播的一般距离或相位影响。
对于音频信号的每一帧,可以确定一个或多个脉冲噪声相关的特征,用以检测在该帧中是否存在脉冲噪声。例如,如果频谱倾斜和/或增量功率指示音频信号的当前帧包含大量的高频分量,并且相关性特征指示当前帧的声音源靠近采集设备,则确定在该帧中可能存在脉冲噪声。
注意到在要被处理的音频信号是单声道的情况中,包括频谱倾斜和增量功率的特征可以被用于噪声检测和抑制判决,而在音频信号包含两个或更多单声道信号的情况中,上述所有特征均可以被使用。
脉冲噪声相关的特征的确定将在以下详细描述。
方法100行进至步骤S102,基于脉冲噪声相关的特征,在当前帧中检测脉冲噪声。
在本文中公开的实施例中,所提取的(多个)脉冲噪声相关的特征可以指示脉冲噪声在音频信号中的存在。在一些实施例中,多于一个的所提取的特征可以以线性/非线性方式进行组合,以输出脉冲噪声得分,该脉冲噪声得分指示脉冲噪声存在的概率。输出的得分可以与预定的阈值相比较,以判断在当前帧中是否检测到脉冲噪声。在一些实施例中,输出的得分可以是二元的。也就是说,输出的得分可以是0或1的值。0的值可以用于指示不存在脉冲噪声,而1的值可以用于指示检测到脉冲噪声。备选地,脉冲噪声得分可以被确定为0和1之间的连续值,或者任何其他的连续值。脉冲噪声得分越大,存在脉冲噪声的概率越高。
在步骤S103,响应于在当前帧中检测到脉冲噪声,向当前帧应用抑制增益,以抑制脉冲噪声。
抑制增益可以大于或等于零,并且小于一。在一些实施例中,抑制增益可以被预定为固定的值,例如,0.5、0.7等。当在当前帧中检测到脉冲噪声时,固定的抑制增益可以被直接地用于抑制脉冲噪声。在一个实施例中,如果相信脉冲噪声存在,抑制增益可以被设置为零,以在当前帧中阻挡噪声。备选地,抑制增益可以基于脉冲噪声得分来确定。在一些实施例中,抑制增益可以与该得分成反比。脉冲噪声得分越大,抑制增益越小,从而更强的噪声抑制可以被应用到当前帧。
在本文中公开的一些实施例中,为了进一步提高抑制性能,噪声功率模型可以被用作先验知识来特征化所检测到的脉冲噪声的功率。噪声功率模型可以指示由采集音频信号的设备获得的脉冲噪声的噪声功率。噪声功率模型可以基于该设备的机械结构和/或该设备所处的环境来构建。通过分析由该设备采集的先前的脉冲噪声,可以定义脉冲噪声模型。抑制增益可以基于由噪声功率模型所指示的噪声功率以及音频信号的功率来确定。如果噪声功率接近于音频信号的功率,可以应用较小的抑制增益,从而更强的噪声抑制可以被应用到当前帧。基于噪声功率模型确定的抑制增益将在以下更详细描述。
在本文中公开的一些实施例中,抑制增益可以是被应用到宽带音频信号的宽带增益。在本文中公开的一些其他实施例中,可以定义预定的抑制方案,以将不同的子带增益应用到音频信号的相应频带,这将在以下更详细地描述。
图3示出了根据本文中公开的一个示例实施例的脉冲脉冲噪声抑制的系统300的框图。系统300可以被包括在采集设备中,用于执行由该设备采集的音频信号的脉冲噪声抑制。系统300也可以在采集设备的外部,并且具有与该设备的有线或无线连接。在这种情况下,系统300可以从采集设备接收音频信号并且对该信号执行脉冲噪声抑制。如图3所描绘的,系统300包括特征提取器31,噪声检测器32和噪声抑制器33。
特征提取器31被配置为从输入音频信号的当前帧中提取脉冲噪声相关的特征。脉冲噪声相关的特征可以包括音频信号的高频范围与低频范围之间的频谱倾斜,和/或音频信号的当前帧与先前帧之间的功率差异。附加地或备选地,脉冲噪声相关的特征可以包括音频信号的声音源与采集设备之间的空间邻近度,和/或由设备的相应麦克风采集的信号之间的相关性。所提取的特征被传递至噪声检测器32。
噪声检测器32被配置为通过分析所提取的噪声来检测在当前帧中是否存在脉冲噪声。检测结果然后被提供至噪声抑制器33。噪声抑制器33被配置为基于检测结果来判断是否向当前帧应用抑制增益。如果检测结果指示存在脉冲噪声,则噪声抑制器33可以对当前帧执行噪声抑制。如果检测结果指示不存在脉冲噪声,则噪声抑制器33可以不对音频信号采取动作。
理解的是,图3的系统300被示出为一个示例,并且在系统中可以具有更多或更少的功能块/子块。
现在详细描述一些示例的脉冲噪声相关的特征的确定。
在本文中公开的一些实施例中,从音频信号的声音源到采集该音频信号的设备的空间邻近度可以被确定为脉冲噪声相关的特征并且被用于指示是否存在脉冲噪声。
在本文中公开的一个实施例中,由采集设备的至少两个麦克风分别采集的单声道信号之间的相位和/或强度相关性可以用于衡量该音频信号与该设备之间的空间邻近度。由于脉冲噪声的声音源、诸如机械按钮相对于设备声音或背景噪声的声音源而言更接近该设备,所生成的脉冲噪声在该设备的麦克风阵列处相关。原因在于这些麦克风以类似的方式接收这个脉冲噪声,而没有跨越麦克风阵列的声学传播的一般距离或相位影响。
为了确定相关性,在一个实施例中,可以首先确定音频信号的当前帧的协方差矩阵。在这种情况下,要被处理的输入音频信号可以由配备有至少两个麦克风的设备采集,从而协方差矩阵可以表示由这些麦克风分别采集的单声道信号之间的相关性。在本文中公开的实施例中,协方差矩阵可以如下地逐帧计算:
C(i,k)=X(i,k)XH(i,k) (1)
其中C(i,k)表示协方差矩阵,X(i,k)表示频域中的输入音频信号,i表示频带索引,k表示帧索引,并且上标H表示厄米特(Hermitian)共轭置换。输入音频信号包含X(i,k)由所配备的麦克风采集的信号。例如,对于配备有如图2所示的麦克风拓扑的设备,输入音频信号X(i,k)可以被表示为[L(i,k),R(i,k),S(i,k)],其中L(i,k)、R(i,k)和S(i,k)表示分别由三个麦克风采集的信号的频域版本。
根据公式(1),可以为当前帧确定不同频带的协方差矩阵。备选地或附加地,也可以确定当前帧的宽带的协方差矩阵。在本文中公开的一些其他实施例中,还可以通过对当前帧的相应多个样本的协方差矩阵取平均来确定时域的协方差矩阵。
在本文中公开的一些实施例中,可以通过平滑因数来平滑协方差矩阵。例如,当前帧的协方差矩阵可以如下地被平滑:
C(ω,k)=αC(ω,k-1)+(1-α)X(ω,k)XH(ω,k) (2)
其中C(ω,k-1)表示先前帧k-1的协方差矩阵,并且α表示0到1范围内的平滑因数。将理解的是,宽带协方差矩阵和时域协方差矩阵可以类似地进行平滑。
如以上所提及的,所获得的协方差矩阵可以表示由麦克风分别采集的单声道信号之间的相关性。如果协方差矩阵是对角矩阵,这意味着这些单声道信号之间不相关。否则的话,除了协方差矩阵的对角线之外的位置上的非零值可以表示这些信号之间的相关程度。如果在音频采集设备的麦克风采集信号时发生脉冲噪声、诸如脉冲点击噪声,由于脉冲噪声的源比正常的音频源更接近采集设备,该脉冲噪声可以被每个麦克风采集。因此,单声道信号之间的相关性相对较高,因为这些信号均包含脉冲噪声。在这种情况下,当前帧的协方差矩阵(其指示单声道信号的相位或强度之间的相关性)可以被用作空间邻近度特征,以指示是否存在脉冲噪声。为当前帧k计算的相关性可以被表示为邻近度得分P(k)。
如以上所讨论的,脉冲噪声的声音源,例如按压其则产生点击噪声的按钮,与采集设备足够接近,导致所有麦克风同时采集到相同的噪声信号。在这种情况下,所采集的信号可能在所有方向中具有基本上相等的信号强度。为了获得空间邻近度,在本文中公开的一些其他实施例中,可以确定音频信号在两个或更多方向中的强度。如果这些强度基本上彼此相等,这意味着音频信号的声音源接近于采集设备,并且因此可能在音频信号中检测到脉冲噪声。
本文中对方向的提及涉及与由麦克风检测到的具体声音源或声音活动有关的空间确定。应当注意到,就此意义而言的方向不限于仅在声学意义上的相对麦克风的入射(incidence)的具体角度或相对麦克风的距离的字面含义。相反,当围绕麦克风阵列提及方向的概念时,它指的是与设备激励的具体形式(声学的和机械的)有关的、针对声音源的麦克风的信号相关性属性的聚类或分割。已知的是,不同的源位置或机械定向,连同麦克风的几何配置和耦合配置,产生了特定的空间检测几何结构(geometry),该几何结构具有在麦克风输入的相关性或协方差空间中的良好形成的表示。为了简单化,这些输入源通常被称为具有不同方向或距离的源。
在本文中公开的一些实施例中,为了确定和比较音频信号在不同方向中的信号强度,可以首先确定音频信号的当前帧的协方差矩阵。在这些实施例中,可以针对宽带音频信号计算协方差矩阵,或者可以针对音频信号的相应频带确定多个协方差矩阵。可以对协方差矩阵执行特征分解(eigen-decomposition),以获得特征向量和特征值。例如,当前帧k的宽带协方差矩阵C(k)的特征分解可以被定义为:
[V,D]=eigen(C(k)) (3)
其中V表示每一列指示协方差矩阵C(k)的一个特征向量的矩阵,并且D表示以降序顺序排列的对应特征值的对角线矩阵。在一个示例中,当音频信号是三声道信号时,矩阵V和D均是3乘3矩阵。也就是说,特征值或特征向量的数目与输入声道的数目相同。
在对角线矩阵D中给出的特征值指示在矩阵V指示的方向中的音频信号中的最高信号强度。当特征值彼此接近时,这意味着来自所有方向的信号强度基本上相等,这可能指示音频信号包含接近的脉冲噪声。因此,基于所获取的特征值,可以针对音频信号的当前帧确定邻近度得分,该邻近度得分指示空间邻近度。在一个实施例中,邻近度得分可以被确定为最大特征值比上第二大的特征值的比率,其可以被表示为如下:
P ( k ) = D ( 1,1 ) D ( 2,2 ) - - - ( 4 )
其中P(k)表示当前帧k的邻近度得分,D(1,1)表示最大特征值,并且D(2,2)表示第二大的特征值。D(1,1)和D(2,2)两者均位于对角线矩阵D的对角线上。高的邻近度得分可以指示音频信号到采集设备的较近的邻近度和音频信号的较高相关性。在这个实施例中,邻近度得分越接近1,脉冲噪声存在的概率越高。
注意到,在以上实施例中,音频信号可以由具有至少两个麦克风的设备采集,以便确定指示音频信号的声音源与该设备之间的空间邻近度的邻近度得分。还注意到,邻近度得分可以以许多其他方式确定。例如,邻近度可以被定义为第二大的特征值比上第三大的特征值之间的比率,或者通过特征分解获得的对角线矩阵D的对角线上的任何两个特征值之间的比率。
在本文中公开的一些实施例中,可以对当前帧的不同频带的相应协方差矩阵C(i,k)执行特征分解。在这些实施例中,可以相应地计算针对各个频带的邻近度得分,以便指示在各个频带中是否存在脉冲噪声。如此,然后可以对特定的频带准确地执行随后的噪声抑制。
在本文中公开的一些实施例中,脉冲噪声相关的特征可以包括音频信号的频谱倾斜。可以通过将音频信号的当前帧的高频范围中的功率与低频范围中的功率相比较来确定频谱倾斜。
在这些实施例中,当前帧的宽带频率可以被划分为两个部分,高频范围和低频范围。例如,对于具有1000Hz到16kHz的频率范围的音频信号的帧,低频范围可以从1000Hz跨越到4000Hz,并且高频范围可以从4000Hz跨越至最多16kHz。高频范围和低频范围可以分别进一步被划分为多个频带。位于高频范围中的各个频带的功率可以加和在一起,并且位于低频范围中的各个频带的功率也可以加和在一起。在一个实施例中,在每个频带中的功率可以通过该频带中的信号强度的平方来计算。在音频信号是多声道信号的情况中,在每个频带中的功率可以是多个声道中的各个信号强度的平方之和。
在已经为各个频带计算协方差矩阵的一些实施例中,高频范围中的加和功率可以是针对高频范围中的频带而确定的协方差矩阵的对角线上的数值之和。低频范围中的加和功率可以是针对低频范围中的频带而确定的协方差矩阵的对角线上的数值之和。假设低频范围从1000Hz到4000Hz,具有从25到40的频带索引,并且高频范围从4000Hz到最多16kHz,具有从41到56的频带索引。低频范围和高频范围中的加和功率可以被计算为:
w low ( k ) = Σ i = 24 40 Tr ( C ( i , k ) ) - - - ( 5 )
w high ( k ) = Σ i = 41 56 Tr ( C ( i , k ) ) - - - ( 6 )
其中Tr表示协方差矩阵C(i,k)的对角线,wlow(k)表示低频范围中的加和功率,whigh(k)表示高频范围中的加和功率,i表示频带索引,并且k表示帧索引。
在本文中公开的一个实施例中,可以通过高频范围中的加和功率比上低频范围中的加和功率的比率来确定当前帧的频谱倾斜,指示音频信号的当前帧在频域中的形状。相较于语音信号,脉冲噪声通常包括更多的高频分量,因为语音信号通常具有从200Hz到2000Hz的低频范围。因此,频谱倾斜可以用作当前帧是否存在脉冲噪声的指示。如果频谱倾斜被确定为较大,这意味着更多的功率被包含在当前帧的高频范围中。在这种情况下,当前帧包含脉冲噪声的概率较高。
为了将最终值界定在0到1的范围以便避免异常功率值的影响和促进后续的数学计算,频谱倾斜可以被确定为:
T ( k ) = max ( min ( | w high ( k ) w low ( k ) | - 1,1 ) , 0 ) - - - ( 7 )
其中T(k)表示频谱倾斜。
应当注意的是,可以以许多其他方式来通过比较高频范围和低频范围中的功率确定频谱倾斜。在一个实施例中,频谱倾斜可以由两个功率之间的功率差异来确定。当功率差异大于阈值时,指示在音频信号中可能存在脉冲噪声。备选地,频谱倾斜还可以是低频范围中的功率比上高频范围中的功率的比率。在这个实施例中,频谱倾斜越低,存在脉冲噪声的概率越高。
以上讨论的频谱倾斜可以指示音频信号的当前帧在频域中的形状。在一些其他实施例中,可以通过将音频信号的当前帧的高频范围中的功率和音频信号的先前帧的高频范围中的功率相比较,来确定另一个脉冲噪声相关的特征,即音频信号的增量功率。增量功率可以表示当前帧在时域中的形状,例如功率从先前帧起的改变。由于脉冲噪声通常是音频信号中的短期突发,可以预见到功率跨帧的突然跳跃。因此,增量功率可以用于特征化脉冲噪声,指示在当前帧中是否存在脉冲噪声。在本文中公开的一个实施例中,可以由当前帧的高频范围中的功率与先前帧的高频范围中的功率之间的差异来确定增量功率。在另一个实施例中,增量功率还可以如下地被计算:
D ( k ) = | w high ( k ) - w high ( k - 1 ) w high ( k ) | - - - ( 8 )
其中D(k)表示增量功率。
在本文中将理解的是,先前帧不必要是由当前帧直接紧随着的帧,而是可以是与当前帧由短时间间隔的任何先前的帧。在这些实施例中仅考虑高频范围中的功率,因为音频信号的低频分量可能包含较多的语音分量,其将潜在地降低这个特征与语音的可区分性。
以上描述了一些示例脉冲噪声相关的特征的确定,诸如协方差矩阵、频谱倾斜、增量功率和空间邻近度的确定。理解的是,存在许多其他的脉冲噪声相关的特征可以用来特征化脉冲噪声,并且本文中所描述的主题的范围在此方面不受限制。
所提取的特征可以促进从音频信号中检测脉冲噪声。在本文中公开的实施例中,可以分析所提取的特征中的一个或多个特征,用以确定脉冲噪声的存在。例如,协方差矩阵、频谱倾斜、增量功率和空间邻近度(例如,邻近度得分)之一可以被用来独立地做出关于脉冲噪声的存在的决策。例如,如以上所讨论的,由协方差矩阵指示的相关性越高,脉冲噪声存在的概率越高。
在其中采用了所提取的特征中的一些或全部特征的实施例中,可以以线性或非线性的方式来组合这些特征,以获得指示脉冲噪声的存在的概率的脉冲噪声得分。例如,脉冲噪声得分可以被定义为邻近度得分P(k)、频谱倾斜T(k)和增量功率D(k)的乘积。通过将脉冲噪声得分与预定的阈值相比较,可以做出决策来判断是否存在脉冲噪声。这个检测方案可以被表示为如下:
其中M_THR表示预定阈值。M(k)=1表示在当前帧k中存在脉冲噪声,并且M(k)=0表示不存在脉冲噪声。如果,邻近度得分P(k)、频谱倾斜T(k)和增量功率D(k)被确定在0到1的范围中,例如分别通过公式(4)、(7)和(8)而被计算,阈值M_THR可以被设置为0到1的范围中的值。例如,阈值M_THR可以被预定为0.4、0.5、0.6等。应当注意的是,取决于所提取的特征的取值范围,该阈值可以被设置为其他数值,并且本文中公开的主题的范围在此方面不受限制。
在本文中公开的一些实施例中,邻近度得分P(k)、频谱倾斜T(k)和增量功率D(k)的加权和可以被确定为脉冲噪声得分,用以与预定阈值相比较。在一些其他实施例中,所提取的特征可以以许多其他方式进行组合以指示脉冲噪声得分。
在本文中公开的一些进一步的实施例中,因为一些提取的特征、诸如协方差矩阵和邻近度得分可以是频带特定的特征,检测结果可以更准确以指示脉冲噪声信号是否存在于每个频带中。例如,独立地基于针对每个频带确定的一个邻近度得分或者结合其他提取的特征一起,可以获得针对该频带的脉冲噪声得分。如果脉冲噪声得分高于阈值(其可以是频带特定的),可以检测出脉冲噪声存在于这个频带中。
如以上所讨论的,响应于基于所提取的(多个)特征在当前帧中检测到脉冲噪声,可以将抑制增益应用到该帧中以抑制脉冲噪声。抑制增益可以在一个实施例中可以是宽带增益。在另一个实施例中,可以为不同的频带预先确定更准确的子带增益来抑制脉冲噪声。在这种情况下,当在当前帧中检测到脉冲噪声时,可以将所有子带增益应用到相应的频带。备选地,仅当在当前帧的一个频带中检测到脉冲噪声时,才将对应的子带增益应用到这个频带,这可以进一步提高抑制性能和减少音频信号的失真。
在一些实施例中,为了进一步最小化语音失真,可以为由采集设备采集到的脉冲噪声构建噪声功率模型。由于采集设备通常位于相同的环境中,并且在许多情况下脉冲噪声来自于对设备上的机械按钮的点击,由该设备采集的脉冲噪声信号可能是相对一致且是特有类型的信号。因此,可以测量并且建模可以被采集的可能的脉冲噪声的功率。噪声功率模型可以指示由采集音频信号的设备所获得的脉冲噪声的噪声功率。噪声功率模型可以基于该设备的机械结构(诸如设备上的机械按键的分布等)和/或该设备所处的环境。脉冲噪声模型还可以基于该设备采集的先前的脉冲噪声的功率。通过分析由该设备采集的先前的脉冲噪声,可以定义出噪声功率模型。
噪声功率模型可以被预定为由设备采集的一个或多个先前的脉冲噪声的平均功率值。备选地或附加地,噪声功率模型可以被预定为功率谱模型,其具有(多个)先前脉冲噪声的所有频带中的相应功率。出于示例的目的,图4描绘了针对脉冲噪声的示例功率谱模型的示意图。
当输入音频信号并且在音频信号的当前帧中检测到脉冲噪声时,可以基于噪声功率模型和音频信号的当前帧的功率,确定抑制增益。噪声功率模型、例如预定的功率值可以用于指示所检测的脉冲噪声的噪声功率。由于抑制增益被应用到音频信号中以抑制其中的脉冲噪声,抑制增益可以与噪声功率负相关。噪声功率越接近当前帧的功率,抑制增益越低,从而更强的噪声抑制可以被应用到当前帧。例如,可以首先确定预定的噪声功率值与音频信号的当前帧的功率之间的功率差异,并且然后抑制增益可以被计算为功率差异比上当前帧的功率的比率。应当注意的是,存在许多其他方式来基于预定噪声功率和音频信号的功率确定抑制增益,并且本文中公开的主题的范围在此方面不受限制。
在功率谱模型被预先确定的实施例中,可以从功率谱模型中获得每个频带中的功率值并且这些功率值用于指示所检测的脉冲噪声在对应的频带中的噪声功率。这个噪声功率也可以被用来确定特定于该频带的抑制增益。
在本文中公开的一些进一步的实施例中,脉冲噪声在真实环境中随着时间衰减,而不是假设脉冲噪声仅存在于当前帧中而不会对后续的帧有影响。为了更好地模拟脉冲噪声的影响,可以引入房间衰减因数(home decay factor)来计算脉冲噪声功率的衰减版本。房间衰减因数可以基于RT 60来配置,RT 60指示信号的功率从它的初始水平降落至60dB所经过的时间。根据本文中公开的实施例,如果在先前帧中检测到脉冲噪声并且在当前帧中不存在脉冲噪声,可以基于房间衰减因数和预定的噪声功率或功率谱来确定衰减的噪声功率。然后可以基于衰减的噪声功率和音频信号的当前帧的功率来计算抑制增益。
由于抑制增益被应用到音频信号以抑制其中的脉冲噪声,抑制增益可以与衰减的噪声功率负相关。衰减的噪声功率越接近当前帧的功率,抑制增益越低,从而更强的噪声抑制可以被应用到当前帧。例如,可以首先确定衰减的噪声功率值与音频信号的当前帧的功率之间的功率差异,并且然后抑制增益可以被计算为功率差异比上当前帧的功率的比率。应当注意的是,存在许多其他方式来基于衰减的噪声功率和音频信号的功率确定抑制增益,并且本文中公开的主题的范围在此方面不受限制。抑制增益可以被应用到音频信号的当前帧以抑制在先前帧中检测到的脉冲噪声的衰减版本。
可以看出,尽管在当前帧中未检测到存在脉冲噪声,也可以在先前帧中检测到脉冲噪声的情况下对当前帧执行噪声抑制。由此还可以抑制在实际房间中先前发生的脉冲噪声的反射和/或回响部分。
根据以上关于预定噪声功率的描述,对于当前帧,它的估计的噪声功率可以如下地被确定:
MN(k)=max(NS*M(k),β*MN(k-1)) (10)
其中MN(k)表示当前帧k的估计的噪声功率,NS表示由采集音频信号的设备获得的脉冲噪声的预定噪声功率,M(k)表示公式(9)中指示的检测结果,并且β表示房间衰减因数。
从公式(10)可以看出,如果在当前帧k中检测到脉冲噪声(例如,M(k)=1),该帧的估计的噪声功率MN(k)等于预定噪声功率NS。如果在当前帧k中未检测到脉冲噪声(例如,M(k)=0),该帧的估计的噪声功率MN(k)是先前帧的噪声功率的衰减版本β*MN(k-1)。
可以基于估计的噪声功率(其可以是预定噪声功率或衰减的噪声功率)来计算抑制增益。估计的噪声功率越接近当前帧的功率,抑制增益越低,从而更强的噪声抑制可以被应用到当前帧。例如,可以首先确定估计的噪声功率值与音频信号的当前帧的功率之间的功率差异,并且然后抑制增益可以被计算为功率差异比上当前帧的功率的比率,其可以被表示为如下:
G ( k ) = InP ( k ) - MN ( k ) InP ( k ) - - - ( 11 )
其中InP(k)表示当前帧k的功率,MN(k)表示估计的噪声功率,并且G(k)表示抑制增益。
应当注意的是,存在许多其他方式来基于估计的噪声功率和音频信号的功率确定抑制增益,并且本文中公开的主题的范围在此方面不受限制。
图5描绘了根据本发明的一个示例实施例的系统300中的示例噪声抑制器33的框图。噪声功率模型被引入在噪声抑制器33中。如所描绘的,噪声抑制器33包括输入功率计算器331、功率模型构建器332、抑制增益计算器333和抑制单元334。
输入功率计算器331被配置为确定输入音频信号的当前帧的输入功率。输入功率被传递至抑制增益计算器333。
功率模型构建器332被配置为建模由采集设备采集的脉冲噪声并且构建脉冲噪声的噪声功率模型,该噪声功率模型可以指示由采集设备先前获得的脉冲噪声的功率。噪声功率模型可以基于设备上的机械按键的分布和/或设备所处的真实环境来构建。
抑制增益计算器333被配置为基于来自输入功率计算器331的输入功率以及噪声功率来计算用于噪声抑制的抑制增益。房间衰减因数可以用于在音频信号的当前帧中未检测到脉冲噪声的情况下衰减噪声功率。所计算的抑制增益被提供至抑制单元334。在一些实施例中,可以为音频信号的各个频带计算不同的抑制增益。
抑制单元334被配置为将抑制增益应用到音频信号的当前帧以抑制脉冲噪声。在一些实施例中,可以将频带特定的增益应用到当前帧的对应频带,以实现精确的噪声抑制。
理解的是,多于一个的预定噪声功率可以被构建以作为由设备采集的可能的脉冲噪声信号的先验知识。基于从音频信号中提取的脉冲噪声相关的特征,可以选择构建的模型之一用来确定抑制增益。
在本文中公开的一些进一步实施例中,为了减少由噪声抑制噪声的可能的不便并且减少计算开销,可以应用预定义的准则来确定是否应当对音频信号的当前帧执行噪声抑制。准则的基本原理是在实际应用场景中脉冲噪声不可能生成的时候禁用噪声抑制,并且在实际应用场景中可能生成脉冲噪声的时候启用噪声抑制。
例如,如果在采集设备的麦克风输入中不存在语音信号但是存在来自远端设备的语音信号,可能意味着采集设备的本地说话者正在倾听远端说话者。在这种情况下,可以启用噪声抑制,因为本地说话者可能由于背景噪声或想要本地讨论的原因而希望使采集设备静音,这可能导致由于按压静音按钮而产生的点击噪声。另一方面,如果仅存在本地语音活动,可以禁用噪声抑制过程,因为本地说话者可能不会在发出谈话期间将麦克风静音。
因此,预定义的准则可以基于会话触发(conversational heuristic)。会话触发用于检测设备是否采集到语音信号。当通过会话触发检测到语音信号被输入到采集设备,预定义的准则不被满足并且可以禁用噪声抑制过程。也就是说,系统300可以停止噪声抑制操作。当检测到语音信号从远端传输并且在本地设备中播放,预定义的准则被满足并且仍然可以对本地设备采集的语音信号的输入帧执行噪声抑制。
理解的是,可以存在许多其他的准则用来智能地基于当前会话状态来判断是否在采集的语音信号的帧中抑制脉冲噪声。例如,当检测到本地说话者和远端说话者正参与问答会话时,可以停止噪声抑制或者可以应用相对高的抑制增益以避免由噪声抑制操作引入的语音质量影响。
理解的是,除了会话触发技术之外,还可以利用当前已知的或者未来开发的许多其他适当的检测方法来智能地检测会话状态。
根据本文中公开的实施例,基于当前帧立即提取脉冲噪声相关的特征并且响应于基于这些特征而在该帧中检测到脉冲噪声,应用噪声抑制。即使在采用噪声功率模型的实施例中,该模型基于先前采集到的信号(例如,脉冲噪声信号)来构建。因此,本文中提出的方案需要较少的延迟并且适合于许多实时场景,诸如交互式语音或通信使用情况。此外,基于所提取的特征可以做出更准确的脉冲噪声的决策,这实现了脉冲噪声抑制的降低的错误率和对语音质量的最小影响。
图6根据本发明的一个示例实施例的音频信号中的脉冲噪声抑制的系统600的框图。如所描绘的,系统600包括特征确定单元601,被配置为从音频信号的当前帧中确定与脉冲噪声相关的特征。系统600还包括噪声检测单元602,被配置为基于脉冲噪声相关的特征,在当前帧中检测脉冲噪声,以及噪声抑制单元603,被配置为响应于在当前帧中检测到脉冲噪声,向当前帧应用抑制增益,以抑制脉冲噪声。
在本文中公开的一些实施例中,特征确定单元601可以被配置为通过将当前帧的高频率范围中的功率与低频率范围中的功率相比较,确定当前帧的频谱倾斜,频谱倾斜指示当前帧在频域中的形状。
在本文中公开的一些实施例中,特征确定单元601可以被配置为通过将当前帧的高频率范围中的功率与音频信号的先前帧的高频范围中的功率相比较,确定当前帧的增量功率,增量功率指示当前帧在时域中的形状。
在本文中公开的一些实施例中,特征确定单元601可以被配置为确定从音频信号的声音源到采集音频信号的设备的空间邻近度。
在本文中公开的一些实施例中,采集音频信号的设备可以具有第一麦克风和第二麦克风,并且其中特征确定单元601可以被配置为确定由第一麦克风采集的第一单声道信号与由第二麦克风采集的第二单声道信号之间的相关性。
在本文中公开的一些实施例中,特征确定单元601可以进一步被配置为确定音频信号在第一方向中的第一强度,确定音频信号在第二方向中的第二强度,以及通过比较第一强度和第二强度来确定空间邻近度。
在本文中公开的一些实施例中,噪声抑制单元603可以被配置为响应于在当前帧中检测到脉冲噪声,基于先前的脉冲噪声的预定噪声功率与当前帧的功率,确定抑制增益,以及向当前帧应用所确定的抑制增益,以抑制脉冲噪声。
在本文中公开的一些实施例中,系统600可以进一步包括衰减功率确定单元,被配置为响应于在当前帧中未检测到脉冲噪声并且在先前帧中检测到脉冲噪声,基于房间衰减因数和先前脉冲噪声的预定噪声功率,确定衰减噪声功率;抑制增益确定单元,被配置为基于衰减噪声功率和当前帧的功率,确定另一个抑制增益;以及衰减噪声抑制单元,被配置为向当前帧应用另一个抑制增益,以抑制脉冲噪声的衰减版本。
在本文中公开的一些实施例中,系统600可以进一步包括噪声抑制判断单元,被配置为通过判断预定义的准则是否被满足来确定是否在当前帧中抑制脉冲噪声。
为清晰起见,在图6中没有描绘出系统600的某些另外的部件。然而,应当理解,上文参考图1-5所描述的各个特征同样适用于系统600。而且,系统600中的各部件可以是硬件模块,也可以是软件单元模块等等。例如,在某些示例实施例中,系统600可以部分或者全部利用软件和/或固件来实现,例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地,系统600可以部分或者全部基于硬件来实现,例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本文中公开的主题的范围在此方面不受限制。
图7描绘了适于用来实现本文中所公开的示例实施例的示例计算机系统700的示意性框图。在一些示例实施例中,计算机系统700可以适于实施音频信号中的脉冲噪声抑制的方法。
如所描绘的,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。如所需要的,在RAM 703中,还存储有CPU 701执行各种过程等的数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本文中所公开的示例实施例,上文参考图1描述的过程可以被实现为计算机软件程序。例如,本文中所公开的示例实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行方法100所描述的过程的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
一般而言,本文中所公开的各种示例实施例可以在硬件或专用电路、软件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本文中所公开的示例实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本文中所公开的实施例包括计算机程序产品,该计算机程序产品包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为实现上文描述方法的程序代码。
在公开的上下文内,机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合适的组合。
用于实现本文中所公开的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。程序代码可以被分布在被特定编程的设备,这些设备通常在本文中可以被称为“模块”。这些模块的软件分组部分可以以任何具体计算机语言来编写并且可以是单片集成代码库的一部分,或者可以被开发成多个离散代码部分,诸如通常以面向对象的计算机语言来开发。此外,模块可以跨多个计算机平台、服务器、终端、移动设备等来分布。给定的模块甚至可以被实施为使得所描述的功能有单个处理器和/或计算机硬件平台来执行。
如本申请中所使用的,术语“电路装置”指的是以下的所有:(a)仅硬件电路实现方式(诸如仅模拟电路装置和/或仅数字电路装置的实现方式)以及(b)与电路和软件(和/或固件)的组合,诸如(可用的):(i)与处理器的组合或(ii)处理器/软件(包括数字信号处理器)、软件、和存储器的一部分,这些部分一起工作以使得装置(诸如移动电话或服务器)执行各种功能,以及(c)电路,诸如微处理器或微处理器的一部分,其需要软件或固件用于操作,即使软件或固件不是物理存在的。此外,本领域技术人员已知的是,通信媒介通常体现计算机可读指令、数据结构、程序模块或模块化数据信号中的其他数据,该数据信号诸如载波或其他传输机制,并且通信媒介包括任何信息传送媒介。
另外,尽管操作以特定顺序被描绘,但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务和并行处理会是有益的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制本文中所公开的主题或权利要求的范围,而应解释为对可以针对特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。
针对本文中所公开的前述示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本文中所公开的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本文中所公开的这些实施例的技术领域的技术人员将会想到此处阐明的其他实施例。
由此,本主题可以通过在此描述的任何形式来实现。例如,以下的枚举示例实施例(EEE)描述了本文中所公开的某些方面的某些结构、特征和功能。
EEE 1.一种用于检测、分类和抑制具有一个或多个麦克风的采集设备上的脉冲噪声的方法,该方法包括提取麦克风信号的信号特征,该特征包括从麦克风信号的协方差矩阵提取的子带功率的比率、增量功率、空间邻近度;基于特征的非线性映射,检测是否有脉冲噪声被包括在麦克风信号中;以及使用宽带增益或预定的子带增益方案来抑制脉冲噪声。
EEE 2.根据EEE 1的方法,其中该方法进一步包括利用房间衰减信息来增强抑制性能。
EEE 3.根据EEE 1的方法,其中该方法进一步包括使用会话触发来启用或禁用脉冲噪声抑制,以供更智能的处理。
将会理解,本法明的实施例不限于公开的特定实施例,并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语,但是它们仅在通用和描述的意义上使用,而并不用于限制目的。

Claims (19)

1.一种音频信号中的脉冲噪声抑制的方法,包括:
从所述音频信号的当前帧中确定脉冲噪声相关的特征;
基于所述脉冲噪声相关的特征,在所述当前帧中检测脉冲噪声;以及
响应于在所述当前帧中检测到所述脉冲噪声,向所述当前帧应用抑制增益,以抑制所述脉冲噪声。
2.根据权利要求1所述的方法,其中从所述音频信号的当前帧中确定脉冲噪声相关的特征包括:
通过将所述当前帧的高频率范围中的功率与低频率范围中的功率相比较,确定所述当前帧的频谱倾斜,所述频谱倾斜指示所述当前帧在频域中的形状。
3.根据权利要求1所述的方法,其中从所述音频信号的当前帧中确定脉冲噪声相关的特征包括:
通过将所述当前帧的高频率范围中的功率与所述音频信号的先前帧的高频范围中的功率相比较,确定所述当前帧的增量功率,所述增量功率指示所述当前帧在时域中的形状。
4.根据权利要求1所述的方法,其中从所述音频信号的当前帧中确定脉冲噪声相关的特征包括:
确定从所述音频信号的声音源到采集所述音频信号的设备的空间邻近度。
5.根据权利要求4所述的方法,其中采集所述音频信号的所述设备具有第一麦克风和第二麦克风,并且其中确定所述空间邻近度包括:
确定由所述第一麦克风采集的第一单声道信号与由所述第二麦克风采集的第二单声道信号之间的相关性。
6.根据权利要求4所述的方法,其中确定所述空间邻近度包括:
确定所述音频信号在第一方向中的第一强度;
确定所述音频信号在第二方向中的第二强度;以及
通过比较所述第一强度和所述第二强度来确定所述空间邻近度。
7.根据权利要求1至6中任一项所述的方法,其中响应于在所述当前帧中检测到所述脉冲噪声而向所述当前帧应用抑制增益包括:
响应于在所述当前帧中检测到所述脉冲噪声,基于先前的脉冲噪声的预定噪声功率与所述当前帧的功率,确定所述抑制增益;以及
向所述当前帧应用所确定的抑制增益,以抑制所述脉冲噪声。
8.根据权利要求1至6中任一项所述的方法,进一步包括:
响应于在所述当前帧中未检测到脉冲噪声并且在先前帧中检测到脉冲噪声,基于房间衰减因数和先前脉冲噪声的预定噪声功率,确定衰减噪声功率;
基于所述衰减噪声功率和所述当前帧的功率,确定另一个抑制增益;以及
向所述当前帧应用所述另一个抑制增益,以抑制所述脉冲噪声的衰减版本。
9.根据权利要求1所述的方法,进一步包括:
通过判断预定义的准则是否被满足来确定是否在所述当前帧中抑制所述脉冲噪声。
10.一种音频信号中的脉冲噪声抑制的系统,包括:
特征确定单元,被配置为从所述音频信号的当前帧中确定脉冲噪声相关的特征;
噪声检测单元,被配置为基于所述脉冲噪声相关的特征,在所述当前帧中检测脉冲噪声;以及
噪声抑制单元,被配置为响应于在所述当前帧中检测到所述脉冲噪声,向所述当前帧应用抑制增益,以抑制所述脉冲噪声。
11.根据权利要求10所述的系统,其中所述特征确定单元被配置为通过将所述当前帧的高频率范围中的功率与低频率范围中的功率相比较,确定所述当前帧的频谱倾斜,所述频谱倾斜指示所述当前帧在频域中的形状。
12.根据权利要求10所述的系统,其中所述特征确定单元被配置为通过将所述当前帧的高频率范围中的功率与所述音频信号的先前帧的高频范围中的功率相比较,确定所述当前帧的增量功率,所述增量功率指示所述当前帧在时域中的形状。
13.根据权利要求10所述的系统,其中所述特征确定单元被配置为确定从所述音频信号的声音源到采集所述音频信号的设备的空间邻近度。
14.根据权利要求13所述的系统,其中采集所述音频信号的所述设备具有第一麦克风和第二麦克风,并且其中所述特征确定单元被配置为确定由所述第一麦克风采集的第一单声道信号与由所述第二麦克风采集的第二单声道信号之间的相关性。
15.根据权利要求13所述的系统,其中所述特征确定单元进一步被配置为:
确定所述音频信号在第一方向中的第一强度;
确定所述音频信号在第二方向中的第二强度;以及
通过比较所述第一强度和所述第二强度来确定所述空间邻近度。
16.根据权利要求10至15中任一项所述的系统,其中所述噪声抑制单元被配置为:
响应于在所述当前帧中检测到所述脉冲噪声,基于先前的脉冲噪声的预定噪声功率与所述当前帧的功率,确定所述抑制增益;以及
向所述当前帧应用所确定的抑制增益,以抑制所述脉冲噪声。
17.根据权利要求10至15中任一项所述的系统,进一步包括:
衰减功率确定单元,被配置为响应于在所述当前帧中未检测到脉冲噪声并且在先前帧中检测到脉冲噪声,基于房间衰减因数和先前脉冲噪声的预定噪声功率,确定衰减噪声功率;
抑制增益确定单元,被配置为基于所述衰减噪声功率和所述当前帧的功率,确定另一个抑制增益;以及
衰减噪声抑制单元,被配置为向所述当前帧应用所述另一个抑制增益,以抑制所述脉冲噪声的衰减版本。
18.根据权利要求10所述的系统,进一步包括:
噪声抑制判断单元,被配置为通过判断预定义的准则是否被满足来确定是否在所述当前帧中抑制所述脉冲噪声。
19.一种音频信号中的脉冲噪声抑制的计算机程序产品,所述计算机程序产品包括被有形地体现在机器可读介质上的计算机程序,所述计算机程序包含程序代码,所述程序代码用于执行根据权利要求1至9中任一项所述的方法的步骤。
CN201510208739.6A 2015-04-28 2015-04-28 脉冲噪声抑制 Pending CN106157967A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201510208739.6A CN106157967A (zh) 2015-04-28 2015-04-28 脉冲噪声抑制
PCT/US2016/029569 WO2016176329A1 (en) 2015-04-28 2016-04-27 Impulsive noise suppression
US15/569,555 US10319391B2 (en) 2015-04-28 2016-04-27 Impulsive noise suppression
EP16721587.0A EP3289586B1 (en) 2015-04-28 2016-04-27 Impulsive noise suppression

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510208739.6A CN106157967A (zh) 2015-04-28 2015-04-28 脉冲噪声抑制

Publications (1)

Publication Number Publication Date
CN106157967A true CN106157967A (zh) 2016-11-23

Family

ID=57199483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510208739.6A Pending CN106157967A (zh) 2015-04-28 2015-04-28 脉冲噪声抑制

Country Status (4)

Country Link
US (1) US10319391B2 (zh)
EP (1) EP3289586B1 (zh)
CN (1) CN106157967A (zh)
WO (1) WO2016176329A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108540893A (zh) * 2018-06-22 2018-09-14 会听声学科技(北京)有限公司 脉冲噪声抑制方法、系统及耳机
CN112235693A (zh) * 2020-11-04 2021-01-15 北京声智科技有限公司 麦克风信号处理方法、装置、设备及计算机可读存储介质
CN113132880A (zh) * 2021-04-16 2021-07-16 深圳木芯科技有限公司 基于双麦克风架构的冲击噪声抑制方法和系统

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10504501B2 (en) 2016-02-02 2019-12-10 Dolby Laboratories Licensing Corporation Adaptive suppression for removing nuisance audio
WO2018037643A1 (ja) * 2016-08-23 2018-03-01 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
WO2018133056A1 (zh) * 2017-01-22 2018-07-26 北京时代拓灵科技有限公司 一种声源定位的方法和装置
JP6960766B2 (ja) * 2017-05-15 2021-11-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 雑音抑圧装置、雑音抑圧方法及びプログラム
US10446170B1 (en) * 2018-06-19 2019-10-15 Cisco Technology, Inc. Noise mitigation using machine learning
IT201900006711A1 (it) * 2019-05-10 2020-11-10 St Microelectronics Srl Procedimento di stima del rumore, dispositivo e prodotto informatico corrispondenti
CN110136735B (zh) * 2019-05-13 2021-09-28 腾讯音乐娱乐科技(深圳)有限公司 一种音频修复方法、设备及可读存储介质
US11133023B1 (en) * 2021-03-10 2021-09-28 V5 Systems, Inc. Robust detection of impulsive acoustic event onsets in an audio stream
US11127273B1 (en) 2021-03-15 2021-09-21 V5 Systems, Inc. Acoustic event detection using coordinated data dissemination, retrieval, and fusion for a distributed array of sensors
JP2022156943A (ja) * 2021-03-31 2022-10-14 富士通株式会社 雑音判定プログラム、雑音判定方法及び雑音判定装置
EP4343760A1 (en) * 2022-09-26 2024-03-27 GN Audio A/S Transient noise event detection for speech denoising

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2836271B2 (ja) 1991-01-30 1998-12-14 日本電気株式会社 雑音除去装置
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
JP4742226B2 (ja) 2005-09-28 2011-08-10 国立大学法人九州大学 能動消音制御装置及び方法
US8656415B2 (en) 2007-10-02 2014-02-18 Conexant Systems, Inc. Method and system for removal of clicks and noise in a redirected audio stream
US8515097B2 (en) 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
US8218397B2 (en) 2008-10-24 2012-07-10 Qualcomm Incorporated Audio source proximity estimation using sensor array for noise reduction
US8213635B2 (en) * 2008-12-05 2012-07-03 Microsoft Corporation Keystroke sound suppression
JP5207479B2 (ja) 2009-05-19 2013-06-12 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム
US8600073B2 (en) * 2009-11-04 2013-12-03 Cambridge Silicon Radio Limited Wind noise suppression
GB0919672D0 (en) 2009-11-10 2009-12-23 Skype Ltd Noise suppression
BR112012031656A2 (pt) 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa
US8606572B2 (en) 2010-10-04 2013-12-10 LI Creative Technologies, Inc. Noise cancellation device for communications in high noise environments
US8682006B1 (en) 2010-10-20 2014-03-25 Audience, Inc. Noise suppression based on null coherence
US8989815B2 (en) 2012-11-24 2015-03-24 Polycom, Inc. Far field noise suppression for telephony devices
US9715885B2 (en) * 2013-03-05 2017-07-25 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
EP2806424A1 (en) 2013-05-20 2014-11-26 ST-Ericsson SA Improved noise reduction

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108540893A (zh) * 2018-06-22 2018-09-14 会听声学科技(北京)有限公司 脉冲噪声抑制方法、系统及耳机
CN112235693A (zh) * 2020-11-04 2021-01-15 北京声智科技有限公司 麦克风信号处理方法、装置、设备及计算机可读存储介质
CN112235693B (zh) * 2020-11-04 2021-12-21 北京声智科技有限公司 麦克风信号处理方法、装置、设备及计算机可读存储介质
CN113132880A (zh) * 2021-04-16 2021-07-16 深圳木芯科技有限公司 基于双麦克风架构的冲击噪声抑制方法和系统
US11659340B2 (en) 2021-04-16 2023-05-23 Shenzhen Muxin Technology Co., Ltd. Impulsive noise suppression method and system based on dual-microphone architecture

Also Published As

Publication number Publication date
WO2016176329A1 (en) 2016-11-03
EP3289586B1 (en) 2022-06-08
EP3289586A1 (en) 2018-03-07
US20180301157A1 (en) 2018-10-18
US10319391B2 (en) 2019-06-11

Similar Documents

Publication Publication Date Title
CN106157967A (zh) 脉冲噪声抑制
US10504539B2 (en) Voice activity detection systems and methods
US11158304B2 (en) Training method of speech signal processing model with shared layer, electronic device and storage medium
EP2659487B1 (en) A noise suppressing method and a noise suppressor for applying the noise suppressing method
KR101246954B1 (ko) 오디오 신호에서의 잡음 추정을 위한 방법 및 장치
CN106068535B (zh) 噪声抑制
US8239196B1 (en) System and method for multi-channel multi-feature speech/noise classification for noise suppression
KR102132500B1 (ko) 조화성 기반 단일 채널 음성 품질 추정 기법
CN109599124A (zh) 一种音频数据处理方法、装置及存储介质
CN109087663A (zh) 信号处理器
CN104637489B (zh) 声音信号处理的方法和装置
US11245788B2 (en) Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications
JP6493889B2 (ja) 音声信号を検出するための方法および装置
CN113766073A (zh) 会议系统中的啸叫检测
CN108200526B (zh) 一种基于可信度曲线的音响调试方法及装置
EP3796629B1 (en) Double talk detection method, double talk detection device and echo cancellation system
US20140321655A1 (en) Sensitivity Calibration Method and Audio Device
CN108010536A (zh) 回声消除方法、装置、系统及存储介质
CN105981412A (zh) 用于基于至少第一对空间脉冲响应估计总体混合时间的装置和方法以及对应的计算机程序
CN110148421B (zh) 一种残余回声检测方法、终端和装置
CN112712816A (zh) 语音处理模型的训练方法和装置以及语音处理方法和装置
CN113470685A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
CN113160846A (zh) 噪声抑制方法和电子设备
JP2005258158A (ja) ノイズ除去装置
CN114302286A (zh) 一种通话语音降噪方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161123