CN116057628A - 用于语音和音乐录音的嗡嗡噪声检测和去除 - Google Patents
用于语音和音乐录音的嗡嗡噪声检测和去除 Download PDFInfo
- Publication number
- CN116057628A CN116057628A CN202180058376.6A CN202180058376A CN116057628A CN 116057628 A CN116057628 A CN 116057628A CN 202180058376 A CN202180058376 A CN 202180058376A CN 116057628 A CN116057628 A CN 116057628A
- Authority
- CN
- China
- Prior art keywords
- hum
- noise
- frames
- frequency
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02085—Periodic noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Abstract
描述了处理音频数据以进行嗡嗡噪声检测和/或去除的方法。音频数据包括多个帧。一种方法包括:使用一个或多个内容活动检测器将音频数据的帧分类为内容帧或噪声帧;根据音频数据的被分类为噪声帧的一个或多个帧确定噪声频谱;基于所确定的噪声频谱确定一个或多个嗡嗡噪声频率;基于一个或多个嗡嗡噪声频率生成估计的嗡嗡噪声信号;以及基于估计的嗡嗡噪声信号从音频数据的至少一个帧中去除嗡嗡噪声。还描述了用于执行方法的装置、以及对应程序和计算机可读存储介质。
Description
相关申请的交叉引用
本申请要求以下优先申请的优先权:于2020年7月30日提交的西班牙申请P202030814(参考号:D20073ES);于2020年10月7日提交的美国临时申请63/088,827(参考号:D20073USP1)和于2021年7月19日提交的美国临时申请63/223,252(参考号:D20073USP2),所述申请通过援引并入本文。
技术领域
本公开涉及用于处理音频数据的方法和装置。本公开进一步描述了用于音频录音(包括语音和音乐录音)的去嗡嗡声处理(例如,嗡嗡噪声(hum noise)检测和/或去除)的技术。这些技术可以适用于例如对音乐和语音录音的(基于云的)流式传输服务、在线处理和后处理。
背景技术
嗡嗡噪声经常存在于音频录音中。所述嗡嗡噪声可能源自接地回路、AC线路噪声、电缆、RF干扰、计算机主板、麦克风反馈、如冰箱等家用电器、霓虹灯蜂鸣等。用于处理嗡嗡噪声的软件解决方案通常是必要的,因为录音环境并不总能得到保证。
嗡嗡噪声通常表现为非常类似于一组固定频率的“音(tone)”。嗡嗡音(hum tone)通常间隔开固定的频率间隔,从而导致谐波声音。然而,“谐波”可能仅出现于部分频带中,并且基音(例如,感知上占主导的音)可能并不与其基本频率相对应。
为了增强包含嗡嗡噪声的语音/音乐录音,至关重要的是识别感知上占主导的嗡嗡音并且将其与语音/音乐谐波区分开。通常,需要用于进行嗡嗡噪声检测和/或去除的改进的技术。
发明内容
鉴于以上,本公开提供了处理音频数据的方法以及对应装置、计算机程序和计算机可读存储介质,其具有相应独立权利要求的特征。
根据本公开的一方面,提供了一种处理音频数据的方法。方法可以是检测和/或去除嗡嗡噪声的方法。例如,音频数据可以涉及音频文件、包括音频的视频文件、音频信号或包括音频的视频信号。音频数据可以包括多个帧。帧可以是重叠帧。因此,音频数据可以包括(或表示)一系列(重叠)帧。方法可以包括使用一个或多个内容活动检测器将音频数据的帧分类为内容帧或噪声帧。内容帧可以是音频数据的包含内容(如音乐和/或语音)的帧。因此,内容帧可以是在感知上由内容主导的帧。噪声帧可以是音频数据的在感知上由噪声主导的帧(例如,不包含内容的帧、可能不包含内容的帧或主要包含噪声的帧)。帧的分类可以涉及将相应内容类型的一个或多个可能性与相应阈值进行比较。可能性可能已经由一个或多个内容活动检测器确定。内容活动检测器也可以被称为内容分类器。进一步地,内容活动检测器可以通过适当训练的深度神经网络来实施。方法可以进一步包括根据音频数据的被分类为噪声帧的一个或多个帧确定噪声频谱。噪声频谱可以基于被分类为噪声帧的一个或多个帧的频谱确定。所确定的噪声频谱可以被称为聚集噪声频谱或关键噪声频谱。方法可以进一步包括基于所确定的噪声频谱确定一个或多个嗡嗡噪声频率。方法可以进一步包括基于一个或多个嗡嗡噪声频率生成估计的嗡嗡噪声信号。方法可以又进一步包括基于估计的嗡嗡噪声信号从音频数据的至少一个帧中去除嗡嗡噪声。
如上进行配置,所提出的方法在噪声帧与内容帧之间进行区分。然后仅噪声帧用于确定噪声频谱(例如,关键噪声频谱),并且基于此确定嗡嗡噪声频率。这允许可靠并且准确地评估嗡嗡噪声频率,并且因此用于高效去除嗡嗡噪声。所确定的嗡嗡噪声频率的高准确度大大降低了去噪输出音频数据中可感知的伪像的可能性。
在一些实施例中,一个或多个嗡嗡噪声频率可以被确定为噪声频谱的异常峰。如果噪声频谱的峰的幅度超出依赖于频率的阈值,则峰可以被确定/判定为与异常峰相关。这允许高效并且自动化检测嗡嗡噪声频率,并且进一步提供了控制嗡嗡噪声去除的激进性的易于实施的控制参数(例如,阈值)。此外,使用这种依赖于频率的阈值导致易于实施的嗡嗡噪声去除,但同时,通过适当选择依赖于频率的阈值,允许自动化对特定应用程序定制的更先进的去除过程。
在一些实施例中,确定一个或多个嗡嗡噪声频率可以涉及确定噪声频谱的平滑包络。例如,平滑包络可以是倒谱包络。替代性地,平滑包络可以基于跨频率的移动平均值确定。通常,平滑包络可以指示噪声频谱的预期值。确定一个或多个嗡嗡噪声频率可以进一步涉及将一个或多个嗡嗡噪声频率确定为与平滑包络相比较的噪声频谱的异常峰。
在一些实施例中,平滑包络可以在感知上弯曲的标度上确定。例如,感知上弯曲的标度可以是梅尔标度(Mel scale)或巴克标度(Bark scale)。这允许更好地处理低频中的近嗡嗡音,并补偿当在线性标度上计算包络时可能发生的可能过度估计。
在一些实施例中,如果噪声频谱的峰的幅度超出平滑包络大于阈值,则峰可以被判定为异常峰。例如,阈值可以是幅度阈值。
在一些实施例中,阈值可以是依赖于频率的阈值。对于较低频率,依赖于频率的(幅度)阈值可以较低。例如,依赖于频率的(幅度)阈值可以被定义为针对低频带具有第一值(例如,3dB)并且针对高频带具有大于第一值的第二值(例如,6dB)。因此,阈值适应于包络估计偏差和频率接近的底层正弦分量产生的分辨率限制。
在一些实施例中,噪声频谱可以基于被分类为噪声帧的一个或多个帧的频谱的平均而确定。在这种情况下,噪声频谱将是被分类为噪声帧的一个或多个帧的均值噪声频谱。
在一些实施例中,噪声频谱可以基于在被分类为噪声帧的一个或多个帧之一的频谱之中包括最大能量的频谱确定。例如,噪声频谱可以基于平均频谱(例如,均值噪声频谱)和包括最大能量的频谱的加权和。因此,可以获得具有较少平滑频率峰并且因此可以更准确地检测嗡嗡噪声频率的噪声频谱。
在一些实施例中,生成估计的嗡嗡噪声信号可以涉及为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。例如,合成的嗡嗡音可以是正弦音。估计的嗡嗡噪声信号可以是单个嗡嗡音的总和(叠加)。
在一些实施例中,生成估计的嗡嗡噪声信号可以涉及对于每个嗡嗡噪声频率,基于相应的嗡嗡噪声频率和至少一个帧中的音频数据来确定相应的嗡嗡噪声相位。以这种方式确定的嗡嗡噪声相位可以被称为瞬时嗡嗡噪声相位。例如,嗡嗡噪声相位可以使用最小二乘法确定。每个嗡嗡噪声频率可以具有各自相关的嗡嗡噪声相位。生成估计的嗡嗡噪声信号可以进一步涉及基于嗡嗡噪声频率和相应的嗡嗡噪声相位,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。
在一些实施例中,生成估计的嗡嗡噪声信号可以涉及对于每个嗡嗡噪声频率,基于相应嗡嗡噪声频率和至少一个帧中的音频数据来确定相应的(瞬时)嗡嗡噪声振幅。生成估计的嗡嗡噪声信号可以进一步涉及对于每个嗡嗡噪声频率,基于噪声频谱确定相应的平均嗡嗡噪声振幅。生成估计的嗡嗡噪声信号可以又进一步涉及基于相应的嗡嗡噪声频率、相应的嗡嗡噪声相位以及相应的嗡嗡噪声振幅与相应的平均嗡嗡噪声振幅中的较小者,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。通过选择瞬时嗡嗡噪声振幅与平均嗡嗡声振幅中的较小者,可以避免可能导致可听伪像的过度激进的嗡嗡噪声去除,如引入额外的嗡嗡噪声。此外,所提出的技术可以类似地应用于所有帧,无论其为内容帧(例如,语音、音乐)还是噪声帧。
在一些实施例中,当至少一个帧被分类为噪声帧时,生成估计的嗡嗡噪声信号可以涉及对于每个嗡嗡噪声频率,基于相应的嗡嗡噪声频率和至少一个帧中的音频数据来确定相应的嗡嗡噪声振幅。以这种方式确定的嗡嗡噪声振幅可以被称为瞬时嗡嗡噪声振幅。例如,嗡嗡噪声振幅可以使用最小二乘法确定。每个嗡嗡噪声频率可以具有各自相关的嗡嗡噪声振幅。在这种情况下生成估计的嗡嗡噪声信号可以进一步涉及基于相应的嗡嗡噪声频率、相应的(瞬时)嗡嗡噪声相位和相应的(瞬时)嗡嗡噪声振幅,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。
在一些实施例中,当至少一个帧被分类为内容帧时,生成估计的嗡嗡噪声信号可以涉及对于每个嗡嗡噪声频率,基于噪声频谱确定相应的平均嗡嗡噪声振幅。每个嗡嗡噪声频率可以具有各自相关的平均嗡嗡噪声振幅。在这种情况下生成估计的嗡嗡噪声信号可以进一步涉及基于相应的嗡嗡噪声频率、相应的(瞬时)嗡嗡噪声相位和相应的平均嗡嗡噪声振幅,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。替代性地,可以使用先前(例如,直接先前)噪声帧的瞬时嗡嗡噪声振幅,而非使用平均嗡嗡噪声振幅。
在一些实施例中,生成估计的嗡嗡噪声信号可以涉及对于每个嗡嗡噪声频率,基于噪声频谱确定相应的平均嗡嗡噪声振幅。每个嗡嗡噪声频率可以具有各自相关的平均嗡嗡噪声振幅。生成估计的嗡嗡噪声信号可以进一步涉及基于相应的嗡嗡噪声频率和相应的平均嗡嗡噪声振幅,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。
在一些实施例中,从至少一个帧中去除嗡嗡噪声可以涉及从至少一个帧中减去估计的嗡嗡噪声信号。
在一些实施例中,噪声频谱可以基于音频数据的被分类为噪声帧的所有帧的频谱确定。这假定了音频数据的所有帧同时可用并且可以被称为离线处理。
在一些实施例中,方法可以包括顺序接收和处理音频数据的帧。方法可以进一步包括对于当前帧,如果当前帧被分类为噪声帧,则基于当前帧的频谱更新噪声频谱。此场景可以被称为在线处理。对于在线处理,方法可以进一步包括:根据更新的噪声频谱确定一个或多个更新的嗡嗡噪声频率;基于一个或多个更新的嗡嗡噪声频率生成更新的估计的嗡嗡噪声信号;和/或基于更新的估计的嗡嗡噪声信号从当前帧中去除嗡嗡噪声。
在一些实施例中,噪声频谱可以根据被分类为噪声帧的多个帧确定。方法可以进一步包括基于被分类为噪声帧的多个帧的频谱确定一个或多个嗡嗡噪声频率随时间的变化。方法可以又进一步包括根据随时间的变化,对音频数据的帧应用带通滤波。其中,带通滤波器可以被设计为使得阻带包括一个或多个嗡嗡噪声频率。例如,如果随时间的变化指示非平稳嗡嗡噪声,即如果嗡嗡噪声频率以超过特定速率进行调制,则可以应用带通滤波。如果随时间的变化超出随时间变化的特定阈值,则可以判定非平稳嗡嗡噪声的存在,并且可以相应地应用带通滤波。这使得避免了可听伪像,如引入额外的嗡嗡噪声,伪像可能由于当应用于(高度)非稳定嗡嗡噪声时进行嗡嗡噪声去除而产生。
在一些实施例中,阻带的宽度可以基于相应的嗡嗡噪声频率随时间的变化确定。
在一些实施例中,方法可以包括对于一个或多个嗡嗡噪声频率中的至少一个嗡嗡噪声频率,确定至少一个嗡嗡噪声频率是否作为音频数据的所有帧的频谱中的峰存在。方法可以进一步包括如果至少一个嗡嗡噪声频率不作为音频数据的所有帧的频谱中的峰存在,则在去除嗡嗡噪声时,忽略至少一个嗡嗡噪声频率。换句话说,如果根据噪声频谱确定的嗡嗡噪声频率贯穿整个音频数据(例如从第一帧至最后一帧)存在,则可以考虑仅将嗡嗡噪声频率用于嗡嗡噪声去除。因此,假定仅嗡嗡噪声贯穿整个音频录音存在,就可以将内容相关的谐波(例如,如音乐中的那些谐波)与嗡嗡噪声区分开。
根据另一方面,提供了一种计算机程序。计算机程序可以包括指令,指令当由处理器(例如,计算机处理器、服务器处理器)执行时使处理器执行贯穿本公开描述的方法的所有步骤。
根据另一方面,提供了一种计算机可读存储介质。计算机可读存储介质可以存储上述计算机程序。
根据又另一方面,提供了一种装置,装置包括处理器和耦接到处理器的存储器。处理器可以适应于执行贯穿本公开描述的方法的所有步骤。例如,此装置可以与服务器(例如,基于云的服务器)或与服务器系统(例如,基于云的服务器的系统)相关。
将理解,装置特征和方法步骤可以以多种方式互换。特别地,如技术人员所理解的,所公开的(多种)方法的细节可以由对应装置实施,并且反之亦然。此外,上述关于(多种)方法(以及,例如其步骤)的任何陈述均应理解为同样适用于对应装置(以及,例如,其框、阶段、单元),并且反之亦然。
附图说明
下文参考附图解释本公开的示例实施例,在附图中:
图1是图示了根据本公开实施例的方法的示例的流程图,
图2是图示了根据本公开实施例的噪声频谱的示例的图,
图3是图示了根据本公开实施例的图1的方法的步骤的实施方式的示例的流程图,
图4是图示了根据本公开实施例的针对噪声频谱的平滑包络的示例的图,
图5至图9是图示了根据本公开实施例的图1的方法的另一步骤的实施方式的示例的流程图,
图10是图示了根据本公开实施例的技术的功能概述的示例的框图,以及
图11是根据本公开实施例的用于执行方法的装置的框图。
具体实施方式
附图和以下描述仅作为说明与优选实施例相关。应当注意的是,根据下面的讨论,本文所公开的结构和方法的替代实施例将容易地被公认为在不背离所要求保护的原理的情况下可以采用的可行替代方案。
现在将详细参照若干实施例,在附图中展示了所述实施例的示例。需要注意的是,在可行的情况下,可以在附图中使用类似或相似的附图标记,并且所述附图标记可以表示类似或相似的功能。附图仅出于说明目的描绘所公开系统(或方法)的实施例。本领域技术人员将容易从以下描述中认识到,在不脱离本文所述的原理的情况下,可以采用本文所展示的结构和方法的替代实施例。
在用于处理嗡嗡噪声的一种可能方法中,基于每个频率仓(bin)中功率随时间的波动量来检测嗡嗡音。然后通过自适应陷波滤波算法细化嗡嗡声频率。然而,这种方法很难例如安全地阻止将持续低音检测为嗡嗡噪声。
而且,可以使用若干个常见的滤波器来去除嗡嗡声,但已经发现以这种方式处理的音频质量还有改进的空间。此外,已知简单的滤波器可能引入相位失真和/或不可避免地抑制内容分量,并且因此导致伪像,这特别是当嗡嗡噪声干扰语音谐波和/或音乐谐波时可能令人不快。
在用于处理嗡嗡噪声的另一种可能方法中,FIR带通滤波器被设计成将50Hz嗡嗡声的前五个谐波的振幅降低至少40dB。对经FIR带通滤波的语音信号的短期振幅应用40dB的固定阈值允许累积语音和非语音信号通道。基于非语音信号通道,得到平均频谱能量,并且使用简单的峰捡取或基本频率估计来检测嗡嗡音。然后从原始信号中去除检测到的嗡嗡音。同样在这种情况下,处理后的音频质量还有改进的空间,因为固定阈值化可以抑制期望的非噪声内容(例如,频谱上类似于基本噪声估计的语音或音乐内容)。
本公开描述了一种用于例如通过嗡嗡噪声的正弦建模来自动检测和随后去除语音和音乐录音的嗡嗡噪声的方法。
所提出的方法可以具有以下三个关键方面中的一个或多个:
·使用内容活动检测(CAD)来识别噪声(非内容,例如非语音和非音乐)帧,其中分析了嗡嗡噪声
·依赖于频率的和/或感知相关的嗡嗡音检测,可能不假设谐波关系
·自适应使用全局平均嗡嗡声振幅和振幅的局部瞬时估计
现在将更详细地描述本公开的示例实施例。
图1是图示了根据本公开实施例的处理音频数据的方法100的示例的流程图。方法100可以是由音频数据表示的音频录音(或通常包括音频的文件)中嗡嗡噪声检测和/或嗡嗡噪声去除的方法。通常,例如,音频数据可以涉及音频文件、包括音频的视频文件、音频信号或包括音频的视频信号。
音频数据包括多个帧。例如,音频数据可能已经通过执行短时帧分析生成。短时帧分析可以使用窗口(窗口函数)和/或帧之间的重叠。因此,音频数据可以包括(或表示)一系列(重叠)帧。例如,可以使用汉宁窗口(例如,85ms汉宁窗口)。此外,可以使用50%重叠。当然,也可以根据需求,例如根据录音内容中存在或预期的一个或多个最小频率,选择窗口函数、窗口长度和/或重叠的其他组合。
在方法100的步骤S110处,将音频数据的帧分类为内容帧或噪声帧。这可以使用一个或多个内容活动检测器(CAD)或内容分类器。内容帧可以是音频数据的包含内容(如音乐和/或语音)的帧。噪声帧可以是音频数据的不包含内容的帧。
例如,现有的内容活动检测器可以用于估计不同类型的内容诸如语音和音乐的瞬时概率。如果音乐和语音概率均不高于其相应阈值,则可以将帧分类为噪声。通常,帧的分类可以涉及将相应内容类型的一个或多个概率(可能性)与相应阈值进行比较。概率可以由一个或多个内容活动检测器确定。应当理解,例如,内容活动检测器可以通过适当训练的深度神经网络来实施。
在步骤S120处,根据音频数据的被分类为噪声帧的一个或多个帧确定噪声频谱。特别地,噪声频谱可以基于被分类为噪声帧的一个或多个帧的频谱确定(例如,估计)。换句话说,可以累积噪声帧的频谱以估计噪声频谱。因此噪声频谱可以被称为聚集噪声频谱或关键噪声频谱(KNS)。在一些实施方式中,噪声频谱(例如,关键噪声频谱)可以基于已分类为噪声帧的阈值数量的帧,响应于已分类为噪声帧的阈值数量的帧来确定。例如,方法可以首先累积阈值数量的噪声帧,并且仅在阈值数量的噪声帧可用后才确定噪声频谱。在一个实施方式中,噪声频谱(例如,关键噪声频谱)可以基于被分类为噪声帧的一个或多个帧的频谱的平均而确定(例如,估计)。特别地,噪声频谱可以被确定为所考虑的所有频谱(即,所有考虑的噪声帧的频谱)的平均值。所得噪声频谱可以是所考虑的噪声帧(即,在步骤S110处被分类为噪声帧的一个或多个帧)的均值噪声频谱(MNS)。MNS可以在每个噪声帧处更新,并且因此可以以在线自适应方式使用。对于在线场景,如果音频数据的初始帧不是噪声,则可以使用依赖于频率的CAD与稳定音跟踪相结合,直到有可用噪声帧。在这种情况下,在一些实施方式中,均值噪声频谱可以基于已分类为噪声帧的阈值数量的帧,响应于已分类为噪声帧的阈值数量的帧来确定。例如,方法可以首先累积阈值数量的噪声帧,并且仅在阈值数量的噪声帧可用后才确定均值噪声频谱。
在另一个实施方式中,噪声频谱(例如,关键噪声频谱)可以基于在被分类为噪声帧的一个或多个帧之一的频谱之中包括最大能量的频谱确定。例如,噪声频谱可以基于(例如,被确定为)平均频谱(例如,均值噪声频谱)和包括最大能量的频谱的加权和。换句话说,噪声频谱(关键噪声频谱)可以被确定为MNS与最强噪声频谱的加权和。与MNS相比,这提供了“具有更多尖峰”的频谱,因为当嗡嗡音被略微调制时,MNS倾向于平滑嗡嗡音峰。所得噪声频谱可以是所考虑的噪声帧(即,在步骤S110处被分类为噪声帧的一个或多个帧)的加权噪声频谱(WNS)。可以选择加权和的权重作为噪声频谱的期望“尖峰度(spikiness)”的控制参数。
图2示出了MNS(曲线210)与WNS(曲线220)之间比较的示例。如上提及,WNS不如MNS平滑。
在方法100的步骤S130处,基于所确定的噪声频谱来确定一个或多个嗡嗡噪声频率。例如,一个或多个嗡嗡噪声频率可以被确定为噪声频谱的异常峰。噪声频谱的峰可以基于相应频率仓处的计数(例如,基于噪声频谱的每个频率仓处的(相对)能量的相应指示)来检测/识别。例如,如果噪声频谱的检测到的峰的幅度超出阈值,如依赖于频率的阈值,则峰可以被确定/判定为与异常峰相关。
如上提及,嗡嗡音的检测是基于给定的噪声频谱(例如,KNS)进行的。步骤S130的一个实施方式300在图3的流程图中示意性地图示。因此,在步骤S130处确定一个或多个嗡嗡噪声频率可以涉及以下描述的步骤S310和S320。
在步骤S310处,确定噪声频谱的平滑包络。例如,平滑包络可以是倒谱包络。倒谱包络可以说是代表了噪声频谱的预期幅度。其为穿过每个频率仓处的预期值的依赖于频率的平滑曲线。替代性地,平滑包络可以基于跨频率的移动平均值确定。通常,平滑包络可以指示噪声频谱的预期值。然后可以选择异常分量作为可能的嗡嗡音。
在一种可能的实施方式中,例如,平滑包络可以在感知上弯曲的标度诸如梅尔标度或巴克标度)上确定。在感知上弯曲的标度(例如,梅尔、巴克等)上的分析(例如,倒谱分析)可以用于在低频率区域更快地适应(因此在高频率区域更慢地适应)。这允许更好地处理低频率中的近嗡嗡音,并补偿在线性标度上计算时可能发生的可能过度估计。这种包络在高频率下也趋于平滑,其中实际本底噪声不会在频率仓之间非常迅速地变化。
在步骤S320处,将一个或多个嗡嗡噪声频率与平滑包络相比较而确定为噪声频谱的异常峰。例如,如果噪声频谱的峰的幅度超出平滑包络大于阈值,则峰可以被判定为异常峰。例如,此阈值可以是幅度阈值。特别地,可以为来自倒谱包络的具有多个大于阈值的峰选择噪声频谱的异常值(例如,KNS)。
上述阈值可以是依赖于频率的阈值。因此,在一个实施方式中,可以为不同的频带设置不同的阈值。其中,对于较低频率(较低频带),依赖于频率的(幅度)阈值可能较低。例如,依赖于频率的(幅度)阈值可以被定义为针对低频带(或多个低频带)具有第一值(例如,3dB)并且针对高频带(或多个高频带)具有大于第一值的第二值(例如,6dB)。例如,(多个)低频带与(多个)高频带之间的频率边界可以设置为4kHz。在另一个示例中,阈值可以被定义为跨频率的平滑传递函数。
图4示出了噪声频谱410与倒谱包络420相比较的示例。噪声频谱410的充分高于倒谱包络420的峰可以被检测为异常峰,并且因此被检测为嗡嗡音。如果需要或必要,可以使用二次插值快速傅里叶变换QIFFT方法细化嗡嗡音频率。
一旦选择了嗡嗡音频率,就可以在检测到的频率处从噪声频谱(例如,KNS、MNS、WNS)得到其时间振幅(例如,平均嗡嗡声振幅MHA)。例如,平均嗡嗡声振幅可以基于噪声频谱(例如,KNS)来确定,如通过确定噪声频谱中的相应的嗡嗡音频率的峰值。
回到图1,在方法100的步骤S140处,基于一个或多个嗡嗡噪声频率生成估计的嗡嗡噪声信号。这可以涉及为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音(例如,正弦音)。估计的嗡嗡噪声信号可以是嗡嗡音的总和(叠加)。从这个意义上说,嗡嗡音被建模为加法模型:正弦曲线之和。
在给定嗡嗡音频率的情况下,可以在每个短时帧处使用最小二乘法估计瞬时振幅和相位,以合成相应的正弦曲线。
·如果短时帧是噪声,则可以使用瞬时振幅和瞬时相位进行正弦曲线合成。
·如果短时帧包含混合内容(例如,语音和音乐),则可以使用MHA和瞬时相位进行正弦曲线合成。替代性地,也可以使用来自早期帧的瞬时振幅和针对当前帧的瞬时相位进行正弦曲线合成。
替代性地,也可以针对所有帧类型(例如,针对噪声帧和包含内容的帧两者)使用MHA作为不太激进的嗡嗡声去除选项。作为进一步细化,可以使用瞬时振幅和MHA中的较小者进行正弦曲线合成。
图5至图9示出了与上述一致的用于基于一个或多个嗡嗡噪声频率生成估计的嗡嗡噪声信号的步骤S140的可能实施方式的非限制性示例。
图5中图示的方法500包括步骤S510和S520,并且可以应用于所有帧而无论内容类型如何。
在步骤S510处,对于每个嗡嗡噪声频率,基于相应的嗡嗡噪声频率和至少一个帧中的音频数据来确定相应的嗡嗡噪声相位。因此,每个嗡嗡噪声频率可以具有各自相关的嗡嗡噪声相位。嗡嗡噪声相位可以使用最小二乘法确定,例如,通过拟合到至少一个帧中的音频信号。进一步地,如以上所指示的,以这种方式确定的嗡嗡噪声相位可以被称为瞬时嗡嗡噪声相位。应当理解,瞬时相位和瞬时振幅可以在一些实施方式中共同确定(例如,通过最小二乘法),但是单独(独立)确定瞬时相位和瞬时振幅也是可行的。
在步骤S520处,基于嗡嗡噪声频率和相应的(瞬时)嗡嗡噪声相位,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。如以下将更详细描述的,对于每个嗡嗡噪声频率,合成可以进一步基于相应的嗡嗡噪声振幅。可行的嗡嗡噪声振幅包括瞬时嗡嗡噪声振幅、MHA或一者或两者的函数。
图6中图示的方法600包括步骤S610、S620和S630,并且可以应用于所有帧而无论内容类型如何。
在步骤S610处,对于每个嗡嗡噪声频率,基于相应的嗡嗡噪声频率和至少一个帧中的音频数据来确定相应的嗡嗡噪声振幅。因此,每个嗡嗡噪声频率可以具有各自相关的嗡嗡噪声振幅。嗡嗡噪声振幅可以使用最小二乘法确定,例如,通过拟合到至少一个帧中的音频信号。进一步地,如以上所指示的,以这种方式确定的嗡嗡噪声振幅可以被称为瞬时嗡嗡噪声振幅。应当理解,瞬时相位和瞬时振幅可以在一些实施方式中共同确定(例如,通过最小二乘法),但是单独(独立)确定瞬时相位和瞬时振幅也是可行的。
在步骤S620处,对于每个嗡嗡噪声频率,基于噪声频谱确定相应的平均嗡嗡噪声振幅。因此,每个嗡嗡噪声频率可以具有各自相关的平均嗡嗡噪声振幅。例如,可以以上述方式进行确定。重要的是,平均嗡嗡声振幅是基于噪声频谱(例如,KNS)确定的,与至少一个帧中的音频数据无关。因此,平均嗡嗡声振幅对于所有帧是通用的(除了在线场景中可能的调整或更新,如下)。
然后,在步骤S630处,基于相应的嗡嗡噪声频率、相应的嗡嗡噪声相位以及相应的(瞬时)嗡嗡噪声振幅与相应的平均嗡嗡噪声振幅中的较小者,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。通过选择瞬时嗡嗡噪声振幅与MHA中的较小者,可以避免可能导致可听伪像(例如,如引入额外的嗡嗡噪声)的过度激进的嗡嗡噪声去除,并且所提出的技术可以类似地应用于所有帧,无论其为内容帧(例如,语音、音乐)还是噪声帧。
替代性地,在一些实施方式中,如果MHA不可用,则可以使用先前(例如,直接先前)噪声帧的瞬时嗡嗡噪声振幅,而非平均嗡嗡噪声振幅。
图7中图示的方法700包括步骤S710和S720,并且尤其适合于噪声帧。
在步骤S710处,对于每个嗡嗡噪声频率,基于相应的嗡嗡噪声频率和至少一个帧中的音频数据来确定相应的(瞬时)嗡嗡噪声振幅。这可以以与上述方式相同的方式完成,例如相对于方法600的步骤S610。
在步骤S720处,基于相应的嗡嗡噪声频率、相应的(瞬时)嗡嗡噪声相位和相应的(瞬时)嗡嗡噪声振幅,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。
图8中图示的方法800包括步骤S810和S820,并且尤其适合于内容帧(例如,语音或音乐帧)。
在步骤S810处,对于每个嗡嗡噪声频率,基于噪声频谱确定相应的平均嗡嗡噪声振幅。例如,这可以以上述方式完成。
在步骤S820处,基于相应的嗡嗡噪声频率、相应的嗡嗡噪声相位和相应的平均嗡嗡噪声振幅,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。
图9中图示的方法900包括步骤S910和S920,并且可以应用于所有帧而无论内容类型如何。
在步骤S910处,对于每个嗡嗡噪声频率,基于噪声频谱确定相应的平均嗡嗡噪声振幅。
在步骤S920处,基于相应的嗡嗡噪声频率和相应的平均嗡嗡噪声振幅,为一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。如上,对于每个嗡嗡噪声频率,合成可以进一步基于相应的(瞬时)嗡嗡噪声相位。
回到图1,在方法100的步骤S150处,基于估计的嗡嗡噪声信号,从音频数据的至少一个帧中去除嗡嗡噪声。这可以涉及从至少一个帧中减去在步骤S140处生成的估计的嗡嗡噪声信号。例如,对于考虑中的每个短时帧(例如,音频数据的每个短时帧),可以从输入信号中减去合成的正弦曲线(例如,基于一个或多个所识别的嗡嗡声频率的一个或多个正弦曲线)作为最终嗡嗡声去除过程。
可以使用若干种技术来验证嗡嗡噪声去除。这些技术的示例将在以下进行描述。
为了处理嗡嗡音的不准确估计,可以基于对去嗡嗡声处理前后的能量进行比较来进行简单的检查。如果能量相对于合成的嗡嗡音增加预定义的量(或更多),则时域减法很可能由于不准确估计而增加了嗡嗡音。在这种情况下,算法将绕过处理后的输出(例如,如果对于音频数据的相应部分,去嗡嗡声处理后的能量比处理前的能量超出阈值量,则在最终输出中省略对音频数据的相应部分的去嗡嗡声处理)。
此外,可以通过考虑检测到的嗡嗡噪声频率随时间的变化来检测嗡嗡噪声频率随时间变化的调制,调制可能影响嗡嗡噪声去除的质量。假设噪声频谱(例如,KNS)是根据多个噪声帧(即,被分类为噪声帧的帧)确定的,方法100可以另外包括基于多个噪声帧的频谱确定一个或多个嗡嗡噪声频率随时间的变化。根据随时间的变化,可以对音频数据的帧应用带通滤波,而不是步骤S150的嗡嗡噪声去除。例如,带通滤波可以应用于随时间的大变化(例如,应用于大于阈值的变化),并且步骤S150的嗡嗡噪声去除可以应用于随时间的小变化(例如,应用于小于阈值的变化)。
换句话说,例如,如果随时间的变化指示非平稳嗡嗡噪声(或超过可接受的非平稳性的阈值的非平稳噪声),即如果嗡嗡噪声频率以超过特定速率进行调制,则可以应用带通滤波。如果随时间的变化超出随时间变化的特定阈值,则可以判定非平稳嗡嗡噪声的存在,并且可以相应地应用带通滤波。
出于此目的使用的带通滤波器可以被设计为使得阻带包括一个或多个嗡嗡噪声频率。阻带的宽度可以基于相应的嗡嗡噪声频率随时间的变化确定。
应当理解,步骤S150的嗡嗡噪声去除和带通滤波可以以混合方式应用。也就是说,带通滤波可以应用于展示出随时间大变化的那些嗡嗡噪声频率,而阻带包括这些嗡嗡噪声频率,并且按照步骤S150的嗡嗡噪声去除可以应用于剩余的嗡嗡噪声频率。
特别是(但不完全)音乐录音可以包括可能与嗡嗡噪声混淆的预期音,如低音吉他等。在这种情况下,可以通过检查考虑中的频率是否贯穿整个录音过程或至少其大部分存在来区分实际嗡嗡噪声与预期音。因此,方法100可以进一步包括对于检测到的一个或多个嗡嗡噪声频率中的至少一个嗡嗡噪声频率,确定至少一个嗡嗡噪声频率是否作为音频数据的大多数帧(甚至可能是音频数据的所有帧)的频谱中的峰存在。如果是,则可以假设相应的嗡嗡噪声频率与实际嗡嗡噪声相关。否则,如果至少一个嗡嗡噪声频率不作为音频数据的大多数帧的频谱中的峰存在,则在去除嗡嗡噪声时,在步骤S150处可以忽略至少一个嗡嗡噪声频率。音频数据的大多数帧可以与音频数据的预定义份额的帧诸如所有帧的90%、所有帧的95%等相关。因此,如果根据噪声频谱确定的嗡嗡噪声频率以音频信号的预定义份额(或更多)的帧存在,则可以考虑仅将嗡嗡噪声频率用于嗡嗡噪声去除。在一些实施方式中,如果根据噪声频谱确定的嗡嗡噪声频率贯穿整个音频数据(例如,从第一帧至最后一帧)存在,则可以考虑仅将嗡嗡噪声频率用于嗡嗡噪声去除。
应当进一步理解,根据本公开的技术可以用于离线场景和在线场景两者。在离线场景中,假设整个音频数据立即(同时)可用,使得可以基于音频数据的所有帧来分析嗡嗡噪声。对于离线处理,噪声频谱可以基于音频数据的被分类为噪声帧的所有帧的频谱确定。
在在线场景中,音频数据的帧被逐个提供用于分析。也就是说,对于在线处理,方法100将涉及顺序接收和处理音频数据的帧。然后,对于当前帧,如果在步骤S110处当前帧被分类为噪声帧,则将在步骤S120处基于当前帧的频谱更新噪声频谱。步骤S130至S150将如上基本上继续进行。这可以涉及例如,在步骤S130处,根据更新的噪声频谱确定一个或多个更新的嗡嗡噪声频率,在步骤S140处,基于一个或多个更新的嗡嗡噪声频率生成更新的估计嗡嗡噪声信号,以及在步骤S150处,基于更新的估计嗡嗡噪声信号从当前帧去除嗡嗡噪声。
图10是图示了与上述一致的根据本公开的实施例的技术的功能概述1000的非限制性示例的框图。应当注意,此图中所示的框及其对应的功能可以在软件、硬件或软件和硬件的组合中实施。
框1010接收音频输入作为(重叠)帧。框1020实施一个或多个内容活动检测器用于对帧进行分类,例如与上述步骤S110一致。如果帧没有内容活动,即,是噪声帧,则将其提供给框1030用于估计噪声频谱(例如,KNS)。例如,这可以与上述步骤S120一致地完成。框1035确定噪声频谱的平滑包络,如倒谱包络。在框1040处使用噪声频谱和平滑包络以进行嗡嗡声检测,例如,通过检测噪声频谱的超出平滑包络的异常峰。然后,框1050基于嗡嗡声检测的结果确定嗡嗡噪声频率和平均嗡嗡声振幅。例如,框1035、1040和1050的操作可以与上述步骤S130一致地继续进行。向框1070提供确定的嗡嗡噪声频率和平均嗡嗡声振幅以进行嗡嗡音合成。如果帧没有内容活动,即,是噪声帧,则在框1060处确定瞬时振幅和相位。这可以进一步使用由框1050确定的嗡嗡噪声频率。然后在框1070处进行嗡嗡音合成。其细节可以取决于要为其去除嗡嗡噪声的(多个)帧的特定实施方式和/或分类。例如,框1060和1070的操作可以与上述步骤S140一致地继续进行。然后在加法器/减法器1080处从相应帧中减去合成的嗡嗡音。例如,这可以与上述步骤S150一致。最后,在框1090执行重叠和相加以生成输出信号。框1090可以是或可以不是实际嗡嗡噪声去除过程的一部分,取决于具体实施方式。
本公开还涉及一种用于执行贯穿本公开描述的方法和技术的装置。图11示出了这种装置1100的示例。装置1100包括处理器1110和耦接到处理器1110的存储器1120。存储器1120可以存储用于处理器1110的指令。处理器1110可以接收音频数据1130作为输入。音频数据1130可以具有嗡嗡噪声检测和/或嗡嗡噪声去除的相应方法的上下文中的上述性质。处理器1110可以适应于执行贯穿本公开描述的方法/技术。因此,处理器1110可以输出去噪的音频数据1140。进一步地,处理器1110可以接收一个或多个控制参数1150的输入。例如,这些控制参数1150可以包括用于控制嗡嗡噪声去除的激进性的控制参数。
解释
本文所描述的系统的各方面可以在适当的基于计算机的声音处理网络环境(例如,服务器或云环境)中实施,以便处理数字或数字化音频文件。自适应音频系统的部分可以包括一个或多个网络,一个或多个网络包括任何期望数量的独立机器,独立机器包括用于缓冲和路由在计算机之间传输的数据的一个或多个路由器(未示出)。这种网络可以在各种不同的网络协议上构建,并且可以是因特网、广域网(WAN)、局域网(LAN)或其任何组合。
部件、块、过程或其他功能部件中的一个或多个可以通过控制系统的一个或多个基于处理器的计算设备的执行的一个或多个计算机程序来实施。还应当注意,可以使用硬件、固件和/或体现在各种机器可读或计算机可读介质中的数据和/或指令的任何数量的组合,从行为、寄存器传输、逻辑部件和/或其他特性的角度描述本文公开的各种功能。可以体现这种格式化数据和/或指令的计算机可读介质包括但不限于各种形式的物理(非暂态)、非易失性存储介质,如光、磁或半导体存储介质。
特别地,应当理解,实施例可以包括硬件、软件和电子部件或模块,出于讨论目的,可以将其图示和描述为似乎大多数部件仅在硬件中实施。然而,本领域的普通技术人员,并且基于对本具体实施方式的阅读,将认识到在至少一个实施例中,基于电子的方面可以在可由一个或多个电子处理器诸如微处理器和/或专用集成电路(“ASIC”)执行的软件(例如,存储在非暂态计算机可读介质上)中实施。因此,应当注意,可以利用多个基于硬件和软件的设备以及多个不同的结构部件来实施实施例。例如,本文的“内容活动检测器”可以包括一个或多个电子处理器、一个或多个计算机可读介质模块、一个或多个输入/输出接口、以及连接各个部件的各种连接(例如,系统总线)。
虽然已经通过示例并且就具体实施例描述了一种或多种实施方式,但是应当理解,一种或多种实施方式不限于所公开的实施例。相反,其旨在覆盖对本领域技术人员显而易见的各种修改和类似布置。因此,所附权利要求的范围应当被赋予最广泛的解释,以便涵盖所有这样的修改和类似布置。
同样,应理解,本文中所使用的措词和术语是出于描述的目的且不应视为是限制性的。“包括(including)”、“包括(comprising)”或“具有”及其变体的使用意在涵盖其后列出的项目及其等同物以及附加项目。除非另有规定或限制,否则术语“安装”、“连接”、“支撑”和“耦接”及其变体被广泛使用并且涵盖直接和间接安装、连接、支撑和耦接。
所枚举的示例实施例
本公开的各个方面和实施方式也可以从以下所枚举的示例实施例(EEE)中理解,示例实施例不是权利要求。
EEE1.一种用于从音频数据自动检测和去除嗡嗡噪声的方法,方法包括:将音频分成多个重叠帧;使用一个或多个内容活动检测器(CAD)将多个重叠帧中的每个重叠帧分类为语音/音乐或噪声;估计多个重叠帧的子集中的关键噪声频谱(KNS);从关键噪声频谱中识别一组嗡嗡声频率;从均值噪声频谱(MNS;例如,基于被分类为噪声的帧子集的平均频谱)中估计与一组嗡嗡声频率相关联的一组嗡嗡声振幅;在每个短时帧处估计与一组嗡嗡声频率相关联的一组瞬时振幅和一组瞬时相位;根据一组嗡嗡声频率合成一组嗡嗡音;以及对于音频的一个或多个短时帧,减去所合成的一组嗡嗡音。
EEE2.如EEE1的方法,其中,将接收到的音频分成多个重叠帧包括应用窗口函数和根据与音频相关联的一个或多个低频音选择的帧大小(例如,被选择以充分解析音频中存在的最低可听频率)。
EEE3.如EEE1或EEE2的方法,其中,一个或多个CAD包括专用于检测不同的内容类型的并行的多个CAD。
EEE4.如EEE1至EEE3中任一项的方法,其中,KNS是根据(例如,基于)被分类为噪声的帧的平均频谱(MNS)估计的。
EEE5.如EEE1至EEE3中任一项的方法,其中,KNS是根据(例如,基于)包括用MNS加权的最大能量的噪声频谱估计的。
EEE6.如EEE4的方法,其中,对于离线场景,考虑文件中的所有噪声帧(例如,将文件中分类为噪声的所有帧用于KNS)。
EEE7.如EEE4的方法,其中,对于在线场景,自适应地考虑连续接收的噪声帧(例如,随着文件中噪声帧的分析而更新KNS)。
EEE8.如EEE1至EEE7中任一项的方法,其中,一个或多个CAD确定频率相关概率。
EEE9.如EEE1至EEE8中任一项的方法,其中,一组嗡嗡声频率与由KNS的倒谱包络定义的预期值相比较而被识别为异常峰。
EEE10.如EEE9的方法,其中,倒谱包络是在感知上弯曲的标度(例如,梅尔标度、巴克标度等)上估计的。
EEE11.如EEE9或EEE10的方法,其中,检测由超出倒谱包络的幅度阈值定义。
EEE12.如EEE11的方法,其中,幅度阈值是自适应阈值(例如,自适应于不同频带)。
EEE13.如EEE1至EEE12中任一项的方法,其中,瞬时振幅和瞬时相位在嗡嗡声频率处估计。
EEE14.如EEE13的方法,其中,估计瞬时振幅或估计瞬时相位包括在时域中执行最小二乘估计方法。
EEE15.如EEE1至EEE14中任一项的方法,其中,合成一组嗡嗡音包括基于所识别的一组嗡嗡声频率和所估计的一组瞬时相位对多个正弦曲线求和。
EEE16.如EEE15的方法,其中,合成一组嗡嗡音进一步基于从MNS中估计的振幅;并且其中,音频的一个或多个短时帧是包含语音/音乐的帧。
EEE17.如EEE15的方法,其中,合成一组嗡嗡音进一步基于所估计的一组瞬时振幅;并且其中,音频的一个或多个短时帧是包含噪声的帧。
EEE18.如EEE15的方法,其中,合成一组嗡嗡音进一步基于从MNS中估计的振幅;并且其中,音频的一个或多个短时帧包括包含语音/音乐的帧和包含噪声的帧(例如,从MNS估计的振幅用于合成和消去来自所有帧的嗡嗡声或其他操作,而无论帧被一个或多个CAD如何分类)。
权利要求书:
Claims (23)
1.一种处理音频数据的方法,其中,所述音频数据包括多个帧,所述方法包括:
使用一个或多个内容活动检测器将所述音频数据的帧分类为内容帧或噪声帧;
根据所述音频数据的被分类为噪声帧的一个或多个帧确定噪声频谱;
基于所确定的噪声频谱确定一个或多个嗡嗡噪声频率;
基于所述一个或多个嗡嗡噪声频率生成估计的嗡嗡噪声信号;以及
基于所述估计的嗡嗡噪声信号从所述音频数据的至少一个帧中去除嗡嗡噪声。
2.根据权利要求1所述的方法,其中,所述一个或多个嗡嗡噪声频率被确定为所述噪声频谱的异常峰。
3.根据权利要求1或2所述的方法,其中,确定多个嗡嗡噪声频率中的所述一个涉及:
确定所述噪声频谱的平滑包络;以及
将所述一个或多个嗡嗡噪声频率确定为与所述平滑包络相比较的所述噪声频谱的异常峰。
4.根据权利要求3所述的方法,其中,所述平滑包络是在感知上弯曲的标度上确定的。
5.根据权利要求3或4所述的方法,其中,如果所述噪声频谱的峰的幅度超出所述平滑包络大于阈值,则所述峰被判定为异常峰。
6.根据权利要求5所述的方法,其中,所述阈值是依赖于频率的阈值。
7.根据前述权利要求中任一项所述的方法,其中,所述噪声频谱是基于被分类为噪声帧的所述一个或多个帧的频谱的平均而确定的。
8.根据前述权利要求中任一项所述的方法,其中,所述噪声频谱是基于在被分类为噪声帧的所述一个或多个帧之一的频谱之中包括最大能量的频谱确定的。
9.根据前述权利要求中任一项所述的方法,其中,生成所述估计的嗡嗡噪声信号涉及为所述一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。
10.根据权利要求1至8中任一项所述的方法,其中,生成所述估计的嗡嗡噪声信号涉及:
对于每个嗡嗡噪声频率,基于所述相应的嗡嗡噪声频率和所述至少一个帧中的音频数据来确定相应的嗡嗡噪声相位;以及
基于所述嗡嗡噪声频率和所述相应的嗡嗡噪声相位,为所述一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成相应的嗡嗡音。
11.根据权利要求10所述的方法,其中,生成所述估计的嗡嗡噪声信号涉及:
对于每个嗡嗡噪声频率,基于所述相应的嗡嗡噪声频率和所述至少一个帧中的音频数据来确定相应的嗡嗡噪声振幅;
对于每个嗡嗡噪声频率,基于所述噪声频谱确定相应的平均嗡嗡噪声振幅;以及
基于所述相应的嗡嗡噪声频率、所述相应的嗡嗡噪声相位、以及所述相应的嗡嗡噪声振幅与所述相应的平均嗡嗡噪声振幅中的较小者,为所述一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成所述相应的嗡嗡音。
12.根据权利要求10所述的方法,其中,生成所述估计的嗡嗡噪声信号涉及当所述至少一个帧被分类为噪声帧时:
对于每个嗡嗡噪声频率,基于所述相应的嗡嗡噪声频率和所述至少一个帧中的音频数据来确定相应的嗡嗡噪声振幅;以及
基于所述相应的嗡嗡噪声频率、所述相应的嗡嗡噪声相位和所述相应的嗡嗡噪声振幅,为所述一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成所述相应的嗡嗡音。
13.根据权利要求10或12所述的方法,其中,生成所述估计的嗡嗡噪声信号涉及当所述至少一个帧被分类为内容帧时:
对于每个嗡嗡噪声频率,基于所述噪声频谱确定相应的平均嗡嗡噪声振幅;以及
基于所述相应的嗡嗡噪声频率、所述相应的嗡嗡噪声相位和所述相应的平均嗡嗡噪声振幅,为所述一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成所述相应的嗡嗡音。
14.根据权利要求1至8中任一项所述的方法,其中,生成所述估计的嗡嗡噪声信号涉及:
对于每个嗡嗡噪声频率,基于所述噪声频谱确定相应的平均嗡嗡噪声振幅;以及
基于所述相应的嗡嗡噪声频率和所述相应的平均嗡嗡噪声振幅,为所述一个或多个嗡嗡噪声频率中的每个嗡嗡噪声频率合成所述相应的嗡嗡音。
15.根据前述权利要求中任一项所述的方法,其中,从所述至少一个帧中去除嗡嗡噪声涉及从所述至少一个帧中减去所述估计的嗡嗡噪声信号。
16.根据前述权利要求中任一项所述的方法,其中,所述噪声频谱是基于所述音频数据的被分类为噪声帧的所有帧的频谱确定的。
17.根据权利要求1至15中任一项所述的方法,包括:
顺序接收和处理所述音频数据的帧;以及
对于当前帧,如果所述当前帧被分类为噪声帧,则基于所述当前帧的频谱更新所述噪声频谱。
18.根据前述权利要求中任一项所述的方法,其中,所述噪声频谱根据被分类为噪声帧的多个帧确定;并且
所述方法进一步包括:
基于被分类为噪声帧的所述多个帧的频谱确定所述一个或多个嗡嗡噪声频率随时间的变化;以及
根据所述随时间的变化,对所述音频数据的帧应用带通滤波,其中,所述带通滤波器被设计为使得阻带包括所述一个或多个嗡嗡噪声频率。
19.根据权利要求18所述的方法,其中,所述阻带的宽度基于相应的嗡嗡噪声频率随时间的变化而确定。
20.根据前述权利要求中任一项所述的方法,进一步包括:
对于所述一个或多个嗡嗡噪声频率中的至少一个嗡嗡噪声频率,确定所述至少一个嗡嗡噪声频率是否作为所述音频数据的大多数帧的频谱中的峰存在;以及
如果所述至少一个嗡嗡噪声频率不作为所述音频数据的大多数帧的频谱中的峰存在,则在去除所述嗡嗡噪声时,忽略所述至少一个嗡嗡噪声频率。
21.一种装置,包括处理器和存储器,所述存储器耦接到所述处理器并存储用于所述处理器的指令,其中,所述处理器被配置成执行根据权利要求1至20中任一项所述的方法的所有步骤。
22.一种包括指令的计算机程序,所述指令当由计算设备执行时使所述计算设备执行根据权利要求1至20中任一项所述的方法的所有步骤。
23.一种计算机可读存储介质,存储有根据权利要求22所述的计算机程序。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ESP202030814 | 2020-07-30 | ||
ES202030814 | 2020-07-30 | ||
US202063088827P | 2020-10-07 | 2020-10-07 | |
US63/088,827 | 2020-10-07 | ||
US202163223252P | 2021-07-19 | 2021-07-19 | |
US63/223,252 | 2021-07-19 | ||
PCT/EP2021/071148 WO2022023415A1 (en) | 2020-07-30 | 2021-07-28 | Hum noise detection and removal for speech and music recordings |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116057628A true CN116057628A (zh) | 2023-05-02 |
Family
ID=77249824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180058376.6A Pending CN116057628A (zh) | 2020-07-30 | 2021-07-28 | 用于语音和音乐录音的嗡嗡噪声检测和去除 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230290367A1 (zh) |
EP (1) | EP4189679A1 (zh) |
CN (1) | CN116057628A (zh) |
WO (1) | WO2022023415A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11621016B2 (en) * | 2021-07-31 | 2023-04-04 | Zoom Video Communications, Inc. | Intelligent noise suppression for audio signals within a communication platform |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8489396B2 (en) * | 2007-07-25 | 2013-07-16 | Qnx Software Systems Limited | Noise reduction with integrated tonal noise reduction |
JP5141542B2 (ja) * | 2008-12-24 | 2013-02-13 | 富士通株式会社 | 雑音検出装置及び雑音検出方法 |
US9978393B1 (en) * | 2017-09-12 | 2018-05-22 | Rob Nokes | System and method for automatically removing noise defects from sound recordings |
-
2021
- 2021-07-28 US US18/007,025 patent/US20230290367A1/en active Pending
- 2021-07-28 CN CN202180058376.6A patent/CN116057628A/zh active Pending
- 2021-07-28 WO PCT/EP2021/071148 patent/WO2022023415A1/en active Application Filing
- 2021-07-28 EP EP21751795.2A patent/EP4189679A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230290367A1 (en) | 2023-09-14 |
WO2022023415A1 (en) | 2022-02-03 |
EP4189679A1 (en) | 2023-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7286980B2 (en) | Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal | |
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
CA2732723C (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
EP2031583B1 (en) | Fast estimation of spectral noise power density for speech signal enhancement | |
US20130246062A1 (en) | System and Method for Robust Estimation and Tracking the Fundamental Frequency of Pseudo Periodic Signals in the Presence of Noise | |
JP2008534989A (ja) | 音声アクティビティ検出装置および方法 | |
JP5752324B2 (ja) | 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制 | |
EP3011757A1 (en) | Acoustic feedback canceller | |
US20230290367A1 (en) | Hum noise detection and removal for speech and music recordings | |
JP4445460B2 (ja) | 音声処理装置及び音声処理方法 | |
JP2006126859A5 (zh) | ||
KR20200095370A (ko) | 음성 신호에서의 마찰음의 검출 | |
EP3242295A1 (en) | A signal processor | |
US20150317997A1 (en) | System and method for low-loss removal of stationary and non-stationary short-time interferences | |
JP7152112B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP4125322B2 (ja) | 基本周波数抽出装置、その方法、そのプログラム並びにそのプログラムを記録した記録媒体 | |
US9269370B2 (en) | Adaptive speech filter for attenuation of ambient noise | |
EP3089163B1 (en) | Method for low-loss removal of stationary and non-stationary short-time interferences | |
JP6059130B2 (ja) | 雑音抑圧方法とその装置とプログラム | |
US9307320B2 (en) | Feedback suppression using phase enhanced frequency estimation | |
US20240013799A1 (en) | Adaptive noise estimation | |
US10109291B2 (en) | Noise suppression device, noise suppression method, and computer program product | |
EP3032536B1 (en) | Adaptive speech filter for attenuation of ambient noise |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |