CN106205637B

CN106205637B - 音频信号的噪声检测方法与装置

Info

Publication number: CN106205637B
Application number: CN201510273676.2A
Authority: CN
Inventors: 许宗奇
Original assignee: Novatek Microelectronics Corp
Current assignee: Novatek Microelectronics Corp
Priority date: 2015-03-02
Filing date: 2015-05-26
Publication date: 2019-12-10
Anticipated expiration: 2035-05-26
Also published as: TW201633293A; US20160260442A1; CN106205637A; TWI576834B; US9431024B1

Abstract

一种音频信号的噪声检测方法与装置，所述方法包括以下步骤：转换一音频信号为多个音频帧，其中上述多个音频帧以目标音频帧为中心依时间顺序排列；计算每一上述音频帧的多个频谱分量分别对应的多个幅度；计算在时间频率域中相邻的上述多个幅度之间的差异，以获得在时间频率域中互为正交的至少两个方向上分别对应的多个差异量，其中时间频率域根据上述多个音频帧所定义；根据上述多个差异量决定上述多个幅度在时间频率域中的最大差异程度；以及根据最大差异程度判断音频信号对应目标音频帧的部分是否为噪声。

Description

音频信号的噪声检测方法与装置

技术领域

本发明涉及一种处理音频信号的方法与装置，且特别涉及一种音频信号的噪声检测方法与装置。

背景技术

一般在进行语音或音乐等音频信号的处理程序时，首先会检测音频信号中的背景噪声。此背景噪声又可称为杂乱噪声或白噪声，其为不必要的噪声而必须从音频信号中移除。目前有三种方案可用来估计白噪声。

第一种方案是藉由计算移动平均来追踪音频信号的信号强度，然后利用能量大小的改变来估计出音频信号中的噪声。然而，此种方式无法即时估计噪声能量，且若噪声变动剧烈时，甚至可能导致估计结果失准。第二种方案是使用乱度统计，但此方法的计算量庞大，且统计的时间长短会影响噪声估计的准确度而难以决定。第三种方案则使用模型比对，但估计结果的准确度将与声音训练数据呈现强相关性，导致噪声的估计结果难以控制。

发明内容

本发明提供一种音频信号的噪声检测方法与装置，能够准确检测出音频信号中的噪声，并可适用于噪声剧烈改变的情况。

本发明的音频信号的噪声检测方法包括以下步骤：转换一音频信号为多个音频帧，其中上述多个音频帧以一目标音频帧为中心依时间顺序排列；计算每一上述音频帧的多个频谱分量分别对应的多个幅度；计算在时间频率域中相邻的上述多个幅度之间的差异，以获得在时间频率域中互为正交的至少两个方向上分别对应的多个差异量，其中时间频率域根据上述多个音频帧定义；根据上述多个差异量决定上述多个幅度在时间频率域中的最大差异程度；以及根据最大差异程度判断音频信号对应目标音频帧的部分是否为噪声。

本发明的音频信号的噪声检测装置包括存储装置与处理器。处理器耦接存储装置，将上述多个幅度存入存储装置，并执行上述的音频信号的噪声检测方法。

基于上述，本发明实施例所提出的音频信号的噪声检测方法与装置，能够经由简单的运算便可快速检测出音频信号中的噪声，且即使在噪声剧烈改变的情况也能够有效且准确地进行检测。

附图说明

图1是依照本发明一实施例所绘示的一种音频信号的噪声检测装置的示意图。

图2是依照本发明一实施例所绘示的一种音频信号的噪声检测方法的流程图。

图3与图4是依照本发明一实施例所绘示的一种音频信号的噪声检测方法的示意图。

图5、图6与图7是依照本发明一实施例所绘示的计算在时间频率域中相邻的多个幅度之间的差异的示意图。

【符号说明】

100：噪声检测装置

120：存储装置

140：处理器

300：音频信号

500：时间频率域

510、SI_1、SI_2：频谱信息

610、620、630、640：方向

Diff_LR、Diff_LR₁、Diff_LR₂、Diff_UD₁、Diff_UD₂、Diff_LuRd₁、Diff_LuRd₂、Diff_LdRu₁、Diff_LdRu₂：差异量

F₁、F₂、F₃、F_c-1、F_c、F_c+1、F_c+2、F_m：音频帧

Gradient_LR、Gradient_LR₁、Gradient_LR₂、Gradient_LR_c-1、Gradient_LR_c、Gradient_LR_c+1、Gradient_LR_m-1、Gradient_UD、Gradient_LuRd、Gradient_LdRu：梯度分量

GR₀～GR_k-1：运算结果

I₀～I_k-1：频谱分量

MRD：最大差异程度

RD1、RD2：差异程度

R1、R2：最大比例

S210～S250、S310～S350、S362～S366、S370～S380、S382～S384、S410～S430、S422～S424、S432～S438：方法步骤

THR：阈值

具体实施方式

本发明实施例在音频信号的处理程序上，提出一种快速且精确的检测背景噪声的方法，其将音频信号转换至频域以取得频谱信息，并将频谱上的多个幅度根据时段及频段而展开成一时间频率域。在此时间频率域中，根据正交方向统计上述多个幅度之间的变化并据以获得最大差异程度。利用背景噪声的能量在短时间内几乎为相同的特性，故当上述的最大差异程度仍小于设定阈值时，便可将此最大差异程度所对应的目标音频帧判定为音频信号中的噪声区段。相对于现有技术是统计目前音频帧之前的能量改变，本发明实施例藉由统计在目标音频帧的前后一段时间之内的频谱信息，可使噪声检测更加准确。此外，由于仅需使用简单的运算指令，有助于降低计算量并实现快速检测。再者，考虑低信噪比的情况，则还可对上述多个幅度所展开的时间频率域执行二维低通滤波动作，以藉由多重频率解析度来进一步提升噪声检测的准确度。

图1是依照本发明一实施例所绘示的一种音频信号的噪声检测装置100的示意图。噪声检测装置100包括存储装置120与处理器140。处理器140耦接存储装置120。处理器140可执行图2至图7所示的音频信号的噪声检测方法，以快速且准确地检测出音频信号中的噪声。此音频信号例如是将模拟信号格式的原始音频信号经由模拟数字转换后所产生的数字信号。上述的原始音频信号可以是通过麦克风所接收的使用者的语音指令，或是由电视、CD播放器等电子装置所发出的声音信号。所述噪声则例如是背景白噪声或是在特定频率区段具有较强幅度的有色噪声(例如红噪声等)。另外，处理器140例如是运用脉冲编码调制(Pulse-Code Modulation，PCM)以进行模拟数字转换动作。存储装置120可存储上述音频信号以及上述方法所需的或所产生的各种数值与数据。

图2是依照本发明一实施例所绘示的一种音频信号的噪声检测方法的流程图。处理器140对音频信号中的每一音频帧执行图2所示的流程。以下若将处理器140正在执行噪声检测的音频帧称为目前音频帧，则处理器140便是取得目前音频帧及其邻近数个时段内的音频帧所对应的频谱信息，从而判断目前音频帧是否为音频信号中的噪声区段(Segment)。

在此说明图2的流程。首先，在步骤S210中，处理器140转换一音频信号为多个音频帧(Frame)，其中上述多个音频帧以目标音频帧为中心依时间顺序排列。这些音频帧包括目标音频帧以及以目标音频帧为中心的前后一段时间内的其他数个音频帧，用以在后续步骤中提供对于检测目标音频帧是否为噪声所需的相关频谱信息。

在步骤S220中，处理器140计算每一音频帧的多个频谱分量分别对应的多个幅度。详言之，处理器140例如是使用快速傅立叶变换(Fast Fourier Transform，FFT)，藉此获得每一音频帧的频谱以进行分析。其中，所述频谱可以包括多个频谱分量，且各频谱分量包括实部与虚部。处理器140可藉由计算每一频谱分量的实部的平方与虚部的平方的总和后再开方根，即可得出每一频谱分量的绝对值，并且以此绝对值作为每一频谱分量的幅度。

因此，经由步骤S210～S220的流程，处理器140可将音频信号变换至频域，并且取得每一音频帧的频谱信息以及每一频谱分量的幅度。处理器140可根据音频帧及上述频谱分量所分别决定的时段及频段，而将这些幅度展开为一平面以形成二维的时间频率域。换句话说，此时间频率域可根据上述多个音频帧所定义。其中，时间频率域的时间轴可根据采样上述多个音频帧的时间顺序决定，且时间频率域的频率轴可根据采样上述多个音频帧的上述多个频谱分量决定。处理器140可将此时间频率域中的上述多个幅度存入存储装置120。

在步骤S230中，处理器140计算在时间频率域中相邻的上述多个幅度之间的差异，以获得在时间频率域中互为正交的至少两个方向上分别对应的多个差异量。之后，在步骤S240中，处理器140根据上述多个差异量决定上述多个幅度在时间频率域中的最大差异程度。

进一步而言，处理器140例如是对时间频率域中的相邻幅度进行梯度(Gradient)运算或是一阶微分运算，藉此得到幅度之间的变化情形。处理器140并可统计上述梯度在时间频率域中互为正交的方向上的分量，以利用在正交方向上的梯度分量之间的比例关系来表示上述多个幅度在此时间频率域中的最大差异程度。简单来说，利用正交方向能够有效提取出对于时间频率域的整体幅度的指标性信息，因此处理器140便可利用统计正交方向上的幅度变化来表示在时间频率域中的所有幅度之间的差异。

需说明的是，利用背景噪声的能量在短时间内几乎为相同的特性，本领域技术人员应可轻易明了，噪声在上述时间频率域中互为正交的两个方向上所统计出的相邻幅度的变化情形也应几乎为相同。基于上述，若处理器140根据互为正交的两个方向来统计上述多个幅度的变化，则所取得的最大差异程度将会大于1并且接近于1。因此，在步骤S250中，处理器140可根据前述步骤所计算出的最大差异程度来判断音频信号对应目标音频帧的部分是否为噪声。例如，处理器140可设定用来辨识对应有效信号的最低能量幅度的一阈值，当上述最大差异程度低于此阈值时，处理器140便可判定音频信号对应目标音频帧的部分为噪声。

藉此，本实施例仅需在时间频率域中互为正交的两个方向上进行简单运算，即可找出目标音频帧的幅度在上述两个正交方向上的最大差异程度并据以判断噪声。特别是，由于上述的计算流程考虑了数据之间的相关性，故可避免现有技术中利用机率计算乱度而容易发生遗失信息的情况。再加上，本实施例是利用统计来对频谱信息进行分析，故检测结果不易受到其他因素影响而产生波动，可直接与选定的阈值进行比较，如此一来，能够更快速且有效地检测出音频信号中的噪声。

以下再举实施例以进一步说明。图3是依照本发明一实施例所绘示的一种音频信号的噪声检测方法的示意图。在步骤S310中，噪声检测装置100接收模拟信号格式的音频信号300，并对音频信号300进行脉冲编码调制(PCM)，以获得数字信号格式的音频信号300。在其他实施例中，噪声检测装置100可直接接收数字信号格式的音频信号300，因此上述步骤S310可以省略。

在步骤S320中，处理器140将数字信号格式的音频信号300转换成多个音频帧，并对每一音频帧进行快速傅立叶变换(FFT)，以将时域的音频信号300变换至频域。在步骤S330中，处理器140例如对每一音频帧计算每一频谱分量的实部的平方与虚部的平方的总和后再开方根，即可得出每一频谱分量的绝对值，并且以此绝对值以作为每一频谱分量的幅度。此幅度可用以表示每一频谱分量对应的能量强度。

之后，在步骤S340中，处理器140将上述多个幅度存入存储装置120。值得一提的是，存储装置120例如包括环形缓冲区(Ring Buffer)，用以存储当处理器140正对目标音频帧F_c进行噪声检测时所需的相关频谱信息。上述的相关频谱信息可包括目标音频帧F_c及其邻近音频帧的频谱信息，例如目标音频帧F_c的每一频谱分量的幅度、在目标音频帧F_c的前一段时间内的多个音频帧F₁、F₂…F_c-1分别在每一频谱分量的幅度，以及在目标音频帧F_c之后一段时间内的多个音频帧F_c+1、F_c+2…F_m分别在每一频谱分量的幅度。在本实施例中，上述m个音频帧F₁、F₂、F₃…F_c、…F_m以目标音频帧F_c为中心并依照时间顺序排列，且处理器140可依据上述音频帧分别对应的时段而将各音频帧的频谱信息(例如图3中所标示的音频帧F₁对应的频谱信息SI_1)依序存入存储装置120的环形缓冲区。此外，随着目标音频帧F_c的改变，存储装置120的环形缓冲区所存储的上述频谱信息也随之更新。

接下来，在步骤S350中，处理器140便可藉由在存储装置120的环形缓冲区中所存储的频谱信息，以检测音频信号300对应目标音频帧F_c的部分是否为噪声。

图4是依照本发明一实施例所绘示的一种音频信号的噪声检测方法的示意图，其用以说明在上述步骤S350中，处理器140检测音频信号300对应目标音频帧F_c的部分是否为噪声的详细流程。

首先，在步骤S410中，处理器140取得与目标音频帧F_c相关的频谱信息。在本实施例中，处理器140例如是取得以目标音频帧F_c为中心的m个音频帧F₁、F₂、F₃…F_c、…F_m在快速傅立叶变换的频谱上的多个幅度。处理器140将这些幅度根据时段以及频段而展开为一平面，以形成二维的时间频率域。例如图5所示，处理器140可根据m个音频帧F₁、F₂、F₃…F_c、…F_m以及k个频谱分量I₀、I₁、I₂…I_k-1而展开成m×k的时间频率域500。其中，上述m×k的维度可视为是对音频信号300进行噪声检测的解析度。在一范例中，m例如为9且k例如为128。图5中所标示的频谱信息510例如包括目标音频帧F_c的每一频谱分量的幅度。

接着，在步骤S420中，处理器140决定在时间频率域500中互为正交的至少两个方向，并且计算在时间频率域500中相邻的多个幅度之间的差异，以及在上述互为正交的至少两个方向上分别对应的多个差异量。

例如图6所示，在时间频率域500中，处理器140可使用互为正交的方向610(即水平方向)及方向620(即垂直方向)来计算在时间频率域500中相邻的多个幅度之间的差异程度。此外，处理器140也可使用互为正交的方向630及方向640来计算在时间频率域500中相邻的多个幅度之间的差异程度。在本实施例中，方向610可由时段增加的方向所决定，方向620可由频段增加的方向所决定，方向630可由频段增加且时段增加的方向所决定，方向640则可由时段增加且频段减少的方向所决定。其中，方向630和方向610之间的夹角为45度角。

在本实施例中，对于互为正交的方向610及方向620而言，处理器140可两两计算在方向610上相邻的幅度以获得在方向610上的多个梯度分量Gradient_LR，并将这些梯度分量Gradient_LR累加以获得时间频率域500中的多个幅度在方向610上的差异量。并且，处理器140可两两计算在方向620上相邻的幅度以获得在方向620上的多个梯度分量Gradient_UD，并将梯度分量Gradient_UD累加以获得时间频率域500中的多个幅度在方向620上的差异量。

另外，对于互为正交的方向630及方向640而言，处理器140也可两两计算在方向630上相邻的幅度以获得在方向630上的多个梯度分量Gradient_LuRd，并将这些梯度分量Gradient_LuRd累加以获得时间频率域500中的多个幅度在方向630上的差异量。并且，处理器140两两计算在方向640上相邻的幅度以获得在方向640上的多个梯度分量Gradient_LdRu，并将这些梯度分量Gradient_LdRu累加以获得时间频率域500中的多个幅度在方向640上的差异量。

在本实施例中，上述累加梯度分量以获得多个幅度在各方向上的差异量的动作可再细分成S422、S424两个步骤，在此以方向610为例，并搭配图7的示意图进行说明。在步骤S422中，处理器140先沿时段增加的方向累加在方向610上的多个梯度分量，例如，对应于频谱分量I₀，处理器140累加梯度分量Gradient_LR₁～Gradient_LR_m-1以获得运算结果GR₀。此外，对于其他频谱分量(例如频谱分量I₁、I₂...)，处理器140也以类似的运算方式以获得上述频谱分量分别对应的运算结果(例如运算结果GR₁、GR₂...)。以m×k的时间频率域500包括k个频谱分量为例，则在完成步骤S422后，处理器140可对应获得k个运算结果GR₀～GR_k-1。接着，在步骤S424中，处理器沿频段增加的方向将上述k个运算结果GR₀～GR_k-1再一次累加，如此一来，便获得时间频率域500中的多个幅度在方向610上的差异量Diff_LR。类似地，处理器140可根据上述流程而分别计算出时间频率域500中的多个幅度在方向620、630、640上的差异量。

接着，在步骤S430中，处理器140根据上述多个差异量决定上述多个幅度在时间频率域500中的最大差异程度。步骤S430也可细分为步骤S432、S434、S436、S438来进行。其中，处理器140可将上述至少两个方向中互为正交的上述两个方向视为一个方向组合，例如将方向610、620视为第一方向组合，以及将方向630、640视为第二方向组合。在每一方向组合中，处理器140可根据比较分别在互为正交的上述两个方向上的上述多个差异量，以获得每一上述方向组合对应的最大比例(步骤S436)，以及根据上述多个方向组合分别对应的上述多个最大比例，以设定上述多个最大比例的总和为最大差异程度(步骤S438)。

特别的是，处理器140在步骤S420中计算在时间频率域500中的差异程度时，还可根据采样时间顺序并以目标音频帧F_c对应的采样时间为界而将音频帧F₁～F_m分成两个集合，以分别对在时间频率域500的多个幅度中对应每一上述集合的部分，计算在上述部分中相邻的上述多个幅度之间的差异，并藉此找出在每一方向组合中的各集合所对应的比例，以比较出其中的最大比例。

进一步而言，处理器140例如是将音频帧F₁～F_c视为第一集合，据以计算第一集合在互为正交的方向610、620上的差异量，以及计算第一集合在互为正交的方向630、640上的差异量。此外，处理器140并例如是将音频帧F_c～F_m视为第二集合，并计算第二集合在互为正交的方向610、620上的差异量，以及计算第二集合在互为正交的方向630、640上的差异量。换句话说，对于在上述多个幅度中对应每一上述集合的部分，处理器140可计算在上述部分中相邻的上述多个幅度之间的差异，以获得每一上述集合在每一上述方向组合中互为正交的上述两个方向上分别对应的上述多个差异量。

再以图7为例，处理器140可累加梯度分量Gradient_LR₁～Gradient_LR_c-1以获得第一集合在方向610上对应的运算结果，并据以计算出差异量Diff_LR₁。此外，处理器140并可累加梯度分量Gradient_LR_c～Gradient_LR_m-1以获得第二集合在方向610上对应的运算结果，并据以计算出差异量Diff_LR₂。类似地，处理器140可根据上述流程而分别计算出第一集合分别在方向620、630、640上的差异量Diff_UD₁、Diff_LuRd₁、Diff_LdRu₁，以及第二集合分别在方向620、630、640上的差异量Diff_UD₂、Diff_LuRd₂、Diff_LdRu₂。至于运算细节则与前述实施例类似，此处不再赘述。

之后，处理器140便可比较每一上述集合的每一上述方向组合所对应的上述多个差异量以获得最大值及最小值(步骤S432)，计算最大值及最小值以获得每一上述集合的每一上述方向组合所对应的比例(步骤S434)；以及比较每一上述方向组合在每一上述集合分别对应的上述多个比例，以设定上述多个比例中的最大者为该方向组合对应的最大比例(步骤S436)。

因此，在步骤S436之后，处理器140可获得第一方向组合对应的最大比例R1以及第二方向组合对应的最大比例R2，并在步骤S438中计算最大比例R1、R2的总和R1+R2以作为输出。上述的总和R1+R2可视为是在时间频率域500中的多个幅度之间的最大差异程度，并可对应于处理器140执行完图3的步骤S350之后所获得的第一差异程度RD1。

值得一提的是，考虑不同信噪比的状况下，故若取得音频信号300在较低频域解析度的频谱信息来与时间频率域500中的频谱信息进行比对分析，可以改善低信噪比时信号被噪声破坏的情况，有助于提升噪声检测的准确度。因此，回到图3的流程，在步骤S362中，处理器140还可对时间频率域的上述多个幅度执行二维低通滤波动作，以获得第二时间频率域，并在步骤S364中，处理器140将此第二时间频率域的多个幅度存入存储装置120(图3标示出其中一个音频帧对应的频谱信息SI_2用以示意)。类似地，上述第二时间频率域的多个幅度可存入存储装置120中的另一环形缓冲区。接下来，在步骤S366中，处理器140便可根据在第二时间频率域中相邻的多个幅度之间的差异，决定第二时间频率域中的最大差异程度。换句话说，处理器140藉由步骤S366而以另一解析度来对目标音频帧F_c进行频谱上的差异分析。步骤S366的详细流程与步骤S350及图4的流程类似，故不再说明。

基于上述，若处理器140在执行步骤S350后获得时间频率域的最大差异程度为第一差异程度RD1，且在执行步骤S366后获得第二时间频率域的最大差异程度为第二差异程度RD2，接着进入步骤S370，处理器140可比较第一差异程度RD1及第二差异程度RD2，以设定第一差异程度RD1及第二差异程度RD2中较大的一个为最大差异程度MRD。

之后，在步骤S380中，处理器140可判断最大差异程度MRD是否低于一阈值THR。当最大差异程度MRD低于阈值THR时，进入步骤S382，处理器140判定音频信号300对应目标音频帧F_c的部分为噪声。另一方面，若最大差异程度MRD未低于阈值THR，则进入步骤S384，处理器140判定音频信号300对应目标音频帧F_c的部分为有效信号。之后，处理器140可更新目标音频帧F_c，并且重复执行图3的步骤流程，以检测音频信号300中对应其他音频帧的部分是否为噪声。

需说明的是，在一实施例中，处理器140可仅藉由在步骤S340中存入存储装置120的时间频率域的多个幅度来检测目标音频帧F_c是否为噪声。因此，处理器140可直接将步骤S350所获得的第一差异程度RD1设定为目标音频帧F_c的频谱信息的最大差异程度MRD，并据以执行后续的判断步骤S380。

此外，在另一实施例中，处理器140也可省略步骤S350，而仅以经过二维低通滤波动作所获得的第二时间频率域的多个幅度来进行噪声检测。类似地，在此实施例中，步骤S370可以省略，且处理器140可将步骤S366所获得的第二差异程度RD2直接设定为目标音频帧F_c的频谱信息的最大差异程度MRD，并据以执行后续的判断步骤S380。

又值得一提的是，在一实施例中，处理器140可只针对单一个方向组合，并且根据在此方向组合中互为正交的两个方向，来进行相邻幅度之间的差异量计算。若以方向组合包括互为正交的方向610及方向620为例，则在图4的步骤S422、S424、S432、S434、S436中关于第二方向组合的方向630及方向640的差异量以及最大比例的计算可以省略，且步骤S438用以比较各方向组合的最大比例的步骤也可省略。

因此，若以第一方向及第二方向来表示上述单一个方向组合中互为正交的两个方向，则在此实施例中，处理器140可两两计算在第一方向上相邻的上述多个幅度以获得在第一方向上的多个梯度分量，并累加在第一方向上的上述多个梯度分量以获得在第一方向上的差异量，以及两两计算在第二方向上相邻的上述多个幅度以获得在第二方向上的多个梯度分量，并累加在第二方向上的上述多个梯度分量以获得在第二方向上的差异量。之后，处理器140可比较上述多个差异量以获得上述多个差异量中的最大值及最小值，并且计算最大值及最小值的比例，便可直接获得此时间频率域的多个幅度之间的最大差异程度。

对于上述实施例，处理器140也可根据采样时间顺序并以目标音频帧对应的采样时间为界而分成两个集合，以分别对在时间频率域500的多个幅度中对应每一上述集合的部分，计算在上述部分中相邻的上述多个幅度之间的差异，并藉此找出在每一方向组合中的各集合所对应的比例，以比较出其中的最大比例。此部分与前述实施例类似，故不再赘述。

另一方面，在一实施例中，处理器140在步骤S420中也根据其他的分组规则以将音频帧F₁～F_m分成与前述实施例不同的两个或两个以上的集合，藉以计算在时间频率域500的多个幅度中对应每一上述集合的部分中，相邻的上述多个幅度之间的差异。上述的分组规则例如可由音频帧数量、音频帧采样时间或是采样每一音频帧的频谱分量所决定，应用本实施例者可视其设计需求或考虑整体运算量而适应性地调整。

在其他实施例中，步骤S420的步骤可视情况而调整。在一实施例中，步骤S422、S424的顺序可以互换。亦即，此实施例的处理器140可先沿频段增加的方向累加在一方向上的多个梯度分量，之后再沿时段增加的方向将上述的运算结果再一次累加，以获得时间频率域中的多个幅度在此方向上的差异量。上述频段增加的方向或是时段增加的方向仅为范例说明，本发明并不限制上述累加运算的实施方式，只要能够将时间频率域中相邻的多个幅度之间的变化情形进行统计，并据以作为噪声的判断依据，便可适用于本发明。

综上所述，本发明实施例可仅使用简单的运算指令，将音频信号变换至频域，并根据在时间频率域中的频谱信息，统计在正交方向上的幅度变化以找出最大差异程度，接着便可利用背景噪声的能量在频谱中的各个频段上几乎为相同的特性，快速检测出目标音频帧对应的音频信号的部分是否为噪声。因此，本发明实施例能够有效找出音频信号中的噪声区段，并且降低计算量，特别是对于背景噪声变化剧烈的情况，本发明实施例仍可有效地进行噪声检测。此外，利用多重频率解析度的检测方式，可有助于提升检测准确度。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域技术人员在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视所附权利要求书界定范围为准。

Claims

1.一种音频信号的噪声检测方法，其特征在于，包括：

转换音频信号为多个音频帧，其中上述多个音频帧以目标音频帧为中心依时间顺序排列；

计算每一上述音频帧的多个频谱分量分别对应的多个幅度；

计算在时间频率域中相邻的上述多个幅度之间的差异，以获得在该时间频率域中正交的至少两个方向上分别对应的多个差异量，其中该时间频率域根据上述多个音频帧所定义；

根据上述多个差异量决定上述多个幅度在该时间频率域中的最大差异程度；以及

根据该最大差异程度判断该音频信号对应该目标音频帧的部分是否为噪声。

2.如权利要求1所述的音频信号的噪声检测方法，其特征在于，其中该时间频率域的时间轴根据采样上述多个音频帧的时间顺序所决定，且该时间频率域的频率轴根据采样上述多个音频帧的上述多个频谱分量决定。

3.如权利要求1所述的音频信号的噪声检测方法，其特征在于，其中上述至少两个方向包括第一方向以及第二方向，且获得在该时间频率域中互为正交的上述至少两个方向上分别对应的上述多个差异量的步骤包括：

两两计算在该第一方向上相邻的上述多个幅度以获得在该第一方向上的多个梯度分量；

累加在该第一方向上的上述多个梯度分量以获得在该第一方向上的该差异量；

两两计算在该第二方向上相邻的上述多个幅度以获得在该第二方向上的多个梯度分量；以及

累加在该第二方向上的上述多个梯度分量以获得在该第二方向上的该差异量。

4.如权利要求3所述的音频信号的噪声检测方法，其特征在于，其中根据上述多个差异量决定上述多个幅度在该时间频率域中的该最大差异程度的步骤包括：

比较上述多个差异量以获得上述多个差异量中的最大值及最小值；以及

计算该最大值及该最小值的比例以获得该最大差异程度。

5.如权利要求3所述的音频信号的噪声检测方法，其特征在于，其中这些音频帧根据采样时间顺序并以该目标音频帧对应的采样时间为界而分成两个集合，且获得在该时间频率域中互为正交的上述至少两个方向上分别对应的上述多个差异量的步骤还包括：

对于在上述多个幅度中对应每一上述集合的部分，计算在该部分中相邻的上述多个幅度之间的差异以获得每一上述集合在互为正交的该至少两个方向上分别对应的上述多个差异量。

6.如权利要求5所述的音频信号的噪声检测方法，其特征在于，其中根据上述多个差异量决定上述多个幅度在该时间频率域中的该最大差异程度的步骤包括：

比较每一上述集合在互为正交的上述至少两个方向上分别对应的上述多个差异量以获得每一上述集合的上述多个差异量中的最大值及最小值；

计算每一上述集合的该最大值及该最小值的比例；以及

比较上述多个集合分别对应的上述多个比例以设定最大的该比例为该最大差异程度。

7.如权利要求3所述的音频信号的噪声检测方法，其特征在于，其中该至少两个方向还包括第三方向以及第四方向，其中该第三方向及该第四方向互为正交，该第三方向与该第一方向之间的夹角为45度角，且根据相邻的这些幅度之间的差异以获得这些差异量的步骤还包括：

两两计算在该第三方向上相邻的上述多个幅度以获得在该第三方向上的多个梯度分量；

累加在该第三方向上的上述多个梯度分量以获得在该第三方向上的该差异量；

两两计算在该第四方向上相邻的上述多个幅度以获得在该第四方向上的多个梯度分量；以及

累加在该第四方向上的上述多个梯度分量以获得在该第四方向上的该差异量。

8.如权利要求7所述的音频信号的噪声检测方法，其特征在于，其中根据上述多个差异量决定上述多个幅度在该时间频率域中的该最大差异程度的步骤包括：

将该至少两个方向中互为正交的上述两个方向视为一个方向组合；

在每一方向组合中，根据比较分别在互为正交的上述两个方向上的上述多个差异量，以获得每一上述方向组合对应的最大比例；以及

根据上述多个方向组合分别对应的上述多个最大比例，以设定上述多个最大比例的总和为该最大差异程度。

9.如权利要求8所述的音频信号的噪声检测方法，其特征在于，其中这些音频帧根据采样时间顺序并以该目标音频帧对应的采样时间为界而分成两个集合，且根据比较分别在互为正交的上述两个方向上的上述多个差异量，以获得每一上述方向组合对应的该最大比例的步骤包括：

对于在上述多个幅度中对应每一上述集合的部分，计算在该部分中相邻的上述多个幅度之间的差异，以获得每一上述集合在每一上述方向组合中互为正交的上述两个方向上分别对应的上述多个差异量；

比较每一上述集合的每一上述方向组合所对应的上述多个差异量以获得最大值及最小值；

计算该最大值及该最小值以获得每一上述集合的每一上述方向组合所对应的比例；以及

比较每一上述方向组合在每一上述集合分别对应的上述多个比例，以设定最大的该比例为该方向组合对应的该最大比例。

10.如权利要求1所述的音频信号的噪声检测方法，其特征在于，其中根据该最大差异程度判断该音频信号对应该目标音频帧的部分是否为该噪声的步骤包括：

当该最大差异程度低于阈值时，判定该音频信号对应该目标音频帧的部分为该噪声。

11.如权利要求1所述的音频信号的噪声检测方法，其特征在于，还包括：

对该时间频率域的上述多个幅度执行二维低通滤波动作，以获得第二时间频率域；以及

根据在该第二时间频率域中相邻的多个幅度之间的差异，决定该第二时间频率域中的最大差异程度。

12.如权利要求11所述的音频信号的噪声检测方法，其特征在于，其中该时间频率域的该最大差异程度为第一差异程度，该第二时间频率域的该最大差异程度为第二差异程度，且根据该最大差异程度判断该音频信号对应该目标音频帧的部分是否为该噪声的步骤包括：

比较该第一差异程度及该第二差异程度，以设定该第一差异程度及该第二差异程度中较大的一个为该最大差异程度。

13.一种音频信号的噪声检测装置，其特征在于，包括：

存储装置；以及

处理器，耦接该存储装置，转换音频信号为多个音频帧，其中上述多个音频帧以目标音频帧为中心依时间顺序排列，该处理器计算每一上述音频帧的多个频谱分量分别对应的多个幅度，并将上述多个幅度存入该存储装置，该处理器计算在时间频率域中相邻的上述多个幅度之间的差异，以获得在该时间频率域中正交的至少两个方向上分别对应的多个差异量，其中该时间频率域根据上述多个音频帧定义，该处理器根据上述多个差异量决定上述多个幅度在该时间频率域中的最大差异程度，以及根据该最大差异程度判断该音频信号对应该目标音频帧的部分是否为噪声。

14.如权利要求13所述的音频信号的噪声检测装置，其特征在于，其中该时间频率域的时间轴根据采样上述多个音频帧的时间顺序决定，且该时间频率域的频率轴根据采样上述多个音频帧的上述多个频谱分量决定。

15.如权利要求13所述的音频信号的噪声检测装置，其特征在于，其中上述至少两个方向包括第一方向以及第二方向，且该处理器两两计算在该第一方向上相邻的上述多个幅度以获得在该第一方向上的多个梯度分量，累加在该第一方向上的上述多个梯度分量以获得在该第一方向上的该差异量，并且两两计算在该第二方向上相邻的上述多个幅度以获得在该第二方向上的多个梯度分量，以及累加在该第二方向上的上述多个梯度分量以获得在该第二方向上的该差异量。

16.如权利要求15所述的音频信号的噪声检测装置，其特征在于，其中该处理器比较上述多个差异量以获得上述多个差异量中的最大值及最小值，以及计算该最大值及该最小值的比例以获得该最大差异程度。

17.如权利要求15所述的音频信号的噪声检测装置，其特征在于，其中这些音频帧根据采样时间顺序并以该目标音频帧对应的采样时间为界而分成两个集合，且对于在上述多个幅度中对应每一上述集合的部分，该处理器计算在该部分中相邻的上述多个幅度之间的差异以获得每一上述集合在互为正交的该至少两个方向上分别对应的上述多个差异量。

18.如权利要求17所述的音频信号的噪声检测装置，其特征在于，其中该处理器比较每一上述集合在互为正交的上述至少两个方向上分别对应的上述多个差异量以获得每一上述集合的上述多个差异量中的最大值及最小值，计算每一上述集合的该最大值及该最小值的比例，以及比较上述多个集合分别对应的上述多个比例以设定最大的该比例为该最大差异程度。

19.如权利要求15所述的音频信号的噪声检测装置，其特征在于，其中该至少两个方向还包括第三方向以及第四方向，其中该第三方向及该第四方向互为正交，该第三方向与该第一方向之间的夹角为45度角，且该处理器两两计算在该第三方向上相邻的上述多个幅度以获得在该第三方向上的多个梯度分量，累加在该第三方向上的上述多个梯度分量以获得在该第三方向上的该差异量，并且两两计算在该第四方向上相邻的上述多个幅度以获得在该第四方向上的多个梯度分量，以及累加在该第四方向上的上述多个梯度分量以获得在该第四方向上的该差异量。

20.如权利要求19所述的音频信号的噪声检测装置，其特征在于，其中该处理器将该至少两个方向中互为正交的上述两个方向视为一个方向组合，在每一方向组合中，该处理器根据比较分别在互为正交的上述两个方向上的上述多个差异量，以获得每一上述方向组合对应的最大比例，以及根据上述多个方向组合分别对应的上述多个最大比例，以设定上述多个最大比例的总和为该最大差异程度。

21.如权利要求20所述的音频信号的噪声检测装置，其特征在于，其中这些音频帧根据采样时间顺序并以该目标音频帧对应的采样时间为界而分成两个集合，且对于在上述多个幅度中对应每一上述集合的部分，该处理器计算在该部分中相邻的上述多个幅度之间的差异，以获得每一上述集合在每一上述方向组合中互为正交的上述两个方向上分别对应的上述多个差异量，比较每一上述集合的每一上述方向组合所对应的上述多个差异量以获得最大值及最小值，计算该最大值及该最小值以获得每一上述集合的每一上述方向组合所对应的比例，以及比较每一上述方向组合在每一上述集合分别对应的上述多个比例，以设定最大的该比例为该方向组合对应的该最大比例。

22.如权利要求13所述的音频信号的噪声检测装置，其特征在于，其中当该最大差异程度低于阈值时，该处理器判定该音频信号对应该目标音频帧的部分为该噪声。

23.如权利要求13所述的音频信号的噪声检测装置，其特征在于，其中该处理器更对该时间频率域的上述多个幅度执行二维低通滤波动作，以获得第二时间频率域，并将在该第二时间频率域中的多个幅度存入该存储装置，以及根据在该第二时间频率域中相邻的上述多个幅度之间的差异，决定该第二时间频率域中的最大差异程度。

24.如权利要求23所述的音频信号的噪声检测装置，其特征在于，其中该时间频率域的该最大差异程度为第一差异程度，该第二时间频率域的该最大差异程度为第二差异程度，且该处理器比较该第一差异程度及该第二差异程度，以设定该第一差异程度及该第二差异程度中较大的一个为该最大差异程度。