CN104715771B - 信号降噪 - Google Patents
信号降噪 Download PDFInfo
- Publication number
- CN104715771B CN104715771B CN201310682971.4A CN201310682971A CN104715771B CN 104715771 B CN104715771 B CN 104715771B CN 201310682971 A CN201310682971 A CN 201310682971A CN 104715771 B CN104715771 B CN 104715771B
- Authority
- CN
- China
- Prior art keywords
- segment
- spectrum component
- spectral magnitude
- index value
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 150
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000003595 spectral effect Effects 0.000 claims description 74
- 230000002159 abnormal effect Effects 0.000 claims description 29
- 238000003860 storage Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 14
- 230000005236 sound signal Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 3
- 238000010977 unit operation Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 20
- 230000008859 change Effects 0.000 description 14
- 238000009434 installation Methods 0.000 description 13
- 238000001914 filtration Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000033228 biological regulation Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000704 physical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000032258 transport Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Telephone Function (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
一种信号降噪的系统和方法。将数字输入信号划分成一系列相邻片段。所述相邻片段被转换成频域表示。将某一片段的频谱分量,与所述片段相邻的第一片段的频谱分量,以及与所述片段相邻的第二片段的频谱分量进行比较。当所述片段的频谱分量的幅值满足至少一个预设条件时,修改所述片段的频谱分量。
Description
技术领域
本发明涉及通信领域,特别涉及通讯领域中信号降噪的方法和系统。
背景技术
自从发现电以及随后的与电相关的大量发明以来,如何记录声音一直吸引着人们的注意。从早期使用模拟记录媒介到数字录音的发明,记录声音的应用大量增加。如今,在因特网和移动电话时代,使用数字录音是将声音数字化以传输数字化声音。通常地,使用移动装置和计算机来记录声音。多数情况下,由于噪音和干扰的存在,录音质量不好。
发明内容
本发明内容不以任何方式限定所请求保护的主题的范围。
本发明公开一种信号降噪方法。该方法包括接收代表音频信号的数字输入信号。该方法还包括将该数字输入信号解析成一系列相邻片段。该方法进一步包括将每一相邻片段转换成频域表示。该方法进一步包括:将所述一系列相邻片段的某一片段的频谱分量、与所述片段相邻的第一片段的频谱分量、以及与所述片段相邻的第二片段的频谱分量进行比较。该方法更进一步包括:当所述片段的频谱分量的幅值满足至少下列条件之一时,计算机系统修改所述片段的频谱分量,所述条件包括:超过所述第一片段的频谱分量一定比例幅值;以及超过所述第二片段的频谱分量一定比例幅值。
本发明公开一种检测信号噪声的方法。该方法包括接收代表音频信号片段的数字输入信号。该方法还包括将所述数字输入信号转换成频域表示,所述频域表示包括一系列m个帧,每一帧包括n个由索引k标示的频谱幅值。该方法进一步包括通过检测某一帧在某个索引处的频谱幅值满足至少下列条件之一来判定信号异常,所述条件包括:(1)预设的峰值条件;(2)预设的升高条件;和(3)预设的降低条件。该方法进一步包括当所述频谱幅值满足至少所述条件之一时,计算机系统修改所述帧在所述索引处的频谱幅值。该方法更进一步包括将所述频域表示转换成数字输出信号。
本发明公开一种计算机系统。该计算机系统包括处理单元以及与所述处理单元连接的系统存储器。所述系统存储器包括指令,当处理单元运行所述指令时,使得所述处理单元控制至少一个模块实施信号降噪。该至少一个模块适于接收代表音频信号的数字输入信号。该至少一个模块还适于将数所述数字输入信号划分成一系列相邻片段。该至少一个模块还适于将每一相邻片段映射至频域表示。该至少一个模块进一步适于将所述一系列相邻片段的某一片段的频谱分量,与所述片段相邻的第一片段的频谱分量,以及与所述片段相邻的第二片段的频谱分量进行比较。该至少一个模块更进一步适于当所述片段的频谱分量的幅值满足至少下列条件之一时,修改所述片段的频谱分量,所述条件包括:超过所述第一片段的频谱分量一定比例幅值;以及超过所述第二片段的频谱分量一定比例幅值。
附图说明
通过参照附图,有助于本领域技术人员进一步理解本发明各实施例的特征以及优点,其中,附图中相同的附图标记指代相似的元件或特征。进一步的,相同类型的不同元件通过在附图标记中紧跟用以区分相似元件的破折号和第二标记来加以区分。当说明书中仅使用了第一附图标记,则说明书对于具有相同第一附图标记的任何一个相似元件都是适用的,而不管是否有第二附图标记。
图1是根据本发明实施例的信号降噪方法流程示意图;
图2是根据本发明实施例的音频流样本的片段,以及实施降噪之后的音频流样本的片段;
图3是根据本发明实施例的录音阶段的简化框图,以及音频播放阶段的简化框图;以及
图4是根据本发明实施例的计算机系统或装置示意图。
具体实施方式
本发明涉及信号降噪。虽然全文描述的是音频信号,本发明也适用于其他的需要通过计算方法实现低成本的信号处理技术来过滤不需要的信号噪声的情况,与之相反的是试图通过优化特定系统,例如物理连接/连接器优化、电路架构优化等等,的物理性质来解决信号噪声问题。优化某一系统的物理性质某种程度上对于某些应用或场合是有效的。然而,其难以仅仅通过投入资源对物理系统进行优化来解决广谱信号降噪问题。另一方面,如下文所述,虽然针对特定应用对软件和硬件的特殊要求需要对算法进行修改,核心降噪算法通常可以集成到任一系统来实施信号降噪,因此,就上述而言,信号处理是可扩展或可移植的。
例如,图1示出了根据本发明实施例的信号降噪方法100流程示意图。通常,方法100可以全部或至少部分由专用计算机系统或装置来实施,该专用计算机系统或装置,根据本发明的实施例可以基于特定实施需求或规范来配置。图4详细描述了这样一种计算机系统或装置的示例。
步骤102,将具有由帧长N矢量组成的帧间间隔L的音频输入信号x(i)根据下方的窗口化的离散傅里叶变换(DFT)函数转换至频域信号X[k]n。其中所述音频输入信号x(i),根据特定实施需求,进行过或未进行过脉冲编码调制。
虽然本说明书通篇以DFT频域转换论述,也可以采用其他形式的频域转换,例如,离散余弦变换/反离散余弦变换(DCT/iDCT),改进型离散余弦变换/改进型离散余弦反变换(MDCT/iMDCT)等。进一步地,可以采用多相滤波器组混合DFT、DCT和/或MDCT,来获得频域转换。可以认为任何转换信号至频域表示/从频域表示转换信号的方法都是可以实施的,且都在本发明的保护范围之内。进一步地,转换信号至频域表示/从频域表示转换信号的某一方法可以随特定执行变化或者不变化。
本实施例中,XA对应频谱振幅,XP对应频谱相位频率,h[l]对应N点窗口函数,其满足:
h[l]2+h[N-1-l]2=1,l=0,1,…,N-L-1 公式2
h[l]=h[N-1-l]=1,l=N-L,…,N/2-1 公式3
根据本发明,变量N为偶数、非零整数值。此外,fs代表取样频率,取样范围在[0.004fs,0.01fs]之间。当fs=8000Hz,则N取值为64,与帧间间隔L具有如下的关系:N/2<=L<N。
步骤104,在频域中通过当前帧n的频谱振幅,连同前一帧(帧序号n-1)的频谱振幅,以及后一帧(帧序号n+1)的频谱振幅,分别在特定索引值k(如公式1)对频谱振幅进行比较,来判断在当前帧n是否出现信号异常,例如,高频瞬态噪声,或所谓的“喀哒(clicking)”噪声。该异常可以通过多种不同的机制引人到信号当中,例如,与电力设备的连接/断开、电力组件切换及其他。
根据本发明的实施例,如果满足至少一个以下条件,可以判断当前帧n存在信号异常,该条件数学式如下:
XA[k]n-1<λaXA[k]n以及λbXA[k]n>XA[k]n+1 公式4
XA[k]n-1<λcXA[k]n 公式5
XA[k]n+1<λdXA[k]n 公式6
参考公式4-6,标量λa,λb,λc和λd关系如下:0<λa,λb<1,0<λc<λa,以及0<λd<λb。其中,根据本发明的一个实施例,λa=λb=0.5,以及λc=λd=0.25。在该实施例中,当前帧n在索引k处的频谱幅度XA大于前一帧n-1在索引k处的频谱幅度XA的200%,以及后一帧n+1在索引k处的频谱幅度XA的200%(如,公式4),则判断在当前帧n出现信号异常。根据本发明的实施例,这种实施方式被称为是“峰值(peaking)”条件或“预定的峰值条件”。当前帧n在索引k处的频谱幅度XA大于前一帧n-1在索引k处的频谱幅度XA的400%,(如,公式5),则判断在当前帧n出现信号异常。根据本发明的实施例,这种实施方式被称为是“升高(step-up)”条件或“预定的升高条件”。当前帧n在索引k处的频谱幅度XA大于后一帧n+1在索引k处的频谱幅度XA的400%(如,公式6),则判断在当前帧n出现信号异常。根据本发明的实施例,这种实施被称为是“降低(step-down)”条件或“预定的降低条件”。也可以采用其他实施方式。
需要了解的是,公式4-6能够用来判断是否某一频率分量在逐帧的基础上在索引k处改变得太“迅速”或太“快”。在这样的情况下,结合下文及图2所示,当前帧n及其相关的信号x(i),很可能包括高频瞬态噪声,或“喀哒”噪声。此外,定义了某一频率分量在索引k处是否改变得太“迅速”或太“快”的“阈值”或“敏感性”可以通过操作标量λa,λb,λc和λd来进行调节。同样,也可以采用其他实施方式。
例如,通过分析当前帧n的任意在前帧或在后帧,来判断当前帧n是否出现信号异常,或“可能”出现信号异常。根据本发明的实施例,通过当前帧n的频谱幅度,连同第(n-2)个在前帧的频谱幅度,和第(n+2)个在后帧的频谱幅度,分别在特定索引值k对频谱幅度进行比较,来判断在当前帧n是否出现信号异常。在该实施例中,一旦满足至少一个以下条件,可以判断当前帧n出现信号异常,所述条件数学式如下:
XA[k]n-2<λeXA[k]n;以及λfXA[k]n>XA[k]n+2 公式7
XA[k]n-2<λgXA[k]n 公式8
XA[k]n+2<λhXA[k]n 公式9
参考公式7-9,标量λe,λf,λg和λh关系如下:0<λg<λe<λa,λa以及0<λh<λf<λb。其中,根据本发明的一个实施例,λe=λf=0.125,以及λg=λh=0.0625。在该实施例中,当前帧n在索引k处的频谱幅度XA大于第(n-2)个在前帧在索引k处的频谱幅度XA的800%,以及第(n+2)个在后帧在索引k处的频谱幅度XA的800%(如,公式7),则判断在当前帧n出现信号异常。进一步地,当前帧n在索引k处的频谱幅度XA大于第(n-2)个在前帧在索引k处的频谱幅度XA的1600%,(如,公式8),则判断在当前帧n出现信号异常。更进一步地,当前帧n在索引k处的频谱幅度XA大于第(n+2)个在后帧在索引k处的频谱幅度XA的1600%(如,公式9),则判断在当前帧n出现信号异常。也可以采用其他实施方式。
如上所述,通过分别比较在索引k处的频谱幅度(公式4-9)可以判断当前帧n是否“可能”出现信号异常,如,高频瞬态噪声、或所谓的“喀哒”噪声。步骤106,根据比较结果对当前帧n的某一频谱分量进行或不进行过滤。
例如,在上述所列举的公式4-9的条件都不满足的情况下,当前帧n在索引k处的频谱幅度XA将根据如下恒等函数保持不变,为X'A,:
X′A[k]n=XA[k]n 公式10
然而,一旦满足上述所列举的公式4-9的一个或多个条件时,当前帧n在索引k处的频谱幅度XA将根据信号调节函数进行修改,此为本发明公开的信号降噪处理的一部分。一般而言,信号调节函数本身是作为分析当前帧n的在前或在后帧来判断当前帧n是否出现信号异常的函数。
例如,根据本发明的实施例,当前帧n在索引k处的频谱幅度XA将根据下述形式的信号调节函数进行修改:
X′A[k]n=min{XA[k]n-1,XA[k]n+1} 公式11
在该实施例中,将当前帧n在索引k处的频谱幅度XA修改为X'A,X'A的大小对应于第(n-1)个在前帧在索引k处的频谱幅度XA、以及第(n+1)个在后帧在索引k处的频谱幅度XA之中的较小或最小值。公式11对应“取最小值”函数,包括与被分析的当前帧n的在前或在后帧序号一致的参数,通过分析该当前帧n的在前或在后序号的帧(步骤104)来判断是否当前帧n出现信号异常。特别地,公式11指定第(n-1)帧和第(n+1)帧,正如上述公式4-6所描述的。
在另一实施例中,可以根据以下形式的信号调节函数来修改当前帧n在索引k处的频谱幅度XA:
X′A[k]n=min{XA[k]n-2,XA[k]n-1,XA[k]n+1,XA[k]n+2} 公式12
在该实施例中,将当前帧n在索引k处的频谱幅度XA修改为X'A,X'A的大小对应于第(n-2)个在前帧在索引k处的频谱幅度XA,第(n-1)个在前帧在索引k处的频谱幅度XA,第(n+1)个在后帧在索引k处的频谱幅度XA以及第(n+2)个在后帧在索引k处的频谱幅度XA之中的较小或最小值。公式12对应“取最小值”函数,包括与被分析的当前帧n的在前或在后帧序号一致的参数,通过分析该当前帧n的在前或在后序号的帧(步骤104)来判断是否当前帧n出现信号异常。特别地,公式12指定第(n-1)帧,第(n-2)帧,第(n+1)帧和第(n+2)帧,正如上述公式7-9所描述的。
本发明的另一实施例,可以根据以下形式的信号调节函数来修改当前帧n在索引k处的频谱幅度XA:
在该实施例中,将当前帧n在索引k处的频谱幅度XA修改为X'A,X'A的大小对应于第(n-1)个在前帧在索引k处的频谱幅度XA,以及第(n+1)个在后帧在索引k处的频谱幅度XA的算术平均值。公式13对应“取平均值”函数,包括与被分析的当前帧n的在前或在后帧序号一致的参数,通过分析该当前帧n的在前或在后序号的帧(步骤104)来判断是否当前帧n出现信号异常。特别地,公式13指定第(n-1)帧和第(n+1)帧,正如上述公式4-6所描述的。
本发明的又一实施例,可以根据以下形式的信号调节函数来修改当前帧n在索引k处的频谱幅度XA:
在该实施例中,将当前帧n在索引k处的频谱幅度XA修改为X'A,X'A的大小对应于第(n-2)个在前帧在索引k处的频谱幅度XA,第(n-1)个在前帧在索引k处的频谱幅度XA,第(n+1)个在后帧在索引k处的频谱幅度XA以及第(n+2)个在后帧在索引k处的频谱幅度XA的算术平均值。公式14对应“取平均值”函数,包括与被分析的当前帧n的在前或在后帧序号一致的参数,通过分析该当前帧n的在前或在后序号的帧(步骤104)来判断是否当前帧n出现信号异常。特别地,公式14指定第(n-1)帧,第(n-2)帧,第(n+1)帧和第(n+2)帧,正如上述公式7-9所描述的。
本发明的再一实施例,可以根据以下形式的信号调节函数来修改当前帧n在索引k处的频谱幅度XA:
在该实施例中,将当前帧n在索引k处的频谱幅度XA修改为X'A,X'A的大小对应于第(n-1)个在前帧在索引k处的频谱幅度XA,以及第(n+1)个在后帧在索引k处的频谱幅度XA的几何平均值。公式15对应“取平均值”函数,包括与被分析的当前帧n的在前或在后帧序号一致的参数,通过分析该当前帧n的在前或在后序号的帧(步骤104)来判断是否当前帧n出现信号异常。特别地,公式15指定第(n-1)帧和第(n+1)帧,正如上述公式4-6所描述的。
本发明的再一实施例,可以根据以下形式的信号调节函数来修改当前帧n在索引k处的频谱幅度XA:
在该实施例中,将当前帧n在索引k处的频谱幅度XA修改为X'A,X'A的大小对应于第(n-2)个在前帧在索引k处的频谱幅度XA,第(n-1)个在前帧在索引k处的频谱幅度XA,第(n+1)个在后帧在索引k处的频谱幅度XA以及第(n+2)个在后帧在索引k处的频谱幅度XA的几何平均值。公式16对应“取平均值”函数,包括与被分析的当前帧n的在前或在后帧序号一致的参数,通过分析该当前帧n的在前或在后序号的帧(步骤104)来判断是否当前帧n出现信号异常。特别地,公式16指定第(n-1)帧,第(n-2)帧,第(n+1)帧和第(n+2)帧,正如上述公式7-9所描述的。
如上所述,基于在特定索引值k处的频谱幅度的比较结果(公式4-9),对当前帧n的特定频谱分量进行或不进行过滤(公式10-16)。通常地,这样的操作可以对频域信号X[k]n的每一帧n进行。步骤108,一旦完成对频域信号X[k]n的每一帧n在索引k处的频谱幅度XA的修正,根据N点窗口的离散傅里叶反变换(IDFT)函数可将频域信号X'[k]n转换至时域:
公式17中,d[l]n对应修改后(或未修改)的音频输入信号x(i)的数字化形式,其中,d[l]n与输出累积缓存z[l]n的关系满足公式18,其中:z[l]的初始值n为零(0):
z[l]n+1=d[l+L]n,l=0,...,N-L-1 公式19
参考公式17-19,通过转换频域信号X'[k]n至时域得到音频输出信号x'(i)。例如,参考图2,图2示出了根据本发明实施的音频流样本204在信号降噪之前的未过滤片段202,以及降噪之后的过滤片段206。
图2显示在t~2.5秒的时间段内音频流样本204的未过滤片段202的幅度A,同样的,也显示在t~2.5秒的时间段内音频流样本204的过滤片段206的幅度B。未过滤片段202在“当前”帧(n)210中显示信号异常208,该“当前”帧(n)210与前述图1所述的当前帧n有关。
紧邻着“当前”帧(n)210的是第一“在前”帧(n-1)212和第一“在后”帧(n+1)214。该第一“在前”帧(n-1)212与前述图1所述的第(n-1)帧有关,该第一“在后”帧(n+1)214与前述图1所述的第(n+1)帧有关。紧邻着第一“在前”帧(n-1)212的是第二“在前”帧(n-2)216,以及紧邻第一“在后”帧(n+1)214的是第二“在后”帧(n+2)218。此处,该第二“在前”帧(n-2)216与前述图1所述的第(n-2)帧有关,该第二“在后”帧(n+2)218与前述图1所述的第(n+2)帧有关。
由介于时间t1和时间t2之间的间隔dT定义第二“在前”帧(n-2)216。由介于时间t2和时间t3之间的间隔dT定义第一“在前”帧(n-1)212。由介于时间t3和时间t4之间的间隔dT定义“当前”帧(n)210。由介于时间t4和时间t5之间的间隔dT定义第一“在后”帧(n+1)214。由介于时间t5和时间t6之间的间隔dT定义第二“在后”帧(n+2)218。
实际上,位于音频流样本204未过滤片段202的“当前”帧(n)210的信号异常208可以采用前述图1所示的方式来识别。在本实施例中,信号异常208显示在介于音频流样本204未过滤片段202的时间t3和时间t4之间。在介于音频流样本204过滤片段206的时间t3和时间t4之间,该信号异常208已经被移除或过滤而消失。根据本发明的实施例,只分析第一“在前”帧(n-1)212和第一“在后”帧(n+1)214的频谱来识别及过滤信号异常208。根据本发明的另一实施例,对第一“在前”帧(n-1)212和第一“在后”帧(n+1)214的频谱,连同第二“在前”帧(n-2)216和第二“在后”帧(n+2)218的频谱一起进行分析,来识别及过滤信号异常208。也可以采用其他的实施方式。
参考图3,图3示出了本发明实施例的录音阶段302和播音阶段304的简图。特别地,录音阶段302包括:录音信号调节模块306、模/数转换(A/D)模块308、录音降噪模块310和录音存储模块312。播音阶段304包括播音存储模块314、播音降噪模块316、数/模转换(D/A)模块318和播音信号调节模块320。录音阶段302和播音阶段304也可以采用其他的实施方式。
例如,根据本发明的实施例,录音阶段302和播音阶段304二者可都集成在一个计算机系统或装置中(例如,服务器、手提电脑、智能电话和音乐播放器等等)。在这样的情况下,录音阶段302和播音阶段304的一个或多个模块可以与录音阶段302和播音阶段304的一个或多个模块集成或结合在一起。例如,A/D模块308与D/A模块318,和/或录音信号调节模块306和播音信号调节模块320,和/或录音降噪模块310和播音降噪模块316,和/或录音存储模块312和播音存储模块314,可以分别被集成到一特定模块,该特定模块可以全部或部分以硬件、软件或其任意组合的形式实施。当然,也可以采用其他实施方式。
例如,录音阶段302和播音阶段304可以根据需要包括更多或更少的模块,这样的改动可根据特定实施变化或者不变化。例如,根据本发明的实施例,录音阶段302的录音信号调节模块306,或者播音阶段304的播音信号调节模块320可以省略。在其他实施例中,录音阶段302和/或播音阶段304的个别模块可以根据需要重新排列,这样的改动可根据特定实施变化或者不变化。例如,图3中,播音降噪模块316、D/A模块318和播音信号调节模块320按信号流的方向串联连接。然而,根据本发明的实施例,这些组件可以按信号流重新排列。当然,也可以采用其他的实施方式。
请参考录音阶段302,实际上,图1所示的音频输入信号x(i)首先输入至录音信号调节模块306进行所需的调节,例如,放大、过滤、转换、范围匹配、隔离等等。然后,调节之后的信号输入至A/D模块308,转换成音频输入信号x(i)的数字形式。接下来,数字音频输入信号x(i)输入至录音降噪模块310。此处,可以通过结合图1-2所述的方式对数字音频输入信号x(i)出现的信号异常进行识别和过滤。在信号噪声识别和消减之后,过滤后的数字音频输入信号x(i)输入至录音存储模块312,并存储在其中。
根据本发明的实施例,可以对音频输入信号x(i)数字化并存储到某一存储单元中,而不必向本文所述的先进行噪声识别和消减。根据该实施例,可以实施“存储后”信号降噪,然后根据需要输出噪声过滤后的信号进行进一步的处理或使用。例如,请参考图3的播音阶段304,实际上,数字音频输入信号首先从播音存储模块314输入至播音降噪模块316。此处,可以通过结合图1-2所示的方式对数字音频输入信号出现的信号异常进行识别和过滤。然后,调节之后的信号输入至D/A模块318,转换成音频输入信号的模拟形式。然后,模拟音频输入信号输入至播音信号调节模块320进行所需的调节。
如上所述,本发明的实施例也适用于其他需要通过计算方法实现低成本信号处理技术来过滤不需要的信号噪声的情况。场景或应用的举例可以包括:同时或近乎同时的信号共享或传输应用(如,电话会议/视频会议),以及“延迟的”信号共享或传输应用(如,录音/播音)等。
图4是本发明实施例的计算机系统/装置400的示意图。计算机装置可以包括移动用户设备或终端(如,智能电话)、服务器、台式电脑、手提电脑、个人数字助理、游戏机等等。计算机装置400可以被配置为执行和/或包括指令,当该指令被执行时,使得计算机系统400实施图1所示的方法。需要注意的是,图4仅仅提供了一般性的不同组件示意图,任一或所有该些组件都可以视情况利用。因此,图4较广泛地图示了如何以相对集成或分离方式实施各个系统元件。
图示的计算机装置400包括硬件元件,这些硬件元件可以通过总线402(或根据情况,以其他方式进行通信)电性连接在一起。这些硬件元件可以包括具有一个或多个处理器404的处理单元,其包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(如数字信号处理芯片,图形加速处理器和/或其他);一个或多个输入装置406,其包括但不限于遥控器、鼠标、键盘和/或其他;以及一个或多个输出装置408,其包括但不限于演示装置(如电视),打印机和/或其他。
计算机系统400可以进一步包括(和/或与之连通)一个或多个永久存储装置410,其可以包括但不限于,本地和/或网络存取存储器,和/或可以包括但不限于磁盘驱动器、驱动阵列、光存储装置、固态存储装置,如随机存取存储器(RAM)和/或只读存储器(ROM),其可编程、可快闪更新等。这样的存储装置可以配置为执行适当的数据存储,所述数据存储包括但不限于各种文件系统、数据库结构等等。
计算机装置400还可以包括通信子系统412,其包括但不限于调制解调器、网卡(无线或有线的)、红外通信装置、无线通信装置和/或芯片集(如,蓝牙,402.11设备、WiFi设备、WiMax设备、蜂窝通信设施(如GSM、WCDMA、LTE等等)),和/或其他。通信子系统412使得数据可以在网络(如下文将要描述的作为一个示例的网络)、其他计算机系统、和/或这里描述的设备之间进行交互。根据本发明的实施例,计算机系统进一步包括内部存储器414,其可以包括如上所述的RAM或ROM装置。
计算机装置400也可以包括软件元素,如图中所示位于内部存储器414内的软件,包括操作系统416、设备驱动程序、可执行库和/或其他代码,如一个或多个应用程序418,其可以包括本发明不同实施例提供的计算机程序,和/或可以被设计成实施本发明实施例提供的方法,和/或配置成本发明实施例提供的系统。仅仅作为举例,关于上述方法的一个或多个程序和/或系统组件可以由能够被计算机(和/或计算机内的存储器)执行的代码和/或指令实施;然后,这样的代码和/或指令可以用来配置和/或适用一通用计算机(或其他装置)来根据上述方法执行一个或多个操作。
可以将一组指令和/或代码存储在永久性计算机可读存储媒介中,例如上述的存储装置410。某些情况下,该存储媒介可以被整合到计算机系统中,如计算机系统400。根据本发明的其他实施例,存储媒介也可以与计算机系统分离(例如,可移动媒介,如闪存),和/或由安装包提供,以便存储媒介可以利用其上的指令/代码来编程、配置和/或适用通用计算机。这些指令可以是可执行代码的形式,其可以由计算机装置400执行和/或可以是源代码的形式和/或可安装代码的形式,一旦在计算机系统400上编辑和/或安装(如,利用任何常用的编译器、安装程序、压缩/解压缩公交,等),则成为可执行代码的形式。
显然,对本领域技术人员而言,可以根据特定需要对上述实施例进行实质上的改变。例如,可以使用定制的硬件,和/或在硬件、软件(包括可移植软件,如小应用程序),或二者之中实施某些特定元素。进一步地,所述装置也可以连接到其他计算机装置,如网络输入/输出装置。
如上所述,本发明实施例可以采用计算机系统(如计算机装置400)来执行本发明不同实施例的方法。根据本发明的实施例,可以由计算机系统400,响应处理器404执行内部存储器中的一个或多个指令的一个或多个序列(其可以集成在操作系统416中,和/或其他代码,如应用程序418),来执行部分或所有该方法程序。可以将该指令从另一个计算机可读媒介,如一个或多个存储装置410,读入内部存储器414中。仅作为举例,内部存储器414中的指令序列的运行可能会使得处理器404执行本文中所述方法流程。
本文所述“机器可读媒介”以及“计算机可读媒介”指的是,任何可以提供数据使得机器以某一特定方式运行的媒介。利用计算机系统400实施的实施例,不同的计算机可读媒介可以向处理器404提供可供执行的指令/代码,和/或可以存储和/或承载指令/代码。在许多实施方式中,计算机可读媒介是物理的和/或有形的存储媒介。这种媒介可以是非易失性或易失性媒介的形式。非易失性媒介包括,例如,光盘和/或磁盘,如存储设备410。易失性媒介包括但不限于动态存储器例如,如内部存储器414。
通常,物理的和/或有形的计算机可读媒介包括,例如,软盘、可折叠磁盘、硬盘、磁带或任何其他种类的磁性介质、CD-ROM、其他种类的光学介质、打孔卡、纸带、其他种类的具有孔状的物理介质、随机存取存储器(RAM)、可编程只读存储器(PROM)、电可编程只读存储器(EPROM)、快闪-电可编程只读存储器(FLASH-EPROM)、其他种类的存储芯片或盒式磁盘、或其他种类的计算机可以从中读出指令和/或代码的介质。
计算机可读媒介的变形可以存储可供处理器404运行的一个或多个指令的一个或多个序列。仅作为举例,这些指令最初可由远程计算机的磁盘和/或光盘存储。远程计算机可将所述指令下载至其动态存储器上,并以信号方式通过传输介质将该指令传送给计算机系统400接收和/或运行。
通常,通信子系统412(和/或其部件)接收信号,然后总线402运送该信号(和/或信号携带的数据、指令等等)给内部存储器414,处理器从内部存储器获取并运行该指令。可选地,内部存储器414获得的指令也可以,在处理器404运行该指令之前或之后,存储在永久性存储装置410中。
上述方法、系统和装置仅仅为举例说明。不同的配置可以视情况省略、替换或增加不同的方法步骤或程序、或系统部件。例如,作为可替换的配置,该方法可以采用不同于上述顺序来执行,和/或增加、省略和/或组合不同模块。并且,与某一配置相关的特征可以与不同配置进行组合。各配置的不同方面和要素可以采用类似的方式组合。并且,随着技术发展,各个要素仅用于举例,并不用以限定本发明权利要求的保护范围。
说明书给出具体细节用以充分理解实施例配置(包括实施方式)。然而,具体实践中也可以不需要所述细节。例如,对于已知的电路、方法、算法、结构和技术并未给出不必要的细节,以避免影响对本发明实施例的理解。本说明书仅仅提供了参考实施例,并不用于限定本发明权利要求的范围、应用或配置。当然,前述说明书的描述便于本领域技术人员理解和实施所述技术方案。本领域技术人员可以对所述要素的功能和设置进行修改,而不会脱离本发明保护范围和精神。
此外,可以将配置描述成如流程图或方框图所示的流程。虽然每一流程可以按照顺序执行,其中的大多数操作可以并列或同时执行。此外,操作顺序可以重新设置。所述流程还可以有图中所不包括的额外的步骤。进一步地,可以采用硬件、软件、固件、中间件、微码、硬件描述语言或其任意组合来实施实施例的方法。当以软件、固件、中间件或微码实施时,执行必要任务的程序代码或代码段可以存储于永久性计算机可读媒介,例如存储媒介。处理器可以执行所述的任务。
进而,本文所描述的实施例可以在联网的计算机系统环境下在计算机装置中以逻辑运算来实施。该逻辑运算可以以下述任一组合方式实施:(1)计算机装置上运行的一系列计算机可执行的指令、步骤或程序模块;和(2)在计算机装置内运行的互联的逻辑或硬件模块。
虽然,本发明主题已经针对结构特征和/或方法动作以特定语言进行描述,应该了解的是,本发明权利要求的所限定的主题不必限定于上述的特定特征或动作。当然,上述的特定特征或动作是作为实施本发明权利要求的实施例而描述的。
Claims (12)
1.一种信号降噪方法,其特征在于,包括:
计算机系统接收代表音频信号的数字输入信号;
计算机系统将该数字输入信号解析成一系列在时域上不交叠且相邻的片段;
计算机系统将每一相邻片段转换成频域表示,所述频域表示包括一系列在时域上不交叠的频谱分量,每一帧的频谱分量包括由索引值标示的频谱幅值;
计算机系统将所述一系列相邻片段的某一片段的频谱分量、与所述片段相邻的第一片段的频谱分量、以及与所述片段相邻的第二片段的频谱分量在索引值k处的频谱幅值进行比较;以及
当所述片段的频谱分量在索引值k处的频谱幅值满足至少下列条件之一时,计算机系统修改所述片段的频谱分量在索引值k处的频谱幅值,所述条件包括:超过所述第一片段的频谱分量在索引值k处的频谱幅值一定比例;以及超过所述第二片段的频谱分量在索引值k处的频谱幅值一定比例;
使用下列三种方式中的一种方式修改所述片段的频谱分量在索引值k处的频谱幅值大小:
对应所述第一片段的频谱分量在索引值k处的频谱幅值以及所述第二片段的频谱分量在索引值k处的频谱幅值之中的较小者;
对应所述第一片段的频谱分量在索引值k处的频谱幅值以及所述第二片段的频谱分量在索引值k处的频谱幅值的算术平均值;
对应所述第一片段的频谱分量在索引值k处的频谱幅值以及所述第二片段的频谱分量在索引值k处的频谱幅值的几何平均值。
2.根据权利要求1所述的信号降噪方法,其特征在于,所述方法还包括将所述片段的频谱分量、与所述片段相邻的第三片段的频谱分量、以及与所述片段相邻的第四片段的频谱分量在索引值k处的频谱幅值进行比较。
3.根据权利要求2所述的信号降噪方法,其特征在于,所述方法还包括将所述片段的频谱分量在索引值k处的频谱幅值大小修改为:所述第一片段的频谱分量在索引值k处的频谱幅值、所述第二片段的频谱分量在索引值k处的频谱幅值、第三片段的频谱分量在索引值k处的频谱幅值、以及所述第四片段的频谱分量在索引值k处的频谱幅值中的较小者。
4.根据权利要求2所述的信号降噪方法,其特征在于,所述方法还包括将所述片段的频谱分量在索引值k处的频谱大小修改为:对应所述第一片段的频谱分量在索引值k处的频谱幅值、所述第二片段的频谱分量在索引值k处的频谱幅值、所述第三片段的频谱分量在索引值k处的频谱幅值、以及所述第四片段的频谱在索引值k处的频谱分量幅值的算术平均值。
5.根据权利要求2所述的信号降噪方法,其特征在于,所述方法还包括将所述片段的频谱分量在索引值k处的频谱幅值大小修改为:对应所述第一片段的频谱分量在索引值k处的频谱幅值、所述第二片段的频谱分量在索引值k处的频谱幅值、所述第三片段的频谱分量在索引值k处的频谱幅值、以及所述第四片段的频谱分量在索引值k处的频谱幅值的几何平均值。
6.一种检测信号噪声的方法,其特征在于,包括:
计算机系统接收代表音频信号片段的数字输入信号;
计算机系统将所述数字输入信号转换成频域表示,所述频域表示包括一系列在时域上不交叠的n个帧的频谱分量,每一帧的频谱分量包括m个由索引k标示的频谱幅值;
计算机系统通过检测某一帧的频谱分量在某个索引处的频谱幅值满足至少下列条件之一来判定信号异常,所述条件包括:(1)预设的峰值条件;(2)预设的升高条件;和(3)预设的降低条件;
当所述频谱幅值满足至少所述条件之一时,计算机系统修改所述帧的频谱分量在所述索引处的频谱幅值;以及
计算机系统将所述频域表示转换成数字输出信号;
使用下列二种方式中的一种方式修改所述频谱值:
大小对应前一帧(n-1)的频谱分量在索引k处的频谱幅值、以及后一帧(n+1)的频谱分量在索引k处的频谱幅值的平均值;
大小对应前一帧(n-1)的频谱分量在索引k处的频谱幅值、以及后一帧(n+1)的频谱分量在索引k处的频谱幅值之中的较小者。
7.根据权利要求6所述的检测信号噪声的方法,其特征在于,所述音频信号片段是脉冲编码调制的。
8.根据权利要求6所述的检测信号噪声的方法,其特征在于,当当前帧n的频谱分量在索引k处的频谱幅值、比前一帧(n-1)的频谱分量在索引k处的频谱幅值大预设百分比值时,而且比后一帧(n+1)的频谱分量在索引k处的频谱幅值大所述预设百分比值时,则判断为满足所述预设峰值条件,以及在当前帧n检测到信号异常。
9.根据权利要求6所述的检测信号噪声的方法,其特征在于,当当前帧n的频谱分量在索引k处的频谱幅值比前一帧(n-1)的频谱分量在索引k处的频谱幅值大预设百分比值时,则判断为满足所述预设升高条件,以及在当前帧n检测到信号异常。
10.根据权利要求6所述的检测信号噪声的方法,其特征在于,当当前帧n的频谱分量在索引k处的频谱幅值比后一帧(n+1)的频谱分量在索引k处的频谱幅值大预设百分比值时,则判断为满足所述预设降低条件,以及在当前帧n检测到信号异常。
11.一种计算机系统,其特征在于,包括:
处理单元;以及
与所述处理单元连接的系统存储器,所述系统存储器包括指令,当处理单元运行所述指令时,使得所述处理单元控制至少一个模块实施信号降噪,所述至少一个模块适于:
接收代表音频信号的数字输入信号;
将数所述数字输入信号划分成一系列在时域上不交叠且相邻的片段;
将每一相邻片段映射至频域表示,所述频域表示包括一系列在时域上不交叠的频谱分量,每一帧的频谱分量包括由索引值标示的频谱幅值;
将所述一系列相邻片段的某一片段的频谱分量,与所述片段相邻的第一片段的频谱分量,以及与所述片段相邻的第二片段的频谱分量在索引值k处的频谱幅值进行比较;以及
当所述片段的频谱分量在索引值k处的频谱幅值满足至少下列条件之一时,修改所述片段的频谱分量在索引值k处的频谱幅值,所述条件包括:超过所述第一片段的频谱分量在索引值k处的频谱幅值一定比例;以及超过所述第二片段的频谱分量在索引值k处的频谱幅值一定比例;
所述至少一个模块进一步适于,使用下列三种方式中的一种方式修改所述片段的频谱分量在索引值k处的频谱幅值大小:
对应所述第一片段的频谱分量在索引值k处的频谱幅值以及所述第二片段的频谱分量在索引值k处的频谱幅值之中的较小者;
对应所述第一片段的频谱分量在索引值k处的频谱幅值以及所述第二片段的频谱分量在索引值k处的频谱幅值的算术平均值;
对应所述第一片段的频谱分量在索引值k处的频谱幅值以及所述第二片段的频谱分量在索引值k处的频谱幅值的几何平均值。
12.根据权利要求11所述的计算机系统,其特征在于,所述至少一个模块进一步适于,将所述片段的频谱分量,与所述片段相邻的第三片段的频谱分量,以及与所述片段相邻的第四片段的频谱分量在索引值k处的频谱幅值进行比较;以及基于所述第一片段的频谱分量在索引值k处的频谱幅值,所述第二片段的频谱分量在索引值k处的频谱幅值,所述第三片段的频谱分量在索引值k处的频谱幅值,以及所述第四片段的频谱分量在索引值k处的频谱幅值,根据最小值函数、算数平均值函数和几何平均值函数之一来修改所述片段的频谱分量在索引值k处的幅值。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310682971.4A CN104715771B (zh) | 2013-12-12 | 2013-12-12 | 信号降噪 |
US14/303,593 US9299361B2 (en) | 2013-12-12 | 2014-06-12 | Signal noise reduction |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310682971.4A CN104715771B (zh) | 2013-12-12 | 2013-12-12 | 信号降噪 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104715771A CN104715771A (zh) | 2015-06-17 |
CN104715771B true CN104715771B (zh) | 2018-08-21 |
Family
ID=53369251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310682971.4A Active CN104715771B (zh) | 2013-12-12 | 2013-12-12 | 信号降噪 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9299361B2 (zh) |
CN (1) | CN104715771B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109620261A (zh) * | 2018-12-06 | 2019-04-16 | 郑州大学第附属医院 | 一种精神压力测量系统及方法 |
CN110136735B (zh) * | 2019-05-13 | 2021-09-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频修复方法、设备及可读存储介质 |
TWI783215B (zh) * | 2020-03-05 | 2022-11-11 | 緯創資通股份有限公司 | 信號處理系統及其信號降噪的判定方法與信號補償方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6463406B1 (en) * | 1994-03-25 | 2002-10-08 | Texas Instruments Incorporated | Fractional pitch method |
DE10207455B4 (de) * | 2002-02-22 | 2006-04-20 | Framatome Anp Gmbh | Verfahren und Einrichtung zur Detektion einer impulsartigen mechanischen Einwirkung auf ein Anlagenteil |
CN101882442A (zh) * | 2009-05-04 | 2010-11-10 | 上海音乐学院 | 历史音频噪声检测与消除方法 |
US9031259B2 (en) * | 2011-09-15 | 2015-05-12 | JVC Kenwood Corporation | Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method |
CN103440871B (zh) * | 2013-08-21 | 2016-04-13 | 大连理工大学 | 一种语音中瞬态噪声抑制的方法 |
-
2013
- 2013-12-12 CN CN201310682971.4A patent/CN104715771B/zh active Active
-
2014
- 2014-06-12 US US14/303,593 patent/US9299361B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20150170667A1 (en) | 2015-06-18 |
CN104715771A (zh) | 2015-06-17 |
US9299361B2 (en) | 2016-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104715771B (zh) | 信号降噪 | |
US8559568B1 (en) | Sliding DFT windowing techniques for monotonically decreasing spectral leakage | |
KR20120063514A (ko) | 오디오 신호를 처리하기 위한 방법 및 장치 | |
JP6908774B2 (ja) | オーディオ指紋抽出方法及び装置 | |
RU2012128847A (ru) | Усовершенствованное гармоническое преобразование на основе блока поддиапазонов | |
Berrian et al. | Adaptive synchrosqueezing based on a quilted short-time Fourier transform | |
US20090062945A1 (en) | Method and System for Estimating Frequency and Amplitude Change of Spectral Peaks | |
US10727813B2 (en) | Fractional scaling digital signal processing | |
CN104978961B (zh) | 一种音频处理方法、装置及终端 | |
CN103390403B (zh) | Mfcc特征的提取方法及装置 | |
RU2017106091A (ru) | Аудиодекодер, способ и компьютерная программа с использованием характеристики при отсутствии входного сигнала для получения плавного перехода | |
CN104091591A (zh) | 一种音频处理方法及装置 | |
CN107959734B (zh) | 一种调节音量的方法及装置 | |
US20230350943A1 (en) | Methods and apparatus to identify media that has been pitch shifted, time shifted, and/or resampled | |
US9484743B2 (en) | Power distribution network event analysis using data from different data sources | |
CN117421194A (zh) | 基于周期分解的微服务异常检测方法 | |
RU148684U1 (ru) | Устройство фильтрации векторного сигнала | |
WO2015085532A1 (en) | Signal noise reduction | |
CN114255785A (zh) | 音频检测方法、装置、终端及存储介质 | |
US9871497B2 (en) | Processing audio signal to produce enhanced audio signal | |
Kehtarnavaz et al. | Using smartphones as mobile implementation platforms for applied digital signal processing courses | |
Ghosh et al. | Time-varying filter interpretation of Fourier transform and its variants | |
Balasaraswathy et al. | Low-complexity power spectral density estimation | |
RU173191U1 (ru) | Устройство фильтрации векторного сигнала | |
US20230300558A1 (en) | Visualizing auditory masking in multitrack audio recording |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |