CN102044241A - 一种实现通信系统中背景噪声的跟踪的方法和装置 - Google Patents
一种实现通信系统中背景噪声的跟踪的方法和装置 Download PDFInfo
- Publication number
- CN102044241A CN102044241A CN2009102053002A CN200910205300A CN102044241A CN 102044241 A CN102044241 A CN 102044241A CN 2009102053002 A CN2009102053002 A CN 2009102053002A CN 200910205300 A CN200910205300 A CN 200910205300A CN 102044241 A CN102044241 A CN 102044241A
- Authority
- CN
- China
- Prior art keywords
- time window
- noise
- frame
- spectrum
- present frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000004891 communication Methods 0.000 title claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims abstract description 129
- 230000005236 sound signal Effects 0.000 claims abstract description 15
- 206010038743 Restlessness Diseases 0.000 claims description 66
- 239000000284 extract Substances 0.000 claims description 27
- 101100328519 Caenorhabditis elegans cnt-2 gene Proteins 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 21
- 230000006641 stabilisation Effects 0.000 claims description 17
- 238000011105 stabilization Methods 0.000 claims description 17
- 101100328521 Schizosaccharomyces pombe (strain 972 / ATCC 24843) cnt6 gene Proteins 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 101100328518 Caenorhabditis elegans cnt-1 gene Proteins 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 101100129500 Caenorhabditis elegans max-2 gene Proteins 0.000 description 1
- 101100083446 Danio rerio plekhh1 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000004932 little finger Anatomy 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Noise Elimination (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种实现通信系统中背景噪声的跟踪的方法和装置,属于通信领域。所述方法包括:根据输入的音频信号,计算当前帧的信噪比;若当前帧的信噪比不大于门限1,则累加帧计数器,并计算当前帧的音调特征以及信号稳定性特征;当帧计数器累加至时间窗口长度时,则根据计算得到的时间窗口各帧的音调特征值和信号稳定性特征值,判断出时间窗口中含有噪声区间的可能性大小,并进而提取时间窗口的噪声特征。通过连续的在一定长度的时间窗口中分析背景噪声的存在性,可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时,通过对音调特征,频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。
Description
技术领域
本发明涉及通信领域,特别涉及一种实现通信系统中背景噪声的跟踪的方法和装置。
背景技术
在语音通信系统中,通过VAD(Voice Activity Detection,语音激活检测)技术,可以获知语音何时是激活状态,从而可以实现只在激活状态传输信号,有效地节约带宽资源。另外,由于语音通信系统中,说话人输入给终端的语音信号中通常都夹带有背景噪声,通过NS(Noise Suppression,噪声抑制)技术,可以有效降低或者抑制语音中夹带的背景噪声,显著改善听者的主观感受。
在语音激活检测VAD中,区别当前信号是语音还是非语音,本质上是看当前信号的特征是更接近背景噪声的特征还是更接近语音的特征,更接近的一方则为当前信号的类别。在噪声抑制NS中,为了削弱背景噪声对语音的影响,也需要知道当前背景噪声的某些特征,这样才能把这些特征从语音信号中去除掉,从而达到抑制噪声的目的。于是无论是语音激活检测VAD还是噪声抑制NS,都要涉及到一个关键的技术,即背景噪声跟踪。
目前,广泛使用的背景噪声跟踪技术是AMR(Audio/Modem Riser,声音/调制解调器插卡)VAD2中所用的背景噪声跟踪技术。该技术首先计算当前帧的SNR(Signal to Noise Ratio,信噪比),如果SNR较小,小于背景噪声门限,则当前帧就被确认为是背景噪声帧;否则检测当前帧的基音和音调(tone)特征,如果当前帧具有基音和音调的特征,则将滞后计数器加1,否则进一步计算当前帧与其之前相邻若干帧的谱波动大小,如果当前帧的谱波动较大,大于一个门限,则认为当前帧可能不是噪声帧且将滞后计数器加1,否则认为当前帧可能是噪声帧且将连续噪声帧计数器加1。如果连续噪声帧计数器达到了50帧,则可确认当前帧应为背景噪声帧。并且,在连续噪声帧计数器累加的过程中,允许个别不确信的帧出现(以滞后计数器来表示)。当连续噪声计数器达到50帧时,如果滞后计数器不大于6(即不确信的帧不大于6帧)时,则确认当前帧为噪声帧,即此时不影响对当前噪声帧的确认。如果在连续噪声计数器累加的过程中,滞后计数器超过6帧,则重置连续噪声帧计数器,当前信号不确认为背景噪声。
发明人在实现本发明的过程中,发现上述现有技术至少存在以下缺点和不足:
一方面,上述背景噪声跟踪技术在跟踪速度上存在缺陷,当背景噪声发生突变时(指向SNR增大的方向变化,比如噪声电平突然升高的情况),依靠SNR和背景噪声门限的比较已无法识别出噪声信号,只能等待连续50个噪声帧出现,导致跟踪速度慢。如果说话人的频率较快,无法满足出现连续50个噪声帧的条件,AMR VAD2将无法跟踪上背景噪声。另一方面,上述背景噪声跟踪技术在跟踪的准确性上存在缺陷,由于很多音乐信号中没有明显的基音和音调特征,则如果依据连续噪声计数器大于等于50且滞后计数器不大于6的条件,会将某些音乐信号也错误的判断为是背景噪声。
发明内容
为了提高跟踪背景噪声的速度、提高跟踪背景噪声的准确性,本发明实施例提供了一种实现通信系统中背景噪声的跟踪的方法和装置。所述技术方案如下:
一方面,提供了一种实现通信系统中背景噪声的跟踪的方法,所述方法包括:
根据输入的音频信号,计算当前帧的信噪比SNR;
若所述当前帧的信噪比SNR不大于门限1,则累加帧计数器cnt2,并计算所述当前帧的音调特征以及信号稳定性特征;
当所述帧计数器cnt2累加至时间窗口长度时,则根据所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值,判断出所述时间窗口中含有噪声区间的可能性大小;
根据判断出的所述时间窗口含有噪声区间的可能性大小,提取所述时间窗口中的噪声特征。
再一方面,提供了一种实现通信系统中背景噪声的跟踪的装置,所述装置包括:
第一处理模块,用于根据输入的音频信号,计算当前帧的信噪比SNR;
第二处理模块,用于若所述当前帧的信噪比SNR不大于门限1,则累加帧计数器cnt2,并计算所述当前帧的音调特征以及信号稳定性特征;
第三处理模块,用于当所述帧计数器cnt2累加至时间窗口长度时,则根据所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值,判断出所述时间窗口中含有噪声区间的可能性大小1;
第四处理模块,用于根据判断出的所述时间窗口含有噪声区间的可能性大小,提取所述时间窗口中的噪声特征。
本发明实施例提供的技术方案的有益效果是:
通过连续的在一定长度的时间窗口中分析背景噪声的存在性,可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时,通过对音调特征,频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的实现通信系统中背景噪声的跟踪的方法的流程示意图;
图2是本发明实施例2提供的实现通信系统中背景噪声的跟踪的方法的流程示意图;
图3是本发明实施例3提供的实现通信系统中背景噪声的跟踪的装置的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
本领域技术人员可以获知:背景噪声跟踪技术的性能可以用两个指标来衡量,即跟踪的速度和跟踪的准确性。其中,跟踪的速度指识别出某背景噪声信号的时间与该信号实际发生时间之间的距离,距离越短跟踪速度就越快。跟踪的准确性指能够正确识别出背景噪声信号和非背景噪声信号,进而只在背景噪声信号中提取特征参数。
如前所述,现有的噪声跟踪技术普遍在跟踪准确性和跟踪速度上都存在不足。跟踪速度的不足主要出现在有变化较剧烈的背景噪声存在时,现有噪声跟踪技术需要一段比较长的时间,只有在背景噪声变的平稳且持续一段较长的时间之后才能有效的跟踪上。跟踪准确性的不足主要出现在有音乐信号存在时,由于很多的音乐信号中没有明显的基音和音调特征,现有背景噪声跟踪技术会把此类音乐信号误当成噪声信号进行跟踪,需要特别注意的是,此处没有明显的基音和音调特征的音乐信号是一种泛指,传输的信号中除语音信号、背景噪声信号以外的任何信号,只要没有明显的基音和音调特征的都可称为音乐信号。
有鉴于此,本发明实施例提供了一种实现通信系统中背景噪声的跟踪的方法,旨在改善现有背景噪声跟踪技术在有突变背景噪声存在的场景下,跟踪速度较慢的问题,以及改善现有背景噪声跟踪技术在有音乐信号存在时的误跟踪问题,参见图1,该方法内容如下:
S1:根据输入的音频信号,计算当前帧的信噪比SNR;
S2:若当前帧的信噪比SNR不大于门限1,则累加帧计数器cnt2,并计算当前帧的音调特征以及信号稳定性特征;
其中,音调特征,包括但不限于提取——频谱的最大峰谷比,频谱的局部峰谷比的线性组合,频谱的局部峰值数量,部分频谱的局部峰值数量,频谱的最大峰均比,频谱的局部峰均比的线性组合等。其中,信号稳定性特征,包括但不限于提取——总能量波动,子带能量波动,频谱最大峰值位置波动,频谱最大峰谷比位置波动,多个频谱局部峰值位置波动等。
S3:当帧计数器cnt2累加至时间窗口长度时,则根据计算得到的时间窗口各帧的音调特征值和信号稳定性特征值,判断出时间窗口中含有噪声区间的可能性大小;
时间窗中含有噪声区间的可能性大小指时间窗中是否含有噪声及含有噪声的位置。对于一个时间窗中的音频帧,可能存在下列噪声区间可能性:当前帧为噪声帧,存在噪声帧。
S4:根据判断出的时间窗口含有噪声区间的可能性大小,提取时间窗口中的噪声特征。
对于当前帧为噪声帧的情况,可以直接提起当前帧的噪声特性,对于存在噪声帧的情况又具体包括:全噪声区间、大部分为噪声区间而仅有少量非噪声区间。对不同的类型根据不同情况提取噪声特征。
本发明实施例提供的方法,通过连续的在一定长度的时间窗口中分析背景噪声的存在性,可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时,通过对音调特征,频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。
为了对上述本发明实施例提供的方法进行详细说明,请参见如下实施例:
实施例2
为了改善现有背景噪声跟踪技术在有突变背景噪声存在的场景下,跟踪速度较慢的问题,以及现有背景噪声跟踪技术在有音乐信号存在时的误跟踪问题,本发明实施例提供了一种实现通信系统中背景噪声的跟踪的方法,参见图2,该方法内容如下:
101:根据输入的音频信号,计算当前帧的信噪比SNR。
对于输入的音频信号,各音频信号以帧格式的形式进行传输,首先需要对于当前帧进行信噪比的计算,其中,计算方法如下:
101A:获取当前帧的频谱信息,将当前帧的频谱非均匀的划分为16个子带。
其中,本实施例以将当前帧的频谱非均匀的划分为16个子带为例进行说明,具体实现时,可以采用均匀的划分方式,本实施例对此不做限制。另外,具体实现时,对划分得到的子带数目不做限制,例如,当对于频域分辨率要求较高的情况,则子带数目可以适当增加,但同时计算的复杂度会增大。具体应用时,根据技术人员的实际需要进行选择,本实施例对此不做限制。
101B:根据得到的子带,计算每个子带的snr(i)。
其中,snr(i)=Es(i)/En(i);snr(i)表示当前帧第i个子带的SNR,Es(i)和En(i)分别表示当前帧和背景噪声估计中第i子带的能量。
101C:根据计算得到的每个子带的snr(i),得到当前帧的SNR。
其中,当前帧的SNR表示为所有子带snr(i)的和,即SNR=∑snr(i)。
102:判断当前帧的SNR是否小于门限1,如果是,执行步骤103;否则执行步骤104。
其中,该门限1可以称为噪声门限,且该门限1的取值为一较小的数值,通常SNR的数值单位为分贝DB,相应地,该门限1的数值单位也为DB,具体实现时,对门限的数值单位不做限制。
103:确认当前帧是噪声帧。
进一步地,为了防止将能量较低的语音末尾当做背景噪声,由于该语音末尾由于能量较低,所以其SNR会有可能小于上述门限1,相应地,在步骤103还包括:将连续噪声计数器cnt1加1,之后判断连续噪声计数器cnt1是否大于门限2,如果是,则将当前帧确认为噪声帧;否则,则当前帧是语音末尾,流程结束。
104:当前帧的SNR不小于门限1,将帧计数器cnt2加1。
105:在将帧计数器cnt2加1的同时,计算当前帧的音调特征值参数和信号稳定性参数;且对最小子带能量缓存进行更新。
其中,上述音调特征值参数包括但不限于:频谱的最大峰谷比,频谱的局部峰谷比的线性组合,频谱的局部峰值数量,部分频谱的局部峰值数量,频谱的最大峰均比,频谱的局部峰均比的线性组合等。优选地,本实施例是以频谱最大的3个归一化峰谷比的和来表示音调特征值。详见如下:
tonal=PVRmax1+PVRmax2+PVRmax3
其中PVRmax1,2,3分别表示当前帧频谱中最大的3个归一化峰谷比,归一化峰谷比PVR表示为
PVR=[(peak-vall)+(peak-valr)]/Eavg
其中peak表示FFT谱的某个局部峰值,vall和valr分别表示FFT谱峰值peak左右两侧各4个
频点范围内搜索得到的最小值,表示peak两侧距peak最近的局部谷值,
Eavg表示FFT频谱能量的均值。
其中,上述信号稳定性参数包括但不限于:总能量波动,子带能量波动,频谱最大峰值位置波动,频谱最大峰谷比位置波动,多个频谱局部峰值位置波动等。优选地,本实施例以谱波动值、当前帧的频谱峰值位置波动值、当前帧的频谱最大峰谷比位置的波动值为例进行说明。分别详见如下:
1、谱波动值(spdev),计算方法如下:
其中M为Ew(i)的均值,Ew(i)为第i子带经谱减后的能量,表示为
Ew(i)=Es(i)/Eavg(i)
其中Es(i)表示当前帧第i子带的能量,Eavg(i)表示第i子带的能量滑动平均,表示为
Eavg(i)=α·Eavg(i)+(1-α)·Es(i)
其中α是遗忘系数
2、当前帧的频谱峰值位置波动值(pflux),表示FFT(Fast Fourier Transform,傅立叶变换)谱最大峰值位置的前后变化大小,计算方法如下:
pflux=idxp max(0)-idxp max(-1)
其中idxp max(0)和idxp max(-1)分别表示当前和前一帧中频谱最大峰值的FFT频点索引。
3、频谱最大峰谷比位置波动值(Mpflux),表示帧内具有最大峰谷比的FFT谱峰值位置的前后变化大小,其计算方法如下。
Mpflux=idxpvr max(0)-idxpvr max(-1)
其中idxpvr max(0)和idxpvr max(-1)分别表示当前帧和其前一帧具有最大峰谷比的FFT频点
索引,峰谷比pvr的计算方法为
pvr=4·Eidx_peak-(Eidx_peak-1+Eidx_peak-2+Eidx_peak+1+Eidx_peak+2)
其中Eidx_peak表示局部峰值peak的能量,Eidx_peak-i和Eidx_peak+i分别表示peak左侧第i个和右侧
第i个FFT频点的能量。
其中,该步骤105中所涉及的对最小子带能量缓存进行更新,其作用是存储当前时间窗口中各个子带的最小能量值。
106:根据步骤105得到的参数值,和各参数对应的门限进行比较后,针对各参数而言,对于满足各自的条件的参数对应的计数器加1。详见如下:
106A:判断步骤105得到的当前帧的谱波动值是否小于门限3,如果是,则将弱谱波动计数器cnt3加1;否则,保持弱谱波动计数器cnt3不变。
106B:判断步骤105得到的音调特征值是否小于门限4,如果是,则将弱音调计数器cnt4加1;否则,保持弱音调计数器cnt4不变。
106C:判断步骤105得到的频谱最大峰谷比位置波动值是否小于门限5,如果是,则将稳定最大峰谷比位置计数器cnt5加1;否则,保持稳定最大峰谷比位置计数器cnt5不变。
106D:判断步骤105得到的频谱峰值位置波动值是否大于门限6,如果是,则将频谱峰值位置波动计数器cnt6加1;否则,保持频谱峰值位置波动计数器cnt6不变。
优选地,上述门限3可以取值为12、门限4可以取值为15、门限5可以取值为1、门限6可以取值为0。本实施例对各门限具体取值大小和取值单位不做限制,根据实际应用进行设置。
107:判断帧计数器cnt2计数是否等于预设的时间窗口长度;如果是,则执行步骤108;否则,执行步骤114。
其中,帧计数器cnt2的目的是为了建立一个时间窗口,本实施例中将该时间窗口的长度预设为30,即该时间窗口由30帧帧长组成,相当于帧计数器cnt2计数达到30,本实施例中在每一个这样的时间窗口内都会对信号特征进行分析,从中提取出可能存在的背景噪声特征。
108:判断弱音调计数器cnt4是否大于门限7,如果是,则执行步骤109;否则,执行步骤112。
109:弱音调计数器cnt4大于门限7,则认为在过去的30帧中存在噪声帧,则判断是否同时满足如下条件:弱谱波动计数器cnt3>门限8、稳定最大峰谷比位置计数器cnt5<门限9、频谱峰值位置波动计数器cnt6>门限10、当前帧的谱波动spdev<门限11,如果是,则执行步骤113;否则,执行步骤110。
110:判断是否同时满足如下条件:稳定最大峰谷比位置计数器cnt5<门限9、频谱峰值位置波动计数器cnt6>门限10;如果是,则执行步骤111;否则,执行步骤112。
111:将最小子带能量缓存中存储的子带能量作为噪声子带能量的特征。
其中,若执行到步骤111,则表示过去的30帧中至少存在噪声帧,且将最小子带能量缓存中存储的子带能量作为噪声特征。
112:将各计数器cnt1-6重置为0,并将最小子带能量缓存清空。
其中,若执行到步骤112,则表示过去的30帧中不存在噪声帧。
113:确认当前帧为噪声帧。
其中,若执行到步骤113,则可确认当前帧为噪声帧。
114:判断帧计数器cnt2是否大于30,如果否,则执行步骤115;否则,执行步骤116。
115:继续读取当前帧的下一帧,返回执行步骤101。
116:判断谱波动是否小于门限11,如果是,则执行步骤113,即确认当前帧为噪声帧;否则,执行步骤112,即将各计数器cnt1-6重置为0,并将最小子带能量缓存清空。
其中,若当前帧为非噪声帧,则可以不用提取时间窗口的噪声特征;若当前帧为噪声帧,则可以直接提取该噪声帧的特征值;若判断出时间窗户存在噪声帧,则可以通过以下方式方法,提取到该时间窗口的噪声特征,详见如下:
进一步地,若判断结果为时间窗口存在噪声帧时,则根据上述音调特征统计值和信号稳定性统计值,可以判断得出该时间窗口中含有背景噪声区间的类型(即包括全噪声区间、大部分为噪声区间而仅有少量非噪声区间),具体如下:
1、判断该时间窗口中含有背景噪声区间是否为全噪声区间;例如,根据弱谱波动计数器cnt3,判断该弱谱波动计数器cnt3是否等于时间窗口长度,如果是,则认为该时间窗口中含有背景噪声区间为全噪声区间;否则,则认为该时间窗口中含有背景噪声区间不为全噪声区间;
2、判断该时间窗口中含有背景噪声区间是否是大部分为噪声区间而仅有少量非噪声区间;例如,根据弱谱波动计数器cnt3,判断该弱谱波动计数器cnt3是否小于时间窗口长度且大于预设取值(该预设取值为本领域技术根据实际需要所设定的经验值),如果是,则认为该时间窗口中是大部分为噪声区间而仅有少量非噪声区间;
3、判断该时间窗口中不存在噪声区间。即如前所述,若执行到步骤112,则表示过去的30帧中不存在噪声帧。
进一步地,若上述判断得出该时间窗口中含有背景噪声区间是大部分为噪声区间而仅有少量非噪声区间,则进一步包括:判断上述少量的非噪声区间在该时间窗口中出现的位置,例如,上述少量的非噪声区间是否位于该时间窗口的前端,或,上述少量的非噪声区间是否位于该时间窗口的末端,或,上述少量的非噪声区间是否位于该时间窗口的两端。方法如下:获取不满足令弱谱波动计数器cnt3+1的帧,对于获取的帧得到帧的位置信息,根据所得到的位置信息,可以得出帧所在时间窗口的位置。例如,对于输入的音频信号的每个帧,在进行处理时,都会在缓存中记录其相关的信息,例如,对于满足令弱谱波动计数器cnt3+1的帧,在缓存中将其标识记为“1”;对于满足令弱谱波动计数器cnt3+1的帧,在缓存中将其标识记为“0”;相应地,此时,可以根据缓存中记录的相关内容,可以获知不满足令弱谱波动计数器cnt3+1的帧的位置信息,并进而可以获知少量的非噪声区间在该时间窗口中出现的位置。
当需要提取背景噪声的特征时,本发明实施例提供的方法还包括:
1、当该时间窗口中含有背景噪声区间为全噪声区间时,根据实际需要进行背景噪声的特征的提取。例如:提取该时间窗口最末端的噪声区间的特征值作为该背景噪声在该时间窗口的特征;或,提取该时间窗口内所有噪声区间的特征均值作为该背景噪声在该时间窗口的特征;或,提取该时间窗口内部分或全部噪声区间的加权特征值作为该背景噪声在该时间窗口的特征,本发明实施例对提取的方式和方法不做限制。
2、当该时间窗口中含有背景噪声区间为大部分为噪声区间而仅有少量非噪声区间时,
1)若非噪声区间不在时间窗口的末端时,则提取该时间窗口最末端的噪声区间的特征值作为该背景噪声在该时间窗口的特征;或,提取时间窗口中靠近末端的部分噪声区间的加权特征值作为该背景噪声在该时间窗口的特征;
2)若非噪声区间在时间窗口的末端时,则提取时间窗口中的最小特征值作为该背景噪声在该时间窗口的特征;或,提取部分噪声区间的加权特征值作为该背景噪声在该时间窗口的特征。
综上所述,本发明实施例提供的方法,通过连续的在一定长度的时间窗口中分析背景噪声的存在性,可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时,通过对音调特征,频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。
实施例3
与上述方法实施例相应地,本发明实施例提供了一种实现通信系统中背景噪声的跟踪的装置,参见图3,该装置包括:
第一处理模块301,用于根据输入的音频信号,计算当前帧的信噪比SNR;
第二处理模块302,用于若当前帧的信噪比SNR不大于门限1,则累加帧计数器cnt2,并计算当前帧的音调特征以及信号稳定性特征;
第三处理模块303,用于当帧计数器cnt2累加至时间窗口长度时,则根据计算得到的时间窗口各帧的音调特征值和信号稳定性特征值,判断出时间窗口中含有噪声区间的可能性大小;
第四处理模块304,用于根据判断出的时间窗口含有噪声区间的可能性大小,提取时间窗口中的噪声特征。
其中,第一处理模块301,包括:
划分单元,用于根据输入的音频信号,获取当前帧的频谱信息,将当前帧的频谱划分为多个子带;
子带计算单元,用于根据得到的各子带,计算每个子带的信噪比snr(i);
获得单元,用于根据计算得到的每个子带的snr(i),得到当前帧的SNR。
其中,第二处理模块302,包括:
门限判断单元,用于判断当前帧的信噪比SNR是否大于门限1;
帧计数器累加单元,用于若判断单元判断结果为否时,累加帧计数器cnt2;
计算单元,用于计算当前帧的谱波动值、当前帧的音调特征值、当前帧的频谱峰值位置波动值以及当前帧的频谱最大峰谷比位置波动值。
其中,第三处理模块303,还包括:
累加单元,用于若当前帧的谱波动值小于门限3,则累加弱谱波动计数器cnt3;若当前帧的音调特征值小于门限4,则累加弱音调计数器cnt4;若当前帧的频谱最大峰谷比位置波动值小于门限5,则累加稳定最大峰谷比位置计数器cnt5;若当前帧的频谱峰值位置波动值大于门限6,则累加频谱峰值位置波动计数器cnt6;
判断单元,用于根据当前帧的谱波动值、音调特征值、频谱最大峰谷比位置波动值、频谱峰值位置波动值以及各计数器,判断时间窗口中是否存在噪声帧。
其中,判断单元具体用于如果弱音调计数器cnt4大于门限7,则时间窗口中无噪声帧;如果弱音调计数器cnt4不大于门限7,则若弱谱波动计数器cnt3大于门限8、稳定最大峰谷比位置计数器cnt5小于门限9、频谱峰值位置波动计数器cnt6大于门限10,且当前帧的谱波动值小于门限11,则当前帧为噪声帧;否则,若稳定最大峰谷比位置计数器cnt5小于门限9,且频谱峰值位置波动计数器cnt6大于门限10,则时间窗口中存在噪声帧;否则,时间窗口中无噪声帧。
其中,第三处理模块303,具体用于若弱谱波动计数器cnt3等于时间窗口长度,则时间窗口为全噪声区间;若弱谱波动计数器cnt3小于时间窗口长度且大于预设长度,则时间窗口为大部分为噪声区间且存在少量的非噪声区间;若时间窗口中无噪声帧。
若时间窗口为大部分为噪声区间且存在少量的非噪声区间,第三处理模块303还包括:位置类型判断单元,用于判断少量的非噪声区间在时间窗口出现的位置类型,位置类型包括:时间窗口的前端、时间窗口的末端、时间窗口的两端。
其中,位置类型判断单元具体用于根据弱谱波动计数器cnt3,获取不满足令弱谱波动计数器cnt3累加的帧,根据获取的帧,得到帧的位置,根据位置获得少量的非噪声区间在时间窗口出现的位置类型。
第四处理模块304具体用于若时间窗口为全噪声区间时,则提取时间窗口最末端的噪声区间的特征值;或,提取时间窗口内所有噪声区间的特征均值;或,提取时间窗口内部分或全部噪声区间的加权特征值;若时间窗口为大部分为噪声区间且存在少量的非噪声区间时,如果非噪声区间不在时间窗口的末端,则提取时间窗口最末端的噪声区间的特征值;或,提取时间窗口中靠近末端的部分噪声区间的加权特征值;如果非噪声区间在时间窗口的末端时,则提取时间窗口中噪声特征的最小值;或,提取部分噪声区间的加权特征值。
20、如权利要求13所述的装置,其特征在于,所述第三处理模块,还用于当所述帧计数器cnt2大于所述时间窗口长度时,若所述当前帧的谱波动值小于门限11,则所述当前帧为噪声帧;否则,所述当前帧为非噪声帧。
综上所述,本发明实施例提供的装置,通过连续的在一定长度的时间窗口中分析背景噪声的存在性,可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时,通过对音调特征,频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。
本发明实施例中的“接收”一词可以理解为主动从其他模块获取也可以是接收其他模块发送来的信息。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (20)
1.一种实现通信系统中背景噪声的跟踪的方法,其特征在于,所述方法包括:
根据输入的音频信号,计算当前帧的信噪比SNR;
若所述当前帧的信噪比SNR不大于门限1,则累加帧计数器cnt2,并计算所述当前帧的音调特征以及信号稳定性特征;
当所述帧计数器cnt2累加至时间窗口长度时,则根据所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值,判断出所述时间窗口中含有噪声区间的可能性大小;
根据判断出的所述时间窗口含有噪声区间的可能性大小,提取所述时间窗口中的噪声特征。
2.如权利要求1所述的方法,其特征在于,所述根据输入的音频信号,计算当前帧的信噪比SNR的步骤,包括:
根据输入的音频信号,获取当前帧的频谱信息,将当前帧的频谱划分为多个子带;
根据得到的各子带,计算每个子带的信噪比snr(i);
根据计算得到的每个子带的snr(i),得到当前帧的SNR。
3.如权利要求1所述的方法,其特征在于,所述计算所述当前帧的音调特征以及信号稳定性特征的步骤,包括:
计算所述当前帧的音调特征值、所述当前帧的谱波动值、所述当前帧的频谱峰值位置波动值以及所述当前帧的频谱最大峰谷比位置波动值。
4.如权利要求3所述的方法,其特征在于,所述判断出所述时间窗口中含有噪声区间的可能性大小的步骤之前,所述方法还包括:
若所述当前帧的谱波动值小于门限3,则累加弱谱波动计数器cnt3;
若所述当前帧的音调特征值小于门限4,则累加弱音调计数器cnt4;
若所述当前帧的频谱最大峰谷比位置波动值小于门限5,则累加稳定最大峰谷比位置计数器cnt5;
若所述当前帧的频谱峰值位置波动值大于门限6,则累加频谱峰值位置波动计数器cnt6;
根据所述当前帧的谱波动值、音调特征值、频谱最大峰谷比位置波动值、频谱峰值位置波动值以及各计数器,判断所述时间窗口中是否存在噪声帧。
5.如权利要求4所述的方法,其特征在于,当所述帧计数器cnt2累加至时间窗口长度时,所述判断所述时间窗口中是否存在噪声帧的步骤,包括:
如果所述弱音调计数器cnt4不大于门限7,则所述时间窗口中无噪声帧;
如果所述弱音调计数器cnt4大于门限7,则若所述弱谱波动计数器cnt3大于门限8、所述稳定最大峰谷比位置计数器cnt5小于门限9、所述频谱峰值位置波动计数器cnt6大于门限10,且所述当前帧的谱波动值小于门限11,则所述当前帧为噪声帧;否则,若所述稳定最大峰谷比位置计数器cnt5小于门限9,且所述频谱峰值位置波动计数器cnt6大于门限10,则所述时间窗口中存在噪声帧;否则,所述时间窗口中无噪声帧。
6.如权利要求5所述的方法,其特征在于,若所述时间窗口中存在噪声帧,所述判断出所述时间窗口中含有噪声区间的可能性大小的步骤,包括:
若所述弱谱波动计数器cnt3等于所述时间窗口长度,则所述时间窗口为全噪声区间;
若所述弱谱波动计数器cnt3小于所述时间窗口长度且大于预设长度,则所述时间窗口为大部分为噪声区间且存在少量的非噪声区间。
7.如权利要求6所述的方法,其特征在于,若所述时间窗口包含的噪声区间的类型为大部分为噪声区间且存在少量的非噪声区间,则所述方法还包括:
判断所述少量的非噪声区间在所述时间窗口出现的位置类型,所述位置类型包括:时间窗口的前端、时间窗口的末端、时间窗口的两端。
8.如权利要求7所述的方法,其特征在于,所述判断所述少量的非噪声区间在所述时间窗口出现的位置类型的步骤,包括:
根据所述弱谱波动计数器cnt3,获取不满足令所述弱谱波动计数器cnt3累加的帧,根据所述获取的帧,得到所述帧的位置,根据所述位置获得所述少量的非噪声区间在所述时间窗口出现的位置类型。
9.如权利要求8所述的方法,其特征在于,所述根据判断出的所述时间窗口含有噪声区间的可能性大小,提取所述时间窗口的噪声特征的步骤,包括:
若所述时间窗口为全噪声区间时,则提取所述时间窗口最末端的噪声区间的特征值;或,提取所述时间窗口内所有噪声区间的特征均值;或,提取所述时间窗口内部分或全部噪声区间的加权特征值;
若所述时间窗口为大部分为噪声区间且存在少量的非噪声区间时,如果所述非噪声区间不在所述时间窗口的末端,则提取所述时间窗口最末端的噪声区间的特征值;或,提取所述时间窗口中靠近末端的部分噪声区间的加权特征值;如果所述非噪声区间在时间窗口的末端时,则提取所述时间窗口中噪声特征的最小值;或,提取部分噪声区间的加权特征值。
10.如权利要求1所述的方法,其特征在于,当所述帧计数器cnt2大于所述时间窗口长度时,所述方法还包括:
获得当前帧的谱波动值,若所述当前帧的谱波动值小于门限11,则所述当前帧为噪声帧;否则,所述当前帧为非噪声帧。
11.一种实现通信系统中背景噪声的跟踪的装置,其特征在于,所述装置包括:
第一处理模块,用于根据输入的音频信号,计算当前帧的信噪比SNR;
第二处理模块,用于若所述当前帧的信噪比SNR不大于门限1,则累加帧计数器cnt2,并计算所述当前帧的音调特征以及信号稳定性特征;
第三处理模块,用于当所述帧计数器cnt2累加至时间窗口长度时,则根据所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值,判断出所述时间窗口中含有噪声区间的可能性大小。
第四处理模块,用于根据判断出的所述时间窗口中含有噪声区间的可能性大小,提取所述时间窗口中的噪声特征。
12.如权利要求11所述的装置,其特征在于,所述第一处理模块,包括:
划分单元,用于根据输入的音频信号,获取当前帧的频谱信息,将当前帧的频谱划分为多个子带;
子带计算单元,用于根据得到的各子带,计算每个子带的信噪比snr(i);
获得单元,用于根据计算得到的每个子带的snr(i),得到当前帧的SNR。
13.如权利要求11所述的装置,其特征在于,所述第二处理模块,包括:
门限判断单元,用于判断所述当前帧的信噪比SNR是否大于门限1;
帧计数器累加单元,用于若所述判断单元判断结果为否时,累加帧计数器cnt2;
计算单元,用于计算所述当前帧的谱波动值、所述当前帧的音调特征值、所述当前帧的频谱峰值位置波动值以及所述当前帧的频谱最大峰谷比位置波动值。
14.如权利要求13所述的装置,其特征在于,所述第三处理模块,还包括:
累加单元,用于若所述当前帧的谱波动值小于门限3,则累加弱谱波动计数器cnt3;若所述当前帧的音调特征值小于门限4,则累加弱音调计数器cnt4;若所述当前帧的频谱最大峰谷比位置波动值小于门限5,则累加稳定最大峰谷比位置计数器cnt5;若所述当前帧的频谱峰值位置波动值大于门限6,则累加频谱峰值位置波动计数器cnt6;
判断单元,用于根据所述当前帧的谱波动值、音调特征值、频谱最大峰谷比位置波动值、频谱峰值位置波动值以及各计数器,判断所述时间窗口中是否存在噪声帧。
15.如权利要求14所述的装置,其特征在于,所述判断单元具体用于如果所述弱音调计数器cnt4大于门限7,则所述时间窗口中无噪声帧;如果所述弱音调计数器cnt4不大于门限7,则若所述弱谱波动计数器cnt3大于门限8、所述稳定最大峰谷比位置计数器cnt5小于门限9、所述频谱峰值位置波动计数器cnt6大于门限10,且所述当前帧的谱波动值小于门限11,则所述当前帧为噪声帧;否则,若所述稳定最大峰谷比位置计数器cnt5小于门限9,且所述频谱峰值位置波动计数器cnt6大于门限10,则所述时间窗口中存在噪声帧;否则,所述时间窗口中无噪声帧。
16.如权利要求15所述的装置,其特征在于,所述第三处理模块,具体用于若所述弱谱波动计数器cnt3等于所述时间窗口长度,则所述时间窗口为全噪声区间;若所述弱谱波动计数器cnt3小于所述时间窗口长度且大于预设长度,则所述时间窗口为大部分为噪声区间且存在少量的非噪声区间;若所述时间窗口中无噪声帧。
17.如权利要求16所述的装置,其特征在于,若所述时间窗口为大部分为噪声区间且存在少量的非噪声区间,所述第三处理模块还包括:位置类型判断单元,用于判断所述少量的非噪声区间在所述时间窗口出现的位置类型,所述位置类型包括:时间窗口的前端、时间窗口的末端、时间窗口的两端。
18.如权利要求17所述的装置,其特征在于,所述位置类型判断单元具体用于根据所述弱谱波动计数器cnt3,获取不满足令所述弱谱波动计数器cnt3累加的帧,根据所述获取的帧,得到所述帧的位置,根据所述位置获得所述少量的非噪声区间在所述时间窗口出现的位置类型。
19.如权利要求17所述的装置,所述第四处理模块具体用于若所述时间窗口为全噪声区间时,则提取所述时间窗口最末端的噪声区间的特征值;或,提取所述时间窗口内所有噪声区间的特征均值;或,提取所述时间窗口内部分或全部噪声区间的加权特征值;若所述时间窗口为大部分为噪声区间且存在少量的非噪声区间时,如果所述非噪声区间不在所述时间窗口的末端,则提取所述时间窗口最末端的噪声区间的特征值;或,提取所述时间窗口中靠近末端的部分噪声区间的加权特征值;如果所述非噪声区间在时间窗口的末端时,则提取所述时间窗口中噪声特征的最小值;或,提取部分噪声区间的加权特征值。
20.如权利要求13所述的装置,其特征在于,所述第三处理模块,还用于当所述帧计数器cnt2大于所述时间窗口长度时,若所述当前帧的谱波动值小于门限11,则所述当前帧为噪声帧;否则,所述当前帧为非噪声帧。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102053002A CN102044241B (zh) | 2009-10-15 | 2009-10-15 | 一种实现通信系统中背景噪声的跟踪的方法和装置 |
PCT/CN2010/077777 WO2011044853A1 (zh) | 2009-10-15 | 2010-10-15 | 一种实现通信系统中背景噪声的跟踪的方法和装置 |
EP10823082.2A EP2437256B1 (en) | 2009-10-15 | 2010-10-15 | Method and device for realizing trace of background noise in communication system |
US13/116,323 US8095361B2 (en) | 2009-10-15 | 2011-05-26 | Method and device for tracking background noise in communication system |
US13/325,985 US8447601B2 (en) | 2009-10-15 | 2011-12-14 | Method and device for tracking background noise in communication system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102053002A CN102044241B (zh) | 2009-10-15 | 2009-10-15 | 一种实现通信系统中背景噪声的跟踪的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102044241A true CN102044241A (zh) | 2011-05-04 |
CN102044241B CN102044241B (zh) | 2012-04-04 |
Family
ID=43875854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102053002A Active CN102044241B (zh) | 2009-10-15 | 2009-10-15 | 一种实现通信系统中背景噪声的跟踪的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (2) | US8095361B2 (zh) |
EP (1) | EP2437256B1 (zh) |
CN (1) | CN102044241B (zh) |
WO (1) | WO2011044853A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854662A (zh) * | 2014-03-04 | 2014-06-11 | 中国人民解放军总参谋部第六十三研究所 | 基于多域联合估计的自适应语音检测方法 |
CN109771945A (zh) * | 2019-01-30 | 2019-05-21 | 上海艾为电子技术股份有限公司 | 终端设备的控制方法和装置 |
CN113488076A (zh) * | 2021-06-30 | 2021-10-08 | 北京小米移动软件有限公司 | 音频信号处理方法及装置 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102044241B (zh) | 2009-10-15 | 2012-04-04 | 华为技术有限公司 | 一种实现通信系统中背景噪声的跟踪的方法和装置 |
US8990074B2 (en) * | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
US9059785B2 (en) * | 2011-07-07 | 2015-06-16 | Qualcomm Incorporated | Fast timing acquisition in cell search |
CN103325386B (zh) | 2012-03-23 | 2016-12-21 | 杜比实验室特许公司 | 用于信号传输控制的方法和系统 |
JP6179087B2 (ja) * | 2012-10-24 | 2017-08-16 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム |
KR101788484B1 (ko) | 2013-06-21 | 2017-10-19 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | Tcx ltp를 이용하여 붕괴되거나 붕괴되지 않은 수신된 프레임들의 재구성을 갖는 오디오 디코딩 |
DE102013111784B4 (de) * | 2013-10-25 | 2019-11-14 | Intel IP Corporation | Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren |
US9997172B2 (en) * | 2013-12-02 | 2018-06-12 | Nuance Communications, Inc. | Voice activity detection (VAD) for a coded speech bitstream without decoding |
US9552829B2 (en) * | 2014-05-01 | 2017-01-24 | Bellevue Investments Gmbh & Co. Kgaa | System and method for low-loss removal of stationary and non-stationary short-time interferences |
TWI569263B (zh) * | 2015-04-30 | 2017-02-01 | 智原科技股份有限公司 | 聲頻訊號的訊號擷取方法與裝置 |
CN105203839B (zh) * | 2015-08-28 | 2018-01-19 | 中国科学院新疆天文台 | 一种基于宽带频谱的干扰信号提取方法 |
CN107528646B (zh) * | 2017-08-31 | 2020-08-28 | 中国科学院新疆天文台 | 一种基于宽带频谱的干扰信号识别及提取方法 |
CN111161749B (zh) * | 2019-12-26 | 2023-05-23 | 佳禾智能科技股份有限公司 | 可变帧长的拾音方法、电子设备、计算机可读存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5450484A (en) * | 1993-03-01 | 1995-09-12 | Dialogic Corporation | Voice detection |
US5659622A (en) * | 1995-11-13 | 1997-08-19 | Motorola, Inc. | Method and apparatus for suppressing noise in a communication system |
US6453285B1 (en) * | 1998-08-21 | 2002-09-17 | Polycom, Inc. | Speech activity detector for use in noise reduction system, and methods therefor |
US6122610A (en) | 1998-09-23 | 2000-09-19 | Verance Corporation | Noise suppression for low bitrate speech coder |
US6662155B2 (en) * | 2000-11-27 | 2003-12-09 | Nokia Corporation | Method and system for comfort noise generation in speech communication |
US7487084B2 (en) * | 2001-10-30 | 2009-02-03 | International Business Machines Corporation | Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle |
GB2384670B (en) * | 2002-01-24 | 2004-02-18 | Motorola Inc | Voice activity detector and validator for noisy environments |
JP2003271191A (ja) * | 2002-03-15 | 2003-09-25 | Toshiba Corp | 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム |
GB2417812B (en) * | 2003-05-08 | 2007-04-18 | Voice Signal Technologies Inc | A signal-to-noise mediated speech recognition algorithm |
CN1617606A (zh) | 2003-11-12 | 2005-05-18 | 皇家飞利浦电子股份有限公司 | 一种在语音信道传输非语音数据的方法及装置 |
ES2525427T3 (es) * | 2006-02-10 | 2014-12-22 | Telefonaktiebolaget L M Ericsson (Publ) | Un detector de voz y un método para suprimir sub-bandas en un detector de voz |
US8032370B2 (en) * | 2006-05-09 | 2011-10-04 | Nokia Corporation | Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes |
KR100718846B1 (ko) * | 2006-11-29 | 2007-05-16 | 인하대학교 산학협력단 | 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법 |
CN101197130B (zh) | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
CN101320563B (zh) * | 2007-06-05 | 2012-06-27 | 华为技术有限公司 | 一种背景噪声编码/解码装置、方法和通信设备 |
CN101320559B (zh) * | 2007-06-07 | 2011-05-18 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
US8090588B2 (en) | 2007-08-31 | 2012-01-03 | Nokia Corporation | System and method for providing AMR-WB DTX synchronization |
CN102044241B (zh) | 2009-10-15 | 2012-04-04 | 华为技术有限公司 | 一种实现通信系统中背景噪声的跟踪的方法和装置 |
-
2009
- 2009-10-15 CN CN2009102053002A patent/CN102044241B/zh active Active
-
2010
- 2010-10-15 WO PCT/CN2010/077777 patent/WO2011044853A1/zh active Application Filing
- 2010-10-15 EP EP10823082.2A patent/EP2437256B1/en active Active
-
2011
- 2011-05-26 US US13/116,323 patent/US8095361B2/en active Active
- 2011-12-14 US US13/325,985 patent/US8447601B2/en active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854662A (zh) * | 2014-03-04 | 2014-06-11 | 中国人民解放军总参谋部第六十三研究所 | 基于多域联合估计的自适应语音检测方法 |
CN109771945A (zh) * | 2019-01-30 | 2019-05-21 | 上海艾为电子技术股份有限公司 | 终端设备的控制方法和装置 |
CN109771945B (zh) * | 2019-01-30 | 2022-07-08 | 上海艾为电子技术股份有限公司 | 终端设备的控制方法和装置 |
CN113488076A (zh) * | 2021-06-30 | 2021-10-08 | 北京小米移动软件有限公司 | 音频信号处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US20120084085A1 (en) | 2012-04-05 |
EP2437256A4 (en) | 2012-04-11 |
EP2437256B1 (en) | 2013-08-28 |
CN102044241B (zh) | 2012-04-04 |
US8447601B2 (en) | 2013-05-21 |
US20110238418A1 (en) | 2011-09-29 |
EP2437256A1 (en) | 2012-04-04 |
US8095361B2 (en) | 2012-01-10 |
WO2011044853A1 (zh) | 2011-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102044241B (zh) | 一种实现通信系统中背景噪声的跟踪的方法和装置 | |
US6768979B1 (en) | Apparatus and method for noise attenuation in a speech recognition system | |
KR100636317B1 (ko) | 분산 음성 인식 시스템 및 그 방법 | |
CN102044246B (zh) | 一种音频信号检测方法和装置 | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
CN1727860B (zh) | 语音噪音抑制方法和语音噪音抑制器 | |
Tan et al. | Multi-band summary correlogram-based pitch detection for noisy speech | |
US10014005B2 (en) | Harmonicity estimation, audio classification, pitch determination and noise estimation | |
US9959886B2 (en) | Spectral comb voice activity detection | |
CN102667927A (zh) | 语音活动检测的方法和背景估计器 | |
KR100735343B1 (ko) | 음성신호의 피치 정보 추출장치 및 방법 | |
KR102136700B1 (ko) | 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법 | |
CN110111811B (zh) | 音频信号检测方法、装置和存储介质 | |
CN111739542A (zh) | 一种特征声音检测的方法、装置及设备 | |
CN110634485A (zh) | 语音交互服务处理器及处理方法 | |
Zhang et al. | Speech endpoint detection algorithm with low signal-to-noise based on improved conventional spectral entropy | |
US10229686B2 (en) | Methods and apparatus for speech segmentation using multiple metadata | |
CN103745729A (zh) | 一种音频去噪方法和系统 | |
KR101460059B1 (ko) | 잡음 검출 방법 및 장치 | |
Jeeva et al. | Adaptive multi‐band filter structure‐based far‐end speech enhancement | |
CN115101097A (zh) | 语音信号处理方法、装置、电子设备及存储介质 | |
Azirani et al. | Speech enhancement using a Wiener filtering under signal presence uncertainty | |
CN112837704A (zh) | 一种基于端点检测的语音背景噪声识别方法 | |
CN111816217B (zh) | 一种自适应端点检测的语音识别方法与系统、智能设备 | |
WO2019035835A1 (en) | DETECTION WITH LOW SPEECH COMPLEXITY AND ESTIMATED HEIGHT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |