CN104916292A - 检测音频信号的方法和装置 - Google Patents
检测音频信号的方法和装置 Download PDFInfo
- Publication number
- CN104916292A CN104916292A CN201410090386.XA CN201410090386A CN104916292A CN 104916292 A CN104916292 A CN 104916292A CN 201410090386 A CN201410090386 A CN 201410090386A CN 104916292 A CN104916292 A CN 104916292A
- Authority
- CN
- China
- Prior art keywords
- sound signal
- subband
- ssnr
- snr
- waiting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 728
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000001514 detection method Methods 0.000 claims abstract description 35
- 230000000694 effects Effects 0.000 claims abstract description 30
- 230000002708 enhancing effect Effects 0.000 claims description 144
- 230000009467 reduction Effects 0.000 claims description 21
- 206010038743 Restlessness Diseases 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000035800 maturation Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
- Telephonic Communication Services (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- User Interface Of Digital Computer (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明实施例提供检测音频信号的方法和装置,包括:确定输入的音频信号为待判断音频信号;确定该音频信号的增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR;将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号。根据本发明实施例所提供的方法和装置能够准确地分辨活动语音和非活动语音。
Description
技术领域
本发明实施例涉及信号处理技术领域,并且更具体地,涉及检测音频信号的方法和装置。
背景技术
语音活动检测(Voice Activity Detection,VAD)是一种广泛应用与语音通信、人机交互等领域的关键技术,VAD也可以被称为声音活动检测(SoundActivity Detection,SAD)。它的作用是检测输入的音频信号中是否有活动性信号,其中活动性信号是相对于非活动信号而言(例如环境背景噪音、静音等)。典型的活动信号包括语音、音乐等。VAD的原理是从输入的音频信号中提取一个或多个特征参数,根据这一个或多个特征参数确定一个或多个特征值,然后将这一个或多个特征值与一个或多个门限值进行比较。
现有技术中的基于分段信噪比(Segmental Signal to Noise Ratio,SSNR)的活动信号检测方法是将输入的音频信号在频带上划分为多个子带信号,计算该音频信号在每一个子带的能量,通过将该音频信号在每一个子带的能量与一个估计出的背景噪声信号在每个子带的能量做对比,获得该音频信号在每个子带上的信噪比(Signal-to-Noise Ratio,SNR)。然后根据每个子带上的子带SNR确定SSNR,将SSNR与预设的VAD判决门限进行比较,如果该SSNR超过该VAD判决门限,则该音频信号为活动信号;如果该SSNR没有超过该VAD判决门限,则该音频信号为非活动信号。
典型的一种计算SSNR的方法是将该音频信号所有子带SNR相加,得到的结果就是SSNR。例如,可以采用公式1.1确定SSNR:
其中,k表示第k个子带,snr(k)表示第k个子带的子带SNR,N表示该音频信号总共被划分为子带的子带个数。
通过上述计算SSNR的方法检测活动语音时,可能会造成活动语音的漏检。
发明内容
本发明实施例提供了检测音频信号的方法和装置,能够准确地分辨活动语音和非活动语音。
第一方面,本发明实施例提供一种检测音频信号的方法,该方法包括:确定输入的音频信号为待判断音频信号;确定该音频信号的增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR;将该增强SSNR与语音活动检测VAD判决门限进行比较,确定该音频信号是否为活动信号。
结合第一方面,在第一方面的第一种可能的实现方式中,该确定输入的音频信号为待判断音频信号,包括:根据该音频信号的子带信噪比SNR,确定该音频信号为待判断音频信号。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
结合第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
结合第一方面的第一种可能的实现方式,在第一方面的第四种可能的实现方式中,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中中子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
结合第一方面,在第一方面的第五种可能的实现方式中,该确定输入的音频信号为待判断音频信号,包括:在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。
结合第一方面的第二种可能的实现方式或第三种可能的实现方式,在第一方面的第六种可能的实现方式中,该确定该音频信号的增强分段信噪比SSNR,包括:确定该音频信号中各个子带的子带SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重;根据该音频信号中的各个子带的子带SNR的权重和各个子带的子带SNR,确定该增强SSNR。
结合第一方面或第一方面的第一种可能的实现方式至第一方面的第一方面的第五种可能的实现方式中的任一种可能的实现方式,在第一方面的第七种可能的实现方式中,该确定该音频信号的增强分段信噪比SSNR,包括:确定该音频信号的基准SSNR;根据该音频信号的基准SSNR,确定增强SSNR。
结合第一方面的第七种可能的实现方式,在第一方面的第八种可能的实现方式中,该根据该音频信号的基准SSNR,确定增强SSNR,包括:使用以下公式确定该增强SSNR:SSNR'=x*SSNR+y,其中,SSNR表示该基准SSNR,SSNR'表示该增强SSNR,x和y表示增强参数。
结合第一方面的第七种可能的实现方式,在第一方面的第九种可能的实现方式中,该根据该音频信号的基准SSNR,确定增强SSNR,包括:使用以下公式确定该增强SSNR:SSNR'=f(x)*SSNR+h(y),其中,SSNR表示该基准SSNR,SSNR'表示该增强SSNR,f(x)、h(y)表示增强函数。
结合第一方面或第一方面的上述任一种可能的实现方式,在第一方面的第十种可能的实现方式中,该将该增强SSNR与语音活动检测VAD判决门限进行比较前进一步包括:使用预置算法减小该VAD判决门限,获得减小后的VAD判决门限;该将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号具体包括:将该增强SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
第二方面,本发明实施例提供一种检测音频信号的方法,该方法包括:确定输入的音频信号为待判断音频信号;确定该音频信号中各个子带的子带信噪比SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重;根据该音频信号中的各个子带的子带SNR的权重和各个子带的子带SNR,确定增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR;将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号。
结合第二方面,在第二方面的第一种可能的实现方式中,该确定输入的音频信号为待判断音频信号,包括:根据该音频信号的子带SNR,确定该音频信号为待判断音频信号。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
结合第二方面的第一种可能的实现方式,在第二方面的第三种可能的实现方式中,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
第三方面,本发明实施例提供一种检测音频信号的方法,该方法包括:确定输入的音频信号为待判断音频信号;获取该音频信号的基准分段信噪比SSNR;使用预置算法减小基准语音活动检测VAD判决门限,获得减小后的VAD判决门限;将该基准SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
结合第三方面,在第三方面的第一种可能的实现方式中,该确定输入的音频信号为待判断音频信号,包括:根据该音频信号的子带信噪比SNR,确定该音频信号为待判断音频信号。
结合第三方面的第一种可能的实现方式,在第三方面的第二种可能的实现方式中,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
结合第三方面的第一种可能的实现方式,在第三方面的第三种可能的实现方式中,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
结合第三方面的第一种可能的实现方式,在第三方面的第四种可能的实现方式中,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中中子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
结合第三方面,在第三方面的第五种可能的实现方式中,该确定输入的音频信号为待判断音频信号,包括:在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。
第四方面,本发明实施例提供一种装置,该装置包括:第一确定单元,用于确定输入的音频信号为待判断音频信号;第二确定单元,用于确定该音频信号的增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR;第三确定单元,用于将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号。
结合第四方面,在第四方面的第一种可能的实现方式中,该第一确定单元,具体用于根据该音频信号的子带信噪比SNR,确定该音频信号为待判断音频信号。
结合第四方面的第一种可能的实现方式,在第四方面的第二种可能的实现方式中,该第一确定单元,具体用于在该音频信号中子带信噪比SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
结合第四方面的第一种可能的实现方式,在第四方面的第三种可能的实现方式中,该第一确定单元,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
结合第四方面的第一种可能的实现方式,在第四方面的第四种可能的实现方式中,该第一确定单元,具体用于在该音频信号中子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
结合第四方面,在第四方面的第五种可能的实现方式中,该第一确定单元,具体用于在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。
结合第四方面的第二种可能的实现方式或第四方面的第三种可能的实现方式,在第四方面的第六种可能的实现方式中,该第二确定单元,具体用于确定该音频信号中各个子带的子带SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重,根据该音频信号中的各个子带的子带SNR的权重和各个子带的子带SNR,确定该增强SSNR。
结合第四方面或第四方面的第一种可能的实现方式至第四方面的第五种可能的实现方式中的任一种可能的实现方式,在第四方面的第七种可能的实现方式中,第二确定单元,具体用于确定该音频信号的基准SSNR,根据该音频信号的基准SSNR,确定该增强SSNR。
结合第四方面的第七种可能的实现方式,在第四方面的第八种可能的实现方式中,该第二确定单元,具体用于使用以下公式确定该增强SSNR:SSNR'=x*SSNR+y,其中,SSNR表示该基准SSNR,SSNR'表示该增强SSNR,x和y表示增强参数。
结合第四方面的第七种可能的实现方式,在第四方面的第九种可能的实现方式中,该第二确定单元,具体用于使用以下公式确定该增强SSNR:SSNR'=f(x)*SSNR+h(y),其中,SSNR表示该基准SSNR,SSNR'表示该增强SSNR,f(x)、h(y)表示增强函数。
结合第四方面或第四方面的上述任一种可能的实现方式,在第四方面的第十种可能的实现方式中,该装置还包括第四确定单元;该第四确定单元,用于使用预置算法减小该VAD判决门限,获得减小后的VAD判决门限;该第三确定单元,具体用于将该增强SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
第五方面,本发明实施例提供一种装置,该装置包括:第一确定单元,用于确定输入的音频信号为待判断音频信号;第二确定单元,用于确定该音频信号中各个子带的子带信噪比SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重,根据该音频信号中的各个子带的子带SNR的权重和各个子带的子带SNR,确定增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR;第三确定单元,用于将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号。
结合第五方面,在第五方面的第一种可能的实现方式中,该第一确定单元,具体用于根据该音频信号的子带信噪比SNR,确定该音频信号为待判断音频信号。
结合第五方面的第一种可能的实现方式,在第五方面的第二种可能的实现方式中,该第一确定单元,具体用于在该音频信号中子带信噪比SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
结合第五方面的第一种可能的实现方式,在第五方面的第三种可能的实现方式中,该第一确定单元,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
第六方面,本发明实施例提供一种装置,该装置包括:第一确定单元,用于确定输入的音频信号为待判断音频信号;第二确定单元,用于获取该音频信号的基准分段信噪比SSNR;第三确定单元,用于使用预置算法减小基准语音活动检测VAD判决门限,获得减小后的VAD判决门限;第四确定单元,用于将该基准SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
结合第六方面,在第六方面的第一种可能的实现方式中,该第一确定单元,具体用于根据该音频信号的子带信噪比SNR,确定该音频信号为待判断音频信号。
结合第六方面的第一种可能的实现方式,在第六方面的第二种可能的实现方式中,该第一确定单元,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
结合第六方面的第一种可能的实现方式,在第六方面的第三种可能的实现方式中,该第一确定单元,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
结合第六方面的第一种可能的实现方式,在第六方面的第四种可能的实现方式中,该第一确定单元,具体用于在该音频信号中中子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
结合第六方面,在第六方面的第五种可能的实现方式中,该第一确定单元,具体用于在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。
根据本发明实施例所提供的方法,可以确定音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
图2是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
图3是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
图4是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
图5是根据本发明实施例提供的装置的结构框图。
图6是根据本发明实施例提供的另一装置的结构框图。
图7是根据本发明实施例提供的装置的结构框图。
图8是根据本发明实施例提供的另一装置的结构框图。
图9是根据本发明实施例提供的另一装置的结构框图。
图10是根据本发明实施例提供的另一装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
图1是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
101,确定输入的音频信号为待判断音频信号。
102,确定该音频信号的增强SSNR,其中该增强SSNR大于基准SSNR。
103,将该增强SSNR与VAD判决门限比较,确定该音频信号是否为活动信号。
在本发明的实施例中,在将增强SSNR与VAD判决门限进行比较时,可以使用基准VAD判决门限,也可以使用预置算法减小基准VAD判决门限后获得的减小后的VAD判决门限。其中,基准VAD判决门限可以是默认的VAD判决门限,该基准VAD判决门限可以是预先存储的,也可以是临时计算获得,其中基准VAD判决门限的计算可以采用现有公知技术。在使用预置算法减小基准VAD判决门限时,该预置算法可以是将基准VAD判决门限乘于一个小于1的系数,也可以采用其他算法,本发明实施例并不限定所采用的具体算法。
在采用传统的SSNR计算方法计算一些音频信号的SSNR时,这些音频信号的SSNR可能低于预设的VAD判决门限。但是,实际上这些音频信号是活动音频信号。这是由于这些音频信号的特性导致的。例如,在环境SNR较低的情况下,高频部分的子带SNR会显著降低。并且,由于通常会采用心理声学理论划分子带,高频部分的子带SNR对SSNR的贡献较低。在此情况下,对一些能量主要集中在相对高频部分的信号,如清音信号,采用传统的SSNR计算方法计算出的SSNR可能低于VAD判决门限,这就造成活动信号的漏检。又如,一些音频信号中,音频信号的能量较平坦的分布在频谱上,但是该音频信号的整体能量较低。这样,在环境SNR较低的情况下,采用传统的SSNR计算方法计算出的SSNR也可能低于VAD判决门限。图1所示的方法通过适当的提高SSNR的方式,使得SSNR可以大于VAD判决门限,从而能够有效地降低活动信号漏减的比例。
图2是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
201,确定输入的音频信号的子带SNR。
将输入音频信号的频谱划分为N个子带,其中N为大于1的正整数。具体地,可以采用心理声学理论对该音频信号的频谱进行划分。在采用心理声学理论划分音频信号的频谱的情况下,越靠近低频的子带宽度越窄,越靠近高频的子带宽度越宽。当然,也可以采用其他的方式划分该音频信号的频谱,例如将该音频信号的频谱等分为N个子带等方式。计算输入音频信号每个子带的子带SNR,其中该子带SNR为该子带的能量与背景噪声在该子带上的能量之比。背景噪声的子带能量一般是通过背景噪声估计器估计出来的估计值。如何采用背景噪声估计器估计出每个子带对应的背景噪声能量是本领域的公知技术,因此,这里就不必赘述。本领域技术人员可以理解,该子带SNR可以是直接的能量比值,也可以是直接能量比值的其他表现形式,例如对数子带SNR。此外,本领域技术人员还可以理解,该子带SNR还可以是对直接子带SNR做线性或非线性处理后的子带SNR或者其他的变形。以下公式是子带SNR的直接能量比值:
snr(k)=E(k)/En(k),......................................................公式1.2
其中,snr(k)表示第k子带的子带SNR,E(k)和En(k)分别表示第k子带的能量和背景噪声在第k子带上的能量。对数子带SNR可以表示为:snrlog(k)=10×log10snr(k),其中snrlog(k)表示第k子带的对数子带SNR,snr(k)表示采用公式1.2计算出的第k子带的子带SNR。本领域技术人员还可以理解,用于计算子带SNR的子带能量既可以是输入音频信号在子带上的能量,也可以是输入音频信号在子带上的能量去除背景噪声在该子带上的能量之后的能量。SNR的计算只要不脱离SNR的意义即可。
202,确定输入的音频信号为待判断音频信号。
可选的,作为一个实施例,该确定输入的音频信号为待判断音频信号包括:可以是根据步骤201中确定的该音频信号的子带SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量的情况下,确定该音频信号为待判断音频信号。在本发明实施例中,一帧音频信号的高频端和低频端是相对而言的,即频率相对高一些的部分为高频端,频率相对低一些的部分为低频端。
可选的,作为另一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中的子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
该第三预设门限也是根据统计得到的。具体来说,从大量的噪声信号的子带SNR中确定第三预设门限,使得这些噪声信号中的绝大多数子带的子带SNR都小于该值。
第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音清音样本帧中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音清音样本帧中绝大多数的子带SNR大于第一预设门限的高频端子带的数量大于该第一数量。获取第二数量的方法与获取第一数量的方法类似。第二数量可以与第一数量相同,第二数量也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音清音样本帧中,统计低频端子带的子带SNR小于第二预设门限的子带数量,从中确定第三数量,使得这些语音清音样本帧中绝大多数的子带SNR小于第二预设门限的低频端子带的数量大于该第三数量。对于第四数量,在大量的噪声信号帧中,统计子带SNR小于第三预设门限的子带数量,从中确定第四数量,使得这些噪声样本帧中绝大多数的子带SNR小于第三预设门限的子带的数量大于该第四数量。
可选的,作为另一个实施例,可以通过判断输入的音频信号是否为清音信号来确定输入的音频信号是否为待判断音频信号。在此情况下,判断该音频信号是否为待判断音频信号时不需要确定该音频信号的子带SNR。换句话说,在判断该音频信号是否为待判断音频信号时不需要执行步骤201。具体地,该确定输入的音频信号为待判断音频信号,包括:在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。具体地,本领域技术人员可以理解,可以有多种用于检测音频信号是否为清音信号的方法。例如,可以通过检测该音频信号的时域过零率(Zero-Crossing Rate,ZCR)来确定该音频信号是否为清音信号。具体地,在该音频信号的ZCR大于ZCR阈值的情况下,确定该音频信号为清音信号,其中该ZCR阈值是通过大量实验确定的。
203,确定该音频信号的增强SSNR,其中该增强SSNR大于基准SSNR。
该基准SSNR可以是采用公式1.1计算出来的SSNR。从公式1.1可以看出,在计算基准SSNR时,没有对任何一个子带的子带SNR进行加权处理,也就是说,在计算基准SSNR时各个子带的子带SNR的权重相同。
可选的,作为一个实施例,在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,或者,在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且在该音频信号中子带SNR小于第二预设门限的低频端子带的数量小于第三数量的情况下,该确定该音频信号的增强SSNR,包括:确定该音频信号中各个子带的子带SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的权重大于其他子带的子带SNR的权重,根据该音频信号中各个子带的子带SNR的权重和各个子带的子带SNR,确定该增强SSNR。
例如,如果将该音频信号按照心理声学理论划分为20个子带,即子带0至子带19。如果子带18和子带19均大于第一预设值T1,则可以增加四个子带,即子带20至子带23。具体来说,可以将信噪比大于T1的子带18划分为子带18a、子带18b和子带18c,子带19划分为子带19a、子带19b和子带19c。这样,子带18可以看作是子带18a、子带18b和子带18c的母子带,子带19可以看作是子带19a、子带19b和子带19c的母子带。子带18a、子带18b和子带18c的信噪比的取值与其母子带的信噪比取值相同,子带19a、子带19b和子带19c的信噪比的取值与其母子带的信噪比的取值相同。这样,就将原有划分的20个子带重新划分为24个子带。由于在进行活动信号检测时,VAD仍然是按照20个子带进行设计的,因此需要将24个子带映射回20个子带,来确定增强SSNR。综上,采用增加该子带SNR大于该第一预设门限的高频端子带的数量的方式来确定该增强SSNR时,可以采用以下公式进行计算:
其中,SSNR'表示该增强SSNR。snr(k)表示第k子带的子带SNR。
如果采用公式1.1计算的SSNR为基准SSNR,则计算出来的基准SSNR为显然,对于第一类音频信号采用公式1.3计算出来的增强SSNR的值大于采用公式1.1计算出来的基准SSNR的值。
又如,如果将该音频信号按照心理声学理论划分为20个子带,即子带0至子带19。如果snr(18)和snr(19)均大于第一预设值T1,且snr(0)到snr(17)均小于第二预设值T2,则可以采用以下公式确定该增强SSNR:
其中,SSNR'表示该增强SSNR,snr(k)表示第k子带的子带SNR,a1和a2为增加权重参数并且a1和a2的取值使得a1×snr(18)+a2×snr(19)大于snr(18)+snr(19)。显然,采用公式1.4计算出来的增强SSNR的值大于采用公式1.1计算出来的基准SSNR的值。
可选的,作为另一实施例,该确定该音频信号的增强SSNR,包括:确定该音频信号的基准SSNR,根据该音频信号的基准SSNR,确定增强SSNR。
可选的,可以使用以下公式确定该增强SSNR:
SSNR'=x*SSNR+y,......................................................公式1.5
其中,SSNR表示该音频信号的基准SSNR,SSNR'表示该增强SSNR,x和y表示增强参数。例如,x的取值可以为1.05,y的取值可以为1。本领域技术人员可以理解,x和y的取值还可以是其他合适的值,使得增强SSNR恰当的大于基准SSNR。
可选的,可以使用以下公式确定该增强SSNR:
SSNR'=f(x)*SSNR+h(y),.............................................公式1.6
其中,SSNR表示该音频信号的原始SSNR,SSNR'表示该增强SSNR,f(x)、h(y)表示增强函数。例如,f(x)和h(y)可以是与该音频信号的长时信噪比(Long-term SNR,LSNR)相关的函数,音频信号的长时信噪比为一段较长时间内的平均SNR或加权SNR。例如,当lsnr大于20时,f(lsnr)可以等于1.1,y(lsnr)可以等于2。当lsnr小于20且大于15时,f(lsnr)可以等于1.05,y(lsnr)可以等于1。当lsnr小于15时,f(lsnr)可以等于1,y(lsnr)可以等于0。本领域技术人员可以理解,f(x)和h(y)还可以是其他合适的形式,使得增强SSNR恰当的大于基准SSNR。
204,将该增强SSNR与VAD判决门限比较,确定该音频信号是否为活动信号。
具体来说,将该增强SSNR与VAD判决门限比较,如果该增强SSNR大于该VAD判决门限,则确定该音频信号为活动信号。否则确定该音频信号为非活动信号。
可选的,作为另一个实施例,在将该增强SSNR与VAD判决门限进行比较前,该方法还可以包括:使用预置算法减小该VAD判决门限,获得减小后的VAD判决门限。在此情况下,将该增强SSNR与VAD判决门限比较具体包括:将该增强SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。基准VAD判决门限可以是默认的VAD判决门限,该基准VAD判决门限可以是预先存储的,也可以是临时计算获得,其中基准VAD判决门限的计算可以采用现有公知技术。在使用预置算法减小基准VAD判决门限时,该预置算法可以是将基准VAD判决门限乘于一个小于1的系数,也可以采用其他算法,本发明实施例并不限定所采用的具体算法。该预置算法可以适当减小VAD判决门限,使得增强SSNR大于该减小后的VAD判决门限,从而可以使得活动信号被漏减的比例降低。
根据图2所示的方法,确定音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
图3是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
301,确定输入的音频信号为待判断音频信号。
302,确定该音频信号中各个子带的子带SNR的权重,其中该子带SNR大于第一预设门限的包频段子带的子带SNR的权重大于其他子带的子带SNR的权重。
303,根据该音频信号中各个子带的子带SNR的权重和各个子带的子带SNR,确定增强SSNR,其中该增强SSNR大于基准SSNR。
该基准SSNR可以是采用公式1.1计算出来的SSNR。从公式1.1可以看出,在计算基准SSNR时,没有对任何一个子带的子带SNR进行加权处理,也就是说,在计算基准SSNR时各个子带的子带SNR的权重相同。
例如,如果将该音频信号按照心理声学理论划分为20个子带,即子带0至子带19。如果子带18和子带19均大于第一预设值T1,则可以增加四个子带,即子带20至子带23。具体来说,可以将信噪比大于T1的子带18划分为子带18a、子带18b和子带18c,子带19划分为子带19a、子带19b和子带19c。这样,子带18可以看作是子带18a、子带18b和子带18c的母子带,子带19可以看作是子带19a、子带19b和子带19c的母子带。子带18a、子带18b和子带18c的信噪比的取值与其母子带的信噪比取值相同,子带19a、子带19b和子带19c的信噪比的取值与其母子带的信噪比的取值相同。这样,就将原有划分的20个子带重新划分为24个子带。由于在进行活动信号检测时,VAD仍然是按照20个子带进行设计的,因此需要将24个子带映射回20个子带,来确定增强SSNR。综上,采用增加该子带SNR大于该第一预设门限的高频端子带的数量的方式来确定该增强SSNR时,可以采用以下公式进行计算:
其中,SSNR'表示该增强SSNR。snr(k)表示第k子带的子带SNR。
如果采用公式1.1计算的SSNR为基准SSNR,则计算出来的基准SSNR为显然,对于第一类音频信号采用公式1.3计算出来的增强SSNR的值大于采用公式1.1计算出来的基准SSNR的值。
又如,如果将该音频信号按照心理声学理论划分为20个子带,即子带0至子带19。如果snr(18)和snr(19)均大于第一预设值T1,且snr(0)到snr(17)均小于第二预设值T2,则可以采用以下公式确定该增强SSNR:
其中,SSNR'表示该增强SSNR,snr(k)表示第k子带的子带SNR,a1和a2为增加权重参数并且a1和a2的取值使得a1×snr(18)+a2×snr(19)大于snr(18)+snr(19)。显然,采用公式1.4计算出来的增强SSNR的值大于采用公式1.1计算出来的基准SSNR的值。
304,将该增强SSNR与VAD判决门限比较,确定该音频信号是否为活动信号。
具体来说,将该增强SSNR与VAD判决门限比较,如果该增强SSNR大于该VAD判决门限,则确定该音频信号为活动信号。否则确定该音频信号为非活动信号。
图3所述的方法可以确定音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
进一步,该确定输入的音频信号为待判断音频信号,包括,根据该音频信号的子带SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定该音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定该音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量的情况下,确定该音频信号为待判断音频信号。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
第一数量、第二数量和第三数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音清音样本帧中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音清音样本帧中绝大多数的子带SNR大于第一预设门限的高频端子带的数量大于该第一数量。获取第二数量的方法与获取第一数量的方法类似。第二数量可以与第一数量相同,第二数量也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音清音样本帧中,统计低频端子带的子带SNR小于第二预设门限的子带数量,从中确定第三数量,使得这些语音清音样本帧中绝大多数的子带SNR小于第二预设门限的低频端子带的数量大于该第三数量。
图1至图3的实施例通过使用增强SSNR的方式判断输入的音频信号是否为活动信号。图4所示的方法是通过减小VAD判决门限的方式判断输入的音频信号是否为活动信号。
图4是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
401,确定输入的音频信号为待判断音频信号。
可选的,作为一个实施例,该确定输入的音频信号为待判断音频信号包括:可以是根据步骤201中确定的该音频信号的子带SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中的子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
该第三预设门限也是根据统计得到的。具体来说,从大量的噪声信号的子带SNR中确定第三预设门限,使得这些噪声信号中的绝大多数子带的子带SNR都小于该值。
第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音清音样本帧中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音清音样本帧中绝大多数的子带SNR大于第一预设门限的高频端子带的数量大于该第一数量。获取第二数量的方法与获取第一数量的方法类似。第二数量可以与第一数量相同,第二数量也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音清音样本帧中,统计低频端子带的子带SNR小于第二预设门限的子带数量,从中确定第三数量,使得这些语音清音样本帧中绝大多数的子带SNR小于第二预设门限的低频端子带的数量大于该第三数量。对于第四数量,在大量的噪声信号帧中,统计子带SNR小于第三预设门限的子带数量,从中确定第四数量,使得这些噪声样本帧中绝大多数的子带SNR小于第三预设门限的子带的数量大于该第四数量。
可选的,作为另一个实施例,可以通过判断输入的音频信号是否为清音信号来确定输入的音频信号是否为待判断音频信号。在此情况下,判断该音频信号是否为待判断音频信号时不需要确定该音频信号的子带SNR。换句话说,在判断该音频信号是否为待判断音频信号时不需要执行步骤201。具体地,该确定输入的音频信号为待判断音频信号,包括:在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。具体地,本领域技术人员可以理解,可以有多种用于检测音频信号是否为清音信号的方法。例如,可以通过检测该音频信号的时域过零率(Zero-Crossing Rate,ZCR)来确定该音频信号是否为清音信号。具体地,在该音频信号的ZCR大于ZCR阈值的情况下,确定该音频信号为清音信号,其中该ZCR阈值是通过大量实验确定的。
402,获取该音频信号的基准SSNR。
具体地,该基准SSNR可以是采用公式1.1计算出来的SSNR。
403,使用预置算法减小基准VAD判决门限,获得减小后的VAD判决门限。
具体地,基准VAD判决门限可以是默认的VAD判决门限,该基准VAD判决门限可以是预先存储的,也可以是临时计算获得,其中基准VAD判决门限的计算可以采用现有公知技术。在使用预置算法减小基准VAD判决门限时,该预置算法可以是将基准VAD判决门限乘于一个小于1的系数,也可以采用其他算法,本发明实施例并不限定所采用的具体算法。该预置算法可以适当减小VAD判决门限,使得增强SSNR大于该减小后的VAD判决门限,从而可以使得活动信号被漏减的比例降低。
404,将该基准SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
在采用传统的SSNR计算方法计算一些音频信号的SSNR时,这些音频信号的SSNR可能低于预设的VAD判决门限。但是,实际上这些音频信号是活动音频信号。这是由于这些音频信号的特性导致的。例如,在环境SNR较低的情况下,高频部分的子带SNR会显著降低。并且,由于通常会采用心理声学理论划分子带,高频部分的子带SNR对SSNR的贡献较低。在此情况下,对一些能量主要集中在相对高频部分的信号,如清音信号,采用传统的SSNR计算方法计算出的SSNR可能低于VAD判决门限,这就造成活动信号的漏检。又如,一些音频信号中,音频信号的能量较平坦的分布在频谱上,但是该音频信号的整体能量较低。这样,在环境SNR较低的情况下,采用传统的SSNR计算方法计算出的SSNR也可能低于VAD判决门限。图4所示的方法通过降低VAD判决门限的方式,使得采用传统的SSNR计算方法计算出的SSNR大于VAD判决门限,从而能够有效地降低活动信号漏减的比例。
图5是根据本发明实施例提供的装置的结构框图。图5所示的装置能够执行图1或图2的各个步骤。如图5所示,装置500包括第一确定单元501、第二确定单元502和第三确定单元503。
第一确定单元501,用于确定输入的音频信号为待判断音频信号。
第二确定单元502,用于确定该音频信号的增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR。
第三确定单元503,用于将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号。
图5所示的装置500可以确定输入的音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
可选的,作为一个实施例,该第一确定单元501,具体用于根据该音频信号的子带SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在第一确定单元501根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,第一确定单元501,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在第一确定单元501根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,第一确定单元501,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在第一确定单元501根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,第一确定单元501,具体用于在该音频信号中的子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,第一确定单元501,具体用于在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。具体地,本领域技术人员可以理解,可以有多种用于检测音频信号是否为清音信号的方法。例如,可以通过检测该音频信号的时域过零率(Zero-Crossing Rate,ZCR)来确定该音频信号是否为清音信号。具体地,在该音频信号的ZCR大于ZCR阈值的情况下,确定该音频信号为清音信号,其中该ZCR阈值是通过大量实验确定的。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
该第三预设门限也是根据统计得到的。具体来说,从大量的噪声信号的子带SNR中确定第三预设门限,使得这些噪声信号中的绝大多数子带的子带SNR都小于该值。
第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音样本中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音样本中绝大多数的大于第一预设门限的高频端子带SNR的数量大于该第一数量。确定第二数量的方法与确定第一数量的方法类似。第二数量可以与第一数量相同,也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音样本中,统计低频端子带的子带SNR大于第二预设门限的子带数量,从中确定第三数量,使得这些语音样本中绝大多数的大于第二预设门限的低频端子带SNR的数量大于该第三数量。对于第四数量,在大量的含有噪声的语音样本中,统计子带SNR大于第三预设门限的子带数量,从中确定第四数量,使得这些语音样本中绝大多数的大于第三预设门限的子带SNR的数量大于该第四数量。
进一步,第二确定单元502,具体用于确定该音频信号中各个子带的子带SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的权重大于其他子带的子带SNR的权重,根据该音频信号中的各个子带的子带SNR的权重和各个子带的SNR,确定该增强SSNR。
可选的,作为一个实施例,第二确定单元502,具体用于确定该音频信号的基准SSNR,根据该音频信号的基准SSNR,确定增强SSNR。
该基准SSNR可以是采用公式1.1计算出来的SSNR。基准SSNR在计算时,计入SSNR的各个子带的子带SNR在SSNR中的权重相同。
可选的,作为另一个实施例,第二确定单元502,具体用于使用以下公式确定该增强SSNR:
SSNR'=x*SSNR+y,......................................................公式1.7
其中,SSNR表示该基准SSNR,SSNR'表示该增强SSNR,x和y表示增强参数。例如,x的取值可以为1.05,y的取值可以为1。本领域技术人员可以理解,x和y的取值还可以是其他合适的值,使得增强SSNR恰当的大于基准SSNR。
可选的,作为另一个实施例,第二确定单元502,具体用于使用以下公式确定该增强SSNR:
SSNR'=f(x)*SSNR+h(y),.............................................公式1.8
其中,SSNR表示该基准SSNR,SSNR'表示该增强SSNR,f(x)、h(y)表示增强函数。例如,f(x)和h(y)可以是与该音频信号的长时信噪比(Long-term SNR,LSNR)相关的函数,音频信号的长时信噪比为一段较长时间内的平均SNR或加权SNR。例如,当lsnr大于20时,f(lsnr)可以等于1.1,y(lsnr)可以等于2。当lsnr小于20且大于15时,f(lsnr)可以等于1.05,y(lsnr)可以等于1。当lsnr小于15时,f(lsnr)可以等于1,y(lsnr)可以等于0。本领域技术人员可以理解,f(x)和h(y)还可以是其他合适的形式,使得增强SSNR恰当的大于基准SSNR。
第三确定单元503,具体用于将该增强SSNR与语音活动检测VAD判决门限比较,根据比较结构确定该音频信号是否为活动信号。具体来说,如果该增强SSNR大于该VAD判决门限,则确定该音频信号为活动信号。如果该增强SSNR小于该VAD判决门限,则确定该音频信号为非活动信号。
可选的,作为另一个实施例,还可以使用预置算法减小基准VAD判决门限后获得的减小后的VAD判决门限,使用减小后的VAD判决门限确定该音频信号是否为活动信号。在此情况下,装置500还可以包括第四确定单元504。第四确定单元504用于使用预置算法减小该VAD判决门限,获得减小后的VAD判决门限。在此情况下,第三确定单元503,具体用于将该增强SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
图6是根据本发明实施例提供的另一装置的结构框图。图6所示的装置能够执行图3的各个步骤。如图6所示,装置600包括第一确定单元601、第二确定单元602和第三确定单元603。
第一确定单元601,用于确定输入的音频信号为待判断音频信号。
第二确定单元602,用于确定该音频信号中各个子带的子带信噪比SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重,根据该音频信号中的各个子带的子带SNR的权重和各个子带的子带SNR,确定增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR。
第三确定单元603,用于将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号。
图6所示的装置600可以确定输入的音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
进一步,第一确定单元601,具体用于根据该音频信号的子带信噪比SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,第一确定单元601,具体用于在该音频信号中子带信噪比SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,第一确定单元601,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
第一数量、第二数量和第三数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音清音样本帧中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音清音样本帧中绝大多数的子带SNR大于第一预设门限的高频端子带的数量大于该第一数量。获取第二数量的方法与获取第一数量的方法类似。第二数量可以与第一数量相同,第二数量也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音清音样本帧中,统计低频端子带的子带SNR小于第二预设门限的子带数量,从中确定第三数量,使得这些语音清音样本帧中绝大多数的子带SNR小于第二预设门限的低频端子带的数量大于该第三数量。
图7是根据本发明实施例提供的装置的结构框图。图7所示的装置能够执行图1或图2的各个步骤。如图7所示,装置700包括处理器701和存储器702。其中,处理器701可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702,处理器701读取存储器702中的指令,结合其硬件完成上述方法的步骤。
处理器701,用于确定输入的音频信号为待判断音频信号。
处理器701,用于确定该音频信号的增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR。
处理器701,用于将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号。
图7所示的装置700可以确定输入的音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
可选的,作为一个实施例,该处理器701,具体用于根据该音频信号的子带SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在处理器701根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,处理器701,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在处理器701根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,处理器701,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在处理器701根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,处理器701,具体用于在该音频信号中的子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,处理器701,具体用于在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。具体地,本领域技术人员可以理解,可以有多种用于检测音频信号是否为清音信号的方法。例如,可以通过检测该音频信号的时域过零率(Zero-Crossing Rate,ZCR)来确定该音频信号是否为清音信号。具体地,在该音频信号的ZCR大于ZCR阈值的情况下,确定该音频信号为清音信号,其中该ZCR阈值是通过大量实验确定的。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
该第三预设门限也是根据统计得到的。具体来说,从大量的噪声信号的子带SNR中确定第三预设门限,使得这些噪声信号中的绝大多数子带的子带SNR都小于该值。
第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音样本中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音样本中绝大多数的大于第一预设门限的高频端子带SNR的数量大于该第一数量。确定第二数量的方法与确定第一数量的方法类似。第二数量可以与第一数量相同,也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音样本中,统计低频端子带的子带SNR大于第二预设门限的子带数量,从中确定第三数量,使得这些语音样本中绝大多数的大于第二预设门限的低频端子带SNR的数量大于该第三数量。对于第四数量,在大量的含有噪声的语音样本中,统计子带SNR大于第三预设门限的子带数量,从中确定第四数量,使得这些语音样本中绝大多数的大于第三预设门限的子带SNR的数量大于该第四数量。
进一步,处理器701,具体用于确定该音频信号中各个子带的子带SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的权重大于其他子带的子带SNR的权重,根据该音频信号中的各个子带的子带SNR的权重和各个子带的SNR,确定该增强SSNR。
可选的,作为一个实施例,处理器701,具体用于确定该音频信号的基准SSNR,根据该音频信号的基准SSNR,确定增强SSNR。
该基准SSNR可以是采用公式1.1计算出来的SSNR。基准SSNR在计算时,计入SSNR的各个子带的子带SNR在SSNR中的权重相同。
可选的,作为另一个实施例,处理器701,具体用于使用以下公式确定该增强SSNR:
SSNR'=x*SSNR+y,......................................................公式1.7
其中,SSNR表示该基准SSNR,SSNR'表示该增强SSNR,x和y表示增强参数。例如,x的取值可以为1.07,y的取值可以为1。本领域技术人员可以理解,x和y的取值还可以是其他合适的值,使得增强SSNR恰当的大于基准SSNR。
可选的,作为另一个实施例,处理器701,具体用于使用以下公式确定该增强SSNR:
SSNR'=f(x)*SSNR+h(y),.............................................公式1.8
其中,SSNR表示该基准SSNR,SSNR'表示该增强SSNR,f(x)、h(y)表示增强函数。例如,f(x)和h(y)可以是与该音频信号的长时信噪比(Long-term SNR,LSNR)相关的函数,音频信号的长时信噪比为一段较长时间内的平均SNR或加权SNR。例如,当lsnr大于20时,f(lsnr)可以等于1.1,y(lsnr)可以等于2。当lsnr小于20且大于17时,f(lsnr)可以等于1.07,y(lsnr)可以等于1。当lsnr小于17时,f(lsnr)可以等于1,y(lsnr)可以等于0。本领域技术人员可以理解,f(x)和h(y)还可以是其他合适的形式,使得增强SSNR恰当的大于基准SSNR。
处理器701,具体用于将该增强SSNR与语音活动检测VAD判决门限比较,根据比较结构确定该音频信号是否为活动信号。具体来说,如果该增强SSNR大于该VAD判决门限,则确定该音频信号为活动信号。如果该增强SSNR小于该VAD判决门限,则确定该音频信号为非活动信号。
可选的,作为另一个实施例,还可以使用预置算法减小基准VAD判决门限后获得的减小后的VAD判决门限,使用减小后的VAD判决门限确定该音频信号是否为活动信号。在此情况下,处理器701还可以用于使用预置算法减小该VAD判决门限,获得减小后的VAD判决门限。在此情况下,处理器701具体用于将该增强SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
图8是根据本发明实施例提供的另一装置的结构框图。图8所示的装置能够执行图3的各个步骤。如图8所示,装置800包括处理器801和存储器802。其中,处理器801可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802,处理器801读取存储器802中的指令,结合其硬件完成上述方法的步骤。
处理器801,用于确定输入的音频信号为待判断音频信号。
处理器801,用于确定该音频信号中各个子带的子带信噪比SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重,根据该音频信号中的各个子带的子带SNR的权重和各个子带的子带SNR,确定增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR。
处理器801,用于将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号。
图8所示的装置800可以确定输入的音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
进一步,处理器801,具体用于根据该音频信号的子带信噪比SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,处理器801,具体用于在该音频信号中子带信噪比SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,处理器801,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
第一数量、第二数量和第三数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音清音样本帧中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音清音样本帧中绝大多数的子带SNR大于第一预设门限的高频端子带的数量大于该第一数量。获取第二数量的方法与获取第一数量的方法类似。第二数量可以与第一数量相同,第二数量也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音清音样本帧中,统计低频端子带的子带SNR小于第二预设门限的子带数量,从中确定第三数量,使得这些语音清音样本帧中绝大多数的子带SNR小于第二预设门限的低频端子带的数量大于该第三数量。
图9是根据本发明实施例提供的另一装置的结构框图。图9所示的装置900可以执行图4的各个步骤。如图9所示,装置900包括:第一确定单元901、第二确定单元902、第三确定单元903和第四确定单元904。
第一确定单元901,用于确定输入的音频信号为待判断音频信号。
第二确定单元902,用于获取该音频信号的基准SSNR。
具体地,该基准SSNR可以是采用公式1.1计算出来的SSNR。
第三确定单元903,用于使用预置算法减小基准VAD判决门限,获得减小后的VAD判决门限。
具体地,基准VAD判决门限可以是默认的VAD判决门限,该基准VAD判决门限可以是预先存储的,也可以是临时计算获得,其中基准VAD判决门限的计算可以采用现有公知技术。在使用预置算法减小基准VAD判决门限时,该预置算法可以是将基准VAD判决门限乘于一个小于1的系数,也可以采用其他算法,本发明实施例并不限定所采用的具体算法。该预置算法可以适当减小VAD判决门限,使得增强SSNR大于该减小后的VAD判决门限,从而可以使得活动信号被漏减的比例降低。
第四确定单元904,用于将该基准SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
可选的,作为一个实施例,第一确定单元901,具体用于根据该音频信号的SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在第一确定单元901根据该音频信号的SNR确定该音频信号为待判断音频信号的情况下,第一确定单元901,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在第一确定单元901根据该音频信号的SNR确定该音频信号为待判断音频信号的情况下,第一确定单元901,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在第一确定单元901根据该音频信号的SNR确定该音频信号为待判断音频信号的情况下,第一确定单元901,具体用于在该音频信号中中子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,第一确定单元901,具体用于在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。具体地,本领域技术人员可以理解,可以有多种用于检测音频信号是否为清音信号的方法。例如,可以通过检测该音频信号的时域过零率(Zero-Crossing Rate,ZCR)来确定该音频信号是否为清音信号。具体地,在该音频信号的ZCR大于ZCR阈值的情况下,确定该音频信号为清音信号,其中该ZCR阈值是通过大量实验确定的。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
该第三预设门限也是根据统计得到的。具体来说,从大量的噪声信号的子带SNR中确定第三预设门限,使得这些噪声信号中的绝大多数子带的子带SNR都小于该值。
第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音样本中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音样本中绝大多数的大于第一预设门限的高频端子带SNR的数量大于该第一数量。确定第二数量的方法与确定第一数量的方法类似。第二数量可以与第一数量相同,也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音样本中,统计低频端子带的子带SNR大于第二预设门限的子带数量,从中确定第三数量,使得这些语音样本中绝大多数的大于第二预设门限的低频端子带SNR的数量大于该第三数量。对于第四数量,在大量的含有噪声的语音样本中,统计子带SNR大于第三预设门限的子带数量,从中确定第四数量,使得这些语音样本中绝大多数的大于第三预设门限的子带SNR的数量大于该第四数量。
图9所示的装置900可以确定输入的音频信号的特征,根据音频信号的特征,减小基准VAD判决门限,并采用SSNR与减小后的VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
图10是根据本发明实施例提供的另一装置的结构框图。图10所示的装置1000可以执行图4的各个步骤。如图10所示,装置1000包括:处理器1001和存储器1002。其中,处理器1001可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read-Only Memory,ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1002,处理器1001读取存储器1002中的指令,结合其硬件完成上述方法的步骤。
处理器1001,用于确定输入的音频信号为待判断音频信号。
处理器1001,用于获取该音频信号的基准SSNR。
具体地,该基准SSNR可以是采用公式1.1计算出来的SSNR。
处理器1001,用于使用预置算法减小基准VAD判决门限,获得减小后的VAD判决门限。
具体地,基准VAD判决门限可以是默认的VAD判决门限,该基准VAD判决门限可以是预先存储的,也可以是临时计算获得,其中基准VAD判决门限的计算可以采用现有公知技术。在使用预置算法减小基准VAD判决门限时,该预置算法可以是将基准VAD判决门限乘于一个小于1的系数,也可以采用其他算法,本发明实施例并不限定所采用的具体算法。该预置算法可以适当减小VAD判决门限,使得增强SSNR大于该减小后的VAD判决门限,从而可以使得活动信号被漏减的比例降低。
处理器1001,用于将该基准SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
可选的,作为一个实施例,处理器1001,具体用于根据该音频信号的SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在处理器1001根据该音频信号的SNR确定该音频信号为待判断音频信号的情况下,处理器1001,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在处理器1001根据该音频信号的SNR确定该音频信号为待判断音频信号的情况下,处理器1001,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在处理器1001根据该音频信号的SNR确定该音频信号为待判断音频信号的情况下,处理器1001,具体用于在该音频信号中中子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,处理器1001,具体用于在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。具体地,本领域技术人员可以理解,可以有多种用于检测音频信号是否为清音信号的方法。例如,可以通过检测该音频信号的时域过零率(Zero-Crossing Rate,ZCR)来确定该音频信号是否为清音信号。具体地,在该音频信号的ZCR大于ZCR阈值的情况下,确定该音频信号为清音信号,其中该ZCR阈值是通过大量实验确定的。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
该第三预设门限也是根据统计得到的。具体来说,从大量的噪声信号的子带SNR中确定第三预设门限,使得这些噪声信号中的绝大多数子带的子带SNR都小于该值。
第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音样本中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音样本中绝大多数的大于第一预设门限的高频端子带SNR的数量大于该第一数量。确定第二数量的方法与确定第一数量的方法类似。第二数量可以与第一数量相同,也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音样本中,统计低频端子带的子带SNR大于第二预设门限的子带数量,从中确定第三数量,使得这些语音样本中绝大多数的大于第二预设门限的低频端子带SNR的数量大于该第三数量。对于第四数量,在大量的含有噪声的语音样本中,统计子带SNR大于第三预设门限的子带数量,从中确定第四数量,使得这些语音样本中绝大多数的大于第三预设门限的子带SNR的数量大于该第四数量。
图10所示的装置1000可以确定输入的音频信号的特征,根据音频信号的特征,减小基准VAD判决门限,并采用SSNR与减小后的VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求的保护范围为准。
Claims (42)
1.一种检测音频信号的方法,其特征在于,所述方法包括:
确定输入的音频信号为待判断音频信号;
确定所述音频信号的增强分段信噪比SSNR,其中所述增强SSNR大于基准SSNR;
将所述增强SSNR与语音活动检测VAD判决门限进行比较,确定所述音频信号是否为活动信号。
2.如权利要求1所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号,包括:
根据所述音频信号的子带信噪比SNR,确定所述音频信号为待判断音频信号。
3.如权利要求2所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号,包括:
在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定所述音频信号为待判断音频信号。
4.如权利要求2所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号,包括:
在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且所述音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定所述音频信号为待判断音频信号。
5.如权利要求2所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号,包括:
在所述音频信号中中子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定所述音频信号为待判断音频信号。
6.如权利要求1所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号,包括:
在确定所述音频信号为清音信号的情况下,确定所述音频信号为待判断音频信号。
7.如权利要求3或4所述的方法,其特征在于,所述确定所述音频信号的增强分段信噪比SSNR,包括:
确定所述音频信号中各个子带的子带SNR的权重,其中所述子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重;
根据所述音频信号中的各个子带的子带SNR的权重和各个子带的子带SNR,确定所述增强SSNR。
8.如权利要求1-6中任一项所述的方法,其特征在于,所述确定所述音频信号的增强分段信噪比SSNR,包括:
确定所述音频信号的基准SSNR;
根据所述音频信号的基准SSNR,确定增强SSNR。
9.如权利要求8所述的方法,其特征在于,所述根据所述音频信号的基准SSNR,确定增强SSNR,包括:
使用以下公式确定所述增强SSNR:
SSNR'=x*SSNR+y,
其中,SSNR表示所述基准SSNR,SSNR'表示所述增强SSNR,x和y表示增强参数。
10.如权利要求8所述的方法,其特征在于,所述根据所述音频信号的基准SSNR,确定增强SSNR,包括:
使用以下公式确定所述增强SSNR:
SSNR'=f(x)*SSNR+h(y),
其中,SSNR表示所述基准SSNR,SSNR'表示所述增强SSNR,f(x)、h(y)表示增强函数。
11.如权利要求1至10任一所述的方法,其特征在于,所述将所述增强SSNR与语音活动检测VAD判决门限进行比较前进一步包括:
使用预置算法减小所述VAD判决门限,获得减小后的VAD判决门限;
所述将所述增强SSNR与语音活动检测VAD判决门限比较,确定所述音频信号是否为活动信号具体包括:
将所述增强SSNR与所述减小后的VAD判决门限进行比较,确定所述音频信号是否为活动信号。
12.一种检测音频信号的方法,其特征在于,所述方法包括:
确定输入的音频信号为待判断音频信号;
确定所述音频信号中各个子带的子带信噪比SNR的权重,其中所述子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重;
根据所述音频信号中的各个子带的子带SNR的权重和各个子带的子带SNR,确定增强分段信噪比SSNR,其中所述增强SSNR大于基准SSNR;
将所述增强SSNR与语音活动检测VAD判决门限比较,确定所述音频信号是否为活动信号。
13.如权利要求12所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号,包括:
根据所述音频信号的子带SNR,确定所述音频信号为待判断音频信号。
14.如权利要求13所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号,包括:
在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定所述音频信号为待判断音频信号。
15.如权利要求13所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号,包括:
在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且所述音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定所述音频信号为待判断音频信号。
16.一种检测音频信号的方法,其特征在于,所述方法包括:
确定输入的音频信号为待判断音频信号;
获取所述音频信号的基准分段信噪比SSNR;
使用预置算法减小基准语音活动检测VAD判决门限,获得减小后的VAD判决门限;
将所述基准SSNR与所述减小后的VAD判决门限进行比较,确定所述音频信号是否为活动信号。
17.如权利要求16所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号,包括:
根据所述音频信号的子带信噪比SNR,确定所述音频信号为待判断音频信号。
18.如权利要求17所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号,包括:
在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定所述音频信号为待判断音频信号。
19.如权利要求17所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号,包括:
在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且所述音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定所述音频信号为待判断音频信号。
20.如权利要求17所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号,包括:
在所述音频信号中中子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定所述音频信号为待判断音频信号。
21.如权利要求16所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号,包括:
在确定所述音频信号为清音信号的情况下,确定所述音频信号为待判断音频信号。
22.一种装置,其特征在于,所述装置包括:
第一确定单元,用于确定输入的音频信号为待判断音频信号;
第二确定单元,用于确定所述音频信号的增强分段信噪比SSNR,其中所述增强SSNR大于基准SSNR;
第三确定单元,用于将所述增强SSNR与语音活动检测VAD判决门限比较,确定所述音频信号是否为活动信号。
23.如权利要求22所述的装置,其特征在于,所述第一确定单元,具体用于根据所述音频信号的子带信噪比SNR,确定所述音频信号为待判断音频信号。
24.如权利要求23所述的装置,其特征在于,所述第一确定单元,具体用于在所述音频信号中子带信噪比SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定所述音频信号为待判断音频信号。
25.如权利要求23所述的装置,其特征在于,所述第一确定单元,具体用于在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且所述音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定所述音频信号为待判断音频信号。
26.如权利要求23所述的装置,其特征在于,所述第一确定单元,具体用于在所述音频信号中子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定所述音频信号为待判断音频信号。
27.如权利要求22所述的装置,其特征在于,所述第一确定单元,具体用于在确定所述音频信号为清音信号的情况下,确定所述音频信号为待判断音频信号。
28.如权利要求24或25所述的装置,其特征在于,所述第二确定单元,具体用于确定所述音频信号中各个子带的子带SNR的权重,其中所述子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重,根据所述音频信号中的各个子带的子带SNR的权重和各个子带的子带SNR,确定所述增强SSNR。
29.如权利要求22-27中任一项所述的装置,其特征在于,第二确定单元,具体用于确定所述音频信号的基准SSNR,根据所述音频信号的基准SSNR,确定所述增强SSNR。
30.如权利要求29所述的装置,其特征在于,所述第二确定单元,具体用于使用以下公式确定所述增强SSNR:
SSNR'=x*SSNR+y,
其中,SSNR表示所述基准SSNR,SSNR'表示所述增强SSNR,x和y表示增强参数。
31.如权利要求29所述的装置,其特征在于,所述第二确定单元,具体用于使用以下公式确定所述增强SSNR:
SSNR'=f(x)*SSNR+h(y),
其中,SSNR表示所述基准SSNR,SSNR'表示所述增强SSNR,f(x)、h(y)表示增强函数。
32.如权利要求22至31中任一项所述的装置,其特征在于,所述装置还包括第四确定单元;
所述第四确定单元,用于使用预置算法减小所述VAD判决门限,获得减小后的VAD判决门限;
所述第三确定单元,具体用于将所述增强SSNR与所述减小后的VAD判决门限进行比较,确定所述音频信号是否为活动信号。
33.一种装置,其特征在于,所述装置包括:
第一确定单元,用于确定输入的音频信号为待判断音频信号;
第二确定单元,用于确定所述音频信号中各个子带的子带信噪比SNR的权重,其中所述子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重,根据所述音频信号中的各个子带的子带SNR的权重和各个子带的子带SNR,确定增强分段信噪比SSNR,其中所述增强SSNR大于基准SSNR;
第三确定单元,用于将所述增强SSNR与语音活动检测VAD判决门限比较,确定所述音频信号是否为活动信号。
34.如权利要求33所述的装置,其特征在于,所述第一确定单元,具体用于根据所述音频信号的子带信噪比SNR,确定所述音频信号为待判断音频信号。
35.如权利要求34所述的装置,其特征在于,所述第一确定单元,具体用于在所述音频信号中子带信噪比SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定所述音频信号为待判断音频信号。
36.如权利要求34所述的装置,其特征在于,所述第一确定单元,具体用于在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且所述音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定所述音频信号为待判断音频信号。
37.一种装置,其特征在于,所述装置包括:
第一确定单元,用于确定输入的音频信号为待判断音频信号;
第二确定单元,用于获取所述音频信号的基准分段信噪比SSNR;
第三确定单元,用于使用预置算法减小基准语音活动检测VAD判决门限,获得减小后的VAD判决门限;
第四确定单元,用于将所述基准SSNR与所述减小后的VAD判决门限进行比较,确定所述音频信号是否为活动信号。
38.如权利要求37所述的装置,其特征在于,所述第一确定单元,具体用于根据所述音频信号的子带信噪比SNR,确定所述音频信号为待判断音频信号。
39.如权利要求38所述的装置,其特征在于,所述第一确定单元,具体用于在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定所述音频信号为待判断音频信号。
40.如权利要求38所述的装置,其特征在于,所述第一确定单元,具体用于在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且所述音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定所述音频信号为待判断音频信号。
41.如权利要求38所述的装置,其特征在于,所述第一确定单元,具体用于在所述音频信号中中子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定所述音频信号为待判断音频信号。
42.如权利要求37所述的装置,其特征在于,所述第一确定单元,具体用于在确定所述音频信号为清音信号的情况下,确定所述音频信号为待判断音频信号。
Priority Applications (23)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710312455.0A CN107293287B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
CN201710313043.9A CN107086043B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
CN201410090386.XA CN104916292B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
PT191976604T PT3660845T (pt) | 2014-03-12 | 2014-12-01 | Método para deteção de sinal de áudio e aparelho |
ES19197660T ES2926360T3 (es) | 2014-03-12 | 2014-12-01 | Método y aparato para detectar señales de audio |
SG11201607052SA SG11201607052SA (en) | 2014-03-12 | 2014-12-01 | Method for detecting audio signal and apparatus |
EP19197660.4A EP3660845B1 (en) | 2014-03-12 | 2014-12-01 | Method for detecting audio signal and apparatus |
EP14885786.5A EP3118852B1 (en) | 2014-03-12 | 2014-12-01 | Method and device for detecting audio signal |
CA2940487A CA2940487C (en) | 2014-03-12 | 2014-12-01 | Method for detecting audio signal and apparatus |
ES14885786T ES2787894T3 (es) | 2014-03-12 | 2014-12-01 | Método y dispositivo para detectar la señal de audio |
KR1020187021506A KR102005009B1 (ko) | 2014-03-12 | 2014-12-01 | 오디오 신호를 검출하는 방법 및 장치 |
MX2016011750A MX355828B (es) | 2014-03-12 | 2014-12-01 | Método y aparato para la detección de señales de audio. |
AU2014386442A AU2014386442B9 (en) | 2014-03-12 | 2014-12-01 | Method for detecting audio signal and apparatus |
MYPI2016703030A MY193521A (en) | 2014-03-12 | 2014-12-01 | Method for detecting audio signal and apparatus |
RU2016139717A RU2666337C2 (ru) | 2014-03-12 | 2014-12-01 | Способ обнаружения звукового сигнала и устройство |
PT148857865T PT3118852T (pt) | 2014-03-12 | 2014-12-01 | Método e dispositivo para deteção de sinal de áudio |
PCT/CN2014/092694 WO2015135344A1 (zh) | 2014-03-12 | 2014-12-01 | 检测音频信号的方法和装置 |
JP2016556770A JP6493889B2 (ja) | 2014-03-12 | 2014-12-01 | 音声信号を検出するための方法および装置 |
KR1020167025280A KR101884220B1 (ko) | 2014-03-12 | 2014-12-01 | 오디오 신호를 검출하는 방법 및 장치 |
US15/262,263 US10304478B2 (en) | 2014-03-12 | 2016-09-12 | Method for detecting audio signal and apparatus |
JP2018225323A JP6793706B2 (ja) | 2014-03-12 | 2018-11-30 | 音声信号を検出するための方法および装置 |
US16/391,893 US10818313B2 (en) | 2014-03-12 | 2019-04-23 | Method for detecting audio signal and apparatus |
US16/901,846 US11417353B2 (en) | 2014-03-12 | 2020-06-15 | Method for detecting audio signal and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410090386.XA CN104916292B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710313043.9A Division CN107086043B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
CN201710312455.0A Division CN107293287B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104916292A true CN104916292A (zh) | 2015-09-16 |
CN104916292B CN104916292B (zh) | 2017-05-24 |
Family
ID=54070889
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710312455.0A Active CN107293287B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
CN201410090386.XA Active CN104916292B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
CN201710313043.9A Active CN107086043B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710312455.0A Active CN107293287B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710313043.9A Active CN107086043B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
Country Status (14)
Country | Link |
---|---|
US (3) | US10304478B2 (zh) |
EP (2) | EP3118852B1 (zh) |
JP (2) | JP6493889B2 (zh) |
KR (2) | KR101884220B1 (zh) |
CN (3) | CN107293287B (zh) |
AU (1) | AU2014386442B9 (zh) |
CA (1) | CA2940487C (zh) |
ES (2) | ES2926360T3 (zh) |
MX (1) | MX355828B (zh) |
MY (1) | MY193521A (zh) |
PT (2) | PT3118852T (zh) |
RU (1) | RU2666337C2 (zh) |
SG (1) | SG11201607052SA (zh) |
WO (1) | WO2015135344A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107393558A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 语音活动检测方法及装置 |
CN107393559A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 检校语音检测结果的方法及装置 |
CN107393550A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 语音处理方法及装置 |
CN107393553A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 用于语音活动检测的听觉特征提取方法 |
US10818313B2 (en) | 2014-03-12 | 2020-10-27 | Huawei Technologies Co., Ltd. | Method for detecting audio signal and apparatus |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10231070B2 (en) * | 2016-04-29 | 2019-03-12 | Huawei Technologies Co., Ltd. | Voice input exception determining method, apparatus, terminal, and storage medium |
CN107040359B (zh) * | 2017-05-08 | 2021-01-19 | 海能达通信股份有限公司 | 一种语音呼叫过程中携带随路信令的方法、装置及设备 |
US11783809B2 (en) * | 2020-10-08 | 2023-10-10 | Qualcomm Incorporated | User voice activity detection using dynamic classifier |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1918461A (zh) * | 2003-12-29 | 2007-02-21 | 诺基亚公司 | 在存在背景噪声时用于语音增强的方法和设备 |
WO2007091956A2 (en) * | 2006-02-10 | 2007-08-16 | Telefonaktiebolaget Lm Ericsson (Publ) | A voice detector and a method for suppressing sub-bands in a voice detector |
CN102741918A (zh) * | 2010-12-24 | 2012-10-17 | 华为技术有限公司 | 用于话音活动检测的方法和设备 |
CN102959625A (zh) * | 2010-12-24 | 2013-03-06 | 华为技术有限公司 | 自适应地检测输入音频信号中的话音活动的方法和设备 |
Family Cites Families (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59182498A (ja) * | 1983-04-01 | 1984-10-17 | 日本電気株式会社 | 音声検出回路 |
JPS63259596A (ja) | 1987-04-16 | 1988-10-26 | 株式会社日立製作所 | 音声区間検出方式 |
PL174216B1 (pl) * | 1993-11-30 | 1998-06-30 | At And T Corp | Sposób redukcji w czasie rzeczywistym szumu transmisji mowy |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US5991718A (en) * | 1998-02-27 | 1999-11-23 | At&T Corp. | System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments |
US6466906B2 (en) * | 1999-01-06 | 2002-10-15 | Dspc Technologies Ltd. | Noise padding and normalization in dynamic time warping |
US6453291B1 (en) * | 1999-02-04 | 2002-09-17 | Motorola, Inc. | Apparatus and method for voice activity detection in a communication system |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
JP2001236085A (ja) * | 2000-02-25 | 2001-08-31 | Matsushita Electric Ind Co Ltd | 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置 |
JP3588030B2 (ja) * | 2000-03-16 | 2004-11-10 | 三菱電機株式会社 | 音声区間判定装置及び音声区間判定方法 |
US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
CN1175398C (zh) * | 2000-11-18 | 2004-11-10 | 中兴通讯股份有限公司 | 一种从噪声环境中识别出语音和音乐的声音活动检测方法 |
EP1376539B8 (en) * | 2001-03-28 | 2010-12-15 | Mitsubishi Denki Kabushiki Kaisha | Noise suppressor |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203643B2 (en) | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US6937980B2 (en) * | 2001-10-02 | 2005-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech recognition using microphone antenna array |
JP4281349B2 (ja) | 2001-12-25 | 2009-06-17 | パナソニック株式会社 | 電話装置 |
US7024353B2 (en) * | 2002-08-09 | 2006-04-04 | Motorola, Inc. | Distributed speech recognition with back-end voice activity detection apparatus and method |
US7146315B2 (en) * | 2002-08-30 | 2006-12-05 | Siemens Corporate Research, Inc. | Multichannel voice detection in adverse environments |
US7162420B2 (en) * | 2002-12-10 | 2007-01-09 | Liberato Technologies, Llc | System and method for noise reduction having first and second adaptive filters |
JP4490090B2 (ja) * | 2003-12-25 | 2010-06-23 | 株式会社エヌ・ティ・ティ・ドコモ | 有音無音判定装置および有音無音判定方法 |
US8340309B2 (en) * | 2004-08-06 | 2012-12-25 | Aliphcom, Inc. | Noise suppressing multi-microphone headset |
CN100369113C (zh) * | 2004-12-31 | 2008-02-13 | 中国科学院自动化研究所 | 利用增益自适应提高语音识别率的方法 |
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
US8032370B2 (en) * | 2006-05-09 | 2011-10-04 | Nokia Corporation | Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes |
US8311814B2 (en) | 2006-09-19 | 2012-11-13 | Avaya Inc. | Efficient voice activity detector to detect fixed power signals |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
US8326620B2 (en) * | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
US7769585B2 (en) * | 2007-04-05 | 2010-08-03 | Avidyne Corporation | System and method of voice activity detection in noisy environments |
CN101320559B (zh) * | 2007-06-07 | 2011-05-18 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
KR101335417B1 (ko) | 2008-03-31 | 2013-12-05 | (주)트란소노 | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
WO2010091339A1 (en) | 2009-02-06 | 2010-08-12 | University Of Ottawa | Method and system for noise reduction for speech enhancement in hearing aid |
JP5337530B2 (ja) * | 2009-02-25 | 2013-11-06 | 京セラ株式会社 | 無線基地局および無線通信方法 |
KR20110001130A (ko) * | 2009-06-29 | 2011-01-06 | 삼성전자주식회사 | 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법 |
CN102044243B (zh) * | 2009-10-15 | 2012-08-29 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
CN102044242B (zh) * | 2009-10-15 | 2012-01-25 | 华为技术有限公司 | 语音激活检测方法、装置和电子设备 |
EP2491549A4 (en) | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY |
WO2011049515A1 (en) * | 2009-10-19 | 2011-04-28 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and voice activity detector for a speech encoder |
US8898058B2 (en) * | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
CN102971789B (zh) * | 2010-12-24 | 2015-04-15 | 华为技术有限公司 | 用于执行话音活动检测的方法和设备 |
US9099098B2 (en) * | 2012-01-20 | 2015-08-04 | Qualcomm Incorporated | Voice activity detection in presence of background noise |
US20140316775A1 (en) | 2012-02-10 | 2014-10-23 | Mitsubishi Electric Corporation | Noise suppression device |
JP5862349B2 (ja) * | 2012-02-16 | 2016-02-16 | 株式会社Jvcケンウッド | ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法 |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
US20130282372A1 (en) | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US9524735B2 (en) * | 2014-01-31 | 2016-12-20 | Apple Inc. | Threshold adaptation in two-channel noise estimation and voice activity detection |
CN107293287B (zh) * | 2014-03-12 | 2021-10-26 | 华为技术有限公司 | 检测音频信号的方法和装置 |
US9775113B2 (en) * | 2014-12-11 | 2017-09-26 | Mediatek Inc. | Voice wakeup detecting device with digital microphone and associated method |
-
2014
- 2014-03-12 CN CN201710312455.0A patent/CN107293287B/zh active Active
- 2014-03-12 CN CN201410090386.XA patent/CN104916292B/zh active Active
- 2014-03-12 CN CN201710313043.9A patent/CN107086043B/zh active Active
- 2014-12-01 MY MYPI2016703030A patent/MY193521A/en unknown
- 2014-12-01 PT PT148857865T patent/PT3118852T/pt unknown
- 2014-12-01 CA CA2940487A patent/CA2940487C/en active Active
- 2014-12-01 RU RU2016139717A patent/RU2666337C2/ru active
- 2014-12-01 SG SG11201607052SA patent/SG11201607052SA/en unknown
- 2014-12-01 ES ES19197660T patent/ES2926360T3/es active Active
- 2014-12-01 AU AU2014386442A patent/AU2014386442B9/en active Active
- 2014-12-01 WO PCT/CN2014/092694 patent/WO2015135344A1/zh active Application Filing
- 2014-12-01 MX MX2016011750A patent/MX355828B/es active IP Right Grant
- 2014-12-01 EP EP14885786.5A patent/EP3118852B1/en active Active
- 2014-12-01 KR KR1020167025280A patent/KR101884220B1/ko active IP Right Grant
- 2014-12-01 JP JP2016556770A patent/JP6493889B2/ja active Active
- 2014-12-01 EP EP19197660.4A patent/EP3660845B1/en active Active
- 2014-12-01 ES ES14885786T patent/ES2787894T3/es active Active
- 2014-12-01 PT PT191976604T patent/PT3660845T/pt unknown
- 2014-12-01 KR KR1020187021506A patent/KR102005009B1/ko active IP Right Grant
-
2016
- 2016-09-12 US US15/262,263 patent/US10304478B2/en active Active
-
2018
- 2018-11-30 JP JP2018225323A patent/JP6793706B2/ja active Active
-
2019
- 2019-04-23 US US16/391,893 patent/US10818313B2/en active Active
-
2020
- 2020-06-15 US US16/901,846 patent/US11417353B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1918461A (zh) * | 2003-12-29 | 2007-02-21 | 诺基亚公司 | 在存在背景噪声时用于语音增强的方法和设备 |
WO2007091956A2 (en) * | 2006-02-10 | 2007-08-16 | Telefonaktiebolaget Lm Ericsson (Publ) | A voice detector and a method for suppressing sub-bands in a voice detector |
CN101379548A (zh) * | 2006-02-10 | 2009-03-04 | 艾利森电话股份有限公司 | 语音检测器和用于语音检测器中抑制子频带的方法 |
CN102741918A (zh) * | 2010-12-24 | 2012-10-17 | 华为技术有限公司 | 用于话音活动检测的方法和设备 |
CN102959625A (zh) * | 2010-12-24 | 2013-03-06 | 华为技术有限公司 | 自适应地检测输入音频信号中的话音活动的方法和设备 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10818313B2 (en) | 2014-03-12 | 2020-10-27 | Huawei Technologies Co., Ltd. | Method for detecting audio signal and apparatus |
US11417353B2 (en) | 2014-03-12 | 2022-08-16 | Huawei Technologies Co., Ltd. | Method for detecting audio signal and apparatus |
CN107393558A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 语音活动检测方法及装置 |
CN107393559A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 检校语音检测结果的方法及装置 |
CN107393550A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 语音处理方法及装置 |
CN107393553A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 用于语音活动检测的听觉特征提取方法 |
CN107393558B (zh) * | 2017-07-14 | 2020-09-11 | 深圳永顺智信息科技有限公司 | 语音活动检测方法及装置 |
CN107393550B (zh) * | 2017-07-14 | 2021-03-19 | 深圳永顺智信息科技有限公司 | 语音处理方法及装置 |
CN107393559B (zh) * | 2017-07-14 | 2021-05-18 | 深圳永顺智信息科技有限公司 | 检校语音检测结果的方法及装置 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104916292A (zh) | 检测音频信号的方法和装置 | |
CN108766454A (zh) | 一种语音噪声抑制方法及装置 | |
CN103247298B (zh) | 一种灵敏度校准方法和音频设备 | |
KR20010075343A (ko) | 저비트율 스피치 코더용 노이즈 억제 방법 및 그 장치 | |
JP2008534989A (ja) | 音声アクティビティ検出装置および方法 | |
CN105489226A (zh) | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 | |
CN105427859A (zh) | 一种用于对说话人识别的前端语音增强方法 | |
US11610601B2 (en) | Method and apparatus for determining speech presence probability and electronic device | |
CN112216285B (zh) | 多人会话检测方法、系统、移动终端及存储介质 | |
Liu et al. | SNR estimation for clipped audio based on amplitude distribution | |
CN106297795A (zh) | 语音识别方法及装置 | |
CN103337245B (zh) | 基于子带信号的信噪比曲线的噪声抑制方法及装置 | |
Wang et al. | Analysis and low-power hardware implementation of a noise reduction algorithm | |
Deng et al. | Likelihood ratio sign test for voice activity detection | |
CN106249298A (zh) | 一种微震数据噪声压制方法及系统 | |
Rao et al. | A novel two stage single channel speech enhancement technique | |
Guopin et al. | Improvement of audio noise reduction system based on RLS algorithm | |
Jo et al. | Psychoacoustically constrained and distortion minimized speech enhancement algorithm | |
CN104347082A (zh) | 弦波帧检测方法和设备以及音频编码方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |