CN107293287B - 检测音频信号的方法和装置 - Google Patents
检测音频信号的方法和装置 Download PDFInfo
- Publication number
- CN107293287B CN107293287B CN201710312455.0A CN201710312455A CN107293287B CN 107293287 B CN107293287 B CN 107293287B CN 201710312455 A CN201710312455 A CN 201710312455A CN 107293287 B CN107293287 B CN 107293287B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- sub
- snr
- subband
- ssnr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 495
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000001514 detection method Methods 0.000 claims abstract description 21
- 230000000694 effects Effects 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
- Telephonic Communication Services (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- User Interface Of Digital Computer (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明实施例提供检测音频信号的方法和装置,包括:确定输入的音频信号为待判断音频信号;确定该音频信号的增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR;将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号。根据本发明实施例所提供的方法和装置能够准确地分辨活动语音和非活动语音。
Description
技术领域
本发明实施例涉及信号处理技术领域,并且更具体地,涉及检测音频信号的方法和装置。
背景技术
语音活动检测(Voice Activity Detection,VAD)是一种广泛应用与语音通信、人机交互等领域的关键技术,VAD也可以被称为声音活动检测(Sound Activity Detection,SAD)。它的作用是检测输入的音频信号中是否有活动性信号,其中活动性信号是相对于非活动信号而言(例如环境背景噪音、静音等)。典型的活动信号包括语音、音乐等。VAD的原理是从输入的音频信号中提取一个或多个特征参数,根据这一个或多个特征参数确定一个或多个特征值,然后将这一个或多个特征值与一个或多个门限值进行比较。
现有技术中的基于分段信噪比(Segmental Signal to Noise Ratio,SSNR)的活动信号检测方法是将输入的音频信号在频带上划分为多个子带信号,计算该音频信号在每一个子带的能量,通过将该音频信号在每一个子带的能量与一个估计出的背景噪声信号在每个子带的能量做对比,获得该音频信号在每个子带上的信噪比(Signal-to-NoiseRatio,SNR)。然后根据每个子带上的子带SNR确定SSNR,将SSNR与预设的VAD判决门限进行比较,如果该SSNR超过该VAD判决门限,则该音频信号为活动信号;如果该SSNR没有超过该VAD判决门限,则该音频信号为非活动信号。
典型的一种计算SSNR的方法是将该音频信号所有子带SNR相加,得到的结果就是SSNR。例如,可以采用公式1.1确定SSNR:
其中,k表示第k个子带,snr(k)表示第k个子带的子带SNR,N表示该音频信号总共被划分为子带的子带个数。
通过上述计算SSNR的方法检测活动语音时,可能会造成活动语音的漏检。
发明内容
本发明实施例提供了检测音频信号的方法和装置,能够准确地分辨活动语音和非活动语音。
第一方面,本发明实施例提供一种检测音频信号的方法,该方法包括:确定输入的音频信号为待判断音频信号;根据所述音频信号中各个子带的子带信噪比SNR的权重和各个子带的子带SNR,确定增强SSNR,其中,所述音频信号中子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重;将所述增强SSNR与语音活动检测VAD判决门限进行比较以确定所述音频信号是否为活动信号。
结合第一方面,在第一方面的第一种可能的实现方式中,所述确定输入的音频信号为待判断音频信号包括:
根据所述音频信号的子带SNR确定所述音频信号为所述待判断音频信号。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述根据所述音频信号的子带SNR确定所述音频信号为所述待判断音频信号包括:
在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定所述音频信号为所述待判断音频信号。
结合第一方面或第一方面的上述任何一种实现方式,在第一方面的又一种实现方式中,所述音频信号被划分成20个子带,所述20个子带由子带0至子带19组成,其中,子带18和所述子带19为所述高频端子带。
结合第一方面或第一方面的上述任何一种实现方式,在第一方面的又一种实现方式中,所述待判断音频信号为清音信号。
结合第一方面或第一方面的上述任何一种实现方式,在第一方面的又一种实现方式中,所述增强SSNR大于基准SSNR。
结合第二方面,本发明实施例提供一种装置,包括:
第一确定单元,用于确定输入的音频信号为待判断音频信号;
第二确定单元,用于根据所述音频信号中各个子带的子带信噪比SNR的权重和各个子带的子带SNR,确定增强SSNR,其中,所述音频信号中子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重;
第三确定单元,用于将所述增强SSNR与语音活动检测VAD判决门限进行比较以确定所述音频信号是否为活动信号。
结合第二方面,在第二方面的第一种可能的实现方式中,所述第一确定单元,具体用于根据所述音频信号的子带SNR确定所述音频信号为所述待判断音频信号。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述第一确定单元,具体用于在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定所述音频信号为所述待判断音频信号。
结合第二方面或第二方面的上述任何一种实现方式,在第二方面的又一种实现方式中,所述音频信号被划分成20个子带,所述20个子带由子带0至子带19组成,其中,子带18和所述子带19为所述高频端子带。
结合第二方面或第二方面的上述任何一种实现方式,在第二方面的又一种实现方式中,所述待判断音频信号为清音信号。
结合第二方面或第二方面的上述任何一种实现方式,在第二方面的又一种实现方式中,所述增强SSNR大于基准SSNR。
根据本发明实施例所提供的方法,可以确定音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
图2是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
图3是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
图4是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
图5是根据本发明实施例提供的装置的结构框图。
图6是根据本发明实施例提供的另一装置的结构框图。
图7是根据本发明实施例提供的装置的结构框图。
图8是根据本发明实施例提供的另一装置的结构框图。
图9是根据本发明实施例提供的另一装置的结构框图。
图10是根据本发明实施例提供的另一装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
图1是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
101,确定输入的音频信号为待判断音频信号。
102,确定该音频信号的增强SSNR,其中该增强SSNR大于基准SSNR。
103,将该增强SSNR与VAD判决门限比较,确定该音频信号是否为活动信号。
在本发明的实施例中,在将增强SSNR与VAD判决门限进行比较时,可以使用基准VAD判决门限,也可以使用预置算法减小基准VAD判决门限后获得的减小后的VAD判决门限。其中,基准VAD判决门限可以是默认的VAD判决门限,该基准VAD判决门限可以是预先存储的,也可以是临时计算获得,其中基准VAD判决门限的计算可以采用现有公知技术。在使用预置算法减小基准VAD判决门限时,该预置算法可以是将基准VAD判决门限乘于一个小于1的系数,也可以采用其他算法,本发明实施例并不限定所采用的具体算法。
在采用传统的SSNR计算方法计算一些音频信号的SSNR时,这些音频信号的SSNR可能低于预设的VAD判决门限。但是,实际上这些音频信号是活动音频信号。这是由于这些音频信号的特性导致的。例如,在环境SNR较低的情况下,高频部分的子带SNR会显著降低。并且,由于通常会采用心理声学理论划分子带,高频部分的子带SNR对SSNR的贡献较低。在此情况下,对一些能量主要集中在相对高频部分的信号,如清音信号,采用传统的SSNR计算方法计算出的SSNR可能低于VAD判决门限,这就造成活动信号的漏检。又如,一些音频信号中,音频信号的能量较平坦的分布在频谱上,但是该音频信号的整体能量较低。这样,在环境SNR较低的情况下,采用传统的SSNR计算方法计算出的SSNR也可能低于VAD判决门限。图1所示的方法通过适当的提高SSNR的方式,使得SSNR可以大于VAD判决门限,从而能够有效地降低活动信号漏减的比例。
图2是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
201,确定输入的音频信号的子带SNR。
将输入音频信号的频谱划分为N个子带,其中N为大于1的正整数。具体地,可以采用心理声学理论对该音频信号的频谱进行划分。在采用心理声学理论划分音频信号的频谱的情况下,越靠近低频的子带宽度越窄,越靠近高频的子带宽度越宽。当然,也可以采用其他的方式划分该音频信号的频谱,例如将该音频信号的频谱等分为N个子带等方式。计算输入音频信号每个子带的子带SNR,其中该子带SNR为该子带的能量与背景噪声在该子带上的能量之比。背景噪声的子带能量一般是通过背景噪声估计器估计出来的估计值。如何采用背景噪声估计器估计出每个子带对应的背景噪声能量是本领域的公知技术,因此,这里就不必赘述。本领域技术人员可以理解,该子带SNR可以是直接的能量比值,也可以是直接能量比值的其他表现形式,例如对数子带SNR。此外,本领域技术人员还可以理解,该子带SNR还可以是对直接子带SNR做线性或非线性处理后的子带SNR或者其他的变形。以下公式是子带SNR的直接能量比值:
snr(k)=E(k)/En(k),………………………………………………公式1.2
其中,snr(k)表示第k子带的子带SNR,E(k)和En(k)分别表示第k子带的能量和背景噪声在第k子带上的能量。对数子带SNR可以表示为:snrlog(k)=10×log10snr(k),其中snrlog(k)表示第k子带的对数子带SNR,snr(k)表示采用公式1.2计算出的第k子带的子带SNR。本领域技术人员还可以理解,用于计算子带SNR的子带能量既可以是输入音频信号在子带上的能量,也可以是输入音频信号在子带上的能量去除背景噪声在该子带上的能量之后的能量。SNR的计算只要不脱离SNR的意义即可。
202,确定输入的音频信号为待判断音频信号。
可选的,作为一个实施例,该确定输入的音频信号为待判断音频信号包括:可以是根据步骤201中确定的该音频信号的子带SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量的情况下,确定该音频信号为待判断音频信号。在本发明实施例中,一帧音频信号的高频端和低频端是相对而言的,即频率相对高一些的部分为高频端,频率相对低一些的部分为低频端。
可选的,作为另一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中的子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
该第三预设门限也是根据统计得到的。具体来说,从大量的噪声信号的子带SNR中确定第三预设门限,使得这些噪声信号中的绝大多数子带的子带SNR都小于该值。
第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音清音样本帧中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音清音样本帧中绝大多数的子带SNR大于第一预设门限的高频端子带的数量大于该第一数量。获取第二数量的方法与获取第一数量的方法类似。第二数量可以与第一数量相同,第二数量也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音清音样本帧中,统计低频端子带的子带SNR小于第二预设门限的子带数量,从中确定第三数量,使得这些语音清音样本帧中绝大多数的子带SNR小于第二预设门限的低频端子带的数量大于该第三数量。对于第四数量,在大量的噪声信号帧中,统计子带SNR小于第三预设门限的子带数量,从中确定第四数量,使得这些噪声样本帧中绝大多数的子带SNR小于第三预设门限的子带的数量大于该第四数量。
可选的,作为另一个实施例,可以通过判断输入的音频信号是否为清音信号来确定输入的音频信号是否为待判断音频信号。在此情况下,判断该音频信号是否为待判断音频信号时不需要确定该音频信号的子带SNR。换句话说,在判断该音频信号是否为待判断音频信号时不需要执行步骤201。具体地,该确定输入的音频信号为待判断音频信号,包括:在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。具体地,本领域技术人员可以理解,可以有多种用于检测音频信号是否为清音信号的方法。例如,可以通过检测该音频信号的时域过零率(Zero-Crossing Rate,ZCR)来确定该音频信号是否为清音信号。具体地,在该音频信号的ZCR大于ZCR阈值的情况下,确定该音频信号为清音信号,其中该ZCR阈值是通过大量实验确定的。
203,确定该音频信号的增强SSNR,其中该增强SSNR大于基准SSNR。
该基准SSNR可以是采用公式1.1计算出来的SSNR。从公式1.1可以看出,在计算基准SSNR时,没有对任何一个子带的子带SNR进行加权处理,也就是说,在计算基准SSNR时各个子带的子带SNR的权重相同。
可选的,作为一个实施例,在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,或者,在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且在该音频信号中子带SNR小于第二预设门限的低频端子带的数量小于第三数量的情况下,该确定该音频信号的增强SSNR,包括:确定该音频信号中各个子带的子带SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的权重大于其他子带的子带SNR的权重,根据该音频信号中各个子带的子带SNR的权重和各个子带的子带SNR,确定该增强SSNR。
例如,如果将该音频信号按照心理声学理论划分为20个子带,即子带0至子带19。如果子带18和子带19均大于第一预设值T1,则可以增加四个子带,即子带20至子带23。具体来说,可以将信噪比大于T1的子带18划分为子带18a、子带18b和子带18c,子带19划分为子带19a、子带19b和子带19c。这样,子带18可以看作是子带18a、子带18b和子带18c的母子带,子带19可以看作是子带19a、子带19b和子带19c的母子带。子带18a、子带18b和子带18c的信噪比的取值与其母子带的信噪比取值相同,子带19a、子带19b和子带19c的信噪比的取值与其母子带的信噪比的取值相同。这样,就将原有划分的20个子带重新划分为24个子带。由于在进行活动信号检测时,VAD仍然是按照20个子带进行设计的,因此需要将24个子带映射回20个子带,来确定增强SSNR。综上,采用增加该子带SNR大于该第一预设门限的高频端子带的数量的方式来确定该增强SSNR时,可以采用以下公式进行计算:
其中,SSNR'表示该增强SSNR。snr(k)表示第k子带的子带SNR。
又如,如果将该音频信号按照心理声学理论划分为20个子带,即子带0至子带19。如果snr(18)和snr(19)均大于第一预设值T1,且snr(0)到snr(17)均小于第二预设值T2,则可以采用以下公式确定该增强SSNR:
其中,SSNR'表示该增强SSNR,snr(k)表示第k子带的子带SNR,a1和a2为增加权重参数并且a1和a2的取值使得a1×snr(18)+a2×snr(19)大于snr(18)+snr(19)。显然,采用公式1.4计算出来的增强SSNR的值大于采用公式1.1计算出来的基准SSNR的值。
可选的,作为另一实施例,该确定该音频信号的增强SSNR,包括:确定该音频信号的基准SSNR,根据该音频信号的基准SSNR,确定增强SSNR。
可选的,可以使用以下公式确定该增强SSNR:
SSNR'=x*SSNR+y,………………………………………………公式1.5
其中,SSNR表示该音频信号的基准SSNR,SSNR'表示该增强SSNR,x和y表示增强参数。例如,x的取值可以为1.05,y的取值可以为1。本领域技术人员可以理解,x和y的取值还可以是其他合适的值,使得增强SSNR恰当的大于基准SSNR。
可选的,可以使用以下公式确定该增强SSNR:
SSNR'=f(x)*SSNR+h(y),………………………………………公式1.6
其中,SSNR表示该音频信号的原始SSNR,SSNR'表示该增强SSNR,f(x)、h(y)表示增强函数。例如,f(x)和h(y)可以是与该音频信号的长时信噪比(Long-term SNR,LSNR)相关的函数,音频信号的长时信噪比为一段较长时间内的平均SNR或加权SNR。例如,当lsnr大于20时,f(lsnr)可以等于1.1,y(lsnr)可以等于2。当lsnr小于20且大于15时,f(lsnr)可以等于1.05,y(lsnr)可以等于1。当lsnr小于15时,f(lsnr)可以等于1,y(lsnr)可以等于0。本领域技术人员可以理解,f(x)和h(y)还可以是其他合适的形式,使得增强SSNR恰当的大于基准SSNR。
204,将该增强SSNR与VAD判决门限比较,确定该音频信号是否为活动信号。
具体来说,将该增强SSNR与VAD判决门限比较,如果该增强SSNR大于该VAD判决门限,则确定该音频信号为活动信号。否则确定该音频信号为非活动信号。
可选的,作为另一个实施例,在将该增强SSNR与VAD判决门限进行比较前,该方法还可以包括:使用预置算法减小该VAD判决门限,获得减小后的VAD判决门限。在此情况下,将该增强SSNR与VAD判决门限比较具体包括:将该增强SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。基准VAD判决门限可以是默认的VAD判决门限,该基准VAD判决门限可以是预先存储的,也可以是临时计算获得,其中基准VAD判决门限的计算可以采用现有公知技术。在使用预置算法减小基准VAD判决门限时,该预置算法可以是将基准VAD判决门限乘于一个小于1的系数,也可以采用其他算法,本发明实施例并不限定所采用的具体算法。该预置算法可以适当减小VAD判决门限,使得增强SSNR大于该减小后的VAD判决门限,从而可以使得活动信号被漏减的比例降低。
根据图2所示的方法,确定音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
图3是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
301,确定输入的音频信号为待判断音频信号。
302,确定该音频信号中各个子带的子带SNR的权重,其中该子带SNR大于第一预设门限的包频段子带的子带SNR的权重大于其他子带的子带SNR的权重。
303,根据该音频信号中各个子带的子带SNR的权重和各个子带的子带SNR,确定增强SSNR,其中该增强SSNR大于基准SSNR。
该基准SSNR可以是采用公式1.1计算出来的SSNR。从公式1.1可以看出,在计算基准SSNR时,没有对任何一个子带的子带SNR进行加权处理,也就是说,在计算基准SSNR时各个子带的子带SNR的权重相同。
例如,如果将该音频信号按照心理声学理论划分为20个子带,即子带0至子带19。如果子带18和子带19均大于第一预设值T1,则可以增加四个子带,即子带20至子带23。具体来说,可以将信噪比大于T1的子带18划分为子带18a、子带18b和子带18c,子带19划分为子带19a、子带19b和子带19c。这样,子带18可以看作是子带18a、子带18b和子带18c的母子带,子带19可以看作是子带19a、子带19b和子带19c的母子带。子带18a、子带18b和子带18c的信噪比的取值与其母子带的信噪比取值相同,子带19a、子带19b和子带19c的信噪比的取值与其母子带的信噪比的取值相同。这样,就将原有划分的20个子带重新划分为24个子带。由于在进行活动信号检测时,VAD仍然是按照20个子带进行设计的,因此需要将24个子带映射回20个子带,来确定增强SSNR。综上,采用增加该子带SNR大于该第一预设门限的高频端子带的数量的方式来确定该增强SSNR时,可以采用以下公式进行计算:
其中,SSNR'表示该增强SSNR。snr(k)表示第k子带的子带SNR。
又如,如果将该音频信号按照心理声学理论划分为20个子带,即子带0至子带19。如果snr(18)和snr(19)均大于第一预设值T1,且snr(0)到snr(17)均小于第二预设值T2,则可以采用以下公式确定该增强SSNR:
其中,SSNR'表示该增强SSNR,snr(k)表示第k子带的子带SNR,a1和a2为增加权重参数并且a1和a2的取值使得a1×snr(18)+a2×snr(19)大于snr(18)+snr(19)。显然,采用公式1.4计算出来的增强SSNR的值大于采用公式1.1计算出来的基准SSNR的值。
304,将该增强SSNR与VAD判决门限比较,确定该音频信号是否为活动信号。
具体来说,将该增强SSNR与VAD判决门限比较,如果该增强SSNR大于该VAD判决门限,则确定该音频信号为活动信号。否则确定该音频信号为非活动信号。
图3所述的方法可以确定音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
进一步,该确定输入的音频信号为待判断音频信号,包括,根据该音频信号的子带SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定该音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定该音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量的情况下,确定该音频信号为待判断音频信号。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
第一数量、第二数量和第三数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音清音样本帧中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音清音样本帧中绝大多数的子带SNR大于第一预设门限的高频端子带的数量大于该第一数量。获取第二数量的方法与获取第一数量的方法类似。第二数量可以与第一数量相同,第二数量也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音清音样本帧中,统计低频端子带的子带SNR小于第二预设门限的子带数量,从中确定第三数量,使得这些语音清音样本帧中绝大多数的子带SNR小于第二预设门限的低频端子带的数量大于该第三数量。
图1至图3的实施例通过使用增强SSNR的方式判断输入的音频信号是否为活动信号。图4所示的方法是通过减小VAD判决门限的方式判断输入的音频信号是否为活动信号。
图4是根据本发明实施例提供的检测音频信号的方法的示意性流程图。
401,确定输入的音频信号为待判断音频信号。
可选的,作为一个实施例,该确定输入的音频信号为待判断音频信号包括:可以是根据步骤201中确定的该音频信号的子带SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,该确定输入的音频信号为待判断音频信号,包括:在该音频信号中的子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
该第三预设门限也是根据统计得到的。具体来说,从大量的噪声信号的子带SNR中确定第三预设门限,使得这些噪声信号中的绝大多数子带的子带SNR都小于该值。
第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音清音样本帧中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音清音样本帧中绝大多数的子带SNR大于第一预设门限的高频端子带的数量大于该第一数量。获取第二数量的方法与获取第一数量的方法类似。第二数量可以与第一数量相同,第二数量也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音清音样本帧中,统计低频端子带的子带SNR小于第二预设门限的子带数量,从中确定第三数量,使得这些语音清音样本帧中绝大多数的子带SNR小于第二预设门限的低频端子带的数量大于该第三数量。对于第四数量,在大量的噪声信号帧中,统计子带SNR小于第三预设门限的子带数量,从中确定第四数量,使得这些噪声样本帧中绝大多数的子带SNR小于第三预设门限的子带的数量大于该第四数量。
可选的,作为另一个实施例,可以通过判断输入的音频信号是否为清音信号来确定输入的音频信号是否为待判断音频信号。在此情况下,判断该音频信号是否为待判断音频信号时不需要确定该音频信号的子带SNR。换句话说,在判断该音频信号是否为待判断音频信号时不需要执行步骤201。具体地,该确定输入的音频信号为待判断音频信号,包括:在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。具体地,本领域技术人员可以理解,可以有多种用于检测音频信号是否为清音信号的方法。例如,可以通过检测该音频信号的时域过零率(Zero-Crossing Rate,ZCR)来确定该音频信号是否为清音信号。具体地,在该音频信号的ZCR大于ZCR阈值的情况下,确定该音频信号为清音信号,其中该ZCR阈值是通过大量实验确定的。
402,获取该音频信号的基准SSNR。
具体地,该基准SSNR可以是采用公式1.1计算出来的SSNR。
403,使用预置算法减小基准VAD判决门限,获得减小后的VAD判决门限。
具体地,基准VAD判决门限可以是默认的VAD判决门限,该基准VAD判决门限可以是预先存储的,也可以是临时计算获得,其中基准VAD判决门限的计算可以采用现有公知技术。在使用预置算法减小基准VAD判决门限时,该预置算法可以是将基准VAD判决门限乘于一个小于1的系数,也可以采用其他算法,本发明实施例并不限定所采用的具体算法。该预置算法可以适当减小VAD判决门限,使得增强SSNR大于该减小后的VAD判决门限,从而可以使得活动信号被漏减的比例降低。
404,将该基准SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
在采用传统的SSNR计算方法计算一些音频信号的SSNR时,这些音频信号的SSNR可能低于预设的VAD判决门限。但是,实际上这些音频信号是活动音频信号。这是由于这些音频信号的特性导致的。例如,在环境SNR较低的情况下,高频部分的子带SNR会显著降低。并且,由于通常会采用心理声学理论划分子带,高频部分的子带SNR对SSNR的贡献较低。在此情况下,对一些能量主要集中在相对高频部分的信号,如清音信号,采用传统的SSNR计算方法计算出的SSNR可能低于VAD判决门限,这就造成活动信号的漏检。又如,一些音频信号中,音频信号的能量较平坦的分布在频谱上,但是该音频信号的整体能量较低。这样,在环境SNR较低的情况下,采用传统的SSNR计算方法计算出的SSNR也可能低于VAD判决门限。图4所示的方法通过降低VAD判决门限的方式,使得采用传统的SSNR计算方法计算出的SSNR大于VAD判决门限,从而能够有效地降低活动信号漏减的比例。
图5是根据本发明实施例提供的装置的结构框图。图5所示的装置能够执行图1或图2的各个步骤。如图5所示,装置500包括第一确定单元501、第二确定单元502和第三确定单元503。
第一确定单元501,用于确定输入的音频信号为待判断音频信号。
第二确定单元502,用于确定该音频信号的增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR。
第三确定单元503,用于将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号。
图5所示的装置500可以确定输入的音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
可选的,作为一个实施例,该第一确定单元501,具体用于根据该音频信号的子带SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在第一确定单元501根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,第一确定单元501,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在第一确定单元501根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,第一确定单元501,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在第一确定单元501根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,第一确定单元501,具体用于在该音频信号中的子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,第一确定单元501,具体用于在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。具体地,本领域技术人员可以理解,可以有多种用于检测音频信号是否为清音信号的方法。例如,可以通过检测该音频信号的时域过零率(Zero-Crossing Rate,ZCR)来确定该音频信号是否为清音信号。具体地,在该音频信号的ZCR大于ZCR阈值的情况下,确定该音频信号为清音信号,其中该ZCR阈值是通过大量实验确定的。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
该第三预设门限也是根据统计得到的。具体来说,从大量的噪声信号的子带SNR中确定第三预设门限,使得这些噪声信号中的绝大多数子带的子带SNR都小于该值。
第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音样本中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音样本中绝大多数的大于第一预设门限的高频端子带SNR的数量大于该第一数量。确定第二数量的方法与确定第一数量的方法类似。第二数量可以与第一数量相同,也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音样本中,统计低频端子带的子带SNR大于第二预设门限的子带数量,从中确定第三数量,使得这些语音样本中绝大多数的大于第二预设门限的低频端子带SNR的数量大于该第三数量。对于第四数量,在大量的含有噪声的语音样本中,统计子带SNR大于第三预设门限的子带数量,从中确定第四数量,使得这些语音样本中绝大多数的大于第三预设门限的子带SNR的数量大于该第四数量。
进一步,第二确定单元502,具体用于确定该音频信号中各个子带的子带SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的权重大于其他子带的子带SNR的权重,根据该音频信号中的各个子带的子带SNR的权重和各个子带的SNR,确定该增强SSNR。
可选的,作为一个实施例,第二确定单元502,具体用于确定该音频信号的基准SSNR,根据该音频信号的基准SSNR,确定增强SSNR。
该基准SSNR可以是采用公式1.1计算出来的SSNR。基准SSNR在计算时,计入SSNR的各个子带的子带SNR在SSNR中的权重相同。
可选的,作为另一个实施例,第二确定单元502,具体用于使用以下公式确定该增强SSNR:
SSNR'=x*SSNR+y,………………………………………………公式1.7
其中,SSNR表示该基准SSNR,SSNR'表示该增强SSNR,x和y表示增强参数。例如,x的取值可以为1.05,y的取值可以为1。本领域技术人员可以理解,x和y的取值还可以是其他合适的值,使得增强SSNR恰当的大于基准SSNR。
可选的,作为另一个实施例,第二确定单元502,具体用于使用以下公式确定该增强SSNR:
SSNR'=f(x)*SSNR+h(y),………………………………………公式1.8
其中,SSNR表示该基准SSNR,SSNR'表示该增强SSNR,f(x)、h(y)表示增强函数。例如,f(x)和h(y)可以是与该音频信号的长时信噪比(Long-term SNR,LSNR)相关的函数,音频信号的长时信噪比为一段较长时间内的平均SNR或加权SNR。例如,当lsnr大于20时,f(lsnr)可以等于1.1,y(lsnr)可以等于2。当lsnr小于20且大于15时,f(lsnr)可以等于1.05,y(lsnr)可以等于1。当lsnr小于15时,f(lsnr)可以等于1,y(lsnr)可以等于0。本领域技术人员可以理解,f(x)和h(y)还可以是其他合适的形式,使得增强SSNR恰当的大于基准SSNR。
第三确定单元503,具体用于将该增强SSNR与语音活动检测VAD判决门限比较,根据比较结构确定该音频信号是否为活动信号。具体来说,如果该增强SSNR大于该VAD判决门限,则确定该音频信号为活动信号。如果该增强SSNR小于该VAD判决门限,则确定该音频信号为非活动信号。
可选的,作为另一个实施例,还可以使用预置算法减小基准VAD判决门限后获得的减小后的VAD判决门限,使用减小后的VAD判决门限确定该音频信号是否为活动信号。在此情况下,装置500还可以包括第四确定单元504。第四确定单元504用于使用预置算法减小该VAD判决门限,获得减小后的VAD判决门限。在此情况下,第三确定单元503,具体用于将该增强SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
图6是根据本发明实施例提供的另一装置的结构框图。图6所示的装置能够执行图3的各个步骤。如图6所示,装置600包括第一确定单元601、第二确定单元602和第三确定单元603。
第一确定单元601,用于确定输入的音频信号为待判断音频信号。
第二确定单元602,用于确定该音频信号中各个子带的子带信噪比SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重,根据该音频信号中的各个子带的子带SNR的权重和各个子带的子带SNR,确定增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR。
第三确定单元603,用于将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号。
图6所示的装置600可以确定输入的音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
进一步,第一确定单元601,具体用于根据该音频信号的子带信噪比SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,第一确定单元601,具体用于在该音频信号中子带信噪比SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,第一确定单元601,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
第一数量、第二数量和第三数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音清音样本帧中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音清音样本帧中绝大多数的子带SNR大于第一预设门限的高频端子带的数量大于该第一数量。获取第二数量的方法与获取第一数量的方法类似。第二数量可以与第一数量相同,第二数量也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音清音样本帧中,统计低频端子带的子带SNR小于第二预设门限的子带数量,从中确定第三数量,使得这些语音清音样本帧中绝大多数的子带SNR小于第二预设门限的低频端子带的数量大于该第三数量。
图7是根据本发明实施例提供的装置的结构框图。图7所示的装置能够执行图1或图2的各个步骤。如图7所示,装置700包括处理器701和存储器702。其中,处理器701可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read-Only Memory,ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702,处理器701读取存储器702中的指令,结合其硬件完成上述方法的步骤。
处理器701,用于确定输入的音频信号为待判断音频信号。
处理器701,用于确定该音频信号的增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR。
处理器701,用于将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号。
图7所示的装置700可以确定输入的音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
可选的,作为一个实施例,该处理器701,具体用于根据该音频信号的子带SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在处理器701根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,处理器701,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在处理器701根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,处理器701,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,在处理器701根据该音频信号的子带SNR确定该音频信号为待判断音频信号的情况下,处理器701,具体用于在该音频信号中的子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,处理器701,具体用于在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。具体地,本领域技术人员可以理解,可以有多种用于检测音频信号是否为清音信号的方法。例如,可以通过检测该音频信号的时域过零率(Zero-Crossing Rate,ZCR)来确定该音频信号是否为清音信号。具体地,在该音频信号的ZCR大于ZCR阈值的情况下,确定该音频信号为清音信号,其中该ZCR阈值是通过大量实验确定的。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
该第三预设门限也是根据统计得到的。具体来说,从大量的噪声信号的子带SNR中确定第三预设门限,使得这些噪声信号中的绝大多数子带的子带SNR都小于该值。
第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音样本中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音样本中绝大多数的大于第一预设门限的高频端子带SNR的数量大于该第一数量。确定第二数量的方法与确定第一数量的方法类似。第二数量可以与第一数量相同,也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音样本中,统计低频端子带的子带SNR大于第二预设门限的子带数量,从中确定第三数量,使得这些语音样本中绝大多数的大于第二预设门限的低频端子带SNR的数量大于该第三数量。对于第四数量,在大量的含有噪声的语音样本中,统计子带SNR大于第三预设门限的子带数量,从中确定第四数量,使得这些语音样本中绝大多数的大于第三预设门限的子带SNR的数量大于该第四数量。
进一步,处理器701,具体用于确定该音频信号中各个子带的子带SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的权重大于其他子带的子带SNR的权重,根据该音频信号中的各个子带的子带SNR的权重和各个子带的SNR,确定该增强SSNR。
可选的,作为一个实施例,处理器701,具体用于确定该音频信号的基准SSNR,根据该音频信号的基准SSNR,确定增强SSNR。
该基准SSNR可以是采用公式1.1计算出来的SSNR。基准SSNR在计算时,计入SSNR的各个子带的子带SNR在SSNR中的权重相同。
可选的,作为另一个实施例,处理器701,具体用于使用以下公式确定该增强SSNR:
SSNR'=x*SSNR+y,………………………………………………公式1.7
其中,SSNR表示该基准SSNR,SSNR'表示该增强SSNR,x和y表示增强参数。例如,x的取值可以为1.07,y的取值可以为1。本领域技术人员可以理解,x和y的取值还可以是其他合适的值,使得增强SSNR恰当的大于基准SSNR。
可选的,作为另一个实施例,处理器701,具体用于使用以下公式确定该增强SSNR:
SSNR'=f(x)*SSNR+h(y),………………………………………公式1.8
其中,SSNR表示该基准SSNR,SSNR'表示该增强SSNR,f(x)、h(y)表示增强函数。例如,f(x)和h(y)可以是与该音频信号的长时信噪比(Long-term SNR,LSNR)相关的函数,音频信号的长时信噪比为一段较长时间内的平均SNR或加权SNR。例如,当lsnr大于20时,f(lsnr)可以等于1.1,y(lsnr)可以等于2。当lsnr小于20且大于17时,f(lsnr)可以等于1.07,y(lsnr)可以等于1。当lsnr小于17时,f(lsnr)可以等于1,y(lsnr)可以等于0。本领域技术人员可以理解,f(x)和h(y)还可以是其他合适的形式,使得增强SSNR恰当的大于基准SSNR。
处理器701,具体用于将该增强SSNR与语音活动检测VAD判决门限比较,根据比较结构确定该音频信号是否为活动信号。具体来说,如果该增强SSNR大于该VAD判决门限,则确定该音频信号为活动信号。如果该增强SSNR小于该VAD判决门限,则确定该音频信号为非活动信号。
可选的,作为另一个实施例,还可以使用预置算法减小基准VAD判决门限后获得的减小后的VAD判决门限,使用减小后的VAD判决门限确定该音频信号是否为活动信号。在此情况下,处理器701还可以用于使用预置算法减小该VAD判决门限,获得减小后的VAD判决门限。在此情况下,处理器701具体用于将该增强SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
图8是根据本发明实施例提供的另一装置的结构框图。图8所示的装置能够执行图3的各个步骤。如图8所示,装置800包括处理器801和存储器802。其中,处理器801可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read-Only Memory,ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802,处理器801读取存储器802中的指令,结合其硬件完成上述方法的步骤。
处理器801,用于确定输入的音频信号为待判断音频信号。
处理器801,用于确定该音频信号中各个子带的子带信噪比SNR的权重,其中该子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重,根据该音频信号中的各个子带的子带SNR的权重和各个子带的子带SNR,确定增强分段信噪比SSNR,其中该增强SSNR大于基准SSNR。
处理器801,用于将该增强SSNR与语音活动检测VAD判决门限比较,确定该音频信号是否为活动信号。
图8所示的装置800可以确定输入的音频信号的特征,根据音频信号的特征,采用相应的方式确定增强SSNR,并采用该增强SSNR与VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
进一步,处理器801,具体用于根据该音频信号的子带信噪比SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,处理器801,具体用于在该音频信号中子带信噪比SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为另一个实施例,处理器801,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
第一数量、第二数量和第三数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音清音样本帧中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音清音样本帧中绝大多数的子带SNR大于第一预设门限的高频端子带的数量大于该第一数量。获取第二数量的方法与获取第一数量的方法类似。第二数量可以与第一数量相同,第二数量也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音清音样本帧中,统计低频端子带的子带SNR小于第二预设门限的子带数量,从中确定第三数量,使得这些语音清音样本帧中绝大多数的子带SNR小于第二预设门限的低频端子带的数量大于该第三数量。
图9是根据本发明实施例提供的另一装置的结构框图。图9所示的装置900可以执行图4的各个步骤。如图9所示,装置900包括:第一确定单元901、第二确定单元902、第三确定单元903和第四确定单元904。
第一确定单元901,用于确定输入的音频信号为待判断音频信号。
第二确定单元902,用于获取该音频信号的基准SSNR。
具体地,该基准SSNR可以是采用公式1.1计算出来的SSNR。
第三确定单元903,用于使用预置算法减小基准VAD判决门限,获得减小后的VAD判决门限。
具体地,基准VAD判决门限可以是默认的VAD判决门限,该基准VAD判决门限可以是预先存储的,也可以是临时计算获得,其中基准VAD判决门限的计算可以采用现有公知技术。在使用预置算法减小基准VAD判决门限时,该预置算法可以是将基准VAD判决门限乘于一个小于1的系数,也可以采用其他算法,本发明实施例并不限定所采用的具体算法。该预置算法可以适当减小VAD判决门限,使得增强SSNR大于该减小后的VAD判决门限,从而可以使得活动信号被漏减的比例降低。
第四确定单元904,用于将该基准SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
可选的,作为一个实施例,第一确定单元901,具体用于根据该音频信号的SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在第一确定单元901根据该音频信号的SNR确定该音频信号为待判断音频信号的情况下,第一确定单元901,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在第一确定单元901根据该音频信号的SNR确定该音频信号为待判断音频信号的情况下,第一确定单元901,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在第一确定单元901根据该音频信号的SNR确定该音频信号为待判断音频信号的情况下,第一确定单元901,具体用于在该音频信号中中子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,第一确定单元901,具体用于在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。具体地,本领域技术人员可以理解,可以有多种用于检测音频信号是否为清音信号的方法。例如,可以通过检测该音频信号的时域过零率(Zero-Crossing Rate,ZCR)来确定该音频信号是否为清音信号。具体地,在该音频信号的ZCR大于ZCR阈值的情况下,确定该音频信号为清音信号,其中该ZCR阈值是通过大量实验确定的。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
该第三预设门限也是根据统计得到的。具体来说,从大量的噪声信号的子带SNR中确定第三预设门限,使得这些噪声信号中的绝大多数子带的子带SNR都小于该值。
第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音样本中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音样本中绝大多数的大于第一预设门限的高频端子带SNR的数量大于该第一数量。确定第二数量的方法与确定第一数量的方法类似。第二数量可以与第一数量相同,也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音样本中,统计低频端子带的子带SNR大于第二预设门限的子带数量,从中确定第三数量,使得这些语音样本中绝大多数的大于第二预设门限的低频端子带SNR的数量大于该第三数量。对于第四数量,在大量的含有噪声的语音样本中,统计子带SNR大于第三预设门限的子带数量,从中确定第四数量,使得这些语音样本中绝大多数的大于第三预设门限的子带SNR的数量大于该第四数量。
图9所示的装置900可以确定输入的音频信号的特征,根据音频信号的特征,减小基准VAD判决门限,并采用SSNR与减小后的VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
图10是根据本发明实施例提供的另一装置的结构框图。图10所示的装置1000可以执行图4的各个步骤。如图10所示,装置1000包括:处理器1001和存储器1002。其中,处理器1001可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read-Only Memory,ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1002,处理器1001读取存储器1002中的指令,结合其硬件完成上述方法的步骤。
处理器1001,用于确定输入的音频信号为待判断音频信号。
处理器1001,用于获取该音频信号的基准SSNR。
具体地,该基准SSNR可以是采用公式1.1计算出来的SSNR。
处理器1001,用于使用预置算法减小基准VAD判决门限,获得减小后的VAD判决门限。
具体地,基准VAD判决门限可以是默认的VAD判决门限,该基准VAD判决门限可以是预先存储的,也可以是临时计算获得,其中基准VAD判决门限的计算可以采用现有公知技术。在使用预置算法减小基准VAD判决门限时,该预置算法可以是将基准VAD判决门限乘于一个小于1的系数,也可以采用其他算法,本发明实施例并不限定所采用的具体算法。该预置算法可以适当减小VAD判决门限,使得增强SSNR大于该减小后的VAD判决门限,从而可以使得活动信号被漏减的比例降低。
处理器1001,用于将该基准SSNR与该减小后的VAD判决门限进行比较,确定该音频信号是否为活动信号。
可选的,作为一个实施例,处理器1001,具体用于根据该音频信号的SNR,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在处理器1001根据该音频信号的SNR确定该音频信号为待判断音频信号的情况下,处理器1001,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在处理器1001根据该音频信号的SNR确定该音频信号为待判断音频信号的情况下,处理器1001,具体用于在该音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第二数量且该音频信号中子带SNR小于第二预设门限的低频端子带的数量大于第三数量情况下,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,在处理器1001根据该音频信号的SNR确定该音频信号为待判断音频信号的情况下,处理器1001,具体用于在该音频信号中中子带SNR的值大于第三预设门限的子带的数量大于第四数量的情况下,确定该音频信号为待判断音频信号。
可选的,作为一个实施例,处理器1001,具体用于在确定该音频信号为清音信号的情况下,确定该音频信号为待判断音频信号。具体地,本领域技术人员可以理解,可以有多种用于检测音频信号是否为清音信号的方法。例如,可以通过检测该音频信号的时域过零率(Zero-Crossing Rate,ZCR)来确定该音频信号是否为清音信号。具体地,在该音频信号的ZCR大于ZCR阈值的情况下,确定该音频信号为清音信号,其中该ZCR阈值是通过大量实验确定的。
该第一预设门限和该第二预设门限可以是根据大量的语音样本统计得到的。具体来说,在大量含有背景噪声的语音清音样本中,统计高频端子带的子带SNR,从中确定第一预设门限,使得这些清音样本中绝大多数的高频端子带的子带SNR均大于该门限。类似的,在这些语音清音样本中统计低频端子带的子带SNR,从中确定第二预设门限,使得这些语音清音样本中的绝大多数低频端子带的子带SNR均小于该门限。
该第三预设门限也是根据统计得到的。具体来说,从大量的噪声信号的子带SNR中确定第三预设门限,使得这些噪声信号中的绝大多数子带的子带SNR都小于该值。
第一数量、第二数量、第三数量和第四数量也是根据统计得到的。以第一数量为例,在大量的含有噪声的语音样本中,统计高频端子带的子带SNR大于第一预设门限的子带数量,从中确定第一数量,使得这些语音样本中绝大多数的大于第一预设门限的高频端子带SNR的数量大于该第一数量。确定第二数量的方法与确定第一数量的方法类似。第二数量可以与第一数量相同,也可以与第一数量不同。类似的,对于第三数量,在大量的含有噪声的语音样本中,统计低频端子带的子带SNR大于第二预设门限的子带数量,从中确定第三数量,使得这些语音样本中绝大多数的大于第二预设门限的低频端子带SNR的数量大于该第三数量。对于第四数量,在大量的含有噪声的语音样本中,统计子带SNR大于第三预设门限的子带数量,从中确定第四数量,使得这些语音样本中绝大多数的大于第三预设门限的子带SNR的数量大于该第四数量。
图10所示的装置1000可以确定输入的音频信号的特征,根据音频信号的特征,减小基准VAD判决门限,并采用SSNR与减小后的VAD判决门限进行比较,这样可以使得活动信号被漏检比例降低。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种检测音频信号的方法,其特征在于,包括:
确定输入的音频信号为待判断音频信号,所述待判断音频信号为清音信号;
确定所述音频信号中各个子带的子带信噪比SNR的权重;
根据所述音频信号中各个子带的子带信噪比SNR的权重和各个子带的子带SNR,确定增强SSNR,其中,所述音频信号中子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重,所述增强SSNR大于基准SSNR;
将所述增强SSNR与语音活动检测VAD判决门限进行比较以确定所述音频信号是否为活动信号。
2.如权利要求1所述的方法,其特征在于,所述确定输入的音频信号为待判断音频信号包括:
根据所述音频信号的子带SNR确定所述音频信号为所述待判断音频信号。
3.如权利要求2所述的方法,其特征在于,所述根据所述音频信号的子带SNR确定所述音频信号为所述待判断音频信号包括:
在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定所述音频信号为所述待判断音频信号。
4.如权利要求1-3任一所述的方法,其特征在于,所述音频信号被划分成20个子带,所述20个子带由子带0至子带19组成,其中,子带18和所述子带19为所述高频端子带。
5.一种检测音频信号的装置,其特征在于,包括:
第一确定单元,用于确定输入的音频信号为待判断音频信号,所述待判断音频信号为清音信号;
第二确定单元,用于确定所述音频信号中各个子带的子带信噪比SNR的权重,根据所述音频信号中各个子带的子带信噪比SNR的权重和各个子带的子带SNR,确定增强SSNR,其中,所述音频信号中子带SNR大于第一预设门限的高频端子带的子带SNR的权重大于其他子带的子带SNR的权重,所述增强SSNR大于基准SSNR;
第三确定单元,用于将所述增强SSNR与语音活动检测VAD判决门限进行比较以确定所述音频信号是否为活动信号。
6.如权利要求5所述的装置,其特征在于,所述第一确定单元,具体用于根据所述音频信号的子带SNR确定所述音频信号为所述待判断音频信号。
7.如权利要求6所述的装置,其特征在于,所述第一确定单元,具体用于在所述音频信号中子带SNR大于第一预设门限的高频端子带的数量大于第一数量的情况下,确定所述音频信号为所述待判断音频信号。
8.如权利要求5-7任一所述的装置,其特征在于,所述音频信号被划分成20个子带,所述20个子带由子带0至子带19组成,其中,子带18和所述子带19为所述高频端子带。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710312455.0A CN107293287B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710312455.0A CN107293287B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
CN201410090386.XA CN104916292B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410090386.XA Division CN104916292B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107293287A CN107293287A (zh) | 2017-10-24 |
CN107293287B true CN107293287B (zh) | 2021-10-26 |
Family
ID=54070889
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710312455.0A Active CN107293287B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
CN201410090386.XA Active CN104916292B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
CN201710313043.9A Active CN107086043B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410090386.XA Active CN104916292B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
CN201710313043.9A Active CN107086043B (zh) | 2014-03-12 | 2014-03-12 | 检测音频信号的方法和装置 |
Country Status (14)
Country | Link |
---|---|
US (3) | US10304478B2 (zh) |
EP (2) | EP3118852B1 (zh) |
JP (2) | JP6493889B2 (zh) |
KR (2) | KR101884220B1 (zh) |
CN (3) | CN107293287B (zh) |
AU (1) | AU2014386442B9 (zh) |
CA (1) | CA2940487C (zh) |
ES (2) | ES2926360T3 (zh) |
MX (1) | MX355828B (zh) |
MY (1) | MY193521A (zh) |
PT (2) | PT3118852T (zh) |
RU (1) | RU2666337C2 (zh) |
SG (1) | SG11201607052SA (zh) |
WO (1) | WO2015135344A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293287B (zh) * | 2014-03-12 | 2021-10-26 | 华为技术有限公司 | 检测音频信号的方法和装置 |
US10231070B2 (en) * | 2016-04-29 | 2019-03-12 | Huawei Technologies Co., Ltd. | Voice input exception determining method, apparatus, terminal, and storage medium |
CN107040359B (zh) * | 2017-05-08 | 2021-01-19 | 海能达通信股份有限公司 | 一种语音呼叫过程中携带随路信令的方法、装置及设备 |
CN107393559B (zh) * | 2017-07-14 | 2021-05-18 | 深圳永顺智信息科技有限公司 | 检校语音检测结果的方法及装置 |
CN107393553B (zh) * | 2017-07-14 | 2020-12-22 | 深圳永顺智信息科技有限公司 | 用于语音活动检测的听觉特征提取方法 |
CN107393558B (zh) * | 2017-07-14 | 2020-09-11 | 深圳永顺智信息科技有限公司 | 语音活动检测方法及装置 |
CN107393550B (zh) * | 2017-07-14 | 2021-03-19 | 深圳永顺智信息科技有限公司 | 语音处理方法及装置 |
US11783809B2 (en) * | 2020-10-08 | 2023-10-10 | Qualcomm Incorporated | User voice activity detection using dynamic classifier |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001236085A (ja) * | 2000-02-25 | 2001-08-31 | Matsushita Electric Ind Co Ltd | 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置 |
CN101320559A (zh) * | 2007-06-07 | 2008-12-10 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
CN102804261A (zh) * | 2009-10-19 | 2012-11-28 | 瑞典爱立信有限公司 | 用于语音编码器的方法和语音活动检测器 |
CN102959625A (zh) * | 2010-12-24 | 2013-03-06 | 华为技术有限公司 | 自适应地检测输入音频信号中的话音活动的方法和设备 |
CN103260110A (zh) * | 2012-02-16 | 2013-08-21 | Jvc建伍株式会社 | 噪声降低装置、声音输入装置、无线通信装置及噪声降低方法 |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59182498A (ja) * | 1983-04-01 | 1984-10-17 | 日本電気株式会社 | 音声検出回路 |
JPS63259596A (ja) | 1987-04-16 | 1988-10-26 | 株式会社日立製作所 | 音声区間検出方式 |
PL174216B1 (pl) * | 1993-11-30 | 1998-06-30 | At And T Corp | Sposób redukcji w czasie rzeczywistym szumu transmisji mowy |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US5991718A (en) * | 1998-02-27 | 1999-11-23 | At&T Corp. | System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments |
US6466906B2 (en) * | 1999-01-06 | 2002-10-15 | Dspc Technologies Ltd. | Noise padding and normalization in dynamic time warping |
US6453291B1 (en) * | 1999-02-04 | 2002-09-17 | Motorola, Inc. | Apparatus and method for voice activity detection in a communication system |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
JP3588030B2 (ja) * | 2000-03-16 | 2004-11-10 | 三菱電機株式会社 | 音声区間判定装置及び音声区間判定方法 |
US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
CN1175398C (zh) * | 2000-11-18 | 2004-11-10 | 中兴通讯股份有限公司 | 一种从噪声环境中识别出语音和音乐的声音活动检测方法 |
EP1376539B8 (en) * | 2001-03-28 | 2010-12-15 | Mitsubishi Denki Kabushiki Kaisha | Noise suppressor |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203643B2 (en) | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US6937980B2 (en) * | 2001-10-02 | 2005-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech recognition using microphone antenna array |
JP4281349B2 (ja) | 2001-12-25 | 2009-06-17 | パナソニック株式会社 | 電話装置 |
US7024353B2 (en) * | 2002-08-09 | 2006-04-04 | Motorola, Inc. | Distributed speech recognition with back-end voice activity detection apparatus and method |
US7146315B2 (en) * | 2002-08-30 | 2006-12-05 | Siemens Corporate Research, Inc. | Multichannel voice detection in adverse environments |
US7162420B2 (en) * | 2002-12-10 | 2007-01-09 | Liberato Technologies, Llc | System and method for noise reduction having first and second adaptive filters |
JP4490090B2 (ja) * | 2003-12-25 | 2010-06-23 | 株式会社エヌ・ティ・ティ・ドコモ | 有音無音判定装置および有音無音判定方法 |
CA2454296A1 (en) | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
US8340309B2 (en) * | 2004-08-06 | 2012-12-25 | Aliphcom, Inc. | Noise suppressing multi-microphone headset |
CN100369113C (zh) * | 2004-12-31 | 2008-02-13 | 中国科学院自动化研究所 | 利用增益自适应提高语音识别率的方法 |
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
US8204754B2 (en) * | 2006-02-10 | 2012-06-19 | Telefonaktiebolaget L M Ericsson (Publ) | System and method for an improved voice detector |
US8032370B2 (en) * | 2006-05-09 | 2011-10-04 | Nokia Corporation | Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes |
US8311814B2 (en) | 2006-09-19 | 2012-11-13 | Avaya Inc. | Efficient voice activity detector to detect fixed power signals |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
US8326620B2 (en) * | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
US7769585B2 (en) * | 2007-04-05 | 2010-08-03 | Avidyne Corporation | System and method of voice activity detection in noisy environments |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
KR101335417B1 (ko) | 2008-03-31 | 2013-12-05 | (주)트란소노 | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
WO2010091339A1 (en) | 2009-02-06 | 2010-08-12 | University Of Ottawa | Method and system for noise reduction for speech enhancement in hearing aid |
JP5337530B2 (ja) * | 2009-02-25 | 2013-11-06 | 京セラ株式会社 | 無線基地局および無線通信方法 |
KR20110001130A (ko) * | 2009-06-29 | 2011-01-06 | 삼성전자주식회사 | 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법 |
CN102044243B (zh) * | 2009-10-15 | 2012-08-29 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
CN102044242B (zh) * | 2009-10-15 | 2012-01-25 | 华为技术有限公司 | 语音激活检测方法、装置和电子设备 |
EP2491549A4 (en) | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY |
US8898058B2 (en) * | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
CN102971789B (zh) * | 2010-12-24 | 2015-04-15 | 华为技术有限公司 | 用于执行话音活动检测的方法和设备 |
EP2494545A4 (en) * | 2010-12-24 | 2012-11-21 | Huawei Tech Co Ltd | METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES |
US9099098B2 (en) * | 2012-01-20 | 2015-08-04 | Qualcomm Incorporated | Voice activity detection in presence of background noise |
US20140316775A1 (en) | 2012-02-10 | 2014-10-23 | Mitsubishi Electric Corporation | Noise suppression device |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
US20130282372A1 (en) | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US9524735B2 (en) * | 2014-01-31 | 2016-12-20 | Apple Inc. | Threshold adaptation in two-channel noise estimation and voice activity detection |
CN107293287B (zh) * | 2014-03-12 | 2021-10-26 | 华为技术有限公司 | 检测音频信号的方法和装置 |
US9775113B2 (en) * | 2014-12-11 | 2017-09-26 | Mediatek Inc. | Voice wakeup detecting device with digital microphone and associated method |
-
2014
- 2014-03-12 CN CN201710312455.0A patent/CN107293287B/zh active Active
- 2014-03-12 CN CN201410090386.XA patent/CN104916292B/zh active Active
- 2014-03-12 CN CN201710313043.9A patent/CN107086043B/zh active Active
- 2014-12-01 MY MYPI2016703030A patent/MY193521A/en unknown
- 2014-12-01 PT PT148857865T patent/PT3118852T/pt unknown
- 2014-12-01 CA CA2940487A patent/CA2940487C/en active Active
- 2014-12-01 RU RU2016139717A patent/RU2666337C2/ru active
- 2014-12-01 SG SG11201607052SA patent/SG11201607052SA/en unknown
- 2014-12-01 ES ES19197660T patent/ES2926360T3/es active Active
- 2014-12-01 AU AU2014386442A patent/AU2014386442B9/en active Active
- 2014-12-01 WO PCT/CN2014/092694 patent/WO2015135344A1/zh active Application Filing
- 2014-12-01 MX MX2016011750A patent/MX355828B/es active IP Right Grant
- 2014-12-01 EP EP14885786.5A patent/EP3118852B1/en active Active
- 2014-12-01 KR KR1020167025280A patent/KR101884220B1/ko active IP Right Grant
- 2014-12-01 JP JP2016556770A patent/JP6493889B2/ja active Active
- 2014-12-01 EP EP19197660.4A patent/EP3660845B1/en active Active
- 2014-12-01 ES ES14885786T patent/ES2787894T3/es active Active
- 2014-12-01 PT PT191976604T patent/PT3660845T/pt unknown
- 2014-12-01 KR KR1020187021506A patent/KR102005009B1/ko active IP Right Grant
-
2016
- 2016-09-12 US US15/262,263 patent/US10304478B2/en active Active
-
2018
- 2018-11-30 JP JP2018225323A patent/JP6793706B2/ja active Active
-
2019
- 2019-04-23 US US16/391,893 patent/US10818313B2/en active Active
-
2020
- 2020-06-15 US US16/901,846 patent/US11417353B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001236085A (ja) * | 2000-02-25 | 2001-08-31 | Matsushita Electric Ind Co Ltd | 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置 |
CN101320559A (zh) * | 2007-06-07 | 2008-12-10 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
CN102804261A (zh) * | 2009-10-19 | 2012-11-28 | 瑞典爱立信有限公司 | 用于语音编码器的方法和语音活动检测器 |
CN102959625A (zh) * | 2010-12-24 | 2013-03-06 | 华为技术有限公司 | 自适应地检测输入音频信号中的话音活动的方法和设备 |
CN103260110A (zh) * | 2012-02-16 | 2013-08-21 | Jvc建伍株式会社 | 噪声降低装置、声音输入装置、无线通信装置及噪声降低方法 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107293287B (zh) | 检测音频信号的方法和装置 | |
US20210074312A1 (en) | Method and Apparatus for Detecting a Voice Activity in an Input Audio Signal | |
US10339961B2 (en) | Voice activity detection method and apparatus | |
US8891786B1 (en) | Selective notch filtering for howling suppression | |
EP3316256A1 (en) | Voice activity modification frame acquiring method, and voice activity detection method and apparatus | |
CN105489226A (zh) | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 | |
CN103905656A (zh) | 残留回声的检测方法及装置 | |
KR20160116440A (ko) | 음성인식 시스템의 신호대잡음비 추정 장치 및 방법 | |
CN113905310B (zh) | 一种蓝牙音频的啸叫检测和抑制方法、装置及介质 | |
WO2023172609A1 (en) | Method and audio processing system for wind noise suppression | |
JP2015119404A (ja) | マルチパス判定装置 | |
Jang et al. | A uniformly most powerful test for statistical model-based voice activity detection. | |
Han et al. | Voice Detection using Speech Energy Maximization and Silence Feature Normalization | |
RU2010132161A (ru) | Устройство и способ расчета коэффициентов фильтра эхоподавления |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |