CN115424626A - 一种语音活性检测的方法及设备 - Google Patents
一种语音活性检测的方法及设备 Download PDFInfo
- Publication number
- CN115424626A CN115424626A CN202210940185.9A CN202210940185A CN115424626A CN 115424626 A CN115424626 A CN 115424626A CN 202210940185 A CN202210940185 A CN 202210940185A CN 115424626 A CN115424626 A CN 115424626A
- Authority
- CN
- China
- Prior art keywords
- audio frame
- frequency domain
- domain audio
- nth
- nth frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 230000000694 effects Effects 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000001228 spectrum Methods 0.000 claims description 94
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 6
- 238000009432 framing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种语音活性检测的方法及设备,用于结合历史音频帧信息确定当前音频帧的差熵信息,根据当前音频帧的差熵信息判断语音活性,提高语音活性检测的精度。该方法包括:获取待检测音频数据,将所述待检测音频数据划分成N个音频帧;根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
Description
技术领域
本发明涉及音频处理技术领域,特别涉及一种语音活性检测的方法及设备。
背景技术
语音活性检测(Voice Activity Detection,VAD)是一项用于语音处理的技术,主要的功能是检测在当前信号中是否存在着语音。VAD技术在语音处理系统中得到了广泛的应用,比如在语音增强系统中估计噪声、语音识别应用中进行语音端点检测等。
现有的VAD技术通常基于简单的时域或者频域特征进行语音检测,比如基于短时能量和过零率的双门限端点检测,通过将计算得到的特征与预设的阈值进行比较来判定当前信号是否存在语音,该类技术在低信噪比情形下,判决精度就会极度下降;也有利用信号处理方法(如高斯混合模型)去检测噪声和语音,但是该类技术在低信噪比条件下也存在着精度急剧下降的现象。
发明内容
本发明提供一种语音活性检测的方法及设备,用于结合历史音频帧信息确定当前音频帧的差熵信息,根据当前音频帧的差熵信息判断语音活性,提高语音活性检测的精度。
第一方面,本发明实施例提供的一种语音活性检测的方法,该方法包括:
获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
本发明实施例提供的一种语音活性检测的方法,能够结合历史帧和当前帧的信息确定差熵信息,利用差熵信息对音频帧的活性进行检测,由于结合了历史帧信息,因此能够在一定程度提高VAD检测的准确性和鲁棒性,并利用差熵信息检测,由于差熵信息表征了音频帧的能量信息,相对于传统基于时域或频域特征进行VAD检测的技术而言,准确性更高。
作为一种可选的实施方式,所述根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,包括:
分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息,包括:
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;
根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述参考频域音频帧包括M个,1≤M≤(n-1);所述根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息,包括:
根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,还包括:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;
所述根据所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音,包括:
根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述确定所述第n个频域音频帧中存在语音的概率,包括:
根据噪声估计算法,计算所述第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;
根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
作为一种可选的实施方式,所述根据所述第n个频域音频帧是语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音,包括:
根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音,包括:
确定参考频域音频帧的加权差熵信息;
根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音,包括:
若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
作为一种可选的实施方式,所述参考音频帧包括多个,所述多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。
第二方面,本发明实施例提供的一种语音活性检测的设备,包括处理器和存储器,所述存储器用于存储所述处理器可执行的程序,所述处理器用于读取所述存储器中的程序并执行如下步骤:
获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
作为一种可选的实施方式,所述处理器具体被配置为执行:
分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述处理器具体被配置为执行:
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;
根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述参考频域音频帧包括M个,1≤M≤(n-1);所述处理器具体被配置为执行:
根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述处理器具体还被配置为执行:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;
所述处理器具体被配置为执行:
根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述处理器具体被配置为执行:
根据噪声估计算法,计算所述第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;
根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
作为一种可选的实施方式,所述处理器具体被配置为执行:
根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述处理器具体被配置为执行:
确定参考频域音频帧的加权差熵信息;
根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述处理器具体被配置为执行:
若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
作为一种可选的实施方式,所述参考音频帧包括多个,所述多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。
第三方面,本发明实施例还提供的一种语音活性检测的装置,该装置包括:
获取数据单元,用于获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
确定差熵单元,用于根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
检测语音单元,用于根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
作为一种可选的实施方式,所述确定差熵单元具体用于:
分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述确定差熵单元具体用于:
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;
根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述参考频域音频帧包括M个,1≤M≤(n-1);所述确定差熵单元具体用于:
根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述确定差熵单元具体还用于:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;
所述检测语音单元具体用于:
根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述检测语音单元具体用于:
根据噪声估计算法,计算所述第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;
根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
作为一种可选的实施方式,所述检测语音单元具体用于:
根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述检测语音单元具体用于:
确定参考频域音频帧的加权差熵信息;
根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述检测语音单元具体用于:
若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
作为一种可选的实施方式,所述参考音频帧包括多个,所述多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。
第四方面,本发明实施例还提供计算机存储介质,其上存储有计算机程序,该程序被处理器执行时用于实现上述第一方面所述方法的步骤。
本申请的这些方面或其他方面在以下的实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语音活性检测的方法的实施流程图;
图2为本发明实施例提供的一种详细的语音活性检测的方法实施流程图;
图3为本发明实施例提供的一种语音活性检测的设备示意图;
图4为本发明实施例提供的一种语音活性检测的装置示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
示例的,语音活性检测(Voice Activity Detection,VAD)是一项用于语音处理的技术,主要的功能是检测在当前信号中是否存在着语音。VAD技术在语音处理系统中得到了广泛的应用,比如在语音增强系统中估计噪声、语音识别应用中进行语音端点检测等。现有的VAD技术通常基于简单的时域或者频域特征进行语音检测,比如基于短时能量和过零率的双门限端点检测,通过将计算得到的特征与预设的阈值进行比较来判定当前信号是否存在语音,该类技术在低信噪比情形下,判决精度就会极度下降;也有利用信号处理方法(如高斯混合模型)去检测噪声和语音,但是该类技术在低信噪比条件下也存在着精度急剧下降的现象。
为了解决上述问题,本发明实施例提供一种语音活性检测的方法,该方法设计的核心思想是结合历史帧和当前帧的信息确定差熵信息,利用差熵信息对音频帧的活性进行检测,由于结合了历史帧信息,因此能够在一定程度提高VAD检测的准确性和鲁棒性,并利用差熵信息检测,由于差熵信息表征了音频帧的能量信息,相对于传统基于时域或频域特征进行VAD检测的技术而言,准确性更高。
如图1所示,本发明实施例提供的一种语音活性检测的方法的实施流程如下所示:
步骤100、获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
作为一种可选的实施方式,将所述待检测的音频数据通过如下方式划分成N个音频帧:
通过分帧加窗处理,将所述待检测音频数据划分成N个音频帧。
其中,对音频数据分帧的目的是把若干个音频采样点分为一帧,在这一帧内,音频数据的特性可视为是稳定的。其中,一帧的长度应该小于一个音素的长度,正常语速下一个音素持续时间大约为50ms,一般分帧的长度取10~40ms左右,为了使得分帧之间有一个平滑的过度,一般分帧与分帧之间有一定的重叠,相邻两分帧的起始位置的时间差叫做帧移。谱泄露一般是由信号(如音频数据)被非周期截断产生的,为了避免谱泄露,引入窗函数,不同的窗函数对频谱泄露的缓解程度不同,其总泄漏是通过等效噪声带宽来衡量的;可选的,本实例中所使用的窗函数为汉宁窗且帧移为窗长的一半。通过对音频数据进行分帧加窗处理,来保证信号的短时平稳特性,并防止频谱能量泄露。
在一些实施例中,由于获取的待检测音频数据为时域信号,因此为了便于对音频数据进行处理,将划分得到的N个音频帧进行短时傅里叶变换,得到N个频域音频帧。完成音频数据从时域到频域的转换。
实施中,假设待检测音频数据y(n)通过如下公式表示:
y(n)=x(n)+d(n) 公式(1);
其中,d(n)表示待检测音频数据中包含的噪声,x(n)表示待检测音频数据中除噪声以外的音频数据;
由于音频数据的短时平稳性,因此需要将其进行分帧加窗,然后利用短时傅里叶变换方法将时域音频数据变换到频域,公式如下所示:
Y(n,k)=X(n,k)+D(n,k) 公式(2);
其中,n表示分帧后得到的音频帧的帧索引,k表示音频数据的频点索引,Y(n,k)表示待检测音频数据转换到频域的频域音频数据,x(n,k)表示待检测音频数据中除噪声以外的音频数据转换到频域的频域音频数据,D(n,k)表示待检测音频数据中包含的噪声转换到频域的频域噪声,其中Y,X,D均为复数。
步骤101、根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
在一些实施例中,所述参考音频帧包括一个或多个,多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。其中,可以从第n个音频帧之前的音频帧中按顺序选取连续的多个音频帧,也可以按设定间隔,从第n个音频帧之前的音频帧中顺序选取多个音频帧,也可以从第n个音频帧之前的音频帧中随机选取多个音频帧,作为参考音频帧。本实施例对如何选取音频帧不作过多限定。实施中,可以选取在第n个音频帧之前的M个音频帧,其中1≤M≤(n-1),M为常数。
在一些实施例中,通过如下步骤确定所述第n个音频帧的差熵信息:
第1步、分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
实施中,也可以先将所述N个音频帧都进行短时傅里叶变换,得到N个频域音频帧;进而确定出第n个频域音频帧和参考频域音频帧。其中,参考频域音频帧包括多个,如M个。
实施中,第n个频域音频帧通过Y(n,k)如下公式表示:
Y(n,k)=X(n,k)+D(n,k) 公式(3);
其中,n表示第n个频域音频帧的帧索引,k表示第n个频域音频帧的频点索引,Y(n,k)表示第n个频域音频帧,x(n,k)表示第n个频域音频帧中除噪声以外的频域音频数据,D(n,k)表示第n个频域音频帧包含的噪声对应的频域噪声,其中Y,X,D均为复数。
第2步、根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
实施中,可以根据第n个频域音频帧以及M个参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息,其中1≤M≤(n-1)。
在一些实施例中,通过如下步骤根据幅度信息确定所述第n个频域音频帧的差熵信息:
第2a步、根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;其中,参考频域音频帧包括M个。
实施中,可以选取第n个频域音频帧之前的M个频域音频帧作为M个参考频域音频帧,通过如下公式确定第n个频域音频帧的功率谱:
第2b步、根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
在一些实施例中,通过如下步骤根据第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息:
第2b1步、根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
实施中,根据所述第n个频域音频帧的功率谱,以及所述第n个频域音频帧之前的M个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;R为常数。
可选的,按照N个频域音频帧的顺序,依次选取第n个频域音频帧之前的R个参考频域音频帧的功率谱,实施中,通过如下公式确定第n个频域音频帧的功率谱均值:
第2b2步、根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
实施中,通过如下公式确定第n个频域音频帧的功率谱方差:
其中,δ2(n,k)表示第n个频域音频帧的功率谱方差,表示第n个频域音频帧的功率谱均值,S(r,k)表示第r个参考频域音频帧的功率谱;其中,第r个频域音频帧是指第n个频域音频帧之前的R个参考频域音频帧中的第r帧。
第2b3步、根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
实施中,通过如下公式确定第n个频域音频帧的差熵信息:
其中,h(n,k)表示第n个频域音频帧的差熵信息,R表示用到的第n个频域音频帧之前的参考音频帧的数量,δ2(n,k)表示第n个频域音频帧的功率谱方差,e表示自然指数。
步骤102、根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
在一些实施例中,本发明实施例还可以利用语音存在的概率,结合差熵信息,确定第n个音频帧是否是语音,实施中,具体步骤如下所示:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;实施中,可以获取待检测音频数据,将所述待检测音频数据划分成N个频域音频帧,将所述N个音频帧进行短时傅里叶变换,得到N个频域音频帧;从而确定第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
在一些实施例中,通过如下步骤确定所述第n个频域音频帧中存在语音的概率:
根据噪声估计算法,计算第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
实施中,先对N个频域音频帧进行短时傅里叶变换,得到N个频域音频帧,从而确定第n个频域音频帧,然后根据噪声估计算法,计算第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
实施中,在对N个频域音频帧进行短时傅里叶变换时,假设傅里叶变换系数满足预设分布,如满足高斯分布,则可以根据贝叶斯理论,通过如下公式确定第n个频域音频帧中存在语音的概率,也即第n个频域音频帧中存在语音的概率:
λx=E{|X|2},λd=E{|D|2} 公式(11);
其中,p(H1|Y)表示第n个频域音频帧中存在语音的概率,E{·}表示求期望运算,exp{·}表示求指数运算,且底数为e。
将公式(9)和公式(10)代入到公式(8)中,可得到第n个频域音频帧中存在语音的概率为:
其中,q=P(H0),表示语音不存在的概率,在计算第1个频域音频帧时可以赋为预设值如q=0.1,再计算后续的频域音频帧时q的值是在不断更新的,ξ和γ分别表示先验信噪比和后验信噪比。ξ和γ可以利用噪声估计算法对第n个频域音频帧进行噪声估计后得到。其中噪声估计算法包括但不限于最小值控制的递归平均算法(Minima ControlledRecursive Averaging,MCRA)等。
在一些实施例中,本实施例根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音,具体步骤如下:
(1)根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
其中加权差熵信息可以表示为如下公式:
其中,L(n)表示第n个频域音频帧的加权差熵信息,P(H1|Y)表示第n个频域音频帧中存在语音的概率,h(n,k)表示第n个频域音频帧的差熵信息。
(2)根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
需要说明的是,本实施例中的音频帧表示时域信号,频域音频帧表示频域信号,只是信号所在域不同,例如第n个音频帧的加权差熵信息等同于第n个频域音频帧的加权差熵信息。
在一些实施例中,本发明实施例可以设定判决门限值,将第n个音频帧的加权差熵信息和判决门限值进行比较,根据比较结果,确定第n个音频帧是否是语音,例如,当加权差熵信息大于判决门限值,则确定第n个音频帧是噪声,当加权差熵信息小于或等于判决门限值,则确定第n个音频帧是语音。但是由于设定判决门限值的方式很难适用于多个场景,因此,本实施例还提出一种自适应门限策略为将当前音频帧的加权差熵信息与历史帧的加权差熵信息均值进行比较,能够适应更多的应用场景。
在一些实施例中,根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音,具体步骤如下:
步骤2a、确定参考频域音频帧的加权差熵信息;
实施中,可以按上述计算第n个频域音频帧的加权差熵信息,计算N个音频帧对应的N个频域音频帧中的每个频域音频帧的加权差熵信息,从而得到第n个频域音频帧之前的参考频域音频帧的加权差熵信息。
步骤2b、根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
实施中,根据所述第n个频域音频帧之前的多个参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
步骤2b、根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
具体实施中,可以通过上述实施例中计算第n个频域音频帧的加权差熵信息的方式,计算每个频域音频帧的加权差熵信息,然后利用当前音频帧的加权差熵信息和历史音频帧(即参考音频帧)的加权差熵信息的均值进行比对,从而判断是否是语音。
在一些实施例中,根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音,具体判断方式如下:
方式1、若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
方式2、若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
本实施例中的差熵信息在计算时涉及到当前音频帧的历史音频帧信息,因此基于差熵信息的VAD模型的鲁棒性更好,本实施例还可以将语音存在概率和差熵信息进行加权,利用加权差熵信息进行语音活性检测,能够进一步提高VAD的判决精度,本实施例还可以基于加权差熵信息的自适应门限策略,进一步增加VAD模型的应用场景,有效提升语音活性检测的正确率。
如图2所示,本发明实施例提供一种详细的语音活性检测的方法,该方法的具体实施方式如下所示:
步骤200、获取待检测音频数据,通过分帧加窗处理,将所述待检测音频数据划分成N个音频帧;
步骤201、将所述N个音频帧进行短时傅里叶变换,得到N个频域音频帧;
其中,步骤201之后同时执行步骤202和步骤203;
步骤202、确定第n个频域音频帧中存在语音的概率;
其中,步骤202之后,执行步骤207;
步骤203、根据第n个频域音频帧以及第n个频域音频帧之前的M个参考频域音频帧的幅度信息,确定第n个频域音频帧的功率谱;
其中,1≤n≤N,n为整数。
步骤204、根据第n个频域音频帧的功率谱,以及M个参考频域音频帧中的R个参考频域音频帧的功率谱,确定第n个频域音频帧的功率谱均值;
步骤205、根据第n个频域音频帧的功率谱均值,第n个频域音频帧的功率谱,以及R个参考频域音频帧的功率谱,确定第n个频域音频帧的功率谱方差;
步骤206、根据第n个频域音频帧的功率谱方差,确定第n个频域音频帧的差熵信息;
步骤207、根据概率和差熵信息分别对应的权重参数,对概率和差熵信息进行加权求和,得到加权差熵信息;
步骤208、根据R个参考频域音频帧的加权差熵信息,以及第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
步骤209、判断第n个频域音频帧的加权差熵信息是否大于平均加权差熵信息,若是执行步骤210,否则执行步骤211;
步骤210、确定所述第n个频域音频帧为噪声;
步骤211、确定所述第n个频域音频帧为语音。
示例的,基于相同的发明构思,本发明实施例还提供了的一种语音活性检测的设备,由于该设备即是本发明实施例中的方法中的设备,并且该设备解决问题的原理与该方法相似,因此该设备的实施可以参见方法的实施,重复之处不再赘述。
如图3所示,该设备包括处理器300和存储器301,所述存储器301用于存储所述处理器300可执行的程序,所述处理器300用于读取所述存储器301中的程序并执行如下步骤:
获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
作为一种可选的实施方式,所述处理器300具体被配置为执行:
分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述处理器300具体被配置为执行:
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;
根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述参考频域音频帧包括M个,1≤M≤(n-1);所述处理器300具体被配置为执行:
根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述处理器300具体还被配置为执行:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;
所述处理器300具体被配置为执行:
根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述处理器300具体被配置为执行:
根据噪声估计算法,计算所述第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;
根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
作为一种可选的实施方式,所述处理器300具体被配置为执行:
根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述处理器300具体被配置为执行:
确定参考频域音频帧的加权差熵信息;
根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述处理器300具体被配置为执行:
若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
作为一种可选的实施方式,所述参考音频帧包括多个,所述多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。
示例的,基于相同的发明构思,本发明实施例还提供了的一种语音活性检测的装置,由于该装置即是本发明实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图4所示,该装置包括:
获取数据单元400,用于获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
确定差熵单元401,用于根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
检测语音单元402,用于根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
作为一种可选的实施方式,所述确定差熵单元401具体用于:
分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述确定差熵单元401具体用于:
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;
根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述参考频域音频帧包括M个,1≤M≤(n-1);所述确定差熵单元401具体用于:
根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述确定差熵单元401具体还用于:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;
所述检测语音单元402具体用于:
根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述检测语音单元402具体用于:
根据噪声估计算法,计算所述第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;
根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
作为一种可选的实施方式,所述检测语音单元402具体用于:
根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述检测语音单元402具体用于:
确定参考频域音频帧的加权差熵信息;
根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述检测语音单元402具体用于:
若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
作为一种可选的实施方式,所述参考音频帧包括多个,所述多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。
基于相同的发明构思,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如下步骤:
获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (12)
1.一种语音活性检测的方法,其特征在于,该方法包括:
获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
2.根据权利要求1所述的方法,其特征在于,所述根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,包括:
分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息,包括:
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;
根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
4.根据权利要求3所述的方法,其特征在于,所述参考频域音频帧包括M个,1≤M≤(n-1);所述根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息,包括:
根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
5.根据权利要求1~4任一所述的方法,其特征在于,所述根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,还包括:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;
所述根据所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音,包括:
根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
6.根据权利要求5所述的方法,其特征在于,所述确定所述第n个频域音频帧中存在语音的概率,包括:
根据噪声估计算法,计算所述第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;
根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
7.根据权利要求5所述的方法,其特征在于,所述根据所述第n个频域音频帧是语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音,包括:
根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音,包括:
确定参考频域音频帧的加权差熵信息;
根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
9.根据权利要求8所述的方法,其特征在于,所述根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音,包括:
若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
10.根据权利要求1~4任一所述的方法,其特征在于,所述参考音频帧包括多个,所述多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。
11.一种语音活性检测的设备,其特征在于,该设备包括处理器和存储器,所述存储器用于存储所述处理器可执行的程序,所述处理器用于读取所述存储器中的程序并执行权利要求1~10任一所述方法的步骤。
12.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~10任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210940185.9A CN115424626A (zh) | 2022-08-05 | 2022-08-05 | 一种语音活性检测的方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210940185.9A CN115424626A (zh) | 2022-08-05 | 2022-08-05 | 一种语音活性检测的方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115424626A true CN115424626A (zh) | 2022-12-02 |
Family
ID=84196791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210940185.9A Pending CN115424626A (zh) | 2022-08-05 | 2022-08-05 | 一种语音活性检测的方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115424626A (zh) |
-
2022
- 2022-08-05 CN CN202210940185.9A patent/CN115424626A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10891944B2 (en) | Adaptive and compensatory speech recognition methods and devices | |
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN110739002B (zh) | 基于生成对抗网络的复数域语音增强方法、系统及介质 | |
KR101060533B1 (ko) | 신호 변화 검출을 위한 시스템, 방법 및 장치 | |
Kwon et al. | NMF-based speech enhancement using bases update | |
EP3171363B1 (en) | Voice activity detection methods and apparatuses | |
RU2684194C1 (ru) | Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности | |
Pang | Spectrum energy based voice activity detection | |
EP3118852B1 (en) | Method and device for detecting audio signal | |
EP4189677B1 (en) | Noise reduction using machine learning | |
CN110060665A (zh) | 语速检测方法及装置、可读存储介质 | |
CN108682432B (zh) | 语音情感识别装置 | |
TWI467979B (zh) | 用於信號改變偵測之系統、方法及裝置 | |
Lee et al. | Dynamic noise embedding: Noise aware training and adaptation for speech enhancement | |
CN115424626A (zh) | 一种语音活性检测的方法及设备 | |
Brunner et al. | Monaural music source separation using a resnet latent separator network | |
Harvilla et al. | Efficient audio declipping using regularized least squares | |
Gaultier et al. | Audascity: Audio denoising by adaptive social cosparsity | |
CN110070887B (zh) | 一种语音特征重建方法及装置 | |
CN108848435B (zh) | 一种音频信号的处理方法和相关装置 | |
Elton et al. | A novel voice activity detection algorithm using modified global thresholding | |
CN112489692A (zh) | 语音端点检测方法和装置 | |
Doire | Online singing voice separation using a recurrent one-dimensional U-NET trained with deep feature losses | |
KR20200026587A (ko) | 음성 구간을 검출하는 방법 및 장치 | |
CN117711419B (zh) | 用于数据中台的数据智能清洗方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |