CN111613243B - 一种语音检测的方法及其装置 - Google Patents
一种语音检测的方法及其装置 Download PDFInfo
- Publication number
- CN111613243B CN111613243B CN202010339292.7A CN202010339292A CN111613243B CN 111613243 B CN111613243 B CN 111613243B CN 202010339292 A CN202010339292 A CN 202010339292A CN 111613243 B CN111613243 B CN 111613243B
- Authority
- CN
- China
- Prior art keywords
- voice
- noise
- database
- voice data
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000001228 spectrum Methods 0.000 claims abstract description 133
- 230000000873 masking effect Effects 0.000 claims abstract description 98
- 238000013135 deep learning Methods 0.000 claims abstract description 28
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 238000013136 deep learning model Methods 0.000 claims abstract description 14
- 238000009432 framing Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 20
- 239000000126 substance Substances 0.000 claims description 15
- 238000013459 approach Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 238000010183 spectrum analysis Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 11
- 230000009286 beneficial effect Effects 0.000 abstract description 10
- 230000006870 function Effects 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提供了一种语音检测的方法及其装置。获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值;其中,所述时频掩蔽值包括时间序列表征和频带表征;根据所述频带表征,对所述语音数据的掩蔽值进行降采样,确定谐波乘积谱;根据所述谐波乘积谱的峰值和位置判定所述语音和噪音。本发明的有益效果在于:本发明基于深度学习技术,预测语音信号时频点的掩蔽值时,利用掩蔽值根据语音特有的谐波结构(基频的二次谐波、三次谐波等位置会出现峰值)计算多阶函数的谐波乘积谱,即利用了深度学习良好的数据建模能力,又结合了语音的结构信息,可有效提高语音检测的性能。
Description
技术领域
本发明涉及语音检测技术领域,特别涉及一种语音检测的方法及其装置。
背景技术
现有技术中,语音检测是指检测出语音信号中的语音起止点信息,标志出噪声与信号区间,在语音交互中具有十分重要的意义,可以有效的减少误唤醒和误识别,同时大幅降低语音交互系统计算量。近场、安静或平稳噪声的环境下,语音检测性能已经比较理想,但在远场、非平稳噪声环境下语音检测性能急剧下降,基于深度学习的语音检测技术发展后,非平稳噪声下语音检测性能有所改善,但依然没有彻底解决该问题,其本质上来说深度学习虽然拥有强大的建模能力,但没有合理利用语音中有效的先验结构信息,比如语音所具备的谐波结构信息,在传统的语音信号处理中使用谐波乘积谱可以在较强噪声下将语音和噪声区分开,但谐波乘积谱也有其缺点,就是各个频带能量不均衡,造成阈值划定困难,不同场景泛化能力不足。
发明内容
本发明提供语音检测的方法及其装置,用以解决语音检测不准确的情况。
一种语音检测的方法,其特征在于,包括:
获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值;其中,
所述时频掩蔽值包括时间序列表征和频带表征;
根据所时频掩蔽值述频带表征,对所述语音数据的掩蔽值进行降采样,确定谐波乘积谱;
根据所述谐波乘积谱峰值和峰值分布,判断所述语音数据为语音或噪音。
作为本发明的一种实施例:所述获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值,包括:
预设干净语音数据库和噪声数据库;
根据所述噪声数据库,对所述干净语音数据库进行加噪处理,生成带噪语音;
通过分帧、加窗、STFT计算带噪语音幅度谱|Y|和对应干净语音频谱|S|,并计算出对应的掩膜M=|S|/|Y|;
根据所述带噪语音幅度谱|Y|,提取所述带噪语音的的语音特征;
将所述带噪语音的语音特征和掩膜带入深度学习网络得到网络模型;
获取所述语音数据,并通过分帧、加窗、STFT计算语音数据的幅度谱特征并导入网络模型的神经网络计算得到时频掩蔽值。
作为本发明的一种实施例:所述根据所述时频掩蔽值,对所述语音数据的掩蔽值进行降采样,确定谐波乘积谱,包括:
通过所述频带表征,将所述语音数据的进行分帧;
获取分帧后语音数据的掩蔽值;
对所述分帧后语音数据的每一帧语音数据的掩蔽值进行降采样,得到降采样后的序列;
根据所述每一帧语音数据的掩蔽值的序列,计算所述语音数据的谐波乘积谱;其中,
当所述掩蔽值的序列为n时,所述谐波乘积谱如下式:
Y(k)=X(k)*X2(k)*……Xn(k);
其中,所述Y(k)为谐波乘积谱;所述X(k)表示时频掩蔽值;所述n表示序列数。
作为本发明的一种实施例:所述根据所述谐波乘积谱峰值和峰值分布,判断所述语音数据中的语音或噪音,包括:
获取所述谐波乘积谱峰值分布图;
确定所述谐波乘积谱峰值和峰值分布;
将所述谐波乘积谱的峰值和峰值分布与阈值对比,确定对比结果;
根据所述对比结果判定所述语音数据中的语音和噪声。
作为本发明的一种实施例:所述谐波乘积谱峰值和峰值分布,判断所述语音数据为语音或噪音,还包括:
根据所述预设干净语音数据库和噪声数据库,确定所述预设干净语音数据库和噪声数据库的谐波乘积谱;
根据所述预设干净语音数据库和噪声数据库的谐波乘积谱,确定所述预设干净语音数据库和噪声数据库的峰值分布;
根据所述预设干净语音数据库和噪声数据库的峰值分布,确定语音和噪音的阈值范围;其中,
所述阈值范围在0~1之间,语音趋近于1,噪音趋近于0。
一种语音检测的装置,包括:
预测模块:用于获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值;其中,
所述时频掩蔽值包括时间序列表征和频带表征;
第一处理模块:根据所时频掩蔽值,对所述语音数据的掩蔽值进行降采样,确定谐波乘积谱;
第一确定模块:根据所述谐波乘积谱峰值和峰值分布,判断所述语音数据为语音或噪音。
作为本发明的一种实施例:所述预测模块包括:
第一获取单元:用于预设干净语音数据库和噪声数据库;
第二获取单元:用于根据所述噪声数据库,对所述干净语音数据库进行加噪处理,生成带噪语音;
第一处理单元:通过分帧、加窗、STFT计算带噪语音幅度谱|Y|和对应干净语音频谱|S|,并计算出对应的掩膜M=|S|/|Y|;
根据所述带噪语音幅度谱|Y|,提取所述带噪语音的的语音特征;
将所述带噪语音的语音特征和掩膜带入深度学习网络得到网络模型;
第一预估单元:获取所述语音数据,并通过分帧、加窗、STFT计算语音数据的幅度谱特征并导入网络模型的神经网络计算得到时频掩蔽值。
作为本发明的一种实施例:所述处理模块包括:
第二处理单元:用于通过所述频带表征,将所述语音数据的进行分帧;
第三获取单元:用于获取分帧后语音数据的掩蔽值;
第一采集单元:用于对所述分帧后语音数据的每一帧语音数据的掩蔽值进行降采样,得到降采样后的序列;
第一计算单元:用于根据所述每一帧语音数据的掩蔽值的序列,计算所述语音数据的谐波乘积谱;其中,
当所述掩蔽值的序列为n时,所述谐波乘积谱如下式:
Y(k)=X(k)*X2(k)*……Xn(k);
其中,所述Y(k)为谐波乘积谱;所述X(k)表示时频掩蔽值;所述n表示序列数。
作为本发明的一种实施例:所述第一确定模块包括:
第四获取单元:用于获取所述谐波乘积谱峰值分布图,确定所述谐波乘积谱峰值和峰值分布;;
第五获取单元:用于将所述谐波乘积谱的峰值和峰值分布与阈值对比,确定对比结果;根据所述对比结果判定所述语音数据中的语音和噪声。
作为本发明的一种实施例:所述第一确定模块还包括:
第一确定单元:用于根据所述预设干净语音数据库和噪声数据库,确定所述预设干净语音数据库和噪声数据库的谐波乘积谱;
第二确定单元:用于根据所述预设干净语音数据库和噪声数据库的谐波乘积谱,确定所述预设干净语音数据库和噪声数据库的峰值分布;
第三确定单元:用于根据所述预设干净语音数据库和噪声数据库的峰值分布,确定语音和噪音的阈值范围;其中,
所述阈值范围在0~1之间,语音趋近于1,噪音趋近于0。
本发明的有益效果在于:本专利使用深度学习的建模能力得到时频域的掩蔽值,然后在时频掩蔽值上计算谐波乘积谱,即利用深度学习技术良好的建模能力,再利用语音特有的谐波结构信息。基于深度学习技术,估计语音信号时频点的掩蔽值时,利用掩蔽值根据语音特有的谐波结构(基频的二次谐波、三次谐波等位置会出现峰值)计算多阶函数的谐波乘积谱,即利用了深度学习良好的数据建模能力,又结合了语音的结构信息,可有效提高语音检测的性能。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1为本发明实施例中一种语音检测方法的方法流程图;
图2为本发明实施例中一种语音检测方法的算法结构图;
图3为本发明实施例中一种语音检测装置的模块结构图;
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示本发明实施例中一种语音检测方法的方法流程图包括:
步骤100:获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值;其中,
所述时频掩蔽值包括时间序列表征和频带表征;
步骤101:根据所述频带表征,对所述语音数据的掩蔽值进行降采样,确定谐波乘积谱;
步骤102:根据所述谐波乘积谱峰值和峰值分布,判断所述语音数据为语音或噪音。
如附图1和2所示:本发明的算法结构图,本发明使用深度学习的建模能力得到时频域的掩蔽值,然后在时频掩蔽值上计算谐波乘积谱,即利用深度学习技术良好的建模能力,再利用语音特有的谐波结构信息。基于深度学习技术,估计语音信号时频点的掩蔽值时,利用掩蔽值根据语音特有的谐波结构(基频的二次谐波、三次谐波等位置会出现峰值)计算多阶函数的谐波乘积谱,即利用了深度学习良好的数据建模能力,又结合了语音的结构信息,可有效提高语音检测的性能。
作为本发明的一种实施例:所述获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值,包括:
预设干净语音数据库和噪声数据库;
根据所述噪声数据库,对所述干净语音数据库进行加噪处理,生成带噪语音;
通过分帧、加窗、STFT计算带噪语音幅度谱|Y|和对应干净语音频谱|S|,并计算出对应的掩膜M=|S|/|Y|;
根据所述带噪语音幅度谱|Y|,提取所述带噪语音的的语音特征;
将所述带噪语音的语音特征和掩膜带入深度学习网络得到网络模型;
获取所述语音数据,并通过分帧、加窗、STFT计算语音数据的幅度谱特征并导入网络模型的神经网络计算得到时频掩蔽值。
本发明的原理在于:包括训练阶段和应用阶段,训练时建立干净语音数据集和噪声数据集;语音加噪,形成干净语音到噪声语音的对应数据;提取语音特征,如logMel,设定深度学习网络模型,训练从噪声谱到干净语音谱的映射网络,得到时频掩蔽网络;
应用时,将语音数据导入深度学习模型;提取语音数据特征经过网络计算,得到对应的时频掩蔽值;
本发明的有益效果在于:本发明通过训练好的深度学习模型预测时频掩蔽值,能够合理利用语音中有效的先验结构信息。训练和应用两个阶段分开进行,互不干扰。在实际实施时,还可以利用大数据进行预先的训练,不仅利用深度学习的建模技术,还结合了语音的结构信息,使得语音检测更加精确。
作为本发明的一种实施例:所述根据所述频带表征,对所述语音数据的掩蔽值进行降采样,确定谐波乘积谱,包括:
通过所述频带表征,将所述语音数据的进行分帧;
获取分帧后语音数据的掩蔽值;
所述分帧后语音数据的每一帧语音数据的掩蔽值进行降采样,得到降采样后的序列;
根据所述每一帧语音数据的掩蔽值的序列,计算所述语音数据的谐波乘积谱;其中,
当所述掩蔽值的序列为n时,所述谐波乘积谱如下式:
Y(k)=X(k)*X2(k)*……Xn(k);
其中,所述Y(k)为谐波乘积谱;所述X(k)表示时频掩蔽值;所述n表示序列数。
本发明的原理在于:本发明通过语音数据的频域信号,以掩蔽值降采样的方式得到能够判断检测阀值的谐波乘积谱。在一个实施例中,假设序列x(n),降采样2的序列为x(2n),降采样3的序列为x(3n),3阶谐波乘积谱就是y(n)=x(n)*x(2n)*x(3n)。用掩蔽值计算,而非实际的语音谱计算,就是起到规整作用,所以谐波乘积谱用规整的谐波乘积谱更合适
本发明的有益效果在于:语音具有特有的谐波结构,而且可以基于谐波阶数,进行基频的二次谐波、三次谐波等计算谐波乘积谱,利用了深度学习良好的数据建模能力,又结合了语音的结构信息,可有效提高语音检测的性能。
作为本发明的一种实施例:所述根据所述规整的谐波乘积谱获取语音数据中的语音谐波乘积谱和噪音谐波乘积谱,包括:
获取所述谐波乘积谱峰值分布图;
确定所述谐波乘积谱峰值和峰值分布;
将所述谐波乘积谱的峰值和峰值分布与阈值对比,确定对比结果;
根据所述对比结果判定所述语音数据中的语音和噪声。
本发明的原理在于:本实施例主要目的是获取语音和噪音的在谐波乘积谱上的分布,最后根据谐波乘积谱峰值和峰值分布把语音数据区分为语音和噪音。
本发明的有益效果在于:因为语音的谐波乘积谱能量值很高,而噪声的谐波乘积谱能量要低得多,而能量值可以用时频掩蔽值进行表示,在谐波乘积谱上以峰值的形式表现出来,因此,从而确定语音数据中的噪音和语音,能量值的计算比较简单。
作为本发明的一种实施例:所述根据所述语音时频掩蔽值和噪音的时频掩蔽值确定语音和噪音的阀值范围,包括:
第一确定单元:用于根据所述预设干净语音数据库和噪声数据库,确定所述预设干净语音数据库和噪声数据库的谐波乘积谱;
第二确定单元:用于根据所述预设干净语音数据库和噪声数据库的谐波乘积谱,确定所述预设干净语音数据库和噪声数据库的峰值分布;
第三确定单元:用于根据所述预设干净语音数据库和噪声数据库的峰值分布,确定语音和噪音的阈值范围;其中,
所述阈值范围在0~1之间,语音趋近于1,噪音趋近于0。
本发明原理在于:本发明在预设语音数据库和噪音数据库的谐波乘积谱确定的情况下,通过峰值和峰值分布,从而确定最终的语音检测的范围。
本发明的有益效果在于:本发明克服了谐波乘积谱的其缺点,通过时频掩蔽值可以防止频带能量不均衡,造成阈值划定困难,不同场景泛化能力不足的现象。
如附图3所示本发明实施例中的一种语音检测的装置,包括:
预测模块:用于获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值;其中,
所述时频掩蔽值包括时间序列表征和频带表征;
处理模块:根据所述频带表征,对所述语音数据的时频掩蔽值进行降采样,确定谐波乘积谱;
第一确定模块:用于根据所述谐波乘积谱峰值和峰值分布,判断所述语音数据为语音或噪音。
本发明使用深度学习的建模能力得到时频域的掩蔽值,然后在时频掩蔽值上计算谐波乘积谱,即利用深度学习技术良好的建模能力,再利用语音特有的谐波结构信息。基于深度学习技术,估计语音信号时频点的掩蔽值时,利用掩蔽值根据语音特有的谐波结构(基频的二次谐波、三次谐波等位置会出现峰值)计算多阶函数的谐波乘积谱,即利用了深度学习良好的数据建模能力,又结合了语音的结构信息,可有效提高语音检测的性能。
作为本发明的一种实施例:所述预测模块包括:
第一获取单元:用于预设干净语音数据库和噪声数据库;
第二获取单元:用于根据所述噪声数据库,对所述干净语音数据库进行加噪处理,生成带噪语音;
第一处理单元:通过分帧、加窗、STFT计算带噪语音幅度谱|Y|和对应干净语音频谱|S|,并计算出对应的掩膜M=|S|/|Y|;
根据所述带噪语音幅度谱|Y|,提取所述带噪语音的的语音特征;
将所述带噪语音的语音特征和掩膜带入深度学习网络得到网络模型;
第一预估单元:获取所述语音数据,并通过分帧、加窗、STFT计算语音数据的幅度谱特征并导入网络模型的神经网络计算得到时频掩蔽值。
本发明的原理在于:包括训练阶段和应用阶段,训练时建立干净语音数据集和噪声数据集;语音加噪,形成干净语音到噪声语音的对应数据;提取语音特征,如logMel,设定深度学习网络模型,训练从噪声谱到干净语音谱的映射网络,得到时频掩蔽网络;
应用时,将语音数据导入深度学习模型;语音数据提取特征经过网络计算,得到对应的时频掩蔽值;
本发明的有益效果在于:本发明通过训练好的深度学习模型预测时频掩蔽值,能够合理利用语音中有效的先验结构信息。训练和应用两个阶段分开进行,互不干扰。在实际实施时,还可以利用大数据进行预先的训练,不仅利用深度学习的建模技术,还结合了语音的结构信息,使得语音检测更加精确。
作为本发明的一种实施例:所述处理模块包括:
第二处理单元:用于通过所述频带表征,将所述语音数据的进行分帧;
第三获取单元:用于获取分帧后语音数据的掩蔽值;
第一采集单元:用对所述分帧后语音数据的每一帧语音数据的掩蔽值进行降采样,得到降采样后的序列;
第一计算单元:用于根据所述每一帧语音数据的掩蔽值的序列,计算所述语音数据的谐波乘积谱;其中,
当所述掩蔽值的序列为n时,所述谐波乘积谱如下式:
Y(k)=X(k)*X2(k)*……Xn(k);
其中,所述Y(k)为谐波乘积谱;所述X(k)表示时频掩蔽值;所述n表示序列数。
本发明的原理在于:本发明通过语音数据的频域信号,以掩蔽值降采样的方式得到能够判断检测阀值的谐波乘积谱。在一个实施例中,假设序列x(n),降采样2的序列为x(2n),降采样3的序列为x(3n),3阶谐波乘积谱就是y(n)=x(n)*x(2n)*x(3n)。用掩蔽值计算,而非实际的语音谱计算,就是起到规整作用,所以谐波乘积谱用规整的谐波乘积谱更合适
本发明的有益效果在于:语音具有特有的谐波结构,而且可以基于谐波阶数,进行基频的二次谐波、三次谐波等计算谐波乘积谱,利用了深度学习良好的数据建模能力,又结合了语音的结构信息,可有效提高语音检测的性能。
作为本发明的一种实施例:所述第一确定模块包括:
所述第一确定模块包括:
第四获取单元:用于获取所述谐波乘积谱峰值分布图,确定所述谐波乘积谱峰值和峰值分布;
第五获取单元:用于将所述谐波乘积谱的峰值和峰值分布与阈值对比,确定对比结果;
根据所述对比结果判定所述语音数据中的语音和噪声。
本发明的原理在于:本实施例主要目的是获取语音和噪音的在谐波乘积谱上的分布,最后根据谐波乘积谱峰值和峰值分布把语音数据区分为语音和噪音。
本发明的有益效果在于:因为语音的谐波乘积谱能量值很高,而噪声的谐波乘积谱能量要低得多,而能量值可以用时频掩蔽值进行表示,在谐波乘积谱上以峰值的形式表现出来,因此,确定语音数据中的噪音和语音,以能量值的峰值来比对和计算比较简单。
作为本发明的一种实施例,所述第一确定模块还包括:
第一确定单元:用于根据所述预设干净语音数据库和噪声数据库,确定所述预设干净语音数据库和噪声数据库的谐波乘积谱;
第二确定单元:用于根据所述预设干净语音数据库和噪声数据库的谐波乘积谱,确定所述预设干净语音数据库和噪声数据库的峰值分布;
第三确定单元:用于根据所述预设干净语音数据库和噪声数据库的峰值分布,确定语音和噪音的阈值范围;其中,
所述阈值范围在0~1之间,语音趋近于1,噪音趋近于0。
本发明原理在于:本发明在预设语音数据库和噪音数据库的谐波乘积谱确定的情况下,通过峰值和峰值分布,从而确定最终的语音检测的范围。
本发明的有益效果在于:本发明克服了谐波乘积谱的缺点,通过时频掩蔽值可以防止频带能量不均衡,造成阈值划定困难,不同场景泛化能力不足的现象。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种语音检测的方法,其特征在于,包括:
获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值;其中,
所述时频掩蔽值包括时间序列表征和频带表征;
根据所述频带表征,对所述语音数据的掩蔽值进行降采样,确定谐波乘积谱;
根据所述谐波乘积谱峰值和峰值分布,判断所述语音数据为语音或噪音。
2.根据权利要求1所述的一种语音检测的方法,其特征在于,所述获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值,包括:
预设干净语音数据库和噪声数据库;
根据所述噪声数据库,对所述干净语音数据库进行加噪处理,生成带噪语音;
通过分帧、加窗、STFT计算带噪语音幅度谱|Y|和对应干净语音频谱|S|,并计算出对应的掩膜M=|S|/|Y|;
根据所述带噪语音幅度谱|Y|,提取所述带噪语音的的语音特征;
将所述带噪语音的语音特征和掩膜带入深度学习网络得到网络模型;
获取所述语音数据,并通过分帧、加窗、STFT计算语音数据的幅度谱特征并导入网络模型的神经网络计算得到时频掩蔽值。
3.根据权利要求1所述的一种语音检测的方法,其特征在于,所述根据所述频带表征,对所述语音数据的掩蔽值进行降采样,确定谐波乘积谱,包括:
通过所述频带表征,将所述语音数据的进行分帧;
获取分帧后语音数据的掩蔽值;
对所述分帧后语音数据的每一帧语音数据的掩蔽值进行降采样,得到降采样后的序列;
根据所述每一帧语音数据的掩蔽值的序列,计算所述语音数据的谐波乘积谱;其中,
当所述掩蔽值的序列为n时,所述谐波乘积谱如下式:
Y(k)=X(k)*X2(k)*……Xn(k);
其中,所述Y(k)为谐波乘积谱;所述X(k)表示时频掩蔽值;所述n表示序列数。
4.根据权利要求3所述的一种语音检测的方法,其特征在于,所述根据所述谐波乘积谱峰值和峰值分布,判断所述语音数据中的语音或噪音,包括:
获取所述谐波乘积谱峰值分布图;
确定所述谐波乘积谱峰值和峰值分布;
将所述谐波乘积谱的峰值和峰值分布与阈值对比,确定对比结果;
根据所述对比结果判定所述语音数据中的语音和噪声。
5.根据权利要求2所述的一种语音检测的方法,其特征在于,所述谐波乘积谱峰值和峰值分布,判断所述语音数据为语音或噪音,还包括:
根据所述预设干净语音数据库和噪声数据库,确定所述预设干净语音数据库和噪声数据库的谐波乘积谱;
根据所述预设干净语音数据库和噪声数据库的谐波乘积谱,确定所述预设干净语音数据库和噪声数据库的峰值分布;
根据所述预设干净语音数据库和噪声数据库的峰值分布,确定语音和噪音的阈值范围;其中,
所述阈值范围在0~1之间,语音趋近于1,噪音趋近于0。
6.一种语音检测的装置,其特征在于,包括:
预测模块:用于获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值;其中,
所述时频掩蔽值包括时间序列表征和频带表征;
第一处理模块:根据所时频掩蔽值,对所述语音数据的掩蔽值进行降采样,确定谐波乘积谱;
第一确定模块:根据所述谐波乘积谱峰值和峰值分布,判断所述语音数据为语音或噪音。
7.根据权利要求6所述的一种语音检测的装置,其特征在于,所述预测模块包括:
第一获取单元:用于预设干净语音数据库和噪声数据库;
第二获取单元:用于根据所述噪声数据库,对所述干净语音数据库进行加噪处理,生成带噪语音;
第一处理单元:通过分帧、加窗、STFT计算带噪语音幅度谱|Y|和对应干净语音频谱|S|,并计算出对应的掩膜M=|S|/|Y|;
根据所述带噪语音幅度谱|Y|,提取所述带噪语音的的语音特征;
将所述带噪语音的语音特征和掩膜带入深度学习网络得到网络模型;
第一预估单元:获取所述语音数据,并通过分帧、加窗、STFT计算语音数据的幅度谱特征并导入网络模型的神经网络计算得到时频掩蔽值。
8.根据权利要求6所述的一种语音检测的装置,其特征在于,所述处理模块包括:
第二处理单元:用于通过所述时频掩蔽值,将所述语音数据的进行分帧;
第三获取单元:用于获取分帧后语音数据的掩蔽值;
第一采集单元:用于对所述每一帧语音数据的掩蔽值进行降采样,得到降采样后的序列;
第一计算单元:用于根据所述每一帧语音数据的掩蔽值的降采样的序列,计算所述语音数据的谐波乘积谱;其中,
当当所述掩蔽值的序列为n时,所述谐波乘积谱如下式:
Y(k)=X(k)*X2(k)*……Xn(k);
其中,所述Y(k)为谐波乘积谱;所述X(k)表示时频掩蔽值;所述n表示序列数。
9.根据权利要求8所述的一种语音检测的装置,其特征在于,所述第一确定模块包括:
第四获取单元:用于获取所述谐波乘积谱峰值分布图;
确定所述谐波乘积谱峰值和峰值分布;
第五获取单元:用于将所述谐波乘积谱的峰值和峰值分布与阈值对比,确定对比结果;
根据所述对比结果判定所述语音数据中的语音和噪声。
10.根据权利要求7所述的一种语音检测的装置,其特征在于,所述第一确定模块包括:
第一确定单元:用于根据所述预设干净语音数据库和噪声数据库,确定所述预设干净语音数据库和噪声数据库的谐波乘积谱;
第二确定单元:用于根据所述预设干净语音数据库和噪声数据库的谐波乘积谱,确定所述预设干净语音数据库和噪声数据库的峰值分布;
第三确定单元:用于根据所述预设干净语音数据库和噪声数据库的峰值分布,确定语音和噪音的阈值范围;其中,
所述阈值范围在0~1之间,语音趋近于1,噪音趋近于0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010339292.7A CN111613243B (zh) | 2020-04-26 | 2020-04-26 | 一种语音检测的方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010339292.7A CN111613243B (zh) | 2020-04-26 | 2020-04-26 | 一种语音检测的方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111613243A CN111613243A (zh) | 2020-09-01 |
CN111613243B true CN111613243B (zh) | 2023-04-18 |
Family
ID=72203239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010339292.7A Active CN111613243B (zh) | 2020-04-26 | 2020-04-26 | 一种语音检测的方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111613243B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669870B (zh) * | 2020-12-24 | 2024-05-03 | 北京声智科技有限公司 | 语音增强模型的训练方法、装置和电子设备 |
NO347277B1 (en) * | 2021-06-30 | 2023-08-21 | Pexip AS | Method and system for speech detection and speech enhancement |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0743598B2 (ja) * | 1992-06-25 | 1995-05-15 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 音声認識方法 |
CN102054480B (zh) * | 2009-10-29 | 2012-05-30 | 北京理工大学 | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 |
US20130226568A1 (en) * | 2010-06-18 | 2013-08-29 | Alon Konchitsky | Audio signals by estimations and use of human voice attributes |
CN102231274B (zh) * | 2011-05-09 | 2013-04-17 | 华为技术有限公司 | 基音周期估计值修正方法、基音估计方法和相关装置 |
EP2828855B1 (en) * | 2012-03-23 | 2016-04-27 | Dolby Laboratories Licensing Corporation | Determining a harmonicity measure for voice processing |
US20130282373A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US20140337021A1 (en) * | 2013-05-10 | 2014-11-13 | Qualcomm Incorporated | Systems and methods for noise characteristic dependent speech enhancement |
CN104464722B (zh) * | 2014-11-13 | 2018-05-25 | 北京云知声信息技术有限公司 | 基于时域和频域的语音活性检测方法和设备 |
CN107845389B (zh) * | 2017-12-21 | 2020-07-17 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
-
2020
- 2020-04-26 CN CN202010339292.7A patent/CN111613243B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111613243A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10249316B2 (en) | Robust noise estimation for speech enhancement in variable noise conditions | |
CN104464722B (zh) | 基于时域和频域的语音活性检测方法和设备 | |
CN111613243B (zh) | 一种语音检测的方法及其装置 | |
US20060100866A1 (en) | Influencing automatic speech recognition signal-to-noise levels | |
KR102136700B1 (ko) | 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법 | |
US6865529B2 (en) | Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor | |
Verteletskaya et al. | Voice activity detection for speech enhancement applications | |
US6954726B2 (en) | Method and device for estimating the pitch of a speech signal using a binary signal | |
CN110556128A (zh) | 一种语音活动性检测方法、设备及计算机可读存储介质 | |
Desai et al. | Digital speech watermarking for authenticity of speaker in speaker recognition system | |
Soni et al. | Effectiveness of ideal ratio mask for non-intrusive quality assessment of noise suppressed speech | |
Jamaludin et al. | An improved time domain pitch detection algorithm for pathological voice | |
CN112216285B (zh) | 多人会话检测方法、系统、移动终端及存储介质 | |
Arslan | A new approach to real time impulsive sound detection for surveillance applications | |
CN114882906A (zh) | 一种新型环境噪声识别方法及系统 | |
US20010029447A1 (en) | Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor | |
Képesi et al. | High-resolution noise-robust spectral-based pitch estimation. | |
Eaton et al. | Detection of clipping in coded speech signals | |
Li et al. | Robust speech endpoint detection based on improved adaptive band-partitioning spectral entropy | |
Yang et al. | Research on Voiceprint recognition method of buried drainage pipe based on MFCC and GMM-HMM | |
CN111063371B (zh) | 一种基于语谱图时间差分的语音音节数估计方法 | |
Goh et al. | Fast wavelet-based pitch period detector for speech signals | |
CN113053417B (zh) | 带噪语音情感识别方法、系统、设备及存储介质 | |
CN113780381B (zh) | 一种人工智能漏水检测方法及装置 | |
US20220068270A1 (en) | Speech section detection method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |