CN116959495A - 一种语音信号信噪比估计方法、系统 - Google Patents
一种语音信号信噪比估计方法、系统 Download PDFInfo
- Publication number
- CN116959495A CN116959495A CN202311087526.3A CN202311087526A CN116959495A CN 116959495 A CN116959495 A CN 116959495A CN 202311087526 A CN202311087526 A CN 202311087526A CN 116959495 A CN116959495 A CN 116959495A
- Authority
- CN
- China
- Prior art keywords
- signal
- noise ratio
- frame
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000000873 masking effect Effects 0.000 claims abstract description 90
- 230000007774 longterm Effects 0.000 claims abstract description 35
- 230000005484 gravity Effects 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims description 18
- 230000000694 effects Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 230000003595 spectral effect Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 239000012634 fragment Substances 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Noise Elimination (AREA)
Abstract
本发明提供了一种语音信号信噪比估计方法、系统,只需要带噪语音信号,并且可以估计瞬时信噪比,所估计的信噪比可以更好地反映应用在目标信号上的关注焦点,包括以下步骤:从输入的带噪语音信号中检测出包含语音信号的片段;对于包含语音信号的片段,估计每一帧信号中每个时频点上语音成分和噪声成分所占的比重,得到每一帧每个时频点的掩蔽值;通过累积每帧信号中所有时频点上语音成分和噪声成分的比重,基于每一帧每个时频点的掩蔽值计算每一帧信号上的瞬时信噪比;通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比。
Description
技术领域
本发明涉及语音信号处理技术领域,更具体地,涉及一种语音信号信噪比估计方法。
背景技术
信噪比常被用来刻画所采集语音信号中噪声成分的强度,是语音信号处理领域的重要指标之一。为了计算语音信噪比,通常需要预先知道原始干净语音信号或者原始噪声信号。如果只有带噪语音信号是没办法计算信噪比的。另外,带噪语音信号的信噪比并不是一直不变的,而是随着时间变化的。因此,信噪比还分为长时信噪比和瞬时信噪比。不同应用场景下,需要计算不同的信噪比。在线情况下,瞬时信噪比通常也难以计算,因为需要实时获得原始干净语音信号或者原始噪声信号。大多数实际应用场景下,只能拿到带噪语音信号,信噪比难以准确计算,尤其是瞬时信噪比。此外,当前信噪比的计算每个频带能量都是等权重的,但是实际上低频能量在听觉上更敏感,对于语音识别系统来说影响更大。
发明内容
针对上述问题,本发明提供了一种语音信号信噪比估计方法、系统,只需要带噪语音信号,并且可以估计瞬时信噪比,所估计的信噪比可以更好地反映应用在目标信号上的关注焦点。
其技术方案是这样的:一种语音信号信噪比估计方法,包括以下步骤:
从输入的带噪语音信号中检测出包含语音信号的片段;
对于包含语音信号的片段,估计每一帧信号中每个时频点上语音成分和噪声成分所占的比重,得到每一帧每个时频点的掩蔽值;
通过累积每帧信号中所有时频点上语音成分和噪声成分的比重,基于每一帧每个时频点的掩蔽值计算每一帧信号上的瞬时信噪比;
通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比。
进一步的,采用能量阈值法、GMM建模法、SVM建模法或神经网络建模构中的任意一种构建语音活动检测模型,通过训练好的语音活动检测模型,从输入的带噪语音信号中检测出包含语音信号的片段。
进一步的,在选用神经网络建模语音活动检测模型时,采用深度神经网络模型建模语音活动检测模型。
进一步的,对于检测出包含语音信号的片段,采用时序解码算法从连续的信号流中检测语音信号的起始点和结束点。
进一步的,基于CGMM模型或者DNN模型构建时频掩蔽预测模型,将信号的频域特征输入训练好的时频掩蔽预测模型,输出每一帧上每个时频点的掩蔽值,所述掩蔽值用于表示每个时频点上语音成分和噪声成分所占的比重。
进一步的,采用理想比值掩蔽IRM值作为时频掩蔽预测模型预测的目标掩蔽值,其计算公式如下:
其中:|S(i,j)|和|N(i,j)|分别为干净语音信号和噪声信号的第i时刻第j个频点上的幅度,β为可调节尺度因子。
进一步的,在采用DNN模型构建时频掩蔽预测模型时,基于IMAGE算法仿真生成的训练集数据,所述训练集数据包括干净语音信号和噪声信号以及对应的IRM掩蔽值,基于DNN模型中的深度前馈短时记忆神经网络DFSMN构建时频掩蔽预测模型,通过有监督训练方式来学习模型权重,优化损失函数,获得训练好的时频掩蔽预测模型。
进一步的,所述的通过累积每帧信号中所有时频点上语音成分和噪声成分的比重,计算每一帧信号上的瞬时信噪比,具体如下执行:
根据当前帧每个时频点的掩蔽值,估计该帧的瞬时信噪比,计算方式如下:
其中:αij和Eij分别为带噪语音信号第i帧第j个时频点上的掩蔽值和对应幅度谱能量,M为总频点数,wj为第j个频点的权重系数,SNRi表示第i帧信号上的瞬时信噪比。
进一步的,在计算瞬时信噪比时,对于75Hz~4kHz频带上的频点设置更高的权重。
进一步的,最大采样率为16kHz且FFT窗长为1024点时,频点权重wj设计如下式:
进一步的,基于能够利用上下文信息的LSTM或DFSMN网络构建瞬时信噪比预测模型,基于训练频掩蔽预测模型的训练集数据训练瞬时信噪比预测模型,采用真实信噪比和预测信噪比的最小均方误差作为瞬时信噪比预测模型的损失函数,其中,真实信噪比通过生成带噪语音信号的干净语音信号和噪声信号来计算,优化损失函数获得训练好的瞬时信噪比预测模型,将每一帧时频点掩蔽向量和其对应的幅度谱输入训练好的瞬时信噪比预测模型,输出每个时频点的瞬时信噪比。
进一步的,对于检测为非语音信号的片段,其瞬时信噪比表示为:
如果该帧的频域幅度谱能量小于等于给定阈值ET,输出瞬时信噪比为0dB;如果该帧的频域幅度谱能量大于给定阈值ET,输出瞬时信噪比为最低信噪比SNRlow。
进一步的,所述的通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比,具体如下执行:
根据每一帧的瞬时信噪比,估计包含语音的片段的长时信噪比,计算方式如下:
其中:Ai为第i帧的权重系数,N为包含语音的片段的总帧数,通过对权重系数Ai进行调整来控制每一帧的瞬时信噪比对长时信噪比的影响。
进一步的,采用下式来设置信噪比加权系数Ai:
其中:Ei表示第i帧的幅度谱能量。
进一步的,估计包含语音的片段的长时信噪比,计算方式如下:
Ai为第i帧的权重系数,N为包含语音的片段的总帧数,wj为第j个频点的权重系数,αij和Eij分别为带噪语音信号第i帧第j个时频点上的掩蔽值和对应幅度谱能量
进一步的,估计包含语音的片段的长时信噪比,计算方式如下:
Ai为第i帧的权重系数,N为包含语音的片段的总帧数,wj为第j个频点的权重系数,αij和Eij分别为带噪语音信号第i帧第j个时频点上的掩蔽值和对应幅度谱能量。
一种语音信号信噪比估计模型,包括:
语音活动检测模块,用于从输入的带噪语音信号中检测出包含语音信号的片段;
时频掩蔽预测模块,用于对于从语音活动检测模块检测出的包含语音信号的片段,估计每一帧信号中每个时频点上语音成分和噪声成分所占的比重,得到每一帧每个时频点的掩蔽值;
瞬时信噪比估计模块,用于基于时频掩蔽预测模块获得的每一帧每个时频点的掩蔽值,计算每一帧信号上的瞬时信噪比;
长时信噪比估计模块,用于通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比。
一种计算机装置,其特征在于,其包括:包括处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行上述的语音信号信噪比估计方法。
一种计算机可读存储介质,其特征在于:所述计算机可读存储介质用于存储程序,所述程序用于执行上述的语音信号信噪比估计方法。
本发明提供的一种语音信号信噪比估计方法,不需要原始干净语音信号和噪声信号,直接可以计算带噪语音信号的信噪比,本发明提供的方法利用语音活动检测来对带噪语音信号分段,可以更准确地估计信噪比,利用时频掩蔽来估计带噪语音信号的信噪比,给出多种计算信噪比的方法,并且可以同时计算瞬时信噪比和长时信噪比,本发明还给出了多种长时信噪比的计算法,本发明的方法估计的SNR可以精确到每个时频点,这样就可以根据应用需求灵活控制每个时频点对最终估计的SNR的贡献,所估计的信噪比可以更好地反映应用在目标信号上的关注焦点。
附图说明
图1为实施例中的一种语音信号信噪比估计方法的步骤示意图;
图2为另一个实施例中的语音信号信噪比估计方法的步骤示意图;
图3为实施例中的语音信号信噪比估计系统的模块框图;
图4为一个实施例中计算机装置的内部结构图。
具体实施方式
见图1,本发明的一种语音信号信噪比估计方法,至少包括以下步骤:
步骤1:从输入的带噪语音信号中检测出包含语音信号的片段;
步骤2:对于包含语音信号的片段,估计每一帧信号中每个时频点上语音成分和噪声成分所占的比重,得到每一帧每个时频点的掩蔽值;
步骤3:通过累积每帧信号中所有时频点上语音成分和噪声成分的比重,基于每一帧每个时频点的掩蔽值计算每一帧信号上的瞬时信噪比;
步骤4:通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比。
具体在本发明的实施例中,在步骤1中,从输入的带噪语音信号中检测出包含语音信号的片段,然后对语音信号部分和非语音信号部分分别进行处理,具体的语音活动检测可以采用能量阈值法、GMM建模法、SVM建模法或神经网络建模构中的任意一种构建语音活动检测模型,通过训练好的语音活动检测模型,从输入的带噪语音信号中检测出包含语音信号的片段。
具体在本发明的一个实施例中,在选用神经网络建模语音活动检测模型时,采用深度神经网络模型建模语音活动检测模型,深度神经网络模型具有很强的非线性建模能力,在帧一级语音和非语音区分上取得了最好性能,然后再加上时序解码算法,就可以准确地从连续的信号流中检测语音信号的起始点和结束点。
本申请中首先区分语音片段和非语音片段,只采用语音片段来估计信噪比。对于非语音片段,由于不包含目标语音信号,其信噪比估计为无穷大,或者说实际意义不大。
具体在本发明的实施例中,在步骤2中,对于包含语音信号的片段,估计每一帧信号中每个时频点上语音成分和噪声成分所占的比重,得到每一帧每个时频点的掩蔽值;采用掩蔽值用于表示每个时频点上语音成分和噪声成分所占的比重,时频掩蔽基于语音信号的时频掩蔽效应原理,在信号的时频域,每一个时频点都是由语音成分和非语音成分组成,其所占比重是随信号变化的。如果一个时频点上,语音成分占比大,则该时频点展现为语音特性,否则展现为非语音特性,每个时频点的掩蔽值,就对应每个时频点上语音成分和噪声成分所占的比重。
具体在本发明的实施例中,可以基于CGMM(复数高斯混合模型)模型或者DNN(深度神经网络)模型构建时频掩蔽预测模型,DNN模型是有监督学习的方式来确定模型参数,CGMM模型是无监督的方式来确定模型参数;将信号的频域特征输入训练好的时频掩蔽预测模型,输出每一帧上每个时频点的掩蔽值。
在步骤2中,掩蔽值可以采用的计算方法有:IBM(理想比值掩蔽)、IRM(理想比值掩蔽)、SMM(频谱幅度掩蔽)、PSM(相位敏感的谱掩蔽)和cIRM(复数理想比值掩蔽)等。
具体在本发明的一个实施例中,采用理想比值掩蔽IRM值作为时频掩蔽预测模型预测的目标掩蔽值,其计算公式如下:
其中:|S(i,j)|和|N(i,j)|分别为干净语音信号和噪声信号的第i时刻第j个频点上的幅度,β为可调节尺度因子,αij表示带噪语音信号第i帧第j个时频点上的掩蔽值。
在步骤2中,在采用DNN模型构建时频掩蔽预测模型时,基于IMAGE算法仿真生成的训练集数据,训练集数据包括干净语音信号和噪声信号以及对应的IRM掩蔽值,其中带噪语音数据通过考虑房间混响、墙壁反射和吸引系数、声源位置等因素来生成,基于生成的带噪语音数据和对应的IRM掩蔽,通过有监督训练方式来学习DNN模型权重。用于预测时频掩蔽的DNN模型,可采用多种深度神经网络结构,比如CNN,LSTM等,在一个实施例中,基于DNN模型中的深度前馈短时记忆神经网络DFSMN构建时频掩蔽预测模型,通过有监督训练方式来学习模型权重,优化损失函数,获得训练好的时频掩蔽预测模型。
对于包含语音的帧,提取频域特征,输入训练好的时频掩蔽预测模型可以得到每一帧上每个时频点的掩蔽值。
具体在本发明的实施例中,在步骤3中,通过累积每帧信号中所有时频点上语音成分和噪声成分的比重,计算每一帧信号上的瞬时信噪比,具体如下执行:
根据当前帧每个时频点的掩蔽值,估计该帧的瞬时信噪比,计算方式如下:
其中:αij和Eij分别为带噪语音信号第i帧第j个时频点上的掩蔽值和对应幅度谱能量,M为总频点数,默认为FFT窗长的一半,wj为第j个频点的权重系数,表示该频点在特定应用中的重要性,默认为SNRi表示第i帧信号上的瞬时信噪比。
步骤3中,第j个频点的权重wj可根据应用需求设置不同的值。在语音通信应用中,75Hz~4kHz频带包含的信息最重要,对噪声干扰最敏感,在计算瞬时信噪比时,对于75Hz~4kHz频带上的频点设置更高的权重。具体在一个实施例中,在最大采样率为16kHz且FFT窗长为1024点时,FFT窗长影响频率分辨率,也就是总频点数目,频点权重wj设计如下式:
实施例中设置更高的权重wj是和75Hz~4kHz频带对应的。
步骤3中的瞬时信噪比可以通过神经网络来建模瞬时信噪比预测模型,该瞬时信噪比预测模型的输入为每一帧时频点掩蔽向量和其对应的幅度谱,输出为每个时频点的信噪比。
实施例中,可以基于能够利用上下文信息的LSTM或DFSMN网络构建瞬时信噪比预测模型,训练时,采用步骤2中训练频掩蔽预测模型的训练集数据训练瞬时信噪比预测模型,采用真实信噪比和预测信噪比的最小均方误差(MSE)作为瞬时信噪比预测模型的损失函数,其中,真实信噪比通过生成带噪语音信号的干净语音信号和噪声信号来计算,优化损失函数获得训练好的瞬时信噪比预测模型,将每一帧时频点掩蔽向量和其对应的幅度谱输入训练好的瞬时信噪比预测模型,输出每个时频点的瞬时信噪比。
此外,瞬时信噪比预测模型还可以根据实际需求来设计,比如考虑不同频点对于信噪比的贡献程度。基于神经网络的瞬时信噪比预测模型,可以自动学习每个时频点在信噪比计算中的权重。
在步骤3中,对于步骤1中对于检测为非语音信号的片段,其瞬时信噪比表示为:
1)如果该帧的频域幅度谱能量小于等于给定阈值ET,输出瞬时信噪比为0dB;
2)如果该帧的频域幅度谱能量大于给定阈值ET,输出瞬时信噪比为最低信噪比SNRlow。
最低信噪比SNRlow可根据实际应用场景来设置,通常可设置为-25dB,在其他实施例中也可以设置其他值。
步骤4中,通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比,在本发明中一共提供了三种计算方法:
方法一:根据每一帧的瞬时信噪比,估计包含语音的片段的长时信噪比,计算方式如下:
其中:Ai为第i帧的权重系数,Ai设置为N为包含语音的片段的总帧数,信噪比加权系数Ai设置为/>意味着长时信噪比是该时间片段中所有瞬时信噪比的平均值。用户可以根据具体任务需求,通过对权重系数Ai进行调整来控制每一帧的瞬时信噪比对长时信噪比的影响;方法一基于帧级瞬时信噪比,对瞬时信噪比的极大和极小值比较敏感,也就是说帧一级的极值影响更明显。
方法二:在本发明的一个实施例中,步骤4中,长时信噪比也可以通过下式来计算:
Ai为第i帧的权重系数,N为包含语音的片段的总帧数,wj为第j个频点的权重系数,αij和Eij分别为带噪语音信号第i帧第j个时频点上的掩蔽值和对应幅度谱能量。
方法二计算得到的长时信噪比与瞬时信噪比相关,但对极小瞬时信噪比不太敏感,长时信噪比更容易受极大瞬时信噪比影响,所估计的长时信噪比偏高。
方法三:在本发明的一个实施例中,步骤4中,长时信噪比也可以通过下式来计算:
Ai为第i帧的权重系数,N为包含语音的片段的总帧数,wj为第j个频点的权重系数,αij和Eij分别为带噪语音信号第i帧第j个时频点上的掩蔽值和对应幅度谱能量。
方法三不依赖于瞬时信噪比,单独统计整个片段上的语音和噪声能量占比,可以更好地反映整个片段的长时信噪比。
在本发明的其他实施例中,为了增加高能量帧在信噪比中的影响力,还可以采用下式来设置信噪比加权系数Ai:
其中:Ei表示第i帧的幅度谱能量。
上述实施例中,在计算长时信噪比只考虑了包含语音信号的带噪语音片段。
而在某些特定应用场景下,需要计算整个带噪语音信号段的长时信噪比,具体地,可以通过信噪比加权系数Ai来控制不包含语音信号的带噪语音片段在整段信号的长时信噪比中的贡献。
本发明的一种语音信号信噪比估计方法,利用语音活动检测来对带噪语音信号分段,更准确地估计信噪比,计算信噪比时不需要原始干净语音信号和噪声信号,直接可以计算带噪语音信号的信噪比,利用时频掩蔽来估计带噪语音信号的信噪比,给出多种计算信噪比的方法,并且可以同时计算瞬时信噪比和长时信噪比;本发明的方法估计的SNR可以精确到每个时频点,这样就可以根据应用需求灵活控制每个时频点对最终估计的SNR的贡献,所估计的信噪比可以更好地反映应用在目标信号上的关注焦点,比如:在语音降噪场景下,SNR估计更关注的是1k~3k范围内的噪声强度;再比如在不存在目标语音的片段,噪声大小不是核心问题,因为可以很容易把这些噪声过滤掉,计算得到的语音信号信噪比有助于改善听觉体验。
见图3,在本发明的实施例中,还提供了一种语音信号信噪比估计模型,包括:
语音活动检测模块1,用于从输入的带噪语音信号中检测出包含语音信号的片段;
时频掩蔽预测模块2,用于对于从语音活动检测模块1检测出的包含语音信号的片段,估计每一帧信号中每个时频点上语音成分和噪声成分所占的比重,得到每一帧每个时频点的掩蔽值;
瞬时信噪比估计模块3,用于基于时频掩蔽预测模块2获得的每一帧每个时频点的掩蔽值,计算每一帧信号上的瞬时信噪比;
长时信噪比估计模块4,用于通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,根据瞬时信噪比估计模块3计算得到的每一帧的瞬时信噪比计算整个语音片段上的长时信噪比。
在本发明的实施例中,还提供了一种计算机装置,其包括:包括处理器、存储器以及程序;
程序存储在存储器中,处理器调用存储器存储的程序,以执行上述的语音信号信噪比估计方法。
该计算机装置可以是终端,其内部结构图可以如图2所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现语音信号信噪比估计方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机装置的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机装置外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机装置的限定,具体的计算机装置可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序,程序用于执行上述的语音信号信噪比估计方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中指定的功能。
以上对本发明所提供的语音信号信噪比估计方法、计算机装置、计算机可读存储介质的应用进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (17)
1.一种语音信号信噪比估计方法,其特征在于,包括以下步骤:
从输入的带噪语音信号中检测出包含语音信号的片段;
对于包含语音信号的片段,估计每一帧信号中每个时频点上语音成分和噪声成分所占的比重,得到每一帧每个时频点的掩蔽值;
通过累积每帧信号中所有时频点上语音成分和噪声成分的比重,基于每一帧每个时频点的掩蔽值计算每一帧信号上的瞬时信噪比;
通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比。
2.根据权利要求1所述的一种语音信号信噪比估计方法,其特征在于:采用能量阈值法、GMM建模法、SVM建模法或神经网络建模构中的任意一种构建语音活动检测模型,通过训练好的语音活动检测模型,从输入的带噪语音信号中检测出包含语音信号的片段。
3.根据权利要求1所述的一种语音信号信噪比估计方法,其特征在于:基于CGMM模型或者DNN模型构建时频掩蔽预测模型,将信号的频域特征输入训练好的时频掩蔽预测模型,输出每一帧上每个时频点的掩蔽值,所述掩蔽值用于表示每个时频点上语音成分和噪声成分所占的比重。
4.根据权利要求1所述的一种语音信号信噪比估计方法,其特征在于:采用理想比值掩蔽IRM值作为时频掩蔽预测模型预测的目标掩蔽值,其计算公式如下:
其中:|S(i,j)|和|N(i,j)|分别为干净语音信号和噪声信号的第i时刻第j个频点上的幅度,β为可调节尺度因子。
5.根据权利要求3所述的一种语音信号信噪比估计方法,其特征在于:在采用DNN模型构建时频掩蔽预测模型时,基于IMAGE算法仿真生成的训练集数据,所述训练集数据包括干净语音信号和噪声信号以及对应的IRM掩蔽值,基于DNN模型中的深度前馈短时记忆神经网络DFSMN构建时频掩蔽预测模型,通过有监督训练方式来学习模型权重,优化损失函数,获得训练好的时频掩蔽预测模型。
6.根据权利要求1所述的一种语音信号信噪比估计方法,其特征在于:所述的通过累积每帧信号中所有时频点上语音成分和噪声成分的比重,计算每一帧信号上的瞬时信噪比,具体如下执行:
根据当前帧每个时频点的掩蔽值,估计该帧的瞬时信噪比,计算方式如下:
其中:αij和Eij分别为带噪语音信号第i帧第j个时频点上的掩蔽值和对应幅度谱能量,M为总频点数,wj为第j个频点的权重系数,SNRi表示第i帧信号上的瞬时信噪比。
7.根据权利要求8所述的一种语音信号信噪比估计方法,其特征在于:在计算瞬时信噪比时,对于75Hz~4kHz频带上的频点设置更高的权重。
8.根据权利要求7所述的一种语音信号信噪比估计方法,其特征在于:最大采样率为16kHz且FFT窗长为1024点时,频点权重wj设计如下式:
9.根据权利要求7所述的一种语音信号信噪比估计方法,其特征在于:基于能够利用上下文信息的LSTM或DFSMN网络构建瞬时信噪比预测模型,基于训练频掩蔽预测模型的训练集数据训练瞬时信噪比预测模型,采用真实信噪比和预测信噪比的最小均方误差作为瞬时信噪比预测模型的损失函数,其中,真实信噪比通过生成带噪语音信号的干净语音信号和噪声信号来计算,优化损失函数获得训练好的瞬时信噪比预测模型,将每一帧时频点掩蔽向量和其对应的幅度谱输入训练好的瞬时信噪比预测模型,输出每个时频点的瞬时信噪比。
10.根据权利要求1所述的一种语音信号信噪比估计方法,其特征在于:对于检测为非语音信号的片段,其瞬时信噪比表示为:
如果该帧的频域幅度谱能量小于等于给定阈值ET,输出瞬时信噪比为0dB;如果该帧的频域幅度谱能量大于给定阈值ET,输出瞬时信噪比为最低信噪比SNRlow。
11.根据权利要求1所述的一种语音信号信噪比估计方法,其特征在于:所述的通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比,具体如下执行:
根据每一帧的瞬时信噪比,估计包含语音的片段的长时信噪比,计算方式如下:
其中:Ai为第i帧的权重系数,N为包含语音的片段的总帧数,通过对权重系数Ai进行调整来控制每一帧的瞬时信噪比对长时信噪比的影响。
12.根据权利要求1所述的一种语音信号信噪比估计方法,其特征在于:所述的通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比,具体如下执行:
Ai为第i帧的权重系数,N为包含语音的片段的总帧数,wj为第j个频点的权重系数,αij和Eij分别为带噪语音信号第i帧第j个时频点上的掩蔽值和对应幅度谱能量。
13.根据权利要求1所述的一种语音信号信噪比估计方法,其特征在于:所述的通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比,具体如下执行:
Ai为第i帧的权重系数,N为包含语音的片段的总帧数,wj为第j个频点的权重系数,αij和Eij分别为带噪语音信号第i帧第j个时频点上的掩蔽值和对应幅度谱能量。
14.根据权利要求11至13任意一项所述的一种语音信号信噪比估计方法,其特征在于:
采用下式来设置信噪比加权系数Ai:
其中:Ei表示第i帧的幅度谱能量。
15.一种语音信号信噪比估计模型,其特征在于,包括:
语音活动检测模块,用于从输入的带噪语音信号中检测出包含语音信号的片段;
时频掩蔽预测模块,用于对于从语音活动检测模块检测出的包含语音信号的片段,估计每一帧信号中每个时频点上语音成分和噪声成分所占的比重,得到每一帧每个时频点的掩蔽值;
瞬时信噪比估计模块,用于基于时频掩蔽预测模块获得的每一帧每个时频点的掩蔽值,计算每一帧信号上的瞬时信噪比;
长时信噪比估计模块,用于通过累积所有包含语音信号的片段上所有帧的语音成分和噪声成分的比重,计算整个语音片段上的长时信噪比。
16.一种计算机装置,其特征在于,其包括:包括处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行权利要求1所述的语音信号信噪比估计方法。
17.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质用于存储程序,所述程序用于执行权利要求1所述的语音信号信噪比估计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311087526.3A CN116959495A (zh) | 2023-08-28 | 2023-08-28 | 一种语音信号信噪比估计方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311087526.3A CN116959495A (zh) | 2023-08-28 | 2023-08-28 | 一种语音信号信噪比估计方法、系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116959495A true CN116959495A (zh) | 2023-10-27 |
Family
ID=88454749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311087526.3A Pending CN116959495A (zh) | 2023-08-28 | 2023-08-28 | 一种语音信号信噪比估计方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959495A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117630515A (zh) * | 2023-11-28 | 2024-03-01 | 中国地震局地震预测研究所 | 一种测温系统的噪声水平检测方法及装置 |
-
2023
- 2023-08-28 CN CN202311087526.3A patent/CN116959495A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117630515A (zh) * | 2023-11-28 | 2024-03-01 | 中国地震局地震预测研究所 | 一种测温系统的噪声水平检测方法及装置 |
CN117630515B (zh) * | 2023-11-28 | 2024-05-17 | 中国地震局地震预测研究所 | 一种测温系统的噪声水平检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3806089B1 (en) | Mixed speech recognition method and apparatus, and computer readable storage medium | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
JP6099556B2 (ja) | 音声識別方法および装置 | |
KR102288928B1 (ko) | 성도 면적 정보를 이용한 음성 활동 감지 | |
CN109801646B (zh) | 一种基于融合特征的语音端点检测方法和装置 | |
WO2012158156A1 (en) | Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood | |
EP3739583B1 (en) | Dialog device, dialog method, and dialog computer program | |
CN109616098B (zh) | 基于频域能量的语音端点检测方法和装置 | |
CN111785288A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN111722696B (zh) | 用于低功耗设备的语音数据处理方法和装置 | |
US20140270226A1 (en) | Adaptive modulation filtering for spectral feature enhancement | |
CN116959495A (zh) | 一种语音信号信噪比估计方法、系统 | |
CN109346062A (zh) | 语音端点检测方法及装置 | |
Bach et al. | Discriminative training of hidden markov models for multiple pitch tracking [speech processing examples] | |
US20240194220A1 (en) | Position detection method, apparatus, electronic device and computer readable storage medium | |
CN112750461B (zh) | 语音通信优化方法、装置、电子设备及可读存储介质 | |
CN113314127A (zh) | 基于空间方位的鸟鸣识别方法、系统、计算机设备与介质 | |
CN110390947A (zh) | 声源位置的确定方法、系统、设备和存储介质 | |
Hanilçi et al. | Comparing spectrum estimators in speaker verification under additive noise degradation | |
JP6891144B2 (ja) | 生成装置、生成方法及び生成プログラム | |
Zhang et al. | Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging | |
Li et al. | Recurrent neural networks and acoustic features for frame-level signal-to-noise ratio estimation | |
CN111755029B (zh) | 语音处理方法、装置、存储介质以及电子设备 | |
CN113077812A (zh) | 语音信号生成模型训练方法、回声消除方法和装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |