CN112735460B - 基于时频掩蔽值估计的波束成形方法及系统 - Google Patents
基于时频掩蔽值估计的波束成形方法及系统 Download PDFInfo
- Publication number
- CN112735460B CN112735460B CN202011557418.4A CN202011557418A CN112735460B CN 112735460 B CN112735460 B CN 112735460B CN 202011557418 A CN202011557418 A CN 202011557418A CN 112735460 B CN112735460 B CN 112735460B
- Authority
- CN
- China
- Prior art keywords
- time
- voice
- masking value
- frequency masking
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000873 masking effect Effects 0.000 title claims abstract description 132
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000001228 spectrum Methods 0.000 claims abstract description 43
- 239000011159 matrix material Substances 0.000 claims abstract description 42
- 238000003062 neural network model Methods 0.000 claims abstract description 16
- 230000009466 transformation Effects 0.000 claims abstract description 10
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 238000013480 data collection Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000007493 shaping process Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 20
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明属于语音增强技术领域,特别涉及一种基于时频掩蔽值估计的波束成形方法及系统,方法包含:获取多通道语音序列,通过傅里叶变换提取幅度谱特征和空域特征;对幅度谱特征通过对数变换得到多通道语音频谱特征序列,送入预先训练优化的神经网络模型获取复值时频掩蔽值;将复值时频掩蔽值转换为语音存在概率,利用概率模型获取时频掩蔽值;由时频掩蔽值及多通道语音特征序列计算语音信号协方差矩阵,对协方差矩阵进行特征值分解获取波束成形滤波器系数;结合波束成形滤波器系数,利用波束成形滤波器对多通道语音序列语音特征滤波处理,得到增强语音信号。本发明集成神经网络和空域聚类进行时频掩蔽值估计,提升波束形成和语音识别的性能。
Description
技术领域
本发明属于语音增强技术领域,特别涉及一种基于时频掩蔽值估计的波束成形方法及系统。
背景技术
语音编码和语音识别研究常常是在实验室条件下进行的,也就是在信噪比很高或无噪声的环境中进行的。因此当语音处理从实验室走向实际应用时,由于实际环境噪声与干扰的存在,会使许多方法无法使用,性能急速下降。因此研究对受噪降质语音改善其听觉效果或提髙信噪比的处理,是面临的必须解决的实际问题。语音增强本质就是语音降噪,换句话说,日常生活中,麦克风采集的语音通常是带有不同噪声的“污染”语音,语音增强的主要目的就是从这些被“污染”的带噪语音中恢复出我们想要的干净语音。语音增强涉及的应用领域十分广泛,包括语音通话、电话会议、场景录音、助听器设备和语音识别设备等,并成为许多语音编码和识别系统的预处理模块。现有语音增强处理中,基于神经网络的时频掩蔽值估计存在训练-测试数据不匹配问题,影响了性能,基于空域聚类的时频掩蔽值估计存在迭代时间长的问题,同时现有实值掩蔽值都是利用了特征的幅度信息,没有充分利用特征中的相位信息,语音和噪声存在概率的估计准确性均有待提升。
发明内容
为此,本发明提供一种基于时频掩蔽值估计的波束成形方法及系统,集成神经网络和空域聚类进行时频掩蔽值估计,提升波束形成和语音识别的性能。
按照本发明所提供的设计方案,一种基于时频掩蔽值估计的波束成形方法,用于语音识别应用中的语音增强,包含如下内容:
获取多通道语音序列,对语音序列进行傅里叶变换并提取幅度谱特征和空域特征;
对幅度谱特征通过对数变换得到多通道语音频谱特征序列;将多通道语音频谱特征序列送入预先训练优化的神经网络模型,通过该神经网络模型获取复值时频掩蔽值;
将复值时频掩蔽值转换为语音存在概率,利用概率模型并通过模型求解来获取时频掩蔽值;
由时频掩蔽值及多通道语音序列语音特征计算语音信号协方差矩阵,通过对协方差矩阵进行特征值分解获取波束成形滤波器系数;
结合波束成形滤波器系数,利用波束成形滤波器对多通道语音序列语音特征进行滤波处理,得到增强语音信号。
作为本发明基于时频掩蔽值估计的波束成形方法,进一步的,语音序列傅里叶变换中,利用通道轴正则化观察向量的方向统计量来提取空域特征。
作为本发明基于时频掩蔽值估计的波束成形方法,进一步地,利用样本数据对神经网络模型训练优化,其中,样本数据中包含对纯净语音进行预处理后的含噪语音数据及所对应的复值时频掩蔽值标签。
作为本发明基于时频掩蔽值估计的波束成形方法,进一步地,依据纯净语音频谱、噪声频谱及含噪语音频谱对样本数据中的复值时频掩蔽值进行标签处理。
作为本发明基于时频掩蔽值估计的波束成形方法,进一步地,基于概率分布对多通道语音序列的空域特征构建概率模型,将依据复值时频掩蔽值转换得到的语音存在概率作为初始掩蔽值,通过期望最大化算法迭代更新概率模型参数来估计时频掩蔽值。
作为本发明基于时频掩蔽值估计的波束成形方法,进一步地,对于通过概率模型获取到处理频带宽度下不同频率的时频掩蔽值序列,计算用于表征不同时频掩蔽值序列之间的相似性的相关系数,依据相关系数获取相关系数矩阵;并依据设定排序方程score[Q]=sum(diag(Q))-sum(offdiag(Q))来获取处理频带中使得score最大值所对应的时频掩蔽值序列,将该时频掩蔽值序列作为扰动对齐处理后用于计算波束成形滤波器系数的时频掩蔽值,其中,diag(Q)和offdiag(Q)分别表示相关系数矩阵Q中对角线元素和非对角线元素。
作为本发明基于时频掩蔽值估计的波束成形方法,进一步地,由时频掩蔽值和多通道语音特征序列计算含噪语音和噪声的协方差矩阵,依据两者的协方差矩阵获取语音信号的协方差矩阵;对语音信号协方差矩阵进行特征值分解,依据最大特征值对应的特征矢量来获取导引矢量估计值;结合含噪语音协方差矩阵和导引矢量估计值获取波束成形滤波器系数。
进一步地,本发明还提供一种基于时频掩蔽值估计的波束成形系统,用于语音识别应用中的语音增强,包含:数据收集模块、数据处理模块、数据转换模块、系数获取模块和滤波成形模块,其中,
数据收集模块,用于获取多通道语音序列,对语音序列进行傅里叶变换并提取幅度谱特征和空域特征;
数据处理模块,用于对幅度谱特征通过对数变换得到多通道语音频谱特征序列;将多通道语音频谱特征序列送入预先训练优化的神经网络模型,通过该神经网络模型获取复值时频掩蔽值;
数据转换模块,用于将复值时频掩蔽值转换为语音存在概率,利用概率模型并通过模型求解来获取时频掩蔽值;
系数获取模块,用于由时频掩蔽值及多通道语音序列语音特征计算语音信号协方差矩阵,通过对协方差矩阵进行特征值分解获取波束成形滤波器系数;
滤波成形模块,用于结合波束成形滤波器系数,利用波束成形滤波器对多通道语音序列语音特征进行滤波处理,得到增强语音信号。
本发明的有益效果:
本发明将基于神经网络估计的复值时频掩蔽值转换为语音和噪声的存在概率,将其作为基于空域聚类方法的初始掩蔽值,通过复值时频掩蔽值提升了存在概率估计的准确性,通过更准确的初始掩蔽值减少了EM算法迭代估计掩蔽值所需的时间,通过空域聚类的无监督方式有效解决了基于神经网络的时频掩蔽值估计存在的训练测试数据不匹配问题,集成神经网络和空域聚类进行时频掩蔽值估计,提升波束形成和语音识别的性能,具有较好的应用前景。
附图说明:
图1为实施例中基于时频掩蔽值估计的波束成形方法流程示意;
图2为实施例中用于波束成形的集成模型工作原理示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
本发明实施例,参见图1所示,提供一种基于时频掩蔽值估计的波束成形方法,用于语音识别应用中的语音增强,包含如下内容:
S101、获取多通道语音序列,对语音序列进行傅里叶变换并提取幅度谱特征和空域特征;
S102、对幅度谱特征通过对数变换得到多通道语音频谱特征序列;将多通道语音频谱特征序列送入预先训练优化的神经网络模型,通过该神经网络模型获取复值时频掩蔽值;
S103、将复值时频掩蔽值转换为语音存在概率,利用概率模型并通过模型求解来获取时频掩蔽值;
S104、由时频掩蔽值及多通道语音序列语音特征计算语音信号协方差矩阵,通过对协方差矩阵进行特征值分解获取波束成形滤波器系数;
S105、结合波束成形滤波器系数,利用波束成形滤波器对多通道语音序列语音特征进行滤波处理,得到增强语音信号。
将基于神经网络估计的复值时频掩蔽值转换为语音和噪声的存在概率,将其作为基于空域聚类方法的初始掩蔽值,通过复值时频掩蔽值提升了存在概率估计的准确性,通过更准确的初始掩蔽值减少了EM算法迭代估计掩蔽值所需的时间,通过空域聚类的无监督方式有效解决了基于神经网络的时频掩蔽值估计存在的训练测试数据不匹配问题,提升语音识别效率和准确性。
作为本发明实施例中的基于时频掩蔽值估计的波束成形方法,进一步的,语音序列傅里叶变换中,利用通道轴正则化观察向量的方向统计量来提取空域特征。进一步地,利用样本数据对神经网络模型训练优化,其中,样本数据中包含对纯净语音进行预处理后的含噪语音数据及所对应的复值时频掩蔽值标签。进一步地,依据纯净语音频谱、噪声频谱及含噪语音频谱对样本数据中的复值时频掩蔽值进行标签处理。
通过将仿真数据以及所对应标签送入到神经网络,进行时频掩蔽值估计的神经网络的训练,训练后将多通道语音特征序列[x1(t,f),x2(t,f),...,xD(t,f))]逐个、逐段输入到神经网络,输出多通道复值时频掩蔽值[M1(t,f),M2(t,f),......,MD(t,f)]。通过对于纯净语音s(t)进行加噪、加混响得到含噪语音y(t),通过纯净语音频谱S(t,f),噪声频谱N(t,f)和含噪语音频谱Y(t,f)得到复值时频掩蔽值:将含噪语音频谱Y(t,f)进行对数变换后作为神经网络的输入,将复值时频掩蔽值的实部Mr(t,f)和虚部M(t,f)作为神经网络的输出送入到神经网络进行神经网络的训练;将多通道语音序列[x1(n),x2(n),......,xD(n)]进行傅里叶变换,并将所得的幅度谱特征进行对数变换得到多通道语音频谱特征序列[x1(t,f),x2(t,f),...,xD(t,f))],将特征序列送入到训练好的神经网络中得到估计的复值时频掩蔽值Ms(t,f)和Mn(t,f)。
作为本发明实施例中的基于时频掩蔽值估计的波束成形方法,进一步地,基于概率分布对多通道语音序列的空域特征构建概率模型。进一步地,将依据复值时频掩蔽值转换得到的语音存在概率作为初始掩蔽值,通过期望最大化算法迭代更新概率模型参数来估计时频掩蔽值。
基于空域聚类的时频掩蔽值估计通过将神经网络估计的掩蔽值Ms(t,f)、Mn(t,f)转换为语音存在概率ps(t,f)和pn(t,f)作为初始掩蔽值通过EM算法,迭代更新概率模型的参数,并迭代估计时频掩蔽值,收敛后输出估计的时频掩蔽值将多通道语音序列[x1(n),x2(n),......,xD(n)]进行傅里叶变换,并在通道轴正则化得到观察向量的方向统计量z(t,f);将神经网络估计的复值时频掩蔽值M(t,f)转换为语音存在概率p(t,f):将转换后的语音存在概率设定为EM算法的初始掩蔽值,通过特定的概率分布对于多通道语音的空域特征z(t,f)进行建模;通过EM算法迭代更新概率模型的参数,直到对数似然函数收敛,得到迭代估计的时频掩蔽值和
作为本发明实施例中基于时频掩蔽值估计的波束成形方法,进一步地,对于通过概率模型获取到处理频带宽度下不同频率的时频掩蔽值序列,计算用于表征不同时频掩蔽值序列之间的相似性的相关系数,依据相关系数获取相关系数矩阵;并依据设定排序方程score[Q]=sum(diag(Q))-sum(offdiag(Q))来获取处理频带中使得score最大值所对应的时频掩蔽值序列,将该时频掩蔽值序列作为扰动对齐处理后用于计算波束成形滤波器系数的时频掩蔽值,其中,diag(Q)和offdiag(Q)分别表示相关系数矩阵Q中对角线元素和非对角线元素。
通过概率模型估计所得的时频掩蔽值表征了在某个时频点上语音或者噪声的存在概率,但是在估计的过程中因不同的频率之间是独立估计的,会导致不同频率下相同的类别下标会对应不同的成分即语音或噪声。扰动对齐利用了同一种成分在不同的频率下具有相似模式的特性,这是因为同一个声源在时间轴上具有特定的活跃模式即静音段、起始点、终止点。对于两个不同频率的时频掩蔽值序列λs(f1)、λs(f2)、λn(f1)、λn(f2),通过计算相关系数表征不同的时频掩蔽值序列之间的相似性和不相似性,相关系数计算公式如下:
其中N为处理的频带宽度,定义一种排序情况下的分数:
score[Q]=sum(diag(Q))-sum(offdiag(Q))
其中diag和offdiag分别表示矩阵中对角线元素和非对角线元素,通过找到一种排序方式使得处理频带中使得score取得最大值,所得时频掩蔽值序列即为扰动对齐处理后的时频掩蔽值。
作为本发明实施例中基于时频掩蔽值估计的波束成形方法,进一步地,由时频掩蔽值和多通道语音特征序列计算含噪语音和噪声的协方差矩阵,依据两者的协方差矩阵获取语音信号的协方差矩阵;对语音信号协方差矩阵进行特征值分解,依据最大特征值对应的特征矢量来获取导引矢量估计值;结合含噪语音协方差矩阵和导引矢量估计值获取波束成形滤波器系数。
基于时频掩蔽值进行波束形成采用的是最小方差无失真响应(MVDR)波束形成。输入为每个时频点上语音和噪声的存在概率即估计的时频掩蔽值和由掩蔽值和多通道语音特征序列[x1(t,f),x2(t,f),......,xD(t,f)]计算协方差矩阵Rx+n(f)、Rn(f)并由此得到导引矢量的估计值r(f),进而计算得到波束形成滤波器的系数w(f),输出为多通道语音进行滤波处理后得到的增强语音通过估计的时频掩蔽值和多通道语音特征序列[x1(t,f),x2(t,f),......,xD(t,f)]计算含噪语音和噪声的协方差矩阵Rx+n(f)、Rn(f),并由此得到语音的协方差矩阵Rx(f)=Rx+n(f)-Rn(f);对语音信号的协方差矩阵Rx(f)进行特征值分解,最大特征值对应的特征矢量为导引矢量r(f)的估计值;通过含噪语音的协方差矩阵Rx+n(f)和导引矢量的估计值r(f)计算得到波束形成滤波器系数w(f);对于多通道语音特征序列进行滤波处理得到增强语音
进一步地,基于上述的方法,本发明实施例还提供一种基于时频掩蔽值估计的波束成形系统,用于语音识别应用中的语音增强,包含:数据收集模块、数据处理模块、数据转换模块、系数获取模块和滤波成形模块,其中,
数据收集模块,用于获取多通道语音序列,对语音序列进行傅里叶变换并提取幅度谱特征和空域特征;
数据处理模块,用于对幅度谱特征通过对数变换得到多通道语音频谱特征序列;将多通道语音频谱特征序列送入预先训练优化的神经网络模型,通过该神经网络模型获取复值时频掩蔽值;
数据转换模块,用于将复值时频掩蔽值转换为语音存在概率,利用概率模型并通过模型求解来获取时频掩蔽值;
系数获取模块,用于由时频掩蔽值及多通道语音序列语音特征计算语音信号协方差矩阵,通过对协方差矩阵进行特征值分解获取波束成形滤波器系数;
滤波成形模块,用于结合波束成形滤波器系数,利用波束成形滤波器对多通道语音序列语音特征进行滤波处理,得到增强语音信号。
参见图2所示,神经网络可由一层LSTM和两层全连接层组成,利用过去帧的信息用于估计掩蔽值;基于空域聚类方法的时频掩蔽值估计采用复角中心高斯混合模型对观察信号的方向统计量的分布进行建模,复角中心高斯混合模型不仅仅可以控制模型的位置和聚散程度,还可以控制分布的形状和旋转,可以更好地近似方向统计量的分布。输入仿真语音和对应的复值时频掩蔽值将多通道含噪语音[x1(t),x2(t),......,xD(t)]输入到训练好的神经网络中,得到估计的复值时频掩蔽值Ms(t,f)、Mn(t,f)由估计的复值时频掩蔽值Ms(t,f)、Mn(t,f)计算存在概率ps(t,f)、pn(t,f):将存在概率pv(t,f)作为复角中心高斯混合模型的初始掩蔽值求多通道语音的方向统计量通过复角中心高斯混合模型对其进行建模:通过EM算法迭代更新估计的掩蔽值λv(t,f)和参数
EM算法收敛后,输出时频掩蔽值由估计的时频掩蔽值和多通道含噪语音特征序列x(t,f)=[x1(t,f),x2(t,f),......,xD(t,f)]求得协方差矩阵Rx+n(f)、Rn(f)、Rx(f):
R(x)(f)=R(x+n)(f)-R(n)(f)
对于期望语音信号的协方差矩阵R(x)(f)进行特征分解,最大特征值对应的主特征矢量为导引矢量r(f)的估计值;由导引矢量r(f)和含噪语音的协方差矩阵R(x+n)(f)计算MVDR波束形成滤波器的系数wMVDR(f):
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的方法或系统,本发明实施例还提供一种网络设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的系统或执行上述的方法。
基于上述的系统,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的系统。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述系统实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述系统实施例中相应内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述系统实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种基于时频掩蔽值估计的波束成形方法,用于语音识别应用中的语音增强,其特征在于,包含如下内容:
获取多通道语音序列,对语音序列进行傅里叶变换并提取幅度谱特征和空域特征;
对幅度谱特征通过对数变换得到多通道语音频谱特征序列;将多通道语音频谱特征序列送入预先训练优化的神经网络模型,通过该神经网络模型获取复值时频掩蔽值;
将复值时频掩蔽值转换为语音存在概率,利用概率模型并通过模型求解来获取时频掩蔽值;
由时频掩蔽值及多通道语音序列语音特征计算语音信号协方差矩阵,通过对协方差矩阵进行特征值分解获取波束成形滤波器系数;
结合波束成形滤波器系数,利用波束成形滤波器对多通道语音序列语音特征进行滤波处理,得到增强语音信号。
2.根据权利要求1所述的基于时频掩蔽值估计的波束成形方法,其特征在于,语音序列傅里叶变换中,利用通道轴正则化观察向量的方向统计量来提取空域特征。
3.根据权利要求1所述的基于时频掩蔽值估计的波束成形方法,其特征在于,利用样本数据对神经网络模型训练优化,其中,样本数据中包含对纯净语音进行预处理后的含噪语音数据及所对应的复值时频掩蔽值标签。
4.根据权利要求3所述的基于时频掩蔽值估计的波束成形方法,其特征在于,依据纯净语音频谱、噪声频谱及含噪语音频谱对样本数据中的复值时频掩蔽值进行标签处理。
5.根据权利要求1所述的基于时频掩蔽值估计的波束成形方法,其特征在于,基于概率分布对多通道语音序列的空域特征构建概率模型,将依据复值时频掩蔽值转换得到的语音存在概率作为初始掩蔽值,通过期望最大化算法迭代更新概率模型参数来估计时频掩蔽值。
6.根据权利要求1或5所述的基于时频掩蔽值估计的波束成形方法,其特征在于,对于通过概率模型获取到处理频带宽度下不同频率的时频掩蔽值序列,计算用于表征不同时频掩蔽值序列之间的相似性的相关系数,依据相关系数获取相关系数矩阵;并依据设定排序方程score[Q]=sum(diag(Q))-sum(offdiag(Q))来获取处理频带中使得score最大值所对应的时频掩蔽值序列,将该时频掩蔽值序列作为扰动对齐处理后用于计算波束成形滤波器系数的时频掩蔽值,其中,diag(Q)和offdiag(Q)分别表示相关系数矩阵Q中对角线元素和非对角线元素。
7.根据权利要求1所述的基于时频掩蔽值估计的波束成形方法,其特征在于,由时频掩蔽值和多通道语音特征序列计算含噪语音和噪声的协方差矩阵,依据两者的协方差矩阵获取语音信号的协方差矩阵;对语音信号协方差矩阵进行特征值分解,依据最大特征值对应的特征矢量来获取导引矢量估计值;结合含噪语音协方差矩阵和导引矢量估计值获取波束成形滤波器系数。
8.一种基于时频掩蔽值估计的波束成形系统,用于语音识别应用中的语音增强,其特征在于,包含:数据收集模块、数据处理模块、数据转换模块、系数获取模块和滤波成形模块,其中,
数据收集模块,用于获取多通道语音序列,对语音序列进行傅里叶变换并提取幅度谱特征和空域特征;
数据处理模块,用于对幅度谱特征通过对数变换得到多通道语音频谱特征序列;将多通道语音频谱特征序列送入预先训练优化的神经网络模型,通过该神经网络模型获取复值时频掩蔽值;
数据转换模块,用于将复值时频掩蔽值转换为语音存在概率,利用概率模型并通过模型求解来获取时频掩蔽值;
系数获取模块,用于由时频掩蔽值及多通道语音序列语音特征计算语音信号协方差矩阵,通过对协方差矩阵进行特征值分解获取波束成形滤波器系数;
滤波成形模块,用于结合波束成形滤波器系数,利用波束成形滤波器对多通道语音序列语音特征进行滤波处理,得到增强语音信号。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时执行权利要求1~7任一项所述的方法。
10.一种计算机设备,包含处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以执行权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011557418.4A CN112735460B (zh) | 2020-12-24 | 2020-12-24 | 基于时频掩蔽值估计的波束成形方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011557418.4A CN112735460B (zh) | 2020-12-24 | 2020-12-24 | 基于时频掩蔽值估计的波束成形方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112735460A CN112735460A (zh) | 2021-04-30 |
CN112735460B true CN112735460B (zh) | 2021-10-29 |
Family
ID=75615641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011557418.4A Active CN112735460B (zh) | 2020-12-24 | 2020-12-24 | 基于时频掩蔽值估计的波束成形方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735460B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377331B (zh) * | 2021-07-05 | 2023-04-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备及存储介质 |
CN113689870A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 一种多通道语音增强方法及其装置、终端、可读存储介质 |
CN113707136B (zh) * | 2021-10-28 | 2021-12-31 | 南京南大电子智慧型服务机器人研究院有限公司 | 服务型机器人语音交互的音视频混合语音前端处理方法 |
CN113889137B (zh) * | 2021-12-06 | 2022-04-01 | 中国科学院自动化研究所 | 麦克风阵列语音增强的方法、装置、电子设备及存储介质 |
CN115359804B (zh) * | 2022-10-24 | 2023-01-06 | 北京快鱼电子股份公司 | 一种基于麦克风阵列的定向音频拾取方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417224A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 双向神经网络模型的训练和识别方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7620546B2 (en) * | 2004-03-23 | 2009-11-17 | Qnx Software Systems (Wavemakers), Inc. | Isolating speech signals utilizing neural networks |
US10546593B2 (en) * | 2017-12-04 | 2020-01-28 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
-
2020
- 2020-12-24 CN CN202011557418.4A patent/CN112735460B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417224A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 双向神经网络模型的训练和识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
DNN-Based Speech Presence Probability Estimation for Multi-Frame Single-Microphone Speech Enhancement;M. Tammen等;《ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20200514;全文 * |
基于深度学习的语音增强算法研究;刘亚楠;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112735460A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112735460B (zh) | 基于时频掩蔽值估计的波束成形方法及系统 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN109890043B (zh) | 一种基于生成式对抗网络的无线信号降噪方法 | |
CN110148420A (zh) | 一种适用于噪声环境下的语音识别方法 | |
US11894010B2 (en) | Signal processing apparatus, signal processing method, and program | |
CN112331224A (zh) | 轻量级时域卷积网络语音增强方法与系统 | |
Nesta et al. | Convolutive underdetermined source separation through weighted interleaved ICA and spatio-temporal source correlation | |
CN112133321B (zh) | 一种基于盲源分离的水声信号高斯/非高斯噪声抑制方法 | |
CN112992173B (zh) | 基于改进bca盲源分离的信号分离和去噪方法 | |
JP7486266B2 (ja) | 深層フィルタを決定するための方法および装置 | |
CN112309411A (zh) | 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统 | |
CN111816200B (zh) | 一种基于时频域二值掩膜的多通道语音增强方法 | |
Kubo et al. | Efficient full-rank spatial covariance estimation using independent low-rank matrix analysis for blind source separation | |
CN111508516A (zh) | 基于信道关联时频掩膜的语音波束形成方法 | |
CN112037813B (zh) | 一种针对大功率目标信号的语音提取方法 | |
Togami | Multi-channel speech source separation and dereverberation with sequential integration of determined and underdetermined models | |
CN111681649B (zh) | 语音识别方法、交互系统及包括该系统的成绩管理系统 | |
KR101568282B1 (ko) | 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치 | |
Chowdhury et al. | Speech enhancement using k-sparse autoencoder techniques | |
Inoue et al. | Sepnet: a deep separation matrix prediction network for multichannel audio source separation | |
CN112652321A (zh) | 一种基于深度学习相位更加友好的语音降噪系统及方法 | |
CN112951264B (zh) | 一种基于混合式概率模型的多通道声源分离方法 | |
Srinivasarao | Speech signal analysis and enhancement using combined wavelet Fourier transform with stacked deep learning architecture | |
KR102358151B1 (ko) | 컨볼루션 순환신경망을 이용한 잡음 제거 방법 | |
CN113744754B (zh) | 语音信号的增强处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |