CN110400572A - 音频增强方法及系统 - Google Patents
音频增强方法及系统 Download PDFInfo
- Publication number
- CN110400572A CN110400572A CN201910738885.8A CN201910738885A CN110400572A CN 110400572 A CN110400572 A CN 110400572A CN 201910738885 A CN201910738885 A CN 201910738885A CN 110400572 A CN110400572 A CN 110400572A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- cgmm
- unit
- covariance matrix
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 68
- 239000011159 matrix material Substances 0.000 claims abstract description 64
- 238000001228 spectrum Methods 0.000 claims abstract description 35
- 230000002708 enhancing effect Effects 0.000 claims abstract description 28
- 230000000873 masking effect Effects 0.000 claims abstract description 25
- 230000004044 response Effects 0.000 claims abstract description 18
- 238000007635 classification algorithm Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000015654 memory Effects 0.000 description 15
- 238000003860 storage Methods 0.000 description 15
- 238000004590 computer program Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000007547 defect Effects 0.000 description 5
- 238000003672 processing method Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 239000004568 cement Substances 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000004304 visual acuity Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开音频增强方法。通过波达方向估计算法获取原始多路音频的空间谱。从空间谱中获取大于设定阈值的多个峰值;根据DOA波达估计方法获取多个峰值的多个估计方向值。根据多个估计方向值及麦克风阵列的导向矢量获取多个估计方向值的空间协方差矩阵。根据空间协方差矩阵初始化并建立CGMM复高斯混合模型;通过聚类方法迭代更新CGMM复高斯混合模型的参数。通过MVDR最小方差无失真响应波束形成算法增强原始多路音频来获得增强音频。该方法以减少EM算法迭代更新CGMM模型参数的次数,大大地减小计算量。同时,各频带得到的时频点掩蔽值类别是确定的,从而可以将各个频带相同类别的掩蔽值合并在一起,克服了排序模糊的问题。
Description
技术领域
本发明属于语音识别的技术领域,尤其涉及音频增强方法及系统。
背景技术
目前,多通过CGMM(complex Gaussian mixture model,复高斯混合模型)得到时频点的掩蔽值,再利用MVDR(minimum variance distortionless response,最小方差无失真响应)进行语音增强。
然而,上述方法的缺陷主要是以下两个方面,第一个方面随机初始化CGMM模型参数后,为了使得CGMM模型达到较好的效果,通常需要用EM算法迭代更新参数20次以上,因而算法的计算复杂度非常大。第二个方面缺陷,由于该算法是在频域进行的,各频带之间的计算是相互独立的。在每个频带使用CGMM方法聚类得到多个类别的掩蔽值时,各掩蔽值所对应的类别是不确定的。因此,无法将同一类别在所有频率的掩蔽值组合起来,即上述技术会导致排序模糊问题。
对上述现有技术中的缺陷,现有技术中会预先录制各类别的原始音频作为训练集,得到空间协方差矩阵作为CGMM的初始化值。但是当所使用的初始值跟实际使用场景差异较大时,上述两方面的缺陷均无法得到提升,从而影响后期的语音识别。
发明人在实现本申请的过程中发现:
现有技术中的方法在实现过程中,为了保证音频的后期应用,如识别等操作,需要多次迭代原始采集的音频,因而算法的计算复杂度非常大。各掩蔽值所对应的类别是不确定的,导致排序模糊问题。
发明内容
本发明实施方式提供音频增强方法及系统,用于至少解决上述技术问题之一。
第一方面,本发明提供了音频增强方法,该方法包括:
步骤S101,通过波达方向估计算法获取原始多路音频的空间谱,原始多路音频通过麦克风阵列采集获取。
步骤S102,从空间谱中获取大于设定阈值的多个峰值。根据DOA波达估计方法获取多个峰值的多个估计方向值。根据多个估计方向值及麦克风阵列的导向矢量获取多个估计方向值的空间协方差矩阵。
步骤S103,根据空间协方差矩阵初始化并建立CGMM复高斯混合模型。
步骤S104,通过聚类方法迭代更新CGMM复高斯混合模型的参数。
步骤S105,通过MVDR最小方差无失真响应波束形成算法增强原始多路音频,获取增强音频文件。
在本发明另一种增强的实施方式中,步骤S103中还包括,根据多个估计方向值的协方差矩阵初始化并建立CGMM复高斯混合模型;将CGMM复高斯混合模型中的噪声类初始化为单位矩阵。
在本发明再一种增强的实施方式中,步骤S104中还包括:通过迭代后的CGMM复高斯混合模型获取各类别在时频点的掩蔽值。步骤S105中还包括。步骤S1051,根据原始音频协方差矩阵及各类别在时频点的掩蔽值获取干扰和噪声协方差矩阵。步骤S1052,根据干扰和噪声协方差矩阵、多个估计方向值及导向矢量获取波束形成器的最优权值。步骤S1053,通过波束形成器实现MVDR最小方差无失真响应波束形成算法。
在本发明又一种增强的实施方式中,步骤S101中波达方向估计算法为MUSIC多重信号分类算法。
在本发明又一种增强的实施方式中,步骤S104中包括,通过设定迭代算法及设定迭代次数迭代CGMM模型的参数。迭代算法为EM期望最大化算法。迭代次数为4~5次。
在本发明又一种增强的实施方式中,步骤S105后还包括,步骤S106,通过语音识别算法识别增强音频文件,获取语音识别结果。
第二方面,本发明提供了音频增强系统,包括空间谱创建单元、矩阵获取单元、模型建立单元、迭代单元及增强单元,其中,
空间谱创建单元,配置为通过波达方向估计算法获取原始多路音频的空间谱,原始多路音频通过麦克风阵列采集获取。
矩阵获取单元,配置为从空间谱中获取大于设定阈值的多个峰值。根据DOA波达估计方法获取多个峰值的多个估计方向值。根据多个估计方向值及麦克风阵列的导向矢量获取多个估计方向值的空间协方差矩阵。
模型建立单元,配置为根据空间协方差矩阵初始化并建立CGMM复高斯混合模型。
迭代单元,配置为通过聚类方法迭代更新CGMM复高斯混合模型的参数。
增强单元,配置为通过MVDR最小方差无失真响应波束形成算法增强所述原始多路音频,获取增强音频。
在本发明音频增强系统的另一种增强的实施方式中,根据多个估计方向值的协方差矩阵初始化并建立CGMM复高斯混合模型;将CGMM复高斯混合模型中的噪声类初始化为单位矩阵。
在本发明音频增强系统的另一种增强的实施方式中,其中,迭代单元还配置为,通过迭代后的CGMM复高斯混合模型获取时频点的掩蔽值。
增强单元还配置为,根据原始音频协方差矩阵及各类别在时频点的掩蔽值获取干扰和噪声协方差矩阵。
根据干扰和噪声协方差矩阵、多个估计方向值及导向矢量获取波束形成器的最优权值。
通过波束形成器实现MVDR最小方差无失真响应波束形成算法。
在本发明音频增强系统的又一种增强的实施方式中,空间谱创建单元中波达方向估计算法为MUSIC多重信号分类算法。迭代单元还配置为,通过设定迭代算法及设定迭代次数迭代CGMM高斯混合模型的参数。迭代算法为EM期望最大化算法。迭代次数为4~5次。
音频增强系统还包括,语音识别单元,语音识别单元配置为,通过语音识别算法识别增强音频文件,获取语音识别结果。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施方式的方法的步骤。
第四方面,本发明实施方式还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行本发明任一实施方式的方法的步骤。
由于该方法所得CGMM模型参数的初始值是由实际场景的音频获得的,与随机矩阵、或训练集音频得到协方差相比,是较为准确的。因此可以减少EM算法迭代更新CGMM模型参数的次数,大大地减小计算量。此外,在一些计算复杂度受限制的设备上,能进行CGMM参数更新的次数是有限的,用已有初始化方法很可能达不到好的增强效果,而基于DOA的初始化方法所需迭代次数较少,因此语音增强效果更好。
同时,基于DOA方法得到CGMM的初始值时,由于同一类别在各频带间的DOA信息是一致的,各频带得到的时频点掩蔽值类别是确定的,从而可以将各个频带相同类别的掩蔽值合并在一起,克服了排序模糊的问题。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施方式提供的音频增强方法的流程图。
图2为本发明一实施方式提供的步骤S105中的细分流程图。
图3为本发明另一种实施方式提供的音频增强方法的流程图。
图4为本发明一实施方式提供的还提供了音频增强系统的组合示意图。
图5为本发明另一实施方式提供的还提供了音频增强系统的组合示意图。
图6为本发明又一种实施方式提供的音频增强方法的流程图。
图7是本发明一实施方式提供的电子设备的结构示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
为了解决现有方法两方面的缺陷,本发明采用波达方向估计方法对原始多路音频进行处理,得到原始音频的空间谱信息。从空间谱中选取大于设定阈值的峰值所对应的DOA(direction of arrival,波达方向),并计算出各方向信号的空间协方差矩阵作为CGMM模型参数的初始值。
由于该方法所得CGMM模型参数的初始值是由实际场景的音频获得的,与随机矩阵、或训练集音频得到协方差相比,是较为准确的。因此可以减少EM算法迭代更新CGMM模型参数的次数,大大地减小计算量。此外,在一些计算复杂度受限制的设备上,能进行CGMM参数更新的次数是有限的,用已有初始化方法很可能达不到好的增强效果,而基于DOA的初始化方法所需迭代次数较少,因此语音增强效果更好。
同时,基于DOA方法得到CGMM的初始值时,由于同一类别在各频带间的DOA信息是一致的,各频带得到的时频点掩蔽值类别是确定的,从而可以将各个频带相同类别的掩蔽值合并在一起,克服了排序模糊的问题
第一方面,如图1所示,本发明提供了音频增强方法,该方法包括:
步骤S101,创建空间谱。
本步骤中,通过波达方向估计算法获取原始多路音频的空间谱,原始多路音频通过麦克风阵列采集获取。
步骤S102,获取空间协方差矩阵。
本步骤中,从空间谱中获取大于设定阈值的多个峰值。根据DOA波达估计方法获取多个峰值的多个估计方向值。根据多个估计方向值及麦克风阵列的导向矢量获取多个估计方向值的空间协方差矩阵。
步骤S103,建立CGMM模型。
本步骤中,根据空间协方差矩阵初始化并建立CGMM复高斯混合模型。
步骤S104,聚类算法迭代模型参数。
本步骤中,通过聚类方法迭代更新CGMM复高斯混合模型的参数。
步骤S105,获取增强音频。
本步骤中,通过MVDR最小方差无失真响应波束形成算法增强原始多路音频,获取增强音频文件。
在本发明另一种增强的实施方式中,步骤S103中还包括,根据多个估计方向值的协方差矩阵初始化并建立CGMM复高斯混合模型;将CGMM复高斯混合模型中的噪声类初始化为单位矩阵。
在本发明再一种增强的实施方式中,步骤S104中还包括:通过迭代后的CGMM复高斯混合模型获取各类别在时频点的掩蔽值。
如图2所示,步骤S105中还包括。
步骤S1051,获取干扰和噪声协方差矩阵。
本步骤中,根据原始音频协方差矩阵及各类别在时频点的掩蔽值获取干扰和噪声协方差矩阵。
步骤S1052,获取波束形成器的最优权值。
本步骤中,根据干扰和噪声协方差矩阵、多个估计方向值及导向矢量获取波束形成器的最优权值。
步骤S1053,实现MVDR。
通过波束形成器实现MVDR最小方差无失真响应波束形成算法。
从而可有效去除原始音频中的干扰和噪音。
在本发明又一种增强的实施方式中,步骤S101中波达方向估计算法为MUSIC多重信号分类算法。MUSIC(multiple signal classification,多重信号分类)方法的分辨力和估计精度更高、稳定性更强,从而使本发明中的音频处理精度更高且稳定性更强。
在本发明又一种增强的实施方式中,步骤S104中包括,通过设定迭代算法及设定迭代次数迭代CGMM高斯混合模型的参数。迭代算法为EM期望最大化算法。迭代次数为4~5次。从而可保证音频处理的效果。
在本发明又一种增强的实施方式中,如图3所示,步骤S105后还包括,步骤S106,语音识别。本步骤中,通过语音识别算法识别增强音频文件,获取语音识别结果。
如图4所示,第二方面,本发明提供了音频增强系统,包括空间谱创建单元10、矩阵获取单元20、模型建立单元30、迭代单元40及增强单元50。其中,空间谱创建单元10,配置为通过波达方向估计算法获取原始多路音频的空间谱,原始多路音频通过麦克风阵列采集获取。
矩阵获取单元20,配置为从空间谱中获取大于设定阈值的多个峰值。根据DOA波达估计方法获取多个峰值的多个估计方向值。根据多个估计方向值及麦克风阵列的导向矢量获取多个估计方向值的空间协方差矩阵。
模型建立单元30,配置为根据空间协方差矩阵初始化并建立CGMM复高斯混合模型。
迭代单元40,配置为通过聚类方法迭代更新CGMM复高斯混合模型的参数。
增强单元50,配置为通过MVDR最小方差无失真响应波束形成算法增强所述原始多路音频,获取增强音频。
在本发明音频增强系统的另一种增强的实施方式中,模型建立单元30还配置为,根据多个估计方向值的协方差矩阵初始化并建立CGMM复高斯混合模型;将CGMM复高斯混合模型中的噪声类初始化为单位矩阵。
在本发明音频增强系统的另一种增强的实施方式中,其中,迭代单元40还配置为,通过迭代后的CGMM复高斯混合模型获取时频点的掩蔽值。
增强单元50还配置为,根据原始音频协方差矩阵及各类别在时频点的掩蔽值获取干扰和噪声协方差矩阵。
根据干扰和噪声协方差矩阵、多个估计方向值及导向矢量获取波束形成器的最优权值。
通过波束形成器实现MVDR最小方差无失真响应波束形成算法。
在本发明音频增强系统的又一种增强的实施方式中,空间谱创建单元10中波达方向估计算法为MUSIC多重信号分类算法。迭代单元40还配置为,通过设定迭代算法及设定迭代次数迭代CGMM高斯混合模型的参数。迭代算法为EM期望最大化算法。迭代次数为4~5次。
如图5所示,本发明音频增强系统还包括,语音识别单元60,语音识别单元60配置为,通过语音识别算法识别增强音频,获取语音识别结果。
值得注意的是,本发明公开的实施方式中的单元并不用于限制本公开的方案,另外,还可以通过硬件处理器来实现相关功能模块,例如分离模块也可以用处理器实现,在此不再赘述。
在本发明的另一种实施方式中,如图6所示,提供了另一种语音频增强方法。该方法包括:
步骤1:采集原始音频,计算音频空间谱
使用含有麦克风阵列的终端设备获取原始多路音频,并进行短时傅里叶变换将音频从时域变换至频域。采用常用的波达方向估计方法,例如:MUSIC(multiple signalclassification,多重信号分类),SRP(steered response power,可控响应功率),GCC(generalized cross correlation,广义互相关)等,得到原始音频的空间谱。由于MUSIC方法的分辨力和估计精度更高、稳定性更强,本专利选择使用该方法计算原始音频的空间谱。
步骤2:计算空间协方差矩阵,初始化CGMM
从所得空间谱中选出大于设定阈值的N个峰值(N为一个或多个),将这些峰值所对应的角度作为CGMM模型中各聚类类别的DOA估计值。根据这N个DOA估计值、及麦克风阵列所确定的导向矢量,可得到N个空间协方差矩阵。
由空间谱可知,原始音频由N个方向的信号和噪声组成,假设各方向信号和噪声均分别服从复高斯分布,从而可以将N+1个复高斯模型的和组成CGMM模型,用来描述原始音频。其中,N表示N个方向的信号,1表示噪声。采用基于DOA算法得到的N个方向的空间对CGMM中的N个复高斯模型进行初始化,并用单位矩阵初始化第N+1类复高斯模型。
步骤3:设置最大迭代次数,用EM算法不断迭代
为了实现较好的聚类性能,需要计算出较优的CGMM模型参数,本专利采用EM算法来迭代更新这些模型参数。基于EM算法的迭代更新分为E步和M步:在E步,根据前一次迭代得到的参数值计算出概率估计值;在M步,以最大化目标函数为目的更新模型中的参数。当迭代次数达到设定的最大迭代次数时,停止更新,并根据最新CGMM模型计算出各个类别在各时频点的掩蔽值。通常设置最大迭代次数为5次左右。
步骤4:采用MVDR方法增强音频,并进行识别
由步骤2可知,原始多路音频由N个方向的信号和噪声组成,为了增强第n个方向的信号,本专利采用MVDR波束形成方法。在MVDR波束形成方法中,为得到波束形成器的最优权值,需要已知增强的DOA方向、导向矢量、以及干扰和噪声协方差矩阵。其中,DOA方向可根据步骤2得到,即为待增强的第n个方向;导向矢量可由麦克风阵列获得;为了得到干扰和噪声的协方差矩阵,在原始音频的协方差矩阵上乘以其他N-1类及噪声掩蔽值的和,排除待增强信号的影响。计算得到这些变量后,根据MVDR波束形成方法即可得到增强后的第n个方向的信号。
最后,将增强后的音频送入自动语音识别系统,得到音频的识别结果。
在另一些实施方式中,本发明实施方式还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施方式中的语音信号处理和使用方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
步骤S101,通过波达方向估计算法获取原始多路音频的空间谱,原始多路音频通过麦克风阵列采集获取。
步骤S102,从空间谱中获取大于设定阈值的多个峰值。根据DOA波达估计方法获取多个峰值的多个估计方向值。根据多个估计方向值及麦克风阵列的导向矢量获取多个估计方向值的空间协方差矩阵。
步骤S103,根据空间协方差矩阵初始化并建立CGMM复高斯混合模型。
步骤S104,通过聚类方法迭代更新CGMM复高斯混合模型的参数。
步骤S105,通过MVDR最小方差无失真响应波束形成算法增强原始多路音频,获取增强音频文件。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施方式中的语音信号处理方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施方式中的语音信号处理方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音信号处理单元的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音信号处理单元。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施方式还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音信号处理方法。
图7是本发明实施方式提供的电子设备的结构示意图,如图7所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。语音信号处理方法的设备还可以包括:输入单元730和输出单元740。处理器710、存储器720、输入单元730和输出单元740可以通过总线或者其他方式连接,图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施方式语音信号处理方法。输入单元730可接收输入的数字或字符信息,以及产生与信息投放单元的用户设置以及功能控制有关的键信号输入。输出单元740可包括显示屏等显示设备。
上述产品可执行本发明实施方式所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施方式中详尽描述的技术细节,可参见本发明实施方式所提供的方法。
作为一种实施方式,上述电子设备可以应用于语音识别网络的可视化生成平台中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
通过波达方向估计算法获取原始多路音频的空间谱,原始多路音频通过麦克风阵列采集获取。
从空间谱中获取大于设定阈值的多个峰值。根据DOA波达估计方法获取多个峰值的多个估计方向值。根据多个估计方向值及麦克风阵列的导向矢量获取多个估计方向值的空间协方差矩阵。
根据空间协方差矩阵初始化并建立CGMM复高斯混合模型。
通过聚类方法迭代更新CGMM复高斯混合模型的参数。
通过MVDR最小方差无失真响应波束形成算法增强原始多路音频,获取增强音频文件。
本发明实施方式的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、音频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子单元。
以上所描述的单元实施方式仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施方式或者实施方式的某些部分的方法。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。
Claims (10)
1.一种音频增强方法,包括:
步骤S101,通过波达方向估计算法获取原始多路音频的空间谱,所述原始多路音频通过麦克风阵列采集获取;
步骤S102,从所述空间谱中获取大于设定阈值的多个峰值;根据DOA波达估计方法获取多个所述峰值的多个估计方向值;根据所述多个估计方向值及麦克风阵列的导向矢量获取所述多个估计方向值的空间协方差矩阵;
步骤S103,根据空间协方差矩阵初始化并建立CGMM复高斯混合模型;
步骤S104,通过聚类方法迭代更新CGMM复高斯混合模型的参数;
步骤S105,通过MVDR最小方差无失真响应波束形成算法增强原始多路音频,获取增强音频文件。
2.根据权利要求1所述的音频增强方法,其中,所述步骤S103中还包括:
根据多个估计方向值的协方差矩阵初始化并建立CGMM复高斯混合模型;
将CGMM复高斯混合模型中的噪声类初始化为单位矩阵。
3.根据权利要求1所述的音频增强方法,其中,所述步骤S104中还包括:
通过所述迭代后的CGMM复高斯混合模型获取各类别在时频点的掩蔽值;
所述步骤S105中还包括:
步骤S1051,根据所述原始音频协方差矩阵及所述各类别在时频点的掩蔽值获取干扰和噪声协方差矩阵;
步骤S1052,根据所述干扰和噪声协方差矩阵、所述多个估计方向值及导向矢量获取波束形成器的最优权值;
步骤S1053,通过所述波束形成器实现所述MVDR最小方差无失真响应波束形成算法。
4.根据权利要求1所述的音频增强方法,其中,所述步骤S101中所述波达方向估计算法为MUSIC多重信号分类算法。
5.根据权利要求1所述的音频增强方法,其中,所述步骤S104中包括:
通过设定迭代算法及设定迭代次数迭代CGMM模型的参数;
所述迭代算法为EM期望最大化算法,所述迭代次数为4~5次。
6.根据权利要求1所述的音频增强方法,其中,所述步骤S105后还包括:
步骤S106,通过语音识别算法识别所述增强音频文件,获取语音识别结果。
7.一种音频增强系统,包括空间谱创建单元、矩阵获取单元、模型建立单元、迭代单元及增强单元,其中:
空间谱创建单元,配置为通过波达方向估计算法获取原始多路音频的空间谱,所述原始多路音频通过麦克风阵列采集获取;
矩阵获取单元,配置为从所述空间谱中获取大于设定阈值的多个峰值;根据DOA波达估计方法获取多个所述峰值的多个估计方向值;根据所述多个估计方向值及麦克风阵列的导向矢量获取所述多个估计方向值的空间协方差矩阵;
模型建立单元,配置为根据空间协方差矩阵初始化并建立CGMM复高斯混合模型;
迭代单元,配置为通过聚类方法迭代更新CGMM复高斯混合模型的参数;
增强单元,配置为通过MVDR最小方差无失真响应波束形成算法增强所述原始多路音频,获取增强音频。
8.根据权利要求7所述的音频增强系统,其中:
所述模型建立单元还配置为,根据多个估计方向值的协方差矩阵初始化并建立CGMM复高斯混合模型;将CGMM复高斯混合模型中的噪声类初始化为单位矩阵。
9.根据权利要求7所述的音频增强系统,其中:
所述迭代单元还配置为,通过所述迭代后的CGMM复高斯混合模型获取时频点的掩蔽值;
所述增强单元还配置为,根据所述原始音频协方差矩阵及所述各类别在时频点的掩蔽值获取干扰和噪声协方差矩阵;
根据所述干扰和噪声协方差矩阵、所述多个估计方向值及导向矢量获取波束形成器的最优权值;
通过所述波束形成器实现所述MVDR最小方差无失真响应波束形成算法。
10.根据权利要求7所述的音频增强系统,其中:
所述空间谱创建单元中所述波达方向估计算法为MUSIC多重信号分类算法;
所述迭代单元还配置为,通过设定迭代算法及设定迭代次数迭代CGMM高斯混合模型的参数;所述迭代算法为EM期望最大化算法,所述迭代次数为4~5次;
所述音频增强系统还包括语音识别单元,所述语音识别单元配置为通过语音识别算法识别所述增强音频文件,并获取语音识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910738885.8A CN110400572B (zh) | 2019-08-12 | 2019-08-12 | 音频增强方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910738885.8A CN110400572B (zh) | 2019-08-12 | 2019-08-12 | 音频增强方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110400572A true CN110400572A (zh) | 2019-11-01 |
CN110400572B CN110400572B (zh) | 2021-10-12 |
Family
ID=68327997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910738885.8A Active CN110400572B (zh) | 2019-08-12 | 2019-08-12 | 音频增强方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110400572B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110838307A (zh) * | 2019-11-18 | 2020-02-25 | 苏州思必驰信息科技有限公司 | 语音消息处理方法及装置 |
CN110931036A (zh) * | 2019-12-07 | 2020-03-27 | 杭州国芯科技股份有限公司 | 一种麦克风阵列波束形成方法 |
CN112951263A (zh) * | 2021-03-17 | 2021-06-11 | 云知声智能科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
CN113030862A (zh) * | 2021-03-12 | 2021-06-25 | 中国科学院声学研究所 | 一种多通道语音增强方法及装置 |
CN113375063A (zh) * | 2021-06-07 | 2021-09-10 | 国家石油天然气管网集团有限公司西气东输分公司 | 一种天然气管道泄漏智能监测方法及系统 |
CN113707136A (zh) * | 2021-10-28 | 2021-11-26 | 南京南大电子智慧型服务机器人研究院有限公司 | 服务型机器人语音交互的音视频混合语音前端处理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101274554B1 (ko) * | 2012-03-02 | 2013-06-13 | 국방과학연구소 | 도래각 추정 방법 및 이를 이용한 배열 안테나 시스템 |
CN107124216A (zh) * | 2017-04-07 | 2017-09-01 | 广东精点数据科技股份有限公司 | 一种针对阵列误差的Capon稳健自适应波束形成方法及系统 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN108922553A (zh) * | 2018-07-19 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 用于音箱设备的波达方向估计方法及系统 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
US20190237066A1 (en) * | 2018-01-26 | 2019-08-01 | Sogang University Research Foundation | Source localization method by using steering vector estimation based on on-line complex gaussian mixture model |
-
2019
- 2019-08-12 CN CN201910738885.8A patent/CN110400572B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101274554B1 (ko) * | 2012-03-02 | 2013-06-13 | 국방과학연구소 | 도래각 추정 방법 및 이를 이용한 배열 안테나 시스템 |
CN107124216A (zh) * | 2017-04-07 | 2017-09-01 | 广东精点数据科技股份有限公司 | 一种针对阵列误差的Capon稳健自适应波束形成方法及系统 |
US20190237066A1 (en) * | 2018-01-26 | 2019-08-01 | Sogang University Research Foundation | Source localization method by using steering vector estimation based on on-line complex gaussian mixture model |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN108922553A (zh) * | 2018-07-19 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 用于音箱设备的波达方向估计方法及系统 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
Non-Patent Citations (3)
Title |
---|
JUAN AZCARRETA ET AL.: "《Permutation-Free Cgmm: Complex Gaussian Mixture Model with Inverse Wishart Mixture Model Based Spatial Prior for Permutation-Free Source Separation and Source Counting》", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
TAKUYA HIGUCHI ET AL.: "《Online MVDR Beamformer Based on Complex Gaussian Mixture Model With Spatial Prior for Noise Robust ASR》", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
覃晓逸 等: "《基于语音增强的远场说话人识别技术》", 《网络新媒体技术》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110838307A (zh) * | 2019-11-18 | 2020-02-25 | 苏州思必驰信息科技有限公司 | 语音消息处理方法及装置 |
CN110838307B (zh) * | 2019-11-18 | 2022-02-25 | 思必驰科技股份有限公司 | 语音消息处理方法及装置 |
CN110931036A (zh) * | 2019-12-07 | 2020-03-27 | 杭州国芯科技股份有限公司 | 一种麦克风阵列波束形成方法 |
CN113030862A (zh) * | 2021-03-12 | 2021-06-25 | 中国科学院声学研究所 | 一种多通道语音增强方法及装置 |
CN112951263A (zh) * | 2021-03-17 | 2021-06-11 | 云知声智能科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
CN112951263B (zh) * | 2021-03-17 | 2022-08-02 | 云知声智能科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
CN113375063A (zh) * | 2021-06-07 | 2021-09-10 | 国家石油天然气管网集团有限公司西气东输分公司 | 一种天然气管道泄漏智能监测方法及系统 |
CN113707136A (zh) * | 2021-10-28 | 2021-11-26 | 南京南大电子智慧型服务机器人研究院有限公司 | 服务型机器人语音交互的音视频混合语音前端处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110400572B (zh) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110400572A (zh) | 音频增强方法及系统 | |
EP3504703B1 (en) | A speech recognition method and apparatus | |
CN109712611B (zh) | 联合模型训练方法及系统 | |
CN108417224A (zh) | 双向神经网络模型的训练和识别方法及系统 | |
CN110554357B (zh) | 声源定位方法和装置 | |
KR101807948B1 (ko) | 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법 | |
CN110503971A (zh) | 用于语音处理的基于神经网络的时频掩模估计和波束形成 | |
CN109272989A (zh) | 语音唤醒方法、装置和计算机可读存储介质 | |
CN108899044A (zh) | 语音信号处理方法及装置 | |
CN108766445A (zh) | 声纹识别方法及系统 | |
KR102087307B1 (ko) | 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치 | |
Lee et al. | Ensemble of jointly trained deep neural network-based acoustic models for reverberant speech recognition | |
Pujol et al. | BeamLearning: An end-to-end deep learning approach for the angular localization of sound sources using raw multichannel acoustic pressure data | |
CN108107403A (zh) | 一种波达方向估计方法和装置 | |
CN108417207A (zh) | 一种深度混合生成网络自适应方法及系统 | |
Kumatani et al. | Multi-geometry spatial acoustic modeling for distant speech recognition | |
CN110491409B (zh) | 混合语音信号的分离方法、装置、存储介质及电子装置 | |
Salvati et al. | A late fusion deep neural network for robust speaker identification using raw waveforms and gammatone cepstral coefficients | |
Chan et al. | Speech enhancement strategy for speech recognition microcontroller under noisy environments | |
Falcon Perez | Machine-learning-based estimation of room acoustic parameters | |
Girin et al. | Audio source separation into the wild | |
US11322169B2 (en) | Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program | |
CN115620739A (zh) | 指定方向的语音增强方法及电子设备和存储介质 | |
CN115480214A (zh) | 声源定位方法及电子设备和存储介质 | |
Dehghan Firoozabadi et al. | A novel nested circular microphone array and subband processing-based system for counting and DOA estimation of multiple simultaneous speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |