CN116110422A - 全向级联麦克风阵列降噪方法及系统 - Google Patents
全向级联麦克风阵列降噪方法及系统 Download PDFInfo
- Publication number
- CN116110422A CN116110422A CN202310389820.3A CN202310389820A CN116110422A CN 116110422 A CN116110422 A CN 116110422A CN 202310389820 A CN202310389820 A CN 202310389820A CN 116110422 A CN116110422 A CN 116110422A
- Authority
- CN
- China
- Prior art keywords
- sound source
- target sound
- waveform
- feature
- source signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012937 correction Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 203
- 238000010586 diagram Methods 0.000 claims description 79
- 239000011159 matrix material Substances 0.000 claims description 58
- 238000003062 neural network model Methods 0.000 claims description 43
- 238000013527 convolutional neural network Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 33
- 230000005236 sound signal Effects 0.000 claims description 29
- 238000005457 optimization Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 12
- 230000004931 aggregating effect Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 abstract description 12
- 230000000694 effects Effects 0.000 abstract description 9
- 238000013135 deep learning Methods 0.000 abstract description 8
- 230000008030 elimination Effects 0.000 abstract description 8
- 238000003379 elimination reaction Methods 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种全向级联麦克风阵列降噪方法及系统,涉及智能化降噪技术领域,全向级联麦克风阵列降噪方法包括:获取由第一全向麦克风单元采集的第一目标声源信号和由第二全向麦克风单元采集的第二目标声源信号;采用基于深度学习的人工智能技术,基于所述第一目标声源信号和所述第二目标声源信号在高维特征空间中的全时序空间联立表示为上下文语义背景,将其映射到第一目标声源的高维特征空间中以进行特征分布校正,并基于对抗生成思想生成降噪后第一目标声源信号。本发明可以增大降噪后第一目标声源信号的准确性,以提高噪声消除效果。
Description
技术领域
本发明涉及智能化降噪技术领域,且更为具体地,涉及一种全向级联麦克风阵列降噪方法及系统。
背景技术
目前,麦克风阵列有尺寸较大的,由至少两个麦克风组成。现行的一种麦克风阵列设备包括两个全指向性麦克风构成,且两个麦克风间距离较小。
目前,麦克风阵列算法被越来越多的应用在噪声消除中。麦克风阵列算法主要利用目标声源和噪声源在空间域上的差别,即各声源到麦克风的距离和方向不同,来进行信号分离,从而实现噪声消除。
现有的小距离双麦克风阵列算法能够正常工作的一个前提条件是:两个麦克风的匹配性很好。但是在实际应用中,这一点是不能完全保证的,即使是同批次的普通麦克风,其幅频特性有时相差会在3-4db左右,且随着时间的推移和外界环境温度、湿度的变化,麦克风的幅频特性也会发生改变,因此当两个麦克风不完全匹配时,就会大大影响噪声消除效果,导致影响语音质量。
发明内容
为了解决上述技术问题,提出了本发明。本发明的实施例提供了一种全向级联麦克风阵列降噪方法及系统,其获取由第一全向麦克风单元采集的第一目标声源信号和由第二全向麦克风单元采集的第二目标声源信号;采用基于深度学习的人工智能技术,基于所述第一目标声源信号和所述第二目标声源信号在高维特征空间中的全时序空间联立表示为上下文语义背景,将其映射到第一目标声源的高维特征空间中以进行特征分布校正,并基于对抗生成思想生成降噪后第一目标声源信号。这样,可以增大降噪后第一目标声源信号的准确性,以提高噪声消除效果。
根据本发明的一个方面,提供了一种全向级联麦克风阵列降噪方法,其包括:
获取由第一全向麦克风单元采集的第一目标声源信号和由第二全向麦克风单元采集的第二目标声源信号,所述第一全向麦克风单元和所述第二全向麦克风单元相互级联;
将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量;
将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵;
以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量;
对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量;以及
将所述解码特征向量通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号。
在上述全向级联麦克风阵列降噪方法中,所述将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量,包括:使用所述作为过滤器的第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行处理:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于特征矩阵的均值池化处理以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为过滤器的第一卷积神经网络模型的最后一层的输出为所述第一目标声源波形特征向量,所述作为过滤器的第一卷积神经网络模型的第一层的输入为所述第一目标声源信号的波形图。
在上述全向级联麦克风阵列降噪方法中,所述将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵,包括:使用所述作为特征提取器的第二卷积神经网络模型的各层在层的正向传递中分别对输入数据进行处理:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的第二卷积神经网络模型的最后一层的输出为所述协同声音波形特征矩阵,所述作为特征提取器的第二卷积神经网络模型的第一层的输入为所述多通道声音波形图。
在上述全向级联麦克风阵列降噪方法中,所述作为特征提取器的第二卷积神经网络模型为深度残差网络。
在上述全向级联麦克风阵列降噪方法中,所述对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量,包括:以如下公式对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量;其中,所述公式为:
;
其中,表示所述校正第一目标声源波形特征向量,表示所述解码特征向量,表示所述校正第一目标声源波形特征向量的二范数的平方,表示所述校正第一目标声源波形特征向量的各特征值按大小次序排列的有序向量,且所述校正第一目标声源波形特征向量是列向量形式,表示的转置矩阵,表示向量点乘,表示矩阵乘法。
在上述全向级联麦克风阵列降噪方法中,所述对抗生成网络包括鉴别器和生成器。
在上述全向级联麦克风阵列降噪方法中,所述将所述解码特征向量通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号,包括:将所述解码特征向量输入所述基于对抗生成网络的声音信号生成器以由所述对抗生成网络的生成器通过至少两次反卷积编码生成所述降噪后第一目标声源信号。
根据本发明的另一个方面,提供了一种全向级联麦克风阵列降噪系统,其包括:
信号获取模块,用于获取由第一全向麦克风单元采集的第一目标声源信号和由第二全向麦克风单元采集的第二目标声源信号,所述第一全向麦克风单元和所述第二全向麦克风单元相互级联;
第一特征提取模块,用于将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量;
第二特征提取模块,用于将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵;
校正模块,用于以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量;
数据流形局部优化模块,用于对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量;以及
声音信号生成模块,用于将所述解码特征向量通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号。
在上述全向级联麦克风阵列降噪系统中,所述第一特征提取模块,进一步用于:使用所述作为过滤器的第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行处理:对所述输入数据进行卷积处理以得到卷积特征图; 对所述卷积特征图进行基于特征矩阵的均值池化处理以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为过滤器的第一卷积神经网络模型的最后一层的输出为所述第一目标声源波形特征向量,所述作为过滤器的第一卷积神经网络模型的第一层的输入为所述第一目标声源信号的波形图。
在上述全向级联麦克风阵列降噪系统中,所述第二特征提取模块,进一步用于:使用所述作为特征提取器的第二卷积神经网络模型的各层在层的正向传递中分别对输入数据进行处理:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的第二卷积神经网络模型的最后一层的输出为所述协同声音波形特征矩阵,所述作为特征提取器的第二卷积神经网络模型的第一层的输入为所述多通道声音波形图。
与现有技术相比,本发明提供的全向级联麦克风阵列降噪方法及系统,其获取由第一全向麦克风单元采集的第一目标声源信号和由第二全向麦克风单元采集的第二目标声源信号;采用基于深度学习的人工智能技术,基于所述第一目标声源信号和所述第二目标声源信号在高维特征空间中的全时序空间联立表示为上下文语义背景,将其映射到第一目标声源的高维特征空间中以进行特征分布校正,并基于对抗生成思想生成降噪后第一目标声源信号。这样,可以增大降噪后第一目标声源信号的准确性,以提高噪声消除效果。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本发明实施例的全向级联麦克风阵列降噪方法的场景示意图。
图2为根据本发明实施例的全向级联麦克风阵列降噪方法的流程图。
图3为根据本发明实施例的全向级联麦克风阵列降噪方法的架构示意图。
图4为根据本发明实施例的全向级联麦克风阵列降噪系统的框图。
具体实施方式
下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
场景概述
如上所述,现有的小距离双麦克风阵列算法能够正常工作的一个前提条件是:两个麦克风的匹配性很好。但是在实际应用中,这一点是不能完全保证的,即使是同批次的普通麦克风,其幅频特性有时相差会在3-4db左右,且随着时间的推移和外界环境温度、湿度的变化,麦克风的幅频特性也会发生改变,因此当两个麦克风不完全匹配时,就会大大影响噪声消除效果,导致影响语音质量。因此,期待一种优化的用于麦克风阵列降噪方案。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展,为麦克风阵列降噪提供了新的解决思路和方案。
具体地,在本发明的技术方案中,考虑到在麦克风阵列接收声源信号时,所述麦克风阵列的第一全向麦克风单元和第二全向麦克风单元都会接收到目标声源信号,为了便于描述,定义为第一目标声源信号和第二目标声源信号。而所述第一目标声源信号和所述第二目标声源信号之间的声音特征协同可用于降噪。
相应地,首先将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量。也就是,将所述第一目标声源信号的波形图视为一个二维图数据,并使用在图像特征提取领域具有优异性能表现的卷积神经网络模型作为特征提取器来提取所述第一目标声源信号中的高维局部隐含特征,即,所述第一目标声源信号中的有效声音特征。
同时,将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵。也就是,在信号源域端,将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图沿着通道维度进行聚合,并同样使用在图像特征提取领域具有优异性能表现的卷积神经网络模型提取所述第一目标声源信号和所述第二目标声源信号的有效声音特征,以及,所述第一目标声源信号和所述第二目标声源信号的基于通道维度的高维语义关联特征。在本发明一个具体的示例中,所述作为特征提取器的第二卷积神经网络模型为深度残差网络。
进而,以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量。也就是,基于所述第一目标声源信号和所述第二目标声源信号在高维特征空间中的全时序空间联立表示为上下文语义背景,并基于矩阵相乘的方式将其映射到所述第一目标声源波形特征向量的高维特征空间中以得到所述校正第一目标声源波形特征向量。继而,以所述校正第一目标声源波形特征向量作为解码特征向量,并通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号。也就是,基于对抗生成思想来生成所述降噪后第一目标声源信号。
在本发明的技术方案中,通过以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量,可以基于所述第一目标声源信号和所述第二目标声源信号在高维特征空间中的全时序空间联立表示为上下文语义背景,并基于矩阵相乘的方式将其映射到所述第一目标声源波形特征向量的高维特征空间中以得到所述校正第一目标声源波形特征向量以进行特征分布校正。但是,由于所述协同声音波形特征矩阵本身表达的是所述第一目标声源信号和所述第二目标声源信号的图像波形时序关联特征的高阶关联表达,将其映射到所述第一目标声源波形特征向量的低阶图像波形时序关联空间后,可能导致所述校正第一目标声源波形特征向量的特征分布的结构模糊,从而降低所述校正第一目标声源波形特征向量的表达确定性,影响所述校正第一目标声源波形特征向量通过基于对抗生成网络的声音信号生成器得到的降噪后第一目标声源信号的准确性。
基于此,本发明对所述校正第一目标声源波形特征向量进行向量的有序希尔伯特完备化,表示为:
;
其中,表示所述校正第一目标声源波形特征向量,表示所述解码特征向量,表示所述校正第一目标声源波形特征向量的二范数的平方,表示所述校正第一目标声源波形特征向量的各特征值按大小次序排列的有序向量,且所述校正第一目标声源波形特征向量是列向量形式,表示的转置矩阵。
这里,通过将有序向量映射到由向量的自内积定义的希尔伯特空间内,可以实现特征集合的数值关系在一致性空间内的有意义的度量,以此为基础通过与特征向量的相对位置嵌入构造具有正交性结构的特征空间,并基于向量查询对特征向量的高维流形进行特征空间内的结构完备化,可以避免由于模糊化结构降低特征向量的表达确定性,从而增大所述校正第一目标声源波形特征向量通过基于对抗生成网络的声音信号生成器得到的降噪后第一目标声源信号的准确性。
基于此,本发明提供了一种全向级联麦克风阵列降噪方法,其包括:获取由第一全向麦克风单元采集的第一目标声源信号和由第二全向麦克风单元采集的第二目标声源信号,所述第一全向麦克风单元和所述第二全向麦克风单元相互级联;将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量;将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵;以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量;对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量;以及,将所述解码特征向量通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号。
图1为根据本发明实施例的全向级联麦克风阵列降噪方法的场景示意图。如图1所示,在该应用场景中,首先,获取由第一全向麦克风单元采集的第一目标声源信号(例如,如图1中所示意的C1)和由第二全向麦克风单元采集的第二目标声源信号(例如,如图1中所示意的C2);然后,将获取的第一目标声源信号和第二目标声源信号输入至部署有全向级联麦克风阵列降噪算法的服务器(例如,如图1中所示意的S)中,其中所述服务器能够基于全向级联麦克风阵列降噪算法对所述第一目标声源信号和所述第二目标声源信号进行处理,以生成降噪后第一目标声源信号。
在介绍了本发明的基本原理之后,下面将参考附图来具体介绍本发明的各种非限制性实施例。
示例性方法
图2为根据本发明实施例的全向级联麦克风阵列降噪方法的流程图。如图2所示,根据本发明实施例的全向级联麦克风阵列降噪方法,包括步骤:S110,获取由第一全向麦克风单元采集的第一目标声源信号和由第二全向麦克风单元采集的第二目标声源信号,所述第一全向麦克风单元和所述第二全向麦克风单元相互级联;S120,将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量;S130,将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵;S140,以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量;S150,对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量;以及,S160,将所述解码特征向量通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号。
图3为根据本发明实施例的全向级联麦克风阵列降噪方法的架构示意图。如图3所示,在该网络架构中,首先,获取由第一全向麦克风单元采集的第一目标声源信号和由第二全向麦克风单元采集的第二目标声源信号,所述第一全向麦克风单元和所述第二全向麦克风单元相互级联;然后,将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量;接着,将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵;然后,以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量;接着,对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量;以及,最后,将所述解码特征向量通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号。
具体地,在步骤S110中,获取由第一全向麦克风单元采集的第一目标声源信号和由第二全向麦克风单元采集的第二目标声源信号,所述第一全向麦克风单元和所述第二全向麦克风单元相互级联。
如前所述,现有的小距离双麦克风阵列算法能够正常工作的一个前提条件是:两个麦克风的匹配性很好。但是在实际应用中,这一点是不能完全保证的,即使是同批次的普通麦克风,其幅频特性有时相差会在3-4db左右,且随着时间的推移和外界环境温度、湿度的变化,麦克风的幅频特性也会发生改变,因此当两个麦克风不完全匹配时,就会大大影响噪声消除效果,导致影响语音质量。因此,期待一种优化的用于麦克风阵列降噪方案。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展,为麦克风阵列降噪提供了新的解决思路和方案。
具体地,在本发明的技术方案中,考虑到在麦克风阵列接收声源信号时,所述麦克风阵列的第一全向麦克风单元和第二全向麦克风单元都会接收到目标声源信号,为了便于描述,定义为第一目标声源信号和第二目标声源信号。而所述第一目标声源信号和所述第二目标声源信号之间的声音特征协同可用于降噪。
具体地,在步骤S120中,将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量。相应地,首先将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量。也就是,将所述第一目标声源信号的波形图视为一个二维图数据,并使用在图像特征提取领域具有优异性能表现的卷积神经网络模型作为特征提取器来提取所述第一目标声源信号中的高维局部隐含特征,即,所述第一目标声源信号中的有效声音特征。
其中,所述将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量,包括:使用所述作为过滤器的第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行处理:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于特征矩阵的均值池化处理以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为过滤器的第一卷积神经网络模型的最后一层的输出为所述第一目标声源波形特征向量,所述作为过滤器的第一卷积神经网络模型的第一层的输入为所述第一目标声源信号的波形图。
具体地,在步骤S130中,将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵。同时,将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵。
也就是,在信号源域端,将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图沿着通道维度进行聚合,并同样使用在图像特征提取领域具有优异性能表现的卷积神经网络模型提取所述第一目标声源信号和所述第二目标声源信号的有效声音特征,以及,所述第一目标声源信号和所述第二目标声源信号的基于通道维度的高维语义关联特征。在本发明一个具体的示例中,所述作为特征提取器的第二卷积神经网络模型为深度残差网络。
其中,所述将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵,包括:使用所述作为特征提取器的第二卷积神经网络模型的各层在层的正向传递中分别对输入数据进行处理:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的第二卷积神经网络模型的最后一层的输出为所述协同声音波形特征矩阵,所述作为特征提取器的第二卷积神经网络模型的第一层的输入为所述多通道声音波形图。
具体地,在步骤S140中,以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量。
进而,以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量。也就是,基于所述第一目标声源信号和所述第二目标声源信号在高维特征空间中的全时序空间联立表示为上下文语义背景,并基于矩阵相乘的方式将其映射到所述第一目标声源波形特征向量的高维特征空间中以得到所述校正第一目标声源波形特征向量。
具体地,在步骤S150中,对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量。在本发明的技术方案中,通过以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量,可以基于所述第一目标声源信号和所述第二目标声源信号在高维特征空间中的全时序空间联立表示为上下文语义背景,并基于矩阵相乘的方式将其映射到所述第一目标声源波形特征向量的高维特征空间中以得到所述校正第一目标声源波形特征向量以进行特征分布校正。但是,由于所述协同声音波形特征矩阵本身表达的是所述第一目标声源信号和所述第二目标声源信号的图像波形时序关联特征的高阶关联表达,将其映射到所述第一目标声源波形特征向量的低阶图像波形时序关联空间后,可能导致所述校正第一目标声源波形特征向量的特征分布的结构模糊,从而降低所述校正第一目标声源波形特征向量的表达确定性,影响所述校正第一目标声源波形特征向量通过基于对抗生成网络的声音信号生成器得到的降噪后第一目标声源信号的准确性。
基于此,本发明对所述校正第一目标声源波形特征向量进行向量的有序希尔伯特完备化,也就是,所述对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量,包括:以如下公式对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量;其中,所述公式为:
;
其中,表示所述校正第一目标声源波形特征向量,表示所述解码特征向量,表示所述校正第一目标声源波形特征向量的二范数的平方,表示所述校正第一目标声源波形特征向量的各特征值按大小次序排列的有序向量,且所述校正第一目标声源波形特征向量是列向量形式,表示的转置矩阵,表示向量点乘,表示矩阵乘法。
这里,通过将有序向量映射到由向量的自内积定义的希尔伯特空间内,可以实现特征集合的数值关系在一致性空间内的有意义的度量,以此为基础通过与特征向量的相对位置嵌入构造具有正交性结构的特征空间,并基于向量查询对特征向量的高维流形进行特征空间内的结构完备化,可以避免由于模糊化结构降低特征向量的表达确定性,从而增大所述校正第一目标声源波形特征向量通过基于对抗生成网络的声音信号生成器得到的降噪后第一目标声源信号的准确性。
具体地,在步骤S160中,将所述解码特征向量通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号。继而,以所述校正第一目标声源波形特征向量作为解码特征向量,并通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号。也就是,基于对抗生成思想来生成所述降噪后第一目标声源信号。
所述将所述解码特征向量通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号,包括:将所述解码特征向量输入所述基于对抗生成网络的声音信号生成器以由所述对抗生成网络的生成器通过至少两次反卷积编码生成所述降噪后第一目标声源信号。
在本发明一具体示例中,所述对抗生成网络包括鉴别器和生成器。
综上,基于本发明实施例的全向级联麦克风阵列降噪方法,其获取由第一全向麦克风单元采集的第一目标声源信号和由第二全向麦克风单元采集的第二目标声源信号;采用基于深度学习的人工智能技术,基于所述第一目标声源信号和所述第二目标声源信号在高维特征空间中的全时序空间联立表示为上下文语义背景,将其映射到第一目标声源的高维特征空间中以进行特征分布校正,并基于对抗生成思想生成降噪后第一目标声源信号。这样,可以增大降噪后第一目标声源信号的准确性,以提高噪声消除效果。
示例性系统
图4为根据本发明实施例的全向级联麦克风阵列降噪系统的框图。如图4所示,根据本发明实施例的全向级联麦克风阵列降噪系统100,包括:信号获取模块110,用于获取由第一全向麦克风单元采集的第一目标声源信号和由第二全向麦克风单元采集的第二目标声源信号,所述第一全向麦克风单元和所述第二全向麦克风单元相互级联;第一特征提取模块120,用于将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量;第二特征提取模块130,用于将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵;校正模块140,用于以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量;数据流形局部优化模块150,用于对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量;以及,声音信号生成模块160,用于将所述解码特征向量通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号。
在一个示例中,在上述全向级联麦克风阵列降噪系统100中,所述第一特征提取模块,进一步用于:使用所述作为过滤器的第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行处理:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于特征矩阵的均值池化处理以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为过滤器的第一卷积神经网络模型的最后一层的输出为所述第一目标声源波形特征向量,所述作为过滤器的第一卷积神经网络模型的第一层的输入为所述第一目标声源信号的波形图。
在本发明的技术方案中,考虑到在麦克风阵列接收声源信号时,所述麦克风阵列的第一全向麦克风单元和第二全向麦克风单元都会接收到目标声源信号,为了便于描述,定义为第一目标声源信号和第二目标声源信号。而所述第一目标声源信号和所述第二目标声源信号之间的声音特征协同可用于降噪。
相应地,首先将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量。也就是,将所述第一目标声源信号的波形图视为一个二维图数据,并使用在图像特征提取领域具有优异性能表现的卷积神经网络模型作为特征提取器来提取所述第一目标声源信号中的高维局部隐含特征,即,所述第一目标声源信号中的有效声音特征。
在一个示例中,在上述全向级联麦克风阵列降噪系统100中,所述第二特征提取模块,进一步用于:使用所述作为特征提取器的第二卷积神经网络模型的各层在层的正向传递中分别对输入数据进行处理:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为特征提取器的第二卷积神经网络模型的最后一层的输出为所述协同声音波形特征矩阵,所述作为特征提取器的第二卷积神经网络模型的第一层的输入为所述多通道声音波形图。
同时,将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵。也就是,在信号源域端,将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图沿着通道维度进行聚合,并同样使用在图像特征提取领域具有优异性能表现的卷积神经网络模型提取所述第一目标声源信号和所述第二目标声源信号的有效声音特征,以及,所述第一目标声源信号和所述第二目标声源信号的基于通道维度的高维语义关联特征。
在一个示例中,在上述全向级联麦克风阵列降噪系统100中,所述作为特征提取器的第二卷积神经网络模型为深度残差网络。
在本发明的技术方案中,通过以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量,可以基于所述第一目标声源信号和所述第二目标声源信号在高维特征空间中的全时序空间联立表示为上下文语义背景,并基于矩阵相乘的方式将其映射到所述第一目标声源波形特征向量的高维特征空间中以得到所述校正第一目标声源波形特征向量以进行特征分布校正。但是,由于所述协同声音波形特征矩阵本身表达的是所述第一目标声源信号和所述第二目标声源信号的图像波形时序关联特征的高阶关联表达,将其映射到所述第一目标声源波形特征向量的低阶图像波形时序关联空间后,可能导致所述校正第一目标声源波形特征向量的特征分布的结构模糊,从而降低所述校正第一目标声源波形特征向量的表达确定性,影响所述校正第一目标声源波形特征向量通过基于对抗生成网络的声音信号生成器得到的降噪后第一目标声源信号的准确性。
在一个示例中,在上述全向级联麦克风阵列降噪系统100中,所述数据流形局部优化模块,进一步用于:以如下公式对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量;其中,所述公式为:
;
其中,表示所述校正第一目标声源波形特征向量,表示所述解码特征向量,表示所述校正第一目标声源波形特征向量的二范数的平方,表示所述校正第一目标声源波形特征向量的各特征值按大小次序排列的有序向量,且所述校正第一目标声源波形特征向量是列向量形式,表示的转置矩阵,表示向量点乘,表示矩阵乘法。
这里,通过将有序向量映射到由向量的自内积定义的希尔伯特空间内,可以实现特征集合的数值关系在一致性空间内的有意义的度量,以此为基础通过与特征向量的相对位置嵌入构造具有正交性结构的特征空间,并基于向量查询对特征向量的高维流形进行特征空间内的结构完备化,可以避免由于模糊化结构降低特征向量的表达确定性,从而增大所述校正第一目标声源波形特征向量通过基于对抗生成网络的声音信号生成器得到的降噪后第一目标声源信号的准确性。
在一个示例中,在上述全向级联麦克风阵列降噪系统100中,所述对抗生成网络包括鉴别器和生成器。
在一个示例中,在上述全向级联麦克风阵列降噪系统100中,所述声音信号生成模块,用于:将所述解码特征向量输入所述基于对抗生成网络的声音信号生成器以由所述对抗生成网络的生成器通过至少两次反卷积编码生成所述降噪后第一目标声源信号。
以所述校正第一目标声源波形特征向量作为解码特征向量,并通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号。也就是,基于对抗生成思想来生成所述降噪后第一目标声源信号。
这里,本领域技术人员可以理解,上述全向级联麦克风阵列降噪系统100中的各个单元和模块的具体功能和操作已经在上面参考图1到图3的全向级联麦克风阵列降噪方法的描述中得到了详细介绍,并因此,将省略其重复描述。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本发明的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此,本发明不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种全向级联麦克风阵列降噪方法,其特征在于,包括:
获取由第一全向麦克风单元采集的第一目标声源信号和由第二全向麦克风单元采集的第二目标声源信号,所述第一全向麦克风单元和所述第二全向麦克风单元相互级联;
将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量;
将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵;
以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量;
对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量;以及
将所述解码特征向量通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号。
2.根据权利要求1所述的全向级联麦克风阵列降噪方法,其特征在于,所述将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量,包括:使用所述作为过滤器的第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行处理:
对所述输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行基于特征矩阵的均值池化处理以得到池化特征图;以及
对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述作为过滤器的第一卷积神经网络模型的最后一层的输出为所述第一目标声源波形特征向量,所述作为过滤器的第一卷积神经网络模型的第一层的输入为所述第一目标声源信号的波形图。
3.根据权利要求2所述的全向级联麦克风阵列降噪方法,其特征在于,所述将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵,包括:使用所述作为特征提取器的第二卷积神经网络模型的各层在层的正向传递中分别对输入数据进行处理:
对所述输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;以及
对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述作为特征提取器的第二卷积神经网络模型的最后一层的输出为所述协同声音波形特征矩阵,所述作为特征提取器的第二卷积神经网络模型的第一层的输入为所述多通道声音波形图。
4.根据权利要求3所述的全向级联麦克风阵列降噪方法,其特征在于,所述作为特征提取器的第二卷积神经网络模型为深度残差网络。
5.根据权利要求4所述的全向级联麦克风阵列降噪方法,其特征在于,所述对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量,包括:以如下公式对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量;
其中,所述公式为:
;
其中,表示所述校正第一目标声源波形特征向量,表示所述解码特征向量,表示所述校正第一目标声源波形特征向量的二范数的平方,表示所述校正第一目标声源波形特征向量的各特征值按大小次序排列的有序向量,且所述校正第一目标声源波形特征向量是列向量形式,表示的转置矩阵,表示向量点乘,表示矩阵乘法。
6.根据权利要求5所述的全向级联麦克风阵列降噪方法,其特征在于,所述对抗生成网络包括鉴别器和生成器。
7.根据权利要求6所述的全向级联麦克风阵列降噪方法,其特征在于,所述将所述解码特征向量通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号,包括:
将所述解码特征向量输入所述基于对抗生成网络的声音信号生成器以由所述对抗生成网络的生成器通过至少两次反卷积编码生成所述降噪后第一目标声源信号。
8.一种全向级联麦克风阵列降噪系统,其特征在于,包括:
信号获取模块,用于获取由第一全向麦克风单元采集的第一目标声源信号和由第二全向麦克风单元采集的第二目标声源信号,所述第一全向麦克风单元和所述第二全向麦克风单元相互级联;
第一特征提取模块,用于将所述第一目标声源信号的波形图通过作为过滤器的第一卷积神经网络模型以得到第一目标声源波形特征向量;
第二特征提取模块,用于将所述第一目标声源信号的波形图和所述第二目标声源信号的波形图按照通道维度聚合为多通道声音波形图后通过作为特征提取器的第二卷积神经网络模型以得到协同声音波形特征矩阵;
校正模块,用于以所述第一目标声源波形特征向量作为查询特征向量,计算其与所述协同声音波形特征矩阵之间的乘积以得到校正第一目标声源波形特征向量;
数据流形局部优化模块,用于对所述校正第一目标声源波形特征向量进行数据流形局部优化以得到解码特征向量;以及
声音信号生成模块,用于将所述解码特征向量通过基于对抗生成网络的声音信号生成器以得到降噪后第一目标声源信号。
9.根据权利要求8所述的全向级联麦克风阵列降噪系统,其特征在于,所述第一特征提取模块,进一步用于:使用所述作为过滤器的第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行处理:
对所述输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行基于特征矩阵的均值池化处理以得到池化特征图;以及
对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述作为过滤器的第一卷积神经网络模型的最后一层的输出为所述第一目标声源波形特征向量,所述作为过滤器的第一卷积神经网络模型的第一层的输入为所述第一目标声源信号的波形图。
10.根据权利要求9所述的全向级联麦克风阵列降噪系统,其特征在于,所述第二特征提取模块,进一步用于:使用所述作为特征提取器的第二卷积神经网络模型的各层在层的正向传递中分别对输入数据进行处理:
对所述输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图;以及
对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述作为特征提取器的第二卷积神经网络模型的最后一层的输出为所述协同声音波形特征矩阵,所述作为特征提取器的第二卷积神经网络模型的第一层的输入为所述多通道声音波形图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310389820.3A CN116110422B (zh) | 2023-04-13 | 2023-04-13 | 全向级联麦克风阵列降噪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310389820.3A CN116110422B (zh) | 2023-04-13 | 2023-04-13 | 全向级联麦克风阵列降噪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116110422A true CN116110422A (zh) | 2023-05-12 |
CN116110422B CN116110422B (zh) | 2023-07-04 |
Family
ID=86260173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310389820.3A Active CN116110422B (zh) | 2023-04-13 | 2023-04-13 | 全向级联麦克风阵列降噪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116110422B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117288705A (zh) * | 2023-09-25 | 2023-12-26 | 武汉怡特环保科技有限公司 | 基于物联网的微型紫外吸收法多路吸收池臭氧气体传感器 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091344A (zh) * | 2018-02-28 | 2018-05-29 | 科大讯飞股份有限公司 | 一种降噪方法、装置及系统 |
CN110767247A (zh) * | 2019-10-29 | 2020-02-07 | 支付宝(杭州)信息技术有限公司 | 语音信号处理方法、声音采集装置和电子设备 |
CN110992974A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
US20200389728A1 (en) * | 2017-12-28 | 2020-12-10 | Iflytek Co., Ltd. | Voice denoising method and apparatus, server and storage medium |
CN113132519A (zh) * | 2021-04-14 | 2021-07-16 | Oppo广东移动通信有限公司 | 电子设备、电子设备的语音识别方法及存储介质 |
CN113203988A (zh) * | 2021-04-29 | 2021-08-03 | 北京达佳互联信息技术有限公司 | 声源定位方法及装置 |
CN113345463A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于卷积神经网络的语音增强方法、装置、设备及介质 |
-
2023
- 2023-04-13 CN CN202310389820.3A patent/CN116110422B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200389728A1 (en) * | 2017-12-28 | 2020-12-10 | Iflytek Co., Ltd. | Voice denoising method and apparatus, server and storage medium |
CN108091344A (zh) * | 2018-02-28 | 2018-05-29 | 科大讯飞股份有限公司 | 一种降噪方法、装置及系统 |
CN110767247A (zh) * | 2019-10-29 | 2020-02-07 | 支付宝(杭州)信息技术有限公司 | 语音信号处理方法、声音采集装置和电子设备 |
CN110992974A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN113132519A (zh) * | 2021-04-14 | 2021-07-16 | Oppo广东移动通信有限公司 | 电子设备、电子设备的语音识别方法及存储介质 |
CN113203988A (zh) * | 2021-04-29 | 2021-08-03 | 北京达佳互联信息技术有限公司 | 声源定位方法及装置 |
CN113345463A (zh) * | 2021-05-31 | 2021-09-03 | 平安科技(深圳)有限公司 | 基于卷积神经网络的语音增强方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
王杜娟: "基于残差神经网络的端到端语音增强技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 06, pages 13 - 29 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117288705A (zh) * | 2023-09-25 | 2023-12-26 | 武汉怡特环保科技有限公司 | 基于物联网的微型紫外吸收法多路吸收池臭氧气体传感器 |
Also Published As
Publication number | Publication date |
---|---|
CN116110422B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108171762B (zh) | 一种深度学习的压缩感知同类图像快速重构系统与方法 | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
CN107589399B (zh) | 基于多采样虚拟信号奇异值分解的互质阵列波达方向估计方法 | |
CN116110422B (zh) | 全向级联麦克风阵列降噪方法及系统 | |
CN112735460B (zh) | 基于时频掩蔽值估计的波束成形方法及系统 | |
JP2006500809A (ja) | 音場表現処理方法およびシステム | |
CN110109058A (zh) | 一种平面阵列反卷积声源识别方法 | |
CN113109759B (zh) | 基于小波变换联合卷积神经网络的水声阵列信号波达方向估计方法 | |
CN115982736B (zh) | 用于计算机网络信息的数据加密方法及系统 | |
Ribeiro et al. | Tensor beamforming for multilinear translation invariant arrays | |
CN112992173A (zh) | 基于改进bca盲源分离的信号分离和去噪方法 | |
CN113504549B (zh) | 基于广义旁瓣相消器的导航空时抗干扰方法 | |
Ma et al. | Generalised maximum complex correntropy‐based DOA estimation in presence of impulsive noise | |
CN114429151A (zh) | 一种基于深度残差网络的大地电磁信号识别与重建方法及其系统 | |
CN114462454A (zh) | 基于深度学习的无网格信号源doa估计方法 | |
Crocco et al. | Estimation of TDOA for room reflections by iterative weighted l 1 constraint | |
Lyu et al. | Identifiability-guaranteed simplex-structured post-nonlinear mixture learning via autoencoder | |
CN115014313B (zh) | 一种基于并行多尺度的偏振光罗盘航向误差处理方法 | |
CN115201753A (zh) | 一种低功耗多频谱分辨的语音定位方法 | |
Chainais et al. | Distributed dictionary learning over a sensor network | |
Zhang et al. | A Joint Denoising Learning Model for Weight Update Space–Time Diversity Method | |
CN113109763B (zh) | 声源位置确定方法和装置、可读存储介质、电子设备 | |
CN109696652B (zh) | 一种二维doa估计方法及其装置、设备、存储介质 | |
CN115863204B (zh) | 晶片加工用在线厚度监视和测量方法及系统 | |
CN117909718B (zh) | 应用于周期性高噪声环境的svd声纹降噪识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |