CN111583948B - 一种改进的多通道语音增强系统和方法 - Google Patents
一种改进的多通道语音增强系统和方法 Download PDFInfo
- Publication number
- CN111583948B CN111583948B CN202010385976.0A CN202010385976A CN111583948B CN 111583948 B CN111583948 B CN 111583948B CN 202010385976 A CN202010385976 A CN 202010385976A CN 111583948 B CN111583948 B CN 111583948B
- Authority
- CN
- China
- Prior art keywords
- layer
- network
- voice
- channel
- subtask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000003044 adaptive effect Effects 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000004880 explosion Methods 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 210000002569 neuron Anatomy 0.000 claims description 33
- 230000002457 bidirectional effect Effects 0.000 claims description 22
- 230000000873 masking effect Effects 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000008034 disappearance Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004630 mental health Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 208000019914 Mental Fatigue Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 206010016256 fatigue Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008897 memory decline Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003911 water pollution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种改进的多通道语音增强系统和方法,将采集的多麦信号输入训练的自适应波束形成网络生成单通道信号;将生成的单通道信号通过共享网络进行信息转换;将转换后的信号输入多目标学习网络的主任务网络得到增强后的语音信号;将转换后的信号输入多目标学习网络的子任务网络得到表征语音信息的特征。本发明避免了声源定位算法,并可以有效的抑制非平稳噪声。本发明在神经网络中加入了LSTM层,能够在一定程度上缓解梯度消失和梯度爆炸问题,减少训练结果不收敛的情况,从而改善语音增强的效果。同时,由于引入多任务学习策略,增加了算法的鲁棒性,提升了算法性能,具有良好的应用前景。
Description
技术领域
本发明属于语音增强技术领域,具体涉及一种改进的多通道语音增强系统和方法。
背景技术
随着现代工业的迅速发展和人们对于生活质量要求的不断提升,环境污染问题引起了社会的广泛关注。其中噪声污染与水污染、大气污染被看成是世界范围内的三大污染。噪声污染也如同其他污染一样,广泛的存在于日常生活的方方面面。噪声具有高强度和低强度之分,其中低强度的噪声在一般情况下对人的身心健康没有什么大的害处,但是高强度的噪声却极易影响人们的身心健康,会使人精神不振、身心疲劳、记忆力减退,在长时间接触后甚至会引起疾病。在城市生活中噪声污染的来源主要有交通噪声、工业噪声、施工噪声和社会生活噪声四种。
在上世纪的70年代,研究人员已经开始了对多通道语音增强进行相应的研究,在90年代取得了对多通道语音增强技术研究的阶段性成果,且人们对麦克风阵列技术的应用研究也越来越深,固定波束形成算法和自适应波束形成算法等多通道语音增强技术被相继的提出。固定波束形成算法实现较为简单,但是为了得到较好的语音增强性能,通常需要较多的麦克风阵元。此外,由于权值是固定的常数,其对环境的适应性不强,因此后续发展出各种自适应波束形成算法。相比于固定波束形成,自适应波束形成能够根据环境的变化来自适应的调整各个通道语音的权值。为了进一步的提高波束形成后的语音的信噪比,一些专家学者将后置滤波算法引入到语音增强算法当中。通过在波束形成输出端加入自适应模块,语音增强系统能够对非平稳的噪声产生更好的抑制作用。后续又有一些研究人员对后置滤波技术进行相应的优化,将非线性运算加入到后置滤波算法当中。
最近几年,得益于人工智能技术的迅猛发展,许多专家学者开始将深度神经网络应用于语音增强技术当中。通过神经网络的增强语音通常能够具有较好的语音清晰度和可懂度,但是,由于神经网络存在梯度消失和梯度爆炸问题,因而训练得到的网络经常是不收敛的,从而影响语音增强的效果。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种改进的多通道语音增强系统和方法,基于人工智能的思想,提出结合卷积神经网络和多目标学习的多通道语音增强系统,能解决传统的多通道语音增强算法无法抑制非平稳噪声,且鲁棒性差的问题,以及缓解神经网络中存在的梯度消失和梯度爆炸导致的网络不收敛的问题。
为实现上述技术目的,本发明采取的技术方案为:
一种改进的多通道语音增强系统,包括自适应波束形成网络、共享网络和多目标学习网络;
所述自适应波束形成网络用于将采集的多麦信号转换为单通道信号;
所述多目标学习网络包括主任务网络和子任务网络;
所述主任务网络用于以语音频谱的幅度掩蔽为目标进行训练,得到增强后的语音信号;
所述子任务网络用于以语音的bark域倒谱系数为目标进行训练,表征语音信息的特征;
所述共享网络用于将单通道信号通过双向长短期记忆网络,使得系统能够进行时间序列预测,保证主任务网络和子任务网络之间的信息交换。
为优化上述技术方案,采取的具体措施还包括:
上述的自适应波束形成网络包括1层输入层、2层一维卷积层和1层平均池化层;
所述1层输入层、2层一维卷积层和1层平均池化层用于组成一个卷积神经网络,从而将采集到的多麦信号转换为单通道信号;
其中,输入层的输入为每个麦克风的连续25帧时域信号;
第1层一维卷积层含有128个卷积神经元,第2层一维卷积层含有256个卷积神经元;
第1层一维卷积层不使用丢弃技术,第2层卷积层一维使用丢弃技术来防止网络过拟合,其中丢弃的概率设置为0.2。
上述的共享网络和主任务网络均包括多层双向LSTM层,用于缓解神经网络中可能出现的梯度消失和梯度爆炸的问题。
上述的共享网络包含1层双向LSTM层,所述双向LSTM层含有832个神经元单元;
所述双向LSTM层用于使得系统能够进行时间序列预测,保证主任务网络和子任务网络之间的信息交换。
上述的主任务网络包括2层双向LSTM层和1层输出层;
所述2层双向LSTM层和1层输出层用于以语音频谱的幅度掩蔽为目标进行训练;输出层输出估计的语音频谱幅度掩蔽,用于转换得到连续25帧的纯净语音;
其中,第1层双向LSTM层含有832个神经元,第2层双向LSTM层含有512个神经元,输出层为含有257个神经元的全连接神经元;
主任务网络的损失函数为:
l1=|ypreSMM-ytarSMM| (1)
其中,ypreSMM是主任务估计的语音频谱幅度掩蔽,ytarSMM是参考语音的频谱幅度掩蔽。
上述的子任务网络包括2层全连接层和1层输出层;
2层全连接层分别用于以语音的bark域倒谱系数为目标进行训练;1层输出层输出估计的bark域倒谱系数;
其中,第1层全连接层含有512个神经元,第2层全连接层含有256个神经元,输出层为含有39个神经元的全连接神经元;
子任务网络的损失函数为:
其中,ypreFEA是子任务估计的bark域倒谱系数,ytarFEA是参考语音的bark域倒谱系数。
上述的多目标学习网络的总损失函数为:
lall=(1-α)l1+α·l2 (3)
其中,α是权重系数。
上述的一种改进的多通道语音增强系统的语音增强方法,所述方法包括:
a)自适应波束形成网络将采集的多麦信号转换为单通道信号;
b)共享网络将生成的单通道信号进行信息转换;
c)转换后的信号输入多目标学习网络的主任务网络,主任务网络以语音频谱的幅度掩蔽为目标进行训练,得到增强后的语音信号;
d)转换后的信号输入多目标学习网络的子任务网络,子任务网络以语音的bark域倒谱系数为目标进行训练,表征语音信息的特征。
本发明具有以下有益效果:
相较于传统算法,本发明避免了声源定位算法,并可以有效的抑制非平稳噪声。本发明在神经网络中加入了LSTM层,能够在一定程度上缓解梯度消失和梯度爆炸问题,减少训练结果不收敛的情况,从而改善语音增强的效果。同时,由于引入多任务学习策略,增加了算法的鲁棒性,提升了算法性能,具有良好的应用前景。
附图说明
图1是本发明系统模型结构框图。
图2是算法性能对比图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
参见图1,本发明的一种改进的多通道语音增强系统,包括自适应波束形成网络、共享网络和多目标学习网络;
所述自适应波束形成网络用于将采集的多麦信号转换为单通道信号;
所述多目标学习网络包括主任务网络和子任务网络;
所述主任务网络用于以语音频谱的幅度掩蔽为目标进行训练,得到增强后的语音信号;
所述子任务网络用于以语音的bark域倒谱系数为目标进行训练,表征语音信息的特征;
所述共享网络用于将单通道信号通过双向长短期记忆网络,使得系统能够进行时间序列预测,保证主任务网络和子任务网络之间的信息交换。
实施例中,所述自适应波束形成网络包括1层输入层、2层一维卷积层和1层平均池化层;
所述1层输入层、2层一维卷积层和1层平均池化层用于组成一个卷积神经网络,从而将采集到的多麦信号转换为单通道信号。
其中,输入层的输入为每个麦克风的连续25帧时域信号;
第1层一维卷积层含有128个卷积神经元,第2层一维卷积层含有256个卷积神经元;
第1层一维卷积层不使用丢弃技术,第2层卷积层一维使用丢弃技术来防止网络过拟合,其中丢弃的概率设置为0.2。
实施例中,所述共享网络和主任务网络均包括多层双向LSTM层,用于缓解神经网络中可能出现的梯度消失和梯度爆炸的问题。
实施例中,所述共享网络包含1层双向LSTM层,所述双向LSTM层含有832个神经元单元;
所述双向LSTM层用于使得系统能够进行时间序列预测,保证主任务网络和子任务网络之间的信息交换。
实施例中,所述主任务网络包括2层双向LSTM层和1层输出层;
所述2层双向LSTM层和1层输出层用于以语音频谱的幅度掩蔽为目标进行训练;输出层输出估计的语音频谱幅度掩蔽,用于转换得到连续25帧的纯净语音;
其中,第1层双向LSTM层含有832个神经元,第2层双向LSTM层含有512个神经元,输出层为含有257个神经元的全连接神经元;
主任务网络的损失函数为:
l1=|ypreSMM-ytarSMM| (1)
其中,ypreSMM是主任务估计的语音频谱幅度掩蔽,ytarSMM是参考语音的频谱幅度掩蔽。
实施例中,所述子任务网络包括2层全连接层和1层输出层;
2层全连接层分别用于以语音的bark域倒谱系数为目标进行训练;1层输出层输出估计的bark域倒谱系数;
其中,第1层全连接层含有512个神经元,第2层全连接层含有256个神经元,输出层为含有39个神经元的全连接神经元;
子任务网络的损失函数为:
其中,ypreFEA是子任务估计的bark域倒谱系数,ytarFEA是参考语音的bark域倒谱系数。
实施例中,所述多目标学习网络的总损失函数为:
lall=(1-α)l1+α·l2 (3)
其中,α是权重系数。
一种改进的多通道语音增强系统的语音增强方法,所述方法包括:
a)自适应波束形成网络将采集的多麦信号转换为单通道信号;
b)共享网络将生成的单通道信号进行信息转换;
c)转换后的信号输入多目标学习网络的主任务网络,主任务网络以语音频谱的幅度掩蔽为目标进行训练,得到增强后的语音信号;
d)转换后的信号输入多目标学习网络的子任务网络,子任务网络以语音的bark域倒谱系数为目标进行训练,表征语音信息的特征。
图2显示了使用Webrtc、GRU和本发明在不同信噪比上匹配噪声验证集上的PESQ和STOI评估结果。从图2中可以看出,本发明的性能在PESQ和STOI上全面超过Webrtc的性能和GRU的性能。从平均上看,本发明在匹配噪声验证集上的PESQ指标可以比Webrtc提升约16%,比GRU提升约6.8%,而从STOI指标上来看提出方法略微高于Webrtc和GRU。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (8)
1.一种改进的多通道语音增强系统,其特征在于,包括自适应波束形成网络、共享网络和多目标学习网络;
所述自适应波束形成网络用于将采集的多麦信号转换为单通道信号;
所述多目标学习网络包括主任务网络和子任务网络;
所述主任务网络用于以语音频谱的幅度掩蔽为目标进行训练,得到增强后的语音信号;
所述子任务网络用于以语音的bark域倒谱系数为目标进行训练,表征语音信息的特征;
所述共享网络用于将单通道信号通过双向长短期记忆网络,使得系统能够进行时间序列预测,保证主任务网络和子任务网络之间的信息交换。
2.根据权利要求1所述的一种改进的多通道语音增强系统,其特征在于,所述自适应波束形成网络包括1层输入层、2层一维卷积层和1层平均池化层;
所述1层输入层、2层一维卷积层和1层平均池化层用于组成一个卷积神经网络,从而将采集到的多麦信号转换为单通道信号;
其中,输入层的输入为每个麦克风的连续25帧时域信号;
第1层一维卷积层含有128个卷积神经元,第2层一维卷积层含有256个卷积神经元;
第1层一维卷积层不使用丢弃技术,第2层卷积层一维使用丢弃技术来防止网络过拟合,其中丢弃的概率设置为0.2。
3.根据权利要求1所述的一种改进的多通道语音增强系统,其特征在于,所述共享网络和主任务网络均包括多层双向LSTM层,用于缓解神经网络中可能出现的梯度消失和梯度爆炸的问题。
4.根据权利要求1所述的一种改进的多通道语音增强系统,其特征在于,所述共享网络包含1层双向LSTM层,所述双向LSTM层含有832个神经元单元;
所述双向LSTM层用于使得系统能够进行时间序列预测,保证主任务网络和子任务网络之间的信息交换。
5.根据权利要求1所述的一种改进的多通道语音增强系统,其特征在于,所述主任务网络包括2层双向LSTM层和1层输出层;
所述2层双向LSTM层和1层输出层用于以语音频谱的幅度掩蔽为目标进行训练;输出层输出估计的语音频谱幅度掩蔽,用于转换得到连续25帧的纯净语音;
其中,第1层双向LSTM层含有832个神经元,第2层双向LSTM层含有512个神经元,输出层为含有257个神经元的全连接神经元;
主任务网络的损失函数为:
l1=|ypreSMM-ytarSMM| (1)
其中,ypreSMM是主任务估计的语音频谱幅度掩蔽,ytarSMM是参考语音的频谱幅度掩蔽。
7.根据权利要求6所述的一种改进的多通道语音增强系统,其特征在于,所述多目标学习网络的总损失函数为:
lall=(1-α)l1+α·l2 (3)
其中,α是权重系数。
8.根据权利要求1-7任一所述的一种改进的多通道语音增强系统的语音增强方法,其特征在于,所述方法包括:
a)自适应波束形成网络将采集的多麦信号转换为单通道信号;
b)共享网络将生成的单通道信号进行信息转换;
c)转换后的信号输入多目标学习网络的主任务网络,主任务网络以语音频谱的幅度掩蔽为目标进行训练,得到增强后的语音信号;
d)转换后的信号输入多目标学习网络的子任务网络,子任务网络以语音的bark域倒谱系数为目标进行训练,表征语音信息的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010385976.0A CN111583948B (zh) | 2020-05-09 | 2020-05-09 | 一种改进的多通道语音增强系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010385976.0A CN111583948B (zh) | 2020-05-09 | 2020-05-09 | 一种改进的多通道语音增强系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111583948A CN111583948A (zh) | 2020-08-25 |
CN111583948B true CN111583948B (zh) | 2022-09-27 |
Family
ID=72126400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010385976.0A Active CN111583948B (zh) | 2020-05-09 | 2020-05-09 | 一种改进的多通道语音增强系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111583948B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112904279B (zh) * | 2021-01-18 | 2024-01-26 | 南京工程学院 | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 |
CN113241083B (zh) * | 2021-04-26 | 2022-04-22 | 华南理工大学 | 一种基于多目标异质网络的集成语音增强系统 |
CN113744751B (zh) * | 2021-08-16 | 2024-05-17 | 清华大学苏州汽车研究院(相城) | 一种应用于麦克风阵列的多通道语音信号增强方法 |
CN113593594B (zh) * | 2021-09-01 | 2024-03-08 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和设备及语音增强方法和设备 |
CN114299938B (zh) * | 2022-03-07 | 2022-06-17 | 凯新创达(深圳)科技发展有限公司 | 一种基于深度学习的智能语音识别方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015157013A1 (en) * | 2014-04-11 | 2015-10-15 | Analog Devices, Inc. | Apparatus, systems and methods for providing blind source separation services |
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160071526A1 (en) * | 2014-09-09 | 2016-03-10 | Analog Devices, Inc. | Acoustic source tracking and selection |
US9881631B2 (en) * | 2014-10-21 | 2018-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Method for enhancing audio signal using phase information |
US9697826B2 (en) * | 2015-03-27 | 2017-07-04 | Google Inc. | Processing multi-channel audio waveforms |
-
2020
- 2020-05-09 CN CN202010385976.0A patent/CN111583948B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015157013A1 (en) * | 2014-04-11 | 2015-10-15 | Analog Devices, Inc. | Apparatus, systems and methods for providing blind source separation services |
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
Non-Patent Citations (1)
Title |
---|
深度学习理论及其应用专题讲座(四) 第8讲 深度学习方法在语音增强中的应用;时文华等;《军事通信技术》;20160925(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111583948A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111583948B (zh) | 一种改进的多通道语音增强系统和方法 | |
CN109859767B (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN105611477B (zh) | 数字助听器中深度和广度神经网络相结合的语音增强算法 | |
Gao et al. | SNR-Based Progressive Learning of Deep Neural Network for Speech Enhancement. | |
CN110379412A (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN106782497B (zh) | 一种基于便携式智能终端的智能语音降噪算法 | |
Shi et al. | Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech Separation. | |
CN112331224A (zh) | 轻量级时域卷积网络语音增强方法与系统 | |
CN109147808B (zh) | 一种言语增强助听方法 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN101901602A (zh) | 一种利用受损听力的听阈进行降噪的方法 | |
CN113744749B (zh) | 一种基于心理声学域加权损失函数的语音增强方法及系统 | |
CN112017682A (zh) | 一种单通道语音同时降噪和去混响系统 | |
Fujimoto et al. | One-Pass Single-Channel Noisy Speech Recognition Using a Combination of Noisy and Enhanced Features. | |
CN113160839B (zh) | 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法 | |
Li et al. | Densely connected network with time-frequency dilated convolution for speech enhancement | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
CN112885375A (zh) | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 | |
Chao et al. | Cross-domain single-channel speech enhancement model with bi-projection fusion module for noise-robust ASR | |
CN115359804A (zh) | 一种基于麦克风阵列的定向音频拾取方法和系统 | |
CN113782044B (zh) | 一种语音增强方法及装置 | |
Riahi et al. | Single channel speech enhancement using u-net spiking neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |