CN111583948B - 一种改进的多通道语音增强系统和方法 - Google Patents

一种改进的多通道语音增强系统和方法 Download PDF

Info

Publication number
CN111583948B
CN111583948B CN202010385976.0A CN202010385976A CN111583948B CN 111583948 B CN111583948 B CN 111583948B CN 202010385976 A CN202010385976 A CN 202010385976A CN 111583948 B CN111583948 B CN 111583948B
Authority
CN
China
Prior art keywords
layer
network
voice
channel
subtask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010385976.0A
Other languages
English (en)
Other versions
CN111583948A (zh
Inventor
丁凯星
谢跃
梁瑞宇
王青云
陈建强
姜维汉
薛源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN202010385976.0A priority Critical patent/CN111583948B/zh
Publication of CN111583948A publication Critical patent/CN111583948A/zh
Application granted granted Critical
Publication of CN111583948B publication Critical patent/CN111583948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种改进的多通道语音增强系统和方法,将采集的多麦信号输入训练的自适应波束形成网络生成单通道信号;将生成的单通道信号通过共享网络进行信息转换;将转换后的信号输入多目标学习网络的主任务网络得到增强后的语音信号;将转换后的信号输入多目标学习网络的子任务网络得到表征语音信息的特征。本发明避免了声源定位算法,并可以有效的抑制非平稳噪声。本发明在神经网络中加入了LSTM层,能够在一定程度上缓解梯度消失和梯度爆炸问题,减少训练结果不收敛的情况,从而改善语音增强的效果。同时,由于引入多任务学习策略,增加了算法的鲁棒性,提升了算法性能,具有良好的应用前景。

Description

一种改进的多通道语音增强系统和方法
技术领域
本发明属于语音增强技术领域,具体涉及一种改进的多通道语音增强系统和方法。
背景技术
随着现代工业的迅速发展和人们对于生活质量要求的不断提升,环境污染问题引起了社会的广泛关注。其中噪声污染与水污染、大气污染被看成是世界范围内的三大污染。噪声污染也如同其他污染一样,广泛的存在于日常生活的方方面面。噪声具有高强度和低强度之分,其中低强度的噪声在一般情况下对人的身心健康没有什么大的害处,但是高强度的噪声却极易影响人们的身心健康,会使人精神不振、身心疲劳、记忆力减退,在长时间接触后甚至会引起疾病。在城市生活中噪声污染的来源主要有交通噪声、工业噪声、施工噪声和社会生活噪声四种。
在上世纪的70年代,研究人员已经开始了对多通道语音增强进行相应的研究,在90年代取得了对多通道语音增强技术研究的阶段性成果,且人们对麦克风阵列技术的应用研究也越来越深,固定波束形成算法和自适应波束形成算法等多通道语音增强技术被相继的提出。固定波束形成算法实现较为简单,但是为了得到较好的语音增强性能,通常需要较多的麦克风阵元。此外,由于权值是固定的常数,其对环境的适应性不强,因此后续发展出各种自适应波束形成算法。相比于固定波束形成,自适应波束形成能够根据环境的变化来自适应的调整各个通道语音的权值。为了进一步的提高波束形成后的语音的信噪比,一些专家学者将后置滤波算法引入到语音增强算法当中。通过在波束形成输出端加入自适应模块,语音增强系统能够对非平稳的噪声产生更好的抑制作用。后续又有一些研究人员对后置滤波技术进行相应的优化,将非线性运算加入到后置滤波算法当中。
最近几年,得益于人工智能技术的迅猛发展,许多专家学者开始将深度神经网络应用于语音增强技术当中。通过神经网络的增强语音通常能够具有较好的语音清晰度和可懂度,但是,由于神经网络存在梯度消失和梯度爆炸问题,因而训练得到的网络经常是不收敛的,从而影响语音增强的效果。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种改进的多通道语音增强系统和方法,基于人工智能的思想,提出结合卷积神经网络和多目标学习的多通道语音增强系统,能解决传统的多通道语音增强算法无法抑制非平稳噪声,且鲁棒性差的问题,以及缓解神经网络中存在的梯度消失和梯度爆炸导致的网络不收敛的问题。
为实现上述技术目的,本发明采取的技术方案为:
一种改进的多通道语音增强系统,包括自适应波束形成网络、共享网络和多目标学习网络;
所述自适应波束形成网络用于将采集的多麦信号转换为单通道信号;
所述多目标学习网络包括主任务网络和子任务网络;
所述主任务网络用于以语音频谱的幅度掩蔽为目标进行训练,得到增强后的语音信号;
所述子任务网络用于以语音的bark域倒谱系数为目标进行训练,表征语音信息的特征;
所述共享网络用于将单通道信号通过双向长短期记忆网络,使得系统能够进行时间序列预测,保证主任务网络和子任务网络之间的信息交换。
为优化上述技术方案,采取的具体措施还包括:
上述的自适应波束形成网络包括1层输入层、2层一维卷积层和1层平均池化层;
所述1层输入层、2层一维卷积层和1层平均池化层用于组成一个卷积神经网络,从而将采集到的多麦信号转换为单通道信号;
其中,输入层的输入为每个麦克风的连续25帧时域信号;
第1层一维卷积层含有128个卷积神经元,第2层一维卷积层含有256个卷积神经元;
第1层一维卷积层不使用丢弃技术,第2层卷积层一维使用丢弃技术来防止网络过拟合,其中丢弃的概率设置为0.2。
上述的共享网络和主任务网络均包括多层双向LSTM层,用于缓解神经网络中可能出现的梯度消失和梯度爆炸的问题。
上述的共享网络包含1层双向LSTM层,所述双向LSTM层含有832个神经元单元;
所述双向LSTM层用于使得系统能够进行时间序列预测,保证主任务网络和子任务网络之间的信息交换。
上述的主任务网络包括2层双向LSTM层和1层输出层;
所述2层双向LSTM层和1层输出层用于以语音频谱的幅度掩蔽为目标进行训练;输出层输出估计的语音频谱幅度掩蔽,用于转换得到连续25帧的纯净语音;
其中,第1层双向LSTM层含有832个神经元,第2层双向LSTM层含有512个神经元,输出层为含有257个神经元的全连接神经元;
主任务网络的损失函数为:
l1=|ypreSMM-ytarSMM| (1)
其中,ypreSMM是主任务估计的语音频谱幅度掩蔽,ytarSMM是参考语音的频谱幅度掩蔽。
上述的子任务网络包括2层全连接层和1层输出层;
2层全连接层分别用于以语音的bark域倒谱系数为目标进行训练;1层输出层输出估计的bark域倒谱系数;
其中,第1层全连接层含有512个神经元,第2层全连接层含有256个神经元,输出层为含有39个神经元的全连接神经元;
子任务网络的损失函数为:
Figure BDA0002483943900000031
其中,ypreFEA是子任务估计的bark域倒谱系数,ytarFEA是参考语音的bark域倒谱系数。
上述的多目标学习网络的总损失函数为:
lall=(1-α)l1+α·l2 (3)
其中,α是权重系数。
上述的一种改进的多通道语音增强系统的语音增强方法,所述方法包括:
a)自适应波束形成网络将采集的多麦信号转换为单通道信号;
b)共享网络将生成的单通道信号进行信息转换;
c)转换后的信号输入多目标学习网络的主任务网络,主任务网络以语音频谱的幅度掩蔽为目标进行训练,得到增强后的语音信号;
d)转换后的信号输入多目标学习网络的子任务网络,子任务网络以语音的bark域倒谱系数为目标进行训练,表征语音信息的特征。
本发明具有以下有益效果:
相较于传统算法,本发明避免了声源定位算法,并可以有效的抑制非平稳噪声。本发明在神经网络中加入了LSTM层,能够在一定程度上缓解梯度消失和梯度爆炸问题,减少训练结果不收敛的情况,从而改善语音增强的效果。同时,由于引入多任务学习策略,增加了算法的鲁棒性,提升了算法性能,具有良好的应用前景。
附图说明
图1是本发明系统模型结构框图。
图2是算法性能对比图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
参见图1,本发明的一种改进的多通道语音增强系统,包括自适应波束形成网络、共享网络和多目标学习网络;
所述自适应波束形成网络用于将采集的多麦信号转换为单通道信号;
所述多目标学习网络包括主任务网络和子任务网络;
所述主任务网络用于以语音频谱的幅度掩蔽为目标进行训练,得到增强后的语音信号;
所述子任务网络用于以语音的bark域倒谱系数为目标进行训练,表征语音信息的特征;
所述共享网络用于将单通道信号通过双向长短期记忆网络,使得系统能够进行时间序列预测,保证主任务网络和子任务网络之间的信息交换。
实施例中,所述自适应波束形成网络包括1层输入层、2层一维卷积层和1层平均池化层;
所述1层输入层、2层一维卷积层和1层平均池化层用于组成一个卷积神经网络,从而将采集到的多麦信号转换为单通道信号。
其中,输入层的输入为每个麦克风的连续25帧时域信号;
第1层一维卷积层含有128个卷积神经元,第2层一维卷积层含有256个卷积神经元;
第1层一维卷积层不使用丢弃技术,第2层卷积层一维使用丢弃技术来防止网络过拟合,其中丢弃的概率设置为0.2。
实施例中,所述共享网络和主任务网络均包括多层双向LSTM层,用于缓解神经网络中可能出现的梯度消失和梯度爆炸的问题。
实施例中,所述共享网络包含1层双向LSTM层,所述双向LSTM层含有832个神经元单元;
所述双向LSTM层用于使得系统能够进行时间序列预测,保证主任务网络和子任务网络之间的信息交换。
实施例中,所述主任务网络包括2层双向LSTM层和1层输出层;
所述2层双向LSTM层和1层输出层用于以语音频谱的幅度掩蔽为目标进行训练;输出层输出估计的语音频谱幅度掩蔽,用于转换得到连续25帧的纯净语音;
其中,第1层双向LSTM层含有832个神经元,第2层双向LSTM层含有512个神经元,输出层为含有257个神经元的全连接神经元;
主任务网络的损失函数为:
l1=|ypreSMM-ytarSMM| (1)
其中,ypreSMM是主任务估计的语音频谱幅度掩蔽,ytarSMM是参考语音的频谱幅度掩蔽。
实施例中,所述子任务网络包括2层全连接层和1层输出层;
2层全连接层分别用于以语音的bark域倒谱系数为目标进行训练;1层输出层输出估计的bark域倒谱系数;
其中,第1层全连接层含有512个神经元,第2层全连接层含有256个神经元,输出层为含有39个神经元的全连接神经元;
子任务网络的损失函数为:
Figure BDA0002483943900000051
其中,ypreFEA是子任务估计的bark域倒谱系数,ytarFEA是参考语音的bark域倒谱系数。
实施例中,所述多目标学习网络的总损失函数为:
lall=(1-α)l1+α·l2 (3)
其中,α是权重系数。
一种改进的多通道语音增强系统的语音增强方法,所述方法包括:
a)自适应波束形成网络将采集的多麦信号转换为单通道信号;
b)共享网络将生成的单通道信号进行信息转换;
c)转换后的信号输入多目标学习网络的主任务网络,主任务网络以语音频谱的幅度掩蔽为目标进行训练,得到增强后的语音信号;
d)转换后的信号输入多目标学习网络的子任务网络,子任务网络以语音的bark域倒谱系数为目标进行训练,表征语音信息的特征。
图2显示了使用Webrtc、GRU和本发明在不同信噪比上匹配噪声验证集上的PESQ和STOI评估结果。从图2中可以看出,本发明的性能在PESQ和STOI上全面超过Webrtc的性能和GRU的性能。从平均上看,本发明在匹配噪声验证集上的PESQ指标可以比Webrtc提升约16%,比GRU提升约6.8%,而从STOI指标上来看提出方法略微高于Webrtc和GRU。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (8)

1.一种改进的多通道语音增强系统,其特征在于,包括自适应波束形成网络、共享网络和多目标学习网络;
所述自适应波束形成网络用于将采集的多麦信号转换为单通道信号;
所述多目标学习网络包括主任务网络和子任务网络;
所述主任务网络用于以语音频谱的幅度掩蔽为目标进行训练,得到增强后的语音信号;
所述子任务网络用于以语音的bark域倒谱系数为目标进行训练,表征语音信息的特征;
所述共享网络用于将单通道信号通过双向长短期记忆网络,使得系统能够进行时间序列预测,保证主任务网络和子任务网络之间的信息交换。
2.根据权利要求1所述的一种改进的多通道语音增强系统,其特征在于,所述自适应波束形成网络包括1层输入层、2层一维卷积层和1层平均池化层;
所述1层输入层、2层一维卷积层和1层平均池化层用于组成一个卷积神经网络,从而将采集到的多麦信号转换为单通道信号;
其中,输入层的输入为每个麦克风的连续25帧时域信号;
第1层一维卷积层含有128个卷积神经元,第2层一维卷积层含有256个卷积神经元;
第1层一维卷积层不使用丢弃技术,第2层卷积层一维使用丢弃技术来防止网络过拟合,其中丢弃的概率设置为0.2。
3.根据权利要求1所述的一种改进的多通道语音增强系统,其特征在于,所述共享网络和主任务网络均包括多层双向LSTM层,用于缓解神经网络中可能出现的梯度消失和梯度爆炸的问题。
4.根据权利要求1所述的一种改进的多通道语音增强系统,其特征在于,所述共享网络包含1层双向LSTM层,所述双向LSTM层含有832个神经元单元;
所述双向LSTM层用于使得系统能够进行时间序列预测,保证主任务网络和子任务网络之间的信息交换。
5.根据权利要求1所述的一种改进的多通道语音增强系统,其特征在于,所述主任务网络包括2层双向LSTM层和1层输出层;
所述2层双向LSTM层和1层输出层用于以语音频谱的幅度掩蔽为目标进行训练;输出层输出估计的语音频谱幅度掩蔽,用于转换得到连续25帧的纯净语音;
其中,第1层双向LSTM层含有832个神经元,第2层双向LSTM层含有512个神经元,输出层为含有257个神经元的全连接神经元;
主任务网络的损失函数为:
l1=|ypreSMM-ytarSMM| (1)
其中,ypreSMM是主任务估计的语音频谱幅度掩蔽,ytarSMM是参考语音的频谱幅度掩蔽。
6.根据权利要求5所述的一种改进的多通道语音增强系统,其特征在于,所述子任务网络包括2层全连接层和1层输出层;
2层全连接层分别用于以语音的bark域倒谱系数为目标进行训练;1层输出层输出估计的bark域倒谱系数;
其中,第1层全连接层含有512个神经元,第2层全连接层含有256个神经元,输出层为含有39个神经元的全连接神经元;
子任务网络的损失函数为:
Figure FDA0002483943890000021
其中,ypreFEA是子任务估计的bark域倒谱系数,ytarFEA是参考语音的bark域倒谱系数。
7.根据权利要求6所述的一种改进的多通道语音增强系统,其特征在于,所述多目标学习网络的总损失函数为:
lall=(1-α)l1+α·l2 (3)
其中,α是权重系数。
8.根据权利要求1-7任一所述的一种改进的多通道语音增强系统的语音增强方法,其特征在于,所述方法包括:
a)自适应波束形成网络将采集的多麦信号转换为单通道信号;
b)共享网络将生成的单通道信号进行信息转换;
c)转换后的信号输入多目标学习网络的主任务网络,主任务网络以语音频谱的幅度掩蔽为目标进行训练,得到增强后的语音信号;
d)转换后的信号输入多目标学习网络的子任务网络,子任务网络以语音的bark域倒谱系数为目标进行训练,表征语音信息的特征。
CN202010385976.0A 2020-05-09 2020-05-09 一种改进的多通道语音增强系统和方法 Active CN111583948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010385976.0A CN111583948B (zh) 2020-05-09 2020-05-09 一种改进的多通道语音增强系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010385976.0A CN111583948B (zh) 2020-05-09 2020-05-09 一种改进的多通道语音增强系统和方法

Publications (2)

Publication Number Publication Date
CN111583948A CN111583948A (zh) 2020-08-25
CN111583948B true CN111583948B (zh) 2022-09-27

Family

ID=72126400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010385976.0A Active CN111583948B (zh) 2020-05-09 2020-05-09 一种改进的多通道语音增强系统和方法

Country Status (1)

Country Link
CN (1) CN111583948B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112904279B (zh) * 2021-01-18 2024-01-26 南京工程学院 基于卷积神经网络和子带srp-phat空间谱的声源定位方法
CN113241083B (zh) * 2021-04-26 2022-04-22 华南理工大学 一种基于多目标异质网络的集成语音增强系统
CN113744751B (zh) * 2021-08-16 2024-05-17 清华大学苏州汽车研究院(相城) 一种应用于麦克风阵列的多通道语音信号增强方法
CN113593594B (zh) * 2021-09-01 2024-03-08 北京达佳互联信息技术有限公司 语音增强模型的训练方法和设备及语音增强方法和设备
CN114299938B (zh) * 2022-03-07 2022-06-17 凯新创达(深圳)科技发展有限公司 一种基于深度学习的智能语音识别方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015157013A1 (en) * 2014-04-11 2015-10-15 Analog Devices, Inc. Apparatus, systems and methods for providing blind source separation services
CN106847302A (zh) * 2017-02-17 2017-06-13 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160071526A1 (en) * 2014-09-09 2016-03-10 Analog Devices, Inc. Acoustic source tracking and selection
US9881631B2 (en) * 2014-10-21 2018-01-30 Mitsubishi Electric Research Laboratories, Inc. Method for enhancing audio signal using phase information
US9697826B2 (en) * 2015-03-27 2017-07-04 Google Inc. Processing multi-channel audio waveforms

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015157013A1 (en) * 2014-04-11 2015-10-15 Analog Devices, Inc. Apparatus, systems and methods for providing blind source separation services
CN106847302A (zh) * 2017-02-17 2017-06-13 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度学习理论及其应用专题讲座(四) 第8讲 深度学习方法在语音增强中的应用;时文华等;《军事通信技术》;20160925(第03期);全文 *

Also Published As

Publication number Publication date
CN111583948A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111583948B (zh) 一种改进的多通道语音增强系统和方法
CN109859767B (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN105611477B (zh) 数字助听器中深度和广度神经网络相结合的语音增强算法
Gao et al. SNR-Based Progressive Learning of Deep Neural Network for Speech Enhancement.
CN110379412A (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
CN110428849B (zh) 一种基于生成对抗网络的语音增强方法
CN106782497B (zh) 一种基于便携式智能终端的智能语音降噪算法
Shi et al. Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech Separation.
CN112331224A (zh) 轻量级时域卷积网络语音增强方法与系统
CN109147808B (zh) 一种言语增强助听方法
CN111899750B (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN101901602A (zh) 一种利用受损听力的听阈进行降噪的方法
CN113744749B (zh) 一种基于心理声学域加权损失函数的语音增强方法及系统
CN112017682A (zh) 一种单通道语音同时降噪和去混响系统
Fujimoto et al. One-Pass Single-Channel Noisy Speech Recognition Using a Combination of Noisy and Enhanced Features.
CN113160839B (zh) 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法
Li et al. Densely connected network with time-frequency dilated convolution for speech enhancement
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
CN112885375A (zh) 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法
Chao et al. Cross-domain single-channel speech enhancement model with bi-projection fusion module for noise-robust ASR
CN115359804A (zh) 一种基于麦克风阵列的定向音频拾取方法和系统
CN113782044B (zh) 一种语音增强方法及装置
Riahi et al. Single channel speech enhancement using u-net spiking neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant