CN109215674A - 实时语音增强方法 - Google Patents
实时语音增强方法 Download PDFInfo
- Publication number
- CN109215674A CN109215674A CN201810908839.3A CN201810908839A CN109215674A CN 109215674 A CN109215674 A CN 109215674A CN 201810908839 A CN201810908839 A CN 201810908839A CN 109215674 A CN109215674 A CN 109215674A
- Authority
- CN
- China
- Prior art keywords
- voice
- noisy speech
- acoustic feature
- speech
- transform domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 230000002708 enhancing effect Effects 0.000 claims abstract description 23
- 230000009466 transformation Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000007613 environmental effect Effects 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 210000005036 nerve Anatomy 0.000 claims description 2
- 210000004218 nerve net Anatomy 0.000 claims 1
- 238000001228 spectrum Methods 0.000 abstract description 16
- 239000004568 cement Substances 0.000 abstract description 13
- 230000008569 process Effects 0.000 abstract description 5
- 230000015572 biosynthetic process Effects 0.000 abstract description 2
- 238000003786 synthesis reaction Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 14
- 230000009467 reduction Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明涉及一种通用的实时语音增强方法,具体方法包括以下步骤:系统接收包含语音和多种环境干扰的含噪语音;使用多层的深度神经网络处理该含噪语音;系统输出增强的语音信号。使用深度神经网络处理含噪语音的过程具体包含以下部分:使用变换层提取变换域声学特征,特征中包括语音的幅度和相位信息;利用特征学习模块产生掩膜;利用产生的掩膜与含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征;增强的语音的变换域声学特征经过反变换合成增强的语音波形。本发明采用有监督学习方法对含噪语音的幅度和相位同时进行语音增强处理;本发明提出的方法通过构建时域损失函数,利用沿时间展开的反向传播进行训练,克服了信号与声谱转换不一致问题。
Description
技术领域
本发明涉及语音增强技术领域,尤其涉及一种基于深度学习模型的端对端的实时语音增强方法。
背景技术
随着电子设备的不断发展,语音设备也成为人们日常生活不可或缺的部分。在语音采集的过程中,外界噪声和混响等干扰不可避免影响到语音质量。所以,在采集语音后应对其进行处理以获得“纯净”的语音信号。这一过程被称为语音增强。
语音增强模型中,声谱图因为可以有效反映语音的声学特性所以常被用作语音增强的特征输入。但在语音处理过程中,声谱与原信号的不一致问题导致声谱特征无法被有效利用。同时,噪声和混响等干扰除了对语音信号幅度有影响,对相位信息也会产生作用,如何有效利用含噪语音的相位信息进行语音增强也成为需要解决的问题。
发明内容
本发明的目的在于,针对现有技术的缺陷提供一种通用的实时语音增强方法。
本发明解决其技术问题所采用的技术方案是:设计一种通用的实时语音增强方法,本方法包括如下步骤:
1.系统接收电子格式的含噪语音,其中包含语音和多种环境干扰;
2.接收的含噪语音输入端对端的深度神经网络,网络中各个模块对所述含噪语音进行处理;
3.所述深度神经网络输出增强后的语音。
在本发明所述的一种实时语音增强系统中,接收的含噪语音输入端对端的深度神经网络,网络中各个模块对所述含噪语音进行处理,包括:
a.所述深度神经网络提取含噪语音的变换域声学特征;
b.使用所述深度神经网络的特征学习模块产生掩膜;
c.利用产生的掩膜与所述含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征;
d.使用增强的语音的变换域声学特征,经过反变换,合成增强的语音波形。
本发明所述的一种实时语音增强系统,所述深度神经网络提取含噪语音的变换域声学特征是含噪语音当前帧的短时傅里叶变换的幅度与相位信息。
本发明所述的一种实时语音增强系统,使用所述深度神经网络的特征学习模块产生掩膜,所述特征学习模块是紧密连接的多层神经网络。
本发明所述的一种实时语音增强系统,利用产生的掩膜与所述含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征,所述运算是利用产生的掩膜与含噪语音的变换域声学特征进行乘积运算。
本发明所述的一种实时语音增强系统,所述系统整体为端对端的深度神经网络,所述深度神经网络通过构建时域损失函数,利用沿时间展开的反向传播进行训练。
本发明与现有技术相比较,具有显而易见的突出实质性特点和显著技术进步:
本发明采用有监督学习方法对含噪语音进行语音增强处理,通过对含噪语音幅度和相位的处理估计出联合实部虚部掩膜;本发明提出的方法通过构建时域损失函数,利用沿时间展开的反向传播进行训练,克服了信号与声谱转换不一致问题。本发明的单声道降噪是指对单个麦克风采集的信号进行处理,在波束形成的麦克风阵列降噪方法中同样可以应用。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实时语音增强方法的结构示意图。
图2为本发明实时语音增强方法的结构原理图。
图3为语音增强模型训练方法的流程示意图。
图4为语音增强模型测试方法的流程示意图。
图5为本发明系统处理后的语音波形与输入波形的对比。
表1为五种语音增强系统结构的PESQ和SNR性能指标:无语音增强(a),QL-FCN-CSM(b),QL- FCN-cRM(c),QL-FCN-IRM(d),DNN-cRM(e),DNN-IRM(f)。其中本发明提出的结构为QL-FCN-CSM结构。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明的语音增强方法整体流程如下:1.接收电子格式的含噪语音,其中包含语音和多种环境干扰;2.接收的含噪语音输入端对端的深度神经网络,网络中各个模块对所述含噪语音进行处理;3. 所述深度神经网络输出增强后的语音。其中,如图1所示,在2中的使用多层网络处理所述含噪语音,具体包括:a)深度神经网络提取含噪语音的变换域声学特征;b)使用所述深度神经网络的特征学习模块产生掩膜;c)利用产生的掩膜与所述含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征;d)使用增强的语音的变换域声学特征,经过反变换,合成增强的语音波形。
本发明的系统使用变换层(Quasi Layer)从原始含噪语音波形中提取变换域声学特征。变换层采用两个一维卷积核,分别初始化为短时傅立叶变换(STFT)核函数的实部和虚部。将带噪语音波形进行分帧处理,每帧长度为20毫秒,相邻帧之间有50%重叠。利用变换层的两个卷积核逐帧模拟短时傅立叶变换(STFT)运算,运算结果为包含幅度和相位信息的复数形式声谱。
语音信号在时间维度上有较强的相关性,这种相关性对语音增强有很大帮助。为了利用这一上下文信息提高语音增强性能,本系统使用基于紧密连接的全连接卷积神经网络(Fully Convolution neural network:FCN)的特征学习模块将每16帧的短时傅立叶变换特征声谱图整体作为输入特征。为实现实时语音增强处理,FCN模块的输入全部为已有帧,不使用未来帧。
具体地,FCN模块从带噪语音中估计出一致性受限掩膜(Consistency ConstraintMask:CSM) ,用JRIM抑制背景噪声、保留语音信号。具体地:含噪语音信号的复数形式声谱与JRIM进行乘积运算后可得到增强后的干净的语音信号的复数形式声谱。
进一步地,如图2所示,其详细说明了本发明的整个过程。本发明的语音增强方法输入为带噪语音信号,输出为增强后的语音信号。作为基于有监督学习方法的系统,本发明使用一致性受限掩膜( CSM)为训练目标。
在训练阶段,如图3部分2所示:由紧密连接的全连接神经网络(FCN)构成的特征学习模块估计每帧输入带噪语音的一致性受限掩膜(CSM),然后CSM与含噪语音的声学特征谱通过乘积运算得到预测的干净语音的声学特征谱,最终由预测的增强语音声谱合成预测的增强语音波形。深度神经网络通过构建时域损失函数,计算纯净语音的波形和预测语音波形的均方误差(Mean-square error:MSE),利用沿时间展开的反向传播进行训练,经过重复的多轮迭代将整个训练集的MSE最小化,每轮迭代中训练样本仅使用一次。
训练阶段结束后,进入预测阶段,如图4所示:使用训练好的语音增强系统直接对输入的带噪语音进行降噪,具体而言,经过训练的FCN模块对输入的含噪信号声谱进行处理并产生估计掩膜,然后使用估计掩膜重新合成降噪后的语音波形。以下小节披露本发明方法的具体细节,并与现有方法进行比较。
在本发明中的采用紧密连接的全连接卷积神经网络(FCN)生成用于语音增强的掩码层。虽然卷积神经网络(Convolution neural network:CNN)在学习音频特征方面具有良好效果,但无法同时获得丰富的上下文信息与高特征分辨率。本发明中使用的FCN通过采用紧密连接的网络结构和小尺寸卷积核同时满足上述要求。在前馈型网络中,第l层的输出通常被表示为xl=Hl(xl-1),其中xl-1是网络输入,Hl(*)为该层网络的非线性变换。紧密连接的网络结构的构建思路是使用在前面的层中产生的特征映射的连接作为后继层的输入:xl=Hl[xl-1,xl-2,...,x0]),其中[xl-1,xl-2,...,x0]表示前面的0,...,l-1 层中产生的特征映射的连接。这样的紧密连接的网络结构不仅能够直接计算梯度,也能重复利用特征。
本发明中比值膜和估计,采用一致性受限掩膜(Consistency Constraint Mask:CSM)作为有监督语音降噪的训练目标。含噪语音信号通过短时傅里叶变换层变换得到短时傅立叶变换特征Yt,f,设增强后的干净语音短时傅里叶变换特征为St,f。则可得到关系:St,f=MRt,fRe{Yt,f}+iMIt,fIm{Yt,f}。其中,MRt,f和MIt,f分别代表掩码层在时域与频域的实部谱和虚部谱。
在训练阶段,使用含噪语音计算CSM。训练过程通过构建时域损失函数,利用沿时间展开的反向传播进行训练,调整深度神经网络的参数。在模型收敛的过程中,预测的增强语音信号不断逼近纯净语音信号。
本发明中的语音波形合成,训练结束后,基于紧密连接的全连接卷积神经网络(FCN)的特征学习模块就可在降噪应用中直接使用。在特定应用中使用已经训练好的神经网络称为推理或预测。在推理阶段,本发明系统对输入的含噪语音波形进行处理。利用FCN模块生成的CSM与含噪语音声谱进行乘积运算就可以产生增强的语音信号的声谱。具体而言,将含噪语音声谱中代表幅度的实部谱与代表相位的虚部谱分别CRM的实部谱与虚部谱做乘积运算,得到增强的语音声谱的实部谱与虚部谱。增强的语音的声谱通过反变换层的短时傅里叶反变换(ISTFT)运算得到增强的语音波形信号。
本发明中的大规模噪声训练,为了实现与噪声无关的通用语音降噪,本发明使用了大量日常环境中收集的背景噪声对系统进行训练,如图3中部分1所示,背景噪声包括含混不清的语音、咖啡厅场景噪声、工厂场景噪声、街道场景噪声等。将所有语音随机分为两段,前半段用于训练,后半段用于测试。每段语音分别与噪声以信噪比(Signal-to-noiseratio,SNR)-6、-3、0、3、6dB混合。构建含有多种环境噪声的训练集对模型至关重要。
在本发明的实施例中,采用的评价指标为:客观语音质量评估(perceptualevaluation of speech quality:PESQ)和信噪比(signal to noise ratio:SNR)。
表1为五种语音增强系统结构的PESQ和SNR性能指标:无语音增强(a),QL-FCN-CSM(b),QL- FCN-cRM(c),QL-FCN-IRM(d),DNN-cRM(e),DNN-IRM(f),其中本发明提出的结构为QL-FCN-CSM结构:
具体地,表1显示经过训练后的语音增强系统在不同环境噪声下的降噪性能。同时,在评估过程中将深度神经网络的不同部分替换,对比结果。本发明网络结构为:变换层-FCN特征学习模块-反变换层 (Quasi-STFT+FCN+Quasi-ISTFT),采用JRIM作为掩码层,简写为QL-FCN-CSM。替换后的网络结构采用相似方法描述。表1结果显示,本发明采用的QL-FCN-CSM结构以及QL-FCN-cRM性能在各方面优于以深度神经网络(Deep Neural Network:DNN)作为特征学习模块的语音增强系统,如:DNN-cRM 和DNN-IRM。但本发明采用的QL-FCN-CSM结构在6dB和-6dB处与不含相位信息的QL-FCN-cRM结构在语音增强性能方面相比差别不大,因为相位缺失引起的损失在过高或过低信噪比情况下可被忽略。
如图2所示,其展示了从实验结果的波形中随机剪辑的样本,红线表示干净的信号,绿线和蓝线分别表示本发明采用的QL-FCN-CSM结构和QL-FCN-IRM结构的输出。显然,联合估计实数和虚数谱图可以减少时域中结果的失真。
尽管通过以上实施例对本发明进行了揭示,但本发明的保护范围并不局限于此,在不偏离本发明构思的条件下,对以上各构件所做的变形、替换等均将落入本发明的权利要求范围内。
Claims (6)
1.一种实时语音增强方法,其特征在于,包括如下步骤:
(1)接收电子格式的含噪语音,其中包含语音和多种环境干扰;
(2)接收的含噪语音输入端对端的深度神经网络,网络中各个模块对所述含噪语音进行处理;
(3)所述深度神经网络输出增强后的语音。
2.如权利要求1所述的一种实时语音增强方法,其特征在于,所述步骤(2)中接收的含噪语音输入端对端的深度神经网络,网络中各个模块对所述含噪语音进行处理,包括如下步骤:
(2-1)所述深度神经网络提取含噪语音的变换域声学特征;
(2-2)所述深度神经网络的特征学习模块通过学习含噪语音的变换域声学特征产生掩膜;
(2-3)利用产生的掩膜与所述含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征;
(2-4)使用增强的语音的变换域声学特征,经过反变换,合成增强的语音波形。
3.如权利要求1所述的一种实时语音增强方法,其特征在于,所述步骤(2)中深度神经网络通过构建时域损失函数,利用沿时间展开的反向传播进行训练。
4.如权利要求2所述的一种实时语音增强方法,其特征在于,所述步骤(2-1)中深度神经网络提取含噪语音的变换域声学特征,所述变换域声学特征包括含噪语音当前帧的幅度与相位信息。
5.如权利要求2所述的一种实时语音增强方法,其特征在于,所述步骤(2-2)中使用所述深度神经网络的特征学习模块产生掩膜,所述特征学习模块是紧密连接的多层神经网络。
6.如权利要求2所述的一种实时语音增强方法,其特征在于,所述步骤(2-3)中利用产生的掩膜与所述含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征,所述运算是利用产生的掩膜与含噪语音的变换域声学特征进行乘积运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810908839.3A CN109215674A (zh) | 2018-08-10 | 2018-08-10 | 实时语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810908839.3A CN109215674A (zh) | 2018-08-10 | 2018-08-10 | 实时语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109215674A true CN109215674A (zh) | 2019-01-15 |
Family
ID=64988198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810908839.3A Pending CN109215674A (zh) | 2018-08-10 | 2018-08-10 | 实时语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109215674A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148419A (zh) * | 2019-04-25 | 2019-08-20 | 南京邮电大学 | 基于深度学习的语音分离方法 |
CN110222781A (zh) * | 2019-06-12 | 2019-09-10 | 成都嗨翻屋科技有限公司 | 音频去噪方法、装置、用户终端及存储介质 |
CN110491406A (zh) * | 2019-09-25 | 2019-11-22 | 电子科技大学 | 一种多模块抑制不同种类噪声的双噪声语音增强方法 |
CN110675888A (zh) * | 2019-09-25 | 2020-01-10 | 电子科技大学 | 一种基于RefineNet和评价损失的语音增强方法 |
CN110739002A (zh) * | 2019-10-16 | 2020-01-31 | 中山大学 | 基于生成对抗网络的复数域语音增强方法、系统及介质 |
CN110808057A (zh) * | 2019-10-31 | 2020-02-18 | 南昌航空大学 | 一种基于约束朴素生成对抗网络的语音增强方法 |
CN111696571A (zh) * | 2019-03-15 | 2020-09-22 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN112289333A (zh) * | 2020-12-25 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
WO2021062706A1 (zh) * | 2019-09-30 | 2021-04-08 | 大象声科(深圳)科技有限公司 | 近距离交谈场景下双麦克风移动电话的实时语音降噪方法 |
CN113035221A (zh) * | 2021-02-26 | 2021-06-25 | 北京达佳互联信息技术有限公司 | 语音处理模型的训练方法和装置以及语音处理方法和装置 |
CN113223545A (zh) * | 2020-02-05 | 2021-08-06 | 字节跳动有限公司 | 一种语音降噪方法、装置、终端及存储介质 |
CN113270097A (zh) * | 2021-05-18 | 2021-08-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
CN113782044A (zh) * | 2021-08-25 | 2021-12-10 | 慧言科技(天津)有限公司 | 一种语音增强方法及装置 |
CN113808607A (zh) * | 2021-03-05 | 2021-12-17 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
CN114067820A (zh) * | 2022-01-18 | 2022-02-18 | 深圳市友杰智新科技有限公司 | 语音降噪模型的训练方法、语音降噪方法和相关设备 |
WO2023056920A1 (en) * | 2021-10-05 | 2023-04-13 | Huawei Technologies Co., Ltd. | Multilayer perceptron neural network for speech processing |
US20230162758A1 (en) * | 2021-11-19 | 2023-05-25 | Massachusetts Institute Of Technology | Systems and methods for speech enhancement using attention masking and end to end neural networks |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107077860A (zh) * | 2014-10-21 | 2017-08-18 | 三菱电机株式会社 | 用于将有噪音频信号转换为增强音频信号的方法 |
CN107301864A (zh) * | 2017-08-16 | 2017-10-27 | 重庆邮电大学 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
US20180040333A1 (en) * | 2016-08-03 | 2018-02-08 | Apple Inc. | System and method for performing speech enhancement using a deep neural network-based signal |
CN108231086A (zh) * | 2017-12-24 | 2018-06-29 | 航天恒星科技有限公司 | 一种基于fpga的深度学习语音增强器及方法 |
-
2018
- 2018-08-10 CN CN201810908839.3A patent/CN109215674A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107077860A (zh) * | 2014-10-21 | 2017-08-18 | 三菱电机株式会社 | 用于将有噪音频信号转换为增强音频信号的方法 |
US20180040333A1 (en) * | 2016-08-03 | 2018-02-08 | Apple Inc. | System and method for performing speech enhancement using a deep neural network-based signal |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN107301864A (zh) * | 2017-08-16 | 2017-10-27 | 重庆邮电大学 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
CN108231086A (zh) * | 2017-12-24 | 2018-06-29 | 航天恒星科技有限公司 | 一种基于fpga的深度学习语音增强器及方法 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696571A (zh) * | 2019-03-15 | 2020-09-22 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN110148419A (zh) * | 2019-04-25 | 2019-08-20 | 南京邮电大学 | 基于深度学习的语音分离方法 |
CN110222781A (zh) * | 2019-06-12 | 2019-09-10 | 成都嗨翻屋科技有限公司 | 音频去噪方法、装置、用户终端及存储介质 |
CN110491406A (zh) * | 2019-09-25 | 2019-11-22 | 电子科技大学 | 一种多模块抑制不同种类噪声的双噪声语音增强方法 |
CN110675888A (zh) * | 2019-09-25 | 2020-01-10 | 电子科技大学 | 一种基于RefineNet和评价损失的语音增强方法 |
CN110491406B (zh) * | 2019-09-25 | 2020-07-31 | 电子科技大学 | 一种多模块抑制不同种类噪声的双噪声语音增强方法 |
WO2021062706A1 (zh) * | 2019-09-30 | 2021-04-08 | 大象声科(深圳)科技有限公司 | 近距离交谈场景下双麦克风移动电话的实时语音降噪方法 |
CN110739002A (zh) * | 2019-10-16 | 2020-01-31 | 中山大学 | 基于生成对抗网络的复数域语音增强方法、系统及介质 |
CN110739002B (zh) * | 2019-10-16 | 2022-02-22 | 中山大学 | 基于生成对抗网络的复数域语音增强方法、系统及介质 |
CN110808057A (zh) * | 2019-10-31 | 2020-02-18 | 南昌航空大学 | 一种基于约束朴素生成对抗网络的语音增强方法 |
CN113223545A (zh) * | 2020-02-05 | 2021-08-06 | 字节跳动有限公司 | 一种语音降噪方法、装置、终端及存储介质 |
CN112289333A (zh) * | 2020-12-25 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113035221A (zh) * | 2021-02-26 | 2021-06-25 | 北京达佳互联信息技术有限公司 | 语音处理模型的训练方法和装置以及语音处理方法和装置 |
CN113035221B (zh) * | 2021-02-26 | 2023-12-19 | 北京达佳互联信息技术有限公司 | 语音处理模型的训练方法和装置以及语音处理方法和装置 |
CN113808607A (zh) * | 2021-03-05 | 2021-12-17 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
WO2022183806A1 (zh) * | 2021-03-05 | 2022-09-09 | 北京沃东天骏信息技术有限公司 | 基于神经网络的语音增强方法、装置及电子设备 |
CN113270097A (zh) * | 2021-05-18 | 2021-08-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
CN113270097B (zh) * | 2021-05-18 | 2022-05-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
CN113782044B (zh) * | 2021-08-25 | 2023-11-03 | 慧言科技(天津)有限公司 | 一种语音增强方法及装置 |
CN113782044A (zh) * | 2021-08-25 | 2021-12-10 | 慧言科技(天津)有限公司 | 一种语音增强方法及装置 |
WO2023056920A1 (en) * | 2021-10-05 | 2023-04-13 | Huawei Technologies Co., Ltd. | Multilayer perceptron neural network for speech processing |
US20230162758A1 (en) * | 2021-11-19 | 2023-05-25 | Massachusetts Institute Of Technology | Systems and methods for speech enhancement using attention masking and end to end neural networks |
CN114067820B (zh) * | 2022-01-18 | 2022-06-28 | 深圳市友杰智新科技有限公司 | 语音降噪模型的训练方法、语音降噪方法和相关设备 |
CN114067820A (zh) * | 2022-01-18 | 2022-02-18 | 深圳市友杰智新科技有限公司 | 语音降噪模型的训练方法、语音降噪方法和相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109215674A (zh) | 实时语音增强方法 | |
Fu et al. | Raw waveform-based speech enhancement by fully convolutional networks | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN109065067A (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
Su et al. | Bandwidth extension is all you need | |
CN110085245B (zh) | 一种基于声学特征转换的语音清晰度增强方法 | |
CN107452389A (zh) | 一种通用的单声道实时降噪方法 | |
Nishikawa et al. | Blind source separation of acoustic signals based on multistage ICA combining frequency-domain ICA and time-domain ICA | |
Zhao et al. | Late reverberation suppression using recurrent neural networks with long short-term memory | |
Ren et al. | A Causal U-Net Based Neural Beamforming Network for Real-Time Multi-Channel Speech Enhancement. | |
Li et al. | Real-time monaural speech enhancement with short-time discrete cosine transform | |
CN105023580A (zh) | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 | |
CN107967920A (zh) | 一种改进的自编码神经网络语音增强算法 | |
Adiga et al. | Speech Enhancement for Noise-Robust Speech Synthesis Using Wasserstein GAN. | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
Parmar et al. | Effectiveness of cross-domain architectures for whisper-to-normal speech conversion | |
WO2019014890A1 (zh) | 一种通用的单声道实时降噪方法 | |
Han et al. | Perceptual weighting deep neural networks for single-channel speech enhancement | |
Okamoto et al. | Noise level limited sub-modeling for diffusion probabilistic vocoders | |
Shifas et al. | A non-causal FFTNet architecture for speech enhancement | |
Hepsiba et al. | Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190115 |
|
RJ01 | Rejection of invention patent application after publication |