CN110148419A - 基于深度学习的语音分离方法 - Google Patents

基于深度学习的语音分离方法 Download PDF

Info

Publication number
CN110148419A
CN110148419A CN201910337555.8A CN201910337555A CN110148419A CN 110148419 A CN110148419 A CN 110148419A CN 201910337555 A CN201910337555 A CN 201910337555A CN 110148419 A CN110148419 A CN 110148419A
Authority
CN
China
Prior art keywords
set signal
signal
phase
amplitude
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910337555.8A
Other languages
English (en)
Inventor
孙林慧
陶泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910337555.8A priority Critical patent/CN110148419A/zh
Publication of CN110148419A publication Critical patent/CN110148419A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明揭示了一种基于深度学习的语音分离方法,首先是将含有多个语音的信号划分为训练集信号和测试集信号,并将训练集信号与测试集信号分别进行预处理,之后进行傅里叶变换,得到训练集信号的幅度和相位、及测试集信号的幅度和相位,然后再将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理;接着将归一化处理后训练集信号的幅度和相位通过训练模型进行训练,且训练模型的算法采用深度神经网络的adam算法;最后将归一化处理后测试集信号通过训练模型预测,并完成语音分离;本发明将幅度与相位联合训练,在真实环境下语音分离效果更佳;另外,本发明采用深度神经网络的adam算法,使信噪比与语音的可懂度得到大幅度提高。

Description

基于深度学习的语音分离方法
技术领域
本发明涉及一种语音分离方法,尤其涉及一种基于深度学习的语音分离方法,属于语音信号处理技术领域。
背景技术
现实生活中存在着各式各样的噪音,人们感兴趣的声音往往都是纯净的声音,然而现实中很难有完全纯净的声音,人们感兴趣的声音中都或多或少地夹杂着噪音,这些噪音降低了语音可懂度和信噪比,然而怎样进行语音分离,从而提高可懂度并且降低信噪比,成为一个非常关键的问题。语音分离问题最早来源于Cherry在1953年提出的著名的鸡尾酒会问题,鸡尾酒会问题是一个在计算机和通信方面的语音识别和分离领域的交叉问题。目前,语音识别技术对于降噪问题已经有了很大的进展,能基本完全实现一个人的语音声音降噪,然而,面对两人或者多人同时讲话的时候,如何将语音进行分离,仍然是一个比较困难的问题。
语音分离任务可根据干扰的不同分为三类:当干扰部分是噪声信号时,它可以被称为“语音增强”;当干扰部分是其他扬声器时,它可以被称为“扬声器分离”;当干扰部分是目标说话人自己的声音的反射波时,它可以被称为“去混响”。由于麦克风收集的声音可能包括噪声,其他人的语音,混响等的声音,如果语音未被分离和直接识别,则识别的准确性可能受到影响。因此,将语音分离技术添加到语音识别的前端可以通过将目标说话者的语音与其他干扰分离来提高语音识别系统的鲁棒性,这也是现代语音识别系统中不可或缺的部分。
目前解决语音分离问题的方法分为两类,即无监督的语音分离和有监督的语音分离。有监督的语音分离又称为基于深度学习的语音分离,由于近些年计算机CPU和GPU性能的提高和发展,有监督的语音分离可以利用大数据量进行训练,得到比无监督的语音分离更好的效果;而且在前人研究中可以发现,大多数人实验过程中都是忽略相位的影响,大多默认测试相位,只对幅值进行训练,且分离效果并不好。
综上所述,如何采用深度学习的语音分离方法且可提高语音分离效果,就成为本领域技术人员亟待解决的问题。
发明内容
本发明的目的是为了解决现有技术的上述缺陷,提出基于深度学习的相位与幅度联合训练的语音分离方法,使得分离得到的语音信号性能较好。
本发明的技术解决方案是:
S1:将含有多个语音的信号划分为训练集信号和测试集信号,并将训练集信号与测试集信号分别进行预处理;然后将预处理后的训练集信号与预处理后的测试集信号分别进行傅里叶变换,得到训练集信号的幅度和相位、及测试集信号的幅度和相位;之后,分别将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理;
S2:将步骤S1中归一化处理后训练集信号的幅度和相位通过训练模型进行训练,且训练模型的算法采用深度神经网络的adam算法;
S3:将所述步骤S1中测试集信号的幅度和相位通过所述训练模型分别得到预测幅度值和预测相位值;接着,将所述预测幅度值和预测相位值通过傅里叶反变换得到预测信号进行输出,完成语音分离。
优选地,所述训练集信号包括混合训练集信号与纯净训练集信号,所述测试集信号包括混合测试集信号与纯净测试集信号。
优选地,所述训练集信号与测试集信号的占比为97:3。
优选地,所述训练集信号与测试集信号均设置的语音为256的倍数且不超过原语音长度。
优选地,所述步骤S11中的预处理包括分帧、及叠加汉明窗。
优选地,所述汉明窗的长度为256。
优选地,所述深度神经网络的adam算法为动量梯度下降算法与RMSprop算法的结合。
优选地,所述动量梯度下降算法的计算公式为:
W=W-αdW,b=b-αdb,
vdW=β1vdW+(1-β1)dW,vdb=β1vdb+(1-β1)db
其中,α为学习率,β1为指数加权值;
所述RMSprop算法的计算公式为:
SdW=β2SdW+(1-β2)dW2,Sdb=β2Sdb+(1-β2)db2
则,
优选地,所述深度神经网络的adam算法为:
首先,进行初始化,vdW=0,SdW=0,vdb=0,sdb=0;
然后,根据所述动量梯度下降算法,计算指数加权平均值:
vdW=β1vdW+(1-β1)dW,vdb=β1vdb+(1-β1)db;
之后,所述通过RMSprop算法的计算公式计算RMSprop值:
SdW=β2SdW+(1-β2)dW2,Sdb=β2Sdb+(1-β2)db2
接着,将指数加权平均值及RMSprop值进行偏差修正:
最后,更新权重,得出:
优选地,所述训练模型包括输入层、第一隐藏层、第二隐藏层及输出层,所述第一隐藏层与所述第二隐藏层均设置有1024个节点,所述输入层与所述输出层均设置有256个节点,且输出层维度为的矩阵。
本发明提供了一种基于深度学习的语音分离方法,其优点主要体现在:本发明将幅度与相位联合训练,比传统忽略相位的方法,在真实环境下语音分离效果更佳;另外,本发明采用深度神经网络的adam算法,即将动量梯度下降算法与RMSprop算法相结合,并对指数加权平均值及RMSprop值进行偏差修正,使信噪比与语音的可懂度得到大幅度提高。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为基于深度学习的语音分离方法流程图;
图2为训练模型的结构示意图。
具体实施方式
基于深度学习的语音分离方法,如图1所示,包括如下步骤:
S1:将含有多个语音的信号进行训练前处理;即将含有多个语音的信号划分为训练集信号和测试集信号,并将训练集信号与测试集信号分别进行预处理,预处理包括分帧、及叠加汉明窗,且汉明窗的长度为256;
在本实施例中,训练集信号包括混合训练集信号Strain与纯净训练集信号Mtrain,所述测试集信号包括混合测试集信号Stest与纯净测试集信号Mtest,将混合训练集信号Strain,混合测试集信号Stest,纯净训练集信号Mtrain及纯净测试集信号Mtest经过分帧、及叠加汉明窗处理后得到四个矩阵分别为Strain_frame、Stest_frame、Mtrain_frame及Mtest_frame
在本发明中,训练集信号与测试集信号的占比为97:3,其中,训练集信号与测试集信号均设置的语音为256的倍数且不超过原语音长度,假设混合信号与纯净信号的长度均为l,则训练集信号的长度为测试集信号的长度为其中符号为向下取整,所以训练集信号加汉明窗之后的矩阵维度为测试集信号加汉明窗之后的矩阵维度为
然后,将均进行预处理后的训练集信号Strain_frame与Mtrain_frame、与测试集信号Stest_frame与Mtest_frame分别进行傅里叶变换后得到混合训练集信号Strain_fft的幅度和相位、纯净训练集信号Mtrain_fft的幅度和相位、混合测试集信号Stest_fft的幅度和相位、及纯净测试集信号Mtest_fft的幅度和相位;
之后,分别将混合训练集信号Strain_fft的幅度和相位、纯净训练集信号Mtrain_fft的幅度和相位、混合测试集信号Stest_fft的幅度和相位、及纯净测试集信号Mtest_fft的幅度和相位均进行归一化处理得到混合训练集信号的幅度Strain_range与相位Strain_phase、混合测试集信号的幅度Stest_range与相位Stest_phase、纯净训练集信号的幅度Mtrain_range与相位Mtrain_phase、纯净测试集信号的幅度Mtest_range与相位Mtest_phase
S2:将步骤S1中归一化处理后训练集信号的幅度和相位通过训练模型进行训练,具体为:将混合训练集信号的相位Strain_phase作为训练集信号相位的输入矩阵,纯净训练集信号的相位Mtrain_phase作为训练集信号相位的输出矩阵,混合训练集信号的幅度Strain_range作为训练集信号幅度的输入矩阵,纯净训练集信号的相位Mtrain_phase作为训练集信号幅度的输出矩阵,利用深度神经网络的adam算法进行训练。其中,训练模型包括输入层、第一隐藏层、第二隐藏层及输出层,如图2所示,第一隐藏层与第二隐藏层均设置有1024个节点,输入层与输出层均设置有256个节点,且输出层维度为的矩阵。
所述深度神经网络的adam算法为动量梯度下降算法与RMSprop算法的结合,其中,所述动量梯度下降算法的计算公式为:
W=W-αdW,b=b-αdb,
vdW=β1vdW+(1-β1)dW,vdb=β1vdb+(1-β1)db
其中,α为学习率,β1为指数加权值;
所述RMSprop算法的计算公式为:
SdW=β2SdW+(1-β2)dW2,Sdb=β2Sdb+(1-β2)db2
则,
进一步地,所述深度神经网络的adam算法为:
首先,进行初始化,vdW=0,SdW=0,vdb=0,sdb=0;
然后,根据所述动量梯度下降算法,计算指数加权平均值:
vdW=β1vdW+(1-β1)dW,vdb=β1vdb+(1-β1)db;
之后,所述通过RMSprop算法的计算公式计算RMSprop值:
SdW=β2SdW+(1-β2)dW2,Sdb=β2Sdb+(1-β2)db2
接着,将指数加权平均值及RMSprop值进行偏差修正:
最后,更新权重,得出:
其中ε参数是用于防止分母变0,通常是一个很小的值,计算时可以忽略不计,在本实施例中,β1设置为0.9,β2设置为0.999,ε设置为10-8,采用深度神经网络的adam算法在语音分离有着优秀的效果。
S3:将所述步骤S1中测试集信号的幅度Stest_phase和相位Stest_range通过所述训练模型分别得到预测幅度值Spred_phase和预测相位值Spred_range;接着,将所述预测幅度值Spred_phase和预测相位值Spred_range通过傅里叶反变换得到预测信号Spred进行输出,完成语音分离。将纯净训练集信号Mtrain及纯净测试集信号Mtest同样经过傅里叶反变换后得到纯净信号Stest,预测信号Spred与Stest的比值即得到信号与噪声的信噪比,信噪比与主观语音质量评估作为语音分离性能好坏的衡量指标,信噪比越高,主观语音质量评估越大,表明分离的信号失真越小,分离性能越佳。
下面用实验数据进一步阐明了本发明中语音分离的效果:
将含有多个语音的信号划分为训练集信号和测试集信号,即设置帧长为256,将混合信号中的0到3840128作为训练集信号,3840129到4147457作为测试集信号,并将训练集信号与测试集信号分别进行预处理,即分帧并叠加汉明窗,得到训练集信号的矩阵维度为3000×256,测试集信号的矩阵维度为2400×256;将预处理后的训练集信号与预处理后的测试集信号分别进行傅里叶变换,得到训练集信号的幅度和相位、及测试集信号的幅度和相位;再分别将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理;
将归一化处理后训练集信号的幅度和相位通过训练模型进行训练,且训练模型的算法采用深度神经网络的adam算法;
将归一化处理后测试集信号的幅度和相位通过训练模型分别得到预测幅度值和预测相位值;将所述预测幅度值和预测相位值通过傅里叶反变换得到预测信号进行输出,完成语音分离。
然后进行计算信噪比,实验可以发现,如果使用混合信号相位作为输入,信噪比仅为-1.3db,可见由于混合信号和纯净信号的相位差距过大,使得进行傅里叶变换之后的信号完全失真,而使用本发明中相位幅度联合训练的深度神经网络的adam算法,可以发现信噪比为1.1db,提高了2db左右。同样,使用混合信号相位的主观语音质量评估值为0.9,而使用本发明的相位幅度联合训练的深度神经网络的adam算法值为1.3,由此可见,本发明提供的相位幅度联合训练的深度神经网络的adam算法提高了语音分离效果。
应该注意的是,上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。

Claims (10)

1.一种基于深度学习的语音分离方法,其特征在于,包括如下步骤:
S1:将含有多个语音的信号划分为训练集信号和测试集信号,并将训练集信号与测试集信号分别进行预处理;然后将预处理后的训练集信号与预处理后的测试集信号分别进行傅里叶变换,得到训练集信号的幅度和相位、及测试集信号的幅度和相位;之后,分别将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理;
S2:将步骤S1中归一化处理后训练集信号的幅度和相位通过训练模型进行训练,且训练模型的算法采用深度神经网络的adam算法;
S3:将所述步骤S1中测试集信号的幅度和相位通过所述训练模型分别得到预测幅度值和预测相位值;接着,将所述预测幅度值和预测相位值通过傅里叶反变换得到预测信号进行输出,完成语音分离。
2.根据权利要求1所述的基于深度学习的语音分离方法,其特征在于:所述训练集信号包括混合训练集信号与纯净训练集信号,所述测试集信号包括混合测试集信号与纯净测试集信号。
3.根据权利要求1所述的基于深度学习的语音分离方法,其特征在于:所述训练集信号与测试集信号的占比为97:3。
4.根据权利要求1所述的基于深度学习的语音分离方法,其特征在于:所述训练集信号与测试集信号均设置的语音为256的倍数且不超过原语音长度。
5.根据权利要求1所述的基于深度学习的语音分离方法,其特征在于:所述步骤S11中的预处理包括分帧、及叠加汉明窗。
6.根据权利要求5所述的基于深度学习的语音分离方法,其特征在于:所述汉明窗的长度为256。
7.根据权利要求1所述的基于深度学习的语音分离方法,其特征在于:所述深度神经网络的adam算法为动量梯度下降算法与RMSprop算法的结合。
8.根据权利要求7所述的基于深度学习的语音分离方法,其特征在于:所述动量梯度下降算法的计算公式为:W=W-αdW,b=b-αdb,
vdW=β1vdW+(1-β1)dW,vdb=β1vdb+(1-β1)db
其中,α为学习率,β1为指数加权值;
所述RMSprop算法的计算公式为:
SdW=β2SdW+(1-β2)dW2,Sdb=β2Sdb+(1-β2)db2
则,
9.根据权利要求8所述的基于深度学习的语音分离方法,其特征在于:所述深度神经网络的adam算法为:
首先,进行初始化,vdW=0,SdW=0,vdb=0,sdb=0;
然后,根据所述动量梯度下降算法,计算指数加权平均值:
vdW=β1vdW+(1-β1)dW,bdb=β1vdb+(1-β1)db;
之后,所述通过RMSprop算法的计算公式计算RMSprop值:
SdW=β2SdW+(1-β2)dW2,Sdb=β2Sdb+(1-β2)db2
接着,将指数加权平均值及RMSprop值进行偏差修正:
最后,更新权重,得出:
10.根据权利要求1所述的基于深度学习的语音分离方法,其特征在于:所述训练模型包括输入层、第一隐藏层、第二隐藏层及输出层,所述第一隐藏层与所述第二隐藏层均设置有1024个节点,所述输入层与所述输出层均设置有256个节点,且输出层维度为的矩阵。
CN201910337555.8A 2019-04-25 2019-04-25 基于深度学习的语音分离方法 Pending CN110148419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910337555.8A CN110148419A (zh) 2019-04-25 2019-04-25 基于深度学习的语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910337555.8A CN110148419A (zh) 2019-04-25 2019-04-25 基于深度学习的语音分离方法

Publications (1)

Publication Number Publication Date
CN110148419A true CN110148419A (zh) 2019-08-20

Family

ID=67594395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910337555.8A Pending CN110148419A (zh) 2019-04-25 2019-04-25 基于深度学习的语音分离方法

Country Status (1)

Country Link
CN (1) CN110148419A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110634502A (zh) * 2019-09-06 2019-12-31 南京邮电大学 基于深度神经网络的单通道语音分离算法
CN111128211A (zh) * 2019-12-02 2020-05-08 云知声智能科技股份有限公司 一种语音分离方法及装置
CN111353258A (zh) * 2020-02-10 2020-06-30 厦门快商通科技股份有限公司 基于编码解码神经网络的回声抑制方法及音频装置及设备
CN111816208A (zh) * 2020-06-17 2020-10-23 厦门快商通科技股份有限公司 一种语音分离质量评估方法、装置及计算机存储介质
CN112634946A (zh) * 2020-12-25 2021-04-09 深圳市博瑞得科技有限公司 一种语音质量分类预测方法、计算机设备及存储介质
WO2021196905A1 (zh) * 2020-04-01 2021-10-07 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077860A (zh) * 2014-10-21 2017-08-18 三菱电机株式会社 用于将有噪音频信号转换为增强音频信号的方法
CN107680611A (zh) * 2017-09-13 2018-02-09 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN107886967A (zh) * 2017-11-18 2018-04-06 中国人民解放军陆军工程大学 一种深度双向门递归神经网络的骨导语音增强方法
CN108231086A (zh) * 2017-12-24 2018-06-29 航天恒星科技有限公司 一种基于fpga的深度学习语音增强器及方法
CN108318862A (zh) * 2017-12-26 2018-07-24 北京大学 一种基于神经网络的声源定位方法
CN109215674A (zh) * 2018-08-10 2019-01-15 上海大学 实时语音增强方法
CN109325586A (zh) * 2018-12-05 2019-02-12 北京航空航天大学合肥创新研究院 基于组合目标函数的深度神经网络系统
CN109584903A (zh) * 2018-12-29 2019-04-05 中国科学院声学研究所 一种基于深度学习的多人语音分离方法
CN109658949A (zh) * 2018-12-29 2019-04-19 重庆邮电大学 一种基于深度神经网络的语音增强方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077860A (zh) * 2014-10-21 2017-08-18 三菱电机株式会社 用于将有噪音频信号转换为增强音频信号的方法
CN107680611A (zh) * 2017-09-13 2018-02-09 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN107886967A (zh) * 2017-11-18 2018-04-06 中国人民解放军陆军工程大学 一种深度双向门递归神经网络的骨导语音增强方法
CN108231086A (zh) * 2017-12-24 2018-06-29 航天恒星科技有限公司 一种基于fpga的深度学习语音增强器及方法
CN108318862A (zh) * 2017-12-26 2018-07-24 北京大学 一种基于神经网络的声源定位方法
CN109215674A (zh) * 2018-08-10 2019-01-15 上海大学 实时语音增强方法
CN109325586A (zh) * 2018-12-05 2019-02-12 北京航空航天大学合肥创新研究院 基于组合目标函数的深度神经网络系统
CN109584903A (zh) * 2018-12-29 2019-04-05 中国科学院声学研究所 一种基于深度学习的多人语音分离方法
CN109658949A (zh) * 2018-12-29 2019-04-19 重庆邮电大学 一种基于深度神经网络的语音增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAMBA RAJU CHILUVERU ET AL: "Low SNR speech enhancement with DNN based phase estimation", 《INTERNATIONAL JOURNAL OF SPEECH TECHNOLOGY》 *
WILLDUAN: "深度学习优化算法解析(Momentum,RMSProp,Adam)", 《CSDN》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110634502A (zh) * 2019-09-06 2019-12-31 南京邮电大学 基于深度神经网络的单通道语音分离算法
CN110634502B (zh) * 2019-09-06 2022-02-11 南京邮电大学 基于深度神经网络的单通道语音分离算法
CN111128211A (zh) * 2019-12-02 2020-05-08 云知声智能科技股份有限公司 一种语音分离方法及装置
CN111128211B (zh) * 2019-12-02 2022-04-12 云知声智能科技股份有限公司 一种语音分离方法及装置
CN111353258A (zh) * 2020-02-10 2020-06-30 厦门快商通科技股份有限公司 基于编码解码神经网络的回声抑制方法及音频装置及设备
WO2021196905A1 (zh) * 2020-04-01 2021-10-07 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质
CN111816208A (zh) * 2020-06-17 2020-10-23 厦门快商通科技股份有限公司 一种语音分离质量评估方法、装置及计算机存储介质
CN112634946A (zh) * 2020-12-25 2021-04-09 深圳市博瑞得科技有限公司 一种语音质量分类预测方法、计算机设备及存储介质
CN112634946B (zh) * 2020-12-25 2022-04-12 博瑞得科技有限公司 一种语音质量分类预测方法、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN110148419A (zh) 基于深度学习的语音分离方法
Alzantot et al. Did you hear that? adversarial examples against automatic speech recognition
CN105405448B (zh) 一种音效处理方法及装置
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
CN110415728B (zh) 一种识别情感语音的方法和装置
CN108922518A (zh) 语音数据扩增方法和系统
CN103811020B (zh) 一种智能语音处理方法
CN108597505B (zh) 语音识别方法、装置及终端设备
CN105741849A (zh) 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
CN105261359B (zh) 手机麦克风的消噪系统和消噪方法
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN111833896A (zh) 融合反馈信号的语音增强方法、系统、装置和存储介质
CN113889138B (zh) 一种基于双麦克风阵列的目标语音提取方法
CN103827966A (zh) 处理音频信号
CN107767859A (zh) 噪声环境下人工耳蜗信号的说话人可懂性检测方法
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
CN110197665A (zh) 一种用于公安刑侦监听的语音分离与跟踪方法
Cao et al. Improvement of intelligibility of ideal binary-masked noisy speech by adding background noise
CN109036470A (zh) 语音区分方法、装置、计算机设备及存储介质
CN109448755A (zh) 人工耳蜗听觉场景识别方法
WO2022052246A1 (zh) 语音信号的检测方法、终端设备及存储介质
CN109300470A (zh) 混音分离方法和混音分离装置
CN108520757A (zh) 基于听觉特性的音乐适用场景自动分类方法
CN105405447B (zh) 一种送话呼吸噪声屏蔽方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190820