CN110610715B - 一种基于cnn-dnn混合神经网络的降噪方法 - Google Patents
一种基于cnn-dnn混合神经网络的降噪方法 Download PDFInfo
- Publication number
- CN110610715B CN110610715B CN201910689066.9A CN201910689066A CN110610715B CN 110610715 B CN110610715 B CN 110610715B CN 201910689066 A CN201910689066 A CN 201910689066A CN 110610715 B CN110610715 B CN 110610715B
- Authority
- CN
- China
- Prior art keywords
- layer
- dnn
- noise reduction
- cnn
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 64
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000001228 spectrum Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 210000002569 neuron Anatomy 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000009795 derivation Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000036961 partial effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000002829 reductive effect Effects 0.000 claims description 2
- 230000001052 transient effect Effects 0.000 abstract description 6
- 238000000926 separation method Methods 0.000 abstract description 3
- 208000032041 Hearing impaired Diseases 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明提供一种基于CNN‑DNN混合神经网络的降噪方法,具体按照以下方式实施:步骤1,建立CNN‑DNN混合神经网络降噪模型;步骤2,建立训练集,对步骤1建立的CNN‑DNN混合神经网络降噪模型进行训练;步骤3,将需要降噪的语音信号输入步骤3训练好的CNN‑DNN混合神经网络降噪模型中,输出干净的语音信号频谱。本发明一种基于CNN‑DNN混合神经网络的降噪方法对瞬时噪声和非瞬时噪声都具有更好的自动识别分离和去除能力。
Description
技术领域
本发明属于降噪方法技术领域,涉及一种基于CNN-DNN混合神经网络 的降噪方法。
背景技术
近年来,人类老龄化的问题越来越突出,老年人听力障碍问题也受到广 泛关注,助听器的研究和发展开始受到普遍的重视,作为听障者与外界信息 交互的重要媒介,为了能让听障者听到高清晰的音频信息,提高听觉质量, 而噪音的去除对于听障者而言显得尤为重要,。
目前,针对助听器的噪声有两种,一种是瞬时噪声,另一种是非瞬时噪 声,对于瞬时噪声的抑制(Transient Noise Suppression,TNS)方法研究有两 种,一种是基于最优修改的对数谱幅度估计(Optimally Modified-Log Spectral Amplitude,OM-LSA)算法,通过考虑先验信噪比和语音信号中噪声存在的 不确定性,利用最小值约束递归平均算法(Minima Controlled Recursive Averaging,MCRA)进行噪声谱估计,推导计算得出频谱最优增益函数,进 一步在频域上找到纯净语音信号的最优对数谱估计,通过IFFT得到将瞬时噪声抑制后的语音;另一种是基于时域的递归指数加权最小二乘法 (ExponentialWeighted Least Square,EWLS),对带噪声的语音信号进行检测 和修复。
针对非瞬时噪声的抑制(Non-Transient Noise Suppression,NTNS)方法 有谱减法(Spectral-subtractive algorithm),这种算法是频域语音增强算法啊, 在带噪声的频谱中直接减去计算出来的噪声频谱,得到干净语音频谱;基于 统计模型的贝叶斯估计(Statistical-model-based bayesian estimation),这种算 法通过计算一些特定的参数找一个有期望参数的估计器,对噪声进行谱估 计;子空间算法(Subspace algorithm),是利用简单的线性代数理论对子空 间信号进行估计;麦克风语音增强广义旁瓣抵消(Generalized Sidelode Cancellation,GSC)算法,对于麦克风阵列采集声音信号时,消除非稳态噪声 干扰,同时配合麦克风波束成形算法进行声音信号定位和跟踪。这些传统的算法都有它的限制因素和复杂性,使用起来难度大,效果不够理想。
发明内容
本发明的目的是提供一种基于CNN-DNN混合神经网络的降噪方法,对 瞬时噪声和非瞬时噪声都具有更好的自动识别分离和去除能力。
本发明所采用的技术方案是,
一种基于CNN-DNN混合神经网络的降噪方法,具体按照以下方式实 施:
步骤1,建立CNN-DNN混合神经网络降噪模型;
步骤2,建立训练集,对步骤1建立的CNN-DNN混合神经网络降噪模 型进行训练;
步骤3,将需要降噪的语音信号输入步骤2训练好的CNN-DNN混合神 经网络降噪模型中,输出干净的语音信号频谱。
本发明的特点还在于,
步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号均是经 过预处理之后的语音信号,预处理的具体方式为:截取原始语音信号中频段 为125Hz~8kHz的部分作为步骤2中的训练集的语音信号和步骤3中的需要 降噪的语音信号。
步骤1中CNN-DNN混合神经网络降噪模型的前段由ResNet残差网络 构成;CNN-DNN混合神经网络降噪模型的后段由5层DNN网络构成。
ResNet残差网络包括依次连接的10个残差单元,从第一个残差单元开 始,每一个残差单元由ReLU非线性激活函数激活;将10个残差单元按顺 序两两分为一组,每组中的两个残差单元之间增加一个捷径,构成一个残差 模块;第一个残差模块的节点数为64,第二个残差模块的节点数为128,第 三个残差模块的节点数为256,第四个残差模块的节点数为512,第五个模 块节点数为1024;每个残差模块中的每个节点都执行线性和ReLU激活函数;
残差单元表示为:
yl=h(xl)+F(xl,wl) (1)
xl+1=f(yl) (2)
其中xl和xl+1分别表示的是第l个残差单元的输入和输出,其中F是残 差函数,表示学习到的残差,而h(xl)=xl表示恒等映射,f是ReLU激活函 数。基于上式,可得从浅层l到深层L的学习特征:
利用链式规则,求得反向梯度:
DNN网络建立过程为:
步骤2中用无监督学习方法对语音信号样本进行训练,利用随机梯度下 降算法和误差反向传播对参数进行更新,对参数进行更新的具体过程为:
步骤2.1.1,假设某批处理前馈后得到n个样本,x为输入数据,y为输 出数据,批处理的样本的误差为z,且最后一层L为l2损失函数,所以有:
其中η是每次随机梯度下降的步长(即学习率),ωi是第i层的权重,bi是第i层的偏置。
公式中“vec”为向量标记,在i+1层计算得第i层,由于xi经ωi直接作用得xi +1,故反向求导可直接得到其偏导数和如此,可求得(4)和(5)中等号左端项和根据公式(3)更新参 数层,并将作为该层误差传至前层,即第i-1层,一直传下去,直至更新 到第1层,从而完成参数的更新。
在步骤2中设置代价函数,采用平均平方误差并采用正则化约束,防止 过拟合,具体方式为:
代价函数为公式为:
其中:
CNN-DNN混合神经网络降噪模型的残差计算:
本发明的有益效果是,
一、CNN-DNN混合神经网络降噪模型主要是逐层训练,简化了网络模 型训练的复杂度,极大的减少了权重;
二、CNN-DNN混合神经网络降噪模型中的ResNet网络可以跳跃连接 一层甚至多层,将语音信息传递到神经网络的更深层;ResNet网络极大的降 低了训练误差和难度,对输入语音信号的激活能够到达网络更深层,解决了 梯度消失和梯度爆炸,保证了智能降噪模型的良好性能;
三、CNN-DNN混合神经网络降噪模型中的DNN网络,将高维的语音 数据训练使其具有自动识别和驱动能力,从而又消除了整个混合模型系统带 来的噪声。
附图说明
图1是本发明一种基于CNN-DNN混合神经网络的降噪方法的流程框 图;
图2是本发明一种基于CNN-DNN混合神经网络的降噪方法中CNN-DNN混合神经网络降噪模型的结构图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于CNN-DNN混合神经网络的降噪方法,如图1所示,具 体按照以下步骤实施:
步骤1,建立CNN-DNN混合神经网络降噪模型;
CNN-DNN混合神经网络降噪模型的前段是由ResNet残差网络构成, ResNet残差网络包括依次连接的10个残差单元,残差单元之间是以跳跃方 法连接,从第一个残差单元开始,每一个残差单元由ReLU非线性激活函数 激活;将10个残差单元按顺序两两分为一组,每组中的两个残差单元之间 增加一个捷径,构成一个残差模块;第一个残差模块的节点数为64,第二个 残差模块的节点数为128,第三个残差模块的节点数为256,第四个残差模 块的节点数为512,第五个模块节点数为1024;每个残差模块中的每个节点 都执行线性和ReLU激活函数;
其中残差单元表示为:
yl=h(xl)+F(xl,wl) (1)
xl+1=f(yl) (2)
其中xl和xl+1分别表示的是第l个残差单元的输入和输出,F表示是残 差函数,表示学习到的残差,而h(xl)=xl表示恒等映射,f是ReLU激活函 数。基于上式,可得从浅层l到深层L的学习特征:
利用链式规则,求得反向梯度:
CNN-DNN混合神经网络降噪模型的后段是一个5层的DNN网络中输 入层节点数为2048,第二层、第三层和第四层作为隐藏层节点数均为4096, 第五层输出层节点数为256,这种设置为了更好训练反向传播算法和随机梯 度算法达到自动智能降噪的目的;
其中DNN网络建立过程为:
步骤2,建立训练集,对步骤1建立的CNN-DNN混合神经网络降噪模 型进行训练;具体按照以下步骤进行实施:
步骤2中用无监督学习方法对语音信号样本进行训练,利用随机梯度下 降算法(Stochastic Gradient Descent,SGD)和误差反向传播(Error Back Propogation,EBP)对参数进行更新;更新过程为:
步骤2.1.1,假设某批处理前馈后得到n个样本,x为输入数据,y为输 出数据,批处理的样本的误差为z,且最后一层L为l2损失函数,所以有:
其中η是每次随机梯度下降的步长(即学习率),ωi是第i层的权重,bi是第i层的偏置。
公式中“vec”为向量标记,在i+1层计算得第i层,由于xi经ωi直接作用得xi +1,故反向求导可直接得到其偏导数和如此,可求得(4)和(5)中等号左端项和根据公式(3)更新参 数层,并将作为该层误差传至前层,即第i-1层,一直传下去,直至更新 到第1层,从而完成参数的更新。
在步骤2中,在训练CNN-DNN混合神经网络降噪模型时设置代价函数, 采用平均平方误差并采用正则化约束,防止过拟合,代价函数为公式为:
其中:
CNN-DNN混合神经网络降噪模型的残差计算:
步骤3,将需要降噪的语音信号输入步骤3训练好的CNN-DNN混合神 经网络降噪模型中,对语音进行特征提取,完成带噪声的语音信号的频谱和 干净语音信号频谱的分离,将干净语音信号频谱输出;
步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号均是经 过预处理之后的语音信号,即将采集到的原始语音信号截取频段为 125Hz~8kHz的部分作为步骤2中的训练集的语音信号和步骤3中的需要降 噪的语音信号。
本发明的原理是,本发明中用CNN-DNN混合神经网络降噪模型对训练 语音样本参数并进行参数更新,采用反向传播算法和随机梯度算法对样本参 数进行训练,用参数更新方法得到合适的参数大小,避免了认为设置参数造 成运算复杂而出现错误的情况。
CNN-DNN混合神经网络降噪模型中,ResNet网络可以跳跃连接一层 甚至多层,将语音信息传递到神经网络的更深层;ResNet网络极大的降低了 训练误差和难度,对输入语音信号的激活能够到达网络更深层,解决了梯度 消失和梯度爆炸,保证了智能降噪模型的良好性能;
带噪的语音信号经过10层ResNet残差网络后干净语音频谱和噪声频谱 已经分离,再将语音信号输入一个5层的DNN网络,将高维的语音数据训 练使其具有自动识别和驱动能力,从而又消除了整个混合模型系统带来的噪 声。
如图2所示为CNN-DNN混合神经网络降噪模型的结构图,其中第一部 分为可用频段为125Hz~8kHz的语音信号,接着将语音信号导入第二部分的 基于CNN网络的残差10层网络,利用残差网络学习波束形成,可衰减语音 信号中的回声,对语数据参数进行更新;第三部分DNN网络防止第二部分 残差网络在更新参数时出现梯度消失和梯度爆炸,避免参数运算大而出现错 误,同时对语音数据中的混响和远场噪声滤除,前三部分整个实现数据训练 和测试环节,训练阶段能够使CNN-DNN模型区分噪声频谱和干净语音频 谱,达到自动降噪的目的,测试阶段是对CNN-DNN模型性能的评估,当模 型训练完成后达到要求,才可以对输入数据进行处理,保证第四部分输出符 合受听者听觉效果的干净语音信号。
CNN-DNN混合神经网络降噪模型能够很好的捕捉数据特征,不仅能有 效避免数据特征提取复杂和数据重建过程,而且能将神经网络训练出泛化能 力更强的智能降噪模型;本发明一种基于CNN-DNN混合神经网络的降噪方 法具有良好的容错能力、自学能力和并行处理能力,可处理大量数据,而且 运行速度快,能在复杂环境中进行情景识别,自适应能力好,具有极高的识 别率,对瞬时噪声和非瞬时噪声都有更好的自动识别分离和去除能力。
Claims (5)
1.一种基于CNN-DNN混合神经网络的降噪方法,其特征在于,具体按照以下方式实施:
步骤1,建立CNN-DNN混合神经网络降噪模型;所述CNN-DNN混合神经网络降噪模型的前段由ResNet残差网络构成;所述ResNet残差网络包括依次连接的10个残差单元,从第一个残差单元开始,每一个残差单元由ReLU非线性激活函数激活;将10个残差单元按顺序两两分为一组,每组中的两个残差单元之间增加一个捷径,构成一个残差模块;第一个残差模块的节点数为64,第二个残差模块的节点数为128,第三个残差模块的节点数为256,第四个残差模块的节点数为512,第五个模块节点数为1024;每个残差模块中的每个节点都执行线性和ReLU激活函数;
所述CNN-DNN混合神经网络降噪模型的后段由5层DNN网络构成;所述5层DNN网络中,第一层为输入层,输入层节点数为2048;第二层、第三层和第四层作为隐藏层节点数均为4096;第五层输出层节点数为256;
步骤2,建立训练集,对步骤1建立的CNN-DNN混合神经网络降噪模型进行训练;
步骤3,将需要降噪的语音信号输入步骤2训练好的CNN-DNN混合神经网络降噪模型中,输出干净的语音信号频谱。
2.如权利要求1所述的一种基于CNN-DNN混合神经网络的降噪方法,其特征在于,所述步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号均是经过预处理之后的语音信号,所述预处理的具体方式为:截取原始语音信号中频段为125Hz~8kHz的部分作为步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号。
3.如权利要求1所述的一种基于CNN-DNN混合神经网络的降噪方法,其特征在于,所述残差单元表示为:
yl=h(xl)+F(xl,wl) (1)
xl+1=f(yl) (2)
其中xl和xl+1分别表示的是第l个残差单元的输入和输出,F表示残差函数,表示学习到的残差,h(xl)=xl,表示恒等映射,f表示ReLU激活函数;基于上式,可得从浅层l到深层L的学习特征:
利用链式规则,求得反向梯度:
所述DNN网络建立过程为:
4.如权利要求1所述的一种基于CNN-DNN混合神经网络的降噪方法,其特征在于,步骤2中用无监督学习方法对语音信号样本进行训练,利用随机梯度下降算法和误差反向传播对参数进行更新,对参数进行更新的具体过程为:
步骤2.1.1,假设某批处理前馈后得到n个样本,x为输入数据,y为输出数据,批处理的样本的误差为z,且最后一层L为l2损失函数,所以有:
其中η是每次随机梯度下降的步长(即学习率),ωi是第i层的权重,bi是第i层的偏置;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910689066.9A CN110610715B (zh) | 2019-07-29 | 2019-07-29 | 一种基于cnn-dnn混合神经网络的降噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910689066.9A CN110610715B (zh) | 2019-07-29 | 2019-07-29 | 一种基于cnn-dnn混合神经网络的降噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110610715A CN110610715A (zh) | 2019-12-24 |
CN110610715B true CN110610715B (zh) | 2022-02-22 |
Family
ID=68890997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910689066.9A Active CN110610715B (zh) | 2019-07-29 | 2019-07-29 | 一种基于cnn-dnn混合神经网络的降噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110610715B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111092983B (zh) * | 2019-12-25 | 2020-12-11 | 清华大学深圳国际研究生院 | 一种基于滑模变结构控制的语音通话回声与底噪抑制方法 |
CN111564161B (zh) * | 2020-04-28 | 2023-07-07 | 世邦通信股份有限公司 | 智能抑制噪音的声音处理装置、方法、终端设备及可读介质 |
CN111583958B (zh) * | 2020-05-19 | 2023-10-10 | 北京达佳互联信息技术有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN111603191B (zh) * | 2020-05-29 | 2023-10-20 | 上海联影医疗科技股份有限公司 | 医学扫描中的语音降噪方法、装置和计算机设备 |
CN111568384A (zh) * | 2020-05-29 | 2020-08-25 | 上海联影医疗科技有限公司 | 医学扫描中的语音降噪方法、装置和计算机设备 |
CN111860273B (zh) * | 2020-07-14 | 2022-07-05 | 吉林大学 | 基于卷积神经网络的磁共振地下水探测噪声抑制方法 |
CN111899750B (zh) * | 2020-07-29 | 2022-06-14 | 哈尔滨理工大学 | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 |
CN112329979A (zh) * | 2020-09-23 | 2021-02-05 | 燕山大学 | 一种基于自适应深度残差网络的超短期风电功率预测方法 |
CN112053702B (zh) * | 2020-09-30 | 2024-03-19 | 北京大米科技有限公司 | 一种语音处理的方法、装置及电子设备 |
CN112036517B (zh) * | 2020-11-05 | 2021-05-04 | 中科创达软件股份有限公司 | 图像缺陷分类方法、装置及电子设备 |
CN112600772B (zh) * | 2020-12-09 | 2022-05-17 | 齐鲁工业大学 | 一种基于数据驱动神经网络的ofdm信道估计与信号检测方法 |
CN112990972B (zh) * | 2021-03-19 | 2022-11-18 | 华南理工大学 | 一种基于异构图神经网络的推荐方法 |
CN113436640B (zh) * | 2021-06-28 | 2022-11-25 | 歌尔科技有限公司 | 一种音频降噪方法、装置、系统及计算机可读存储介质 |
CN113782011B (zh) * | 2021-08-26 | 2024-04-09 | 清华大学苏州汽车研究院(相城) | 频带增益模型的训练方法及用于车载场景的语音降噪方法 |
CN113854995B (zh) * | 2021-10-19 | 2023-11-24 | 复旦大学 | 一种基于单次激发的弥散加权成像扫描重建方法及系统 |
CN114972118B (zh) * | 2022-06-30 | 2023-04-28 | 抖音视界有限公司 | 检查图像的降噪方法、装置、可读介质和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017164954A1 (en) * | 2016-03-23 | 2017-09-28 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
EP3309782A4 (en) * | 2015-06-09 | 2018-04-18 | GRG Banking Equipment Co., Ltd. | Method, device and system for noise suppression |
CN108922560A (zh) * | 2018-05-02 | 2018-11-30 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN108986835A (zh) * | 2018-08-28 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 基于改进gan网络的语音去噪方法、装置、设备及介质 |
CN108986788A (zh) * | 2018-06-06 | 2018-12-11 | 国网安徽省电力有限公司信息通信分公司 | 一种基于后验知识监督的噪声鲁棒声学建模方法 |
CN109378013A (zh) * | 2018-11-19 | 2019-02-22 | 南瑞集团有限公司 | 一种语音降噪方法 |
CN109410974A (zh) * | 2018-10-23 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 语音增强方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10090001B2 (en) * | 2016-08-01 | 2018-10-02 | Apple Inc. | System and method for performing speech enhancement using a neural network-based combined symbol |
US10657437B2 (en) * | 2016-08-18 | 2020-05-19 | International Business Machines Corporation | Training of front-end and back-end neural networks |
-
2019
- 2019-07-29 CN CN201910689066.9A patent/CN110610715B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3309782A4 (en) * | 2015-06-09 | 2018-04-18 | GRG Banking Equipment Co., Ltd. | Method, device and system for noise suppression |
WO2017164954A1 (en) * | 2016-03-23 | 2017-09-28 | Google Inc. | Adaptive audio enhancement for multichannel speech recognition |
CN108922560A (zh) * | 2018-05-02 | 2018-11-30 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN108986788A (zh) * | 2018-06-06 | 2018-12-11 | 国网安徽省电力有限公司信息通信分公司 | 一种基于后验知识监督的噪声鲁棒声学建模方法 |
CN108986835A (zh) * | 2018-08-28 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 基于改进gan网络的语音去噪方法、装置、设备及介质 |
CN109410974A (zh) * | 2018-10-23 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN109378013A (zh) * | 2018-11-19 | 2019-02-22 | 南瑞集团有限公司 | 一种语音降噪方法 |
Non-Patent Citations (4)
Title |
---|
"An analysis of convolutional neural networks for speech recognition";J. Huang;《2015 IEEE International Conference on Acoustics, Speech and Signal Processing》;20150806;全文 * |
"一种基于组合深层模型的语音增强方法";李璐君;《信息工程大学学报》;20180831;第19卷(第4期);第434-440页 * |
"基于后验指示监督的噪声鲁棒声学模型研究";赵峰 等;《湘潭大学自然科学学报》;20181230;全文 * |
李璐君." 基于深度学习的语音增强技术研究".《中国优秀硕士学位论文全文数据库(信息科技辑)》.2018, * |
Also Published As
Publication number | Publication date |
---|---|
CN110610715A (zh) | 2019-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110610715B (zh) | 一种基于cnn-dnn混合神经网络的降噪方法 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN109326302B (zh) | 一种基于声纹比对和生成对抗网络的语音增强方法 | |
Gao et al. | Densely connected progressive learning for lstm-based speech enhancement | |
CN109686381B (zh) | 用于信号增强的信号处理器和相关方法 | |
CN110444214B (zh) | 语音信号处理模型训练方法、装置、电子设备及存储介质 | |
WO2020177371A1 (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 | |
CN105611477B (zh) | 数字助听器中深度和广度神经网络相结合的语音增强算法 | |
CN109427328B (zh) | 一种基于滤波网络声学模型的多通道语音识别方法 | |
Lee et al. | DNN-based residual echo suppression. | |
CN112581973B (zh) | 一种语音增强方法及系统 | |
CN113936681B (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
CN112331181A (zh) | 一种基于多说话人条件下目标说话人语音提取方法 | |
Hou et al. | Domain adversarial training for speech enhancement | |
Wang et al. | NN3A: Neural network supported acoustic echo cancellation, noise suppression and automatic gain control for real-time communications | |
Tu et al. | A two-stage end-to-end system for speech-in-noise hearing aid processing | |
CN112201276B (zh) | 基于TC-ResNet网络的麦克风阵列语音分离方法 | |
Zhang et al. | Incorporating visual information reconstruction into progressive learning for optimizing audio-visual speech enhancement | |
CN115440240A (zh) | 语音降噪的训练方法、语音降噪系统及语音降噪方法 | |
CN113763984A (zh) | 一种用于分布式多说话人的参数化噪声消除系统 | |
Soni et al. | Label Driven Time-Frequency Masking for Robust Continuous Speech Recognition. | |
CN114141266A (zh) | 基于pesq驱动的强化学习估计先验信噪比的语音增强方法 | |
Taniguchi et al. | Signal restoration based on bi-directional LSTM with spectral filtering for robot audition | |
KR101022457B1 (ko) | Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법 | |
CN114822583A (zh) | 一种采用核化听觉模型的单通道声源分离方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |