CN110610715B - 一种基于cnn-dnn混合神经网络的降噪方法 - Google Patents

一种基于cnn-dnn混合神经网络的降噪方法 Download PDF

Info

Publication number
CN110610715B
CN110610715B CN201910689066.9A CN201910689066A CN110610715B CN 110610715 B CN110610715 B CN 110610715B CN 201910689066 A CN201910689066 A CN 201910689066A CN 110610715 B CN110610715 B CN 110610715B
Authority
CN
China
Prior art keywords
layer
dnn
noise reduction
cnn
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910689066.9A
Other languages
English (en)
Other versions
CN110610715A (zh
Inventor
李云红
穆兴
张秋铭
刘旭东
何琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Polytechnic University
Original Assignee
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University filed Critical Xian Polytechnic University
Priority to CN201910689066.9A priority Critical patent/CN110610715B/zh
Publication of CN110610715A publication Critical patent/CN110610715A/zh
Application granted granted Critical
Publication of CN110610715B publication Critical patent/CN110610715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明提供一种基于CNN‑DNN混合神经网络的降噪方法,具体按照以下方式实施:步骤1,建立CNN‑DNN混合神经网络降噪模型;步骤2,建立训练集,对步骤1建立的CNN‑DNN混合神经网络降噪模型进行训练;步骤3,将需要降噪的语音信号输入步骤3训练好的CNN‑DNN混合神经网络降噪模型中,输出干净的语音信号频谱。本发明一种基于CNN‑DNN混合神经网络的降噪方法对瞬时噪声和非瞬时噪声都具有更好的自动识别分离和去除能力。

Description

一种基于CNN-DNN混合神经网络的降噪方法
技术领域
本发明属于降噪方法技术领域,涉及一种基于CNN-DNN混合神经网络 的降噪方法。
背景技术
近年来,人类老龄化的问题越来越突出,老年人听力障碍问题也受到广 泛关注,助听器的研究和发展开始受到普遍的重视,作为听障者与外界信息 交互的重要媒介,为了能让听障者听到高清晰的音频信息,提高听觉质量, 而噪音的去除对于听障者而言显得尤为重要,。
目前,针对助听器的噪声有两种,一种是瞬时噪声,另一种是非瞬时噪 声,对于瞬时噪声的抑制(Transient Noise Suppression,TNS)方法研究有两 种,一种是基于最优修改的对数谱幅度估计(Optimally Modified-Log Spectral Amplitude,OM-LSA)算法,通过考虑先验信噪比和语音信号中噪声存在的 不确定性,利用最小值约束递归平均算法(Minima Controlled Recursive Averaging,MCRA)进行噪声谱估计,推导计算得出频谱最优增益函数,进 一步在频域上找到纯净语音信号的最优对数谱估计,通过IFFT得到将瞬时噪声抑制后的语音;另一种是基于时域的递归指数加权最小二乘法 (ExponentialWeighted Least Square,EWLS),对带噪声的语音信号进行检测 和修复。
针对非瞬时噪声的抑制(Non-Transient Noise Suppression,NTNS)方法 有谱减法(Spectral-subtractive algorithm),这种算法是频域语音增强算法啊, 在带噪声的频谱中直接减去计算出来的噪声频谱,得到干净语音频谱;基于 统计模型的贝叶斯估计(Statistical-model-based bayesian estimation),这种算 法通过计算一些特定的参数找一个有期望参数的估计器,对噪声进行谱估 计;子空间算法(Subspace algorithm),是利用简单的线性代数理论对子空 间信号进行估计;麦克风语音增强广义旁瓣抵消(Generalized Sidelode Cancellation,GSC)算法,对于麦克风阵列采集声音信号时,消除非稳态噪声 干扰,同时配合麦克风波束成形算法进行声音信号定位和跟踪。这些传统的算法都有它的限制因素和复杂性,使用起来难度大,效果不够理想。
发明内容
本发明的目的是提供一种基于CNN-DNN混合神经网络的降噪方法,对 瞬时噪声和非瞬时噪声都具有更好的自动识别分离和去除能力。
本发明所采用的技术方案是,
一种基于CNN-DNN混合神经网络的降噪方法,具体按照以下方式实 施:
步骤1,建立CNN-DNN混合神经网络降噪模型;
步骤2,建立训练集,对步骤1建立的CNN-DNN混合神经网络降噪模 型进行训练;
步骤3,将需要降噪的语音信号输入步骤2训练好的CNN-DNN混合神 经网络降噪模型中,输出干净的语音信号频谱。
本发明的特点还在于,
步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号均是经 过预处理之后的语音信号,预处理的具体方式为:截取原始语音信号中频段 为125Hz~8kHz的部分作为步骤2中的训练集的语音信号和步骤3中的需要 降噪的语音信号。
步骤1中CNN-DNN混合神经网络降噪模型的前段由ResNet残差网络 构成;CNN-DNN混合神经网络降噪模型的后段由5层DNN网络构成。
ResNet残差网络包括依次连接的10个残差单元,从第一个残差单元开 始,每一个残差单元由ReLU非线性激活函数激活;将10个残差单元按顺 序两两分为一组,每组中的两个残差单元之间增加一个捷径,构成一个残差 模块;第一个残差模块的节点数为64,第二个残差模块的节点数为128,第 三个残差模块的节点数为256,第四个残差模块的节点数为512,第五个模 块节点数为1024;每个残差模块中的每个节点都执行线性和ReLU激活函数;
残差单元表示为:
yl=h(xl)+F(xl,wl) (1)
xl+1=f(yl) (2)
其中xl和xl+1分别表示的是第l个残差单元的输入和输出,其中F是残 差函数,表示学习到的残差,而h(xl)=xl表示恒等映射,f是ReLU激活函 数。基于上式,可得从浅层l到深层L的学习特征:
Figure BDA0002147299620000031
利用链式规则,求得反向梯度:
Figure BDA0002147299620000032
其中
Figure BDA0002147299620000033
表示的损失函数到达的梯度,括号的“1”表示短路机制可以 无损地传播梯度,
Figure BDA0002147299620000041
为残差梯度,需要经过带有权重的层传递;
DNN网络建立过程为:
Figure BDA0002147299620000042
Figure BDA0002147299620000043
其中
Figure BDA0002147299620000044
是第l+1层的第i个神经元与第l层的第j个神经元之间的权 重,
Figure BDA0002147299620000045
是第l+1的第i个神经元的偏置,
Figure BDA0002147299620000046
第l层的第i个神经元的响应。
步骤2中用无监督学习方法对语音信号样本进行训练,利用随机梯度下 降算法和误差反向传播对参数进行更新,对参数进行更新的具体过程为:
步骤2.1.1,假设某批处理前馈后得到n个样本,x为输入数据,y为输 出数据,批处理的样本的误差为z,且最后一层L为l2损失函数,所以有:
Figure BDA0002147299620000047
Figure BDA0002147299620000048
CNN-DNN混合神经网络降噪模型中,每层操作都对应两部分导数,一 部分是误差关于第i层参数的导数
Figure BDA0002147299620000049
另一部分是误差关于该输入的导数
Figure BDA00021472996200000410
所以参数更新为:
Figure BDA00021472996200000411
其中η是每次随机梯度下降的步长(即学习率),ωi是第i层的权重,bi是第i层的偏置。
步骤2.1.2,样本的输入xi的导数
Figure BDA00021472996200000412
则用于误差向前层的反向传播,可 将其视作最终误差从最后一层传递至第i层时,第i+1层的误差导数为
Figure BDA00021472996200000413
第i层参数更新时计算
Figure BDA00021472996200000414
Figure BDA00021472996200000415
的对应值,因此:
Figure BDA0002147299620000051
Figure RE-GDA0002262321110000052
公式中“vec”为向量标记,在i+1层计算得
Figure BDA0002147299620000053
第i层,由于xi经ωi直接作用得xi +1,故反向求导可直接得到其偏导数
Figure BDA0002147299620000054
Figure BDA0002147299620000055
如此,可求得(4)和(5)中等号左端项
Figure BDA0002147299620000056
Figure BDA0002147299620000057
根据公式(3)更新参 数层,并将
Figure BDA0002147299620000058
作为该层误差传至前层,即第i-1层,一直传下去,直至更新 到第1层,从而完成参数的更新。
在步骤2中设置代价函数,采用平均平方误差并采用正则化约束,防止 过拟合,具体方式为:
代价函数为公式为:
Figure BDA0002147299620000059
其中
Figure BDA00021472996200000510
是损失函数,代价函数为非凸函数,采用 随机梯度下降法得:
Figure BDA00021472996200000511
Figure BDA00021472996200000512
其中:
Figure BDA0002147299620000061
Figure BDA0002147299620000062
CNN-DNN混合神经网络降噪模型的残差计算:
Figure BDA0002147299620000063
Figure BDA0002147299620000064
其中
Figure BDA0002147299620000065
是CNN-DNN混合神经网络降噪模型的残差函数,
Figure BDA0002147299620000066
为 CNN-DNN混合神经网络降噪模型的随机梯度下降率,
Figure BDA0002147299620000067
第l层第i个残差。
本发明的有益效果是,
一、CNN-DNN混合神经网络降噪模型主要是逐层训练,简化了网络模 型训练的复杂度,极大的减少了权重;
二、CNN-DNN混合神经网络降噪模型中的ResNet网络可以跳跃连接 一层甚至多层,将语音信息传递到神经网络的更深层;ResNet网络极大的降 低了训练误差和难度,对输入语音信号的激活能够到达网络更深层,解决了 梯度消失和梯度爆炸,保证了智能降噪模型的良好性能;
三、CNN-DNN混合神经网络降噪模型中的DNN网络,将高维的语音 数据训练使其具有自动识别和驱动能力,从而又消除了整个混合模型系统带 来的噪声。
附图说明
图1是本发明一种基于CNN-DNN混合神经网络的降噪方法的流程框 图;
图2是本发明一种基于CNN-DNN混合神经网络的降噪方法中CNN-DNN混合神经网络降噪模型的结构图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于CNN-DNN混合神经网络的降噪方法,如图1所示,具 体按照以下步骤实施:
步骤1,建立CNN-DNN混合神经网络降噪模型;
CNN-DNN混合神经网络降噪模型的前段是由ResNet残差网络构成, ResNet残差网络包括依次连接的10个残差单元,残差单元之间是以跳跃方 法连接,从第一个残差单元开始,每一个残差单元由ReLU非线性激活函数 激活;将10个残差单元按顺序两两分为一组,每组中的两个残差单元之间 增加一个捷径,构成一个残差模块;第一个残差模块的节点数为64,第二个 残差模块的节点数为128,第三个残差模块的节点数为256,第四个残差模 块的节点数为512,第五个模块节点数为1024;每个残差模块中的每个节点 都执行线性和ReLU激活函数;
其中残差单元表示为:
yl=h(xl)+F(xl,wl) (1)
xl+1=f(yl) (2)
其中xl和xl+1分别表示的是第l个残差单元的输入和输出,F表示是残 差函数,表示学习到的残差,而h(xl)=xl表示恒等映射,f是ReLU激活函 数。基于上式,可得从浅层l到深层L的学习特征:
Figure BDA0002147299620000071
利用链式规则,求得反向梯度:
Figure BDA0002147299620000081
其中
Figure BDA0002147299620000082
表示的损失函数到达的梯度,括号的“1”表示短路机制可以 无损地传播梯度,
Figure BDA0002147299620000083
为残差梯度,需要经过带有权重的层传递。
CNN-DNN混合神经网络降噪模型的后段是一个5层的DNN网络中输 入层节点数为2048,第二层、第三层和第四层作为隐藏层节点数均为4096, 第五层输出层节点数为256,这种设置为了更好训练反向传播算法和随机梯 度算法达到自动智能降噪的目的;
其中DNN网络建立过程为:
Figure BDA0002147299620000084
Figure BDA0002147299620000085
其中
Figure BDA0002147299620000086
是第l+1层的第i个神经元与第l层的第j个神经元之间的权 重,
Figure BDA0002147299620000087
是第l+1的第i个神经元的偏置,
Figure BDA0002147299620000088
第l层的第i个神经元的响应。
步骤2,建立训练集,对步骤1建立的CNN-DNN混合神经网络降噪模 型进行训练;具体按照以下步骤进行实施:
步骤2中用无监督学习方法对语音信号样本进行训练,利用随机梯度下 降算法(Stochastic Gradient Descent,SGD)和误差反向传播(Error Back Propogation,EBP)对参数进行更新;更新过程为:
步骤2.1.1,假设某批处理前馈后得到n个样本,x为输入数据,y为输 出数据,批处理的样本的误差为z,且最后一层L为l2损失函数,所以有:
Figure BDA0002147299620000089
Figure BDA00021472996200000810
CNN-DNN混合神经网络降噪模型中,每层操作都对应两部分导数,一 部分是误差关于第i层参数的导数
Figure BDA0002147299620000091
另一部分是误差关于该输入的导数
Figure BDA0002147299620000092
所以参数更新为:
Figure BDA0002147299620000093
其中η是每次随机梯度下降的步长(即学习率),ωi是第i层的权重,bi是第i层的偏置。
步骤2.1.2,样本的输入xi的导数
Figure BDA0002147299620000094
则用于误差向前层的反向传播,可 将其视作最终误差从最后一层传递至第i层时,第i+1层的误差导数为
Figure BDA0002147299620000095
第i层参数更新时计算
Figure BDA0002147299620000096
Figure BDA0002147299620000097
的对应值,因此:
Figure BDA0002147299620000098
Figure RE-GDA0002262321110000099
公式中“vec”为向量标记,在i+1层计算得
Figure BDA00021472996200000910
第i层,由于xi经ωi直接作用得xi +1,故反向求导可直接得到其偏导数
Figure BDA00021472996200000911
Figure BDA00021472996200000912
如此,可求得(4)和(5)中等号左端项
Figure BDA00021472996200000913
Figure BDA00021472996200000914
根据公式(3)更新参 数层,并将
Figure BDA00021472996200000915
作为该层误差传至前层,即第i-1层,一直传下去,直至更新 到第1层,从而完成参数的更新。
在步骤2中,在训练CNN-DNN混合神经网络降噪模型时设置代价函数, 采用平均平方误差并采用正则化约束,防止过拟合,代价函数为公式为:
Figure BDA00021472996200000916
Figure BDA0002147299620000101
其中
Figure BDA0002147299620000102
是损失函数,代价函数为非凸函数,采用 随机梯度下降法得:
Figure BDA0002147299620000103
Figure BDA0002147299620000104
其中:
Figure BDA0002147299620000105
Figure BDA0002147299620000106
CNN-DNN混合神经网络降噪模型的残差计算:
Figure BDA0002147299620000107
Figure BDA0002147299620000108
其中
Figure BDA0002147299620000109
是CNN-DNN混合神经网络降噪模型的残差函数,
Figure BDA00021472996200001010
为 CNN-DNN混合神经网络降噪模型的随机梯度下降率,
Figure BDA00021472996200001011
第l层第i个残差。
步骤3,将需要降噪的语音信号输入步骤3训练好的CNN-DNN混合神 经网络降噪模型中,对语音进行特征提取,完成带噪声的语音信号的频谱和 干净语音信号频谱的分离,将干净语音信号频谱输出;
步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号均是经 过预处理之后的语音信号,即将采集到的原始语音信号截取频段为 125Hz~8kHz的部分作为步骤2中的训练集的语音信号和步骤3中的需要降 噪的语音信号。
本发明的原理是,本发明中用CNN-DNN混合神经网络降噪模型对训练 语音样本参数并进行参数更新,采用反向传播算法和随机梯度算法对样本参 数进行训练,用参数更新方法得到合适的参数大小,避免了认为设置参数造 成运算复杂而出现错误的情况。
CNN-DNN混合神经网络降噪模型中,ResNet网络可以跳跃连接一层 甚至多层,将语音信息传递到神经网络的更深层;ResNet网络极大的降低了 训练误差和难度,对输入语音信号的激活能够到达网络更深层,解决了梯度 消失和梯度爆炸,保证了智能降噪模型的良好性能;
带噪的语音信号经过10层ResNet残差网络后干净语音频谱和噪声频谱 已经分离,再将语音信号输入一个5层的DNN网络,将高维的语音数据训 练使其具有自动识别和驱动能力,从而又消除了整个混合模型系统带来的噪 声。
如图2所示为CNN-DNN混合神经网络降噪模型的结构图,其中第一部 分为可用频段为125Hz~8kHz的语音信号,接着将语音信号导入第二部分的 基于CNN网络的残差10层网络,利用残差网络学习波束形成,可衰减语音 信号中的回声,对语数据参数进行更新;第三部分DNN网络防止第二部分 残差网络在更新参数时出现梯度消失和梯度爆炸,避免参数运算大而出现错 误,同时对语音数据中的混响和远场噪声滤除,前三部分整个实现数据训练 和测试环节,训练阶段能够使CNN-DNN模型区分噪声频谱和干净语音频 谱,达到自动降噪的目的,测试阶段是对CNN-DNN模型性能的评估,当模 型训练完成后达到要求,才可以对输入数据进行处理,保证第四部分输出符 合受听者听觉效果的干净语音信号。
CNN-DNN混合神经网络降噪模型能够很好的捕捉数据特征,不仅能有 效避免数据特征提取复杂和数据重建过程,而且能将神经网络训练出泛化能 力更强的智能降噪模型;本发明一种基于CNN-DNN混合神经网络的降噪方 法具有良好的容错能力、自学能力和并行处理能力,可处理大量数据,而且 运行速度快,能在复杂环境中进行情景识别,自适应能力好,具有极高的识 别率,对瞬时噪声和非瞬时噪声都有更好的自动识别分离和去除能力。

Claims (5)

1.一种基于CNN-DNN混合神经网络的降噪方法,其特征在于,具体按照以下方式实施:
步骤1,建立CNN-DNN混合神经网络降噪模型;所述CNN-DNN混合神经网络降噪模型的前段由ResNet残差网络构成;所述ResNet残差网络包括依次连接的10个残差单元,从第一个残差单元开始,每一个残差单元由ReLU非线性激活函数激活;将10个残差单元按顺序两两分为一组,每组中的两个残差单元之间增加一个捷径,构成一个残差模块;第一个残差模块的节点数为64,第二个残差模块的节点数为128,第三个残差模块的节点数为256,第四个残差模块的节点数为512,第五个模块节点数为1024;每个残差模块中的每个节点都执行线性和ReLU激活函数;
所述CNN-DNN混合神经网络降噪模型的后段由5层DNN网络构成;所述5层DNN网络中,第一层为输入层,输入层节点数为2048;第二层、第三层和第四层作为隐藏层节点数均为4096;第五层输出层节点数为256;
步骤2,建立训练集,对步骤1建立的CNN-DNN混合神经网络降噪模型进行训练;
步骤3,将需要降噪的语音信号输入步骤2训练好的CNN-DNN混合神经网络降噪模型中,输出干净的语音信号频谱。
2.如权利要求1所述的一种基于CNN-DNN混合神经网络的降噪方法,其特征在于,所述步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号均是经过预处理之后的语音信号,所述预处理的具体方式为:截取原始语音信号中频段为125Hz~8kHz的部分作为步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号。
3.如权利要求1所述的一种基于CNN-DNN混合神经网络的降噪方法,其特征在于,所述残差单元表示为:
yl=h(xl)+F(xl,wl) (1)
xl+1=f(yl) (2)
其中xl和xl+1分别表示的是第l个残差单元的输入和输出,F表示残差函数,表示学习到的残差,h(xl)=xl,表示恒等映射,f表示ReLU激活函数;基于上式,可得从浅层l到深层L的学习特征:
Figure FDA0003396351000000021
利用链式规则,求得反向梯度:
Figure FDA0003396351000000022
其中
Figure FDA0003396351000000023
表示的损失函数到达的梯度,括号的“1”表示短路机制可以无损地传播梯度,
Figure FDA0003396351000000024
为残差梯度,需要经过带有权重的层传递;
所述DNN网络建立过程为:
Figure FDA0003396351000000025
Figure FDA0003396351000000026
其中
Figure FDA0003396351000000027
是第l+1层的第i个神经元与第l层的第j个神经元之间的权重,
Figure FDA0003396351000000028
是第l+1的第i个神经元的偏置,
Figure FDA0003396351000000029
第l层的第i个神经元的响应。
4.如权利要求1所述的一种基于CNN-DNN混合神经网络的降噪方法,其特征在于,步骤2中用无监督学习方法对语音信号样本进行训练,利用随机梯度下降算法和误差反向传播对参数进行更新,对参数进行更新的具体过程为:
步骤2.1.1,假设某批处理前馈后得到n个样本,x为输入数据,y为输出数据,批处理的样本的误差为z,且最后一层L为l2损失函数,所以有:
Figure FDA0003396351000000031
Figure FDA0003396351000000032
CNN-DNN混合神经网络降噪模型中,每层操作都对应两部分导数,一部分是误差关于第i层参数的导数
Figure FDA0003396351000000033
另一部分是误差关于该输入的导数
Figure FDA0003396351000000034
所以参数更新为:
Figure FDA0003396351000000035
其中η是每次随机梯度下降的步长(即学习率),ωi是第i层的权重,bi是第i层的偏置;
步骤2.1.2,样本的输入xi的导数
Figure FDA0003396351000000036
则用于误差向前层的反向传播,可将其视作最终误差从最后一层传递至第i层时,第i+1层的误差导数为
Figure FDA0003396351000000037
第i层参数更新时计算
Figure FDA0003396351000000038
Figure FDA0003396351000000039
的对应值,因此:
Figure FDA00033963510000000310
Figure FDA00033963510000000311
公式中“vec”为向量标记,在i+1层计算得
Figure FDA00033963510000000312
第i层,由于xi经ωi直接作用得xi+1,故反向求导可直接得到其偏导数
Figure FDA00033963510000000313
Figure FDA00033963510000000314
如此,可求得(4)和(5)中等号左端项
Figure FDA00033963510000000315
Figure FDA00033963510000000316
根据公式(3)更新参数层,并将
Figure FDA00033963510000000317
作为该层误差传至前层,即第i-1层,一直传下去,直至更新到第1层,从而完成参数的更新。
5.如权利要求1所述的一种基于CNN-DNN混合神经网络的降噪方法,其特征在于,在步骤2中设置代价函数,采用平均平方误差并采用正则化约束,防止过拟合,具体方式为:
代价函数为公式为:
Figure FDA0003396351000000041
其中
Figure FDA0003396351000000042
是损失函数,代价函数为非凸函数,采用随机梯度下降法得:
Figure FDA0003396351000000043
Figure FDA0003396351000000044
其中:
Figure FDA0003396351000000045
Figure FDA0003396351000000046
CNN-DNN混合神经网络降噪模型的残差计算:
Figure FDA0003396351000000047
Figure FDA0003396351000000048
其中
Figure FDA0003396351000000049
是CNN-DNN混合神经网络降噪模型的残差函数,
Figure FDA00033963510000000410
为CNN-DNN混合神经网络降噪模型的随机梯度下降率,
Figure FDA00033963510000000411
第l层第i个残差。
CN201910689066.9A 2019-07-29 2019-07-29 一种基于cnn-dnn混合神经网络的降噪方法 Active CN110610715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910689066.9A CN110610715B (zh) 2019-07-29 2019-07-29 一种基于cnn-dnn混合神经网络的降噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910689066.9A CN110610715B (zh) 2019-07-29 2019-07-29 一种基于cnn-dnn混合神经网络的降噪方法

Publications (2)

Publication Number Publication Date
CN110610715A CN110610715A (zh) 2019-12-24
CN110610715B true CN110610715B (zh) 2022-02-22

Family

ID=68890997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910689066.9A Active CN110610715B (zh) 2019-07-29 2019-07-29 一种基于cnn-dnn混合神经网络的降噪方法

Country Status (1)

Country Link
CN (1) CN110610715B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111092983B (zh) * 2019-12-25 2020-12-11 清华大学深圳国际研究生院 一种基于滑模变结构控制的语音通话回声与底噪抑制方法
CN111564161B (zh) * 2020-04-28 2023-07-07 世邦通信股份有限公司 智能抑制噪音的声音处理装置、方法、终端设备及可读介质
CN111583958B (zh) * 2020-05-19 2023-10-10 北京达佳互联信息技术有限公司 音频信号处理方法、装置、电子设备及存储介质
CN111603191B (zh) * 2020-05-29 2023-10-20 上海联影医疗科技股份有限公司 医学扫描中的语音降噪方法、装置和计算机设备
CN111568384A (zh) * 2020-05-29 2020-08-25 上海联影医疗科技有限公司 医学扫描中的语音降噪方法、装置和计算机设备
CN111860273B (zh) * 2020-07-14 2022-07-05 吉林大学 基于卷积神经网络的磁共振地下水探测噪声抑制方法
CN111899750B (zh) * 2020-07-29 2022-06-14 哈尔滨理工大学 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN112329979A (zh) * 2020-09-23 2021-02-05 燕山大学 一种基于自适应深度残差网络的超短期风电功率预测方法
CN112053702B (zh) * 2020-09-30 2024-03-19 北京大米科技有限公司 一种语音处理的方法、装置及电子设备
CN112036517B (zh) * 2020-11-05 2021-05-04 中科创达软件股份有限公司 图像缺陷分类方法、装置及电子设备
CN112600772B (zh) * 2020-12-09 2022-05-17 齐鲁工业大学 一种基于数据驱动神经网络的ofdm信道估计与信号检测方法
CN112990972B (zh) * 2021-03-19 2022-11-18 华南理工大学 一种基于异构图神经网络的推荐方法
CN113436640B (zh) * 2021-06-28 2022-11-25 歌尔科技有限公司 一种音频降噪方法、装置、系统及计算机可读存储介质
CN113782011B (zh) * 2021-08-26 2024-04-09 清华大学苏州汽车研究院(相城) 频带增益模型的训练方法及用于车载场景的语音降噪方法
CN113854995B (zh) * 2021-10-19 2023-11-24 复旦大学 一种基于单次激发的弥散加权成像扫描重建方法及系统
CN114972118B (zh) * 2022-06-30 2023-04-28 抖音视界有限公司 检查图像的降噪方法、装置、可读介质和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017164954A1 (en) * 2016-03-23 2017-09-28 Google Inc. Adaptive audio enhancement for multichannel speech recognition
EP3309782A4 (en) * 2015-06-09 2018-04-18 GRG Banking Equipment Co., Ltd. Method, device and system for noise suppression
CN108922560A (zh) * 2018-05-02 2018-11-30 杭州电子科技大学 一种基于混合深度神经网络模型的城市噪声识别方法
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
CN108986788A (zh) * 2018-06-06 2018-12-11 国网安徽省电力有限公司信息通信分公司 一种基于后验知识监督的噪声鲁棒声学建模方法
CN109378013A (zh) * 2018-11-19 2019-02-22 南瑞集团有限公司 一种语音降噪方法
CN109410974A (zh) * 2018-10-23 2019-03-01 百度在线网络技术(北京)有限公司 语音增强方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10090001B2 (en) * 2016-08-01 2018-10-02 Apple Inc. System and method for performing speech enhancement using a neural network-based combined symbol
US10657437B2 (en) * 2016-08-18 2020-05-19 International Business Machines Corporation Training of front-end and back-end neural networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3309782A4 (en) * 2015-06-09 2018-04-18 GRG Banking Equipment Co., Ltd. Method, device and system for noise suppression
WO2017164954A1 (en) * 2016-03-23 2017-09-28 Google Inc. Adaptive audio enhancement for multichannel speech recognition
CN108922560A (zh) * 2018-05-02 2018-11-30 杭州电子科技大学 一种基于混合深度神经网络模型的城市噪声识别方法
CN108986788A (zh) * 2018-06-06 2018-12-11 国网安徽省电力有限公司信息通信分公司 一种基于后验知识监督的噪声鲁棒声学建模方法
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
CN109410974A (zh) * 2018-10-23 2019-03-01 百度在线网络技术(北京)有限公司 语音增强方法、装置、设备及存储介质
CN109378013A (zh) * 2018-11-19 2019-02-22 南瑞集团有限公司 一种语音降噪方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"An analysis of convolutional neural networks for speech recognition";J. Huang;《2015 IEEE International Conference on Acoustics, Speech and Signal Processing》;20150806;全文 *
"一种基于组合深层模型的语音增强方法";李璐君;《信息工程大学学报》;20180831;第19卷(第4期);第434-440页 *
"基于后验指示监督的噪声鲁棒声学模型研究";赵峰 等;《湘潭大学自然科学学报》;20181230;全文 *
李璐君." 基于深度学习的语音增强技术研究".《中国优秀硕士学位论文全文数据库(信息科技辑)》.2018, *

Also Published As

Publication number Publication date
CN110610715A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN110610715B (zh) 一种基于cnn-dnn混合神经网络的降噪方法
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN109326302B (zh) 一种基于声纹比对和生成对抗网络的语音增强方法
Gao et al. Densely connected progressive learning for lstm-based speech enhancement
CN109686381B (zh) 用于信号增强的信号处理器和相关方法
CN110444214B (zh) 语音信号处理模型训练方法、装置、电子设备及存储介质
WO2020177371A1 (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
CN105611477B (zh) 数字助听器中深度和广度神经网络相结合的语音增强算法
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
Lee et al. DNN-based residual echo suppression.
CN112581973B (zh) 一种语音增强方法及系统
CN113936681B (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN112331181A (zh) 一种基于多说话人条件下目标说话人语音提取方法
Hou et al. Domain adversarial training for speech enhancement
Wang et al. NN3A: Neural network supported acoustic echo cancellation, noise suppression and automatic gain control for real-time communications
Tu et al. A two-stage end-to-end system for speech-in-noise hearing aid processing
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
Zhang et al. Incorporating visual information reconstruction into progressive learning for optimizing audio-visual speech enhancement
CN115440240A (zh) 语音降噪的训练方法、语音降噪系统及语音降噪方法
CN113763984A (zh) 一种用于分布式多说话人的参数化噪声消除系统
Soni et al. Label Driven Time-Frequency Masking for Robust Continuous Speech Recognition.
CN114141266A (zh) 基于pesq驱动的强化学习估计先验信噪比的语音增强方法
Taniguchi et al. Signal restoration based on bi-directional LSTM with spectral filtering for robot audition
KR101022457B1 (ko) Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법
CN114822583A (zh) 一种采用核化听觉模型的单通道声源分离方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant