CN117275499B - 自适应神经网络的降噪方法及相关装置 - Google Patents
自适应神经网络的降噪方法及相关装置 Download PDFInfo
- Publication number
- CN117275499B CN117275499B CN202311533329.XA CN202311533329A CN117275499B CN 117275499 B CN117275499 B CN 117275499B CN 202311533329 A CN202311533329 A CN 202311533329A CN 117275499 B CN117275499 B CN 117275499B
- Authority
- CN
- China
- Prior art keywords
- neural network
- noise reduction
- model
- value
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 343
- 230000009467 reduction Effects 0.000 title claims abstract description 224
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 21
- 230000008859 change Effects 0.000 claims abstract description 66
- 230000006870 function Effects 0.000 claims description 55
- 210000002569 neuron Anatomy 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 21
- 230000005236 sound signal Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 description 18
- 238000012821 model calculation Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本申请提供了一种自适应神经网络的降噪方法及相关装置,方法包括:确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差;确定模型误差变化值;若检测出模型误差变化值大于第一预设阈值,且模型误差变化值为正值,则确定第一层数调整公式;将模型误差变化值带入第一层数调整公式,得到目标神经网络降噪模型所需增加的神经网络层的第一数量;控制目标神经网络降噪模型以第一速率增加第一数量的神经网络层。采用本申请实施例能够实现实时根据噪声环境和语音信号的复杂性,在每次降噪操作中动态调整目标神经网络降噪模型的神经网络的层数,有利于提高降噪性能。
Description
技术领域
本申请属于语音降噪领域,具体涉及一种自适应神经网络的降噪方法及相关装置。
背景技术
目前,在嘈杂的环境中进行语音通信或语音识别时,噪声可能会严重干扰语音信号,导致信息的丢失和不良的用户体验。降噪算法在语音信号处理中扮演着关键的角色,可以帮助提高语音识别的准确率和语音通信的质量。
传统的降噪算法中的深度学习降噪:深度学习技术如卷积神经网络(CNN)和循环神经网络(RNN)在降噪中广泛应用。这些算法可以学习从噪声信号中提取语音信号的特征,从而有效地进行降噪。
传统深度神经网络结构对输入的麦克风录音进行模型处理,Y=S + N +E,其中S是人声,N是噪声,E是回声。即是根据Y求S的过程,进一步细化为求目标信号频谱。传统算法是通过求信号谱估计和神经网络增益估计的方法求得,即求Ideal ratio mask(IRM)的过程,求导过程为,求目标信号谱通过mask/>Y求得。通过模型计算出mask,即是根据训练神经网络模型得出人声mask的过程,对mask归一化则可求得麦克风录音中人声的权重系数,模型求解即对高噪录音求其中人声的mask。但由于模型结构和参数是固定的,针对不同环境的语音信号,均使用同一组系数,导致在信噪比较高的环境下声音还原度远低于信号处理算法的效果。同时由于要在同一组系数上完成不同环境语音信号的适配,神经网络增益估计只能取特定强度,例如:exp(/> log(mask)),其中/>为常量值,mask为神经网络增益估计,导致在部分场景下降噪效果较好,部分噪声场景降噪强度不高和降噪效果不佳等问题。
发明内容
本申请实施例提供了一种自适应神经网络的降噪方法及相关装置,能够实现实时根据噪声环境和语音信号的复杂性,在每次降噪操作中动态调整目标神经网络降噪模型的神经网络的层数,有利于提高降噪性能。
第一方面,本申请实施例提供了一种自适应神经网络的降噪方法,包括:
确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差;
根据所述第一模型误差和所述第二模型误差,确定模型误差变化值;
若检测出所述模型误差变化值大于第一预设阈值,且所述模型误差变化值为正值,则确定第一层数调整公式;以及,将所述模型误差变化值带入所述第一层数调整公式,得到所述目标神经网络降噪模型所需增加的神经网络层的第一数量;
控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层;
若检测出所述模型误差变化值小于第二预设阈值,且所述模型误差变化值为负值,则确定第二层数调整公式;以及,将所述模型误差变化值带入所述第二层数调整公式,得到所述目标神经网络降噪模型所需减少的神经网络层的第二数量;
控制所述目标神经网络降噪模型以第二速率减少所述第二数量的神经网络层。
第二方面,本申请实施例提供了自适应神经网络的降噪装置,所述自适应神经网络的降噪装置,包括:确定单元、处理单元和控制单元,其中,
所述确定单元,用于确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差;
所述确定单元,还用于根据所述第一模型误差和所述第二模型误差,确定模型误差变化值;
所述处理单元,用于若检测出所述模型误差变化值大于第一预设阈值,且所述模型误差变化值为正值,则确定第一层数调整公式;以及,将所述模型误差变化值带入所述第一层数调整公式,得到所述目标神经网络降噪模型所需增加的神经网络层的第一数量;
所述控制单元,用于控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层;
所述处理单元,还用于若检测出所述模型误差变化值小于第二预设阈值,且所述模型误差变化值为负值,则确定第二层数调整公式;以及,将所述模型误差变化值带入所述第二层数调整公式,得到所述目标神经网络降噪模型所需减少的神经网络层的第二数量;
所述控制单元,还用于控制所述目标神经网络降噪模型以第二速率减少所述第二数量的神经网络层。
第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行本申请实施例第一方面中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请实施例第一方面中的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
可以看出,本申请实施例中,先确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差,接着,根据第一模型误差和第二模型误差,确定模型误差变化值,再接着若检测出模型误差变化值大于第一预设阈值,且模型误差变化值为正值,则确定第一层数调整公式;以及,将模型误差变化值带入第一层数调整公式,得到目标神经网络降噪模型所需增加的神经网络层的第一数量,进一步,控制目标神经网络降噪模型以第一速率增加第一数量的神经网络层,再接着若检测出模型误差变化值小于第二预设阈值,且模型误差变化值为负值,则确定第二层数调整公式;以及,将模型误差变化值带入第二层数调整公式,得到目标神经网络降噪模型所需减少的神经网络层的第二数量,最后控制目标神经网络降噪模型以第二速率减少第二数量的神经网络层。能够实现实时根据噪声环境和语音信号的复杂性,在每次降噪操作中动态调整目标神经网络降噪模型的神经网络的层数,有利于提高降噪性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中,
图1A是本申请实施例提供的一种自适应神经网络的降噪算法的算法框图;
图1B是本申请实施例提供的另一种自适应神经网络的降噪算法的算法框图;
图2是本申请实施例提供的一种自适应神经网络的降噪方法的流程示意图;
图3是本申请实施例提供的一种电子设备的结构示意图;
图4是本申请实施例提供的一种自适应神经网络的降噪装置的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例中的“和/或”,描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示如下三种情况:单独存在A;同时存在A和B;单独存在B。其中,A、B可以是单数或者复数。
本申请实施例中,符号“/”可以表示前后关联对象是一种“或”的关系。另外,符号“/”也可以表示除号,即执行除法运算。例如,A/B,可以表示A除以B。
本申请实施例中的“至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合,是指一个或多个,多个指的是两个或两个以上。例如,a、b或c中的至少一项(个),可以表示如下七种情况:a,b,c,a和b,a和c,b和c,a、b和c。其中,a、b、c中的每一个可以是元素,也可以是包含一个或多个元素的集合。
本申请实施例中的“等于”可以与大于连用,适用于大于时所采用的技术方案,也可以与小于连用,适用于与小于时所采用的技术方案。当等于与大于连用时,不与小于连用;当等于与小于连用时,不与大于连用。
为了更好地理解本申请实施例的方案,下面先对本申请实施例可能涉及的电子设备进行介绍。
本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(user equipment,UE),移动台(mobile station,MS),电子设备(terminaldevice)等等。为方便描述,上面提到的设备统称为电子设备。
请参阅图1A,图1A是本申请实施例提供的一种自适应神经网络的降噪算法的算法框图,可包括两个处理流程,第一个处理流程是:首先是麦克风录音,其次是NN模型计算,麦克风录音是指麦克风录音采集当前环境中音频信号,其次直接将采集的音频信号输入目标神经网络降噪模型中,NN模型计算是指目标神经网络降噪模型计算输出降噪后的人声mask。第二个处理流程是:首先是麦克风录音,其次是特征值计算,接着是噪声检测,最后是NN模型计算,麦克风录音是指麦克风录音采集当前环境中音频信号,特征值计算是计算音频信号的音频特征值,噪声检测包括三方面,第一方面为根据音频特征值确定音频信号是否存在语音信号,第二方面为通过Transformer算法计算噪声种类,第三方面为对语音信号和噪声种类计算信噪比,最后,将音频信号输入到目标神经网络降噪模型中,NN模型计算是指目标神经网络降噪模型计算输出降噪后的人声mask。
其中,在模型计算方面,可采用瓶颈结构Bottleneck Block设计来减少计算量,先使用11的卷积减少通道数,再使用3/>3的卷积,并在3/>3的卷积结束后再通过1/>1的卷积恢复通道数。
其中,信噪比的计算公式为,其中,/>表示语音信号能量,/>表示噪声信号能量。
可选地,在通过Transformer算法计算噪声种类方面,包括以下步骤:获取音频信号;将所述音频信号输入到训练好的预设噪声分类模型中,得到噪声分类结果。
其中,预设噪声分类模型为基于Transformer算法的分类模型,预设噪声分类模型练的目标是最小化多类别交叉熵损失函数,即第二损失函数,第二损失函数表示为,其中/>是损失函数,/>是第二损失函数的模型参数,是训练样本数,/>是噪声类别数,/>是真实标签(0或1),/>是模型对噪声类别/>的预测概率。预设噪声分类模型输出是一个概率分布,包括每个噪声类别及其概率,概率最高的噪声类别为最终的预测结果。
请参阅图1B,图1B是本申请实施例提供的另一种自适应神经网络的降噪算法的算法框图,首先是麦克风录音,其次是特征值计算,接着是噪声检测,再接着是在线学习,最后是NN模型计算,麦克风录音是指麦克风录音采集当前环境中音频信号,特征值计算是计算音频信号的音频特征值,噪声检测包括三方面,第一方面为根据音频特征值确定音频信号是否存在语音信号,第二方面为通过Transformer算法计算噪声种类,第三方面为对语音信号和噪声种类计算信噪比,在线学习是指根据实际用户对目标神经网络降噪模型降噪效果的反馈或者噪声检测结果,确定目标神经网络降噪模型所需学习的新的噪声数据,目标神经网络降噪模型在线学习新的噪声数据,在线生成目标神经网络降噪模型所需更新的新噪声数据参数,最后是NN模型计算,更新参数之后的目标神经网络降噪模型计算输出降噪后的人声mask。
请参阅图2,图2是本申请实施例提供的一种自适应神经网络的降噪方法的流程示意图,所述方法包括:
步骤S201,确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差。
步骤S202,根据所述第一模型误差和所述第二模型误差,确定模型误差变化值。
其中,模型误差变化值=第二模型误差-第一模型误差,公式表示为,表示第二模型偏差,/>表示第一模型偏差,/>表示模型误差变化值。
步骤S203,若检测出所述模型误差变化值大于第一预设阈值,且所述模型误差变化值为正值,则确定第一层数调整公式;以及,将所述模型误差变化值带入所述第一层数调整公式,得到所述目标神经网络降噪模型所需增加的神经网络层的第一数量。
其中,目标神经网络降噪模型包括的神经网络层包括三种:输入层、隐藏层和输出层,隐藏层可包括多个,每一输出层包括多个神经元,每一隐藏层包括多个神经元,每一输出层包括多个神经元。
其中,第一预设阈值可以人为设定或者系统默认,在此不做限定。
其中,检测出模型误差变化值大于第一预设阈值,且模型误差变化值为正值,说明第一损失函数在一段时间内显著减小,可考虑增加神经网络层,增加的神经网络层可以为隐藏层。
其中,第一层数调整公式表示为,/>,/>和/>是调整因子,用于控制增加层数的速率,/>表示目标神经网络降噪模型要增加的层数。较大的/>值将导致对损失函数较小变化做出更快反应,实现增加更多的层数,以提高调整神经网络层数后的目标神经网络降噪模型的降噪性能。增加层数后的目标神经网络降噪模型具备了新的模型结构,可基于新的模型结构和模型参数计算新的模型参数,并根据新的模型结构和新的模型参数进行NN模型计算。
可选地,若检测出所述模型误差变化值大于第一预设阈值,且所述模型误差变化值为正值,可确定所述目标神经网络降噪模型所需增加的神经网络层的第一预设数量;其中,第一预设数量为事先预设的固定值。
步骤S204,控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层。
其中,增加的神经网络层的神经元的个数可以是固定的预设个数。
步骤S205,若检测出所述模型误差变化值小于第二预设阈值,且所述模型误差变化值为负值,则确定第二层数调整公式;以及,将所述模型误差变化值带入所述第二层数调整公式,得到所述目标神经网络降噪模型所需减少的神经网络层的第二数量。
其中,检测出模型误差变化值小于第二预设阈值,且模型误差变化值为负值,说明第一损失函数在一段时间内显著增加,可考虑减少神经网络层,减少的神经网络层可以为隐藏层。
其中,第二层数调整公式表示为,/>,/>和/>是调整因子,用于控制减少层数的速率,/>表示目标神经网络降噪模型要减少的层数。较大的/>值将导致对损失函数较大变化做出更快反应,实现减少更多的层数,并能够节省调整神经网络层数后的目标神经网络降噪模型的算力。减少层数后的目标神经网络降噪模型具备了新的模型结构,可基于新的模型结构和模型参数计算新的模型参数,并根据新的模型结构和新的模型参数进行NN模型计算。
可选地,若检测出所述模型误差变化值小于第二预设阈值,且所述模型误差变化值为负值,可确定所述目标神经网络降噪模型所需减少的神经网络层的第二预设数量;其中,第二预设数量为事先预设的固定值。
步骤S206,控制所述目标神经网络降噪模型以第二速率减少所述第二数量的神经网络层。
其中。第一速率和第二速率相同或者不同,第一速率和第二速率可人为事先设定。
可以看出,本申请实施例中,先确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差,接着,根据第一模型误差和第二模型误差,确定模型误差变化值,再接着若检测出模型误差变化值大于第一预设阈值,且模型误差变化值为正值,则确定第一层数调整公式;以及,将模型误差变化值带入第一层数调整公式,得到目标神经网络降噪模型所需增加的神经网络层的第一数量,进一步,控制目标神经网络降噪模型以第一速率增加第一数量的神经网络层,再接着若检测出模型误差变化值小于第二预设阈值,且模型误差变化值为负值,则确定第二层数调整公式;以及,将模型误差变化值带入第二层数调整公式,得到目标神经网络降噪模型所需减少的神经网络层的第二数量,最后控制目标神经网络降噪模型以第二速率减少第二数量的神经网络层。能够实现实时根据噪声环境和语音信号的复杂性,在每次降噪操作中动态调整目标神经网络降噪模型的神经网络的层数,有利于提高降噪性能,有利于减少目标神经网络降噪模型的计算算力。
在一个可能的示例中,在所述确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差方面,上述方法还可包括如下步骤:确定所述目标神经网络降噪模型的第一损失函数;分别确定所述第一损失函数上一时间步的第一损失值和当前时间步的第二损失值;分别将所述第一损失值和所述第二损失值作为所述目标神经网络降噪模型上一时间步的所述第一模型误差和当前时间步的所述第二模型误差。
其中,目标神经网络降噪模型包括第一损失函数,第一模型误差为目标神经网络降噪模型的第一损失函数的上一时间步的偏差数值,第二模型误差为目标神经网络降噪模型的第一损失函数的当前时间步的偏差数值。
其中,第一损失函数的公式为,其中n为每帧语音数据采样点,例如:16K采样率下16ms采样点n为256,/>是每帧音频数据神经网络增益系数,/>是预估的每帧音频数据神经网络增益系数。对于每个样本/>,计算真实目标值/>与模型的预测值/>之间的差异,即/>。将这些差异的平方求和,表示为/>。最后,将总和除以采样点个数n,得到损失值,表示为/>。损失值越小,模型的预测值与真实值之间的差异越小,模型的性能越好。
可见,在本示例中,将损失函数的变化值作为评估目标神经网络降噪模型是否需要调整层数的依据,有利于通过调整目标神经网络降噪模型的层数以适应复杂的噪声环境,有利于提高目标神经网络降噪模型的降噪效果。
在一个可能的示例中,在所述控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层之后,上述方法还可包括如下步骤:确定所述第一损失函数连续多个时间步的多个第一数值;分别计算所述多个时间步中相邻两个时间步的两个第一数值之间的差值,得到多个第二数值;若检测到所述多个第二数值中每一所述第二数值都小于或者等于第三预设阈值,则控制所述目标神经网络降噪模型停止增加神经网络层。
其中,目标神经网络降噪模型不能无限制地增加层数,增加到一定层数,目标神经网络降噪模型的降噪性能会出现下降,因而需要引入目标神经网络降噪模型动态增加层数的停止条件,通过监测第一损失函数的连续多个时间步的多个第一数值,计算多个时间步中相邻两个时间步的第一数值之间的差值,得到多个第二数值,当多个第二数值中出现一个第二数值小于或者等于第三预设阈值,说明目标神经网络降噪模型的降噪性能出现短暂且相对的下降,多个第二数值都小于等于第三预设阈值,说明目标神经网络降噪模型降噪性能出现下降,且持续一段时间,则可以说明目标神经网络降噪模型的降噪性能确实存在下降,此时可以控制目标神经网络降噪模型停止增加神经网络层。
其中,第二差值=当前时间步的第一数值-上一时间步的第一数值。
其中,第三预设阈值可以人为设定或者系统默认在此不做限定。
可选地,在控制所述目标神经网络降噪模型以第二速率减少所述第二数量的神经网络层之后,还可包括以下步骤:确定所述第一损失函数连续多个时间步的多个第一数值;分别计算所述多个时间步中相邻两个时间步的两个第一数值之间的差值,得到多个第二数值;若检测到所述多个第二数值中每一所述第二数值都小于或者等于第三预设阈值,则控制所述目标神经网络降噪模型停止减少神经网络层;实现避免目标神经网络降噪模型无限制地减少层数。
可见,在本示例中,通过引入目标神经网络降噪模型动态增加和减少层数的停止条件机制,有利于提高目标神经网络降噪模型的降噪性能。
在一个可能的示例中,在所述控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层之后,上述方法可包括如下步骤:确定所述第一损失函数当前时间步的第三数值和上一时间步的第四数值;计算所述第三数值和所述第四数值之间的差值,得到第五数值;判断所述第五数值是否小于或者等于第四预设阈值;若判断出所述第五数值小于或者等于所述第四预设阈值,则控制所述目标神经网络降噪模型停止增加神经网络层。
其中,为避免目标神经网络降噪模型无限制地增加层数,还可引入目标神经网络降噪模型动态增加层数的另一种停止条件,当目标神经网络降噪模型的降噪性能不再显著增加,可考虑停止增加目标神经网络降噪模型的神经网络层的层数;当第一损失函数当前时间步的第三数值和上一时间步的第四数值差值,即第五数值,小于或者等于第四预设阈值,则认为目标神经网络降噪模型的性能不再显著增加,此时可以控制目标神经网络降噪模型停止增加神经网络层。
可选地,在控制所述目标神经网络降噪模型以第二速率减少所述第二数量的神经网络层之后,还包括以下步骤:确定所述第一损失函数当前时间步的第三数值和上一时间步的第四数值;计算所述第三数值和所述第四数值之间的差值,得到第五数值;判断所述第五数值是否小于或者等于第四预设阈值;若判断出所述第五数值小于或者等于所述第四预设阈值,则控制所述目标神经网络降噪模型停止减少神经网络层;实现避免目标神经网络降噪模型无限制地减少层数。
可见,在本示例中,通过引入目标神经网络降噪模型动态增加和减少层数的停止条件机制,有利于提高目标神经网络降噪模型的降噪性能。
在一个可能的示例中,在所述控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层之后,上述方法还可包括如下步骤:针对所述目标神经网络降噪模型的每一神经网络层执行如下操作:确定当前处理的神经网络层的神经元的节点数和梯度公式,所述梯度公式用于表征所述第一损失函数相对于所述节点数的变化率;将所述节点数带入所述梯度公式,得到目标数值;若检测出所述目标数值为正值,则确定第一节点调整公式;以及将所述目标数值带入所述第一节点调整公式,得到所述当前处理的神经网络层所需增加的神经元的第三数量;控制所述当前处理的神经网络层以第三速率增加所述第三数量的神经元;若检测出所述目标数值为负值,则确定第二节点调整公式;以及将所述目标数值带入所述第二节点调整公式,得到所述当前处理的神经网络层所需减少的神经元的第四数量;控制所述当前处理的神经网络层以第四速率减少所述第四数量的神经元。
其中,梯度公式为,i表示神经网络层的层序号数,/>表示第i层的节点数,梯度公式表示了损失函数关于节点数的变化率,/>是学习率。
其中,若检测出目标数值为正值,则可以增加神经元以降低损失函数;第一节点调整公式为,/>是一个调整因子,/>是第一损失函数的模型参数,用于控制增加神经元节点的速率。
其中,若检测出目标数值为负值,则可以减少神经元以降低损失函数;第二节点调整公式为,/>是另一个调整因子,/>是第一损失函数的模型参数,用于控制减少神经元节点的速率。
其中,调整完神经网络层节点数的目标神经网络降噪模型具备了新的模型结构,可基于新的模型结构和模型参数计算新的模型参数,并根据新的模型结构和新的模型参数进行NN模型计算。
可选地,若检测出所述目标数值为正值,控制所述当前处理的神经网络层以第三速率增加第一预设数量的神经元。以及,若检测出所述目标数值为负值,控制所述当前处理的神经网络层以第四速率减少第二预设数量的神经元。其中,第一预设节点数和第二预设节点数都为预先设定的固定值。
其中,第一预设数量和第二预设数量为人为设定或者系统默认,在此不做限定。
其中。第三速率和第四速率相同或者不同,第三速率和第四速率可人为事先设定。
可见,在本示例中,实现在高噪声强度下,通过增加神经网络层的节点数以提高信号和噪声之间的分离能力,在低噪声强度下,通过减少神经网络层的节点数防止信号和噪声之间的分离能力的过拟合,有利于提高目标神经网络降噪模型的降噪性能。
在一个可能的示例中,在所述控制所述当前处理的神经网络层以第三速率增加所述第三数量的神经元之后,上述方法可包括如下步骤:确定所述当前处理的神经网络层的当前节点数;判断所述当前节点数是否等于第一预设节点数;若判断出所述当前节点数等于所述第一预设节点数,则控制所述当前处理的神经网络层停止增加神经元。
可选地,在控制所述当前处理的神经网络层以第四速率减少所述第四数量的神经元之后,还可包括如下步骤:确定所述当前处理的神经网络层的当前节点数;判断所述当前节点数是否等于第二预设节点数;若判断出所述当前节点数等于所述第二预设节点数,则控制所述当前处理的神经网络层停止减少神经元。
其中,第一预设节点数和第二预设节点数可以人为设定或者系统默认,在此不做限定。
其中,为了确保神经元节点数的自适应调整不会导致过度的节点增加或减少,需要引入节点数的上下限制条件,具体是可设置每一神经网络层的节点数的最大值和最小值,即第一预设节点数和第二预设节点数。
可选地,当损失函数稳定在预设范围内,可以减小最大值,根据第一预设节点数和所需减小的第三预设节点数,得出目标节点数,目标节点数=第一预设节点数-第三预设节点数,进一步,当判断出当前节点数等于目标节点数,则控制当前处理的神经网络层停止增加神经元,实现在保证目标神经网络降噪模型的基础上,降低神经网络层的复杂度,其中,第三预设节点数可以人为设定或者系统默认,在此不做限定。
可见,在本示例中,通过引入目标神经网络降噪模型动态增加和减少节点数的停止条件机制,有利于提高目标神经网络降噪模型的降噪性能。
请参阅图3,图3是本申请实施例提供的一种电子设备的结构示意图,如图3所示,该电子设备包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,上述一个或多个程序被配置由上述处理器执行以下步骤的指令:
确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差;
根据所述第一模型误差和所述第二模型误差,确定模型误差变化值;
若检测出所述模型误差变化值大于第一预设阈值,且所述模型误差变化值为正值,则确定第一层数调整公式;以及,将所述模型误差变化值带入所述第一层数调整公式,得到所述目标神经网络降噪模型所需增加的神经网络层的第一数量;
控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层;
若检测出所述模型误差变化值小于第二预设阈值,且所述模型误差变化值为负值,则确定第二层数调整公式;以及,将所述模型误差变化值带入所述第二层数调整公式,得到所述目标神经网络降噪模型所需减少的神经网络层的第二数量;
控制所述目标神经网络降噪模型以第二速率减少所述第二数量的神经网络层。
可以看出,本申请实施例中,电子设备先确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差,接着,根据第一模型误差和第二模型误差,确定模型误差变化值,再接着若检测出模型误差变化值大于第一预设阈值,且模型误差变化值为正值,则确定第一层数调整公式;以及,将模型误差变化值带入第一层数调整公式,得到目标神经网络降噪模型所需增加的神经网络层的第一数量,进一步,控制目标神经网络降噪模型以第一速率增加第一数量的神经网络层,再接着若检测出模型误差变化值小于第二预设阈值,且模型误差变化值为负值,则确定第二层数调整公式;以及,将模型误差变化值带入第二层数调整公式,得到目标神经网络降噪模型所需减少的神经网络层的第二数量,最后控制目标神经网络降噪模型以第二速率减少第二数量的神经网络层。能够实现实时根据噪声环境和语音信号的复杂性,在每次降噪操作中动态调整目标神经网络降噪模型的神经网络的层数,有利于提高降噪性能。
在一个可能的示例中,在所述确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差方面,上述程序包括用于执行以下步骤的指令:
确定所述目标神经网络降噪模型的第一损失函数;
分别确定所述第一损失函数上一时间步的第一损失值和当前时间步的第二损失值;
分别将所述第一损失值和所述第二损失值作为所述目标神经网络降噪模型上一时间步的所述第一模型误差和当前时间步的所述第二模型误差。
在一个可能的示例中,在所述控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层之后,上述程序包括用于执行以下步骤的指令:
确定所述第一损失函数连续多个时间步的多个第一数值;
分别计算所述多个时间步中相邻两个时间步的两个第一数值之间的差值,得到多个第二数值;
若检测到所述多个第二数值中每一所述第二数值都小于或者等于第三预设阈值,则控制所述目标神经网络降噪模型停止增加神经网络层。
在一个可能的示例中,在所述控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层之后,上述程序包括还用于执行以下步骤的指令:
确定所述第一损失函数当前时间步的第三数值和上一时间步的第四数值;
计算所述第三数值和所述第四数值之间的差值,得到第五数值;
判断所述第五数值是否小于或者等于第四预设阈值;
若判断出所述第五数值小于或者等于所述第四预设阈值,则控制所述目标神经网络降噪模型停止增加神经网络层。
在一个可能的示例中,在所述控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层之后,上述程序包括还用于执行以下步骤的指令:
针对所述目标神经网络降噪模型的每一神经网络层执行如下操作:
确定当前处理的神经网络层的神经元的节点数和梯度公式,所述梯度公式用于表征所述第一损失函数相对于所述节点数的变化率;
将所述节点数带入所述梯度公式,得到目标数值;
若检测出所述目标数值为正值,则确定第一节点调整公式;以及将所述目标数值带入所述第一节点调整公式,得到所述当前处理的神经网络层所需增加的神经元的第三数量;
控制所述当前处理的神经网络层以第三速率增加所述第三数量的神经元;
若检测出所述目标数值为负值,则确定第二节点调整公式;以及将所述目标数值带入所述第二节点调整公式,得到所述当前处理的神经网络层所需减少的神经元的第四数量;
控制所述当前处理的神经网络层以第四速率减少所述第四数量的神经元。
在一个可能的示例中,在所述控制所述当前处理的神经网络层以第三速率增加所述第三数量的神经元之后,上述程序包括还用于执行以下步骤的指令:
确定所述当前处理的神经网络层的当前节点数;
判断所述当前节点数是否等于第一预设节点数;
若判断出所述当前节点数等于所述第一预设节点数,则控制所述当前处理的神经网络层停止增加神经元。
在一个可能的示例中,在所述确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差之前,上述程序包括还用于执行以下步骤的指令:
获取音频信号;
将所述音频信号输入到训练好的预设噪声分类模型中,得到噪声分类结果。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图4是本申请实施例提供的一种自适应神经网络的降噪装置的功能单元组成框图,如图4所示,所述自适应神经网络的降噪装置,包括:确定单元401、处理单元402和控制单元403,其中,
所述确定单元401,用于确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差;
所述确定单元401,还用于根据所述第一模型误差和所述第二模型误差,确定模型误差变化值;
所述处理单元402,用于若检测出所述模型误差变化值大于第一预设阈值,且所述模型误差变化值为正值,则确定第一层数调整公式;以及,将所述模型误差变化值带入所述第一层数调整公式,得到所述目标神经网络降噪模型所需增加的神经网络层的第一数量;
所述控制单元403,用于控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层;
所述处理单元402,还用于若检测出所述模型误差变化值小于第二预设阈值,且所述模型误差变化值为负值,则确定第二层数调整公式;以及,将所述模型误差变化值带入所述第二层数调整公式,得到所述目标神经网络降噪模型所需减少的神经网络层的第二数量;
所述控制单元403,还用于控制所述目标神经网络降噪模型以第二速率减少所述第二数量的神经网络层。
可以看出,本申请实施例描述的自适应神经网络的降噪装置,可先确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差,接着,根据第一模型误差和第二模型误差,确定模型误差变化值,再接着若检测出模型误差变化值大于第一预设阈值,且模型误差变化值为正值,则确定第一层数调整公式;以及,将模型误差变化值带入第一层数调整公式,得到目标神经网络降噪模型所需增加的神经网络层的第一数量,进一步,控制目标神经网络降噪模型以第一速率增加第一数量的神经网络层,再接着若检测出模型误差变化值小于第二预设阈值,且模型误差变化值为负值,则确定第二层数调整公式;以及,将模型误差变化值带入第二层数调整公式,得到目标神经网络降噪模型所需减少的神经网络层的第二数量,最后控制目标神经网络降噪模型以第二速率减少第二数量的神经网络层。能够实现实时根据噪声环境和语音信号的复杂性,在每次降噪操作中动态调整目标神经网络降噪模型的神经网络的层数,有利于提高降噪性能。
在一个可能的示例中,在所述确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差方面,所述确定单元401具体用于:
确定所述目标神经网络降噪模型的第一损失函数;
分别确定所述第一损失函数上一时间步的第一损失值和当前时间步的第二损失值;
分别将所述第一损失值和所述第二损失值作为所述目标神经网络降噪模型上一时间步的所述第一模型误差和当前时间步的所述第二模型误差。
在一个可能的示例中,在所述控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层之后,控制单元403具体用于:
确定所述第一损失函数连续多个时间步的多个第一数值;
分别计算所述多个时间步中相邻两个时间步的两个第一数值之间的差值,得到多个第二数值;
若检测到所述多个第二数值中每一所述第二数值都小于或者等于第三预设阈值,则控制所述目标神经网络降噪模型停止增加神经网络层。
在一个可能的示例中,在所述控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层之后,所述控制单元403具体用于:
确定所述第一损失函数当前时间步的第三数值和上一时间步的第四数值;
计算所述第三数值和所述第四数值之间的差值,得到第五数值;
判断所述第五数值是否小于或者等于第四预设阈值;
若判断出所述第五数值小于或者等于所述第四预设阈值,则控制所述目标神经网络降噪模型停止增加神经网络层。
在一个可能的示例中,在所述控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层之后,所述控制单元403具体用于:
针对所述目标神经网络降噪模型的每一神经网络层执行如下操作:
确定当前处理的神经网络层的神经元的节点数和梯度公式,所述梯度公式用于表征所述第一损失函数相对于所述节点数的变化率;
将所述节点数带入所述梯度公式,得到目标数值;
若检测出所述目标数值为正值,则确定第一节点调整公式;以及将所述目标数值带入所述第一节点调整公式,得到所述当前处理的神经网络层所需增加的神经元的第三数量;
控制所述当前处理的神经网络层以第三速率增加所述第三数量的神经元;
若检测出所述目标数值为负值,则确定第二节点调整公式;以及将所述目标数值带入所述第二节点调整公式,得到所述当前处理的神经网络层所需减少的神经元的第四数量;
控制所述当前处理的神经网络层以第四速率减少所述第四数量的神经元。
在一个可能的示例中,在所述控制所述当前处理的神经网络层以第三速率增加所述第三数量的神经元之后,所述控制单元403具体用于:
确定所述当前处理的神经网络层的当前节点数;
判断所述当前节点数是否等于第一预设节点数;
若判断出所述当前节点数等于所述第一预设节点数,则控制所述当前处理的神经网络层停止增加神经元。
在一个可能的示例中,在所述确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差之前,所述处理单元402还具体用于:
获取音频信号;
将所述音频信号输入到训练好的预设噪声分类模型中,得到噪声分类结果。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本实施例提供的电子设备,用于执行上述自适应神经网络的降噪方法,因此可以达到与上述实现方法相同的效果。
在采用集成的单元的情况下,电子设备可以包括处理模块、存储模块和通信模块。其中,处理模块可以用于对电子设备的动作进行控制管理,例如,可以用于支持电子设备执行上述功能单元执行的步骤。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块,可以用于支持电子设备与其他设备的通信。
其中,处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理(digital signal processing,DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括控制平台。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器、随机存取器、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (9)
1.一种自适应神经网络的降噪方法,其特征在于,包括:
确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差;
根据所述第一模型误差和所述第二模型误差,确定模型误差变化值;
若检测出所述模型误差变化值大于第一预设阈值,且所述模型误差变化值为正值,则确定第一层数调整公式;以及,将所述模型误差变化值带入所述第一层数调整公式,得到所述目标神经网络降噪模型所需增加的神经网络层的第一数量,所述第一层数调整公式表示为,/>和/>分别是第一调整因子和第二调整因子,所述第一调整因子和所述第二调整因子用于控制所述目标神经网络降噪模型增加神经网络层数的速率,/>为所述目标神经网络降噪模型所需增加的神经网络层的数量,/>为所述模型误差变化值;
控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层;
若检测出所述模型误差变化值小于第二预设阈值,且所述模型误差变化值为负值,则确定第二层数调整公式;以及,将所述模型误差变化值带入所述第二层数调整公式,得到所述目标神经网络降噪模型所需减少的神经网络层的第二数量,所述第二层数调整公式表示为,/>和/>分别是第三调整因子和第四调整因子,所述第三调整因子和所述第四调整因子用于控制所述目标神经网络降噪模型减少神经网络层数的速率,/>为所述目标神经网络降噪模型所需减少的神经网络层的数量;
控制所述目标神经网络降噪模型以第二速率减少所述第二数量的神经网络层;
所述确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差,包括:确定所述目标神经网络降噪模型的第一损失函数,所述第一损失函数的公式表示为,n为每帧音频数据采样点,/>是每帧音频数据神经网络增益系数,/>是所述目标神经网络降噪模型预测出的每帧音频数据神经网络增益系数;分别确定所述第一损失函数上一时间步的第一损失值和当前时间步的第二损失值;分别将所述第一损失值和所述第二损失值作为所述目标神经网络降噪模型上一时间步的所述第一模型误差和当前时间步的所述第二模型误差。
2.根据权利要求1所述的方法,其特征在于,在所述控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层之后,所述方法还包括:
确定所述第一损失函数连续多个时间步的多个第一数值;
分别计算所述多个时间步中相邻两个时间步的两个第一数值之间的差值,得到多个第二数值;
若检测到所述多个第二数值中每一所述第二数值都小于或者等于第三预设阈值,则控制所述目标神经网络降噪模型停止增加神经网络层。
3.根据权利要求1所述的方法,其特征在于,在所述控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层之后,所述方法还包括:
确定所述第一损失函数当前时间步的第三数值和上一时间步的第四数值;
计算所述第三数值和所述第四数值之间的差值,得到第五数值;
判断所述第五数值是否小于或者等于第四预设阈值;
若判断出所述第五数值小于或者等于所述第四预设阈值,则控制所述目标神经网络降噪模型停止增加神经网络层。
4.根据权利要求1所述的方法,其特征在于,在所述控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层之后,所述方法还包括:
针对所述目标神经网络降噪模型的每一神经网络层执行如下操作:
确定当前处理的神经网络层的神经元的节点数和梯度公式;
将所述节点数带入所述梯度公式,得到目标数值;
若检测出所述目标数值为正值,则确定第一节点调整公式;以及将所述目标数值带入所述第一节点调整公式,得到所述当前处理的神经网络层所需增加的神经元的第三数量;
控制所述当前处理的神经网络层以第三速率增加所述第三数量的神经元;
若检测出所述目标数值为负值,则确定第二节点调整公式;以及将所述目标数值带入所述第二节点调整公式,得到所述当前处理的神经网络层所需减少的神经元的第四数量;
控制所述当前处理的神经网络层以第四速率减少所述第四数量的神经元。
5.根据权利要求4所述的方法,其特征在于,在所述控制所述当前处理的神经网络层以第三速率增加所述第三数量的神经元之后,所述方法还包括:
确定所述当前处理的神经网络层的当前节点数;
判断所述当前节点数是否等于第一预设节点数;
若判断出所述当前节点数等于所述第一预设节点数,则控制所述当前处理的神经网络层停止增加神经元。
6.根据权利要求1所述的方法,其特征在于,在所述确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差之前,所述方法还包括:
获取音频信号;
将所述音频信号输入到训练好的预设噪声分类模型中,得到噪声分类结果。
7.一种自适应神经网络的降噪装置,其特征在于,所述自适应神经网络的降噪装置,包括:确定单元、处理单元和控制单元,其中,
所述确定单元,用于确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差,其中,所述确定目标神经网络降噪模型上一时间步的第一模型误差和当前时间步的第二模型误差,包括:确定所述目标神经网络降噪模型的第一损失函数,所述第一损失函数的公式表示为,n为每帧音频数据采样点,/>是每帧音频数据神经网络增益系数,/>是所述目标神经网络降噪模型预测出的每帧音频数据神经网络增益系数;分别确定所述第一损失函数上一时间步的第一损失值和当前时间步的第二损失值;分别将所述第一损失值和所述第二损失值作为所述目标神经网络降噪模型上一时间步的所述第一模型误差和当前时间步的所述第二模型误差;
所述确定单元,还用于根据所述第一模型误差和所述第二模型误差,确定模型误差变化值;
所述处理单元,用于若检测出所述模型误差变化值大于第一预设阈值,且所述模型误差变化值为正值,则确定第一层数调整公式;以及,将所述模型误差变化值带入所述第一层数调整公式,得到所述目标神经网络降噪模型所需增加的神经网络层的第一数量,所述第一层数调整公式表示为,/>和/>分别是第一调整因子和第二调整因子,所述第一调整因子和所述第二调整因子用于控制所述目标神经网络降噪模型增加神经网络层数的速率,/>为所述目标神经网络降噪模型所需增加的神经网络层的数量,/>为所述模型误差变化值;
所述控制单元,用于控制所述目标神经网络降噪模型以第一速率增加所述第一数量的神经网络层;
所述处理单元,还用于若检测出所述模型误差变化值小于第二预设阈值,且所述模型误差变化值为负值,则确定第二层数调整公式;以及,将所述模型误差变化值带入所述第二层数调整公式,得到所述目标神经网络降噪模型所需减少的神经网络层的第二数量,所述第二层数调整公式表示为,/>和/>分别是第三调整因子和第四调整因子,所述第三调整因子和所述第四调整因子用于控制所述目标神经网络降噪模型减少神经网络层数的速率,/>为所述目标神经网络降噪模型所需减少的神经网络层的数量;
所述控制单元,还用于控制所述目标神经网络降噪模型以第二速率减少所述第二数量的神经网络层。
8.一种电子设备,其特征在于,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-6任一项所述的方法中的步骤的指令。
9.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311533329.XA CN117275499B (zh) | 2023-11-17 | 2023-11-17 | 自适应神经网络的降噪方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311533329.XA CN117275499B (zh) | 2023-11-17 | 2023-11-17 | 自适应神经网络的降噪方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117275499A CN117275499A (zh) | 2023-12-22 |
CN117275499B true CN117275499B (zh) | 2024-02-02 |
Family
ID=89206589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311533329.XA Active CN117275499B (zh) | 2023-11-17 | 2023-11-17 | 自适应神经网络的降噪方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117275499B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104914851A (zh) * | 2015-05-21 | 2015-09-16 | 北京航空航天大学 | 一种基于深度学习的飞机旋转作动器驱动装置自适应故障检测方法 |
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
CN110444214A (zh) * | 2017-11-24 | 2019-11-12 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN110738984A (zh) * | 2019-05-13 | 2020-01-31 | 苏州闪驰数控系统集成有限公司 | 人工智能cnn、lstm神经网络语音识别系统 |
CN111899750A (zh) * | 2020-07-29 | 2020-11-06 | 哈尔滨理工大学 | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 |
CN113129919A (zh) * | 2021-04-17 | 2021-07-16 | 上海麦图信息科技有限公司 | 一种基于深度学习的空中管制语音降噪方法 |
CN114005458A (zh) * | 2021-11-22 | 2022-02-01 | 中国电子科技集团公司信息科学研究院 | 基于流水线架构的语音降噪方法、系统及存储介质 |
CN114550675A (zh) * | 2022-03-01 | 2022-05-27 | 哈尔滨理工大学 | 一种基于CNN--Bi-LSTM网络的钢琴转录方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10949736B2 (en) * | 2016-11-03 | 2021-03-16 | Intel Corporation | Flexible neural network accelerator and methods therefor |
KR102410820B1 (ko) * | 2017-08-14 | 2022-06-20 | 삼성전자주식회사 | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 |
-
2023
- 2023-11-17 CN CN202311533329.XA patent/CN117275499B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104914851A (zh) * | 2015-05-21 | 2015-09-16 | 北京航空航天大学 | 一种基于深度学习的飞机旋转作动器驱动装置自适应故障检测方法 |
CN110444214A (zh) * | 2017-11-24 | 2019-11-12 | 深圳市腾讯计算机系统有限公司 | 语音信号处理模型训练方法、装置、电子设备及存储介质 |
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
CN110738984A (zh) * | 2019-05-13 | 2020-01-31 | 苏州闪驰数控系统集成有限公司 | 人工智能cnn、lstm神经网络语音识别系统 |
CN111899750A (zh) * | 2020-07-29 | 2020-11-06 | 哈尔滨理工大学 | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 |
CN113129919A (zh) * | 2021-04-17 | 2021-07-16 | 上海麦图信息科技有限公司 | 一种基于深度学习的空中管制语音降噪方法 |
CN114005458A (zh) * | 2021-11-22 | 2022-02-01 | 中国电子科技集团公司信息科学研究院 | 基于流水线架构的语音降噪方法、系统及存储介质 |
CN114550675A (zh) * | 2022-03-01 | 2022-05-27 | 哈尔滨理工大学 | 一种基于CNN--Bi-LSTM网络的钢琴转录方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117275499A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3806089B1 (en) | Mixed speech recognition method and apparatus, and computer readable storage medium | |
WO2021139327A1 (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
EP3479377B1 (en) | Speech recognition | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN110176226A (zh) | 一种语音识别、及语音识别模型训练方法及装置 | |
US10679617B2 (en) | Voice enhancement in audio signals through modified generalized eigenvalue beamformer | |
US8428946B1 (en) | System and method for multi-channel multi-feature speech/noise classification for noise suppression | |
CN106653047A (zh) | 一种音频数据的自动增益控制方法与装置 | |
CN107734126A (zh) | 语音调节方法、装置、终端及存储介质 | |
CA2869884C (en) | A processing apparatus and method for estimating a noise amplitude spectrum of noise included in a sound signal | |
CN107682561A (zh) | 音量调节方法、装置、终端及存储介质 | |
CN110930987B (zh) | 音频处理方法、装置和存储介质 | |
CN111540342A (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN111341351B (zh) | 基于自注意力机制的语音活动检测方法、装置及存储介质 | |
CN110895930B (zh) | 语音识别方法及装置 | |
CN111048118A (zh) | 一种语音信号处理方法、装置及终端 | |
CN117275499B (zh) | 自适应神经网络的降噪方法及相关装置 | |
CN112289337B (zh) | 一种滤除机器学习语音增强后的残留噪声的方法及装置 | |
EP2660814B1 (en) | Adaptive equalization system | |
CN107533849A (zh) | 基于麦克风音频信号来处理输入耳机音频信号的音频信号处理装置 | |
CN113314134B (zh) | 一种骨传导信号补偿方法及装置 | |
CN109150344A (zh) | 一种卫星通信中成对载波多址快速频谱感知方法 | |
CN113611319A (zh) | 基于语音成分实现的风噪抑制方法、装置、设备及系统 | |
CN116612760B (zh) | 音频信号处理方法、装置和电子设备 | |
CN113409812B (zh) | 一种语音降噪训练数据的处理方法及其装置、训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |