CN113077806B - 音频处理方法及装置、模型训练方法及装置、介质和设备 - Google Patents

音频处理方法及装置、模型训练方法及装置、介质和设备 Download PDF

Info

Publication number
CN113077806B
CN113077806B CN202110309926.9A CN202110309926A CN113077806B CN 113077806 B CN113077806 B CN 113077806B CN 202110309926 A CN202110309926 A CN 202110309926A CN 113077806 B CN113077806 B CN 113077806B
Authority
CN
China
Prior art keywords
audio
frequency band
frequency
extended
gain value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110309926.9A
Other languages
English (en)
Other versions
CN113077806A (zh
Inventor
成帅
陈功
陈丽
郝一亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Zhiqi Technology Co Ltd
Original Assignee
Hangzhou Netease Zhiqi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Zhiqi Technology Co Ltd filed Critical Hangzhou Netease Zhiqi Technology Co Ltd
Priority to CN202110309926.9A priority Critical patent/CN113077806B/zh
Publication of CN113077806A publication Critical patent/CN113077806A/zh
Application granted granted Critical
Publication of CN113077806B publication Critical patent/CN113077806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明的实施方式提供了一种音频处理方法及装置、音频处理模型训练方法及装置、存储介质和电子设备。该音频处理方法包括:提取音频信号中的扩展巴克刻度倒谱系数和谐波相关性系数;将所述扩展巴克刻度倒谱系数和所述谐波相关性系数输入预设音频处理模型中,得到扩展巴克刻度频带增益值;根据所述扩展巴克刻度频带增益值,获取处理后频带增益值;根据所述处理后频带增益值与所述音频信号的频谱幅值,获得所述音频信号对应的处理后信号。本发明实施例的技术方案可以实现实时音频降噪。

Description

音频处理方法及装置、模型训练方法及装置、介质和设备
技术领域
本发明的实施方式涉及信息处理领域,更具体地,本发明的实施方式涉及音频处理方法及装置、音频处理模型训练方法及装置、存储介质电子设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在实时语音通信中,语音信号不可避免地受到各种环境噪声的干扰,例如,办公室键盘敲击声、餐厅的嘈杂声等。因此,对语音信号进行降噪处理是改善语音质量,提高语音信息可懂度的前提。
近年来基于深度学习的降噪技术得到了广泛关注,其主要利用深度学习强大的非线性建模能力,不依赖特定的假设,能够获得超越传统方法的良好降噪性能。
发明内容
但是,在现有技术中,基于深度学习的模型结构复杂度较高,占用大量的资源,无法实现实时音频降噪。
为此,非常需要一种新的音频处理方法,以实现基于深度学习的实时音频降噪。
在本上下文中,本发明的实施方式期望提供一种音频处理方法及装置、音频处理模型训练方法及装置、存储介质和电子设备。
在本发明实施方式的第一方面中,提供了一种音频处理方法,包括:
提取音频信号中的扩展巴克刻度倒谱系数和谐波相关性系数;
将所述扩展巴克刻度倒谱系数和所述谐波相关性系数输入预设音频处理模型中,得到扩展巴克刻度频带增益值;
根据所述扩展巴克刻度频带增益值,获取处理后频带增益值;
根据所述处理后频带增益值与所述音频信号的频谱幅值,获得所述音频信号对应的处理后信号。
在本发明的一些实施例中,提取音频信号中的扩展巴克刻度倒谱系数包括:
获取所述音频信号的音频频谱,将所述音频频谱划分为多个频段;
将每个所述频段划分为多个扩展巴克刻度频带值;
对多个所述扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维所述扩展巴克刻度倒谱系数。
在本发明的一些实施例中,提取音频信号中的谐波相关性系数包括:
获取所述音频信号的音频频谱,对当前帧所述音频频谱进行帧移,得到多帧子音频频谱;
将多帧所述子音频频谱与前预设帧所述子音频频谱分别进行幅值相乘,获得多个所述谐波相关性系数。
在本发明的一些实施例中,获取所述音频信号的音频频谱包括:
对所述音频信号进行分帧加窗得到多帧子音频信号,对所述子音频信号进行快速傅里叶变换,得到相应的所述音频频谱。
在本发明的一些实施例中,根据所述处理后频带增益值与所述音频信号的频谱幅值,获得所述音频信号对应的处理后信号包括:
将所述处理后频带增益值与所述音频信号的频谱幅值相乘,并结合所述音频信号的相位,获得所述音频信号对应的处理后音频频谱;
对所述处理后音频频谱进行快速傅里叶逆变换,得到所述处理后信号。
在本发明的一些实施例中,根据所述扩展巴克刻度频带增益值,获取处理后频带增益值包括:
对所述扩展巴克刻度频带增益值进行增益插值,获得所述处理后频带增益值。
在本发明实施方式的第二方面中,提供了一种音频处理装置,包括:
特征提取模块,用于提取音频信号中的扩展巴克刻度倒谱系数和谐波相关性系数;
增益获取模块,用于将所述扩展巴克刻度倒谱系数和所述谐波相关性系数输入预设音频处理模型中,得到扩展巴克刻度频带增益值;
增益处理模块,用于根据所述扩展巴克刻度频带增益值,获取处理后频带增益值;
音频获取模块,用于根据所述处理后频带增益值与所述音频信号的频谱幅值,获得所述音频信号对应的处理后信号。
在本发明的一些实施例中,所述特征提取模块用于,获取所述音频信号的音频频谱,将所述音频频谱划分为多个频段;将每个所述频段划分为多个扩展巴克刻度频带值;对多个所述扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维所述扩展巴克刻度倒谱系数。
在本发明的一些实施例中,所述特征提取模块用于,获取所述音频信号的音频频谱,对当前帧所述音频频谱进行频移,得到多个子音频频谱;将多个所述子音频频谱与前一帧所述音频频谱分别进行幅值相乘,获得多个所述谐波相关性系数。
在本发明的一些实施例中,所述特征提取模块用于,对所述音频信号进行分帧加窗得到多帧子音频信号,对所述子音频信号进行快速傅里叶变换,得到相应的所述音频频谱。
在本发明的一些实施例中,所述音频获取模块用于,将所述处理后频带增益值与所述音频信号的频谱幅值相乘,并结合所述音频信号的相位,获得所述音频信号对应的处理后音频频谱;对所述处理后音频频谱进行快速傅里叶逆变换,得到所述处理后信号。
在本发明的一些实施例中,所述增益处理模块用于,对所述扩展巴克刻度频带增益值进行增益插值,获得所述处理后频带增益值。
在本发明实施方式的第三方面中,提供了一种音频处理模型训练方法,包括:
确定预设循环神经网络;
分别提取带噪音频数据的音频特征和纯净音频数据的音频特征;
根据所述带噪音频数据的音频特征和所述纯净音频数据的音频特征,计算实际频带增益值;
将所述带噪音频数据的音频特征和所述纯净音频数据的音频特征输入所述预设循环神经网络中,获取预测频带增益值;
根据损失函数计算所述实际频带增益值和所述预测频带增益值的误差值,根据所述误差值优化所述预设循环神经网络,得到预设音频处理模型;
其中,所述音频特征包括扩展巴克刻度倒谱系数和谐波相关性系数。
在本发明的一些实施例中,提取带噪音频数据的扩展巴克刻度倒谱系数包括:
获取所述带噪音频的带噪音频频谱,将所述带噪音频频谱划分为多个频段;
将每个所述频段划分为多个扩展巴克刻度频带值;
对多个所述扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维所述带噪音频数据的扩展巴克刻度倒谱系数。
在本发明的一些实施例中,提取带噪音频数据的谐波相关性系数包括:
获取所述带噪音频的带噪音频频谱,对当前帧所述带噪音频频谱进行频移,得到多个子带噪音频频谱;
将多个所述子带噪音频频谱与前一帧所述子带噪音频频谱分别进行幅值相乘,获得多个所述带噪音频数据的谐波相关性系数。
在本发明的一些实施例中,获取所述带噪音频的带噪音频频谱包括:
对所述带噪音频进行分帧加窗得到多帧子带噪音频信号,对所述子带噪音频信号进行快速傅里叶变换,得到相应的所述带噪音频频谱。
在本发明的一些实施例中,提取纯净音频数据的扩展巴克刻度倒谱系数包括:
获取所述纯净音频的纯净音频频谱,将所述纯净音频频谱划分为多个频段;
将每个所述频段划分为多个扩展巴克刻度频带值;
对多个所述扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维所述纯净音频数据的扩展巴克刻度倒谱系数。
在本发明的一些实施例中,提取纯净音频数据的谐波相关性系数包括:
获取所述纯净音频的纯净音频频谱,对当前帧所述纯净音频频谱进行频移,得到多个子纯净音频频谱;
将多个所述子纯净音频频谱与前一帧所述子纯净音频频谱分别进行幅值相乘,获得多个所述纯净音频数据的谐波相关性系数。
在本发明的一些实施例中,获取所述纯净音频的纯净音频频谱包括:
对所述纯净音频进行分帧加窗得到多帧子纯净音频信号,对所述子纯净音频信号进行快速傅里叶变换,得到相应的所述纯净音频频谱。
在本发明的一些实施例中,根据所述误差值优化所述预设循环神经网络,得到预设音频处理模型包括:
根据所述误差值,通过反向传播更新所述预设循环神经网络的权重,直至满足预设误差范围时,将所述预设循环神经网络确定为所述预设音频处理模型。
在本发明的一些实施例中,所述损失函数的计算公式为:
其中,ρ为权重;α代表求均方次数,α0=2;gk为实际频带增益值,为预测频带增益值。
在本发明的一些实施例中,确定预设循环神经网络包括:
确定所述预设循环神经网络包括:多层全连接层、多层卷积层和多层GRU层。
在本发明实施方式的第四方面中,提供了一种音频处理模型训练装置,包括:
模型确定模块,用于确定预设循环神经网络;
特征提取模块,用于分别提取带噪音频数据的音频特征和纯净音频数据的音频特征;
实际增益确定模块,用于根据所述带噪音频数据的音频特征和所述纯净音频数据的音频特征,计算实际频带增益值;
预测增益确定模块,用于将所述带噪音频数据的音频特征和所述纯净音频数据的音频特征输入所述预设循环神经网络中,获取预测频带增益值;
模型优化模块,用于根据损失函数计算所述实际频带增益值和所述预测频带增益值的误差值,根据所述误差值优化所述预设循环神经网络,得到预设音频处理模型;
其中,所述音频特征包括扩展巴克刻度倒谱系数和谐波相关性系数。
在本发明的一些实施例中,所述特征提取模块用于,获取所述带噪音频的带噪音频频谱,将所述带噪音频频谱划分为多个频段;将每个所述频段划分为多个扩展巴克刻度频带值;对多个所述扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维所述带噪音频数据的扩展巴克刻度倒谱系数。
在本发明的一些实施例中,所述特征提取模块用于,获取所述带噪音频的带噪音频频谱,对当前帧所述带噪音频频谱进行频移,得到多个子带噪音频频谱;将多个所述子带噪音频频谱与前一帧所述子带噪音频频谱分别进行幅值相乘,获得多个所述带噪音频数据的谐波相关性系数。
在本发明的一些实施例中,所述特征提取模块用于,对所述带噪音频进行分帧加窗得到多帧子带噪音频信号,对所述子带噪音频信号进行快速傅里叶变换,得到相应的所述带噪音频频谱。
在本发明的一些实施例中,所述特征提取模块用于,获取所述纯净音频的纯净音频频谱,将所述纯净音频频谱划分为多个频段;将每个所述频段划分为多个扩展巴克刻度频带值;对多个所述扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维所述纯净音频数据的扩展巴克刻度倒谱系数。
在本发明的一些实施例中,所述特征提取模块用于,获取所述纯净音频的纯净音频频谱,对当前帧所述纯净音频频谱进行频移,得到多个子纯净音频频谱;将多个所述子纯净音频频谱与前一帧所述子纯净音频频谱分别进行幅值相乘,获得多个所述纯净音频数据的谐波相关性系数。
在本发明的一些实施例中,所述特征提取模块用于,对所述纯净音频进行分帧加窗得到多帧子纯净音频信号,对所述子纯净音频信号进行快速傅里叶变换,得到相应的所述纯净音频频谱。
在本发明的一些实施例中,所述模型优化模块用于,根据所述误差值,通过反向传播更新所述预设循环神经网络的权重,直至满足预设误差范围时,将所述预设循环神经网络确定为所述预设音频处理模型。
在本发明的一些实施例中.所述损失函数的计算公式为:
其中,ρ为权重;α代表求均方次数,α0=2;gk为实际频带增益值,为预测频带增益值。
在本发明的一些实施例中,所述模型确定模块用于,确定所述预设循环神经网络包括:多层全连接层、多层卷积层和多层GRU层。
在本发明实施方式的第五方面中,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一实施例所述的音频处理方法,或实现上述任意一实施例所述的音频处理模型训练方法。
在本发明实施方式的第六方面中,提供了一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一实施例所述的音频处理方法,或实现上述任意一实施例所述的音频处理模型训练方法。
根据本发明实施方式的音频处理方法及装置、音频处理模型训练方法及装置、存储介质和电子设备,一方面,通过获取音频信号的音频频谱,并对音频频谱进行扩展巴克刻度划分,以简化音频频谱信息,减小输入到预设音频处理模型中的参数量,从而为预设音频处理模型的减小提供了基础,也降低了模型计算的复杂度,进而可以实现实时音频降噪的功能。另一方面,通过获取音频信号中的谐波相关性系数,并输入预设音频处理模型中,可以为噪声的分离提供谐波信息,有助于消除键盘敲击声等瞬态噪声,从而达到更好的降噪效果。再一方面,本发明示例性实施方式所使用的扩展巴克刻度划分方式是对现有的巴克刻度划分进行了细化,从而在减小输入参数量的情况下,丰富了音频频谱特征提取的参数,以便获取更多的特征信息,进而提高了最终处理结果的精度和准确度。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性示出了根据本发明的示例性实施方式的音频处理方法的流程图;
图2示意性示出了根据本发明的示例性实施方式的一种带噪语音波形图;
图3示意性示出了根据本发明的示例性实施方式的一种对图2中的带噪语音处理后的干净语音信号波形图;
图4示意性示出了根据本发明的示例性实施方式的一种带噪音频信号的波形图;
图5示意性示出了图4的带噪音频信号经过本发明的示例性实施方式进行降噪处理后获得的处理后信号的波形图;
图6示意性示出了根据本发明的示例性实施方式的音频处理装置的方框图;
图7示意性地示出了根据本发明的示例性实施方式的音频处理模型训练方法的流程图。
图8示意性地示出了根据本发明的示例性实施方式的音频处理模型训练阶段的结构示意图。
图9示意性示出了根据本发明的示例性实施方式的音频处理模型训练装置的方框图;
图10示意性示出了根据本发明的示例性实施方式的电子设备的方框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种音频处理方法及装置、音频处理模型训练方法及装置。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,现有技术中,基于深度学习的降噪技术往往模型较大、计算负责度较高,导致无法实现实时音频降噪。
基于上述内容,本发明的基本思想在于:在深度学习模型特征提取过程中,仅使用当前时间帧语音信号作为输入,从而实现音频降噪的实时处理技术。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
示例性方法一
下面参考图1来描述根据本发明示例性实施方式的音频处理方法。
图1示意性地示出了根据本发明的示例性实施方式的音频处理方法的流程图。参考图1,根据本发明的示例性实施方式的音频处理方法可以包括以下步骤:
S12.提取音频信号中的扩展巴克刻度倒谱系数和谐波相关性系数。
音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。语音信号是音频信号的一种,人们之间的实时通信中所采集和传递的信号就是语音信号。
音频信号不可避免地受到各种环境噪声的干扰,特别在语音通信中,噪声会影响传输语音的质量与可懂度,使听者感到厌烦。因此,基于语音降噪的音频处理成为语音信号前处理的重要模块之一。
依据采集语音时麦克风数量的不同,语音降噪技术可分为单通道语音降噪与多通道语音降噪。其中单通道语音降噪技术对单个麦克风采集的信号进行处理,由于缺少信号的空间信息,相较于多通道语音降噪更为困难。然而单通道语音降噪所使用的硬件成本低,应用更为广泛,本发明主要侧重于单通道语音降噪。
语音降噪旨在尽可能地从带噪语音信号中恢复出干净语音信号,例如,参照图2示出了一种带噪语音波形图,参照图3示出了对图2中的带噪语音处理后的干净语音信号波形图。干净语音信号在保留关键信息后,去除了带噪语音信号中的噪音。
在实际的语音降噪处理过程中,所采用的技术包括传统方法和深度学习方法。其中,经典的传统语音降噪方法有谱减法、维纳滤波、基于统计模型的方法等,这类方法具有小计算复杂度、低延迟等优势,但其通常基于语音特性、噪声特性、以及语音与噪声相关性做出一些特定的假设与简化,从而限制了降噪性能,对于平稳噪声可以较好地消除,但是难以适应复杂多变的真实噪声环境,特别是瞬态噪声;并且传统语音降噪方法处理后一定程度上会产生较多噪声残留,导致主观听感变差且影响语音可懂度。
本发明的示例性实施方式的音频处理方法采用的是基于深度学习的语音降噪处理方法,在利用深度学习强大的非线性建模能力的基础上,不依赖一些特定的假设,因此,更加符合实际复杂的噪声环境。
在本发明的示例性实施方式中,用于输入深度学习模型的特征是由扩展巴克刻度倒谱系数和谐波相关性系数组成的多维特征。具体的获取上述多维特征的过程包括:
在获取到音频信号后,需要先获取该音频信号的音频频谱,具体的获取音频频谱的过程包括:对该音频信号进行分帧加窗得到多种子音频信号,再对子音频信号进行快速傅里叶变换,以得到相应的音频频谱。通过将时域信号转换为时频域信号后,语音降噪过程转换从带噪音频频谱中恢复出干净语音频谱。
对于采样率为16k的带噪音频信号,如果一帧语音采样点数为320,经过快速傅里叶变换后得到160个频率值。为了避免产生大量输出,以及避免使用大量神经元,一般不直接使用采样数据或频谱,而是使用基于巴克刻度划分的频率带,这种频率刻度符合人类感知声音的方式,低频分辨率高,高频分辨率低,和线性频率对应关系近似对数关系。通过巴克刻度划分,对于16k采样率的20ms的音频信号总共会有18个频段,而不是160个频谱值或320采样点,使得所获得的特征大大减小。
然而,基于上述巴克刻度划分的频率带的分辨率较低,不利于抑制语音谐波之间的噪声。
基于此,在本发明的示例性实施方式中,在获取到音频频谱之后,可以将音频频谱划分为多个频段,将每个频段划分为多个扩展巴克刻度频带值;对多个扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维扩展巴克刻度倒谱系数。也就是说,本发明的示例性实施方式采用扩展巴克刻度划分的方式,细化了巴克刻度划分,以得到更多的扩展巴克刻度频带。
作为一种示例,本发明示例性实施方式中,将0-1600Hz的频段划分为16个扩展巴克刻度频带值;将1600-3200Hz的频段划分为8个扩展巴克刻度频带值;将3200-5600Hz的频段划分为6个扩展巴克刻度频带值;
将5600-8000Hz的频段划分为4个扩展巴克刻度频带值;最终,结合0-8000Hz频段的边界值,获得35个扩展巴克刻度频带值。再对该35个扩展巴克刻度频带值取对数,并进行离散余弦变换以对上述扩展巴克刻度频带值去相关,就可以得到35维的扩展巴克刻度倒谱系数。
由于0-8000Hz频段属于语音信号的常规频段,通过在0-8000Hz频段内获取扩展巴克刻度频带值,已经基本满足了实际的需求。如果所获得的音频频谱超过0-8000Hz频段,则可以依据0-8000Hz频段中的信息进行推算,即使不再划分也可以满足语音降噪处理的需求。
本发明的示例性实施方式中,除过获取上述的扩展巴克刻度倒谱系数外,为了突出语音谐波成分,还包含了对谐波相关性系数的获取,具体包括:
在获取到音频信号的音频频谱后,需要对当前帧音频频谱进行帧移,得到多帧子音频频谱,例如,X(i,k)、X(i-m,k)等多帧子音频频谱,其中,m为帧移,k为频率,取值可以为1、2等。在获得多个子音频频谱后,
将多帧子音频频谱与前预设帧子音频频谱分别进行幅值相乘,获得多个所述谐波相关性系数如公式(1)所示:
H(i,k)=E(|X(i,k)|*|X(i-m,k)|) (1)
其中,E(*)表示互相关处理,|X(i,k)|表示当前帧子音频频谱X(i,k)的幅值,|X(i-m,k)|表示前m帧子音频频谱X(i-m,k)的幅值,H(i,k)为谐波相关性系数。此处的前m帧代表前预设帧,m可以取1或2。
在实际应用中,互相关处理的具体表达式如公式(2)所示:
其中,b代表频点,n代表互相关公式中的频移;公式(2)相当于求第i帧音频信号的第n个频移的谐波相关性系数,具体是将当前帧子音频频谱幅值,与前m(m=1或2)帧子音频频谱帧移n后的子音频频谱在每个频点b对应的幅值相乘后求和,再除以当前帧子音频频谱幅值之和,以及再除以前m帧子音频频谱幅值之和。
在实际情况中,一帧音频频谱为160个巴克刻度频带值,代表频谱范围是0~8000Hz,每个巴克刻度频带值代表50Hz频率范围。语音基音频率范围为60~500Hz,而各谐波频率为基音频率的倍数,也就是说,当频移为基音频率时,相关性越大,从而可以确定谐波频率。
在本发明的示例性实施方式中,H(i,k)中的i=0,1,…,9,即取两次帧移的前10个系数,频率移动最大为500Hz,能够包含基音音频。也就是说,本实施方式总共将20个谐波相关性系数作为音频信号的特征输入深度学习模型中。
在实际应用中,语音信号中包含有谐波信息,而噪声信号中无谐波信息,因此,语音信号的谐波相关性系数较大,而噪声信号进行互相关后其谐波相关性系数接近于0,基于此,本发明示例性实施方式通过获取谐波相关性系数,可以进一步对语音信号和噪声信号进行区分,达到更好的降噪的效果。
S14.将扩展巴克刻度倒谱系数和谐波相关性系数输入预设音频处理模型中,得到扩展巴克刻度频带增益值。
在上述获得扩展巴克刻度倒谱系数和谐波相关性系数之后,本发明的示例性实施方式中,扩展巴克刻度倒谱系数有35个,谐波相关性系数有20个,总共有55个特征需要输入预设音频处理模型中,以输出扩展巴克刻度频带增益值。其中,频带增益值指的是每个频带中可用于信号的一个增益,例如对于一个有55频带的均衡器,通过改变每个频带的电平增益以达到降低噪声保留信号的功能。因此,通过预设音频处理模型输出的扩展巴克刻度频带增益值可以达到降噪的目的。
本实施方式中的预设音频处理模型即前述的深度学习模型,其具体的获取过程将在后面的实施方式中进行详细描述,此处不展开描述。
本发明的示例性实施方式中提供的音频处理方法,通过在预设音频处理模型中输入数量较小的扩展巴克刻度倒谱系数,可以减小预设音频处理模型的大小,降低计算的复杂度,节省功耗,进而可以实现实时音频降噪的功能。另外,通过在预设音频处理模型中输入谐波相关性系数,可以为噪声的分离提供谐波信息,有助于消除键盘敲击声等瞬态噪声,从而达到更好的降噪效果。
S16.根据扩展巴克刻度频带增益值,获取处理后频带增益值。
在实际应用中,通过预设音频处理模型所获得的扩展巴克刻度频带增益值的数量较少,往往需要对该扩展巴克刻度频带增益值进行增益插值,以获得便于进行后续信号处理或识别的处理后频带增益值。
S18.根据处理后频带增益值与音频信号的频谱幅值,获得音频信号对应的处理后信号。
由于在前述的信号处理过程中是将音频信号转换成音频频谱而获得的,因此,在获得处理后频带增益值之后,需要将处理后频带增益值与音频信号的频谱幅值相乘,并结合音频信号的相位,获得音频信号对应的处理后音频频谱;最后再对该处理后音频频谱进行快速傅里叶逆变换,得到处理后信号,该处理后信号是一种时域信号。
参照图4,示出了一种带噪音频信号的波形图,图5则是将图4中的带噪音频信号经过本发明示例性实施方式提供的音频处理方法进行降噪处理后获得的处理后信号的波形图。对比图4和图5可以看出,本发明示例性实施方式提供的音频处理方法对于噪声的滤除,特别是瞬态噪声的处理具有很好的效果。
本发明上述实施例的技术方案以带噪音频信号为基础,一方面,通过获取音频信号的音频频谱,并对音频频谱进行扩展巴克刻度划分,以简化音频频谱信息,减小输入到预设音频处理模型中的参数量,从而为预设音频处理模型的减小提供了基础,也降低了模型计算的复杂度,提高了计算效率。另一方面,通过获取音频信号中的谐波相关性系数,并输入预设音频处理模型中,可以为噪声的分离提供谐波信息,有助于消除键盘敲击声等瞬态噪声,从而达到更好的降噪效果。再一方面,本发明示例性实施方式所使用的扩展巴克刻度划分方式是对现有的巴克刻度划分进行了细化,从而在减小输入参数量的情况下,丰富了音频频谱特征提取的参数,以便获取更多的特征信息,进而提高了最终处理结果的精度和准确度。
示例性装置一
在介绍了本发明示例性实施方式的音频处理方法之后,接下来,参考图6对本发明示例性实施方式的音频处理装置进行描述。其中,装置一实施例部分可以继承方法一实施例中的相关描述,使得装置一实施例可以获得方法一实施例相关具体描述的支持。
参考图6,根据本发明的示例性实施方式的音频处理装置6可以包括:特征提取模块61、增益获取模块63、增益处理模块65和音频获取模块67。
具体的,特征提取模块61,可以用于提取音频信号中的扩展巴克刻度倒谱系数和谐波相关性系数;增益获取模块63,可以用于将扩展巴克刻度倒谱系数和谐波相关性系数输入预设音频处理模型中,得到扩展巴克刻度频带增益值;增益处理模块65,可以用于根据扩展巴克刻度频带增益值,获取处理后频带增益值;音频获取模块67,可以用于根据处理后频带增益值与音频信号的频谱幅值,获得音频信号对应的处理后信号。
在本发明的一些实施例中,特征提取模块61可以用于,获取音频信号的音频频谱,将音频频谱划分为多个频段;将每个频段划分为多个扩展巴克刻度频带值;对多个扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维扩展巴克刻度倒谱系数。
在本发明的一些实施例中,特征提取模块61可以用于,获取音频信号的音频频谱,对当前帧音频频谱进行频移,得到多个子音频频谱;将多个子音频频谱与前一帧音频频谱分别进行幅值相乘,获得多个谐波相关性系数。
在本发明的一些实施例中,特征提取模块61可以用于,对音频信号进行分帧加窗得到多帧子音频信号,对子音频信号进行快速傅里叶变换,得到相应的音频频谱。
在本发明的一些实施例中,音频获取模块67可以用于,将处理后频带增益值与音频信号的频谱幅值相乘,并结合音频信号的相位,获得音频信号对应的处理后音频频谱;对处理后音频频谱进行快速傅里叶逆变换,得到处理后信号。
在本发明的一些实施例中,增益处理模块65可以用于,对扩展巴克刻度频带增益值进行增益插值,获得处理后频带增益值。
由于本发明实施方式的程序运行性能分析装置的各个功能模块与上述方法发明实施方式中相同,因此在此不再赘述。
示例性方法二
下面参考图7来描述根据本发明示例性实施方式的音频处理模型训练方法。
图7示意性地示出了根据本发明的示例性实施方式的音频处理模型训练方法的流程图。参考图7,根据本发明的示例性实施方式的音频处理模型训练方法可以包括以下步骤:
S71.确定预设循环神经网络。
由于预设音频处理模型中输入的是扩展巴克刻度倒谱系数和谐波相关性系数,输出为35个扩展巴克刻度频带增益值,其中第j个扩展巴克刻度频带增益值定义为式(3):
其中,Es表示纯净音频扩展巴克刻度频带能量,Ex表示带噪音频扩展巴克刻度频带能量,gj的取值范围为[0,1]。
由于循环神经网络相比于其他深度学习网络,增加了时间序列,循环神经网络可以更好地应用于音频处理中,在抑制噪声的过程中,可以捕捉时间序列中时间步距离较大的音频帧信息,从而为当前帧音频处理提供可能。因此,本发明示例性实施方式选择循环神经网络作为预设音频降噪模型。
在实际应用中,考虑到门控循环单元(Gated Recurrent Unit,GRU)网络具有重置门与更新门结构,重置门控制是否利用历史状态来计算新状态,更新门控制新输入将在多大程度上改变存储的状态值,以使网络长时间记住某个信息,并且占用的资源较少,因此,本发明示例性实施方式选择GRU网络作为预设循环神经网络,所设计的预设循环神经网络的具体模型结构如图8中所示。
参照图8,预设循环神经网络810包括:多层全连接层(Fully Connected,FC)811、多层卷积层(Convolutional layer,CONV)812和多层GRU层813。其中,CONV层812用于提取音频信号中的空间信息,以便于将谐波相关性系数的频谱空间信息反应出来;该频谱空间信息与GRU层813提取的时序信息结合,能够更有效地从输入特征中学习与频带增益值相关的信息;FC层811的激活函数为Sigmoid激活函数,其输出值范围为(0,1),用于估计扩展巴克频带增益值。
在实际应用中,FC层811、CONV层812以及GRU层813的数量以及排列顺序可以根据实际情况设定,例如,本发明示例性实施方式中,FC层811可以有两层、CONV层812可以有两层以及GRU层813可以有三层,并且按照模型从输入到输出的顺序,第一层是FC层811,接着是两层CONV层812,下来是三层GRU层813,最后又是一层FC层811。
本发明示例性实施方式所建立的预设循环神经网络810中,第一层FC层811的单元数为128,输出为1*128;第二层、第三层CONV层812的卷积核大小分别为1*5与1*3,输出为1*128;第四、五、六层为三个GRU层813,其单元数均为128,输出为1*128;最后一层FC层811的单元数为35,输出为1*35,对应一帧音频的35个扩展巴克刻度频带增益值。由此可见,上述中每层的单位数和大小较小,从而所构成的预设循环神经网络810体积较小,并且输入的参数也较少,从而可以达到降低计算复杂度,节省功耗的目的。
基于式(3)所示的扩展巴克刻度频带增益值gj,在模型训练过程中,如果当前频带是纯净音频成分时,应该使gj尽可能接近于1,保留该音频;如果当前频带是噪声音频成分时,则应该使gj尽可能接近于0,避免噪声残留。
S73.分别提取带噪音频数据的音频特征和纯净音频数据的音频特征。
在本发明示例性实施方式中,通过获取大量的带噪音频数据和纯净音频数据来对确定好的预设循环神经网络进行训练,在训练过程中,如同音频处理过程一样,均需提取音频特征,使用音频特征作为输入参数以对预设循环神经网络进行训练。
如前所述,所述音频特征包括扩展巴克刻度倒谱系数和谐波相关性系数。其中,在提取带噪音频数据的音频特征之前,需要先获取带噪音频的带噪音频频谱,具体包括:对带噪音频进行分帧加窗得到多帧子带噪音频信号,对子带噪音频信号进行快速傅里叶变换,得到相应的带噪音频频谱。
在获得带噪音频频谱后,提取带噪音频数据的扩展巴克刻度倒谱系数包括:将带噪音频频谱划分为多个频段;将每个频段划分为多个扩展巴克刻度频带值;对多个扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维所述带噪音频数据的扩展巴克刻度倒谱系数。
其中,提取带噪音频数据的谐波相关性系数包括:获取带噪音频的带噪音频频谱后,对当前帧带噪音频频谱进行频移,得到多个子带噪音频频谱;将多个子带噪音频频谱与前一帧子带噪音频频谱分别进行幅值相乘,获得多个带噪音频数据的谐波相关性系数。
同样的,在提取纯净音频数据的音频特征之前,需要先获取纯净音频的音频频谱,具体包括:对纯净音频进行分帧加窗得到多帧子纯净音频信号,对子纯净音频信号进行快速傅里叶变换,得到相应的纯净音频频谱。
在获得纯净音频频谱后,提取纯净音频数据的扩展巴克刻度倒谱系数包括:将纯净音频频谱划分为多个频段;将每个频段划分为多个扩展巴克刻度频带值;对多个扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维所述纯净音频数据的扩展巴克刻度倒谱系数。
其中,提取纯净音频数据的谐波相关性系数包括:获取纯净音频的纯净音频频谱后,对当前帧纯净音频频谱进行频移,得到多个子纯净音频频谱;将多个子纯净音频频谱与前一帧子纯净音频频谱分别进行幅值相乘,获得多个纯净音频数据的谐波相关性系数。
S75.根据带噪音频数据的音频特征和纯净音频数据的音频特征,计算实际频带增益值。
在实际应用中,实际频带增益值是根据公式(3)结合纯净音频扩展巴克刻度频带能量和带噪音频扩展巴克刻度频带能量计算得到的,是预设循环神经网络的训练目标。其中,音频频带能量的具体计算过程可以参照现有的方法实行,此处不再赘述。
S77.将带噪音频数据的音频特征和纯净音频数据的音频特征输入预设循环神经网络中,获取预测频带增益值。
在本发明示例性实施方式中,在获得带噪音频数据的音频特征和纯净音频数据的音频特征之后,就可以将上述音频特征输入到预设循环神经网络中,预设循环神经网络就可以根据带噪音频数据的音频特征和纯净音频数据的音频特征,输出预测频带增益值。
S79.根据损失函数计算实际频带增益值和预测频带增益值的误差值,根据误差值优化预设循环神经网络,得到预设音频处理模型。
在实际应用中,预测频带增益值与实际频带增益值是具有一定误差的,因此,需要使用损失函数来计算两者的误差值,为了使预设循环神经网络更好地估计频带增益值,减少噪声残留,需要使用损失函数L对预设循环神经网络进行训练。
具体的,可以根据损失函数计算的误差值,通过反向传播更新预设循环神经网络的权重,直至满足预设误差范围时,也就是说,经过反复的多轮迭代将整个训练集的损失函数最小化。从而可以将最终的预设循环神经网络确定为预设音频处理模型。
在实际应用中,损失函数以及预设误差范围可以根据实际情况设置。在本公开示例性实施方式中,损失函数的计算公式如公式(4)所示:
其中,ρ为权重;α代表求均方次数,α0=2;gk为实际频带增益值,为预测频带增益值。
此损失函数属于平方误差损失函数,增加了α=2时的四次方约束项,同时为了更准确地估计增益值(取值范围0~1),减少噪声残留,对预测增益值与实际增益值均取了0.25次方,能够放大数值(如0.1的0.25次方约为0.56;0.5的0.25次方为0.84),更好反映两者之间误差,便于预设循环神经网络的训练。
在本发明示例性实施方式中,参照图8所示,在预测循环神经网络训练过程中,对于带噪音频数据820和纯净音频数据830的音频特征进行特征提取821、831;再根据提取的音频特征计算实际频带增益值,即实际增益840;同时,将提取的音频特征输入到预设循环神经网络810中,获得预测频带增益值,即预测增益850;将实际增益840和预测增益850输入到损失函数860中进行误差值估计,最终通过误差值优化预设循环神经网络810,以获得预设音频处理模型。
示例性装置二
在介绍了本发明示例性实施方式的音频处理模型训练方法之后,接下来,参考图9对本发明示例性实施方式的音频处理模型训练装置进行描述。其中,装置二实施例部分可以继承方法实施例二中的相关描述,使得装置二实施例可以获得方法二实施例相关具体描述的支持。
参考图9,根据本发明的示例性实施方式的音频处理模型训练装置9可以包括:模型确定模块91、特征提取模块93、实际增益确定模块95、预测增益确定模块97和模型优化模块99。
具体的,模型确定模块91,可以用于确定预设循环神经网络;特征提取模块93,可以用于分别提取带噪音频数据的音频特征和纯净音频数据的音频特征;实际增益确定模块95,可以用于根据所述带噪音频数据的音频特征和所述纯净音频数据的音频特征,计算实际频带增益值;预测增益确定模块97,可以用于将所述带噪音频数据的音频特征和所述纯净音频数据的音频特征输入所述预设循环神经网络中,获取预测频带增益值;模型优化模块99,可以用于根据损失函数计算所述实际频带增益值和所述预测频带增益值的误差值,根据所述误差值优化所述预设循环神经网络,得到预设音频处理模型;其中,所述音频特征包括扩展巴克刻度倒谱系数和谐波相关性系数。
在本发明的一些实施例中,特征提取模块93可以用于,获取带噪音频的带噪音频频谱,将带噪音频频谱划分为多个频段;将每个频段划分为多个扩展巴克刻度频带值;对多个扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维带噪音频数据的扩展巴克刻度倒谱系数。
在本发明的一些实施例中,特征提取模块93可以用于,获取带噪音频的带噪音频频谱,对当前帧带噪音频频谱进行频移,得到多个子带噪音频频谱;将多个子带噪音频频谱与前一帧子带噪音频频谱分别进行幅值相乘,获得多个带噪音频数据的谐波相关性系数。
在本发明的一些实施例中,特征提取模块93可以用于,对带噪音频进行分帧加窗得到多帧子带噪音频信号,对子带噪音频信号进行快速傅里叶变换,得到相应的带噪音频频谱。
在本发明的一些实施例中,特征提取模块93可以用于,获取纯净音频的纯净音频频谱,将纯净音频频谱划分为多个频段;将每个频段划分为多个扩展巴克刻度频带值;对多个扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维纯净音频数据的扩展巴克刻度倒谱系数。
在本发明的一些实施例中,特征提取模块93可以用于,获取纯净音频的纯净音频频谱,对当前帧纯净音频频谱进行频移,得到多个子纯净音频频谱;将多个子纯净音频频谱与前一帧子纯净音频频谱分别进行幅值相乘,获得多个纯净音频数据的谐波相关性系数。
在本发明的一些实施例中,特征提取模块93可以用于,对纯净音频进行分帧加窗得到多帧子纯净音频信号,对子纯净音频信号进行快速傅里叶变换,得到相应的纯净音频频谱。
在本发明的一些实施例中,模型优化模块99可以用于,根据误差值,通过反向传播更新预设循环神经网络的权重,直至满足预设误差范围时,将预设循环神经网络确定为预设音频处理模型。
在本发明的一些实施例中,损失函数的计算公式为:
其中,ρ为权重;α代表求均方次数,α0=2;gk为实际频带增益值,为预测频带增益值。
在本发明的一些实施例中,模型确定模块91可以用于,确定预设循环神经网络包括:多层全连接层、多层卷积层和多层GRU层。
由于本发明实施方式的程序运行性能分析装置的各个功能模块与上述方法发明实施方式中相同,因此在此不再赘述。
示例性设备
在介绍了本发明示例性实施方式的音频处理方法及装置、音频处理模型训练方法及装置之后,接下来,将对本发明的示例性实施方式的电子设备进行描述。其中,本发明的示例性实施方式的电子设备包括上述音频处理装置及音频处理模型训练装置之一。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“方法”部分中描述的根据本发明各种示例性实施方式中的步骤。
下面参照图10来描述根据本发明的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于:上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030、显示单元1040。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1010执行,使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元1010可以执行如图1中所示的步骤S12:提取音频信号中的扩展巴克刻度倒谱系数和谐波相关性系数;步骤S14:将扩展巴克刻度倒谱系数和谐波相关性系数输入预设音频处理模型中,得到扩展巴克刻度频带增益值;步骤S16:根据扩展巴克刻度频带增益值,获取处理后频带增益值;步骤S18:根据处理后频带增益值与音频信号的频谱幅值,获得音频信号对应的处理后信号。所述处理单元1010还可以执行如图7中所示的步骤S71:确定预设循环神经网络;步骤S73:分别提取带噪音频数据的音频特征和纯净音频数据的音频特征;步骤S75:根据带噪音频数据的音频特征和纯净音频数据的音频特征,计算实际频带增益值;步骤S77:将带噪音频数据的音频特征和纯净音频数据的音频特征输入预设循环神经网络中,获取预测频带增益值;步骤S79:根据损失函数计算实际频带增益值和预测频带增益值的误差值,根据误差值优化预设循环神经网络,得到预设音频处理模型。
存储单元1020可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)10201和/或高速缓存存储单元10202,还可以进一步包括只读存储单元(ROM)10203。
存储单元1020还可以包括具有一组(至少一个)程序模块10205的程序/实用工具10204,这样的程序模块10205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1030可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1000也可以与一个或多个外部设备1070(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1000交互的设备通信,和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且,电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
示例性程序产品
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“方法”部分中描述的根据本发明各种示例性实施方式的音频处理方法或音频处理模型训练方法中的步骤,例如,所述终端设备可以执行如图1所述的步骤12至步骤18,或者,所述终端设备可以执行如图7所述的步骤71至步骤79。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光盘、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。另外,随着技术的发展,可读存储介质也应进行相应解读。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了上述装置中的若干模块或子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (8)

1.一种音频处理方法,其特征在于,包括:
获取音频信号的音频频谱,将所述音频频谱划分为多个频段;
将每个所述频段划分为多个扩展巴克刻度频带值;
对多个所述扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维扩展巴克刻度倒谱系数;
获取所述音频信号的音频频谱,对当前帧所述音频频谱进行帧移,得到多帧子音频频谱;
将多帧所述子音频频谱与前预设帧所述子音频频谱分别进行幅值相乘,获得多个谐波相关性系数;
将所述扩展巴克刻度倒谱系数和所述谐波相关性系数输入预设音频处理模型中,得到扩展巴克刻度频带增益值;
根据所述扩展巴克刻度频带增益值,获取处理后频带增益值;
根据所述处理后频带增益值与所述音频信号的频谱幅值,获得所述音频信号对应的处理后信号。
2.一种音频处理装置,其特征在于,包括:
特征提取模块,用于获取音频信号的音频频谱,将所述音频频谱划分为多个频段;将每个所述频段划分为多个扩展巴克刻度频带值;对多个所述扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维扩展巴克刻度倒谱系数;获取所述音频信号的音频频谱,对当前帧所述音频频谱进行帧移,得到多帧子音频频谱;将多帧所述子音频频谱与前预设帧所述子音频频谱分别进行幅值相乘,获得多个谐波相关性系数;
增益获取模块,用于将所述扩展巴克刻度倒谱系数和所述谐波相关性系数输入预设音频处理模型中,得到扩展巴克刻度频带增益值;
增益处理模块,用于根据所述扩展巴克刻度频带增益值,获取处理后频带增益值;
音频获取模块,用于根据所述处理后频带增益值与所述音频信号的频谱幅值,获得所述音频信号对应的处理后信号。
3.一种音频处理模型训练方法,其特征在于,包括:
确定预设循环神经网络;
分别提取带噪音频数据的音频特征和纯净音频数据的音频特征;所述带噪音频数据的音频特征是通过以下过程提取的:获取音频信号的音频频谱,将所述音频频谱划分为多个频段;将每个所述频段划分为多个扩展巴克刻度频带值;对多个所述扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维扩展巴克刻度倒谱系数;获取所述音频信号的音频频谱,对当前帧所述音频频谱进行帧移,得到多帧子音频频谱;将多帧所述子音频频谱与前预设帧所述子音频频谱分别进行幅值相乘,获得多个谐波相关性系数;
根据所述带噪音频数据的音频特征和所述纯净音频数据的音频特征,计算实际频带增益值;
将所述带噪音频数据的音频特征和所述纯净音频数据的音频特征输入所述预设循环神经网络中,获取预测频带增益值;
根据损失函数计算所述实际频带增益值和所述预测频带增益值的误差值,根据所述误差值优化所述预设循环神经网络,得到预设音频处理模型;
其中,所述音频特征包括扩展巴克刻度倒谱系数和谐波相关性系数。
4.根据权利要求3所述的音频处理模型训练方法,其特征在于,所述损失函数的计算公式为:
其中,ρ为权重;α代表求均方次数,α0=2;gk为实际频带增益值,为预测频带增益值。
5.根据权利要求3或4所述的音频处理模型训练方法,其特征在于,确定预设循环神经网络包括:
确定所述预设循环神经网络包括:多层全连接层、多层卷积层和多层GRU层。
6.一种音频处理模型训练装置,其特征在于,包括:
模型确定模块,用于确定预设循环神经网络;
特征提取模块,用于分别提取带噪音频数据的音频特征和纯净音频数据的音频特征;所述带噪音频数据的音频特征是通过以下过程提取的:获取音频信号的音频频谱,将所述音频频谱划分为多个频段;将每个所述频段划分为多个扩展巴克刻度频带值;对多个所述扩展巴克刻度频带值取对数,并进行离散余弦变换,得到多维扩展巴克刻度倒谱系数;获取所述音频信号的音频频谱,对当前帧所述音频频谱进行帧移,得到多帧子音频频谱;将多帧所述子音频频谱与前预设帧所述子音频频谱分别进行幅值相乘,获得多个谐波相关性系数;
实际增益确定模块,用于根据所述带噪音频数据的音频特征和所述纯净音频数据的音频特征,计算实际频带增益值;
预测增益确定模块,用于将所述带噪音频数据的音频特征和所述纯净音频数据的音频特征输入所述预设循环神经网络中,获取预测频带增益值;
模型优化模块,用于根据损失函数计算所述实际频带增益值和所述预测频带增益值的误差值,根据所述误差值优化所述预设循环神经网络,得到预设音频处理模型;
其中,所述音频特征包括扩展巴克刻度倒谱系数和谐波相关性系数。
7.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1所述的音频处理方法,或实现权利要求3至5中任一项所述的音频处理模型训练方法。
8.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1所述的音频处理方法,或实现权利要求3至5中任一项所述的音频处理模型训练方法。
CN202110309926.9A 2021-03-23 2021-03-23 音频处理方法及装置、模型训练方法及装置、介质和设备 Active CN113077806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110309926.9A CN113077806B (zh) 2021-03-23 2021-03-23 音频处理方法及装置、模型训练方法及装置、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110309926.9A CN113077806B (zh) 2021-03-23 2021-03-23 音频处理方法及装置、模型训练方法及装置、介质和设备

Publications (2)

Publication Number Publication Date
CN113077806A CN113077806A (zh) 2021-07-06
CN113077806B true CN113077806B (zh) 2023-10-13

Family

ID=76613706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110309926.9A Active CN113077806B (zh) 2021-03-23 2021-03-23 音频处理方法及装置、模型训练方法及装置、介质和设备

Country Status (1)

Country Link
CN (1) CN113077806B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823309B (zh) * 2021-11-22 2022-02-08 成都启英泰伦科技有限公司 一种降噪模型构建和降噪处理方法
US11875811B2 (en) * 2021-12-09 2024-01-16 Lenovo (United States) Inc. Input device activation noise suppression
CN116821594B (zh) * 2023-05-24 2023-12-05 浙江大学 基于频谱选择机制的图神经网络工业控制系统异常检测方法及装置
CN117854536A (zh) * 2024-03-09 2024-04-09 深圳市龙芯威半导体科技有限公司 一种基于多维语音特征组合的rnn降噪方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452698A (zh) * 2007-11-29 2009-06-10 中国科学院声学研究所 一种自动嗓音谐噪比分析方法
JP2009210593A (ja) * 2008-02-29 2009-09-17 Toshiba Corp 特徴量抽出装置、方法及びプログラム
KR20130133541A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 오디오 신호 처리 방법 및 장치
CN104464722A (zh) * 2014-11-13 2015-03-25 北京云知声信息技术有限公司 基于时域和频域的语音活性检测方法和设备
CN105590629A (zh) * 2014-11-18 2016-05-18 华为终端(东莞)有限公司 一种语音处理的方法及装置
US10249319B1 (en) * 2017-10-26 2019-04-02 The Nielsen Company (Us), Llc Methods and apparatus to reduce noise from harmonic noise sources
CN110335620A (zh) * 2019-07-08 2019-10-15 广州欢聊网络科技有限公司 一种噪声抑制方法、装置和移动终端
CN110739005A (zh) * 2019-10-28 2020-01-31 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法
CN111261183A (zh) * 2018-12-03 2020-06-09 珠海格力电器股份有限公司 一种语音去噪的方法及装置
CN111429932A (zh) * 2020-06-10 2020-07-17 浙江远传信息技术股份有限公司 语音降噪方法、装置、设备及介质
CN111986660A (zh) * 2020-08-26 2020-11-24 深圳信息职业技术学院 一种神经网络子带建模的单通道语音增强方法、系统及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7426464B2 (en) * 2004-07-15 2008-09-16 Bitwave Pte Ltd. Signal processing apparatus and method for reducing noise and interference in speech communication and speech recognition
US9183849B2 (en) * 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452698A (zh) * 2007-11-29 2009-06-10 中国科学院声学研究所 一种自动嗓音谐噪比分析方法
JP2009210593A (ja) * 2008-02-29 2009-09-17 Toshiba Corp 特徴量抽出装置、方法及びプログラム
KR20130133541A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 오디오 신호 처리 방법 및 장치
CN104464722A (zh) * 2014-11-13 2015-03-25 北京云知声信息技术有限公司 基于时域和频域的语音活性检测方法和设备
CN105590629A (zh) * 2014-11-18 2016-05-18 华为终端(东莞)有限公司 一种语音处理的方法及装置
US10249319B1 (en) * 2017-10-26 2019-04-02 The Nielsen Company (Us), Llc Methods and apparatus to reduce noise from harmonic noise sources
CN111261183A (zh) * 2018-12-03 2020-06-09 珠海格力电器股份有限公司 一种语音去噪的方法及装置
CN110335620A (zh) * 2019-07-08 2019-10-15 广州欢聊网络科技有限公司 一种噪声抑制方法、装置和移动终端
CN110739005A (zh) * 2019-10-28 2020-01-31 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法
CN111429932A (zh) * 2020-06-10 2020-07-17 浙江远传信息技术股份有限公司 语音降噪方法、装置、设备及介质
CN111986660A (zh) * 2020-08-26 2020-11-24 深圳信息职业技术学院 一种神经网络子带建模的单通道语音增强方法、系统及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jean-Marc Valin 等.A Hybrid DSP/Deep Learning Approach to Real-Time Full-Band Speech Enhancement.2018,全文. *
何超.会议电话中的实时语音降噪.中国优秀硕士学位论文全文数据库信息科技辑.2020,全文. *

Also Published As

Publication number Publication date
CN113077806A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN113077806B (zh) 音频处理方法及装置、模型训练方法及装置、介质和设备
CN111223493B (zh) 语音信号降噪处理方法、传声器和电子设备
Pandey et al. Dense CNN with self-attention for time-domain speech enhancement
CN110491407B (zh) 语音降噪的方法、装置、电子设备及存储介质
Bhat et al. A real-time convolutional neural network based speech enhancement for hearing impaired listeners using smartphone
JP5127754B2 (ja) 信号処理装置
CN110459241B (zh) 一种用于语音特征的提取方法和系统
KR20130117750A (ko) 컴퓨테이셔널 청각 장면 분석에 기초한 단청 노이즈 억제
KR20110044990A (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
TW201248613A (en) System and method for monaural audio processing based preserving speech information
Wang et al. Recurrent deep stacking networks for supervised speech separation
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
US9520138B2 (en) Adaptive modulation filtering for spectral feature enhancement
CN114242044B (zh) 语音质量评估方法、语音质量评估模型训练方法及装置
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
CN113782044B (zh) 一种语音增强方法及装置
Li et al. A multi-objective learning speech enhancement algorithm based on IRM post-processing with joint estimation of SCNN and TCNN
CN116013344A (zh) 一种多种噪声环境下的语音增强方法
CN115223583A (zh) 一种语音增强方法、装置、设备及介质
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
Kumar et al. Performance evaluation of a ACF-AMDF based pitch detection scheme in real-time
Girirajan et al. Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network.
CN111916060B (zh) 一种基于谱减的深度学习语音端点检测方法和系统
CN117219102A (zh) 一种基于听觉感知的低复杂度语音增强方法
CN113160846A (zh) 噪声抑制方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211008

Address after: 310000 Room 408, building 3, No. 399, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Netease Zhiqi Technology Co.,Ltd.

Address before: 310052 Room 301, Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province

Applicant before: HANGZHOU LANGHE TECHNOLOGY Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant