CN111833895B - 音频信号处理方法、装置、计算机设备和介质 - Google Patents
音频信号处理方法、装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN111833895B CN111833895B CN201910332514.XA CN201910332514A CN111833895B CN 111833895 B CN111833895 B CN 111833895B CN 201910332514 A CN201910332514 A CN 201910332514A CN 111833895 B CN111833895 B CN 111833895B
- Authority
- CN
- China
- Prior art keywords
- audio
- model
- noise reduction
- signal
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 133
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 230000009467 reduction Effects 0.000 claims abstract description 129
- 238000012545 processing Methods 0.000 claims abstract description 61
- 230000008447 perception Effects 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 41
- 238000001228 spectrum Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 36
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 230000007613 environmental effect Effects 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 claims description 17
- 238000013145 classification model Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开提供了一种音频信号处理方法,包括:将音频信号输入环境感知模型,基于所述环境感知模型确定所述音频信号的信噪比类型;获取与所述信噪比类型对应的音频降噪模型;以及将所述音频信号输入所述音频降噪模型,以便基于所述音频降噪模型对所述音频信号进行降噪处理。本公开还提供了一种音频信号处理装置、一种计算机设备以及一种计算机可读存储介质。
Description
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种音频信号处理方法、装置、计算机设备和介质。
背景技术
现有的基于深度神经网络的音频降噪方法存在如下问题:1、如果使用多种信噪比类型的带噪声数据训练得到音频降噪模型,则由于受到模型体积等限制,导致模型对非线性关系的表达能力有限,无法对不同信噪比下的噪声提供同等水准的降噪处理。2、如果使用单一信噪比类型的带噪声数据训练得到音频降噪模型,当音频降噪模型的信噪比类型与输入音频信号不匹配时会导致降噪效果差、降噪处理泛化性弱。
发明内容
有鉴于此,本公开提供了一种改进的音频信号处理方法、装置、计算机设备和介质。
本公开的一个方面提供了一种音频信号处理方法,包括:将音频信号输入环境感知模型,基于所述环境感知模型确定所述音频信号的信噪比类型;获取与所述信噪比类型对应的音频降噪模型;以及,将所述音频信号输入所述音频降噪模型,以便基于所述音频降噪模型对所述音频信号进行降噪处理。
根据本公开的实施例,上述方法还包括在所述将音频信号输入至环境感知模型之前:获取多个第一音频样本,每个第一音频样本具有与该音频样本对应的信噪比类型的标签;获取初始神经网络分类模型;以及,利用所述多个第一音频样本对所述初始神经网络分类模型进行训练,得到所述环境感知模型。
根据本公开的实施例,上述获取多个第一音频样本包括:获取清洁音频样本和噪声音频样本;以及,基于任一信噪比类型对所述清洁音频样本和所述噪声音频样本进行叠加,得到具有所述任一信噪比类型的标签的第一音频样本。
根据本公开的实施例,上述利用所述多个第一音频样本对所述初始神经网络模型进行训练包括:对任一第一音频样本进行分帧处理,得到多个音频样本帧;获取每一音频样本帧的对数幅度谱;提取与所述对数幅度谱对应的特征向量;将与各音频样本帧的对数幅度谱对应的特征向量合并为所述任一第一音频样本的第一特征向量;以及,利用各第一音频样本的第一特征向量和标签对所述初始神经网络分类模型进行迭代优化,直至得到符合预定准确度的环境感知模型。
根据本公开的实施例,上述将音频信号输入环境感知模型包括:对所述音频信号进行分帧处理,得到多个音频帧;获取每一音频帧的对数幅度谱;提取与所述对数幅度谱对应的特征向量;将与各音频帧的对数幅度谱对应的特征向量合并为所述音频信号的第二特征向量;以及,将所述第二特征向量输入至所述环境感知模型。
根据本公开的实施例,上述方法还包括在所述获取与所述信噪比类型对应的音频降噪模型之前:对于任一信噪比类型,获取一个或多个第二音频样本,所述多个第二音频样本对应于所述任一信噪比类型;获取初始神经网络降噪模型;以及,利用所述一个或多个第二音频样本对所述初始神经网络降噪模型进行训练,得到与所述任一信噪比类型对应的音频降噪模型。
根据本公开的实施例,上述环境感知模型包括如下至少一种:深度神经网络模型、卷积神经网络模型、以及循环神经网络模型。上述环境感知模型包括一个或多个隐藏层。上述音频降噪模型包括如下至少一种:深度神经网络模型、卷积神经网络模型、以及循环神经网络模型。上述音频降噪模型包括一个或多个隐藏层。
本公开的另一个方面提供了一种音频信号处理装置,包括:确定模块、降噪模型获取模块、以及降噪处理模块。确定模块用于将音频信号输入环境感知模型,基于所述环境感知模型确定所述音频信号的信噪比类型。降噪模型获取模块用于获取与所述信噪比类型对应的音频降噪模型。以及,降噪处理模块用于将所述音频信号输入所述音频降噪模型,以便基于所述音频降噪模型对所述音频信号进行降噪处理。
本公开的另一方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,先利用环境感知模型预测待处理的音频信号的信噪比类型,再使用相应信噪比类型的音频降噪模型对该音频信号进行降噪处理。根据本公开实施例的音频信号处理方法,可以接收各种信噪比类型的音频信号进行降噪处理,能够避免现有技术中由于待处理的音频信号与音频降噪模型的信噪比类型不匹配而导致的降噪效果差、降噪处理泛化性弱等问题。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用音频信号处理方法和装置的示例性系统架构;
图2示意性示出了根据本公开实施例的音频信号处理方法的流程图;
图3A示意性示出了根据本公开实施例的音频信号处理过程的示意图;
图3B示意性示出了根据本公开实施例的环境感知模型的预测过程的示意图;
图3C示意性示出了根据本公开实施例的环境感知模型的示意图;
图4示意性示出了根据本公开实施例的音频信号处理装置的框图;
图5示意性示出了根据本公开另一实施例的音频信号处理装置的框图;以及
图6示意性示出了根据本公开实施例的计算机设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种音频信号处理方法以及能够应用该方法的装置。该方法包括信噪比类型确定阶段、降噪模型选择阶段和降噪处理阶段。在信噪比类型确定阶段,将待处理的音频信号输入环境感知模型,基于所述环境感知模型确定所述音频信号的信噪比类型。在确定待处理的音频信号的信噪比类型后,进入降噪模型选择阶段,根据所确定的信噪比类型获取与该信噪比类型对应的音频降噪模型。接着进入降噪处理阶段,将待处理的音频信号输入所选择的音频降噪模型,以便基于该音频降噪模型对待处理的音频信号进行降噪处理。
图1示意性示出了根据本公开实施例的可以应用音频信号处理方法和装置的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105进行通信,以接收或发送消息等。终端设备101、102、103上可以安装具有各种功能的客户端应用,例如音乐类应用、购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是支持音频信号输入和输出的各种电子设备,包括但不限于智能音箱、智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103中的各种客户端应用提供支持的后台管理服务器。后台管理服务器可以接收终端设备101、102、103发送的请求消息,对接收到的请求消息进行分析处理等响应,并将针对该请求消息的响应结果(例如根据请求消息获取或处理生成的网页、信息、或数据等)反馈给终端设备101、102、103,终端设备101、102、103将这些响应结果输出给用户。
可选地,根据本公开实施例的音频信号处理方法可以在终端设备101、102、103中实施,相应地,根据本公开实施例的音频信号处理装置可以设置于终端设备101、102、103中。或者,根据本公开实施例的音频信号处理方法也可以在服务器105中实施,相应地,根据本公开实施例的音频信号处理装置可以设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实际需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的音频信号处理方法的流程图。
如图2所示,该方法包括在操作S201,将待处理的音频信号输入环境感知模型,基于所述环境感知模型确定所述待处理的音频信号的信噪比类型。
在操作S202,获取与所述信噪比类型对应的音频降噪模型。
在操作S203,将所述待处理的音频信号输入所述音频降噪模型,以便基于所述音频降噪模型对所述待处理的音频信号进行降噪处理。
可见,图2所示的方法先利用环境感知模型预测待处理的音频信号的信噪比类型,再使用相应信噪比类型的音频降噪模型对该音频信号进行降噪处理。根据本公开实施例的音频信号处理方法,可以接收各种信噪比类型的音频信号进行降噪处理,能够避免现有技术中由于待处理的音频信号与音频降噪模型的信噪比类型不匹配而导致的降噪效果差、降噪处理泛化性弱等问题。
需要说明的是,根据本公开实施例的音频信号处理方法可以对连续输入的音频信号进行处理,每间隔预定时间长度或每间隔预定音频文件大小对接收到的音频信号进行处理。以及,根据本公开实施例的音频信号处理方法可以应用于客户端,客户端在本地对用户输入的音频信号进行处理并展示处理结果,或者,该方法也可以应用于服务器,服务器接收客户端发送的音频信号,对音频信号进行处理后将处理结果返回客户端,由客户端展示该处理结果。
在本公开的一个实施例中,根据本公开实施例的音频信号处理方法还可以包括:在将待处理的音频信号输入至环境感知模型之前,获取多个第一音频样本,每个第一音频样本具有与该音频样本对应的信噪比类型的标签,获取初始神经网络分类模型,然后利用所获取到的多个第一音频样本对初始神经网络分类模型进行训练,得到所述环境感知模型。本实施例公开了在对待处理的音频信号进行处理之前,训练生成环境感知模型的过程。环境感知模型本质上是一个对应于多个预置信噪比类别的分类模型,利用已知信噪比类型的第一音频样本作为训练样本以使初始神经网络分类模型进行有监督的机器学习,得到的最优模型为环境感知模型,其具有预测音频信号的信噪比类型的能力。
在上述训练生成环境感知模型的过程中,作为训练样本的第一音频样本可以制作得到。作为一个可选的实施例,上述获取多个第一音频样本包括:获取清洁音频样本和噪声音频样本,以及,基于任一信噪比类型对所述清洁音频样本和所述噪声音频样本进行叠加,得到具有所述任一信噪比类型的标签的第一音频样本。
其中,清洁音频样本可被认为是信噪比为0的音频信号,噪声音频样本可被认为是信噪比为100%的音频信号。可以通过对这两类音频信号按照一定比例叠加来得到所需要的第一音频样本。例如,在希望获取到5dB的第一音频样本时,选取一条清洁音频样本和一条噪声音频样本,对噪声音频样本乘以一个系数,使得清洁音频样本与乘以系数后的噪声音频样本的信噪比为5dB。将该清洁音频样本与该乘以系数后的噪声音频样本进行幅值叠加,得到信噪比类型为5dB的第一音频样本。
在上述训练生成环境感知模型的过程中,作为一个可选的实施例,上述利用所述多个第一音频样本对所述初始神经网络模型进行训练包括:对任一第一音频样本进行分帧处理,得到多个音频样本帧。然后获取每一音频样本帧的对数幅度谱,并提取与所述对数幅度谱对应的特征向量。将与各音频样本帧的对数幅度谱对应的特征向量合并为所述任一第一音频样本的第一特征向量。以及,利用各第一音频样本的第一特征向量和标签对所述初始神经网络分类模型进行迭代优化,直至得到符合预定准确度的环境感知模型。
依据本实施例,提取第一音频样本的对数幅度谱特征作为输入,来对初始神经网络分类模型进行训练。在其他实施例中也可提取第一音频样本的其他特征作为输入进行模型训练过程,如提取第一音频样本的幅度谱特征、提取第一音频样本的梅尔倒频谱(Mel-Frequency Spectrum,MFC)特征等,在此不做限制。
在上述实施例的基础上,对于利用第一音频样本的对数幅度谱的特征向量训练得到的环境感知模型,在基于该环境感知模型对音频信号的信噪比类型进行预测时,需要对音频信号进行预处理,以使环境感知模型能够识别出输入的音频信号的相关特征。作为一个可选的实施例,上述将音频信号输入环境感知模型包括:对所述音频信号进行分帧处理,得到多个音频帧;获取每一音频帧的对数幅度谱;提取与所述对数幅度谱对应的特征向量;将与各音频帧的对数幅度谱对应的特征向量合并为所述音频信号的第二特征向量;以及将所述第二特征向量输入至所述环境感知模型。
也就是说,在利用环境感知模型进行预测的过程中,提取音频信号的对数幅度谱的特征向量输入至环境感知模型,使得环境感知模型基于学习到的对第一音频样本的对数幅度谱的特征向量的信噪比类型的预测能力,来预测待处理的音频信号的信噪比类型。
在本公开的一个实施例中,根据本公开实施例的音频信号处理方法还可以包括:在所述获取与所述信噪比类型对应的音频降噪模型之前,分别训练得到多个对应于不同信噪比类型的音频降噪模型,每个音频降噪模型对应于一个信噪比类型。具体地,训练得到对于任一信噪比类型的音频降噪模型的过程包括:获取一个或多个第二音频样本,所述多个第二音频样本对应于所述任一信噪比类型;获取初始神经网络降噪模型;以及,利用所述一个或多个第二音频样本对所述初始神经网络降噪模型进行训练,得到与所述任一信噪比类型对应的音频降噪模型。本实施例利用多个对应于同一信噪比类型的第二音频样本对初始神经网络降噪模型进行训练,得到的最优模型为对应于该信噪比类型的音频降噪模型。
在本公开的一个实施例中,环境感知模型可以包括如下至少一种:深度神经网络(Deep Neural Networks,DNN)模型、卷积神经网络(Convolutional Neural Networks,CNN)模型、以及循环神经网络(Recurrent Neural Networks,RNN)模型。环境感知模型可以包括一个或多个隐藏层。音频降噪模型可以包括如下至少一种:深度神经网络模型、卷积神经网络模型、以及循环神经网络模型。音频降噪模型可以包括一个或多个隐藏层。
下面参考图3A~图3C,结合具体实施例对根据本公开实施例的音频信号处理方法进行展开说明。
图3A示意性示出了根据本公开实施例的音频信号处理过程的示意图,可以应用于任一具有音频信号降噪需求的电子设备。
如图3A所示,电子设备设置有麦克风(Microphone)、环境感知模型、模型选择门和音频降噪模型,其中,环境感知模型包括输入层(Input Layer)、一个或多个隐藏层(HiddenLayer)、以及输出层(Output Layer)。降噪处理模块包括输入层、一个或多个隐藏层、以及输出层。扬声器(Speaker)输出音频信号,电子设备通过麦克风获取该音频信号。利用环境感知模型确定该音频信号的信噪比类型。模型选择门用于根据环境感知模型所确定的信噪比类型选择并加载适配于当前信噪比类型的音频降噪模型。基于选择的音频降噪模型对获取到的音频信号进行降噪处理,得到降噪后的音频信号。具体地,音频降噪模型可以提取该音频信号的对数幅度谱作为输入特征,采用DNN作为降噪模型对输入特征进行前向传播,将DNN的输出结合该音频信号的原始相位信息,重建出降噪后的音频信号,从而实现对音频信号的降噪处理。
其中,环境感知模型的训练过程如下:
使用TIMIT数据集作为清洁音频数据源,从中获取清洁音频样本,使用NOISEX-92数据集作为噪声数据源,从中获取噪声音频样本。对于-5dB、0dB、5dB、10dB、15dB、20dB中的每种信噪比类型,基于该信噪比类型在清洁音频样本上叠加噪声音频样本,得到第一音频样本。依据此方式,得到多个第一音频样本,每个第一音频样本具有与该音频样本对应的信噪比类型的标签,以多个第一音频样本的对数幅度谱的特征向量作为训练集的输入部分,以多个第一音频样本的标签作为训练集的参考输出部分。
使用DNN作为环境感知网络,并用上述训练集对环境感知网络进行训练,训练得到的最优模型即为环境感知模型。
图3B示意性示出了根据本公开实施例的环境感知模型的预测过程的示意图。
如图3B所示,在将待处理的音频信号输入环境感知模型时,需要对音频信号进行预处理:对该音频信号进行分帧处理,将音频信号分为多个音频帧,每个音频帧的帧长可以根据实际需要进行设定。对每一音频帧进行快速傅里叶变换以得到与该音频帧对应的频谱,经过坐标变换得到该音频帧的对数幅度谱。
具体地,对于音频信号中的第n音频帧,提取该音频帧的对数幅度谱X(n),其中n表示当前语音帧的帧号。将X(n)与前面M-1帧的对数幅度谱X(t),t=n-1,n-2,…,n-M+1(图中表示为对数幅度谱1~M)合并为向量x(n)(图中表示为特征向量x),并将x(n)作为环境感知网络的输入向量,其中,当每一音频帧的对数幅度谱的向量维度为N时,M个音频帧合并得到的向量x(n)的维度为M*N。环境感知网络输出得到与该M个音频帧对应的音频信号的部分的信噪比类型(SNR)的预测结果。
图3C示意性示出了根据本公开实施例的环境感知模型的示意图。
如图3C所示,本例中,环境感知模型采用DNN,第一层为全连接输入层,节点数为256,激活函数为Relu。第二层为全连接隐藏层,节点数为256,激活函数为Relu。第三层为全连接隐藏层,节点数为256,激活函数为Relu。第四层为全连接输出层,节点数为1,无激活函数。
本方案通过在音频降噪模型前级联基于深度学习技术的环境感知模型,通过环境感知模型估计当前输入的音频信号的信噪比类型,根据信噪比类型的预测结果选择适配该信噪比类型的音频降噪模型。由于本方案使用的音频降噪模型均只需适配一种固定的信噪比类型,所以音频降噪模型的体积可以变得很小,且能保证平均较高的降噪效果。在实际应用中,只需事先将不同信噪比类型的音频降噪模型存放在电子设备的预定存储空间中(如硬盘中),根据当前输入音频信号的信噪比类型灵活切换音频降噪模型,每次只需将适配当前环境信噪比的音频降噪模型读入内存并处理,即可实现较高质量的降噪效果。
图4示意性示出了根据本公开实施例的音频信号处理装置的框图。
如图4所示,音频信号处理装置400包括:确定模块410、降噪模型获取模块420和降噪处理模块430。
确定模块410用于将音频信号输入环境感知模型,基于所述环境感知模型确定所述音频信号的信噪比类型。
降噪模型获取模块420用于获取与所述信噪比类型对应的音频降噪模型。
降噪处理模块430用于将所述音频信号输入所述音频降噪模型,以便基于所述音频降噪模型对所述音频信号进行降噪处理。
图5示意性示出了根据本公开另一实施例的音频信号处理装置的框图。
如图5所示,音频信号处理装置500包括:确定模块510、降噪模型获取模块520和降噪处理模块530。其中,确定模块510、降噪模型获取模块520和降噪处理模块530分别具有与确定模块410、降噪模型获取模块420和降噪处理模块430相同的功能,重复的部分不再赘述。
在本公开的一个实施例中,音频信号处理装置500还包括:第一样本获取模块540、第一初始模型获取模块550和第一训练模块560。第一样本获取模块540用于在确定模块510将音频信号输入环境感知模型之前,获取多个第一音频样本,每个第一音频样本具有与该音频样本对应的信噪比类型的标签。第一初始模型获取模块550用于获取初始神经网络分类模型。以及,第一训练模块560用于利用所述多个第一音频样本对所述初始神经网络分类模型进行训练,得到所述环境感知模型。
具体地,在本公开的一个实施例中,第一样本获取模块540包括:第一获取子模块541和叠加子模块542。
第一获取子模块541用于获取清洁音频样本和噪声音频样本。以及,叠加子模块542用于基于任一信噪比类型对所述清洁音频样本和所述噪声音频样本进行叠加,得到具有所述任一信噪比类型的标签的第一音频样本。
在本公开的一个实施例中,第一训练模块560包括:第一处理子模块561、第二获取子模块562、第一提取子模块563、第一合并子模块564以及优化子模块565。
第一处理子模块561用于对任一第一音频样本进行分帧处理,得到多个音频样本帧。第二获取子模块562用于获取每一音频样本帧的对数幅度谱。第一提取子模块563用于提取与所述对数幅度谱对应的特征向量。第一合并子模块564用于将与各音频样本帧的对数幅度谱对应的特征向量合并为所述任一第一音频样本的第一特征向量。以及,优化子模块565用于利用各第一音频样本的第一特征向量和标签对所述初始神经网络分类模型进行迭代优化,直至得到符合预定准确度的环境感知模型。
在此基础上,在本公开的一个实施例中,确定模块510包括:第二处理子模块511、第三获取子模块512、第二提取子模块513、第二合并子模块514、以及输入子模块515。
第二处理子模块511用于对所述音频信号进行分帧处理,得到多个音频帧。第三获取子模块512用于获取每一音频帧的对数幅度谱。第二提取子模块513用于提取与所述对数幅度谱对应的特征向量。第二合并子模块514用于将与各音频帧的对数幅度谱对应的特征向量合并为所述音频信号的第二特征向量。以及输入子模块515用于将所述第二特征向量输入至所述环境感知模型。
在本公开的一个实施例中,音频信号处理装置500还包括:第二样本获取模块570、第二初始模型获取模块580以及第二训练模块590。
第二样本获取模块570用于在降噪模型获取模块520获取与所述信噪比类型对应的音频降噪模型之前,对于任一信噪比类型,获取一个或多个第二音频样本,所述多个第二音频样本对应于所述任一信噪比类型。第二初始模型获取模块580用于获取初始神经网络降噪模型。以及第二训练模块590用于利用所述一个或多个第二音频样本对所述初始神经网络降噪模型进行训练,得到与所述任一信噪比类型对应的音频降噪模型。
在本公开的一个实施例中,所述环境感知模型包括如下至少一种:深度神经网络模型、卷积神经网络模型、以及循环神经网络模型。所述环境感知模型包括一个或多个隐藏层。所述音频降噪模型包括如下至少一种:深度神经网络模型、卷积神经网络模型、以及循环神经网络模型。所述音频降噪模型包括一个或多个隐藏层。
需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再赘述。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,确定模块510、降噪模型获取模块520、降噪处理模块530、第一样本获取模块540、第一初始模型获取模块550、第一训练模块560、第二样本获取模块570、第二初始模型获取模块580、以及第二训练模块590中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,确定模块510、降噪模型获取模块520、降噪处理模块530、第一样本获取模块540、第一初始模型获取模块550、第一训练模块560、第二样本获取模块570、第二初始模型获取模块580、以及第二训练模块590中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,确定模块510、降噪模型获取模块520、降噪处理模块530、第一样本获取模块540、第一初始模型获取模块550、第一训练模块560、第二样本获取模块570、第二初始模型获取模块580、以及第二训练模块590中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图6示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机设备的框图。图6示出的计算机设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,根据本公开实施例的计算机设备600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有设备600操作所需的各种程序和数据。处理器601、ROM 602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,设备600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。设备600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (10)
1.一种音频信号处理方法,包括:
将音频信号输入环境感知模型,基于所述环境感知模型确定所述音频信号的信噪比类型;
获取与所述信噪比类型对应的音频降噪模型;以及
将所述音频信号输入所述音频降噪模型,以便基于所述音频降噪模型对所述音频信号进行降噪处理,其中,所述音频降噪模型提取所述音频信号的对数幅度谱作为输入特征,所述音频降噪模型对所述输入特征进行前向传播,将所述音频降噪模型的输出结合所述音频信号的原始相位信息,重建出降噪后的音频信号。
2.根据权利要求1所述的方法,还包括在所述将音频信号输入至环境感知模型之前:
获取多个第一音频样本,每个第一音频样本具有与该音频样本对应的信噪比类型的标签;
获取初始神经网络分类模型;以及
利用所述多个第一音频样本对所述初始神经网络分类模型进行训练,得到所述环境感知模型。
3.根据权利要求2所述的方法,其中,所述获取多个第一音频样本包括:
获取清洁音频样本和噪声音频样本;以及
基于任一信噪比类型对所述清洁音频样本和所述噪声音频样本进行叠加,得到具有所述任一信噪比类型的标签的第一音频样本。
4.根据权利要求2所述的方法,其中,所述利用所述多个第一音频样本对所述初始神经网络模型进行训练包括:
对任一第一音频样本进行分帧处理,得到多个音频样本帧;
获取每一音频样本帧的对数幅度谱;
提取与所述对数幅度谱对应的特征向量;
将与各音频样本帧的对数幅度谱对应的特征向量合并为所述任一第一音频样本的第一特征向量;以及
利用各第一音频样本的第一特征向量和标签对所述初始神经网络分类模型进行迭代优化,直至得到符合预定准确度的环境感知模型。
5.根据权利要求4所述的方法,其中,所述将音频信号输入环境感知模型包括:
对所述音频信号进行分帧处理,得到多个音频帧;
获取每一音频帧的对数幅度谱;
提取与所述对数幅度谱对应的特征向量;
将与各音频帧的对数幅度谱对应的特征向量合并为所述音频信号的第二特征向量;以及
将所述第二特征向量输入至所述环境感知模型。
6.根据权利要求1所述的方法,还包括在所述获取与所述信噪比类型对应的音频降噪模型之前:
对于任一信噪比类型,获取一个或多个第二音频样本,所述多个第二音频样本对应于所述任一信噪比类型;
获取初始神经网络降噪模型;以及
利用所述一个或多个第二音频样本对所述初始神经网络降噪模型进行训练,得到与所述任一信噪比类型对应的音频降噪模型。
7.根据权利要求1所述的方法,其中:
所述环境感知模型包括如下至少一种:深度神经网络模型、卷积神经网络模型、以及循环神经网络模型;
所述环境感知模型包括一个或多个隐藏层;
所述音频降噪模型包括如下至少一种:深度神经网络模型、卷积神经网络模型、以及循环神经网络模型;
所述音频降噪模型包括一个或多个隐藏层。
8.一种音频信号处理装置,包括:
确定模块,用于将音频信号输入环境感知模型,基于所述环境感知模型确定所述音频信号的信噪比类型;
降噪模型获取模块,用于获取与所述信噪比类型对应的音频降噪模型;以及
降噪处理模块,用于将所述音频信号输入所述音频降噪模型,以便基于所述音频降噪模型对所述音频信号进行降噪处理,其中,所述音频降噪模型提取所述音频信号的对数幅度谱作为输入特征,所述音频降噪模型对所述输入特征进行前向传播,将所述音频降噪模型的输出结合所述音频信号的原始相位信息,重建出降噪后的音频信号。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现:
如权利要求1~7中任一项所述的音频信号处理方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行:
如权利要求1~7中任一项所述的音频信号处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910332514.XA CN111833895B (zh) | 2019-04-23 | 2019-04-23 | 音频信号处理方法、装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910332514.XA CN111833895B (zh) | 2019-04-23 | 2019-04-23 | 音频信号处理方法、装置、计算机设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833895A CN111833895A (zh) | 2020-10-27 |
CN111833895B true CN111833895B (zh) | 2023-12-05 |
Family
ID=72911842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910332514.XA Active CN111833895B (zh) | 2019-04-23 | 2019-04-23 | 音频信号处理方法、装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833895B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802463B (zh) * | 2020-12-24 | 2023-03-31 | 北京猿力未来科技有限公司 | 一种音频信号筛选方法、装置及设备 |
CN112652323B (zh) * | 2020-12-24 | 2023-01-20 | 北京猿力未来科技有限公司 | 音频信号筛选方法、装置、电子设备及存储介质 |
CN113707158A (zh) * | 2021-08-02 | 2021-11-26 | 南昌大学 | 一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法 |
CN113705411A (zh) * | 2021-08-20 | 2021-11-26 | 珠海格力电器股份有限公司 | 波形信号的降噪方法、装置、电子设备和存储介质 |
CN116380714B (zh) * | 2023-03-15 | 2023-09-22 | 中国科学院地理科学与资源研究所 | 一种水样含沙量测量装置及使用其的测量方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103871421A (zh) * | 2014-03-21 | 2014-06-18 | 厦门莱亚特医疗器械有限公司 | 一种基于子带噪声分析的自适应降噪方法与系统 |
CN108172238A (zh) * | 2018-01-06 | 2018-06-15 | 广州音书科技有限公司 | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 |
CN109243481A (zh) * | 2018-09-28 | 2019-01-18 | 出门问问信息科技有限公司 | 一种语音处理方法及装置 |
CN109346055A (zh) * | 2018-11-23 | 2019-02-15 | 安克创新科技股份有限公司 | 主动降噪方法、装置、耳机及计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
US10290293B2 (en) * | 2017-11-08 | 2019-05-14 | Intel Corporation | Systems, apparatus, and methods for drone audio noise reduction |
-
2019
- 2019-04-23 CN CN201910332514.XA patent/CN111833895B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103871421A (zh) * | 2014-03-21 | 2014-06-18 | 厦门莱亚特医疗器械有限公司 | 一种基于子带噪声分析的自适应降噪方法与系统 |
CN108172238A (zh) * | 2018-01-06 | 2018-06-15 | 广州音书科技有限公司 | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 |
CN109243481A (zh) * | 2018-09-28 | 2019-01-18 | 出门问问信息科技有限公司 | 一种语音处理方法及装置 |
CN109346055A (zh) * | 2018-11-23 | 2019-02-15 | 安克创新科技股份有限公司 | 主动降噪方法、装置、耳机及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111833895A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111833895B (zh) | 音频信号处理方法、装置、计算机设备和介质 | |
CN109740018B (zh) | 用于生成视频标签模型的方法和装置 | |
CN109981787B (zh) | 用于展示信息的方法和装置 | |
US10896664B1 (en) | Providing adversarial protection of speech in audio signals | |
CN111462728A (zh) | 用于生成语音的方法、装置、电子设备和计算机可读介质 | |
US10395658B2 (en) | Pre-processing partial inputs for accelerating automatic dialog response | |
CN111354345B (zh) | 生成语音模型和语音识别的方法、装置、设备以及介质 | |
CN110288974B (zh) | 基于语音的情绪识别方法及装置 | |
CN111340220A (zh) | 用于训练预测模型的方法和装置 | |
WO2022033534A1 (zh) | 用于生成目标视频的方法、装置、服务器和介质 | |
CN111368973A (zh) | 用于训练超网络的方法和装置 | |
CN112992190B (zh) | 音频信号的处理方法、装置、电子设备和存储介质 | |
CN112259079A (zh) | 语音识别的方法、装置、设备和计算机可读介质 | |
CN115908640A (zh) | 生成图像的方法、装置、可读介质及电子设备 | |
CN111477237B (zh) | 音频降噪方法、装置和电子设备 | |
CN109710939B (zh) | 用于确定主题的方法和装置 | |
CN112965916B (zh) | 页面测试方法、页面测试装置、电子设备及可读存储介质 | |
CN111369475B (zh) | 用于处理视频的方法和装置 | |
CN110874343B (zh) | 基于深度学习芯片进行语音处理的方法和深度学习芯片 | |
WO2023098513A1 (en) | Ameloriative resource action during an e-conference | |
US20220310092A1 (en) | Multi-look enhancement modeling and application for keyword spotting | |
CN111858916A (zh) | 用于聚类句子的方法和装置 | |
CN113823312B (zh) | 语音增强模型生成方法和装置、语音增强方法和装置 | |
CN115201769A (zh) | 雷达信号脉冲重复间隔生成方法、装置、设备和介质 | |
CN111754984A (zh) | 文本选取的方法、装置、设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |