CN110473567A

CN110473567A - 基于深度神经网络的音频处理方法、装置及存储介质

Info

Publication number: CN110473567A
Application number: CN201910843603.0A
Authority: CN
Inventors: 陆丛希; 李林锴; 孙鸿程; 刘心可
Original assignee: Shanghai Youwei Intelligent Technology Co Ltd
Current assignee: Shanghai Youwei Intelligent Technology Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-11-19
Anticipated expiration: 2039-09-06
Also published as: CN110473567B; US20210074266A1; US11270688B2

Abstract

本申请公开了一种基于深度神经网络的语音处理方法，包括：获取基于深度神经网络的语音提取模型；接收具有语音部分和非语音部分的待处理的音频输入对象，所述音频输入对象包括一个或多个音频数据帧，并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据，其中所述音频数据以时域数据格式表示；获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数；以及将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型，从而得到所述经训练的语音提取模型输出的音频输出结果。

Description

基于深度神经网络的音频处理方法、装置及存储介质

技术领域

本申请涉及音频处理技术，更具体地，涉及一种基于深度神经网络的音频处理方法、装置及存储介质。

背景技术

辅助听力设备(又称为“助听器”)被广泛应用于听力障碍患者的听力补偿，其可以将听力障碍患者原本听不到的声音放大，再利用他们的残余听力，使声音能送到大脑听觉中枢，从而感觉到声音。

由于不同的听力障碍患者通常具有不同的听力图谱或听力损失图谱(其可以反映患者在不同音频频率上听力的不同程度的损失)，因此传统的助听器通常会基于一些频率补偿算法来放大某些特定频率范围的音频信号，例如放大某些高频音频信号。然而，这些传统的听力补偿算法没有办法区分人声和背景噪声，因此在被放大的助听频带上，噪声会和人声一并放大，这会影响人声的收听和识别。

因此，有必要提供一种音频处理方法来解决现有技术存在的上述问题。

发明内容

本申请的一个目的在于提供一种基于深度神经网络的音频处理方法、装置与存储介质。

在本申请的一个方面，提供了一种基于深度神经网络的音频处理方法，所述音频处理方法包括：获取基于深度神经网络的语音提取模型，其中，所述语音提取模型是通过下述步骤创建的：获取混合音频训练数据集，其中所述混合音频训练数据集包括多个混合音频数据帧，并且每个混合音频数据帧包括混合的语音数据与非语音数据，其中所述语音数据与所述非语音数据均以时域数据格式表示；获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数，其中每个听力图谱对应一组预定增益补偿系数，并且每组预定增益补偿系数包括对应于不同音频信号频率的多个预定增益补偿系数；利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿，从而生成经补偿的语音数据；以及利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型；接收具有语音部分和非语音部分的待处理的音频输入对象，所述音频输入对象包括一个或多个音频数据帧，并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据，其中所述音频数据以时域数据格式表示；获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数；以及将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型，从而得到所述经训练的语音提取模型输出的音频输出结果，其中所述音频输出结果以时域数据格式表示，并且所述音频输出结果相比于所述音频输入对象削弱或去除了所述音频输入对象中非语音部分的至少一部分。

在本申请的另一方面，还提供了一种基于深度神经网络的音频处理装置，所述音频处理装置包括非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行上述方面的处理步骤。

在本申请的又一方面，还提供了一种一种非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行上述方面的处理步骤。

以上为本申请的概述，可能有简化、概括和省略细节的情况，因此本领域的技术人员应该认识到，该部分仅是示例说明性的，而不旨在以任何方式限定本申请范围。本概述部分既非旨在确定所要求保护主题的关键特征或必要特征，也非旨在用作为确定所要求保护主题的范围的辅助手段。

附图说明

通过下面说明书和所附的权利要求书并与附图结合，将会更加充分地清楚理解本申请内容的上述和其他特征。可以理解，这些附图仅描绘了本申请内容的若干实施方式，因此不应认为是对本申请内容范围的限定。通过采用附图，本申请内容将会得到更加明确和详细地说明。

图1a示出了根据本申请一个实施例的示例性听力图谱；

图1b示出了根据本申请一个实施例的与图1a所示的听力图谱中的听力曲线对应的一组增益系数；

图2a示出了根据本申请一个实施例的语音提取模型的示例；

图2b示出了根据本申请另一实施例的语音提取模型的示例；

图3示出了根据本申请一个实施例的创建基于深度神经网络的语音提取模型的方法；

图4示出了根据本申请一个实施例的基于深度神经网络的音频处理方法；

图5a示出了混合了语音信号与非语音信号的示例性音频信号；

图5b和5c示出了现有音频处理方法对图5a所示的示例性音频信号进行处理的结果；

图5d示出了用本申请实施例的音频处理方法对图5a所示的示例性音频信号进行处理的结果。

具体实施方式

在下面的详细描述中，参考了构成其一部分的附图。在附图中，类似的符号通常表示类似的组成部分，除非上下文另有说明。详细描述、附图和权利要求书中描述的说明性实施方式并非旨在限定。在不偏离本申请的主题的精神或范围的情况下，可以采用其他实施方式，并且可以做出其他变化。可以理解，可以对本申请中一般性描述的、在附图中图解说明的本申请内容的各个方面进行多种不同构成的配置、替换、组合，设计，而所有这些都明确地构成本申请内容的一部分。

图1a示出了根据本申请一个实施例的示例性听力图谱。可以理解，不同的听力损失患者可以具有不同的听力图谱。

如图1a所示，听力曲线C表示正常人耳的听力曲线，在250Hz至8000Hz的音频信号频率范围内，响度大体在15dB SPL以上的声音都可以被听到。听力曲线A和B则分别表示听力障碍患者的听力曲线，例如患者左耳和右耳的听力曲线。可以看出这两个听力曲线A和B相比于正常听力曲线C具有明显的听力损失。例如对于听力曲线A，当频率在1000Hz以下时，仅有响度在45dB SPL以上的声音才能够被听到；在2000Hz到3000Hz的频率范围，仅有响度在约85dB SPL以上的声音才能够被听到；而当频率在4000Hz以上时，基本上响度为120dBSPL的声音也无法被听到。类似地，对于听力曲线B，其听力损失相较于听力曲线A更为明显，在2000Hz以上的较高频率下，响度为120dB SPL的声音也无法被听到。在一些实施例中，将异常听力曲线补偿至正常听力曲线(例如以能够听到最小响度为20dB SPL的声音为例)所需的放大增益对应于听力损失，例如，对于曲线A而言，在250Hz至1000Hz的频带上，听力损失约为(45-20)dB SPL＝25dB SPL。

由图1a所示的听力图谱可以看出，对于听力障碍患者而言，其听觉在不同的音频信号频率往往具有不同的听力损失，因此需要基于不同的频率提供不同的听力补偿。例如，对于听力曲线A和B，在低频带(例如频率小于1000Hz)可以对声音进行小幅度放大，而在高频带(例如频率大于1000Hz)提供较大幅度的放大，以此补偿高频范围上显著的听力损失。

由于听力补偿的目的在于补偿听力损失，以使得听力障碍患者能够较为理想地感受到外部声音，因此通常补偿处理后的声音通常希望处于一定的响度范围内，既不要太小也不要过大。相应地，在一些实施例中，在同一频率下，不同响度的声音期望可以被以不同的增益补偿系数放大或缩小。例如，在100Hz至200Hz的频率范围内，对于30至90dB SPL的声音可以进行小幅度放大，对于90至120dB SPL的声音可以进行小幅度缩小，而对于120dBSPL的声音可以进行限幅。这样，在达到声音补偿的目的的同时，可以保证处理后的声音不会听起来太响。换言之，听力损失的频率增益补偿优选地还随着响度的变化而变化。

可以采用各种已知算法来确定从听力图谱到不同频率下、不同响度对应的不同补偿增益值。在一些实施例中，可以利用宽频动态范围压缩算法(“Wide Dynamic RangeCompression”)确定补偿增益值。宽频动态范围压缩算法可以具有不同的映射公式来确定补偿增益值，例如2012年由澳大利亚国家声学实验室发布的针对非线性放大的NAL-NL2映射公式(参见https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4627149/)。

图1b示出了根据本申请一个实施例与图1a所示的听力图谱中的听力曲线B对应的一组增益补偿系数。

如图1b所示，横向为音频信号频率，而纵向为响度。相应地，该组增益补偿系数可以被表示为以音频频率和响度索引的二维增益系数矩阵。例如，在第一列，频率为125Hz，当输入音频信号的音量为50dB SPL时，可以对其放大3.25dB，而当输入音频信号的音量为80dB SPL时，可以不对其进行放大。再例如，在第十列，频率为1000Hz，当输入音频信号的音量为50dB SPL时，可以对其放大15.75dB，而当输入音频信号的音量为80dB SPL时，可以对其放大1.66dB。其他频率下类似，在此不再赘述。

可以理解，图1b所示的听力损失补偿方法可以有效补偿听力障碍患者的听力损失，但是其仍然不能够区分同频率下的语音信号和背景噪声。为了解决这一问题，本申请的发明人创造性地将深度神经网络技术与上述听力损失补偿方法相结合，通过设计特定的音频训练数据集来对深度神经网络的模型进行训练，从而使得经训练的深度神经网络模型能够根据音频输入对象适应性地进行增益补偿，并且能够在抑制音频输入对象中的背景噪声的同时放大语音信号。

图2a示出了根据本申请一个实施例的语音提取模型的示例。

如图2a所示，该语音提取模型采用了全连接神经网络的结构，其包括输入层、多个隐含层(子处理层，图中只示意性地示出了两个隐含层，在其他的实施例中，可以包括更多个隐含层)以及输出层。其中，经特定的训练数据训练后，该语音提取模型可以具有加权系数集与偏置系数集，从而每个隐含层可以利用加权系数集中的至少一组加权系数和/或偏置系数集中的一组偏置系数来对其接收的数据进行加权处理。从整体来看，神经网络的输入层接收的数据(音频输入对象)会被相应转换为输出层输出的数据(音频输出结果)。

在一些实施例中，输入层至少包括第一多个神经元用于接收音频输入对象，并且输出层包括第二多个神经元用于输出音频输出结果。优选地，第一多个神经元的数量可以与第二多个神经元的数量相等，也即音频输入对象的每个音频数据帧中包括的一组音频数据的数量与音频输出结果中每个处理后的音频数据帧中包括的一组音频数据的数量相等。换言之，输入的音频输入对象的数据格式与输出的音频输出结果的数据格式是相同的，也即实现了端对端的处理。这可以提高音频处理的兼容性与处理效率。可以理解，输入层还可以包括第三多个神经元用于接收一组用户增益补偿系数。

图2b示出了根据本申请另一实施例的语音提取模型的示例。

如图2b所示，该语音提取模型采用了循环神经网络的结构，其中图2b示出了该循环神经网络中隐含层的层级展开图，隐含层连接在输入层与输出层之间。不同时刻输入对应不同的输出，而且上一时刻的隐含层的值会影响当前时刻的输出。具体地，t-1,t,t+1表示时间序列；X表示输入数据；St表示样本在时刻t处的记忆，也即时刻t处的隐含层的值，其可以表示为S_t＝f(W*S_t-1+U*X_t)。其中，U是输出层到隐含层的权重，W是上个时刻隐含层作为这个时刻输入的权重，V是隐含层到输出层的权重，o是输出数据，f(x)是激活函数。

类似于图2a所示的全连接神经网络的示例，经特定的训练数据训练后，该语音提取模型可以具有加权系数集与偏置系数集，从而每个隐含层可以利用加权系数集中的至少一组加权系数和/或偏置系数集中的一组偏置系数来对其接收的数据进行加权处理。

在一些实施例中，该循环神经网络模型可以包括多个处理层(隐含层)，例如包括至少一个门控循环单元(Gated Recurrent Unit,GRU)子处理层或长短时记忆网络(LongShort Time Memory network，LSTM)子处理层。

图3示出了根据本申请一个实施例的创建基于深度神经网络的语音提取模型的方法。所创建的语音提取模型可以用于后续音频输入对象的处理，也即用于提取并选择性地放大/衰减其中的语音信号。该语音提取模型可以采用图2a或图2b所示的神经网络模型，或者其他适合的深度神经网络模型。

本申请实施例的方法设计了特殊的训练数据，并且用该训练数据对基于深度神经网络的语音提取模型进行训练。

具体地，在训练语音提取模型前，本申请的实施例构建了混合有语音数据和非语音数据的训练数据集，其可以模拟实际噪声环境下的语音数据。此外，本申请的实施例还构建了该训练数据集中语音数据经增益补偿后的数据集，其可以模拟提取并放大/衰减后的语音数据。对于语音提取模型而言，这两个数据集中的数据均为已知数据，此外听力图谱以及及其对应增益补偿系数也是已知数据。这样，利用这些已知数据就可以对语音提取模型训练，从而使得训练后的语音提取模型能够随后对未知音频数据(包含有语音数据和非语音数据)进行类似地处理，以选择性地提取并补偿语音数据。

如图3所示，该方法300起始于步骤302，获取混合音频训练数据集。该混合音频训练数据集包括多个混合音频数据帧，其中每个混合音频数据帧包括以预定增益比混合的语音数据与非语音数据，并且该语音数据与该非语音数据均为时域数据格式。

在一些实施例中，每个混合音频数据帧可以具有预定帧长(例如1至50毫秒，优选10毫秒)，并且包括按时间顺序分布于该预定帧长范围内的多个采样数据点。这些采样数据点可以是以预定采样频率(例如不小于10kHz)采样得到的。由于每个混合音频数据帧均包括以预定增益比混合的语音数据与非语音数据，因此大体每个采样数据点均包括语音数据部分与非语音数据部分。其中，语音数据部分可以是对预定语音信号(纯粹人声，例如特定语言的音素)采样得到的，而非语音数据部分可以是对预定背景噪声信号采样得到的。其中，预定语音信号可以是例如不同性别、年龄、国籍、生理状态、母语的人在语音朗读、日常对话、哼歌、唱歌、叫喊情况等情境下发声所产生的语音信号；而预定背景噪声信号可以是交通工具、风声、水声、室内(例如家庭、办公室、工地、教室等)环境、室外环境、动物、机器运行等产生的背景噪声信号。语音数据部分与非语音数据部分可以以预定增益比混合，该预定增益比例如等于1，或者大于或小于1。在一些实施例中，非语音数据部分可以包括多个预定背景噪声信号，并且这些预定背景噪声信号分别以对应的预定增益比与预定语音信号混合。可以理解，混合音频数据帧中混合的语音数据和非语音数据的来源或类型越多，混合音频训练数据集中的训练数据也越丰富，这有利于后续深度神经网络模型的训练。

在一些实施例中，每个混合音频数据帧X可以由等式(1)表示：

X＝Y+Z 等式(1)

其中，等式(1)中的语音数据Y可以由等式(2)表示：

Y＝{y₀，y₁...y_i...y_N-1} 等式(2)

其中，y_i表示第i个语音数据点，i值为0到N-1，N为自然数，N表示一帧语音数据Y包括的语音数据点的数量。在一些实施例中，语音数据或非语音数据均可以经过预定增益处理，例如被放大或被衰减。在另一些实施例中，语音数据或非语音数据也可以不经过预定增益处理，而仅仅简单叠加。

等式(1)中的非语音数据z可以由等式(3)表示：

其中，表示该混合音频数据帧中的第i个非语音数据点，其与第i个语音数据点相对同时地采样，并且该第i个非语音数据点可以包括分别以预定增益比a_j与语音数据点y_i混合的m个预定背景噪声信号的组合，其中m可以为自然数。在一些实施例中，m可以等于1，也即每个语音数据点与一个非语音数据点混合；在另一些实施例中，m可以大于1，也即每个语音数据点与多个非语音数据点混合，并且它们可以采用相同或不同的预定增益比与语音数据点混合。在一些实施例中，预定增益比可以等于1，或者大于1(放大)，也或者可以小于1(衰减)。

需要说明的是，在此假设每个混合音频数据帧均为短时平稳信号，其在帧长范围内信号无显著变化。在一些实施例中，多个混合音频数据帧可以是部分重叠的，可以通过对混合信号用滑动窗口进行分帧操作来获得部分重叠的多个混合音频数据帧。

可以看出，通过选取不同增益比混合的非语音数据和语音数据，混合音频训练数据库可以包括适合的样本来模拟实际生活中出现的语音环境和待提取的语音对象，这非常有利于后续神经网络的训练。需要说明的是，混合音频训练数据集中的音频数据和增益比均为已知数据。

在步骤304，对每个混合音频数据帧中的语音数据进行傅里叶变换以得到对应的以频域数据格式表示的语音数据。

由于需要对语音数据进行频率补偿，因此在步骤304利用傅里叶变换将语音数据转换为以频域数据格式表示的语音数据S＝{S₀，S₁，...S_k...S_N-1}，如等式(4)表示。

其中，N是每个混合音频数据帧中包括的数据采样点的数量，S_k表示了该语音数据在对应频率处的能量，其中f_s是采样频率。

在确定混合音频训练数据集之后，需要进一步确定对该混合音频训练数据集中的语音数据的补偿结果，该补偿结果需要根据听力障碍患者的听力损失情况来对语音数据进行放大，以补偿他们的听力损失。图3所示的步骤306至310即用于语音数据的针对性补偿。

具体地，在步骤306，获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数，其中每个听力图谱对应一组预定增益补偿系数，并且每组预定增益补偿系数包括对应于不同音频信号频率的多个预定增益补偿系数。

听力图谱的示例如图1a所示，其包括在不同频率下的听力或听力损失。在一些实施例中，这些听力图谱或听力曲线可以随机生成，例如选取8至9个音频信号频率，并且对于每个频率点，可以从0至120dB SPL中随机选择一个数值，从而得到8至9个随频率变化的听力数据。可以理解，在一些实施例中，也可以不随机生成而是选取一些已有代表性听力障碍患者的听力图谱。在一些实施例中，可以以随机生成方式或指定方式获取例如1个、5个、10个、15个、20个、30个、50个、100个、500个、1000个或其他数量的听力图谱，并且每个听力图谱对应于一组预定增益补偿系数。可以理解，听力图谱的数量越多，可以用于训练的数据也就越多。此外，在随机生成听力图谱的情况下，听力图谱的数量越多，与后续实际使用语音提取过程中的用户听力图谱匹配的程度也越高。

类似于图1b所示的增益系数，可以利用各种现有的频率补偿算法来基于每个听力图谱生成一组预定增益补偿系数。在一些实施例中，对于听力图谱范围内的每个音频信号频率，可以分别生成至少一个增益补偿系数，从而得到与该听力图谱对应的一组增益加权系数。在一些实施例中，对于每个音频信号频率，该组增益补偿系数可以包括一个或多个对应的增益补偿系数，并且每个增益补偿系数对应于不同的响度，图1b即为这种增益补偿系数的示例。

优选地，可以采用宽频动态压缩算法(“Wide Dynamic Range Compression”)确定与听力图谱对应的一组增益补偿系数。宽频动态压缩算法可以为至少部分音频信号频率产生随响度变化的多个增益补偿系数，这可以使得声音依频率补偿时不会过响，因此患者使用时的感受会比较好。

可以理解，上述音频信号频率应与在步骤304获得的以频域数据格式表示的语音数据所在的音频信号频率对应。换言之，以频域数据格式表示的语音数据S的每个频率点均应具有对应的增益补偿系数。通常来说，听力图谱本身仅可具有少量的频率点，例如图1a所示的听力图谱仅包括6个频率点，而图1b所示的一组增益补偿系数也仅对应于19个频率点。因此，在一些实施例中，可以通过插值算法来获得与语音数据S的频谱分布对应的增益补偿系数W＝{W₀，...W_k...，W_N-1}。例如，可以通过等式(5)的线性插值算法计算确定每个增益补偿系数。

其中，W_k为在S_k所在频率f(k)对应需要的增益补偿系数，w(f₁)为听力图谱上采样频率在频率f₁处所需要的增益补偿系数，w(f₂)为听力图谱上采样频率在频率f₂处所需要的增益补偿系数。

等式(5)表示了在相同响度下增益补偿系数的插值算法。对于不同响度下增益补偿系数不同的情况，可以分别对每个响度下增益补偿系数进行插值类似的计算。可以理解，经插值得到的一组增益补偿系数可以被表示为随音频信号频率和响度变化的一个二维增益系数矩阵。需要说明的是，在其他的实施例中，增益补偿系数也可以通过其他插值算法计算得到，例如n阶多项式插值，或者其他非线性插值算法。

接着，在步骤308，利用至少一组预定增益补偿系数对每个混合音频数据帧对应的以频域数据格式表示的语音数据进行增益补偿，从而生成经补偿的以频域数据格式表示的语音数据。

具体地，经补偿的以频域数据格式表示的语音数据为H＝{H₀，...H_k...，H_N-1}，每个语音数据H_k可以由等式(6)计算：

H_k＝W_k*S_k，其中k＝0，...，N-1 等式(6)

可以理解，对于不同响度对应不同的增益补偿系数的情况，每个语音数据S_k还包括了响度信息。相应地，与该响度信息对应的增益补偿系数被可以选择以用于对该语音数据S_k进行补偿。

在步骤310，对每个混合音频数据帧对应的经补偿的以频域数据格式表示的语音数据进行逆傅里叶变换，从而生成每个混合音频数据帧对应的经补偿的语音数据，其中所述经补偿的语音数据以时域数据格式表示。

具体地，经补偿的以时域数据格式表示的语音数据为T＝{T₀，...T_n...，T_N-1}，每个语音数据T_n可以由等式(7)表示：

通过上述步骤306至310处理后，每个混合音频数据帧中的语音数据即可被以所需的增益补偿系数进行补偿。

接着，在步骤312，利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型。

在一些实施例中，语音提取模型可以是循环神经网络模型。循环神经网络擅长处理序列数据，它会对前面的信息进行记忆并且参与当前输出的计算，理论上循环神经网络能处理任意长度的序列数据。

在一些实施例中，可以以混合音频训练数据集和与至少一个听力图谱相关联的至少一组预定增益补偿系数作为语音提取模型中输入层的输入，并且以混合音频训练数据集中每个混合音频数据帧对应的经补偿的语音数据作为语音提取模型中输出层的输出，对语音提取模型进行训练，从而使得经训练的语音提取模型具有对应的加权系数集与偏置系数集。

在一些实施例中，可以采用例如逆误差传播(Error Back Propagation)算法或者其他现有神经网络的训练算法来训练语音提取模型。在逆误差传播算法的训练过程中，对于每一个训练样本，其算法先初始化随机的加权系数、偏置系数和阈值参数，然后将相关的已知输入示例(等式(1)表示的混合音频数据帧X)提供给输入层神经元，并一层一层将信号向前传递(输入层->隐含层->输出层)，直到输出层产生输出值。之后，再根据计算产生的输出值与已知输出值(等式(7)表示经补偿的以时域数据格式表示的语音数据T)的误差，而后将误差逆向传播到隐含层的神经元，最终根据隐含层神经元计算得来的误差来调整连接的加权系数和神经元的阈值。逆误差传播算法可以不断地迭代循环执行上述步骤，直到达到训练停止的条件。

图4示出了根据本申请一个实施例的基于深度神经网络的音频处理方法400。

如图4所示，在步骤402，获取基于深度神经网络的语音提取模型。在一些实施例中，该语音提取模型可以是由图3所示的实施例所创建的经特定训练数据训练的语音提取模型。

在步骤404，接收具有语音部分和非语音部分的待处理的音频输入对象，该音频输入对象包括一个或多个音频数据帧，并且这些音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据，其中该音频数据以时域数据格式表示。

在步骤406，获取用户听力图谱以及与用户听力图谱相关联的一组用户增益补偿系数。正如前述，听力障碍患者的听力图谱通常随患者不同而不同，因此用户听力图谱是例如佩戴听力辅助设备的患者自己的听力图谱。接着，可以以类似于图3中步骤306的方式确定与该用户听力图谱相关联的一组用户增益补偿系数。

接着，在步骤408，将音频输入对象与一组用户增益补偿系数输入经训练的语音提取模型，从而得到经训练的语音提取模型输出的音频输出结果，其中音频输出结果以时域数据格式表示。音频输出结果相比于音频输入对象，音频输入对象中非语音部分的至少一部分被削弱或去除。

在一些实施例中，步骤402中获得的经训练的语音提取模型可以是用户定制化的语音提取模型。换言之，在创建训练数据时，例如在图3所示的实施例的步骤306中，所获取的至少一个听力图谱至少包括用户听力图谱，也即利用用户听力图谱来对应地生成补偿的混合音频训练数据集，从而能够用该混合音频训练数据集来训练神经网络模型。模型的训练可以在例如听力辅助设备初始化设置时进行。

在一些实施例中，音频输入对象的每个音频数据帧的帧长为1至50毫秒，采样频率不小于10kHz。音频数据帧可以通过声音采集设备(例如麦克风)采集并且由模数转换设备转换后得到。可以理解，在步骤408得到的音频输出结果可以通过数模转换设备转换为模拟信号。

图5a示出了混合了语音信号与非语音信号的示例性音频信号；图5b和5c示出了现有音频处理方法对图5a所示的示例性音频信号进行处理的结果；图5d示出了用本申请实施例的音频处理方法对图5a所示的示例性音频信号进行处理的结果。

具体地，图5b是仅对示例性音频信号进行现有人声提升处理后的音频信号，可以看出，人声信号被有效提取出来，但是在高频范围，提取出的人声信号响度较低，对于图1a的听力曲线B或C所示的听力障碍患者而言，该提升后的信号仍难以满足他们的听力需求。

图5c对示例性音频信号进行现有人声提升处理后进一步进行了频率补偿的音频信号。可以看出，人声信号的高频范围被放大，这满足了听力障碍患者的听力需求。但是注意到，高频范围的信号基本上均被放大，这导致在没有人声的时刻(例如图中的开始时刻)，高频率背景噪声也被放大，这大大影响了听力障碍患者的听觉感受。

继续参考图5d，可以看出本申请实施例的音频处理方法不仅能够有效分离人声与背景噪声，并且还能够压制与人声同频率的背景噪声。例如，在没有人声的时刻(例如图中的开始时刻)，基本上没有噪声信号被放大。

本申请的音频处理方法可以被用于各种音频设备，并且被实现为耦接到音频设备或集成在音频设备中的音频处理装置。该音频设备例如听力辅助设备或者耳机、移动通信终端等具有音频采集和/或音频输出功能的电子设备等。

需要说明的是，在本申请中，混合音频训练数据集是以语音数据作为期待提取的数据或信号进行设计/处理的。在一些其他的实施例中，如果期待从混合有背景噪声中的音频信号中提取的信号为其他类型的数据/信号，例如乐器声音、动物声音，或者机器运行声音，等等，可以以与语音信号类似的方式进行处理，来创建对应的混合音频训练数据集。之后，可以用这些对应的混合音频训练数据集以及补偿后的音频信号对深度神经网络模型进行训练，从而可以利用训练后的模型对实际信号进行处理。在此不再赘述。

在一些实施例中，本申请还提供了一些计算机程序产品，其包括非暂态计算机可读存储介质。该非暂态计算机可读存储介质包括计算机可执行的代码，用于执行图3或图4所示的方法实施例中的步骤。在一些实施例中，计算机程序产品可以被存储在硬件装置中，例如音频设备中。

本发明的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

应当注意，尽管在上文详细描述中提及了深度神经网络的音频处理方法、装置和存储介质的若干步骤或模块，但是这种划分仅仅是示例性的而非强制性的。实际上，根据本申请的实施例，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本技术领域的一般技术人员可以通过研究说明书、公开的内容及附图和所附的权利要求书，理解和实施对披露的实施方式的其他改变。在权利要求中，措词“包括”不排除其他的元素和步骤，并且措辞“一”、“一个”不排除复数。在本申请的实际应用中，一个零件可能执行权利要求中所引用的多个技术特征的功能。权利要求中的任何附图标记不应理解为对范围的限制。

Claims

1.一种基于深度神经网络的音频处理方法，其特征在于，所述音频处理方法包括：

获取基于深度神经网络的语音提取模型，其中，所述语音提取模型是通过下述步骤创建的：

获取混合音频训练数据集，其中所述混合音频训练数据集包括多个混合音频数据帧，并且每个混合音频数据帧包括混合的语音数据与非语音数据，其中所述语音数据与所述非语音数据均以时域数据格式表示；

获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数，其中每个听力图谱对应一组预定增益补偿系数，并且每组预定增益补偿系数包括对应于不同音频信号频率的多个预定增益补偿系数；

利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿，从而生成经补偿的语音数据；以及

利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型；接收具有语音部分和非语音部分的待处理的音频输入对象，所述音频输入对象包括一个或多个音频数据帧，并且所述一个或多个音频数据帧中的每个音频数据帧具有以预定采样间隔采样的一组音频数据，其中所述音频数据以时域数据格式表示；获取用户听力图谱以及与所述用户听力图谱相关联的一组用户增益补偿系数；以及

将所述音频输入对象与所述一组用户增益补偿系数输入所述经训练的语音提取模型，从而得到所述经训练的语音提取模型输出的音频输出结果，其中所述音频输出结果以时域数据格式表示，并且所述音频输出结果相比于所述音频输入对象削弱或去除了所述音频输入对象中非语音部分的至少一部分。

2.根据权利要求1所述的音频处理方法，其特征在于，每个混合音频数据帧中的语音数据与非语音数据以预定增益比混合。

3.根据权利要求1所述的音频处理方法，其特征在于，所述利用所述至少一组预定增益补偿系数对每个混合音频数据帧包括的语音数据进行增益补偿，从而生成经补偿的语音数据的步骤包括：

对每个混合音频数据帧中的语音数据进行傅里叶变换以得到对应的以频域数据格式表示的语音数据；

利用所述至少一组预定增益补偿系数对每个混合音频数据帧对应的以频域数据格式表示的语音数据进行增益补偿，从而生成经补偿的以频域数据格式表示的语音数据；以及

对每个混合音频数据帧对应的经补偿的以频域数据格式表示的语音数据进行逆傅里叶变换，从而生成每个混合音频数据帧对应的经补偿的语音数据，其中所述经补偿的语音数据以时域数据格式表示。

4.根据权利要求1所述的音频处理方法，其特征在于，所述利用所述混合音频训练数据集以及其中每个混合音频数据帧对应的经补偿的语音数据对所述基于深度神经网络的语音提取模型进行训练以得到经训练的语音提取模型的步骤包括：

以所述混合音频训练数据集和与所述至少一个听力图谱相关联的至少一组预定增益补偿系数作为所述语音提取模型中输入层的输入，并且以所述混合音频训练数据集中每个混合音频数据帧对应的经补偿的语音数据作为所述语音提取模型中输出层的输出，对所述语音提取模型进行训练。

5.根据权利要求1所述的音频处理方法，其特征在于，对所述语音提取模型进行训练是使用逆误差传播算法进行的。

6.根据权利要求1所述的音频处理方法，其特征在于，所述经训练的语音提取模型具有加权系数集与偏置系数集，所述经训练的语音提取模型包括多个子处理层，每个子处理层利用所述加权系数集中的至少一组加权系数对每个音频数据帧进行加权处理。

7.根据权利要求6所述的音频处理方法，其特征在于，所述深度神经网络是循环神经网络。

8.根据权利要求7所述的音频处理方法，其特征在于，所述多个子处理层包括至少一个门控循环单元子处理层或长短时记忆网络子处理层。

9.根据权利要求1所述的音频处理方法，其特征在于，所述语音提取模型的输入层至少包括第一多个神经元用于接收所述音频输入对象，并且所述语音提取模型的输出层包括第二多个神经元用于输出所述音频输出结果，其中第一多个神经元的数量与所述第二多个神经元的数量相等。

10.根据权利要求9所述的音频处理方法，其特征在于，所述语音提取模型的输入层还包括第三多个神经元用于接收所述一组用户增益补偿系数。

11.根据权利要求1所述的音频处理方法，其特征在于，获取至少一个听力图谱以及相关联的至少一组预定增益补偿系数包括：

获取至少一个听力图谱；以及

对于每个听力图谱，选取所述听力图谱频率范围内的多个不同的音频信号频率，利用宽频动态范围压缩算法确定所述多个不同的音频信号频率分别对应的多个预定增益补偿系数。

12.根据权利要求11所述的音频处理方法，其特征在于，所述至少一个听力图谱是随机生成的。

13.根据权利要求1所述的音频处理方法，其特征在于，所述至少一个听力图谱包括所述用户听力图谱。

14.根据权利要求1所述的音频处理方法，其特征在于，所述音频输入对象的每个音频数据帧的帧长为1至50毫秒，采样频率不小于10kHz。

15.根据权利要求1所述的音频处理方法，其特征在于，对于每个音频信号频率，每组预定增益补偿系数包括一个或多个对应的预定增益补偿系数，并且每个预定增益补偿系数对应于不同的响度。

16.一种基于深度神经网络的音频处理装置，其特征在于，所述音频处理装置包括非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行下述步骤：

17.根据权利要求16所述的音频处理装置，其特征在于，所述音频处理装置是辅助听力设备。

18.一种非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行下述步骤：