CN110797038A

CN110797038A - 音频处理方法、装置、计算机设备及存储介质

Info

Publication number: CN110797038A
Application number: CN201911059849.5A
Authority: CN
Inventors: 陈法圣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-14
Anticipated expiration: 2039-10-30
Also published as: WO2021082823A1; CN110797038B; US20220084532A1; US11869524B2; EP3982362A4; EP3982362A1; EP3982362B1

Abstract

本申请是关于一种音频处理方法、装置、计算机设备及存储介质，涉及音频处理技术领域。该方法包括：获取采样率为第一采样率的第一音频数据，通过超分辨率模型对第一音频数据进行处理，并根据超分辨率模型的输出结果获得第二音频数据，第二音频数据的采样率为第二采样率，第二采样率是该第一采样率的N倍，本申请中的模型能够较为准确的还原出低采样率的音频数据中缺失的高频成分，也就是说，通过上述超分辨率模型对低采样率的音频数据处理得到高采样率的音频数据的方案，能够显著的提高音频处理的效果。

Description

音频处理方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及音频处理技术领域，特别涉及一种音频处理方法、装置、计算机设备及存储介质。

背景技术

随着数字音乐技术的不断发展，用户对于音频或者视频的音质的要求也越来越高，这就需要音频播放产品(设备或者应用程序)能够提供更高采样率的音频数据。

在相关技术中，为音乐播放提供支持的设备或者应用程序能够通过预设的音频数据算法，对低采样率的音频数据进行超分辨率处理，获得高分辨率的音频数据。比如，可以通过基于一维插值的音频数据上采样算法，或者，通过基于傅立叶变换的音频数据上采样算法对低采样率的音频数据进行上采样处理。

由于低采样率的音频数据相对于原始音频而言，通常会缺失很多高频成分，而通过相关技术中的音频数据上采样算法无法对上述缺失的高频成分进行弥补，导致音频处理结果较差。

发明内容

本申请实施例提供了一种音频处理方法、装置、计算机设备及存储介质，可以提高对音频数据的超分辨率处理结果，技术方案如下：

一方面，提供了一种音频处理方法，所述方法包括：

获取第一音频数据，所述第一音频数据的采样率为第一采样率；

通过超分辨率模型对所述第一音频数据进行处理，获得所述超分辨率模型的输出结果；所述超分辨率模型是以第一音频样本为输入数据，以第二音频样本为目标数据进行深度学习训练获得的机器学习模型；所述第一音频样本是通过对所述第二音频样本进行N倍降采样获得的，N为大于或者等于2的整数；

根据所述超分辨率模型的输出结果获得第二音频数据，所述第二音频数据的采样率为第二采样率；所述第二采样率是所述第一采样率的N倍。

另一方面，提供了一种音频处理装置，所述装置包括：

音频数据获取模块，用于获取第一音频数据，该第一音频数据的采样率为第一采样率；

超分辨率处理模块，用于通过超分辨率模型对第一音频数据进行处理，获得超分辨率模型的输出结果；该超分辨率模型是以第一音频样本为输入数据，以第二音频样本为目标数据进行深度学习训练获得的机器学习模型；该第一音频样本是通过对第二音频样本进行N倍降采样获得的，N为大于或者等于2的整数；

音频数据获得模块，用于根据超分辨率模型的输出结果获得第二音频数据，该第二音频数据的采样率为第二采样率；该第二采样率是第一采样率的N倍。

可选的，该第一音频数据是对应R个音轨的音频数据，R为大于或者等于1的整数；

该超分辨率处理模块，包括：

音轨划分子模块，用于将第一音频数据分为R个第一单音轨音频数据；该第一单音轨音频数据的采样率为第一采样率；

模型处理子模块，用于通过超分辨率模型对R个第一单音轨音频数据分别进行处理，获得R个第一单音轨音频数据分别对应的第二单音轨音频数据；该第二单音轨音频数据的采样率为第二采样率；

该音频数据获得模块，用于将R个第一单音轨音频数据分别对应的第二单音轨音频数据进行音轨合成，获得第二音频数据。

可选的，该超分辨率模型包括输入层、特征提取层、上采样层和输出层；

该模型处理子模块，用于，

通过输入层，将目标单音轨音频数据中长度为M/N的音频数据序列组织为输入数据单元，该输入数据单元的尺寸为M/N×1×1，M/N是大于或者等于2的整数；该目标单音轨音频数据是R个第一单音轨音频数据中的任意一个单音轨音频数据；

通过特征提取层，对输入数据单元进行特征提取，获得尺寸为M/N×1×S的特征数据单元，S为特征数据单元的通道数，且S为大于或者等于2的整数；

通过上采样层，对特征数据单元进行N倍上采样，获得尺寸为M×1×1的上采样数据单元；

通过输出层，根据上采样数据单元输出目标单音轨音频数据对应的第二单音轨音频数据中，长度为M的音频数据序列。

可选的，该上采样层包括第一卷积层和数据重排层；

在通过上采样层，对特征数据单元进行N倍上采样，获得尺寸为M×1×1的上采样数据单元时，所述模型处理子模块，用于，

通过第一卷积层的卷积处理，将特征数据单元转化为待采样数据单元，该待采样数据单元的尺寸为M/N×1×N；

通过数据重排层，将待采样数据单元的第一个维度和第二个维度的数据交换，并对数据交换后的待采样数据单元进行维度变换，获得上采样数据单元。

可选的，该装置还包括：

第一模型获取模块，用于在超分辨率处理模块通过超分辨率模型对第一音频数据进行处理，获得超分辨率模型的输出结果之前，获取与第一采样率和第二采样率相对应的超分辨率模型；

其中，该第一音频样本的采样率为第一采样率，第二音频样本的采样率为第二采样率。

可选的，该装置还包括：

第二模型获取模块，用于在超分辨率处理模块通过超分辨率模型对第一音频数据进行处理，获得超分辨率模型的输出结果之前，获取与超分辨率倍数相对应的该超分辨率模型；该超分辨率倍数是该第二采样率相对于该第一采样率的倍数N；

其中，该第一采样率与该第二音频采样率之间的倍数关系，等于该第一音频样本的采样率与该第二音频样本的采样率之间的倍数关系。

可选的，该第一音频样本和该第二音频样本分别是单音轨音频数据；

该装置还包括：

输入模块，用于在超分辨率处理模块通过超分辨率模型对第一音频数据进行处理，获得超分辨率模型的输出结果之前，将该第一音频样本输入深度学习模型，获得该第一音频样本对应的超分辨率音频数据，该超分辨率音频数据的采样率是该第一音频样本的N倍；该深度学习模型的模型结构与该超分辨率模型的模型结构相同；

损失计算模块，用于根据该第二音频样本以及该超分辨率音频数据计算损失函数值；

更新模块，用于根据该损失函数值对该深度学习模型的模型参数进行更新；

第三模型获取模块，用于当该深度学习模型收敛时，将该深度学习模型作为该超分辨率模型。

可选的，该装置还包括：

拆分模块，用于在输入模块将该第一音频样本输入深度学习模型，获得该第一音频样本对应的超分辨率音频数据之前，对原始音频样本进行音轨拆分，获得原始单音轨音频；

第一降采样模块，用于对该原始单音轨音频进行降采样处理，获得长度为M的该第二音频样本；M是所述超分辨率模型输出的音频数据序列的单位长度，且M/N是大于或者等于2的整数；

第二降采样模块，用于对该第二音频样本进行N倍降采样处理，获得长度为M/N的该第一音频样本。

可选的，该第二降采样模块，用于，

通过指定降采样算法对该第二音频样本进行N倍降采样处理，获得长度为M/N的该第一音频样本；

该指定降采样算法包括基于均值滤波的降采样算法、基于一维线性插值的降采样算法或者基于傅立叶插值的降采样算法。

可选的，该更新模块，用于，

根据该损失函数值，通过指定参数优化算法对该深度学习模型的模型参数进行更新；

该指定参数优化算法包括拟牛顿算法或者梯度下降算法。

可选的，该损失计算模块，用于计算该第二音频样本与该超分辨率音频数据之间的最小平方误差，获得该损失函数值。

又一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的音频处理方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的音频处理方法。

本申请提供的技术方案可以包括以下有益效果：

通过获取采样率为第一采样率的第一音频数据，通过超分辨率模型对第一音频数据进行处理，并根据超分辨率模型的输出结果获得第二音频数据，第二音频数据的采样率为第二采样率，第二采样率是该第一采样率的N倍，其中，由于超分辨率模型是以第一音频样本为输入数据，以第二音频样本为目标数据进行深度学习训练获得的机器学习模型，且该第一音频样本是通过对该第二音频样本进行N倍降采样获得的，因此，该模型能够较为准确的还原出低采样率的音频数据中缺失的高频成分，也就是说，通过上述超分辨率模型对低采样率的音频数据处理得到高采样率的音频数据的方案，能够显著的提高音频处理的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种模型训练及应用的框架图；

图2是根据一示例性实施例实施例示出的一种音频处理流程示意图；

图3是根据一示例性实施例示出的一种音频处理方法的流程图；

图4是图3所示实施例涉及的一种超分辨率模型的模型结构图；

图5是图3所示实施例涉及的一种音频处理流程框架图；

图6是根据一示例性实施例示出的一种模型训练方法的流程图；

图7是图6所示实施例涉及的样本获取流程图；

图8是图6所示实施例涉及的模型训练流程示意图；

图9是是根据一个示例性实施例示出的音频处理流程框架图；

图10是本申请一个示例性实施例提供的音频处理装置的方框图；

图11是本申请一个示例性实施例提供的模型训练装置的方框图；

图12是根据一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请提出了一种音频处理方案，该方案能够训练获得用于超分辨率处理的机器学习模型，并通过机器学习模型尽可能准确的补充低采样率音频数据中缺失的高频成分，从而基于人工智能(Artificial Intelligence，AI)实现高准确性高效并且高准确率的音频数据超分辨率处理。为了便于理解，下面对本申请涉及到的一些概念进行解释。

(1)音频超分辨率技术

在本申请中，音频超分辨率技术是指通过算法提高音频信号采样率的技术。相比于传统插值算法而言，音频超分辨率技术能够更好的恢复低频率采样丢失的高频信号，得到的音频听起来更加丰富饱满。

(2)人工智能AI

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的方案主要涉及人工智能中的机器学习/深度学习等技术。

(3)机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

(4)深度学习(DL，Deep Learning)

深度学习是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

在目前的网络应用中，大部分音频或者视频的音轨或者音频文件的采样率只能达到最低的无损标准(即44.1kHz，从专业角度来看比较低)。传统观念认为，人耳只能听到2万Hz左右的声音，但是近期某些研究表明，高于2万Hz的声音也可以被人感知到。而从市场而言，业内顶级的音乐播放器制造商的移动式音乐播放器最高已经可以播放2.1MHz的音频文件，这是传统44.1kHz采样率的约4.7倍。而从实际体验上来说，如果使用相对专业一些的音箱&耳机，大部分用户能够听出96kHz的音频文件与44.1kHz区别，明显能够感觉到96kHz采样率的音频文件音质更好。随着市场上高级的、专业的音频设备正在越来越广的出现(例如降噪耳机、电视回音壁、音箱、音乐播放器等等)，用户对于高采样率的音频的需求也越来越高。而本申请所示的方案通过音频超分辨率技术，能够给用户带来更好的音质体验。

本申请后续各个实施例的方案是一种训练以及应用机器学习模型的方案。图1是根据一示例性实施例示出的一种模型训练及应用的框架图。如图1所示，在模型训练阶段，模型训练设备110通过不同采样率的音频样本，通过深度学习的方式训练出用于自动对音频数据进行高质量的上采样处理的超分辨率模型，在应用阶段，音频处理设备120根据训练好的超分辨率模型以及输入的低采样率的音频数据，自动生成还原高频成分的高采样率的音频数据。

其中，上述模型训练设备110和音频处理设备120可以是具有机器学习能力的计算机设备，比如，该计算机设备可以是个人电脑、服务器等固定式计算机设备，或者，该计算机设备也可以是具有音频播放功能的终端，包括但不限于智能手机、平板电脑等移动终端，以及，耳机、音箱、智能电视等专业的播放设备等等。

可选的，上述模型训练设备110和音频处理设备120可以是同一个设备，或者，模型训练设备110和音频处理设备120也可以是不同的设备。并且，当模型训练设备110和音频处理设备120是不同的设备时，模型训练设备110和音频处理设备120可以是同一类型的设备，比如模型训练设备110和音频处理设备120可以都是服务器；或者，模型训练设备110和音频处理设备120也可以是不同类型的设备，比如模型训练设备110可以是服务器，而音频处理设备120可以是具有音乐播放功能的终端等。本申请实施例对于模型训练设备110和音频处理设备120的具体类型不做限定。

比如，当上述模型训练设备是服务器，音频处理设备是具有音频播放供功能的终端为例，开发人员可以通过服务器来构建训练数据集并训练超分辨率模型，并将训练得到的超分辨率模型提供给终端，用户在使用终端播放音频时，终端可以主动或者在用户触发控制下，对音频数据进行超分辨率处理。

再比如，当上述模型训练设备和音频处理设备是同一个设备，比如，上述模型训练设备和音频处理设备是同一个服务器时，开发人员可以通过服务器来构建训练数据集并训练超分辨率模型，用户通过终端播放音频时，终端可以向服务器请求音频超分辨率服务，该服务器可以对该终端播放的音频数据进行超分辨率处理，并将超分辨率处理后的音频数据发送给终端进行播放。

图2是根据一示例性实施例实施例示出的一种音频处理流程示意图。其中，该音频处理流程可以由计算机设备执行，该计算机设备可以是包含有超分辨率模型的音频处理设备，比如，该音频处理设备可以是上述图1所示的音频处理设备120。上述音频处理流程可以如下：

S21，获取第一音频数据，该第一音频数据的采样率为第一采样率。

其中，音频数据的采样率，是指在一秒钟内对声音信号的采样次数，采样率越高，则声音的还原就越真实越自然。

声音其实是一种能量波，其也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。由于波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，在数字编码过程中，通常对声音信号的弦线上的点进行采样。该采样的过程是指抽取某时间点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，从人耳能够感觉到的最高频率为20kHz的角度出发，要满足人耳的听觉要求，需要至少每秒进行40k次采样，其用40kHz表达，而这个40kHz就是采样率。常见的音频载体中携带的音频的采样率通常为44.1kHz。

S22，通过超分辨率模型对该第一音频数据进行处理，获得该超分辨率模型的输出结果。其中，该超分辨率模型是以第一音频样本为输入数据，以第二音频样本为目标数据进行深度学习训练获得的机器学习模型；该第一音频样本是通过对该第二音频样本进行N倍降采样获得的，N为大于或者等于2的整数。

S23，根据该超分辨率模型的输出结果获得第二音频数据，该第二音频数据的采样率为第二采样率；该第二采样率是该第一采样率的N倍。

在本申请实施例中，第一音频样本是由第二音频样本进行N倍降采样得到的，因此，第二音频样本中包含有第一音频样本中缺失的部分高频成分，因此，以第一音频样本为输入，并以第二音频样本为目标训练出的深度学习模型，能够较为准确的还原出低采样率的音频数据中缺失的高频成分，也就是说，通过上述超分辨率模型对低采样率的音频数据处理得到高采样率的音频数据的方案，相对于简单的通过插值方法得到的高采样率的音频数据的方案来说，能够显著的提高音频处理的效果。

图3是根据一示例性实施例示出的一种音频处理方法的流程图，该音频处理方法可以用于计算机设备，比如上述图1所示的音频处理设备120中，以对低采样率的第一音频数据进行超分辨率处理，获得高采样率的第二音频数据。。如图3所示，该音频处理方法可以包括如下步骤：

步骤301，获取第一音频数据，该第一音频数据的采样率为第一采样率；

其中，上述第一音频数据可以是独立的音乐文件中的音频数据，或者，也可以是视频中携带的音频数据。

在获取到上述第一音频数据之后，音频处理设备即可以通过超分辨率模型对该第一音频数据进行处理，获得该超分辨率模型的输出结果。其中，该超分辨率模型是以第一音频样本为输入数据，以第二音频样本为目标数据进行深度学习训练获得的机器学习模型；该第一音频样本是通过对该第二音频样本进行N倍降采样获得的，N为大于或者等于2的整数。

在本申请实施例中，对第一音频数据进行超分辨率处理的步骤可以由第一音频数据的用户触发，或者，也可以由音频处理设备主动触发。

例如，在播放上述第一音频数据的音频播放界面中，包含一个音质调整控件，当用户对该音质调整控件执行了触发操作时，音频处理设备接收到该触发操作对应的触发指令，此时，音频处理设备可以执行后续对该第一音频数据进行超分辨率处理的步骤。

在例如，音频处理设备在获取到上述第一音频数据之后，可以检测该第一音频数据对应的第一采样率是否满足超分辨率处理条件，比如，当音频处理设备检测到该第一采样率低于预设的采样率阈值时，可以触发后续对该第一音频数据进行超分辨率处理的步骤。

步骤302，将该第一音频数据分为R个第一单音轨音频数据；该第一单音轨音频数据的采样率为该第一采样率。

在本申请实施例中，上述第一音频数据可以是对应R个音轨的音频数据，R为大于或者等于1的整数。在对该第一音频数据进行超分辨率处理时，音频处理设备可以按照音轨对该的第一音频数据进行划分，将第一音频数据中每个音轨对应的音频数据划分为一份单音轨音频数据，有R个音轨，即可以得到R个第一单音轨音频数据，并且，每个第一单音轨音频数据的采样率均为上述第一采样率。

步骤303，通过该超分辨率模型对该R个第一单音轨音频数据分别进行处理，获得该R个第一单音轨音频数据分别对应的第二单音轨音频数据。

其中，该第二单音轨音频数据的采样率为该第二采样率，该第二采样率是该第一采样率的N倍。

在本申请实施例中，对于每一个第一单音轨音频数据，音频处理设备单独通过超分辨率模型对该第一单音轨音频数据进行超分辨率处理，每个第一单音轨音频数据经过超分辨率模型的处理后，可以得到对应的一个第二采样率的第二单音轨音频数据。

在一种可能的实现方式中，上述超分辨率模型可以包括输入层、特征提取层、上采样层和输出层。

音频处理设备通过该超分辨率模型对该R个第一单音轨音频数据分别进行处理，获得该R个第一单音轨音频数据分别对应的第二单音轨音频数据时，可以执行如下步骤：

S303a，通过该输入层，将目标单音轨音频数据中长度为M/N的音频数据序列组织为输入数据单元，该输入数据单元的尺寸为M/N×1×1，M/N是大于或者等于2的整数；该目标单音轨音频数据是该R个第一单音轨音频数据中的任意一个单音轨音频数据。

其中，第一单音轨音频数据可以视为一个一维的音频数据序列，超分辨率模型中的输入层可以对该第一单音轨音频数据进行维度扩展，得到一个三维的输入数据单元。

其中，M/N是输入超分辨率模型进行处理的音频数据序列的单位长度，也就是说，超分辨率模型以输入的长度为M/N的音频数据序列为单位进行处理。

S303b，通过该特征提取层，对该输入数据单元进行特征提取，获得尺寸为M/N×1×S的特征数据单元，S为该特征数据单元的通道数，且S为大于或者等于2的整数。

其中，上述特征提取层可以包含至少一层巻积层，每一层巻积层对上一层输入的数据单元进行卷积处理，最后输出尺寸为M/N×1×S的特征数据单元。

S303c，通过该上采样层，对该特征数据单元进行N倍上采样，获得尺寸为M×1×1的上采样数据单元。

在本申请实施例中，对于每一个由长度为M/N的音频数据序列处理得到的特征数据单元，上采样层可以对该特征数据单元进行处理，得到M×1×1的上采样数据单元。

S303d，通过该输出层，根据该上采样数据单元输出该目标单音轨音频数据对应的第二单音轨音频数据中，长度为M的音频数据序列。

其中，该M是超分辨率模型输出的音频数据序列的单位长度。在本申请实施例中，由于上采样层输出的结果是一个三维数据，需要通过输出层将该三维的上采样数据单元转化为长度为M的一维音频数据序列。

可选的，该上采样层包括第一卷积层和数据重排层；在通过该上采样层，对该特征数据单元进行N倍上采样，获得尺寸为M×1×1的上采样数据单元时，音频处理设备可以通过该第一卷积层的卷积处理，将该特征数据单元转化为待采样数据单元，该待采样数据单元的尺寸为M/N×1×N；然后再通过该数据重排层，将该待采样数据单元的第一个维度和第二个维度的数据交换，并对数据交换后的该待采样数据单元进行维度变换，获得该上采样数据单元。

比如，请参考图4，其示出了本申请实施例涉及的一种超分辨率模型的模型结构图。如图4所示，该超分辨率模型包括输入层41、特征提取层42、上采样层43以及输出层44。

其中，特征提取层42包括至少一层巻积层，即图4中的巻积层1至5。

上采样层43包括一层巻积层(相当于上述第一卷积层)，即图4中的巻积层6，以及数据重排层。

上述输入层、巻积层1至6以及数据重排层的相关属性如下表1所示。

表1

可选的，在通过超分辨率模型对该第一音频数据进行处理，获得该超分辨率模型的输出结果之前，音频处理设备还可以获取与该第一采样率和该第二采样率相对应的该超分辨率模型。

其中，该第一音频样本的采样率为该第一采样率，该第二音频样本的采样率为该第二采样率。

在本申请实施例中，上述音频处理设备对第一音频数据进行处理获得第二音频数据时，使用的超分辨率模型可以是与第一采样率和第二采样率的采样率数值直接对应的模型，也就是说，训练该超分辨率模型所使用的训练数据的采样率也是第一采样率和第二采样率。

比如，假设第一音频数据的第一采样率为44.1kHz，获得的第二音频样本的采样率为88.2kHz，则相应的，音频处理设备在获取上述超分辨率模型时，可以选取通过44.1kHz的第一音频样本和88.2kHz的第二音频样本训练获得的超分辨率模型。

可选的，在通过超分辨率模型对该第一音频数据进行处理，获得该超分辨率模型的输出结果之前，音频处理设备还可以获取与超分辨率倍数相对应的该超分辨率模型；该超分辨率倍数是该第二采样率相对于该第一采样率的倍数N。

在本申请实施例中，上述音频处理设备对第一音频数据进行处理获得第二音频数据时，使用的超分辨率模型也可以是与第一采样率和第二采样率之间的倍数关系对应的模型，也就是说，训练该超分辨率模型所使用的训练数据的采样率之间的倍数，需要与第一采样率和第二采样率之间的倍数相同，而训练该超分辨率模型所使用的训练数据的采样率，并不一定需要与第一采样率和第二采样率完全相同。

比如，假设第一音频数据的第一采样率为44.1kHz，获得的第二音频样本的采样率为88.2kHz，则相应的，音频处理设备在获取上述超分辨率模型时，可以选取通过两倍降分辨率得到的第一音频样本和第二音频样本训练得到的模型，比如，训练该模型的样本，可以是44.1kHz的第一音频样本和88.2kHz的第二音频样本，也可以是22.01kHz的第一音频样本和44.1kHz的第二音频样本。

步骤304，将该R个第一单音轨音频数据分别对应的第二单音轨音频数据进行音轨合成，获得该第二音频数据。

在本申请实施例中，音频处理设备得到每个第一单音轨音频数据分别对应的第二单音轨音频数据，可以将各个第二单音轨音频数据按照各自对应的第一单音轨音频数据的音轨进行合成，得到上述第二音频数据。

其中，音频处理设备对各个第一单音轨音频数据进行处理时，为了提高处理速度，音频处理设备可以对各个第一单音轨音频数据并行进行处理，也就是说，对于每一个第一单音轨音频数据，音频处理设备通过一个超分辨率模型对其单独进行处理，且对各个第一单音轨音频数据的处理并行执行。

比如，请参考图5，其示出了本申请实施例涉及的一种音频处理流程框架图。如图5所示，对于多音轨的第一音频数据，音频处理设备对第一音频数据进行音轨划分(S51)，得到R个第一单音轨音频数据，即图5中的第一单音轨音频数据1至第一单音轨音频数据R；音频处理设备将R个第一单音轨音频数据分别输入R个超分辨率模型中的一个(S52)，得到每个超分辨率模型对应输出的第二单音轨音频数据，即图5中的第二单音轨音频数据1至第二单音轨音频数据R；音频处理设备将第二单音轨音频数据1至第二单音轨音频数据R进行多音轨合成(S53)，得到多音轨且超分辨率处理后的第二音频数据。

通过本申请实施例提供的方法，能够显著减少音频超分辨率模型处理的数据量，使得模型的处理速度大大增加。在实际测试中，使用m40型号的GPU，使用上述参数的模型，能够以超越实时的速度，将22.01kHz的音频，提升到44.1kHz的采样率(约2倍于实时的速度)，这也就意味着，理论上将44.1kHz的音频提升到88.2kHz，可以达到几乎实时，换句话说，将本申请所示的方案应用在音频播放终端中，在预先不做处理的情况下，音频播放终端可以在播放原本采样率只有44.1kHz的音频的过程中，将该音频实时超分辨率处理为88.2kHz的高品质音频。

综上所述，本申请实施例所示的方案，音频处理设备获取采样率为第一采样率的第一音频数据，通过超分辨率模型对第一音频数据进行处理，并根据超分辨率模型的输出结果获得第二音频数据，第二音频数据的采样率为第二采样率，第二采样率是该第一采样率的N倍，其中，由于超分辨率模型是以第一音频样本为输入数据，以第二音频样本为目标数据进行深度学习训练获得的机器学习模型，且该第一音频样本是通过对该第二音频样本进行N倍降采样获得的，因此，该模型能够较为准确的还原出低采样率的音频数据中缺失的高频成分，也就是说，通过上述超分辨率模型对低采样率的音频数据处理得到高采样率的音频数据的方案，能够显著的提高音频处理的效果。

其中，上述图2或图3所示实施例中涉及到的超分辨率模型，可以由模型训练设备预先训练得到。请参考图6，其是根据一示例性实施例示出的一种模型训练方法的流程图，该方法可以用于计算机设备，比如上述图1所示的模型训练设备110中，以训练获得图2或图3所示实施例中涉及的超分辨率模型。如图6所示，该模型训练方法可以包括如下步骤：

步骤601，对原始音频样本进行音轨拆分，获得原始单音轨音频；对该原始单音轨音频进行降采样处理，获得长度为M的该第二音频样本。

其中，第二音频样本的采样率为第二采样率。

其中，上述对该原始单音轨音频样本进行降采样处理时，降采样的倍数可以由需要得到的第二音频样本的采样率，以及原始单音轨音频样本的采样率确定。

步骤602，对该第二音频样本进行N倍降采样处理，获得长度为M/N的该第一音频样本。

其中，第一音频样本的采样率为第一采样率。

其中，该第一音频样本和该第二音频样本分别是单音轨音频数据。

在本申请实施例中，模型训练设备在对该第二音频样本进行N倍降采样处理，获得长度为M/N的该第一音频样本时，可以通过指定降采样算法对该第二音频样本进行N倍降采样处理，获得长度为M/N的该第一音频样本；其中，该指定降采样算法包括基于均值滤波的降采样算法、基于一维线性插值的降采样算法或者基于傅立叶插值的降采样算法。

其中，以采用基于均值滤波的降采样算法为例，记超分辨率倍数为N，第二音频样本的长度为M(M是N的整数倍)，则使用长度为N的一维线性卷积核，按照步长为N，对第二音频样本进行卷积，其中卷积操作不做填充(padding)，这样即可得到对应的第一音频样本。

其中，上述M是待训练的超分辨率模型输出的音频数据序列的单位长度，也就是说，通过本申请实施例训练得到的超分辨率模型，将以M为单位长度输出超分辨率处理后的音频数据序列。M的数值可以由开发人员预先设置，比如，M可以设置为N的5倍。

相应的，在上述步骤601中，模型训练设备也可以按照相同的指定降采样算法，对该原始单音轨音频样本进行降采样处理，获得长度为M的该第二音频样本。

在本申请实施例中，可以使用高采样率的原始音频样本来生成训练使用的第一音频样本和第二音频样本。比如，可以使用192kHz采样率的高品质音频作为原始音频样本，来生成超分辨率模型的训练集。

请参考图7，其示出了本申请实施例涉及的样本获取流程图。如图7所示，通过原始音频样本生成训练集的过程可以如下：

S71，模型训练设备将原始音频样本拆分成各个单音轨的原始单音轨音频。

S72，模型训练设备使用降采样算法，按照需求的降采样倍数，降低原始单音轨音频的采样率，得到原始单音轨音频样本。

降采样的倍数可以根据第二音频样本的采样率来设定，对于不同超分辨率倍数的模型，可以分别设置降采样倍数，比如，可以设置降采样的倍数为0.1～1倍，其中1倍表示不降低采样率。

S73，从原始单音轨音频样本中，截取第二音频样本。

例如，记超分辨率的倍数为N，N为整数，第二音频样本长度为M(其中M要是N的整数倍)，步长为H，也就是说，在原始单音轨音频样本上，从第一个采样点开始，每隔H个采样点，选取片段起始位置，然后以起始位置开始，截取出长度为M的音频片段。对于在音频最后无法达到截取出长度为M的音频片段则可以舍去不要。

S74，使用降采样算法，降低第二音频样本的采样率，得到长度为M/N的第一音频样本。

S75，将每对第一音频样本与第二音频样本成对组合，所有的数据对组成训练超分辨率模型所使用的数据集。

步骤603，将该第一音频样本输入深度学习模型，获得该第一音频样本对应的超分辨率音频数据，该超分辨率音频数据的采样率是该第一音频样本的N倍；该深度学习模型的模型结构与该超分辨率模型的模型结构相同。

其中，本步骤中通过深度学习模型对第一音频样本进行处理的过程，与上述图3所示实施例中通过超分辨率模型对第一单音轨音频数据进行处理的过程类似，此处不再赘述。

步骤604，根据该第二音频样本以及该超分辨率音频数据计算损失函数值。

在一种可能的实现方式中，模型训练设备可以计算该第二音频样本与该超分辨率音频数据之间的最小平方误差，获得该损失函数值。

除了最小平方误差之外，还可以通过其它方式计算该损失函数，比如，模型训练设备可以计算第二音频样本与超分辨率音频数据之间的绝对误差作为损失函数值等。对于损失函数值的计算方法，本申请实施例不做限定。

步骤605，根据该损失函数值对该深度学习模型的模型参数进行更新。

在本申请实施例中，模型训练设备可以根据该损失函数值，通过指定参数优化算法对该深度学习模型的模型参数进行更新；其中，该指定参数优化算法包括拟牛顿算法或者梯度下降算法。

步骤606，当该深度学习模型收敛时，将该深度学习模型作为超分辨率模型。

本申请实施例所示的方法，可以通过定义损失函数值(loss)，使用参数优化算法优化模型参数的值来减小loss，最终得到训练出的超分辨率模型。比如，以损失函数值为最小平方误差为例，请参考图8，其示出了本申请实施例涉及的模型训练流程示意图。如图8所示，模型训练设备训练超分辨率模型的流程可以包括如下步骤：

S81，模型训练设备将第一音频样本输入到深度学习模型中，输出得到超分辨率音频数据。

其中，该深度学习模型的模型结构可以与图3所示实施例中涉及的模型结构相同。

S82，模型训练设备计算所有超分辨率音频数据与第二音频样本的最小平方误差，得到待优化的损失函数值。

S83，模型训练设备使用参数优化算法(比如使用二阶拟牛顿法)，迭代深度学习模型的参数值，使得损失函数值最小。

经过充分迭代，直到迭代次数大于给定阈值(比如20万次)，或者，得到的平均平方误差小于给定阈值(比如0.03)，模型训练设备即可以将深度学习模型的模型参数获取为后续进行音频处理使用的超分辨率模型的模型参数。

综上所述，本申请实施例所示的方案，由于超分辨率模型是以第一音频样本为输入数据，以第二音频样本为目标数据进行深度学习训练获得的机器学习模型，且该第一音频样本是通过对该第二音频样本进行N倍降采样获得的，因此，该模型能够较为准确的还原出低采样率的音频数据中缺失的高频成分，也就是说，通过上述超分辨率模型对低采样率的音频数据处理得到高采样率的音频数据的方案，能够显著的提高音频处理的效果。

请参考图9，其是根据一个示例性实施例示出的音频处理流程框架图。如图9所示，本申请所示的方案主要涉及三个部分，分别为：

S91，构造训练音频超分辨率模型的数据集。

在S91部分，可以通过降采样算法，对高采样率的音频文件进行降采样处理，得到低采样率的音频文件，进而构造训练数据集。该过程可以参考上述图6所示实施例中的步骤601和步骤602下的描述，此处不再赘述。

S92，训练音频超分辨率模型。

在S92部分，可以通过S91部分构造的数据集，进行深度学习训练，得到超分辨率模型，该过程可以参考上述图6所示实施例中的步骤603至步骤606下的描述，此处不再赘述。

S93，使用训练好的音频超分辨率模型进行音频处理。

在S93部分，可以将待处理的音频数据输入至超分辨率模型，根据超分辨率模型的输出结果得到更高采样率，且有效还原高频成分的音频数据，该步骤可以参考上述图2或图3所示实施例中的描述，此处不再赘述。

请参考图10，其示出了本申请一个示例性实施例提供的音频处理装置的方框图，该音频处理装置可以通过硬件或者软硬结合的方式实现为计算机设备的全部或者部分，以实现如上述图2、图3或者图6所示实施例中的全部或者部分步骤。比如，该计算机设备可以是如图1所示的音频处理设备120，或者，该计算机设备可以是如图1所示的音频处理设备120和模型训练设备110的结合。如图10所示，该音频处理装置包括：

音频数据获取模块1001，用于获取第一音频数据，该第一音频数据的采样率为第一采样率；

超分辨率处理模块1002，用于通过超分辨率模型对第一音频数据进行处理，获得超分辨率模型的输出结果；该超分辨率模型是以第一音频样本为输入数据，以第二音频样本为目标数据进行深度学习训练获得的机器学习模型；该第一音频样本是通过对第二音频样本进行N倍降采样获得的，N为大于或者等于2的整数；

音频数据获得模块1003，用于根据超分辨率模型的输出结果获得第二音频数据，该第二音频数据的采样率为第二采样率；该第二采样率是第一采样率的N倍。

该超分辨率处理模块1002，包括：

该音频数据获得模块1003，用于将R个第一单音轨音频数据分别对应的第二单音轨音频数据进行音轨合成，获得第二音频数据。

该模型处理子模块，用于，

可选的，该上采样层包括第一卷积层和数据重排层；

可选的，该装置还包括：

第一模型获取模块，用于在超分辨率处理模块1002通过超分辨率模型对第一音频数据进行处理，获得超分辨率模型的输出结果之前，获取与第一采样率和第二采样率相对应的超分辨率模型；

可选的，该装置还包括：

第二模型获取模块，用于在超分辨率处理模块1002通过超分辨率模型对第一音频数据进行处理，获得超分辨率模型的输出结果之前，获取与超分辨率倍数相对应的该超分辨率模型；该超分辨率倍数是该第二采样率相对于该第一采样率的倍数N；

该装置还包括：

输入模块，用于在超分辨率处理模块1002通过超分辨率模型对第一音频数据进行处理，获得超分辨率模型的输出结果之前，将该第一音频样本输入深度学习模型，获得该第一音频样本对应的超分辨率音频数据，该超分辨率音频数据的采样率是该第一音频样本的N倍；该深度学习模型的模型结构与该超分辨率模型的模型结构相同；

可选的，该装置还包括：

第一降采样模块，用于对该原始单音轨音频进行降采样处理，获得长度为M的该第二音频样本；M是该超分辨率模型输出的音频数据序列的单位长度，且M/N是大于或者等于2的整数；

可选的，该第二降采样模块，用于，

可选的，该更新模块，用于，

该指定参数优化算法包括拟牛顿算法或者梯度下降算法。

请参考图11，其示出了本申请一个示例性实施例提供的模型训练装置的方框图，该模型训练装置可以通过硬件或者软硬结合的方式实现为计算机设备的全部或者部分，以实现如上述图6所示实施例中的全部或者部分步骤。比如，该计算机设备可以是如图1所示的模型训练设备110。如图11所示，该音频处理装置包括：

输入模块1101，用于将第一音频样本输入深度学习模型，获得该第一音频样本对应的超分辨率音频数据，该超分辨率音频数据的采样率是该第一音频样本的N倍；该深度学习模型的模型结构与该超分辨率模型的模型结构相同；

损失计算模块1102，用于根据该第二音频样本以及该超分辨率音频数据计算损失函数值；

更新模块1103，用于根据该损失函数值对该深度学习模型的模型参数进行更新；

可选的，该装置还包括：

可选的，该第二降采样模块，用于，

可选的，该更新模块，用于，

该指定参数优化算法包括拟牛顿算法或者梯度下降算法。

图12是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说，所述大容量存储设备1207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

计算机设备1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1201通过执行该一个或一个以上程序来实现图2、图3或图6所示的方法中的全部或者部分步骤。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法的全部或者部分步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一音频数据是对应R个音轨的音频数据，R为大于或者等于1的整数；

所述通过超分辨率模型对所述第一音频数据进行处理，获得所述超分辨率模型的输出结果，包括：

将所述第一音频数据分为R个第一单音轨音频数据；所述第一单音轨音频数据的采样率为所述第一采样率；

通过所述超分辨率模型对所述R个第一单音轨音频数据分别进行处理，获得所述R个第一单音轨音频数据分别对应的第二单音轨音频数据；所述第二单音轨音频数据的采样率为所述第二采样率；

所述根据所述超分辨率模型的输出结果获得第二音频数据，包括：

将所述R个第一单音轨音频数据分别对应的第二单音轨音频数据进行音轨合成，获得所述第二音频数据。

3.根据权利要求2所述的方法，其特征在于，所述超分辨率模型包括输入层、特征提取层、上采样层和输出层；

所述通过所述超分辨率模型对所述R个第一单音轨音频数据分别进行处理，获得所述R个第一单音轨音频数据分别对应的第二单音轨音频数据，包括：

通过所述输入层，将目标单音轨音频数据中长度为M/N的音频数据序列组织为输入数据单元，所述输入数据单元的尺寸为M/N×1×1，M/N是大于或者等于2的整数；所述目标单音轨音频数据是所述R个第一单音轨音频数据中的任意一个单音轨音频数据；

通过所述特征提取层，对所述输入数据单元进行特征提取，获得尺寸为M/N×1×S的特征数据单元，S为所述特征数据单元的通道数，且S为大于或者等于2的整数；

通过所述上采样层，对所述特征数据单元进行N倍上采样，获得尺寸为M×1×1的上采样数据单元；

通过所述输出层，根据所述上采样数据单元输出所述目标单音轨音频数据对应的第二单音轨音频数据中，长度为M的音频数据序列。

4.根据权利要求3所述的方法，其特征在于，所述上采样层包括第一卷积层和数据重排层；

所述通过所述上采样层，对所述特征数据单元进行N倍上采样，获得尺寸为M×1×1的上采样数据单元，包括：

通过所述第一卷积层的卷积处理，将所述特征数据单元转化为待采样数据单元，所述待采样数据单元的尺寸为M/N×1×N；

通过所述数据重排层，将所述待采样数据单元的第一个维度和第二个维度的数据交换，并对数据交换后的所述待采样数据单元进行维度变换，获得所述上采样数据单元。

5.根据权利要求1所述的方法，其特征在于，所述通过超分辨率模型对所述第一音频数据进行处理，获得所述超分辨率模型的输出结果之前，还包括：

获取与所述第一采样率和所述第二采样率相对应的所述超分辨率模型；

其中，所述第一音频样本的采样率为所述第一采样率，所述第二音频样本的采样率为所述第二采样率。

6.根据权利要求1所述的方法，其特征在于，所述通过超分辨率模型对所述第一音频数据进行处理，获得所述超分辨率模型的输出结果之前，还包括：

获取与超分辨率倍数相对应的所述超分辨率模型；所述超分辨率倍数是所述第二采样率相对于所述第一采样率的倍数N；

其中，所述第一采样率与所述第二音频采样率之间的倍数关系，等于所述第一音频样本的采样率与所述第二音频样本的采样率之间的倍数关系。

7.根据权利要求1至6任一所述的方法，其特征在于，所述第一音频样本和所述第二音频样本分别是单音轨音频数据；

所述通过超分辨率模型对所述第一音频数据进行处理，获得所述超分辨率模型的输出结果之前，还包括：

将所述第一音频样本输入深度学习模型，获得所述第一音频样本对应的超分辨率音频数据，所述超分辨率音频数据的采样率是所述第一音频样本的N倍；所述深度学习模型的模型结构与所述超分辨率模型的模型结构相同；

根据所述第二音频样本以及所述超分辨率音频数据计算损失函数值；

根据所述损失函数值对所述深度学习模型的模型参数进行更新；

当所述深度学习模型收敛时，将所述深度学习模型作为所述超分辨率模型。

8.根据权利要求7所述的方法，其特征在于，所述将所述第一音频样本输入深度学习模型，获得所述第一音频样本对应的超分辨率音频数据之前，还包括：

对原始音频样本进行音轨拆分，获得原始单音轨音频；

对所述原始单音轨音频进行降采样处理，获得长度为M的所述第二音频样本；M是所述超分辨率模型输出的音频数据序列的单位长度，且M/N是大于或者等于2的整数；

对所述第二音频样本进行N倍降采样处理，获得长度为M/N的所述第一音频样本。

9.根据权利要求8所述的方法，其特征在于，所述对所述第二音频样本进行N倍降采样处理，获得长度为M/N的所述第一音频样本，包括：

通过指定降采样算法对所述第二音频样本进行N倍降采样处理，获得长度为M/N的所述第一音频样本；

所述指定降采样算法包括基于均值滤波的降采样算法、基于一维线性插值的降采样算法或者基于傅立叶插值的降采样算法。

10.根据权利要求7所述的方法，其特征在于，所述根据所述损失函数值对所述深度学习模型的模型参数进行更新，包括：

根据所述损失函数值，通过指定参数优化算法对所述深度学习模型的模型参数进行更新；

所述指定参数优化算法包括拟牛顿算法或者梯度下降算法。

11.根据权利要求7所述的方法，其特征在于，所述根据所述第二音频样本以及所述超分辨率音频数据计算损失函数值，包括：

计算所述第二音频样本与所述超分辨率音频数据之间的最小平方误差，获得所述损失函数值。

12.一种音频处理装置，其特征在于，所述装置包括：

音频数据获取模块，用于获取第一音频数据，所述第一音频数据的采样率为第一采样率；

超分辨率处理模块，用于通过超分辨率模型对所述第一音频数据进行处理，获得所述超分辨率模型的输出结果；所述超分辨率模型是以第一音频样本为输入数据，以第二音频样本为目标数据进行深度学习训练获得的机器学习模型；所述第一音频样本是通过对所述第二音频样本进行N倍降采样获得的，N为大于或者等于2的整数；

音频数据获得模块，用于根据所述超分辨率模型的输出结果获得第二音频数据，所述第二音频数据的采样率为第二采样率；所述第二采样率是所述第一采样率的N倍。

13.根据权利要求12所述的装置，其特征在于，所述第一音频数据是对应R个音轨的音频数据，R为大于或者等于1的整数；

所述超分辨率处理模块，包括：

音轨划分子模块，用于将所述第一音频数据分为R个第一单音轨音频数据；所述第一单音轨音频数据的采样率为所述第一采样率；

模型处理子模块，用于通过所述超分辨率模型对所述R个第一单音轨音频数据分别进行处理，获得所述R个第一单音轨音频数据分别对应的第二单音轨音频数据；所述第二单音轨音频数据的采样率为所述第二采样率；

所述音频数据获得模块，用于将所述R个第一单音轨音频数据分别对应的所述第二单音轨音频数据进行音轨合成，获得所述第二音频数据。

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有指令，所述指令由所述处理器执行，以实现如权利要求1至11任一所述的音频处理方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有指令，所述指令由计算机设备的处理器执行以实现如权利要求1至11任一所述的音频处理方法。