CN108010538B

CN108010538B - 音频数据处理方法及装置、计算设备

Info

Publication number: CN108010538B
Application number: CN201711407629.8A
Authority: CN
Inventors: 董健; 韩玉刚; 颜水成
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2021-08-24
Anticipated expiration: 2037-12-22
Also published as: CN108010538A

Abstract

本发明公开了一种音频数据处理方法及装置、计算设备，其方法包括：将音频数据转化为动态图像数据；对动态图像数据包含的多帧语谱图进行分组处理；获取一帧语谱图；判断帧语谱图是否为任一分组的第1帧语谱图；若是，将帧语谱图输入神经网络，得到处理后的帧语谱图；若否，将帧语谱图输入神经网络，运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图；重复执行上述步骤直至完成对动态图像数据中所有帧语谱图的处理；将处理后的动态图像数据转化为音频数据。

Description

音频数据处理方法及装置、计算设备

技术领域

本发明涉及图像处理领域，具体涉及一种音频数据处理方法及装置、计算设备。

背景技术

音频数据可以用于刑侦范围、电话银行交易等各方面。通过对音频数据的处理，可以识别说话人、说话的具体内容、变声等。对音频数据的处理可以将音频数据转换为语谱图，对语谱图进行处理。

现有技术在对音频数据进行处理时，往往是将音频数据中每一帧的语谱图均进行处理，这样处理没有考虑到音频数据中声音的连续性，每一帧语谱图之间具有相关性。这样处理使得需要对每一帧均进行处理，处理的速度较慢，需要花费较多的时间。

因此，需要一种音频数据处理方法，以提升音频处理的速度。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的音频数据处理方法及装置、计算设备。

根据本发明的一个方面，提供了一种音频数据处理方法，其包括：

将音频数据转化为动态图像数据；其中，动态图像数据由多帧语谱图组成；

对动态图像数据所包含的多帧语谱图进行分组处理；

获取分组处理后动态图像数据中的一帧语谱图；

判断帧语谱图是否为任一分组的第1帧语谱图；

若是，则将帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图；

若否，则将帧语谱图输入至经训练得到的神经网络中，在运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，直接将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图；其中，i和j为自然数；

重复执行上述步骤直至完成对动态图像数据中所有帧语谱图的处理；

将处理后的动态图像数据转化为音频数据。

可选地，在判断出帧语谱图不是任一分组的第1帧语谱图之后，方法还包括：

计算帧语谱图与其所属分组的第1帧语谱图的帧间距；

根据帧间距，确定i和j的取值；其中，第i层卷积层与最后一层卷积层之间的层距与帧间距成反比关系，第j层反卷积层与输出层之间的层距与帧间距成正比关系。

可选地，方法还包括：预先设置帧间距与i和j的取值的对应关系。

可选地，在直接将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合之后，方法还包括：

若第j层反卷积层是神经网络的最后一层反卷积层，则将图像融合结果输入到输出层，以得到处理后的帧语谱图；

若第j层反卷积层不是神经网络的最后一层反卷积层，则将图像融合结果输入到第j+1层反卷积层，经过后续反卷积层和输出层的运算，以得到处理后的帧语谱图。

可选地，将帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图进一步包括：在经过该神经网络的最后一层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。

可选地，在运算至神经网络的第i层卷积层得到第i层卷积层的运算结果之前，方法还包括：在经过该神经网络的第i层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。

可选地，动态图像数据每组包含n帧帧语谱图；其中，n为固定预设值。

可选地，对动态图像数据所包含的多帧语谱图进行分组处理进一步包括：

对用户指定区间段的动态图像数据所包含的多帧语谱图进行分组处理。

根据本发明的另一方面，提供了一种音频数据处理装置，其包括：

第一转化模块，适于将音频数据转化为动态图像数据；其中，动态图像数据由多帧语谱图组成；

分组模块，适于对动态图像数据所包含的多帧语谱图进行分组处理；

获取模块，适于获取分组处理后动态图像数据中的一帧语谱图；

判断模块，适于判断帧语谱图是否为任一分组的第1帧语谱图，若是，执行第一处理模块；否则，执行第二处理模块；

第一处理模块，适于将帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图；

第二处理模块，适于将帧语谱图输入至经训练得到的神经网络中，在运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，直接将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图；其中，i和j为自然数；

循环模块，适于重复执行上述获取模块、判断模块、第一处理模块和/或第二处理模块直至完成对动态图像数据中所有帧语谱图的处理；

第二转化模块，适于将处理后的动态图像数据转化为音频数据。

可选地，装置还包括：

帧间距计算模块，适于计算帧语谱图与其所属分组的第1帧语谱图的帧间距；

确定模块，适于根据帧间距，确定i和j的取值；其中，第i层卷积层与最后一层卷积层之间的层距与帧间距成反比关系，第j层反卷积层与输出层之间的层距与帧间距成正比关系。

可选地，装置还包括：

预设模块，适于预先设置帧间距与i和j的取值的对应关系。

可选地，第二处理模块进一步适于：

可选地，第一处理模块进一步适于：

在经过该神经网络的最后一层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。

可选地，第二处理模块进一步适于：

在经过该神经网络的第i层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。

可选地，动态图像数据每组包含n帧语谱图；其中，n为固定预设值。

可选地，分组模块进一步适于：

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行上述音频数据处理方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述音频数据处理方法对应的操作。

根据本发明提供的音频数据处理方法及装置、计算设备，将音频数据转化为动态图像数据；其中，动态图像数据由多帧语谱图组成；对动态图像数据所包含的多帧语谱图进行分组处理；获取分组处理后动态图像数据中的一帧语谱图；判断帧语谱图是否为任一分组的第1帧语谱图；若是，则将帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图；若否，则将帧语谱图输入至经训练得到的神经网络中，在运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，直接将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图；其中，i和j为自然数；重复执行上述步骤直至完成对动态图像数据中所有帧语谱图的处理；将处理后的动态图像数据转化为音频数据。本发明将音频数据转化为动态图像数据，利用动态图像数据中各帧语谱图之间的连续性、关联性，对动态图像数据进行处理，以完成对音频数据的处理。在处理时，将动态图像数据所包含的多帧语谱图进行分组处理，每组中对第1帧语谱图由神经网络完成全部卷积层和反卷积层的运算，对除第1帧语谱图之外的其他帧语谱图仅运算至第i层卷积层，复用第1帧语谱图已经得到的第j层反卷积层的运算结果进行图像融合，大大降低了神经网络的运算量，提高了音频数据处理的速度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的音频数据处理方法的流程图；

图2示出了根据本发明另一个实施例的音频数据处理方法的流程图；

图3示出了根据本发明一个实施例的音频数据处理装置的功能框图；

图4示出了根据本发明另一个实施例的音频数据处理装置的功能框图；

图5示出了根据本发明一个实施例的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的音频数据处理方法的流程图。如图1所示，音频数据处理方法具体包括如下步骤：

步骤S101，将音频数据转化为动态图像数据。

动态图像数据由多帧语谱图组成。语谱图也被称为语音频谱图，其为二维的平面图像。语谱图的横坐标用来表示时间，纵坐标用来表示频率，坐标点值表示语音数据的能量。坐标点值所表示的语音数据的能量值，大小可以通过颜色来表示。如通过彩色的方式表示，颜色越深的可以表示该坐标点的语音能量越强；反之，颜色越浅的可以表示该坐标点的语音能量越弱。因此，通过多帧语谱图可以直观的了解到音频数据中随时间变化的频谱特性。

将音频数据转化为动态图像数据可以采用现有技术进行转化，具体转化方式在此不做限定。在将音频数据转化为动态图像数据时，还可以预先设置每帧语谱图对应音频数据的时间，如1秒。

步骤S102，对动态图像数据所包含的多帧语谱图进行分组处理。

对动态图像数据所包含的多帧语谱图进行分组处理时，需要根据多帧语谱图相互间的关联关系进行处理，将关联关系紧密的多帧语谱图分为一组。动态图像数据中不同组帧语谱图中具体包含的帧语谱图的帧数可以是相同的或者不同的，假设每组帧语谱图中包含n帧帧语谱图，n可以为固定值或非固定值，n的取值根据实施情况设置。具体的，在分组处理时，按照各帧语谱图的先后顺序，将相邻的具有关联关系的多帧语谱图分为一组。进一步，在分组处理时，还可以直接对各帧语谱图进行标记，标记其为某一分组中的第X帧语谱图。实施中具体的分组方式根据实施情况确实，此处不做限定。

步骤S103，获取分组处理后动态图像数据中的一帧语谱图。

在获取帧语谱图时，先获取任一组中的一帧语谱图，在对该帧语谱图执行后续处理后，获取该组的其他帧语谱图执行后续处理，直至该组中的所有帧语谱图均执行后续处理后，再获取其他组的帧语谱图，并执行后续的处理。

进一步，在获取帧语谱图时，可以按照动态图像数据时间顺序从前往后，依次获取第1组的所有帧语谱图执行后续处理后，获取第2组、第3组……的帧语谱图执行后续处理；也可以按照时间顺序从后往前，依次获取……第3组的所有帧语谱图执行后续处理后，获取第2组、第1组中的帧语谱图执行后续处理。此处对具体获取某一分组的顺序不做限定。

步骤S104，判断帧语谱图是否为任一分组的第1帧语谱图。

判断帧语谱图是否为其中任一分组的第1帧语谱图，若是，执行步骤S105，否则执行步骤S106。具体判断方式根据分组方式、标记等进行判断。

步骤S105，将帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图。

帧语谱图为任一分组中的第1帧语谱图，将帧语谱图输入至经训练得到的神经网络中，依次由该神经网络对其执行全部的卷积层的运算和反卷积层的运算，最终得到处理后的帧语谱图。具体的，如该神经网络中包含4层卷积层的运算和3层反卷积层的运算，将帧语谱图输入至该神经网络经过全部的4层卷积层的运算和3层反卷积层的运算。其中，该神经网络还包括了将卷积层的运算结果与对应的反卷积层的运算结果进行图像融合的处理，最终得到处理后的帧语谱图。对帧语谱图的处理可以包括如变声、去除噪声、去除杂音、声音检测等处理。

步骤S106，将帧语谱图输入至经训练得到的神经网络中，在运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，直接将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图。

帧语谱图不是任一分组中的第1帧语谱图，将帧语谱图输入至经训练得到的神经网络中，此时，不需要由该神经网络对其执行全部的卷积层的运算和反卷积层的运算，仅运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，直接获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，就可以得到处理后的帧语谱图。其中，第i层卷积层和第j层反卷积层之间具有对应关系，该对应关系具体为第i层卷积层的运算结果与第j层反卷积层的运算结果的输出维度相同。i和j均为自然数，且i的取值不超过神经网络所包含的最后一层卷积层的层数，j的取值不超过神经网络所包含的最后一层反卷积层的层数。具体的，如将帧语谱图输入至神经网络中，运算至神经网络第1层卷积层，得到第1层卷积层的运算结果，直接获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第3层反卷积层的运算结果，将第1层卷积层的运算结果与第1帧语谱图的第3层反卷积层的运算结果进行融合。其中，第1层卷积层的运算结果与第3层反卷积层的运算结果的输出维度是相同的。

通过复用所属分组中第1帧语谱图已经运算得到的第j层反卷积层的运算结果，可以减少神经网络对帧语谱图的运算，大大加快神经网络的处理速度，从而提高神经网络的计算效率。

步骤S107，判断是否完成对动态图像数据中所有帧语谱图的处理。

判断时，根据动态图像数据中各分组的帧语谱图的获取顺序进行判断。具体的，如获取顺序为根据动态图像数据的时间顺序从前往后依次获取，判断若帧语谱图为动态图像数据的最后分组的最后一帧语谱图，则判断已经完成对动态图像数据中所有帧语谱图的处理，执行步骤S108。否则，判断未完成对动态图像数据中所有帧语谱图的处理，则执行步骤S103，继续获取动态图像数据中的帧语谱图，并对其进行处理。

步骤S108，将处理后的动态图像数据转化为音频数据。

将处理后的动态图像数据在转化为音频数据，得到处理后的音频数据。若对动态图像数据中的帧语谱图进行变声处理，则得到处理后的音频数据为变声处理的音频数据；或者对动态图像数据中的帧语谱图进行去除噪声处理，则得到处理后的音频数据为去除噪声处理的音频数据。将处理后的动态图像数据转化为音频数据，从而完成对音频数据的处理。本实施例可以采用现有的转化技术实现将处理后的动态图像数据转化为音频数据，此处不对具体的转化技术做限定。

根据本发明提供的音频数据处理方法，将音频数据转化为动态图像数据；其中，动态图像数据由多帧语谱图组成；对动态图像数据所包含的多帧语谱图进行分组处理；获取分组处理后动态图像数据中的一帧语谱图；判断帧语谱图是否为任一分组的第1帧语谱图；若是，则将帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图；若否，则将帧语谱图输入至经训练得到的神经网络中，在运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，直接将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图；其中，i和j为自然数；重复执行上述步骤直至完成对动态图像数据中所有帧语谱图的处理；将处理后的动态图像数据转化为音频数据。本发明将音频数据转化为动态图像数据，利用动态图像数据中各帧语谱图之间的连续性、关联性，对动态图像数据进行处理，以完成对音频数据的处理。在处理时，将动态图像数据所包含的多帧语谱图进行分组处理，每组中对第1帧语谱图由神经网络完成全部卷积层和反卷积层的运算，对除第1帧语谱图之外的其他帧语谱图仅运算至第i层卷积层，复用第1帧语谱图已经得到的第j层反卷积层的运算结果进行图像融合，大大降低了神经网络的运算量，提高了音频数据处理的速度。本发明将对音频数据中声音的处理转化为对图像的处理，采用图像处理方式，综合考虑图像间关联关系，大大提升对图像的处理速度，从而也实现了对音频数据处理速度的提升。

图2示出了根据本发明另一个实施例的音频数据处理方法的流程图。如图2所示，音频数据处理方法具体包括如下步骤：

步骤S201，将音频数据转化为动态图像数据。

该步骤参照图1实施例中的步骤S101，在此不再赘述。

步骤S202，对用户指定区间段的动态图像数据所包含的多帧语谱图进行分组处理。

在对动态图像数据进行分组处理时，结合用户实际需求，如音频数据包含的时长较长时，用户有时仅需对音频数据中某一段进行如变声、去除噪声、去除杂音、声音检测等处理时，根据用户指定，对应的仅对用户指定区间段的动态图像数据所包含的多帧语谱图进行分组处理，而不需要对动态图像数据所包含的全部帧语谱图进行分组处理。分组处理的具体方式可以参照图1实施例中步骤S102的描述，在此不再赘述。

步骤S203，获取分组处理后动态图像数据中的一帧语谱图。

此处，仅获取分组处理的动态图像数据所包含的多帧语谱图中的一帧语谱图。获取的顺序可以参照图1实施例中步骤S103的描述，在此不再赘述。

步骤S204，判断帧语谱图是否为任一分组的第1帧语谱图。

判断帧语谱图是否为其中任一分组的第1帧语谱图，若是，执行步骤S205，否则执行步骤S206。具体判断方式根据分组方式、标记等进行判断。

步骤S205，将帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图。

帧语谱图为任一分组中的第1帧语谱图，将帧语谱图输入至经训练得到的神经网络中，依次由该神经网络对其执行全部的卷积层的运算和反卷积层的运算，最终得到处理后的帧语谱图。

为进一步提高神经网络的运算速度，在经过该神经网络的最后一层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理，即将帧语谱图输入神经网络后，在第1层卷积层运算后，对运算结果进行下采样处理，降低运算结果的分辨率，再将下采样后的运算结果进行第2层卷积层运算，并对第2层卷积层的运算结果也进行下采样处理，依次类推，直至神经网络的最后一层卷积层(即卷积层的瓶颈层)，以最后一层卷积层为第4层卷积层为例，在第4层卷积层运算结果之后不再做下采样处理。最后一层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理，降低各层卷积层输入的帧语谱图的分辨率，可以提高神经网络的运算速度。需要注意的是，在神经网络的第一次卷积层运算时，输入的是获取的帧语谱图，而没有进行下采样处理，这样可以得到比较好的帧语谱图的细节。之后，在对输出的运算结果进行下采样处理时，既不会影响帧语谱图的细节，又可以提高神经网络的运算速度。

步骤S206，计算帧语谱图与其所属分组的第1帧语谱图的帧间距。

计算帧语谱图与其所属分组的第1帧语谱图的帧间距时，具体的，帧语谱图为任一分组的第3帧语谱图，计算得到其与所属分组的第1帧语谱图的帧间距为2。

步骤S207，根据帧间距，确定i和j的取值。

根据得到的帧间距，来确定神经网络中第i层卷积层的i的取值，以及第1帧语谱图第j层反卷积层的j的取值。在确定i和j时，可以认为第i层卷积层与最后一层卷积层(卷积层的瓶颈层)之间的层距与帧间距成反比关系，第j层反卷积层与输出层之间的层距与帧间距成正比关系。当帧间距越大时，第i层卷积层与最后一层卷积层之间的层距越小，i值越大，越需要运行较多的卷积层的运算；第j层反卷积层与输出层之间的层距越大，j值越小，需获取更小层数的反卷积层的运算结果。

以神经网络中包含第1-4层卷积层为例，其中，第4层卷积层为最后一层卷积层；神经网络中还包含了第1-3层反卷积层和输出层。当帧间距为1时，确定第i层卷积层与最后一层卷积层之间的层距为3，确定i为1，即运算至第1层卷积层，确定第j层反卷积层与输出层之间的层距为1，确定j为3，获取第3层反卷积层的运算结果；当帧间距为2时，确定第i层卷积层与最后一层卷积层之间的层距为2，确定i为2，即运算至第2层卷积层，确定第j层反卷积层与输出层之间的层距为2，j为2，获取第2层反卷积层的运算结果。具体层距的大小与神经网络所包含的卷积层和反卷积层的各层数、以及实际实施所要达到的效果相关，以上均为举例说明。

或者，根据得到的帧间距，确定神经网络中第i层卷积层的i的取值，以及第1帧语谱图第j层反卷积层的j的取值时，可以直接根据帧间距，预先设置帧间距与i和j的取值的对应关系。具体的，根据不同的帧间距预先设置不同i和j的取值，如帧间距为1，设置i的取值为1，j的取值为3；帧间距为2，设置i的取值为2，j的取值为2；或者还可以根据不同的帧间距，设置相同的i和j的取值；如不论帧间距的大小时，均设置对应的i的取值为2，j的取值为2；或者还可以对一部分不同的帧间距，设置相同的i和j的取值，如帧间距为1和2，设置对应的i的取值为1，j的取值为3；帧间距为3和4，设置对应的i的取值为2，j的取值为2。具体根据实施情况进行设置，此处不做限定。

步骤S208，将帧语谱图输入至经训练得到的神经网络中，在运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，直接将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图。

帧语谱图不是任一分组中的第1帧语谱图，在确定i和j的取值后，将帧语谱图输入至经训练得到的神经网络中，仅运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，直接获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，就可以得到处理后的帧语谱图。其中，所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果可以直接获取到，不需要在重新将所属分组的第1帧语谱图输入神经网络获取，大大降低了神经网络的运算频率，加快了神经网络的运算速度。

进一步，在经过该神经网络的第i层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。即将帧语谱图输入神经网络后，在第1层卷积层运算后，对运算结果进行下采样处理，降低运算结果的分辨率，再将下采样后的运算结果进行第2层卷积层运算，并对第2层卷积层的运算结果也进行下采样处理，依次类推，直至第i层卷积层，这样可以降低各层卷积层输入的帧语谱图的分辨率，提高神经网络的运算速度。需要注意的是，在神经网络的第一次卷积层运算时，输入的是获取的帧语谱图，而没有进行下采样处理，这样可以得到比较好的帧语谱图的细节。之后，在对输出的运算结果进行下采样处理时，既不会影响帧语谱图的细节，又可以提高神经网络的运算速度。

进一步，若第j层反卷积层是神经网络的最后一层反卷积层，则将图像融合结果输入到输出层，以得到处理后的帧语谱图。若第j层反卷积层不是神经网络的最后一层反卷积层，则将图像融合结果输入到第j+1层反卷积层，经过后续各反卷积层，以及输出层的运算，以得到处理后的帧语谱图。

步骤S209，判断是否完成对动态图像数据中所有帧语谱图的处理。

若判断已经完成对动态图像数据中所有帧语谱图的处理，执行步骤S210。否则，判断未完成对动态图像数据中所有帧语谱图的处理，则执行步骤S203，继续获取动态图像数据中的帧语谱图，并对其进行处理。

步骤S210，将处理后的动态图像数据转化为音频数据。

将处理后的动态图像数据在转化为音频数据，得到处理后的音频数据。若对动态图像数据中的帧语谱图进行变声处理，则到处理后的音频数据为变声处理的音频数据；或者对动态图像数据中的帧语谱图进行去除噪声处理，则到处理后的音频数据为去除噪声处理的音频数据。将处理后的动态图像数据在转化为音频数据，从而完成对音频数据的处理。

根据本发明提供的音频数据处理方法，根据用户需求，对用户指定区间段的视频数据进行分组处理，可以更好的满足用户需求，实现灵活的音频数据处理方式。在获取到帧语谱图后，对帧语谱图进行判断，若帧语谱图是任一分组中的第1帧语谱图，将帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图；若帧语谱图不是任一分组中的第1帧语谱图，计算帧语谱图与其所属分组的第1帧语谱图的帧间距。根据帧间距，确定神经网络的第i层卷积层的i取值，得到第i层卷积层的运算结果。同时，确定神经网络的第j层反卷积层的j取值，从而直接获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，复用第j层反卷积层的运算结果，将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图，降低了神经网络运算的频率，提高计算效率。进一步，还可以在神经网络的第i层卷积层或最后一层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理，降低各层卷积层输入的帧语谱图的分辨率，以提高神经网络的运算速度。

图3示出了根据本发明一个实施例的音频数据处理装置的功能框图。如图3所示，音频数据处理装置包括如下模块：

第一转化模块301，适于将音频数据转化为动态图像数据。

第一转化模块301将音频数据转化为动态图像数据可以采用现有技术进行转化，具体转化方式在此不做限定。第一转化模块301在将音频数据转化为动态图像数据时，还可以预先设置每帧语谱图对应音频数据的时间，如1秒。

分组模块302，适于对动态图像数据所包含的多帧语谱图进行分组处理。

分组模块302对动态图像数据所包含的多帧语谱图进行分组处理时，需要根据多帧语谱图相互间的关联关系进行处理，将关联关系紧密的多帧语谱图分为一组。动态图像数据中不同组帧语谱图中具体包含的帧语谱图的帧数可以是相同的或者不同的，假设每组帧语谱图中包含n帧帧语谱图，n可以为固定值或非固定值，n的取值根据实施情况设置。具体的，分组模块302在分组处理时，按照各帧语谱图的先后顺序，将相邻的具有关联关系的多帧语谱图分为一组。进一步，分组模块302在分组处理时，还可以直接对各帧语谱图进行标记，标记其为某一分组中的第X帧语谱图。实施中具体的分组方式根据实施情况确实，此处不做限定。

进一步，分组模块302在对动态图像数据进行分组处理时，结合用户实际需求，如音频数据包含的时长较长时，用户有时仅需对音频数据中某一段进行如变声、去除噪声、去除杂音、声音检测等处理时，根据用户指定，分组模块302对应的仅对用户指定区间段的动态图像数据所包含的多帧语谱图进行分组处理，而不需要对动态图像数据所包含的全部帧语谱图进行分组处理。

获取模块303，适于获取分组处理后动态图像数据中的一帧语谱图。

获取模块303在获取帧语谱图时，先获取任一组中的一帧语谱图，在对该帧语谱图执行后续处理后，获取模块303获取该组的其他帧语谱图执行后续处理，直至该组中的所有帧语谱图均执行后续处理后，获取模块303再获取其他组的帧语谱图，并执行后续的处理。

进一步，获取模块303在获取帧语谱图时，可以按照动态图像数据时间顺序从前往后，依次获取第1组的所有帧语谱图执行后续处理后，获取第2组、第3组……的帧语谱图执行后续处理；也可以按照时间顺序从后往前，依次获取……第3组的所有帧语谱图执行后续处理后，获取第2组、第1组中的帧语谱图执行后续处理。此处对具体获取某一分组的顺序不做限定。

若分组模块302仅对用户指定区间段的动态图像数据所包含的多帧语谱图进行分组处理，则获取模块303仅获取分组处理的动态图像数据所包含的多帧语谱图中的一帧语谱图。

判断模块304，适于判断帧语谱图是否为任一分组的第1帧语谱图，若是，执行第一处理模块305；否则，执行第二处理模块306。

判断模块304判断帧语谱图是否为其中任一分组的第1帧语谱图，若是，执行第一处理模块305，否则执行第二处理模块306。判断模块304具体判断方式根据分组方式、标记等进行判断。

第一处理模块305，适于将帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图。

判断模块304判断帧语谱图为任一分组中的第1帧语谱图，第一处理模块305将帧语谱图输入至经训练得到的神经网络中，依次由该神经网络对其执行全部的卷积层的运算和反卷积层的运算，最终得到处理后的帧语谱图。具体的，如该神经网络中包含4层卷积层的运算和3层反卷积层的运算，第一处理模块305将帧语谱图输入至该神经网络经过全部的4层卷积层的运算和3层反卷积层的运算。其中，该神经网络还包括了将卷积层的运算结果与对应的反卷积层的运算结果进行图像融合的处理，最终得到处理后的帧语谱图。

进一步，为提高神经网络的运算速度，在经过该神经网络的最后一层卷积层之前的每一层卷积层运算后，第一处理模块305对每一层卷积层的运算结果进行下采样处理，即将帧语谱图输入神经网络后，在第1层卷积层运算后，第一处理模块305对运算结果进行下采样处理，降低运算结果的分辨率，再将下采样后的运算结果进行第2层卷积层运算，第一处理模块305对第2层卷积层的运算结果也进行下采样处理，依次类推，直至神经网络的最后一层卷积层(即卷积层的瓶颈层)，以最后一层卷积层为第4层卷积层为例，在第4层卷积层运算结果之后第一处理模块305不再做下采样处理。最后一层卷积层之前的每一层卷积层运算后，第一处理模块305对每一层卷积层的运算结果进行下采样处理，降低各层卷积层输入的帧语谱图的分辨率，可以提高神经网络的运算速度。需要注意的是，在神经网络的第一次卷积层运算时，第一处理模块305输入的是获取的帧语谱图，而没有进行下采样处理，这样可以得到比较好的帧语谱图的细节。之后，第一处理模块305在对输出的运算结果进行下采样处理时，既不会影响帧语谱图的细节，又可以提高神经网络的运算速度。

第二处理模块306，适于将帧语谱图输入至经训练得到的神经网络中，在运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，直接将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图。

判断模块304判断帧语谱图不是任一分组中的第1帧语谱图，第二处理模块306将帧语谱图输入至经训练得到的神经网络中，此时，不需要由该神经网络对其执行全部的卷积层的运算和反卷积层的运算，仅运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，第二处理模块306直接获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，就可以得到处理后的帧语谱图。其中，第i层卷积层和第j层反卷积层之间具有对应关系，该对应关系具体为第i层卷积层的运算结果与第j层反卷积层的运算结果的输出维度相同。i和j均为自然数，且i的取值不超过神经网络所包含的最后一层卷积层的层数，j的取值不超过神经网络所包含的最后一层反卷积层的层数。具体的，如第二处理模块306将帧语谱图输入至神经网络中，运算至神经网络第1层卷积层，得到第1层卷积层的运算结果，第二处理模块306直接获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第3层反卷积层的运算结果，将第1层卷积层的运算结果与第1帧语谱图的第3层反卷积层的运算结果进行融合。其中，第1层卷积层的运算结果与第3层反卷积层的运算结果的输出维度是相同的。

第二处理模块306通过复用所属分组中第1帧语谱图已经运算得到的第j层反卷积层的运算结果，可以减少神经网络对帧语谱图的运算，大大加快神经网络的处理速度，从而提高神经网络的计算效率。

进一步，在经过该神经网络的第i层卷积层之前的每一层卷积层运算后，第二处理模块306对每一层卷积层的运算结果进行下采样处理。即将帧语谱图输入神经网络后，在第1层卷积层运算后，第二处理模块306对运算结果进行下采样处理，降低运算结果的分辨率，再将下采样后的运算结果进行第2层卷积层运算，第二处理模块306对第2层卷积层的运算结果也进行下采样处理，依次类推，直至第i层卷积层，这样可以降低各层卷积层输入的帧语谱图的分辨率，提高神经网络的运算速度。需要注意的是，在神经网络的第一次卷积层运算时，第二处理模块306输入的是获取的帧语谱图，而没有进行下采样处理，这样可以得到比较好的帧语谱图的细节。之后，第二处理模块306在对输出的运算结果进行下采样处理时，既不会影响帧语谱图的细节，又可以提高神经网络的运算速度。

进一步，若第j层反卷积层是神经网络的最后一层反卷积层，则第二处理模块306将图像融合结果输入到输出层，以得到处理后的帧语谱图。若第j层反卷积层不是神经网络的最后一层反卷积层，则第二处理模块306将图像融合结果输入到第j+1层反卷积层，经过后续各反卷积层，以及输出层的运算，以得到处理后的帧语谱图。

循环模块307，适于重复执行上述获取模块303、判断模块304、第一处理模块305和/或第二处理模块306直至完成对动态图像数据中所有帧语谱图的处理。

循环模块307需要判断是否完成对动态图像数据中所有帧语谱图的处理，循环模块307在判断时，根据动态图像数据中各分组的帧语谱图的获取顺序进行判断。具体的，如获取模块303获取顺序为根据动态图像数据的时间顺序从前往后依次获取，循环模块307判断若帧语谱图为动态图像数据的最后分组的最后一帧语谱图，则循环模块307判断已经完成对动态图像数据中所有帧语谱图的处理，可以执行第二转化模块308。否则，循环模块307判断未完成对动态图像数据中所有帧语谱图的处理，则重复执行上述获取模块303、判断模块304、第一处理模块305和/或第二处理模块306直至完成对动态图像数据中所有帧语谱图的处理。

第二转化模块308，适于将处理后的动态图像数据转化为音频数据。

第二转化模块308将处理后的动态图像数据在转化为音频数据，得到处理后的音频数据。若对动态图像数据中的帧语谱图进行变声处理，则得到处理后的音频数据为变声处理的音频数据；或者对动态图像数据中的帧语谱图进行去除噪声处理，则得到处理后的音频数据为去除噪声处理的音频数据。第二转化模块308将处理后的动态图像数据转化为音频数据，从而完成对音频数据的处理。第二转化模块308可以采用现有的转化技术实现将处理后的动态图像数据转化为音频数据，此处不对具体的转化技术做限定。

根据本发明提供的音频数据处理装置，将音频数据转化为动态图像数据；其中，动态图像数据由多帧语谱图组成；对动态图像数据所包含的多帧语谱图进行分组处理；获取分组处理后动态图像数据中的一帧语谱图；判断帧语谱图是否为任一分组的第1帧语谱图；若是，则将帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图；若否，则将帧语谱图输入至经训练得到的神经网络中，在运算至神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，直接将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图；其中，i和j为自然数；重复执行上述步骤直至完成对动态图像数据中所有帧语谱图的处理；将处理后的动态图像数据转化为音频数据。本发明将音频数据转化为动态图像数据，利用动态图像数据中各帧语谱图之间的连续性、关联性，对动态图像数据进行处理，以完成对音频数据的处理。在处理时，将动态图像数据所包含的多帧语谱图进行分组处理，每组中对第1帧语谱图由神经网络完成全部卷积层和反卷积层的运算，对除第1帧语谱图之外的其他帧语谱图仅运算至第i层卷积层，复用第1帧语谱图已经得到的第j层反卷积层的运算结果进行图像融合，大大降低了神经网络的运算量，提高了音频数据处理的速度。进一步，本发明还可以在神经网络的第i层卷积层或最后一层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理，降低各层卷积层输入的帧语谱图的分辨率，以提高神经网络的运算速度。本发明还根据用户需求，仅对用户指定区间段的动态图像数据所包含的多帧语谱图进行分组处理，可以更好的满足用户需求，实现灵活的音频数据处理方式。本发明将对音频数据中声音的处理转化为对图像的处理，采用图像处理方式，综合考虑图像间关联关系，大大提升对图像的处理速度，从而也实现了对音频数据处理速度的提升。

图4示出了根据本发明另一个实施例的音频数据处理装置的功能框图。如图4所示，与图3不同之处在于，音频数据处理装置还包括：

帧间距计算模块309，适于计算帧语谱图与其所属分组的第1帧语谱图的帧间距。

帧间距计算模块309计算帧语谱图与其所属分组的第1帧语谱图的帧间距时，具体的，帧语谱图为任一分组的第3帧语谱图，帧间距计算模块309计算得到其与所属分组的第1帧语谱图的帧间距为2。

确定模块310，适于根据帧间距。

确定模块310根据得到的帧间距，来确定神经网络中第i层卷积层的i的取值，以及第1帧语谱图第j层反卷积层的j的取值。确定模块310在确定i和j时，可以认为第i层卷积层与最后一层卷积层(卷积层的瓶颈层)之间的层距与帧间距成反比关系，第j层反卷积层与输出层之间的层距与帧间距成正比关系。当帧间距越大时，第i层卷积层与最后一层卷积层之间的层距越小，i值越大，第二处理模块306越需要运行较多的卷积层；第j层反卷积层与输出层之间的层距越大，j值越小，第二处理模块306需获取更小层数的反卷积层的运算结果。以神经网络中包含第1-4层卷积层为例，其中，第4层卷积层为最后一层卷积层；神经网络中还包含了第1-3层反卷积层和输出层，帧间距计算模块309计算帧间距为1时，确定模块310确定第i层卷积层与最后一层卷积层之间的层距为3，确定i为1，即第二处理模块306运算至第1层卷积层，确定模块310确定第j层反卷积层与输出层之间的层距为1，确定j为3，第二处理模块306获取第3层反卷积层的运算结果；帧间距计算模块309计算帧间距为2时，确定模块310确定第i层卷积层与最后一层卷积层之间的层距为2，确定i为2，即第二处理模块306运算至第2层卷积层，确定模块310确定第j层反卷积层与输出层之间的层距为2，j为2，第二处理模块306获取第2层反卷积层的运算结果。具体层距的大小与神经网络所包含的卷积层和反卷积层的各层数、以及实际实施所要达到的效果相关，以上均为举例说明。

预设模块311，适于预先设置帧间距与i和j的取值的对应关系。

预设模块311根据得到的帧间距，确定神经网络中第i层卷积层的i的取值，以及第1帧语谱图第j层反卷积层的j的取值时，可以直接根据帧间距，预先设置帧间距与i和j的取值的对应关系。具体的，预设模块311根据不同的帧间距预先设置不同i和j的取值，如帧间距计算模块309计算帧间距为1，预设模块311设置i的取值为1，j的取值为3；帧间距计算模块309计算帧间距为2，预设模块311设置i的取值为2，j的取值为2；或者还可以根据不同的帧间距，设置相同的i和j的取值；如不论帧间距的大小时，预设模块311均设置对应的i的取值为2，j的取值为2；或者还可以对一部分不同的帧间距，设置相同的i和j的取值，如帧间距计算模块309计算帧间距为1和2，预设模块311设置对应的i的取值为1，j的取值为3；帧间距计算模块309计算帧间距为3和4，预设模块311设置对应的i的取值为2，j的取值为2。具体根据实施情况进行设置，此处不做限定。

根据本发明提供的音频数据处理装置，在获取到帧语谱图后，若帧语谱图不是任一分组中的第1帧语谱图，计算帧语谱图与其所属分组的第1帧语谱图的帧间距。根据帧间距，确定神经网络的第i层卷积层的i取值，得到第i层卷积层的运算结果。同时，确定神经网络的第j层反卷积层的j取值，从而直接获取帧语谱图所属分组的第1帧语谱图输入至神经网络中得到的第j层反卷积层的运算结果，复用第j层反卷积层的运算结果，将第i层卷积层的运算结果与第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图，降低了神经网络运算的频率，提高计算效率。

本申请还提供了一种非易失性计算机存储介质，计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的音频数据处理方法。

图5示出了根据本发明一个实施例的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图5所示，该计算设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502，用于执行程序510，具体可以执行上述音频数据处理方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行上述任意方法实施例中的音频数据处理方法。程序510中各步骤的具体实现可以参见上述音频数据处理实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的音频数据处理的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种音频数据处理方法，其包括：

将音频数据转化为动态图像数据；其中，所述动态图像数据由多帧语谱图组成；

对所述动态图像数据所包含的多帧语谱图进行分组处理；

获取分组处理后所述动态图像数据中的一帧语谱图；

判断所述帧语谱图是否为任一分组的第1帧语谱图；

若是，则将所述帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图；

若否，则将所述帧语谱图输入至经训练得到的神经网络中，在运算至所述神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取所述帧语谱图所属分组的第1帧语谱图输入至所述神经网络中得到的第j层反卷积层的运算结果，直接将所述第i层卷积层的运算结果与所述第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图；其中，i和j为自然数；

将所述处理后的动态图像数据转化为音频数据；

第i层卷积层的运算结果与第j层反卷积层的运算结果的输出维度相同。

2.根据权利要求1所述的方法，其中，在判断出所述帧语谱图不是任一分组的第1帧语谱图之后，所述方法还包括：

计算所述帧语谱图与其所属分组的第1帧语谱图的帧间距；

根据所述帧间距，确定i和j的取值；其中，所述第i层卷积层与最后一层卷积层之间的层距与所述帧间距成反比关系，所述第j层反卷积层与输出层之间的层距与所述帧间距成正比关系。

3.根据权利要求2所述的方法，其中，所述方法还包括：预先设置帧间距与所述i和j的取值的对应关系。

4.根据权利要求1-3中任一项所述的方法，其中，在所述直接将所述第i层卷积层的运算结果与所述第j层反卷积层的运算结果进行图像融合之后，所述方法还包括：

若所述第j层反卷积层是所述神经网络的最后一层反卷积层，则将图像融合结果输入到输出层，以得到处理后的帧语谱图；

若所述第j层反卷积层不是所述神经网络的最后一层反卷积层，则将图像融合结果输入到第j+1层反卷积层，经过后续反卷积层和输出层的运算，以得到处理后的帧语谱图。

5.根据权利要求1所述的方法，其中，所述将帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图进一步包括：在经过该神经网络的最后一层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。

6.根据权利要求1所述的方法，其中，在运算至所述神经网络的第i层卷积层得到第i层卷积层的运算结果之前，所述方法还包括：在经过该神经网络的第i层卷积层之前的每一层卷积层运算后，对每一层卷积层的运算结果进行下采样处理。

7.根据权利要求1所述的方法，其中，所述动态图像数据每组包含n帧帧语谱图；其中，n为固定预设值。

8.根据权利要求1所述的方法，其中，所述对所述动态图像数据所包含的多帧语谱图进行分组处理进一步包括：

9.一种音频数据处理装置，其包括：

第一转化模块，适于将音频数据转化为动态图像数据；其中，所述动态图像数据由多帧语谱图组成；

分组模块，适于对所述动态图像数据所包含的多帧语谱图进行分组处理；

获取模块，适于获取分组处理后所述动态图像数据中的一帧语谱图；

判断模块，适于判断所述帧语谱图是否为任一分组的第1帧语谱图，若是，执行第一处理模块；否则，执行第二处理模块；

第一处理模块，适于将所述帧语谱图输入至经训练得到的神经网络中，经过该神经网络全部卷积层和反卷积层的运算后，得到处理后的帧语谱图；

第二处理模块，适于将所述帧语谱图输入至经训练得到的神经网络中，在运算至所述神经网络的第i层卷积层得到第i层卷积层的运算结果后，获取所述帧语谱图所属分组的第1帧语谱图输入至所述神经网络中得到的第j层反卷积层的运算结果，直接将所述第i层卷积层的运算结果与所述第j层反卷积层的运算结果进行图像融合，得到处理后的帧语谱图；其中，i和j为自然数；

第二转化模块，适于将所述处理后的动态图像数据转化为音频数据；

10.根据权利要求9所述的装置，其中，所述装置还包括：

帧间距计算模块，适于计算所述帧语谱图与其所属分组的第1帧语谱图的帧间距；

确定模块，适于根据所述帧间距，确定i和j的取值；其中，所述第i层卷积层与最后一层卷积层之间的层距与所述帧间距成反比关系，所述第j层反卷积层与输出层之间的层距与所述帧间距成正比关系。

11.根据权利要求10所述的装置，其中，所述装置还包括：

预设模块，适于预先设置帧间距与所述i和j的取值的对应关系。

12.根据权利要求9-11中任一项所述的装置，其中，所述第二处理模块进一步适于：

13.根据权利要求9所述的装置，其中，所述第一处理模块进一步适于：

14.根据权利要求9所述的装置，其中，所述第二处理模块进一步适于：

15.根据权利要求9所述的装置，其中，所述动态图像数据每组包含n帧语谱图；其中，n为固定预设值。

16.根据权利要求9所述的装置，其中，所述分组模块进一步适于：

17.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的音频数据处理方法对应的操作。

18.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-8中任一项所述的音频数据处理方法对应的操作。