CN110751960B

CN110751960B - 噪声数据的确定方法及装置

Info

Publication number: CN110751960B
Application number: CN201910984616.XA
Authority: CN
Inventors: 黄明明; 程国华; 刘金杰; 王铁铮
Original assignee: Beijing Wangzhong Gongchuang Technology Co ltd
Current assignee: Hunan Huawei Jin'an Enterprise Management Co ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2022-04-26
Anticipated expiration: 2039-10-16
Also published as: CN110751960A

Abstract

本发明提供了一种噪声数据的确定方法及装置，该方法包括：获取待确定噪声数据的音频文件；通过目标网络模型确定音频文件中目标时长的音频数据与目标时长的目标声音之间的相似度，其中，目标网络模型是使用目标时长的同类目标声音对初始网络模型进行训练得到的模型，相似度越高表示音频数据与目标声音越相似；在相似度低于目标相似度的情况下，将音频数据确定为噪声数据。通过本发明，解决了相关技术中音频数据的噪声强度的检测准确率较低的问题，进而达到了提高音频数据的噪声强度的检测准确率的效果。

Description

噪声数据的确定方法及装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种噪声数据的确定方法及装置。

背景技术

现有噪音检测方法有的只能检测出极其有限种类的噪音，例如无法检测出摩托声、喇叭声、关门声、音乐声等等。或者有的只能用于去除训练时已知种类的噪音，对噪音种类的要求高，对各种噪音的样本数量要求高，无法检测出未知噪音(实际中未知噪音种类不可计数)，这就导致了目前的检测方式需要知晓每一种具体的噪音，检测的复杂度较高，而实际上的噪音种类是无法被列举完全的，也就是说，检测的准确性较低。

针对上述的问题，目前尚未有公开的有效的解决方案。

发明内容

本发明实施例提供了一种噪声数据的确定方法及装置，以至少解决相关技术中音频数据的噪声强度的检测准确率较低的问题。

根据本发明的一个实施例，提供了一种噪声数据的确定方法，包括：

获取待确定噪声数据的音频文件；

通过目标网络模型确定所述音频文件中目标时长的音频数据与所述目标时长的目标声音之间的相似度，其中，所述目标网络模型是使用所述目标时长的同类所述目标声音对初始网络模型进行训练得到的模型，所述相似度越高表示所述音频数据与所述目标声音越相似；

在所述相似度低于目标相似度的情况下，将所述音频数据确定为噪声数据。

可选地，通过目标网络模型确定所述音频文件中所述目标时长的音频数据与所述目标时长的目标声音之间的相似度包括：

通过目标生成对抗网络模型确定所述音频数据的音频特征图与所述目标声音的目标特征图之间的相似度，其中，所述目标特征图是所述目标声音的频谱图，由频谱图计算程序所得，所述目标生成对抗网络模型用于根据所述音频数据确定所述音频特征图与所述目标特征图之间的所述相似度。

可选地，通过目标生成对抗网络模型确定所述音频数据的音频特征图与所述目标声音的目标特征图之间的相似度包括：

将所述音频数据输入所述目标生成对抗网络模型；

获取所述目标生成对抗网络模型输出的所述相似度。

可选地，将所述音频数据输入所述目标生成对抗网络模型包括：

从所述音频数据中提取所述音频数据的频谱特征；

将所述频谱特征输入所述目标生成对抗网络模型，其中，所述音频特征图包括所述频谱分布图。

可选地，在通过目标生成对抗网络模型确定所述音频数据的音频特征图与所述目标声音的目标特征图之间的相似度之前，所述方法还包括：

将所述目标声音输入所述初始生成对抗网络模型所包括的初始生成层，得到所述初始生成层输出的图像；

所述初始生成对抗网络模型所包括的初始判别层鉴别生成层输出的图像，得到所述初始判别层输出的初始相似度；

根据所述初始相似度与目标相似度之间的差值调整所述初始生成层的参数和所述初始判别层的参数，直至所述初始判别层输出的数据趋近于所述目标相似度，得到目标生成层和目标判别层，其中，所述目标生成对抗网络模型包括所述目标生成层和所述目标判别层，所述目标特征图是将所述目标声音输入所述目标生成层得到的所述目标生成层所输出的图像。

可选地，所述音频文件包括多个所述目标时长的音频数据，多个所述音频数据所对应的目标时长的和为所述音频文件的总时长，其中，在将所述音频数据确定为所述噪声数据之后，所述方法还包括：

从所述音频文件中剪切所述噪声数据，得到不包括所述噪声数据的多个音频片段；

将所述多个音频片段进行拼接，得到目标音频文件；

输出所述目标音频文件。

根据本发明的另一个实施例，提供了一种噪声数据的确定装置，包括：

获取模块，用于获取待确定噪声数据的音频文件；

第一确定模块，用于通过目标网络模型确定所述音频文件中目标时长的音频数据与所述目标时长的目标声音之间的相似度，其中，所述目标网络模型是使用所述目标时长的同类所述目标声音对初始网络模型进行训练得到的模型，所述相似度越高表示所述音频数据与所述目标声音越相似；

第二确定模块，用于在所述相似度低于目标相似度的情况下，将所述音频数据确定为噪声数据。

可选地，第一确定模块包括：确定单元，用于通过目标生成对抗网络模型确定所述音频数据的音频特征图与所述目标声音的目标特征图之间的相似度，其中，所述目标特征图是所述目标声音的频谱图，由频谱图计算程序计算得到，所述目标生成对抗网络模型用于根据所述音频数据确定所述音频特征图与所述目标特征图之间的所述相似度。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，通过获取待确定噪声数据的音频文件；通过目标网络模型确定音频文件中目标时长的音频数据与目标时长的目标声音之间的相似度，其中，目标网络模型是使用目标时长的同类目标声音对初始网络模型进行训练得到的模型，相似度越高表示音频数据与目标声音越相似；在相似度低于目标相似度的情况下，将音频数据确定为噪声数据的方式，使用目标声音对初始网络模型进行训练得到目标网络模型，使得目标网络模型能够分辨出音频文件中的目标声音，确定音频文件中的音频数据与目标声音之间的相似度，根据需求设定目标相似度作为相似度阈值，可见，只需明确目标声音即可进行噪声的检测，使得检测过程的复杂度降低，进一步，使用了模型训练的方式自动学习目标声音，模型能够准确地判断出音频数据与目标声音的相似度，从而准确地从音频文件中检测出噪声数据所在的位置，提高了检测过程的准确性。因此，可以解决相关技术中噪声数据的检测效率较低、准确率低的问题，达到提高噪声数据的检测效率的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种噪声数据的确定方法的移动终端的硬件结构框图；

图2是根据本发明实施例的噪声数据的确定方法的流程图；

图3是根据本发明实施例的噪声数据的确定装置的结构框图；

图4是根据本发明可选实施例的噪声数据的确定方法的示意图；

图5是根据本发明可选实施例的噪声数据的确定系统的示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种噪声数据的确定方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的噪声数据的确定方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种噪声数据的确定方法，图2是根据本发明实施例的噪声数据的确定方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取待确定噪声数据的音频文件；

步骤S204，通过目标网络模型确定音频文件中目标时长的音频数据与目标时长的同类目标声音之间的相似度，其中，目标网络模型是使用目标时长的目标声音对初始网络模型进行训练得到的模型，相似度越高表示音频数据与目标声音越相似；

步骤S206，在相似度低于目标相似度的情况下，将音频数据确定为噪声数据。

可选地，在本实施例中，待确定噪声数据的音频文件可以但不限于包括录音文件。

可选地，在本实施例中，目标声音是在音频文件中所需要留下的声音，比如：录音文件中的人声、需要研究的鸟叫声、水流声等等。

可选地，在本实施例中，目标网络模型可以但不限于包括生成对抗网络(GAN)、深度卷积生成对抗网络(DCGAN)、卷积神经网络(CNN)等等。

可选地，在本实施例中，音频数据与目标声音之间的相似度可以使用距离来表示，距离越小表示相似度越高。或者可以使用概率值来表示，即相似度表示音频数据是目标声音的概率，概率值越大表示相似度越高。

可选地，在本实施例中，目标相似度可以但不限于根据实际需要的精度来确定，目标相似度越高，检测的精度越高。

通过上述步骤，使用目标声音对初始网络模型进行训练得到目标网络模型，使得目标网络模型能够分辨出音频文件中的目标声音，确定音频文件中的音频数据与目标声音之间的相似度，根据需求设定目标相似度作为相似度阈值，可见，只需明确目标声音即可进行噪声的检测，使得检测过程的复杂度降低，进一步，使用了模型训练的方式自动学习目标声音，模型能够准确地判断出音频数据与目标声音的相似度，从而准确地从音频文件中检测出噪声数据所在的位置，提高了检测过程的准确性。因此，可以解决相关技术中噪声数据的检测效率较低、准确率低的问题，达到提高噪声数据的检测效率的效果。

可选地，DCGAN是基于GAN网络的改进，GAN网络的特性是在生成和对抗中自动学习；DCGAN网络是将卷积操作用于GAN，可以使网络训练时收敛速度更快。基于GAN的特性，DCGAN训练时所需样本种类只需目标声音此一种即可，所需样本数量也是数小时即可。

例如：在上述步骤S204中，可以但不限于通过目标生成对抗网络模型确定音频数据的音频特征图与目标声音的目标特征图之间的相似度，其中，目标特征图是目标声音的频谱图，由频谱图计算程序计算得到，目标生成对抗网络模型用于根据所述音频数据确定所述音频特征图与所述目标特征图之间的所述相似度。

可选地，在本实施例中，训练好的目标生成对抗网络模型可以根据输入的音频数据自动地输出其与目标声音之间的相似度值，该相似度值能够体现出音频数据与目标声音的相似程度，再根据需要确定一个合理的相似度阈值，即可判断出音频文件中存在噪声的位置。

例如：可以但不限于通过以下方式确定音频特征图与目标特征图之间的相似度：

步骤1，将音频数据输入目标生成对抗网络模型；

步骤2，获取目标生成对抗网络模型输出的相似度。

可选地，在本实施例中，可以但不限于通过比较声音的频谱分布图来确定声音之间的相似度，将音频数据的频谱特征提取出来输入到目标生成对抗网络模型中，在此情况下，目标特征图为目标声音的频谱分布图。例如：从音频数据中提取音频数据的频谱特征；将频谱特征输入目标生成对抗网络模型，其中，音频特征图包括频谱分布图。

可选地，在使用目标网络模型之前，可以使用只包括目标声音的音频对初始生成对抗网络模型的初始生成层和初始判别层进行训练，从而得到目标生成对抗网络模型作为目标网络模型。DCGAN的学习过程是计算目标声音与生成声音的分布相似度距离，并不断将该距离最小化，那么最终其所学习到的知识是目标声音的分布。训练结束时，其可以计算任意种类的声音的分布与目标声音的分布的相似度距离，距离值越小，代表与目标声音越相近，距离值越大，代表噪音强度越大。

例如：在上述步骤S204之前，对模型进行训练的流程可以包括以下步骤：

步骤a，将目标声音输入初始生成对抗网络模型所包括的初始生成层，得到初始生成层输出的图像；

步骤b，初始生成对抗网络模型所包括的初始判别层鉴别生成层输出的图像，得到初始判别层输出的初始相似度；

步骤c，根据初始相似度与目标相似度之间的差值调整初始生成层的参数和初始判别层的参数，直至初始判别层输出的数据趋近于目标相似度，得到目标生成层和目标判别层，其中，目标生成对抗网络模型包括目标生成层和目标判别层。

可选地，音频文件可以但不限于包括多个目标时长的音频数据，多个音频数据所对应的目标时长的和为音频文件的总时长，即可以将待确定噪声数据的音频文件切割为多个目标时长的音频数据逐个进行检测。并在检测之后根据检测结果对音频文件进行处理，切除被确定为噪声数据的部分，得到目标音频文件，后续还可以使用目标音频文件进行声纹识别等处理。

例如：在上述步骤S206之后，从音频文件中剪切噪声数据，得到不包括噪声数据的多个音频片段；将多个音频片段进行拼接，得到目标音频文件；输出目标音频文件。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种噪声数据的确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的噪声数据的确定装置的结构框图，如图3所示，该装置包括：

获取模块32，用于获取待确定噪声数据的音频文件；

第一确定模块34，用于通过目标网络模型确定音频文件中目标时长的音频数据与目标时长的同类目标声音之间的相似度，其中，目标网络模型是使用目标时长的目标声音对初始网络模型进行训练得到的模型，相似度越高表示音频数据与目标声音越相似；

第二确定模块36，用于在相似度低于目标相似度的情况下，将音频数据确定为噪声数据。

可选地，在本实施例中，目标声音是在音频文件中所需要留下的声音，比如：录音文件中的人声等等。

通过上述装置，使用目标声音对初始网络模型进行训练得到目标网络模型，使得目标网络模型能够分辨出音频文件中的目标声音，确定音频文件中的音频数据与目标声音之间的相似度，根据需求设定目标相似度作为相似度阈值，可见，只需明确目标声音即可进行噪声的检测，使得检测过程的复杂度降低，进一步，使用了模型训练的方式自动学习目标声音，模型能够准确地判断出音频数据与目标声音的相似度，从而准确地从音频文件中检测出噪声数据所在的位置，提高了检测过程的准确性。因此，可以解决相关技术中噪声数据的检测效率较低、准确率低的问题，达到提高噪声数据的检测效率的效果。

可选地，第一确定模块包括：

确定单元，用于通过目标生成对抗网络模型确定音频数据的音频特征图与目标声音的目标特征图之间的相似度，其中，目标特征图是目标声音的频谱图，由频谱图计算程序计算得到，目标生成对抗网络模型用于根据所述音频数据确定所述音频特征图与所述目标特征图之间的所述相似度。

可选地，确定单元包括：

输入子单元，用于将音频数据输入目标生成对抗网络模型；

获取子单元，用于获取目标生成对抗网络模型输出的相似度。

可选地，输入子单元用于：

从音频数据中提取音频数据的频谱特征；

将频谱特征输入目标生成对抗网络模型，其中，音频特征图包括频谱分布图。

可选地，上述装置还包括：

第一输入模块，用于将目标声音输入初始生成对抗网络模型所包括的初始生成层，得到初始生成层输出的图像；

第二输入模块，用于由初始生成对抗网络模型所包括的初始判别层鉴别生成层输出的图像，得到初始判别层输出的初始相似度；

调整模块，用于根据初始相似度与目标相似度之间的差值调整初始生成层的参数和初始判别层的参数，直至初始判别层输出的数据趋近于目标相似度，得到目标生成层和目标判别层，其中，目标生成对抗网络模型包括目标生成层和目标判别层，目标特征图是目标声音的频谱图，由频谱图计算程序计算所得。

可选地，音频文件包括多个目标时长的音频数据，多个音频数据所对应的目标时长的和为音频文件的总时长，其中，上述装置还包括：

剪切模块，用于从音频文件中剪切噪声数据，得到不包括噪声数据的多个音频片段；

拼接模块，用于将多个音频片段进行拼接，得到目标音频文件；

输出模块，用于输出目标音频文件。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

下面结合本发明可选实施例进行详细说明。

本发明可选实施例提供了一种噪声数据的确定方法，图4是根据本发明可选实施例的噪声数据的确定方法的示意图，如图4所示，使用目标语音对DCGAN网络模型进行训练。由于不同渠道的语音具有信道、编码等方面的差异，现有公开数据集的干净语音并不一定符合实际要求，需要人工选择少量实际业务中的干净语音即可。

使用干净语音对DCGAN网络进行充分训练后，即可使用训练得到的网络模型对新的录音文件进行纯净度判断(即噪音强度检测)，对不符合要求的片段，可以设定一个阈值，进而删除高于阈值的片段。

使用目标声音对DCGAN网络模型进行训练。所使用的语音先转换为Wave PCMsigned 16bit 8KHz 128kbps mono，然后提取MFCC特征并作归一化。训练样本维度为(20帧，129)，训练时batch size为3，则DCGAN网络输入维度为(3,20,129)。

图5是根据本发明可选实施例的噪声数据的确定系统的示意图，如图5所示，应用程序服务器用于收集录音文件信息，并调用噪音强度检测服务器对文件进行噪音片段切除，生成的干净的片段组合为新的录音文件，然后进入声纹识别流程。声纹识别将识别结果存入数据库。

DCGAN可以用来检测任意目标种类外的任意种类噪音的强度，例如：可以应用在研究鸟叫声、水流声等等目标声音的纯净程度。结合声纹识别，可以用以检测通话录音中人声的纯净程度(也即非人声噪音强度)。

本可选实施例使用共66个干净人声的通话录音文件作为训练数据，总时长约为3小时，男女比例约为1:1，网络训练更新次数为：43002次。经过43002次的训练后所得到的DCGAN网络模型即可以完美得检测出非人声的噪音强度，随后将噪音强度高的片段切除即可。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待确定噪声数据的音频文件；

S2，通过目标网络模型确定音频文件中目标时长的音频数据与目标时长的目标声音之间的相似度，其中，目标网络模型是使用目标时长的同类目标声音对初始网络模型进行训练得到的模型，相似度越高表示音频数据与目标声音越相似；

S3，在相似度低于目标相似度的情况下，将音频数据确定为噪声数据。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待确定噪声数据的音频文件；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种噪声数据的确定方法，其特征在于，包括：

获取待确定噪声数据的音频文件；

在所述相似度低于目标相似度的情况下，将所述音频数据确定为噪声数据；

其中，通过目标网络模型确定所述音频文件中所述目标时长的音频数据与所述目标时长的目标声音之间的相似度包括：通过目标生成对抗网络模型确定所述音频数据的音频特征图与所述目标声音的目标特征图之间的相似度，其中，所述目标特征图是所述目标声音的频谱图，由频谱图计算程序计算得到，所述目标生成对抗网络模型用于计算所述音频数据的所述音频特征图与所述目标特征图之间的所述相似度；

其中，在通过目标生成对抗网络模型确定所述音频数据的音频特征图与所述目标声音的目标特征图之间的相似度之前，所述方法还包括：将所述目标声音输入所述初始生成对抗网络模型所包括的初始生成层，得到所述初始生成层输出的图像；所述初始生成对抗网络模型所包括的初始判别层鉴别生成层输出的图像，得到所述初始判别层输出的初始相似度；根据所述初始相似度与目标相似度之间的差值调整所述初始生成层的参数和所述初始判别层的参数，直至所述初始判别层输出的数据趋近于所述目标相似度，得到目标生成层和目标判别层，其中，所述目标生成对抗网络模型包括所述目标生成层和所述目标判别层。

2.根据权利要求1所述的方法，其特征在于，通过目标生成对抗网络模型确定所述音频数据的音频特征图与所述目标声音的目标特征图之间的相似度包括：

将所述音频数据输入所述目标生成对抗网络模型；

获取所述目标生成对抗网络模型输出的所述相似度。

3.根据权利要求2所述的方法，其特征在于，将所述音频数据输入所述目标生成对抗网络模型包括：

从所述音频数据中提取所述音频数据的频谱特征；

4.根据权利要求1所述的方法，其特征在于，所述音频文件包括多个所述目标时长的音频数据，多个所述音频数据所对应的目标时长的和为所述音频文件的总时长，其中，在将所述音频数据确定为所述噪声数据之后，所述方法还包括：

将所述多个音频片段进行拼接，得到目标音频文件；

输出所述目标音频文件。

5.一种噪声数据的确定装置，其特征在于，包括：

获取模块，用于获取待确定噪声数据的音频文件；

第二确定模块，用于在所述相似度低于目标相似度的情况下，将所述音频数据确定为噪声数据；

其中，所述第一确定模块包括：确定单元，用于通过目标生成对抗网络模型确定所述音频数据的音频特征图与所述目标声音的目标特征图之间的相似度，其中，所述目标特征图是所述目标声音的频谱图，由频谱图计算程序计算得到，所述目标生成对抗网络模型用于计算所述音频数据的所述音频特征图与所述目标特征图之间的所述相似度；

其中，所述装置还包括：第一输入模块，用于在通过目标生成对抗网络模型确定所述音频数据的音频特征图与所述目标声音的目标特征图之间的相似度之前，将所述目标声音输入所述初始生成对抗网络模型所包括的初始生成层，得到所述初始生成层输出的图像；第二输入模块，用于所述初始生成对抗网络模型所包括的初始判别层鉴别生成层输出的图像，得到所述初始判别层输出的初始相似度；调整模块，用于根据所述初始相似度与目标相似度之间的差值调整所述初始生成层的参数和所述初始判别层的参数，直至所述初始判别层输出的数据趋近于所述目标相似度，得到目标生成层和目标判别层，其中，所述目标生成对抗网络模型包括所述目标生成层和所述目标判别层。

6.根据权利要求5所述的装置，其特征在于，所述确定单元包括：

输入子单元，用于将所述音频数据输入所述目标生成对抗网络模型；

获取子单元，用于获取所述目标生成对抗网络模型输出的所述相似度。

7.根据权利要求6所述的装置，其特征在于，所述输入子单元用于：

从所述音频数据中提取所述音频数据的频谱特征；

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

剪切模块，所述音频文件包括多个所述目标时长的音频数据，多个所述音频数据所对应的目标时长的和为所述音频文件的总时长，其中，在将所述音频数据确定为所述噪声数据之后，从所述音频文件中剪切所述噪声数据，得到不包括所述噪声数据的多个音频片段；

拼接模块，用于将所述多个音频片段进行拼接，得到目标音频文件；

输出模块，用于输出所述目标音频文件。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。