CN111179971A

CN111179971A - 无损音频检测方法、装置、电子设备及存储介质

Info

Publication number: CN111179971A
Application number: CN201911219308.4A
Authority: CN
Inventors: 赵剑; 刘华平
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-05-19

Abstract

本申请公开了一种无损音频检测方法、装置、电子设备及存储介质，以提高无损音频的检测准确度。该方法包括：获取待检测音频对应的频谱图；将频谱图输入已训练的神经网络模型，得到表示待检测音频是否为无损音频的检测结果，神经网络模型包括卷积神经网络、时间递归神经网络、注意力模块和分类器；卷积神经网络用于从频谱图提取预设数量个第一特征向量；时间递归神经网络用于根据顺序输入的预设数量个第一特征向量依次输出预设数量个第二特征向量；注意力模块用于根据预设数量个第二特征向量获得每个第二特征向量对应的权重；分类器用于根据预设数量个第二特征向量和每个第二特征向量对应的权重，获得表示待检测音频是否为无损音频的检测结果。

Description

无损音频检测方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种无损音频检测方法、装置、电子设备及存储介质。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

无损音乐的音质更好，能向用户提供更好的听觉感受，而数据量更小的有损音乐则更利在网络上传输流通，因此有损音乐以及无损音乐能够满足不同应用场景的需求。但是，现有技术中会将流通性更好的有损音乐通过一定方式转换为无损压缩格式，来冒充无损音乐。对于音乐类公司来说，通过人工过滤千万级别的曲库来改善曲库质量，一方面需耗费庞大的人力，另一方面人工过滤随机性大，标准难以统一。因此，利用机器实现自动检测无损音乐的方法应运而生。通常的做法是，通过标记好大量的真假无损音乐数据，基于标记好的音乐数据对卷积神经网络进行训练，然后将待检测的音乐输入训练好的卷积神经网络，获得该音乐是否为无损音乐的检测结果。

发明内容

但是，背景技术中所列的方法是将音乐数据转换为图像后利用卷积神经网络进行识别，而卷积神经网络是一种提取空间结构的模型，单纯使用卷积神经网络，会丢失音乐数据在时间序列互相之间作用的关系，降低模型的识别准确度。

针对上述技术问题，非常需要一种改进的方法，来提高无损音乐检测的准确度。

一方面，本申请一实施例提供了一种无损音频检测方法，包括：

获取待检测音频对应的频谱图；

将所述频谱图输入已训练的神经网络模型，得到表示所述待检测音频是否为无损音频的检测结果，所述神经网络模型包括：卷积神经网络、时间递归神经网络、注意力模块和分类器；

所述卷积神经网络用于从所述频谱图提取预设数量个第一特征向量；

所述时间递归神经网络用于根据顺序输入的所述预设数量个第一特征向量依次输出预设数量个第二特征向量；

所述注意力模块用于根据所述预设数量个第二特征向量获得每个第二特征向量对应的权重；

所述分类器用于根据所述预设数量个第二特征向量和每个第二特征向量对应的权重，获得表示所述待检测音频是否为无损音频的检测结果。

可选地，所述卷积神经网络包括4个卷积层，4个卷积层的输出通道数量依次为64、128、128和128，每个卷积层使用的卷积核大小均为3×3，4个卷积层的步长依次为2×2、3×3、4×4和4×4。

可选地，所述Focal Loss损失函数为：

其中，L为损失值，α和γ为调节无损音频样本和有损音频样本比例不平衡的参数，y为输入的音频片段对应的标注信息，y＝1表示输入的音频片段的标注信息为无损音频，y＝0表示输入的音频片段的标注信息为有损音频。

可选地，所述α的取值范围为0.75～0.2，所述γ的取值范围为0～5。

可选地，获取待检测音频对应的频谱图，具体包括：

对待检测音频进行短时傅里叶变换，得到频谱图。

可选地，进行所述短时傅里叶变换时的频域窗口大小为2048，所述频谱图每一行的像素点数量为1200～2400，每一列的像素点数量为128～156。

一方面，本申请一实施例提供了一种无损音频检测装置，包括：

频谱图获取模块，用于获取待检测音频对应的频谱图；

检测模块，用于将所述频谱图输入已训练的神经网络模型，得到表示所述待检测音频是否为无损音频的检测结果，所述神经网络模型包括：卷积神经网络、时间递归神经网络、注意力模块和分类器；所述卷积神经网络用于从所述频谱图提取预设数量个第一特征向量；所述时间递归神经网络用于根据顺序输入的所述预设数量个第一特征向量依次输出预设数量个第二特征向量；所述注意力模块用于根据所述预设数量个第二特征向量获得每个第二特征向量对应的权重；所述分类器用于根据所述预设数量个第二特征向量和每个第二特征向量对应的权重，获得表示所述待检测音频是否为无损音频的检测结果。

可选地，所述卷积神经网络的全连接层和输出层之间设置有奇异值分解SVD层，所述SVD层用于利用奇异值分解算法降低所述输出层输出每个第一特征向量包含的向量维数。

可选地，所述分类器用于确定每个第二特征向量被确认为无损音频的概率值，根据每个第二特征向量对应的权重，对所述预设数量个第二特征向量对应的概率值进行加权处理，根据加权处理结果确定所述检测结果。

可选地，通过如下方式训练所述神经网络模型：

获取训练样本集，其中每个训练样本包括预设长度的音频片段和表示该音频片段是否为无损音频的标注信息；

将训练样本集中音频片段对应的频谱图输入所述神经网络模型，得到表示输入的音频片段是否为无损音频的预测结果；

根据输入的音频片段对应的预测结果和标注信息，利用Focal Loss损失函数更新所述神经网络模型的参数。

可选地，所述卷积神经网络中每个卷积层之前设有数据归一化层；

每个数据归一化层对上一个网络层输出的维度为[N,C,H,W]的第一矩阵进行矩阵变换，得到维度为[N,G,C/G,H,W]的第二矩阵，以及分别对所述第二矩阵中每个组内的同一特征图中的音频特征值进行归一化处理，将归一化处理后的音频特征值输入之后的卷积层，其中，C为特征图的通道数，N为批处理量，H为特征图的高，W为特征图的宽，C/G表示将特征图的通道数划分为G个组。

可选地，所述对所述第二矩阵中每个组内的同一特征图中的音频特征值进行归一化处理，具体包括：

针对所述第二矩阵中每个组内的每个特征图，根据该特征图中每个特征点的音频特征值，确定音频特征均值和音频特征方差；

根据音频特征均值、音频特征方差和每个特征点的音频特征值，确定每个特征点对应的归一化后的音频特征值。

可选地，所述Focal Loss损失函数为：

可选地，通过如下方式获取所述训练样本集：

获取多个音频数据，每个音频数据标注有表示该音频数据是否为无损音频的标注信息；

通过以下至少一种方式对每个音频数据进行处理得到多个音频片段：对音频数据进行裁剪处理，获得多个预设长度的音频段落；或者对音频数据分别进行多种角度的旋转，获得多个音频片段；或者在音频数据中分别添加多种噪声，获得多个音频片段；

将每个音频片段和该音频片段所属的音频对应的标注信息作为一个训练样本，添加到所述训练样本集中。

可选地，获取待检测音频对应的频谱图，具体包括：

对待检测音频进行短时傅里叶变换，得到频谱图。

一方面，本申请一实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述任一种方法的步骤。

一方面，本申请一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

一方面，本申请一实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现上述任一种方法的步骤。

本申请实施例提供的无损音频检测方法、装置、电子设备及存储介质，通过结合卷积神经网络、时间递归神经网络和Attention机制的神经网络模型进行无损音频检测，该神经网络模型充分学习到了音频的各种特征在时间维度上的内在关联以及对检测结果的影响权重，使得检测结果保留了音频数据在时间维度上的相互作用关系，提高了模型的检测准确度。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

图1A为本申请实施例提供的无损音频检测方法的应用场景示意图；

图1B为本申请实施例提供的无损音频检测方法的应用场景示意图；

图2为本申请一实施例提供的无损音频检测方法中使用的神经网络模型的结构示意图；

图3为本申请一实施例提供的一种卷积神经网络的结构示意图；

图4为通过SVD层将全连接层由1024维度压缩至128维度的网络结构示意图；

图5为本申请一实施例提供的一种卷积神经网络的结构示意图；

图6为在卷积神经网络中设置数据归一化层的一个示例；

图7为Group Normalization算法和采用Batch Normalization算法进行归一化处理的示意图；

图8为采用Group Normalization算法和采用Batch Normalization算法的错误率的曲线图；

图9为本申请一实施例提供的获取训练样本集的流程示意图；

图10为本申请一实施例提供的训练神经网络模型的流程示意图；

图11A为γ取不同值的情况下损失值的变化情况；

图11B为α和γ的取值与神经网络模型预测准确率之间的关系表；

图12为本申请一实施例提供的无损音频检测方法的流程示意图；

图13为本申请一实施例提供的无损音频检测装置的结构示意图；

图14为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。

长短期记忆网络(LSTM，Long Short-Term Memory)是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的。

Attention机制通俗的讲就是把注意力集中放在重要的点上，在无损音乐检测中，即音乐内部不同特征对是否有损影响的权重是不同的，把权重注意力更多的放在音乐内部重要特征上。

下面参考本申请的若干代表性实施方式，详细阐释本申请的原理和精神。

发明概述

本申请的发明人发现，现有技术中通过标记好大量的真假无损音乐数据，基于标记好的音乐数据对卷积神经网络进行训练，然后将待检测的音乐输入训练好的卷积神经网络，获得该音乐是否为无损音乐的检测结果。但是，背景技术中所列的方法是将音乐数据转换为图像后利用卷积神经网络进行识别，而卷积神经网络是一种提取空间结构的模型，单纯使用卷积神经网络，会丢失音乐数据在时间序列互相之间作用的关系，降低模型的识别准确度。

为了解决上述问题，本申请发明人利用大量标记好的无损音频和有损音频，对结合了卷积神经网络、时间递归神经网络与Attention机制的神经网络模型进行训练，其中，时间递归神经网络可学习到音频的特征在时间维度上的关系，同时结合Attention机制提高重要特征影响最终检测结果的权重，该神经网络模型充分学习到了音频的各种特征在时间维度上的内在关联以及对检测结果的影响权重，可提高检测无损音频的准确度。具体地无损音频检测方法包括：获取待检测音频对应的频谱图，将频谱图输入已训练的神经网络模型，得到表示待检测音频是否为无损音频的检测结果，神经网络模型包括卷积神经网络、时间递归神经网络、注意力模块和分类器；卷积神经网络用于从频谱图提取预设数量个第一特征向量；时间递归神经网络用于根据顺序输入的预设数量个第一特征向量依次输出预设数量个第二特征向量；注意力模块用于根据预设数量个第二特征向量获得每个第二特征向量对应的权重；分类器用于根据预设数量个第二特征向量和每个第二特征向量对应的权重，获得表示待检测音频是否为无损音频的检测结果。通过结合卷积神经网络、时间递归神经网络和Attention机制的神经网络模型，充分学习到了音频的各种特征在时间维度上的内在关联以及对检测结果的影响权重，提高了模型的检测准确度。

在介绍了本申请的基本原理之后，下面具体介绍本申请的各种非限制性实施方式。

应用场景总览

参考图1A，其为本申请实施例提供的无损音频检测方法的应用场景示意图。该应用场景包括音频存储服务器101和检测服务器102。其中，音频存储服务器101和检测服务器102之间通过通信网络连接，音频存储服务器101和检测服务器102可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。当然，音频存储服务器101和检测服务器102也可以布设在同一个服务器或服务器集群中。

音频存储服务器101用于存储音频数据。检测服务器102从音频存储服务器101中获取待检测音频，获取待检测音频对应的频谱图，将频谱图输入已训练的神经网络模型，得到表示待检测音频是否为无损音频的检测结果，将针对该待检测音频的检测结果反馈给音频存储服务器101，音频存储服务器101根据检测结果将其存储的该待检测音频标记为有损音频或无损音频。

参考图1B，其为本申请实施例提供的无损音频检测方法的另一应用场景示意图。该应用场景包括终端设备103、业务服务器104和检测服务器105。其中，终端设备103和后台服务器103之间、业务服务器104和检测服务器105之间均通过通信网络连接，业务服务器103和检测服务器105可以是一台服务器、若干台服务器组成的服务器集群或云计算中心，终端设备103包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视等电子设备。

图1B所示的终端设备103中安装有音频应用，用户可通过音频应用与业务服务器104交互，并收听音频、下载音频或上传音频等，业务服务器104用于处理音频应用对应的业务功能。用户可通过音频应用，针对音频应用中的任一音频发起无损音频检测请求，通过终端设备103将无损音频检测请求发送给业务服务器104，业务服务器104查询到该无损音频检测请求中携带的音频标识对应的音频数据，将该音频数据发送给检测服务器105，由检测服务器105获取该音频数据对应的频谱图，将频谱图输入已训练的神经网络模型，得到表示该音频数据是否为无损音频的检测结果，将针对该音频数据的检测结果反馈给业务服务器104，业务服务器104根据检测结果将其存储的该待检测音频标记为有损音频或无损音频，同时将检测结果反馈给终端设备103，以告知用户针对音频数据的检测结果。

示例性方法

下面结合上述应用场景，来描述根据本申请示例性实施方式的无损音频检测方法。需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

首先，介绍一下本申请实施例提供的无损音频检测方法中所使用的神经网络模型的网络结构。

参考图2，本申请实施例提供的神经网络模型200具体包括：卷积神经网络201、时间递归神经网络202、注意力模块203和分类器204。

本申请实施例中，卷积神经网络201用于从输入神经网络模型200音频数据的频谱图中提取预设数量个第一特征向量。其中，预设数量可根据卷积神经网络201的卷积层中采用的卷积核的数量确定，例如，卷积核的数量为20，则卷积神经网络201输出20个第一特征向量，卷积核的数量可根据实际应用需求设定，本申请实施例不作限定。

具体实施时，卷积神经网络201可以是在图像分类领域中已经成熟应用的CNN模型，例如，常用的部署在服务器端的模型：VGG、ResNet、DenseNet等，或则部署在移动端的模型：MobileNet、ShuffleNet等。

本申请实施例中，时间递归神经网络202用于根据顺序输入的预设数量个第一特征向量依次输出预设数量个第二特征向量。

具体实施时，时间递归神经网络可以是长短期记忆网络(LSTM，Long Short-TermMemory)、双向循环神经网络(Bidirectional RNN)或基于编码-解码(Encoder-Decoder)的模型等，本申请实施例不作限定。

本申请实施例中，注意力模块203用于根据预设数量个第二特征向量获得每个第二特征向量对应的权重。其中，注意力模块203是基于注意力(Attention)机制实现的，将在后文中进行介绍。

本申请实施例中，分类器204用于根据预设数量个第二特征向量和每个第二特征向量对应的权重，获得表示待检测音频是否为无损音频的检测结果。其中，分类器204可以是任何一种可实现分类处理的网络层，如softmax层，本申请实施例不作限定。

具体实施时，分类器204用于确定每个第二特征向量被确认为无损音频的概率值，根据每个第二特征向量对应的权重，对预设数量个第二特征向量对应的概率值进行加权处理，根据加权处理结果确定表示待检测音频是否为无损音频的检测结果。

举例说明，首先，将音频数据的频谱图输入卷积神经网络201，卷积神经网络201输出20个128维度的第一特征向量t_i，依次将这20个第一特征向量t_i输入时间递归神经网络202。时间递归神经网络202根据顺序输入的20个第一特征向量t_i，依次输出20个第二特征向量y_i，注意力模块203的输入是步长为20、特征向量长度为32的矩阵数组，假设某一时刻时间递归神经网络202根据输入的第一特征向量t_i输出第二特征向量y_i，此时输出的第二特征向量y_i依赖于其他时刻输出的第二特征向量的关系可以表示为：p(y_i|y₁,y₂,…,y_i-1,X)＝g(y_i-1,s_i,c_i)，其中，s_i即为时间递归神经网络202的隐藏层输出状态，c_i即为注意力模块203需要计算的权重。分类器204最终的输出为各时刻输出的y_i的加权平均，即分类器204的输出为

在一种可能的实施方式中，卷积神经网络的全连接层和输出层之间设置有SVD(Singular Value Decomposition，奇异值分解)层，其中SVD层用于利用奇异值分解算法降低输出层输出的每个第一特征向量包含的向量维数。以图3为例，其示出了SVD层在一种卷积神经网络中的部署方式。

其中，SVD层通过如下公式实现对特征向量的向量维数的压缩：

其中，c为压缩后的向量维数。参考图4，其为通过SVD层将全连接层由1024维度压缩至128维度的网络结构示意图，此时，卷积神经网络最终输出的每个第一特征向量的维度为128，假设预设数量为20，则针对输入的一个频谱图，卷积神经网络最终输出20个128维度的第一特征向量，也可看作输出一个20×128维度的特征向量。相应地，时间递归神经网络202的输入数据为20×128维度的数据。

通过SVD层对卷积神经网络输出的第一特征向量进行压缩，可降低后续网络层处理的数据量，在保证处理精度的同时提高处理速度。

实际应用中，卷积神经网络中的卷积层的数量、输出通道数量、卷积核的大小、步长等参数，可根据应用需求确定，本申请实施例不作限定。

在一种可能的实施方式中，参考图5，卷积神经网络包括4个卷积层：第一卷积层、第二卷积层、第三卷积层和第四卷积层，第一卷积层的输出通道数量为64，第二卷积层、第三卷积层和第四卷积层的输出通道数量均为128，上述每个卷积层使用的卷积核大小均为3×3，第一卷积层的步长为2×2，第二卷积层的步长为3×3，第三卷积层和第四卷积层的步长均为4×4。

在上述任一实施方式的基础上，卷积神经网络中每个卷积层之前设有数据归一化层。在数据归一化层中，采用Group Normalization(GN)数据归一化方式对上一个网络层输出的数据进行归一化处理。具体地，每个数据归一化层对上一个网络层输出的维度为[N,C,H,W]的第一矩阵进行矩阵变换，得到维度为[N,G,C/G,H,W]的第二矩阵，并分别对第二矩阵中每个组内的同一特征图(feature map)中的音频特征值进行归一化处理，将归一化处理后的音频特征值输入之后的卷积层，其中，C为特征图的通道数(channel)，N为批处理量(batch size)，H为特征图的高，W为特征图的宽，C/G表示将特征图的通道数划分为G个组。

参考图6，其为在卷积神经网络中设置数据归一化层的一个示例。图6中，在每一个卷积层之前设置了一个数据归一化层，其中，第一数据归一化层对输入层输出的数据进行归一化处理，然后将归一化处理后的数据输入第一卷积层，第二数据归一化层对第一卷积层输出的数据进行归一化处理，然后将归一化处理后的数据输入第二卷积层，以此类推。

具体实施时，G的取值可由本领域技术人员根据实际需求结合经验确定，本申请实施例不作限定。例如，当G＝32时，即将同一特征图的通道划分为32个组，然后分别对每一组通道中的音频特征值进行归一化操作，由于只是在通道数的维度上进行划分，因此数据归一化层中的归一化操作就和批处理量无关。

具体实施时，每一数据归一化层中，对第二矩阵中每个组内的同一特征图中的音频特征值进行归一化处理，具体包括：针对第二矩阵中每个组内的每个特征图，根据该特征图中每个特征点的音频特征值，确定音频特征均值和音频特征方差；根据音频特征均值、音频特征方差和每个特征点的音频特征值，确定每个特征点对应的归一化后的音频特征值。

具体实施时，可通过如下公式确定每个特征点i的音频特征均值μ_i和音频特征方差σ_i：

其中，

上述公式中的

表示S_i集合中的特征点为同一个组中的特征点。因此GN的思想就是在相同特征图的相同组(group)中进行归一化操作，而group只是在channel维度上进行划分，因此归一化操作就和batch size无关，参考图7，即仅对右边矩阵的黑色部分的数据进行归一化。

具体实施时，可通过如下公式确定每个特征点i归一化后的音频特征值

其中，x_i为特征点i归一化之前的音频特征值，μ_i为音频特征的均值，σ_i为音频特征的方差。

Group Normalization(GN)是针对Batch Normalization(BN)在batch size较小时错误率较高而提出的改进算法。图7中的一个立方体表示卷积层输出的第一矩阵，现有卷积神经网络在归一化过程中一般采用BN算法在第一矩阵的批处理量(batch size)维度上进行归一化处理，即对图7中左边矩阵中的黑色部分的数据进行归一化，可见现有相关技术的计算结果依赖当前batch的数据，当batch size较小时，数据的均值和方差的代表性较差，因此对最后的结果影响也较大。音频数据由于维度多样以及数据本身较大，batch size一般都设置比较小，本申请使用了GN算法，使得上述归一化过程中的计算不依赖batchsize的大小。如图8所示，随着batch size越来越小，现有技术在归一化过程采用的BN算法会导致所计算的统计信息的可靠性越来越差，这样就容易导致最后错误率的上升，而本申请采用了GN算法，使得归一化过程中的计算稳定性较好，错误率不受batch size大小影响。

为此，本申请实施例的卷积神经网络，在每个卷积层之前设有数据归一化层，通过数据归一化层中的Group Normalization数据归一化方式，解决训练过程中，当batch size较小时训卷积神经网络错误率较高的问题。

下面介绍针对上述任一实施方式中的神经网络模型的训练方法。

首先，介绍一下获取训练样本集的方法。参考图9，可通过如下方式获取训练样本集：

S901、获取多个音频数据，每个音频数据标注有表示该音频数据是否为无损音频的标注信息。

本申请实施例中的音频数据可以是任何一种类型的音频文件，如音乐、音频课程、视频中的音频等。

具体实施时，可通过人工标注或机器标注的方式，对音频数据进行样本标注，可将标注好的音频数据存储在音频存储服务器中，训练时只需要从音频存储服务器中获取即可。音频存储服务器的部署方式可以是本地存储方式或分布式存储方式，具体可依据业务规模的大小自主选择。

S902、对每个音频数据进行处理得到多个音频片段。

具体实施时，通过以下至少一种方式对每个音频数据进行处理得到多个音频片段：

第一种方式、对音频数据进行裁剪处理，获得多个预设长度的音频段落。

本申请实施中，预设长度可由本领域技术人员根据业务需求以及经验确定，此处不作限定。

假设预设长度为10秒，待处理的音频数据的长度为100秒，则可以将该音频数据划分为10个10秒的音频段落。假设预设长度为10秒，待处理的音频数据的长度为98秒，则可以将该音频数据中前90秒的数据划分为9个10秒的音频段落，然后，采用轴对称方式将最后8秒的音频数据补齐为10秒的音频段落。

第二种方式、对音频数据分别进行多种角度的旋转，获得多个音频片段。

本申请实施例中，旋转的具体角度可根据由本领域技术人员根据业务需求以及经验确定，此处不作限定。例如，旋转的具体角度可以从-30度～+30度范围内任选多个角度，如对一个音频数据分别旋转-20度、-10度、10度、20度，得到4个音频片段，加上原来的音频数据，基于这一个音频数据可获得5个音频片段。

第三种方式、在音频数据中分别添加多种噪声，获得多个音频片段。

具体实施时，可通过如下函数在音频数据中添加噪声：

y’＝where(y！＝0,y+0.02*random(len(y)),0.0)，

其中，y代表添加噪声前的音频数据，y’代表添加噪声后的音频片段。具体实施时，可通过调节公式中的参数，获取多个添加不同噪声后的音频片段。

通过上述三种预处理增强方式，可在不改变音频数据是否有损的性质的同时，扩充训练样本集中的样本。

S903、将每个音频片段和该音频片段所属的音频对应的标注信息作为一个训练样本，添加到训练样本集中。

通过上述获取训练样本集的方式，一方面扩充了训练样本集中的样本，另一方面有助于降低训练中对神经网络模型的过拟合，提高泛化能力。

经图9所示的方式处理好的训练样本集可存储在音频存储服务器中，供训练神经网络模型时使用。

参考图10，可通过如下方式训练上述任一实施方式中的神经网络模型：

S1001、获取训练样本集，其中每个训练样本包括预设长度的音频片段和表示该音频片段是否为无损音频的标注信息。

S1002、将训练样本集中音频片段对应的频谱图输入神经网络模型，得到表示输入的音频片段是否为无损音频的预测结果。

具体实施时，可通过对音频片段进行短时傅里叶变换，得到该音频片段对应的频谱图。

具体实施时，对音频片段进行短时傅里叶变换时的频域窗口大小可以为2048。此外，还可以根据应用需求设定频谱图的大小，例如，频谱图每一行的像素点数量可以是1200～2400，每一列的像素点数量可以是128～156。

通过短时傅里叶变换，可将音频片段转换为统一尺寸的多通道的频谱图。

S1003、根据输入的音频片段对应的预测结果和标注信息，利用Focal Loss损失函数更新神经网络模型的参数。

其中，Focal Loss损失函数为：

其中，L为损失值，α和γ为调节无损音频样本和有损音频样本比例不平衡的参数，y为输入的音频片段对应的标注信息，y＝1表示输入的音频片段的标注信息为无损音频，y＝0表示输入的音频片段的标注信息为有损音频，y′为输入的音频片段为无损音频的概率值，可经过sigmoid激活函数的预测输出，y′的数值在0到1之间。上述Focal Loss损失函数表示，当步骤S1002中的预测结果为无损音频时，采用L＝-α(1-y′)^γlogy′计算损失值，当步骤S1002中的预测结果为有损音频时，采用L＝-(1-α)y′^γlog(1-y′)计算损失值。

Focal Loss损失函数通过协调参数α和γ，来调节样本训练集中无损样本和有损样本比例失调的问题。参考图11A，为γ取不同值的情况下损失值的变化情况，当γ＝0时，Focal Loss损失函数即为交叉熵损失函数(Cross Entropy Loss)。具体实施时，α的取值范围为0.75～0.2，γ的取值范围为0～5。参考图11B，为α和γ的取值和神经网络模型预测准确率AP之间的关系表，根据表中的数据可知，当α＝0.2，γ＝2时，神经网络模型预测准确率最高。

本申请实施例的方法，利用大量标记好的无损音频和有损音频，对结合了卷积神经网络、时间递归神经网络与Attention机制的神经网络模型进行训练，其中，时间递归神经网络可学习到音频的特征在时间维度上的关系，同时结合Attention机制提高重要特征影响最终检测结果的权重，因此，该神经网络模型能够充分学习到音频的各种特征在时间维度上的内在关联以及对检测结果的影响权重，有助于提高检测无损音频的准确度。

参考图12，本申请实施例提供了的一种无损音频检测方法，具体可包括以下步骤：

S1201、获取待检测音频对应的频谱图。

具体实施时，步骤S1201具体包括：对待检测音频进行短时傅里叶变换，得到频谱图。

具体实施时，对待检测音频进行短时傅里叶变换时使用的参数与训练时使用的参数一致。例如，训练时短时傅里叶变换的频域窗口大小为2048，则步骤S1201中使用的频域窗口大小也为2048；训练时，频谱图的尺寸为：每一行的像素点数量为1200，每一列的像素点数量为128，则步骤S1201得到的频谱图也是该尺寸。

S1202、将频谱图输入已训练的神经网络模型，得到表示待检测音频是否为无损音频的检测结果，神经网络模型包括：卷积神经网络、时间递归神经网络、注意力模块和分类器。

其中，卷积神经网络用于从频谱图提取预设数量个第一特征向量。时间递归神经网络用于根据顺序输入的预设数量个第一特征向量依次输出预设数量个第二特征向量。注意力模块用于根据预设数量个第二特征向量获得每个第二特征向量对应的权重。分类器用于根据预设数量个第二特征向量和每个第二特征向量对应的权重，获得表示待检测音频是否为无损音频的检测结果。

具体实施时，步骤S1202中的神经网络模型可以是上述任一实施方式中提及的神经网络模型。

需要说明的是，本申请实施例提供了的一种无损音频检测方法，可应用于图1A和图1B所示的检测服务器，也可以用于终端设备。

本申请实施例提供了的无损音频检测方法，通过结合卷积神经网络、时间递归神经网络和Attention机制的神经网络模型进行无损音频检测，该神经网络模型充分学习到了音频的各种特征在时间维度上的内在关联以及对检测结果的影响权重，使得检测结果保留了音频数据在时间维度上的相互作用关系，提高了模型的检测准确度。

示例性设备

在介绍了本申请示例性实施方式的方法之后，接下来，对本申请示例性实施方式的、无损音频检测装置进行介绍。

如图13所示，为本申请实施例提供的无损音频检测装置130的结构示意图。在一个实施例中，无损音频检测装置130包括：频谱图获取模块1301、检测模块1302。

其中，频谱图获取模块1301，用于获取待检测音频对应的频谱图。

其中，检测模块1302，用于将频谱图输入已训练的神经网络模型，得到表示待检测音频是否为无损音频的检测结果。神经网络模型包括：卷积神经网络、时间递归神经网络、注意力模块和分类器；卷积神经网络用于从频谱图提取预设数量个第一特征向量；时间递归神经网络用于根据顺序输入的预设数量个第一特征向量依次输出预设数量个第二特征向量；注意力模块用于根据预设数量个第二特征向量获得每个第二特征向量对应的权重；分类器用于根据预设数量个第二特征向量和每个第二特征向量对应的权重，获得表示待检测音频是否为无损音频的检测结果。

可选地，卷积神经网络的全连接层和输出层之间设置有奇异值分解SVD层，SVD层用于利用奇异值分解算法降低输出层输出每个第一特征向量包含的向量维数。

可选地，分类器用于确定每个第二特征向量被确认为无损音频的概率值，根据每个第二特征向量对应的权重，对预设数量个第二特征向量对应的概率值进行加权处理，根据加权处理结果确定检测结果。

可选地，可通过如下方式训练神经网络模型：

将训练样本集中音频片段对应的频谱图输入神经网络模型，得到表示输入的音频片段是否为无损音频的预测结果；

根据输入的音频片段对应的预测结果和标注信息，利用Focal Loss损失函数更新神经网络模型的参数。

可选地，卷积神经网络包括4个卷积层，4个卷积层的输出通道数量依次为64、128、128和128，每个卷积层使用的卷积核大小均为3×3，4个卷积层的步长依次为2×2、3×3、4×4和4×4。

可选地，卷积神经网络中每个卷积层之前设有数据归一化层。

其中，每个数据归一化层对上一个网络层输出的维度为[N,C,H,W]的第一矩阵进行矩阵变换，得到维度为[N,G,C/G,H,W]的第二矩阵，以及分别对第二矩阵中每个组内的同一特征图中的音频特征值进行归一化处理，将归一化处理后的音频特征值输入之后的卷积层，其中，C为特征图的通道数，N为批处理量，H为特征图的高，W为特征图的宽，C/G表示将特征图的通道数划分为G个组。

可选地，每个数据归一化层中，对第二矩阵中每个组内的同一特征图中的音频特征值进行归一化处理，具体包括：针对第二矩阵中每个组内的每个特征图，根据该特征图中每个特征点的音频特征值，确定音频特征均值和音频特征方差；根据音频特征均值、音频特征方差和每个特征点的音频特征值，确定每个特征点对应的归一化后的音频特征值。

可选地，Focal Loss损失函数为：

可选地，α的取值范围为0.75～0.2，γ的取值范围为0～5。

可选地，可通过如下方式获取训练样本集：

将每个音频片段和该音频片段所属的音频对应的标注信息作为一个训练样本，添加到训练样本集中。

可选地，获取待检测音频对应的频谱图，具体包括：对待检测音频进行短时傅里叶变换，得到频谱图。

可选地，进行短时傅里叶变换时的频域窗口大小为2048，频谱图每一行的像素点数量为1200～2400，每一列的像素点数量为128～156。

本申请实施例提供，无损音频检测装置与上述无损音频检测方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

基于与上述无损音频检测方法相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、服务器等。如图14所示，该电子设备140可以包括处理器1401和存储器1402。

处理器1401可以是通用处理器，例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1402还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

示例性程序产品

本申请实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行上述无损音频检测方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

在一些可能的实施方式中，本申请的各个方面还可以实现为一种计算机程序产品，其包括程序代码，当该计算机程序产品在服务器设备上运行时，该计算机程序产品用于使所述服务器设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的无损音频检测方法中的步骤。

所述计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

根据本申请的实施方式的用于即时通信应用的计算机程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在服务器设备上运行。然而，本申请的程序产品不限于此，在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本申请的精神和原理，但是应该理解，本申请并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种无损音频检测方法，其特征在于，包括：

获取待检测音频对应的频谱图；

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络的全连接层和输出层之间设置有奇异值分解SVD层，所述SVD层用于利用奇异值分解算法降低所述输出层输出的每个第一特征向量包含的向量维数。

3.根据权利要求1所述的方法，其特征在于，所述分类器用于确定每个第二特征向量被确认为无损音频的概率值，根据每个第二特征向量对应的权重，对所述预设数量个第二特征向量对应的概率值进行加权处理，根据加权处理结果确定所述检测结果。

4.根据权利要求1至3中任一所述的方法，其特征在于，通过如下方式训练所述神经网络模型：

根据输入的音频片段对应的预测结果和标注信息，利用FocalLoss损失函数更新所述神经网络模型的参数。

5.根据权利要求4所述的方法，其特征在于，所述卷积神经网络中每个卷积层之前设有数据归一化层；

6.根据权利要求5所述的方法，其特征在于，所述对所述第二矩阵中每个组内的同一特征图中的音频特征值进行归一化处理，具体包括：

7.根据权利要求4所述的方法，其特征在于，通过如下方式获取所述训练样本集：

通过以下至少一种方式对每个音频数据进行处理得到多个音频片段：对音频数据进行裁剪处理，获得多个预设长度的音频段落；对音频数据分别进行多种角度的旋转，获得多个音频片段；在音频数据中分别添加多种噪声，获得多个音频片段；

8.一种无损音频检测装置，其特征在于，包括：

频谱图获取模块，用于获取待检测音频对应的频谱图；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。