CN108206027A

CN108206027A - 一种音频质量评价方法及系统

Info

Publication number: CN108206027A
Application number: CN201611184259.1A
Authority: CN
Inventors: 钱大伟
Original assignee: Beijing Kuwo Technology Co Ltd
Current assignee: Beijing Kuwo Technology Co Ltd
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2018-06-26

Abstract

本发明实施例涉及一种音频质量评价方法及系统，该方法包括：将测试文件输入至音频质量训练模型，其中音频质量训练模型为对样本文件进行训练获取的模型；利用音频质量训练模型，对测试文件进行训练，获取训练结果；根据训练结果，确定音频文件的音频质量。通过将样本文件转换为声谱图，并对所述声谱图做相应处理后，进行训练。获取音频质量训练模型，利用该音频质量训练模型对测试文件进行测试。将音频识别问题转化为图像识别问题，实现了歌曲主观质量的自动化标注。有效的评价出演唱者的嗓音质量，实现了歌曲主观质量的自动化标注，而且利用声谱图可以很好的识别出演唱者的演唱质量。

Description

一种音频质量评价方法及系统

技术领域

本发明涉及数据分析技术领域，尤其涉及一种音频质量评价方法及系统。

背景技术

最近来随着经济水平的不断提高，人们对精神层面也越来越关注，经常在家或去KTV等场所进行K歌娱乐，并应用软件对演唱的歌曲进行评价。常见评价歌曲演唱方法是基于唱歌的节拍，即只要节拍对上即可。这并不能很好的评价唱歌者歌唱的到底好不好，只能判断出是否合拍。

发明内容

本发明为了能够有效的评价出演唱者的嗓音质量，提供了一种音频质量评价方法及系统。

一方面，提供了一种音频质量评价方法，包括：将测试文件输入至音频质量训练模型，其中音频质量训练模型为对样本文件进行训练获取的模型；利用音频质量训练模型，对测试文件进行训练，获取训练结果；根据训练结果，确定音频文件的音频质量。

优选地，将测试文件输入至音频质量训练模型之前，方法还包括:制作音频质量训练模型。

进一步优选地，制作音频质量训练模型，具体包括:将样本文件转换为声谱图；对声谱图进行灰度处理，生成与声谱图对应的灰度图；对灰度图进行缩放；并对进行缩放后的灰度图进行训练，获取音频质量训练模型。

优选地，将样本文件转换为声谱图，包括：采用短时傅里叶变换，将样本文件转换为声谱图。

优选地，对进行缩放后的灰度图进行训练，获取音频质量训练模型，具体包括：利用卷积神经网络算法，对进行缩放后的灰度图进行训练，获取音频质量训练模型。

另一方面，提供了一种音频质量评价系统，包括：输入模块，用于将测试文件输入至音频质量训练模型，其中音频质量训练模型为对样本文件进行训练获取的模型；训练模块，用于利用音频质量训练模型，对测试文件进行训练，获取训练结果；质量评价模块，用于根据训练结果，确定音频文件的音频质量。

优选地，训练模块还用于，制作音频质量训练模型。

进一步优选地，训练模块具体用于：将样本文件转换为声谱图；对声谱图进行灰度处理，生成与声谱图对应的灰度图；对灰度图进行缩放；并对进行缩放后的灰度图进行训练，获取音频质量训练模型。

优选地，训练模块具体用于：采用短时傅里叶变换，将样本文件转换为声谱图。

优选地，训练模块具体用于：利用卷积神经网络算法，对进行缩放后的灰度图进行训练，获取音频质量训练模型。

本发明实施例提供的一种音频质量评价方法，通过将样本文件转换为声谱图，并对所述声谱图做相应处理后，进行训练。获取音频质量训练模型，利用该音频质量训练模型对测试文件进行测试。将音频识别问题转化为图像识别问题，实现了歌曲主观质量的自动化标注。有效的评价出演唱者的嗓音质量实现了歌曲主观质量的自动化标注，而且利用声谱图可以很好的识别出演唱者的演唱质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为本发明实施例提供的一种音频质量评价方法的流程图；

图2为一种制作音频质量训练模型的方法流程示意图；

图3为本发明实施例提供的一种音频质量评价的系统结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图和实施例，对本发明实施例中的技术方案进行清楚地描述。

当本发明实施例提及“第一”、“第二”等序数词时，除非根据上下文其确实表达顺序之意，应当理解为仅仅起区分的作用。

图1为本发明实施例提供的一种音频质量评价的方法流程示意图，如图1所示，该方法包括：

步骤110，将测试文件输入至音频质量训练模型。

具体的，本文中所述的测试文件为音频测试文件，具体可以为用户上传的音乐文件，或者其他音频文件，这里不做任何限制。而音频质量训练模型为对样本文件进行训练获取的模型。

在步骤110之前，该方法还包括：步骤100，制作音频质量训练模型。

具体制作音频质量训练模型的步骤具体如图2所示，图2为一种制作音频质量训练模型的方法流程示意图。可以包括步骤1001-步骤1004。

步骤1001，将样本文件转换为声谱图。

具体的，样本文件为已知的音频文件。例如，可以从曲库中抽取500首知名歌手的音乐文件，从用户上传的歌曲中抽取500首用户演唱的音乐文件，组成样本文件。

首先需要将样本文件进行预处理，具体可以包括将样本文件中的所有文件进行标注。例如，标注哪些音频文件为知名歌手的音乐文件，哪些音频文件为用户演唱的音乐文件(例如，将知名歌手的音乐文件标注为0，将用户演唱的音乐文件标注为1)。

然后，将这些文件利用短时傅里叶变换算法，转换为声谱图。

这里需要说明的是，声音本身的信息主要包含三个维度：时间、频率、能量。常见的声音可视化表示方式有波形图、频谱图、声谱图。波形图表征音频文件的时域信息，所以损失了频率信息。对应的，频谱图表征音频文件的频域信息，不包含能量信息。然而，声谱图则可以同时表征声音的时间、频率、能量信息。因此，在本申请文件中，优选的将样本文件转换为声谱图。短时傅里叶变换是频谱分析的常用手段。相较于傅里叶变换，短时傅里叶变换引入了窗函数，可以提供频率信号随时间改变的信息。最终生成的声谱图以横轴表征时间、纵轴表征频率、颜色表征能量大小。而具体的采用短时傅里叶变换算法将样本文件转换为声谱图方式是现有技术，这里不再赘述。

步骤1002，对声谱图进行灰度处理，生成与声谱图对应的灰度图。

步骤1003，对所述灰度图进行缩放。

实际应用中需要同时考虑模型准确率和处理速度。提升模型处理速度的手段之一就是图像缩放，本发明采用的缩放策略是双线性插值法，该方法兼顾了像素连续性及计算复杂度。同时，为了尽可能保留足够的音频信息，图片不宜压缩太小。鉴于音频质量评价的应用场景对实时性要求不高，本发明采用256*256的图像尺寸(单位为像素)，以最大化音频数据的表达能力，进而保证更高的识别准确率。

步骤1004，对进行缩放后的灰度图进行训练，获取音频质量训练模型。

由于音频文件的有损压缩过程涉及到声音的三个维度，因此，为保证信息表达的完整性，本发明将音频文件的声谱图作为卷积神经网络的输入。

卷积神经网络(Convolutional Neural Network,简称CNN)是一种前馈神经网络，它可以近似模拟人类的视觉认知过程，在图像处理领域有广泛的应用。优选的，本发明采用了卷积神经网络中的AlexNet作为训练模型，该模型的参数数量约为6000万，模型表达能力很强，容易学到更多特征。有利于获取的音频质量训练模型训练测试文件时，更加的精确。

步骤120，利用音频质量训练模型，对测试文件进行训练，获取训练结果。

具体的，将测试文件输入值音频质量训练模型中，对测试文件进行训练，获取的训练结果可以包括与泛音分布是否广阔，或者泛音音量是否很大，等等。

步骤130，根据训练结果，确定音频文件的音频质量。

具体的，如步骤120所述，通过上述音频质量训练模型对测试文件测试，可以确定测试文件的泛音分布是否广阔，或者泛音音量是否很大等等，由此可以确定音频文件的音频质量。

与上述方法实施例相对应的，本发明实施例还提供了一种音频质量评价系统，具体如图3所示，该系统包括：输入模块301，训练模块302，质量评价模块303。

输入模块301，用于将测试文件输入至音频质量训练模型，其中所述音频质量训练模型为对所述样本文件进行训练获取的模型。

训练模块302，用于利用所述音频质量训练模型，对所述测试文件进行训练，获取训练结果。

质量评价模块303，用于根据所述训练结果，确定所述音频文件的音频质量。

具体的，训练模块302利用音频质量训练模型，对测试文件进行训练之前，还用于制作音频质量训练模型。

具体的，训练模块302用于将样本文件转换为声谱图，对声谱图进行灰度处理，生成与声谱图对应的灰度图。对灰度图进行缩放，并对进行缩放后的灰度图进行训练，获取音频质量训练模型。其中，将样本文件转换为声谱图时，所采用的是短时傅里叶变换算法。而，对进行缩放后的灰度图进行训练，获取音频质量训练模型时，所采用的是卷积神经网络算法。

本发明实施例提供的上述音频质量评价系统中各部件所执行的功能均已经在上述实施例提供的一种音频质量评价方法中做了详细介绍，这里不再赘述。

本发明实施例提供的一种音频质量评价系统，通过将样本文件转换为声谱图，并对所述声谱图做相应处理后，进行训练。获取音频质量训练模型，利用该音频质量训练模型对测试文件进行测试。将音频识别问题转化为图像识别问题，实现了歌曲主观质量的自动化标注。有效的评价出演唱者的嗓音质量实现了歌曲主观质量的自动化标注，而且利用声谱图可以很好的识别出演唱者的演唱质量。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，的程序可以存储于计算机可读存储介质中，存储介质是非短暂性(non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(magnetic tape)，软盘(floppy disk)，光盘(optical disc)及其任意组合。以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此。

Claims

1.一种音频质量评价方法，其特征在于，包括：

将测试文件输入至音频质量训练模型，其中所述音频质量训练模型为对所述样本文件进行训练获取的模型；

利用所述音频质量训练模型，对所述测试文件进行训练，获取训练结果；

根据所述训练结果，确定所述音频文件的音频质量。

2.根据权利要求1所述的方法，其特征在于，所述将测试文件输入至音频质量训练模型之前，所述方法还包括:制作音频质量训练模型。

3.根据权利要求2所述的方法，其特征在于，所述制作所述音频质量训练模型，具体包括:

将样本文件转换为声谱图；

对所述声谱图进行灰度处理，生成与所述声谱图对应的灰度图；

对所述灰度图进行缩放；

并对所述进行缩放后的灰度图进行训练，获取所述音频质量训练模型。

4.根据权利要求3所述的方法，其特征在于，所述将样本文件转换为声谱图，包括：

采用短时傅里叶变换，将样本文件转换为声谱图。

5.根据权利要求3所述的方法，其特征在于，所述对所述进行缩放后的灰度图进行训练，获取所述音频质量训练模型，具体包括：

利用卷积神经网络算法，对所述进行缩放后的灰度图进行训练，获取所述音频质量训练模型。

6.一种音频质量评价系统，其特征在于，包括：

输入模块，用于将测试文件输入至音频质量训练模型，其中所述音频质量训练模型为对所述样本文件进行训练获取的模型；

训练模块，用于利用所述音频质量训练模型，对所述测试文件进行训练，获取训练结果；

质量评价模块，用于根据所述训练结果，确定所述音频文件的音频质量。

7.根据权利要求6所述的系统，其特征在于，所述训练模块还用于，制作音频质量训练模型。

8.根据权利要求7所述的系统，其特征在于，所述训练模块具体用于：

将样本文件转换为声谱图；

对所述灰度图进行缩放；

9.根据权利要求8所述的系统，其特征在于，所述训练模块具体用于：

采用短时傅里叶变换，将样本文件转换为声谱图。

10.根据权利要求8所述的系统，其特征在于，所述训练模块具体用于：