CN111863033A

CN111863033A - 音频质量识别模型的训练方法、装置、服务器和存储介质

Info

Publication number: CN111863033A
Application number: CN202010750778.XA
Authority: CN
Inventors: 郑羲光; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-10-30
Anticipated expiration: 2040-07-30
Also published as: CN111863033B

Abstract

本公开关于一种音频质量识别模型的训练方法、装置、服务器和存储介质，该方法包括：获取音频样本数据集合；获取每个音频信号的特征信息和音频信号对应的目标音频质量信息；将获取的特征信息输入待训练的音频质量识别模型中，得到待训练的音频质量识别模型输出的音频质量信息；根据待训练的音频质量识别模型输出的音频质量信息和目标音频质量信息，获取待训练的音频质量识别模型的损失值；根据损失值调整待训练的音频质量识别模型的模型参数，直至损失值低于预设阈值时，将待训练的音频质量识别模型作为训练好的音频质量识别模型。采用本方法，可以通过训练好的音频质量识别模型直接输出音频信号的音频质量，从而提高了音频质量的检测效率。

Description

音频质量识别模型的训练方法、装置、服务器和存储介质

技术领域

本公开涉及音频处理技术领域，尤其涉及一种音频质量识别模型的训练方法、装置、服务器和存储介质。

背景技术

随着多媒体技术的发展，越来越多的音频应用到短视频中，识别音频的音质好坏显得越来越重要，比如内容生产者在生产短视频时可对音频进行检测，并给予相应提示；在内容推荐端，音质好坏可以作为推荐的一个因素之一；然而，为了识别音频的音质好坏，需要对音频的质量进行检测。

相关技术中，对音频质量的检测方法，一般是获取待检测音频信号的原始无损音频信号，并对比原始无损音频信号和待检测音频信号之间的差距值，然后根据差距值的大小来确定待检测音频信号的质量；但是，每次对音频信号的质量进行检测时，都需要获取对应的原始无损音频信号，且实际使用中大部分场景无法获得原始无损音频信号，导致音频质量的检测效率较低。

发明内容

本公开提供一种音频质量识别模型的训练方法、装置、服务器和存储介质，以至少解决相关技术中音频质量的检测效率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频质量识别模型的训练方法，包括：

获取音频样本数据集合；所述音频样本数据集合中包括不同编码格式的音频信号；

获取每个所述音频信号的特征信息和所述音频信号对应的目标音频质量信息；所述目标音频质量信息与所述音频信号的编码格式和编码码率相关联，用于标识所述音频信号的音频质量；

将获取的所述特征信息输入待训练的音频质量识别模型中，得到所述待训练的音频质量识别模型输出的音频质量信息；

根据所述待训练的音频质量识别模型输出的音频质量信息和目标音频质量信息，获取所述待训练的音频质量识别模型的损失值；

根据所述损失值调整所述待训练的音频质量识别模型的模型参数，直至所述损失值低于预设阈值时，将所述待训练的音频质量识别模型作为训练好的音频质量识别模型。

在一示例性实施例中，在获取每个所述音频信号的特征信息和所述音频信号对应的目标音频质量信息之前，还包括：

根据目标编码码率对所述音频信号进行转码处理，得到转码处理后的音频信号；所述目标编码码率高于所述音频信号的所述编码码率；

所述获取每个所述音频信号的特征信息，包括：

获取每个所述转码处理后的音频信号的特征信息。

在一示例性实施例中，所述获取每个所述音频信号的特征信息和所述音频信号对应的目标音频质量信息，包括：

获取所述音频信号的编码码率；

根据所述音频信号的编码码率和编码格式，查询预设的音频质量信息匹配表，得到与所述编码码率和所述编码格式相关联的目标音频质量信息，作为所述音频信号对应的目标音频质量信息；所述预设的音频质量信息匹配表记录有在同一个所述编码格式下，不同目标编码码率对应的目标音频质量信息。

在一示例性实施例中，所述预设的音频质量信息匹配表中，不同编码格式的音频信号达到相同的目标音频质量信息时，不同编码格式的音频信号所对应的编码码率不相同。

在一示例性实施例中，所述获取每个所述转码处理后的音频信号的特征信息，包括：

将所述转码处理后的音频信号进行时频转换处理，得到时频转换处理后的音频信号；

从所述时频转换处理后的音频信号中提取出对应的幅度特征和相位特征，作为所述转码处理后的音频信号的特征信息。

在一示例性实施例中，所述根据所述损失值调整所述待训练的音频质量识别模型的模型参数，包括：

根据所述损失值，确定所述待训练的音频质量识别模型的模型参数调整梯度；

按照所述模型参数调整梯度，调整所述待训练的音频质量识别模型的模型参数。

根据本公开实施例的第二方面，提供一种音频质量的检测方法，包括：

获取待检测音频信号的特征信息；

将获取的所述特征信息输入上述所述的音频质量识别模型，得到所述待检测音频信号在各种目标音频质量信息下的预测概率信息，所述目标音频质量信息与音频信号的编码格式和编码码率相关联，用于标识音频信号的音频质量；

从所述各种目标音频质量信息中，筛选出所述预测概率信息最大的目标音频质量信息，作为所述待检测音频信号的目标音频质量信息。

在一示例性实施例中，所述获取待检测音频信号的特征信息，包括：

将待检测音频信号进行时频转换处理，得到时频转换处理后的待检测音频信号；

从所述时频转换处理后的待检测音频信号中提取出对应的幅度特征和相位特征，作为所述待检测音频信号的特征信息。

在一示例性实施例中，所述待检测音频信号携带有对应的账户标识，所述方法还包括：

将所述待检测音频信号的目标音频质量信息发送至所述账户标识对应的账户。

根据本公开实施例的第三方面，提供一种音频质量识别模型的训练装置，包括：

数据集合获取单元，被配置为执行获取音频样本数据集合；所述音频样本数据集合中包括不同编码格式的音频信号；

信息获取单元，被配置为执行获取每个所述音频信号的特征信息和所述音频信号对应的目标音频质量信息；所述目标音频质量信息与所述音频信号的编码格式和编码码率相关联，用于标识所述音频信号的音频质量；

质量信息识别单元，被配置为执行将获取的所述特征信息输入待训练的音频质量识别模型中，得到所述待训练的音频质量识别模型输出的音频质量信息；

损失值获取单元，被配置为执行根据所述待训练的音频质量识别模型输出的音频质量信息和目标音频质量信息，获取所述待训练的音频质量识别模型的损失值；

模型参数调整单元，被配置为执行根据所述损失值调整所述待训练的音频质量识别模型的模型参数，直至所述损失值低于预设阈值时，将所述待训练的音频质量识别模型作为训练好的音频质量识别模型。

在一示例性实施例中，所述装置还包括转码处理单元，被配置为执行根据目标编码码率对所述音频信号进行转码处理，得到转码处理后的音频信号；所述目标编码码率高于所述音频信号的所述编码码率；

所述信息获取单元，还被配置为执行获取每个所述转码处理后的音频信号的特征信息。

在一示例性实施例中，所述信息获取单元，还被配置为执行获取所述音频信号的编码码率；根据所述音频信号的编码码率和编码格式，查询预设的音频质量信息匹配表，得到与所述编码码率和所述编码格式相关联的目标音频质量信息，作为所述音频信号对应的目标音频质量信息；所述预设的音频质量信息匹配表记录有在同一个所述编码格式下，不同目标编码码率对应的目标音频质量信息。

在一示例性实施例中，所述信息获取单元，还被配置为执行将所述转码处理后的音频信号进行时频转换处理，得到时频转换处理后的音频信号；从所述时频转换处理后的音频信号中提取出对应的幅度特征和相位特征，作为所述转码处理后的音频信号的特征信息。

在一示例性实施例中，所述模型参数调整单元，还被配置为执行根据所述损失值，确定所述待训练的音频质量识别模型的模型参数调整梯度；按照所述模型参数调整梯度，调整所述待训练的音频质量识别模型的模型参数。

根据本公开实施例的第四方面，提供一种音频质量的检测装置，包括：

特征信息获取单元，被配置为执行获取待检测音频信号的特征信息；

预测概率信息确定单元，被配置为执行将获取的所述特征信息输入上述所述的音频质量识别模型，得到所述待检测音频信号在各种目标音频质量信息下的预测概率信息，所述目标音频质量信息与音频信号的编码格式和编码码率相关联，用于标识音频信号的音频质量；

质量信息获取单元，被配置为执行从所述各种目标音频质量信息中，筛选出所述预测概率信息最大的目标音频质量信息，作为所述待检测音频信号的目标音频质量信息。

在一示例性实施例中，所述特征信息获取单元，还被配置为执行将待检测音频信号进行时频转换处理，得到时频转换处理后的待检测音频信号；从所述时频转换处理后的待检测音频信号中提取出对应的幅度特征和相位特征，作为所述待检测音频信号的特征信息。

在一示例性实施例中，所述待检测音频信号携带有对应的账户标识，所述装置还包括质量信息发送单元，被配置为执行将所述待检测音频信号的目标音频质量信息发送至所述账户标识对应的账户。

根据本公开实施例的第五方面，提供一种服务器，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面的任一项实施例中所述的音频质量识别模型的训练方法，或者如第二方面的任一项实施例中所述的音频质量的检测方法。

根据本公开实施例的第六方面，提供一种存储介质，包括：当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行第一方面的任一项实施例中所述的音频质量识别模型的训练方法，或者第二方面的任一项实施例中所述的音频质量的检测方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的音频质量识别模型的训练方法，或者第二方面的任一项实施例中所述的音频质量的检测方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过获取音频样本数据集合；音频样本数据集合中包括不同编码格式的音频信号；接着获取每个音频信号的特征信息和音频信号对应的目标音频质量信息；然后将获取的特征信息输入待训练的音频质量识别模型中，得到待训练的音频质量识别模型输出的音频质量信息；并根据待训练的音频质量识别模型输出的音频质量信息和目标音频质量信息，获取待训练的音频质量识别模型的损失值；最后根据损失值调整待训练的音频质量识别模型的模型参数，直至损失值低于预设阈值时，将待训练的音频质量识别模型作为训练好的音频质量识别模型；这样，通过训练好的音频质量识别模型，可以直接输出音频信号的音频质量信息，无需获取待检测音频信号的原始无损音频信号，从而简化了音频质量的检测流程，进而提高了音频质量的检测效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频质量识别模型的训练方法的应用环境图。

图2是根据一示例性实施例示出的一种音频质量识别模型的训练方法的流程图。

图3是根据一示例性实施例示出的不同编码格式对应的音频质量曲线图。

图4是根据一示例性实施例示出的一种音频质量的检测方法的流程图。

图5是根据一示例性实施例示出的另一种音频质量的检测方法的流程图。

图6是根据一示例性实施例示出的一种音频质量识别模型的训练装置的框图。

图7是根据一示例性实施例示出的一种音频质量的检测装置的框图。

图8是根据一示例性实施例示出的一种服务器的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的音频质量识别模型的训练方法，可以应用于如图1所示的应用环境中。参照图1，该应用环境图包括服务器110，服务器110可以用独立的服务器或者是多个服务器组成的服务器集群来实现。图1中以服务器110是独立的服务器为例进行说明，参考图1，服务器110获取音频样本数据集合；音频样本数据集合中包括不同编码格式的音频信号；获取每个音频信号的特征信息和音频信号对应的目标音频质量信息；目标音频质量信息与音频信号的编码格式和编码码率相关联，用于标识音频信号的音频质量；将获取的特征信息输入待训练的音频质量识别模型中，得到待训练的音频质量识别模型输出的音频质量信息；根据待训练的音频质量识别模型输出的音频质量信息和目标音频质量信息，获取待训练的音频质量识别模型的损失值；根据损失值调整待训练的音频质量识别模型的模型参数，直至损失值低于预设阈值时，将待训练的音频质量识别模型作为训练好的音频质量识别模型。

需要说明的是，本公开的训练好的音频质量识别模型还可以应用在终端上，比如终端利用训练好的音频质量识别模型，对待检测音频信号的音频质量进行检测，得到待检测音频信号的音频质量信息。

图2是根据一示例性实施例示出的一种音频质量识别模型的训练方法的流程图，如图2所示，音频质量识别模型的训练方法用于如图1所示的服务器中，包括以下步骤：

在步骤S210中，获取音频样本数据集合；音频样本数据集合中包括不同编码格式的音频信号。

其中，音频样本数据集合是指包含多个不同编码格式的音频信号的数据集合；编码格式是指音频信号的压缩格式，比如mp3编码格式、aac-lc编码格式、he-aac编码格式，可以通过编码器对音频信号进行编码，使得音频信号具有对应的编码格式；不同编码器，对应的编码格式不一样，比如mp3编码器、aac-lc编码器、he-aac编码器。

具体地，服务器基于大数据技术，采集多个标注有编码格式的音频信号；根据多个标注有编码格式的音频信号，构建音频样本数据集合。当然，服务器也可以直接从数据库中，获取包括不同编码格式的音频信号的音频样本数据集合。这样，有利于后续根据音频样本数据集合对待训练的音频质量识别模型进行训练，得到训练好的音频质量识别模型。

在步骤S220中，获取每个音频信号的特征信息和音频信号对应的目标音频质量信息；目标音频质量信息与音频信号的编码格式和编码码率相关联，用于标识音频信号的音频质量。

其中，特征信息用于描述音频信号的音频特征，比如幅度特征、相位特征等，每个音频信号都具有对应的特征信息。编码码率是指将模拟声音信号转换成数字声音信号后，单位时间内的二进制数据量，比如128kbps、96kbps、64kbps等。目标音频质量信息用于描述音频信号的音质好坏，可以是指音频分数，比如5分、4分等，不同目标音频质量信息对应不同的音频分数；需要说明的是，每个音频信号均具有对应的目标音频质量信息，目标音频质量信息由音频信号的编码格式和编码码率确定。

具体地，服务器获取预设的音频特征提取指令，根据预设的音频特征提取指令，对音频信号进行特征提取，得到音频信号的特征信息。其中，预设的音频特征提取指令是一种用于提取音频信号中的特征信息的指令。例如，服务器根据预设的时频转换指令，对音频信号进行转换，得到音频信号的特征信息。其中，预设的时频转换指令是一种对音频信号进行时频转换处理，得到音频信号的特征信息的指令。进一步地，服务器还可以将音频信号输入预先训练的音频特征提取网络，通过预先训练的音频特征提取网络对音频信号进行特征提取，得到音频信号的特征信息。其中，预先训练的音频特征提取网络是基于音频样本数据，通过预设类型的神经网络训练得到的。

接着，服务器获取音频信号的编码码率，根据音频信号的编码格式和编码码率，查询本地数据库，确定与编码格式和编码码率均对应的目标音频质量信息，作为音频信号的目标音频质量信息。

举例说明，服务器采用等效码率的方式，基于音频信号的编码格式和编码码率，对音频信号的音频质量信息进行标注，得到音频信号的目标音频质量信息。其中，等效码率是指不同编码格式的音频信号达到指定的主观音频质量所需的最小对应编码码率，比如想要达到Mean-opinion-score 4分(满分5分)的音频质量，需要编码格式为mp3，且编码码率为128kbps以上，或者编码格式为aac-lc，且编码码率为96kbps以上，或者编码格式为he-aac，且编码码率为64kbps以上；那么，通过这种方式，即可知道不同编码格式、不同编码码率的音频信号对应的音频质量，进而确定每个音频信号的目标音频质量信息。这样，有利于后续训练得到的音频质量识别模型，学习到不同编码格式和不同编码码率的音频信号对应的目标音频质量信息，而不是只针对一种编码格式。

在步骤S230中，将获取的特征信息输入待训练的音频质量识别模型中，得到待训练的音频质量识别模型输出的音频质量信息。

其中，音频质量识别模型是一种能够识别得到音频信号的音频质量信息的神经网络模型，比如深度学习模型；在实际场景中，音频质量识别模型还可以是CNN(Convolutional Neural Network，卷积神经网络)和LSTM(Long Short-Term Memory，长短期记忆网络)结合而成的网络模型。

具体地，服务器将音频信号的特征信息输入待训练的音频质量识别模型，通过待训练的音频质量识别模型对音频信号的特征信息进行处理，得到音频信号的音频质量信息。

在步骤S240中，根据待训练的音频质量识别模型输出的音频质量信息和目标音频质量信息，获取待训练的音频质量识别模型的损失值。

其中，损失值用于衡量音频质量识别模型输出的音频质量信息的误差程度，损失值越小，则输出的音频质量信息更准确。

举例说明，服务器基于多个音频信号的音频质量信息与对应的目标音频质量信息，结合交叉熵损失函数，计算得到总的损失值，作为待训练的音频质量识别模型的损失值。

在步骤S250中，根据损失值调整待训练的音频质量识别模型的模型参数，直至损失值低于预设阈值时，将待训练的音频质量识别模型作为训练好的音频质量识别模型。

其中，音频质量识别模型的损失值小于预设阈值，说明音频质量识别模型的模型参数达到收敛。

举例说明，当音频质量识别模型的损失值大于或者等于预设阈值时，服务器根据该损失值，确定音频质量识别模型的模型参数更新梯度，基于模型参数更新梯度反向更新音频质量识别模型的模型参数，将更新后的音频质量识别模型作为待训练的音频质量识别模型，重复执行步骤S230至步骤S250，以不断更新音频质量识别模型的模型参数，直到根据音频质量识别模型得到的损失值小于预设阈值；当根据音频质量识别模型得到的损失值小于预设阈值时，则将该音频质量识别模型作为训练好的音频质量识别模型。这样，通过多个标记有对应的编码格式和编码码率的音频信号，对音频质量识别模型进行反复训练，有利于提高音频质量识别模型输出的音频质量信息的准确度，便于后续在无原始无损音频参考的情况下，通过输入音频信号至音频质量识别模型，即可输出该音频信号的音频质量信息，从而提高了音频质量的检测效率。

上述音频质量识别模型的训练方法中，通过获取音频样本数据集合；音频样本数据集合中包括不同编码格式的音频信号；接着获取每个音频信号的特征信息和音频信号对应的目标音频质量信息；然后将获取的特征信息输入待训练的音频质量识别模型中，得到待训练的音频质量识别模型输出的音频质量信息；并根据待训练的音频质量识别模型输出的音频质量信息和目标音频质量信息，获取待训练的音频质量识别模型的损失值；最后根据损失值调整待训练的音频质量识别模型的模型参数，直至损失值低于预设阈值时，将待训练的音频质量识别模型作为训练好的音频质量识别模型；这样，通过训练好的音频质量识别模型，可以直接输出音频信号的音频质量信息，无需获取待检测音频信号的原始无损音频信号，从而简化了音频质量的检测流程，进而提高了音频质量的检测效率。

在一示例性实施例中，在步骤S220中，在获取每个音频信号的特征信息和音频信号对应的目标音频质量信息之前，还包括：根据目标编码码率对音频信号进行转码处理，得到转码处理后的音频信号；目标编码码率高于音频信号的编码码率。

其中，转码处理是指采用高编码码率的编码器对音频信号进行二次编码，该编码器对应的编码格式与该音频信号对应的编码格式不一样；例如，使用编码器A对音频信号进行编码后，再使用编码器B的高编码码率对该音频信号再进行第二次编码，目的是在二次编码后淡化编码器A自身的一些痕迹，从而使音频质量识别模型更倾向于学习音质本身特性，以淡化各个编码器本身的特性。

具体地，服务器利用目标编码码率的编码器对音频信号进行二次编码，得到二次编码后的音频信号，作为转码处理后的音频信号；这样，有利于淡化音频信号原来采用的编码器的痕迹，并使得音频信号达到一定的编码码率。

举例说明，为了克服神经网络对编码器自身特点进行建模(而非对音频质量本身特点进行建模)；对不同编码格式的音频信号采用转码技术，抹去音频信号原来的编码器痕迹，使神经网络可以把精力集中在对音频质量本身特点的建模中(更加贴近人判断音频质量的过程)。如采用mp3各编码码率编码后的音频信号可以使用高编码码率如256kbps AAC进行编码，以便极大程度地淡化mp3编码器特有的痕迹。

那么，上述步骤S220，获取每个音频信号的特征信息，具体包括：获取每个转码处理后的音频信号的特征信息。

本公开实施例提供的技术方案，对于编码后的音频信号，使用其他编码器的高编码码率进行混淆，使得后续训练音频质量识别模型的过程中，淡化对各个编码器本身特性的学习，更倾向于对音频质量本身特性的学习，从而提高了后续训练得到的音频质量识别模型输出的音频质量信息的准确度。

在一示例性实施例中，在步骤S220中，获取每个音频信号的特征信息和音频信号对应的目标音频质量信息，包括：获取音频信号的编码码率；根据音频信号的编码码率和编码格式，查询预设的音频质量信息匹配表，得到与编码码率和编码格式相关联的目标音频质量信息，作为音频信号对应的目标音频质量信息；预设的音频质量信息匹配表记录有在同一个编码格式下，不同目标编码码率对应的目标音频质量信息。

其中，不同目标编码码率对应的目标音频质量信息是指不同固定编码码率对应的目标音频质量信息。

具体地，服务器根据音频信号的编码格式查询预设的音频质量信息匹配表，得到该编码格式下，不同编码码率对应的目标音频质量信息；根据音频信号的编码码率，查询该编码格式下，不同编码码率对应的目标音频质量信息，得到音频信号的编码码率对应的目标音频质量信息，作为音频信号的目标音频质量信息。

需要说明的是，预设的音频质量信息匹配表是通过ITU国际标准BS.1534(MUSHRA)进行主观测试得到，例如参考图3，横轴表示编码码率，纵轴表示音频质量信息；Excellent表示音频质量信息为5分，Good表示音频质量信息为4分，Fair表示音频质量信息为3分，poor表示音频质量信息为2分；xHE-AAC曲线是指在不同编码码率下，xHE-AAC编码格式所能达到的平均主观音频质量信息(很多人测试后的平均值)；HE-AACv2曲线是指在不同编码码率下，HE-AACv2编码格式所能达到平均主观音频质量信息；HE-AAC曲线是指在不同编码码率下，HE-AAC编码格式所能达到平均主观音频质量信息；AAC-LC曲线是指在不同编码码率下，AAC-LC编码格式所能达到平均主观音频质量信息。这样，通过查看图3，即可知道不同编码码率和不同编码格式的音频信号对应的目标音频质量信息。

需要说明的是，预设的音频质量信息匹配表中，不同编码格式的音频信号达到相同的目标音频质量信息时，不同编码格式的音频信号所对应的编码码率不相同。例如，参考图3，xHE-AAC编码格式和HE-AACv2编码格式的音频信号达到相同的目标音频质量信息(比如3分)时，xHE-AAC编码格式和HE-AACv2编码格式的音频信号所对应的编码码率不相同。

本公开实施例提供的技术方案，通过查询记录有同一个编码格式下，不同编码码率对应的目标音频质量信息的音频质量信息匹配表，便可以确定音频信号的目标音频质量信息，有利于后续训练得到的音频质量识别模型，学习到不同编码格式和不同编码码率的音频信号对应的音频质量信息，而不是只针对一种编码格式。

在一示例性实施例中，获取每个转码处理后的音频信号的特征信息，包括：将转码处理后的音频信号进行时频转换处理，得到时频转换处理后的音频信号；从时频转换处理后的音频信号中提取出对应的幅度特征和相位特征，作为转码处理后的音频信号的特征信息。

其中，时频转换是指对音频信号进行时频转换处理，具体包括MDCT(ModifiedDiscrete Cosine Transform，改进离散余弦变换)、STFT(short-time Fouriertransform，短时傅里叶变换)等。幅度特征是指音频信号的幅度信息，相位特征是指音频信号的相位信息。

具体地，服务器获取预设的时频转换指令，根据预设的时频转换指令对音频信号进行时频转换处理，得到时频转换处理后的音频信号；从时频转换处理后的音频信号中，提取出与幅度特征标识符对应的幅度特征以及与相位特征标识符对应的相位特征，作为音频信号的特征信息。

举例说明，输入的音频信号S(t)通过时频转换方法，如STFT转换至时频域，得到复数信号S(n,k)：

S(n,k)＝STFT(S(t))＝A(n,k)×e^iθ(n,k)；

其中，n表示音频信号的帧序列，k表示音频信号的频率序列，A(n,k)表示音频信号的幅度信息，θ(n,k)表示通过第一个网络的相位信息，幅度信息和相位信息可以直接作为表征音频信号的特征信息。当然，若通过MDCT对输入的音频信号S(t)进行时频转换处理，则得到的实数结果为：S(n,k)＝MDCT(S(t))＝M(n,k)。

进一步地，服务器还可以对音频信号的幅度信息和相位信息进行加工处理，得到音频信号的其他特征信息，比如mfcc(mel-frequency cepstrum Coefficents，梅尔倒频谱系数)、chroma(音色)、melspectrogram(梅尔频谱)、spectral contrast(谱对比度)、tonnetz(调性网络)等。由于上述特征信息是由时频转换处理后的音频信号加工得来，故具体算法可以根据实际情况进行使用或者调整。接着，服务器将音频信号的幅度特征、相位特征和其他音频特征一起输入到音频质量识别模型中，通过从不同维度对音频信号进行描述，可以提高音频质量识别模型输出的音频信号的音频质量信息的准确度。

本公开实施例提供的技术方案，通过将音频信号的幅度特征和相位特征，作为音频信号的特征信息，有利于后续通过音频质量识别模型，基于音频信号的特征信息，得到音频信号的音频质量信息。

在一示例性实施例中，在步骤S250中，根据损失值调整待训练的音频质量识别模型的模型参数，包括：根据损失值，确定待训练的音频质量识别模型的模型参数调整梯度；按照模型参数调整梯度，调整待训练的音频质量识别模型的模型参数。

举例说明，服务器根据损失值，确定音频质量识别模型的模型参数更新梯度，基于模型参数更新梯度反向更新音频质量识别模型的模型参数，将更新后的音频质量识别模型作为待训练的音频质量识别模型，继续进行训练，直到根据音频质量识别模型得到的损失值小于预设阈值，则停止训练。当根据音频质量识别模型得到的损失值小于预设阈值时，则将该音频质量识别模型作为训练好的音频质量识别模型。

本公开实施例提供的技术方案，通过多个标记有对应的编码格式和编码码率的音频信号，对音频质量识别模型进行反复训练，有利于提高音频质量识别模型输出的音频质量信息的准确度，便于后续在无原始无损音频参考的情况下，通过输入音频信号至音频质量识别模型，即可输出该音频信号的音频质量信息，从而提高了音频质量的检测效率。

图4是根据一示例性实施例示出的一种音频质量的检测方法的流程图，可以应用到终端或者服务器中，下面主要以服务器为例进行说明；如图4所示，音频质量的检测方法用于如图1所示的服务器中，包括以下步骤：

在步骤S410中，获取待检测音频信号的特征信息。

其中，待检测音频信号是指需要检测音频质量信息的音频信号，可以是音频信号片段，也可以是完整音频信号；在实际场景中，待检测音频信号可以是原唱歌曲、录制的歌曲片段、视频的配乐等。

具体地，终端获取待检测音频信号，根据待检测音频信号生成音频信号质量检测请求，并将音频信号质量检测请求发送至对应的服务器；服务器对接收到的音频信号质量检测请求进行解析，得到待检测音频信号，并获取待检测音频信号的特征信息。

举例说明，在K歌场景中，用户打开终端的K歌功能，终端响应用户的K歌触发操作，通过麦克风对用户演唱的歌曲片段进行音频录制，得到录制后的歌曲片段作为待检测音频信号上传至对应的服务器，由服务器对该待检测音频信号进行处理，得到待检测音频信号的特征信息。

进一步地，服务器还可以获取网络上或本地数据库的音频信号，作为待检测音频信号。例如，服务器获取网络上多个主播演唱的音频信号，作为待检测音频信号；又例如，服务器获取网络上不同演唱者针对同一首歌曲录制的音频信号，作为待检测音频信号。

需要说明的是，获取待检测音频信号的特征信息的具体实施方式，可以参考获取每个音频信号的特征信息的实施方式，在此不再具体赘述。

在步骤S420中，将获取的特征信息输入上述所述的音频质量识别模型，得到待检测音频信号在各种目标音频质量信息下的预测概率信息；目标音频质量信息与音频信号的编码格式和编码码率相关联，用于标识音频信号的音频质量。

其中，待检测音频信号在各种目标音频质量信息下的预测概率信息，是指待检测音频信号在各种目标音频质量信息下的预测概率值，用于衡量待检测音频信号的音频质量信息属于各种目标音频质量信息的概率。

需要说明的是，待检测音频信号在各种目标音频质量信息下的预测概率值之和恒等于1。

具体地，服务器将待检测音频信号的特征信息输入训练好的音频质量识别模型，通过音频质量识别模型对待检测音频信号的特征信息进行一系列神经网络处理，得到待检测音频信号在各种目标音频质量信息下的预测概率信息。这样，通过获取待检测音频信号在各种目标音频质量信息下的预测概率信息，有利于后续基于待检测音频信号在各种目标音频质量信息下的预测概率信息，得到待检测音频信号的目标音频质量信息，无需获取待检测音频信号的原始无损音频信号，从而简化了音频质量的检测流程，进而提高了音频质量的检测效率。

在步骤S430中，从各种目标音频质量信息中，筛选出预测概率信息最大的目标音频质量信息，作为待检测音频信号的目标音频质量信息。

具体地，服务器从待检测音频信号在各种目标音频质量信息下的预测概率信息中，筛选出最大的预测概率信息，并将最大的预测概率信息对应的目标音频质量信息，作为待检测音频信号的目标音频质量信息。这样，无需将待检测音频信号与对应的原始无损音频信号进行比较，即可得到待检测音频信号的目标音频质量信息，从而简化了音频质量的检测流程，提高了音频质量的检测效率，同时降低了音频质量的检测成本。

举例说明，若待检测音频信号在各种目标音频质量信息下的预测概率信息分别为：poor：1％，fair：5％，good：10％:Excellent：84％，则确定待检测音频信号的目标音频质量信息为Excellent。

进一步地，服务器还可以将待检测音频信号的目标音频质量信息发送至对应的终端，通过终端显示待检测音频信号的目标音频质量信息。例如，在K歌场景中，服务器将待检测音频信号对应的目标音频质量信息或者音频分数发送至对应的终端进行展示。

此外，服务器还可以从待检测音频信号的目标音频质量信息中，得到待检测音频信号的音频质量(或者音频分数)；从多个待检测音频信号中，筛选出音频质量(或者音频分数)最高的待检测音频信号，并将音频质量(或者音频分数)最高的待检测音频信号推送至对应的终端。或者，服务器从多个待检测音频信号中，筛选出音频质量(或者音频分数)靠前的待检测音频信号，并将音频质量(或者音频分数)靠前的待检测音频信号进行排序，得到排序后的待检测音频信号，并将排序后的待检测音频信号推送至对应的终端，达到了音频信号的精准推送的目的。

上述音频质量的检测方法中，通过获取待检测音频信号的特征信息；然后将获取的特征信息输入训练好的音频质量识别模型，得到待检测音频信号在各种目标音频质量信息下的预测概率信息；最后从各种目标音频质量信息中，筛选出预测概率信息最大的目标音频质量信息，作为待检测音频信号的目标音频质量信息；实现了根据待检测音频信号在各种目标音频质量信息下的预测概率信息，确定待检测音频信号的目标音频质量信息的目的，无需获取待检测音频信号的原始无损音频信号，并将待检测音频信号与对应的原始无损音频信号进行比较，即可得到待检测音频信号的音频质量信息，从而简化了音频质量的检测流程，进而提高了音频质量的检测效率。

在一示例性实施例中，在步骤S410中，获取待检测音频信号的特征信息，包括：将待检测音频信号进行时频转换处理，得到时频转换处理后的待检测音频信号；从时频转换处理后的待检测音频信号中提取出对应的幅度特征和相位特征，作为待检测音频信号的特征信息。

需要说明的是，获取待检测音频信号的特征信息的具体实施方式，可以参考上述获取每个转码处理后的音频信号的特征信息的实施方式，在此不再具体赘述。

本公开实施例提供的技术方案，通过获取待检测音频信号的特征信息，有利于后续通过训练好的音频质量识别模型，基于待检测音频信号的特征信息，得到待检测音频信号在各种目标音频质量信息下的预测概率信息，进而得到待检测音频信号的目标音频质量信息，无需获取待检测音频信号的原始无损音频信号，并将待检测音频信号与对应的原始无损音频信号进行比较，即可得到待检测音频信号的音频质量信息，从而简化了音频质量的检测流程，进而提高了音频质量的检测效率。

在一示例性实施例中，待检测音频信号携带有对应的账户标识，那么，本公开提供的音频质量的检测方法还包括：将待检测音频信号的目标音频质量信息发送至账户标识对应的账户。

其中，账户是指终端中的应用程序的注册账户，比如短视频应用程序的注册账户、音乐播放应用程序的注册账户等。账户标识是指账户的标识信息，比如账户名称、账户号码等。

举例说明，服务器将待检测音频信号的目标音频质量信息发送至账户标识对应的账户所在的用户终端，通过用户终端界面展示待检测音频信号的目标音频质量信息，便于账户对应的用户及时了解待检测音频信号的目标音频质量信息。

图5是根据一示例性实施例示出的另一种音频质量的检测方法的流程图，如图5所示，音频质量的检测方法用于如图1所示的服务器中，包括以下步骤：

在步骤S510中，获取待检测音频信号；待检测音频信号携带有对应的账户标识。

在步骤S520中，将待检测音频信号进行时频转换处理，得到时频转换处理后的音频信号。

在步骤S530中，从时频转换处理后的音频信号中提取出幅度特征和相位特征，作为待检测音频信号的特征信息。

在步骤S540中，将待检测音频信号的特征信息输入训练好的音频质量识别模型中，得到待检测音频信号在各种目标音频质量信息下的预测概率信息；目标音频质量信息与音频信号的编码格式和编码码率相关联，用于标识音频信号的音频质量。

在步骤S550中，从各种目标音频质量信息中，筛选出预测概率信息最大的目标音频质量信息，作为待检测音频信号的目标音频质量信息。

在步骤S560中，将待检测音频信号的目标音频质量信息发送至账户标识对应的账户。

上述音频质量的检测方法中，通过获取待检测音频信号，并提取待检测音频信号的特征信息；然后根据待检测音频信号的特征信息，得到待检测音频信号在各种目标音频质量信息下的预测概率信息；最后从各种目标音频质量信息中，筛选出预测概率信息最大的目标音频质量信息，作为待检测音频信号的目标音频质量信息；实现了根据待检测音频信号在各种目标音频质量信息下的预测概率信息，确定待检测音频信号的目标音频质量信息的目的，无需获取待检测音频信号的原始无损音频信号，并将待检测音频信号与对应的原始无损音频信号进行比较，即可得到待检测音频信号的音频质量信息，从而简化了音频质量的检测流程，进而提高了音频质量的检测效率。

应该理解的是，虽然图2、4、5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、4、5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图6是根据一示例性实施例示出的一种音频质量识别模型的训练装置的框图。参照图6，该装置包括数据集合获取单元610，信息获取单元620，质量信息识别单元630，损失值获取单元640和模型参数调整单元650。

数据集合获取单元610，被配置为执行获取音频样本数据集合；音频样本数据集合中包括不同编码格式的音频信号。

信息获取单元620，被配置为执行获取每个音频信号的特征信息和音频信号对应的目标音频质量信息；目标音频质量信息与音频信号的编码格式和编码码率相关联，用于标识音频信号的音频质量。

质量信息识别单元630，被配置为执行将获取的特征信息输入待训练的音频质量识别模型中，得到待训练的音频质量识别模型输出的音频质量信息。

损失值获取单元640，被配置为执行根据待训练的音频质量识别模型输出的音频质量信息和目标音频质量信息，获取待训练的音频质量识别模型的损失值。

模型参数调整单元650，被配置为执行根据损失值调整待训练的音频质量识别模型的模型参数，直至损失值低于预设阈值时，将待训练的音频质量识别模型作为训练好的音频质量识别模型。

在一示例性实施例中，音频质量识别模型的训练装置还包括转码处理单元，被配置为执行根据目标编码码率对音频信号进行转码处理，得到转码处理后的音频信号；目标编码码率高于音频信号的编码码率；信息获取单元620，还被配置为执行获取每个转码处理后的音频信号的特征信息。

在一示例性实施例中，信息获取单元620，还被配置为执行获取音频信号的编码码率；根据音频信号的编码码率和编码格式，查询预设的音频质量信息匹配表，得到与编码码率和编码格式相关联的目标音频质量信息，作为音频信号对应的目标音频质量信息；预设的音频质量信息匹配表记录有在同一个编码格式下，不同目标编码码率对应的目标音频质量信息。

在一示例性实施例中，预设的音频质量信息匹配表中，不同编码格式的音频信号达到相同的目标音频质量信息时，不同编码格式的音频信号所对应的编码码率不相同。

在一示例性实施例中，信息获取单元620，还被配置为执行将转码处理后的音频信号进行时频转换处理，得到时频转换处理后的音频信号；从时频转换处理后的音频信号中提取出对应的幅度特征和相位特征，作为转码处理后的音频信号的特征信息。

在一示例性实施例中，模型参数调整单元650，还被配置为执行根据损失值，确定待训练的音频质量识别模型的模型参数调整梯度；按照模型参数调整梯度，调整待训练的音频质量识别模型的模型参数。

图7是根据一示例性实施例示出的一种音频质量的检测装置的框图。参照图7，该装置包括特征信息获取单元710，预测概率信息确定单元720和质量信息获取单元730。

特征信息获取单元710，被配置为执行获取待检测音频信号的特征信息。

预测概率信息确定单元720，被配置为执行将获取的特征信息输入上述的音频质量识别模型，得到待检测音频信号在各种目标音频质量信息下的预测概率信息，目标音频质量信息与音频信号的编码格式和编码码率相关联，用于标识音频信号的音频质量。

质量信息获取单元730，被配置为执行从各种目标音频质量信息中，筛选出预测概率信息最大的目标音频质量信息，作为待检测音频信号的目标音频质量信息。

在一示例性实施例中，特征信息获取单元710，还被配置为执行将待检测音频信号进行时频转换处理，得到时频转换处理后的待检测音频信号；从时频转换处理后的待检测音频信号中提取出对应的幅度特征和相位特征，作为待检测音频信号的特征信息。

在一示例性实施例中，待检测音频信号携带有对应的账户标识，音频质量的检测装置还包括质量信息发送单元，被配置为执行将待检测音频信号的目标音频质量信息发送至账户标识对应的账户。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于执行上述音频质量识别模型的训练方法或者音频质量的检测方法的设备800的框图。例如，设备800可以为一服务器。参照图8，设备800包括处理组件820，其进一步包括一个或多个处理器，以及由存储器822所代表的存储器资源，用于存储可由处理组件820的执行的指令，例如应用程序。存储器822中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件820被配置为执行指令，以执行上述音频质量识别模型的训练方法或者音频质量的检测方法。

设备800还可以包括一个电源组件824被配置为执行设备800的电源管理，一个有线或无线网络接口826被配置为将设备800连接到网络，和一个输入输出(I/O)接口828。设备800可以操作基于存储在存储器822的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器822，上述指令可由设备800的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行本公开的任一项实施例中所述的音频质量识别模型的训练方法或者音频质量的检测方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频质量识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的音频质量识别模型的训练方法，其特征在于，在获取每个所述音频信号的特征信息和所述音频信号对应的目标音频质量信息之前，还包括：

所述获取每个所述音频信号的特征信息，包括：

获取每个所述转码处理后的音频信号的特征信息。

3.根据权利要求1所述的音频质量识别模型的训练方法，其特征在于，所述获取每个所述音频信号的特征信息和所述音频信号对应的目标音频质量信息，包括：

获取所述音频信号的编码码率；

4.根据权利要求3所述的音频质量识别模型的训练方法，其特征在于，所述预设的音频质量信息匹配表中，不同编码格式的音频信号达到相同的目标音频质量信息时，不同编码格式的音频信号所对应的编码码率不相同。

5.根据权利要求2所述的音频质量识别模型的训练方法，其特征在于，所述获取每个所述转码处理后的音频信号的特征信息，包括：

6.一种音频质量的检测方法，其特征在于，所述方法包括：

获取待检测音频信号的特征信息；

将获取的所述特征信息输入权利要求1至5任一项所述的音频质量识别模型，得到所述待检测音频信号在各种目标音频质量信息下的预测概率信息，所述目标音频质量信息与音频信号的编码格式和编码码率相关联，用于标识音频信号的音频质量；

7.一种音频质量识别模型的训练装置，其特征在于，包括：

8.一种音频质量的检测装置，其特征在于，包括：

预测概率信息确定单元，被配置为执行将获取的所述特征信息输入权利要求1至6任一项所述的音频质量识别模型，得到所述待检测音频信号在各种目标音频质量信息下的预测概率信息，所述目标音频质量信息与音频信号的编码格式和编码码率相关联，用于标识音频信号的音频质量；

9.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的方法。

10.一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至6中任一项所述的方法。