CN109961802A

CN109961802A - 音质比较方法、装置、电子设备及存储介质

Info

Publication number: CN109961802A
Application number: CN201910233933.8A
Authority: CN
Inventors: 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-07-02
Anticipated expiration: 2039-03-26
Also published as: CN109961802B

Abstract

本公开是关于一种音质比较方法、装置、电子设备及存储介质，涉及多媒体技术领域，方法包括：对多个音频进行特征提取，得到每个音频的音频特征；对多个音频的音频特征进行组合，得到多个音频的联合特征，联合特征包括多个音频的音频特征；调用音质比较模型，音质比较模型用于确定联合特征中多个音频特征对应的音频之间的音质关系；将联合特征输入音质比较模型中，输出多个音频的音质比较结果。本公开直接对多个音频的联合特征进行处理，得到该多个音频之间的音质关系，不依赖带有主观性的人工评价，也不存在对音质进行检测时没有绝对标准的问题，因而准确性好。

Description

音质比较方法、装置、电子设备及存储介质

技术领域

本公开涉及多媒体技术领域，尤其涉及音质比较方法、装置、电子设备及存储介质。

背景技术

随着多媒体技术的发展，越来越多的音频在网络中传播，该音频可以被用户下载或在线收看，但是由于编码采用的码率较低或转录等过程可能会使得音频的音质损失，导致音频可能参差不齐，经常需要对音频的音质进行比较以判断哪个音频的音质更高一些，以便于为用户提供音质更高的音频。

相关技术中，通常是对音频进行音质检测，以确定该音频的音质高或低，或者确定音频的音质分数，来评价该音频的音质。如果要对多个音频的音质进行比较，则需要通过上述音质分数等指标来判断多个音频的音质关系。上述音质检测方法中通常需要通过人工对大量的样本标注音质分数，但是音质高低并没有一个绝对的标准，且人工标注带有主观性，则通过该音质分数来确定多个音频的音质关系的准确性差。

发明内容

本公开提供一种音质比较方法、装置、电子设备及存储介质，能够克服音质关系的准确性差的问题。

根据本公开实施例的第一方面，提供一种音质比较方法，包括：

对多个音频进行特征提取，得到每个音频的音频特征；

对所述多个音频的音频特征进行组合，得到所述多个音频的联合特征；

调用音质比较模型，所述音质比较模型用于确定所述联合特征中多个音频特征对应的音频之间的音质关系；

将所述联合特征输入所述音质比较模型中，输出所述多个音频的音质比较结果。

在一种可能实现方式中，所述对多个音频进行特征提取，得到每个音频的音频特征，包括：

对所述多个音频的音频信号进行分帧、加窗和傅里叶变换，得到每个音频的频域信号；

基于所述每个音频的频域信号和目标函数，获取所述每个音频的音频特征。

在一种可能实现方式中，所述对所述多个音频的音频特征进行组合，得到所述多个音频的联合特征，包括：

对所述多个音频的音频特征和目标数组进行组合，得到所述多个音频的联合特征，所述联合特征的维度的数量大于所述音频特征的维度的数量，所述目标数组用于表示所述多个音频的音频特征的组合顺序。

在一种可能实现方式中，所述音质比较模型基于已知音质关系的多个样本音频的音频特征和不同的目标数组组合得到的多个联合特征训练得到。

在一种可能实现方式中，所述音质比较模型的训练过程包括：

获取多个样本集合，每个样本集合中包括所述多个样本音频；

对所述多个样本集合中的所述多个样本音频进行特征提取，得到每个样本音频的音频特征；

对于所述每个样本集合中多个样本音频的音频特征，基于所述多个样本音频的音频特征和多个不同的目标数组，获取所述每个样本集合中多个样本音频的多个联合特征，每个联合特征的目标音质比较结果与所述联合特征中的目标数组对应；

调用初始模型，将所述多个样本集合的多个联合特征输入所述初始模型中，由所述初始模型对每个联合特征进行处理，得到每个联合特征对应的音质比较结果；

根据每个联合特征对应的音质比较结果和目标音质比较结果，获取所述每个联合特征对应的音质比较结果的准确性；

根据所述准确性，对所述初始模型的模型参数进行调整，直至满足目标条件时停止。

在一种可能实现方式中，所述每个联合特征的目标音质比较结果的获取过程包括：

根据所述每个联合特征中多个音频特征对应的样本音频的来源信息或标注信息，确定所述多个样本音频的音质关系；

根据所述每个联合特征中目标数组所表示的所述多个音频特征的组合顺序与所述多个样本音频的音质关系，确定所述每个联合特征的目标音质比较结果。

根据本公开实施例的第二方面，提供一种音质比较装置，包括：

特征提取模块，被配置为执行对多个音频进行特征提取，得到每个音频的音频特征；

特征组合模块，被配置为执行对所述多个音频的音频特征进行组合，得到所述多个音频的联合特征；

模型调用模块，被配置为执行调用音质比较模型，所述音质比较模型用于确定所述联合特征中多个音频特征对应的音频之间的音质关系；

音质比较模块，用于将所述联合特征输入所述音质比较模型中，输出所述多个音频的音质比较结果。

在一种可能实现方式中，所述特征提取模块被配置为执行：

在一种可能实现方式中，所述特征组合模块被配置为执行基于所述多个音频的音频特征和目标数组进行组合，得到所述多个音频的联合特征，所述联合特征的维度的数量大于所述音频特征的维度的数量，所述目标数组用于表示所述多个音频的音频特征的组合顺序。

在一种可能实现方式中，所述装置还包括模型训练模块，所述模型训练模块被配置为执行：

在一种可能实现方式中，所述模型训练模块被配置为执行：

根据本公开实施例的第三方面，提供一种电子设备，该电子设备包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行第一方面以及第一方面的可能实现方式中任一项所述的音质比较方法所执行的操作。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，该非临时性计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行执行第一方面以及第一方面的可能实现方式中任一项所述的音质比较方法所执行的操作。

根据本公开实施例的第五方面，提供一种应用程序，包括一条或多条指令，该一条或多条指令可以由电子设备的处理器执行时，使得所述电子设备能够执行执行第一方面以及第一方面的可能实现方式中任一项所述的音质比较方法所执行的操作。

本公开的实施例提供的技术方案可以包括以下有益效果：本公开实施例通过对多个音频进行特征提取和特征组合得到联合特征，从而将联合特征输入音质比较模型中，该音质比较模型可以直接对联合特征进行处理，得到该多个音频之间的音质关系，而不是通过模型对单个音频进行音质检测，确定音频的绝对音质，则不依赖带有主观性的人工评价，也不存在对音质进行检测时没有绝对标准的问题，因而，本公开实施例提供的音质比较方法的准确性好。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种音质比较方法的流程图。

图2是根据一示例性实施例示出的一种音质比较模型训练方法的流程图。

图3是根据一示例性实施例示出的一种音频特征的提取过程的流程图。

图4是根据一示例性实施例示出的一种初始模型和音质比较模型的网络结构示意图。

图5是根据一示例性实施例示出的一种音质比较方法的流程图。

图6是根据一示例性实施例示出的一种音质比较方法的流程图。

图7是根据一示例性实施例示出的一种音质比较装置的结构示意图。

图8是根据一示例性实施例示出的一种终端的结构框图。

图9是根据一示例性实施例示出的一种服务器的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种音质比较方法的流程图，如图1所示，音质比较方法用于电子设备中，包括以下步骤。

在步骤S11中，电子设备对多个音频进行特征提取，得到每个音频的音频特征。

在步骤S12中，电子设备对该多个音频的音频特征进行组合，得到该多个音频的联合特征。

在步骤S13中，电子设备调用音质比较模型，该音质比较模型用于确定该联合特征中多个音频特征对应的音频之间的音质关系。

在步骤S14中，电子设备将该联合特征输入该音质比较模型中，输出该多个音频的音质比较结果。

本公开实施例通过对多个音频进行特征提取和特征组合得到联合特征，从而将联合特征输入音质比较模型中，该音质比较模型可以直接对联合特征进行处理，得到该多个音频之间的音质关系，而不是通过模型对单个音频进行音质检测，确定音频的绝对音质，则不依赖带有主观性的人工评价，也不存在对音质进行检测时没有绝对标准的问题，因而，本公开实施例提供的音质比较方法的准确性好。

在一种可能实现方式中，该对多个音频进行特征提取，得到每个音频的音频特征，包括：

对该多个音频的音频信号进行分帧、加窗和傅里叶变换，得到每个音频的频域信号；

基于该每个音频的频域信号和目标函数，获取该每个音频的音频特征。

在一种可能实现方式中，该对该多个音频的音频特征进行组合，得到该多个音频的联合特征，包括：

对该多个音频的音频特征和目标数组进行组合，得到该多个音频的联合特征，该联合特征的维度的数量大于该音频特征的维度的数量，该目标数组用于表示该多个音频的音频特征的组合顺序。

在一种可能实现方式中，该音质比较模型基于已知音质关系的多个样本音频的音频特征和不同的目标数组组合得到的多个联合特征训练得到。

在一种可能实现方式中，该音质比较模型的训练过程包括：

获取多个样本集合，每个样本集合中包括该多个样本音频；

对该多个样本集合中的该多个样本音频进行特征提取，得到每个样本音频的音频特征；

对于该每个样本集合中多个样本音频的音频特征，基于该多个样本音频的音频特征和多个不同的目标数组，获取该每个样本集合中多个样本音频的多个联合特征，每个联合特征的目标音质比较结果与该联合特征中的目标数组对应；

调用初始模型，将该多个样本集合的多个联合特征输入该初始模型中，由该初始模型对每个联合特征进行处理，得到每个联合特征对应的音质比较结果；

根据每个联合特征对应的音质比较结果和目标音质比较结果，获取该每个联合特征对应的音质比较结果的准确性；

根据该准确性，对该初始模型的模型参数进行调整，直至满足目标条件时停止。

在一种可能实现方式中，该每个联合特征的目标音质比较结果的获取过程包括：

根据该每个联合特征中多个音频特征对应的样本音频的来源信息或标注信息，确定该多个样本音频的音质关系；

根据该每个联合特征中目标数组所表示的该多个音频特征的组合顺序与该多个样本音频的音质关系，确定该每个联合特征的目标音质比较结果。

图2是根据一示例性实施例示出的一种音质比较模型训练方法的流程图，如图2所示，该音质比较模型训练方法用于电子设备中，包括以下步骤：

在步骤S21中，电子设备获取该多个样本集合，每个样本集合中包括多个样本音频。

在本公开实施例中，电子设备可以根据多个样本集合对初始模型进行训练，得到音质比较模型。该音质比较模型可以基于已知音质关系的多个音频的音频特征和不同的目标数组组合得到的联合特征训练得到。其中，该多个样本集合中包括多个样本音频，该多个样本音频的音质关系已知。

该初始模型中的模型参数为初始值，该初始模型对多个样本音频进行音质比较时，得到的音质比较结果准确性较差，电子设备可以根据该多个样本音频的已知的音质关系，以训练该初始模型来对多个样本音频的音质进行比较，提高该初始模型进行音质比较的准确性，使得训练完成的音质比较模型对多个样本音频进行音质比较的结果与上述已知的音质关系一致。

该多个样本集合可以存储于本地，也可以存储于服务器，则电子设备可以从本地存储文件中获取该多个样本集合，也可以从服务器中获取该多个样本集合，本公开实施例对此不作限定。对于每个样本集合中，该多个样本音频的已知音质关系可以由相关技术人员根据自身经验确定，也可以综合大量用户反馈信息确定，本公开实施例对该已知音质关系的确定方式不作限定。

下面通过几种方式来对该多个样本音频的已知音质关系进行表征，从而使得电子设备可以根据下述几种表征方式中的信息获知该多个样本音频的音质关系。

在一种可能实现方式中，每个样本集合中多个样本音频的音质关系可以通过来源信息表征，也即是，不同音质的样本音频的来源信息可以不同。

在一个具体的可能实施例中，该来源信息可以为资源目录，不同音质的样本音频可以处于不同的资源目录中。在一个具体示例中，资源目录可以为文件夹。对于每个样本集合，该样本集合中的多个样本音频可以位于不同的文件夹中。进一步地，该文件夹的数量可以与每个样本集合中音频的数量相同。

例如，每个样本集合中可以包括两个样本音频，其中一个样本音频的音质高于另一个样本音频，音质高的样本音频可以位于第一文件夹中，音质低的样本音频可以位于第二文件夹中。又例如，每个样本集合中可以包括三个样本音频，第一样本音频的音质高于第二样本音频，第二样本音频的音质高于第三样本音频，第一样本音频可以位于第一文件夹中，第二样本音频可以位于第二文件夹中，第三样本音频可以位于第三文件夹中。当然，上述同一样本集合中不同资源目录下的多个样本音频的标识信息可以相同。例如，每个样本集合包括的多个样本音频的文件名称相同，或者编号相同，本公开实施例对此不作限定。因而，电子设备可以根据该标识信息确定该多个样本音频为一个样本集合中的文件。

在另一个具体的可能实施例中，该来源信息可以为数据库地址。不同音质的样本音频可以存储于不同的数据库中。例如，每个样本集合中可以包括两个样本音频，高音质的样本音频可以被存储于高音质数据库中，低音质的样本音频可以被存储于低音质数据库中，则根据该两个样本音频的数据库地址，即可确定该两个样本音频的音质关系。

在另一种可能实现方式中，每个样本集合中多个样本音频的音质关系可以通过标注信息表征，也即是，不同音质的样本音频的标注信息不同。例如，每个样本集合包括两个样本音频，其中一个样本音频的音质高于另一个样本音频，音质高的样本音频的标注信息可以为1，音质低的样本音频的标注信息可以为0。又例如，每个样本集合包括三个样本音频，第一样本音频的标注信息可以为2，第二样本音频的标注信息可以为1，第一样本音频的标注信息可以为0。

上述仅提供了两种音质关系的表征方式，该音质关系还可以通过其他方式表征，例如，可以为样本音频色设置命名规则，命名规则可以为样本集合名称-音质标识，电子设备可以根据该样本音频的文件名称，确定该样本音频所属的样本集合，确定该样本音频与其所属的样本集合所包括的多个样本音频的音质关系。本公开实施例对具体采用哪种方式不作限定。

在步骤S22中，电子设备对该多个样本集合中的该多个样本音频进行特征提取，得到每个样本音频的音频特征。

电子设备在获取到多个样本集合后，可以对每个样本音频进行特征提取，将提取到的音频特征作为对该样本音频进行分析的数据依据，对初始模型进行训练。

具体地，音频特征的获取过程可以为：电子设备可以对每个样本音频的音频信号进行分帧、加窗和傅里叶变换，得到每个样本音频的频域信号。电子设备可以基于该每个样本音频的频域信号和目标函数，获取每个样本音频的音频特征。

在一种可能实现方式中，该目标函数可以为对数函数，相应地，该音频特征可以为该样本音频的音频信号的频域对数能量。

例如。电子设备可以将每个样本音频的音频信号分帧变换到频域信号，该过程可以如下述公式一所示：

S(k,t)＝FFT(s(t))

其中，FFT是指快速傅里叶变换(Fast Fourier Transformation)，k为频率信息，该频率信息通常为傅里叶变换后的频点下标，该频点下标表示的频率通常可以该由频点下标、采样率和傅里叶变换长度等共同决定。t为时间。S(t)为样本音频的音频信号，S(k,t)为样本音频的频域信号。

上述电子设备基于频域信号和目标函数，得到音频特征的过程可以如下述公式二所示：

E(k,t)＝10*log10(S(k,t)*S(k,t))

其中，k为频率信息，该频率信息通常为傅里叶变换后的频点下标，该频点下标表示的频率通常可以该由频点下标、采样率和傅里叶变换长度等共同决定。t为时间。E1(k,t)、E2(k,t)、……、En(k,t)分别为n个样本音频的音频特征,n为正整数。E(i,k,t)为该n个样本音频的联合特征。log10()为对数函数，S(k,t)为样本音频的频域信号，i＝1～n，i表示样本音频的标识。

如图3所示，电子设备可以对样本音频的音频信号进行快速傅里叶变换得到该音频信号的频域能量，然后对其进行对数计算，得到对数能量，也即是音频特征。

在步骤S23中，对于该每个样本集合中多个样本音频的音频特征，电子设备基于该多个样本音频的音频特征和多个不同的目标数组，获取该每个样本集合中多个样本音频的多个联合特征。

在本公开实施例中，对于每个样本集合，电子设备可以对将该每个样本集合中多个样本音频的音频特征和多个不同的目标数组进行组合，得到多个联合特征，也即是，每个样本集合对应有多个联合特征，将每个联合特征作为一个训练样本，对初始模型进行训练。其中，该联合特征的维度的数量大于该音频特征的维度的数量。该多个不同的目标数组用于表示该多个样本音频的音频特征的不同组合顺序，也即是，每个目标数组用于表示该多个样本音频的音频特征的一种组合顺序。

例如，该多个样本音频的音频特征为二维数组，则在对多个二维数组进行组合时，可以将该多个二维数组和目标数组进行组合，得到一个三维的联合特征，联合特征在音频特征的基础上增加了一个维度，增加的这个维度上的数值即为目标数组的数值，增加的这个维度可以用于表示该多个二维数组的组合顺序。当然，如果该音频特征为一维数组，则可以通过上述组合过程，得到一个二维的联合特征。

在一个具体示例中，可以通过下述公式三对多个音频特征进行组合得到联合特征：

E(i,k,t)＝[E1(k,t)E2(k,t)……En(k,t)]

其中，i＝1～n，n为正整数，i表示样本音频的标识，E1(k,t)、E2(k,t)、……、En(k,t)分别为n个样本音频的音频特征。E(i,k,t)为该n个样本音频的联合特征。k为频率信息，该频率信息通常为傅里叶变换后的频点下标，该频点下标表示的频率通常可以该由频点下标、采样率和傅里叶变换长度等共同决定。t为时间。

上述公式三中仅提供了该n个音频特征按照E1(k,t)、E2(k,t)、……、En(k,t)的组合顺序与目标数组组合的一种示例性说明，该过程中可以得到多个联合特征，每个联合特征的组合方式与上述同理，但该多个音频特征的组合顺序与上述不同，在此不一一列举。

可以理解地，该多个样本音频的真实音质关系是固定的，该多个音频特征的组合顺序不同时，该联合特征的目标音质比较结果可以不同，联合特征的目标数组即表示该多个音频特征的组合顺序，因而，每个联合特征的目标音质比较结果与该联合特征中的目标数组对应。该目标音质比较结果即为该多个样本音频的真实音质关系。

在一种可能实现方式中，该每个联合特征的目标音频比较结果的获取过程可以为：电子设备根据该每个联合特征中多个音频特征对应的样本音频的来源信息或标注信息，确定该多个样本音频的音质关系。电子设备根据该每个联合特征中目标数组所表示的该多个音频特征的组合顺序与该多个样本音频的音质关系，确定该每个联合特征的目标音质比较结果。其中，该来源信息或该标注信息即为上述步骤S21中所示用于表征音质关系的信息。

例如，以采用来源信息表征音质关系，来源信息为资源目录，每个样本集合包括两个样本音频为例，对于一个样本集合，该样本集合中的两个样本音频可以被存放于不同的资源目录下，电子设备可以根据该两个样本音频的资源目录，确定两个样本音频的音质关系为：第一样本音频的音质高于第二样本音频的音质。假设第一样本音频的音频特征为E1(k,t)，第二样本音频的音频特征为E2(k,t)，该两个音频特征按照不同的组合顺序组合可以得到两个联合特征，两个联合特征为Ep(i,k,t)和En(i,k,t)。其中，正样本Ep(i,k,t)＝[E1(k,t)E2(k,t)]，负样本En(i,k,t)＝[E2(k,t)E1(k,t)]。其中，Ep(i,k,t)中的p为正(posstive)的意思，在本公开实施例中用于表示Ep(i,k,t)为正样本，En(i,k,t)中的n为负(negative)的意思，在本公开实施例中用于表示En(i,k,t)为负样本。在这里，i＝1～2，用于表示第一样本音频和第二样本音频。k为频率信息，t为时间。在该电子设备中可以设置有音频特征的组合顺序与目标音质比较结果的对应关系，也即是，上述目标数组所表示的组合顺序与目标音质比较结果的对应关系，电子设备可以根据该对应关系，确定每个联合特征中目标数组所表示的组合顺序对应的目标音质比较结果。比如，可以设置有正样本Ep(i,k,t)的目标音质比较结果为1，负样本En(i,k,t)的目标音质比较结果为0。

当然，上述示例中仅示出了每个样本集合中包括两个样本音频的情况，如果该样本集合中包括三个或更多的样本音频，该目标音质比较结果的设置以及获取过程可以同理，本公开实施例对该目标音质比较结果的表示方式不作限定。例如，如果每个样本集合包括三个样本音频，则该三个样本音频的音频特征可以组合得到六个联合特征，下述仅以E1(k,t)、E2(k,t)、E3(k,t)分别来表示该三个样本音频的音频特征，可以设置有该样本音频的音频特征中目标数组所表示的不同组合顺序的联合特征与目标音质比较结果的对应关系如下表1所示：

表1

在步骤S24中，电子设备调用初始模型，将该多个样本集合的多个联合特征输入该初始模型中，由该初始模型对每个联合特征进行处理，得到每个联合特征对应的音质比较结果。

通过上述步骤S23，电子设备在获取到多个样本集合对应的多个联合特征，每个样本集合即对应多个联合特征，将该多个联合特征作为训练数据，电子设备可以调用初始模型，使用训练数据，对该初始模型进行训练，提高该初始模型对联合特征进行处理的准确性，以训练得到音质比较模型，该训练好的音质比较模型可以对联合特征进行准确处理，得到的音质比较结果接近于目标音质比较结果。

具体地，电子设备可以调用初始模型，将获取到的多个联合特征输入初始模型中，对于每个联合特征，该初始模型可以根据模型参数对该联合特征进行处理，得到该联合特征对应的音质比较结果。在一种可能实现方式中，可以设置有多种可能音质比较结果，初始模型对联合特征进行处理后，可以得到该联合特征对应于各个可能音质比较结果的概率，从而将概率最大的作为本次输出的音质比较结果。

在一种可能实现方式中，该初始模型可以为神经网络模型，例如，该初始模型可以采用综合卷积神经网络(Convolutional Neural Network,CNN)和深度神经网络(DeepNeural Networks,DNN)两种神经网络的网络结构，当然，训练得到的音质比较模型的网络结构与该初始模型相同。如图4所示，该初始模型可以包括卷积神经网络(CNN)、修正线性单元(Rectified Linear Unit,ReLU)层、池化层(Pooling)、隐藏层(Dense)和输出逻辑层(Logit)。其中，卷积神经网络为该初始模型中的第一层，卷积神经网络用于接收输入的联合特征，修正线性单元(ReLU)是线性整流函数，用于增强网络非线性学习能力。池化层(Pooling)可以降低模型参数的数量，避免模型过拟合问题，隐藏层(Dense)为全连接DNN，最后的输出逻辑层(Logit)用于输出音质比较结果。当然，该初始模型还可以采用其他结构，例如，基于CNN改进得到的神经网络，本公开实施例对此不作限定。

在步骤S25中，电子设备根据每个联合特征对应的音质比较结果和目标音质比较结果，获取该每个联合特征对应的音质比较结果的准确性。

电子设备在获取到每个联合特征对应的音质比较结果，该音质比较结果为该初始模型对特征联合进行处理得到的一个预测结果，电子设备可以使用该预测结果和真实结果进行比较，确定该初始模型处理的准确性。

在一种可能实现方式中，电子设备可以通过损失函数，确定每个联合特征对应的音质比较结果和目标音质比较结果的误差，该误差即为音质比较结果的准确性。例如，该损失函数就可以为交叉熵损失函数(cross entropy loss function)，也可以为其他损失函数，比如，均方误差损失函数，本公开实施例对此不作限定。

在步骤S26中，电子设备根据该准确性，对该初始模型的模型参数进行调整，直至满足目标条件时停止。

电子设备在得到音质比较结果的准确性后，可以根据该准确性对初始模型的模型参数进行调整。上述步骤S24至步骤S26中，电子设备对联合特征进行处理，计算准确性的过程为一次迭代过程，经过多次迭代过程，满足目标条件时可以停止上述迭代过程，得到准确性高的音质比较模型。

其中，该迭代过程停止的目标条件可以为：该准确性收敛或当前迭代次数达到次数阈值。也即是，在迭代过程中，如果准确度未收敛，或者，当前迭代次数小于次数阈值时，则可以对初始模型的模型参数进行调整，直到符合目标条件为止。在一种可能实现方式中，该模型训练过程中可以基于梯度下降法确定是否符合目标条件，当然也可以采用其他方法，例如，k-折验证法等，本公开实施例对此不作限定。

本公开实施例通过获取多个样本集合，每个样本集合中包括多个已知音质关系的样本音频，对多个样本集合进行特征提取，得到了音频特征，每个样本集合均根据音频特征的不同排列顺序，得到了多个联合特征，从而将联合特征作为训练样本，对初始模型进行训练，得到音质比较模型，该音质比较模型训练过程直接对样本音频之间的音质关系进行处理，而并不是对每个样本音频文件进行音质检测，获取音质分数，无需判断单个样本音频文件的绝对音质，因而，本公开实施例提供的音质比较方法的准确性好。

上述图2所示实施例中对音质比较模型训练过程进行了详细说明，图5是根据一示例性实施例示出的一种音质比较方法的流程图，在图5所示实施例中，可以应用训练好的音质比较模型，对未知音质关系的多个音频进行音质比较，以获取该多个音频之间的音质关系。如图5所示，该音质比较方法可以应用于电子设备，该方法可以包括以下步骤：

在步骤S51中，电子设备获取多个音频。

在本公开实施例中，电子设备可以通过音质比较模型，比较多个音频的音质，得到该多个音频的音质关系，因而，电子设备可以获取多个音频，以执行下述步骤，比较该多个音频的音质。

该多个音频可以为该电子设备本地的音频，则电子设备可以从本地存储文件中获取该多个音频，该多个音频也可以存储于服务器，则电子设备可以从服务器中获取该多个音频，例如，电子设备可以从音频数据库中获取该多个音频。本公开实施例对该多个音频的具体来源不作限定。

在一种可能实现方式中，该多个音频的内容可以相同，例如，该多个音频的内容为同一首歌曲，该多个音频的内容也可以不同。该多个音频也可以通过视频文件得到，例如，可以提取多个视频文件的多个音频，本公开实施例对该多个音频的内容和获取途径不作限定。

在步骤S52中，电子设备对该多个音频进行特征提取，得到每个音频的音频特征。

电子设备获取到多个音频后，则可以提取每个音频的音频特征，以该音频特征表征该音频，从而基于该音频特征在后续对该多个音频进行音质比较。

具体地，该步骤S52与上述步骤S22同理，本公开实施例在此不做过多赘述。电子设备可以对该多个音频的音频信号进行分帧、加窗和傅里叶变换，得到每个音频的频域信号。电子设备可以基于该每个音频的频域信号和目标函数，获取每个音频的音频特征。在一种可能实现方式中，该音频特征可以为该音频的音频信号的频域对数能量。

在步骤S53中，电子设备对该多个音频的音频特征进行组合，得到该多个音频的联合特征。

在一种可能实现方式中，电子设备可以对该多个音频的音频特征和目标数组进行组合，得到该多个音频的联合特征，该联合特征的维度的数量大于该音频特征的维度的数量，该目标数组用于表示该多个音频的音频特征的组合顺序。其中，该多个音频的音频特征的组合顺序可以为一个随机的组合顺序，也可以与获取到的该多个音频的排列顺序相同，本公开实施例对按照何种组合顺序组合该多个音频的音频特征不作限定。

该步骤S53中对该多个音频的音频特征进行组合的过程与上述步骤S23中所示的组合方式同理，不同的是，上述步骤S23中，对于同一样本集合中的多个样本音频的音频特征，通过与多个不同的目标数组进行组合得到了多个联合特征，每个联合特征中多个样本音频的组合顺序不同。从而得到多个训练样本，而该步骤S53中，该多个音频的音质关系未知，因而可以将该多个音频的音频特征组合得到音质比较结果，从而根据目标数组所表示的组合顺序和音质比较结果即可获知该多个音频的音质关系。

在步骤S54中，电子设备调用音质比较模型。

该电子设备可以与图2所示实施例中的电子设备为同一电子设备，这样该电子设备可以调用之前训练好的音质比较模型。该电子设备也可以与图2所示实施例中的电子设备为不同的电子设备，图2所示实施例中的电子设备训练得到音质比较模型后，可以将该音质比较模型封装为配置文件，并发送至该电子设备，从而该电子设备可以对封装的配置文件进行处理，存储该音质比较模型。这样电子设备在需要进行音质比较时，则可以从本地存储中调用该音质比较模型，本公开实施例对具体采用哪种方式不作限定。

在步骤S55中，电子设备将该联合特征输入该音质比较模型中，输出该多个音频的音质比较结果。

电子设备调用了音质比较模型后，即可将联合特征输入该音质比较模型中，由该音质比较模型对其进行处理，输出音频比较结果。其中，该音质比较结果用于指示该多个音频之间的音质关系。

例如，如图6所示，以该多个音频为音频文件，且数量为2，音质比较模型为神经网络为例，电子设备可以对音频文件1和音频文件2进行特征提取，得到两个音频文件的音频特征，然后电子设备可以将该两个音频文件的音频特征进行特征联合，得到联合特征，以联合特征中目标数组所表示的音频文件的组合顺序为音频文件1的音频特征在前，音频文件2的音频特征在后为例，电子设备将该联合特征输入神经网络(音质比较模型)中，该音质比较模型可以输出音质比较结果，从而电子设备可以根据音质比较结果进行音质判决，如果音质比较结果为1，则说明音频文件1的音质高于音频文件2，如果音质比较结果为0，则说明音频文件2的音质高于音频文件1。

在该步骤S55中，电子设备将该联合特征输入该音质比较模型中，输出该多个音频的音质排序信息。该音频比较结果可以具有不同的表示方式，也即是吧，该音质排序信息可以具有不同的表示方式。

在一种可能实现方式中，该音质比较结果可以为多个音频中的音质排序信息。例如，在两个音频的示例中，如果第一音频的音质高于第二音频，则电子设备在上述步骤S55中可以对联合特征进行处理，可以输出1，用于表示第一音频的音质高于第二音频的音质，而如果输出0，则表示第二音频的音质高于第一音频的音质，当然如果包括更多个音频，还可以输出其他形式的音质排序信息，例如如表一所示，本公开实施例对此不作限定。

在另一种可能实现方式中，该音质排序信息还可以采用另一种方式表示，电子设备可以将该联合特征输入该音质比较模型中，输出该多个音频中音质最高的音频的标识信息。该音质比较结果可以为多个音频中音质最高的音频的标识信息。例如，在两个音频的示例中，第一音频的标识信息为1，第二音频的标识信息为2，则如果第一音频的音质高于第二音频，则电子设备在上述步骤S55中可以对联合特征进行处理，输出1。

图7是根据一示例性实施例示出的一种音质比较装置的结构示意图。参照图7，该装置包括：

特征提取模块701，被配置为执行对多个音频进行特征提取，得到每个音频的音频特征；

特征组合模块702，被配置为执行对该多个音频的音频特征进行组合，得到该多个音频的联合特征；

模型调用模块703，被配置为执行调用音质比较模型，该音质比较模型用于确定该联合特征中多个音频特征对应的音频之间的音质关系；

音质比较模块704，用于将该联合特征输入该音质比较模型中，输出该多个音频的音质比较结果。

在一种可能实现方式中，该特征提取模块701被配置为执行：

在一种可能实现方式中，该特征组合模块702被配置为执行基于该多个音频的音频特征和目标数组进行组合，得到该多个音频的联合特征，该联合特征的维度的数量大于该音频特征的维度的数量，该目标数组用于表示该多个音频的音频特征的组合顺序。

在一种可能实现方式中，该装置还包括模型训练模块，该模型训练模块被配置为执行：

获取多个样本集合，每个样本集合中包括该多个样本音频；

在一种可能实现方式中，该模型训练模块被配置为执行：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

上述电子设备可以被提供为下述图8所示的终端，也可以被提供为下述图9所示的服务器，本公开实施例对此不作限定。

图8是根据一示例性实施例示出的一种终端的结构框图。该终端800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本公开中方法实施例提供的音质比较方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制显示屏805的显示亮度。具体地，当环境光强度较高时，调高显示屏805的显示亮度；当环境光强度较低时，调低显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是根据一示例性实施例示出的一种服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)901和一个或一个以上的存储器902，其中，该存储器902中存储有至少一条指令，该至少一条指令由该处理器901加载并执行以实现上述各个方法实施例提供的音质比较方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，当该非临时性计算机可读存储介质中的指令由电子设备的处理器执行时，使得该电子设备能够执行上述各个实施例提供的音质比较方法。

在示例性实施例中，还提供了一种应用程序，包括一条或多条指令，该一条或多条指令可以由电子设备的处理器执行，以完成上述实施例中提供的音质比较方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音质比较方法，其特征在于，包括：

对多个音频进行特征提取，得到每个音频的音频特征；

2.根据权利要求1所述的音质比较方法，其特征在于，所述对多个音频进行特征提取，得到每个音频的音频特征，包括：

3.根据权利要求1所述的音质比较方法，其特征在于，所述对所述多个音频的音频特征进行组合，得到所述多个音频的联合特征，包括：

4.根据权利要求1所述的音质比较方法，其特征在于，所述音质比较模型基于已知音质关系的多个样本音频的音频特征和不同的目标数组组合得到的多个联合特征训练得到。

5.根据权利要求4所述的音质比较方法，其特征在于，所述音质比较模型的训练过程包括：

6.根据权利要求5所述的音质比较方法，其特征在于，所述每个联合特征的目标音质比较结果的获取过程包括：

7.一种音质比较装置，其特征在于，包括：

8.根据权利要求7所述的音质比较装置，其特征在于，所述特征组合模块被配置为执行：

基于所述多个音频的音频特征和目标数组进行组合，得到所述多个音频的联合特征，所述联合特征的维度的数量大于所述音频特征的维度的数量，所述目标数组用于表示所述多个音频的音频特征的组合顺序。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行权利要求1至权利要求6任一项所述的音质比较方法所执行的操作。

10.一种非临时性计算机可读存储介质，其特征在于，当所述非临时性计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行权利要求1至权利要求6任一项所述的音质比较方法所执行的操作。