CN112185421B

CN112185421B - 音质检测方法、装置、电子设备及存储介质

Info

Publication number: CN112185421B
Application number: CN202011054305.2A
Authority: CN
Inventors: 郑羲光; 陈翔宇; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2023-11-21
Anticipated expiration: 2040-09-29
Also published as: CN112185421A; WO2022068304A1

Abstract

本公开关于一种音质检测方法、装置、电子设备及存储介质。该方法包括：获取目标音频信号；检测目标音频信号对应的音频内容信号，得到与音频内容信号相关的第一评价信息；检测目标音频信号对应的音频采集信号，得到与音频采集信号相关的第二评价信息；按照第一预设权重向量对第一评价信息与第二评价信息进行融合，得到与目标音频信号对应的目标评价信息；其中，目标评价信息与目标音频信号的音质相关；根据目标评价信息，确定目标音频信号的音质类别。从而，无需获取与目标音频信号对应的原始无损音频信号，便可实现对目标音频信号质量进行检测的目的，能够全方位对目标音频信号进行检测，最终实现精确地对相应音频信号的音质进行界定的目的。

Description

音质检测方法、装置、电子设备及存储介质

技术领域

本公开涉及音频处理技术领域，尤其涉及一种音质检测方法、装置、电子设备及存储介质。

背景技术

随着社会的进步以及计算机技术、网络技术的发展，人们接收外界信息的渠道越来越多。近年来，由于音频处理技术的发展，通过音频信息与外界交流和感知外界变化得到的了空前发展，人们也越来越重视发出和获得的音频信息的质量。传统音质检测方法，一般是为完全参考音质检测方法，首先获取原始无损音频信号和原始无损音频信号对应音质被降低的各种有损音频信号，通过比较原始无损音频信号和有无损音频信号之间的差距，确定有损音频信号的音质评价信息，并通过该评价信息来确定该有损音频信号的音质。

然而，传统完全参考音质检测方法中，无损音频信号的获取难度大，且现实生活中几乎无法获取到完全无损的音频信号，因此，根据传统完全参考音质检测方法确定出的音质评价信息，无法精确地对相应音频信号的音质类别进行界定。

发明内容

本公开提供一种音质检测方法、装置、电子设备及存储介质，以至少解决相关技术中无法精确地对相应音频信号的音质进行界定的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音质检测方法，包括：

获取目标音频信号；

检测所述目标音频信号对应的音频内容信号，得到与所述音频内容信号相关的第一评价信息；

检测所述目标音频信号对应的音频采集信号，得到与所述音频采集信号相关的第二评价信息；

按照第一预设权重向量对所述第一评价信息与所述第二评价信息进行融合，得到与所述目标音频信号对应的目标评价信息；其中，所述目标评价信息与所述目标音频信号的音质相关；

根据所述目标评价信息，确定所述目标音频信号的音质类别。

在一示例性实施例中，所述检测所述目标音频信号对应的音频内容信号，得到与所述音频内容信号相关的第一评价信息，包括：

对所述目标音频信号对应的音频内容信号进行分类，得到与所述音频内容信号对应的音频分类结果；

按照所述音频分类结果，对所述目标音频信号进行检测，得到与所述音频内容信号相关的第一评价信息。

在一示例性实施例中，所述对所述目标音频信号对应的音频内容信号进行分类，得到与所述音频内容信号对应的音频分类结果，包括：

按照第一时间长度对所述目标音频信号进行分割，得到第一数量个音频片段；

对于每一所述音频片段，对所述音频片段对应的音频片段内容进行分类，得到与所述音频片段对应的第二数量个目标类别和所述音频片段为所述目标类别的目标概率；

将每一所述音频片段对应的第二数量个目标类别和第二数量个目标概率，确定为所述音频分类结果。

在一示例性实施例中，所述按照所述音频分类结果，对所述目标音频信号进行检测，得到与所述音频内容信号相关的第一评价信息，包括：

对于每一所述音频片段，按照所述第二数量个目标类别，对所述音频片段进行检测，得到与所述第二数量个目标类别相关的第二数量个片段内容评价信息；

将所述第二数量个目标概率中的最大概率值对应的片段内容评价信息确定为每一所述音频片段对应的片段内容评价信息；或，以所述第二数量个目标概率为权重系数，对与所述音频片段相关的第二数量个片段内容评价信息进行加权，得到每一所述音频片段对应的片段内容评价信息；其中，所述第一数量个音频片段对应第一数量个片段内容评价信息；

按照第二预设权重向量，对所述第一数量个片段内容评价信息进行融合，得到所述第一评价信息。

在一示例性实施例中，所述检测所述目标音频信号对应的音频采集信号，得到与所述音频采集信号相关的第二评价信息，包括：

对目标音频信号对应的破音现象进行检测，得到对应的破音评价信息；

对目标音频信号对应的外录设备进行检测，得到对应的外录评价信息；

按照第三预设权重向量，对所述破音评价信息和所述外录评价信息进行融合，得到所述第二评价信息。

按照第二时间长度对所述目标音频信号进行分割，得到第三数量个音频片段；

对于每一所述音频片段，对所述音频片段对应的破音程度进行检测，得到所述音频片段对应的破音评价信息；其中，所述第三数量个音频片段对应第三数量个片段破音评价信息；

按照第四预设权重向量，对所述第三数量个片段破音评价信息进行融合，得到所述破音评价信息。

根据本公开实施例的第二方面，提供一种音质检测装置，包括：

音频信号获取单元，被配置为执行获取目标音频信号；

第一分值检测单元，被配置为执行检测所述目标音频信号对应的音频内容信号，得到与所述音频内容信号相关的第一评价信息；

第二分值检测单元，被配置为执行检测所述目标音频信号对应的音频采集信号，得到与所述音频采集信号相关的第二评价信息；

目标评价信息确定单元，被配置为按照第一预设权重向量对所述第一评价信息与所述第二评价信息进行融合，得到与所述目标音频信号对应的目标评价信息；其中，所述目标评价信息与所述目标音频信号的音质相关；

音质检测单元，被配置为执行根据所述目标评价信息，确定所述目标音频信号的音质类别。

在一示例性实施例中，所述第一分值检测单元还被配置为执行：

在一示例性实施例中，所述第二分值检测单元还被配置为执行：

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面的任一项实施例中所述的音质检测方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述第一方面的任一项实施例中所述的音质检测方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的音质检测方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过检测目标音频信号对应的音频内容信号，在音频内容信号层面对目标音频信号的质量进行评价，得到与音频内容信号相关的第一评价信息，以及检测目标音频信号对应的音频采集信号，在音频采集信号层面对目标音频信号的质量进行评价，得到与音频采集信号相关的第二评价信息，在得到从不同维度对目标音频信号进行评价的第一评价信息和第二评价信息后，按照第一预设权重向量对第一评价信息与第二评价信息进行融合，得到与目标音频信号对应的目标评价信息，其中，目标评价信息与目标音频信号的音质相关，并根据目标评价信息，确定目标音频信号的音质类别。从而，无需获取与目标音频信号对应的原始无损音频信号，便可实现对目标音频信号质量进行检测的目的，同时，用于评价目标音频信号音质的目标评价信息是基于目标音频信号本身的多维度属性得到的，能够全方位对目标音频信号进行检测，最终实现精确地对相应音频信号的音质进行界定的目的。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音质检测方法的流程图。

图2是根据一示例性实施例示出的步骤S200的一种可实施方式的流程图。

图3是根据一示例性实施例示出的步骤S210的一种可实施方式的流程图。

图4是根据一示例性实施例示出的步骤S220的一种可实施方式的流程图。

图5是根据一示例性实施例示出的步骤S300的一种可实施方式的流程图。

图6是根据一示例性实施例示出的步骤S310的一种可实施方式的流程图。

图7是根据一具体示例性实施例示出的一种音质检测系统的结构图。

图8是根据一示例性实施例示出的一种音质检测装置的框图。

图9是根据一示例性实施例示出的一种用于音质检测的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种音质检测方法的流程图，如图1所示，具体包括以下步骤：

在步骤S100中，获取目标音频信号。

在步骤S200中，检测目标音频信号对应的音频内容信号，得到与音频内容信号相关的第一评价信息。

在步骤S300中，检测目标音频信号对应的音频采集信号，得到与音频采集信号相关的第二评价信息。

在步骤S400中，按照第一预设权重向量对第一评价信息与第二评价信息进行融合，得到与目标音频信号对应的目标评价信息；其中，目标评价信息与目标音频信号的音质相关。

在步骤S500中，根据目标评价信息，确定目标音频信号的音质类别。

其中，目标音频信号是指音质待评价的音频信号。音频内容信号是指与目标音频信号的相关的具体信号，例如，音频内容信号可以为音乐、语音或其他(噪音及其他音频)。音频采集信号是指目标音频信号采集过程相关的信号，旨在评价与音频内容信号无关的音频质量，主要指音频信号采集过程中对音质有损伤的部分信号，可选地，音频采集信号的评价主要包括破音评价和外录评价。第一预设权重向量是第一评价信息与第二评价信息进行合并时的合并系数构成的向量，可选地，可以以加权平均的方式设置第一预设权重向量，也可以根据具体的音频内容信号与音频采集信号对音质的影像进行设置。

具体地，在获取到音质待评价的目标音频信号后，在具体的音频内容层面对目标音频信号的质量进行评价，得到与音频内容信号相关的第一评价信息，同时，在音频的采集层面对目标音频信号的质量进行评价，得到与音频采集信号相关的第二评价信息。在得到从不同维度对目标音频信号进行评价的第一评价信息和第二评价信息后，按照第一预设权重向量对第一评价信息与第二评价信息进行融合，得到与目标音频信号对应的目标评价信息，目标评价信息与目标音频信号的音质相关。示例性地，当第一评价信息对应的衡量标准为90、第二评价信息对应的衡量标准为85、第一预设权重向量为(0.6,0.4)时，目标评价信息对应的衡量标准为(90*0.6+85*0.4)。该目标评价信息能够精确地对相应的目标音频信号的音质进行评价，从而根据目标评价信息，确定目标音频信号的音质类别。例如，方满分为100分时，目标评价信息为95时，可以将该目标音频信号确定为高品质音频信号，目标评价信息为70时，可以将该目标音频信号确定为中品质音频信号，目标评价信息为55时，可以将该目标音频信号确定为低品质音频信号。需要说明的是，上述分值和分类仅为示例性说明，具体实施过程中可以根据实际需求另行划分音质类别。

上述音质检测方法中，通过检测目标音频信号对应的音频内容信号，在音频内容信号层面对目标音频信号的质量进行评价，得到与音频内容信号相关的第一评价信息，以及检测目标音频信号对应的音频采集信号，在音频采集信号层面对目标音频信号的质量进行评价，得到与音频采集信号相关的第二评价信息，在得到从不同维度对目标音频信号进行评价的第一评价信息和第二评价信息后，按照第一预设权重向量对第一评价信息与第二评价信息进行融合，得到与目标音频信号对应的目标评价信息，其中，目标评价信息与目标音频信号的音质相关，并根据目标评价信息，确定目标音频信号的音质类别。从而，无需获取与目标音频信号对应的原始无损音频信号，便可实现对目标音频信号质量进行检测的目的，同时，用于评价目标音频信号音质的目标评价信息是基于目标音频信号本身的多维度属性得到的，能够全方位对目标音频信号进行检测，最终实现精确地对相应音频信号的音质进行界定的目的。

在一示例性实施例中，如图2所示，为步骤S200的一种可实施方式的流程图，包括以下步骤：

在步骤S210中，对目标音频信号对应的音频内容信号进行分类，得到与音频内容信号对应的音频分类结果。

在步骤S220中，按照音频分类结果，对目标音频信号进行检测，得到与音频内容信号相关的第一评价信息。

其中，音频内容信号对应的音频类别可以是音乐、语音或其他(噪音及其他音频)。

具体地，对目标音频信号对应的音频内容信号进行分类，得到与音频内容信号对应的音频分类结果，该音频分类结果包括目标音频信号对应的类别和将该目标音频信号判定为这一类别对应的概率。按照目标音频信号对应的类别，对目标音频信号进行检测，得到每一目标音频信号在每一类别上的评价信息，并按照每一类别对应的概率将各类别的评价信息进行组合，得到与音频内容信号相关的第一评价信息。

示例地，可以获取预先训练好的能够对音频信号的类别进行检测的音频分类网络模型，得到目标音频信号为音乐、语音或其他的概率，例如，该目标音频信号是音乐的概率为0.7，是语音的概率为0.2，是其他音频信号的概率为0.1。在得到音频分类结果后，获取预先训练好的能够对相应类别的音频信号进行评价的评测网络，例如，可以用于音乐评测的音乐评测网络模型、可以用于语音评测的语音网络模型以及其他网络模型，将目标音频信号输入相应的网络评测模型，得到目标音频信号在音乐层面、语音层面以及其他层面的评价信息。例如，该目标音频信号在音乐层面的评价信息对应的分值为90，在语音层面的评价信息对应的分值为80，在其他层面的评价信息对应的分值为85。最终，按照每一类别对应的概率将各类别的评价信息进行组合，得到第一评价信息对应的分值(0.7*90+0.2*80+0.1*85)。

上述示例性实施例中，对目标音频信号对应的音频内容信号进行分类，得到与音频内容信号对应的音频分类结果，并按照音频分类结果，对目标音频信号进行检测，可以在目标音频信号对应的具体类别上有针对性地对目标音频信号进行检测，得到的第一评价信息，能够更加全面和有针对性地对音频信号的质量进行检测，为后续音频信号的音质评价提供基础。

在一示例性实施例中，如图3所示，为步骤S210的一种可实施方式的流程图，包括以下步骤：

在步骤S211中，按照第一时间长度对目标音频信号进行分割，得到第一数量个音频片段。

在步骤S212中，对于每一音频片段，对音频片段对应的音频片段内容进行分类，得到与音频片段对应的第二数量个目标类别和音频片段为目标类别的目标概率。

在步骤S213中，将每一音频片段对应的第二数量个目标类别和第二数量个目标概率，确定为音频分类结果。

其中，第一时间长度是指对音频信号进行划分的参考度量值，可选地，可以为1秒、10秒、20秒、1分钟不等，上述1秒、10秒、20秒、1分钟等时间长度仅为示例性说明，并不对第一时间长度进行具体限定。

具体地，按照第一时间长度对目标音频信号进行分割，得到第一数量个音频片段，例如，目标音频信号的长度为3分钟，以10秒为第一时间长度对目标音频信号进行分割，可以得到第二数量为18，长度为10秒的音频片段。对于每一10秒的音频片段，对音频片段对应的音频片段内容进行分类，当每一10秒的音频片段是音乐的概率为0.7、是语音的概率为0.2、是其他音频信号的概率为0.1时，第二数量为3，目标类别分别为音乐、语音和其他。最后，将18个10秒的音频片段中的每一音频片段对应的第二数量个目标类别和第二数量个目标概率，确定为音频分类结果。

上述示例性实施例中，按照第一时间长度对目标音频信号进行分割，得到第一数量个音频片段，并对每一音频片段对应的音频片段内容进行分类，得到与音频片段对应的第二数量个目标类别和音频片段为目标类别的目标概率，将每一音频片段对应的第二数量个目标类别和第二数量个目标概率，确定为音频分类结果。从而在更小的时间维度上对目标音频信号进行划分，使得后续能在更小的时间维度上对每一音频片段进行更为细致的检测，最终实现精确地对相应音频信号的音质进行界定的目的。

在一示例性实施例中，如图4所示，为步骤S220的一种可实施方式的流程图，包括以下步骤：

在步骤S221中，对于每一音频片段，按照第二数量个目标类别，对音频片段进行检测，得到与第二数量个目标类别相关的第二数量个片段内容评价信息。

在步骤S222中，将第二数量个目标概率中的最大概率值对应的片段内容评价信息确定为每一音频片段对应的片段内容评价信息；或，以第二数量个目标概率为权重系数，对与音频片段相关的第二数量个片段内容评价信息进行加权，得到每一音频片段对应的片段内容评价信息；其中，第一数量个音频片段对应第一数量个片段内容评价信息。

在步骤S223中，按照第二预设权重向量，对第一数量个片段内容评价信息进行融合，得到第一评价信息。

其中，第一数量个音频片段对应第一数量个片段内容评价信息。第二预设权重向量是多个音频片段音质检测结果的合并系数构成的向量，可选地，可以以加权平均的方式设置第二预设权重向量，也可以根据具体的目标音频信号设置第二预设权重向量，例如，可以将目标音频信号的首尾处的音频片段设置相对较小的权重系数，为中间的音频片段设置相对较大的权重系数，以减小音频录制起始噪音过大的影响。

具体地，对音频片段进行检测，得到与第二数量个目标类别相关的第二数量个片段内容评价信息，将第二数量个目标概率中的最大概率值对应的片段内容评价信息确定为每一音频片段对应的片段内容评价信息。或者，以第二数量个目标概率为权重系数，对与音频片段相关的第二数量个片段内容评价信息进行加权，得到每一音频片段对应的片段内容评价信息。例如，一个音频片段是音乐的概率为0.7，是语音的概率为0.2，是其他音频信号的概率为0.1，该音频片段在音乐层面的评价信息对应的分值为90，在语音层面的评价信息对应的分值为80，在其他层面的评价信息对应的分值为85。将第二数量个目标概率中的最大概率值对应的片段内容评价信息确定为每一音频片段对应的片段内容评价信息，则片段内容评价信息为最大概率0.7对应的分值90。而按照每一类别对应的概率将各类别的评价信息进行组合，得到片段内容评价信息对应的分值(0.7*90+0.2*80+0.1*85)。第一数量个音频片段对应第一数量个片段内容评价信息，最后按照第二预设权重向量，对第一数量个片段内容评价信息进行加权求和，得到第一评价信息。

上述示例性实施例中，对于每一音频片段，按照第二数量个目标类别，对音频片段进行检测，得到与第二数量个目标类别相关的第二数量个片段内容评价信息；将第二数量个目标概率中的最大概率值对应的片段内容评价信息确定为每一音频片段对应的片段内容评价信息；或，以第二数量个目标概率为权重系数，对与音频片段相关的第二数量个片段内容评价信息进行加权，得到每一音频片段对应的片段内容评价信息，按照第二预设权重向量，对第一数量个片段内容评价信息进行融合，得到第一评价信息。从而在更小的时间维度上对目标音频信号进行更为细致的检测，最终实现精确地对相应音频信号的音质进行界定的目的。

在一示例性实施例中，如图5所示，为步骤S300的一种可实施方式的流程图，包括以下步骤：

在步骤S310中，对目标音频信号对应的破音现象进行检测，得到对应的破音评价信息。

在步骤S320中，对目标音频信号对应的外录设备进行检测，得到对应的外录评价信息。

在步骤S330中，按照第三预设权重向量，对破音评价信息和外录评价信息进行融合，得到第二评价信息。

其中，破音现象是指当声音信号等级超过电子元件负载的上限，使得声音信号中的一部份被截除，造成发出的声音中存在杂音的现象。外录设备是指通过麦克风或者录音机自带的拾音设备，把声音信号传输到录音系统，再把声音信号录制在存储介质中的设备。这种录制方式可以方便地录制人声等多种声音信号，但是得到的音频信号容易受到外界干扰、声音信号容易失真。第三预设权重向量是破音评价信息与外录评价信息进行合并时的合并系数构成的向量，可选地，可以以加权平均的方式设置第三预设权重向量，也可以根据具体的破音评价信息与外录评价信息对音质的影像进行设置。

具体地，分别对目标音频信号对应的破音现象和外录设备进行检测，得到破音现象检测对应的破音评价信息和外录设备检测对应的外录评价信息。并按照第三预设权重向量，对破音评价信息和外录评价信息进行融合，得到第二评价信息。示例地，获取预先训练好的能够对破音现象和外录设备进行检测进行评价的评测网络，例如，可以用于破音现象评测的破音评测网络模型、可以用于外录设备评测的外录网络模型，将目标音频信号输入相应的网络评测模型，得到破音现象检测对应的破音评价信息和外录设备检测对应的外录评价信息。例如，该目标音频信号在破音层面的评价信息对应的分值为90、在外录层面的评价信息对应的分值为80，第三预设权重向量为(0.6,0.4)时，目标评价信息对应的分值为(90*0.6+80*0.4)。

上述示例性实施例中，对目标音频信号对应的破音现象进行检测，得到对应的破音评价信息，对目标音频信号对应的外录设备进行检测，得到对应的外录评价信息，如此可以在目标音频信号对应的具体采集设备对应的不同音质类别上有针对性地对目标音频信号进行检测。并按照第三预设权重向量，对破音评价信息和外录评价信息进行融合，以使得到的第二评价信息，能够更加全面和有针对性地对音频信号的采集设备产生的音质影响进行检测，为后续音频信号的音质评价提供基础。

在一示例性实施例中，如图6所示，为步骤S310的一种可实施方式的流程图，包括以下步骤：

在步骤S311中，按照第二时间长度对目标音频信号进行分割，得到第三数量个音频片段。

在步骤S312中，对于每一音频片段，对音频片段对应的破音程度进行检测，得到音频片段对应的破音评价信息；其中，第三数量个音频片段对应第三数量个片段破音评价信息。

在步骤S313中，按照第四预设权重向量，对第三数量个片段破音评价信息进行融合，得到破音评价信息。

其中，第二时间长度是指对音频信号进行划分的参考度量值，可选地，可以为1秒、10秒、20秒、1分钟不等，上述1秒、10秒、20秒、1分钟等时间长度仅为示例性说明，并不对第二时间长度进行具体限定。第四预设权重向量是第三数量个片段破音评价信息进行合并时的合并系数构成的向量，可选地，可以以加权平均的方式设置第四预设权重向量，也可以根据具体的目标音频信号设置第四预设权重向量，例如，可以将目标音频信号的首尾处的音频片段设置相对较小的权重系数，为中间的音频片段设置相对较大的权重系数，以减小音频录制起始噪音过大的影响。

具体地，按照第二时间长度对目标音频信号进行分割，得到第三数量个音频片段，例如，目标音频信号的长度为3分钟，以10秒为第一时间长度对目标音频信号进行分割，可以得到第二数量为18，长度为10秒的音频片段。对于每一10秒的音频片段，对音频片段对应的破音程度进行检测，得到音频片段对应的破音评价信息；其中，第三数量个音频片段对应第三数量个片段破音评价信息，每一破音评价信息对应一个权重系统，第三数量个片段破音评价信息对应一个第三数量维度的第四预设权重向量，按照第四预设权重向量，对第三数量个片段破音评价信息进行融合，得到破音评价信息。

上述示例性实施例中，按照第二时间长度对目标音频信号进行分割，得到第三数量个音频片段，对于每一音频片段，对音频片段对应的破音程度进行检测，得到音频片段对应的破音评价信息；其中，第三数量个音频片段对应第三数量个片段破音评价信息，按照第四预设权重向量，对第三数量个片段破音评价信息进行融合，得到破音评价信息。从而在更小的时间维度上对目标音频信号进行划分，使得后续能在更小的时间维度上对每一音频片段进行更为细致的检测，最终实现精确地对相应音频信号的音质进行界定的目的。

图7是根据一具体示例性实施例示出的一种音质检测系统的结构图，如图7所示，具体包括：

音质检测系统将对目标音频信号的质量的评估分为两部分：第一部分为内容相关的音质评估；第二部分为采集设备相关的音质评估。其中第一部分主要针对音频信号的不同内容进行判断，然后根据具体的类别进行具有针对性的打分。第二部分主要针对音频信号的采集设备，检测采集设备是否会引入相关的失真。

对于第一部分，首先通过对音频信号进行分类的深度学习网络，对输入的目标音频信号进行音乐、语音或其他(噪音及其他音频)等类型分类，并输出为目标音频信号中固定长度(如1秒输出一次结果)的音频片段对应的类别，例如，音乐、语音或其他种类的多个目标概率，多个目标概率的加和为1。在得到上述目标概率后，可以选择概率最高的分类进行后续打分过程。如分类为音乐，则对信号进行无参考的音乐质量打分(可以看作是其他类别的概率为0)。最后的得分即为概率最高的分类对应的无参考打分结果。在得到了这些概率之后，也可以将音频信号直接送入图7中三种打分网络进行检测，在得到结果后，最终的评分融合结果第一检测分值(第一评价信息)如公式(1)所示：

内容相关融合打分结果＝音乐概率*无参考音乐打分结果+语音概率*无参考语音打分结果+其他概率*频事件分类网络打分(1)

其中，音频事件分类网络旨在对非语音和音乐的音频信号进行是否为降低音频质量的噪声打分。如babble噪声、引擎噪声、飞机机舱中的低频噪声等声音均为有害噪声，对应低分；如鸟叫、流水声等声音为非有害噪声，对应高分。

对于网络的第二部分，即采集设备相关的音质评估，旨在评价内容无关的音质质量，主要指音频信号采集过程中产生的对音质损伤的部分。其中主要包括破音检测网络和外录检测网络。

破音检测网络将输入音频信号切分成如1秒为单位的信号，对于每一段音频信号进行是否破音的判断，根据涵盖破音信号的单位数(如60秒涵盖10)对音频信号的破音程度进行评价。外录检测网络设计的目的是判断待测音频信号是否为明显的低质量手机麦克风采集。低质量的手机麦克风采集的信号通常由于采集设备原因产生频率响应窄，信噪比低等现象，影响音质。外录检测网络判断输入信号是否为低质量麦克风采集的音频信号。破音检测和外录检测共同产生的融合打分(第二评价信息对应的分值)如公式(2)所示：

采集设备相关融合打分结果＝破音检测结果*破音检测权重+外录检测结果*无外录检测权重(2)

最终的融合结果(目标评价信息对应的分值)如公式(3)所示：

融合打分结果＝内容相关融合打分结果*内容相关融合打分权重+采集设备相关融合打分结果*采集设备相关融合打分权重(3)

该最终融合结果(目标评价信息对应的分值)能够精确地对相应的目标音频信号的音质进行评价，从而根据目标评价信息，确定目标音频信号的音质类别。

上述音质检测系统中，无需获取与目标音频信号对应的原始无损音频信号，便可实现对目标音频信号质量进行检测的目的，同时，用于评价目标音频信号音质的目标评价信息是基于目标音频信号本身的多维度属性得到的，能够全方位对目标音频信号进行检测，最终实现精确地对相应音频信号的音质进行界定的目的。

应该理解的是，虽然图1-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图8是根据一示例性实施例示出的一种音质检测装置的框图。参照图8，该装置包括音频信号获取单元801、第一分值检测单元802、第二分值检测单元803、目标评价信息确定单元804和音质检测单元805，具体包括：

音频信号获取单元801，被配置为执行获取目标音频信号；

第一分值检测单元802，被配置为执行检测目标音频信号对应的音频内容信号，得到与音频内容信号相关的第一评价信息；

第二分值检测单元803，被配置为执行检测目标音频信号对应的音频采集信号，得到与音频采集信号相关的第二评价信息；

目标评价信息确定单元804，被配置为按照第一预设权重向量对第一评价信息与第二评价信息进行融合，得到与目标音频信号对应的目标评价信息；其中，目标评价信息与目标音频信号的音质相关；

音质检测单元805，被配置为执行根据目标评价信息，确定目标音频信号的音质类别。

在一示例性实施例中，第一分值检测单元802还被配置为执行：对目标音频信号对应的音频内容信号进行分类，得到与音频内容信号对应的音频分类结果；按照音频分类结果，对目标音频信号进行检测，得到与音频内容信号相关的第一评价信息。

在一示例性实施例中，第一分值检测单元802还被配置为执行：按照第一时间长度对目标音频信号进行分割，得到第一数量个音频片段；对于每一音频片段，对音频片段对应的音频片段内容进行分类，得到与音频片段对应的第二数量个目标类别和音频片段为目标类别的目标概率；将每一音频片段对应的第二数量个目标类别和第二数量个目标概率，确定为音频分类结果。

在一示例性实施例中，第一分值检测单元802还被配置为执行：对于每一音频片段，按照第二数量个目标类别，对音频片段进行检测，得到与第二数量个目标类别相关的第二数量个片段内容评价信息；将第二数量个目标概率中的最大概率值对应的片段内容评价信息确定为每一音频片段对应的片段内容评价信息；或，以第二数量个目标概率为权重系数，对与音频片段相关的第二数量个片段内容评价信息进行加权，得到每一音频片段对应的片段内容评价信息；其中，第一数量个音频片段对应第一数量个片段内容评价信息；按照第二预设权重向量，对第一数量个片段内容评价信息进行融合，得到第一评价信息。

在一示例性实施例中，第二分值检测单元803还被配置为执行：对目标音频信号对应的破音现象进行检测，得到对应的破音评价信息；对目标音频信号对应的外录设备进行检测，得到对应的外录评价信息；按照第三预设权重向量，对破音评价信息和外录评价信息进行融合，得到第二评价信息。

在一示例性实施例中，第二分值检测单元803还被配置为执行：按照第二时间长度对目标音频信号进行分割，得到第三数量个音频片段；对于每一音频片段，对音频片段对应的破音程度进行检测，得到音频片段对应的破音评价信息；其中，第三数量个音频片段对应第三数量个片段破音评价信息；按照第四预设权重向量，对第三数量个片段破音评价信息进行融合，得到破音评价信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种用于音质检测的电子设备900的框图。例如，设备900可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图9，设备900可以包括以下一个或多个组件：处理组件902、存储器904、电力组件906、多媒体组件908、音频组件910、输入/输出(I/O)的接口912、传感器组件914以及通信组件916。

处理组件902通常控制设备900的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在设备900上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电源组件906为设备900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为设备900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当设备900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为设备900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为设备900的显示器和小键盘，传感器组件914还可以检测设备900或设备900一个组件的位置改变，用户与设备900接触的存在或不存在，设备900方位或加速/减速和设备900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件916被配置为便于设备900和其他设备之间有线或无线方式的通信。设备900可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(NFC)模块，以促进短程通信。

在示例性实施例中，设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由设备900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行上述方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音质检测方法，其特征在于，包括：

获取目标音频信号；

根据所述目标评价信息，确定所述目标音频信号的音质类别；

所述方法还包括：

按照第一时间长度对所述目标音频信号进行分割，得到第一数量个音频片段；对于每一所述音频片段，对所述音频片段对应的音频片段内容进行分类，得到与所述音频片段对应的第二数量个目标类别和所述音频片段为所述目标类别的目标概率；将每一所述音频片段对应的第二数量个目标类别和第二数量个目标概率，确定为音频分类结果，所述音频分类结果用于对所述目标音频信号进行检测，得到与所述音频内容信号相关的第一评价信息。

2.根据权利要求1所述的音质检测方法，其特征在于，所述检测所述目标音频信号对应的音频内容信号，得到与所述音频内容信号相关的第一评价信息，包括：

3.根据权利要求2所述的音质检测方法，其特征在于，所述按照所述音频分类结果，对所述目标音频信号进行检测，得到与所述音频内容信号相关的第一评价信息，包括：

4.根据权利要求1所述的音质检测方法，其特征在于，所述检测所述目标音频信号对应的音频采集信号，得到与所述音频采集信号相关的第二评价信息，包括：

5.根据权利要求4所述的音质检测方法，其特征在于，所述检测所述目标音频信号对应的音频采集信号，得到与所述音频采集信号相关的第二评价信息，包括：

6.一种音质检测装置，其特征在于，包括：

音频信号获取单元，被配置为执行获取目标音频信号；

目标评价信息确定单元，被配置为按照第二预设权重向量对所述第一评价信息与所述第二评价信息进行融合，得到与所述目标音频信号对应的目标评价信息；其中，所述目标评价信息与所述目标音频信号的音质相关；

音质检测单元，被配置为执行根据所述目标评价信息，确定所述目标音频信号的音质类别；

所述第一分值检测单元，还被配置为执行按照第一时间长度对所述目标音频信号进行分割，得到第一数量个音频片段；对于每一所述音频片段，对所述音频片段对应的音频片段内容进行分类，得到与所述音频片段对应的第二数量个目标类别和所述音频片段为所述目标类别的目标概率；将每一所述音频片段对应的第二数量个目标类别和第二数量个目标概率，确定为音频分类结果，所述音频分类结果用于对所述目标音频信号进行检测，得到与所述音频内容信号相关的第一评价信息。

7.根据权利要求6所述的音质检测装置，其特征在于，所述第一分值检测单元还被配置为执行：

8.根据权利要求7所述的音质检测装置，其特征在于，所述第一分值检测单元还被配置为执行：

9.根据权利要求6所述的音质检测装置，其特征在于，所述第二分值检测单元还被配置为执行：

10.根据权利要求9所述的音质检测装置，其特征在于，所述第二分值检测单元还被配置为执行：

11.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的音质检测方法。

12.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至5中任一项所述的音质检测方法。