CN111161759B

CN111161759B - 音频质量评价方法、装置、电子设备及计算机存储介质

Info

Publication number: CN111161759B
Application number: CN201911250828.1A
Authority: CN
Inventors: 顾成敏; 吴明辉; 方昕
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2022-12-06
Anticipated expiration: 2039-12-09
Also published as: CN111161759A

Abstract

本申请实施例提供了一种音频质量评价方法、装置、电子设备及计算机存储介质，通过获取传输音频数据；将所述传输音频数据输入第一质量评价模型，根据所述第一质量评价模型的输出确定整体置信度；若所述整体置信度大于或等于所述预设置信度阈值，则根据所述整体置信度确定所述传输音频数据的质量等级。可以对音频的整体质量、并结合置信度在无法判断音频的整体质量时结合音频的信号强度和信号干扰进行评价，鲁棒性较好，且结合神经网络可以大大提升音频质量评价的准确性。

Description

音频质量评价方法、装置、电子设备及计算机存储介质

技术领域

本申请涉及音频信号检测领域，特别是一种音频质量评价方法、装置、电子设备及计算机存储介质。

背景技术

随着技术的发展，声音作为人们沟通交流的重要媒介已经跨越了空间的限制，各种各样的音频传输技术层出不穷，当发送端发送音频后，由于音频在传输过程中可能会受到干扰等影响，最终接收端接收到的音频质量可能不是那么理想，为了保证用户的良好体验，对接收端接收到的音频质量进行监控必不可少。

现有的音频质量评价方法往往使用分类器，首先从不同人工的得分信号中提取出可区分的音频特征，如过零率、短时能量等，然后基于机器学习中的分类器，如高斯混合分类器、支持向量机等进行分类，上述方法在进行多类别打分时，鲁棒性较差，因此评价效果不理想。

发明内容

基于上述问题，本申请提出了一种音频质量评价方法、装置、电子设备及计算机存储介质，可以基于置信度对音频质量评价的结果进行再确认，大大提升了音频质量评价的准确性。

本申请实施例第一方面提供了一种音频质量评价方法，所述方法包括：

获取传输音频数据；

将所述传输音频数据输入第一质量评价模型，根据所述第一质量评价模型的输出确定整体置信度；

若所述整体置信度大于或等于所述预设置信度阈值，则根据所述整体置信度确定所述传输音频数据的质量等级。

本申请实施例第二方面提供了一种音频质量评价装置，所述装置包括处理单元和通信单元，所述处理单元用于：获取传输音频数据；将所述传输音频数据输入第一质量评价模型，根据所述第一质量评价模型的输出确定整体置信度；若所述整体置信度大于或等于所述预设置信度阈值，则根据所述整体置信度确定所述传输音频数据的质量等级。

本申请实施例第三方面提供了一种电子设备，包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如本申请实施例第一方面任一方项所描述的步骤的指令。

本申请实施例第四方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如本申请实施例第一方面任一项所描述的方法。

本申请实施例第五方面提供了一种计算机产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

通过实施上述申请实施例，可以得到以下有益效果：

上述音频质量评价方法、装置、电子设备及计算机存储介质，通过获取传输音频数据；将所述传输音频数据输入第一质量评价模型，根据所述第一质量评价模型的输出确定整体置信度；若所述整体置信度大于或等于所述预设置信度阈值，则根据所述整体置信度确定所述传输音频数据的质量等级。可以对音频的整体质量、并结合置信度在无法判断音频的整体质量时结合音频的信号强度和信号干扰进行评价，鲁棒性较好，且结合神经网络可以大大提升音频质量评价的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的音频质量评价方法的系统架构图；

图2为本申请实施例提供的一种音频质量评价方法的流程示意图；

图3为本申请实施例提供的一种音频质量评价体系的示意图；

图4为本申请实施例提供的另一种音频质量评价方法的流程示意图；

图5为本申请实施例提供的一种电子设备的结构示意图；

图6为本申请实施例提供的一种音频质量评价装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的电子设备可以是具备通信能力的电子设备，该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(terminal device)等等。

下面结合图1对本申请实施例中音频质量评价方法的系统架构作详细说明，图1为本申请实施例提供的音频质量评价方法的系统架构图，包括音频获取装置110、服务器120以及音频评价输出单元130，其中，上述音频获取装置110可以包括麦克风阵列等，用于获取音频数据，上述服务器120可以与上述音频获取装置110、上述音频质量评价单元130有线或无线连接，上述音频评价输出单元130可以包括以多种形式输出音频质量评价，如采用电子版文本显示，则上述音频评价输出单元130可以为具备显示功能的屏幕，如采用语音提示，则上述音频评价输出单元130可以为发声元件，在此不做具体限定。

具体的，上述音频获取装置110可以获取到接收终端接收到的传输音频以及发送终端发送的原始音频，并将上述传输音频和上述原始音频发送至上述服务器120，上述服务器可以根据内置的相关算法以及训练好的相关神经网络模型对上述传输音频的音频质量进行评价，得到上述传输音频的质量等级，并将上述质量等级的结果通过上述音频评价输出单元130来展示。

通过上述系统架构，可以对音频的整体质量、并结合置信度在无法判断音频的整体质量时结合音频的信号强度和信号干扰进行评价，鲁棒性较好，且结合神经网络可以大大提升音频质量评价的准确性。

下面结合图2对本申请实施例中的一种音频质量评价方法作详细说明，图2为本申请实施例提供的一种音频质量评价方法的流程示意图，具体包括以下步骤：

步骤201，获取传输音频数据。

其中，上述传输音频数据可以为接收终端接收到的音频数据，上述接收终端可以是任意具备音频信号接收功能的终端，举例来说，如果初始的发送的音频数据为广播音数据，那么上述传输音频数据可以为任意终端接收到的任意一段广播音数据，因为初始的发送的音频数据在传输过程中可能会出现损失或者干扰，所以对上述传输音频数据的质量评价十分重要。

步骤202，将所述传输音频数据输入第一质量评价模型，根据所述第一质量评价模型的输出确定整体置信度。

其中，上述第一质量评价模型为预先训练好的整体质量评价模型，用于对上述传输音频数据的整体质量进行评价，需要说明的是，将上述传输音频数据输入第一质量评价模型之后，通过第一质量评价模型的输出得到该传输音频数据的每个质量分数对应的置信度并将其记为整体置信度，筛选出全部质量分数中置信度大于预设置信度阈值的质量分数作为上述第一质量分数，为了便于描述，在上述整体置信度大于或等于预设置信度阈值时，上述第一质量分数可以用于表示上述传输音频数据的整体质量，并将第一质量分数对应的置信度记为第一置信度，用于表示上述第一质量评价模型的判断结果的准确度。

具体地，上述预设置信度阈值可以用于表示上述整体置信度的可靠程度，若上述整体置信度大于或等于上述预设置信度阈值，则可以认为上述整体置信度是可靠的，可以直接执行步骤203；若上述整体置信度小于上述预设置信度阈值，则可以认为上述整体置信度并不可靠，需要进一步执行另外的方法步骤，在后续进行说明，此处不再赘述。举例来说，可以将上述预设置信度阈值设定为0.8，上述置信度可以表示可能性概率，在本申请的该例子中，整体置信度中值为0.8及以上就可以认为其准确率大于或等于80％，可以执行步骤203的方法。需要说明的是，上述预设置信度阈值可以根据情况灵活变动，在此不做具体限定。通过判断所述整体置信度是否大于或等于预设置信度阈值，可以将置信度比较高的音频质量评价直接输出，提升音频质量评价的效率。

需要说明的是，上述第一质量评价模型可以包括第一输入层、第一特征处理层、第一全连接层和第一输出层，上述“第一”仅用于从命名上进行区分，上述第一输入层可以提取上述传输音频数据的特征信息和信号与干扰加信噪比(Signal to Interference plusNoise Ratio，SINR)信息，上述特征信息可以包括64维的滤波器组(Filter Bank，FBank)特征信息，提取SINR和FBank之后可以将其拼接为输入向量，具体的，可以基于公式得到上述输入向量：

V_input＝[V_fb:SINR]

上述V_input表示输入向量，上述V_fb表示FBank特征。

接着，将上述输入向量V_input输入上述第一特征处理层，上述第一特征处理层可以根据上述输入向量V_input得到特征向量fb_voice，具体的，上述第一特征处理层的结构可以包括双向长短期记忆网络(Long Short-Term Memory，LSTM)和注意力(Attention)层，首先可以通过双向LSTM对上述输入向量进行编码处理，获取到上述输入向量的前向隐层表示和后向隐层表示，并将上述前向隐层表示和后向隐层表示拼接以表示上述传输音频数据的整体特征，之后上述Attention层可以将上述整体特征融合生成上述特征向量fb_voice并输出到上述第一全连接层。

之后，上述第一全连接层可以根据上述特征向量fb_voice确定质量分数类别数据，上述质量分数类别数据可以包括全部质量分数的类别，以及每种类别对应的置信度，并将上述质量分数类别数据输入上述第一输出层。

最后，上述第一输出层可以根据上述质量分数类别数据确定上述整体质量分数以及上述整体置信度，具体的，上述第一输出层可以包括softmax分类器，通过该softmax分类器确定上述传输音频数据的全部质量分数类别以及对应的置信度，举例来说，该softmax分类器可以将质量分数设定为“1分、2分、3分、4分、5分”，若此时得到1分的置信度为0.9，2分的置信度为0.3，3分的置信度为0.1，4分的置信度为0.1，5分的置信度为0.1，预设置信度阈值为0.5，可以筛选出第一质量分数为1分，第一置信度为0.9。

通过将所述传输音频数据输入第一质量评价模型，根据所述第一质量评价模型的输出确定整体置信度，再根据整体置信度确定第一质量分数，可以利用训练好的神经网络模型输出准确的整体质量评价，提升音频质量评价的效率。

步骤203，根据所述整体置信度确定所述传输音频数据的质量等级。

其中，若所述整体置信度大于或等于所述预设置信度阈值，执行本步骤。可以将上述第一质量分数转化为信号强度分数和干扰噪声分数，如第一质量分数为1分，则此时信号强度分数和干扰噪声分数也为1分，结合图3可以确定上述传输音频数据的质量等级，图3为本申请实施例提供的一种音频质量评价体系的示意图，该音频质量评价体系为SIO评价体系，S代表信号强度(signal strength)，I代表干扰噪声(interference)，O代表总评(overall rating)，并且用五个等级来表示传输音频数据的质量等级：优良(5分)、较好(4分)、中等(3分)、较差(2分)、不能收听(1分)。需要说明的是，此处的评分仅仅是一种可能，并不构成对本申请的限定，可以根据情况设定不同的分数等级，在此不做具体限定。

通过上述方法，可以在第一质量评价模型输出的每个质量分数所对应的置信度大于预设置信度阈值时，直接得到质量等级，无需再进行其余的判定，大大提升了音频质量评价的效率。

下面结合图4对本申请实施例中的另一种音频质量评价方法作详细说明，图4为本申请实施例提供的另一种音频质量评价方法的流程示意图，具体包括以下步骤：

步骤401，获取传输音频数据。

步骤402，将所述传输音频数据输入第一质量评价模型，根据所述第一质量评价模型的输出确定整体置信度。

其中，若上述整体置信度大于或等于上述预设置信度阈值，则执行步骤403；若上述整体置信度小于上述预设置信度阈值，则执行步骤404的方法。

步骤403，根据所述整体置信度确定所述传输音频数据的质量等级。

步骤404，获取原始音频数据。

其中，首先，可以根据上述传输音频数据得到原始音频数据，具体的，可以定位到上述传输音频数据的起始时间戳，若上述传输音频数据的时长为t_a，则可以截取上述起始时间戳前的t_b时长的片段作为原始音频数据，上述t_b需要大于传输延迟，可以等于若干个t_a，在此不做具体限定。

步骤405，根据传输音频指纹特征和原始音频指纹特征确定音频匹配数据。

其中，可以根据音频相似度匹配算法Shazam提取上述传输音频数据的传输音频指纹特征和上述原始音频数据的原始音频指纹特征，上述传输音频指纹特征和上述原始音频指纹特征可以为多个指纹哈希记录，具体的，可以对上述传输音频数据和上述原始音频数据进行快速傅里叶变换(Fast Fourier Transform，FFT)，分别从上述传输音频数据和上述原始音频数据中各选取一个或多个频率峰值点作为传输基准峰值点和原始基准峰值点，每个传输基准峰值点可以对应上述传输音频数据的一个区域，每个原始基准峰值点也可以对应上述原始音频数据的一个区域，每个区域一般包括20～30个频率峰值点，上述传输音频数据和上述原始音频数据可以包括多个区域，上述每个传输基准峰值点和对应区域内的每个传输频率峰值点都构成一个传输音频点对，上述原始基准峰值点和对应区域内的每个原始频率峰值点都构成一个原始音频点对，根据上述传输音频点对和上述原始音频点对的频率和时间差，可以分别构成上述传输音频数据和上述原始音频数据的指纹哈希记录，以任意一个基准峰值点和对应区域内的任意一个频率峰值点构成的点对进行举例说明，假设一对点对为

和

上述

和

分别表示上述基准峰值点和对应区域的频率峰值点的时间和频率，可以根据

构建一个指纹哈希记录{hash_key}:(value)，上述hash_key可以对L的字符串进行哈希编码来得到，上述value为基准峰值点的时间戳t₁。

进一步的，在获取到上述传输音频数据和上述原始音频数据的全部指纹哈希记录后，可以确定音频对特征，并根据上述音频对特征确定上述音频匹配数据，上述音频匹配数据可以包括匹配置信度和发送音频数据，上述匹配置信度包括在对应区域内的最大的音频指纹匹配数目，并将其记为匹配置信度，用于表示音频对相似程度的置信度，上述匹配步骤主要是根据上述指纹哈希记录来判断的，举例来说，若上述传输音频数据的一个指纹哈希记录为{hash_key1}:(value1)，上述原始音频数据的一个指纹哈希记录为{hash_key2}:(value2)，可以构建音频对特征：

{hash_key1}:(value1-value2),if hash_key1＝hash_key2

将符合上述公式且满足时间差的对应区域内最多的音频指纹的数目作为上述匹配置信度，同时，可以将value2作为上述原始音频数据的起始时间戳，截取value2之后的t_a时长的音频可以得到发送音频数据。

可见，根据传输音频指纹特征和原始音频指纹特征确定音频匹配数据，可以判断传输音频数据和原始音频数据是否是不同传输阶段的同一个音频数据，降低第一质量评价模型的判断出现错误导致无法进行音频质量评价的概率，并为整体置信度较低时的情况提供兜底方案，提升了音频质量评价的准确性。

步骤406，判断匹配置信度是否大于或等于所述预设置信度阈值。

其中，若所述匹配置信度大于或等于所述预设置信度阈值，则执行步骤407；若所述匹配置信度小于所述预设置信度阈值，则执行步骤408的方法。

步骤407，根据整体置信度和所述音频匹配数据确定所述传输音频数据的质量等级。

其中，上述匹配置信度大于或等于上述预设置信度阈值时，说明上述传输音频数据和上述原始音频数据为传输阶段不同的同一音频数据，可以直接根据上述整体置信度确定上述传输音频数据的质量等级，在此不再赘述。

步骤408，将所述传输音频数据、所述发送音频数据以及整体置信度输入第二质量评价模型，根据所述第二质量评价模型的输出确定所述传输音频数据的质量等级。

其中，上述第二质量评价模型为预先训练好的音频质量评价模型，用于对上述传输音频数据的质量进行综合评价，需要说明的是，可以根据上述传输音频数据、上述发送音频数据以及上述整体置信度得到该传输音频数据的每个质量分数对应的得分置信度，筛选出全部质量分数中得分置信度大于预设置信度阈值的质量分数作为第二质量分数，上述第二质量分数可以用于表示上述传输音频数据的综合质量。需要说明的是，这里的预设置信度阈值和第一质量评价模型中的并不一定是相同的值，具体大小可以根据需要分别自行设定。

其中，上述第二质量评价模型可以包括第二输入层、第二特征处理层、第二全连接层和第二输出层，上述“第二”仅用于从命名上进行区分，上述第二输入层可以提取上述传输音频数据和上述发送音频数据的64维的Fbnak特征V_fb、39维的梅尔倒谱系数(Mel-Frequency Cepstral Coefficients，Mfcc)特征V_mfcc，以及归一化的主观语音质量(Perceptual evaluation of speech quality，PESQ)评分和归一化的整体置信度对应的整体质量分数SCORE_single，将上述特征进行拼接得到向量化表示的语音帧数据：

V_input＝[V_fb:V_mfcc:PESQ:SCORE_single]

上述PESQ＝PESQ/4.5，上述SCORE_single＝SCORE_single/5。

接着，将上述语音帧特征输入上述第二特征处理层，上述第二特征处理层的结构可以为孪生双向BI-LSTM网络和Attention层组成的深度网络模型，上述第二特征处理层可以对上述语音帧数据进行处理得到上述传输音频的整体特征fb_send和fb_receive，并对这两个整体特征进行合并，生成fb_send-concat和fb_{receive-concat}。

之后，可以将上述fb_send-concat和上述fb_{receive-concat}输入第二全连接层，上述第二全连接层可以输出评价分数类别数据，具体的，上述第二全连接层可以将上述fb_send-concat和上述fb_{receive-concat}拼接为特征fb_concat，之后对上述fb_concat进行空间上的仿射变换，得到上述评价分数类别数据。

最后，上述第二输出层可以根据上述评价分数类别数据确定第二质量分数，并根据第二质量分数确定信号强度S分数以及干扰噪声I分数，之后可以确定上述传输音频数据的质量等级，在此不再赘述。

上述未详细说明的步骤可以参见图2中所描述的方法，在此不再赘述。

通过上述方法，可以对音频的整体质量、并结合置信度在无法判断音频的整体质量时结合音频的信号强度和信号干扰进行评价，鲁棒性较好，且结合神经网络可以大大提升音频质量评价的准确性。

下面结合图5对本申请实施例中一种电子设备500进行说明，图5为本申请实施例提供的一种电子设备500的结构示意图，包括应用处理器501、通信接口502和存储器503，所述应用处理器501、通信接口502和存储器503通过总线504相互连接，总线504可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。总线504可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。其中，所述存储器503用于存储计算机程序，所述计算机程序包括程序指令，所述应用处理器501被配置用于调用所述程序指令，执行以下步骤的方法：

获取传输音频数据；

在一个可能的示例中，所述第一质量评价模型包括第一输入层、第一特征处理层、第一全连接层和第一输出层，在所述将所述传输音频数据输入第一质量评价模型，根据所述第一质量评价模型的输出确定所述第一质量分数和所述整体置信度方面，所述程序中的指令具体用于执行以下操作：将所述传输音频数据的特征信息和信干噪比信息输入所述第一输入层，根据所述第一输入层的输出得到输入向量；

将所述输入向量输入所述第一特征处理层，根据所述第一特征处理层的输出确定特征向量；

将所述特征向量输入所述第一全连接层，根据所述第一全连接层的输出确定质量分数类别数据；

将所述质量等级类别数据输入所述第一输出层，根据所述第一输出层的输出确定所述整体置信度。

在一个可能的示例中，所述程序中的指令具体还用于执行以下操作：若所述整体置信度小于所述预设置信度阈值，则获取原始音频数据；

根据所述传输音频数据确定传输音频指纹特征，以及，根据所述原始音频数据确定原始音频指纹特征；

根据所述传输音频指纹特征和所述原始音频指纹特征确定音频匹配数据，所述音频匹配数据包括匹配置信度和发送音频数据；

判断所述匹配置信度是否大于或等于所述预设置信度阈值；

若所述匹配置信度大于或等于所述预设置信度阈值，则根据所述整体置信度和所述音频匹配数据确定所述传输音频数据的质量等级。

在一个可能的示例中，在所述传输音频数据包括起始时间戳，所述若所述第一置信度小于所述预设置信度阈值，则获取原始音频数据方面，所述程序中的指令具体用于执行以下操作：获取所述起始时间戳前预设时长的原始音频数据，所述预设时长大于传输延迟。

在一个可能的示例中，所述传输音频指纹特征包括传输频率特征，所述原始音频指纹特征包括原始频率特征；在所述根据所述传输音频指纹特征和所述原始音频指纹特征确定音频匹配数据方面，所述程序中的指令具体用于执行以下操作：获取所述传输频率特征中每个传输频率峰值点的传输时间戳，以及，获取所述原始频率特征中每个原始频率峰值点的原始时间戳；

将所述传输频率峰值点与所述原始频率峰值点进行匹配，确定匹配音频指纹数，所述匹配音频指纹数用于表示所述匹配置信度；

根据所述匹配指纹数、所述传输时间戳和所述原始时间戳确定所述发送音频数据。

在一个可能的示例中，在所述判断所述匹配置信度是否大于或等于所述预设置信度阈值之后方面，所述程序中的指令具体还用于执行以下操作：若所述匹配置信度小于所述预设置信度阈值，则将所述传输音频数据、所述发送音频数据以及所述整体置信度输入第二质量评价模型，根据所述第二质量评价模型的输出确定所述传输音频数据的质量等级。

在一个可能的示例中，所述第二质量评价模型包括第二输入层、第二特征处理层、第二全连接层和第二输出层，在所述将所述传输音频数据、所述发送音频数据以及所述整体置信度输入第二质量评价模型，根据所述第二质量模型的输出确定所述传输音频数据的质量等级方面，所述程序中的指令具体用于执行以下操作：将所述传输音频数据、所述发送音频数据和所述整体置信度输入所述第二输入层，根据所述第二输入层的输出得到语音帧数据；

将所述语音帧数据输入所述第二特征处理层，根据所述第二特征处理层的输出得到传输音频特征和发送音频特征；

将所述传输音频特征和所述发送音频特征输入所述第二全连接层，根据所述第二全连接层的输出得到评价分数类别数据；

将所述评价分数类别数据输入所述第二输出层，根据所述第二输出层的输出确定所述传输音频数据的质量等级。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图6是本申请实施例提供的一种音频质量评价装置600的功能单元组成框图。所述音频质量评价装置600应用于电子设备，包括处理单元601、通信单元602和存储单元603，其中，所述处理单元601，用于执行如上述方法实施例中的任一步骤，且在执行诸如发送等数据传输时，可选择的调用所述通信单元602来完成相应操作。下面进行详细说明。

所述处理单元601，用于获取传输音频数据；

在一个可能的示例中，所述第一质量评价模型包括第一输入层、第一特征处理层、第一全连接层和第一输出层，在所述将所述传输音频数据输入第一质量评价模型，根据所述第一质量评价模型的输出确定所述整体置信度方面，所述处理单元601具体用于：将所述传输音频数据的特征信息和信干噪比信息输入所述第一输入层，根据所述第一输入层的输出得到输入向量；

在一个可能的示例中，所述处理单元601具体还用于：若所述整体置信度小于所述预设置信度阈值，则获取原始音频数据；

判断所述匹配置信度是否大于或等于所述预设置信度阈值；

在一个可能的示例中，在所述传输音频数据包括起始时间戳，所述若所述整体置信度小于所述预设置信度阈值，则获取原始音频数据方面，所述处理单元601具体用于：获取所述起始时间戳前预设时长的原始音频数据，所述预设时长大于传输延迟。

在一个可能的示例中，所述传输音频指纹特征包括传输频率特征，所述原始音频指纹特征包括原始频率特征；在所述根据所述传输音频指纹特征和所述原始音频指纹特征确定音频匹配数据方面，所述处理单元601具体用于：获取所述传输频率特征中每个传输频率峰值点的传输时间戳，以及，获取所述原始频率特征中每个原始频率峰值点的原始时间戳；

在一个可能的示例中，在所述判断所述匹配置信度是否大于或等于所述预设置信度阈值之后方面，所述处理单元601具体还用于：若所述匹配置信度小于所述预设置信度阈值，则将所述传输音频数据、所述发送音频数据以及所述整体置信度输入第二质量评价模型，根据所述第二质量评价模型的输出确定所述传输音频数据的质量等级。

在一个可能的示例中，所述第二质量评价模型包括第二输入层、第二特征处理层、第二全连接层和第二输出层，在所述将所述传输音频数据、所述发送音频数据以及所述整体置信度输入第二质量评价模型，根据所述第二质量模型的输出确定所述传输音频数据的质量等级方面，所述处理单元601具体用于：将所述传输音频数据、所述发送音频数据和所述整体置信度输入所述第二输入层，根据所述第二输入层的输出得到语音帧数据；

将所述评价分数类别数据输入所述第二输出层，根据所述第二输出层的输出的第二质量分数确定给所述传输音频数据的质量等级。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频质量评价方法，其特征在于，所述方法包括：

获取传输音频数据；

若所述整体置信度小于预设置信度阈值，则获取原始音频数据；

根据所述传输音频数据和所述原始音频数据确定音频匹配数据，所述音频匹配数据包括匹配置信度；

2.根据权利要求1所述的方法，其特征在于，所述第一质量评价模型包括第一输入层、第一特征处理层、第一全连接层和第一输出层，所述将所述传输音频数据输入第一质量评价模型，根据所述第一质量评价模型的输出确定整体置信度，包括：

将所述传输音频数据的特征信息和信干噪比信息输入所述第一输入层，通过所述第一输入层对所述特征信息和所述信干噪比信息进行拼接得到输入向量；

将所述质量分数类别数据输入所述第一输出层，根据所述第一输出层的输出确定所述整体置信度。

3.根据权利要求1或2所述的方法，其特征在于，所述音频匹配数据还包括发送音频数据；所述根据所述传输音频数据和所述原始音频数据确定音频匹配数据，包括：

根据所述传输音频指纹特征和所述原始音频指纹特征确定所述匹配置信度和所述发送音频数据。

4.根据权利要求3所述的方法，其特征在于，所述传输音频数据包括起始时间戳，所述若所述整体置信度小于所述预设置信度阈值，则获取原始音频数据，包括：

获取所述起始时间戳前预设时长的原始音频数据，所述预设时长大于传输延迟。

5.根据权利要求3所述的方法，其特征在于，所述传输音频指纹特征包括传输频率特征，所述原始音频指纹特征包括原始频率特征；所述根据所述传输音频指纹特征和所述原始音频指纹特征确定音频匹配数据，包括：

获取所述传输频率特征中每个传输频率峰值点的传输时间戳，以及，获取所述原始频率特征中每个原始频率峰值点的原始时间戳；

根据所述匹配音频指纹数、所述传输时间戳和所述原始时间戳确定所述发送音频数据。

6.根据权利要求3所述的方法，其特征在于，所述根据所述传输音频数据和所述原始音频数据确定音频匹配数据之后，所述方法还包括：

若所述匹配置信度小于所述预设置信度阈值，则将所述传输音频数据、所述发送音频数据以及所述整体置信度输入第二质量评价模型，根据所述第二质量评价模型的输出确定所述传输音频数据的质量等级。

7.根据权利要求6所述的方法，其特征在于，所述第二质量评价模型包括第二输入层、第二特征处理层、第二全连接层和第二输出层，所述将所述传输音频数据、所述发送音频数据以及所述整体置信度输入第二质量评价模型，根据所述第二质量评价模型的输出确定所述传输音频数据的质量等级，包括：

将所述传输音频数据、所述发送音频数据和所述整体置信度输入所述第二输入层，根据所述第二输入层的输出得到语音帧数据；

8.根据权利要求1所述的方法，其特征在于，所述将所述传输音频数据输入第一质量评价模型，根据所述第一质量评价模型的输出确定整体置信度之后，所述方法还包括：

9.一种音频质量评价装置，其特征在于，所述装置包括处理单元和通信单元，所述处理单元用于：获取传输音频数据；将所述传输音频数据输入第一质量评价模型，根据所述第一质量评价模型的输出确定整体置信度；若所述整体置信度小于预设置信度阈值，则获取原始音频数据；根据所述传输音频数据和所述原始音频数据确定音频匹配数据，所述音频匹配数据包括匹配置信度；若所述匹配置信度大于或等于所述预设置信度阈值，则根据所述整体置信度和所述音频匹配数据确定所述传输音频数据的质量等级。

10.一种电子设备，其特征在于，包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1~8任一项所述的方法中的步骤的指令。

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1~8任一项所述的方法。