CN103957216B

CN103957216B - 基于音频信号特性分类的无参考音频质量评价方法和系统

Info

Publication number: CN103957216B
Application number: CN201410196690.2A
Authority: CN
Inventors: 胡瑞敏; 杨玉红; 王衍业; 谢松波; 董少龙; 余洪江; 高丽; 王晓晨; 涂卫平; 高戈
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2014-05-09
Filing date: 2014-05-09
Publication date: 2017-10-03
Anticipated expiration: 2034-05-09
Also published as: CN103957216A

Abstract

本发明提供了一种基于音频信号特性分类的无参考音频质量评价方法和系统，包括步骤：步骤1，基于有参考音频质量评价模型建立训练模型，采用机器学习获取不同类型音频信号的音频质量与网络参数的关系，即无参考音频质量评价模型；步骤2，在音频信号网络传输中，将当前丢包率、当前延迟时间和当前丢包数据的音频信号类型输入无参考音频质量评价模型，获得当前音频质量。本发明对不同类型信号采用不同的质量评价关系式进行质量评价，能更真实地反映用户体验。

Description

基于音频信号特性分类的无参考音频质量评价方法和系统

技术领域

本发明涉及音频质量评价领域，尤其涉及一种基于音频信号特性分类的无参考音频质量评价方法和系统。

背景技术

随着人们生活质量提高，人们对音频有了更高、更多样化的需求，手机上移动音频点播、音频信息和音乐这样的移动音频服务正在快速增长，为了保证用户在音频服务上的良好体验，音频质量评价必不可少。音频质量评价分为主观质量评价和客观质量评价，主观质量评价虽然更能反映用户体验，但是费时、费力，也不适合实时传输，实际应用中往往采用客观质量评价。客观质量评价又分为有参考质量评价和无参考质量评价，有参考质量评价需要原始音作为参考，能够较为准确预测音频质量，但是实际通信时，特别是移动通信环境下，原始音往往不能够获得，此时，就需要无参考质量评价。

现有的无参考音频质量评价都是通过统计网络参数获得，如丢包和延迟，最有代表性的是E-Model模型，但是均未考虑用户对不同类型音频信号感知失真的差异性。

发明内容

针对现有技术存在的不足，本发明提出了一种基于音频信号特性分类的无参考音频质量评价方法和系统，本发明方法和系统考虑了用户对不同类型音频信号感知失真的差异性，可更真实的反应用户体验。

为解决上述问题，本发明采用如下的技术方案：

一、音频信号特性分类的无参考音频质量评价方法，包括步骤：

步骤1，基于有参考音频质量评价模型建立训练模型，采用机器学习获取不同类型音频信号的音频质量与网络参数的关系，即无参考音频质量评价模型，所述的网络参数包括延迟时间和丢包率；

步骤2，在音频信号网络传输中，将当前丢包率、当前延迟时间和当前丢包数据的音频信号类型输入无参考音频质量评价模型，获得当前音频质量。

步骤1进一步包括子步骤：

1.1将原始音经编码、丢包、解码后得到降质音频，利用有参考音频质量评价模型对降质音频进行质量评价得到客观质量得分MOS；

1.2将降质音频延迟产生延迟损伤，在客观质量得分MOS上减去延迟损伤Id，得到音频质量MOSc；

1.3以音频质量MOSc为目标，以延迟时间、丢包率、音频信号类型为输入，通过机器学习方式获得不同类型音频信号的音频质量与网络参数的关系，即无参考音频质量评价模型。

步骤2进一步包括子步骤：

2.1采用不同编码模式分别对不同类型音频信号进行编码获得音频编码信息；

2.2对音频编码信息进行解码，并统计当前丢包率和当前延迟时间，恢复丢包数据的编码模式，获取当前丢包数据的音频信号类型；

2.3将当前丢包率、当前延迟时间和当前丢包数据的音频信号类型输入无参考音频质量评价模型，获得当前音频质量MOSc。

上述音频信号特性分类的无参考音频质量评价方法还包括步骤：

根据当前音频质量调整延迟时间和编码码率，使当前音频质量取最大值。

二、一种音频信号特性分类的无参考音频质量评价系统，包括：

训练模块，基于有参考音频质量评价模型建立训练模型，采用机器学习获取不同类型音频信号的音频质量与网络参数的关系，即无参考音频质量评价模型，所述的网络参数包括延迟时间和丢包率；

质量评价模块，用来在音频信号网络传输中，将当前丢包率、当前延迟时间和当前丢包数据的音频信号类型输入无参考音频质量评价模型，获得当前音频质量。

上述训练模块进一步包括子模块：

有参考音频质量评分模块，用来将原始音经编码、丢包、解码后得到降质音频，利用有参考音频质量评价模型对降质音频进行质量评价得到客观质量得分MOS；

音频质量评分模块，用来将降质音频延迟产生延迟损伤，在客观质量得分MOS上减去延迟损伤Id，得到音频质量MOSc；

机器学习模块，用来以音频质量MOSc为目标，以延迟时间、丢包率、音频信号类型为输入，通过机器学习方式获得不同类型音频信号的音频质量与网络参数的关系，即无参考音频质量评价模型。

上述质量评价模块进一步包括子模块：

编码模块，用来采用不同编码模式分别对不同类型音频信号进行编码获得音频编码信息；

网络参数和音频信号类型获得模块，用来对音频编码信息进行解码，并统计当前丢包率和当前延迟时间，恢复丢包数据的编码模式，获取当前丢包数据的音频信号类型；

质量评价模块，用来将当前丢包率、当前延迟时间和当前丢包数据的音频信号类型输入无参考音频质量评价模型，获得当前音频质量MOSc。

上述音频信号特性分类的无参考音频质量评价系统，还包括网络参数调整模块，用来根据当前音频质量调整延迟时间和编码码率，使当前音频质量取最大值。

本发明根据音频信号特性对音频信号进行分类，基于有参考音频质量评价模型，通过机器学习方式训练适用于不同类型音频信号的无参考音频质量评价模型，采用无参考音频质量评价模型对不同类型音频信号质量进行评价。

本发明可应用于音频网络传输，通过统计丢包数据的丢包率、延迟时间和类型，采用无参考音频质量评价模型对音频质量进行评价，并实时反馈音频质量，自适应调节网络参数，给用户最好的感知体验。

与现有技术相比，本发明具有如下有益效果：

现有无参考音频质量评价模型一般通过统计网络参数(主要包括丢包率和延迟时间)来评价音频质量，但未按照音频信号特性对音频信号进行分类。同种网络条件下，丢包和延迟对瞬变信号和稳态信号造成的影响明显不同。本发明则根据音频信号特性对音频信号进行分类，对不同类型信号采用不同的关系式进行质量评价，能更真实地反映用户体验。

附图说明

图1是训练不同类型音频信号的无参考音频质量评价模型的框图；

图2是本发明无参考音频质量评价模型在音频网络传输中的应用框图。

具体实施方式

本发明可应用于音频网络传输中对音频质量进行评价，通过统计网络传输中丢包数据的丢包率和延迟时间，根据音频信号特性分类，将丢包率和延迟时间送入无参考音频质量评价模块，获得感知音频质量。

以AVS-P10为例，AVS-P10根据音频信号特性将音频信号分为语音信号、瞬变音乐信号、暂稳态音乐信号和稳态音乐信号四类信号，分别用ACELP256、TVC256、TVC512、TVC1024编码模式进行编码，接收端通过编码模式对音频信号进行分类，对于不同编码模式下的丢包，采用对应的关系式获得感知音频质量。

下面结合附图进一步说明本发明的具体实施方式。

见图1，利用有参考音频质量评价模型训练无参考音频质量评价模型的参数，本具体实施中采用的有参考音频质量评价模型为基于用户关注度和抖动失真的PEAQ客观质量评价模型。无参考音频质量评价模型参数训练的具体步骤如下：

首先，将原始音经编码、丢包、解码后得到降质音频，利用有参考音频质量评价模型对降质音频进行质量评价得到客观质量得分MOS(Mean Opinion Score)。

接着，将降质音频延迟产生一个延迟损伤Id，由于有参考音频质量评价模型不含延迟损伤，而实际音频网络传输中必然存在延迟损伤，所以在客观质量得分MOS基础上减去延迟损伤Id，得到音频质量MOSc。

最后，以音频质量MOSc为目标，以延迟时间d、丢包率p、音频信号类型mod为输入，通过机器学习方式，训练神经网络模型，得到不同类型音频信号质量受丢包率和延迟时间影响的关系式：MOSc＝f(d,p,mod)，即构成无参考音频质量评价模型。本步骤中，将训练样本的丢包率、延迟时间、音频信号类型和音频质量MOSc输入神经网络模型，即可直接获得无参考音频质量评价模型。

见图2，将训练的无参考音频质量评价模型应用于音频网络传输，发送端采用不同编码模式分别对不同类型音频信号进行编码获得音频编码信息。音频编码信息经网络传输到接收端，首先，经过缓冲区，利用常规技术对音频编码信息进行去抖动、根据时间戳对数据包重排序、统计丢包率和延迟时间；然后，经解码器进行解码，并恢复丢包数据的编码模式，从而获取丢包数据的音频信号类型；然后，将当前丢包数据的音频信号类型、当前丢包数据的丢包率和延迟时间传入无参考音频质量评价模型，获得此时的音频质量MOSc，并实时反馈，以便自适应调节相应网络参数，给用户最好的音频感知体验。

下面以AVS-P10编解码标准为例进一步说明本发明在音频网络传输中的应用。发送端以一定码率采用不同编码模式对不同类型音频信号分别进行编码获得音频编码信号，音频编码信号以流的方式在网络中传播。解码端接收到音频编码信号，首先，通过自适应抖动缓冲区，对接收到的数据包进行重排序，并统计丢包率和延迟时间；然后，将重排序后的数据包送入解码器解码，并获取丢包数据的编码模式，即音频信号类型；最后，把丢包率、延迟时间、音频信号类型送入无参考音频质量评价模块，对音频信号进行质量评价，并实时反馈到发送端的编码模块和解码端的缓冲区，通过自适应调节缓冲区大小、编码码率等参数，使音频质量MOSc取最大值，从而给用户提供更好的音频感知体验，并尽可能节省网络资源。

Claims

1.音频信号特性分类的无参考音频质量评价方法，其特征在于，包括步骤：

步骤2，在音频信号网络传输中，将当前丢包率、当前延迟时间和当前丢包数据的音频信号类型输入无参考音频质量评价模型，获得当前音频质量；

步骤1进一步包括子步骤：

1.3以音频质量MOSc为目标，以延迟时间、丢包率、音频信号类型为输入，通过机器学习方式获得不同类型音频信号的音频质量与网络参数的关系，即无参考音频质量评价模型；

步骤2进一步包括子步骤：

2.如权利要求1所述的音频信号特性分类的无参考音频质量评价方法，其特征在于，还包括步骤：

3.一种音频信号特性分类的无参考音频质量评价系统，其特征在于，包括：

质量评价模块，用来在音频信号网络传输中，将当前丢包率、当前延迟时间和当前丢包数据的音频信号类型输入无参考音频质量评价模型，获得当前音频质量；

所述的训练模块进一步包括子模块：

机器学习模块，用来以音频质量MOSc为目标，以延迟时间、丢包率、音频信号类型为输入，通过机器学习方式获得不同类型音频信号的音频质量与网络参数的关系，即无参考音频质量评价模型；

所述的质量评价模块进一步包括子模块：

4.如权利要求3所述的音频信号特性分类的无参考音频质量评价系统，其特征在于，还包括：

网络参数调整模块，用来根据当前音频质量调整延迟时间和编码码率，使当前音频质量取最大值。