CN102231279B

CN102231279B - 基于听觉关注度的音频质量客观评价系统及方法

Info

Publication number: CN102231279B
Application number: CN201110120250A
Authority: CN
Inventors: 胡瑞敏; 杨玉红; 高丽; 曾琦; 杨裕才; 赵云
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2011-05-11
Filing date: 2011-05-11
Publication date: 2012-09-26
Anticipated expiration: 2031-05-11
Also published as: CN102231279A

Abstract

本发明涉及基于听觉关注度的音频质量客观评价系统及方法，系统包括时频分析模块、听觉关注模块、底层声学特征参数计算模块、人耳声学掩蔽模型模块、听觉关注失真测度计算模块和认知模型模块，从听觉关注度图选择映射关系指导底层声学特征参数的计算，然后通过求取参考信号和待测信号频域信号的噪掩比得到待测信号的一组底层特征参数失真测度值，最后将参考信号和待测信号的噪掩比以及待测信号的一组底层特征参数失真测度值进行融合，得到的音频质量客观评价结果。本发明考虑了音频质量评价系统中听觉关注机制对评价结果的影响，能够使客观评价结果更符合人的听觉特性的，主客观评价结果相关性更高。

Description

基于听觉关注度的音频质量客观评价系统及方法

技术领域

本发明涉及音频质量客观评价领域，尤其涉及基于听觉关注度的音频质量客观评价系统及方法。

背景技术

随着人们应用期望值的日渐提高，音频内容趋于多样化与复杂化。心理学研究表明人们在复杂声场环境中具有选择性的听觉关注机制，即人可以根据自己的心理主观感受选择自己感兴趣的声音，使自己关注的声音在人类听觉系统当中成为主导音。听觉关注机制是自顶向下(基于场景信息)和自底向上(基于声音显著度)两种机制交互作用的过程，传统基于声学掩蔽模型和底层声学显著性特征的音频客观质量评价方法，由于并未考虑场景信息和底层声学特征参数自上而下的关联问题，其评价结果与真实主观听觉感受存在较大差异。

发明内容

本发明的目的是提供基于听觉关注度的音频质量客观评价技术方案，使得评价结果更符合人的听觉特性。

为达到上述目的，本发明提供一种基于听觉关注度的音频质量客观评价系统，包括时频分析模块1、听觉关注模块2、底层声学特征参数计算模块3、人耳声学掩蔽模型模块4、听觉关注失真测度计算模块5及认知模型模块6，

所述时频分析模块1，用于将输入的参考信号的时域信号和待测信号的时域信号分别转换为频域信号，并将所获得的频域信号分两路输出，一路输出连接底层声学特征参数计算模块3，一路输出连接人耳声学掩蔽模型模块4；

所述听觉关注模块2，用于存储预先建立的听觉关注度图，所述听觉关注度图根据先验知识预先建立，是场景要义与底层声学特征参数之间的映射关系总和；当选择听觉关注度图中的某项映射关系时，相应所选择的映射关系分两路输出，一路输出给底层声学特征参数计算模块3，一路输出给认知模型模块6；

所述底层声学特征参数计算模块3，用于根据由听觉关注模块2输入的映射关系，从参考信号的时域信号、待测信号的时域信号以及由时频分析模块1输入的频域信号中，提取并计算得到参考信号的底层声学特征参数和待测信号的底层声学特征参数，并输出至听觉关注失真测度计算模块5；

所述人耳声学掩蔽模型模块4，用于根据时频分析模块1输入的频域信号，计算参考信号的总体噪掩比和待测信号的总体噪掩比，输出给认知模型模块6；

所述听觉关注失真测度计算模块5，根据由底层声学特征参数计算模块3所输入参考信号的底层声学特征参数和待测信号的底层声学特征参数，计算得到待测信号的一组底层声学特征参数失真测度值，输出给认知模型模块6；

所述认知模型模块6，用于根据由听觉关注模块2输入的映射关系，将由听觉关注失真测度计算模块5输入的待测信号的一组底层声学特征参数失真测度值与由人耳声学掩蔽模型模块4输入的参考信号的总体噪掩比和待测信号的总体噪掩比进行融合，得到最终单一的音频质量客观质量评价分数。

本发明还提供了相应基于听觉关注度的音频质量客观评价方法，包括以下步骤：步骤1，将参考信号的时域信号s₁通过短时傅里叶变换，得到参考信号的频域信号

将待测信号的时域信号s₂通过短时傅里叶变换，得到待测信号的频域信号

步骤2，从预先建立的听觉关注度图M中选择某项映射关系，所述听觉关注度图M是场景要义与底层声学特征参数之间的映射关系总和；

步骤3，从参考信号的时域信号s₁、待测信号的时域信号s₂、参考信号的频域信号

和待测信号的频域信

中，提取和计算出步骤2中所选择映射关系相应的底层声学特征参数，得到参考信号的底层声学特征参数(x₁，x₂，...x_m)和待测信号的底层声学特征参数(y₁，y₂，...y_m)，其中，m为步骤2中用户所选择映射关系相应的底层声学特征参数总个数；

步骤4，将步骤1所得参考信号的频域信号

和待测信号的频域信号

中建立从频域到Bark域的映射，分别计算得到频域信号的总体噪掩比NMR₁和频域信号的总体噪掩比NMR₂；

步骤5，根据步骤3所得参考信号的底层声学特征参数(x₁，x₂，...x_m)和待测信号的底层特征参(y₁，y₂，...y_m)计算失真测度，得到待测信号的一组底层声学特征参数失真测度值(D₁，D₂，...D_m)；

步骤6，根据步骤2所选映射关系，将步骤4所得总体噪掩比NMR₁、NMR₂和步骤5所得待测信号的一组底层声学特征参数失真测度值(D₁，D₂，...D_m)进行融合，得到最终单一的音频质量客观质量评价分数。

本发明的技术方案考虑了音频质量评价系统中听觉关注机制对评价结果的影响，能够使客观评价结果更符合人耳的听觉特性，主客观评价结果相关性更高。

附图说明

图1是本发明实施例的系统结构框图。

图2是本发明实施例的方法流程图。

具体实施方式

下面以具体实施例结合附图对本发明的技术方案作进一步说明：

参见图1，本发明实施例提供的基于听觉关注度的音频质量客观评价系统，包括时频分析模块1、听觉关注模块2、底层声学特征参数计算模块3、人耳声学掩蔽模型模块4、听觉关注失真测度计算模块5及认知模型模块6，具体实施时可以采用软件固化技术实现各模块。

所述时频分析模块1，用于将输入的参考信号的时域信号和待测信号的时域信号分别转换为频域信号，并将所获得的频域信号分两路输出，一路输出连接底层声学特征参数计算模块3，一路输出连接人耳声学掩蔽模型模块4。

所述听觉关注模块2，用于存储预先建立的听觉关注度图，所述听觉关注度图根据先验知识预先建立，是场景要义与底层声学特征参数(如带宽、谱包络、信噪比、基音、谐波等)之间的映射关系总和；当选择听觉关注度图中的某项映射关系时，相应所选择的映射关系分两路输出，一路输出给底层声学特征参数计算模块3，一路输出给认知模型模块6。听觉关注度图用于关联场景要义对应的底层声学特征参数，具体实施时，可以由用户根据情况选择听觉关注度图中的某项映射关系。例如将听觉关注度图中的各项映射关系分别给一个序号，做一个对话框，让用户选择关注音和背景音的类型，然后就可以得到序号，从而确定选择听觉关注度图中的某项映射关系。

所述底层声学特征参数计算模块3，用于根据由听觉关注模块2输入的映射关系，从参考信号的时域信号、待测信号的时域信号以及由时频分析模块1输入的频域信号中，提取并计算得到参考信号的底层声学特征参数和待测信号的底层声学特征参数，并将这两组底层声学特征参数输出至听觉关注失真测度计算模块5。

所述人耳声学掩蔽模型模块4，用于根据时频分析模块1输入的频域信号，计算参考信号的总体噪掩比和待测信号的总体噪掩比，输出给认知模型模块6。实施例的计算过程为，根据人耳的听觉掩蔽效应，对参考信号和待测信号的频域信号划分Bark带，计算出各Bark带掩蔽阈值和噪掩比，将总体噪掩比输出给认知模型模块6。

所述听觉关注失真测度计算模块5，根据由底层声学特征参数计算模块3所输入参考信号的底层声学特征参数和待测信号的底层声学特征参数，计算得到待测信号的一组底层声学特征参数失真测度值，输出给认知模型模块6。

所述认知模型模块6，用于根据由听觉关注模块2输入的映射关系，将由听觉关注失真测度计算模块5输入的待测信号的一组底层声学特征参数失真测度值与由人耳声学掩蔽模型模块4输入的参考信号的总体噪掩比和待测信号的总体噪掩比进行融合，得到最终单一的音频质量客观质量评价分数。本发明利用信息融合的思想生成单一的输出参数，得到最终的客观差异性得分，本领域称为ODG，Objective Difference Grade。具体融合实现可以采用现有技术，例如人工神经网络模型或者线性分析回归方法。实施例采用人工神经网络模型，预先根据场景要义建立相应的训练集序列，训练出一系列基于场景的加权值。通过根据听觉关注模块2输入的映射关系选择与场景对应的一组加权值，与计算得到的一组底层特征参数失真测度值和参考信号的总体噪掩比、待测信号的总体噪掩比经过映射融合，输出最终单一的音频质量客观评价得分。

参见图2，本发明实施例提供的基于听觉关注度的音频质量客观评价方法，可以采用计算机软件技术手段自动进行流程，具体包括以下步骤：

步骤1，将参考信号的时域信号s₁通过短时傅里叶变换，得到参考信号的频域信号

实施例中，输入的参考信号的时域信号s₁和待测信号的时域信号s₂采样率为44.1kHz，通过短时傅里叶变换得到的频域信号

和

帧长为2048个点。

步骤2，从预先建立的听觉关注度图M中选择某项映射关系，所述听觉关注度图M是场景要义与底层声学特征参数之间的映射关系总和。实施例建立的听觉关注度图M如下表所示：

例如，序号00对应的是关注音为语音且环境背景为语音，序号01对应的是关注音为语音且环境背景为音乐，序号02对应的是关注音为语音且环境背景为直流噪声。根据场景要义，如果得到的关注音为语音，环境背景为音乐，那么选择到序号01的映射关系。依据先验知识建立的听觉关注度图M中，序号01的映射关系中所选取表征语音的底层声学特征参数为带宽(50-4000Hz)、谱包络(LP分析)等，选取表征音乐的底层声学特征参数为带宽(50-20000Hz)、基音(Pitch)、谐波(Harmonic)、谱包络(LP分析)、华丽音域(高音萨克管250-10000Hz)等。在时域信号中选取帧长为256点，采用LP分析方法就得到语音的谱包络信息。基音周期的提取可采用基于短时自相关的开环基音搜索算法提取，谐波为基音倍频。

和待测信号的频域信

中，提取和计算出步骤2中所选择映射关系相应的底层声学特征参数，得到参考信号的底层声学特征参数(x₁，x₂，...x_m)和待测信号的底层声学特征参数(y₁，y₂，...y_m)，其中，m为步骤2中用户所选择映射关系相应的底层声学特征参数总个数。具体提取和计算各底层声学特征参数为现有技术，本发明不予赘述。

步骤4，将步骤1所得参考信号的频域信号

和待测信号的频域信号

中建立从频域到Bark域的映射，分别计算得到频域信号

的总体噪掩比NMR₁和频域信号

的总体噪掩比NMR₂。实施例具体过程如下：

首先将步骤1中所得参考信号的频域信号

和待测信号的频域信

建立从频域到Bark域的映射：

z / Bark = 7 \cdot ar \sinh (\frac{f / Hz}{650}),

其中z为Bark带个数，f为人类听觉可闻范围：80Hz-18000Hz；arsinh()是公知函数。Zwicker and Feldtkeller在1967年根据人耳听觉特性提出可以将频率划分为若干个临界频带，以及Bark域测度，规定了频率映射到Bark域的规则。具体实现从频域到Bark域的映射属于现有技术。

根据现有的MPEG标准中心理声学模型II，通过各个Bark域的频域信号，可计算出每帧参考信号中每一个Bark带的掩蔽阈值MASK₁(k，n)和每帧待测信号中每一个Bark带的掩蔽阈值MASK₂(k，n)，其中k为Bark带数，n为帧数。在步骤1进行时频变换时，选取时域信号的帧长为2048个点，一共得到N帧信号，对每一帧信号变换到频域，再对该帧的频域信号划分Bark带，得到Z个Bark带，(k，n)表示第n帧的第k个Bark带，k取0～Z-1，n取0～N-1。

根据上述得到的掩蔽阈值MASK₁(k，n)和MASK₂(k，n)，计算频域信号和

每一帧的噪掩比，计算公式如下

NMR [n] = 10 \cdot \lg \frac{1}{Z} Σ_{k = 0}^{Z - 1} \frac{P_{noise} [k, n]}{MASK [k, n]},

其中Z为Bark带个数，P_noise(k，n)为噪声能量功率，计算得到频域信号

每一帧的噪掩比NMR₁(n)和频域信号

每一帧的噪掩比NMR₂(n)。

再将得到的噪掩比NMR₁(n)和NMR₂(n)分别求线性平均，公式如下

NMR = 10 \cdot \lg \frac{1}{N} \underset{n}{Σ} (\frac{1}{Z} Σ_{k = 0}^{Z - 1} \frac{P_{noise} [k, n]}{Mask [k, n]}),

从而得到频域信号

的总体噪掩比NMR₁和频域信号

的总体噪掩比NMR₂。

步骤5，根据步骤3所得参考信号的底层声学特征参数(x₁，x₂，...x_m)和待测信号的底层特征参(y₁，y₂，...y_m)计算失真测度，得到待测信号的一组底层声学特征参数失真测度值(D₁，D₂，...D_m)。

具体实施时，从(x₁，y₁)得到D₁，从(x₂，y₂)得到D₂…从(x_m，y_m)得到D_m，可参考以下公式

Diff = \frac{| y_{M} - x_{M} |}{x_{M}}

其中，M取值1～m。

实施例通过运用人工神经网络模型实现融合，具体实施可参见相关现有技术，基本过程如下：

建立人工神经网络模型，入口函数为

sig (x) = \frac{1}{1 + e^{- x}},

其中e为数学常数，x为该函数的输入。

该模型包含I个输入，并且神经网络模型的隐层中有J个节点。预先建立基于场景要义的序列集，对模型映射过程中输入层的两个限制因子a_min[i]和a_max[i]、输入层的加权系数w_α[i]输出层的加权系数w_β[j]以及输出层的两个限制因子b_min和b_max进行训练，得到一系列基于场景的系数集合。

将总体噪掩比NMR₁、NMR₂和底层特征参数失真测度值(D₁，D₂，...D_m)，共I(I＝2+m)个参数作为神经网络模型的输入a[i]输入给神经网络模型，根据步骤2从听觉关注度图M所选映射关系指导神经网络选择与场景相对应的一组系数，映射到失真索引(Distortion Index，DI)：

DI = w_{β} [J] + Σ_{j = 0}^{J - 1} (w_{β} [j] \cdot sig (w_{α} [I, j] + Σ_{i = 0}^{I - 1} w_{α} [i, j] \cdot \frac{α [i] - a_{\min} [i]}{a_{\max} [i] - a_{\min} [i]})),

其中i取0～I-1，j取0～J-1。

利用失真索引DI，最终计算出音频质量客观质量评价分数：

ODG＝b_min+(b_max-b_min)·sig(DI)。

该分数的高低客观表示音频质量的好坏。

Claims

1.一种基于听觉关注度的音频质量客观评价系统，其特征在于：包括时频分析模块（1）、听觉关注模块（2）、底层声学特征参数计算模块（3）、人耳声学掩蔽模型模块（4）、听觉关注失真测度计算模块（5）及认知模型模块（6），

所述时频分析模块（1），用于将输入的参考信号的时域信号和待测信号的时域信号分别转换为频域信号，并将所获得的频域信号分两路输出，一路参考信号的频域信号和待测信号的频域信号输出连接底层声学特征参数计算模块（3），一路参考信号的频域信号和待测信号的频域信号输出连接人耳声学掩蔽模型模块（4）；

所述听觉关注模块（2），用于存储预先建立的听觉关注度图，所述听觉关注度图根据先验知识预先建立，是场景要义与底层声学特征参数之间的映射关系总和；当选择听觉关注度图中的某项映射关系时，相应所选择的映射关系分两路输出，一路输出给底层声学特征参数计算模块（3），一路输出给认知模型模块（6）；

所述底层声学特征参数计算模块（3），用于根据由听觉关注模块（2）输入的映射关系，从参考信号的时域信号、待测信号的时域信号以及由时频分析模块（1）输入的频域信号中，提取并计算得到参考信号的底层声学特征参数和待测信号的底层声学特征参数，并输出至听觉关注失真测度计算模块（5）；

所述人耳声学掩蔽模型模块（4），用于根据时频分析模块（1）输入的频域信号，计算参考信号的总体噪掩比和待测信号的总体噪掩比，输出给认知模型模块（6）；

所述听觉关注失真测度计算模块（5），根据由底层声学特征参数计算模块（3）所输入参考信号的底层声学特征参数和待测信号的底层声学特征参数，计算得到待测信号的一组底层声学特征参数失真测度值，输出给认知模型模块（6）；

所述认知模型模块（6），用于根据由听觉关注模块（2）输入的映射关系，将由听觉关注失真测度计算模块（5）输入的待测信号的一组底层声学特征参数失真测度值与由人耳声学掩蔽模型模块（4）输入的参考信号的总体噪掩比和待测信号的总体噪掩比进行融合，得到最终单一的音频质量客观质量评价分数。

2.一种基于听觉关注度的音频质量客观评价方法，其特征在于，包括以下步骤：

步骤1，将参考信号的时域信号s₁通过短时傅里叶变换，得到参考信号的频域信号将待测信号的时域信号s₂通过短时傅里叶变换，得到待测信号的频域信号

和待测信号的频域信

中，提取和计算出步骤2中所选择映射关系相应的底层声学特征参数，得到参考信号的底层声学特征参数(x₁,x₂,...x_m)和待测信号的底层声学特征参数(y₁,y₂,...y_m)，其中，m为步骤2中用户所选择映射关系相应的底层声学特征参数总个数；

步骤4，将步骤1所得参考信号的频域信号和待测信号的频域信号

中建立从频域到Bark域的映射，分别计算得到频域信号

的总体噪掩比NMR₁和频域信号

的总体噪掩比NMR₂；

步骤5，根据步骤3所得参考信号的底层声学特征参数(x₁,x₂,...x_m)和待测信号的底层特征参数(y₁,y₂,...y_m)计算失真测度，得到待测信号的一组底层声学特征参数失真测度值(D₁,D₂,...D_m)；

步骤6，根据步骤2所选映射关系，将步骤4所得总体噪掩比NMR₁、NMR₂和步骤5所得待测信号的一组底层声学特征参数失真测度值(D₁,D₂,...D_m)进行融合，得到最终单一的音频质量客观质量评价分数。