CN101411171B

CN101411171B - 非侵入信号质量评测的方法和设备

Info

Publication number: CN101411171B
Application number: CN2007800037593A
Authority: CN
Inventors: S·布鲁恩; B·克莱因; V·格兰查罗夫
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2006-01-31
Filing date: 2007-01-30
Publication date: 2013-05-08
Anticipated expiration: 2027-01-30
Also published as: US20090018825A1; WO2007089189A1; US8195449B2; CA2633685A1; EP1980089A1; CN101411171A; AU2007210334A1; JP5006343B2; AU2007210334B2; JP2009525633A; BRPI0707343A2; EP1980089A4; BRPI0707343B1

Abstract

一种非侵入信号质量评测设备包括特征向量计算器(60)，该计算器确定表示信号帧的参数，并从参数提取表示信号结构信息的每帧特征向量(φ(n))集合。帧选择器(62)优选只选择具有位于预定多维窗口(Θ)内的特征向量(φ(n))的帧(Ω)。部件(66，68，70，72，74)从所选特征向量分量((1^，02，...O11)的统计矩确定在特征向量(φ(n))集合上的全局特征集(ψ)。质量预测器(76)从全局特征集(ψ)预测信号质量度量(Q)。

Description

非侵入信号质量评测的方法和设备

技术领域

本发明涉及非侵入信号质量评测，并且具体地说，涉及非侵入语音质量评测。

背景技术

语音质量评测是移动通信中的一个重要问题。语音信号的质量是一个主观量度。它可根据信号听起来如何自然或理解该消息需要多少努力来表示。在一个主观测试中，向一群收听者播放语音，并要求收听者对此语音信号的质量定级，请参见[1]、[2]。

用户意见的最常见度量是通过求绝对种类定级(ACR)而得到的平均意见得分(MOS)。在ACR中，收听者将失真信号与其高质量语音的内部模型进行比较。在降级MOS(DMOS)测试中，对象先收听原语音，然后要选择与已处理信号的失真对应的降级种类定级(DCR)。DMOS测试在音频质量评测中更加普遍，请参见[3]、[4]。

如[1]-[4]中所述的收听质量评测并不是唯一的服务质量(QoS)监测形式。在许多情况下，参见[2]，对话主观测试是主观评价的优选方法，其中参与者在多个不同网络上保持对话，并对其感知的对话质量投票。对话质量的客观模型可在[5]中找到。另一类QoS监测由可懂度测试组成。最通用的可懂度测试是诊断押韵测试(DRT)和改进的押韵测试(MRT)，请参见[6]。

主观测试被认为提供了“真实的”语音质量。但是，人类收听者的介入使得它们成本昂贵且耗时。此类测试只可在开发语音通信系统的最后阶段使用，并不适合用于每日测量QoS。

客观测试使用数学表达式来预测语音质量。其低成本意味着它们可用于通过网络连续地监测质量。两种不同的测试情况可区分如下：

·侵入，其中原始信号和失真信号均可用。这在图1中示出了，其中参考信号被转发到在测试的系统，该系统使参考信号失真。失真信号和参考信号都转发到侵入测量单元12，该单元估计失真信号的质量度量。

·非侵入(有时也表示为“单端”或“无参考”)，其中只有失真信号可用。这在图2中示出了。在这种情况下，非侵入测量单元14直接从失真信号估计质量度量，而无需访问参考信号。

最简单类别的侵入客观质量度量是波形比较算法，如信噪比(SNR)和分段信噪比(SSNR)。波形比较算法易于实现，并且计算复杂性低，但在比较不同类型失真时，它们无法与主观测量很好地相关。

诸如Itakura-Saito(IS)度量和谱失真(SD)度量等频域技术被广泛使用。频域技术对时移不敏感，并且通常与人类感知更一致，请参见[7]。

已开发了大量侵入感知域度量。这些度量包含了人类感知系统的知识。对人类感知的模仿用于降维，并且“认知”阶段用于执行到某个质量等级的映射。认知阶段通过一个或多个数据库训练。这些度量包括参见[8]的巴克谱失真(BSD)、参见[9]的感知语音质量(PSQM)和参见[10]、[11]的测量规格化块(MNB)。参见[12]的语音质量感知评价(PESQ)和参见[13]的音频质量感知评价(PEAQ)，分别是用于语音和音频的侵入质量评测的标准化最新算法。

现有侵入客观语音质量度量可自动评测通信系统的性能而无需人类收听者。但是，侵入度量需要访问原始信号，这在QoS监测中一般不可用。对于此类应用，必须使用非侵入质量评测。这些方法经常包括模仿人类感知和/或映射到使用数据库训练的质量度量。

在[14]中给出了针对基于所感受信号谱图的非侵入语音质量度量的早期尝试。谱图将被划分，并且逐块计算方差和动态范围。方差和动态范围的平均水平用于预测语音质量。

在[15]中报告的非侵入语音质量评测尝试预测通过的音频流由人类发声系统生成的可能性。在评测的语音流被简化为一个特征集。参数化的数据用于通过基于生理学的规则来估计感受的质量。

在[16]中提出的度量基于比较输出语音与从最佳聚类码本适当选择的人工参考信号。在感知线性预测(PLP)中，参见[17]，系数用作语音信号的参数表示。执行第五阶全极点模型以抑制听觉谱的说话者相关细节。未知测试向量与最近参考矩心之间的平均距离提供了语音降级的指示。

在[18]和[19]中可找到基于从感知推动的谱包络表示得到的特征的高斯混合概率模型(GMM)的最近算法。在[20]和[21]中给出了基于语音时间包络表示的新颖感知推动的语音质量评测算法。

在[22]中可找到用于非侵入质量评测的国际电信联盟(ITU)标准ITU-T P.563。从信号中提取了总共51个语音特征。关键特征用于确定主要失真类，并在每个失真类中，特征的线性组合用于预测所谓的中间语音质量。最终的语音质量从中间质量和11个附加特征估计。

用于质量评测的以上所列度量用来预测许多类型失真效应，并且一般具有高计算复杂性。此类算法将称为一般语音质量预测器。已经显示，如果假设失真类型已知，则非侵入质量预测复杂性可能低得多，参见[23]。但是，如果预期的工作条件未满足，则后一类度量可能具有很差的预测性能。

发明内容

本发明的目的是一种具有低计算复杂性的非侵入语音质量评测方法和设备。

此目标根据所附权利要求书得以实现。

本发明从在语音编码中常用的一般特征(称为每帧特征)预测语音质量，而无需假设失真类型。在提出的低复杂性、非侵入语音质量评测方法中，质量估计改为基于每帧特征的全局统计特性。

简单地说，本发明确定表示被监测信号帧的参数。从这些参数提取表示所选帧结构信息的每帧特征向量集合。使用所选特征向量分量的预定统计矩，从特征向量集合得到全局特征集。最后，从全局特征集预测信号质量度量。

附图说明

通过结合附图参照以下说明，可最好地理解本发明及其其它目的和优点，其中：

图1是示出侵入语音质量测量的框图；

图2是示出非侵入语音质量测量的框图；

图3是示出语音质量的人类感知的框图；

图4是示出根据本发明的信号质量评测方法的流程图；

图5是示出根据本发明的信号质量评测方法优选实施例的流程图；以及

图6是示出根据本发明的信号质量评测设备优选实施例的框图。

具体实施方式

在下面的说明中，本发明将参照语音进行描述。但是，相同的原理可适用于其它信号类型，如音频信号和视频信号。

人类语音质量评测过程可分为两部分：1)将已接收语音信号转换成大脑的听觉神经刺激；以及2)大脑中的认知处理。这在图3中示出了，其中失真信号由听觉处理块16处理，该块将信号变换成转发到认知映射块18的神经刺激，而认识映射块输出具有一定感受质量的信号。感知变换的关键原理是信号屏蔽、临界频带谱分解、等响度曲线及强度响度法则，例如[24]。很好地研究这些原理，并且在大多数现有质量评测算法中，感知变换是一个预处理步骤。感知变换的主要隐式目的是对语音信号执行感知上一致的降维。理想上，感知变换保持所有感知上相关的信息，并且丢弃所有感知上不相关的信息。实际上，必须进行近似和简化，并且可能无法满足此目标。一些情况下，感知变换可能具有高计算成本。为了避免这些潜在的限制，本发明的评测方法不执行此类感知变换。而是优选地降维，同时优化映射函数系数。目标是将相关信息的损失降到最低。此方案与图像质量评测[25]中不使用感知变换执行质量评测的新兴算法一致。

许多现有质量评测算法基于特定的失真模型，即，背景噪声级、乘性噪声、存在铃声[22]，或者模拟已知失真，像手机接收器特征[12]。本发明不包含失真的显式模型。语音质量估计完全基于已处理语音信号的统计，并且失真通过其对这些统计的影响而进行隐式评测。因此，本发明易于适用于将可能产生新型失真的下一代通信系统。

在一些方法中，删除了说话者相关信息[18]、[16]。但是，众所周知，电话系统对一些话音提供的质量得分高于其它话音[26]。因此，如果该算法要用于不断进行网络监测，并且用于求平均的均衡语音材料无法保证，则说话者相关信息是有关的。根据本发明的方法包含例如以基音周期形式的说话者相关信息和通过线性预测估计的第十阶自回归(AR)模型的系数。

用于质量测量的话语一般是由例如0.5秒停顿间隔的一组短句。话语的总长度一般为大约8秒。但是，通常话语可简单地视为语音信号间隔或块。本发明的评测方法使用一组简单的特征预测话语的语音质量，这些特征可从语音信号波形得到，或者在优选实施例中，易于从网络中的语音编解码器得到。以低计算复杂性预测语音质量，这使得该方法可用于实际应用。

根据本发明的信号质量评测方法的核心是多维(对于语音，优选为11维；其它维数也可能，并且维数还取决于信号类型、语音、音频、视频等)每帧特征向量Φ(n)，在附录I中定义了其分量。语音质量不直接从每帧向量预测，而是从许多帧上例如一个话语上的其全局统计特性，描述为每帧特征的均值、方差、偏斜和峰度来预测。每帧特征的统计特性(称为全局特征集Ψ)形成用于GMM(高斯混合概率模型)映射的输入，其可在MOS等级上估计语音质量级别，如附录III中详细所述的。

图4是示出根据本发明的信号质量评测方法的流程图。在步骤S1中，将语音信号编码到包括语音参数的帧比特流中。步骤S2从每个所关注帧的语音参数提取局部(每帧)特征向量Φ(n)。在步骤S3，这些特征向量的统计特性用于形成全局(每话语)特征集Ψ。最后，在步骤S4，使用GMM映射，从全局特征集预测语音质量。

根据本发明的信号质量评测方法和设备的基础是提取特征向量。所使用的特征集旨在从语音信号捕捉结构信息。推动此的事实是，自然语音信号高度结构化，并且人类质量判断可能依赖从描述此结构的信息提取的模式。附录I定义了一组11个适用特征，它们被集合到一个每帧特征向量中：

Φ(n)＝(Φ₁(n)，Φ₂(n)，...Φ₁₁(n))(1)

其中n表示帧号。

根据本发明，假设语音质量可从这些每帧特征的统计特性估计。其概率分布通过均值、方差、偏斜和峰度来描述。对每个每帧特征单独计算这些统计矩，并且这给出了全局性描述一个语音话语的一组特征(全局特征)：

μ_{Φ_{i}} = \frac{1}{| \tilde{Ω} |} \underset{n &Element; \tilde{Ω}}{Σ} Φ_{i} (n) - - - (2)

σ_{Φ_{i}} = \frac{1}{| \tilde{Ω} |} \underset{n &Element; \tilde{Ω}}{Σ} {(Φ_{i} (n) - μ_{Φ_{i}})}^{2} - - - (3)

s_{Φ_{i}} = \frac{1}{| \tilde{Ω} |} \frac{\underset{n &Element; \tilde{Ω}}{Σ} {(Φ_{i} (n) - μ_{Φ_{i}})}^{3}}{σ_{Φ_{i}}^{3 / 2}} - - - (4)

k_{Φ_{i}} = \frac{1}{| \tilde{Ω} |} \frac{\underset{n &Element; \tilde{Ω}}{Σ} {(Φ_{i} (n) - μ_{Φ_{i}})}^{4}}{σ_{Φ_{i}}^{2}} - - - (5)

这里，

表示基数(大小)为

，用于计算每个每帧特征Φ_i(n)统计的帧集。这些全局特征组合成一个全局特征集：

Ψ = {μ_{Φ_{i}}, σ_{Φ_{i}}, s_{Φ_{i}}, k_{Φ_{i}}}_{i = 1}^{11} - - - (6)

优选是降低了这些计算的复杂性。附录II描述了两步降维过程：

·从话语中所有帧集Ω提取帧的“最佳”子集

·将全局特征集Ψ变换成低维数的全局特征集

在本发明的优选实施例中，直接从在20ms语音帧上确定的AR模型的激励方差E^e、基音周期T和线谱频率(LSF)系数f的十维向量计算第n帧的每帧特征。由于在码激励线性预测(CELP)编码器[27]的情况下易于从网络中得到E^e、T和f，因此本发明的此实施例具有如下附加优点：从比特流中的网络参数直接提取每帧向量，这比从信号波形提取向量更加简单。这将证明每帧特征Φ(n)可从{E_n ^e，T_n，f_n}和{E_n-1 ^e，T_n-1，f_n-1}计算。随后，将显示如何递归计算全局统计特性，而无需在缓冲器中存储整个话语的每帧特征。基音周期T_n根据[40]计算，并且每20ms从语音信号提取AR系数，无重叠。

为保持该方法的低复杂性，每帧特征：谱平坦度、谱动力学和谱矩心取近似。该近似完全基于语音编码比特流，由此避免了信号重构。

在本发明的优选实施例中，谱平坦度近似为第十阶预测误差方差和信号方差之比：

Φ_{1} (n) = \frac{E_{n}^{e}}{E_{n}^{s}} - - - (7)

给定AR模型的激励方差，其定义：

e_{k} = s_{k} - Σ_{i = 1}^{10} a_{i} s_{k - 1} - - - (8)

以及AR系数a_i，则可使用反向Levinson-Durbin递归(逐步下降算法)计算信号方差，而无需重构波形s_k。

谱动力学优选通过谱包络的参数描述例如近似为LSF空间中的加权欧几里德距离：

Φ₂(n)＝(f_n-f_n-1)^TW_n(f_n-f_n-1)(9)

其中导数调和平均加权[41]由LSF向量的分量定义：

W^{(ii)} = {(f_{n}^{(i)} - f_{n}^{(i - 1)})}^{- 1} + {(f_{n}^{(i +)} - f_{n}^{(i)})}^{- 1} - - - (10)

W^(ij)＝0

在本发明的优选实施例中，这些加权也用于获得近似的谱矩心：

Φ_{3} (n) = \frac{Σ_{i = 1}^{10} i W_{n}^{(ii)}}{Σ_{i = 1}^{10} W_{n}^{(ii)}} - - - (11)

递归计算所选全局特征，即，每帧特征不存储在缓冲器中。直到话语结束，根据下式递归更新均值：

μ_{Φ} (n) = \frac{n - 1}{n} μ_{Φ} (n - 1) + \frac{1}{n} Φ (n) - - - (12)

以得到所需μ_Φ。这里n是所接受帧集上的索引，如附录II中所述的。

以类似的方式传播Φ²、Φ³和Φ⁴以得到中心矩和

这些量用于得到其余全局特征，即方差、偏斜和峰度：

σ_{Φ} = μ_{Φ^{2}} - {(μ_{Φ})}^{2}

s_{Φ} = \frac{μ_{Φ^{3}} - 3 μ_{Φ} μ_{Φ^{2}} + 2 {(μ_{Φ})}^{3}}{σ_{Φ}^{3 / 2}} - - - (13)

k_{Φ} = \frac{μ_{Φ^{4}} - 4 μ_{Φ} μ_{Φ^{3}} + 6 {(μ_{Φ})}^{2} μ_{Φ^{2}} - 3 {(μ_{Φ})}^{4}}{σ_{Φ}^{2}}

图5中示出了根据本发明方法的优选实施例。它包括以下步骤：

S5.对于第n个语音帧，从波形确定{E_n ^e，T_n，f_n}或从比特流提取。

S6.基于存储在缓冲器中的前一帧的{E_n ^e，T_n，f_n}和对应的参数{E_n-1 ^e，T_n-1，f_n-1}，确定每帧特征向量Φ(n)。

对该话语的所有帧执行步骤S5和S6。

S7.从所选的帧子集

递归确定中心矩{μ_Φ，

}。帧选择 (附录II)通过阈值或多维窗口Θ控制。

S8.在话语结束时，将所选(附录II的式(23))全局特征集

\tilde{Ψ} = {μ_{Φ_{i}}, σ_{Φ_{i}}, s_{Φ_{i}}, k_{Φ_{i}}}

计算为每帧特征的均值、方差、偏斜和峰度。

S9.通过GMM映射将话语的语音质量预测为全局特征集

\hat{Q} = \hat{Q} (\tilde{Ψ})

的函数，如附录III所述的。

图6是根据本发明的信号质量评测设备优选实施例的框图。编码语音信号(比特流)由特征向量计算器60接收，该计算器从语音参数{E_n ^e，T_n，f_n}确定当前帧n的特征向量Φ(n)。特征向量被转发到帧选择器62，该选择器确定它是否位于由阈值Θ定义的多维窗口内，其存储在存储器64中，并已通过训练确定，如附录II和IV所述的。所选帧的特征向量分量Φ₁(n)，Φ₂(n)，...，Φ₁₁(n)被转发到相应计算器66、68、70、72，这些计算器递归计算每个分量的中心矩。在图6中，只明确示出了用于Φ₁的计算器，用于其余分量的对应计算器已示为圆点。中心矩被转发到全局特征计算器74，其根据式(13)确定每个特征向量分量的全局特征。所得到的全局特征集被转发到质量预测器，其确定质量估计

，如附录III所述的。

实际上，在实际的实现中，每个特征向量分量Φ_i可能不需要所有中心矩计算器66、68、70、72，因为，全局特征集Ψ的降维可减少所需全局特征的数量，如附录II中式(23)所示的。这种情况下，可省略用于特征向量分量Φ₁的计算器72，因为在全局特征集Ψ的降维中已经丢弃了

实际所需的中心矩取决于全局特征集Ψ降维的结果，其又取决于信号类型(语音、音频、视频等)。

本发明的评测设备的功能一般通过微处理器或微/信号处理器组合和对应的软件实现。

虽然本发明执行的质量预测基于高斯混合概率模型映射，但其它可行的备选方案有神经网络和隐藏马尔可夫模型。

已通过实验评价了根据本发明的质量评测方法的性能。结果在附录V中给出。

上述说明中未明确包括的一个方面是影响语音质量，但与原始语音信号不直接有联系的参数。此类参数例如有：输入语音的背景噪声，或说话者类型(例如，性别)，或像音乐等非语音输入信号，或音乐风格(例如流行、爵士、古典...)，或传输系统相关参数，诸如：

·使用VAD/DTX系统实现非活动语音的有效传输

·在语音编码前或过程中使用(存在)噪声抑制器

·语音编码方法及其配置(所选编解码器及其模式或比特率)

·指示由于传输错误，编解码器帧部分或完全不可用的坏帧指示符

·在已接收语音比特流中发生传输错误的可能性参数，其可在接收器中从各种处理阶段获得

·可能的编解码器串联，涉及语音信号的多次解码和重编码

·结合使用自适应抖动缓冲器的语音的可能时标修改。

这些参数对解码后所得到的语音质量有直接影响。本发明的直接应用将忽略这些参数，这引起复杂性低的通用质量评测方法的优点。

但是，这些参数中的至少一些参数已知，或者可能先验已知，或者可通过使用对应的检测器推断，或者可通过经语音传输系统的信号传输获得。例如，通过使用最新检测方法，可检测到音乐或背景噪声条件或存在噪声抑制。信号传输部件适用于识别其它所述参数。

利用先验参数的本发明具体实施例是要使用根据本发明的质量评测方法的各种实例，对于这些参数的不同集合训练这些实例。根据此实施例，首先识别和选择最适合先验参数的目前给定集合的评测方法实例。在第二步骤执行所选实例，得出期望语音质量估计。

又一实施例是执行根据本发明的质量评测方法的单个实例，之后执行将先验参数考虑在内的附加处理步骤。具体而言，第二步骤可执行第一步骤评测方法的输出值和各种先验参数到最终输出语音质量估计的映射。此第二步骤的映射可根据已知技术完成，如线性或非线性最小平方数据拟合法或GMM映射。甚至又一个可能性是组合质量评测方法的最终GMM映射步骤与所述的第二步骤映射，这实质上通过先验参数集扩展了全局(每话语)特征向量。

使该方法更适用于非语音信号，具体而言是音乐的又一实施例是允许已使用局部“每帧”特征的自适应。由于音乐与语音编解码器的基础语音生成模型不匹配，因此通常无法用语音编解码器很好地对音乐编码。相反，音乐优选基于(听力的)感知模型编码，不假设源信号产生的任何特定模型。考虑到这个事实，局部“每帧”特征的自适应意味着优选使用至少除所述参数外从此类感知模型得到的参数。在使用的编解码器是音频而不是语音编解码器时，情况更是如此。

另一方面是，上面的说明以执行连续映射的回归形式描述本发明。但是，该方法也适用于通过使用分类器到预定义离散质量等级(预定义间隔)的离散映射。因此，术语“映射”应以普通意义解释为还包括使用分类器的离散情况。分类器的一个简单示例是基于所述质量评测方法的系统，它不预测连续等级的质量，但具有二进制结果，例如：0)质量低于阈值；以及1)质量高于阈值。此示例对应于能够检测是否存在特定失真或质量级别的系统。

本发明的各种实施例产生了以下一个或多个优点：

·可从比特流参数(在CELP编码器的情况下)预测语音质量，而无需波形重构。这与不使用到感知域的变换的事实一起产生了低计算和存储要求(复杂性比现有ITU标准低几百倍)。

·语音质量从特征的统计特性预测：谱平坦度、谱矩心、谱动力学、基音周期、信号方差、激励信号方差及其时间导数。

这些特征的统计特性通过其均值、方差、偏斜和峰度来描述。

这种类型特征及其描述不要求存储语音信号。在缓冲器中只存储来自前一帧的几个(例如12个)标量参数。

·一种新颖方法可用于直接从比特流得到每帧特征(谱平坦度、谱动力学等)，而无需重构波形(信号重构本身并不复杂，复杂的是在从重构信号提取特征时)。

·仅从帧的子集便可预测语音质量。一种新颖方法用于提取包含有用信息的帧(在现有质量评测方法中，帧拒绝基于简单的能量阈值或话音活动检测器)。所提出的方法概括了此方案。

不同的帧子集可用于估计不同特征的统计特性。帧拒绝不只是能量的函数，而且是所有每帧特征的函数。帧选择方法可结合回归函数(分类器)进行优化。

·相对于相关系数和均方根误差，所提出的方法在执行的模仿中大大优于ITU-T P.563。

本领域的技术人员将理解，在不脱离所附权利要求书定义的本发明范围的情况下，可对本发明进行各种修改和改变。

附录I

特征选择

此附录将定义要包括在每帧特征向量Φ(n)的适用特征集。此集合特别适用于语音信号。

所关注的第一每帧特征是表示信号中信息内容的度量，如[28]中所述的谱平坦度度量。这与功率谱中谐振结构的强度有关，并定义为：

Φ_{1} (n) = \frac{\exp (\frac{1}{2 π} {&Integral;}_{- π}^{π} \log (P_{n} (ω)) dω)}{\frac{1}{2 π} {&Integral;}_{- π}^{π} P_{n} (ω) dω} - - - (14)

其中AR(自回归)包络P(ω)定义为具有系数a_k的AR模型的频率响应，即：

P_{n} (ω) = \frac{1}{| {1 + Σ_{k = 1}^{p} a_{k}^{(n)} e^{- jωk} |}^{2}} - - - (15)

帧索引由n表示，并且p是线性预测分析的阶，对于以8kHz采样的信号一般设为10。

第二每帧特征是诸如谱动力学等表示信号平稳性的度量，定义为：

Φ_{2} (n) = \frac{1}{2 π} {&Integral;}_{- π}^{π} {(\log (P_{n} (ω)) - \log (P_{n - 1} (ω)))}^{2} dω - - - (16)

谱动力学特征一直在研究，并已成功用于语音编码[29]、[30]和语音增强[31]。

所关注的第三特征是表示在频率上信号能量分布的度量，如谱矩心[32]，它确定大部分信号能量聚集的频率区域。它定义为：

Φ_{3} (n) = \frac{\frac{1}{2 π} {&Integral;}_{- π}^{π} ω \log (P_{n} (ω)) dω}{\frac{1}{2 π} {&Integral;}_{- π}^{π} P_{n} (ω) dω} - - - (17)

并且它也经常用作感知“亮度”的度量的近似。

三个另外的每帧特征是AR模型E_n ^e的激励方差、语音信号方差E_n ^e 以及基音周期T_n。它们将分别表示为Φ₄(n)、Φ₅(n)和Φ₆(n)。

Φ_{4} (n) = E_{n}^{e},

AR模型的激励方差

Φ_{5} (n) = E_{n}^{s},

语音信号方差 (18)

Φ₆(n)＝T_n，基音周期

上述每帧特征及其第一时间导数(除谱动力学的导数外)组合成11维每帧特征向量Φ(n)，下表1中概括了其分量。

表I

每帧特征向量元素

附录II

降维

降维可通过帧选择、全局特征选择或两个选择过程的组合而实现。降维的一个目的是通过删除不相关和冗余数据而提高质量评测系统的预测准确性。另一个目的是降低计算复杂性。此附录中所述的降维基于在附录IV中将详细描述的训练过程。

质量评测文献中常用的方案是基于话音活动检测器或能量阈值删除非语音区[33]。本发明通过在所有每帧特征维中考虑活动阈值，提出了此概念的一般化建议。在下面帧选择方法中介绍的方案允许在语音活动帧未携带提高语音质量预测准确性的信息时将它们排除在外。帧选择算法的概念是只接受每帧特征向量Φ(n)位于阈值向量Θ定义的11维“超级框”或多维窗口内或表面上的帧。在伪码中，该方法可描述为：

帧选择方法

将子集

初始化为空集

for n ∈Ω 对于原始帧集Ω中的每个帧

if

如果特征向量位于“窗口”内

Φ_{11} (n) &Element; [Θ_{11}^{L}, Θ_{11}^{U}]

then

\tilde{Ω} = \tilde{Ω} + {n}

将帧n加入子集

最佳帧集由阈值或多维窗口

Θ = {Θ_{i}^{L}, Θ_{i}^{U}}_{i = 11}^{11}

确定，即

取决于Θ或

\tilde{Ω} = \tilde{Ω} (Θ) .

我们搜索将判据ε最小化的阈值Θ：

Θ = \underset{Θ^{*}}{\arg \min} ϵ (\tilde{Ω} (Θ^{*})) - - - (19)

判据ε计算为根据本发明的质量评测方法的均方根误差(RMSE)性能，即：

ϵ = \sqrt{\frac{Σ_{i = 1}^{N} {(Q_{i} - {\hat{Q}}_{i})}^{2}}{N}} - - - (20)

其中

是预测的质量，并且Q是主观质量。这里N是在评价中使用的MOS标记话语数量，参见附录IV。阈值Θ的优化基于整个全局特征集Ψ。通过上述帧选择算法，(19)中ε的优化产生了接受第n个帧的以下判据：

Φ_{5} (n) > Θ_{5}^{L}

Φ_{1} (n) < Θ_{1}^{U}

Φ_{2} (n) < Θ_{2}^{U} - - - (21)

其中阈值

Θ_{5}^{L} = 3.10,

Θ_{1}^{U} = 0.67

且

Θ_{2}^{U} = 4.21 .

从(21)中可看到，只有三个每帧特征对帧选择有重大影响，即语音方差Φ₅、谱平坦度Φ₁和谱动力学Φ₂。(21)中的第一和第二个不等式只接受具有高能量和清晰共振峰结构的帧。这建议本发明的质量评测算法主要从有声语音区提取有关语音质量的信息。第三个不等式只选择稳定的语音区。后一结果可能是由于在语音信号的稳定状态区中更易于感觉到失真。

正如通过判据(21)可看到的一样，阈值或多维窗口可只在几个维中具有实际限制。在其它维中，窗口可视为无限窗口。此外，甚至在受限维中，窗口也可只在一个方向上具有边界或阈值。通常，多维窗口在帧选择中比纯话音活动检测器更具限制性，这导致拒绝没有质量评测相关信息的更多帧。这又产生了更可靠的质量度量。

每个维的矩形窗口的可行备选方案是更平滑的窗口，例如，高斯窗口，其中每个高斯函数具有其单独的均值和方差。每个向量分量随后将对应于一个高斯函数值。在这些函数值的乘积超过某个阈值时，帧将被接受。

判据(21)大大降低了质量评测算法所处理的帧数。所选的帧数随说话者和语句而不同，并且一般

包含在总帧集Ω的20％和50％之间。

一旦找到了最佳帧子集

，便可执行最佳全局特征子集

的搜索。此优化步骤定义如下：给定基数为|Ψ|的原始全局特征集Ψ和最佳帧集

，选择对于质量评测算法性能进行优化的基数为

| \tilde{Ψ} | < | Ψ |

的全局特征子集

\tilde{Ψ} &Subset; Ψ :

\tilde{Ψ} = \underset{Ψ^{*} &Element; Ψ}{\arg \min} ϵ ({\tilde{Ψ}}^{*}) - - - (22)

完全搜索是保证找到全局最佳值的唯一降维过程。但是，它由于其计算要求而很少被应用。例如[34]中熟知的顺序前向选择和顺序后向选择只是步骤最佳，因为添加(丢弃)了最佳(最差)全局特征，而在以后阶段无法校正该决定。更高级的(L，R)算法[35]由应用顺序前向选择L次之后应用R步顺序后向选择组成。浮动搜索法[36]是(L，R)搜索法的扩展，其中前进和后退步骤的数量未预先定义，而是动态获得。在我们的实验中，我们使用了顺序浮动后向选择过程，它由在每个后退步骤后应用多个前进步骤组成，只要所得到的子集优于以前评价的子集，如下面的方法所示：

顺序浮动后向选择过程

\tilde{Ψ} = Ψ

初始化为整个全局特征集

在错误未增加时(通过大于第一阈值)

Ψ_{i -} = \underset{Ψ_{i} &Element; \tilde{Ψ}}{\arg \min} ϵ (\tilde{Ψ} - {Ψ_{i}})

查找最低有效全局特征

\tilde{Ψ} = \tilde{Ψ} - {Ψ_{i -}}

将该特征排除在外

在错误减少时(通过大于第二阈值)

Ψ_{i +} = \underset{Ψ_{i} &NotElement; \tilde{Ψ}}{\arg \min} ϵ (\tilde{Ψ} + {Ψ_{i}})

查找最高有效全局特征

\tilde{Ψ} = \tilde{Ψ} + {Ψ_{i +}}

将该特征包括在内

在(22)中ε优化后，全局特征集的维数从44降到14，即

| \tilde{Ψ} | = 14,

并且这些元素为：

\tilde{Ψ} = {{s_{Φ}}_{1}, {σ_{Φ}}_{2}, {μ_{Φ}}_{4}, {μ_{Φ}}_{5}, {σ_{Φ}}_{5}, {s_{Φ}}_{5} {, μ}_{Φ}_{6}, {s_{Φ}}_{7}, {μ_{Φ}}_{8}, {μ_{Φ}}_{9}, {σ_{Φ}}_{9}, {s_{Φ}}_{9}, {μ_{Φ}}_{10}, {μ_{Φ}}_{11}} - - - (23)

要注意的是，所有每帧特征在集合

中均存在(通过其全局特征统计表示)，但语音信号方差Φ5和激励信号方差的导数Φ₉最常见。另一个观察结果是存在只基于前三个矩的全局语音特征，并且基于峰度的全局特征似乎不太重要。

附录III

质量估计

令Q表示从MOS标记训练数据库所获得的话语的主观质量。将主观质量的客观估计器

构建为全局特征集的函数，即，

\hat{Q} = \hat{Q} (\tilde{Ψ}),

并且搜索相对于以下判据最接近主观质量的函数：

\hat{Q} (\tilde{Ψ}) = \underset{Q^{*} (\tilde{Ψ})}{\arg \min} E {{(Q - Q^{*} (\tilde{Ψ}))}^{2}}

其中E{}是期望算子。上面定义的判据是对应于附录II中(22)的概率性度量。众所周知，例如[37]，式(24)通过条件期望最小化：

\hat{Q} (\tilde{Ψ}) = E {Q | \tilde{Ψ}} - - - (25)

并且问题降为估计条件概率。为便于此估计，全局特征变量与主观MOS得分的联合密度可建模为GMM(高斯混合概率模型)：

其中 m是混合分量指数，ω^(m)是混合加权，且

是乘性高斯密度，μ^(m)，∑^(m)分别是高斯密度的均值和协方差矩阵。GMM完全由M个均值向量集、协方差矩阵和混合加权规定：

λ = {ω^{(m)}, μ^{(m)}, Σ^{(m)}}_{m = 1}^{M} - - - (27)

并且使用期望最大化(EM)算法[38]，从最大训练集离线估计这些系数。附录IV中介绍了有关用于训练的数据的详情。实验显示，使用12个全协方差矩阵(14×14)足够了，即，对于维数K＝14和M＝12高斯，这对应于M(1+K+K(K+1)/2)＝1440个训练参数。

使用联合高斯混合模型，条件期望(25)可表示为分量形式条件期望的加权和，这是高斯情况的总所周知的属性[39]。因此，最佳质量估计器(25)可表示为：

\hat{Q} (\tilde{Ψ}) = E {Q | \tilde{Ψ}} = Σ_{m = 1}^{M} u^{(m)} (\tilde{Ψ}) μ_{Q | \tilde{Ψ}}^{(m)} - - - (28)

其中：

u^{(m)} (\tilde{Ψ}) = \frac{ω^{(m)} N (\tilde{Ψ} | μ_{\tilde{Ψ}}^{(m)}, Σ_{\tilde{Ψ} \tilde{Ψ}}^{(m)})}{Σ_{k = 1}^{M} ω^{(k)} N (\tilde{Ψ} | μ_{\tilde{Ψ}}^{(k)}, Σ_{\tilde{Ψ} \tilde{Ψ}}^{(K)})} - - - (29)

并且

μ_{Q | \tilde{Ψ}}^{(m)} = μ_{Q}^{(m)} + Σ_{\tilde{Ψ} Q}^{(m)} {(Σ_{\tilde{Ψ} \tilde{Ψ}}^{(m)})}^{- 1} (\tilde{Ψ} - μ_{\tilde{Ψ}}^{(m)}) - - - (30)

其中

μ_Q ^(m)，

是第m个混合分量的和Q的均值、协方差和互协方差矩阵。

附录IV

训练

对于训练和评价过程，我们使用艾利森AB提供的11个MOS标记数据库和来自ITU-T P.Supp 23的7个类似标记数据库[43]。具有DMOS得分的数据从我们的实验中排除，例如，从ITU-T P.Supp 23，中我们排除了实验2。这些数据库中的语音材料包含以下语言的话语：英语、法语、日语、意大利语及瑞典语。数据库包含大量各种各样的失真，如：不同的编码、串联和调制噪声参考单元(MNRU)[44]条件以及分组丢失、背景噪声、噪声抑制效应、开关效应、不同的输入级别等。合并的数据库的总大小为7646个平均长度为8秒的话语。

我们将可用数据库分成两部分：测试集和训练集。测试集基于来自ITUT P.Supp 23的7个数据库(1328个话语)，并且训练集基于11个艾利森的数据库(6318个话语)。测试集在训练期间不可用，而只用于评价。用于降维方案和性能评价实验的训练完全基于训练集。为提高一般化性能，我们使用具有噪声的训练过程[45]。我们通过向全局特征集Ψ添加20dB SNR的零均值白高斯噪声而创建虚拟(“有噪声”)训练模式。这样，对于每个全局特征集，我们创建了四个虚拟集，并且训练基于合并的“原始”特征和“有噪声”特征。

附录V

性能评价

此附录介绍了相对于所提出方法的预测准确性和计算复杂性的实验结果。所提出方法的性能与标准化ITU-T P.563方法进行比较。根据下式使用预测质量

与主观质量Q之间的每条件相关系数R评测估计性能：

R = \frac{Σ_{i} ({\hat{Q}}_{i} - μ_{\hat{Q}}) (Q_{i} - μ_{Q})}{\sqrt{Σ_{i} {({\hat{Q}}_{i} - μ_{\hat{Q}})}^{2} Σ_{i} {(Q_{i} - μ_{Q})}^{2}}} - - - (31)

其中μ_Q和

是所引入变量的均值，并且求和在条件之上。表II包含了在来自ITU-T P.Supp 23的7个数据库的测试集上根据所选性能量度的性能结果。ITU-T P.Supp 23实验1包含由7个标准语音编解码器(主要使用G.729语音编解码器[46])独自或者在串联配置中产生的语音编码失真。在ITU-T P.Supp 23实验3中，在各种信道误差条件下评价G.729语音编解码器，像帧擦除、随机比特误差和背景噪声。下表II中显示的测试结果清楚地表明，所提出的质量评测方法优于标准化的ITUT P.563方法。

处理时间和存储器要求是质量评测方法的重要品质因数。根据本发明的方法对存储器要求不高：需要从前一帧和当前帧(不需要将来帧)计算的12+12个标量值的缓冲器以及用于12个高斯混合的存储器。

表II

每条件相关系数R

表III示出了在所提出的质量评测方法与ITU-T P.563方法之间计算复杂性的不同。比较是在ITU-T P.563方法的优化ANSI-C实现与本发明的MATLAB 7实现之间进行，两者均在具有1GB RAM，2.8GHz的奔腾4机器上执行。输入特征{E_n ^e，T_n，f_n}易于从网络中使用的编解码器得到的情况示为NET。

表III

平均长度8秒的话语的执行时间(以秒为单位)

参考文献

ITU-T Rec.P.830，“Subjective performance assessment of telephone-bandand wideband digital codecs，”1996.

ITU-T Rec.P.800，“Methods for Subjective Determination of TransmissionQuality，”1996.

ITU-R Rec.BS.1534-1，“Method for the subjective assessment of intermedi-ate quality level of coding systems，”2005.

ITU-R Rec.BS.1284-1，“General methods for the subjective assessment ofsound quality，”2003.

ITU-T Rec.G.107，“The e-model，a computational model for use in transmis-sion planning，”2005.

M.Goldstein，“Classification of methods used for assessment of text-to-speech systems according to the demands placed on the listener，”SpeechCommunication，vol.16，pp.225-244，1995.

S.Quackenbush，T.Barnwell，and M.Clements，Objective Measures ofSpeech Quality.Prentice Hall，1988.

S.Wang，A.Sekey，and A.Gersho，“An objective measure for predictingsubjective quality of speech coders，”IEEE J.Selected Areas in Commun.，vol.10，no.5，pp.819-829，1992.

J.Beerends and J.Stemerdink，“A perceptual speech-quality measure basedon a psychoacoustic sound representation，”J.Audio Eng.Soc，vol.42，no.3，pp.115-123，1994.

S.Voran，“Objective estimation of perceived speech quality-Part I：Develop-ment of the measuring normalizing block technique，”IEEE Trans.Speech，Audio Processing，vol.7，no.4，pp.371-382，1999.

S.Voran，“Objective estimation of perceived speech quality -Part II：Evaluation of the measuring normalizing block technique，”IEEE Trans.Speech，Audio Processing，vol.7，no.4，pp.383-390，1999.

ITU-T Rec.P.862，“Perceptual evaluation of speech quality(PESQ)，”2001.

ITU-R.BS.1387-1，“Method for Objective Measurements of Perceived AudioQuality(PEAQ)，”2001.

O.Au and K.Lam，“A novel output-based objective speech quality measurefor wireless communication，”Signal Processing Proceedings，4th Int.Conf.，vol.1，pp.666-669，1998.

P.Gray，M.Hollier，and R.Massara，“Non-intrusive speech-quality assess-ment using vocal-tract models，”in Proc.IEE Vision，Image and Signal Proc-essing，vol.147，pp.493-501，2000.

J.Liang and R.Kubichek，“Output-based objective speech quality，”IEEE44th Vehicular Technology Conf.，vol.3，no.8-10，pp.1719-1723，1994.

H.Hermansky，“Perceptual linear prediction(PLP)analysis of speech，”J.Acous.Soc.Amer.，vol.87，pp.1738-1752，1990.

T.Falk，Q.Xu，and W.-Y.Chan，“Non-intrusive GMM-based speech qualitymeasurement，”in Proc.IEEE Int.Conf.Acous.，Speech，Signal Processing，vol.1，pp.125-128，2005.

G.Chen and V.Parsa，“Bayesian model based non-intrusive speech qualityevaluation，”in Proc.IEEE Int.Conf.Acous.，Speech，Signal Processing，vol.1，pp.385-388，2005.

D.Kim，“ANIQUE：An auditory model for single-ended speech qualityestimation，”IEEE Trans.Speech，Audio Processing，vol.13，pp.821-831，2005.

D.Kim and A.Tarraf，“Enhanced perceptual model for non-intrusive speechquality assessment，”in Proc.IEEE Int.Conf.Acous.，Speech，Signal Process-ing，vol.1，pp.829-832，2006.

ITU-T P.563，“Single ended method for objective speech quality assessmentin narrow-band telephony applications，”2004.

M.Werner，T.Junge，and P.Vary，“Quality control for AMR speech channelsin GSM networks，”in Proc.IEEE Int.Conf.Acous.，Speech，Signal Process-ing，vol.3，pp.1076-1079，2004.

B.C.J.Moore，An Introduction to the Psychology of Hearing.London：Academic Press，1989.

Z.Wang，A.Bovik，H.Sheikh，and E.Simoncelli，“Image quality assessment：From error visibility to structural similarity，”IEEE Trans.Image Process，vol.13，pp.600-612，2004.

R.Reynolds and A.Rix，“Quality VoIP -an engineering challenge，”BTTechnology Journal，vol.19，pp.23-32，2001.

M.Schroeder and B.Atal，“Code-excited linear prediction(CELP)：high-quality speech at very low bit rates，”in Proc.IEEE Int.Conf.Acous.，Speech，Signal Processing，vol.10，pp.937-940，1985.

S.Jayant and P.Noll，Digital Coding of Waveforms.Englewood Cliffs NJ：Prentice-Hall，1984.

H.Knagenhjelm and W.B.Kleijn，“Spectral dynamics is more importantthan spectral distortion，”in Proc.IEEE Int.Conf.Acous.，Speech，SignalProcessing，vol.1，pp.732-735，1995.

F.Norden and T.Eriksson，“Time evolution in LPC spectrum coding，”IEEETrans.Speech，Audio Processing，vol.12，pp.290-301，2004.

T.Quatieri and R.Dunn，“Speech enhancement based on auditory spectralchange，”in Proc.IEEE Int.Conf.Acous.，Speech，Signal Processing，vol.1，pp.257-260，2002.

J.Beauchamp，“Synthesis by spectral amplitude and brightness matching ofanalyzed musical instrument tones，”J.Audio Eng.Soc，vol.30，pp.396-406，1982.

S.Voran，“A simplified version of the ITU algorithm for objective measure-ment of speech codec quality，”in Proc.IEEE Int.Conf.Acous.，Speech，Sig-nal Processing，vol.1，pp.537-540，1998.

P.Devijver and J.Kittler，Pattern Recognition：A Statistical Approach.London，UK：Prentice Hall，1982.

S.Stearns，“On selecting features for pattern classifiers，”in Proc.3rd Int.Conf.on Pattern Recognition，pp.71-75，1976.

P.Pudil，F.Ferri，J.Novovicova，and J.Kittler，“Floating search methods forfeature selection with nonmonotonic criterion functions，”in Proc.IEEE Intl.Conf.Pattern Recognition，pp.279-283，1994.

T.Soderstrom，Discrete-time Stochastic Systems.London：Springer-Verlag，second ed.，2002.

A.Dempster，N.Lair，and D.Rubin，“Maximum likelihood from incompletedata via the EM algorithm，”Journal Royal Statistical Society.，vol.39，pp.1-38，1977.

S.M.Kay，Fundamentals of Statistical Signal Processing，Estimation Theory.Prentice Hall，1993.

W.B.Kleijn，P.Kroon，L.Cellario，and D.Sereno，“A 5.85kbps CELPalgorithm for cellular applications，”in Proc.IEEE Int.Conf.Acous.，Speech，Signal Processing，vol.2，pp.596-599，1993.

R.Laroia，N.Phamdo，and N.Farvardin，“Robust and efficient quantizationof speech LSP parameters using structured vector quantizers，”in Proc.IEEEInt.Conf.Acous.，Speech，Signal Processing，vol.1，pp.641-644，1991.

DARPA-TIMIT，“Acoustic-phonetic continuous speech corpus，NIST SpeechDisc 1-1.1，”1990.

ITU-T Rec.P.Supplement 23，“ITU-T coded-speech database，”1998.

ITU-T.Rec.P.810，“Modulated Noise Reference Unit，”1996.

R.Duda，P.Hart，and D.Stork，Pattern Classification.Wiley-Interscience，second ed.，2001.

ITU-T.Rec.G.729，“Coding of speech at 8 kbit/s using conjugate-structurealgebraic-code-excited linear prediction(CS-ACELP)，”1996.

Claims

1.一种非侵入信号质量评测方法，包括以下步骤：

确定表示信号帧的自回归模型的激励方差、基音周期和线谱频率系数的参数

从所述参数提取表示所述信号所选帧

结构信息的每帧特征向量(Φ(n))集合；

从所选特征向量分量(Φ₁，Φ₂，...Φ₁₁)的预定统计矩确定特征向量(Φ(n))所述集合上的全局特征集

从所述全局特征集

预测信号质量度量

其中，只选择具有位于预定多维窗口(Θ)内的特征向量(Φ(n))的帧

2.如权利要求1所述的方法，包括如下步骤：通过高斯混合概率模型映射来预测所述信号质量度量。

3.如前面权利要求1-2中任一项所述的方法，包括如下步骤：从所述所选特征向量分量的统计特性均值、方差、偏斜和峰度确定所述全局特征集

4.如前面权利要求1-2中任一项所述的方法，包括如下步骤：从表示所述信号的比特流获得所述参数。

5.如前面权利要求1-2中任一项所述的方法，包括如下步骤：从所述信号的波形获得所述参数。

6.如前面权利要求1-2中任一项所述的方法，其中所述信号是语音信号。

7.如前面权利要求1-2中任一项所述的方法，其中所述特征向量包括至少一个以下特征：谱平坦度(Φ₁)及谱平坦度的时间导数、谱动力学(Φ₂)及谱动力学的时间导数、谱矩心(Φ₃)及谱矩心的时间导数、激励方差(Φ₄)及激励方差的时间导数、信号方差(Φ₅)及信号方差的时间导数、基音周期(Φ₆)及基音周期的时间导数。

8.一种非侵入信号质量评测设备，包括：

特征向量计算器(60)，用于确定表示信号帧(Ω)的自回归模型的激励方差、基音周期和线谱频率系数的参数

并从所述参数提取表示所述信号结构信息的每帧特征向量(Φ(n))；

帧选择器(62)，用于选择每帧特征向量(Φ(n))集合；

部件(66，68，70，72，74)，用于从所选特征向量分量(Φ₁，Φ₂，...Φ₁₁)的预定统计矩确定特征向量(Φ(n))所述集合上的全局特征集

质量预测器(76)，用于从所述全局特征集

预测信号质量度量

其中，所述帧选择器(62)设置为只包括具有所述集合中位于预定多维窗口(Θ)内的特征向量(Φ(n))的帧

9.如权利要求8所述的设备，其中所述质量预测器设置为通过高斯混合概率模型映射来预测所述信号质量度量。

10.如权利要求8或9所述的设备，其中用于确定所述全局特征集

的所述部件(66，68，70，72，74)设置为确定所述所选特征向量分量的统计特性均值、方差、偏斜和峰度。