CN105282347B

CN105282347B - 语音质量的评估方法及装置

Info

Publication number: CN105282347B
Application number: CN201410350992.0A
Authority: CN
Inventors: 张剑寅; 刘宝光; 费泽松; 王晶
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2014-07-22
Filing date: 2014-07-22
Publication date: 2018-06-01
Anticipated expiration: 2034-07-22
Also published as: CN105282347A

Abstract

本发明提供了一种语音质量的评估方法及装置，属于通信领域。其中，该语音质量的评估方法包括：设置语音通话所需的通话参数，所述通话参数至少包括有客户端抖动缓存的最大值和网络抖动；获取多组通话参数分别对应的退化语音样本，根据得到的多个退化语音样本和所述通话参数计算得到传输损伤系数R；根据所述传输损伤系数R得到语音质量的平均意见值MOS。本发明的技术方案能够更加准确的评估基于IP网络的语音质量。

Description

语音质量的评估方法及装置

技术领域

本发明涉及通信领域，特别是指一种语音质量的评估方法及装置。

背景技术

随着通信技术的不断发展，TD-LTE(Time Division Long Term Evolution,分时长期演进)网络已经进入了人们的视野之中，在TD-LTE系统提供的众多业务中，语音业务是最基本最重要的业务，且语音业务的承载已不再是传统的电路域交换方式而是采用与数据业务相同的分组域交换方式，语音业务将通过IP网络实现。因此，相对于传统语音业务而言，IP网络层的参数将会成为影响TD-LTE系统中语音业务体验质量(Quality ofExperience，QOE)的关键因素，因此，如何通过网络参数客观评估TD-LTE系统中的语音质量是当下研究的重点。

现阶段IP网络中的语音质量评估主要采用PESQ模型、E-MODEL模型以及PESQ/E-MODEL混合模型三种评估方案。

PESQ(Perceptual evaluation of speech quality)即感知语音质量评估，是ITU-T(国际电信联盟远程通信标准化组织)在P.862建议书中提供的客观MOS(MeanOpinion Score，平均意见值)分评价方法，其主要原理如下所述：开始时两个信号都通过电平调整，再用输入滤波器模拟标准电话听筒进行滤波(FFT)。这两个信号要在时间上对准，并通过听觉变换，这个变换包括对系统中线性滤波和增益变化的补偿和均衡。提取出两个失真参数，在频率和时间上总和起来，映射到对MOS分的预测。在PESQ方案中，需要获得原始语音样本以及经过网络损伤后的退化语音样本，通过PESQ算法对两种样本进行对比，得到最终的MOS分数。PESQ算法对传统电路域交换方式的语音有很准确的评估，但对TD-LTE系统的语音而言，未考虑一些网络层参数如时延等对语音质量的影响，因此并不适合对基于IP网络的语音进行质量评估。

E-MODEL是ITU-T在G.107中提供的客观MOS分评价方法，也是目前应用最为广泛的非侵入式客观语音质量评价方法，此方法是一种基于参数计算的评估模型并且假定各类的损伤在传输性能等级系数R的标尺上是相叠加的。这些参数共同决定了基本信噪比R_o、I_e-eff(有效设备损伤系数，由设备损伤系数I_e计算得出)、时延损伤I_d以及同时损伤系数I_s。这4个参数以及获益系数A(在有其他优势引入用户时使损伤系数得到补偿)共同决定了传输性能等级系数R，任何用E模型计算的第一步结果是传输性能等级系数R，它将与所考虑的连接相关的所有传输参数组合起来。传输性能等级系数R由下式构成：

R＝R₀-I_e-eff-I_d-I_s+A

最后通过ITU G.107中提供的转换公式将R值转换为MOS分。

图1为E-MODEL/PESQ混合方案的实施结构图，其主要分为两个部分：一是通过网络丢包模拟算法对原始语音进行网络丢包模拟，并选用几种不同的编码方式，随后利用PESQ算法对原始语音以及退化语音进行对比，得到一个MOS分值，之后通过公式(1)和(2)得到与之对应的I_e：

R＝3.026MOS³-25.314MOS²+87.060MOS-57.336 (1)

I_e＝R₀-R (2)

在通过实验得到大量数据后，通过数据拟合得到编码方式、网络丢包到I_e的映射模型；二是通过对E-MODEL中I_d参数的计算进行仿真，得到单向传输时延D到I_d的映射模型，最后将I_d，I_e两个参数作为输入加入到E-MODEL当中，得到最后的MOSc分结果，以该结果作为语音质量的客观评估分数。

可以看出，在现有的基于IP网络的语音质量客观评估方案中，并未考虑网络的抖动值以及客户端的抖动缓存大小对语音质量的影响。在实际网络中，不仅网络传输过程会造成数据包的丢失，在客户端内也会产生丢包现象，这种丢包现象是由网络的抖动值和客户端的抖动缓存大小共同造成的，因此通过单纯的网络丢包模拟无法准确的评估语音质量的损伤。

发明内容

本发明要解决的技术问题是提供一种语音质量的评估方法及装置，能够更加准确的评估基于IP网络的语音质量。

为解决上述技术问题，本发明的实施例提供技术方案如下：

一方面，提供一种语音质量的评估方法，包括：

设置语音通话所需的通话参数，所述通话参数至少包括有网络传输时延、客户端抖动缓存的最大值和网络抖动；

获取多组通话参数分别对应的退化语音样本，根据得到的多个退化语音样本和所述通话参数计算得到传输损伤系数R；

根据所述传输损伤系数R得到语音质量的平均意见值MOS。

进一步地，所述获取多组通话参数分别对应的退化语音样本，根据得到的多个退化语音样本和所述通话参数计算得到传输损伤系数R包括：

在相同的通话参数下进行测试获取多个退化语音样本，将每个退化语音样本与参考语音样本进行对比，得到每个退化语音样本的语音质量评分MOSi，并将相同的通话参数下退化语音样本的平均MOSi分值作为该组通话参数对应的语音质量分值；

设置多组不同的通话参数，分别获取每组通话参数对应的语音质量分值，得到每个语音质量分值对应的I_ej-o值，并通过得到的多个I_ej-o值确定设备损伤系数I_ej；

根据所述通话参数计算得到时延损伤I_d；

根据所述设备损伤系数I_ej和所述时延损伤I_d计算得到所述传输损伤系数R。

进一步地，具体通过以下公式得到每个语音质量分值对应的I_ej-o值：

R₁＝3.026MOS₁ ³-25.314MOS₁ ²+87.060MOS₁-57.336

I_ej-o＝R₀-1.29*R₁

其中，R₀为基本信噪比，MOS₁为所述语音质量分值。

进一步地，所述通过得到的多个I_ej-o值确定设备损伤系数I_ej包括：

对得到的多个I_ej-o值进行多项式拟合，得到在固定客户端抖动缓存的最大值下网络丢包和网络抖动到设备损伤系数I_ej的映射模型。

进一步地，所述根据所述通话参数计算得到时延损伤I_d包括：

通过公式I_d＝I_dte+I_dle+I_dd计算得到时延损伤I_d；

其中，I_dte为扬声器回声引起的损伤，I_dle为受话器回声引起的损伤，I_dd为端到端时延D，D＝T_A+H(Max-2J)，T_A为网络传输时延，Max为客户端抖动缓存最大值，J为网络抖动，当(Max-2J)＞0时，H(Max-2J)＝2J，否则，H(Max-2J)＝Max。

进一步地，具体通过以下公式计算得到所述传输损伤系数R：

R＝R₀-I_d-I_ej+A

其中，A为获益系数。

本发明实施例还提供了一种语音质量的评估装置，包括：

仿真模块，用于设置语音通话所需的通话参数，所述通话参数至少包括有网络传输时延、客户端抖动缓存的最大值和网络抖动；

处理模块，用于获取多组通话参数分别对应的退化语音样本，根据得到的多个退化语音样本和所述通话参数计算得到传输损伤系数R；

计算模块，用于根据所述传输损伤系数R得到语音质量的平均意见值MOS。

进一步地，所述处理模块包括：

测试子模块，用于在相同的通话参数下进行测试获取多个退化语音样本，将每个退化语音样本与参考语音样本进行对比，得到每个退化语音样本的语音质量评分MOSi，并将相同的通话参数下退化语音样本的平均MOSi分值作为该组通话参数对应的语音质量分值；

处理子模块，用于设置多组不同的通话参数，分别获取每组通话参数对应的语音质量分值，得到每个语音质量分值对应的I_ej-o值，并通过得到的多个I_ej-o值确定设备损伤系数I_ej；

计算子模块，用于根据所述通话参数计算得到时延损伤I_d，并根据所述设备损伤系数I_ej和所述时延损伤I_d计算得到所述传输损伤系数R。

进一步地，所述处理子模块具体用于通过以下公式得到每个语音质量分值对应的I_ej-o值：

R₁＝3.026MOS₁ ³-25.314MOS₁ ²+87.060MOS₁-57.336

I_ej-o＝R₀-1.29*R₁

其中，R₀为基本信噪比，MOS₁为所述语音质量分值。

进一步地，所述处理子模块具体用于对得到的多个I_ej-o值进行多项式拟合，得到在固定客户端抖动缓存的最大值下网络丢包和网络抖动到设备损伤系数I_ej的映射模型。

进一步地，所述计算子模块具体用于通过公式I_d＝I_dte+I_dle+I_dd计算得到时延损伤I_d；

进一步地，所述计算子模块具体用于通过以下公式计算得到所述传输损伤系数R：

R＝R₀-I_d-I_ej+A

其中，A为获益系数。

本发明的实施例具有以下有益效果：

上述方案中，提出了一种新的语音质量的评估方法，通过引入网络抖动及客户端最大抖动缓存两个评估参数，可以更加准确的评估基于IP网络的语音质量，能够更好的反映用户的体验。

附图说明

图1为E-MODEL/PESQ混合方案的结构示意图；

图2为本发明实施例语音质量的评估方法的流程示意图；

图3为本发明实施例语音质量的评估装置的结构框图；

图4为本发明实施例语音质量的评估方法的整体框图；

图5为语音仿真平台的结构示意图；

图6为参数映射关系示意图；

图7为网络丢包、网络抖动与I_ej的映射关系图；

图8为网络丢包、网络抖动与MOS分的映射关系示意图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例提供一种语音质量的评估方法及装置，能够更加准确的评估基于IP网络的语音质量。

图2为本发明实施例语音质量的评估方法的流程示意图，如图2所示，本实施例包括：

步骤101：设置语音通话所需的通话参数，所述通话参数至少包括有网络传输时延、客户端抖动缓存的最大值和网络抖动；

步骤102：获取多组通话参数分别对应的退化语音样本，根据得到的多个退化语音样本和所述通话参数计算得到传输损伤系数R；

步骤103：根据所述传输损伤系数R得到语音质量的平均意见值MOS。

本发明实施例语音质量的评估方法，通过引入网络抖动及客户端最大抖动缓存两个评估参数，可以更加准确的评估基于IP网络的语音质量，能够更好的反映用户的体验。

进一步地，本发明的另一实施例中，包括上述步骤的基础上，所述获取多组通话参数分别对应的退化语音样本，根据得到的多个退化语音样本和所述通话参数计算得到传输损伤系数R包括：

根据所述通话参数计算得到时延损伤I_d；

进一步地，本发明的另一实施例中，包括上述步骤的基础上，具体通过以下公式得到每个语音质量分值对应的I_ej-o值：

R₁＝3.026MOS₁ ³-25.314MOS₁ ²+87.060MOS₁-57.336

I_ej-o＝R₀-1.29*R₁

其中，R₀为基本信噪比，MOS₁为所述语音质量分值。

进一步地，本发明的另一实施例中，包括上述步骤的基础上，所述通过得到的多个I_ej-o值确定设备损伤系数I_ej包括：

进一步地，本发明的另一实施例中，包括上述步骤的基础上，所述根据所述通话参数计算得到时延损伤I_d包括：

通过公式I_d＝I_dte+I_dle+I_dd计算得到时延损伤I_d；

进一步地，本发明的另一实施例中，包括上述步骤的基础上，具体通过以下公式计算得到所述传输损伤系数R：

R＝R₀-I_d-I_ej+A

其中，A为获益系数。

本发明实施例还提供了一种语音质量的评估装置，如图3所示，包括：

本发明实施例语音质量的评估装置，通过引入网络抖动及客户端最大抖动缓存两个评估参数，可以更加准确的评估基于IP网络的语音质量，能够更好的反映用户的体验。

进一步地，所述处理模块包括：

R₁＝3.026MOS₁ ³-25.314MOS₁ ²+87.060MOS₁-57.336

I_ej-o＝R₀-1.29*R₁

其中，R₀为基本信噪比，MOS₁为所述语音质量分值。

R＝R₀-I_d-I_ej+A

其中，A为获益系数。

下面结合附图以及具体的实施例对本发明的语音质量的评估方法进行详细介绍：

在E-MODEL/PESQ混合方案中只通过PESQ建立语音编码方式及网络传输丢包到I_e的映射模型，且在计算单向时延时，只将群时延(平均传输时延)作为时延损伤I_d的唯一影响因素，没有考虑到客户端自适应抖动缓存的大小对时延损伤I_d的影响。在实际网络中，不仅网络传输过程会造成数据包的丢失，在客户端内也会产生丢包现象，这种丢包是由网络的抖动值和客户端的抖动缓存大小共同造成的，因此通过单纯的网络模拟产生的传输丢包无法准确的评估语音质量的损伤。此外，客户端自适应抖动缓存的大小对时延损伤I_d会有一定的影响，因此仅仅通过群时延的大小不能准确反映出在语音通话过程中用户对时延主观感受的影响。

本发明提出了一种能够全面评估网络参数和客户端参数对VoLTE(基于IP多媒体子系统的语音业务)语音质量影响的方法，本发明通过多项式拟合得到语音质量评估模型，模型训练所需数据通过仿真采集获得。本发明在对语音质量评估时不需要获取原始语音样本及退化语音样本，仅根据语音通话过程中的一些参数(丢包、时延、抖动、抖动缓存等)就可以对VoLTE语音质量进行预测，图4为本发明实施例语音质量的评估方法的整体框图。

本发明的语音质量的评估方法具体包括以下步骤：

步骤1：建立语音通话仿真平台，在建立通话前设置语音通话仿真平台所需的网络参数；

本发明旨在研究客户端参数及网络参数与语音质量之间的映射模型，建立的语音通话仿真平台如图3所示，包括客户端A、客户端B及网络模拟器三部分，语音通话仿真平台中的网络模拟器可以使用网络仿真软件WANem来实现。在建立通话前，通过WANem软件设置通话过程中的时延、丢包、网络抖动三个网络参数。

步骤2：设置语音通话仿真平台中的客户端参数；

在TD-LTE系统中，语音业务与数据业务相同，都是采用分组域交换方式，语音通话是与IP网络相结合的VoIP(Voice over Internet Protocol，模拟信号Voice数字化)方式，因此在客户端上使用VoIP通话软件(如Ekiga)来完成客户端A与客户端B之间的通话。在通话建立前，设置语音编码方式以及客户端抖动缓存的最大值。根据TD-LTE系统特性，本发明中使用的编码器可以是AMR-WB编码器，客户端抖动缓存最大值是指客户端上自适应抖动缓存所能达到的最大长度。

步骤3：采集退化语音样本及其对应的网络参数值；

在上述步骤完成之后，通过语音通话仿真平台对VoIP语音的实际传输进行模拟，获取退化语音样本并保存。进一步地，可以更改丢包、时延、网络抖动及抖动缓存值的设置并获取对应网络参数下的退化语音样本，通过在相同参数下的大量测试获取大量的退化语音样本，以保证训练模型的可靠性。

步骤4：根据采集到的数据建立语音质量的评估模型；

利用步骤3所得到的退化语音样本及其对应的网络参数值，对语音质量的评估模型进行训练，本步骤包含以下四步：

(1)、利用PESQ算法将退化语音样本与参考语音样本进行对比，得到每条退化语音样本的语音质量评分MOSi，统计相同的网络参数及客户端参数下语音质量的平均MOS分值，获得不同网络参数及客户端参数下的多个不同的平均MOS分值，并通过转换公式(3)和(4)得到各MOS分值对应的I_ej-o值，I_ej-o值是本发明中提出的一个新参数，与标准E-MODEL模型中的有效设备损伤系数I_e-eff类似，不同的是本发明中的I_ej-o值是由网络传输中的丢包及网络中的抖动、客户端的抖动缓存共同决定的，如图6所示，而标准E-MODEL模型中的I_e-eff仅考虑网络传输中的丢包。

R₁＝3.026MOS₁ ³-25.314MOS₁ ²+87.060MOS₁-57.336 (3)

I_ej-o＝R₀-1.29*R₁ (4)

其中，MOS₁为所述平均MOS分值，设置的数值1.29参考ITU G.107.1wideband E-Model部分内容，针对AMR-WB编码，将R的系数值选取为1.29。

(2)、将(1)中得到不同网络丢包及网络中的抖动、客户端的最大抖动缓存对应的I_ej-o值，通过多项式拟合的方法对I_ej-o值进行拟合，得到在固定最大抖动缓存情况下网络丢包和网络抖动到设备损伤系数I_ej的映射模型：I_ej＝g(P_n,D_j)，式中I_ej与I_ej-o所表示的含义相同，不同点在于I_ej-o是通过对原始采集的数据处理所得，I_ej是通过多项式拟合的方法得到，目的是为了利用数学模型建立设备损伤系数与网络丢包、网络抖动及客户端抖动缓存最大值之间的映射关系。其中，P_n为网络拥塞造成的丢包，D_j为网络抖动造成的丢包，D_j是由网络抖动和客户端抖动缓存最大值决定的。图7为客户端抖动缓存最大值为100ms时，网络丢包和网络抖动与I_ej的映射模型。

(3)、利用步骤2中采集的客户端抖动缓存、网络抖动、网络传输时延及端到端的时延D这几个参数的相关数据，通过数据分析可得到客户端抖动缓存、网络抖动、网络传输时延到D的映射模型，参数映射关系如图6所示，映射模型为：D＝T_A+H(Max-2J)，其中T_A为网络传输时延，Max为客户端抖动缓存最大值(ms)，J为网络抖动值(ms)，当(Max-2J)＞0时，H(Max-2J)＝2J，否则，H(Max-2J)＝Max。将D值作为输入，可得到时延损伤I_d的大小。

I_d＝I_dte+I_dle+I_dd (5)

其中，I_dte为扬声器回声引起的损伤，I_dle代表由于受话器回声引起的损伤，I_dd等于端到端时延D。

(4)、利用E-model算法加入抖动缓存及平均时延对语音质量的影响，并通过计算公式(6)计算传输损伤系数R

R＝R₀-I_d-I_ej+A (6)

式中R₀、A参数的计算均采用G.107.1中的标准模型，而I_ej的计算则使用(2)中通过多项式拟合得到的映射模型。

依据G.107.1标准中提供的R到MOS分的转换公式得到客观评估分值，图8为时延为100ms，抖动缓存最大值为100ms时，网络丢包和网络抖动与MOS分的映射模型。

现有技术只建立了网络丢包到丢包损伤的映射模型，没有考虑网络抖动及客户端抖动缓存造成的客户端丢包，且现有技术中未考虑抖动缓存对语音传输时延的影响，因此现有的语音评估模型不能很好的评估基于IP网络的语音质量，本发明针对现有技术的不足之处提出了一种新的语音质量的评估方法，通过引入网络抖动及客户端最大抖动缓存两个评估参数，可以更加准确的评估VoLTE宽带语音质量，能够更好的反映用户的体验。

此说明书中所描述的许多功能部件都被称为模块，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同物理上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上(包括在不同存储设备上)，并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

在本发明各方法实施例中，所述各步骤的序号并不能用于限定各步骤的先后顺序，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，对各步骤的先后变化也在本发明的保护范围之内。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音质量的评估方法，其特征在于，包括：

设置语音通话所需的通话参数，所述通话参数至少包括有客户端抖动缓存的最大值和网络抖动；

根据所述传输损伤系数R得到语音质量的平均意见值MOS；

所述获取多组通话参数分别对应的退化语音样本，根据得到的多个退化语音样本和所述通话参数计算得到传输损伤系数R包括：

根据所述通话参数计算得到时延损伤I_d；

2.根据权利要求1所述的语音质量的评估方法，其特征在于，具体通过以下公式得到每个语音质量分值对应的I_ej-o值：

R₁＝3.026MOS₁ ³-25.314MOS₁ ²+87.060MOS₁-57.336

I_ej-o＝R₀-1.29*R₁

其中，R₀为基本信噪比，MOS₁为所述语音质量分值。

3.根据权利要求1所述的语音质量的评估方法，其特征在于，所述通过得到的多个I_ej-o值确定设备损伤系数I_ej包括：

4.根据权利要求1所述的语音质量的评估方法，其特征在于，所述根据所述通话参数计算得到时延损伤I_d包括：

通过公式I_d＝I_dte+I_dle+I_dd计算得到时延损伤I_d；

5.根据权利要求2所述的语音质量的评估方法，其特征在于，具体通过以下公式计算得到所述传输损伤系数R：

R＝R₀-I_d-I_ej+A

其中，A为获益系数。

6.一种语音质量的评估装置，其特征在于，包括：

计算模块，用于根据所述传输损伤系数R得到语音质量的平均意见值MO；

所述处理模块包括：

7.根据权利要求6所述的语音质量的评估装置，其特征在于，所述处理子模块具体用于通过以下公式得到每个语音质量分值对应的I_ej-o值：

R₁＝3.026MOS₁ ³-25.314MOS₁ ²+87.060MOS₁-57.336

I_ej-o＝R₀-1.29*R₁

其中，R₀为基本信噪比，MOS₁为所述语音质量分值。

8.根据权利要求6所述的语音质量的评估装置，其特征在于，所述处理子模块具体用于对得到的多个I_ej-o值进行多项式拟合，得到在固定客户端抖动缓存的最大值下网络丢包和网络抖动到设备损伤系数I_ej的映射模型。

9.根据权利要求6所述的语音质量的评估装置，其特征在于，所述计算子模块具体用于通过公式I_d＝I_dte+I_dle+I_dd计算得到时延损伤I_d；

10.根据权利要求7所述的语音质量的评估装置，其特征在于，所述计算子模块具体用于通过以下公式计算得到所述传输损伤系数R：

R＝R₀-I_d-I_ej+A

其中，A为获益系数。