CN1592236A

CN1592236A - 一种测试语音质量的方法及装置

Info

Publication number: CN1592236A
Application number: CN 03156510
Authority: CN
Inventors: 关方
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2003-09-03
Filing date: 2003-09-03
Publication date: 2005-03-09
Also published as: WO2005022786A1

Abstract

本发明提供了一种测试语音质量的方法，该方法在IP网络被测试网段的主叫端利用包括本端和被叫端IP地址的参数向被叫端发送参考语音文件，被叫端利用包括主叫端和被叫端IP地址的参数接收通过被测试网段传输到本端后形成的降级语音文件，最后，利用所述参考语音文件和所述降级语音文件进行语音质量的评估计算，获得被测试网段的承载语音质量。本发明提供了的测试IP网络承载语音质量的装置，包括用户接口模块21，外部接口模块22，发送模块23，接收模块24，文件转换模块25，PESQ计算模块26，采用上述方案对IP网络进行承载语音质量进行测量和评估的成本低，且使用方便、灵活。

Description

一种测试语音质量的方法及装置

技术领域

本发明涉及通信网络的测试方法，尤其是应用于IP网的一种测试语音质量的方法及装置。

背景技术

随着下一代网络(NGN)技术的不断成熟，在IP网上承载语音得到了越来越广泛的应用。以图1为例，各种媒体网关(MG)，会话初始协议(SIP)终端，H.323协议终端、H.248终端以及各种话机与IP网络直接或间接连接，利用IP网络进行多媒体数据的传输，例如语音的传输，即把用户的语音信号编码成G.711协议、G.729协议或G.723.1协议等格式的能在IP上传输的语音帧，同时也把IP网络上的G.711，G.729或者G.723.1的语音帧解码成语音信号。为了更好地进行语音信号的传输，通常需要对IP网络的语音质量进行测试。

目前对语音质量的测试方法有主观和客观两种：主观测试方法就是由专门的语音评估小组对通话的语音质量进行评价，假设按照ITU-T的P.800标准和P.830标准实施该方法，需要挑选30-40人组成语音质量评估小组，进行培训后进行测试。该方法对测试环境有很严格的要求，比如房间的温度，反射时间，背景噪音等都有要求，通过接听评价测试，即测试者听一段事先录制好的语音，然后给出平均意见得分(MOS)值。这种方法本质上为人工测试，不但由于评估小组的成员太多，测试环境要求太高导致测试的高成本，而且需要对测试人员进行培训等，不具备客观测试的测试周期短且可重复的优点。

客观测试方法有ITU-T P.861标准介绍的感知的语音质量测试(PSQM)方法，ITU-T P.862标准介绍的语音质量的感知评估(PESQ)方法等。目前对语音质量测试采用的客观测试方法，通常都是通过模拟电话口(即Z接口)进行测试，以图2中的两部模拟话机之间进行的端到端语音质量测试为例，媒体网关MG1、MG2提供Z接口(也可以是中继媒体网关TMG、综合接入设备或接入网关AG提供的Z接口)。首先把语音质量测试仪(VQT)的两个模拟电话口接在MG1和MG2的模拟电话口处，选取一个模拟口为主叫，另一个为被叫，然后拨被叫号码，呼叫接通后，从主叫发送一个事先准备好的WAV文件，被叫侧收全wav文件后进行PESQ的计算，得出测试结果。

对于类似图2所述从一个模拟电话口到另一个模拟电话口的端到端的测试方法，必须有主叫的MG和被叫的MG参与，测试结果是语音文件经过的所有组件对语音质量影响的总和，即得出的语音质量结果包含了语音文件经过的所有IP网络上的路由器、交换机、防火墙、主叫MG和被叫MG等的影响。该方法最主要的缺点是；1、只能对提供Z接口的设备，测试结果包含了所有网络组件对语音质量的影响，不能定位对语音质量产生影响的具体组件；同时也由于它不能对除去MG的纯粹的IP网络承载语音的质量和效果进行有效评估，从而不能为象H.323终端这样的设备能否在IP网上使用提供依据；2、由于需要通过MG的模拟电话口进行测试，因此测试设备必须也具有模拟电话接口；测试用的语音文件并不是模拟信号，都是存储在计算机上的经过一定算法编码的数字信号，所以需要专门的硬件设备来实现语音文件的发送，接收，采样编码等；成本很高，如果进行异地测试，则需要两台设备，成本更高；3、只能进行端到端的测试，不能对单个的部件如一个TMG等对语音质量的影响进行评价。

发明内容

基于上面所述，本发明要解决地技术问题是，提供一种成本低、使用方便、灵活的测试语音质量的方法及装置，使用该方法和装置，能够对IP网络的任何一个网段的承载语音质量进行评估，并且能够对单个设备和节点进行承载语音质量的评估。

为此，本发明提供的测试语音质量的方法，包括：

在IP网络被测试网段的主叫端利用包括本端和被叫端IP地址的参数向被叫端发送参考语音文件；

被叫端利用包括主叫端和被叫端IP地址的参数接收通过被测试网段传输到本端后形成的降级语音文件；

利用所述参考语音文件和所述降级语音文件进行语音质量的评估计算，获得被测试网段的承载语音质量。

所述被叫端利用所述参考语音文件和接收到的降级语音文件进行语音质量的评估计算。

所述被叫端也可以将接收到的降级语音文件打包传送到所述主叫端，由主叫端利用所述参考语音文件和解包得到的降级语音文件进行语音质量的评估计算。

所述被叫端采用电子邮件或文件传输协议(FTP)方式将接收到的降级语音文件打包传送到所述主叫端

所述方法还包括：被叫端接收到降级语音文件后，判断网络抖动是否超过预先设定的阈值，如果是，对所述降级语音文件进行去抖动处理。

本发明所述语音质量的评估计算为语音质量的感知评估(PESQ)计算或感知的语音质量测试(PSQM)计算或感知分析测量系统(PAMS)计算。

所述PESQ计算采用下述步骤：

调整参考语音信号和降级语音信号到一个相同的电平等级；

对降级语音信号进行信号补偿；

对降级语音信号进行时间校正；

对参考语音信号和降级语音信号进行听觉转换；

对参考语音信号和降级语音信号进行干扰处理，然后进行语音质量的计算。

本发明提供的测试语音质量的装置，包括：

用户接口模块，用于接收用户输入的包括编解码方式、参考语音文件和被测试网段源、目的地址的测试输入参数，将所述测试输入参数传送给发送模块，以及向用户输出测试结果；

外部接口模块，用于连接外部被测试IP网络的测试端点；

发送模块，连接在所述用户接口模块和外部接口模块之间，用于与所述用户接口模块以交互方式接收所述测试输入参数，并根据所述测试输入参数生成测试语音帧通过所述外部接口模块发送给被叫端；

接收模块，连接在所述用户接口模块和外部接口模块之间，用于与所述用户接口模块以交互方式接收所述测试输入参数，并根据所述测试输入参数通过所述外部接口模块接收经过被测试网段的测试语音帧，生成降级语音文件传送给评估计算模块；

评估计算模块，连接所述用户接口模块，用于与所述用户接口模块以交互方式接收所述测试输入参数，并根据所述测试输入参数接收所述参考语音文件和降级语音文件进行语音质量的评估计算，获得被测试网段的承载语音质量。

所述装置还包括：

文件转换模块，连接所述用户接口模块，用于与所述用户接口模块以交互方式接收所述测试输入参数，并根据所述测试输入参数通过所述外部接口模块和所述接收模块接收被叫端捕获并传送来的测试语音帧，将该测试语音帧转换为降级语音文件传送给评估计算模块。

所述接收模块进一步包括网络抖动判断器和去抖动器，其中：

网络抖动判断器，用于判断网络的抖动是否超过预先设定的阈值，如果是，控制所述去抖动器对所述降级语音文件进行去抖动处理。

本发明提供的另一种测试IP网络承载语音质量的装置，包括：

用户接口模块，用于接收用户输入的包括编解码方式、参考语音文件和被测试网段的源、目的地址的所述测试输入参数，将所述测试输入参数传送给发送模块，以及向用户输出测试结果；

外部接口模块，用于连接外部被测试IP网络的测试端点；

接收模块，连接在所述用户接口模块和外部接口模块之间，用于与所述用户接口模块以交互方式接收所述测试输入参数，并根据所述测试输入参数通过所述外部接口模块接收经过被测试网段的测试语音帧或被叫端捕获并传送来的测试语音帧，生成降级语音文件传送给评估计算模块；

评估计算模块，连接所述用户接口模块，用于与所述用户接口模块以交互方式接收测试输入参数，并根据所述参数接收所述参考语音文件和降级语音文件进行语音质量的评估计算，获得被测试网段的承载语音质量。

由于本发明在IP网络被测试网段的主叫端利用包括本端和被叫端IP地址的参数向被叫端发送参考语音文件，而被叫端也利用包括主叫端和被叫端IP地址的参数接收通过被测试网段传输到本端后形成的降级语音文件，这样，即可以在被叫端利用所述参考语音文件和所述降级语音文件进行语音质量的评估计算，获得被测试网段的承载语音质量，也可以由所述被叫端将接收到的降级语音文件打包传送到所述主叫端，由主叫端利用所述参考语音文件和解包得到的降级语音文件进行语音质量的评估计算。由于利用了包括主叫端和被叫端IP地址的参数进行网络测试，就形成了对IP网络的任意网络进行承载语音质量的评估，也可以实现对任意的单个网络设备和节点进行承载语音质量的评估。另外，由于所述被叫端可以将接收到的降级语音文件打包传送到所述主叫端，这样，对被叫端没有特殊要求，只要使用通用的文件捕获工具，如微软公司操作系统的网络监视(netmonitor)工具捕获的报文，打包传送到所述主叫端，由主叫端利用所述参考语音文件和解包得到的降级语音文件进行语音质量的评估计算。因此，使用本发明的方法对IP网络进行承载语音质量进行测量和评估的成本低，且使用方便、灵活。

附图说明

图1是一个简单NGN的组网图；

图2是目前采用的IP网络语音质量客观测试方法原理图；

图3是本发明所述方法的实施例流程图；

图4是本发明所述装置的实施例框图；

图5是图4所述装置的第一个应用实施例原理图；

图6是图5所述装置的第二个应用实施例原理图；

图7是图5所述装置的第三个应用实施例原理图。

具体实施方式

下面以本发明采用ITU-T制定的G.711A编解码标准，对语音信号进行速率为64kbps脉冲编码调制(PCM)，语音质量的评估采用PESQ为例对本发明进行说明。

图3是本发明所述方法的实施例流程图。按照图3实施本发明，首先需要预先确定被测试网段的源IP地址、目的IP地址、编解码方式、打包时间间隔等参数，以及确定测试使用的参考语音文件(假设为or105.wav)。基于上述参数，在IP网络被测试网段的主叫端在步骤11利用包括本端和被叫端IP地址的参数对参考语音文件or105.wav按照指定的间隔打包编码后向被叫端发送。所述打包后的参考语音文件or105.wav按照目的IP地址被发送到被叫端，同样，被叫端在步骤12也利用包括主叫端和被叫端IP地址的参数接收通过被测试网段传输到本端后的数据包，按照预先确定的编解码方式解包，最后形成降级语音文件(假设为dg105.wav)。被叫端为了得到真实的降级语音文件，去除网络抖动对降级语音文件的影响，接着在步骤13判断网络抖动是否超过预先设定的阈值，如果超过，就在步骤14进行去抖动处理，然后在步骤15利用所述参考语音文件和所述降级语音文件进行语音质量的评估计算，获得被测试网段的承载语音质量；如果网络抖动未超过预先设定的阈值，直接在步骤15利用所述参考语音文件和所述降级语音文件进行语音质量的评估计算，即PESQ计算，从而获得被测试网段的承载语音质量。

需要指出的是，在图3所述的实施例中，可以在步骤15由所述被叫端利用所述参考语音文件和接收到的降级语音文件进行语音质量的PESQ计算。但是，为使本发明所述方法更灵活，所述步骤15也可以这样实现：所述被叫端将接收到的降级语音文件打包传送到所述主叫端，由主叫端利用所述参考语音文件和解包得到的降级语音文件进行语音质量的PESQ计算。这里所述的将降级语音文件打包传送到所述主叫端，可以由被叫端采用电子邮件的方式或文件传输协议(FTP)建议的方式，当然实际中的所述传输方式决不限于上述两种方式，例如文件共享方式等。

在图3所述的实施例中，在被叫端可以不具有PESQ计算能力。例如，在被叫端仅安装一台普通的计算机，利用该计算机上的操作系统自带的数据报捕获工具软件，如微软的netmonitor，将主叫端传送来的降级语音文件抓获(如果采用netmonitor，则抓获的为CAP文件)，然后将该CAP文件转换为dg105.wav通过另外的方式，例如上述的电子邮件的方式发送到主叫端，由主叫端进行语音质量的PESQ计算。

所述PESQ计算可以采用下述步骤：

1、调整参考语音信号和降级语音信号到一个相同的电平等级，这是为比较服务的，有利于得到更真实结果；

2、对降级语音信号进行信号补偿，由于电话设备和网络对输入的波形有滤波作用，所以PESQ计算前必须对信号进行补偿，以消除这些因素造成的影响；

3、对降级语音信号进行时间校正，这是由于系统或IP网络可能包含时延，并且在一次测试中会改变好几次，例如VOIP网络经常有一个变化的时延，因此深对变化的时延要进行时间校正；

4、对参考语音信号和降级语音信号进行听觉转换，参考信号和降级信号通过一个模拟人类听觉的关键特性的系统进行听觉转换，因此需要该过程把对于接听者来说不能听见的信号删除；

5、对参考语音信号和降级语音信号进行干扰处理，即运用非线性平均算法对误差曲面特定区域的干扰参数进行计算，然后进行语音质量的计算。

还需要指出，图3所述实施例中的所述语音质量的评估计算可以采用PESQ计算，也可以采用其它公知的计算方法，如感知的语音质量测试(PSQM)计算或感知分析测量系统(PAMS)计算等。

图4是本发明所述装置的实施例框图。图4所述的装置包括用户接口模块21，外部接口模块22，发送模块23，接收模块24，文件转换模块25，PESQ计算模块26。

其中，所述用户接口模块21，用于接收用户输入的包括编解码方式、参考语音文件和被测试网段源、目的地址的测试输入参数，将所述测试输入参数传送给发送模块，以及向用户输出测试结果；

外部接口模块22，用于连接外部被测试IP网络的测试端点；

发送模块23，连接在所述用户接口模块和外部接口模块之间，用于与所述用户接口模块以交互方式接收用户输入的测试输入参数，所述参数包括源IP地址，目的IP地址，编解码方式，打包间隔和发送的语音(wav)文件名等，并根据所述测试输入参数中的编解码方式，打包间隔，编码打包生成测试语音帧通过所述外部接口模块发送给被叫端(本例中发送的文件是符合ITU-T提供的标准的16位PCM编码的文件，符合P.862对原始输入语音文件的要求)。

接收模块24，连接在所述用户接口模块和外部接口模块之间，用于与所述用户接口模块以交互方式接收所述测试输入参数，这里所述参数包括源IP地址，目的IP地址，去抖动缓冲区大小和编解码类型，以及需要保存的文件路径和文件名等；并根据所述测试输入参数中的源IP地址，通过所述外部接口模块接收经过被测试网段的符合编解码类型的测试语音帧，生成降级语音文件传送给评估计算模块。

所述接收模块24进一步包括网络抖动判断器和去抖动器(图中未绘出)，其中：

也就是说，如果网络抖动过大，就需要进行去抖动处理，采用存储器作为缓存器对接收的语音帧数据进行缓存，以得到更好的语音质量，最后再将语音帧保存成PCM编码的wav文件；之所以要进行去抖动处理的原因，在于任何分组网络由于带宽共享，导致相同用户之间的语音包到达目的地的时间和顺序不一样，比如用户A发给用户B的相同间隔20毫秒的报文1，2，3，应该是B收到报文1以后20毫秒收到报文2再20毫秒收到报文3，但是用户B收到报文1以后，可能30毫秒才收到报文2，再10毫秒收到报文3，即网络产生了抖动。一般对于语音业务，网络抖动不能超过50毫秒，所以为了去除抖动，在接收端通过缓冲区对接收数据进行缓存，比如刚才的例子，收到报文1以后缓存，等待报文2和3，然后再把报文1、2、3按20毫秒的间隔播放给用户。这样用户听到的语音质量就会比没有去除抖动时的效果好。可以提高PESQ值。

文件转换模块25，连接所述用户接口模块，用于与所述用户接口模块以交互方式接收所述测试输入参数，这里所述参数包括源IP地址，目的IP地址，编解码方式，需要转换成wav文件的cap文件名和保存成wav文件的路径和文件名，并根据所述测试输入参数通过所述外部接口模块和所述接收模块接收被叫端捕获并传送来的测试语音帧(CAP文件)，将该测试语音帧转换为降级语音文件传送给评估计算模块。本例中，所述cap文件是用netmonitor抓包捕获的报文，本模块按照源IP地址，目的IP地址和编解码类型对cap文件的报文进行过滤，对符合要求的语音帧保存成PCM编码的wav文件。

评估计算模块26，连接所述用户接口模块，用于与所述用户接口模块以交互方式接收所述测试输入参数，这里所述参数包括参考语音文件、降级语音文件和采样率，并根据所述测试输入参数接收所述参考语音文件和降级语音文件进行语音质量的评估计算，获得被测试网段的承载语音质量。

在本发明的另外实施例中，也可以不采用文件转换模块25，其功能由接收模块24完成。即接收模块24不但用于与所述用户接口模块以交互方式接收所述测试输入参数，并根据所述测试输入参数通过所述外部接口模块接收经过被测试网段的测试语音帧，还用于接收被叫端捕获并传送来的测试语音帧，从而生成降级语音文件传送给评估计算模块；

足够的采样率可以保证语音不失真的恢复，对于电话网上语音信号的采样率一般都为8000。PESQ的计算过程大致如下：首先是电平调整，把参考语音文件和降级语音文件的电平调整到与人耳等级一样的舒适等级79dB声压级，它是一个按这些点绘制的分段线性的函数{2000Hz，0dB}，{2500Hz，-5dB}，{3000Hz，-10dB}，{3150Hz，-20dB}，{3500Hz，-50dB}，{4000Hz and above，-500dB}；接着是信号补偿，信号补偿就是把语音信号的功率恢复到滤波之前的功率，公式为：

LX {(f)}_{n} = S_{l} \cdot {(\frac{P_{0} (f)}{0.5})}^{r} \cdot [{(0.5 + 0.5 \cdot \frac{{PPX}^{'}_{WIRSS} {(f)}_{n}}{P_{0} (f)})}^{r} - 1]

其中：P₀(f)为绝对门限，S_l响度标尺因子，PPY′_WIRSS(f)_n为失真音调功率密度，LX(f)_n为响度密度，γ为常数，本例是0.23。然后是时间校正，就是对两个语音文件进行比较，去除降级文件中的与原始文件不符合的部分。再进行听觉转换和干扰处理，处理函数是PESQ分值＝f(LX(f)_n)(参考P.862标准10.2.16小节)。

图5是图4所述装置的第一个应用实施例原理图。图1中，本发明所述装置为IPVOT(IP语音质量测试仪)，在被测试网段的两端各设置一个。本例说明了两端都使用IPVQT对IP网络的任意网段的承载语音质量的影响进行评估，图中所述ROUTER为路由器。实际中IPVQT可以设置在安装有win98或者win2000等操作系统的机器上，在IP网络的任何位置进行测试，测试步骤如下：1、按图连接好线路；2、两端协商好要发送的参考语音文件，所有参考语音文件为IPVQT的附属品；IPVQT1发送wav文件，比如org105.wav；同时IPVQT2在IP网络上接收需要的语音帧，转换成wav文件比如dg105.wav；

因为发送的语音文件为IPVQT所附带，在IPVQT2上把org105.wav和dg105.wav作为PESQ计算模块的输入，计算出PESQ值。也可以把dg105.wav通过电子邮件(e-mail)，ftp等方式发送给IPVQT1，由IPVQT1进行计算。

图6是图5所述装置的第二个应用实施例原理图；该图描述了一端使用IPVQT，另一端使用NetMonitor对任意网段的IP网络对语音质量的影响进行评估的情况。测试步骤如下：1、按图连接好线路；2、两端协商好要发送的参考语音文件，然后IPVQT发送wav文件，比如org105.wav；同时在对端启动NetMonitor进行抓包(假设抓住的是CAP文件)；3、对端把抓包文件比如dg105.cap通过e-mail或者ftp等传给IPVQT端；4、在IPVQT上将cap文件转换为wav文件，得到dg105.wav这个降级语音文件。5、IPVQT利用or105.wav和dg105.wav作为PESQ的输入计算PESQ值。

图7是图5所述装置的第三个应用实施例原理图。该图描述了对单个的网关设备对语音质量的影响进行评估的情况。本测试应该与传统的语音质量测试仪(VOT)配合使用，IPVQT运行在网关的IP接口处，测试步骤如下：1、按图连接好线路；2、协商好VQT和IPVQT要发送和接收的文件(本例中两者的参考文件都是ITU-T规定的已知文件)，比如or105.wav；3、VQT发送wav文件；IPVQT在网关接入IP网络处接收语音帧；保存成dg105.wav；4、接收结束后，IPVQT利用or105.wav和dg105.wav进行PESQ的计算，从而得到单个网关对语音质量的影响；本例中，同样也可以使用NetMonitor进行抓包，通过e-mail或ftp发给IPVQT，经过IPVQT转换成wav文件后进行分析。

最后还需说明，本申请文件中的抓包工具以NetMonitor为例，但是并不局限于此，例如还包括其它文件捕获工具如NetXRay，Sniffer等抓包生成的类似cap文件；同样，网关设备可以是TMG、AG和IAD等提供Z接口的设备，等等。

Claims

1、一种测试语音质量的方法，其特征在于包括：

2、根据权利要求1所述的测试语音质量的方法，其特征在于，所述被叫端利用所述参考语音文件和接收到的降级语音文件进行语音质量的评估计算。

3、根据权利要求1所述的测试语音质量的方法，其特征在于，所述被叫端将接收到的降级语音文件打包传送到所述主叫端，由主叫端利用所述参考语音文件和解包得到的降级语音文件进行语音质量的评估计算。

4、根据权利要求3所述的测试语音质量的方法，其特征在于，所述被叫端采用电子邮件或文件传输协议(FTP)方式将接收到的降级语音文件打包传送到所述主叫端

5、根据权利要求1、2、3或4所述的测试语音质量的方法，其特征在于，所述方法还包括：被叫端接收到降级语音文件后，判断网络抖动是否超过预先设定的阈值，如果是，对所述降级语音文件进行去抖动处理。

6、根据权利要求5所述的测试语音质量的方法，其特征在于，所述语音质量的评估计算为语音质量的感知评估(PESQ)计算或感知的语音质量测试(PSQM)计算或感知分析测量系统(PAMS)计算。

7、根据权利要求6所述的测试语音质量的方法，其特征在于，采用下述步骤进行PESQ计算：

调整参考语音信号和降级语音信号到一个相同的电平等级；

对降级语音信号进行信号补偿；

对降级语音信号进行时间校正；

对参考语音信号和降级语音信号进行听觉转换；

8、一种测试语音质量的装置，其特征在于包括：

外部接口模块，用于连接外部被测试IP网络的测试端点；

9、根据权利要求8所述的测试语音质量的装置，其特征在于，所述装置还包括：

10、根据权利要求8或9所述的测试语音质量的装置，其特征在于，所述接收模块进一步包括网络抖动判断器和去抖动器，其中：

11、一种测试语音质量的装置，其特征在于包括：

外部接口模块，用于连接外部被测试IP网络的测试端点；