CN110401622A

CN110401622A - 一种语音质量评估方法、装置、电子设备和存储介质

Info

Publication number: CN110401622A
Application number: CN201810378415.0A
Authority: CN
Inventors: 梁燕萍; 吕喆
Original assignee: China Mobile Communications Group Co Ltd; Research Institute of China Mobile Communication Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; Research Institute of China Mobile Communication Co Ltd
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2019-11-01
Anticipated expiration: 2038-04-25
Also published as: CN110401622B

Abstract

本发明提供了一种语音质量评估方法、装置、电子设备和存储介质，以解决现有技术中语音质量评估精度低、评估结果与实际用户感知误差较大的问题。该方法包括：按照预设的方法将语音样本及该语音样本的第一RTP码流，切分成对应的语音片段及第一RTP片段后，采用有参考的语音质量评估算法对该第一RTP片段进行评估，获取该第一RTP片段的MOS分；根据预设的目标参数，获取该第一RTP片段对应目标参数的第一参数信息，其中目标参数包括连续丢包数、包间隔、相对时延中的至少一个；根据每个第一RTP片段的MOS分与该第一RTP片段对应的第一参数信息，对语音质量评估模型进行训练，并该模型对接收到的第二RTP码流进行评估。

Description

一种语音质量评估方法、装置、电子设备和存储介质

技术领域

本发明涉及无线技术领域，尤其涉及一种语音质量评估方法、装置、电子设备和存储介质。

背景技术

流媒体数据传输多采用实时传输协议(Real-time Transport Protocol，简称RTP)，语音通信时采用的基于LTE的语音电话(Voice over LTE，简称VoLTE)和网络电话(Voice over Internet Protocol，简称VoIP)等语音数据亦采用RTP协议传输。其原理为将编码后的语音数据作为有效载荷payload，装载到RTP协议的内容部分，封装上相应的RTP包头进行数据传输，接收端再对数据进行协议解析和数据解码，还原语音内容。

其中，网络监测系统通过采集语音数据传输过程的RTP包，对RTP协议进行深度包检测(Deep Packet Inspection，简称DPI)，可获得传输的丢包率、时延、抖动指标，甚至进一步还原和分析payload部分的语音内容，从而评估传输过程的语音质量，发现语音业务质量问题。通话过程的语音质量一般采用平均意见分(Mean Opinion Score，简称MOS)进行量化评分。

现有技术中，因为无法获得用户发送端的原始参考语音，因此在DPI系统中评估全网全量用户的VoIP MOS分需采用无参考方式进行评估，其中，较为常用的是E-model模型，即通过E-model模型得到输出的质量损伤参数R(0-100分)，再根据质量损伤参数R与MOS分的转换得到语音质量的评分MOS分(0-5分)。其中得到语音质量MOS分时，由于无法获取用户发送端的原始参考语音，不能准确描述语音质量的细微变化，因此不能对于语音质量进行有参考的评估，评估精度不高，导致评估结果与实际用户感知误差较大。另由于E-model模型在进行语音质量评估时，是基于较为常用的网络参数进行评估的，因此不能准确地体现出不同RTP片段在传输过程的异常差异，不利于精准地评估MOS分。

因此，亟需一种相比E-model模型来说，评估精度更高，且更贴近用户感知的质量评估方法。

发明内容

本发明提供了一种语音质量评估方法、装置、电子设备和存储介质，以克服现有技术中无法进行有参考评估，且用于语音评估的网络参数固化，而导致的对语音质量评估精度不高、评估结果与实际用户感知误差较大的问题。

为达到上述目的，依据本发明的一个方面，提供了一种语音质量评估方法，所述方法包括：

按照预设的方法将发送端发送的语音样本及接收端接收的所述语音样本的第一RTP码流，切分成对应的语音片段及第一RTP片段，基于对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，获取该第一RTP片段的MOS分；

根据预设的目标参数，获取该第一RTP片段对应所述目标参数的第一参数信息，其中目标参数包括连续丢包数、包间隔、相对时延中的至少一个；

根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练，并基于训练完成的语音质量评估模型对接收到的第二RTP码流进行评估。

通过上述描述可知，在本发明中，先对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，得到该第一RTP片段的MOS分，然后将连续丢包数、包间隔、相对时延中的至少一个作为目标参数，并获取该第一RTP片段对应上述目标参数的第一参数信息，根每个第一RTP片段的MOS分与第一参数信息之间对应关系进行模型训练，得到语音质量评估模型，并基于该训练完成的语音质量评估模型对语音质量进行检测。由于连续丢包数可以有效地反应出该RTP片段内发生吞字、吞词或单通的现象，及因连续丢包而导致的用户感知异常的严重程度和异常时间，包间隔可以有效地反应出该RTP片段内发生语音中断的时长，相对时延可有效地反应出该RTP片段内因发生相对时延而导致的语音被拉伸变形的程度，及语音质量异常的时间占比，所以本发明中基于上述目标参数与基于有参考评估获取的MOS分的对应关系训练得到的语音质量评估模型，在进行语音质量的评估时，更贴近用户感知，从而克服了现有技术中评估结果与实际用户感知误差较大的问题。另与现有技术中相比，本发明中的语音质量评估模型在进行语音质量评估时，可基于上述目标参数，可针对每个RTP片段的中每个RTP包的参数信息进行提取，最大程度还原了该RTP片段每个RTP包在传输过程中各类异常发生的方式、次数、时长、丢包和时延异常重叠度等丰富信息，因此提高了对语音质量的评估精度。

具体地，所述基于训练完成的语音质量评估模型对接收到的第二RTP码流进行评估包括：

将所述第二RTP码流按照所述预设的方法切分为多个第二RTP片段；

针对每个第二RTP片段，根据预设的目标参数，获取该第二RTP片段对应所述目标参数的第二参数信息；

根据每个第二RTP片段对应的所述第二参数信息，及训练完成的语音质量评估模型，确定每个第二RTP片段的MOS分。

由上述可知，在进行语音质量评估模型的训练时，是根据每个第一RTP片段的MOS分与第一参数信息之间对应关系进行模型训练的。因此在基于该语音质量评估模型对第二RTP码流的语音质量进行评估时，可针对每个第二RTP片段提取到与上述相同的目标参数的第二参数信息，然后再基于该语音质量评估模型中保存的MOS分与的第一参数信息的对应关系，确定第二RTP片段的MOS分，最终通过对每个第二RTP片段的语音质量进行评估，实现对第二RTP码流的评估。其中由于上述目标参数的参数信息可更准确地反映语音质量的变化，因此获取到的每个第二RTP片段的MOS分不仅更贴近用户感知，而且还具有更高的评估精度。

具体地，当所述目标参数包括连续丢包数时，获取该RTP片段对应所述目标参数的参数信息包括以下至少一种：

获取该RTP片段的最大连续丢包数；

获取该RTP片段的连续丢包数之和；

根据所述最大连续丢包数与所述连续丢包数的和的比值，获取该RTP片段的丢包突发比；

确定该RTP片段的每个连续丢包数，针对每个预设的区间，确定归属于该区间的连续丢包数的数量；

确定该RTP片段的每个连续丢包数，针对每个预设的区间，确定归属于该区间的连续丢包数的和。

由于连续丢包数可有效地反应出该RTP片段内因连续丢包导致的吞字或吞词的现象，及因吞字或吞词发生的次数或时间而导致的用户感知异常的严重程度和异常时间，发生连续丢包数的次数越多，连续丢包数的数值越大，对语音质量的变化影响越明显，因此通过获取该RTP片段的连续丢包数，并关联出连续丢包数与该RTP片段MOS分的对应关系，能够实现更贴近用户感知的对语音质量进行评估。

具体地，当所述目标参数包括包间隔时，获取该RTP片段对应所述目标参数的参数信息包括：

根据该RTP片段中每个RTP包被接收的时间信息，确定该RTP片段中任意两个相邻的RTP包被接收的最大包间隔。

由于包间隔可有效地反应出该RTP片段内发生中断或不连续的时长，及因中断或不连续发生的时间导致的用户感知异常的异常时间，因此当该RTP片段的包间隔越大，导致RTP片段内发生中断或不连续的时长越长，对应语音质量的影响越大。

具体地，当所述目标参数包括相对时延时，所述获取该RTP片段对应所述目标参数的参数信息包括以下至少一种：

确定该RTP片段中每个RTP包的相对时延，获取相对时延中的最大值；

确定该RTP片段中每个RTP包的相对时延，获取每个相对时延的平均值；

确定该RTP片段中每个RTP包的相对时延，并确定相对时延大于预设的第一预设阈值的每个第一RTP包，针对每个第一RTP包，确定该第一RTP包及该RTP片段中该第一RTP包前一个被接收到的第二RTP包的第一发送间隔，获取每个第一RTP包对应的第一发送间隔的和；

确定该RTP片段中每个RTP包的相对时延，并确定相对时延大于预设的第二预设阈值的每个第三RTP包，针对每个第三RTP包，确定该第三RTP包及该RTP片段中该第三RTP包前一个被接收到的第四RTP包的接收间隔，获取每个第三RTP包对应的接收间隔的和；

根据每个第一RTP包对应的第一发送间隔的和，与每个第三RTP包对应的接收间隔的和的比值，获取该RTP片段中相对时延异常的RTP包的收发时间比；

其中，所述确定该RTP片段中每个RTP包的相对时延包括：

根据该RTP片段中第一个被接收到的RTP包的第一被收发时间差，及每个其他被接收到的RTP包的第二被收发时间差，确定所述第二被收发时间差与所述第一被收发时间差的差值，根据所述差值确定该RTP片段中每个RTP包的相对时延。

由于相对时延是该RTP片段内所有被接收到的RTP包与第一个被接收到的RTP包的被收发时间差的差值，也就是该RTP片段内每个包与第一个到达包之间的时延差，因此理想情况下，当第一个RTP包被接收后，后续的每个其他RTP包也应以接近0相对时延的方式被接收。如果出现了相对时延，则表明该RTP片段中存在RTP包被接收过早，或被接收过晚的现象，从而导致对该RTP片段解码后，语音波形发生不同程度的拉伸变形，同时因相对时延过长还会影响该RTP片段语音被发送或接收的时间，导致语音异常的占比增加，影响用户感知。

具体地，当所述目标参数包括连续丢包数和相对时延时，获取该RTP片段对应所述目标参数的参数信息还包括：

根据该RTP片段中第一个被接收到的RTP包的第一被收发时间差，及每个其他被接收到的RTP包的第二被收发时间差，确定所述第二被收发时间差与所述第一被收发时间差的差值，根据所述差值确定该RTP片段中每个RTP包的相对时延；

确定相对时延大于预设的第三预设阈值的每个第五RTP包，针对每个第五RTP包，根据该第五RTP包的序列号，及该RTP片段中该第五RTP包前一个被接收到的第六RTP包的序列号，确定第五RTP包及第六RTP包间的连续丢包数；

判断该连续丢包数是否大于预设的第四预设阈值，如果是，将该第五RTP包作为目标RTP包，针对每个目标RTP包，确定该目标RTP包及该RTP片段中该目标RTP包前一个被接收到的第六RTP包的第二发送间隔，获取每个目标RTP包对应的第二发送间隔的和。

当该RTP片段即出现连续丢包又相对时延过大的RTP包时，那么该RTP片段出现异常的时长就是因出现连续丢包导致异常的时长与相对时延过大导致异常的时长的和，而如果该RTP片段内的某个RTP包同时出现丢包和时延异常，那么该RTP片段出现异常的时间则会先对减少，对MOS分的劣化变小，因此该参数值可更准确地反映语音质量变化。

具体地，所述确定该RTP片段中每个RTP包的相对时延之后，所述方法还包括：

识别相对时延中的最小值，判断所述最小值是否小于0；

如果是，根据所述最小值与0的差值，确定校正参数，根据所述校正参数对每个RTP包的相对时延进行校正。

由于理想情况下，当第一个RTP包被接收后，后续的每个其他RTP包也应以接近0相对时延的方式被接收。如果出现相对时延小于0的情况，则说明该RTP片段中存在RTP包被接收过早现象，有可能导致第一个被接收的RTP包并非第一个被发送的RTP包，从而导致获取的相对时延不准确，因此需要对该RTP片段中每个RTP包的相对时延进行校正，以保证该RTP片段中每个RTP包的相对时延都大于0。

具体地，在本发明中，所述目标参数还包括丢包率和抖动。

由于丢包率可以反应出该RTP片段的丢包情况，也就是该RTP片段发生吞字或吞词现象的频率，抖动可以反应出该RTP片段中因发生抖动导致的语音数据错乱，因此还可以获取该RTP片段的丢包率和抖动，关联出丢包率、抖动与该RTP片段MOS分的对应关系，可进一步准确地反应出丢包率和延时对语音质量的影响，并关联出丢包率和延时与。

具体地，当所述目标参数包括抖动时，所述获取该RTP片段对应所述目标参数的参数信息包括：

确定该RTP片段中每个RTP包的抖动时长，并确定抖动时长大于预设的第五预设阈值的每个第七RTP包，针对每个第七RTP包，确定该第七RTP包及该RTP片段中该第七RTP包前一个被接收到的第八RTP包之间的第三发送间隔，获取每个第七RTP包对应的第三发送间隔的和。

由于一定范围内抖动会被终端解码消抖机制去除，因此在关联抖动与该RTP片段MOS分的对应关系时，本发明中使用的是参数信息是该RTP片段出现较大的抖动时，导致该RTP片段出现异常的发送时长。因此与现有技术中通过抖动进行语音质量评估相比，更具有针对性地评估了较大抖动对用户感知的影响。

具体地，获取该RTP片段的目标参数的参数信息之前，所述方法还包括：

识别该RTP片段中为激活包的每个RTP包，针对该RTP片段中的每个激活包进行后续步骤。

由于在通话持续期间，可分为激活期和静默期，而在静默期不传送任何语音信息，因此为进一步保证评估结果的准确性，还可以对该RTP片段中的每个激活包提取上述目标参数的参数信息，并根据每个激活包的目标参数的参数信息与MOS分之间的对应关系，进行模型训练，以此得到更贴近用户感知的语音质量评估模型。

具体地，所述有参考的语音质量评估算法为：感知客观语音质量评估POLQA算法，或主观语音质量评估PESQ算法，或其他基于有参考的语音质量评估算法。

其中POLQA算法和PESQ算法为现有技术中，较为常用的客观MOS分评价算法，能够基于原始输入，对RTP片段进行评估，获取有参考评估的MOS分，因此该MOS分相对于无参考获取的MOS分来说，具有较高的准确性。

具体地，所述根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练包括：

根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，采用多元非线性回归算法对语音质量评估模型进行训练；或，

根据每个第一RTP片段对应的MOS类别与该第一RTP片段对应的所述第一参数信息，采用多元非线性分类算法对语音质量评估模型进行训练。

具体地，所述多元非线性回归算法，包括基于神经网络的回归算法，支持向量机的回归算法SVR，及其他多元非线性回归算法。所述多元非线性分类算法包括基于神经网络的分类算法，支持向量机的分类算法SVC，及其他非线性多元分类算法。

由于目标参数包括连续丢包数、包间隔、相对时延中的至少一个，而在获取该RTP片段对应所述目标参数的参数信息时，连续丢包数、包间隔和相对时延又分别包括了多个参数信息，而常用的最小二乘法等多元线性回归算法很难实现高精度的评估模型构建，因此在发明中可采用多元非线性回归算法，以实现较高的训练精度。另外，为使得该语音质量评估模型输出的MOS分对应的语音质量分级类别，还可以采用多元非线性分类算法，或采用其他更细粒度的分级算法，得到对应不同等级的MOS分，更直观地评估用户体验。

具体地，所述根据每个第一RTP片段对应的MOS类别与该第一RTP片段对应的所述第一参数信息，采用多元非线性分类算法对语音质量评估模型进行训练包括：

针对每个第一RTP片段，根据该第一RTP片段的MOS分，及预先划分的MOS分区间，确定所述MOS分归属的目标MOS分区间；根据预设的MOS分区间与MOS类别的对应关系，确定所述目标MOS分区间对应的目标MOS类别；

根据每个第一RTP片段的目标MOS类别与该第一RTP片段对应的所述第一参数信息，采用多元非线性分类算法对语音质量评估模型进行训练。

也就是说，在获取第一RTP片段的MOS分之后，需根据预先划分的MOS分区间确定该MOS分归属的目标MOS分区间，然后再根据归属的目标MOS分区间，确定所述目标MOS分区间对应的目标MOS类别，进而确定该第一RTP片段对应的目标MOS类别，最后再采用多元非线性分类算法对语音质量评估模型进行训练。

具体地，获取该RTP片段对应所述目标参数的参数信息之后，所述方法还包括：

对所述参数信息进行归一化处理，并根据归一化处理后的参数信息进行后续步骤。

之所以对获取的参数信息进行归一化处理，是为了获取相对统一的归一化参数值，便于进行后续的模型训练。

依据本发明的另一个方面，还提供了一种电子设备，所述电子设备包括：第一处理器、第二处理器、第一存储器和第二存储器；

所述第一处理器，用于读取所述第一存储器中的程序，执行下列过程：按照预设的方法将发送端发送的语音样本及接收端接收的所述语音样本的第一RTP码流，切分成对应的语音片段及第一RTP片段，基于对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，获取该第一RTP片段的MOS分；根据预设的目标参数，获取该第一RTP片段对应所述目标参数的第一参数信息，其中所述目标参数包括连续丢包数、包间隔、相对时延中的至少一个；根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练；

所述第二存储器，用于对训练完成的语音质量评估模型进行存储；

所述第二处理器，用于读取所述第二存储器中的程序，并基于所述第二存储器中存储的训练完成的语音质量评估模型，对接收到的第二RTP码流进行评估。

依据本发明的另一个方面，还提供了一种语音质量评估装置，所述装置包括：

训练模块，用于按照预设的方法将发送端发送的语音样本及接收端接收的所述语音样本的第一RTP码流，切分成对应的语音片段及第一RTP片段，基于对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，获取该第一RTP片段的MOS分；根据预设的目标参数，获取该第一RTP片段对应所述目标参数的第一参数信息，其中目标参数包括连续丢包数、包间隔、相对时延中的至少一个；根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练；

评估模块，用于基于训练完成的语音质量评估模型对接收到的第二RTP码流进行评估。

依据本发明的另一个方面，还提供了一种电子设备，所述电子设备包括：第三处理器、通信接口、第三存储器和通信总线，其中，第三处理器，通信接口，第三存储器通过通信总线完成相互间的通信；

所述第三存储器中存储有计算机程序，当所述程序被所述第三处理器执行时，使得所述第三处理器执行上述语音质量评估方法中的步骤。

依据本发明的另一个方面，还提供了一种计算机可读存储介质，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行上述语音质量评估方法中的步骤。

本发明的有益效果如下：

在本发明中，先基于对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，得到该第一RTP片的MOS分，然后将连续丢包数、包间隔、相对时延中的至少一个作为目标参数，并获取该第一RTP片段对应上述目标参数的第一参数信息，根据每个第一RTP片段的MOS分与第一参数信息之间对应关系进行模型训练，得到本发明中的语音质量评估模型，并基于该训练完成的语音质量评估模型对语音质量进行检测。由于本发明中用于训练的MOS分是基于有参考的语音质量评估算法得到的，可以最大程度贴近用户感知。且本发明中的关于连续丢包数、包间隔、相对时延的参数信息，是从该RTP片段的每个RTP包所包含的序列号、被发送时间、被接收时间等原始信息中，获取到的与该RTP片段内的前一个被接收的RTP包或第一个被接收的RTP包进行对比后的异常特征，最大程度还原了该RTP片段每个RTP包在传输过程中各类异常发生的方式、次数、时长、丢包和时延异常重叠度等丰富信息。所以目标参数和MOS分之间具有显性的表征关系。因此根据该MOS分与目标参数的对应关系进行模型训练，其精度远高于现有的公知技术，且与现有技术中E-model模型采用惯用的网络参数进行语音质量评估相比，本发明中提供的语音质量评估模型能得到更贴近用户感知的MOS分，因此不仅可以提高对语音质量的评估精度，而且还能够克服评估结果与实际用户感知误差较大的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1表示本发明实施例提供的语音质量评估方法的流程图；

图2表示本发明实施例提供的基于语音质量评估模型进行评估的流程图；

图3表示本发明实施例提供的语音质量评估方法的时序流程图；

图4表示本发明实施例提供的语音质量评估方法的实施流程图；

图5表示本发明实施例提供的一种电子设备；

图6表示本发明实施例提供的语音质量评估装置的结构框图；

图7表示本发明实施例提供的一种电子设备。

具体实施方式

由于现有技术中采用E-model模型在进行语音质量评估时，无法获取用户发送端的原始参考语音，不能准确描述语音质量的细微变化，另由于其评估过程中，是基于较为常用的网络参数进行评估的，因此不能准确地体现出不同RTP片段在传输过程的异常差异，不利于精准地评估MOS分。所以存在对语音质量评估精度不高、评估结果与实际用户感知误差较大的问题。

为克服上述技术问题，本发明提供了一种语音质量的评估方法，该方法包括：按照预设的方法将发送端发送的语音样本及接收端接收的所述语音样本的第一RTP码流，切分成对应的语音片段及第一RTP片段，基于对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，获取该第一RTP片段的MOS分；根据预设的目标参数，获取该第一RTP片段对应所述目标参数的第一参数信息，其中目标参数包括连续丢包数、包间隔、相对时延中的至少一个；根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练，并基于所述语音质量评估模型对接收到的第二RTP码流进行评估。

由于在本发明中在进行语音质量评估时，先对基于对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，得到该第一RTP片的MOS分，然后将连续丢包数、包间隔、相对时延中的至少一个作为目标参数，并获取该第一RTP片段对应上述目标参数的第一参数信息，根据每个第一RTP片段的MOS分与第一参数信息之间对应关系进行模型训练，以得到本发明中的语音质量评估模型，并基于该训练完成的语音质量评估模型对语音质量进行检测。由于本发明中用于训练的MOS分是基于有参考的语音质量评估算法得到的，可以最大程度贴近用户感知。且本发明中的关于连续丢包数、包间隔、相对时延的参数信息，可表征该RTP片段传输过程中各类异常发生的方式、次数、时长、丢包和时延异常重叠度等丰富信息，因此使得该目标参数和MOS分之间具有显性的表征关系。因此根据该MOS分与目标参数的对应关系进行模型训练，其精度远高于现有的公知技术，且与现有技术中E-model模型和惯用网络参数相比，本发明中提供的语音质量评估模型不仅可以提高对语音质量的评估精度，而且还能够克服评估结果与实际用户感知误差较大的问题。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例提供的语音质量评估方法的流程图，该方法包括：

步骤S101：按照预设的方法将发送端发送的语音样本及接收端接收的所述语音样本的第一RTP码流，切分成对应的语音片段及第一RTP片段，基于对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，获取该第一RTP片段的MOS分。

其中，在将语音样本和该语音样本的第一RTP码流在切分成对应的语音片段和第一RTP片段时，优选地，可根据预设的测试间隔，将语音样本和第一RTP码流切分成多个在时间上对等、且等间隔的语音片段和第一RTP片段。当然可以理解的是，上述根据预设的测试间隔切分成对应的语音片段和第一RTP片段，仅为本发明实施例中较为优选的一种切分方式，在本发明实施例中，只需要将语音样本与第一RTP码流切分成对应的语音片段和第一RTP片段即可，对将语音样本和第一RTP码流切分成对应片段的切分方式并不进行具体限定。

由于该第一RTP片段为对语音片段进行编码后的码流，因此在采用有参考的语音质量评估算法对该第一RTP片段进行评估时，可对该第一RTP片段进行解码后，具体采用POLQA算法，或PESQ算法，或其他基于有参考的语音质量评估算法对该第一RTP片段解码后获取的语音片段，与语音样本中与该第一RTP片段对应的语音片段的声强、基音、幅度、过零率、谐噪比等声音特征进行比对和计算，获取到对该第一RTP片段有参考评估的MOS分。

其中上述POLQA算法，或PESQ算法仅为本发明实施例中较为优选的有参考的语音质量评估算法。当然可以理解的是，现有技术中较为常用的其他基于有参考的语音质量评估算法，也均在本发明实施例的保护范围内，在本发明实施例中，对此并不进行具体限定。

由于本发明实施例中所采用的参数信息较多，因此在进行语音质量评估模型训练时，针对本发明实施例中目标参数与MOS分间的关系模型构建的特点，常用的最小二乘法等多元线性回归算法很难实现高精度的评估模型构建，因此本发明实施例中需要采用机器学习的多元非线性回归算法，以实现较高的训练精度，其中，针对本发明实施例中的数据和模型特点，可用的机器学习多元非线性回归方法有基于神经网络的回归算法、支持向量机的回归算法(SVR)及其他多元非线性回归算法，进行回归模型训练，以得到适用于本发明实施例的语音质量评估模型。

其中，为使得该语音质量评估模型输出的MOS分对应的语音质量分级类别，因此在进行模型训练时，还可以采用多元非线性分类算法，或采用其他更细粒度的分级算法，得到该MOS分对应的不同MOS类别。

具体地，在采用多元非线性分类算法进行语音质量的评估时，可先将MOS分按照取值范围划分为多个区间，并将每个区间对应一个MOS类别，其中一个MOS类别对应一个语音质量分类级别，然后根据该第一RTP片段的MOS分，确定该MOS分对应的目标区间，将该目标区间对应的MOS类别确定为该RTP片段的MOS类别，也就是该RTP片段对应的语音质量分类级别。

因此，采用多元非线性分类算法进行语音质量的评估时，其输出为MOS分对应的语音质量分级类别，如表1所示，将语音质量分为如下5级，当然也可以进一步划分为更细粒度的更多级别，并分别对应不同的用户体验。

表1

类别	级别	MOS分区间	感知评估
				1	优秀	4～5	听得清楚，交流顺畅
2	良好	3～4	略有杂音，但不影响交流
				3	一般	2～3	听不太清，需要重复交流
4	差	1～2	断续严重，基本听不清，影响交流
				5	很差	0～1	几乎无声音，完全无法交流

具体地，针对多元非线性分类算法的特点，可用的机器学习多元回归方法有基于神经网络的分类算法，支持向量机的分类算法SVC，及其他非线性多元分类算法。因此，采用多元非线性分类算法进行模型训练，可更直观地评估用户体验。

当然可以理解的是，上述算法仅为在本发明实施例中多元非线性回归算法或多元非线性分类算法的优选算法，现有技术中其他较为常用的其他多元非线性回归算法或其他非线性分类算法，也均在本发明实施例的保护范围内，在本发明实施例中，对此并不进行具体限定。

步骤S102：根据预设的目标参数，获取该第一RTP片段对应所述目标参数的第一参数信息，其中目标参数包括连续丢包数、包间隔、相对时延中的至少一个。

由于在通过模型进行语音质量评估过程中，大多需基于RTP码流的物理特征进行客观评估，因此在本发明实施例中，进行模型训练时，也需获取该第一RTP片段的一些物理特征，比如该物理特征可以是该第一RTP片段中连续丢包数、包间隔、相对时延中的至少一个。其中，相对时延与常用的绝对时延定义不同，其表征该RTP片段内，所有被接收到的RTP包相对于第一个被接收到的RTP包之间的收发时间差，也就是，所有被接收到的RTP包相对于第一个被接收到的RTP包的时延差。

具体地，上述目标参数可以只包括上述物理特征中的任意一个，例如只包括连续丢包数，或者只包括包间隔，或者只包括相对时延，也可以是同时包括上述物理特征中的任意两个，例如同时包括连续丢包数和包间隔，或同时包括连续丢包数和相对时延，或同时包括包间隔和相对时延，当然较佳地是，同时包括上述三个物理特征，即同时包括连续丢包数、包间隔和相对时延。

其中，针对连续丢包数的参数信息可以为：该RTP片段的最大连续丢包数，和/或该RTP片段的中连续丢包数的和，和/或该RTP片段的丢包突发比，和/或在不同预设的区间内，对应的连续丢包数的数量及连续丢包数的和。

针对包间隔的参数信息可以为：最大包间隔。

针对相对时延的参数信息可以为：该RTP片段内的最大相对时延，和/或该RTP片段的相对时延的均值，和/或相对时延大于阈值的RTP包发生异常的发送时间或接收时间，和/或相对时延大于阈值的RTP包发生异常的发送时间与接收时间的比值。

由此可知，本发明实施例中，所采用的参数信息，与现有技术中惯用的网络参数并不相同，由于连续丢包数相关的参数信息可以有效地反应出该RTP片段内发生吞字、吞词或单通的现象，及因连续丢包而导致的用户感知异常的严重程度和异常时间，包间隔相关的参数信息可以有效地反应出该RTP片段内发生语音中断的时长，相对时延相关的参数信息可有效地反应出该RTP片段内因发生相对时延而导致的语音被拉伸变形的程度，及语音质量异常的时间占比，因此，本发明实施例可以从不同维度上还原了该RTP片段每个RTP包在传输过程中各类异常发生的方式、次数、时长、丢包和时延异常重叠度等丰富信息，准确地反应语音质量的变化。因此与现有技术相比，具有更高的评估精度。

步骤S103：根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练，并基于训练完成的语音质量评估模型对接收到的第二RTP码流进行评估。

其中，考虑到不同目标参数的单位和取值范围不同，因此在进行模型训练前，应对所有选用的目标参数在各自的取值范围内进行归一化处理，以保证各目标参数对模型的影响均衡，避免某些取值范围较大的特征对模型结果影响较大，而取值范围较小的特征对模型训练的影响不明显等问题。

由于模型训练以预测MOS分与基于有参考评估的MOS分的误差最小为目标，因此可通过误差分析，比如均方差、相关系数等指标，对评估模型的效果进行评估，如预测MOS分与有参考评估的MOS分的总体均方差最小，或相关系数最高，则通过多次迭代训练得到最优的语音质量评估模型。

由上述可知，本发明实施例中用于模型训练的MOS分是基于有参考的语音质量评估算法得到的，可以最大程度贴近用户感知。且本发明实施例中获取的连续丢包数、包间隔及相对时延，是从RTP片段的每个RTP包所包含的序列号、被发送时间、被接收时间等原始信息中，获取到的与该RTP片段内的前一个被接收的RTP包或第一个被接收的RTP包进行对比后的异常特征，因此，最大程度的还原了该RTP片段每个RTP包在传输过程中各类异常发生的方式、次数、时长、丢包和时延异常重叠度等丰富信息，因此目标参数和MOS分之间具有显性的表征关系。

因此，根据该MOS分与目标参数的对应关系进行模型训练，得到的本发明实施例中的语音质量评估模型，是基于有参考评估的MOS分与目标参数之间的评估模型，因此通过该语音质量评估模型在进行语音质量的评估时，可具有较高的评估精度，且能得到更贴近用户感知的MOS分，因此不仅可以提高对语音质量的评估精度，而且还能够克服评估结果与实际用户感知误差较大的问题。

另外，在本发明实施例中，由于在进行语音质量评估的过程中，无需对用户的语音内容进行解析，因此不仅可保护用户的隐私安全，而且还能大大够降低对语音片段进行处理时所需的开销。

实施例二

在上述实施例的基础上，通过该语音质量评估模型进行语音质量评估时，其具体流程如图2所示，包括：

步骤S201：将所述第二RTP码流按照所述预设的方法切分为多个第二RTP片段。

由于在进行语音质量的评估时，采用的是上述实施例一中的语音质量评估模型，因此，在进行语音质量评估之前，也需要将第二RTP码流切分为多个第二RTP片段。具体地，在将第二RTP码流切分为与多个第二RTP片段时，可采用与上述实施例一步骤S101中相同的预设方法，比如根据预设的测试间隔，将第二RTP码流切分为与多个等间隔的第二RTP片段。当然可以理解的是，上述仅为本发明实施例中较为优选的一种切分方式，在本发明实施例中，只需要将语音样本与第一RTP码流切分成对应的语音片段和第一RTP片段即可，对将语音样本和第一RTP码流切分成对应片段的切分方式并不进行具体限定。

步骤S202：针对每个第二RTP片段，根据预设的目标参数，获取该第二RTP片段对应所述目标参数的第二参数信息。

由上述实施例一可知，在进行模型训练时，需要根据MOS分与目标参数的对应关系进行模型训练，而目标参数是对应RTP片段的一些物理特征，具体包括连续丢包数、包间隔、相对时延中的至少一个。因此当目标参数只包括上述物理特征中的任意一个时，例如只包括连续丢包数，或者只包括包间隔，或者只包括相对时延，那么在基于该训练完成的语音质量评估模型进行语音质量评估时，对应地，需要获取第二RTP片段的连续丢包数，或者包间隔，或者相对时延；当目标参数同时包括上述物理特征中的任意两个时，例如同时包括连续丢包数和包间隔，或同时包括连续丢包数和相对时延，或同时包括包间隔和相对时延，那么在基于该训练完成的语音质量评估模型进行语音质量评估时，对应地，需要同时获取第二RTP片段的连续丢包数和包间隔，或连续丢包数和相对时延，或包间隔和相对时延；较佳地，当目标参数同时包括上述三个物理特征时，即同时包括连续丢包数、包间隔和相对时延，那么在基于该训练完成的语音质量评估模型进行语音质量评估时，对应地，需要同时获取第二RTP片段的连续丢包数、包间隔和相对时延。

另由上述实施例一可知，针对连续丢包数、包间隔及相对时延分别包括多个不同的参数信息，因此在基于该训练完成的语音质量评估模型进行语音质量评估时，对应地需获取相同的参数信息。

步骤S203：根据每个第二RTP片段对应的所述第二参数信息，及所述语音质量评估模型，确定每个第二RTP片段的MOS分。

由上述实施例一可知，在进行模型训练时，每个第一RTP片段的MOS分都是根据语音质量，基于有参考评估的算法得到的，而上述对应不同目标参数的参数信息能够准确、客观评估用户体验的语音质量，所以基于每个第一RTP片段的MOS分与该第一RTP片段的第一参数信息之间对应关系，进行训练得到的音质量评估模型。

所以在基于该语音质量评估模型对第二RTP码流的语音质量进行评估时，可针对每个第二RTP片段提取到与进行模型训练时相同目标参数的第二参数信息，然后再基于该语音质量评估模型中保存的MOS分与的第一参数信息的对应关系，确定第二RTP片段的MOS分，其中由于上述目标参数的参数信息可更准确地反映语音质量的变化，因此通过该语音质量评估模型获取到的每个第二RTP片段的MOS分不仅更贴近用户感知，而且还具有更高的评估精度。那么最终根据每个第二RTP片段的MOS分，获取到的对第二RTP码流的语音质量进行总体评估的MOS分，在贴近用户感知的同时，也同样具有更高的评估精度。

具体地，根据每个第二RTP片段的MOS分，获取对第二RTP码流的语音质量进行总体评估的MOS分时，可通过对每个第二RTP片段的MOS分取平均值，确定第二RTP码流的MOS分。或根据第二RTP片段的MOS值低于预设门限的片段数，确定第二RTP码流的MOS分低的比例等。由于根据每个RTP片段MOS分确定的RTP码流的MOS分为现有技术，因此在本发明实施例中，对最终如何根据每个第二RTP片段的MOS分，对第二RTP码流进行整体评估的方式并不进行具体限定。

实施例三

由上述实施例可知，目标参数包括连续丢包数、包间隔、相对时延中的至少一个，因此当所述目标参数包括连续丢包数时，那么获取的该RTP片段的连续丢包数的参数信息，可具体包括如下参数中的至少一种：

1、该RTP片段的最大连续丢包数

在获取该RTP片段的最大连续丢包数时，具体如下：

根据该RTP片段中被接收的每个RTP包的包头信息，获取与每一个RTP包对应的序列号，若被接收的RTP包的序列号不连续，则说明该RTP片段发生了丢包。

因此可根据公式LOSS(i)＝SN(i)-SN(i-1)-1，计算获取该RTP片段的中的每个连续丢包数。其中，i为大于等于2的整数，LOSS(i)表征该RTP片段的中的每个连续丢包数，SN(i)表征被接收到的第i个RTP包对应的序列号，SN(i-1)表征被接收到的第i-1个RTP包对应的序列号。

例如，SN(3)为10，SN(2)为5，那么第三个RTP包与第二个RTP包之间的连续丢包数即为4，同理，据此还可以确定出该RTP片段中其他的连续丢包数。然后将该RTP片段中连续丢包数的最大值，确定为该RTP片段的最大连续丢包数。

由于最大连续丢包数的数值越大，则表明该RTP片段连续丢包严重程度，具体可体现为声音出现短暂中断或长时静音，且最大连续丢包数的数值越大，则还原该RTP片段对应的语音片段所用的时间越长，对用户的感知影响越严重，那么对应的MOS值越低，因此当最大连续丢包数的数值越大时，对应的MOS值会比较低。

2、该RTP片段内连续丢包数的和

在获取该RTP片段内连续丢包数的和时，具体如下：

由于可根据公式LOSS(i)＝SN(i)-SN(i-1)-1，计算获取该RTP片段中所有连续丢包数，因此，可通过对该RTP片段中所有连续丢包数求和，获取该RTP片段内连续丢包数的和。

由于RTP片段内连续丢包数的和越大，则表明该RTP片段内丢包越严重，因此越容易出现语音中断的情况，对用户的感知影响越严重，因此对应的MOS值会比较低。

3、该RTP片段的丢包突发比

所谓丢包突发比，就是该RTP片段中，RTP片段的最大连续丢包数与连续丢包数的和的比值，也就是该RTP片段的最大连续丢包数与该RTP片段的总丢包数的比值。

在获取该RTP片段的丢包突发比时，具体如下：

根据公式P＝max(LOSS(i))/∑LOSS(i)，计算获取该RTP片段的丢包突发比。

其中丢包突发比用于表征该RTP片段内突发性连续丢包的集中程度，也就是说，在相同的丢包数下，连续丢包越集中，对语音质量的影响越严重，那么对应的MOS值越低，因此当丢包突发比越大时，对应的MOS值会比较低。

4、同一区间内连续丢包数的数量

所谓同一区间内连续丢包数的数量，也就是说，假如预设的区间为[M，N)，其中N>M>0，若N、M一般可选1、3、6、12、50及以上几组不同值，且该RTP片段的连续丢包数包括2、3、7、2，由于2、3、2介于[1，3)之间，因此归属于[1，3)区间的连续丢包数的数量即为3，7介于[6，12)之间，因此归属于[6，12)区间的连续丢包数的数量即为1。

因此，可根据公式Count{i，i∈{M≤LOSS(i)≤N}}确定区间[M，N)内的连续丢包数的数量。

由于一般连续丢1～3个包以内会导致轻微断续，3～6个包会导致吞字，6～12个包会导致吞词，12个以上会导致短暂的静音，50个以上会导致长时单通。每个区间的连续丢包数的数量可有效地反应出该RTP片段内因丢包导致的用户感知异常的次数。因此相同丢包数下，不同区间的连续丢包数的数量不同，用户感知异常的次数越多，对应的MOS值也不同。因此连续丢包数越大，且连续丢包数的数量越多，越影响用户感知，对应的MOS值越低。

5、同一区间内连续丢包数的和

所谓同一区间内连续丢包数的数量，也就是说，假如预设的区间为[M，N)，其中N>M>0，若N、M一般可选1、3、6、12、50及以上几组不同值，且该RTP片段的连续丢包数包括2、3、15、2，由于2、3、2介于[1，3)之间，因此归属于[1，3)区间的连续丢包数的和即为2+3+2＝7，由于15介于[12，50)之间，因此归属于[12，15)区间的连续丢包数的和即为15。

因此可根据公式∑_{i∈{M≤LOSS(i)≤N}}LOSS(i)确定区间[M，N)内的连续丢包数的和。

由于一般连续丢1～3个包以内会导致轻微断续，3～6个包会导致吞字，6～12个包会导致吞词，12个以上会导致短暂的静音，50个以上会导致长时单通。每个区间的连续丢包数的数量可有效地反应出该RTP片段内因丢包导致的用户感知异常的严重程度和异常时间。因此连续丢包数的和越大，因丢包导致的用户感知异常的严重程度越重，异常时间越长，越影响用户感知，对应的MOS值越低。

实施例四

由上述实施例可知，目标参数包括连续丢包数、包间隔、相对时延中的至少一个，当所述参数信息包括包间隔时，那么获取的该RTP片段的包间隔的参数信息，可具体包括如下参数：

该RTP片段中任意两个相邻的RTP包被接收的最大包间隔。

具体地，在确定该RTP片段中任意两个相邻的RTP包被接收的最大包间隔时，具体如下：

根据该RTP片段中每个RTP包被接收的时间信息，然后根据公式R(i)-R(i-1)确定该RTP片段中任意两个相邻的RTP包被接收的包间隔，其中，i大于等于2，R(i)表征第i个RTP包的被接收时间，R(i-1)表征第i-1个RTP包的被接收时间。

例如R(3)为100ms，R(2)为90ms，那么第三个RTP包与第二个RTP包之间的包间隔即为10ms，同理，据此还可以确定出该RTP片段中其他任意两个相邻的RTP包被接收的包间隔。然后将该RTP片段中包间隔的最大值，确定为该RTP片段的最大包间隔。

由于包间隔，具体可体现为用户感知有很长一段时间没有解析出任何声音，出现明显的声音中断、不连续等问题，而丢包、延时、抖动等任何传输问题都会导致包间隔异常，进而导致终端进行RTP解码时无法及时还原语音片段，影响用户感知，因此包间隔与语音质量有十分灵敏的表征关系。所以包间隔越大，出现语音中断的时间越长，与影响用户感知，对应的MOS分越低。

实施例五

由上述实施例可知，目标参数包括连续丢包数、包间隔、相对时延中的至少一个，其中，所谓相对时延，就是RTP片段内所有被接收到的RTP包与第一个被接收到的RTP包的被收发时间差的差值，也就是该RTP片段内每个包与第一个到达包之间的时延差。

在确定该RTP片段中每个RTP包的相对时延时，具体如下：

根据该RTP片段中被接收的每个RTP包的包头信息，获取与每一个RTP包携带的时间戳信息，计算获取第i个被接收的RTP包与第1个被接收的RTP包之间的发送时间差，其计算公式具体如下：

T(i)-T(1)＝(Timestamp(i)-Timestamp(1))/采样频率

其中，i为大于等于2的整数，T(i)表征第i个RTP包的发送时间，T(1)表征第1个RTP包的发送时间，Timestamp(i)表征第i个RTP包中携带的时间戳，Timestamp(1)表征第1个RTP包中携带的时间戳。

然后再计算获取该RTP片段内第i个被接收的RTP包相对于第1个被接收的RTP包的相对时延，其计算公式具体如下：

RD(i)＝R(i)-R(1)–(T(i)-T(1))

其中R(i)表征第i个被接收的RTP包的接收时间，R(1)表征第1个被接收的RTP包的接收时间，所以R(i)-R(1)即为第i个RTP包与第1个RTP包之间的接收时间差，那么RD(i)表征第i个被接收的RTP包与第1个被接收的RTP包的收发时间差，也就是第i个被接收的RTP包与第1个被接收的RTP包的相对时延。

在理想情况下，当第一个RTP包被接收后，后续所有RTP包应以接近0相对时延的方式被接收，即比第一个RTP包晚m毫秒发送的RTP包，理论应在第一个RTP包被接收后的第m毫秒后被接收。

进一步地，在获取该RTP片段内每个RTP包相对于第1个RTP包的相对时延后，要识别出该RTP片段中相对时延中的最小值，并判断所述最小值是否小于0，若最小值小于0，说明第一个到达的RTP包并非第一个发送的RTP包，需要对RTP片段中的每个RTP包的相对时延进行校正，保证每个RTP包的相对时延均大于等于0。然后根据校正后的相对时延，获取相对时延的相关参数，例如上述相对时延的最大值，相对时延的平均值等。

具体地，在对该RTP片段中的每个RTP包的相对时延进行校正时，可根据最小值与0的差值，确定校正参数，并根据校正参数对每个RTP包的相对时延进行校正。

由于最小值小于0，因此最小值与0的差值也小于0，也就是说确定出的校正参数小于0，因此在根据校正参数对每个RTP包的相对时延进行校正时，可根据如下公式：

RD’(i)＝RD(i)–min{RD(i)}

以获取每个RTP包进行校正后的相对时延，从而保证校正后该RTP片段中所有RTP包的相对时延均不小于0。其中，RD’(i)表征对第i个被接收的RTP包的进行校正后相对时延，RD(i)表征对第i个被接收的RTP包的未校正前的相对时延，min{RD(i)}表征RTP片段中相对时延的最小值，也就是本发明实施例中的校正参数。

因此，当所述目标参数包括相对时延时，那么获取的该RTP片段的相对时延参数信息，可具体包括如下参数中的至少一种：

1、相对时延的最大值

由于上述已经描述了获取相对时延的具体方式，以及对象对时延进行校正的具体方式，因此，可将校正后的相对时延中的最大值，确定为该RTP片段中相对时延的最大值。

当相对时延大于一定门限后，意味着后续RTP包没有按时到达，导致解码后的语音发生形变，产生断续效果，因此相对时延越大，越影响用户感知，因此相对时延中的最大值越大，对应的MOS值越低。

2、相对时延的平均值

由于上述已经描述了获取相对时延的具体方式，以及对象对时延进行校正的具体方式，因此，可将校正后的相对时延中的平均值，确定为该RTP片段中相对时延的平均值。

由于当相对时延大于一定门限后，意味着在指定时间范围内后续包没有按时到达，导致解码后的语音发生形变，产生断续效果。另外，每个相对时延的平均值反应了该RTP片段内个每个RTP包相比第一个被接收的RTP包的相对时延的平均延迟程度，因此若平均值较大，则说明该RTP片段解码后，大部分RTP包都有较大程度的波形拉伸，产生的断续效果越明显，越影响用户感知，因此每个相对时延的平均值越大，对应的MOS值越低。

3、该RTP片段中相对时延异常的RTP包的发送时长

所谓该RTP片段中相对时延异常的发送时长，即为该RTP片段中相对时延大于第一预设阈值的每个RTP包与前一个被接收的RTP包的发送间隔的和。

需要说明的是，在本发明实施例中，第一预设阈值可参考端解码器的缓冲时长，一般选择150ms～200ms。当然可以理解的是，在本发明实施例中，对此并不进行具体限定。

也就是说，当第一预设阈值为150ms时，获取相对时延大于第一预设阈值的RTP包的发送时长具体如下：

确定出相对时延大于150ms的RTP包，针对该RTP包，然后根据如下公式：

Tx(i)＝(T(i)-T(i-1))

确定出相对时延大于150ms的RTP包与前一个被接收的RTP包的发送间隔。其中，Tx(i)表征第i个被接收的RTP包与第i-1个RTP包的发送间隔，T(i)表征第i个被接收的RTP包的发送时间，T(i-1)表征第i-1个被接收的RTP包的发送时间。

然后再根据如下公式：

获取每个相对时延大于150ms的RTP包对应的发送间隔的和。也就是本发明实施例中相对时延异常的RTP包的发送时长。

其中，T1反应了因该RTP片段中存在相对时延大于150ms的RTP包，导致语音被拉伸变形，影响该RTP片段语音质量的发送时间，且该值越大，说明该RTP片段内相对时延导致的语音质量异常的占比越高，越影响用户感知，因此对应的MOS值越低。

4、该RTP片段中相对时延异常的RTP包的接收时长

所谓该RTP片段中相对时延异常的RTP包的接收时长，即为该RTP片段中相对时延大于第二预设阈值的每个RTP包与前一个被接收的RTP包的接收间隔的和。

需要说明的是，在本发明实施例中，第二预设阈值可参考端解码器的缓冲时长，一般选择150ms～200ms。一般情况下，第二预设阈值可与第一预设阈值保持一致，当然可以理解的是，在本发明实施例中，对此并不进行具体限定。

也就是说，当第一预设阈值为150ms时，获取相对时延大于第二预设阈值的RTP包的接收时长具体如下：

Rx(i)＝(R(i)-R(i-1))

确定出相对时延大于150ms的RTP包与前一个被接收的RTP包的接收间隔。其中，Rx(i)表征第i个被接收的RTP包与第i-1个RTP包的接收间隔，R(i)表征第i个被接收的RTP包的接收时间，R(i-1)表征第i-1个被接收的RTP包的接收时间。

然后再根据如下公式：

获取每个相对时延大于150ms的RTP包对应的接收间隔的和。也就是本发明实施例中相对时延异常的RTP包的发送时长。

其中，R1反应了因该RTP片段中存在相对时延大于150ms的RTP包，导致语音被拉伸变形，影响该RTP片段语音质量的接收时间，与影响该RTP片段语音质量的发送时间相同，该值越大，说明该RTP片段内相对时延导致的语音质量异常的占比越高，越影响用户感知，因此对应的MOS值越低。

5、相对时延异常的收发比

所谓相对时延异常的收发比，即上述相对时延大于150ms的RTP包的发送时长与相对时延大于150ms的RTP包的接收时长的比值。也就是上述T1与R1的比值。

由于该参数信息表征该RTP片段内相对时延发生异常的RTP包，其接收时长与发送时长的比值，因此可以反映因时延问题导致语音被拉伸的程度，所以，该比值越大，相对时延与语音质量的劣化越明显，越影响用户感知，因此对应的MOS值越低。

实施例六

由上述实施例可知，目标参数包括连续丢包数、包间隔、相对时延中的至少一个，因此当所述目标参数包括连续丢包数和相对时延时，那么获取的该RTP片段的连续丢包数的参数信息，还可以包括如下参数：

该RTP片段中丢包与相对时延异常的目标RTP包的发送时长。

所谓该RTP片段中丢包与相对时延异常的目标RTP包的发送时长，即为该RTP片段内，同时存在某个包同时出现连续丢包和相对时延异常问题的重叠时长。

其中，在获取该RTP片段中丢包与相对时延异常的RTP包的发送时长时，具体如下：

如果本发明实施例中，相对时延的第三预设阈值为150ms，在确定该RTP片段中每个RTP包校准后的相对时延后，需先确定出相对时延大于150ms的异常RTP包，然后针对上述异常RTP包，判断该异常RTP包与该异常RTP包前一个被接收到的RTP包之间是否发生丢包。

具体地，可根据公式LOSS(i)＝SN(i)-SN(i-1)-1判断该异常RTP包与该异常RTP包前一个被接收到的RTP包之间是否发生丢包，也就是说，假如该异常RTP包的序列号是15，而该异常RTP包前一个被接收到的RTP包的序列号是10，那么该异常RTP包与该异常RTP包前一个被接收到的RTP包之间不仅发生了丢包，且其连续丢包数为4，假如该异常RTP包的序列号是15，而该异常RTP包前一个被接收到的RTP包的序列号是14，那么该异常RTP包与该异常RTP包前一个被接收到的RTP包之间没有丢包。

在判断出该异常RTP包与该异常RTP包前一个被接收到的RTP包之间发生丢包之后，还要将上述获取的连续丢包数与第四预设阈值进行比较。假如第四预设阈值为4，那么连续丢包数大于等于4的RTP包，即为本发明实施例中异常的目标RTP包。也就是说，相对时延大于150ms，且与其前一个被接收到的RTP包之间的连续丢包数大于4的RTP包，即为本发明实施例中异常的目标RTP包。

在确定出目标RTP包之后，针对每个目标RTP包，根据公式：

Tx(i)＝(T(i)-T(i-1))

获取每个目标RTP包与其前一个被接收到的RTP包之间的发送间隔。其中，第i个被接收的RTP包即为本发明实施例中的目标RTP包，那么Tx(i)表征该目标RTP包与其前一个被接收到的RTP包之间的发送间隔，T(i)表征该目标RTP包的发送时间，T(i-1)表征该目标RTP包前一个被接收到的RTP包的发送时间。

然后再根据公式：

且LOSS(i)＞Th4}Tx(i)

获取每个目标RTP包对应的发送间隔的和，也就是本发明实施例中要获取的目标RTP包的发送时长。

由于该参数信息表征该RTP片段中同时存在某个包同时出现连续丢包和相对时延异常问题的重叠时长，因此相对丢包和时延异常不同时出现的情况来说，相当于缩短了该RTP片段内出现异常的时间，也就是缩短了语音中断或者断续的时间。在一定程度上，该参数信息的值越大，异常重叠区越多，则该RTP片段内异常时长区间减少，对MOS的劣化变小，可更准确地反映语音质量变化，降低对用户感知的影响，因此T2越大，则说明该RTP片段内相对时延导致的语音质量异常的占比越低，对应的MOS分较高。

实施例七

由于现有技术中，较为常用的网络参数包括丢包率和抖动，因此，为进一步准确地反映语音质量变化，本发明实施例中，也考虑了丢包率和抖动。

所谓丢包率，就是该RTP片段中连续丢包数的和与该RTP片段中预期被接收的RTP包的总包数的比值。

当所述目标参数包括丢包率时，那么在获取该RTP片段的丢包率时，具体如下：

由上述实施例三可知，可通过对LOSS(i)求和获取该RTP片段中连续丢包数的和。那么在获取该RTP片段中预期被接收的RTP包的总包数时，具体可通过如下公式：

Total＝max(SN)-min(SN)

其中，max(SN)表征该RTP片段中被接收到的RTP包对应的最大的序列号，min(SN)表征该RTP片段中被接收到的RTP包对应的最小的序列号，因此max(SN)-min(SN)即为该RTP片段中预期被接收的RTP包的总包数，也就是Total的取值。

那么该RTP片段的丢包率即可根据P＝∑LOSS(i)/(max(SN)-min(SN))计算获取。

由于，丢包率可有效地反应出该RTP片段的丢包情况，当发生丢包时，会发生语音中断现象，而丢包率越高，越容易出现语音中断的情况，对用户的感知影响越严重，因此当丢包率越高时，对应的MOS值会比较低。

其中，当所述目标参数包括抖动时，获取的该RTP片段的连续丢包数的参数信息，具体包括如下参数：

该RTP片段中抖动时长异常的RTP包的发送时长。

所谓抖动异常的RTP包的发送时长，即为该RTP片段中抖动时长大于第五预设阈值的每个RTP包与前一个被接收的RTP包的发送间隔的和。

需要说明的是，由于一定范围内抖动会被终端解码消抖机制去除，因此，在本发明实施例中，第五预设阈值可参考端解码器的缓冲时长，一般选择150ms～200ms。也就是，当该RTP片段出现较大的抖动时，导致该RTP片段出现异常的发送时长。

其中，在获取每个RTP包的抖动时长时，先根据该RTP片段中被接收的每个RTP包的包头信息，获取与每一个RTP包携带的时间戳信息，获取该RTP片段中每个RTP包与其前一个被接收到的RTP包之间的发送间隔。然后再根据每个RTP包被接收的时间信息，获取该RTP片段中每个RTP包与其前一个被接收到的RTP包之间的接收间隔。并最终根据如下公式：

J(i)＝R(i)-R(i-1)–(T(i)-T(i-1))

计算获取每个RTP包的抖动值。其中，i为大于等于2的整数，R(i)-R(i-1)表征第i个被接收的RTP包与第i-1个被接收的RTP包之间的接收间隔，T(i)-T(i-1)表征第i个被接收的RTP包与第i-1个被接收的RTP包之间的发送间隔，J(i)表征该RTP片段中第i个被接收的RTP包与第每i-1个被接收的RTP包的收发时间差，也就是第i个被接收的RTP包的抖动值。

由于该抖动值可正可负，因此可通过对该RTP片段中每个RTP包的抖动值取绝对值，获取该RTP片段中每个RTP包的抖动时长。

当第五预设阈值150ms时，获取该RTP片段中抖动时长异常的RTP包的发送时长，具体如下：

即根据已获取该RTP片段中每个RTP包的抖动时长，确定出抖动时长大于150ms的RTP包，针对该RTP包，然后根据如下公式：

Tx(i)＝(T(i)-T(i-1))

确定出抖动时长大于150ms的RTP包与前一个被接收的RTP包的发送间隔。其中，Tx(i)表征第i个被接收的RTP包与第i-1个RTP包的发送间隔，T(i)表征第i个被接收的RTP包的发送时间，T(i-1)表征第i-1个被接收的RTP包的发送时间。

然后再根据如下公式：

获取每个抖动时长大于150ms的RTP包对应的发送间隔的和，也就是本发明实施例中抖动时长异常的RTP包的发送时长。

其中，T3反应了当该RTP片段中存在抖动时长大于150ms的RTP包时，由于因瞬时抖动过大导致语音解码异常，影响该RTP片段语音质量的时长比例，因此该值越大，则说明抖动导致的异常时长越长，与影响用户感知，因此该值越大，对应的MOS值越低。

由上述实施例三到实施例五可知，在获取连续丢包数、包间隔、相对时延、丢包率及抖动时，都是从该RTP片段的每个RTP包所包含的序列号、被发送时间、被接收时间等原始信息中，获取到的与该RTP片段内的前一个被接收的RTP包或第一个被接收的RTP包进行对比后的异常特征，最大程度还原了该RTP片段在中，每个RTP包在传输过程中各类异常发生的方式、次数、时长、丢包和时延异常重叠度等丰富信息。由于每个RTP包的时长一般为20毫秒，与有参考的MOS评估算法中按帧评估的时长相近，可使得上述目标参数和MOS分间可具有显性的表征关系。因此根据该MOS分与目标参数的对应关系进行模型训练，得到的本发明实施例中的语音质量评估模型，其评估精度可远高于比现有公知技术，因此可准确的对每个RTP片段的语音质量进行评估，使得每个RTP片段的MOS分都更贴近用户感知，从而克服了现有技术中评估结果与实际用户感知误差较大的问题。

实施例八

由于在通话持续期间，可分为激活期和静默期，而在静默期不传送任何语音信息，因此为进一步保证评估结果的准确性，在获取该RTP片段中RTP包的参数信息之前，所述方法还包括：

针对该RTP片段中的每个RTP包，判断该RTP包是否为激活包；

如果是，针对该RTP片段中的每个激活包进行后续步骤。

其中判断该RTP包是否为激活包为现有技术，在此进行简单说明。

即根据该RTP片段中被接收的每个RTP包的包头信息，获取与每一个RTP包对应的序列号，根据公式SN_Delta(i)＝SN(i)-SN(i-1)计算该RTP片段中任意两个相邻的RTP包的发送包间隔，进一步根据公式(T(i)-T(i-1))/SN_Delta(i)，计算上述任意两个相邻被接收到的RTP包之间发送时间差与发送包间隔的比值，当该比值大于预设的第六预设阈值时，则标记为静默包，反之，则标记为激活包。例如VoLTE语音中为规定将160ms作为判断是否为静默包的第六预设阈值，因此当该比值为170ms时，则将第i个包标记为静默包，若该比值为20ms，则将第i个包标记为语音激活包。

因此，在本发明实施例中，通过获取激活状态下的参数信息，并根据每个激活包的参数信息与MOS分之间的对应关系，进行模型训练，以此得到更贴近用户感知的语音质量评估模型，因此可进一步保证评估结果的准确性，获取到更贴近用户感知的MOS分。

实施例九

如图3所示，为本发明实施例提供的语音质量评估方法的时序流程图，即先通过线下训练装置进行语音质量评估模型的训练，然后再基于该语音质量评估模型进行线上评估装置的评估。

其中，在进行语音质量评估模型的线下训练的过程中，需根据原始的语音片段，对第一RTP片段进行有参考评估，获取每个第一RTP片段的MOS分，然后获取该第一RTP片段的连续丢包数、包间隔、相对时延中的至少一个，作为第一RTP片段的目标参数，并针对预设的目标参数，获取与其对应的参数信息，然后根据每个第一RTP片段的MOS分与该第一RTP片段对应的第一参数信息间的对应关系，进行模型训练，以得到的本发明实施例中的音质量评估模型。

在基于该语音质量评估模型进行线上测试的过程中，针对每个第二RTP片段，提取到与线下训练过程中相同的目标参数，及与其对应的参数信息，然后采用该语音质量评估模型中保存的模型进行评估，确定每个第二RTP片段的MOS分。

由于本发明中的MOS分是根据语音质量，基于有参考评估的算法得到的，并根据该MOS分与目标参数的对应关系进行模型训练，因此可以实现对接收到的第二RTP码流的语音质量进行评估。由于上述目标参数的参数信息可更准确地反映语音质量的变化，因此通过该语音质量评估模型获取到的每个第二RTP片段的MOS分不仅更贴近用户感知，而且还具有更高的评估精度。因此，克服了现有技术中评估结果与实际用户感知误差较大的问题。

实施例十

如图4所示，为采用上述实施例提供的语音质量评估方法用于对网络侧DPI监测设备进行全部网络用户的语音质量评估的一种实施方式。

首先，终端测试设备进行VOIP语音拨测，记录测试终端1和测试终端2之间的全部RTP码流，及每个时间段内RTP片段的MOS分。其中MOS分是通过预先设定用于播放的无损伤声音文件，以及经过网络传输后对端终端收到的劣化后的有损伤声音文件，采用POLQA算法计算有参考评估语音质量得到，一般终端测试设备可直接评估得出，并记录在设备存储器中。

网络侧DPI监测设备(或其他执行本发明装置的模型训练模块的设备)获取终端测试设备的RTP码流、MOS分。其中RTP码流应该包含每个RTP包的序列号、发送时间戳、到达对端测试设备的接收时间戳等原始信息。DPI监测设备根据终端测试设备的MOS分评估间隔、每个MOS分的开始时间、结束时间信息，对RTP码流划分RTP片段(即第一RTP片段)，按照上述实施例所述方法，获取该RTP片段的连续丢包数、包间隔、相对时延等目标参数中的一个或多个参数信息，以及对应RTP片段的有参考MOS分。

具体的参数信息可以为：

最大连续丢包数、连续丢包数之和、连续丢包突发比、连续丢包数介于3～6的次数、连续丢包介于6～12的次数、连续丢包介于3～6的包数、连续丢包介于6～12的包数、最大包间隔、相对时延最大值、相对时延均值、相对时延大于150ms的发送时长、相对时延大于150ms的接收时长、相对时延大于150ms的收发比、丢包和时延异常重叠时长、丢包率、抖动大于150ms的发送时长等参数中的一项或多项。

然后采用多元非线性回归或分类算法，基于大量RTP片段的MOS分与上述参数信息的对应关系，训练语音质量评估模型，并将训练完成的模型存储在设备存储单元中，等待在线评估阶段调用。

为提高模型训练的准确性和效率，可在模型训练前对获得的第一参数进行归一化处理，具体方法为对每个参数在各自的参数取值范围根据最大值、最小值分别进行归一化，使多项参数所有样本的取值均介于0～1之间，保证各项参数取值范围的一致性。如：

最大连续丢包数LOSS_max参数归一化之后为：

LOSS_max’＝(LOSS_max–min{LOSS_max})/(max{LOSS_max}-min{LOSS_max})；

最大相对时延RD_max参数归一化之后为：

RD_max’＝(RD_max–min{RD_max})/(max{RD_max}-min{RD_max})；

当然，对其他参数进行归一化操作时，也可参考上述归一化方式。上述仅为本实施例中给出的是常用的归一化方法，当然也可以采用其他的归一化方法进行处理，本发明实施例中对此不做限制。

模型训练阶段，以归一化后的RTP片段的参数信息为模型输入，以对应的基于有参考评估的MOS分或MOS类别为训练标签，采用多元非线性回归或分类方法进行，如基于神经网络的回归、基于神经网络的分类、支持向量机的回归(SVR)、支持向量机的分类(SVC)等机器学习算法均可以。模型训练以预测MOS分或MOS类别与所述训练标签的误差最小为目标，可通过误差分析的均方差、相关系数等指标，对评估模型的效果进行评估，通过多次迭代训练得到最优的语音质量评估模型。

在线评估阶段，网络侧DPI监测设备采集所监测网络接口的所有RTP码流并进行深度包检测，获取流经此接口的所有商用终端的VOIP业务的RTP包信息。对来自同一用户(RTP包头的SSRC相同即为同一用户的VOIP会话)的RTP码流进行片段划分(即第二RTP片段)，此时的RTP片段长度取决于期望评估的MOS分时长粒度，一般可选5秒～10秒，不要求与训练阶段的RTP片段时长严格一致。但为确保评估结果的准确性和模型的适配性，尽量保证与RTP片段时长的量级保持一致。

进一步地，采用与训练阶段同样的目标参数对应的参数信息和获取方法，获取每个RTP片段的目标参数的参数信息。读取存储单元中的评估模型，计算确定每个RTP片段的语音质量评估MOS分或MOS类别。

由于DPI检测设备是在网络侧进行数据采集，可以采集到全网范围内的VOIP用户的RTP码流，在进行目标参数提取后，根据训练得到语音质量评估模型，从而进行全网用户的语音质量评估。其中由于训练阶段采用的目标参数不同于惯用的网络参数，且基于有参考的MOS分进行多元非线性回归模型或多元非线性分类模型训练得到，因而可以实现比Emodel模型等现有技术更准确的语音质量评估。

实施例十一

依据本发明的另一个方面，还提供了一种电子设备，图5为本发明实施例提供的一种电子设备，所述电子设备包括：第一处理器51、第二处理器52、第一存储器53和第二存储器54；

其中，所述第一处理器51与所述第二处理器52可以为同一处理器，或所述第一处理器51与所述第二处理器52也可以为不同处理器，所述第一存储器53与所述第二存储器54可以为同一存储器，或所述第一存储器53与所述第二存储器54也可以为不同存储器。

在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由第一处理器51、第二处理器52代表的处理器和第一存储器53、第二存储器54代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。

可选的，第一处理器51和/或第二处理器52可以是CPU(中央处埋器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable LogicDevice，复杂可编程逻辑器件)。

所述第一处理器51，用于读取所述第一存储器53中的程序，执行下列过程：按照预设的方法将发送端发送的语音样本及接收端接收的所述语音样本的第一RTP码流，切分成对应的语音片段及第一RTP片段，基于对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，获取该第一RTP片段的MOS分；根据预设的目标参数，获取该第一RTP片段对应所述目标参数的第一参数信息，其中所述目标参数包括连续丢包数、包间隔、相对时延中的至少一个；根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练；

所述第二存储器54，用于对训练完成的语音质量评估模型进行存储；

所述第二处理器52，用于读取所述第二存储器54中的程序，并基于所述第二存储器54中存储的训练完成的语音质量评估模型，对接收到的第二RTP码流进行评估。

具体地，所述第二处理器52基于所述第二存储器54中存储的训练完成的语音质量评估模型，对接收到的第二RTP码流进行评估时，执行下列过程：将所述第二RTP码流按照所述预设的方法切分为多个第二RTP片段；针对每个第二RTP片段，根据预设的目标参数，获取该第二RTP片段对应所述目标参数的第二参数信息；根据每个第二RTP片段对应的所述第二参数信息，及训练完成的语音质量评估模型，确定每个第二RTP片段的MOS分。

具体地，当所述目标参数包括连续丢包数时，所述第一处理器51，或所述第二处理器52，具体用于获取该RTP片段对应所述目标参数的参数信息包括以下至少一种：

获取该RTP片段的最大连续丢包数；

获取该RTP片段的连续丢包数之和；

具体地，当所述目标参数包括包间隔时，所述第一处理器51，或所述第二处理器52，具体用于获取该RTP片段的参数信息包括：

具体地，当所述目标参数包括相对时延时，所述第一处理器51，或所述第二处理器52，具体用于获取该RTP片段对应所述目标参数的参数信息包括以下至少一种：

其中，所述确定该RTP片段中每个RTP包的相对时延包括：

具体地，当所述目标参数包括连续丢包数和相对时延时，所述第一处理器51，或所述第二处理器52，具体用于获取该RTP片段对应所述目标参数的参数信息还包括：

确定相对时延大于预设的第三预设阈值的每个第五RTP包，针对每个第五RTP包，根据该第五RTP包的序列号，及该RTP片段中该RTP片段中该第五RTP包前一个被接收到的第六RTP包的序列号，确定第五RTP包及第六RTP包间的连续丢包数；

判断该连续丢包数是否大于预设的第四预设阈值，如果是，将该第五RTP包作为目标RTP包，针对每个目标RTP包，确定该目标RTP包及该目标RTP包前一个被接收到的第六RTP包的第二发送间隔，获取每个目标RTP包对应的第二发送间隔的和。

具体地，所述第一处理器51，或所述第二处理器52，在确定该RTP片段中每个RTP包的相对时延之后，还用于识别相对时延中的最小值，判断所述最小值是否小于0；如果是，根据所述最小值与0的差值，确定校正参数，根据所述校正参数对每个RTP包的相对时延进行校正。

具体地，所述目标参数还包括丢包率和抖动。

具体地，当所述目标参数包括抖动时，所述第一处理器51，或所述第二处理器52，具体用于获取该RTP片段对应所述目标参数的参数信息包括：

具体地，获取该RTP片段对应所述目标参数的参数信息之前，所述第一处理器51，或所述第二处理器52，还用于识别该RTP片段中为激活包的每个RTP包，针对该RTP片段中的每个激活包进行后续步骤。

具体地，所述第一处理51器根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练时，具体用于：

具体地，所述第一处理器51根据每个第一RTP片段对应的MOS类别与该第一RTP片段对应的所述第一参数信息，采用多元非线性分类算法对语音质量评估模型进行训练时，具体用于：

具体地，在获取该第一RTP片段的参数信息之后，所述第一处理器51，或所述第二处理器52，还用于对所述参数信息进行归一化处理，并根据归一化处理后的参数信息进行后续步骤。

实施例十二

依据本发明的另一个方面，还提供了一种语音质量评估装置，图6为本发明实施例提供的语音质量评估装置的结构框图，所述装置包括：

训练模块601，用于按照预设的方法将发送端发送的语音样本及接收端接收的所述语音样本的第一实时传输协议RTP码流，切分成对应的语音片段及第一RTP片段，基于对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，获取该第一RTP片段的平均意见分MOS；根据预设的目标参数，获取该第一RTP片段对应所述目标参数的第一参数信息，其中所述目标参数包括连续丢包数、包间隔、相对时延中的至少一个；根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练；

评估模块602，用于基于训练完成的语音质量评估模型对接收到的第二RTP码流进行评估。

具体地，评估模块602基于训练完成的语音质量评估模型对接收到的第二RTP码流进行评估时，具体用于：

具体地，当所述目标参数包括连续丢包数时，训练模块601具体用于：

获取该RTP片段的最大连续丢包数；

获取该RTP片段的连续丢包数之和；

具体地，当所述目标参数包括包间隔时，训练模块601具体用于：

具体地，当所述目标参数包括相对时延时，训练模块601具体用于：

其中，所述确定该RTP片段中每个RTP包的相对时延包括：

具体地，当所述目标参数包括连续丢包数和相对时延时，训练模块601具体还用于：

具体地，所述确定该RTP片段中每个RTP包的相对时延之后，所述训练模块601还用于：

识别相对时延中的最小值，判断所述最小值是否小于0；

具体地，所述目标参数还包括丢包率和抖动。

具体地，当所述目标参数包括抖动时，训练模块601具体用于：

确定该RTP片段中每个RTP包的抖动时长，并确定抖动时长大于预设的第五预设阈值的每个第七RTP包，针对每个第七RTP包，确定该第七RTP包及该RTP片段中该第七RTP包前一个的被接收到的第八RTP包之间的第三发送间隔，获取每个第七RTP包对应的第三发送间隔的和。

具体地，在获取该RTP片段对应所述目标参数的参数信息之前，训练模块601还用于：

具体地，所述训练模块601根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练时，具体用于：

具体地，所述训练模块601采用多元非线性分类算法对语音质量评估模型进行训练时，具体用于：

具体地，所述训练模块601获取该RTP片段对应所述目标参数的参数信息之后，还用于对所述参数信息进行归一化处理，并根据归一化处理后的参数信息进行后续步骤。

实施例十三

依据本发明的另一个方面，还提供了一种电子设备，其中图7为本发明实施例提供的一种电子设备，如图7所示所述电子设备包括：第三处理器71、通信接口72、第三存储器73和通信总线74，其中，第三处理器71，通信接口72，第三存储器73通过通信总线74完成相互间的通信；

所述第三存储器73中存储有计算机程序，当所述程序被所述第三处理器71执行时，使得所述第三处理器71执行以下步骤：

按照预设的方法将发送端发送的语音样本及接收端接收的所述语音样本的第一RTP码流，切分成对应的语音片段及第一RTP片段，基于对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，获取该第一RTP片段的MOS分；根据预设的目标参数，获取该第一RTP片段对应所述目标参数的第一参数信息，其中所述目标参数包括连续丢包数、包间隔、相对时延中的至少一个；根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练；并基于训练完成的语音质量评估模型对接收到的第二RTP码流进行评估。

获取该RTP片段的最大连续丢包数；

获取该RTP片段的连续丢包数之和；

具体地，当所述目标参数包括包间隔时，获取该RTP片段的参数信息包括：

具体地，当所述目标参数包括相对时延时，获取该RTP片段对应所述目标参数的参数信息包括以下至少一种：

其中，所述确定该RTP片段中每个RTP包的相对时延包括：

具体地，确定该RTP片段中每个RTP包的相对时延之后，还用于识别相对时延中的最小值，判断所述最小值是否小于0；如果是，根据所述最小值与0的差值，确定校正参数，根据所述校正参数对每个RTP包的相对时延进行校正。

具体地，所述目标参数还包括丢包率和抖动。

具体地，当所述目标参数包括抖动时，获取该RTP片段对应所述目标参数的参数信息包括：

具体地，所述获取该RTP片段对应所述目标参数的参数信息之前，第三处理器71还执行以下步骤：

具体地，所述第三处理器71根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练时，具体用于：

具体地，所述第三处理器71根据每个第一RTP片段对应的MOS类别与该第一RTP片段对应的所述第一参数信息，采用多元非线性分类算法对语音质量评估模型进行训练时，具体用于：

具体地，在获取该第一RTP片段的参数信息之后，所述第三处理器71，还用于对所述参数信息进行归一化处理，并根据归一化处理后的参数信息进行后续步骤。

上述各实施例中的电子设备提到的通信总线74可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture，EISA)总线等。该通信总线74可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口72，用于上述电子设备与其他设备之间的通信。

第三存储器73可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，第三存储器73还可以是至少一个位于远离前述处理器的存储装置。

上述第三处理器71可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例十四

依据本发明的另一个方面，还提供了一种计算机可读存储介质，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行以下步骤：

获取该RTP片段的最大连续丢包数；

获取该RTP片段的连续丢包数之和；

其中，所述确定该RTP片段中每个RTP包的相对时延包括：

具体地，所述目标参数还包括丢包率和抖动。

具体地，所述获取该RTP片段对应所述目标参数的参数信息之前，还执行以下步骤：

具体地，根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练时，具体用于：

具体地，根据每个第一RTP片段对应的MOS类别与该第一RTP片段对应的所述第一参数信息，采用多元非线性分类算法对语音质量评估模型进行训练时，具体用于：

具体地，在获取该第一RTP片段的参数信息之后，还用于对所述参数信息进行归一化处理，并根据归一化处理后的参数信息进行后续步骤。

上述实施例中的计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD)等。

对于系统/装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全应用实施例、或结合应用和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音质量评估方法，其特征在于，所述方法包括：

按照预设的方法将发送端发送的语音样本及接收端接收的所述语音样本的第一实时传输协议RTP码流，切分成对应的语音片段及第一RTP片段，基于对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，获取该第一RTP片段的平均意见分MOS分；

根据预设的目标参数，获取该第一RTP片段对应所述目标参数的第一参数信息，其中所述目标参数包括连续丢包数、包间隔、相对时延中的至少一个；

2.如权利要求1所述的方法，其特征在于，所述基于训练完成的语音质量评估模型对接收到的第二RTP码流进行评估包括：

3.如权利要求1或2所述的方法，其特征在于，当所述目标参数包括连续丢包数时，获取该RTP片段对应所述目标参数的参数信息包括以下至少一种：

获取该RTP片段的最大连续丢包数；

获取该RTP片段的连续丢包数之和；

4.如权利要求1或2所述的方法，其特征在于，当所述目标参数包括包间隔时，获取该RTP片段对应所述目标参数的参数信息包括：

5.如权利要求1或2所述的方法，其特征在于，当所述目标参数包括相对时延时，获取该RTP片段对应所述目标参数的参数信息包括以下至少一种：

其中，所述确定该RTP片段中每个RTP包的相对时延包括：

6.如权利要求1或2所述的方法，其特征在于，当所述目标参数包括连续丢包数和相对时延时，获取该RTP片段对应所述目标参数的参数信息还包括：

7.如权利要求5或6所述的方法，其特征在于，所述确定该RTP片段中每个RTP包的相对时延之后，所述方法还包括：

识别相对时延中的最小值，判断所述最小值是否小于0；

8.如权利要求1或2所述的方法，其特征在于，所述目标参数还包括丢包率和抖动。

9.如权利要求8所述的方法，其特征在于，当所述目标参数包括抖动时，获取该RTP片段对应所述目标参数的参数信息包括：

10.如权利要求1或2所述的方法，其特征在于，获取该RTP片段对应所述目标参数的参数信息之前，所述方法还包括：

11.如权利要求1所述的方法，其特征在于，所述有参考的语音质量评估算法为：感知客观语音质量评估POLQA算法，或主观语音质量评估PESQ算法，或其他基于有参考的语音质量评估算法。

12.如权利要求1所述的方法，其特征在于，所述根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练包括：

13.如权利要求12所述的方法，其特征在于，所述根据每个第一RTP片段对应的MOS类别与该第一RTP片段对应的所述第一参数信息，采用多元非线性分类算法对语音质量评估模型进行训练包括：

14.如权利要求12所述的方法，其特征在于，所述多元非线性回归算法，包括基于神经网络的回归算法，支持向量机的回归算法SVR，及其他多元非线性回归算法。

15.如权利要求12所述的方法，其特征在于，所述多元非线性分类算法包括基于神经网络的分类算法，支持向量机的分类算法SVC，及其他非线性多元分类算法。

16.如权利要求1或2所述的方法，其特征在于，获取该RTP片段对应所述目标参数的参数信息之后，所述方法还包括：

17.一种电子设备，其特征在于，所述电子设备包括：第一处理器、第二处理器、第一存储器和第二存储器；

所述第一处理器，用于读取所述第一存储器中的程序，执行下列过程：按照预设的方法将发送端发送的语音样本及接收端接收的所述语音样本的第一实时传输协议RTP码流，切分成对应的语音片段及第一RTP片段，基于对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，获取该第一RTP片段的平均意见分MOS分；根据预设的目标参数，获取该第一RTP片段对应所述目标参数的第一参数信息，其中所述目标参数包括连续丢包数、包间隔、相对时延中的至少一个；根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练；

18.如权利要求17所述的电子设备，其特征在于，所述第二处理器基于所述第二存储器中存储的训练完成的语音质量评估模型，对接收到的第二RTP码流进行评估时，执行下列过程：将所述第二RTP码流按照所述预设的方法切分为多个第二RTP片段；针对每个第二RTP片段，根据预设的目标参数，获取该第二RTP片段对应所述目标参数的第二参数信息；根据每个第二RTP片段对应的所述第二参数信息，及训练完成的语音质量评估模型，确定每个第二RTP片段的MOS分。

19.如权利要求17或18所述的电子设备，其特征在于，当所述目标参数包括连续丢包数时，所述第一处理器，或所述第二处理器，具体用于获取该RTP片段对应所述目标参数的参数信息包括以下至少一种：

获取该RTP片段的最大连续丢包数；

获取该RTP片段的连续丢包数之和；

20.如权利要求17或18所述的电子设备，其特征在于，当所述目标参数包括包间隔时，所述第一处理器，或所述第二处理器，具体用于获取该RTP片段的参数信息包括：

21.如权利要求17或18所述的电子设备，其特征在于，当所述目标参数包括相对时延时，所述第一处理器，或所述第二处理器，具体用于获取该RTP片段对应所述目标参数的参数信息包括以下至少一种：

其中，所述确定该RTP片段中每个RTP包的相对时延包括：

22.如权利要求17或18所述的电子设备，其特征在于，当所述目标参数包括连续丢包数和相对时延时，所述第一处理器，或所述第二处理器，具体用于获取该RTP片段对应所述目标参数的参数信息还包括：

23.如权利要求21或22所述的电子设备，其特征在于，所述第一处理器，或所述第二处理器，在确定该RTP片段中每个RTP包的相对时延之后，还用于识别相对时延中的最小值，判断所述最小值是否小于0；如果是，根据所述最小值与0的差值，确定校正参数，根据所述校正参数对每个RTP包的相对时延进行校正。

24.如权利要求17或18所述的电子设备，其特征在于，所述目标参数还包括丢包率和抖动。

25.如权利要求24所述的电子设备，其特征在于，当所述目标参数包括抖动时，所述第一处理器，或所述第二处理器，具体用于获取该RTP片段对应所述目标参数的参数信息包括：

26.如权利要求17或18所述的电子设备，其特征在于，获取该RTP片段对应所述目标参数的参数信息之前，所述第一处理器，或所述第二处理器，还用于识别该RTP片段中为激活包的每个RTP包，针对该RTP片段中的每个激活包进行后续步骤。

27.如权利要求17所述的电子设备，其特征在于，所述第一处理器根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练时，具体用于：

28.如权利要求27所述的电子设备，其特征在于，所述第一处理器根据每个第一RTP片段对应的MOS类别与该第一RTP片段对应的所述第一参数信息，采用多元非线性分类算法对语音质量评估模型进行训练时，具体用于：

29.如权利要求17或18所述的电子设备，其特征在于，在获取该RTP片段的参数信息之后，所述第一处理器，或所述第二处理器，还用于对所述参数信息进行归一化处理，并根据归一化处理后的参数信息进行后续步骤。

30.如权利要求17或18所述的电子设备，其特征在于，所述第一处理器与所述第二处理器为同一处理器，或所述第一处理器与所述第二处理器为不同处理器，所述第一存储器与所述第二存储器为同一存储器，或所述第一存储器与所述第二存储器为不同存储器。

31.一种语音质量评估装置，其特征在于，所述装置包括：

训练模块，用于按照预设的方法将发送端发送的语音样本及接收端接收的所述语音样本的第一实时传输协议RTP码流，切分成对应的语音片段及第一RTP片段，基于对应的语音片段及第一RTP片段，采用有参考的语音质量评估算法对该第一RTP片段进行评估，获取该第一RTP片段的平均意见分MOS分；根据预设的目标参数，获取该第一RTP片段对应所述目标参数的第一参数信息，其中所述目标参数包括连续丢包数、包间隔、相对时延中的至少一个；根据每个第一RTP片段的MOS分与该第一RTP片段对应的所述第一参数信息，对语音质量评估模型进行训练；

32.一种电子设备，其特征在于，所述电子设备包括：第三处理器、通信接口、第三存储器和通信总线，其中，第三处理器，通信接口，第三存储器通过通信总线完成相互间的通信；

所述第三存储器中存储有计算机程序，当所述程序被所述第三处理器执行时，使得所述第三处理器执行权利要求1-16任一项所述方法的步骤。

33.一种计算机可读存储介质，其特征在于，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行权利要求1-16任一项所述方法的步骤。