CN111383657A

CN111383657A - 语音质量评估方法、装置、设备及介质

Info

Publication number: CN111383657A
Application number: CN201811614199.1A
Authority: CN
Inventors: 马越
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2020-07-07

Abstract

本发明实施例提供一种语音质量评估方法、装置、设备及介质。该方法包括：采集原始语音样本；基于原始语音样本，获得实时传输协议RTP流媒体包；从RTP流媒体包中获得退化语音样本；从退化语音样本中筛选有效语音样本；提取有效语音样本中与平均意见得分MOS具有强相关性的多个声学特征；基于与MOS具有强相关性的多个声学特征，构建基于多个声学特征的MOS评估模型；将待评估语音质量的样本输入基于多个声学特征的MOS评估模型中，输出待评估语音质量的样本的MOS评分。利用上述方案，可以构建基于声学特征的MOS评估模型，有效的支撑网络优化人员评估VoLTE语音质量，为VoLTE问题更精确的“号脉”，使网络健康可持续的发展，给客户带来高清音质、畅快接通的通话体验。

Description

语音质量评估方法、装置、设备及介质

技术领域

本发明涉及通信技术领域，尤其涉及一种语音质量评估方法、装置、设备及介质。

背景技术

OTT基于IP的语音传输(Voice over Internet Protocol，VOIP)在移动互联网时代得到极大的关注与应用，给运营商传统语音业务带来了极大冲击。语音业务在2G或3G网络中是运营商收入的主要来源，可以预期未来的长期演进(Long Term Evolution，LTE)网络中，语音将仍然是重要的业务。中国移动在2016年开启长期演进语音承载(Voice overLong-Term Evolution，VoLTE)商用服务，VoLTE高清语音服务可以给客户提供更佳的语音体验，帮助运营商应对OTT(Over The Top)语音冲击和每用户平均收入(Average RevenuePer User，ARPU)值下降的不利趋势。

VoLTE作为中国移动在LTE阶段的主要语音解决方案，同时作为融合通信的基础技术，承载着构建用户通话全新体验的期望。但VoLTE作为实时性语音通信技术对网络的要求也更高，同时互联网协议(Internet Protocol，IP)网络特有的因素(例如丢包、抖动、时延等)会对VoLTE语音质量产生恶劣影响，例如通话阶段的单通、质差、掉话等语音质量问题，占总投诉量的75％。因此，研究VoLTE语音质量评估的方法是当前VoLTE网络优化工作的主攻方向。

现有的VoLTE语音质量评估方法主要由三种：人工评测、语音质量的客观评测标准(Perceptual Objective Listening Quality Analysis，POLQA)(路测)、以及E模型法(E-Model)。

然而，现有的VoLTE语音质量评估方法主要存在如下技术问题：

(1)采用人工评测的方法是以人为主体来评价语音的质量，常用的方法有平均意见得分(Mean Opinion Score，MOS)、诊断满意度测量得分(Diagnostic AcceptabilityMeasure，DAM得分)等。人工评测的方法要求大量的人和大量次数的测听实验，耗费大、经历时间长、主观性强、无统一标准。

(2)采用POLQA路测方法进行语音质量评估是一种客观评测方法，该方法通过使用VoLTE测试仪表进行测试，对比输入端和接收端的语音文件，计算得出MOS。这种方法覆盖面较小，主要用于路测，评估范围仅为设备能测试到的诸如街道、高速、高铁等道路场景，实时性差、效率低、场景受限；同时需要双向语音，难以IT化部署。

(3)E-Model方法主要是通过一些网络侧性能统计指标如丢包、时延类指标进行拟合计算，由于拟合参数并非基于语音本身，模型算法较简单，评估准确度偏低，实际应用中仅在高丢包场景下，体现出一定的实用性。

综上所述，现有技术在准确度、全面性和部署成本方面均存在评估盲区和缺陷，局限性较为明显，无法满足当前VoLTE语音质量评估的需求。

发明内容

本发明实施例提供了一种语音质量评估方法、装置、设备及介质，可以构建基于多个声学特征的MOS评估模型，有效的支撑网络优化人员评估VoLTE语音质量，为VoLTE问题更精确的“号脉”，使网络健康可持续的发展，给客户带来高清音质、畅快接通的通话体验。

第一方面，本发明实施例提供了一种语音质量评估方法，方法包括：

采集原始语音样本；

基于所述原始语音样本，获得实时传输协议RTP流媒体包；

从所述RTP流媒体包中获得退化语音样本；

从所述退化语音样本中筛选有效语音样本；

提取所述有效语音样本中与平均意见得分MOS具有强相关性的多个声学特征；

基于所述与MOS具有强相关性的多个声学特征，构建基于多个声学特征的MOS评估模型；

将待评估语音质量的样本输入所述基于多个声学特征的MOS评估模型中，输出所述待评估语音质量的样本的MOS评分。

根据本发明所述的语音质量评估方法，所述采集原始语音样本，包括：

在多个场景下，利用人工进行多次拨测，采集原始语音样本；其中，

所述多个场景包括如下项中的至少一项商场、写字楼、学校、景区、道路、交通枢纽、以及居民区。

根据本发明所述的语音质量评估方法，所述原始语音样本包括主叫侧语音样本；

所述退化语音样本包括网络平台侧语音样本和/或被叫侧语音样本。

根据本发明所述的语音质量评估方法，所述基于所述原始语音样本，获得实时传输协议RTP流媒体包，从所述RTP流媒体包中获得退化语音样本，包括：

基于所述原始语音样本，通过Mb接口采集RTP流媒体包；

对所述RTP流媒体包进行抽样处理，得到抽样语音片段；

对所述抽样语音片段进行还原处理，获取退化语音样本；

其中，所述抽样处理包括将所述RTP流媒体包分割为具有预设周期的抽样语音片段。

根据本发明所述的语音质量评估方法，所述对所述抽样语音片段进行还原处理，包括：

利用基于模型的恢复法，对所述抽样语音片段进行还原处理。

根据本发明所述的语音质量评估方法，所述多个声学特征中的每一个均包括时域特征参数和频域特征参数；其中，

所述时域特征参数包括如下项中的至少一项：短时能量、短时平均幅度、短时过零率、和短时自相关函数；所述频域特征参数包括如下项中的至少一项：梅尔倒谱系数MFCC、感知线性预测PLP、共振峰、基音、和反射系数。

根据本发明所述的语音质量评估方法，所述提取所述有效语音样本中与平均意见得分MOS具有强相关性的多个声学特征，包括：

粗略提取所述有效语音片段中与MOS具有强相关性的声学特征；

从粗略提取得到的声学特征中精细提取与MOS具有强相关性的多个声学特征。

根据本发明所述的语音质量评估方法，所述粗略提取所述有效语音片段中与MOS具有强相关性的声学特征，包括：

利用散点图法，粗略提取所述有效语音片段中与MOS具有强相关性的声学特征。

根据本发明所述的语音质量评估方法，所述从粗略提取得到的声学特征中精细提取与MOS具有强相关性的多个声学特征，包括：

利用主成分分析算法，从粗略提取得到的声学特征中精细提取与MOS具有强相关性的声学特征。

根据本发明所述的语音质量评估方法，所述基于所述与MOS具有强相关性的多个声学特征，构建基于多个声学特征的MOS评估模型，包括：

基于所述与MOS具有强相关性的多个声学特征，利用基于深度神经网络算法大数据分析，拟合训练出所述多个声学特征与MOS之间的对应关系，以构建所述基于多个声学特征的MOS评估模型。

第二方面，本发明实施例提供了一种语音质量评估装置，装置包括：

采集模块，用于采集原始语音样本；

RTP流媒体包获取模块，用于基于所述原始语音样本，获得实时传输协议RTP流媒体包；

退化语音样本获取模块，用于从所述RTP流媒体包中获得退化语音样本；

有效语音样本获取模块，用于从所述退化语音样本中筛选有效语音样本；

提取模块，用于提取所述有效语音样本中与平均意见得分MOS具有强相关性的多个声学特征；

构建模块，用于基于所述与MOS具有强相关性的多个声学特征，构建基于多个声学特征的MOS评估模型；

输出模块，用于将待评估语音质量的样本输入所述基于多个声学特征的MOS评估模型中，输出所述待评估语音质量的样本的MOS评分。

根据本发明所述的语音质量评估装置，采集模块具体用于：

根据本发明所述的语音质量评估装置，所述原始语音样本包括主叫侧语音样本；

根据本发明所述的语音质量评估装置，退化语音样本获取模块具体用于：

基于所述原始语音样本，通过Mb接口采集RTP流媒体包；

对所述RTP流媒体包进行抽样处理，得到抽样语音片段；

对所述抽样语音片段进行还原处理，获取退化语音样本；

根据本发明所述的语音质量评估装置，利用基于模型的恢复法，对所述抽样语音片段进行还原处理。

根据本发明所述的语音质量评估装置，所述多个声学特征中的每一个均包括时域特征参数和频域特征参数；其中，

根据本发明所述的语音质量评估装置，提取模块具体用于：

根据本发明所述的语音质量评估装置，构建模块具体用于：

第三方面，本发明实施例提供了一种语音质量评估设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

本发明实施例提供的语音质量评估方法、装置、设备及介质，可以构建基于多个声学特征的MOS评估模型，有效的支撑网络优化人员评估VoLTE语音质量，为VoLTE问题更精确的“号脉”，使网络健康可持续的发展，给客户带来高清音质、畅快接通的通话体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例的语音质量评估方法的流程示意图；

图2示出了本发明实施例的语音质量评估装置的结构示意图；

图3示出了本发明实施例的平台架构示意图；

图4示出了本发明实施例的平台的系统结构示意图；

图5示出了本发明另一实施例的语音质量评估方法的流程示意图；

图6示出了本发明实施例的数据采集环境和过程示意图；

图7示出了本发明实施例的有效样本库示意图；

图8示出了本发明实施例的数据采集示意图；

图9示出了本发明实施例的RTP包还原机制及准确性验证方法示意图；

图10示出了本发明实施例的编译生成的可执行文件示意图；

图11示出了本发明实施例的退化语音与原始语音长度差值的示意图；

图12示出了本发明实施例的ePOLQA-MOS模型的示意图；

图13示出了本发明实施例的各参数计算公式；

图14示出了本发明实施例的RTP短时平均幅度与MOS强相关的示意图；

图15示出了本发明实施例的RTP短时平均幅度与MOS弱相关的示意图；

图16示出了本发明实施例的MOS与语音声学特性信息关系模型示意图；

图17示出了本发明实施例的构建神经网络模型的Python程序示意图；

图18示出了本发明实施例的模拟出的神经网络模型示意图；

图19示出了本发明实施例的DNN-MOS评估模型及MOS公式的示意图；

图20示出了本发明实施例的DNN-MOS程序评估结果示意图；

图21示出了本发明实施例的DNN-MOS输出结果与路测MOS拟合示意图；

图22示出了本发明实施例提供的语音质量评估设备的硬件结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例可提供一种语音质量评估方法，参考图1，图1示出了本发明实施例的语音质量评估方法100的流程示意图，该方法包括：

S110，采集原始语音样本；

S120，基于原始语音样本，获得实时传输协议RTP流媒体包；

S130，从RTP流媒体包中获得退化语音样本；

S140，从退化语音样本中筛选有效语音样本；

S150，提取有效语音样本中与平均意见得分MOS具有强相关性的多个声学特征；

S160，基于与MOS具有强相关性的多个声学特征，构建基于多个声学特征的MOS评估模型；

S170，将待评估语音质量的样本输入基于多个声学特征的MOS评估模型中，输出待评估语音质量的样本的MOS评分。

利用本发明提供的上述方案，通过构建基于多个声学特征的MOS评估模型，有效的支撑网络优化人员评估VoLTE语音质量，为VoLTE问题更精确的“号脉”，使网络健康可持续的发展，给客户带来高清音质、畅快接通的通话体验。

本发明实施例可提供一种语音质量评估装置，参考图2，图2示出了本发明实施例的语音质量评估装置200的结构示意图，该装置包括：

采集模块210，用于采集原始语音样本；

RTP流媒体包获取模块220，用于基于原始语音样本，获得实时传输协议RTP流媒体包；

退化语音样本获取模块230，用于从RTP流媒体包中获得退化语音样本；

有效语音样本获取模块240，用于从退化语音样本中筛选有效语音样本；

提取模块250，用于提取有效语音样本中与平均意见得分MOS具有强相关性的多个声学特征；

构建模块260，用于基于与MOS具有强相关性的多个声学特征，构建基于多个声学特征的MOS评估模型；

输出模块270，用于将待评估语音质量的样本输入基于多个声学特征的MOS评估模型中，输出待评估语音质量的样本的MOS评分。

以下通过具体的实例，描述本发明实施例的可选的具体处理过程。需要说明的是，本发明的方案并不依赖于具体的算法，在实际应用中，可选用任何已知或未知的硬件、软件、算法、程序或其任意组合等来实现本发明的方案，只要是采用了本发明方案的实质思想，均落入本发明的保护范围。

本发明实施例基于TensorFlow人工智能学习系统和Python编程语言进行开发，基于海量测试样本的声学量化特征信息(例如，时域、频域参数等)，采用机器学习中的深度神经网络算法进行大数据分析，拟合训练出不同声学特征信息与MOS值之间的对应关系，建立“MOS值与语音声学特性信息关系”模型，自主开发了平台，有效的支撑网络优化人员评估VoLTE语音质量，为VoLTE问题更精确的“号脉”，使网络健康可持续的发展，给客户带来高清音质、畅快接通的通话体验。

在一个实施例中，平台架构参见图3，图3示出了本发明实施例的平台架构示意图。

参见图3，平台可分为四层架构，包括数据采集层、信令处理层、数据处理层、以及应用层。语音质量评估数据来自于Mb接口采集的用户面数据、呼叫外部数据表示(ExternalData Representation，XDR)信令、MR测量数据等。

参考图4，图4示出了本发明实施例的平台的系统结构示意图。通过分光采集获取Mb接口的原始信令，通过采集服务器，完成基本的过滤后送入处理服务器，在处理服务器中完成语音质量评测、话单信息关联等基础信息的运算。

作为一个示例，参考图5，图5示出了本发明另一实施例的语音质量评估方法的流程示意图。

具体地，基于深度神经网络算法的VoLTE语音质量评估方法主要包括如图5所示的五个步骤：实时传输协议(Real-time Transport Protocol，RTP)数据采集S510、数据处理S520、利用声学特征提取特征参数S530、建立深度神经网络模型和MOS评估算法S540、以及开发设计系统呈现软件S550。以下对上述各个步骤进行详细描述：

针对本发明实施例基于深度神经网络算法的VoLTE语音质量评估方法，具体步骤如下：

S510，RTP数据采集：进行服务器的搭建，采集拨测数据，建立样本库。

作为一个示例，RTP数据采集建立深度神经网络-MOS(Deep Neural Networks-MOS，DNN-MOS)模型样本的方法是模拟用户实际使用情况。

具体地，参考图6，图6示出了本发明实施例的数据采集环境和过程示意图。

例如，通过在各种场景下利用人工进行大量拨测，获取拨打样本文件，通过Mb接口采集RTP流媒体包，并对RTP流媒体包进行抽样和还原处理，以获取退化样本，并通过验证筛选，从退化样本中获取有效样本数据。其中，各种场景包括诸如商场、写字楼、学校、道路、景区、居民区以及交通枢纽等。具体过程如下：

主叫手机播放语音样本A：原始样本A；

网络平台获取语音样本B：退化样本B；

样本有效性验证和筛选：有效样本库。

作为一个示例，有效样本数据共包含65个属性，参见表1，表1为有效样本数据的属性列表。

其中，表1中各个英文属性含义如下：无线接入技术(Radio AccessTechnologies，RAT)、国际移动用户识别码(IInternational Mobile SubscriberIdentification Number，IMSI)、国际移动设备识别码(International Mobile EquipmentIdentity，IMEI)、演进通用陆地无线接入网络小区标识(E-UTRAN Cell Identifier，ECI)、实时传输协议(Real-time Transport Control Protocol，RTCP)、跟踪区域码(TrackingArea Code，TAC)：

表1

参考图7，图7示出了本发明实施例的有效样本库示意图。其中，有效样本库以TXT格式存储，各属性之间用“|”表示。

参考图8，图8示出了本发明实施例的数据采集示意图。

作为一个示例，在LTE网络的VOLTE媒体面接口(例如，Mb接口)完成数据包采集，然后通过IP和端口分理出用户信息。应该注意的是，不同的用户传输的数据采用的IP和端口也不相同。

其中，会话初始协议(Session Initiation Protocol，SIP)会话消息及其它控制消息会以原始信令的方式传输至解析服务器，通过解析会话描述协议(SessionDescription Protocol，SDP)消息可过滤出用户对应的RTP语音媒体流数据。

S520，数据处理：确保RTP包的语音抽样和还原处理正常，使误差控制在0.1s(秒)以内。

作为一个示例，在完成RTP包的数据采集后，往往与原始的RTP包有所差别，这些差别会导致在进行语音质量评估时的不准确，因此需要采用合适的还原算法对语音包进行处理，确保RTP包抽样和还原处理正常，误差控制在一定范围内。

参考图9和图10，图9示出了本发明实施例的RTP包还原机制及准确性验证方法示意图；图10示出了本发明实施例的编译生成的可执行文件示意图。

例如，本发明实施例采用基于模型的恢复法(Model-based recovery)对RTP包进行还原处理。该方法把丢包前后的语音嵌入到一个语音模型中用来产生丢失的包，采用过去的样本对语音进行自回归分析建模。

此外，作为一个示例，参考图11，图11示出了本发明实施例的退化语音与原始语音长度差值的示意图。

例如，在算法开发完成后，随机选取了1000个10s长度的测试原始语音与网络侧退化语音进行长度对比，发现99.7％的退化样本还原时长与原始录音长度误差在0.1s(秒)以内，说明采用基于模型的恢复法实施有效。

S530，利用声学特征提取特征参数：开发多种声学特征提取算法，提取强相关特征参数。

参考图12，图12示出了本发明实施例的ePOLQA-MOS模型的示意图。

作为一个示例，语音信号的声学特征分为时域和频域信息，可将复杂声音波形分解为简单的叠加，可精确地衡量波形的“构造”，基于声学特征信息分析可精准地反应语音质量。

其中，时域特征参数可以主要包括如下几项：诸如短时能量、短时平均幅度、短时过零率、短时自相关函数等；频域特征参数可以主要包括如下几项：诸如梅尔倒谱系数MFCC、感知线性预测PLP、共振峰等。

其中，上述各个时域特征参数和频域特征参数的计算公式可以参考图1。参考图13，图13示出了本发明实施例的各参数计算公式。

在一个实施例中，利用诸如散点图法，粗略提取所述有效语音片段中与MOS具有强相关性的声学特征；利用诸如主成分分析算法，从粗略提取得到的声学特征中精细提取与MOS具有强相关性的多个声学特征。

通过此过程，共提取了近200维的声学特征参数，通过散点图法验证参数与MOS值之间的相关性后，共得到93维具有强相关性的特征参数。

参考图14和图15，图14示出了本发明实施例的RTP短时平均幅度与MOS强相关的示意图；图15示出了本发明实施例的RTP短时平均幅度与MOS弱相关的示意图。

S540，建立深度神经网络模型和MOS评估算法：通过主成分分析算法筛选出与MOS强相关的声学特征参数；根据语音信号的特征构件神经网络模型。

首先，构建深度神经网络模型。

参考图16、图17和图18，图16示出了本发明实施例的MOS与语音声学特性信息关系模型示意图；图17示出了本发明实施例的构建神经网络模型的Python程序示意图；图18示出了本发明实施例的模拟出的神经网络模型示意图。

作为一个示例，基于海量测试样本的声学量化特征信息(例如，时域、频域参数等)，采用诸如基于深度神经网络算法大数据分析，拟合训练出不同声学特征信息与MOS值的对应关系，建立“MOS值与语音声学特性信息关系”模型。

其中，输入层：经声学提取算法提取的海量样本声学特征信息(例如，每个样本包含9个时域参数、84个频域参数)。

隐层Model(模型)：通过层层加工，将基础声学特征逐级提取加工。其中，J层、K层、L层分别代表由低级到高级的抽象。

输出层：当加工迭代到一定程度后，即可通过高层特征表述语音质量MOS，从而训练出模型。

其次，DNN-MOS评估。

参考图19，图19示出了本发明实施例的DNN-MOS评估模型及MOS公式的示意图。

其中，在如图19所示的公式中：X_i是输入层向量(例如，9个时域参数+84频域参数＝93维)；W_1l、W_lk、W_kj、W_ji是各层连接矩阵；b₁、b_l、b_k、b_j是各层偏置向量。

作为一个示例，将语音抽样样本输入基于声学特征的DNN-MOS评估模型，即可输出该通话的语音质量MOS评分。

参考图20，图20示出了本发明实施例的DNN-MOS程序评估结果示意图。

通过对基于声学特征DNN-MOS整体评估结果与传统路测测算结果进行对比，拟合度为0.89，实验结果如图21所示，图21示出了本发明实施例的DNN-MOS输出结果与路测MOS拟合示意图。

综上所述，首先，本发明实施例通过模拟用户实际使用情况，在各种场景下利用人工大量拨打样本文件，通过Mb接口采集RTP流媒体包，并对RTP流媒体包进行抽样和还原处理，进而获取退化样本，通过验证筛选出有效样本数据，准确性、实时性均较高，且适用面广。

其次，本发明实施例通过采用深度神经网络算法，拟合训练出不同声学特征信息与MOS值的对应关系，建立“MOS值与语音声学特性信息关系模型DNN-MOS”，打破传统的语音质量评估方法，利用机器学习算法由网络质差优化转入端到端全面优化。

再次，本发明实施例不限于场景单一的道路测试，有效避免重复工作和效率低的问题。在场景类分析中引入背景噪声分析，按背景噪声等级对小区进行合理的场景划分，并且基于底噪等级，克服人耳的掩蔽效应，采取更为合理的网络参数设置，提升用户在各个场景的使用体验。

最后，本发明实施例利用平台自动输出VoLTE语音质量评估结果，避免了传统方法在准确度、全面性和部署成本等方面的缺陷，极大的节约了网络优化资源和成本，同时本发明采用图形化界面呈现，使得网络优化人员可以快速上手掌握。

与采用人工评测、POLQA(路测)、E-Model来实现VoLTE语音质量评估的方法相比，本发明实施例的语音质量评估方法具有以下优点：

(1)现有技术大部分是采用线性回归模型进行VoLTE语音质量评估，但是在回归分析中，选用何种因子和该因子采用何种表达式只是一种推测，主观性较强，这会导致欠拟合或过拟合现象，使得回归分析在某些情况下受到限制。然而，本发明实施例采用发明的深度神经网络算法DNN-MOS，拟合训练出不同声学特征信息与MOS值的对应关系，针对高维度和大样本数据有更好的表现，可以有效避免欠拟合或过拟合现象。

(2)现有算法通过采集基站侧的数据包，对数据包进行过滤，过滤出语音包，对主叫侧与被叫侧语音包进行对比运算，得出MOS评分。但该方案需要采集全量用户面数据、数据量巨大、储存、运算耗时长；同时由于采集的是基站侧语音包，无法对无线侧评估。然而，本发明实施例通过Mb接口采集RTP流媒体包筛选出的样本数据，并采用深度神经网络算法进行训练建模得出MOS。准确性、实时性均较高，且适用面广。

(3)现有POLQA路测方法需要使用VoLTE测试仪表进行测试，对比输入端和接收端的语音文件，计算得出MOS。这种方法覆盖面较小，主要用于路测，评估范围仅为设备能测试到的街道、高速、高铁等道路场景，实时性差、效率低、场景受限；同时需要双向语音，难以IT化部署。然而，本发明实施例不限于场景单一的道路测试，有效避免重复工作和效率低的问题。

(4)现有技术还有采用主观评测的方法，弊端是要求大量的人和大量次数的测听实验，耗费大、经历时间长，主观性强、无统一标准。然而，本发明基于Mb接口采集的用户面数据、呼叫XDR信令、MR测量数据进行建模，避免了大量的人工测试，在提升工作效率的同时克服了人为主观性。

(5)现有技术还有采用E-Model方法，主要是通过一些网络侧性能统计指标如丢包、时延类指标进行拟合计算，由于拟合参数并非基于语音本身，模型算法较简单、评估准确度偏低。然而，本发明实施例采集样本的方法是模拟用户实际使用情况，在各种场景下利用人工大量拨打样本文件，通过Mb接口采集RTP流媒体包，获取退化样本，通过验证筛选出有效样本数据，准确性、实时性均较高、且适用面广。

(6)现有方法通常只是输出文本格式的结果，无法进行可视化的呈现。然而，本发明实施例利用平台自动直观呈现VoLTE语音质量评估结果，避免了传统方法在准确度、全面性和部署成本等方面的缺陷，极大的节约了网络优化资源和成本，同时本发明采用图形化界面呈现，使得网络优化人员可以快速上手掌握。

因此，本发明实施例通过采用机器学习的深度神经网络算法，构建更加准确的评估模型，利用语音分析技术和机器学习算法由网络质差优化转入端到端全面优化。

另外，结合图1描述的本发明实施例的语音质量评估方法可以由语音质量评估设备来实现。图22示出了本发明实施例提供的语音质量评估设备的硬件结构示意图。

语音质量评估设备可以包括处理器1003以及存储有计算机程序指令的存储器1004。

图22是示出能够实现根据本发明实施例的通信方法和网络服务器的计算设备的示例性硬件架构的结构图。如图22所示，计算设备1000包括输入设备1001、输入接口1002、处理器1003、存储器1004、输出接口1005、以及输出设备1006。

其中，输入接口1002、处理器1003、存储器1004、以及输出接口1005通过总线1010相互连接，输入设备1001和输出设备1006分别通过输入接口1002和输出接口1005与总线1010连接，进而与计算设备1000的其他组件连接。

具体地，输入设备1001接收来自外部的输入信息，并通过输入接口1002将输入信息传送到处理器1003；处理器1003基于存储器1004中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器1004中，然后通过输出接口1005将输出信息传送到输出设备1006；输出设备1006将输出信息输出到计算设备1000的外部供用户使用。

计算设备1000可以执行本申请上述的通信方法中的各步骤。

处理器1003可以是一个或多个中央处理器(英文：Central Processing Unit，CPU)。在处理器1003是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

存储器1004可以是但不限于随机存储存储器(RAM)、只读存储器(ROM)，可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、硬盘等中的一种或多种。存储器1004用于存储程序代码。

可以理解的是，在本申请实施例中，图2提供的采集模块至输出模块中任一模块或全部模块的功能可以用图22所示的中央处理器1003实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

本说明书的各个部分均采用递进的方式进行描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点介绍的都是与其他实施例不同之处。尤其，对于装置和系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例部分的说明即可。

Claims

1.一种语音质量评估方法，包括：

采集原始语音样本；

基于所述原始语音样本，获得实时传输协议RTP流媒体包；

从所述RTP流媒体包中获得退化语音样本；

从所述退化语音样本中筛选有效语音样本；

2.根据权利要求1所述的方法，其特征在于，所述采集原始语音样本，包括：

3.根据权利要求1所述的方法，其特征在于，

所述原始语音样本包括主叫侧语音样本；

4.根据权利要求1所述的方法，其特征在于，所述基于所述原始语音样本，获得实时传输协议RTP流媒体包，从所述RTP流媒体包中获得退化语音样本，包括：

基于所述原始语音样本，通过Mb接口采集RTP流媒体包；

对所述RTP流媒体包进行抽样处理，得到抽样语音片段；

对所述抽样语音片段进行还原处理，获取退化语音样本；

5.根据权利要求4所述的方法，其特征在于，所述对所述抽样语音片段进行还原处理，包括：

6.根据权利要求1所述的方法，其特征在于，

所述多个声学特征中的每一个均包括时域特征参数和频域特征参数；其中，

7.根据权利要求1所述的方法，其特征在于，所述提取所述有效语音样本中与平均意见得分MOS具有强相关性的多个声学特征，包括：

8.根据权利要求7所述的方法，其特征在于，所述粗略提取所述有效语音片段中与MOS具有强相关性的声学特征，包括：

9.根据权利要求7所述的方法，其特征在于，所述从粗略提取得到的声学特征中精细提取与MOS具有强相关性的多个声学特征，包括：

10.根据权利要求1所述的方法，其特征在于，所述基于所述与MOS具有强相关性的多个声学特征，构建基于多个声学特征的MOS评估模型，包括：

11.一种语音质量评估装置，包括：

采集模块，用于采集原始语音样本；

12.一种语音质量评估设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-10中任一项所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-10中任一项所述的方法。