CN110365970A

CN110365970A - 一种基于监督学习评估终端VoLTE视频通话感知方法

Info

Publication number: CN110365970A
Application number: CN201910620618.0A
Authority: CN
Inventors: 萧振涛
Original assignee: GUANGZHOU HANXIN COMMUNICATION TECHNOLOGY Co Ltd
Current assignee: GUANGZHOU HANXIN COMMUNICATION TECHNOLOGY Co Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-10-22

Abstract

本发明公开了一种基于监督学习评估终端VoLTE视频通话感知方法，包括以下步骤：采集不同终端在相同网络环境下的通话感知评分数据；对获取的通话感知评分数据依次进行清洗、降维；对降维处理后通话感知评分数据进行特征提取得到特征数据集；构建神经网络模型，将特征数据集输入神经网络模型进行训练得到收敛的神经网络模型；将待评估测试终端的硬件参数特征值数据输入训练完毕的神经网络模型，输出终端的评估感知结果。本发明通过对通话感知评分数据进行清洗及降维处理，突出数据的主要特征便于计算，通过提取关键特征组成特征数据集并输入至神经网络进行训练，提高了感知方法的准确度和智能程度。

Description

一种基于监督学习评估终端VoLTE视频通话感知方法

技术领域

本发明涉及移动通信领域，更具体地，涉及一种基于监督学习评估终端VoLTE视频通话感知方法。

背景技术

目前业界对视频用户体验的研究大部分都只是停留在用户体验、视频质量以及终端影响评估三个方面的理论研究，还没有可实际应用的产品和模型。通过检索查找到相近文献如下：申请号：201410301467.X，名称：基于层次分析和多元线性回归的移动视频质量评估方法；申请号：201610074975.8，名称：一种用户上网QoE评价方法及装置；申请号：201610277812.X，名称：移动终端视频通话质量的测试方法及系统；上述专利文献分别从从编码对视频质量评估、用户体验、以及终端对视频质量的影响三个方面入手，对用户视频体验进行了一定程度的研究和分析。然而对于终端VoLTE视频通话感知的研究中，急需解决评估终端VoLTE视频通话感知准确度低，不便捷，智能程度不高的问题。

发明内容

本发明为克服上述现有技术中评估终端VoLTE视频通话感知方法计算繁琐、准确度低、智能程度不高的缺陷，提供一种基于监督学习评估终端VoLTE视频通话感知方法。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

一种基于监督学习评估终端VoLTE视频通话感知方法，包括以下步骤：

S1：采集不同终端在相同网络环境下的通话感知评分数据,所述通话感知评分数据由测试者通过进行通话测试得到；

S2：对获取的通话感知评分数据依次进行清洗、降维；

S3：对降维处理后通话感知评分数据进行特征提取得到特征数据集；

S4：构建神经网络模型，将特征数据集输入神经网络模型进行训练得到收敛的神经网络模型；

S5：将待评估终端的硬件参数特征值数据输入训练完毕的神经网络模型，输出终端的评估感知结果。

本方案中，步骤S1中通话感知评分包括五个等级，所述五个等级的分数分别记为：5、4、3、2、1，其中5表示最高等级的分数，1表示最低等级的分数。

本方案中，每一种终端通话感知评分数据包括若干条通话感知评分，所述若干条通话感知评分通过若干测试者在同一次通话测试中得到。

本方案中，步骤S2中对获取的通话感知评分数据进行清洗具体过程为：将每一种终端的通话感知评分数据包括的若干条通话感知评分进行平均处理，将平均处理后的通话感知评分数据作为对应终端的通话感知评分。

本方案中，步骤S2中采用主成分分析法进行降维处理。

本方案中，步骤S3中提取的特征包括：处理能力、屏幕性能、摄像头性能。

本方案中，步骤S4建立的神经网络为包含1个输入层和1个输出层和2个隐含层的全连接神经网，所述输入层包括3个神经元。

本方案中，神经网络模型的训练过程如下：

步骤1：初始化神经网络权重和设置学习率，用服从标准正太分布随机数来设置初始权重，使用网格搜索法确定学习率，将特征数据集输入神经网络模型；

步骤2：进行神经网络模型的前向传播得到输出值；

步骤3：设定损失函数进行神经网络模型的前向传播，计算损失函数关于神经网络中各层的权重的梯度，得到梯度值后使用梯度下降的方式优化神经网络模型的参数；

步骤4：重复步骤3、步骤4直至神经网络模型收敛。

本方案中，步骤2的前向传播采用Sigmoid函数作为激活函数。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过对通话感知评分数据进行清洗及降维处理，突出数据的主要特征便于计算，通过提取关键特征组成特征数据集并输入至神经网络进行训练，提高了感知方法的准确度和智能程度。

附图说明

图1为本发明方法流程图。

图2为PCA降维后的结果可视化示意图。

图3为神经网络模型结构示意图。

图4为神经网络模型的训练效果示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

名词解释

VoLTE：(Voice over Long-Term Evolution)一个面向手机和数据终端的高速无线通信标准；

MOS：(Mean Opinion Score)平均主观意见分；

ROC：(receiver operating characteristic curve)接收者操作特征，一种模型评估指标；

AUC：(Area Under Curve)曲线下面积，一种模型评估指标；

如图1所示，一种基于监督学习评估终端VoLTE视频通话感知方法，包括以下步骤：

S2：对获取的通话感知评分数据依次进行清洗、降维；

需要说明的是，本实施例中终端为手机，在实施步骤S1之前还包括采集现有不同品牌每一种型号手机的硬件参数信息，获取的硬件参数信息包括但不限于：处理器、图形处理器、主频、计算内存、屏幕材质、屏幕色彩度、对比度、屏幕像素、摄像头像素、光圈、传输速率。

在相同的网络环境下对不同的设备终端进行用户使用感知测试，通过不同用户的感知收集实现对该终端该网络环境下对VoLTE视频通话的影响，使用不同用户对同一终端的同一次通话的感知评分来作为通话感知评分数据。

需要说明的是，避免了一个用户过于主观的情况。本实施例采用了基于ITU标准的评分等级制。

需要说明的是，表1所示为通话感知评分与通话感知结果对应关系：

表1

MOS	Quality
		5	Excellent
4	Good
		3	Fair
2	Poor
		1	Bad

在获取了通话感知评分数据之后，需要对数据进行处理，包括数据清洗和数据降维。

需要说明的是，每一种终端通话感知评分数据包括若干条通话感知评分，所述若干条通话感知评分通过若干测试者在同一次通话测试中得到。

通话感知评分数据进行清洗具体过程为：将每一种终端的通话感知评分数据包括的若干条通话感知评分进行平均处理，将平均处理后的通话感知评分数据作为对应终端的通话感知评分。

通话感知评分数据进行清洗后采用主成分分析法(PCA)进行降维处理。

需要说明的是，本实施例中运用相关性来度量特征的好坏，好的特征子集所包含的特征应该是与分类的相关度高，而特征之间相关度低。将PCA降维后的结果集可视化处理如图2所示。

本实施例中，针对VoLTE视频通话质量用户体验问题，可考虑有监督模型构建，如神经网络模型。神经网络模型是通过选择适当的隐含单元和网络层次对于一组输入和输入数据之间的关系进行建模，前馈网络能以任意精度逼近线性函数。神经网络模型有拥有强大的拟合能力，能够描述任何规模数据集之间的关系。

利用特征工程得到的数据集确定此模型输入层的神经元个数为3个。

选择一个包含一个输入层和一个输出层和两个隐含层的全连接神经网络。结构如下图3：

神经网络模型的训练过程如下：

需要说明的是，若将神经元的初始权重都初始化为0，将使得模型退化为一个线性模型、隐藏神经元权重值对称，在迭代过程中而无法进行学习。为避免这情况，本实施例采用服从标准正太分布随机数来设置初始权重。关于学习率的设置，如果太大，可能会导致模型无法收敛。如果太小，可能导致模型训练时间太长。本实施例采用在0.1和0.001之间选择一个作为基准，等待初步的模型训练完成后，使用网格搜索法确定一个最优的学习率。

步骤2：进行神经网络模型的前向传播得到输出值；

需要说明的是，每一个神经元的计算流程为：线性变换→激活函数→输出值。本实施例使用Sigmoid函数作为激活函数，Sigmoid函数能够针对数据进行非线性变化，将输入值压缩到0-1之间。

Sigmoid函数公式为：

步骤4：重复步骤3、步骤4直至神经网络模型收敛。神经网络模型的训练效果如图4所示。

如图所示，随着训练次数的增加，模型的损失值震荡减少。当训练次数超过750次时，神经网络模型损失值不在变化，这就代表训练结束，神经网络模型已经收敛。

本实施的验证与分析：

神经网络模型训练完毕之后，本实施例采用准确率、ROC曲线、AUC面积衡量模型。

准确率：对于给定的测试集，正确预测的样本与总样本之比。

ROC曲线：比较不同的分类模型，可以将每个模型的ROC曲线都画出来，比较曲线下面积作为模型优劣的指标

AUC面积：比较不同的神经网络模型的时候，可以将每个模型的ROC曲线画出来，比较曲线下的面积作为模型优劣的指标。本实施例中神经网络模型的AUC为0.8时效果最佳。

通过数据采集和实验，提取到众多终端设备信息数据，还有用户对终端的通话感知评分，获得的数据基于用户感知实验进行提取，能反映用户的真实感知情况，为特征提取奠定基础。通过对数据进行清洗、降维处理，可以综合多个对通话感知的影响因素，并选取其中最核心的数据进行特征向量标准化，构建出三个特征值作为神经网络模型的输入参数，最终采用有监督学习的机器神经网络模型对结果进行训练和评估，并验证测试结果符合预期，表2所示为VoLTE终端指标及算法输出评分情况，表3测试终端VoLTE指标综合测试情况。

表2

终端型号	Cpu	Main_cpu	memory	Screem_pixel	感知评估
						测试终端1	高通骁龙845	2.8GHz	6GB	2880x1440	Good
测试终端2	苹果 A10+M10	2.23GHz	3GB	1920x1080	Good
						测试终端3	苹果 A11+M11	2.23GHz	2GB	1334x750	Excellent
测试终端4	高通骁龙845	2.8GHz	8GB	2240x1080	Fair
						测试终端5	高通骁龙625	2.0GHz	4GB	1920x1080	Good
测试终端6	海思 Kirin970	2.36GHz	6GB	2880x1440	Excellent
						测试终端7	高通骁龙845	2.8GHz	8GB	2316x1080	Good
测试终端8	高通骁龙845	2.8GHz	8GB	2160x1080	Excellent
						测试终端9	高通骁龙835	2.45GHz	8GB	2040x1080	Good
测试终端10	高通骁龙820	2.25GHz	4GB	2560x1440	Fair
						测试终端11	高通骁龙845	2.96GHz	8GB	2160x1080	Good

表3

对比VoLTE指标排名情况与算法评分结果，发现测试终端的实际指标情况与终端评分结果吻合，说明本发明在多终端多维度评估VoLTE视频通话感知结果准确。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于监督学习评估终端VoLTE视频通话感知方法，其特征在于，包括以下步骤：

S1：采集不同终端在相同网络环境下的通话感知评分数据，所述通话感知评分数据由测试者通过进行通话测试得到；

S2：对获取的通话感知评分数据依次进行清洗、降维；

2.根据权利要求1所述的一种基于监督学习评估终端VoLTE视频通话感知方法，其特征在于，步骤S1中通话感知评分包括五个等级，所述五个等级的分数分别记为：5、4、3、2、1，其中5表示最高等级的分数，1表示最低等级的分数。

3.根据权利要求1所述的一种基于监督学习评估终端VoLTE视频通话感知方法，其特征在于，每一种终端通话感知评分数据包括若干条通话感知评分，所述若干条通话感知评分通过若干测试者在同一次通话测试中得到。

4.根据权利要求3所述的一种基于监督学习评估终端VoLTE视频通话感知方法，其特征在于，步骤S2中对获取的通话感知评分数据进行清洗具体过程为：将每一种终端的通话感知评分数据包括的若干条通话感知评分进行平均处理，将平均处理后的通话感知评分数据作为对应终端的通话感知评分。

5.根据权利要求1所述的一种基于监督学习评估终端VoLTE视频通话感知方法，其特征在于，步骤S2中采用主成分分析法进行降维处理。

6.根据权利要求1所述的一种基于监督学习评估终端VoLTE视频通话感知方法，其特征在于，步骤S3中提取的特征包括：处理能力、屏幕性能、摄像头性能。

7.根据权利要求1所述的一种基于监督学习评估终端VoLTE视频通话感知方法，其特征在于，步骤S4建立的神经网络为包含1个输入层和1个输出层和2个隐含层的全连接神经网，所述输入层包括3个神经元。

8.根据权利要求1所述的一种基于监督学习评估终端VoLTE视频通话感知方法，其特征在于，神经网络模型的训练过程如下：

步骤2：进行神经网络模型的前向传播得到输出值；

步骤4：重复步骤3、步骤4直至神经网络模型收敛。

9.根据权利要求8所述的一种基于监督学习评估终端VoLTE视频通话感知方法，其特征在于，步骤2的前向传播采用Sigmoid函数作为激活函数。