CN108133387B

CN108133387B - 基于软信息的多标记k近邻算法

Info

Publication number: CN108133387B
Application number: CN201711390238.XA
Authority: CN
Inventors: 李克; 王海; 徐小龙; 谢苏
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2021-11-12
Anticipated expiration: 2037-12-21
Also published as: CN108133387A

Abstract

本发明为基于软信息的多标记K近邻算法，要解决的问题是如何根据实际的大数据应用场景的需求和特征对经典多标记K近邻学习算法进行优化以获得更优的分类性能和更高效的计算复杂度。本发明增加了对软信息的利用以提高算法的泛化性能，且尤其适用于移动互联网业务感知KQI指标预测这一应用场景。根据海量的历史标记数据，对在特定属性条件下的标记进行预测，相比传统的ML‐kNN算法提供更优异的分类预测性能和更高的学习效率。

Description

基于软信息的多标记K近邻算法

技术领域

基于软信息的多标记K近邻算法属于海量数据应用领域。

背景技术

随着各种应用领域对海量数据获取能力的逐步强化，以及以Hadoop为代表的分布式架构在海量数据处理方面得到认可，传统针对小数据量的机器学习研究在近几年得到了学界和产业界的极大关注，并广泛应用于海量数据的挖掘分析中，取得了较好的应用效果。

但传统机器学习算法在应用于具体的海量数据应用领域中时，仍然普遍存在以下问题：(1)由于主要是针对小数据集进行，较少考虑运算复杂度的问题，因此在处理海量数据集时需要优化算法设计以降低运算负担；(2)海量数据集普遍存在样本的不均衡问题，尤其是隐含更大应用价值的负样本的稀缺，影响到了学习算法的性能，需要在算法设计中考虑此问题；(3)应用领域的海量数据通常是无标记样本，因为缺乏训练样本，导致很多有监督学习算法无法直接应用，这也促进了近年来得到广泛关注的半监督学习和无监督学习算法的研究；(4)在应用于某一具体应用领域中，还需要针对该特定应用的特点，尤其是应用场景中的各种边界约束条件，对算法进行优化以达到最佳效果。因此，如何针对上述问题对经典算法进行优化以适用于特定的应用场景是在应用机器学习在大数据领域应用时始终要关注的重要命题。

机器学习算法中，多标记学习是一类应用较为广泛的算法，尤其是实际应用中的数据往往具有多种标记的特征，比如图像分类中，一幅风景图像可能同时具有多个标记特征如山川、河流、海滩、人物等，在电影分类中，一部电影可能同时属于言情、悬疑、历史、偶像剧。因此多标记学习相比普通的单标记学习往往适用于更多的应用场景。

现有的多标记学习算法大多数都是在原有单标记分类算法的基础上扩展而得的。其中比较经典的算法包括AdaBoost.MH算法、Rank-SVM算法和ML-kNN算法等。其中ML-kNN算法以其简单而有效的算法思想和分类效果得到了广泛的关注和应用。

ML-kNN算法是将经典的单标记kNN(K-nearest-neighbor)算法进行扩展，通过与贝叶斯算法相结合而构造的学习分类器。该算法可以实现对多标记数据的有效分类。在该算法基础上，不断有研究者对算法进行改进和扩展。

经典的机器学习算法是面向小数据集的通用算法，在应用到具体的大数据应用场景中解决特定的问题时，仍应当结合应用场景的约束条件、需求和数据特征对算法进行优化，以获得最大化的性能提升。具体来说，经典的ML-kNN算法在应用于某些具体应用场景时，存在以下几个方面的问题：

(1)软标记信息的利用：

很多应用场景下，训练样本中的标记项是通过对原始数值型数据的硬判决获得的，在此过程中，损失了原始标记数据所携带的信息，传统算法并未考虑此信息的利用。如果能够在算法中利用这些软标记信息，则有可能提高分类预测的准确性。以下图2为例：

图2(a)为不包含软信息的普通基于硬判决的kNN算法，其中“o”为未知样本。根据投票结果，未知样本标记值应为“+”。如果保留其软标记信息(如图2b所示)，则可以等价为图2c所示，即图中正样本数量少于负样本数量，其标记结果取为“-”更合理。

(2)可用样本的稀疏性带来的近邻不足问题：

在很多实际分类应用中，往往受采集条件的限制导致所采集数据的分布很不均衡，在有些区域样本分布过于稀疏。而样本间的相关性受具体条件限制，超过一定距离的样本间几乎不存在相关性。在这种情况下，满足相关性约束条件下的实际近邻数可能小于k值。如果按照传统算法强行选择k个最近样本，则可能引入无关样本造成判决误差。

以图3为例。图中K＝7，圆形区域内为满足相关性约束条件的实际近邻数，而矩形区域内为不考虑相关性约束条件下的全部7个近邻。按照7个近邻样本判决的结果显然受到右侧两个无关样本的干扰而导致了误判。

(3)大训练样本集情况下的算法复杂度问题：

相比传统ML-kNN算法以面向小数据集为主，在大数据应用场景中训练样本空间要大得多。一方面，这样有利于训练出泛化能力更强的模型，但同时带来的计算复杂度增长明显，在一定程度上影响了实际应用效果。为此，需要结合数据特征进行合理优化以降低计算复杂度。具体地，可以在寻找k近邻时利用样本的相关性约束条件缩小搜索范围并降低计算复杂度。

本发明主要面向的应用场景是移动互联网业务感知KQI指标的预测。即在传统多标记K近邻算法(ML-kNN)的基础上，结合业务感知KQI指标预测中的训练数据集所面临的上述(1)～(3)的问题，即软标记信息的利用问题、样本分布的稀疏性问题和大样本集的运算复杂度问题，对算法进行了优化调整，以满足这类具体应用场景的需求。

发明内容

本发明要解决的问题是如何根据实际的大数据应用场景的需求和特征对经典多标记K近邻学习算法进行优化以获得更优的分类性能和更高效的计算复杂度。本发明增加了对软信息的利用以提高算法泛化的性能，且尤其适用于移动互联网业务感知KQI指标预测这一应用场景。

根据海量的历史标记数据，对在特定属性条件下的标记进行预测，相比传统的ML-kNN算法提供更优异的分类预测性能和更高的学习效率。

本发明提出了一种基于软标记信息的多标记K近邻分类算法。

具体步骤详细描述如下：

输入：原始训练样本集

m为样本数量；原始未知(无标记)样本

原始属性集

d为属性集的维度，其中前n个属性项(n≤d)为相关约束属性项(即当两个样本的该属性项距离超出设定的属性无关门限时，可认为这两个样本关于该属性项无关)，属性字段为名目型数据或数值型数据；

原始标记集

q为标记集的维度；标记字段的原始样本值均为数值型数据。

输出：未知样本的标记结果Y₀。

步骤1：样本属性值转换

对原始训练样本和原始未知样本中的所有数值型属性项利用公式(1)进行归一化，即：

其中

表示属性i的原始值。

为相对于上下边界

和

的截断函数，即

其中上下边界

和

是依据其箱形图分布的下外限Q1-3IQR和上外限Q3+3IQR以及实际最大值和最小值按下式求得：

具体地，先由全部训练样本的该原始属性值做出箱形图，其中Q3为其上四分位数，Q1为其下四分位数，IQR＝Q3-Q1为上四分位数Q3与下四分位数Q1之差(即四分位距)，Q1-3IQR和Q3+3IQR则分别为其下外限值和上外限值。

步骤2：样本的标记值转换和软信息提取

对于原始训练样本中的各数值型标记字段，根据预设的判决门限{T₁～T_q}按公式(4)转换成布尔型数据，即：

其中函数

表示当条件c成立时返回1，否则返回0；判决门限采用全部样本的该标记值箱形图分布的上内限Q3+1.5IQR。

同时，根据公式(5)计算各样本标记值到判决门限的归一化绝对距离(即软标记信息)s_ij∈[0，1]，即：

其中该标记项的下边界

取为其其箱形图分布的下内限Q1-1.5IQR，上边界

取为其箱形图分布的上外限Q3+3IQR。

为相对于

和

的截断函数。

经过步骤1和2，得到训练样本集D＝{(x_i，Y_i)|1≤i≤m}和未知样本x₀。

步骤3：构造训练样本的k最近邻样本集

对训练样本集中的每个样本矢量x_i，i＝1～m，在训练样本集中寻找该样本矢量的最多k个最近邻样本，构成该样本矢量的k最近邻样本集

该样本集的实际最近邻样本个数为k_i，(k_i≤k)；具体方法如下：

对样本矢量x_i＝{x_il，l＝1～d}，在训练样本集中依次根据各个相关约束属性项，寻找(除该样本自身之外)所有与x_il，1≤l≤n的距离小于设定属性无关门限w_l，1≤l≤n的样本，构成初始最近邻样本集

属性无关门限的取值一般是根据具体应用场景中的历史数据分析结果结合经验值综合确定；比如，如果算法应用于网页浏览业务的KQI指标预测，其中属性项“时间”我们可以设定为7天，即结合经验和历史数据分析，我们认为当两个样本的采集时间差超过7天，即认为两个样本基本无关。

计算初始最近邻样本集

中各样本矢量与样本矢量x_i的欧氏距离，取距离最近的最多前k个样本作为样本矢量x_i的k最近邻样本集

步骤4：计算先验概率和归一化频数矩阵

对每个标记项y_j，j＝1～q，按下面的公式(6)计算先验概率

和

其中，H_j和

分别表示未知(无标记)样本(仅有属性信息，没有标记信息)x₀具有和不具有标记项y_j(也即标记项y_j＝1和0，)，而

和

则分别表示H_j和

成立的先验概率，α为控制参数(一般取为1)。

然后，按下面的公式(7)(8)计算归一化频数矩阵[f_j[r]+_(k+1)×q和

其中，R(·)表示round取整，δ_j(x_i)表示的训练样本x_i的近邻样本中具有标记y_j的样本的软信息加权占比：

则f_j[r]表示训练样本集中具有标记y_j并且同时有占比为

的近邻也具有标记y_j的训练样本个数。而

则表示训练样本集中不具有标记y_j并且同时有占比为

的近邻具有标记y_j的训练样本个数。

步骤5：构造未知样本x₀的k近邻样本集

对未知样本x₀，按照步骤3的方法在训练样本集中构造出该样本的k近邻样本集

实际的最近邻样本数为k₀，(k₀≤k)；

步骤6：计算未知样本x₀的同标记统计

对每一个标记项y_j,j＝1～q，按照公式(10)统计

中具有该标记项的样本数量{C_j}，称为未知样本x₀在其k₀个最近邻样本集中的等价同标记统计：

C_j＝R(k·δ_j(x0)) (10)

步骤7：计算未知样本x₀的似然概率

按公式(11)(12)计算似然概率

和

表示当未知样本x₀具有标记y_j时，它的最近邻样本中有占比

的样本也具有标记y_j的似然性。

步骤8：估计未知样本x₀的标记值

在前面各步骤计算结果的基础上，基于Bayes理论即可由下式(13)计算得到未知样本x₀的标记集Y₀的估计值{y_i,i＝1～q}：

附图说明

图1为本发明的算法流程图。

图2.软标记信息在分类判决中的作用

图3.弱相关近邻对分类判决的影响(K＝7)

具体实施方式

移动互联网业务(也称OTT业务，比如手机网页浏览、视频播放、微博微信等即时通信类业务以及各类手游等)感知KQI指标是指用户在使用OTT业务过程中所感知到的、能直观地反映业务体验好坏的指标。比如网页浏览业务的各种时延(DNS解析时延，TCP连接时延，页面GET请求时延，页面接收响应时延)，视频下载速率、视频播放的初始缓冲时延，即时通信业务的消息发送接收时延和成功率等。

下面以网页浏览业务为例，对本发明的算法的应用进行进一步描述。这里的业务感知样本集是从海量用户手机上通过监测方式所采集到的有关业务使用场景和使用体验的信息。即当用户用手机浏览器打开某个目标网页时，数据采集APP会自动记录此时的网络环境和业务环境信息(即下文中的场景字段信息)、业务体验相关指标信息(即下文中的KQI指标字段)。

基于这些数据作为训练样本集，我们将使用本发明对未来当用户处于某一特定场景下(即特定网络环境和业务环境下)的业务体验的好坏进行预测，从而为运营商尽早了解用户的业务体验、对体验可能较差的用户进行及时干预，避免用户因为业务体验太差而进行投诉甚至流失。

具体地：

已知采集的网页浏览业务感知样本集，其字段包括两大类，即场景字段{日期，大区编号，小区编号，时间，经度，纬度，场强，信号质量，网站名称，网站IP，DNS IP，用户标识，终端型号}，和KQI指标字段{DNS解析时延，TCP连接时延，GET请求时延，接收响应时延}。

将上述感知样本集中的一部分作为原始训练样本集

m为样本数量。

选择场景字段作为原始属性集

d＝13为属性集的维度。其中，属性字段{日期，时间，经度，纬度，场强，信号质量}为数值型数据，属性字段{大区编号，小区编号，网站名称，网站IP，DNS IP，用户标识，终端型号}为名目型数据。其中前n＝2个属性项，即“日期”和“大区编号”为相关约束属性项(即当两个样本的“日期”和“大区编号”属性项的距离超出设定的属性无关门限时，可认为这两个样本关于该属性项无关)。

选择KQI指标字段作为原始标记集

q＝4为标记集的维度；这几个标记字段均为布尔型数据。

这里我们对原始未知样本

(仅有属性值，所有标记值为空)利用本发明进行处理，以得到该样本的标记项的预测值Y₀。具体过程如下：

步骤1：样本属性值转换

对原始训练样本和原始未知样本中的所有数值型属性项，即{日期，时间，经度，纬度，场强，信号质量}，利用公式(14)进行归一化，即：

其中

表示属性i的原始值。

为相对于上下边界

和

的截断函数，即

在实际数据集中，往往由于采样误差和终端个体差异性等原因会导致过小或过大采样值的存在。为了避免该因素对归一化的影响，这里并不直接采用该属性项在训练样本集中的最小和最大值，而是依据最小、最大值与该属性项箱形图分布的下外限Q1-3IQR和上外限Q3+3IQR的比较结果，即：

步骤2：样本的标记值转换和软信息提取

对于原始训练样本中的各数值型标记字段，根据预设的判决门限{T₁～T_q}按公式(17)转换成布尔型数据，即：

其中函数

同时，根据公式(18)计算各样本标记值到判决门限的归一化绝对距离(即软标记信息)s_ij∈[0，1]，即：

其中该标记项的下边界

取为其其箱形图分布的下内限Q1-1.5IQR，上边界

取为其箱形图分布的上外限Q3+3IQR。

为相对于

和

的截断函数。

步骤3：构造训练样本的k最近邻样本集

对样本矢量x_i＝{w_il，l＝1～d}，在训练样本集中依次根据各个相关约束属性项，寻找(除该样本自身之外)所有与w_il，l＝2的距离小于设定属性无关门限w_l，l＝2的样本，构成初始最近邻样本集

属性无关门限的取值是根据历史数据分析和经验值综合确定，本例中，2个属性无关门限值分别为w₁＝7天，w₂＝2000米。即当两个网页浏览业务感知样本的采样时间间隔超过7天或采样点位置的距离超过2000米时，认为两个样本完全无关。

计算初始最近邻样本集

步骤4：计算先验概率和归一化频数矩阵

对每个标记项y_j，j＝1～q，按下面的公式(19)计算先验概率

和

其中，H_j和

和

则分别表示H_j和

成立的先验概率，α为控制参数(一般取为1)。

然后，按下面的公式(20)(21)计算归一化频数矩阵[f_j[r]+_(k+1)×q和

则f_j[r]表示训练样本集中具有标记y_j并且同时有占比为

的近邻也具有标记y_j的训练样本个数。而

则表示训练样本集中不具有标记y_j并且同时有占比为

的近邻具有标记y_j的训练样本个数。

步骤5：构造未知样本x₀的k近邻样本集

实际的最近邻样本数为k₀，(k₀≤k)；

步骤6：计算未知样本x₀的同标记统计

对每一个标记项y_j,j＝1～q，按照公式(23)统计

C_j＝R(k·δ_j(x₀)) (23)

步骤7：计算未知样本x₀的似然概率

按公式(24)(25)计算似然概率

和

表示当未知样本x₀具有标记y_j时，它的最近邻样本中有占比

的样本也具有标记y_j的似然性。

步骤8：估计未知样本x₀的标记值

在前面各步骤计算结果的基础上，由下式(26)计算得到未知样本x₀的标记集Y₀的估计值{y_i,i＝1～q}：

实验结果：我们选取某本地LTE网络下采集的网页浏览业务感知样本集中的一部分作为训练样本，样本数量为34.3万个，剩余的样本作为未知样本(测试样本)，共3.6万个。我们将本发明与传统的ML-kNN算法进行了对比，实验结果用分类学习算法的常用评价指标Accuracy(预测的标记结果与真实标记间相似性度量的平均值)、F1-measure(是根据准确率Precision和召回率Recall二者给出的加权调和平均)、HammingLoss(用于考察样本在单个标记上的误分类情况，即相关标记未出现在预测的标记集合中或无关标记出现在了预测的标记集合中)进行评价(前两个指标越高表明性能越优(最优值为1)，第3个指标则越低性能越优(最优值为0))，结果如下：

	本发明	ML-kNN算法
			Accuracy	0.575±0.028	0.541±0.030
F1-measure	0.650±0.026	0.646±0.032
			HammingLoss	0.178±0.027	0.191±0.023

由表可见，相比传统算法，本发明可有效提高预测分类的性能。也就是说，运用本发明所述算法可以较好地对用户在特定场景下的OTT业务体验好坏进行预测，从而为运营商采取适当的用户体验保障措施提供及时、有益的参考。

Claims

1.一种基于软信息的多标记K近邻分类方法，其特征在于，

具体步骤详细描述如下：

已知采集的网页浏览业务感知样本集，其字段包括两大类，即场景字段{日期，大区编号，小区编号，时间，经度，纬度，场强，信号质量，网站名称，网站IP，DNS IP，用户标识，终端型号}，和KQI指标字段{DNS解析时延，TCP连接时延，GET请求时延，接收响应时延}；

将上述感知样本集中的一部分作为原始训练样本集

m为样本数量；

选择场景字段作为原始属性集

d＝13为属性集的维度；其中，属性字段{日期，时间，经度，纬度，场强，信号质量}为数值型数据，属性字段{大区编号，小区编号，网站名称，网站IP，DNS IP，用户标识，终端型号}为名目型数据；其中前n＝2个属性项，即“日期”和“大区编号”为相关约束属性项，即当两个样本的该属性项距离超出设定的属性无关门限时，认为这两个样本关于该属性项无关；

选择KQI指标字段作为原始标记集