CN108133387B - 基于软信息的多标记k近邻算法 - Google Patents

基于软信息的多标记k近邻算法 Download PDF

Info

Publication number
CN108133387B
CN108133387B CN201711390238.XA CN201711390238A CN108133387B CN 108133387 B CN108133387 B CN 108133387B CN 201711390238 A CN201711390238 A CN 201711390238A CN 108133387 B CN108133387 B CN 108133387B
Authority
CN
China
Prior art keywords
sample
samples
nearest neighbor
attribute
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711390238.XA
Other languages
English (en)
Other versions
CN108133387A (zh
Inventor
李克
王海
徐小龙
谢苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN201711390238.XA priority Critical patent/CN108133387B/zh
Publication of CN108133387A publication Critical patent/CN108133387A/zh
Application granted granted Critical
Publication of CN108133387B publication Critical patent/CN108133387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为基于软信息的多标记K近邻算法,要解决的问题是如何根据实际的大数据应用场景的需求和特征对经典多标记K近邻学习算法进行优化以获得更优的分类性能和更高效的计算复杂度。本发明增加了对软信息的利用以提高算法的泛化性能,且尤其适用于移动互联网业务感知KQI指标预测这一应用场景。根据海量的历史标记数据,对在特定属性条件下的标记进行预测,相比传统的ML‐kNN算法提供更优异的分类预测性能和更高的学习效率。

Description

基于软信息的多标记K近邻算法
技术领域
基于软信息的多标记K近邻算法属于海量数据应用领域。
背景技术
随着各种应用领域对海量数据获取能力的逐步强化,以及以Hadoop为代表的分布式架构在海量数据处理方面得到认可,传统针对小数据量的机器学习研究在近几年得到了学界和产业界的极大关注,并广泛应用于海量数据的挖掘分析中,取得了较好的应用效果。
但传统机器学习算法在应用于具体的海量数据应用领域中时,仍然普遍存在以下问题:(1)由于主要是针对小数据集进行,较少考虑运算复杂度的问题,因此在处理海量数据集时需要优化算法设计以降低运算负担;(2)海量数据集普遍存在样本的不均衡问题,尤其是隐含更大应用价值的负样本的稀缺,影响到了学习算法的性能,需要在算法设计中考虑此问题;(3)应用领域的海量数据通常是无标记样本,因为缺乏训练样本,导致很多有监督学习算法无法直接应用,这也促进了近年来得到广泛关注的半监督学习和无监督学习算法的研究;(4)在应用于某一具体应用领域中,还需要针对该特定应用的特点,尤其是应用场景中的各种边界约束条件,对算法进行优化以达到最佳效果。因此,如何针对上述问题对经典算法进行优化以适用于特定的应用场景是在应用机器学习在大数据领域应用时始终要关注的重要命题。
机器学习算法中,多标记学习是一类应用较为广泛的算法,尤其是实际应用中的数据往往具有多种标记的特征,比如图像分类中,一幅风景图像可能同时具有多个标记特征如山川、河流、海滩、人物等,在电影分类中,一部电影可能同时属于言情、悬疑、历史、偶像剧。因此多标记学习相比普通的单标记学习往往适用于更多的应用场景。
现有的多标记学习算法大多数都是在原有单标记分类算法的基础上扩展而得的。其中比较经典的算法包括AdaBoost.MH算法、Rank-SVM算法和ML-kNN算法等。其中ML-kNN算法以其简单而有效的算法思想和分类效果得到了广泛的关注和应用。
ML-kNN算法是将经典的单标记kNN(K-nearest-neighbor)算法进行扩展,通过与贝叶斯算法相结合而构造的学习分类器。该算法可以实现对多标记数据的有效分类。在该算法基础上,不断有研究者对算法进行改进和扩展。
经典的机器学习算法是面向小数据集的通用算法,在应用到具体的大数据应用场景中解决特定的问题时,仍应当结合应用场景的约束条件、需求和数据特征对算法进行优化,以获得最大化的性能提升。具体来说,经典的ML-kNN算法在应用于某些具体应用场景时,存在以下几个方面的问题:
(1)软标记信息的利用:
很多应用场景下,训练样本中的标记项是通过对原始数值型数据的硬判决获得的,在此过程中,损失了原始标记数据所携带的信息,传统算法并未考虑此信息的利用。如果能够在算法中利用这些软标记信息,则有可能提高分类预测的准确性。以下图2为例:
图2(a)为不包含软信息的普通基于硬判决的kNN算法,其中“o”为未知样本。根据投票结果,未知样本标记值应为“+”。如果保留其软标记信息(如图2b所示),则可以等价为图2c所示,即图中正样本数量少于负样本数量,其标记结果取为“-”更合理。
(2)可用样本的稀疏性带来的近邻不足问题:
在很多实际分类应用中,往往受采集条件的限制导致所采集数据的分布很不均衡,在有些区域样本分布过于稀疏。而样本间的相关性受具体条件限制,超过一定距离的样本间几乎不存在相关性。在这种情况下,满足相关性约束条件下的实际近邻数可能小于k值。如果按照传统算法强行选择k个最近样本,则可能引入无关样本造成判决误差。
以图3为例。图中K=7,圆形区域内为满足相关性约束条件的实际近邻数,而矩形区域内为不考虑相关性约束条件下的全部7个近邻。按照7个近邻样本判决的结果显然受到右侧两个无关样本的干扰而导致了误判。
(3)大训练样本集情况下的算法复杂度问题:
相比传统ML-kNN算法以面向小数据集为主,在大数据应用场景中训练样本空间要大得多。一方面,这样有利于训练出泛化能力更强的模型,但同时带来的计算复杂度增长明显,在一定程度上影响了实际应用效果。为此,需要结合数据特征进行合理优化以降低计算复杂度。具体地,可以在寻找k近邻时利用样本的相关性约束条件缩小搜索范围并降低计算复杂度。
本发明主要面向的应用场景是移动互联网业务感知KQI指标的预测。即在传统多标记K近邻算法(ML-kNN)的基础上,结合业务感知KQI指标预测中的训练数据集所面临的上述(1)~(3)的问题,即软标记信息的利用问题、样本分布的稀疏性问题和大样本集的运算复杂度问题,对算法进行了优化调整,以满足这类具体应用场景的需求。
发明内容
本发明要解决的问题是如何根据实际的大数据应用场景的需求和特征对经典多标记K近邻学习算法进行优化以获得更优的分类性能和更高效的计算复杂度。本发明增加了对软信息的利用以提高算法泛化的性能,且尤其适用于移动互联网业务感知KQI指标预测这一应用场景。
根据海量的历史标记数据,对在特定属性条件下的标记进行预测,相比传统的ML-kNN算法提供更优异的分类预测性能和更高的学习效率。
本发明提出了一种基于软标记信息的多标记K近邻分类算法。
具体步骤详细描述如下:
输入:原始训练样本集
Figure BDA0001517372610000031
m为样本数量;原始未知(无标记)样本
Figure BDA0001517372610000032
原始属性集
Figure BDA0001517372610000033
d为属性集的维度,其中前n个属性项(n≤d)为相关约束属性项(即当两个样本的该属性项距离超出设定的属性无关门限时,可认为这两个样本关于该属性项无关),属性字段为名目型数据或数值型数据;
原始标记集
Figure BDA0001517372610000041
q为标记集的维度;标记字段的原始样本值均为数值型数据。
输出:未知样本的标记结果Y0
步骤1:样本属性值转换
对原始训练样本和原始未知样本中的所有数值型属性项利用公式(1)进行归一化,即:
Figure BDA0001517372610000042
其中
Figure BDA0001517372610000043
表示属性i的原始值。
Figure BDA0001517372610000044
为相对于上下边界
Figure BDA0001517372610000045
Figure BDA0001517372610000046
的截断函数,即
Figure BDA0001517372610000047
其中上下边界
Figure BDA0001517372610000048
Figure BDA0001517372610000049
是依据其箱形图分布的下外限Q1-3IQR和上外限Q3+3IQR以及实际最大值和最小值按下式求得:
Figure BDA00015173726100000410
具体地,先由全部训练样本的该原始属性值做出箱形图,其中Q3为其上四分位数,Q1为其下四分位数,IQR=Q3-Q1为上四分位数Q3与下四分位数Q1之差(即四分位距),Q1-3IQR和Q3+3IQR则分别为其下外限值和上外限值。
步骤2:样本的标记值转换和软信息提取
对于原始训练样本中的各数值型标记字段,根据预设的判决门限{T1~Tq}按公式(4)转换成布尔型数据,即:
Figure BDA0001517372610000051
其中函数
Figure BDA0001517372610000059
表示当条件c成立时返回1,否则返回0;判决门限采用全部样本的该标记值箱形图分布的上内限Q3+1.5IQR。
同时,根据公式(5)计算各样本标记值到判决门限的归一化绝对距离(即软标记信息)sij∈[0,1],即:
Figure BDA0001517372610000052
其中该标记项的下边界
Figure BDA0001517372610000053
取为其其箱形图分布的下内限Q1-1.5IQR,上边界
Figure BDA0001517372610000054
取为其箱形图分布的上外限Q3+3IQR。
Figure BDA0001517372610000055
为相对于
Figure BDA0001517372610000056
Figure BDA0001517372610000057
的截断函数。
经过步骤1和2,得到训练样本集D={(xi,Yi)|1≤i≤m}和未知样本x0
步骤3:构造训练样本的k最近邻样本集
对训练样本集中的每个样本矢量xi,i=1~m,在训练样本集中寻找该样本矢量的最多k个最近邻样本,构成该样本矢量的k最近邻样本集
Figure BDA0001517372610000058
该样本集的实际最近邻样本个数为ki,(ki≤k);具体方法如下:
对样本矢量xi={xil,l=1~d},在训练样本集中依次根据各个相关约束属性项,寻找(除该样本自身之外)所有与xil,1≤l≤n的距离小于设定属性无关门限wl,1≤l≤n的样本,构成初始最近邻样本集
Figure BDA0001517372610000061
属性无关门限的取值一般是根据具体应用场景中的历史数据分析结果结合经验值综合确定;比如,如果算法应用于网页浏览业务的KQI指标预测,其中属性项“时间”我们可以设定为7天,即结合经验和历史数据分析,我们认为当两个样本的采集时间差超过7天,即认为两个样本基本无关。
计算初始最近邻样本集
Figure BDA0001517372610000062
中各样本矢量与样本矢量xi的欧氏距离,取距离最近的最多前k个样本作为样本矢量xi的k最近邻样本集
Figure BDA0001517372610000063
步骤4:计算先验概率和归一化频数矩阵
对每个标记项yj,j=1~q,按下面的公式(6)计算先验概率
Figure BDA0001517372610000064
Figure BDA0001517372610000065
Figure BDA0001517372610000066
Figure BDA0001517372610000067
其中,Hj
Figure BDA0001517372610000068
分别表示未知(无标记)样本(仅有属性信息,没有标记信息)x0具有和不具有标记项yj(也即标记项yj=1和0,),而
Figure BDA0001517372610000069
Figure BDA00015173726100000610
则分别表示Hj
Figure BDA00015173726100000611
成立的先验概率,α为控制参数(一般取为1)。
然后,按下面的公式(7)(8)计算归一化频数矩阵[fj[r]+(k+1)×q
Figure BDA00015173726100000612
Figure BDA00015173726100000613
Figure BDA00015173726100000614
其中,R(·)表示round取整,δj(xi)表示的训练样本xi的近邻样本中具有标记yj的样本的软信息加权占比:
Figure BDA0001517372610000071
则fj[r]表示训练样本集中具有标记yj并且同时有占比为
Figure BDA0001517372610000072
的近邻也具有标记yj的训练样本个数。而
Figure BDA0001517372610000073
则表示训练样本集中不具有标记yj并且同时有占比为
Figure BDA0001517372610000074
的近邻具有标记yj的训练样本个数。
步骤5:构造未知样本x0的k近邻样本集
对未知样本x0,按照步骤3的方法在训练样本集中构造出该样本的k近邻样本集
Figure BDA0001517372610000075
实际的最近邻样本数为k0,(k0≤k);
步骤6:计算未知样本x0的同标记统计
对每一个标记项yj,j=1~q,按照公式(10)统计
Figure BDA0001517372610000076
中具有该标记项的样本数量{Cj},称为未知样本x0在其k0个最近邻样本集中的等价同标记统计:
Cj=R(k·δj(x0)) (10)
步骤7:计算未知样本x0的似然概率
按公式(11)(12)计算似然概率
Figure BDA0001517372610000077
Figure BDA0001517372610000078
Figure BDA0001517372610000079
Figure BDA00015173726100000710
Figure BDA00015173726100000711
表示当未知样本x0具有标记yj时,它的最近邻样本中有占比
Figure BDA00015173726100000712
的样本也具有标记yj的似然性。
步骤8:估计未知样本x0的标记值
在前面各步骤计算结果的基础上,基于Bayes理论即可由下式(13)计算得到未知样本x0的标记集Y0的估计值{yi,i=1~q}:
Figure BDA00015173726100000713
附图说明
图1为本发明的算法流程图。
图2.软标记信息在分类判决中的作用
图3.弱相关近邻对分类判决的影响(K=7)
具体实施方式
移动互联网业务(也称OTT业务,比如手机网页浏览、视频播放、微博微信等即时通信类业务以及各类手游等)感知KQI指标是指用户在使用OTT业务过程中所感知到的、能直观地反映业务体验好坏的指标。比如网页浏览业务的各种时延(DNS解析时延,TCP连接时延,页面GET请求时延,页面接收响应时延),视频下载速率、视频播放的初始缓冲时延,即时通信业务的消息发送接收时延和成功率等。
下面以网页浏览业务为例,对本发明的算法的应用进行进一步描述。这里的业务感知样本集是从海量用户手机上通过监测方式所采集到的有关业务使用场景和使用体验的信息。即当用户用手机浏览器打开某个目标网页时,数据采集APP会自动记录此时的网络环境和业务环境信息(即下文中的场景字段信息)、业务体验相关指标信息(即下文中的KQI指标字段)。
基于这些数据作为训练样本集,我们将使用本发明对未来当用户处于某一特定场景下(即特定网络环境和业务环境下)的业务体验的好坏进行预测,从而为运营商尽早了解用户的业务体验、对体验可能较差的用户进行及时干预,避免用户因为业务体验太差而进行投诉甚至流失。
具体地:
已知采集的网页浏览业务感知样本集,其字段包括两大类,即场景字段{日期,大区编号,小区编号,时间,经度,纬度,场强,信号质量,网站名称,网站IP,DNS IP,用户标识,终端型号},和KQI指标字段{DNS解析时延,TCP连接时延,GET请求时延,接收响应时延}。
将上述感知样本集中的一部分作为原始训练样本集
Figure BDA0001517372610000081
Figure BDA0001517372610000082
m为样本数量。
选择场景字段作为原始属性集
Figure BDA0001517372610000091
d=13为属性集的维度。其中,属性字段{日期,时间,经度,纬度,场强,信号质量}为数值型数据,属性字段{大区编号,小区编号,网站名称,网站IP,DNS IP,用户标识,终端型号}为名目型数据。其中前n=2个属性项,即“日期”和“大区编号”为相关约束属性项(即当两个样本的“日期”和“大区编号”属性项的距离超出设定的属性无关门限时,可认为这两个样本关于该属性项无关)。
选择KQI指标字段作为原始标记集
Figure BDA0001517372610000092
q=4为标记集的维度;这几个标记字段均为布尔型数据。
这里我们对原始未知样本
Figure BDA0001517372610000093
(仅有属性值,所有标记值为空)利用本发明进行处理,以得到该样本的标记项的预测值Y0。具体过程如下:
步骤1:样本属性值转换
对原始训练样本和原始未知样本中的所有数值型属性项,即{日期,时间,经度,纬度,场强,信号质量},利用公式(14)进行归一化,即:
Figure BDA0001517372610000094
其中
Figure BDA0001517372610000095
表示属性i的原始值。
Figure BDA0001517372610000096
为相对于上下边界
Figure BDA0001517372610000097
Figure BDA0001517372610000098
的截断函数,即
Figure BDA0001517372610000099
在实际数据集中,往往由于采样误差和终端个体差异性等原因会导致过小或过大采样值的存在。为了避免该因素对归一化的影响,这里并不直接采用该属性项在训练样本集中的最小和最大值,而是依据最小、最大值与该属性项箱形图分布的下外限Q1-3IQR和上外限Q3+3IQR的比较结果,即:
Figure BDA0001517372610000101
步骤2:样本的标记值转换和软信息提取
对于原始训练样本中的各数值型标记字段,根据预设的判决门限{T1~Tq}按公式(17)转换成布尔型数据,即:
Figure BDA0001517372610000102
其中函数
Figure BDA00015173726100001010
表示当条件c成立时返回1,否则返回0;判决门限采用全部样本的该标记值箱形图分布的上内限Q3+1.5IQR。
同时,根据公式(18)计算各样本标记值到判决门限的归一化绝对距离(即软标记信息)sij∈[0,1],即:
Figure BDA0001517372610000103
其中该标记项的下边界
Figure BDA0001517372610000104
取为其其箱形图分布的下内限Q1-1.5IQR,上边界
Figure BDA0001517372610000105
取为其箱形图分布的上外限Q3+3IQR。
Figure BDA0001517372610000106
为相对于
Figure BDA0001517372610000107
Figure BDA0001517372610000108
的截断函数。
经过步骤1和2,得到训练样本集D={(xi,Yi)|1≤i≤m}和未知样本x0
步骤3:构造训练样本的k最近邻样本集
对训练样本集中的每个样本矢量xi,i=1~m,在训练样本集中寻找该样本矢量的最多k个最近邻样本,构成该样本矢量的k最近邻样本集
Figure BDA0001517372610000109
该样本集的实际最近邻样本个数为ki,(ki≤k);具体方法如下:
对样本矢量xi={wil,l=1~d},在训练样本集中依次根据各个相关约束属性项,寻找(除该样本自身之外)所有与wil,l=2的距离小于设定属性无关门限wl,l=2的样本,构成初始最近邻样本集
Figure BDA0001517372610000111
属性无关门限的取值是根据历史数据分析和经验值综合确定,本例中,2个属性无关门限值分别为w1=7天,w2=2000米。即当两个网页浏览业务感知样本的采样时间间隔超过7天或采样点位置的距离超过2000米时,认为两个样本完全无关。
计算初始最近邻样本集
Figure BDA0001517372610000112
中各样本矢量与样本矢量xi的欧氏距离,取距离最近的最多前k个样本作为样本矢量xi的k最近邻样本集
Figure BDA0001517372610000113
步骤4:计算先验概率和归一化频数矩阵
对每个标记项yj,j=1~q,按下面的公式(19)计算先验概率
Figure BDA0001517372610000114
Figure BDA0001517372610000115
Figure BDA0001517372610000116
Figure BDA0001517372610000117
其中,Hj
Figure BDA0001517372610000118
分别表示未知(无标记)样本(仅有属性信息,没有标记信息)x0具有和不具有标记项yj(也即标记项yj=1和0,),而
Figure BDA0001517372610000119
Figure BDA00015173726100001110
则分别表示Hj
Figure BDA00015173726100001111
成立的先验概率,α为控制参数(一般取为1)。
然后,按下面的公式(20)(21)计算归一化频数矩阵[fj[r]+(k+1)×q
Figure BDA00015173726100001112
Figure BDA00015173726100001113
Figure BDA00015173726100001114
其中,R(·)表示round取整,δj(xi)表示的训练样本xi的近邻样本中具有标记yj的样本的软信息加权占比:
Figure BDA0001517372610000121
则fj[r]表示训练样本集中具有标记yj并且同时有占比为
Figure BDA0001517372610000122
的近邻也具有标记yj的训练样本个数。而
Figure BDA0001517372610000123
则表示训练样本集中不具有标记yj并且同时有占比为
Figure BDA0001517372610000124
的近邻具有标记yj的训练样本个数。
步骤5:构造未知样本x0的k近邻样本集
对未知样本x0,按照步骤3的方法在训练样本集中构造出该样本的k近邻样本集
Figure BDA0001517372610000125
实际的最近邻样本数为k0,(k0≤k);
步骤6:计算未知样本x0的同标记统计
对每一个标记项yj,j=1~q,按照公式(23)统计
Figure BDA0001517372610000126
中具有该标记项的样本数量{Cj},称为未知样本x0在其k0个最近邻样本集中的等价同标记统计:
Cj=R(k·δj(x0)) (23)
步骤7:计算未知样本x0的似然概率
按公式(24)(25)计算似然概率
Figure BDA0001517372610000127
Figure BDA0001517372610000128
Figure BDA0001517372610000129
Figure BDA00015173726100001210
Figure BDA00015173726100001211
表示当未知样本x0具有标记yj时,它的最近邻样本中有占比
Figure BDA00015173726100001212
的样本也具有标记yj的似然性。
步骤8:估计未知样本x0的标记值
在前面各步骤计算结果的基础上,由下式(26)计算得到未知样本x0的标记集Y0的估计值{yi,i=1~q}:
Figure BDA00015173726100001213
实验结果:我们选取某本地LTE网络下采集的网页浏览业务感知样本集中的一部分作为训练样本,样本数量为34.3万个,剩余的样本作为未知样本(测试样本),共3.6万个。我们将本发明与传统的ML-kNN算法进行了对比,实验结果用分类学习算法的常用评价指标Accuracy(预测的标记结果与真实标记间相似性度量的平均值)、F1-measure(是根据准确率Precision和召回率Recall二者给出的加权调和平均)、HammingLoss(用于考察样本在单个标记上的误分类情况,即相关标记未出现在预测的标记集合中或无关标记出现在了预测的标记集合中)进行评价(前两个指标越高表明性能越优(最优值为1),第3个指标则越低性能越优(最优值为0)),结果如下:
本发明 ML-kNN算法
Accuracy 0.575±0.028 0.541±0.030
F1-measure 0.650±0.026 0.646±0.032
HammingLoss 0.178±0.027 0.191±0.023
由表可见,相比传统算法,本发明可有效提高预测分类的性能。也就是说,运用本发明所述算法可以较好地对用户在特定场景下的OTT业务体验好坏进行预测,从而为运营商采取适当的用户体验保障措施提供及时、有益的参考。

Claims (1)

1.一种基于软信息的多标记K近邻分类方法,其特征在于,
具体步骤详细描述如下:
已知采集的网页浏览业务感知样本集,其字段包括两大类,即场景字段{日期,大区编号,小区编号,时间,经度,纬度,场强,信号质量,网站名称,网站IP,DNS IP,用户标识,终端型号},和KQI指标字段{DNS解析时延,TCP连接时延,GET请求时延,接收响应时延};
将上述感知样本集中的一部分作为原始训练样本集
Figure FDA0003184158250000011
Figure FDA0003184158250000012
m为样本数量;
选择场景字段作为原始属性集
Figure FDA0003184158250000013
d=13为属性集的维度;其中,属性字段{日期,时间,经度,纬度,场强,信号质量}为数值型数据,属性字段{大区编号,小区编号,网站名称,网站IP,DNS IP,用户标识,终端型号}为名目型数据;其中前n=2个属性项,即“日期”和“大区编号”为相关约束属性项,即当两个样本的该属性项距离超出设定的属性无关门限时,认为这两个样本关于该属性项无关;
选择KQI指标字段作为原始标记集
Figure FDA0003184158250000014
q=4为标记集的维度;这几个标记字段均为布尔型数据;
对原始未知样本
Figure FDA0003184158250000015
进行处理,以得到该样本的标记项的预测值Y0;具体过程如下:
步骤1:样本属性值转换
对原始训练样本和原始未知样本中的所有数值型属性项,即{日期,时间,经度,纬度,场强,信号质量},利用公式(1)进行归一化,即:
Figure FDA0003184158250000016
其中
Figure FDA0003184158250000017
表示属性i的原始值;
Figure FDA0003184158250000018
为相对于上下边界
Figure FDA0003184158250000019
Figure FDA00031841582500000110
的截断函数,即
Figure FDA0003184158250000021
其中上下边界
Figure FDA0003184158250000022
Figure FDA0003184158250000023
是依据其箱形图分布的下外限Q1-3IQR和上外限Q3+3IQR以及实际最大值和最小值按下式求得:
Figure FDA0003184158250000024
具体地,先由全部训练样本的该原始属性值做出箱形图,其中Q3为其上四分位数,Q1为其下四分位数,IQR=Q3-Q1为上四分位数Q3与下四分位数Q1之差即四分位距,Q1-3IQR和Q3+3IQR则分别为其下外限值和上外限值;
步骤2:样本的标记值转换和软信息提取
对于原始训练样本中的各数值型标记字段,根据预设的判决门限{T1~Tq}按公式(4)转换成布尔型数据,即:
Figure FDA0003184158250000025
其中函数
Figure FDA0003184158250000026
表示当条件c成立时返回1,否则返回0;判决门限采用全部样本的该标记值箱形图分布的上内限Q3+1.5IQR;
同时,根据公式(5)计算各样本标记值到判决门限的归一化绝对距离即软标记信息sij∈[0,1],即:
Figure FDA0003184158250000031
其中该标记项的下边界
Figure FDA0003184158250000032
取为其箱形图分布的下内限Q1-1.5IQR,上边界
Figure FDA0003184158250000033
取为其箱形图分布的上外限Q3+3IQR;
Figure FDA0003184158250000034
为相对于
Figure FDA0003184158250000035
Figure FDA0003184158250000036
的截断函数;
经过步骤1和2,得到训练样本集D={(xi,Yi)|1≤i≤m}和未知样本x0
步骤3:构造训练样本的k最近邻样本集
对训练样本集中的每个样本矢量xi,i=1~m,在训练样本集中寻找该样本矢量的最多k个最近邻样本,构成该样本矢量的k最近邻样本集
Figure FDA0003184158250000037
该样本集的实际最近邻样本个数为ki,ki≤k;具体方法如下:
对样本矢量xi={xil,l=1~d},在训练样本集中依次根据各个相关约束属性项,寻找除该样本自身之外所有与xil,1≤l≤n的距离小于设定属性无关门限wl,1≤l≤n的样本,构成初始最近邻样本集
Figure FDA0003184158250000038
计算初始最近邻样本集
Figure FDA0003184158250000039
中各样本矢量与样本矢量xi的欧氏距离,取距离最近的最多前k个样本作为样本矢量xi的k最近邻样本集
Figure FDA00031841582500000310
步骤4:计算先验概率和归一化频数矩阵
对每个标记项yj,j=1~q,按下面的公式(6)计算先验概率
Figure FDA00031841582500000311
Figure FDA00031841582500000312
Figure FDA00031841582500000313
Figure FDA00031841582500000314
其中,马和
Figure FDA00031841582500000315
分别表示未知无标记样本x0具有和不具有标记项yj,而
Figure FDA0003184158250000041
Figure FDA0003184158250000042
则分别表示马和
Figure FDA0003184158250000043
成立的先验概率,α为控制参数,取为1;
然后,按下面的公式(7)(8)计算归一化频数矩阵[fj[r]](k+1)×q
Figure FDA0003184158250000044
Figure FDA0003184158250000045
Figure FDA0003184158250000046
其中,R(·)表示round取整,δj(xi)表示的训练样本xi的近邻样本中具有标记yj的样本的软信息加权占比:
Figure FDA0003184158250000047
则fj[r]表示训练样本集中具有标记yj并且同时有占比为
Figure FDA0003184158250000048
的近邻也具有标记yj的训练样本个数;而
Figure FDA0003184158250000049
则表示训练样本集中不具有标记yj并且同时有占比为
Figure FDA00031841582500000410
的近邻具有标记yj的训练样本个数;
步骤5:构造未知样本x0的k近邻样本集
对未知样本x0,按照步骤3的方法在训练样本集中构造出该样本的k近邻样本集
Figure FDA00031841582500000411
实际的最近邻样本数为k0,k0≤k;
步骤6:计算未知样本x0的同标记统计
对每一个标记项yj,j=1~q,按照公式(10)统计
Figure FDA00031841582500000412
中具有该标记项的样本数量{Cj},称为未知样本x0在其k0个最近邻样本集中的等价同标记统计:
Cj=R(k·δj(x0)) (10)
步骤7:计算未知样本x0的似然概率
按公式(11)(12)计算似然概率
Figure FDA00031841582500000413
Figure FDA00031841582500000414
Figure FDA0003184158250000051
Figure FDA0003184158250000052
Figure FDA0003184158250000053
表示当未知样本x0具有标记yj时,它的最近邻样本中有占比
Figure FDA0003184158250000054
的样本也具有标记yj的似然性;
步骤8:估计未知样本x0的标记值
在前面各步骤计算结果的基础上,基于Bayes理论即由下式(13)计算得到未知样本x0的标记集Y0的估计值{yi,i=1~q}:
Figure FDA0003184158250000055
CN201711390238.XA 2017-12-21 2017-12-21 基于软信息的多标记k近邻算法 Active CN108133387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711390238.XA CN108133387B (zh) 2017-12-21 2017-12-21 基于软信息的多标记k近邻算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711390238.XA CN108133387B (zh) 2017-12-21 2017-12-21 基于软信息的多标记k近邻算法

Publications (2)

Publication Number Publication Date
CN108133387A CN108133387A (zh) 2018-06-08
CN108133387B true CN108133387B (zh) 2021-11-12

Family

ID=62391253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711390238.XA Active CN108133387B (zh) 2017-12-21 2017-12-21 基于软信息的多标记k近邻算法

Country Status (1)

Country Link
CN (1) CN108133387B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102006B (zh) * 2018-07-24 2021-09-07 东南大学 一种基于音频特征诱导信息增强的音乐自动标记方法
CN109379763B (zh) * 2018-10-09 2022-08-05 北京联合大学 网络设备信息的智能标记方法
CN110049129A (zh) * 2019-04-20 2019-07-23 北京联合大学 一种基于特征选择的移动互联网业务质量预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292519A (zh) * 2017-06-26 2017-10-24 北京联合大学 一种基于多标记学习的浏览类业务感知指标预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8086549B2 (en) * 2007-11-09 2011-12-27 Microsoft Corporation Multi-label active learning

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292519A (zh) * 2017-06-26 2017-10-24 北京联合大学 一种基于多标记学习的浏览类业务感知指标预测方法

Also Published As

Publication number Publication date
CN108133387A (zh) 2018-06-08

Similar Documents

Publication Publication Date Title
Chen et al. WiFi fingerprinting indoor localization using local feature-based deep LSTM
CN108132968B (zh) 网络文本与图像中关联语义基元的弱监督学习方法
US9727821B2 (en) Sequential anomaly detection
Ye et al. SAR image retrieval based on unsupervised domain adaptation and clustering
Li et al. A knowledge-driven anomaly detection framework for social production system
CN108133387B (zh) 基于软信息的多标记k近邻算法
Ebrahimi et al. Minimax active learning
US20220012538A1 (en) Compact representation and time series segment retrieval through deep learning
Senthilnath et al. A novel hierarchical clustering technique based on splitting and merging
CN109376797B (zh) 一种基于二进制编码器和多哈希表的网络流量分类方法
CN116310530A (zh) 基于语义聚类的联邦无监督图像分类模型训练方法、分类方法及设备
Han et al. Hashing for localization (HfL): A baseline for fast localizing objects in a large-scale scene
Chen et al. Few-shot transfer learning for device-free fingerprinting indoor localization
Zhang et al. Dual graph cross-domain few-shot learning for hyperspectral image classification
Li et al. 3D convolutional generative adversarial networks for missing traffic data completion
Mou et al. Paedid: P atch a utoencoder-based d eep i mage d ecomposition for pixel-level defective region segmentation
CN115797642B (zh) 基于一致性正则化与半监督领域自适应图像语义分割算法
Rohith et al. Remote sensing signature classification of agriculture detection using deep convolution network models
CN117095252A (zh) 目标检测方法
Yuan et al. OSAP‐Loss: Efficient optimization of average precision via involving samples after positive ones towards remote sensing image retrieval
Tang et al. Towards Dynamic and Scalable Active Learning with Neural Architecture Adaption for Object Detection.
Jenson et al. Mining location information from users' spatio-temporal data
Zhang Large-scale ship fault data retrieval algorithm supporting complex query in cloud computing
Mercovich et al. Utilizing the graph modularity to blind cluster multispectral satellite imagery
Ali Shatat et al. Big Data Driven Map Reduce Framework for Automated Flood Disaster Detection Based on Heuristic-Based Ensemble Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant