CN108133387B - 基于软信息的多标记k近邻算法 - Google Patents
基于软信息的多标记k近邻算法 Download PDFInfo
- Publication number
- CN108133387B CN108133387B CN201711390238.XA CN201711390238A CN108133387B CN 108133387 B CN108133387 B CN 108133387B CN 201711390238 A CN201711390238 A CN 201711390238A CN 108133387 B CN108133387 B CN 108133387B
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- nearest neighbor
- attribute
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明为基于软信息的多标记K近邻算法,要解决的问题是如何根据实际的大数据应用场景的需求和特征对经典多标记K近邻学习算法进行优化以获得更优的分类性能和更高效的计算复杂度。本发明增加了对软信息的利用以提高算法的泛化性能,且尤其适用于移动互联网业务感知KQI指标预测这一应用场景。根据海量的历史标记数据,对在特定属性条件下的标记进行预测,相比传统的ML‐kNN算法提供更优异的分类预测性能和更高的学习效率。
Description
技术领域
基于软信息的多标记K近邻算法属于海量数据应用领域。
背景技术
随着各种应用领域对海量数据获取能力的逐步强化,以及以Hadoop为代表的分布式架构在海量数据处理方面得到认可,传统针对小数据量的机器学习研究在近几年得到了学界和产业界的极大关注,并广泛应用于海量数据的挖掘分析中,取得了较好的应用效果。
但传统机器学习算法在应用于具体的海量数据应用领域中时,仍然普遍存在以下问题:(1)由于主要是针对小数据集进行,较少考虑运算复杂度的问题,因此在处理海量数据集时需要优化算法设计以降低运算负担;(2)海量数据集普遍存在样本的不均衡问题,尤其是隐含更大应用价值的负样本的稀缺,影响到了学习算法的性能,需要在算法设计中考虑此问题;(3)应用领域的海量数据通常是无标记样本,因为缺乏训练样本,导致很多有监督学习算法无法直接应用,这也促进了近年来得到广泛关注的半监督学习和无监督学习算法的研究;(4)在应用于某一具体应用领域中,还需要针对该特定应用的特点,尤其是应用场景中的各种边界约束条件,对算法进行优化以达到最佳效果。因此,如何针对上述问题对经典算法进行优化以适用于特定的应用场景是在应用机器学习在大数据领域应用时始终要关注的重要命题。
机器学习算法中,多标记学习是一类应用较为广泛的算法,尤其是实际应用中的数据往往具有多种标记的特征,比如图像分类中,一幅风景图像可能同时具有多个标记特征如山川、河流、海滩、人物等,在电影分类中,一部电影可能同时属于言情、悬疑、历史、偶像剧。因此多标记学习相比普通的单标记学习往往适用于更多的应用场景。
现有的多标记学习算法大多数都是在原有单标记分类算法的基础上扩展而得的。其中比较经典的算法包括AdaBoost.MH算法、Rank-SVM算法和ML-kNN算法等。其中ML-kNN算法以其简单而有效的算法思想和分类效果得到了广泛的关注和应用。
ML-kNN算法是将经典的单标记kNN(K-nearest-neighbor)算法进行扩展,通过与贝叶斯算法相结合而构造的学习分类器。该算法可以实现对多标记数据的有效分类。在该算法基础上,不断有研究者对算法进行改进和扩展。
经典的机器学习算法是面向小数据集的通用算法,在应用到具体的大数据应用场景中解决特定的问题时,仍应当结合应用场景的约束条件、需求和数据特征对算法进行优化,以获得最大化的性能提升。具体来说,经典的ML-kNN算法在应用于某些具体应用场景时,存在以下几个方面的问题:
(1)软标记信息的利用:
很多应用场景下,训练样本中的标记项是通过对原始数值型数据的硬判决获得的,在此过程中,损失了原始标记数据所携带的信息,传统算法并未考虑此信息的利用。如果能够在算法中利用这些软标记信息,则有可能提高分类预测的准确性。以下图2为例:
图2(a)为不包含软信息的普通基于硬判决的kNN算法,其中“o”为未知样本。根据投票结果,未知样本标记值应为“+”。如果保留其软标记信息(如图2b所示),则可以等价为图2c所示,即图中正样本数量少于负样本数量,其标记结果取为“-”更合理。
(2)可用样本的稀疏性带来的近邻不足问题:
在很多实际分类应用中,往往受采集条件的限制导致所采集数据的分布很不均衡,在有些区域样本分布过于稀疏。而样本间的相关性受具体条件限制,超过一定距离的样本间几乎不存在相关性。在这种情况下,满足相关性约束条件下的实际近邻数可能小于k值。如果按照传统算法强行选择k个最近样本,则可能引入无关样本造成判决误差。
以图3为例。图中K=7,圆形区域内为满足相关性约束条件的实际近邻数,而矩形区域内为不考虑相关性约束条件下的全部7个近邻。按照7个近邻样本判决的结果显然受到右侧两个无关样本的干扰而导致了误判。
(3)大训练样本集情况下的算法复杂度问题:
相比传统ML-kNN算法以面向小数据集为主,在大数据应用场景中训练样本空间要大得多。一方面,这样有利于训练出泛化能力更强的模型,但同时带来的计算复杂度增长明显,在一定程度上影响了实际应用效果。为此,需要结合数据特征进行合理优化以降低计算复杂度。具体地,可以在寻找k近邻时利用样本的相关性约束条件缩小搜索范围并降低计算复杂度。
本发明主要面向的应用场景是移动互联网业务感知KQI指标的预测。即在传统多标记K近邻算法(ML-kNN)的基础上,结合业务感知KQI指标预测中的训练数据集所面临的上述(1)~(3)的问题,即软标记信息的利用问题、样本分布的稀疏性问题和大样本集的运算复杂度问题,对算法进行了优化调整,以满足这类具体应用场景的需求。
发明内容
本发明要解决的问题是如何根据实际的大数据应用场景的需求和特征对经典多标记K近邻学习算法进行优化以获得更优的分类性能和更高效的计算复杂度。本发明增加了对软信息的利用以提高算法泛化的性能,且尤其适用于移动互联网业务感知KQI指标预测这一应用场景。
根据海量的历史标记数据,对在特定属性条件下的标记进行预测,相比传统的ML-kNN算法提供更优异的分类预测性能和更高的学习效率。
本发明提出了一种基于软标记信息的多标记K近邻分类算法。
具体步骤详细描述如下:
输出:未知样本的标记结果Y0。
步骤1:样本属性值转换
对原始训练样本和原始未知样本中的所有数值型属性项利用公式(1)进行归一化,即:
具体地,先由全部训练样本的该原始属性值做出箱形图,其中Q3为其上四分位数,Q1为其下四分位数,IQR=Q3-Q1为上四分位数Q3与下四分位数Q1之差(即四分位距),Q1-3IQR和Q3+3IQR则分别为其下外限值和上外限值。
步骤2:样本的标记值转换和软信息提取
对于原始训练样本中的各数值型标记字段,根据预设的判决门限{T1~Tq}按公式(4)转换成布尔型数据,即:
同时,根据公式(5)计算各样本标记值到判决门限的归一化绝对距离(即软标记信息)sij∈[0,1],即:
经过步骤1和2,得到训练样本集D={(xi,Yi)|1≤i≤m}和未知样本x0。
步骤3:构造训练样本的k最近邻样本集
对样本矢量xi={xil,l=1~d},在训练样本集中依次根据各个相关约束属性项,寻找(除该样本自身之外)所有与xil,1≤l≤n的距离小于设定属性无关门限wl,1≤l≤n的样本,构成初始最近邻样本集属性无关门限的取值一般是根据具体应用场景中的历史数据分析结果结合经验值综合确定;比如,如果算法应用于网页浏览业务的KQI指标预测,其中属性项“时间”我们可以设定为7天,即结合经验和历史数据分析,我们认为当两个样本的采集时间差超过7天,即认为两个样本基本无关。
步骤4:计算先验概率和归一化频数矩阵
其中,R(·)表示round取整,δj(xi)表示的训练样本xi的近邻样本中具有标记yj的样本的软信息加权占比:
步骤5:构造未知样本x0的k近邻样本集
步骤6:计算未知样本x0的同标记统计
Cj=R(k·δj(x0)) (10)
步骤7:计算未知样本x0的似然概率
步骤8:估计未知样本x0的标记值
在前面各步骤计算结果的基础上,基于Bayes理论即可由下式(13)计算得到未知样本x0的标记集Y0的估计值{yi,i=1~q}:
附图说明
图1为本发明的算法流程图。
图2.软标记信息在分类判决中的作用
图3.弱相关近邻对分类判决的影响(K=7)
具体实施方式
移动互联网业务(也称OTT业务,比如手机网页浏览、视频播放、微博微信等即时通信类业务以及各类手游等)感知KQI指标是指用户在使用OTT业务过程中所感知到的、能直观地反映业务体验好坏的指标。比如网页浏览业务的各种时延(DNS解析时延,TCP连接时延,页面GET请求时延,页面接收响应时延),视频下载速率、视频播放的初始缓冲时延,即时通信业务的消息发送接收时延和成功率等。
下面以网页浏览业务为例,对本发明的算法的应用进行进一步描述。这里的业务感知样本集是从海量用户手机上通过监测方式所采集到的有关业务使用场景和使用体验的信息。即当用户用手机浏览器打开某个目标网页时,数据采集APP会自动记录此时的网络环境和业务环境信息(即下文中的场景字段信息)、业务体验相关指标信息(即下文中的KQI指标字段)。
基于这些数据作为训练样本集,我们将使用本发明对未来当用户处于某一特定场景下(即特定网络环境和业务环境下)的业务体验的好坏进行预测,从而为运营商尽早了解用户的业务体验、对体验可能较差的用户进行及时干预,避免用户因为业务体验太差而进行投诉甚至流失。
具体地:
已知采集的网页浏览业务感知样本集,其字段包括两大类,即场景字段{日期,大区编号,小区编号,时间,经度,纬度,场强,信号质量,网站名称,网站IP,DNS IP,用户标识,终端型号},和KQI指标字段{DNS解析时延,TCP连接时延,GET请求时延,接收响应时延}。
选择场景字段作为原始属性集d=13为属性集的维度。其中,属性字段{日期,时间,经度,纬度,场强,信号质量}为数值型数据,属性字段{大区编号,小区编号,网站名称,网站IP,DNS IP,用户标识,终端型号}为名目型数据。其中前n=2个属性项,即“日期”和“大区编号”为相关约束属性项(即当两个样本的“日期”和“大区编号”属性项的距离超出设定的属性无关门限时,可认为这两个样本关于该属性项无关)。
步骤1:样本属性值转换
对原始训练样本和原始未知样本中的所有数值型属性项,即{日期,时间,经度,纬度,场强,信号质量},利用公式(14)进行归一化,即:
在实际数据集中,往往由于采样误差和终端个体差异性等原因会导致过小或过大采样值的存在。为了避免该因素对归一化的影响,这里并不直接采用该属性项在训练样本集中的最小和最大值,而是依据最小、最大值与该属性项箱形图分布的下外限Q1-3IQR和上外限Q3+3IQR的比较结果,即:
步骤2:样本的标记值转换和软信息提取
对于原始训练样本中的各数值型标记字段,根据预设的判决门限{T1~Tq}按公式(17)转换成布尔型数据,即:
同时,根据公式(18)计算各样本标记值到判决门限的归一化绝对距离(即软标记信息)sij∈[0,1],即:
经过步骤1和2,得到训练样本集D={(xi,Yi)|1≤i≤m}和未知样本x0。
步骤3:构造训练样本的k最近邻样本集
对样本矢量xi={wil,l=1~d},在训练样本集中依次根据各个相关约束属性项,寻找(除该样本自身之外)所有与wil,l=2的距离小于设定属性无关门限wl,l=2的样本,构成初始最近邻样本集属性无关门限的取值是根据历史数据分析和经验值综合确定,本例中,2个属性无关门限值分别为w1=7天,w2=2000米。即当两个网页浏览业务感知样本的采样时间间隔超过7天或采样点位置的距离超过2000米时,认为两个样本完全无关。
步骤4:计算先验概率和归一化频数矩阵
其中,R(·)表示round取整,δj(xi)表示的训练样本xi的近邻样本中具有标记yj的样本的软信息加权占比:
步骤5:构造未知样本x0的k近邻样本集
步骤6:计算未知样本x0的同标记统计
Cj=R(k·δj(x0)) (23)
步骤7:计算未知样本x0的似然概率
步骤8:估计未知样本x0的标记值
在前面各步骤计算结果的基础上,由下式(26)计算得到未知样本x0的标记集Y0的估计值{yi,i=1~q}:
实验结果:我们选取某本地LTE网络下采集的网页浏览业务感知样本集中的一部分作为训练样本,样本数量为34.3万个,剩余的样本作为未知样本(测试样本),共3.6万个。我们将本发明与传统的ML-kNN算法进行了对比,实验结果用分类学习算法的常用评价指标Accuracy(预测的标记结果与真实标记间相似性度量的平均值)、F1-measure(是根据准确率Precision和召回率Recall二者给出的加权调和平均)、HammingLoss(用于考察样本在单个标记上的误分类情况,即相关标记未出现在预测的标记集合中或无关标记出现在了预测的标记集合中)进行评价(前两个指标越高表明性能越优(最优值为1),第3个指标则越低性能越优(最优值为0)),结果如下:
本发明 | ML-kNN算法 | |
Accuracy | 0.575±0.028 | 0.541±0.030 |
F1-measure | 0.650±0.026 | 0.646±0.032 |
HammingLoss | 0.178±0.027 | 0.191±0.023 |
由表可见,相比传统算法,本发明可有效提高预测分类的性能。也就是说,运用本发明所述算法可以较好地对用户在特定场景下的OTT业务体验好坏进行预测,从而为运营商采取适当的用户体验保障措施提供及时、有益的参考。
Claims (1)
1.一种基于软信息的多标记K近邻分类方法,其特征在于,
具体步骤详细描述如下:
已知采集的网页浏览业务感知样本集,其字段包括两大类,即场景字段{日期,大区编号,小区编号,时间,经度,纬度,场强,信号质量,网站名称,网站IP,DNS IP,用户标识,终端型号},和KQI指标字段{DNS解析时延,TCP连接时延,GET请求时延,接收响应时延};
选择场景字段作为原始属性集d=13为属性集的维度;其中,属性字段{日期,时间,经度,纬度,场强,信号质量}为数值型数据,属性字段{大区编号,小区编号,网站名称,网站IP,DNS IP,用户标识,终端型号}为名目型数据;其中前n=2个属性项,即“日期”和“大区编号”为相关约束属性项,即当两个样本的该属性项距离超出设定的属性无关门限时,认为这两个样本关于该属性项无关;
步骤1:样本属性值转换
对原始训练样本和原始未知样本中的所有数值型属性项,即{日期,时间,经度,纬度,场强,信号质量},利用公式(1)进行归一化,即:
具体地,先由全部训练样本的该原始属性值做出箱形图,其中Q3为其上四分位数,Q1为其下四分位数,IQR=Q3-Q1为上四分位数Q3与下四分位数Q1之差即四分位距,Q1-3IQR和Q3+3IQR则分别为其下外限值和上外限值;
步骤2:样本的标记值转换和软信息提取
对于原始训练样本中的各数值型标记字段,根据预设的判决门限{T1~Tq}按公式(4)转换成布尔型数据,即:
同时,根据公式(5)计算各样本标记值到判决门限的归一化绝对距离即软标记信息sij∈[0,1],即:
经过步骤1和2,得到训练样本集D={(xi,Yi)|1≤i≤m}和未知样本x0;
步骤3:构造训练样本的k最近邻样本集
步骤4:计算先验概率和归一化频数矩阵
其中,R(·)表示round取整,δj(xi)表示的训练样本xi的近邻样本中具有标记yj的样本的软信息加权占比:
步骤5:构造未知样本x0的k近邻样本集
步骤6:计算未知样本x0的同标记统计
Cj=R(k·δj(x0)) (10)
步骤7:计算未知样本x0的似然概率
步骤8:估计未知样本x0的标记值
在前面各步骤计算结果的基础上,基于Bayes理论即由下式(13)计算得到未知样本x0的标记集Y0的估计值{yi,i=1~q}:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711390238.XA CN108133387B (zh) | 2017-12-21 | 2017-12-21 | 基于软信息的多标记k近邻算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711390238.XA CN108133387B (zh) | 2017-12-21 | 2017-12-21 | 基于软信息的多标记k近邻算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108133387A CN108133387A (zh) | 2018-06-08 |
CN108133387B true CN108133387B (zh) | 2021-11-12 |
Family
ID=62391253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711390238.XA Active CN108133387B (zh) | 2017-12-21 | 2017-12-21 | 基于软信息的多标记k近邻算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108133387B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102006B (zh) * | 2018-07-24 | 2021-09-07 | 东南大学 | 一种基于音频特征诱导信息增强的音乐自动标记方法 |
CN109379763B (zh) * | 2018-10-09 | 2022-08-05 | 北京联合大学 | 网络设备信息的智能标记方法 |
CN110049129A (zh) * | 2019-04-20 | 2019-07-23 | 北京联合大学 | 一种基于特征选择的移动互联网业务质量预测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292519A (zh) * | 2017-06-26 | 2017-10-24 | 北京联合大学 | 一种基于多标记学习的浏览类业务感知指标预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8086549B2 (en) * | 2007-11-09 | 2011-12-27 | Microsoft Corporation | Multi-label active learning |
-
2017
- 2017-12-21 CN CN201711390238.XA patent/CN108133387B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292519A (zh) * | 2017-06-26 | 2017-10-24 | 北京联合大学 | 一种基于多标记学习的浏览类业务感知指标预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108133387A (zh) | 2018-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | WiFi fingerprinting indoor localization using local feature-based deep LSTM | |
CN108132968B (zh) | 网络文本与图像中关联语义基元的弱监督学习方法 | |
US9727821B2 (en) | Sequential anomaly detection | |
Ye et al. | SAR image retrieval based on unsupervised domain adaptation and clustering | |
Li et al. | A knowledge-driven anomaly detection framework for social production system | |
CN108133387B (zh) | 基于软信息的多标记k近邻算法 | |
Ebrahimi et al. | Minimax active learning | |
US20220012538A1 (en) | Compact representation and time series segment retrieval through deep learning | |
Senthilnath et al. | A novel hierarchical clustering technique based on splitting and merging | |
CN109376797B (zh) | 一种基于二进制编码器和多哈希表的网络流量分类方法 | |
CN116310530A (zh) | 基于语义聚类的联邦无监督图像分类模型训练方法、分类方法及设备 | |
Han et al. | Hashing for localization (HfL): A baseline for fast localizing objects in a large-scale scene | |
Chen et al. | Few-shot transfer learning for device-free fingerprinting indoor localization | |
Zhang et al. | Dual graph cross-domain few-shot learning for hyperspectral image classification | |
Li et al. | 3D convolutional generative adversarial networks for missing traffic data completion | |
Mou et al. | Paedid: P atch a utoencoder-based d eep i mage d ecomposition for pixel-level defective region segmentation | |
CN115797642B (zh) | 基于一致性正则化与半监督领域自适应图像语义分割算法 | |
Rohith et al. | Remote sensing signature classification of agriculture detection using deep convolution network models | |
CN117095252A (zh) | 目标检测方法 | |
Yuan et al. | OSAP‐Loss: Efficient optimization of average precision via involving samples after positive ones towards remote sensing image retrieval | |
Tang et al. | Towards Dynamic and Scalable Active Learning with Neural Architecture Adaption for Object Detection. | |
Jenson et al. | Mining location information from users' spatio-temporal data | |
Zhang | Large-scale ship fault data retrieval algorithm supporting complex query in cloud computing | |
Mercovich et al. | Utilizing the graph modularity to blind cluster multispectral satellite imagery | |
Ali Shatat et al. | Big Data Driven Map Reduce Framework for Automated Flood Disaster Detection Based on Heuristic-Based Ensemble Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |