CN108133387A - 基于软信息的多标记k近邻算法 - Google Patents

基于软信息的多标记k近邻算法 Download PDF

Info

Publication number
CN108133387A
CN108133387A CN201711390238.XA CN201711390238A CN108133387A CN 108133387 A CN108133387 A CN 108133387A CN 201711390238 A CN201711390238 A CN 201711390238A CN 108133387 A CN108133387 A CN 108133387A
Authority
CN
China
Prior art keywords
sample
value
unknown
label
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711390238.XA
Other languages
English (en)
Other versions
CN108133387B (zh
Inventor
李克
王海
徐小龙
谢苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN201711390238.XA priority Critical patent/CN108133387B/zh
Publication of CN108133387A publication Critical patent/CN108133387A/zh
Application granted granted Critical
Publication of CN108133387B publication Critical patent/CN108133387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为基于软信息的多标记K近邻算法,要解决的问题是如何根据实际的大数据应用场景的需求和特征对经典多标记K近邻学习算法进行优化以获得更优的分类性能和更高效的计算复杂度。本发明增加了对软信息的利用以提高算法的泛化性能,且尤其适用于移动互联网业务感知KQI指标预测这一应用场景。根据海量的历史标记数据,对在特定属性条件下的标记进行预测,相比传统的ML‐kNN算法提供更优异的分类预测性能和更高的学习效率。

Description

基于软信息的多标记K近邻算法
技术领域
基于软信息的多标记K近邻算法属于海量数据应用领域。
背景技术
随着各种应用领域对海量数据获取能力的逐步强化,以及以Hadoop为代表的分布式架构在海量数据处理方面得到认可,传统针对小数据量的机器学习研究在近几年得到了学界和产业界的极大关注,并广泛应用于海量数据的挖掘分析中,取得了较好的应用效果。
但传统机器学习算法在应用于具体的海量数据应用领域中时,仍然普遍存在以下问题:(1)由于主要是针对小数据集进行,较少考虑运算复杂度的问题,因此在处理海量数据集时需要优化算法设计以降低运算负担;(2)海量数据集普遍存在样本的不均衡问题,尤其是隐含更大应用价值的负样本的稀缺,影响到了学习算法的性能,需要在算法设计中考虑此问题;(3)应用领域的海量数据通常是无标记样本,因为缺乏训练样本,导致很多有监督学习算法无法直接应用,这也促进了近年来得到广泛关注的半监督学习和无监督学习算法的研究;(4)在应用于某一具体应用领域中,还需要针对该特定应用的特点,尤其是应用场景中的各种边界约束条件,对算法进行优化以达到最佳效果。因此,如何针对上述问题对经典算法进行优化以适用于特定的应用场景是在应用机器学习在大数据领域应用时始终要关注的重要命题。
机器学习算法中,多标记学习是一类应用较为广泛的算法,尤其是实际应用中的数据往往具有多种标记的特征,比如图像分类中,一幅风景图像可能同时具有多个标记特征如山川、河流、海滩、人物等,在电影分类中,一部电影可能同时属于言情、悬疑、历史、偶像剧。因此多标记学习相比普通的单标记学习往往适用于更多的应用场景。
现有的多标记学习算法大多数都是在原有单标记分类算法的基础上扩展而得的。其中比较经典的算法包括AdaBoost.MH算法、Rank-SVM算法和ML-kNN算法等。其中ML-kNN算法以其简单而有效的算法思想和分类效果得到了广泛的关注和应用。
ML-kNN算法是将经典的单标记kNN(K-nearest-neighbor)算法进行扩展,通过与贝叶斯算法相结合而构造的学习分类器。该算法可以实现对多标记数据的有效分类。在该算法基础上,不断有研究者对算法进行改进和扩展。
经典的机器学习算法是面向小数据集的通用算法,在应用到具体的大数据应用场景中解决特定的问题时,仍应当结合应用场景的约束条件、需求和数据特征对算法进行优化,以获得最大化的性能提升。具体来说,经典的ML-kNN算法在应用于某些具体应用场景时,存在以下几个方面的问题:
(1)软标记信息的利用:
很多应用场景下,训练样本中的标记项是通过对原始数值型数据的硬判决获得的,在此过程中,损失了原始标记数据所携带的信息,传统算法并未考虑此信息的利用。如果能够在算法中利用这些软标记信息,则有可能提高分类预测的准确性。以下图2为例:
图2(a)为不包含软信息的普通基于硬判决的kNN算法,其中“o”为未知样本。根据投票结果,未知样本标记值应为“+”。如果保留其软标记信息(如图2b所示),则可以等价为图2c所示,即图中正样本数量少于负样本数量,其标记结果取为“-”更合理。
(2)可用样本的稀疏性带来的近邻不足问题:
在很多实际分类应用中,往往受采集条件的限制导致所采集数据的分布很不均衡,在有些区域样本分布过于稀疏。而样本间的相关性受具体条件限制,超过一定距离的样本间几乎不存在相关性。在这种情况下,满足相关性约束条件下的实际近邻数可能小于k值。如果按照传统算法强行选择k个最近样本,则可能引入无关样本造成判决误差。
以图3为例。图中K=7,圆形区域内为满足相关性约束条件的实际近邻数,而矩形区域内为不考虑相关性约束条件下的全部7个近邻。按照7个近邻样本判决的结果显然受到右侧两个无关样本的干扰而导致了误判。
(3)大训练样本集情况下的算法复杂度问题:
相比传统ML-kNN算法以面向小数据集为主,在大数据应用场景中训练样本空间要大得多。一方面,这样有利于训练出泛化能力更强的模型,但同时带来的计算复杂度增长明显,在一定程度上影响了实际应用效果。为此,需要结合数据特征进行合理优化以降低计算复杂度。具体地,可以在寻找k近邻时利用样本的相关性约束条件缩小搜索范围并降低计算复杂度。
本发明主要面向的应用场景是移动互联网业务感知KQI指标的预测。即在传统多标记K近邻算法(ML-kNN)的基础上,结合业务感知KQI指标预测中的训练数据集所面临的上述(1)~(3)的问题,即软标记信息的利用问题、样本分布的稀疏性问题和大样本集的运算复杂度问题,对算法进行了优化调整,以满足这类具体应用场景的需求。
发明内容
本发明要解决的问题是如何根据实际的大数据应用场景的需求和特征对经典多标记K近邻学习算法进行优化以获得更优的分类性能和更高效的计算复杂度。本发明增加了对软信息的利用以提高算法泛化的性能,且尤其适用于移动互联网业务感知KQI指标预测这一应用场景。
根据海量的历史标记数据,对在特定属性条件下的标记进行预测,相比传统的ML-kNN算法提供更优异的分类预测性能和更高的学习效率。
本发明提出了一种基于软标记信息的多标记K近邻分类算法。
具体步骤详细描述如下:
输入:原始训练样本集m为样本数量;原始未知(无标记)样本
原始属性集d为属性集的维度,其中前n个属性项(n≤d)为相关约束属性项(即当两个样本的该属性项距离超出设定的属性无关门限时,可认为这两个样本关于该属性项无关),属性字段为名目型数据或数值型数据;
原始标记集q为标记集的维度;标记字段的原始样本值均为数值型数据。
输出:未知样本的标记结果Y0
步骤1:样本属性值转换
对原始训练样本和原始未知样本中的所有数值型属性项利用公式(1)进行归一化,即:
其中表示属性i的原始值。为相对于上下边界的截断函数,即
其中上下边界是依据其箱形图分布的下外限Q1-3IQR和上外限Q3+3IQR以及实际最大值和最小值按下式求得:
具体地,先由全部训练样本的该原始属性值做出箱形图,其中Q3为其上四分位数,Q1为其下四分位数,IQR=Q3-Q1为上四分位数Q3与下四分位数Q1之差(即四分位距),Q1-3IQR和Q3+3IQR则分别为其下外限值和上外限值。
步骤2:样本的标记值转换和软信息提取
对于原始训练样本中的各数值型标记字段,根据预设的判决门限{T1~Tq}按公式(4)转换成布尔型数据,即:
其中函数表示当条件c成立时返回1,否则返回0;判决门限采用全部样本的该标记值箱形图分布的上内限Q3+1.5IQR。
同时,根据公式(5)计算各样本标记值到判决门限的归一化绝对距离(即软标记信息)sij∈[0,1],即:
其中该标记项的下边界取为其其箱形图分布的下内限Q1-1.5IQR,上边界取为其箱形图分布的上外限Q3+3IQR。为相对于的截断函数。
经过步骤1和2,得到训练样本集D={(xi,Yi)|1≤i≤m}和未知样本x0
步骤3:构造训练样本的k最近邻样本集
对训练样本集中的每个样本矢量xi,i=1~m,在训练样本集中寻找该样本矢量的最多k个最近邻样本,构成该样本矢量的k最近邻样本集该样本集的实际最近邻样本个数为ki,(ki≤k);具体方法如下:
对样本矢量xi={xil,l=1~d},在训练样本集中依次根据各个相关约束属性项,寻找(除该样本自身之外)所有与xil,1≤l≤n的距离小于设定属性无关门限wl,1≤l≤n的样本,构成初始最近邻样本集属性无关门限的取值一般是根据具体应用场景中的历史数据分析结果结合经验值综合确定;比如,如果算法应用于网页浏览业务的KQI指标预测,其中属性项“时间”我们可以设定为7天,即结合经验和历史数据分析,我们认为当两个样本的采集时间差超过7天,即认为两个样本基本无关。
计算初始最近邻样本集中各样本矢量与样本矢量xi的欧氏距离,取距离最近的最多前k个样本作为样本矢量xi的k最近邻样本集
步骤4:计算先验概率和归一化频数矩阵
对每个标记项yj,j=1~q,按下面的公式(6)计算先验概率
其中,Hj分别表示未知(无标记)样本(仅有属性信息,没有标记信息)x0具有和不具有标记项yj(也即标记项yj=1和0,),而则分别表示Hj成立的先验概率,α为控制参数(一般取为1)。
然后,按下面的公式(7)(8)计算归一化频数矩阵[fj[r]+(k+1)×q
其中,R(·)表示round取整,δj(xi)表示的训练样本xi的近邻样本中具有标记yj的样本的软信息加权占比:
则fj[r]表示训练样本集中具有标记yj并且同时有占比为的近邻也具有标记yj的训练样本个数。而则表示训练样本集中不具有标记yj并且同时有占比为的近邻具有标记yj的训练样本个数。
步骤5:构造未知样本x0的k近邻样本集
对未知样本x0,按照步骤3的方法在训练样本集中构造出该样本的k近邻样本集实际的最近邻样本数为k0,(k0≤k);
步骤6:计算未知样本x0的同标记统计
对每一个标记项yj,j=1~q,按照公式(10)统计中具有该标记项的样本数量{Cj},称为未知样本x0在其k0个最近邻样本集中的等价同标记统计:
Cj=R(k·δj(x0)) (10)
步骤7:计算未知样本x0的似然概率
按公式(11)(12)计算似然概率
表示当未知样本x0具有标记yj时,它的最近邻样本中有占比的样本也具有标记yj的似然性。
步骤8:估计未知样本x0的标记值
在前面各步骤计算结果的基础上,基于Bayes理论即可由下式(13)计算得到未知样本x0的标记集Y0的估计值{yi,i=1~q}:
附图说明
图1为本发明的算法流程图。
图2.软标记信息在分类判决中的作用
图3.弱相关近邻对分类判决的影响(K=7)
具体实施方式
移动互联网业务(也称OTT业务,比如手机网页浏览、视频播放、微博微信等即时通信类业务以及各类手游等)感知KQI指标是指用户在使用OTT业务过程中所感知到的、能直观地反映业务体验好坏的指标。比如网页浏览业务的各种时延(DNS解析时延,TCP连接时延,页面GET请求时延,页面接收响应时延),视频下载速率、视频播放的初始缓冲时延,即时通信业务的消息发送接收时延和成功率等。
下面以网页浏览业务为例,对本发明的算法的应用进行进一步描述。这里的业务感知样本集是从海量用户手机上通过监测方式所采集到的有关业务使用场景和使用体验的信息。即当用户用手机浏览器打开某个目标网页时,数据采集APP会自动记录此时的网络环境和业务环境信息(即下文中的场景字段信息)、业务体验相关指标信息(即下文中的KQI指标字段)。
基于这些数据作为训练样本集,我们将使用本发明对未来当用户处于某一特定场景下(即特定网络环境和业务环境下)的业务体验的好坏进行预测,从而为运营商尽早了解用户的业务体验、对体验可能较差的用户进行及时干预,避免用户因为业务体验太差而进行投诉甚至流失。
具体地:
已知采集的网页浏览业务感知样本集,其字段包括两大类,即场景字段{日期,大区编号,小区编号,时间,经度,纬度,场强,信号质量,网站名称,网站IP,DNS IP,用户标识,终端型号},和KQI指标字段{DNS解析时延,TCP连接时延,GET请求时延,接收响应时延}。
将上述感知样本集中的一部分作为原始训练样本集 m为样本数量。
选择场景字段作为原始属性集d=13为属性集的维度。其中,属性字段{日期,时间,经度,纬度,场强,信号质量}为数值型数据,属性字段{大区编号,小区编号,网站名称,网站IP,DNS IP,用户标识,终端型号}为名目型数据。其中前n=2个属性项,即“日期”和“大区编号”为相关约束属性项(即当两个样本的“日期”和“大区编号”属性项的距离超出设定的属性无关门限时,可认为这两个样本关于该属性项无关)。
选择KQI指标字段作为原始标记集q=4为标记集的维度;这几个标记字段均为布尔型数据。
这里我们对原始未知样本(仅有属性值,所有标记值为空)利用本发明进行处理,以得到该样本的标记项的预测值Y0。具体过程如下:
步骤1:样本属性值转换
对原始训练样本和原始未知样本中的所有数值型属性项,即{日期,时间,经度,纬度,场强,信号质量},利用公式(14)进行归一化,即:
其中表示属性i的原始值。为相对于上下边界的截断函数,即
在实际数据集中,往往由于采样误差和终端个体差异性等原因会导致过小或过大采样值的存在。为了避免该因素对归一化的影响,这里并不直接采用该属性项在训练样本集中的最小和最大值,而是依据最小、最大值与该属性项箱形图分布的下外限Q1-3IQR和上外限Q3+3IQR的比较结果,即:
步骤2:样本的标记值转换和软信息提取
对于原始训练样本中的各数值型标记字段,根据预设的判决门限{T1~Tq}按公式(17)转换成布尔型数据,即:
其中函数表示当条件c成立时返回1,否则返回0;判决门限采用全部样本的该标记值箱形图分布的上内限Q3+1.5IQR。
同时,根据公式(18)计算各样本标记值到判决门限的归一化绝对距离(即软标记信息)sij∈[0,1],即:
其中该标记项的下边界取为其其箱形图分布的下内限Q1-1.5IQR,上边界取为其箱形图分布的上外限Q3+3IQR。为相对于的截断函数。
经过步骤1和2,得到训练样本集D={(xi,Yi)|1≤i≤m}和未知样本x0
步骤3:构造训练样本的k最近邻样本集
对训练样本集中的每个样本矢量xi,i=1~m,在训练样本集中寻找该样本矢量的最多k个最近邻样本,构成该样本矢量的k最近邻样本集该样本集的实际最近邻样本个数为ki,(ki≤k);具体方法如下:
对样本矢量xi={wil,l=1~d},在训练样本集中依次根据各个相关约束属性项,寻找(除该样本自身之外)所有与wil,l=2的距离小于设定属性无关门限wl,l=2的样本,构成初始最近邻样本集属性无关门限的取值是根据历史数据分析和经验值综合确定,本例中,2个属性无关门限值分别为w1=7天,w2=2000米。即当两个网页浏览业务感知样本的采样时间间隔超过7天或采样点位置的距离超过2000米时,认为两个样本完全无关。
计算初始最近邻样本集中各样本矢量与样本矢量xi的欧氏距离,取距离最近的最多前k个样本作为样本矢量xi的k最近邻样本集
步骤4:计算先验概率和归一化频数矩阵
对每个标记项yj,j=1~q,按下面的公式(19)计算先验概率
其中,Hj分别表示未知(无标记)样本(仅有属性信息,没有标记信息)x0具有和不具有标记项yj(也即标记项yj=1和0,),而则分别表示Hj成立的先验概率,α为控制参数(一般取为1)。
然后,按下面的公式(20)(21)计算归一化频数矩阵[fj[r]+(k+1)×q
其中,R(·)表示round取整,δj(xi)表示的训练样本xi的近邻样本中具有标记yj的样本的软信息加权占比:
则fj[r]表示训练样本集中具有标记yj并且同时有占比为的近邻也具有标记yj的训练样本个数。而则表示训练样本集中不具有标记yj并且同时有占比为的近邻具有标记yj的训练样本个数。
步骤5:构造未知样本x0的k近邻样本集
对未知样本x0,按照步骤3的方法在训练样本集中构造出该样本的k近邻样本集实际的最近邻样本数为k0,(k0≤k);
步骤6:计算未知样本x0的同标记统计
对每一个标记项yj,j=1~q,按照公式(23)统计中具有该标记项的样本数量{Cj},称为未知样本x0在其k0个最近邻样本集中的等价同标记统计:
Cj=R(k·δj(x0)) (23)
步骤7:计算未知样本x0的似然概率
按公式(24)(25)计算似然概率
表示当未知样本x0具有标记yj时,它的最近邻样本中有占比的样本也具有标记yj的似然性。
步骤8:估计未知样本x0的标记值
在前面各步骤计算结果的基础上,由下式(26)计算得到未知样本x0的标记集Y0的估计值{yi,i=1~q}:
实验结果:我们选取某本地LTE网络下采集的网页浏览业务感知样本集中的一部分作为训练样本,样本数量为34.3万个,剩余的样本作为未知样本(测试样本),共3.6万个。我们将本发明与传统的ML-kNN算法进行了对比,实验结果用分类学习算法的常用评价指标Accuracy(预测的标记结果与真实标记间相似性度量的平均值)、F1-measure(是根据准确率Precision和召回率Recall二者给出的加权调和平均)、HammingLoss(用于考察样本在单个标记上的误分类情况,即相关标记未出现在预测的标记集合中或无关标记出现在了预测的标记集合中)进行评价(前两个指标越高表明性能越优(最优值为1),第3个指标则越低性能越优(最优值为0)),结果如下:
本发明 ML-kNN算法
Accuracy 0.575±0.028 0.541±0.030
F1-measure 0.650±0.026 0.646±0.032
HammingLoss 0.178±0.027 0.191±0.023
由表可见,相比传统算法,本发明可有效提高预测分类的性能。也就是说,运用本发明所述算法可以较好地对用户在特定场景下的OTT业务体验好坏进行预测,从而为运营商采取适当的用户体验保障措施提供及时、有益的参考。

Claims (1)

1.一种基于软标记信息的多标记K近邻分类算法,其特征在于,
具体步骤详细描述如下:
输入:原始训练样本集m为样本数量;原始未知无标记样本
原始属性集d为属性集的维度,其中前n个属性项(n≤d)为相关约束属性项,即当两个样本的该属性项距离超出设定的属性无关门限时,认为这两个样本关于该属性项无关;属性字段为名目型数据或数值型数据;
原始标记集q为标记集的维度;标记字段的原始样本值均为数值型数据;
输出:未知样本的标记结果Y0
步骤1:样本属性值转换
对原始训练样本和原始未知样本中的所有数值型属性项利用公式(1)进行归一化,即:
其中表示属性i的原始值;为相对于上下边界的截断函数,即
其中上下边界是依据其箱形图分布的下外限Q1-3IQR和上外限Q3+3IQR以及实际最大值和最小值按下式求得:
具体地,先由全部训练样本的该原始属性值做出箱形图,其中Q3为其上四分位数,Q1为其下四分位数,IQR=Q3-Q1为上四分位数Q3与下四分位数Q1之差即四分位距,Q1-3IQR和Q3+3IQR则分别为其下外限值和上外限值;
步骤2:样本的标记值转换和软信息提取
对于原始训练样本中的各数值型标记字段,根据预设的判决门限{T1~Tq}按公式(4)转换成布尔型数据,即:
其中函数表示当条件c成立时返回1,否则返回0;判决门限采用全部样本的该标记值箱形图分布的上内限Q3+1.5IQR;
同时,根据公式(5)计算各样本标记值到判决门限的归一化绝对距离(即软标记信息)sij∈[0,1],即:
其中该标记项的下边界取为其其箱形图分布的下内限Q1-1.5IQR,上边界取为其箱形图分布的上外限Q3+3IQR;为相对于的截断函数;
经过步骤1和2,得到训练样本集D={(xi,Yi)|1≤i≤m}和未知样本x0
步骤3:构造训练样本的k最近邻样本集
对训练样本集中的每个样本矢量xi,i=1~m,在训练样本集中寻找该样本矢量的最多k个最近邻样本,构成该样本矢量的k最近邻样本集该样本集的实际最近邻样本个数为ki,(ki≤k);具体方法如下:
对样本矢量xi={xil,l=1~d},在训练样本集中依次根据各个相关约束属性项,寻找除该样本自身之外所有与xil,1≤l≤n的距离小于设定属性无关门限wl,1≤l≤n的样本,构成初始最近邻样本集
计算初始最近邻样本集中各样本矢量与样本矢量xi的欧氏距离,取距离最近的最多前k个样本作为样本矢量xi的k最近邻样本集
步骤4:计算先验概率和归一化频数矩阵
对每个标记项yj,j=1~q,按下面的公式(6)计算先验概率
其中,Hj分别表示未知无标记样本x0具有和不具有标记项yj(也,而则分别表示Hj成立的先验概率,α为控制参数,取为1;
然后,按下面的公式(7)(8)计算归一化频数矩阵[fj[r](k+1)×q
其中,R(·)表示round取整,δj(xi)表示的训练样本xi的近邻样本中具有标记yj的样本的软信息加权占比:
则fj[r]表示训练样本集中具有标记yj并且同时有占比为的近邻也具有标记yj的训练样本个数;而则表示训练样本集中不具有标记yj并且同时有占比为的近邻具有标记yj的训练样本个数;
步骤5:构造未知样本x0的k近邻样本集
对未知样本x0,按照步骤3的方法在训练样本集中构造出该样本的k近邻样本集实际的最近邻样本数为k0,(k0≤k);
步骤6:计算未知样本x0的同标记统计
对每一个标记项yj,j=1~q,按照公式(10)统计中具有该标记项的样本数量{Cj},称为未知样本x0在其k0个最近邻样本集中的等价同标记统计:
Cj=R(k·δj(x0)) (10)
步骤7:计算未知样本x0的似然概率
按公式(11)(12)计算似然概率
表示当未知样本x0具有标记yj时,它的最近邻样本中有占比的样本也具有标记yj的似然性;
步骤8:估计未知样本x0的标记值
在前面各步骤计算结果的基础上,基于Bayes理论即由下式(13)计算得到未知样本x0的标记集Y0的估计值{yi,i=1~q}:
CN201711390238.XA 2017-12-21 2017-12-21 基于软信息的多标记k近邻算法 Active CN108133387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711390238.XA CN108133387B (zh) 2017-12-21 2017-12-21 基于软信息的多标记k近邻算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711390238.XA CN108133387B (zh) 2017-12-21 2017-12-21 基于软信息的多标记k近邻算法

Publications (2)

Publication Number Publication Date
CN108133387A true CN108133387A (zh) 2018-06-08
CN108133387B CN108133387B (zh) 2021-11-12

Family

ID=62391253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711390238.XA Active CN108133387B (zh) 2017-12-21 2017-12-21 基于软信息的多标记k近邻算法

Country Status (1)

Country Link
CN (1) CN108133387B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102006A (zh) * 2018-07-24 2018-12-28 东南大学 一种基于音频特征诱导信息增强的音乐自动标记方法
CN109379763A (zh) * 2018-10-09 2019-02-22 北京联合大学 网络设备信息的智能标记方法
CN110049129A (zh) * 2019-04-20 2019-07-23 北京联合大学 一种基于特征选择的移动互联网业务质量预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125461A1 (en) * 2007-11-09 2009-05-14 Microsoft Corporation Multi-Label Active Learning
CN107292519A (zh) * 2017-06-26 2017-10-24 北京联合大学 一种基于多标记学习的浏览类业务感知指标预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125461A1 (en) * 2007-11-09 2009-05-14 Microsoft Corporation Multi-Label Active Learning
CN107292519A (zh) * 2017-06-26 2017-10-24 北京联合大学 一种基于多标记学习的浏览类业务感知指标预测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102006A (zh) * 2018-07-24 2018-12-28 东南大学 一种基于音频特征诱导信息增强的音乐自动标记方法
CN109102006B (zh) * 2018-07-24 2021-09-07 东南大学 一种基于音频特征诱导信息增强的音乐自动标记方法
CN109379763A (zh) * 2018-10-09 2019-02-22 北京联合大学 网络设备信息的智能标记方法
CN109379763B (zh) * 2018-10-09 2022-08-05 北京联合大学 网络设备信息的智能标记方法
CN110049129A (zh) * 2019-04-20 2019-07-23 北京联合大学 一种基于特征选择的移动互联网业务质量预测方法

Also Published As

Publication number Publication date
CN108133387B (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
Yang et al. Semisupervised multilabel deep learning based nonintrusive load monitoring in smart grids
CN109344884B (zh) 媒体信息分类方法、训练图片分类模型的方法及装置
CN110019889A (zh) 训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置
Cao et al. Adversarial learning with local coordinate coding
CN111339818B (zh) 一种人脸多属性识别系统
CN114359738B (zh) 一种跨场景鲁棒的室内人数无线检测方法及系统
Zhang et al. Guided attention in cnns for occluded pedestrian detection and re-identification
CN108133387A (zh) 基于软信息的多标记k近邻算法
Lizarazo SVM‐based segmentation and classification of remotely sensed data
CN108319672A (zh) 基于云计算的移动终端不良信息过滤方法及系统
CN102163285A (zh) 一种基于主动学习的跨域视频语义概念检测方法
CN105159898B (zh) 一种搜索的方法和装置
Singh et al. Performance evaluation of plant leaf disease detection using deep learning models
CN116310530A (zh) 基于语义聚类的联邦无监督图像分类模型训练方法、分类方法及设备
CN109242039A (zh) 一种基于候选标记估计的未标记数据利用方法
CN107169020B (zh) 一种基于关键字的定向网页采集方法
Bovenzi et al. Benchmarking class incremental learning in deep learning traffic classification
CN110457387B (zh) 一种应用于网络中用户标签确定的方法及相关装置
CN112541010B (zh) 一种基于逻辑回归的用户性别预测方法
Cai et al. Exploring spatial diversity for region-based active learning
CN117095252A (zh) 目标检测方法
Zhang et al. Wild plant data collection system based on distributed location
Lv et al. BTS: a binary tree sampling strategy for object identification based on deep learning
Ying et al. PFrauDetector: a parallelized graph mining approach for efficient fraudulent phone call detection
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant