CN105656692A - 无线传感网络中基于多示例多标记学习的区域监测方法 - Google Patents

无线传感网络中基于多示例多标记学习的区域监测方法 Download PDF

Info

Publication number
CN105656692A
CN105656692A CN201610144784.4A CN201610144784A CN105656692A CN 105656692 A CN105656692 A CN 105656692A CN 201610144784 A CN201610144784 A CN 201610144784A CN 105656692 A CN105656692 A CN 105656692A
Authority
CN
China
Prior art keywords
data
omega
sigma
sub
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610144784.4A
Other languages
English (en)
Other versions
CN105656692B (zh
Inventor
胡海峰
唐川
吴建盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610144784.4A priority Critical patent/CN105656692B/zh
Publication of CN105656692A publication Critical patent/CN105656692A/zh
Application granted granted Critical
Publication of CN105656692B publication Critical patent/CN105656692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了无线传感网络中基于多示例多标记学习的区域监测方法,利用Fisher?Kernel对同一时刻的多个传感器节点数据压缩。压缩后,某一时刻,整个无线传感器网络对应一个单示例数据而不再是多示例数据。利用MMD对历史包数据压缩,挑选出最具代表性的包数据,构成一个数据子集。利用快速多示例多标记算法完成对压缩数据的训练和监测区域状态的评估。本发明在经过两层压缩后的传感数据集上构建传感器网络状态预测模型,能够实现快速的网络状态预测。

Description

无线传感网络中基于多示例多标记学习的区域监测方法
技术领域
本发明属于无线传感网络技术和机器学习技术领域,特别涉及了一种基于多示例多标记学习的区域监测方法。
背景技术
作为一种能够对人类未来生活产生深远影响的新兴技术,无线传感器网络(WSNs)技术近年来受到了普遍关注。WSNs技术的应用涉及到了诸多领域,包括国防科技、物联网技术、环境监测、远程控制、星际探索等。对于WSNs的研究意义重大。
大数据时代的一个重要数据来源就是传感器网络。传感器网络的任务在于帮助人们监测某个区域内监测对象的情况,而非具体某个节点的情况,传感器网络中的节点脱离了传感器网络就没有意义了。传感器网络将各节点收集到的数据汇总,人们对这些汇总数据进行处理,从而了解整个监测区域或者某个区块所处状态。WSNs除了拥有分布式、自组织,网络拓扑结构动态变化,可靠性和安全性较差诸多特点外,还包括以下两个显著特点。第一,WSNs产生的传感数据中包含大量冗余信息。由于传感器节点无时无刻都在产生数据的,所以其产生的是流数据,流数据的特点是短时间内数据相关性比较大,包含了大量冗余数据,如何将冗余数据筛选掉,而只对关键数据进行挖掘,这是WSNs技术的重要研究方向。第二,传感器规模大、密度高。传感器网络产生的原因就在于,随着无线通信技术、传感技术以及微电子技术的发展,传感器的体积、能耗变得越来越小,功能变得越来越强大,已经可以实现大批量的传感器生产和部署。数目众多的传感器节点每时每刻都在感知环境并产生数据,一个大型的WSNs汇集的数据量是巨大的。如何对这些海量的传感数据进行筛选和处理已经成为WSNs研究者关注的问题。
传感器是大数据的一个重要来源之一,传感数据是数据挖掘的重要研究对象。数据挖掘是一个过程,其目的在于利用模式识别、统计学理论、机器学习等领域的算法和知识,从大量的数据中搜索隐藏于其中信息。在数据挖掘所利用的众多机器学习算法中,有监督的分类学习是其中的一个重要分支。分类算法是在类别已知的训练样本集上学习得到一个分类模型,然后利用分类模型预测新样本的类别,这类似于人类利用生活经验来预测未来可能发生的事。在WSNs中,可以利用历史的传感数据,训练出一个分类器,当新的传感数据到来,就可以利用分类器对当期传感器网络所处的状态进行评估。
传统的分类算法中,每个样本只有一个类别或标记,但是现实当中一个样本或对象可能同时与多个标记相对应。例如,一则新闻报道可能同时对应『经济』『政治』『环境』三个主题;一张关于沙滩的图片,可能同时还包含有海鸥、天空、轮船等内容;同样的情形在生物领域的蛋白质功能预测中也存在,一种蛋白质分子可能同时具有抗癌、抗感冒等功能;在WSNs中,监测区域出现的状况可能不只一种,否则传感器网络的功能就太过单一了,比如,我们往往希望传感器网络能够同时判断监测区域中是否存在火灾、外来入侵、交通堵塞等情况,如果出现火灾,那么火灾大概出现在监测区域内的哪个部分。由此,产生了多标记学习(MLL)以解决一个样本拥有多个标记的问题。多标记算法已经被成熟地应用到文本分类、图片注释等传统分类领域,并且在一系列新的领域亦取得了成功,包括大分子功能预测、Web挖掘、信息检索和视频语义注释,而多标记学习在WSNs领域的直接应用还未引起足够重视。基于决策树、神经网络、K近邻、支持向量机等传统的分类算法,研究者们提出了许多相应的多标记算法,多标记问题的解决工具已经种类繁多。
多标记学习定义了学习对象在输出空间具有多个语义内容,而复杂的学习对象在拥有复杂的输出空间的同时,其输入空间也会包含复杂的信息。传统的单个示例(特征向量)表示一个样本的模式对于复杂的学习对象来说已经不适应,需要多个示例组成一个包来共同描述学习对象。例如,一本书实际上是由多个章节组成的,每个章节可以是一个示例;一张关于沙滩的图片可以划分成不同的区块,每一个区块都对应着一个语义内容,比如『大海』『沙地』『椰树』。多示例模型对于学习对象的描述更加符合人类对客观世界认识的模式方法,人在判断一张图片主题时,实际上是先看图片的局部内容,然后将局部内容联系在一起判断整张图片的主题。在传感器网络中,整个监测区域是一包,每个传感器节点是一个示例,这样基于传感器网络的区域监测问题就成为了一个多示例多标记学习问题,选取合适的多示例多标记学习算法能够解决传感器网络的大规模数据处理问题。
解决多示例学习问题的一个重要方法是退化。通过将一个包中的多个示例压缩成一个示例,原本的多示例问题就能够转化成传统的单示例多标记问题。退化造成了一定的信息损失,却使得复杂的多示例问题得到简化,大大减少了模型复杂程度,降低开销。在传感器网络中,对多个传感器节点数据的融合将减少传输开销,降低对节点性能的要求。最近,费舍尔核函数(FisherKernel)技术被验证是实现多示例转化成单示例的最有效方法。
数据集成问题是数据处理中的一个重要问题,而许多数据集成任务往往需要解决一个共同问题:如何判断两个数据集是否取自同一个分布。最近,颇受关注的最大平均差异(MMD)指标以核函数为基础,解决了如何衡量任意两个数据集分布是否相同的问题。在传感器网络的冗余数据的筛选问题中,我们希望从原始传感数据集中得到一个数据子集,这个子集与原始数据集的分布尽可能接近。
基于WSNs技术的区域监测问题当前面临的挑战:
(1)基于WSNs的区域监测需要对实时的传感数据快速操作,提取出网络状态信息,复杂的数据操作过程或者算法模型都会降低系统响应速度;
(2)规模庞大的传感器节点实时产生的传感数据是海量的,如何对多个传感器节点数据进行压缩、提取有用信息是一个挑战;
(3)同一时间段内传感器发送的数据非常相似,传感数据存在大量的冗余信息,如何将这些冗余信息筛除是一个挑战。
发明内容
为了解决上述背景技术提出的技术问题,本发明旨在提供无线传感网络中基于多示例多标记学习的区域监测方法,解决了无线传感器网络中海量传感数据压缩和信息挖掘的问题,以及进一步利用挖掘到的信息解决监测区域状态的实时评估的问题。
为了实现上述技术目的,本发明的技术方案为:
无线传感网络中基于多示例多标记学习的区域监测方法,包括两个过程:预测模型构建、网络状态预测与模型更新,
所述模型构建过程如下:
(1)收集T个时刻的传感网络数据,构成数据集Do={(Nt,Yt),t=1,2,...,T},Nt={st,1,st,2,...,St,i,...,St,M}表示时刻t时传感器网络收集到的数据,st,i表示时刻t时第i个传感器收集的数据,M为整个传感器网络的传感器的总数,Yt={yt,1,yt,2,...,yt,l,...,yt,L}表示时刻t时传感器网络的状态向量,Yt有L种需要监测的状态yt,l,l=1,2,…,L,yt,l的取值由人为判断,yt,l取1表示传感器网络正处于l状态,否则yt,l取0;
(2)利用最大似然估计求解数据集Do的混合高斯模型;
(3)对Do中的所有Nt,利用基于混合高斯模型的FisherKernel核函数,将多示例数据Nt映射成单示例数据ft,从而得到数据集D={(ft,Yt),t=1,2,...,T};
(4)利用MMD数据集成技术,将数据集D中的冗余数据筛除,得到D的子数据集Dsub
(5)以Dsub为训练集,训练一个基于快速多示例多标记分类算法的预测模型Yt=Fy(ft),清空数据集D。
所述模型更新与网络状态预测过程如下:
(i)收集任意时刻的传感网络数据,利用FisherKernel核函数得到其单示例数据ft
(ii)将ft输入到预测模型Yt=Fy(ft)中,估测出网络当前所处状态Yt,根据估测状态,管理者做出响应动作,同时对Yt进行人工校验、更正,并将(ft,Yt)存入数据集D中;
(iii)重复步骤(ⅰ)、(ⅱ),直到收集总共T个时刻的传感网络数据,构成新的数据集D={(ft,Yt),t=1,...,T};
(iv)利用MMD数据集成技术,将数据集D中的冗余数据筛除,重新得到D的子数据集Dsub
(v)根据Dsub更新预测模型Yt=Fy(ft),清空数据集D。
进一步地,步骤(3)中将多示例数据映射成单示例数据的具体过程如下:
对于某个多示例数据N={s1,s2,...,si,...,sM},设整个样本集的概率密度函数p为混合高斯模型,则N取自该混合高斯模型的概率:
L ( N | λ ) = Σ i = 1 M log p ( s i | λ ) = Σ i = 1 M l o g Σ k = 1 K ω k p k ( s i | λ ) - - - ( 1 )
式(1)中,λ为在样本集上进行最大似然估计得到混合高斯模型的参数,λ={ωkkk,k=1,...,K},K为混合高斯模型当中包含单高斯模型的个数,ωk代表第k个高斯模型占整个混合高斯模型的权重,且满足:μk和∑k分别为第k个高斯模型的均值向量和方差向量;
设pk为第k个高斯模型的概率密度函数,则有:
p k ( s i | λ ) = exp { - 1 2 ( s i - μ k ) T Σ k - 1 ( s i - μ k ) } ( 2 π ) d / 2 | Σ k | 1 / 2 - - - ( 2 )
式(2)中,d为传感器数据si的维度数目,由贝叶斯定理得到第i个示例取自第k个高斯分布的概率:
γ i ( k ) = p ( k | s i , λ ) = ω k p k ( s i | λ ) Σ u = 1 K ω u p u ( s i | λ ) - - - ( 3 )
根据γi(k)求得N的FisherVector
f ω k N = 1 ω k Σ i = 1 M ( γ i ( k ) - ω k ) f μ k N = 1 ω k Σ i = 1 M γ i ( k ) ( s i - μ k Σ k 2 ) f Σ k N = 1 ω k Σ i = 1 M γ i ( k ) 1 2 [ ( s i - μ k ) 2 Σ k 2 - 1 ] f λ N = ( f ω k N , f μ k N , f Σ k N ) - - - ( 4 ) .
进一步地,步骤(4)的具体过程如下:
对于一个数据集D={N1,N2,...,NT},它的子集Dsub={αtNt|Nt∈D,t=1,...,T,αt∈{0,1}},αt为样本选择权重,当子集Dsub中包含了Nt时,αt取1,否则αt取0;
将数据集D和Dsub之间的最大平均损失平方的最小值作为目标函数:
式(5)中,Nt′表示取自子集Dsub的数据包,Ts为Dsub中的样本个数,φ(x)为非线性特征映射函数;
求出式(5)的局部最优解,并根据人为设定的阈值σ,得到Dsub={Ntt>σ}。
进一步地,步骤(5)的具体过程:
(a)从Dsub中随机抽取一个样本ft和它的一个相关标记
y∈{yt,l|yt,l∈Yt,yt,l=1},计算ft对标记y的打分值Fy(ft)=ωyWft,其中,ωy是标记y的权重向量,W是信息提取矩阵,用来对ft降维;
(b)从ft的标记集合中随机抽取一个无关标记计算如果无关标记没有违规,返回步骤(b);如果 是一个违规的无关标记,记下当前总共抽样次数v,转到步骤(c);
(c)根据抽样次数v估计模型的误差,利用误差对参数ωy,W更新;
(d)判断模型是否收敛,如果否,返回步骤(a),如果是,输出最终模型,结束训练。
进一步地,步骤(c)中利用随机梯度下降法更新参数ωy,W,更新的公式:
ωy=ωy+γ*error(ft,y)*Wft
ω y ‾ = ω y ‾ - γ * e r r o r ( f t , y ) * Wf t
W = W - γ * e r r o r ( f t , y ) * ( f t ω y ‾ - f t ω y )
上式中,γ为随机梯度下降法的学习速率,error(ft,y)为根据抽样次数v估计的模型误差,
上式中,error(ft,y)为根据抽样次数v估计的模型误差,
采用上述技术方案带来的有益效果:
(1)本发明利用多示例压缩技术,解决了无线传感器网络中的数据融合问题,并且没有增加对传感器节点性能的需求;
(2)本发明利用了统计学中的数据集成技术,解决了无线传感器网络中冗余数据筛除的问题,使得海量传感数据挖掘的难度进一步降低;
(3)本发明利用改进后的快速多示例多标记学习算法对海量传感数据进行挖掘,能够高效、自适应地完成区域监测任务。
附图说明
图1是本发明的总体流程图;
图2是本发明训练预测模型的流程图;
图3是本发明预测网络状态和更新预测模型的流程图;
图4是本发明两层压缩数据的示意图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
如图1所示本发明的总体流程图,本发明包括三个过程:数据收集、模型训练/更新,网络状态预测。
首先,需要通过收集到的数据训练出预测模型,如图2所示,步骤如下:
第1步:收集T个时刻的传感网络数据,构成数据集Do={(Nt,Yt),t=1,2,...,T},Nt={st,1,st,2,...,St,i,...,St,M}表示时刻t时传感器网络收集到的数据,st,i表示时刻t时第i个传感器收集的数据,M为整个传感器网络的传感器的总数,Yt={yt,1,yt,2,...,yt,l,...,yt,L}表示时刻t时传感器网络的状态向量,Yt有L种需要监测的状态yt,l,l=1,2,…,L,yt,l的取值由人为判断,yt,l取1表示传感器网络正处于l状态,否则yt,l取0。
时刻t的传感器网络中,每个传感器节点收集到的数据st,i都是一个示例,整个传感器网络数据构成一个多示例包Nt={st,i,i=1,...,M},使用包来描述时刻t的整个传感器网络;整个监测区域可能会出现不同的状态,一个状态对于一个标记,由此产生给整个传感器网络打上多个相关标记的多标记问题。
第2步:利用最大似然估计求解数据集Do的混合高斯模型。
第3步:对Do中的所有Nt,利用基于混合高斯模型的FisherKernel核函数,将多示例数据Nt映射成单示例数据ft,从而得到数据集D={(ft,Yt),t=1,2,...,T}。
解决多示例学习问题的一个重要策略就是退化。将一个包中的多个示例压缩成单示例会造成一定的信息损失,但是使得多示例问题得以简化,提高了算法效率。
FisherKernel是一种利用样本的概率分布来估计样本之间相似性的核函数,对于两个包N1,N2,FisherKernel先将它们分别映射成两个FisherVector,然后利用两个FisherVector的内积衡量两个包的相似程度。利用FisherVector来代替原本的包数据,这就完成了对多示例的压缩。
本发明将多示例数据映射成单示例数据的具体过程如下:
对于某个多示例数据N={s1,s2,...,si,...,sM},设整个样本集的概率密度函数p为混合高斯模型,则N取自该混合高斯模型的概率:
L ( N | λ ) = Σ i = 1 M log p ( s i | λ ) = Σ i = 1 M l o g Σ k = 1 K ω k p k ( s i | λ ) - - - ( 1 )
式(1)中,λ为在样本集上进行最大似然估计得到混合高斯模型的参数,λ={ωkk,∑k,k=1,...,K},K为混合高斯模型当中包含单高斯模型的个数,ωk代表第k个高斯模型占整个混合高斯模型的权重,且满足:μk和∑k分别为第k个高斯模型的均值向量和方差向量;
设pk为第k个高斯模型的概率密度函数,则有:
p k ( s i | λ ) = exp { - 1 2 ( s i - μ k ) T Σ k - 1 ( s i - μ k ) } ( 2 π ) d / 2 | Σ k | 1 / 2 - - - ( 2 )
式(2)中,d为传感器数据si的维度数目,由贝叶斯定理得到第i个示例取自第k个高斯分布的概率:
γ i ( k ) = p ( k | s i , λ ) = ω k p k ( s i | λ ) Σ u = 1 K ω u p u ( s i | λ ) - - - ( 3 )
根据γi(k)求得N的FisherVector
f ω k N = 1 ω k Σ i = 1 M ( γ i ( k ) - ω k ) f μ k N = 1 ω k Σ i = 1 M γ i ( k ) ( s i - μ k Σ k 2 ) f Σ k N = 1 ω k Σ i = 1 M γ i ( k ) 1 2 [ ( s i - μ k ) 2 Σ k 2 - 1 ] f λ N = ( f ω k N , f μ k N , f Σ k N ) - - - ( 4 )
第4步:利用MMD数据集成技术,将数据集D中的冗余数据筛除,得到D的子数据集Dsub
WSNs在短时间内收集到的数据往往相似度非常高,包含了大量的冗余信息。为了减少对数据的训练量,适应海量的传感数据情景,需要对传感数据进行冗余信息筛除。
在机器学习中,最大平均损失(MMD)是数据集成的一个重要工具,它用来评价两个数据集分布的相似程度。对于一个数据集D={N1,N2,...,NT}以及它的任意一个子集Dsub,它们的MMD的平方的计算方式如下:
MMD φ 2 ( D , D s u b ) = | | 1 T Σ N t ∈ D φ ( N t ) - 1 T s Σ N t ′ ∈ D s u b φ ( N t ′ ) | | H 2 - - - ( 5 )
其中,N′t表示取自子集Dsub的数据包,Ts为Dsub中的样本个数,φ(x)为非线性特征映射函数。MMD越大,代表D与Dsub分布越不相同,当MMD取值为0时,说明D完全可以由Dsub代替。Dsub可以利用D表示出来:
Dsub={αtNt|Nt∈D,t=1,...,T,αt∈{0,1}}
其中,αt为样本选择权重,当子集中包含了Nt时,αt取1,否则取0。接下来我们只需要最小化MMD2(D,Dsub)就可以找到最好的数据子集来代替原始数据集,优化目标函数如下:
目标函数进行简单变换化简后得:
其中,const为一个只与数据D有关的常数项,使用高斯径向基核函数k(xi,xj)有:
Kij:=k(Ni,Nj)(8)
κ i : = T T s Σ j = 1 T S k ( N i , N j ) - - - ( 9 )
通过随机梯度下降法就可以得到目标函数的局部最优解,为了方便求解,这里对αt的取值进行了放松,αt取0到1之间的值,最终
Dsub={Ntt>σ}(10)
这里的阈值σ根据人的经验设定。
第5步:以Dsub为训练集,训练一个基于快速多示例多标记分类算法的预测模型Yt=Fy(ft),清空数据集D。
本发明中的网络状态预测模型基于快速多示例多标记算法(MIMLfast)模型,利用有监督学习的思想,在训练集Dsub上训练出一个多标记模型F(ft),新的传感数据输入到多标记模型中就能预测出网络状态。MIMLfast算法介绍如下:
MIMLfast为每个标记y(y∈Y)都构建一个打分函数:
Fy(ft)=ωyWft(11)
其中,ft是Nt的FisherVector简写,它的维度设为b,ωy是标记y的B维权重向量,不同的标记拥有不同的权重向量,W是维度为B×b(B<b)的信息提取矩阵,用来对ft降维,所有的标记都共享一个W,这样不同的标记可以相互帮助构建分类模型。Fy(ft)的值越大,代表ft拥有标记y的可能性越大,ft对每一个标记都有一个打分值,即{F1(ft),F2(ft),...,Fy(ft),...,F|Y|(ft)},对这些打分值排序,选取打分值较大的若干个标记作为ft的相关标记。
基于数据集Dsub,使用随机梯度下降法反复迭代训练预测模型,方法如下:
在每一轮迭代,随机抽取一个样本ft以及它的一个相关标记,组成一个二元组(ft,y),然后通过抽样的方法估计ft的无关标记集合中,无关标记的打分值超过相关标记y的个数v,抽样方法:每次从中随机抽取一个无关样本如果没有违规,继续下一轮抽样;如果是一个违规标记,结束抽样过程,记录抽样操作进行的次数即为v。
利用v估计模型的误差,公式如下:
e r r o r ( f t , y ) = Σ j = 1 v 1 j - - - ( 12 )
利用误差error(ft,y)构建基于三元组的损失函数为:
L ( f t , y , y ‾ ) = e r r o r ( f t , y ) ( 1 + F y ‾ ( f t ) - F y ( f t ) ) = e r r o r ( f t , y ) ( 1 + ω y ‾ Wf t - ω y Wf t ) - - - ( 13 )
求解梯度,更新参数
ω y = ω y + γ * e r r o r ( f t , y ) * Wf t ω y ‾ = ω y ‾ - γ * e r r o r ( f t , y ) * Wf t W = W - γ * e r r o r ( f t , y ) * ( f t ω y ‾ - f t ω y ) - - - ( 14 )
γ为随机梯度下降法的学习速率,控制着参数更新的快慢,更新完所有参数后,进入下一轮迭代,抽取新的三元组,直到模型训练完成为止。
预测模型训练好后,重新收集数据,并根据收集到的数据预测网络状态,并更新预测模型,如图3所示,步骤如下:
第1步:收集任意时刻的传感网络数据,利用FisherKernel核函数得到其单示例数据ft
第2步:将ft输入到预测模型Yt=Fy(ft)中,估测出网络当前所处状态Yt,根据估测状态,管理者做出响应动作,同时对Yt进行人工校验、更正,并将(ft,Yt)存入数据集D中。
第3步:重复步骤(ⅰ)、(ⅱ),直到收集总共T个时刻的传感网络数据,构成新的数据集D={(ft,Yt),t=1,...,T}。
第4步:利用MMD的数据集成技术,将数据集D中的冗余数据筛除,重新得到D的子数据集Dsub
第5步:根据Dsub更新预测模型Yt=Fy(ft),清空数据集D。
如图4所示,由于历史传感数据集过大且冗余信息过多,本发明对原始传感数据进行两层压缩,在示例层面(传感器节点层面),利用多示例退化算法将多个传感器节点收集到的数据压缩成单示例数据;在包层面(传感器网络层面),利用MMD在保证信息量丢失不多的情况下,挑选出一个历史传感数据的子集,对历史不同时刻的传感数据进行压缩,减少训练量。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (5)

1.无线传感网络中基于多示例多标记学习的区域监测方法,其特征在于:包括两个过程:预测模型构建、网络状态预测与模型更新,
所述模型构建过程如下:
(1)收集T个时刻的传感网络数据,构成数据集Do={(Nt,Yt),t=1,2,...,T},Nt={st,1,st,2,...,st,i,...,st,M}表示时刻t时传感器网络收集到的数据,st,i表示时刻t时第i个传感器收集的数据,M为整个传感器网络的传感器的总数,Yt={yt,1,yt,2,...,yt,l,...,yt,L}表示时刻t时传感器网络的状态向量,Yt有L种需要监测的状态yt,l,l=1,2,…,L,yt,l的取值由人为判断,yt,l取1表示传感器网络正处于l状态,否则yt,l取0;
(2)利用最大似然估计求解数据集Do的混合高斯模型;
(3)对Do中的所有Nt,利用基于混合高斯模型的FisherKernel核函数,将多示例数据Nt映射成单示例数据ft,从而得到数据集D={(ft,Yt),t=1,2,...,T};
(4)利用MMD数据集成技术,将数据集D中的冗余数据筛除,得到D的子数据集Dsub
(5)以Dsub为训练集,训练一个基于快速多示例多标记分类算法的预测模型Yt=Fy(ft),清空数据集D;
所述模型更新与网络状态预测过程如下:
(i)收集任意时刻的传感网络数据,利用FisherKernel核函数得到其单示例数据ft
(ii)将ft输入到预测模型Yt=Fy(ft)中,估测出网络当前所处状态Yt,根据估测状态,管理者做出响应动作,同时对Yt进行人工校验、更正,并将(ft,Yt)存入数据集D中;
(iii)重复步骤(ⅰ)、(ii),直到收集总共T个时刻的传感网络数据,构成新的数据集D={(ft,Yt),t=1,...,T};
(iv)利用MMD数据集成技术,将数据集D中的冗余数据筛除,重新得到D的子数据集Dsub
(v)根据Dsub更新预测模型Yt=Fy(ft),清空数据集D。
2.根据权利要求1所述无线传感网络中基于多示例多标记学习的区域监测方法,其特征在于,步骤(3)中将多示例数据映射成单示例数据的具体过程如下:
对于某个多示例数据N={s1,s2,...,si,...,sM},设整个样本集的概率密度函数p为混合高斯模型,则N取自该混合高斯模型的概率:
L ( N | λ ) = Σ i = 1 M log p ( s i | λ ) = Σ i = 1 M l o g Σ k = 1 K ω k p k ( s i | λ ) - - - ( 1 )
式(1)中,λ为在样本集上进行最大似然估计得到混合高斯模型的参数,λ={ωkkk,k=1,...,K},K为混合高斯模型当中包含单高斯模型的个数,ωk代表第k个高斯模型占整个混合高斯模型的权重,且满足:μk和Σk分别为第k个高斯模型的均值向量和方差向量;
设pk为第k个高斯模型的概率密度函数,则有:
p k ( s i | λ ) = exp { - 1 2 ( s i - μ k ) T Σ k - 1 ( s i - μ k ) } ( 2 π ) d / 2 | Σ k | 1 / 2 - - - ( 2 )
式(2)中,d为传感器数据si的维度数目,由贝叶斯定理得到第i个示例取自第k个高斯分布的概率:
γ i ( k ) = p ( k | s i , λ ) = ω k p k ( s i | λ ) Σ u = 1 K ω u p u ( s i | λ ) - - - ( 3 )
根据γi(k)求得N的Fisher向量
f ω k N = 1 ω k Σ i = 1 M ( γ i ( k ) - ω k ) f μ k N = 1 ω k Σ i = 1 M γ i ( k ) ( s i - μ k Σ k 2 ) f Σ k N = 1 ω k Σ i = 1 M γ i ( k ) 1 2 [ ( s i - μ k ) 2 Σ k 2 - 1 ] f λ N = ( f ω k N , f μ k N , f Σ k N ) - - - ( 4 ) .
3.根据权利要求1所述无线传感网络中基于多示例多标记学习的区域监测方法,其特征在于,步骤(4)的具体过程如下:
对于一个数据集D={N1,N2,...,NT},它的子集Dsub={αtNt|Nt∈D,t=1,...,T,αt∈{0,1}},αt为样本选择权重,当子集Dsub中包含了Nt时,αt取1,否则αt取0;
将数据集D和Dsub之间的最大平均损失平方的最小值作为目标函数:
式(5)中,N′t表示取自子集Dsub的数据包,Ts为Dsub中的样本个数,φ(x)为非线性特征映射函数;
求出式(5)的局部最优解,并根据人为设定的阈值σ,得到Dsub={Ntt>σ}。
4.根据权利要求1所述无线传感网络中基于多示例多标记学习的区域监测方法,其特征在于,步骤(5)的具体过程:
(a)从Dsub中随机抽取一个样本ft和它的一个相关标记y∈{yt,l|yt,l∈Yt,yt,l=1},计算ft对标记y的打分值Fy(ft)=ωyWft,其中,ωy是标记y的权重向量,W是信息提取矩阵,用来对ft降维;
(b)从ft的标记集合中随机抽取一个无关标记计算如果无关标记没有违规,返回步骤(b);如果 是一个违规的无关标记,记下当前总共抽样次数v,转到步骤(c);
(c)根据抽样次数v估计模型的误差,利用误差对参数ωy,W更新;
(d)判断模型是否收敛,如果否,返回步骤(a),如果是,输出最终模型,结束训练。
5.根据权利要求4所述无线传感网络中基于多示例多标记学习的区域监测方法,其特征在于,步骤(c)中利用随机梯度下降法更新参数ωy,W,更新的公式:
ωy=ωy+γ*error(ft,y)*Wft
ω y ‾ = ω y ‾ - γ * e r r o r ( f t , y ) * Wf t
W = W - γ * e r r o r ( f t , y ) * ( f t ω y ‾ - f t ω y )
上式中,γ为随机梯度下降法的学习速率,error(ft,y)为根据抽样次数v估计的模型误差,
CN201610144784.4A 2016-03-14 2016-03-14 无线传感网络中基于多示例多标记学习的区域监测方法 Active CN105656692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610144784.4A CN105656692B (zh) 2016-03-14 2016-03-14 无线传感网络中基于多示例多标记学习的区域监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610144784.4A CN105656692B (zh) 2016-03-14 2016-03-14 无线传感网络中基于多示例多标记学习的区域监测方法

Publications (2)

Publication Number Publication Date
CN105656692A true CN105656692A (zh) 2016-06-08
CN105656692B CN105656692B (zh) 2019-05-24

Family

ID=56492569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610144784.4A Active CN105656692B (zh) 2016-03-14 2016-03-14 无线传感网络中基于多示例多标记学习的区域监测方法

Country Status (1)

Country Link
CN (1) CN105656692B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292519A (zh) * 2017-06-26 2017-10-24 北京联合大学 一种基于多标记学习的浏览类业务感知指标预测方法
CN110162609A (zh) * 2019-04-11 2019-08-23 阿里巴巴集团控股有限公司 用于向用户推荐咨询问题的方法及装置
CN110619342A (zh) * 2018-06-20 2019-12-27 鲁东大学 一种基于深度迁移学习的旋转机械故障诊断方法
CN112183565A (zh) * 2019-07-04 2021-01-05 创新先进技术有限公司 模型训练方法、装置及系统
CN113056743A (zh) * 2018-09-20 2021-06-29 辉达公司 训练神经网络以用于车辆重新识别

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104602297A (zh) * 2015-01-26 2015-05-06 无锡清华信息科学与技术国家实验室物联网技术中心 基于压缩感知的无线传感器网络监测方法及系统
CN105046269A (zh) * 2015-06-19 2015-11-11 鲁东大学 一种基于多核融合的多示例多标签场景分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104602297A (zh) * 2015-01-26 2015-05-06 无锡清华信息科学与技术国家实验室物联网技术中心 基于压缩感知的无线传感器网络监测方法及系统
CN105046269A (zh) * 2015-06-19 2015-11-11 鲁东大学 一种基于多核融合的多示例多标签场景分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WU JIAN-SHENG 等: "Genome-Wide Protein Function Prediction through Multi-Instance Multi-Label Learning", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292519A (zh) * 2017-06-26 2017-10-24 北京联合大学 一种基于多标记学习的浏览类业务感知指标预测方法
CN107292519B (zh) * 2017-06-26 2020-11-03 北京联合大学 一种基于多标记学习的浏览类业务感知指标预测方法
CN110619342A (zh) * 2018-06-20 2019-12-27 鲁东大学 一种基于深度迁移学习的旋转机械故障诊断方法
CN110619342B (zh) * 2018-06-20 2023-02-03 鲁东大学 一种基于深度迁移学习的旋转机械故障诊断方法
CN113056743A (zh) * 2018-09-20 2021-06-29 辉达公司 训练神经网络以用于车辆重新识别
CN110162609A (zh) * 2019-04-11 2019-08-23 阿里巴巴集团控股有限公司 用于向用户推荐咨询问题的方法及装置
CN110162609B (zh) * 2019-04-11 2023-04-07 创新先进技术有限公司 用于向用户推荐咨询问题的方法及装置
CN112183565A (zh) * 2019-07-04 2021-01-05 创新先进技术有限公司 模型训练方法、装置及系统

Also Published As

Publication number Publication date
CN105656692B (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN105656692A (zh) 无线传感网络中基于多示例多标记学习的区域监测方法
CN109635461A (zh) 一种应用随钻参数来自动识别围岩级别的方法和系统
CN102647292B (zh) 一种基于半监督神经网络模型的入侵检测方法
CN107563426B (zh) 一种机车运行时序特征的学习方法
Shariati et al. Proposing a new model for waste dump site selection: Case study of Ayerma Phosphate Mine
CN106934352A (zh) 一种基于双路分形网络和lstm的视频描述方法
CN103324954B (zh) 一种基于树结构的图像分类方法及其系统
CN105354208A (zh) 一种大数据信息挖掘方法
CN102034212A (zh) 一种基于视频分析的城市管理系统
CN103617147A (zh) 一种矿井突水水源层识别方法
Azimi et al. Spatial assessment of the potential of groundwater quality using fuzzy AHP in GIS
CN102722719A (zh) 基于观察学习的入侵检测方法
Yu et al. Modeling and implementation of classification rule discovery by ant colony optimisation for spatial land-use suitability assessment
CN112084240B (zh) 一种群租房智能识别、联动治理方法及系统
CN115599779B (zh) 一种城市道路交通缺失数据插值方法及相关设备
CN105912773A (zh) 一种新的基于数据挖掘技术的智能冲压工艺设计方法
CN108764192A (zh) 一种面向平安城市视频监控应用的多示例多标签学习方法
CN109785409A (zh) 一种基于注意力机制的图像-文本数据融合方法和系统
Rivas et al. Application of Bayesian networks to the evaluation of roofing slate quality
Olatunji et al. Modeling permeability prediction using extreme learning machines
CN115860582B (zh) 一种基于自适应提升算法的冲击危险性智能预警方法
CN102148706A (zh) 动态复杂网络中的进化模式挖掘方法
Arı et al. A review of genetic programming: Popular techniques, fundamental aspects, software tools and applications
El Wakil et al. Data management for construction processes using fuzzy approach
CN104200220A (zh) 一种基于静态纹理模型聚集的动态纹理识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant