CN107451617A - 一种图转导半监督分类方法 - Google Patents

一种图转导半监督分类方法 Download PDF

Info

Publication number
CN107451617A
CN107451617A CN201710670472.1A CN201710670472A CN107451617A CN 107451617 A CN107451617 A CN 107451617A CN 201710670472 A CN201710670472 A CN 201710670472A CN 107451617 A CN107451617 A CN 107451617A
Authority
CN
China
Prior art keywords
sample
sample point
unmarked
point
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710670472.1A
Other languages
English (en)
Other versions
CN107451617B (zh
Inventor
王娜
王小凤
耿国华
宋倩楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN201710670472.1A priority Critical patent/CN107451617B/zh
Publication of CN107451617A publication Critical patent/CN107451617A/zh
Application granted granted Critical
Publication of CN107451617B publication Critical patent/CN107451617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图转导半监督分类方法,包括以下步骤:步骤一、获取视频图像信息;步骤二、选取视频图像上的已标记点;步骤三、在未标记样本点中选取预选样本点;步骤四、对预选样本点进行分类;步骤五、对未标记样本点进行分类。本发明对未标记样本点进行预选取,然后通过计算样本相似度对预选样本点进行分类,减少预选样本点之间的虚假连接,进而缩减了构图的时间,利用已标记样本点的样本类别和已标记样本点与未标记样本点的样本相似度得出未标记样本点的分类结果,解决了对已标记样本集的依赖性问题,提高分类的精度。

Description

一种图转导半监督分类方法
技术领域
本发明属于数据处理技术领域,具体涉及一种图转导半监督分类方法。
背景技术
目前,监督学习、无监督学习以及半监督学习算法为三大热门学习算法。基于现实中图像、模型等领域具有的海量数据中只有小部分标记样本的现状,充分利用标记数据以及无标记数据进行分类学习,成为更主流的研究方式,这也造就了半监督学习算法在分类算法中炙手可热的地位。半监督学习算法拥有两个分支,即归纳学习算法和转导学习算法,其中,是否生成分类器是两种算法最大的区别。具体而言,归纳学习是利用标记数据和未标记数据学习得到分类器,进而通过分类器进行数据分类的方法,而图转导学习并不需要形成分类器,直接利用整个数据集便可以进行分类。相比而言,图转导算法更为经济。在图转导算法中,聚类假设、流形假设以及局部和全局一致性假设是比较常用的假设方法,其中,聚类假设保障了图转导算法中,数据在相邻位置上相似度较高时,对应节点趋于相似的标记。
目前,国内外已有很多学者对图转导算法进行研究,并提出诸多算法。标签传播算法是图转导算法的基础,通过图的边将标记信息传播到未标记节点,由于图转导算法是基于聚类假设,所以权重大的边比权重小的边标记传播更容易一些,在权重为0的边终止标记传播。在此基础上衍生出调和高斯场、局部与全局一致性、极大极小标签传播算法、最小代价路径标签传播算法等方法。不论是调和高斯场算法还是局部与全局一致性算法都过于依赖初始标记集,若图中含有噪声,或者因为其他因素使得输入数据集不可划分类别时,通过图转导方法得到的分类结果缺乏准确性。因此为了充分利用标记样本点与未标记样本点,提高分类的精度,需要一种图转导半监督分类方法,解决了对初始标记集的依赖性问题,提高了分类准确率。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种图转导半监督分类方法,对未标记样本点进行预选取,然后通过计算样本相似度对预选样本点进行分类,减少预选样本点之间的虚假连接,进而缩减了构图的时间,利用已标记样本点的样本类别和已标记样本点与未标记样本点的样本相似度得出未标记样本点的分类结果,解决了对已标记样本集的依赖性问题,提高分类的精度。
为解决上述技术问题,本发明采用的技术方案是:一种图转导半监督分类方法,其特征在于,该方法包括以下步骤:
步骤一、获取视频图像信息:视频图像传感器采集视频图像并将得到的视频图像传输给计算机,计算机将得到的视频图像存入总样本集X,总样本集X中的样本点个数为n×h,n和h均为不小于2的正整数,
步骤二、选取视频图像上的已标记点:总样本集X中的样本点按类别分为C类,计算机在所述视频图像上选取已标记样本点,已标记样本点包括所述类别中的所有类别,计算机将已标记样本点存入已标记样本集Xl,已标记样本集Xl中的样本点个数为l×h,l为不大于n的正整数,将已标记样本点的样本类别存入已标记样本类别集Yl,将未标记样本点存入未标记样本集Xu,未标记样本集Xu中的样本点的样本类别组成未标记样本类别集Yu,未标记样本集记Xu中的样本点个数为(n-l)×h;
步骤三、在未标记样本点中选取预选样本点:
步骤301、选取未标记样本点的中心样本点:
步骤3011、未标记样本点分类:未标记样本集Xu中的未标记样本点按所述类别分为C类,xji表示未标记样本集Xu中的任意一个未标记样本点, 1≤j≤n-l,1≤i≤h;
步骤3012、选取每类未标记样本点的中心样本点:计算机根据准则函数计算每个未标记样本点xji的准则函数值,A 表示未标记样本集Xu的隶属度矩阵,Aij,s表示未标记样本点xji对中心样本点us的隶属度,xji表示未标记样本集Xu中的任意一个未标记样本点,us表示每一类未标记样本点中的中心样本点,U表示由中心样本点us组成的聚类中心集,U=(u1,...,us,...,uC),1≤s≤C,m表示模糊加权幂指数;
步骤3013:令得到:其中 k≠s,1≤k≤C;
步骤3014:对Aij,s随机赋值,Aij,s的取值满足
步骤3015:将Aij,s的值代入公式得到us;将计算得到的us的值代入公式得到Aij,s
步骤3016:重复步骤3015,直到Aij,s的前后两次计算结果的差值不大于ε,其中ε表示隶属度误差阈值,计算机将此时us的取值存入数据存储器;
步骤302、计算未标记样本点到中心样 本点的距离:计算机计算距离集合D,D=[D1,D2,...,DC],D表示未标记样本集Xu中每一个未标记样本点 xji到每一个中心样本点us的距离集合,Ds表示距离集合D中任意一个距离子集合,
其中Ds表示每一个未标记样本点xji到中心样本点us的距离集合;
步骤303、排序选取:计算机对集合Ds中每列数据按从小到大的顺序进行排序,选择集合Ds中前r行数据对应的未标记样本点xji组成预选样本集 X'u,X'u的大小为r×h,r<n;
步骤四、对预选样本点进行分类:
步骤401、构建训练集:将预选样本集X'u加入已标记样本集Xl中组成训练集X',训练集X'={Xl,X'u},计算机将训练集X'中的样本点存储在数据存储器中,X'的大小为(l+r)×h;
步骤402、计算样本相似度:计算机计算样本相似度为wpq-ab其中xpq表示预选样本集X'u中的任意样本点,xab表示已标记样本集Xl中的任意样本点,1≤p≤r,1≤a≤l,1≤q≤h,1≤b≤h,σ为带宽参数,σ>0;
步骤403、计算传递概率集:计算机根据公式计算样本点xpq将标记信息传递到样本点xab的传递概率Ppq-ab,P表示由传递概率Ppq-ab组成的传递概率集,P的大小为(l+r)×h,将P划分为四个子矩阵,其中1≤e<h;
步骤404:预选样本集X'u对应的样本类别集为预选样本类别集Yu',预选样本类别集Yu'的大小为r×h,训练集X'对应的样本类别集为训练样本类别集 Y',训练样本类别集Y'的大小为(l+r)×h,
步骤405:根据公式Y′(g)=P×Y′(g-1),推导出:Y′u(g)=PreYl(g-1)+PrCY′u(g-1),其中g表示迭代次数,Y′(g)表示第g次迭代后的训练样本类别集, Yl(g)表示第g次迭代后的已标记样本类别集,Y′u(g)表示第g次迭代后的预选样本类别集,对g和Y′u(g-1)赋初值,令g=1,Y′u(g-1)=0;
步骤406、迭代计算Y′u(g),直到Y′u(g)=Y′u(g-1),完成迭代计算,迭代计算完成后的Y′u(g)即为预选样本集X'u对应的样本类别集为Yu',计算机将迭代计算完成后的Y′u(g)保存在数据存储器中;
步骤五、对未标记样本点进行分类:建立未标记样本集为X″u, X″u=X-Xu',未标记样本集X″u中的样本点个数为(n-l-r)×h,未标记样本点xdo表示未标记样本集X″u中的任意一个未标记样本点,其中, 1≤d≤n-l-r,1≤o≤h,计算机根据公式
计算未标记样本点xdo的样本类别f*(xdo),其中,xpi表示训练集X'中的任意一个训练集样本点,ypi表示训练集样本点xpi的样本类别,f(xpi)表示训练集样本点xpi在决策函数f处得到的函数预测值f(xpi),1≤p≤l+r,γ1表示希尔伯特空间函数的复杂度,表示决策函数f在希尔伯特空间的范数, H表示基核,γ2表示几何结构函数的复杂度,Wpi-do表示训练集样本点xpi与未标记样本点xdo的样本相似度。
上述的一种图转导半监督分类方法,其特征在于:步骤三中在未标记样本点中选取预选样本点的方法还包括随机选取。
上述的一种图转导半监督分类方法,其特征在于:所述隶属度误差阈值ε=0.01。
上述的一种图转导半监督分类方法,其特征在于:所述模糊加权幂指数 m=2。
本发明与现有技术相比具有以下优点:
1、本发明对未标记样本点进行排序和预选取,将未标记样本点中含有对分类有用信息的样本点加入到训练集,提高了分类准确性,提高了构图的效率,同时避免了人工参与标注,节省人力和时间投入。
2、本发明通过计算样本相似度对预选样本点进行分类,以样本相似度作为样本点之间转导的依据,并通过迭代的方法对预选样本点进行样本类别分类,减少了预选样本点之间的虚假连接,进而缩减了构图的时间,提高了分类效果。
3、本发明采用半监督的算法,利用已标记样本点的样本类别和已标记样本点与未标记样本点之间的样本相似度计算出未标记样本点的样本类别,解决了由于未标记样本点对已标记样本点的依赖性导致分类精度差的问题,从而提高了未标记样本点的分类精度。
综上所述,本发明对未标记样本点进行预选取,然后通过概率转移矩阵对预选样本点进行分类,减少预选样本点之间的虚假连接,进而缩减了构图的时间,分类器利用训练集中的已标记样本点和未标记样本集中的未标记样本点得出未标记样本点的分类结果,解决了对已标记样本集的依赖性问题,提高分类的精度。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的方法流程图。
图2为本发明图转导半监督分类方法的电路原理框图。
图3为本发明图转导半监督分类方法与传统的图转导方法、GT(R)+SSL 方法和GT(C)+SSL方法的分类结果对比示意图。
附图标记说明:
1—视频图像传感器; 2—计算机; 3—数据存储器。
具体实施方式
如图1和图2所示,本发明包括以下步骤:
步骤一、获取视频图像信息:视频图像传感器1采集视频图像并将得到的视频图像传输给计算机2,计算机2将得到的视频图像存入总样本集X,总样本集X中的样本点个数为n×h,n和h均为不小于2的正整数;
需要说明的是,所述视频图像包括二维彩色图像和二维黑白图像。
步骤二、选取视频图像上的已标记点:总样本集X中的样本点按类别分为C类,计算机2在所述视频图像上选取已标记样本点,已标记样本点包括所述类别中的所有类别,计算机2将已标记样本点存入已标记样本集Xl,已标记样本集Xl中的样本点个数为l×h,l为不大于n的正整数,将已标记样本点的样本类别存入已标记样本类别集Yl,将未标记样本点存入未标记样本集 Xu,未标记样本集Xu中的样本点的样本类别组成未标记样本类别集Yu,未标记样本集记Xu中的样本点个数为(n-l)×h;
实际使用时,以二维彩色图像模型为对象,对二维彩色图像本身进行分类,二维彩色图像中,样本点按类别分为2类,包括背景和目标对象,即C=2,背景样本点的样本类别表示为1,目标对象样本点的样本类别表示为0。在二维彩色图像上以画线方式选取已标记样本点,具体选取结果如下所示:
步骤三、在未标记样本点中选取预选样本点:
步骤301、选取未标记样本点的中心样本点:
步骤3011、未标记样本点分类:未标记样本集Xu中的未标记样本点按所述类别分为C类,xji表示未标记样本集Xu中的任意一个未标记样本点,1≤j≤n-l,1≤i≤h;
需要说明的是,实际使用时,未标记样本点也分为背景样本点和目标对象样本点。
步骤3012、选取每类未标记样本点的中心样本点:计算机2根据准则函数计算每个未标记样本点xji的准则函数值, A表示未标记样本集Xu的隶属度矩阵,Aij,s表示未标记样本点xji对中心样本点us的隶属度,xji表示未标记样本集Xu中的任意一个未标记样本点,us表示每一类未标记样本点中的中心样本点,U表示由中心样本点us组成的聚类中心集,U=(u1,...,us,...,uC),1≤s≤C,m表示模糊加权幂指数;
需要说明的是,当样本点按类别分为背景和目标对象时,计算每类未标记样本点的中心样本点,即是计算背景样本点的中心样本点和目标对象样本点的中心样本点。
步骤3013:令得到:其中 k≠s,1≤k≤C;
步骤3014:对Aij,s随机赋值,Aij,s的取值满足
步骤3015:将Aij,s的值代入公式得到us;将计算得到的us的值代入公式得到Aij,s
步骤3016:重复步骤3015,直到Aij,s的前后两次计算结果的差值不大于ε,其中ε表示隶属度误差阈值,计算机2将此时us的取值存入数据存储器3;
本实施例中,对准则函数J(A,U)求导,即得到us和Aij,s的表达式。然后通过对Aij,s赋初值,计算us,再将计算得到的us作为下一次计算的初值,代入得到下一个Aij,s的值,直到前后两次计算得到的Aij,s的差值不大于0.01,最后一次计算结果的Aij,s值对应的us即为中心样本点,从而得到背景样本点的中心样本点和目标对象样本点的中心样本点。
本实施例中,模糊加权幂指数m=2。
步骤302、计算未标记样本点到中心样本点的距离:计算距离集合D, D=[D1,D2,...,DC],D表示未标记样本集Xu中每一个未标记样本点xji到每一个中心样本点us的距离集合,Ds表示距离集合D中任意一个距离子集合,
其中Ds表示每一个未标记样本点xji到中心样本点us的距离集合;
本实施例中,即是计算每一个未标记样本点距离背景样本点的中心样本点的距离和距离目标对象样本点的中心样本点的距离,距离表示未标记样本点与中心样本点的相关度,距离越小,相关度越大。
步骤303、排序选取:将集合Ds中每列数据按从小到大的顺序进行排序,选择集合Ds中前r行数据对应的未标记样本点xji组成预选样本集X'u,X'u的大小为r×h,r<n;
需要说明的是,将集合Ds中每列数据按从小到大的顺序进行排序,即是将未标记样本点与中心样本点的相关度按照从大到小的顺序排列。选择集合 Ds中前r行数据对应的未标记样本点xji,即是选择了与中心样本点的相关度较大的r×h个未标记样本点。
实际使用时,将集合Ds中每列数据按从大到小的顺序进行排序,选择集合Ds中前25列数据对应的未标记样本点xji组成预选样本集X'u,X'u的大小为25×2,即将预选样本X'u中的100个未标记样本点加入训练集X'中,完成了未标记样本点的预选取。
需要说明的是,步骤三中在未标记样本点中选取预选样本点的方法还包括随机选取。
步骤四、对预选样本点进行分类:
步骤401、构建训练集:将预选样本集X'u加入已标记样本集Xl中组成训练集X',训练集X'={Xl,X'u},计算机2将训练集X'中的样本点存储在数据存储器3中,X'的大小为(l+r)×h;
需要说明的是,训练集X'u中包括已标记样本点和预选样本点,对预选样本点的分类是以已标记样本点和预选样本点之间的样本相似度为依据的。
步骤402、计算样本相似度:计算机2根据公式计算样本相似度为wpq-ab,其中xpq表示预选样本集X'u中的任意样本点,xab表示已标记样本集Xl中的任意样本点,1≤p≤r,1≤a≤l,1≤q≤h,1≤b≤h,σ为带宽参数,σ>0;
步骤403、计算传递概率集:计算机2根据公式计算样本点xpq将标记信息传递到样本点xab的传递概率Ppq-ab,P表示由传递概率Ppq-ab组成的传递概率集,P的大小为(l+r)×h,将P划分为四个子矩阵,其中1≤e<h;
需要说明的是,由于传递概率集P的大小为(l+r)×h,将P划分为四个子矩阵,其中Ple的大小为l×e,Pl(h-e)的大小为l×(h-e),Pre的大小为r×e, Pr(h-e)的大小为r×(h-e)。
步骤404:预选样本集X'u对应的样本类别集为预选样本类别集Yu',预选样本类别集Yu'的大小为r×h,训练集X'对应的样本类别集为训练样本类别集 Y',训练样本类别集Y'的大小为(l+r)×h,
步骤405:根据公式Y′(g)=P×Y′(g-1),推导出:Y′u(g)=PreYl(g-1)+PrCY′u(g-1),其中g表示迭代次数,Y′(g)表示第g次迭代后的训练样本类别集, Yl(g)表示第g次迭代后的已标记样本类别集,Y′u(g)表示第g次迭代后的预选样本类别集,对g和Y′u(g-1)赋初值,令g=1,Y′u(g-1)=0;
需要说明的是,Y′(g)=P×Y′(g-1)的展开式为:计算得到Yl(g)=PleYl(g-1)+Pl(h-e)Y′u(g-1),Y′u(g)=PreYl(g-1)+PrCY′u(g-1),由于 Yl(g)为已知值,所以此处只保留计算Y′u(g)的公式。
步骤406、迭代计算Y′u(g),直到Y′u(g)=Y′u(g-1),完成迭代计算,迭代计算完成后的Y′u(g)即为预选样本集X'u对应的样本类别集为Yu',计算机2将迭代计算完成后的Y′u(g)保存在数据存储器3中;
实际使用时,利用已标记样本集Xl中样本点的样本类型预测预选样本集 X'u中样本点的样本类型,已标记样本集Xl中样本点的样本类型与预选样本集 X'u中样本点的样本类型之间按照样本相似度进行传递,利用样本相似度进行转导计算,两个样本点之间的样本相似度越大,越容易传递,因此减少了样本点之间的虚假连接,进而缩减了构图分类时间。
步骤五、对未标记样本点进行分类:建立未标记样本集为X″u,X″u=X-Xu',未标记样本集X″u中的样本点个数为(n-l-r)×h,未标记样本点xdo表示未标记样本集X″u中的任意一个未标记样本点,其中, 1≤d≤n-l-r,1≤o≤h,计算机2根据公式
计算未标记样本点xdo的样本类别f*(xdo),其中,xpi表示训练集X'中的任意一个训练集样本点,ypi表示训练集样本点xpi的样本类别,f(xpi)表示训练集样本点xpi在决策函数f处得到的函数预测值f(xpi),1≤p≤l+r,γ1表示希尔伯特空间函数的复杂度,表示决策函数f在希尔伯特空间的范数, H表示基核,γ2表示几何结构函数的复杂度,Wpi-do表示训练集样本点xpi与未标记样本点xdo的样本相似度。
确定希尔伯特空间函数的复杂度γ1和几何结构函数的复杂度γ2的取值, lgγ1={-5:1:5},lgγ2={-5:1:5}。采用半监督算法对未标记样本点进行分类,即采用已标记样本点的样本类别和已标记样本点与未标记样本点的样本相似度确定未标记样本点的样本类别。充分利用已标记样本点与未标记样本点,解决了对初始标记集的依赖性问题,提高分类的精度,本发明的图转导半监督分类方法与传统的图转导方法、GT(R)+SSL方法和GT(C)+SSL方法的分类结果如图3所示,其中,方法1表示传统的图转导方法,方法2表示GT(R)+SSL 方法,方法3表示GT(C)+SSL方法,方法4表示本发明的图转导半监督分类方法。通过各分类算法的分类结果与理想分类结果进行直观比较,可以看出本发明的图转导半监督分类方法的分类效果更接近于理想分类效果。
以上所述,仅是本发明的实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。

Claims (4)

1.一种图转导半监督分类方法,其特征在于,该方法包括以下步骤:
步骤一、获取视频图像信息:视频图像传感器(1)采集视频图像并将得到的视频图像传输给计算机(2),计算机(2)将得到的视频图像存入总样本集X,总样本集X中的样本点个数为n×h,n和h均为不小于2的正整数,
步骤二、选取视频图像上的已标记点:总样本集X中的样本点按类别分为C类,计算机(2)在所述视频图像上选取已标记样本点,已标记样本点包括所述类别中的所有类别,计算机(2)将已标记样本点存入已标记样本集Xl,已标记样本集Xl中的样本点个数为l×h,l为不大于n的正整数,将已标记样本点的样本类别存入已标记样本类别集Yl,将未标记样本点存入未标记样本集Xu,未标记样本集Xu中的样本点的样本类别组成未标记样本类别集Yu,未标记样本集记Xu中的样本点个数为(n-l)×h;
步骤三、在未标记样本点中选取预选样本点:
步骤301、选取未标记样本点的中心样本点:
步骤3011、未标记样本点分类:未标记样本集Xu中的未标记样本点按所述类别分为C类,xji表示未标记样本集Xu中的任意一个未标记样本点,1≤j≤n-l,1≤i≤h;
步骤3012、选取每类未标记样本点的中心样本点:计算机(2)根据准则函数计算每个未标记样本点xji的准则函数值,A表示未标记样本集Xu的隶属度矩阵,Aij,s表示未标记样本点xji对中心样本点us的隶属度,xji表示未标记样本集Xu中的任意一个未标记样本点,us表示每一类未标记样本点中的中心样本点,U表示由中心样本点us组成的聚类中心集,U=(u1,...,us,...,uC),1≤s≤C,m表示模糊加权幂指数;
步骤3013:令得到:其中k≠s,1≤k≤C;
步骤3014:对Aij,s随机赋值,Aij,s的取值满足
步骤3015:将Aij,s的值代入公式得到us;将计算得到的us的值代入公式得到Aij,s
步骤3016:重复步骤3015,直到Aij,s的前后两次计算结果的差值不大于ε,其中ε表示隶属度误差阈值,计算机(2)将此时us的取值存入数据存储器(3);
步骤302、计算未标记样本点到中心样本点的距离:计算机(2)计算距离集合D,D=[D1,D2,...,DC],D表示未标记样本集Xu中每一个未标记样本点xji到每一个中心样本点us的距离集合,Ds表示距离集合D中任意一个距离子集合,
其中Ds表示每一个未标记样本点xji到中心样本点us的距离集合;
步骤303、排序选取:计算机(2)对集合Ds中每列数据按从小到大的顺序进行排序,选择集合Ds中前r行数据对应的未标记样本点xji组成预选样本集X'u,X'u的大小为r×h,r<n;
步骤四、对预选样本点进行分类:
步骤401、构建训练集:将预选样本集X'u加入已标记样本集Xl中组成训练集X',训练集X'={Xl,X'u},计算机(2)将训练集X'中的样本点存储在数据存储器(3)中,X'的大小为(l+r)×h;
步骤402、计算样本相似度:计算机(2)根据公式计算样本相似度为wpq-ab,其中xpq表示预选样本集X'u中的任意样本点,xab表示已标记样本集Xl中的任意样本点,1≤p≤r,1≤a≤l,1≤q≤h,1≤b≤h,σ为带宽参数,σ>0;
步骤403、计算传递概率集:计算机(2)根据公式计算样本点xpq将标记信息传递到样本点xab的传递概率Ppq-ab,P表示由传递概率Ppq-ab组成的传递概率集,P的大小为(l+r)×h,将P划分为四个子矩阵,其中Ple的大小为l×e,Pl(h-e)的大小为l×(h-e),Pre的大小为r×e,Pr(h-e)的大小为r×(h-e),其中1≤e<h;
步骤404:预选样本集X'u对应的样本类别集为预选样本类别集Y′u,预选样本类别集Y′u的大小为r×h,训练集X'对应的样本类别集为训练样本类别集Y',训练样本类别集Y'的大小为(l+r)×h,
步骤405:根据公式Y′(g)=P×Y′(g-1),推导出:Y′u(g)=PreYl(g-1)+PrCY′u(g-1),其中g表示迭代次数,Y′(g)表示第g次迭代后的训练样本类别集,Yl(g)表示第g次迭代后的已标记样本类别集,Y′u(g)表示第g次迭代后的预选样本类别集,对g和Y′u(g-1)赋初值,令g=1,Y′u(g-1)=0;
步骤406、迭代计算Y′u(g),直到Y′u(g)=Y′u(g-1),完成迭代计算,迭代计算完成后的Y′u(g)即为预选样本集X'u对应的样本类别集为Y′u,计算机(2)将迭代计算完成后的Y′u(g)保存在数据存储器(3)中;
步骤五、对未标记样本点进行分类:建立未标记样本集为X″u,X″u=X-X′u,未标记样本集X″u中的样本点个数为(n-l-r)×h,未标记样本点xdo表示未标记样本集X″u中的任意一个未标记样本点,其中,1≤d≤n-l-r,1≤o≤h,计算机(2)根据公式
计算未标记样本点xdo的样本类别f*(xdo),其中,xpi表示训练集X'中的任意一个训练集样本点,ypi表示训练集样本点xpi的样本类别,f(xpi)表示训练集样本点xpi在决策函数f处得到的函数预测值f(xpi),1≤p≤l+r,γ1表示希尔伯特空间函数的复杂度,表示决策函数f在希尔伯特空间的范数,H表示基核,γ2表示几何结构函数的复杂度,Wpi-do表示训练集样本点xpi与未标记样本点xdo的样本相似度。
2.按照权利要求1所述的一种图转导半监督分类方法,其特征在于:步骤三中在未标记样本点中选取预选样本点的方法还包括随机选取。
3.按照权利要求1所述的一种图转导半监督分类方法,其特征在于:所述隶属度误差阈值ε=0.01。
4.按照权利要求1所述的一种图转导半监督分类方法,其特征在于:所述模糊加权幂指数m=2。
CN201710670472.1A 2017-08-08 2017-08-08 一种图转导半监督分类方法 Active CN107451617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710670472.1A CN107451617B (zh) 2017-08-08 2017-08-08 一种图转导半监督分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710670472.1A CN107451617B (zh) 2017-08-08 2017-08-08 一种图转导半监督分类方法

Publications (2)

Publication Number Publication Date
CN107451617A true CN107451617A (zh) 2017-12-08
CN107451617B CN107451617B (zh) 2020-08-04

Family

ID=60489564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710670472.1A Active CN107451617B (zh) 2017-08-08 2017-08-08 一种图转导半监督分类方法

Country Status (1)

Country Link
CN (1) CN107451617B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309871A (zh) * 2019-06-27 2019-10-08 西北工业大学深圳研究院 一种基于随机重采样的半监督学习图像分类方法
CN111079147A (zh) * 2019-12-17 2020-04-28 厦门服云信息科技有限公司 一种基于主动学习的病毒检测方法、终端设备及存储介质
CN112580673A (zh) * 2019-09-27 2021-03-30 中国石油化工股份有限公司 基于空间概率分布的地震储层样本扩展方法和装置
CN115174251A (zh) * 2022-07-19 2022-10-11 深信服科技股份有限公司 一种安全告警的误报识别方法、装置以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515369A (zh) * 2009-04-02 2009-08-26 西安电子科技大学 基于半监督学习的多尺度sar图像分割方法
CN101751666A (zh) * 2009-10-16 2010-06-23 西安电子科技大学 基于谱聚类的半监督多光谱遥感图像分割方法
CN103093199A (zh) * 2013-01-15 2013-05-08 中国科学院自动化研究所 基于在线识别的特定人脸跟踪方法
CN103150580A (zh) * 2013-03-18 2013-06-12 武汉大学 一种高光谱图像半监督分类方法及装置
US20140204092A1 (en) * 2012-04-09 2014-07-24 The Regents Of The University Of California Classification of high dimensional data
US20140258196A1 (en) * 2013-03-07 2014-09-11 International Business Machines Corporation System and method for using graph transduction techniques to make relational classifications on a single connected network
CN104504393A (zh) * 2014-12-04 2015-04-08 西安电子科技大学 基于集成学习的极化sar图像半监督分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515369A (zh) * 2009-04-02 2009-08-26 西安电子科技大学 基于半监督学习的多尺度sar图像分割方法
CN101751666A (zh) * 2009-10-16 2010-06-23 西安电子科技大学 基于谱聚类的半监督多光谱遥感图像分割方法
US20140204092A1 (en) * 2012-04-09 2014-07-24 The Regents Of The University Of California Classification of high dimensional data
CN103093199A (zh) * 2013-01-15 2013-05-08 中国科学院自动化研究所 基于在线识别的特定人脸跟踪方法
US20140258196A1 (en) * 2013-03-07 2014-09-11 International Business Machines Corporation System and method for using graph transduction techniques to make relational classifications on a single connected network
US20160203417A1 (en) * 2013-03-07 2016-07-14 International Business Machines Corporation System and method for using graph transduction techniques to make relational classifications on a single connected network
CN103150580A (zh) * 2013-03-18 2013-06-12 武汉大学 一种高光谱图像半监督分类方法及装置
CN104504393A (zh) * 2014-12-04 2015-04-08 西安电子科技大学 基于集成学习的极化sar图像半监督分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIPING JING等: ""Semi-supervised Low-Rank Mapping Learning for Multi-label Classification"", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
吴广潮: ""基于聚类特征树的大规模分类算法研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309871A (zh) * 2019-06-27 2019-10-08 西北工业大学深圳研究院 一种基于随机重采样的半监督学习图像分类方法
CN112580673A (zh) * 2019-09-27 2021-03-30 中国石油化工股份有限公司 基于空间概率分布的地震储层样本扩展方法和装置
CN112580673B (zh) * 2019-09-27 2024-04-12 中国石油化工股份有限公司 基于空间概率分布的地震储层样本扩展方法和装置
CN111079147A (zh) * 2019-12-17 2020-04-28 厦门服云信息科技有限公司 一种基于主动学习的病毒检测方法、终端设备及存储介质
CN115174251A (zh) * 2022-07-19 2022-10-11 深信服科技股份有限公司 一种安全告警的误报识别方法、装置以及存储介质
CN115174251B (zh) * 2022-07-19 2023-09-05 深信服科技股份有限公司 一种安全告警的误报识别方法、装置以及存储介质

Also Published As

Publication number Publication date
CN107451617B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN104966104B (zh) 一种基于三维卷积神经网络的视频分类方法
CN111199214B (zh) 一种残差网络多光谱图像地物分类方法
CN108364016A (zh) 基于多分类器的渐进式半监督分类方法
CN103559504B (zh) 图像目标类别识别方法及装置
CN100557626C (zh) 基于免疫谱聚类的图像分割方法
CN103207910B (zh) 基于分层特征和遗传规划相关反馈的图像检索方法
CN103942571B (zh) 一种基于遗传规划算法的图形图像分类方法
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN107451617A (zh) 一种图转导半监督分类方法
CN106407352A (zh) 基于深度学习的交通图像检索方法
CN109753995A (zh) 一种基于3d目标分类和场景语义分割的网络优化结构
CN105243139A (zh) 一种基于深度学习的三维模型检索方法及其检索装置
CN112347970A (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN107947921A (zh) 基于递归神经网络和概率上下文无关文法的密码生成系统
CN102750286A (zh) 一种处理缺失数据的新型决策树分类器方法
CN101276420A (zh) 一种融合光谱信息和多点模拟空间信息的分类方法
CN109711401A (zh) 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN109829065B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
WO2023019698A1 (zh) 基于富上下文网络的高光谱图像分类方法
CN107516103A (zh) 一种影像分类方法和系统
CN104731882A (zh) 一种基于哈希编码加权排序的自适应查询方法
CN104008177B (zh) 面向图像语义标注的规则库结构优化与生成方法及系统
CN113052254A (zh) 多重注意力幽灵残差融合分类模型及其分类方法
CN109902808A (zh) 一种基于浮点数位变异遗传算法优化卷积神经网络的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant