CN107451617B - 一种图转导半监督分类方法 - Google Patents
一种图转导半监督分类方法 Download PDFInfo
- Publication number
- CN107451617B CN107451617B CN201710670472.1A CN201710670472A CN107451617B CN 107451617 B CN107451617 B CN 107451617B CN 201710670472 A CN201710670472 A CN 201710670472A CN 107451617 B CN107451617 B CN 107451617B
- Authority
- CN
- China
- Prior art keywords
- sample
- unlabeled
- equal
- points
- sample points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000026683 transduction Effects 0.000 title claims abstract description 32
- 238000010361 transduction Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 5
- 239000003550 marker Substances 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 239000000470 constituent Substances 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 3
- 238000004904 shortening Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种图转导半监督分类方法,包括以下步骤:步骤一、获取视频图像信息;步骤二、选取视频图像上的已标记点;步骤三、在未标记样本点中选取预选样本点;步骤四、对预选样本点进行分类;步骤五、对未标记样本点进行分类。本发明对未标记样本点进行预选取,然后通过计算样本相似度对预选样本点进行分类,减少预选样本点之间的虚假连接,进而缩减了构图的时间,利用已标记样本点的样本类别和已标记样本点与未标记样本点的样本相似度得出未标记样本点的分类结果,解决了对已标记样本集的依赖性问题,提高分类的精度。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种图转导半监督分类方法。
背景技术
目前,监督学习、无监督学习以及半监督学习算法为三大热门学习算 法。基于现实中图像、模型等领域具有的海量数据中只有小部分标记样本 的现状,充分利用标记数据以及无标记数据进行分类学习,成为更主流的 研究方式,这也造就了半监督学习算法在分类算法中炙手可热的地位。半 监督学习算法拥有两个分支,即归纳学习算法和转导学习算法,其中,是 否生成分类器是两种算法最大的区别。具体而言,归纳学习是利用标记数 据和未标记数据学习得到分类器,进而通过分类器进行数据分类的方法, 而图转导学习并不需要形成分类器,直接利用整个数据集便可以进行分 类。相比而言,图转导算法更为经济。在图转导算法中,聚类假设、流形 假设以及局部和全局一致性假设是比较常用的假设方法,其中,聚类假设 保障了图转导算法中,数据在相邻位置上相似度较高时,对应节点趋于相 似的标记。
目前,国内外已有很多学者对图转导算法进行研究,并提出诸多算法。 标签传播算法是图转导算法的基础,通过图的边将标记信息传播到未标记节 点,由于图转导算法是基于聚类假设,所以权重大的边比权重小的边标记传 播更容易一些,在权重为0的边终止标记传播。在此基础上衍生出调和高斯 场、局部与全局一致性、极大极小标签传播算法、最小代价路径标签传播算 法等方法。不论是调和高斯场算法还是局部与全局一致性算法都过于依赖初 始标记集,若图中含有噪声,或者因为其他因素使得输入数据集不可划分类别时,通过图转导方法得到的分类结果缺乏准确性。因此为了充分利用标记 样本点与未标记样本点,提高分类的精度,需要一种图转导半监督分类方法, 解决了对初始标记集的依赖性问题,提高了分类准确率。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种 图转导半监督分类方法,对未标记样本点进行预选取,然后通过计算样本 相似度对预选样本点进行分类,减少预选样本点之间的虚假连接,进而缩 减了构图的时间,利用已标记样本点的样本类别和已标记样本点与未标记样 本点的样本相似度得出未标记样本点的分类结果,解决了对已标记样本集的 依赖性问题,提高分类的精度。
为解决上述技术问题,本发明采用的技术方案是:一种图转导半监督 分类方法,其特征在于,该方法包括以下步骤:
步骤一、获取视频图像信息:视频图像传感器采集视频图像并将得到的 视频图像传输给计算机,计算机将得到的视频图像存入总样本集X,总样本 集X中的样本点个数为n×h,n和h均为不小于2的正整数,
步骤二、选取视频图像上的已标记点:总样本集X中的样本点按类别分 为C类,计算机在所述视频图像上选取已标记样本点,已标记样本点包括所 述类别中的所有类别,计算机将已标记样本点存入已标记样本集Xl,已标记 样本集Xl中的样本点个数为l×h,l为不大于n的正整数,将已标记样本点的 样本类别存入已标记样本类别集Yl,将未标记样本点存入未标记样本集Xu, 未标记样本集Xu中的样本点的样本类别组成未标记样本类别集Yu,未标记样 本集记Xu中的样本点个数为(n-l)×h;
步骤三、在未标记样本点中选取预选样本点:
步骤301、选取未标记样本点的中心样本点:
步骤3011、未标记样本点分类:未标记样本集Xu中的未标记样本点按所 述类别分为C类,xji表示未标记样本集Xu中的任意一个未标记样本点, 1≤j≤n-l,1≤i≤h;
步骤3012、选取每类未标记样本点的中心样本点:计算机根据准则函数计算每个未标记样本点xji的准则函数值,A 表示未标记样本集Xu的隶属度矩阵,Aij,s表示未标记样本点xji对中心样本 点us的隶属度,xji表示未标记样本集Xu中的任意一个未标记样本点,us表 示每一类未标记样本点中的中心样本点,U表示由中心样本点us组成的聚类 中心集,U=(u1,...,us,...,uC),1≤s≤C,m表示模糊加权幂指数;
步骤3016:重复步骤3015,直到Aij,s的前后两次计算结果的差值不大于 ε,其中ε表示隶属度误差阈值,计算机将此时us的取值存入数据存储器;
步骤302、计算未标记样本点到中心样本点的距离:计算机计算距离集 合D,D=[D1,D2,...,DC],D表示未标记样本集Xu中每一个未标记样本点 xji到每一个中心样本点us的距离集合,Ds表示距离集合D中任意一个距离 子集合,其中Ds表示每一 个未标记样本点xji到中心样本点us的距离集合;
步骤303、排序选取:计算机对集合Ds中每列数据按从小到大的顺序进 行排序,选择集合Ds中前r行数据对应的未标记样本点xji组成预选样本集 X'u,X'u的大小为r×h,r<n;
步骤四、对预选样本点进行分类:
步骤401、构建训练集:将预选样本集X'u加入已标记样本集Xl中组成训 练集X',训练集X'={Xl,X'u},计算机将训练集X'中的样本点存储在数据存 储器中,X'的大小为(l+r)×h;
步骤402、计算样本相似度:计算机计算样本相似度为wpq-ab,其中xpq表示预选样本集X'u中的任意样本点,xab表 示已标记样本集Xl中的任意样本点,1≤p≤r,1≤a≤l,1≤q≤h,1≤b≤h,σ 为带宽参数,σ>0;
步骤403、计算传递概率集:计算机根据公式计算 样本点xpq将标记信息传递到样本点xab的传递概率Ppq-ab,P表示由传递概 率Ppq-ab组成的传递概率集,P的大小为(l+r)×h,将P划分为四个子矩阵, 其中1≤e<h;
步骤405:根据公式Y′(g)=P×Y′(g-1),推导出:Y′u(g)=PreYl(g-1)+PrCY′u(g-1), 其中g表示迭代次数,Y′(g)表示第g次迭代后的训练样本类别集, Yl(g)表示第g次迭代后的已标记样本类别集,Y′u(g)表示第g次迭代后的预选样 本类别集,对g和Y′u(g-1)赋初值,令g=1,Y′u(g-1)=0;
步骤406、迭代计算Y′u(g),直到Y′u(g)=Y′u(g-1),完成迭代计算,迭代计 算完成后的Y′u(g)即为预选样本集X'u对应的样本类别集为Yu',计算机将迭代计 算完成后的Y′u(g)保存在数据存储器中;
步骤五、对未标记样本点进行分类:建立未标记样本集为X″u, X″u=X-Xu',未标记样本集X″u中的样本点个数为(n-l-r)×h,未标记样本 点xdo表示未标记样本集X″u中的任意一个未标记样本点,其中, 1≤d≤n-l-r,1≤o≤h,计算机根据公式计算未标记样本点xdo的样本类别f*(xdo),其中,xpi表示训练集X'中的任意 一个训练集样本点,ypi表示训练集样本点xpi的样本类别,f(xpi)表示训练 集样本点xpi在决策函数f处得到的函数预测值f(xpi),1≤p≤l+r,γ1表示 希尔伯特空间函数的复杂度,表示决策函数f在希尔伯特空间的范数, H表示基核,γ2表示几何结构函数的复杂度,Wpi-do表示训练集样本点xpi与 未标记样本点xdo的样本相似度。
上述的一种图转导半监督分类方法,其特征在于:步骤三中在未标记样 本点中选取预选样本点的方法还包括随机选取。
上述的一种图转导半监督分类方法,其特征在于:所述隶属度误差阈值 ε=0.01。
上述的一种图转导半监督分类方法,其特征在于:所述模糊加权幂指数 m=2。
本发明与现有技术相比具有以下优点:
1、本发明对未标记样本点进行排序和预选取,将未标记样本点中含有 对分类有用信息的样本点加入到训练集,提高了分类准确性,提高了构图的 效率,同时避免了人工参与标注,节省人力和时间投入。
2、本发明通过计算样本相似度对预选样本点进行分类,以样本相似 度作为样本点之间转导的依据,并通过迭代的方法对预选样本点进行样本 类别分类,减少了预选样本点之间的虚假连接,进而缩减了构图的时间, 提高了分类效果。
3、本发明采用半监督的算法,利用已标记样本点的样本类别和已标记 样本点与未标记样本点之间的样本相似度计算出未标记样本点的样本类别, 解决了由于未标记样本点对已标记样本点的依赖性导致分类精度差的问题, 从而提高了未标记样本点的分类精度。
综上所述,本发明对未标记样本点进行预选取,然后通过概率转移矩 阵对预选样本点进行分类,减少预选样本点之间的虚假连接,进而缩减了 构图的时间,分类器利用训练集中的已标记样本点和未标记样本集中的未标 记样本点得出未标记样本点的分类结果,解决了对已标记样本集的依赖性问 题,提高分类的精度。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的方法流程图。
图2为本发明图转导半监督分类方法的电路原理框图。
图3为本发明图转导半监督分类方法与传统的图转导方法、GT(R)+SSL 方法和GT(C)+SSL方法的分类结果对比示意图。
附图标记说明:
1—视频图像传感器; 2—计算机; 3—数据存储器。
具体实施方式
如图1和图2所示,本发明包括以下步骤:
步骤一、获取视频图像信息:视频图像传感器1采集视频图像并将得到 的视频图像传输给计算机2,计算机2将得到的视频图像存入总样本集X, 总样本集X中的样本点个数为n×h,n和h均为不小于2的正整数;
需要说明的是,所述视频图像包括二维彩色图像和二维黑白图像。
步骤二、选取视频图像上的已标记点:总样本集X中的样本点按类别分 为C类,计算机2在所述视频图像上选取已标记样本点,已标记样本点包括 所述类别中的所有类别,计算机2将已标记样本点存入已标记样本集Xl,已 标记样本集Xl中的样本点个数为l×h,l为不大于n的正整数,将已标记样本 点的样本类别存入已标记样本类别集Yl,将未标记样本点存入未标记样本集 Xu,未标记样本集Xu中的样本点的样本类别组成未标记样本类别集Yu,未标 记样本集记Xu中的样本点个数为(n-l)×h;
实际使用时,以二维彩色图像模型为对象,对二维彩色图像本身进行 分类,二维彩色图像中,样本点按类别分为2类,包括背景和目标对象, 即C=2,背景样本点的样本类别表示为1,目标对象样本点的样本类别表 示为0。在二维彩色图像上以画线方式选取已标记样本点,具体选取结果 如下所示:
步骤三、在未标记样本点中选取预选样本点:
步骤301、选取未标记样本点的中心样本点:
步骤3011、未标记样本点分类:未标记样本集Xu中的未标记样本点按所 述类别分为C类,xji表示未标记样本集Xu中的任意一个未标记样本点,1≤j≤n-l,1≤i≤h;
需要说明的是,实际使用时,未标记样本点也分为背景样本点和目标对 象样本点。
步骤3012、选取每类未标记样本点的中心样本点:计算机2根据准则函 数计算每个未标记样本点xji的准则函数值, A表示未标记样本集Xu的隶属度矩阵,Aij,s表示未标记样本点xji对中心样 本点us的隶属度,xji表示未标记样本集Xu中的任意一个未标记样本点,us表示每一类未标记样本点中的中心样本点,U表示由中心样本点us组成的聚 类中心集,U=(u1,...,us,...,uC),1≤s≤C,m表示模糊加权幂指数;
需要说明的是,当样本点按类别分为背景和目标对象时,计算每类未 标记样本点的中心样本点,即是计算背景样本点的中心样本点和目标对象样 本点的中心样本点。
步骤3016:重复步骤3015,直到Aij,s的前后两次计算结果的差值不大于 ε,其中ε表示隶属度误差阈值,计算机2将此时us的取值存入数据存储器3;
本实施例中,对准则函数J(A,U)求导,即得到us和Aij,s的表达式。然 后通过对Aij,s赋初值,计算us,再将计算得到的us作为下一次计算的初值, 代入得到下一个Aij,s的值,直到前后两次计 算得到的Aij,s的差值不大于0.01,最后一次计算结果的Aij,s值对应的us即为 中心样本点,从而得到背景样本点的中心样本点和目标对象样本点的中心样 本点。
本实施例中,模糊加权幂指数m=2。
步骤302、计算未标记样本点到中心样本点的距离:计算距离集合D, D=[D1,D2,...,DC],D表示未标记样本集Xu中每一个未标记样本点xji到每 一个中心样本点us的距离集合,Ds表示距离集合D中任意一个距离子集合,其中Ds表示每一个未标记 样本点xji到中心样本点us的距离集合;
本实施例中,即是计算每一个未标记样本点距离背景样本点的中心样本 点的距离和距离目标对象样本点的中心样本点的距离,距离表示未标记样本 点与中心样本点的相关度,距离越小,相关度越大。
步骤303、排序选取:将集合Ds中每列数据按从小到大的顺序进行排序, 选择集合Ds中前r行数据对应的未标记样本点xji组成预选样本集X'u,X'u的 大小为r×h,r<n;
需要说明的是,将集合Ds中每列数据按从小到大的顺序进行排序,即是 将未标记样本点与中心样本点的相关度按照从大到小的顺序排列。选择集合 Ds中前r行数据对应的未标记样本点xji,即是选择了与中心样本点的相关度 较大的r×h个未标记样本点。
实际使用时,将集合Ds中每列数据按从大到小的顺序进行排序,选择集 合Ds中前25列数据对应的未标记样本点xji组成预选样本集X'u,X'u的大小 为25×2,即将预选样本X'u中的100个未标记样本点加入训练集X'中,完成 了未标记样本点的预选取。
需要说明的是,步骤三中在未标记样本点中选取预选样本点的方法还包 括随机选取。
步骤四、对预选样本点进行分类:
步骤401、构建训练集:将预选样本集X'u加入已标记样本集Xl中组成训 练集X',训练集X'={Xl,X'u},计算机2将训练集X'中的样本点存储在数据 存储器3中,X'的大小为(l+r)×h;
需要说明的是,训练集X'u中包括已标记样本点和预选样本点,对预选样 本点的分类是以已标记样本点和预选样本点之间的样本相似度为依据的。
步骤402、计算样本相似度:计算机2根据公式计 算样本相似度为wpq-ab,其中xpq表示预选样本集X'u中的任意样本点,xab表 示已标记样本集Xl中的任意样本点,1≤p≤r,1≤a≤l,1≤q≤h,1≤b≤h,σ 为带宽参数,σ>0;
步骤403、计算传递概率集:计算机2根据公式计 算样本点xpq将标记信息传递到样本点xab的传递概率Ppq-ab,P表示由传递 概率Ppq-ab组成的传递概率集,P的大小为(l+r)×h,将P划分为四个子矩阵, 其中1≤e<h;
需要说明的是,由于传递概率集P的大小为(l+r)×h,将P划分为四个 子矩阵,其中Ple的大小为l×e,Pl(h-e)的大小为l×(h-e),Pre的大小为r×e, Pr(h-e)的大小为r×(h-e)。
步骤405:根据公式Y′(g)=P×Y′(g-1),推导出:Y′u(g)=PreYl(g-1)+PrCY′u(g-1), 其中g表示迭代次数,Y′(g)表示第g次迭代后的训练样本类别集, Yl(g)表示第g次迭代后的已标记样本类别集,Y′u(g)表示第g次迭代后的预选样 本类别集,对g和Y′u(g-1)赋初值,令g=1,Y′u(g-1)=0;
需要说明的是,Y′(g)=P×Y′(g-1)的展开式为:计算得到Yl(g)=PleYl(g-1)+Pl(h-e)Y′u(g-1),Y′u(g)=PreYl(g-1)+PrCY′u(g-1),由于 Yl(g)为已知值,所以此处只保留计算Y′u(g)的公式。
步骤406、迭代计算Y′u(g),直到Y′u(g)=Y′u(g-1),完成迭代计算,迭代计 算完成后的Y′u(g)即为预选样本集X'u对应的样本类别集为Yu',计算机2将迭代 计算完成后的Y′u(g)保存在数据存储器3中;
实际使用时,利用已标记样本集Xl中样本点的样本类型预测预选样本集 X'u中样本点的样本类型,已标记样本集Xl中样本点的样本类型与预选样本集 X'u中样本点的样本类型之间按照样本相似度进行传递,利用样本相似度进行 转导计算,两个样本点之间的样本相似度越大,越容易传递,因此减少了样 本点之间的虚假连接,进而缩减了构图分类时间。
步骤五、对未标记样本点进行分类:建立未标记样本集为X″u, X″u=Xu-X′u,未标记样本集X″u中的样本点个数为(n-l-r)×h,未标记样本 点xdo表示未标记样本集X″u中的任意一个未标记样本点,其中, 1≤d≤n-l-r,1≤o≤h,计算机2根据公式
计算未标记样本点xdo的样本类别f*(xdo),其中,xpi表示训练集X'中的任意 一个训练集样本点,ypi表示训练集样本点xpi的样本类别,f(xpi)表示训练 集样本点xpi在决策函数f处得到的函数预测值f(xpi),1≤p≤l+r,γ1表示 希尔伯特空间函数的复杂度,表示决策函数f在希尔伯特空间的范数, H表示基核,γ2表示几何结构函数的复杂度,Wpi-do表示训练集样本点xpi与 未标记样本点xdo的样本相似度。
确定希尔伯特空间函数的复杂度γ1和几何结构函数的复杂度γ2的取值, lgγ1={-5:1:5},lgγ2={-5:1:5}。采用半监督算法对未标记样本点进行分类,即 采用已标记样本点的样本类别和已标记样本点与未标记样本点的样本相似度 确定未标记样本点的样本类别。充分利用已标记样本点与未标记样本点,解 决了对初始标记集的依赖性问题,提高分类的精度,本发明的图转导半监督 分类方法与传统的图转导方法、GT(R)+SSL方法和GT(C)+SSL方法的分类结 果如图3所示,其中,方法1表示传统的图转导方法,方法2表示GT(R)+SSL 方法,方法3表示GT(C)+SSL方法,方法4表示本发明的图转导半监督分 类方法。通过各分类算法的分类结果与理想分类结果进行直观比较,可以 看出本发明的图转导半监督分类方法的分类效果更接近于理想分类效果。
以上所述,仅是本发明的实施例,并非对本发明作任何限制,凡是根 据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构 变化,均仍属于本发明技术方案的保护范围内。
Claims (4)
1.一种图转导半监督分类方法,其特征在于,该方法包括以下步骤:
步骤一、获取视频图像信息:视频图像传感器(1)采集视频图像并将得到的视频图像传输给计算机(2),计算机(2)将得到的视频图像存入总样本集X,总样本集X中的样本点个数为n×h,n和h均为不小于2的正整数,
步骤二、选取视频图像上的已标记点:总样本集X中的样本点按类别分为C类,计算机(2)在所述视频图像上选取已标记样本点,已标记样本点包括所述类别中的所有类别,计算机(2)将已标记样本点存入已标记样本集Xl,已标记样本集Xl中的样本点个数为l×h,l为不大于n的正整数,将已标记样本点的样本类别存入已标记样本类别集Yl,将未标记样本点存入未标记样本集Xu,未标记样本集Xu中的样本点的样本类别组成未标记样本类别集Yu,未标记样本集记Xu中的样本点个数为(n-l)×h;
步骤三、在未标记样本点中选取预选样本点:
步骤301、选取未标记样本点的中心样本点:
步骤3011、未标记样本点分类:未标记样本集Xu中的未标记样本点按所述类别分为C类,xji表示未标记样本集Xu中的任意一个未标记样本点,1≤j≤n-l,1≤i≤h;
步骤3012、选取每类未标记样本点的中心样本点:计算机(2)根据准则函数计算每个未标记样本点xji的准则函数值,A表示未标记样本集Xu的隶属度矩阵,Aij,s表示未标记样本点xji对中心样本点us的隶属度,xji表示未标记样本集Xu中的任意一个未标记样本点,us表示每一类未标记样本点中的中心样本点,U表示由中心样本点us组成的聚类中心集,U=(u1,...,us,...,uC),1≤s≤C,m表示模糊加权幂指数;
步骤3016:重复步骤3015,直到Aij,s的前后两次计算结果的差值不大于ε,其中ε表示隶属度误差阈值,计算机(2)将此时us的取值存入数据存储器(3);
步骤302、计算未标记样本点到中心样本点的距离:计算机(2)计算距离集合D,D=[D1,D2,...,DC],D表示未标记样本集Xu中每一个未标记样本点xji到每一个中心样本点us的距离集合,Ds表示距离集合D中任意一个距离子集合,其中Ds表示每一个未标记样本点xji到中心样本点us的距离集合;
步骤303、排序选取:计算机(2)对集合Ds中每列数据按从小到大的顺序进行排序,选择集合Ds中前r行数据对应的未标记样本点xji组成预选样本集X′u,X′u的大小为r×h,r<n;
步骤四、对预选样本点进行分类:
步骤401、构建训练集:将预选样本集X′u加入已标记样本集Xl中组成训练集X',训练集X'={Xl,X′u},计算机(2)将训练集X'中的样本点存储在数据存储器(3)中,X'的大小为(l+r)×h;
步骤402、计算样本相似度:计算机(2)根据公式计算样本相似度为wpq-ab,其中xpq表示预选样本集X′u中的任意样本点,xab表示已标记样本集Xl中的任意样本点,1≤p≤r,1≤a≤l,1≤q≤h,1≤b≤h,σ为带宽参数,σ>0;
步骤403、计算传递概率集:计算机(2)根据公式计算样本点xpq将标记信息传递到样本点xab的传递概率Ppq-ab,P表示由传递概率Ppq-ab组成的传递概率集,P的大小为(l+r)×h,将P划分为四个子矩阵,其中Ple的大小为l×e,Pl(h-e)的大小为l×(h-e),Pre的大小为r×e,Pr(h-e)的大小为r×(h-e),其中1≤e<h;
步骤405:根据公式Y′(g)=P×Y′(g-1),推导出:Y′u(g)=PreYl(g-1)+PrCY′u(g-1),其中g表示迭代次数,Y′(g)表示第g次迭代后的训练样本类别集,Yl(g)表示第g次迭代后的已标记样本类别集,Y′u(g)表示第g次迭代后的预选样本类别集,对g和Y′u(g-1)赋初值,令g=1,Y′u(g-1)=0;
步骤406、迭代计算Y′u(g),直到Y′u(g)=Y′u(g-1),完成迭代计算,迭代计算完成后的Y′u(g)即为预选样本集X′u对应的样本类别集为Y′u,计算机(2)将迭代计算完成后的Y′u(g)保存在数据存储器(3)中;
步骤五、对未标记样本点进行分类:建立未标记样本集为X″u,X″u=Xu-X′u,未标记样本集X″u中的样本点个数为(n-l-r)×h,未标记样本点xdo表示未标记样本集X″u中的任意一个未标记样本点,其中,1≤d≤n-l-r,1≤o≤h,计算机(2)根据公式计算未标记样本点xdo的样本类别f*(xdo),其中,xpi表示训练集X'中的任意一个训练集样本点,ypi表示训练集样本点xpi的样本类别,f(xpi)表示训练集样本点xpi在决策函数f处得到的函数预测值f(xpi),1≤p≤l+r,γ1表示希尔伯特空间函数的复杂度,表示决策函数f在希尔伯特空间的范数,H表示基核,γ2表示几何结构函数的复杂度,Wpi-do表示训练集样本点xpi与未标记样本点xdo的样本相似度。
2.按照权利要求1所述的一种图转导半监督分类方法,其特征在于:步骤三中在未标记样本点中选取预选样本点的方法还包括随机选取。
3.按照权利要求1所述的一种图转导半监督分类方法,其特征在于:所述隶属度误差阈值ε=0.01。
4.按照权利要求1所述的一种图转导半监督分类方法,其特征在于:所述模糊加权幂指数m=2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710670472.1A CN107451617B (zh) | 2017-08-08 | 2017-08-08 | 一种图转导半监督分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710670472.1A CN107451617B (zh) | 2017-08-08 | 2017-08-08 | 一种图转导半监督分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107451617A CN107451617A (zh) | 2017-12-08 |
CN107451617B true CN107451617B (zh) | 2020-08-04 |
Family
ID=60489564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710670472.1A Expired - Fee Related CN107451617B (zh) | 2017-08-08 | 2017-08-08 | 一种图转导半监督分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107451617B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309871A (zh) * | 2019-06-27 | 2019-10-08 | 西北工业大学深圳研究院 | 一种基于随机重采样的半监督学习图像分类方法 |
CN112580673B (zh) * | 2019-09-27 | 2024-04-12 | 中国石油化工股份有限公司 | 基于空间概率分布的地震储层样本扩展方法和装置 |
CN111079147A (zh) * | 2019-12-17 | 2020-04-28 | 厦门服云信息科技有限公司 | 一种基于主动学习的病毒检测方法、终端设备及存储介质 |
CN115174251B (zh) * | 2022-07-19 | 2023-09-05 | 深信服科技股份有限公司 | 一种安全告警的误报识别方法、装置以及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101515369B (zh) * | 2009-04-02 | 2010-12-29 | 西安电子科技大学 | 基于半监督学习的多尺度sar图像分割方法 |
CN101751666A (zh) * | 2009-10-16 | 2010-06-23 | 西安电子科技大学 | 基于谱聚类的半监督多光谱遥感图像分割方法 |
US20140204092A1 (en) * | 2012-04-09 | 2014-07-24 | The Regents Of The University Of California | Classification of high dimensional data |
CN103093199B (zh) * | 2013-01-15 | 2015-09-23 | 中国科学院自动化研究所 | 基于在线识别的特定人脸跟踪方法 |
US9355367B2 (en) * | 2013-03-07 | 2016-05-31 | International Business Machines Corporation | System and method for using graph transduction techniques to make relational classifications on a single connected network |
CN103150580B (zh) * | 2013-03-18 | 2016-03-30 | 武汉大学 | 一种高光谱图像半监督分类方法及装置 |
CN104504393B (zh) * | 2014-12-04 | 2018-01-05 | 西安电子科技大学 | 基于集成学习的极化sar图像半监督分类方法 |
-
2017
- 2017-08-08 CN CN201710670472.1A patent/CN107451617B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN107451617A (zh) | 2017-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489358B (zh) | 一种基于深度学习的三维点云语义分割方法 | |
CN109493346B (zh) | 一种基于多损失的胃癌病理切片图像分割方法和装置 | |
CN109948029B (zh) | 基于神经网络自适应的深度哈希图像搜索方法 | |
CN110837836B (zh) | 基于最大化置信度的半监督语义分割方法 | |
CN107229757B (zh) | 基于深度学习和哈希编码的视频检索方法 | |
CN107451617B (zh) | 一种图转导半监督分类方法 | |
CN107391512B (zh) | 知识图谱预测的方法和装置 | |
CN103839261B (zh) | 基于分解进化多目标优化和fcm的sar图像分割方法 | |
CN103942571B (zh) | 一种基于遗传规划算法的图形图像分类方法 | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
CN110443257B (zh) | 一种基于主动学习的显著性检测方法 | |
WO2020238039A1 (zh) | 神经网络搜索方法及装置 | |
WO2023087953A1 (zh) | 搜索神经网络集成模型的方法、装置和电子设备 | |
CN111027140A (zh) | 基于多视角点云数据的飞机标准件模型快速重构方法 | |
CN114219824A (zh) | 基于深度网络的可见光-红外目标跟踪方法及系统 | |
CN112365511A (zh) | 基于重叠区域检索与对齐的点云分割方法 | |
CN116049467A (zh) | 一种基于标签视觉联合感知的无监督图像检索方法和系统 | |
CN111553296B (zh) | 一种基于fpga实现的二值神经网络立体视觉匹配方法 | |
CN112861659A (zh) | 一种图像模型训练方法、装置及电子设备、存储介质 | |
CN112364747A (zh) | 一种有限样本下的目标检测方法 | |
CN115116139A (zh) | 基于图卷积网络的多粒度人体动作分类方法 | |
CN114782503A (zh) | 一种基于多尺度特征相似度约束的点云配准方法及系统 | |
Liu et al. | Progressive context-dependent inference for object detection in remote sensing imagery | |
CN110197213A (zh) | 基于神经网络的图像匹配方法、装置和设备 | |
CN117274754A (zh) | 梯度匀质化的点云多任务融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200804 |