CN104933442A - 一种基于最小代价路径进行图像标签传播的方法 - Google Patents
一种基于最小代价路径进行图像标签传播的方法 Download PDFInfo
- Publication number
- CN104933442A CN104933442A CN201510333195.6A CN201510333195A CN104933442A CN 104933442 A CN104933442 A CN 104933442A CN 201510333195 A CN201510333195 A CN 201510333195A CN 104933442 A CN104933442 A CN 104933442A
- Authority
- CN
- China
- Prior art keywords
- data sample
- node
- view data
- unmarked
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000001902 propagating effect Effects 0.000 title abstract description 4
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims description 12
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 241001269238 Data Species 0.000 claims description 5
- 230000006854 communication Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 abstract description 6
- 230000007547 defect Effects 0.000 abstract description 2
- 238000010276 construction Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- LTXREWYXXSTFRX-QGZVFWFLSA-N Linagliptin Chemical compound N=1C=2N(C)C(=O)N(CC=3N=C4C=CC=CC4=C(C)N=3)C(=O)C=2N(CC#CC)C=1N1CCC[C@@H](N)C1 LTXREWYXXSTFRX-QGZVFWFLSA-N 0.000 description 1
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种基于最小代价路径进行图像标签传播的方法,所述方法通过构建图并对图的稀疏矩阵进行重构,解决了由于图只存在每个节点的若干个近邻节点而导致完全无向图变稀疏有向图的缺陷;利用改进的最小生成树算法对数据进行快速分类,以此来降低算法的时间复杂度并到达到所有数据完全分类的目的。本公开从无标记图像数据样本出发寻找他们自己得到标签的最佳路径,确保每个图像数据样本都能被有效的分类,确保任何一个点都只被传播一次标签;改进了稀疏近邻矩阵的构建,减小了图像数据样本标签在传播的过程中因近邻矩阵而导致传播不完全、不正确的问题;由于算法在不同标记之间传播的阻断性,使得该算法能够运用在大规模多标记的多分类数据中。
Description
技术领域
本发明属于模式识别、人工智能和图像处理等交叉研究领域,涉及基于最小代价路径进行图像标签传播的方法。
背景技术
随着信息科技的发展,信息网络中充斥着越来越多的数据信息,例如海量的数据文本和高分辨率图像等等。如何正确组织和快速利用海量数据成为机器学习领域的研究热点。在海量的数据中对样本进行手工标记代价巨大,因此已标记数据往往过于稀少和珍贵。例如而对于某些比较复杂的图像,普通用户对其内容进行判读是比较困难的,通常需要专家来完成。例如医学数据库中可能存有大量的图像数据样本,医生根据图像数据样本来标记出该图像可能存在的病因,耗费的时间精力巨大。正是由于标注上的困难,使得在图像分类中能够获得的训练是比较有限的,而无标记图像数据样本的获得相对来说比较容易。传统的机器学习,例如监督学习和无监督学习往往只利用已标记数据或只利用无标记数据进行学习,这样的学习往往因为不能够充分利用数据中所隐藏的信息而学习效果不佳,但是半监督学习能利用少量珍贵的已标记数据结合海量的无标记数据中隐藏的信息进行学习,因而拥有更好的学习效果。
然而,较高的时间复杂度严重的制约了基于图的半监督分类方法在大规模数据分类领域的应用。虽然Kim和Choi于2014年提出的极小极大标签传播(Minmax Label Propagation,MMLP)算法,将算法的时间复杂度降低到了O(n),但是由于MMLP算法没有解决该算法对于稀疏相似度矩阵中图的连通性问题,导致对于大规模数据构成的不连通稀疏相似度矩阵不能进行完全的分类。
发明内容
基于此,本公开提供了一种基于最小代价路径进行标签传播的方法。
一种基于最小代价路径进行图像标签传播的方法,所述方法通过下述步骤找到无标记图像数据样本节点的标记:
S1、对包括有标记图像数据样本和无标记图像数据样本的图像数据样本构建能够表达所有无标记图像数据样本节点的近邻情况的无向连通图G,所述图像数据样本的前l(l<<n)个图像数据样本为已标记图像数据样本,其余为无标记图像数据样本;图G中的每个节点为一个图像数据样本,且每一个图像数据样本xi,都属于C类中的一个C={1...c};
S2、基于图G得到边矩阵W,所述边矩阵W的元素wij为图像数据样本节点xi到xj之间的距离;
S3、将边矩阵W重置为W′以避免由于图中只存在每个图像数据样本节点的若干个近邻节点而导致的完全无向图变成稀疏有向图为准;
S4、从任意一个无标记图像数据样本节点xi出发,基于W′寻找到其传播到某个有标记图像数据样本节点xj的路径,该路径是无标记图像数据样本节点xi向其它有标记图像数据样本节点传播过程中具有最小代价的路径,将该路径称为最小代价路径;
S5、将无标记图像数据样本节点xi标记为有标记图像数据样本节点xj的标记;
其中,Rd表示含有所有已标记数据和无标记数据的集合,其中每个数据的维度为d。
本公开具有如下特点:
①同现有方法不同,本公开从无标记图像数据样本出发寻找他们自己得到标签的最佳路径。与传统方法相比,从无标记出发能够在路径搜寻的过程中及时的对路径进行阻断,确保了每个图像数据样本都能被最有效的进行分类;
②由于是从无标记出发,本公开确保了任何一个点都只被传播一次标签:即该点到所有已标记图像数据样本代价最小的那个图像数据样本的标签。当某些点已经被传播到了标签,之后经过它们进行路径搜寻的点不再需要进行更远的查找,这显著降低了分类所需的时间和内存。相比其他同类方法,本公开用于速度快,内心花费小的优势;
③本公开改进了稀疏近邻矩阵的构建,减小了图像数据样本标签在传播的过程中因为近邻矩阵而导致的传播不完全、不正确的问题,同时在不同标记之间传播的阻断性,使得该算法能够运用在大规模多标记的多分类数据中,相比其他算法提高了算法的适用范围;
④本公开的时间复杂度为O(n),相比其他算法大大降低了算法的时间复杂度。
具体实施方式
在一个实施例中,提供了一种基于最小代价路径进行图像标签传播的方法,所述方法通过下述步骤找到无标记图像数据样本节点的标记:
S1、对包括有标记图像数据样本和无标记图像数据样本的图像数据样本构建能够表达所有无标记图像数据样本节点的近邻情况的无向连通图G,所述图像数据样本的前l(l<<n)个图像数据样本为已标记图像数据样本,其余为无标记图像数据样本;图G中的每个节点为一个图像数据样本,且每一个图像数据样本xi,都属于C类中的一个C={1...c};
S2、基于图G得到边矩阵W,所述边矩阵W的元素wij为图像数据样本节点xi到xj之间的距离;
S3、将边矩阵W重置为W′以避免由于图中只存在每个图像数据样本节点的若干个近邻节点而导致的完全无向图变成稀疏有向图为准;
S4、从任意一个无标记图像数据样本节点xi出发,基于W′寻找到其传播到某个有标记图像数据样本节点xj的路径,该路径是无标记图像数据样本节点xi向其它有标记图像数据样本节点传播过程中具有最小代价的路径,将该路径称为最小代价路径;
S5、将无标记图像数据样本节点xi标记为有标记图像数据样本节点xj的标记;
其中,Rd表示含有所有已标记数据和无标记数据的集合,其中每个数据的维度为d。
在这个实施例中,所述方法的核心思想通过下面推导得出。
基于图的半督导分类就是为了得到无标记图像数据样本的标记,即预测两个节点之间存在相似的标签,那么可以设置一个实值函数fi∈Rc作为节点xi到类别C的标签预测函数,和一个C位的二进制向量yi∈{0,1}c作为节点xi的硬标签。当yi=c时[yi]c=1,否则[yi]c=0。
此时就得到了最小化的目标公式,对每一个有标记图像数据样本,求解E(f),找到使E(f)取得最小值的有标记图像数据样本的下标j:
对该公式的求解方法有很多,但是要么时间复杂度较高,要么对于稀疏相似度矩阵中图的连通性问题没有解决,导致对于大规模数据构成的不连通稀疏相似度矩阵不能进行完全的分类。本公开按下式定义fi,fi∈Rc为节点xi到类别C的标签预测函数,C={1...c}:
其中:E(f)是每一个图像数据样本得到传播得到标记的能量函数;用Ei(f)表示到某个有标记图像数据样本的最小代价。当E(f)最小时,说明了某个图像数据样本得到的标记时花费的能量最低,因此也是它们最可能的标记。
wij为重置后边矩阵的元素,重置后的矩阵能够解决由于图中只存在每个节点的若干个近邻节点而导致的完全无向图变稀疏有向图的缺陷;
yi∈{0,1}c是一个C位的二进制向量,作为节点xi的硬标签;当yi=c时[yi]c=1,否则[yi]c=0;
ε为图G的边集合;
路径a∈Aij,Aij={a=(a0,a1,...,am)|m≥1,且a0=i,am=j,a1,...,am-1≠j;
||Cost(a)||p为路径a的传播代价,其计算式为:
其中为路径中任意一条边的代价;
当P→∞时,代价越小的路径中的点越具有相似的标记;
T为路径的衰减参数,T下降的越快所有路径中能影响总路径的路径越少,代价越小的路径越拥有更大的权重,当T→0时,更少的路径能代表Aij。
因此,当设置参数T→0,P→∞,由下式成立:
由此通过找到具有最小代价路径a,就能够找到使Ei(f)取得最小值的有标记图像数据样本节点的下标j,该有标记图像数据样本节点的标记即为要找的无标记图像数据样本节点的标记。
通过本实施例可以得到一个无标记图像数据样本xi的标记应当是使得c||a||p最小的点xj的标记,因此所述方法转化为了求在P规范时,无标记图像数据样本点xi与所有已标记图像数据样本的最小代价路径,也就是图像数据样本的标签应当通过代价最小的路径进行传播。
通常图的每个节点仅与它的K近邻存在联系,优选的,图G为基于使用KD树搜索K个近邻来进行构建的连通图。这样能够降低数据的构图时间。KD树算法是一个快速的近邻搜索算法,他将近邻搜索算法的时间复杂度从O(kn2),降低到了O(kn),因此大大降低了算法的时间复杂度,而且更重要的是,该算法得到了每个点的近邻都是按照他们之间的距离排好序的,进而降低了本公开方法的时间复杂度。这里k为KD树所需要查找每个点的近邻个数。
在一个实施例中,结合数据维数d、方法步骤的执行性能以及运算规模,限定了K的取值范围为3~20。在这个范围内得到的边矩阵W为高度稀疏矩阵,在优选的取值范围内,运算规模低;而通基于稀疏矩阵得到的元素之间的连接,其虚假的连接要少得多,并且能够得到更真实的权重,因而拥有更高的性能;更重要的是,稀疏矩阵能够阻止语义不相关节点间信息的传播。
由于使用了KD树来进行近邻搜索,因此使用欧式距离的计算方法来计算两个节点间的距离。
优选的,使用下述公式来进行计算,即所述图像数据样本节点xi到xj之间的距离根据他们之间的特征关系进行计算:
这里的xik为数据xi的第k维。因而这里的距离为数据间特征的距离,对于图像中的像素,这里计算的距离即为颜色距离。
可选的,所述距离的计算还可以是考虑了数据特征权重的欧拉距离计算方式。
由于边矩阵W为一个K近邻稀疏矩阵,因此W可能是一个非对称矩阵,这导致基于该边矩阵W的一些无标记图像数据样本节点可以找到一条连接到某个已标记图像数据样本节点的通路,但是不能从任何一个已标记图像数据样本节点找到一条指向该节点的通路,反之也成立;即该无标记图像数据样本节点与已标记图像数据样本节点之间的通路不是双向的,为了消除这种弱联通问题,但还要保存节点之间的距离关系,需要将边矩阵W进行重置。
优选的,所述边矩阵W的重置规则为:
其中,1≤i,j≤N,N为图像数据样本集合的大小。
在一个实施例中,所述方法将所述最小代价路径的寻找转换为通过构建最小生成树的过程来寻找。
根据最小生成树原理:在图G(x,ε)中,U是x的一个非空子集,且u∈U,v∈x-U为另一个不在U中的点,若(u,v)为G中的一条边,且(u,v)具有最小代价,则一定存在G中的一棵最小生成树包含此边(u,v)。也就是说图G生成的最小生成树一定是连接各个顶点的权值之和最小的边的集合,因此对于任一已标记图像数据样本xi和任一已标记图像数据样本xj,一定存在一棵最小生成树包含有从图像数据样本xi到图像数据样本xj代价最小的路径。从无标记图像数据样本xi为起始构建一棵生成树,最先连接到该生成树上的已标记图像数据样本xj一定与该生成树上其余的点拥有最大中间代价最低的路径。
反证:从图G中任一点xi开始构建一棵最小生成树T,直至加入的下一个点为xj。如果xi到xj代价最小的路径不存在于最小生成树T中,那么必然存在一条路径c(a),有||c(a)||p<||c(T)||,这里c(Tij)为xj通过最小生成树T连接到点xi的总代价。又因为这里(aτ,aτ+1)为当xj加入树T之后,T中连接xi和xj路径中相邻两点的代价。
假设c(a)中连接点xi的点为xp,若xp不为最小生成树中的点,则根据最小生成树的规则有c(xi,xp)≥max c(aτ,aτ+1)=c(T),这里c(aτ,aτ+1)为树T中相邻两个点的代价,c(T)为最小树的总代价,因为若c(xi,xp)<max c(aτ,aτ+1)则xp必定存在于树T中与假设不符。又因为:且c(Tij)≤c(T)。那么有c(a)≥c(Tij),与假设不符,因此不成立。
若c(a)通过点xp,(xp≠xj)连接到最小生成树T的任一点xp+1上,那么必有c(xp,xp+1)≥max c(aτ,aτ+1)=c(T),且即:c(a)≥c(Tij)与原假设不符,因此不成立。故由xi扩展到xj的最小生成树中必定存在xi到xj代价最小的路径。
根据证明可知,最小生成树上先加入的点到xi的代价往往小于后加入的点到xi的代价。因此从任一无标记图像数据样本点xi开始构建最小生成树,最先加入的已标记图像数据样本xj到xi的代价一定小于后加入的已标记图像数据样本点到xi的代价。如果以点xi为起点所构建的最小生成树上最早加入的已标记图像数据样本xj,那么点xi到所有已标记图像数据样本点的最小代价路径一定是最小生成树中xi到xj的路径。
在这个实施例中,每次构建的最小生成树并不是一颗完整的最小生成树,该最小生成树只包含连通无标记节点和有标记节点所必须的节点。因而该最小生成树从无标记节点开始构建树,当找到一个有标记节点时,尽管尚未完成完整的最小生成树的构建,但是已经完成最小代价路径的寻找,进而停止最小生成树的构建。
优选的,所述构建最小生成树的过程通过改进的prim算法构建,即基于不连通的无向图,使用prim算法在构建最小生成树的过程中,当查找到一个已标记图像数据样本节点或者一个已经获得了标记的图像数据样本节点时,则认为最小生成树构建完毕。
构建最小生成树的算法有两种,一种是Kruskal算法,该算法按照边的大小,从小到大进行连接。Prim算法可以从指定的任意一个节点开始,逐步寻找它相邻节点中可以加入的边。本专利所需要构建的最小生成树是从指定结点开始,到指定结点结束的局部最小生成树,树上的节点通常仅包含较少个节点。而Kruskal算法是一个全局的算法,他不能构建从指定结点开始的最小生成树,因此不符合本专利需求。利用prim算法从指定结点开始构建最小生成树的算法符合本专利的预期,但是Prim算法也是一个全局算法,它所构建的最小生成树是一个包含所有结点的最小生成树,因此本专利对prim算法进行了改进:即当prim算法在构建树的过程中知道查找到一个已标记图像数据样本点或者一个已经获得了标记的图像数据样本点则最小生成树构建完毕。
最小生成树的构建首先需要得到各个节点直接的距离,因此在构建一个最小生成树之前需要构建一个包含点到的直接距离的图。
通常的prim算法的时间复杂度较高为O(n2),这主要是因为prim算法每加入一个点都需要搜寻下一个到树中所有点距离最近的点,为了降低prim算法的时间复杂度,本公开使用优先队列查找下一个需要加入树中的点,如果其他点到每个点的距离能够在构图的时候被直接排好序,则整个算法的时间复杂度能够降低到O(nlogn)。
更优的,所述改进的prim算法通过下述步骤查找到一个已标记图像数据样本节点或者一个已经获得了标记的图像数据样本节点:
S41:从任一无标记图像数据样本节点xi开始来建立最小生成树,计算xi邻接的所有近邻与xi的距离,记录每个近邻的距离,将它们放入一个集合中并将该集合作为子集合放入集合Ux中;
S42:将所述集合中选择与xi的距离最近的近邻xl放入一个集合U中,从集合中删除xl;所述集合U中的元素按照它们的近邻距离从小到大进行排列;
S43:从所述集合U中选择第一个元素xk,如果xk尚未被加入最小生成树中,则执行S44;否则执行S45;
S44:将xk加入到最小生成树,计算xk的所有近邻与xk的距离,记录每个近邻的距离,将它们放入一个集合放入集合并将该集合作为子集加入集合Ux中;并从中与选取与xk的距离最近的近邻加入U,然后将该点从中删除;
S45:将xk从所述集合U中删除;若xk原属于集合且非空,则将中与xl的距离最近的近邻加入集合U,并从集合中删除该节点;
S46:重复步骤S43~S45,直到当最小生成树中加入了一个有标记图像数据样本节点xj时,则所有最小生成树上的节点均被标记为xj的标记,清空集合Ux和U;若所述集合U为空的时候,而最小生成树中仍未加入到一个有标记图像数据样本节点时,那么将整个最小生成树的所有无标记图像数据样本节点被记录为不连通图像数据样本节点,清空集合U;
S47:重复步骤S41~S46,直至所有的无标记图像数据样本节点都被检查了一遍。
通过上述步骤,所述方法将所有无标记图像数据样本节点或者标记为已有标记图像数据样本节点的标记的节点,或者标记为不连通图像数据样本节点。
进一步地,针对所有不连通图像数据样本节点,所述方法对每个不连通图像数据样本节点重新标记为无标记图像数据样本节点,扩大搜索近邻节点的数量范围后,重新执行步骤S41~S47,直至所有的无标记图像数据样本节点都变成有标记图像数据样本节点。通过这样的处理方式,将所有的无标记图像数据样本节点都进行了标记分类。
在另一个实施例中,提供了更详细的基于最小代价路径的分类方法,所述方法包括下述步骤:
第一步:对数据使用KD树方法搜索数据的近邻,根据数据规模的大小近邻个数K可以在3~20个之间浮动,并根据得到的各个数据的近邻以及它们之间的距离,构建一个稀疏相似度矩阵W。
假定构成边矩阵W数据的规模为N,那么通过每个节点的近邻构成的稀疏矩阵的规模为N×N的。
对于W有:
这里dij为KD树搜索得到数据xi到它的近邻xj的距离;假如xj不是数据xi所要求的K个近邻中的一个,那么wij=0。
第二步:对得到的稀疏近邻矩阵W进行重构。
依次对矩阵W的下三角区域中的每个数据进行查询,判断它们的对称位置的值是否与其相同。对于矩阵的任何数据,该数据与其对称位置的数据只存在两种情况:1.数据相同;2.数据不同,其中一个为0,另一个不为0。通过下述规则对W进行重构:
这样将矩阵中位置上不为0的且与其对称位置不相等的数据变成为其对称位置的数据。
为了方便最小生成树的构建,在对W进行重构的时候,不对W进行矩阵还原。即原本我们得到两个队列:一个队列E存储每个数据排序好的近邻序号,一个队列D存储对应点到该近邻的距离。现在我们对稀疏近邻矩阵W进行重构:如果队列E中存在Eij但是不存在Eji,那么E中按照距离的远近顺序加入Eji,相应的加入对应位置的Dij。
第三步:建立一个关于所有图像数据样本的标签数组,初始化图像数据样本的标签:对于已标记图像数据样本初始他们的标签为他们原本的标签,对于无标记图像数据样本初始化他们的标签为0,并建立最小生成树队列Q,和优先队列P_Q。
第四步:从任一无标记图像数据样本开始,将该点加入Q,将该点未在队列Q中第一个近邻加入优先队列P_Q,优先队列中所有的节点按照他们之间的距离进行按照从小到大进行优先查找,如果具有最小距离的节点有多个,可选的,按照加入优先队列的先后顺序,选择先加入的节点。
第五步,从优先队列P_Q中抽取队头节点,如果该点不存在与队列Q中,则将该节点加入队列Q,将该节点的不在队列Q中的最近邻加入优先队列。判断该节点是作为哪一个xi节点的近邻加入的队列Q,将xi的下一个近邻加入优先队列P_Q。
第六步:重复第五步,直到队列Q中加入了一个标记不为0的图像数据样本,那么整个队列Q中所有图像数据样本的标记都为这个不为0的图像数据样本的标记,清空队列Q;如果当优先队列P_Q为空的时候整个队列Q中依然没有任何一个标记不为0的图像数据样本,那么将队列Q中所有的图像数据样本记录为不连通图像数据样本,清空队列。
第七步,重复第三步至第五步,直到所有的点都被检查过一遍。即所有的无标记图像数据样本要么得到了它们的标记,要么被记录为了不连通图像数据样本。
第八步:结合步骤一得到的KD树,搜寻标记为不连通的图像数据样本的2K个近邻。重复步骤三到步骤七,直到所有的点都能得到它们的标记,分类结束。
在这个实施例中,所述方法是一个结合优先队列改进的最小生成树算法,优先队列的大小和树的大小相同,每个节点只有一个近邻节点在优先队列中,优先队列每次排序的时间为O(logn),因此每次插入或者删除一个点的时间复杂度为O(logn),因此该最小生成树加入一个节点的最大复杂度近似为O(logn)。该算法构建一棵最小生成树的的最大时间复杂度为O(nlogn),该复杂度建立在直到近乎所有的图像数据样本都被加入最小生成树才找到一个已标记图像数据样本。当该最小生成树仅包含少量的节点的时候,该算法的时间复杂度最小,为O(n)。通常情况下,算法的时间复杂度接近于它的复杂度下界,因此算法的时间复杂度约为O(n)。
在一个实施例中,用本公开方法对大规模的文本数据(例如文本规模在103~106)进行处理,也能取得良好地分类效果。
综上,本公开具有以下优点:
①本公开从无标记图像数据样本出发寻找他们自己得到标签的最佳路径,与传统方法相比,从无标记出发能够在路径搜寻的过程中及时的对路径进行阻断,确保了每个图像数据样本都能被最有效的进行分类;
②由于是从无标记出发,本公开确保了任何一个点都只被传播一次标签:即该点到所有已标记图像数据样本代价最小的那个图像数据样本的标签;
当某些点已经被传播到了标签,之后经过它们进行路径搜寻的点不再需要进行更远的查找,这显著降低了分类所需的时间和内存。相比其他同类方法,本公开用于速度快,内心花费小的优势;
③改进了稀疏近邻矩阵的构建,减小了图像数据样本标签在传播的过程中因为近邻矩阵而导致的传播不完全、不正确的问题;
④本公开方法的时间复杂度为O(n),相比其他算法大大降低了算法的时间复杂度;
⑤由于算法在不同标记之间传播的阻断性,使得该算法能够运用在大规模多标记的多分类数据中。相比其他算法提高了算法的适用范围。
以上对本公开进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。
Claims (8)
1.一种基于最小代价路径进行图像标签传播的方法,其特征在于,所述方法通过下述步骤找到无标记图像数据样本节点的标记:
S1、对包括有标记图像数据样本和无标记图像数据样本的图像数据样本构建能够表达所有无标记图像数据样本节点的近邻情况的无向连通图G,所述图像数据样本的前l(l<<n)个图像数据样本为已标记图像数据样本,其余为无标记图像数据样本;图G中的每个节点为一个图像数据样本,且每一个图像数据样本xi,都属于C类中的一个,其中C={1...c};
S2、基于图G得到边矩阵W,所述边矩阵W的元素wij为图像数据样本节点xi到xj之间的距离;
S3、将边矩阵W重置为W′以避免由于图中只存在每个图像数据样本节点的若干个近邻节点而导致的完全无向图变成稀疏有向图为准;
S4、从任意一个无标记图像数据样本节点xi出发,基于W′寻找到其传播到某个有标记图像数据样本节点xj的路径,该路径是无标记图像数据样本节点xi向其它有标记图像数据样本节点传播过程中具有最小代价的路径,将该路径称为最小代价路径;
S5、将无标记图像数据样本节点xi标记为有标记图像数据样本节点xj的标记;
其中,Rd表示含有所有已标记数据和无标记数据的集合,其中每个数据的维度为d。
2.根据权利要求1所述的方法,其特征在于:
优选的,所述无向连通图G基于KD树搜索的K个近邻进行构建。
3.根据权利要求2所述的方法,其特征在于:
所述wij的计算公式如下,即所述图像数据样本节点xi到xj之间的距离根据他们之间的特征关系进行计算:
这里的xik为数据xi的第k维。
4.根据权利要求3所述的方法,其特征在于:
所述边距阵W的重置规则为:
其中,1≤i,j≤N,N为图像数据样本集合的大小。
5.根据权利要求4所述的方法,其特征在于:
所述最小代价路径通过构建最小生成树的过程寻找。
6.根据权利要求5所述的方法,其特征在于:
所述构建最小生成树的过程通过改进的prim算法构建,即使用prim算法在构建最小生成树的过程中,当查找到一个已标记图像数据样本节点或者一个已经获得了标记的图像数据样本节点时,则认为最小生成树构建完毕。
7.根据权利要求6所述的方法,其特征在于:
所述改进的prim算法通过下述步骤查找到一个已标记图像数据样本节点或者一个已经获得了标记的图像数据样本节点:
S41:从任一无标记图像数据样本节点xi开始来建立最小生成树,计算xi邻接的所有近邻与xi的距离,记录每个近邻的距离,将它们放入一个集合中并将该集合作为子集合放入集合Ux中;
S42:将所述集合中选择与xi的距离最近的近邻xl放入一个集合U中,从集合中删除xl;所述集合U中的元素按照它们的近邻距离从小到大进行排列;
S43:从所述集合U中选择第一个元素xk,如果xk尚未被加入最小生成树中,则执行S44;否则执行S45;
S44:将xk加入到最小生成树,计算xk的所有近邻与xk的距离,记录每个近邻的距离,将它们放入一个集合放入集合并将该集合作为子集加入集合Ux中;并从中与选取与xk的距离最近的近邻加入U,然后将该点从中删除;
S45:将xk从所述集合U中删除;若xk原属于集合且非空,则将中与xl的距离最近的近邻加入集合U,并从集合中删除该节点;
S46:重复步骤S43~S45,直到当最小生成树中加入了一个有标记图像数据样本节点xj时,则所有最小生成树上的节点均被标记为xj的标记,清空集合Ux和U;若所述集合U为空的时候,而最小生成树中仍未加入到一个有标记图像数据样本节点时,那么将整个最小生成树的所有无标记图像数据样本节点被记录为不连通图像数据样本节点,清空集合U;
S47:重复步骤S41~S46,直至所有的无标记图像数据样本节点都被检查了一遍。
8.根据权利要求7所述的方法,其特征在于:
所述改进的prim算法还包括:
S48:对每个不连通图像数据样本节点重新标记为无标记图像数据样本节点,扩大搜索近邻节点的数量范围后,重新执行步骤S41~S47,直至所有的无标记图像数据样本节点都变成有标记图像数据样本节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510333195.6A CN104933442B (zh) | 2015-06-16 | 2015-06-16 | 一种基于最小代价路径进行图像标签传播的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510333195.6A CN104933442B (zh) | 2015-06-16 | 2015-06-16 | 一种基于最小代价路径进行图像标签传播的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104933442A true CN104933442A (zh) | 2015-09-23 |
CN104933442B CN104933442B (zh) | 2016-08-24 |
Family
ID=54120602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510333195.6A Expired - Fee Related CN104933442B (zh) | 2015-06-16 | 2015-06-16 | 一种基于最小代价路径进行图像标签传播的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104933442B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740658A (zh) * | 2018-12-28 | 2019-05-10 | 陕西师范大学 | 一种基于带权图的半监督图像分类方法 |
CN110232078A (zh) * | 2019-04-26 | 2019-09-13 | 上海生腾数据科技有限公司 | 一种企业集团关系获取方法及系统 |
CN112131446A (zh) * | 2020-08-19 | 2020-12-25 | 深圳云天励飞技术股份有限公司 | 图节点分类方法、装置、电子设备及存储介质 |
CN112232398A (zh) * | 2020-10-10 | 2021-01-15 | 温州大学瓯江学院 | 一种半监督的多类别Boosting分类方法 |
CN112560667A (zh) * | 2020-12-14 | 2021-03-26 | 惠州学院 | 行人重识别标记代价优化方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065157A (zh) * | 2012-12-24 | 2013-04-24 | 南京邮电大学 | 一种基于激活扩散理论的图像标注方法 |
CN103150574A (zh) * | 2013-01-05 | 2013-06-12 | 南京邮电大学 | 基于最邻近标签传播算法的图像型垃圾邮件检测方法 |
CN103544246A (zh) * | 2013-10-10 | 2014-01-29 | 清华大学 | 互联网多种情感词典构建方法及系统 |
CN103605990A (zh) * | 2013-10-23 | 2014-02-26 | 江苏大学 | 基于图聚类标签传播的集成多分类器融合分类方法和系统 |
US8832091B1 (en) * | 2012-10-08 | 2014-09-09 | Amazon Technologies, Inc. | Graph-based semantic analysis of items |
-
2015
- 2015-06-16 CN CN201510333195.6A patent/CN104933442B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8832091B1 (en) * | 2012-10-08 | 2014-09-09 | Amazon Technologies, Inc. | Graph-based semantic analysis of items |
CN103065157A (zh) * | 2012-12-24 | 2013-04-24 | 南京邮电大学 | 一种基于激活扩散理论的图像标注方法 |
CN103150574A (zh) * | 2013-01-05 | 2013-06-12 | 南京邮电大学 | 基于最邻近标签传播算法的图像型垃圾邮件检测方法 |
CN103544246A (zh) * | 2013-10-10 | 2014-01-29 | 清华大学 | 互联网多种情感词典构建方法及系统 |
CN103605990A (zh) * | 2013-10-23 | 2014-02-26 | 江苏大学 | 基于图聚类标签传播的集成多分类器融合分类方法和系统 |
Non-Patent Citations (1)
Title |
---|
杨雅君等: "时间依赖代价函数下的最优路径查询问题研究", 《计算机学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740658A (zh) * | 2018-12-28 | 2019-05-10 | 陕西师范大学 | 一种基于带权图的半监督图像分类方法 |
CN109740658B (zh) * | 2018-12-28 | 2023-04-18 | 陕西师范大学 | 一种基于带权图的半监督图像分类方法 |
CN110232078A (zh) * | 2019-04-26 | 2019-09-13 | 上海生腾数据科技有限公司 | 一种企业集团关系获取方法及系统 |
CN110232078B (zh) * | 2019-04-26 | 2021-03-30 | 上海合合信息科技股份有限公司 | 一种企业集团关系获取方法及系统 |
CN112131446A (zh) * | 2020-08-19 | 2020-12-25 | 深圳云天励飞技术股份有限公司 | 图节点分类方法、装置、电子设备及存储介质 |
CN112131446B (zh) * | 2020-08-19 | 2023-11-17 | 深圳云天励飞技术股份有限公司 | 图节点分类方法、装置、电子设备及存储介质 |
CN112232398A (zh) * | 2020-10-10 | 2021-01-15 | 温州大学瓯江学院 | 一种半监督的多类别Boosting分类方法 |
CN112232398B (zh) * | 2020-10-10 | 2024-07-02 | 温州大学瓯江学院 | 一种半监督的多类别Boosting分类方法 |
CN112560667A (zh) * | 2020-12-14 | 2021-03-26 | 惠州学院 | 行人重识别标记代价优化方法 |
CN112560667B (zh) * | 2020-12-14 | 2023-12-12 | 惠州学院 | 行人重识别标记代价优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104933442B (zh) | 2016-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Zero-shot recognition via semantic embeddings and knowledge graphs | |
CN104933442A (zh) | 一种基于最小代价路径进行图像标签传播的方法 | |
CN111783831B (zh) | 基于多源多标签共享子空间学习的复杂图像精确分类方法 | |
CN106778804B (zh) | 基于类别属性迁移学习的零样本图像分类方法 | |
CN107330074B (zh) | 基于深度学习和哈希编码的图像检索方法 | |
CN103927394B (zh) | 一种基于svm的多标签主动学习分类方法及系统 | |
CN111382283B (zh) | 资源类别标签标注方法、装置、计算机设备和存储介质 | |
CN113378913A (zh) | 一种基于自监督学习的半监督节点分类方法 | |
CN110555060A (zh) | 基于成对样本匹配的迁移学习方法 | |
CN107480213B (zh) | 基于时序文本网络的社区检测与用户关系预测方法 | |
CN109063112A (zh) | 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法 | |
CN112132186A (zh) | 一种存在部分缺失和未知类别标记的多标记分类方法 | |
CN112699375B (zh) | 基于网络嵌入相似性的区块链智能合约安全漏洞检测方法 | |
Zhang et al. | Learning object detectors with semi-annotated weak labels | |
CN102945372B (zh) | 基于多标签约束支持向量机的分类方法 | |
CN112308129A (zh) | 一种基于深度学习的植物线虫数据自动标注和分类识别方法 | |
CN116628212A (zh) | 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法 | |
CN111046965A (zh) | 一种多标记分类中潜在类别发现和分类方法 | |
CN113692591A (zh) | 节点消歧 | |
CN113658109A (zh) | 一种基于领域损失预测主动学习的玻璃缺陷检测方法 | |
CN114943961A (zh) | 一种面向三维模型的零样本分类方法 | |
CN112347369B (zh) | 基于网络表征的集成学习动态社会网络链路预测方法 | |
CN109033834A (zh) | 一种基于文件关联关系的恶意软件检测方法 | |
Gu et al. | Clothes keypoints localization and attribute recognition via prior knowledge | |
Alqaralleh et al. | A Comparison Study between Different Sampling Strategies for Intrusion Detection System of Active Learning Model. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160824 |
|
CF01 | Termination of patent right due to non-payment of annual fee |