CN116645535A - 基于超图学习的图案元素分组方法及装置 - Google Patents
基于超图学习的图案元素分组方法及装置 Download PDFInfo
- Publication number
- CN116645535A CN116645535A CN202310470637.6A CN202310470637A CN116645535A CN 116645535 A CN116645535 A CN 116645535A CN 202310470637 A CN202310470637 A CN 202310470637A CN 116645535 A CN116645535 A CN 116645535A
- Authority
- CN
- China
- Prior art keywords
- elements
- pattern
- hypergraph
- grouping
- tower
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 230000004927 fusion Effects 0.000 claims abstract description 34
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000003709 image segmentation Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 101100481876 Danio rerio pbk gene Proteins 0.000 claims description 3
- 101100481878 Mus musculus Pbk gene Proteins 0.000 claims description 3
- 238000003708 edge detection Methods 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- IKBJGZQVVVXCEQ-UHFFFAOYSA-N efonidipine hydrochloride Chemical compound Cl.CCO.CC=1NC(C)=C(C(=O)OCCN(CC=2C=CC=CC=2)C=2C=CC=CC=2)C(C=2C=C(C=CC=2)[N+]([O-])=O)C=1P1(=O)OCC(C)(C)CO1 IKBJGZQVVVXCEQ-UHFFFAOYSA-N 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
- G06V10/426—Graphical representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/752—Contour matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于超图学习的图案元素分组方法及装置,方法包括:对图案进行预处理操作,获取图案中元素的图像分割结果;提取图案元素的格式塔规则特征,包括相似性、邻近性、连续性和混合式特征;使用超图建模图案元素之间基于不同格式塔规则的相关性;设计自适应的超图融合方法,获得融合多种格式塔规则的超图;使用基于超图学习和用户引导的标签传播方法,来获得图案的分组结果。本发明提出格式塔分组规则在图案元素上的表示,同时根据不同分组规则,利用超图建模图案元素之间的连接关系,并使用超图进行统一表示,实现格式塔规则的融合,有效地解决格式塔规则冲突的问题,并实现根据用户的分组意图来对图案元素进行个性化分组。
Description
技术领域
本发明属于计算机视觉的技术领域,具体涉及一种基于超图学习的图案元素分组方法及装置。
背景技术
对图案的研究一直是计算机视觉领域的研究热点之一。由于图案自身的抽象性、稀疏性和多样性,图案分组十分困难。因此,不同的分组规则可能会导致冲突的分组结果,而且人类对同一图案的感知能力也往往不同。
目前对图案的研究主要集中在识别、检索和补全等方面,随着研究者对于图案细粒度操作的重视,对于图案元素分组方面的研究也得到越来越多的关注。然而,在目前的图案元素分组方法中,仍然存在以下不足:(1)现有的方法大多只考虑到了两种格式塔规则,无法解决图案的多样性和复杂性。(2)现有的数据驱动的分组方法,是使用普遍适用的混合格式塔规则来做分组,忽略了图案元素的分布差异大的问题。(3)现有的分组方法,很少会考虑到人类的分组意图,得到的分组结果难以符合个人的分组要求。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于超图学习的图案元素分组方法及装置,本发明提出格式塔分组规则在图案元素上的表示,同时根据不同分组规则,利用超图建模图案元素之间的连接关系,并使用超图进行统一表示,实现格式塔规则的融合,以解决不同分组规则之间冲突的问题,最后通过人机交互的方式,实现符合用户感知的图案元素分组。
为了达到上述目的,本发明采用以下技术方案:
第一方面,本发明提供了一种基于超图学习的图案元素分组方法,包括下述步骤:
对图案元素进行预处理,所述预处理包括对图案元素进行图像分割操作,得到分割后的图案元素集合;
提取图案元素的格式塔特征,使用环投影向量来描述图案元素轮廓的相似性;使用元素轮廓点集之间的最小距离来描述元素之间的邻近性;使用Mask R-CNN提取元素之间的连续性;使用数据驱动编码器提取元素之间的混合式特征;
基于提取的元素的格式塔特征,计算元素之间特征的欧式距离,并构建对应的格式塔超图来描述图案元素之间的格式塔相关性;
构建自适应的超图融合分组方法,所述自适应超图是根据图案元素的分布和预聚类结果,来指导超图中超边的构建,以达到超边能够灵活地表示不同元素之间的相关性,得到更准确的超边连接;所述超图融合分组方法,是利用超图容易拓展的能力,将相似性、邻近性、连续性和混合式超图进行融合,从而灵活的实现了格式塔规则的融合,将多种格式塔规则共同用于图案元素的分组;
以融合的超图和用户初始输入的分组标签为条件,使用标签传播方法来得到图案元素的分组结果。
作为优选的技术方案,所述使用环投影向量来描述图案元素轮廓的相似性,具体为:
将环投影向量用于描述图案元素轮廓的旋转不变性特征,进而计算图案元素之间轮廓的相似性,环投影向量定义如下:
其中f(x,y是图像f在(x,y)的像素值,2πr是半径为r的环的周长,(x0,y0)是中心坐标,r∈[0,R],R是最大圆的周半径,
对于元素a和元素b提取的环投影向量Pa和Pb,元素a和元素b的相似性距离可表示为:
作为优选的技术方案,所述使用元素轮廓点集之间的最小距离来描述元素之间的邻近性,具体为:
使用有限点集间的最小距离来描述元素之间的邻近性,首先使用Marr边缘检测算子提取图案元素的边缘轮廓,然后计算两两元素的边缘点集的接近性距离d,元素p和元素q的距离d为:
其中pi表示元素p的第i个像素点坐标,qj表示元素q的第j个像素点坐标。
作为优选的技术方案,所述使用Mask R-CNN提取元素之间的连续性,具体为:
通过构建一个包含连续性规则的图案数据集来重新训练检测模型Mask R-CNN,从而获得图案中的连续性掩码,然后根据掩码构建连续性超图。
作为优选的技术方案,所述使用数据驱动编码器提取元素之间的混合式特征,具体为:
使用数据驱动的方式,让机器从大量的图案数据中,学习出融合多种格式塔规则的混合特征,构建了原子编码器和结构编码器来编码特征,作为图案元素的混合特征,提取图案中元素的混合特征F∈RN*40,然后对F做标准化为F′∈RN*40,接着使用欧式距离计算两两元素间的距离D∈RN*N。
作为优选的技术方案,所述基于提取的元素的格式塔特征,计算元素之间特征的欧式距离,并构建对应的格式塔超图来描述图案元素之间的格式塔相关性,具体为:
使用超图表示图案元素之间基于不同格式塔规则的相关性,两两元素之间计算特征的欧式距离,构建描述图案元素间距离的矩阵D∈RN*N,N表示的是图案元素的数量,接着将距离矩阵D转换成权重矩阵W:
权重矩阵W描述了图案元素之间的相关性,基于权重矩阵W,构建了超图H,来表示图案元素之间的相关性:
其中,m表示不同的格式塔超图,topk(wT(j表示wT第j列的元素中,值最大的前k个元素组成的集合,如果wT(i,j)在集合中,则用超边连接。
作为优选的技术方案,所述超图标签传播方法定义如下:
其中H为构建的超图,Dv为超图中节点的度矩阵,De为超边的度矩阵,W为超边的权重矩阵,Y表示的是带标签的标签矩阵,F则为待学习的标签矩阵,即图案元素的预测的分组标签。
第二方面,本发明提供了一种基于超图学习的图案元素分组系统,应用于所述的基于超图学习的图案元素分组方法,包括图案预处理模块、格式塔特征提取模块、格式塔相关性构建模块、自适应超图融合模块和标签传播模块;
所述图案预处理模块,用于对图案元素进行预处理,所述预处理包括对图案元素进行图像分割操作,得到分割后的图案元素集合;
所述格式塔特征提取模块,用于提取图案元素的格式塔特征,使用环投影向量来描述图案元素轮廓的相似性;使用元素轮廓点集之间的最小距离来描述元素之间的邻近性;使用Mask R-CNN提取元素之间的连续性;使用数据驱动编码器提取元素之间的混合式特征;
所述格式塔相关性构建模块,用于基于提取的元素的格式塔特征,计算元素之间特征的欧式距离,并构建对应的格式塔超图来描述图案元素之间的格式塔相关性;
所述自适应超图融合模块,用于构建自适应的超图融合分组方法,所述自适应超图是根据图案元素的分布和预聚类结果,来指导超图中超边的构建,以达到超边能够灵活地表示不同元素之间的相关性,得到更准确的超边连接;所述超图融合分组方法,是利用超图容易拓展的能力,将相似性、邻近性、连续性和混合式超图进行融合,从而灵活的实现了格式塔规则的融合,将多种格式塔规则共同用于图案元素的分组;
所述标签传播模块,用于以融合的超图和用户初始输入的分组标签为条件,使用标签传播方法来得到图案元素的分组结果。
第三方面,本发明提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于超图学习的图案元素分组方法。
第四方面,本发明提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于超图学习的图案元素分组方法。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明定义了四种格式塔规则应用于图案元素的分组,包括相似性、邻近性、连续性和混合式格式塔规则,在对不同的图案进行分组时,可以选择合适的格式塔规则来做分组,提高了分组器的泛化性。
2、本发明定义了自适应的超图融合方法,该方法利用超图容易拓展的能力,灵活的实现了格式塔规则的融合,通过超图构造来建模图案元素之间,基于不同格式塔规则之间的相关性,然后通过超图来做融合。该方法实现了将多种格式塔规则共同作用于图案元素分组,提高了分组的鲁棒性。
3、本发明通过格式塔规则和超图结构提出了一种新的分组方法名为基于超图学习的图案元素分组方法。在具有挑战性的基准测试集(Pattern17)上进行的实验表明,本发明基于超图学习的图案元素分组方法优于基线方法,并实现了出色的性能。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例基于超图学习的图案元素分组方法的流程图;
图2是本发明实施例基于连续性规则的超图构建示意图;
图3是本发明实施例基于自适应超图融合分组方法的示意图;
图4是本发明实施例中用户交互界面展示图;
图5是本发明实施例使用自适应超图融合分组方法得到的分组结果,第一行是输入的图案,第二行是预测的分组结果,第三行是标注的分组结果;
图6是本发明实施例基于超图学习的图案元素分组系统的结构示意图;
图7为本发明实施例电子设备的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
请参阅图1,本实施例一种基于超图学习的图案元素分组方法,包括下述步骤:
S1、对图案中的元素进行预处理,将图案中的元素进行分割操作,得到分割后的图案元素图像集合;在本申请的一个实施例中,以最小包围框的方式对于图案元素进行裁剪。
S2、提取图案元素的格式塔特征;使用环投影向量来描述图案元素轮廓的相似性;使用元素轮廓点集之间的最小距离来描述元素之间的邻近性;使用Mask R-CNN提取元素之间的连续性;使用数据驱动编码器提取元素之间的混合式特征。
进一步的,步骤S2具体为:
S21、将环投影向量用于描述图案元素轮廓的旋转不变性特征,进而计算图案元素之间轮廓的相似性,环投影向量定义如下:
其中f(x,y是图像f在(x,y)的像素值,2πr是半径为r的环的周长,(x0,y0)是中心坐标,r∈[0,R],R是最大圆的周半径。对于元素a和元素b提取的环投影向量Pa和Pb,元素a和元素b的相似性距离可表示为:
S22、使用有限点集间的最小距离来描述元素之间的邻近性,首先使用Marr边缘检测算子提取图案元素的边缘轮廓,然后计算两两元素的边缘点集的接近性距离d,元素p和元素q的距离d为:
其中pi表示元素p的第i个像素点坐标,qj表示元素q的第j个像素点坐标。
S23、通过构建一个包含连续性规则的图案数据集来重新训练检测模型Mask R-CNN,从而获得图案中的连续性掩码,然后根据掩码构建连续性超图。
S24、使用数据驱动的方式,让机器从大量的图案数据中,学习出融合多种格式塔规则的混合特征,构建了原子编码器和结构编码器来编码特征,作为图案元素的混合特征。提取图案中元素的混合特征F∈RN*40,然后对F做标准化为F′∈RN*40,接着使用欧式距离计算两两元素间的距离D∈RN*N。
S3、基于提取的元素的格式塔特征,计算元素之间特征的欧式距离,并构建对应的格式塔超图来描述图案元素之间的格式塔相关性;
进一步的,步骤S3具体为:
S31、两两元素之间计算特征的欧式距离,构建描述图案元素间距离的矩阵D∈RN *N,N表示的是图案元素的数量。接着将距离矩阵D转换成权重矩阵W:
S32、权重矩阵W描述了图案元素之间的相关性,基于权重矩阵W,构建了超图H,来表示图案元素之间的相关性:
其中,m表示不同的格式塔超图,topk(wT(j表示wT第j列的元素中,值最大的前k个元素组成的集合,如果wT(i,j)在集合中,则用超边连接。
请参阅图2,在连续性超图的表示上,输入的图案首先经过超图构建模块,来构建出一个连续性超图。在超图构建模块,首先使用训练好的Mask R-CNN来提取输入图案的检测掩码,每个掩码都带有一组连续性的分组信息。然后,将每个掩码与输入的图案做与运算,即提取出被掩码覆盖的元素,并将这些元素以连续性规则分到一组,构建一条超边,掩码的数量对应了超边的数量。
S4、构建自适应的超图融合方法,所述自适应超图是根据图案元素的分布和预聚类结果,来指导超图中超边的构建,以达到超边能够灵活地表示不同元素之间的相关性,得到更准确的超边连接;所述超图融合分组方法,是利用超图容易拓展的能力,将相似性、邻近性、连续性和混合式超图进行融合,从而灵活的实现了格式塔规则的融合,将多种格式塔规则共同用于图案元素的分组。
S5、以融合的超图和用户初始输入的分组标签为条件,使用标签传播方法来得到图案元素的分组结果。所述超图标签传播方法定义如下:
其中H为构建的超图,Dv为超图中节点的度矩阵,De为超边的度矩阵,W为超边的权重矩阵,Y表示的是带标签的标签矩阵,F则为待学习的标签矩阵,即图案元素的预测的分组标签。
请参阅图3,用户首先给定图案中带标签的元素集Pl,标签集为Yl,剩下的为待分组的元素集Pu,其中图案元素集P=Pl+Pu。然后将标签集Yl和图案元素集P作为输入。接着根据元素之间的外观相似程度、位置上的邻近程度、分布上的连续程度和基于混合格式塔的相关程度,构建相似性超图Hsim、邻近性超图Hprx、连续性超图Hcon和混合式超图Hmix来描述元素之间基于不同规则的关联程度。进一步将四个超图融合为超图H,超图H经过标签传播模块,得到待分组元素集pu的分组结果。
图4展示了用户交互的界面,用户通过在界面中指定部分元素的分组标签、选择的格式塔规则和规则权重,来输入用户的分组意图。
请参阅图5,显示了本发明的方法的客观分组结果图。图5中的第一行为带有用户输入标签的图案,第二行为预测的分组结果,第三行为标注的分组结果。对第二行预测结果分析,主观上观察十分符合用户的分组意图,几乎与真实标注相差无几。
方法的客观评价结果如表1和表2所示,表1是使用非自适应超图的分组结果,表2是使用自适应超图融合的分组结果。本发明使用纯度和兰德尔系数作为评估指标对Pattern17数据集进行评估,纯度和兰德尔系数越高,反映分组结果越好。与表1相比,使用自适应超图融合算法使所有的格式塔组合都获得了更好的表现。
表1
表2
本发明通过构建一种自适应的超图融合分组方法,研究图案元素感知分组的新思路。提出格式塔分组规则在图案元素上的表示,同时根据不同分组规则,利用超图建模图案元素之间的连接关系,并使用超图进行统一表示,实现格式塔规则的融合,最后通过人机交互的方式,实现符合用户感知的图案元素分组,有效地解决格式塔规则冲突的问题,使得机器可以根据用户的分组意图来对图案元素进行个性化分组。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的基于超图学习的图案元素分组方法相同的思想,本发明还提供了基于超图学习的图案元素分组系统,该系统可用于执行上述基于超图学习的图案元素分组方法。为了便于说明,基于超图学习的图案元素分组系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
请参阅图6,在本申请的另一个实施例中,提供了一种基于超图学习的图案元素分组系统100,包括图案预处理模块101、格式塔特征提取模块102、格式塔相关性构建模块103、自适应超图融合模块104和标签传播模块105。
所述图案预处理模块101,用于对图案元素进行预处理,所述预处理包括对图案元素进行图像分割操作,得到分割后的图案元素集合;
所述格式塔特征提取模块102,用于提取图案元素的格式塔特征,使用环投影向量来描述图案元素轮廓的相似性;使用元素轮廓点集之间的最小距离来描述元素之间的邻近性;使用Mask R-CNN提取元素之间的连续性;使用数据驱动编码器提取元素之间的混合式特征;
所述格式塔相关性构建模块103,用于基于提取的元素的格式塔特征,计算元素之间特征的欧式距离,并构建对应的格式塔超图来描述图案元素之间的格式塔相关性;
所述自适应超图融合模块104,用于构建自适应的超图融合分组方法,所述自适应超图是根据图案元素的分布和预聚类结果,来指导超图中超边的构建,以达到超边能够灵活地表示不同元素之间的相关性,得到更准确的超边连接;所述超图融合分组方法,是利用超图容易拓展的能力,将相似性、邻近性、连续性和混合式超图进行融合,从而灵活的实现了格式塔规则的融合,将多种格式塔规则共同用于图案元素的分组;
所述标签传播模块105,用于以融合的超图和用户初始输入的分组标签为条件,使用标签传播方法来得到图案元素的分组结果。
需要说明的是,本发明的基于超图学习的图案元素分组系统与本发明的基于超图学习的图案元素分组方法一一对应,在上述基于超图学习的图案元素分组方法的实施例阐述的技术特征及其有益效果均适用于基于超图学习的图案元素分组的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
此外,上述实施例的基于超图学习的图案元素分组系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于超图学习的图案元素分组系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
请参阅图7,在一个实施例中,提供了一种实现基于超图学习的图案元素分组方法的电子设备,所述电子设备200可以包括第一处理器201、第一存储器202和总线,还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序,如基于超图学习的图案元素分组程序203。
其中,所述第一存储器202至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元,例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备,例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据,例如基于超图学习的图案元素分组程序203的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述第一处理器201在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述第一存储器202内的程序或者模块,以及调用存储在所述第一存储器202内的数据,以执行电子设备200的各种功能和处理数据。
图7仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图7示出的结构并不构成对所述电子设备200的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
所述电子设备200中的所述第一存储器202存储的基于超图学习的图案元素分组程序203是多个指令的组合,在所述第一处理器201中运行时,可以实现:
对图案元素进行预处理,所述预处理包括对图案元素进行图像分割操作,得到分割后的图案元素集合;
提取图案元素的格式塔特征,使用环投影向量来描述图案元素轮廓的相似性;使用元素轮廓点集之间的最小距离来描述元素之间的邻近性;使用Mask R-CNN提取元素之间的连续性;使用数据驱动编码器提取元素之间的混合式特征;
基于提取的元素的格式塔特征,计算元素之间特征的欧式距离,并构建对应的格式塔超图来描述图案元素之间的格式塔相关性;
构建自适应的超图融合分组方法,所述自适应超图是根据图案元素的分布和预聚类结果,来指导超图中超边的构建,以达到超边能够灵活地表示不同元素之间的相关性,得到更准确的超边连接;所述超图融合分组方法,是利用超图容易拓展的能力,将相似性、邻近性、连续性和混合式超图进行融合,从而灵活的实现了格式塔规则的融合,将多种格式塔规则共同用于图案元素的分组;
以融合的超图和用户初始输入的分组标签为条件,使用标签传播方法来得到图案元素的分组结果。
进一步地,所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.基于超图学习的图案元素分组方法,其特征在于,包括下述步骤:
对图案元素进行预处理,所述预处理包括对图案元素进行图像分割操作,得到分割后的图案元素集合;
提取图案元素的格式塔特征,使用环投影向量来描述图案元素轮廓的相似性;使用元素轮廓点集之间的最小距离来描述元素之间的邻近性;使用Mask R-CNN提取元素之间的连续性;使用数据驱动编码器提取元素之间的混合式特征;
基于提取的元素的格式塔特征,计算元素之间特征的欧式距离,并构建对应的格式塔超图来描述图案元素之间的格式塔相关性;
构建自适应的超图融合分组方法,所述自适应超图是根据图案元素的分布和预聚类结果,来指导超图中超边的构建,以达到超边能够灵活地表示不同元素之间的相关性,得到更准确的超边连接;所述超图融合分组方法,是利用超图容易拓展的能力,将相似性、邻近性、连续性和混合式超图进行融合,从而灵活的实现了格式塔规则的融合,将多种格式塔规则共同用于图案元素的分组;
以融合的超图和用户初始输入的分组标签为条件,使用标签传播方法来得到图案元素的分组结果。
2.根据权利要求1所述基于超图学习的图案元素分组方法,其特征在于,所述使用环投影向量来描述图案元素轮廓的相似性,具体为:
将环投影向量用于描述图案元素轮廓的旋转不变性特征,进而计算图案元素之间轮廓的相似性,环投影向量定义如下:
其中f(x,y)是图像f在(x,y)的像素值,2πr是半径为r的环的周长,(x0,y0)是中心坐标,r∈[0,R],R是最大圆的周半径;
对于元素a和元素b提取的环投影向量Pa和Pb,元素a和元素b的相似性距离可表示为:
3.根据权利要求1所述基于超图学习的图案元素分组方法,其特征在于,所述使用元素轮廓点集之间的最小距离来描述元素之间的邻近性,具体为:
使用有限点集间的最小距离来描述元素之间的邻近性,首先使用Marr边缘检测算子提取图案元素的边缘轮廓,然后计算两两元素的边缘点集的接近性距离d,元素p和元素q的距离d为:
其中pi表示元素p的第i个像素点坐标,qj表示元素q的第j个像素点坐标。
4.根据权利要求1所述基于超图学习的图案元素分组方法,其特征在于,所述使用MaskR-CNN提取元素之间的连续性,具体为:
通过构建一个包含连续性规则的图案数据集来重新训练检测模型Mask R-CNN,从而获得图案中的连续性掩码,然后根据掩码构建连续性超图。
5.根据权利要求1所述基于超图学习的图案元素分组方法,其特征在于,所述使用数据驱动编码器提取元素之间的混合式特征,具体为:
使用数据驱动的方式,让机器从大量的图案数据中,学习出融合多种格式塔规则的混合特征,构建了原子编码器和结构编码器来编码特征,作为图案元素的混合特征,提取图案中元素的混合特征F∈RN*40,然后对F做标准化为F′∈RN*40,接着使用欧式距离计算两两元素间的距离D∈RN*N。
6.根据权利要求1所述基于超图学习的图案元素分组方法,其特征在于,所述基于提取的元素的格式塔特征,计算元素之间特征的欧式距离,并构建对应的格式塔超图来描述图案元素之间的格式塔相关性,具体为:
使用超图表示图案元素之间基于不同格式塔规则的相关性,两两元素之间计算特征的欧式距离,构建描述图案元素间距离的矩阵D∈RN*N,N表示的是图案元素的数量,接着将距离矩阵D转换成权重矩阵W:
权重矩阵W描述了图案元素之间的相关性,基于权重矩阵W,构建了超图H,来表示图案元素之间的相关性:
其中,m表示不同的格式塔超图,topk(wT(j))表示wT第j列的元素中,值最大的前k个元素组成的集合,如果wT(i,j)在集合中,则用超边连接。
7.根据权利要求1所述基于超图学习的图案元素分组方法,其特征在于,所述超图标签传播方法定义如下:
其中H为构建的超图,Dv为超图中节点的度矩阵,De为超边的度矩阵,W为超边的权重矩阵,Y表示的是带标签的标签矩阵,F则为待学习的标签矩阵,即图案元素的预测的分组标签。
8.基于超图学习的图案元素分组系统,其特征在于,应用于权利要求1-7中任一项所述的基于超图学习的图案元素分组方法,包括图案预处理模块、格式塔特征提取模块、格式塔相关性构建模块、自适应超图融合模块和标签传播模块;
所述图案预处理模块,用于对图案元素进行预处理,所述预处理包括对图案元素进行图像分割操作,得到分割后的图案元素集合;
所述格式塔特征提取模块,用于提取图案元素的格式塔特征,使用环投影向量来描述图案元素轮廓的相似性;使用元素轮廓点集之间的最小距离来描述元素之间的邻近性;使用Mask R-CNN提取元素之间的连续性;使用数据驱动编码器提取元素之间的混合式特征;
所述格式塔相关性构建模块,用于基于提取的元素的格式塔特征,计算元素之间特征的欧式距离,并构建对应的格式塔超图来描述图案元素之间的格式塔相关性;
所述自适应超图融合模块,用于构建自适应的超图融合分组方法,所述自适应超图是根据图案元素的分布和预聚类结果,来指导超图中超边的构建,以达到超边能够灵活地表示不同元素之间的相关性,得到更准确的超边连接;所述超图融合分组方法,是利用超图容易拓展的能力,将相似性、邻近性、连续性和混合式超图进行融合,从而灵活的实现了格式塔规则的融合,将多种格式塔规则共同用于图案元素的分组;
所述标签传播模块,用于以融合的超图和用户初始输入的分组标签为条件,使用标签传播方法来得到图案元素的分组结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任意一项所述的基于超图学习的图案元素分组方法。
10.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的基于超图学习的图案元素分组方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310470637.6A CN116645535A (zh) | 2023-04-27 | 2023-04-27 | 基于超图学习的图案元素分组方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310470637.6A CN116645535A (zh) | 2023-04-27 | 2023-04-27 | 基于超图学习的图案元素分组方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116645535A true CN116645535A (zh) | 2023-08-25 |
Family
ID=87642539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310470637.6A Pending CN116645535A (zh) | 2023-04-27 | 2023-04-27 | 基于超图学习的图案元素分组方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645535A (zh) |
-
2023
- 2023-04-27 CN CN202310470637.6A patent/CN116645535A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
Wang et al. | Building extraction from remote sensing images using deep residual U-Net | |
CN110866140A (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN110363049B (zh) | 图形元素检测识别和类别确定的方法及装置 | |
CN112232149A (zh) | 一种文档多模信息和关系提取方法及系统 | |
CN113762309B (zh) | 对象匹配方法、装置及设备 | |
Huang et al. | Object-location-aware hashing for multi-label image retrieval via automatic mask learning | |
CN113673338B (zh) | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 | |
CN116152267A (zh) | 基于对比性语言图像预训练技术的点云实例分割方法 | |
JP2021193610A (ja) | 情報処理方法、情報処理装置、電子機器及び記憶媒体 | |
CN114444507A (zh) | 基于水环境知识图谱增强关系的上下文参数中文实体预测方法 | |
CN113822264A (zh) | 一种文本识别方法、装置、计算机设备和存储介质 | |
CN114332893A (zh) | 表格结构识别方法、装置、计算机设备和存储介质 | |
CN114596566A (zh) | 文本识别方法及相关装置 | |
Huang et al. | ORDNet: Capturing omni-range dependencies for scene parsing | |
CN115862045A (zh) | 基于图文识别技术的病例自动识别方法、系统、设备及存储介质 | |
Jiang et al. | Tabcellnet: Deep learning-based tabular cell structure detection | |
CN115131803A (zh) | 文档字号的识别方法、装置、计算机设备和存储介质 | |
CN113255787B (zh) | 一种基于语义特征和度量学习的小样本目标检测方法及系统 | |
CN114639109A (zh) | 一种图像处理方法、装置、电子设备和存储介质 | |
CN112016592B (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 | |
Weng et al. | Traffic scene perception based on joint object detection and semantic segmentation | |
CN112529849B (zh) | 一种ct肋骨自动计数方法及装置 | |
CN112949500A (zh) | 一种基于空间特征编码改进的YOLOv3车道线检测方法 | |
CN112395407A (zh) | 企业实体关系的抽取方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |