CN117370591A - 基于点集表示的矢量图识别方法、装置、终端及存储介质 - Google Patents
基于点集表示的矢量图识别方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN117370591A CN117370591A CN202311670533.6A CN202311670533A CN117370591A CN 117370591 A CN117370591 A CN 117370591A CN 202311670533 A CN202311670533 A CN 202311670533A CN 117370591 A CN117370591 A CN 117370591A
- Authority
- CN
- China
- Prior art keywords
- point set
- vector
- symbol
- primitives
- query vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 262
- 238000010586 diagram Methods 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000003993 interaction Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/56—Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于点集表示的矢量图识别方法、装置、终端及存储介质,方法包括:获取原始矢量图,并对原始矢量图进行预处理,得到原始矢量图所对应的二维点集;基于预设的骨干网络,对二维点集进行特征提取,得到多尺度点集特征;将初始查询向量输入符号识别网络中,所述初始查询向量与多尺度点集特征在符号识别网络中进行交互,以得到目标查询向量;基于目标查询向量,确定原始矢量图中的图元对应的符号类别以及符号掩码,并基于符号类别与符号掩码,确定图元识别结果。相对于现有技术,本发明无需对图元进行栅格化处理,减少了计算量,且本发明对矢量图的识别方法较为简单、泛化性强,可应用于诸多领域。
Description
技术领域
本发明涉及矢量图识别技术领域,尤其涉及一种基于点集表示的矢量图识别方法、装置、终端及存储介质。
背景技术
矢量图由于具有任意缩放却不改变清晰度的特点,在工业设计,比如平面设计、2D界面交互、CAD、电路设计等场景中逐渐成为了一种主流的数据格式。具体来说,矢量图是包含许多几何图元(如圆弧、圆、多段线等),图元之间通过某种特定关系进行连接,从而组成具有特殊含义的符号,比如在建筑图纸中的墙、门、窗、家具等符号,再比如电路图纸中,各种各样的元器件符号。矢量图识别是指从矢量图中识别出指定的符号,该任务广泛存在于建筑图纸识别、电路元器件识别、产品构件识别和三维建筑信息建模中。由于存在遮挡、聚类、外观变化以及不同类别分布的严重不平衡等障碍,在矢量图中识别出每个符号(一组图形图元)是一项重大挑战。
但是,现有技术中,大多数矢量图识别方法都需要经过耗时的栅格化步骤,栅格化后,不同的图元存在遮挡。并且随着矢量图的复杂程度的不断增加,耗时随之加长,栅格化之后,丢失了图元结构信息,也无法处理遮挡的问题。即便现有技术中也存在不经过栅格化步骤的矢量图识别方法,但是计算量大,无法应用于复杂场景。
因此,现有技术还有待改进和提高。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于点集表示的矢量图识别方法、装置、终端及存储介质,旨在解决现有技术的矢量图识别方法要么存在经过栅格化步骤后丢失图元结构信息的问题,要么存在计算量大而无法应用于复杂场景的问题。
为了解决上述技术问题,本发明所采用的技术方案如下:
第一方面,本发明提供一种基于点集表示的矢量图识别方法,其中,所述方法包括:
获取原始矢量图,并对所述原始矢量图进行预处理,得到所述原始矢量图所对应的二维点集,所述二维点集用于反映所述原始矢量图所对应的图元;
基于预设的骨干网络,对所述二维点集进行特征提取,得到多尺度点集特征;
将初始查询向量输入符号识别网络中,所述初始查询向量与所述多尺度点集特征在所述符号识别网络中进行交互,以得到目标查询向量,其中,所述目标查询向量用于反映所述图元的位置信息和特征信息;
基于所述目标查询向量,确定所述原始矢量图中的图元对应的符号类别以及符号掩码,并基于所述符号类别与所述符号掩码,确定图元识别结果。
在一种实现方式中,所述骨干网络包括编码器和解码器,所述编码器用于对点集特征进行降采样,所述解码器用于对点集特征进行升采样。
在一种实现方式中,所述基于预设的骨干网络,对所述二维点集进行特征提取,得到多尺度点集特征,包括:
基于所述骨干网络对所述二维点集进行点云分割,得到若干点云,其中,每个点云用于对应一个图元;
所述编码器中注意力模块基于两个图元之间连接关系的注意力对所述二维点集进行降采样,得到彼此相互连接的两个图元;
所述解码器中的损失函数对彼此相互连接的两个图元的类别进行判断,得到所述多尺度点集特征。
在一种实现方式中,所述两个图元之间连接关系的确定方式包括:
获取两个图元之间的距离,并将所述距离与预设的距离阈值进行比较;
若两个图元之间的距离小于所述距离阈值,则确定两个图元之间存在连接关系。
在一种实现方式中,所述两个图元之间连接关系的确定方式,还包括:
获取两个图元的端点;
若两个图元的端点相连,则确定两个图元之间存在连接关系。
在一种实现方式中,所述符号识别网络由多层预设模块组成,所述将初始查询向量输入符号识别网络中,所述初始查询向量与所述多尺度点集特征在所述符号识别网络中进行交互,以得到目标查询向量,包括:
控制所述初始查询向量在所述符号识别网络中的第一层预设模块中与最低尺度点集特征进行交互,输出更新后的初始查询向量;
控制所述第一层预设模块输出的更新后的初始查询向量在所述符号识别网络中的第二层预设模块中与第二尺度点集特征进行交互;
以此类推,上一层预设模块输出的查询向量在下一层预设模块中与对应尺度的点集特征进行交互,输出更新后的查询向量,以得到所述目标查询向量。
在一种实现方式中,所述基于所述目标查询向量,确定所述原始矢量图中的图元对应的符号类别以及符号掩码,包括:
将所述目标查询向量输入掩码预测模块中的第一线性层,得到所述符号类别;
将所述目标查询向量输入掩码预测模块中的第二线性层,并与所述多尺度点集特征中的最高尺度特征进行点乘,得到所述符号掩码。
在一种实现方式中,所述基于所述符号类别与所述符号掩码,确定图元识别结果,包括:
将所述符号类别与所述符号掩码进行点乘,得到所述图元识别结果。
第二方面,本发明实施例还提供一种基于点集表示的矢量图识别装置,其中,所述装置包括:
矢量图预处理模块,用于获取原始矢量图,并对所述原始矢量图进行预处理,得到所述原始矢量图所对应的二维点集,所述二维点集用于反映所述原始矢量图所对应的图元;
特征提取模块,用于基于预设的骨干网络,对所述二维点集进行特征提取,得到多尺度点集特征;
查询向量更新模块,用于将初始查询向量输入符号识别网络中,所述初始查询向量与所述多尺度点集特征在所述符号识别网络中进行交互,以得到目标查询向量,其中,所述目标查询向量用于反映所述图元的位置信息和特征信息;
图元识别模块,用于基于所述目标查询向量,确定所述原始矢量图中的图元对应的符号类别以及符号掩码,并基于所述符号类别与所述符号掩码,确定图元识别结果。
第三方面,本发明实施例还提供一种终端,其中,所述终端包括存储器、处理器及存储在存储器中并可在处理器上运行的基于点集表示的矢量图识别程序,处理器执行基于点集表示的矢量图识别程序时,实现上述方案中任一项的基于点集表示的矢量图识别方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,其中,计算机可读存储介质上存储有基于点集表示的矢量图识别程序,所述基于点集表示的矢量图识别程序被处理器执行时,实现上述方案中任一项所述的基于点集表示的矢量图识别方法的步骤。
有益效果:与现有技术相比,本发明提供了一种基于点集表示的矢量图识别方法,本发明首先获取原始矢量图,并对所述原始矢量图进行预处理,得到所述原始矢量图所对应的二维点集,所述二维点集用于反映所述原始矢量图所对应的图元。然后,本发明基于预设的骨干网络,对所述二维点集进行特征提取,得到多尺度点集特征。接着,本发明将初始查询向量输入符号识别网络中,所述初始查询向量与所述多尺度点集特征在所述符号识别网络中进行交互,以得到目标查询向量,其中,所述目标查询向量用于反映所述图元的位置信息和特征信息。最后,本发明基于目标查询向量,确定所述原始矢量图中的图元对应的符号类别以及符号掩码,并基于所述符号类别与所述符号掩码,确定图元识别结果。由此可见,本发明在进行矢量图识别时,无需进行耗时的栅格化步骤,减少了图形丢失与遮挡的问题。并且,本发明的矢量图识别方法简单,具有良好的泛化性,可应用于各种复杂领域。
附图说明
图1为本发明实施例提供的基于点集表示的矢量图识别方法的具体实施方式的流程图。
图2为本发明实施例提供的基于点集表示的矢量图识别方法的流程原理图。
图3为本发明实施例提供的基于点集表示的矢量图识别方法中图元的位置信息的示意图。
图4为本发明实施例提供的基于点集表示的矢量图识别方法中图元的特征信息的示意图。
图5为本发明其中一个实施例提供的基于点集表示的矢量图识别方法中图元之间的连接关系的示意图。
图6为本发明实施例提供的基于点集表示的矢量图识别方法中具有连接关系的点集合示意图。
图7为本发明实施例提供的基于点集表示的矢量图识别方法中属于不同类别的图元的示意图。
图8为本发明实施例提供的基于点集表示的矢量图识别方法中预设模块的示意图。
图9为本发明实施例提供的基于点集表示的矢量图识别方法中查询向量的更新流程示意图。
图10为本发明实施例提供的基于点集表示的矢量图识别方法中注意力降采样示意图。
图11为本发明实施例提供的基于点集表示的矢量图识别方法中掩码预测模块的示意图。
图12为本发明实施例提供的基于点集表示的矢量图识别装置的功能原理图。
图13为本发明实施例提供的终端的原理框图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
现有技术中的矢量图识别一般是将矢量图栅格化成位图,然后借助现有的强大的图像识别模型比如CNN(卷积神经网络)/VIT(视觉转换)等实现矢量图中的符号识别,这类方法的缺点在于需要经过比较耗时的栅格化步骤,而且无法处理图元存在遮挡的问题。如果摒弃栅格化的步骤,直接对矢量图的图元进行构图,使用图网络等方法实现矢量图中的符号识别。但是,这类方法需要预先对矢量图进行构图,对于复杂的矢量图,计算量大,且耗时长。为解决现有技术中存在的问题,本实施例提供一种基于点集表示的矢量图识别方法,摈弃传统的矢量图识别方法中需要经过耗时的栅格化步骤,有效减少了耗时且避免了因栅格化导致的图元信息丢失。具体应用时,本实施例首先获取原始矢量图,并对所述原始矢量图进行预处理,得到所述原始矢量图所对应的二维点集,所述二维点集用于反映所述原始矢量图所对应的图元。然后,本发明基于预设的骨干网络,对所述二维点集进行特征提取,得到多尺度点集特征。接着,本发明将所述多尺度点集特征应用于预设的符号识别网络中,并使用所述符号识别网络对查询向量进行更新,得到更新后的查询向量,其中,所述查询向量用于反映所述图元的位置信息和特征信息。最后,本发明基于更新后的查询向量,确定所述原始矢量图中的图元对应的符号类别以及符号掩码,并基于所述符号类别与所述符号掩码,确定图元识别结果。可见,本实施例的矢量图识别方法简单,具有良好的泛化性,可应用于各种复杂领域。
本实施例的基于点集表示的矢量图识别方法可应用于终端中,所述终端可为电脑、手机、智能电视等智能化产品终端。如图1中所示,本实施例的基于点集表示的矢量图识别方法可包括如下步骤:
步骤S100、获取原始矢量图,并对所述原始矢量图进行预处理,得到所述原始矢量图所对应的二维点集,所述二维点集用于反映所述原始矢量图所对应的图元。
在本实施例中,参照图2中所示,终端首先获取原始矢量图,图2中的原始矢量图建筑领域的户型图,其中包括了墙、门、窗、家具等符号。当然,在其他实现方式中,原始矢量图也可以为包括各种各样元器件符号的电路图纸,本实施例对此并不进行限定。接着,终端对原始矢量图进行预处理,将原始矢量图中的所有图元看作为二维点集。具体地,原始矢量图可看作是一个图元集合,本实施例将图元集合/>转化为一个二维点集/>,此时,二维点集中就反映了原始矢量图中的所有图元,其中,/>反映的是第k个图元的位置信息,具体如图3所示,图3中反映的是图元的位置信息,/>反映的是第k个图元的特征信息,具体如图4所示,图4中反映的是图元的特征信息,图4中/>和/>表示两个端点,/>表示第k个图元的线长,/>表示第k个图元相对于x轴的角度,/>表示图元的类型,比如直线、弧线、圆、椭圆等。本实施例通过将图元转化成二维点,有利于后续步骤中分析图元与图元之间的连接关系以及识别图元的类型等步骤的实现。
步骤S200、基于预设的骨干网络,对所述二维点集进行特征提取,得到多尺度点集特征。
当得到二维点集后,终端使用骨干网络来对二维点集进行特征提取,本实施例的骨干网络包括编码器和解码器,所述编码器用于对点集特征进行降采样,所述解码器用于对点集特征进行升采样。因此,使用该骨干网络进行点集特征提取后,可得到多尺度点集特征,该多尺度点集特征反映的是不同分辨率的点集特征。如图2中所示,F0,F1,F2,F3代表不同尺度(即不同分辨率大小)的点集特征。
在一种实现方式中,本实施例在对提取多尺度点集特征时,包括如下步骤:
步骤S201、基于所述骨干网络对所述二维点集进行点云分割,得到若干点云,其中,每个点云用于对应一个图元;
步骤S202、控制所述编码器中注意力模块基于两个图元之间连接关系的注意力对所述二维点集进行降采样,得到彼此相互连接的两个图元;
步骤S203、控制所述解码器中的损失函数对彼此相互连接的两个图元的类别进行判断,得到所述多尺度点集特征。
具体地,本实施例中的骨干网络采用的是点云分割方法中的point transformer,point transformer是一种基于注意力机制的点云处理方法,当输入一个点云时,pointtransformer将点云中每个点的位置信息和特征信息作为输入,然后通过一个带有多头注意力机制的transformer模型来学习一个新的点云表示。在实际使用中,骨干网络的选取包含但不限于所有基于点的点云分割方法,比如pointNet, pointNet++, pointMLP等等。基于此,本实施例可使用该骨干网络来对二维点集进行点云分割,得到若干点云,其中,每个点云用于对应一个图元。接着,如图2所示,骨干网络的编码器中包括注意力模块,编码器的第一层根据基于点与点之间连接关系的注意力对二维点集的全分辨率的点集特征进行降采样。
矢量图中的图元与图元之间互相连接,从而构成具有特殊含义的符号。这种互相连接广泛存在于矢量图中。正是这些图元的连接关系的存在,使得局部的图元组成了符号,从而具备了语义信息。本实施例使用点集表示了图元,使得图元与图元之间的连接关系转变为点与点之间的连接关系。因此,本实施例的中的连接关系是不同尺度(分辨率)的点集特征中点和点之间的连接关系。
在对两个图元之间的连接关系进行判断时,本实施例判断的是两个图元所对应的点之间的线段,即计算点所代表的线段之端点与另一个点所代表的线段之端点的距离。因此,本实施例首先获取两个图元之间的距离,该距离即为这两个图元所对应的点i和点j之间的距离,接着,终端将所述距离/>与预设的距离阈值/>进行比较;若距离/>小于所述距离阈值/>,则确定两个图元之间是相互连接的,也就存在连接关系,具体示例如图5。具体公式如下:
,
其中,和/>分别表示两个图元的两端点坐标,/>和/>为点集合。也就是说,如果两个图元的端点之间的距离小某阈值/>,则认为两个图元是互相连接的。上述公式可应用于判断建筑设计图以及产品设计图中图元的连接关系。在另一种实现方式中,本实施例还可获取两个图元的端点,如果两个图元的端点相连,即可确定两个图元之间存在连接关系。比如,在电路图中,两个元器件的图元相连即表示两个图元存在连接关系。
在确定了图元之间的连接关系,即可确定对应点集的连接关系。在原始的点云分割方法中,通常都是计算每个点与其相邻的点的注意力来探索局部关系,而在本实施例中,同时考虑了每个点与之具有连接关系的点,即同时计算邻近点和连接点的注意力权重。具体公式如下:
,
其中,, M表示与P相邻的点集合(如图6所示的实心箭头), C表示与P之具有连接关系的点集合(如图6所示的虚线箭头),/>表示点i与点j之间的注意力权重。
此外,本实施例的骨干网络中的解码器中包括基于对比连接学习的损失函数。本实施例可进一步控制所述解码器中的损失函数对彼此相互连接的两个图元的类别进行判断,得到所述多尺度点集特征。
尽管在计算注意力时将连接关系考虑进去了,但是局部连接的图元不一定是属于同一个符号类别,因此直接引入连接关系,不可避免地会引入噪声连接关系。如图7所示,图元P是属于墙体,与之具有连接关系的与P是属于不同的类别(如:门或者窗属于不同的类别)。为了避免含有噪声的连接关系使得骨干网络学习的点集特征的区分性低,在本实施例中提出了对比连接学习的损失函数来监督网络学习,具体的损失函数如下:
,
其中,表示第i个图元的线长,/>表示第j个图元的线长,/>为第i个图元的特征信息,/>为第j个图元的特征信息。/>表示温度系数,是一个超参数,用于控制模型对于负样本的区分度。通过该损失函数,可以将属于同一类别的图元特征的距离拉近,不同类别的图元特征距离拉远,从而更好的判断两个图元的类别,从而识别出目标图元和非目标图元。结合图2所示,基于本实施例的骨干网络,可从二维点集中提取出多尺度点集特征,即图2中的F0,F1,F2,F3,其中F0特征的尺度最高。
步骤S300、将初始查询向量输入符号识别网络中,所述初始查询向量与所述多尺度点集特征在所述符号识别网络中进行交互,以得到目标查询向量,其中,所述目标查询向量用于反映所述图元的位置信息和特征信息。
当提取到多尺度点集特征后,本实施例可将初始查询向量在多尺度点集特征上使用预设模块进行由粗到精的逐步更新,从而得到目标查询向量。本实施例的目标查询向量包括图元的位置信息和特征信息,可视为一组向量(或两组向量,一组包括位置信息,另一组包括特征信息)。
在一种实现方式中,本实施例中在对查询向量进行更新时,包括如下步骤:
步骤S301、控制所述初始查询向量在所述符号识别网络中的第一层预设模块中与最低尺度点集特征进行交互,输出更新后的初始查询向量;
步骤S302、控制所述第一层预设模块输出的更新后的初始查询向量在所述符号识别网络中的第二层预设模块中与第二尺度点集特征进行交互;
步骤S303、以此类推,上一层预设模块输出的查询向量在下一层预设模块中与对应尺度的点集特征进行交互,输出更新后的查询向量,以得到所述目标查询向量。
具体地,本实施例的符号识别网络有L层,并且每一层中均设置有预设模块(该预设模块为图2中的M模块),L层的取值是多尺度点集特征的尺度数量-1。即,除了最高尺度点集特征无需和符号识别网络中预设模块进行交互外,剩余的每一个尺度特征(从最低尺度开始)分别与符号识别网络的每一层的预设模块进行交互,具体如图2所示。本实施例首先将初始查询向量和最低尺度点集特征(如图2中的F3)输入至所述符号识别网络中的第一层预设模块,然后控制所述初始查询向量在所述符号识别网络中的第一层预设模块中与最高尺度点集特征进行交互,输出更新后的初始查询向量。接着,控制所述第一层预设模块输出的更新后的初始查询向量在所述符号识别网络中的第二层预设模块中与第二尺度点集特征进行交互,此时的第二尺度点集特征为比最低尺度点集特征高一级的特征,如图2中的F2。以此类推,上一层预设模块输出的查询向量在下一层预设模块中与对应尺度的点集特征进行交互,从而输出更新后的查询向量,当除了最高尺度点集特征以外,所有的点集特征都和对应的预设模块交互后,就可以得到目标查询向量。从图2中可以看出,当将初始查询向量输入至符号识别网络中后,在符号识别网络的第一层预设模块中先更新初始查询向量,然后更新后的初始查询向量作为符号识别网络的第二层预设模块的输入,以此类推,从而实现查询向量的更新。
举例说明,如果多尺度点集特征的尺度数量为5,则符号识别网络的层数L为4,对应预设模块的个数也为4。因此,当多尺度点集特征在不同的预设模块进行交互,首先是查询向量1(即初始查询向量)在第一层预设模块M1与第一尺度点集特征(最低尺度点集特征)进行交互,此时第一尺度点集特征的尺度大小可为n=128,输出查询向量2(即更新后的查询向量1)。然后是查询向量2在第二层预设模块M2与第二尺度点集特征进行交互,此时第二尺度点集特征的尺度大小可为21n,输出查询向量3(即更新后的查询向量2)。接着是查询向量3在第三层预设模块M3与第三尺度点集特征进行交互,此时第三尺度点集特征的尺度大小可为22n,输出查询向量4(即更新后的查询向量3)。当查询向量4在第四三层预设模块M4与第四尺度点集特征进行交互,此时第四尺度点集特征的尺度大小可为23n,输出查询向量5(即更新后的查询向量4),此时的查询向量5即为目标查询向量。由此可见,本实施例中,除了最高尺度(24n尺度大小)点集特征无需和符号识别网络中的预设模块进行交互外,剩余的每一个尺度特征(从最低尺度开始)分别与符号识别网络的每一层的预设模块都进行交互。此外,本实施例是参考mask2former(通用的图像分割模型)设计出符号识别网络,用来对查询向量进行更新。在本实施例中,查询向量为零初始化的可学习的参数。本实施例的符号识别网络中涉及到掩码交叉注意力机制,该机制通过使用预测输出的高分辨率掩码经过降采样后的低分辨率注意掩码可用于加速查询向量在低分辨率的点集特征上的更新,如图8所示,将查询向量与最高尺度的点集特征F0输入至掩码预测模块后可进行注意力掩码降采样,从而加速查询向量更新模块对查询向量在低分辨率的点集特征上的更新,查询向量更新模块如图9所示。在掩码交叉注意力机制中,注意力掩码可以有效地避免查询向量和无效点集特征(背景特征)的交互,从而加速查询向量学习有效的信息。传统的在Mask2former中高分辨率掩码降采样采用的是双线性插值方法,该方法只适用于二维图像,无法应用于本实施例。为此,本实施例提出最近邻插值的降采样方法,以适用于一维的点集特征,具体如图10所示,图10中与中心点相连接的三个点dn1、dn2、dn3均为降采样时的一个点。本实施例中降采样公式如下:
,
其中,和/>表示全分辨率的注意力掩码和第r={1,2,3,4 }分辨率下的注意力掩码,/>是距离函数,/>表示点/>的最近邻的点集合,本实施例设置/>。
步骤S400、基于所述目标查询向量,确定所述原始矢量图中的图元对应的符号类别以及符号掩码,并基于所述符号类别与所述符号掩码,确定图元识别结果。
当得到目标查询向量后,也就识别出了图元的位置信息和特征信息,因此就可以基于目标的查询向量,确定所述原始矢量图中的图元对应的符号类别以及符号掩码,并基于所述符号类别与所述符号掩码,确定图元识别结果。
具体地,如图11所示,终端目标查询向量输入至掩码预测模块中的一个线性层(即第一线性层),得到所述符号类别,如门、窗。同时,将更新后的查询向量输入至掩码预测模块中的另一个线性层(即第二线性层),并与所述多尺度点集特征中的最高尺度特征F0进行点乘,得到所述符号掩码。最后,将所述符号类别与所述符号掩码进行点乘,得到所述图元识别结果,该图元识别结果可反映出从原始矢量图中的所有图元的位置和特征,比如门或者窗的位置与特征。
综上,本实施例在进行矢量图识别时,无需进行耗时的栅格化步骤,计算量更小,因此运行耗时更小,并且因无需进行栅格化步骤,保留了图元的结构信息,减少了图形丢失与遮挡的问题。并且,本发明的矢量图识别方法简单,具有良好的泛化性,可应用于各种复杂领域,包括但不限于建筑领域的图纸识别、电气领域的电路图的元器件的识别。
基于上述实施例,本发明还公开一种基于点集表示的矢量图识别装置,如图12中所示,所述装置包括:矢量图预处理模块10、特征提取模块20、查询向量更新模块30以及图元识别模块40。具体地,所述矢量图预处理模块10,用于获取原始矢量图,并对所述原始矢量图进行预处理,得到所述原始矢量图所对应的二维点集,所述二维点集用于反映所述原始矢量图所对应的图元。所述特征提取模块20,用于基于预设的骨干网络,对所述二维点集进行特征提取,得到多尺度点集特征,所述查询向量更新模块30,用于将初始查询向量输入符号识别网络中,所述初始查询向量与所述多尺度点集特征在所述符号识别网络中进行交互,以得到目标查询向量,其中,所述目标查询向量用于反映所述图元的位置信息和特征信息,所述图元识别模块40,用于基于所述目标查询向量,确定所述原始矢量图中的图元对应的符号类别以及符号掩码,并基于所述符号类别与所述符号掩码,确定图元识别结果。
在一种实现方式中,所述特征提取模块20包括:
点云分割单元,用于基于所述骨干网络对所述二维点集进行点云分割,得到若干点云,其中,每个点云用于对应一个图元;
连接判断单元,用于所述编码器中注意力模块基于两个图元之间连接关系的注意力对所述二维点集进行降采样,得到彼此相互连接的两个图元;
类别判断单元,用于所述解码器中的损失函数对彼此相互连接的两个图元的类别进行判断,得到所述多尺度点集特征。
在一种实现方式中,所述连接判断单元包括:
距离比较子单元,用于获取两个图元之间的距离,并将所述距离与预设的距离阈值进行比较;
第一关系确定子单元,用于若两个图元之间的距离小于所述距离阈值,则确定两个图元之间存在连接关系。
在一种实现方式中,所述连接判断单元还包括:
端点获取子单元,用于获取两个图元的端点;
第二关系确定子单元,用于若两个图元的端点相连,则确定两个图元之间存在连接关系。
在一种实现方式中,所述查询向量更新模块30,包括:
第一交互单元,用于控制所述初始查询向量在所述符号识别网络中的第一层预设模块中与最低尺度点集特征进行交互,输出更新后的初始查询向量;
第二交互单元,用于控制所述第一层预设模块输出的更新后的初始查询向量在所述符号识别网络中的第二层预设模块中与第二尺度点集特征进行交互;
向量更新单元,用于以此类推,上一层预设模块输出的查询向量在下一层预设模块中与对应尺度的点集特征进行交互,输出更新后的查询向量,以得到所述目标查询向量。
在一种实现方式中,所述图元识别模块40,包括:
符号类别确定单元,用于将所述目标查询向量输入至掩码预测模块中的第一线性层,得到所述符号类别;
符号掩码确定单元,用于将所述目标查询向量输入至掩码预测模块中的第二线性层,并与所述多尺度点集特征中的最高尺度特征进行点乘,得到所述符号掩码。
识别结果确定单元,用于将所述符号类别与所述符号掩码进行点乘,得到所述图元识别结果。
本实施例的基于点集表示的矢量图识别系统中各个模块的工作原理与上述方法实施例中各个步骤的原理相同,此处不再赘述。
基于上述实施例,本发明还提供了一种终端,所述终端的原理框图可以如图13所示。终端可以包括一个或多个处理器100(图13中仅示出一个),存储器101以及存储在存储器101中并可在一个或多个处理器100上运行的计算机程序102,例如,基于点集表示的矢量图识别程序。一个或多个处理器100执行计算机程序102时可以实现基于点集表示的矢量图识别方法实施例中的各个步骤。或者,一个或多个处理器100执行计算机程序102时可以实现基于点集表示的矢量图识别装置实施例中各模块/单元的功能,此处不作限制。
在一个实施例中,所称处理器100可以是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在一个实施例中,存储器101可以是电子设备的内部存储单元,例如电子设备的硬盘或内存。存储器101也可以是电子设备的外部存储设备,例如电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,存储器101还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器101用于存储计算机程序以及终端所需的其他程序和数据。存储器101还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员可以理解,图13中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、运营数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双运营数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种基于点集表示的矢量图识别方法,其特征在于,所述方法包括:
获取原始矢量图,并对所述原始矢量图进行预处理,得到所述原始矢量图所对应的二维点集,所述二维点集用于反映所述原始矢量图所对应的图元;
基于预设的骨干网络,对所述二维点集进行特征提取,得到多尺度点集特征;
将初始查询向量输入符号识别网络中,所述初始查询向量与所述多尺度点集特征在所述符号识别网络中进行交互,以得到目标查询向量,其中,所述目标查询向量用于反映所述图元的位置信息和特征信息;
基于所述目标查询向量,确定所述原始矢量图中的图元对应的符号类别以及符号掩码,并基于所述符号类别与所述符号掩码,确定图元识别结果。
2.根据权利要求1所述的基于点集表示的矢量图识别方法,其特征在于,所述骨干网络包括编码器和解码器,所述编码器用于对点集特征进行降采样,所述解码器用于对点集特征进行升采样。
3.根据权利要求2所述的基于点集表示的矢量图识别方法,其特征在于,所述基于预设的骨干网络,对所述二维点集进行特征提取,得到多尺度点集特征,包括:
基于所述骨干网络对所述二维点集进行点云分割,得到若干点云,其中,每个点云用于对应一个图元;
控制所述编码器中注意力模块基于两个图元之间连接关系的注意力对所述二维点集进行降采样,得到彼此相互连接的两个图元;
控制所述解码器中的损失函数对彼此相互连接的两个图元的类别进行判断,得到所述多尺度点集特征。
4.根据权利要求3所述的基于点集表示的矢量图识别方法,其特征在于,所述两个图元之间连接关系的确定方式,包括:
获取两个图元之间的距离,并将所述距离与预设的距离阈值进行比较;
若两个图元之间的距离小于所述距离阈值,则确定两个图元之间存在连接关系。
5.根据权利要求3所述的基于点集表示的矢量图识别方法,其特征在于,所述两个图元之间连接关系的确定方式,还包括:
获取两个图元的端点;
若两个图元的端点相连,则确定两个图元之间存在连接关系。
6.根据权利要求1所述的基于点集表示的矢量图识别方法,其特征在于,所述符号识别网络由多层预设模块组成,所述将初始查询向量输入符号识别网络中,所述初始查询向量与所述多尺度点集特征在所述符号识别网络中进行交互,以得到目标查询向量,包括:
所述初始查询向量在所述符号识别网络中的第一层预设模块中与最低尺度点集特征进行交互,输出更新后的初始查询向量;
所述第一层预设模块输出的更新后的初始查询向量在所述符号识别网络中的第二层预设模块中与第二尺度点集特征进行交互;
以此类推,上一层预设模块输出的查询向量在下一层预设模块中与对应尺度的点集特征进行交互,输出更新后的查询向量,以得到所述目标查询向量。
7.根据权利要求1所述的基于点集表示的矢量图识别方法,其特征在于,所述基于所述目标查询向量,确定所述原始矢量图中的图元对应的符号类别以及符号掩码,包括:
将所述目标查询向量输入至掩码预测模块中的第一线性层,得到所述符号类别;
将所述目标查询向量输入至掩码预测模块中的第二线性层,并与所述多尺度点集特征中的最高尺度特征进行点乘,得到所述符号掩码。
8.根据权利要求7所述的基于点集表示的矢量图识别方法,其特征在于,所述基于所述符号类别与所述符号掩码,确定图元识别结果,包括:
将所述符号类别与所述符号掩码进行点乘,得到所述图元识别结果。
9.一种基于点集表示的矢量图识别装置,其特征在于,所述装置包括:
矢量图预处理模块,用于获取原始矢量图,并对所述原始矢量图进行预处理,得到所述原始矢量图所对应的二维点集,所述二维点集用于反映所述原始矢量图所对应的图元;
特征提取模块,用于基于预设的骨干网络,对所述二维点集进行特征提取,得到多尺度点集特征;
查询向量更新模块,用于将初始查询向量输入符号识别网络中,所述初始查询向量与所述多尺度点集特征在所述符号识别网络中进行交互,以得到目标查询向量,其中,所述目标查询向量用于反映所述图元的位置信息和特征信息;
图元识别模块,用于基于所述目标查询向量,确定所述原始矢量图中的图元对应的符号类别以及符号掩码,并基于所述符号类别与所述符号掩码,确定图元识别结果。
10.一种终端,其特征在于,所述终端包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的基于点集表示的矢量图识别程序,所述处理器执行基于点集表示的矢量图识别程序时,实现如权利要求1-8任一项所述的基于点集表示的矢量图识别方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于点集表示的矢量图识别程序,所述基于点集表示的矢量图识别程序被处理器执行时,实现如权利要求1-8任一项所述的基于点集表示的矢量图识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311670533.6A CN117370591B (zh) | 2023-12-07 | 2023-12-07 | 基于点集表示的矢量图识别方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311670533.6A CN117370591B (zh) | 2023-12-07 | 2023-12-07 | 基于点集表示的矢量图识别方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117370591A true CN117370591A (zh) | 2024-01-09 |
CN117370591B CN117370591B (zh) | 2024-04-12 |
Family
ID=89391390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311670533.6A Active CN117370591B (zh) | 2023-12-07 | 2023-12-07 | 基于点集表示的矢量图识别方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117370591B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010092952A1 (ja) * | 2009-02-10 | 2010-08-19 | 公立大学法人大阪府立大学 | パターン認識装置 |
CN115170934A (zh) * | 2022-09-05 | 2022-10-11 | 粤港澳大湾区数字经济研究院(福田) | 一种图像分割方法、系统、设备及存储介质 |
CN115797706A (zh) * | 2023-01-30 | 2023-03-14 | 粤港澳大湾区数字经济研究院(福田) | 目标检测方法、目标检测模型训练方法及相关装置 |
CN116563604A (zh) * | 2023-04-04 | 2023-08-08 | 粤港澳大湾区数字经济研究院(福田) | 端到端目标检测模型训练、图像目标检测方法及相关设备 |
CN116934859A (zh) * | 2023-09-18 | 2023-10-24 | 博志生物科技(深圳)有限公司 | 基于矢状位图的关键点识别方法及相关装置 |
CN116994097A (zh) * | 2023-09-14 | 2023-11-03 | 杭州群核信息技术有限公司 | 图元识别方法、装置、设备以及存储介质 |
-
2023
- 2023-12-07 CN CN202311670533.6A patent/CN117370591B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010092952A1 (ja) * | 2009-02-10 | 2010-08-19 | 公立大学法人大阪府立大学 | パターン認識装置 |
CN115170934A (zh) * | 2022-09-05 | 2022-10-11 | 粤港澳大湾区数字经济研究院(福田) | 一种图像分割方法、系统、设备及存储介质 |
CN115797706A (zh) * | 2023-01-30 | 2023-03-14 | 粤港澳大湾区数字经济研究院(福田) | 目标检测方法、目标检测模型训练方法及相关装置 |
CN116563604A (zh) * | 2023-04-04 | 2023-08-08 | 粤港澳大湾区数字经济研究院(福田) | 端到端目标检测模型训练、图像目标检测方法及相关设备 |
CN116994097A (zh) * | 2023-09-14 | 2023-11-03 | 杭州群核信息技术有限公司 | 图元识别方法、装置、设备以及存储介质 |
CN116934859A (zh) * | 2023-09-18 | 2023-10-24 | 博志生物科技(深圳)有限公司 | 基于矢状位图的关键点识别方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117370591B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804815B (zh) | 一种基于深度学习辅助识别cad中墙体的方法和装置 | |
Wu et al. | Object detection based on RGC mask R‐CNN | |
WO2022017245A1 (zh) | 一种文本识别网络、神经网络训练的方法以及相关设备 | |
WO2021093435A1 (zh) | 语义分割网络结构的生成方法、装置、设备及存储介质 | |
CN112699806B (zh) | 一种基于三维热图的三维点云目标检测方法和装置 | |
JP2023541532A (ja) | テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN112200115B (zh) | 人脸识别训练方法、识别方法、装置、设备及存储介质 | |
WO2022257602A1 (zh) | 视频目标分割方法、装置、存储介质及电子设备 | |
CN113393468A (zh) | 图像处理方法、模型训练方法、装置和电子设备 | |
CN112686225A (zh) | Yolo神经网络的训练方法、行人检测方法和相关设备 | |
Yao et al. | As‐global‐as‐possible stereo matching with adaptive smoothness prior | |
CN116385859A (zh) | 图元识别方法、装置、计算机设备及其介质 | |
CN114565789B (zh) | 一种基于集合预测的文本检测方法、系统、装置及介质 | |
CN116030206A (zh) | 地图生成方法、训练方法、装置、电子设备以及存储介质 | |
CN111814895A (zh) | 基于绝对和相对深度诱导网络的显著性目标检测方法 | |
CN115170859A (zh) | 一种基于空间几何感知卷积神经网络的点云形状分析方法 | |
CN113837931B (zh) | 遥感图像的变换检测方法、装置、电子设备及存储介质 | |
CN113496260B (zh) | 基于改进YOLOv3算法的粮库人员不规范作业检测法 | |
CN113077477B (zh) | 图像矢量化方法、装置及终端设备 | |
Lv et al. | Memory‐augmented neural networks based dynamic complex image segmentation in digital twins for self‐driving vehicle | |
Lin et al. | Robust corner detection using altitude to chord ratio accumulation | |
CN114445825A (zh) | 文字检测方法、装置、电子设备和存储介质 | |
CN117370591B (zh) | 基于点集表示的矢量图识别方法、装置、终端及存储介质 | |
US20240012955A1 (en) | Generative network-based floor plan generation | |
CN115311403B (zh) | 深度学习网络的训练方法、虚拟形象生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |