CN112116011A - 一种用于cad图形的特征编码方法和相似度比较方法 - Google Patents
一种用于cad图形的特征编码方法和相似度比较方法 Download PDFInfo
- Publication number
- CN112116011A CN112116011A CN202010995968.8A CN202010995968A CN112116011A CN 112116011 A CN112116011 A CN 112116011A CN 202010995968 A CN202010995968 A CN 202010995968A CN 112116011 A CN112116011 A CN 112116011A
- Authority
- CN
- China
- Prior art keywords
- feature
- cad
- graph
- cad graph
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
Abstract
本发明公开了一种用于CAD图形的特征编码方法和相似度比较方法。提供了一种对CAD图形进行特征编码的方法,该方法包括:获取所述CAD图形;对CAD图形进行预处理,以获取该CAD图形的多种特征;从该多种特征中选择一种或多种特征,就所选择的一种或多种特征对所述CAD图形进行特征编码;统计特征编码的特征编码类型;基于特征编码类型计算特征编码值;以及基于特征编码类型和特征编码值,获取CAD图形的特征向量。
Description
技术领域
本发明涉及CAD图形领域,并具体涉及一种用于对CAD图形进行特征编码的方法以及一种用于利用该特征编码方法进行CAD图形相似度比较和识别的方法。
背景技术
CAD图形的相似度比较和识别具有非常广泛的应用场景,例如建筑/机电图纸的国标符号识别、图例识别、图纸的比较等等。CAD图形的相似度比较和识别的前提是需要比较充分的提取图形的特征并转换为特征向量,同时须保证基本不受图形缩放、平移、镜像、旋转和坐标变换的影响,并具有一定的抗拉伸和抗变形能力。
发明内容
CAD图形不同于像素组成的光栅图,也不同于拓扑结构图,CAD图形兼具拓扑特征和几何特征。常规的CAD图形特征提取方法通常采用诸如SIFT之类的算法来提取CAD图形的特征点,并通过特征点的坐标来进行CAD图形的表征和相似度计算。此种常规方法在CAD图形发生拉伸或变形等变换或其坐在的坐标系改变时需要相应地调整特征点坐标,因此对于CAD图形的图形变换或CAD图形所在的坐标系变换是不稳健的。
本发明考虑到CAD图形基本上由顶点、顶点相连的线段、线段的角度所构成,可结合CAD图形的拓扑及几何特征,采用CAD图形的顶点所连接的边(拓扑特征)+顶点所连接的各条边的角度集(几何特征)来综合表达CAD图形拓扑及几何兼具的独有特征。CAD图形中除了拓扑及几何特征,还有文字特征、填充特征等其他特征,因此,为了更准确的识别图形,还可增加文字特征T(Text)和填充特征H(Hatch)来表征CAD图形。对于包含文本的CAD图形,可基于文本中所包含的关键词来表达该CAD图形的文字特征。对于具有填充区域的CAD图形,通过解析CAD图形中的填充实体,可基于顶点所包围的填充区域来表达该CAD图形的填充特征。
本发明提供了一套独有的综合反映CAD图形的拓扑及几何特征、文字特征、填充特征等多种特征的特征编码方法。并且描述了一种CAD图形相似度比较方法,该方法按拓扑及几何特征优先、文字和填充特征相辅助的方式,基于上述特征编码方法,分别获取CAD图形的特征向量和比较对象CAD图形的特征向量,基于特征向量进行相似度计算从而达到较准确进行CAD图形相似度比较的目的。
根据本发明的第一方面,提供了一种用于CAD图形的特征编码方法,包括:获取所述CAD图形;对所述CAD图形进行预处理,以获取所述CAD图形的多种特征;从所述多种特征中选择一种或多种特征,就所选择的一种或多种特征对所述CAD图形进行特征编码;统计所述特征编码的特征编码类型;基于所述特征编码类型计算特征编码值;以及基于所述特征编码类型和所述特征编码值,获取所述CAD图形的特征向量。根据本发明的实施例,当所选择的一种或多种特征为拓扑及几何特征时,就所选择的一种或多种特征对所述CAD图形进行特征编码包括:对所述CAD图形中每个顶点所连接的边进行计数,以得到边数;对所述CAD图形中所述每个顶点所连接的边组成的角按角度类型进行计数,以得到角度集;以及基于所述边数和所述角度集,逐顶点地对所述CAD图形进行所述特征编码,其中,所述特征编码类型为所述边数和所述角度集所构成的组合的类型,并且其中,所述特征编码值是所述CAD图形中的每种特征编码类型下顶点的数量。根据本发明的实施例,当所选择的一种或多种特征为文字特征时,就所选择的一种或多种特征对所述CAD图形进行特征编码包括:确定所述CAD图形中包含的文本的关键词;基于所述文本计算所述关键词的词频;以及基于所述关键词和所述词频,对所述CAD图形进行所述特征编码,其中,所述特征编码类型为所述关键词,并且其中,所述特征编码值为所述词频。进一步地,根据本发明的实施例,确定所述CAD图形中包含的文本的关键词包括:对所述CAD图形中包含的所述文本进行分词以获取所述CAD图形中包含的词语;利用TF-IDF算法计算所述词语的TF值;以及选择所述TF值最高的多个词语作为所述CAD图形中包含的所述文本的所述关键词。作为替代,根据本发明的实施例,确定所述CAD图形中包含的文本的关键词进一步包括:对所述CAD图形中包含的所述文本进行分词以获取所述CAD图形中包含的词语;利用TF-IDF算法计算所述词语的TF值和IDF值;基于所述TF值和所述IDF值计算所述词语的TF-IDF值;以及选择所述TF-IDF值最高的多个词语作为所述CAD图形中包含的所述文本的所述关键词。另外,根据本发明的实施例,当所选择的一种或多种特征为填充特征时,就所选择的一种或多种特征对所述CAD图形进行特征编码包括:对所述CAD图形中每个顶点所连接的边进行计数,以得到边数;对所述CAD图形中所述每个顶点所包围的填充区域进行计数,以得到填充区域数;以及基于所述边数和所述填充区域数,逐顶点地对所述CAD图形进行所述特征编码,其中,所述特征编码类型为所述边数和所述填充区域数所构成的组合的类型,并且其中,所述特征编码值是所述CAD图形中的每种特征编码类型下顶点的数量。根据本发明的实施例,用于CAD图形的特征编码方法进一步包括:将所述CAD图形以所述特征向量的形式存储在数据库中。
根据本发明的第二方面,提供了一种用于CAD图形相似度比较的方法,包括:获取所述CAD图形;对所述CAD图形进行预处理,以获取所述CAD图形的多种特征;从所述多种特征中选择一种或多种特征,并就所选择的一种或多种特征对所述CAD图形进行特征编码,以计算所述CAD图形的第一特征编码组;获取比较对象CAD图形的所述所选择的一种或多种特征的第二特征编码组;将所述第一特征编码组中所包含的特征编码类型与所述第二特征编码组中所包含特征编码类型进行去重后,合并成为特征编码类型集合;基于所述特征编码类型集合分别获取所述CAD图形的特征编码值和所述比较对象CAD图形的特征编码值;基于所述特征编码类型集合和所述特征编码值,分别获取所述CAD图形的第一特征向量和所述比较对象CAD图形的第二特征向量;基于所述第一特征向量和所述第二特征向量,进行相似度计算;以及根据所述相似度计算的结果,确定所述CAD图形与所述比较对象CAD图形的相似程度。进一步地,根据本发明的实施例,利用余弦相似度算法来基于所述第一特征向量和所述第二特征向量进行所述相似度计算。另外,根据本发明的实施例,用于CAD图形相似度比较的方法进一步包括:在基于所述第一特征向量和所述第二特征向量进行相似度计算之前,根据所述第一特征编码组中所包含的特征编码类型和所述第二特征编码组中所包含特征编码类型分别对所述CAD图形和所述比较对象CAD图形进行稀疏化。根据本发明的实施例,当从所述多种特征中选择拓扑及几何特征来确定所述CAD图形与所述比较对象CAD图形的相似程度时,并且其中,就所述拓扑及几何特征对所述CAD图形进行特征编码以计算所述CAD图形的第一特征编码组包括:对所述CAD图形中每个顶点所连接的边进行计数,以得到边数;对所述CAD图形中所述每个顶点所连接的边组成的角按角度类型进行计数,以得到角度集;基于所述边数和所述角度集,逐顶点地对所述CAD图形进行所述特征编码;以及统计特征编码类型和特征编码值,以获得所述第一特征编码组,其中,所述特征编码类型为所述边数和所述角度集所构成的组合的类型,并且其中,所述特征编码值是所述CAD图形中的每种特征编码类型下顶点的数量。根据本发明的实施例,在第二方面中提供的用于CAD图形相似度比较的方法进一步包括以下各项中的一项或多项:从所述多种特征中进一步选择文字特征来辅助确定所述CAD图形与所述比较对象CAD图形的相似程度,并且附加地就所述文字特征对所述CAD图形进行特征编码以计算所述CAD图形的第一文字特征编码组;或者从所述多种特征中进一步选择填充特征来辅助确定所述CAD图形与所述比较对象CAD图形的相似程度,并且附加地就所述填充特征对所述CAD图形进行特征编码以计算所述CAD图形的第一填充特征编码组。进一步地,根据本发明的实施例,附加地就所述文字特征对所述CAD图形进行特征编码以计算所述CAD图形的第一文字特征编码组包括:确定所述CAD图形中包含的文本的关键词;基于所述文本计算所述关键词的词频;以及基于所述关键词和所述词频,以获得所述CAD图形的第一文字特征编码组。更进一步地,根据本发明的实施例,确定所述CAD图形中包含的文本的关键词包括:对所述CAD图形中包含的所述文本进行分词以获取所述CAD图形中包含的词语;利用TF-IDF算法计算所述词语的TF值;以及选择所述TF值最高的多个所述词语作为所述CAD图形中包含的所述文本的所述关键词。或者作为替代,根据本发明的实施例,确定所述CAD图形中包含的文本的关键词包括:对所述CAD图形中包含的所述文本进行分词以获取所述CAD图形中包含的词语;利用TF-IDF算法计算所述词语的TF值和IDF值;基于所述TF值和所述IDF值计算所述词语的TF-IDF值;以及选择所述TF-IDF值最高的多个所述词语作为所述CAD图形中包含的所述文本的所述关键词。根据本发明的实施例,附加地就所述填充特征对所述CAD图形进行特征编码以计算所述CAD图形的第一填充特征编码组包括:对所述CAD图形中所述每个顶点所包围的填充区域进行计数,以得到填充区域数;基于所述边数和所述填充区域数,逐顶点地对所述CAD图形进行所述特征编码;以及统计填充特征编码类型和填充特征编码值,以获得所述第一填充特征编码组,其中,所述填充特征编码类型为所述边数和所述填充区域数的类型,并且其中,所述特征编码值是所述CAD图形中的每种填充特征编码类型下顶点的数量。
本发明提供的特征编码方法能够综合反映CAD图形的拓扑及几何特征、文字特征、填充特征等多种特征,并且能够利用该特征编码方法快速地将CAD图形转换为特征向量,且基本不受图形缩放、平移、镜像、旋转和坐标变换的影响,并具有一定的抗拉伸和抗变形能力。在此基础上,本发明提供的相似度比较方法能够基于特征向量进行相似度计算,从而更准确地比较CAD图形的相似度。
附图说明
为了提供对本发明及本发明的特征和优点的更完整的理解,结合所附附图进行下列描述,其中,相同或相应的附图标记表示相同或相应的部分,其中:
图1图示出根据本发明的实施例的特征编码方法的流程图;
图2图示出根据本发明的实施例的相似度比较方法的流程图;
图3图示出一种示例CAD图形的示意图;
图4图示出另一示例CAD图形的示意图;
图5图示出具有填充区域的示例CAD图形的示意图;
图6图示出以CAD图形表示的单开开关和双开开关的示意图;
图7图示出以CAD图形表示的单开开关和三开开关的示意图;
图8图示出以CAD图形表示的单开开关和防水单相三孔插座的示意图;
图9图示出包含文本的示例CAD图形的示意图;
图10图示出包含文本并具有填充区域的示例CAD图形的示意图;
具体实施方式
本发明提供了一套独有的综合反映CAD图形的拓扑及几何特征、文字特征、填充特征等多种特征的特征编码方法,如图1中框102至框112所示,特征编码方法100通过提取CAD图形中多种特征的相关元素、获得相关特征编码、统计特征编码类型并计算特征编码值,可快速地基于特征编码类型和特征编码值将CAD图形转换为该CAD图形的特征向量。将CAD图形按其特征向量存储在数据库中。例如,可以采用本文中所描述的特征编码方法,提取国家或行业标准所规定的CAD图例符号提取的相关特征并就这些特征对标准CAD图例符号进行特征编码,将CAD图例符号变换为相应的特征向量,全部存入云端数据中心。
表1概述了就各种特征对CAD图形进行的特征编码:
表1
按拓扑及几何特征优先、文字和填充特征相辅助的方式,基于上述特征编码方法,利用如图2中框202至框218所示的CAD图形相似度比较方法200,分别获取CAD图形的特征向量和比较对象CAD图形的特征向量,基于特征向量进行相似度计算从而达到较准确进行CAD图形相似度比较的目的。
当用户浏览CAD图纸时,可快速将图纸中的图例符号与云端的国标符号库进行相似度比较,完成CAD图例符号的快速识别,达到智能识图的目的。
特征编码
针对拓扑及几何特征对CAD图形进行特征编码
图1图示出根据本发明的实施例的特征编码方法100。如图1中所示,方法100开始于框102,在框102处获取CAD图形。随后,在框104处,对所获取的CAD图形进行预处理,以获取该CAD图形的多种特征。该多种特征包括拓扑及几何特征。在框106处,选择拓扑及几何特征,并就拓扑及几何特征对所获取的CAD图形进行特征编码。
就拓扑及几何特征对CAD图形进行特征编码包括针对CAD图形中的不同顶点i,利用该顶点的度(与该顶点相连接的边的数量)E、顶点各条边之间的角度集A,通过计算CAD图形中所有特征编码类型下顶点的数量,来表达CAD图形几何及拓扑兼具的全局特征。
具体而言,将CAD图形中所包含的图块全部打散为直线段(也即,CAD图形的边)。作为非限制性实施例,圆弧/曲线按相接点或交点分割成直线段;圆视为增加一个独立六边形,计六个线段;椭圆视同圆处理。由此,可获得CAD图形的顶点,即CAD图形中所有线段(含弧线)相接点;线段(含弧线)端点;线段(含弧线)相交的交点;以及线段(含弧线)与圆/椭圆相接点或相交点。进一步地,对CAD图形的顶点i相连接的边进行计数,得到顶点i的度(顶点i相连接的边的数量)Ei。对于顶点i相连接的各条边所组成的角度集Ai,作为非限制性实施例,以顶点i相连接的边组成的角度按不同的角度类型的计数nj加上该角度类型编码符号ASj(Angle Symbol)的集合表示,即Ai=Sum{nj&ASj}。由此,按特征编码规则{Ei,Ai}逐顶点地对CAD图形进行特征编码。作为非限制性实施例,角度类型编码符号ASj可采用表2所示的角度编码表中的角度类型编码符号。
序号 | 角度类型 | 角度类型编码符号 |
1 | 锐角 | a |
2 | 90度角 | b |
3 | 90-180度角 | c |
4 | 180度角 | d |
5 | 180-270度角 | e |
6 | 270度角 | f |
7 | 270-360度角 | g |
8 | 360度角 | h |
表2
随后,在框108处,统计边数Ei和角度集Ai所构成的组合的类型Vk。例如图3中所图示的CAD图形,其中心点的特征编码V1{5,3a2b}代表该中心点与5个边相连,相邻边组成的角度集由3个锐角+2个直角组成,特征编码类型为V1。作为另一示例,如上文所描述,圆/椭圆视为一个六边形,具有6个顶点,每个顶点的特征编码为:V圆{2,1c1e};线段与圆/椭圆/圆弧上的交点视为与圆/椭圆/圆弧的两段相接,相交点与相接的两段圆弧的角度简化为120度,即角度类型编码为c,即V圆弧{3,3c}。作为再一示例,孤立的端点因其相接的线段数量为1,特征编码为:V端点{1,1h}。作为又一示例,带箭头的端点可视为该点与3个线段相连,相邻线段的角度由2个锐角+1个大于270度角组成,因表示箭头的两个线段很短,可忽略该两个短线段的端点,所以可简化表示为:V箭头{3,2a1g}。
在框110处,基于在框108处统计的边数Ei和角度集Ai组成的组合的类型Vk,计算每种特征编码类型Vk下顶点的数量。例如,对于图4中示出的CAD图形,四个顶点的特征编码分别为{1,1h};{2,1a1g};{2,1a1g};{3,3c},其中包含三种特征编码类型V1:{1,1h}、V2:{2,1a1g}、V3:{3,3c},特征编码类型V1下包含1个顶点,即特征编码{1,1h}的特征编码值为1;特征编码类型V2下包含2个顶点,即特征编码{2,1a1g}的特征编码值为2;特征编码类型V3下包含1个顶点,即特征编码{3,3c}的特征编码值为1。
在框112处,基于特征编码类型和特征编码值,获取CAD图形的特征向量。具体而言,作为非限制性实施例,将特征编码按Vk{Ei,Ai}中Ei、Ai的值升序排列,得到一组特征编码类型及相应的值的组合,即该图形每个特征编码维度的值组合。可将每个图形的特征编码值组合按升序排列的规则保存在数据库。例如,对于图4中所图示的CAD图形,G(图4)=[{1,1h}:2,{2,1a1g}:1,{3,3c}:1]。
针对文字特征对CAD图形进行特征编码
当在框106处选择文字特征时,则就文字特征对CAD图形进行特征编码。针对文字特征对CAD图形进行编码具体可利用CAD图形中“所包含的文本的关键词、关键词的词频”,来表达出CAD图形的文字特征。
在实施例中,使用TF-IDF算法来确定CAD图形中包含的文本的关键词。通过对CAD图形中的文字实体(单行和多行文本)进行解析,可获取CAD图形包含的文本。作为非限制性实施例,对所获取的文本进行结巴分词,以获取其中所包含的词语nij。其中,由于CAD图形中的很多用大写英文字母表示特定的含义,所以在对简单图形,如图块、图例符号的文本分词时,不能采取通用的文本分词方法,而是需要在分词时将大写的英文字母单独作为一个词对待。随后,作为示例,根据TF-IDF算法对所分的词语归一化计算TF值tfi,j(公式1)。作为非限制性实施例,可提取TF值前20的词语作为该CAD图形的关键词。替代地,作为另一示例,对于所含文字非常多的大型CAD图块或图形,除计算所分词语的TF值之外,还需要进一步根据TF-IDF算法对所分的词语进行语料库(可利用现有免费语料库或建立自己的专业语料库)查询从而获得语料库中包含该词的文档数来计算所分词语的IDF值idfi(逆文档频率)(公式2),然后计算TF-IDF值tfidfij(公式3),在此基础上提取该CAD图形中TF-IDF值前20的词语作为CAD图形的关键词。这样可过滤掉常见的词语,保留重要的词语,更准确的获得该CAD图形的关键词。
tfidfi,j=tfi,j×idfi 公式3
随后,在框108处,统计所确定的关键词。并且在框110处,基于CAD图形中包含的文本,计算CAD图形的关键词的词频(例如,该关键词的TF值)。基于在框108处确定的关键词以及在框110处计算的词频,在框112处,获取CAD图形的文字特征向量。
针对填充特征对CAD图形进行特征编码
当在框106处选择填充特征时,则就填充特征对CAD图形进行特征编码。针对填充特征对CAD图形进行编码具体可针对CAD图形的顶点i,利用顶点的度(与该顶点相连接的边的数量)E、顶点的填充属性H,通过计算CAD图形中所有特征编码类型下顶点的数量,来表达出CAD图形的填充特征。
具体而言,对CAD图形中的填充实体(包括图案填充和颜色填充)进行解析,获取包围填充区域的各个顶点。进一步地,对CAD图形的顶点i相连接的边进行计数,得到顶点i的度(顶点i相连接的边的数量)Ei。此外,对顶点i所包围的填充区域进行计数,得到顶点i的填充属性Hi(表示该顶点i所包围的填充区域的数量,其中其属性值为0代表否,可以忽略)。由此,按特征编码规则{Ei,Hi}逐顶点地对CAD图形进行特征编码。
随后,在框108处,统计顶点相连接的边的边数(顶点的度)和顶点所包围的填充区域的填充区域数(顶点的填充属性)所构成的组合的类型。在框110处,基于在框108处统计出的特征编码类型,计算每种特征编码类型下顶点的数量。例如图5中所图示的CAD图形,矩形中五个顶点的填充特征编码分别为{3,1};{3,1};{3,1};{3,1};{4,1},其中包含两种特征编码类型V1:{3,1}、V2:{4,1},特征编码类型V1下包含4个顶点,即特征编码{3,1}的特征编码值为4;特征编码类型V2下包含1个顶点,即特征编码{4,1}的特征编码值为1。
在框112处,基于特征编码类型和特征编码值,获取CAD图形的特征向量。具体而言,作为非限制性实施例,将填充特征编码{Ei,Hi}按Ei、Hi的值升序排列,得到一组填充特征编码类型及相应的特征编码值的组合,从而得到CAD图形的特征向量。
相似度比较
进一步地,本文中所描述的特征编码方法可用于进行CAD图形相似度比较和CAD图形识别。本文进一步描述了利用该特征编码方法进行CAD图形相似度比较的方法。图2图示出根据本发明的实施例的相似度比较方法200的流程图。具体地,按拓扑及几何特征优先、文字特征和填充特征相辅助的方式,利用如图2中框202至框218所示的CAD图形相似度比较方法200来比较CAD图形和比较对象CAD图形的相似程度。
针对拓扑及几何特征对CAD图形进行相似度比较
如图2中所图示,方法200首先利用上文中所描述的特征编码方法对获得CAD图形的特征编码。具体而言,在框206处选择拓扑及几何特征,则针对拓扑及几何特征对CAD图形进行特征编码,以计算该CAD图形的第一特征编码组。类似地,在框208处,获得比较对象CAD图形的针对拓扑及几何特征的第二特征编码组。或者作为替代实现方式,在框208处,可以从数据库中取出比较对象CAD图形的针对拓扑及几何特征的特征向量,由此获得该比较对象CAD图形的第二特征编码组。
随后,在框210处,将CAD图形的第一特征编码组中包含的特征编码类型与比较对象CAD图形的第二特征编码组中包含的特征编码类型进行去重,随后合并得到CAD图形和比较对象CAD图形两者的特征编码类型集合。作为示例,图6图示出作为待比较CAD图形的单开开关CAD图块a和作为比较对象CAD图形的双开开关CAD图块b。在图块a中共有6个顶点(其中圆计为6-3*1=3个),逐顶点地对图块a进行特征编码,得到{1,1h};{2,1b1f};{2,1c1e};{2,1c1e};{2,1c1e};{3,3c},由此可计算出图块a的第一特征编码组(表3)。类似地,可计算出图块b的第二特征编码组(表4)。对图块a的第一特征编码组包含的特征编码类型与图块b的第二特征编码组包含的特征编码类型进行去重,随后合并得到图块a和图块b的特征编码类型集合为:V1{1,1h};V2{2,1b1f};V3{2,1c1e};V4{3,2b1d};V5{3,3c}。
在框212处,基于特征编码类型集合分别获取CAD图形的特征编码值和比较对象CAD图形特征编码值。作为示例,分别获得图块a和图块b的特征编码值(表5)。
特征编码类型集合 | 图块a的特征编码值 | 图块b的特征编码值 |
V<sub>1</sub>{1,1h} | 1 | 2 |
V<sub>2</sub>{2,1b1f} | 1 | 1 |
V<sub>3</sub>{2,1c1e} | 3 | 3 |
V<sub>4</sub>{3,2b2d} | 0 | 1 |
V<sub>5</sub>{3,3c} | 1 | 1 |
表5
随后,在框214处,基于在框210处得到的特征编码类型集合和在框212处得到的特征编码值,分别计算CAD图形的第一特征向量和比较对象CAD图形的第二特征向量。作为非限制性实施例,分别对图块a和图块b的特征编码类型进行one hot词袋编码,将离散特征的取值扩展到欧式空间,以便于基于向量空间中的度量来进行余弦相似度计算。one hot词袋编码后,分别计算图块a和b的特征向量X=(x1,x2,x3,…xi)及Y=(y1,y2,y3,…yi),得到图块a的特征向量:Xa=(1,1,3,0,1)和图块b的特征向量:Yb=(2,1,3,1,1)。
流程进行到框216处,基于CAD图形的第一特征向量和比较对象CAD图形的第二特征向量进行相似度计算。作为非限制性实施例,可采用余弦相似度算法(公式4)来进行此类相似度计算。
例如,对于图6中所图示的单开开关(图块a)和双开开关(图块b),基于在框214处得到的特征向量,计算图块a和图块b的余弦相似度:
作为另一示例,图7图示出单开开关CAD图块和三开开关CAD图块。类似地,可计算出单开开关CAD图块与三开开关CAD图块的余弦相似度为0.8250。作为又一示例,图8图示出双开开关CAD图块和单项三孔插座CAD图块。类似地,可计算出双开开关CAD图块与单项三孔插座CAD图块的余弦相似度为0.4009。
随后,流程进行至框218,根据框216处相似度计算的结果,确定CAD图形与比较对象CAD图形的相似程度。例如,作为非限制性实施例,相似度计算结果>0.8,则CAD图形与比较对象CAD图形相似,相似度计算结果>0.99,则CAD图形与比较对象CAD图形相同,值越接近1,表示越相似。进一步地,可对相似程度的确定进行测试调优。
针对文字特征对CAD图形进行相似度比较
CAD图形的文字特征不能反映其拓扑特征和几何特征,因此对于简单图形,不能单独针对文字特征来确定CAD图形的相似度,而是只能作为拓扑及几何特征相似度比较的辅助手段,提高比较的准确度。尤其对于图例和符号,其拓扑及几何特征相同时,进行文字特征的比较来准确区分不同的含义。例如图9中所图示的六个CAD图形(六个不同的图例符号),各图例符号的拓扑及几何特征相同,只能用其所含有的文字来区分所代表的不同类型设备。
采用如图2中所图示方法200针对文字特征来进行CAD图形相似度比较。具体而言,在框206处选择文字特征,则针对文字对CAD图形进行特征编码,以计算该CAD图形的第一特征编码组。类似地,在框208处,获得比较对象CAD图形的针对文字特征的第二特征编码组。或者作为替代实现方式,在框208处,可以从数据库中取出比较对象CAD图形的针对文字的特征向量,由此获得该比较对象CAD图形的第二特征编码组。
随后,在框210处,将CAD图形的第一特征编码组中包含的关键词与比较对象CAD图形的第二特征编码组中包含的关键词进行去重,随后合并得到CAD图形和比较对象CAD图形两者的关键词集合。在框212处,基于在框210处得到的关键词集合,分别基于CAD图形包含的文本计算关键词集合中关键词的词频,基于比较对象CAD图形中包含的文本计算关键词集合中关键词的词频。随后,在框214处,分别计算CAD图形的第一词频特征向量和比较对象CAD图形的第二词频特征向量。流程进行到框216处,基于CAD图形的第一特征词频向量和比较对象CAD图形的第二特征词频向量进行相似度计算。随后,流程进行至框218,根据框216处相似度计算的结果,确定CAD图形与比较对象CAD图形针对文字特征的相似程度。
针对填充特征对CAD图形进行相似度比较
对于图10中所图示作为待比较CAD图形的防烟防火阀CAD图块a和作为比较对象CAD图形的防火阀CAD图块d,各图块的拓扑及几何特征相同,可附加地采用填充特征来区分所代表的不同类型设备。
采用如图2中所图示方法200针对填充特征来进行CAD图形相似度比较。具体而言,在框206处选择填充特征,则针对填充特征对CAD图形进行特征编码,以计算该CAD图形的第一特征编码组。类似地,在框208处,获得比较对象CAD图形的针对填充特征的第二特征编码组。或者作为替代实现方式,在框208处,可以从数据库中取出比较对象CAD图形的针对填充特征的特征向量,由此获得该比较对象CAD图形的第二特征编码组。
随后,在框210处,将CAD图形的第一特征编码组中包含的特征编码类型与比较对象CAD图形的第二特征编码组中包含的特征编码类型进行去重,随后合并得到CAD图形和比较对象CAD图形两者的特征编码类型集合。作为示例,图10图示出防烟防火阀CAD图块c和防火阀CAD图块d。逐顶点地对图块c进行特征编码,得到{4,1};{3,1}(忽略填充属性值为0的顶点),由此可计算出图块c的第一特征编码组(表6)。类似地,可计算出图块d的第二特征编码组(表7)。对图块c的第一特征编码组包含的特征编码类型与图块d的第二特征编码组包含的特征编码类型进行去重,随后合并得到图块c和图块d的特征编码类型集合为:V1{3,1};V2{4,1};V3{4,2}。
在框212处,基于特征编码类型集合分别获取CAD图形的特征编码值和比较对象CAD图形特征编码值。随后,在框214处,基于在框210处得到的特征编码类型集合和在框212处得到的特征编码值(表8),分别计算CAD图形的第一特征向量和比较对象CAD图形的第二特征向量。
特征编码类型集合 | 图块c的特征编码值 | 图块d的特征编码值 |
V<sub>1</sub>{3,1} | 2 | 4 |
V<sub>2</sub>{4,1} | 1 | 0 |
V<sub>3</sub>{4,2} | 0 | 1 |
表8
流程进行到框216处,基于CAD图形的第一特征向量和比较对象CAD图形的第二特征向量进行相似度计算。随后,流程进行至框218,根据框216处相似度计算的结果,确定CAD图形与比较对象CAD图形针对填充特征的相似程度。
以上对本发明的CAD图形的特征编码方法和相似度比较方法的具体实施方式进行了描述。如本领域普通技术人员所熟知的,在上面描述的各实施方式中,对于大型或复杂的CAD图块或CAD图形,计算量可能过大,可采取减少特征编码维度的方式,即将顶点稀疏化。作为非限制性实施例,可采用下列稀疏化方法:a.忽略特征编码{Ei,Ai}中E=1的所有顶点(即忽略只与一条线段相接的端点);b.忽略特征编码值为1的所有顶点和特征编码{Ei,Ai}中E=1的所有顶点;c.忽略线段之间的交点,只统计与端点相关的点;d.忽略圆角,如忽略半径小于相连线段长度5%-10%的圆角,直接视为直线段处理。
Claims (16)
1.一种用于CAD图形的特征编码方法,包括:
获取所述CAD图形;
对所述CAD图形进行预处理,以获取所述CAD图形的多种特征;
从所述多种特征中选择一种或多种特征,就所选择的一种或多种特征对所述CAD图形进行特征编码;
统计所述特征编码的特征编码类型;
基于所述特征编码类型计算特征编码值;以及
基于所述特征编码类型和所述特征编码值,获取所述CAD图形的特征向量。
2.如权利要求1所述的方法,其中,当所选择的一种或多种特征为拓扑及几何特征时,就所选择的一种或多种特征对所述CAD图形进行特征编码包括:
对所述CAD图形中每个顶点所连接的边进行计数,以得到边数;
对所述CAD图形中所述每个顶点所连接的边组成的角按角度类型进行计数,以得到角度集;以及
基于所述边数和所述角度集,逐顶点地对所述CAD图形进行所述特征编码,
其中,所述特征编码类型为所述边数和所述角度集所构成的组合的类型,并且其中,所述特征编码值是所述CAD图形中的每种特征编码类型下顶点的数量。
3.如权利要求1所述的方法,其中,当所选择的一种或多种特征为文字特征时,就所选择的一种或多种特征对所述CAD图形进行特征编码包括:
确定所述CAD图形中包含的文本的关键词;
基于所述文本计算所述关键词的词频;以及
基于所述关键词和所述词频,对所述CAD图形进行所述特征编码,
其中,所述特征编码类型为所述关键词,并且其中,所述特征编码值为所述词频。
4.如权利要求3所述的方法,其中,确定所述CAD图形中包含的文本的关键词包括:
对所述CAD图形中包含的所述文本进行分词以获取所述CAD图形中包含的词语;
利用TF-IDF算法计算所述词语的TF值;以及
选择所述TF值最高的多个词语作为所述CAD图形中包含的所述文本的所述关键词。
5.如权利要求3所述的方法,其中,确定所述CAD图形中包含的文本的关键词进一步包括:
对所述CAD图形中包含的所述文本进行分词以获取所述CAD图形中包含的词语;
利用TF-IDF算法计算所述词语的TF值和IDF值;
基于所述TF值和所述IDF值计算所述词语的TF-IDF值;以及
选择所述TF-IDF值最高的多个词语作为所述CAD图形中包含的所述文本的所述关键词。
6.如权利要求1所述的方法,其中,当所选择的一种或多种特征为填充特征时,就所选择的一种或多种特征对所述CAD图形进行特征编码包括:
对所述CAD图形中每个顶点所连接的边进行计数,以得到边数;
对所述CAD图形中所述每个顶点所包围的填充区域进行计数,以得到填充区域数;以及
基于所述边数和所述填充区域数,逐顶点地对所述CAD图形进行所述特征编码,
其中,所述特征编码类型为所述边数和所述填充区域数所构成的组合的类型,并且其中,所述特征编码值是所述CAD图形中的每种特征编码类型下顶点的数量。
7.如权利要求1-6中任一项所述的方法,进一步包括:
将所述CAD图形以所述特征向量的形式存储在数据库中。
8.一种用于CAD图形相似度比较的方法,包括:
获取所述CAD图形;
对所述CAD图形进行预处理,以获取所述CAD图形的多种特征;
从所述多种特征中选择一种或多种特征,并就所选择的一种或多种特征对所述CAD图形进行特征编码,以计算所述CAD图形的第一特征编码组;
获取比较对象CAD图形的所述所选择的一种或多种特征的第二特征编码组;
将所述第一特征编码组中所包含的特征编码类型与所述第二特征编码组中所包含特征编码类型进行去重后,合并成为特征编码类型集合;
基于所述特征编码类型集合分别获取所述CAD图形的特征编码值和所述比较对象CAD图形的特征编码值;
基于所述特征编码类型集合和所述特征编码值,分别获取所述CAD图形的第一特征向量和所述比较对象CAD图形的第二特征向量;
基于所述第一特征向量和所述第二特征向量,进行相似度计算;以及
根据所述相似度计算的结果,确定所述CAD图形与所述比较对象CAD图形的相似程度。
9.如权利要求8所述的方法,其中,利用余弦相似度算法来基于所述第一特征向量和所述第二特征向量进行所述相似度计算。
10.如权利要求8所述的方法,其中,所述方法进一步包括:在基于所述第一特征向量和所述第二特征向量进行相似度计算之前,根据所述第一特征编码组中所包含的特征编码类型和所述第二特征编码组中所包含特征编码类型分别对所述CAD图形和所述比较对象CAD图形进行稀疏化。
11.如权利要求8-10中任一项所述的方法,其中,当从所述多种特征中选择拓扑及几何特征来确定所述CAD图形与所述比较对象CAD图形的相似程度时,并且其中,就所述拓扑及几何特征对所述CAD图形进行特征编码以计算所述CAD图形的第一特征编码组包括:
对所述CAD图形中每个顶点所连接的边进行计数,以得到边数;
对所述CAD图形中所述每个顶点所连接的边组成的角按角度类型进行计数,以得到角度集;
基于所述边数和所述角度集,逐顶点地对所述CAD图形进行所述特征编码;以及
统计特征编码类型和特征编码值,以获得所述第一特征编码组,其中,所述特征编码类型为所述边数和所述角度集所构成的组合的类型,并且其中,所述特征编码值是所述CAD图形中的每种特征编码类型下顶点的数量。
12.如权利要求11所述的方法,进一步包括以下各项中的一项或多项:
从所述多种特征中进一步选择文字特征来辅助确定所述CAD图形与所述比较对象CAD图形的相似程度,并且附加地就所述文字特征对所述CAD图形进行特征编码以计算所述CAD图形的第一文字特征编码组;或者
从所述多种特征中进一步选择填充特征来辅助确定所述CAD图形与所述比较对象CAD图形的相似程度,并且附加地就所述填充特征对所述CAD图形进行特征编码以计算所述CAD图形的第一填充特征编码组。
13.如权利要求12所述的方法,其中,附加地就所述文字特征对所述CAD图形进行特征编码以计算所述CAD图形的第一文字特征编码组包括:
确定所述CAD图形中包含的文本的关键词;
基于所述文本计算所述关键词的词频;以及
基于所述关键词和所述词频,以获得所述CAD图形的第一文字特征编码组。
14.如权利要求13所述的方法,其中,确定所述CAD图形中包含的文本的关键词包括:
对所述CAD图形中包含的所述文本进行分词以获取所述CAD图形中包含的词语;
利用TF-IDF算法计算所述词语的TF值;以及
选择所述TF值最高的多个所述词语作为所述CAD图形中包含的所述文本的所述关键词。
15.如权利要求13所述的方法,其中,确定所述CAD图形中包含的文本的关键词包括:
对所述CAD图形中包含的所述文本进行分词以获取所述CAD图形中包含的词语;
利用TF-IDF算法计算所述词语的TF值和IDF值;
基于所述TF值和所述IDF值计算所述词语的TF-IDF值;以及
选择所述TF-IDF值最高的多个所述词语作为所述CAD图形中包含的所述文本的所述关键词。
16.如权利要求12所述的方法,其中,附加地就所述填充特征对所述CAD图形进行特征编码以计算所述CAD图形的第一填充特征编码组包括:
对所述CAD图形中所述每个顶点所包围的填充区域进行计数,以得到填充区域数;
基于所述边数和所述填充区域数,逐顶点地对所述CAD图形进行所述特征编码;以及
统计填充特征编码类型和填充特征编码值,以获得所述第一填充特征编码组,其中,所述填充特征编码类型为所述边数和所述填充区域数的类型,并且其中,所述特征编码值是所述CAD图形中的每种填充特征编码类型下顶点的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010995968.8A CN112116011B (zh) | 2020-09-21 | 2020-09-21 | 一种用于cad图形的特征编码方法和相似度比较方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010995968.8A CN112116011B (zh) | 2020-09-21 | 2020-09-21 | 一种用于cad图形的特征编码方法和相似度比较方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112116011A true CN112116011A (zh) | 2020-12-22 |
CN112116011B CN112116011B (zh) | 2021-07-27 |
Family
ID=73800600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010995968.8A Active CN112116011B (zh) | 2020-09-21 | 2020-09-21 | 一种用于cad图形的特征编码方法和相似度比较方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112116011B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065475A (zh) * | 2021-04-08 | 2021-07-02 | 上海晓材科技有限公司 | 一种cad图例快速精准识别方法 |
CN114722440A (zh) * | 2022-04-02 | 2022-07-08 | 广东顺德电力设计院有限公司 | Cad文件数据提取识别、检查方法、系统、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040177089A1 (en) * | 2002-12-12 | 2004-09-09 | Douglas Love | System and method for coding and retrieval of a CAD drawing from a database |
CN102999524A (zh) * | 2011-09-16 | 2013-03-27 | 中广核工程有限公司 | 一种文档关联检索方法及系统 |
CN104102626A (zh) * | 2014-07-07 | 2014-10-15 | 厦门推特信息科技有限公司 | 一种用于短文本语义相似度计算的方法 |
CN104537098A (zh) * | 2015-01-09 | 2015-04-22 | 南京朗坤自动化有限公司 | 基于gis技术的cad图纸检索方法 |
CN104952086A (zh) * | 2014-03-31 | 2015-09-30 | 富士通株式会社 | 用于管理结构数据的设备及方法 |
CN105718441A (zh) * | 2016-01-13 | 2016-06-29 | 南京大学 | 一种查找不同平台间功能相似ui组件的方法和装置 |
CN107908898A (zh) * | 2017-12-04 | 2018-04-13 | 东方福泰(北京)科技有限公司 | 一种cad制图中一键智能编码标注方法 |
CN108665490A (zh) * | 2018-04-02 | 2018-10-16 | 浙江大学 | 一种基于多属性编码及动态权重的图形匹配方法 |
-
2020
- 2020-09-21 CN CN202010995968.8A patent/CN112116011B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040177089A1 (en) * | 2002-12-12 | 2004-09-09 | Douglas Love | System and method for coding and retrieval of a CAD drawing from a database |
CN102999524A (zh) * | 2011-09-16 | 2013-03-27 | 中广核工程有限公司 | 一种文档关联检索方法及系统 |
CN104952086A (zh) * | 2014-03-31 | 2015-09-30 | 富士通株式会社 | 用于管理结构数据的设备及方法 |
CN104102626A (zh) * | 2014-07-07 | 2014-10-15 | 厦门推特信息科技有限公司 | 一种用于短文本语义相似度计算的方法 |
CN104537098A (zh) * | 2015-01-09 | 2015-04-22 | 南京朗坤自动化有限公司 | 基于gis技术的cad图纸检索方法 |
CN105718441A (zh) * | 2016-01-13 | 2016-06-29 | 南京大学 | 一种查找不同平台间功能相似ui组件的方法和装置 |
CN107908898A (zh) * | 2017-12-04 | 2018-04-13 | 东方福泰(北京)科技有限公司 | 一种cad制图中一键智能编码标注方法 |
CN108665490A (zh) * | 2018-04-02 | 2018-10-16 | 浙江大学 | 一种基于多属性编码及动态权重的图形匹配方法 |
Non-Patent Citations (1)
Title |
---|
陈达: "基于AutoCAD的综合建筑抗震支吊架自动设计系统研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065475A (zh) * | 2021-04-08 | 2021-07-02 | 上海晓材科技有限公司 | 一种cad图例快速精准识别方法 |
CN113065475B (zh) * | 2021-04-08 | 2023-11-07 | 上海晓材科技有限公司 | 一种cad图例快速精准识别方法 |
CN114722440A (zh) * | 2022-04-02 | 2022-07-08 | 广东顺德电力设计院有限公司 | Cad文件数据提取识别、检查方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112116011B (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112116011B (zh) | 一种用于cad图形的特征编码方法和相似度比较方法 | |
US6181818B1 (en) | Image retrieval method and apparatus | |
Bodansky et al. | Smoothing and compression of lines obtained by raster-to-vector conversion | |
CN110413816B (zh) | 彩色草图图像搜索 | |
JPS60136892A (ja) | オンライン手書き図形認識装置 | |
CN107423309A (zh) | 基于模糊哈希算法的海量互联网相似图片检测系统及方法 | |
Tombre et al. | Vectorization in graphics recognition: to thin or not to thin | |
Ray Choudhury et al. | Curve separation for line graphs in scholarly documents | |
Gao et al. | Human face profile recognition using attributed string | |
Nayef et al. | On the use of geometric matching for both: Isolated symbol recognition and symbol spotting | |
CN107992532A (zh) | 基于渲染图像角度结构特征的三维模型检索方法 | |
JP4885112B2 (ja) | 文書処理装置、文書処理方法及び文書処理プログラム | |
Xu et al. | Fast Feature Extraction Based on Multi-feature Classification for Color Image. | |
Wu et al. | Similar image retrieval in large-scale trademark databases based on regional and boundary fusion feature | |
Larabi et al. | LWDOS: language for writing descriptors of outline shapes | |
Delalandre et al. | A fast cbir system of old ornamental letter | |
Nguyen et al. | Bags of strokes based approach for classification and indexing of drop caps | |
Dyana et al. | Combining features for shape and motion trajectory of video objects for efficient content based video retrieval | |
Cheikh et al. | Shape recognition based on wavelet-transform modulus maxima | |
de Carvalho et al. | Neighborhood coding for bilevel image compression and shape recognition | |
Pareti et al. | On defining signatures for the retrieval and the classification of graphical drop caps | |
Ray et al. | Application of differential geometry to recognize and locate partially occluded objects | |
US20080317352A1 (en) | Method for the Characterization of a Digital Image and the Applications Thereof | |
CN108897746B (zh) | 一种图像检索方法 | |
JPH033089A (ja) | パターン認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |