CN116912872A - 图纸识别方法、装置、设备及可读存储介质 - Google Patents
图纸识别方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN116912872A CN116912872A CN202211613302.7A CN202211613302A CN116912872A CN 116912872 A CN116912872 A CN 116912872A CN 202211613302 A CN202211613302 A CN 202211613302A CN 116912872 A CN116912872 A CN 116912872A
- Authority
- CN
- China
- Prior art keywords
- text
- text box
- information
- content
- drawing image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000000007 visual effect Effects 0.000 claims description 41
- 238000001914 filtration Methods 0.000 claims description 9
- 238000007499 fusion processing Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 description 29
- 238000009826 distribution Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 102100032202 Cornulin Human genes 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
- G06V30/422—Technical drawings; Geographical maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种图纸识别方法、装置、设备及可读存储介质。该方法包括:获取待识别的图纸图像中的文本内容和所述文本内容的坐标信息;获取所述图纸图像中的文本框信息,所述文本框信息包括文本框的坐标信息,或者,包括文本框的坐标信息和线型类型;根据所述文本框的坐标信息和所述文本内容的坐标信息,确定所述文本框和所述文本内容的关联关系;根据所述关联关系、文本框信息和文本内容,确定所述图纸图像的识别结果。本发明实施例中的识别结果不仅包括文本内容,还包含文本框信息以及文本内容与该文本框信息的关联关系,从而基于该关联关系还能够确定每个文本框内的文本内容,进而基于该识别结果能够获取待识别的图纸图像中系统全面的信息。
Description
技术领域
本发明涉及图像识别技术领域,特别是指一种图纸识别方法、装置、设备及可读存储介质。
背景技术
图纸中包含有丰富的信息,图纸中的内容识别可以将图纸信息识别为文本形式,更便于编辑和管理,具有广泛的实际应用价值,一方面,图纸应用到实际需要对其内容进行审查避免图纸中的错误,获取图纸中的信息更有利于图纸内容的审核;另一方面,对实际场景进行管理也需要耗费较高的人力成本和时间,获取对应实际场景的图纸内容信息可以实现智能化管理。因此,识别图纸中的内容在实际中有较大需求。但相关技术中的图纸识别较难获取到系统全面的图纸内容信息。
发明内容
本发明的目的是提供一种图纸识别方法、装置、设备及可读存储介质,以解决如何获取到系统全面的图纸内容信息的问题。
为达到上述目的,本发明的实施例提供一种图纸识别方法,包括:
获取待识别的图纸图像中的文本内容和所述文本内容的坐标信息;
获取所述图纸图像中的文本框信息,所述文本框信息包括文本框的坐标信息,或者,包括文本框的坐标信息和线型类型;
根据所述文本框的坐标信息和所述文本内容的坐标信息,确定所述文本框和所述文本内容的关联关系;
根据所述关联关系、文本框信息和文本内容,确定所述图纸图像的识别结果。
可选地,获取待识别的图纸图像中的文本内容,包括:
提取所述图纸图像的文本区域中的文本内容的视觉特征;
根据所述视觉特征,提取所述文本区域中的文本内容的语义特征;
对所述视觉特征和所述语义特征进行融合处理,得到所述待识别的图纸图像的文本内容。
可选地,获取所述文本内容的坐标信息,包括:
识别出所述图纸图像的文本区域,并确定所述文本区域的坐标信息;
根据所述文本区域的坐标信息,获取所述文本内容的坐标信息。
可选地,根据所述视觉特征,提取所述文本区域中的文本内容的语义特征,包括:
根据所述视觉特征,提取包含上下文信息的视觉序列特征;
将所述视觉序列特征转换为语义特征。
可选地,其特征在于,获取所述待识别的图纸图像中的文本框信息,包括:
生成所述图纸图像的预测特征图;
提取所述预测特征图对应的预测文本框的目标内容,所述目标内容包括预测文本框与真实文本框的重叠度、预测文本框的坐标以及预测文本框的线型类型;
根据所述预测文本框的目标内容,得到所述待识别的图纸图像中的文本框信息。
可选地,生成所述图纸图像的预测特征图,包括:
基于特征金字塔FPN网络提取所述图纸图像的目标多尺度特征;
基于所述目标多尺度特征进行特征图预测,得到多尺度的预测特征图。
可选地,根据所述预测文本框的目标内容,得到所述待识别的图纸图像中的文本框信息,包括:
根据所述预测文本框的坐标,对重叠的预测文本框进行过滤处理,得到过滤处理后的预测文本框;
根据过滤处理后的预测文本框的目标内容,获取所述图纸图像中的文本框信息。
可选地,根据所述预测特征图的目标内容,得到所述待识别的图纸图像中的文本框信息,包括:
获取目标预测文本框集合,其中,所述目标预测文本框集合中的预测文本框与真实文本框的重叠度大于预设阈值;
根据所述目标预测文本框集合中的预测文本框的坐标以及线型类型,获取所述图纸图像中的文本框信息。
可选地,本发明实施例还提供了一种图纸识别装置,包括:
第一获取模块,用于获取待识别的图纸图像中的文本内容和所述文本内容的坐标信息;
第二获取模块,用于获取所述图纸图像中的文本框信息,所述文本框信息包括文本框的坐标信息,或者,包括文本框的坐标信息和线型类型;
第三获取模块,用于根据所述文本框的坐标信息和所述文本内容的坐标信息,确定所述文本框和所述文本内容的关联关系;
第四获取模块,用于根据所述关联关系、文本框信息和文本内容,确定所述图纸图像的识别结果。
可选地,本发明实施例还提供了一种图纸识别设备,包括:收发机和处理器;
所述处理器用于获取待识别的图纸图像中的文本内容和所述文本内容的坐标信息;获取所述图纸图像中的文本框信息,所述文本框信息包括文本框的坐标信息,或者,包括文本框的坐标信息和线型类型;根据所述文本框的坐标信息和所述文本内容的坐标信息,确定所述文本框和所述文本内容的关联关系;根据所述关联关系、文本框信息和文本内容,确定所述图纸图像的识别结果。
本发明实施例还提供了一种图纸识别设备,包括:收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令;其特征在于,所述处理器执行所述程序或指令时实现如上所述的图纸识别方法的步骤。
本发明实施例还提供了一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如上所述的图纸识别方法的步骤。
本发明的上述技术方案的有益效果如下:
本发明实施例中,获取待识别的图纸图像中的文本内容和所述文本内容的坐标信息;获取所述图纸图像中的文本框信息;根据所述文本框的坐标信息和所述文本内容的坐标信息,确定所述文本框和所述文本内容的关联关系;根据所述关联关系、文本框信息和文本内容,确定所述图纸图像的识别结果。本发明实施例中的识别结果不仅包括文本内容,还包含文本框信息以及文本内容与该文本框信息的关联关系,从而基于该关联关系还能够确定每个文本框内的文本内容,进而基于该识别结果能够获取待识别的图纸图像中系统全面的信息。
附图说明
图1为本发明实施例的图纸识别方法的流程图之一;
图2为本发明实施例的图示识别的网络结构图;
图3为本发明实施例中语义特征模块的示意图;
图4为本发明实施例的图纸识别方法的流程图之二;
图5为本发明实施例的图纸识别装置的模块示意图;
图6为本发明实施例的图纸识别装置的结构框图之一;
图7为本发明实施例的图纸识别装置的结构框图之二。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
另外,本文中术语“系统”和“网络”在本文中常可互换使用。
在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
在实际使用的图纸中,常常使用将文字和矩形框组合结构来表示实际的物体,使用矩形框表示实际物体的尺寸、位置,矩形框绘制成不同线型也可以表示物体不同的状态等信息,其中的文字可以表示为物体的名称,从而在图纸中描绘出实际的布局情况。此外,由于实际中往往会出现物体的数量较多的情况,所描绘的图纸中矩形框会比较密集。这种图纸中包含有丰富的信息,图纸中的内容识别可以将图纸信息识别为文本形式,更便于编辑和管理,具有广泛的实际应用价值,一方面,图纸应用到实际需要对其内容进行审查避免图纸中的错误,获取图纸中的信息更有利于图纸内容的审核;另一方面,对实际场景进行管理也需要耗费较高的人力成本和时间,获取对应实际场景的图纸内容信息可以实现智能化管理。因此,识别图纸中的内容在实际中有较大需求,随着计算机视觉和人工智能的发展,可以实现图纸的自动识别,大大提高工作效率、减少人工成本,广泛应用于图纸设计施工、图纸管理等应用中。
目前,图纸识别采用OCR(optical character recognition)文字识别技术,包括文字区域检测定位和文字识别两个步骤,根据特征提取方式可以分为传统OCR方法和基于深度学习的OCR方法。
1.传统OCR方法:使用连通域分析进行文字区域定位,然后通过二值化、投影分析等图像处理技术分割文本行,文字识别使用统计机器学习支持向量机(Support VectorMachines,SVM)分类器等传统方法,识别图纸文本内容。
2.基于深度学习的OCR方法:包括图像预处理、文字检测、文本识别步骤,利用卷积神经网络自动提取图像特征,从而进行文本的检测和识别。其中,文字检测算法主要包括基于回归和基于分割的方法,定位文字所在区域,常用的检测框架有DBNet、CTPN、EAST;文字识别算法主要包括特征提取、上下文序列特征提取和字符预测部分,可以识别出区域内的文本内容,常用的识别框架有CRNN、RARA。
目前的图纸识别仅识别图纸中的文字内容,图纸中包含有很多矩形框和对应文字名称,现有大部分技术只识别文字,没有将文字和相应矩形框进行关联对应,无法获取到矩形框位置和文字的匹配关联关系,较难获得系统的图纸内容信息。
如图1所示,本发明实施例提供一种图纸识别方法,包括:
步骤101:获取待识别的图纸图像中的文本内容和所述文本内容的坐标信息。
本发明实施例中,首先将待识别的图纸转换为图片格式,得到上述待识别的图纸图像。
步骤102:获取所述图纸图像中的文本框信息,所述文本框信息包括文本框的坐标信息,或者,包括文本框的坐标信息和线型类型。
这里的文本框可具体为矩形框。线型类型包括但不限于实线、虚线等。
步骤103:根据所述文本框的坐标信息和所述文本内容的坐标信息,确定所述文本框和所述文本内容的关联关系;
本步骤中,根据文本框的坐标信息和文本内容的坐标信息对文本框和文本内容进行匹配,确定文本框与文本内容的关联关系。
步骤104:根据所述关联关系、文本框信息和文本内容,确定所述图纸图像的识别结果。
本步骤中,根据上述关联关系,能够获得文本框中的文本内容,根据文本框的坐标信息得到文本框的长度和宽度信息,并基于该长度和宽度信息确定文本框的形状,如正方形或长方形,且根据文本框的坐标信息能够计算出文本框所在的行列号,最终将获取的上述各种信息进行组合,输出图纸中的所有属性内容,即识别结果。
本发明实施例中,获取待识别的图纸图像中的文本内容和所述文本内容的坐标信息;获取所述图纸图像中的文本框信息;根据所述文本框的坐标信息和所述文本内容的坐标信息,确定所述文本框和所述文本内容的关联关系;根据所述关联关系、文本框信息和文本内容,确定所述图纸图像的识别结果。本发明实施例中的识别结果不仅包括文本内容,还包含文本框信息以及文本内容与该文本框信息的关联关系,从而基于该关联关系还能够确定每个文本框内的文本内容,进而基于该识别结果能够获取待识别的图纸图像中系统全面的信息。
可选地,获取待识别的图纸图像中的文本内容,包括:
提取所述待识别的图纸图像的文本区域中的文本内容的视觉特征;
根据所述视觉特征,提取所述文本区域中的文本内容的语义特征;
对所述视觉特征和所述语义特征进行融合处理,得到所述图纸图像的文本内容。
作为一种可选地实现方式,如图2所示,基于融合语义特征的文字识别网络识别出图纸图像中的文本内容。该融合语义特征的文字识别网络包括文字检测模块和语义文字识别模块,该文字检测模块用于确定文本区域,该语义文字识别模块用于识别文本区域中的文本内容。
如图2所示,该语义文字识别模块使用卷积循环神经网络(ConvolutionalRecurrent Neural Network,CRNN)作为基本框架,MobileNet v3作为骨干网络,通过卷基层可提取视觉特征,且该语义文字识别模块中还包含有语义特征模块以用于提取语义特征,使得提取的特征更具鲁棒性,最后共同使用视觉特征和语义特征经过softmax转录层得到识别的文本内容。
本发明实施例中,基于视觉特征和语义特征能够获取到更加准确的文字语义信息,进而得到准确的文本内容。
可选地,获取所述图纸图像的文本区域中的文本内容的视觉特征之前,还包括:
识别出所述待识别的图纸图像的文本区域,并确定所述文本区域的坐标信息。
可选地,基于文字检测模块识别出文本区域和文本区域的坐标信息。该文字检测模块使用EAST文字检测框架,MobileNet v3作为骨干网络提取特征,之后经过卷积层获得不同尺度的特征图,提取文本不同尺度特征,然后通过特征融合模块,将多尺度特征通过上采样和concat方式进行融合,最后输出像素点是否属于文本的概率分布图和文本区域的坐标。
这里,通过识别出待识别的图纸图像中的文本区域以便于后续能够基于该文本区域进行文本内容的识别,且基于上述文本区域的坐标信息能够确定文本内容的坐标信息。
可选地,获取所述文本内容的坐标信息,包括:
根据所述文本区域的坐标信息,获取所述文本内容的坐标信息。
这里,基于文本区域的坐标信息,确定文本内容的坐标信息,以便于后续基于该文本内容的坐标信息和文本框的坐标信息,进行文本内容与文本框的匹配。
可选地,根据所述视觉特征,提取所述文本区域中的文本内容的语义特征,包括:
根据所述视觉特征,提取包含上下文信息的视觉序列特征;
将所述视觉序列特征转换为语义特征。
具体的,通过上述卷基层提取到视觉特征后,经过BiLSTM结构获得包含上下文信息的视觉序列特征,然后基于语义特征模块将视觉序列特征转换为语义特征。
该语义特征模块的具体实现过程如下:
该语义特征模块包括视觉-语义嵌入模块和语义推理模块,结构如图3所示。视觉-语义嵌入模块将视觉特征生成文字嵌入的近似信息,首先将视觉特征G输入到softmax激活的全连接层,然后与真实值gt比较,利用交叉熵损失得到嵌入损失Le,如公式1所示,使它们更加集中在目标字符。
其中,N为预测值数,yt是第t个时间步长的预测值,gt为第t个时间步长的真实标签值,p表示概率。
另外,视觉特征G再通过argmax运算和嵌入层,根据与gt最接近的预测输出字符计算出嵌入向量et ′。语义推理模块用于实现全局语义推理,将之前得出的嵌入向量et ′输入到转换器单元,从而获得全局上下文信息,文字多层信息可以由多个转换器单元隐式建模,最后输出语义特征S。推理损失Lr可以定义为:
其中,st是第t个时间步长的语义特征。
利用语义信息计算交叉熵损失优化目标概率,减少了收敛时间,同时学习到更准确的文字语义信息,更有利于文字内容的识别。
可选地,获取所述待识别的图纸图像中的文本框信息,包括:
生成所述图纸图像的预测特征图;
提取所述预测特征图对应的预测文本框的目标内容,所述目标内容包括预测文本框与真实文本框的重叠度、预测文本框的坐标以及预测文本框的线型类型;
根据所述预测文本框的目标内容,得到所述待识别的图纸图像中的文本框信息。
本发明实施例中,如图2所示,可基于密集目标检测网络获取待识别的图纸图像中的文本框信息。该密集目标检测网络可以在Retinanet目标检测网络加入密集检测策略作为基础框架。将待识别的图纸图像输入到密集目标检测网络中,得到上述预测特征图,每个预测特征图有三个输出分支,分别为:检测分支,输出检测目标的坐标(即预测文本框的坐标);分类分支,输出检测目标的类别概率(即预测文本框的线型类型);Soft-IoU分支,输出预测框与真实框的IoU值(预测文本框与真实文本框的重叠度),基于上述三个输出分支的内容,能够保证在密集目标中找到定位最准确的预测框(即预测文本框)。
可选地,生成所述图纸图像的预测特征图,包括:
基于特征金字塔FPN网络提取所述图纸图像的目标多尺度特征;
基于根据所述目标多尺度特征进行特征图预测,得到多尺度的预测特征图。
作为一种可选地实现方式,得如图2所示,将待识别的图纸图像输入到密集目标检测网络中,采用ResNet50作为主干网络,之后采用FPN提取目标多尺度特征,形成多尺度的预测特征图,并基于该多尺度的预测特征图得到图纸图像的预测特征图。将多尺度的预测特征图的目标内容进行融合,得到最终的预测特征图的目标内容,并基于此得到待识别的图纸图像中的文本框信息。基于多尺度的预测特征图能够准确地获取待识别的图纸图像中的预测框。
可选地,根据所述预测文本框的目标内容,得到所述待识别的图纸图像中的文本框信息,包括:
根据所述预测文本框的坐标,对重叠的预测文本框进行过滤处理,得到过滤处理后的预测文本框;
根据过滤处理后的预测文本框的目标内容,获取所述待识别的图纸图像中的文本框信息。
可选地,使用EM-Merger单元来过滤重叠的预测文本框。
由于一般图纸中所需要绘制的矩形框往往较为密集,使用EM-Merger单元来过滤重叠的预测框,保证在密集目标中得到更加准确的预测框。最后得到图纸中密集分布的每个矩形框的位置坐标和线型类型,不同线型的矩形框在检测中视为不同的目标类别。
目前主流的检测方法在目标相似且位置接近的检测密集时预测框会有大量的重叠,位置接近的相似物体的预测框不准,本发明采用的密集检测策略中Soft-IoU分支和EM-Merger单元可以解决密集检测中预测框重叠的问题。
Soft-IoU分支和EM-Merger单元具体实现过程如下:
Soft-IoU分支计算检测目标和真实标注的IoU,输出为Soft-IoU分数,作为目标检测的补充优化项,增加预测目标位置的准确性。EM-Merger单元具体步骤为,首先将每张图检测的目标框bbox转为高斯分布(N个),一张图片上的所有bbox表示为一个混合高斯分布,然后用K个新的高斯分布组成新的混合分布表示原本的高斯分布组成的混合分布(K<<N),保证二者足够相似,使用KL散度表示二者相似性,最后将K个高斯分布再转回bbox就是最终的预测框,从而减少大量重叠预测框,得到的预测更加准确。使用二值交叉熵作为其损失函数,如公式(3)所示:
其中,n表示预测框数,IoUi表示预测框和真实框的IoU,表示预测的IoU分数。
整个密集目标检测网络的损失函数如公式4所示:
L=Lclassification+Lregression+LsIoU;公式4
其中Lclassification表示分类损失函数,Lregression表示回归损失函数;
可选地,根据所述预测特征图的目标内容,得到所述待识别的图纸图像中的文本框信息,包括:
获取目标预测文本框集合,其中,所述目标预测文本框集合中的预测文本框与真实文本框的重叠度大于预设阈值;
根据所述目标预测文本框集合中的预测文本框的坐标以及线型类型,获取所述待识别的图纸图像中的文本框信息。
这里,基于上述重叠度来获取重叠度大于预设阈值的预测文本框作为待识别的图纸图像中的文本框,提高了定位文本框的准确度。
本发明实施例中,在得到文本框信息和文本内容后,由图2中的匹配模块进行匹配,输入文字识别网络识别到的文字内容和位置坐标以及密集目标检测网络获得的矩形框位置坐标,首先,根据矩形框坐标和文字坐标的位置关系,将矩形框和对应文字进行匹配,获得矩形框和其中对应文字的关联信息;然后,根据矩形框位置坐标得到矩形框长宽判断绘制的矩形的形状(正方形/长方形),以及根据坐标排序计算出矩形框所在行列号;最后将获得的关联信息进行组合对应,输出图纸中所有属性。
本发明实施例的图纸识别方法,可以识别出图纸中包含文字位于矩形框内部的文字和矩形框一一对应的信息,将文字和所在矩形框进行关联匹配,并获得多种信息,包括矩形框所在行列号、矩形框形状(长方形/正方形)、矩形框对应的内部文字、矩形框线型类型(虚线/实线)等。本发明提出方法的具体流程如图4所示,首先将需要识别的图纸转换为图片格式(待识别的图纸图像),将其作为输入,分别输入到融合语义特征的文字识别网络和密集目标检测网络,获得图纸中文本内容和坐标,矩形框坐标、线型类型,最后将两个模块的文字坐标和矩形框坐标进行匹配,获得最终的文本和矩形框对应的图纸内容信息。本发明将文字识别和目标检测两种方法结合应用于图纸识别中,可以获得其中文字和矩形框一一对应关联的信息,使得识别的图纸内容更具有系统性,便于图纸的审查和智能化管理。另外,采用加入语义特征提取的文字识别模块识别图纸文字内容,可以结合图纸文字内容的上下文语义信息进行识别,和视觉特征融合联合识别文字内容,提高的图纸文字识别的准确率。
如图5所示,本发明实施例还提供了一种图纸识别装置500,包括:
第一获取模块501,用于获取待识别的图纸图像中的文本内容和所述文本内容的坐标信息;
第二获取模块502,用于获取所述待识别的图纸图像中的文本框信息,所述文本框信息包括文本框的坐标信息,或者,包括文本框的坐标信息和线型类型;
第三获取模块503,用于根据所述文本框的坐标信息和所述文本内容的坐标信息,确定所述文本框和所述文本内容的关联关系;
第四获取模块504,用于根据所述关联关系、文本框信息和文本内容,确定所述图纸图像的识别结果。
可选地,所述第一获取模块包括:
第一获取子模块,用于提取所述待识别的图纸图像的文本区域中的文本内容的视觉特征;
第二获取子模块,用于根据所述视觉特征,提取所述文本区域中的文本内容的语义特征;
第三获取子模块,用于对所述视觉特征和所述语义特征进行融合处理,得到所述待识别的图纸图像的文本内容。
可选地,所述第一获取模块还包括:
处理子模块,用于识别出所述待识别的图纸图像的文本区域,并确定所述文本区域的坐标信息;
第四获取子模块,用于根据所述文本区域的坐标信息,获取所述文本内容的坐标信息。
可选地,所述第二获取子模块包括:
第一获取单元,用于根据所述视觉特征,提取包含上下文信息的视觉序列特征;
转换单元,用于将所述视觉序列特征转换为语义特征。
可选地,所述第二获取模块包括:
第五获取子模块,用于生成所述待识别的图纸图像的预测特征图;
第六获取子模块,用于提取所述预测特征图对应的预测文本框的目标内容,所述目标内容包括预测文本框与真实文本框的重叠度、预测文本框的坐标以及预测文本框的线型类型;
第七获取子模块,用于根据所述预测文本框的目标内容,得到所述待识别的图纸图像中的文本框信息。
可选地,所述第五获取子模块包括:
第二获取单元,用于基于特征金字塔FPN网络提取所述图纸图像的目标多尺度特征;
第三获取单元,用于基于所述目标多尺度特征进行特征图预测,得到多尺度的预测特征图。
可选地,所述第七获取子模块包括:
第四获取单元,用于根据所述预测文本框的坐标,对重叠的预测文本框进行过滤处理,得到过滤处理后的预测文本框;
第五获取单元,用于根据过滤处理后的预测文本框的目标内容,获取所述待识别的图纸图像中的文本框信息。
可选地,所述第七获取子模块,包括:
第六获取单元,用于获取目标预测文本框集合,其中,所述目标预测文本框集合中的预测文本框与真实文本框的重叠度大于预设阈值;
第七获取单元,用于根据所述目标预测文本框集合中的预测文本框的坐标以及线型类型,获取所述待识别的图纸图像中的文本框信息。
本发明实施例中,获取待识别的图纸图像中的文本内容和所述文本内容的坐标信息;获取所述图纸图像中的文本框信息;根据所述文本框的坐标信息和所述文本内容的坐标信息,确定所述文本框和所述文本内容的关联关系;根据所述关联关系、文本框信息和文本内容,确定所述图纸图像的识别结果。本发明实施例中的识别结果不仅包括文本内容,还包含文本框信息以及文本内容与该文本框信息的关联关系,从而基于该关联关系还能够确定每个文本框内的文本内容,进而基于该识别结果能够获取待识别的图纸图像中系统全面的信息。
如图6所示,本发明实施例还提供了一种图纸识别设备,包括:收发机620和处理器610;
所述处理器610用于获取待识别的图纸图像中的文本内容和所述文本内容的坐标信息;获取所述图纸图像中的文本框信息,所述文本框信息包括文本框的坐标信息,或者,包括文本框的坐标信息和线型类型;根据所述文本框的坐标信息和所述文本内容的坐标信息,确定所述文本框和所述文本内容的关联关系;根据所述关联关系、文本框信息和文本内容,确定所述图纸图像的识别结果。
需要说明的是,该设备是与上述方法实施例对应的设备,上述方法实施例的所有实现方式均能应用至该设备实施例中,且能达到相同的技术效果,此处不再赘述。
如图7所示,本发明实施例还提供了一种对话文本的分类装置,包括:收发器710、处理器700、存储器720及存储在所述存储器720上并可在所述处理器700上运行的程序或指令;所述处理器700执行所述程序或指令时实现如上所述的图纸识别方法的步骤。
所述收发器710,用于在处理器700的控制下接收和发送数据。
其中,在图7中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器700代表的一个或多个处理器和存储器720代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发器710可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备,用户接口730还可以是能够外接内接需要设备的接口,连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。
处理器700负责管理总线架构和通常的处理,存储器720可以存储处理器700在执行操作时所使用的数据。
本发明实施例的一种可读存储介质,其上存储有程序或指令,所述程序或指令被处理器执行时实现如上所述的图纸识别方法中的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的图纸识别设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
进一步需要说明的是,此说明书中所描述的终端包括但不限于智能手机、平板电脑等,且所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。
本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
上述范例性实施例是参考该些附图来描述的,许多不同的形式和实施例是可行而不偏离本发明精神及教示,因此,本发明不应被建构成为在此所提出范例性实施例的限制。更确切地说,这些范例性实施例被提供以使得本发明会是完善又完整,且会将本发明范围传达给那些熟知此项技术的人士。在该些图式中,组件尺寸及相对尺寸也许基于清晰起见而被夸大。在此所使用的术语只是基于描述特定范例性实施例目的,并无意成为限制用。如在此所使用地,除非该内文清楚地另有所指,否则该单数形式“一”、“一个”和“该”是意欲将该些多个形式也纳入。会进一步了解到该些术语“包含”及/或“包括”在使用于本说明书时,表示所述特征、整数、步骤、操作、构件及/或组件的存在,但不排除一或更多其它特征、整数、步骤、操作、构件、组件及/或其族群的存在或增加。除非另有所示,陈述时,一值范围包含该范围的上下限及其间的任何子范围。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种图纸识别方法,其特征在于,包括:
获取待识别的图纸图像中的文本内容和所述文本内容的坐标信息;
获取所述图纸图像中的文本框信息,所述文本框信息包括文本框的坐标信息,或者,包括文本框的坐标信息和线型类型;
根据所述文本框的坐标信息和所述文本内容的坐标信息,确定所述文本框和所述文本内容的关联关系;
根据所述关联关系、文本框信息和文本内容,确定所述图纸图像的识别结果。
2.根据权利要求1所述的图纸识别方法,其特征在于,获取待识别的图纸图像中的文本内容,包括:
提取所述图纸图像的文本区域中的文本内容的视觉特征;
根据所述视觉特征,提取所述文本区域中的文本内容的语义特征;
对所述视觉特征和所述语义特征进行融合处理,得到所述待识别的图纸图像的文本内容。
3.根据权利要求2所述的图纸识别方法,其特征在于,获取所述文本内容的坐标信息,包括:
识别出所述图纸图像的文本区域,并确定所述文本区域的坐标信息;
根据所述文本区域的坐标信息,获取所述文本内容的坐标信息。
4.根据权利要求2所述的图纸识别方法,其特征在于,根据所述视觉特征,提取所述文本区域中的文本内容的语义特征,包括:
根据所述视觉特征,提取包含上下文信息的视觉序列特征;
将所述视觉序列特征转换为语义特征。
5.根据权利要求1所述的图纸识别方法,其特征在于,获取所述待识别的图纸图像中的文本框信息,包括:
生成所述图纸图像的预测特征图;
提取所述预测特征图对应的预测文本框的目标内容,所述目标内容包括预测文本框与真实文本框的重叠度、预测文本框的坐标以及预测文本框的线型类型;
根据所述预测文本框的目标内容,得到所述待识别的图纸图像中的文本框信息。
6.根据权利要求5所述的图纸识别方法,其特征在于,生成所述图纸图像的预测特征图,包括:
基于特征金字塔FPN网络提取所述图纸图像的目标多尺度特征;
基于所述目标多尺度特征进行特征图预测,得到多尺度的预测特征图。
7.根据权利要求5所述的图纸识别方法,其特征在于,根据所述预测文本框的目标内容,得到所述待识别的图纸图像中的文本框信息,包括:
根据所述预测文本框的坐标,对重叠的预测文本框进行过滤处理,得到过滤处理后的预测文本框;
根据过滤处理后的预测文本框的目标内容,获取所述图纸图像中的文本框信息。
8.根据权利要求5所述的图纸识别方法,其特征在于,根据所述预测特征图的目标内容,得到所述待识别的图纸图像中的文本框信息,包括:
获取目标预测文本框集合,其中,所述目标预测文本框集合中的预测文本框与真实文本框的重叠度大于预设阈值;
根据所述目标预测文本框集合中的预测文本框的坐标以及线型类型,获取所述图纸图像中的文本框信息。
9.一种图纸识别装置,其特征在于,包括:
第一获取模块,用于获取待识别的图纸图像中的文本内容和所述文本内容的坐标信息;
第二获取模块,用于获取所述图纸图像中的文本框信息,所述文本框信息包括文本框的坐标信息,或者,包括文本框的坐标信息和线型类型;
第三获取模块,用于根据所述文本框的坐标信息和所述文本内容的坐标信息,确定所述文本框和所述文本内容的关联关系;
第四获取模块,用于根据所述关联关系、文本框信息和文本内容,确定所述图纸图像的识别结果。
10.一种图纸识别设备,其特征在于,包括:收发机和处理器;
所述处理器用于获取待识别的图纸图像中的文本内容和所述文本内容的坐标信息;获取所述图纸图像中的文本框信息,所述文本框信息包括文本框的坐标信息,或者,包括文本框的坐标信息和线型类型;根据所述文本框的坐标信息和所述文本内容的坐标信息,确定所述文本框和所述文本内容的关联关系;根据所述关联关系、文本框信息和文本内容,确定所述图纸图像的识别结果。
11.一种图纸识别设备,包括:收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令;其特征在于,所述处理器执行所述程序或指令时实现如权利要求1至8任一项所述的图纸识别方法的步骤。
12.一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如权利要求1至8任一项所述的图纸识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211613302.7A CN116912872A (zh) | 2022-12-15 | 2022-12-15 | 图纸识别方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211613302.7A CN116912872A (zh) | 2022-12-15 | 2022-12-15 | 图纸识别方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116912872A true CN116912872A (zh) | 2023-10-20 |
Family
ID=88353684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211613302.7A Pending CN116912872A (zh) | 2022-12-15 | 2022-12-15 | 图纸识别方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912872A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576717A (zh) * | 2023-11-15 | 2024-02-20 | 希维科技(广州)有限公司 | 工程图纸的识别方法、设备及存储介质 |
-
2022
- 2022-12-15 CN CN202211613302.7A patent/CN116912872A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576717A (zh) * | 2023-11-15 | 2024-02-20 | 希维科技(广州)有限公司 | 工程图纸的识别方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022147965A1 (zh) | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统 | |
CN108304835B (zh) | 文字检测方法和装置 | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN110781882A (zh) | 一种基于yolo模型的车牌定位和识别方法 | |
CN110796018A (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN111539425A (zh) | 一种车牌识别方法、存储介质及电子设备 | |
CN114898472B (zh) | 基于孪生视觉Transformer网络的签名鉴定方法和系统 | |
CN113297956B (zh) | 一种基于视觉的手势识别方法及系统 | |
CN110334709A (zh) | 基于端到端多任务深度学习的车牌检测方法 | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统 | |
CN115984537A (zh) | 图像处理方法、装置及相关设备 | |
CN114445620A (zh) | 一种改进Mask R-CNN的目标分割方法 | |
CN114155540B (zh) | 基于深度学习的文字识别方法、装置、设备及存储介质 | |
CN115810197A (zh) | 一种多模态电力表单识别方法及装置 | |
CN116912872A (zh) | 图纸识别方法、装置、设备及可读存储介质 | |
CN115272242A (zh) | 一种基于YOLOv5的光学遥感图像目标检测方法 | |
CN117437647B (zh) | 基于深度学习和计算机视觉的甲骨文字检测方法 | |
Das et al. | Object Detection on Scene Images: A Novel Approach | |
CN116524261A (zh) | 一种基于多模态小样本持续学习的图像分类方法及产品 | |
CN116580232A (zh) | 一种图像自动标注方法、系统及电子设备 | |
US12079950B2 (en) | Image processing method and apparatus, smart microscope, readable storage medium and device | |
CN113705559B (zh) | 基于人工智能的文字识别方法及装置、电子设备 | |
CN115358981A (zh) | 胶水缺陷的确定方法、装置、设备及存储介质 | |
Yang et al. | Road Damage Detection and Classification Based on Multi-Scale Contextual Features | |
CN114550197A (zh) | 一种端子排图像检测信息匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |