CN116597467A - 一种图纸检测方法、系统、设备及存储介质 - Google Patents
一种图纸检测方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN116597467A CN116597467A CN202310871482.7A CN202310871482A CN116597467A CN 116597467 A CN116597467 A CN 116597467A CN 202310871482 A CN202310871482 A CN 202310871482A CN 116597467 A CN116597467 A CN 116597467A
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- information
- image
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 105
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims description 43
- 230000004927 fusion Effects 0.000 claims description 33
- 238000004891 communication Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 16
- 238000013461 design Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000010276 construction Methods 0.000 description 8
- 239000000945 filler Substances 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
- G06V30/422—Technical drawings; Geographical maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图纸检测方法、系统、设备及存储介质,所述方法包括获取待检测图纸中的文本信息以及图像信息;基于所述文本信息提取文本特征,并基于所述图像信息提取图像特征;将所述文本特征和所述图像特征输入预先训练的图纸检测模型,通过所述图纸检测模型确定所述待检测图纸中的目标部件的位置信息以及类别信息。本申请通过将图纸所述携带文本信息和图像信息进行融合,并通过预先训练的图纸检测模型来预测目标部件的位置信息以及类别信息,这样可以充分有效利用图纸上的文本信息,通过图纸检测模型自动对文本信息与目标部件进行隐式关联,从而可以提高图纸检测的准确性。
Description
技术领域
本申请涉及图纸审阅技术领域,特别涉及一种图纸检测方法、系统、设备及存储介质。
背景技术
目前很多行业在施工前会通过CAD进行前期图绘制,将产品结构、设计要求以及设计参数等绘制成CAD图纸,以便于按照CAD图纸进行施工。然而,为了保证施工安全性,基于CAD图像进行设计施工时,会对CAD图纸进行检查,以确定其是否符合设计施工要求。
目前现有的图纸现有图像检查方法普遍通过遍历优先算法,依次计算CAD图纸中关键元素与周围元素的属性关系,再与标准模板库里的符号进行匹配,以实现对CAD图纸中构件的识别。然而,由于行业中不同设计单位的制图标准不一致,不同人的绘图习惯不一致,导致依赖于CAD图纸的遍历优先算法的准确性低。特别是对于建筑行业,建筑行业的CAD图纸普遍存在分辨率超高、部件尺度分布差异大以及类别长尾多的问题,进一步增加了CAD图纸检测的难度,从而进一步降低了依赖于CAD图纸识别的准确性。
因而现有技术还有待改进和提高。
发明内容
本申请要解决的技术问题在于,针对现有技术的不足,提供一种图纸检测方法、系统、设备及存储介质。
为了解决上述技术问题,本申请实施例第一方面提供了一种图纸检测方法,所述方法包括:
获取待检测图纸中的文本信息以及图像信息;
基于所述文本信息提取文本特征,并基于所述图像信息提取图像特征;
将所述文本特征和所述图像特征输入预先训练的图纸检测模型,通过所述图纸检测模型确定所述待检测图纸中的目标部件的位置信息以及类别信息。
所述图纸检测方法,其中,所述获取待检测图纸中的文本信息以及图像信息具体包括:
当所述待检测图纸为CAD图纸时,分离所述待检测图纸的文本图层,并提取所述文本图层所携带的文本信息以得到文本信息;
对所述待检测图纸中除文本图层外的各图层进行栅格化以得到平面图,以得到图像信息。
所述图纸检测方法,其中,所述获取待检测图纸中的文本信息以及图像信息具体包括:
当所述待检测图纸为CAD图纸经过栅格化的平面图时,对所述待检测图纸进行字符识别以得到文本信息;
将所述平面图作为所述图像信息。
所述图纸检测方法,其中,所述图纸检测模型包括编码器和解码器;所述将所述文本特征和所述图像特征输入预先训练的图纸检测模型,通过所述图纸检测模型确定所述待检测图纸中的目标部件的位置信息以及类别信息具体包括:
将所述文本特征和所述图像特征输入所述编码器,通过所述编码器对所述文本特征和所述图像特征进行融合以得到多模态融合特征,其中,所述多模态融合特征的特征维度与所述文本特征的特征维度相同,所述图像特征的特征维度与所述文本特征的特征维度相同;
将所述多模态融合特征输入所述解码器,通过所述解码器输出待检测图纸中的目标部件的位置信息以及类别信息。
所述图纸检测方法,其中,所述编码器配置有密集多头自注意力机制;所述将所述文本特征和所述图像特征输入所述编码器,通过所述编码器对所述文本特征和所述图像特征进行融合以得到多模态融合特征具体包括:
将所述文本特征和所述图像特征按照特征维度进行拼接,以多模态拼接特征;
通过密集多头自注意力机制对所述拼接特征进行自注意力计算,以得到多模态融合特征。
所述图纸检测方法,其中,所述编码器配置有稀疏多头自注意力机制;所述将所述文本特征和所述图像特征输入所述编码器,通过所述编码器对所述文本特征和所述图像特征进行融合以得到多模态融合特征具体包括:
分别对文本特征和所述图像特征进行稀疏式查询,以得到文本注意力特征和图像注意力特征;
对所述文本注意力特征和所述图像注意力特征进行加权融合,以得到多模态融合特征。
所述图纸检测方法,其中,所述解码器配置有注意力机制,其中,所述注意力机制为密集多头自注意力机制或稀疏多头自注意力机制。
本申请实施例第二方面提供了一种图纸检测系统,所述系统包括:
获取模块,用于获取待检测图纸中的文本信息以及图像信息;
提取模块,用于基于所述文本信息提取文本特征,并基于所述图像信息提取图像特征;
检测模块,用于将所述文本特征和所述图像特征输入预先训练的图纸检测模型,通过所述图纸检测模型确定所述待检测图纸中的目标部件的位置信息以及类别信息。
本申请实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的图纸检测方法中的步骤。
本申请实施例第四方面提供了一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述的图纸检测方法中的步骤。
有益效果:与现有技术相比,本申请提供了一种图纸检测方法、系统、设备及存储介质,所述方法包括获取待检测图纸中的文本信息以及图像信息;基于所述文本信息提取文本特征,并基于所述图像信息提取图像特征;将所述文本特征和所述图像特征输入预先训练的图纸检测模型,通过所述图纸检测模型确定所述待检测图纸中的目标部件的位置信息以及类别信息。本申请通过将图纸所述携带文本信息和图像信息进行融合,并通过预先训练的图纸检测模型来预测目标部件的位置信息以及类别信息,这样可以充分有效利用图纸上的文本信息,通过图纸检测模型自动对文本信息与目标部件进行隐式关联,从而可以提高图纸检测的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在不符创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的图纸检测方法的流程图。
图2为本申请提供的图纸检测方法的一个实现方式的流程图。
图3为本申请提供的图纸检测方法的一个实现方式的原理流程图。
图4为本申请提供的图纸检测系统中文本到图像的交叉注意示意图。
图5为本申请提供的图纸检测系统的结构原理图。
图6为本申请提供的终端设备的结构原理图。
具体实施方式
本申请提供一种图纸检测方法、系统、设备及存储介质,为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
应理解,本实施例中各步骤的序号和大小并不意味着执行顺序的先后,各过程的执行顺序以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
经过研究发现,目前很多行业在施工前会通过CAD进行前期图绘制,将产品结构、设计要求以及设计参数等绘制成CAD图纸,以便于按照CAD图纸进行施工。然而,为了保证施工安全性,基于CAD图像进行设计施工时,会对CAD图纸进行检查,以确定其是否符合设计施工要求。
目前现有的图纸现有图像检查方法普遍通过遍历优先算法,依次计算CAD图纸中关键元素与周围元素的属性关系,再与标准模板库里的符号进行匹配,以实现对CAD图纸中构件的识别。然而,由于行业中不同设计单位的制图标准不一致,不同人的绘图习惯不一致,导致依赖于CAD图纸的遍历优先算法的准确性低。特别是对于建筑行业,建筑行业的CAD图纸普遍存在分辨率超高、部件尺度分布差异大以及类别长尾多的问题,进一步增加了CAD图纸检测的难度,从而进一步降低了依赖于CAD图纸识别的准确性。
为了解决上述问题,在本申请实施例中,获取待检测图纸中的文本信息以及图像信息;基于所述文本信息提取文本特征,并基于所述图像信息提取图像特征;将所述文本特征和所述图像特征输入预先训练的图纸检测模型,通过所述图纸检测模型确定所述待检测图纸中的目标部件的位置信息以及类别信息。本申请通过将图纸所述携带文本信息和图像信息进行融合,并通过预先训练的图纸检测模型来预测目标部件的位置信息以及类别信息,这样可以充分有效利用图纸上的文本信息,通过图纸检测模型自动对文本信息与目标部件进行隐式关联,从而可以提高图纸检测的准确性。
下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
本实施例提供了一种图纸检测方法,如图1所示,所述方法包括:
S10、获取待检测图纸中的文本信息以及图像信息;
具体地,所述待检测图纸可以是通过图纸调用接口调取到的,也可以是外部设备发送的,还可以是通过网络等获取的,其中,待检测图纸可以建筑图纸以及机械制造图纸等。在一个实现方式中,待检测图纸为CAD图纸,并是通过调用AutoCAD软件接口获取得到的。例如,待检测图纸为通过调用AutoCAD软件接口读取到的建筑行业的CAD图纸,CAD图纸包括建筑部件、部件说明、部件编号以及部件尺寸等信息。此外,所述待检测图纸可以为一建筑设计的CAD图纸,也可以是该建筑设计的CAD图中的一部分。
在获取到待检测图纸后,提取待检测图纸所携带的文本信息以及图像信息,其中,文本信息为待检测图纸所携带的文字内容、数字内容以及字母内容等,图像信息为待检测图纸所携带的图形内容。可以理解的是,在获取到待检测图纸后,分别提取待检测图纸中文字信息以及图形信息。而在CAD图纸绘制过程中,普遍是分图层进行绘制,文字内容普遍会绘制于同一图层。由此,在进行文本信息提取时,可以通过图层识别的方式来提取文本信息。相应的,所述获取待检测图纸中的文本信息以及图像信息具体包括:
当所述待检测图纸为CAD图纸时,分离所述待检测图纸的文本图层,并提取所述文本图层所携带的文本信息以得到文本信息;
对所述待检测图纸中除文本图层外的各图层进行栅格化以得到平面图,以得到图像信息。
具体地,当待检测图纸为CAD图纸,CAD图纸包括若干图层,其中,文本图层为待检测图纸中的一个图层,文本图层中绘制有待检测图纸中的文字信息,从而通过的分离得到文本图层进行文字提取可以得到待检测图纸的文本信息。在将文本图层从待检测图纸中分离之后,待检测图纸所包括的其他图层均携带有图形内容,并且为多图层图像,而为了候选提取图像特征,需要将多图层的待检测图纸转换为平面图,即将去除文本图层的CAD图纸转换为CAD平面图,并将转换得到的CAD平面图作为图像信息。此外,在待检测图纸中的图形可以携带有填充物,例如,携带有颜色填充等,而填充物对待检测图纸中的部件检测起不到作用,从而在对所述待检测图纸中除文本图层外的各图层进行栅格化之前,可以识别各图层中的填充物,并将提取到的填充物去除或者隐藏,然后再进行栅格化以得到平面图,其中,平面图中的图形不携带有填充物。
本实施例中的待检测图纸也可以是经过栅格化处理后的平面图,即待检测图纸为经过栅格化处理的CAD平面图,此时无需进行图层分离,可以直接通过对待检测图纸进行字符识别即可。基于此,所述获取待检测图纸中的文本信息以及图像信息具体包括:
当所述待检测图纸为CAD图纸经过栅格化的平面图时,对所述待检测图纸进行字符识别以得到文本信息;
将所述平面图作为所述图像信息。
具体地,字符识别可以采用现有的字符识别方法,例如,OCR方法,通过字符识别方法识别待检测图纸中的字符信息,并将识别到的所有字符信息作为待检测图纸的文本信息,其中,识别到的字符可以包括文字、数字和字母等。在识别到文本信息后,可以直接将待检测图纸作为图像信息,也可以去除待检测图纸中文本信息,并将去除后的待检测图纸作为图像信息。在本实施例中,直接将待检测图纸作为图像信息,即将平面图作为图像信息。
此外,在实际应用中,由于待检测图纸可能携带有背景噪声等信息,从而在提取文本信息和图像信息之前,可以对待检测图纸进行背景噪声滤除,以提高候选文本特征提取和图像特征提取的准确性。其中,背景噪声滤除可以采用基于领域知识的背景噪声信息滤除方式,或者是,通过高斯滤波方式等。
S20、基于所述文本信息提取文本特征,并基于所述图像信息提取图像特征。
具体地,所述文本特征为基于文本信息提取到的,图像特征为基于图像信息提取到的,其中,文本图像的特征维度相同和图像特征的特征维度相同。例如,提取到的文本特征的尺度为L×C,L为文本特征长度,C为特征维度;图像特征的尺度为H×W×C,H为图片特征高度,W为图片特征宽度,C为特征维度,其中,文本特征的特征维度和图像特征的特征维度均为C。
进一步,所述文本特征可以通过文本特征提取器提取得到的,图像特征可以通过图像特征提取器提取到的,其中,文本特征提取器和图像特征提取器均可以采用基于深度学习的网络模型,例如,文本特征提取器和图像特征提取器均为可以基于CNN构建的。此外,在实际使用过程中,为了不丢失位置信息,提取到文本特征和图像特征均携带有位置特征,也就是说,文本特征包括文本位置特征和文本内容特征,图像特征包括图像位置特征和图像内容特征,其中,文本内容特征和图像内容特征为通过经过训练的CNN模型提取得到的,文本位置特征和图像位置特征为位置编码得到的。
S30、将所述文本特征和所述图像特征输入预先训练的图纸检测模型,通过所述图纸检测模型确定所述待检测图纸中的目标部件的位置信息以及类别信息。
具体地,所述目标部件为待检测图纸所包括的部件,例如,目标部件为建筑图纸中的窗户、机械设备图纸中的设备零件等。类别信息用于反映目标部件的种类,位置信息用于反映目标部件在待检测图纸中的位置。在本实施例中,位置可以采用四维向量表示,四维向量包括中心坐标、检测框的宽度以及检测框的高度。此外,通过图纸检测模型还可以确定目标部件对应的文本信息,其中,目标部件对应的文本信息指的是与目标部件关联的文本。由此,在将所述文本特征和所述图像特征输入预先训练的图纸检测模型,除通过图纸检测模型确定目标部件的位置信息和类别信息外,当文本信息中存在与目标部件相关联的文本时,还会输出目标部件相关联的文本。例如,目标部件为窗户,文本信息中携带有窗户的尺寸,那么图纸检测模型会输出窗户的位置信息、类别信息以及窗户的尺寸。
在一个实现方式中,如图2所示,所述图纸检测模型包括编码器和解码器;所述将所述文本特征和所述图像特征输入预先训练的图纸检测模型,通过所述图纸检测模型确定所述待检测图纸中的目标部件的位置信息以及类别信息具体包括:
将所述文本特征和所述图像特征输入所述编码器,通过所述编码器对所述文本特征和所述图像特征进行融合以得到多模态融合特征,其中,所述多模态融合特征的特征维度与所述文本特征的特征维度相同。
将所述多模态融合特征输入所述解码器,通过所述解码器输出待检测图纸中的目标部件的位置信息以及类别信息。
具体地,所述编码器用于将文本特征和图像特征融合得到多模态融合特征,解码器用于基于多模态融合特征预测目标信息,其中,如图3所示,编码器包括若干堆叠设置的编码层,解码器包括若干堆叠设置的解码层,若干编码层中的每一个编码层的网络结构相同,并且相邻两个编码层中前一编码层的输出项为后一编码层的输入项;若干解码层中的每一个解码层的网络结构相同,并且相邻两个解码层中前一解码层的输出项为后一解码层的输入项。在一个实现方式中,编码器和解码器中均配置有注意力机制,也就是说,编码器中的每一个编码层均配置有注意力机制,解码器的每一解码层均配置有注意力机制。例如,如图3所示,编码层和解码层均包括自注意力层、归一化层和前馈层,其中,自注意力层与归一化层相连接,归一化层与前馈层相连接。本实施例通过在编码器和解码器中设置注意力机制,并通过注意力机制学习文本信息和图像信息间所携带的信息内容,以将文本信息与目标部件信息进行隐式关联。
进一步,按照注意力机制不同,自注意力层配置的注意力机制可以分为密集自注意力机制和稀疏自注意力机制。也就是说,编码器可以配置有密集自注意力机制或稀疏自注意力机制,解码器可以配置有密集自注意力机制或稀疏自注意力机制,其中,编码器配置的自注意力机制和解码器配置的自注意力机制可以相同,也可以不同,例如,编码器和解码器均配置有密集自注意力机制,或者是,编码器配置有密集自注意力机制,解码器配置有稀疏自注意力机制。
在一个实现方式中,所述编码器配置有密集多头自注意力机制;所述将所述文本特征和所述图像特征输入所述编码器,通过所述编码器对所述文本特征和所述图像特征进行融合以得到多模态融合特征具体包括:
将所述文本特征和所述图像特征按照特征维度进行拼接,以多模态拼接特征;
通过密集多头自注意力机制对所述拼接特征进行自注意力计算,以得到多模态融合特征。
具体地,所述文本特征的特征维度和图像特征的特征维度相同,从而可以将文本特征和图像特征按照特征维度进行拼接,使得拼接得到的多模态拼接特征的特征维度与文本特征的特征维度相同。可以理解的是,将文本特征按照特征维度拆分为若干特征向量,每个文本特征向量的向量维度等于文本特征的特征维度,也就是说,文本特征中的每个像素位置在各通道中的像素值构成一个文本特征向量,文本特征向量的数量等于文本特征的特征长度。同时,图像特征也可以拆分为若干图像特征向量,每天图像特征向量的向量维度等于图像特征的特征维度,并且图像特征向量的数量等于图像特征的特征长度和特征宽度的乘积。基于此,多模态拼接特征的特征长度等于图像特征向量的数量与文本特征向量的数量的和。
进一步,在获取到多模态拼接特征后,可以基于多模态拼接特征确定查询向量Q,键向量K和值向量V,然后通过密集自注意力机制、查询向量Q,键向量K和值向量V确定多模态融合特征,其中,所述多模态融合特征的特征维度等于文本特征的特征维度,并且多模态融合特征的特征长度等于多模态拼接特征的特征长度。其中,所述通过密集自注意力机制确定多头注意力特征的计算过程可以表示为:
;
其中,表示图像特征,/>表示文本特征,M表示注意力头的个数,/>,是可学习权重,/>,注意力权重/>,归一化/>,其中,/>,/>。/>,/>为可学习权重参数。
在一个实现方式中,所述编码器配置有稀疏多头自注意力机制;所述将所述文本特征和所述图像特征输入所述编码器,通过所述编码器对所述文本特征和所述图像特征进行融合以得到多模态融合特征具体包括:
分别对文本特征和所述图像特征进行稀疏式查询,以得到文本注意力特征和图像注意力特征;
对所述文本注意力特征和所述图像注意力特征进行加权融合,以得到多模态融合特征。
具体地,所述文本注意力特征为通过稀疏式查询对文本特征进行查询得到的,所述图像特征注意力值为通过稀疏式查询对图像特征进行查询得到的。在确定融合特征时,由于文本特征和图像特征的量纲不同,从而将基于文本注意力特征和图像注意力特征进行融合时,可以通过加权的方式进行融合,例如,在文本注意力特征中使用加权参数,其中,/>为可学习参数。
基于此,所述通过稀疏自注意力机制确定多头注意力特征的计算过程可以表示为:
;
其中,表示在/>特征上索引值为/>对应得图像特征,/>表示对应得参考点位置,表示注意力头个数,/>表示采样点索引值,/>表示采样点个数,/>表示采样点的预测偏置,/>表示第/>个注意力头在第/>个采样点注意力权重,/>为通过/>预测所得的;表示图像特征和文本特征的使用交叉注意力融合后的多模态特征;/>表示可学习的尺度参数。
如图4所示,的确定过程可以为:首先基于图像特征确定查询向量,然后基于文本特征确定的文本令牌键进行融合得到注意力图,然后将注意力图与文本令牌值进行融合以得到多模态特征/>。
在一个实现方式中,解码器所采用的注意力机制为密集多头自注意力机制或稀疏多头自注意力机制,然后由于解码器的输入项为编码器确定的多模态融合特征,从而在基于密集多头自注意力机制或稀疏多头自注意力机制时,可以直接对多模态融合特征进行处理。
综上所述,本实施例提供了一种图纸检测方法,所述方法包括获取待检测图纸中的文本信息以及图像信息;基于所述文本信息提取文本特征,并基于所述图像信息提取图像特征;将所述文本特征和所述图像特征输入预先训练的图纸检测模型,通过所述图纸检测模型确定所述待检测图纸中的目标部件的位置信息以及类别信息。本申请通过将图纸所述携带文本信息和图像信息进行融合,并通过预先训练的图纸检测模型来预测目标部件的位置信息以及类别信息,这样一方面可以充分有效利用图纸上的文本信息,另一方面通过预先检测的网络模型脱离对CAD图纸的依赖,从而可以提高图纸检测的准确性。
基于上述图纸检测方法,本实施例提供了一种图纸检测系统,如图5所示,所述系统包括:
获取模块100,用于获取待检测图纸中的文本信息以及图像信息;
提取模块200,用于基于所述文本信息提取文本特征,并基于所述图像信息提取图像特征;
检测模块300,用于将所述文本特征和所述图像特征输入预先训练的图纸检测模型,通过所述图纸检测模型确定所述待检测图纸中的目标部件的位置信息以及类别信息。
基于上述图纸检测方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的图纸检测方法中的步骤。
基于上述图纸检测方法,本申请还提供了一种终端设备,如图6所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种图纸检测方法,其特征在于,所述方法包括:
获取待检测图纸中的文本信息以及图像信息;
基于所述文本信息提取文本特征,并基于所述图像信息提取图像特征;
将所述文本特征和所述图像特征输入预先训练的图纸检测模型,通过所述图纸检测模型确定所述待检测图纸中的目标部件的位置信息以及类别信息。
2.根据权利要求1所述图纸检测方法,其特征在于,所述获取待检测图纸中的文本信息以及图像信息具体包括:
当所述待检测图纸为CAD图纸时,分离所述待检测图纸的文本图层,并提取所述文本图层所携带的文本信息以得到文本信息;
对所述待检测图纸中除文本图层外的各图层进行栅格化以得到平面图,以得到图像信息。
3.根据权利要求1所述图纸检测方法,其特征在于,所述获取待检测图纸中的文本信息以及图像信息具体包括:
当所述待检测图纸为CAD图纸经过栅格化的平面图时,对所述待检测图纸进行字符识别以得到文本信息;
将所述平面图作为所述图像信息。
4.根据权利要求1所述图纸检测方法,其特征在于,所述图纸检测模型包括编码器和解码器;所述将所述文本特征和所述图像特征输入预先训练的图纸检测模型,通过所述图纸检测模型确定所述待检测图纸中的目标部件的位置信息以及类别信息具体包括:
将所述文本特征和所述图像特征输入所述编码器,通过所述编码器对所述文本特征和所述图像特征进行融合以得到多模态融合特征,其中,所述多模态融合特征的特征维度与所述文本特征的特征维度相同,所述图像特征的特征维度与所述文本特征的特征维度相同;
将所述多模态融合特征输入所述解码器,通过所述解码器输出待检测图纸中的目标部件的位置信息以及类别信息。
5.根据权利要求4所述图纸检测方法,其特征在于,所述编码器配置有密集多头自注意力机制;所述将所述文本特征和所述图像特征输入所述编码器,通过所述编码器对所述文本特征和所述图像特征进行融合以得到多模态融合特征具体包括:
将所述文本特征和所述图像特征按照特征维度进行拼接,以多模态拼接特征;
通过密集多头自注意力机制对所述拼接特征进行自注意力计算,以得到多模态融合特征。
6.根据权利要求4所述图纸检测方法,其特征在于,所述编码器配置有稀疏多头自注意力机制;所述将所述文本特征和所述图像特征输入所述编码器,通过所述编码器对所述文本特征和所述图像特征进行融合以得到多模态融合特征具体包括:
分别对文本特征和所述图像特征进行稀疏式查询,以得到文本注意力特征和图像注意力特征;
对所述文本注意力特征和所述图像注意力特征进行加权融合,以得到多模态融合特征。
7.根据权利要求4所述图纸检测方法,其特征在于,所述解码器配置有注意力机制,其中,所述注意力机制为密集多头自注意力机制或稀疏多头自注意力机制。
8.一种图纸检测系统,其特征在于,所述系统包括:
获取模块,用于获取待检测图纸中的文本信息以及图像信息;
提取模块,用于基于所述文本信息提取文本特征,并基于所述图像信息提取图像特征;
检测模块,用于将所述文本特征和所述图像特征输入预先训练的图纸检测模型,通过所述图纸检测模型确定所述待检测图纸中的目标部件的位置信息以及类别信息。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-7任意一项所述的图纸检测方法中的步骤。
10.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-7任意一项所述图纸检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310871482.7A CN116597467B (zh) | 2023-07-17 | 2023-07-17 | 一种图纸检测方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310871482.7A CN116597467B (zh) | 2023-07-17 | 2023-07-17 | 一种图纸检测方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116597467A true CN116597467A (zh) | 2023-08-15 |
CN116597467B CN116597467B (zh) | 2023-10-31 |
Family
ID=87608389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310871482.7A Active CN116597467B (zh) | 2023-07-17 | 2023-07-17 | 一种图纸检测方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116597467B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576717A (zh) * | 2023-11-15 | 2024-02-20 | 希维科技(广州)有限公司 | 工程图纸的识别方法、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992490A (zh) * | 2019-12-13 | 2020-04-10 | 重庆交通大学 | 基于cad建筑平面图自动提取室内地图的方法 |
WO2021232589A1 (zh) * | 2020-05-21 | 2021-11-25 | 平安国际智慧城市科技股份有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
KR102381354B1 (ko) * | 2021-10-28 | 2022-04-01 | 주식회사 딥노이드 | 이미지에 포함된 물체에 대한 디자인권 검색 장치 및 방법 |
CN114821622A (zh) * | 2022-03-10 | 2022-07-29 | 北京百度网讯科技有限公司 | 文本抽取方法、文本抽取模型训练方法、装置及设备 |
CN115205640A (zh) * | 2022-06-23 | 2022-10-18 | 齐鲁工业大学 | 一种面向谣言检测的多层次图文融合方法及系统 |
CN115292783A (zh) * | 2022-07-26 | 2022-11-04 | 上海品览数据科技有限公司 | 喷淋点位自动布置方法、装置、设备及存储介质 |
CN115797706A (zh) * | 2023-01-30 | 2023-03-14 | 粤港澳大湾区数字经济研究院(福田) | 目标检测方法、目标检测模型训练方法及相关装置 |
-
2023
- 2023-07-17 CN CN202310871482.7A patent/CN116597467B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992490A (zh) * | 2019-12-13 | 2020-04-10 | 重庆交通大学 | 基于cad建筑平面图自动提取室内地图的方法 |
WO2021232589A1 (zh) * | 2020-05-21 | 2021-11-25 | 平安国际智慧城市科技股份有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
KR102381354B1 (ko) * | 2021-10-28 | 2022-04-01 | 주식회사 딥노이드 | 이미지에 포함된 물체에 대한 디자인권 검색 장치 및 방법 |
CN114821622A (zh) * | 2022-03-10 | 2022-07-29 | 北京百度网讯科技有限公司 | 文本抽取方法、文本抽取模型训练方法、装置及设备 |
CN115205640A (zh) * | 2022-06-23 | 2022-10-18 | 齐鲁工业大学 | 一种面向谣言检测的多层次图文融合方法及系统 |
CN115292783A (zh) * | 2022-07-26 | 2022-11-04 | 上海品览数据科技有限公司 | 喷淋点位自动布置方法、装置、设备及存储介质 |
CN115797706A (zh) * | 2023-01-30 | 2023-03-14 | 粤港澳大湾区数字经济研究院(福田) | 目标检测方法、目标检测模型训练方法及相关装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576717A (zh) * | 2023-11-15 | 2024-02-20 | 希维科技(广州)有限公司 | 工程图纸的识别方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116597467B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113657390B (zh) | 文本检测模型的训练方法和检测文本方法、装置和设备 | |
JP7423715B2 (ja) | テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器 | |
US20200065601A1 (en) | Method and system for transforming handwritten text to digital ink | |
CN112949415B (zh) | 图像处理方法、装置、设备和介质 | |
CN112966522A (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
RU2619712C1 (ru) | Оптическое распознавание символов серии изображений | |
CN113204615B (zh) | 实体抽取方法、装置、设备和存储介质 | |
KR20210130790A (ko) | 문서들에서 키-값 쌍들의 식별 | |
CN115797706B (zh) | 目标检测方法、目标检测模型训练方法及相关装置 | |
CN113657274B (zh) | 表格生成方法、装置、电子设备及存储介质 | |
CN116597467B (zh) | 一种图纸检测方法、系统、设备及存储介质 | |
JP2005135041A (ja) | 文書検索・閲覧手法及び文書検索・閲覧装置 | |
CN114612921B (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
CN114429637B (zh) | 一种文档分类方法、装置、设备及存储介质 | |
CN115578735B (zh) | 文本检测方法和文本检测模型的训练方法、装置 | |
WO2024027349A1 (zh) | 一种印刷体数学公式识别方法、装置及存储介质 | |
US20230114673A1 (en) | Method for recognizing token, electronic device and storage medium | |
CN113486881B (zh) | 一种文本识别方法、装置、设备及介质 | |
CN116824609B (zh) | 文档版式检测方法、装置和电子设备 | |
CN115035351A (zh) | 基于图像的信息提取模型、方法、装置、设备及存储介质 | |
CN113822275A (zh) | 一种图像语种识别方法及其相关设备 | |
Chi et al. | Handwriting Recognition Based on Resnet-18 | |
CN112418217A (zh) | 用于识别字符的方法、装置、设备和介质 | |
CN115004261A (zh) | 文本行检测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |