CN116704511A - 设备清单文字识别方法和装置 - Google Patents
设备清单文字识别方法和装置 Download PDFInfo
- Publication number
- CN116704511A CN116704511A CN202310640177.7A CN202310640177A CN116704511A CN 116704511 A CN116704511 A CN 116704511A CN 202310640177 A CN202310640177 A CN 202310640177A CN 116704511 A CN116704511 A CN 116704511A
- Authority
- CN
- China
- Prior art keywords
- text
- character
- information
- area image
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000001514 detection method Methods 0.000 claims abstract description 208
- 238000012549 training Methods 0.000 claims description 38
- 238000010586 diagram Methods 0.000 claims description 31
- 230000007246 mechanism Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 14
- 238000013518 transcription Methods 0.000 claims description 13
- 230000035897 transcription Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 51
- 230000015654 memory Effects 0.000 description 21
- 238000004590 computer program Methods 0.000 description 17
- 239000000284 extract Substances 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 229910052799 carbon Inorganic materials 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011960 computer-aided design Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000010425 computer drawing Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1463—Orientation detection or correction, e.g. rotation of multiples of 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19153—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种设备清单文字识别方法和装置。通过由表格检测与表重构模型基于待识别配网工程图纸输出表格区域图像,由文字方向检测模型基于表格区域图像输出文本区域边界信息,由文本检测模型基于文本区域边界信息输出字符区域图像,由文字识别模型基于字符区域图像输出图纸中设备清单对应的设备清单文字。相较于传统的通过手动交互的方式识别设备清单文字,本方案通过多个检测模型检测配网工程图纸中不同类型的信息,并得到图纸中的设备清单文字,提高了设备清单文字识别的准确性。
Description
技术领域
本申请涉及电力工程技术领域,特别是涉及一种设备清单文字识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着CAD(Computer Aided Design,计算机辅助设计与制图技术)的应用,CAD逐步在电力工程设计中起到了不可替代的重要作用。不仅能提高设计质量、缩短设计周期,而且创造了良好的经济效益和社会效益。电力工程设计中需要准确提取CAD图纸中的内容,例如图纸中的设备清单等,目前提取CAD工程图纸中的内容通常是通过手动交互的方式进行,然而,通过手动交互的方式识别设备清单,会容易错检或误检。
因此,目前识别CAD图纸中的设备清单文字的方法存在识别准确性低的缺陷。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高识别准确性的设备清单文字识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种设备清单文字识别方法,所述方法包括:
获取待识别配网工程图纸;所述待识别配网工程图纸包括设备清单;
将所述待识别配网工程图纸输入经训练的表格检测与表重构模型,获取所述表格检测与表重构模型基于多层网络输出的所述待识别配网工程图纸中的表格区域图像;
将所述表格区域图像输入经训练的文字方向检测模型,获取所述文字方向检测模型,获取所述文字方向检测模型基于空间维度和通道维度输出的所述表格区域图像中的文本区域边界信息;所述文本区域边界信息表征所述表格区域图像中存在文本的区域的边界信息;
将携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,获取所述文本检测模型基于所述文本区域边界信息识别字符位置和字符连接信息后输出的字符区域图像;所述字符区域图像表征所述表格区域图像中各字符所在区域的图像;
将所述字符区域图像输入经训练的文字识别模型,获取所述文字识别模型基于所述字符区域图像输出的文字信息,根据所述文字信息确定所述待识别配网工程图纸中设备清单对应的设备清单文字。
在其中一个实施例中,所述将所述待识别配网工程图纸输入经训练的表格检测与表重构模型,包括:
将所述待识别配网工程图纸输入经训练的表格检测与表重构模型,由所述表格检测与表重构模型提取所述待识别配网工程图纸中的设备清单特征,对所述设备清单特征进行卷积运算,得到所述设备清单特征对应的二维卷积数据;
对所述二维卷积数据进行归一化处理,并对归一化处理后的二维卷积数据进行平滑处理后,输出所述待识别配网工程图纸中的表格区域图像。
在其中一个实施例中,所述将所述表格区域图像输入经训练的文字方向检测模型,包括:
将所述表格区域图像输入经训练的文字方向检测模型,由所述文字方向检测模型分别提取所述表格区域图像对应的全局特征图、多个高度通道特征图和多个宽度通道特征图;
根据通道注意力机制,合并所述多个高度通道特征图以及合并所述多个宽度通道特征图,得到携带空间信息的高度通道特征图和携带空间信息的宽度通道特征图;
根据空间注意力机制,分别对所述携带空间信息的高度通道特征图和携带空间信息的宽度通道特征图进行建模,得到建模后的高度特征图和建模后的宽度特征图;
合并所述建模后的高度特征图、建模后的宽度特征图和全局特征图,得到合并特征图,基于合并特征图识别并输出所述文本区域边界信息。
在其中一个实施例中,所述将携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,包括:
将携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,由所述文本检测模型在网络层中,基于所述文本区域边界信息提取所述表格区域图像对应的文本区域边界特征;
将所述文本区域边界特征输入至所述文本检测模型的卷积层,由所述卷积层的第一分支根据所述文本区域边界特征识别字符位置,由所述卷积层的第二分支根据所述文本区域边界特征识别字符连接信息;
合并所述字符位置和字符连接信息,得到并输出字符区域图像。
在其中一个实施例中,所述将所述字符区域图像输入经训练的文字识别模型,包括:
将所述字符区域图像输入经训练的文字识别模型,由所述文字识别模型在卷积层中提取所述字符区域图像的字符区域特征;
将所述字符区域特征输入所述文字识别模型的循环层,在所述循环层中基于注意力机制识别所述字符区域特征对应的字符序列特征;
将所述字符序列特征输入所述文字识别模型的转录层,在所述转录层中基于归一化指数函数识别所述字符序列特征对应的字符序列,根据所述字符序列输出对应的文字信息。
在其中一个实施例中,所述方法还包括:
获取配网工程图纸样本;所述配网工程图纸样本包括表格区域图像样本以及所述表格区域图像样本对应的文本区域边界信息样本;
将所述表格区域图像样本输入待训练的文字方向检测模型,获取所述待训练的文字方向检测模型输出的文本区域边界信息的预测信息;
将所述文本区域边界信息的预测信息和所述文本区域边界信息样本输入第一损失函数,通过所述第一损失函数基于所述文本区域边界信息的预测信息和所述文本区域边界信息样本的交集和并集的比值,调整所述待训练的文字方向检测模型的模型参数,直至满足第一预设训练结束条件时,得到经训练的文字方向检测模型。
在其中一个实施例中,所述方法还包括:
获取配网工程图纸样本;所述配网工程图纸样本包括文本区域边界信息样本以及所述文本区域边界信息样本对应的字符区域图像样本;
将所述文本区域边界信息样本输入待训练的文本检测模型,获取所述待训练的文本检测模型输出的字符区域图像预测信息;
获取所述字符区域图像预测信息对应的高斯热图特征图,根据所述高斯热图特征图与所述字符区域图像样本的相似度,调整所述待训练的文本检测模型的模型参数,直至满足第二预设训练结束条件时,得到经训练的文本检测模型。
在其中一个实施例中,所述方法还包括:
获取配网工程图纸样本;所述配网工程图纸样本包括字符区域图像样本和所述字符区域图像样本对应的文字信息样本;
将所述文字信息样本输入待训练的文字识别模型,获取所述待训练的文字识别模型输出的文字信息的预测信息;
将多个文字信息的预测信息和多个文字信息样本输入第二预设损失函数,通过所述第二预设损失函数基于目标文字信息的预测信息的识别概率,调整所述待训练的文字识别模型的模型参数,直至满足第三预设训练结束条件时,得到经训练的文字识别模型;所述目标文字信息的预测信息表征所述多个文字信息的预测信息中,与所述多个文字信息样本的相似度大于预设相似度阈值的文字信息的预测信息。
在其中一个实施例中,所述获取配网工程图纸样本,包括:
获取原始配网工程图纸样本;
对所述配网工程图纸样本分别进行亮度调整和/或文字方向调整,得到数据扩充后的配网工程图纸样本。
第二方面,本申请提供了一种设备清单文字识别装置,所述装置包括:
获取模块,用于获取待识别配网工程图纸;所述待识别配网工程图纸包括设备清单;
第一识别模块,用于将所述待识别配网工程图纸输入经训练的表格检测与表重构模型,获取所述表格检测与表重构模型基于多层网络输出的所述待识别配网工程图纸中的表格区域图像;
第二识别模块,用于将所述表格区域图像输入经训练的文字方向检测模型,获取所述文字方向检测模型,获取所述文字方向检测模型基于空间维度和通道维度输出的所述表格区域图像中的文本区域边界信息;所述文本区域边界信息表征所述表格区域图像中存在文本的区域的边界信息;
第三识别模块,用于将携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,获取所述文本检测模型基于所述文本区域边界信息识别字符位置和字符连接信息后输出的字符区域图像;所述字符区域图像表征所述表格区域图像中各字符所在区域的图像;
第四识别模块,用于将所述字符区域图像输入经训练的文字识别模型,获取所述文字识别模型基于所述字符区域图像输出的文字信息,根据所述文字信息确定所述待识别配网工程图纸中设备清单对应的设备清单文字。
第三方面,本申请提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
第五方面,本申请提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
上述设备清单文字识别方法、装置、计算机设备、存储介质和计算机程序产品,通过由表格检测与表重构模型基于待识别配网工程图纸输出表格区域图像,由文字方向检测模型基于表格区域图像输出文本区域边界信息,由文本检测模型基于文本区域边界信息输出字符区域图像,由文字识别模型基于字符区域图像输出图纸中设备清单对应的设备清单文字。相较于传统的通过手动交互的方式识别设备清单文字,本方案通过多个检测模型检测配网工程图纸中不同类型的信息,并得到图纸中的设备清单文字,提高了设备清单文字识别的准确性。
附图说明
图1为一个实施例中设备清单文字识别方法的流程示意图;
图2为一个实施例中设备清单文字的示意图;
图3为一个实施例中训练文字方向检测模型步骤的示意图;
图4为一个实施例中文本区域边界信息识别步骤的流程示意图;
图5为一个实施例中字符区域图像识别步骤的流程示意图;
图6为一个实施例中文本检测模型的结构示意图;
图7为一个实施例中文字识别模型的结构示意图;
图8为另一个实施例中设备清单文字识别方法的流程示意图;
图9为一个实施例中设备清单文字识别装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种设备清单文字识别方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现,包括以下步骤:
步骤S202,获取待识别配网工程图纸;待识别配网工程图纸包括设备清单。
其中,待识别配网工程图纸可以是20KV及以下配网工程的工程图纸,待识别配网工程图纸中可以包括设备清单,终端需要对待识别配网工程图纸中的设备清单文字进行识别。因此终端可以首先获取待识别配网工程图纸。具体可以是获取20KV及以下配网工程的工程图纸,作为待识别配网工程图纸。
在一个实施例中,终端还可以预先训练多个模型,例如表格检测与表重构模型、文字方向检测模型、文本检测模型、文字识别模型等,从而终端可以基于训练得到的多个模型对待识别配网工程图纸进行不同类型信息的识别。其中,终端在对各个模型进行训练时,需要预先构建样本。其中,由于配网工程图纸多方向数据量少,因此需要通过数据扩充方式实现样本获取。例如,在一个实施例中,终端可以获取原始配网工程图纸样本;对配网工程图纸样本分别进行亮度调整和/或文字方向调整,得到数据扩充后的配网工程图纸样本。
具体地,上述待识别配网工程图纸可以是20KV及以下配网工程设备清单CAD图纸,终端可以收集20KV及以下配网工程设备清单CAD图纸数据集,由于20KV及以下配网工程设备清单CAD图纸多方向数据量少,因此终端可以通过增加图片亮度、减小图片亮度等亮度调整,以及增加文字方向等数据增强算法,对收集到的数据集进行数据扩充,最终终端可以将数据集划分为训练集、验证集、测试集,其中,训练集中包括配网工程图纸样本,验证集中包括配网工程图纸样本对应的识别结果样本,由于不同模型的输出结果不同,因此对于不同模型,上述训练集和验证集中的数据也不同。其中,终端可以使用开源软件labelImg作为训练集样本标注工具对数据进行标注,从而得到可以用于进行验证的样本信息。
步骤S204,将待识别配网工程图纸输入经训练的表格检测与表重构模型,获取表格检测与表重构模型基于多层网络输出的待识别配网工程图纸中的表格区域图像。
其中,终端可以预先训练出表格检测与表重构模型,例如终端可以预先获取待识别配网工程图纸样本,以及对应的表格区域图像样本。终端将待识别配网工程图纸样本输入待训练的表格检测与表重构模型,获取表格检测与表重构模型输出的表格区域图像预测信息,并通过将表格区域图像预测信息与表格区域图像样本输入预设的损失函数,基于损失函数的输出值,调整待训练的表格检测与表重构模型的模型参数,直至满足预设的训练结束条件,例如,在预设的训练次数内,损失函数输出值满足预设的阈值,或训练次数达到预设的训练次数,得到经训练的表格检测与表重构模型。具体地,上述预设的损失函数可以是sigmoid损失函数,该损失函数可以是上述表格检测与表重构模型的输出范围在0和1之间。
终端得到上述经训练的表格检测与表重构模型后,可以将待识别配网工程图纸输入上述表格检测与表重构模型,由表格检测与表重构模型基于多层网络识别待识别配网工程图纸中的表格区域图像,并输出识别出的表格区域图像,从而终端可以得到待识别配网工程图纸中的表格区域图像。其中,表格区域图像具体可以包括上述配网工程图纸中的表格结构,终端可以通过上述表格检测与表重构模型识别出配网工程图纸中的表格外框、表格线和表格结构等信息,得到行列线条的分布和单元格之间的逻辑结构,实现表格文档重建。
步骤S206,将表格区域图像输入经训练的文字方向检测模型,获取文字方向检测模型,获取文字方向检测模型基于空间维度和通道维度输出的表格区域图像中的文本区域边界信息;文本区域边界信息表征表格区域图像中存在文本的区域的边界信息。
其中,文字方向检测是基于目标检测对文字的各种方向进行检测,目标检测的任务是找出图像中所有感兴趣的目标,确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。终端可以预先训练出文字方向检测模型。例如,终端基于表格区域图像样本和对应的文本区域边界信息样本训练待训练的文字方向检测模型,得到经训练的文字方向检测模型。其中,文字方向检测模型可以用于识别上述表格区域图像中文字的各种方向,并确定出属于同一方向的文本所在区域的边界信息,作为文本区域边界信息。
终端可以将上述识别出的表格区域图像输入经训练的文字方向检测模型,并由文字方向检测模型基于空间维度和通道维度,识别表格区域图像中的文本区域边界信息后,输出相应的文本区域边界信息。其中,文本区域边界信息表示表格区域图像中存在文本的区域的边界信息,例如属于同一方向的文字所在区域的边界等。
步骤S208,将携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,获取文本检测模型基于文本区域边界信息识别字符位置和字符连接信息后输出的字符区域图像;字符区域图像表征表格区域图像中各字符所在区域的图像。
其中,终端可以预先训练出文本检测模型。例如,终端基于携带文本区域边界信息样本的表格区域图像样本,以及对应的字符区域图像样本,训练待训练的文本检测模型,得到经训练的文本检测模型。其中,文本检测模型可以用于识别上述表格区域图像中的各个字符所在区域的图像。
终端可以将上述携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,由文本检测模型基于文本区域边界信息识别字符位置和字符连接信息,并输出上述文本区域边界信息对应的字符区域图像。即字符区域图像中包含字符位置和字符连接信息。其中,字符位置表示表格中各个文字所在的位置,字符连接信息表示相邻字符之间的连接情况。字符区域可以基于各个字符的中心像素点确定,字符连接信息可以基于字符与字符之间的字符间隙确定。需要说明的是,上述文本区域边界内的表格区域图像可以包括多个字符,从而终端可以通过上述文本检测模型,基于文本区域边界信息识别对应表格区域内的各个字符区域图像。
步骤S210,将字符区域图像输入经训练的文字识别模型,获取文字识别模型基于字符区域图像输出的文字信息,根据文字信息确定待识别配网工程图纸中设备清单对应的设备清单文字。
其中,终端可以预先训练出文本检测模型。例如,终端基于字符区域图像样本,以及对应的文字信息样本,训练待训练的文字识别模型,得到经训练的文字识别模型。其中,文字识别模型可以用于识别上述字符区域图像对应的文字,这些文字可以是上述待识别配网工程图纸中的设备清单的文字。
终端可以将上述字符区域图像输入经训练的文字识别模型,由文字识别模型识别字符区域图像中的文字信息,并输出字符区域图像对应的文字信息,例如设备清单的字符区域图像中的文字信息。从而终端可以根据文字信息确定待识别配网工程图纸中设备清单对应的设备清单文字。
具体地,如图2所示,图2为一个实施例中设备清单文字的示意图。终端可以获取20KV及以下配网工程设备清单CAD图纸,作为待识别配网工程图纸,终端将上述20KV及以下配网工程设备清单CAD图纸输入上述表格检测与表重构模型,并以此通过表格检测与表重构模型、文字方向检测模型、文本检测模型和文字识别模型,对图纸中的设备清单进行文字识别,得到图纸中的设备清单的文字信息,并且终端还可以基于识别出的设备清单文字,自动新建表格,并对应显示设备清单文字信息。例如,图2中表300可以是20KV及以下配网工程设备清单CAD图纸,表302可以是终端经过上述各个模型识别出的图纸中的设备清单文字。
上述设备清单文字识别方法中,通过由表格检测与表重构模型基于待识别配网工程图纸输出表格区域图像,由文字方向检测模型基于表格区域图像输出文本区域边界信息,由文本检测模型基于文本区域边界信息输出字符区域图像,由文字识别模型基于字符区域图像输出图纸中设备清单对应的设备清单文字。相较于传统的通过手动交互的方式识别设备清单文字,本方案通过多个检测模型检测配网工程图纸中不同类型的信息,并得到图纸中的设备清单文字,提高了设备清单文字识别的准确性。
在一个实施例中,将待识别配网工程图纸输入经训练的表格检测与表重构模型,包括:将待识别配网工程图纸输入经训练的表格检测与表重构模型,由表格检测与表重构模型提取待识别配网工程图纸中的设备清单特征,对设备清单特征进行卷积运算,得到设备清单特征对应的二维卷积数据;对二维卷积数据进行归一化处理,并对归一化处理后的二维卷积数据进行平滑处理后,输出待识别配网工程图纸中的表格区域图像。
本实施例中,终端可以通过表格检测与表重构模型,识别待识别配网工程图纸中的表格区域图像。其中,表格检测与表重构模型中包含多层网络。例如输入层、卷积层、激活函数、池化层、全连接层等,在表格检测与表重构模型的卷积层中,终端可以设置多种函数对上述待识别配网工程图纸进行表格区域的识别。例如,终端将待识别配网工程图纸输入经训练的表格检测与表重构模型后,由表格检测与表重构模型提取待识别配网工程图纸中的设备清单特征,并在卷积层中对设备清单特征进行卷积运算,得到设备清单特征对应的二维卷积数据;
表格检测与表重构模型还可以在卷积层中对二维卷积数据进行归一化处理,并对归一化处理后的二维卷积数据进行平滑处理,将平滑处理后的结果进行输入激活函数,并基于激活函数、池化层和全连接层得到表格检测与表重构模型输出的待识别配网工程图纸中的表格区域图像。
具体地,终端可以预先训练待训练的表格检测与表重构模型,其中表格检测与表重构模型使用的损失函数可以是sigmoid损失函数。上述表格检测与表重构模型,具体可以是改进的HRNet模型,上述待识别配网工程图纸可以是20KV及以下配网工程设备清单CAD图纸,该图纸中表格结构布局复杂多样,存在行列不均匀、单元格合并、分裂或嵌套等复杂异构的形式,因此终端可以利用CBS结构替换原HRNet模型中的卷积层。其中,CBS主要是Conv+BN+SiLU构成,其中Conv是卷积运算,BN是数据归一化方法,即上述归一化处理,SiLU函数在接近零时具有更平滑的曲线,即上述平滑处理,并且由于其使用了sigmoid损失函数,可以使网络的输出范围在0和1之间。
具体地Conv函数可以如下所示:其中,f和g(n)为二维卷积数据,在积分运算过程中,τ是积分变量,n是参变量,例如上述识别的设备清单特征;积分后的结果是n的函数。BN的函数可以如下所示:
Input:B={x1...m};γ,β(parameters to be learned)
Output:{yi=BNγ,β(xi)}
其中,B为数值集合,例如上述Conv识别设备清单特征后输出的数值,γ、β为可训练参数,m是mini-batch的大小,μβ是均值,是方差。SiLU的函数可以如下所示:sliu(x)=x/(1+e-x);其中,x为特征输入值,例如上述BN函数的输出值。终端基于SiLU函数的输出值,可以得到上述表格区域图像。
通过本实施例,终端可以基于改进的HRNet模型识别配网工程图纸中的表格区域图像,进而基于表格区域图像识别设备清单文字,提高了设备清单文字识别的准确性。
在一个实施例中,将表格区域图像输入经训练的文字方向检测模型,包括:将表格区域图像输入经训练的文字方向检测模型,由文字方向检测模型分别提取表格区域图像对应的全局特征图、多个高度通道特征图和多个宽度通道特征图;根据通道注意力机制,合并多个高度通道特征图以及合并多个宽度通道特征图,得到携带空间信息的高度通道特征图和携带空间信息的宽度通道特征图;根据空间注意力机制,分别对携带空间信息的高度通道特征图和携带空间信息的宽度通道特征图进行建模,得到建模后的高度特征图和建模后的宽度特征图;合并建模后的高度特征图、建模后的宽度特征图和全局特征图,得到合并特征图,基于合并特征图识别并输出文本区域边界信息。
本实施例中,上述文字方向检测模型可以基于多个维度识别表格区域图像中的文本区域边界信息。终端可以首先基于样本训练待训练的文字方向检测模型,例如,在一个实施例中,终端可以获取配网工程图纸样本。其中,配网工程图纸样本包括表格区域图像样本以及表格区域图像样本对应的文本区域边界信息样本;终端可以将表格区域图像样本输入待训练的文字方向检测模型,并获取待训练的文字方向检测模型输出的文本区域边界信息的预测信息。终端可以将文本区域边界信息的预测信息和文本区域边界信息样本输入第一损失函数,通过第一损失函数获取文本区域边界信息的预测信息和文本区域边界信息样本的交集,以及文本区域边界信息的预测信息和文本区域边界信息样本的并集,并基于上述各个交集和并集的比值,调整待训练的文字方向检测模型的模型参数,直至满足第一预设训练结束条件时,终端可以得到经训练的文字方向检测模型,即终端可以基于文本区域边界信息和文本区域边界信息样本的重合度确定模型是否训练完成。
终端可以将上述表格区域图像输入经训练的文字方向检测模型,由文字方向检测模型分别提取表格区域图像对应的全局特征图、多个高度通道特征图和多个宽度通道特征图。其中,多个高度通道特征图和多个宽度通道特征图可以通过复制得到。终端可以根据通道注意力机制,合并多个高度通道特征图,以及合并多个宽度通道特征图,得到携带空间信息的高度通道特征图和携带空间信息的宽度通道特征图。并且终端还可以根据空间注意力机制,对携带空间信息的高度通道特征图进行建模,以及根据空间注意力机制,对携带空间信息的宽度通道特征图进行建模,得到建模后的高度特征图和建模后的宽度特征图。从而终端可以基于混合注意力,合并建模后的高度特征图、建模后的宽度特征图和全局特征图,得到合并特征图,并基于合并特征图识别文本区域边界信息后,输出文本区域边界信息。
具体地,上述文字方向检测模型可以是改进的YOLOv5m模型,终端使用Wise-IoULoss损失函数来替换IoU Loss损失函数,即第一损失函数可以是Wise-IoU Loss损失函数。以降低损失函数评估结果时的偏差,提高文字方向预测的准确性。为更好捕捉全局上下文信息,终端可以在文字方向检测模型中引入新设计的FSA模块。终端可以训练得到上述文字方向检测模型。
其中,上述Wise-IoU Loss损失函数可以表示为:其中,WIOU为损失函数的输出值,IOU为交并比,具体可以表示为:IOU=TP/(TP+FN+FP)。IoU是真实标注框与算法检测框重叠区域除以它们的合并区域,即终端可以获取上述交集和并集的比值。具体如图3所示,图3为一个实施例中训练文字方向检测模型步骤的示意图。n表示物体框的数量,bi表示第i个物体框的坐标,gi表示第i个物体的真实标注框的坐标,IOU(bi,gi)表示第i个物体框与真实标注框之间的IoU值,其中,上述bi可以表示为图3中的(x,y),上述gi可以表示为图3中的(xgt,ygt),ωi表示权重值。Hg、Wg分别表示上述文本区域边界信息的预测信息和文本区域边界信息样本的并集的高度和宽度,上述Hi、Wi分别表示上述文本区域边界信息的预测信息和文本区域边界信息样本的交集的高度和宽度。
终端基于上述损失函数训练得到文字方向检测模型后,可以基于该文字方向检测模型进行文本区域边界信息的识别。具体如图4所示,图4为一个实施例中文本区域边界信息识别步骤的流程示意图。终端可以基于特征图的空间维度和通道维度信息,以获得上下文信息。其中,输入的表格区域图像可以被分为三个分支,分别对应表格区域图像的高度H、宽度W和通道数量C。对于每个分支,终端可以在文字方向检测模型中针对高度、宽度和通道维度进行全局合并,生成三个特征图,例如将表格区域图像分为全局特征图、高度通道特征图和宽度通道特征图。其中全局特征图如图4中的(H,W)所示,高度通道特征图如图4中的(H,C)所示,宽度通道特征图如图4中的(W,C)所示。文字方向检测模型可以将汇集的高度和宽度的分支特征图重复多次,以获得与输入相同大小的特征图,将具有合并高度和宽度的特征图,例如上述全局特征图,复制多次,以匹配输入特征图的大小。
文字方向检测模型可以将通道注意力应用于每个复制的特征图,以获取通道信息,即上述空间信息,为了补充前两个分支中丢失的空间信息,终端可以使用空间注意力来对合并的通道特征的相对位置关系进行建模,并将这些特征图合并,以形成混合注意力模块的输出,其中,混合注意力模块设置在文字方向检测模型中,该模块使用混合注意力机制计算图像中每个像素的重要性,并调整特征图以更好地捕捉全局上下文信息。从而终端可以得到合并特征图,例如图4中的(H,W,C),进而终端可以基于该合并特征图识别文本区域边界信息并输出。
通过上述实施例,终端可以利用Wise-IoU Loss损失函数训练文字方向检测模型,并利用训练好的文字方向检测模型基于多种维度识别文本区域边界信息,提高了设备清单文字识别的准确性。
在一个实施例中,将携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,包括:将携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,由文本检测模型在网络层中,基于文本区域边界信息提取表格区域图像对应的文本区域边界特征;将文本区域边界特征输入至文本检测模型的卷积层,由卷积层的第一分支根据文本区域边界特征识别字符位置,由卷积层的第二分支根据文本区域边界特征识别字符连接信息;合并字符位置和字符连接信息,得到并输出字符区域图像。
本实施例中,上述文本检测模型可以基于多层结构识别文本区域边界内的字符区域。终端可以首先基于样本训练待训练的文本检测模型,例如,在一个实施例中,终端可以获取配网工程图纸样本。其中,配网工程图纸样本包括文本区域边界信息样本以及文本区域边界信息样本对应的字符区域图像样本。终端可以将文本区域边界信息样本输入待训练的文本检测模型,并获取待训练的文本检测模型输出的字符区域图像预测信息。终端可以获取字符区域图像预测信息对应的高斯热图特征图,并根据高斯热图特征图与字符区域图像样本的相似度,调整待训练的文本检测模型的模型参数,直至满足第二预设训练结束条件时,得到经训练的文本检测模型。
终端可以将上述携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,由文本检测模型在网络层中,基于文本区域边界信息提取表格区域图像对应的文本区域边界特征。上述文本检测模型还包括卷积层,并且卷积层中包括多个分支,分别用于识别不同的特征。终端可以将文本区域边界特征输入至文本检测模型的卷积层,由卷积层的第一分支根据文本区域边界特征识别字符位置,由卷积层的第二分支根据文本区域边界特征识别字符连接信息。其中,字符位置可以基于字符中心的像素点确定,字符连接信息可以基于相邻字符之间的间隙确定。终端可以合并上述字符位置和字符连接信息,从而得到字符区域图像后,输出上述字符区域图像。
具体地,上述文本检测模型可以是改进骨干网络的CRAFT模型。如图5所示,图5为一个实施例中字符区域图像识别步骤的流程示意图。终端可以通过生成Region ScoreGround(字符高斯热图特征图)和Affinity Score Ground(字符间连接高斯热图特征图)两个特征标签训练待训练的文本检测模型。终端可以基于待训练的文本检测模型生成字符区域图像预测信息,该预测信息包括字符位置预测信息如图5中的字符框,还包括字符连接信息预测信息,如图5中的邻域框。终端可以使用字符框生成邻域框,并分别生成二维高斯映射值,即上述字符位置对应的高斯热图特征图和字符连接信息对应的高斯热图特征图。终端可以计算高斯特征图和每个字符框之间的透视变换,还可以计算高斯特征图和每个邻域框之间的透视变换。从而终端可以将高斯特征图映射至字符框或邻域框,得到区域分数Region Score GT和关联分数Affinity Score GT。从而终端可以基于区域分数和关联分数,调整上述待训练的文本检测模型的模型参数,并在满足第二预设训练结束条件时,得到经训练的文本检测模型。其中,第二预设训练结束条件可以是在预设训练次数内,上述区域分数和关联分数均达到预设的数值,或训练次数达到上述的预设训练次数。
如图6所示,图6为一个实施例中文本检测模型的结构示意图。终端可以采用VGG16作为上述文本检测模型的骨干网络,并使用特征金字塔融合结构将深层和浅层的特征图进行融合输出。有效的保留浅层特征结构和深层语义特征结构。终端可以在进行特征提取的网络层后面增加卷积层,最终1x1卷积层为使用两个卷积核输出两个分支结果,即上述第一分支和第二分支的结果。其中,第一分支为各像素点处于字符中心的概率,即为文字的位置分数,例如上述区域分数;第二分支为各像素点处于字符间隙的概率,即为字符的间隙分数,例如上述关联分数。通过这两层输出,终端分别得到字符位置和字符间连接情况,从而将结果整合为文本框,例如识别出连贯的句子和词语,以及各句子或词语中各个字符的区域等,从而得到上述字符区域图像。
通过上述实施例,终端可以基于高斯热图特征图训练文本检测模型,并基于改进骨干网络的CRAFT文本检测模型识别字符区域图像,从而提高了字符区域图像中文字识别的准确性。
在一个实施例中,将字符区域图像输入经训练的文字识别模型,包括:将字符区域图像输入经训练的文字识别模型,由文字识别模型在卷积层中提取字符区域图像的字符区域特征;将字符区域特征输入文字识别模型的循环层,在循环层中基于注意力机制识别字符区域特征对应的字符序列特征;将字符序列特征输入文字识别模型的转录层,在转录层中基于归一化指数函数识别字符序列特征对应的字符序列,根据字符序列输出对应的文字信息。
本实施例中,上述文字识别模型可以基于多层结构识别字符区域图像中的字符。终端可以首先基于样本训练待训练的文字识别模型,例如,在一个实施例中,终端可以获取配网工程图纸样本。其中,配网工程图纸样本包括字符区域图像样本和字符区域图像样本对应的文字信息样本。终端可以将文字信息样本输入待训练的文字识别模型,获取待训练的文字识别模型输出的文字信息的预测信息。上述文字识别模型包括第二预设损失函数,终端可以将多个文字信息的预测信息和多个文字信息样本输入第二预设损失函数,通过第二预设损失函数,基于目标文字信息的预测信息的识别概率,调整待训练的文字识别模型的模型参数,直至满足第三预设训练结束条件时,得到经训练的文字识别模型。其中,目标文字信息的预测信息表征多个文字信息的预测信息中,与多个文字信息样本的相似度大于预设相似度阈值的文字信息的预测信息。即终端将多个文字信息的预测信息与多个文字信息样本进行相似度比较,将相似度大于预设相似度阈值的文字信息的预测信息,作为目标文字信息的预测信息。上述第三预设训练结束条件,可以是在预设训练次数内,上述目标文字信息的预测信息的识别概率大于预设概率阈值,或训练次数达到上述的预设训练次数。
上述文字识别模型还包括卷积层、循环层和转录层,终端可以将上述字符区域图像输入经训练的文字识别模型,由文字识别模型在卷积层中提取字符区域图像的字符区域特征,并将提取的字符区域特征输入值文字识别模型的循环层,在循环层中基于注意力机制识别字符区域特征对应的字符序列特征。终端还可以将字符序列特征输入文字识别模型的转录层,并在转录层中,基于归一化指数函数识别字符序列特征对应的字符序列,从而文字识别模型可以根据字符序列输出对应的文字信息。例如上述待识别配网工程图纸中的设备清单文字。
具体地,如图7所示,图7为一个实施例中文字识别模型的结构示意图。上述文字识别模型可以是改进的CRNN(Convolutional Recurrent Neural Network,卷积递归神经网络)文字识别模型,CRNN文字识别模型采用CNN(Convolutional Neural Networks,卷积神经网络)+RNN(Recurrent Neural Network,循环神经网路)+CTC(Connectionist TemporalClassification,基于神经网络的时序类分类)的结构,即CRNN结构。其中,CRNN主要包括三层,具体可以是卷积层,循环层,转录层;CNN的改进为替换CNN骨干网络,终端可以采用RepVGG网络替换VGG16网络,缩减卷积层以提高速度并且减少空间,其中RNN采用BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆网络)网络结构,并在BiLSTM中加入Attention,即注意力机制结构。
其中,终端可以在文字识别模型中使用CTC损失函数。传统使用BiLSTM+softmax字符输出时,每一列输出需要对应一个字符元素,实际情况下,终端较难对齐样本,例如标记字符和字符位置等,因此终端可以使用一种不需要对齐的CTC损失函数,替代原先的softmax损失函数。训练文字识别模型的过程中,终端可以利用上述CTC损失函数判断识别结果的准确度。其中,CTC损失函数具体可以表示为:L(S)=-In∏(x,z)∈Sp(z|x)=-∑(x,z)∈ SInp(z|x)。其中,p(z|x)代表为输入文本x和输出序列z的概率,即在输入文本x的情况下,输出序列为z的概率,则z可以表示为上述目标文字信息,S为数据集,例如上述输入的文字信息的预测信息,lnp(z|x)为取概率的对数。
其中,上述字符区域图像可以包括字符的文本框,终端经过训练得到经训练的文字识别模型后,可以在卷积层中提取文本框图像特征,图像在固定长的情况下,终端可以将该图像初始化为64×W×3的大小。其中W为图片任意宽度,并转换为1×32×512大小的特征矩阵;终端还可以在循环层中,采用引入注意力机制的BiLSTM网络结构,对上述卷积层提取的1×32×512的特征矩阵进行文字序列特征的提取;并且,终端可以在转录层中,将引入注意力机制的BiLSTM的输出特征进行softmax后,为字符输出,即得到上述文字信息。
通过上述实施例,终端可以基于改进的CRNN网络进行设备清单中的文字识别,提高了对CAD图纸中设备清单的文字识别的准确性。
在一个实施例中,如图8所示,图8为另一个实施例中设备清单文字识别方法的流程示意图。本实施例中,终端可以预先构建20KV及以下配网工程设备清单CAD图纸数据集,该数据集可以被分为训练集、验证集和测试集等。终端可以基于上述数据集分别训练上述各个模型。
对于待识别的配网工程图纸,例如20KV及以下配网工程设备清单CAD图纸,终端可以基于改进HRNet的表格检测与表重构模型来获取表格的位置并且重构表格;在检测到表格位置基础上,通过构建基于改进YOLOv5m的文字方向检测模型来检测文字边框;并且终端采用改进骨干网络的CRAFT的文本检测模型对配网工程图纸设备清单进行文本检测;另外,终端还可以构建改进CRNN的文字识别模型对检测出的文本框进行文字识别。从而实现对20KV及以下配网工程设备清单CAD图纸中设备清单文字的识别。
通过上述实施例,终端通过多个检测模型检测配网工程图纸中不同类型的信息,并得到图纸中的设备清单文字,提高了设备清单文字识别的准确性,从而能够更精确、更快捷、更高速的对配网工程图纸进行识别和提取。步骤A包括:
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的设备清单文字识别方法的设备清单文字识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个设备清单文字识别装置实施例中的具体限定可以参见上文中对于设备清单文字识别方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种设备清单文字识别装置,包括:获取模块500、第一识别模块502、第二识别模块504、第三识别模块506和第四识别模块508,其中:
获取模块500,用于获取待识别配网工程图纸;待识别配网工程图纸包括设备清单。
第一识别模块502,用于将待识别配网工程图纸输入经训练的表格检测与表重构模型,获取表格检测与表重构模型基于多层网络输出的待识别配网工程图纸中的表格区域图像。
第二识别模块504,用于将表格区域图像输入经训练的文字方向检测模型,获取文字方向检测模型,获取文字方向检测模型基于空间维度和通道维度输出的表格区域图像中的文本区域边界信息;文本区域边界信息表征表格区域图像中存在文本的区域的边界信息。
第三识别模块506,用于将携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,获取文本检测模型基于文本区域边界信息识别字符位置和字符连接信息后输出的字符区域图像;字符区域图像表征表格区域图像中各字符所在区域的图像。
第四识别模块508,用于将字符区域图像输入经训练的文字识别模型,获取文字识别模型基于字符区域图像输出的文字信息,根据文字信息确定待识别配网工程图纸中设备清单对应的设备清单文字。
在一个实施例中,上述第一识别模块502,具体用于将待识别配网工程图纸输入经训练的表格检测与表重构模型,由表格检测与表重构模型提取待识别配网工程图纸中的设备清单特征,对设备清单特征进行卷积运算,得到设备清单特征对应的二维卷积数据;对二维卷积数据进行归一化处理,并对归一化处理后的二维卷积数据进行平滑处理后,输出待识别配网工程图纸中的表格区域图像。
在一个实施例中,上述第二识别模块504,具体用于将表格区域图像输入经训练的文字方向检测模型,由文字方向检测模型分别提取表格区域图像对应的全局特征图、多个高度通道特征图和多个宽度通道特征图;根据通道注意力机制,合并多个高度通道特征图以及合并多个宽度通道特征图,得到携带空间信息的高度通道特征图和携带空间信息的宽度通道特征图;根据空间注意力机制,分别对携带空间信息的高度通道特征图和携带空间信息的宽度通道特征图进行建模,得到建模后的高度特征图和建模后的宽度特征图;合并建模后的高度特征图、建模后的宽度特征图和全局特征图,得到合并特征图,基于合并特征图识别并输出文本区域边界信息。
在一个实施例中,上述第三识别模块506,具体用于将携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,由文本检测模型在网络层中,基于文本区域边界信息提取表格区域图像对应的文本区域边界特征;将文本区域边界特征输入至文本检测模型的卷积层,由卷积层的第一分支根据文本区域边界特征识别字符位置,由卷积层的第二分支根据文本区域边界特征识别字符连接信息;合并字符位置和字符连接信息,得到并输出字符区域图像。
在一个实施例中,上述第四识别模块508,具体用于将字符区域图像输入经训练的文字识别模型,由文字识别模型在卷积层中提取字符区域图像的字符区域特征;将字符区域特征输入文字识别模型的循环层,在循环层中基于注意力机制识别字符区域特征对应的字符序列特征;将字符序列特征输入文字识别模型的转录层,在转录层中基于归一化指数函数识别字符序列特征对应的字符序列,根据字符序列输出对应的文字信息。
在一个实施例中,上述装置还包括:第一训练模块,用于获取配网工程图纸样本;配网工程图纸样本包括表格区域图像样本以及表格区域图像样本对应的文本区域边界信息样本;将表格区域图像样本输入待训练的文字方向检测模型,获取待训练的文字方向检测模型输出的文本区域边界信息的预测信息;将文本区域边界信息的预测信息和文本区域边界信息样本输入第一损失函数,通过第一损失函数基于文本区域边界信息的预测信息和文本区域边界信息样本的交集和并集的比值,调整待训练的文字方向检测模型的模型参数,直至满足第一预设训练结束条件时,得到经训练的文字方向检测模型。
在一个实施例中,上述装置还包括:第二训练模块,用于获取配网工程图纸样本;配网工程图纸样本包括文本区域边界信息样本以及文本区域边界信息样本对应的字符区域图像样本;将文本区域边界信息样本输入待训练的文本检测模型,获取待训练的文本检测模型输出的字符区域图像预测信息;获取字符区域图像预测信息对应的高斯热图特征图,根据高斯热图特征图与字符区域图像样本的相似度,调整待训练的文本检测模型的模型参数,直至满足第二预设训练结束条件时,得到经训练的文本检测模型。
在一个实施例中,上述装置还包括:第三训练模块,用于获取配网工程图纸样本;配网工程图纸样本包括字符区域图像样本和字符区域图像样本对应的文字信息样本;将文字信息样本输入待训练的文字识别模型,获取待训练的文字识别模型输出的文字信息的预测信息;将多个文字信息的预测信息和多个文字信息样本输入第二预设损失函数,通过第二预设损失函数基于目标文字信息的预测信息的识别概率,调整待训练的文字识别模型的模型参数,直至满足第三预设训练结束条件时,得到经训练的文字识别模型;目标文字信息的预测信息表征多个文字信息的预测信息中,与多个文字信息样本的相似度大于预设相似度阈值的文字信息的预测信息。
在一个实施例中,上述装置还包括:样本获取模块,用于获取原始配网工程图纸样本;对配网工程图纸样本分别进行亮度调整和/或文字方向调整,得到数据扩充后的配网工程图纸样本。
上述设备清单文字识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种设备清单文字识别方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述的设备清单文字识别方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的设备清单文字识别方法。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的设备清单文字识别方法。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种设备清单文字识别方法,其特征在于,所述方法包括:
获取待识别配网工程图纸;所述待识别配网工程图纸包括设备清单;
将所述待识别配网工程图纸输入经训练的表格检测与表重构模型,获取所述表格检测与表重构模型基于多层网络输出的所述待识别配网工程图纸中的表格区域图像;
将所述表格区域图像输入经训练的文字方向检测模型,获取所述文字方向检测模型,获取所述文字方向检测模型基于空间维度和通道维度输出的所述表格区域图像中的文本区域边界信息;所述文本区域边界信息表征所述表格区域图像中存在文本的区域的边界信息;
将携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,获取所述文本检测模型基于所述文本区域边界信息识别字符位置和字符连接信息后输出的字符区域图像;所述字符区域图像表征所述表格区域图像中各字符所在区域的图像;
将所述字符区域图像输入经训练的文字识别模型,获取所述文字识别模型基于所述字符区域图像输出的文字信息,根据所述文字信息确定所述待识别配网工程图纸中设备清单对应的设备清单文字。
2.根据权利要求1所述的方法,其特征在于,所述将所述待识别配网工程图纸输入经训练的表格检测与表重构模型,包括:
将所述待识别配网工程图纸输入经训练的表格检测与表重构模型,由所述表格检测与表重构模型提取所述待识别配网工程图纸中的设备清单特征,对所述设备清单特征进行卷积运算,得到所述设备清单特征对应的二维卷积数据;
对所述二维卷积数据进行归一化处理,并对归一化处理后的二维卷积数据进行平滑处理后,输出所述待识别配网工程图纸中的表格区域图像。
3.根据权利要求1所述的方法,其特征在于,所述将所述表格区域图像输入经训练的文字方向检测模型,包括:
将所述表格区域图像输入经训练的文字方向检测模型,由所述文字方向检测模型分别提取所述表格区域图像对应的全局特征图、多个高度通道特征图和多个宽度通道特征图;
根据通道注意力机制,合并所述多个高度通道特征图以及合并所述多个宽度通道特征图,得到携带空间信息的高度通道特征图和携带空间信息的宽度通道特征图;
根据空间注意力机制,分别对所述携带空间信息的高度通道特征图和携带空间信息的宽度通道特征图进行建模,得到建模后的高度特征图和建模后的宽度特征图;
合并所述建模后的高度特征图、建模后的宽度特征图和全局特征图,得到合并特征图,基于合并特征图识别并输出所述文本区域边界信息。
4.根据权利要求1所述的方法,其特征在于,所述将携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,包括:
将携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,由所述文本检测模型在网络层中,基于所述文本区域边界信息提取所述表格区域图像对应的文本区域边界特征;
将所述文本区域边界特征输入至所述文本检测模型的卷积层,由所述卷积层的第一分支根据所述文本区域边界特征识别字符位置,由所述卷积层的第二分支根据所述文本区域边界特征识别字符连接信息;
合并所述字符位置和字符连接信息,得到并输出字符区域图像。
5.根据权利要求1所述的方法,其特征在于,所述将所述字符区域图像输入经训练的文字识别模型,包括:
将所述字符区域图像输入经训练的文字识别模型,由所述文字识别模型在卷积层中提取所述字符区域图像的字符区域特征;
将所述字符区域特征输入所述文字识别模型的循环层,在所述循环层中基于注意力机制识别所述字符区域特征对应的字符序列特征;
将所述字符序列特征输入所述文字识别模型的转录层,在所述转录层中基于归一化指数函数识别所述字符序列特征对应的字符序列,根据所述字符序列输出对应的文字信息。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取配网工程图纸样本;所述配网工程图纸样本包括表格区域图像样本以及所述表格区域图像样本对应的文本区域边界信息样本;
将所述表格区域图像样本输入待训练的文字方向检测模型,获取所述待训练的文字方向检测模型输出的文本区域边界信息的预测信息;
将所述文本区域边界信息的预测信息和所述文本区域边界信息样本输入第一损失函数,通过所述第一损失函数基于所述文本区域边界信息的预测信息和所述文本区域边界信息样本的交集和并集的比值,调整所述待训练的文字方向检测模型的模型参数,直至满足第一预设训练结束条件时,得到经训练的文字方向检测模型。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取配网工程图纸样本;所述配网工程图纸样本包括文本区域边界信息样本以及所述文本区域边界信息样本对应的字符区域图像样本;
将所述文本区域边界信息样本输入待训练的文本检测模型,获取所述待训练的文本检测模型输出的字符区域图像预测信息;
获取所述字符区域图像预测信息对应的高斯热图特征图,根据所述高斯热图特征图与所述字符区域图像样本的相似度,调整所述待训练的文本检测模型的模型参数,直至满足第二预设训练结束条件时,得到经训练的文本检测模型。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取配网工程图纸样本;所述配网工程图纸样本包括字符区域图像样本和所述字符区域图像样本对应的文字信息样本;
将所述文字信息样本输入待训练的文字识别模型,获取所述待训练的文字识别模型输出的文字信息的预测信息;
将多个文字信息的预测信息和多个文字信息样本输入第二预设损失函数,通过所述第二预设损失函数基于目标文字信息的预测信息的识别概率,调整所述待训练的文字识别模型的模型参数,直至满足第三预设训练结束条件时,得到经训练的文字识别模型;所述目标文字信息的预测信息表征所述多个文字信息的预测信息中,与所述多个文字信息样本的相似度大于预设相似度阈值的文字信息的预测信息。
9.根据权利要求6至8任意一项所述的方法,其特征在于,所述获取配网工程图纸样本,包括:
获取原始配网工程图纸样本;
对所述配网工程图纸样本分别进行亮度调整和/或文字方向调整,得到数据扩充后的配网工程图纸样本。
10.一种设备清单文字识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别配网工程图纸;所述待识别配网工程图纸包括设备清单;
第一识别模块,用于将所述待识别配网工程图纸输入经训练的表格检测与表重构模型,获取所述表格检测与表重构模型基于多层网络输出的所述待识别配网工程图纸中的表格区域图像;
第二识别模块,用于将所述表格区域图像输入经训练的文字方向检测模型,获取所述文字方向检测模型,获取所述文字方向检测模型基于空间维度和通道维度输出的所述表格区域图像中的文本区域边界信息;所述文本区域边界信息表征所述表格区域图像中存在文本的区域的边界信息;
第三识别模块,用于将携带文本区域边界信息的表格区域图像输入经训练的文本检测模型,获取所述文本检测模型基于所述文本区域边界信息识别字符位置和字符连接信息后输出的字符区域图像;所述字符区域图像表征所述表格区域图像中各字符所在区域的图像;
第四识别模块,用于将所述字符区域图像输入经训练的文字识别模型,获取所述文字识别模型基于所述字符区域图像输出的文字信息,根据所述文字信息确定所述待识别配网工程图纸中设备清单对应的设备清单文字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310640177.7A CN116704511A (zh) | 2023-05-31 | 2023-05-31 | 设备清单文字识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310640177.7A CN116704511A (zh) | 2023-05-31 | 2023-05-31 | 设备清单文字识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116704511A true CN116704511A (zh) | 2023-09-05 |
Family
ID=87836731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310640177.7A Pending CN116704511A (zh) | 2023-05-31 | 2023-05-31 | 设备清单文字识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704511A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576717A (zh) * | 2023-11-15 | 2024-02-20 | 希维科技(广州)有限公司 | 工程图纸的识别方法、设备及存储介质 |
-
2023
- 2023-05-31 CN CN202310640177.7A patent/CN116704511A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576717A (zh) * | 2023-11-15 | 2024-02-20 | 希维科技(广州)有限公司 | 工程图纸的识别方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020224424A1 (zh) | 图像处理方法、装置、计算机可读存储介质和计算机设备 | |
Ma et al. | Dimension reduction of image deep feature using PCA | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN106203432B (zh) | 一种基于卷积神经网显著性图谱的感兴趣区域的定位系统 | |
Lei et al. | Region-enhanced convolutional neural network for object detection in remote sensing images | |
CN111027563A (zh) | 一种文本检测方法、装置及识别系统 | |
Zhang et al. | Weakly supervised emotion intensity prediction for recognition of emotions in images | |
Rani et al. | Object detection and recognition using contour based edge detection and fast R-CNN | |
WO2014205231A1 (en) | Deep learning framework for generic object detection | |
CN108334805B (zh) | 检测文档阅读顺序的方法和装置 | |
CN111814816A (zh) | 一种目标检测方法、装置及其存储介质 | |
CN111523463B (zh) | 基于匹配-回归网络的目标跟踪方法及训练方法 | |
CN113705297A (zh) | 检测模型的训练方法、装置、计算机设备和存储介质 | |
CN112528845B (zh) | 一种基于深度学习的物理电路图识别方法及其应用 | |
CN116704511A (zh) | 设备清单文字识别方法和装置 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
Juang et al. | Stereo-camera-based object detection using fuzzy color histograms and a fuzzy classifier with depth and shape estimations | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
Huang et al. | Edge-based feature extraction module for 3D point cloud shape classification | |
CN117058554A (zh) | 电力设备目标检测方法、模型训练方法和装置 | |
CN106778579A (zh) | 一种基于累计属性的头部姿态估计方法 | |
CN116977265A (zh) | 缺陷检测模型的训练方法、装置、计算机设备和存储介质 | |
Jiang et al. | Robust 3d face alignment with efficient fully convolutional neural networks | |
Lin et al. | LA-Net: LSTM and attention based point cloud down-sampling and its application | |
Hou et al. | Multilayer feature descriptors fusion CNN models for fine‐grained visual recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |