CN116597466A

CN116597466A - 一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统

Info

Publication number: CN116597466A
Application number: CN202310685498.9A
Authority: CN
Inventors: 胡代国; 梁果敢; 宗云兵
Original assignee: Jinxiandai Information Industry Co ltd
Current assignee: Jinxiandai Information Industry Co ltd
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-08-15

Abstract

本发明提出了一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统，包括：利用预先训练好的改进的YOLOv5s检测模型对待检测的工程图纸图像进行文字检测，得到文字坐标信息；其中，所述改进的YOLOv5s检测模型为将主干网络采用多个并行不同大小的卷积核来提取不同尺度的特征；将所得到的文字坐标信息将待检测的工程图纸裁剪对应的文字图像，将所述文字图像输入至训练好的PaddleOCR识别模型，得到文字识别结果。基于工程图纸中文字框的宽高比的特性，对YOLOv5s网络进行改进，在不增加计算复杂度的情况下，增加模型的非线性表达能力，提高模型对工程图纸的检测精度。

Description

一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统

技术领域

本发明属于图像检测技术领域，尤其涉及一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

目前，在AI技术的不断发展下，通用OCR模型在常规的文档识别准确率上已经取得了极高的准确率。但针对工程图纸中文字的检测识别，通用OCR模型在图纸中的文字检测识别中整体准确率不佳，存在误识别、漏识别等问题。造成这种问题主要是因为图纸图像的尺寸很大而文字尺寸很小、文字与符号框贴合较近、部分器件符号容易被误识别为文字、文字分布随意以及文字方向随意等原因。因此，如何高效、准确地对工程图纸中的文字进行检测识别，是目前需要解决的技术问题。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统，基于工程图纸中文字框的宽高比的特性，对YOLOv5s网络进行改进，在不增加计算复杂度的情况下，增加模型的非线性表达能力，提高模型对工程图纸的检测精度。

为实现上述目的，本发明的第一个方面提供一种基于改进YOLOv5s的工程图纸文字检测识别方法，包括：

利用预先训练好的改进的YOLOv5s检测模型对待检测的工程图纸图像进行文字检测，得到文字坐标信息；其中，基于工程图纸中文字框的宽高比，对YOLOv5s网络进行改进，所述改进的YOLOv5s检测模型为将主干网络采用多个并行不同大小的卷积核来提取不同尺度的特征；采用文字检测数据集对改进的YOLOv5s检测模型进行训练，所述文字检测数据集包括按不同方向旋转后且添加特异性噪声的工程图纸集；

将所得到的文字坐标信息将待检测的工程图纸裁剪对应的文字图像，将所述文字图像输入至训练好的PaddleOCR识别模型，得到文字识别结果。

本发明的第二个方面提供一种基于改进YOLOv5s的工程图纸文字检测识别系统，包括：

文字检测模块：利用预先训练好的改进的YOLOv5s检测模型对待检测的工程图纸图像进行文字检测，得到文字坐标信息；其中，基于工程图纸中文字框的宽高比，对YOLOv5s网络进行改进，所述改进的YOLOv5s检测模型为将主干网络采用多个并行不同大小的卷积核来提取不同尺度的特征；采用文字检测数据集对改进的YOLOv5s检测模型进行训练，所述文字检测数据集包括按不同方向旋转后且添加特异性噪声的工程图纸集；

文字识别模块：将所得到的文字坐标信息将待检测的工程图纸裁剪对应的文字图像，将所述文字图像输入至训练好的PaddleOCR识别模型，得到文字识别结果。

本发明的第三个方面提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行一种基于改进YOLOv5s的工程图纸文字检测识别方法。

本发明的第四个方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行一种基于改进YOLOv5s的工程图纸文字检测识别方法。

以上一个或多个技术方案存在以下有益效果：

在本发明中，基于工程图纸中文字框的宽高比的特性，对YOLOv5s网络进行改进，通过将YOLOv5s网络的主干网络改为采用多个并行不同大小的卷积核的形式来学习不同尺度的特征，进而将不同尺度的特征融合起来进行检测，在不增加计算复杂度的情况下，增加模型的非线性表达能力，提高模型对工程图纸的检测精度。

在本发明中，通过将工程图纸进行旋转并添加特异性噪声如空白框、设备符号和直线等来构建文字检测数据集，利用所构建的文字检测数据集对改进的YOLOv5s检测模型进行训练；在文字检测数据集中通过对工程图纸旋转的方式来降低图纸中文字方向对文字漏检的影响，通过添加特异性噪声提升文字检测准确率，降低这些符号误识别为文字的概率。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中基于改进YOLOv5s的工程图纸文字检测识别方法流程图；

图2为本发明实施例一中图纸图像裁切示意图；

图3为本发明实施例一中文字检测数据集增广过程；

图4为现有的YOLOv5s骨干网络中原始的CBL结构；

图5为本发明实施例一中改进的YOLOv5s骨干网络中IBL结构；

图6为本发明实施例一中文字框图像去除直线流程。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

术语解释：

OCR：optical character recognition，光学字符识别。

opencv库：一个流行的开源计算机视觉库，提供了许多用于图像处理和计算机视觉的函数和工具。

LabelImg工具：一种数据集标注工具。

实施例一

如图1所示，本实施例公开了一种基于改进YOLOv5s的工程图纸文字检测识别方法，包括：

在本实施例中，采用多种策略构建图纸文字检测数据集和文字识别数据集。文字检测：主要是指检测出图像中的文字所在区域。文字识别：主要是指将图像中的文字识别为可编辑的文本。

文字检测数据集构建具体方法：对图纸图像进行预处理之后，采用多种策略(裁切、旋转、模糊、缩放、背景反转)进行数据集增广。同时，为了进一步提升模型在数据集中的泛化能力和抗干扰能力，在部分图纸图像中空白处添加特异性噪声(如空白框、设备符号、直线等)，并且在数据集中添加占数据集总数量0.5％比例的背景图。此外，为了提高重叠文字的检测准确率，增加了重叠文字的数据集的比重。

文字检测数据集构建示例：一张大尺寸图纸图像，首先按图像尺寸平分作为固定裁切位置，在固定裁切位置的附近100像素进行投影，找出像素数量最多的位置作为最终裁切位置，以避免将完整的符号框分为两部分。

如图2所示，经过裁切为6张图纸切图，裁切的主要目的一是减少标注工作量，二是提高小尺寸文字的检测效果，三是增加数据集数量。裁切之后对图纸数据使用LabelImg工具进行标注，保存为YOLO格式。再对上述经过裁切之后的图纸切图分别顺时针旋转90°、180°、270°，旋转的主要目的是降低图纸中文字方向对文字漏检的影响，数据集共有24张图纸切图。再对上述图纸切图使用高斯模糊，数据集共有48张图纸切图。再对上述图纸宽高分别等比例缩小0.8倍之后，在周围添加上和背景像素一致的边缘将缩小后的图像增加到与扩充前一致的尺寸大小，避免yolo在训练时自动将图像尺寸缩放回原始大小，数据集共有96张图纸切图，并在这96张切图中随机选择9张图像，在空白处添加特异性噪声(如空白框、设备符号、直线等)。再对上述图纸切图进行背景反转，以提高图纸在黑色背景中的文字检测效果，数据集共有192张图纸切图。最后，再随机选择1张切图，扣掉图纸文字信息，并将背景图反转，将这2张图像作为背景图加入数据集中，目的是可以提高检测模型的准确率，降低将图纸中的符号检测为文字的错误率，数据集共有194张图纸切图。即使用上述数据集增广方式可以将1张大尺寸图纸扩增为194张切图训练集，上述数据集增广过程如图3所示。

本实施例通过高斯模糊对图像模糊，进行增广，获得更像真实的图像模糊。通过空白处添加特异性噪声提升文字检测准确率，降低这些符号误识别为文字的概率。

文字识别数据集构建具体方法为：为了增加文字识别模型在特殊字符上的识别能力，构建图纸文字识别数据集。数据集使用公开的印刷体文字数据集，还增加了图纸中含有的特殊字符数据。在构建特殊字符数据时，在包含特殊字符的文本中随机选择一段文本，使用opencv库将其融合到背景图像(背景图像主要有白色、黑色两种背景)中，构建包含特殊字符的数据集。

在本实施例中，使用改进的YOLOv5s模型进行文字检测模型训练。最终使用训练之后的文字检测模型在完整的图纸图像中进行文本检测，得到图纸图像中所有文本所在的位置坐标。

工程图纸中的文字框的宽高比一般为3:1-5:1之间，因此根据此特性改进YOLOv5s的backbone层，以增强模型的非线性表达能力，提高模型的检测性能。具体的就是将Inception结构思想应用到YOLOv5s的backbone层，分别将3×1卷积核、4×1卷积核、5×1卷积核并行到YOLOv5s的卷积层上，形成一种类似于残差网络的连接方式，并且通过边缘填充的方式保证卷积之后，卷积层尺寸大小的一致。如4和图5所示，具体来说就是将YOLOv5s骨干网络中的CBL结构替换为创新的IBL结构，使用Inception结构学习不同尺度的特征，然后将这些特征融合起来，传递给后续的卷积层进行处理。这样可以在不增加计算复杂度的情况下，增加模型的非线性表达能力，提高模型的检测精度。

具体的，IBL结构包括并行卷积模块、归一化层和激活函数。并行卷积模块包括4个并列的支路，用于学习不同的尺度特征；具体的，第一支路包括依次连接的卷积核大小为1×1的卷积层和卷积核大小为1×3的卷积层，第二支路包括依次连接的卷积核大小为1×1的卷积层和卷积核大小为1×4的卷积层，第三支路包括依次连接的卷积核大小为1×1的卷积层和卷积核大小为1×5的卷积层，第四支路包括卷积核大小为3×3的卷积层。

为了减少图纸中部分符号常常被误检为文字，因此在数据集标注时，除了分类出文字框外，还将常被误检为文字的符号分类为新的类别，以此达到降低文字误检率的目的。即将文字定为0类别，容易被误检为文字的符号定为其他类别。

设定超参之后，使用改进的YOLOv5s模型训练得到图纸专用文字检测模型。使用该文字检测模型对输入的完整图纸检测将得到文本位置坐标{[x₁,y₁,w₁,h₁],...[x_n,y_n,w_n,h_n]}。

由于PaddleOCR为通用识别模型，所以无法识别图纸中的特殊字符(如±、℃、α等)，因此需要微调PaddleOCR识别模型，增加对专用字符的识别能力。文字识别数据集准备过程中，除了使用公开的印刷体文字数据集，还增加了图纸中的特殊字符作为数据集。设定超参之后，使用文字识别数据集训练得到PaddleOCR微调后的识别模型。

对于上述检测到的文本位置坐标{[x₁,y₁,w₁,h₁],...[x_n,y_n,w_n,h_n]}，从图纸图像中切割对应的文字图像{I₁...I_n}，分别对文字切图进行灰度化、二值化后，截取图像上下边缘，再对边缘图像进行水平投影得到一维数组，判断数组中是否有长度等于文字切图宽度的值，如果有则认为边缘中存在直线，将其边缘去掉，否则保留图像边缘，处理流程如图6所示，同理，图像左右边缘也可以用上述方法去除边缘直线。上述去除边缘直线的目的是因为部分文字会写入符号框内且文字距离符号框线较近，为了避免直线对识别的影响，需要将图像边缘存在的直线去掉，本实施例中根据实际情况，切的5个像素高(经验值)，所以实际操作是直接去掉包含直线的边缘图像。

实施例二

本实施例的目的是提供一种基于改进YOLOv5s的工程图纸文字检测识别系统，包括：

实施例三

本实施例的目的是提供一种计算装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于改进YOLOv5s的工程图纸文字检测识别方法，其特征在于，包括：

2.如权利要求1所述的一种基于改进YOLOv5s的工程图纸文字检测识别方法，其特征在于，所述改进的YOLOv5s检测模型具体为：将YOLOv5s主干网络中的CBL结构替换为IBL结构，所述IBL结构包括并行卷积模块、归一化层和激活函数。

3.如权利要求2所述的一种基于改进YOLOv5s的工程图纸文字检测识别方法，其特征在于，所述并行卷积模块包括4个并列支路，用于学习不同的尺度特征；具体的，第一支路包括1×1卷积层和1×3卷积层，第二支路包括1×1卷积层和1×4卷积层，第三支路包括1×1卷积层和1×5卷积层，第四支路包括3×3卷积层。

4.如权利要求1所述的一种基于改进YOLOv5s的工程图纸文字检测识别方法，其特征在于，采用文字检测数据集对改进的YOLOv5s检测模型进行训练，所述文字检测数据集的构建为：

将工程图纸按尺寸裁剪为多个，将裁剪后的工程图纸图像进行标注后按照不同方向进行旋转，得到图纸切图；

将所述图纸切图的宽高等比例缩小，并在其周围添加与背景像素一致的边缘后再扩充到缩小前的尺寸大小；

对扩充后的图纸图像的空白处添加特异性噪声后进行背景反转，得到文字识别数据集。

5.如权利要求1所述的一种基于改进YOLOv5s的工程图纸文字检测识别方法，其特征在于，所述特性性噪声为空白框、设备符号和直线。

6.如权利要求1所述的一种基于改进YOLOv5s的工程图纸文字检测识别方法，其特征在于，采用文字识别数据集对PaddleOCR识别模型进行训练，所述文字识别数据集的构建为：在图纸上添加特殊字符数据，在包含特殊字符的文本中选择一段文本，使用opencv库将其融合到背景图像中，得到文字识别数据集。

7.如权利要求1所述的一种基于改进YOLOv5s的工程图纸文字检测识别方法，其特征在于，在将所述文字图像输入到训练好的PaddleOCR识别模型之前，还包括：对文字图像进行灰度化和二值化处理后截图文字图像的上下边缘，对边缘图像进行水平投影得到一维数组，判断一维数组中是否有长度等于文字图像宽度的值；若存在则边缘图像中存在直线，将边缘图像去掉，否则保留边缘图像。

8.一种基于改进YOLOv5s的工程图纸文字检测识别系统，其特征在于，包括：

文字检测模块：利用预先训练好的改进的YOLOv5s检测模型对待检测的工程图纸图像进行文字检测，得到文字坐标信息；其中，所述改进的YOLOv5s检测模型为将主干网络采用多个并行不同大小的卷积核来提取不同尺度的特征；采用文字检测数据集对改进的YOLOv5s检测模型进行训练，所述文字检测数据集包括按不同方向旋转后且添加特异性噪声的工程图纸集；

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的一种基于改进YOLOv5s的工程图纸文字检测识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的一种基于改进YOLOv5s的工程图纸文字检测识别方法。