CN114049648A

CN114049648A - 工程图文本检测识别方法、装置及系统

Info

Publication number: CN114049648A
Application number: CN202111414483.6A
Authority: CN
Inventors: 张荷花; 张轩铭
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-02-15
Anticipated expiration: 2041-11-25
Also published as: CN114049648B

Abstract

本发明实施例公开一种工程图文本检测识别方法、装置及系统，方法包括：将待检测工程图切分成多个图像分片；基于候选网络的文本检测模型对图像分片中的水平方向文本进行检测，得到第一文本区域集合；基于多尺度全卷积的文本检测模型对图像分片中的竖直和/或倾斜方向文本进行检测，得到第二文本区域集合；计算第一文本区域集合中第一文本区域与第二文本区域集合中第二文本区域之间的交并比；将交并比大于预设交并比阈值的第一文本区域和第二文本区域中预测分数低的文本区域进行去除；根据由文本区域上指定点的坐标确定的旋转角度，对去除处理后的文本区域进行方向纠正；利用非极大值抑制算法对方向纠正后的文本区域进行去重；将图像分片进行合并。

Description

工程图文本检测识别方法、装置及系统

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种工程图文本检测识别方法、装置及系统。

背景技术

随着计算机硬件和人工智能化技术的发展计算机视觉技术在工程制造领域的物体定位、外观检测、尺寸测量、图像识别等领域已取得广泛应用。工业视觉数据通常来自于生产阶段的传感器采集或者设计阶段的工程图纸。工程图纸作为工程设计、制造、运维等生命周期各阶段的重要指导依据，使用计算机视觉技术对其语义信息进行有效的提取，能够为后续各个阶段提供有效的数据支撑，推动制造全周期的数据互通，助力企业提质增效，促进制造业智能数字化工程、智能制造技术的发展。

以建筑领域的图纸审查为例，为确保建筑在生产建造过程中及完工后的安全性和可靠性，建筑图纸在施工前需要提交至建筑管理相关部门进行一系列规范标准审查。传统的审查模式依赖建筑审查专家对防火规范、消防报警规范、给排水等大量相关规范标准的理解进行人工审查。由于检查规范更新频繁，审查人员培训成本高、人员审查水平差异和图纸质量难以保证等因素，人工审查不仅费时费力，审查结果的准确度、全面性也不够理想。

为了提高工程图的审查效率和准确率，自动化审查方式应运而生。具体的，可以先对工程图中的文本区域进行自动化检测，再对检测出的文本区域进行自动化文本识别，最后通过将识别出的文本内容与规范标准进行匹配获得审查结果。其中，对工程图进行文本检测主要采用基于连通区域分析和基于滑动窗口这两种方法。其中，基于连通区域分析的文本检测方法利用图像中文本相邻像素间的相似性，例如颜色和纹理等相似性，区分图像中的文本目标和非文本目标。将相邻像素且相似性度量小于特定阈值的区域聚集为像素集合，构成连通区域，然后使用分类器确定该区域是否为文本类别。基于滑动窗口的文本检测方法利用不同尺度和长宽比的窗口在图像上滑动获取检测目标的候选区域，然后使用分类器判定各候选区域是否为文本区域。滑动窗口产生的候选区域通常数量庞大，因此该类方法对后续分类器的要求很高。

这两类方法的核心在于特征的手工设计和机器学习分类器的效果。最具有代表性的特征包括基于连通区域分析的最大稳定极值区域和基于滑动窗口的笔画宽度变换。然而，在检测复杂多样的文本区域时，这些手工设计的低层次视觉特征很难保证文本检测较高的准确性和较好的鲁棒性。

发明内容

本发明提供了一种工程图文本检测识别方法、装置及系统，以提高文本检测的准确性和鲁棒性。具体的技术方案如下：

第一方面，本发明实施例提供了一种工程图文本检测识别方法，所述方法包括：

将待检测工程图切分成多个图像分片；

基于候选网络的文本检测模型对所述图像分片中的水平方向文本进行检测，得到第一文本区域集合；

基于多尺度全卷积的文本检测模型对所述图像分片中的竖直和/或倾斜方向文本进行检测，得到第二文本区域集合；

针对同一个图像分片，计算所述第一文本区域集合中第一文本区域与所述第二文本区域集合中第二文本区域之间的交并比；

将交并比大于预设交并比阈值的第一文本区域和第二文本区域中预测分数低的文本区域进行去除；

根据由文本区域上指定点的坐标确定的旋转角度，对去除处理后的文本区域进行方向纠正；

利用非极大值抑制算法对方向纠正后的文本区域进行去重；

将包含去重处理后的文本区域的图像分片进行合并，获得包含文本检测结果的工程图。

可选的，在将待检测工程图切分成多个图像分片之前，所述方法还包括：

利用霍夫变换相关检测算法检测所述待检测工程图中的干扰元素；

去除所述干扰元素。

可选的，基于候选网络的文本检测模型对所述图像分片中的水平方向文本进行检测，得到第一文本区域集合包括：

基于候选网络的文本检测模型提取所述图像分片的特征图；

使用预设大小的滑动窗口滑过所述特征图，并在每个窗口的中心位置生成宽度固定、高度变化的多个初始候选框；

通过将所述多个初始候选框输入softmax分类层和边界包围框回归层，获得包含水平方向文本的候选框，将所述候选框包含的区域确定为第一文本区域，并由至少一个第一文本区域构成第一文本区域集合。

可选的，根据由文本区域上指定点的坐标确定的旋转角度，对去除处理后的文本区域进行方向纠正，包括：

根据所述去除处理后的文本区域的左上角点的坐标和右上角点的坐标计算旋转角度；

利用仿射变换和所述旋转角度，对所述去除处理后的文本区域进行顺时针旋转，并去除旋转后产生的多余空白区域；

若旋转处理后的文本区域的高度大于宽度预设倍数，则将旋转处理后的文本区域继续顺时针旋转90度。

可选的，根据所述去除处理后的文本区域的左上角点的坐标和右上角点的坐标计算旋转角度包括：

利用如下公式计算所述旋转角度ρ：

其中，(x₁，y₁)为左上角点的坐标，(x₂，y₂)为右上角点的坐标。

可选的，在将包含去重处理后的文本区域的图像分片进行合并，获得包含文本检测结果的工程图之后，所述方法还包括：

利用文本识别模型对所述工程图的文本区域进行文本识别，获得文本识别结果；

若所述文本识别结果中存在字符识别置信度分数低于预设分数阈值的字符，则将所述字符确定为待纠错字符；

在基于工程领域词库生成的BK树中查找与目标词语之间的相似度满足预设相似度条件的至少一个候选词；所述目标词语为所述文本识别结果中所述待纠错字符所属的词语；

对所述候选词和所述目标词语进行正则匹配，确定所述候选词中与所述待纠错字符对应的候选字符；

计算所述待纠错字符与所述候选字符的表意文字描述序列IDS相似度；

若所述IDS相似度大于预设字形相似度阈值，则将所述候选字符替换所述待纠错字符。

可选的，计算所述待纠错字符与所述候选字符的表意文字描述序列IDS相似度包括：

分别获取所述待纠错字符和所述候选字符的中文字符IDS表征树；

根据所述待纠错字符的所述中文字符IDS表征树生成所述待纠错字符的字形笔画表征的第一字符串，以及根据所述候选字符的所述中文字符IDS表征树生成所述候选字符的字形笔画表征的第二字符串；

根据所述第一字符串与所述第二字符串之间的编辑距离、所述第一字符串和所述第二字符串的长度，计算所述IDS相似度。

可选的，根据所述第一字符串与所述第二字符串之间的编辑距离、所述第一字符串和所述第二字符串的长度，计算所述IDS相似度，包括：

根据如下公式计算所述IDS相似度CharacterSimilarity：

CharacterSimilarity＝(L_max-L_IDS)/L_max

其中，L_IDS为所述第一字符串与所述第二字符串之间的编辑距离，L_max为所述第一字符串和所述第二字符串的长度中最大值。

第二方面，本发明实施例提供了一种工程图文本检测识别装置，所述装置包括：

切分单元，用于将待检测工程图切分成多个图像分片；

第一检测单元，用于基于候选网络的文本检测模型对所述图像分片中的水平方向文本进行检测，得到第一文本区域集合；

第二检测单元，用于基于多尺度全卷积的文本检测模型对所述图像分片中的竖直和/或倾斜方向文本进行检测，得到第二文本区域集合；

计算单元，用于针对同一个图像分片，计算所述第一文本区域集合中第一文本区域与所述第二文本区域集合中第二文本区域之间的交并比；

去除单元，用于将交并比大于预设交并比阈值的第一文本区域和第二文本区域中预测分数低的文本区域进行去除；

纠正单元，用于根据由文本区域上指定点的坐标确定的旋转角度，对去除处理后的文本区域进行方向纠正；

去重单元，用于利用非极大值抑制算法对方向纠正后的文本区域进行去重；

合并单元，用于将包含去重处理后的文本区域的图像分片进行合并，获得包含文本检测结果的工程图。

可选的，所述装置还包括：

第三检测单元，用于在将待检测工程图切分成多个图像分片之前，利用霍夫变换相关检测算法检测所述待检测工程图中的干扰元素；

所述去除单元，还用于去除所述干扰元素。

可选的，所述第一检测单元包括：

提取模块，用于基于候选网络的文本检测模型提取所述图像分片的特征图；

生成模块，用于使用预设大小的滑动窗口滑过所述特征图，并在每个窗口的中心位置生成宽度固定、高度变化的多个初始候选框；

获得模块，用于通过将所述多个初始候选框输入softmax分类层和边界包围框回归层，获得包含水平方向文本的锚点框，将所述锚点框包含的区域确定为第一文本区域，并由至少一个第一文本区域构成第一文本区域集合。

可选的，所述纠正单元，包括：

计算模块，用于根据所述去除处理后的文本区域的左上角点的坐标和右上角点的坐标计算旋转角度；

旋转模块，用于利用仿射变换和所述旋转角度，对所述去除处理后的文本区域进行顺时针旋转，并去除旋转后产生的多余空白区域；若旋转处理后的文本区域的高度大于宽度预设倍数，则将旋转处理后的文本区域继续顺时针旋转90度。

可选的，所述计算模块，用于利用如下公式计算所述旋转角度ρ：

可选的，所述装置还包括：

识别单元，用于在将包含去重处理后的文本区域的图像分片进行合并，获得包含文本检测结果的工程图之后，利用文本识别模型对所述工程图的文本区域进行文本识别，获得文本识别结果；

字符确定单元，用于若所述文本识别结果中存在字符识别置信度分数低于预设分数阈值的字符，则将所述字符确定为待纠错字符；

查找单元，用于在基于工程领域词库生成的BK树中查找与目标词语之间的相似度满足预设相似度条件的至少一个候选词；所述目标词语为所述文本识别结果中所述待纠错字符所属的词语；

匹配单元，用于对所述候选词和所述目标词语进行正则匹配，确定所述候选词中与所述待纠错字符对应的候选字符；

相似度确定单元，用于计算所述待纠错字符与所述候选字符的表意文字描述序列IDS相似度；

替换单元，用于若所述IDS相似度大于预设字形相似度阈值，则将所述候选字符替换所述待纠错字符。

可选的，所述相似度确定单元，用于分别获取所述待纠错字符和所述候选字符的中文字符IDS表征树；根据所述待纠错字符的所述中文字符IDS表征树生成所述待纠错字符的字形笔画表征的第一字符串，以及根据所述候选字符的所述中文字符IDS表征树生成所述候选字符的字形笔画表征的第二字符串；根据所述第一字符串与所述第二字符串之间的编辑距离、所述第一字符串和所述第二字符串的长度，计算所述IDS相似度。

可选的，所述相似度确定单元，用于根据如下公式计算所述IDS相似度CharacterSimilarity：

CharacterSimilarity＝(L_max-L_IDS)/L_max

第三方面，本发明实施例提供了一种工程图文本检测识别系统，所述系统包括前端和后端；所述前端包括展示层、交互控制层和数据层；所述后端包括工程图文本识别系统，所述工程图文本识别系统包括服务控制模块、文本检测模块和文本识别模块；

所述交互控制层，用于接收外部发送的文本图像处理请求，并将所述文本图像处理请求发送给所述服务控制模块，接收所述服务器控制模块反馈文本图像处理结果；所述文本图像处理请求包括文本检测请求和/或文本识别请求，所述文本图像处理结果包括文本检测结果和/或文本识别结果；

所述展示层，用于接收并展示所述交互控制层发送的工程图和/或对所述工程图的文本图像处理结果；

所述数据层，用于接收并保存所述交互控制层发送的工程图和/或对所述工程图的文本图像处理结果；

所述服务控制模块，用于接收所述交互控制层发送的文本图像处理请求，并向所述文本检测模块和/或所述文本识别模块发送文本图像处理指令，以及接收文本检测模块和/或所述文本识别模块反馈的文本图像处理结果；

所述文本检测模块，用于采用第一方面所述的方法对所述工程图进行文本检测；

所述文本识别结果，用于利用文本识别模型对所述工程图的文本区域进行文本识别，获得文本识别结果；若所述文本识别结果中存在字符识别置信度分数低于预设分数阈值的字符，则将所述字符确定为待纠错字符；在基于工程领域词库生成的BK树中查找与目标词语之间的相似度满足预设相似度条件的至少一个候选词；所述目标词语为所述文本识别结果中所述待纠错字符所属的词语；对所述候选词和所述目标词语进行正则匹配，确定所述候选词中与所述待纠错字符对应的候选字符；计算所述待纠错字符与所述候选字符的表意文字描述序列IDS相似度；若所述IDS相似度大于预设字形相似度阈值，则将所述候选字符替换所述待纠错字符。

第四方面，本发明实施例提供了一种存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现第一方面所述的方法。

第五方面，本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现第一方面所述的方法。

由上述内容可知，本发明实施例提供的一种工程图文本检测识别方法、装置及系统，该方法主要包括面向高像素规模工程图的检测预处理、面向多方向文本和高召回需求的综合文本检测模型和面向整图识别的检测框后处理三部分。检测预处理阶段提出了工程图的保证文本区域完整性的切分算法，能够解决深度模型难以处理高像素规模工程图的问题。文本检测模型部分提出了针对工程图文本特点优化构建的基于候选区域网络的文本检测模型和基于多尺度全卷积网络的文本检测模型，能够同时支持工程图中水平文本和多方向文本的检测，并将两者检测到的文本区域交并比大于预设交并比阈值，且预测分数低的文本区域进行去除，从而结合两者的优势进行了模型集成。检测框后处理阶段对不同方向和角度偏差的文本区域进行方向矫正，并利用非极大值抑制算法对方向纠正后的文本区域进行去重，最后将切分后的检测结果合并还原，得到最终的文本区域检测结果。由此可知，本发明实施例通过水平检测和其他方向检测两种深度学习模型相结合来识别各种方向的文本区域，并对检测到的文本区域进行方向纠正和去重处理，从而不仅可以避免繁琐费时的人工特征设计，也可以提高文本检测的准确率和鲁棒性。此外，为了进一步提高文本区域检测的准确性，在将待检测工程图切分成多个图像分片之前，可以去除工程图的遮挡干扰线，从而缓解图层混叠对文本检测识别效果的影响。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

本发明实施例的创新点包括：

1、利用基于候选网络的文本检测模型和基于多尺度全卷积的文本检测模型分别对不同方向的文本区域进行检测，并将两者进行集成。结合模型检测前的去干扰元素和模型检测后的方向纠正、去重处理可以进一步提高文本检测准确性。

2、基于候选网络的文本检测模型中进行锚点框确定时，通过生成宽度固定，高度变化的多个候选框，可以有效减少神经网络搜索空间。

3、在利用文本识别模型对文本区域进行识别获得文本识别结果后，可以基于工程领域词库生成的BK(Burkhard Keller)树查询与待纠错识别内容相似的候选词，并结合IDS相似度确定是否进行纠错，即能够结合文本识别的工程领域先验信息并有效利用中文表意象形文字的特点进行纠错，从而在具体领域词典的条件下进一步提升文本识别模型输出结果的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种工程图文本检测识别方法的流程示意图；

图2a为本发明实施例提供的一种去干扰元素前的示例图；

图2b为本发明实施例提供的一种去干扰元素后的示例图；

图3a为本发明实施例提供的一种文本区域去重前的示例图；

图3b为本发明实施例提供的一种文本区域去重后的示例图；

图4为本发明实施例提供的另一种工程图文本检测识别方法的流程示意图；

图5为本发明实施例提供的一种中文字符IDS表征示例图；

图6为本发明实施例提供的一种工程图文本检测识别装置的组成框图；

图7为本发明实施例提供的一种工程图文本检测识别系统的架构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明提供了一种工程图文本检测识别方法、装置及系统，以提高文本检测的准确性和鲁棒性。本发明实施例所提供的方法，可以应用于任一具有计算能力的电子设备，该电子设备可以为终端或者服务器。在一种实现中，实现该方法的功能软件可以以单独的客户端软件的形式存在，也可以以目前相关的客户端软件的插件的形式存在，例如可以以自动驾驶系统的功能模块的形式存在，这都是可以的。下面对本发明实施例进行详细说明。

图1为本发明实施例提供的工程图文本检测识别方法的一种流程示意图。该方法可以包括如下步骤：

S100：将待检测工程图切分成多个图像分片。

目前常用的自然场景文本检测数据集中图像的像素尺寸通常在1296x864到1920x1280之间，而本发明实施例的输入数据使用工程图纸导出的非矢量化图，在图纸导出时，为保证图像的像素清晰度，最大化减少信息损失，通常会设置较高的图纸分辨率。然而深度检测和识别模型很难直接处理这些分辨率可高达10K到30K的图像。一方面，模型在处理大规模的输入时易造成计算时的显存溢出，导致训练的失败；另一方面，模型需要设置较大的感受野以有效捕捉图像中的中高层语义信息，因而导致了更深的模型深度和模型大小，为模型训练和收敛带来困难。

为避免工程图高像素规模的特点对深度模型的训练和预测效果带来的负面影响，在进行文本的检测和识别前，本发明实施例会对图像进行切分操作，并在检测完成后合并切分的各个单元图像，整合得到最终结果。然而，采用朴素的切分算法直接将工程图划分为各个单元图像可能会造成文本信息的丢失。例如，切分线穿过的字符在切分时完整字形结构会被破坏，增加了后续识别难度。因此，本发明实施例采用一定重叠区域下的滑动窗口算法进行图像切分。下述代码展示了切分算法的实现，该切分算法还提供了针对不同工程图像类型的参数设置接口以便进行灵活调整。

图像切分算法如下：

输入:原始图像image，滑动窗口宽度，split-width，滑动窗口高度，split-height，水平方向滑动步长step-width，垂直方向滑动步长step-height输出:split-image-set切分图像集合

1:function SPLIT-IMAGE(image,split-width,split-height,step-width,step-height)

2:ifimage.width<＝split-width and image.height<＝split-height then

3:return image

4:end if

5:x←0

6:y←0

7:while y<image.height do

8:while x<image.width do

9:split-image←image[y:MIN(y+split-height,image.height),x:MIN(x+split-width,image.width)]

10:split-image-set.add(split-image)

11:x←x+step-width

12:end while

13:x←0

14:y←y+step-height

15:end while

16:return split-image-set

17:end function

该切分算法包括下列两个关键要素：一是确定分割子图(即图像分片)的像素尺寸大小。图像分片的分辨率大小既要保证图纸内信息的清晰无损，又要适应模型推理的数据大小要求。本发明实施例确定了切分图像的像素尺寸设置为1200×1200时，模型具有较好的性能和检测精度效果。二是确定滑动窗口的滑动步长。滑动步长的设置要尽可能保证分割线左右方向和上下方向重叠范围内文本区域的完整性。由于工程图纸中的文本像素大小通常在几十乘以几百像素之间，本发明实施例设置垂直方向的滑动步长为100像素，水平方向的滑动步长为500像素。

不同于传统的扫描版文档图像和自然场景图像，工程图像中文本可能包含多图层混叠导致的元素干扰，其中以标注线、轴网线、指示符号等线条样式的图形干扰为主。如果将含有干扰元素的图像直接作为后续文本的检测和识别阶段的输入，会对识别结果产生较大影响。为消除数据误差，本发明实施例可以在将待检测工程图切分成多个图像分片之前，先利用霍夫变换相关检测算法检测所述待检测工程图中的干扰元素，并去除所述干扰元素，从而在一定程度上消除混杂元素带来的噪声。其中，干扰线去除方法可以通过霍夫变换直线检测算法，定位工程图中长度大于特定阈值的线条，进而清除工程图中的元素引线和尺寸标注线等干扰元素。针对特定领域的工程图像干扰线特点，还可以进一步去除其特殊类型的干扰元素。例如建筑工程图中轴网类干扰线一般都具有对应的特定轴网编号，因此可以首先基于霍夫变换圆形检测定位轴网圆心，然后根据圆心坐标，对其上下左右四个方向的延伸线段进行去除。基于轴网圆心定位的干扰线去除算法前后效果对比如图2所示。图2a展示了原始图像轴网编号的圆心定位的结果，图2b展示了根据轴网编号去除轴网线后的结果。通过对比可以看出，预处理阶段的遮挡干扰处理能够一定程度上消除文本的附近轴线，缓解这些线条对文本检测和后续识别的影响。

S110：基于候选网络的文本检测模型对所述图像分片中的水平方向文本进行检测，得到第一文本区域集合。

候选网络的文本检测模型主要包括特征提取骨干网络、精细化候选区域提取网络两部分。可以先基于特征提取骨干网络提取所述图像分片的特征图；再基于精细化候选区域提取网络，使用预设大小的滑动窗口滑过所述特征图，并在每个窗口的中心位置生成宽度固定、高度变化的多个初始候选框；通过将所述多个初始候选框输入softmax分类层和边界包围框回归层，获得包含水平方向文本的候选框，将所述候选框包含的区域确定为第一文本区域，并由至少一个第一文本区域构成第一文本区域集合。

下面分别针对特征提取骨干网络和精细化候选区域提取网络进行介绍：

(一)特征提取骨干网络

文本检测模型的特征提取骨干网络用于提取图像的高层语义信息，常用的骨干网络包括VGG(Visual Geometry Group Network)和ResNet等。此处以VGG16模型作为骨干网络为例进行说明。原始的VGG模型由五层卷积层、三层全连接层、层与层之间的最大值池化层和最终的Softmax分类输出层构成。本发明实施例使用的模型只利用VGG模型进行图像的特征提取，因此只保留使用VGG16模型中的卷积层模块。特征提取骨干网络依次使用两个输出通道为64的3×3卷积、两个输出通道为128的3×3卷积、三个输出通道为256的3×3卷积、三个输出通道为512的3×3卷积以及最后三个输出通道同样为512的3×3卷积进行步长为1的卷积操作，并在每层连续的卷积操作之间进行最大值池化操作。相比于大尺寸的卷积核，通过3×3大小的小卷积核的多次堆叠，可以通过更少的模型参数实现更大的特征感受野。

每个卷积输出维度的计算公式为：

其中，O为输出特征的空间尺寸；I为输入特征的空间尺寸；K为卷积核尺寸大小；P为填充大小；S为卷积步长，此处等于1。由于模型所有卷积层均在边缘进行1像素的填充处理，可以计算得出，每次卷积操作后图像保持原来的尺寸大小不变。而由于最大值池化操作采用2×2大小的池化窗口并且步长为2，因此每次池化操作后，图像空间尺度会减少到原来的一半。假设输入网络的图片大小为H×W×3(其中H和W分别表示特征图的长和宽)，经过上述13次卷积操作和4次池化操作后，骨干网络提取的特征图像尺寸为

(二)精细化候选区域提取网络

本发明实施例在精细化候选区域提取网络中，对检测锚点框的长宽比例进行了适应性的优化，并使用循环神经网络对本发明实施例的检测结果的边界进行进一步细化，以实现更高的定位精度。下面详细介绍上述两类优化的细节：

(A1)检测锚点框优化

本发明实施例使用基于宽度固定的，仅在高度上进行尺度变化的检测锚点框进行候选区域提取。锚点框宽度固定设置为以原始输入图像尺寸为参照的16像素大小，高度在11到283像素之间变化，从而生成十个固定宽度不同高度的锚点框，以适应不同的文本区域高度。每个候选框的区域内可能包含笔画、文本字符的一部分、单个字符或者多个字符。本发明实施例使用3×3大小的滑动窗口滑过上述骨干网络提取生成的特征图，并在每个窗口的中心位置生成上述十个检测锚点框作为初始的候选框。由于上述锚点框机制下的检测框的水平位置是确定的，因此只需要确定候选框竖直方向上的中心坐标位置和高度。相比于传统RPN(Region Proposal Network，区域生成网络)网络四个坐标的回归，优化后的检测锚点框针对目标进行预测的结果更为可靠且能够有效减少RPN网络的搜索空间。

(A2)检测框边界确定

因为每个文本字符通常都是分离孤立的，水平文本边界框的左右边界很难准确地确定。为了提升文本检测区域左右边界特征的精度，本发明实施例通过引入循环神经网络，让网络在训练中捕捉相邻候选框间的上下文信息，进一步校准文本行的所有边界，提升文本区域边缘贴合的精准度。因此，首先需要将提取的特征图转换为循环神经网络的输入，本发明实施例采用滑动窗口进行特征图的序列化。滑动窗口从左向右依次移动，并将二维特征图按水平方向传入循环神经网络层。假设特征图的维度为B×H×W×C(此处考虑多批次输入，B、H、W和分别表示特征批次大小、长、宽和通道数)，则转换后的输入序列长度为W，批次大小变为B×H。循环神经网络层由双向长短记忆神经单元构成，隐层维度为128，其输出结果传入后续的两个全连接层，针对每个锚点框分别生成两个预测支路进行候选区域目标的分类和检测框边界的回归。

分类分支使用交叉熵损失函数进行优化，具体损失函数如下：

其中，s_i表示第i个锚点框对应的区域是否为文本的预测概率，

为该区域的真实类型，1表示为文本区域，0表示为背景区域。

边界框回归任务中使用Smooth L1损失进行边界框的精度回归，损失函数如下：

其中，g＝(g_y,g_h)表示检测边界框的预测值，

表示检测边界框的真实值，其计算方式如下：

其中，t_y为边界框竖直方向，即y轴中心点坐标的预测值，t_h为边界框竖直高度的预测值。同理

和

为边界框y轴中心点坐标的真实值和边界框竖直高度真实值。

和

表示当前锚点框的y轴中心坐标和高度值，在检测锚点框生成阶段由输入图像预先计算得到。

采用多任务学习的方式对上述的文本和背景分类任务和边界框精度回归任务进行联合优化，整体需要最小化的优化目标可定义为：

其中，L_cls为上述分类的交叉熵损失函数，L_reg为上述边界回归的损失函数。λ作为超参数平衡两个任务的权重比例，N_s和N_g分别对应任务的样本数量，N_s为待分类的所有锚点框的数量，而N_g为有效锚点框的数量，即和真实标注框计算交并比大于0.7或者和真实标注框的交并比为所有候选框中最大值的锚点框的数量。

S120：基于多尺度全卷积的文本检测模型对所述图像分片中的竖直和/或倾斜方向文本进行检测，得到第二文本区域集合。

为实现工程图中竖直、倾斜等多方向的文本检测，本发明实施例还使用了基于多尺度全卷积网络的DBNet模型进行文本区域的检测，并在特征提取的骨干网络中引入了通道注意力机制和空间注意力机制，增强模型表达和捕捉特征的能力，以更好地区分工程图像中文本和其他特征相似的元素。

对于特征提取骨干网络，将卷积层提取的多层低层特征和高层语义特征连接融合，使网络模型具有多尺度的感受野，能够适应文本不同尺寸大小和不同长宽比例的特征提取需求。通过对特征映射图进行逐像素预测，而非基于候选区域提取网络的锚点框机制进行检测框的预测，能够有效处理多方向文本区域的检测。

在基于多尺度的全卷积骨干网络提取得到的特征图的基础上，需要基于阈值对分割结果进行二值化，根据二值化的结果确定文本实例的区域。传统的二值化方法需要人为设定阈值，将中像素值大于的像素点转换为文本区域，计算公式如下：

本发明实施例在该阶段采用DBNet中可微分二值化的模块，将二值化过程融入网络整体结构中，实现端到端的网络优化，从而精简模型，提升网络性能。可微分二值化在骨干网络输出特征图回归得到的分割图和阈值图上实行自适应二值化，二值化的计算公式为：

其中，T为网络学得到的自适应阈值对应的阈值图，k为超参数。最后生成的二值图

上寻找联通域收缩得到文本区域的检测结果。

在上述模型中，网络的优化目标为分割图P、阈值图T和二值图

三者优化目标的加权和。阈值图的损失函数L_t使用预测值和真实标注值间的L1距离。分割图的损失函数L_p和最终二值图的损失函数L_b使用二值交叉熵损失。由于工程图中存在许多和文本笔划类似的模式，例如工程划线、网格等，难以和文本内容进行区分，因此模型使用在线困难模式挖掘更有效地区分这些模式并解决类别不平衡的问题。将在线困难模式挖掘采样的像素子集记为Ω，则上述二值交叉熵损失函数可表示为：

L_p＝L_b＝∑y_ilogx_i+(1-y_i)log(1-x_i)

模型整体的损失函数为：L＝L_p+α×L_b+β×L_t

α和β作为超参数平衡不同目标间的优化权重。

S130：针对同一个图像分片，计算所述第一文本区域集合中第一文本区域与所述第二文本区域集合中第二文本区域之间的交并比。

虽然基于候选网络的文本检测模型主要用于检测水平方向文本，基于多尺度全卷积的文本检测模型主要用于检测竖直和/或倾斜方向文本，但是依然可能存在两者同时检测到同一个文本区域的情况。为避免后续文本识别产生重复，可以先利用两个文本区域之间的交并比确定两个文本区域是否属于同一个文本区域，再去除一个检测结果置信度相对较低的文本区域，保留置信度先对较高的文本区域。

S140：将交并比大于预设交并比阈值的第一文本区域和第二文本区域中预测分数低的文本区域进行去除。

S150：根据由文本区域上指定点的坐标确定的旋转角度，对去除处理后的文本区域进行方向纠正。

具体的，可以根据所述去除处理后的文本区域的左上角点的坐标和右上角点的坐标计算旋转角度；利用仿射变换和所述旋转角度，对所述去除处理后的文本区域进行顺时针旋转，并去除旋转后产生的多余空白区域；若旋转处理后的文本区域的高度大于宽度预设倍数，则将旋转处理后的文本区域继续顺时针旋转90度。

利用如下公式计算所述旋转角度ρ：

S160：利用非极大值抑制算法对方向纠正后的文本区域进行去重。

上述步骤完成后，本发明实施例将切分的图像分片对应最初的切分坐标进行合并还原。首先需要对图像分片内多个检测结果迭代消除去除冗余结果。冗余结果消除使用非极大值抑制算法，将所有文本区域的得分排序，选择其中最高分及其对应的文本区域，然后迭代遍历其余文本区域，将和目前最高分文本区域的交并比大于特定阈值的文本区域将其去除。

基于预处理阶段切分算法的特点，完成上述步骤后切分线附近仍存在冗余的检测结果。例如，图3a中的文本区域由于预处理阶段针对工程图高像素规模特点的切分操作产生了重叠的检测区域结果。如果不经过本发明实施例的合并处理将该检测结果直接传入下一阶段进行识别，由于切分线穿过的字符的字形结构被破坏，并且识别模型难以有效利用上下文信息，该词汇后续阶段的识别准确率会受到影响。对于切分线附近检测结果的文本区域r₁和r₂，假设r₁左上角和右下角的顶点坐标分别为

r₂左上角和右下角的顶点坐标分别为

结果合并会将切分线附近水平间距小于

像素，且竖直方向高度的重叠率大于0.6的文本区域合并为左上角坐标为

右下角坐标为

的矩形。图3b展示了经过本步骤后生成的文本检测区域和对应的识别结果。

S170：将包含去重处理后的文本区域的图像分片进行合并，获得包含文本检测结果的工程图。

本发明实施例提供的一种工程图文本检测识别方法，该方法主要包括面向高像素规模工程图的检测预处理、面向多方向文本和高召回需求的综合文本检测模型和面向整图识别的检测框后处理三部分。检测预处理阶段提出了工程图的保证文本区域完整性的切分算法，能够解决深度模型难以处理高像素规模工程图的问题。文本检测模型部分提出了针对工程图文本特点优化构建的基于候选区域网络的文本检测模型和基于多尺度全卷积网络的文本检测模型，能够同时支持工程图中水平文本和多方向文本的检测，并将两者检测到的文本区域交并比大于预设交并比阈值，且预测分数低的文本区域进行去除，从而结合两者的优势进行了模型集成。检测框后处理阶段对不同方向和角度偏差的文本区域进行方向矫正，并利用非极大值抑制算法对方向纠正后的文本区域进行去重，最后将切分后的检测结果合并还原，得到最终的文本区域检测结果。由此可知，本发明实施例通过水平检测和其他方向检测两种深度学习模型相结合来识别各种方向的文本区域，并对检测到的文本区域进行方向纠正和去重处理，从而不仅可以避免繁琐费时的人工特征设计，也可以提高文本检测的准确率和鲁棒性。

在本发明的另一实施例中，在将包含去重处理后的文本区域的图像分片进行合并，获得包含文本检测结果的工程图之后，可以以检测裁剪后的文本区域图像为输入，识别出图像中的文本字符内容。在识别过程中，相较于普通光学字符识别的文本，工程图中待识别的文本字符存在以下几个特点：(1)特殊工程字体，即工程图的中文内容常用的字体例如汉仪长仿宋字体，其样式特点与目前通常使用的宋体、楷体等均有较大差异；(2)强领域性词汇，即工程图存在较多工程领域词汇，使用常用词汇训练生成的模型难以捕捉领域词汇的上下文含义；(3)中文象形特点，即相比于英文，中文作为一种象形文字，字符种类多且字形结构极易导致字符分类错误，因此需要利用笔画样式、字形结构等视觉信息加强区分性。

针对上述特点，本发明的另一个实施例提出了对上一阶段检测结果区域进行文本识别的方法。整体识别方法包含两个部分：第一是文本识别模型。文本识别本质是序列化标注问题，本发明实施例提出了基于序列学习的文本识别模型确定文本检测结果对应区域的图像到文本串内容的映射。第二是领域限定纠错，本发明实施例针对中文字形结构和工程图中文本领域限定的特点，提出了融合中文字形结构的文本相似度度量和基于BK树优化的候选相似词的匹配算法，设计了在工程领域限定条件下对识别模型的文本识别结果进行纠错的方法。如图4所示，所述方法具体可以包括：

S400：利用文本识别模型对所述工程图的文本区域进行文本识别，获得文本识别结果。

文本识别模型以检测裁剪后的文本区域图像为输入，识别出图像中的文本字符内容。由于单字切分的算法对于建筑图纸字间距较小甚至字符粘连、背景混杂特点的文本进行识别的鲁棒性较差，因此本阶段主要采用端到端的整行文本识别算法，具体实现可进一步细分为特征提取、序列建模和文本转录三个阶段。下面分别针对这三个阶段进行详解：

(B1)特征提取阶段

特征提取模块首先将提取的特征图缩放为同一高度，然后使用去掉末端全连接层的ResNet-50作为骨干网络进行特征提取。网络结构详细参数如表1所示。为提供后续序列模型建模使用的输入特征，在使用基于ImageNet图像分类任务预训练的模型提取得到特征后，关键要解决如何将二维特征图转换为序列特征的问题。特征序列化转换将特征图从左至右的每一列抽取生成固定长度的特征序列向量。因为特征提取网络中使用的卷积、最大值池化等基本操作具有平移不变性，所以特征图中的每一列都对应原始图像的某个矩形区域大小的感受野，且这样的矩形区域在原始图像中的位置关系和特征图中每一列的左右顺序是对应的。通过上述方式，本发明实施例将卷积神经网络生成的尺寸灵活变化的高层图像特征转换为统一维度的序列化特征表示。

表1

(B2)序列建模阶段

在序列建模阶段，本发明实施例使用双向循环神经网络处理上述卷积神经网络提取并转换生成的特征序列。对于特征序列X＝x₁,x₂,…,x_T中的每一帧x_t使用循环层预测其标签的分布y_t。循环神经网络具有以下三个优点：第一，能够有效捕捉序列中的上下文信息，这比针对每个图像局部提取出的特征进行单独处理具有更好的稳定性和鲁棒性。因为有些字符需要连续的多帧特征被完整包含，充分利用上下文信息能够更好地区分易混淆的字符。第二，能够将误差反向传播到卷积层，使得模型中的卷积神经网络和循环神经网络能够联合训练。第三，能够处理任意长度的输入。对于本发明实施例文本识别的场景，前后两个方向的信息都是有用的。因此，本发明实施例序列建模使用前向LSTM(Long Short-TermMemory，长短期记忆网络)和反向LSTM结合的双向LSTM单元，并将多个双向LSTM堆叠得到深度双向LSTM，从而捕捉更高层的抽象信息。序列建模阶段的循环网络结构参数如表2所示。

表2

类型	参数设置
		特征序列转换层	——
双向LSTM层	256个隐层单元
		双向LSTM层	256个隐层单元
序列结构	——

(B3)文本转录阶段

序列建模阶段使用循环神经网络进行预测，不可避免地会出现大量冗余识别的情况，例如同一字符被识别两次。因此，文本转录模块需要将序列建模生成的输出序列处理为最终去除冗余结果的识别字符。假设序列建模阶段输出的结果序列为Y＝[y₁,y₂,…,y_T]，其中T是序列长度。文本转录要将其转换为最终的字符序列I＝L^*，其中L^*是由有限的字符集L组成的集合。L使用6623个中英文字符组成的集合。由于Y和L都是可变长度的序列且两者在训练数据未对齐，因此很难将其转化为简单的分类任务。本发明实施例采用Graves提出的CTC(Connectionist Temporal Classification，联结时序分类)解决这一问题，CTC对于给定的序列Y计算所有可能的输出序列I的条件概率，即P(标签序列I|逐帧的预测值Y＝[y₁,y₂,…,y_T])，这里忽略标签I中每个标签中的位置，使用空白占位符∈对齐输出结果，因此我们在标注数据中无需对标签生成单个字符的对应标注。CTC构建了转换生成输出序列的二维路径图，并使用动态规划算法高效计算转移概率最优路径。训练时模型最大化I的后验概率P(I|Y)，即对于训练集D，网络优化的目标是最小化负对数似然函数∑_(I,Y)∈D-logp(I|Y)。预测时模型输出最大概率的标签序列I^*，I^*＝argmax_IP(I|Y)。

需要补充的是，对于训练样本而言，由于文本识别数据标注所需的时间和人力成本较高，且工程类图像通常涉及用户隐私，很难获取。因此，本发明实施例采用了原始工程图纸人工标注数据和人工合成数据相结合的方式构造了面向工程图文本的中英文识别数据集。人工数据合成方面，本发明实施例通过爬取建筑、给排水、消防、化工等工程相关领域182个词库的上万条词条，利用工程字体文件渲染出接近真实的工程图纸字体图像，并标注对应的文本内容，共计构造生成193021对数据样本，划分训练集数据173718条，测试集19303条，用于识别网络的训练和预测。每条样本针对单行文本图像标注(img_name,char_id1,char_id2,char_id3,…,char_idn)格式的数据。其中，img_name为图像文件名，char_id1,char_id2,char_id3,…,char_idn为图像文本内容对应的字符编码ID。各字符ID与字符字典中该字符的ID一一对应。字符编码字典共包含6623个中英文字符。

为了增强网络对文本和混杂元素的特征区分能力，本发明实施例还在原始生成图像基础上对数据集中的图像进行了数据增强。在前述检测阶段干扰遮挡元素的初步去除后工程图中仍存在残留的与文本混杂的背景元素。文本和背景元素混杂且难以区分的问题会导致模型在训练中容易针对细节位置陷入过拟合，而这些细节处的信息往往并不是文本目标对象的本质特征。因此，本发明实施例在生成的文本图像上适度增加混杂元素或随机线条的干扰以模拟真实的工程图特点，并通过在数据图像上增加背景椒盐噪声，通过图像学的膨胀腐蚀模拟笔画粘连等情况来增加模型的泛化能力。

本发明实施例基于在IC15、IC19-LSVT和SynthText等通用文本识别数据集上训练得到的预训练模型，使用工程领域文本识别数据集进行Fine-tune。训练参数设置方面，批次大小设置为64，图像输入网络时统一转换为32像素高，学习率设置为0.0005，权重衰减设置为0.0001。训练时上述识别模型循环部分使用Back-PropagationThroughTime(BPTT)，进行反向传播，并利用上述的连接卷积层和循环层的特征序列映射部分作为桥梁，反向传播回卷积部分从而实现端到端的训练。训练和测试指标使用文本行识别准确率，即统计正确识别的文本行占标注的总文本行数量的比例，使用Fine-tune成功的模型在测试集上测试得到文本行识别准确率可达到96.83％。

S410：若所述文本识别结果中存在字符识别置信度分数低于预设分数阈值的字符，则将所述字符确定为待纠错字符。

纠错通常包含词法级别的音近字或形近字纠错和句法级别的语法纠错等任务。本发明实施例的纠错主要针对识别模型的输出结果，结合工程领域的先验信息进行修正。因为识别模型主要利用图像的视觉特征，且工程领域的识别结果以短文本标签为主。因此，本发明实施例后续处理纠错的目标是纠正识别结果词粒度下的形近文本。这里的形近文本指字形结构相似的字符和模型特征识别判定结果相近的字符。

在利用文本识别模型对文本区域进行识别时，可以输出识别出的每个字符的概率(即字符识别置信度分数)，因此可以根据每个字符的字符识别置信度分数与预设分数阈值进行比较，若该字符识别置信度分数大于或者等于预设分数阈值，则该字符识别结果可信，无需进行纠错，若该字符识别置信度分数低于预设分数阈值，则该字符识别结果可能不准确，可以先将该字符确定为待纠错字符，以进一步判断是否需要进行纠错。其中，预设分数阈值可以根据经验设定。

S420：在基于工程领域词库生成的BK树中查找与目标词语之间的相似度满足预设相似度条件的至少一个候选词。

其中，所述目标词语为所述文本识别结果中所述待纠错字符所属的词语。例如，待纠错字符为“闻”，其所属词语为“消防电闻”。

BK树是一种度量搜索树，可以基于工程领域词库构建BK树，然后基于BK树进行词语搜索。假设词典V＝x₁,x₂,…,x_n，在构建过程中，首先任选词典V中的词x_i作为BK树的根节点，然后计算词典中其余词和词x_i的编辑距离。如果根节点下没有该距离值的子节点，则将其插入作为根节点的子节点。如果根节点下已经存在该距离值的子节点，则向下递归，将其插入为该子节点的子节点。在查询过程中，从根节点出发进行BK树的广度优先遍历。算法实现了上述BK树的查询过程。

针对给定的查询词x，如果当前节点v计算得到的相似度距离D(x，v)≤N，则将v加入候选词的结果集合中。然后从节点v向下搜索的过程中可以只访问编辑距离在[D(x,v)-N,D(x,v)+N]范围内的子节点，并可以直接跳过以不满足该条件的子节点为根的整个子树。由下述算法可知，查询的时间复杂度取决于其中max-dist设置的阈值。假设max-dist阈值取值为2，BK树的深度约为O(lg|V|)，则整体的查询复杂度可以由朴素算法的O(L1×L2×|V|)优化为O(L1×L2×lg|V|)。

BK树查询算法实现：

输入:root BK树的根节点,word领域词典任一单词,max-dist最大相似度距离阈值

1：function BKTREE-SEARCH(root,word,max-dist)

2：candidates←empty list

3：candidates.INSERT(root)

4：res←empty list

5：while candidates.size>0do

6：node←candidates.POP()

7：dist←EDIT-DIST(node.word,word)

8：ifdist<＝max-dist then

9：res.INSERT(node)

10：end if

11：for child-dist,child in node.child do

12：ifdist-max-dist<＝child-dist<＝dist+max-dist then

13：candidates.INSERT(child)

14：end if

15：end for

16：end while

17：return res

18：end function

S430：对所述候选词和所述目标词语进行正则匹配，确定所述候选词中与所述待纠错字符对应的候选字符。

在利用BK树查询到与目标词语相近的至少一个候选词后，可以分别将每个候选词语与目标词语进行正则匹配，确定出候选词中与待纠错字符对应的候选字符，以便进一步判断候选字符可以用于替换待纠错字符。例如，目标词语为“消防电闻”，候选词为“消防电间”，待纠错字符为“闻”，则经过正则匹配后得知候选字符为“间”。

S440：计算所述待纠错字符与所述候选字符的表意文字描述序列IDS相似度。

IDS(Ideographic Description Sequence，表意文字描述序列)是针对中日韩统一表意文字(下简称CJK)的表意结构提出的基于Unicode编码的统一字符描述。如图5所示，IDS使用树形结构自顶向下表示CJK文字的字形布局结构和的拆分笔画信息。本发明实施例有效利用中文文本区别于拉丁语系的象形表意文字的特点，提出了融合字形结构和笔画视觉信息对中文短文本字符串进行相似性度量的方法。

具体的，可以分别获取所述待纠错字符和所述候选字符的中文字符IDS表征树；根据所述待纠错字符的所述中文字符IDS表征树生成所述待纠错字符的字形笔画表征的第一字符串，以及根据所述候选字符的所述中文字符IDS表征树生成所述候选字符的字形笔画表征的第二字符串；根据所述第一字符串与所述第二字符串之间的编辑距离、所述第一字符串和所述第二字符串的长度，计算所述IDS相似度。

其中，根据如下公式计算所述IDS相似度CharacterSimilarity：

CharacterSimilarity＝(L_max-L_IDS)/L_max

S450：若所述IDS相似度大于预设字形相似度阈值，则将所述候选字符替换所述待纠错字符。

若待纠错字符与候选字符的IDS相似度大于预设字形相似度阈值，则说明候选字符与待纠错字符字形非常相近，且待纠错字符置信度较低，从而可以推测文本识别模型误将候选字符识别为该待纠错字符，为了提高识别结果的准确性，可以用该候选字符替换该待纠错字符。当存在多个候选字符与待纠错字符的IDS相似度大于预设字形相似度阈值时，则可选择IDS相似度最大的候选字符替换待纠错字符。若待纠错字符与候选字符的IDS相似度小于或者等于预设字形相似度阈值，则说明候选字符与待纠错字符字形相差较大，无需将候选字符替换待纠错字符。

相应于上述方法实施例，本发明实施例提供了一种工程图文本检测识别装置，如图6所示，所述装置可以包括：

切分单元61，用于将待检测工程图切分成多个图像分片；

第一检测单元62，用于基于候选网络的文本检测模型对所述图像分片中的水平方向文本进行检测，得到第一文本区域集合；

第二检测单元63，用于基于多尺度全卷积的文本检测模型对所述图像分片中的竖直和/或倾斜方向文本进行检测，得到第二文本区域集合；

计算单元64，用于针对同一个图像分片，计算所述第一文本区域集合中第一文本区域与所述第二文本区域集合中第二文本区域之间的交并比；

去除单元65，用于将交并比大于预设交并比阈值的第一文本区域和第二文本区域中预测分数低的文本区域进行去除；

纠正单元66，用于根据由文本区域上指定点的坐标确定的旋转角度，对去除处理后的文本区域进行方向纠正；

去重单元67，用于利用非极大值抑制算法对方向纠正后的文本区域进行去重；

合并单元68，用于将包含去重处理后的文本区域的图像分片进行合并，获得包含文本检测结果的工程图。

可选的，所述装置还包括：

所述去除单元，还用于去除所述干扰元素。

可选的，所述第一检测单元62包括：

获得模块，用于通过将所述多个初始候选框输入softmax分类层和边界包围框回归层，获得包含水平方向文本的候选框，将所述候选框包含的区域确定为第一文本区域，并由至少一个第一文本区域构成第一文本区域集合。

可选的，所述纠正单元65，包括：

可选的，所述装置还包括：

CharacterSimilarity＝(L_max-L_IDS)/L_max

基于上述实施例，本发明的另一个实施例还提供了一种工程图文本检测识别系统，如图7所示，所述系统包括前端和后端；所述前端包括展示层、交互控制层和数据层；所述后端包括工程图文本识别系统，所述工程图文本识别系统包括服务控制模块、文本检测模块和文本识别模块。

所述交互控制层，用于接收外部发送的文本图像处理请求，并将所述文本图像处理请求发送给所述服务控制模块，接收所述服务器控制模块反馈文本图像处理结果；所述文本图像处理请求包括文本检测请求和/或文本识别请求，所述文本图像处理结果包括文本检测结果和/或文本识别结果。交互控制层使用Ajax交互，对上传图纸进行格式兼容处理，与后端各个识别服务模块通信，完成请求的发送和识别返回结果的解析处理，同时还包括对上传的图纸列表和识别结果进行删除、下载等操作的数据管理。

所述展示层，用于接收并展示所述交互控制层发送的工程图和/或对所述工程图的文本图像处理结果。展示层可以使用Diango框架模版引擎进行页面渲染，包括主页面的图纸文件上传区域和历史识别图纸列表区域，实现图纸各类型识别进度确认、结果查看、下载删除等操作，以及单张图纸详细识别结果页面，实现针对各个识别子服务调用结果的可视化查看。

所述数据层，用于接收并保存所述交互控制层发送的工程图和/或对所述工程图的文本图像处理结果。

所述服务控制模块，用于接收所述交互控制层发送的文本图像处理请求，并向所述文本检测模块和/或所述文本识别模块发送文本图像处理指令，以及接收文本检测模块和/或所述文本识别模块反馈的文本图像处理结果。

所述文本检测模块，用于采用第一方面所述的方法对所述工程图进行文本检测。

可选的，服务控制模块可以包括服务管理子模块和数据传输子模块。其中，服务管理子模块负责管理文本识别在线服务的启动和停止、服务端口配置、GPU显存等运算资源维护等任务，并初始化模型相关参数和对象。模块在服务启动后负责对外部请求的监听，当检测到文本图像处理请求时，发起文本检测和识别流程。数据传输子模块负责与接口请求端进行数据交互，解析请求传入的数据，进行格式兼容处理，转换为OpenCV使用的数据格式进行后续图像处理，最终以JSON格式编码返回文本识别结果。

文本检测模块可以包括检测预处理子模块、识别推理子模块以及后处理纠错子模块。其中，检测预处理子模块对传入的工程图进行二值化，减少数据冗余；去除干扰轴线，尽可能减少工程图中混叠的元素对文本检测识别的干扰；最后进行工程图切分，将高像素尺寸和高分辨率规模的工程图按照一定重叠度进行切分预处理，为后续检测模型提供数据。检测推理子模块针对预处理后的切分数据调用两类文本检测模型，得到文本区域的检测框，将两类检测结果进行集成得到最终的文本检测结果。检测后处理子模块根据文本检测结果进行文本区域的方向矫正，然后将切分结果合并，消除冗余检测结果并对切分线附近重叠的检测区域进行整合，最终根据后处理的结果裁剪出相应的文本区域作为下一阶段文本识别推理的输入。

文本识别模块可以包括识别推理子模块和后处理纠错子模块。其中，识别推理子模块依次将检测阶段的结果输入文本识别模型进行推理，确定各个区域对应的文本字符内容，整合检测区域的位置坐标、对应的识别结果和置信度分数作为识别结果输出。后处理纠错子模块针对特定领域场景下的识别，对上一阶段输出的识别结果进行后处理纠错。后处理纠错子模块使用特定的领域字典初始化数据结构BK树，然后分别针对英文和中文识别结果使用编辑距离和融合中文字形结构的编辑距离作为相似度进行识别结果和词典词汇的匹配纠错，从而有效利用领域先验知识进一步修正识别结果。

可选的，后端还可以包括工程图墙体识别系统、工程图构件识别系统等，用于识别工程图中涉及的各种信息。

基于上述实施例，本发明的另一个实施例还提供了一种存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现如上所述的方法。

基于上述实施例，本发明的另一个实施例还提供了提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上所述的方法。

上述系统、装置实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。装置实施例是基于方法实施例得到的，具体的说明可以参见方法实施例部分，此处不再赘述。本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种工程图文本检测识别方法，其特征在于，所述方法包括：

将待检测工程图切分成多个图像分片；

利用非极大值抑制算法对方向纠正后的文本区域进行去重；

2.如权利要求1所述的方法，其特征在于，在将待检测工程图切分成多个图像分片之前，所述方法还包括：

去除所述干扰元素。

3.如权利要求1所述的方法，其特征在于，基于候选网络的文本检测模型对所述图像分片中的水平方向文本进行检测，得到第一文本区域集合包括：

基于候选网络的文本检测模型提取所述图像分片的特征图；

4.如权利要求1所述的方法，其特征在于，根据由文本区域上指定点的坐标确定的旋转角度，对去除处理后的文本区域进行方向纠正，包括：

5.如权利要求4所述的方法，其特征在于，根据所述去除处理后的文本区域的左上角点的坐标和右上角点的坐标计算旋转角度包括：

利用如下公式计算所述旋转角度ρ：

6.如权利要求1-5中任一项所述的方法，其特征在于，在将包含去重处理后的文本区域的图像分片进行合并，获得包含文本检测结果的工程图之后，所述方法还包括：

7.如权利要求6所述的方法，其特征在于，计算所述待纠错字符与所述候选字符的表意文字描述序列IDS相似度包括：

8.如权利要求7所述的方法，其特征在于，根据所述第一字符串与所述第二字符串之间的编辑距离、所述第一字符串和所述第二字符串的长度，计算所述IDS相似度，包括：

根据如下公式计算所述IDS相似度CharacterSimilarity：

CharacterSimilarity＝(L_max-L_IDS)/L_max

9.一种工程图文本检测识别装置，其特征在于，所述装置包括：

切分单元，用于将待检测工程图切分成多个图像分片；

10.一种工程图文本检测识别系统，其特征在于，所述系统包括前端和后端；所述前端包括展示层、交互控制层和数据层；所述后端包括工程图文本识别系统，所述工程图文本识别系统包括服务控制模块、文本检测模块和文本识别模块；

所述文本检测模块，用于采用权利要求1-5中任一项所述的方法对所述工程图进行文本检测；