CN115223172A

CN115223172A - 文本提取方法、装置及设备

Info

Publication number: CN115223172A
Application number: CN202210827906.5A
Authority: CN
Inventors: 张荷花; 彭维方
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-10-21

Abstract

本申请实施例提供一种文本提取方法、装置及设备。该方法包括：获取待处理图纸对应的图纸图像；对图纸图像进行切分处理，得到多个图像块；分别对每个图像块进行文本框识别，以在每个图像块中确定初始文本框、以及初始文本框在对应的图像块中的文本框位置；根据多个图像块中的初始文本框、以及初始文本框在对应的图像块中的文本框位置，在图纸图像中确定多个目标文本框；在图纸图像中，对多个目标文本框中的内容进行文本识别处理，以得到待处理图纸对应的文本信息。提高了文本信息提取的准确性。

Description

文本提取方法、装置及设备

技术领域

本申请实施例涉及计算机技术领域，具体涉及一种文本提取方法、装置及设备。

背景技术

在多种应用场景中，需要在图纸中提取文本信息。图纸可以包括图像、可携带文档格式(Portable Document Format，PDF)图纸等。

在相关技术中，通常采用光学字符识别(Optical Character Recognition，OCR)相关技术在图纸中提取文本信息，在OCR相关技术中，对待处理的图纸的尺寸大小有一定的要求，例如，通常仅能处理尺寸较小的图纸。然而，当图纸的尺寸较大时，无法通过OCR相关技术提取图纸中的文本信息，或者通过OCR相关技术对图纸中的文本信息提取的准确性较差。

由上可知，在相关技术中，当图纸的尺寸较大时，对图纸中的文本信息提取的准确性较差。

发明内容

本申请实施例提供一种文本提取方法、装置及设备，提高了文本信息提取的准确性。

第一方面，本申请实施例提供一种文本提取方法，包括：

获取待处理图纸对应的图纸图像；

对所述图纸图像进行切分处理，得到多个图像块；

分别对每个图像块进行文本框识别，以在每个图像块中确定初始文本框、以及所述初始文本框在对应的图像块中的文本框位置；

根据所述多个图像块中的初始文本框、以及所述初始文本框在对应的图像块中的文本框位置，在所述图纸图像中确定多个目标文本框；

在所述图纸图像中，对所述多个目标文本框中的内容进行文本识别处理，以得到所述待处理图纸对应的文本信息。

在一种可能的实施方式中，根据所述多个图像块中的初始文本框、以及所述初始文本框在对应的图像块中的文本框位置，在所述图纸图像中确定多个目标文本框，包括：

确定所述多个图像块在所述图纸图像中的图像块位置；

针对任意一个图像块，根据所述图像块位置和所述图像块中的初始文本框的文本框位置，将所述图像块中的初始文本框映射至所述图纸图像，以在所述图纸图像中确定所述图像块对应的目标文本框。

在一种可能的实施方式中，根据所述图像块位置和所述图像块中的初始文本框的文本框位置，将所述图像块中的初始文本框映射至所述图纸图像，以在所述图纸图像中确定所述图像块对应的目标文本框，包括：

根据所述图像块位置，在所述图纸图像中确定所述图像块对应的图像区域；

根据所述图像块中的初始文本框的文本框位置，在所述图像区域中确定所述初始文本框对应的目标位置；

在所述图纸图像中，确定所述目标位置对应的待选文本框；

对所述待选文本框进行去除竖直文本框处理、倾斜校正处理、合并重叠区域处理、切割多行文本框处理、精细化处理中的至少一种，以得到所述图像块对应的目标文本框。

在一种可能的实施方式中，获取待处理图纸对应的图纸图像，包括：

获取所述待处理图纸的图纸文件；

将所述图纸文件转换为图像格式，得到初始图纸图像；

对所述初始图纸图像进行轮廓剪裁处理、以及非文本内容去除处理，得到所述图纸图像。

在一种可能的实施方式中，对所述图纸图像进行切分处理，得到多个图像块，包括：

确定滑动窗尺寸、竖直滑动步长和水平滑动步长；

按照所述滑动窗尺寸，在所述图纸图像中切分滑动窗内的图像，以及按照所述竖直滑动步长和所述水平滑动步长，对所述滑动窗进行滑动处理，直至得到所述多个图像块。

在一种可能的实施方式中，在所述图纸图像中，对所述多个目标文本框中的内容进行文本识别处理，以得到所述待处理图纸对应的文本信息，包括：

对所述图纸图像进行版面解析处理，得到所述图纸图像对应的版面信息；

在所述图纸图像中，分别对每个目标文本框中的内容进行文本识别，得到所述多个目标文本框对应的子文本信息；

根据所述版面信息，对所述多个目标文本框对应的子文本信息进行排版处理，得到所述待处理图纸对应的文本信息。

在一种可能的实施方式中，所述方法还包括：

确定所述文本信息中各语句的文本类型，所述文本类型为结构化数据类型或非结构化数据类型；

存储所述文本信息、以及所述文本信息中各语句的文本类型。

第二方面，本申请实施例提供一种文本提取装置，包括获取模块、切分模块、文本框识别模块、第一确定模块、文本识别模块，其中，

所述获取模块用于，获取待处理图纸对应的图纸图像；

所述切分模块用于，对所述图纸图像进行切分处理，得到多个图像块；

所述文本框识别模块用于，分别对每个图像块进行文本框识别，以在每个图像块中确定初始文本框、以及所述初始文本框在对应的图像块中的文本框位置；

所述第一确定模块用于，根据所述多个图像块中的初始文本框、以及所述初始文本框在对应的图像块中的文本框位置，在所述图纸图像中确定多个目标文本框；

所述文本识别模块用于，在所述图纸图像中，对所述多个目标文本框中的内容进行文本识别处理，以得到所述待处理图纸对应的文本信息。

在一种可能的实施方式中，所述第一确定模块具体用于：

确定所述多个图像块在所述图纸图像中的图像块位置；

在一种可能的实施方式中，所述第一确定模块具体用于：

在所述图纸图像中，确定所述目标位置对应的待选文本框；

在一种可能的实施方式中，所述获取模块具体用于：

获取所述待处理图纸的图纸文件；

将所述图纸文件转换为图像格式，得到初始图纸图像；

在一种可能的实施方式中，所述切分模块具体用于：

确定滑动窗尺寸、竖直滑动步长和水平滑动步长；

在一种可能的实施方式中，所述文本识别模块具体用于：

在一种可能的实施方式中，所述装置还包括第二确定模块和存储模块，其中，

所述第二确定模块用于，确定所述文本信息中各语句的文本类型，所述文本类型为结构化数据类型或非结构化数据类型；

所述存储模块用于，存储所述文本信息、以及所述文本信息中各语句的文本类型。

第三方面，本申请实施例提供一种文本提取设备，包括：处理器和存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如第一方面任一项所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现第一方面任一项所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面任一项所述的方法。

本申请实施例提供的文本提取方法、装置及设备，当需要在待处理图纸中提取文本信息时，可以先将待处理图纸对应的图纸图像切分为多个图像块，分别在每个图像块中识别文本框，将各图像块中的文本框映射至图纸图像中，并对图纸图像中的文本框进行文本识别，以提取待处理图纸中的文本信息。图像块的尺寸通常较小，通过OCR相关技术可以在图像块中识别得到准确的文本框，进而使得根据图纸图像中的文本框可以准确的提取得到文本信息，提高了文本信息提取的准确性。

附图说明

图1为本申请实施例提供的应用场景的示意图；

图2为本申请实施例提供的一种文本提取方法的流程示意图；

图3为本申请实施例提供的文本框的示意图；

图4为本申请实施例提供的另一种文本提取方法的流程示意图；

图5A为本申请实施例提供的滑动窗按列滑动的示意图；

图5B为本申请实施例提供的滑动窗按行滑动的示意图；

图6为确定初始图像剪裁轮廓线的过程的示意图；

图7为切割多行文本框处理流程的示意图；

图8为本申请实施例提供的一种文本提取装置的结构示意图；

图9为本申请实施例提供的一种文本提取装置的结构示意图；

图10为本申请实施例提供的文本提取设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

图1为本申请实施例提供的应用场景的示意图。请参见图1，包括待处理的图纸101和处理后的图纸102。待处理的图纸101中包括有文本、表格、图签、轮廓线等多种图元信息，这些图元信息通常散落在图纸的各个文本段落中。在待处理的图纸101中，文本不可被识别。其中，图纸格式可以为图像格式、PDF图纸格式等。在某些场景下，需要在待处理的图纸101中提取重要文本信息，对其中无用的图元信息进行去除。在处理后的图纸102中，文本可以被识别。

在相关技术中，通常采用OCR相关技术在图纸中提取文本信息，在OCR相关技术中，对待处理的图纸的尺寸大小有一定的要求。当图纸的尺寸较大时，无法通过OCR相关技术提取图纸中的文本信息，或者通过OCR相关技术对图纸中的文本信息提取的准确性较差。

在本申请实施例中，当需要在待处理图纸中提取文本信息时，可以先将待处理图纸对应的图纸图像切分为多个图像块，分别在每个图像块中识别文本框，将各图像块中的文本框映射至图纸图像中，并对图纸图像中的文本框进行文本识别，以提取待处理图纸中的文本信息。图像块的尺寸通常较小，通过OCR相关技术可以在图像块中识别得到准确的文本框，进而使得根据图纸图像中的文本框可以准确的提取得到文本信息，提高了文本信息提取的准确性。

下面，通过具体实施例对本申请所示的方法进行说明。需要说明的是，下面几个实施例可以单独存在，也可以互相结合，对于相同或相似的内容，在不同的实施例中不再重复说明。

图2为本申请实施例提供的一种文本提取方法的流程示意图。请参见图2，该方法可以包括：

S201、获取待处理图纸对应的图纸图像。

本申请实施例的执行主体可以为文本提取设备，也可以为设置在文本提取设备中的文本提取装置。文本提取装置可以通过软件实现，也可以通过软件和硬件的结合实现。

待处理图纸为待进行文本信息提取的图纸，可以为一种说明文档类的图纸，例如建筑设计说明图纸等。待处理图纸可以为PDF图纸，也可以为联合图像专家组(JointPhotographic Experts Group，JPEG)格式或便携式网络图形(Portable NetworkGraphics，PNG)等图像。可选的，JPEG也可以称为JPG。

可以通过如下方式获取图纸图像：获取待处理图纸的图纸文件；将图纸文件转换为图像格式，得到初始图纸图像；对初始图纸图像进行轮廓剪裁处理、以及非文本内容去除处理，得到图纸图像。

图纸文件可以为PDF格式的文件或图像格式的文件。

初始图纸图像可以为JPG或PNG等格式的图像文件。

S202、对图纸图像进行切分处理，得到多个图像块。

通过S201步骤获得的图纸图像通常为高清像素级图像，图像尺寸过大，直接使用现有的OCR相关技术无法正确检测识别，因此，需要先对图纸图像进行切分处理，以获取能被现有的OCR相关技术识别的多个图像块。

可以采用滑动窗口切分方式对图纸图像进行切分处理，具体的：确定滑动窗尺寸、竖直滑动步长和水平滑动步长，按照滑动窗尺寸，在图纸图像中切分滑动窗内的图像，以及按照竖直滑动步长和水平滑动步长，对滑动窗进行滑动处理，直至得到所述多个图像块。

滑动窗尺寸可以包括滑动窗的长度和宽度。

竖直滑动步长是指，滑动窗沿竖直方向滑动时，滑动前后滑动窗在竖直方向上的相对距离。

水平滑动步长是指，滑动窗沿水平方向滑动时，滑动前后滑动窗在水平方向上的相对距离。

S203、分别对每个图像块进行文本框识别，以在每个图像块中确定初始文本框、以及初始文本框在对应的图像块中的文本框位置。

每个图像块中可以包含多个初始文本框，可以利用文本检测模型获得每个图像块的多个初始本文框、以及初始文本框在对应图像块中的文本框位置。文本框位置可以通过文本框的四个顶点的坐标确定。

文本检测模型可以为现有的文本检测模型中的任意一种，例如，文本检测模型可以为OCR文本检测模型。

下面，结合图3，对图像块中的文本框进行说明。

图3为本申请实施例提供的文本框的示意图。请参见图3，图像块中包括多个文本框，分别为文本框A、文本框B和文本框C。文本框用于框定图像块中的文本信息。

S204、根据多个图像块中的初始文本框、以及初始文本框在对应的图像块中的文本框位置，在图纸图像中确定多个目标文本框。

可以采用如下方式在图纸图像中确定多个目标文本框：确定多个图像块在图纸图像中的图像块位置；针对任意一个图像块，根据图像块位置和图像块中的初始文本框的文本框位置，将图像块中的初始文本框映射至图纸图像，以在图纸图像中确定图像块对应的目标文本框。

图纸图像中包含有多个图像块，可以通过每个图像块的四个顶点的坐标确定图像块在图纸图像中的位置。

S205、在图纸图像中，对多个目标文本框中的内容进行文本识别处理，以得到待处理图纸对应的文本信息。

可以通过现有的OCR文本识别模型对图纸图像中的目标文本框进行文字识别处理，文本识别处理的具体方式为：通过目标文本框的坐标信息确定目标文本框在图纸图像中的文本框位置，根据上述位置截取矩形区域图片，利用文字识别模型对矩形区域图片进行识别，以获得矩形区域内对应的文本内容信息。

本申请实施例提供的文本提取方法，获取待处理图纸对应的图纸图像；对图纸图像进行切分处理，得到多个图像块；分别对每个图像块进行文本框识别，可以在每个图像块中确定初始文本框、以及初始文本框在对应的图像块中的文本框位置；根据多个图像块的初始文本框、以及初始文本框在对应的图像块中的文本框位置，可以在图纸图像中确定多个目标文本框；对图纸图像中的多个目标文本框中的内容进行文本识别处理，可以得到待处理图纸对应的文本信息。在上述过程中，当需要在待处理图纸中提取文本信息时，可以先将待处理图纸对应的图纸图像切分为多个图像块，分别在每个图像块中识别文本框，将各图像块中的文本框映射至图纸图像中，并对图纸图像中的文本框进行文本识别，以提取待处理图纸中的文本信息。图像块的尺寸通常较小，通过OCR相关技术可以在图像块中识别得到准确的文本框，进而使得根据图纸图像中的文本框可以准确的提取得到文本信息，提高了文本信息提取的准确性。

在上述任意一个实施例的基础上，下面，结合图4，对图2实施例所示的文本提取方法进行进一步详细说明。

图4为本申请实施例提供的另一种文本提取方法的流程示意图。请参见图4，该方法可以包括：

S401、获取待处理图纸的图纸文件。

图纸文件可以为PDF格式的文件或图像格式的文件。

S402、将图纸文件转换为图像格式，得到初始图纸图像。

S403、对初始图纸图像进行轮廓剪裁处理、以及非文本内容去除处理，得到图纸图像。

可以通过如下方式对初始图纸图像进行轮廓剪裁处理：对初始图纸图像进行轮廓检测，得到初始图纸图像的轮廓检测信息；确定初始图纸图像的剪裁轮廓线；基于剪裁轮廓线对初始图纸图像进行剪裁，获得剪裁轮廓线对应的剪裁图像。

可以通过OpenCV中的腐蚀和膨胀操作，对初始图纸图像进行轮廓检测，得到初始图纸图像的轮廓检测信息。轮廓检测信息可以包括：多条轮廓线和每条轮廓线的轮廓线信息，轮廓线信息包括轮廓线方向、轮廓线的端点坐标以及轮廓线长度。轮廓线方向可以为水平方向或竖直方向。

需要说明的是，在图6所示的实施例中，对确定初始图纸图像剪裁轮廓线的过程进行说明。

通过轮廓剪裁处理可以去除初始图纸图像中无用的空白边角部分及外围的干扰图元，减少了后续检测与识别模型的计算量，提高了检测与识别模型的检测识别效率。

外围的干扰图元是初始图纸图像中的剪裁轮廓线以外的图元，干扰图元可以是初始图纸图像中的会签、尺寸标注等。无用的空白边角部分是指初始图纸图像中的剪裁轮廓线以外的空白边角部分。

经轮廓剪裁处理获得的剪裁图像中包含有多种图元信息，图元信息可以为文本、表格、会签、干扰线等。非文本内容去除处理可以对剪裁图像中除文本信息以外的图元信息进行去除，以保证后续还原图纸图像的正文文本时不受干扰。

可以通过如下方式实现非文本内容去除处理：通过OpenCV中的霍夫变换直线检测等形态学操作，对目标图纸中非文本内容进行定位，当对非文本内容进行定位后，可以获得与所述非文本内容位置对应的图像区域，将所述区域内的像素置为白色，由此可以实现目标图纸中非文本内容的去除，避免了后续非文本内容对还原图纸图像中的正文文本带来的干扰。

S404、确定滑动窗尺寸、竖直滑动步长和水平滑动步长。

S405、按照所述滑动窗尺寸，在图纸图像中切分滑动窗内的图像，以及按照竖直滑动步长和水平滑动步长，对滑动窗进行滑动处理，直至得到多个图像块。

可以通过如下两种方式，通过滑动窗对图纸图像进行切分处理：

方式1、滑动窗按列滑动

在该种方式中，可以将滑动窗的左上角与图纸图像的左上角对齐，并按照竖直滑动步长，依次控制滑动窗向下滑动，在滑动窗滑动至图纸图像底部之后，再按照水平滑动步长向右滑动一次，再按照竖直滑动步长，依次控制滑动窗向上滑动，直至滑动窗滑动至图纸图像顶部。重复上述过程，直至对图纸图像切分完成。

下面，结合图5A，对滑动窗按列滑动的方式进行说明。

图5A为本申请实施例提供的滑动窗按列滑动的示意图。请参见图5A，预设滑动窗口的尺寸为w×h，预设竖直滑动步长为S1，在图纸图像中将w×h尺寸的滑动窗按照从上到下的顺序进行滑动切分处理，获得一系列w×h像素大小的图像块。其中滑动窗口的预设尺寸大小可以参考使用的识别模型的输入尺寸。竖直滑动步长的设置应满足S1＜h。

方式2、滑动窗按行滑动

在该种方式中，可以将滑动窗的左上角与图纸图像的左上角对齐，并按照水平滑动步长，依次控制滑动窗向右滑动，在滑动窗滑动至滑动窗的右上角与图纸图像的右上角对齐之后，再按照竖直滑动步长向下滑动一次，再按照水平滑动步长，依次控制滑动窗向左滑动，直至滑动窗滑动至图纸图像最左侧。重复上述过程，直至对图纸图像切分完成。

下面，结合图5B，对滑动窗按行滑动的方式进行说明。

图5B为本申请实施例提供的滑动窗按行滑动的示意图。请参见图5B，预设滑动窗口的尺寸为w×h，预设水平滑动步长为S2，在图纸图像中将w×h尺寸的滑动窗按照从左到右的顺序进行滑动切分处理，获得一系列w×h像素大小的图像块。其中滑动窗口的预设尺寸大小可以参考使用的识别模型的输入尺寸。竖直滑动步长的设置应满足S2＜w。

S406、分别对每个图像块进行文本框识别，以在每个图像块中确定初始文本框、以及初始文本框在对应的图像块中的文本框位置。

初始文本框为每个图像块经文本检测模型识别的矩形框。

文本框位置可以通过文本检测模型识别到的初始文本框的四个顶点的坐标确定。

S407、确定多个图像块在图纸图像中的图像块位置。

可以通过图像块的四个顶点的坐标确定图像块位置。

S408、根据图像块位置，在图纸图像中确定所述图像块对应的图像区域。

图像区域为图像块位置对应的图纸图像中的矩形区域。

S409、根据图像块中的初始文本框的文本框位置，在图像区域中确定初始文本框对应的目标位置。

目标位置可以通过映射关系得到，例如，可以确定图像块在图纸图像中的图像区域，根据图像块中的初始文本框的文本框位置映射到图纸图像中的图像区域内，得到初始文本框在图纸图像中的目标位置。

S410、在图纸图像中，确定目标位置对应的待选文本框。

待选文本框为目标位置在图纸图像上对应的矩形框。

S411、对待选文本框进行去除竖直文本框处理、倾斜校正处理、合并重叠区域处理、切割多行文本框处理、精细化处理中的至少一种，以得到图像块对应的目标文本框。

可以通过如下方式进行去除竖直文本框处理：可以根据预设的判定条件判断某一待选文本框是否属于竖直文本框，若满足预设的判定条件，则作为竖直文本框去除；若不满足，则作为水平文本框保留。预设判定条件可以为以下2种情况的任意一种：(1)文本框高宽比大于预设的高宽比阈值；(2)文本框高度与单行文本框的预设行高之比大于某一阈值。其中，预设的高宽比阈值可以根据经验值设定，例如，高宽比阈值可以为1.1。

可以通过计算图纸图像中所有待选文本框的高度的众数来确定预设行高。由于文本检测模型识别到的初始文本框多为单行文本框，仅有少量的多行文本框。因此，可以通过计算图纸图像中所有待选文本框的高度的众数，作为图纸图像中的单行文本框的预设行高。

通过竖直文本框处理，可以去除图纸图像中的多个待选文本框中的竖直文本框，以保证获得的目标文本框均为水平文本框。

可以通过如下方式进行倾斜校正处理：选择倾斜文本框上下两条边中较长边的中点横坐标和左右两条边中较长边的中点纵坐标，组合得到矫正矩形框的中心点，矫正矩形框的长度即为上下两条边中较长边的长度，高度为左右两条边中较长边的长度。通过倾斜校正处理，可以将文本检测模型对图像块进行多方向检测时检测到的倾斜文本框进行校正，以保证获得的目标文本框均为水平矩形文本框，便于后续文本识别模型识别。

图纸图像中包含多个文本信息，文本检测模型识别过程中同一个文本信息可能会识别到多个重叠文本框。可以通过如下方式进行合并重叠区域处理：选取从文本检测模型中识别到的多个待选文本框中置信度最高的待选文本框，作为基准识别框，其余待选文本框作为备用识别框。按照一定顺序遍历每一个备用识别框，依次判断备用识别框与基准识别框是否重叠，若备用识别框与基准识别框重叠且满足以下条件：备用识别框完全包含于基准识别框中，或备用识别框的上侧(或下侧)轮廓线与基准识别框的上侧(或下侧)轮廓线之间的相对距离小于预设行高的0.8倍时，则对基准文本框和备用文本框进行合并重叠区域处理，最终得到合并文本框1，合并文本框1对应区域为基准识别框和备用识别框对应区域的并集。随后将合并文本框1作为新的基准文本框，继续遍历其余的备用文本框，重复上述步骤，直至备用文本框遍历完成，找到最终的合并文本框。

通过对每个文本信息对应的多个重叠文本框进行合并处理，可以避免后续文本识别模型对同一个文本信息的重复识别，从而提高文本识别模型的识别效率。

上述合并文本框中可能包含有多行文本框，需要对这些多行文本框进行切割处理，以保证获得的目标文本框为不相交的单行水平矩形文本框，提高文本识别模型识别的准确性。

可以通过如下方式进行精细化处理：对切割多行文本框处理后获得的单行水平矩形文本框上下的空白像素行进行切割，以保证最终获得的目标文本框，为单行水平矩形文本框中的文本信息对应的最小外接矩形文本框。通过对获得的单行水平矩形文本框进行精细化处理，可以进一步提高后续文本识别模型的识别效果。

需要说明的是，在图7所示的实施例中，对切割文本框处理的过程进行说明。

S412、对图纸图像进行版面解析处理，得到图纸图像对应的版面信息。

通过版面解析处理可以将图纸图像划分为多个版面，并得到多个版面对应的版面信息。版面信息可以包括版面的宽度和版面内的每个目标文本框在版面内位置。

可以通过如下方式对图纸图像进行版面解析处理：获取目标文本框在图纸图像中的左侧横坐标，按照左侧横坐标从小到大的顺序进行排列，以在左侧横坐标中确定坐标取值突变的第一左侧横坐标，根据第一左侧横坐标确定版面切割线，并根据版面切割线对图纸图像进行版面切分处理。

版面宽度为同一版面内所有目标文本框的左侧轮廓线的横坐标最小值与所有目标文本框的右侧轮廓线的横坐标最大值之间的差值。

S413、在图纸图像中，分别对每个目标文本框中的内容进行文本识别，得到多个目标文本框对应的子文本信息。

可以通过OCR文本识别模型对目标文本框中的内容进行文本识别，得到目标文本框对应的子文本信息。

需要说明的是，S413的执行过程可以参见S205的执行过程，此处不再进行赘述。

S414、根据版面信息，对多个目标文本框对应的子文本信息进行排版处理，得到待处理图纸对应的文本信息。

在每一个版面内，以版面的上侧为起点，先按照纵坐标从小到大对版面内的目标文本框进行排列，再对纵坐标相同的目标文本框，按照横坐标从小到大依次进行排列。随后遍历基于上述排列方式排列好的目标文本框，将纵坐标距离小于一定阈值的目标文本框划分为同一行，对判定为同一行的目标文本框再根据横坐标大小进行排列，最终将位于同一行的且已排好序的所有目标文本框进行合并，成为一个整行文本框。将版面内的所有的整行文本框从上到下进行排版，对版面内的多个整行文本框中的子文本信息按照排版方式进行串联，可以得到版面的文本信息。

再根据版面的位置，对图纸图像中的所有版面的文本信息从左到右串联，可以得到整个图纸图像的文本信息。

进一步地，在合并整行文本框的过程中，会结合目标文本框的位置和目标文本框的文本信息，对版面中的干扰文本框进行去除。

干扰文本框为可能包含有图例等干扰信息的目标文本框，可以通过如下方式对干扰文本框进行判定：对划分为一行的目标文本框，以左侧为起点，按照横坐标从小到大排序，依次遍历排好序的所有目标文本框，若满足预设的第一判定条件，则划分为可能的干扰文本框；若不满足，则作为非干扰文本框保留。第一判定条件可以为以下3种情况的任意一种：

1)当前目标文本框和当前目标文本框的前一个目标文本框的竖直距离大于一定阈值。

2)当前目标文本框的前一个目标文本框的宽度和当前文本框宽度之差大于一定阈值。

3)当前目标文本框右侧轮廓线和版面右侧轮廓线水平距离小于一定阈值。

根据第一判定条件下保留的非干扰文本框的文本信息进行第二次判断，若满足预设的第二判定条件，则划分为干扰文本框；若不满足，则确定为非干扰文本框。第二次判定条件可以为以下2种情况的任意一种：

1)若目标文本框的文本信息中含有中文或字母，改判为非干扰文本框。

2)若目标文本框的文本信息中含有“附图”或“建筑设计说明”等字样，改判为干扰文本框。

S415、确定文本信息中各语句的文本类型，文本类型为结构化数据类型或非结构化数据类型。

例如，当待处理图纸为建筑设计说明图纸时，结构化数据类型可以为，建筑的各项关键属性与对应取值、对应原文出处所在的文本框标识。其中，建筑的各项关键属性可以为引用规范、建筑高度、建筑层数、建筑耐火等级等；建筑的对应取值可以为文本类型、数字类型、枚举类型、列表类型等。可以通过关键主题词搜索定位与内容取值的正则表达式匹配相结合的方式，来确定文本信息中各语句对应的结构化数据类型。

非结构化数据类型可以为，条文语句对象的数组，每个元素是一个条文语句对象，包括其文本内容、组成它的文本框标识、它所属于的段落主题词。

S416、存储文本信息、以及文本信息中各语句的文本类型。

将确定为结构化数据的文本信息、以及文本信息中各语句对应的结构化数据类型，以结构体或JS对象简谱(JavaScript Object Notation，json)形式存储到对应的结构化数据库中。

将确定为非结构化数据的文本信息和文本信息中各语句对应的非结构化数据类型，以json形式存储到对应的非结构化数据库中。

在图4所示的实施例中，当需要在待处理图纸中提取文本信息时，可以先将待处理图纸对应的图纸图像切分为多个图像块，分别在每个图像块中识别文本框，将各图像块中的文本框映射至图纸图像中，并对图纸图像中的文本框进行文本识别，以提取待处理图纸中的文本信息。图像块的尺寸通常较小，通过OCR相关技术可以在图像块中识别得到准确的文本框，进而使得根据图纸图像中的文本框可以准确的提取得到文本信息，提高了文本信息提取的准确性。

在图4所示实施例的基础上，当确定了初始图纸图像的剪裁轮廓线后，方可对初始图纸图像进行轮廓剪裁处理。下面，结合图6，对确定初始图纸图像的剪裁轮廓线的过程进行说明。

图6为确定初始图像剪裁轮廓线的过程的示意图。请参见图6，确定初始图像剪裁轮廓线的过程包括：

S601、获取初始图纸图像。

S602、通过腐蚀和膨胀操作对初始图纸图像进行轮廓检测，得到轮廓检测信息。

轮廓检测信息包括：多条轮廓线和每条轮廓线的轮廓线信息，轮廓线信息包括轮廓线方向、轮廓线的端点坐标以及轮廓线长度。

S603、根据轮廓检测信息对多条轮廓线进行多级排序。

可以按照如下方式对多条轮廓线进行多级排序：以左边为起点，按多条轮廓线端点横坐标由小到大依次进行排序，若多条轮廓线的横坐标相同时，再按照多条轮廓线的端点纵坐标由小到大依次进行排序。

S604、确定备选轮廓线。

初始备选轮廓线可以为初始图纸图像的上下左右四个方向中的任意一个方向中最外侧的一条轮廓线。

S605、按照多级排序结果，从左向右遍历除备选轮廓线以外的其余轮廓线。

S606、判断当前遍历轮廓线与当前备选轮廓线的长度是否接近。若是，则进入步骤S607；若否，则返回继续遍历后续的备选轮廓线。

S607、确定剪裁轮廓线。

可以通过如下方式确定剪裁轮廓线：判断当前遍历轮廓线与当前备选轮廓线之间的水平距离是否小于预设阈值。若是，则将当前遍历轮廓线作为新的备选轮廓线，重复步骤S605。若否，则表明已进入初始图纸图像内容中，结束遍历，并将当前备选轮廓线作为剪裁轮廓线。

通过剪裁轮廓线对图纸图像进行轮廓剪裁处理，可以去除初始图纸图像中无用的空白边角部分及外围的干扰图元，减少了后续检测与识别模型的计算量，提高了检测与识别模型的检测识别效率。

在图4所示实施例的基础上，在确定文本框为多行文本框时，对该文本框进行切割处理。下面，结合图7，对切割多行文本框处理流程进行进一步说明。

图7为切割多行文本框处理流程的示意图。请参见图7，切割多行文本框处理流程包括：

S701、获取待进行切割的文本框。

待进行切割的文本框可以为已通过去除竖直文本框处理、倾斜校正处理、合并重叠区域处理后获得的水平矩形文本框。

S702、根据预设行高，在文本框中确定多个待选切割线。

可以通过统计所有待进行切割的文本框的高度的众数来确定预设行高。假设文本框有n行，n为大于等于2的整数。待选切割线所在位置可以通过文本框的1/n，2/n……(n-1)/n倍的预设行高来确定。

S703、获取每个待选切割线对应的切割区域。

可以通过待选切割线所在位置来确定待选切割线在待进行切割的文本框中对应的切割区域。

S704、获取每个切割区域中的黑色像素的像素数量。

S705、根据每个切割区域中的黑色像素的像素数量，在多个待选切割线中确定目标切割线。

可以根据如下判定条件来确定目标切割线：当切割区域内的某一行黑色像素的像素数量小于一定阈值时，则判断该行为目标切割线所在行。

S706、按照目标切割线，对文本框进行切割处理。

通过切割多行文本框处理，可以将多行文本框切割成单行文本框，提高了文本识别模型的识别的准确性。

图8为本申请实施例提供的一种文本提取装置的结构示意图。如图8所示，该文本信息提取装置10包括获取模块11、切分模块12、文本框识别模块13、第一确定模块14、文本识别模块15，其中：

所述获取模块11用于，获取待处理图纸对应的图纸图像；

所述切分模块12用于，对所述图纸图像进行切分处理，得到多个图像块；

所述文本框识别模块13用于，分别对每个图像块进行文本框识别，以在每个图像块中确定初始文本框、以及所述初始文本框在对应的图像块中的文本框位置；

所述第一确定模块14用于，根据所述多个图像块中的初始文本框、以及所述初始文本框在对应的图像块中的文本框位置，在所述图纸图像中确定多个目标文本框；

所述文本识别模块15用于，在所述图纸图像中，对所述多个目标文本框中的内容进行文本识别处理，以得到所述待处理图纸对应的文本信息。

本申请实施例提供的文本提取装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

在一种可能的实施方案中，所述获取模块11具体用于：

获取所述待处理图纸的图纸文件；

将所述图纸文件转换为图像格式，得到初始图纸图像；

在一种可能的实施方式中，所述切分模块12具体用于：

确定滑动窗尺寸、竖直滑动步长和水平滑动步长；

在一种可能的实施方案中，所述第一确定模块14具体用于：

确定所述多个图像块在所述图纸图像中的图像块位置；

在一种可能的实施方案中，所述第一确定模块14具体用于：

在所述图纸图像中，确定所述目标位置对应的待选文本框；

在一种可能的实施方式中，所述文本识别模块15具体用于：

图9为本申请实施例提供的另一种文本提取装置的结构示意图。在图8所示实施例的基础上，请参见图9，所述装置还包括第二确定模块16和存储模块17，其中，

所述第二确定模块16用于，确定所述文本信息中各语句的文本类型，所述文本类型为结构化数据类型或非结构化数据类型；

所述存储模块17用于，存储所述文本信息、以及所述文本信息中各语句的文本类型。

本申请实施例中还提供了一种文本提取设备。图10为本申请实施例提供的文本提取设备的硬件结构示意图。请参见图10，该文本提取设备20主要包括：处理器21、存储器22，其中处理器21和存储器22可以通信；示例性的，处理器21和存储器22通过通信总线23通信。存储器22用于存储程序指令，所述处理器21用于调用存储器中的程序指令执行上述任意方法实施例所示的文本提取方法。

可选的，文本提取设备20还可以包括通信接口，通信接口可以包括发送器和/或接收器。

可选的，上述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本申请实施例提供一种可读存储介质，所述可读存储介质上存储有计算机程序；所述计算机程序用于实现如上述任意实施例所述的文本提取方法。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括指令，当所述指令被执行时，使得计算机执行上述文本提取方法。

实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器(存储介质)包括：只读存储器(英文：read-only memory，缩写：ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文：magnetic tape)、软盘(英文：floppydisk)、光盘(英文：optical disc)及其任意组合。

本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

Claims

1.一种文本提取方法，其特征在于，包括：

获取待处理图纸对应的图纸图像；

对所述图纸图像进行切分处理，得到多个图像块；

2.根据权利要求1所述的方法，其特征在于，根据所述多个图像块中的初始文本框、以及所述初始文本框在对应的图像块中的文本框位置，在所述图纸图像中确定多个目标文本框，包括：

确定所述多个图像块在所述图纸图像中的图像块位置；

3.根据权利要求2所述的方法，其特征在于，根据所述图像块位置和所述图像块中的初始文本框的文本框位置，将所述图像块中的初始文本框映射至所述图纸图像，以在所述图纸图像中确定所述图像块对应的目标文本框，包括：

在所述图纸图像中，确定所述目标位置对应的待选文本框；

4.根据权利要求1-3任一项所述的方法，其特征在于，获取待处理图纸对应的图纸图像，包括：

获取所述待处理图纸的图纸文件；

将所述图纸文件转换为图像格式，得到初始图纸图像；

5.根据权利要求1-4任一项所述的方法，其特征在于，对所述图纸图像进行切分处理，得到多个图像块，包括：

确定滑动窗尺寸、竖直滑动步长和水平滑动步长；

6.根据权利要求1-5任一项所述的方法，其特征在于，在所述图纸图像中，对所述多个目标文本框中的内容进行文本识别处理，以得到所述待处理图纸对应的文本信息，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

8.一种文本提取装置，其特征在于，包括：获取模块、切分模块、文本框识别模块、第一确定模块、文本识别模块，其中，

所述获取模块用于，获取待处理图纸对应的图纸图像；

9.一种文本提取设备，其特征在于，包括：处理器和存储器；

所述存储器用于，存储计算机程序；

所述处理器用于，执行所述存储器中存储的计算机程序，实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现权利要求1至7任一项所述的方法。