CN116543391A

CN116543391A - 一种结合图像校正的文本数据采集系统及方法

Info

Publication number: CN116543391A
Application number: CN202310549730.6A
Authority: CN
Inventors: 张永涛; 田唯; 王永威; 肖垚; 李焜耀; 朱浩; 陈圆; 杨华东; 刘志昂; 吕丹枫; 薛现凯; 徐双双; 郑建新; 王紫超; 李�浩; 代百华; 周浩; 孙南昌
Original assignee: CCCC Second Harbor Engineering Co; CCCC Highway Long Bridge Construction National Engineering Research Center Co Ltd
Current assignee: CCCC Second Harbor Engineering Co; CCCC Highway Long Bridge Construction National Engineering Research Center Co Ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-04

Abstract

本发明公开了一种结合图像校正的文本数据采集方法和系统，其中采集方法包括以下步骤：步骤S1、对目标文档图像进行校正，得到校正后的目标文档图像；步骤S2、对校正后的目标文档图像进行文本数据采集。本发明解决了现有基于图像分类模型的图像校正方法需要大量标注数据，数据需求量大且人工标注困难的问题；还可以解决现有基于特征点匹配的图像校正方法难以同时获取目标图像左右视角数据，校正方法适用性有限，难以推广的问题；并且还解决现有方法没有将图像校正与文本数据采集过程有机结合，文本数据采集和预处理困难的问题。

Description

一种结合图像校正的文本数据采集系统及方法

技术领域

本发明涉及文本数据采集领域。更具体地说，本发明涉及一种结合图像校正的文本数据采集方法与系统。

背景技术

文本数据采集是建造场景知识图谱构建任务体系中的重要环节，但通常所获取的建造场景数据是无法直接编辑的文件格式，例如工程方案的PDF扫描件或移动设备拍摄的图像(统称为文档图像)。同时由于各种人为操作或其他因素的原因，导致文档图像不可避免地存在一定的倾斜角度。为了提取出文档图像中的文字信息，常用的方式为光学字符识别(OCR)。但由于工程文档版面复杂，直接对带有倾斜角度的文档图像进行字符识别，效果往往不佳，尤其是对于同时包含文字、图像、表格与特殊符号的倾斜文档图像，OCR识别精度尤其低下。

对文档图像进行校正是提高OCR识别率的重要手段，且目前也提出了一些方法。

方法1：在基于图像分类模型的方法中，分类模型由包含预先估计倾斜角度的标注图像训练得到；

方法2：在基于图像特征点匹配的方法中，特征点匹配对集合的建立是基于目标文档图像的左右视角数据得到的；

方法3：在基于局部信息的校正方法中，其在确定文本行的尺度后，通过对文本行的跟踪与分割处理后，依次对文字块进行处理；

对于方法1，图像分类模型的训练需要大量的带标注图像数据集，同时该方法需要实现对文档图像倾斜角的事先估计，从而实现图像的标注。因此，数据标注过程人为主观性高，同时数据需求量大，导致该方面成本较高且分类模型的精度难以保障；

对于方法2，为了实现特征点的匹配，需要同时获取目标件左、右视角的拍摄图像。对于来自第三方的工程文档图像数据，由于难以获取原件，以至于无法满足目标图像的左右视角拍摄条件，导致该方法的可行性受到极大限制；

对于方法3，其关键是确定文本行的尺度与行边界以及文字笔画的间距。则对于版面复杂而不具备大段文本条件的复杂布局文本图像，此方法流程较为复杂且适用性不足。

此外，现有的方法都仅进行了文档图像倾斜角度的校正，而没有将图像校正与文本数据采集过程进行有机结合。OCR技术尽管可以实现对图像中文字或字符(统称为文本)的获取，但计算机却无法直接对该文本进行处理。因此，有必要研究一种同时融合图像校正与数据采集的方法与系统，为知识图谱构建任务的后续环节提供便利。

发明内容

为了实现根据本发明的这些目的和其它优点，一方面，本发明的提供了一种结合图像校正的文本数据采集方法，包括以下步骤：

步骤S1、对目标文档图像进行校正，得到校正后的目标文档图像；

步骤S2、对校正后的目标文档图像进行文本数据采集。

优选地，所述步骤S1、对目标文档图像进行校正，得到校正后的文档图像，具体包括以下步骤：

步骤S11、读取待校正的目标文档图像数据；

步骤S12、对目标文档图像进行形态学处理，生成包含有关键信息的文档页面区域的掩膜，得到文档页面区域干净的目标文档图像的空白页面；

步骤S13、去除目标文档图像的图像背景；

步骤S14、检测文档页面区域的边缘与轮廓；

步骤S15、对文档页面区域进行角点检测；

步骤S16、对目标文档图像进行透视变换，此时完成目标文档图像的校正处理。

优选地，所述步骤S1中，在所述步骤S16之后还包括以下步骤：

S17、对目标文档图像进行剪裁，保留校正处理之后的文档页面区域。

优选地，所述步骤S15、对文档页面区域进行角点检测，具体包括以下步骤：

通过角点检测的方式，首先定位识别到文档页面区域的四个角，同时获取文档页面区域的四个角点平面坐标。

优选地，所述步骤S16、对目标文档图像进行透视变换，具体包括以下步骤：

结合文档页面区域的角点坐标以及文档图像的长度和宽度信息，对文档页面区域进行透视变换，实现文档页面区域与目标文档图像的空间对齐。

优选地，所述步骤S2、对校正后的目标文档图像进行文本数据采集，具体包括以下步骤：

步骤S21、利用OCR技术进行字符识别提取，并将识别提取的文本数据以txt的形式存储；

步骤S22、对提取得到的文本数据进行中文分词处理；

步骤S23、去除文本数据中的停用词；

步骤S24、对文本数据进行编码处理，以构建词向量；

步骤S25、对词向量进行聚类处理；

步骤S26、结合文本聚类结果将采集得到的文本数据分别存储到数据库中。

另一方面，本发明的一优选实施方案提供了一种结合图像校正的文本数据采集系统，包括文档图像校正模块和文本数据采集模块，其中，所述文档图像校正模块用于对目标文档图像进行校正处理，所述文本数据采集模块用于对校正后的目标文档图像进行文本数据采集。

优选地，其中所述文档图像校正模块包括文档图像数据转换模块、数字图像处理模块、透视变换与校正模块以及文档图像存储模块，其中，

所述文档图像数据转换模块用于将待处理的目标文档图像读取载入到文档图像数据校正系统，为后续处理步骤提供数据支撑；

所述数字图像处理模块用于对读取载入的目标文档图像进行一次预处理，该一次预处理包括形态学处理、文档图像背景消除、文档页面区域的边缘轮廓检测处理；

所述透视变换与校正模块用于对经过边缘轮廓检测处理的目标文档图像进行二次预处理，该一次预处理包括角点检测、透视变换、以及文档图像页面区域的裁剪对齐处理；

所述文档图像存储模块用于对经过二次预处理的目标文档图像校正对齐后的文档图像数据进行格式化存储。

优选地，所述文本数据采集模块包括OCR模块、文本数据预处理模块以及结构化存储模块，其中，

所述OCR模块用于对讲过文档校正处理后的文档图像数据进行关键信息的识别提取，对识别提取到的文本数据以txt格式进行存储；

所述文本数据预处理模块用于对txt格式的文本数据进行系列预处理，该系列预处理包括对提取得到的文本数据进行中文分词处理，去除文本数据中的停用词，对文本数据进行编码处理，以构建词向量，对词向量进行聚类处理；

所述结构化存储模块用于将经过系列预处理的文本数据进行结构化存储。

本发明至少包括以下有益效果：

一、本发明解决现有基于图像分类模型的图像校正方法需要大量标注数据，数据需求量大且人工标注困难的问题；

二、本发明解决现有基于特征点匹配的图像校正方法难以同时获取目标图像左右视角数据，校正方法适用性有限，难以推广的问题；

三、本发明解决现有方法没有将图像校正与文本数据采集过程有机结合，文本数据采集和预处理困难的问题。

四、与传统的文档图像校正方法相比，本发明提出的文档图像校正方法无需构建用于模型训练的实验数据集，无需进行样本标注，方法便捷，易于推广，适用性强；极大程度地降低了对于数据量以及硬件计算性能的要求，降低了校正成本。同时在性能上，可以实现对单一文档图像数据以及批量文档数据的校正处理。(以传统基于图像分类的文档校正方法为例，其需要构建大规模的文档图像数据集合，且需要人工标注倾斜角等样本特征。本发明提出的文档图像校正方法的核心是基于数字图像处理技术，无需模型训练过程，可有效实现对单一文档图像数据以及批量文档图像数据的处理校正流程。

五、本发明提供了一种结合文档图像校正的文本数据采集方法与系统。对于以扫描件或图像格式存储的文档文件，本发明实现了文档图像数据预处理以及文本数据采集的有机结合，在通过文档图像校正提升OCR关键信息识别精度的同时，系统集成了文本数据预处理与结构化存储的系列步骤，为后续的文本数据建模分析等各项任务提供了便利的数据基础。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明一实施方案中结合图像校正的文本数据采集系统的模块示意图。

图2为本发明一实施方案中结合图像校正的文本数据采集方法的流程示意图。

图3为本发明一实施方案中目标文档图像示例。

图4为本发明一实施方案中形态学处理之后的目标文档图像示例。

图5为本发明一实施方案中去除图像背景后的目标文档图像示例。

图6为本发明一实施方案中文档页面区域边缘轮廓检测效果示例。

图7为本发明一实施方案中文档页面区域角点检测效果示例。

图8为本发明一实施方案中文档页面区域校正效果示例。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变形。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

可以理解的是，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

如图1所示，一方面，本发明的提供了一种结合图像校正的文本数据采集方法，包括以下步骤：

步骤S11、读取待校正的目标文档图像数据；

读取待校正的目标文档图像是将待校正处理的文档图像送入到校正处理程序中的过程，对于以图片形式存储的文档图像数据，可以直接送入到本发明的文档图像校正系统中进行校正处理，同时进行后续的文本数据识别提取；

对于以PDF扫描件等形式存储的批量文档数据，需要首先对各扫描件进行预处理，即将待处理的篇幅或页面以图片形式导出，如图3所示，其中导出的图像格式可以为JPG、JPEG、PNG、TIF等各种图像格式。此过程无需对目标文档图像进行数据标注等相关预处理；

由于工程文档版面复杂，为了避免文档图像的文档页面区域对后续步骤中的边缘检测以及轮廓检测效果造成精确性上的干扰，利用OpenCV等数字图像处理技术库对待处理的文档图像进行形态学处理，如图4所示，生成文档页面区域的掩膜，得到页面区域干净的待处理文档图像的空白页面，为后续操作创造便利；

其中，对目标文档图像进行形态学处理的具体实现过程为：利用OpenCV对待处理的目标文档图像数据迭代进行多次的闭操作，实现对文档页面区域的轮廓平滑，弥合较窄的间断和细长的沟壑，消除较小的空洞，同时对文档页面区域轮廓线中的细微中断进行填补，从而更有利于文档页面区域的提取。闭操作及先对待处理的目标文档图像进行膨胀(dilate)处理，然后进行腐蚀(erode)处理，主要算法实现如下：

kernel＝np.ones((5,5),np.uint8)

img＝cv2.morphologyEx(img,cv2.MORPH_CLOSE,kernel,iterations＝3)

其中，img为待处理的目标文档图像、cv2.MORPH_CLOSE为OpenCV的闭操作算子、kernel为滤波器矩阵，其元素为np.unit8数值类型，矩阵大小为5x5。为了彻底移除文档页面区域中的字符信息，提升后续步骤中对文档页面区域的边缘轮廓检测精度，通过调整参数iteration来设置闭操作的迭代执行次数，直至得到空白的文档页面区域。

步骤S13、去除目标文档图像的图像背景；

包含有关键信息的文档页面区域在上述获取到的目标文档图像中可能就是部分区域，为了缩小搜索范围，对目标文档图像的图像背景进行去除，即相应地提取出文档前景。其中，包含有关键信息的文档页面区域约定为文档前景，文档页面区域以外的区域统称为背景；

其中，如图5所示，文档图像页面区域以外的背景被分割出来，并用黑色填充。其中，为了快速实现对文档页面区域，即文档前景的提取，本发明采用的是OpenCV中提供的GrabCut图像分割工具。GrabCut要求处于前景的对象四周有着一个边界框，即明显的边界范围，于是边界范围之外的区域都被认作为背景。通过GrabCut自动地将(2)中的所有背景清除掉，因此得到前景对象，即文档页面区域。主要算法实现如下：

mask＝np.zeros(img.shape[:2],np.uint8)

bgdModel＝np.zeros((1,65),np.float64)

fgdModel＝np.zeros((1,65),np.float64)

rect＝(20,20,img.shape[1]-20,img.shape[0]-20)

cv2.grabCut(img,mask,rect,bgdModel,fgdModel,5,cv2.GC_INIT_WITH_RECT)

其中，使用GrabCut算法需要首先定义待处理图像的前景fgdModel和需要分割去除的背景bgdModel。在本发明中，文档页面区域被设定为前景，即fgdModel；文档页面区域之外的区域，被设定为背景，即bgdModel。

步骤S14、检测文档页面区域的边缘与轮廓；

利用边缘检测算法与轮廓识别方法，检测识别出文档页面区域的边缘轮廓，以便更好地定位到包含关信息的文档页面区域；

首先进行文档页面区域的边间检测：先将(3)中处理完的图像转换为灰度图像，然后进行高斯模糊处理，以去除文档图像中的噪音。然后利用canny-edge进行文档页面区域的边缘检测，获取文档页面区域的边缘信息。

进一步，由于步骤S13中的GrabCut算法有不可避免地在处理后的图像中已有一些与文档页面区域无关的背景信息，以至于对边缘检测的效果造成干扰，因此本发明在边缘检测的基础上进一步使用轮廓检测(Contour Detection)的方式精确获取文档页面区域的轮廓信息，如图6所示，边缘与轮廓检测的主要算法实现如下：

gray＝cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)

gray＝cv2.GaussianBlur(gray,(11,11),0)

canny＝cv2.Canny(gray,0,200)

canny＝cv2.dilate(canny,cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(5,5)))

con＝np.zeros_like(img)

contours,hierarchy＝

cv2.findContours(canny,cv2.RETR_LIST,cv2.CHAIN_APPROX_NONE)

page＝sorted(contours,key＝cv2.contourArea,reverse＝True)[:5]

con＝cv2.drawContours(con,page,-1,(0,255,255),3)

其中，利用cv2.cvtColor首先将待处理的文档图像数据进行灰度化处理，得到灰度图像以作为边缘检测算法前置输入；同时，利用cv2.GaussianBlur对灰度图像进行高斯模糊处理，进一步减少图像中的噪声，从而提升边缘检测精度；对于轮廓检测算法cv2.findContours的使用，其以边缘检测算法放大后的检测结果作为输入，最后将检测出的文档页面区域绘制在处理后的图像中。

步骤S15、对文档页面区域进行角点检测；

根据步骤S14的边缘轮廓检测信息，可以有效地确定出文档页面区域，为实现最终的文档页面区域的校正对齐，通过cv2.approxPolyDP来获取文档页面区域的四个角点坐标，通过角点坐标之间的位置关系，就可以计算出倾斜角度；如图7所示，本发明通过cv2.approxPolyDP获取得到文档页面区域的四个角点坐标，分别为A，B，C，D；

其中，坐标A，B，C，D的获取，是首先利用四个角点，同时结合角点所在位置，相对于文档图像左上角的像素长度计算得到，主要算法实现如下：

widthA＝np.sqrt(((br[0]-bl[0])**2)+((br[1]-bl[1])**2))

widthB＝np.sqrt(((tr[0]-tl[0])**2)+((tr[1]-tl[1])**2))

maxWidth＝max(int(widthA),int(widthB))

heightA＝np.sqrt(((tr[0]-br[0])**2)+((tr[1]-br[1])**2))

heightB＝np.sqrt(((tl[0]-bl[0])**2)+((tl[1]-bl[1])**2))

maxHeight＝max(int(heightA),int(heightB))

其中，文档图像左上角的坐标位置为(0,0)，对于A，B，C，D四个角点，结合相应角点所在文档图像中的限速长度height，宽度width，得到对应点的坐标位置；

结合文档页面区域的角点坐标以及文档图像的长度和宽度信息，对文档页面区域进行透视变换，实现文档页面区域与目标文档图像的空间对齐，即完成文档图像的校正处理。

其中，本发明通过使用cv2.getPerspectiveTransform进行文档页面区域的透视变换，如附图8所示，实现透视变换的主要算法实现如下：

M＝cv2.getPerspectiveTransform(np.float32(corners),np.float32(destination_corners))

final＝cv2.warpPerspective(orig_img,M,(destination_corners[2][0],destination_corners[2][1]),flags＝cv2.INTER_LINEAR)

通过S11-S16步骤后，文档页面区域已实现校正处理。这里对矫正后的目标文档图像进行裁剪，留下校正处理之后的文档页面区域予以保存，并作为下一步文本数据采集的图像输入。

步骤S2、对校正后的目标文档图像进行文本数据采集。

步骤S21、利用OCR技术对上述进行校正处理后的文档图像数据进行关键信息的识别提取，并将识别提取的文本数据以.txt的形式存储到本地；

步骤S22、对提取得到的文本数据进行中文分词处理；

结合领域专家经验，定义工程领域特定术语词典，利用JIEBA等中文分词工具对步骤S21中的txt文本进行中文分词处理。其中，结合工程领域专家经验，中文分词效果示例为：“城市桥梁建设工程”的中文分词效果为：“城市”、“城市桥梁”、“桥梁建设”“工程”等；

步骤S23、去除文本数据中的停用词；

结合中文停用词表StopWords，去除待处理文本中的停用词，降低数据维度。其中，停用词示例为：标点符号、转折词、语气词等在文本文档中不具有实际意义的字符；

步骤S24、对文本数据进行编码处理，以构建词向量；

结合中文分词结果，对分词后的语料进行编码处理。其中，为避免在编码过程中引入不必要数值大小关系，采用独热编码one-hot的方式对文本数据进行编码处理，构建得到词向量，实现文本数据到计算机可以进行计算处理的数字形式；

步骤S25、对词向量进行聚类处理；

利用机器学习聚类算法以及主题模型，对(4)中处理得到的词向量进行聚类分析，实现将同一主题的文本数据的归类，建立起文本数据之间的层次类别关系；

结合(5)中的主题模型建模以及文本聚类结果，分别按照不同的文本数据主题对提取得到的文本数据进行数据库存储，为后期各种文本数据建模分析任务提供数据支持。

其中所述文档图像校正模块包括文档图像数据转换模块、数字图像处理模块、透视变换与校正模块以及文档图像存储模块，其中，

其中，根据输入数据格式的不同，此模块的模块功能包含两部分，分别为图像格式的数据载入以及对扫描件文档到文档图像数据的格式转换；

所述文档图像存储模块用于对经过二次预处理的目标文档图像校正对齐后的文档图像数据进行格式化存储。其中，在存储格式的设计方面，此模块以原文件名称+页码的形式对经过校正处理后的文档图像数据进行命名，并存分门别类地储于本地磁盘；

其中，所述文本数据采集模块包括OCR模块、文本数据预处理模块以及结构化存储模块，其中，

所述文本数据预处理模块用于对txt格式的文本数据进行系列预处理，该系列预处理包括对提取得到的文本数据进行中文分词处理，去除文本数据中的停用词，对文本数据进行编码处理，以构建词向量，对词向量进行聚类处理；实现对领域术语的识别提取，同时降低数据维度。并进一步构建词向量，实现将文本数据转换

所述结构化存储模块用于将经过系列预处理的文本数据进行结构化存储。结构化存储的前提是通过主题建模以及文本聚类的形式提取出各文本数据的主题类别，从而依据主题类别对采集的文本数据进行归类存储，为后续的文本建模分析任务提供数据支撑。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种结合图像校正的文本数据采集方法，其特征在于，包括以下步骤：

步骤S2、对校正后的目标文档图像进行文本数据采集。

2.根据权利要求1所述的结合图像校正的文本数据采集方法，其特征在于，所述步骤S1、对目标文档图像进行校正，得到校正后的文档图像，具体包括以下步骤：

步骤S11、读取待校正的目标文档图像数据；

步骤S13、去除目标文档图像的图像背景；

步骤S14、检测文档页面区域的边缘与轮廓；

步骤S15、对文档页面区域进行角点检测；

3.根据权利要求2所述的结合图像校正的文本数据采集方法，其特征在于，所述步骤S1中，在所述步骤S16之后还包括以下步骤：

4.根据权利要求2所述的结合图像校正的文本数据采集方法，其特征在于，所述步骤S15、对文档页面区域进行角点检测，具体包括以下步骤：

5.根据权利要求2所述的结合图像校正的文本数据采集方法，其特征在于，所述步骤S16、对目标文档图像进行透视变换，具体包括以下步骤：

6.根据权利要求1所述的结合图像校正的文本数据采集方法，其特征在于，所述步骤S2、对校正后的目标文档图像进行文本数据采集，具体包括以下步骤：

步骤S22、对提取得到的文本数据进行中文分词处理；

步骤S23、去除文本数据中的停用词；

步骤S24、对文本数据进行编码处理，以构建词向量；

步骤S25、对词向量进行聚类处理；

7.如权利要求1-6任一所述的结合图像校正的文本数据采集系统，其特征在于，包括文档图像校正模块和文本数据采集模块，其中，所述文档图像校正模块用于对目标文档图像进行校正处理，所述文本数据采集模块用于对校正后的目标文档图像进行文本数据采集。

8.根据权利要求7所述的结合图像校正的文本数据采集系统，其特征在于，其中所述文档图像校正模块包括文档图像数据转换模块、数字图像处理模块、透视变换与校正模块以及文档图像存储模块，其中，

9.根据权利要求7所述的结合图像校正的文本数据采集系统，其特征在于，所述文本数据采集模块包括OCR模块、文本数据预处理模块以及结构化存储模块，其中，