CN117877038B - 基于文字检测的文档图像纠偏方法、系统、设备及介质 - Google Patents

基于文字检测的文档图像纠偏方法、系统、设备及介质 Download PDF

Info

Publication number
CN117877038B
CN117877038B CN202410274972.3A CN202410274972A CN117877038B CN 117877038 B CN117877038 B CN 117877038B CN 202410274972 A CN202410274972 A CN 202410274972A CN 117877038 B CN117877038 B CN 117877038B
Authority
CN
China
Prior art keywords
document image
text
image
inclination angle
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410274972.3A
Other languages
English (en)
Other versions
CN117877038A (zh
Inventor
宗云兵
谢玉鑫
胡代国
黄元欣
吴春国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinxiandai Information Industry Co ltd
Original Assignee
Jinxiandai Information Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinxiandai Information Industry Co ltd filed Critical Jinxiandai Information Industry Co ltd
Priority to CN202410274972.3A priority Critical patent/CN117877038B/zh
Publication of CN117877038A publication Critical patent/CN117877038A/zh
Application granted granted Critical
Publication of CN117877038B publication Critical patent/CN117877038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Abstract

本发明属于扫描文档图像处理领域,提供了一种基于文字检测的文档图像纠偏方法、系统、设备及介质,包括获取扫描文档图像;基于扫描文档图像进行图像方向检测并调整,得到基本扫描文档图像;对基本扫描文档图像进行表格检测,若基本扫描图像存在表格,则根据表格的上下边的坐标计算得到第一倾斜角;若基本扫描文档图像不存在表格,则对基本扫描文档图像进行文字检测,根据文字坐标计算得到第二倾斜角;基于第一倾斜角和第二倾斜角进行加权,得到扫描文档图像的总倾斜角度并进行图像旋转,得到纠偏后扫描文档图像。本发明提供的方法还可以应用到常规的含有文字或含有表格的图像纠偏中,通用性能好,准确率高。

Description

基于文字检测的文档图像纠偏方法、系统、设备及介质
技术领域
本发明属于扫描文档图像处理技术领域,具体涉及一种基于文字检测的文档图像纠偏方法、系统、设备及介质。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着档案电子化的需求不断增加,扫描文档图像的倾斜角计算和图像纠偏在图像处理中变得日益重要。倾斜的扫描图像不仅影响人们的阅读体验,还会对后续OCR识别的准确率和召回率造成负面影响。
然而,现有的文档倾斜角计算方法要么通用性能不佳,要么检测角度的准确率不高,传统的图像处理方法计算倾斜角往往依赖于图像中标记点或直线特征,而基于深度学习方法计算倾斜角的准确率也不尽人意,从而导致扫描文档图像纠偏方法的准确率较低以及通用性不足。
发明内容
为了解决上述问题,本发明提出了一种基于文字检测的文档图像纠偏方法、系统、设备及介质,本发明综合运用图像处理和OCR技术,以实现对扫描文档图像中倾斜角的精确计算并进行有效的图像纠偏,显著提高了扫描文档图像纠偏的准确率和通用性。
根据一些实施例,本发明的第一方案提供了一种基于文字检测的文档图像纠偏方法,采用如下技术方案:
基于文字检测的文档图像纠偏方法,包括:
获取扫描文档图像;
基于扫描文档图像进行图像方向检测并调整,得到基本扫描文档图像;
对基本扫描文档图像进行表格检测,若基本扫描图像存在表格,则根据表格的上下边的坐标计算得到第一倾斜角;
若基本扫描文档图像不存在表格,则对基本扫描文档图像进行文字检测,根据文字坐标计算得到第二倾斜角;
基于第一倾斜角和第二倾斜角进行加权,得到扫描文档图像的总倾斜角度并进行图像旋转,得到纠偏后扫描文档图像。
进一步地,所述基于扫描文档图像进行图像方向检测并调整,得到基本扫描文档图像,包括:
基于扫描文档图像进行文字检测,对检测到的文本框进行筛选,保留文本框宽高比或高宽比大于3的文本行,得到符合条件的文本行信息列表;
根据文本行信息列表中所有文本行判定是横向还是纵向,得到文本行方向信息列表;
文本行方向信息列表中数量最多的值,得到基本扫描文档图像的基本方向;
如果扫描文档图像的基本方向为横向,根据文本行信息列表中的检测框坐标截取前设定数量的文本切图,分别使用PaddleOCR模型判断横向文本行前设定数量的文本切图是0°还是180°,得到横向文本行角度列表,最终对横向文本行角度列表取众数得到文档的最终方向;
如果扫描文档图像的基本方向为纵向,先对前设定数量的纵向文本切图顺时针旋转90°,再重复上面横向的处理步骤,得到文档的最终方向;
根据文档的最终方向,将扫描文档图像进行旋转相应的角度最终得到基本扫描图像。
进一步地,所述对基本扫描文档图像进行表格检测,若基本扫描图像存在表格,则根据表格的上下边的坐标计算得到第一倾斜角,包括:
对基本扫描文档图像使用二值化算法转为黑底白字图像,并查找黑底白字图像中的外部轮廓得到轮廓列表;
分别对轮廓列表中的轮廓获得最小面积外接矩形,得到外接矩形的四个顶点坐标;
舍弃轮廓列表中轮廓的宽contour_w<0.6*w和轮廓的高contour_h<0.15*h的轮廓,得到新的轮廓列表,其中,基本扫描文档图像的宽为w、高为h
对所有符合条件的轮廓根据面积排序,找出最大的轮廓及其的四个顶点坐标,坐标分别对应最大的轮廓的左上点、右上点、右下点、左下点,基于上述坐标计算得到轮廓的第一倾斜角。
进一步地,基于上述坐标计算得到轮廓的第一倾斜角,具体为:
其中,第一倾斜角,四个顶点坐标/>
进一步地,若基本扫描文档图像不存在表格,则对基本扫描文档图像进行文字检测,根据文字坐标计算得到第二倾斜角,包括:
使用PaddleOCR模型对不存在表格的基本扫描文档图像进行文字检测,对检测到的文本框进行筛选,保留文本框高>5、文本框宽>10、文本框宽高比>10的文本行,得到符合条件的文本行信息列表;
根据文本框左上角坐标中的y坐标对文本行信息列表排序,得到最终的文本行信息列表;
遍历最终的文本行信息列表,两两比较文本框之间的交并比IoU,删除IoU>0的文本行,得到文本行列表;
根据文本行列表中的位置坐标,从基本扫描文档图像中切出文本行图像,接着对文本行图像垂直投影得到文本行中每个字的切图,再依次将两两字符成对组成字符图像列表,对字母图像列表中的两两字符依次分别垂直投影得到各字符的右下角坐标,基于上述坐标计算求出对应的倾斜角,得到角度列表;
对角度列表排序后取中值,得到文本行最终的倾斜角,即第二倾斜角。
进一步地,所述文本框之间的交并比IoU,具体为:
进一步地,所述基于第一倾斜角和第二倾斜角进行加权,得到扫描文档图像的总倾斜角度并进行图像旋转,得到纠偏后扫描文档图像,具体为:
基于第一倾斜角和第二倾斜角/>进行加权得到最终的文档图像倾斜角/>,具体为:
如果扫描文档图像中即检测不到符合条件的表格,又检测不到符合条件的文本框时,则不旋转图像;
对基本扫描文档图像使用顺时针旋转度,得到纠偏后扫描文档图像。
根据一些实施例,本发明的第二方案提供了一种基于文字检测的文档图像纠偏系统,采用如下技术方案:
基于文字检测的文档图像纠偏系统,包括:
图像采集模块,用于获取扫描文档图像;
图像方向检测调整模块,用于基于扫描文档图像进行图像方向检测并调整,得到基本扫描文档图像;
表格检测模块,用于对基本扫描文档图像进行表格检测,若基本扫描图像存在表格,则根据表格的上下边的坐标计算得到第一倾斜角;
文本检测模块,用于若基本扫描文档图像不存在表格,则对基本扫描文档图像进行文字检测,根据文字坐标计算得到第二倾斜角;
图像加权纠偏模块,用于基于第一倾斜角和第二倾斜角进行加权,得到扫描文档图像的总倾斜角度并进行图像旋转,得到纠偏后扫描文档图像。
根据一些实施例,本发明的第三方案提供了一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的基于文字检测的文档图像纠偏方法中的步骤。
根据一些实施例,本发明的第四方案提供了一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的基于文字检测的文档图像纠偏方法中的步骤。
与现有技术相比,本发明的有益效果为:
本发明综合运用图像处理和OCR技术,以实现对扫描文档图像中倾斜角的精确计算并进行有效的图像纠偏,显著提高了扫描文档图像纠偏的准确率和通用性;显著提高了计算文档图像倾斜角的准确率,并且具有广泛的通用性,可应用于其他涉及文字的图像纠偏任务中,主要致力于解决现有技术在扫描文档图像纠偏方面的准确率较低和通用性不足的问题。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例中一种基于文字检测的文档图像纠偏方法流程图;
图2是本发明实施例中倾斜角计算示意图;
图3是本发明实施例中文本行字符组对方式示意图;
图4是本发明实施例中垂直投影求字符坐标示意图,其中,(a)为垂直投影求字符A坐标示意图,(b)为垂直投影求字符Z坐标示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
术语解释:
PaddleOCR模型:一种文字检测及识别算法。
OCR:optical character recognition,光学字符识别。
OTSU算法:一种自动计算全局阈值的图像二值化算法。
实施例一
如图1所示,本实施例提供了一种基于文字检测的文档图像纠偏方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
获取扫描文档图像;
基于扫描文档图像进行图像方向检测并调整,得到基本扫描文档图像;
对基本扫描文档图像进行表格检测,若基本扫描图像存在表格,则根据表格的上下边的坐标计算得到第一倾斜角;
若基本扫描文档图像不存在表格,则对基本扫描文档图像进行文字检测,根据文字坐标计算得到第二倾斜角;
基于第一倾斜角和第二倾斜角进行加权,得到扫描文档图像的总倾斜角度并进行图像旋转,得到纠偏后扫描文档图像。
步骤1:
在文档编辑过程中,由于文档内容排版的需要,文档纸张方向可能会出现横排和竖排的情况,但在装订时通常采用竖排方式。因此,扫描后的文档图像除了正常的方向外,还包括90度和270度的方向。此外,如果文档在扫描时放置颠倒,还需要进行180度的方向调整。因此,首先需要对文档图像进行方向检测,并旋转到0度方向。本步骤的主要流程如下:
1)获取扫描后的文档图像,使用PaddleOCR模型对图像/>进行文字检测,对检测到的文本框进行筛选,保留文本框宽高比或高宽比大于3的文本行,得到符合条件的文本行信息列表/>
hw分别为检测到的文本框的高和宽,/>分别为检测到的文本框左上角、右上角、右下角、左下角坐标。
2)根据宽高比对列表中所有文本行判定是横向还是纵向,得到,row指横向文本行,column指纵向文本行。
接着找出中数量最多的值,得到图像/>的基本方向(横向文本行0°或180°,纵向文本行90°或270°)。如果图像/>的基本方向为横向,根据文本行信息列表/>中的检测框坐标截取前10张文本切图,分别使用PaddleOCR模型判断横向文本行前10张图像是0°还是180°,得到/>,最终对/>取众数得到文档的最终方向;如果图像/>的基本方向为纵向,先对前10张纵向文本切图顺时针旋转90°,再重复上面横向的处理步骤,得到文档的最终方向。
可以理解的是,此处的10张文本切图的选择是根据经验设定的,不是限定值,可以根据具体的扫描文档图像进行是适应性的调整;而且在应用时,如果图像数量小于设定数量,则有多少张图像用多少张图像。
以上是对一张扫描文档图像方向检测的处理流程方法。
该步骤可以得到文档的基本方向。根据文档的基本方向,将图像进行旋转相应的角度最终得到正常方向的图像/>
步骤2:
对于存在表格的文档图像,我们使用图像处理技术检测出图像中的表格,再根据规则筛选符合条件的表格,找出表格的上下两条横边,最后根据坐标计算倾斜角,该表格的倾斜角即认为是文档的倾斜角度。本模块的主要流程如下:
1)对步骤1得到的图像,使用二值化算法(OTSU算法)将图像/>转为黑底白字图像/>,然后使用cv2. findContours查找图像/>中的外部轮廓得到轮廓列表
2)分别对列表中的轮廓获得最小面积外接矩形,得到外接矩形的四个顶点坐标;图像/>的宽为w、高为h,计算轮廓的宽和轮廓的高/>
最后舍弃轮廓列表contour_w<0.6*wcontour_h<0.15*h的轮廓,得到新的轮廓列表/>
3)对所有符合条件的轮廓根据面积排序,找出最大的轮廓contour_max及其的四个顶点坐标,坐标分别对应最大的轮廓的左上点、右上点、右下点、左下点,然后使用式(1)计算得到轮廓的倾斜角度/>,即使用上下两条横线使用反正切函数求倾斜角的平均数,一条横线倾斜角计算示意图如图2所示,图2中所示A、B代表一条直线的两个顶点。
(1);
本模块最终得到含有表格文档的倾斜角,如果没有查找到符合条件的表格,则
步骤3:
对于不存在表格、只包含文字的扫描文档图像,我们无法使用步骤2来获取文档的倾斜角度。然而,可以利用文本行的信息,因为如果文档是倾斜的,文本行也会呈现出倾斜的状态。因此,通过找出文本行的倾斜角度,我们可以推断出文档的倾斜角度。本模块的主要流程如下:
1)对步骤1得到的图像,使用PaddleOCR模型对图像/>进行文字检测,对检测到的文本框进行筛选,保留文本框高>5、文本框宽>10、文本框宽高比>10的文本行,得到符合条件的文本行信息列表/>
2)根据文本框左上角坐标中的y坐标对列表排序,得到最终的文本行信息列表;h,w分别为检测到的文本框的高和宽,/>分别为检测到的文本框左上角、右上角、右下角、左下角坐标。
3)遍历文本行信息列表,使用式(2)两两比较文本框之间的交并比IoU,删除IoU>0的文本行,得到文本行列表/>。此步骤目的是去除有重叠的文本行,避免干扰后续操作。
(2);
4)根据列表中的位置坐标/>,从图像/>中切出文本行图像I_cut,接着对图像I_cut垂直投影得到文本行中每个字的切图,如图3中的字符“A”“B”…“Z”,再依次将两两字符成对组成字符图像列表/>,如图4所示,其中,(a)为垂直投影求字符A坐标示意图,(b)为垂直投影求字符Z坐标示意图,对字符A和字符Z分别垂直投影得到各字符的右下角坐标(X1,Y1)、(X2,Y2),使用式(3)求出倾斜角/>
(3);
5)同理对列表中其它元组依次求倾斜角,得到角度列表/>。对角度列表/>排序后取中值,得到文本行最终的倾斜角,即文档的最终倾斜角/>。之所以这样求倾斜角的目的是避免只用一组字符图像求出的倾斜角有误差。
本模块最终得到含有文字文档的倾斜角,如果没有查找到符合条件的文本行,则
此外,如果文本行倾斜角过大,如倾斜角>45°,垂直投影无法切出每个字时,则直接使用文本行列表的左下角和右下角两个坐标计算倾斜角即可。
步骤4:
步骤2得到的倾斜角为,步骤3得到倾斜角为/>,使用式(4)得到最终的文档图像倾斜角/>。根据公式可知,如果扫描文档图像中即检测不到符合条件的表格,又检测不到符合条件的文本框时,则不旋转图像。
(4);
对步骤1得到的图像使用顺时针旋转/>度,得到纠偏后的文档图像。
本实施例中采用文字检测及统计的方法得到文档图像的基本方向,可以避免PaddleOCR只能检测是否是180°方向的问题(即PaddleOCR对文本角度检测只有180°和非180°的判定),准确率接近100%。需要说明的是,如果文档图像中没有文字,则无法准确检测文档的方向。
本实施例中可以准确检测到图纸图像中的符合要求的表格,并准确计算表格的倾斜角,可以准确检测到图纸图像中的文本行倾斜角,并可应用于其它有文本行的图像纠偏中,通用性能高。
总之,本实施例所提供的方法,是一套在图像纠偏领域实现对文档扫描图像进行自动化检测与纠偏的方法,计算准确度高,速度快。此外,该方法还可以应用到常规的含有文字或含有表格的图像纠偏中,通用性能好。
实施例二
本实施例提供了一种基于文字检测的文档图像纠偏系统,包括:
图像采集模块,用于获取扫描文档图像;
图像方向检测调整模块,用于基于扫描文档图像进行图像方向检测并调整,得到基本扫描文档图像;
表格检测模块,用于对基本扫描文档图像进行表格检测,若基本扫描图像存在表格,则根据表格的上下边的坐标计算得到第一倾斜角;
文本检测模块,用于若基本扫描文档图像不存在表格,则对基本扫描文档图像进行文字检测,根据文字坐标计算得到第二倾斜角;
图像加权纠偏模块,用于基于第一倾斜角和第二倾斜角进行加权,得到扫描文档图像的总倾斜角度并进行图像旋转,得到纠偏后扫描文档图像。
图像方向检测调整模块:
在文档编辑过程中,由于内容需要文档纸张方向可能会出现横排和竖排的情况,但在装订时通常采用竖排方式。因此,扫描后的文档图像除了正常的方向外,还包括90度和270度的方向。此外,如果文档在扫描时放置颠倒,还需要进行180度的方向调整。因此,需要对文档图像进行方向检测。
本模块使用OCR技术对文档图像进行方向检测,将非0度的方向旋转到0度方向。
表格检测模块:
对于存在表格的文档图像,使用图像处理技术进行表格检测,然后筛选出高度、宽度等符合要求的表格,再找出表格的上下两条横边,最后根据坐标计算倾斜角,该表格的倾斜角即认为是文档的倾斜角度。
本模块最终得到有表格文档图像的倾斜角度。
文本检测模块:
对于不存在表格的文本框,使用OCR文字检测技术检测出图像中所有的文本行,再根据文本行的宽度、高度、长宽比、文本行两两之间的交并比找出最合适的文本行。最后根据文本行中的文字坐标计算倾斜角度,该文本行的倾斜角即认为是文档的倾斜角度。
本模块最终得到无表格的文档图像的倾斜角度。
图像加权纠偏模块
使用加权的方法得到最终的文档图像倾斜角,将图像旋转为正常图像。
上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于文字检测的文档图像纠偏方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于文字检测的文档图像纠偏方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (8)

1.基于文字检测的文档图像纠偏方法,其特征在于,包括:
获取扫描文档图像;
基于扫描文档图像进行图像方向检测并调整,得到基本扫描文档图像;
对基本扫描文档图像进行表格检测,若基本扫描图像存在表格,则根据表格的上下边的坐标计算得到第一倾斜角;
若基本扫描文档图像不存在表格,则对基本扫描文档图像进行文字检测,根据文字坐标计算得到第二倾斜角;
基于第一倾斜角和第二倾斜角进行加权,得到扫描文档图像的总倾斜角度并进行图像旋转,得到纠偏后扫描文档图像;
基于扫描文档图像进行图像方向检测并调整,得到基本扫描文档图像,包括:
基于扫描文档图像进行文字检测,对检测到的文本框进行筛选,保留文本框宽高比或高宽比大于3的文本行,得到符合条件的文本行信息列表;
根据文本行信息列表中所有文本行判定是横向还是纵向,得到文本行方向信息列表;
文本行方向信息列表中数量最多的值,得到基本扫描文档图像的基本方向;
如果扫描文档图像的基本方向为横向,根据文本行信息列表中的检测框坐标截取前设定数量的文本切图,分别使用PaddleOCR模型判断横向文本行前设定数量的文本切图是0°还是180°,得到横向文本行角度列表,最终对横向文本行角度列表取众数得到文档的最终方向;
如果扫描文档图像的基本方向为纵向,先对前设定数量的纵向文本切图顺时针旋转90°,再重复上面横向的处理步骤,得到文档的最终方向;
根据文档的最终方向,将扫描文档图像进行旋转相应的角度最终得到基本扫描图像。
2.如权利要求1所述的基于文字检测的文档图像纠偏方法,其特征在于,所述对基本扫描文档图像进行表格检测,若基本扫描图像存在表格,则根据表格的上下边的坐标计算得到第一倾斜角,包括:
对基本扫描文档图像使用二值化算法转为黑底白字图像,并查找黑底白字图像中的外部轮廓得到轮廓列表;
分别对轮廓列表中的轮廓获得最小面积外接矩形,得到外接矩形的四个顶点坐标;
舍弃轮廓列表中contour_w < 0.6*w和contour_h < 0.15*h的轮廓,得到新的轮廓列表;
对所有符合条件的轮廓根据面积排序,找出最大的轮廓及其的四个顶点坐标,坐标分别对应最大的轮廓的左上点、右上点、右下点、左下点,基于上述坐标计算得到轮廓的第一倾斜角。
3.如权利要求2所述的基于文字检测的文档图像纠偏方法,其特征在于,基于上述坐标计算得到轮廓的第一倾斜角,具体为:
其中,第一倾斜角,四个顶点坐标/>
4.如权利要求1所述的基于文字检测的文档图像纠偏方法,其特征在于,若基本扫描文档图像不存在表格,则对基本扫描文档图像进行文字检测,根据文字坐标计算得到第二倾斜角,包括:
使用PaddleOCR模型对不存在表格的基本扫描文档图像进行文字检测,对检测到的文本框进行筛选,保留文本框高>5、文本框宽>10、文本框宽高比>10的文本行,得到符合条件的文本行信息列表;
根据文本框左上角坐标中的y坐标对文本行信息列表排序,得到最终的文本行信息列表;
遍历最终的文本行信息列表,两两比较文本框之间的交并比IoU,删除IoU>0的文本行,得到文本行列表;
根据文本行列表中的位置坐标,从基本扫描文档图像中切出文本行图像,接着对文本行图像垂直投影得到文本行中每个字的切图,再依次将两两字符成对组成字符图像列表,对字母图像列表中的两两字符依次分别垂直投影得到各字符的右下角坐标,基于上述坐标计算求出对应的倾斜角,得到角度列表;
对角度列表排序后取中值,得到文本行最终的倾斜角,即第二倾斜角;
文本框之间的交并比IoU,具体为:
5.如权利要求1所述的基于文字检测的文档图像纠偏方法,其特征在于,所述基于第一倾斜角和第二倾斜角进行加权,得到扫描文档图像的总倾斜角度并进行图像旋转,得到纠偏后扫描文档图像,具体为:
基于第一倾斜角和第二倾斜角/>进行加权得到最终的文档图像倾斜角/>,具体为:
如果扫描文档图像中即检测不到符合条件的轮廓,又检测不到符合条件的文本框时,则不旋转图像;
对基本扫描文档图像使用顺时针旋转度,得到纠偏后扫描文档图像。
6.基于文字检测的文档图像纠偏系统,基于如权利要求1-5任一项所述的一种纠偏方法,其特征在于,包括:
图像采集模块,用于获取扫描文档图像;
图像方向检测调整模块,用于基于扫描文档图像进行图像方向检测并调整,得到基本扫描文档图像;
表格检测模块,用于对基本扫描文档图像进行表格检测,若基本扫描图像存在表格,则根据表格的上下边的坐标计算得到第一倾斜角;
文本检测模块,用于若基本扫描文档图像不存在表格,则对基本扫描文档图像进行文字检测,根据文字坐标计算得到第二倾斜角;
图像加权纠偏模块,用于基于第一倾斜角和第二倾斜角进行加权,得到扫描文档图像的总倾斜角度并进行图像旋转,得到纠偏后扫描文档图像。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的基于文字检测的文档图像纠偏方法中的步骤。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述的基于文字检测的文档图像纠偏方法中的步骤。
CN202410274972.3A 2024-03-12 2024-03-12 基于文字检测的文档图像纠偏方法、系统、设备及介质 Active CN117877038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410274972.3A CN117877038B (zh) 2024-03-12 2024-03-12 基于文字检测的文档图像纠偏方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410274972.3A CN117877038B (zh) 2024-03-12 2024-03-12 基于文字检测的文档图像纠偏方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN117877038A CN117877038A (zh) 2024-04-12
CN117877038B true CN117877038B (zh) 2024-06-04

Family

ID=90595093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410274972.3A Active CN117877038B (zh) 2024-03-12 2024-03-12 基于文字检测的文档图像纠偏方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN117877038B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219407A (ja) * 1997-11-28 1999-08-10 Fujitsu Ltd 文書画像認識装置および文書画像認識プログラムの記憶媒体
KR20090055087A (ko) * 2007-11-28 2009-06-02 엔에이치엔(주) Ocr을 위한 문서 영상의 자동 평가 방법 및 시스템
CN109845237A (zh) * 2016-08-17 2019-06-04 惠普打印机韩国有限公司 图像形成设备、图像形成设备的扫描图像校正方法以及非暂时性计算机可读记录介质
CN110211048A (zh) * 2019-05-28 2019-09-06 湖北华中电力科技开发有限责任公司 一种基于卷积神经网络的复杂档案图像倾斜矫正方法
CN112052853A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN112836650A (zh) * 2021-02-05 2021-05-25 广东电网有限责任公司广州供电局 一种质量检验报告扫描图像表格语义解析方法与系统
CN114359889A (zh) * 2022-03-14 2022-04-15 北京智源人工智能研究院 一种长文本资料的文本识别方法
CN115082939A (zh) * 2022-05-12 2022-09-20 吉林省吉林祥云信息技术有限公司 一种基于弧微分的图像中畸变表格校正系统及其校正方法
CN115457580A (zh) * 2022-09-19 2022-12-09 郑州大学 数字化档案表格转换方法及系统
CN115619845A (zh) * 2022-09-28 2023-01-17 上海致宇信息技术有限公司 一种自适应扫描文档图像倾斜角检测方法
CN116524508A (zh) * 2023-04-19 2023-08-01 平安科技(深圳)有限公司 表格类图像的矫正方法及装置、存储介质、计算机设备
CN117496518A (zh) * 2023-12-10 2024-02-02 北京工业大学 基于文本检测和表格检测的电子卷宗图像智能矫正方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8908970B2 (en) * 2012-05-23 2014-12-09 Eastman Kodak Company Textual information extraction method using multiple images
US20230410543A1 (en) * 2022-06-14 2023-12-21 Accenture Global Solutions Limited List and tabular data extraction system and method

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219407A (ja) * 1997-11-28 1999-08-10 Fujitsu Ltd 文書画像認識装置および文書画像認識プログラムの記憶媒体
KR20090055087A (ko) * 2007-11-28 2009-06-02 엔에이치엔(주) Ocr을 위한 문서 영상의 자동 평가 방법 및 시스템
CN109845237A (zh) * 2016-08-17 2019-06-04 惠普打印机韩国有限公司 图像形成设备、图像形成设备的扫描图像校正方法以及非暂时性计算机可读记录介质
CN110211048A (zh) * 2019-05-28 2019-09-06 湖北华中电力科技开发有限责任公司 一种基于卷积神经网络的复杂档案图像倾斜矫正方法
CN112052853A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN112836650A (zh) * 2021-02-05 2021-05-25 广东电网有限责任公司广州供电局 一种质量检验报告扫描图像表格语义解析方法与系统
CN114359889A (zh) * 2022-03-14 2022-04-15 北京智源人工智能研究院 一种长文本资料的文本识别方法
CN115082939A (zh) * 2022-05-12 2022-09-20 吉林省吉林祥云信息技术有限公司 一种基于弧微分的图像中畸变表格校正系统及其校正方法
CN115457580A (zh) * 2022-09-19 2022-12-09 郑州大学 数字化档案表格转换方法及系统
CN115619845A (zh) * 2022-09-28 2023-01-17 上海致宇信息技术有限公司 一种自适应扫描文档图像倾斜角检测方法
CN116524508A (zh) * 2023-04-19 2023-08-01 平安科技(深圳)有限公司 表格类图像的矫正方法及装置、存储介质、计算机设备
CN117496518A (zh) * 2023-12-10 2024-02-02 北京工业大学 基于文本检测和表格检测的电子卷宗图像智能矫正方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于文本域分割和文本行检测的扭曲文档图像校正;张再银;童立靖;湛健;沈冲;;电脑与信息技术;20150215(01);全文 *
基于游程的倾斜表格图像的快速检测和校正;管继斌, 明德烈;华中科技大学学报(自然科学版);20050830(08);全文 *
基于直线拟合的文本倾斜检测算法;张晓芸, 朱庆生, 曾令秋;计算机应用研究;20050628(06);全文 *
接触式图像传感器应用于表格文档信息处理;刘建胜, 汪同庆, 王贵新, 居琰, 彭健;传感器技术;20020530(05);全文 *

Also Published As

Publication number Publication date
CN117877038A (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN112348815B (zh) 图像处理方法、图像处理装置以及非瞬时性存储介质
US9135489B2 (en) System for decoding two dimensional code and method thereof
US9495735B2 (en) Document unbending systems and methods
CN111435438A (zh) 适于增强现实、虚拟现实和机器人的图形基准标记识别
US11087436B2 (en) Method and apparatus for controlling image display during image editing
EP3764318A1 (en) Systems and methods for three dimensional geometric reconstruction of captured image data
US8811751B1 (en) Method and system for correcting projective distortions with elimination steps on multiple levels
US9495587B2 (en) Document unbending and recoloring systems and methods
US8897600B1 (en) Method and system for determining vanishing point candidates for projective correction
US9171359B1 (en) Method and system for auto-correcting perspective distortion in document images
US20180253852A1 (en) Method and device for locating image edge in natural background
CN111353961B (zh) 一种文档曲面校正方法及装置
CN111291753B (zh) 基于图像的文本识别方法、装置及存储介质
WO2019056346A1 (zh) 一种利用膨胀法校正文本图像倾斜的方法及装置
CN112348836A (zh) 一种自动提取建筑物轮廓的方法及装置
WO2022105569A1 (zh) 页面方向识别方法、装置、设备及计算机可读存储介质
CN113436080A (zh) 印章图像的处理方法、装置、设备及存储介质
CN114529773A (zh) 基于结构单元的表格识别方法、系统、终端及介质
CN111291752A (zh) 一种发票识别方法及设备、介质
Zhang et al. A data-driven approach for adding facade details to textured LoD2 CityGML models
CN117877038B (zh) 基于文字检测的文档图像纠偏方法、系统、设备及介质
CN106056575B (zh) 一种基于似物性推荐算法的图像匹配方法
CN116468632A (zh) 一种基于自适应特征保持的网格去噪方法及装置
CN115457559A (zh) 一种将文本及证照类图片智能摆正的方法、装置和设备
CN113920525A (zh) 文本矫正方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant