CN117237957A - 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统 - Google Patents
用于检测文件方向并对倾斜或畸形文件矫正的方法及系统 Download PDFInfo
- Publication number
- CN117237957A CN117237957A CN202311529000.6A CN202311529000A CN117237957A CN 117237957 A CN117237957 A CN 117237957A CN 202311529000 A CN202311529000 A CN 202311529000A CN 117237957 A CN117237957 A CN 117237957A
- Authority
- CN
- China
- Prior art keywords
- document
- malformed
- correcting
- inclination
- straight line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000001514 detection method Methods 0.000 claims abstract description 57
- 238000012937 correction Methods 0.000 claims abstract description 38
- 230000009466 transformation Effects 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 230000036244 malformation Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000002674 ointment Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
本发明属于人工智能技术领域,具体涉及用于检测文件方向并对倾斜或畸形文件矫正的方法及系统。方法包括:S1,将待处理的文档进行图像预处理;S2,采用DBNET图像识别算法,对文档进行分析和识别,并提取文档中的文本信息;S3,将提取的文本信息,转化为文本框格式的检测结果,得到文档倾斜的检测结果;S4,根据文档倾斜的检测结果,采用图像处理算法对倾斜文档进行倾斜矫正,使倾斜文档处于正向位置;S5,采用LSD直线检测算法,对畸形文档进行端点检测,获得直线端点数据,并选出最大矩形框和4个端点坐标:S6,根据获取的4个端点坐标,运用opencv透视变换将畸形文档进行矫正处理,获得畸形矫正后的文档。
Description
技术领域
本发明属于人工智能技术领域,具体涉及用于检测文件方向并对倾斜或畸形文件矫正的方法及系统。
背景技术
随着智能手机、平板电脑等不断的普及,越来越多的用户使用电子产品来获取文档图像,比如,用户在办公过程中,可以通过电子设备中的产品或APP应用,来调用电子设备的摄像头对纸质文档进行拍摄,并得到相应的文档图像。
在如今的数字化时代,大量的文档被电子化存储和传输。然而,由于各种原因,一些文档可能存在方向不正确、倾斜或者畸形的问题,这给文档的阅读和处理带来了困扰。现有传统的方法通常需要人工进行方向检测和矫正,效率低下且容易出错。
因此,设计一种自动化、高效且准确的用于检测文件方向并对倾斜或畸形文件矫正的方法及系统,就显得十分重要。
例如,申请号为CN201910520715.2的中国专利文献描述的一种文档比对方法及装置,方法包括:获取待比对图档及标准文档,其中,标准文档为用户上传的正确文档;通过预设的处理方法将标准文档转换为标准文本,标准文本中包括多个字符;通过霍夫变换方法找到待比对图档的倾斜角度,并基于倾斜角度采用双线性插值对待比对图档进行旋转矫正;识别旋转矫正后的待比对图档,得到待比对文本,待比对文本包括多个字符;将标准文本中的字符与待比对文本中的字符进行比对,得到待比对文本与标准文本之间的差异字符。虽然能够解决现有技术中文档比对效率低的问题,但是其缺点在于,上述方法内容仅能对倾斜的文档进行旋转矫正,没有考虑到文档方向处于畸形的情况,无法对畸形文件进行相应的矫正操作,因此在文件矫正的准确性和适用性上具有局限性。
发明内容
本发明是为了克服现有技术中,现有文档图像矫正的方法通常需要人工进行方向检测和矫正,存在效率低下且容易出错的问题,提供了一种自动化、高效且准确的用于检测文件方向并对倾斜或畸形文件矫正的方法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
用于检测文件方向并对倾斜或畸形文件矫正的方法,包括如下步骤;
S1,将待处理的文档进行图像预处理;
S2,采用DBNET图像识别算法,对图像预处理后的文档进行分析和识别,并提取文档中的文本信息;
S3,将步骤S2提取的文本信息,转化为文本框格式的检测结果,最终得到文档倾斜的检测结果;
S4,根据文档倾斜的检测结果,采用图像处理算法对倾斜文档进行倾斜矫正,使倾斜文档处于正向位置;
S5,采用LSD直线检测算法,对未被判定为倾斜文档的图片文档进行端点检测,获得直线端点数据,并根据获取的直线端点数据选出最大矩形框和最大矩形框的4个端点坐标:
S6,根据步骤S5中获取的4个端点坐标,判断对应的图片文档是否为畸形文档,若为畸形文档,则运用opencv透视变换将所述畸形文档进行矫正处理,获得畸形矫正后的文档。
作为优选,步骤S1中,所述图像预处理包括去除噪声、调节亮度和对比度。
作为优选,步骤S3包括如下步骤:
S31,对提取的文本信息中的每个文本块,都进行语义分割,获得分割概率图,再对分割概率图进行二值化处理,转化得到文本框格式的检测结果;
所述文本框格式的检测结果如下:
设定文本框相邻两点坐标为(,/>),(/>,/>),则相邻两点的倾斜角度为:
;
其中,表示平方根;/>表示反余弦函数;/>表示相邻两点的夹角角度,取值范围在0到π之间;文档倾斜的检测结果采用/>值表示。
作为优选,步骤S4包括如下步骤:
S41,根据文档倾斜的检测结果值,设置角度阈值K=1.5,对/>取绝对值,如果/>大于K,则判断文档为倾斜,采用图像处理算法工具opencv对倾斜文档进行倾斜矫正,使倾斜文档处于正向位置。
作为优选,步骤S5中所述LSD直线检测算法,以沙漏网络为主干网络。
作为优选,步骤S5包括如下步骤:
S51,将未被判定为倾斜文档的图片文档划分为若干个网格bin;
S52,设定每个网格bin内存在一个结点p,通过结点预测模块预测从结点p到网格bin中心点b的偏移矢量;
S53,根据所述偏移矢量,沙漏网络输出一个结点置信度图J和一个结点偏移图O;J和O的真实样例采用如下公式表示:
;
;
其中,表示所有结点;/>表示存在量词;b表示网格;p表示结点。
S54,通过步骤S53中的公式获得带有置信度score的直线端点数据,根据获取的直线端点数据,选出最大矩形框和最大矩形框对应的4个端点坐标,并计算最大矩形框的宽、高和面积,具体公式如下:
W=;
H=;
A=W×H;
其中,、/>、/>分别表示最大矩形框第一个、第二个、第三个坐标的/>值;/>、/>、/>分别表示最大矩形框第一个、第二个、第三个坐标的/>值;W表示最大矩形框的宽度;H表示最大矩形框的高度;A表示最大矩形框的面积。
作为优选,步骤S6包括如下步骤:
S61,根据所述4个端点坐标确认对应矩形的四个边长的长度,设置阈值K=0.25,若存在矩形的对边长度差值大于阈值K,则判定对应图片文档为畸形文件;
S62,通过所述4个端点坐标获取旋转矩阵M,并进行opencv透视变换,使畸形文件得到矫正,同时去除复杂背景干扰,具体设定如下公式:
=/>;
旋转矩阵M为:
M=
其中,(x,y,1)为原点,(X,Y,Z)为变换后的点,变换前后的点均是已知点;,,/>,/>,/>,/>,/>,/>,/>是旋转矩阵M的9个参数;由于透视变换是将二维空间变换到三维空间的转换,需要将透视变换后的图像在二维平面要除以Z,Z是变换后的三维空间的Z轴坐标点,即如下公式所示:
=/>;/>=/>;/>=/>;
、/>、/>分别为变换过程中X轴坐标点、Y轴坐标点和Z轴坐标点的中间值,具体展开如下;
=/>;
=/>;
=1;
设定=1,展开公式,得到一个点的两个方程:
;
;
S63,重复步骤S62,直至最终根据4个端点坐标得到8个方程,并求解出旋转矩阵M中剩余的8个变量、/>、/>、/>、/>、/>、/>、/>;最终得到透视变换的公式如下:
。
作为优选,用于检测文件方向并对倾斜或畸形文件矫正的方法,还包括如下步骤:
S7,生成经过方向矫正的文档,并输出给用户或保存在指定位置。
本发明还提供了用于检测文件方向并对倾斜或畸形文件矫正的系统,包括:
预处理模块,用于将待处理的文档进行图像预处理;
文本信息提取模块,用于采用DBNET图像识别算法,对图像预处理后的文档进行分析和识别,并提取文档中的文本信息;
文档倾斜检测模块,用于将提取的文本信息,转化为文本框格式的检测结果,最终得到文档倾斜的检测结果;
文档倾斜矫正模块,用于根据文档倾斜的检测结果,采用图像处理算法对倾斜文档进行倾斜矫正,使倾斜文档处于正向位置;
文档畸形检测模块,用于采用LSD直线检测算法,对未被判定为倾斜文档的图片文档进行端点检测,获得直线端点数据,并根据获取的直线端点数据选出最大矩形框和最大矩形框的4个端点坐标:
文档畸形矫正模块,用于根据获取的4个端点坐标,判断对应的图片文档是否为畸形文档,若为畸形文档,则运用opencv透视变换将所述畸形文档进行矫正处理,获得畸形矫正后的文档。
作为优选,用于检测文件方向并对倾斜或畸形文件矫正的系统还包括:
文档生成与输出模块,用于生成经过方向矫正的文档,并输出给用户或保存在指定位置。
本发明与现有技术相比,有益效果是:(1)本发明运用最新的图像识别DBNET算法技术和人工智能LSD直线检测算法,实现对文档方向、倾斜和畸形的自动检测和矫正处理,提高处理效率;(2)本发明采用高效的人工智能算法和图像处理算法,能够准确地检测文档的方向、倾斜和畸形问题,并进行相应的矫正,确保文档恢复到正确的方向和形状;(3)本发明灵活性强,可适应不同类型的文档,包括图片、扫描件等,满足多样化的需求;(4)本发明能够自动化的方向检测、倾斜和畸形矫正处理以及高清转换,节省了人工操作的时间和成本。
附图说明
图1为本发明中opencv透视变换的一种原理图;
图2为本发明中文档畸形矫正的一种过程示意图;
图3为本发明实施例提供的用于检测文件方向并对倾斜或畸形文件矫正的方法的一种实际应用示意图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本发明提供了用于检测文件方向并对倾斜或畸形文件矫正的方法,包括如下步骤;
1.将待处理的文档进行图像预处理,包括去除噪声、调整亮度和对比度等,以提高后续方向检测和矫正的准确性;
2.采用DBNET图像识别算法,对图像预处理后的文档进行分析和识别,并提取文档中的文本信息;DBNET图像识别算法核心采用的是基于分割的做法进行文本检测,即将每个文本块都进行语义分割,然后对分割概率图进行简单二值化的检测结果。
3.将步骤2提取的文本信息,转化为文本框格式的检测结果,最终得到文档倾斜的检测结果,即将对分割概率图进行简单二值化的检测结果,最终转化得到文本框格式的检测结果;
文本框格式的检测结果如下:
设定文本框相邻两点坐标为(,/>),(/>,/>),则相邻两点的倾斜角度为:
;
其中,表示平方根;/>表示反余弦函数;/>表示相邻两点的夹角角度,取值范围在0到π之间;文档倾斜的检测结果采用/>值表示。
4.根据文档倾斜的检测结果,采用图像处理算法对倾斜文档进行倾斜矫正,使倾斜文档处于正向位置;
根据文档倾斜的检测结果值,设置角度阈值K=1.5,对/>取绝对值,如果/>大于K,则判断文档为倾斜,采用图像处理算法工具opencv对倾斜文档进行倾斜矫正,使倾斜文档处于正向位置。其中,旋转变换处理过程中重点要确定旋转变换矩阵M,在确定旋转变换矩阵后,就可以对原始图像进行旋转变换。可以使用OpenCV中的cv2.warpAffine()函数进行旋转变换,将原始图像、旋转变换矩阵以及输出图像的尺寸输入这个函数后最终生成变换后的图像,旋转变换矩阵M求解过程如下:
已知倾斜角度和图片文档的宽W和高H后可求出旋转矩阵M,
M=。
5.采用LSD直线检测算法,对未被判定为倾斜文档的图片文档进行端点检测,获得直线端点数据,并根据获取的直线端点数据选出最大矩形框和最大矩形框的4个端点坐标:
步骤5中LSD直线检测算法,以沙漏网络为主干网络。unction Prediction Module(结点预测模块):结点预测作为分类和回归问题来处理。空间大小为 H(图片高)×W(图片宽)的输入图像被划分为W×H个bin(网格),与特征图的空间大小相同。对于每个bin(网格),网络预测其内部是否存在一个结点。如果一个结点p在网格b里面,结点预测模块将预测从p到bin中心b的偏移矢量。因此,网络输出一个结点置信度图J和一个结点偏移图O。
J和O的真实样例采用如下公式表示:
;
;
其中,表示所有结点;/>表示存在量词;b表示网格;p表示结点。
通过上述公式获得带有置信度score的直线端点数据,根据获取的直线端点数据,选出最大矩形框和最大矩形框对应的4个端点坐标,并计算最大矩形框的宽、高和面积,具体公式如下:
W=;
H=;
A=W×H;
其中,、/>、/>分别表示最大矩形框第一个、第二个、第三个坐标的/>值;/>、/>、/>分别表示最大矩形框第一个、第二个、第三个坐标的/>值;W表示最大矩形框的宽度;H表示最大矩形框的高度;A表示最大矩形框的面积。
6.根据步骤5中4个端点坐标确认对应矩形的四个边长的长度,设置阈值K=0.25,若存在矩形的对边长度差值大于阈值K,则判定对应图片文档为畸形文件。
进一步的,根据步骤5中获取的4个端点坐标,如图1所示,运用opencv透视变换将畸形文档进行矫正处理,获得畸形矫正后的文档,即将原图投影到一个新的视平面中,也被称为投影映射。
在该变换中适用的基本公式(变换过程)如下,通过4个端点获取旋转矩阵M,然后进行如图2所示的透视变换,即根据4个端点坐标和旋转矩阵M进行矫正,通过旋转矩阵M使矩形A变换成矩形B,最终使得畸形文档矩形A得到矫正,同时去除复杂背景干扰。
具体设定如下公式:
=/>;
旋转矩阵M为:
M=;
其中,(x,y,1)为原点,(X,Y,Z)为变换后的点,变换前后的点均是已知点;,,/>,/>,/>,/>,/>,/>,/>是旋转矩阵M的9个参数;由于透视变换是将二维空间变换到三维空间的转换,需要将透视变换后的图像在二维平面要除以Z,Z是变换后的三维空间的Z轴坐标点,即如下公式所示:
=/>;/>=/>;/>=/>;
、/>、/>分别为变换过程中X轴坐标点、Y轴坐标点和Z轴坐标点的中间值,具体展开如下:
=/>;
=/>;
=1;
设定=1,展开公式,得到一个点的两个方程:
;
;
同理将剩余三个已知坐标对(x2,y2,1), (x3,y3,1), (x4,y4,1),对应的变换后坐标(X2,Y2,Z2),(X3,Y3,Z3),(X4,Y4,Z4)按照上述办法展开:
;
;
;
;
;
。
重复上述步骤,直至最终根据4个端点坐标得到8个方程,并求解出旋转矩阵M中剩余的8个变量、/>、/>、/>、/>、/>、/>、/>;最终得到透视变换的公式如下:
。
7.最终生成经过方向矫正的文档,并输出给用户或保存在指定位置。
本发明还提供了用于检测文件方向并对倾斜或畸形文件矫正的系统,包括:
预处理模块,用于将待处理的文档进行图像预处理;
文本信息提取模块,用于采用DBNET图像识别算法,对图像预处理后的文档进行分析和识别,并提取文档中的文本信息;
文档倾斜检测模块,用于将提取的文本信息,转化为文本框格式的检测结果,最终得到文档倾斜的检测结果;
文档倾斜矫正模块,用于根据文档倾斜的检测结果,采用图像处理算法对倾斜文档进行倾斜矫正,使倾斜文档处于正向位置;
文档畸形检测模块,用于采用LSD直线检测算法,对未被判定为倾斜文档的图片文档进行端点检测,获得直线端点数据,并根据获取的直线端点数据选出最大矩形框和最大矩形框的4个端点坐标:
文档畸形矫正模块,用于根据获取的4个端点坐标,判断对应的图片文档是否为畸形文档,若为畸形文档,则运用opencv透视变换将所述畸形文档进行矫正处理,获得畸形矫正后的文档。
文档生成与输出模块,用于生成经过方向矫正的文档,并输出给用户或保存在指定位置。
具体的,如图3所示,结合实际应用,上述步骤的具体实施过程如下:
1,将待处理的文档进行图像处理,包括去除噪声、调整亮度和对比度等,以提高后续方向检测和矫正的准确性,获得如图3左上角所示图片;
2.采用LSD直线检测算法,对将图3左上角所示图片,进行端点检测,获得直线端点数据,并根据直线端点数据获得若干个矩形框;如图3右上角所示图片,共获得8个直线端点数据,根据8个直线端点数据,得到两个矩形框,一个为文档中文本框的矩形框,一个为文档整体大小的矩形框;
3.根据设定的阈值,筛选出符合阈值的最大矩形框和最大矩形框的4个端点坐标;例如,如图3右下角的图片所示,选择文档整体大小的矩形框为最大矩形框,对应的最大矩形框的4个端点坐标为文档整体大小矩形框的4个顶点坐标;
4.通过4个端点(613,502),(1164,646),(774,1556),(83,1163)获取旋转矩阵M=,然后进行如图2所示的透视变换,即根据4个端点坐标和旋转矩阵M进行矫正,通过旋转矩阵M使矩形A变换成矩形B,最终使得畸形文档矩形A得到矫正,得到如图3左下角的图片所示(具体opencv透视变换过程所涉及的公式见前文步骤6的内容);与图3左上角的图片对比,显然图3左上角图片中的文档部分,被分离了出来,并且畸形的文档图片被矫正后,处于正向位置。
5.生成经过方向矫正的文档,即图3左下角所示的图片,并输出给用户或保存在指定位置。
本发明运用最新的图像识别DBNET算法技术和人工智能LSD直线检测算法,实现对文档方向、倾斜和畸形的自动检测和矫正处理,提高处理效率;本发明采用高效的人工智能算法和图像处理算法,能够准确地检测文档的方向、倾斜和畸形问题,并进行相应的矫正,确保文档恢复到正确的方向和形状;本发明灵活性强,可适应不同类型的文档,包括图片、扫描件等,满足多样化的需求;本发明能够自动化的方向检测、倾斜和畸形矫正处理以及高清转换,节省了人工操作的时间和成本。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。
Claims (10)
1.用于检测文件方向并对倾斜或畸形文件矫正的方法,其特征在于,包括如下步骤;
S1,将待处理的文档进行图像预处理;
S2,采用DBNET图像识别算法,对图像预处理后的文档进行分析和识别,并提取文档中的文本信息;
S3,将步骤S2提取的文本信息,转化为文本框格式的检测结果,最终得到文档倾斜的检测结果;
S4,根据文档倾斜的检测结果,采用图像处理算法对倾斜文档进行倾斜矫正,使倾斜文档处于正向位置;
S5,采用LSD直线检测算法,对未被判定为倾斜文档的图片文档进行端点检测,获得直线端点数据,并根据获取的直线端点数据选出最大矩形框和最大矩形框的4个端点坐标:
S6,根据步骤S5中获取的4个端点坐标,判断对应的图片文档是否为畸形文档,若为畸形文档,则运用opencv透视变换将所述畸形文档进行矫正处理,获得畸形矫正后的文档。
2.根据权利要求1所述的用于检测文件方向并对倾斜或畸形文件矫正的方法,其特征在于,步骤S1中,所述图像预处理包括去除噪声、调节亮度和对比度。
3.根据权利要求1所述的用于检测文件方向并对倾斜或畸形文件矫正的方法,其特征在于,步骤S3包括如下步骤:
S31,对提取的文本信息中的每个文本块,都进行语义分割,获得分割概率图,再对分割概率图进行二值化处理,转化得到文本框格式的检测结果;
所述文本框格式的检测结果如下:
设定文本框相邻两点坐标为(,/>),(/>,/>),则相邻两点的倾斜角度为:
;
其中,表示平方根;/>表示反余弦函数;/>表示相邻两点的夹角角度,取值范围在0到π之间;文档倾斜的检测结果采用/>值表示。
4.根据权利要求3所述的用于检测文件方向并对倾斜或畸形文件矫正的方法,其特征在于,步骤S4包括如下步骤:
S41,根据文档倾斜的检测结果值,设置角度阈值K=1.5,对/>取绝对值,如果/>大于K,则判断文档为倾斜,采用图像处理算法工具opencv对倾斜文档进行倾斜矫正,使倾斜文档处于正向位置。
5.根据权利要求1所述的用于检测文件方向并对倾斜或畸形文件矫正的方法,其特征在于,步骤S5中所述LSD直线检测算法,以沙漏网络为主干网络。
6.根据权利要求5所述的用于检测文件方向并对倾斜或畸形文件矫正的方法,其特征在于,步骤S5包括如下步骤:
S51,将未被判定为倾斜文档的图片文档划分为若干个网格bin;
S52,设定每个网格bin内存在一个结点p,通过结点预测模块预测从结点p到网格bin中心点b的偏移矢量;
S53,根据所述偏移矢量,沙漏网络输出一个结点置信度图J和一个结点偏移图O;J和O的真实样例采用如下公式表示:
;
;
其中,表示所有结点;/>表示存在量词;b表示网格;p表示结点;
S54,通过步骤S53中的公式获得带有置信度score的直线端点数据,根据获取的直线端点数据,选出最大矩形框和最大矩形框对应的4个端点坐标,并计算最大矩形框的宽、高和面积,具体公式如下:
W=;
H=;
A=W×H;
其中,、/>、/>分别表示最大矩形框第一个、第二个、第三个坐标的/>值;/>、/>、/>分别表示最大矩形框第一个、第二个、第三个坐标的/>值;W表示最大矩形框的宽度;H表示最大矩形框的高度;A表示最大矩形框的面积。
7.根据权利要求6所述的用于检测文件方向并对倾斜或畸形文件矫正的方法,其特征在于,步骤S6包括如下步骤:
S61,根据所述4个端点坐标确认对应矩形的四个边长的长度,设置阈值K=0.25,若存在矩形的对边长度差值大于阈值K,则判定对应图片文档为畸形文件;
S62,通过所述4个端点坐标获取旋转矩阵M,并进行opencv透视变换,使畸形文件得到矫正,同时去除复杂背景干扰,具体设定如下公式:
=/>;
旋转矩阵M为:
M=;
其中,(x,y,1)为原点,(X,Y,Z)为变换后的点,变换前后的点均是已知点;,/>,,/>,/>,/>,/>,/>,/>是旋转矩阵M的9个参数;将透视变换后的图像在二维平面除以Z,Z是变换后的三维空间的Z轴坐标点,即如下公式所示:
=/>;/>=/>;/>=/>;
、/>、/>分别为变换过程中X轴坐标点、Y轴坐标点和Z轴坐标点的中间值,具体展开如下;
=/>;
=/>;
=1;
设定=1,展开公式,得到一个点的两个方程:
;
;
S63,重复步骤S62,直至最终根据4个端点坐标得到8个方程,并求解出旋转矩阵M中剩余的8个变量、/>、/>、/>、/>、/>、/>、/>;最终得到透视变换的公式如下:
。
8.根据权利要求1所述的用于检测文件方向并对倾斜或畸形文件矫正的方法,其特征在于,还包括如下步骤:
S7,生成经过方向矫正的文档,并输出给用户或保存在指定位置。
9.用于检测文件方向并对倾斜或畸形文件矫正的系统,用于实现权利要求1-8任一项所述的用于检测文件方向并对倾斜或畸形文件矫正的方法,其特征在于,所述用于检测文件方向并对倾斜或畸形文件矫正的系统包括:
预处理模块,用于将待处理的文档进行图像预处理;
文本信息提取模块,用于采用DBNET图像识别算法,对图像预处理后的文档进行分析和识别,并提取文档中的文本信息;
文档倾斜检测模块,用于将提取的文本信息,转化为文本框格式的检测结果,最终得到文档倾斜的检测结果;
文档倾斜矫正模块,用于根据文档倾斜的检测结果,采用图像处理算法对倾斜文档进行倾斜矫正,使倾斜文档处于正向位置;
文档畸形检测模块,用于采用LSD直线检测算法,对未被判定为倾斜文档的图片文档进行端点检测,获得直线端点数据,并根据获取的直线端点数据选出最大矩形框和最大矩形框的4个端点坐标:
文档畸形矫正模块,用于根据获取的4个端点坐标,判断对应的图片文档是否为畸形文档,若为畸形文档,则运用opencv透视变换将所述畸形文档进行矫正处理,获得畸形矫正后的文档。
10.根据权利要求9所述的用于检测文件方向并对倾斜或畸形文件矫正的系统,其特征在于,还包括:
文档生成与输出模块,用于生成经过方向矫正的文档,并输出给用户或保存在指定位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311529000.6A CN117237957A (zh) | 2023-11-16 | 2023-11-16 | 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311529000.6A CN117237957A (zh) | 2023-11-16 | 2023-11-16 | 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117237957A true CN117237957A (zh) | 2023-12-15 |
Family
ID=89097071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311529000.6A Pending CN117237957A (zh) | 2023-11-16 | 2023-11-16 | 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117237957A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1937698A (zh) * | 2006-10-19 | 2007-03-28 | 上海交通大学 | 图像畸变自动校正的图像处理方法 |
CN103413271A (zh) * | 2013-07-18 | 2013-11-27 | 西安交通大学 | 基于局部信息的文档图像校正方法 |
CN106845508A (zh) * | 2015-12-07 | 2017-06-13 | 腾讯科技(深圳)有限公司 | 一种检测图像中信息卡的方法、装置和系统 |
CN108885699A (zh) * | 2018-07-11 | 2018-11-23 | 深圳前海达闼云端智能科技有限公司 | 字符识别方法、装置、存储介质及电子设备 |
CN110059691A (zh) * | 2019-03-29 | 2019-07-26 | 南京邮电大学 | 基于移动终端的多视角扭曲文档图像几何校正方法 |
CN110443269A (zh) * | 2019-06-17 | 2019-11-12 | 平安信托有限责任公司 | 一种文档比对方法及装置 |
CN111127339A (zh) * | 2019-12-04 | 2020-05-08 | 北京华宇信息技术有限公司 | 一种文档图像的梯形畸变矫正方法及装置 |
CN113723330A (zh) * | 2021-09-06 | 2021-11-30 | 华南理工大学 | 一种图表文档信息理解的方法及系统 |
CN114155546A (zh) * | 2022-02-07 | 2022-03-08 | 北京世纪好未来教育科技有限公司 | 一种图像矫正方法、装置、电子设备和存储介质 |
CN115424111A (zh) * | 2022-08-22 | 2022-12-02 | 工业互联网创新中心(上海)有限公司 | 一种抗原检测试剂盒智能识别方法、装置、设备及介质 |
CN115619845A (zh) * | 2022-09-28 | 2023-01-17 | 上海致宇信息技术有限公司 | 一种自适应扫描文档图像倾斜角检测方法 |
CN116245815A (zh) * | 2023-01-06 | 2023-06-09 | 福建亿榕信息技术有限公司 | 一种电子档案纠错方法 |
CN116343215A (zh) * | 2023-02-22 | 2023-06-27 | 杭州碧湾信息技术有限公司 | 一种文档图像的倾斜校正方法和系统 |
-
2023
- 2023-11-16 CN CN202311529000.6A patent/CN117237957A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1937698A (zh) * | 2006-10-19 | 2007-03-28 | 上海交通大学 | 图像畸变自动校正的图像处理方法 |
CN103413271A (zh) * | 2013-07-18 | 2013-11-27 | 西安交通大学 | 基于局部信息的文档图像校正方法 |
CN106845508A (zh) * | 2015-12-07 | 2017-06-13 | 腾讯科技(深圳)有限公司 | 一种检测图像中信息卡的方法、装置和系统 |
CN108885699A (zh) * | 2018-07-11 | 2018-11-23 | 深圳前海达闼云端智能科技有限公司 | 字符识别方法、装置、存储介质及电子设备 |
CN110059691A (zh) * | 2019-03-29 | 2019-07-26 | 南京邮电大学 | 基于移动终端的多视角扭曲文档图像几何校正方法 |
CN110443269A (zh) * | 2019-06-17 | 2019-11-12 | 平安信托有限责任公司 | 一种文档比对方法及装置 |
CN111127339A (zh) * | 2019-12-04 | 2020-05-08 | 北京华宇信息技术有限公司 | 一种文档图像的梯形畸变矫正方法及装置 |
CN113723330A (zh) * | 2021-09-06 | 2021-11-30 | 华南理工大学 | 一种图表文档信息理解的方法及系统 |
CN114155546A (zh) * | 2022-02-07 | 2022-03-08 | 北京世纪好未来教育科技有限公司 | 一种图像矫正方法、装置、电子设备和存储介质 |
CN115424111A (zh) * | 2022-08-22 | 2022-12-02 | 工业互联网创新中心(上海)有限公司 | 一种抗原检测试剂盒智能识别方法、装置、设备及介质 |
CN115619845A (zh) * | 2022-09-28 | 2023-01-17 | 上海致宇信息技术有限公司 | 一种自适应扫描文档图像倾斜角检测方法 |
CN116245815A (zh) * | 2023-01-06 | 2023-06-09 | 福建亿榕信息技术有限公司 | 一种电子档案纠错方法 |
CN116343215A (zh) * | 2023-02-22 | 2023-06-27 | 杭州碧湾信息技术有限公司 | 一种文档图像的倾斜校正方法和系统 |
Non-Patent Citations (2)
Title |
---|
MINGHUI LIAO等: "Real-time Scene Text Detection with Differentiable Binarization", 《ARXIV》, pages 3 * |
YICHAO ZHOU等: "End-to-End Wireframe Parsing", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, pages 3 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9805281B2 (en) | Model-based dewarping method and apparatus | |
CN110647795B (zh) | 一种表格识别方法 | |
US20140247470A1 (en) | Camera-based document imaging | |
CN109117846B (zh) | 一种图像处理方法、装置、电子设备和计算机可读介质 | |
CN114529925B (zh) | 一种全线表表格结构识别方法 | |
KR101829733B1 (ko) | 2차원 이미지를 3차원 그래픽 모델로 변환하는 방법 | |
CN114255337A (zh) | 文档图像的矫正方法、装置、电子设备及存储介质 | |
CN113592886A (zh) | 建筑图纸的审图方法、装置、电子设备及介质 | |
CN111291753A (zh) | 基于图像的文本识别方法、装置及存储介质 | |
CN114998347B (zh) | 一种半导体面板角点定位方法及装置 | |
CN117237957A (zh) | 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统 | |
CN111222355A (zh) | Pcb板上的条码定位方法及系统 | |
CN115171133A (zh) | 用于不规则表格图像拉平的表格结构检测方法 | |
CN110349111B (zh) | 一种包含二维码图像的矫正方法和装置 | |
Vinod et al. | Camera captured document de-warping and de-skewing | |
JP2010092159A (ja) | 画像データ判定装置、画像データ判定システム、及びプログラム | |
JP2003123023A (ja) | 文字認識方法及び文字認識装置、文字認識プログラム並びにそのプログラムを記録した記録媒体 | |
CN118297915A (zh) | 一种无损检测图像处理方法、装置及存储介质 | |
CN113705430A (zh) | 基于检测模型的表格检测方法、装置、设备及存储介质 | |
CN117911826A (zh) | 图像特征的提取方法、图像处理方法、装置及设备 | |
CN116958164A (zh) | 一种图像处理方法、装置、电子设备和存储介质 | |
CN115797938A (zh) | 文件图片的自动校正方法、电子设备及存储介质 | |
CN117746433A (zh) | 文本检测方法和装置、电子设备和存储介质 | |
CN117079294A (zh) | 一种电表断码屏标准模板生成方法、装置、设备及介质 | |
CN117372731A (zh) | 一种图像检测的方法、相关装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |