CN111353489A - 文本图像处理方法、装置、计算机设备和存储介质 - Google Patents
文本图像处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111353489A CN111353489A CN202010123338.1A CN202010123338A CN111353489A CN 111353489 A CN111353489 A CN 111353489A CN 202010123338 A CN202010123338 A CN 202010123338A CN 111353489 A CN111353489 A CN 111353489A
- Authority
- CN
- China
- Prior art keywords
- text
- inclination angle
- characters
- text image
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 14
- 238000003708 edge detection Methods 0.000 claims abstract description 11
- 230000002159 abnormal effect Effects 0.000 claims description 49
- 238000004590 computer program Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
Abstract
本申请涉及一种基于神经网络的文本图像处理方法、装置、计算机设备和存储介质。所述方法包括:将待处理文本图像输入至预设文本检测模型中,利用预设文本模型对待处理文本图像中的文字进行边缘检测,得到文字的边缘坐标;根据待处理文本图像中各文字的边缘坐标获取各文字对应最小矩形的矩形面积和倾斜角度;基于各文字最小矩形的矩形面积和倾斜角度对各文字进行筛选,得到无异常文字;根据无异常文字的平均倾斜角度将待处理文本图像进行反向旋转,得到文本图像。采用本方法能够提高准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种图像文本方法、装置、计算机设备和存储介质。
背景技术
文本图像识别是办公自动化的一个重要领域,但在文本图像识别领域,影响识别率有多种因素。其中图像中的文字倾斜是一个比较重要的因素,因此目前大部分文本图像识别应用中,在识别之前都需要进行矫正。
传统的文本图像矫正方法有边缘检测、霍夫直线等,但是都具有很大的局限性。例如由于边缘检测需要图像的文字包含连通区域,只是适合完整对象的图像文字检查。而霍夫直线这种检测方法又依赖图像的质量,鲁棒性比较差,很容易受到图像噪声的影响出现误差,从而导致降低了矫正的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确性的文本图像处理方法、装置、计算机设备和存储介质。
一种文本图像处理方法,所述方法包括:
将待处理文本图像输入至预设文本检测模型中,利用所述预设文本模型对所述待处理文本图像中的文字进行检测,得到文字的边缘坐标;
根据所述待处理文本图像中各所述文字的边缘坐标获取各所述文字对应最小矩形的矩形面积和倾斜角度;
基于各所述文字最小矩形的矩形面积和倾斜角度对各所述文字进行异常筛选,得到无异常文字;
根据所述无异常文字的平均倾斜角度将所述待处理文本图像进行反向旋转,得到文本图像。
在其中一个实施例中,所述根据所述待处理文本图像中各所述文字的边缘坐标获取各所述文字对应最小矩形的矩形面积和倾斜角度,包括:
对所述待处理文本图像中各所述文字的边缘坐标进行抽稀,得到抽稀边缘坐标;
连接各所述抽稀边缘坐标,得到坐标多边形;
遍历得到与所述坐标多边形共边的共边外接矩形;
从所述共边外接矩形中确定最小矩形,并获取所述最小矩形的矩形面积和倾斜角度。
在其中一个实施例中,所述获取所述最小矩形的倾斜角度,包括:
确定基于所述最小矩形的水平倾斜边相邻的顶点坐标;
根据相邻的所述顶点坐标的坐标值计算水平面与所述水平倾斜边的夹角,得到最小矩形的倾斜角度。
在其中一个实施例中,所述基于各所述文字最小矩形的矩形面积和倾斜角度对各所述文字进行筛选,得到无异常文字,包括:
根据所述倾斜角度计算各所述文字的平均倾斜角度;
基于所述平均倾斜角度,剔除所述倾斜角度不满足角度要求的文字;
根据各所述文字最小矩形的矩形面积,从满足角度要求的文字中选择预设数量的文字作为无异常文字。
在其中一个实施例中,所述基于所述平均倾斜角度,剔除所述倾斜角度不满足角度要求的文字,包括:
分别计算所述平均倾斜角度与各所述文字的倾斜角度的偏差值;
获取并剔除所述偏差值大于阈值的文字。
在其中一个实施例中,所述根据所述无异常文字的平均倾斜角度将所述待处理文本图像进行反向旋转,得到文本图像,包括:
确定所述无异常文字的平均倾斜角度和倾斜方向;
将所述待处理文本向所述倾斜方向的反方向旋转与所述平均倾斜角度相同角度,得到文本图像。
在其中一个实施例中,所述将所述待处理文本向所述倾斜方向的反方向旋转与所述平均倾斜角度相同角度,得到文本图像,包括:
获取所述待处理文本图像中各像素点的坐标;
基于所述倾斜方向和所述平均倾斜角度将各所述像素点的坐标进行映射转换,获取坐标映射转换后的像素点组成的图像,得到文本图像。
一种文本图像处理装置,所述装置包括:
检测模块,用于将待处理文本图像输入至预设文本检测模型中,利用所述预设文本模型对所述待处理文本图像中的文字进行边缘检测,得到文字的边缘坐标;
获取模块,用于根据所述待处理文本图像中各所述文字的边缘坐标获取各所述文字对应最小矩形的矩形面积和倾斜角度;
筛选模块,用于基于各所述文字最小矩形的矩形面积和倾斜角度对各所述文字进行筛选,得到无异常文字;
旋转模块,用于根据所述无异常文字的平均倾斜角度将所述待处理文本图像进行反向旋转,得到文本图像。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述文本图像处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述文本图像处理方法的步骤。
上述文本图像处理方法、装置、计算机设备和存储介质,通过基于深度学习的预设文本检测模型对待处理文本图像进行边缘检测得到文字的边缘坐标,从而提高获取边缘信息的准确性,进而根据由文字的边缘坐标获取的最小矩形的矩形面积和倾斜角度对文字筛选得到无异常文字,基于无异常文字的倾斜角度对待处理文本图像进行旋转矫正,从而减少异常文字剔除干扰因素,提高矫正的准确率。
附图说明
图1为一个实施例中文本图像处理方法的应用场景图;
图2为一个实施例中文本图像处理方法的流程示意图;
图3为一个实施例中根据待处理文本图像中各文字的边缘坐标获取各文字对应最小矩形的矩形面积和倾斜角度步骤的流程示意图;
图4为一个实施例中坐标多边形的示意图;
图5为一个实施例中共边外接矩形的示意图;
图6为一个实施例中最小矩形的示意图;
图7为一个实施例中文本图像处理装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本图像处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。具体地,当终端102接收到待处理文本图像之后,可以单独实现上述文本图像处理方法。也可以由终端102将待处理文本图像发送给服务器104,由服务器104单独实现上述文本图像处理方法。例如,终端102或服务器104将待处理文本图像输入至预设文本检测模型中,利用预设文本模型对待处理文本图像中的文字进行边缘检测,得到文字的边缘坐标;终端102或服务器104根据待处理文本图像中各文字的边缘坐标获取各文字对应最小矩形的矩形面积和倾斜角度;终端102或服务器104基于各文字最小矩形的矩形面积和倾斜角度对各文字进行异常筛选,得到无异常文字;终端102或服务器104根据无异常文字的平均倾斜角度将待处理文本图像进行反向旋转,得到文本图像。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本图像处理方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤S202,将待处理文本图像输入至预设文本检测模型中,利用预设文本模型对待处理文本图像中的文字进行检测,得到文字的边缘坐标。
其中,待处理文本图像是指需要进行处理的文本图像。检测模型为预先训练好的AdvancedEast(Advanced Efficient and Accuracy Scene Text,高级高效准确的场景文本)算法模型。边缘坐标是指文本图像中可以包括文字的区域的坐标。参考图2,边缘坐标可以理解为是0-1边、1-2边、2-3边、以3-0边,这四条边上所有的坐标。
具体地,当服务器接收到终端发送的待处理文本图像之后,调用已经训练好的AdvancedEast算法模型。将待处理文本图像输入至AdvancedEast算法模型中,由AdvancedEast算法模型检测得到待处理文本图像中各文字的边缘坐标。应当理解的是,当AdvancedEast算法模型对待处理文本图像进行检测时,是检测以行为单位的连续文字段,得到的是每一行文字的边缘坐标。例如,一行文字只有单独一个文字时,边缘坐标是这个文字的边缘坐标。而一行文字有两个及两个以上的连续文字段时,边缘坐标就是这各连续文字段的边缘坐标。
步骤S204,根据待处理文本图像中各文字的边缘坐标获取各文字对应最小矩形的矩形面积和倾斜角度。
其中,最小矩形是包围文字的最小包围矩形,矩形面积则是最小矩形的面积。倾斜角度是指文字相对于水平面所倾斜的角度,可以理解为是文字与水平面形成的夹角的度数。
具体地,当得到待处理文本图像中各行文字的边缘坐标之后,可以调用图像处理工具,例如OpenCV、MATLAB等。利用图像处理工具根据各文字的边缘坐标得到各行文字的最小矩形。然后,计算得到该最小矩形的面积和其与水平面的夹角,得到最小矩形面积和倾斜角度。
步骤S206,基于各文字最小矩形的矩形面积和倾斜角度对各文字进行异常筛选,得到无异常文字。
由于真实场景的文本图像对应的文字比较复杂,会存在一定的干扰因素,例如水印、盖章等。因此,通过文字对应的最小矩形的矩形面积和倾斜角度剔除干扰因素,能够提高后续处理的准确度。
在一个实施例中,步骤S206,基于各文字最小矩形的矩形面积和倾斜角度对各文字进行异常筛选,得到无异常文字具体包括:根据倾斜角度计算各文字的平均倾斜角度;基于平均倾斜角度,剔除倾斜角度不满足角度要求的文字;根据各文字最小矩形的矩形面积,从满足角度要求的文字中选择预设数量的文字作为无异常文字。
具体地,平均倾斜角度是待处理文本中各行文字倾斜角度的平均值。当得到各文字的最小矩形的倾斜角度后,根据文字的数量计算得到各文字的平均倾斜角度。例如,一共有3行文字,每行文字的倾斜角度是A、B、C,那么平均倾斜角度J=(A+B+C)/3。然后,将平均倾斜角度与各文字的倾斜角度进行大小比较,根据大小比较的结果确定该倾斜角度是否满足角度要求。剔除倾斜角度不满足角度要求的文字,选择倾斜角度满足角度要求的文字。
当得到满足角度要求的文字之后,按照各文字的最小矩形的矩形面积的大小,从大到小选择预设数量的文字,得到无异常文字。例如,预设数量为10个,那么从满足角度要求的文字中选择面积大小排序在前10的文字作为无异常文字。本实施中通过面积选择较长的文字行,可以进一步排除文字水印和盖章这种会包含较短文字的干扰因素。
在一个实施例中,基于平均倾斜角度,剔除倾斜角度不满足角度要求的文字,包括:分别计算平均倾斜角度与各文字的倾斜角度的偏差值;获取并剔除偏差值大于阈值的文字。
具体地,通过计算平均倾斜角度与各文字的倾斜角度的差值,得到倾斜角度与平均倾斜角度的偏差值。然后,将偏差值与预设的阈值进行比较,确定大于阈值的偏差值,剔除该偏差值对应的文字。其中,阈值可以是根据实际所处理的文本图像的类型设定的固定值。在本实施例中,阈值优选为平均倾斜角度的30%,那么剔除的文字即为对应偏差值大于平均倾斜角度的30%的文字。
步骤S208,根据无异常文字的平均倾斜角度将待处理文本图像进行反向旋转,得到文本图像。
具体地,反向旋转是指向与平均倾斜角度的方向相反的方向旋转。在得到无异常文字之后,首先计算确定无异常文字之间的平均倾斜角度和倾斜方向。然后,将待处理文本向倾斜方向的反方向旋转与平均倾斜角度相同的角度,得到文本图像。例如,无异常文字的平均倾斜角度是向左旋转了20度,则反向旋转是将待处理文本图像向右旋转20度。
在一个实施例中,将待处理文本向倾斜方向的反方向旋转与平均倾斜角度相同的角度,得到文本图像具体包括:获取待处理文本图像中各像素点的坐标;基于倾斜方向和平均倾斜角度将各像素点的坐标进行映射转换,获取坐标映射转换后的像素点组成的图像,得到文本图像。
具体地,首先获取待处理文本图像中各像素点的坐标。根据倾斜方向确定旋转方向,以及根据平均倾斜角度确定旋转角度。然后基于旋转方向和旋转角度将各像素点的坐标重新进行映射转换,为各像素点得到已经旋转后的新坐标。基于旋转后的新坐标的位置调整各像素点的位置,调整位置后的像素点所组成的图像即为旋转后的文本图像。
上述文本图像处理方法,通过基于深度学习的预设文本检测模型对待处理文本图像进行边缘检测得到文字的边缘坐标,从而提高获取边缘信息的准确性,进而根据由文字的边缘坐标获取的最小矩形的矩形面积和倾斜角度对文字筛选得到无异常文字,基于无异常文字的倾斜角度对待处理文本图像进行旋转矫正,从而减少异常文字剔除干扰因素,提高矫正的准确率。
在一个实施例中,如图3所示,根据待处理文本图像中各文字的边缘坐标获取各文字对应最小矩形的矩形面积和倾斜角度,包括以下步骤:
步骤S302,对待处理文本图像中各文字的边缘坐标进行抽稀,得到抽稀边缘坐标。
其中,抽稀是通过规则,在保证矢量曲线形状不变的情况下,最大限度的减少数据点个数的过程。具体地,对得到的边缘坐标进行抽稀,剩余的边缘坐标即为得到的抽稀边缘坐标。例如,边缘坐标一共100,经过抽稀之后可能只剩余50个抽稀边缘坐标。
步骤S304,连接各抽稀边缘坐标,得到坐标多边形。
具体地,按照抽稀边缘坐标的顺序,依次将各抽稀边缘坐标进行连线,得到坐标多边形。如图4所示,提供一种坐标多边形的示意图。参考图4,图4所示的坐标多边形即为6个边缘坐标依次连接得到多边形。
步骤S306,遍历得到与坐标多边形共边的共边外接矩形。
步骤S308,从所述共边外接矩形中确定最小矩形,并获取所述最小矩形的矩形面积和倾斜角度。
其中,共边外接矩形是指坐标多边形的外接矩形的一条边与坐标多边行的一条边相同。可以理解为,共边外接矩形其中的一条边就是坐标多边形其中的一条边。因此,坐标多边形的最小外接矩形为需要得到的最小矩形。
具体地,当得到坐标多边形之后,遍历选择坐标多边形中的每一条边,基于所选择的边绘制得到坐标多边形的外接矩形。然后,从所有的外接矩形中选择面积最小的矩形为最小矩形。例如,如图4所示的6边形共有6条边,能够得到6个对应的共边外接矩形,从这6个中选择面积最小的那一个外接矩形作为最小矩形。如图5所示,提供一种共边外接矩形的示意图。参考图5,实线绘制的形状为图4所示的坐标多边形,虚线绘制的形状是以图4所示的坐标多边形的最下面一条边作为共边而绘制得到的共边外接矩形。
当得到最小矩形之后,即可获取这个最小矩形的矩形面积和倾斜角度。最小矩形的矩形面积根据最小矩形的4个顶点坐标确定长和宽之后,利用面积公式计算得到。
在一个实施例中,最小矩形的倾斜角度的获取,具体包括:确定基于最小矩形的水平倾斜边相邻的顶点坐标;根据相邻的顶点坐标的坐标值计算水平面与水平倾斜边的夹角,得到最小矩形的倾斜角度。
水平倾斜边是最小矩形相对于水平面倾斜的边,基于最小矩形的水平倾斜边相邻的顶点坐标就是位于水平倾斜边上的顶点。如图6所示,提供一种最小矩形示意图。参考图6,0-3边和1-2边这两条边即为水平倾斜边。0-3边上的坐标0和3即为相邻的顶点坐标。1-2边上的坐标1和2即为相邻的顶点坐标。以图5所述的0-3边为例,倾斜角度θ的计算公式如下:
θ=arctan((y0-y3)/(x3-x0))
另外,图5所示的0-3边是坐标0的位置低于坐标3的位置,而当位置相反时,即坐标0的位置位于坐标3之上时,倾斜角度θ的计算公式如下:
θ=90-(arctan((y0-y3)/(x3-x0)))
在本实施例中,对坐标进行抽稀之后确定最小矩形,不仅能够去除重复的坐标减少处理时间,还能精准的得到最小矩形。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种文本图像处理装置,包括:检测模块702、获取模块704、筛选模块706和旋转模块708,其中:
检测模块702,用于将待处理文本图像输入至预设文本检测模型中,利用预设文本模型对待处理文本图像中的文字进行边缘检测,得到文字的边缘坐标。
获取模块704,用于根据待处理文本图像中各文字的边缘坐标获取各文字对应最小矩形的矩形面积和倾斜角度。
筛选模块706,用于基于各文字最小矩形的矩形面积和倾斜角度对各文字进行筛选,得到无异常文字。
旋转模块708,用于根据无异常文字的平均倾斜角度将待处理文本图像进行反向旋转,得到文本图像。
在一个实施例中,获取模块704还用于对待处理文本图像中各文字的边缘坐标进行抽稀,得到抽稀边缘坐标;连接各抽稀边缘坐标,得到坐标多边形;遍历得到与坐标多边形共边的共边外接矩形;从共边外接矩形中确定最小矩形,并获取最小矩形的矩形面积和倾斜角度。
在一个实施例中,获取模块704还用于确定基于最小矩形的水平倾斜边相邻的顶点坐标;根据相邻的顶点坐标的坐标值计算水平面与水平倾斜边的夹角,得到最小矩形的倾斜角度。
在一个实施例中,筛选模块706还用于根据倾斜角度计算各文字的平均倾斜角度;基于平均倾斜角度,剔除倾斜角度不满足角度要求的文字;根据各文字最小矩形的矩形面积,从满足角度要求的文字中选择预设数量的文字作为无异常文字。
在一个实施例中,筛选模块706还用于分别计算平均倾斜角度与各文字的倾斜角度的偏差值;获取并剔除偏差值大于阈值的文字。
在一个实施例中,旋转模块708还用于确定无异常文字的平均倾斜角度和倾斜方向;将待处理文本向倾斜方向的反方向旋转与平均倾斜角度相同角度,得到文本图像。
在一个实施例中,旋转模块708还用于获取待处理文本图像中各像素点的坐标;基于倾斜方向和所述平均倾斜角度将各像素点的坐标进行映射转换,获取坐标映射转换后的像素点组成的图像,得到文本图像。
关于文本图像处理装置的具体限定可以参见上文中对于文本图像处理方法的限定,在此不再赘述。上述文本图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本图像处理方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
将待处理文本图像输入至预设文本检测模型中,利用预设文本模型对待处理文本图像中的文字进行边缘检测,得到文字的边缘坐标;
根据待处理文本图像中各文字的边缘坐标获取各文字对应最小矩形的矩形面积和倾斜角度;
基于各文字最小矩形的矩形面积和倾斜角度对各文字进行筛选,得到无异常文字;
根据无异常文字的平均倾斜角度将待处理文本图像进行反向旋转,得到文本图像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对待处理文本图像中各文字的边缘坐标进行抽稀,得到抽稀边缘坐标;连接各抽稀边缘坐标,得到坐标多边形;遍历得到与坐标多边形共边的共边外接矩形;从共边外接矩形中确定最小矩形,并获取最小矩形的矩形面积和倾斜角度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
确定基于最小矩形的水平倾斜边相邻的顶点坐标;根据相邻的顶点坐标的坐标值计算水平面与水平倾斜边的夹角,得到最小矩形的倾斜角度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据倾斜角度计算各文字的平均倾斜角度;基于平均倾斜角度,剔除倾斜角度不满足角度要求的文字;根据各文字最小矩形的矩形面积,从满足角度要求的文字中选择预设数量的文字作为无异常文字。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
分别计算平均倾斜角度与各文字的倾斜角度的偏差值;获取并剔除偏差值大于阈值的文字。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
确定无异常文字的平均倾斜角度和倾斜方向;将待处理文本向倾斜方向的反方向旋转与平均倾斜角度相同角度,得到文本图像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取待处理文本图像中各像素点的坐标;基于倾斜方向和所述平均倾斜角度将各像素点的坐标进行映射转换,获取坐标映射转换后的像素点组成的图像,得到文本图像。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将待处理文本图像输入至预设文本检测模型中,利用预设文本模型对待处理文本图像中的文字进行边缘检测,得到文字的边缘坐标。
根据待处理文本图像中各文字的边缘坐标获取各文字对应最小矩形的矩形面积和倾斜角度;
基于各文字最小矩形的矩形面积和倾斜角度对各文字进行筛选,得到无异常文字;
根据无异常文字的平均倾斜角度将待处理文本图像进行反向旋转,得到文本图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对待处理文本图像中各文字的边缘坐标进行抽稀,得到抽稀边缘坐标;连接各抽稀边缘坐标,得到坐标多边形;遍历得到与坐标多边形共边的共边外接矩形;从共边外接矩形中确定最小矩形,并获取最小矩形的矩形面积和倾斜角度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定基于最小矩形的水平倾斜边相邻的顶点坐标;根据相邻的顶点坐标的坐标值计算水平面与水平倾斜边的夹角,得到最小矩形的倾斜角度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据倾斜角度计算各文字的平均倾斜角度;基于平均倾斜角度,剔除倾斜角度不满足角度要求的文字;根据各文字最小矩形的矩形面积,从满足角度要求的文字中选择预设数量的文字作为无异常文字。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别计算平均倾斜角度与各文字的倾斜角度的偏差值;获取并剔除偏差值大于阈值的文字。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定无异常文字的平均倾斜角度和倾斜方向;将待处理文本向倾斜方向的反方向旋转与平均倾斜角度相同角度,得到文本图像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取待处理文本图像中各像素点的坐标;基于倾斜方向和所述平均倾斜角度将各像素点的坐标进行映射转换,获取坐标映射转换后的像素点组成的图像,得到文本图像。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本图像处理方法,所述方法包括:
将待处理文本图像输入至预设文本检测模型中,利用所述预设文本模型对所述待处理文本图像中的文字进行检测,得到文字的边缘坐标;
根据所述待处理文本图像中各所述文字的边缘坐标获取各所述文字对应最小矩形的矩形面积和倾斜角度;
基于各所述文字最小矩形的矩形面积和倾斜角度对各所述文字进行异常筛选,得到无异常文字;
根据所述无异常文字的平均倾斜角度将所述待处理文本图像进行反向旋转,得到文本图像。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理文本图像中各所述文字的边缘坐标获取各所述文字对应最小矩形的矩形面积和倾斜角度,包括:
对所述待处理文本图像中各所述文字的边缘坐标进行抽稀,得到抽稀边缘坐标;
连接各所述抽稀边缘坐标,得到坐标多边形;
遍历得到与所述坐标多边形共边的共边外接矩形;
从所述共边外接矩形中确定最小矩形,并获取所述最小矩形的矩形面积和倾斜角度。
3.根据权利要求1或2所述的方法,其特征在于,所述获取所述最小矩形的倾斜角度,包括:
确定基于所述最小矩形的水平倾斜边相邻的顶点坐标;
根据相邻的所述顶点坐标的坐标值计算水平面与所述水平倾斜边的夹角,得到最小矩形的倾斜角度。
4.根据权利要求1所述的方法,其特征在于,所述基于各所述文字最小矩形的矩形面积和倾斜角度对各所述文字进行筛选,得到无异常文字,包括:
根据所述倾斜角度计算各所述文字的平均倾斜角度;
基于所述平均倾斜角度,剔除所述倾斜角度不满足角度要求的文字;
根据各所述文字最小矩形的矩形面积,从满足角度要求的文字中选择预设数量的文字作为无异常文字。
5.根据权利要求4所述的方法,其特征在于,所述基于所述平均倾斜角度,剔除所述倾斜角度不满足角度要求的文字,包括:
分别计算所述平均倾斜角度与各所述文字的倾斜角度的偏差值;
获取并剔除所述偏差值大于阈值的文字。
6.根据权利要求1所述的方法,其特征在于,所述根据所述无异常文字的平均倾斜角度将所述待处理文本图像进行反向旋转,得到文本图像,包括:
确定所述无异常文字的平均倾斜角度和倾斜方向;
将所述待处理文本向所述倾斜方向的反方向旋转与所述平均倾斜角度相同角度,得到文本图像。
7.根据权利要求6所述的方法,其特征在于,所述将所述待处理文本向所述倾斜方向的反方向旋转与所述平均倾斜角度相同角度,得到文本图像,包括:
获取所述待处理文本图像中各像素点的坐标;
基于所述倾斜方向和所述平均倾斜角度将各所述像素点的坐标进行映射转换,获取坐标映射转换后的像素点组成的图像,得到文本图像。
8.一种文本图像处理装置,其特征在于,所述装置包括:
检测模块,用于将待处理文本图像输入至预设文本检测模型中,利用所述预设文本模型对所述待处理文本图像中的文字进行边缘检测,得到文字的边缘坐标;
获取模块,用于根据所述待处理文本图像中各所述文字的边缘坐标获取各所述文字对应最小矩形的矩形面积和倾斜角度;
筛选模块,用于基于各所述文字最小矩形的矩形面积和倾斜角度对各所述文字进行筛选,得到无异常文字;
旋转模块,用于根据所述无异常文字的平均倾斜角度将所述待处理文本图像进行反向旋转,得到文本图像。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010123338.1A CN111353489A (zh) | 2020-02-27 | 2020-02-27 | 文本图像处理方法、装置、计算机设备和存储介质 |
PCT/CN2020/098060 WO2021169102A1 (zh) | 2020-02-27 | 2020-06-24 | 文本图像处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010123338.1A CN111353489A (zh) | 2020-02-27 | 2020-02-27 | 文本图像处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111353489A true CN111353489A (zh) | 2020-06-30 |
Family
ID=71194058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010123338.1A Pending CN111353489A (zh) | 2020-02-27 | 2020-02-27 | 文本图像处理方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111353489A (zh) |
WO (1) | WO2021169102A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418238A (zh) * | 2020-12-09 | 2021-02-26 | 安徽吉秒科技有限公司 | 一种图像文字识别的方法及装置 |
CN112651399A (zh) * | 2020-12-30 | 2021-04-13 | 中国平安人寿保险股份有限公司 | 检测倾斜图像中同行文字的方法及其相关设备 |
CN112686162A (zh) * | 2020-12-31 | 2021-04-20 | 北京每日优鲜电子商务有限公司 | 仓库环境整洁状态的检测方法、装置、设备和存储介质 |
CN113420762A (zh) * | 2021-07-01 | 2021-09-21 | 京东科技控股股份有限公司 | 一种图像处理方法、系统、电子设备及存储介质 |
CN113505741A (zh) * | 2021-07-27 | 2021-10-15 | 京东科技控股股份有限公司 | 一种文本图像处理方法、装置、电子设备及存储介质 |
CN114782587A (zh) * | 2022-06-16 | 2022-07-22 | 深圳市国人光速科技有限公司 | 解决喷印直线台阶像素的喷印图像处理方法以及喷印系统 |
CN115331231A (zh) * | 2022-08-17 | 2022-11-11 | 北京睿企信息科技有限公司 | 一种基于文本识别目标文本的方法、电子设备及存储介质 |
CN115359493A (zh) * | 2022-10-08 | 2022-11-18 | 深圳比特微电子科技有限公司 | 旋转文字检测方法和装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113869314B (zh) * | 2021-10-13 | 2024-07-16 | 广东金赋科技股份有限公司 | 一种文本方向聚类矫正的图像信息提取方法及系统 |
CN117972357B (zh) * | 2024-03-26 | 2024-06-07 | 山东科瑞特自动化装备有限责任公司 | 一种水位测量装置的水位监测数据智能处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08194773A (ja) * | 1995-01-13 | 1996-07-30 | Seiko Epson Corp | 画像処理方法および画像処理装置 |
CN105590112A (zh) * | 2015-09-22 | 2016-05-18 | 成都数联铭品科技有限公司 | 一种图像识别中倾斜文字判断方法 |
CN107016387A (zh) * | 2016-01-28 | 2017-08-04 | 苏宁云商集团股份有限公司 | 一种识别标签的方法及装置 |
CN110427939A (zh) * | 2019-08-02 | 2019-11-08 | 泰康保险集团股份有限公司 | 校正倾斜文本图像的方法、装置、介质及电子设备 |
CN110490198A (zh) * | 2019-08-12 | 2019-11-22 | 上海眼控科技股份有限公司 | 文本方向校正方法、装置、计算机设备和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9171204B2 (en) * | 2012-12-12 | 2015-10-27 | Qualcomm Incorporated | Method of perspective correction for devanagari text |
US9659230B2 (en) * | 2015-08-20 | 2017-05-23 | Xerox Corporation | Methods and systems for estimating skew angle of an image |
CN107169489B (zh) * | 2017-05-08 | 2020-03-31 | 北京京东金融科技控股有限公司 | 倾斜图像校正的方法和装置 |
CN110020676A (zh) * | 2019-03-18 | 2019-07-16 | 华南理工大学 | 基于多感受野深度特征的文本检测方法、系统、设备及介质 |
CN109948521B (zh) * | 2019-03-18 | 2021-05-11 | 北京华宇信息技术有限公司 | 图像纠偏方法和装置、设备及存储介质 |
-
2020
- 2020-02-27 CN CN202010123338.1A patent/CN111353489A/zh active Pending
- 2020-06-24 WO PCT/CN2020/098060 patent/WO2021169102A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08194773A (ja) * | 1995-01-13 | 1996-07-30 | Seiko Epson Corp | 画像処理方法および画像処理装置 |
CN105590112A (zh) * | 2015-09-22 | 2016-05-18 | 成都数联铭品科技有限公司 | 一种图像识别中倾斜文字判断方法 |
CN107016387A (zh) * | 2016-01-28 | 2017-08-04 | 苏宁云商集团股份有限公司 | 一种识别标签的方法及装置 |
CN110427939A (zh) * | 2019-08-02 | 2019-11-08 | 泰康保险集团股份有限公司 | 校正倾斜文本图像的方法、装置、介质及电子设备 |
CN110490198A (zh) * | 2019-08-12 | 2019-11-22 | 上海眼控科技股份有限公司 | 文本方向校正方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
XINYU ZHOU等: "EAST: An Efficient and Accurate Scene Text Detector", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, no. 2017, 10 July 2017 (2017-07-10), pages 5551 - 5556 * |
程燕群: "基于DSP的文字图像倾斜检测算法改进研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 January 2019 (2019-01-15), pages 3 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418238A (zh) * | 2020-12-09 | 2021-02-26 | 安徽吉秒科技有限公司 | 一种图像文字识别的方法及装置 |
CN112651399A (zh) * | 2020-12-30 | 2021-04-13 | 中国平安人寿保险股份有限公司 | 检测倾斜图像中同行文字的方法及其相关设备 |
CN112651399B (zh) * | 2020-12-30 | 2024-05-14 | 中国平安人寿保险股份有限公司 | 检测倾斜图像中同行文字的方法及其相关设备 |
CN112686162B (zh) * | 2020-12-31 | 2023-12-15 | 鄂尔多斯市空港大数据运营有限公司 | 仓库环境整洁状态的检测方法、装置、设备和存储介质 |
CN112686162A (zh) * | 2020-12-31 | 2021-04-20 | 北京每日优鲜电子商务有限公司 | 仓库环境整洁状态的检测方法、装置、设备和存储介质 |
CN113420762A (zh) * | 2021-07-01 | 2021-09-21 | 京东科技控股股份有限公司 | 一种图像处理方法、系统、电子设备及存储介质 |
CN113420762B (zh) * | 2021-07-01 | 2024-02-06 | 京东科技控股股份有限公司 | 一种图像处理方法、系统、电子设备及存储介质 |
CN113505741A (zh) * | 2021-07-27 | 2021-10-15 | 京东科技控股股份有限公司 | 一种文本图像处理方法、装置、电子设备及存储介质 |
CN113505741B (zh) * | 2021-07-27 | 2024-04-09 | 京东科技控股股份有限公司 | 一种文本图像处理方法、装置、电子设备及存储介质 |
CN114782587B (zh) * | 2022-06-16 | 2022-09-02 | 深圳市国人光速科技有限公司 | 解决喷印直线台阶像素的喷印图像处理方法以及喷印系统 |
CN114782587A (zh) * | 2022-06-16 | 2022-07-22 | 深圳市国人光速科技有限公司 | 解决喷印直线台阶像素的喷印图像处理方法以及喷印系统 |
CN115331231A (zh) * | 2022-08-17 | 2022-11-11 | 北京睿企信息科技有限公司 | 一种基于文本识别目标文本的方法、电子设备及存储介质 |
CN115359493B (zh) * | 2022-10-08 | 2023-09-08 | 深圳比特微电子科技有限公司 | 旋转文字检测方法和装置 |
CN115359493A (zh) * | 2022-10-08 | 2022-11-18 | 深圳比特微电子科技有限公司 | 旋转文字检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2021169102A1 (zh) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353489A (zh) | 文本图像处理方法、装置、计算机设备和存储介质 | |
WO2021017261A1 (zh) | 识别模型训练方法、图像识别方法、装置、设备及介质 | |
CN109543489B (zh) | 基于二维码的定位方法、装置和存储介质 | |
CN110197109B (zh) | 神经网络模型训练、人脸识别方法、装置、设备及介质 | |
CN112102340B (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
WO2021012382A1 (zh) | 配置聊天机器人的方法、装置、计算机设备和存储介质 | |
CN103413271A (zh) | 基于局部信息的文档图像校正方法 | |
CN113240716B (zh) | 一种多特征融合的孪生网络目标跟踪方法及系统 | |
CN106952223B (zh) | 图像配准方法及装置 | |
CN114742789B (zh) | 一种基于面结构光的通用零件拾取方法、系统及电子设备 | |
CN113469092B (zh) | 字符识别模型生成方法、装置、计算机设备和存储介质 | |
CN115761225A (zh) | 一种基于神经网络可解释性的图像标注方法 | |
JP7121132B2 (ja) | 画像処理方法、装置及び電子機器 | |
CN111860372B (zh) | 基于人工智能的表情包生成方法、装置、设备及存储介质 | |
CN112507938A (zh) | 一种文本图元的几何特征计算方法及识别方法、装置 | |
CN111813984B (zh) | 一种利用单应矩阵实现室内定位的方法、装置及电子设备 | |
CN114779209A (zh) | 一种激光雷达点云体素化方法及装置 | |
WO2024169397A1 (zh) | 印章识别方法、装置、电子设备及存储介质 | |
CN112651399A (zh) | 检测倾斜图像中同行文字的方法及其相关设备 | |
CN115648215A (zh) | 基于注意力机制和孪生反卷积的服务机器人抓取检测方法 | |
CN116858233A (zh) | 路径生成方法、装置、服务器及存储介质 | |
CN114863043A (zh) | 地图处理方法、装置、机器人及存储介质 | |
CN115331299B (zh) | 基于图像特征点匹配的人脸识别方法和装置 | |
CN114581310A (zh) | 染色体矫直方法、装置、计算机设备和存储介质 | |
CN118691611B (zh) | 芯片检测方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210129 Address after: 518066 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant after: Shenzhen saiante Technology Service Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |