CN110569847B - 一种文字倾斜角度确定方法、文字倾斜纠正方法和计算机 - Google Patents
一种文字倾斜角度确定方法、文字倾斜纠正方法和计算机 Download PDFInfo
- Publication number
- CN110569847B CN110569847B CN201910895052.2A CN201910895052A CN110569847B CN 110569847 B CN110569847 B CN 110569847B CN 201910895052 A CN201910895052 A CN 201910895052A CN 110569847 B CN110569847 B CN 110569847B
- Authority
- CN
- China
- Prior art keywords
- inclination angle
- preliminary
- character
- value
- angle values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种文字倾斜角度确定方法、文字倾斜纠正方法和计算机,能够显著改善文字倾斜纠正的效果。该文字倾斜角度确定方法,包括:根据文字图片的频域信息,得到多个初步倾斜角度值;计算所述多个初步倾斜角度值的离散度;当多个初步倾斜角度值的离散度小于或等于第一阈值时,从所述多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度,确定为文字倾斜角度值。
Description
技术领域
本发明涉及图片预处理领域,尤其涉及一种文字倾斜角度确定方法、文字倾斜纠正方法和计算机。
背景技术
目前,OCR(Optical Character Recognition,光学字符识别)等文字识别技术应用非常广泛。大量的图片中包含对用户非常有意义的文字信息。文字识别算法对图片中文字的方向非常敏感,大部分算法均在文字排列方向为水平方向的情况才能得出较好的识别效果。为此在图片中的文字方向存在倾斜时,需要对图片进行预处理,以对倾斜的文字进行纠正。
发明内容
本发明的目的在于提供一种文字倾斜角度确定方法、文字倾斜纠正方法和计算机,能够显著改善文字倾斜纠正的效果。
为实现上述目的,本发明一方面提供一种文字倾斜角度确定方法,包括:
根据文字图片的频域信息,得到多个初步倾斜角度值;
计算所述多个初步倾斜角度值的离散度;
当多个初步倾斜角度值的离散度小于或等于第一阈值时,从所述多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度,确定为文字倾斜角度值。
在一个优选的实施方式中,所述第一预设方向为需要将文字纠正到的目标方向。
在一个优选的实施方式中,所述多个初步倾斜角度值的离散度包括:所述多个初步倾斜角度值的均方差。
在一个优选的实施方式中,所述初步倾斜角度值的计算以所述第一预设方向为零度基准方向。
在一个优选的实施方式中,从所述多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度包括:
选择多个初步倾斜角度中绝对值最大的初步倾斜角度。
在一个优选的实施方式中,当多个初步倾斜角度值的离散度大于第一阈值时,从所述多个初步倾斜角度值中选择中位值,确定为文字倾斜角度值。
在一个优选的实施方式中,当多个初步倾斜角度值的离散度大于第一阈值时,从所述多个初步倾斜角度值中提取离群点,从剔除离群点的多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度,确定为文字倾斜角度值。
在一个优选的实施方式中,所述根据文字图片的频域信息,得到多个初步倾斜角度值包括:
对文字图片进行傅里叶变换,得到频域图;
基于霍夫变换对频域图求出多条倾斜直线,并以此计算所述多条倾斜直线的倾斜角度,作为多个初步倾斜角度值。
本发明另一方面还提供一种文字倾斜纠正方法,包括:
利用上述的文字倾斜角度确定方法,确定文字倾斜角度值;
基于文字倾斜角度值,将文字图片反向旋转,反向旋转的角度大小等于文字倾斜角度值的绝对值。
本发明再一方面还提供一种计算机,包括处理器和存储器,所述处理器用于读取存储器内存储的指令,以完成:
根据文字图片的频域信息,得到多个初步倾斜角度值;
计算所述多个初步倾斜角度值的离散度;
当多个初步倾斜角度值的离散度小于或等于第一阈值时,从所述多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度,确定为文字倾斜角度值。
通过本发明实施例的方案,对文字倾斜纠正的结果相对其他方法更接近所需要的目标方向。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一提供的一种文字倾斜角度确定方法的流程图;
图2是一副原始文字图片;
图3是频域信息图的示意图;
图4是零度基准选取的示意图;
图5是多条倾斜曲线结果的示意图;
图6和图7是利用不同方法对文字倾斜进行纠正的试验结果图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1示出了本发明提供的一种文字倾斜角度确定方法的流程图,包括如下步骤:
步骤S101:获得原始文字图片。
如图2示出一副原始文字图片。所谓文字图片是指包含文字内容的图片。该图片中除了文字内容以外还可以包含其他内容。比如图2示出的图片主要区域是一张印有文字的便签纸,边缘区域还包括本子和图画等内容。该原始文字图片的文字显然存在倾斜,且具体是向左倾斜。
步骤S102:对原始文字图片计算其频域信息。
具体可以是傅里叶变换方法对原始文字图片进行处理,得到该图片的频域信息。
在实际中进行傅里叶变换之前,有时需要对原始文字图片先转换成灰度图像,再进行二值化处理。这样处理后的图像更方便后续的傅里叶变换运算。
此外,在进行傅里叶变换之前,还可以将图像的尺寸进行优化,调整为长和宽尺寸均为预定大小,比如2、3或5的倍数,这样可以显著提高傅里叶变换的运算速度。
对图像进行傅里叶变换之后的结果有时也需要调整,比如将坐标原点从左上角移动到图片中心。
傅里叶变换后的结果包括频谱信息和相位角信息。其中频谱信息可以直观的反映图像像素分布的主要倾斜方向,而相位角信息则无助于图像的视觉分析,为此需要进行求频谱信息的运算。直接得到的频谱结果可能均超出合理范围,导致无法区分它们之间的区别,为此可以利用求对数等方法对原始频谱结果进行缩小。
图3示出了经过上述处理过程得到的频域信息图,需要说明的是,该频域信息图只是为了描述本发明方案而辅助说明,在实际中该频域信息图可不必实际生成和导出,只需要保留该频域图所包含的数据并给后续处理提供基础即可。
步骤S103:根据文字图片的频域信息,得到多个初步倾斜角度值。
基于文字图片的频域信息,确定文字倾斜方向采用了一种统计学上的方法,因此可以得到多个倾斜角度预估值,本专利文件中称其为“初步倾斜角度值”。
在实际中可以对频域信息使用霍夫变换方法求出多条倾斜直线,每个倾斜直线的存在依据是:频域图中该直线通过了预定阈值数量的点。预定阈值的设置可以根据倾斜后的文字更靠近那个方向(或称为水平和垂直方向中,与文字倾斜方向夹角更小的方向)来设定。比如通常倾斜后的文字更靠近垂直的方向(或称为图片高的方向),则预定阈值可以设置为图片的高除以一个大于1的系数,该系数优选是整数。得到的多个倾斜直线的倾斜角度可以作为步骤S103中的多个初步倾斜角度值。
倾斜角度值的绝对数值有选取的零度基准方向有关。图4示出了零度基准的选取问题。在图4中,零度基准方向选取为竖直方向,直线L1的倾斜角度值可以定义为负值,直线L2的倾斜角度值可以定义为正值。直线与垂直方向的夹角大小为倾斜角度的绝对值。
选取竖直方向作为零度基准方向将有助于后续处理算法的简化。同时竖直方向为文字纠正后的目标方向,以这个方向为零度基准,将使倾斜角度值的大小更合理。
图5示出了基于图3示出的频域信息,得到的多条倾斜曲线结果。这与图1中原始文字图片中的全部文字均向左倾斜的现实情况一致。
步骤S104:计算多个初步倾斜角度值的离散度。
离散度用于衡量基于上述计算过程得到的多个初步倾斜角度值的统计分布情况。在实际中受图片中非文字内容可能引入的噪声影响,多个初步倾斜角度值的分布可能并不集中。这种噪声的影响通常是引入了离群点。为了避免离群点的影响,本发明对步骤S103中获得的多个初步倾斜角度值计算它们的离散度。离散度可以有多种可选择的具体衡量指标,例如均方差等。
步骤S105:比较步骤S104计算得到的离散度是否小于或等于第一阈值。如果是,则执行步骤S106;如果否,则执行步骤S107。
步骤S106:当步骤S105的判断结果为是时,则从多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度,确定为文字倾斜角度值。
当步骤S105的判断结果为是时,表明多个初步倾斜角度值相对集中,几乎不存在离群点。在这种情况下,发明人通过大量的试验发现,从多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度,确定为文字倾斜角度值,后续利用该文字倾斜角度值对文字的倾斜进行纠正的效果在众多选择方案是最好的。第一预设方向可以为需要将文字纠正到的目标方向,比如通常是竖直方向作为该目标方向。发明人的大量试验结果反映了通过步骤S101至步骤S103获得的多个初步倾斜角度值中,反映文字倾斜最大程度的那个初步倾斜角度值最接近实际的文字倾斜角度。而根据本领域技术人员惯常的认识,通常会认为多个初步倾斜角度值取平均得到的平均值应该更接近实际的文字倾斜角度,但实际试验情况并非如此。
参见图6和图7示出的一个实验对比例。图6是利用选择偏离第一预设方向最大的初步倾斜角度确定为文字倾斜角度值,然后利用该角度值对图片进行反向的文字倾斜纠正的结果图。图7是利用多个初步倾斜角度的平均值确定为文字倾斜角度值,然后利用该角度值对图片进行反向的文字倾斜纠正的结果图。可以看出图6中对文字的纠偏结果更接近文字竖直的方向。
在实际实现过程中,从多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度的具体方法根据所选取的零度基准方向有所不同。一种能够降低方案实现复杂度的方式是:选择第一预设方向为文字纠正后的目标方向,比如竖直方向;并且上述初步倾斜角度值的计算以该第一预设方向为零度基准方向。此时从多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度就可以退化为:选择多个初步倾斜角度中绝对值最大的初步倾斜角度。在这种情况,绝对值最大的初步倾斜角度就是文字倾斜最大程度的那个初步倾斜角度值。不能选择数值最大的初步倾斜角度是因为初步倾斜角度有可能是负的角度。在初步倾斜角度全部是负的角度时,数值最小的那个初步倾斜角度才是文字倾斜最大程度对应的初步倾斜角度值。
步骤S107:当步骤S105的判断结果为否时,则从多个初步倾斜角度值中选择中位值,确定为文字倾斜角度值。
当步骤S105的判断结果为否时,表明多个初步倾斜角度值相对分散,很大可能性是噪声引入的离群点所致。如果采用步骤S106选择偏离第一预设方向最大的初步倾斜角度的方式,很可能会把离群点作为文字倾斜角度值,这样的结果是不合理的。为此,步骤107中对于离散度相对大的情况,从多个初步倾斜角度值中选择中位值确定为文字倾斜角度值,一定程度上可以克服离群点的影响。
步骤S107对于离群点存在时的处理逻辑最为简化,可以提高算法执行效率。另一种算法稍复杂但是计算结果更优的方式是:在当步骤S105的判断结果为否时,从多个初步倾斜角度值剔除离群点,然后从剔除离群点后的多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度,确定为文字倾斜角度值。这种方式与步骤S106中计算文字倾斜角度值的理念相同。识别并剔除离群点的方法在现有技术中有很多种实现方式,例如通过取极值的方式识别离群点,这里不再赘述。
本发明实施例还提供一种文字倾斜纠正方法,包括如下步骤:
先通过上述实施例提供的文字倾斜角度确定方法,确定文字图片中的文字倾斜角度值;
基于文字倾斜角度值,将文字图片反向旋转,反向旋转的角度大小等于文字倾斜角度值的绝对值。所谓的反向旋转是指:朝向文字倾斜角度值表示的倾斜方向所对应的相反方向,进行旋转。例如当采用图4示出的零度基准方向时,当文字倾斜角度值为负时,表明文字从竖直方向向逆时针方向倾斜,则对文字图片朝向顺时针方向旋转。当文字倾斜角度值为正时,表明文字从竖直方向向顺时针方向倾斜,则对文字图片朝向逆时针方向旋转。
通过实验发现,本实施例对文字倾斜纠正的结果相对其他方法更接近所需要的目标方向。
本发明再一方面还提供一种计算机,包括处理器和存储器,所述处理器用于读取存储器内存储的指令,以完成:
根据文字图片的频域信息,得到多个初步倾斜角度值;
计算所述多个初步倾斜角度值的离散度;
当多个初步倾斜角度值的离散度小于或等于第一阈值时,从所述多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度,确定为文字倾斜角度值。
此外,处理器还可以完成上述实施例中所描述的文字倾斜角度确定方法的步骤,此外还可以完成上述实施例中所描述的文字倾斜纠正方法的各个步骤,这里不再赘述。
请注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (8)
1.一种文字倾斜角度确定方法,其特征在于,包括:
根据文字图片的频域信息,得到多个初步倾斜角度值;
计算所述多个初步倾斜角度值的离散度;
当多个初步倾斜角度值的离散度小于或等于第一阈值时,从所述多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度,确定为文字倾斜角度值;
当多个初步倾斜角度值的离散度大于第一阈值时,从所述多个初步倾斜角度值中选择中位值,确定为文字倾斜角度值;或者
从所述多个初步倾斜角度值中提取离群点,从剔除离群点的多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度,确定为文字倾斜角度值。
2.如权利要求1所述的方法,其特征在于,所述第一预设方向为需要将文字纠正到的目标方向。
3.如权利要求1所述的方法,其特征在于,所述多个初步倾斜角度值的离散度包括:所述多个初步倾斜角度值的均方差。
4.如权利要求1所述的方法,其特征在于,所述初步倾斜角度值的计算以所述第一预设方向为零度基准方向。
5.如权利要求4所述的方法,其特征在于,从所述多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度包括:
选择多个初步倾斜角度中绝对值最大的初步倾斜角度。
6.如权利要求1所述的方法,其特征在于,所述根据文字图片的频域信息,得到多个初步倾斜角度值包括:
对文字图片进行傅里叶变换,得到频域图;
基于霍夫变换对频域图求出多条倾斜直线,并以此计算所述多条倾斜直线的倾斜角度,作为多个初步倾斜角度值。
7.一种文字倾斜纠正方法,其特征在于,包括:
利用如权利要求1至6中任意一项所述的文字倾斜角度确定方法,确定文字倾斜角度值;
基于文字倾斜角度值,将文字图片反向旋转,反向旋转的角度大小等于文字倾斜角度值的绝对值。
8.一种计算机,其特征在于,包括处理器和存储器,所述处理器用于读取存储器内存储的指令,以完成:
根据文字图片的频域信息,得到多个初步倾斜角度值;
计算所述多个初步倾斜角度值的离散度;
当多个初步倾斜角度值的离散度小于或等于第一阈值时,从所述多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度,确定为文字倾斜角度值;
当多个初步倾斜角度值的离散度大于第一阈值时,从所述多个初步倾斜角度值中选择中位值,确定为文字倾斜角度值;或者
从所述多个初步倾斜角度值中提取离群点,从剔除离群点的多个初步倾斜角度值中选择偏离第一预设方向最大的初步倾斜角度,确定为文字倾斜角度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910895052.2A CN110569847B (zh) | 2019-09-20 | 2019-09-20 | 一种文字倾斜角度确定方法、文字倾斜纠正方法和计算机 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910895052.2A CN110569847B (zh) | 2019-09-20 | 2019-09-20 | 一种文字倾斜角度确定方法、文字倾斜纠正方法和计算机 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569847A CN110569847A (zh) | 2019-12-13 |
CN110569847B true CN110569847B (zh) | 2023-08-22 |
Family
ID=68781670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910895052.2A Active CN110569847B (zh) | 2019-09-20 | 2019-09-20 | 一种文字倾斜角度确定方法、文字倾斜纠正方法和计算机 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569847B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770575A (zh) * | 2008-12-31 | 2010-07-07 | 汉王科技股份有限公司 | 名片图像倾斜角度的测量方法和装置 |
CN108121983A (zh) * | 2016-11-29 | 2018-06-05 | 蓝盾信息安全技术有限公司 | 一种基于傅里叶变换的文本图像纠偏方法 |
CN109614972A (zh) * | 2018-12-06 | 2019-04-12 | 泰康保险集团股份有限公司 | 图像处理方法、装置、电子设备及计算机可读介质 |
CN110188747A (zh) * | 2019-04-28 | 2019-08-30 | 广州华多网络科技有限公司 | 一种文本图像的倾斜校正方法、装置以及图像处理设备 |
-
2019
- 2019-09-20 CN CN201910895052.2A patent/CN110569847B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770575A (zh) * | 2008-12-31 | 2010-07-07 | 汉王科技股份有限公司 | 名片图像倾斜角度的测量方法和装置 |
CN108121983A (zh) * | 2016-11-29 | 2018-06-05 | 蓝盾信息安全技术有限公司 | 一种基于傅里叶变换的文本图像纠偏方法 |
CN109614972A (zh) * | 2018-12-06 | 2019-04-12 | 泰康保险集团股份有限公司 | 图像处理方法、装置、电子设备及计算机可读介质 |
CN110188747A (zh) * | 2019-04-28 | 2019-08-30 | 广州华多网络科技有限公司 | 一种文本图像的倾斜校正方法、装置以及图像处理设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110569847A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9773299B2 (en) | Method for correcting fragmentary or deformed quadrangular image | |
CN101534370B (zh) | 图像处理器和图像处理方法 | |
US8189961B2 (en) | Techniques in optical character recognition | |
US10176395B2 (en) | Automatic correction of skewing of digital images | |
EP2974261A2 (en) | Systems and methods for classifying objects in digital images captured using mobile devices | |
US20230267619A1 (en) | Method and system of recognizing object edges and computer-readable storage medium | |
US8682080B2 (en) | Image processing apparatus, image processing method, image processing program, and storage medium | |
EP2973226A1 (en) | Classifying objects in digital images captured using mobile devices | |
US9679354B2 (en) | Duplicate check image resolution | |
CN109948521B (zh) | 图像纠偏方法和装置、设备及存储介质 | |
US6771842B1 (en) | Document image skew detection method | |
CN112419207A (zh) | 一种图像矫正方法及装置、系统 | |
EP2536123B1 (en) | Image processing method and image processing apparatus | |
CN111062317A (zh) | 一种扫描文档的裁边方法与系统 | |
EP2618306B1 (en) | Method and apparatus for correcting corner point of image and image processing device | |
US20130050765A1 (en) | Method and apparatus for document authentication using image comparison on a block-by-block basis | |
CN112800824B (zh) | 扫描文件的处理方法、装置、设备及存储介质 | |
CN110569847B (zh) | 一种文字倾斜角度确定方法、文字倾斜纠正方法和计算机 | |
CN112102203A (zh) | 一种图像校正方法、装置及设备 | |
US11113820B2 (en) | Method of line detection | |
JPH06203202A (ja) | 画像処理装置 | |
US20140270573A1 (en) | Method for background removal in binary document image by estimating linearity of image components | |
JPH05174182A (ja) | 文書傾き角検出方法および文書傾き角検出装置 | |
CN107680046A (zh) | 影像矫正方法、装置、存储介质和计算机设备 | |
JP6438369B2 (ja) | 帳票画像判定プログラム、帳票画像判定方法および帳票画像判定システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |