CN113673368A

CN113673368A - 一种判断文档主要文字方向的方法

Info

Publication number: CN113673368A
Application number: CN202110867589.5A
Authority: CN
Inventors: 魏舒; 高翔; 纪达麒; 陈运文
Original assignee: Daguan Intelligent Shenzhen Co ltd
Current assignee: Daguan Intelligent Shenzhen Co ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-11-19
Anticipated expiration: 2041-07-28
Also published as: CN113673368B

Abstract

本发明公开了一种判断文档主要文字方向的方法，所述方法包括如下步骤：s1对文字图像按照主要文字方向进行分类；s2基于分类结果旋转文字图像；s3对旋转后的文字图像做文字位置检测；s4对检测出的文字位置的文字图像区域做文字识别；s5判断文字识别结果的语义连贯程度；s6若语义连贯程度大于等于设定阈值，将识别结果输出；s7若语义连贯程度低于设定阈值，对s3中检测出的文字位置的文字图像区域做180°翻转后，针对翻转后的文字图像区域执行s4和s5的步骤，比较两次得到的语义连贯程度，取其中较高的语义连贯程度对应的识别结果作为输出。本发明弥补各个模块的劣势，以最低时间资源消耗提高文档主要文字方向判断的准确率。

Description

一种判断文档主要文字方向的方法

技术领域

本发明属于光学字符识别图像预处理领域，具体涉及一种判断文档主要文字方向的方法。

背景技术

随着大数据技术与人工智能技术的飞速发展，光学字符识别技术也得到了长足进步。光学字符识别技术在文档信息智能提取、智能审核、比对等业务领域取得了广泛的应用。基于大数据样本与人工智能技术的基础上，光学字符识别，特别是印刷体材料的光学字符识别，识别率已经非常接近于100％。

然而，在真正的工程应用领域或一些特定的场景下，会面对各种扫描、拍照等复杂场景，输入文字图像的方向可能出现旋转90、180、270度的情况。所有的文字图像正确识别的前提是确定待识别文字图像的正方向，侧向卧倒或倒立的文字很难正确识别。如何确定识别文字图像的方向是图像识别领域的关键问题。

目前常见的方法包括：

1.使用大量数据样本训练分类模型，直接输入图像，输出4分类，判断文档方向为0度、90度、180度或270度。

2.首先使用文字检测算法，得到所有的文字框，训练针对字条的分类模型，再统计所有字条的分类结果，将最多的结果作为整个文字图像的方向。

这两个此方法都存在的问题是：1)需要大量各种场景的数据，准备数据的成本较高，并且数据场景是无法穷举的，只要出现与训练样本不同场景的图像，模型就可能无法正确分类；2)模型很难训练到100％准确率，因为0度和180度，90度和270度，对于模型来说是很难准确区分的；3)文字图像或文字字条都不一定只有一个方向的文字，更加增加了模型的训练难度。

以上两种方法在训练数据、训练模型、训练方法都挑选得当的情况下，能较容易的达到95％以上的准确率，但是距离100％准确率还是有较大难度。

发明内容

针对现有技术中存在的问题，本发明提供一种判断文档主要文字方向的方法。

为实现上述目的，本发明采用以下技术方案：

一种判断文档主要文字方向的方法，所述方法包括如下步骤：s1对文字图像按照主要文字方向进行分类；s2基于分类结果旋转文字图像；s3对旋转后的文字图像做文字位置检测；s4对检测出的文字位置的文字图像区域做文字识别；s5判断文字识别结果的语义连贯程度；s6若语义连贯程度大于等于设定阈值，将识别结果输出；s7若语义连贯程度低于设定阈值，对s3中检测出的文字位置的文字图像区域做180°翻转后，针对翻转后的文字图像区域执行s4和s5的步骤，比较两次得到的语义连贯程度，取其中较高的语义连贯程度对应的识别结果作为输出。

优选地，s1中对文字图像按照主要文字方向进行分类之前，先将文字图像做预处理。

优选地，所述预处理包括图像尺寸统一和/或灰度化。

优选地，所述s5采用的判断方法包括：常见字所占比例与统计概率的比较和/或词性标注的规律和/或某个字的前后字是否常见。

一种计算机存储介质，所述存储介质中保存有计算机程序，所述计算机程序被执行时实现任一的判断文档主要文字方向的方法。

一种判断文档主要文字方向的装置，所述装置包括：分类模块，所述分类模块用来对文字图像按照主要文字方向进行分类；旋转模块，所述旋转模块用来基于分类结果旋转文字图像；文字检测模块，所述文字检测模块用来对旋转后的文字图像做文字位置检测；文字识别模块，所述文字识别模块用来对检测出的文字位置的文字图像区域做文字识别；计算模块，所述计算模块用来计算文字识别结果的语义连贯程度；判断模块，所述判断模块用来判断：若语义连贯程度大于等于设定阈值，将识别结果输出；若语义连贯程度低于设定阈值，对检测出的文字位置的文字图像区域做180°翻转后，针对翻转后的文字图像区域依次执行文字识别和语义连贯程度计算，比较两次得到的语义连贯程度，取其中较高的语义连贯程度对应的识别结果作为输出。

与现有技术相比，本发明的有益效果为：

1、根据各个模块的优势劣势，通过合理的流程设计，弥补各个模块的劣势，以最低时间资源消耗提高文档主要文字方向判断的准确率；

2、降低了文档主要文字方向分类模型的准确率要求，只要能准确分类，是0度/180度还是90度/270度即可，降低了收集各场景的全面的训练数据的时间成本；

3、对于文字图像中包含多个方向文字的情况，此流程能合理地输出主要文字的方向结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

本实施例提到的文档识别系统包括文档主要文字方向分类模块判断、文字检测模块检测、文字识别模块识别这几个步骤。本实施例提出一种判断文档主要文字方向的方法及实现，在流程中增加判断识别结果是否有语义模块，并增加合理的重试机会，提高文档主要文字方向判断的准确率，以得到正确的文字识别结果，具体方案流程如图1所示，描述如下：

1.将原始文字图像经过合适的预处理后，例如图像尺寸统一、灰度化处理后，通过文档主要文字方向分类模型，得到分类结果，记为X；

2.基于分类结果旋转模型，对原始文字图像旋转对应角度，通过文字检测模块得到文字所在位置，记为结果J1；

3.基于文字检测模块结果，通过文字识别模块得到文字识别结果，记为结果S1；

4.判断文字识别结果是否是正常文档识别结果，即是否有连贯语义，例如90度文档识别结果大概率就是一堆无连贯语义的乱码，此步骤有多种方法可选，例如常见字所占比例与统计概率的比较、词性标注的规律、某个字前后字是否常见等。此步骤得到结果是一个[-1，1]的值，记为Y1，表示文字识别结果是有连贯语义的概率，大于0表示是0度文档，越接近1表示概率越大，相反小于0表示不是0度文档，越接近-1表示概率越大；

5.若步骤4的结果Y1是0度文档识别结果，整个流程结束，得到检测结果和识别结果；

6.否则将原始图像翻转180度，检测结果J1也翻转180度得到J2，继续步骤3、4，得到新的结果S2、Y2，判断Y1和Y2谁更接近1，取其检测和识别结果作为最终输出。

步骤6的设计考量：1)文档主要文字方向分类模块四分类整体准确率只能达到95％，经过观察和统计发现对于区分是0度/180度还是90度/270度，二分类能达到99％以上的准确率，而在区分0度还是180度，区分90度还是270度的错误占绝大部分。所以为了节约时间和资源消耗，如果步骤4的结果Y1表示识别结果不具有语义，则只需要尝试翻转180度的图像即可，无需四个角度都尝试，过多次数会导致时间和资源大幅浪费；2)经过观察统计发现文字检测结果是具有文档对称的，比如0度和180度的图像检测结果只需要旋转180度就是一致的，90度和270度的同理，所以无需把图像旋转180度后再做一遍文字检测，而是直接将步骤2的检测结果J1翻转180度即可得到J2，这能有效降低时间消耗和资源占用。

尽管上述实施例已对本发明作出具体描述，但是对于本领域的普通技术人员来说，应该理解为可以在不脱离本发明的精神以及范围之内基于本发明公开的内容进行修改或改进，这些修改和改进都在本发明的精神以及范围之内。

Claims

1.一种判断文档主要文字方向的方法，其特征在于，所述方法包括如下步骤：

s1对文字图像按照主要文字方向进行分类；

s2基于分类结果旋转文字图像；

s3对旋转后的文字图像做文字位置检测；

s4对检测出的文字位置的文字图像区域做文字识别；

s5判断文字识别结果的语义连贯程度；

s6若语义连贯程度大于等于设定阈值，将识别结果输出；

s7若语义连贯程度低于设定阈值，对s3中检测出的文字位置的文字图像区域做180°翻转后，针对翻转后的文字图像区域执行s4和s5的步骤，比较两次得到的语义连贯程度，取其中较高的语义连贯程度对应的识别结果作为输出。

2.根据权利要求1所述的判断文档主要文字方向的方法，其特征在于，s1中对文字图像按照主要文字方向进行分类之前，先将文字图像做预处理。

3.根据权利要求2所述的判断文档主要文字方向的方法，其特征在于，所述预处理包括图像尺寸统一和/或灰度化。

4.根据权利要求1所述的判断文档主要文字方向的方法，其特征在于，所述s5采用的判断方法包括：常见字所占比例与统计概率的比较和/或词性标注的规律和/或某个字的前后字是否常见。

5.一种计算机存储介质，其特征在于，所述存储介质中保存有计算机程序，所述计算机程序被执行时实现权利要求1-4中任一的判断文档主要文字方向的方法。

6.一种判断文档主要文字方向的装置，其特征在于，所述装置包括：分类模块，所述分类模块用来对文字图像按照主要文字方向进行分类；旋转模块，所述旋转模块用来基于分类结果旋转文字图像；

文字检测模块，所述文字检测模块用来对旋转后的文字图像做文字位置检测；

文字识别模块，所述文字识别模块用来对检测出的文字位置的文字图像区域做文字识别；

计算模块，所述计算模块用来计算文字识别结果的语义连贯程度；

判断模块，所述判断模块用来判断：若语义连贯程度大于等于设定阈值，将识别结果输出；若语义连贯程度低于设定阈值，对检测出的文字位置的文字图像区域做180°翻转后，针对翻转后的文字图像区域依次执行文字识别和语义连贯程度计算，比较两次得到的语义连贯程度，取其中较高的语义连贯程度对应的识别结果作为输出。