CN108509960B

CN108509960B - 一种文本朝向检测方法及装置

Info

Publication number: CN108509960B
Application number: CN201810361308.7A
Authority: CN
Inventors: 吴爱红; 胡金水; 竺博
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2022-04-22
Anticipated expiration: 2038-04-20
Also published as: CN108509960A

Abstract

本发明实施例公开了一种文本朝向检测方法及装置，其中该方法包括：获取待检测的文本图像；根据预设规则提取文本图像中的目标连通体；目标连通体包括至少一个开口；根据目标连通体的开口方向，确定文本图像的朝向。本发明实施例利用文本图像中包括至少一个开口的特殊字符的开口朝向，来识别文本图像的朝向，一方面特殊字符在文本图像中均有出现，保证了朝向检测的可行性，扩宽了文本朝向检测适用范围；另一方面目标连通体的开口不易受到图像噪声的干扰，避免了噪声对朝向检测的影响，提高了文本朝向检测的准确度。

Description

一种文本朝向检测方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种文本朝向检测方法及装置。

背景技术

在对实体文本进行数字录入时，首先需要对实体文本进行图像数据的采集，然后对采集的图像进行预处理，之后，再对预处理后的文本进行检测、分类及识别等各种处理步骤。在进行检测、分类及识别等各种处理步骤时，一般默认采集的图像数据中文本为正向，一旦出现采集的图像朝向旋转时，将会导致后续的各种处理步骤无法实现或准确率低。因此，在进行后续的各种处理步骤之前，检测录入的文本朝向是不可缺少的。

发明内容

有鉴于此，本申请实施例提供了一种文本朝向检测方法和装置，以避免采集的文本图像朝向错误对后续检测、分类及识别等步骤的影响，提高文本处理的准确性。

本申请实施例提供的文本朝向检测方法，包括：

获取待检测的文本图像；

根据预设规则提取所述文本图像中的目标连通体；所述目标连通体包括至少一个开口；

根据所述目标连通体的开口方向，确定所述文本图像的朝向。

可选的，所述预设规则，包括：目标连通体的形状特征；所述根据预设规则提取所述文本图像中的目标连通体，具体包括：

提取所述文本图像中的连通体，得到第一集合；或者，提取所述文本图像的第一预设区域中的连通体，得到第一集合；

根据所述形状特征对所述第一集合中的连通体进行筛选，得到包括至少一个所述目标连通体的第二集合。

可选的，所述形状特征，具体为：

连通体包括至少四个分别朝向上、下、左和右四个方向的开口，且朝向其中一个方向的开口数量不等于朝向其他三个方向中任意一个的开口数量；

或者，连通体包括至少三个分别朝向上、下、左和右中的任意三个方向的开口；

或者，连通体包括至少两个分别朝向两个方向的开口；所述两个方向中一个为上和下中的任意一个，另一个为左和右中的任意一个；

或者，连通体包括至少一个均朝向上、下、左和右中的任意一个方向的开口。

可选的，所述预设规则，还包括：目标连通体的笔画特征；所述根据所述形状特征对所述第一集合中的连通体进行筛选，得到包括至少一个所述目标连通体的第二集合，之后还包括：

将所述第二集合中的连通体输入预先得到的识别模型，获得至少一个符合所述笔画特征的连通体；

根据所述符合所述笔画特征的连通体，更新所述第二集合。

可选的，所述根据所述目标连通体的开口方向，确定所述文本图像的朝向，具体包括：

统计所述第二集合中每个连通体的开口方向，将开口方向相同的连通体划分为一组；

比较每一组中连通体的数量；

将连通体数量最多的一组所对应的朝向，确定为所述文本图像的朝向。

可选的，所述预设规则，包括：目标连通体的形状特征和笔画特征；当存在至少两个连通体数量最多的组时，所述方法还包括：

修改所述形状特征和/或所述笔画特征更换提取的目标连通体后，返回执行所述提取所述文本图像中的目标连通体。

本申请实施例提供的文本朝向检测装置，包括：图像获取模块、连通体提取模块和朝向确定模块；

所述图像获取模块，用于获取待检测的文本图像；

所述连通体提取模块，用于根据预设规则提取所述文本图像中的目标连通体；所述目标连通体包括至少一个开口；

所述朝向确定模块，用于根据所述目标连通体的开口方向，确定所述文本图像的朝向。

可选的，所述预设规则，包括：目标连通体的形状特征；所述连通体提取模块，具体包括：第一提取子模块或第二提取子模块；所述连通体提取模块，还包括：筛选子模块；

所述第一提取子模块，用于提取所述文本图像中的连通体，得到第一集合；

所述第二提取子模块，用于提取所述文本图像的第一预设区域中的连通体，得到第一集合；

所述筛选子模块，用于根据所述形状特征对所述第一集合中的连通体进行筛选，得到包括至少一个所述目标连通体的第二集合。

可选的，所述预设规则，还包括：目标连通体的笔画特征；所述连通体提取模块，还包括：识别子模块和更新子模块；

所述识别子模块，用于将所述第二集合中的连通体输入预先得到的识别模型，获得至少一个符合所述笔画特征的连通体；

所述更新子模块，用于根据所述识别子模块获得的符合所述笔画特征的连通体，更新所述第二集合。

可选的，所述朝向确定模块，具体包括：统计子模块、比较子模块和确定子模块；

所述统计子模块，用于统计所述第二集合中每个连通体的开口方向，将开口方向相同的连通体划分为一组；

所述比较子模块，用于比较每一组中连通体的数量；

所述确定子模块，用于将所述比较子模块比较得到的连通体数量最多的一组所对应的朝向，确定为所述文本图像的朝向。

可选的，所述预设规则，包括：目标连通体的形状特征和笔画特征；所述装置，还包括：规则修改模块；

所述规则修改模块，用于当所述比较子模块比较得到至少两个连通体数量最多的组时，修改所述形状特征和/或笔画特征更换提取的目标连通体后，触发所述连通体提取模块。

与现有技术相比，本申请至少具有以下优点：

在本申请实施例中，首先获取待检测的文本图像，然后提取文本图像中的包括至少一个开口的目标连通体，当文本图像的朝向不同时，图像中目标连通体的方向也必然随之变化。因此，在提取出文本图像中的目标连通体后，即可根据目标连通体的开口方向确定文本图像的朝向，提高了后续处理的准确性。本申请实施例利用文本图像中包括至少一个开口的特殊字符的开口朝向，来识别文本图像的朝向，一方面特殊字符在文本图像中均有出现，保证了朝向检测的可行性，扩宽了文本朝向检测适用范围；另一方面目标连通体的开口不易受到图像噪声的干扰，避免了噪声对朝向检测的影响，提高了文本朝向检测的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1a-图1d为本申请实施例涉及的文本朝向的示意图；

图2a和图2b为本申请实施例涉及的连通体及连通体外接矩形框的示意图；

图3a和图3b为本申请实施例涉及的连通体开口的示意图；

图4为本申请实施例提供的一种文本朝向检测方法的流程示意图；

图5为一种答题卡的示意图；

图6为本申请具体实施例提供的一种文本朝向检测方法的流程示意图；

图7为本申请实施例提供的另一种文本朝向检测方法的流程示意图；

图8为本申请实施例提供的又一种文本朝向检测方法的流程示意图；

图9为本申请实施例提供的一种文本朝向检测装置的结构示意图；

图10为本申请具体实施例提供的一种文本朝向检测装置的结构示意图；

图11为本申请具体实施例提供的另一种文本朝向检测装置的结构示意图；

图12为本申请实施例提供的另一种文本朝向检测装置的结构示意图；

图13为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于后续理解，首先介绍本申请实施例所涉及的多个技术术语。

文本朝向，或文本图像的朝向，指的是将实体文本录入为图像数据后，文本在图像中的显示方向。当文字正向显示时，文本朝向为向上，如图1a所示；当文字反向显示时，文本朝向为向下，如图1b；当文字由正向向左旋转90度显示时，文本朝向为向左，如图1c所示；当文字由正向向右旋转90度显示时，文本朝向为向右，如图1d所示。当文本朝向非向上时，需将图像旋转后再进行后续的处理步骤以保证处理的准确性。

连通体，包括单独的连通体和合并后的连通体，指的是图像中一组或多组连续点的集合。例如“页”字，其除撇点之外的上部连接笔画

为一个单独的连接体，剩余的“丿”和“丶”为另两个单独的连通体；“页”为一个合并后的连通体。

连通体外接矩形框(或简称为外接矩形框)，指的是包括一个连通体或一个合并后的连通体的矩形框，例如图2a中包括“页”字上部分连通体

的矩形框以及包括“丿”的矩形框，或者图2b中包括合并后的连通体“页”的矩形框。

连通体的形状特征，指的是连通体中开口的方向和数量，和/或孔洞的数量。连通体的笔画特征，代表了连通体的样子包括其笔画的长短、形状、方向及连接关系等，不同字的笔画特征不同。

连通体的开口，指的是外接矩形框中开口方向属性点所处于的区域，以该开口方向属性点为起点向外接矩形框的四条边做垂线，得到的四条垂线中的三条会与该外接矩形框内所对应的连通体相交，另一条不与该外接矩形框内所对应的连通体相交。例如图3a所示，连通体

的下半部框形即为该连通体的一个开口。连通体的开口方向则指的是上述一条不与该外接矩形框内所对应的连通体相交的垂线所指的方向，例如图3b中的三个灰色区域所示，连通体

包括三个方向为左、下和右的开口。

连通体的孔洞，指的是外接矩形框中孔洞属性点所处于的区域，从该孔洞属性点向任意方向延伸出的直线均会与该外接矩形框内所对应的连通体相交，例如大写字母“A”的上部三角区域则为该连通体的孔洞。

下面结合附图对本申请实施例提供的文本朝向检测方法及装置进行详细说明。

随着近年来信息技术的不断升级发展，教育模式也由传统模式一步一步向信息化自动化模式转变，特别是教育考察方式，各种类型的考试仍是教育考察的主要方式之一。然而，各种类型的测试，大至高考、中考各类会考、联考、模考，小至期中期末考试、单元考试等，以及日常的家庭作业，使教师背负着很大的阅卷及批改的压力。自动阅卷便成为一种势不可挡的发展方向和需求。

自动阅卷首先需要对试卷或作业等文本进行图像数据的采集，然后将采集的图像进行预处理，再将预处理后的图像进行检测、分类及识别。在对预处理后的图像进行检测、分类和识别时，一般默认预处理后的图像是正向。一旦出现采集的文本图像朝向错误的情况，将会导致后面的检测、分类及识别等步骤无法实现或识别的准确率低。

目前，一般是通过文档中的有效符号(如逗号或句号等)对录入的文本朝向进行检测，利用有效符号的位置来判断文本朝向。如果有效符号在文本行的下半部分，则认为文本朝向为正向(即向上)；如果有效符号在文本行的上半部分，则认为文本朝向为反向(即向下)。然而该方法的适用范围较为局限，仅适用于印刷或字体较为标准的文字文本。并且，有效符号的检出容易受到图像噪声的干扰，影响对有效符号位置的判断结果，导致文本朝向检测的准确率低下。

为此，本申请实施例提供了一种文本朝向检测方法及装置，利用文本中特殊字符的开口方向对文本朝向进行判断，一方面可以保证识别用的特殊字符在文本中出现，保证了检测的可行性，扩宽了文本朝向检测的适用场景；另一方面，特殊字符的开口不易受到图像噪声的干扰，仅考虑特殊字符的开口方向避免了图像噪声的影响，提高了文本朝向检测的准确度。

基于上述思想，为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请的具体实施方式做详细的说明。

需要说明的是，本申请实施例提供的文本朝向检测方法及装置，不仅可以应用于上述对试卷、答题卡或作业等教育相关文本的录入，还可以应用于其他领域的文本录入，例如书籍杂志、个人或会议笔记、档案等文本。文本中的文字不仅仅可以是中文，还可以是英文、法文、日文、韩文等其他国家或地区的文字。在一些可能的设计中，本申请实施例提供的文本朝向检测方法及装置还可以应用于其他非文本文件、但携带有包括开口的特殊字符的文件录入等等，本申请对此不做具体限定。下面将具体以答题卡或试卷的录入，且文本为中文为例进行详细说明，其他应用场景与此类似，具体参见相关说明即可，这里不再一一赘述。

参见图4，该图为本申请实施例提供的一种文本朝向检测方法的流程示意图。

本申请实施例提供的一种文本朝向检测方法，包括以下步骤S401-S403。

S401：获取待检测的文本图像。

在本申请实施例中，文本图像可以是对目标文本进行图像采集(如采用扫描仪、高拍仪、数码相机等设备扫描或拍摄)得到的图像，目标文本具体可以是上述内容所述的任意一种包括特殊字符(如特定文字或特定形状等)的文本或非文本。

在一些可能的实现方式中，为了减少噪声的干扰，可以先对采集得到的文本图像进行二值化处理，将处理后的图像作为待检测的文本图像。在实际应用中，可以采用全局阈值二值化或局部阈值二值化对文本图像进行二值化处理，本申请对二值化处理的具体方法不做限定，可以根据实际需要具体选取。以局部阈值二值化为例，先根据文本图像局部区域中像素点的灰度分布计算该区域中某几个像素点所对应的阈值，然后利用插值的方法得到该局部区域中每个像素点的阈值，得到目标图像中每个像素点的阈值后进行二值分类，得到二值化处理后的文本图像。

S402：根据预设规则提取文本图像中的目标连通体。

在本申请实施例中，目标连通体包括至少一个开口。需要说明的是，目标连通体可以是上述内容所述的特殊字符，也可以是该特殊字符的一部分。例如，当特殊字符为“页”时，目标连通体可以是“页”字上半部分的连通体

可以是组合后的连通体“页”。

作为一个示例，当目标文本为试卷或答题卡时，目标文本中一般均有选项序号为大写英文字母的客观选择题，如图5中的第一部分选择题。而在26个英文字母中，文本朝向不同时字的样子不同、且笔画具有一定的复杂度不易受到噪声干扰的字母，可以作为特殊字符进行文本朝向的检测，例如大写字母“A”和“R”。目标连通体可以是大写字母“A”和“R”中的任意一个或多个。还需要说明的是，在一些情况下，客观选择题的选项序号基本不会超过大写字母G(即选项的排序不会超出A-G)，因此，考虑到选项数量的限制，也可以仅将大写字母A作为朝向识别用的特殊字符，将“A”设定为目标连通体。在实际应用中，可以根据目标文本的具体内容及形式设定需要提取的目标连通体，这里也不再一一列举。

在具体实施时，可以采用任意一种提取方法提取目标文本中的目标连通体，并且提取出的目标连通体的数量可以是一个或多个，本申请实施例对此不做具体限定。

S403：根据目标连通体的开口方向，确定文本图像的朝向。

由于目标连通体包括至少一个开口，且随着文本朝向的不同，目标连通体的开口朝向也必然随之变化。因此，在本申请实施例中可以利用包括至少一个开口的目标连通体对其所在的目标文本朝向进行检测，以提高后续处理的准确性。

以目标连通体为“A”为例，当提取出的“A”的开口方向向上时，确定文本图像的朝向为向下；当提取出的“A”的开口方向向下时，确定文本图像的朝向为向上；当提取出的“A”的开口方向向左时，确定文本图像的朝向为向右；当提取出的“A”的开口方向向右时，确定文本图像的朝向为向左。下面将举例对具体如何根据目标连通体的开口方向确定文本图像的朝向，这里先不赘述。

在本申请实施例一些可能的实现方式中，为了保证后续处理的有效性和准确性，提高用户的阅读体验，在步骤S403之后，还可以包括如下步骤：

S404：根据确定出的朝向，旋转文本图像。

具体的，当文本图像的朝向为向下时，旋转文本图像180度使之向上；当文本图像的朝向为向左时，向右旋转文本图像使之正向；当文本图像的朝向为向右时，向左旋转文本图像使之正向；依此类推。

在本申请实施例中，首先获取待检测的文本图像，然后提取文本图像中的包括至少一个开口的目标连通体，当文本图像的朝向不同时，图像中目标连通体的方向及其开口方向也必然随之变化。因此，在提取出文本图像中的目标连通体后，即可根据目标连通体的开口方向确定文本图像的朝向，提高了后续处理的准确性。本申请实施例利用文本图像中包括至少一个开口的特殊字符的开口朝向，来识别文本图像的朝向，一方面特殊字符在文本图像中均有出现，保证了朝向检测的可行性，扩宽了文本朝向检测适用范围；另一方面目标连通体的开口不易受到图像噪声的干扰，避免了噪声对朝向检测的影响，提高了文本朝向检测的准确度。

下面先举例说明具体如何提取文本图像中的目标连通体，而后再结合不同的目标连通体详细说明具体如何根据目标连通体的开口朝向确定文本图像的朝向。

参见图6，该图为本申请具体实施例提供的一种文本朝向检测方法的流程示意图。

在本申请实施例一些可能的实现方式中，上述步骤S402具体可以包括如下步骤S4021-S4022。

S4021：提取文本图像中的连通体，得到第一集合。

在本申请实施例中，提取出的第一集合中可以是包括文本图像中单独的连通体的外接矩形框，如“页”字的连通体

的外接矩形框和“丿”的外接矩形框；还可以是包括文本图像中根据一定规则合并后的连通体的外接矩形框，例如合并后的连通体“页”的外接矩形框。具体实施时，可以利用任意一种连通体提取方法本申请实施例对此不做具体限定。

在本申请实施例一些可能的实现方式中，在合并连通体时，可以先确定每个单独的连通体的外接矩形框，如

的外接矩形框和“丿”的外接矩形框，再根据两个外接矩形框的重合面积，确定是否将这两个外接矩形框合并，将合并后的外接矩形框中包括的连通体作为一个合并后的连通体。例如在图2a中，连通体

的外接矩形框和“丿”的外接矩形框的重合面积超过较小的外接矩形框(即“丿”的外接矩形框)面积的一半，则将连通体

的外接矩形框和“丿”的外接矩形框合并，将外接矩形框扩展至包括连通体

和“丿”，如图2b所示，将扩展后的外接矩形框内包括的连通体作为一个合并后的连通体“页”。

在一些可能的设计中，为了提高朝向检测的速度和准确度，还可以根据预先设定或确定的特殊字符的位置，提取文本图像的特定区域(即第一预设区域)中的连通体，得到第一集合。第一预设区域可以为一个整体区域，还可以包括文本图像中多个分散的区域，本申请实施例对此不做限定。

举例而言，当文本图像中包括页码标识时，如图5下部所示的“第1页(共2页)”，目标连通体为“页”或

已知页码标识一般在目标文本的页眉或页脚部位，则可以页码标识的位置为依据，将文本图像的页眉和页脚位置作为提取目标连通体的区域(即第一预设区域)，例如将文本图像中高度小于H/8或大于7H/8的区域作为第一预设区域，H为文本图像的高度。

S4022：根据目标连通体的形状特征对第一集合中的连通体进行筛选，得到包括至少一个目标连通体的第二集合。

在本申请实施例中，上述预设规则包括目标连通体的形状特征，例如连通体中开口和孔洞的数量等，根据该形状特征，则可以筛选出第一集合中包括目标连通体的、符合其形状特征的连通体，得到包括至少一个目标连通体的第二集合。

在本申请实施例一些可能的实现方式中，目标连通体的形状特征至少存在以下四种可能的实现方式：

第一种可能的实现方式，连通体包括至少四个分别朝向上、下、左和右的开口，且朝向其中一个方向的开口数量不等于朝向其他三个方向中任意一个的开口数量。例如，汉字“岩”所对应的连通体在上、下、左、右四个方向均有开口，但向上的开口数量与向下、向左和向右的开口数量均不相同。

第二种可能的实现方式，连通体包括至少三个分别朝向上、下、左和右中的任意三个方向的开口。例如，汉字“页”所对应的连通体仅包括向左、向右和向下的开口。

第三种可能的实现方式，连通体包括至少两个分别朝向两个方向的开口；该两个方向中一个为上和下中的任意一个，另一个为左和右中的任意一个。即，连通体包括的两个开口方向之间的夹角不等于180度。例如，汉字“止”所对应的连通体仅包括向右和向上的开口，又例如汉字“斤”所对应的连通体仅包括向右和向下的开口。

第四种可能的实现方式，连通体包括至少一个均朝向上、下、左和右中的任意一个方向的开口。例如，大写字母“A”和“R”所对应的连通体仅包括向下的开口。

可以理解的是，目标连通体可以仅包括符合上述规则的开口，在一些例子中，目标连通体还可以包括符合上述规则的开口以及一个或多个孔洞，则预设规则中目标连通体的形状特征还可以包括连通体孔洞的数量。例如，当期望的目标连通体为“A”时，目标连通体的形状特征为连通体仅包括一个开口和一个孔洞。目标连通体的形状特征中孔洞的数量具体可以根据实际需要进行设定，本申请实施例对此不做限定。

这里需要说明的是，由于一般情况下录入的目标文本的长和宽不同，可以根据文本图像的高度和宽度，预先区分出文本图像的上下朝向和左右朝向，因此在实际应用中一般仅需要检测目标文本的上下朝向或左右朝向。相应的，在本申请实施例一些可能的实现方式中，则可以预先对目标连通体的开口进行筛选，例如仅考虑左右或上下方向上的开口，减小了对文本朝向检测的干扰。

作为一个示例，当仅需检测文本图像的上下朝向时，以目标连通体为“页”为例，可以忽略连通体“页”或

的左右两个方向上的开口，连通体“页”或

向下的开口在文本图像中随着朝向的不同向上或向下，仅筛选出第一集合中具有向上或向下开口的连通体得到第二集合，即可根据第二集合中目标连通体的开口方向确定出文本图像的朝向。相应的，预设规则中目标连通体的形状特征可简化为连通体具有一个或多个向上或向下的开口。同理，当仅需检测文本图像的左右朝向时，以目标连通体为“页”为例，也可以忽略连通体“页”或

的左右两个方向上的开口，连通体“页”或

向下的开口在文本图像中随着朝向的不同向左或向右，仅筛选出第一集合中具有向左或向右开口的连通体得到第二集合，即可根据第二集合中目标连通体的开口方向确定出文本图像的朝向。相应的，预设规则中目标连通体的形状特征可简化为连通体具有一个或多个向左或向右的开口。

在本申请实施例一些可能的实现方式中，利用包括目标连通体形状特征的预设规则，对从文本图像中提取出的连通体进行筛选，就可以得到包括至少一个目标连通体的第二集合，提取出文本图像中的目标连通体。然后，根据第二集合中连通体的开口方向，即可确定出文本图像的朝向，提高了后续处理的准确性。

需要说明的是，虽然利用上述步骤可以从第一集合中筛选出符合目标连通体形状特征的连通体，得到第二集合。但是，受到噪声和误差等因素的干扰，第二集合中可能不仅仅包括目标连通体，还可能会包括与目标连通体类似的连通体，从而影响朝向判断的准确度。因此，继续参见图6，为了进一步提高文本朝向检测的准确度，在本申请实施例一些可能的实现方式中，预设规则还包括目标连通体的笔画特征，以确定筛选出的仅为目标连通体，则在步骤S4022之后还可以包括以下步骤S4023-S4024。

S4023：将第二集合中的连通体输入预先得到的识别模型，获得至少一个符合目标连通体笔画特征的连通体。

S4024：根据符合目标连通体笔画特征的连通体，更新第二集合。

在本申请实施例中，识别模型用于识别第二集合中的连通体是否为目标连通体，可以预先根据已知的不同字体的目标连通体训练得到，例如将不同字体(如宋体、楷体、隶书、各种手写体等)的“页”字的外接矩形框图像输入至神经网络或深度卷积神经网络训练得到该识别模型。

这里需要说明的是，在本申请实施例一些可能的实现方式中，可以只针对一个朝向的目标连通体训练识别模型，无需针对每个朝向的目标连通体均进行训练。此时，在将第二集合中的连通体输入识别模型时，可以根据该连通体的开口方向预先将其旋转后，再输入该识别模型进行识别。以目标连通体是“A”为例，当第二集合中的连通体的开口向下时可以直接输入“A”的识别模型，若第二集合中的连通体的开口向上，则将其旋转180度后输入“A”的识别模型。这样，可以使得训练得到的识别模型为2分类模型，输出仅为是(即是目标连通体)和否(即不是目标连通体)，无需为每个字符均训练对应的输出，模型的类别数减小，避免了相似字之间的干扰，提高了识别的精度和准确度，进而提高了后续利用识别出的目标连通体进行的文本朝向检测的准确性。

本申请实施例中，还可以利用目标连通体的笔画特征对根据形状特征提取出的连通体进行二次筛选，对文本朝向判断所使用的第二集合中的连通体进行更新，保证提取出的目标连通体的准确性。由于更新后的第二集合仅包括目标连通体，避免其他连通体对开口方向判断的干扰，消除了噪声和误差等因素的干扰，从而进一步提高了文本朝向检测的准确度。并且，由于识别模型仅对目标连通体进行识别为2分类模型，识别的精确度及准确度高，保证了后续文本朝向检测的准确度。

下面结合不同的目标连通体，举例说明具体如何根据目标连通体的开口方向确定文本朝向。参见图7，该图为本申请实施例提供的另一种文本朝向检测方法的流程示意图。

在本申请实施例一些可能的实现方式中，步骤S403具体可以包括如下步骤S4031-S4033。

S4031：统计第二连通体中每个连通体的开口方向，将开口方向相同的连通体划分为一组。

S4032：比较每一组中连通体的数量。

S4033：将连通体数量最多的一组所对应的朝向，确定为文本图像的朝向。

可以理解的是，假设目标连通体为仅包括一个开口(如“A”)，受到噪声或文本朝向等因素的影响，目标连通体的开口方向不一定均为下。将开口方向相同的目标连通体划分为一组不仅可以根据每组目标连通体的数量确定出目标文本的朝向，还可以尽量避免噪声的干扰。

以目标连通体为“A”为例，可以将开口向上的连通体划分为第一组，将开口向下的连通体划分为第二组，将开口向左的连通体划分为第三组，将开口向右的连通体划分为第四组。目标连通体包括多个不同方向的开口时的分组思路与此类似，这里不再一一列举。

在避免了噪声干扰的情况下，其中一组的连通体数量必然大于其他几组，即可根据连通体数量最多一组所对应的朝向确定为文本图像的朝向。继续以目标连通体为“A”为例，若第一组中连通体的数量最多，确定文本图像的朝向向下；若第二组中目标连通体的数量最多，确定文本图像的朝向向上；若第三组中目标连通体的数量最多，确定文本图像的朝向向右；若第一组中目标连通体的数量最多，确定文本图像的朝向向左。其他开口及朝向的对应与此类似，具体参见相关说明即可，这里不再一一赘述。

下面结合上述预设规则中目标连通体形状特征的不同实现方式举例说明步骤S4031：

在第一种可能的实现方式中，当预设规则中目标连通体形状特征为连通体包括至少四个分别朝向上、下、左和右的开口，且朝向其中一个方向的开口数量不等于朝向其他三个方向中任意一个的开口数量时，根据开口数量不同于其他方向的开口所对应方向，对第二集合中的连通体进行分组。如汉字“岩”，根据上部“山”的两个同方向开口所朝向的方向对第二集合中的连通体进行分组。

在第二种可能的实现方式中，当预设规则中目标连通体形状特征为连通体包括至少三个分别朝向上、下、左和右中的任意三个方向的开口时，可以参考没有开口的方向对目标连通体进行分组。例如，汉字“页”，可以根据开口方向为：上下左、下左右、上下右和上左右，对第二集合中的连通体进行分组。

在第三种可能的实现方式中，当预设规则中目标连通体形状特征为连通体包括至少两个分别朝向两个方向的开口，该两个方向中一个为上和下中的任意一个，另一个为左和右中的任意一个时，以汉字“斤”为例，可以根据开口方向为：右下、下左、左上和上右，对第二集合中的连通体进行分组。

在第四种可能的实现方式中，当预设规则中目标连通体形状特征为连通体包括至少一个均朝向上、下、左和右中的任意一个方向的开口时，即可直接根据开口的方向进行分组。例如大写字母“A”和“R”，可以根据开口方向为：左、右、上和下，对第二集合中的连通体进行分组。

在本申请实施例中，根据连通体的开口方向，将第二集合中的连通体分为多组，并分别统计每组中连通体的数量，将连通体数量最多的一组所对应的朝向确定为文本图像的朝向，可以减少噪声和误差对朝向判断的干扰，保证检测的准确性。

上述内容详细说明了如何根据一种特殊字符的开口方向确定文本的朝向。但是在实际应用中，由于受到噪声的干扰，在步骤S4032中可能存在比较得到至少两个连通体数量最多的组的情况，例如在仅考虑向上和向下的开口时，第二集合中开口向上的连通体数量和开口向上的连通体数量相同，无法利用该目标连通体检测出文本的朝向。因此，在本申请实施例一些可能的实现方式中，当统计得到至少两个连通体数量最多的组时，还可以修改预设规则更换目标连通体后，继续以更换后的目标连通体的开口方向为依据，确定文本的朝向。具体方法参见图8，该图为本申请实施例提供的又一种文本朝向检测方法的流程示意图。

在本申请实施例一些可能的实现方式中，预设规则包括目标连通体的形状特征和笔画特征，当步骤S4032比较存在至少两个连通体数量最多的组时，本申请实施例提供的文本朝向检测方法还可以包括如下步骤S405。

S405：修改预设规则中的形状特征和/或笔画特征更换提取的目标连通体后，返回执行步骤S402。

在本申请实施例中，更换后的目标连通体可以与更换前的目标连通体具有相同的形状特征。一般的，为了保证文本朝向检测的准确性，更换后的目标连通体与原先的目标连通体不是或不属于同一字或字符。

在一些可能的实现方式中，为了提高文本朝向检测的准确度，还可以对预设规则中目标连通体的形状特征进行修改。例如，更换前的目标连通体包括孔洞(如“A”)，而更换后的目标连通体不包括孔洞(如“页”)等，这里不再一一列举。更换后的目标连通体的提取方法与更换前的目标连通体的提取方法类似，区别仅在于提取所采用的预设规则不同，详细说明参见对步骤S402的说明即可，后续根据更换后的目标连通体的开口方向确定文本图像的朝向的说明与上述更换前的目标连通体类似，具体参见相关说明即可，这里不再赘述。

在一些可能的设计中，在利用目标连通体的开口方向确定出文本的朝向后，也可以更新目标连通体，利用新的特殊字符的开口朝向对检测出的文本朝向进行验证，具体实现步骤参见上述相关说明即可，这里不再赘述。

可以理解的是，在本申请实施例中，当更新后的目标连通体仍然无法确定出文本图像的朝向时，可以继续修改提取的预设规则，再次更换目标连通体进行文本朝向的检测，具体步骤与上面的类似，这里不再一一赘述。实际应用中，为了缩短流程，可以在利用两种目标连通体仍无法检测出文本朝向时，拒绝继续检测结束流程。

在本申请实施例中，当无法利用第一个目标连通体确定文本图像的朝向时，还可以更换目标连通体，继续利用包括至少一个开口的一个新的目标连通体对文本的朝向进行检测或验证，提高了文本朝向检测的准确度，进而保证了后续处理的可行性和准确性。

下面结合具体应用场景，以目标文本为图5所示的答题卡为例，假设目标连通体为大写字母“A”，更换后的目标连通体是“页”，对本申请实施例所提供的文本朝向检测方法进行详细说明。

第一步，利用图像录入设备对目标文本进行录入，再进行二值化处理，得到文本图像。

第二步，提取文本图像中所有的单独的连通体。

第三步，根据大写字母“A”的特征，从所有的单独的连通体里筛选出仅包括一个孔洞和一个开口的连通体，得到至少一个目标连通体“A”。也可以首先根据已知的选择题在目标文本的位置，利用该位置信息从所有的单独的连通体中筛选出在该位置上且仅包括一个孔洞和一个开口的连通体，得到至少一个目标连通体“A”。

第四步，根据连通体开口的方向，将筛选出的每个连通体直接或旋转后输入“A”的识别模型，以判断该连通体是否为“A”。

第五步，根据识别出的连通体“A”的开口方向，对该连通体进行分组；

第六步，统计每组连通体“A”的数量，若仅存在一个连通体数量最多的组，则将该组对应的方向确定为目标文本的朝向；若存在至少两个连通体数量最多的组，则执行第七步。

第七步，根据“页”的特征以及文本图像的页眉和/或页脚区域，忽略向左和向右的开口，从所有的单独的连通体或合并后的连通体中，筛选出仅有一个开口向下或向上开口的连通体。

第八步，根据其开口方向，将筛选出的仅有一个开口向下或向上开口的连通体直接或旋转后输入“页”的识别模型，以判断该连通体是否为“页”。

第九步，根据识别出的连通体“页”的开口方向，对该连通体进行分组；

第十步，统计每组连通体“页”的数量，若仅存在一个连通体数量最多的组，则将该组对应的方向确定为目标文本的朝向；若存在至少两个连通体数量最多的组，则拒绝朝向检测结束流程。

本申请实施例提供了一种文本朝向检测方法，利用文本中特殊字符的开口朝向对文本朝向进行判断，一方面可以保证识别用的特殊字符在文本中出现，另一方面只需识别文本中的特殊字符即可，提高了文本朝向检测的准确度的同时也能加快文本朝向检测的速度。

基于上述实施例提供的文本朝向检测方法，本申请实施例还提供了一种文本朝向检测装置。

参见图9，该图为本申请实施例提供的一种文本朝向检测装置的结构示意图。

本申请实施例提供的文本朝向检测装置，包括：图像获取模块100、连通体提取模块200和朝向确定模块300；

图像获取模块100，用于获取待检测的文本图像；

连通体提取模块200，用于根据预设规则提取文本图像中的目标连通体；目标连通体包括至少一个开口；

朝向确定模块300，用于根据目标连通体的开口方向，确定文本图像的朝向。

在本申请实施例一些可能的实现方式中，预设规则，包括：目标连通体的形状特征；则如图10所示，连通体提取模块，具体可以包括：第一提取子模块201或第二提取子模块202；连通体提取模块，还可以包括：筛选子模块203；

第一提取子模块201，用于提取文本图像中的连通体，得到第一集合；

第二提取子模块202，用于提取文本图像的第一预设区域中的连通体，得到第一集合；

筛选子模块203，用于根据目标连通体的形状特征对第一集合中的连通体进行筛选，得到包括至少一个目标连通体的第二集合。

在本申请实施例一些可能的实现方式中，预设规则，还可以包括：目标连通体的笔画特征；继续参见图10，连通体提取模块200，还可以包括：识别子模块204和更新子模块205；

识别子模块204，用于将第二集合中的连通体输入预先得到的识别模型，获得至少一个符合笔画特征的连通体；

更新子模块205，用于根据识别子模块204获得的符合笔画特征的连通体，更新第二集合。

在本申请实施例一些可能的实现方式中，如图11所示，朝向确定模块，具体可以包括：统计子模块301、比较子模块302和确定子模块303；

统计子模块301，用于统计第二集合中每个连通体的开口方向，将开口方向相同的连通体划分为一组；

比较子模块302，用于比较每一组中连通体的数量；

确定子模块303，用于将比较子模块比较得到的连通体数量最多的一组所对应的朝向，确定为文本图像的朝向。

参见图12，该图为本申请实施例提供的另一种文本朝向检测装置的结构示意图。相较于图9，该图提供了一种更加具体的文本朝向检测装置。

在本申请实施例中，预设规则，可以包括：目标连通体的形状特征和笔画特征；

该文本检测装置，还可以包括：规则修改模块400；

规则修改模块400，用于当比较子模块302比较得到至少两个连通体数量最多的组时，修改形状特征和/或笔画特征更换提取的目标连通体后，触发连通体提取模块200。

基于上述实施例提供的文本朝向检测方法和装置，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机代码，当该计算机代码被处理器执行时，可以实现如上述任意实施例所提供的文本朝向检测方法。

基于上述实施例提供的文本朝向检测方法和装置，如图13所示，本申请实施例还提供了一种终端设备。该终端设备包括：处理器10、存储器20和系统总线30；处理器10以及存储器20通过系统总线30相连；

存储器20用于存储一个或多个程序，该一个或多个程序包括指令，当该指令被处理器10执行时使处理器10执行如上述任意实施例所提供的文本朝向检测方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

Claims

1.一种文本朝向检测方法，其特征在于，所述方法包括：

获取待检测的文本图像；

根据预设规则提取所述文本图像中符合所述预设规则的目标连通体；所述目标连通体包括至少一个开口；所述预设规则包括目标连通体的形状特征和笔画特征；

根据所述目标连通体的开口方向，确定所述文本图像的朝向；

其中，若所述目标连通体无法确定所述文本图像的朝向时，则更换所述目标连通体，并继续利用新的目标连通体对所述文本图像的朝向进行检测或验证。

2.根据权利要求1所述的方法，其特征在于，所述根据预设规则提取所述文本图像中符合所述预设规则的目标连通体，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述形状特征，具体为：

4.根据权利要求2所述的方法，其特征在于，所述根据所述形状特征对所述第一集合中的连通体进行筛选，得到包括至少一个所述目标连通体的第二集合，之后还包括：

根据所述符合所述笔画特征的连通体，更新所述第二集合。

5.根据权利要求2-4任意一项所述的方法，其特征在于，所述根据所述目标连通体的开口方向，确定所述文本图像的朝向，具体包括：

比较每一组中连通体的数量；

6.根据权利要求5所述的方法，其特征在于，所述预设规则，包括：目标连通体的形状特征和笔画特征；当存在至少两个连通体数量最多的组时，所述方法还包括：

7.一种文本朝向检测装置，其特征在于，该装置包括：图像获取模块、连通体提取模块和朝向确定模块；

所述图像获取模块，用于获取待检测的文本图像；

所述连通体提取模块，用于根据预设规则提取所述文本图像中符合所述预设规则的目标连通体；所述目标连通体包括至少一个开口；所述预设规则包括目标连通体的形状特征和笔画特征；

所述朝向确定模块，用于根据所述目标连通体的开口方向，确定所述文本图像的朝向；

8.根据权利要求7所述的装置，其特征在于，所述连通体提取模块，具体包括：第一提取子模块或第二提取子模块；所述连通体提取模块，还包括：筛选子模块；

9.根据权利要求8所述的装置，其特征在于，所述连通体提取模块，还包括：识别子模块和更新子模块；

10.根据权利要求8或9所述的装置，其特征在于，所述朝向确定模块，具体包括：统计子模块、比较子模块和确定子模块；

所述比较子模块，用于比较每一组中连通体的数量；

11.根据权利要求10所述的装置，其特征在于，所述预设规则，包括：目标连通体的形状特征和笔画特征；所述装置，还包括：规则修改模块；