CN111738170B - 空白行区域检测方法及设备 - Google Patents
空白行区域检测方法及设备 Download PDFInfo
- Publication number
- CN111738170B CN111738170B CN202010591376.XA CN202010591376A CN111738170B CN 111738170 B CN111738170 B CN 111738170B CN 202010591376 A CN202010591376 A CN 202010591376A CN 111738170 B CN111738170 B CN 111738170B
- Authority
- CN
- China
- Prior art keywords
- connected domain
- text
- domain
- collision
- domains
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Geometry (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种空白行区域检测方法及设备,包括:获得文本图像中至少两个连通域;在至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域;根据至少一个目标连通域及对应的横向碰撞连通域确定至少一个文本行;确定文本行的各个连通域对应的纵向碰撞连通域;当各个连通域与对应的纵向碰撞连通域间的垂直距离值均大于或等于垂直距离阈值时,确定各个连通域对应的纵向碰撞连通域与文本行之间存在空白行区域。该空白行区域检测方法能够对包括倾斜文本的文本图像中的空白行区域进行检测,提高了对文本图像中的空白行区域进行检测的成功率。
Description
技术领域
本申请实施例涉及图像处理技术领域,尤其涉及一种空白行区域检测方法及设备。
背景技术
随着技术的进步,在批改学生的作业时,可以通过获取作业的文本图像,对作业进行自动批改,其中,较为重要的一步是对作业的文本图像进行拆分,以便于根据拆分后的图像进行题目拆分。
通常情况下,可以使用空白行区域检测方法在作业的文本图像中确定未包括任何文本的空白行区域,根据空白行区域对作业的文本图像进行拆分。在一种空白行区域检测方法中,通过投影方法得到文本图像中每个连通域在Y轴上的投影,将Y轴上未被任一投影覆盖的像素所在的像素行确定为空白像素行,将连续多个空白像素行所在的区域确定为空白行区域。
虽然上述方法可以对文本图像中的空白行区域进行检测,但实际中由于拍摄角度的问题,文本图像可能包括倾斜的文本行,在这种状况下即使文本图像中存在空白行区域,该空白行区域中的像素行在Y轴上的像素也可能被文本图像中的连通域在Y轴上的投影所覆盖,因此上述方法无法对包括倾斜文本的文本图像中空白行区域进行检测,对文本图像中的空白行区域进行检测的成功率较低。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供一种空白行区域检测方法及设备,用以克服现有技术中存在的缺陷。
第一方面,本申请实施例提供了一种空白行区域检测方法,包括:
获得文本图像中至少两个连通域;
在至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,目标连通域在纵坐标轴上的投影和目标连通域对应的横向碰撞连通域在纵坐标轴上的投影存在重叠,且目标连通域与对应的横向碰撞连通域间的水平距离值小于或等于水平距离阈值;
根据至少一个目标连通域及对应的横向碰撞连通域确定至少一个文本行;
确定文本行的各个连通域对应的纵向碰撞连通域,连通域在横坐标轴上的投影和连通域对应的纵向碰撞连通域在横坐标轴上的投影存在重叠;
当各个连通域与对应的纵向碰撞连通域间的垂直距离值均大于或等于垂直距离阈值时,确定各个连通域对应的纵向碰撞连通域与文本行之间存在空白行区域。
可选地,在本申请一个实施例中,文本行的各个连通域对应的纵向碰撞连通域位于文本行的同一侧。
可选地,在本申请一个实施例中,在至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,包括:
确定至少两个连通域中各个连通域对应的横向碰撞连通域,连通域在纵坐标轴上的投影和连通域对应的横向碰撞连通域在纵坐标轴上的投影存在重叠;
获取各个连通域与对应的横向碰撞连通域之间的距离,根据各个连通域与对应的横向碰撞连通域之间的距离在各个连通域中确定至少一个目标连通域及对应的横向碰撞连通域。
可选地,在本申请一个实施例中,确定至少两个连通域中各个连通域对应的横向碰撞连通域,包括:
根据连通域中心点的横坐标或纵坐标对至少两个连通域进行排序;
依次确定排序后的至少两个连通域中各个连通域对应的横向碰撞连通域。
可选地,在本申请一个实施例中,确定文本行的各个连通域对应的纵向碰撞连通域,包括:
根据连通域中心点的横坐标或纵坐标对文本行的连通域进行排序;
依次确定排序后的文本行的连通域中各个连通域所对应的纵向碰撞连通域。
可选地,在本申请一个实施例中,获得文本图像中至少两个连通域,包括:
对文本图像进行二值化处理,以获取文本图像的二值图;
根据二值图进行连通域分析,并根据连通域分析结果获得文本图像中至少两个连通域。
可选地,在本申请一个实施例中,获得文本图像中至少两个连通域,包括:
获得文本图像中每个连通域,并获得每个连通域的面积值;
将文本图像中面积值大于或等于第一面积阈值且小于或等于第二面积阈值的至少两个连通域确定为文本图像中至少两个连通域。
可选地,在本申请一个实施例中,方法还包括:
根据空白行区域对文本图像进行拆分,以获取至少两个子文本图像;
将子文本图像输入题目拆分网络进行题目拆分,以获取题目拆分信息;
根据题目拆分信息获取文本图像中的至少一个题目图像区域,题目图像区域仅包含一道题目。
可选地,在本申请一个实施例中,方法还包括:
将题目图像区域输入题号检测网络中进行题号检测,以获取题号拆分信息;
根据题号拆分信息获取题目图像区域中的至少一个题号图像区域,题号图像区域仅包含一道子题目。
第二方面,本申请实施例提供了一种空白行区域检测设备,包括:连通域获取模块、横向碰撞连通域确定模块、文本行确定模块、纵向碰撞连通域确定模块以及空白行区域确定模块;
其中,连通域获取模块,用于获得文本图像中至少两个连通域;
横向碰撞连通域确定模块,用于在至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,目标连通域在纵坐标轴上的投影和目标连通域对应的横向碰撞连通域在纵坐标轴上的投影存在重叠,且目标连通域与对应的横向碰撞连通域间的水平距离值小于或等于水平距离阈值;
文本行确定模块,用于根据至少一个目标连通域及对应的横向碰撞连通域确定至少一个文本行;
纵向碰撞连通域确定模块,用于确定文本行的各个连通域对应的纵向碰撞连通域,连通域在横坐标轴上的投影和连通域对应的纵向碰撞连通域在横坐标轴上的投影存在重叠;
空白行区域确定模块,用于当各个连通域与对应的纵向碰撞连通域间的垂直距离值均大于或等于垂直距离阈值时,确定各个连通域对应的纵向碰撞连通域与文本行之间存在空白行区域。
第三方面,本申请实施例提供了一种空白行区域检测芯片,其特征在于,空白行区域检测芯片调用存储的程序实现如下方法:
获得文本图像中至少两个连通域;
在至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,目标连通域在纵坐标轴上的投影和目标连通域对应的横向碰撞连通域在纵坐标轴上的投影存在重叠,且目标连通域与对应的横向碰撞连通域间的水平距离值小于或等于水平距离阈值;
根据至少一个目标连通域及对应的横向碰撞连通域确定至少一个文本行;
确定文本行的各个连通域对应的纵向碰撞连通域,连通域在横坐标轴上的投影和连通域对应的纵向碰撞连通域在横坐标轴上的投影存在重叠;
当各个连通域与对应的纵向碰撞连通域间的垂直距离值均大于或等于垂直距离阈值时,确定各个连通域对应的纵向碰撞连通域与文本行之间存在空白行区域。
本申请实施例获得文本图像中至少两个连通域,在至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,目标连通域在纵坐标轴上的投影和目标连通域对应的横向碰撞连通域在纵坐标轴上的投影存在重叠,且目标连通域与对应的横向碰撞连通域间的水平距离值小于或等于水平距离阈值。由于无论文本图像中的文本行是否倾斜,若文本图像中两个连通域在纵坐标轴上的投影存在重叠,且这两个连通域的水平距离值也较小,那么这两个连通域对应的字符属于同一文本行,因此目标连通域对应的横向碰撞连通域所对应的字符以及目标连通域所对应的字符属于同一个文本行。根据至少一个目标连通域及对应的横向碰撞连通域确定至少一个文本行,确定文本行的各个连通域对应的纵向碰撞连通域,连通域在横坐标轴上的投影和连通域对应的纵向碰撞连通域在横坐标轴上的投影存在重叠,当各个连通域与对应的纵向碰撞连通域间的垂直距离值均大于或等于垂直距离阈值时,各个连通域对应的纵向碰撞连通域与文本行之间存在的空白区域形成了整行的空白区域,因此确定各个连通域对应的纵向碰撞连通域与文本行之间存在空白行区域。本申请实施例提供的空白行区域检测方法能够对包括倾斜文本的文本图像中的空白行区域进行检测,提高了对文本图像中的空白行区域进行检测的成功率。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比值绘制的。附图中:
图1为本申请实施例提供的一种空白行区域检测方法的示意性流程图;
图2为本申请实施例提供的一种连通域的示意图;
图3为本申请实施例提供的一种连通域的示意图;
图4为本申请实施例提供的一种连通域的示意图;
图5为本申请实施例提供的一种连通域的示意图;
图6为本申请实施例提供的一种连通域的示意图;
图7为本申请实施例提供的一种连通域的示意图;
图8为本申请实施例提供的一种连通域的示意图;
图9为本申请实施例提供的一种连通域的示意图;
图10为本申请实施例提供的一种空白行区域检测方法的示意性流程图;
图11为本申请实施例提供的一种空白行区域检测方法的示意性流程图;
图12为本申请实施例提供的一种空白行区域检测方法的示意性流程图;
图13为本申请实施例提供的一种空白行区域检测设备的示意性结构图;
图14为本申请实施例提供的一种电子设备的示意性结构图。
具体实施方式
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
本申请实施例一提供一种空白行区域检测方法,如图1所示,图1为本申请实施例提供的一种空白行区域检测方法的示意性流程图。该空白行区域检测方法包括以下步骤:
101、获得文本图像中至少两个连通域。
具体地,获得文本图像中至少两个连通域,可以对文本图像进行连通域分析,并根据连通域分析结果获得文本图像中至少两个连通域。
在本申请的一个实施例中,为了消除因文本图像中拍摄时光照不均匀而导致的干扰因素,使所获得的至少两个连通域较为准确,可以通过对文本图像进行二值化处理以获取文本图像的二值图,根据二值图进行连通域分析,并根据连通域分析结果获得文本图像中至少两个连通域。
102、在至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域。
其中,目标连通域在纵坐标轴上的投影和目标连通域对应的横向碰撞连通域在纵坐标轴上的投影存在重叠,且目标连通域与对应的横向碰撞连通域间的水平距离值小于或等于水平距离阈值。
具体的,目标连通域与对应的横向碰撞连通域间的水平距离值,可以为目标连通域在横坐标轴上的投影和目标连通域对应的横向碰撞连通域在横坐标轴上的投影未存在重叠时,二者相邻的两端间的距离值。
示例性地,以文本图像的左下角为坐标轴零点为例进行说明,如图2以及图5所示,获得文本图像中的连通域21至连通域25、连通域31至连通域35,其中连通域21在纵坐标轴40上的投影211与连通域22在纵坐标轴40上的投影221存在重叠。连通域21在横坐标轴50上的投影为投影212,连通域22在横坐标轴50上的投影为投影222,投影212与投影222未存在重叠,投影212与投影222相邻两端间的第一距离201的距离值为连通域21与连通域22间的水平距离值,第一距离201小于或等于水平距离阈值,因此连通域21可以被确定为目标连通域,连通域22可以被确定为与该目标连通域对应的横向碰撞连通域。
在连通域与对应的横向碰撞连通域间的水平距离较远时,连通域所对应的字符以及该连通域对应的横向碰撞连通域所对应的字符可能并不属于同一个文本行。通过在各个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,令目标连通域与对应的横向碰撞连通域间的水平距离值小于或等于水平距离阈值,可以确保目标连通域对应的字符以及目标连通域对应的横向碰撞连通域所对应的字符属于同一个文本行,需要说明的是,本实施方式中的字符包括但不限于文字、符号、数字、字母。
可选地,在一种实现方式中,在至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,可以通过确定至少两个连通域中各个连通域对应的横向碰撞连通域,获取各个连通域与对应的横向碰撞连通域之间的距离,根据各个连通域与对应的横向碰撞连通域之间的距离在各个连通域中确定至少一个目标连通域及对应的横向碰撞连通域来实现,其中连通域在纵坐标轴上的投影和连通域对应的横向碰撞连通域在纵坐标轴上的投影存在重叠。
确定至少两个连通域中各个连通域对应的横向碰撞连通域,可以依据一定的规律对至少两个连通域进行排序,例如可以根据连通域中心点的横坐标或纵坐标对至少两个连通域进行排序,依次确定排序后的至少两个连通域中各个连通域对应的横向碰撞连通域。
确定至少两个连通域中各个连通域对应的横向碰撞连通域,也可以通过将至少两个连通域作为待确定连通域,从待确定连通域中随机选取一个连通域,并确定所选取的连通域对应的横向碰撞连通域,之后将所选取的连通域从待确定连通域中排除,返回执行从待确定连通域中随机选取一个连通域的操作,直至待确定连通域为零,以确定至少两个连通域中各个连通域对应的横向碰撞连通域。
以文本图像的左下角为坐标轴零点为例进行说明,如图2至图4所示,获得文本图像中的连通域21至连通域25、连通域31至连通域35。如图2所示,连通域21在纵坐标轴40上的投影211与连通域22在纵坐标轴40上的投影221存在重叠,因此连通域21对应的横向碰撞连通域包括连通域22。如图3所示,连通域21在纵坐标轴40上的投影211与连通域23在纵坐标轴40上的投影231存在重叠,因此连通域21对应的横向碰撞连通域还包括连通域23。如图4所示,连通域21在纵坐标轴40上的投影211与连通域35在纵坐标轴40上的投影351存在重叠,因此连通域21对应的横向碰撞连通域还包括连通域35。
在本申请的一个实施例中,连通域对应的横向碰撞连通域在横坐标轴上的投影的中点位于连通域在横坐标轴上的投影的中点的右方。
以文本图像的左下角为坐标轴零点为例进行说明,如图5所示,连通域22为与连通域21对应的横向碰撞连通域,连通域21在横坐标轴50上的投影为投影212,连通域22在横坐标轴50上的投影为投影222,投影222的中点2221位于投影212的中点2121的右方。
由于通常情况下用户对文本图像的阅读习惯为从左至右,规定连通域对应的横向碰撞连通域在横坐标轴上的投影的中点位于连通域在横坐标轴上的投影的中点的右方,可以方便用户的阅读习惯。
以文本图像的左下角为坐标轴零点为例进行说明,如图5至图7所示,连通域22、连通域23、连通域35均为与连通域21对应的横向碰撞连通域。连通域21在横坐标轴50上的投影为投影212,连通域22在横坐标轴50上的投影为投影222,投影212与投影222相邻两端间的第一距离201的距离值为连通域21与连通域22间的水平距离值。连通域23在横坐标轴50上的投影为投影232,投影212与投影232相邻两端间的第二距离202的距离值为连通域21与连通域23间的水平距离值。连通域35在横坐标轴50上的投影为投影352,投影212与投影352相邻两端间的第三距离203的距离值为连通域21与连通域35间的水平距离值。
当第一距离201的距离值小于或等于水平距离阈值时,连通域21为目标连通域时,连通域22为与该目标连通域对应的横向碰撞连通域。
当第二距离202的距离值小于或等于水平距离阈值时,连通域21为目标连通域时,连通域23为与该目标连通域对应的横向碰撞连通域。
当第三距离203的距离值大于水平距离阈值时,即连通域21所对应的字符与连通域35所对应的字符可能并不属于同一文本行,若将连通域35误确定为与该目标连通域对应的横向碰撞连通域,则可能在后续步骤中将连通域35对应的字符所属的一个文本行与连通域21对应的字符所属的另一个文本行确定为同一个文本行,导致无法识别这两个不同的文本行之间的空白行区域。当连通域21为目标连通域时,不将连通域35确定为与该目标连通域对应的横向碰撞连通域,可以避免出现这种状况。
将连通域21确定为目标连通域,将连通域22、连通域23为与该目标连通域对应的横向碰撞连通域,即确定连通域21对应的字符、连通域22对应的字符、连通域23对应的字符均属于同一个文本行,即使在文本图像中的文本行倾斜时,也能够确定对应的字符属于同一个文本行的至少两个连通域(即目标连通域及对应的横向碰撞连通域)。
103、根据至少一个目标连通域及对应的横向碰撞连通域确定至少一个文本行。
其中,所确定的文本行的连通域包括目标连通域及目标连通域对应的横向碰撞连通域,即目标连通域对应的字符以及目标连通域对应的横向碰撞连通域所对应的字符属于所确定的文本行。
具体地,根据至少一个目标连通域及对应的横向碰撞连通域确定至少一个文本行,可以为根据至少一个目标连通域及对应的横向碰撞连通域在文本行数据库中进行检索,并根据检索结果确定至少一个文本行。
示例性地,文本行数据库可以包括文本行子数据库,每个文本行子数据库对应一个文本行,文本行子数据库包括连通域标识,每个连通域标识对应一个连通域。文本行数据库用于指示连通域对应的字符所属的文本行。
根据目标连通域及对应的横向碰撞连通域在文本行数据库中进行检索,可以为根据目标连通域对应的连通域标识、目标连通域对应的横向碰撞连通域对应的连通域标识在文本行数据库中进行检索。
当根据检索结果确定目标连通域对应的连通域标识以及与目标连通域对应的横向碰撞连通域对应的连通域标识未属于任一个文本行子数据库时,可以确定第一文本行,即目标连通域对应的字符、目标连通域对应的横向碰撞连通域对应的字符均属于第一文本行。并在文本行数据库加入与第一文本行对应的文本行子数据库,与第一文本行对应的文本行子数据库包括与目标连通域对应的连通域标识、目标连通域对应的横向碰撞连通域所对应的连通域标识。
当根据检索结果确定目标连通域及对应的横向碰撞连通域中任一个连通域对应的连通域标识属于第一文本行对应的文本行子数据库时,可以确定第一文本行,即确定目标连通域对应的字符以及与目标连通域对应的横向碰撞连通域对应的字符均属于第一文本行,之后更新文本行数据库,在第一文本行对应的文本行子数据库中加入与目标连通域对应的连通域标识、目标连通域对应的横向碰撞连通域对应的连通域标识。如图5所示,连通域21为目标连通域,连通域22、连通域23为目标连通域对应的横向碰撞连通域,当根据检索结果确定连通域23对应的字符属于第一文本行对应的文本行子数据库时,确定第一文本行,即连通域21对应的字符、连通域22对应的字符、连通域23对应的字符均属于第一文本行。之后在第一文本行对应的文本行子数据库中加入与连通域21对应的连通域标识以及连通域22对应的连通域标识。
当根据检索结果确定目标连通域及对应的横向碰撞连通域中任一个连通域对应的连通域标识属于第一文本行对应的文本行子数据库、且目标连通域及对应的横向碰撞连通域中的另一个连通域对应的连通域标识属于第二文本行对应的文本行子数据库时,第一文本行与第二文本行实际上为同一个文本行,可以将与第二文本行对应的文本行子数据库中的连通域标识移入与第一文本行对应的文本行子数据库,并将与第二文本行对应的文本行子数据库从文本行数据库中删除(即将第二文本行合并入第一文本行),并确定第一文本行,即确定目标连通域对应的字符以及与目标连通域对应的横向碰撞连通域对应的字符均属于第一文本行,在第一文本行对应的文本行子数据库中加入与目标连通域对应的连通域标识、目标连通域对应的横向碰撞连通域对应的连通域标识。如图5所示,连通域23为目标连通域,连通域21、连通域22以及连通域24均为与目标连通域即连通域23对应的横向碰撞连通域,当根据检索结果确定连通域21对应的连通域标识属于第一文本行对应的文本行子数据库,且连通域24对应的连通域标识属于第二文本行对应的文本行子数据库时,可以将与第二文本行对应的文本行子数据库中的连通域标识移入与第一文本行对应的文本行子数据库,并将与第二文本行对应的文本行子数据库从文本行数据库中删除,确定第一文本行,即确定连通域23对应的字符以及连通域21对应的字符、连通域22对应的字符、连通域24对应的字符均属于第一文本行,之后在第一文本行对应的文本行子数据库中加入与连通域21-24对应的连通域标识。
104、确定文本行的各个连通域对应的纵向碰撞连通域。
其中,连通域在横坐标轴上的投影和纵向碰撞连通域在横坐标轴上的投影存在重叠。
具体的,确定文本行对应的各个连通域,可以为根据同一个文本行子数据库中的各个连通域标识确定同一个文本行的各个连通域,其中各个连通域对应的字符属于同一文本行。
确定文本行的各个连通域对应的纵向碰撞连通域,可以依据一定的规律对文本行的各个连通域进行排序,例如可以根据连通域中心点的横坐标或纵坐标对文本行的连通域进行排序,并依次确定排序后的文本行的连通域中各个连通域所对应的纵向碰撞连通域。
确定文本行的各个连通域所对应的纵向碰撞连通域,也可以从文本行的连通域中随机选取一个连通域,并确定所选取的连通域对应的纵向碰撞连通域,之后将所选取的连通域从文本行的连通域中排除,返回执行从文本行的连通域中随机选取一个连通域的操作,直至文本行对应的连通域为零,以确定文本行的各个连通域所对应的纵向碰撞连通域。
可选地,在本申请的一个实施例中,文本行的各个连通域对应的纵向碰撞连通域位于文本行同一侧。
由于文本行的连通域对应的纵向碰撞连通域可能位于文本行的上侧,也可能位于文本行的下侧,从而使后续步骤中所确定的空白行区域可能处于文本行上侧,也可能处于文本行下侧。通过限定文本行的各个连通域对应的纵向碰撞连通域位于文本行同一侧,可以使后续步骤中所确定的空白行区域与文本行间的位置关系确定(即使所确定的空白行区域位于文本行的一侧),方便用户理解。
示例性地,文本行的各个连通域对应的纵向碰撞连通域位于文本行的下侧。用户对文本图像的阅读习惯为从上至下,规定文本行的各个连通域对应的纵向碰撞连通域位于文本行的下侧,可以方便用户的阅读习惯。
如图8所示,以文本图像的左下角为坐标轴零点、文本行200的连通域对应的纵向碰撞连通域位于文本行200下侧为例进行说明,连通域21至连通域25为文本行200的连通域。连通域21在横坐标轴50上的投影为投影212,连通域21在纵坐标轴40上的投影为投影211,连通域31在横坐标轴50上的投影为投影312,连通域31在纵坐标轴40上的投影为投影311。投影212与投影312存在重叠连通域31为连通域21对应的纵向碰撞连通域。
105、当各个连通域与对应的纵向碰撞连通域间的垂直距离值均大于或等于垂直距离阈值时,确定各个连通域对应的纵向碰撞连通域与文本行之间存在空白行区域。
具体地,连通域与对应的纵向碰撞连通域间的垂直距离值,可以为连通域在横坐标轴上的投影和该连通域对应的纵向碰撞连通域在纵坐标轴上的投影未重叠时,二者相邻的两端间的距离值。
如图8所示,连通域21在纵坐标轴40上的投影为投影211,连通域31在纵坐标轴40上的投影为投影311,投影211与投影311相邻两端间的第四距离204的距离值为连通域21与连通域31间的水平距离值。
示例性地,垂直距离阈值可以设定为文本图像的至少两个连通域中连通域的平均高度的m倍,m≥2,本发明实施例对垂直距离阈值不做具体限定,垂直距离阈值可以由本领域技术人员根据实际需求设置。
如图8所示,文本行200的连通域包括连通域21至连通域25。连通域22对应的纵向碰撞连通域为连通域32,连通域23对应的纵向碰撞连通域为连通域33,连通域24对应的纵向碰撞连通域为连通域34,连通域25对应的纵向碰撞连通域为连通域35,若连通域21与连通域31间的水平距离值、连通域22与连通域32间的水平距离值、连通域23与连通域34间的水平距离值、连通域24与连通域35间的水平距离值、连通域25与连通域35间的水平距离值均大于或等于垂直距离阈值时,可以确定文本行200与连通域31间存在空白区域41、文本行200与连通域32间存在空白区域42、文本行200与连通域34间存在空白区域43、文本行200与连通域35间存在空白区域44、文本行200与连通域35间存在空白区域45。
由于目标连通域以及与目标连通域对应的横向碰撞连通域对应同一个文本行,且目标连通域与对应的横向碰撞连通域间的水平距离值小于或等于水平距离阈值,因此一个文本行对应的连通域中相邻的两个连通域的水平距离较小(例如连通域21与连通域22的水平距离较小),一个文本行对应的连通域中相邻的两个连通域各自对应的纵向碰撞连通域与文本行之间存在的空白区域不会相距较远(例如空白区域41和空白区域42不会相距较远),文本行各个连通域对应的纵向碰撞连通域与文本行之间形成一整行的空白区域即空白行区域(即空白区域41至空白区域45形成空白行区域)。
示例性的,基于图9对步骤101至步骤106进行说明,以文本图像的左下角为坐标轴零点、文本行200的连通域对应的纵向碰撞连通域位于文本行200下侧为例进行说明,如图9所示,获得文本图像中的连通域21至连通域25、连通域31至连通域35。
以确定连通域21对应的横向碰撞连通域为例进行说明,连通域21在纵坐标轴40上的投影211与连通域22在纵坐标轴40上的投影221存在重叠,投影221与连通域23在纵坐标轴40上的投影231存在重叠,投影221与连通域35在纵坐标轴40上的投影351存在重叠,连通域22、连通域23、连通域35均为与连通域21对应的横向碰撞连通域。
连通域21在横坐标轴50上的投影为投影212,连通域22在横坐标轴50上的投影为投影222,连通域23在横坐标轴50上的投影为投影232,连通域35在横坐标轴50上的投影为投影352。投影212与投影222相邻两端间的距离值小于或等于水平距离阈值,投影212与投影232相邻两端间的距离值小于或等于水平距离阈值,投影212与投影352相邻两端间的距离值大于水平距离阈值。因此可以将连通域21确定为目标连通域,并将连通域22以及连通域23均确定为与目标连通域对应的横向碰撞连通域,连通域21、连通域22以及连通域23对应同一个文本行。根据连通域21、连通域22以及连通域23确定第一文本行200。之后确定第一文本行200的连通域包括连通域21至连通域25。
以确定连通域21对应的纵向碰撞连通域为例进行说明,连通域31在横坐标轴50上的投影为投影312,连通域31在纵坐标轴40上的投影为投影311。投影212与投影312存在重叠,投影212与投影311不存在重叠,连通域31为连通域21对应的纵向碰撞连通域。当投影221与投影311相邻两端间的第四距离204的距离值大于或等于垂直距离阈值时,可以确定连通域21与连通域31间存在空白区域41。
当通过相似的步骤确定连通域22对应的纵向碰撞连通域为连通域32、连通域23对应的纵向碰撞连通域为连通域33、连通域24对应的纵向碰撞连通域为连通域34、连通域25对应的纵向碰撞连通域为连通域35,且确定连通域21与连通域31间的水平距离值、连通域22与连通域32间的水平距离值、连通域23与连通域34间的水平距离值、连通域24与连通域35间的水平距离值、连通域25与连通域35间的水平距离值均大于或等于垂直距离阈值时,可以确定文本行200与连通域31间存在空白区域41、文本行200与连通域32间存在空白区域42、文本行200与连通域34间存在空白区域43、文本行200与连通域35间存在空白区域44、文本行200与连通域35间存在空白区域45,确定连通域31至连通域35与文本行200之间存在空白行区域。
本申请实施例获得文本图像中至少两个连通域,在至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,根据至少一个目标连通域及对应的横向碰撞连通域确定至少一个文本行。无论文本图像中的文本行是否倾斜,若文本图像中两个连通域在纵坐标轴上的投影存在重叠,且这两个连通域的水平距离值也较小,那么这两个连通域各自对应的字符属于同一文本行。目标连通域在纵坐标轴上的投影和目标连通域对应的横向碰撞连通域在纵坐标轴上的投影存在重叠,且目标连通域与对应的横向碰撞连通域间的水平距离值小于或等于水平距离阈值,因此目标连通域对应的横向碰撞连通域所对应的字符以及目标连通域所对应的字符属于所确定的同一个文本行。之后确定文本行的各个连通域对应的纵向碰撞连通域,连通域在横坐标轴上的投影和连通域对应的纵向碰撞连通域在横坐标轴上的投影存在重叠,当各个连通域与对应的纵向碰撞连通域间的垂直距离值均大于或等于垂直距离阈值时,各个连通域对应的纵向碰撞连通域与文本行之间存在的空白区域形成了整行的空白区域,因此确定各个连通域对应的纵向碰撞连通域与文本行之间存在空白行区域。本申请实施例提供的空白行区域检测方法能够对包括倾斜文本的文本图像中的空白行区域进行检测,提高了对文本图像中的空白行区域进行检测的成功率。
在本申请的一个实施例中,如图10所示,图10为本申请实施例提供的一种空白行区域检测方法的示意性流程图,步骤101可以通过和步骤1011至步骤1012实现:
1011、获得文本图像中每个连通域,并获得每个连通域的面积值。
具体地,获取文本图像的每个连通域的面积值,可以为获取文本图像的每个连通域中像素点的个数,根据连通域中像素点的个数获取对应连通域的面积值,也可以为获取每个连通域的尺寸,根据每个连通域的尺寸获取每个连通域的面积值。
1012、将文本图像中面积值大于或等于第一面积阈值且小于或等于第二面积阈值的至少两个连通域确定为文本图像中至少两个连通域。
具体地,本发明实施例对第一面积阈值以及第二面积阈值不做具体限定,第一面积阈值以及第二面积阈值可以由本领域技术人员根据文本图像的连通域的面积大小以及实际需求设置。
本申请的实施例中,通过获得文本图像中每个连通域,并获得每个连通域的面积值,并将文本图像中面积值大于或等于第一面积阈值且小于或等于第二面积阈值的至少两个连通域确定为文本图像中至少两个连通域,可以避免面积值小于第一面积阈值或面积值大于第二面积阈值的噪声连通域对空白行区域检测造成干扰。
实施例二
在实施例一的基础上,本申请实施例二提供一种空白行区域检测方法,如图11所示,图11为本申请实施例提供的一种空白行区域检测方法的示意性流程图。在步骤101至步骤105的基础上,在步骤105之后,空白行区域检测方法还包括以下步骤:
106、根据空白行区域对文本图像进行拆分,以获取至少两个子文本图像。
具体地,根据空白行区域对文本图像进行拆分,可以为将空白行区域与图像边界之间的文本图像确定为子文本图像,也可以为将两个相邻的空白行区域之间的文本图像确定为子文本图像,一个文本图像可以被拆分为多个子文本图像。
107、将子文本图像输入题目拆分网络进行题目拆分,以获取题目拆分信息。
具体地,题目拆分信息包括至少一个题目图像区域的位置信息。题目拆分网络可以是通过机器学习方式训练而成的用于检测子文本图像中的题目图像区域位置的神经网络模型,示例性的,题目拆分网络可以是FasterR-CNN网络。题目拆分网络也可以是其他网络,本申请的实施例对题目拆分网络的实现方式不作具体限定。
可选地,为了便于题目拆分网络对子文本图像进行拆分,可以在将子文本图像输入题目拆分网络前对子文本图像进行缩放,使缩放后的子文本图像的分辨率为预设分辨率,示例性的,预设分辨率可以为512*512。
需要说明的是,对子文本图像进行缩放时,有可能出现缩放后的子文本图像的分辨率小于预设分辨率的状况,在这种状况下,可以在缩放后的子文本图像边界以外的区域补入预设像素值,使补入预设像素值后的图像的分辨率为预设分辨率。示例性的,当缩放后的子文本图像的分辨率为412*512时,可以在缩放后的子文本图像边界以外的分辨率为100*512的图像区域补入预设像素值,补入预设像素值的图像区域与缩放后的子文本图像形成分辨率为预设分辨率即512*512的图像。优选的,补入的预设像素值为0,使补入预设像素值的图像区域为空白,避免对题目拆分网络拆分子文本图像造成干扰。
108、根据题目拆分信息获取文本图像中的至少一个题目图像区域。
其中,题目图像区域仅包含一道题目。
本申请实施例中,通过将子文本图像输入题目拆分网络进行题目拆分,以获取题目拆分信息,并根据题目拆分信息获取文本图像中的至少一个题目图像区域,可以方便用户获取文本图像中仅包括一道题目的题目图像区域,针对该题目图像区域进行作业批改。
可选地,在本申请的一种实施例中,如图12所示,图12为本申请实施例提供的一种空白行区域检测方法的示意性流程图,在步骤108之后,空白行区域检测方法还包括:
109、将题目图像区域输入题号检测网络中进行题号检测,以获取题号拆分信息。
具体地,题号拆分信息包括题目图像区域中至少一个题号图像区域的位置信息。题目拆分网络可以是通过机器学习方式训练而成的用于检测子文本图像中的题号图像区域位置的神经网络模型。示例性的,题号拆分网络可以是SSD(Single Shot Multi BoxDetector)网络。题号拆分网络也可以是其他网络,本申请的实施例对题号拆分网络的实现方式不作具体限定。
可选地,将题目图像区域输入题号检测网络中进行题号检测,可以是对题目图像区域按照题目图像区域的长边进行缩放,使缩放得到的图像的长边缩放至指定长边长度,缩放得到的图像的短边若不足指定短边长度,则对缩放得到的图像进行补0操作,使补0得到的图像的分辨率为第二指定分辨率,将补0得到的图像输入题号检测网络进行题号检测。示例性的,第一指定分辨率可以为512*512。第二指定分辨率也可以是其他值,本申请的实施例对第二指定分辨率的值不作具体限定,本领域技术人员可以根据需要对第二指定分辨率进行设置。
110、根据题号拆分信息获取题目图像区域中的至少一个题号图像区域。
其中,题号图像区域仅包含一道子题目。
具体地,题号图像区域中从左向右第一个字符为括号时,该第一个字符为题号;或者,题号图像区域中从左向右第一个字符为括号且题号图像区域中从左向右第二个字符为数字或字母时,该第一个字符以及第二个字符组成题号。其中字符包括但不限于:文字、字母、数字、符号。
本申请实施例中,通过将题目图像区域输入题号检测网络中进行题号检测,以获取题号拆分信息,并根据题号拆分信息获取题目图像区域中的至少一个题号图像区域,可以使题号图像区域包括题目中的一道子题目,从而方便用户根据所获取的题号图像区域对题目中的子题目进行批改。
实施例三、
本申请实施例三提供了一种空白行区域检测设备,图13为本申请实施例提供的一种空白行区域检测设备的示意性结构图,如图13所示,该空白行区域检测设备60包括:连通域获取模块601、横向碰撞连通域确定模块602、文本行确定模块603、纵向碰撞连通域确定模块604以及空白行区域确定模块605。
其中,连通域获取模块601,用于获得文本图像中至少两个连通域。
横向碰撞连通域确定模块602,用于在至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,目标连通域在纵坐标轴上的投影和目标连通域对应的横向碰撞连通域在纵坐标轴上的投影存在重叠,且目标连通域与对应的横向碰撞连通域间的水平距离值小于或等于水平距离阈值。
文本行确定模块603,用于根据至少一个目标连通域及对应的横向碰撞连通域确定至少一个文本行。
纵向碰撞连通域确定模块604,用于确定文本行的各个连通域对应的纵向碰撞连通域,连通域在横坐标轴上的投影和连通域对应的纵向碰撞连通域在横坐标轴上的投影存在重叠。
可选地,在本申请一个实施例中,文本行的各个连通域对应的纵向碰撞连通域位于文本行的同一侧。
可选地,在本申请一个实施例中,横向碰撞连通域确定模块602具体用于确定至少两个连通域中各个连通域对应的横向碰撞连通域,连通域在纵坐标轴上的投影和连通域对应的横向碰撞连通域在纵坐标轴上的投影存在重叠;获取各个连通域与对应的横向碰撞连通域之间的距离,根据各个连通域与对应的横向碰撞连通域之间的距离在各个连通域中确定至少一个目标连通域及对应的横向碰撞连通域。
可选地,在本申请一个实施例中,横向碰撞连通域确定模块602具体用于根据连通域中心点的横坐标或纵坐标对至少两个连通域进行排序;依次确定排序后的至少两个连通域中各个连通域对应的横向碰撞连通域。
可选地,在本申请一个实施例中,纵向碰撞连通域确定模块604具体用于根据连通域中心点的横坐标或纵坐标对文本行的连通域进行排序;依次确定排序后的文本行的连通域中各个连通域所对应的纵向碰撞连通域。
可选地,在本申请一个实施例中,连通域获取模块601具体用于对文本图像进行二值化处理,以获取文本图像的二值图;根据二值图进行连通域分析,并根据连通域分析结果获得文本图像中至少两个连通域。
可选地,在本申请一个实施例中,连通域获取模块601具体用于获得文本图像中每个连通域,并获得每个连通域的面积值;将文本图像中面积值大于或等于第一面积阈值且小于或等于第二面积阈值的至少两个连通域确定为文本图像中至少两个连通域。
可选地,在本申请一个实施例中,空白行区域确定模块605还用于根据空白行区域对文本图像进行拆分,以获取至少两个子文本图像;将子文本图像输入题目拆分网络进行题目拆分,以获取题目拆分信息;根据题目拆分信息获取文本图像中的至少一个题目图像区域,题目图像区域仅包含一道题目。
可选地,在本申请一个实施例中,空白行区域确定模块605还用于将题目图像区域输入题号检测网络中进行题号检测,以获取题号拆分信息;根据题号拆分信息获取题目图像区域中的至少一个题号图像区域,题号图像区域仅包含一道子题目。
实施例四、
基于上述实施例一以及实施例二所描述的空白行区域检测方法,本申请实施例提供了一种电子设备,用于执行上述实施例一以及实施例二中任一个实施例所描述的空白行区域检测方法,图14为本申请实施例提供的一种电子设备的示意性结构图,如图14所示,该电子设备70包括:至少一个处理器(processor)702、存储器(memory)704、总线706及通信接口(Communications Interface)708。
其中:
处理器702、通信接口708、以及存储器704通过通信总线706完成相互间的通信。
通信接口708,用于与其它设备进行通信。
处理器702,用于执行程序710,具体可以执行上述实施例一到实施例二所描述的方法中的相关步骤。
具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
处理器702可能是中央处理器CPU,或者是特定集成电路ASIC
(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器704,用于存放程序310。存储器704可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
实施例五、
本申请实施例五提供了一种空白行区域检测芯片,该空白行区域检测芯片调用存储的程序实现如下方法:
获得文本图像中至少两个连通域;
在至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,目标连通域在纵坐标轴上的投影和目标连通域对应的横向碰撞连通域在纵坐标轴上的投影存在重叠,且目标连通域与对应的横向碰撞连通域间的水平距离值小于或等于水平距离阈值;
根据至少一个目标连通域及对应的横向碰撞连通域确定至少一个文本行;
确定文本行的各个连通域对应的纵向碰撞连通域,连通域在横坐标轴上的投影和连通域对应的纵向碰撞连通域在横坐标轴上的投影存在重叠;
当各个连通域与对应的纵向碰撞连通域间的垂直距离值均大于或等于垂直距离阈值时,确定各个连通域对应的纵向碰撞连通域与文本行之间存在空白行区域。
可选地,在本申请一个实施例中,文本行的各个连通域对应的纵向碰撞连通域位于文本行的同一侧。
可选地,在本申请一个实施例中,在至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,包括:
确定至少两个连通域中各个连通域对应的横向碰撞连通域,连通域在纵坐标轴上的投影和连通域对应的横向碰撞连通域在纵坐标轴上的投影存在重叠;
获取各个连通域与对应的横向碰撞连通域之间的距离,根据各个连通域与对应的横向碰撞连通域之间的距离在各个连通域中确定至少一个目标连通域及对应的横向碰撞连通域。
可选地,在本申请一个实施例中,确定至少两个连通域中各个连通域对应的横向碰撞连通域,包括:
根据连通域中心点的横坐标或纵坐标对至少两个连通域进行排序;
依次确定排序后的至少两个连通域中各个连通域对应的横向碰撞连通域。
可选地,在本申请一个实施例中,确定文本行的各个连通域对应的纵向碰撞连通域,包括:
根据连通域中心点的横坐标或纵坐标对文本行的连通域进行排序;
依次确定排序后的文本行的连通域中各个连通域所对应的纵向碰撞连通域。
可选地,在本申请一个实施例中,获得文本图像中至少两个连通域,包括:
对文本图像进行二值化处理,以获取文本图像的二值图;
根据二值图进行连通域分析,并根据连通域分析结果获得文本图像中至少两个连通域。
可选地,在本申请一个实施例中,获得文本图像中至少两个连通域,包括:
获得文本图像中每个连通域,并获得每个连通域的面积值;
将文本图像中面积值大于或等于第一面积阈值且小于或等于第二面积阈值的至少两个连通域确定为文本图像中至少两个连通域。
可选地,在本申请一个实施例中,所述方法还包括:
根据空白行区域对文本图像进行拆分,以获取至少两个子文本图像;
将子文本图像输入题目拆分网络进行题目拆分,以获取题目拆分信息;
根据题目拆分信息获取文本图像中的至少一个题目图像区域,题目图像区域仅包含一道题目。
可选地,在本申请一个实施例中,所述方法还包括:
将题目图像区域输入题号检测网络中进行题号检测,以获取题号拆分信息;
根据题号拆分信息获取题目图像区域中的至少一个题号图像区域,题号图像区域仅包含一道子题目。
本申请实施例的校准设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的电子设备。
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体地,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种空白行区域检测方法,其特征在于,包括:
获得文本图像中至少两个连通域;
在所述至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,所述目标连通域在纵坐标轴上的投影和所述目标连通域对应的横向碰撞连通域在所述纵坐标轴上的投影存在重叠,且所述目标连通域与对应的横向碰撞连通域间的水平距离值小于或等于水平距离阈值;
根据所述至少一个目标连通域及对应的横向碰撞连通域确定至少一个文本行;
确定所述文本行的各个连通域对应的纵向碰撞连通域,所述文本行的各个连通域对应的纵向碰撞连通域位于所述文本行的同一侧,所述文本行的各个连通域在横坐标轴上的投影和所述文本行的各个连通域对应的纵向碰撞连通域在所述横坐标轴上的投影存在重叠;
当所述文本行的各个连通域与对应的纵向碰撞连通域间的垂直距离值均大于或等于垂直距离阈值时,确定所述文本行的各个连通域对应的纵向碰撞连通域与所述文本行之间存在空白行区域。
2.根据权利要求1所述的空白行区域检测方法,其特征在于,所述在所述至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,包括:
确定所述至少两个连通域中各个连通域对应的横向碰撞连通域,所述连通域在纵坐标轴上的投影和所述连通域对应的横向碰撞连通域在所述纵坐标轴上的投影存在重叠;
获取所述各个连通域与对应的横向碰撞连通域之间的距离,根据所述各个连通域与对应的横向碰撞连通域之间的距离在所述各个连通域中确定至少一个目标连通域及对应的横向碰撞连通域。
3.根据权利要求2所述的空白行区域检测方法,其特征在于,所述确定所述至少两个连通域中各个连通域对应的横向碰撞连通域,包括:
根据连通域中心点的横坐标或纵坐标对所述至少两个连通域进行排序;
依次确定排序后的所述至少两个连通域中各个连通域对应的横向碰撞连通域。
4.根据权利要求1所述的空白行区域检测方法,其特征在于,所述确定所述文本行的各个连通域对应的纵向碰撞连通域,包括:
根据连通域中心点的横坐标或纵坐标对所述文本行的连通域进行排序;
依次确定排序后的所述文本行的连通域中各个连通域所对应的纵向碰撞连通域。
5.根据权利要求1所述的空白行区域检测方法,其特征在于,所述获得文本图像中至少两个连通域,包括:
对所述文本图像进行二值化处理,以获取所述文本图像的二值图;
根据所述二值图进行连通域分析,并根据连通域分析结果获得所述文本图像中至少两个连通域。
6.根据权利要求1所述的空白行区域检测方法,其特征在于,所述获得文本图像中至少两个连通域,包括:
获得所述文本图像中每个连通域,并获得每个连通域的面积值;
将所述文本图像中面积值大于或等于第一面积阈值且小于或等于第二面积阈值的至少两个连通域确定为所述文本图像中至少两个连通域。
7.根据权利要求1所述的空白行区域检测方法,其特征在于,所述方法还包括:
根据所述空白行区域对所述文本图像进行拆分,以获取至少两个子文本图像;
将所述子文本图像输入题目拆分网络进行题目拆分,以获取题目拆分信息;
根据所述题目拆分信息获取所述文本图像中的至少一个题目图像区域,所述题目图像区域仅包含一道题目。
8.根据权利要求7所述的空白行区域检测方法,其特征在于,所述方法还包括:
将所述题目图像区域输入题号检测网络中进行题号检测,以获取题号拆分信息;
根据所述题号拆分信息获取所述题目图像区域中的至少一个题号图像区域,所述题号图像区域仅包含一道子题目。
9.一种空白行区域检测设备,其特征在于,包括:连通域获取模块、横向碰撞连通域确定模块、文本行确定模块、纵向碰撞连通域确定模块以及空白行区域确定模块;
其中,连通域获取模块,用于获得文本图像中至少两个连通域;
横向碰撞连通域确定模块,用于在所述至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,所述目标连通域在纵坐标轴上的投影和所述目标连通域对应的横向碰撞连通域在所述纵坐标轴上的投影存在重叠,且所述目标连通域与对应的横向碰撞连通域间的水平距离值小于或等于水平距离阈值;
文本行确定模块,用于根据所述至少一个目标连通域及对应的横向碰撞连通域确定至少一个文本行;
纵向碰撞连通域确定模块,用于确定所述文本行的各个连通域对应的纵向碰撞连通域,所述文本行的各个连通域对应的纵向碰撞连通域位于所述文本行的同一侧,所述文本行的各个连通域在横坐标轴上的投影和所述文本行的各个连通域对应的纵向碰撞连通域在所述横坐标轴上的投影存在重叠;
空白行区域确定模块,用于当所述文本行的各个连通域与对应的纵向碰撞连通域间的垂直距离值均大于或等于垂直距离阈值时,确定所述文本行的各个连通域对应的纵向碰撞连通域与所述文本行之间存在空白行区域。
10.一种空白行区域检测芯片,其特征在于,所述空白行区域检测芯片调用存储的程序实现如下方法:
获得文本图像中至少两个连通域;
在所述至少两个连通域中确定至少一个目标连通域及对应的横向碰撞连通域,所述目标连通域在纵坐标轴上的投影和所述目标连通域对应的横向碰撞连通域在所述纵坐标轴上的投影存在重叠,且所述目标连通域与对应的横向碰撞连通域间的水平距离值小于或等于水平距离阈值;
根据所述至少一个目标连通域及对应的横向碰撞连通域确定至少一个文本行;
确定所述文本行的各个连通域对应的纵向碰撞连通域,所述文本行的各个连通域对应的纵向碰撞连通域位于所述文本行的同一侧,所述文本行的各个连通域在横坐标轴上的投影和所述文本行的各个连通域对应的纵向碰撞连通域在所述横坐标轴上的投影存在重叠;
当所述文本行的各个连通域与对应的纵向碰撞连通域间的垂直距离值均大于或等于垂直距离阈值时,确定所述文本行的各个连通域对应的纵向碰撞连通域与所述文本行之间存在空白行区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010591376.XA CN111738170B (zh) | 2020-06-24 | 2020-06-24 | 空白行区域检测方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010591376.XA CN111738170B (zh) | 2020-06-24 | 2020-06-24 | 空白行区域检测方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738170A CN111738170A (zh) | 2020-10-02 |
CN111738170B true CN111738170B (zh) | 2022-05-06 |
Family
ID=72651097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010591376.XA Active CN111738170B (zh) | 2020-06-24 | 2020-06-24 | 空白行区域检测方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738170B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5062141A (en) * | 1988-06-02 | 1991-10-29 | Ricoh Company, Ltd. | Method of segmenting characters in lines which may be skewed, for allowing improved optical character recognition |
CN105989366A (zh) * | 2015-01-30 | 2016-10-05 | 深圳市思路飞扬信息技术有限责任公司 | 文本图像的倾斜角矫正、版面分析方法和助视装置、系统 |
CN107944451A (zh) * | 2017-11-27 | 2018-04-20 | 西北民族大学 | 一种藏文古籍文档的行切分方法及系统 |
CN108460385A (zh) * | 2018-03-02 | 2018-08-28 | 山东超越数控电子股份有限公司 | 一种文本图像分割方法与装置 |
-
2020
- 2020-06-24 CN CN202010591376.XA patent/CN111738170B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5062141A (en) * | 1988-06-02 | 1991-10-29 | Ricoh Company, Ltd. | Method of segmenting characters in lines which may be skewed, for allowing improved optical character recognition |
CN105989366A (zh) * | 2015-01-30 | 2016-10-05 | 深圳市思路飞扬信息技术有限责任公司 | 文本图像的倾斜角矫正、版面分析方法和助视装置、系统 |
CN107944451A (zh) * | 2017-11-27 | 2018-04-20 | 西北民族大学 | 一种藏文古籍文档的行切分方法及系统 |
CN108460385A (zh) * | 2018-03-02 | 2018-08-28 | 山东超越数控电子股份有限公司 | 一种文本图像分割方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111738170A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948590B (zh) | 姿态问题检测方法及装置 | |
CN111753767A (zh) | 一种作业自动批改的方法、装置、电子设备和存储介质 | |
US20120272302A1 (en) | Human User Verification | |
CN108334805A (zh) | 检测文档阅读顺序的方法和装置 | |
CN105184294B (zh) | 一种基于像素追踪的倾斜文字判断识别方法 | |
CN103473492A (zh) | 权限识别方法和用户终端 | |
JP2018194919A (ja) | 学習プログラム、学習方法及び学習装置 | |
CN111475627A (zh) | 解答推导题目的检查方法、装置、电子设备及存储介质 | |
CN112988557A (zh) | 一种搜索框定位方法、数据采集方法、装置及介质 | |
CN111062377B (zh) | 一种题号检测方法、系统、存储介质及电子设备 | |
CN112308102B (zh) | 图像相似度计算方法、计算装置及存储介质 | |
CN108133209B (zh) | 一种文本识别中的目标区域搜索方法及其装置 | |
CN111444906A (zh) | 基于人工智能的图像识别方法和相关装置 | |
CN112132118B (zh) | 人物关系识别方法、装置、电子设备及计算机存储介质 | |
CN113657273A (zh) | 确定商品信息的方法、装置、电子设备及介质 | |
CN114358979A (zh) | 酒店匹配方法、装置、电子设备及存储介质 | |
CN111931794B (zh) | 一种基于草图的图像匹配方法 | |
CN111738170B (zh) | 空白行区域检测方法及设备 | |
CN111027533B (zh) | 一种点读坐标的变换方法、系统、终端设备及存储介质 | |
CN110750633B (zh) | 用于确定问题的答案的方法及装置 | |
CN110490157B (zh) | 文字评估方法、文字学习方法、装置、设备及存储介质 | |
CN111652204B (zh) | 目标文本区域选择的方法、装置、电子设备和存储介质 | |
CN113111734B (zh) | 一种水印分类模型训练方法及装置 | |
CN110263137B (zh) | 主题关键词的提取方法和装置、电子设备 | |
CN111881338A (zh) | 一种基于社交软件轻应用小程序的印刷品内容检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |