CN109635718A - 一种文本区域划分方法、装置、设备及存储介质 - Google Patents
一种文本区域划分方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109635718A CN109635718A CN201811502085.8A CN201811502085A CN109635718A CN 109635718 A CN109635718 A CN 109635718A CN 201811502085 A CN201811502085 A CN 201811502085A CN 109635718 A CN109635718 A CN 109635718A
- Authority
- CN
- China
- Prior art keywords
- text
- filed
- image
- text filed
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本申请提供了一种文本区域划分方法、装置、设备及存储介质,方法包括:获取待划分文本区域的图像作为目标图像,划分文本区域包括多个标识和多个标识分别对应的文本区域,待划分文本区域中的每行文本对应至少一个标识;对目标图像进行粗分割处理,获得多个文本区域,并为多个文本区域分别分配标识;若多个文本区域中存在目标文本区域,则对目标文本区域进行细分割处理,获得多行文本,并为多行文本分别分配标识,其中,目标文本区域为至少两个标识对应的文本区域粘连在一起而形成的区域。本申请提供的文本区域划分方法能够对待划分文本区域中各个标识对应的文本区域进行精确划分,用户体验较好。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种文本区域划分方法、装置、设备及存储介质。
背景技术
在某些情况下,需要对待划分文本区域中各个标识对应的文本区域进行划分,比如,智能阅卷领域,需要将各个题目的答题区域进行划分。现有技术中,对各个标识对应的文本区域进行划分的方式为:根据人为制定的规则确定与每个标识对应的文本区域,从而完成各个标识对应的文本区域的划分。然而,基于人为制定的规则进行文本区域的划分存在漏划、错划等问题,即无法实现文本区域的精确划分,并且,人为制定的规则比较死板,不具备通用性。
发明内容
有鉴于此,本申请提供了一种文本区域划分方法、装置、设备及存储介质,用以解决现有的文本区域划分方案无法实现文本区域的精确划分,且不具备通用性的问题,其技术方案如下:
一种文本区域划分方法,包括:
获取待划分文本区域的图像作为目标图像,所述待划分文本区域包括多个标识和所述多个标识分别对应的文本区域,所述待划分文本区域中的每行文本对应至少一个标识;
对所述目标图像进行粗分割处理,获得多个文本区域,并为所述多个文本区域分别分配标识;
若所述多个文本区域中存在目标文本区域,则对所述目标文本区域进行细分割处理,获得多行文本,并为所述多行文本分别分配标识,其中,所述目标文本区域为至少两个标识对应的文本区域粘连在一起而形成的区域。
可选的,所述文本区域划分方法还包括:
若所述目标图像中存在干扰区域,则利用基于所述干扰区域设置的模板将所述干扰区域从所述目标图像中去除,将去除所述干扰区域后的图像作为目标图像,执行所述对所述目标图像进行粗分割处理。
可选的,确定所述多个文本区域中是否存在所述目标文本区域,包括:
针对所述多个文本区域中的任一文本区域:
若存在至少两个标识与该文本区域的距离均小于或等于第一预设值,且所述至少两个标识与该文本区域的距离的差值小于或等于第二预设值,则确定该文本区域为所述目标文本区域。
可选的,所述对所述目标文本区域进行细分割处理,获得多行文本,包括:
对所述目标区域的图像进行预处理,获得预处理图像;
将所述预处理图像输入预先建立的文本分割模型,获得所述文本分割模型输出的、所述预处理图像中文本的分行结果,其中,所述文本分割模型采用标注有各个标识分别对应的文本区域的训练图像训练得到;
根据所述预处理图像中文本的分行结果,获得所述多行文本。
可选的,所述将所述预处理图像输入预先建立的文本分割模型,获得所述文本分割模型输出的、所述预处理图像中文本的分行结果,包括:
通过所述文本分割模型中的特征提取模块,从所述预处理图像中提取所述预处理图像中的文本在空间尺度差异下的特征;
通过所述预处理图像中的分行处理模块,基于所述特征对所述预处理图像中的文本进行分行处理,获得所述预处理图像中文本的分行结果;
其中,所述预处理图像中文本的分行结果包括:多个文本框分别对应的位置信息和文本概率,所述多个文本框中的文本片段组成所述预处理图像中的文本。
可选的,所述根据所述预处理图像中文本的分行结果,获得所述多行文本,包括:
基于所述多个文本框分别对应的位置信息和文本概率,将重叠的文本框和未包含文本片段的文本框去除;
将剩余的文本框聚类,获得多类文本框;
将所述多类文本框中每类文本框中的文本片段组成的文本,确定为一行文本,获得所述多行文本。
可选的,所述文本分割模型中的特征提取模块为卷积神经网络,所述卷积神经网络的卷积核为可变形卷积核。
可选的,所述为所述多个文本区域分别分配标识,包括:
对于所述多个文本区域中的每个文本区域:将与该文本区域的距离小于或等于第一预设值的标识分配给该文本区域;当与该文本区域的距离小于或等于所述第一预设值的标识为至少两个时,若至少两个标识与该文本区域的距离的差值大于第二预设值,则将与该文本区域距离最近的标识分配给该文本区域;
所述为所述多行文本分别分配标识,包括:
对于所述多行文本中的每行文本:将与该行文本距离最近的标识分配给该行文本。
一种文本区域划分装置,包括:图像获取模块、粗分割处理模块、第一标识分配模块、细分割处理模块和第二标识分配模块;
所述图像获取模块,用于获取待划分文本区域的图像作为目标图像,所述待划分文本区域包括多个标识和所述多个标识分别对应的文本区域,所述待划分文本区域中的每行文本对应至少一个标识;
所述粗分割处理模块,用于对所述目标图像进行粗分割处理,获得多个文本区域;
第一标识分配模块,用于为所述多个文本区域分别分配标识;
所述细分割处理模块,用于当所述多个文本区域中存在目标文本区域时,对所述目标文本区域进行细分割处理,获得多行文本,其中,所述目标文本区域为至少两个标识对应的文本区域粘连在一起而形成的区域;
所述第二标识分配模块,用于为所述多行文本分别分配标识。
一种文本区域划分设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现所述文本区域划分方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述文本区域划分方法的各个步骤。
从上述的技术方案可以看出,本申请提供的文本区域划分方法、装置、设备及存储介质,首先获取待划分文本区域的图像,然后将该图像进行粗分割处理,由于粗分割处理只能将各个标识对应的文本区域粗略划分开,因此,粗分割处理得到的文本区域中可能存在至少两个标识对应的文本区域粘连在一起而形成一个区域的情况,为了将粘连在一起的区域划分开,本申请进一步对至少两个标识对应的文本区域粘连在一起而形成的区域进行细分割处理,从而将粘连区域精确划分开,由此可见,本申请提供的文本区域划分方法能够对待划分文本区域中各个标识对应的文本区域进行精确划分,且该划分方式具备通用性,用户体验较好。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的文本区域划分方法的流程示意图;
图2a和图2b分别为本申请实施例提供的待划分文本区域中的每行文本对应至少一个标识的示例的示意图;
图3为本申请实施例提供的至少两个标识分别对应的文本区域粘连在一起而形成一个文本区域的一示例的示意图;
图4为本申请实施例提供的文本区域划分方法中,对目标文本区域进行细分割处理,获得多行文本的流程示意图;
图5a和图5b分别为普通卷积核和本申请实施例所使用的可变形卷积核的示例的示意图;
图6a和图6b分别为采用普通卷积核的卷积神经网络经过训练提取特征的示意图和采用可变形卷积核的卷积神经网络经过训练提取特征的示意图;
图7为本申请实施例提供的文本区域划分方法中,检测到的多个文本框打印到图像上的一示例的示意图;
图8为本申请实施例提供的对一图像中的文本进行分行的一示例的示意图;
图9为本申请实施例提供的文本区域划分装置的结构示意图;
图10为本申请实施例提供的文本区域划分设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有技术中对待划分文本区域中各个标识对应的文本区域进行划分的方法为:获取待划分文本区域的图像,基于该图像确定各个标识的位置坐标,基于各个标识的位置坐标计算各个标识之间的间隔区域,基于各个标识之间的间隔区域,通过人为设定的规则确定出每个标识对应的文本区域,从而完成各个标识对应的文本区域的划分。
鉴于现有技术中的文本区域划分方式不具备通用性,且划分准确度较低,本案发明人进行了深入研究,提出了一种能够对各个标识对应的文本区域进行精确划分的方案,接下来通过下述实施例对本申请提供的文本区域划分方法进行介绍。
请参阅图1,示出了本申请实施例提供的文本区域划分方法的流程示意图,该方法可以包括:
步骤S101:获取待划分文本区域的图像,作为目标图像。
其中,待划分文本区域包括多个标识和多个标识分别对应的文本区域。待划分文本区域中的每行文本对应至少一个标识,请参阅图2,图2a为一行文本对应一个标识的示意图,图2b为一行文本对应多个标识的示意图。
步骤S102:对目标图像进行粗分割处理,获得多个文本区域,并为各个文本区域分配标识。
对目标图像进行粗分割处理的目的在于,将各个标识对应的文本区域进行粗略划分,从而获得多个文本区域,进而为各个文本区域分配标识。
为各个文本区域分配标识的实现方式有多种,在一种可能的实现方式中,对于多个文本区域中的每个文本区域,可计算各个标识与该文本区域的距离(比如欧氏距离),将与文本区域的距离小于或等于第一预设值的标识确定为该文本区域对应的标识,将确定出的标识分配给该文本区域。
为了降低运算量,在另一种可能的实现方式中,对于多个文本区域中的每个文本区域,可获取该文本区域附近预设范围内的标识作为候选标识,计算各个候选标识与该文本区域的距离(比如欧氏距离),将与文本区域的距离小于或等于第一预设值的标识确定为该文本区域对应的标识。
需要说明的是,对于任一文本区域,若存在至少两个标识与该文本区域的距离均小于或等于第一预设值,则确定至少两个标识与该文本区域的距离的差值是否小于或等于第二预设值,若小于或等于第二预设值,则不为该文本区域分配标识,若大于第二预设值,则将至少两个标识中,与该文本区域的距离最小的标识确定为该文本区域对应的标识。
另外,需要说明的是,待划分文本区域中全部或部分标识对应的文本区域可能存在干扰区域,比如,一标识对应的文本内容可能包括印刷体文本和手写体文本,而手写体文本是实际需要关注的内容,那么印刷体文本所在区域即为干扰区域,通常情况下干扰区域是固定的,因此,在获得目标图像后,可先利用预先基于干扰区域设置的模板将目标图像中的干扰区域去除,然后将去除干扰区域后的图像作为目标图像进行粗分割处理。
步骤S103:若多个文本区域中存在目标文本区域,则对目标文本区域进行细分割处理,获得多行文本,并为多行文本分别分配标识。
对目标文本区域进行细分割处理,即对目标文本区域中的文本进行分行,从而获得多行文本。
其中,目标文本区域为至少两个标识对应的文本区域粘连在一起而形成的文本区域,即上述未分配标识的文本区域。步骤S102在为各个文本区域分配标识时,由于目标文本区域为多个标识对应的文本区域粘连在一起而形成的文本区域,即目标文本区域中包括多个标识对应的文本区域,因此,无法为其分配标识。步骤S103的目的在于将粘连在一起的文本区域划分开,进而为划分开的文本区域分配标识。
示例性的,请参阅图3,图3为对填空题各个题目对应的答题区域进行粗分割处理的示意图,从图3中可以看出,由于第11题和第13题的答案距离较近,在进行粗分割时,第11题和第13题的答题区域粘连在一起而形成了一个答题区域301,为了能够将第11题对应的答题区域与第13题对应的答题区域精确划分开,本实施例对答题区域301进一步进行细分割处理,即,将答题区域301中的文本进行分行,然后为每行文本分配标识。
本实施例提供的文本区域划分方法,首先获取待划分文本区域的图像,然后将该图像进行粗分割处理,由于粗分割处理只能将各个标识对应的文本区域粗略划分开,因此,粗分割处理得到的文本区域中可能存在至少两个标识对应的文本区域粘连在一起而形成一个区域的情况,为了将粘连在一起的区域划分开,本申请实施例进一步对至少两个标识对应的文本区域粘连在一起而形成的区域进行细分割处理,从而将粘连区域精确划分开,由此可见,本申请实施例提供的文本区域划分方法能够对待划分文本区域中各个标识对应的文本区域进行精确划分,且该划分方式具备通用性,用户体验较好。
在本申请的另一实施例中,对上述实施例的步骤S102中的“对目标图像进行粗分割处理,获得多个文本区域”进行介绍。
对目标图像进行粗分割处理,获得多个文本区域的过程可以包括:
步骤S1、将目标图像抽象成为无向加权图,获得无向加权图的顶点集V、边集E和边集E中各条边对应的不相似度。
具体的,图像中的像素点构成无向加权图的顶点集V,任意两个像素点连接起来构成一条边,所有的边组成边集E,任一条边对应的不相似度为该条边的权重,任一条边对应的不相似度为连接该条边的两个像素点之间的不相似度,若目标图像为彩色图像,则任意两个像素点(r1,g1,b1)与(r2,g2,b2)之间的不相似度w可通过下式计算:
其中,r1、r2、g1、g2、b1、b2分别为两个像素点RGB三个通道的颜色值,需要说明的是,若目标图像为灰度图,则通过两个像素点的像素亮度值来计算两个像素点之间的不相似度。
步骤S3、按照相似度从小到大的顺序对边集E中的边进行排序,获得有序边集E′。
步骤S4、从有序边集E′中依次获取边ei,判断获取的边是否满足合并条件,若不满足合并条件,则执行步骤S5,若满足合并条件,则执行步骤S6。
合并条件如下:
(1)该边对应的顶点vi和vj不属于同一个区域,需要说明的是,最开始合并时,每个像素点分别属于一个区域;
(2)该边不相似度wij小于顶点vi和vj对应区域内部的类内差异,一区域对应的类内差异为该区域内所有边分别对应的不相似度中的最大不相似度。
需要说明的是,最开始合并时,顶点vi和vj分别对应单独一个区域,此时,区域内的不相似度均为0,会导致“过分割”,为了防止这种情况出现,在计算类内差异时,在其后面附加一项初始容忍值k/|c|,其中|c|为区域所包含的像素点的个数。
步骤S5、判断有序边集中是否存在未获取的边,若有序边集中存在未获取的边,则转入执行步骤S4,若有序边集中不存在未获取的边,则表明粗分割处理结束。
步骤S6、进行如下更新:
(1)更新类标号:vi和vj的类标号统一为vi的标号;
(2)更新该类的不相似度阈值T:
由于不相似度小的边先合并,因此,wij即为当前合并后区域中所有边分别对应的不相似度中的最大不相似度。
在本申请的另一实施例中,对上述实施例的步骤S103中的“对目标文本区域进行细分割处理,获得多行文本”进行介绍。
请参阅图4,示出了对目标文本区域进行细分割处理,获得多行文本的实现过程的流程示意图,可以包括:
步骤S401:对目标文本区域的图像进行预处理,获得预处理图像。
为了提升图像分割效果,本实施例首先对目标文本区域的图像进行预处理,具体的,首先获取目标文本区域的图像对应的平均字符高度,基于平均字符高度将图像调整至预设的固定高度,获得调整后的图像,图像中的文本内容可能是倾斜的,有鉴于此,可进一步对调整后的图像进行倾斜矫正,具体的,将调整后的图像输入空间变换网络,获得输入图像进行仿射变换需要的参数,然后基于获得的参数对调整后的图像进行仿射变换,获得变换后的图像,将变换后的图像上所有的位置映射到原图像计算,即依次遍历变换后图像上所有的像素点,根据仿射变换矩阵计算出映射到原图像上的坐标,然后用双线性插值,根据该点周围4个位置的值加权平均得到该点值,从而获得矫正后的图像。
步骤S402:将预处理图像输入预先建立的文本分割模型,获得文本分割模型输出的、预处理图像中文本的分行结果。
其中,文本分割模型采用标注有各个标识分别对应的文本区域的训练图像训练得到。
其中,预处理图像中文本的分行结果包括:多个文本框分别对应的位置信息和文本概率,多个文本框中的文本片段组成预处理图像中的文本。
具体的,将预处理图像输入预先建立的文本分割模型,获得文本分割模型输出的、预处理图像中文本内容的过程可以包括:通过文本分割模型中的特征提取模块,从预处理图像中提取预处理图像中的文本在空间尺度差异下的特征;通过预处理图像中的分行处理模块,基于特征对预处理图像中的文本进行分行处理,获得预处理图像中文本的分行结果。
本实施例中的特征提取模块优选为卷积神经网络,该卷积神经网络的卷积核优选为可变形卷积核。可变形卷积相比普通卷积操作,可以有效的对几何形变、尺度、姿态等变化建模。
请参阅图5,图5a为普通卷积核的示意图,如5b为增加了偏移的可变形卷积核的示意图,请参阅图6,图6a为采用普通卷积核的卷积神经网络经过训练提取特征的示意图,图6b为采用可变形卷积核的卷积神经网络经过训练提取特征的示意图,对比图6a和图6b可以看出,采用可变形卷积核的卷积神经网络能更加灵活的获取图像中物体在空间尺度差异下的特征。
预处理图像中文本比如数学公式存在大量的尺度空间差异,因此,采用可变形卷积核能够较好的获取预处理图像中文本在空间尺度差异下的特征。优选的,本实施例可采用多层可变形卷积层提取特征,最后一层输出的特征作为最终的特征输入分行处理模块。
考虑到预处理图像中的每行文本的信息为一个时空序列,本实施例可将特征提取模块提取的特征输入双向长短期记忆网络(Long Short-Term Memory,LSTM),然后将LSTM网络输出的特征输入全连接层,最后将全连接层的输出输入分类层或回归层,获得最终的输出,即检测到的多个文本框分别对应的位置信息(可通过位置偏移量表征)和文本概率。请参阅图7,示出了检测到的多个文本框打印到图像上的示意图。
下面通过一具体对上述通过文本分割模型,获得预处理图像中文本内容的分行结果进行说明:假设预处理(尺寸调整和倾斜矫正)后的图像为w*h的图像,将w*h的图像输入卷积神经网络,经过多层(比如5层)可变形卷积后,可获得w′*h′*c的特征图(最后一层可变形卷积输出的特征图),在w′*h′*c的特征图上采用预设大小比如3*3的滑动窗口进行滑动,每次滑动均能得到一个长度为3*3*c的特征向量,将该3*3*c的特征向量输入到双向LSTM中,获得双向LSTM输出的特征向量,将LSTM输出的特征向量输入全连接层,将全连接层的输出输入三个分类层或者回归层,得到最终的输出。最终输出包括三部分:第一部分为多个文本框中每个文本框的中心位置的高度和文本框高度偏移量,第二部分为多个文本框中每个文本框中包含文本片段的概率,第三部分为多个文本框中每个文本框的水平平移量。
步骤S403:根据预处理图像中文本的分行结果,获得多行文本。
具体的,根据预处理图像中文本内容的分行结果,获得多行文本的过程可以包括:基于多个文本框分别对应的位置偏移信息和文本概率,将重叠的文本框和未包含文本片段的文本框去除;将剩余的文本框聚类,获得多类文本框;将多类文本框中每类文本框中的文本片段组成的文本,确定为一行文本,从而获得多行文本。
在检测到的多个文本框中,会存在一些文本概率较低的文本框和重叠在一起的文本框,在本实施例中,可预设一文本概率阈值和重叠阈值,将文本概率小于预设的文本概率阈值的文本框去除,并将重叠概率(重叠概率可通过各个文本框对应的位置信息确定)大于预设的重叠阈值的文本框去除。需要说明的是,本实施例将文本概率小于预设的文本概率阈值的文本框判定为未包含文本片段的文本框,将重叠概率大于预设的重叠阈值的文本框判定为重叠的文本框。
在去除未包含文本片段的文本框和重叠的文本框后,可以不限定通过文本框构造后处理算法将剩余文本框聚类,进而获得每行的文本。请参阅图8,示出了对一图像中的文本进行分行的示意图。
本实施例提供的文本区域划分方法,通过对待划分文本区域的图像进行粗分割和细分割处理过程,使能待划分文本区域中各个标识对应的文本区域能够精确划分,且本实施例提供的文本区域划分方法具备通用性,用户体验较好。
本申请实施例还提供了一种文本区域划分装置,下面对本申请实施例提供的文本区域划分装置进行描述,下文描述的文本区域划分装置与上文描述的文本区域划分方法可相互对应参照。
请参阅图9,示出了本申请实施例提供的一种文本区域划分装置的结构示意图,如图9所示,该装置可以包括:图像获取模块901、粗分割处理模块902、第一标识分配模块903、细分割处理模块904和第二标识分配模块905。
图像获取模块901,用于获取待划分文本区域的图像作为目标图像。
其中,所述待划分文本区域包括多个标识和所述多个标识分别对应的文本区域,所述待划分文本区域中的每行文本对应至少一个标识。
粗分割处理模块902,用于对所述目标图像进行粗分割处理,获得多个文本区域。
第一标识分配模块903,用于为所述多个文本区域分别分配标识。
细分割处理模块904,用于当所述多个文本区域中存在目标文本区域时,对所述目标文本区域进行细分割处理,获得多行文本。
其中,所述目标文本区域为至少两个标识对应的文本区域粘连在一起而形成的区域。
第二标识分配模块905,用于为所述多行文本分别分配标识。
本实施例提供的文本区域划分装置,首先获取待划分文本区域的图像,然后将该图像进行粗分割处理,由于粗分割处理只能将各个标识对应的文本区域粗略划分开,因此,粗分割处理得到的文本区域中可能存在至少两个标识对应的文本区域粘连在一起而形成一个区域的情况,为了将粘连在一起的区域划分开,本申请实施例进一步对至少两个标识对应的文本区域粘连在一起而形成的区域进行细分割处理,从而将粘连区域精确划分开,由此可见,本申请实施例提供的文本区域划分方法能够对待划分文本区域中各个标识对应的文本区域进行精确划分,且该划分方式具备通用性,用户体验较好。
可选的,上述实施例提供的文本区域划分装置还可以包括:干扰区域去除模块。
干扰区域去除模块,用于当所述目标图像中存在干扰区域时,利用基于所述干扰区域设置的模板将所述干扰区域从所述目标图像中去除,将去除所述干扰区域后的图像作为目标图像。
可选的,上述实施例提供的文本区域划分装置还可以包括:目标文本区域确定模块。
目标文本区域确定模块,用于针对所述多个文本区域中的任一文本区域:若存在至少两个标识与该文本区域的距离均小于或等于第一预设值,且所述至少两个标识与该文本区域的距离的差值小于或等于第二预设值,则确定该文本区域为所述目标文本区域。
可选的,上述实施例提供的文本区域划分装置中的细分割处理模块904,包括:预处理子模块、文本分割子模块和文本行获取子模块。
所述预处理子模块,用于对所述目标区域的图像进行预处理,获得预处理图像。
所述文本分割子模块,用于将所述预处理图像输入预先建立的文本分割模型,获得所述文本分割模型输出的、所述预处理图像中文本的分行结果,其中,所述文本分割模型采用标注有各个标识分别对应的文本区域的训练图像训练得到。
所述文本行获取子模块,用于根据所述预处理图像中文本的分行结果,获得所述多行文本。
可选的,所述文本分割子模块,具体用于通过所述预处理图像中的分行处理模块,基于所述特征对所述预处理图像中的文本进行分行处理,获得所述预处理图像中文本的分行结果;其中,所述预处理图像中文本的分行结果包括:多个文本框分别对应的位置信息和文本概率,所述多个文本框中的文本片段组成所述预处理图像中的文本。
可选的,所述文本行获取子模块,具体用于基于所述多个文本框分别对应的位置信息和文本概率,将重叠的文本框和未包含文本片段的文本框去除;将剩余的文本框聚类,获得多类文本框;将所述多类文本框中每类文本框中的文本片段组成的文本,确定为一行文本,获得所述多行文本。
可选的,所述文本分割模型中的特征提取模块为卷积神经网络,所述卷积神经网络的卷积核为可变形卷积核。
可选的,上述实施例提供的文本区域划分装置中的第一标识分配模块903,具体用于对于所述多个文本区域中的每个文本区域:将与该文本区域的距离小于或等于第一预设值的标识分配给该文本区域;当与该文本区域的距离小于或等于所述第一预设值的标识为至少两个时,若至少两个标识与该文本区域的距离的差值大于第二预设值,则将与该文本区域距离最近的标识分配给该文本区域。
第二标识分配模块905,具体用于对于所述多行文本中的每行文本:将与该行文本距离最近的标识分配给该行文本。
本申请实施例还提供了一种文本区域划分设备,请参阅图10,示出了该文本区域划分设备的结构示意图,该设备可以包括:至少一个处理器1001,至少一个通信接口1002,至少一个存储器1003和至少一个通信总线1004;
在本申请实施例中,处理器1001、通信接口1002、存储器1003、通信总线1004的数量为至少一个,且处理器1001、通信接口1002、存储器1003通过通信总线1004完成相互间的通信;
处理器1001可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成本发明实施例的一个或多个集成电路等;
存储器1003可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待划分文本区域的图像作为目标图像,所述待划分文本区域包括多个标识和所述多个标识分别对应的文本区域,所述待划分文本区域中的每行文本对应至少一个标识;
对所述目标图像进行粗分割处理,获得多个文本区域,并为所述多个文本区域分别分配标识;
若所述多个文本区域中存在目标文本区域,则对所述目标文本区域进行细分割处理,获得多行文本,并为所述多行文本分别分配标识,其中,所述目标文本区域为至少两个标识对应的文本区域粘连在一起而形成的区域。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待划分文本区域的图像作为目标图像,所述待划分文本区域包括多个标识和所述多个标识分别对应的文本区域,所述待划分文本区域中的每行文本对应至少一个标识;
对所述目标图像进行粗分割处理,获得多个文本区域,并为所述多个文本区域分别分配标识;
若所述多个文本区域中存在目标文本区域,则对所述目标文本区域进行细分割处理,获得多行文本,并为所述多行文本分别分配标识,其中,所述目标文本区域为至少两个标识对应的文本区域粘连在一起而形成的区域。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种文本区域划分方法,其特征在于,包括:
获取待划分文本区域的图像作为目标图像,所述待划分文本区域包括多个标识和所述多个标识分别对应的文本区域,所述待划分文本区域中的每行文本对应至少一个标识;
对所述目标图像进行粗分割处理,获得多个文本区域,并为所述多个文本区域分别分配标识;
若所述多个文本区域中存在目标文本区域,则对所述目标文本区域进行细分割处理,获得多行文本,并为所述多行文本分别分配标识,其中,所述目标文本区域为至少两个标识对应的文本区域粘连在一起而形成的区域。
2.根据权利要求1所述的文本区域划分方法,其特征在于,所述方法还包括:
若所述目标图像中存在干扰区域,则利用基于所述干扰区域设置的模板将所述干扰区域从所述目标图像中去除,将去除所述干扰区域后的图像作为目标图像,执行所述对所述目标图像进行粗分割处理。
3.根据权利要求1所述的文本区域划分方法,其特征在于,确定所述多个文本区域中是否存在所述目标文本区域,包括:
针对所述多个文本区域中的任一文本区域:
若存在至少两个标识与该文本区域的距离均小于或等于第一预设值,且所述至少两个标识与该文本区域的距离的差值小于或等于第二预设值,则确定该文本区域为所述目标文本区域。
4.根据权利要求1所述的文本区域划分方法,其特征在于,所述对所述目标文本区域进行细分割处理,获得多行文本,包括:
对所述目标区域的图像进行预处理,获得预处理图像;
将所述预处理图像输入预先建立的文本分割模型,获得所述文本分割模型输出的、所述预处理图像中文本的分行结果,其中,所述文本分割模型采用标注有各个标识分别对应的文本区域的训练图像训练得到;
根据所述预处理图像中文本的分行结果,获得所述多行文本。
5.根据权利要求4所述的文本区域划分方法,其特征在于,所述将所述预处理图像输入预先建立的文本分割模型,获得所述文本分割模型输出的、所述预处理图像中文本的分行结果,包括:
通过所述文本分割模型中的特征提取模块,从所述预处理图像中提取所述预处理图像中的文本在空间尺度差异下的特征;
通过所述预处理图像中的分行处理模块,基于所述特征对所述预处理图像中的文本进行分行处理,获得所述预处理图像中文本的分行结果;
其中,所述预处理图像中文本的分行结果包括:多个文本框分别对应的位置信息和文本概率,所述多个文本框中的文本片段组成所述预处理图像中的文本。
6.根据权利要求4所述的文本区域划分方法,其特征在于,所述根据所述预处理图像中文本的分行结果,获得所述多行文本,包括:
基于所述多个文本框分别对应的位置信息和文本概率,将重叠的文本框和未包含文本片段的文本框去除;
将剩余的文本框聚类,获得多类文本框;
将所述多类文本框中每类文本框中的文本片段组成的文本,确定为一行文本,获得所述多行文本。
7.根据权利要求5所述的文本区域划分方法,其特征在于,所述文本分割模型中的特征提取模块为卷积神经网络,所述卷积神经网络的卷积核为可变形卷积核。
8.根据权利要求1~7中任意一项所述的文本区域划分方法,其特征在于,所述为所述多个文本区域分别分配标识,包括:
对于所述多个文本区域中的每个文本区域:将与该文本区域的距离小于或等于第一预设值的标识分配给该文本区域;当与该文本区域的距离小于或等于所述第一预设值的标识为至少两个时,若至少两个标识与该文本区域的距离的差值大于第二预设值,则将与该文本区域距离最近的标识分配给该文本区域;
所述为所述多行文本分别分配标识,包括:
对于所述多行文本中的每行文本:将与该行文本距离最近的标识分配给该行文本。
9.一种文本区域划分装置,其特征在于,包括:图像获取模块、粗分割处理模块、第一标识分配模块、细分割处理模块和第二标识分配模块;
所述图像获取模块,用于获取待划分文本区域的图像作为目标图像,所述待划分文本区域包括多个标识和所述多个标识分别对应的文本区域,所述待划分文本区域中的每行文本对应至少一个标识;
所述粗分割处理模块,用于对所述目标图像进行粗分割处理,获得多个文本区域;
第一标识分配模块,用于为所述多个文本区域分别分配标识;
所述细分割处理模块,用于当所述多个文本区域中存在目标文本区域时,对所述目标文本区域进行细分割处理,获得多行文本,其中,所述目标文本区域为至少两个标识对应的文本区域粘连在一起而形成的区域;
所述第二标识分配模块,用于为所述多行文本分别分配标识。
10.一种文本区域划分设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~8中任一项所述的文本区域划分方法的各个步骤。
11.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~8中任一项所述的文本区域划分方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811502085.8A CN109635718B (zh) | 2018-12-10 | 2018-12-10 | 一种文本区域划分方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811502085.8A CN109635718B (zh) | 2018-12-10 | 2018-12-10 | 一种文本区域划分方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635718A true CN109635718A (zh) | 2019-04-16 |
CN109635718B CN109635718B (zh) | 2021-02-02 |
Family
ID=66072256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811502085.8A Active CN109635718B (zh) | 2018-12-10 | 2018-12-10 | 一种文本区域划分方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635718B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399882A (zh) * | 2019-05-29 | 2019-11-01 | 广东工业大学 | 一种基于可变形卷积神经网络的文字检测方法 |
CN110458164A (zh) * | 2019-08-07 | 2019-11-15 | 深圳市商汤科技有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN110490190A (zh) * | 2019-07-04 | 2019-11-22 | 贝壳技术有限公司 | 一种结构化图像文字识别方法及系统 |
CN110807455A (zh) * | 2019-09-19 | 2020-02-18 | 平安科技(深圳)有限公司 | 基于深度学习的票据检测方法、装置、设备及存储介质 |
CN111159992A (zh) * | 2019-12-23 | 2020-05-15 | 望海康信(北京)科技股份公司 | 合同管理方法及装置 |
CN111291661A (zh) * | 2020-01-21 | 2020-06-16 | 上海悦易网络信息技术有限公司 | 一种屏幕中图标的文本内容的识别方法及设备 |
CN111461132A (zh) * | 2020-04-17 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 用于辅助ocr图像数据标注的方法及装置 |
CN111626250A (zh) * | 2020-06-02 | 2020-09-04 | 泰康保险集团股份有限公司 | 文本图像的分行方法、装置、计算机设备及可读存储介质 |
CN111738263A (zh) * | 2020-08-24 | 2020-10-02 | 北京易真学思教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN114220103A (zh) * | 2022-02-22 | 2022-03-22 | 成都明途科技有限公司 | 图像识别方法、装置、设备及计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1928891A (zh) * | 2005-09-05 | 2007-03-14 | 富士通株式会社 | 指定文本行提取方法和装置 |
CN101183283A (zh) * | 2007-12-04 | 2008-05-21 | 哈尔滨工业大学深圳研究生院 | 一种直接写入手写体信息的方法 |
CN102156865A (zh) * | 2010-12-14 | 2011-08-17 | 上海合合信息科技发展有限公司 | 手写文本行字符切分方法、识别方法 |
CN102799776A (zh) * | 2012-07-10 | 2012-11-28 | 富士施乐实业发展(上海)有限公司 | 一种试卷自动处理系统 |
CN103761700A (zh) * | 2013-12-23 | 2014-04-30 | 南京信息工程大学 | 一种基于字符细化的可抵抗打印扫描攻击的水印方法 |
CN104268603A (zh) * | 2014-09-16 | 2015-01-07 | 科大讯飞股份有限公司 | 用于文字性客观题的智能阅卷方法及系统 |
CN104636742A (zh) * | 2015-02-16 | 2015-05-20 | 珠海市追梦网络科技有限公司 | 一种通过摄像自动锁定目标题目并传输的方法及设备 |
CN107180239A (zh) * | 2017-06-09 | 2017-09-19 | 科大讯飞股份有限公司 | 文本行识别方法及系统 |
-
2018
- 2018-12-10 CN CN201811502085.8A patent/CN109635718B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1928891A (zh) * | 2005-09-05 | 2007-03-14 | 富士通株式会社 | 指定文本行提取方法和装置 |
CN101183283A (zh) * | 2007-12-04 | 2008-05-21 | 哈尔滨工业大学深圳研究生院 | 一种直接写入手写体信息的方法 |
CN102156865A (zh) * | 2010-12-14 | 2011-08-17 | 上海合合信息科技发展有限公司 | 手写文本行字符切分方法、识别方法 |
CN102799776A (zh) * | 2012-07-10 | 2012-11-28 | 富士施乐实业发展(上海)有限公司 | 一种试卷自动处理系统 |
CN103761700A (zh) * | 2013-12-23 | 2014-04-30 | 南京信息工程大学 | 一种基于字符细化的可抵抗打印扫描攻击的水印方法 |
CN104268603A (zh) * | 2014-09-16 | 2015-01-07 | 科大讯飞股份有限公司 | 用于文字性客观题的智能阅卷方法及系统 |
CN104636742A (zh) * | 2015-02-16 | 2015-05-20 | 珠海市追梦网络科技有限公司 | 一种通过摄像自动锁定目标题目并传输的方法及设备 |
CN107180239A (zh) * | 2017-06-09 | 2017-09-19 | 科大讯飞股份有限公司 | 文本行识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
姚群力等: "深度卷积神经网络在目标检测中的研究进展", 《计算机工程与应用》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399882A (zh) * | 2019-05-29 | 2019-11-01 | 广东工业大学 | 一种基于可变形卷积神经网络的文字检测方法 |
CN110490190B (zh) * | 2019-07-04 | 2021-10-26 | 贝壳技术有限公司 | 一种结构化图像文字识别方法及系统 |
CN110490190A (zh) * | 2019-07-04 | 2019-11-22 | 贝壳技术有限公司 | 一种结构化图像文字识别方法及系统 |
CN110458164A (zh) * | 2019-08-07 | 2019-11-15 | 深圳市商汤科技有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN110807455A (zh) * | 2019-09-19 | 2020-02-18 | 平安科技(深圳)有限公司 | 基于深度学习的票据检测方法、装置、设备及存储介质 |
CN111159992A (zh) * | 2019-12-23 | 2020-05-15 | 望海康信(北京)科技股份公司 | 合同管理方法及装置 |
CN111159992B (zh) * | 2019-12-23 | 2023-05-23 | 望海康信(北京)科技股份公司 | 合同管理方法及装置 |
CN111291661A (zh) * | 2020-01-21 | 2020-06-16 | 上海悦易网络信息技术有限公司 | 一种屏幕中图标的文本内容的识别方法及设备 |
CN111291661B (zh) * | 2020-01-21 | 2023-10-27 | 上海万物新生环保科技集团有限公司 | 一种屏幕中图标的文本内容的识别方法及设备 |
CN111461132B (zh) * | 2020-04-17 | 2022-05-10 | 支付宝(杭州)信息技术有限公司 | 用于辅助ocr图像数据标注的方法及装置 |
CN111461132A (zh) * | 2020-04-17 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 用于辅助ocr图像数据标注的方法及装置 |
CN111626250A (zh) * | 2020-06-02 | 2020-09-04 | 泰康保险集团股份有限公司 | 文本图像的分行方法、装置、计算机设备及可读存储介质 |
CN111626250B (zh) * | 2020-06-02 | 2023-08-11 | 泰康保险集团股份有限公司 | 文本图像的分行方法、装置、计算机设备及可读存储介质 |
CN111738263A (zh) * | 2020-08-24 | 2020-10-02 | 北京易真学思教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN114220103A (zh) * | 2022-02-22 | 2022-03-22 | 成都明途科技有限公司 | 图像识别方法、装置、设备及计算机可读存储介质 |
CN114220103B (zh) * | 2022-02-22 | 2022-05-06 | 成都明途科技有限公司 | 图像识别方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109635718B (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635718A (zh) | 一种文本区域划分方法、装置、设备及存储介质 | |
CN103207879B (zh) | 图像索引的生成方法及设备 | |
CN104834922B (zh) | 基于混合神经网络的手势识别方法 | |
CN102968635B (zh) | 一种基于稀疏编码的图像视觉特征提取方法 | |
CN101533517B (zh) | 一种基于结构特征的中国书画印章图像自动提取方法 | |
CN108876796A (zh) | 一种基于全卷积神经网络和条件随机场的道路分割系统及方法 | |
CN105528575B (zh) | 基于上下文推理的天空检测方法 | |
CN108345850A (zh) | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 | |
CN104462494A (zh) | 一种基于无监督特征学习的遥感图像检索方法及系统 | |
CN1952954A (zh) | 特定被摄体检测装置及方法 | |
CN108596944A (zh) | 一种提取运动目标的方法、装置及终端设备 | |
CN102968637A (zh) | 一种复杂背景图像文字分割方法 | |
Shetty et al. | Segmentation and labeling of documents using conditional random fields | |
CN108197644A (zh) | 一种图像识别方法和装置 | |
CN109977997A (zh) | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 | |
CN104809731A (zh) | 一种基于梯度二值化的旋转尺度不变场景匹配方法 | |
CN108629286A (zh) | 一种基于主观感知显著模型的遥感机场目标检测方法 | |
CN105354571B (zh) | 基于曲线投影的畸变文本图像基线估计方法 | |
CN111401380A (zh) | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 | |
CN109409376A (zh) | 针对固废对象的图像分割方法、计算机终端及存储介质 | |
CN107480585A (zh) | 基于dpm算法的目标检测方法 | |
CN108875456A (zh) | 目标检测方法、目标检测装置和计算机可读存储介质 | |
Kim et al. | Robust facial landmark extraction scheme using multiple convolutional neural networks | |
Lee et al. | Property-specific aesthetic assessment with unsupervised aesthetic property discovery | |
CN110363730A (zh) | 一种基于颜色直方图峰值的自适应超像素分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |