CN108460385A - 一种文本图像分割方法与装置 - Google Patents
一种文本图像分割方法与装置 Download PDFInfo
- Publication number
- CN108460385A CN108460385A CN201810174594.6A CN201810174594A CN108460385A CN 108460385 A CN108460385 A CN 108460385A CN 201810174594 A CN201810174594 A CN 201810174594A CN 108460385 A CN108460385 A CN 108460385A
- Authority
- CN
- China
- Prior art keywords
- segment
- point
- pixel
- computer
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种文本图像分割方法与装置,包括:获取文本图像,并根据先验规律将文本图像初步分割为多个图块;确定每个图块中的内部点,并通过填充内部点以消除每个图块中文字内部的空白像素;进一步通过投影方式对每个图块计算平均连通域值,并根据平均连通域值对每个图块进行连通域拓展;从每个图块提取文字区域的边缘,并根据边缘分割每个图块。本发明能够针对不同文本图像或不同类型的文本图像进行分割,在精度和普适性上都达到令人满意的水平。
Description
技术领域
本发明涉及计算机安全领域,并且更具体地,涉及一种文本图像分割方法与装置。
背景技术
随着机器学习、人工智能等领域的大热,与其相关的各个领域不可避免的被带动起来。众所周知,人工智能基于机器学习,而对于机器学习首先需要在计算机中存储历史的数据。接着,将这些数据通过机器学习算法进行处理,这个过程在机器学习中叫做“训练”,处理的结果可以用来对新的数据进行预测,这个结果一般称之为“模型”。对新数据的预测过程在机器学习中叫做“预测”。“训练”与“预测”是机器学习的两个过程,“模型”则是过程的中间输出结果,“训练”产生“模型”,“模型”指导“预测”。因此,我们可以理解历史数据集对于机器学习的重要性。
随着计算机以及计算机网络带宽的飞速发展,信息的传播方式由以往的文本格式转为二进制即图片的形式,将网络中相关的图片中的文字信息提取出来的需求也就日渐增加,对此图像文字识别技术又焕发出生机。图像文字识别是指用计算机将含有文字信息的图片通过一系列图像处理技术,去除彩色分量、纠正图像倾斜、图像分割等动作,识别成能储存在电脑中的计算机文字。
传统图像文字识别系统一般由输入、处理、输出三个部分组成。如图1所示,目前局限传统图像文字识别系统的部分主要是处理这一环节。而在处理这一环节中版面分析与版面理解两个部分在系统中的作用是极其核心的,在整个系统中版面分析与版面理解所进行的工作主要就是,利用计算机自动的对图像进行区域的划分,识别出区域的属性以及区域之间的关系。版面分析的主要工作,是对图像空间上进行区域的划分;而版面理解的功能主要是对区域之间逻辑上的先后顺序,进行判断。
传统图像文字识别方法有空白背景方法和连通域方法。空白背景方法将图片中前景区域的各个模块分割出来,该方法过程简单,适用于空白区域较大的版面类型,但缺点是要求版面的空白区域连通,适应性较差,对一些复杂的版面,处理效果较差。连通域方法从图像的整体出发,通过对图像像素进行的投影操作,获得一些基本的参数,比如说字间距,连通阈值等,通过连通阈值将图像进行联通操作得到整个文本块,进行分割,该方法优点是对各种不同的版面都有很强的适应性,同时算法的时间复杂度也比较好,缺点是对于一些连通阈值特征不明显的版面,分割的效果较差。针对现有技术中的传统图像文字识别方法均具有不令人满意之处的问题,目前尚未有有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种文本图像分割方法与装置,能够针对不同文本图像或不同类型的文本图像进行分割,在精度和普适性上都达到令人满意的水平。
基于上述目的,本发明实施例的一方面提供了一种文本图像分割方法,包括以下步骤:
获取文本图像,并根据先验规律将文本图像初步分割为多个图块;
确定每个图块中的内部点,并通过填充内部点以消除每个图块中文字内部的空白像素;
进一步通过投影方式对每个图块计算平均连通域值,并根据平均连通域值对每个图块进行连通域拓展;
从每个图块提取文字区域的边缘,并根据边缘分割每个图块。
在一些实施方式中,在根据先验规律将文本图像初步分割为多个图块的同时,还使用霍夫变换从文本图像中检测出空白直线,并进一步根据空白直线分割文本图像。
在一些实施方式中,确定每个图块中的内部点,并通过填充内部点以消除每个图块中文字内部的空白像素包括:
从每个图块中依次选取一像素点I,并提取像素点I的8-邻域像素区域I1、I2、I3、I4、I5、I6、I7、I8;
对每个像素点I分别计算α是否为假,是则判定为像素点I为内部点,其中α=(I1&&I2&&I3)||(I3&&I5&&I8)||(I6&&I7&&I8);
将每个内部像素点I的8-邻域像素全部填充为指定颜色;
重复以上步骤直到每个图块中均不存在内部像素点I。
在一些实施方式中,通过投影方式对每个图块计算平均连通域值,并根据平均连通域值对每个图块进行连通域拓展包括:
对每个图块P进行横向和纵向投影,获得投影图px和py;
确定先验阈值a和b,并且对于px和py中所有的行i和列j,分别判断每个行i和列j的Pixel(i)<a×p.width||Pixel(j)<b×p.length是否为真,是则判定行/列为空白行/空白列;
将空白行/空白列的数量计入Sr/Sc,并将行/列总数计入Wr/Wc;
根据Sr与Wr的比值获得平均连通阈值,并根据平均连通阈值以模糊拓展操作对每个图块进行连通域拓展。
在一些实施方式中,从每个图块提取文字区域的边缘,并根据边缘分割每个图块包括:
将图块中的所有指定颜色像素归入一点集,并从点集中选取一点p加入子集s中;
采集点p的8-邻域像素并判断点p的8-邻域像素是否全部为指定颜色像素,是则将8-邻域像素中的指定颜色像素加入子集s中,同时从子集s中删除点p;
重复上一步骤直到子集s中的元素不再发生改变,其中从子集s中删除过的点不再作为8-邻域像素中的指定颜色像素而加入子集s中;
在点集中选取不同的点p并按照上述步骤分别生成不同的子集s,直到已经遍历点集中的每一点;
从不同的子集s分别提取子集s中的元素作为图块的分割曲线,并根据分割曲线分割对应的图块。
在一些实施方式中,文本图像分割的至少一个步骤采用经过机器学习的人工智能来执行。
本发明实施例的另一方面,还提供了一种文本图像分割装置,使用了上述方法。
本发明实施例的另一方面,还提供了一种计算机设备,包括存储器、至少一个处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时执行上述的方法。
本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时执行上述的方法。
本发明实施例的另一方面,还提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算程序,计算程序包括指令,当指令被计算机执行时,使计算机执行上述方法。
本发明具有以下有益技术效果:本发明实施例提供的文本图像分割方法与装置,通过将文本图像初步分割为多个图块、填充内部点以消除每个图块中文字内部的空白像素、通过投影方式对每个图块进行连通域拓展、提取文字区域的边缘并分割每个图块的技术手段,能够针对不同文本图像或不同类型的文本图像进行分割,在精度和普适性上都达到令人满意的水平。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术的文本识别方法的流程示意图;
图2为本发明提供的文本图像分割方法的流程示意图;
图3为本发明提供的执行所述文本图像分割方法的计算机设备的一个实施例的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种能够针对不同文本图像或不同类型的文本图像进行分割的方法。图2示出的是本发明提供的文本图像分割方法的流程示意图。
所述文本图像分割方法,包括以下步骤:
步骤S201,获取文本图像,并根据先验规律将文本图像初步分割为多个图块;
步骤S203,确定每个图块中的内部点,并通过填充内部点以消除每个图块中文字内部的空白像素;
步骤S205,进一步通过投影方式对每个图块计算平均连通域值,并根据平均连通域值对每个图块进行连通域拓展;
步骤S207,从每个图块提取文字区域的边缘,并根据边缘分割每个图块。
在一些实施方式中,在根据先验规律将文本图像初步分割为多个图块的同时,还使用霍夫变换从文本图像中检测出空白直线,并进一步根据空白直线分割文本图像。
本发明实施例所采用的霍夫变换优选地可以是从黑白图像中采集直线的最基础的霍夫变换。如果需要,也可以进一步采用更高级别的霍夫变换来处理彩色图像和高阶曲线,或者将彩色图像去色、将高阶曲线拆分为多段直线以适应最基础的霍夫变换的要求。
在一些实施方式中,确定每个图块中的内部点,并通过填充内部点以消除每个图块中文字内部的空白像素包括:
从每个图块中依次选取一像素点I,并提取像素点I的8-邻域像素区域I1、I2、I3、I4、I5、I6、I7、I8;
对每个像素点I分别计算α是否为假,是则判定为像素点I为内部点,其中α=(I1&&I2&&I3)||(I3&&I5&&I8)||(I6&&I7&&I8),;
将每个内部像素点I的8-邻域像素全部填充为指定颜色;
重复以上步骤直到每个图块中均不存在内部像素点I。
在本发明实施例中,8-邻域像素区域指的是与一指定像素相邻一格的前、后、左、右、左前、右前、左后、右后8个像素。根据颜色、清晰度与字体的不同,也可以扩充到与指定像素相邻两格或更多格的像素区域,例如24-邻域像素区域。另外,当一个像素点周围存在一行或一列空白的像素点称为外部点,否则称为内部点,因此每个像素点I1、I2、I3、I4、I5、I6、I7、I8的真假取值取决于其是否是空白像素,是空白像素则其真值为真,否则为假。对应地,α为真代表像素点I为外部点,α为假代表像素点I为内部点。指定颜色可以使用除白色以外的任何颜色,优选地是便于区分的黑色。
在一些实施方式中,通过投影方式对每个图块计算平均连通域值,并根据平均连通域值对每个图块进行连通域拓展包括:
对每个图块P进行横向和纵向投影,获得投影图px和py;
确定先验阈值a和b,并且对于px和py中所有的行i和列j,分别判断每个行i和列j的Pixel(i)<a×p.width||Pixel(j)<b×p.length是否为真,是则判定行/列为空白行/空白列;
将空白行/空白列的数量计入Sr/Sc,并将行/列总数计入Wr/Wc;
根据Sr与Wr的比值获得平均连通阈值,并根据平均连通阈值以模糊拓展操作对每个图块进行连通域拓展。
在本发明实施例中,Pixel(i)为在行i中空白像素的个数,Pixel(j)为在列j中空白像素的个数。根据检测到的空白行/空白列数量可以确定平均连通阈值,而平均连通阈值是执行连通域拓展所需要的参数。平均连通阈值根据Sr与Wr的比值获得,但也可以根据Sc与Wc的比值获得,或者同时考虑这两个比值。
在一些实施方式中,从每个图块提取文字区域的边缘,并根据边缘分割每个图块包括:
将图块中的所有指定颜色像素归入一点集,并从点集中选取一点p加入子集s中;
采集点p的8-邻域像素并判断点p的8-邻域像素是否全部为指定颜色像素,是则将8-邻域像素中的指定颜色像素加入子集s中,同时从子集s中删除点p;
重复上一步骤直到子集s中的元素不再发生改变,其中从子集s中删除过的点不再作为8-邻域像素中的指定颜色像素而加入子集s中;
在点集中选取不同的点p并按照上述步骤分别生成不同的子集s,直到已经遍历点集中的每一点;
从不同的子集s分别提取子集s中的元素作为图块的分割曲线,并根据分割曲线分割对应的图块。
在本发明实施例中,此处的8-邻域像素与前述的8-邻域像素所指意义相同,其替代性实施方式也相同。子集s中的元素是点,或称为像素的位置;提取子集s中的元素作为图块的分割曲线即将这些点拟合为曲线。
在一些实施方式中,文本图像分割的至少一个步骤采用经过机器学习的人工智能来执行。
从上述实施例可以看出,本发明实施例提供的文本图像分割方法,通过将文本图像初步分割为多个图块、填充内部点以消除每个图块中文字内部的空白像素、通过投影方式对每个图块进行连通域拓展、提取文字区域的边缘并分割每个图块的技术手段,能够针对不同文本图像或不同类型的文本图像进行分割,在精度和普适性上都达到令人满意的水平。
需要特别指出的是,上述文本图像分割方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于文本图像分割方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种能够针对不同文本图像或不同类型的文本图像进行分割的装置。所述文本图像分割装置使用了上述的文本图像分割方法。
从上述实施例可以看出,本发明实施例提供的文本图像分割装置,通过将文本图像初步分割为多个图块、填充内部点以消除每个图块中文字内部的空白像素、通过投影方式对每个图块进行连通域拓展、提取文字区域的边缘并分割每个图块的技术手段,能够针对不同文本图像或不同类型的文本图像进行分割,在精度和普适性上都达到令人满意的水平。
需要特别指出的是,上述文本图像分割装置的实施例采用了所述文本图像分割方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述文本图像分割方法的其他实施例中。当然,由于所述文本图像分割方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述文本图像分割装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第三个方面,提出了一种执行所述文本图像分割方法的计算机设备的一个实施例。
所述执行所述文本图像分割方法的计算机设备包括存储器、至少一个处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时执行上述任意一种方法。
如图3所示,为本发明提供的执行所述文本图像分割方法的计算机设备的一个实施例的硬件结构示意图。
以如图3所示的计算机设备为例,在该计算机设备中包括一个处理器301以及一个存储器302,并还可以包括:输入装置303和输出装置304。
处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述文本图像分割方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的文本图像分割方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本图像分割装置的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置303可接收输入的数字或字符信息,以及产生与文本图像分割装置的用户设置以及功能控制有关的键信号输入。输出装置304可包括显示屏等显示设备。
所述一个或者多个文本图像分割方法对应的程序指令/模块存储在所述存储器302中,当被所述处理器301执行时,执行上述任意方法实施例中的文本图像分割方法。
所述执行所述文本图像分割方法的计算机设备的任何一个实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
基于上述目的,本发明实施例的第四个方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时可执行上述任意方法实施例中的文本图像分割方法与实现上述任意装置/系统实施例中的文本图像分割装置/系统。所述计算机可读存储介质的实施例,可以达到与之对应的前述任意方法与装置/系统实施例相同或者相类似的效果。
基于上述目的,本发明实施例的第五个方面,提出了一种计算机程序产品,该计算机程序产品包括存储在计算机可读存储介质上的计算程序,该计算机程序包括指令,当该指令被计算机执行时,使该计算机执行上述任意方法实施例中的文本图像分割方法与实现上述任意装置/系统实施例中的文本图像分割装置/系统。所述计算机程序产品的实施例,可以达到与之对应的前述任意方法与装置/系统实施例相同或者相类似的效果。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,典型地,本发明实施例公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文所述的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种文本图像分割方法,其特征在于,包括以下步骤:
获取所述文本图像,并根据先验规律将所述文本图像初步分割为多个图块;
确定每个所述图块中的内部点,并通过填充所述内部点以消除每个所述图块中文字内部的空白像素;
进一步通过投影方式对每个所述图块计算平均连通域值,并根据所述平均连通域值对每个所述图块进行连通域拓展;
从每个所述图块提取文字区域的边缘,并根据所述边缘分割每个所述图块。
2.根据权利要求1所述的方法,其特征在于,在根据先验规律将所述文本图像初步分割为多个图块的同时,还使用霍夫变换从所述文本图像中检测出空白直线,并进一步根据所述空白直线分割所述文本图像。
3.根据权利要求1所述的方法,其特征在于,确定每个所述图块中的所述内部点,并通过填充所述内部点以消除每个所述图块中文字内部的空白像素包括:
从每个所述图块中依次选取一像素点I,并提取所述像素点I的8-邻域像素区域I1、I2、I3、I4、I5、I6、I7、I8;
对每个所述像素点I分别计算α是否为假,是则判定为所述像素点I为内部点,其中α=(I1&&I2&&I3)||(I3&&I5&&I8)||(I6&&I7&&I8);
将每个所述内部像素点I的8-邻域像素全部填充为指定颜色;
重复以上步骤直到每个所述图块中均不存在所述内部像素点I。
4.根据权利要求1所述的方法,其特征在于,通过投影方式对每个所述图块计算平均连通域值,并根据所述平均连通域值对每个所述图块进行连通域拓展包括:
对每个所述图块P进行横向和纵向投影,获得投影图px和py;
确定先验阈值a和b,并且对于px和py中所有的行i和列j,分别判断每个所述行i和列j的Pixel(i)<a×p.width||Pixel(j)<b×p.length是否为真,是则判定所述行/列为空白行/空白列;
将所述空白行/空白列的数量计入Sr/Sc,并将所述行/列总数计入Wr/Wc;
根据Sr与Wr的比值获得所述平均连通阈值,并根据所述平均连通阈值以模糊拓展操作对每个所述图块进行连通域拓展。
5.根据权利要求1所述的方法,其特征在于,从每个所述图块提取文字区域的边缘,并根据所述边缘分割每个所述图块包括:
将所述图块中的所有指定颜色像素归入一点集,并从所述点集中选取一点p加入子集s中;
采集所述点p的8-邻域像素并判断所述点p的8-邻域像素是否全部为所述指定颜色像素,是则将所述8-邻域像素中的指定颜色像素加入所述子集s中,同时从所述子集s中删除点p;
重复上一步骤直到所述子集s中的元素不再发生改变,其中从所述子集s中删除过的点不再作为所述8-邻域像素中的指定颜色像素而加入所述子集s中;
在所述点集中选取不同的点p并按照上述步骤分别生成不同的所述子集s,直到已经遍历所述点集中的每一点;
从不同的所述子集s分别提取所述子集s中的元素作为所述图块的分割曲线,并根据所述分割曲线分割对应的图块。
6.根据权利要求1-5任一项所述的方法,其特征在于,文本图像分割的至少一个步骤采用经过机器学习的人工智能来执行。
7.一种文本图像分割装置,其特征在于,使用如权利要求1-6任意一项所述的方法。
8.一种计算机设备,包括存储器、至少一个处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1-6任意一项所述的方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行权利要求1-6任意一项所述的方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在计算机可读存储介质上的计算程序,所述计算程序包括指令,当所述指令被计算机执行时,使所述计算机执行权利要求1-6任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810174594.6A CN108460385A (zh) | 2018-03-02 | 2018-03-02 | 一种文本图像分割方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810174594.6A CN108460385A (zh) | 2018-03-02 | 2018-03-02 | 一种文本图像分割方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108460385A true CN108460385A (zh) | 2018-08-28 |
Family
ID=63217052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810174594.6A Pending CN108460385A (zh) | 2018-03-02 | 2018-03-02 | 一种文本图像分割方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108460385A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144395A (zh) * | 2019-12-27 | 2020-05-12 | 苏州浪潮智能科技有限公司 | 一种基于Cadence Skill快速反标文字图形的方法和装置 |
CN111563505A (zh) * | 2019-02-14 | 2020-08-21 | 北京奇虎科技有限公司 | 一种基于像素分割合并的文字检测方法及装置 |
CN111738127A (zh) * | 2020-06-17 | 2020-10-02 | 安徽淘云科技有限公司 | 实体书就位检测方法、装置、电子设备和存储介质 |
CN111738170A (zh) * | 2020-06-24 | 2020-10-02 | 北京易真学思教育科技有限公司 | 空白行区域检测方法及设备 |
CN113744278A (zh) * | 2021-01-20 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 文本检测方法和装置 |
CN114365202A (zh) * | 2019-09-16 | 2022-04-15 | 国际商业机器公司 | 经由上下文无关的递归文档分解来学习的可扩展结构 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101122952A (zh) * | 2007-09-21 | 2008-02-13 | 北京大学 | 一种图片文字检测的方法 |
CN102663382A (zh) * | 2012-04-25 | 2012-09-12 | 重庆邮电大学 | 基于子网格特征自适应加权的视频图像文字识别方法 |
CN103455814A (zh) * | 2012-05-31 | 2013-12-18 | 佳能株式会社 | 用于文档图像的文本行分割方法和系统 |
CN104298985A (zh) * | 2014-08-11 | 2015-01-21 | 东莞中山大学研究院 | 一种基于迭代的图像文本区域检测方法 |
CN105046254A (zh) * | 2015-07-17 | 2015-11-11 | 腾讯科技(深圳)有限公司 | 字符识别方法及装置 |
CN106815561A (zh) * | 2016-12-22 | 2017-06-09 | 北京五八信息技术有限公司 | 营业执照版面分析方法及装置 |
-
2018
- 2018-03-02 CN CN201810174594.6A patent/CN108460385A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101122952A (zh) * | 2007-09-21 | 2008-02-13 | 北京大学 | 一种图片文字检测的方法 |
CN102663382A (zh) * | 2012-04-25 | 2012-09-12 | 重庆邮电大学 | 基于子网格特征自适应加权的视频图像文字识别方法 |
CN103455814A (zh) * | 2012-05-31 | 2013-12-18 | 佳能株式会社 | 用于文档图像的文本行分割方法和系统 |
CN104298985A (zh) * | 2014-08-11 | 2015-01-21 | 东莞中山大学研究院 | 一种基于迭代的图像文本区域检测方法 |
CN105046254A (zh) * | 2015-07-17 | 2015-11-11 | 腾讯科技(深圳)有限公司 | 字符识别方法及装置 |
CN106815561A (zh) * | 2016-12-22 | 2017-06-09 | 北京五八信息技术有限公司 | 营业执照版面分析方法及装置 |
Non-Patent Citations (2)
Title |
---|
冯瀚洋: "基于半监督结构学习的网页分割", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
郭佥: "图像文本的版面分析与理解", 《万方学位论文》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563505A (zh) * | 2019-02-14 | 2020-08-21 | 北京奇虎科技有限公司 | 一种基于像素分割合并的文字检测方法及装置 |
CN114365202A (zh) * | 2019-09-16 | 2022-04-15 | 国际商业机器公司 | 经由上下文无关的递归文档分解来学习的可扩展结构 |
CN114365202B (zh) * | 2019-09-16 | 2022-09-20 | 国际商业机器公司 | 经由上下文无关的递归文档分解来学习的可扩展结构 |
CN111144395A (zh) * | 2019-12-27 | 2020-05-12 | 苏州浪潮智能科技有限公司 | 一种基于Cadence Skill快速反标文字图形的方法和装置 |
CN111144395B (zh) * | 2019-12-27 | 2022-05-24 | 苏州浪潮智能科技有限公司 | 一种基于Cadence Skill快速反标文字图形的方法和装置 |
CN111738127A (zh) * | 2020-06-17 | 2020-10-02 | 安徽淘云科技有限公司 | 实体书就位检测方法、装置、电子设备和存储介质 |
CN111738127B (zh) * | 2020-06-17 | 2023-08-25 | 安徽淘云科技股份有限公司 | 实体书就位检测方法、装置、电子设备和存储介质 |
CN111738170A (zh) * | 2020-06-24 | 2020-10-02 | 北京易真学思教育科技有限公司 | 空白行区域检测方法及设备 |
CN111738170B (zh) * | 2020-06-24 | 2022-05-06 | 北京易真学思教育科技有限公司 | 空白行区域检测方法及设备 |
CN113744278A (zh) * | 2021-01-20 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 文本检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460385A (zh) | 一种文本图像分割方法与装置 | |
CN106254933B (zh) | 字幕提取方法及装置 | |
Tursun et al. | Mtrnet: A generic scene text eraser | |
CN112819686B (zh) | 基于人工智能的图像风格处理方法、装置及电子设备 | |
CN114005123B (zh) | 一种印刷体文本版面数字化重建系统及方法 | |
CN104933747B (zh) | 将矢量动画转换为位图动画的方法及装置 | |
CN109146991B (zh) | 一种图片格式转换方法、装置、设备和存储介质 | |
CN112771578B (zh) | 使用细分缩放和深度上缩放的图像生成 | |
WO2022105608A1 (zh) | 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质 | |
JPH04296985A (ja) | データ分析用密度集合階層化方法および装置 | |
CN105828081B (zh) | 编码方法及编码装置 | |
CN110363720A (zh) | 一种图像的色彩增强方法、装置、设备和存储介质 | |
CN114266945A (zh) | 一种目标检测模型的训练方法、目标检测方法及相关装置 | |
CN114357958A (zh) | 一种表格提取方法、装置、设备及存储介质 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN102483849A (zh) | 基于感兴趣区域来减少图像序列中的伪像的系统和方法 | |
CN111985471B (zh) | 一种车牌定位方法、装置及存储介质 | |
CN111814795A (zh) | 字符分割方法、装置及计算机可读存储介质 | |
CN116778497A (zh) | 一种人手井编号识别方法、装置、计算机设备和存储介质 | |
CN116167910A (zh) | 文本编辑方法、装置、计算机设备及计算机可读存储介质 | |
CN113095239B (zh) | 一种关键帧提取方法、终端及计算机可读存储介质 | |
WO2023273102A1 (zh) | 一种图像处理方法、装置、计算机设备和存储介质 | |
CN114140488A (zh) | 视频目标分割方法及装置、视频目标分割模型的训练方法 | |
CN116263943A (zh) | 图像修复方法和设备以及电子装置 | |
JP4890351B2 (ja) | 画像処理装置、画像処理プログラムおよび該画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに画像処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180828 |