CN106156773A - 一种文本图像的分割方法及装置 - Google Patents

一种文本图像的分割方法及装置 Download PDF

Info

Publication number
CN106156773A
CN106156773A CN201610474774.7A CN201610474774A CN106156773A CN 106156773 A CN106156773 A CN 106156773A CN 201610474774 A CN201610474774 A CN 201610474774A CN 106156773 A CN106156773 A CN 106156773A
Authority
CN
China
Prior art keywords
node
character
nodes
text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610474774.7A
Other languages
English (en)
Inventor
李树涛
钟巧
孙斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201610474774.7A priority Critical patent/CN106156773A/zh
Publication of CN106156773A publication Critical patent/CN106156773A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明实施例提供了一种文本图像的分割方法及装置,属于图像处理领域。该文本图像的分割方法包括:对文本图像进行二值化处理获取二值化图像,其中,所述文本图像包括多个文本行;获取所述二值化图像中满足预设的阈值条件的连通区域;获取所述连通区域的字符节点构建有向图;对所述有向图进行最短路径搜索得到所述文本图像中属于每一个所述文本行的字符节点序列;根据所得到的字符节点序列对所述文本图像进行分割。相比于现有的文本行分割方法,本发明实施例提供的文本图像的分割方法及装置有效地提高了对文本行存在倾斜、扭曲的文本图像进行行分割的正确率。

Description

一种文本图像的分割方法及装置
技术领域
本发明涉及图像处理领域,具体而言,涉及一种文本图像的分割方法及装置。
背景技术
在对扫描文本图像进行文字分割、字符识别之前,需要先对文本图像中的每一个文本行进行分割。现有的文本行分割方法是通过对原文本图像的二值图像进行水平投影,找到投影图像的波峰波谷,这类算法需要文本行没有倾斜,行与行之间没有重叠的部分。然而,实际应用中,扫描文本图像可能会因为一些外部原因造成图像中的文本行发生倾斜、扭曲的情况。因此,当扫描文本图像中存在发生倾斜、扭曲的文本行时,将无法得到较准确的行分割结果。
发明内容
鉴于此,本发明的目的在于提供一种文本图像的分割方法及装置,能够较准确地对文本行发生倾斜、扭曲的文本图像进行行分割。
为了实现上述目的,本发明采用的技术方案如下:
第一方面,本发明实施例提供了一种文本图像的分割方法,所述方法包括:对文本图像进行二值化处理获取二值化图像,其中,所述文本图像包括多个文本行;获取所述二值化图像中满足预设的阈值条件的连通区域;获取所述连通区域的字符节点构建有向图;对所述有向图进行最短路径搜索得到所述文本图像中属于每一个所述文本行的字符节点序列;根据所得到的字符节点序列对所述文本图像进行分割。
第二方面,本发明实施例还提供了一种文本图像的分割装置,所述装置包括二值化图像获取模块、连通区域获取模块、有向图构建模块及分割模块。二值化图像获取模块用于对文本图像进行二值化处理获取二值化图像,其中,所述文本图像包括多个文本行。连通区域获取模块用于获取所述二值化图像中满足预设的阈值条件的连通区域。有向图构建模块用于获取所述连通区域的字符节点构建有向图。字符节点序列获取模块用于对所述有向图进行最短路径搜索得到所述文本图像中属于每一个所述文本行的字符节点序列。分割模块用于根据所得到的字符节点序列对所述文本图像进行分割。
本发明实施例提供的文本图像的分割方法及装置将文本图像进而二值化处理,根据满足阈值条件的连通区域的字符节点构建有向图,然后对所构建的有向图进行最短路径搜索得到属于每一个文本行的字符节点序列,进而根据所述字符节点序列对所述文本图像进行分割。因此,对于文本行存在倾斜、扭曲的文本图像,通过本发明实施例提供的文本图像的分割方法及装置也能够快速且准确地查找到属于每一行的字符节点序列,从而再根据所得到的字符节点序列对文本图像进行行分割。相比于现有的文本行分割方法,有效地提高了对文本行存在倾斜、扭曲的文本图像进行行分割的正确率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明较佳实施例提供的计算机的方框示意图;
图2示出了文本行发生倾斜、扭曲的文本图像的示意图;
图3示出了本发明较佳实施例提供的一种文本图像的分割方法的流程图;
图4示出了本发明较佳实施例提供的文本图像的分割方法中有向图构建方法的流程图;
图5示出了本发明较佳实施例提供的文本图像的分割方法中字符节点序列获取方法的流程图;
图6示出了本发明较佳实施例提供的文本图像的分割方法中的最短路径搜索示例图;
图7示出了本发明较佳实施例提供的文本图像的分割方法对图2所示的文本图像的分割结果示意图;
图8示出了本发明较佳实施例提供的一种文本图像的分割装置的结构框图;
图9示出了本发明较佳实施例提供的一种文本图像的分割装置的向图构建模块的结构框图;
图10示出了本发明较佳实施例提供的一种文本图像的分割装置的字符节点序列获取模块的结构框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,是本发明较佳的实施例提供的计算机100的方框示意图。所述计算机100包括文本图像的分割装置200、存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105。
所述存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述文本图像的分割装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块,例如,所述文本图像的分割装置200包括的软件功能模块或计算机100程序。
其中,存储器101可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器101用于存储程序,所述处理器103在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器103中,或者由处理器103实现。
处理器103可能是一种集成电路芯片,具有信号的处理能力。上述的处理器103可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。
所述外设接口104将各种输入/输入装置耦合至处理器103以及存储器101。在一些实施例中,外设接口104,处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元105用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元105可以是,但不限于,鼠标和键盘等。
实际应用中,扫描文本图像可能会因为一些外部原因造成图像中的文本行发生倾斜、扭曲的情况,如图2所示。现有的文本行分割方法无法快速且准确的对这些发生倾斜、扭曲的文本行进行分割。鉴于此,本发明实施例提供了一种文本图像的分割方法,能够快速且准确地分割发生倾斜、扭曲的文本行。
图3示出了本发明实施例提供的文本图像的分割方法的流程图。请参照图3,该方法包括:
步骤S310:对文本图像进行二值化处理获取二值化图像,其中,所述文本图像包括多个文本行;
获取文本图像,其中,所述文本图像可以包括发生倾斜或扭曲的多个文本行,如图2所示。每一个文本行包括一个或多个字符。获取文本图像的具体方式可以为通过扫描的方式获取,也可以是通过拍照的方式获取。
文本图像包括背景区域及目标区域,所述目标区域由本文图像中字符对应的像素点构成。预设一个灰度阈值,根据所述灰度阈值对所获取的文本图像进行二值化处理得到所述本文图像的二值化图像。将文本图像中的每一个像素点的灰度值与所述灰度阈值进行比较,当像素点的灰度值大于所述灰度阈值时,将该像素点的灰度值重新设置为第一灰度值,当像素点的灰度值小于或等于所述灰度阈值时,将该像素点的灰度值重新设置为第二灰度值。其中,第一灰度值可以为0,第二灰度值可以设置为255,当然,也可以将第一灰度值设置为255,第二灰度值设置为0。对所述文本图像进行二值化处理得到二值化图像,就可以将文本图像中的背景区域与目标区域分离开。
其中,所述灰度阈值可以为预先存储在计算机中的一个多次试验得到的经验值,也可以通过输入输出单元105实时输入,还可以通过预设规则对具体的文本图像进行处理自适应的获取对应的灰度阈值。为了使得二值化处理过程具有自适应性,以得到更准确的二值化处理结果,本发明实施例优选通过预设规则对具体的文本图像进行处理自适应的获取对应的灰度阈值。例如,所述预设规则可以为大津法。
步骤S320:获取二值化图像中满足预设的阈值条件的连通区域;
获取到文本图像的二值化图像后,查找二值化图像中的连通区域,并对查找到的连通区域进行标记。例如,可以查找二值化图像中的4邻域连通区域,或者也可以查找二值化图像中的8邻域连通区域。为了尽量使得文本图像中的单个字符合并成一个连通区域以简化计算过程,本实施例优选查找二值化图像中的8邻域连通区域。
文本图像中的字符一般包括文字字符和标点字符。因此,所获取到的连通区域包括文字字符所对应的连通区域及标点字符所对应的连通区域。进一步地,根据预设的阈值条件对所获得的连通区域进行筛选,剔除不满足所述阈值条件的连通区域。也就是说,将不满足所述阈值条件的连通区域的灰度值也设置为背景区域。其中,不满足所述阈值条件的连通区域包括二值化图像中标点字符对应的连通区域及二值化图像中可能存在的噪声点所对应的连通区域。
其中,阈值条件可以根据连通区域的面积设定。连通区域的面积即为连通区域所包括的像素点的个数。具体的,将二值化图像中所获取到的每一个连通区域的面积与预设的面积阈值比较,当当前连通区域的面积小于预设面积阈值时,将当前连通区域剔除,当当前连通区域的面积大于或等于预设面积阈值时,则保留当前连通区域。其中,所述面积阈值可以根据二值化图像中所有连通区域的平均面积设置。经过多次试验,本实施例中,所述面积阈值可以优选为所述平均面积的四分之一倍。
另外,所述阈值条件也可以根据连通区域的高度设定。其中,连通区域的高度可以为连通区域的外接矩形的高度,即连通区域的外接矩形中沿文本图像列方向的一条边所包含的像素点个数。具体的,将二值化图像中所获取到的每一个连通区域的高度与预设高度阈值比较,当当前连通区域的高度小于预设高度阈值时,将当前连通区域剔除,当当前连通区域的高度大于或等于预设高度阈值时,则保留当前连通区域。其中,所述高度阈值可以为通过多次试验得到的经验值。
需要说明的是,在本发明较佳的实施例中,在执行完步骤S310,获得二值化图像后,可以预先对二值化图像进行闭运算,然后再对执行闭运算操作后的二值化图像进行连通区域标记及筛选。对二值化图像进行闭运算的目的在于去掉目标区域内的孔,使得单个字符合并成一个连通区域。本实施例优选采用线性结构元素对上述二值化图像进行闭运算。所述线性结构元素的长度可以根据二值化图像中所有连通区域的宽度的平均值设置。其中,所述连通区域的宽度具体为连通区域的外接矩形中沿文本图像行方向的一条边所包含的像素点个数。经过多次试验,本实施例中,线性结构元素的长度可以优选设置为所有连通区域的宽度的平均值的五分之一倍。
例如,执行完步骤S310,获得的二值化图像为A,采用线性结构元素对上述二值化图像A进行闭运算后得到二值化图像B,具体算法为:
B = A · H = ( A ⊕ H ) Θ H - - - ( 1 ) 式(1)中,H是一个线性结构元素,角度为0,Θ表示腐蚀操作,表示膨胀操作。
步骤S330:获取连通区域的字符节点构建有向图;
对二值化图像执行完步骤S320的操作后,获取步骤S320所得到的连通区域的字符节点。本实施中,所述字符节点为所述连通区域的外接矩形中,沿文本图像行方向的两条边上的任意一个像素点。为了简化计算过程,可以优选将所述连通区域的外接矩形的角点作为字符节点。例如,可以采用所述连通区域的外接矩形的左上角的像素点作为该连通区域的字符节点。
进一步的,根据所获取到的字符节点构建有向图。如图4所示,步骤S330中,构建有向图的具体实施方法可以包括步骤S331至步骤S335。
步骤S331:获取连通区域的字符节点;
构建第一集合Z,第一集合包括S320所获取到的所有连通区域的字符节点的像素坐标。例如,假设步骤S320所获取到的连通区域的个数为N,则字符节点的个数也为N。此时,可以将第一集合表示为:Z={zi|i=1,...,N},其中,zi表示每一个字符节点。
步骤S332:根据所述二值化图像的像素点获取多个引导节点和一个终止节点;
为了确保后续对所构建的有向图进行最短路径搜索时,每次都能准确的从位于每一个文本行最左边的一个文本字符对应的字符节点开始搜索,需要设置多个引导节点。
本实施例中,多个引导节点及终止节点的一种设置方式为:对二值化图像进行垂直投影,可以得到所述二值化图像中目标区域所在的起始列像素点和终止列像素点。具体的,当二值化图像中的背景区域所包括的像素点的灰度值为0,目标区域的像素点的灰度值为255时,对该二值化图像进行垂直积分投影。根据得到的垂直积分投影曲线即可以得到该二值化图像中,从第一列像素点到最后一列像素点,第一个垂直积分投影值大于预设积分值的像素列,该像素列即为二值化图像中目标区域所在的起始像素列。此外,还可以得到最后一个垂直积分投影值大于预设积分值的像素列,该像素列即为二值化图像中目标区域所在的终止像素列。其中,所述预设积分值可以根据多次试验的经验值设置。此时,所述多个引导节点可以为二值化图像的第一列像素点、二值化图像中目标区域所在的起始像素列或第一列像素点到起始像素列之间的任意一列像素点,所述终止节点可以为二值化图像的最后一列像素点、二值化图像中目标区域所在的终止像素列或终止像素列到最后一列像素点之间的任意一列像素点中的任意一个。当然,为了简化计算过程,可以直接获取二值化图像的第一列像素点最为引导节点,获取二值化图像的最后一行且最后一列的像素点作为终止节点。
另外,本实施例还提供了多个引导节点及终止节点的另一种设置方式:多个引导节点为增设在所述二值化图像的第一列像素点之前的一列像素点,终止节点为增设在所述二值化图像的最后一列像素点之后的一列像素点中的其中一个像素点。为了方便计算,本实施例中,可以将增设在所述二值化图像的最后一列像素点之后的一列像素点中位于最后一行的像素点作为终止节点。
本实施例中,多个引导节点及终止节点优选采用上述的另一种设置方式,简单方便,可以有效地简化计算过程,有利于快速且准确地对文本图像进行行分割。
步骤S333:根据连通区域的字符节点、多个引导节点及终止节点构建节点集;
构建第二集合和第三集合,其中,所述第二集合包括所有引导节点,所述第三集合包括终止节点。根据所述连通区域的字符节点、所述多个引导节点及所述终止节点构建节点集,即根据上述第一集合、第二集合和第三集合构建节点集。
假设第一集合为Z,第二集合为P,第三集合为Q,节点集为V。其中,V={vi|i=1,...,M},Z={zi|i=1,...,N},P={pi|i=1,...,M0},Q={q},V=P∪Z∪Q,M=M0+N+1,M0表示二值化图像中每一列的像素点个数。
步骤S334:获取节点集中每个点与节点集中所有点之间的权值;
具体的,步骤S334包括:获取节点集中每个字符节点与节点集中所有点之间的权值,即获取第一集合中每个点与节点集中所有点之间的权值;获取节点集中的每个引导节点与节点集中所有点之间的权值,即获取第二集合中每个点与节点集中所有点之间的权值;获取节点集中的终止节点与节点集中所有点之间的权值,即获取第三集合中每个点与节点集中所有点之间的权值。
本实施例中,获取节点集中每个字符节点与节点集中所有点之间的权值的具体方法可以为:
在节点集所包括的第一集合中查找与当前字符节点的纵向距离小于预设距离阈值的所有字符节点。然后,在所查找到的所有字符节点中查找与当前字符节点距离最近的字符节点。将所述当前字符节点与距离其最近的字符节点之间的距离作为当前字符节点到与之最近的字符节点的权值。将当前字符节点与终止节点之间的距离作为当前字符节点与终止节点之间的权值。将当前字符节点与节点集中的其它字符节点及所有引导节点之间的权值设置为第一预设权值。可以理解的是,当前字符节点与当前字符节点自身的权值可以设置为0。其中,所述预设距离阈值可以根据步骤S320所获取到的所有连通区域的平均高度设定。例如,本实施例中,预设距离阈值可以是但不限于所有连通区域的平均高度的0.86倍。
例如,节点集所包括的第一集合可以表示为:Z={zi|i=1,...,N}。根据式(2)即可以找到与第一集合中当前字符节点的纵向距离小于预设距离阈值的所有字符节点。
| y z i - y z j | < &rho; - - - ( 2 )
其中,表示第一集合中当前字符节点zi的像素坐标投影到图像坐标系中对应的y轴坐标,表示第一集合中除当前字符节点以外的其它字符节点zj的像素坐标投影到图像坐标系中对应的y轴坐标。ρ表示预设距离阈值。然后,再根据式(3)计算满足式(2)的所有字符节点与当前字符节点zi的距离λ。
&lambda; = ( x z i - x z g ) 2 + ( y z i - y z g ) 2 , z g &Element; Z 1 - - - ( 3 )
其中,表示当前字符节点的像素坐标投影到图像坐标系中对应的x轴坐标,表示满足式(2)的任意一个字符节点zg的像素坐标投影到图像坐标系中对应的x轴坐标,表示字符节点zg的像素坐标投影到图像坐标系中对应的y轴坐标,Z1为满足式(2)的所有字符节点构成的集合。对比满足式(2)的所有字符节点与当前字符节点zi的距离λ,可以得到满足式(2)且距离当前字符节点最近的字符节点zm。将当前字符节点与字符节点zm之间的距离设置为当前字符节点zi与字符节点zm之间的权值。
因此,将第一集合中每个字符节点作为当前字符节点,根据上述方法,就可以获取到第一集合中每个字符节点与节点集中所有点之间的权值。本实施例对每个字符节点到节点集中所有点之间的权值的设置可以有效地保证对应于同一个文本行的字符节点之间的权值最小。
本实施例中,获取所述节点集中的每个引导节点与节点集中所有点之间的权值的具体方法可以为:
在所述节点集所包括的第一集合中查找与节点集中每个引导节点距离最近的字符节点。获取当前引导节点与对应与之最近的字符节点之间的距离作为当前引导节点与该字符节点之间的权值。将当前引导节点与节点集中除所述最近的字符节点之外的其它字符节点之间的权值及当前引导节点与终止节点之间的权值均设置为第一预设权值;将当前引导节点与节点集所包括的第二集合中的其它引导节点之间的权值设置为第二预设权值。可以理解的是,当前引导节点与当前引导节点自身的权值可以设置为0。
假设节点集所包括的第二集合为:P={pi|i=1,...,M0},计算第二集合中的每个引导节点pi与节点集所包括的第一集合中所有字符节点之间的距离。进而分别查找与每一个引导节点pi距离最近的字符节点zk。将当前引导节点到与所查找到的距离该当前引导节点最近的字符节点之间的距离设置为当前引导节点与该字符节点之间的权值。进而,就可以得到每个引导节点pi与距离其最近的字符节点之间的权值。
本实施例对每一个引导节点与节点集中所有点之间的权值的设置可以有效地保证后续每一次对有向图执行最短路径搜索操作时均能准确的从节点集中位于同一文本行的第一个字符节点开始搜索。
本实施例中,获取节点集中的终止节点与节点集中所有点之间的权值的具体方法可以为:将终止节点与节点集中除了该终止节点之外的点之间的权值均设置为第一预设权值。可以理解的是,终止节点与终止节点自身的权值可以设置为0。
其中,第一预设权值和第二预设权值可以根据节点集中任意两个点的坐标在二值化图像中的欧式距离设定。具体的,第二预设权值远小于节点集中任意两个点的坐标在二值化图像中的欧式距离,而第一预设权值远大于节点集中任意两个点的坐标在二值化图像中的距离。例如,节点集中任意两个点的坐标在二值化图像中的欧式距离在2-20范围内时,可以将第一预设权值设置为10000,第二预设权值可以设置为0.01。
步骤S335:根据节点集及节点集中每个点与节点集中所有点之间的权值构建有向图。
根据节点集及节点集中每个点与节点集中所有点之间的权值构建有向图G={V,E}。其中,V={vi|i=1,...,M}为节点集,即该有向图的节点的集合,E={ei,j|vi,vj∈V}是该有向图的边的集合。根据获取到的节点集中每个点与节点集中所有点之间的权值构建该有向图G的邻接矩阵。例如,邻接矩阵可以表示为:W={wi,j|i=1,...,M,j=1,...,M},其中,wi,j有向图G中第i个节点与第j个节点之间的权值。
步骤S340:对有向图进行最短路径搜索得到文本图像中属于每一个文本行的字符节点序列;
根据步骤S330完成有向图的构建后,可以通过对所构建的有向图进行最短路径搜索得到所述文本图像中属于每一个所述文本行的字符节点序列。具体的,如图5所示,步骤S340可以包括步骤S341至步骤S346。
步骤S341:获取有向图的起始节点。
其中,所述起始节点为所述多个引导节点中的一个,即从上述第二集合中获取一个点作为起始节点。本实施例中,为了便于计算,优选将像素坐标位于二值化图像第一行的引导节点作为起始节点。
步骤S342:查找有向图中起始节点到终止节点之间的最短路径。
从起始节点开始,根据有向图的每一条边所对应的权值,即根据有向图的邻接矩阵查找所述有向图中连接起始节点与终止节点的最短路径。例如,可以利用狄杰斯特拉(Dijkstra)算法查找所述有向图中起始节点到终止节点之间的最短路径。
步骤S343:根据所述最短路径得到节点集中属于当前文本行的字符节点序列。
每一次最短路径搜索操作所得到的最短路径通常由顺序排列的起始节点、引导节点、字符节点和终止节点构成。进一步,按最短路径顺序提取其中的字符节点构建字符节点序列。所得到的字符节点序列中的字符节点均属于同一文本行中。字符节点序列中字符节点的排布顺序即为该文本行中对应的文字字符的排布顺序。
具体的,如图6所示,每一个方格表示一个像素点,D0,D1,D2,D3,D4,D5,D6,D7,D8,D9表示引导节点,其中,D0为起始节点。A1至A7为属于当前文本行的字符节点,B1至B7为属于当前文本行的下一文本行的字符节点,E为终止节点。当有向图中的节点包括图6所示D0至D9、A1至A7及B1至B7时,查找该有向图中起始节点D0到终止节点E之间的进行最短路径搜索可以得到最短路径(D0,D1,A1,A2,A3,A4,A5,A6,A7,E)。进一步,就可以提取出对应于当前文本行字符节点序列{A1,A2,A3,A4,A5,A6,A7}。
步骤S344:将字符节点序列中的所有字符节点从节点集中删除。
节点集包括由字符节点组成的第一集合、由引导节点组成的第二集和以及由终止节点组成的第三集合。将字符节点序列中的所有字符节点从节点集中删除,也就是将字符节点序列中的所有字符节点从第一集合中删除。
步骤S345:判断节点集中是否存在字符节点。
当所述节点集中存在字符节点时,即第一集合不为空集时,执行步骤S346,当所述节点集中不存在字符节点时,即第一集合为空集时,表示已完成文本图像所包括的每一个文本行对应的字符节点序列的获取,继续执行步骤S350,以根据所得到的所有字符节点序列对文本图像中的每一个文本行进行分割。
步骤S346:更新有向图。
执行完步骤S344,按照上述步骤S330的方法,根据当前节点集重新构建有向图,返回执行步骤S342,以得到第一集合中属于下一文本行的字符节点序列。
例如,如图6所示,将A1,A2,A3,A4,A5,A6,A7从第一集合中删除后,判断节点集中存在字符节点,根据当前节点集重新构建有向图,返回执行步骤S342,可以得到起始节点D0到终止节点E之间新的最短路径(D0,D5,B1,B2,B3,B4,B5,B6,B7,E),从而就可以提取出对应于下一文本行的字符节点序列{B1,B2,B3,B4,B5,B6,B7}。
重复执行步骤S342至步骤S346,直至完成文本图像所包括的每一个文本行对应的字符节点序列的获取。
步骤S350:根据所得到的字符节点序列对文本图像进行分割。
根据上述步骤S350得到文本图像中的各个文本行所对应的字符节点序列后,连接每个字符节点序列中的所有字符节点即可以对所述文本图像的文本行进行分割。例如,可以利用折线连接每个字符节点序列中的所有字符节点以对文本图像的文本行进行分割。
根据上述步骤S310至步骤S350对图2所示的文本图像进行处理后,为了查看分割效果,可以用折线连接每个字符节点序列中的所有字符节点并显示在图2所示的文本图像上,如图7所示。
另外,本发明实施例还提供了一种文本图像的分割装置200,如图8所示,该装置包括:
二值化图像获取模块210,用于对文本图像进行二值化处理获取二值化图像,其中,所述文本图像包括多个文本行。
连通区域获取模块220,用于获取所述二值化图像中满足预设的阈值条件的连通区域。
有向图构建模块230,用于获取所述连通区域的字符节点构建有向图。
字符节点序列获取模块240,用于对所述有向图进行最短路径搜索得到所述文本图像中属于每一个所述文本行的字符节点序列。
分割模块250,用于根据所得到的字符节点序列对所述文本图像进行分割。
进一步的,为了将文本图像中的单个文本字符合并成一个连通区域,本文本图像的分割装置还包括预处理模块,用于利用线性结构元素对所述二值化图像进行闭运算操作。
具体的,如图9所示,所述有向图构建模块230包括:
第一获取子模块231,用于获取所述连通区域的字符节点。
第二获取子模块232,用于根据所述二值化图像的像素点获取多个引导节点和一个终止节点。
第一构建子模块233,用于根据所述连通区域的字符节点、所述多个引导节点及所述终止节点构建节点集。
权值获取子模块234,用于获取所述节点集中每个点与所述节点集中所有点之间的权值。
第二构建子模块235,用于根据所述节点集及所述节点集中每个点与所述节点集中所有点之间的权值构建有向图。
具体的,权值获取子模块234具体用于获取所述节点集中的每个所述字符节点与所述节点集中所有点之间的权值,获取所述节点集中的每个所述引导节点与所述节点集中所有点之间的权值,获取所述节点集中的所述终止节点与所述节点集中所有点之间的权值。
进一步的,如图10所示,所述字符节点序列获取模块240包括:
起始节点获取子模块241,用于获取所述有向图的起始节点,其中,所述起始节点为所述多个引导节点中的一个。
最短路径查找子模块242,用于查找所述有向图中所述起始节点到所述终止节点之间的最短路径。
字符节点序列获取子模块243,用于根据所述最短路径得到所述节点集中属于当前文本行的字符节点序列。
删除子模块244,用于将所述字符节点序列中的所有字符节点从所述节点集中删除。
判断子模块245,用于判断所述节点集中是否存在字符节点,当所述节点集中存在字符节点时,更新所述有向图;再次执行查找所述有向图中所述起始节点到所述终止节点之间的最短路径,根据所述最短路径得到所述节点集中属于下一文本行的字符节点序列,将所述字符节点序列中的所有字符节点从所述节点集中删除,直至所述节点集中没有字符节点存在。当所述节点集中不存在字符节点时,根据所得到的所有字符节点序列对文本图像中的每一个文本行进行分割。
综上所述,对于文本行存在倾斜、扭曲的文本图像中,通过本发明实施例提供的文本图像的分割方法及装置也能够快速且准确地查找到属于每一行的字符节点序列,从而再根据所得到的字符节点序列对文本图像进行行分割。相比于现有的文本行分割方法,有效地提高了对文本行存在倾斜、扭曲的文本图像进行行分割的正确率。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器301(ROM,Read-Only Memory)、随机存取存储器301(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…...”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本图像的分割方法,其特征在于,所述方法包括:
对文本图像进行二值化处理获取二值化图像,其中,所述文本图像包括多个文本行;
获取所述二值化图像中满足预设的阈值条件的连通区域;
获取所述连通区域的字符节点构建有向图;
对所述有向图进行最短路径搜索得到所述文本图像中属于每一个所述文本行的字符节点序列;
根据所得到的字符节点序列对所述文本图像进行分割。
2.根据权利要求1所述的方法,其特征在于,所述获取所述连通区域的字符节点构建有向图的步骤,包括:
获取所述连通区域的字符节点;
根据所述二值化图像的像素点获取多个引导节点和一个终止节点;
根据所述连通区域的字符节点、所述多个引导节点及所述终止节点构建节点集;
获取所述节点集中每个点与所述节点集中所有点之间的权值;
根据所述节点集及所述节点集中每个点与所述节点集中所有点之间的权值构建有向图。
3.根据权利要求2所述的方法,其特征在于,所述多个引导节点为增设在所述二值化图像的第一列像素点之前的一列像素点,所述终止节点为增设在所述二值化图像的最后一列像素点之后的一列像素点中的其中一个像素点。
4.根据权利要求2所述的方法,其特征在于,所述获取所述节点集中每个点与所述节点集中所有点之间的权值的步骤,包括:
获取所述节点集的每个所述字符节点与所述节点集中所有点之间的权值;
获取所述节点集中的每个所述引导节点与所述节点集中所有点之间的权值;
获取所述节点集中的所述终止节点与所述节点集中所有点之间的权值。
5.根据权利要求2所述的方法,其特征在于,所述对所述有向图进行最短路径搜索得到所述文本图像中属于每一个所述文本行的字符节点序列的步骤,包括:
获取所述有向图的起始节点,其中,所述起始节点为所述多个引导节点中的一个;
查找所述有向图中所述起始节点到所述终止节点之间的最短路径;
根据所述最短路径得到所述节点集中属于当前文本行的字符节点序列;
将所述字符节点序列中的所有字符节点从所述节点集中删除;
判断所述节点集中是否存在字符节点,当所述节点集中存在字符节点时,更新所述有向图;再次执行查找所述有向图中所述起始节点到所述终止节点之间的最短路径,根据所述最短路径得到所述节点集中属于下一文本行的字符节点序列,将所述字符节点序列中的所有字符节点从所述节点集中删除,直至所述节点集中没有字符节点存在。
6.根据权利要求4所述的方法,其特征在于,所述获取所述节点集的每个所述字符节点与所述节点集中所有点之间的权值的步骤,包括:
在所述节点集中查找与当前字符节点的纵向距离小于预设距离阈值的所有字符节点;
在所述所有字符节点中查找与所述当前字符节点距离最近的字符节点;
将所述当前字符节点与所述最近的字符节点之间的距离作为所述当前字符节点与所述最近的字符节点之间的权值;
将所述当前字符节点与所述终止节点之间的距离作为所述当前字符节点与所述终止节点之间的权值;
将所述当前字符节点与所述节点集中其它字符节点及所有引导节点之间的权值设置为第一预设权值。
7.根据权利要求4所述的方法,其特征在于,所述获取所述节点集中的每个所述引导节点与所述节点集中所有点之间的权值的步骤,包括:
在所述节点集中查找与每个引导节点距离最近的字符节点;
获取当前引导节点与所述最近的字符节点之间的距离作为所述当前引导节点与所述最近的字符节点之间的权值;
将所述当前引导节点与所述节点集中除所述最近的字符节点之外的其它字符节点之间的权值及所述当前引导节点与所述终止节点之间的权值均设置为第一预设权值;
将所述当前引导节点与所述节点集中的其它引导节点之间的权值设置为第二预设权值,其中,所述第一预设权值远大于所述第二预设权值。
8.根据权利要求1所述的方法,其特征在于,所述获取所述二值化图像中满足预设的阈值条件的连通区域的步骤之前,还包括:利用线性结构元素对所述二值化图像进行闭运算操作。
9.一种文本图像的分割装置,其特征在于,所述装置包括:
二值化图像获取模块,用于对文本图像进行二值化处理获取二值化图像,其中,所述文本图像包括多个文本行;
连通区域获取模块,用于获取所述二值化图像中满足预设的阈值条件的连通区域;
有向图构建模块,用于获取所述连通区域的字符节点构建有向图;
字符节点序列获取模块,用于对所述有向图进行最短路径搜索得到所述文本图像中属于每一个所述文本行的字符节点序列;
分割模块,用于根据所得到的字符节点序列对所述文本图像进行分割。
10.根据权利要求9所述的装置,其特征在于,所述有向图构建模块包括:
第一获取子模块,用于获取所述连通区域的字符节点;
第二获取子模块,用于根据所述二值化图像的像素点获取多个引导节点和一个终止节点;
第一构建子模块,用于根据所述连通区域的字符节点、所述多个引导节点及所述终止节点构建节点集;
权值获取子模块,用于获取所述节点集中每个点与所述节点集中所有点之间的权值;
第二构建子模块,用于根据所述节点集及所述节点集中每个点与所述节点集中所有点之间的权值构建有向图。
CN201610474774.7A 2016-06-27 2016-06-27 一种文本图像的分割方法及装置 Pending CN106156773A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610474774.7A CN106156773A (zh) 2016-06-27 2016-06-27 一种文本图像的分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610474774.7A CN106156773A (zh) 2016-06-27 2016-06-27 一种文本图像的分割方法及装置

Publications (1)

Publication Number Publication Date
CN106156773A true CN106156773A (zh) 2016-11-23

Family

ID=57349863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610474774.7A Pending CN106156773A (zh) 2016-06-27 2016-06-27 一种文本图像的分割方法及装置

Country Status (1)

Country Link
CN (1) CN106156773A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709394A (zh) * 2016-12-12 2017-05-24 北京慧眼智行科技有限公司 一种图像处理方法及装置
CN109389114A (zh) * 2017-08-08 2019-02-26 富士通株式会社 文本行获取装置和方法
CN109766892A (zh) * 2018-12-21 2019-05-17 西安交通大学 一种基于边缘检测的射线检测图像标记信息字符分割方法
CN109816847A (zh) * 2018-12-20 2019-05-28 深圳怡化电脑股份有限公司 一种判断手写字迹涂改的方法、装置及终端设备
CN110728687A (zh) * 2019-10-15 2020-01-24 卓尔智联(武汉)研究院有限公司 文件图像分割方法、装置、计算机设备和存储介质
CN112258531A (zh) * 2020-10-20 2021-01-22 广东博智林机器人有限公司 图像中最小独立轮廓分割提取方法、装置以及计算机设备
CN112818979A (zh) * 2020-08-26 2021-05-18 腾讯科技(深圳)有限公司 文本识别方法、装置、设备及存储介质
CN113421256A (zh) * 2021-07-22 2021-09-21 凌云光技术股份有限公司 一种点阵文本行字符投影分割方法及装置
CN113449729A (zh) * 2020-03-26 2021-09-28 富士通株式会社 用于消除线的图像处理装置、图像处理方法及存储介质
CN114187445A (zh) * 2021-11-29 2022-03-15 北京百度网讯科技有限公司 识别图像中文本的方法、装置、电子设备及存储介质
CN114255467A (zh) * 2020-09-22 2022-03-29 阿里巴巴集团控股有限公司 文本识别方法及装置、特征提取神经网络训练方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ABHISHEK KHANDELWAL等: "Text Line Segmentation for Unconstrained Handwritten Document Images Using Neighborhood Connected Component Analysis", 《INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION & MACHINE INTELLIGENCE》 *
LIUAN WANG等: "Globally optimal Text Line Extraction based on K-Shortest Paths algorithm", 《2016 12TH IARP WORKSHOP ON DOCUMENT ANALYSIS SYSTEM(DAS)》 *
VASANT MANOHAR等: "Graph Clustering-based Ensemble Method for Handwritten Text Line Segmentation", 《2011 INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709394B (zh) * 2016-12-12 2019-07-05 北京慧眼智行科技有限公司 一种图像处理方法及装置
CN106709394A (zh) * 2016-12-12 2017-05-24 北京慧眼智行科技有限公司 一种图像处理方法及装置
CN109389114A (zh) * 2017-08-08 2019-02-26 富士通株式会社 文本行获取装置和方法
CN109389114B (zh) * 2017-08-08 2021-12-03 富士通株式会社 文本行获取装置和方法
CN109816847A (zh) * 2018-12-20 2019-05-28 深圳怡化电脑股份有限公司 一种判断手写字迹涂改的方法、装置及终端设备
CN109816847B (zh) * 2018-12-20 2021-01-01 深圳怡化电脑股份有限公司 一种判断手写字迹涂改的方法、装置及终端设备
CN109766892A (zh) * 2018-12-21 2019-05-17 西安交通大学 一种基于边缘检测的射线检测图像标记信息字符分割方法
CN110728687A (zh) * 2019-10-15 2020-01-24 卓尔智联(武汉)研究院有限公司 文件图像分割方法、装置、计算机设备和存储介质
CN110728687B (zh) * 2019-10-15 2022-08-02 卓尔智联(武汉)研究院有限公司 文件图像分割方法、装置、计算机设备和存储介质
CN113449729A (zh) * 2020-03-26 2021-09-28 富士通株式会社 用于消除线的图像处理装置、图像处理方法及存储介质
CN112818979A (zh) * 2020-08-26 2021-05-18 腾讯科技(深圳)有限公司 文本识别方法、装置、设备及存储介质
CN112818979B (zh) * 2020-08-26 2024-02-02 腾讯科技(深圳)有限公司 文本识别方法、装置、设备及存储介质
CN114255467A (zh) * 2020-09-22 2022-03-29 阿里巴巴集团控股有限公司 文本识别方法及装置、特征提取神经网络训练方法及装置
CN112258531A (zh) * 2020-10-20 2021-01-22 广东博智林机器人有限公司 图像中最小独立轮廓分割提取方法、装置以及计算机设备
CN113421256A (zh) * 2021-07-22 2021-09-21 凌云光技术股份有限公司 一种点阵文本行字符投影分割方法及装置
CN113421256B (zh) * 2021-07-22 2024-05-24 凌云光技术股份有限公司 一种点阵文本行字符投影分割方法及装置
CN114187445A (zh) * 2021-11-29 2022-03-15 北京百度网讯科技有限公司 识别图像中文本的方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN106156773A (zh) 一种文本图像的分割方法及装置
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
KR101690981B1 (ko) 형태 인식 방법 및 디바이스
US9959475B2 (en) Table data recovering in case of image distortion
US11308710B2 (en) Polygonal region detection
CN108334805B (zh) 检测文档阅读顺序的方法和装置
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
CN111899243A (zh) 一种图像清晰度评价方法、设备和计算机可读存储介质
CN110490190B (zh) 一种结构化图像文字识别方法及系统
JPH11219407A (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP6754120B2 (ja) プログラム、情報記憶媒体及び文字分割装置
CN107330430B (zh) 藏文字符识别装置与方法
CN111460355B (zh) 一种页面解析方法和装置
CN115759148B (zh) 图像处理方法、装置、计算机设备及计算机可读存储介质
Jain et al. A comparison paper on skew detection of scanned document images based on horizontal and vertical projection profile analysis
JP2016186703A (ja) 画像認識方法、画像認識装置および画像認識プログラム
US9916663B2 (en) Image processing method and process simulation apparatus
JP2015228188A (ja) 画像処理装置、画像処理方法及びプログラム
CN115909356A (zh) 数字文档的段落确定方法、装置、电子设备及存储介质
CN111639506B (zh) 图像中条形码的定位方法、装置、扫码设备
AL-Shatnawi et al. Skeleton extraction: Comparison of five methods on the arabic ifn/enit database
JP3058489B2 (ja) 文字列抽出方法
Naganjaneyulu et al. A multi clue heuristic based algorithm for table detection
EP1538547B1 (en) Method and device for extracting skeletal data from image data
Soares et al. Segment-based simple-connectivity measure design and implementation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161123

RJ01 Rejection of invention patent application after publication