CN106845474B - 图像处理装置和方法 - Google Patents

图像处理装置和方法 Download PDF

Info

Publication number
CN106845474B
CN106845474B CN201510889151.1A CN201510889151A CN106845474B CN 106845474 B CN106845474 B CN 106845474B CN 201510889151 A CN201510889151 A CN 201510889151A CN 106845474 B CN106845474 B CN 106845474B
Authority
CN
China
Prior art keywords
directed
connected components
text
directed edge
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510889151.1A
Other languages
English (en)
Other versions
CN106845474A (zh
Inventor
汪留安
范伟
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201510889151.1A priority Critical patent/CN106845474B/zh
Publication of CN106845474A publication Critical patent/CN106845474A/zh
Application granted granted Critical
Publication of CN106845474B publication Critical patent/CN106845474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了图像处理装置和方法。图像处理装置包括:构建单元,用于根据预定约束、按照预定方向以有向边连接待处理图像中的连通部件,以构建有向图;以及获取单元,用于基于所述有向图中的有向边获取所述待处理图像中的文本行,以便用于后续的文本处理,其中,对于任意两个连通部件,所述预定约束包括与所述两个连通部件之间的距离有关的距离约束以及与所述两个连通部件在所述预定方向上的重叠度有关的重叠度约束。

Description

图像处理装置和方法
技术领域
本公开总体上涉及图像处理领域,具体而言,涉及对包含文本的图像进行处理的图像处理装置和方法。
背景技术
目前,对包含文本的图像进行处理的技术正受到越来越多的关注。这样的技术可以包括诸如光学字符识别(OCR)的文本识别技术,并且更一般地包括与文本处理有关的各种图像处理技术。通过这些图像处理技术所得到的图像处理结果(例如文本识别结果)可以有利于帮助用户定位、识别、标注、检索、分类、或搜索文档中的内容。
然而,由于包含文本的图像可能具有复杂背景以及不同的文本方向,并且图像本身可能属于低质量的文档图像,因此导致对包含文本内容的图像的处理通常耗费大量的时间和系统资源。
因此,期望能够提高对包含文本内容的图像的处理效率。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种能够快速、准确地对包含任意方向、排列方向文本的图像进行处理的图像处理方法和装置,以至少克服现有的问题。
根据本公开的一个方面,提供了一种图像处理装置,包括:构建单元,用于根据预定约束、按照预定方向以有向边连接待处理图像中的连通部件,以构建有向图;以及获取单元,用于基于所述有向图中的有向边获取所述待处理图像中的文本行,以便用于后续的文本处理,其中,对于任意两个连通部件,所述预定约束包括与所述两个连通部件之间的距离有关的距离约束以及与所述两个连通部件在所述预定方向上的重叠度有关的重叠度约束。
根据本公开的另一方面,提供了一种图像处理方法,包括:根据预定约束、按照预定方向以有向边连接待处理图像中的连通部件,以构建有向图;以及基于所述有向图中的有向边获取所述待处理图像中的文本行,以便用于后续的文本处理,其中,对于任意两个连通部件,所述预定约束包括与所述两个连通部件之间的距离有关的距离约束以及与所述两个连通部件在所述预定方向上的重叠度有关的重叠度约束。
依据本公开的其它方面,还提供了一种使得计算机用作如上所述的图像处理装置的程序。
依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述图像处理方法。
上述根据本公开实施例的各个方面,至少能够获得以下益处:利用本公开所提供的图像处理方法和装置,能够快速、准确地获取图像中的文本行,以便用于后续的文本处理。
通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。
附图说明
本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示意性地示出根据本公开实施例的图像处理装置的示例结构的框图。
图2是用于说明根据本公开实施例的图像处理装置的构建单元所进行的示例处理的说明图。
图3是用于说明根据本公开实施例的图像处理装置的构建单元和获取单元所进行的示例处理的说明图。
图4是用于说明根据本公开实施例的图像处理装置的获取单元所进行的示例处理的说明图。
图5是示意性地示出根据本公开实施例的图像处理方法的示例流程的流程图。
图6是示出了可用来实现根据本公开实施例的图像处理装置和方法的一种可能的硬件配置的结构简图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
在面对包含文本内容的图像时,期望能够得到图像中的文本行,以便利于利用文本行进行后续处理。
基于此,本公开提出了一种图像处理方法和图像处理装置,其能够基于待处理图像中的连通部件构建有向图,并基于有向图获得待处理图像中的文本行,从而能够快速、准确地从包含任意排列方向的文本的图像中获取文本行以便用于后续的文本处理。
根据本公开的一个方面,提供了一种图像处理装置。图1是示意性地示出根据本公开实施例的图像处理装置100的示例结构的框图。如图1所示,图像处理装置100包括:构建单元101,用于根据预定约束、按照预定方向以有向边连接待处理图像中的连通部件,以构建有向图;以及获取单元102,用于基于所述有向图中的有向边获取所述待处理图像中的文本行,以便用于后续的文本处理,其中,对于任意两个连通部件,所述预定约束包括与所述两个连通部件之间的距离有关的距离约束以及与所述两个连通部件在所述预定方向上的重叠度有关的重叠度约束。
可以通过可选的预处理利用构建单元101获得待处理图像中的连通部件,也可以从图像处理装置100外部向构建单元101提供待处理图像中的连通部件。可以利用各种已知方式获得待处理图像中的连通部件,例如最大稳定极值区域(MSER)方法等,在此不进行详细描述。
构建单元101连接连通部件时所参照的预定约束用于避免连通部件之间的不必要的连接。作为示例,距离约束可以是两个连通部件mi,mj之间的距离满足下述公式(1)。
dist(mi,mj)<k*min(max(wi,hi),max(wj,hj)) 公式(1)
其中,dist(·,·)可以是两个连通部件的中心点之间的距离(即,两个连通部件各自的外接矩形框的中心之间的距离),wi,hi和wj,hj分别是连通部件mi,mj各自的外接矩形框的宽度和高度,其中,i、j是自然数,k可以是预先设置的调整因子。在一个示例中,可以将k设置为1。
作为示例,重叠度约束可以是两个连通部件在预定方向上的重叠度大于预定的重叠度阈值。可以根据应用要求来设置合适的重叠度阈值。例如,可以设置约(0-10%)重叠度阈值。
基于构建单元101所构建的有向图中的有向边,获取单元102可以获取待处理图像中的文本行,以便用于后续的文本处理。
利用例如上述的构建单元101和获取单元102,图像处理装置100能够基于待处理图像中的连通部件构建有向图,并基于有向图获得待处理图像中的文本行。与使用全向图等的现有技术方案相比,根据本公开实施例的图像处理装置100根据距离约束和重叠度约束构建有向图、并根据有向图获得文本行的处理有效降低了计算复杂度,从而降低了处理所耗费的时间和系统资源,能够快速、准确地获取文本行以便用于后续的文本处理。
在一个优选实施例中,当构建单元101连接待处理图像中的连通部件时,所参照的所述预定方向可以基于阅读方向,尤其是从上到下的方向和从左到右的方向。
通过根据预定约束、按照诸如阅读方向的预定方向以有向边连接待处理图像中的连通部件,构建单元101利用了文本行的固有特性,即文本行的方向通常与阅读方向一致,因此,所构建的有向图很好地反映了文本行的特性。
注意,上述预定方向不限于常见的从上到下或从左到右的阅读方向,而是可以根据应用需要进行任何适当的设定。例如,当将图像处理装置100应用于中文古籍时,可以将从右到左的阅读方向设定为所述预定方向。
在一个优选实施例中,当构建单元101连接待处理图像中的连通部件时,所参照的所述预定方向可以包括多个预定方向。此时,两个连通部件的所述重叠度约束可以包括多个重叠度约束,其中每个重叠度约束与所述两个连通部件在所述多个预定方向中的一个预定方向上的重叠度有关。
例如,所述多个预定方向可以包括从上到下的方向以及从左到右的方向,而所述多个重叠度约束可以包括分别与这两个方向上的重叠度有关的两个重叠度约束。尽管在本文中将这样的预定方向和重叠度约束用作示例,但是本领域技术人员可以理解,可以根据应用需要设置和使用其他形式的适当的预定方向和重叠度约束。
在一个优选实施例中,当构建单元101构建有向图时,如果设置了多个预定方向和多个重叠度约束,则对于给定的当前连通部件,构建单元101可以通过下述一系列处理获得从当前连通部件出发的有向边。
首先,构建单元101可以获得满足与当前连通部件的所述距离约束以及与当前连通部件的所述多个重叠度约束中的一个重叠度约束的候选连通部件。
接着,针对所述多个预定方向中的每个预定方向,构建单元101可以进行下述处理:在所述候选连通部件当中,获得在该预定方向上与当前连通部件距离最近的最近连通部件;以及在所述候选连通部件当中,获得附加连通部件,所述附加连通部件与所述最近连通部件在所述多个预定方向中的其他预定方向上满足相应的重叠度约束。
然后,构建单元101可以构建从当前连通部件出发、分别指向针对所述多个预定方向获得的最近连通部件和附加连通部件的有向边。
通过针对待处理图像中的连通部件重复上述一系列处理,构建单元101可以获得以有向边连接待处理图像中的连通部件的有向图。作为示例,构建单元101可以按照所述预定方向(例如从上到下的方向以及从左到右的方向)对各个连通部件依次进行处理,以获得从每个连通部件出发的有向边,从而得到有向图。
以下参照图2描述构建单元101进行上述一系列处理的一个具体示例。图2是用于说明根据本公开实施例的图像处理装置100的构建单元101所进行的示例处理的说明图,其中示出了构建单元101按照上述方式进行一系列处理之后所获得的一个示例有向图。
在图2的示例中,设置了从上到下的方向以及从左到右的方向共两个预定方向,并且相应地,设置了分别与这两个方向上的重叠度有关的两个重叠度约束。此外,为便于说明起见,如图2所示,为待处理图像中的文本中所包括的每个连通部件设置了外接矩形框,并以每个外接矩形框的中心作为有向边与连通部件连接的位置来构建有向图。
以图2中的文本“Parking”中的字母“k”作为当前连通部件的示例,构建单元101可以获得满足与字母“k”的距离约束以及与字母“k”在上下方向或左右方向上的重叠度约束的候选连通部件。即,在本示例中,为候选连通部件的处理本身简单起见,当获取候选连通部件时,构建单元101可以考虑相对于当前连通部件字母“k”处于任意方向的目标连通部件:该连通部件只要满足与字母“k”的距离约束,并且满足与字母“k”在预定的从上到下方向及其相反方向(左右方向)以及预定的从左到右方向及其相反方向(上下方向)中的任何一个方向上的重叠度约束即可。
作为替选方式,当获取候选连通部件时,构建单元101也可以仅考虑相对于当前连通部件字母“k”处于预定方向(即,本示例中的从上到下方向或从左到右方向)上的目标连通部件。此时,构建单元101仅从字母k右侧和下侧的目标连通部件中获取候选连通部件:该连通部件应该满足与字母“k”的距离约束,并且满足与字母“k”在预定的从上到下方向或从左到右方向上的重叠度约束。
本领域技术人员可以理解,可以根据应用需要选择合适的获取候选连通部件的方式。为便于说明,在本示例中,采用上述第一种方式,即从相对于字母“k”处于任意方向的目标连通部件中获取候选连通部件。
具体地,在本示例中,所采用的距离约束可以是以上描述的公式(1)的约束,满足与字母“k”的这种距离约束的连通部件可以包括文本“Parking”中的字母“r”的连通部件、字母“i”的两个连通部件、以及字母“n”的连通部件。满足距离约束的上述连通部件均满足与字母“k”在左右方向上的重叠度约束(注意,此处如果采用获取候选连通部件的上述替选方式,则构建单元101所获取的候选连通部件将不包括上述字母“r”,在此不再展开描述)。
因此,构建单元101可以获得满足与字母“k”的距离约束和重叠度约束两者的连通部件是文本“Parking”中的字母“r”的连通部件、字母“i”的两个连通部件以及字母“n”的连通部件。相应地,构建单元101将这四个连通部件作为候选连通部件。
接着,针对从左到右的预定方向,构建单元101可以在这四个候选连通部件即文本“Parking”中的字母“r”的连通部件、字母“i”的两个连通部件以及字母“n”的连通部件当中,获得在该预定方向上与当前连通部件“k”距离最近的最近连通部件,从而得到上述字母“i”的下半部分的连通部件。然后,在上述四个候选连通部件当中,获得与该最近连通部件在另一预定方向(即上下方向)上满足相应的重叠度约束的连通部件,从而得到文本“Parking”中的字母“i”的上半部分的连通部件,作为附加连通部件。
另一方面,对于从上到下的预定方向,由于针对当前连通部件字母“k”不具有该预定方向上的候选连通部件(由于该预定方向上的连通部件不满足与字母“k”的距离约束),因此跳过相应的处理。
这样,对于作为当前连通部件的字母“k”,针对从左到右的预定方向获得的最近连通部件(字母“i”的下半部分的连通部件)和附加连通部件(字母“i”的上半部分的连通部件)就是最终的最近连通部件和附加连通部件。构建单元101可以获得从字母“k”出发、分别指向上述的最近连通部件和附加连通部件(即字母“i”的下半部分的连通部件以及字母“i”的上半部分的连通部件)的两个有向边。
按照类似的方式,构建单元101可以例如按照从左到右、从上到下的方向依次构建从待处理图像中的每个连通部件出发的有向边(在存在从该连通部件出发的有向边的情况下),从而得到图2中所示的示例有向图。
尽管以上参照图2描述了构建单元101进行一系列处理以获得有向图的具体示例,但是本领域技术人员可以理解,构建单元101获得有向图的方式不限于上述示例的具体细节。
在一个优选实施例中,对于构建单元101所构建的有向图,获取单元102可以被配置为针对所述有向图中的有向边设置有向边代价函数,并基于所述有向边代价函数获取所述待处理图像中的文本行。
作为示例,利用为有向图中的有向边设置的代价函数,获取单元102可以针对有向图进行优化处理,并且在得到优化结果时基于有向图中的有向边获取待处理图像中的文本行。
在一个优选实施例中,获取单元102可以进一步被配置为对所述有向图中的每个有向边设置基于下述中的至少一者的有向边代价函数:单一代价函数,用于表示该有向边所连接的两个连通部件各自的文本置信度;以及双向代价函数,用于表示该有向边所连接的两个连通部件之间的连续性。
在一个示例中,获取单元102可以基于下述特征a)至c)中的一个或更多个获得给定有向边的单一代价函数,其中特征a)至c)均可反映该有向边所连接的两个连通部件各自的文本置信度:
a)文本识别引擎对该有向边所连接的两个连通部件各自的识别置信度。文本识别引擎的识别置信度是用来分类文本和噪声的很好特征。
b)该有向边所连接的两个连通部件各自的变化率。文本连通部件的最大稳定极值区域(MSER)是大致不变的,即文本连通部件趋向于具有较小的MSER变化率。
c)该有向边所连接的两个连通部件各自的占空比。文本连通部件经常拥有一定的占空比,占空比太大或太小的连通部件更倾向于噪声。
在一个示例中,获取单元102可以基于下述特征e)至f)中的一个或更多个获得给定有向边的双向代价函数:
e)该有向边所连接的两个连通部件之间的距离。文本行是由文本按照特定的顺序连接起来,因此相邻文本连通部件之间的距离应该小于预定阈值(本领域技术人员可以通过各种已知方式获得这样的阈值,在此不进行详细描述)。
f)该有向边所连接的两个连通部件之间的重叠性。文本行中的所有连通部件可以近似看成一条直线,因此,相邻的文本连通部件在预定方向(例如阅读方向)上的重叠度较高。
g)该有向边所连接的两个连通部件之间的颜色相似性。文本行中的相邻连通部件之间应当具有相似的颜色特征。
尽管以上给出了代价函数的具体示例,但是获取单元102所设置的代价函数不限于这些具体示例,而是只要可以用来衡量从给定有向边的出发节点到该有向边的到达节点间的代价值即可。例如,这样的代价值可以包括但不限于由上述单一代价函数表示的把连通部件分类为文本的代价值以及由上述双向代价函数表示的两个连通部件不连续的代价值。
在一个优选实施例中,构建单元101可以进一步被配置为对基于所述连通部件构建的有向图添加虚拟初始起始节点和虚拟终点节点,并构建从所述虚拟初始起始节点指向所述待处理图像中的所有连通部件的有向边以及从所述待处理图像中的所有连通部件指向所述虚拟终点节点的有向边。在这种情况下,获取单元102可以进一步被配置为对从所述虚拟初始起始节点指向所述连通部件的有向边以及从所述连通部件指向所述虚拟终点节点的有向边设置取值为0的有向边代价函数。
以下参照图3描述构建单元101和获取单元102所进行的上述处理的一个具体示例。图3是用于说明根据本公开实施例的图像处理装置100的构建单元101和获取单元102所进行的示例处理的说明图,其中示出了构建单元101按照上述方式进行与虚拟初始起始节点和虚拟终点节点系列有关的处理之后所获得的一个示例有向图。
在图3的示例有向图中,在图2中所示的示例有向图的基础之上,由构建单元101添加了虚拟初始起始节点vsource和虚拟终点节点vsink,并构建了从该虚拟初始起始节点vsource指向待处理图像中的所有连通部件的有向边以及从所有连通部件指向该虚拟终点节点vsink的有向边。对于图3所示的示例有向图,获取单元102可以对从虚拟初始起始节点vsource出发或者指向虚拟终点节点vsink的所有有向边设置取值为0的有向边代价函数。
作为示例,针对例如图3所示的、添加了虚拟初始起始节点和虚拟终点节点以及相关有向边(其有向边代价函数为0)的有向图,获取单元102可以对该有向图中的虚拟起始节点vsource和虚拟终止节点vsink之间的、基于有向边的路径进行优化,并基于最小化全局代价函数的最优解来获取待处理图像中的文本行。
例如,获取单元102可以利用下述公式(2)来求得最小化全局代价函数的最优解。
Figure BDA0000869469400000091
公式(2)
在公式(2)中,G=(V,E)表示由顶点集合
Figure BDA0000869469400000092
和有向边集合E={ei,j|vi,vj∈V}构成的例如图3所示的有向图,其中顶点vi表示一个连通部件的位置(例如该连通部件的外接矩形框的中心)或者虚拟起始/终止节点的位置,有向边ei,j表示从顶点vi到顶点vj的连接,c(ei,j)和label(ei,j)分别表示有向边ei,j的有向边代价函数和标签。i,j,n为自然数,n应大于等于2。
有向边代价函数c(ei,j)例如可以基于此前描述的单一代价函数和/或双向代价函数而获得。取值为1或0的标签l(ei,j)表示相应的有向边ei,j是否应该包括在最终所提取的文本行中。例如,标签l(ei,j)为1表示有向边ei,j应该包括在最终所提取的文本行中,标签l(ei,j)为0则表示该有向边ei,j不应该包括在最终所提取的文本行中。
获取单元102可以利用诸如参照公式(2)描述的全局路径优化方法对虚拟的初始起始节点与虚拟的终点节点之间的、基于有向图中的有向边的路径进行优化。上述优化方式仅用于示例性的说明目的。实际上,在已经获得例如图2或图3所示的有向图之后,获取单元102可以利用任何适当的方法对有向图进行处理,以基于有向图中的有向边获取待处理图像中的文本行。作为示例,获取单元102所应用的方法可以包括但不限于已知的图割、动态优化等方法,在此不进行详细说明。
以上参照图3描述了获取单元102进行的优化处理的具体示例及相关细节。本领域技术人员可以理解,获取单元102可以按照与上述方式不同的方式进行优化处理。获取单元102只要基于有向边的代价函数构建针对整个有向图的适当的优化函数,并使得该优化函数最小化(换言之,使得与有向边相关的整体代价最小化),即可获得使整体代价最小的优化结果,从而获得文本行。
图4示出了通过获取单元102的处理所获取的文本行的示例。图4是用于说明根据本公开实施例的图像处理装置100的获取单元102所进行的示例处理的说明图。如图4所示,通过获取单元102的处理,可以获得如图4中实线箭头所示的、从左到右连接文本“Parking”中的连通部件的文本行以及从左到右连接文本“Service”中的连通部件的文本行。
如以上所描述的,获取单元102可以基于构建单元101所构建的有向图设置任意适当的优化函数并利用各种优化方法(例如全局路径优化方法)来基于有向图获取例如图4中实线箭头所示的、待处理图像中的文本行。在一个优选实施例中,获取单元102可以利用K最短路径算法进行上述优化处理。
更具体地,在一个优选实施例中,基于例如图3所示的、包括虚拟初始起始节点和虚拟终点节点以及相关有向边的有向图,获取单元102可以进一步被配置为利用K最短路径算法,以所述有向图中的有向边的有向边代价函数作为所述有向边的边长,获得基于所述有向边的、包括所述有向图中的连通部件的最短路径,以作为文本行路径,并将所述文本行路径中所包括的有向边共同作为所述文本行。
通过利用K最短路径算法的上述处理,获取单元102可以获得基于向图中的有向边的文本行路径,并将该文本行路径中所包括的有向边共同作为所述文本行,从而得到例如图4中实线箭头所示的文本行。
在一个优选实施例中,获取单元102可以进一步被配置为利用K最短路径算法,通过多次迭代处理获得每次迭代处理各自的候选路径,并且当满足下述条件时,将当前迭代处理所得到的候选路径作为所述文本行路径:每次迭代处理各自得到的候选路径的总代价函数从初始迭代处理开始到当前迭代处理为止呈单调递增,并且在当前迭代处理的下一次迭代处理处出现下降;或当前迭代处理是所述多次迭代处理中的最后一次迭代处理。
在本优选实施例中,一次迭代处理所得到的候选路径的总代价函数可以是本次迭代处理所得到的全部候选路径中所包括的所有有向边的有向边代价函数(被视为这些有向边的边长)之和。利用K最短路径算法最终得到的优化路径是恰在候选路径的总代价函数出现从单调递增到下降时的拐点的那一次迭代处理所得到的K个路径,或者是多次迭代处理中的最后一次迭代处理所得到的K个路径(K是得到最终结果的那次迭代处理的编号,即,是通过迭代处理确定的值)。
以下将返回参照图3和图4所示的示例更具体地描述获取单元102利用K最短路径算法进行的处理的细节。本领域技术人员可以理解,这些细节仅用于说明的目的,而不是对获取单元102所进行的处理的限制。
对于例如图3所示的示例有向图,虚拟初始起始节点vsource和虚拟终止节点vsink之间的任意路径都代表文本行的一个可能路径。在获取单元102利用K最短路径算法进行文本行提取的过程中,认为任意连通部件不能被两个文本行共用,也就是说提取的各条候选路径是顶点(本文中有时也称为节点)不连接的,每个顶点最多被一个路径包含。注意,“每个顶点最多被一个路径包含”这一限制仅仅是本示例中应用K最短路径算法进行优化处理时为了求得优化结果所采取的一个约束条件。如果获取单元102通过其他方式针对有向图中的有向边构建优化函数和/或进行优化处理以获取文本行,则可以应用不同的约束或限制,在此不再展开描述。
获取单元102可以使用已知的Dijkstra算法来找到初使化的单一候选路径。此后,获取单元102以下述方式通过迭代处理获得多条候选路径:在当前的第n次迭代中,利用通过先前的第n-1次迭代获得的n-1条最短路径,找到当前迭代处理所获得的n条最短路径Pn={p1,p2,…,pn},即n条候选路径。由于K最短路径算法的迭代处理本身的细节对于本领域技术人员而言是已知的,因此在此不再详细描述。
获取单元102可以基于属于给定路径的所有有向边的有向边代价值来计算该路径的单一路径代价值。例如,对于第l条路径pl(l为自然数),获取单元102可以如公式(3)所示,基于属于该路径pl的所有有向边ei,j的有向边代价c(ei,j)来计算其单一路径代价值c(pl)。
Figure BDA0000869469400000121
公式(3)
例如,获取单元102可以基于此前描述的单一代价函数和/或双向代价函数而获得上述公式(3)中使用的有向边代价函数c(ei,j)。
在得到当前迭代中的n条最短路径各自的单一路径代价值之后,获取单元102可以如公式(4)所示,通过将各个单一路径代价值求和来计算当前迭代的总代价值。
Figure BDA0000869469400000122
公式(4)
在随后的第(n+1)次迭代之后,获取单元102可以比较当前的第(n+1)次迭代的总代价值c(Pn+1)和上一次迭代的总代价值c(Pn),并在总代价值出现拐点时确定已经出现了全局最优。
在达到全局最优之前,每次迭代处理各自得到的候选路径的总代价函数从初始迭代处理开始到当前迭代处理为止是单调递增的;当总代价函数出现下降时,意味着紧接在下降之前的、前一次的迭代处理已经出现了全局最优。例如,如果总代价函数从初始迭代开始到第x次迭代为止是单调递增的,并在第x+1次迭代处出现了下降,则获取单元102确定在第x次迭代处达到了全局最优,从而将第x次迭代处理中所得到的x条最短路径作为文本行路径,并将这些文本行路径中所包含的有向边作为待处理图像中的文本行。达到了全局最优的迭代次数同时被确定为优化的参数K。即,在本示例中,确定K=x。
另一方面,如果直到多次迭代处理中的最后一次迭代处理为止,总代价函数一直是单调递增的,则获取单元102将最后一次迭代处理所获得的候选路径确定为文本行路径,并将这样的文本行路径中所包括的有向边作为所提取的文本行。
通过以上述方式利用K最短路径算法对诸如图3中所示的示例有向图进行全局优化处理,获取单元102可以获得诸如图4中的实线箭头所示的文本行。
以上参照图1至图4描述了根据本公开的实施例的图像处理装置100及其所实现的处理。利用例如上述的图像处理装置,能够基于待处理图像中的连通部件构建有向图,并基于有向图获得待处理图像中的文本行。与使用无向图等的现有技术方案相比,根据本公开实施例的图像处理装置根据距离约束和重叠度约束构建有向图、并根据有向图获得文本行的处理有效降低了计算复杂度,从而降低了处理所耗费的时间和系统资源,能够快速、准确地获取文本行以便用于后续的文本处理。
根据本公开的另一方面,提供了一种图像处理方法。图5是示意性地示出根据本公开实施例的图像处理方法500的示例流程的流程图。该图像处理方法500可以执行根据本公开实施例的图像处理装置所实现的处理。
如图5所示,图像处理方法500可以包括:构建步骤501,用于根据预定约束、按照预定方向以有向边连接待处理图像中的连通部件,以构建有向图;以及获取步骤503,用于基于所述有向图中的有向边获取所述待处理图像中的文本行,以便用于后续的文本处理。其中,对于任意两个连通部件,所述预定约束包括与所述两个连通部件之间的距离有关的距离约束以及与所述两个连通部件在所述预定方向上的重叠度有关的重叠度约束。
上述图像处理方法500及其各个组成步骤S501至S503例如可以执行以上参照图1至图4描述的图像处理装置100及其各个相应单元101至102所实现的处理,并实现类似的效果,在此不再进行重复说明。
在一个优选实施例中,在构建步骤501中所参照的所述预定方向可以基于阅读方向,尤其是从上到下的方向和从左到右的方向。
在一个优选实施例中,在构建步骤501中所参照的所述预定方向可以包括多个预定方向。此时,在构建步骤501中所参照的两个连通部件的所述重叠度约束可以包括多个重叠度约束,其中每个重叠度约束与所述两个连通部件在所述多个预定方向中的一个预定方向上的重叠度有关。
在一个优选实施例中,在构建步骤501中,可以通过下述一系列处理获得从当前连通部件出发的有向边。
首先,可以获得满足与当前连通部件的所述距离约束以及与当前连通部件的所述多个重叠度约束中的一个重叠度约束的候选连通部件;
接着,针对所述多个预定方向中的每个预定方向,可以进行下述处理:在所述候选连通部件当中,获得在该预定方向上与当前连通部件距离最近的最近连通部件;以及在所述候选连通部件当中,获得附加连通部件,所述附加连通部件与所述最近连通部件在所述多个预定方向中的其他预定方向上满足相应的重叠度约束。
然后,可以构建从当前连通部件出发、分别指向针对所述多个预定方向获得的最近连通部件和附加连通部件的有向边。
在一个优选实施例中,在获取步骤503中,可以针对所述有向图中的有向边设置有向边代价函数,并基于所述有向边代价函数获取所述待处理图像中的文本行。
在一个优选实施例中,在获取步骤503中,可以对所述有向图中的每个有向边设置基于下述中的至少一者的有向边代价函数:单一代价函数,用于表示该有向边所连接的两个连通部件各自的文本置信度;以及双向代价函数,用于表示该有向边所连接的两个连通部件之间的连续性。
在一个优选实施例中,在构建步骤501中,可以对基于所述连通部件构建的有向图添加虚拟初始起始节点和虚拟终点节点,并构建从所述虚拟初始起始节点指向所述待处理图像中的所有连通部件的有向边以及从所述待处理图像中的所有连通部件指向所述虚拟终点节点的有向边。在这种情况下,在获取步骤503中,可以对从所述虚拟初始起始节点指向所述连通部件的有向边以及从所述连通部件指向所述虚拟终点节点的有向边设置取值为0的有向边代价函数
在一个优选实施例中,在获取步骤503中,可以利用K最短路径算法,以所述有向图中的有向边的有向边代价函数作为所述有向边的边长,获得基于所述有向边的、包括所述有向图中的连通部件的最短路径,以作为文本行路径,并将所述文本行路径中所包括的有向边共同作为所述文本行。
在一个优选实施例中,在获取步骤503中,可以利用K最短路径算法,通过多次迭代处理获得每次迭代处理各自的候选路径;并且可以当满足下述条件时,将当前迭代处理所得到的候选路径作为所述文本行路径:每次迭代处理各自得到的候选路径的总代价函数从初始迭代处理开始到当前迭代处理为止呈单调递增、并且在当前迭代处理的下一次迭代处理处出现下降,或当前迭代处理是所述多次迭代处理中的最后一次迭代处理。
图6是示出了可用来实现根据本公开实施例的图像处理装置和方法的一种可能的硬件配置600的结构简图。
在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,还根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。
下述部件也连接到输入/输出接口605:输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡例如LAN卡、调制解调器等)。通信部分609经由网络例如因特网执行通信处理。根据需要,驱动器610也可连接到输入/输出接口605。可拆卸介质611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上,使得从中读出的计算机程序可根据需要被安装到存储部分608中。此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开实施例的图像处理方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。
在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。
此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户图像处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到图像处理终端中然后执行该程序,也可以实现本公开的各实施例。
综上,在根据本公开实施例中,本公开提供了如下方案,但不限于此:
1.一种图像处理装置,包括:
构建单元,用于根据预定约束、按照预定方向以有向边连接待处理图像中的连通部件,以构建有向图;以及
获取单元,用于基于所述有向图中的有向边获取所述待处理图像中的文本行,以便用于后续的文本处理,
其中,对于任意两个连通部件,所述预定约束包括与所述两个连通部件之间的距离有关的距离约束以及与所述两个连通部件在所述预定方向上的重叠度有关的重叠度约束。
2.如方案1所述的图像处理装置,其中,
所述预定方向基于阅读方向,尤其是从上到下的方向和从左到右的方向。
3.如方案1所述的图像处理装置,其中,
所述预定方向包括多个预定方向;以及
两个连通部件的所述重叠度约束包括多个重叠度约束,其中每个重叠度约束与所述两个连通部件在所述多个预定方向中的一个预定方向上的重叠度有关。
4.如方案3所述的图像处理装置,其中,所述构建单元被配置为通过下述方式获得从当前连通部件出发的有向边:
获得满足与当前连通部件的所述距离约束以及与当前连通部件的所述多个重叠度约束中的一个重叠度约束的候选连通部件;
针对所述多个预定方向中的每个预定方向,
在所述候选连通部件当中,获得在该预定方向上与当前连通部件距离最近的最近连通部件,以及
在所述候选连通部件当中,获得附加连通部件,所述附加连通部件与所述最近连通部件在所述多个预定方向中的其他预定方向上满足相应的重叠度约束;以及
构建从当前连通部件出发、分别指向针对所述多个预定方向获得的最近连通部件和附加连通部件的有向边。
5.如方案1所述的图像处理装置,其中,
所述获取单元被配置为针对所述有向图中的有向边设置有向边代价函数,并基于所述有向边代价函数获取所述待处理图像中的文本行。
6.如方案5所述的图像处理装置,其中,所述获取单元进一步被配置为对所述有向图中的每个有向边设置基于下述中的至少一者的有向边代价函数:
单一代价函数,用于表示该有向边所连接的两个连通部件各自的文本置信度;以及
双向代价函数,用于表示该有向边所连接的两个连通部件之间的连续性。
7.如方案6所述的图像处理装置,其中,
所述构建单元进一步被配置为对基于所述连通部件构建的有向图添加虚拟初始起始节点和虚拟终点节点,并构建从所述虚拟初始起始节点指向所述待处理图像中的所有连通部件的有向边以及从所述待处理图像中的所有连通部件指向所述虚拟终点节点的有向边,
所述获取单元进一步被配置为对从所述虚拟初始起始节点指向所述连通部件的有向边以及从所述连通部件指向所述虚拟终点节点的有向边设置取值为0的有向边代价函数。
8.如方案7所述的图像处理装置,其中,
所述获取单元进一步被配置为利用K最短路径算法,以所述有向图中的有向边的有向边代价函数作为所述有向边的边长,获得基于所述有向边的、包括所述有向图中的连通部件的最短路径,以作为文本行路径,并将所述文本行路径中所包括的有向边共同作为所述文本行。
9.如方案8所述的图像处理装置,其中,
所述获取单元进一步被配置为利用K最短路径算法,通过多次迭代处理获得每次迭代处理各自的候选路径,并且当满足下述条件时,将当前迭代处理所得到的候选路径作为所述文本行路径:
每次迭代处理各自得到的候选路径的总代价函数从初始迭代处理开始到当前迭代处理为止呈单调递增,并且在当前迭代处理的下一次迭代处理处出现下降;或
当前迭代处理是所述多次迭代处理中的最后一次迭代处理。
10.一种图像处理方法,包括:
根据预定约束、按照预定方向以有向边连接待处理图像中的连通部件,以构建有向图;以及
基于所述有向图中的有向边获取所述待处理图像中的文本行,以便用于后续的文本处理,
其中,对于任意两个连通部件,所述预定约束包括与所述两个连通部件之间的距离有关的距离约束以及与所述两个连通部件在所述预定方向上的重叠度有关的重叠度约束。
11.如方案10所述的图像处理方法,其中,
所述预定方向基于阅读方向,尤其是从上到下的方向和从左到右的方向。
12.如方案10所述的图像处理方法,其中,
所述预定方向包括多个预定方向;以及
两个连通部件的所述重叠度约束包括多个重叠度约束,其中每个重叠度约束与所述两个连通部件在所述多个预定方向中的一个预定方向上的重叠度有关。
13.如方案12所述的图像处理方法,其中,按照预定方向以有向边连接待处理图像中的连通部件包括通过下述方式获得从当前连通部件出发的有向边:
获得满足与当前连通部件的所述距离约束以及与当前连通部件的所述多个重叠度约束中的一个重叠度约束的候选连通部件;
针对所述多个预定方向中的每个预定方向,
在所述候选连通部件当中,获得在该预定方向上与当前连通部件距离最近的最近连通部件,以及
在所述候选连通部件当中,获得附加连通部件,所述附加连通部件与所述最近连通部件在所述多个预定方向中的其他预定方向上满足相应的重叠度约束;以及
构建从当前连通部件出发、分别指向针对所述多个预定方向获得的最近连通部件和附加连通部件的有向边。
14.如方案10所述的图像处理方法,其中,基于所述有向图中的有向边获取所述待处理图像中的文本行包括:
针对所述有向图中的有向边设置有向边代价函数,并基于所述有向边代价函数获取所述待处理图像中的文本行。
15.如方案14所述的图像处理方法,其中,基于所述有向图中的有向边获取所述待处理图像中的文本行包括对所述有向图中的每个有向边设置基于下述中的至少一者的有向边代价函数:
单一代价函数,用于表示该有向边所连接的两个连通部件各自的文本置信度;以及
双向代价函数,用于表示该有向边所连接的两个连通部件之间的连续性。
16.如方案15所述的图像处理方法,其中,
按照预定方向以有向边连接待处理图像中的连通部件包括:对基于所述连通部件构建的有向图添加虚拟初始起始节点和虚拟终点节点,并构建从所述虚拟初始起始节点指向所述待处理图像中的所有连通部件的有向边以及从所述待处理图像中的所有连通部件指向所述虚拟终点节点的有向边,
基于所述有向图中的有向边获取所述待处理图像中的文本行包括:对从所述虚拟初始起始节点指向所述连通部件的有向边以及从所述连通部件指向所述虚拟终点节点的有向边设置取值为0的有向边代价函数。
17.如方案16所述的图像处理方法,其中,基于所述有向图中的有向边获取所述待处理图像中的文本行包括:
利用K最短路径算法,以所述有向图中的有向边的有向边代价函数作为所述有向边的边长,获得基于所述有向边的、包括所述有向图中的连通部件的最短路径,以作为文本行路径,并将所述文本行路径中所包括的有向边共同作为所述文本行。
18.如方案17所述的图像处理方法,其中,基于所述有向图中的有向边获取所述待处理图像中的文本行包括:
利用K最短路径算法,通过多次迭代处理获得每次迭代处理各自的候选路径,并且当满足下述条件时,将当前迭代处理所得到的候选路径作为所述文本行路径:
每次迭代处理各自得到的候选路径的总代价函数从初始迭代处理开始到当前迭代处理为止呈单调递增,并且在当前迭代处理的下一次迭代处理处出现下降;或
当前迭代处理是所述多次迭代处理中的最后一次迭代处理。
最后,还需要说明的是,在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备可能不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露,但是,应该理解,本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims (10)

1.一种图像处理装置,包括:
构建单元,用于根据预定约束、按照预定方向以有向边连接待处理图像中的连通部件,以构建有向图;以及
获取单元,用于基于所述有向图中的有向边获取所述待处理图像中的文本行,以便用于后续的文本处理,
其中,对于任意两个连通部件,所述预定约束包括与所述两个连通部件之间的距离有关的距离约束以及与所述两个连通部件在所述预定方向上的重叠度有关的重叠度约束,以及
其中,所述获取单元被配置为:针对所述有向图中的有向边设置有向边代价函数,基于所述有向边代价函数构建用于表示与所述有向图中的有向边相关的整体代价的优化函数,并且通过使得所述优化函数所表示的整体代价最小化而获得文本行。
2.如权利要求1所述的图像处理装置,其中,
所述预定方向基于阅读方向。
3.如权利要求2所述的图像处理装置,其中,
所述预定方向包括从上到下的方向和从左到右的方向。
4.如权利要求1所述的图像处理装置,其中,
所述预定方向包括多个预定方向;以及
两个连通部件的所述重叠度约束包括多个重叠度约束,其中每个重叠度约束与所述两个连通部件在所述多个预定方向中的一个预定方向上的重叠度有关。
5.如权利要求4所述的图像处理装置,其中,所述构建单元被配置为通过下述方式获得从当前连通部件出发的有向边:
获得满足与当前连通部件的所述距离约束以及与当前连通部件的所述多个重叠度约束中的一个重叠度约束的候选连通部件;
针对所述多个预定方向中的每个预定方向,
在所述候选连通部件当中,获得在该预定方向上与当前连通部件距离最近的最近连通部件,以及
在所述候选连通部件当中,获得附加连通部件,所述附加连通部件与所述最近连通部件在所述多个预定方向中的其他预定方向上满足相应的重叠度约束;以及
构建从当前连通部件出发、分别指向针对所述多个预定方向获得的最近连通部件和附加连通部件的有向边。
6.如权利要求1所述的图像处理装置,其中,所述获取单元进一步被配置为对所述有向图中的每个有向边设置基于下述中的至少一者的有向边代价函数:
单一代价函数,用于表示该有向边所连接的两个连通部件各自的文本置信度;以及
双向代价函数,用于表示该有向边所连接的两个连通部件之间的连续性。
7.如权利要求6所述的图像处理装置,其中,
所述构建单元进一步被配置为对基于所述连通部件构建的有向图添加虚拟初始起始节点和虚拟终点节点,并构建从所述虚拟初始起始节点指向所述待处理图像中的所有连通部件的有向边以及从所述待处理图像中的所有连通部件指向所述虚拟终点节点的有向边,
所述获取单元进一步被配置为对从所述虚拟初始起始节点指向所述连通部件的有向边以及从所述连通部件指向所述虚拟终点节点的有向边设置取值为0的有向边代价函数。
8.如权利要求7所述的图像处理装置,其中,所述获取单元进一步被配置为:以所述有向图中的有向边的有向边代价函数作为所述有向边的边长,以基于所述有向边的、包括所述有向图中的连通部件的路径的长度作为所构建的优化函数,利用K最短路径算法获得所述路径中的最短路径以使得所述优化函数所表示的整体代价最小化,并将所述最短路径作为文本行路径以将所述文本行路径中所包括的有向边共同作为所述文本行。
9.如权利要求8所述的图像处理装置,其中,
所述获取单元进一步被配置为利用K最短路径算法,通过多次迭代处理获得每次迭代处理各自的候选路径,并且当满足下述条件时,将当前迭代处理所得到的候选路径作为所述文本行路径:
每次迭代处理各自得到的候选路径的总长度从初始迭代处理开始到当前迭代处理为止呈单调递增,并且在当前迭代处理的下一次迭代处理处出现下降;或
当前迭代处理是所述多次迭代处理中的最后一次迭代处理。
10.一种图像处理方法,包括:
根据预定约束、按照预定方向以有向边连接待处理图像中的连通部件,以构建有向图;以及
基于所述有向图中的有向边获取所述待处理图像中的文本行,以便用于后续的文本处理,
其中,对于任意两个连通部件,所述预定约束包括与所述两个连通部件之间的距离有关的距离约束以及与所述两个连通部件在所述预定方向上的重叠度有关的重叠度约束,以及
其中,针对所述有向图中的有向边设置有向边代价函数,基于所述有向边代价函数构建用于表示与所述有向图中的有向边相关的整体代价的优化函数,并且通过使得所述优化函数所表示的整体代价最小化而获得文本行。
CN201510889151.1A 2015-12-07 2015-12-07 图像处理装置和方法 Active CN106845474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510889151.1A CN106845474B (zh) 2015-12-07 2015-12-07 图像处理装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510889151.1A CN106845474B (zh) 2015-12-07 2015-12-07 图像处理装置和方法

Publications (2)

Publication Number Publication Date
CN106845474A CN106845474A (zh) 2017-06-13
CN106845474B true CN106845474B (zh) 2020-05-08

Family

ID=59150467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510889151.1A Active CN106845474B (zh) 2015-12-07 2015-12-07 图像处理装置和方法

Country Status (1)

Country Link
CN (1) CN106845474B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389114B (zh) * 2017-08-08 2021-12-03 富士通株式会社 文本行获取装置和方法
CN107610132B (zh) * 2017-08-28 2021-12-31 西北民族大学 一种古籍文档图像污渍去除方法
CN107992872B (zh) * 2017-12-25 2020-04-28 广东小天才科技有限公司 一种对图片进行文本识别的方法及移动终端
CN109582958B (zh) * 2018-11-20 2023-07-18 厦门大学深圳研究院 一种灾难故事线构建方法及装置
CN109657629B (zh) * 2018-12-24 2021-12-07 科大讯飞股份有限公司 一种文本行提取方法及装置
TWI772627B (zh) * 2019-03-19 2022-08-01 財團法人工業技術研究院 人物重識別方法、人物重識別系統及影像篩選方法
CN112560862B (zh) 2020-12-17 2024-02-13 北京百度网讯科技有限公司 文本识别方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054271A (zh) * 2009-11-02 2011-05-11 富士通株式会社 文本行检测方法和装置
CN103093228A (zh) * 2013-01-17 2013-05-08 上海交通大学 一种在自然场景图像中基于连通域的中文检测方法
CN103455814A (zh) * 2012-05-31 2013-12-18 佳能株式会社 用于文档图像的文本行分割方法和系统
CN103942797A (zh) * 2014-04-24 2014-07-23 中国科学院信息工程研究所 基于直方图和超像素的场景图像文字检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054271A (zh) * 2009-11-02 2011-05-11 富士通株式会社 文本行检测方法和装置
CN103455814A (zh) * 2012-05-31 2013-12-18 佳能株式会社 用于文档图像的文本行分割方法和系统
CN103093228A (zh) * 2013-01-17 2013-05-08 上海交通大学 一种在自然场景图像中基于连通域的中文检测方法
CN103942797A (zh) * 2014-04-24 2014-07-23 中国科学院信息工程研究所 基于直方图和超像素的场景图像文字检测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Scene text detection using graph model built upon maximally stable extremal regions;Cunzhao Shi 等;《Pattern Recognition Letters》;20121004;107-116 *
Text Detection and Recognition in Imagery: A Survey;Qixiang Ye 等;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20150731;第27卷(第7期);1480-1500 *
基于文本域分割和文本行检测的扭曲文档图像校正;张再银 等;《电脑与信息技术》;20150228;第23卷(第1期);第13-15页第2.4-2.5节,图2 *
基于极小代数赋权有向图最短路径求解算法;李彦平 等;《沈阳大学学报(自然科学版)》;20150228;第27卷(第1期);25-29 *

Also Published As

Publication number Publication date
CN106845474A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106845474B (zh) 图像处理装置和方法
US10515296B2 (en) Font recognition by dynamically weighting multiple deep learning neural networks
JP7177653B2 (ja) 敵対的ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善
JP7112931B2 (ja) トリプレット損失ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善
US10909380B2 (en) Methods and apparatuses for recognizing video and training, electronic device and medium
US11636147B2 (en) Training neural networks to perform tag-based font recognition utilizing font classification
CN108304775B (zh) 遥感图像识别方法、装置、存储介质以及电子设备
US10803231B1 (en) Performing tag-based font retrieval using combined font tag recognition and tag-based font retrieval neural networks
KR101348904B1 (ko) 고차 상관 클러스터링을 이용한 이미지 분할 방법, 이를 처리하는 시스템 및 기록매체
US20140348420A1 (en) Method and system for automatic selection of one or more image processing algorithm
CN110347940A (zh) 用于优化兴趣点标签的方法和装置
US10762389B2 (en) Methods and systems of segmentation of a document
WO2019223145A1 (zh) 电子装置、推销名单推荐方法、系统和计算机可读存储介质
KR101700030B1 (ko) 사전 정보를 이용한 영상 물체 탐색 방법 및 이를 수행하는 장치
Kim et al. PIVE: Per-iteration visualization environment for real-time interactions with dimension reduction and clustering
JP7320570B2 (ja) 画像を処理するための方法、装置、機器、媒体およびプログラム
JP6085999B2 (ja) 画像中の文字列を認識する方法及び装置
CN113837194A (zh) 图像处理方法、图像处理装置、电子设备以及存储介质
CN113742485A (zh) 一种处理文本的方法和装置
WO2018120575A1 (zh) 网页主图识别方法和装置
CN115186738B (zh) 模型训练方法、装置和存储介质
CN111881778B (zh) 文本检测的方法、装置、设备和计算机可读介质
US11200676B2 (en) Shift invariant loss for deep learning based image segmentation
CN114117248A (zh) 数据处理方法、装置及电子设备
CN109389114B (zh) 文本行获取装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant