CN109389114B - 文本行获取装置和方法 - Google Patents
文本行获取装置和方法 Download PDFInfo
- Publication number
- CN109389114B CN109389114B CN201710670454.3A CN201710670454A CN109389114B CN 109389114 B CN109389114 B CN 109389114B CN 201710670454 A CN201710670454 A CN 201710670454A CN 109389114 B CN109389114 B CN 109389114B
- Authority
- CN
- China
- Prior art keywords
- text line
- directed
- directed graph
- directed edge
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种文本行获取装置和方法。该方法包括:分别经由包括灰度通道和多个颜色通道的多个通道来提取待处理图像中的连通部件;对与多个通道中的一个通道对应的连通部件进行连接以构建第一有向图,并且对与多个通道中除所述一个通道以外的其余通道对应的连通部件进行连接以构建第二有向图;基于第一有向图来获取待处理图像的第一文本行;基于第一文本行来转换第二有向图;基于转换后的第二有向图来获取待处理图像的第二文本行;以及去除第一文本行和第二文本行中的虚警文本行和重复的文本行,从而得到最终文本行。
Description
技术领域
本发明总体上涉及文本行获取装置和方法,具体而言,涉及从图像中获取文本行的装置和方法。
背景技术
自动检测与识别文档图像中的文本内容是光学字符识别领域的重要技术,文本识别结果能帮助用户来识别、标注、检索、分类、或搜索文档中的内容。
现有的获取文本行的方法包括:通过最小化归一化后的MSER变化率来提取MSER,然后采用单连接聚类算法把候选连通部件组合成文本行;使用最小代价流模型(该模型能够解决关于字符和文本行方向的错误累加问题)来获取自然场景中的文本行;以及把文本行检测任务归一化成二值(文本和非文本区域)标签分割问题,其中不同的文本信息被整合到一个图模型框架中,然后使用最小图割方法,优化代价函数来得到最后的文本行标签。
然而,由于图像背景复杂、文本行方向不同、文档图像质量低等因素,快速的文本行提取算法仍是非常具有挑战的任务。
因此,期望能够提供一种快速的、性能更好且精度更高的文本行获取技术。
引用文献
CN 106845474A
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种快速的、性能更好且精度更高的文本行获取装置和方法。
根据本发明的一个方面,提供了一种文本行获取方法,包括:分别经由包括灰度通道和多个颜色通道的多个通道来提取待处理图像中的连通部件;对与所述多个通道中的一个通道对应的连通部件进行连接以构建第一有向图,并且对与所述多个通道中除所述一个通道以外的其余通道对应的连通部件进行连接以构建第二有向图;基于所述第一有向图来获取所述待处理图像的第一文本行;基于所述第一文本行来转换所述第二有向图;基于转换后的第二有向图来获取所述待处理图像的第二文本行;以及去除所述第一文本行和所述第二文本行中的虚警文本行和重复的文本行,从而得到最终文本行。
根据本公开的另一方面,提供了一种文本行获取装置,包括:提取单元,用于分别经由包括灰度通道和多个颜色通道的多个通道来提取待处理图像中的连通部件;构建单元,用于对与所述多个通道中的一个通道对应的连通部件进行连接以构建第一有向图,并且对与所述多个通道中除所述一个通道以外的其余通道对应的连通部件进行连接以构建第二有向图;第一获取单元,用于基于所述第一有向图来获取所述待处理图像的第一文本行;转换单元,用于基于所述第一文本行来转换所述第二有向图;第二获取单元,用于基于转换后的第二有向图来获取所述待处理图像的第二文本行;以及去除单元,用于去除所述第一文本行和所述第二文本行中的虚警文本行和重复的文本行,从而得到最终文本行。
根据本发明的又一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
根据本发明的再一方面,还提供了一种程序。所述程序包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照附图来阅读本发明的各实施方式,将更容易理解本发明的其它特征和优点,在此描述的附图只是为了对本发明的实施方式进行示意性说明的目的,而非全部可能的实施,并且不旨在限制本发明的范围。在附图中:
图1示意性地示出根据本发明实施方式的文本行获取装置的结构的框图。
图2示出了两个连通部件的尺寸和距离的示意图。
图3示出由根据本发明实施方式的文本行获取装置中的构建单元所构建的初始单通道有向图和初始多通道有向图的示例的示意图。
图4示出了由根据本发明实施方式的文本行获取装置中的构建单元所构建的第一有向图的示例的示意图。
图5示出了由根据本发明实施方式的文本行获取装置中的构建单元所构建的第二有向图的示例的示意图。
图6示出了用于说明根据本发明实施方式的转换单元所进行的示例处理的说明图。
图7示出了由根据本发明实施方式的文本行获取装置中的转换单元对图5中的第二有向图进行转换所得到的转换后第二有向图的示例的示意图。
图8示出了根据本发明实施方式的文本行获取方法的示例流程的流程图。
图9示出了可用来实现根据本发明实施方式的文本行获取装置和方法的一种可能硬件配置的结构简图。
具体实施方式
在下文中将结合附图对本发明的示范性实施方式进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
图1示意性示出了根据本发明实施方式的文本行获取装置100的示例结构的框图。如图1所示,文本行获取装置100包括:提取单元101,用于分别经由包括灰度通道和多个颜色通道的多个通道来提取待处理图像中的连通部件;构建单元102,用于对与多个通道中的一个通道对应的连通部件进行连接以构建第一有向图,并且对与多个通道中除所述一个通道以外的其余通道对应的连通部件进行连接以构建第二有向图;第一获取单元103,用于基于第一有向图来获取待处理图像的第一文本行;转换单元104,用于基于第一文本行来转换第二有向图;第二获取单元105,用于基于转换后的第二有向图来获取待处理图像的第二文本行;去除单元106,用于去除第一文本行和第二文本行中的虚警文本行和重复的文本行,从而得到最终文本行。
下面,参照附图来详细描述文本行获取装置100中的各个单元的操作。
提取单元101可以利用诸如最大稳定极值区域(MSER)方法、自适应Sauvola算法,Niblack算法,Otsu算法等各种公知方式从包括灰度通道和多个颜色通道(诸如红色、绿色和蓝色通道等)的多个通道中提取待处理图像中的连通部件。本领域技术人员已熟知提取连通部件的处理,在此不进行详细描述。
在一个优选实施方式中,提取单元101可以经由设置有不同参数的多个通道来提取连通部件。本领域技术人员可以根据实际需要(例如全面地提取图像中的连通部件,以避免遗漏)来为不同的通道设置不同的参数。
作为示例,构建单元102可以配置成根据预定约束、按照预定方向以有向边连接相应的连通部件来分别构建单通道的第一有向图和多通道的第二有向图。
此处,预定约束用于避免连通部件之间的不必要连接,并且预定约束可以包括距离约束和重叠约束,但本发明不限于此,本领域技术人员可以根据实际需要来设置预定约束。
作为示例,距离约束可以是两个连通部件vi,vj之间的距离满足下述公式(1)。
dist(Vi,Vj)<k*min(max(wi,hi),max(wj,hj)) 公式(1)
其中,dist(·,·)可以是两个连通部件的中心点之间的距离(即,两个连通部件各自的外接矩形框的中心之间的距离),wi,hi和wj,hj分别是连通部件vi,vj各自的外接矩形框的宽度和高度(参见图2),其中,i、j是自然数,k可以是预先设置的调整因子。在一个示例中,可以将k设置为1。
作为示例,重叠度约束可以是两个连通部件在预定方向上的重叠度(例如,图2中的左右方向上的重叠度oi,j)大于预定的重叠度阈值。可以根据应用要求来设置合适的重叠度阈值。例如,可以设置约(0-10%)重叠度阈值。
在一个优选实施方式中,当构建单元102连接待处理图像中的连通部件时,所参照的所述预定方向可以基于阅读方向,尤其是从上到下的方向和从左到右的方向。然而,所述预定方向不限于常见的从上到下或从左到右的阅读方向,而是可以根据应用需要进行任何适当的设定。
另外,当构建单元102连接待处理图像中的连通部件时,所参照的所述预定方向可以包括多个预定方向。此时,两个连通部件的重叠度约束可以包括多个重叠度约束,其中每个重叠度约束与所述两个连通部件在多个预定方向中的一个预定方向上的重叠度有关。例如,所述多个预定方向可以包括从上到下的方向以及从左到右的方向,而所述多个重叠度约束可以包括分别与这两个方向上的重叠度有关的两个重叠度约束。
下面,介绍在设置有多个预定方向和多个重叠度约束的情形下,构建单元102构建第一有向图和第二有向图的具体操作。
首先,构建单元102可以获得满足与当前连通部件的距离约束以及与当前连通部件的所述多个重叠度约束中的一个重叠度约束的候选连通部件。
接着,针对多个预定方向中的每个预定方向,构建单元102可以进行下述处理:在候选连通部件中,获得在该预定方向上与当前连通部件距离最近的最近连通部件;以及在候选连通部件中,获得附加连通部件,该附加连通部件与最近连通部件在多个预定方向中的其他预定方向上满足相应的重叠度约束。
然后,构建单元102可以构建从当前连通部件出发、分别指向针对多个预定方向获得的最近连通部件和附加连通部件的有向边。构建单元102可以按照预定方向对来自多个通道中的一个通道的所有连通部件,依次进行上述处理,以获得从每个连通部件出发的有向边,由此得到关于该一个通道的初始单通道有向图(参见图3中的(a));并且,对来自多个通道中的其余通道的所有连通部件,依次执行上述处理,以获得从每个连通部件出发的有向边,由此得到关于其余通道的初始多通道有向图(参见图3中的(b))。
以上仅简单描述了构建有向边的大体操作,关于构建有向边的具体操作可以参见申请人为“富士通株式会社”,发明名称为“图像处理装置和方法”的中国专利申请CN106845474A,在此不再详细地展开描述。
在一个优选实施方式中,多个通道中的所述一个通道为灰度通道,并且多个通道中的其余通道为红色通道、绿色通道和蓝色通道。
图3示例性地示出了根据以上处理构建的初始单通道有向图和初始多通道有向图的示例。如图3所示,在初始多通道有向图中,对应于不同通道的有向图之间互不交叉。这是因为有向边基于预定约束在最近的连通部件之间构建,因此在来自不同通道的连通部件之间不会形成有向边,进而不同通道的有向图之间不会相互交叉。
最后,构建单元102还配置成针对初始单通道有向图添加虚拟初始起始节点vsource和虚拟终点节点vsink,并构建从该虚拟初始起始节点vsource指向初始单通道有向图中的所有连通部件的有向边以及从初始单通道有向图中的所有连通部件指向该虚拟终点节点vsink的有向边,由此得到第一有向图,如图4所示。另外,构建单元102针对初始多通道有向图添加虚拟初始起始节点v’source和虚拟终点节点v’sink,并构建从该虚拟初始起始节点v’source指向初始多通道有向图中的所有连通部件的有向边以及从初始多通道有向图中的所有连通部件指向该虚拟终点节点v’sink的有向边,由此得到第二有向图,如图5所示。
作为示例,第一获取单元103可以配置成为第一有向图中的有向边设置有向边代价函数,并基于该有向边代价函数获取待处理图像的第一文本行。关于从单通道有向图中获取文本行的处理已在申请人为“富士通株式会社”,发明名称为“图像处理装置和方法”的中国专利申请CN 106845474 A中披露,在此不再详细地展开描述。
作为示例,转换单元104可以配置成使用第一文本行来将第二有向图中的与第一文本行对应的连通部件集合转换成仅包括两个连通部件的元组,从而能够有效地降低多通道第二有向图的计算性能。
在一个优选实施方式中,转换单元104进一步配置成:搜索第二有向图中与第一文本行对应的连通部件集合;断开与所搜索到的连通部件集合中除首连通部件和尾连通部件以外的其余连通部件连接的有向边;以及构建在首连通部件与尾连通部件之间的虚拟有向边。由此,转换单元104将与第一文本行对应的连通部件集合转换成仅包括两个连通部件的元组,降低了第二有向图的复杂度。
下面,参考图6来说明书转换单元的操作示例。图6的(a)示出了由第一获取单元103从第一有向图中获取的两个第一文本行t1和t2。基于该两个第一文本行t1和t2,转换单元104在第二有向图中进行搜索,得到与第一文本行t1对应的连通部件集合c1和与第一文本行t2对应的连通部件集合c2,如图6的(b)所示。其中,连通部件集合c1包括连通部件v1、v2、v3和v4,而连通部件集合c2包括连通部件v5、v6和v7。
接着,转换单元104断开与连通部件集合c1中除首连通部件v1和尾连通部件v4之外的其余连通部件(即,v2和v3)连接的有向边;以及断开与连通部件集合c2中除首连通部件v5和尾连通部件v7之外的其余连通部件(即,v6)连接的有向边。
然后,转换单元104在连通部件集合c1中的首连通部件v1和尾连通部件v4之间建立虚拟有向边,从而得到元组y1;并且在连通部件集合c2中的首连通部件v5和尾连通部件v7之间建立虚拟有向边,从而得到元组y2。
图7是由转换单元104基于第一文本行对图5中的第二有向图执行转换之后所得到的转换后第二有向图的示例,图7中的点划线表示虚拟有向边。
下面,介绍关于第二获取单元105的具体操作。
作为示例,第二获取单元105可以配置成为转换后的第二有向图中的有向边和虚拟有向边分别设置有向边代价函数和虚拟有向边代价函数,并基于所设置的有向边代价函数和虚拟有向边代价函数来获取第二文本行。
在一个优选实施方式中,第二获取单元105可以进一步被配置成:1)针对从虚拟初始起始节点v’source出发或者指向虚拟终点节点v’sink的所有有向边,设置取值为0的有向边代价函数,因为每个连通部件都可能成为文本行的起始点和终止位置;2)针对连通部件之间的有向边,设置基于下述中的至少一者的有向边代价函数:单向代价函数,用于表示该有向边所连接的两个连通部件各自的文本置信度,以及双向代价函数,用于表示该有向边所连接的两个连通部件之间的连续性;以及3)针对虚拟有向边,根据在所搜索到的连通部件集合内的连通部件之间的有向边的有向边代价函数来设置虚拟有向边代价函数。
在一个示例中,第二获取单元105可以基于下述特征a)至c)中的一个或更多个获得连通部件之间的有向边的单向代价函数,其中特征a)至c)均可反映该有向边所连接的两个连通部件各自的文本置信度:
a)文本识别引擎对该有向边所连接的两个连通部件各自的识别置信度。文本识别引擎的识别置信度是用来分类文本和噪声的很好特征。
b)该有向边所连接的两个连通部件各自的变化率。文本连通部件的最大稳定极值区域(MSER)是大致不变的,即文本连通部件趋向于具有较小的MSER变化率。
c)该有向边所连接的两个连通部件各自的占空比。文本连通部件经常拥有一定的占空比,占空比太大或太小的连通部件更倾向于噪声。
在一个示例中,第二获取单元105可以基于下述特征e)至f)中的一个或更多个获得连通部件之间的有向边的双向代价函数:
e)该有向边所连接的两个连通部件之间的距离。文本行是由文本按照特定的顺序连接起来,因此相邻文本连通部件之间的距离应该小于预定阈值(本领域技术人员可以通过各种已知方式获得这样的阈值,在此不进行详细描述)。
f)该有向边所连接的两个连通部件之间的重叠性。文本行中的所有连通部件可以近似看成一条直线,因此,相邻的文本连通部件在预定方向(例如阅读方向)上的重叠度较高。
g)该有向边所连接的两个连通部件之间的颜色相似性。文本行中的相邻连通部件之间应当具有相似的颜色特征。
在一个优选实施方式中,第二获取单元105可以基于以下公式来获得由单向代价函数和双向代价函数组成的组合代价函数:
其中ei,j表示连通部件vi和vj之间的有向边;∑λ·cborm表示对各种不同的代价函数进行加权求和,其中系数λ是代价函数的平衡权重,而为归一化的各种代价函数。在中,针对特定种类的代价函数,c表示当前有向边的该特定种类代价函数,cmin表示所有有向边的该特定种类代价函数中的最小值,cmax表示所有有向边中的该特定种类代价函数中的最大值。
在一个示例中,第二获取单元105根据以下公式来计算在包含两个节点的元组y中的虚拟有向边的代价函数:
其中ea,a+b表示在第二有向图内与第一文本行对应的连通部件集合c(包含节点va,va+1,…va+b-1,va+b)中的首连通部件va与尾连通部件va+b之间的虚拟有向边,“ea,a+1,…ea+b-1,a+b”表示连通部件集合c中的连通部件之间的所有有向边。
尽管以上给出了代价函数的具体示例,但是第二获取单元105所设置的代价函数不限于这些具体示例,而是只要可以用来衡量从给定有向边的出发节点到该有向边的到达节点间的代价值即可。
文中,可以将文本行视为从起始字符到终止字符按照固定方向的路径流,因此第二文本行提取问题可以通过转换后的第二有向图的全局路径优化方法来解决。作为示例,利用所设置的代价函数,第二获取单元105可以对转换后第二有向图进行优化,并基于最小化全局代价函数的最优解来获取待处理图像中的文本行。
例如,第二获取单元105可以利用下述公式来求得最小化全局代价函数的最优解。
在该公式中,G=(V,E)表示由节点集合V={vi,vi+1,...,va,va+b,...vn}(节点va+1,…,va+b-1经过转换操作处理后被排除)以及有向边和虚拟有向边集合E={ei,j|vi,vj∈V}构成的例如图7所示的转换后有向图,其中节点vi表示一个连通部件的位置(例如该连通部件的外接矩形框的中心)或者虚拟起始/终止节点的位置,有向边/虚拟有向边ei,j表示从节点vi到节点vj的连接,c(ei,j)和label(ei,j)分别表示有向边/虚拟有向边ei,j的有向边/虚拟有向边代价函数和标签。i,j,n为自然数,n应大于等于2。
取值为1或0的标签l(ei,j)表示相应的有向边/虚拟有向边ei,j是否应该包括在最终所提取的文本行中。例如,标签l(ei,j)为1表示有向边/虚拟有向边ei,j应该包括在最终所提取的文本行中,标签l(ei,j)为0则表示该有向边/虚拟有向边ei,j不应该包括在最终所提取的文本行中。
上述优化方式仅用于示例性的说明目的。实际上,在已经获得例如图7所示的转换后第二有向图之后,第二获取单元105可以利用任何适当的方法对该有向图进行处理,来获取待处理图像中的第二文本行。作为示例,第二获取单元105所应用的方法可以包括但不限于已知的图割、动态优化等方法,在此不进行详细说明。
另外,本领域技术人员可以理解,第二获取单元105可以按照与上述方式不同的方式进行优化处理。第二获取单元105只要基于有向边和虚拟有向边的代价函数构建针对转换后有向图的适当的优化函数,并使得该优化函数最小化(换言之,使得与有向边和虚拟有向边相关的整体代价函数最小化),即可获得使整体代价函数最小的优化结果,从而获得文本行。
在一个优选实施方式中,第二获取单元105可以利用K最短路径算法进行上述优化处理。具体地,基于转换后的第二有向图,第二获取单元105可以利用K最短路径算法,以转换后的第二有向图中的有向边代价函数和虚拟有向边代价函数分别作为所述有向边和所述虚拟有向边的边长,获取转换后的第二有向图的最短路径,以作为所述第二文本行。
以下将参照图7来更具体地描述第二获取单元105利用K最短路径算法进行的处理的细节。本领域技术人员可以理解,这些细节仅用于说明的目的,而不是对第二获取单元105所进行的处理的限制。
对于例如图7所示的转换后第二有向图,虚拟初始起始节点V′source和虚拟终止节点V′sink之间的任意路径都代表文本行的一个可能路径。在第二获取单元105利用K最短路径算法进行文本行提取的过程中,认为任意连通部件不能被两个文本行共用,也就是说提取的各条候选路径是节点不连接的,每个节点最多被一个路径包含。注意,“每个节点最多被一个路径包含”这一限制仅仅是本示例中应用K最短路径算法进行优化处理时为了求得优化结果所采取的一个约束条件。如果第二获取单元105通过其他方式针对有向图中的有向边和虚拟有向边构建优化函数和/或进行优化处理以获取文本行,则可以应用不同的约束或限制,在此不再展开描述。
第二获取单元105可以设定K的值,并且使用已知的bellman-ford算法来找到初使化的单一候选路径。此后,第二获取单元105以下述方式通过迭代处理获得多条候选路径:在当前的第n次迭代中,利用通过先前的第n-1次迭代获得的n-1条最短路径,找到当前迭代处理所获得的n条最短路径Pn={p1,p2,…,pn},即n条候选路径。由于K最短路径算法的迭代处理本身的细节对于本领域技术人员而言是已知的,因此在此不再详细描述。
第二获取单元105可以基于属于给定路径的所有有向边的有向边代价值和所有虚拟有向边的虚拟有向边代价函数来计算该路径的单一路径代价值。例如,对于第l条路径pl(l为自然数),第二获取单元105可以如下公式所示,基于属于该路径pl的所有有向边和虚拟有向边ei,j的有向边代价函数和虚拟有向边代价函数c(ei,j)来计算其单一路径代价值c(pl)。
在得到当前迭代中的n条最短路径各自的单一路径代价值之后,第二获取单元105可以如下所示公式,通过将各个单一路径代价值求和来计算当前迭代的总代价值。
在随后的第(n+1)次迭代之后,第二获取单元105可以比较当前的第(n+1)次迭代的总代价值c(Pn+1)和上一次迭代的总代价值c(Pn),并在总代价值出现拐点时确定已经出现了全局最优,如以下公式所示。
在达到全局最优之前,每次迭代处理各自得到的候选路径的总代价函数从初始迭代处理开始到当前迭代处理为止是单调递增的;当总代价函数出现下降时,意味着紧接在下降之前的、前一次的迭代处理已经出现了全局最优。例如,如果总代价函数从初始迭代开始到第x次迭代为止是单调递增的,并在第x+1次迭代处出现了下降,则第二获取单元105确定在第x次迭代处达到了全局最优,从而将第x次迭代处理中所得到的x条最短路径作为第二文本行。达到了全局最优的迭代次数同时被确定为优化的参数K。即,使得K=x。
另一方面,如果直到预先设定的K次迭代处理中的最后一次迭代处理为止,总代价函数一直是单调递增的,则第二获取单元105将最后一次迭代处理所获得的候选路径确定为文本行。
下面,对去除单元106的操作进行详细描述。
在通过上文的操作获取第一文本行和第二文本行之后,去除单元106对第一文本行和第二文本行进行后处理,以去除虚警文本行和重复的文本行。
由于所获取的第一和第二文本行来自于多个通道,因此对于所获取的来自特定通道的特定文本行,在与该特定通道不同的其它通道上应能找到与该特定文本行对应的文本行,否则该特定文本行是虚警文本行,应该当作噪声被滤除。另外,对于来自特定通道的特定文本行,可能在其他通道上也获取了与该特定文本行对应的文本行,因此对于该特定文本行的复制品应该被删除。
作为示例,去除单元106被配置成根据来自当前通道的文本行与来自不同于该当前通道且对应于所述文本行的对应文本行之间的相似度,来去除虚警文本行和重复的文本行。
在一个优选实施方式中,当来自当前通道的文本行与来自不同于所述当前通道对应文本行之间的相似度小于阈值时,来自当前通道的文本行为虚警文本行。
在一个优选实施方式中,当来自当前通道的文本行与来自不同于所述当前通道对应文本行之间的相似度大于阈值时,认为这两个文本行重复,应删除其中之一。
以上参照图1至图7描述了根据本发明实施方式的文本行获取装置100及其所实现的处理。本发明的基于多通道的文本行获取装置能够有效地改善了文本行获取性能,并且不同通道得到的文本行之间可以相互验证,从而提高了文本行获取精度。
根据本发明的另一方面,提供了一种文本行获取方法。图8示意性地示出了根据本发明实施方式的文本行获取方法800的流程的流程图。
如图8所示,文本行提取方法800可以包括:提取步骤S801,用于分别经由包括灰度通道和多个颜色通道的多个通道来提取待处理图像中的连通部件;构建步骤S802,用于对与多个通道中的一个通道对应的连通部件进行连接以构建第一有向图,并且对与多个通道中除所述一个通道以外的其余通道对应的连通部件进行连接以构建第二有向图;第一获取步骤S803,用于基于第一有向图来获取待处理图像的第一文本行;转换步骤S804,用于基于第一文本行来转换第二有向图;第二获取步骤S805,用于基于转换后的第二有向图来获取待处理图像的第二文本行;以及去除步骤S806中,去除第一文本行和第二文本行中的虚警文本行和重复的文本行,从而得到最终文本行。
上述文本行获取方法800及其各个组成步骤S801至S806例如可以执行以上参照图1至图7描述的文本行获取装置100及其各个相应单元101至106所实现的处理,并实现类似的效果,在此不再进行重复说明。
在一个优选实施方式中,在提取步骤S801中,可以经由设置有不同参数的多个通道来提取连通部件。其中,多个颜色通道包括红色通道、绿色通道和蓝色通道。
在一个优选实施方式中,在构建步骤S802中,可以根据预定约束、按照预定方向以有向边连接相应的连通部件来分别构建第一有向图和第二有向图。
在一个优选实施方式中,在第一获取步骤S803中,可以为第一有向图中的有向边设置有向边代价函数,并基于所设置的有向边代价函数获取第一文本行。其中,利用K最短路径算法,以第一有向图中的有向边的有向边代价函数作为有向边的边长,获取第一有向图的最短路径,以作为第一文本行。
在一个优选实施方式中,在转换步骤S804中,可以搜索第二有向图中与第一文本行对应的连通部件集合;断开与所搜索到的连通部件集合中除首连通部件和尾连通部件以外的其余连通部件连接的有向边;以及构建在首连通部件与尾连通部件之间的虚拟有向边。
在一个优选实施方式中,在步骤S805中,可以为转换后的第二有向图中的有向边和虚拟有向边分别设置有向边代价函数和虚拟有向边代价函数,并基于所设置的有向边代价函数和虚拟有向边代价函数来获取第二文本行,其中虚拟有向边代价函数根据在所搜索到的多个连通部件之间的有向边的有向边代价函数来计算。其中,利用K最短路径算法,以转换后的第二有向图中的有向边代价函数和虚拟有向边代价函数分别作为有向边和虚拟有向边的边长,获取转换后的第二有向图的最短路径,以作为第二文本行。
在一个优选实施方式中,在去除步骤S806中,根据来自当前通道的文本行与来自不同于该当前通道且对应于所述文本行的对应文本行之间的相似度,来去除虚警文本行和重复的文本行。其中,当来自当前通道的文本行与来自不同于该当前通道对应文本行之间的相似度小于阈值时,来自当前通道的文本行为虚警文本行。其中,当来自当前通道的文本行与来自不同于该当前通道对应文本行之间的相似度大于阈值时,认为这两个文本行重复,应删除其中之一。
另外,这里尚需指出的是,上述系统中各个组成部件可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图9所示的通用计算机900)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图9示出了可用于实施根据本发明实施方式的方法和系统的计算机的示意性框图。
在图9中,中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM 903中,还根据需要存储当CPU 901执行各种处理等等时所需的数据。CPU 901、ROM 902和RAM 903经由总线904彼此连接。输入/输出接口905也连接到总线904。
下述部件连接到输入/输出接口905:输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡比如LAN卡、调制解调器等)。通信部分909经由网络比如因特网执行通信处理。根据需要,驱动器910也可连接到输入/输出接口905。可拆卸介质911比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器910上,使得从中读出的计算机程序根据需要被安装到存储部分908中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质911安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM902、存储部分908中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施方式的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
应当注意,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的次序顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
以上对本发明各实施方式的描述是为了更好地理解本发明,其仅仅是示例性的,而非旨在对本发明进行限制。应注意,在以上描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。本领域技术人员可以理解,在不脱离本发明的发明构思的情况下,针对以上所描述的实施方式进行的各种变化和修改,均属于本发明的范围内。
综上,在根据本发明的实施方式中,本发明提供了如下技术方案。
方案1.一种文本行获取方法,包括:
分别经由包括灰度通道和多个颜色通道的多个通道来提取待处理图像中的连通部件;
对与所述多个通道中的一个通道对应的连通部件进行连接以构建第一有向图,并且对与所述多个通道中除所述一个通道以外的其余通道对应的连通部件进行连接以构建第二有向图;
基于所述第一有向图来获取所述待处理图像的第一文本行;
基于所述第一文本行来转换所述第二有向图;
基于转换后的第二有向图来获取所述待处理图像的第二文本行;以及
去除所述第一文本行和所述第二文本行中的虚警文本行和重复的文本行,从而得到最终文本行。
方案2.根据方案1所述的文本行获取方法,其中,根据来自当前通道的文本行与来自不同于所述当前且对应于所述文本行的对应文本行之间的相似度,来去除所述虚警文本行和所述重复的文本行。
方案3.根据方案2所述的文本行获取方法,其中,当来自当前通道的文本行与来自不同于所述当前通道对应文本行之间的相似度小于阈值时,所述来自当前通道的文本行为所述虚警文本行。
方案4.根据方案2所述的文本行获取方法,其中,当来自当前通道的文本行与来自不同于所述当前通道对应文本行之间的相似度小于阈值时,所述来自当前通道的文本行与所述对应文本行重复。
方案5.根据方案1所述的文本行获取方法,其中,经由设置有不同参数的多个通道来提取所述连通部件。
方案6.根据方案1至5中任一项所述的文本行获取方法,其中,根据预定约束、按照预定方向以有向边连接相应的连通部件来分别构建所述第一有向图和所述第二有向图。
方案7.根据方案6所述的文本行获取方法,其中,获取所述第一文本行包括:
为所述第一有向图中的有向边设置有向边代价函数,并基于所设置的有向边代价函数获取所述第一文本行。
方案8.根据方案7所述的文本行获取方法,其中,利用K最短路径算法,以所述第一有向图中的有向边的有向边代价函数作为所述有向边的边长,获取所述第一有向图的最短路径,以作为所述第一文本行。
方案9.根据方案6所述的文本行获取方法,其中,基于所述第一文本行来转换所述第二有向图包括:
搜索所述第二有向图中与所述第一文本行对应的连通部件集合;
断开与所搜索到的连通部件集合中除首连通部件和尾连通部件以外的其余连通部件连接的有向边;以及
构建在所述首连通部件与所述尾连通部件之间的虚拟有向边。
方案10.根据方案9所述的文本行获取方法,其中,获取所述第二文本行包括:
为转换后的第二有向图中的有向边和虚拟有向边分别设置有向边代价函数和虚拟有向边代价函数,并基于所设置的有向边代价函数和虚拟有向边代价函数来获取所述第二文本行,其中所述虚拟有向边代价函数根据在所搜索到的连通部件集合内的连通部件之间的有向边的有向边代价函数来计算。
方案11.根据方案10所述的文本行获取方法,其中,利用K最短路径算法,以转换后的第二有向图中的有向边代价函数和虚拟有向边代价函数分别作为所述有向边和所述虚拟有向边的边长,获取所述转换后的第二有向图的最短路径,以作为所述第二文本行。
方案12.根据方案1至5中任一项所述的文本行获取方法,其中,所述多个颜色通道包括红色通道、绿色通道和蓝色通道。
方案13.一种文本行获取装置,包括:
提取单元,用于分别经由包括灰度通道和多个颜色通道的多个通道来提取待处理图像中的连通部件;
构建单元,用于对与所述多个通道中的一个通道对应的连通部件进行连接以构建第一有向图,并且对与所述多个通道中除所述一个通道以外的其余通道对应的连通部件进行连接以构建第二有向图;
第一获取单元,用于基于所述第一有向图来获取所述待处理图像的第一文本行;
转换单元,用于基于所述第一文本行来转换所述第二有向图;
第二获取单元,用于基于转换后的第二有向图来获取所述待处理图像的第二文本行;以及
去除单元,用于去除所述第一文本行和所述第二文本行中的虚警文本行和重复的文本行,从而得到最终文本行。
方案14.根据方案13所述的文本行获取装置,其中,所述去除单元根据来自当前通道的文本行与来自不同于所述当前通道且对应于所述文本行的对应文本行之间的相似度,来去除所述虚警文本行和所述重复的文本行。
方案15.根据方案13所述的文本行获取装置,其中,所述提取单元进一步配置成经由设置有不同参数的多个通道来提取所述连通部件。
方案16.根据方案13至15中任一项所述的文本行获取装置,其中,所述构建单元进一步配置成根据预定约束、按照预定方向以有向边连接相应的连通部件来分别构建所述第一有向图和所述第二有向图。
方案17.根据方案16所述的文本行获取装置,其中,所述第一获取单元进一步配置成:为所述第一有向图中的有向边设置有向边代价函数,并基于所设置的有向边代价函数获取所述第一文本行。
方案18.根据方案16所述的文本行获取装置,其中,所述转换单元进一步配置成:
搜索所述第二有向图中与所述第一文本行对应的连通部件集合;
断开与所搜索到的连通部件集合中除首连通部件和尾连通部件以外的其余连通部件连接的有向边;以及
构建在所述首连通部件与所述尾连通部件之间的虚拟有向边。
方案19.根据方案18所述的文本行获取装置,其中,所述第二获取单元进一步配置成:
为转换后的第二有向图中的有向边和虚拟有向边分别设置有向边代价函数和虚拟有向边代价函数,并基于所设置的有向边代价函数和虚拟有向边代价函数来获取所述第二文本行,其中所述虚拟有向边代价函数根据在所搜索到的连通部件集合内的连通部件之间的有向边的有向边代价函数来计算。
方案20.根据方案19所述的文本行获取装置,其中,所述第二获取单元还进一步配置成:
利用K最短路径算法,以转换后的第二有向图中的有向边代价函数和虚拟有向边代价函数分别作为所述有向边和所述虚拟有向边的边长,获取所述转换后的第二有向图的最短路径,以作为所述第二文本行。
Claims (9)
1.一种文本行获取方法,包括:
分别经由包括灰度通道和多个颜色通道的多个通道来提取待处理图像中的连通部件;
对与所述多个通道中的一个通道对应的连通部件进行连接以构建第一有向图,并且对与所述多个通道中除所述一个通道以外的其余通道对应的连通部件进行连接以构建第二有向图;
基于所述第一有向图来获取所述待处理图像的第一文本行;
基于所述第一文本行来转换所述第二有向图;
基于转换后的第二有向图来获取所述待处理图像的第二文本行;以及
去除所述第一文本行和所述第二文本行中的虚警文本行和重复的文本行,从而得到最终文本行,
其中,基于所述第一文本行来转换所述第二有向图包括:
搜索所述第二有向图中与所述第一文本行对应的连通部件集合;
断开与所搜索到的连通部件集合中除首连通部件和尾连通部件以外的其余连通部件连接的有向边;以及
构建在所述首连通部件与所述尾连通部件之间的虚拟有向边。
2.根据权利要求1所述的文本行获取方法,其中,根据来自当前通道的文本行与来自不同于所述当前通道且对应于所述文本行的对应文本行之间的相似度,来去除所述虚警文本行和所述重复的文本行。
3.根据权利要求1所述的文本行获取方法,其中,经由设置有不同参数的多个通道来提取所述连通部件。
4.根据权利要求1至3中任一项所述的文本行获取方法,其中,根据预定约束、按照预定方向以有向边连接相应的连通部件来分别构建所述第一有向图和所述第二有向图。
5.根据权利要求4所述的文本行获取方法,其中,获取所述第一文本行包括:
为所述第一有向图中的有向边设置有向边代价函数,并基于所设置的有向边代价函数获取所述第一文本行。
6.根据权利要求5所述的文本行获取方法,其中,利用K最短路径算法,以所述第一有向图中的有向边的有向边代价函数作为所述有向边的边长,获取所述第一有向图的最短路径,以作为所述第一文本行。
7.根据权利要求4所述的文本行获取方法,其中,获取所述第二文本行包括:
为转换后的第二有向图中的有向边和虚拟有向边分别设置有向边代价函数和虚拟有向边代价函数,并基于所设置的有向边代价函数和虚拟有向边代价函数来获取所述第二文本行,其中所述虚拟有向边代价函数根据在所搜索到的连通部件集合内的连通部件之间的有向边的有向边代价函数来计算。
8.根据权利要求7所述的文本行获取方法,其中,利用K最短路径算法,以转换后的第二有向图中的有向边代价函数和虚拟有向边代价函数分别作为所述有向边和所述虚拟有向边的边长,获取所述转换后的第二有向图的最短路径,以作为所述第二文本行。
9.一种文本行获取装置,包括:
提取单元,用于分别经由包括灰度通道和多个颜色通道的多个通道来提取待处理图像中的连通部件;
构建单元,用于对与所述多个通道中的一个通道对应的连通部件进行连接以构建第一有向图,并且对与所述多个通道中除所述一个通道以外的其余通道对应的连通部件进行连接以构建第二有向图;
第一获取单元,用于基于所述第一有向图来获取所述待处理图像的第一文本行;
转换单元,用于基于所述第一文本行来转换所述第二有向图;
第二获取单元,用于基于转换后的第二有向图来获取所述待处理图像的第二文本行;以及
去除单元,用于去除所述第一文本行和所述第二文本行中的虚警文本行和重复的文本行,从而得到最终文本行,
其中,所述转换单元进一步配置成:
搜索所述第二有向图中与所述第一文本行对应的连通部件集合;
断开与所搜索到的连通部件集合中除首连通部件和尾连通部件以外的其余连通部件连接的有向边;以及
构建在所述首连通部件与所述尾连通部件之间的虚拟有向边。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710670454.3A CN109389114B (zh) | 2017-08-08 | 2017-08-08 | 文本行获取装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710670454.3A CN109389114B (zh) | 2017-08-08 | 2017-08-08 | 文本行获取装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109389114A CN109389114A (zh) | 2019-02-26 |
CN109389114B true CN109389114B (zh) | 2021-12-03 |
Family
ID=65414036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710670454.3A Active CN109389114B (zh) | 2017-08-08 | 2017-08-08 | 文本行获取装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109389114B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1612154A (zh) * | 2003-10-29 | 2005-05-04 | 株式会社日立制作所 | 文档检索·阅览方法以及文档检索·阅览装置 |
CN103871090A (zh) * | 2012-12-17 | 2014-06-18 | 北京大学 | 一种交互式路径生成方法和系统 |
CN106156773A (zh) * | 2016-06-27 | 2016-11-23 | 湖南大学 | 一种文本图像的分割方法及装置 |
CN106650725A (zh) * | 2016-11-29 | 2017-05-10 | 华南理工大学 | 基于全卷积神经网络的候选文本框生成和文本检测方法 |
CN106845474A (zh) * | 2015-12-07 | 2017-06-13 | 富士通株式会社 | 图像处理装置和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI394098B (zh) * | 2009-06-03 | 2013-04-21 | Nat Univ Chung Cheng | Shredding Method Based on File Image Texture Feature |
-
2017
- 2017-08-08 CN CN201710670454.3A patent/CN109389114B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1612154A (zh) * | 2003-10-29 | 2005-05-04 | 株式会社日立制作所 | 文档检索·阅览方法以及文档检索·阅览装置 |
CN103871090A (zh) * | 2012-12-17 | 2014-06-18 | 北京大学 | 一种交互式路径生成方法和系统 |
CN106845474A (zh) * | 2015-12-07 | 2017-06-13 | 富士通株式会社 | 图像处理装置和方法 |
CN106156773A (zh) * | 2016-06-27 | 2016-11-23 | 湖南大学 | 一种文本图像的分割方法及装置 |
CN106650725A (zh) * | 2016-11-29 | 2017-05-10 | 华南理工大学 | 基于全卷积神经网络的候选文本框生成和文本检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109389114A (zh) | 2019-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190266409A1 (en) | Methods and apparatuses for recognizing video and training, electronic device and medium | |
JP5183392B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
KR101348904B1 (ko) | 고차 상관 클러스터링을 이용한 이미지 분할 방법, 이를 처리하는 시스템 및 기록매체 | |
CN106845474B (zh) | 图像处理装置和方法 | |
JP2020095713A (ja) | 対話型インタフェース及びデータベースクエリを用いた文書画像からの情報抽出の方法及びシステム | |
US10929610B2 (en) | Sentence-meaning recognition method, sentence-meaning recognition device, sentence-meaning recognition apparatus and storage medium | |
US20190019052A1 (en) | Text Region Detection in Digital Images using Image Tag Filtering | |
CN109918513B (zh) | 图像处理方法、装置、服务器及存储介质 | |
US11514264B2 (en) | Method and apparatus for training classification model, and classification method | |
US8478045B2 (en) | Method and apparatus for processing an image comprising characters | |
CN109255382B (zh) | 用于图片匹配定位的神经网络系统,方法及装置 | |
JP2011146028A (ja) | 文字認識方法及び文字認識装置 | |
WO2023015939A1 (zh) | 用于文本检测的深度学习模型训练方法及文本检测方法 | |
WO2018232591A1 (en) | SEQUENCE RECOGNITION PROCESSING | |
JP6085999B2 (ja) | 画像中の文字列を認識する方法及び装置 | |
CN108427730B (zh) | 一种基于随机游走和条件随机场的社会标签推荐方法 | |
CN114495101A (zh) | 文本检测方法、文本检测网络的训练方法及装置 | |
CN114495147A (zh) | 识别方法、装置、设备以及存储介质 | |
CN109389114B (zh) | 文本行获取装置和方法 | |
JP2020173802A (ja) | 画像ブロックの認識結果の補正方法及び装置、並びに記憶媒体 | |
WO2010117031A1 (ja) | 類型化装置、類型化方法及び類型化プログラム | |
WO2019171537A1 (ja) | 意味推定システム、方法およびプログラム | |
CN115527069A (zh) | 物品识别和物品识别系统构建方法及装置 | |
CN115063858A (zh) | 视频人脸表情识别模型训练方法、装置、设备及存储介质 | |
CN114782771A (zh) | 训练方法、图像检索方法、图像处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |