CN105678207A - 用于从给定图像中识别目标铭板图像的内容的装置和方法 - Google Patents

用于从给定图像中识别目标铭板图像的内容的装置和方法 Download PDF

Info

Publication number
CN105678207A
CN105678207A CN201410665944.0A CN201410665944A CN105678207A CN 105678207 A CN105678207 A CN 105678207A CN 201410665944 A CN201410665944 A CN 201410665944A CN 105678207 A CN105678207 A CN 105678207A
Authority
CN
China
Prior art keywords
plate image
target
candidate
content
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410665944.0A
Other languages
English (en)
Inventor
汪留安
孙俊
范伟
胜山裕
濑川英吾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201410665944.0A priority Critical patent/CN105678207A/zh
Publication of CN105678207A publication Critical patent/CN105678207A/zh
Pending legal-status Critical Current

Links

Abstract

本发明涉及一种用于从给定图像中识别目标铭板图像的内容的装置和方法。所述装置包括:候选铭板图像获取模块,其被配置成从给定图像中获取所述目标铭板图像的一个或多个候选铭板图像;目标铭板图像确定模块,其被配置成利用预先定义的所述目标铭板图像的布局,检测每个候选铭板图像,从而确定目标铭板图像以及目标铭板图像的内容的位置,所述布局包括:文本行的数量、每个文本行的属性、文本行之间的相对位置;及识别模块,其被配置成识别所述目标铭板图像的内容。根据本发明,能够更快速、准确地从给定图像中识别目标铭板图像的内容。

Description

用于从给定图像中识别目标铭板图像的内容的装置和方法
技术领域
本发明涉及一种用于从给定图像中识别目标铭板图像的内容的装置和方法。
背景技术
自动检测与识别数字图像中的铭板内容是光学字符领域的重要技术,他能帮助用户查询维护相关铭板信息。图1给出了一个基于铭板图像检测与识别来对电线柱进行维护的示例。用户首先在手持设备的预览窗口获取图像,然后检测并识别图像中的铭板内容,最后用户可以检索历史维护信息、将维护过程上传到服务器,等等。但是,由于铭板位置、铭板内容多变性及低质量图像的影响,快速、正确的检测并识别出铭板中的内容是非常具有挑战的任务。大部分传统的方法把车牌的检测与识别作为重点,而并不关注具有各种各样的布局和内容的一般意义上的铭板的检测与识别。
例如,专利文献No.US8447112中揭示的技术试图从车辆图像中提取至少一个车牌位置,然后通过预先设定的置信度阈值来确定车牌和置信度。专利文献No.US8483440中揭示的技术根据输入车牌图像选择一个特定的模板图像来验证车牌检测识别结果。专利文献公开No.US02110228085中揭示的技术利用摄像机、多通滤波器、发光二级管和光照控制板来检测识别车牌图像。传统的车牌检测方法不能用于电线柱上的铭板及其它类型铭板的检测与识别,并且也不能用于多语言类型和多布局类型的铭板图像的检测与识别。
针对现有技术中存在的缺陷,提出本申请。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于提供一种用于从给定图像中识别目标铭板图像的内容的方法,以克服或减轻现有的问题。
根据本发明的另一个方面,提供了一种用于从给定图像中识别目标铭板图像的内容的装置,所述装置包括:候选铭板图像获取模块,其被配置成从所述给定图像中获取所述目标铭板图像的一个或多个候选铭板图像;目标铭板图像确定模块,其被配置成利用预先定义的所述目标铭板图像的布局,检测每个候选铭板图像,从而确定目标铭板图像以及目标铭板图像的内容的位置,所述布局包括:文本行的数量、每个文本行的属性、文本行之间的相对位置;及识别模块,其被配置成识别所述目标铭板图像的内容。
根据本发明的一个方面,提供了一种用于从给定图像中识别目标铭板图像的内容的方法,所述方法包括:从所述给定图像中获取所述目标铭板图像的一个或多个候选铭板图像;利用预先定义的所述目标铭板图像的布局,检测每个候选铭板图像,从而确定目标铭板图像以及目标铭板图像的内容的位置,所述布局包括:文本行的数量、每个文本行的属性、文本行之间的相对位置;及识别所述目标铭板图像的内容。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
根据本发明的实施例,能够更快速、准确地从给定图像中识别目标铭板图像的内容。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其它优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1示出了一个基于铭板图像检测与识别来对电线柱进行维护的示例;
图2是示意性地示出根据本发明的实施例的用于从给定图像中识别目标铭板图像的内容的方法的流程图;
图3示出了基于闭合路径LSD线段的检测例子;
图4示出了候选连通分量识别与噪声去除的例子;
图5是示意性地示出根据本发明的实施例的用于从给定图像中识别目标铭板图像的内容的装置的框图;
图6是示意性地示出根据本发明的实施例的目标铭板图像确定模块的一个实施例框图;
图7是示意性地示出根据本发明的实施例的候选连通分量获取单元的一个实施例框图;
图8是示意性地示出根据本发明的实施例的识别模块的一个实施例框图;
图9是示意性地示出根据本发明的实施例的候选铭板图像获取模块的一个实施例框图;
图10示出了可以用于实施本发明的用于从给定图像中识别目标铭板图像的内容的方法和装置的计算设备的举例的结构图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
图2是示意性地示出根据本发明的实施例的用于从给定图像中识别目标铭板图像的内容的方法的流程图。以下参照图2来描述根据本发明的实施例的用于从给定图像中识别目标铭板图像的内容的方法。
在步骤S201中,从给定图像中获取目标铭板图像的一个或多个候选铭板图像。
具体地,可以通过直线段检测算法对给定图像进行检测,从而获取多个直线段,并且将由构成封闭路径的直线段集合所限定的部分作为候选铭板图像。
例如,首先使用直线段检测(LSD)算法提取图像中存在的水平和垂直线段,为了提高直线段检测算法的有效性,LSD大小自适应于原图像大小,LSD图像大小范围为[slsd,maxS],
其中:slsd=simg/r,simg是输入图像大小,r为缩放比例。
s lsd = max S s lsd > max S s lsd otherwise 公式1
对于检测到的线段集合我们定义闭合路径 Path closed = Σ i = 0 j ( l → j + ϵ → ) , 其中是偏差向量。
如果存在一个LSD线段集合使得那么这个线段集合被聚集成一个闭合路径,这些闭合路径线段的外接矩形框被定位为候选铭板图像。图3给出了基于闭合路径LSD线段的检测例子。附图标记1和2指示出被检测出来的候选铭板图像。
在步骤S202中,利用预先定义的目标铭板图像的布局,检测每个候选铭板图像,从而确定目标铭板图像以及目标铭板图像的内容的位置。
目标铭板图像的布局可以包括:文本行的数量、每个文本行的属性、文本行之间的相对位置。文本行的属性可以进一步包括:文本行的方向、文本行包括的字符数量及每个字符的字符类型。字符类型可以是数字、字母、片假名、平假名、符号、汉字等铭板中的各种类型的字符。用户可以预定义想要识别的铭板布局Playout
Playout={Ntl,{tl1,tl2,…,tlN},rl}公式2
其中:Ntl是文本行数量,{tl1,tl2,…,tlN}是铭板中的文本行,rl表示所有文本行的相对位置关系。
具体地,对于每个候选铭板,可以利用AdaptiveSauvola算法提取连通分量。通过与每个字符类型对应的每个类型的识别引擎(例如MQDF引擎)对一个候选铭板图像的连通分量进行识别,从而获取候选连通分量。每种类型MQDF引擎可以选择Tc/Nt个具有较高置信度的识别结果并按降序排列,其中,Tc是总共候选个数,为Nt字符类型数。然后,根据连通分量属于预定的字符类型的概率,确定关键连通分量和非关键连通分量。具体地,如果连通分量属于预定的字符类型的概率中的最大值大于预定阈值Th,则将该连通分量作为关键连通分量,否则作为非关键连通分量。对所有关键连通分量计算关键连通分量的属性的平均值m和偏差σ。关键连通分量的属性包括大小、前景灰度值及笔划宽度中的至少一个。然后,基于对所有关键连通分量计算出的关键连通分量的属性的平均值和偏差,确定候选连通分量。具体地,如果非关键连通分量的属性值落在由平均值和偏差(即,m±kσ)构成的范围之外,则该非关键连通分量为噪声连通分量,剩余的连通分量和关键连通分量为候选连通分量。例如,图4给出了候选连通分量识别与噪声去除的例子,其字符类型为数字和片假名。如图4所示,根据计算结果,由附图标记3表示的连通分量为关键连通分量,由附图标记4表示的非关键连通分量的属性值落在由平均值和偏差(即,m±kσ)构成的范围之内,所以由附图标记3表示的关键连通分量和由附图标记4表示的非关键连通分量为候选连通分量。其它的非关键连通分量则作为噪声连通分量。
然后,基于目标铭板图像中的文本行的属性,将所有文本行归类为一个或多个子结构。我们通过如下方式将文本行定义为子结构:
SS={d,n,ct1,ct2,…ctn}公式3
其中:d,n为文本行方向(水平或垂直)及文本行中的字符个数,ct1,ct2,…ctn为文本行中字符的对应类型。
通过遍历由一个候选铭板图像的、在文本行的方向上连续的候选连通分量构成的、与目标铭板图像中的子结构具有相同的方向、包括相同的字符数量的候选结构,计算每个候选结构是目标铭板图像中的文本行的置信概率。根据目标铭板图像中的文本行之间的相对位置,计算出一个候选铭板图像中的、符合该位置关系的候选结构的总置信概率。将总置信概率最高的候选铭板图像作为目标铭板图像,以及将总置信概率最高的候选铭板图像中的符合位置关系的候选结构的位置作为目标铭板图像的内容的位置。
具有相同的方向、包括相同的字符数量并且对应字符具有相同的字符类型的不同文本行属于同一子结构,其中,对应字符是指不同文本行中的位置顺序相同的字符。
其中,通过计算候选结构中的各个字符的字符类型与子结构中的对应字符的字符类型相同的置信概率的平均值,来计算每个候选结构是目标铭板图像中的文本行的置信概率。
例如,首先,可以通过连通分量的水平重叠和垂直重叠把连通分量聚集成水平行或垂直行,然后把水平连通分量和垂直连通分量按水平方向和垂直方向升序排列。对于每个水平子结构,遍历所有水平行,计算子结构的置信度(公式4),并为每个子结构选择topN*m个候选。
p ss = Σ i = 1 i = n p i / n 公式4
其中:n是子结构字符个数,pi为子结构字符类型的概率,topN是候选文本行个数,m为具有相同子结构的文本行个数。
最后,通过文本行的相对位置关系选择相应的子结构,对于每个铭板,选择具有最高置信度的铭板布局作为最终铭板内容。
p layout = arg max ( Σ i = 1 i = pn p ss / pn ) 公式5
其中:pn为通过闭合路径LSD线段方法检测的候选铭板图像,为每个候选铭板图像的置信度。
在步骤S203中,识别目标铭板图像的内容。
具体地,使用与每个字符的类型相同类型的第一识别引擎(例如,MQDF引擎),对内容中的每个字符进行初次识别。如果第一识别引擎的可信度低于可信度阈值ThMQDF,则使用与每个字符的类型相同类型、具有更高精确度的第二识别引擎(例如,CNN引擎),对内容中的每个字符进行再次识别。
在识别出内容中的每个字符之后还可以基于GPS信息对铭板图像的内容进行校正。具体地,基于目标铭板图像的GPS位置,将识别出的内容与数据库中按照铭板图像的GPS位置记录的内容进行匹配,并且将数据库中记录的、与识别出的内容匹配度最高的内容作为目标铭板图像的内容,其中,在进行匹配时,数据库中记录的内容所处的GPS位置与目标铭板图像的GPS位置越接近,则该内容的匹配优先级越高。选择匹配优先级最高的前N个铭板内容作为匹配的目标铭板内容。如果匹配置信度THgps比预定义的阈值高,则选择数据库中的铭板内容作为识别的铭板图像内容。
根据本发明的实施例,利用线段检测(LSD)算法,能够快速并准确地检测铭板图像。预定义的铭板布局能够适用于具有各种语言的各种铭板。并且,通过对内容中的每个字符进行再次识别以及基于GPS信息对铭板图像的内容进行校正,能够有效地提高铭板图像识别的准确性。
以下参照图5来描述根据本发明的实施例的用于从给定图像中识别目标铭板图像的内容的装置500。
图5是示意性地示出根据本发明的实施例的用于从给定图像中识别目标铭板图像的内容的装置500的框图。其中,为了简明起见仅仅示出了与本发明密切相关的部分。在用于从给定图像中识别目标铭板图像的内容的装置500中,能够执行以上参考图2所描述的用于从给定图像中识别目标铭板图像的内容的方法。如图5所示,用于从给定图像中识别目标铭板图像的内容的装置500可以包括候选铭板图像获取模块501、目标铭板图像确定模块502以及识别模块503。
具体地,候选铭板图像获取模块501可以被配置成从给定图像中获取所述目标铭板图像的一个或多个候选铭板图像。
目标铭板图像确定模块502可以被配置成利用预先定义的所述目标铭板图像的布局,检测每个候选铭板图像,从而确定目标铭板图像以及目标铭板图像的内容的位置,所述布局包括:文本行的数量、每个文本行的属性、文本行之间的相对位置。
识别模块503可以被配置成识别所述目标铭板图像的内容。
文本行的属性进一步可以包括:文本行的方向、文本行包括的字符数量及每个字符的字符类型。
图6是示意性地示出根据本发明的实施例的目标铭板图像确定模块502的一个实施例框图。如图6所示,目标铭板图像确定模块502可以进一步包括候选连通分量获取单元601、子结构归类单元602和目标铭板图像及内容位置确定单元603。
具体地,候选连通分量获取单元601可以被配置成通过与每个字符类型对应的每个类型的识别引擎对一个候选铭板图像的连通分量进行识别,从而获取候选连通分量。
子结构归类单元602可以被配置成基于目标铭板图像中的文本行的属性,将所有文本行归类为一个或多个子结构。其中,具有相同的方向、包括相同的字符数量并且对应字符具有相同的字符类型的不同文本行属于同一子结构,其中,对应字符是指不同文本行中的位置顺序相同的字符。
目标铭板图像及内容位置确定单元603可以被配置成通过遍历由所述一个候选铭板图像的、在所述文本行的方向上连续的候选连通分量构成的、与目标铭板图像中的子结构具有相同的方向、包括相同的字符数量的候选结构,并根据目标铭板图像中的文本行之间的相对位置,计算一个候选铭板图像中的、符合该位置关系的候选结构的总置信概率,将总置信概率最高的候选铭板图像作为目标铭板图像,以及将总置信概率最高的候选铭板图像中的符合所述位置关系的候选结构的位置作为目标铭板图像的内容的位置。
具体地,目标铭板图像及内容位置确定单元603通过计算候选结构中的各个字符的字符类型与子结构中的对应字符的字符类型相同的置信概率的平均值,来计算每个候选结构是目标铭板图像中的文本行的置信概率。
图7是示意性地示出根据本发明的实施例的候选连通分量获取单元601的一个实施例框图。如图7所示,候选连通分量获取单元601可以进一步包括连通分量确定子单元701和候选连通分量确定子单元702。
连通分量确定子单元701可以被配置成根据连通分量属于预定的字符类型的概率,确定关键连通分量和非关键连通分量。具体地,如果连通分量属于所述预定的字符类型的概率中的最大值大于预定阈值,则将该连通分量作为关键连通分量,否则作为非关键连通分量。
候选连通分量确定子单元702可以被配置成其被配置成基于对所有关键连通分量计算出的关键连通分量的属性的平均值和偏差,确定候选连通分量。具体地,对所有关键连通分量计算关键连通分量的属性的平均值和偏差,如果非关键连通分量的属性值落在由所述平均值和偏差构成的范围之外,则该非关键连通分量为噪声连通分量,剩余的连通分量和关键连通分量为候选连通分量。
图8是示意性地示出根据本发明的实施例的识别模块503的一个实施例框图。如图8所示,识别模块503可以进一步包括初次识别单元801及再次识别单元802。
初次识别单元801可以被配置成使用与每个字符的类型相同类型的第一识别引擎,对所述内容中的每个字符进行初次识别,及
再次识别单元802可以被配置成如果第一识别引擎的可信度低于可信度阈值,则使用与每个字符的类型相同类型、具有更高精确度的第二识别引擎,对所述内容中的每个字符进行再次识别。
图9是示意性地示出根据本发明的实施例的候选铭板图像获取模块501的一个实施例框图。如图9所示,候选铭板图像获取模块501可以进一步包括直线段获取单元901和候选铭板图像获取单元902。
具体地,直线段获取单元901可以被配置成通过直线段检测算法对所述给定图像进行检测,从而获取多个直线段。
候选铭板图像获取单元902可以被配置成将由构成封闭路径的直线段集合所限定的部分,作为所述候选铭板图像。
另外,本发明的实施例的用于从给定图像中识别目标铭板图像的内容的装置还可以包括字符识别模块和内容匹配模块。字符识别模块可以被配置成识别出内容中的每个字符。内容匹配模块可以被配置成基于目标铭板图像的GPS位置,将识别出的内容与数据库中按照铭板图像的GPS位置记录的内容进行匹配,数据库中记录的内容所处的GPS位置与目标铭板图像的GPS位置越接近,则该内容的匹配优先级越高。
根据本发明的实施例,能够快速并准确地检测铭板图像。预定义的铭板布局能够适用于具有各种语言的各种铭板。并且,能够有效地提高铭板图像识别的准确性。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图10所示的通用计算机1000安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM1003中,也根据需要存储当CPU1001执行各种处理等等时所需的数据。CPU1001、ROM1002和RAM1003经由总线1004彼此链路。输入/输出接口1005也链路到总线1004。
下述部件链路到输入/输出接口1005:输入部分1006(包括键盘、鼠标等等)、输出部分1007(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1008(包括硬盘等)、通信部分1009(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1009经由网络比如因特网执行通信处理。根据需要,驱动器1010也可链路到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1010上,使得从中读出的计算机程序根据需要被安装到存储部分1008中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM1002、存储部分1008中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
另外,根据本发明的实施例的某些用于组合工具的方法和装置,能够扩大组合的使用范围。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图10所示的通用计算机1000)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其它的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
关于包括以上实施例的实施方式,还公开下述附记:
附记1.一种用于从给定图像中识别目标铭板图像的内容的装置,所述装置包括:
候选铭板图像获取模块,其被配置成从给定图像中获取所述目标铭板图像的一个或多个候选铭板图像;
目标铭板图像确定模块,其被配置成利用预先定义的所述目标铭板图像的布局,检测每个候选铭板图像,从而确定目标铭板图像以及目标铭板图像的内容的位置,所述布局包括:文本行的数量、每个文本行的属性、文本行之间的相对位置;及
识别模块,其被配置成识别所述目标铭板图像的内容。
附记2.根据附记1所述的装置,其中,
所述文本行的属性进一步包括:所述文本行的方向、所述文本行包括的字符数量及每个字符的字符类型。
附记3.根据附记1所述的装置,其中,所述候选铭板图像获取模块进一步包括:
直线段获取单元,其被配置成通过直线段检测算法对所述给定图像进行检测,从而获取多个直线段;及
候选铭板图像获取单元,其被配置成将由构成封闭路径的直线段集合所限定的部分,作为所述候选铭板图像。
附记4.根据附记2所述的装置,其中,目标铭板图像确定模块进一步包括:
候选连通分量获取单元,其被配置成通过与每个字符类型对应的每个类型的识别引擎对一个候选铭板图像的连通分量进行识别,从而获取候选连通分量;
子结构归类单元,其被配置成基于目标铭板图像中的文本行的属性,将所有文本行归类为一个或多个子结构;及
目标铭板图像及内容位置确定单元,其被配置成通过遍历由所述一个候选铭板图像的、在所述文本行的方向上连续的候选连通分量构成的、与目标铭板图像中的子结构具有相同的方向、包括相同的字符数量的候选结构,并根据目标铭板图像中的文本行之间的相对位置,计算一个候选铭板图像中的、符合该位置关系的候选结构的总置信概率,将总置信概率最高的候选铭板图像作为目标铭板图像,以及将总置信概率最高的候选铭板图像中的符合所述位置关系的候选结构的位置作为目标铭板图像的内容的位置。
附记5.根据附记4所述的装置,其中,具有相同的方向、包括相同的字符数量并且对应字符具有相同的字符类型的不同文本行属于同一子结构,其中,所述对应字符是指不同文本行中的位置顺序相同的字符。
附记6.根据附记4或5所述的装置,其中,所述目标铭板图像及内容位置确定单元通过计算候选结构中的各个字符的字符类型与子结构中的对应字符的字符类型相同的置信概率的平均值,来计算每个候选结构是目标铭板图像中的文本行的置信概率。
附记7.根据附4所述的装置,其中,候选连通分量获取单元进一步包括:
连通分量确定子单元,其被配置成根据连通分量属于预定的字符类型的概率,确定关键连通分量和非关键连通分量;及
候选连通分量确定子单元,其被配置成基于对所有关键连通分量计算出的关键连通分量的属性的平均值和偏差,确定候选连通分量。
附记8.根据附记1所述的装置,其中识别模块进一步包括:
初次识别单元,其被配置成使用与每个字符的类型相同类型的第一识别引擎,对所述内容中的每个字符进行初次识别;及
再次识别单元,其被配置成如果第一识别引擎的可信度低于可信度阈值,则使用与每个字符的类型相同类型、具有更高精确度的第二识别引擎,对所述内容中的每个字符进行再次识别。
附记9.根据附记1所述的装置,还包括:
字符识别模块,其被配置成识别出所述内容中的每个字符;及
内容匹配模块,其被配置成基于目标铭板图像的GPS位置,将识别出的内容与数据库中按照铭板图像的GPS位置记录的内容进行匹配,数据库中记录的内容所处的GPS位置与目标铭板图像的GPS位置越接近,则该内容的匹配优先级越高。
附记10.根据附记7所述的装置,其中,所述关键连通分量的属性包括大小、前景灰度值及笔划宽度中的至少一个。
附记11.一种用于从给定图像中识别目标铭板图像的内容的方法,所述方法包括:
从给定图像中获取所述目标铭板图像的一个或多个候选铭板图像;
利用预先定义的所述目标铭板图像的布局,检测每个候选铭板图像,从而确定目标铭板图像以及目标铭板图像的内容的位置,所述布局包括:文本行的数量、每个文本行的属性、文本行之间的相对位置;及
识别所述目标铭板图像的内容。
附记12.根据附记11所述的方法,其中,
所述文本行的属性进一步包括:所述文本行的方向、所述文本行包括的字符数量及每个字符的字符类型。
附记13.根据附记11所述的方法,其中,从给定图像中获取所述目标铭板图像的一个或多个候选铭板图像包括:
通过直线段检测算法对所述给定图像进行检测,从而获取多个直线段;及
将由构成封闭路径的直线段集合所限定的部分,作为所述候选铭板图像。
附记14.根据附记12所述的方法,其中,利用预先定义的所述目标铭板图像的布局,检测每个候选铭板图像,从而确定目标铭板图像以及目标铭板图像的内容的位置包括:
通过与每个字符类型对应的每个类型的识别引擎对一个候选铭板图像的连通分量进行识别,从而获取候选连通分量;
基于目标铭板图像中的文本行的属性,将所有文本行归类为一个或多个子结构;及
通过遍历由所述一个候选铭板图像的、在所述文本行的方向上连续的候选连通分量构成的、与目标铭板图像中的子结构具有相同的方向、包括相同的字符数量的候选结构,并根据目标铭板图像中的文本行之间的相对位置,计算一个候选铭板图像中的、符合该位置关系的候选结构的总置信概率,将总置信概率最高的候选铭板图像作为目标铭板图像,以及将总置信概率最高的候选铭板图像中的符合所述位置关系的候选结构的位置作为目标铭板图像的内容的位置。
附记15.根据附记14所述的方法,其中,具有相同的方向、包括相同的字符数量并且对应字符具有相同的字符类型的不同文本行属于同一子结构,其中,所述对应字符是指不同文本行中的位置顺序相同的字符。
附记16.根据附记14或15所述的方法,其中,通过计算候选结构中的各个字符的字符类型与子结构中的对应字符的字符类型相同的置信概率的平均值,来计算每个候选结构是目标铭板图像中的文本行的置信概率。
附记17.根据附记14所述的方法,其中,通过与每个字符类型对应的每个类型的识别引擎对一个候选铭板图像的连通分量进行识别,从而获取候选连通分量包括:
根据连通分量属于预定的字符类型的概率,确定关键连通分量和非关键连通分量;及
基于对所有关键连通分量计算出的关键连通分量的属性的平均值和偏差,确定候选连通分量。
附记18.根据附记11所述的方法,其中识别所述目标铭板图像的内容包括:
使用与每个字符的类型相同类型的第一识别引擎,对所述内容中的每个字符进行初次识别;及
如果第一识别引擎的可信度低于可信度阈值,则使用与每个字符的类型相同类型、具有更高精确度的第二识别引擎,对所述内容中的每个字符进行再次识别。
附记19.根据附记11所述的方法,还包括:
识别出所述内容中的每个字符;及
基于目标铭板图像的GPS位置,将识别出的内容与数据库中按照铭板图像的GPS位置记录的内容进行匹配,数据库中记录的内容所处的GPS位置与目标铭板图像的GPS位置越接近,则该内容的匹配优先级越高。
附记20.根据附记17所述的方法,其中,所述关键连通分量的属性包括大小、前景灰度值及笔划宽度中的至少一个。

Claims (10)

1.一种用于从给定图像中识别目标铭板图像的内容的装置,所述装置包括:
候选铭板图像获取模块,其被配置成从给定图像中获取所述目标铭板图像的一个或多个候选铭板图像;
目标铭板图像确定模块,其被配置成利用预先定义的所述目标铭板图像的布局,检测每个候选铭板图像,从而确定目标铭板图像以及目标铭板图像的内容的位置,所述布局包括:文本行的数量、每个文本行的属性、文本行之间的相对位置;及
识别模块,其被配置成识别所述目标铭板图像的内容。
2.根据权利要求1所述的装置,其中,
所述文本行的属性进一步包括:所述文本行的方向、所述文本行包括的字符数量及每个字符的字符类型。
3.根据权利要求1所述的装置,其中,所述候选铭板图像获取模块进一步包括:
直线段获取单元,其被配置成通过直线段检测算法对所述给定图像进行检测,从而获取多个直线段;及
候选铭板图像获取单元,其被配置成将由构成封闭路径的直线段集合所限定的部分,作为所述候选铭板图像。
4.根据权利要求2所述的装置,其中,所述目标铭板图像确定模块进一步包括:
候选连通分量获取单元,其被配置成通过与每个字符类型对应的每个类型的识别引擎对一个候选铭板图像的连通分量进行识别,从而获取候选连通分量;
子结构归类单元,其被配置成基于目标铭板图像中的文本行的属性,将所有文本行归类为一个或多个子结构;及
目标铭板图像及内容位置确定单元,其被配置成通过遍历由所述一个候选铭板图像的、在所述文本行的方向上连续的候选连通分量构成的、与目标铭板图像中的子结构具有相同的方向、包括相同的字符数量的候选结构,并根据目标铭板图像中的文本行之间的相对位置,计算一个候选铭板图像中的、符合该位置关系的候选结构的总置信概率,将总置信概率最高的候选铭板图像作为目标铭板图像,以及将总置信概率最高的候选铭板图像中的符合所述位置关系的候选结构的位置作为目标铭板图像的内容的位置。
5.根据权利要求4所述的装置,其中,具有相同的方向、包括相同的字符数量并且对应字符具有相同的字符类型的不同文本行属于同一子结构,其中,所述对应字符是指不同文本行中的位置顺序相同的字符。
6.根据权利要求4或5所述的装置,其中,所述目标铭板图像及内容位置确定单元通过计算候选结构中的各个字符的字符类型与子结构中的对应字符的字符类型相同的置信概率的平均值,来计算每个候选结构是目标铭板图像中的文本行的置信概率。
7.根据权利要求4所述的装置,其中,候选连通分量获取单元进一步包括:
连通分量确定子单元,其被配置成根据连通分量属于预定的字符类型的概率,确定关键连通分量和非关键连通分量;及
候选连通分量确定子单元,其被配置成基于对所有关键连通分量计算出的关键连通分量的属性的平均值和偏差,确定候选连通分量。
8.根据权利要求1所述的装置,其中识别模块进一步包括:
初次识别单元,其被配置成使用与每个字符的类型相同类型的第一识别引擎,对所述内容中的每个字符进行初次识别;及
再次识别单元,其被配置成如果第一识别引擎的可信度低于可信度阈值,则使用与每个字符的类型相同类型、具有更高精确度的第二识别引擎,对所述内容中的每个字符进行再次识别。
9.根据权利要求1所述的装置,还包括:
字符识别模块,其被配置成识别出所述内容中的每个字符;及
内容匹配模块,其被配置成基于目标铭板图像的GPS位置,将识别出的内容与数据库中按照铭板图像的GPS位置记录的内容进行匹配,数据库中记录的内容所处的GPS位置与目标铭板图像的GPS位置越接近,则该内容的匹配优先级越高。
10.一种用于从给定图像中识别目标铭板图像的内容的方法,所述方法包括:
从给定图像中获取所述目标铭板图像的一个或多个候选铭板图像;
利用预先定义的所述目标铭板图像的布局,检测每个候选铭板图像,从而确定目标铭板图像以及目标铭板图像的内容的位置,所述布局包括:文本行的数量、每个文本行的属性、文本行之间的相对位置;及
识别所述目标铭板图像的内容。
CN201410665944.0A 2014-11-19 2014-11-19 用于从给定图像中识别目标铭板图像的内容的装置和方法 Pending CN105678207A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410665944.0A CN105678207A (zh) 2014-11-19 2014-11-19 用于从给定图像中识别目标铭板图像的内容的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410665944.0A CN105678207A (zh) 2014-11-19 2014-11-19 用于从给定图像中识别目标铭板图像的内容的装置和方法

Publications (1)

Publication Number Publication Date
CN105678207A true CN105678207A (zh) 2016-06-15

Family

ID=56945090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410665944.0A Pending CN105678207A (zh) 2014-11-19 2014-11-19 用于从给定图像中识别目标铭板图像的内容的装置和方法

Country Status (1)

Country Link
CN (1) CN105678207A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060204096A1 (en) * 2005-03-04 2006-09-14 Fujitsu Limited Apparatus, method, and computer program for analyzing document layout
CN102663377A (zh) * 2012-03-15 2012-09-12 华中科技大学 一种基于模板匹配的字符识别方法
CN102722707A (zh) * 2012-06-11 2012-10-10 复旦大学 基于连通区域和间隙模型的车牌字符分割方法
CN103065144A (zh) * 2012-12-30 2013-04-24 信帧电子技术(北京)有限公司 车标识别方法及装置
CN103136523A (zh) * 2012-11-29 2013-06-05 浙江大学 一种自然图像中任意方向文本行检测方法
US20130294696A1 (en) * 2012-05-04 2013-11-07 Fujitsu Limited Image processing method and apparatus
US20130294652A1 (en) * 2012-05-04 2013-11-07 Xerox Corporation License plate character segmentation using likelihood maximization
CN103577818A (zh) * 2012-08-07 2014-02-12 北京百度网讯科技有限公司 一种图像文字识别的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060204096A1 (en) * 2005-03-04 2006-09-14 Fujitsu Limited Apparatus, method, and computer program for analyzing document layout
CN102663377A (zh) * 2012-03-15 2012-09-12 华中科技大学 一种基于模板匹配的字符识别方法
US20130294696A1 (en) * 2012-05-04 2013-11-07 Fujitsu Limited Image processing method and apparatus
US20130294652A1 (en) * 2012-05-04 2013-11-07 Xerox Corporation License plate character segmentation using likelihood maximization
CN102722707A (zh) * 2012-06-11 2012-10-10 复旦大学 基于连通区域和间隙模型的车牌字符分割方法
CN103577818A (zh) * 2012-08-07 2014-02-12 北京百度网讯科技有限公司 一种图像文字识别的方法和装置
CN103136523A (zh) * 2012-11-29 2013-06-05 浙江大学 一种自然图像中任意方向文本行检测方法
CN103065144A (zh) * 2012-12-30 2013-04-24 信帧电子技术(北京)有限公司 车标识别方法及装置

Similar Documents

Publication Publication Date Title
KR101122854B1 (ko) 스캔된 문서들로부터 전자 서식들을 채우기 위한 방법 및장치
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
US11663817B2 (en) Automated signature extraction and verification
US9684842B2 (en) Methods and apparatus to extract text from imaged documents
US10643094B2 (en) Method for line and word segmentation for handwritten text images
US8467614B2 (en) Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images
US20160371246A1 (en) System and method of template creation for a data extraction tool
US9613299B2 (en) Method of identifying pattern training need during verification of recognized text
CN104966051A (zh) 一种文档图像的版式识别方法
US20130077856A1 (en) Processes and systems for training machine typesets for character recognition
CN109784330B (zh) 招牌内容识别方法、装置及设备
CN102968610B (zh) 收据图像处理方法和设备
US20120281919A1 (en) Method and system for text segmentation
JP5601027B2 (ja) 画像処理装置及び画像処理プログラム
Kumar et al. Line based robust script identification for indianlanguages
CN104504385B (zh) 手写粘连数字串的识别方法
CN105678207A (zh) 用于从给定图像中识别目标铭板图像的内容的装置和方法
CN111476090B (zh) 水印识别方法和装置
JP6007720B2 (ja) 情報処理装置及び情報処理プログラム
CN109409370B (zh) 一种远程桌面字符识别方法和装置
CN112434700A (zh) 车牌识别方法、装置、设备及存储介质
Araújo et al. Segmenting and recognizing license plate characters
JP5169648B2 (ja) 原画像探索装置及び原画像探索プログラム
Kaur et al. Adverse conditions and techniques for cross-lingual text recognition
CN112950749B (zh) 基于生成对抗网络的书法图片生成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wang Liuan

Inventor after: Sun Jun

Inventor after: Fan Wei

Inventor after: Sheng Shanyu

Inventor before: Wang Liuan

Inventor before: Sun Jun

Inventor before: Fan Wei

Inventor before: Sheng Shanyu

Inventor before: Segawa Ego

COR Change of bibliographic data
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160615

WD01 Invention patent application deemed withdrawn after publication