CN105574523A - 字符识别装置及方法、图像显示装置、图像检索装置 - Google Patents
字符识别装置及方法、图像显示装置、图像检索装置 Download PDFInfo
- Publication number
- CN105574523A CN105574523A CN201510724760.1A CN201510724760A CN105574523A CN 105574523 A CN105574523 A CN 105574523A CN 201510724760 A CN201510724760 A CN 201510724760A CN 105574523 A CN105574523 A CN 105574523A
- Authority
- CN
- China
- Prior art keywords
- text
- mentioned
- region
- hidden
- text region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/246—Division of the character sequences into groups prior to recognition; Selection of dictionaries using linguistic properties, e.g. specific for English or German language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
实施方式涉及字符识别装置、图像显示装置、图像检索装置以及字符识别方法。实施方式的字符识别装置具备检测部、第一识别部、推定部、第二识别部、以及输出部。检测部从输入图像中检测显现文本区域。第一识别部对上述显现文本区域进行字符图案识别,计算与字符图案的似然度相应的字符图案识别成本。推定部推定半隐藏文本区域,该半隐藏文本区域是对一个或者多个上述显现文本区域统合隐藏文本区域而成的区域。第二识别部计算统合成本,上述统合成本是将针对半隐藏文本区域所包含的显现文本区域而计算出的字符图案识别成本与语言成本统合而成的,上述语言成本与适用于半隐藏文本区域整体的、文本的语言的似然度相应。输出部将基于统合成本而选择或者排序的文本作为针对半隐藏文本区域的字符识别的结果进行输出。
Description
本申请享有2014年10月31日在先提出的日本国专利申请编号2014-223173的优先权的利益,并且援引其全部内容。
技术领域
实施方式涉及字符识别装置、图像显示装置、图像检索装置以及字符识别方法。
背景技术
以往,已知有根据从例如附属于智能手机的摄像机等输入的情景图像来识别字符的技术。在作为情景图像而拍摄的情景中,有时包含虽然实际存在但因被隐藏而不能看到的字符。例如,有时因电线杆等遮挡物导致不能看到处于其背后的招牌的字符,或因曝光过度、失焦等导致不能看到特定范围的字符。但是,在以往的字符识别技术中,由于仅将显现化的字符作为识别对象,因此以不包含这种隐藏的字符的形式进行字符识别。
在各种文本应用中利用作为字符识别的结果而得的文本的情况下,因不能识别这种隐藏的字符而导致的文本的缺损能成为较大的问题。例如,在翻译识别结果的文本的情况下,担心仅因一部分的字符缺损,导致在分析中产生较大的混乱而翻译精度大幅度降低。另外,在以识别结果的文本为基础进行图像检索的情况下,字符的缺损会导致检索结果的再现率降低。特别是在基于单词的检索器的情况下,该影响变大。因此,期望构建能够以补充隐藏的字符的形式获得识别结果的文本的新的技术。
发明内容
实施方式的字符识别装置具备检测部、第一识别部、推定部、第二识别部、以及输出部。检测部从输入图像中检测字符显现化的区域即显现文本区域。第一识别部对上述显现文本区域进行字符图案识别,计算与字符图案的似然度相应的字符图案识别成本。推定部推定半隐藏文本区域,该半隐藏文本区域是对一个或者多个上述显现文本区域统合隐藏文本区域而成的区域,上述隐藏文本区域是被推定为字符被隐藏的区域。第二识别部计算统合成本,上述统合成本是将针对上述半隐藏文本区域所包含的上述显现文本区域而计算出的上述字符图案识别成本与语言成本统合而成的,上述语言成本与适用于上述半隐藏文本区域整体的文本的语言的似然度相应。输出部将基于上述统合成本而选择或者排序的文本作为针对上述半隐藏文本区域的字符识别的结果进行输出。
附图说明
图1是说明遮蔽现象的图。
图2是说明部分缺损字符的图。
图3是表示实施方式的字符识别装置的构成例的框图。
图4是表示隐藏文本区域的例子的图。
图5-1是表示通过点方式检测显现文本区域的处理的顺序的流程图。
图5-2是说明点方式的显现文本区域的检测的具体例的图。
图6-1是表示通过光栅方式检测显现文本区域的处理的顺序的流程图。
图6-2是说明光栅方式的显现文本区域的检测的具体例的图。
图7是表示字符图案识别器的处理的顺序的流程图。
图8是表示字符图案识别所输出的网格的一个例子的图。
图9是表示利用字符识别拒绝来检测部分缺损字符区域的处理的顺序的流程图。
图10-1是表示使用部分缺损字符识别器来检测部分缺损字符区域的处理的顺序的流程图。
图10-2是说明使用了部分缺损字符识别器的部分缺损字符区域的检测的具体例的图。
图11是表示半隐藏文本区域推定器的构成例的框图。
图12是说明文本区域的统合方法的图。
图13是表示断开型半隐藏文本区域推定器的处理的顺序的流程图。
图14是表示半隐藏文本区域的构造例的图。
图15是说明帧外修剪型半隐藏文本区域的一个例子的图。
图16是表示帧外修剪型半隐藏文本区域推定器的处理的顺序的流程图。
图17是说明遮蔽修剪型半隐藏文本区域的一个例子的图。
图18是表示推定遮蔽修剪型半隐藏文本区域的处理的顺序的流程图。
图19是表示生成半隐藏文本区域的网格的处理的顺序的流程图。
图20是表示生成横写的隐藏文本区域的无成本网格的处理的顺序的流程图。
图21是表示生成纵写的隐藏文本区域的无成本网格的处理的顺序的流程图。
图22是表示隐藏文本区域的网格的一个例子的图。
图23是表示生成半隐藏文本区域的网格的处理的顺序的流程图。
图24是表示半隐藏文本区域的网格的一个例子的图。
图25是说明能够统合的半隐藏文本区域的例子的图。
图26是说明断开型遮蔽现象的识别例的图。
图27是说明修剪型遮蔽现象的识别例的图。
图28是表示实施方式的图像显示装置的构成例的框图。
图29是表示图像显示装置的显示画面的画面例的图。
图30是表示实施方式的图像检索装置的构成例的框图。
图31是表示构建索引的处理的顺序的流程图。
图32是表示排序处理的顺序的流程图。
图33是说明以往的翻译模型的一个例子的图。
图34是说明实施方式的翻译模型的一个例子的图。
图35是表示计算原始文本片的成本的处理的顺序的流程图。
图36是表示计算翻译单位的重要度的处理的顺序的流程图。
图37是表示依赖构造分析的结果的一个例子的图。
图38是说明遮蔽现象的图。
图39是说明部分缺损行的图。
图40是表示实施方式的行补充型字符识别装置的构成例的框图。
图41是表示隐藏文本行区域的一个例子的图。
图42是表示多行文本区域推定器的构成例的框图。
图43是说明文本行区域的统合方法的图。
图44是表示多行文本区域的构造例的图。
图45是表示断开型隐藏文本行区域的一个例子的图。
图46是表示将潜在文本区域分成空余与隐藏文本行区域的处理的顺序的流程图。
图47是表示列举多行文本区域的处理的顺序的流程图。
图48是表示帧外修剪型多行文本区域的一个例子的图。
图49是表示推定帧外修剪型多行文本区域的处理的顺序的流程图。
图50是表示遮蔽修剪型多行文本区域的一个例子的图。
图51是表示推定遮蔽修剪型多行文本区域的处理的顺序的流程图。
图52是表示多行文本区域网格的一个例子的图。
图53是概略地表示字符识别装置的硬件构成的一个例子的框图。
具体实施方式
<第一实施方式>
实施方式的字符识别装置在输入的图像(以下称作“输入图像”。)之中对包含字符(文本)的文本区域进行字符识别。此时,以对虽然实际存在但因被隐藏而不会出现在输入图像上的字符进行补充的形式,进行字符识别,输出识别结果的文本。但是,在本实施方式的说明中,设文本区域表示出现单行文本的图像区域,在文本遍及多行的情况下,将各行作为独立的文本区域来处理。
(遮蔽现象的分类)
以下,将实际存在的字符被隐藏的现象称作“遮蔽现象”。图1是说明遮蔽现象的图。根据文本区域的哪个位置的字符被隐藏的观点,将遮蔽现象区分为“断开型”与“修剪型”的两种。
如图1(a)所示,断开型是文本区域的除两端以外的字符串被隐藏的模式。图1(b)是情景图像中的断开型的遮蔽现象的例子,处于背后的招牌的中途的字符串因电线杆等遮挡物而被隐藏。图1(c)是通过用扫描仪读取原稿而取得的扫描图像中的断开型的遮蔽现象的例子,第二行的文本的中途字符串被墨污损。
如图1(d)所示,修剪型是文本区域的开头或末尾的字符串被隐藏的模式。图1(e)是情景图像中的修剪型的遮蔽现象的例子,背后的招牌的左端的字符串因电线杆等遮挡物而被隐藏。图1(f)是情景图像中的修剪型的遮蔽现象的另一例,招牌向左出到帧外,左端的字符串被隐藏。图1(g)是扫描图像中的修剪型的遮蔽现象的例子,第二行的文本的右端的字符串被墨污损。此外,在以下的说明中,将在图1(e)以及图1(g)中例示的遮蔽现象称作“遮蔽修剪型”,将在图1(f)中例示的遮蔽现象称作“帧外修剪型”,从而区分两者。
(部分缺损字符现象)
以上的遮蔽现象的分类是基于字符单位下的隐藏方法的分类。但是,实际上并不限定于对应字符边界地被隐藏,如在图2(a)、图2(b)中示出一个例子那样,也包括从字符的中途开始隐藏。将该现象称作“部分缺损字符现象”,将该字符以及其区域称作“部分缺损字符”以及“部分缺损字符区域”。在图2(a)、图2(b)的例子中,被图中的虚线包围的区域是部分缺损字符区域。部分缺损字符现象在上述分类中的任意一个遮蔽现象中均可能发生,并成为使字符识别混乱的原因。在本实施方式中,对于部分缺损字符现象也一并进行对应。
(本实施方式的处理中的注意事项)
在如上所述的本实施方式中,将出现单行文本的区域作为文本区域来进行处理,在文本遍及多行的情况下,将各行作为独立的文本区域来进行处理。
另外,设文本区域是矩形的区域。对于因投影变形或旋转等变形的文本区域,作为预处理,检测存在投影变形或旋转的区域并校正成对正图像,之后进行在本实施方式中说明的处理。此外,校正成对正图像法技术为公知,因此这里省略详细的说明。
另外,横写文本的文本方向设为从左至右,纵写文本的文本方向设为从上至下。在以阿拉伯语等不符合于此的语言作为对象的情况下,只要调整文本方向即可。
(术语的定义)
以下总结在本实施方式的说明中使用的与区域相关的术语。
显现文本区域:将在图像上连续地出现字符的单行文本的矩形区域称作“显现文本区域”。因遮蔽现象而未在图像上出现字符的区域成为该区域之外。
隐藏文本区域:将原本存在字符但因遮蔽现象而被隐藏的矩形区域称作“隐藏文本区域”。
半隐藏文本区域:将图像中的显现文本区域与隐藏文本区域的任意组中的、成为一个单行文本且相互相邻的组所构成的一个矩形区域称作“半隐藏文本区域”。
文本区域:将包含显现文本区域、隐藏文本、以及半隐藏文本区域的上位概念称作“文本区域”。
(字符识别装置的构成)
图3是表示本实施方式的字符识别装置100的构成例的框图。如图3所示,本实施方式的字符识别装置100具备显现文本区域检测器110(检测部)、字符图案识别器120(第一识别部)、部分缺损字符区域检测器130、半隐藏文本区域推定器140(推定部)、半隐藏文本区域网格生成器150以及基于语言评价的字符识别器160(第二识别部)、以及文本区域构造选择器170(输出部)。此外,在本实施方式的字符识别装置100中进行各种推定处理,但作为针对推定结果的指标,一贯使用“成本(cost)”。所谓成本是具有与置信度或得分相反的概念的指标,置信度越高,成本越小。
显现文本区域检测器110从输入图像X中检测显现文本区域。显现文本区域检测器110的处理能够使用现有技术。之后详细叙述处理的具体例。
字符图案识别器120对各显现文本区域进行字符图案识别,并以网格(lattice)形式输出文本候选。输出的网格具有与通过字符图案识别而得的文本候选对应的路径,对各路径赋予与针对对应的文本候选的字符图案识别的似然度相应的成本(以下,称作“字符图案识别成本”。)。字符图案识别器120的处理能够使用现有技术。之后详细叙述处理的具体例。
部分缺损字符区域检测器130检测如图2所例示那样产生了部分缺损字符现象的部分缺损字符区域。在本实施方式中,准备了拒绝识别成本较低的区域的方法、以及使用部分缺损字符区域的检测器来检测的方法这两种方法。在检测到部分缺损字符区域的情况下,从该字符所属的显现文本区域中去除该部分缺损字符区域。由此,在显现文本区域中不再包含部分缺损字符。之后详细叙述处理的具体例。
半隐藏文本区域推定器140基于所检测到的显现文本区域,推定隐藏文本区域,进而推定统合它们而成的半隐藏文本区域。在图4中表示隐藏文本区域的例子。图4(a)~图4(e)分别与图1所示的遮蔽现象的具体例对应,由粗线的框包围的区域是隐藏文本区域。
半隐藏文本区域推定器140例如基于显现文本区域的输入图像X上的绝对或者相对的位置关系,检测上述遮蔽现象的产生,并推定相邻的隐藏文本区域。其中,由于预测精度较低,因此在该阶段也包含置信度较低的候选地进行过度检测,并通过后续处理进行详细的判断来缩小。之后详细叙述处理的具体例。
半隐藏文本区域网格生成器150生成半隐藏文本区域的网格。半隐藏文本区域指的是如上述那样由输入图像X中的显现文本区域与隐藏文本区域的任意组中的、成为一个单行文本且相互相邻的区域的组构成的一个矩形区域。半隐藏文本区域网格生成器150以网格形式生成能够适用于隐藏文本区域的字符串候选,并与显现文本区域的字符串候选网格连结,从而获得半隐藏文本区域的网格。但是,关于所适用的文本候选,赋予如下限制:在使用与相邻的显现文本区域同等字体时被推定为文本的图像表现所需的尺寸与隐藏文本区域的尺寸大致一致。
另外,对半隐藏文本区域的网格赋予隐藏文本区域的空间成本。作为空间成本的分配方法,准备了分配基于空间的观点而计算的成本的方法、以及确定隐藏的原因而分配与该原因相应的成本的方法。之后详细叙述处理的具体例。
基于语言评价的字符识别器160分别对半隐藏文本区域群以及各个显现文本区域群进行贯通文本区域整体的语言评价,并将该评价结果与至此获得的字符图案识别成本和空间成本合并来进行综合性的字符识别。换句话说,基于语言评价的字符识别器160计算将字符图案识别成本及空间成本、与适用于半隐藏文本区域整体的文本的语言的似然度相应的成本(以下,称作“语言成本”。)统合而成的统合成本,对半隐藏文本区域进行综合性的字符识别。由此,在被赋予了贯通半隐藏文本整体的语言适当性那样的文本中,半隐藏文本区域所含的隐藏文本区域在被适用于尽可能小的区域尺寸的情况下,被较高地评价。之后详细叙述处理的具体例。
文本区域构造选择器170决定将从输入图像X中检测的全部显现文本区域组入到半隐藏文本区域中的统合方法,输出针对输入图像X所包含的各文本区域的字符识别结果Y1。此时,文本区域构造选择器170将基于统合成本而选择或者排序的文本作为针对半隐藏文本区域的字符识别的结果进行输出。
将显现文本区域组入半隐藏文本区域的方法存在选择的余地。例如,在三个显现文本区域直线状排列、并在其之间存在隐藏文本时,存在将3组统合到一个半隐藏文本区域中、或者将某2组统合到半隐藏文本区域中等的选项。或者,在修剪型遮蔽现象的情况下,隐藏文本区域的延长量上存在自由度。因此,文本区域构造选择器170从所有可能的统合方法之中选择各文本区域的成本达到最小的统合方法。并且,文本区域构造选择器170输出针对与所选择的统合方法相应的文本区域的字符识别结果Y1。之后详细叙述处理的具体例。
以下,详细说明构成本实施方式的字符识别装置100的、以上的各模块的处理。
(显现文本区域检测器)
显现文本区域检测器110是作为输入接收输入图像X、检测输入图像X所包含的所有显现文本区域并输出显现文本区域群的模块。为了实现这一点而使用现有技术。这里,作为一例,对有关点方式与光栅方式的处理顺序进行说明。
点方式是在如情景图像、传单的扫描图像那样的、所包含的文本零散的情况、或包含纵写文本以及横写文本这两者的图像的处理中适用的方式。图5-1是表示利用点方式检测显现文本区域的处理的顺序的流程图,图5-2是说明利用点方式检测显现文本区域的具体例的图。另外,为了简化说明,以背景较亮且字符颜色较暗的情况进行说明。
显现文本区域检测器110在利用点方式检测显现文本区域的情况下,进行以下的步骤S101~步骤S104的处理,从输入图像X中检测显现文本区域。
步骤S101:显现文本区域检测器110使输入图像X二值化(参照图5-2(a))。
步骤S102:显现文本区域检测器110将黑色且相邻的像素彼此连结(将连结的像素簇称作“连结成分”。),求出各连结成分的外切矩形(参照图5-2(b))。
步骤S103:显现文本区域检测器110制作重合或者距离为阈值以下的矩形彼此的簇群,将各簇的外切矩形设为显现文本区域(参照图5-2(c))。
步骤S104:显现文本区域检测器110对于各文本区域,根据纵横比推定文本方向。具体而言,如果是纵长则为纵写,如果是横长则为横写,在接近正方形的情况下为不明(参照图5-2(d))。
光栅方式是适合如论文等的扫描仪图像那样的、相同方向(纵写·横写)的文本铺设地占据区域的大半那样的图像的方式。图6-1是表示利用光栅方式检测显现文本区域的处理的顺序的流程图,图6-2是说明利用光栅方式检测显现文本区域的具体例的图。另外,为了简化说明的,以背景较亮、字符颜色较暗、并且文本方向为横写的情况进行说明。
显现文本区域检测器110在利用光栅方式检测显现文本区域的情况下,进行以下的步骤S201~步骤S205的处理,从输入图像X中检测显现文本区域。
步骤S201:显现文本区域检测器110使输入图像X二值化(参照图6-2(a))。
步骤S202:显现文本区域检测器110按照每个光栅来合计黑色的像素数。
步骤S203:显现文本区域检测器110将合计结果的像素数为一定以上的各光栅视为文本区域光栅。
步骤S204:显现文本区域检测器110将各文本区域光栅中的、从黑色开始并以黑色结束的跨度(span)之中不包含连续地排列一定以上白色的跨度的局部最大的跨度,作为文本区域片群(参照图6-2(b))。
步骤S205:显现文本区域检测器110将合并相互相邻的文本区域片的组而得的区域的外切矩形作为显现文本区域(参照图6-2(c))。
(字符图案识别器)
字符图案识别器120是作为输入而接收利用显现文本区域检测部110从输入图像X中检测的显现文本区域群、并输出网格的模块,上述网格表示作为与字符图案对照的结果而获得的文本候选群以及其字符图案识别成本。为了实现这一点,使用现有技术。以下,大致说明典型的顺序。
图7是表示字符图案识别器120的处理的顺序的流程图。字符图案识别器120针对利用显现文本区域检测部110检测的显现文本区域群,进行以下的步骤S301~步骤S309的处理。其中,预先准备针对每个字型的图案模型,并将其称作“字型图案辞典”。
步骤S301:字符图案识别器120从显现文本区域群中取出一个显现文本区域。
步骤S302:字符图案识别器120将在步骤S301中取出的显现文本区域以适当的字符部分为单位进行分割(将其称作“字符部分图像”。)。
步骤S303:字符图案识别器120从所有的字符串之中选择一个应进行对照的字符串候选。
步骤S304:字符图案识别器120从在步骤S303中选择的字符串候选的前方起依次取出一个字符。
步骤S305:字符图案识别器120从文本前方取出与在步骤S304中取出的字符的字型尺寸相符的一个以上的字符部分图像群,与字型图案进行对照并计算成本。
步骤S306:字符图案识别器120判断是否已从在步骤S303中选择的字符串候选中取出了全部的字符。然后,如果判断的结果是“是”,则进入步骤S307,如果是“否”,则返回步骤S304。
步骤S307:字符图案识别器120判断是否已对所有字符串候选进行了对照。然后,如果判断的结果是“是”,则进入步骤S308,如果是“否”,则返回步骤S303。
步骤S308:字符图案识别器120统合与各字符串候选相关的对照结果(字型+成本的列),作为在步骤S301中取出的显现文本区域的网格并进行输出。
步骤S309:字符图案识别器120判断是否已从显现文本区域群中取出全部显现文本区域。然后,如果判断的结果是“否”,则返回步骤S301,如果是“是”,则结束处理。
图8是表示字符图案识别器120所输出的网格的一个例子的图。网格的各节点具有识别字符与其成本,在将开始节点至结束节点相连结的路径中,将各节点的字符连结而成的部分是字符图案的识别结果,将成本合计成为针对字符图案整体的字符图案识别成本。在图8的例子中,“cls”以及“ds”这两种是字符图案的识别结果,各自的字符图案识别成本分别是6.5以及6.6。
(部分缺损字符区域检测器)
部分缺损字符区域检测器130是检测在图2中例示的部分缺损字符区域的模块。在利用该模块检测部分缺损字符区域的情况下,从显现文本区域中去除该区域,再次执行字符图案识别器120的处理。该模块的目的在于,通过重复这些,从而从显现文本区域中完全排除部分缺损字符区域。作为部分缺损字符区域检测器130的处理方式,包括使用字符识别拒绝的方式和使用部分缺损字符识别器的方式。
关于部分缺损字符,由于是与任个字型都不同的形状,因此在进行字符识别的处理的情况下,识别成本明显升高。使用字符识别拒绝的方式是利用了这一点的方式,若识别成本为阈值以上,则判断为部分缺损字符。
图9是表示使用字符识别拒绝检测部分缺损字符区域的处理的顺序的流程图。在使用字符识别拒绝检测部分缺损字符区域的情况下,部分缺损字符区域检测器130使用字符图案识别器120所输出的字符图案识别结果的网格进行以下的步骤S401~步骤S403的处理,检测部分缺损字符区域。
步骤S401:部分缺损字符区域检测器130从字符图案识别器120所输出的字符图案识别结果的网格中取出最小成本的路径。
步骤S402:如果在步骤S401中取出的最小成本路径的开头节点的成本为阈值以上,则部分缺损字符区域检测器130将与该节点对应的图像区域作为部分缺损字符区域加以输出。
步骤S403:如果在步骤S401中取出的最小成本路径的末尾节点的成本为阈值以上,则部分缺损字符区域检测器130将与该节点对应的图像区域作为部分缺损字符区域加以输出。
此外,在图9所示的上述的顺序中,仅使用了最小成本路径,但最小成本路径并不一定是正确的识别结果。因此,也可以使用对于成本为倒数k个的路径,分别进行步骤S402以及步骤S403的处理,并取OR等的方法。
使用部分缺损字符识别器的方式是明确地判断是否是部分缺损字符区域的方式。预先准备大量的部分缺损字符图像与字符图像,并生成将它们作为训练数据的二值的识别器。接着,依次对利用文本区域中滑动的窗口剪辑而成的图像应用该识别器,检测部分缺损字符区域。
图10-1是表示使用部分缺损字符识别器检测部分缺损字符区域的处理的顺序的流程图,图10-2是说明使用部分缺损字符识别器检测部分缺损字符区域的具体例的图。在使用部分缺损字符识别器检测部分缺损字符区域的情况下,部分缺损字符区域检测器130进行以下的步骤S501~步骤S505的处理,检测部分缺损字符区域。此外,通过使用了大量的部分缺损字符图像与字符图像的、附带置信度的二值分类方法(例如逻辑回归等)为基础的训练处理,预先生成部分缺损字符识别器。
步骤S501:部分缺损字符区域检测器130准备与成为判断对象的显现文本区域相关的、表示针对部分缺损字符的置信度高低的热图。使热图的初始值为0。
步骤S502:部分缺损字符区域检测器130对成为判断对象的显现文本区域应用滑窗,并依次剪辑图像(参照图10-2(a)以及(b))。
步骤S503:部分缺损字符区域检测器130对剪辑出的图像应用部分缺损字符识别器而求出针对部分缺损字符的置信度,并在热图的该区域中加上该值。
步骤S504:部分缺损字符区域检测器130判断是否在成为判断对象的显现文本区域的范围内剪辑了全部图像。然后,如果判断的结果是“是”,则进入步骤S505,如果是“否”,则返回步骤S502。
步骤S505:部分缺损字符区域检测器130将热图中的、具有超过阈值的值并且位于两端的区域作为部分缺损字符区域加以输出(参照图10-2(c))。
(半隐藏文本区域推定器)
半隐藏文本区域推定器140是推定将显现文本区域与隐藏文本区域统合而成的半隐藏文本区域的模块。半隐藏文本区域推定器140基于利用显现文本区域检测器110从输入图像X中检测的显现文本区域群,推定隐藏文本区域。而且,半隐藏文本区域推定器140基于所获得的隐藏文本区域群与显现文本区域群,列举所有可能的统合方法(即半隐藏文本区域)。
隐藏文本区域的推定处理中,针对断开型、帧外修剪型以及遮蔽修剪型这三种类型的遮蔽现象,分别通过不同的模块以不同的顺序进行处理。
图11是表示半隐藏文本区域推定器140的构成例的框图。如图11所示,半隐藏文本区域推定器140包含断开型半隐藏文本区域推定器141、帧外修剪型半隐藏文本区域推定器142、以及遮蔽修剪型半隐藏文本区域推定器143。若半隐藏文本区域推定器140被输入显现文本区域群T1,则首先利用断开型半隐藏文本区域推定器141进行处理,之后,进行帧外修剪型半隐藏文本区域推定器142或者遮蔽修剪型半隐藏文本区域推定器143中的处理。半隐藏文本区域推定器140将这些处理的结果一并作为半隐藏文本区域群T2加以输出。
因此,对于利用断开型半隐藏文本区域推定器141生成的半隐藏文本区域群,存在进一步利用帧外修剪型半隐藏文本区域推定器142或者遮蔽修剪型半隐藏文本区域推定器143赋予隐藏文本区域的可能性。以上三种处理也可以根据应用而仅进行必要的处理。另外,在图11的构成例中,构成为选择性地进行帧外修剪型半隐藏文本区域推定器142中的处理和遮蔽修剪型半隐藏文本区域推定器143中的处理,但也可以构成为将帧外修剪型半隐藏文本区域推定器142与遮蔽修剪型半隐藏文本区域推定器143以串联的方式相连,从而能够执行这两个处理。
以下,详细说明断开型半隐藏文本区域推定器141、帧外修剪型半隐藏文本区域推定器142、以及遮蔽修剪型半隐藏文本区域推定器143各自的处理。
(断开型半隐藏文本区域推定器)
断开型半隐藏文本区域推定器141针对两个以上的显现文本区域,基于区域的位置、尺寸,判断是否在它们之间存在隐藏文本区域。然后,对显现文本区域群与隐藏文本区域群进行任意的组合,列举存在可能性的半隐藏文本区域。
在文本区域群向半隐藏文本区域的统合中,关于成为其构成要素的文本区域,以下列举应满足的条件。将这些条件称作“文本区域统合条件”。此外,这些文本区域统合条件并非全部是必须的条件,只要根据输入图像X的种类等适当地选择并使用向半隐藏文本区域的统合所需的条件即可。
条件1:成为构成要素的文本区域的数量为两个以上。
条件2:成为构成要素的文本区域以直线状排列,在将文本区域投影到与文本方向垂直的矢量时,成为大致相同的线段(均为与外切矩形几乎相接)。
条件3:对于成为构成要素的显现文本区域中的、并非文本方向不明的区域,文本方向均与文本区域所排列的方向一致。
条件4:成为构成要素的显现文本区域所包含的背景、字符颜色等的配色类似。
条件5:成为构成要素的显现文本区域所包含的字符尺寸的标尺类似。
条件6:成为构成要素的显现文本区域所包含的深度的误差为阈值以下。
所谓条件6的深度是输入图像X为摄像机所拍摄的图像的情况下的、距拍摄者的距离(进深),例如是光场摄像机等能够检测进深的摄像机所拍摄的带深度信息的图像(RGB-D图像)中包含的信息。在情景图像中,能够用于将跟前的遮挡物与处于里边的招牌等相区别的判断中。
图12是说明文本区域的统合方法的图。图12(a)表示横向排列显现文本区域与隐藏文本区域而统合成半隐藏文本区域的例子,并满足上述的条件1~条件3。图12(b)表示纵向排列显现文本区域与隐藏文本区域而统合成半隐藏文本区域的例子,并满足上述的条件1以及条件2。
这里,参照图13以及图14对断开型半隐藏文本区域推定器141的处理的具体例进行说明。图13是表示断开型半隐藏文本区域推定器141的处理的顺序的流程图,图14是表示半隐藏文本区域的构造例的图。断开型半隐藏文本区域推定器141进行以下的步骤S601以及步骤S602的处理,推定断开型半隐藏文本区域。此外,这里为了说明算法,设全部显现文本区域的文本方向为不明。
步骤S601:断开型半隐藏文本区域推定器141列举满足文本区域统合条件的所有显现文本区域的组。在图14的例子的情况下,在步骤S601中列举的显现文本区域的组为(A,C)、(D,E)、(B,C)、(C,D)、(B,C,D)、(F,G)。
步骤S602:对于在步骤S601中获得的显现文本区域的各组,断开型半隐藏文本区域推定器141将夹在相邻的显现文本区域的对之间的全部矩形区域作为隐藏文本区域而追加,并将这些组作为半隐藏文本区域加以输出。在图14的例子的情况下,在步骤S602中输出的半隐藏文本区域为(A,a,C)、(D,d,E)、(B,b,C)、(C,c,D)、(B,b,C,c,D)、(F,e,G)。
在之后的处理中,将沿横向连结的半隐藏文本区域的文本方向认定为横向,将沿纵向连结的半隐藏文本区域的文本方向认定为纵向来处理。
(帧外修剪型半隐藏文本区域推定器)
帧外修剪型半隐藏文本区域推定器142针对与输入图像X的缘(上下左右的边)相接的显现文本区域或者断开型半隐藏文本区域141所输出的半隐藏文本区域,假设在输入图像X的边的外侧存在隐藏文本区域,将向输入图像X的边的外侧延长了区域而成的区域推定为半隐藏文本区域。其中,与断开型不同,没有用于决定隐藏文本区域的大小的判断材料。因此,根据预定的设定来决定向输入图像X的边的外侧延长的区域的长度。作为延长的区域的长度的设定方法,例如考虑使用基于字符尺寸标尺的长度的方法。设定值也可以具有多个,在该情况下,对所有设定值进行相同的处理。
图15是说明帧外修剪型半隐藏文本区域的一个例子的图。图15(a)表示使与输入图像X的左边相接的显现文本区域或者半隐藏文本区域从输入图像X的左边向外侧延长而成为半隐藏文本区域的例子。图15(b)表示使与输入图像X的下边相接的显现文本区域或者半隐藏文本区域从输入图像X的下边向外侧延长而成为半隐藏文本区域的例子。在任意一个情况下,都没有与应该将区域延长到哪儿为止的线索,因此以预定的几种长度来延长区域。
图16是表示帧外修剪型半隐藏文本区域推定器142的处理的顺序的流程图。帧外修剪型半隐藏文本区域推定器142进行以下的步骤S701~步骤S707的处理,推定帧外修剪型半隐藏文本区域。
步骤S701:帧外修剪型半隐藏文本区域推定器142从断开型半隐藏文本区域推定器141所输出的半隐藏文本区域群以及显现文本区域群的集合之中取出一个文本区域。
步骤S702:帧外修剪型半隐藏文本区域推定器142对于在步骤S701中取出的文本区域,判断是否是文本方向为横写、并且与输入图像X的左右的某个边相接。然后,如果判断的结果是“是”,则进入步骤S703,如果是“否”,则进入步骤S704。
步骤S703:帧外修剪型半隐藏文本区域推定器142将在步骤S701中取出的文本区域,从该文本区域所相接的输入图像X的左右的某个边向图像外延长基于设定的长度,使其成为新的半隐藏文本区域。
步骤S704:帧外修剪型半隐藏文本区域推定器142对于在步骤S701中取出的文本区域,判断是否是文本方向为纵写、并且与输入图像X的上下的某个边相接。然后,如果判断的结果是“是”,则进入步骤S705,如果是“否”,则进入步骤S706。
步骤S705:帧外修剪型半隐藏文本区域推定器142将在步骤S701中取出的文本区域,从该文本区域所相接的输入图像X的上下的某个边向图像外延长基于设定的长度,使其成为新的半隐藏文本区域。
步骤S706:帧外修剪型半隐藏文本区域推定器142判断是否取出成为处理对象的全部文本区域。然后,如果判断的结果是“是”,则进入步骤S707,如果是“否”,则返回步骤S701。
步骤S707:帧外修剪型半隐藏文本区域推定器142输出所生成的半隐藏文本区域群。
在之后的处理中,将沿横向延长的半隐藏文本区域的文本方向认定为横向、将沿纵向延长的半隐藏文本区域的文本方向认定为纵向来进行处理。
(遮蔽修剪型半隐藏文本区域推定器)
遮蔽修剪型半隐藏文本区域推定器143对于所有显现文本区域或者断开型半隐藏文本区域141所输出的半隐藏文本区域,假设在文本前方侧或文本后方侧存在隐藏文本区域,将向文本方向延长文本区域而得到的区域推定为半隐藏文本区域。延长的区域的长度与帧外修剪型相同,根据预定的设定而决定。作为延长的区域的长度的设定方法,例如考虑使用基于原文本区域的字符尺寸标尺的长度的方法。设定值也可以具有多个,在该情况下,对所有设定值进行相同的处理。其中,与帧外修剪型不同,作为对延长的区域的长度的限制,附加不与其他显现文本区域重叠这一限制。
图17是说明遮蔽修剪型半隐藏文本区域的一个例子的图。图17(a)表示将文本方向为横向的显现文本区域或者半隐藏文本区域在与其他显现文本区域不重叠的范围内沿横向延长而成为半隐藏文本区域的例子。图17(b)表示将文本方向为纵向的显现文本区域或者半隐藏文本区域在与其他显现文本区域不重叠的范围内沿纵向延长而成为半隐藏文本区域的例子。在任意一个情况下,都没有将区域延长到哪里为止的线索,因此以预定的几种长度延长区域。
图18是表示遮蔽修剪型半隐藏文本区域推定器143的处理的顺序的流程图。遮蔽修剪型半隐藏文本区域推定器143进行以下的步骤S801~步骤S805的处理,推定遮蔽修剪型半隐藏文本区域。
步骤S801:遮蔽修剪型半隐藏文本区域推定器143从断开型半隐藏文本区域推定器141所输出的隐藏文本区域群以及显现文本区域群的集合之中取出一个文本区域。
步骤S802:遮蔽修剪型半隐藏文本区域推定器143将在步骤S801中取出的文本区域向文本前方延长基于设定的长度,使其成为新的半隐藏文本区域。其中,在因基于设定的长度的延长导致与其他显现文本区域重叠的情况下,不以该设定值进行延长。
步骤S803:遮蔽修剪型半隐藏文本区域推定器143将在步骤S801中取出的文本区域向文本后方延长基于设定的长度,使其成为新的半隐藏文本区域。其中,在因基于设定的长度的延长导致与其他显现文本区域重叠的情况下,不以该设定值进行延长。
步骤S804:遮蔽修剪型半隐藏文本区域推定器143判断是否取出成为处理对象的全部文本区域。然后,如果判断的结果是“是”,则进入步骤S805,如果是“否”,则返回步骤S801。
步骤S805:遮蔽修剪型半隐藏文本区域推定器143输出所获得的全部半隐藏文本区域。
在之后的处理中,将沿横向延长的半隐藏文本区域的文本方向认定为横向、将沿纵向延长的半隐藏文本区域的文本方向认定为纵向来进行处理。
(半隐藏文本区域网格生成器)
半隐藏文本区域网格生成器150是如下模块:针对由半隐藏文本区域推定器140生成的各半隐藏文本区域,生成通过赋予成本而列举贯通区域整体的文本候选的网格。半隐藏文本区域网格生成器150例如在生成隐藏文本区域的网格的基础上,将字符图案识别器120生成完毕的显现文本区域的网格与隐藏文本区域的网格链状连结而成的网格作为半隐藏文本区域的网格加以输出。在该情况下,在隐藏文本区域的网格的生成处理中,由于在隐藏文本区域中不存在成为字符推定的线索的图像,因此采取将基于区域的尺寸而适用的字符串作为候选、并输出列举该候选的网格的方法。
图19是表示生成半隐藏文本区域的网格的处理的顺序的流程图。半隐藏文本区域网格生成器150进行以下的步骤S901~步骤S907的处理而生成半隐藏文本区域的网格。
步骤S901:半隐藏文本区域网格生成器150取出输入图像X所包含的一个隐藏文本区域。
步骤S902:半隐藏文本区域网格生成器150针对在步骤S901中取出的隐藏文本区域,生成无成本的网格。之后详细叙述该处理。
步骤S903:半隐藏文本区域网格生成器150对在步骤S902中生成的隐藏文本区域的无成本网格赋予空间成本。之后详细叙述该处理。
步骤S904:半隐藏文本区域网格生成器150判断是否存在未处理的隐藏文本区域。然后,如果判断的结果为“否”,则进入步骤S905,如果为“是”,则返回步骤S901。
步骤S905:半隐藏文本区域网格生成器150取出输入图像X所包含的一个半隐藏文本区域。
步骤S906:半隐藏文本区域网格生成器150进行在步骤S905中取出的半隐藏文本区域的网格合成。之后详细叙述该处理。
步骤S907:半隐藏文本区域网格生成器150判断是否存在未处理的半隐藏文本区域。然后,如果判断的结果为“是”,则返回步骤S905,如果为“否”,则结束处理。
以下,详细说明上述步骤S902的隐藏文本区域的无成本网格生成、步骤S903的对隐藏文本区域网格的空间成本赋予、以及步骤S906的半隐藏文本区域的网格合成的各个处理。
(隐藏文本区域的无成本网格生成)
作为预先准备,准备储存有标尺被统一(字型n、高度Yn、宽度Xn)的三组数据的标准字体辞典。此外,全部字型中,将最大的高度设为Ymax,将最大的宽度设为Xmax。隐藏文本区域的无成本网格生成在横写的情况下与纵写的情况下采用不同的处理。以下,分别说明横写的情况下的处理与纵写的情况下的处理。
图20是表示生成横写的隐藏文本区域的无成本网格的处理的顺序的流程图。半隐藏文本区域网格生成器150进行以下的步骤S1001~步骤S1004的处理而生成横写的隐藏文本区域的无成本网格。
步骤S1001:半隐藏文本区域网格生成器150取得作为处理对象的半隐藏文本区域的高度H与宽度W。
步骤S1002:半隐藏文本区域网格生成器150通过H/Ymax求出基于标准字体的标尺r。
步骤S1003:半隐藏文本区域网格生成器150使标准字体辞典的各字型的宽度成为r倍。并将其称作“配合宽度”。
步骤S1004:半隐藏文本区域网格生成器150求出候选文本所包含的各字符的配合宽度的合计值Xsum成为W-ε×r≤Xsum≤W+ε×r(ε是允许误差变量)那样的全部字符串。其是文本候选,将具有与这些文本候选对应的路径的网格设为隐藏文本区域的无成本网格。此外,在允许误差变量ε的设定中,也可以考虑文本行的周边的留白。
图21是表示生成纵写的隐藏文本区域的无成本网格的处理的顺序的流程图。半隐藏文本区域网格生成器150进行以下的步骤S1101~步骤S1104的处理而生成纵写的隐藏文本区域的无成本网格。
步骤S1101:半隐藏文本区域网格生成器150取得作为处理对象的半隐藏文本区域的高度H与宽度W。
步骤S1102:半隐藏文本区域网格生成器150通过W/Xmax求出基于标准字体的标尺r。
步骤S1103:半隐藏文本区域网格生成器150使标准字体辞典的各字型的高度为r倍。并将其称作“配合高度”。
步骤S1104:半隐藏文本区域网格生成器150求出候选文本所包含的各字符的配合高度的合计值Ysum成为W-ε×r≤Ysum≤W+ε×r(ε是允许误差变量)那样的全部字符串。其是文本候选,将具有与这些文本候选对应的路径的网格设为隐藏文本区域的无成本网格。此外,在允许误差变量ε的设定中,也可以考虑文本行的周边的留白。
图22是表示隐藏文本区域的网格的一个例子的图。该图22的例子是作为适用于半隐藏文本区域的空间的文本候选的字符串而列举了“w”、“vv”、以及“iii”的例子。此外,分配给图22所示的网格的节点c的数值是接下来说明的空间成本。
(对隐藏文本区域网格的空间成本赋予)
所谓空间成本是与隐藏文本区域的或然性相应的成本。作为分配空间成本的方式,包括分配与隐藏文本区域的尺寸相应的空间成本的方式、以及分配与遮蔽现象的原因相应的空间成本的方式。前者是能够应用于所有区域的通用方式,后者是关于遮蔽现象的特定原因能够期待较高精度的特殊化方式。为了进行相互补充,也可以使用成本的总和等而并用两者。以下,详细说明各自的处理的。
(赋予与尺寸相应的空间成本)
作为空间成本,进行接下来这种分配。
横写的情况下:-ln(α×e(-W/H))
纵写的情况下:-ln(α×e(-H/W))
其中,隐藏文本区域的高度为H,宽度为W,α为预先赋予的调整用的常量。假设遵循关于将隐藏文本区域的发生概率以字符标尺归一化后的长度的指数分布,将其负的对数似然度作为空间成本。因此,隐藏文本区域的大小越大,该空间成本越增大。
此外,也可以与断开型、帧外修剪型、遮蔽修剪型等的隐藏文本区域的种类相应地赋予不同的系数α。这些系数α相当于断开型、帧外修剪型、遮蔽修剪型各自的先验概率。例如,与仅在一端规定了显现文本区域的修剪型相比,认为两端被显现文本区域夹着的断开型的或然性更高。另外,即使在相同的修剪型彼此中,也认为相比于遮蔽修剪型,具有图像边这样的证据的帧外修剪型的或然性更高。能够使用系数α的值的差异来设定这种或然性的差异。
半隐藏文本区域网格生成器150使用以上的方法对输入图像X中的全部隐藏文本区域计算与其尺寸相应的空间成本,并将计算出的空间成本的值分配给图22所例示的网格的节点C。
(赋予基于遮蔽现象原因的空间成本)
遮蔽现象的典型原因能够根据输入图像X的种类而预先掌握。例如,扫描图像中的遮蔽现象的典型原因是墨污损。另外,情景图像中的遮蔽现象的典型原因是图像的过曝光、遮挡物导致的隐藏、处于帧外等。本方式是基于明确地检测这种原因的结果,在隐藏文本区域的网格中分配空间成本。在该方式中,存在能够更准确地捕捉隐藏文本区域的或然性的优点,另一方面,存在仅能对特定的原因进行适用的缺点。因此,优选的是,与对应于上述尺寸的空间成本的分配一并使用。
这里,作为遮蔽现象的原因,处理以下内容。此外,在以下的处理的性质上,处于帧外是判断对象之外。
1:墨污损的判断
2:图像的过曝光的判断
3:基于深度信息的遮挡物的判断
4:基于特定对象的遮挡物的判断
原因位置的检测方法如以下所述。
1:在对象区域的平均亮度为阈值以下的情况下,判断为该区域是产生了以墨污损作为原因的遮蔽现象的区域。
2:在对象区域的平均亮度为阈值以上的情况下,判断为该区域是产生了以图像的过曝光作为原因的遮蔽现象的区域。
3:在对象区域的深度比相邻的显现文本区域的深度小一定以上的情况下,判断为该区域是产生了以遮挡物作为原因的遮蔽现象的区域。
4:在对象区域中应用了特定对象检测处理(例如面部检测处理)、检测特定对象的情况下,判断为该区域是产生了以遮挡物作为原因的遮蔽现象的区域。
在通过以上的顺序检测原因的情况下,分配针对各个原因的每一个预先准备的常量值作为空间成本。此外,在上述1~4的检测器进行伴随着置信度的输出的情况下,也可以以与该置信度成比例的方式进行成本分配。
半隐藏文本区域网格生成器150使用以上的方法对输入图像X中的全部隐藏文本区域计算与遮蔽现象的原因相应的空间成本,并将计算出的空间成本的值分配给图22所例示的网格的节点C。
(半隐藏文本区域的网格合成)
半隐藏文本区域网格生成器150将半隐藏文本区域所包含的显现文本区域的网格与隐藏文本区域的网格链状结合,生成表示半隐藏文本区域整体的候选文本群的网格。
图23是表示生成半隐藏文本区域的网格的处理的顺序的流程图。半隐藏文本区域网格生成器150进行以下的步骤S1201~步骤S1205的处理,将显现文本区域的网格与隐藏文本区域的网格链状结合,生成半隐藏文本区域的网格。
步骤S1201:半隐藏文本区域网格生成器150准备仅由单一节点构成的网格。该节点是开始节点并且是结束节点。将该网格称作“统合网格”。
步骤S1202:半隐藏文本区域网格生成器150从文本顺序的前方(如果是横写则为左,如果是纵写则为上)依次取出半隐藏文本区域所包含的文本区域。
步骤S1203:半隐藏文本区域网格生成器150取出在步骤S1202中取出的文本区域的网格,将该网格的开始节点连接于统合网格的结束节点。
步骤S1204:半隐藏文本区域网格生成器150判断是否已从成为处理对象的半隐藏文本区域中取出了全部的文本区域。然后,如果判断的结果为“是”,则进入步骤S1205,如果为“否”,则返回步骤S1202。
步骤S1205:半隐藏文本区域网格生成器150将经由以上顺序得到的统合网格作为半隐藏文本区域的网格加以输出。
图24是表示半隐藏文本区域的网格的一个例子的图。如图24所示,半隐藏文本区域的网格是包含显现文本区域中的字符图案识别成本和隐藏文本区域中的空间成本的网格。
(基于语言评价的字符识别器)
基于语言评价的字符识别器160是如下模块,针对通过迄今为止的处理而得的半隐藏文本区域群以及显现文本区域群,分别进行贯通文本区域整体的语言的评价,并考虑字符图案识别成本、空间成本、以及语言成本这三点而进行字符识别处理。
语言的评价指的是,使用预先准备的语言模型而计算针对各文本候选的似然度的处理。通过迄今为止的处理,对显现文本区域赋予反映了字符图案识别成本的网格,对半隐藏文本区域赋予反映了字符图案识别成本与空间成本双方的网格。这里的处理指的是生成对这些网格追加了语言的评价而成的合成网格,并找出该网格之中的最小成本路径。该合成网格的各个路径的成本相当于将字符识别成本以及空间成本与语言成本统合而成的统合成本,上述语言成本与适用于半隐藏文本区域整体的文本的语言的似然度相应。
在语言的评价的处理中使用现有技术。作为一个例子,以下简单地说明使用了WFST(加权有限状态转换器)的处理的顺序。此外,对于使用了WFST语言的评价,在下述的参考文献中具有详细记载。
参考文献:Mohri,Mehryar,etal.“Fullexpansionofcontext-dependentnetworksinlargevocabularyspeechrecognition.”Acoustics,SpeechandSignalProcessing,1998.Proceedingsofthe1998IEEEInternationalConferenceon.Vol.2.IEEE,1998.
1:使用语言模型构建器生成概率语言模型。在采用作为代表性的概率语言模型的生成Ngram模型的情况下,例如能够使用SRILM(http://www.speech.sri.com/projects/srilm/)、IRSTLM(https://hlt.fbk.eu/technologies/irstlm-irst-language-modelling-toolkit)等的软件而构建。另外,使用基于PMI(PointwiseMutualInformation:点互信息)的概率语言模型也是有效的。PMI是基于前后等周边所具有的文本预测应预测的文本的生成概率的模型,并忽略文本的顺序。在招牌等的文本的情况下,有时这种方法是有效的。
2:将概率语言模型转换为WFST。将其设为L。
3:生成将字符串与单词串建立对应的FST。将其设为G。
4:将评价对象的文本区域(显现文本区域或者半隐藏文本区域)的网格转换为WFST。将其设为X。
5:进行X·G·L的合成处理(其中,“·”是表示合成的运算符),获得合成结果的WFST。将其设为Y。
6:从Y之中探索成本达到最小的路径。将探索结果的路径设为P。
7:在路径P上的各节点上记载的字符结合而得的字符串是预测解。
(文本区域构造选择器)
通过以上的处理获得的半隐藏文本区域群是字符识别结果Y1的选择候选。文本区域构造选择器170最终决定应选择的半隐藏文本区域群。并且,文本区域构造选择器170将基于统合成本选择或者排序的文本作为针对半隐藏文本区域的字符识别结果Y1加以输出。
文本区域构造选择器170从最多使用一次显现文本区域而生成半隐藏文本区域群的全部统合方法中,选择未组入所生成的半隐藏文本区域群以及半隐藏文本区域群中的显现文本区域群的成本的合计达到最小的统合方法。该处理适合一般的组合优化问题。
图25列举了针对图14的左侧所例示的显现文本区域能够进行统合的半隐藏文本区域的例子。图中,写入了点的区域是显现文本区域,由虚线包围的白色的区域是隐藏文本区域。其中,为了简化图,设为不存在修剪型的隐藏文本,仅存在断开型的隐藏文本。在该例子的情况下,能够通过(b)~(h)的七种方法针对如(a)那样检测到的显现文本区域群推定半隐藏文本区域。对于通过(b)~(h)的七种方法推定的显现文本区域以及半隐藏文本区域,通过迄今为止的处理完成成本计算,选择使它们的合计成本达到最小的方法。此外,也可以从识别结果中去除作为以上的处理结果而获得的半隐藏文本区域群以及显现文本区域群中的、成本超过阈值的文本区域。
这里,对如以上那样构成的本实施方式的字符识别装置100的识别例进行例示。
(断开型遮蔽现象的识别例)
图26是说明断开型遮蔽现象的识别例的图。在图26(a)以及图26(b)所示的例子中,除被遮挡物遮挡的区域以外为相同的图像,被遮挡物断开的两个显现文本区域之间的距离均为能够连结的距离。
在图26(a)的例子的情况下,将两个显现文本区域之间设为隐藏文本区域,在该隐藏文本区域中适用了“动物”时的“东京动物医院”作为字符识别结果Y1加以输出。另一方面,在图26(b)的例子的情况下,虽然将两个显现文本区域之间设为隐藏文本区域,将在该隐藏文本区域中适用了“动物”时的“东京动物医院”作为候选而列举,但因断开宽度较大,所以将其之间连接的隐藏文本区域的空间成本变大,并且分别识别了显现文本而得的“东京”与“医院”均在语言上被判断为妥当,因此选择不将它们统合而作为独立的文本区域的方法,将“东京”与“医院”这两个文本作为字符识别结果Y1加以输出。
(修剪型遮蔽现象的识别例)
图27是说明修剪型遮蔽现象的识别例的图。图27(a)表示输入图像X。这里,作为假定隐藏文本区域而延长区域的长度,仅将一个字符量以及两个字符量作为选择候选。图27(b)示出搜索假定一个字符量的隐藏文本区域而适用的文本的例子,图27(c)示出搜索假定两个字符量的隐藏文本区域而适用的文本的例子。
在图27(b)的例子中,例如列举“真直入(日文,意思是“直接进入”)”、“宿直入(日文,意思是“值夜班”)”、“立直入(日文:意思是“听牌”)”等作为候选。这些候选的语言成本均较高(语言成本:大)。但是,由于隐藏文本区域是一个字符量的尺寸,因此空间成本比图27(c)的例子低(空间成本:小)。另一方面,在图27(c)的例子中,例如列举“単刀直入”作为候选。该候选的语言成本较低(语言成本:小)。但是,由于隐藏文本区域是两个字符量的尺寸,因此空间成本比图27(b)的例子高(空间成本:中)。
图27(b)的例子与图27(c)的例子中,字符图案识别成本是相同的。因此,空间成本与语言成本成为比较对象。在该例子中,选择了语言成本较低的图27(c)的“単刀直入”,并作为字符识别结果Y1加以输出。
以上,如一边列举具体的例子一边详细说明那样,在本实施方式的字符识别装置100中,显现文本区域检测器110从输入图像X中检测显现文本区域,字符图案识别器120对显现文本区域进行字符图案识别,计算与字符图案的似然度相应的字符图案识别成本。并且,半隐藏文本区域推定器140推定将显现文本区域与隐藏文本区域统合而成的半隐藏文本区域,半隐藏文本区域网格生成器150以及基于语言评价的字符识别器150计算将半隐藏文本区域所包含的显现文本区域的字符识别成本以及隐藏文本区域的空间成本、与语言成本统合而成的统合成本,上述语言成本与适用于半隐藏文本区域整体的文本的语言的似然度相应。并且,文本区域构造选择器170将基于统合成本选择或者排序的文本作为针对半隐藏文本区域的字符识别结果Y1加以输出。
因此,根据本实施方式的字符识别装置100,能够以补充隐藏字符的形式获得作为字符识别结果Y1的文本。
<第二实施方式>
接下来,对第二实施方式进行说明。第二实施方式是使用了第一实施方式的字符识别装置100的图像显示装置的实施方式。
图28是表示本实施方式的图像显示装置200的构成例的框图。如图28所示,本实施方式的图像显示装置200具备字符识别装置100、显示画面生成器210、重构器220、以及文本区域构造选择器230。
本实施方式的图像显示装置200以与字符识别装置100从输入图像X检测的文本区域重叠的形式,显示作为字符识别结果Y1的文本(以下,称作“识别文本”。)。此时,例如,以使显现文本区域的文本为蓝色、使隐藏文本区域的文本为绿色那样将文本用颜色区分等而可识别地进行显示,从而对用户唤起注意。
另外,作为本实施方式的图像显示装置200的可选择的功能,对于包含没有被字符识别装置100的文本区域构造选择器170采用的隐藏文本区域在内的半隐藏文本区域,也显示作为字符识别结果Y1的文本。此时,例如用红色显示不采用的隐藏文本区域的文本等,与采用的隐藏文本区域的文本可识别地进行显示。
图29是表示本实施方式的图像显示装置200的显示画面Z的画面例的图。在图29中,“東京病院”这一文本与“美容院”这一文本与从输入图像X中检测的文本区域重叠显示。其中,“美容院”的“容”的部分是不采用的隐藏文本区域的文本。在本实施方式的图像显示装置200中,若用户对该不采用的隐藏文本区域的文本进行点击等规定的操作,则以采用该隐藏文本区域的形式重构文本区域构造而再次显示识别结果。由此,在隐藏文本区域的是否采用存在错误的情况下,能够通过用户操作来校正。因构造改变而统合方法也连锁改变,其结果,有时识别以及推定的文本内容也大幅度改变。
如第一实施方式中所说明的那样,字符识别装置100接受输入图像X,输出与各文本区域有关的识别文本。在本实施方式中,字符识别装置100不仅输出识别文本,也将其位置信息一并输出。另外,字符识别装置100将不被上述文本区域构造选择器170采用的文本区域也包含在对象中,输出该文本区域的识别文本。
显示画面生成器210从字符识别装置100接收与各文本区域有关的识别文本以及其位置信息,生成将识别文本重叠于输入图像X1的各文本区域的位置而成的显示画面Z,并显示于显示用显示器等。此时,显示画面生成器210例如以将显现文本区域所对应的识别文本的显示色设为蓝色,将采用的隐藏文本区域所对应的识别文本的显示色设为绿色,将不采用的隐藏文本区域所对应的识别文本的显示色设为红色的方式,将各文本用颜色区分来显示,从而使这些文本可识别。
重构器220若接收用于指定不采用的任意的隐藏文本区域的用户操作P,则向文本区域构造选择器230指示以将被该用户操作P指定的隐藏文本区域固定作为采用对象的形式进行文本构造的重构。此外,例如也可以一边按压shift键一边重复多次点击操作等,来受理用于指定两个以上的不采用的隐藏文本区域的用户操作P。
文本区域构造选择器230通过与字符识别装置100的文本区域构造选择器170相同地解决组合优化问题而重构文本区域构造。但是,在解决组合优化问题时,被追加了如下限制条件,即,在所生成的半隐藏文本区域群中包括作为要素而具有由用户指定的隐藏文本区域在内的半隐藏文本区域。若通过文本区域构造选择器230重构文本区域构造,则利用显示画面生成器210生成遵循重构后的文本区域构造的显示画面,并显示于显示用显示器。
如以上说明那样,本实施方式的图像显示装置200能够以使用户容易得知字符识别装置100的识别结果的文本的形式进行提示。另外,该图像显示装置200具有根据用户操作P而重构文本区域构造的功能,因此也能够用作校正文本区域构造的推定错误的编辑器。通过本实施方式的图像显示装置200校正的数据例如能够灵活使用于文本的机器翻译、或接下来说明的图像检索等各种文本应用中。
<第三实施方式>
接下来,对第三实施方式进行说明。第三实施方式是使用了第一实施方式的字符识别装置100的图像检索装置的实施方式。
图30是表示本实施方式的图像检索装置300的构成例的框图。如图30所示,本实施方式的图像检索装置300具备字符识别装置100、图像DB(数据库)310、索引构建器320、以及排位器330。
本实施方式的图像检索装置300若从用户受理了文本的检索查询Q,则从预先积蓄于图像DB310中的图像群之中返回与检索查询Q匹配的图像群R。其中,在检索查询Q与图像DB310内的图像的对照中,使用字符识别装置100对图像进行的字符识别的识别文本。即,使用字符识别装置100所输出的识别文本作为图像的索引。
如第一实施方式中说明那样,字符识别装置100将包含因遮蔽现象而隐藏的文本区域的文本作为识别结果进行输出,因此即使一部分的文本被隐藏,也能够与检索查询Q匹配。由此,相比于现有技术的图像检索能够实现更高的再现率。但是,由于隐藏区域的文本相比于显现文本区域的文本更不确切,因此通过加入以字符为单位改变权重的处理,从而使精度(也称作精确度)提高。
另外,作为本实施方式的图像检索装置300的可选择的功能,作为索引,不仅是被字符识别装置100的文本区域构造选择器170采用的统合方法所包含的文本区域的文本,还一并使用不采用的统合方法所包含的文本区域的文本。进而,作为索引,不仅是各文本区域中的最小成本的识别文本,还一并使用根据成本排序(ranked)而成的次序为第二位以下的识别文本的候选。据此,能够进一步提高图像检索的再现率。但是,由于通过这些索引的导入使精度降低,因此加入改变针对各个索引的权重的处理。
在本实施方式中,采用进行基于单词向量的检索处理的方式。这里所说的单词向量指的是将各词汇与各维度建立对应、在各向量要素中设定有表示对应的词汇的出现频率的值而成的高维向量。此外,在实用的检索系统中,大多安装有将定冠词、助词等检索不需要的词汇去除的处理、或者使检索速度高速的反向索引,这里省略这些功能的说明。另外,作为检索查询Q,设为受理由空白划分的单词串。
关于本实施方式的图像检索装置300,首先,作为索引构建阶段,针对图像DB310内的各图像,基于识别文本生成单词向量,作为图像索引进行登记。在检索阶段中,根据检索查询Q生成单词向量,按照各图像的每一个,依次计算与作为图像索引而登记的各单词向量的余弦标尺的合计(将其称为“检索得分”。),输出这些检索得分以从大到小的顺序排列而成的图像群R。作为图像索引,使用了相对基于文本的频率被施加了以下不同的权重(λ1~λ8)而成的图像索引。此外,只要是表示向量彼此的相关性大小的指标即可,也可以使用除余弦标尺以外的指标。
λ1:针对采用的显现文本区域的第一候选的识别文本的权重
λ2:针对采用的显现文本区域的第二候选的识别文本的权重
λ3:针对采用的隐藏文本区域的第一候选的识别文本的权重
λ4:针对采用的隐藏文本区域的第二候选的识别文本的权重
λ5:针对不采用的显现文本区域的第一候选的识别文本的权重
λ6:针对不采用的显现文本区域的第二候选的识别文本的权重
λ7:针对不采用的隐藏文本区域的第一候选的识别文本的权重
λ8:针对不采用的隐藏文本区域的第二候选的识别文本的权重
如第一实施方式中说明那样,字符识别装置100接收输入图像X,输出与各文本区域有关的识别文本。在本实施方式中,是积蓄于图像DB310的各图像。
索引构建器320进行对积蓄于图像DB310的各图像赋予字符识别装置100获得的识别文本作为索引的处理。该处理是在开始图像检索之前的时刻预先进行的处理。
图31是表示构建索引的处理的顺序的流程图。索引构建器320对图像DB310所包含的各图像进行以下的步骤1301~步骤S1318的处理,赋予施加了倾斜权重的、基于单词向量的索引。此外,在以下的说明中,将被字符识别装置100的文本区域构造选择器170采用的统合方法所包含的半隐藏文本区域群以及显现化文本区域群总称为“采用文本区域”,将未被采用的全部统合方法(或者上位N个统合方法)所包含的半隐藏文本区域以及显现化文本区域总称为“不采用文本区域”。
步骤S1301:索引构建器320生成要素值全部为0的单词向量。并将其称作“图像索引向量”。
步骤S1302:索引构建器320将从图像DB310取出的图像输入到字符识别装置100,一个一个依次取出采用文本区域。
步骤S1303:索引构建器320将在步骤S1302中取出的采用文本区域的第一候选的文本分割为单词,并按照每个词汇(wi),将该区域所包含的显现文本区域中的出现频率(N1w_i)、以及隐藏文本区域中的出现频率(N2w _i)进行合计。
步骤S1304:索引构建器320基于步骤S1303的合计结果,生成单词向量。其中,符合词汇(wi)的维度的要素值设为λ1×N1w_i+λ2×N2w_i。
步骤S1305:索引构建器320将在步骤S1304中生成的单词向量加入到图像索引向量中。
步骤S1306:索引构建器320将在步骤S1302中取出的采用文本区域的第二候选的文本分割为单词,并按照每个词汇(wi),将该区域所包含的显现文本区域中的出现频率(N3w_i)、以及隐藏文本区域中的出现频率(N4w _i)进行合计。
步骤S1307:索引构建器320基于步骤S1306的合计结果,生成单词向量。其中,符合词汇(wi)的维的要素值设为λ3×N3w_i+λ4×N4w_i。
步骤S1308:索引构建器320将在步骤S1307中生成的单词向量加入到图像索引向量中。
步骤S1309:索引构建器320判断是否已取出全部采用文本区域。然后,如果判断的结果是“是”,则进入步骤S1310,如果是“否”,则返回步骤S1302。
步骤S1310:索引构建器320一个一个依次去除不采用文本区域。
步骤S1311:索引构建器320将在步骤S1310中取出的不采用文本区域的第一候选的文本分割为单词,并按照每个词汇(wi),将该区域所包含的显现文本区域中的出现频率(N5w_i)、以及隐藏文本区域中的出现频率(N6w_i)进行合计。
步骤S1312:索引构建器320基于步骤S1311的合计结果,生成单词向量。其中,符合词汇(wi)的维的要素值为λ5×N5w_i+λ6×N6w_i。
步骤S1313:索引构建器320将在步骤S1312中生成的单词向量加入到图像索引向量中。
步骤S1314:索引构建器320将在步骤S1310中取出的不采用文本区域的第二候选的文本分割为单词,并按照每个词汇(wi),将该区域所包含的显现文本区域中的出现频率(N7w_i)、以及隐藏文本区域中的出现频率(N8w_i)进行合计。
步骤S1315:索引构建器320基于步骤S1314的合计结果,生成单词向量。其中,符合词汇(wi)的维的要素值为λ7×N7w_i+λ8×N8w_i。
步骤S1316:索引构建器320将在步骤S1315中生成的单词向量加入到图像索引向量中。
步骤S1317:索引构建器320判断是否已取出全部不采用文本区域。然后,如果判断的结果是“是”,则进入步骤S1318,如果是“否”,则返回步骤S1310。
步骤S1318:索引构建器320将经由以上的处理而生成的图像索引向量与在步骤S1303中从图像DB310取出的图像建立对应并登记于图像DB310。
此外,识别文本所包含的单词有时遍及显现文本区域与隐藏文本区域两方。在该情况下,在上述处理中,在合计中使用将单词的频率按照其字符数的比例进行分配而成的结果。例如,五个字符的单词在显现文本区域中出现三个字符、在隐藏文本区域中出现两个字符的情况下,计数为,该单词在显现文本区域中出现0.6次,在隐藏文本区域中出现0.4次。
排位器330受理文本形式的检索查询Q,依次进行与对积蓄在图像DB310中的各图像被赋予的索引之间的对照,将匹配于检索查询Q的图像群R按照匹配得分从高到底的顺序进行输出。
图32表示排序处理的顺序的流程图。排位器330基于由用户输入的检索查询Q,进行以下的步骤S1401~步骤S1407的处理,输出上位次序的图像群R。
步骤S1401:排位器330受理按照每个单词由空白划分而成的检索查询Q的文本作为输入。
步骤S1402:排位器330使用空白划分将检索查询分割为单词,生成单词的二值向量。此外,单词的二值向量指的是将词汇设为各维度、将包含词汇的要素设为1、除此以外设定为0的高维稀疏的向量。
步骤S1403:排位器330从图像DB310中依次取出图像索引。
步骤S1404:排位器330计算在步骤S1403中从图像DB310取出的图像索引的单词向量、以及在步骤S1402中生成的检索查询Q的单词向量的余弦标尺。
步骤S1405:排位器330判断是否存在未处理的图像索引。然后,如果判断的结果是“否”,则进入步骤S1406,如果是“是”,则返回步骤S1403。
步骤S1406:排位器330基于与各图像建立对应的图像索引的余弦标尺,将图像群排序。
步骤S1407:排位器330按照余弦标尺从高到低的顺序输出在步骤S1407中排序后的上位次序的图像群R。
如以上说明那样,本实施方式的图像检索装置300将以对积蓄于图像DB310的图像补充隐藏字符的形式而识别的识别文本用作图像索引,进行图像的检索,因此能够实现针对检索查询Q的、再现率较高的高精度的图像检索。
<第四实施方式>
接下来,对第四实施方式进行说明。第四实施方式是使用了第一实施方式的字符识别装置100的翻译装置的实施方式。本实施方式的翻译装置对通过第一实施方式中说明的字符识别装置100获得的识别文本进行机器翻译,并显示翻译结果。此时,考虑到文本片的似然度与翻译片的重要度而选择翻译结果。
本实施方式的翻译装置使用第一实施方式的字符识别装置100,对半隐藏文本区域、以及未组入半隐藏文本区域中的显现文本区域进行字符识别,并对作为其结果而获得的文本进一步进行向目标语言的翻译处理,将极大似然的翻译结果提示给用户。
在翻译处理中使用现有技术。现有技术中的大多翻译处理采取如下方式:将原始文本分解成短语、句子等容易处理的适当的单位(将其称作“翻译单位”。),分别列举向目标语言翻译后所成的文本候选,对它们进行组合,从而构成句子等整体文本。
图33是说明以往的翻译模型的一个例子的图。在该图33所示的例子中,使在源语言中记载的原始文本成为(1)分解成翻译单位,(2)对各翻译单位分配目标语言的翻译文本,(3)以使它们符合目标语言的文法的方式进行排列调整,(4)成为构成为句子的顺序。通过将各翻译单位的翻译处理中的负的对数似然度的平均值、以及出于最终构成的句子的语言的观点的负的对数似然度相加,来进行通过该一系列的翻译处理进程生成的翻译文本的评价。将该评价值称作“翻译成本”。在(1)翻译单位的分解、(2)分配翻译文本、(3)排列调整中分别存在多个候选,各阶段的候选的组合成为贯通整个进程的候选。使用之前叙述的评价方法,从全部候选中选择翻译成本最低的候选。
这里,在各翻译单位中,着眼于在决定整体的翻译文本的方面存在重要度大小这一点。例如在以语义学的观点研究的情况下,动词在决定句子的意思方面是最重要的要素。或者在以语法分析为基准的翻译处理的情况下,越是接近语法构造中的路程节点的翻译单位,对翻译结果带来的影响越大。
本实施方式中的成为翻译处理对象的原始文本是字符识别结果,所以并不确切。由于重要度较高的翻译单位给其他翻译单位带来较大的影响,因此对于该原始文本应谋求更高的置信度。换言之,在是重要度较低的翻译单位的情况下,即使原始文本错误,由此所受的损失也较小。
根据以上的研究,在本实施方式中,提出对与重要度较高的翻译单位对应的原始文本片谋求较高的置信度这样的、具有翻译候选的选择基准的翻译装置。
图34是说明实施方式的翻译模型的一个例子的图。与图33所例示的以往的翻译模型的不同点在于,对于各翻译单位,将其重要度与原始文本的字符识别成本之积的平均值(图34的粗体字部)加入到翻译成本中。由此,在对具有较高置信度的原始文本片分配重要度较高的翻译单位的情况下,进行较高地评价。
以下,对作为与以往的差异要素的原始文本片的成本的计算方法以及重要度的计算方法进行说明。
(原始文本片的成本的计算方法)
处于半隐藏文本区域以及显现文本区域的文本是翻译对象,但由于半隐藏文本区域的文本的翻译处理包含显现文本区域的文本的翻译处理,因此以下,仅对半隐藏文本区域的文本的翻译处理进行说明。
半隐藏文本区域的网格形成如图24例示那样的构造。依次为前提,以下,示出具体的处理顺序。图35是表示计算原始文本片的成本的处理的顺序的流程图。本实施方式的翻译装置进行以下的步骤S1501~步骤S1502的处理,计算原始文本片的成本。
步骤S1501:本实施方式的翻译装置将原始文本片的成本设为C,作为初始值而代入0。
步骤S1502:本实施方式的翻译装置从原始文本片中分出处于显现文本区域内的文本部T1与处于隐藏文本区域内的文本部T2。
步骤S1503:本实施方式的翻译装置使用显现文本区域的网格所记载的各字符的成本,将处于对应T1的路径上的各字符的成本的总和加入到C中。
步骤S1504:本实施方式的翻译装置数出隐藏文本区域的网格内的T2的极大似然路径的字符串长L。
步骤S1505:本实施方式的翻译装置将用隐藏文本区域的空间成本除以L、并乘以T2的字符串长而得的值加入到C中。
步骤S1506:本实施方式的翻译装置输出原始文本片的成本C。
对通过以上的处理计算的原始文本片的成本C的具体例进行说明。在成为对象的原始文本片是图24所例示的“clsii”的情况下,关于属于显现文本区域的“cls”的成本为2.5+1.2+2.8=6.5。另外,关于属于隐藏文本区域的“ii”的成本为9.8/3×2≈6.53。因此,原始文本片“clsii”的成本为C6.5+6.53=13.03。
此外,在以上的说明中,仅以字符图案识别成本与空间成本为对象,但也可以并用在字符识别装置100内评价的语言模型的成本。
(翻译单位的重要度的计算方法)
这里,对使用作为语法分析的一种的依赖构造分析计算翻译单位的重要度的顺序进行说明。图36是表示计算翻译单位的重要度的处理的顺序的流程图。本实施方式的翻译装置进行以下的步骤S1601~步骤S1603的处理,计算翻译单位的重要度。
步骤S1601:本实施方式的翻译装置对构成为句子的目标语言的文本进行依赖构造分析。图37是表示依赖构造分析的结果的一个例子的图,并示出图34所示的句例的依赖构造分析的结果。目标语言的文本形成单词或者词素的树构造。
步骤S1602:本实施方式的翻译装置对树构造上的各节点分配权重。其中,各节点的权重作为自身节点或者子孙节点的总数。
步骤S1603:本实施方式的翻译装置将翻译单位的目标语言中的文本片所包含的单词(或者词素)的权重的最大值作为翻译单位的重要度。在图37的例子中,“I”的权重为1,“am”的权重为4,“aboy”的权重为2。
如以上说明那样,根据本实施方式的翻译装置,能够将以补充隐藏字符的形式识别出的识别文本适当地翻译成目标语言,并能够将该翻译结果提示给用户。
<第五实施方式>
接下来,对第五实施方式进行说明。第五实施方式是与第一实施方式的字符识别装置100不同的字符识别装置的实施方式。以下,将本实施方式的字符识别装置与第一实施方式的字符识别装置100相区别而称作“行补充型字符识别装置”。
第一实施方式的字符识别装置100检测单行内的隐藏的文本,但本实施方式的行补充型字符识别装置检测隐藏的行的文本。由于该目的的不同,第一实施方式的字符识别装置100仅检测与显现文本区域相邻的隐藏文本区域,但本实施方式的行补充型字符识别装置通过对行间等的考虑而检测与显现文本区域分离的隐藏文本区域。此外,本实施方式的行间型字符识别装置在检测行内的隐藏文本时使用第一实施方式的字符识别装置100。
(遮蔽现象的分类)
对在本实施方式中处理的遮蔽现象进行说明。以下,将实际存在的文本的行被隐藏的现象称作“遮蔽现象”。图38是说明本实施方式中的遮蔽现象的图。出于文本整体中的哪个位置的行被隐藏的观点,将遮蔽现象区别为“断开型”与“修剪型”这两种。
断开型是除多行文本的两端以外的行被隐藏的模式。图38(a)是在被摄体包含电梯的操作面板的情景图像中的断开型的遮蔽现象的例子。图38(a)所示的操作面板内的各楼层按钮由于相互离开而作为独立的行被检测,但因人体等的遮挡物或图像的过曝光等,楼层按钮中的一个被隐藏。图38(b)是扫描图像中的断开型的遮蔽现象的例子,第二行被墨污损。
修剪型是多行文本的开头行或者最终行被隐藏的模式。图38(c)是情景图像中的修剪型的遮蔽现象的例子,由于某个遮挡物的缘故,背后的招牌的最终行被隐藏。图38(d)是情景图像中的修剪型的遮蔽现象的另一例,招牌向下出到帧外,从而最终行被隐藏。图38(e)是扫描图像中的修剪型的遮蔽现象的例子,开头行被墨污损。此外,在以下的说明中,将在图38(c)以及图38(e)中例示的遮蔽现象称作“遮蔽修剪型”、将在图38(d)中例示的遮蔽现象称作“帧外修剪型”,由此来区别两者。
(部分缺损行现象)
以上的遮蔽现象的分类是基于行单位下的隐藏方法的分类。但是,实际上,并不限定于与行交界相对应地隐藏,如在图39(a)、图39(b)中示出一个例子那样,有时从行的中途开始隐藏。将该现象称作“部分缺损行现象”,将产生了“部分缺损行现象”的行称作“部分缺损行”。“部分缺损行现象”能够视作第一实施方式中说明的部分缺损字符现象遍及行整体。由于本实施方式的行补充型字符识别装置在内部使用第一实施方式的字符识别装置100,因此通过上述部分缺损字符区域检测器130的处理去除部分缺损行整体。因此,在本实施方式中,无需对部分缺损行现象进行考虑。
(术语的定义)
以下总结在本实施方式的说明中使用的与区域有关的术语。
显现文本行区域:将第一实施方式的字符识别装置100检测出的单行的文本区域(将显现文本区域与隐藏文本区域统合而成的半隐藏文本区域、或者独立的显现化文本区域)称作“显现文本行区域”。
隐藏文本行区域:将虽然原本存在字符但因遮蔽现象而隐藏的单行文本的矩形区域称作“隐藏文本行区域”。
文本行区域:在未特别区别显现文本行区域与隐藏文本行区域的情况下,将它们称作“文本行区域”。
多行文本区域:将由图像中的显现文本行区域与隐藏文本行区域的任意组中的、成为一个多行文本的组所构成的一个矩形区域称作“多行文本区域”。
文本区域:将包含显现文本区域、隐藏文本区域、半隐藏文本区域、显现文本行区域、隐藏文本行区域、文本行区域、以及多行文本区域的上位概念称作“文本区域”。
(行补充型字符识别装置的构成)
图40是表示本实施方式的行补充型字符识别装置500的构成例的框图。如图40所示,本实施方式的行补充型字符识别装置500具备字符识别装置100、多行文本区域推定器510、多行文本区域网格生成器520、基于语言评价的字符识别器530、以及多行文本区域构造选择器540。
字符识别装置100如第一实施方式中说明那样,若被输入输入图像X,则检测显现文本区域而进行字符图案识别,并且进行将隐藏文本区域于显现文本区域统合而成的半隐藏文本区域的推定,输出各文本区域所包含的单行的识别文本。此外,各文本区域的文本方向均被确定。如已经叙述那样,即使在在本实施方式中局部包含隐藏文本区域,也将该区域统一地称作显现文本行区域。
多行文本区域推定器510基于字符识别装置100检测的显现文本行区域,推定隐藏文本行区域,进而推定将它们统合而成的多行文本区域。在图41中表示隐藏文本行区域的例子。图41(a)~图41(e)分别与图38(a)~图38(e)所示的遮蔽现象的具体例对应,由粗线的框包围的区域是隐藏文本行区域。
多行文本区域推定器510例如基于显现文本行区域的输入图像X上的绝对的或者相对的位置关系,检测上述遮蔽现象的产生,并推定隐藏文本行区域。其中,由于预测精度较低,因此在该阶段,也包含置信度较低的候选地进行过度检测,并通过后续处理进行详细的判断来缩小。之后详细叙述处理的具体例。
多行文本区域网格生成器520生成多行文本区域的网格。多行文本区域指的是如上述那样包含输入图像X中的显现文本行区域与隐藏文本行区域中的、认为是成为一个多行文本的组在内的区域。多行文本区域网格生成器520以网格形式生成能够适用于隐藏文本行区域的字符串候选,并与显现文本行区域的字符串候选网格连结,从而获得多行文本区域的网格。在能够适用于隐藏文本行区域的字符串候选的推定中,使用该区域的尺寸、以及邻近的显现文本行区域所使用的字符尺寸标尺。即,假设使用与邻近的显现文本相同程度的尺寸的字体,基于该假设,使适合隐藏文本行区域的尺寸的字符串成为候选。
另外,对多行文本区域的网格赋予隐藏文本行区域的空间成本。在空间成本的分配中使用与第一实施方式相同的方法。之后详细叙述处理的具体例。
基于语言评价的字符识别器530对多行文本区域群以及各个显现文本行区域群分别进行贯通文本区域整体的语言的评价,并将该评价结果与至此获得的字符图案识别成本和空间成本合并来进行综合性的字符识别。由此,在被赋予了贯通多行文本整体的语言适当性那样的文本中,隐藏文本行区域在被适用于尽可能少的行数(小的区域尺寸)的情况下,被较高地评价。此外,作为具体的处理,使用与第一实施方式的字符识别装置100中的基于语言评价的字符识别器160相同的方法。
多行文本区域构造选择器540决定将从输入图像X中检测的全部显现文本行区域组入多行文本区域中的统合方法,输出针对包含多行文本区域的输入图像X1内的各文本区域的字符识别结果Y2。
将显现文本行区域组入多行文本区域中的方法存在选择余地。例如,在存在三个显现文本行区域的情况下,存在将3组统合到一个多行文本区域、或者将某2组统合到多行文本区域中等的选项。或者,在修剪型遮蔽现象的情况下,假定几个隐藏文本行区域也存在自由度。因此,多行文本区域构造选择器540从所有可能的统合方法之中选择各文本区域的成本达到最小的统合方法。然后,多行文本区域构造选择器540输出针对与选择的统合方法相应的文本区域的字符识别结果Y2。之后详细叙述处理的具体例。
以下,详细说明构成本实施方式的行补充型字符识别装置500的以上的各模块中的、除在第一实施方式中说明的字符识别装置100以外的模块的处理。
(多行文本区域推定器)
多行文本区域推定器510是推定将显现文本行区域与隐藏文本行区域统合而成的多行文本区域的模块。多行文本区域推定部510基于字符识别装置100检测出的显现文本行区域群,推定隐藏文本行区域。而且,多行文本区域推定器510基于所获得的隐藏文本行区域群与显现文本行区域群,列举全部能够进行的统合方法(即多行文本区域)。
隐藏文本行区域的推定处理中,针对断开型、帧外修剪型以及遮蔽修剪型这三种遮蔽现象,分别通过不同的模块以不同的顺序进行处理。
图42是表示多行文本区域推定器510的构成例的框图。如图42所示,多行文本区域推定器510包含断开型多行文本区域推定器511、帧外修剪型多行文本区域推定器512、以及遮蔽修剪型多行文本区域推定器513。若多行文本区域推定器510被输入显现文本行区域群T3,则首先利用断开型多行文本区域推定器511进行处理,之后,进行帧外修剪型多行文本区域推定器512或者遮蔽修剪型多行文本区域推定器513中的处理。多行文本区域推定器510将这些的处理的结果一并作为多行文本区域群T4加以输出。
因此,对于有断开型多行文本区域推定器511生成的多行文本区域群,存在进一步利用帧外修剪型多行文本区域推定器512或者遮蔽修剪型多行文本区域推定器513赋予隐藏文本行区域的可能性。以上三种处理也可以根据应用而仅进行必要的处理。另外,在图42的构成例中,构成为选择性地进行帧外修剪型多行文本区域推定器512的处理和遮蔽修剪型多行文本区域推定器513的处理,但也可以将帧外修剪型多行文本区域推定器512与遮蔽修剪型多行文本区域推定器513以串联的方式相连,从而能够执行这两个处理。
以下,详细说明断开型多行文本区域推定器511、帧外修剪型多行文本区域推定器512、以及遮蔽修剪型多行文本区域推定器513的各自的处理。
(断开型多行文本区域推定器)
断开型多行文本区域推定器511的基本方针与第一实施方式的字符识别装置100中的断开型半隐藏文本区域推定器141相同。即,断开型多行文本区域推定器511基于区域的位置、尺寸,对两个以上的显现文本行区域判断是否在它们之间存在隐藏文本行区域。然后,对显现文本行区域群与隐藏文本行区域群进行任意的组合,列举存在可能性的多行文本区域。
本实施方式的断开型多行文本区域推定器511的处理在以下三点与第一实施方式的断开型半隐藏文本区域推定器141的处理不同。
不同点1:在第一实施方式中,若统合显现文本区域彼此,则将处于其之间的区域全部认定为隐藏文本区域。与此相对,在本实施方式中,考虑行间(将其称作“空余(MARGIN)”。),将处于显现文本行区域彼此之间的区域划分为隐藏文本行区域与空余。以下,将合并了空余与隐藏文本行区域而成的区域称作“潜在文本区域”。
图43是说明文本行区域的统合方法的图。图43(a)示出将显现文本行区域与隐藏文本行区域横向排列并统合而形成多行文本区域的例子。图43(b)示出将显现文本行区域与隐藏文本行区域纵向排列并统合而形成多行文本区域的例子。在任一例子中,都在相邻的文本行区域之间夹设有空余。
不同点2:在本实施方式中,允许多行文本区域是不包含隐藏文本行区域的构成。例如,由在区域间夹设有空余的两个显现文本行区域构成的文本区域也成为多行文本区域之一。
不同点3:在第一实施方式中,在成为统合对象的文本区域之中包含文本方向不明的文本区域。与此相对,在本实施方式中,全部的文本区域的文本方向已被确定。
以下列举文本行区域的统合中应满足的条件。将这些条件称作“文本行区域统合条件”。此外,这些文本行区域统合条件并非全部是必须的条件,只要根据输入图像X的种类等适当地选择并使用向多行文本区域统合所需的条件即可。
条件1:成为构成要素的文本区域的数量为两个以上。
条件2:成为构成要素的文本行区域以直线状排列,在将文本行区域向与文本方向平行的向量投影时成为大致相同的线段(均为与外切矩形几乎相接)。
条件3:成为构成要素的显现文本行区域的文本方向均与文本行区域所排列的方向垂直。
条件4:成为构成要素的显现文本行区域所包含的背景、字符颜色等的配色类似。
条件5:成为构成要素的显现文本行区域所包含的字符尺寸的标尺类似。
条件6:成为构成要素的显现文本行区域所包含的深度的误差为阈值以下。
这里,对断开型多行文本区域推定器511的处理的具体例进行说明。断开型多行文本区域推定器511依照以下顺序进行潜在文本区域的列举、潜在文本区域向空余与隐藏文本行区域的分类、具有可能性的多行文本区域的列举的处理。
首先,参照图44对列举潜在文本区域的处理进行说明。图44是表示多行文本区域的构造例的图。
断开型多行文本区域推定器511首先从输入图像X之中列举满足文本行区域统合条件的显现文本行区域的对,检测由各对夹着的矩形区域作为潜在文本区域。通过该处理,在图44的例子中,图中的虚线的区域被检测出作为潜在文本区域。
接下来,参照图45以及图46对将潜在文本区域分成空余与隐藏文本行区域的处理进行说明。图45是表示断开型隐藏文本行区域的一个例子的图,图46是表示将潜在文本区域分成空余与隐藏文本行区域的处理的顺序的流程图。断开型多行文本区域推定器511进行以下的步骤S1701~步骤S1704的处理,如图45那样将图44所例示的潜在文本区域分为空余与隐藏文本行区域。
此外,在以下的说明中被称作“宽度”的是与文本方向垂直的边的长度。另外,在说明中使用的空余的宽度例如是与潜在文本区域相邻的显现文本行的宽度的0.5倍等、能够以相邻的显现文本行的宽度为基准来确定。
步骤S1701:断开型多行文本区域推定器511从通过上述的处理检测出的潜在文本区域群中取出一个潜在文本区域。
步骤S1702:断开型多行文本区域推定器511取出与在步骤S1701中取出的潜在文本区域相邻的显现文本区域的宽度。
步骤S1703:断开型多行文本区域推定器511对于在步骤S1701中取出的潜在文本区域,分配0个以上的、具有在步骤S1702中取出的宽度的隐藏文本行区域(即,与显现文本区域相同尺寸的隐藏文本行区域)。其中,设有以下条件:在显现文本行区域或者隐藏文本行区域之间必然配置有空余,将空余的宽度设为全部相同(均等分割),并且其结果尽可能接近基准宽度。
步骤S1704:断开型多行文本区域推定器511判断是否已取出全部潜在文本区域。然后,如果判断的结果是“否”,则返回步骤S1701,如果是“是”,则结束处理。
接下来,参照图45以及图47对列举具有可能性的多行文本区域的处理进行说明。图47是表示列举多行文本区域的处理的顺序的流程图。断开型多行文本区域推定器511进行以下的步骤S1801以及步骤S1802的处理,列举具有可能性的多行文本区域。
步骤S1801:断开型多行文本区域推定器511从全部显现文本行区域之中列举全部满足文本行区域统合条件的组。在图45的例子的情况下,在步骤S1801中列举的显现文本行区域的组为(A,B)、(C,D)、(E,F)、(F,G)、(E,F,G)。
步骤S1802:断开型多行文本区域推定器511对在步骤S1801中列举的各组,追加存在于其之间的全部隐藏文本行区域,并将这些组作为多行文本区域加以输出。在图45的例子的情况下,在步骤S1802中输出的多行文本区域为(A,B)、(C,a,D)、(E,F)、(F,b,c,G)、(E,F,b,c,G)。
(帧外修剪型多行文本区域推定器)
帧外修剪型多行文本区域推定器512针对与输入图像X的缘(上下左右的边)相接的显现文本行区域,假设在输入图像X的边的外侧存在隐藏文本行区域,将向输入图像X的边的外侧延长了区域而成的区域推定为多行文本区域。其中,与断开型不同,没用用于决定隐藏文本行区域的大小的判断材料。因此,根据预定的设定来决定向输入图像X的边的外侧延长的区域的长度。作为延长的区域的长度的设定方法,例如考虑使用追加行数的方法。设定值也可以具有多个,在该情况下,利用全部设定值进行相同的处理。
图48是表示帧外修剪型多行文本区域的一个例子的图。图48(a)示出将与输入图像X的左边相接的显现文本行区域或者多行文本区域从输入图像X的左边向外侧延长而形成多行文本区域的例子。图48(b)示出将与输入图像X的下边相接的显现文本行区域或者多行文本区域从输入图像X的下边向外侧延长而形成多行文本区域的例子。在任意一个情况下,都没有与应该将区域延长到哪儿为止的线索,因此以预定的与追加行数对应的几种长度来延长区域。
图49是表示帧外修剪型多行文本区域推定器512的处理的顺序的流程图。帧外修剪型多行文本区域推定器512进行以下的步骤S1901~步骤S1907的处理,推定帧外修剪型多行文本区域。
步骤S1901:帧外修剪型多行文本区域推定器512从断开型多行文本区域推定器511所输出的多行文本区域群以及显现文本行区域群的集合之中取出一个文本区域。
步骤S1902:帧外修剪型多行文本区域推定器512对于在步骤S1901中取出的文本区域,判断是否是文本方向为纵写、并且与输入图像X的左右的某个边相接。然后,如果判断的结果是“是”,则进入步骤S1903,如果是“否”,则进入步骤S1904。
步骤S1903:帧外修剪型多行文本区域推定器512将在步骤S1901中取出的文本区域,从该文本区域所相接的输入图像X的左右的某个边向图像外延长基于设定的长度(与追加行数的量的宽度以及空余相当的长度),将其设为新的多行文本区域。
步骤S1904:帧外修剪型多行文本区域推定器512对于在步骤S1901中取出的文本区域,判断是否是文本方向为横写、并且与输入图像X的上下的某个边相接。然后,如果判断的结果是“是”,则进入步骤S1905,如果是“否”,则进入步骤S1906。
步骤S1905:帧外修剪型多行文本区域推定器512将在步骤S1901中取出的文本区域,从该文本区域所相接的输入图像X的上下的某个边向图像外延长基于设定的长度(与追加行数的量的宽度以及空余相当的长度),将其设为新的多行文本区域。
步骤S1906:帧外修剪型多行文本区域推定器512判断是否已取出成为处理对象的全部文本区域。然后,如果判断的结果是“是”,则进入步骤S1907,如果是“否”,则返回步骤S1901。
步骤S1907:帧外修剪型多行文本区域推定器512输出所生成的多行文本区域群。
(遮蔽修剪型多行文本区域推定器)
遮蔽修剪型多行文本区域推定器513对于所有显现文本行区域,假设在其行的前方侧或后方侧存在隐藏文本行区域,将向行的前方侧或后方侧延长的区域推定为多行文本区域。延长的区域的长度与帧外修剪型相同,根据预定的设定而决定。作为延长的区域的长度的设定方法,例如考虑使用追加行数的方法。其中,与帧外修剪型不同,作为对延长的区域的长度的限制,附加不与其他显现文本区域重叠这一限制。
图50是说明遮蔽修剪型多行文本区域的一个例子的图。图50(a)表示将文本方向为纵向的显现文本行区域或者多行文本区域在与其他显现文本区域不重叠的范围内沿横向延长而成为多行文本区域的例子。图50(b)表示将文本方向为横向的显现文本区域或者半隐藏文本区域在与其他显现文本区域不重叠的范围内沿纵向延长而成为多行文本区域的例子。在任意一个情况下,都没有将区域延长到哪儿为止的线索,因此以预定的与追加行数对应的几种长度延长区域。
图51是表示遮蔽修剪型多行文本区域推定器513的处理的顺序的流程图。遮蔽修剪型多行文本区域推定器513进行以下的步骤S2001~步骤S2005的处理,推定遮蔽修剪型多行文本区域。其中,空余尺寸使用与在断开型隐藏文本行区域推定器511中使用的空余尺寸相同的设定。另外,新生成的隐藏文本行区域的尺寸成为与成为延长源的文本区域所包含的显现文本行区域相同的尺寸。
步骤S2001:遮蔽修剪型多行文本区域推定器513从断开型多行文本区域推定器511所输出的多行文本区域群以及显现文本行区域群的集合之中取出一个文本区域。
步骤S2002:遮蔽修剪型多行文本区域推定器513将在步骤S2001中取出的文本区域向前方行的方向延长基于设定的长度(与追加行数的量的宽度以及空余相当的长度),将其设为新的多行文本区域。其中,在因基于设定的长度的延长导致与其他显现文本区域重叠的情况下,不进行该设定值下的延长。
步骤S2003:遮蔽修剪型多行文本区域推定器513将在步骤S2001中取出的文本区域向后方行的方向延长基于设定的长度(与追加行数的量的宽度以及空余相当的长度),将其设为新的多行文本区域。其中,在因基于设定的长度的延长导致与其他显现文本区域重叠的情况下,不进行该设定值下的延长。
步骤S2004:遮蔽修剪型多行文本区域推定器513判断是否已取出成为处理对象的全部文本区域。然后,如果判断的结果是“是”,则进入步骤S2005,如果是“否”,则返回步骤S2001。
步骤S2005:遮蔽修剪型多行文本区域推定器513输出所获得的全部多行文本区域。
(多行文本区域网格生成器)
多行文本区域网格生成器520是如下模块:针对由多行文本区域推定器510生成的多行文本区域,生成列举将该多行文本区域所包含的显现文本行区域以及隐藏文本行区域链状进行行连结的形式下的文本候选的网格。显现文本行区域的网格已通过第一实施方式的字符识别装置100生成完毕。多行文本区域网格生成器520例如在生成隐藏文本行区域的网格的基础上,将由字符识别装置100生成完毕的显现文本行区域的网格与隐藏文本行区域的网格链状连结而成的网格作为多行文本区域的网格加以输出。
隐藏文本行区域的网格的生成方法与字符识别装置100中的隐藏文本区域的网格的生成方法(图19~图22的处理顺序)相同。其中,在分配基于区域尺寸的空间成本时,也可以不仅包含隐藏文本行区域的尺寸,也包含空余的尺寸地决定分配给隐藏文本行区域的网格的空间成本。
图52是表示多行文本区域的网格的一个例子的图。该图52的例子是通过字符识别装置100的处理检测半隐藏文本区域“W?L”与显现文本区域“toNY”、通过多行文本区域推定器510的处理在这些显现文本行区域之间检测到隐藏文本行区域的情况下的例子。如图52所示,与将它们统合而成的多行文本区域对应的网格将各行L1、L2、L3的网格链状相连。
多行文本区域的第一行L1是通过字符识别装置100的处理而检测到的半隐藏文本区域,第一行L1的网格形成与图24所例示的半隐藏文本区域的网格相同的构造。由于多行文本区域的第二行L2为通过多行文本区域推定器510的处理而检测出的隐藏文本行区域,因此第二行L2的网格仅被分配空间成本。多行文本区域的第三行L3是通过字符识别装置100的处理而检测出的显现文本区域,对第三行L3的网格配置有字符图案识别成本。
(基于语言评价的字符识别器)
基于语言评价的字符识别器530是如下模块:针对由多行文本区域网格生成器520生成的网格附加语言的评价,并进行考虑了字符图案识别成本、空间成本、以及语言成本这三点的字符识别处理。此外,由于基于语言评价的字符识别器530的处理的顺序与字符识别装置100的基于语言评价的字符识别器160相同,因此省略详细的说明。
(多行文本区域构造选择器)
通过以上的处理获得的多行文本区域群是字符识别结果Y2的选择候选。多行文本区域构造选择器540最终决定应选择的多行文本区域群。然后,多行文本区域构造选择器540将基于统合成本选择或者排序的文本作为针对多行文本区域的字符识别结果Y2加以输出。
多行文本区域构造选择器540从最多使用一次显现文本行区域而生成多行文本区域群的全部统合方法中,选择所生成的多行文本区域群以及未组入多行文本区域群中的显现文本区域群的成本的合计达到最小的统合方法。此外,由于多行文本区域构造选择器540的处理的顺序与字符识别装置100的文本区域构造选择器170相同,因此省略详细的说明。
如以上说明那样,根据本实施方式的行补充型字符识别装置500,推定对显现文本行区域统合了隐藏文本行区域而成的多行文本区域,将与推定的多行文本区域对应的文本候选作为字符识别结果Y2加以输出,因此即使遍及行整体地隐藏字符的情况下,也能够以补充隐藏的字符的形式获得作为字符识别结果Y2的文本。
<补充说明>
实施方式的字符识别装置100中的各处理部(显现文本区域检测器110、字符图案识别器120、部分缺损字符区域检测器130、半隐藏文本区域推定器140、半隐藏文本区域网格生成器150、基于语言评价的字符识别器160、以及文本区域构造选择器170)能够通过硬件、或者与硬件配合地动作的软件(程序)进行安装。在以软件安装上述各处理部的情况下,字符识别装置100例如能够如图53所示那样,成为具备CPU(CentralProcessingUnit:中央处理器)11等的控制装置、ROM(ReadOnlyMemory:只读存储器)12、RAM(RandomAccessMemory:随机存储器)13等存储装置、连接有显示面板或各种操作装置的输入输出I/F14、连接于网络而进行通信的通信I/F15、连接各部分的总线16等的、使用了通常的计算机的硬件构成。
由上述实施方式的字符识别装置100执行的程序例如能够以可安装的形式或者可执行的形式的文件记录于CD-ROM(CompactDiskReadOnlyMemory:光盘只读存储器)、软盘(FD)、CD-R(CompactDiskRecordable:可录光盘)、DVD(DigitalVersatileDisc:数字多用途光盘)等计算机可读取记录介质中而作为计算机程序产品来提供。
另外,也可以构成为,将由上述实施方式的字符识别装置100执行的程序保存在连接于因特网等网络的计算机上,经由网络使其下载从而进行提供。另外,也可以构成为,将由上述实施方式的字符识别装置100执行的程序经由因特网等网络提供或者发布。另外,也可以构成为,将由上述实施方式的字符识别装置100执行的程序预先装入ROM12等中进行提供。
由上述实施方式的字符识别装置100执行的程序成为包括字符识别装置100的各处理部(显现文本区域检测器110、字符图案识别器120、部分缺损字符区域检测器130、半隐藏文本区域推定器140、半隐藏文本区域网格生成器150、基于语言评价的字符识别器160、以及文本区域构造选择器170)的模块构成,作为实际的硬件,例如由CPU11(处理器)从上述记录介质读出并执行程序,从而将上述各处理部加载在RAM13(主存储)上,上述各处理部在RAM13(主存储)上生成。此外,上述实施方式的字符识别装置100也能够使用ASIC(ApplicationSpecificIntegratedCircuit,专用集成电路)或FPGA(Field-ProgrammableGateArray,现场可编程门阵列)等专用的硬件来实现上述各处理部的一部分或者全部。
以上,说明了本发明的实施方式,这里说明的实施方式是作为例子而提出的,并没有意图限定发明的范围。这里说明的新的实施方式能够以其他各种方式进行实施,在不脱离发明主旨的范围内能够进行各种省略、替换、变更。这里说明的实施方式或其变形包含在发明的范围和主旨内,并且也包含在权利要求书所记载的发明和与其等同的范围内。
Claims (17)
1.一种字符识别装置,其中,具备:
检测部,从输入图像检测字符显现化的区域即显现文本区域;
第一识别部,对上述显现文本区域进行字符图案识别,计算与字符图案的似然度相应的字符图案识别成本;
推定部,推定半隐藏文本区域,上述半隐藏文本区域是对一个或者多个上述显现文本区域统合隐藏文本区域而成的区域,上述隐藏文本区域是被推定为字符被隐藏的区域;
第二识别部,计算统合成本,上述统合成本是将针对上述半隐藏文本区域所包含的上述显现文本区域而计算出的上述字符图案识别成本与语言成本统合而成的,上述语言成本与适用于上述半隐藏文本区域整体的文本的语言的似然度相应;以及
输出部,将基于上述统合成本而选择或者排序的文本作为针对上述半隐藏文本区域的字符识别的结果进行输出。
2.根据权利要求1记载的字符识别装置,其中,
上述推定部检测直线状排列的多个上述显现文本区域的组中的、文本方向与上述显现文本区域的排列方向一致的多个上述显现文本区域的组,将该组中包含的两个上述显现文本区域之间所夹着的区域推定为上述隐藏文本区域,将在上述组中统合了该隐藏文本区域而得的区域推定为上述半隐藏文本区域。
3.根据权利要求1记载的字符识别装置,其中,
上述推定部将上述输入图像的缘所接的上述显现文本区域沿着与该显现文本区域的文本方向一致方向从上述缘向上述输入图像之外延长时的追加区域,推定为上述隐藏文本区域,将该隐藏文本区域统合到上述显现文本区域中而得的区域推定为上述半隐藏文本区域。
4.根据权利要求1记载的字符识别装置,其中,
上述推定部将上述显现文本区域沿着与该显现文本区域的文本方向一致的方向在与其他显现文本区域不重叠的范围内延长时的追加区域,推定为上述隐藏文本区域,将该隐藏文本区域统合到上述显现文本区域中而得的区域推定为上述半隐藏文本区域。
5.根据权利要求1记载的字符识别装置,其中,
上述第二识别部基于上述隐藏文本区域的尺寸,决定适用于该隐藏文本区域的文本候选。
6.根据权利要求1记载的字符识别装置,其中,
上述第二识别部计算进一步统合了与上述隐藏文本区域的尺寸相应的空间成本而得的上述统合成本。
7.根据权利要求1记载的字符识别装置,其中,
上述第二识别部计算进一步统合了与上述隐藏文本区域的产生原因相应的空间成本而得的上述统合成本。
8.根据权利要求1记载的字符识别装置,其中,
在推定的上述半隐藏文本区域的候选存在多个的情况下,上述输出部输出针对利用上述统合成本而选择的上述半隐藏文本区域的字符识别的结果。
9.根据权利要求1记载的字符识别装置,其中,
还具备推定多行文本区域的第二推定部,上述多行文本区域是对一个或者多个上述显现文本区域或者上述半隐藏文本区域统合了文本方向一致且在与该文本方向垂直的方向上存在的区域即隐藏文本行区域而成的区域,
在推定出上述多行文本区域的情况下,上述第二识别部计算将针对上述多行文本区域所包含的上述显现文本区域而计算出的上述字符图案识别成本或者上述多行文本区域所包含的上述统合成本、与适用于上述多行文本区域整体的文本的语言的似然度所相应的上述语言成本统合而得的上述统合成本,作为针对上述多行文本区域的上述统合成本。
10.根据权利要求9记载的字符识别装置,其中,
上述第二推定部检测在与文本方向垂直的方向上分离存在的多个上述显现文本区域或者上述半隐藏文本区域的组,将该组中包含的两个上述显现文本区域或者上述半隐藏文本区域之间所夹着的区域推定为上述隐藏文本行区域,将上述组中统合了该隐藏文本行区域而得的区域推定为上述多行文本区域。
11.根据权利要求9记载的字符识别装置,其中,
上述第二推定部将上述输入图像的缘所接的上述显现文本区域或者上述半隐藏文本区域沿着与该显现文本区域或者该半隐藏文本区域的文本方向垂直的方向从上述缘向上述输入图像之外延长时的追加区域,推定为上述隐藏文本行区域,将该隐藏文本行区域统合到上述显现文本区域或者上述半隐藏文本区域中而得的区域,推定为上述多行文本区域。
12.根据权利要求9记载的字符识别装置,其中,
上述第二推定部将上述显现文本区域或者上述半隐藏文本区域沿着与该显现文本区域或者该半隐藏文本区域的文本方向垂直的方向在与其他显现文本区域不重叠的范围内延长时的追加区域,推定为上述隐藏文本行区域,将该隐藏文本行区域统合到上述显现文本区域或者上述半隐藏文本区域中而得的区域,推定为上述多行文本区域。
13.一种图像显示装置,其中,具备:
权利要求1记载的字符识别装置,以及
显示控制部,生成将上述字符识别装置所输出的字符识别的结果以能够识别对应于上述显现文本区域的文本与对应于上述隐藏文本区域的文本的形式重叠于上述输入图像而得的显示画面,并使显示器显示该显示画面。
14.根据权利要求13记载的图像显示装置,其中,
上述显示控制部生成将未组入上述半隐藏文本区域中的上述隐藏文本区域的候选所对应的文本以能够与组入上述半隐藏文本区域中的上述隐藏文本区域的候选所对应的文本相识别的形式进一步重叠于上述输入图像而得的上述显示画面,并使上述显示器加以显示,
在上述显示画面上进行了用于指定未组入上述半隐藏文本区域中的上述隐藏文本区域的候选所对应的文本的操作的情况下,根据该操作将上述显示画面更新。
15.一种图像检索装置,其中,具备:
权利要求1所述的字符识别装置;
索引生成部,将积蓄于图像积蓄部的图像输入到上述字符识别装置,基于该字符识别装置所输出的字符识别的结果,生成针对所输入的图像的索引;以及
检索部,使用上述索引从上述图像积蓄部中检索符合检索查询的图像并输出。
16.根据权利要求15记载的图像检索装置,其中,
上述索引生成部生成根据上述字符识别装置所输出的字符识别的结果而被赋予了不同权重的上述索引,
上述检索部将上述符合检索查询的图像,根据被赋予给该图像的上述索引的上述权重进行排序并输出。
17.一种字符识别方法,在字符识别装置中执行,其中,
包含:
从输入图像中检测字符显现化的区域即显现文本区域的工序;
对上述显现文本区域进行字符图案识别,计算与字符图案的似然度相应的字符图案识别成本的工序;
推定半隐藏文本区域的工序,上述半隐藏文本区域是对一个或者多个上述显现文本区域统合隐藏文本区域而成的区域,上述隐藏文本区域是被推定为字符被隐藏的区域;
计算统合成本的工序,上述统合成本是将针对上述半隐藏文本区域所包含的上述显现文本区域而计算出的上述字符图案识别成本与语言成本统合而成的,上述语言成本与适用于上述半隐藏文本区域整体的文本的语言的似然度相应;以及
将基于上述统合成本而选择或者排序的文本作为针对上述半隐藏文本区域的字符识别的结果进行输出的工序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014223173A JP6342298B2 (ja) | 2014-10-31 | 2014-10-31 | 文字認識装置、画像表示装置、画像検索装置、文字認識方法およびプログラム |
JP2014-223173 | 2014-10-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105574523A true CN105574523A (zh) | 2016-05-11 |
CN105574523B CN105574523B (zh) | 2019-09-24 |
Family
ID=55853011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510724760.1A Active CN105574523B (zh) | 2014-10-31 | 2015-10-29 | 字符识别装置及方法、图像显示装置、图像检索装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9785867B2 (zh) |
JP (1) | JP6342298B2 (zh) |
CN (1) | CN105574523B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091334A (zh) * | 2016-11-17 | 2018-05-29 | 株式会社东芝 | 识别装置、识别方法以及存储介质 |
CN109919037A (zh) * | 2019-02-01 | 2019-06-21 | 汉王科技股份有限公司 | 一种文本定位方法及装置、文本识别方法及装置 |
CN110348021A (zh) * | 2019-07-17 | 2019-10-18 | 湖北亿咖通科技有限公司 | 基于命名实体模型的字符串识别方法、电子设备、存储介质 |
CN110399882A (zh) * | 2019-05-29 | 2019-11-01 | 广东工业大学 | 一种基于可变形卷积神经网络的文字检测方法 |
CN110533020A (zh) * | 2018-05-25 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 一种文字信息的识别方法、装置及存储介质 |
CN111242083A (zh) * | 2020-01-21 | 2020-06-05 | 腾讯云计算(北京)有限责任公司 | 基于人工智能的文本处理方法、装置、设备、介质 |
CN111401099A (zh) * | 2018-12-28 | 2020-07-10 | 中国电信股份有限公司 | 文本识别方法、装置以及存储介质 |
CN112329480A (zh) * | 2019-07-19 | 2021-02-05 | 搜狗(杭州)智能科技有限公司 | 一种区域调整方法、装置和电子设备 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599900B (zh) * | 2015-10-20 | 2020-04-21 | 华中科技大学 | 一种识别图像中的字符串的方法和装置 |
CN107688803B (zh) | 2016-08-05 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 字符识别中识别结果的校验方法和装置 |
US10496699B2 (en) * | 2017-03-20 | 2019-12-03 | Adobe Inc. | Topic association and tagging for dense images |
CN110019867A (zh) * | 2017-10-10 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 图像搜索方法、系统和索引构建方法和介质 |
JP2019139592A (ja) * | 2018-02-13 | 2019-08-22 | シャープ株式会社 | 文字認識装置、文字認識方法 |
US11161714B2 (en) | 2018-03-02 | 2021-11-02 | Otis Elevator Company | Landing identification system to determine a building landing reference for an elevator |
US10614301B2 (en) * | 2018-04-09 | 2020-04-07 | Hand Held Products, Inc. | Methods and systems for data retrieval from an image |
US10740380B2 (en) * | 2018-05-24 | 2020-08-11 | International Business Machines Corporation | Incremental discovery of salient topics during customer interaction |
US10915788B2 (en) * | 2018-09-06 | 2021-02-09 | Sap Se | Optical character recognition using end-to-end deep learning |
JP7172351B2 (ja) * | 2018-09-21 | 2022-11-16 | 富士フイルムビジネスイノベーション株式会社 | 文字列認識装置及び文字列認識プログラム |
JP7243109B2 (ja) * | 2018-10-02 | 2023-03-22 | カシオ計算機株式会社 | 電子機器、電子機器の制御方法及びプログラム |
JP7259312B2 (ja) * | 2018-12-17 | 2023-04-18 | 凸版印刷株式会社 | ポイント付与システム、ポイント付与方法、及びプログラム |
CN115004261A (zh) * | 2020-01-17 | 2022-09-02 | 微软技术许可有限责任公司 | 文本行检测 |
CN113269009A (zh) * | 2020-02-14 | 2021-08-17 | 微软技术许可有限责任公司 | 图像中的文本识别 |
CN111738055B (zh) * | 2020-04-24 | 2023-07-18 | 浙江大学城市学院 | 多类别文本检测系统和基于该系统的票据表单检测方法 |
CN111612157B (zh) * | 2020-05-22 | 2023-06-30 | 四川无声信息技术有限公司 | 训练方法、文字识别方法、装置、存储介质及电子设备 |
CN116758564B (zh) * | 2023-08-15 | 2023-11-10 | 山东履信思源防伪技术有限公司 | 一种对比ocr字符识别结果的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020131642A1 (en) * | 2001-02-02 | 2002-09-19 | Lee Shih-Jong J. | Robust method for automatic reading of skewed, rotated or partially obscured characters |
CN1750016A (zh) * | 2004-09-15 | 2006-03-22 | 北京中星微电子有限公司 | 一种带摄像装置移动终端的光符识别处理方法 |
CN101571921A (zh) * | 2008-04-28 | 2009-11-04 | 富士通株式会社 | 关键字识别方法和装置 |
CN103154974A (zh) * | 2011-03-07 | 2013-06-12 | 株式会社Ntt都科摩 | 字符识别装置、字符识别方法、字符识别系统以及字符识别程序 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2825072B2 (ja) * | 1995-08-09 | 1998-11-18 | 日本電気株式会社 | 文字列認識装置 |
US8098934B2 (en) * | 2006-06-29 | 2012-01-17 | Google Inc. | Using extracted image text |
JP2008234308A (ja) | 2007-03-20 | 2008-10-02 | Matsushita Electric Ind Co Ltd | 通信端末装置及び情報取得方法 |
US8467614B2 (en) * | 2007-11-28 | 2013-06-18 | Lumex As | Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images |
US8306327B2 (en) * | 2008-12-30 | 2012-11-06 | International Business Machines Corporation | Adaptive partial character recognition |
US20140111542A1 (en) * | 2012-10-20 | 2014-04-24 | James Yoong-Siang Wan | Platform for recognising text using mobile devices with a built-in device video camera and automatically retrieving associated content based on the recognised text |
US9076056B2 (en) * | 2013-08-20 | 2015-07-07 | Adobe Systems Incorporated | Text detection in natural images |
JP6419421B2 (ja) | 2013-10-31 | 2018-11-07 | 株式会社東芝 | 画像表示装置、画像表示方法およびプログラム |
US9292739B1 (en) * | 2013-12-12 | 2016-03-22 | A9.Com, Inc. | Automated recognition of text utilizing multiple images |
US9367766B2 (en) * | 2014-07-22 | 2016-06-14 | Adobe Systems Incorporated | Text line detection in images |
-
2014
- 2014-10-31 JP JP2014223173A patent/JP6342298B2/ja active Active
-
2015
- 2015-10-28 US US14/924,974 patent/US9785867B2/en active Active
- 2015-10-29 CN CN201510724760.1A patent/CN105574523B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020131642A1 (en) * | 2001-02-02 | 2002-09-19 | Lee Shih-Jong J. | Robust method for automatic reading of skewed, rotated or partially obscured characters |
CN1750016A (zh) * | 2004-09-15 | 2006-03-22 | 北京中星微电子有限公司 | 一种带摄像装置移动终端的光符识别处理方法 |
CN101571921A (zh) * | 2008-04-28 | 2009-11-04 | 富士通株式会社 | 关键字识别方法和装置 |
CN103154974A (zh) * | 2011-03-07 | 2013-06-12 | 株式会社Ntt都科摩 | 字符识别装置、字符识别方法、字符识别系统以及字符识别程序 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091334A (zh) * | 2016-11-17 | 2018-05-29 | 株式会社东芝 | 识别装置、识别方法以及存储介质 |
CN108091334B (zh) * | 2016-11-17 | 2021-12-03 | 株式会社东芝 | 识别装置、识别方法以及存储介质 |
CN110533020A (zh) * | 2018-05-25 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 一种文字信息的识别方法、装置及存储介质 |
CN111401099A (zh) * | 2018-12-28 | 2020-07-10 | 中国电信股份有限公司 | 文本识别方法、装置以及存储介质 |
CN109919037A (zh) * | 2019-02-01 | 2019-06-21 | 汉王科技股份有限公司 | 一种文本定位方法及装置、文本识别方法及装置 |
CN110399882A (zh) * | 2019-05-29 | 2019-11-01 | 广东工业大学 | 一种基于可变形卷积神经网络的文字检测方法 |
CN110348021A (zh) * | 2019-07-17 | 2019-10-18 | 湖北亿咖通科技有限公司 | 基于命名实体模型的字符串识别方法、电子设备、存储介质 |
CN112329480A (zh) * | 2019-07-19 | 2021-02-05 | 搜狗(杭州)智能科技有限公司 | 一种区域调整方法、装置和电子设备 |
CN111242083A (zh) * | 2020-01-21 | 2020-06-05 | 腾讯云计算(北京)有限责任公司 | 基于人工智能的文本处理方法、装置、设备、介质 |
CN111242083B (zh) * | 2020-01-21 | 2024-01-26 | 腾讯云计算(北京)有限责任公司 | 基于人工智能的文本处理方法、装置、设备、介质 |
Also Published As
Publication number | Publication date |
---|---|
US20160125275A1 (en) | 2016-05-05 |
CN105574523B (zh) | 2019-09-24 |
JP6342298B2 (ja) | 2018-06-13 |
US9785867B2 (en) | 2017-10-10 |
JP2016091200A (ja) | 2016-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105574523A (zh) | 字符识别装置及方法、图像显示装置、图像检索装置 | |
CN107818085B (zh) | 阅读机器人进行阅读理解的答案选择方法及系统 | |
US20180329892A1 (en) | Captioning a region of an image | |
CN110765753B (zh) | 文案生成方法、系统、计算机设备和存储介质 | |
Tracewski et al. | Repurposing a deep learning network to filter and classify volunteered photographs for land cover and land use characterization | |
KR20200075114A (ko) | 이미지와 텍스트간 유사도 매칭 시스템 및 방법 | |
CN109933660B (zh) | 面向自然语言形式基于讲义和网站的api信息检索方法 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN110309114B (zh) | 媒体信息的处理方法、装置、存储介质和电子装置 | |
CN110222171A (zh) | 一种分类模型应用、分类模型训练方法及装置 | |
CN106294344A (zh) | 视频检索方法和装置 | |
CN109783624A (zh) | 基于知识库的答案生成方法、装置和智能会话系统 | |
CN107748745B (zh) | 一种企业名称关键字提取方法 | |
CN106844341A (zh) | 基于人工智能的新闻摘要提取方法及装置 | |
KR20210082112A (ko) | 가상 데이터 기반 저변동성 시계열 데이터의 이중 학습 장치 및 그 동작 방법 | |
CN111159367A (zh) | 一种信息处理方法及相关设备 | |
CN117149944B (zh) | 一种基于宽时间范畴的多模态情境情感识别方法及系统 | |
Downey et al. | alineR: An R package for optimizing feature-weighted alignments and linguistic distances | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN113221633A (zh) | 一种基于层次类别模型的弱监督时序行为定位方法 | |
CN117437692A (zh) | 一种协同分割辅助的跨模态行人重识别方法、系统、设备及介质 | |
CN117131923A (zh) | 一种针对跨模态学习的后门攻击方法及相关装置 | |
CN116363700A (zh) | 一种基于遮挡感知和特征复原的遮挡行人重识别方法 | |
CN115860829A (zh) | 一种智能广告图像生成方法及装置 | |
de Boer et al. | Web page classification using image analysis features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |