CN102479332A

CN102479332A - 图像处理装置和图像处理方法

Info

Publication number: CN102479332A
Application number: CN201110129215XA
Authority: CN
Inventors: 木村俊一
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2010-11-30
Filing date: 2011-05-18
Publication date: 2012-05-30
Anticipated expiration: 2031-05-18
Also published as: JP2012118650A; CN102479332B; US20120134591A1; JP5699570B2

Abstract

本发明公开了一种图像处理装置和图像处理方法。所述图像处理装置包括切出位置提取单元、候选字符提取单元、图生成单元、链接值生成单元、路径选择单元和输出单元。切出位置提取单元提取切出位置。候选字符提取单元识别由所述切出位置所分割的各个字符图像的每一个字符，并且为各个被识别字符提取多个候选字符。图生成单元将提取的多个候选字符中的每一个设定为节点，并且通过在相邻字符图像的节点之间建立链接来生成图。链接值生成单元基于表示候选字符之间的关系的字符串罩的值来生成链接值。路径选择单元基于链接值在图中选择路径。输出单元输出所选路径中的候选字符串。

Description

图像处理装置和图像处理方法

技术领域

本发明涉及图像处理装置和图像处理方法。

背景技术

在相关技术领域中，已经知道从图像中切出字符的技术。

作为其中一项技术，JP-A-62-190575披露了字符图案切出装置，该装置从以字符接字符的形式写在纸张上的字符串(例如文档)中切出字符图案。字符图案切出装置包括扫描单元、字符串图案存储单元、基本图案区检测单元、字形估算值计算单元、字符识别字典存储单元、字符识别估算值计算单元、估算值加法单元、字符切出单元和输出单元。扫描单元通过光扫描纸张上的字符串来进行光电转换。字符串图案存储单元存储光电转换后的字符串的图案。基本图案区检测单元基于通过沿着与字符串方向垂直的方向扫描字符串图案而获得的周围分布值的连续性来分割字符串图案，并且根据由分割而得到的基本图案的左右端坐标和上下端坐标来确定参考图案区。字形估算值计算单元根据基本图案区的左右端坐标和上下端坐标，来计算单个基本图案区的字形估算值和组合图案区(如多个连续的基本图案区的组合)的字形估算值。字符识别字典存储单元存储待读取的字符的参考图案。字符识别估算值计算单元基于与存储在字符识别字典存储单元中的参考图案的匹配，来获得单个基本图案的字符识别估算值和组合图案(如多个连续的基本图案的组合)的字符识别估算值。估算值加法单元通过将由字形估算值计算单元计算出的字形估算值与由字符识别估算值计算单元计算出的字符识别估算值相加，来计算与所有基本图案和组合图案对应的字符估算值。字符切出单元基于基本图案区的位置信息来获取候选切出位置的所有可能的组合，基于由估算值加法单元获得且与候选切出位置切出的基本图案和组合图案对应的字符估算值来获取候选切出位置的各个组合的切出估算值，并且基于切出估算值确定最佳字符切出位置的组合。输出单元基于字符切出单元的结果，从存储在字符串图案存储单元中的一行字符串图案中，以字符接字符的形式切出并且输出字符图案。

发明内容

本发明旨在提供以下图像处理装置和图像处理方法，在识别图像中的字符时，能够防止被识别的字符串仅基于一个字符图像的识别结果而被确定。

[1]根据本发明的一方面，图像处理装置包括切出位置提取单元、候选字符提取单元、图生成单元、链接值生成单元、路径选择单元和输出单元。切出位置提取单元提取切出位置以从图像中分割字符图像。候选字符提取单元为每个由切出位置提取单元提取的切出位置所分割的各个字符图像的识别每个字符，并且为各个被识别字符提取多个候选字符。图生成单元将由候选字符提取单元提取的多个候选字符中的每一个设定为节点，并且通过在相邻字符图像的节点之间建立链接来生成图。链接值生成单元基于字符串罩(hood)的值来生成链接值，所述字符串罩的值表示通过链接而连接的节点的候选字符之间的关系。路径选择单元基于由链接值生成单元生成的链接值，来在由图生成单元生成的图中选择路径。输出单元输出所述路径选择单元选择的路径中的候选字符串，作为图像处理装置的字符识别结果。

[2]在根据第[1]方面所述的图像装置中，在处理过程中，所述路径选择单元使用动态编程方法基于链接值之和来选择路径，同时删除和减少路径。

[3]在根据第[1]方面或第[2]方面所述的图像处理装置中，链接值生成单元基于表示构成链接的节点的字符罩的值，来生成链接值。

[4]在根据第[1]方面至第[3]方面中任一方面所述的图像处理装置中，切出位置提取单元提取多个切出位置。图生成单元将多个候选字符中的每一个设定为节点。为由切出位置提取单元提取的多个切出位置所分割的每个字符图像识别出多个候选字符中的每一个候选字符。图生成单元通过在相邻字符图像的节点之间建立链接来生成图。

[5]根据本发明的另一方面，一种图像处理方法包括：提取切出位置以从图像中分割字符图像；为由所提取的切出位置分割的每个字符图像的识别每个字符；为每个被识别的字符提取多个候选字符；将所提取的多个候选字符中的每一个设定为节点；通过在相邻字符图像的节点之间建立链接来生成图；基于字符串罩的值来生成链接值，所述字符串罩的值表示通过链接而连接的节点的候选字符之间的关系；基于所生成的链接值在所生成的图中选择路径；输出所选择路径中的候选字符串，作为所述图像处理方法的字符识别结果。

根据第[1]方面的图像处理装置，在识别图像中的字符时，可以防止被识别的字符串仅基于一个字符图像的识别结果而被确定。

根据第[2]方面的图像处理装置，与不具有该构造的图像处理装置相比，可以减少处理负担。

根据第[3]方面的图像处理装置，可以利用表示字符串罩的值和表示字符罩的值来生成链接值。

根据第[4]方面的图像处理装置，可以输出多个切出位置的字符识别结果。

根据第[5]方面的图像处理装置，在识别图像中的字符时，可以防止被识别的字符串仅基于一个字符图像的识别结果而被确定。

附图说明

将基于附图详细描述本发明示例性实施例，其中：

图1是根据本实施例的构造实例的概念性模块构造视图；

图2是链接值生成模块的构造实例的概念性模块构造视图；

图3是路径选择模块的构造实例的概念性模块构造视图；

图4是示出根据本实施例的处理实例的流程图；

图5是示出存在多个候选字符的图的实例的说明性视图；

图6是示出标号实例的说明性视图；

图7是示出标号实例的说明性视图；

图8是示出标号实例的说明性视图；

图9是示出标号实例的说明性视图；

图10是示出标号实例的说明性视图；

图11是示出利用内节点信息的实例的说明性视图；

图12A和图12B是示出节点和链接的实例的说明性视图；

图13是示出存在多个字符切出位置时的处理实例的说明性视图；

图14是示出标号实例的说明性视图；

图15是示出存在多个字符切出位置时的处理实例的说明性视图；

图16A、图16B、图16C、图16D、图16E、图16F和图16G是示出加权实例的说明性视图；

图17是示出加权确定模块的模块构造实例的说明性视图；

图18是示出加权实例的说明性视图；

图19是示出权重实例的说明性视图；

图20A、图20B、图20C、图20D、图20E、图20F和图20G是示出加权实例的说明性视图；

图21是示出加权确定模块的模块构造实例的说明性视图；

图22是示出用计算机实现本实施例时的硬件配置的实例的框图；

图23是示出字符串图像的实例的说明性视图；

图24是示出候选字符边界的实例的说明性视图；

图25是示出外接矩形的实例的说明性视图；

图26A、图26B、图26C和图26D是示出字符切出结果的实例的说明性视图；

图27是示出表示字符切出位置的图解表述的实例的说明性视图；

图28是示出图解表述的图案的实例的说明性视图；

图29是示出图的实例的说明性视图。

具体实施方式

本实施例涉及在包括字符串的图像中确定字符识别的结果。

在说明本实施例之前，首先对说明前提或使用本实施例的图像处理装置进行说明。本说明是为了使本实施例易于理解。

例如，将对图28中所示的字符串图像进行描述。首先，将该字符串分割成字符段。文中所述的短语“字符段”涉及可能为字符本身或字符的一部分的字符部分。下面，将举例说明图28中所示的横向书写的字符串图像。用竖线(或大致竖直的线)将横向书写的图像分割成字符段。例如，用图24中所示的竖线(候选切分线2410和候选切分线2420)将字符串图像分割成3个字符段“イ”、“ヒ”和“学”。将图24中所示的竖线称为“候选切分线”。候选切分线2410分开“イ”和“ヒ”，候选切分线2420分开“ヒ”和“学”。

下面，如图25所示，各个外接矩形(外接矩形2510、外接矩形2520和外接矩形2530)提取出字符段。

下面，举例说明JP-A-62-190575中披露的技术内容。尽管以下说明中使用的术语有时与JP-A-62-190575中使用的术语不一样，但技术内容与JP-A-62-190575的技术内容相同。

将上述字符段组合来确定字符图像。在一些情况下，可以将多个字符段组合来形成一个字符图像，或者在另外一些情况下，一个字符段可以形成一个字符。由于确定字符图像相当于确定字符切出位置，因而，确定字符图像有时可以称为确定字符切出位置。

存在多种字符段组合图案。在这些图案中，通过选择具有最高字符图像估算值的图案来确定最终字符切出位置。

图26A至图26D所示实例示出了图25所示实例的所有字符切出图案。具体而言，图26A的实例作为第一图案示出了三个字符图像(外接矩形2510、外接矩形2520和外接矩形2530)，图26B的实例作为第二图案示出了两个矩形图像(外接矩形2510和2520，以及外接矩形2530)，图26C的实例作为第三图案示出了一个字符图像(外接矩形2510、2520和2530)，以及图26D的实例作为第四图案示出了两个字符图像(外接矩形2510和外接矩形2520和25030)。

图26A至图26D的实例所示的多种切出图案可以由描述字符切出位置的图来表示。在图27的实例中，图包括四个节点：起始节点2700、终点节点2790、中间节点2710(第一节点)和中间节点2720(第二节点)，以及使节点之间相互连接的弧线(此处节点之间的连接线称为弧线)。起始点与字符串图像的左端点对应，并且终点与字符串图像的右端点对应。中间节点2710(第一节点)和中间节点2720(第二节点)表示各个候选字符段位置(如图24所示，分别为候选段2410和候选段2420)。中间节点2710(第一节点)与候选段2410对应，而中间节点2720(第二节点)与候选切分线2420对应。

下文中将从起点经过节点到达终点的路线称为“路径”。路径包括一条或多条弧线。通常，存在多条路径。图26A至图26D实例中示出的字符切出图案与这些路径对应。例如，图26B的实例中所示的第二图案与图28中用粗线所示的路径(字符切出图案2704和字符切出图案2722)对应。

此处，一个候选字符图像与一条弧线对应。例如，字符图像(字符切出图案2704)“化”与连接起始节点2700和中间节点2720(第二节点)的弧线对应。对于与一条弧线对应的字符，可以确定该字符的估算值。该估算值称为“弧线估算值”。

弧线估算值基于字形信息和字符识别精度等来计算。存在多种弧线估算值计算方法，例如(1)JP-A-9-185681、(2)JP-A-8-161432、(3)JP-A-10-154207、(4)JP-A-61-175878、(5)JP-A-3-037782和(6)JP-A-11-203406等所披露的计算方法。

一条路径包括多个弧线。由弧线构成的路径的估算值可以基于多个弧线估算值来计算。文中称为“路径估算值”。

从多条路径中选择具有最高路径估算值的一条路径来确定字符切出位置。路径选择允许确定字符切出位置和切出字符，同时可以确定被切出字符的识别结果(字符图像)。

例如，假定选择了图28的实例中的粗线路径。在该情况下，字符切出位置与三个节点对应，即起始节点2700、中间节点2720(第二节点)和终点节点2790。所确定的字符识别结果与“化”(字符切出图案2704)和“学”(字符切出图案2722)对应。

将对路径估算值计算方法进行说明。基于弧线估算值的加权之和来大致计算路径估算值。假定Vi表示第i条弧线的弧线估算值，wi表示第i条弧线估算值的权重，N表示弧线数量，并且P表示路径估算值，P由以下等式(1)表示。

[等式1]

P = Σ_{i = 1}^{N} w_{i} V_{i}

如上所述，存在多条路径；然而，由于实际字符串中存在多个字符段，因此路径数量很大。

在相关文献中，JP-A-3-225579披露了一种动态编程方法，用于从图27实例所示的图的多个路径中搜索具有最高估算值的路径。该文献描述了适合用动态编程方法在图中搜索最佳路径的维特比(Viterbi)算法。

图29的实例示出了包括从起始节点2900至终点节点2990的多个节点的图。节点之间的链接不限于图29中所示的这些链接，而可以用不同的方法来构造。这些链接可以不是图29中所示的对称线连接。

如图所示，该图包括起始节点2900、多个中介节点(中间节点2911、中间节点2912和中间节点2913等)和终点节点。文中，中介节点称为中间节点。

链接将一个节点与另一个节点连接。为链接分配唯一的估算值(链接值)。存在多条从起始节点2900到达终点节点2990的路径。路径包括多条链接。包含在路径中的多条链接的链接值之和与路径估算值对应。

例如，假定链接值为一个节点和另一个节点之间的距离。在该情况下，具有最小路径估算值的路径与从起始节点到达终点节点的路径中具有最短距离的路径对应。这可以等效地应用于寻找具有最高路径估算值的路径。

文中，维特比(Viterbi)算法用于，通过将任何节点在一个方向上输入的链接限定为1来取消非最佳路径。该方法减小了算法处理量和所需的存储容量。

例如，假定将从左侧输入至节点x(中间节点2921)的链接限定为1。类似地，假定将节点y(中间节点2922)和节点z(中间节点2923)的链接限定为1。接着，限定从左侧输入至节点X(中间节点2931)的链接。节点X(中间节点2931)与三个节点，即节点x(中间节点2921)、节点y(中间节点2922)和节点z(中间节点2923)链接。在该情况下，从节点x(中间节点2921)、节点y(中间节点2922)和节点z(中间节点2923)到达节点X(中间节点2931)的链接中的一个可能是经过节点X(中间节点2931)的最佳路径。三个节点中，仅仅留下最佳节点，排除剩下的两个节点。如此，将从左侧输入至节点X(中间节点2931)的路径(或链接)限定为1。类似地，对于节点Y(中间节点2932)和节点Z(中间节点2933)，将从左侧输入的路径限定为1。

该程序从左侧节点A(中间节点2911)、节点B(中间节点2912)和节点C(中间节点2913)朝向右方依次执行。最后，将输入至节点P(中间节点2981)、节点Q(中间节点2982)和节点R(中间节点2983)的路径限定为3。接着，可以从这些路径中选择最佳的路径。利用维特比(Viterbi)算法的最佳路径选择方法可以等效地应用于图27所示的图。将字符切出位置假定为节点。另外，弧线估算值可以假定为上述链接值。

在图27所示的惯常处理的图中，一条弧线存在一个候选字符。然而，实际上一条弧线存在多个候选字符。即，存在多个字符识别结果。例如，如图5中所示指定多个候选字符。图5是示出存在多个候选字符的图的实例的说明性视图。在图5的实例中，当将图像“化学”(字符图像502)识别为一个字符时，识别结果包括三个候选字符，即“梢”(候选字符502A)、“際”(候选字符502B)和“傾”(候选字符502C)。当将图像“化”(字符图像504)识别为一个字符时，识别结果包括三个候选字符，即“化”(候选字符504A)、“比”(候选字符504B)和“任”(候选字符504C)。类似地，其它字符图像还可以包括作为字符识别结果的多个候选字符。尽管图5的实例对于各个字符图像示出了三个候选字符，但可以指定更少或更多的候选字符。例如，如果将识别精度等于或大于预定识别精度的字符图像指定为候选字符，则可为不同的字符图像指定不同的数量的候选字符。在该情况下，应用维特比算法(一般指动态编程方法)的惯常技术不能获得字符识别结果。

下面，参考附图描述适于实现本发明的示例性实施例。

图1是根据本实施例的构造实例的概念性模块构造视图。

文中使用的“模块”通常指诸如逻辑可分离的软件(计算机程序)和硬件等。因此，本实施例中的模块不仅包括计算机程序中的模块，还包括硬件构造中的模块。从而，本实施例针对使本实施例用作模块、系统和方法的所有计算机程序(包括使计算机执行步骤的程序、使计算机用作装置的程序和使计算机实现功能的程序)。为了便于描述，文中使用的“存储”、“被存储”或其它同义词表示计算机程序存储在存储单元中，或者被控制来存储在存储单元中。尽管模块与功能一一对应，但是为了装配，一个模块可以构造成一个程序，多个模块可以构造成一个程序，或者反之一个模块可以构造成多个程序。一台计算机可以执行多个模块，或者在分布式或并行式环境中多台计算机可以执行一个模块。一个模块可以包含其它模块。文中使用的短语“连接”除包括物理连接外，还包括逻辑连接(数据发送、指令和数据间的参照关系等)。文中用到的短语“预定”指在处理对象之前进行确定，不仅包括在本实施例开始处理之前的确定，而且，即使在本实施例开始处理之后，如果该确定为在处理对象之前的确定，则还包括根据此时的情况和条件或者截止此时的情况和条件的确定。

文中使用的短语“系统”或“装置”除了包括经由诸如网络等通信装置(包括一一对应的通信连接)互连的多个计算机、硬件和设备等之外，还包括一个计算机、硬件和设备等。在说明书中，“装置”与“系统”同义。当然，“系统”仅仅包括人工社会“结构”。(社会系统)

当不同的模块执行不同的处理或者一个模块执行不同的处理时，从存储单元读取想要处理的信息，并且在执行完该处理之后，将处理结果写入存储单元。如此，可以不对以下处理进行说明：在处理之前从存储单元中读取信息，和在处理之后将信息写入存储单元中。文中使用的存储单元可以包括硬盘、随机存取存储器(RAM)、外部存储介质、经由通信线的存储单元、中央处理单元(CPU)中的寄存器等。

本实施例的图像处理装置辨认图像中的字符，并且包括图像接收模块110、字符串提取模块120、切出位置提取模块130、候选字符提取模块140、图生成模块150、链接值生成模块160、路径选择模块170和输出模块180。

图像接收模块110与字符串提取模块120连接。图像接收模块110接收图像，并且将图像发送至字符串提取模块120。图像接收包括，例如，用扫描仪或照相机等读取图像、从具有传真机等的外部装置通过通信线接收图像、以及读取存储在硬盘(包括计算机的外部硬盘和连接在网络上的硬盘等)中的图像。图像可以包括二进制图像和多值图像(包括彩色图像)。待接收的图像数量可以是一个或多个。待接收的图像可以是商用的文档图像、广告用的小册子图像，只要图像内容中包含字符串就行。

字符串提取模块120与图像接收模块110和切出位置提取模块130连接。字符串提取模块120从由图像接收模块110接收的图像中提取字符串。

切出位置提取模块130提取一行横向或纵向书写的字符串图像作为对象。文中使用的“行”涉及横向书写中横向排列的行或者纵向书写中纵向排列的行。

因此，如果图像接收模块110接收的图像为单行字符串图像，则字符串提取模块120可以使用原来的图像。图像接收模块110接收的图像可以包括多个字符串。由于已经提出了用于将多个字符串分割成单个字符串的多种惯常使用方法，因此可以使用这些方法，并且由于存在多种将多个字符串分割成单个字符串的方法，因此可以使用包括例如(1)JP-A-4-311283、(2)JP-A-3-233789、(3)JP-A-5-073718和(4)JP-A-2000-90194等所披露的这些方法。还可以使用其它方法。

切出位置提取模块130与字符串提取模块120、候选字符提取模块140和路径选择模块170连接。切出位置提取模块130从由字符串提取模块120提取的字符串图像中提取字符图像切出位置。换句话说，将字符串图像分割成多个字符段。已经提出了用于提取字符切出位置的多种惯常使用方法，包括例如(1)JP-A-5-114047、(2)JP-A-4-100189、(3)JP-A-4-092992、(4)JP-A-4-068481、(5)JP-A-9-054814和(6)JP-A-9-185681中第段描述的候选字符边界提取方法和(7)JP-A-5-128308中第段描述的字符切出位置确定方法等。还可以使用其它方法。这里，字符图像涉及不必为表述一个字符的图像的候选字符图像。

切出位置提取模块130可以提取多个切出位置。多个切出位置的提取产生一个字符串图像的多组字符切出位置。一组字符切出位置涉及一个字符串图像的一个或多个字符切出位置。例如，两个字符切出位置允许将一个字符串图像分割成三个字符图像。另外，多组字符切出位置涉及在一个字符串图像的字符切出位置处分割的多个字符图像串。例如，两个字符切出位置产生包含三个字符图像的字符图像串，而三个字符切出位置产生包含四个字符图像的字符图像串。对于具体实例，字符串“化学”产生包含“イ”、“ヒ”和“学”的字符图像串，以及包含“化”和“学”的字符图像串。

候选字符提取模块140与切出位置提取模块130、图生成模块150和链接值生成模块160连接。候选字符提取模块140提取多个候选字符，多个候选字符由基于切出位置提取模块130提取的位置所分割的字符图像的字符识别而产生。该提取处理可以包括字符识别处理。从而，候选字符提取模块140可以包括字符识别模块。如上所述，字符识别处理识别的结果与一个字符图像的多个候选字符对应。换句话说，字符图像的识别结果与多个候选字符对应，包括具有一级识别精度的候选字符和具有二级识别精度的候选字符等。除了候选字符，字符识别结果可以包括候选字符的识别精度。另外，为了提取候选字符，可以从一个字符图像中提取预定数量的候选字符，或者可以从一个字符图像中提取识别精度等于或大于预定识别精度的候选字符。识别精度可以为表示字符识别处理的识别结果的可靠度的值，或者表示由字符图像的外接矩形的尺寸和长宽比等限定的字符罩的值。

图生成模块150与候选字符提取模块140和链接值生成模块160连接。图生成模块150通过以下方式生成图：将由候选字符提取模块140提取的多个候选字符设定为节点，并且在相邻字符图像的节点之间建立链接。当相邻字符图像存在时，文中使用的短语“在相邻字符图像的节点之间”涉及“在与相邻字符图像对应的节点之间”。

当切出位置提取模块130提取了多个切出位置时，图生成模块150通过以下方式生成图：将多个候选字符设定成接点，并且在相邻字符图像的节点之间建立链接，所述多个候选字符通过基于切出位置提取模块130提取的多个切出位置所分割的字符图像的字符识别而产生。

链接值生成模块160与候选字符提取模块140、图生成模块150和路径选择模块170连接。链接值生成模块160基于表示字符串罩的值和基于节点的候选字符之间的关系生成链接值，所述节点由图生成模块150生成的图中的链接而连接在一起。作为选择，链接值生成模块160可以基于表示构成链接的节点的字符罩的值来生成链接值。

图2是链接值生成模块160的构造实例的概念性模块构造视图。链接值生成模块160包括Ngram值计算模块210、节点值计算模块220和链接值计算模块230。

Ngram值计算模块210与链接值计算模块230连接，并且基于表示字符串罩的值和基于通过链接而连接在一起的节点的候选字符之间的关系来生成链接值。例如，由与节点对应的候选字符构成的字符串出现在日文句子中的概率用作链接值。例如，由与链接左侧的节点和链接右侧的节点对应的字符构成字符串的概率称为bygram。通过链接而包括等于或大于N个字符且不限于两个字符的字符串称为Ngram(N＞2)。

节点值计算模块220与链接值计算模块230连接，并且从候选字符提取模块140中提取识别精度作为节点值，所述识别精度是表示与链接一侧的节点对应的候选字符的字符罩的值。如上所述，节点值计算模块220可以提取包含在与节点对应的字符识别结果中的识别精度。

链接值计算模块230与Ngram值计算模块210和节点值计算模块220连接，并且可以基于由Ngram值计算模块210计算的表示字符串罩的值来计算链接值，或者可以基于由Ngram值计算模块210计算的表示字符串罩的值和节点值计算模块220计算的识别精度(例如，两个值相加等)来计算链接值。

路径选择模块170与切出位置提取模块130、链接值生成模块160和输出模块180连接。路径选择模块170基于由链接值生成模块160生成的链接值来在由图生成模块150生成的图中选择路径。由路径选择模块170选择的路径表示待用作图中的字符图像的字符识别结果的字符串。这是因为路径经过的各个节点表示字符识别结果。在处理过程中，在路径选择模块170可以基于链接值并利用动态编程方法来选择路径，同时删减路径。

图3是路径选择模块170的实例构造的概念性模块构造视图。路径选择模块170包括权重确定模块310、链接权重乘法模块320和加法模块330。

权重确定模块310与链接权重乘法模块320连接，并且基于由切出位置提取模块130提取的字符切出位置所确定的距离来确定权重。

另外，权重确定模块310可以基于插在由切出位置提取模块130提取的字符切出位置之间的图像的外接矩形的尺寸来确定权重。

另外，权重确定模块310可以基于插在由切出位置提取模块130提取的字符切出位置之间的多个图像的外接矩形的尺寸之和来确定权重。下面，参考图16A至图21来描述权重确定模块310中的模块的具体构造和处理。

链接权重乘法模块320与权重确定模块310和加法模块330连接，并且将由链接值生成模块160生成的链接值与权重确定模块310确定的相应权重相乘。

加法模块330与链接权重乘法模块320连接，并且将链接值与由链接权重乘法模块320计算的权重相乘所得的结果进行相加。加法处理结果与对象字符串图像中的一系列字符切出位置中每一个字符切出位置(路径单元)对应。

因此，链接权重乘法模块320和加法模块330的处理为，基于由权重确定模块310确定的权重计算由链接值生成模块160生成的链接值的权重之和。

输出模块180与路径选择模块170连接。输出模块180输出路径选择模块170选择的路径中的字符串作为字符识别结果。输出字符识别结果包括，例如用诸如打印机等打印装置打印该结果、在诸如显示器等显示装置上显示该结果、在诸如存储卡中存储该结果和将该结果发送至其它信息处理装置等。

例如，对于以下字符，

(1)“イ”，“ヒ”和“学”和，

(2)“化”和“学”

由于字符识别精度很少变化(一般单个字符具有相同的字符罩)，因此如果仅仅基于识别精度进行确定，则可能会如(1)中所示错误地分割字符串。

然而，当链接值生成模块160利用Ngram信息生成链接值时，路径选择模块170选择(2)。这是因为生成“化”和“学”比生成“イ”和“ヒ”或者“ヒ”和“学”具有更高的生成概率。

图4是示出根据本实施例的处理实例的流程图。

在步骤S402中，图像接收模块110接收目标图像。

在步骤S404中，字符串提取模块120从图像中提取字符串图像。

在步骤S406中，切出位置提取模块130从字符串图像中提取切出位置。

在步骤S408中，候选字符提取模块140识别被分割字符图像的字符。

在步骤S410中，候选字符提取模块140提取多个字符识别结果作为字符图像的候选字符。

在步骤S412中，图生成模块150生成图。

在步骤S414中，链接值生成模块160生成链接值。

在步骤S416中，路径选择模块170确定权重。

在步骤S418中，路径选择模块170计算线性权重和。

在步骤S420中，路径选择模块170在图中选择路径。

在步骤S422中，输出模块180输出字符识别结果。

下面，参考图6至图15描述由图生成模块150、链接值生成模块160和路径选择模块170执行的处理。

本实施例包括，确定字符切出位置或者通过输出具有高路径估算值的路径来识别字符。路径选择可以使用动态编程方法。

本实施例的图包括起始节点、终点节点和多个中间节点。节点之间的链接被赋予链接值。从起始节点经过一个或多个中间节点到达终点节点的路径依靠中介节点经过链接。从起始节点到达终点节点的路径的路径估算值可以由路径经过的链接的链接值的权重之和来表示。

在本实施例中，如果一个字符图像存在多个字符识别结果，则图生成模块150生成上述节点、链接和路径构造(图结构)。对于所给的图结构，路径选择模块170可以利用诸如维特比算法等方法来搜索最佳路径。

<A1.字符切出位置固定的情况>

首先，描述切出位置提取模块130提取的字符切出位置固定的情况。

图6是示出标号实例的说明性视图。如图所示，标号实例可以包括矩形610，横向连接线620、622、624、626和628，弧线630，以及圆形候选字符642、644和646。

在图6的实例中，矩形610A、610B、610C和610D(与图7中所示的矩形610对应)表示字符段。

横向连接线620、622、624、626和628表示字符切出位置(与图8中所示的连接线620和622对应)。字符段经由字符切出位置与相邻字符段连接。

在将一个字符段识别为一个字符的情况下，由圆圈表示的候选字符642A、644A、……为多个候选字符。弧线630A、630B、630C和630D表示在弧线下方的仅一个字符段的字符识别。

在图9的实例中，当识别出在候选字符642、644和646下方由矩形610表示的一个字符的字符段时，候选字符642、644和646为多个候选字符。弧线630表示在弧线下方的仅一个矩形610的字符识别。

在本实施例中，将字符段的多个候选字符看作节点。相邻字符段的候选字符与链接连接。图10的实例示出了由粗线表示的链接。

此处，链接左侧和右侧的节点的相互作用可以用作由链接值生成模块160生成的链接值。具体而言，使用链接左侧的候选字符和链接右侧出现的候选字符在日文句子中连续出现的概率(bygram)。

当能够通过构造节点和链接的方式来指定所有的图结构时，如果可以指定图结构，则可以利用维特比算法等来选择最佳路径。

<A2.同时使用内节点信息的情况>

尽管上文中说明了仅使用节点间的相互作用(出现在句子中的概率)作为链接值，但仅使用节点的估算值也可以作为链接值。此处，假定使用维特比算法来搜索最佳路径。执行以下处理，对每一节点限定链接从节点的左侧一个接一个地依次进入。

图11是示出利用内节点信息的实例的说明性视图。下面，假定对由图11实例中的箭头所示的候选字符642B、644B和646B(节点D、E和F)的链接进行限定。

此处，生成由箭头所示的候选字符642B、644B和646B(节点D、E和F)的链接值与位于由箭头所示节点左侧的候选字符642A、644A和646A(节点A、B和C)之间的链接值。使用例如表示节点之间相互作用的bygram和内节点值这两个值作为链接值。内节点值的实例可以包括候选字符642B(节点D)的字符识别精度等。

此处，由于链接位于候选字符642B、644B和646B(节点D、E和F)与候选字符642A、644A和646A(节点A、B和C)之间，因此易于计算候选字符642B、644B和646B(节点D、E和F)与候选字符642A、644A和646A(节点A、B和C)之间的估算值，以作为链接值。然而，在该情况下，内节点值没有位于候选字符642B、644B和646B(节点D、E和F)与候选字符642A、644A和646A(节点A、B和C)之间，而位于候选字符642B、644B和646B(节点D、E和F)上。

换句话说，内节点信息存在于链接内，并且内节点信息存在于链接的终点。这些不同生成位置的处理值或概念之前从未提出过。

过去，节点之间的弧线估算值以图27中所示的起始节点2700、中间节点2710(第一节点)、中间节点2720(第二节点)和终点节点2790(即，字符切出位置)被计算为节点。这不是本实施例那样以多个字符码将节点之间的链接值计算为节点。从而，实际上不能使用惯常技术。

在本实施例中，存在于链接内的值(例如，bygram值)和仅存在于链接一侧的终点的值(例如，节点D的字符识别精度)用作链接估算值。未使用存在于另一侧终点的值(例如，节点A字符识别精度)。从而，可以同时利用内链接值和链接终点值来进行估算。

最后，在等式(1)中，将所有链接的估算值相加以产生字符串估算值(路径估算值)。因此，如果内链接估算值和链接一侧的终点的估算值包含在链接估算值中，则意味着所有的内链接估算值和链接终点估算值均包含在路径估算值中。

图12A至图12B示意性示出了上述关系。图12A和图12B是示出节点和链接的实例的示意性视图。在图12A和图12B的实例中，圆圈表示节点，诸如节点1212。横线表示链接，诸如链接1222。如图12B的实例所示，一个链接值(链接估算单元1230)表示一个节点(节点1214)估算值和一个链接(链接1222)估算值。

因此，在图12A和图12B的实例中，除了最左端的节点(节点1212)以外，其它节点可以通过将三个链接估算结果相加来计算。用左终点处理仅计算左终点节点的内节点估算值，并且将该内节点估算值与路径估算值相加。作为选择，可以执行将左终点的内节点估算值与最左端的链接值相加的处理。

链接值生成模块160可以根据作为特征向量的多个值(bygram和识别精度)，诸如上述的内链接值和链接终端值来计算链接值。根据多个值以该方式计算一个链接值的方法可以使用以下公开的任一项技术，(1)JP-A-9-185681、(2)JP-A-61-175878、(3)JP-A-3-037782和(4)JP-A-11-203406等。也可以使用其它方法。

另外，在多个值作为特征向量的情况下，链接值可以由求出特征向量的链接估算值(标量值)的函数得出。

<A3.两个或多个节点用作链接信息的情况>

以上已经示出了bygram用作链接左侧和右侧的节点的交互信息。在该情况下，两个节点之间的关系信息用作链接信息。

例如，使用维特比算法将节点A、B和C的左侧的链接数限定为1。在该情况下，可以利用两个或多个节点的信息来构造链接信息。

例如，可以使用作为三个连续字符的生成概率的trigram，而不使用作为两个连续字符的生成概率的bygram。

下面，假定链接值生成模块160生成节点D、E和F左侧的链接值。

例如，计算节点A与节点D之间的链接值。可以获得连续节点A和节点D的生成概率作为bygram。下面，将描述获取trigram的情况。由于节点A左侧的链接数限定为1，因此实际上还确定了节点A左侧的字符。将保持该字符的节点设定为G。可以获得节点G、节点A和节点D三个字符的生成概率作为trigram。可以生成上面获得的trigram作为节点A和节点D之间的链接值。类似地，可以获得Ngram。

<A4.未确定字符切出位置的情况>

如果字符切出位置未确定(即，切出位置提取模块130提取到多个字符切出位置)，则可以选择候选字符和字符切出位置。

图13是示出存在多个字符切出位置时的处理实例的说明性视图。此处，增加了弧线标号的意义。如果弧线表示在其下方的多个字符段(矩形)，则弧线表示将多个字符段组合成一个字符而生成的图像的识别。弧线1310A包括候选字符1322A、1324A和1326A，作为通过将矩形610A和矩形610B的组合成一个字符而产生的图像的字符识别结果。另外，弧线1310C包括候选字符1322C、1324C和1326C，作为通过将矩形610A、610B、610C和610D组合成一个字符而产生的图像的字符识别结果。

如图14的实例所示，如果两个字符段(矩形610A和矩形610B)“イ”和“ヒ”位于弧线630A和弧线630B下方，则当通过组合“イ”和“ヒ”生成的一个字符段“化”被识别时，位于包含两个字符段的弧线1310上方的候选字符1322、1324和1326对应于多个候选字符。

图15的实例示出了当字符切出位置未确定时的链接连接。图15是示出存在多个字符切出位置时的处理实例的说明性视图。

这里考虑了字符切出位置。下面，针对与图15中箭头所示的字符切出位置有关的节点链接进行描述。在该字符切出位置处链接的节点实例可以包括两种节点：

(1)左节点：弧线的右侧存在于箭头所示字符切出位置处的节点(斜阴影线节点；候选字符1542A、候选字符1544A、候选字符1562A、候选字符1564A、候选字符1572A、候选字符1574A等)，以及

(2)右节点：弧线的左侧存在于箭头所示字符切出位置处的节点(白色节点：候选字符1542B、候选字符1544B、候选字符1562B、候选字符1564B、候选字符1572B和候选字符1574B等)。

在该情况下，可以通过在左节点与右节点之间形成链接来建立图结构。

例如，链接可以形成为允许所有的左节点与所有的右节点直接相连。另外，可以通过以下方式建立所有图结构：如上所述在所有字符切出位置处形成左节点与右节点的链接，如果左节点为字符串的终点则将左节点与起始节点连接，以及如果右节点为字符串的终点则将右节点与终点节点连接。

同样在该情况下，可以使用表示链接左侧节点与右侧节点之间的相互作用的链接值，或者可以使用内节点估算值。

具体而言，在该情况下，由于字符切出位置不确定，因此字形信息可以用作内节点估算值。字形信息的实例可以包括字符长宽比和字符左右空白等。

下面，参考图16A至图21来描述由路径选择模块170的权重确定模块310执行的加权处理。

<B1>

图16是示出权重实例的说明性视图。

下面，通过实例来描述图23中所示的字符串图像“化学”。假定权重为像素数量。如图16A、图16B和图16C所示，“イ”的宽度对应于10像素，“ヒ”的宽度对应于20像素，“学”的宽度对应于40像素而“化”的宽度对应于40像素。一个字符段与另一字符段之间的空白的宽度对应于10像素。在该情况下，图16D至图16G中的实例示出图案中的弧线估算值的权重。换句话说，将对由字符切出位置确定模块110确定的候选的位置(下文中称为“候选切出位置”)限定的距离进行加权。在本实施例中，假定在相邻候选切出位置之间存在一个字符图像，由候选切出位置限定的距离与字符图像的外接矩形的宽度对应。另外，由候选切出位置限定的距离可以称为相邻候选切出位置之间的距离。

尽管图16F实例中所示的权重大于图16E实例中所示的权重，但是在很多情况下，图16E实例中的路径估算值可能因弧线估算值(当假定“化”和“学”均为一个字符时的字符罩估算值，和当假定“化学”为一个字符时的字符罩估算值)而变大。

图17是示出权重确定模块310的模块构造的实例的说明性视图。

权重确定模块310包括字符内切出距离计算模块1710。字符内切出距离计算模块1710基于相邻候选切出位置之间的一个字符图像的外接矩形的宽度来确定权重。另外，该模块1710可以基于相邻候选切出位置之间的距离来确定权重。

<B2>

在上述<B1>中，实际上对字符图像的外接矩形的宽度或相邻候选切出位置之间的距离进行加权。在该情况下，内部空白较大的字符可能具有比所需更大的权重。

例如，如图18所示，如果在字符内切出距离1810中选择较大空白字符，则权重将比所需的大。在图18的实例中，字符内切出距离1810中图像“1 1”的字符识别结果可能示出为“イ”。在该情况下，由于权重值增加，因此可以选择“1 1”作为一个字符(即，字符识别结果可能示出为“イ”)。

另外，如果字符段彼此覆盖，则权重比所需的要小，如图19中实例所示，如果字符段的外接矩形彼此叠加，由于被分割成两个更小字符段的字符段权重值增加，因此字符段更可能是“I”和“I”，而不是“II”(罗马数字的2)。换句话说，由于外接矩形宽度1910和外接矩形宽度1920的和超过字符内切出距离1930，因此各个字符段的切出位置更可能被用作字符切出位置。

因此，基于字符(相邻候选切出位置之间的图像)内的字符段外接矩形的尺寸(横向书写字符串的宽度或纵向书写字符串的高度)来确定权重。

如果字符内存在多个字符段，可以基于字符段的外接矩形的尺寸之和来确定权重。

如图20A、图20B和图20C所示，“イ”的宽度对应于10像素，“ヒ”的宽度对应于20像素，“学”的宽度对应于40像素而“化”的宽度对应于40像素。一个字符段与另一字符段之间的空白的宽度对应于10像素。在该情况下，图20D至图20G中的实例示出图案中弧线估算值的权重。换句话说，字符段的外接矩形的宽度(如果有多个字符段则为宽度之和)变为权重。

图21是示出权重确定模块310的模块构造的实例的说明性视图。

权重确定模块310包括字符块提取模块2110和字符块宽度计算模块2120。

字符块提取模块2110与字符块宽度计算模块2120连接，并且在相邻候选切出位置之间提取字符段(像素块)。例如，可以提取4个一串或8个一串的像素块作为字符段。另外，可以截取字符在横向上轮廓。换句话说，计算横向上具有多个黑色象素的直方图。另外，可以使用黑色像素直方图来提取字符段。

字符块宽度计算模块2120与字符块提取模块2110连接，并且通过计算由字符块提取模块2110提取的字符段的外接矩形的尺寸来确定权重。

下面，参考图22描述本实施例的图像处理装置的硬件配置的实例。图22中所示的硬件配置由例如个人计算机(PC)等构成，该计算机包含诸如扫描仪等数据读取单元2217、诸如打印机等数据输出单元2218。

中央处理单元(CPU)2201是根据以上实施例所述的各种模块，诸如字符串提取模块120、切出位置提取模块130、候选字符提取模块140、图生成模块150、链接值生成模块160和路径选择模块170等的执行序列所述的计算机程序来执行处理的控制器。

只读存储器(ROM)2202存储由CPU 2201使用的程序和操作参数等。随机存取存储器(RAM)2203存储由CPU 2201执行的程序，以及执行过程中适当地进行改变的参数等。这些存储器经由诸如CPU总线等主机总线2204来相互连接。

主机总线2204经由桥接器2205与诸如外围部件互连/接口(PCI)总线等外部总线2206连接。

诸如键盘2208和鼠标等点击装置2209是操作员操作的输入装置。诸如液晶显示装置和阴极射线管(CRT)等显示器2210将各种信息显示成文字信息或图像信息。

硬盘驱动器(HDD)2211包括硬盘，并且驱动硬盘记录或再现由CPU2201执行的程序或信息。硬盘存储所接收的图像、字符识别结果和图结构等。另外，硬盘存储诸如数据处理程序等各种计算机程序。

驱动器2212从安装在其上的诸如硬盘、光盘、磁光盘和半导体存储器等可移动记录介质2213中读取记录在该介质2213中的数据或程序，并且将所读取的数据或程序经由接口2207、外部总线2206、桥接器2205和主机总线2204提供给RAM 2203。可移动记录介质2213还可以用作像硬盘一样的数据记录区。

连接端口2214是与外部连接装置2215连接的端口，并且包括诸如USB或IEEE 1394等连接单元。连接端口2214还经由接口2207、外部总线2206、桥接器2205和主机总线2204等与CPU 2201等连接。通信单元2216与网络连接，用于与外部进行数据通信。数据读取单元2217为例如用于读取文档的扫描仪。数据输出单元2218为例如用于输出文档数据的打印机。

图22中所示的图像处理装置的硬件配置是配置实例，并且本实施例不限于图22中所示的硬件配置，而可以是能够执行本实施例所述的模块的任何配置。例如，一些模块可以构造成专用硬件(例如，ASIC(特定用途集成电路)等)，一些模块可以是外部系统并且经由通信链接来连接，另外，图22中所示的多个系统可以经由通信链接而相互连接以便相互之间进行协作。另外，该硬件配置可以装配在复印机、传真机、扫描仪、打印机、多功能复印机(具有扫描仪、打印机、复印机和传真机等功能中的两种或多种功能的图像处理装置)等之中。

尽管上述实施例中以日文字符作为对象进行说明，但对象也可以是中文字符和英文字符等。

上述实施例中，以横向书写的字符串为前提，起始点位于左侧并且终点位于右侧。然而，本说明书的内容可以等效地应用于竖向书写的字符串或右至左书写的字符串。例如，对于竖向书写的字符串，“左”和“右”可以分别变成“上”和“下”。对于右至左书写的字符串，“左”和“右”可以分别变成“右”和“左”。

另外，本实施例中使用的等式可以包括其等同形式。“等同形式”可以包括对等式的最终结果和算法方案等没有影响的变形等式。

上述程序可以存储并提供在记录介质中，或者可以由通信装置提供。在该情况下，例如上述程序可以理解为“记录有程序的计算机可读记录介质”的发明。

“记录有程序的计算机可读记录介质”涉及用于对程序进行安装、执行和分配等的记录有程序的计算机可读记录介质。

记录介质可以包括，例如数字化多功能光盘(DVD)，诸如作为DVD论坛制定的标准的“DVR-R、DVD-RW和DVD-RAM等”，以及制定为DVD+RW标准的“DVD+R和DVD+RW等”；光盘(CD)，诸如只读存储器(CD-ROM)、CD可记录光盘(CD-R)或CD可擦写光盘(CD-RW)等；蓝光光盘；磁光光盘(MO)；软盘(FD)；磁带；硬盘；只读存储器(ROM)；电可擦除只读存储器(EEPROM

)；闪存；以及随机存取存储器(RAM)等。

程序或程序的一部分可以记录在用于存储和分配的记录介质中。另外，程序或程序的一部分可以经由通信装置，例如诸如用于局域网(LAN)、城域网(MAN)、广域网(WAN)、因特网、企业内部互联网和企业外部互联网等及其组合的无线网络或有限网络等传输装置，来进行传输，或者可以使用载波来承载。

程序可以为其它程序的一部分或者可以与独立的程序一起记录在记录介质中。另外，可以将程序分开记录在多个记录介质中。另外，只要程序能够再现，程序可以以包括压缩和加密等在内的任何方式来存储。

出于示例和说明的目的提供了本发明的示例性实施例的上述说明。其意图不在于穷举或将本发明限制为所公开的确切形式。显然，对于本领域的技术人员而言许多修改和变型是显而易见的。选择和说明实施例是为了最佳地解释本发明的原理及其实际应用，从而使得本领域的其他人员能够理解各种实施例的发明和适合于特定预期应用的各种修改。其目的在于用所附权利要求书及其等同内容来限定本发明的范围。

Claims

1.一种图像处理装置，包括：

切出位置提取单元，其提取切出位置以从图像中分割字符图像；

候选字符提取单元，其为每个由所述切出位置提取单元提取的切出位置所分割的字符图像识别每个字符，并且为每个被识别的字符提取多个候选字符；

图生成单元，其将由所述候选字符提取单元提取的多个候选字符中的每一个设定为节点，并且通过在相邻字符图像的节点之间建立链接来生成图；

链接值生成单元，其基于字符串罩的值来生成链接值，所述字符串罩的值表示通过链接而连接的节点的候选字符之间的关系；

路径选择单元，其基于由所述链接值生成单元生成的链接值在由所述图生成单元生成的图中选择路径；以及

输出单元，其输出所述路径选择单元选择的路径中的候选字符串，作为所述图像处理装置的字符识别结果。

2.根据权利要求1所述的图像处理装置，其中，

在处理过程中，所述路径选择单元使用动态编程方法基于链接值之和来选择路径，同时删除和减少路径。

3.根据权利要求1或2所述的图像处理装置，其中，

所述链接值生成单元基于表示构成链接的节点的字符罩的值，来生成链接值。

4.根据权利要求1或2所述的图像处理装置，其中，

所述切出位置提取单元提取多个切出位置，

所述图生成单元将多个候选字符中的每一个设定为节点，为由所述切出位置提取单元提取的多个切出位置所分割的每个字符图像识别出多个候选字符中的每一个候选字符；以及

所述图生成单元通过在相邻字符图像的节点之间建立链接来生成图。

5.一种图像处理方法，包括：

提取切出位置以从图像中分割字符图像；

为由所提取的切出位置分割的每个字符图像识别每个字符；

为每个被识别的字符提取多个候选字符；

将所提取的多个候选字符中的每一个设定为节点；

通过在相邻字符图像的节点之间建立链接来生成图；

基于字符串罩的值来生成链接值，所述字符串罩的值表示通过链接而连接的节点的候选字符之间的关系；

基于所生成的链接值在所生成的图中选择路径；以及

输出所选择路径中的候选字符串，作为所述图像处理方法的字符识别结果。