CN101425141B

CN101425141B - 图像识别装置和图像识别方法

Info

Publication number: CN101425141B
Application number: CN2008101749820A
Authority: CN
Inventors: 藤井勇作; 藤本克仁; 武部浩明; 田中宏; 堀田悦伸; 皆川明洋; 小泽宪秋
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-10-31
Filing date: 2008-10-31
Publication date: 2012-06-13
Anticipated expiration: 2028-10-31
Also published as: JP5253788B2; CN101425141A; US8234254B2; US20090110280A1; JP2009110445A

Abstract

图像识别装置、图像识别程序和图像识别方法。一种图像识别方法，该方法针对将各字符串分别描述为构成逻辑结构的多个逻辑元素的图像，并基于以对应于该逻辑结构的方式设置的逻辑结构模型来识别各逻辑元素，该方法包括以下步骤：收集关于待利用该逻辑结构模型处理的逻辑结构的图像的信息；在以对应于新逻辑结构的方式将该逻辑结构模型更新为新逻辑结构模型时，通过以更新后的逻辑结构模型来处理收集的信息而获得在基于更新后的结构模型针对与更新前的逻辑结构模型相对应的逻辑结构的图像进行识别时的识别结果；比较在利用更新前的逻辑结构模型处理所收集的信息时的识别结果是否和根据更新后的逻辑结构模型所获取的识别结果相匹配；并且在比较的结果为不匹配的情况下，向输出单元输出表示关于更新后的逻辑结构模型的警告的警告信息。

Description

图像识别装置和图像识别方法

技术领域

本发明涉及图像识别装置、图像识别程序、和图像识别方法。

背景技术

近年来，随着业务的计算机化，使用了大量的电子文档。由于这个原因，图像识别技术(例如OCR(光学字符读取器或光学字符识别))作为将纸件文档转换为电子文档的技术的重要性正在与日俱增。

这里，为了利用这种图像识别技术识别文档，有必要以对应于要作为识别对象的文档的逻辑结构的方式设置一般逻辑结构模型。例如，在由于出现了新客户而需要处理新的票据的情况下，以对应于新的逻辑结构的方式来更新该一般逻辑结构模型。

在JP-A-2006-352290中，公开了这样一种技术，即，连接到通信仪器的场景编制装置(scenario compilation apparatus)基于该通信仪器在运行中实际发送和接收的信号来编制用于测试该通信仪器的场景。

然而，以上公知技术存在着无法使用户避免发生因更新一般逻辑结构模型所带来的不便的问题。也就是说，如果没有适当地执行一般逻辑结构模型的更新，则存在停止顺利地识别已有文档的风险，而且如果用户在开始操作时没有注意到这个问题，则可能引起故障。

发明内容

根据一个实施方式的一方面，一种图像识别方法，该方法针对将各字符串描述为构成逻辑结构的多个逻辑元素的每一个的图像，基于以对应于该逻辑结构的方式设置的逻辑结构模型来识别各逻辑元素，该方法包括以下步骤：收集关于待利用逻辑结构模型处理的逻辑结构的图像的信息；在以对应于新逻辑结构的方式将该逻辑结构模型更新为新逻辑结构模型时，通过利用所述更新后的逻辑结构模型来处理所收集的所述信息而获得基于所述更新后的逻辑结构模型针对与所述更新前的逻辑结构模型相对应的逻辑结构的图像所识别的识别结果；比较在利用更新前的逻辑结构模型处理所收集的信息时的识别结果是否和根据更新后的逻辑结构模型所获取的识别结果相匹配；并且在比较的结果为不匹配的情况下，向输出单元输出表示关于更新后的逻辑结构模型的警告的警告信息。

附图说明

图1是例示根据第一实施方式的图像识别装置的概要和特征的图；

图2是示出根据第一实施方式的图像识别装置的构成的框图；

图3是例示票据图像存储单元的图；

图4A和图4B是例示一般逻辑结构模型存储单元的图；

图5是例示逻辑结构识别结果存储单元的图；

图6A和图6B是例示测试输入数据存储单元的图；

图7是例示更新后的一般逻辑结构模型存储单元的图；

图8A和图8B是例示更新后的一般逻辑结构模型存储单元的图；

图9是例示更新后的一般逻辑结构模型存储单元的图；

图10是例示逻辑结构识别结果比较结果存储单元的图；

图11是例示逻辑结构识别结果比较结果存储单元的图；

图12是例示警告输出单元的图；

图13是示出根据第一实施方式的图像识别装置的处理过程的流程图(操作阶段)；

图14是示出根据第一实施方式的图像识别装置的处理过程的流程图(验证阶段)；

图15A和图15B是例示第二实施方式中测试输入数据收集定时的图；

图16是例示根据第三实施方式的图像识别装置的图；以及

图17是示出执行图像识别程序的计算机的图。

具体实施方式

在下文中，将参照附图给出图像识别装置、图像识别程序和图像识别方法的详细说明。在下文中，将就实施方式中使用的主要术语、根据第一实施方式的图像识别装置的概要和特征、根据第一实施方式的图像识别装置的构造和处理过程和第一实施方式的优点进行说明，之后是对其它实施方式的说明。

术语说明

首先，将对以下实施方式中所使用的主要术语进行说明。在以下实施方式中使用的“图像”是其中各个字符串分别被描述成构成预定逻辑结构的多个逻辑元素的图像，并且例如可以是票据图像(form image)。这里，票据图像可以具有用于填入“姓名”、“地址”和“电话号码”等个人信息的项，和用于填入“地址”、“电话号码”等工作场所信息的项，其中在各项中描述了各个字符串。在这种票据图像中，逻辑结构是指这样的结构，即，“全名”、“地址”和“电话号码”位于“个人信息”的下方层级，“地址”和“电话号码”位于“工作场所信息”的下方层级，并且“个人信息”层级和“工作场所信息”层级位于同一层级。此外，“全名”、“地址”和“电话号码”等是构成逻辑结构的多个逻辑元素。换句话说，例如可以说，以这样的方式设置逻辑结构和逻辑元素，即，在由编制票据图像格式的编制器编制相关票据图像的格式时，将逻辑结构设置为由多个项所形成的结构(不论是否是有意的还是无意的)，并且将该多个项设置为逻辑元素。同时，当图像识别装置执行相关票据图像的处理时，将票据图像中的由多个项所形成的结构作为逻辑结构来处理，并且将该多个项作为逻辑元素来处理。图像并不限于票据图像。任何图像都是可接受的，只要该图像是其中在多个项的每一项中都描述了各个字符串的图像(例如，针对多个问题中的每一个填入答案的调查问卷图像)。

然而，根据第一实施方式的图像识别装置基于以对应于预定逻辑结构的方式设置的一般逻辑结构模型来识别图像中的各逻辑元素。这里，以对应于这样的结构的方式设置一般逻辑结构模型，即，该结构为“全名”、“地址”和“电话号码”位于“个人信息”的下方层级，“地址”和“电话号码”位于“工作场所信息”的下方层级，并且“个人信息”层级和“工作场所信息”层级处于同一层级。另外，在一般逻辑结构模型中，可以将位置关系等设置成将“工作场所信息”描述为处于“个人信息”下方。

基于这种一般逻辑结构模型，图像识别装置通过识别各字符串和各逻辑元素之间的对应关系来识别图像的各逻辑元素。例如，图像识别装置通过这样的方式来识别该票据图像的逻辑元素，即，采用例如OCR的图像识别技术将手写字符串识别为“Patent Taro”，识别到基于一般逻辑结构模型将该字符串“Patent Taro”描述为逻辑元素“姓名”，并且识别到字符串“Patent Taro”与逻辑元素“全名”之间的相关性。在以下的实施方式中，根据需要将此类识别称为“逻辑结构识别”或“对逻辑结构进行识别”。

当然，无法以对应于每种逻辑结构的方式设置如前所述的以对应于预定逻辑结构的方式设置的一般逻辑结构模型。因此，一旦该一般逻辑结构模型所对应的逻辑结构发生变化，则要以对应于改变后的逻辑结构的方式更新该一般逻辑结构模型。例如，如果客户端已经开始处理除模板α之外的模板β，则以还对应于模板β的方式更新已经以对应于模板α的方式设置的一般逻辑结构模型。然而，在这种情况下，如果没有适当地执行对一般逻辑结构模型的更新，则存在不能再顺利地识别先前存在的模型即模板α的风险。如果用户在没有注意到未适当地执行更新的情况下开始操作，则可能会出现故障。根据第一实施方式的图像识别装置使用户能够避免发生伴随一般逻辑结构模型的更新而带来的这种不便。

根据第一实施方式的图像识别装置的概要和特征

将使用图1对根据第一实施方式的图像识别装置的概要和特征进行说明。图1例示了根据第一实施方式的图像识别装置的概要和特征。

如上所述，根据第一实施方式的图像识别装置体现了基于以对应于预定逻辑结构的方式设置的一般逻辑结构模型、针对将各字符串分别描述为构成预定逻辑结构的多个逻辑元素的图像来识别各逻辑元素的要点，并且具有使用户能够避免发生伴随一般逻辑结构模型的更新而带来的不便的主要特征。

对主要特征进行简单说明，首先，根据第一实施方式的图像识别装置收集待利用预定的一般逻辑结构模型处理的预定逻辑结构图像信息。例如，图像识别装置收集基于更新前的一般逻辑结构模型识别的输入票据图像和识别结果二者作为待以预定的一般逻辑结构模型(更新前的一般逻辑结构模型)处理的模板α的票据的信息(参照图1的标号1)，其中该识别结果是在基于更新前的一般逻辑结构模式识别该票据图像的情况下的识别结果。

下面，在以对应于新的逻辑结构的方式将预定的一般逻辑结构模型更新为新的一般逻辑机构模型(更新后的一般逻辑结构模型)时，图像识别装置通过利用更新后的一般逻辑结构模型来处理所收集的输入票据图像，从而获得基于更新后的一般逻辑结构模型而识别出输入票据图像的情况下的识别结果。

例如，在以对应于模板β的方式更新一般逻辑结构模型时(参照图1中标号2)，通过利用更新后的一般逻辑结构模型来处理所收集的输入票据图像(模板α)(参照图1中标号3)，图像识别装置基于更新后的一般逻辑结构模型从该输入票据图像获取识别结果(参照图1中标号4)。

接着，图像识别装置比较已经利用更新前的一般逻辑结构模型对所收集信息的进行处理而得到的识别结果是否与根据更新后的一般逻辑结构模型的识别结果相匹配。例如，该图像识别装置比较所收集的识别结果是否与根据更新后的一般逻辑结构模型而识别的识别结果相匹配(参照图1中标号5)。

随后，如果比较的结果为不匹配，则图像识别装置向输出单元输出表示关于更新后的一般逻辑结构模型的警告的警告信息。例如，如果比较的结果为不匹配，图像识别装置向图像识别装置的显示器输出警告信息(参照图1中标号6)。

以这种方式，根据第一实施方式的图像识别装置使用户能够避免发生伴随一般逻辑结构模型的更新而带来的不便。即，在将一般逻辑结构模型更新为新的一般逻辑结构模型时，图像识别装置验证是否对更新后的一般逻辑结构模型进行了适当更新，由于图像识别装置在更新后的一般逻辑结构模型没有被适当地更新的情况下可以通过输出警告信息来通知用户，因此用户能够意识到更新后的一般逻辑结构模型没有被适当地更新。

根据第一实施方式的图像识别装置的构造

下面，将利用图2至图12对根据第一实施方式的图像识别装置进行说明。图2是示出根据第一实施方式的图像识别装置的构造的框图。图3是例示票据图像存储单元的图。图4A和图4B是例示一般逻辑结构模型存储单元的图。图5是例示逻辑结构识别结果存储单元的图。图6A和图6B是例示测试输入数据存储单元的图。图7至图9是例示更新后的一般逻辑结构模型存储单元的图。图10和图11是例示逻辑结构识别结果比较结果存储单元的图。图12是例示警告输出单元的图。

如图2所示，根据第一实施方式的图像识别装置10包括输入单元11、输出单元12、输入输出控制I/F单元13、存储单元20和控制器30。这里，图2中以虚线包围的部分是无布局定义体的票据自动识别部。在下文中，首先将对“无布局定义体的票据自动识别(layout field of adefinition-less form automatic recognition)”进行简单的说明。

关于无布局定义体的票据自动识别

到目前为止，为了从通过扫描纸件票据获取的图像数据中提取必要的数据，需要事先定义该票据的布局。即，通过编制说明了在哪个区域写入什么的“布局定义体”，并且通过识别在相关区域中写入的字符串来执行对数据的提取。然而，因为只能由人为编制“布局定义体”，因此作为必需为每一个票据编制“布局定义体”的结果，处理不同的票据可能会产生很高的成本。

由于这个原因，根据第一实施方式的图像识别装置使用了逻辑结构识别技术，该技术使用了一般逻辑结构(或者称之为公共逻辑结构)。利用这种技术，以“一般逻辑结构模型”的格式保存有一般基本知识，并且参照“一般逻辑结构模型”来识别票据的逻辑结构(各个逻辑元素)。在下文中，将这种技术称为无布局定义体的票据自动识别(意味着不需要编制“布局定义体”)。

在“一般逻辑结构模型”中描述了与常识相关的事件(例如，“全名” 由“姓”和“名”这两项数据构成的知识，以及“全名”可以由“假名”和“汉字”两种方法成对表述的知识)。此外，“一般逻辑结构模型”通常是针对各类票据而制定的。例如，可以针对各种票据(例如，装箱单票据或发货单票据)来定义该“一般逻辑结构模型”。这里，理想的是，例如在与装箱单票据相关的“一般逻辑结构模型”中应该包括对所有装箱单票据的正确逻辑结构识别的信息。然而，预先收集所有装箱单票据并且将这些信息包括在“一般逻辑结构模型”中是很困难的。所以，在常规操作中，将“一般逻辑结构模型”定制为与在特定业务中所使用的票据兼容。即，添加或纠正新的标题字符串和数据结构以与在该业务中处理的票据兼容。如果这种添加或纠正是不适当的，则存在无法识别过去能正确识别的票据的风险。

然而，“无布局定义体的票据自动识别”接受票据图像作为输入，并且计算票据逻辑结构(识别的各个逻辑元素)作为输出。即，在输入票据图像时，“无布局定义体的票据自动识别”执行布局分析和该票据图像的字符识别，利用布局分析结果和字符识别结果执行逻辑结构识别，并且输出票据逻辑结构。

在根据第一实施方式的图像识别装置中，“无布局定义体的票据自动识别”具有两个阶段。首先，在常规无布局定义体的票据自动识别操作阶段(阶段1)中，图像识别装置分析输入票据图像的逻辑结构(以电子图像或PDF方式实现的票据图像)，并且输出票据逻辑结构。此外，在阶段1中，图像识别装置根据需要成对收集与票据图像相对应的票据图像和识别结果(票据逻辑结构)。同时，在一般逻辑结构模型验证阶段(阶段2)中，图像识别装置停止常规操作，并且执行一般逻辑结构模型的维护。具体地说，图像识别装置利用更新后的一般逻辑结构模型来执行在操作阶段中所收集的票据图像的无布局定义体的票据自动识别。接着，图像识别装置将根据更新后的一般逻辑结构模型的识别结果与在操作阶段收集的识别结果进行比较，并且确认已经获得了相同的结果。如果取得大意上是说两个识别结果为不同的结果，则图像识别装置警告：一般逻辑结构模型的更新正在影响到目前为止的输入票据图像的逻辑结构识别结果。

关于各单元

输入单元11是输入票据图像的单元。具体地说，输入单元11输入作为图像识别装置10的识别对象的票据图像，并且将该票据图像存储在票据图像存储单元21中。在这种情况下，输入单元11例如可以是扫描装置。另外，输入单元11是输入用户确认图像识别装置10的识别结果等的操作的单元。在这种情况下，输入单元11例如可以是鼠标、键盘等。

输出单元12是输出图像识别装置10的识别结果、识别结果比较结果等的单元。具体地说，输出单元12输出由警告输出单元37(将在下文中进行说明)输出的识别结果比较结果(该比较结果存储在逻辑结构识别结果比较结果存储单元26(在将在下文中进行说明)中)。例如，输出单元12(可以是显示器、通信单元等)在显示器上显示警告信息，并且经由通信单元将警告信息发送到预定的邮件地址等。输出单元12对应于在权利要求中描述的“输出单元”。

输入输出控制I/F单元13是控制输入单元11和输出单元12之间、以及存储单元20和控制器30之间的数据传输的单元。

存储单元20存储用于控制器30的每个处理的数据，并且如图2所示，该存储单元包括票据图像存储单元21、一般逻辑结构模型存储单元22、逻辑结构识别结果存储单元23、测试输入数据存储单元24、更新后的一般逻辑结构模型存储单元25和逻辑结构识别结果比较结果存储单元26，这些单元与本实施方式尤其紧密相关。

票据图像存储单元21是存储图像识别装置10采用的识别对象的票据图像的单元。具体地说，票据图像存储单元21存储由输入单元11(扫描装置等)输入的票据图像。在布局分析单元31、字符识别单元32和逻辑结构识别单元33的处理中用到了所存储的票据图像，这些单元都将在下文中进行说明。例如，票据图像存储单元可以存储图3中所示的那种票据图像。

回到图2，一般逻辑结构模型存储单元22是存储在图像识别装置10识别各个逻辑元素时使用的一般逻辑结构模型的单元。具体地说，一般逻辑结构模型存储单元22存储用于识别存储在票据图像存储单元21中的票据图像的各个逻辑元素的一般逻辑结构模型，并且所存储的一般逻辑结构模型用于逻辑结构识别单元33(将在下文中进行说明)的处理中。一般逻辑结构模型存储单元22存储由使用图像识别装置10等的用户预先制定的一般逻辑结构模型(例如，由用户等适当地设计了逻辑结构和逻辑元素的一般逻辑结构模型)。

这里，通过提供具体示例来对由一般逻辑结构模型存储单元22所存储的一般逻辑结构模型进行说明，一般逻辑结构模型存储单元22例如将图4A和图4B所示的一般逻辑结构模型存储为一般逻辑结构模型。在图4A中在概念上以树形结构实现的图4A和图4B所示的一般逻辑结构模型实际上是以图4B所示的表单结构来存储的。

一般逻辑结构模型由在图4B所示的表单的每一行中描述的各类逻辑元素构成，即，按从左到右的顺序描述了逻辑元素ID号、标题字符串、含义、树形结构层级、树形结构父ID号、逻辑元素之间的位置关系、属性和数据字符串的细节。在这些细节中，通过参照图3中的“购买申请表”可以看出，作为票据图像中的项目标题而写成的字符串被描述为标题字符串。位置关系说明了在逻辑元素之间的相对位置，该位置关系可以例如表示“姓”项在其紧邻右边具有“ID＝8”的“名”项。在属性下，将在树形结构中具有实体的项描述为“节点”，而将不具有实体并且集合了含义相关的组的项描述为“组”。另外，针对每个节点描述了对应的字符串应该满足的字符条件。例如，可以针对“电话号码”将字符类型限定为“数字”和“连字符”。

回到图2，逻辑结构识别结果存储单元23是存储识别票据图像的各逻辑元素的结果的单元。具体地说，逻辑结构识别结果存储单元23存储由逻辑结构识别单元33(将在下文进行说明)识别的结果，并且所存储的识别结果用于测试输入数据收集单元34(将在下文进行说明)的处理中。

这里，为对由逻辑结构识别结果存储单元23存储的识别结果进行说明，提供了具体示例，逻辑结构识别结果存储单元23例如将图5所示的识别结果作为识别结果进行存储。图5所示的识别结果示出了识别各类逻辑元素的字符串的识别结果，和识别各字符串被描述为哪个逻辑元素的识别结果。

对各逻辑元素进行说明，例如，将位于“个人信息”下的作为“全名”中的“姓”的逻辑元素识别为“Patent”。此外，例如，将位于“申请信息”下的逻辑元素“代码”识别为“16756400”。这里，通过参照图4B可以看出，在一般逻辑结构模型中，在标题字符串是“号”的情况下将逻辑元素“代码”描述为数字串。因此，通过参照图3可以看出，在标题字符串是“号”的情况下将数字串“16756400”等识别为“代码”逻辑元素。这一点同样适用于其它逻辑元素。

回到图2，测试输入数据存储单元24是存储在验证更新后的一般逻辑结构模型时使用的数据的单元。具体地说，测试输入数据存储单元24存储由测试输入数据收集单元34(将在下文进行说明)收集的测试输入数据，并且所收集的测试输入数据用于都将在下文进行说明的布局分析单元31、字符识别单元32和逻辑机构识别单元33的处理中。

这里，为对由测试输入数据存储单元24所存储的测试输入数据进行说明提供了具体示例，测试输入数据存储单元24将例如图6A和图6B中所示的数据作为测试输入数据进行存储。关于图6A和图6B所示的测试输入数据，其中图6A是输入票据图像，而图6B是票据图像逻辑结构识别结果。

回到图2，更新后的一般逻辑结构模型存储单元25是存储更新后的一般逻辑结构模型的单元。具体地说，在另一未示出的系统中更新一般逻辑结构模型时，更新后的一般逻辑结构模型存储单元25通过由相关系统将更新后的一般逻辑结构模型写入而将其存储，并且所存储的更新后的一般逻辑结构模型用于逻辑结构识别单元33(将在下文进行说明)的处理中。

这里，将对更新一般逻辑结构模型的其它系统进行说明。该其它系统例如是一般逻辑结构模型编辑系统，该一般逻辑结构模型编辑系统利用更新前的一般逻辑结构模型对输入票据图像执行无布局定义体的票据自动识别。通过向用户展示其结果，用户以输出预期识别结果(始终是与输入票据图像相关的预期识别结果)的方式编辑和更新该一般逻辑结构模型。可以将这种系统包括在图像识别装置10中，或者，如在第一实施方式中那样，可以以将该系统连接至图像识别装置10的方式布置该系统。

想象一个使用一般逻辑结构模型编辑系统的情形，可以将这个情形例如想象为：新的客户加入，因此必须处理新的票据图像。在这种情况下，一般逻辑结构模型编辑系统的用户输入新的票据图像，并且以输出与新的票据图像相关的预期识别结果的方式编辑一般逻辑结构模型。

例如，用户输入图7所示的新的票据图像，并且编辑如图8A和图8B中所示的一般逻辑结构模型。这里，通过参照和比较图3和图7可以看出，图3中的票据图像中位于“姓名”上方的“参考号”在图7的新的票据图像中与标题字符串“号”一起位于该票据图像的右上方。此外，图3的票据图像中与标题字符串“号”写在一起的“代码”逻辑元素的数字串在图7的新的票据图像中是没有标题字符串的数字串的列表。对应于此类差异，以图8A和图8B中所示的方式来更新一般逻辑结构模型。如图8A所示，尽管在树形结构中没有变化，但以图8B中阴影部分所示的方式来更新该更新后的逻辑结构模型。具体地说，通过将“号”添加至是逻辑元素“参考号”的标题字符串，用户尝试识别图7中的参考号。另外，尽管没有标题字符串，但是如果图7中的“代码”是“8位数字串”，则用户尝试通过将其识别为逻辑元素“代码”而识别图7中的代码。

图9示出了一般逻辑结构模型编辑系统利用图8A和图8B中所示的更新后的一般逻辑结构模型来识别图7中的新的票据图像的情况的识别结果。如图9所示，将与标题字符串“号”写在一起的“29”识别为逻辑元素“参考号”，并且将“8位数字串”识别为逻辑元素“代码”。一般逻辑结构模型编辑系统的用户检查如图9所示的识别结果输出，确定该输出为预期识别结果，并且结束对一般逻辑结构模型的编辑。

在第一实施方式中，当在一般逻辑结构模型编辑系统中完成对一般逻辑结构模型的编辑时，将更新后的一般逻辑结构模型存储在图像识别装置10的更新后的一般逻辑结构模型存储单元25中。因此，更新后的一般逻辑结构模型存储单元25例如存储图8B中所示的更新后的一般逻辑结构模型。

回到图2，逻辑结构识别结果比较结果存储单元26是存储对利用更新前的一般逻辑结构模型处理的识别结果和利用更新后的一般逻辑结构模型处理的识别结果进行比较的结果的单元。具体地说，逻辑结构识别结果比较结果存储单元26在存储由一般逻辑结构模型更新检测单元35(将在下文进行说明)根据更新后的一般逻辑结构模型获取的识别结果情况下的识别结果的同时，还存储由逻辑结构识别结果比较单元36(将在下文进行说明)进行比较时的比较结果。所存储的比较结果用于将在下文进行说明的警告输出单元37的处理中。

例如，逻辑结构识别结果比较结果存储单元26在存储基于更新后的一般逻辑结构模型识别先前票据图像(图6A)的识别结果(图10)的同时，还存储对存储在测试输入数据存储单元24中的识别结果(图6B)与前述识别结果(图10)进行比较的结果。

回到图2，控制器30是控制图像识别装置10执行各种不同类型处理的单元，并且如图2所示，该控制器30包括布局分析单元31、字符识别单元32、逻辑结构识别单元33、测试输入数据收集单元34、一般逻辑结构模型更新检测单元35、逻辑结构识别结果比较单元36和警告输出单元37，这些单元都与本实施方式非常紧密地相关。测试输入数据收集单元34对应于在权利要求中描述的“收集单元”，一般逻辑结构模型更新检测单元35对应于在权利要求中描述的“更新后识别结果获取单元”，逻辑结构识别结果比较单元36对应于在权利要求中描述的“比较单元”，并且警告输出单元37对应于在权利要求中描述的“警告输出单元”。

布局分析单元31是分析票据图像的布局的单元。具体地说，布局分析单元31分析存储在票据图像存储单元21中的票据图像的布局，并且布局分析结果用于逻辑结构识别单元33(将在下文进行说明)的处理中。例如，布局分析单元31检索存储在票据图像存储单元21中的票据图像(图3等)，并且分析其中存在表单、行、文本块、图、和图章的位置。

字符识别单元32是识别票据图像的字符串的单元。具体地说，字符识别单元32识别存储在票据图像存储单元21中的票据图像的字符串，并且字符串识别结果用于逻辑结构识别单元33(将在下文进行说明)的处理中。例如，字符识别单元32检索存储在票据图像存储单元21中的票据图像(图3等)，识别存在于票据图像中的字符串，并且输出对应于各字符的字符码。

逻辑结构识别单元33是识别各字符串表示哪个逻辑元素的单元。具体地说，逻辑结构识别单元33使用来自布局分析单元31的分析结果、来自字符识别单元32的识别结果、和存储在一般逻辑结构模型存储单元22中的一般逻辑结构模型(图4B等)来识别各字符串表示哪个逻辑元素，并且在逻辑结构识别结果存储单元23中存储识别结果(图5等)。

测试输入数据收集单元34收集利用一般逻辑结构模型处理的票据图像的信息。具体地说，测试输入数据收集单元34在预定的定时，将存储在票据图像存储单元21中的票据图像和存储在逻辑结构识别结果存储单元23中的识别结果以成对方式存储到测试输入数据存储单元24中，作为对应于该票据图像的识别结果。由使用图像识别装置10的用户等按需要来设置测试输入数据收集单元34成对收集票据图像和识别结果的定时(该定时可以根据需要进行调整以适应于操作情形等)。

例如，测试输入数据收集单元34监视票据图像存储单元21和逻辑结构识别结果存储单元23，并且检测对无布局定义体的票据自动识别计算的开始(启动布局分析单元31和字符识别单元32的处理)和结束(结束逻辑结构识别单元33的处理)。接着，测试输入数据收集单元34通过利用计数器(未示出)对无布局定义体的票据自动识别操作进行计数(计数器保存无布局定义体的票据自动识别操作的数量)。当操作数量满足预定条件时，测试输入数据收集单元34存储此时正在测试输入数据存储单元24中使用的票据图像和逻辑结构识别结果的配对。这里，将预定条件例如设置为无布局定义体的票据自动识别的每n个操作。此外，可以考虑针对存储(收集)信息的定时的各种不同的条件(例如，将计数器变为定时器并且每n秒进行一次存储，或者使用计数器和定时器二者以记录在时间t的空闲状态后的前n项)。任何条件都是可以接受的，只要该条件适合于操作状况。尽管在第一实施方式中说明了收集票据图像和其逻辑结构识别结果的配对作为测试输入数据的方法，但并不限于该方法。收集票据图像和一般逻辑结构模型二者，或只收集票据图像等也是可以接受的。

当更新一般逻辑结构模型时，一般逻辑结构模型更新检测单元35基于更新后的一般逻辑结构模型获取已识别的过去票据图像的识别结果。具体地说，在检测一般逻辑结构模型的更新时，一般逻辑结构模型更新检测单元35将更新后的一般逻辑结构模型写入更新后的一般逻辑结构模型存储单元25，基于存储在更新后的一般逻辑结构模型存储单元25中的更新后的一般逻辑结构模型(图8等)，来识别(利用布局分析单元31、字符识别单元32和逻辑结构识别单元33，再次执行识别)存储在测试输入数据存储单元24中的先前票据图像(图6A等)，并且在逻辑结构识别结果比较结果存储单元26中存储识别结果(图10等)。也可以通过一般逻辑结构模型编辑系统来将对一般逻辑结构模型更新的检测通知给一般逻辑结构模型更新检测单元35。

这里，通过观察图10中的识别结果可以看出，将原本应该在图9中识别为逻辑元素“代码”的“8位数字串”全都识别成了“参考号”。再次观察更新后的一般逻辑结构模型(图8B)，不一致地将“号”作为标题字符串登记了两次。即，存在针对更新前的一般逻辑结构模型中的逻辑元素“代码”的“号”和针对更新后的一般逻辑结构模型中的逻辑元素“参考号”的“号”。因为以这种不一致的方式登记了多个“号”输入，可以想到的是，在基于图8B的一般逻辑结构模型来识别图3中的票据图像时，错误地将所有紧跟在标题字符串“号”后面的8位数字串都识别为逻辑元素“参考号”。

这类更新是不适当的更新，存在不熟悉更新前的一般逻辑结构模型(或票据图像)的用户尝试执行一般逻辑结构模型的更新时出现此类不适当的更新的风险。

回到图2，逻辑结构识别结果比较单元36比较根据更新前的一般逻辑结构模型的识别结果是否与根据更新后的一般逻辑结构模型的识别结果相匹配。具体地说，逻辑结构识别结果比较单元36将存储在测试输入数据存储单元24中的根据更新前的一般逻辑结构模型的识别结果存储在逻辑结构识别结果比较结果存储单元26中，并且将该识别结果与已经存储在逻辑结构识别结果比较结果存储单元中26中的根据更新后的一般逻辑结构模型的识别结果进行比较。

如果存储在测试输入数据存储单元24中的测试输入数据是票据图像和一般逻辑结构模型，则逻辑结构识别结果比较单元36只要利用相关票据图像和一般逻辑结构模型来通过更新前的一般逻辑结构模型执行票据图像的逻辑结构识别，从而获取作为比较对象的逻辑结构识别结果即可。此外，如果存储在测试输入数据存储单元24中的测试输入数据仅是票据图像的数据，则对于逻辑结构识别结果比较单元36来说，在更新后存储单元等接收到由一般逻辑结构模型编辑系统编辑的更新后的一般逻辑结构模型时，只要同时接受更新前的一般逻辑结构模型即可。这样，如到目前为止所说明的，该情形与将票据图像和一般逻辑结构模型作为测试输入数据使用的情况相同。

如果比较的结果为不匹配，则警告输出单元37输出表示关于更新后的一般逻辑结构模型的警告的警告信息。具体地说，如果由逻辑结构识别结果比较单元36进行的比较的结果是不匹配，则警告输出单元37向输出单元12输出警告信息。

例如，如图12所示，警告输出单元37向用户呈现在一般逻辑结果模型中描述的、与比较结果中不一致的地方(“参考号”和“代码”)相对应的地方(“号”等)。在这种情况下，用户能够确定应该在一般逻辑结构模型中改正的地方，并且开始改正操作(例如通过这样的方式来得知在一般逻辑结构模型中与比较结果中不一致地方相对应的地方，即，搜索在比较结果中不一致地方中的标题字符串的定义被描述在一般逻辑结构模型中的何处)。也可以接受的是，警告输出单元37通过向输出单元12输出当比较结果不一致时的票据图像并呈现给用户来阐明在改正一般逻辑结构模型时需要注意的票据图像。或者，也还可以接受的是，警告输出单元37将警告信息发送给一般逻辑结构模型编辑系统等。

根据第一实施方式的图像识别装置的处理过程

下面，将利用图13对根据第一实施方式的图像识别装置的处理过程进行说明。图13是示出根据第一实施方式的图像识别装置的处理过程(操作阶段)的流程图，而图14是示出根据第一实施方式的图像识别装置的处理过程(验证阶段)的流程图。

操作阶段(图13)

首先，在接收到票据图像的输入时(步骤S130：是)，图像识别装置10将该输入存储在票据图像存储单元21中。接着，布局分析单元31分析存储在票据图像存储单元21中的票据图像的布局(步骤S131)。

接着，字符识别单元32识别存储在票据图像存储单元中的票据图像的字符串(步骤S132)。然后，逻辑结构识别单元33从一般逻辑结构模型存储单元22中检索一般逻辑结构模型(步骤S133)，执行逻辑结构识别(步骤S134)，并且将识别结果存储在逻辑结构识别结果存储单元23中(步骤S135)。

然后，测试输入数据收集单元34对无布局定义体的票据自动识别操作的数量进行计数(步骤S136)，并且确定票据自动识别操作的数量是否已经满足预定条件(步骤S137)。如果已经满足预定条件(步骤S137：是)，测试输入数据收集单元34将相关票据图像的识别结果和在无布局定义体的票据自动识别中使用的当前票据图像存储在测试输入数据存储单元24中(步骤S138)。同时，如果尚未满足预定条件(步骤S137：否)，则测试输入数据收集单元34直接结束处理。

验证阶段(图13和图14)

首先，在一般逻辑结构模型更新检测单元35检测到一般逻辑结构模型的更新时(步骤S140：是)，图像识别装置10执行无布局定义体的票据自动识别(步骤S141)。

步骤S141与图13中的步骤S131和S135相同，但是将对以下差异(例如，执行该处理的单元、对象数据等)进行说明。首先，布局分析单元31分析存储在测试输入数据存储单元24中的票据图像的布局(步骤S131)，字符识别单元32识别存储在测试输入数据存储单元24中的票据图像的字符串(步骤S132)，并且逻辑结构识别单元33从更新后的一般逻辑结构模型存储单元25中检索更新后的一般逻辑结构模型(步骤S133)，执行逻辑结构识别(步骤S134)，并且在逻辑结构识别结果比较结果存储单元26中存储该识别结果(步骤S135)。

回到图14，逻辑结构识别结果比较单元36将存储在测试输入数据存储单元24中的更新前逻辑结构识别结果与存储在逻辑结构识别结果比较结果存储单元26中的更新后逻辑结构识别结果进行比较(步骤S142)。

接着，如果比较的结果为不匹配(步骤S143:否)，警告输出单元37在输出单元12中显示警告信息(步骤S144)，并且结束处理。另一方面，如果比较的结果为匹配(步骤S143:是)，则图像识别装置10判断是否已经针对存储在测试输入数据存储单元24中的所有过去票据图像执行了无布局定义体的票据自动识别(步骤S145)，并且如果存在任意过去票据图像的剩余(步骤S145：否)，则返回步骤S141的处理。另一方面，如果不存在过去票据图像剩余(步骤S145：是)，则图像识别装置10结束处理。

第一实施方式的优点

如到目前为止所说明的，根据第一实施方式，可以使用户能够避免发生伴随一般逻辑结构模型的更新而带来的不便。

第二实施方式

到目前为止，在第一实施方式中，已经对其中图像识别装置在操作阶段适当地(在预定的定时)以配对形式收集测试输入数据票据图像和逻辑结构识别结果的方法进行了说明。然而，本发明并不局限于此，收集在更新一般逻辑结构模型时使用的票据图像的方法也是可接受的。作为第二实施方式，将对收集在更新一般逻辑结构模型时使用的票据图像的方法进行说明。

可以这样认为，在出现应该新近处理的票据或者发现逻辑结构不能被正确识别的票据等时，用户更新一般逻辑结构模型。因此，可以这样认为，在输入了操作情形不同于以前输入的票据图像的票据图像时，用户更新一般逻辑结构模型。因此，可以说通过收集这些票据图像来作为测试输入数据，可以全面地测试票据图像。

图15A和图15B是例示在根据第二实施方式的图像识别装置中的测试输入数据收集定时的图。图15A例示了第一实施方式的方法，而图15B例示了第二实施方式的方法。

在以下的说明中如图15A和图15B所示，首先，设为操作是以按照对应于模板α的方式设置的一般逻辑结构模型为开始的。设为在这个时候，已经在一般逻辑结构模型编辑系统中利用模板α的票据x作为输入来编辑了一般逻辑结构模型。此外，随后如图15A所示，在出现应该新近处理的模板β和模板γ时，一般逻辑结构模型按照还对应于各模板的方式采用票据y和票据z作为输入，并且已经在一般逻辑结构模型编辑系统中对该一般逻辑结构模型进行了更新。票据1至5是指操作阶段中输入的票据图像。票据1至3都与模板α相对应，但是在一般逻辑结构模型更新后，与模板β相对应的票据(如票据4)和与模板α相对应的票据(如票据5)均被输入。

根据第一实施方式的方法，图像识别装置在预定的定时收集作为测试输入数据的票据图像。例如，如果预定的定时是每个奇数次，则图像识别装置收集票据1、票据3和票据5作为测试输入数据。然后，在必须更新到与模板γ相对应的一般逻辑结构模型时，测试输入数据全部变成与模板α相对应的数据。在这种情况下，基于以对应于模板γ的方式设置的更新后的一般逻辑结构模型来验证是否正确识别了模板β是不可能的。

于此相反的是，根据第二实施方式的方法，在以对应于新的票据图像的方式更新一般逻辑结构模型时，图像识别装置收集该票据图像作为测试输入数据。例如，如图15B所示，图像识别装置收集票据x和票据y作为测试输入数据。然后，可以针对根据模板γ计算出的每个测试输入数据的所有票据识别结果，来验证必须更新与模板γ相对应的一般逻辑结构模型时的测试输入数据是否与根据模板α或模板β计算出的那些结果相对应。

通常来说理想的是，一般逻辑结构模型的验证不仅根据所有模板来进行验证，而且还根据各票据(那些其上写入了实际字符串的票据)来进行验证。因此，可以接受的是，收集所有票据作为测试输入数据，并且最终地，可以适当地挑选收集的定时以适合于操作情形。

第二实施方式的优点

如前所述，根据第二实施方式，可以有效且全面地收集测试输入数据。

第三实施方式

到目前为止，在第一和第二实施方式中，已经将初始票据图像存储为测试输入数据。然而，为了识别票据图像的逻辑结构，由于只要存在被输入到逻辑结构识别单元之前的信息(临时处理数据)就够了，因此没有必要存储初始票据图像。即，如图16所示，代替票据图像，将通过预先处理票据图像而获取的布局分析结果(由布局分析单元31分析的结果)和字符串识别结果(由字符识别单元32识别的结果)存储在测试输入数据24中就够了。例如，图像识别装置只要将“存在表单、行、文本块、图、和图章等的地方的分析结果”(即，布局分析结果)和“字符码”(字符串识别结果)存储为测试输入数据就够了。

以这种方式，通过保存临时处理数据，随后的逻辑结构识别计算时间变得更短，此外，由于数据大小比在保存票据图像自身时要变得更小，因此可以减少存储器容量。

第三实施方式的优点

如前所述，根据第三实施方式，逻辑结构识别计算时间变得更短，此外，可以减少存储器容量。

第四实施方式

其它实施方式

尽管目前已经对本发明的实施方式进行了说明，但也可以接受的是可以通过与到目前为止描述的实施方式不同的各种不同方面来实施本发明。

系统构造等

在第一至第三实施方式中，已经对其中由相同装置实现收集测试输入数据的方法和基于所收集的测试输入数据的验证方法的情况进行了说明，但是并不局限于此。例如，还可以接受的是，在所谓的操作阶段中使用的图像识别装置可以包括无布局定义体的票据自动识别单元、测试输入数据收集单元、测试输入数据存储单元和通信单元；而在所谓的验证阶段中使用的图像识别装置可以包括无布局定义体的票据自动识别单元、更新后的一般逻辑结构模型存储单元、逻辑结构识别结果比较结果存储单元、一般逻辑结构模型更新检测单元、逻辑结构识别结果比较单元、警告输出单元和通信单元。在这种情况下，在操作阶段中使用的图像识别装置经由通信单元将由该图像识别装置存储在测试输入数据存储单元中的测试输入数据发送到在验证阶段中使用的图像识别装置，由该在验证阶段中使用的图像识别装置的通信单元接收该测试输入数据，并且将该测试输入数据用于验证等。这种构造对于将各图像识别装置远离设置的情况下(例如，将一台图像识别装置设置在东京并且将另一台图像识别装置设置在大阪)也是可行的。

另外，在实施方式中描述的处理中，可以手动执行全部或部分所述的自动执行的处理，此外，也可以通过目前已知的方法自动地执行全部或部分所述的手动执行的处理。另选地是，除了另外指出，可以选择性地改变在上文中或附图中所示的处理过程(例如，图13和图14等)、控制过程、具体姓名和包括各种数据或参数的信息。

另外，在附图中所示的各装置的各部件均是功能性构思，不需要以如附图(图2等)所示的方式来实体构造这些部件。即，分开和集成各装置的具体方面并不局限于附图所示方式，可以根据不同的负载量、用途等在可选的单元中通过功能性地或实体性地分开或集成全部或部分单元的方式进行构造。此外，可以通过CPU和由CPU分析和执行的程序来实现由各装置执行的各处理功能的全部或任选部分，或者使用布线逻辑以硬件方式加以实现。

程序

可以通过由计算机(例如，预先准备的程序、个人计算机或者工作站)执行处理来实现在上述实施方式中所说明的各类处理。同样地，在下文中，将使用图17对计算机执行与目前在第一实施方式中所描述的功能具有相同功能的图像识别程序的示例进行说明。图17是示出执行图像识别程序的计算机的图。

如图17所示，将图像识别程序(计算机)40配置为通过总线46连接高速缓冲存储器41、RAM42、HDD43、ROM44和CPU45。这里，在图17所示的ROM44中预先存储用来执行与目前所描述的第一实施方式相同类型的功能的图像识别程序(即，布局分析程序44a、字符识别程序44b、逻辑结构识别程序44c、测试输入数据收集程序44d、一般逻辑结构模型更新检测程序44e、逻辑结构识别结果比较程序44f和警告输出程序44g)。

接着，如图17所示，通过CPU45检索和执行程序44a至44g，各程序44a至44g分别执行布局分析处理45a、字符识别处理45b、逻辑结构识别处理45c、测试输入数据收集处理45d、一般逻辑结构模型更新检测处理45e、逻辑结构识别结果比较处理45f和警告输出处理45g。各处理45a到45g分别与图2中所示的布局分析单元31、字符识别单元32、逻辑结构识别单元33、测试输入数据收集单元34、一般逻辑结构模型更新检测单元35、逻辑结构识别结果比较单元36和警告输出单元37相对应。

此外，如图17所示，在HDD43中设置了票据图像表单43a、一般逻辑结构模型表单43b、测试输入数据表单43c和更新后的一般逻辑结构模型表单43d。各表单43a到43d分别与图2中所示的票据图像存储单元21、一般逻辑结构模型存储单元22、测试输入数据存储单元24和更新后的一般逻辑结构模型存储单元25相对应。

然而，关于到目前为止所描述的程序44a至44g，除了将这些程序存储在ROM44中以外，还可以以这样的方式来安排这些程序，即，将这些程序存储在插入计算机40中的“便携式物理介质”(例如，软盘(FD)、CD-ROM、MO盘、DVD、磁光盘、或者IC卡)或者存储在设置在计算机40内部或者外部“固定物理介质”(例如，硬盘驱动器(HDD))中，又或者存储在经由公用线路、互联网、LAN、WAN等连接至计算机40 (计算机40检索和执行这些程序)的“其它计算机(或者服务器)”中。

如到目前所述，针对其中各字符串被描述为构成预定逻辑结构的多个逻辑元素的每一个的图像，根据本发明的图像识别装置、图像识别程序和图像识别方法基于以对应于预定逻辑结构的方式设置的一般逻辑结构模型来识别各逻辑元素是有效的，并且特别地适用于使用户能够避免发生伴随一般逻辑结构模型的更新而带来的不便。

Claims

1.一种图像识别装置，该图像识别装置针对将各字符串描述为第一逻辑结构的多个逻辑元素中各个的图像，基于以对应于所述第一逻辑结构的方式设置的第一逻辑结构模型来识别各所述逻辑元素，该图像识别装置包括：

收集单元，该收集单元收集关于待利用所述第一逻辑结构模型处理的第一逻辑结构的图像的信息；

存储单元，该存储单元存储基于所述第一逻辑结构模型来识别的收集信息的第一识别结果；

逻辑结构模型更新检测单元，检测逻辑结构模型的更新；

更新后逻辑结构模型存储单元，存储更新后的逻辑结构模型；

更新后识别结果获取单元，当所述逻辑结构模型更新检测单元检测到逻辑结构模型的更新时，该更新后识别结果获取单元从更新后逻辑结构模型存储单元中检索第二逻辑结构模型，获得基于第二逻辑结构模型来识别的收集信息的第二识别结果，所述第二逻辑结构模型被设置为对应于新逻辑结构；

比较单元，该比较单元比较所述第一识别结果是否与所述第二识别结果相匹配；以及

警告输出单元，该警告输出单元在由所述比较单元进行的所述比较的结果为不匹配的情况下，向输出单元输出表示关于所述第二逻辑结构模型的警告的警告信息。

2.根据权利要求1所述的图像识别装置，其中，

预先识别与所述图像的字符串相关的信息和与所述图像的布局相关的信息，以基于所述第一逻辑结构模型来识别所述图像的各逻辑元素，

所述收集单元收集预先识别的与所述图像的字符串相关的信息和与所述图像的布局相关的信息作为待通过所述第一逻辑结构模型处理的信息，并且

所述更新后识别结果获取单元通过处理由所述收集单元收集的与所述字符串相关的信息和与所述布局相关的信息来获取识别结果。

3.根据权利要求1所述的图像识别装置，其中，在以对应于新逻辑结构的方式更新逻辑结构模型时，所述收集单元收集关于所述新逻辑结构的图像的信息。

4.一种图像识别方法，该方法针对将各字符串描述为第一逻辑结构的多个逻辑元素中各个的图像，基于以对应于所述第一逻辑结构的方式设置的第一逻辑结构模型来识别各所述逻辑元素，该方法包括以下步骤：

收集关于待利用所述第一逻辑结构模型处理的第一逻辑结构的图像的信息；

存储基于所述第一逻辑结构模型来识别的收集信息的第一识别结果；

检测逻辑结构模型的更新；

当检测到逻辑结构模型的更新时，检索第二逻辑结构模型，获得基于第二逻辑结构模型来识别的收集信息的第二识别结果，所述第二逻辑结构模型被设置为对应于新逻辑结构；

比较所述第一识别结果是否与所述第二识别结果相匹配；并且

在所述比较的结果为不匹配的情况下，向输出单元输出表示关于所述第二逻辑结构模型的警告的警告信息。

5.一种图像识别比较装置，该图像识别比较装置包括：

比较单元，当检测到逻辑结构模型的更新且检索到第二逻辑结构模型时，该比较单元比较基于第一逻辑结构模型来识别的图像的第一识别结果是否与基于第二逻辑结构模型来识别的图像的第二识别结果相匹配，在所述图像中多个单独的字符串被描述为第一逻辑结构的多个元素，所述第一逻辑结构模型被设置为对应于图像的第一逻辑结构，所述第二逻辑结构模型被设置为对应于新逻辑结构，所述第一识别结果和所述第二识别结果被存储在存储单元中；