CN103995816A - 信息处理设备和信息处理方法 - Google Patents

信息处理设备和信息处理方法 Download PDF

Info

Publication number
CN103995816A
CN103995816A CN201310545408.2A CN201310545408A CN103995816A CN 103995816 A CN103995816 A CN 103995816A CN 201310545408 A CN201310545408 A CN 201310545408A CN 103995816 A CN103995816 A CN 103995816A
Authority
CN
China
Prior art keywords
character
candidate
search
node
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310545408.2A
Other languages
English (en)
Other versions
CN103995816B (zh
Inventor
木村俊一
田中瑛一
樱井拓也
鹰合基行
外池昌嗣
山根洋平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN103995816A publication Critical patent/CN103995816A/zh
Application granted granted Critical
Publication of CN103995816B publication Critical patent/CN103995816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种信息处理设备和信息处理方法。信息处理设备包括:网络创建单元,其创建网络,在该网络中多个字符识别结果的各字符表示为节点,并且用链路连接相邻的字符图像的节点;第一确定单元,其确定网络中的第一候选边界;第二确定单元,其确定网络中不同于第一候选边界的第二候选边界;以及提取单元,其从均由第一候选边界和第二候选边界之间的节点形成的候选字符串的组中提取多个候选字符串作为被搜索对象。

Description

信息处理设备和信息处理方法
技术领域
本发明涉及一种信息处理设备和信息处理方法。
背景技术
日本未审专利申请公开(JP-A)No.2009-230671公开了,目的在于提供一种信息处理技术,其减少由于识别错误导致的搜索失败,并且允许由一般的系统执行搜索。根据JP-A-2009-230671,当对于输入图像执行字符识别时,根据识别出的候选字符数据生成文本数据。这时,根据识别出的字符数据生成多个文本数据。多个生成的文本数据被与图像一起存储为电子数据。
JP-A-2002-312365公开了,目的在于即使发生识别错误,也通过使用具有高准确度的字符识别来搜索文档图像。根据JP-A-2002-312365,字符识别单元对文档图像执行字符识别以生成文本。再处理范围确定单元确定再处理范围。格子生成单元根据对于再处理范围的字符识别的重试结果生成候选字符格子。字符串生成单元根据候选字符格子生成字符串。文本追加单元将字符串追加到文本以生成搜索文本。索引生成单元通过使用文本将索引应用于文档图像。搜索单元利用索引执行搜索。
JP-A-2006-343870解决了现有技术的搜索技术中生成了无关的命中结果的问题。根据JP-A-2006-343870,基于搜索查询和搜索查询的扩展查询,检索搜索目标的文档数据以提取匹配搜索查询和扩展查询的字符串。进行关于各提取的字符串是否包含未知项区域的确定,并且当字符串被确定为不包含未知项区域时,将所提取的字符串的相似度调整为更小。字符串被按照调整后的相似度的顺序输出作为搜索结果。
发明内容
本发明的目的在于提供一种信息处理设备和信息处理方法,在存在多个未确定的字符识别结果的情况下,使用由这些字符识别结果形成的字符串作为被搜索对象。
通过本发明的下面的方面实现上述目的。
根据本发明的第一方面,提供了一种信息处理设备,其包括:网络创建单元,其创建网络,在该网络中多个字符识别结果的各字符表示为节点,并且用链路连接相邻的字符图像的节点;第一确定单元,其确定网络中的第一候选边界;第二确定单元,其确定网络中不同于第一候选边界的第二候选边界;以及提取单元,其从均由第一候选边界和第二候选边界之间的节点形成的候选字符串的组中提取多个候选字符串作为被搜索对象。
根据本发明的第二方面,在第一方面的信息处理设备,第一确定单元将第一候选边界从网络的先头移动到末尾。
根据本发明的第三方面,在第一或第二方面的信息处理设备中,第一确定单元将第一候选边界设置为包含第一候选边界上的字符图像的字符串中的字符图像之间的距离等于或大于阈值的位置。
根据本发明的第四方面,在第一至第三方面中的任一方面的信息处理设备中,第二确定单元将位于距离第一候选边界预定数目的节点的位置确定为第二候选边界。
根据本发明的第五方面,在第一至第三方面中的任一方面的信息处理设备中,第二确定单元将离开第一候选边界上的字符图像预定距离的位置确定为第二候选边界。
根据本发明的第六方面,在第一至第三方面中的任一方面的信息处理设备中,第二确定单元将离开基于第一候选边界上的字符图像的高度的距离或者基于包含第一候选边界上的字符图像的字符串的高度的距离的位置确定为第二候选边界。
根据本发明的第七方面,在第一至第六方面中的任一方面的信息处理设备中,提取单元计算均由第一候选边界与第二候选边界之间的节点形成的候选字符串的组的评估值,并且基于评估值提取多个候选字符串。
根据本发明的第八方面,第一至第七方面中的任一方面的信息处理设备进一步包括:接收单元,其接收搜索字符串;以及搜索单元,其使用由提取单元提取的候选字符串作为被搜索字符串来搜索搜索字符串。
根据本发明的第九方面,提供了一种信息处理方法,其包括:创建网络,在该网络中,多个字符识别结果的各字符表示为节点,并且用链路连接相邻的字符图像的节点;第一确定步骤,确定网络中的第一候选边界;第二确定步骤,确定网络中不同于第一候选边界的第二候选边界;以及从均由第一候选边界与第二候选边界之间的节点形成的候选字符串的组中提取多个候选字符串作为被搜索对象。
根据第一方面的信息处理设备,在存在多个未确定的字符识别结果的情况下,可以使用由这些字符识别结果形成的字符串作为被搜索对象。
根据第二方面的信息处理设备,能够防止网络中的字符串没有作为被搜索对象而被遗漏。
根据第三方面的信息处理设备,第一候选边界可以被设置为字符串中的字符图像之间的距离等于或大于阈值的位置。
根据第四方面的信息处理设备,可以使用具有预定数目的字符的字符串作为被搜索对象。
根据第五方面的信息处理设备,可以使用由位于距离第一候选边界上的字符图像预定距离内的字符图像的字符识别结果形成的字符串作为被搜索对象。
根据第六方面的信息处理设备,可以使用由位于第一候选边界与离开基于第一候选边界上的字符图像的高度的距离或基于包含第一候选边界上的字符图像的字符串的高度的距离的位置之间的字符图像的字符识别结果形成的字符串作为被搜索对象。
根据第七方面的信息处理设备,可以基于评估值提取多个候选字符串。
根据第八方面的信息处理设备,在存在多个未确定的字符识别结果的情况下,可以对于这些字符识别结果执行搜索。
根据第九方面的信息处理设备,在存在多个未确定的字符识别结果的情况下,可以使用由这些字符识别结果形成的字符串作为被搜索对象。
附图说明
下面将基于下面的附图详细描述本发明的示例性实施方式,在附图中:
图1是示出根据示例性实施方式的构造的示例的概念性模块构造图;
图2是示出根据示例性实施方式的被搜索文本生成处理的示例的流程图;
图3是示出根据示例性实施方式的搜索处理的示例的流程图;
图4是示出字符识别处理模块的内部构造的示例的概念性模块构造图;
图5是示出由字符识别处理模块执行的处理的示例的流程图;
图6是示出符号的示例的图;
图7是示出符号的示例的图;
图8是示出符号的示例的图;
图9是示出符号的示例的图;
图10是示出符号的示例的图;
图11是示出在存在多个字符划分位置的情况下执行的处理的示例的图;
图12是示出符号的示例的图;
图13是示出在存在多个字符划分位置的情况下执行的处理的示例的图;
图14是示出形成字符串的网络的示例的图;
图15是示出形成字符串的网络中连接的节点的示例的图;
图16是示出由被搜索文本生成模块执行的处理的示例的流程图;
图17A和图17B示出了根据示例性实施方式的处理的示例;
图18A至图18C示出了根据示例性实施方式的处理的示例;
图19示出了根据示例性实施方式的处理的示例;
图20A和图20B示出了根据示例性实施方式的处理的示例;
图21示出了根据示例性实施方式的处理的示例;
图22A和图22B示出了根据示例性实施方式的处理的示例;
图23A至图23C示出了根据示例性实施方式的处理的示例;
图24示出了根据示例性实施方式的处理的示例;
图25示出了根据示例性实施方式的处理的示例;
图26示出了根据示例性实施方式的处理的示例;
图27是示出由搜索模块执行的处理的示例的流程图;
图28是示出由被搜索文本生成模块执行的处理的示例的流程图;
图29是示出实现示例性实施方式的计算机的硬件构造的示例的框图;
图30是示出字符串图像的示例的图;
图31是示出候选字符边界的示例的图;
图32是示出外接矩形的示例的图;
图33A至图33D是均示出字符划分结果的示例的图;
图34是示出表示字符划分位置的网络表示的图;
图35是示出网络表示中的图案的示例的图;
图36是示出网络的示例的图;以及
图37是示出存在多个候选字符的情况下的网络的示例的图。
具体实施方式
首先,在描述示例性实施方式之前,将描述使用示例性实施方式的信息处理设备和前提。该描述用于有利于示例性实施方式的理解。
例如,将描述如图30中所示的字符串图像。首先,该字符串图像被分割为子字符(也称为字符图像和字符分段)。子字符是字符本身,或者是可以为字符的一部分的字符。字符部分的示例包括汉字的左偏旁和右偏旁。在下面,将描述如图30的示例中所示的水平字符串图像。在水平字符串图像的情况下,利用垂直线(或基本上垂直线)来分割图像以获得子字符。例如,利用图31中所示的垂直线(候选边界3110和3120)来分割字符串图像以获得三个子字符“亻”、“匕”和“学”。图31的示例中所示的垂直线被称为候选边界。候选边界3110将“亻”和“匕”彼此分开,并且候选边界3120将“匕”和“学”彼此分开。
接下来,如图32的示例中所示,提取各子字符的外接矩形(外接矩形3210、3220和3230)。
在下面,将参考现有技术进行描述。
子字符被组合以确定字符图像。在一些情况下,组合多个子字符以形成单个字符。在其他情况下,单个子字符形成单个字符。确定字符图像等效于确定字符划分位置,并且因此下面可以称为确定字符划分位置。
存在用于组合子字符的多个方式。通过选择具有最高分数的方式来确定最终的字符划分位置。
在图33A至图33D的示例中示出了用于图32的示例的所有字符划分方式。更具体地,图33A的示例示出了三个字符图像(外接矩形3210、外接矩形3220和外接矩形3230)作为方式1。图33B的示例示出了两个字符图像(外接矩形3210和3220以及外接矩形3230)作为方式2。图33C的示例示出了一个字符图像(外接矩形3210、3220和3230)作为方式3。图33D的示例示出了两个字符图像(外接矩形3210和外接矩形3220和3230)作为方式4。
图33A至图33D的示例中示出的多个划分方式可以表示为表示字符划分位置的网络表示(也称为图形表示)。在图34的示例中,网络包括四个节点(即开始节点3400、结束节点3490、中间节点3410(节点1)和中间节点3420(节点2))以及连接节点的弧线(节点之间的连接线被称为弧线)。开始点对应于字符串图像的左端,并且结束点对应于字符串图像的右端。中间节点3410和3420(节点1和2)表示各候选字符边界(即,图31的示例中所示的候选边界3110和3120)。中间节点3410(节点1)对应于候选边界3110。中间节点3420(节点2)对应于候选边界3120。
从开始点穿过节点到达结束节点的路线在下面被称为“路径”。路径包括一个或多个弧线。一般来说,存在多个路径。图33A至图33D的示例中所示的字符划分方式对应于这些多个路径。例如,图33B的示例中的方式2对应于由图35的粗线表示的路径(字符划分方式3404和字符划分方式3422)。
单个弧线对应于单个候选字符图像。例如,连接开始节点3400和中间节点3420(节点2)的弧线对应于字符图像(字符划分方式3404)。可以对于对应于单个弧线的字符确定评估值。该值被称为“弧线评估值”。
基于字符形状信息、字符识别的识别准确性(被识别的子字符对象是作为字符识别结果而获得的字符码的可信度)等等来计算弧线评估值。存在各种计算弧线评估值的方法。这样的方法的示例包括在(1)JP-A-9-185681、(2)JP-A-8-161432、(3)JP-A-10-154207、(4)JP-A-61-175878、(5)JP-A-3-37782和(6)JP-A-11-203406中公开的现有技术。
单个路径包括多个弧线。可以基于多个弧线评估值来计算包括多个弧线的路径的评估值。路径的该评估值被称为“路径评估值”。
选择多个路径中具有最高路径评估值的路径以确定字符划分位置。当选择了路径时,确定了字符划分位置。因此,可以对字符进行划分。然后,确定划分后的字符(字符图像)的字符识别结果。
例如,在图35的示例中,假设选择了由粗线表示的路径。在该情况下,存在三个字符划分位置,即,开始点3400、中间节点3420(节点2)和结束点3490。然后,所确定的字符识别结果是(字符划分方式3404)和“学”(字符划分方式3422)。
下面描述计算路径评估值的方法。一般来说,路径评估值是弧线评估值的加权和。通过下面的等式(1)来给出路径评估值:
P = Σ i = 1 N w i V i - - - ( 1 )
其中,Vi是第i个弧线的弧线评估值;wi是关于第i个弧线评估值的权重;N是弧线的数目,并且P是路径评估值。
如上所述,存在多个路径。在实际的字符串中,存在很多子字符,并且因此存在大量的路径。
JP-A-3-225579公开了使用动态编程算法作为如图34的示例中所示的寻找网络中多条路经中具有最高的评估值的路径的方法。
在下面,将描述Viterbi算法,其是适合于在这样的网络中找到最适合的路径的动态编程算法。
在图36中示出的示例中,将描述从开始节点3600到结束节点3690的网络。注意的是,节点之间的链路(也称为弧线)不限于在图36中示出的那些,并且可以包括各种其它链路。应理解的是,链路不限于图36中所示的对称的连接。
在该网络中,在开始节点与结束节点之间存在多个节点(中间节点3611、3612、3613等等)。中间的这些节点被称为中间节点。
在节点之间存在链路。每个链路被分配有唯一的评估值(链路值)。存在从开始节点3600到结束节点3690的多个路径。每个路径包括多个链路。路径中包括的链路的链路值的和是路径的评估值。
例如,链路值可以是节点之间的距离。在该情况下,在从开始节点到结束节点的多个路径当中,具有最低的路径评估值的路径是具有最短距离的路径。或者,可以获得具有最高路径评估值的路径。
根据Viterbi算法,从自同一侧连接到节点的链路中选择一个链路,并且消除除了最适合的路径之外的路径。因此,减少了处理负荷和所要求的存储空间。
例如,假设已经选择了从左侧连接到节点x(中间节点3621)的链路中的一个。类似地,已经对于节点y(中间节点3622)和节点z(中间节点3623)中的每一个选择了一个链路。然后,选择从左侧连接到节点X(中间节点3631)的链路中的一个。节点X(中间节点3631)具有从三个节点(即,节点x(中间节点3621)、节点y(中间节点3622)和节点z(中间节点3623))连接的链路。在该情况下,从节点x(中间节点3621)、节点y(中间节点3622)和节点z(中间节点3623)到节点X(中间节点3631)的链路中的一个可能最适合作为穿过节点X(中间节点3631)的路径。从这三个中选择最适合的一个,并且消除其它的两个。以该方式,选择了从左侧连接到节点X(中间节点3631)的路径(链路)中的一个。类似地,对于节点Y(中间节点3632)和节点Z(中间节点3633)中的每一个选择从左侧连接的链路中的一个。
按照从节点A(中间节点3611)、节点B(中间节点3612)和节点C(中间节点3613)朝向右侧的顺序来执行该操作。最终,选择了连接到节点P(中间节点3681)、节点Q(中间节点3682)和节点R(中间节点3683)的三个路径。可以从这三个路径中选择最适合的路径。
类似地,使用Viterbi算法的最适合路径选择方法可以应用于图34中所示的网络。字符划分位置被识别为节点。此外,弧线评估值可以是上述链路值。
在利用现有技术处理的网络(例如,图34中所示的网络)中,在每个弧线上存在单个候选字符。然而,实际上,在每个弧线上存在多个候选字符。这是对于单个子字符存在多个字符识别结果的情况。例如,如图37中所示,分配了多个候选字符。图37是示出存在多个候选字符的情况下的网络的示例的图。在图37的示例中,当图像(字符图像3702)被识别为一个字符时,存在三个字符识别结果,即候选字符3702A“梢”、候选字符3702B“際”和候选字符3702C“傾”。当图像(字符图像3704)被识别为一个字符时,存在三个字符识别结果,即,候选字符3704A候选字符3704B“比”和候选字符3704C“任”。类似地,对于其它字符图像中的每一个,获得多个候选字符作为字符识别结果。在图37的示例中,对于每个图像字符存在三个候选字符。然而,对于不同字符来说,候选字符的数目可以不同。例如,在获得识别准确性高于预定值的字符作为候选字符的情况下,不同字符的候选字符的数目可以不同。
下面,将参考附图描述本发明的示例性实施方式。
图1是示出根据本示例性实施方式的示例性构造的概念性模块构造图。
注意的是,模块通常指诸如软件(计算机程序)和硬件的逻辑可分离组件。因此,在本示例性实施方式中使用的术语“模块”不仅表示计算机程序的模块而且表示硬件构造的模块。因此,本示例性实施方式的描述用作用于使得计算机用作这样的模块的计算机程序(用于使得计算机执行各过程的程序、用于使得计算机用作各单元的程序和用于使得计算机实现各功能的程序)、系统和方法的描述。为了方便描述,将使用表述“存储”和“使得…存储”及其等价表述。在示例性实施方式事实为计算机程序的情况下,这些表述具体地表示“使得存储装置存储”或“控制存储装置以存储”。各模块可以与功能具有一对一关系。在封装的情况下,单个模块可以由单个程序构成,或者多个模块可以由单个模块构成。相反地,单个模块可以由多个程序构成。而且,多个模块可以由单个计算机来执行,或者单个模块可以由多个计算机在分布式或并行环境中执行。单个模块可以包括另一模块。此外,这里使用的术语“连接”不仅表示物理连接而且表示逻辑连接(例如,交换数据、交换指令或查询数据的关系)。术语“预定”表示在执行想要的操作之前进行确定。即,该术语具有下述含义:在开始该示例性实施方式的操作之前或者甚至在开始该示例性实施方式的操作之后,根据当前的情况或状态或者根据之前的情况或状态在想要的操作之前进行确定。如果存在多个“预定值”,则这些值可以彼此不同,或者这些值中的两个或更多(或全部)可以彼此相等。表述“如果A,则B”用于表示“确定A是否为真,并且如果A为真,则进行B”。然而,这不适用于不必确定A是否为A的情况。
通过经由诸如网络(包括具有一一对应关系的通信连接)彼此连接的多个计算机、硬件单元、装置等等来实现系统或设备,或者可以通过单个计算机、硬件单元、装置等等来实现系统或设备。术语“设备”和“系统”被同义地使用。当然,“系统”不包括基于人员安排的仅社会性的“机制”(社会系统)。
在由各模块执行的各处理中或者在由单个模块执行的各处理中从存储装置中读取待处理的信息。在执行各处理时,处理结果被写入存储装置中。因此,可以省略关于在处理之前从存储装置进行读取和在处理之后写入存储装置的描述。这里使用的存储装置的示例可以包括硬盘、随机访问存储器(RAM)、外部存储介质、通过通信线路连接的存储装置、中央处理单元(CPU)中的寄存器等等。
该示例性实施方式的信息处理设备从图像识别字符,生成搜索对象(被搜索对象,下面也称为被搜索文本),并且执行搜索。如图1的示例中所示,信息处理设备包括字符识别处理模块110、网络创建模块120、被搜索文本生成模块130、被搜索文本存储模块160、搜索文本接收模块170和搜索模块180。被搜索文本生成模块130包括路径划分模块140和N-BEST提取模块150。路径划分模块140包括左端确定模块142和右端确定模块144。例如,该信息处理设备可以实现为其中包括字符识别处理模块110、网络创建模块120和被搜索文本生成模块130的信息处理设备A、包括被搜索文本存储模块160的信息处理设备B和包括搜索文本接收模块170和搜索模块180的信息处理设备C通过通信线路彼此连接的系统。或者,信息处理设备B存储由信息处理设备A获得的处理结果,并且然后与信息处理设备A断开以经由通信线路连接到信息处理设备C。
字符识别处理模块110连接到网络创建模块120、字符识别处理模块110从图像识别字符,并且将字符识别结果发送给网络创建模块120。字符识别结果至少包含针对每个子字符的多个字符码。字符识别结果也可以包含其它信息,例如各字符码的识别准确性、子字符的位置(例如,图像中的XY坐标系中的坐标)以及大小(例如,子字符的外接矩形的宽度和高度)。将在下面参考图4的示例详细描述由字符识别处理模块110执行的处理。
网络创建模块120连接到字符识别处理模块110和路径划分模块140。网络创建模块120从字符识别处理模块110接收字符识别结果,并且创建其中多个字符识别结果的各字符表示为节点并且其中相邻子字符的节点用链路连接的网络。更具体地,网络创建模块120生成上述网络。
路径划分模块140连接到网络创建模块120和N-BEST提取模块150。左端确定模块142确定网络中的第一候选边界。右端确定模块144确定网络中不同于第一候选边界的第二候选边界。由左端确定模块142和右端确定模块144指定第一候选边界与第二候选边界之间的字符串。
左端确定模块142可以将第一候选边界从网络的先头移动到末尾。例如,在左端确定模块142将网络中从先头节点到末尾节点的每个节点选择为第一候选边界而没有遗漏任何节点的情况下,能够提取网络中示出的所有候选字符串。
左端确定模块142可以将第一候选边界设置到包含第一候选边界上的字符图像的字符串中的字符图像之间的距离等于或大于阈值的位置。因此,在关注图像是其间隔与以英语书写的文本的间隔相同的文本的情况下(在单词之间存在间隔的情况下),各候选字符串对应于单词。
右端确定模块144可以将第二候选边界确定为位于与第一候选边界相距预定数目的节点的位置。在该示例性实施方式中,“预定数目的节点”与“预定数目的子字符”的含义相同。即,候选字符串具有从第一候选边界开始计数的预定数目的子字符(例如,三个子字符)。
右端确定模块144可以将第二候选边界确定为与第一候选边界上的字符图像间隔预定距离的位置。在该示例性实施方式中,按像素的数目、毫米等等来指定“距离”。可以基于上述字符识别结果中的位置或大小来计算相对于第一候选边界的距离。预定距离可以是已知单词的长度。
右端确定模块144可以将第二候选边界确定为离开基于第一候选边界上的字符图像的高度的距离或者基于包含第一候选边界上的字符图像的字符串的高度的距离的位置。可以例如通过将高度乘以预定值来计算“基于高度的距离”。即,根据字符的大小(字符的高度)来确定候选字符串的长度。
N-BEST提取模块150连接到路径划分模块140和被搜索文本存储模块160。N-BEST提取模块150从均由第一候选边界与第二候选边界之间的节点形成的一组候选字符串中提取多个候选字符串作为被搜索对象。然后,N-BEST提取模块150将所提取的候选字符串作为被搜索对象存储在被搜索文本存储模块160中。注意的是,多个候选字符串在下面也被称为N-BEST。
此外,N-BEST提取模块150可以计算均由第一候选边界与第二候选边界之间的节点形成的候选字符串的组的评估值,并且基于评估值来提取多个候选字符串。
被搜索文本存储模块160连接到N-BEST提取模块150和搜索模块180。被搜索文本存储模块160存储由N-BEST提取模块150提取的候选字符串作为被搜索对象。
搜索文本接收模块170连接到搜索模块180。搜索文本接收模块170接收搜索字符串。
搜索模块180连接到被搜索文本存储模块160和搜索文本接收模块170。搜索模块180使用被搜索文本存储模块160中存储的候选字符串(即,由N-BEST提取模块150提取的候选字符串)作为被搜索字符串来搜索搜索字符串。
将在下面参考图26至图28描述由搜索文本接收模块170和搜索模块180执行的处理。
图2是示出根据本示例性实施方式的被搜索文本生成处理的示例的流程图。
在步骤S202中,字符识别处理模块110接收图像。
在步骤S204中,字符识别处理模块110执行字符识别。
在步骤S206中,网络创建模块120基于字符识别结果创建网络。
在步骤S208中,被搜索文本生成模块130生成搜索文本,并且将搜索文本存储在被搜索文本存储模块160中。
图3是示出根据该示例性实施方式的搜索处理的示例的流程图。在存在多个未确定的字符识别结果的情况下,对于这样的字符识别结果执行搜索。未确定的字符识别结果是人没有确认的字符识别结果。例如,当存在由于字符划分错误而没有对应于字符的子字符时或者当对于单个子字符存在多个字符识别结果时,字符识别结果是未确定的。
在步骤S302中,搜索文本接收模块170接收搜索文本。
在步骤S304中,搜索模块180从被搜索文本存储模块160中存储的被搜索文本中搜索搜索文本。
在步骤S306中,搜索模块180输出搜索结果。
图4是示出字符识别处理模块110的内部构造的示例的概念性模块构造图。
字符识别处理模块110包括图像接收模块410、字符串提取模块420、划分位置提取模块430和候选字符提取模块440。
图像接收模块410连接到字符串提取模块420。图像接收模块410接收图像,并且将图像发送给字符串提取模块420。接收图像包括例如从扫描仪、相机等等读取图像;通过使用传真机通过通信线路从外部装置接收图像;以及读取硬盘(其可以是计算机的硬盘、通过通信线路连接的硬盘等等)中存储的图像。图像可以是二值图像或多值图像(包括彩色图像)。可以接收一个或多个图像。图像可以是在商务中使用的文档、用于广告的小册子等等的图像,只要其包含字符串。
字符串提取模块420连接到图像接收模块410和划分位置提取模块430。字符串提取模块420从由图像接收模块410接收的图像中提取字符串。
由字符串提取模块420处理的图像是表示在一行内书写的字符串的字符串图像。这里使用的表述“行”在水平书写文本的情况下表示水平行,并且在竖直书写文本的情况下表示竖直行。
因此,如果图像接收模块410所接收的图像是表示在一行内书写的字符串的字符串图像,则字符串提取模块420使用该图像而不进行任何改变。在一些情况下,图像接收模块410接收表示多个字符串的图像。已经提出了用于将多个字符串分离为各个字符串的各种技术,可以使用这些方法。存在分离为各个字符串的各种方法,并且可以使用这些方法中的任一种。例如,可以使用在(1)JP-A-4-311283、(2)JP-A-3-233789、(3)JP-A-5-73718和(4)JP-A-2000-90194中公开的方法。也可以使用除了这些方法之外的其它方法。
划分位置提取模块430连接到字符串提取模块420和候选字符提取模块440。划分位置提取模块430提取由字符串提取模块420所提取的字符串图像中的字符图像的划分位置。即,字符串图像被划分为多个子字符。存在提取字符划分位置的各种方法,并且可以使用这些方法中的任一种。例如,可以使用在(1)JP-A-5-114047、(2)4-100189、(3)JP-A-4-92992、(4)JP-A-4-68481和(5)JP-A-9-54814中公开的方法、在(6)JP-A-9-185681的0021段中公开的候选字符边界提取方法以及在(7)JP-A-5-128308的第0005段中公开的字符划分位置确定方法。也可以使用除了这些方法之外的方法。在该示例性实施方式中,字符图像是表示候选字符的图像。字符图像不必是表示一个字符的图像。
划分位置提取模块430可以提取多个划分位置。当从一个字符串图像提取多个划分位置时,存在针对该字符串图像的多个字符划分位置组。字符划分位置组是关于一个字符串图像的一个或多个字符划分位置。例如,如果存在两个字符划分位置,则字符串图像被分为三个字符图像。此外,当存在多个字符划分组时,存在关于一个字符串图像的均在字符划分位置处划分的多个字符图像串。例如,可以存在在两个字符划分位置处划分的并且因此包括三个字符图像的字符图像串和在四个字符划分位置处划分的并且因此包括五个字符图像的字符图像串。更具体地,在字符串图像的情况下,生成了由“亻”、“匕”和“学”形成的字符图像串和由和“学”形成的字符图像串。
候选字符提取模块440连接到划分位置提取模块430。候选字符提取模块440提取作为针对在由划分位置提取模块430提取的位置处划分的字符图像的字符识别结果而获得的多个候选字符,并且将候选字符发送到网络创建模块120。为了执行该提取处理,执行字符识别处理。因此,候选字符提取模块440包括字符识别模块。如上所述,在字符识别处理的识别结果中,对于每个字符图像存在多个候选字符。即,当对字符图像执行字符识别时,作为字符识别结果,获得了诸如具有最高识别准确度的候选字符和具有次高识别准确度的候选字符的多个候选字符。字符识别结果可以不仅包括候选字符,而且包括候选字符的识别准确度。此外,可以对于每个字符图像提取预定数目的候选字符,或者可以提取具有高于预定值的识别准确度的候选字符。注意的是,识别准确度可以是表示识别结果的可靠性的值,或者可以是表示与由字符图像的外接矩形的大小、纵横比等等定义的特征的类似度的值。
图5是示出由字符识别处理模块110执行的处理的示例的流程图;
在步骤S502,图像接收模块410接收关注图像。
在步骤S504,字符串提取模块420从该图像提取字符串图像。
在步骤S506,划分位置提取模块430提取用于字符串图像的划分位置。
在步骤S508,候选字符提取模块440对于各划分后的字符图像执行字符识别。
在步骤S510,候选字符提取模块440提取多个字符识别结果作为字符图像的候选字符。
接下来,将参考图6至图15描述由网络创建模块120执行的处理。
在该示例性实施方式中,通过输出具有较高的路径评估值的路径来提取多个候选字符串。可以使用动态编程算法来寻找路径。
该示例性实施方式的网络包括开始节点、结束节点和多个中间节点。节点之间的各链路被分配有链路值。从开始节点通过多个中间节点到结束节点的路径根据路径所通过的节点而穿过链路。从开始节点到结束节点的路径的路径值可以表示为路径所通过的链路的加权和。
当存在多个字符识别结果时,该示例性实施方式的网络创建模块120生成上述节点、链路和路径构造(网络结构)。当给出了网络结构时,网络创建模块120变为能够使用Viterbi算法找到最适合的路径。
(A1.固定字符划分位置的情况)
首先,将描述固定由划分位置提取模块430提取的字符划分位置(一种类型)的情况。
图6是示出符号的示例的图。符号的类型包括矩形610、、表示连接线620、622、624、626和628的水平线、曲线630和表示候选字符642、644和646的圆圈。
在图6的示例中,矩形610A、610B、610C和610D(图7中所示的矩形610)表示子字符。
而且,示出为水平线的连接线620、622、624、626和628表示字符划分位置(图8中示出的连接线620和连接线622)。子字符通过字符划分位置连接到相邻的子字符。
此外,示出为圆圈的候选字符642A、644A等等表示当各子字符被识别为一个字符时获得的多个候选字符。曲线630A、630B、630C和630D中的每一个表示仅对于下面的子字符执行的字符识别。
在图9的示例中,候选字符642、644和646是当识别由下面的矩形610指示的子字符时获得的多个候选字符。曲线630表示仅对下面的矩形610执行字符识别。
在该示例性实施方式中,将子字符的多个候选字符视为节点。此外,子字符的各候选字符用链路连接到相邻子字符的候选字符。在图10的示例中,由粗线表示链路。
作为由链路值生成处理生成的链路值,可以使用表示链路的左侧和右侧的节点之间的相互作用的值。更具体地,可以使用链路的左侧的候选字符与链路的右侧的候选字符在日语文本中连续出现的几率(双连词)。
以上述方式形成节点和链路,从而确定了整个网络结构。一旦确定了网络结构,则能够使用Viterbi算法等等选择最适合的路径。
(A2.还使用节点内部信息的情况)
在上述描述中,仅使用表示节点之间的相互作用(文本中出现的几率)的值作为链路值,也可以使用单个节点的评估值。在该示例性实施方式中,通过使用Viterbi算法来找到最适合的路径。按照从左侧开始的顺序执行选择从节点的左侧连接到节点的链路中的一个的处理。
假设,在图10的示例中,在当前步骤中将对于候选字符642B、644B和646B中的每一个选择链路。
在该情况下,生成候选字符642B、644B和646B与候选字符642A、644A和646A之间的链路的链路值。作为链路值,使用表示节点之间的相互作用(例如双连词)的值以及各节点内部值。例如,节点内部值可以是候选字符642B的字符识别准确度。
在该示例中,在候选字符642B、644B和646B与候选字符642A、644A和646A之间存在链路。因此,容易计算候选字符642B、644B和646B与候选字符642A、644A和646A之间的评估值。另一方面,在候选字符642B、644B和646B与候选字符642A、644A和646A之间不存在节点内部值,但是在候选字符642B、644B和646B中的每一个中存在节点内部值。
即,在链路内存在节点间信息,并且在链路的端点处存在节点内部信息。在不同位置处生成的或者基于不同概念生成的这些值被一起处理。
根据现有技术,图34中所示的开始节点3400、中间节点3410(节点1)、中间节点3420(节点2)和结束节点3490(即,字符划分位置)被识别为节点,并且计算节点之间的弧线评估值。在该示例性实施方式中,与现有技术不同的是,将多个字符码识别为节点,并且计算节点之间的链路值。因此,没有原样地使用现有技术。
在该示例性实施方式中,使用链路内的值(例如,双连词值)和仅在链路的一端处存在的值(例如,候选字符642B的字符识别准确度)作为链路评估值。没有使用在另一端存在的值(例如,候选字符642A的字符识别准确度)。以该方式,能够使用链路内的值和链路的端点处的值来执行评估。
最终,作为字符串的评估值(路径评估值),根据等式(1)将所有链路的评估值相加以获得字符串的评估值(路径评估值)。即,如果链路的评估值包含链路内的评估值和链路的端点处的评估值,则路径评估值包含各链路内的评估值和链路的各端点处的评估值。
在链路值生成处理中,可以使用诸如上面描述的链路内的值和链路的端点处的值的多个值(双连词和识别准确度)作为特征量来计算链路值。作为以上述方式基于多个值计算一个链路值的方法,可以使用在(1)JP-A-9-185681、(2)JP-A-61-175878、(3)JP-A-3-37782和(4)JP-A-11-203406中公开的方法。也可以使用除了这些方法之外的方法。
注意的是,如果多个值被识别为特征向量,则可以通过输出用于特征向量的链路评估值(标量值)的函数来给出链路值。
(A3.使用两个或更多节点作为链路信息的情况)
在上面的描述中,使用双连词作为链路的左侧和右侧的节点之间的相互信息。在该情况下,使用表示两个节点之间的关系的信息作为链路信息。
在使用Viterbi算法的情况下,例如,在表示为节点的候选字符642A、644A和646A的左侧上已经选择了一个链路。在该情况下,能够使用关于两个或更多节点的信息生成链路信息。
例如,能够使用表示三个连续字符的出现概率的三连词来代替表示两个连续字符的出现概率的双连词。
假设的是,在链路值生成处理中,将生成表示为节点的候选字符642B、644B和646B的左侧的链路值。
例如,计算候选字符642A与候选字符642B之间的链路值。在双连词的情况下,可以获得候选字符642A和候选字符642B接连出现的出现概率。下面描述获得三连词的情况。由于在候选字符642A的左侧选择一个链路,因此实际上已经确定了候选字符642A的左侧的字符。保持该字符的节点是节点G。作为三连词,可以获得节点G-节点(候选字符642A)-节点(候选字符642B)的三个字符的出现概率。
以上述方式获得的三连词可以生成为节点(候选字符642A)与节点(候选字符642B)之间的链路值。类似地,能够获得N连词。
(A4.字符划分位置不确定的情况)
在字符划分位置不确定的情况下(即,在由划分位置提取模块430提取了多个字符划分位置的情况下,例如,在不确定是被分为两个字符“亻”和“匕”还是作为一个字符的情况),可以选择候选字符和字符划分位置。在字符划分位置不确定的情况下,选择候选字符是选择字符划分位置。
图11是示出在存在多个字符划分位置的情况下执行的处理的示例的图。在该示例下,添加了曲线的符号的含义。在曲线指向下面的多个子字符(矩形)的情况下,曲线表示组合在一起的多个子字符的图像被识别为一个字符。曲线1110A将组合在一起的矩形610A和矩形610B的图像识别为一个字符并且具有候选字符1122A、1124A和1126A作为字符识别结果。曲线1110C将组合在一起的矩形610A、610B、610C和610D的图像识别为一个字符,并且具有候选字符1122C、1124C和1126C作为字符识别结果。
如图12的示例中所示,在曲线630A和曲线630B下面存在两个子字符(矩形610A和矩形610B)的情况下,这两个子字符上的曲线1110上的候选字符(候选字符1122、1124和1126)对应于在识别出通过组合“亻”和“匕”获得的子字符时获得的候选字符。
在字符划分位置不确定的情况下,链路如图13的示例中所示地连接。图13是示出存在多个字符划分位置的情况下执行的处理的示例的图。
在该示例中,主要关注字符划分位置。现在,将描述通过由图13中的箭头指示的字符划分位置连接的节点的链路。在该字符划分位置处链路的节点包括两种类型的节点:
(1)左节点:在其右侧位于由箭头指示的字符划分位置的曲线下面的节点(由阴影指示的节点,即候选节点1342A、1344A、1362A、1364A、1372A、1374A等等);以及
(2)右节点:其左侧位于由箭头指示的字符划分位置的曲线下面的节点(白色的节点,即,候选节点1342B、1344B、1362B、1364B、1372B、1374B等等)。
在该情况下,可以通过在左节点与右节点之间形成链路来创建图形结构。
例如,链路可以形成为使得每个左节点直接连接到所有右节点。此外,在所有字符划分位置中,链路以上述方式形成在左节点与右节点之间。在节点的左侧是字符串的末尾的情况下,节点连接到开始节点。在节点的右侧是字符串的末尾的情况下,节点连接到结束节点。因此,创建了整个图形结构。
在该情况下,作为链路值,可以使用指示链路的左侧和右侧的节点之间的相互作用的值或者节点内部评估值。
在该情况下,特别地,由于字符划分位置不确定,因此可以使用字符形状信息作为节点内部评估值。字符形状信息的示例可以包括字符的纵横比和字符的右侧与左侧的空白量。
以该方式,能够绘制从字符串的左端到字符串的右端的所有路径。每个路径对应于识别输出字符串。即,在形成字符串的网络中,可以通过确定从左端节点到右端节点的路径来确定字符串。
因此,形成字符串的网络可以例如如图14中所示。在图14的示例中,白色圆圈表示节点。连接白色圆圈的实线是表示节点之间的连接或链路的弧线。节点A表示字符串的左端,并且节点B表示字符串的右端。在该网络中,可以通过确定从左端节点A到右端节点B的路径来确定字符串。
将描述图15的示例。图15是示出形成字符串的网络中连接的节点的示例的图。
例如,假设三个链路从左侧连接到节点D(候选字符“会”)。这些链路是分别从节点A(候选字符串“匕学”)、节点B(候选字符串)和节点C(候选字符串“卜学”)进行连接的。
虽然存在从左侧连接到节点A、B和C的节点,但是将省略其描述。节点A的候选字符串为“匕学”。节点B的候选字符串为节点C的候选字符串为“卜学”。
现在,将描述从左侧连接到节点D的链路。在来自节点A的路径的情况下,候选字符串为“匕学会”。在来自节点B的路径的情况下,候选字符串为在来自节点C的路径的情况下,候选字符串为“卜学会”。被搜索文本生成模块130可以从自左端到右端的多个路径提取候选字符串作为被搜索对象。
接下来,将描述由被搜索文本生成模块130执行的处理。
对于从位于字符串图像的左端的开始点到位于字符串图像的右端的结束点的多个路径执行该处理。对于一个子字符,可以存在多个候选。在该情况下,对包括这些多个候选的多个路径执行处理。如上所述,对于从开始点到结束点的每个路径给出评估值。按照评估值的降序从路径获得N个字符识别输出(候选字符)。这些N个字符识别结果被称为N-BEST。
一般来说,被搜索文本比较长。因此,如果对于包括从被搜索文本的开头到结尾的整个部分的文本获得N-BEST,则获得匹配搜索项的字符串的可能性较低。
例如,将描述2-BEST的情况。排名第一位字符串为“EFGHIJKL<MOPQR”。例如,排名第二位字符串为“EFGHIJKL<MOPQP”,其与排名第一位字符串的不同之处仅在于一个字符。更具体地,末尾的字符“R”被替换为“P”。假设正确的字符串为“EFGHIJKL<MOPQP”。即,在“P”的识别准确性高于第二识别字符“F”的识别准确性的情况下,获得该排名第二位字符串。在该情况下,如果使用搜索项“EFG”执行搜索,则在2-BEST(“EFGHIJKL<MOPQR”和“EFGHIJKL<MOPQP”)中不存在搜索项。结果,没有发现匹配。
另一方面,被搜索文本生成模块130提取N-BEST作为部分字符串。例如,2-BEST被生成为均由三个字符形成的字符串。然后,在上述示例中,前三个字符的排名第二位字符串为“EFG”,并且因此发现与搜索项“EFG”匹配。即,对于从开始点至结束点的路径没有生成N-BEST,而是对于短于该路径的字符串生成了N-BEST。在极端情况下,对于每个单个字符生成N-BEST。在该情况下,如果搜索项是单词,则没有找到任何匹配。即,对于由两个或更多(但是少于整个网络中从开始点到结束点的路径中包含的字符的数目)字符形成的字符串提取N-BEST。
然后,作为提取的N-BEST的提取结果,通过连接多个结果生成的文本码可以输出为字符识别结果。通过搜索该文本码,如果作为匹配找到了任何N-BEST,则能够检索文档。即,除了用于整个文本的第一候选之外,将文本的部分字符串的N-BEST添加到字符识别结果文件,并且从而生成了用于搜索的文本文件。
图16是示出由被搜索文本生成模块130执行的处理的示例的流程图。
在步骤S1602,左端确定模块142确定N-bset左端位置。用于提取N-BEST的字符串的左端被称为“N-BEST左端”,并且用于提取N-BEST的字符串的右端被称为“N-BEST右端”。
在步骤S1604,路径划分模块140确定字符识别结果的字符串是否结束。如果字符串结束了,则处理结束(步骤S1699)。如果没有,则处理前进至步骤S1606。
在步骤S1606,右端确定模块144确定N-BEST右端位置。
在步骤S1608,N-BEST提取模块150提取均由从N-BEST左端位置到N-BEST右端位置的字符形成的N-BEST。
在步骤S1610,N-BEST提取模块150将所提取的N-BEST存储在被搜索文本存储模块160中。
图17A和图17B示出了根据本示例性实施方式的处理的示例。
子字符是在候选字符边界处划分的字符,或者是字符的一部分。关于子字符,在像素方面,连接区域的块可以对应于一个子字符,或者多个连接区域一起可以对应于一个子字符。或者,在连接部分较细的情况下,甚至连接区域可以被划分为多个子字符。
图17A的示例中示出的矩形是子字符的外接矩形。
在下面的描述中,假设一个矩形被识别为一个子字符,如图17B的示例中所示。
例如,在字符串的情况下,“亻”、(的左侧分量)、“匕”(的右侧分量)和“学”容纳在各矩形中。
图18A至图18C示出了根据本示例性实施方式的处理的示例。
在该示例性实施方式中,例如,候选字符边界中的每一个被选择作为用于提取N-BEST的字符串的左端。然后,可以利用从其左端开始的字符(节点)的数目来限定用于提取N-BEST的字符串的右端。
图18A至图18C示出了其中子字符的数目为三的示例。注意的是,如上所述,子字符的数目可以小于三或大于三。子字符的数目可以为二或更大但是小于整个网络中从开始点到结束点包含的所有子字符的数目。
首先,N-BEST左端被设置到关注图像的左端(步骤S1602)。N-BEST右端被设置到在远离N-BEST左端的方向上离开三个字符的位置(步骤S1606)。
从在N-BEST左端开始并且在N-BEST右端结束的路径中选择N-BEST。提取所选择的N-BEST(N个字符串)(步骤S1608,图18A)。
接下来,N-BEST左端向右移动到下一子字符(第二轮中的步骤S1602),并且执行相同的操作(图18B)。
当N-BEST右端到达关注的字符串的末尾(步骤S1604)时,处理结束(步骤S1699,图18C)。
在该处理中获得的N-BEST结果被作为字符识别结果文件存储在被搜索文本存储模块160中(步骤S1610)。因此,能够执行搜索。
图19示出了根据本示例性实施方式的另一示例性处理。
N-BEST左端与N-BEST右端之间的距离可以不限于子字符的数目。
例如,N-BEST左端与N-BEST右端之间的距离被确定为X=H×A,其中,H(像素)是位于N-BEST左端的子字符的高度或者包含该子字符的字符串的高度,并且A是预定的数值(例如,10(个像素))。
离值X最近的边界位置被设置为N-BEST右端。或者,首先超过值X的边界位置被设置为N-BEST右端。
在上述描述中,按照“像素”来测量高度。然而,可以按照代替“像素”的诸如“毫米”的物理量来测量高度。
此外,值X可以是与H无关地预先确定的值。即,N-BEST右端可以被设置为从N-BEST左端开始距离N-BEST左端预定距离(值X)的位置。
图20A和图20B示出了根据本示例性实施方式的处理的示例。
N-BEST左端不必被设置到每个候选字符边界。例如,N-BEST左端可以从网络的前头到末尾移动到每预定数目的候选字符边界。例如,如图20A中所示,N-BEST左端可以移动到每隔一个的候选字符边界。
此外,N-BEST左端可以被设置到子字符之间的距离等于或大于阈值的位置。例如,如图20B中所示,N-BEST左端被设置到子字符彼此隔开的位置。阈值可以是预定值,或者可以是字符串中的子字符之间的距离的统计值(例如,平均值、模、中间值、通过将这些值中的任意值乘以常数而获得的值等等)。
图21示出了根据本示例性实施方式的处理的示例。确定N-BEST左端和N-BEST右端的步骤等效于选择连续的子字符。即,在原理方面,在“选择连续的子字符”与“选择N-BEST左端和N-BEST右端”之间不存在差异。
例如,如图21中所示,如果子字符的数目为三,则可以选择三个连续字符。可以按照从左侧开始的顺序或者可以随机地进行选择。
图22A和图22B示出了根据本示例性实施方式的处理的示例。如上所述,可以固定用于选择N-BEST右端的子字符的数目。或者,例如,在单词之间存在间隔的文档的情况下,子字符的数目可以改变。在该情况下,字符串可以按间隔来划分。
此外,子字符的数目可以被设置为不同的值。例如,子字符的数目可以被设置为3和4。因此,当N-BEST左端被固定时,可以提取两个不同的N-BEST右端。这些字符的N-BEST可以被首先提取,如图22A的示例中所示,并且可以提取四个字符的N-BEST,如图22B中所示。
图23A至图23C示出了根据本示例性实施方式的处理的更具体的示例。
字符识别处理模块110对于整个字符串图像执行字符识别。这时,可能出现字符识别错误。例如,如图23A中所示,在对于字符串图像执行字符识别的情况下,字符识别结果中的第一候选“亻匕学の組織論”由于字符划分错误而具有字符识别错误。注意的是,在第二和接下来的候选中的一些当中,部分“亻匕”被识别为
被搜索文本生成模块130将字符识别结果划分为各个部分以提取多个候选字符串。可能存在下述情况,其中在多个候选字符串中存在正确的字符串。例如,如图23B中所示,当对于具有预定长度的字符串图像执行字符识别时,所获得的结果为和“亻匕学の”。
然后,移动提取多个候选字符串的区域以提取其它多个候选字符串。例如,如图23C中所示,当对于在子字符“亻”和子字符“匕”之间的位置处开始的字符串执行字符识别时,所获得的结果是“匕学の”和“匕字の”。
作为最终的结果,例如,提取图24中所示的识别结果。因此,虽然在第一候选“亻匕学の組織論”中没有检索到但是能够在图24中所示的识别结果的文本文件中检索到
图25示出了根据本示例性实施方式的处理的示例。例如,对于图25的左侧所示的图像执行字符识别以创建图25的右侧中示出的字符识别结果文件。如图24的示例中所示,该字符识别结果文件存储N-BEST(多个候选字符串)作为对于N-BEST左端与N-BEST右端之间的字符串图像执行的字符识别的结果。
用户在图26的示例中所示的“搜索”窗口中输入文本码作为搜索项以搜索数据库等等中存储的图像。注意的是,作为搜索对象的内容是对应于图像的字符识别结果文件。即,图像和字符识别结果文件存储在数据库等等中。图像和字符识别结果文件彼此链路。因此,如果检索到字符识别结果文件,则能够检索到图像文件。
如图25的示例中所示,在字符识别正确的情况下,能够针对搜索项“ABC”检索文档A。在字符识别不正确的情况下(在第一候选为“EEG”,但是正确的字符串为“EFG”的情况下),如果字符识别结果文件仅存储了第一候选,则当输入了搜索项“EFG”时不能够检索到文档B。在该示例性实施方式中,被搜索文本被扩展为使得文档B的字符识别结果文件除了存储第一候选“EFG”和“HIJ”作为字符识别结果之外还存储均由三个子字符形成的第二以及接下来的候选“EFG”、“H1J”等等作为字符识别结果。因此,能够检索到文档B。
图27是示出由搜索模块180执行的处理的示例的流程图。
作为图3的示例中所示的流程图的步骤S304,可以执行图27的示例中所示的处理。
在步骤S2702,搜索模块180选择具有与搜索文本中的字符的数目相同数目的字符的N-BEST。例如,在具有不同数目的字符的N-BEST存储在字符识别结果文件中的情况下,选择具有与搜索文本中的字符的数目相同的数目的字符的N-BEST。
在步骤S2704,搜索模块180根据由所选择的N-BEST形成的被搜索文本执行搜索。
图28是示出由被搜索文本生成模块130执行的处理的示例的流程图。
在步骤S2802中,对搜索文本中的字符的数目与各N-BEST中的字符的数目进行比较。如果存在具有与搜索文本中的字符的数目相同的数目的字符的N-BEST,则处理前进至步骤S2804。如果搜索文本中的字符的数目更小,则处理前进至步骤S2808。如果搜索文本中的字符的数目更大,则处理前进至步骤S2812。
在步骤S2804中,搜索模块180选择具有与搜索文本中的字符的数目相同的数目的字符的N-BEST。
在步骤S2806,搜索模块180根据由所选择的N-BEST形成的被搜索文本执行搜索。
在步骤S2808,选择具有与搜索文本中的字符的数目接近的数目的字符的N-BEST。
在步骤S2810,对于由所选择的N-BEST形成的被搜索文本执行前缀搜索。
在步骤S2812,选择具有与搜索文本的字符的数目接近的数目的字符的N-BEST。
在步骤S2814,连接N-BEST以具有比搜索文本中的字符的数目更大的数目的字符。该连接使得生成了关注的N-BEST的所有组合。
在步骤S2816,对于由连接的N-BEST形成的被搜索文本执行前缀搜索。
将参考图29描述该示例性实施方式的信息处理设备的硬件构造的示例。图29中所示的构造是个人计算机(PC)等等。示出的硬件构造的示例包括诸如扫描仪的数据读取单元2917和诸如打印机的数据输出单元2918。
中央处理单元(CPU)2901是根据描述在示例性实施方式中所描述的各模块的执行序列的计算机程序执行处理的控制器,所述各模块例如为字符识别处理模块110、网络创建模块120、被搜索文本生成模块130、路径划分模块140、左端确定模块142、右端确定模块144、N-BEST提取模块150、搜索文本接收模块170、搜索模块180、图像接收模块410、字符串提取模块420、划分位置提取模块430和候选字符提取模块440。
只读存储器(ROM)2902存储由CPU2901使用的程序、操作参数等等。随机访问存储器(RAM)2903存储由CPU2901执行时所使用的程序以及执行时根据需要而改变的参数。这些组件通过包括CPU总线等等的主机总线2904彼此连接。
主机总线2904通过桥2905连接到诸如外围组件互连/接口(PCI)的外部总线2906。
键盘2908和诸如鼠标的指点装置2909是由操作者操作的输入装置。显示装置2910可以是液晶显示器、阴极射线管(CRT)等等,并且将各种类型的信息显示为文本或图像信息。
硬盘驱动器(HDD)2911包括硬盘。HDD 2911驱动硬盘以记录或再现由CPU 2901执行的程序和信息。硬盘存储接收到的图像、字符识别结果、网络结构、目标字符串、被搜索文本、搜索文本等等。此外,硬盘存储各种计算机程序,例如各种数据处理程序。
驱动器2912读取驱动器2912中加载的诸如磁盘、光盘、磁光盘或半导体存储器的可移除的记录介质2913上记录的程序或数据,并且经由接口2907、外部总线2906、桥2905和主机总线2904将数据或程序提供给RAM 2903。可移除的记录介质2913可用作与硬盘类似的数据记录区域。
连接端口2914是外部连接装置2915所连接到的端口,并且具有用于USB、IEEE1394等等的连接端口。连接端口2914经由接口2907、外部总线2906、桥2905和主机总线2904连接到CPU 2901等等。通信单元2916连接到通信线路并且执行与外部的数据通信处理。数据读取单元2917例如为扫描仪,并且读取文档。数据输出单元2918例如为打印机,并且输出文档数据。
图29中所示的信息处理设备的硬件构造是构造的示例。该示例性实施方式的信息处理设备的硬件构造不限于图29中所示的构造,并且可以采用另外的构造,只要在示例性实施方式中描述的模块可以在其中执行。例如,一些模块可以由专用硬件(例如,专用集成电路(ASIC)等等)来构成,并且一些模块可以设置在外部系统中并且可以经由通信线路连接。此外,均是图29中所示的设备的多个设备可以经由经由通信线路彼此连接,以彼此协作地操作。或者,图29中所示的设备可以并入在复印机、传真机、扫描仪、打印机或多功能设备(具有扫描仪功能、打印机功能、复印功能、传真功能等等中的两种或更多种功能的图像处理设备)中。
在上述示例性实施方式中,示出了日文字符。然而,本示例性实施方式可以应用于诸如中文字符和英文字符的其它字符。
在上述示例性实施方式中,示出了在左侧开始并且在右侧结束的水平字符串。然而,本示例性实施方式可应用于垂直字符串和在右侧开始并且在左侧结束的水平字符串。例如,在垂直字符串的情况下,可以进行修改使得“左”变为“上”,并且“右”变为“下”。在右侧开始并且左侧结束的水平字符串的情况下,可以进行修改使得“左”变为“右”,并且“右”变为“左”。
虽然已经使用等式进行了描述,但是也可以使用与等式等效的等式。等效不仅包括这里使用的等式而且包括没有影响最终结果的等式的变型和对于等式的算术的求解。
上述程序可以通过存储在记录介质上来提供或者可以经由通信介质来提供。在此情况下,上述程序可以识别为为“其上记录有程序的计算机可读记录介质”。
“其上记录有程序的计算机可读介质”是其上记录有程序并且用于程序的安装、执行或分发的计算机可读记录介质。
记录介质的示例包括例如数字通用盘(DVD),例如,基于DVD论坛制定的标准的DVD-R、DVD-RW和DVD-RAM,以及基于由DVD+RW制定的标准的DVD+R和DVD+RW。而且,记录介质的示例包括紧凑盘(CD),例如,CD-ROM、CD-可记录(CD-R)和CD-可重写(CD-RW)。此外,记录介质的示例包括蓝光盘(Blu-ray disc注册商标);磁光(MO)盘;柔性盘(FD);磁带;硬盘;只读存储器(ROM);电可擦可编程只读存储器(EEPROM(注册商标));闪存;随机访问存储器(RAM)和安全数字存储卡(SD存储卡)。
上述程序的整体或者部分可以记录在记录介质上以进行存储或者分发。或者,程序的整体或部分可以经由有线网络或无线通信网络来传输,有线网络例如为局域网(LAN)、城域网(MAN)、广域网(WAN)、因特网、内联网或外联网。此外,程序的整体或部分可以使用包括前述介质的组合的传输介质来传输或者可以使用载波来进行传输。
此外,上述程序可以是另一程序的一部分,或者可以与另一程序一起记录在记录介质上。而且,程序可以被分割并且记录在多个记录介质上。程序可以任何形式(例如,压缩形式或加密形式)记录,只要程序可以被解压或解密。
出于例示和描述的目的,提供了本发明的示例性实施方式的前述描述。并非旨在对本发明进行穷举或者将本发明限于所公开的精确形式。显然,对于本领域技术人员来说明可以有多种变化和变型。选择了实施方式进行说明以最好地解释本发明的原理及其实际应用,以使本领域技术人员能够理解本发明的各种实施方式,以及适合于所设想的具体用途的各种变型。旨在由所附权利要求及其等同来限定本发明的范围。

Claims (20)

1.一种信息处理设备,所述信息处理设备包括:
网络创建单元,所述网络创建单元创建网络,在所述网络中,多个字符识别结果的各字符表示为节点,并且用链路连接相邻的字符图像的节点;
第一确定单元,所述第一确定单元确定所述网络中的第一候选边界;
第二确定单元,所述第二确定单元确定所述网络中不同于所述第一候选边界的第二候选边界;以及
提取单元,所述提取单元从均由所述第一候选边界与所述第二候选边界之间的节点形成的候选字符串的组中提取多个候选字符串作为被搜索对象。
2.根据权利要求1所述的信息处理设备,其中,所述第一确定单元将所述第一候选边界从所述网络的先头移动到末尾。
3.根据权利要求1所述的信息处理设备,其中,所述第一确定单元将所述第一候选边界设置为如下位置:在该位置处,包含所述第一候选边界上的字符图像的字符串中的字符图像之间的距离等于或大于阈值。
4.根据权利要求2所述的信息处理设备,其中,所述第一确定单元将所述第一候选边界设置为如下位置,在该位置处,包含所述第一候选边界上的字符图像的字符串中的字符图像之间的距离等于或大于阈值。
5.根据权利要求1至4中的任一项所述的信息处理设备,其中,所述第二确定单元将与所述第一候选边界相距预定数目的节点的位置确定为所述第二候选边界。
6.根据权利要求1至4中的任一项所述的信息处理设备,其中,所述第二确定单元将与所述第一候选边界上的字符图像隔开预定距离的位置确定为所述第二候选边界。
7.根据权利要求1至4中的任一项所述的信息处理设备,其中,所述第二确定单元将隔开了基于所述第一候选边界上的字符图像的高度的距离或者基于包含所述第一候选边界上的所述字符图像的字符串的高度的距离的位置确定为所述第二候选边界。
8.根据权利要求1至4中的任一项所述的信息处理设备,其中,所述提取单元计算均由所述第一候选边界与所述第二候选边界之间的节点形成的候选字符串的组的评估值,并且基于所述评估值提取多个候选字符串。
9.根据权利要求5所述的信息处理设备,其中,所述提取单元计算均由所述第一候选边界与所述第二候选边界之间的节点形成的候选字符串的组的评估值,并且基于所述评估值提取多个候选字符串。
10.根据权利要求6所述的信息处理设备,其中,所述提取单元计算均由所述第一候选边界与所述第二候选边界之间的节点形成的候选字符串的组的评估值,并且基于所述评估值提取多个候选字符串。
11.根据权利要求7所述的信息处理设备,其中,所述提取单元计算均由所述第一候选边界与所述第二候选边界之间的节点形成的候选字符串的组的评估值,并且基于所述评估值提取多个候选字符串。
12.根据权利要求1至4中的任一项所述的信息处理设备,所述信息处理设备进一步包括:
接收单元,所述接收单元接收搜索字符串;以及
搜索单元,所述搜索单元使用由所述提取单元提取的所述候选字符串作为被搜索字符串来搜索所述搜索字符串。
13.根据权利要求5所述的信息处理设备,所述信息处理设备进一步包括:
接收单元,所述接收单元接收搜索字符串;以及
搜索单元,所述搜索单元使用由所述提取单元提取的所述候选字符串作为被搜索字符串来搜索所述搜索字符串。
14.根据权利要求6所述的信息处理设备,所述信息处理设备进一步包括:
接收单元,所述接收单元接收搜索字符串;以及
搜索单元,所述搜索单元使用由所述提取单元提取的所述候选字符串作为被搜索字符串来搜索所述搜索字符串。
15.根据权利要求7所述的信息处理设备,所述信息处理设备进一步包括:
接收单元,所述接收单元接收搜索字符串;以及
搜索单元,所述搜索单元使用由所述提取单元提取的所述候选字符串作为被搜索字符串来搜索所述搜索字符串。
16.根据权利要求8所述的信息处理设备,所述信息处理设备进一步包括:
接收单元,所述接收单元接收搜索字符串;以及
搜索单元,所述搜索单元使用由所述提取单元提取的所述候选字符串作为被搜索字符串来搜索所述搜索字符串。
17.根据权利要求9所述的信息处理设备,所述信息处理设备进一步包括:
接收单元,所述接收单元接收搜索字符串;以及
搜索单元,所述搜索单元使用由所述提取单元提取的所述候选字符串作为被搜索字符串来搜索所述搜索字符串。
18.根据权利要求10所述的信息处理设备,所述信息处理设备进一步包括:
接收单元,所述接收单元接收搜索字符串;以及
搜索单元,所述搜索单元使用由所述提取单元提取的所述候选字符串作为被搜索字符串来搜索所述搜索字符串。
19.根据权利要求11所述的信息处理设备,所述信息处理设备进一步包括:
接收单元,所述接收单元接收搜索字符串;以及
搜索单元,所述搜索单元使用由所述提取单元提取的所述候选字符串作为被搜索字符串来搜索所述搜索字符串。
20.一种信息处理方法,所述信息处理方法包括:
创建步骤,所述创建步骤创建网络,在所述网络中,多个字符识别结果的各字符表示为节点,并且用链路连接相邻的字符图像的节点;
第一确定步骤,所述第一确定步骤确定所述网络中的第一候选边界;
第二确定步骤,所述第二确定步骤确定所述网络中不同于所述第一候选边界的第二候选边界;以及
提取步骤,所述提取步骤从均由所述第一候选边界与所述第二候选边界之间的节点形成的候选字符串的组中提取多个候选字符串作为被搜索对象。
CN201310545408.2A 2013-02-14 2013-11-06 信息处理设备和信息处理方法 Active CN103995816B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013-026808 2013-02-14
JP2013026808A JP6003705B2 (ja) 2013-02-14 2013-02-14 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
CN103995816A true CN103995816A (zh) 2014-08-20
CN103995816B CN103995816B (zh) 2018-10-02

Family

ID=51297462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310545408.2A Active CN103995816B (zh) 2013-02-14 2013-11-06 信息处理设备和信息处理方法

Country Status (4)

Country Link
US (1) US9280725B2 (zh)
JP (1) JP6003705B2 (zh)
KR (1) KR101685472B1 (zh)
CN (1) CN103995816B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121989A (zh) * 2016-11-29 2018-06-05 佳能株式会社 信息处理装置、存储介质及信息处理方法
CN108694400A (zh) * 2017-03-31 2018-10-23 佳能株式会社 信息处理装置、其控制方法及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016181468A1 (ja) * 2015-05-11 2016-11-17 株式会社東芝 パターン認識装置、パターン認識方法およびプログラム
JP6900164B2 (ja) * 2016-09-27 2021-07-07 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP7095345B2 (ja) * 2018-03-22 2022-07-05 富士フイルムビジネスイノベーション株式会社 情報処理装置、情報処理システム及びプログラム
US10685261B2 (en) * 2018-06-11 2020-06-16 GM Global Technology Operations LLC Active segmention of scanned images based on deep reinforcement learning for OCR applications
JP7387363B2 (ja) 2019-09-30 2023-11-28 キヤノン株式会社 データ入力支援装置、データ入力支援方法及びプログラム
CN111984689B (zh) * 2020-08-21 2023-07-25 北京百度网讯科技有限公司 信息检索的方法、装置、设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05174187A (ja) * 1991-12-25 1993-07-13 Matsushita Electric Ind Co Ltd 文字認識装置
JPH07262322A (ja) * 1994-03-22 1995-10-13 N T T Data Tsushin Kk 文字認識方法及び文字認識装置
JPH08293002A (ja) * 1995-04-21 1996-11-05 Matsushita Electric Ind Co Ltd 文字認識装置及び文字認識方法
JPH10207985A (ja) * 1997-01-27 1998-08-07 Oki Electric Ind Co Ltd 文字切り出し方法および文字切り出し装置
US20010037330A1 (en) * 2000-04-20 2001-11-01 Fuji Xerox Co., Ltd. Data input form retrieving system, data input form retrieving method, and computer-readable recording medium
CN101286202A (zh) * 2008-05-23 2008-10-15 中南民族大学 多字体多字号的基于彝文字符集的印刷体字符识别方法
CN102402576A (zh) * 2010-09-14 2012-04-04 株式会社理光 信息处理设备、信息处理方法及计算机程序产品
CN102479332A (zh) * 2010-11-30 2012-05-30 富士施乐株式会社 图像处理装置和图像处理方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61175878A (ja) 1985-01-31 1986-08-07 Mitsubishi Electric Corp 文書読取り装置
JPH0337782A (ja) 1989-07-04 1991-02-19 Mitsubishi Electric Corp 文字パターン切り出し装置
JPH03233789A (ja) 1990-02-09 1991-10-17 Hitachi Ltd Icカードおよび情報処理装置
JP2872768B2 (ja) 1990-07-10 1999-03-24 沖電気工業株式会社 文字切出し装置
JP2899383B2 (ja) 1990-08-06 1999-06-02 沖電気工業株式会社 文字切出し装置
JP2963508B2 (ja) 1990-08-20 1999-10-18 沖電気工業株式会社 文字切出し装置
JP2957729B2 (ja) 1991-04-09 1999-10-06 沖電気工業株式会社 行方向判定装置
JP3095470B2 (ja) 1991-09-13 2000-10-03 松下電器産業株式会社 文字認識装置
JPH05114047A (ja) 1991-10-23 1993-05-07 Oki Electric Ind Co Ltd 文字切り出し装置
JPH05128308A (ja) 1991-11-08 1993-05-25 Sumitomo Electric Ind Ltd 文字認識装置
JPH08161432A (ja) 1994-12-02 1996-06-21 Seiko Epson Corp 文字切り出し方法および文字切り出し装置
JPH0954814A (ja) 1995-08-04 1997-02-25 At & T Corp 入力記号表現の分析及び入力記号表現の可能解釈のスコアリングシステム
JP3313272B2 (ja) 1996-01-08 2002-08-12 株式会社日立製作所 住所読み取り方法および識別関数重みベクトル生成方法
JPH10154207A (ja) 1996-11-21 1998-06-09 Oki Electric Ind Co Ltd 文字切出し方法および文字切出し装置
US6128606A (en) * 1997-03-11 2000-10-03 At&T Corporation Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph
US6324302B1 (en) * 1997-05-30 2001-11-27 Ricoh Company, Ltd. Method and a system for substantially eliminating erroneously recognized non-solid lines
JP3601658B2 (ja) * 1997-12-19 2004-12-15 富士通株式会社 文字列抽出装置及びパターン抽出装置
JPH11203406A (ja) 1998-01-20 1999-07-30 Ricoh Co Ltd 文字切り出し方法、文字認識方法、文字認識装置および記録媒体
JP3852218B2 (ja) 1998-09-10 2006-11-29 富士ゼロックス株式会社 画像処理方法および画像処理装置
CN1145872C (zh) * 1999-01-13 2004-04-14 国际商业机器公司 手写汉字自动分割和识别方法以及使用该方法的系统
JP4421134B2 (ja) 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
JP4349183B2 (ja) * 2004-04-01 2009-10-21 富士ゼロックス株式会社 画像処理装置および画像処理方法
JP4756447B2 (ja) * 2005-02-28 2011-08-24 富士ゼロックス株式会社 教材処理装置、教材処理方法および教材処理プログラム
JP4750476B2 (ja) 2005-06-07 2011-08-17 キヤノン株式会社 文書検索装置及び方法と記憶媒体
JP2007233913A (ja) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2008192032A (ja) * 2007-02-07 2008-08-21 Fuji Xerox Co Ltd 文書処理装置、文書処理方法、プログラム
JP5090983B2 (ja) 2008-03-25 2012-12-05 シャープ株式会社 情報処理装置、情報処理方法、情報処理プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体
JP5672828B2 (ja) * 2010-08-03 2015-02-18 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP5807342B2 (ja) * 2011-02-21 2015-11-10 富士ゼロックス株式会社 文字認識装置及びプログラム
JP5508359B2 (ja) * 2011-08-03 2014-05-28 シャープ株式会社 文字認識装置、文字認識方法及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05174187A (ja) * 1991-12-25 1993-07-13 Matsushita Electric Ind Co Ltd 文字認識装置
JPH07262322A (ja) * 1994-03-22 1995-10-13 N T T Data Tsushin Kk 文字認識方法及び文字認識装置
JPH08293002A (ja) * 1995-04-21 1996-11-05 Matsushita Electric Ind Co Ltd 文字認識装置及び文字認識方法
JPH10207985A (ja) * 1997-01-27 1998-08-07 Oki Electric Ind Co Ltd 文字切り出し方法および文字切り出し装置
US20010037330A1 (en) * 2000-04-20 2001-11-01 Fuji Xerox Co., Ltd. Data input form retrieving system, data input form retrieving method, and computer-readable recording medium
CN101286202A (zh) * 2008-05-23 2008-10-15 中南民族大学 多字体多字号的基于彝文字符集的印刷体字符识别方法
CN102402576A (zh) * 2010-09-14 2012-04-04 株式会社理光 信息处理设备、信息处理方法及计算机程序产品
CN102479332A (zh) * 2010-11-30 2012-05-30 富士施乐株式会社 图像处理装置和图像处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121989A (zh) * 2016-11-29 2018-06-05 佳能株式会社 信息处理装置、存储介质及信息处理方法
CN108694400A (zh) * 2017-03-31 2018-10-23 佳能株式会社 信息处理装置、其控制方法及存储介质
CN108694400B (zh) * 2017-03-31 2023-04-18 佳能株式会社 信息处理装置、其控制方法及存储介质

Also Published As

Publication number Publication date
JP6003705B2 (ja) 2016-10-05
US9280725B2 (en) 2016-03-08
US20140226904A1 (en) 2014-08-14
KR101685472B1 (ko) 2016-12-20
JP2014157409A (ja) 2014-08-28
CN103995816B (zh) 2018-10-02
KR20140102589A (ko) 2014-08-22

Similar Documents

Publication Publication Date Title
CN103995816A (zh) 信息处理设备和信息处理方法
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
KR101235226B1 (ko) 화상 처리 장치, 화상 처리 방법 및 기록 매체
Ma et al. Joint layout analysis, character detection and recognition for historical document digitization
JP5699570B2 (ja) 画像処理装置及び画像処理プログラム
US20100211871A1 (en) Information processor, information processing method, and computer readable medium
CN103425974A (zh) 图像处理装置和图像处理方法
CN101814141A (zh) 存储介质、字符识别方法以及字符识别设备
JP5942361B2 (ja) 画像処理装置及び画像処理プログラム
US20150169973A1 (en) Incomplete patterns
KR101790544B1 (ko) 정보 처리 장치, 정보 처리 방법, 및 기억 매체
JP6007720B2 (ja) 情報処理装置及び情報処理プログラム
JP6201838B2 (ja) 情報処理装置及び情報処理プログラム
JP6511942B2 (ja) 情報処理装置および情報処理プログラム
JP2021028770A (ja) 情報処理装置及び表認識方法
JP2009181225A (ja) Ocr装置、証跡管理装置及び証跡管理システム
JP2007213255A (ja) 表認識装置、及びコンピュータプログラム
JP2000305933A (ja) 情報検索装置、情報検索方法、及び記憶媒体
JP6547301B2 (ja) 情報処理装置及び情報処理プログラム
JP4221960B2 (ja) 帳票識別装置及びその識別方法
JP4882929B2 (ja) 画像処理装置及び画像処理プログラム
JP5935324B2 (ja) 情報処理装置及び情報処理プログラム
JP2006072520A (ja) 情報処理装置及びその方法及びそのプログラム記録媒体
CN117610549A (zh) 文档处理、内容生成方法、装置及电子设备
JP6003677B2 (ja) 画像処理装置及び画像処理プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Tokyo, Japan

Patentee after: Fuji film business innovation Co.,Ltd.

Address before: Tokyo, Japan

Patentee before: Fuji Xerox Co.,Ltd.