CN110263781A

CN110263781A - 图像处理装置、图像处理方法以及存储介质

Info

Publication number: CN110263781A
Application number: CN201910179412.9A
Authority: CN
Inventors: 高林信久
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2018-03-12
Filing date: 2019-03-11
Publication date: 2019-09-20
Anticipated expiration: 2039-03-11
Also published as: CN110263781B; EP3540644A2; US20190279016A1; US10909404B2; EP3540644B1; JP2019159633A; EP3540644A3

Abstract

一种图像处理装置、图像处理方法以及存储介质，即使印刷于收据或账单的字符的一部分包含特殊尺寸的字符，也能够得到适当的字符识别结果。图像处理装置具备：获取部，获取通过读取收据或账单而生成的包含与字符的基准尺寸不同尺寸的特殊字符的读取图像；转换部，进行使读取图像中所包含的特殊字符的尺寸接近基准尺寸的转换处理；以及字符识别部，对转换处理后的读取图像进行字符识别处理。

Description

图像处理装置、图像处理方法以及存储介质

技术领域

本发明涉及用于执行字符识别处理的图像处理装置、图像处理方法以及存储介质。

背景技术

已知有如下技术：对收据、发票等进行撮影并通过光学字符识别来提取所记载的信息(参照专利文献1)。

专利文献1：日本特开2017-174309号公报

对于印刷于收据等的字符中的一部分特殊尺寸的字符，在通过字符识别处理进行读取时，有时无法获得正确的字符识别结果。

发明内容

一种图像处理装置，其具备：获取部，获取通过读取收据或账单而生成的包含与字符的基准尺寸不同尺寸的特殊字符的读取图像；转换部，进行使所述读取图像中所包含的所述特殊字符的尺寸接近所述基准尺寸的转换处理；以及字符识别部，对所述转换处理后的所述读取图像进行字符识别处理。

一种图像处理方法，其具备：获取工序，获取通过读取收据或账单而生成的包含与字符的基准尺寸不同尺寸的特殊字符的读取图像；转换工序，进行使所述读取图像中所包含的所述特殊字符的尺寸接近所述基准尺寸的转换处理；以及字符识别工序，对所述转换处理后的所述读取图像进行字符识别处理。

一种计算机可读取的存储介质，其存储有图像处理程序，所述图像处理程序使计算机执行如下功能：获取功能，获取通过读取收据或账单而生成的包含与字符的基准尺寸不同尺寸的特殊字符的读取图像；转换功能，进行使所述读取图像中所包含的所述特殊字符的尺寸接近所述基准尺寸的转换处理；以及字符识别功能，对所述转换处理后的所述读取图像进行字符识别处理。

附图说明

图1是简易表示系统结构的图。

图2是表示图像处理装置执行的处理的流程图。

图3是用于说明步骤S110、S120的处理的具体例的图。

图4A是示例表示作为步骤S130的第一字符识别处理结果的文本数据的图。

图4B是示例表示作为步骤S170中生成的字符识别处理结果的文本数据的图。

图5A是表示基准尺寸的半角字符变形为更大尺寸的情形的图。

图5B是表示基准尺寸的全角字符变形为更大尺寸的情形的图。

图6是表示步骤S140、S150、S160处理的具体例的流程图。

图7是表示步骤S150B、S150C对读取图像的一部分字符区域进行转换的具体例的图。

图8是表示图像处理装置执行的第二实施方式涉及的处理的流程图。

附图标记说明

1…系统、10…扫描仪、20…通信装置、21…控制部、21a…CPU、21b…ROM、21c…RAM、22…程序、23…通信IF、30…主服务器、31…控制部、31a…CPU、31b…ROM、31c…RAM、32…程序、33…通信IF、34…存储部、35…OCR引擎、40…存储服务器、IM…读取图像、NW…网络。

具体实施方式

以下，参照各图对本发明的实施方式进行说明。需要注意的是，各图只不过是用于说明本实施方式的例示。

1.系统的概略说明

图1简易表示本实施方式涉及的系统1的结构。系统1包括扫描仪10、通信装置20、主服务器30、存储服务器40。主服务器30以及存储服务器40是能够通过互联通信网向用户提供云服务的服务器。

扫描仪10是能够对原稿进行光学读取而生成作为读取结果的预定格式的图像数据并将图像数据向外部输出的读取装置。扫描仪10也可以是除了作为扫描仪的功能之外还兼具印刷功能、传真通信功能等多个功能的复合机。扫描仪10以能够通过有线或无线与通信装置20进行通信的方式与通信装置20连接，将图像数据向通信装置20发送。

通信装置20例如通过个人电脑(PC)、智能手机、平板型终端、便携式电话机、或具有与这些相同程度处理能力的信息处理装置来实现。通信装置20具备控制部21、通信IF(接口)23、显示部24、操作接收部25等。控制部21构成为包括具有作为处理器的CPU21a、ROM21b、RAM21c等的一个或多个IC、和其它存储器等。

在控制部21中，处理器(CPU21a)将RAM21c等作为工作区域使用来执行按照存储在ROM21b、ROM21b以外的存储器等的程序进行的运算处理，从而对通信装置20进行控制。控制部21作为程序之一安装有程序22。程序22是用于将扫描仪10通过读取原稿而生成的图像数据向主服务器30上传的应用程序。

通信IF23是供通信装置20以包括公知通信规格在内的预定通信协议为基准利用有线或无线与外部执行通信的一个或多个IF的总称。通信装置20不仅与扫描仪10连接，还经由通信IF23与网络NW连接。网络NW包括本地区域网络(LAN)、互联通信网、其它公共电线等。

显示部24是用于显示视觉信息的构件，例如由液晶显示器(LCD)、有机EL显示器等构成。显示部24也可以构成为包括显示器、和用于驱动显示器的驱动电路。操作接收部25是用于接收用户操作的构件，例如由物理按钮、触摸屏、鼠标、键盘等来实现。当然，触摸屏也可以作为显示部24的一个功能来实现。可以将显示部24以及操作接收部25包含在内称呼为通信装置20的操作面板。

扫描仪10和通信装置20可以是如图1所例示那样彼此独立的装置，但实际情况下，它们整体也可以包含在一个装置中。具体而言，扫描仪10也可以通过包含通信装置20的结构，作为兼具经由网络NW与外部的通信功能的复合机来实现。

主服务器30通过在网络NW上作为服务器发挥功能的一台或多台信息处理装置来实现。主服务器30具备控制部31、通信IF33、存储部34等。控制部31构成为包括具有作为处理器的CPU31a、ROM31b、RAM31c等的一个或多个IC、其它存储器等。在控制部31中，处理器(CPU31a)将RAM31c等作为工作区域使用来执行按照存储在ROM31b、存储部34等的程序进行的运算处理，从而对主服务器30进行控制。控制部31作为程序之一安装有程序32。程序32相当于主服务器30的控制部31执行的图像处理程序。另外，执行程序32的主服务器30相当于图像处理装置的具体例。

通信IF33是供主服务器30以包含公知通信规格在内的预定通信协议为基准利用有线或无线与外部执行通信的一个或多个IF的总称。存储部34例如是由硬盘驱动器、非挥发性存储器构成的存储构件，在本实施方式中，预先存储有OCR(Optical CharacterRecognition：光学字符识别)引擎35等。OCR引擎35是用于执行字符识别处理的软件的一种。也可以不仅是程序32将包含OCR引擎35在内称为图像处理程序。

在图1的例子中，主服务器30以能够与存储服务器40通信的方式与存储服务器40连接。存储服务器40通过在网络NW上作为服务器发挥功能的一台或多台信息处理装置来实现。存储服务器40是用于从主服务器30获取数据并存储的服务器。需要注意的是，主服务器30和存储服务器40既可以作为装置明确分开也可以不分开，例如，也可以是共用的服务器作为主服务器30以及存储服务器40发挥功能的结构。虽然在图1中未示出，但也可以与主服务器30、存储服务器40连接有操作员操作这些服务器所需的显示部、操作接收部。

为了便于区分主服务器30侧的结构即控制部31、程序32、通信IF33等与通信装置20侧的结构即控制部21、程序22、通信IF23等，方便起见，也可以表述为第一控制部31、第一程序32、第一通信IF33、第二控制部21、第二程序22、第二通信IF23等。

2.字符识别处理

图2通过流程图来表示主服务器30的控制部31按照程序32执行的图像处理。可以说该流程图的至少一部分表示图像处理方法。

在系统1中，首先，扫描仪10读取用户任意设置的原稿而生成图像数据。在本实施方式中，用户使扫描仪10读取的原稿是在店铺等发行的收据或账单。以下，也将用户使扫描仪10读取的收据或账单简称为原稿。扫描仪10将通过读取原稿而生成的图像数据(以下，读取图像)向通信装置20发送。可以是，通信装置20的控制部21经由通信IF23指示扫描仪10对原稿的读取开始，扫描仪10按照来自控制部21的对原稿的读取开始指示来开始原稿的读取。

在通信装置20中，执行程序22的控制部21将从扫描仪10接收到的读取图像经由通信IF23以及网络NW向主服务器30上传。

在主服务器30中，控制部31经由通信IF33获取从通信装置20发送的读取图像(步骤S100)。需要注意的是，也可以是，控制部31将从通信装置20接收到的读取图像暂时存储在存储部34，在步骤S100中，从存储部34获取读取图像。步骤S100相当于获取通过读取收据或账单而生成的读取图像的获取工序。另外，在实现步骤S100这点上，可以说执行程序32的控制部31作为获取读取图像的获取部36发挥功能。

在步骤S110中，控制部31在读取图像内设定字符行。字符行是在读取图像内字符横向排列的区域。字符行的横向长度(横宽)是读取图像的横宽，字符行的纵向长度(纵宽)取决于字符行内所包含的字符的纵宽。

字符行的设定方法多种多样，控制部31例如使用阈值将读取图像二进制化，将构成读取图像的各像素转换为黑像素和白像素中的任一种。在此使用的阈值是适于将读取图像中对应于字符的像素和不对应于字符的像素(例如，对应于余白的像素)分开的预先设定的阈值。或者，也可以是，控制部31生成构成读取图像的像素的颜色、亮度的分布(柱状图)，对这些柱状图进行解析，从而决定适于将对应于字符像素和不对应于字符像素分开的所述阈值。但是，所述二进制化不是必需的处理，控制部31能够判断构成读取图像的各像素是对应于字符的像素和不对应于字符的像素中的哪一个即可。

控制部31将构成读取图像的各像素行分类为包含一个以上的对应于字符的像素即黑像素的像素行(第一像素行)、和仅由不对应于字符的像素即白像素构成的像素行(第二像素行)。像素行是像素在读取图像的横向上连续的区域，像素行的横宽是读取图像的横宽，像素行的纵宽是一个像素的纵宽。控制部31将第一像素行在读取图像的纵向上连续的区域设定为一个字符行。在第一像素行在纵向连续的区域与第一像素行沿纵向连续的另一个区域之间，存在一个以上的第二像素行。控制部31也可以将在第一像素行沿纵向连续的区域的上端和下端分别附加有几个第二像素行的区域设定为一个字符行。字符行和字符行既可以在读取图像内沿纵向相接，也可以在字符行与字符行之间夹有仅由第二像素行构成的空白区域。

图3是用于使用具体例来说明步骤S110、S120的处理的图。图3中示出在步骤S100中控制部31所获取的读取图像IM的一部分。读取图像IM是扫描仪10通过读取到用户所使用店铺发行的收据而生成的图像数据。图3所示的朝向读取图像IM的横向的多个虚线表示在步骤S110设定的各字符行的上端或下端。即，在图3中示出用这样的上端和下端的线划分出的各字符行CL1、CL2、CL3、CL4、CL5、CL6、CL7。

在步骤S120中，控制部31在步骤S110中设定的字符行内设定作为字符单位区域的字符区域。控制部31将在字符行内包含一个似字符图形的矩形区域设定为一个字符区域。“作为字符单位区域的字符区域”只是执行程序32的处理器(CPU31a)在步骤S120的阶段掌握为一个字符的图像区域。因此，例如，构成一个字符的各要素(例如，汉字的各部首)也有可能被设定在各自不同的字符区域。

字符区域的设定方法多种多样，例如控制部31将构成字符行的各像素列分类为包含一个以上的对应于字符的像素即黑像素的像素列(第一像素列)和仅由不对应于字符的像素即白像素构成的像素列(第二像素列)。构成字符行的像素列是像素在字符行内沿纵向连续的区域。构成字符行的像素列的横宽是一个像素的横宽，构成字符行的像素列的纵宽是字符行的纵宽。控制部31在字符行内将第一像素列在读取图像的横向上连续的区域设定为一个字符区域。在字符行内，在第一像素列沿横向连续的区域与第一像素列沿横向连续的另一个区域之间存在一个以上的第二像素列。也可以是，控制部31将在第一像素列沿横向连续的区域的左端和右端分别附加有几个第二像素列的区域设定为一个字符区域。在字符行内，字符区域和字符区域既可以沿横向相接，也可以在字符区域与字符区域之间夹有仅由第二像素列构成的空白区域。

在图3中，各字符行CL1-CL7内的各矩形表示在步骤S120设定的一个个的字符区域CF。在实现这样的步骤S110、S120这点上，可以说执行程序32的控制部31作为设定读取图像所包含的字符单位的区域即字符区域的设定部38发挥功能。

在步骤S130中，控制部31启动OCR引擎35，使OCR引擎35执行以在步骤S120设定的字符区域为对象的字符识别处理。OCR引擎35依次输入作为图像的字符区域，将从图像识别(推测)出的字符作为字符数据(文本数据)输出。控制部31将作为步骤S130的字符识别处理结果的文本数据暂时存储在例如存储部34。也将步骤S130的字符识别处理称为第一字符识别处理。

图4A示例表示作为第一字符识别处理结果的文本数据TD1。对文本数据TD1和图3的读取图像IM进行比较可知，在第一字符识别处理结果中，读取图像IM所包含的字符不一定被准确地识别。例如，读取图像IM的字符行CL5所包含的“合計”的字符被误识别成“舗”而成为文本数据TD1的一部分。另外，在读取图像IM的字符行CL5内，存在于“合計”的字符右侧的“￥1，200”的字符在第一字符识别处理中没能识别，未存在于文本数据TD1内。

对如此第一字符识别处理的结果容易缺乏准确性的理由进行说明。

在扫描仪10读取的收据等原稿中，有时一部分字符以与其它字符相比较大的尺寸印刷。在读取图像IM的例子中，上述的“合計”、与“合計”同一行内的“￥1，200”的字符等以纵宽比其它字符大的尺寸印刷。在收据等中，与金额相关的字符、店铺名等被特别重视的一部分信息以较大尺寸印刷的情况较多。

在当今的一般印刷系统中，在字符呈现中使用轮廓字体，字符是与其字体尺寸无关地保持纵横比来印刷。另一方面，在用于收据等印刷情况较多的热敏打印机、串行点矩阵击打式(SIDM)打印机等中，为了将持有的信息、结构最小化而执行有效印刷，大多是具有基准尺寸(例如，相当于字号10.5的尺寸)的字体数据，对于其它尺寸的字符，改变基准尺寸的字体而实现所需尺寸。因此，在收据等中如上那样以较大尺寸印刷的字符大多是基准尺寸的字符的纵横比变更的字符。

图5A以及图5B例示用于印刷收据等情况较多的热敏打印机、SIDM打印机在印刷处理中使基准尺寸的字符变形而生成比基准尺寸大的字符的情形。

图5A表示(A)所示的基准尺寸的半角字符“2”变形为更大尺寸的情形。即，图5A的(B)表示将基准尺寸的半角字符“2”的图像横向放大2倍后的图像。将横向放大2倍也表述为横倍。图5A的(C)表示将基准尺寸的半角字符“2”的图像纵向放大2倍后的图像。将纵向放大2倍也表述为纵倍。图5A的(D)表示将基准尺寸的半角字符“2”的图像横向以及纵向分别放大2倍后的图像。将横向以及纵向分别放大2倍也表述为4倍。

图5B表示(E)所示的基准尺寸的全角字符“合”变形为更大尺寸的情形。即，图5B的(F)表示将基准尺寸的全角字符“合”的图像横倍后的图像。图5B的(G)表示将基准尺寸的全角字符“合”的图像纵倍后的图像。图5B的(H)表示将基准尺寸的全角字符“合”的图像4倍后的图像。一般而言，用于字符识别处理的OCR引擎35对图5A、图5B所例示那样的大尺寸字符的图像进行的字符识别精度不一定良好，特别是，对呈现纵横比变更基准尺寸时的纵横比后的字符的图像，字符识别精度容易降低。因此，如使用图4A的例子进行说明的那样，有时第一字符识别处理的结果缺乏准确性。鉴于这样的问题，在本实施方式中，执行步骤S140～S160。

在步骤S140中，控制部31抽出在步骤S120设定的字符单位的字符区域中的特殊字符的区域即特殊字符区域。特殊字符是指与字符的基准尺寸不同尺寸的字符。在本实施方式中，在利用步骤S100获取的读取图像中包含有特殊字符。

在步骤S150中，控制部31对特殊字符区域进行使尺寸接近基准尺寸的转换处理。

在步骤S160中，控制部31使OCR引擎35执行以所述转换处理后的读取图像为对象的字符识别处理。即，OCR引擎35依次输入作为图像的通过步骤S150进行的转换处理后的字符区域，将从图像识别(推测)出的字符作为字符数据(文本数据)输出。控制部31将作为步骤S160的字符识别处理结果的文本数据暂时存储在例如存储部34。为了与步骤S130的字符识别处理进行区別，将步骤S160的字符识别处理也称为第二字符识别处理。

在实现步骤S150这一点上，也可以说执行程序32的控制部31作为进行使读取图像所包含的特殊字符的尺寸接近基准尺寸的转换处理的转换部37发挥功能。另外，在实现步骤S160这一点上，也可以说控制部31作为对所述转换处理后的读取图像进行字符识别处理的字符识别部发挥功能。也可以将使用OCR引擎35执行字符识别处理的处理器(CPU31a)称为字符识别部。另外，步骤S150相当于将使读取图像所包含的特殊字符的尺寸接近基准尺寸的转换处理的转换工序，步骤S160相当于对所述转换处理后的读取图像进行字符识别处理的字符识别工序。

图6通过流程图来表示步骤S140、S150、S160处理的具体例。步骤S140A、S150A、S160A表示以步骤S120中设定的字符区域为对象的步骤S140、S150、S160的处理。同样，步骤S140B、S150B、S160B、步骤S140C、S150C、S160C、步骤S140D、S150D、S160D、步骤S140E、S150E、S160E分别表示以步骤S120中设定的字符区域为对象的步骤S140、S150、S160的处理。但是，步骤S120中设定的一个字符区域不会成为步骤S140A、S150A、S160A的处理、步骤S140B、S150B、S160B的处理、步骤S140C、S150C、S160C的处理、步骤S140D、S150D、S160D的处理、步骤S140E、S150E、S160E的处理中的多个处理的对象。

在步骤S140A中，控制部31抽出步骤S120中设定的字符区域中纵宽为字符区域的纵宽的众数的2倍且纵横比为1：1的字符区域。字符区域的纵宽是字符区域所包含的字符行的纵宽。

参照图3的例子，控制部31获取字符行CL1-CL7各自的纵宽中的众数。在通过读取收据而生成的读取图像IM中，字符行CL1-CL7中大多数字符行的纵宽与上述那样的基准尺寸的纵宽相同，一部分字符行的纵宽为比较大的纵宽，这样的情况较多。但是，在对读取图像所包含的字符行彼此的纵宽进行比较时，有时即使是大致相同的纵宽但也不会完全一致。鉴于这种情况，控制部31在对读取图像所包含的字符行彼此的纵宽进行比较时，即使存在预定程度范围内的差异也可以视为相同纵宽。列举一个例子的话，在对字符行彼此的纵宽进行比较时，在将一方的纵宽设为100％，另一方的纵宽在95％～105％的范围内时，视为进行比较的两字符行的纵宽相同。并且，控制部31例如将视为相同的多个字符行的纵宽的平均值作为字符区域的纵宽的众数。

参照图5A、5B，图5B中(H)所示那样的全角字符4倍后的图像对应于纵宽为字符区域的纵宽的众数的2倍且纵横比为1：1的字符区域。即，通过步骤S140A，将步骤S120中设定的字符区域中包含基准尺寸的全角字符4倍后的字符的字符区域抽出为特殊字符区域。

但是，当在步骤S140中抽出特殊字符区域时，“纵宽为字符区域的纵宽的众数的N倍(例如N＝2)”并不是严格意义上的N倍，即使存在预定程度范围内的差异，控制部31也可以视为N倍的纵宽。同样，对于在步骤S140中应抽出的特殊字符区域的纵横比，也不是要求严格意义上的纵横比(例如1：1)，可以允许预定程度范围内的差异。

在步骤S150A中，控制部31以在步骤S140A中抽出的字符区域(特殊字符区域)各自为对象，纵向以及横向分别压缩1/2。即，进行使基准尺寸的全角字符成为4倍后的字符返回基准尺寸的全角字符的转换处理。在步骤S160A中，控制部31以在步骤S150A中转换后的字符区域为对象，执行OCR引擎35的字符识别处理。在步骤S140中抽出的特殊字符区域是读取图像的一部分。因此，在步骤S160中对在步骤S150中将特殊字符区域进行转换后的字符区域进行字符识别处理包含在对转换处理后的读取图像进行字符识别处理的概念中。

在步骤S140B中，控制部31抽出步骤S120中设定的字符区域中纵宽为字符区域的纵宽的众数的2倍且纵横比为2：1的字符区域。参照图5A、5B，图5A中(D)所示那样的半角字符4倍后的图像、图5B中(G)所示那样的全角字符纵倍后的图像对应于纵宽为字符区域的纵宽的众数的2倍且纵横比为2：1的字符区域。即，通过步骤S140B，将步骤S120中设定的字符区域中包含基准尺寸的半角字符4倍后的字符的字符区域和包含基准尺寸的全角字符纵倍后的字符的字符区域抽出为特殊字符区域。

在步骤S150B中，控制部31以在步骤S140B抽出的字符区域(特殊字符区域)各自为对象，纵向压缩1/2。由此，基准尺寸的全角字符纵倍后的字符返回到基准尺寸的全角字符。另外，基准尺寸的半角字符4倍后的字符转换为基准尺寸的全角字符。在步骤S160B中，控制部31以在步骤S150B转换后的字符区域为对象，进行OCR引擎35的字符识别处理。

图3所示的读取图像IM的字符行CL5中所包含的“合計”是基准尺寸的全角字符纵倍后的字符。因此，分别包含该“合計”的各字符“合”、“計”的各字符区域CF在步骤S140B中抽出为特殊字符区域，成为步骤S150B以及步骤S160B的处理对象。

在步骤S140C中，控制部31抽出在步骤S120设定的字符区域中纵宽为字符区域的纵宽的众数的2倍且纵横比为4：1的字符区域。参照图5A、5B，图5A中(C)所示那样的半角字符纵倍后的图像对应于纵宽为字符区域的纵宽的众数的2倍且纵横比为4：1的字符区域。即，通过步骤S140C，将步骤S120中设定的字符区域中包含基准尺寸的半角字符纵倍后的字符的字符区域抽出为特殊字符区域。

在步骤S150C中，控制部31以在步骤S140C抽出的字符区域(特殊字符区域)各自为对象，纵向压缩1/2。由此，基准尺寸的半角字符纵倍后的字符返回到基准尺寸的半角字符。在步骤S160C中，控制部31以在步骤S150C转换后的字符区域为对象，执行OCR引擎35的字符识别处理。

图3所示的读取图像IM的字符行CL5中所包含的“￥1，200”是基准尺寸的半角字符纵倍后的字符。因此，将分别包含构成该“￥1，200”的各字符的各字符区域CF在步骤S140C中抽出为特殊字符区域，成为步骤S150C以及步骤S160C的处理对象。

图7例示构成读取图像IM的字符行CL5中所包含的“合計”、“￥1，200”的每个字符的各字符区域CF被实施步骤S150B、步骤S150C中任一方的转换处理而纵向压缩1/2的情形。

在步骤S140D中，控制部31抽出在步骤S120设定的字符区域中纵宽为字符区域的纵宽的众数的1倍且纵横比为1：2的字符区域。参照图5A、5B，图5B中(F)所示那样的全角字符横倍后的图像对应于纵宽为字符区域的纵宽的众数的1倍且纵横比为1：2的字符区域。即，通过步骤S140D，将步骤S120中设定的字符区域中包含基准尺寸的全角字符横倍后的字符的字符区域抽出为特殊字符区域。

在步骤S150D中，控制部31以在步骤S140D抽出的字符区域(特殊字符区域)各自为对象，横向压缩1/2。由此，基准尺寸的全角字符横倍后的字符返回到基准尺寸的全角字符。在步骤S160D中，控制部31以在步骤S150D转换后的字符区域为对象，执行OCR引擎35的字符识别处理。

在步骤S140E中，控制部31抽出在步骤S120设定的字符区域中纵宽为字符区域的纵宽的众数的1倍且纵横比为1：1的字符区域。参照图5A、5B，图5A中(B)所示那样的半角字符横倍后的图像、图5B中(E)所示那样的全角字符的图像对应于纵宽为字符区域的纵宽的众数的1倍纵横比为1：1的字符区域。即，通过步骤S140E，将步骤S120中设定的字符区域中包含基准尺寸的半角字符横倍后的字符的字符区域和包含比基准尺寸的半角字符大的基准尺寸的全角字符的字符区域抽出为特殊字符区域。

在步骤S150E中，控制部31以在步骤S140E抽出的字符区域(特殊字符区域)各自为对象，横向压缩1/2。由此，基准尺寸的半角字符横倍后的字符返回到基准尺寸的半角字符。另外，基准尺寸的全角字符转换为基准尺寸的半角字符。在步骤S160E中，控制部31以在步骤S150E转换后的字符区域为对象，执行OCR引擎35的字符识别处理。

控制部31也可以在步骤S140、S150、S160中并行实施图6所示的步骤S140A、S150A、S160A的处理、步骤S140B、S150B、S160B的处理、步骤S140C、S150C、S160C的处理、步骤S140D、S150D、S160D的处理、步骤S140E、S150E、S160E的处理。或者，控制部31也可以在步骤S140、S150、S160中依次实施图6所示的步骤S140A、S150A、S160A的处理、步骤S140B、S150B、S160B的处理、步骤S140C、S150C、S160C的处理、步骤S140D、S150D、S160D的处理、步骤S140E、S150E、S160E的处理。

根据到此为止的说明，在步骤S150(步骤S150A、S150B、S150C、S150D、S150E)中，可以说上述热敏打印机、SIDM打印机等所采用的全角字符的预定基准尺寸、半角字符的预定基准尺寸对应于将读取图像中所包含的字符的尺寸转换为字符的基准尺寸这样情况下基准尺寸。另外，可以将在对收据等的印刷中实施上述那样的纵倍、横倍、4倍等放大处理之前的字符的尺寸称为基准尺寸。或者作为其它表述，可以说纵宽为字符区域的纵宽的众数且纵横比为1：1的字符区域的尺寸(全角字符的基准尺寸)、纵宽为字符区域的纵宽的众数且纵横比为2：1的字符区域的尺寸(半角字符的基准尺寸)是基准尺寸。另外，在本实施方式中，有时将字符区域的纵宽的众数称为基准尺寸的基准宽。

如此，通过步骤S150(步骤S150A、S150B、S150C、S150D、S150E)对特殊字符区域实施转换处理，由此特殊字符区域中所包含的字符即特殊字符称为适合字符识别处理(OCR引擎35容易正确进行字符识别)的尺寸。因此，与第一字符识别处理相比，步骤S160(步骤S160A、S160B、S160C、S160D、S160E)的第二字符识别处理字符识别精度提高。即，图3所示的读取图像IM的字符行CL5中所包含的“合計”的字符通过步骤S160B的第二字符识别处理而准确地进行字符识别，字符行CL5中所包含的“￥1，200”的字符通过步骤S160C的第二字符识别处理而准确地进行字符识别。

在步骤S170中，控制部31基于步骤S130的第一字符识别处理的结果和步骤S160的第二字符识别处理的结果而生成对读取图像的字符识别处理的结果。在这种情况下，控制部31以读取图像中字符区域位置所对应的字符彼此来对第一字符识别处理的结果即文本数据和第二字符识别处理的结果即文本数据进行比较。并且，将第一字符识别处理的结果即文本数据中与所比较的第二字符识别处理的结果即文本数据不同的部分替换为所比较的第二字符识别处理的结果即文本数据。在此所说的替换不仅包括通过存在于第二字符识别处理的结果即文本数据中的字符替换存在于第一字符识别处理的结果即文本数据中的字符的处理，还包括通过存在于第二字符识别处理的结果即文本数据中的字符对第一字符识别处理的结果即文本数据中不存在的字符进行补充的处理。

图4B例示根据作为第一字符识别处理结果的文本数据TD1和作为第二字符识别处理结果的文本数据TD2而通过步骤S170生成的对读取图像的字符识别处理结果。与图4A进行比较可知，图4B的文本数据TD1的一部分被文本数据TD2替换。即，对读取图像IM的字符行CL5中所包含的“合計”的字符进行第一字符识别处理的识别结果即“舗”的字符被替换为第二字符识别处理的识别结果即“合計”的字符。另外，读取图像IM的字符行CL5中所包含的“￥1，200”的字符在第一字符识别处理的识别结果中欠缺，这样的欠缺通过第二字符识别处理的识别结果即“￥1，200”的字符来补充。

在此，通过步骤S140E(图6)从在步骤S120设定的字符区域中抽出的字符区域对应于基准尺寸的全角字符。即，作为字符识别处理的对象，通过步骤S140E抽出的字符区域是适当的尺寸之一，通过步骤S130的第一字符识别处理已获得正确的字符识别结果的可能性高。因此，在本实施方式中，控制部31也可以采用在步骤S140、S150、S160中不执行图6所示的处理中步骤S140E、S150E、S160E的处理的结构。

但是，并不意味着在步骤S140、S150、S160中执行步骤S140E、S150E、S160E的处理无意义。例如，假设如下情况：基准尺寸的全角字符的“合計”这样的字符列被横倍后印刷于收据，扫描仪10读取该收据而生成的读取图像在步骤S100获取。“合計”被横倍后印刷，因此构成“計”的两个部首“言”以及“十”分别对应于基准尺寸的全角字符。在这种情况下，在步骤S120中，控制部31有可能对构成“計”的“言”和“十”各自设定不同的字符区域。在这种状况下，本应构成一个字符“計”的“言”以及“十”在步骤S130的第一字符识别处理中各自被识别为一个字符的可能性高。因此，在步骤S140、S150、S160中，若不执行步骤S140E、S150E、S160E的处理，则步骤S130的第一字符识别处理的结果(将“計”识别为“言”以及“十”的结果)在步骤S170中作为字符识别处理的结果而采用。

相对于此，若设为在步骤S140、S150、S160中执行步骤S140E、S150E、S160E的处理的结构，则在读取图像内对应于基准尺寸的全角字符的“言”以及“十”分别在步骤S140E中抽出。然后，在步骤S140E抽出的“言”以及“十”通过步骤S150E分别被横向压缩1/2而转换为半角字符的尺寸。因而，在步骤S160E的字符识别处理(第二字符识别处理)中，所述转换后的“言”以及“十”的组合被识别为一个字符“計”的可能性提高，在步骤S170中能够容易获得更正准确的字符识别处理的结果。另外，若基于如此将基准尺寸的全角字符横向压缩1/2而转换为半角字符的尺寸这样的思想，则在图6的步骤S150B中，控制部31也可以将在步骤S140B抽出的字符区域(特殊字符区域)纵向以及横向分别压缩1/2。在这种情况下，在步骤S150B中，基准尺寸的全角字符纵倍后的字符(参照图5B的(G))被转换为基准尺寸的半角字符。另外，在步骤S150B中，基准尺寸的半角字符4倍后的字符(参照图5A的(D))被转换为基准尺寸的半角字符。

在步骤S180中，控制部31将在步骤S170生成的字符识别处理结果即文本数据向存储服务器40存储。在这种情况下，控制部31将在步骤S170生成的字符识别处理结果与在步骤S100获取的读取图像一起向存储服务器40存储。以上，图2的流程图结束。

也可以是，控制部31向在步骤S170生成的字符识别处理结果(文本数据)增加与步骤S120中设定的字符区域中通过步骤S130的第一字符识别处理和步骤S160的第二字符识别处理都不能识别的字符区域相关的、表示不能字符识别的意思的预定信息。控制部31例如向在步骤S170生成的字符识别处理结果即文本数据中与所述不能字符识别的字符区域对应的位置插入特定记号。

关于通过字符识别处理不能识别的字符，能够通过人的目视来确定是什么样的字符。即，操作存储服务器40的操作员使存储在存储服务器40的读取图像和与读取图像一起存储的在步骤S170生成的字符识别处理结果即文本数据显示在预定的显示部。然后，操作员对所显示的文本数据中与插入有所述特定记号的位置对应的字符，通过目视读取图像来执行确定是哪个字符的字符编辑作业即可。

当然，操作员进行的所述字符编辑作业也可以是由主服务器30接收的结构。即，控制部31根据操作员的操作，使读取图像和对应于读取图像在步骤S170生成的字符识别处理结果即文本数据显示在预定的显示部，在此基础上接收由操作员进行的所述字符编辑作业。然后，控制部31也可以将经所述字符编辑作业的文本数据与读取图像一起向存储服务器40存储(步骤S180)。

与读取图像一起存储在存储服务器40的字符识别处理结果即文本数据通过网络NW向外部提供。存储在存储服务器40的文本数据是呈现记载于收据、账单这样原稿的字符列的文本数据。因此，存储在存储服务器40的文本数据例如经由网络NW向进行会计处理、税务处理的会计事务所操作的终端发送，供用于会计处理、税务处理。另外，存储在存储服务器40的文本数据通过与网络NW连接的打印机来印刷，或根据通信装置20以及扫描仪10的用户请求而通过网络NW向通信装置20发送。

3.总结

如此，根据本实施方式，图像处理装置(主服务器30)具备：获取部36，获取通过读取收据或账单而生成的包含与字符的基准尺寸不同尺寸的特殊字符的读取图像；转换部37，进行使所述读取图像中所包含的所述特殊字符的尺寸接近所述基准尺寸的转换处理；以及字符识别部，对所述转换处理后的读取图像进行字符识别处理。

根据上述结构，图像处理装置能够对包含转换为基准尺寸或向接近基准尺寸的尺寸转换后的字符的图像进行字符识别处理。因此，与对印刷在收据等的字符中一部分特殊尺寸字符难以获得正确的字符识别结果的以往相比，能够获得更适当的字符识别结果。

在与图6的步骤S150(S150A、S150B、S150C、S150D、S150E)相关的说明中，进行了通过将特殊字符区域纵向以及/或者横向压缩而使特殊字符区域内的字符(特殊字符)的尺寸返回到基准尺寸这样容易理解的说明。但是，步骤S150的转换处理不是保证特殊字符的尺寸转换为基准尺寸的处理。通过步骤S150的转换处理，使得特殊字符的尺寸转换为基准尺寸是一个理想情况，实际上有时即使执行了步骤S150的转换处理，转换处理后的字符的尺寸也与基准尺寸不一致。但是，可以说至少通过步骤S150的转换处理使得特殊字符的尺寸接近基准尺寸。

另外，根据本实施方式，图像处理装置具备设定部38，该设定部38设定所述读取图像中所包含的字符单位的区域即字符区域，所述转换部37对所述字符区域中所述特殊字符的区域即特殊字符区域执行所述转换处理。

根据上述结构，图像处理装置对字符区域中的特殊字符区域实施转换处理。因此，与对印刷在收据等的字符中与基准尺寸不同尺寸的字符与难以获得正确的字符识别结果的以往相比，能够获得更适当的字符识别结果。

特别是，在本实施方式中，从包含将基准尺寸的全角字符、半角字符纵倍后印刷的字符、横倍后印刷的字符的对收据等的读取图像抽出特殊字符区域，对特殊字符区域进行所述转换。由此，对于以往难以准确进行字符识别的、所述的纵倍后印刷的字符、横倍后印刷的字符，能够准确地进行字符识别。

至此，是将与基准尺寸不同尺寸的特殊字符主要假设为比基准尺寸大尺寸的字符的说明。但是，在本实施方式中，包括将比基准尺寸小尺寸的字符作为特殊字符并设为所述的转换对象的方式。即，也可以是，转换部37进行使读取图像中所包含的比基准尺寸小的特殊字符的尺寸接近基准尺寸的转换处理(步骤S150)，字符识别部对所述转换处理后的读取图像进行字符识别处理(步骤S160)。

另外，根据本实施方式，所述转换部37将所述字符区域的纵宽的众数设为所述基准尺寸的纵宽(基准宽)并将纵宽与基准宽不同的所述字符区域作为所述特殊字符区域的一个而设为所述转换处理的对象。

根据上述结构，图像处理装置能够根据字符区域的纵宽的众数可靠地抽出与将基准尺寸纵倍等后印刷的字符对应的特殊字符区域，并设为所述转换处理的对象。

需要注意的是，用于抽出特殊字符区域的基准宽也可以是字符区域的横宽的众数。即，也可以是，转换部37将在步骤S120设定的字符区域的横宽的众数设为基准尺寸的横宽(基准宽)，将横宽与基准尺寸的横宽(基准宽)不同的字符区域作为特殊字符区域的一个而抽出(步骤S140)，并设为所述转换处理的对象。根据上述结构，图像处理装置能够根据字符区域的横宽的众数而可靠地抽出与将基准尺寸横倍等后印刷的字符对应的特殊字符区域，并设为所述转换处理的对象。

因而，可以说，转换部37将所述字符区域的纵向和横向的一方的宽度的众数设为所述基准尺寸的基准宽，将所述一方的宽度与所述基准宽不同的所述字符区域作为所述特殊字符区域的一个而设为所述转换处理的对象。

另外，根据本实施方式，所述转换部37在将所述字符区域的纵向的宽度的众数设为所述基准尺寸的基准宽时，将横向的宽度比所述基准宽大的所述字符区域作为所述特殊字符区域的一个而设为所述转换处理的对象(例如，步骤S140D、S150D)。

根据上述结构，图像处理装置能够根据字符区域的纵宽的众数可靠地抽出与将全角字符的基准尺寸横倍等后印刷的字符对应的特殊字符区域，并设为所述转换的对象。

另外，根据本实施方式，所述字符识别部对所述转换处理前的读取图像进行字符识别处理(步骤S130)，将对所述转换处理前的读取图像的字符识别处理结果中与对所述转换处理后的读取图像的字符识别处理结果不同的部分替换为对所述转换处理后的读取图像的字符识别处理的结果(步骤S170)。

根据上述结构，图像处理装置以对所述转换处理前的读取图像的字符识别处理结果为基础，对该基础中与对所述转换处理后的读取图像的字符识别处理结果不同的部分，以对所述转换处理后的读取图像的字符识别处理结果来替换。由此，能够生成与读取图像整体相关的适当的字符识别结果。

在图6的步骤S150(步骤S150A、S150B、S150C、S150D、S150E)的说明中，关于对特殊字符区域实施的尺寸的转换处理涉及的转换率，说明了纵向、横向压缩1/2。但是，这样的1/2的具体值只不过是实施方式的一个例子。控制部31识别基准尺寸和应实施步骤S150的转换的特殊字符区域(与基准尺寸不同尺寸的区域即特殊字符区域)。因此，在步骤S150中，控制部31能够根据基准尺寸和应实施步骤S150的转换的特殊字符区域的纵宽之比、横宽之比，确定将特殊字符的尺寸转换为基准尺寸所需的转换率。

另外，在基于图6的说明中，列举了通过步骤S140(步骤S140A、S140B、S140C、S140D、S140E)从读取图像抽出的特殊字符区域是将基准尺寸纵向以及/或者横向放大2倍后印刷的字符的字符区域的情况。但是，本实施方式假设的特殊字符区域的尺寸当然也可以考虑其它情况。即，在步骤S140抽出的特殊字符区域也可以是将基准尺寸纵向以及/或者横向以与2倍不同的倍数(例如，0.5倍、1.5倍、3倍、4倍……)缩小或放大后印刷的字符的字符区域。

4.其它实施方式

本发明的实施方式不限定于上述的方式，例如包括以下说明的各种方式。方便起见，也将至此说明的实施方式称为第一实施方式。

图8通过流程图来表示主服务器30的控制部31按照程序32执行的图像处理即第二实施方式涉及的处理。关于第二实施方式，主要说明与第一实施方式不同的点。

图8的步骤S200-S220是与图2的步骤S100-S120相同的处理。另外，接续步骤S220的步骤S230、S240是与步骤S140、S150相同的处理。在第二实施方式中，省略在第一实施方式中说明的步骤S130的第一字符识别处理、即对特殊字符区域的转换处理前读取图像的字符识别处理。

在步骤S250中，控制部31启动OCR引擎35，使OCR引擎35执行将包含步骤S240的转换处理后的字符区域的读取图像作为对象的字符识别处理。即，在步骤S250中，将步骤S240的转换处理后的字符区域和在步骤S220设定的字符区域中不作为步骤S240的转换处理对象的字符区域的全部设为对象，进行字符识别处理。然后，在步骤S260中，控制部31将作为步骤S250的字符识别处理结果的文本数据与在步骤S200获取的读取图像一起向预定的存储目的地例如存储服务器40存储。

根据这样的第二实施方式，也能实现一个图像处理方法，该图像处理方法具备：获取工序(步骤S200)，获取通过读取收据或账单而生成的包含与字符的基准尺寸不同尺寸的特殊字符的读取图像；转换工序(步骤S240)，进行使所述读取图像中所包含的所述特殊字符的尺寸接近所述基准尺寸的转换处理；以及字符识别工序(步骤S250)，对所述转换处理后的所述读取图像进行字符识别处理。并且，根据第二实施方式，图像处理装置(主服务器30)对包含转换为基准尺寸或转换为接近基准尺寸的尺寸的字符的图像进行字符识别处理，因此与对印刷在收据等的字符中一部分特殊尺寸字符难以获得正确的字符识别结果的以往相比，能够获得更适当的字符识别结果。

其它的说明

至此，作为本发明涉及的图像处理装置的具体例，列举系统1所包含的主服务器30而进行了说明。但是，图像处理装置的具体例不限定于主服务器30。例如，从扫描仪10获取原稿的读取图像的通信装置20也可以使用自身资源来实现本发明的图像处理装置。即，也可以是如下结构：在通信装置20中，在ROM21b、ROM21b以外的存储器等存储构件存储有OCR引擎35等，控制部21按照程序22执行至此作为控制部31所执行的处理而说明的处理。在这种情况下，通信装置20也可以将步骤S180、S260(存储处理)中读取图像、文本数据的存储目的地设为自身所具有的存储器等存储构件，也可以设为外部的服务器(例如，存储服务器40)。

OCR引擎35也可以不是存储于存储部34、存储器的软件，可以是通过与软件协同而发挥功能的硬件。在这种情况下，能够将OCR引擎35自身称为执行字符识别处理的字符识别部。

Claims

1.一种图像处理装置，其特征在于，具备：

获取部，获取通过读取收据或账单而生成的包含与字符的基准尺寸不同尺寸的特殊字符的读取图像；

转换部，进行使所述读取图像中所包含的所述特殊字符的尺寸接近所述基准尺寸的转换处理；以及

字符识别部，对所述转换处理后的所述读取图像进行字符识别处理。

2.根据权利要求1所述的图像处理装置，其特征在于，

所述图像处理装置还具备设定部，该设定部设定字符区域，该字符区域是所述读取图像中所包含的字符单位的区域，

所述转换部对特殊字符区域执行所述转换处理，该特殊字符区域是所述字符区域中所述特殊字符的区域。

3.根据权利要求2所述的图像处理装置，其特征在于，

所述转换部将所述字符区域的纵向和横向的一方的宽度的众数设为所述基准尺寸的基准宽，将所述一方的宽度与所述基准宽不同的所述字符区域作为所述特殊字符区域的一个而设为所述转换处理的对象。

4.根据权利要求3所述的图像处理装置，其特征在于，

在将所述字符区域的纵向的宽度的众数设为所述基准尺寸的基准宽时，所述转换部将横向的宽度比所述基准宽大的所述字符区域作为所述特殊字符区域的一个而设为所述转换处理的对象。

5.根据权利要求1至4中任一项所述的图像处理装置，其特征在于，

所述字符识别部对所述转换处理前的所述读取图像进行字符识别处理，将对所述转换处理前的所述读取图像进行的字符识别处理结果中与对所述转换处理后的所述读取图像进行的字符识别处理结果不同的部分替换为对所述转换处理后的所述读取图像进行的字符识别处理结果。

6.一种图像处理方法，其特征在于，具备：

获取工序，获取通过读取收据或账单而生成的包含与字符的基准尺寸不同尺寸的特殊字符的读取图像；

转换工序，进行使所述读取图像中所包含的所述特殊字符的尺寸接近所述基准尺寸的转换处理；以及

字符识别工序，对所述转换处理后的所述读取图像进行字符识别处理。

7.一种计算机可读取的存储介质，其特征在于，存储有图像处理程序，

所述图像处理程序使计算机执行如下功能：

获取功能，获取通过读取收据或账单而生成的包含与字符的基准尺寸不同尺寸的特殊字符的读取图像；

转换功能，进行使所述读取图像中所包含的所述特殊字符的尺寸接近所述基准尺寸的转换处理；以及

字符识别功能，对所述转换处理后的所述读取图像进行字符识别处理。