CN109426817B

CN109426817B - 用于进行预定处理的设备及其控制方法和存储介质

Info

Publication number: CN109426817B
Application number: CN201810960050.2A
Authority: CN
Inventors: 松本義高
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-08-22
Filing date: 2018-08-22
Publication date: 2023-08-29
Anticipated expiration: 2038-08-22
Also published as: US20190065843A1; CN109426817A; US10984232B2; JP6953230B2; JP2019040250A

Abstract

本发明提供一种用于进行预定处理的设备及其控制方法和存储介质。在使用对扫描图像进行OCR处理所获得的字符串来设置文件名等的情形下，可以根据要扫描的字符串来设置适当的条件，以提高字符识别率。用于对扫描文档所获得的扫描图像进行预定处理的设备包括：显示控制单元，用于显示用于进行预定处理的UI画面，该UI画面以能够选择的方式向用户显示扫描图像中的被假定为一个连续字符串的字符区域；以及设置单元，用于基于用户经由UI画面选择的字符区域的选择顺序和用于预定处理的补充信息的格式来确定用于OCR处理的条件，使用所确定的用于OCR处理的条件来对所选择的字符区域进行OCR处理，并使用在OCR处理中提取的字符串来设置用于预定处理的补充信息。

Description

用于进行预定处理的设备及其控制方法和存储介质

技术领域

本发明涉及使用扫描图像的字符识别结果并针对扫描图像设置文件名等的技术。

背景技术

传统上，扫描并数字化纸质文档的方法已广泛用作文档管理方法。此外，在对文档进行数字化时，存在一种对扫描图像数据进行字符识别处理(OCR处理)并针对数字化后的文档文件的文件名使用所识别的字符的技术。例如，日本特开2015-215878公开了如下技术，该技术将通过扫描原稿而获得的扫描图像呈现给用户以指定区域，对所指定的区域进行OCR处理以获得字符串，并针对扫描图像的文件名使用该字符串。

在OCR处理中，根据预定条件设置，对扫描图像中的一个连续字符串的每个区域(字符区域)进行用于提取字符串的处理。在这种情况下，在要应用的条件设置不适合于要扫描的各区域的情况下，可能增加误识别的可能性。现在，将描述具体示例。在图1的示例中。在图1中，与“Order Form(订购单)”，“Tokyo Corporation(东京公司)”和“112014-90002”相对应的字符串的区域按此顺序指定。用户最初意图在文件名输入栏10中显示(自动输入)内容“OrderForm_TokyoCorporation_112014-90002”的字符串。然而，实际上，显示“OrderForm_TokyoCorporation_H2014-9000Z”的内容，这是第三指定区域中的误识别的结果。这是因为，在假设英语的情况下进行OCR处理的条件设置(即条件设置是用于识别字母和数字的OCR设置)，因此第三指定区域包括一些噪声。在这方面，在上述日本特开2015-215878中，可以对通过OCR处理所获得的字符串进行通过使用键盘等的编辑操作(删除和添加字符等)。然而，如果首先存在一种降低OCR处理中的误识别概率的方法，则这种方法在提高用户便利性方面是优越的。

已经作出本发明以解决上述问题，并且本发明的目的是在通过使用通过对扫描图像进行OCR处理而获得的字符串来设置文件名等的情形下，使得能够根据要扫描的字符串来设置适当的条件并提高字符识别率。

发明内容

根据本发明，提供一种用于对通过扫描文档所获得的扫描图像进行预定处理的设备，包括：显示控制单元，其被配置为显示用于进行所述预定处理的UI画面，其中所述UI画面以能够选择的方式向用户显示所述扫描图像中的被假定为一个连续字符串的字符区域；以及设置单元，其被配置为基于用户经由所述UI画面所选择的字符区域的选择顺序和用于所述预定处理的补充信息的格式来确定用于OCR处理的条件，通过使用所确定的用于OCR处理的条件来对所选择的字符区域进行OCR处理，并且通过使用在所述OCR处理中提取的字符串来设置用于所述预定处理的补充信息。

根据本发明，提供一种用于对通过扫描文档所获得的扫描图像进行预定处理的设备的控制方法，所述控制方法包括以下步骤：显示用于进行所述预定处理的UI画面，其中所述UI画面以能够选择的方式向用户显示所述扫描图像中的被假定为一个连续字符串的字符区域；以及基于用户经由所述UI画面所选择的字符区域的选择顺序和用于所述预定处理的补充信息的格式来确定用于OCR处理的条件，通过使用所确定的用于OCR处理的条件来对所选择的字符区域进行OCR处理，并且通过使用在所述OCR处理中提取的字符串来设置用于所述预定处理的补充信息。

根据本发明，提供一种非暂时性计算机可读存储介质，其存储用于使计算机进行用于对通过扫描文档所获得的扫描图像进行预定处理的设备的控制方法的程序，所述控制方法包括以下步骤：显示用于进行所述预定处理的UI画面，其中所述UI画面以能够选择的方式向用户显示所述扫描图像中的被假定为一个连续字符串的字符区域；以及基于用户经由所述UI画面所选择的字符区域的选择顺序和用于所述预定处理的补充信息的格式来确定用于OCR处理的条件，通过使用所确定的用于OCR处理的条件来对所选择的字符区域进行OCR处理，并且通过使用在所述OCR处理中提取的字符串来设置用于所述预定处理的补充信息。

通过以下参考附图对典型实施例的说明，本发明的其它特征将变得明显。

附图说明

图1是示出现有技术的问题的图；

图2是示出图像处理系统的整体结构的图；

图3A是示出MFP的硬件结构的图；

图3B是示出文件服务器的硬件结构的图；

图4是示出MFP的软件结构的图；

图5是示出从扫描图像的生成到上传的操作控制的流程的流程图；

图6示出扫描设置画面的示例；

图7A和图7B示出预览画面的示例；

图8示出在预览画面上生成文件名的状态；

图9示出上传设置画面的示例；

图10是示出文件名生成处理的细节的流程图；

图11A至图11D示出文件名输入栏的显示示例；以及

图12示出OCR设置画面的示例。

具体实施方式

在下文中，参考附图，根据优选实施例来详细说明本发明。以下实施例中示出的结构仅仅是示例性的，并且本发明不限于示意性示出的结构。

[第一实施例]

<图像处理系统的结构>

图2是示出根据本实施例的图像处理系统的整体结构的图。图像处理系统包括经由LAN(局域网)彼此连接以进行通信的MFP 110和文件服务器120。

MFP(多功能打印机)110是具有诸如扫描器和打印机等的多个功能的多功能设备，并且是图像处理设备的示例。文件服务器120是用于存储和管理数字化文档文件的外部服务器的示例。本实施例的图像处理系统包括MFP 110和文件服务器120，但是不限于此。例如，MFP 110还可以用作文件服务器120。此外，可以采用经由例如因特网而不是LAN的连接形式。此外，MFP 110连接到PSTN(公共交换电话网络)，并且可以经由传真向传真机(未示出)发送图像数据和从传真机接收图像数据。

图3A是MFP 110的硬件结构的图。MFP 110包括控制单元210、操作单元220、打印机单元221、扫描器单元222和调制解调器223。控制单元210包括以下单元211至219，以控制MFP 110的整体操作。CPU 211加载存储在ROM 212中的控制程序，并执行和控制MFP 110的各种功能，诸如扫描、打印和通信等。RAM 213用作CPU 211的主存储器或诸如工作区域等的临时存储区域。应当注意，在本实施例中，一个CPU 211使用一个存储器(RAM 213或HDD214)来进行如稍后将描述的流程图所示的各处理，但是本发明不限于此。例如，多个CPU可以与多个RAM或HDD一起工作来进行处理。HDD 214是用于存储图像数据和各种程序的大容量存储单元。操作单元I/F 215是连接操作单元220和控制单元210的接口。操作单元220具有触摸面板和键盘等，并且接收用户的操作、输入和指示。打印机I/F 216是连接打印机单元221和控制单元210的接口。用于打印的图像数据经由打印机I/F 216从控制单元210传送到打印机单元221并打印在打印介质上。扫描器I/F 217是连接扫描器单元222和控制单元210的接口。扫描器单元222扫描设置在稿台或ADF(自动原稿进给器)(未示出)上的原稿以生成图像数据，并经由扫描器I/F 217输入到控制单元210。MFP 110不仅可以打印输出(复印)由扫描器单元222从打印机单元221生成的图像数据，而且还可以发送图像数据的文件或经由电子邮件发送图像数据。调制解调器I/F 218是连接调制解调器223和控制单元210的接口。调制解调器223经由传真机向PSTN上的传真机发送图像数据和从传真机接收图像数据。网络I/F 219是将控制单元210(MFP 110)连接到LAN的接口。MFP 110通过使用网络I/F 219来向LAN上的外部设备(例如，文件服务器120)发送图像数据和信息，并从该外部设备接收各种类型的信息。

图3B是文件服务器120的硬件结构的图。文件服务器120包括CPU 311、ROM 312、RAM 313、HDD 314和网络I/F 315。CPU 311加载存储在ROM 312中的控制程序，并进行各种处理以控制文件服务器120的整体操作。RAM 313用作CPU 311的主存储器或诸如工作区域等的临时存储区域。HDD 314是用于存储图像数据和各种程序的大容量存储单元。网络I/F315是将文件服务器120连接到LAN的接口。文件服务器120通过使用网络I/F 315来相对于LAN上的其它设备(例如，MFP 110)发送和接收各种类型的信息。

<MFP的软件结构>

图4是MFP 110的软件结构的图。MFP 110的软件大致分为两个：本机功能模块410和附加功能模块420。本机功能模块410中包括的单元是在MFP 110中标准提供的功能模块。另一方面，附加功能模块420中包括的单元是在MFP 110中附加提供的功能模块，诸如通过安装应用程序而实现的功能模块等。本实施例的附加功能模块420是基于Java(注册商标)的应用程序，并且可以容易地实现向MFP 110添加功能。顺便提及，其它应用程序(未示出)可以安装在MFP 110中。下面将描述构成功能模块410和420这两者的单元。

应用程序显示单元423进行显示控制以显示用于接收用户在操作单元220的触摸面板上的各种类型的操作的UI画面。稍后将详细描述要显示的UI画面。扫描指示单元421响应于经由UI画面输入的用户指示，将包括扫描设置信息和传送设置信息的扫描请求发送到扫描执行单元411，并使扫描执行单元411进行扫描处理。该扫描请求还包括用于识别由应用程序接收单元422接收的图像数据(稍后将描述)是否与扫描请求相对应的请求ID。

如果从扫描指示单元421接收到扫描请求，则扫描执行单元411经由扫描器I/F217控制扫描器单元222以进行扫描处理。因此，扫描原稿并生成图像数据。通过扫描生成的图像数据(下文中称为“扫描图像数据”)与用于指定图像数据的目的地的传送设置信息一起被传递给传送单元412。传送单元412根据传送设置来传送从扫描执行单元411接收到的扫描图像数据。对于扫描图像数据的目的地，可以设置文件服务器120或LAN上的PC(未示出)等。然而，在本实施例中，假设由扫描执行单元411生成的所有扫描图像数据一次被传送到附加功能模块420。传送单元412具有FTP(文件传送协议)客户端功能，并通过使用FTP将扫描图像数据传送到具有FTP服务器功能的应用程序接收单元422。

应用程序接收单元422接收从传送单元412在内部传送的扫描图像数据，并将该扫描图像数据传递给应用程序传送单元424。应用程序传送单元424将接收到的扫描图像数据传递给图像分析单元425。图像分析单元425对接收到的扫描图像数据进行分析处理，诸如区域划分和字符识别处理(OCR处理)等。然后，经由应用程序传送单元424将扫描图像数据和分析处理的结果传递给预览显示单元426。基于扫描图像数据及其分析结果，预览显示单元426为用户生成UI画面以设置文件名并进行诸如在操作单元220的液晶面板上显示等的显示控制。

上传指示单元427为用户生成UI画面以设置文件夹路径并将该文件夹路径显示在操作单元220的触摸面板上。应用程序传送单元424将扫描图像数据传送(发送)到文件服务器120。如果传送完成，则应用程序传送单元424通知应用程序显示单元423传送已经完成。如果从应用程序传送单元424接收到该通知，则应用程序显示单元423更新显示内容。此外，应用程序传送单元424具有SMB(服务器消息块)客户端功能。因此，通过使用SMB对具有SMB服务器功能的文件服务器120进行文件操作和文件夹操作。应当注意，要使用的协议不限于SMB。可以使用WebDAV、FTP或SMTP等。此外，可以使用除了用于文件传输目的的协议之外的协议，诸如SOAP或REST等。

接着，将描述MFP 110中从原稿生成扫描图像并将其上传到文件服务器120的操作控制。图5是示出从扫描图像的生成到上传的控制流程的流程图。可以通过CPU 211执行存储在控制单元210的HDD 214中的控制程序来实现一系列处理。下面将给出详细描述。

在步骤501中，应用程序显示单元423在操作单元220的触摸面板上显示用于进行扫描处理的各种设置的UI画面(下文中称为“扫描设置画面”)。图6示出扫描设置画面的示例。图6的扫描设置画面600具有五个设置按钮601至605。[颜色设置]按钮601是用于在扫描原稿时设置彩色/单色的按钮。[分辨率设置]按钮602是用于在扫描原稿时设置分辨率的按钮。[双面扫描设置]按钮603是在需要扫描原稿的两面时使用的设置按钮。[混合原稿设置]按钮604是在需要一次扫描不同尺寸的原稿时使用的设置按钮。[图像格式设置]按钮605是在指定扫描图像数据的保存格式时使用的设置按钮。在使用这些设置按钮601至605进行设置时，显示在MFP 110中支持的范围内可以设置的候选(选项)，并且用户从显示的候选中选择期望的设置。应当注意，上述设置按钮被描述为示例。可以不包括所有这些设置项目，并且还可以包括除这些设置项目之外的设置项目。用户经由扫描设置画面600来进行与扫描处理有关的详细设置。[取消]按钮620是用于停止扫描设置的按钮。[开始扫描]按钮621是用于指示开始对设置在稿台等上的原稿的扫描处理的按钮。

在步骤502中，通过应用程序显示单元423，根据用户的按钮操作的内容来分离处理。在检测到[开始扫描]按钮621的按下的情况下，通过应用程序显示单元423向扫描指示单元421通知由设置按钮601至605设置的内容和开始扫描处理的接收。另一方面，在检测到[取消]按钮620的按下的情况下，结束本处理。

在步骤503中，响应于来自扫描指示单元421的指示，通过扫描执行单元411来进行扫描处理。在步骤504中，将如此获得的扫描图像数据通过传送单元412使用FTP在内部传送到应用程序接收单元422，并且还经由应用程序传送单元424传送到图像分析单元425。

在步骤505中，在图像分析单元425中，进行扫描图像数据的分析处理。更具体地，首先，针对扫描图像数据，进行图像信号的二值化、在扫描中移位的原稿的倾斜的校正以及沿位置正确的方向转动原稿等，以校正扫描图像数据的状态，以使得平滑地进行分析处理。然后，对校正后的扫描图像(二值图像)进行边缘提取等，以指定图像中的字符区域(即，假设为一个连续字符串的区域)。下面的表1示出对给定报价单的扫描图像的一部分进行的图像分析处理的结果的示例。

[表1]

编号	区域的X坐标	区域的Y坐标	区域宽度	区域高度
					1	55	5	20	10
2	5	20	30	5
					3	38	20	10	5
4	78	20	33	5
					5	78	28	40	5
6	5	35	23	5
					7	5	45	33	5
8	75	40	43	5
					9	75	50	43	5

在上面的表1中，[编号]表示各指定字符区域的唯一编号。在该示例中，序号1至9按照识别顺序排列。[区域的X坐标]表示各指定字符区域的左上角的X坐标。[区域的Y坐标]表示各指定字符区域的左上角的Y坐标。在下文中，在对字符区域使用术语“坐标”时，除非另有说明，否则该术语指的是字符区域的左上角的位置坐标。[区域宽度]表示各指定字符区域的左侧和右侧之间的距离。[区域高度]表示各指定字符区域的上侧和下侧之间的距离。在本实施例中，[区域的X坐标]、[区域的Y坐标]、[区域宽度]和[区域高度]均由像素表示，但它们也可以由点或英寸等表示。将与从扫描图像提取的各字符区域有关的信息(下文中称为“字符区域信息”)作为图像分析数据传递到应用程序传送单元424。例如，图像分析数据采用CSV或XML格式，但也可以采用其它格式。此外，图像分析数据可以在临时存储在HDD 214中之后，在预定定时被传递。

在步骤506中，通过预览显示单元426在操作单元220的触摸面板上预览显示步骤503中获得的扫描图像。通过应用程序显示单元423来生成并提供用于预览显示的画面数据。用户可以经由扫描图像被预览显示的UI画面(下文中称为“预览画面”)来设置扫描图像数据的文件名。图7A示出预览画面的示例。在预览画面700中，所获得的扫描图像显示在位于画面中央的预览区域710中。此外，在预览区域710中，还与扫描图像一起显示多个按钮711至714，以用于改变扫描图像的显示状态。按钮711和712在不能显示整个扫描图像时出现，并用于在垂直方向上滚动显示区域。通常，MFP 110中提供的触摸面板的尺寸不是那么大。因此，例如，在通过扫描以横向书写的A4尺寸的纵向的原稿而获得扫描图像的情况下，进行初始设置，使得在扫描图像的整个宽度方向(横向)正好适合于预览区域710的状态下使扫描图像顶部对齐、按比例缩小并进行显示。也就是说，在初始设置中，在预览区域710内未显示A4尺寸的纵向扫描图像的下部。在这种情况下，按下“↓”按钮712，向下滚动显示区域，并且可以显示下部。此外，在扫描图像是A4尺寸横向或A3尺寸等的情况下，还可以设置用于在水平方向上滚动显示区域的按钮。按钮713和714是用于缩放显示区域的按钮。按下“+”按钮713使得能够进行放大，并且按下“-”按钮714使得能够进行缩小。按钮操作的动作可以通过用户的手指操作(诸如在预览画面上的滑动、捏合/分开等)来实现。在预览区域710中，基于上述字符区域信息以可识别的方式向用户显示在步骤505的图像分析处理中指定的字符区域。图7B示出通过图7A所示的预览画面700中的框以可识别的方式显示各字符区域的状态，并且字符区域与上表1中的序号1至9相对应。如果用户从预览区域710中显示的字符区域中选择(例如，用手指触摸)任何字符区域，则在文件名输入栏701中显示该字符区域中所包括的字符串，即自动输入该字符串，并成为形成文件名的字符串的一部分。此外，用户可以在预览画面700中设置文件名的格式。文件名的格式是表示作为文件名的构成元素的单位字符串的内容的“项目”和用于在存在多个项目的情况下连接多个项目的“分隔符”的组合。该项目的示例包括“文档类型”、“公司名”、“订单号”或“交付日期”等。分隔符的示例包括连字符“-”或下划线“_”等。下面的表2示例文件名格式的示例的列表。

[表2]

编号	显示名称
		1	＜文件类型＞-＜公司名＞-＜订单号＞
2	＜公司名＞-＜订单号＞-＜文件类型＞
		3	＜订单号＞-＜文件类型＞-＜公司名＞
4	＜文件类型＞-＜公司名＞-＜交付日期＞

如果用户按下[文件名格式设置]按钮702，则列表显示如上表2中所示的列表作为文件名格式的候选。然后，如果用户从显示的候选中选择期望的格式，则确定要应用的文件名格式。[返回]按钮720是用于停止预览显示的按钮。[下一步]按钮721是用于移动到用于设置所获得的扫描图像数据的上传目的地的画面的按钮。应当注意，上述类型的各种按钮以及字符区域的显示和选择方面被描述为示例，并且它们不限于这些示例。例如，可以存在用于校正和改变在文件名输入栏701中显示的字符串或用于确认文件名的按钮。顺便提及，稍后将描述按钮703。

在步骤507中，由预览显示单元426生成所获得的扫描图像的文件名。图8示出在生成文件名之后的预览画面700的状态。在该示例中，通过顺次选择与“Order Form”，“TokyoCorporation”和“112014-90002”的字符区域，在文件名输入栏701中显示字符串“OrderForm_TokyoCorporation_112014-90002”。此外，在预览区域710中，用户触摸的字符区域的框被改变为粗框以表示它们被选择作为文件名的一部分。稍后将描述文件名生成处理的细节。在生成期望的文件名并且用户按下[下一步]按钮721之后，处理进入步骤508。

在步骤508中，与步骤502同样地，通过预览显示单元426，根据用户的按钮操作的内容来分离处理。在检测到[下一步]按钮721的按下的情况下，将与在文件名输入栏701中正显示的文件名(设置为文件名的字符串)有关的信息发送到上传指示单元427，并且处理进入步骤509。另一方面，在检测到按下[返回]按钮720的情况下，处理返回到步骤501(扫描设置画面中的显示)。

在步骤509中，通过上传指示单元427在操作单元220的触摸面板上显示用于设置扫描图像数据的传送目的地的UI画面(下文中称为“上传设置画面”)。用户经由上传设置画面来进行与向文件服务器120的上传有关的详细设置。图9示出上传设置画面的示例。用户向文件夹路径输入栏901输入外部传送到文件服务器120的文件夹路径的名称(路径名)。在图9的示例中，输入“04_04_2017”作为路径名。输入方法的示例是用于响应于轻击文件夹路径输入栏901来显示键盘画面的子窗口(未示出)并且提示用户经由键盘画面输入路径名的方法。可选地，可以从存储在HDD 214中的地址簿中选择和设置路径名。[返回]按钮920是用于停止与上传有关的详细设置的按钮。[上传]按钮921是用于指示向在文件夹路径输入栏901中设置的文件夹路径上传的按钮。

在步骤510中，与步骤508同样地，通过上传指示单元427，根据用户的按钮操作的内容来分离处理。在检测到[上传]按钮921的按下的情况下，处理进入步骤511。此时，输入到文件夹路径输入栏901的路径名、在步骤507中生成的文件名、以及与文件服务器设置有关的各种类型的信息被传递到应用程序传送单元424。顺便提及，文件服务器设置是用于将扫描图像数据存储在文件服务器120中的必要信息，并且具体包括诸如主机名、文件夹路径的起始点以及用于登录的用户名和密码等的信息。另一方面，在检测到[返回]按钮920的按下的情况下，处理返回到步骤506(预览画面中的显示)。

在步骤511中，应用程序传送单元424基于从上传指示单元427接收到的信息来生成用于扫描图像数据的存储目的地路径。更具体地，通过将文件夹路径添加到文件服务器设置(文件服务器120的主机名、文件夹路径的起始点)来生成存储目的地路径。因此，生成存储目的地路径，例如“￥￥server01￥Share￥04_04_2017”。然后，在步骤512中，通过应用程序传送单元424进行对文件服务器120的访问。此时，文件服务器设置中包括的用户名和密码被发送到文件服务器120。在已经接收到用户名和密码的文件服务器120中，进行验证处理。

在步骤513中，通过应用程序传送单元424，根据文件服务器120中的验证结果来分离处理。也就是说，在从文件服务器120接收到验证成功的通知的情况下，处理进入步骤514。另一方面，在接收到验证失败的通知的情况下，结束本处理。

在步骤514中，扫描图像数据由应用程序传送单元424被外部传送到由步骤511中生成的存储目的地路径指示的文件夹，并存储在文件服务器120中。

以上描述是根据本实施例的从扫描图像的生成到上传的操作控制的内容。应当注意，在本实施例中，假设对与通过扫描而生成的一页相对应的图像数据进行步骤505至步骤507中的处理。例如，可以在预览画面700中设置用于在对下一页进行图像分析的按钮，并且可以预览显示通过分析获得的下一页，从而可以在接着的页面中从字符区域中设置构成文件名的字符串。

<文件名生成>

图10是示出预览显示单元426中的文件名生成处理(步骤507)的细节的流程图。将根据图10的流程来给出描述。

在步骤1001中，获得当前设置的文件名格式，并且在文件名输入栏701中显示所获得的文件名格式的内容。此时，利用例如具有低浓度的灰色字符等以浅色显示所获得的文件名格式使得用户能够识别从此开始应该选择的字符区域。现在假设通过[文件名格式设置]按钮702选择上表2中的文件名格式编号4。在这种情况下，在文件名输入栏701中，显示“＜文件类型＞-＜公司名＞-＜交付日期＞”作为临时文件名。图11A示出文件名的显示示例。以低浓度浅色的显示示出没有选择任何项目。应当注意，可以在本处理开始时通过消息显示等提示用户设置文件名格式，或者用户可以根据需要适当地改变预设并显示为初始值的预定文件名格式。

在步骤1002中，监视用户在触摸面板上显示的预览画面700上是否存在触摸操作。如果检测到触摸操作，则处理进入步骤1003。在接着的步骤1003中，根据触摸操作的内容来分离处理。在触摸操作的内容是按下[下一步]按钮721或[返回]按钮720的情况下，结束本处理。在触摸操作的内容不是按下[下一步]按钮721或[返回]按钮720的情况下，处理进入步骤1004。

在步骤1004中，获得进行了触摸操作的触摸面板上的位置坐标(x，y)。在接着的步骤1005中，判断与触摸操作有关的位置坐标与哪一个字符区域重叠。例如，在图7B的上述预览画面700中，基于与触摸操作有关的位置坐标是否包括在预览区域710中显示的各字符区域内(在由表示字符区域的四个角的位置坐标指定的矩形内)来进行判断。在与触摸操作有关的位置坐标与字符区域之一重叠的情况下，处理进入步骤1006。另一方面，在与触摸操作有关的位置坐标没有与任何字符区域重叠的情况下，处理返回到步骤1002。

在步骤1006中，指定扫描图像中的字符区域上的触摸操作的序数(选择顺序)。更具体地，首先，获得文件名输入栏701中的当前显示内容。然后，获得在所获得的显示内容中与文件名格式的项目相对应的字符串(在(稍后描述的)步骤1012中替换的字符串)的数。然后，将1与该数相加，并将结果指定为该触摸操作的序数。现在假设例如“OrderForm-TokyoCorporation-<交付时间>”当前显示在文件名输入栏701中。在这种状态下，在检测到字符区域“112014-90002”上的触摸操作的情况下，该触摸操作的序数是‘2+1＝3’。应当注意，可以显示需要触摸操作的字符区域的总数的通知，使得触摸操作的序数不超过形成文件名格式的项目的数量。此外，在检测到超过必要的触摸操作的情况下，可以显示错误消息等。

在步骤1007中，基于在步骤1006中指定的触摸操作的序数(选择顺序)和在步骤1001中获得的文件名格式，在接着的步骤1008中确定要应用的OCR处理的条件。此时，参考存储有预先准备的用于OCR处理的各种条件的数据库(下文中称为条件DB)。用于OCR处理的条件包括多个参数(在该示例中为“类型”、“OCR语言”、“附加字符”和“格式化格式”)，并与形成文件名的上述项目相关联。在本实施例中，参数的最大数量是四，并且以下示出各参数的内容。首先，“类型”表示对象字符串的属性。“OCR语言”是不仅包括该术语原本表示的诸如英语和日语等的语言的概念，而且还包括数字等。该“OCR语言”指定要使用的字典数据的类型。“英语”OCR语言的字典数据适用于字母和数字的字符识别。“日语”OCR语言的字典数据适用于日文字符、字母和数字的字符识别。“数字”OCR语言的字典数据适用于数字的字符识别。“附加字符”定义了除字典数据中的词外还应识别的字符。“格式化格式”定义了在后处理中格式化扫描字符串的格式。表3示出用于OCR处理的条件DB的示例。

[表3]

项目名	类型	OCR语言	附加字符	格式化格式
					文件类型	文本	英语	-	-
公司名	文本	英语、数字	-	-
					订单号	数字	数字	-	-
交付日期	日期	数字	/	MMddyyyy

应当注意，在“OCR语言”是‘英语’的情况下，由于通过用于英语的OCR算法使用英语词典数据来进行字符识别，因此将不识别除‘英语’之外的语言的字符串。然后，例如，针对“OCR语言”指定诸如‘日语、汉语、德语’和‘数字、片假名’等的多种语言，并且可以应用适合于多种语言的多种OCR算法。此外，作为“OCR语言”变量，可以指定包括诸如公司名和电话号码等的信息的地址簿等。此外，在本实施例中，使用用于定义与形成格式的各项目相对应的条件的条件DB。然而，例如，可以使用格式和条件逐一彼此相关联的条件DB。以这种方式，通过基于预设格式和用户对字符区域的选择顺序来确定用于OCR处理的条件，并将适当的OCR语言应用于各字符区域。例如，使用“数字”字典数据来进行用于订单号的OCR处理。结果，可以减少误识别，诸如如图1所示将“112014”的部分“11”误识别为字母“H”的情况等。

例如，在文件名格式为“<文件类型>_<公司名>_<交付时间>”并且触摸操作的序数是‘3’的情况下，用于与触摸操作有关的字符区域的OCR处理的条件以下面的方式确定。

首先，要应用的文件名格式“<文件类型>_<公司名>_<交付时间>”由分隔符(下划线)分离。然后，第一项是<文件类型>，第二项是<公司名>，以及第三项是<交付时间>。如果触摸操作的序数为“3”，则第三项<交付时间>成为OCR处理的对象。参考表3中的条件DB，与<交付时间>相关的参数被确定为OCR处理的条件。也就是说，表示对象字符串的属性的“日期”、表示要使用的字典数据的类型的“数字”、表示进行附加字符识别的字符的“/”、以及通过“MMddyyyy”对提取的字符串的格式化被确定为用于在接收触摸操作的字符区域上进行的OCR处理的条件。

在步骤1008中，获得与关于触摸操作的位置坐标重叠的字符区域中的字符串。此时，与步骤1007中确定的OCR处理的条件有关的信息和与步骤1005中判断为具有重叠的字符区域的位置坐标有关的信息被传递到图像分析单元425，并且在图像分析单元425中，根据接收到的信息进行OCR处理。然后，在OCR处理中获得的字符识别结果被传递到预览显示单元426。

在步骤1009中，判断在步骤1007中确定的用于OCR处理的条件是否包括“格式化格式”。如果包括“格式化格式”，则在步骤1010，根据格式化格式来对步骤1008中获得的字符串进行格式化。例如，上述“MMddyyyy”是表示组合日期的字符串的格式，其中“yyyy”表示4位数的基督纪元的年份，“MM”表示2位数的月份，以及“dd”表示2位数的日期。因此，在字符区域“04/14/2017”接收到触摸操作的情况下，首先，扫描字符串“04/14/2017”，然后通过格式化格式“MMddyyyy”将字符串格式化为“04142017”。另一方面，如果在步骤1007中确定的用于OCR处理的条件不包括“格式化格式”，则处理进入步骤1011。

在步骤1011中，获得当前显示在文件名输入栏701中的内容。所获得的显示内容至少部分地包括作为在步骤1001中获得并显示的文件名格式的构成元素的项目名(下文中称为“格式元素”)。然后，在步骤1012中，在步骤1008中获得的字符串(或在步骤1010中格式化的字符串)被替换成在该步骤中获得的显示内容中的对应格式元素。

在步骤1013中，判断是否完成了与在步骤1001中获得的文件名格式相对应的文件名。此时，如果文件名输入栏701中显示的所有格式元素都被所识别出的字符串替换，并且文件名输入栏701中的显示内容完全以深字符显示，则完成文件名。作为判断结果，如果文件名完成，则结束本处理。另一方面，如果文件名未完成，则处理返回到步骤1002并继续该处理。

以上描述是文件名生成处理的内容。图11B至图11D示出通过用户在“OrderForm”、“Tokyo Corporation”和“04/14/2017”的字符区域上顺次进行的触摸操作而使文件名输入栏701中的显示内容从图11A的上述状态向文件名的完成的转变。首先，图11B示出在进行对“Order Form”的字符区域的最初的触摸操作之后的文件名输入栏701的状态。在这个阶段，利用在对字符区域815的OCR处理中获得的识别字符串“OrderForm”来替换格式元素。然后，为了表示对与<文档类型>相对应的字符区域的触摸操作已完成，字符串“OrderForm”和接着“OrderForm”的分隔符(下划线“_”)以深色显示。然后，图11C示出在“Order Form”的字符区域之后进行对“Tokyo Corporation”的字符区域的触摸操作之后的文件名输入栏701的状态。在这种状态下，利用在对字符区域816的OCR处理中获得的识别字符串“TokyoCorporation”来替换格式元素<公司名>。然后，与图11B同样地，“TokyoCorporation”和接着“TokyoCorporation”的分隔符(下划线“_”)以深色显示。图11D示出在最终进行对“04/14/2017”的字符区域的触摸操作之后的文件名输入栏701的状态。此时，在对在对字符区域817的OCR处理中获得的识别字符串进行格式化之后，利用字符串“04142017”来替换格式元素<交付时间>。然后，包括“04142017”的字符串以深色显示，并且完成与设置的文件名格式相对应的文件名。

应当注意，在本实施例中，在文件名输入栏701的显示内容中，作为用户的触摸操作的结果而被所识别出的字符串替换的部分以深色显示，并且尚未被替换的部分以浅色显示。然而，本发明不限于此。例如，可以根据诸如突出显示被所识别出的字符串替换的部分并且使尚未被替换的部分斜体化等的方法来判断是否已经完成对该部分的触摸操作。此外，可以仅针对尚未被替换的部分显示用于提示触摸操作等的消息。

此外，在本实施例中，已经描述了通过使用扫描图像中的字符区域的字符识别结果来设置文件名的情形的示例。然而，本发明的应用范围不限于设置文件名的情形。例如，本发明可应用于数据传送目的地设置，诸如扫描图像的上传目的地或者FAX传输或电子邮件传输中的目的地设置。在这种情况下，例如，在图9所示的上述上传设置画面900中，设置用于文件夹路径的格式设置按钮(未示出)，使得用户可以从多个候选中选择和设置文件夹路径的格式。此外，在目的地设置画面(未示出)中，用户可以以相同的方式设置传真号码或电子邮件地址的格式。然后，可以在与设置格式相对应的条件下进行用于设置文件夹路径、传真号码和电子邮件地址的OCR处理。以这种方式，在设置与扫描图像有关的各种类型的信息(补充信息)(诸如设置扫描图像数据的传送目的地等)的情形下，本发明可广泛适用。

此外，用户或管理者可以通过添加、删除和改变来适当地编辑用于文件名格式的候选(参见表2)或用于与各候选相对应的OCR处理的条件DB(参见表3)。图12示出用于用户改变文件名格式的候选和由编辑候选而得到的OCR处理的条件的设置的UI画面(OCR设置画面)的示例。例如，通过按下图7B的预览画面700中的按钮703而将OCR设置画面1200显示为子窗口。输入栏1201是用于显示例如表示一个或多个文件名格式的XML格式的列表的文件路径的区域。用户例如通过按下[浏览]按钮1202追随文件服务器120上的文件夹，并指定列表所在的文件路径。然后，在输入栏1201中显示指定的文件路径。之后，如果按下[保存]按钮1221，则从在输入栏1201中正显示的文件路径加载列表，并将该列表存储在RAM 213或HDD 214中。然后，响应于按下文件名格式设置按钮702，将列表中包括的文件名格式显示为新选择的候选。以相同的方式，输入栏1203显示例如包括用于OCR处理的条件的列表的文件路径。用户例如通过按下[浏览]按钮1204来追随文件服务器120上的文件夹，并指定列表所在的文件路径。然后，在输入栏1203中显示指定的文件路径。之后，如果按下[保存]按钮1221，则从在输入栏1203中正显示的文件路径加载列表，并将该列表存储在RAM 213或HDD214中。然后，列表中包括的内容成为用于OCR处理的新条件DB。[取消]按钮1220是用于取消该操作和关闭OCR设置画面1200的按钮。用户可以通过OCR设置画面1200来编辑文件名格式的候选和用于OCR处理的条件。应当注意，上述编辑方法是示例。例如，还可以例如通过从web浏览器访问web服务来显示和存储列表，或者用户可以直接在输入栏1201和1203中输入和设置文件路径。

如上所述，根据本实施例，在通过对扫描图像进行OCR处理来设置文件名等的情形下，根据单独设置的格式来适当地设置用于OCR处理的条件。这使得能够提高字符识别率。

其它实施例

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将进行上述实施例的功能的软件(程序)提供给系统或装置，该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并进行程序的方法。

根据本发明，在通过使用通过对扫描图像进行OCR处理而获得的字符串来设置文件名等的情形下，可以根据要扫描的字符串来设置适当的条件。这使得能够提高字符识别率。

尽管已经参考典型实施例说明了本发明，但是应该理解，本发明不局限于所公开的典型实施例。所附权利要求书的范围符合最宽的解释，以包含所有这类修改、等同结构和功能。

Claims

1.一种用于对通过扫描文档所获得的扫描图像进行预定处理的设备，其特征在于，包括：

显示控制单元，其被配置为：

显示用于进行所述预定处理的UI画面，其中用户能够在所述UI画面上所显示的所述扫描图像上选择多个字符区域；

基于用户选择多个字符区域的选择顺序和用于所述预定处理的补充信息的格式，来确定要应用于所选择的多个字符区域的OCR处理的参数；以及

获取通过针对所选择的多个字符区域使用所确定的参数而进行的OCR处理所提取的字符串，以通过使用所述OCR处理所提取的字符串来设置用于所述预定处理的所述补充信息。

2.根据权利要求1所述的设备，其中，

所述显示控制单元还被配置为：

将所述补充信息的格式与所述扫描图像一起显示在所述UI画面上，其中，所述格式包括与所述多个字符区域相对应的多个项目，所述格式指示所述多个项目的顺序。

3.根据权利要求2所述的设备，其中，

所述显示控制单元还被配置为：

显示所述格式，使得以能够识别的方式显示与已经被选择的字符区域相对应的项目和与尚未被选择的字符区域相对应的项目。

4.根据权利要求2所述的设备，其中，

所述格式至少包括表示要作为所述补充信息的构成元素的字符串的内容的项目，以及

与所述项目相关联地预先准备所述OCR处理的参数。

5.根据权利要求1所述的设备，其中，所述OCR处理的参数至少包括用于指定OCR语言的信息。

6.根据权利要求5所述的设备，其中，所述参数还包括用于定义除了与OCR语言相对应的字典数据中的字符以外还应该被识别的字符的信息、或者用于定义在后处理中对所提取的字符串进行格式化时的格式的信息。

7.根据权利要求1所述的设备，其中，所述补充信息的格式是基于经由所述UI画面的用户指示而确定的。

8.根据权利要求7所述的设备，其中，

所述显示控制单元还被配置为：

在所述UI画面上显示所述补充信息的格式的候选；以及

使用户从所述候选中选择期望的格式。

9.根据权利要求1所述的设备，其中，

所述预定处理是用于存储与所述扫描图像有关的数据的处理，以及

所述补充信息的格式是存储与所述扫描图像有关的数据时的文件名的格式。

10.根据权利要求1所述的设备，其中，

所述预定处理是用于将与所述扫描图像有关的数据上传到预定的传送目的地的处理，以及

所述补充信息的格式是表示所述传送目的地的路径名的格式。

11.根据权利要求1所述的设备，其中

所述预定处理是用于传真与所述扫描图像有关的数据的处理，以及

所述补充信息的格式是传真号码的格式。

12.根据权利要求1所述的设备，其中

所述预定处理是用于通过电子邮件来发送与所述扫描图像有关的数据的处理，以及

所述补充信息的格式是电子邮件地址的格式。

13.一种用于对通过扫描文档所获得的扫描图像进行预定处理的设备的控制方法，所述控制方法的特征在于包括以下步骤：

获取通过针对所选择的多个字符区域使用所确定的参数而进行的所述OCR处理所提取的字符串，以通过使用所述OCR处理所提取的字符串来设置用于所述预定处理的所述补充信息。

14.一种非暂时性计算机可读存储介质，其存储用于使计算机进行用于对通过扫描文档所获得的扫描图像进行预定处理的设备的控制方法的程序，其特征在于，所述控制方法包括以下步骤：

基于用户选择字符区域的选择顺序和用于所述预定处理的补充信息的格式，来确定用于要应用于所选择的多个字符区域的OCR处理的参数；以及