CN118135581A - 客户端终端、客户端终端的控制方法和存储介质 - Google Patents
客户端终端、客户端终端的控制方法和存储介质 Download PDFInfo
- Publication number
- CN118135581A CN118135581A CN202311611498.0A CN202311611498A CN118135581A CN 118135581 A CN118135581 A CN 118135581A CN 202311611498 A CN202311611498 A CN 202311611498A CN 118135581 A CN118135581 A CN 118135581A
- Authority
- CN
- China
- Prior art keywords
- list
- displayed
- client terminal
- image data
- partial area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 114
- 238000004590 computer program Methods 0.000 claims 1
- 238000012015 optical character recognition Methods 0.000 description 75
- 230000008569 process Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 4
- 230000010365 information processing Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/0485—Scrolling or panning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1456—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Character Discrimination (AREA)
- Facsimiles In General (AREA)
Abstract
本发明提供一种客户端终端、客户端终端的控制方法和存储介质。该客户端终端被配置为:获取从原稿获取到的图像数据;对所述图像数据进行字符识别处理;以及对基于用户所发出的指令而指定的所述图像数据的至少部分区域的显示以及通过所述字符识别处理所获取到的字符串的列表的显示进行控制。在要显示的至少部分区域改变时,所述字符串的列表以使得在所述至少部分区域中所识别出的字符串被显示的方式来改变。
Description
技术领域
本发明涉及用于显示图像数据中所包括的字符串的列表的用户接口。
背景技术
近年来,作为朝向数字化转型的转变的一部分,对利用信息技术(IT)系统来提高针对数字化纸质文档的文档处理作业的操作效率的需求不断增加。首先,对纸质文档进行扫描或摄像,并且将该纸质图像电子存档。纸质文档的示例包括诸如采购订单、账单和申请表等的各种类型的文档。通过光学字符识别(OCR)处理来从图像文件提取并使用文档上所描述的字符串,这可以提高针对这些各种类型的文档的文档处理作业的操作效率。
日本特开2020-086717论述了如下的技术,该技术用于显示通过针对图像数据的字符识别处理所获取到的字符串的列表,并且将从该列表中选择的字符串用在作为包括该图像数据的文件的发送目的地的文件夹名中。将该列表针对各页连同相应的图像数据一起显示。
然而,日本特开2020-086717没有论述显示区域在与一页相对应的图像数据内改变的情况。例如,可想到用户通过扩大或减小图像数据以及/或者通过在图像数据内将显示区域移动到另一区域来改变显示区域。根据日本特开2020-086717中所论述的技术,不能根据显示区域的变化来适当地显示字符串的列表。
发明内容
本发明涉及用于根据图像数据中的显示区域的变化来适当地显示通过针对图像数据的字符识别处理所获取到的字符串的列表的技术。
根据本发明的方面,一种客户端终端,其被配置为:获取从原稿获取到的图像数据;对所述图像数据进行字符识别处理;以及对基于用户所发出的指令而指定的所述图像数据的至少部分区域的显示以及通过所述字符识别处理所获取到的字符串的列表的显示进行控制。在要显示的至少部分区域改变时,所述字符串的列表以使得在至少部分区域中所识别出的字符串被显示的方式来改变。
通过以下参考附图对典型实施例的说明,本发明的更多特征将变得明显。
附图说明
图1是例示根据用于实现本发明的第一典型实施例的系统结构和网络结构的图。
图2是例示与根据本发明的本典型实施例的信息处理设备的信息处理功能相关的硬件的结构的图。
图3是例示根据本发明的本典型实施例的系统的软件结构和硬件结构的框图。
图4是例示根据本发明的本典型实施例的处理的流程图。
图5是例示根据本发明的本典型实施例的原稿图像的图。
图6A和图6B是例示根据本发明的本典型实施例的用户接口(UI)的示例的图。
图7A和图7B是例示根据本发明的本典型实施例的UI的示例的图。
图8是例示根据本发明的本典型实施例的UI的示例的图。
图9A和图9B是例示根据本发明的本典型实施例的UI的示例的图。
图10A和图10B是例示根据本发明的本典型实施例的UI的示例的图。
图11A和图11B是例示根据本发明的本典型实施例的UI的示例的图。
图12是例示根据本发明的本典型实施例的原稿图像的图。
图13是例示根据本发明的本典型实施例的UI的示例的图。
图14是例示根据本发明的本典型实施例的UI控制处理的流程图。
具体实施方式
将说明第一典型实施例。在下文,将参考附图来说明用于实现本发明的典型实施例。在下文所述的典型实施例不旨在限制所附权利要求书的范围中的发明,并且并非这些典型实施例中所述的特征的所有组合都用在本发明的解决方案中。
图1是例示根据用于实现本发明的本典型实施例的系统结构和网络结构的示例的图。网络101是诸如因特网或内联网等的网络。在该结构中包括客户端终端111、扫描器终端121和应用服务器131。客户端终端111的示例包括诸如个人计算机、膝上型计算机、平板计算机和智能电话等的各种形式和类型。扫描器终端121的示例包括诸如办公室用多功能外围设备、喷墨多功能外围设备和专用于扫描的终端等的各种类型。应用服务器131例如是以本地服务器(on-premise server)、作为云中的托管服务器提供的虚拟机服务器、或者软件即服务(SaaS)的形式来提供的。
图2是例示客户端终端111、扫描器终端121或应用服务器131的信息处理功能的模块结构的图。网络接口202通过连接到诸如局域网(LAN)等的网络与其他计算机或网络装置进行通信。可以采用有线或无线通信作为其通信方法。在只读存储器(ROM)204中存储有嵌入式程序和数据。随机存取存储器(RAM)205用作临时存储区域。辅助存储装置206是诸如硬盘驱动器(HDD)或闪速存储器等的辅助存储装置。中央处理单元(CPU)203运行从ROM 204、RAM 205和辅助存储装置206读取的程序。模块结构还包括图形处理单元(GPU)207。GPU 207是专用于图像处理的处理器,并且进行图像处理、显示器上所要显示的输出图像的渲染、以及诸如机器学习等的大量并行算术运算。模块结构不总是必须包括GPU 207。用户接口201向显示器、键盘、鼠标、按钮和触摸面板输出信息和信号以及从显示器、键盘、鼠标、按钮和触摸面板接收信息和信号。不包括上述硬件的计算机可以通过远程桌面或远程外壳连接到另一计算机并由该另一计算机进行操作。各个构成元件经由输入/输出接口208彼此连接。
图3是例示系统的软件结构和硬件结构的图。硬件中所安装的软件由该硬件中所包括的CPU 203运行,并且如表示网络连接的箭头所示,可以彼此通信。另外,包括GPU 207的硬件可被配置为使得GPU 207能够进行图像处理。
客户端应用301由客户端终端111运行。客户端应用301通常采用安装在客户端终端111的操作系统(OS)中并在该OS上运行的原生应用的形式。这是因为采用该形式使得可以创建可访问由OS提供的照相机和文件的所有功能的应用。然而,在OS包括用于使得这些功能能够从浏览器使用的应用编程接口(API)的情况下,可以在浏览器上运行以超文本标记语言(HTML)或JavaScript描述的Web应用。在这种情况下,客户端应用301采用浏览器的形式。在下文,基于在诸如所谓的通用智能电话或平板个人计算机(PC)等的客户端终端111中使用客户端应用301的这一假设,来说明本典型实施例。然而,如果扫描器终端121包括诸如用以运行客户端应用301的OS和触摸面板用户接口(UI)等的构成元件,则客户端应用301可以由扫描器终端121运行。
文件存储部311存储并管理文件。如上所述,客户端终端111可以包括存储服务器。文件存储部311由文件存储单元312和元数据管理单元313组成。文件存储单元312存储并管理与文件本身有关的二进制数据。元数据管理单元313存储并管理与各文件有关的元数据。尽管与文件有关的元数据一般包括创建日期和时间、文件大小和创建者的姓名,但可以存储并管理任何元数据。
图像处理单元321进行包括诸如光学字符识别(OCR)等的字符识别处理的图像处理。图像处理单元321由文件临时存储单元322和图像处理执行单元323组成。文件临时存储单元322存储经受了由以下所述的图像处理执行单元323进行的图像处理的文件及其执行结果。图像处理执行单元323从文件临时存储单元322读出作为处理对象的文件,通过OCR进行字符识别处理,并且将执行结果文件存储在文件临时存储单元322中。客户端终端111还包括照相机324。客户端应用301可以获取照相机324所拍摄到的图像。
扫描器331装配在扫描器终端121上。扫描器331通过利用光学传感器扫描原稿表面来读取反射光和颜色。图像形成单元332基于扫描器331所获取到的光学测量值来形成原稿的页图像。扫描器终端121包括通信接口333。通信接口333经由诸如LAN、通用串行总线(USB)、和(蓝牙)等的有线或无线通信所用的通信协议来控制与外部装置的通信。客户端应用301连接到通信接口333以开始利用扫描器331对原稿的扫描,并且获取图像形成单元332所生成的图像。
文件存储部311和图像处理单元321可以作为文件存储部341和图像处理单元351布置在应用服务器131上。构成元件341至353与上述的构成元件311至323类似,使得省略了其说明。
图4是例示整个处理过程的流程图。图4所例示的由客户端应用301进行的处理是在将客户端终端11的辅助存储装置206中所存储的程序读取到RAM 205之后、作为CPU 203的算术处理进行的。如上所述,图像处理由GPU 207进行。在本典型实施例中,尽管说明了以下处理由客户端终端111的客户端应用301进行的结构,但本典型实施例不限于此。如上所述,以下处理可以由扫描器终端121进行。
在步骤S401中,客户端应用301从照相机324、扫描器331、或者文件存储部311和341获取原稿图像。在本发明中,基于一张原稿来获取图像数据。具体地,客户端应用301检测以下在图6A中所述的画面610上所显示的照相机选择按钮612的按下。在检测到照相机选择按钮612的按下时,客户端应用301在用户接口201上显示画面620。用户通过使用客户端终端111中所包括的照相机324来拍摄原稿的图像。客户端应用301检测画面620上所显示的摄像按钮623的按下,并且获取所拍摄到的图像数据。如果要从扫描器331获取图像数据,则用户按下扫描器选择按钮611。在检测到扫描器选择按钮611的按下时,客户端应用301在用户接口201上显示画面630。用户在画面630上进行扫描设置。在客户端应用301检测到用户对扫描按钮635的按下时,客户端应用301将指示扫描执行指令的信息发送到扫描器终端121。扫描器终端121接收到该信息并利用扫描器331进行扫描。通过扫描所获取到的图像数据经由通信接口333被发送到客户端应用301,使得客户端应用301获取到图像数据。如果要从文件存储部311获取图像数据,则用户按下画面610上所显示的本地文件按钮613。在检测到本地文件按钮613的按下时,客户端应用301在用户接口201上显示画面640。然后,客户端应用301接受用户从画面640上所显示的文件中对文件的选择。客户端应用301从文件存储部311获取用户所选择的文件。另外,除了获取源是应用服务器131的文件存储部341以外,用于从文件存储部341获取图像数据的处理与用于从文件存储部311获取文件的处理类似。
客户端应用301将图像输入到图像处理单元321,并且图像处理单元321将该图像存储在文件临时存储单元322中。在步骤S402中,图像处理执行单元323读取文件临时存储单元322中所存储的图像文件,进行字符识别处理(OCR),并将图像处理结果输出到文件临时存储单元322。在步骤S403中,客户端应用301从图像处理单元321获取图像处理结果。如果使用应用服务器131的图像处理单元351,则除了访问目的地改变为图像处理单元351以外,进行与上述处理类似的处理。该配置使得能够在客户端终端111中所包括的CPU 203或GPU 207的性能不足的情况下将图像处理卸载到应用服务器131。在步骤S404中,客户端应用301将图像以及图像处理结果的OCR字符串显示在UI上,并且接受对OCR字符串的选择。在步骤S405中,客户端应用301将所选择的OCR字符串用于文件夹名、文件名和元数据中的至少任一个,并且将图像文件存储在作为存储目的地的文件存储部311或341中。
在下文,将参考图5至图14来详细说明步骤S403、S404和S405中的处理。
图5是例示步骤S401中所获取到的原稿图像500的整个页的图像的图。以下通过使用用中文书写的采购订单的原稿图像来说明本典型实施例。另外,可以使用任何语言和任何类型的原稿。在原稿图像500中,包括了采购订单中所描述的各种类型的信息(例如,日期、编号、公司名称、地址、电话号码、产品名称和价格)作为字符串。正交坐标系图501例示原稿图像500与通过图像处理所获取到的OCR字符串区域502之间的关系。当客户端应用301在步骤S402中获取原稿图像500作为输入并进行图像处理、并且在步骤S403中获取图像处理结果时,可以获取到以下信息作为图像处理结果,即,OCR字符串“采购订单”和OCR字符串区域502的起点坐标、宽度和高度。此外,基于所获取到的OCR字符串以及与各个OCR字符串区域的位置和大小有关的信息,在图像处理结果中还可以包括附加分析信息(例如,指示字符串是否是所谓的键值类型字符串对(Key-Value type character string pair)的信息、以及指示字符串是键还是值的信息)。例如,可以基于通过对作为OCR结果所获取到的字符串的句法分析对通常在键之后所使用的字符(例如,冒号“:”)的检测,来检测键和值。可替代地,客户端应用301可以预先从用户接受作为键的字符串的指定,使得在检测到该所指定的字符串时,也可以辨识出与值相对应的字符串。在原稿图像500中,例如,字符串对“PO编号:”和“2022-P001-07525”以及字符串对“公司名称:”和“XYZ公司”与键值类型字符串对相对应。在表1中例示从原稿图像500获取到的作为图像处理结果的OCR字符串数组。尽管表1还包括与上述的OCR字符串区域的位置和大小有关的信息,但从表1省略了该信息的说明以避免复杂性。在下文,以下说明基于针对各字符串肯定存在与OCR字符串区域的位置和大小有关的信息这一前提而继续。
表1:OCR字符串数组
图6A、图6B、图7A、图7B、图8、图9A、图9B、图10A、图10B、图11A、图11B和图13是例示客户端应用301的用户接口的图。这些用户接口显示在客户端终端111的用户接口201上。例如,这些用户接口显示在智能电话的触摸面板上。图12是例示原稿图像内的区域的图。该图提供对图11A和图11B的补充说明。图14是例示UI处理的流程图。
现在将参考这些图来按顺序说明由客户端应用301进行的UI控制处理。
画面610是用于读取图像的画面。在该画面610上,用户从扫描器终端121、照相机324、以及文件存储部311和341中选择原稿图像的获取源。在客户端应用301检测到用户对扫描器选择按钮611的按下时,客户端应用301选择扫描器终端121作为原稿图像的获取源并从该扫描器终端121获取图像数据。在客户端应用301检测到用户对照相机选择按钮612的按下时,客户端应用301选择照相机324作为原稿图像的获取源并从该照相机324获取图像数据。在客户端应用301检测到用户对本地文件按钮613的按下时,客户端应用301选择文件存储部311作为原稿图像的获取源并从该文件存储部311获取图像数据。在客户端应用301检测到用户对应用服务器按钮614的按下时,客户端应用301选择文件存储部341作为原稿图像的获取源并从该文件存储部341获取图像数据。
如果选择照相机324作为原稿图像的获取源,则客户端应用301将用于利用照相机324拍摄图像的画面620显示在用户接口201上。用户按下摄像按钮623以拍摄照相机324的摄像区域显示部621中的原稿622的图像。在客户端应用301检测到返回按钮624的按下时,客户端应用301显示先前画面(本文中为画面610)。在下文,由于返回按钮的操作是类似的,因此省略了返回按钮的说明。
如果选择扫描器终端121作为原稿图像的获取源,则客户端应用301显示用于进行扫描设置的画面630。用户可以通过下拉控件631、632和633进行单面/双面读取的设置、用于选择彩色模式或黑白模式的设置、以及用于选择分辨率的设置。在客户端应用301检测到用户对扫描按钮635的按下时,客户端应用301经由通信接口333扫描设置到扫描器终端121的原稿,并且获取所生成的图像数据。
如果选择文件存储部311或341作为原稿图像的获取源,则客户端应用301显示用于读取图像文件的画面640。控件641显示文件存储部311或341中的文件夹路径。列表视图控件642是文件夹导航的列表视图控件。用户按下列表视图控件642以移动到目标文件夹。用户按下控件641以返回到上层文件夹。列表视图控件643是用于选择文件存储部中的文件的列表视图控件。当客户端应用301在接受经由列表视图控件643对作为原稿图像所获取到的图像文件的用户选择之后、检测到下一步按钮644的按下时,客户端应用301将由列表视图控件643指示的文件确定为读取目标文件,并且显示下一画面(本文中为画面710)。在下文,由于下一步按钮的操作是类似的,因此省略了下一步按钮的说明。到此为止的处理与步骤S401中所进行的处理相对应。
客户端应用301在从扫描器终端121、照相机324、以及文件存储部311和341获取原稿图像之后,显示用于确认图像的画面710。预览711显示原稿图像的预览。在客户端应用301检测到用户对下一步按钮的按下时,客户端应用301获取原稿图像作为输入,并且经由图像处理单元321或351对该原稿图像进行图像处理。到此为止的处理与步骤S402中所进行的处理相对应。
客户端应用301在后台中等待图像处理结束的同时,显示用于指定目的地文件夹的画面720。文件夹路径721显示文件存储部311或341的文件夹路径。列表视图控件722是用于显示在当前文件夹的下级中存在的子文件夹的列表的列表视图控件。客户端应用301检测到列表视图控件722的按下并且将当前文件夹731显示在画面730上。用户在使画面移动到目标目的地文件夹之后按下下一步按钮。客户端应用301检测到下一步按钮的按下并且确定目的地文件夹。
参考图14中的流程图来说明以下处理。图14例示详细说明的步骤S403和S404中的处理。在以下的处理中,将步骤S403和S404中的处理(即,步骤S1401至S1406中的处理)重复四次。在该处理的第一轮中确定作为包括图像数据的文件的存储目的地的子文件夹的名称,在该处理的第二轮中确定文件的名称,在该处理的第三轮中确定要设置到文件的元数据,并且在该处理的第四轮中确定要设置到文件的标签。
首先,说明用于确定子文件夹名的处理。在客户端应用301获取到图像数据并对该图像数据进行图像处理时,用于确定子文件夹名的处理开始。在步骤S1401中,客户端应用301从图像处理单元321或351获取原稿图像和表1所例示的OCR字符串数组作为图像处理结果。到此为止的处理与步骤S403中所进行的处理相对应。在步骤S1402中,为了使用列表视图,客户端应用301创建表2所例示的列表视图数组,并且将表1中的OCR字符串数组纳入该列表视图数组中。除列表视图数组编号以外,表2中的数据与表1中的OCR字符串数组数据完全相同。客户端应用301通过重排列表视图数组编号来改变列表视图上所显示的OCR字符串数据的顺序。
表2:列表视图数组
当客户端应用301通过检测到画面730上的下一步按钮的按下来辨识目的地文件夹时,客户端应用301显示用于指定子文件夹的画面810。另外,可以在步骤S1402的处理之前辨识目的地文件夹。此外,在用于确定子文件夹名的处理中不进行子过程1和子过程2的处理,并且本文中不说明子过程1和子过程2。然而,本典型实施例不限于此。在用于确定子文件夹名的处理中也可以进行子过程1和子过程2的处理。在说明用于确定元数据的处理和用于确定标签的处理时,将详细说明在子过程1和子过程2中进行的处理。
预览区域811显示原稿图像的预览。用户可以通过对预览区域811进行滑动操作来使页在原稿图像500的垂直方向和水平方向上移动。尽管在预览区域811上仅显示原稿图像500的上侧1/3,但用户可以通过进行滚动操作来将显示区域移动或改变到页的下侧部分。用户还可以通过进行捏操作来放大或缩小图像以改变显示区域。将从图像提取的OCR字符串列出并显示在列表视图控件812上,并从这些OCR字符串中进行选择。在许多OCR字符串未整体显示在列表视图控件812上的情况下,显示滚动指示器813。
在步骤S1403中,客户端应用301将所获取到的原稿图像500显示在预览区域811上。然后,在步骤S1404中,客户端应用301向列表视图数组的显示开头设置预览区域811的开头处所显示的OCR字符串“采购订单”。换句话说,客户端应用301将列表视图数组编号1设置为表2的显示开头。然后,在步骤S1405中,客户端应用301将显示开头处所布置的列表视图数组编号处的OCR字符串设置为列表视图控件812的开头,并且将表2的列表视图数组显示在列表视图控件812上。在本典型实施例中,可以经由滑动操作在垂直方向上滚动列表视图控件812,并且按表2的列表视图数组编号的顺序显示OCR字符串。在本文,可以在画面上仅显示可滚动列表中的有限数量的字符串。在本典型实施例中,滚动列表以在画面上示出显示开头处所布置的字符串。画面820也是用于指定子文件夹的画面。当经由对预览区域811进行的滑动操作向下滚动原稿图像500时,显示该画面820。
在步骤S1406中,客户端应用301针对预览区域811至少检测用于将预览区域811移动到预览区域821的操作或者用于对预览区域811进行缩放的操作。如果客户端应用301检测到这些操作中的至少任一操作(步骤S1406中为“是”),则处理进入步骤S1403。在步骤S1403中,客户端应用301将移动/缩放操作之后的原稿图像500的更新预览显示在预览区域上。在步骤S1404中,由于在预览区域821的开头处显示OCR字符串“电话:”,因此客户端应用301将列表视图数组编号10设置为表2的列表视图数组的显示开头。在步骤S1405中,客户端应用301更新列表视图控件822,以使列表视图数组编号10处的字符串“电话:”显示在列表视图控件822的开头处。具体地,客户端应用301通过将列表视图控件822向下滚动到预定位置来控制显示,使得在列表视图控件822的显示区域的开头处显示OCR字符串“电话:”。类似地,在客户端应用301检测到对预览区域811进行的移动/缩放操作时,客户端应用301更新预览区域821的显示,并且与该更新连动地通过改变列表视图控件822的显示开头来进一步更新列表视图控件822的显示。在本典型实施例中,客户端应用301根据预览区域821上所显示的图像的显示区域,通过滚动列表视图控件822来进行列表的显示控制。此外,列表可以仅包括预览区域821上显示的图像数据的部分区域中所包括的字符串。利用该配置,客户端应用301可以进行列表的显示控制,以使预览区域821的开头处所显示的OCR字符串显示在列表视图控件822的显示区域的开头处。
在本典型实施例中,将说明选择并指定字符串数组编号13处的字符串“X照相机公司”作为子文件夹名的用例。当与预览区域821的显示区域的更新连动地更新列表视图控件822的显示开头时,在列表视图控件822上显示目标字符串“X照相机公司”。然后,用户通过轻击列表视图控件822来选择目标字符串。当客户端应用301接受对列表视图控件822上所显示的字符串的用户选择时,客户端应用301突出显示所选择的字符串以指示已选择状态。
客户端应用301进一步突出显示预览区域821中的、与从列表视图控件822中选择的字符串相对应的“X照相机公司”的字符串区域823。这样,用户可以检查从原稿图像中选择的字符串区域。当检测到下一步按钮的按下时,客户端应用301使画面移动到下一画面,并且结束该流程图的处理。
现在将说明步骤S1401至S1406中的处理的第二轮。在该处理中,确定图像数据的文件名。步骤S1401和S1402中的处理与用于确定子文件夹名的处理类似。另外,在处理的第二轮和后续轮中,可以省略步骤S1401和S1402中的处理。在这种情况下,在以下处理中也使用在步骤S1401和S1402中的处理的第一轮中所获取到的原稿图像、OCR字符串数组和列表视图数组。此外,在处理的第二轮中也省略了子过程1。在步骤S1403中,客户端应用301显示画面910。画面910是用于指定文件名的画面。在以下所述的用例中,从原稿图像选择多个OCR字符串。预览区域911和列表视图控件912与预览区域811和列表视图控件812类似。用户进行长按操作以选择列表视图控件912内的OCR字符串922。当客户端应用301检测到长按操作时,客户端应用301突出显示OCR字符串922并在该OCR字符串922上放置勾选标记以指示OCR字符串922的列表视图控件的已选择状态。客户端应用301进一步突出显示预览区域911中的与OCR字符串922相对应的OCR字符串区域923。
用户还进行长按操作以选择列表视图控件912中的OCR字符串931。
当客户端应用301检测到对OCR字符串931进行的长按操作时,客户端应用301突出显示OCR字符串931并在该OCR字符串931上放置勾选标记以指示OCR字符串931的列表视图控件的已选择状态。客户端应用301进一步突出显示预览区域911中的与OCR字符串931相对应的OCR字符串区域932。如果选择多个OCR字符串,则可以经由控件933重排这多个OCR字符串的顺序。用户长按控件933以将所选择的OCR字符串拖动到期望位置。结果,如结果941所示,重排所选择的OCR字符串922和931。当检测到下一步按钮的按下时,客户端应用301使画面移动到下一画面,并且结束该流程图的处理。
现在将说明步骤S1401至S1406中的处理的第三轮。在该处理中,确定要设置到包括图像数据的文件的元数据。步骤S1401和S1402中的处理与用于确定子文件夹名的处理类似。在以下所述的用例中,还进行子过程1中的处理。
在步骤S1411中,客户端应用301判断是否将键字符串显示在列表的下侧位置。具体地,客户端应用301检查画面1020上所显示的拨动开关1021是否为开启(ON)。如果拨动开关1021不是为开启而是为关闭(OFF)(步骤S1411中为“否”),则处理进入步骤S1403。在步骤S1403中,客户端应用301显示用于指定元数据的画面1010。预览区域1011和列表视图控件1012与预览区域811和列表视图控件812类似。设置按钮1013是客户端应用301的设置按钮。当按下设置按钮1013时,打开画面1020。用户可以通过操作拨动开关1021来选择是否将键值类型字符串对的键字符串布置在列表的下侧位置。当预览上仅显示字符串的一部分时,用户可以通过操作拨动开关1022来选择是否将字符串布置在列表的下侧位置。以下将参考另一图来说明拨动开关1022。如果拨动开关1021为OFF,则画面1010上所显示的列表视图控件1012的显示顺序与表2所例示的列表视图数组的显示顺序完全相同。
如果拨动开关1021为ON(步骤S1411中为“是”),则处理进入步骤S1412。在步骤S1412中,客户端应用301如表3所例示重排列表视图数组,使得将键值类型是键的OCR字符串显示在表3的下侧位置。
表3:列表视图数组(键字符串被重排并显示在下侧位置)
然后,如列表视图控件1031所示,客户端应用301按表3中重排的顺序显示列表视图控件。通过上述处理,可以使在文件夹名、文件名或元数据中不太可能使用的诸如原稿图像500中的“PO编号:”和“公司名称”等的字符串移动到列表的下侧位置。由于在列表视图控件1031上可以仅显示有限数量的字符串,因此从显示目标字符串中消除不太可能使用的字符串的候选是有益的。
此外,可以在步骤S1403中显示原稿图像的预览之后执行子过程1。具体地,当在客户端应用301上正在显示画面1010期间、客户端应用301检测到设置按钮1013的按下时,客户端应用301显示画面1020。当在拨动开关1021从OFF切换到ON之后、客户端应用301检测到OK按钮的按下时,客户端应用301使键字符串移动到列表视图数组的下侧位置,并且新显示更新的列表视图控件。此外,当在拨动开关1021从ON切换到OFF之后、客户端应用301检测到OK按钮的按下时,客户端应用301根据在使键字符串移动到列表视图数组的下侧位置之前的原始列表视图数组来更新列表视图控件的显示。
在以下所述的用例中,选择并输入OCR字符串“XYZ公司”作为元数据“公司名称”的值。在拨动开关1021为OFF时,在列表视图控件1012的可显示区域上不显示目标OCR字符串“XYZ公司”。在拨动开关1021为ON时,由于如表3所例示键字符串被移动到列表的下侧位置,因此可以在列表视图控件1031中显示目标OCR字符串“XYZ公司”。当用户轻击并选择列表视图控件1041上所显示的目标OCR字符串“XYZ公司”时,客户端应用301突出显示所选择的OCR字符串。客户端应用301还突出显示预览区域中的OCR字符串区域1042。在检测到下一步按钮的按下时,客户端应用301使画面移动到下一画面,并且结束该流程图的处理。
现在将说明步骤S1401至S1406中的处理的第四轮。在该处理中,确定要设置到包括图像数据的文件的标签。步骤S1401和S1402中的处理与用于确定子文件夹名的处理类似。此外,省略了子过程1。在以下所述的处理中,代替步骤S1404中的处理而是执行子过程2。在步骤S1403中,客户端应用301显示画面1110。画面1110是用于指定标签的画面。标签是一般不需要严格的类型定义(诸如键值类型元数据的类型定义等)的一个类型的元数据。因而,可以向画面自由地添加一个或多于一个附加数据。标签也被称为“标志(label)”。预览区域1111和列表视图控件1112与预览区域811和列表视图控件812类似。如图12所示,在预览区域1111上显示原稿图像500的扩大部分区域1201。表4例示关注于包括部分区域1201的区域1202中所包括的字符串的列表视图数组。将指示预览的显示状态的列添加到表4的右端。
表4:列表视图数组(添加了预览显示状态列)
预览显示状态指示预览区域1111中的相应OCR字符串是以完全显示状态、部分显示状态还是非显示状态来显示的。当画面1020的拨动开关1022为OFF时,按表4中的列表视图数组的顺序在列表视图控件1112上显示字符串。
在步骤S1421中,客户端应用301判断拨动开关1022是否设置为ON。具体地,首先,当在步骤S1403中所显示的画面1110上检测到设置按钮1113的按下时,客户端应用301显示画面1020。当在画面1020上所显示的拨动开关1022被设置为ON之后、检测到OK按钮的按下时,客户端应用301判断为拨动开关1022被设置为ON。当在拨动开关1022被设置为OFF之后、检测到OK按钮的按下时,客户端应用301判断为拨动开关1022未被设置为ON。如果拨动开关1022被设置为ON(步骤S1421中为“是”),则处理进入步骤S1422。在步骤S1422中,客户端应用301在具有与预览区域1111的高度相同的高度的区域1202中列出OCR字符串,并将这些OCR字符串的预览显示状态分类为完全显示、部分显示和非显示。在步骤S1423中,根据预览显示状态列中所示的完全显示、部分显示和非显示的顺序,客户端应用301如表5所例示重排列表视图数组。
表5:(根据预览显示状态重排的)列表视图数组
在步骤S1424中,在步骤S1423中重排列表视图数组之后,客户端应用301从步骤S1422中所列出的OCR字符串中,将最小的列表视图数组编号处的OCR字符串设置为列表视图数组的显示开头。在本典型实施例中,将表5的列表视图数组编号9处的OCR字符串“描述”设置为显示开头。在步骤S1405中,客户端应用301将表5所例示的根据预览显示状态重排的列表视图数组显示在列表视图控件1121上。通过上述处理,可以将从原稿图像500的区域1202中的OCR字符串中的、以完全显示状态或部分显示状态显示的字符串作为上位的候选显示在列表视图控件1121上。另外,如子过程1的情况那样,上述处理可以在步骤S1402和S1403中的处理之间进行。换句话说,客户端应用301可以在步骤S1403中显示画面1110之前,检查拨动开关1022的设置,并且基于根据该设置的列表视图数组来显示列表视图控件。
用户对列表视图控件1121进行长按操作,以使被用作标签的OCR字符串1131和1132进入已选择状态。当客户端应用301检测到长按操作时,客户端应用301突出显示OCR字符串1131和1132,并在该OCR字符串1131和1132上放置勾选标记以指示已选择状态。此外,客户端应用301在预览区域1111中突出显示所选择的OCR字符串区域1133和1134。当检测到下一步按钮的按下时,客户端应用301使画面移动到下一画面,并且结束该流程图的处理。该下一画面是以下所述的画面1300。
在上述本典型实施例中,在用户对预览区域821上所显示的图像至少进行移动操作或缩放操作的情况下,客户端应用301进行用于切换列表的显示的控制处理。例如,图8中的画面820例示在使画面810的预览区域811上所显示的区域移动到下侧区域时显示的列表的示例。此外,图11A和图11B中的画面1110例示在根据用户的指令缩放并扩大预览区域1111上所显示的部分区域时显示的列表的示例。此外,在用户通过向预览区域输入缩小指令来减小图像数据的显示大小时,客户端应用301可以进行用于切换列表的显示的控制处理。例如,如果如图11A的画面1110所例示、在列表视图控件1112的显示区域的开头处显示OCR字符串“零件编号”,则用户向预览区域111输入缩小指令。如上所述,如果用户减小图像以显示整个原稿图像500,则客户端应用301将OCR字符串“采购订单”设置为列表视图数组的开头。然后,客户端应用301进行用于与列表视图控件812类似地显示列表的控制处理。
画面1300是用于将图像存储在存储目的地中的画面。文本控件1301指示作为存储目的地的文件存储部311或341的目的地名称。文本控件1302指示在图7A和图7B以及图8中的画面上指定和选择的文件夹路径。文本控件1303描述在图9A和图9B中的画面上指定和选择的文件名。文本控件1304指示在图10A和图10B中的画面上指定和选择的元数据。文本控件1305指示在图11A和图11B中的画面上指定和选择的一个或多于一个标签。当按下保存按钮1306时,客户端应用301将原稿图像以所指定的文件夹路径和所指定的文件名存储在作为存储目的地的文件存储部311或341中。此外,如果指定了元数据(包括标签),则客户端应用301将元数据连同原稿图像一起同时存储在作为存储目的地的文件存储部311或341中。到此为止的处理与整个处理过程中的步骤S405中所进行的处理相对应。
在本典型实施例中,说明了用于通过客户端应用从图像选择期望的OCR字符串的UI控制方法。即使客户端终端由于显示大小不够而限制触摸面板UI特有的操作(即,轻击、滑动和捏操作),也可以容易且快速地选择图像中的期望OCR字符串。该配置通过经由用于选择图像中的OCR字符串的触摸面板UI来提高选择图像中的期望OCR字符串的操作效率,解决了上述问题。
<其他典型实施例>
本发明可以通过以下处理来实践:将用于执行根据上述典型实施例的一个或多于一个功能的程序经由网络或存储介质供给到系统或设备,并且该系统或设备中的一个或多于一个处理器读取并运行该程序。
此外,本发明也可以利用诸如专用集成电路(ASIC)或现场可编程门阵列(FPGA)等的用于执行一个或多于一个功能的电路来实践。
根据本发明的本典型实施例的客户端终端提供了如下的系统,该系统用于根据图像数据的基于扩大和减小的指令而改变的显示区域,来适当地显示通过对该图像数据进行字符识别处理所获取到的字符串的列表。
其他实施例
本发明的实施例还可以通过如下的方法来实现,即,通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置,该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。
尽管参考典型实施例说明了本发明,但是应该理解,本发明不限于所公开的典型实施例。所附权利要求书的范围应符合最宽的解释,以涵盖所有这样的修改以及等同的结构和功能。
Claims (17)
1.一种客户端终端,其被配置为:
获取从原稿获取到的图像数据;
对所述图像数据进行字符识别处理;以及
对基于用户所发出的指令而指定的所述图像数据的至少部分区域的显示以及通过所述字符识别处理所获取到的字符串的列表的显示进行控制,
其中,在要显示的所述至少部分区域改变时,所述字符串的列表以使得在所述至少部分区域中所识别出的字符串被显示的方式来改变。
2.根据权利要求1所述的客户端终端,
其中,所述用户所发出的指令是用于扩大所述至少部分区域的显示的指令和用于减小所述至少部分区域的显示的指令中的至少任一个,以及
其中,基于所述指令所指定并显示的所述至少部分区域被改变。
3.根据权利要求1所述的客户端终端,
其中,所述列表以能够滚动的形式显示,以及
其中,所述列表滚动到预定位置,并且所述列表以使得在所述部分区域中所识别出的字符串被显示的方式进行显示。
4.根据权利要求1所述的客户端终端,其中,在所述列表中仅包括所述部分区域中所包括的字符串,使得在所述部分区域中所识别出的字符串被显示。
5.根据权利要求1所述的客户端终端,其中,在所述部分区域中所识别出的字符串中,仅一部分被包括在所述部分区域中的字符串布置在所述列表的下侧位置。
6.根据权利要求1所述的客户端终端,其中,在所述部分区域中所识别出的字符串中,仅一部分被包括在所述部分区域中的字符串不包括在所述列表中。
7.根据权利要求1所述的客户端终端,
其中,进一步通过所述字符识别处理来识别作为键的字符串和作为与键相对应的值的字符串的组合,以及
其中,在所述部分区域中所识别出的字符串中,作为键的字符串布置在所述列表的下侧位置。
8.根据权利要求1所述的客户端终端,还被配置为:
接受所述列表中所包括的所显示的字符串的选择;以及
将与所述图像数据有关的信息设置到所述图像数据。
9.根据权利要求8所述的客户端终端,其中,从所述列表提取所选择的字符串并进行显示。
10.根据权利要求8所述的客户端终端,其中,通过使用所选择的字符串来设置所述信息。
11.根据权利要求8所述的客户端终端,其中,所述信息是以下项中的至少任一个:包括所述图像数据的文件的名称、要存储所述文件的文件夹的名称、以及设置到所述文件的元数据。
12.根据权利要求1所述的客户端终端,包括照相机,
其中,所述图像数据是通过利用所述照相机拍摄原稿的图像所获取的。
13.根据权利要求1所述的客户端终端,包括扫描器,
其中,所述图像数据是通过利用所述扫描器扫描原稿所获取的。
14.根据权利要求1所述的客户端终端,包括存储服务器,
其中,所述图像数据是从所述存储服务器所获取的。
15.根据权利要求1所述的客户端终端,包括触摸面板,
其中,所述图像数据和所述列表显示在所述触摸面板上。
16.一种客户端终端的控制方法,所述控制方法包括:
获取从原稿获取到的图像数据;
对所述图像数据进行字符识别处理;以及
对基于用户所发出的指令而指定的所述图像数据的至少部分区域的显示以及通过所述字符识别处理所获取到的字符串的列表的显示进行控制,
其中,在要显示的所述至少部分区域改变时,所述字符串的列表以使得在所述至少部分区域中所识别出的字符串被显示的方式来改变。
17.一种非暂态计算机可读存储介质,其存储有计算机程序,所述计算机程序用于执行客户端终端的控制方法,所述控制方法包括:
获取从原稿获取到的图像数据;
对所述图像数据进行字符识别处理;以及
对基于用户所发出的指令而指定的所述图像数据的至少部分区域的显示以及通过所述字符识别处理所获取到的字符串的列表的显示进行控制,
其中,在要显示的所述至少部分区域改变时,所述字符串的列表以使得在所述至少部分区域中所识别出的字符串被显示的方式来改变。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022-192636 | 2022-12-01 | ||
JP2022192636A JP2024079933A (ja) | 2022-12-01 | 2022-12-01 | クライアント端末、クライアント端末の制御方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118135581A true CN118135581A (zh) | 2024-06-04 |
Family
ID=91236723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311611498.0A Pending CN118135581A (zh) | 2022-12-01 | 2023-11-29 | 客户端终端、客户端终端的控制方法和存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240185628A1 (zh) |
JP (1) | JP2024079933A (zh) |
CN (1) | CN118135581A (zh) |
-
2022
- 2022-12-01 JP JP2022192636A patent/JP2024079933A/ja active Pending
-
2023
- 2023-11-29 CN CN202311611498.0A patent/CN118135581A/zh active Pending
- 2023-11-30 US US18/525,581 patent/US20240185628A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240185628A1 (en) | 2024-06-06 |
JP2024079933A (ja) | 2024-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10860785B2 (en) | Apparatus for setting file name and the like for scan image, control method thereof, and storage medium | |
JP7034730B2 (ja) | スキャン画像に関連する情報を設定するための装置、方法、およびプログラム | |
JP6953230B2 (ja) | スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム | |
CN107979709B (zh) | 图像处理装置、系统、控制方法和计算机可读介质 | |
JP7030462B2 (ja) | スキャン画像から文字情報を取得する画像処理装置、画像処理方法、及びプログラム | |
US10222971B2 (en) | Display apparatus, method, and storage medium | |
US11144189B2 (en) | Determination and relocation of movement targets based on a drag-and-drop operation of a thumbnail across document areas | |
JP7434001B2 (ja) | 情報処理装置、プログラム、情報処理方法 | |
US11843732B2 (en) | Image processing apparatus for inputting characters using touch panel, control method thereof and storage medium | |
US11252287B2 (en) | Image processing apparatus that displays guidance for user operation, control method thereof and storage medium | |
US20150163369A1 (en) | Remote control device, remote operation device, screen transmission control method, and non-transitory computer-readable recording medium encoded with screen display control program | |
EP2799978A1 (en) | Image processing system, image processing apparatus, portable information terminal, program | |
US11265431B2 (en) | Image processing apparatus for inputting characters using touch panel, control method thereof and storage medium | |
JP7508766B2 (ja) | 入力装置、入力方法、プログラム、入力システム | |
US8982397B2 (en) | Image processing device, non-transitory computer readable recording medium and operational event determining method | |
JP2024111215A (ja) | 入力装置、入力方法、プログラム、入力システム | |
CN115050038A (zh) | 信息处理装置、信息处理方法和存储介质 | |
JP7532085B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
US11575799B2 (en) | Image processing apparatus for setting property including character strings and separators to scanned image, control method thereof and storage medium | |
KR20210040260A (ko) | 메타데이터를 설정하기 위한 화면의 표시를 제어하는 방법, 비일시적 저장 매체 및 장치 | |
US11012584B2 (en) | Image forming apparatus, method of processing image, and recording medium storing image processing program | |
US11588945B2 (en) | Data input support apparatus that displays a window with an item value display area, an overview image display area, and an enlarged image display area | |
CN118135581A (zh) | 客户端终端、客户端终端的控制方法和存储介质 | |
JP2021164132A (ja) | 画像処理システム、及びプログラム | |
US20060206531A1 (en) | Document managing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |