CN101902541B - 数据输入系统,数据输入接收装置,数据输入读取方法,以及数据输入接收方法 - Google Patents

数据输入系统,数据输入接收装置,数据输入读取方法,以及数据输入接收方法 Download PDF

Info

Publication number
CN101902541B
CN101902541B CN200910225481.5A CN200910225481A CN101902541B CN 101902541 B CN101902541 B CN 101902541B CN 200910225481 A CN200910225481 A CN 200910225481A CN 101902541 B CN101902541 B CN 101902541B
Authority
CN
China
Prior art keywords
image data
raw image
character
data section
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910225481.5A
Other languages
English (en)
Other versions
CN101902541A (zh
Inventor
田村纯一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN101902541A publication Critical patent/CN101902541A/zh
Application granted granted Critical
Publication of CN101902541B publication Critical patent/CN101902541B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00795Reading arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0008Connection or combination of a still picture apparatus with another apparatus
    • H04N2201/0034Details of the connection, e.g. connector, interface
    • H04N2201/0037Topological details of the connection
    • H04N2201/0039Connection via a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

一种数据输入系统,包括:图像读取器,其逐表格地读取填写有字符的每个表格的原始图像,提取通过逐字符地分割原始图像数据所得到的原始图像数据段并对每个原始图像数据段设置标识信息以限定位置,为每个原始图像数据段关联字符关联信息,以及相关联地输出原始图像数据段、对每个原始图像数据段设置的标识信息、和每个原始图像数据段的字符关联信息;系统还包括数据输入接收器,其按照预定过程显示所选择的原始图像数据段,接收文本数据输入以识别出每个原始图像数据段表示哪个字符;并通过使文本数据与原始图像数据段和为每个原始图像数据段设置的标识信息相关联来进行存储。

Description

数据输入系统,数据输入接收装置,数据输入读取方法,以及数据输入接收方法
技术领域
本发明涉及数据输入系统、数据输入接收装置、数据输入读取方法、以及数据输入接收装置。
背景技术
对于填写有诸如地址和姓名等个人信息的表格的数据输入,迄今已提出了各种技术来避免个人信息的泄漏。专利文献1(JP-A-2006-244315)公开了如下技术,其中对数据表格的输入进行图像分割,并在对其存储之前对所得的数据段进行交错,即,使用扫描仪来读取表格,然后基于数据表格输入的表格项目或者用户的任意选择来对表格图像进行分割。对所得的数据段进行交错然后存储。专利文献2(JP-A-08-272908)公开了用于在任何扫描的文档导致字符识别失败时进行数据输入的技术,其中将识别失败部分的图像切出,然后为所切出的图像设置标识或其它信息以进行存储。当图像包括任何机密事项时,在进行数据输入之前将机密事项部分从文档中切出,然后打印出所得的文档来由数据输入人员使用。
发明内容
本发明的目的是在数据输入人员可以接触到填写有相关人员的手写字符的表格时,避免向负责数据输入的人员展示过多的关于相关人员的个人信息细节。
本发明的第一方面涉及一种数据输入系统,其包括图像读取装置,图像读取装置具有:读取单元,用于逐表格地读取填写有字符的每个表格的原始图像;设置单元,用于提取通过逐字符地对读取单元所读取的表格原始图像的数据进行分割所得到的原始图像数据段,并 且对每个原始图像数据段设置标识信息以限定其在表格上的位置;生成单元,用于为每个由设置单元所提取的原始图像数据段生成与其相关联的字符关联信息;以及输出控制单元,用于相关联地输出原始图像数据段、对每个原始图像数据段设置的标识信息、以及为每个原始图像数据段生成的字符关联信息;所述数据输入系统还包括数据输入接收装置,其具有:显示控制单元,用于对按照预定过程从输出控制单元所提供的原始图像数据段中选择的任何原始图像数据段进行显示;接收单元,用于接收文本数据的输入,所述文本数据用于标识显示控制单元所显示的原始图像数据段中的每一个表示哪个字符;以及存储控制单元,用于通过使接收单元所接收的文本数据与显示控制单元所显示的原始图像数据段和对每个原始图像数据段设置的标识信息相关联来进行存储。
根据本发明的第二方面,在本发明第一方面的数据输入系统中,通过所述预定过程从原始图像数据段中随机地选择预定数量的原始图像数据段。
根据本发明的第三方面,在本发明第一方面或第二方面的数据输入系统中,存储控制单元还使接收单元所接收的文本数据与任何其它原始图像数据段相关联,其中所述其它原始图像数据段的字符关联信息的细节与为显示控制单元所显示的每个原始图像数据段所生成的字符关联信息的细节近似。
根据本发明的第四方面,在本发明第一方面至第三方面之一的数据输入系统中,显示控制单元不选择已通过存储控制单元而与文本数据相关联的原始图像数据段。
根据本发明的第五方面,在本发明第一方面至第四方面之一的数据输入系统中,生成单元生成特征信息,以用作为每个原始图像数据段生成的字符关联信息,来指示由每个原始图像数据段表示的字符的特征;并且存储控制单元针对显示控制单元所显示的原始图像数据段来生成关于接收单元所接收的文本数据的特征信息,并且当所生成的特征信息以及为每个原始图像数据段生成的特征信息符合预定条件时,将文本数据与原始图像数据段和每个原始图像数据段的标识信 息相关联地进行存储。
根据本发明的第六方面,在本发明第一方面至第四方面之一的数据输入系统中,图像读取装置具有验证字符存储单元,用来存储预定的多个用作验证字符的字符;生成单元通过针对存储在验证字符存储单元中的多个验证字符对原始图像数据段进行验证,来识别出哪个验证字符与哪个原始图像数据段相关联,以用作为每个原始图像数据段生成的字符关联信息;并且显示控制单元按照预定的考虑到验证字符类型的分类次序对被标识为与某个原始图像数据段相关联的验证字符进行分类,并显示与完成了分类的验证字符相关联的原始图像数据段。
根据本发明的第七方面,在本发明第一方面至第四方面之一的数据输入系统中,图像读取装置具有验证字符存储单元,用来存储预定的多个用作验证字符的字符;生成单元通过针对存储在验证字符存储单元中的多个验证字符对原始图像数据段进行验证,来识别出哪个验证字符与哪个原始图像数据段相关联,以用作为每个原始图像数据段生成的字符关联信息,数据输入接收装置具有词存储单元,用于存储预定的多个词;显示控制单元从存储在词存储单元中的多个词中提取任何由标识为与某个原始图像数据段相关联的验证字符所构成的词,并且以验证字符构成所提取的词的次序来显示被标识为与验证字符相关联的原始图像数据段。
本发明的第八方面涉及一种数据输入接收装置,其包括:存储单元,用于存储数据;读取单元,用于逐表格地读取填写有字符的每个表格的原始图像;设置单元,用于提取通过逐字符地对读取单元所读取的表格原始图像的数据进行分割所得到的原始图像数据段,并且对每个原始图像数据段设置标识信息以限定其在表格上的位置;生成单元,用于为每个由设置单元所提取的原始图像数据段生成与其相关联的字符关联信息;原始图像数据存储控制单元,用于在存储单元中对原始图像数据段、为每个原始图像数据段设置的标识信息、以及为每个原始图像数据段生成的字符关联信息进行相关联地存储;显示控制单元,用于对按照预定过程从存储在存储单 元中的原始图像数据段中选择的任何原始图像数据段进行显示;接收单元,用于接收文本数据的输入,所述文本数据用于标识显示控制单元所显示的原始图像数据段中的每一个表示哪个字符;以及文本数据存储控制单元,用于在存储单元中使通过接收单元接收的文本数据、由显示控制单元显示的原始图像数据段、以及为每个原始图像数据段设置的标识信息相关联来进行存储。
本发明的第九方面涉及用于读取填写有字符的表格的原始图像的方法,该方法包括:提取通过逐字符地对读取单元所读取的表格的原始图像的数据进行分割所得到的原始图像数据段,并且对每个原始图像数据段设置标识信息以限定其在表格上的位置;为每个在设置步骤中提取的原始图像数据段生成与其相关联的字符关联信息;以及相关联地输出原始图像数据段、对每个原始图像数据段设置的标识信息、以及为每个原始图像数据段生成的字符关联信息。
本发明的第十方面涉及一种由计算机执行的方法,其中计算机连接有图像数据存储装置,其用于对通过逐字符地对填写有字符的表格的原始图像进行分割所得到的原始图像数据段、为每个原始图像数据段设置的标识信息、以及为每个原始图像数据段生成的字符关联信息的相关联地进行存储,并且计算机具有用于接收数据输入的接收单元,所述方法包括:对按照预定过程从存储在图像数据存储装置中的原始图像数据段中选择的任何原始图像数据段进行显示;以及在图像数据存储装置中,通过使接收单元所接收的文本数据与在显示控制步骤中所显示的原始图像数据段和对每个原始图像数据段设置的标识信息相关联来进行存储。
在本发明的第一方面中,同将表格中填写的多个字符的字符串显示给负责数据输入的人员的情况相比,将不会在数据输入期间将字符串所表示的细节过多地展示给负责数据输入的人员。
在本发明的第二方面中,同在一行中显示填写在表格中的字符串的情况相比,不会将表格的细节过多地展示给负责数据输入的人员。
在本发明的第三方面中,一旦负责数据输入的人员输入了关于 所显示字符的文本数据,他/她将不必再重复输入关于与所显示字符类型近似的任何字符的文本数据。
在本发明的第四方面中,一旦负责数据输入的人员输入了关于一个字符的文本数据,将不再把该字符显示为输入对象,从而避免了重复数据输入。
在本发明的第五方面中,为每个字符生成的特征信息可以用来识别填写在表格中的哪个手写字符对应于所输入的文本数据。
在本发明的第六方面中,同负责数据输入的人员通过参照不分类就显示的字符串来进行数据输入的情况相比,如果字符在分类后属于容易进行数据输入的类型,则负责数据输入的人员会感到对这种类型的字符进行数据输入更容易。
在本发明的第七方面中,同参照无意义的任何字符串进行数据输入的情况相比,将可以更容易地完成数据输入。
在本发明的第八方面中,同将表格中填写的多个字符的字符串显示给负责数据输入的人员的情况相比,将不会在数据输入期间将字符串所表示的细节过多地展示给负责数据输入的人员。
在本发明的第九方面中,同逐表格项目等对填写在表格中的字符串进行分割的情况相比,即使所得的数据段部分泄漏至外界,也不会将表格的细节过多地展示给第三方。
在本发明的第十方面中,同将表格中填写的多个字符的字符串显示给负责数据输入的人员的情况相比,将不会在数据输入期间将字符串所表示的细节过多地展示给负责数据输入的人员。
附图说明
下面基于附图对本发明的示例实施例进行详细说明,附图中:
图1是示出了本发明的数据输入系统的示例构造的示图;
图2是示出了第一示例实施例中表格中的示例数据的示图;
图3是第一示例实施例中的图像读取装置和数据输入接收装置的框图;
图4是第一示例实施例中的原始图像信息的概念图;
图5示出了第一示例实施例中的表格信息表中的示例数据;
图6是第一示例实施例中的图像读取装置的操作的流程图;
图7是第一示例实施例中的数据输入接收装置的操作的流程图;
图8A是示出了第一示例实施例中用于输入字符的示例屏幕的示图;
图8B示出了在图8A的字符输入屏幕上输入字符之后的示例屏幕的示图;
图9是示出了第一示例实施例中的表格信息表中的另一示例数据的示图;
图10是示出了第二示例实施例中的示例表格的示图;
图11示出了第二示例实施例中的表格信息表中的示例数据;
图12是第二示例实施例中的图像读取装置的操作的流程图;
图13是第二示例实施例中的数据输入接收装置的操作的流程图;
图14A是示出了第二示例实施例中用于输入字符的示例屏幕的示图;
图14B示出了在图14A的字符输入屏幕上输入字符之后的示例屏幕的示图;
图15是示出了第二示例实施例中的表格信息表中的另一示例数据的示图;
图16示出了第三示例实施例中的词表的示例数据;
图17示出了第三示例实施例中表格信息表中的示例数据;
图18示出了第三示例实施例中的数据输入接收装置的操作的流程图;
图19A是示出了第三示例实施例中用于输入字符的示例屏幕的示图;
图19B示出了在图19A的字符输入屏幕上输入字符之后的示例屏幕的示图;以及
图20是示出了第三示例实施例中的表格信息表中的另一示例数据的示图。
具体实施方式
下面参照附图对本发明示例实施例中的数据输入系统进行说明。
第一示例实施例
概述
图1示出了第一示例实施例中的数据输入系统的示例构造。如图1所示,数据输入系统1构造为包括图像读取装置100,以及多个数据输入接收装置200a至200n(下文中在无需装置区分时统称为数据输入接收装置200)。图像读取装置100和数据输入接收装置200通过诸如LAN(局域网)的通信单元彼此连接。
在此示例实施例中的数据输入系统1中,图像读取装置100操作来读取填写在表格30中的具有如图2所示的预定格式的手写字符,即分段成表格项目301至303以分别填写地址、姓名、电话号码等。在数据输入接收装置200中,通过参照所读取的手写字符,输入例如文本代码的文本数据来识别字符。所述数据输入由负责表格数据输入的人员(下文中将此人称作“操作者”)使用字处理器功能(即假名-汉字转换功能)来进行。
注意,在此示例实施例中将表格例示为预先分段成具有需要填写各种细节的表格项目的纸质介质,但是其类型不应受到限制,只要是由相关人员预先填写有手写字符串的介质即可。
结构
图3是示出了作为数据输入系统1的构成组件的图像读取装置100和数据输入接收装置200的构造的框图。下面对这些装置的构造进行说明。
图像读取装置100由扫描仪装置实现,并被构造为包括CPU(中央处理单元)110、ROM(只读存储器)111、RAM(随机存取存储器)112、接收部分113、图像读取部分114、存储部分115和通信部 分116。CPU 110操作来使用RAM 112作为工作区运行存储在ROM111中控制程序,从而使其中的组件即设置单元110a、生成单元110b、和输出控制单元110c工作,并且控制各个组件连接至CPU 110。
即,设置单元110a基于预定数量的像素对图像进行分割以便提取。这里的图像数据是如后文所述通过图像读取部分114读取每个表格的结果,下文中将这些图像数据称为原始图像数据。对每个这样提取的原始图像数据的分割结果(下文中称为原始图像数据段)设置用于其标识的标识信息。生成单元110b从通过设置单元110a提取的原始图像数据段中的手写字符中提取每个手写字符的任意特征,并生成关于所述字符的特征信息来用作字符关联信息。输出控制单元110c将包括设置单元110a所提取的原始图像数据段的原始图像信息及其每一原始图像信息的标识信息存储在存储部分115中。输出控制单元110c然后使标识信息与生成单元110b所生成的关于每个原始图像数据段的特征信息相关联,并将进行关联的结果写入表格信息表。这里的分割单位以及关于手写字符的特征将在后面描述。
接收部分113包括图像读取装置100的电源开关、用于操作图像读取部分114的操作开关等。接收部分113把关于用户操作细节的信息发送至CPU 110。图像读取部分114通过对置于图像读取装置100上的表格30的填写表面照射光线来执行扫描,然后将电信号发送至CPU 110。所述电信号是对从表格反射并由CCD(电荷耦合器件)接收的光线进行光电转换的结果。
存储部分115由例如硬盘的非易失性存储介质构成,并存储原始图像信息以及诸如表格信息表的数据。下文中将给出关于原始图像信息和表格信息表的详细说明。通信部分116在CPU 110的控制下将数据发送至数据输入接收装置200以及从数据输入接收装置200接收数据。
数据
下面对用于存储在存储部分115中的数据进行说明。首先对第一示例实施例中的原始图像数据段进行说明。
如图2所示,在表格30中,表格项目301至303分别具有填写区域311至313。填写区域311至313分别由虚线分割成多个区域,每个所述区域用于一个字符。对关于表格30的原始图像数据进行光栅扫描,所述扫描从左上的像素开始顺次地逐像素进行。于是,基于每个表格项目的填写区域对原始图像数据进行分割,从而提取出每个关于一个字符的原始图像数据段。此处所要提取的原始图像数据段是包括手写字符的图像数据,并且对每个填写区域进行自动判断以确定其中的黑色像素的数量是否等于或大于预定值。然后使用判断结果来检查填写区域是否包括手写字符。对每个所要提取的原始图像数据段设置标识信息以用于其标识。标识信息包括表格ID、项目ID、和提取次序,所述标识信息是在提取原始图像数据段之后设置的。表格ID用于标识哪个表格包括原始图像数据段中的哪一个,项目ID用于标识表格项目。提取次序表示针对每个表格项目提取原始图像数据段的次序。提取结果,即原始图像数据段和标识信息被存储在存储部分115的预定区域中作为原始图像信息。这样,在此示例实施例中,按提取次序配置标识信息以作为光栅扫描表格的结果,并且包括关于原始图像数据段在表格中的位置的信息。
注意,标识信息中的表格ID可以是通过字符识别而在表格中得到的ID,或者通过例如读取得到的印刷在表格上的条形码。或者,图像读取装置100可以基于日期或者读取处理的次序来设置表格ID。另外,可以以在考虑表格中的填写区域位置的情况下执行的光栅扫描的次序分配预先设置的项目ID。
图4是原始图像信息的概念图,其中对从图2的表格30中提取的原始图像数据段和标识信息建立了相互关联。图中所例示的是如下情形,其中在图2所示表格30的“表格001”下面的地址表格项目301中,在填写区域311中由虚线分隔的一个区域中写有字符“東”,其表示“东”,发音为“tou”、“higashi”、或“azuma”,此即原始图像数据段311a。在这种情况下,如图4所示,为原始图像数据段311a(即字符“東”)设置有标识信息31a,包括表格ID“A001”、项目ID“a”、和提取次序“1”。类似地,原始图像数据段311b为 字符“京”,其表示“城市”,发音为“kyou”、“kei”、或“miyako”,其标识信息31b包括表格ID“A001”、项目ID“a”、和提取次序“2”。
下面对表格信息表进行说明。图5示出了表格信息表中的示例数据。表格信息表32包括原始图像数据段的特征信息与标识信息之间的相互关联。特征信息是关于每个原始图像数据段中手写字符的特征。当为每个原始图像数据段提取了特征信息后,对表格信息表32进行存储,其中以数据的形式存储所提取的特征信息和标识信息。
在此实施例中,通过识别构成每个手写字符的线段(即竖线段和横线段)的数量来提取手写字符的特征信息。以图4中作为字符“東”的原始图像数据段311a为例,对此字符提取的特征信息包括一个竖线段和四个横线段。如图5所示,特征信息“竖1:横4”与此原始图像数据段的标识信息(即表格ID“A001”、项目ID“a”、和提取次序“1”)被相关联地生成和存储。特征信息中的“竖”表示竖线段的数量,“横”表示横线段的数量。
数据输入接收装置200
下面对数据输入接收装置200的构造进行说明。数据输入接收装置200由个人计算机或其他装置实现,被构造为包括CPU 210、ROM 211、RAM 212、存储部分213、接收部分214、显示部分215、和通信部分216。CPU 210操作来使用RAM 212作为工作区运行存储在ROM 211中控制程序,从而使其中的组件即提取单元210a、显示控制单元210b、和存储控制单元210c工作,并且控制各个组件连接至CPU 210。即,提取单元210a从图像读取装置100所读取的图像数据中提取作为数据输入对象的表格的信息,即表格信息和原始图像信息。显示控制单元210b在显示部分215上显示从提取单元210a所提取的表格信息中随机选择的字符的任意原始图像数据段。存储控制单元210c生成由操作者在文本数据输入中得到的关于字符的特征信息,并且针对与显示在显示部分215上的原始图像数据段有关的特征信息来验证所得到的特征信息。然后存储控制单元210c根据验证 结果执行处理。
存储部分213由例如硬盘的非易失性存储介质构成,并存储诸如应用程序和用户数据的各种数据。接收部分214由10位键区、键盘、鼠标等实现。接收部分214由操作者操作进行输入,并将关于所述用户输入操作的信息发送至CPU 210。
显示部分215由诸如液晶显示器的显示器实现,并且在CPU 210的控制下显示各种类型屏幕的图像,例如用于操作者进行字符输入操作的字符输入屏幕。通信部分216在CPU 210的控制下向图像读取装置100发送数据或者从图像读取装置100接收数据。
操作
下面对第一示例实施例的数据输入系统1的操作进行说明。首先参照图6说明图像读取装置100的操作。
图像读取装置100的操作
当用户将表格30置于图像读取装置100上,以及当通过接收部分113对表格30执行图像读取操作时,图像读取装置100的CPU 110通过对表格照射光线的图像读取部分114读取填写在表格中的字符(步骤S110)。然后CPU 110基于作为读取结果的图像的电信号生成原始图像数据(步骤S111)。
CPU 110随后基于预先为每个表格项目设置的填写区域对在步骤S111中生成的原始图像数据进行扫描。所述扫描为逐像素进行,从而将原始图像数据分割成原始图像数据段。然后为每个原始图像数据段设置标识信息(步骤S112)。也即,针对为表格中的每个表格项目设置的每个填写区域,提取其中的像素值,并检查像素值以确定这些像素是否为黑色像素。对于被确定为其中的黑色像素数量等于或大于预定值的任何填写区域,将填写在区域中的数据提取为原始图像数据段。然后CPU 110为原始图像数据段生成包括表格ID、项目ID和提取次序的标识信息,并将标识信息与原始图像数据段相关联地存储在RAM 112中。其中表格ID用于标识从哪个表格中提取了原始 图像数据段,项目ID用于标识表格项目。提取次序表示针对每个表格项目提取原始图像数据段的次序。
CPU 110用于顺序读取存储在RAM 112中的原始图像数据段和标识信息,并且针对每个原始图像数据段提取在读取的原始图像数据段中得到的关于手写字符的特征信息(步骤S113)。即,CPU 110检测每个原始图像数据段中字符的横线段和竖线段的数量,并使用检测结果(即横线段和竖线段的数量)生成关于每个原始图像数据段的特征信息。然后CPU 110将原始图像信息存储在存储部分115中,其中在原始图像信息中建立了原始图像数据段和标识信息的相互关联。CPU 110还使为每个原始图像数据段设置的标识信息与在步骤S113中针对每个原始图像数据段提取的特征信息相关联,并将进行关联的结果存储在表格信息表32中(步骤S114)。
数据输入接收装置200的操作
下面参照图7对数据输入接收装置200的操作进行说明。
在数据输入接收装置200中,当操作者操作接收部分214来发出数据输入的指令时(步骤S210:是),CPU 210通过通信部分216访问图像读取装置100的存储部分115,从而按表格ID的次序读取任何尚未配备有来自表格信息表32的数据的表格信息。将读取结果存储在RAM 212中(步骤211)。
执行通过这种访问开始的处理,以从图像读取装置100的存储部分115读取数据,在指定从数据输入接收装置200读取哪个数据之后将数据读取的请求发送至图像读取装置100,图像读取装置100的CPU 110从存储部分115读取所请求的数据,以经过通信部分116传输至数据输入接收装置200。为了将数据写入存储部分115,由数据输入接收装置200将数据写入请求发送至图像读取装置100,所述数据写入请求指示将哪个数据写入何处,图像读取装置100的CPU110将所请求的数据存储在指定位置。下面“访问”的表述意味着这些处理细节。
在步骤S211,CPU 210任意选择存储在RAM 212中的关于表格 信息的任何标识信息,然后通过通信部分216访问图像读取装置100的存储部分115,以读取与所选择的标识信息相关联的原始图像数据段。然后CPU 210显示输入对象的字符输入屏幕,所述输入对象即所读取的原始图像数据段(步骤S212)。
参照附图8A和8B,对字符输入屏幕进行说明。图8A示出了在步骤S212显示的示例字符输入屏幕33。图8A的字符输入屏幕33示出了作为输入对象33a的字符“東”。字符“東”属于原始图像数据段311a,其标识信息包括表格ID“A001”、对应于表格项目“地址”的项目ID“a”、和提取次序“1”。如图8B所示,操作者在字符输入屏幕33的输入数据字段33b中输入与输入对象33a(即“東”)相同的字符。
重新参照图7,当操作者操作接收部分214在字符输入屏幕33上输入字符时,(步骤S213:是),CPU 210通过检测所输入字符“東”的横线段和竖线段的数量来生成特征信息(步骤S214)。在图8B的示例中,关于所输入的字符“東”的特征信息为“竖1:横4”,因为竖线段的数量为1,横线段的数量为4。然后CPU 210读取存储在RAM 212中的关于表格信息的特征信息,并确定作为输入对象的字符的特征信息以及如上文所述输入的字符的特征信息是否符合预定的验证条件(步骤S215)。注意,在此示例实施例中,所述验证条件是指所输入字符的特征信息与为当前显示的原始图像数据段设置的特征信息之间的匹配。
当在步骤S215中确定关于特征信息的验证条件符合时,即确定特征信息之间匹配(步骤S215:是),CUP 210将字符“東”存储在RAM 212中存储的表格信息中,字符“東”是在字符输入屏幕33上输入的作为标识信息的输入数据,其与在步骤S215中确定为相同的特征信息相关联。然后CPU 210通过通信部分216访问图像读取装置100的存储部分115,并将所得的表格信息写入表格信息表32作为更新(步骤S216)。
图9示出了如上所述更新的表格信息表32。如图所示,在表格ID“A001”的表格信息中,任何包括特征信息“竖1:横4”的输入 数据321都具有同在字符输入屏幕33上输入的字符“東”有关的文本数据,然后进行更新。
重新参照图7,在步骤S217中,当存储在RAM 212中的表格信息具有全部输入数据时,或者当操作者操作接收部分214结束数据输入处理时(步骤S217:是),CPU 210结束针对当前选择的表格的数据输入处理。
另外在步骤S217中,当存储在RAM 212中的表格信息还未存储有输入数据时,或者当操作者尚未操作接收部分214结束数据输入处理时(步骤S217:否),流程返回步骤S212,CPU 210通过通信部分216访问图像读取装置100的存储部分115。然后CPU 210随机读取与尚未具有输入数据的标识信息相关联的原始图像数据段,并在字符输入屏幕33上显示所读取的原始图像数据段的字符。于是重复执行步骤S212及其后的处理。
在步骤S210,CPU 210保持等待,直到操作者发出通过接收部分214的操作进行数据输入处理的指令(步骤S210:否)。在步骤S213,在操作者在字符输入屏幕33上通过对接收部分214的操作输入任何字符之前,CPU 210都保持等待,并显示字符输入屏幕33。在步骤S215,当CPU 210判定作为输入对象的原始图像数据段的特征信息与输入字符的特征信息不符合验证条件时,即判定两个特征信息不匹配时(步骤S215:否),流程重复步骤S213及其后的处理。注意,在这种情况下,显示消息来要求操作者在字符输入屏幕33上再次输入字符,以使CPU 210针对操作者的字符输入操作准备好。
在上述示例实施例中,逐字符地随机显示填写在表格中的每个字符串原始图像数据段,并且有利地通过这种显示,使得填写在表格的表格项目中的地址和姓名细节不会明显展示给操作者。另外,一旦操作者输入了原始图像数据段(即字符“東”),此输入操作还会应用于同一表格中关于字符“東”的任何其他原始图像数据段,因此操作者无需对同一字符重复进行数据输入。
第二示例实施例
下面对本发明第二实施例中的数据输入系统进行说明。
在第二示例实施例中,对原始图像数据进行字符识别,并且依据字符类型(例如数值或者字母字符)以预定的次序排列完成识别的所得字符(下文中称为识别字符)。然后将与如此排列的识别字符相关联的原始图像数据段显示出来,以由操作者进行字符输入操作。下文中任何与上述第一示例实施例中类似的构造均具有相同的参考标号。
图10示出了第二示例实施例中的示例表格。与第一示例实施例中的表格30类似,图10的表格40被分成表格项目401至403,以分别填写邮政编码、地址和姓名。表格项目401至403分别具有填写区域411至413,填写区域411至413中的每一个分别由虚线分割成多个区域,每个所述区域用于一个字符。
在第二示例实施例中,在图像读取装置100中,生成单元110b对任一原始图像数据段应用图案匹配处理,其中每个原始图像数据段的标识信息都包括指示需要填写数值的“邮政编码”表格项目401的项目ID,此标识信息因而标识哪个数值与原始图像数据段对应。输出控制单元110c将已标识的数值存储在表格信息表42中作为原始图像数据段的文本信息。图11示出了此示例实施例中的示例表格信息表。如图所示,与第一示例实施例中的表格信息表32类似,在表格信息表42中,建立了为每个原始图像数据段设置的标识信息(即表格ID、项目ID、和提取次序)与识别字符之间的相互关联。这些识别字符是作为应用于原始图像数据段的手写字符的图案匹配处理的结果而被识别的,即与每个手写字符相关联的字符关联信息。在对每个原始图像数据段进行字符识别处理时,表格信息表42存储有完成了字符识别的标识信息以及识别字符。
注意,与第一示例实施例类似,存储部分115存储原始图像信息,其中原始图像数据段与标识信息相关联,其中还预先提供有用于图案识别的数据。这些数据在下文中称为验证文本数据。
操作
下面参照图12、13对第二示例实施例中的数据输入系统1的操作进行说明。注意,在图12和图13中,任何与前述第一示例实施例中类似的处理都具有相同的步骤号,通过参照图10、11的示例来对不同于第一示例实施例的操作进行说明。首先说明图像读取装置100的操作。
图像读取装置100的操作
参照图12,图像读取装置100的CPU 110执行步骤S110至S112的处理。CPU 110从存储部分115读取验证文本数据,并使用所述验证文本数据、通过对任何标识信息包含项目ID“a”的原始图像数据段应用图案匹配来执行字符识别,从而标识出完成了字符识别的数值(步骤S123)。然后CPU 110将其中原始图像数据段与标识信息相关联的原始图像信息存储在存储部分115中。CPU 110还在表格信息表42中存储包含项目ID“a”的关于任何原始图像数据段的标识信息、以及为原始图像数据段进行标识的数值(步骤S124)。
数据输入接收装置200的操作
在图13中,与第一示例实施例类似,数据输入接收装置200的CPU 210执行步骤S210和S211的处理,并从图像读取装置100中读取表格ID“B001”的任何表格信息,以存入RAM 212。
CPU 210以升序对存储在RAM 212中的表格信息中与项目ID“a”相关联的识别字符进行分类,并通过通信部分216访问图像读取装置100的存储部分115,以读取任何标识信息包括项目ID“a”的原始图像数据段。然后CPU 210在字符输入屏幕上相关联地显示已完成分类的识别字符的原始图像数据段和标识信息(步骤S221)。
现参照图14A和14B对第二示例实施例中的字符输入屏幕进行说明。图14A示出将在步骤S221中显示的示例字符输入屏幕43。在字符输入屏幕43上,以升序对表格ID“B001”下的与项目ID“a”相关联的识别字符“5”、“6”、“7”、“1”、“2”、“4”、和“3”进行分类,与识别字符相关联的手写数字的原始图像数据段, 即“1”、“2”、“3”、“4”、“5”、“6”、和“7”,被显示在输入对象43a中。如图14B所示,在字符输入屏幕43上,操作者将显示在输入对象43a中的数值输入到输入数据字段43b。
参照图13,当操作者操作接收部分214在字符输入屏幕43上输入字符时(步骤S213:是),CPU 210将数字数据存储在RAM 212中存储的表格信息中,作为与显示在字符输入屏幕43上的每个原始图像数据段所设置的标识信息相关的输入数据。然后CPU 210通过通信部分216访问图像读取装置100的存储部分115,以将相关表格信息写入表格信息表42,从而更新信息(步骤S216)。
图15示出了所更新的表格信息表42的示例。如图15所示,在表格信息表42中,表格ID“B001”下的项目ID“a”的输入数据字段421存储有在字符输入屏幕43输入的数字数据。
在上述第二示例实施例中,在表格中得到的诸如数值的字符在以预定次序(升序或降序)分类后进行显示,操作者参考已完成分类的字符进行数据输入。
注意,在上述第二示例实施例中,所例示的是字符识别对象为数值的情况。这当然并非限定,字符识别的对象可以是字母字符或者日语字符。例如,在对特定表格项目中的任何原始图像数据段执行字符识别之后,当识别字符全部是字母字符时,可以在显示前以字母顺序对识别字符进行分类。此外当识别字符全部是日语字符时,可以以文字码对识别字符进行分类,或者在日语数值的情况下,以升序或降序进行分类。从而以预定次序对识别字符进行分类,以显示原始图像数据段。
第三示例实施例
在上述第二示例实施例中,以预定次序对作为数值的原始图像数据段进行分类以便显示,并输入所得的数据。在第三示例实施例中,对任何并非数值的字符进行字符识别,并从预先存储在数据输入接收装置200中的词表中提取任何包含识别字符的字,以按照所提取的字的次序显示原始图像数据段。下文中,与上述第一示例实施例中类似 的构造具有相同的参考标号,主要对不同的构造进行说明
图16示出了第三示例实施例中的示例词表。如图16所示,词表50包括用于对词进行标识的元素“词ID”,以及各种类型的词,即名词、形容词和动词。词表50预先存储在数据输入接收装置200的存储部分213中。
图17示出了与第二示例实施例中类似的表格信息表42。此表格信息表42示例性地包括通过应用于原始图像数据段的字符识别处理而得到的完成了标识的识别字符,其中所述原始图像数据段的标识信息包括对应于表格项目402和403(即地址与姓名)的表格ID。与第二示例实施例类似,图像读取装置100的存储部分115存储有原始图像信息,其中原始图像数据段和标识信息相关联地存储。存储部分115还预先具有验证文本数据以用于图案匹配。
操作
下面对第三示例实施例中的数据输入系统1的操作进行说明。由于此示例实施例中的图像读取装置100与前述第二示例实施例中的类似,此处仅对数据输入接收装置200的操作进行说明。图18是数据输入接收装置200的操作的流程图。下面参照图10、16、和17的示例进行说明。
与第二示例实施例类似,数据输入接收装置200的CPU 210执行步骤S210和S211的处理,并从表格信息表42中读取关于表格ID“B001”的信息以存入RAM 212。在表格信息中的识别信息中,这里假设CPU 210选择了识别字符“静”,其表示“安静”,发音为“sizu”、“sei”或“jou”,此识别字符与尚未提供输入数据的标识信息相关,即具有表格ID“B001”、项目ID“c”和提取次序“3”的标识信息(步骤S231)。这样的识别字符在下文中称为尚未输入的识别字符。其后,CPU 210从存储部分213读取词表50,并从中提取任何包括所选尚未输入的识别字符的词,即“静岡県”,其表示“Shizuoka县”,发音为“shizuoka ken”(步骤S232)。
在存储于RAM 212中的表格信息中,CPU 210使用任何与包括 不同于所选尚未输入的识别字符“静”的项目ID的标识信息相关的尚未输入的识别字符,来判断提取出的词“静岡県”是否可被构成(步骤S233)。
在步骤S233中,当判定提取出的词“静岡県”能够通过尚未输入的识别字符“静”、其他尚未输入的识别字符“岡”(表示“山”,发音为“oka”或“kou”)、以及“県”(表示“县”,发音为“ken”、“gen”或“agata”)构成时(步骤S233:是),CPU 210通过通信部分216访问图像读取装置100的存储部分115。这里的尚未输入的识别字符“岡”与包括表格ID“B001”、项目ID“c”和提取次序“1”的标识信息相关,尚未输入的识别字符“県”与包括表格ID“B001”、项目ID“b”和提取次序“4”的识别信息相关。然后CPU210分别读取对应于这些尚未输入的识别字符的原始图像数据段,并按照词的顺序在字符输入屏幕上显示所读取的原始图像数据段(步骤S234)。
图19A示出了这样显示的示例字符输入屏幕51。输入对象511至513按照所选词的顺序显示原始图像数据段。如图19B所示,在分别对应于输入对象511至513的输入数据字段521至523中,输入与输入对象511至513中的字符相同的字符。
重新参照图18,在步骤S213中,当在步骤S236显示的字符输入屏幕51提供了字符时(步骤S213:是),CPU 210执行与第二示例实施例中类似的步骤S216及其后的处理。图20示出了在上述示例中的步骤S216中完成了处理的表格信息表42。如图所示,有操作者在字符输入屏幕51上提供的文本数据“静”、“岡”、“県”被存储在输入数据422中,其对应于为所显示的原始图像数据段设置的标识信息。
此外在图18中,在步骤S233中,当判定所提取的词无法被构成时(步骤S233:否),CPU重复步骤S233的处理,即从词表50中逐个进行词提取(步骤S232),直到词表50中的每个词都完成了步骤S233的处理(步骤S235:否)。
此外在步骤S235中,当对词表50中的每个词完成了步骤S233 的判定之后(步骤S235:是),CPU 210通过通信部分216访问图像读取装置100的存储部分115,并在字符输入屏幕上按照词的顺序显示原始图像数据段(步骤S236)。这里的原始图像数据段对应于任何可以成为所提取出的词的一部分的尚未输入的识别字符,并且对应于任何已输入的识别字符。也即,当最新提取出的词为“静岡県”时,当该词无法通过尚未输入的识别字符构成时,通过组合已输入的识别字符来构成其它词,从而显示分别对应于识别字符的原始图像数据段。在这种情况下,在字符输入屏幕上,任何完成输入的数据都被提供至对应于完成输入的原始图像数据段的输入数据字段。当即使把已输入的识别字符组合起来也无法构成词的时候,可以显示任何部分地对应于识别字符(词的一部分)的原始图像数据段。在这种情况下,对于词“静岡県”,如果在表格信息中未得到“岡”的识别字符,则仅显示字符“静”和“県”的原始图像数据段。
这样,在上述示例实施例中,按具有意义的词的次序对表格中得到的字符进行显示。
变形示例
下面对本发明的变形示例进行说明。
1、在前述第一示例实施例中,例示了提取竖线段和横线段的数量作为特征信息的情况。这当然并非限定,任何能够提取特征字符的其它方法均可适用。在一种示例方法中,可以提取在填写区域中观察到的字符区域与剩余区域之间的密度差别,从而检测出字符的轮廓,提取所检测到的轮廓信息作为特征信息。在另一示例方法中,通过对填写区域中沿着字符四周出现的黑色像素进行密度检测来对字符进行分类,并生成关于所得分类的信息作为特征信息。作为替代方案,如此生成的特征信息可以同第一示例实施例中的特征信息相关联地存储,并且在符合验证条件时,例如关于输入字符的特征信息与关于原始图像数据段的特征信息落入预定的相似度范围内,则可以将输入字符与对原始图像数据段设置的标识字符相关联地存储。
2、在前述第一示例实施例中,例示了逐字符地随机显示原始图 像数据段的情况。替代方案是,排列多个具有不同项目ID的原始图像数据段进行显示。
3、在前述第二示例实施例中,例示了将输入的数值与同一表格ID下的识别字符的标识信息一起存储的情况。替代方案是,输入的数值可以与不同表格ID下的对同一识别字符设置的标识信息相关联地进行存储。
4、在前述第二示例实施例中,例示了对同一项目ID下的识别字符按照预定次序进行分类、并以相同的次序显示原始图像数据段的情况。替代方案是,当数值形式的识别字符存储在多个表格项目中时,可以按照预定次序对所有表格项目中的识别字符进行分类,并且以相同的次序显示预定数量的原始图像数据段。
5、在上述第三示例实施例中,例示了对词进行提取的情况,其中所述词是不同表格项目下的识别字符的组合。替代方案是,可以将任一同一表格项目中的识别字符组合起来,以构成未在表格项目中得到的词。
6、在前述第一至第三示例实施例中,例示了逐表格地对每个数据输入接收装置200进行数据输入的情况。替代方案是,可以由两个不同的操作者分别对数据输入接收装置200a和200b输入同一表格的文本数据。在这种情况下,按照第一和第三示例实施例,在提取了与表格信息表中尚未提供数据的标识信息相对应的原始图像数据段之后,数据输入接收装置200a和200b可以各自在表格信息表中设置使用标记,来表示正在使用标识信息,并且可以显示所提取的原始图像数据段。在第二示例实施例中,数据输入接收装置200a和200b各自接收逐表格项目输入的表格中的文本数据,并在表格信息表中对作为包括输入对象的项目ID的标识信息设置使用标记。然后数据输入接收装置200a和200b各自以预定的次序对输入对象项目ID下的原始图像数据段进行分类以便显示。
7、在前述第一至第三示例实施例中,例示了在包括原始图像数据段的表格中按照原始图像数据段的提取次序对每个原始图像数据段设置标识信息的情况。替代方案是,所设置的标识信息可以表示原 始图像数据段的位置,例如原始图像数据段在表格中的坐标。
8、在前述第一示例实施例中例示了如下情况,其中数据输入接收装置200对操作者提供的原始图像数据段的文本数据进行存储,其中所述原始图像数据段还与对任何其它原始图像数据段设置的标识信息相关联地显示在显示部分215上,其中所述标识信息包括与所显示的原始图像数据段相对应的字符关联信息。替代方案是,数据输入接收装置200可以相关联地存储仅为设置给所显示的原始图像数据段的标识信息提供的文本数据。在这种情况下,另一替代方案是,当在显示部分215上显示操作者所提供的文本数据以及其它原始图像数据段时,以及当操作者确定输入其文本数据作为与所述其它原始图像数据段对应的文本数据时,可以将输入的文本数据和为其它原始图像数据段设置的标识信息相关联地存储。
9、在前述第一示例实施例中例示了如下情况,其中图像读取装置100在其存储部分115中相关联地存储完成了读取的每个表格中的原始图像数据段、对每个原始图像数据段设置的标识信息、以及对应于每个原始图像数据段的字符关联信息(即字符信息和识别字符)。替代方案是,图像读取装置100可以配置为将这些数据发送至其它连接至图像读取装置100和数据输入接收装置200的设备,并在这些设备中存储数据。在这种情况下,数据输入接收装置200可以访问这些设备,其中相关联地存储有字符关联信息(字符信息和识别字符)、原始图像数据段、对每个原始图像数据段设置的标识信息、以及对应于每个原始图像数据段的字符关联信息,从而读取这些数据以及写入输入文本数据。
10、前述第一至第三示例实施例中的数据输入系统1被例示为通过图像读取装置100和数据输入接收装置200构成。替代方案是,图像读取装置100可以构造为还用作数据输入接收装置200,在所得到的图像读取装置100中,可以由操作者提供文本数据输入以输入数据。
11、前述第一至第三示例实施例中的表格被例示为预先分成表格项目,所述表格项目包括用来填写信息细节的填写区域。当表格是 未如此定义填写区域的任何介质时,可以如下执行原始图像数据段的提取。例如,图像读取装置100可以预定的间隔扫描填写有手写字符的介质,以检测黑色像素的分布,从而定义填写在介质中的字符之间的间隔。然后,基于如此定义的字符间隔,图像读取装置100可以从介质的原始图像数据中逐字符地提取原始图像数据段。
12、前述第一至第三示例实施例中的数据输入接收装置200被例示为包括显示部分215。替代方案是,数据输入接收装置200可以连接至诸如液晶显示器的外部显示器。在这种结构中,数据输入接收装置200的CPU 210可以在显示装置上如前述示例实施例一样来控制显示字符输入屏幕的图像。
13、前述第一至第三示例实施例中分别由图像读取装置100和数据输入接收装置200从CPU 110、210运行的程序,可以以诸如磁记录介质(如磁带、磁盘)、光记录介质(如光盘)、磁一光记录介质、和半导体存储器的计算机可读记录介质的形式发布。还可以使用如互联网的通信单元来将程序下载至图像读取装置100和数据输入接收装置200。
对本发明的示例实施例的前述说明用于例示和说明,而非排他性的或者将本发明限定为所公开的确切形式。显然,本领域的技术人员将能够作出很多变形和变动。对实施例的选择和描述是为了向本领域的技术人员作出最佳的阐释以便理解本发明,各种实施例和各种修改则适于特定的应用目的。本发明的范围应当由权利要求及其等价部分限定。

Claims (10)

1.一种数据输入系统,其包括:
图像读取装置,包括:
读取单元,用于逐表格地读取填写有字符的每个表格的原始图像;
设置单元,用于提取通过逐字符地对读取单元所读取的表格原始图像的数据进行分割所得到的原始图像数据段,并且对每个原始图像数据段设置标识信息以限定其在表格上的位置;
生成单元,用于为每个由设置单元所提取的原始图像数据段生成与其相关联的字符关联信息;以及
输出控制单元,用于相关联地输出原始图像数据段、对每个原始图像数据段设置的标识信息、以及为每个原始图像数据段生成的字符关联信息;
数据输入接收装置,包括:
显示控制单元,用于对按照预定过程从输出控制单元所提供的原始图像数据段中选择的任何原始图像数据段进行显示;
接收单元,用于接收文本数据的输入,所述文本数据用于标识显示控制单元所显示的原始图像数据段中的每一个表示哪个字符;以及
存储控制单元,用于通过使接收单元所接收的文本数据、显示控制单元所显示的原始图像数据段、和对每个原始图像数据段设置的标识信息相关联来进行存储。
2.根据权利要求1所述的数据输入系统,
其中通过所述预定过程,从原始图像数据段中随机地选择预定数量的原始图像数据段。
3.根据权利要求1或2所述的数据输入系统,
其中存储控制单元使接收单元所接收的文本数据与任何其它原始图像数据段相关联,其中所述其它原始图像数据段的字符关联信息的细节与为显示控制单元所显示的每个原始图像数据段所生成的字符关联信息的细节近似。
4.根据权利要求1或2所述的数据输入系统,
其中显示控制单元不选择已通过存储控制单元与文本数据相关联的原始图像数据段。
5.根据权利要求1或2所述的数据输入系统,
其中生成单元生成特征信息,以用作为每个原始图像数据段生成的字符关联信息,所述特征信息用来指示由每个原始图像数据段表示的字符的特征;并且存储控制单元针对显示控制单元所显示的原始图像数据段来生成关于接收单元所接收的文本数据的特征信息,并且当所生成的特征信息和为每个原始图像数据段生成的特征信息符合预定条件时,将文本数据、原始图像数据段、和每个原始图像数据段的标识信息相关联地进行存储。
6.根据权利要求1或2所述的数据输入系统,
其中图像读取装置具有验证字符存储单元,用来存储预定的多个用作验证字符的字符;生成单元通过针对存储在验证字符存储单元中的多个验证字符对原始图像数据段进行验证,识别出哪个验证字符与哪个原始图像数据段相关联,以用作为每个原始图像数据段生成的字符关联信息;并且显示控制单元按照预定的考虑到验证字符类型的分类次序对被标识为与某个原始图像数据段相关联的验证字符进行分类,并显示与完成了分类的验证字符相关联的原始图像数据段。
7.根据权利要求1或2所述的数据输入系统,
其中图像读取装置具有验证字符存储单元,用来存储预定的多个用作验证字符的字符;生成单元通过针对存储在验证字符存储单元中的多个验证字符对原始图像数据段进行验证,来识别出哪个验证字符与哪个原始图像数据段相关联,以用作为每个原始图像数据段生成的字符关联信息;数据输入接收装置具有词存储单元,用于存储预定的多个词;显示控制单元从存储在词存储单元中的多个词中提取任何由标识为与某个原始图像数据段相关联的验证字符所构成词,并且以验证字符构成所提取的词的次序来显示被标识为与验证字符相关联的原始图像数据段。
8.一种数据输入接收装置,包括:
存储单元,用于存储数据;
读取单元,用于逐表格地读取填写有字符的每个表格的原始图像;
设置单元,用于提取通过逐字符地对读取单元所读取的表格原始图像的数据进行分割所得到的原始图像数据段,并且对每个原始图像数据段设置标识信息以限定其在表格上的位置;
生成单元,用于为每个由设置单元所提取的原始图像数据段生成与其相关联的字符关联信息;
原始图像数据存储控制单元,用于在存储单元中对原始图像数据段、为每个原始图像数据段设置的标识信息、以及为每个原始图像数据段生成的字符关联信息进行相关联地存储;
显示控制单元,用于对按照预定过程从存储在存储单元中的原始图像数据段中选择的任何原始图像数据段进行显示;
接收单元,用于接收文本数据的输入,所述文本数据用于标识显示控制单元所显示的原始图像数据段中的每一个表示哪个字符;以及
文本数据存储控制单元,用于在存储单元中对通过使接收单元接收的文本数据、由显示控制单元显示的原始图像数据段、以及为每个原始图像数据段设置的标识信息相关联来进行存储。
9.一种用于读取填写有字符的表格的原始图像的方法,该方法包括:
提取通过逐字符地对读取单元所读取的表格的原始图像的数据进行分割所得到的原始图像数据段,并且对每个原始图像数据段设置标识信息以限定其在表格上的位置;
为每个在设置步骤中提取的原始图像数据段生成与其相关联的字符关联信息;以及
相关联地输出原始图像数据段、对每个原始图像数据段设置的标识信息、以及为每个原始图像数据段生成的字符关联信息。
10.一种由计算机执行的方法,其中计算机连接有图像数据存储装置,其用于对通过逐字符地对填写有字符的表格的原始图像进行分割所得到的原始图像数据段、为每个原始图像数据段设置的用以限定其在表格上的位置的标识信息、以及为每个原始图像数据段生成的字符关联信息相关联地进行存储,所述方法包括:
对按照预定过程从存储在图像数据存储装置中的原始图像数据段中选择的任何原始图像数据段进行显示;以及
在图像数据存储装置中,通过使接收单元所接收的文本数据、显示控制单元所显示的原始图像数据段、和对每个原始图像数据段设置的标识信息相关联来进行存储。
CN200910225481.5A 2009-05-26 2009-12-16 数据输入系统,数据输入接收装置,数据输入读取方法,以及数据输入接收方法 Expired - Fee Related CN101902541B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-126649 2009-05-26
JP2009126649A JP2010277168A (ja) 2009-05-26 2009-05-26 データ入力システム、データ入力受付装置及びプログラム

Publications (2)

Publication Number Publication Date
CN101902541A CN101902541A (zh) 2010-12-01
CN101902541B true CN101902541B (zh) 2015-08-19

Family

ID=43220308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910225481.5A Expired - Fee Related CN101902541B (zh) 2009-05-26 2009-12-16 数据输入系统,数据输入接收装置,数据输入读取方法,以及数据输入接收方法

Country Status (3)

Country Link
US (1) US8254721B2 (zh)
JP (1) JP2010277168A (zh)
CN (1) CN101902541B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5606385B2 (ja) * 2011-04-28 2014-10-15 楽天株式会社 サーバ装置、サーバ装置の制御方法、及び、プログラム
JP2014078168A (ja) * 2012-10-11 2014-05-01 Fuji Xerox Co Ltd 文字認識装置及びプログラム
CN103077389B (zh) * 2013-01-07 2016-08-03 华中科技大学 一种结合字符级分类和字符串级分类的文本检测和识别方法
JP6025803B2 (ja) * 2014-11-06 2016-11-16 京セラドキュメントソリューションズ株式会社 画像処理装置
JP6488729B2 (ja) * 2015-01-29 2019-03-27 富士ゼロックス株式会社 記入フォーム提供装置、画像形成装置及びプログラム
CN105808742A (zh) * 2016-03-11 2016-07-27 北京天创征腾信息科技有限公司 一种影像池系统及使用影像池的方法
JP6856321B2 (ja) * 2016-03-29 2021-04-07 株式会社東芝 画像処理システム、画像処理装置、および画像処理プログラム
JP6701932B2 (ja) * 2016-05-06 2020-05-27 コニカミノルタ株式会社 画像形成装置、プログラム、会議システム
JP6370857B2 (ja) * 2016-10-21 2018-08-08 三菱電機インフォメーションシステムズ株式会社 データ保管装置及びデータ保管プログラム
JP6614186B2 (ja) * 2017-03-21 2019-12-04 カシオ計算機株式会社 帳簿書類処理装置、帳簿書類処理方法、及びプログラム
JP7095345B2 (ja) * 2018-03-22 2022-07-05 富士フイルムビジネスイノベーション株式会社 情報処理装置、情報処理システム及びプログラム
JP7275617B2 (ja) * 2019-02-06 2023-05-18 日本電信電話株式会社 情報処理装置、判別方法および判別プログラム
CN110598186A (zh) * 2019-07-31 2019-12-20 浙江口碑网络技术有限公司 图像识别的辅助处理方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5821929A (en) * 1994-11-30 1998-10-13 Canon Kabushiki Kaisha Image processing method and apparatus
US5900005A (en) * 1996-05-17 1999-05-04 Techcraft Co., Ltd. System for extraction of text strings from on-screen computer window displays using the computer operating system in lieu of a clipboard
CN1542655A (zh) * 2003-04-30 2004-11-03 ������������ʽ���� 信息处理装置和信息处理方法、以及存储媒体、程序

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3167578B2 (ja) 1995-03-30 2001-05-21 沖電気工業株式会社 帳票分類処理方法およびシステム
JP2003006315A (ja) * 2001-06-21 2003-01-10 Ricoh Co Ltd 情報入力支援サービスシステム
JP2003029910A (ja) * 2001-07-10 2003-01-31 Toshiba Corp 秘匿情報入力方法および装置ならびにプログラム
US7836010B2 (en) * 2003-07-30 2010-11-16 Northwestern University Method and system for assessing relevant properties of work contexts for use by information services
JP4278524B2 (ja) * 2004-01-16 2009-06-17 トランス・コスモス株式会社 イメージ処理装置、方法及びプログラム並びにイメージ処理システム
JP4274375B2 (ja) * 2005-03-04 2009-06-03 株式会社アイデック データエントリーシステム
JP2007304864A (ja) * 2006-05-11 2007-11-22 Fuji Xerox Co Ltd 文字認識処理システムおよび文字認識処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5821929A (en) * 1994-11-30 1998-10-13 Canon Kabushiki Kaisha Image processing method and apparatus
US5900005A (en) * 1996-05-17 1999-05-04 Techcraft Co., Ltd. System for extraction of text strings from on-screen computer window displays using the computer operating system in lieu of a clipboard
CN1542655A (zh) * 2003-04-30 2004-11-03 ������������ʽ���� 信息处理装置和信息处理方法、以及存储媒体、程序

Also Published As

Publication number Publication date
JP2010277168A (ja) 2010-12-09
US8254721B2 (en) 2012-08-28
US20100303382A1 (en) 2010-12-02
CN101902541A (zh) 2010-12-01

Similar Documents

Publication Publication Date Title
CN101902541B (zh) 数据输入系统,数据输入接收装置,数据输入读取方法,以及数据输入接收方法
RU2251734C2 (ru) Машиночитаемый код, способ и устройство кодирования и декодирования
US8218872B2 (en) Computer-readable medium storing information processing program, information processing method and information processing system
CN101542504B (zh) 后光学字符识别处理中的形状聚类
CN102819552B (zh) 自动审核pcb工程文件的方法及系统
US6466694B2 (en) Document image processing device and method thereof
KR101783337B1 (ko) 이미지 문서에서 텍스트를 추출하는 방법 및 장치
US7020327B2 (en) Machine readable code image and method of encoding and decoding the same
CN100414550C (zh) 用于图像检索的图像处理设备及其控制方法
US20010043740A1 (en) Character recognizing device, image reading device, character recognizing method, and program product
US9454696B2 (en) Dynamically generating table of contents for printable or scanned content
US7528986B2 (en) Image forming apparatus, image forming method, program therefor, and storage medium
CN103685821B (zh) 打印系统、图像形成装置、以及打印时协作方法
US20060285748A1 (en) Document processing device
CN113723347B (zh) 信息提取的方法、装置、电子设备及存储介质
CN113225446A (zh) 使文档计算机化的图像处理系统及其控制方法和存储介质
CN106407450A (zh) 文件搜索方法及装置
CN112839141B (zh) 图像处理系统、图像处理方法和存储介质
CN101394462B (zh) 信息处理装置及信息处理方法
CN102243707A (zh) 字符识别结果验证设备和字符识别结果验证方法
CN102637256B (zh) 后光学字符识别处理中的形状聚类
KR102328034B1 (ko) 표가 삽입된 이미지로부터 지식 데이터베이스의 구축이 가능한 데이터베이스 구축 장치 및 그 동작 방법
JP6010318B2 (ja) 画像検査装置、画像検査方法、及びプログラム
JP2016018454A (ja) 画像処理装置および画像処理装置の制御方法
CN101753752B (zh) 图像处理设备和执行图像处理的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150819

Termination date: 20171216