CN1722154A - 文字识别方法、数据修正历史处理方法和文字识别系统 - Google Patents

文字识别方法、数据修正历史处理方法和文字识别系统 Download PDF

Info

Publication number
CN1722154A
CN1722154A CNA2005100842068A CN200510084206A CN1722154A CN 1722154 A CN1722154 A CN 1722154A CN A2005100842068 A CNA2005100842068 A CN A2005100842068A CN 200510084206 A CN200510084206 A CN 200510084206A CN 1722154 A CN1722154 A CN 1722154A
Authority
CN
China
Prior art keywords
data
literal
text image
image data
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100842068A
Other languages
English (en)
Other versions
CN100370476C (zh
Inventor
甲能正隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN1722154A publication Critical patent/CN1722154A/zh
Application granted granted Critical
Publication of CN100370476C publication Critical patent/CN100370476C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Character Discrimination (AREA)

Abstract

对于某个文字来说,存在每一个笔者的手写文字有多个特征的情况,另外,因为与过去注册的补正历史的文字的特征未必一致,所以仅仅使用现有技术的文字识别处理有时无法应对。因此,本发明的目的是提供能够更忠实地捕捉每个笔者的手写文字图像的特征的文字识别方法以及系统。在本发明,按照时间序列顺序管理将笔者所使用的手写输入设备的标识符(设备ID)和手写文字的图像数据以及文字识别编码对应起来的修正历史数据。而且,从修正历史数据中,按照时间序列顺序从新的数据中提取同一个笔者的同一个文字的手写文字图像,通过进行检测文字图像的特征的处理,来提取个人笔迹的特征。

Description

文字识别方法、数据修正历史处理方法和文字识别系统
技术领域
本发明涉及一种根据由输入设备得到的文字图像数据,识别文字的文字识别方法、文字数据的修正历史处理方法以及文字识别系统。尤其是涉及提高文字识别率的文字识别方法、文字数据的修正历史处理方法以及文字识别系统。
背景技术
特开平7-49924号公报中公开了对于笔者的固有特征(所谓的书写习惯),由于同一个文字的每一次出现、机器识别错误、操笔者反复输入同一个修正,因此为了消除操笔者负担大的问题,使用补正历史进行文字识别处理。
在特开平7-49924号公报中记载的发明中,作为手写文字的识别方法,设置了按照手写文字的笔者不同编辑的补正历史。另外,当操笔者对机器决定的编码数据进行补正时,将包括该补正的附加信息存储到补正历史中。文字识别单元在参照文字辞典的同时参照补正历史来决定编码数据。
特开平7-49924号公报公开了对于作为文字识别结果被补正的文字,通过根据操笔者的要求,把在识别过程中作为候补的其他文字的编码数据等在显示装置中进行显示,来减轻操笔者的负担。
但是,对于某个文字,每个操笔者的手写文字有时具有多个特征,另外,现在所描述的手写文字的特征和过去注册的补正历史的文字的特征不一定是一致的。由于这些原因,使用在特开平7-49924号公报中记载的文字识别处理有时候无法进行文字识别处理。
发明内容
本发明提供一种文字识别方法以及文字识别系统,它更忠实地捕捉每个笔者的手写文字图像的特征,可以进一步得到每个笔者不同的手写文字的特征。
在本发明中,按照时间序列顺序管理将笔者所使用的手写输入设备的标识符(设备ID)和手写文字的图像数据以及文字编码对应起来的修正历史数据。之后,根据修正历史,按照时间序列顺序从新的数据中提取同一个笔者的同一个文字编码的手写文字图像,进行检测文字图像的特征的处理,通过以上来提取个人的笔迹的特征。另外,对修正历史数据和基本的文字转换所必要的文字图像数据进行单独管理,并用于文字识别。
附图说明
【图1】对文字识别系统的结构进行说明的方框图。
【图2】对文字识别的处理顺序进行说明的流程图。
【图3】对确认·修正终端的工作进行说明的流程图。
【图4(a)】对存储在修正历史表中的数据进行说明的图。
【图4(b)】对存储在笔ID设定值表中的数据进行说明的图。
【图5】对差分检测处理的流程进行说明的图。
【图6】对差分检测处理进行说明的图。
【图7】对附加表115进行说明的图。
【图8】对文字识别处理服务器和确认·修正终端和修正历史处理服务器之间的通信和处理进行说明的顺序图。
【图9】对修正历史处理服务器的动作进行说明的图。
具体实施方式
图1是对文字识别系统的结构进行说明的方框图。使用图1,对由数码笔输入的数据的发送接收和计算机的数据识别处理进行说明。
数码笔101由摄像头102、处理器103、存储器104和通信部105构成。通信部105由与数据传送用PC106进行有线通信的硬件和软件构成。处理器103进行在存储器104中存储的数据的发送接收处理和各种数据处理。另外,数码笔具有能够唯一确定各个数码笔的标识符。
在用户使用数码笔101在印刷着圆点图案的纸上描绘文字或图形时,数码笔101通过摄像头102以一定的采样周期采样,将用户手写的文字或图形的信息转换成数字数据(笔的轨迹(对于纸的手写文字的坐标位置数据)、笔压、采样的时刻信息),并存储到数码笔101的存储器104中。
数码笔101通常不与数据传送用PC连接,不连接电线。但是,以与传送用PC106相连接为契机,在数码笔101的存储器104中存储的位置坐标数据由数码笔101的通信部105发送,数据传送用PC106进行接收。数据传送用PC106将位置坐标数据转换成文字数据,经由网络110发送给服务器111。服务器111根据接收到的文字数据实施文字识别。
数据传送用PC106具有用于接收来自数码笔101的数据的接口。另外,省略安装在数据传送用PC106上的各种输入输出设备、存储装置和处理器等的图示。在数据传送用PC106中使用用于对数码笔101发送的数据进行处理的设备驱动、操作系统等程序。数据传送用PC106将数码笔101接收到的数据转换成文字图像数据,存储在数据传送用PC106的存储装置中,并发送给文字识别处理服务器111。
服务器111接收由数据传送用PC106处理过的文字数据,通过在服务器111中使用的文字识别部112进行接收到的文字数据的文字识别处理。
安装在数码笔101内部的摄像头102以数十赫兹的采样频率识别印刷在纸上的圆点图案,识别使用数码笔描绘的文字或图形的坐标位置信息(X坐标、Y坐标)等,由通信部发送其坐标位置数据和数码笔的笔ID。
另外,数码笔101具有压力传感器,根据压力传感器探测到的内容,可以作为向数码笔的数据输入或数据的发送等的触发器。例如,当压力传感器识别到数码笔被压向纸面时,接通数码笔的开关,开始手写数据的输入。反之,当压力传感器识别到数码笔离开了纸面时,数码笔101的通信部105将存储在存储器104中的位置坐标数据传送到PC106或文字识别处理服务器111。在由安装在数码笔内部的存储器传送数据之后,进行断开数码笔开关的一连的处理。
在文字识别处理服务器111中,使用作为在进行文字识别的文字识别部112的内部用于检测文字编码的程序的文字编码检测部113,根据需要进行在存储装置中存储的基本表114和附加表115中包含的信息的附加、更新或参照。
在修正历史处理服务器116中使用对文字数据的修正历史进行管理的程序,从存储文字的修正历史的修正历史表118中提取必要的数据,进行差分检测处理。
下面详细说明文字识别处理服务器111和修正历史处理服务器116的处理和各表的内容。
在确认·修正终端108中,使用作为用于接收文字图像数据和手写图像数据等数据,进行数据处理的程序的文字修正处理部。工作人员使用确认·修正终端108确认从文字识别处理服务器111发送给确认·修正终端108的数据的内容,根据需要进行由文字识别处理服务器111发送的文字数据的修正。已被确认的数据和已被修正的数据等从确认·修正终端108发送给修正历史处理服务器116。
使用确认·修正终端108修正后的数据被发送给文字识别处理服务器111和修正历史处理服务器116。
在这里,对文字识别处理的概要进行说明。
数据传送用PC106的ID检测处理部107进行从数码笔101接收到的数据的识别。ID检测处理部107从接收到的数据中检测数码笔的标识符(数码笔ID)。另外,ID检测处理部107在从数码笔101接收到的位置坐标数据(根据描绘在圆点图案上的文字识别的X坐标、Y坐标的数据)中提取文字图像数据。这些数据被发送给文字识别处理服务器111。在文字识别处理服务器111的文字识别处理部112中,利用各种表进行文字编码的识别处理。在下面将使用图2详细地说明该处理。
与文字识别处理服务器111相连接的存储装置120记录基本表114和附加表115。在这里,基本表114是把文字图像和文字编码相关联起来的表。基本表114是基本的文字图像数据,通过所有的数码笔ID通用。
另一方面,附加表115是把对手写图像数据进行文字识别时失败的文字修正后的历史与新的图像和文字编码相关联起来的表。附加表115从修正历史表中提取必要的信息,并将差分检测出的结果的数据和笔ID对应起来管理。
与修正历史处理服务器116连接的存储装置121记录修正历史表118。修正历史表118是存储工作人员使用确认·修正终端108修正后的数据的表。修正历史处理服务器116的差分检测处理部117从修正历史表118中提取修正文字的识别所必需的数据,并将进行了差分检测处理的数据存储在附加表115中。修正历史表118的修正历史数据也是与笔ID对应起来管理。
此处,对文字识别处理服务器111和修正历史处理服务器116以及确认·修正终端108中的数据的流动的概要进行说明。
由数码笔101发送的数据(将手写数据的坐标位置信息和笔ID对应起来的数据等)经由数据传送用PC106被发送给文字识别处理服务器111。数据传送用PC106把使坐标位置数据和笔ID对应起来的数据转换成将文字图像数据和笔ID对应起来的数据,并发送给文字识别处理服务器111。文字识别处理服务器111将由数据传送用PC106发送的数据(文字图像数据和笔ID)发送给确认·修正终端108。
具体地说,(1)多个用户使用各自数码笔进行卡片的填写工作和各种输入方式的记载。(2)然后,由数码笔将多个手写数据发送给数据传送用PC106。使用数据传送用PC106进行数据转换处理。进行数据转换处理后的数据被发送给文字识别处理服务器111。(3)在文字识别处理服务器111中,使用基本表114和多个数码笔ID的附加表115进行文字识别处理。(4)由文字识别处理服务器111文字识别的结果的数据被发送给确认·修正终端108。(5)多个工作人员使用确认·修正终端108进行分担检查在由文字识别处理服务器111发送的数据中是否存在文字识别处理错误的工作。
确认·修正终端108的文字修正处理部109将修正后的数据等与笔ID一起,从确认·修正终端108发送给修正历史处理服务器116。
修正历史处理服务器116把由确认·修正终端108发送的数据与笔ID一起存储到修正历史表118中。把在修正历史处理服务器116中处理的结果发送给文字识别处理服务器111,对于存储到附加表115的处理,使用图3的差分检测处理进行详细地说明。
另外,摄像头102根据需要也可以是光传感器(识别光的元件、红外线检测传感器、识别碳的元件等)。通信部也可以通过蓝牙等的无线通信与数据传送用PC连接。作为输入设备的一个例子,记述了数码笔,但如果是具有固有标识符的输入设备,也可以是数码笔以外的其他设备。数据传送用PC106和文字识别处理服务器111可以是计算机,也可以是用于进行上述处理的专用机器,还可以是其他的设备。将位置坐标数据转换成文字图像数据的处理可以通过文字识别处理服务器111来进行。另外,文字识别处理服务器111和修正历史处理服务器116可以由同一台计算机实现。使用确认·修正终端108修正后的数据可以发送给文字识别处理服务器111或修正历史处理服务器116中的一方。
图2是对文字识别的处理顺序进行说明的流程图。
在步骤41,以从数据传送用PC106接收到文字图像数据和数码笔ID为契机,开始文字识别处理。
在步骤42,文字识别处理服务器111的文字识别部112从接收到的数据中提取笔ID,进行判别该笔ID的处理。具体地说,判断在附加表中是否存在笔ID。在附加表115中存在该笔ID时,进入步骤43。在附加表中不存在ID时进入步骤45。
在步骤43,文字识别部112使用附加表115实施文字识别,并进入步骤44。
在步骤44,文字编码检测部113判断在附加表115中是否存在与文字识别处理服务器111接收到的文字图像数据对应的文字编码。在文字编码检测部113判断为在附加表115中存在文字编码时,根据附加表115,将文字图像数据转换成文本,并进入步骤46。在文字编码检测部113判断为在附加表115中不存在与该图像数据对应的文字时,进入步骤45。
在步骤45,根据在附加表115中不存在文字编码的文字编码检测部113的判断结果,文字识别部112根据基本表114,进入到进行文字图像数据的文字识别处理的步骤46。
在步骤46,确认已进行了文字图像数据的识别处理,在存在下一个文字图像数据时,对下一个文字图像数据反复进行从步骤42的处理,在不存在下一个文字图像数据时,存储进行了文字识别处理的数据,并结束处理。
使用图8,对文字识别处理服务器、确认·修正终端和修正历史处理服务器的处理的流程进行说明。此处,图8是对文字识别处理服务器和确认·修正终端以及修正历史处理服务器之间的通信和处理进行说明的顺序图。
在图8中,当文字识别服务器111识别出的数据例如存储在1页左右的A4纸时,文字识别服务器111在笔ID和文字图像数据中添加自己实施的识别结果数据,并发送给确认·修正终端108(S91)。接收到文字图像数据和识别结果数据的确认·修正终端108把它们对应起来在画面中显示。确认·修正终端108的操作者对比显示的文字图像数据和识别结果数据(S92),对文字识别结果加以修正(S93)。当所有的确认结束时,确认·修正终端108将笔ID和文字修正结果数据发送给文字识别服务器111和修正历史处理服务器116(S94、S95)。
接收到笔ID和文字修正结果数据的文字识别服务器111更新识别结果数据(S96)。另外,接收到笔ID和文字修正结果数据的修正历史处理服务器116更新修正历史表(S97)。此时,随着该更新,需要进行差分检测处理,因此修正历史处理服务器116实施差分检测处理(S98)。修正历史处理服务器116将笔ID和差分检测结果数据发送给文字识别服务器111(S99)。接收到笔ID和差分检测结果数据的文字识别服务器111更新与笔ID对应的附加数据。
下面使用图3,对使用确认·修正终端的作业进行说明。在这里,图3是对使用确认·修正终端的作业进行说明的流程图。确认·修正终端108在等待状态下(S51),当从文字识别服务器111接收笔ID和文字图像数据以及识别结果数据时(S52),将文字图像和识别结果数据显示在一个画面上(S53),等待操作者的操作(S54)。在操作者判断为需要修正时,修正识别结果数据(S55)。在步骤54,在不需要进行修正以及修正结束的情况下,判断是否还留有数据(S56),如果还有数据,则回到步骤53,移至下一个画面中的确认。在步骤56,如果没有数据,则将笔ID和修正后的识别结果数据发送给修正历史处理服务器116和文字识别服务器111(S57),并返回到步骤51的等待状态。
使用图9,说明修正历史处理服务器的动作。在这里,图9是说明修正历史处理服务器的动作的流程图。修正历史处理服务器116在等待状态下(S101),当从确认·修正终端108接收文字修正数据时(S102),更新修正历史表(S103)。然后,修正历史处理服务器116判断文字识别服务器111的附加表是否需要修正(S104)。当判断为需要进行修正时,修正历史处理服务器116实施差分检测处理(S105),将差分检测结果数据发送给文字识别服务器111(S106)。当在步骤104中不需要进行修正或步骤106结束时,修正历史处理服务器116返回到步骤101的等待状态。
另外,在图8、图3以及图9的说明中,文字识别处理服务器和确认·修正终端以及修正历史处理服务器之间的数据是间歇处理的,但是也可以实时地进行通信。
使用图4,对与修正历史处理服务器116连接的存储装置121中记录的修正历史表和实施差分检测处理的修正次数一笔ID设定值表进行说明。在这里,图4(a)是对存储在修正历史表的数据进行说明的图。另外,图4(b)是对存储在笔ID设定值表的数据进行说明的图。
首先,以应识别为原有文字编码“1”,图像1a、1b、1c、1d、1e都由文字识别处理服务器识别为文字编码“1”以外的文字编码为前提进行说明。在图4(a)中,列61是文字图像数据和使用确认·修正终端修正后的文字编码的对应。另外,列62是笔ID。即,图像1a、1c、1e是笔ID(A)的修正,图像1b、1d是笔ID(B)的修正。列63是计数器,表示笔ID和文字编码以同一个组合进行了几次修正。
在图4(b)中,笔ID(A)的设定值为3,笔ID(B)的设定值为5。在图4(a)中,记录64至记录68是按照时间序列顺序排列的数据。在记录68中,笔ID(A)的计数值变成图4(b)的笔ID(A)的设定值3,表示推移到差分检测处理。另外,若结束差分检测处理,则重设计数器。
差分检测的数据处理由差分检测处理部117执行的。该差分检测处理部117是在修正历史处理服务器116中使用的程序。
图4(b)的数据是预先存储在修正历史处理服务器116的存储装置中。另外,设定值对每个笔ID或每个文字编码,可以将预先规定的修正次数作为不同的值进行设定。另外,对所有的笔ID可以设定相同的值,也可以以其它方法设定。在对于每个笔者或在每个业务中使用的数码笔,容易提取特征的文字图像数据的个数不同的情况下,系统管理者等可以在修正历史处理服务器116中预先存储所需要的设定值。
图5是说明差分检测处理的流程的图。
作为在修正历史处理服务器116中使用的程序的差分检测处理部117从修正历史表118提取包含满足规定的条件的文字图像数据和转换了该文字图像数据的文字编码的记录,进行差分检测处理。
图5的“图像1a”71与在图4的记录64中包含的“图像1a”相对应。“图像1c”和“图像1e”也相同。这些文字图像数据71~73在修正历史表118中满足数码笔的ID为“ID(A)”、修正后的文字编码为“文字编码1”、修正次数为“3次”的条件,因此作为差分检测处理对象的数据是从修正历史表118中提取出的数据。
差分检测处理74是对每个笔ID从修正历史中提取进行了固定次数的修正的数据,根据进行了固定次数的变更的文字图像数据生成新的文字图像数据“图像1′”的处理。在图6中详细说明根据提取出的文字图像数据生成新的文字图像数据的处理。
符号75是将新生成的文字图像数据“图像1′”和用于识别文字图像数据的文字编码以及笔ID对应起来,生成与笔ID(A)对应的附加表的新记录用数据的处理。修正历史处理服务器116将用于存储在附加表115中的新记录的数据发送给文字识别处理服务器111。文字识别处理服务器111接收数据,并存储到附加表115。在图6中对用于生成上述新的“图像1′”的差分检测处理74进行说明。
图6是说明差分检测处理的图。
与图5的71、72、73对应的文字图像数据为图6的82、83、84。对根据手写文字图像数据82~84生成作为新的文字图像数据的图5的75“图像1′”的处理进行说明。
在这里,对将手写文字“d”错误地转换成“a(文字编码[25H])”的次数为3的情况进行说明。手写文字图像“d”必须正确地转换成文字编码(文字编码[12H])的文本“d”,但因为是具有个性的字体,所以有时错误地转换成文字编码[25H]的文本“a”。
提取基本数据和手写文字图像之间的差分,通过使用差分的平均值生成新的文字图像。在这里,基本数据可以是将各个文字的文字编码和文字的坐标位置数据对应起来在基本表114中存储的数据,也可以是对每个文字铅印存储文字的坐标位置信息的数据,也可以是其它数据。
首先,求出基本文字的坐标位置和手写文字图像的坐标位置的差分(86~88)。
([A]-[Bi])=Δai
[A]:[基本数据的文字的坐标数据]
[Bi]:[手写数据的文字的坐标数据]
Δai:笔迹数据的差分的坐标数据
在本实施例中,以进行了3次手写文字图像的修正为契机,进行差分检测处理,因此,分别求出3个手写文字图像82~84和基本数据的差分(86~88)。另外,差分检测处理部117在存储在修正历史表118中的记录中,以时间序列顺序从新的记录中按顺序,对每个规定的修正次数提取成为差分检测处理的对象的文字图像。
另外,在本实施例中,使用印刷了能够识别文字坐标位置(笔的笔画数据)的圆点图案的纸,检测用数码笔描绘出的文字的坐标位置。从而可以得到使用数码笔描绘出的轨迹上的坐标位置(X坐标、Y坐标),求出该数码笔的文字图像数据的坐标位置信息和基本数据的差分。当检测坐标位置时,可以提取描绘出的图或线或标记的起始点或终点的坐标位置,也可以提取线和线的交点的坐标位置,也可以检测所有的坐标位置,也可以采用其它方法。
然后,用图6的公式89求出已求出的差分数据(86~88)的平均值。即,通过提取修正后的文字图像的特征并求出平均值,来得到手写文字的特征的数据。对提取出了该特征的文字坐标数据和基本数据的文字图像的文字坐标数据进行加法运算,生成新的文字图像。在这里,新的文字图像是图5的75中包含的“图像1′”。
修正历史处理服务器116将生成的新的文字图像作为用于向附加表118存储的数据给予笔ID,发送给文字识别处理服务器111。文字识别处理服务器111将接收到的数据存储到附加表115。
另外,在图6的例子中,图示了文字图像数据,但在进行他们的差分检测处理时,并不是仅用文字图像数据计算笔迹数据的差分等,可以将描绘出的文字图像数据转换成文字的坐标位置数据,用该文字的坐标位置数据来进行计算,也可以使用其它方法。另外,还可以根据需要使用将文字图像数据转换成文字的坐标位置数据的程序。
图7是说明附加表115的图。
附加表的记录91到93是按照时间序列顺序存储的。各个记录将通过差分检测处理生成的新的文字图像数据、进行文字转换处理时应该识别的文字编码、以及数码笔的笔ID对应起来进行存储。
在记录91中,将文字图像“图像1′”和“文字编码1”以及笔ID“ID(A)”对应起来进行存储。在记录92中,将文字图像“图像1′′”和“文字编码1”以及笔ID“ID(B)”对应起来进行存储。在记录93中,将文字图像“图像1′′′”和“文字编码1”以及笔ID“ID(A)”对应起来进行存储。
记录91和92即使是不同的文字图像,也转换成与每个笔ID对应起来的文字编码。作为结果,在该例子中无论哪一个,作为文字编码1进行文字识别,作为文本文字进行变换处理。
记录91和93是包含相同的笔ID和相同的文字编码的记录。记录93是比记录91更新的记录。在本实施例中,对于某个文字编码,将多个文字图像对应起来存储。即,按照时间序列顺序提取文字的特征并进行保管。
95的箭头表示进行检查的方法。例如,在对给予了笔ID[ID(A)]的文字图像数据进行文字识别时,按照附加表115的新的记录顺序检查附加表,检索成为转换对象的文字图像。
在附加表115中存储多个将文字图像数据和文字编码以及笔ID对应起来的记录。在本实施例中,表示对于所有的笔ID的数据按照时间序列顺序(96)进行存储的例子。另外,各表的记录可以通过给予时刻数据来管理。数码笔的管理者通过按照时间序列顺序存储数据,与在某个时刻变更数码笔的使用者相对应,能够消除存储在表中的数据或可以作为在固定期间内使用过的过去的文字数据给予使用者名,作为其他的文件进行存储。
另外,对于所有的笔ID,不是在一个附加表中将文字数据和文字编码对应起来管理,而是可以对每一个笔ID设置附加表115,也可以用其它方法。
另外,附加表115可以存储在能够从文字识别处理服务器111进行存取的记录介质或存储装置中,因此并不限定于图1所示的例子。例如,可以在数码笔101的存储装置或数据传送用PC106的存储装置中存储附加表。
是进行本实施例的文字数据的修正历史处理的程序,接收将设备标识符和文字图像数据以及修正后的文字编码对应起来的信息,将所述接收到的信息作为新记录存储到修正历史表中,判断所述修正历史表中包含的各记录是否满足预先规定的条件,根据所述判断结果,从修正历史表中包含的记录中提取多个文字图像数据,通过对所述提取出的文字图像数据进行差分检测处理,来生成新的文字图像数据,把将所述新的文字图像数据和所述修正后的文字编码以及所述设备标识符对应起来的信息发送给其他程序。
另外,本实施例的文字识别系统包括:具有固有标识符具备数据发送部的输入设备、文字识别处理服务器、存储文字识别所需要的表的存储装置、进行修正历史处理的服务器、和修正终端,在该文字识别系统中,所述输入设备将所述输入设备固有的标识符和手写文字数据的坐标位置的数据对应起来发送给所述文字识别处理服务器。
所述文字识别处理服务器将所述发送的手写文字数据的坐标位置的数据转换成手写文字图像数据,将所述转换后的文字图像数据和所述输入设备固有的标识符以及文字编码对应起来发送给所述修正终端。
所述修正终端修正与所述发送的文字图像数据对应的文字编码数据,将所述修正后的文字编码和所述接收到的文字图像数据以及所述输入设备固有的标识符对应起来发送给所述修正历史处理服务器。
所述修正历史处理服务器将所述发送的文字图像数据和修正后的文字编码以及输入设备固有的标识符对应起来,作为新记录存储到修正历史表中,当在所述修正历史表中存在包含与所述发送的文字编码以及输入设备固有的标识符为同一值的记录时,在存在预先规定的个数的该记录的情况下,提取在该记录中包含的文字图像数据,通过对所述提取出的文字图像数据进行差分检测处理,来生成新的文字图像数据,把将所述新的文字图像数据和所述修正后的文字编码以及所述设备标识符对应起来的信息发送给所述文字识别处理服务器。
所述文字识别处理服务器把将所述发送的所述新的文字图像数据和所述修正后的文字编码以及所述设备标识符对应起来的信息存储到附加表中,在所述附加表进行文字识别处理。
这样,根据本实施例,根据使用数码笔描绘的轨迹的坐标位置提取文字的特征,因此即使是文字的书写顺序有错误的情况,也可以根据描绘的位置信息识别文字,提取特征。
另外,根据本实施例,按时间序列顺序把对所有的文字图像进行了修正的信息存储到修正历史表118中,从新的修正数据中按照顺序提取文字图像的特征,通过附加并更新附加表115,不仅是过去注册的文字的特征,还可以识别现在的文字的特征。
即,在本实施例中,根据特定的条件(例如,每个修正次数、修正文字编码等条件),反复进行从修正历史的信息中,对于与特定的设备ID相对应的修正历史,按照时间序列顺序从新的修正数据中提取特征的处理。因此,在附加表中根据条件附加存储提取出特征的数据。这样,因为使用根据条件积聚了文字的特征的附加表进行文字识别,所以能够进行更细致的文字识别。
根据本实施例,不更新基本表,设置附加表,通过实施与设备ID对应的优先的文字识别,作为结果,能够提高文字识别率。
反之,也能够防止由于基本表的更新引起的文字识别表的修改错误。
根据本实施例,能够捕捉每个设备ID的笔迹的特征。另外,单独管理提取出笔迹特征的数据和用于进行文字识别处理的基本信息的数据,通过将各自的数据与设备ID对应起来使用,提高文字识别率。

Claims (8)

1.一种文字数据的修正历史处理方法,其特征在于,
接收将设备标识符和文字图像数据以及修正后的文字编码对应起来的信息;
将所述接收到的信息作为新记录存储到修正历史表;
判断所述修正历史表中包含的各记录是否满足预先规定的条件;
根据所述判断结果,从修正历史表包含的记录中提取多个文字图像数据;
通过对所述提取出的文字图像数据进行差分检测处理,生成新的文字图像数据;
将所述新的文字图像数据和所处修正后文字编码以及所述设备标识符对应起来的信息发送给其他程序。
2.一种文字识别方法,其特征在于,
接收将设备标识符和文字图像数据以及修正后的文字编码对应起来的信息;
将所述接收到的信息作为新记录存储到修正历史表;
判断所述修正历史表中包含的各记录的信息是否满足预先规定的条件;
根据所述判断结果,从修正历史表包含的记录中提取多个文字图像数据;
通过对所述提取出的文字图像数据进行差分检测处理,生成新的文字图像数据;
将所述新的文字图像数据和文字编码以及设备标识符对应起来的信息存储到附加表;
在接收到文字识别处理指示的同时,接收到将设备标识符和文字图像数据对应起来的信息时,
判断在所述附加表中是否存在与所述文字识别处理指示同时接收到的设备标识符;
在所述判断结果为在所述附加表中存在与所述文字识别处理指示同时接收到的设备标识符时,根据所述附加表进行文字识别处理;
在所述判断结果为在所述附加表中不存在与所述文字识别处理指示同时接收到的设备标识符时,根据存储了将预先规定的文字图像数据和文字编码对应起来的记录的基本表,进行文字识别处理。
3.根据权利要求1所述的修正历史处理方法,其特征在于,
所述预先规定的条件是在所述修正历史表中存在多个包含与所述接收到的设备标识符和所述接收到的修正后的文字编码为同一设备标识符和文字编码的记录。
4.根据权利要求2所述的文字识别方法,其特征在于,
所述预先规定的条件是在所述修正历史表中存在多个包含与所述接收到的设备标识符和所述接收到的修正后的文字编码为同一设备标识符和文字编码的记录。
5.根据权利要求1所述的修正历史处理方法,其特征在于,
所述差分检测处理是分别求出在存储了将预先规定的文字图像数据和文字编码对应起来的记录的基本表中所包含的文字图像数据的坐标数据和从所述修正历史表中提取出的多个文字图像数据的坐标数据之间的差分;
求出所述已求出的差分的坐标数据的平均值的坐标数据;
对所述已求出的平均值的坐标数据和基本表中所包含的文字图像数据的坐标数据进行加法运算。
6.根据权利要求2所述的文字识别方法,其特征在于,
所述差分检测处理是分别求出在存储了将预先规定的文字图像数据和文字编码对应起来的记录的基本表中所包含的文字图像数据的坐标数据和从所述修正历史表中提取出的多个文字图像数据的坐标数据之间的差分;
求出所述已求出的差分的坐标数据的平均值的坐标数据;
对所述已求出的平均值的坐标数据和在基本表中所包含的文字图像数据的坐标数据进行加法运算。
7.一种文字识别系统,包含具有固有标识符,具备数据发送部的输入设备、文字识别处理服务器、存储了文字识别所必要的表的存储装置、进行修正历史处理的服务器、和修正终端的,其特征在于,
所述输入设备将所述输入设备固有的标识符和手写文字数据的坐标位置的数据对应起来发送给所述文字识别处理服务器;
所述文字识别处理服务器将所述发送的手写文字数据的坐标位置的数据转换成手写文字图像数据,
并将所述已转换的文字图像数据和所述输入设备固有的标识符以及文字编码对应起来发送给所述修正终端;
所述修正终端修正与所述发送的文字图像数据对应的文字编码数据,将所述已修正的文字编码和所述接收到的文字图像数据以及所述输入设备固有的标识符对应起来发送给所述修正历史处理服务器;
所述修正历史处理服务器将所述发送的文字图像数据和已修正的文字编码以及输入设备固有的标识符对应起来,作为新记录存储到修正历史表;
在所述修正历史表中存在包含与所述发送的文字编码以及输入设备固有的标识符为相同值的记录时,存在预先规定的数量的该记录时,提取该记录中包含的文字图像数据;
通过对所述提取出的文字图像数据进行差分处理,生成新的文字图像数据;
把将所述新的文字图像数据和所述修正后的文字编码以及所述设备标识符对应起来的信息发送给所述文字识别处理服务器;
所述文字识别处理服务器将所述发送的所述新的文字图像数据和所述修正后的文字编码以及所述设备标识符对应起来的信息存储到附加表中;
为了实施文字识别处理使用所述附加表。
8.一种文字数据的修正历史处理系统,其特征在于,
具有:
接收将设备标识符和文字图像数据以及修正后的文字编码对应起来的信息的单元;
将所述接收到的信息作为新记录存储到修正历史表的单元;
判断所述修正历史表中包含的各记录是否满足预先规定的条件的单元;
根据所述判断结果,从修正历史表包含的记录中提取多个文字图像数据的单元;
通过对所述提取出的文字图像数据进行差分处理,生成新的文字图像数据的单元;和
把将所述新的文字图像数据和所述修正后的文字编码和所述设备标识符对应起来的信息发送给其他程序的单元。
CNB2005100842068A 2004-07-15 2005-07-15 文字识别方法、数据修正历史处理方法和文字识别系统 Expired - Fee Related CN100370476C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004207985 2004-07-15
JP2004207985A JP2006031299A (ja) 2004-07-15 2004-07-15 文字認識方法、文字データの修正履歴処理方法およびシステム

Publications (2)

Publication Number Publication Date
CN1722154A true CN1722154A (zh) 2006-01-18
CN100370476C CN100370476C (zh) 2008-02-20

Family

ID=35115781

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100842068A Expired - Fee Related CN100370476C (zh) 2004-07-15 2005-07-15 文字识别方法、数据修正历史处理方法和文字识别系统

Country Status (4)

Country Link
US (1) US7565013B2 (zh)
EP (1) EP1617351A3 (zh)
JP (1) JP2006031299A (zh)
CN (1) CN100370476C (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140564B (zh) * 2006-09-05 2010-12-15 太瀚科技股份有限公司 书写造字的系统与方法
CN104054046A (zh) * 2013-01-08 2014-09-17 冯林 一种基于触控板的写字板和教学系统
CN109992124A (zh) * 2018-01-02 2019-07-09 北京搜狗科技发展有限公司 输入方法、装置和机器可读介质
CN112487881A (zh) * 2020-11-13 2021-03-12 深圳市鹰硕教育服务有限公司 笔迹内容解析方法、装置及电子设备
CN112486337A (zh) * 2020-11-17 2021-03-12 深圳市鹰硕教育服务有限公司 笔迹图形分析方法、装置及电子设备
WO2022095245A1 (zh) * 2020-11-09 2022-05-12 深圳市鹰硕教育服务有限公司 基于云服务平台的智能笔数据处理方法、装置及电子设备

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007279842A (ja) * 2006-04-03 2007-10-25 Canon Inc 電子カルテシステム及びデータ処理装置並びにその方法
JP4906685B2 (ja) * 2007-11-14 2012-03-28 キヤノン株式会社 撮像装置、その制御方法及びプログラム
US8373724B2 (en) 2009-01-28 2013-02-12 Google Inc. Selective display of OCR'ed text and corresponding images from publications on a client device
US8442813B1 (en) 2009-02-05 2013-05-14 Google Inc. Methods and systems for assessing the quality of automatically generated text
US8416454B2 (en) * 2009-12-30 2013-04-09 Eastman Kodak Company Method for generating personalized documents
JP6131765B2 (ja) * 2013-08-06 2017-05-24 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN105320248B (zh) * 2014-06-03 2018-12-07 深圳Tcl新技术有限公司 空中手势输入方法及装置
WO2016157400A1 (ja) * 2015-03-31 2016-10-06 株式会社ワコム インクファイルの出力方法、出力装置、及びプログラム
JP2017215833A (ja) * 2016-06-01 2017-12-07 株式会社リコー 情報処理システム、情報処理方法、情報処理装置およびプログラム
US11048345B2 (en) * 2016-12-27 2021-06-29 Wacom Co., Ltd. Image processing device and image processing method
CN109271882B (zh) * 2018-08-28 2020-05-15 昆明理工大学 一种区分颜色的手写体汉字提取方法
CN115413335A (zh) * 2021-02-01 2022-11-29 京东方科技集团股份有限公司 手写体识别方法及装置、手写体识别系统和交互平板

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0565871A (ja) 1991-09-04 1993-03-19 Smc Corp アクチユエータ
JPH0594564A (ja) * 1991-10-01 1993-04-16 Toshiba Corp データ処理システム
US5315667A (en) 1991-10-31 1994-05-24 International Business Machines Corporation On-line handwriting recognition using a prototype confusability dialog
US5319721A (en) 1992-04-14 1994-06-07 International Business Machines Corporation Methods and apparatus for evolving a starter set of handwriting prototypes into a user-specific set
JPH0721128A (ja) * 1993-06-18 1995-01-24 Matsushita Electric Ind Co Ltd 電子機器
JPH0749924A (ja) 1993-08-06 1995-02-21 Nec Corp 手書き文字認識装置
JPH07168915A (ja) * 1993-12-16 1995-07-04 Matsushita Electric Ind Co Ltd 学習機能を備えたオンライン認識装置
JP3267064B2 (ja) * 1994-09-20 2002-03-18 株式会社日立製作所 パターン情報処理装置
DE69608035T2 (de) 1995-06-19 2000-09-28 Canon Kk Gerät und Verfahren zur Zeichenerkennung
JP3792755B2 (ja) 1995-08-29 2006-07-05 キヤノン株式会社 文字認識方法及び装置
JPH11143992A (ja) * 1997-11-07 1999-05-28 Hitachi Ltd 情報処理装置
JP2000348141A (ja) * 1999-06-08 2000-12-15 Toshiba Corp 入力情報の予測方法と装置、ならびにプログラム記憶媒体
JP2002074262A (ja) * 2000-08-28 2002-03-15 Nippon Digital Kenkyusho:Kk 認識文字修正方法
CN1204525C (zh) * 2001-07-31 2005-06-01 理想科学工业株式会社 手写文字的全副字模的制作装置和制作方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140564B (zh) * 2006-09-05 2010-12-15 太瀚科技股份有限公司 书写造字的系统与方法
CN104054046A (zh) * 2013-01-08 2014-09-17 冯林 一种基于触控板的写字板和教学系统
CN109992124A (zh) * 2018-01-02 2019-07-09 北京搜狗科技发展有限公司 输入方法、装置和机器可读介质
WO2022095245A1 (zh) * 2020-11-09 2022-05-12 深圳市鹰硕教育服务有限公司 基于云服务平台的智能笔数据处理方法、装置及电子设备
CN112487881A (zh) * 2020-11-13 2021-03-12 深圳市鹰硕教育服务有限公司 笔迹内容解析方法、装置及电子设备
WO2022099869A1 (zh) * 2020-11-13 2022-05-19 深圳市鹰硕教育服务有限公司 笔迹内容解析方法、装置及电子设备
CN112487881B (zh) * 2020-11-13 2024-03-29 深圳市鹰硕技术有限公司 笔迹内容解析方法、装置及电子设备
CN112486337A (zh) * 2020-11-17 2021-03-12 深圳市鹰硕教育服务有限公司 笔迹图形分析方法、装置及电子设备
CN112486337B (zh) * 2020-11-17 2023-11-24 深圳市鹰硕技术有限公司 笔迹图形分析方法、装置及电子设备

Also Published As

Publication number Publication date
EP1617351A2 (en) 2006-01-18
EP1617351A3 (en) 2008-12-31
US7565013B2 (en) 2009-07-21
CN100370476C (zh) 2008-02-20
US20060013484A1 (en) 2006-01-19
JP2006031299A (ja) 2006-02-02

Similar Documents

Publication Publication Date Title
CN1722154A (zh) 文字识别方法、数据修正历史处理方法和文字识别系统
CN1317626C (zh) 手写输入装置和手写输入方法系统
CN1320506C (zh) 通用计算装置
CN1218274C (zh) 在线手写文字模式识别编辑装置及方法
CN1286055C (zh) 面孔核对装置和生命体信息核对装置
KR100942122B1 (ko) 고속 이미지 매치를 이용한 로컬 위치 결정
CN104268814A (zh) 生成电子病历的方法和装置
US20070286486A1 (en) System and method for automated reading of handwriting
US20100171993A1 (en) Document Information Acquisition and Notification of Duplicate Document Storage
CN1517904A (zh) 墨水划分器及关联的应用编程接口
CN1573803A (zh) 通过检查与笔的移动关联的参数检测停留动作
JP2007079943A (ja) 文字読取プログラム、文字読取方法および文字読取装置
CN1589426A (zh) 电子笔以及用于记录手写信息的方法
CN106898173A (zh) 学生作业在线实时审阅系统
CN1499443A (zh) 被动嵌入的交互编码
US8145997B2 (en) Method for simultaneously performing a plurality of handwritten searches
JP4660537B2 (ja) 情報管理システム及び書類情報管理方法
CN1158146C (zh) 利用记录所得的地址记录更新地址数据库的设备和方法
CN1120690A (zh) 文字输入设备
JP4807400B2 (ja) 手書き入力装置、プログラムおよび手書き入力方法システム
CN1429450A (zh) 印页识别和数字化图像处理的方法和系统
CN1107280C (zh) 中英文表单的识别系统及识别方法
CN114611618A (zh) 一种面向跨模态检索的数据采集处理方法及系统
CN1577382A (zh) 文档交接系统以及文档交接方法
CN113011412A (zh) 基于笔顺及ocr文字识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080220

Termination date: 20120715