CN1702682A - 文档处理装置和文档处理方法 - Google Patents

文档处理装置和文档处理方法 Download PDF

Info

Publication number
CN1702682A
CN1702682A CNA200510055415XA CN200510055415A CN1702682A CN 1702682 A CN1702682 A CN 1702682A CN A200510055415X A CNA200510055415X A CN A200510055415XA CN 200510055415 A CN200510055415 A CN 200510055415A CN 1702682 A CN1702682 A CN 1702682A
Authority
CN
China
Prior art keywords
document
document processing
character
word
recognition unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200510055415XA
Other languages
English (en)
Other versions
CN100369046C (zh
Inventor
田代洁
田川昌俊
增市博
伊藤笃
石川恭辅
刘绍明
田宗道弘
佐藤直子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN1702682A publication Critical patent/CN1702682A/zh
Application granted granted Critical
Publication of CN100369046C publication Critical patent/CN100369046C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

文档处理装置和文档处理方法。本发明所提供的文档处理装置包括:一普通特征向量存储器,用于存储多个字符中的每个字符的形状的特征向量;一输入单元,用于光学读入一个文档;一提取单元,用于根据输入单元读入的文档中的字符的形状提取特征向量;一普通形状识别单元,用于根据由提取单元提取的特征向量和存储在普通特征向量存储器中的内容估计其形状的特征向量由所述提取单元提取的字符;和一特殊特征向量存储器,用于与所述普通形状识别单元的估计结果相关联地存储由提取单元提取的特征向量。

Description

文档处理装置和文档处理方法
技术领域
本申请涉及一种提高识别通过光学读取文档获得的图像数据中的字符的识别精度的技术。
背景技术
用于识别通过光学读取文档获得的图像数据中的字符的技术的OCR(光学字符识别)被很普遍地使用。已经在OCR领域提出了各种技术来提高字符识别的精度。
已知提供有一种根据用户的修正操作更新识别字典(dictionary)来提高识别精度的技术。利用这种技术,不能被识别或被不正确识别的字符通过用户进行的修正操作来进行纠正,从而登记在用于修正字符的特征向量数据库中的字符形状的特征向量被更新,以在识别修正的字符时反映该字符形状的特征向量。
已知提供有一种通过在执行语法分析之后更新识别字典来提高识别精度的技术。根据这种技术,对识别结果进行语法分析,指定要修正成的、语法正确的字符,并更新识别字典以便能够不进行语法分析就能识别语法正确的字符。
已知提供有一种在借助语法分析来修正识别结果时使用字的出现频率进行修正而提高识别精度的技术。根据该技术,如果在对识别结果进行语法分析期间,识别结果的字符串中的多个字是可能的候选,那么根据识别结果中的各个字的出现频率来选择一个字。
在打印文档的OCR中,可以通过对字符识别使用特征向量数据库来增加识别精度,所述特征向量数据库适合于打印的字体。例如,在有限环境(例如公司或部门)中使用的字体数量是有限的,从而能够制备足以适用于打印的字体的特征向量数据库。如果使用了这种特征向量数据库,那么将会提高这种有限环境中的文档识别精度。
此外,在手写文档的OCR中,通过对字符识别使用适用于那些文档的作者的字符识别特征向量数据库则可能增加识别精度。例如,在上述有限环境中准备手写文档的人的数量是有限的,从而能够准备足以适用于那些文档的作者的特征向量数据库。如果使用了这样一种特征向量数据库,那么将会提高在这种有限环境下的文档识别精度。
此外,同上述技术一样,如果加入语法分析,那么就可通过执行适合于上述有限环境的语法分析来提高识别精度。例如,如果将在所述有限环境中使用的不常用字登记在语法分析字典中,那么就能够减少未知字(未登记字)的数量(所述未知字是降低语法分析的精度的原因),从而增加了识别精度。例如,也可通过在语法分析字典中登记在上述有限环境中所使用的各个字的使用频率,并根据这些使用频率进行语法分析来提高识别精度。
因此,能够针对被OCR的文档的特性进行识别处理来提高识别精度。然而,在这些情况中的任何一种情况下,需要在用于识别的字典中预先登记针对被OCR的文档的特性的信息。此外,为了获得足以适用于所述有限环境的字典,必须预先收集适合于在所述有限环境下被OCR的文档的特性的大量信息。迄今为止,还没有用于有效收集这种信息的技术。
发明内容
本发明就是鉴于上述情形做出的,并且提供了一种有效地收集在估计图像数据中的字符时可用于提高估计精度的数据的技术,所述图像数据是通过对有限环境中的文档进行光学读取获得的。
本发明提供一种文档处理装置,包括:一普通特征向量存储器,用于存储多个字符中的每一个字符的形状的特征向量;一输入单元,用于光学读入一文档;一提取单元,用于根据由输入单元读入的文档中的字符的形状提取特征向量;一普通形状识别单元,用于根据由提取单元提取的特征向量和存储在普通特征向量存储器中的内容来估计其形状的特征向量已由所述提取单元提取的字符;和一特殊特征向量存储器,用于与所述普通形状识别单元的估计结果相关联地存储由提取单元提取的特征向量。
利用这种文档处理装置,当光学读取一个文档并打印该文档时,根据所读取的文档中的字符的形状来提取特征向量,使用这些所提取的特征向量来估计字符,并将特征向量与这些字符相关联地存储。
附图说明
下面将根据附图详细说明本发明的实施例,其中:
图1为表示根据本发明一实施例的文档处理装置2的结构的方框图;
图2为表示输入到文档处理装置2的文档的一个例子的示意图;
图3为表示由文档处理装置2执行的登记处理的流程图;
图4为表示登记处理中的估计结果的例子的示图;
图5是表示所述登记处理的估计结果的准确性的例子的摘录的示意图;
图6为表示文档处理装置2中的特殊特征向量数据库D23的内容的例子的示意图;
图7为表示文档处理装置2中的特殊字字典D24的内容的一个示例的示意图;
图8为表示输入给文档处理装置2的文档的一个示例的示图;
图9为由文档处理装置2执行的OCR处理的流程图;
图10为表示OCR处理中间的估计结果的一个示例的示图;
图11是表示OCR处理中间的估计结果的准确性的例子的摘录的示意图;
图12是表示OCR处理中间的估计结果的准确性的例子的摘录的示意图;
图13为表示OCR处理中间的估计结果的一个例子的示图;
图14为表示OCR处理的最终估计结果的一个示例的示图。
具体实施方式
下面将参照附图说明根据本发明的实施例。
结构
图1为表示根据本发明一实施例的文档处理装置2的结构的方框图。
文档处理装置2被安装在一个公司中,被公司职员所共享,其具有:操作单元21,职员通过操作将指令输入到所述操作单元;扫描仪22,其中放置在文档处理装置2的文档保持架(未示出)上的文档被光学读取并作为图像数据输入;RAM23,用于在其中临时存储图像数据;打印单元24,其根据存储在RAM23中的图像数据,在纸上形成图像并从文档处理装置2弹出所述纸张作为文档;非易失性存储器25,用于在其中存储数据;通信单元26,其通过通信路径(未示出)与图中未示出的外部装置交换数据;和用于控制各个单元的CPU27。
非易失性存储器25可在电源(图中未示出)未提供电力的情况下保存数据,并存储CPU27控制每个单元时所使用的控制程序P21;用于使文档处理装置2执行如下所述的复制和登记处理的复制和登记程序P22;用于使文档处理装置2执行如下所述的OCR处理的OCR执行程序P23;用于OCR的普通特征向量数据库D21;和用于OCR的普通字字典D22。在所述普通特征向量数据库D21中,使普通文档中使用的所有字符和这些字符形状的特征向量相关联。在普通字字典D22中,在普通文档中使用的字被登记。
非易失性存储器25还存储一特殊特征向量数据库D23和特殊字字典D24。在所述特殊特征向量数据库D23中,在上述公司中所复制的文档内出现的字符与字符形状的特征向量相关联。在特殊字字典D24中,对于未知字,使字符串和出现频率相关联并将其登记,这些未知字是在上述公司中复制的文档内出现的但未被登记在普通字字典D22中的字。字的出现频率为字在输入给文档处理装置2的文档中出现的次数。注意,在其初始状态下所述特殊特征向量数据库D23和特殊字字典D24中什么都没登记。
当被电源(图中未示出)提供了电力时,CPU27从非易失性存储器25中读取控制程序P21并执行它。这使得CPU27能够控制文档处理装置2的各个单元。当使用操作单元21输入复制指令时,CPU27从非易失性存储器25读取复制和登记程序P22并执行它。利用该程序,文档处理装置2执行复制和登记处理。当在上面的状态下使用操作单元21将OCR处理指令输入到CPU27中时,CPU27从非易失性存储器25读取OCR执行程序P23并执行它。由此,文档处理装置2执行OCR处理。将与文档处理装置2的操作相结合地说明这些处理。当CPU27处于这样的状态并通过通信单元26接收预定的请求时,CPU从非易失性存储器25中的预定区域读取OCR处理的结果并将它们发送给发出请求的地方。
操作
下面说明具有上述构成的文档处理装置2的操作。
首先,职员No.1在文档保持架上放置一表示图2的日语文档。日语单词“本願”(Hongan)和“本题”(hondai)为在普通字字典D22中未登记的仅在文档中出现的单词。这些单词中的每一个都在所述文档中出现两次。此外,在所述文档顶部(首先被读取的部分)的字符要大于在其它部分中出现的字符。
接着,所述职员使用操作单元21输入一复制指令。由此,CPU27执行复制和登记处理。
在复制和登记处理中,CPU27通过扫描仪22光学读取设置在文档保持架上的文档,作为图像数据输入,将该图像数据写入RAM23,并使用打印单元24根据所述图像数据在纸上形成图像并从文档处理装置2弹出所述纸张。文档以这种方式被复制。
CPU27与该复制并行地执行图3中所示的登记处理。
首先,使用普通特征向量数据库D21进行字符识别(步骤SC1)。具体地,存储在RAM23中的图像数据被分割成单个的字符单元。对所有分割出的图像数据,进行从图像数据中提取字符形状的特征向量的处理,并将所提取的特征向量与存储在普通特征向量数据库D21中的特征向量进行比较并估计字符的处理。估计的准确性也被计算。以这种方式,对于图2中所示的文档就获得了图4中所示的估计结果和图5中所示的准确性。从附图可以清楚地看出,对于较大字符的估计结果的准确性是相对较高的。
接着,准确性足够高的估计结果(字符)与在估计期间提取的特征向量相关联并登记在特殊特征向量数据库D23中(步骤SC2)。确定准确性是否足够高是通过这样的过程实现的:即将估计结果(字符)的准确性与一预定基准登记准确性(对于文档处理装置2为95%)进行比较并确定所获得的估计结果的准确性是否等于或高于所述基准登记准确性。从所述说明可以清楚地看出,例如“本”(hon)被登记了四次。然而,在第一次登记“本”(hon)之后的登记中,只将特征向量写入到非易失性存储器25中。以这种方式,如图6所示,字符“(”、“1”、“)”、“本”(hon)、“願”(gan)、“で”(de)、“の”(no)、和“题”(dai)与它们的特征向量相关联地登记在特殊特征向量数据库D23中。
接着,对估计结果中的字符串进行形态分析(morphologicalanalysis)(步骤SC3)。其将估计结果中的字符串分割成字。接着,使用普通字字典D22从所述形态分析获得的字中提取未知字,准确性足够高的未知字的字符串被登记在特殊字字典D24中,并终止登记处理。
确定一个字是否为准确性足够高的未知字是通过确定构成所述未知字的所有字符的估计结果的准确性是否都等于或高于基准登记准确性来实现的。例如,在图2中的文档的末尾部分出现的“本願”(Hongan)和在开始部分出现的“本願”(Hongan)和“本题”(hondai)被确定是准确性足够高的未知字,同时在末尾部分出现的“本题”(hondai)未被确定为是准确性足够高的未知字。
登记到特殊字字典D24的操作取决于将被登记的字符串是否已被登记在特殊字字典D24中。如果将被登记的字符串未被登记在特殊字字典D24中,那么CPU27将所述字符串与出现频率“1”相关联并将它登记在特殊字字典D24中。如果已经被登记,则将与该字符串相关联并被登记在特殊字字典D24中的出现频率加1。如图7所示,作为这种登记方式的结果,字符串“本願”(Hongan)和出现频率“2”相关地登记在特殊字字典D24中,字符串“本题”(hondai)和出现频率“1”相关地登记在特殊字字典D24中。
接着,职员No.2在文档保持架上放置一如图8中所示的日语文档。在该文档中,“(1)hongan”出现在开始部分中,而“本願”(Hongan)和“本题では”(hondai de wa)出现在末尾部分中。然后,该职员使用操作单元21输入一OCR指令。接着,CPU27就执行OCR处理。
在OCR处理中,CPU27通过扫描仪22光学读取设置在文档保持架中的文档作为图像数据输入并将该图像数据写入到RAM23(步骤SD1)。接着,使用普通特征向量数据库D21对该图像数据进行字符识别(步骤SD2)。所述字符识别的内容与图3的步骤SC1中的相同。因此对图8所示的文档获得了如图10中所示的估计结果和如图11中的摘录所示的准确性。从附图可以清楚地看出,在该阶段发生了错误估计。更具体地说,所述文档中的“1”的估计结果是“I”,字符“願”(gan)的估计结果是字符“题”(dai)或“頸”(kei)。
接着,执行这样一个处理,其中如果估计结果中的每个字符的估计准确性足够高,则当前的估计结果(使用普通特征向量的估计结果)就被采用,但如果所述估计准确性不是足够高,则利用特殊特征向量数据库D23进行字符识别;并且进一步如果这种字符识别的估计结果的准确性高于使用普通特征向量数据库D21的估计结果的准确性,那么就使用利用特殊特征向量数据库D23的估计结果,但如果并未高于使用普通特征向量数据库D21的估计结果的准确性,则使用利用普通特征向量数据库D21的估计结果(步骤SD3-SD9)。
确定估计准确性是否足够高是通过将使用普通特征向量数据库D21的估计准确性与一预定的基准确认准确性(对于文档处理装置2为90%)相比较并确定所获得的估计结果的准确性是否等于或高于基准确认准确性来实现的。例如,在图11中只有三个字符“本”(hon)的估计准确性足够高。对于这三个字符“本”(hon)之外的其它字符进行使用特殊特征向量数据库D23的字符识别。估计结果和以这种方式获得的准确性如图12中的摘录所示。
图12中的“(”、“1”、“)”、第一个“願”(gan)、第二个“願”(gan)和“题”(dai)分别对应于图11中的“(”、“I”、“)”、第一个“题”(dai)、第二个“题”(dai)和“頸”(kei)。在该对应关系中,对于图12中的“1”、第一个“願”(gan)、第二个“願”(gan)来说,图12中的准确性高于图11中的准确性。因此,所采用的估计结果如图13所示。从附图可以清楚地看出,在此阶段只有一个错误估计(“頸”(kei))出现。
接着,对所采用的估计结果中的字符串进行形态分析(步骤SD10)。然后,使用形态分析的结果利用语法分析来获得最终的估计结果(步骤SD11)。接着,将最终估计结果写入非易失性存储器25中的预定区域(步骤SD12)并终止OCR处理。下面说明在步骤SD11中进行的语法分析。
CPU27在语法分析中使用普通字字典D22和特殊字字典D24。如图7所示,“本願”(Hongan)和“本题”(hondai)被登记在特殊字字典D24中,所以CPU27不需要将这些字符串处理为未知字。在该分析中,CPU27在估计结果中找出导致语法错误的字,检查找出的字是否为可靠字,如果它们不是,那么就确定是否存在不会产生语法错误的字作为所述字的替代选项,如果这样的字存在,那么就从替代选项中选择最佳字,并使用它们来替代导致语法错误的字。
图13中的“本頸”(honkei)是语法错误的一个例子。在该情况下,CPU27将“本頸”(honkei)检测为产生语法错误的词。“本頸”(honkei)中的“本”(hon)的准确性等于或高于基准确认准确性,但“頸”(kei)的准确性低于基准确认准确性。因此,因为“本頸”(honkei)包括有问题的字符,所以它不是可靠字。此外,虽然在所述说明中没有包括,但当“頸”(kei)变成估计结果时,其在使用特殊特征向量数据库D23进行的字符识别之后的准确性为31%,而“願”(gan)的准确性为29%。这些准确性都等于或高于预定的基准替代准确性(对于文档处理装置2来说为25%),并且因为“本願”(Hongan)和“本题”(hondai)都不会产生语法错误,所以“本願”(Hongan)和“本题”(hondai)作为替代选项存在。这些替代选项中只能有一项被选择,并且选择的标准是每个选项的准确性和出现频率。如上所述,在每项的准确性之间不存在大的差别,但如图7所示,在出现频率之间存在大的差别(两倍)。因此,具有较高出现频率的“本願”(Hongan)被选择,并被替代“本頸”(honkei)使用。因此,最终的估计结果如图14所示。
在OCR处理之后,职员No.2使用能够与文档处理装置2进行通信的计算机来向文档处理装置2发送预定的请求。由CPU27通过通信单元26来获得该请求。相应地,CPU27从非易失性存储器25的预定区域读取最终的估计结果并将它们发送给发出请求的计算机。以这种方式,OCR处理的结果就被传送给职员No.2。
结论
如上所述,用户仅通过使文档处理装置2进行光学读取和打印文档就能将数据存储在文档处理装置2中,所述文档处理装置2用于在估计通过光学读取一公司中的文档获得的图像数据中的字符时提高估计准确性。另外,该存储是在用户没有感知它的情况下进行的。此外,因为文档处理装置2由职员共享,所以能够有效地进行数据积累。
用户通过使文档处理装置2使用积累的数据执行OCR处理就可获得具有足够高精度的识别结果。
此外,只在字符和/或字符串是以足够高的准确性估计的时候,文档处理装置2才积累上述数据。因此,能够无错误地避免积累不正确的数据以及识别精度降低。
上面的实施例也可如下所述地变化。
例如,可在OCR处理中不使用特殊特征向量数据库D23,还可不使用特殊字字典D24。还可不在特殊字字典D24中登记出现频率,而且也可将在OCR处理中登记在特殊字字典D24中的字符串处理为未知字。
还可响应来自其它装置的请求将特殊特征向量数据库D23和特殊字字典D24发送给该装置。
当然,也能够将本发明应用于在任何文档中进行的字符识别,包括日语之外的自然语言书写的文档和计算机程序表。
如上所述,本发明提供了一种文档处理装置,包括:一普通特征向量存储器,用于存储多个字符中的每个字符的形状的特征向量;一输入单元,用于光学读入一个文档;一提取单元,用于根据由输入单元读入的文档中的字符的形状提取特征向量;一普通形状识别单元,用于根据由提取单元提取的特征向量和存储在普通特征向量存储器中的内容来估计其形状的特征向量已由所述提取单元提取的字符;和一特殊特征向量存储器,用于与所述普通形状识别单元的估计结果相关联地存储由提取单元提取的特征向量。
按照该文档处理装置,当光学读取一个文档并打印该文档时,根据所读取文档中的字符的形状来提取特征向量,使用这些提取的特征向量来估计字符,并将特征向量与这些字符相关联地存储。
此外,本发明提供了一种文档处理装置,包括:一普通字存储器,用于存储字;一输入单元,用于光学读入一个文档;一识别单元,用于根据由所述输入单元读入的文档中的字符的形状来估计构成该文档的字符串;一未知字检测单元,用于根据所述识别单元的估计结果提取未存储在所述普通字存储器中的字;和一特殊字存储器,用于存储由所述未知字检测单元提取的字。
根据该文档处理装置,当光学读取一个文档并打印该文档时,根据所读取的文档中的字符的形状估计构成所述文档的字符,并根据该估计结果提取未存储在普通字存储单元中的字并将其存储在特定字存储单元中。
此外,本发明提供一种文档处理装置,包括:一频率存储器,用于存储多个字中的每一个字的出现频率;一输入单元,用于光学读入一个文档;一识别单元,用于根据由所述输入单元读入的文档中的字符的形状估计构成该文档的字符串;和一更新单元,用于根据识别单元的估计结果更新存储在频率存储器中的频率。
根据该文档处理装置,当光学读取一个文档并打印该文档时,根据所读取的文档中的字符的形状估计所述文档的字符,并根据该估计结果更新存储在频率存储单元中的字的出现频率。
上述文档处理装置仅通过使该文档处理装置读入和打印文档就能够进行数据收集,所述数据用于在估计通过光学读取一有限环境内的文档获得的图像数据中的字符时提高估计准确性,所述有限环境例如设置有该文档处理装置的公司或部门。此外,用这些文档处理装置光学读入和打印文档的用户越多,执行数据收集的效率越高。
此外,本发明提供了一种由预定用户共享的文档处理装置执行的文档处理方法,其包括:接收文档和指令,根据接收的指令对接收的文档进行处理,并输出处理过的文档,同时对所接收的文档上的字符进行识别,并获得和存储反映字符识别准确性的信息;以及接收文档并根据存储的信息对所接收的文档上的字符进行识别。
该文档处理方法仅通过使该文档处理装置读入和打印文档就能够进行数据收集,所述数据用于在估计通过光学读取一有限环境内的文档获得的图像数据中的字符时提高估计的准确性,所述有限环境例如设置有该文档处理装置的公司或部门。此外,用这些文档处理装置光学读入和打印文档的用户越多,执行数据收集的效率越高。另外,所收集的数据用于在执行步骤中进行字符识别,从而能够以足够高的精度识别字符。
为了解释和说明的目的,前面已经给出了本发明的实施例的说明。但其并不是穷举性的,也不旨在将本发明限制于所公开的确切形式。很明显,许多修改和变化对于本领域技术人员将是显而易见的。所述各实施例被选择说明以最好地解释本发明的原理及其实际应用,以便由此能够使本领域技术人员理解本发明的各个实施例及其各种修改,以适合于特定的预期应用。本发明的范围由下述的权利要求及其等价内容定义。
本申请要求于2004年5月25日提交的日本专利申请第2004-154970号的优先权,其全部内容通过引用而被并入本文中。

Claims (10)

1.一种文档处理装置,包括:
一普通特征向量存储器,用于存储多个字符中的每个字符的形状的特征向量;
一输入单元,用于光学读入一文档;
一提取单元,用于根据所述输入单元读入的文档中的字符的形状提取特征向量;
一普通形状识别单元,用于根据所述提取单元提取的特征向量和存储在普通特征向量存储器中的内容估计其形状的特征向量已由所述提取单元提取的字符;和
一特殊特征向量存储器,用于与所述普通形状识别单元的估计结果相关联地存储由提取单元提取的特征向量。
2.根据权利要求1所述的文档处理装置,
其中所述特殊特征向量存储器只在所述普通形状识别单元获得的估计准确性足够高时,才存储普通形状识别单元的估计结果和由所述提取单元提取的特征向量。
3.根据权利要求1所述的文档处理装置,进一步包括:
一特殊形状识别单元,用于根据由提取单元提取的特征向量和存储在特殊特征向量存储器中的内容估计其形状的特征向量已由所述提取单元进行提取了的特殊字符;和
一形状识别存储器,如果由普通形状识别单元获得的估计准确性不是足够高并且由特殊形状识别单元获得的估计准确性比普通形状识别单元获得的估计准确性高,则存储特殊形状识别单元的估计结果,否则存储普通形状识别单元的估计结果。
4.一种文档处理装置,包括:
一普通字存储器,用于存储字;
一输入单元,用于光学读入一个文档;
一识别单元,用于根据所述输入单元读入的文档中的字符的形状估计构成该文档的字符串;
一未知字检测单元,用于根据所述识别单元的估计结果提取未存储在普通字存储器中的字;和
一特殊字存储器,用于存储由所述未知字检测单元提取的字。
5.根据权利要求4所述的文档处理装置,其中所述特殊字存储器只在所述识别单元获得的估计准确性足够高时,才存储由所述未知字检测单元提取的字。
6.根据权利要求4所述的文档处理装置,还包括一字识别存储器,用于存储所述识别单元的估计结果;
其中所述识别单元包括:
一形状识别单元,用于根据输入单元读入的文档中的字符的形状来估计这些字符;和
一字分析单元,用于根据存储在普通字存储器中的内容和存储在特殊字存储器中的内容,对由形状识别单元的估计结果形成的字符串进行语法分析,以修正那些字符串并将修正后的字符串作为估计结果。
7.一种文档处理装置,包括:
一频率存储器,用于存储多个字中的每个字的出现频率;
一输入单元,用于光学读入一个文档;
一识别单元,用于根据所述输入单元读入的文档中的字符的形状估计构成该文档的字符串;和
一更新单元,用于根据所述识别单元的估计结果更新存储在频率存储器中的频率。
8.根据权利要求7所述的文档处理装置,还包括一频率识别存储器,用于存储识别单元的估计结果;
其中所述识别单元包括:
一形状识别单元,用于根据由输入单元读入的文档中的字符的形状估计这些字符;和
一字频率单元,用于根据存储在频率存储器中的内容对由形状识别单元的估计结果形成的字符串进行语法分析,以修正所述字符串并将修正后的字符串作为估计结果。
9.根据权利要求1所述的文档处理装置,还包括一能由用户进行操作的操作单元;
其中当使用操作单元输入一预定指令时,所述输入单元光学读取一文档。
10.一种由预定用户共享的文档处理装置执行的文档处理方法,包括:
接收文档和指令,根据接收的指令对接收的文档进行处理,并输出处理过的文档,同时对接收的文档上的字符进行识别,并获得和存储反映字符识别准确性的信息;和
接收文档并根据存储的信息对所接收的文档上的字符进行识别。
CNB200510055415XA 2004-05-25 2005-03-17 文档处理装置和文档处理方法 Expired - Fee Related CN100369046C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004154970A JP2005339039A (ja) 2004-05-25 2004-05-25 文書処理装置および文書処理方法
JP2004154970 2004-05-25

Publications (2)

Publication Number Publication Date
CN1702682A true CN1702682A (zh) 2005-11-30
CN100369046C CN100369046C (zh) 2008-02-13

Family

ID=35425316

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200510055415XA Expired - Fee Related CN100369046C (zh) 2004-05-25 2005-03-17 文档处理装置和文档处理方法

Country Status (3)

Country Link
US (1) US7680331B2 (zh)
JP (1) JP2005339039A (zh)
CN (1) CN100369046C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102131020A (zh) * 2010-01-05 2011-07-20 佳能株式会社 图像处理设备和图像处理方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193356A (ja) * 2008-02-14 2009-08-27 Canon Inc 画像処理装置、画像処理方法、プログラム、及び記憶媒体
FR2959375B1 (fr) * 2010-04-23 2012-11-16 Smub France Systeme informatique de partage et procede correspondant
JP5741298B2 (ja) * 2011-08-02 2015-07-01 大日本印刷株式会社 辞書作成装置、辞書作成方法、およびプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59136875A (ja) * 1983-01-26 1984-08-06 Fuji Electric Co Ltd パタ−ン識別装置
JPH02186484A (ja) 1989-01-12 1990-07-20 Ricoh Co Ltd 認識辞書の学習方式
EP0553745A3 (en) * 1992-01-30 1994-06-22 Matsushita Electric Ind Co Ltd Character recognition apparatus
DE69328640T2 (de) * 1992-02-07 2000-09-28 Canon Kk Verfahren und Einrichtung zur Mustererkennung
JP3350127B2 (ja) 1993-03-12 2002-11-25 松下電器産業株式会社 文字認識装置
US5754671A (en) * 1995-04-12 1998-05-19 Lockheed Martin Corporation Method for improving cursive address recognition in mail pieces using adaptive data base management
US5982931A (en) * 1995-06-07 1999-11-09 Ishimaru; Mikio Apparatus and method for the manipulation of image containing documents
JPH0944606A (ja) 1995-08-02 1997-02-14 Oki Electric Ind Co Ltd 文字認識処理方法
JP3761937B2 (ja) * 1995-09-18 2006-03-29 キヤノン株式会社 パターン認識方法及び装置及びコンピュータ制御装置
JPH09223195A (ja) * 1996-02-06 1997-08-26 Hewlett Packard Co <Hp> 文字認識方法
US5920644A (en) 1996-06-06 1999-07-06 Fujitsu Limited Apparatus and method of recognizing pattern through feature selection by projecting feature vector on partial eigenspace
JP2000048215A (ja) * 1998-07-27 2000-02-18 Sharp Corp データ処理装置及びその制御プログラムを記憶した媒体
US7032174B2 (en) * 2001-03-27 2006-04-18 Microsoft Corporation Automatically adding proper names to a database

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102131020A (zh) * 2010-01-05 2011-07-20 佳能株式会社 图像处理设备和图像处理方法
US8614838B2 (en) 2010-01-05 2013-12-24 Canon Kabushiki Kaisha Image processing apparatus and image processing method
CN102131020B (zh) * 2010-01-05 2014-08-06 佳能株式会社 图像处理设备和图像处理方法

Also Published As

Publication number Publication date
US7680331B2 (en) 2010-03-16
JP2005339039A (ja) 2005-12-08
CN100369046C (zh) 2008-02-13
US20050265602A1 (en) 2005-12-01

Similar Documents

Publication Publication Date Title
US9785830B2 (en) Methods for automatic structured extraction of data in OCR documents having tabular data
CN1159661C (zh) 用于中文的标记和命名实体识别的系统
JP2020095713A (ja) 対話型インタフェース及びデータベースクエリを用いた文書画像からの情報抽出の方法及びシステム
US9098581B2 (en) Method for finding text reading order in a document
US7310773B2 (en) Removal of extraneous text from electronic documents
CN1269069C (zh) 字符识别装置及方法
US20050259866A1 (en) Low resolution OCR for camera acquired documents
CN1193779A (zh) 中文语句分词方法及其在中文查错系统中的应用
CN1163841C (zh) 在线手写中文字识别装置
CN86105459A (zh) 输入处理系统
CN100390815C (zh) 模板优化的字符识别方法和系统
CN1492377A (zh) 表格处理系统及方法
CN1402160A (zh) 用缩减大小的索引进行文献检索
CN1838148A (zh) 电子设备和记录介质
CN103425975A (zh) 一种临床病例数据采集系统及采集方法
US20150235097A1 (en) Segmentation of an Input by Cut Point Classification
CN1141666C (zh) 利用标准笔划识别输入字符的在线字符识别系统
CN1916941A (zh) 一种字符识别的后处理方法
CN112085011A (zh) 一种ocr识别结果纠错方法、装置及存储介质
CN1771494A (zh) 包括无分隔符的块的文本的自动分块
CN1702682A (zh) 文档处理装置和文档处理方法
CN1121605A (zh) 信息处理方法和设备
CN116958996A (zh) Ocr信息提取方法、系统及设备
CN1696929A (zh) 学习装置、用于其的程序以及存储介质
Diesendruck et al. A framework to access handwritten information within large digitized paper collections

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080213

Termination date: 20170317