CN100369046C - 文档处理装置和文档处理方法 - Google Patents
文档处理装置和文档处理方法 Download PDFInfo
- Publication number
- CN100369046C CN100369046C CNB200510055415XA CN200510055415A CN100369046C CN 100369046 C CN100369046 C CN 100369046C CN B200510055415X A CNB200510055415X A CN B200510055415XA CN 200510055415 A CN200510055415 A CN 200510055415A CN 100369046 C CN100369046 C CN 100369046C
- Authority
- CN
- China
- Prior art keywords
- document
- word
- document processing
- character
- shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2504—Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
文档处理装置和文档处理方法。本发明所提供的文档处理装置包括:一普通特征向量存储器,用于存储多个字符中的每个字符的形状的特征向量;一输入单元,用于光学读入一个文档;一提取单元,用于根据输入单元读入的文档中的字符的形状提取特征向量;一普通形状识别单元,用于根据由提取单元提取的特征向量和存储在普通特征向量存储器中的内容估计其形状的特征向量由所述提取单元提取的字符;和一特殊特征向量存储器,用于与所述普通形状识别单元的估计结果相关联地存储由提取单元提取的特征向量。
Description
技术领域
本申请涉及一种提高识别通过光学读取文档获得的图像数据中的字符的识别精度的技术。
背景技术
用于识别通过光学读取文档获得的图像数据中的字符的技术的OCR(光学字符识别)被很普遍地使用。已经在OCR领域提出了各种技术来提高字符识别的精度。
已知提供有一种根据用户的修正操作更新识别字典(dictionary)来提高识别精度的技术。利用这种技术,不能被识别或被不正确识别的字符通过用户进行的修正操作来进行纠正,从而登记在用于修正字符的特征向量数据库中的字符形状的特征向量被更新,以在识别修正的字符时反映该字符形状的特征向量。
已知提供有一种通过在执行语法分析之后更新识别字典来提高识别精度的技术。根据这种技术,对识别结果进行语法分析,指定要修正成的、语法正确的字符,并更新识别字典以便能够不进行语法分析就能识别语法正确的字符。
已知提供有一种在借助语法分析来修正识别结果时使用字的出现频率进行修正而提高识别精度的技术。根据该技术,如果在对识别结果进行语法分析期间,识别结果的字符串中的多个字是可能的候选,那么根据识别结果中的各个字的出现频率来选择一个字。
在打印文档的OCR中,可以通过对字符识别使用特征向量数据库来增加识别精度,所述特征向量数据库适合于打印的字体。例如,在有限环境(例如公司或部门)中使用的字体数量是有限的,从而能够制备足以适用于打印的字体的特征向量数据库。如果使用了这种特征向量数据库,那么将会提高这种有限环境中的文档识别精度。
此外,在手写文档的OCR中,通过对字符识别使用适用于那些文档的作者的字符识别特征向量数据库则可能增加识别精度。例如,在上述有限环境中准备手写文档的人的数量是有限的,从而能够准备足以适用于那些文档的作者的特征向量数据库。如果使用了这样一种特征向量数据库,那么将会提高在这种有限环境下的文档识别精度。
此外,同上述技术一样,如果加入语法分析,那么就可通过执行适合于上述有限环境的语法分析来提高识别精度。例如,如果将在所述有限环境中使用的不常用字登记在语法分析字典中,那么就能够减少未知字(未登记字)的数量(所述未知字是降低语法分析的精度的原因),从而增加了识别精度。例如,也可通过在语法分析字典中登记在上述有限环境中所使用的各个字的使用频率,并根据这些使用频率进行语法分析来提高识别精度。
因此,能够针对被OCR的文档的特性进行识别处理来提高识别精度。然而,在这些情况中的任何一种情况下,需要在用于识别的字典中预先登记针对被OCR的文档的特性的信息。此外,为了获得足以适用于所述有限环境的字典,必须预先收集适合于在所述有限环境下被OCR的文档的特性的大量信息。迄今为止,还没有用于有效收集这种信息的技术。
发明内容
本发明就是鉴于上述情形做出的,并且提供了一种有效地收集在估计图像数据中的字符时可用于提高估计精度的数据的技术,所述图像数据是通过对有限环境中的文档进行光学读取获得的。
本发明提供一种文档处理装置,包括:一普通特征向量存储器,用于存储多个字符中的每一个字符的形状的特征向量;一输入单元,用于光学读入一文档;一提取单元,用于根据由输入单元读入的文档中的字符的形状提取特征向量;一普通形状识别单元,用于根据由提取单元提取的特征向量和存储在普通特征向量存储器中的内容来估计已由所述提取单元提取了形状的特征向量的字符;和一特殊特征向量存储器,用于与所述普通形状识别单元的估计结果相关联地存储由提取单元提取的特征向量,其中,所述特殊特征向量存储器只在所述普通形状识别单元获得的估计准确性等于或高于预定基准时,才存储普通形状识别单元的估计结果和由所述提取单元提取的特征向量。
本发明还提供一种文档处理装置,该装置包括:一普通字存储器,用于存储字;一输入单元,用于光学读入一个文档;一识别单元,用于根据所述输入单元读入的文档中的字符的形状估计构成该文档的字符串;一未知字检测单元,用于根据所述识别单元的估计结果提取未存储在普通字存储器中的字;和一特殊字存储器,用于存储由所述未知字检测单元提取的字,其中所述特殊字存储器只在所述识别单元获得的估计准确性等于或高于预定基准时,才存储由所述未知字检测单元提取的字。
本发明还提供一种文档处理方法,该方法包括:普通特征向量存储步骤,用于存储多个字符中的每个字符的形状的特征向量;输入步骤,用于光学读入一文档;提取步骤,用于根据所述输入步骤读入的文档中的字符的形状提取特征向量;一普通形状识别步骤,用于根据所述提取步骤提取的特征向量和在普通特征向量存储步骤中存储的内容来估计已由所述提取步骤提取了形状的特征向量的字符;和一特殊特征向量存储步骤,用于与所述普通形状识别步骤的估计结果相关联地存储由提取步骤提取的特征向量,其中,所述特殊特征向量存储步骤只在所述普通形状识别步骤获得的估计准确性等于或高于预定基准时,才存储普通形状识别步骤的估计结果和由所述提取步骤提取的特征向量。
本发明还提供一种文档处理方法,该方法包括:普通字存储步骤,用于存储字;输入步骤,用于光学读入一个文档;识别步骤,用于根据所述输入步骤读入的文档中的字符的形状估计构成该文档的字符串;未知字检测步骤,用于根据所述识别步骤的估计结果提取未存储在普通字存储器中的字;和特殊字存储步骤,用于存储由所述未知字检测步骤提取的字,其中,所述特殊字存储步骤只在所述识别步骤获得的估计准确性等于或高于预定基准时,才存储由所述未知字检测步骤提取的字。
利用这种文档处理装置,当光学读取一个文档并打印该文档时,根据所读取的文档中的字符的形状来提取特征向量,使用这些所提取的特征向量来估计字符,并将特征向量与这些字符相关联地存储。
附图说明
下面将根据附图详细说明本发明的实施例,其中:
图1为表示根据本发明一实施例的文档处理装置2的结构的方框图;
图2为表示输入到文档处理装置2的文档的一个例子的示意图;
图3为表示由文档处理装置2执行的登记处理的流程图;
图4为表示登记处理中的估计结果的例子的示图;
图5是表示所述登记处理的估计结果的准确性的例子的摘录的示意图;
图6为表示文档处理装置2中的特殊特征向量数据库D23的内容的例子的示意图;
图7为表示文档处理装置2中的特殊字字典D24的内容的一个示例的示意图;
图8为表示输入给文档处理装置2的文档的一个示例的示图;
图9为由文档处理装置2执行的OCR处理的流程图;
图10为表示OCR处理中间的估计结果的一个示例的示图;
图11是表示OCR处理中间的估计结果的准确性的例子的摘录的示意图;
图12是表示OCR处理中间的估计结果的准确性的例子的摘录的示意图;
图13为表示OCR处理中间的估计结果的一个例子的示图;
图14为表示OCR处理的最终估计结果的一个示例的示图。
具体实施方式
下面将参照附图说明根据本发明的实施例。
结构
图1为表示根据本发明一实施例的文档处理装置2的结构的方框图。
文档处理装置2被安装在一个公司中,被公司职员所共享,其具有:操作单元21,职员通过操作将指令输入到所述操作单元;扫描仪22,其中放置在文档处理装置2的文档保持架(未示出)上的文档被光学读取并作为图像数据输入;RAM 23,用于在其中临时存储图像数据;打印单元24,其根据存储在RAM 23中的图像数据,在纸上形成图像并从文档处理装置2弹出所述纸张作为文档;非易失性存储器25,用于在其中存储数据;通信单元26,其通过通信路径(未示出)与图中未示出的外部装置交换数据;和用于控制各个单元的CPU 27。
非易失性存储器25可在电源(图中未示出)未提供电力的情况下保存数据,并存储CPU 27控制每个单元时所使用的控制程序P21;用于使文档处理装置2执行如下所述的复制和登记处理的复制和登记程序P22;用于使文档处理装置2执行如下所述的OCR处理的OCR执行程序P23;用于OCR的普通特征向量数据库D21;和用于OCR的普通字字典D22。在所述普通特征向量数据库D21中,使普通文档中使用的所有字符和这些字符形状的特征向量相关联。在普通字字典D22中,在普通文档中使用的字被登记。
非易失性存储器25还存储一特殊特征向量数据库D23和特殊字字典D24。在所述特殊特征向量数据库D23中,在上述公司中所复制的文档内出现的字符与字符形状的特征向量相关联。在特殊字字典D24中,对于未知字,使字符串和出现频率相关联并将其登记,这些未知字是在上述公司中复制的文档内出现的但未被登记在普通字字典D22中的字。字的出现频率为字在输入给文档处理装置2的文档中出现的次数。注意,在其初始状态下所述特殊特征向量数据库D23和特殊字字典D24中什么都没登记。
当被电源(图中未示出)提供了电力时,CPU 27从非易失性存储器25中读取控制程序P21并执行它。这使得CPU 27能够控制文档处理装置2的各个单元。当使用操作单元21输入复制指令时,CPU 27从非易失性存储器25读取复制和登记程序P22并执行它。利用该程序,文档处理装置2执行复制和登记处理。当在上面的状态下使用操作单元21将OCR处理指令输入到CPU 27中时,CPU 27从非易失性存储器25读取OCR执行程序P23并执行它。由此,文档处理装置2执行OCR处理。将与文档处理装置2的操作相结合地说明这些处理。当CPU 27处于这样的状态并通过通信单元26接收预定的请求时,CPU从非易失性存储器25中的预定区域读取OCR处理的结果并将它们发送给发出请求的地方。
操作
下面说明具有上述构成的文档处理装置2的操作。
首先,职员No.1在文档保持架上放置一表示图2的日语文档。日语单词“本願”(Hongan)和“本题”(hondai)为在普通字字典D22中未登记的仅在文档中出现的单词。这些单词中的每一个都在所述文档中出现两次。此外,在所述文档顶部(首先被读取的部分)的字符要大于在其它部分中出现的字符。
接着,所述职员使用操作单元21输入一复制指令。由此,CPU 27执行复制和登记处理。
在复制和登记处理中,CPU 27通过扫描仪22光学读取设置在文档保持架上的文档,作为图像数据输入,将该图像数据写入RAM 23,并使用打印单元24根据所述图像数据在纸上形成图像并从文档处理装置2弹出所述纸张。文档以这种方式被复制。
CPU 27与该复制并行地执行图3中所示的登记处理。
首先,使用普通特征向量数据库D21进行字符识别(步骤SC1)。具体地,存储在RAM 23中的图像数据被分割成单个的字符单元。对所有分割出的图像数据,进行从图像数据中提取字符形状的特征向量的处理,并将所提取的特征向量与存储在普通特征向量数据库D21中的特征向量进行比较并估计字符的处理。估计的准确性也被计算。以这种方式,对于图2中所示的文档就获得了图4中所示的估计结果和图5中所示的准确性。从附图可以清楚地看出,对于较大字符的估计结果的准确性是相对较高的。
接着,准确性足够高的估计结果(字符)与在估计期间提取的特征向量相关联并登记在特殊特征向量数据库D23中(步骤SC2)。确定准确性是否足够高是通过这样的过程实现的:即将估计结果(字符)的准确性与一预定基准登记准确性(对于文档处理装置2为95%)进行比较并确定所获得的估计结果的准确性是否等于或高于所述基准登记准确性。从所述说明可以清楚地看出,例如“本”(hon)被登记了四次。然而,在第一次登记“本”(hon)之后的登记中,只将特征向量写入到非易失性存储器25中。以这种方式,如图6所示,字符“(”、“1”、“)”、“本”(hon)、“願”(gan)、“で”(de)、“の”(no)、和“题”(dai)与它们的特征向量相关联地登记在特殊特征向量数据库D23中。
接着,对估计结果中的字符串进行形态分析(morphologicalanalysis)(步骤SC3)。其将估计结果中的字符串分割成字。接着,使用普通字字典D22从所述形态分析获得的字中提取未知字,准确性足够高的未知字的字符串被登记在特殊字字典D24中,并终止登记处理。
确定一个字是否为准确性足够高的未知字是通过确定构成所述未知字的所有字符的估计结果的准确性是否都等于或高于基准登记准确性来实现的。例如,在图2中的文档的末尾部分出现的“本願”(Hongan)和在开始部分出现的“本願”(Hongan)和“本题”(hondai)被确定是准确性足够高的未知字,同时在末尾部分出现的“本题”(hondai)未被确定为是准确性足够高的未知字。
登记到特殊字字典D24的操作取决于将被登记的字符串是否已被登记在特殊字字典D24中。如果将被登记的字符串未被登记在特殊字字典D24中,那么CPU 27将所述字符串与出现频率“1”相关联并将它登记在特殊字字典D24中。如果已经被登记,则将与该字符串相关联并被登记在特殊字字典D24中的出现频率加1。如图7所示,作为这种登记方式的结果,字符串“本願”(Hongan)和出现频率“2”相关地登记在特殊字字典D24中,字符串“本题”(hondai)和出现频率“1”相关地登记在特殊字字典D24中。
接着,职员No.2在文档保持架上放置一如图8中所示的日语文档。在该文档中,“(1)hongan”出现在开始部分中,而“本願”(Hongan)和“本题では”(hondai de wa)出现在末尾部分中。然后,该职员使用操作单元21输入一OCR指令。接着,CPU 27就执行OCR处理。
在OCR处理中,CPU 27通过扫描仪22光学读取设置在文档保持架中的文档作为图像数据输入并将该图像数据写入到RAM 23(步骤SD1)。接着,使用普通特征向量数据库D21对该图像数据进行字符识别(步骤SD2)。所述字符识别的内容与图3的步骤SC1中的相同。因此对图8所示的文档获得了如图10中所示的估计结果和如图11中的摘录所示的准确性。从附图可以清楚地看出,在该阶段发生了错误估计。更具体地说,所述文档中的“1”的估计结果是“I”,字符“願”(gan)的估计结果是字符“题”(dai)或“頸”(kei)。
接着,执行这样一个处理,其中如果估计结果中的每个字符的估计准确性足够高,则当前的估计结果(使用普通特征向量的估计结果)就被采用,但如果所述估计准确性不是足够高,则利用特殊特征向量数据库D23进行字符识别;并且进一步如果这种字符识别的估计结果的准确性高于使用普通特征向量数据库D21的估计结果的准确性,那么就使用利用特殊特征向量数据库D23的估计结果,但如果并未高于使用普通特征向量数据库D21的估计结果的准确性,则使用利用普通特征向量数据库D21的估计结果(步骤SD3-SD9)。
确定估计准确性是否足够高是通过将使用普通特征向量数据库D21的估计准确性与一预定的基准确认准确性(对于文档处理装置2为90%)相比较并确定所获得的估计结果的准确性是否等于或高于基准确认准确性来实现的。例如,在图11中只有三个字符“本”(hon)的估计准确性足够高。对于这三个字符“本”(hon)之外的其它字符进行使用特殊特征向量数据库D23的字符识别。估计结果和以这种方式获得的准确性如图12中的摘录所示。
图12中的“(”、“1”、“)”、第一个“願”(gan)、第二个“願”(gan)和“题”(dai)分别对应于图11中的“(”、“I”、“)”、第一个“题”(dai)、第二个“题”(dai)和“頸”(kei)。在该对应关系中,对于图12中的“1”、第一个“願”(gan)、第二个“願”(gan)来说,图12中的准确性高于图11中的准确性。因此,所采用的估计结果如图13所示。从附图可以清楚地看出,在此阶段只有一个错误估计(“頸”(kei))出现。
接着,对所采用的估计结果中的字符串进行形态分析(步骤SD10)。然后,使用形态分析的结果利用语法分析来获得最终的估计结果(步骤SD11)。接着,将最终估计结果写入非易失性存储器25中的预定区域(步骤SD12)并终止OCR处理。下面说明在步骤SD11中进行的语法分析。
CPU 27在语法分析中使用普通字字典D22和特殊字字典D24。如图7所示,“本願”(Hongan)和“本题”(hondai)被登记在特殊字字典D24中,所以CPU 27不需要将这些字符串处理为未知字。在该分析中,CPU 27在估计结果中找出导致语法错误的字,检查找出的字是否为可靠字,如果它们不是,那么就确定是否存在不会产生语法错误的字作为所述字的替代选项,如果这样的字存在,那么就从替代选项中选择最佳字,并使用它们来替代导致语法错误的字。
图13中的“本頸”(honkei)是语法错误的一个例子。在该情况下,CPU 27将“本頸”(honkei)检测为产生语法错误的词。“本頸”(honkei)中的“本”(hon)的准确性等于或高于基准确认准确性,但“頸”(kei)的准确性低于基准确认准确性。因此,因为“本頸”(honkei)包括有问题的字符,所以它不是可靠字。此外,虽然在所述说明中没有包括,但当“頸”(kei)变成估计结果时,其在使用特殊特征向量数据库D23进行的字符识别之后的准确性为31%,而“願”(gan)的准确性为29%。这些准确性都等于或高于预定的基准替代准确性(对于文档处理装置2来说为25%),并且因为“本願”(Hongan)和“本题”(hondai)都不会产生语法错误,所以“本願”(Hongan)和“本题”(hondai)作为替代选项存在。这些替代选项中只能有一项被选择,并且选择的标准是每个选项的准确性和出现频率。如上所述,在每项的准确性之间不存在大的差别,但如图7所示,在出现频率之间存在大的差别(两倍)。因此,具有较高出现频率的“本願”(Hongan)被选择,并被替代“本頸”(honkei)使用。因此,最终的估计结果如图14所示。
在OCR处理之后,职员No.2使用能够与文档处理装置2进行通信的计算机来向文档处理装置2发送预定的请求。由CPU 27通过通信单元26来获得该请求。相应地,CPU 27从非易失性存储器25的预定区域读取最终的估计结果并将它们发送给发出请求的计算机。以这种方式,OCR处理的结果就被传送给职员No.2。
结论
如上所述,用户仅通过使文档处理装置2进行光学读取和打印文档就能将数据存储在文档处理装置2中,所述文档处理装置2用于在估计通过光学读取一公司中的文档获得的图像数据中的字符时提高估计准确性。另外,该存储是在用户没有感知它的情况下进行的。此外,因为文档处理装置2由职员共享,所以能够有效地进行数据积累。
用户通过使文档处理装置2使用积累的数据执行OCR处理就可获得具有足够高精度的识别结果。
此外,只在字符和/或字符串是以足够高的准确性估计的时候,文档处理装置2才积累上述数据。因此,能够无错误地避免积累不正确的数据以及识别精度降低。
上面的实施例也可如下所述地变化。
例如,可在OCR处理中不使用特殊特征向量数据库D23,还可不使用特殊字字典D24。还可不在特殊字字典D24中登记出现频率,而且也可将在OCR处理中登记在特殊字字典D24中的字符串处理为未知字。
还可响应来自其它装置的请求将特殊特征向量数据库D23和特殊字字典D24发送给该装置。
当然,也能够将本发明应用于在任何文档中进行的字符识别,包括日语之外的自然语言书写的文档和计算机程序表。
如上所述,本发明提供了一种文档处理装置,包括:一普通特征向量存储器,用于存储多个字符中的每个字符的形状的特征向量;一输入单元,用于光学读入一个文档;一提取单元,用于根据由输入单元读入的文档中的字符的形状提取特征向量;一普通形状识别单元,用于根据由提取单元提取的特征向量和存储在普通特征向量存储器中的内容来估计其形状的特征向量已由所述提取单元提取的字符;和一特殊特征向量存储器,用于与所述普通形状识别单元的估计结果相关联地存储由提取单元提取的特征向量。
按照该文档处理装置,当光学读取一个文档并打印该文档时,根据所读取文档中的字符的形状来提取特征向量,使用这些提取的特征向量来估计字符,并将特征向量与这些字符相关联地存储。
此外,本发明提供了一种文档处理装置,包括:一普通字存储器,用于存储字;一输入单元,用于光学读入一个文档;一识别单元,用于根据由所述输入单元读入的文档中的字符的形状来估计构成该文档的字符串;一未知字检测单元,用于根据所述识别单元的估计结果提取未存储在所述普通字存储器中的字;和一特殊字存储器,用于存储由所述未知字检测单元提取的字。
根据该文档处理装置,当光学读取一个文档并打印该文档时,根据所读取的文档中的字符的形状估计构成所述文档的字符,并根据该估计结果提取未存储在普通字存储单元中的字并将其存储在特定字存储单元中。
此外,本发明提供一种文档处理装置,包括:一频率存储器,用于存储多个字中的每一个字的出现频率;一输入单元,用于光学读入一个文档;一识别单元,用于根据由所述输入单元读入的文档中的字符的形状估计构成该文档的字符串;和一更新单元,用于根据识别单元的估计结果更新存储在频率存储器中的频率。
根据该文档处理装置,当光学读取一个文档并打印该文档时,根据所读取的文档中的字符的形状估计所述文档的字符,并根据该估计结果更新存储在频率存储单元中的字的出现频率。
上述文档处理装置仅通过使该文档处理装置读入和打印文档就能够进行数据收集,所述数据用于在估计通过光学读取一有限环境内的文档获得的图像数据中的字符时提高估计准确性,所述有限环境例如设置有该文档处理装置的公司或部门。此外,用这些文档处理装置光学读入和打印文档的用户越多,执行数据收集的效率越高。
此外,本发明提供了一种由预定用户共享的文档处理装置执行的文档处理方法,其包括:接收文档和指令,根据接收的指令对接收的文档进行处理,并输出处理过的文档,同时对所接收的文档上的字符进行识别,并获得和存储反映字符识别准确性的信息;以及接收文档并根据存储的信息对所接收的文档上的字符进行识别。
该文档处理方法仅通过使该文档处理装置读入和打印文档就能够进行数据收集,所述数据用于在估计通过光学读取一有限环境内的文档获得的图像数据中的字符时提高估计的准确性,所述有限环境例如设置有该文档处理装置的公司或部门。此外,用这些文档处理装置光学读入和打印文档的用户越多,执行数据收集的效率越高。另外,所收集的数据用于在执行步骤中进行字符识别,从而能够以足够高的精度识别字符。
为了解释和说明的目的,前面已经给出了本发明的实施例的说明。但其并不是穷举性的,也不旨在将本发明限制于所公开的确切形式。很明显,许多修改和变化对于本领域技术人员将是显而易见的。所述各实施例被选择说明以最好地解释本发明的原理及其实际应用,以便由此能够使本领域技术人员理解本发明的各个实施例及其各种修改,以适合于特定的预期应用。本发明的范围由下述的权利要求及其等价内容定义。
本申请要求于2004年5月25日提交的日本专利申请第2004-154970号的优先权,其全部内容通过引用而被并入本文中。
Claims (9)
1.一种文档处理装置,该装置包括:
一普通特征向量存储器,用于存储多个字符中的每个字符的形状的特征向量;
一输入单元,用于光学读入一文档;
一提取单元,用于根据所述输入单元读入的文档中的字符的形状提取特征向量;
一普通形状识别单元,用于根据所述提取单元提取的特征向量和存储在普通特征向量存储器中的内容来估计已由所述提取单元提取了所述形状的特征向量的字符;和
一特殊特征向量存储器,用于与所述普通形状识别单元的估计结果相关联地存储由提取单元提取的特征向量,
其中,所述特殊特征向量存储器只在所述普通形状识别单元获得的估计准确性等于或高于预定基准时,才存储普通形状识别单元的估计结果和由所述提取单元提取的特征向量。
2.根据权利要求1所述的文档处理装置,进一步包括:
一特殊形状识别单元,用于根据由提取单元提取的特征向量和存储在特殊特征向量存储器中的内容来估计已由所述提取单元提取了形状的特征向量的特殊字符;和
一形状识别存储器,如果由普通形状识别单元获得的估计准确性低于所述预定基准并且由特殊形状识别单元获得的估计准确性比普通形状识别单元获得的估计准确性高,则存储特殊形状识别单元的估计结果,否则存储普通形状识别单元的估计结果。
3.根据权利要求1所述的文档处理装置,还包括一能由用户进行操作的操作单元;
其中当使用操作单元输入一预定指令时,所述输入单元光学读取所述文档。
4.一种文档处理装置,该装置包括:
一普通字存储器,用于存储字;
一输入单元,用于光学读入一个文档;
一识别单元,用于根据所述输入单元读入的文档中的字符的形状估计构成该文档的字符串;
一未知字检测单元,用于根据所述识别单元的估计结果提取未存储在普通字存储器中的字;和
一特殊字存储器,用于存储由所述未知字检测单元提取的字,
其中所述特殊字存储器只在所述识别单元获得的估计准确性等于或高于预定基准时,才存储由所述未知字检测单元提取的字。
5.根据权利要求4所述的文档处理装置,还包括一字识别存储器,用于存储所述识别单元的估计结果;
其中所述识别单元包括:
一形状识别单元,用于根据输入单元读入的文档中的字符的形状来估计这些字符;和
一字分析单元,用于根据存储在普通字存储器中的内容和存储在特殊字存储器中的内容,对由形状识别单元的估计结果形成的字符串进行语法分析,以修正所述字符串并将修正后的字符串作为估计结果。
6.根据权利要求4所述的文档处理装置,还包括:
一频率存储器,用于存储多个字中的每个字的出现频率;和
一更新单元,用于根据所述识别单元的估计结果更新存储在频率存储器中的频率。
7.根据权利要求6所述的文档处理装置,还包括一频率识别存储器,用于存储识别单元的估计结果;
其中所述识别单元包括:
一形状识别单元,用于根据由输入单元读入的文档中的字符的形状估计这些字符;和
一字频率单元,用于根据存储在频率存储器中的内容对由形状识别单元的估计结果形成的字符串进行语法分析,以修正所述字符串并将修正后的字符串作为估计结果。
8.一种文档处理方法,该方法包括:
普通特征向量存储步骤,用于存储多个字符中的每个字符的形状的特征向量;
输入步骤,用于光学读入一文档;
提取步骤,用于根据所述输入步骤读入的文档中的字符的形状提取特征向量;
一普通形状识别步骤,用于根据所述提取步骤提取的特征向量和在普通特征向量存储步骤中存储的内容来估计已由所述提取步骤提取了所述形状的特征向量的字符;和
一特殊特征向量存储步骤,用于与所述普通形状识别步骤的估计结果相关联地存储由提取步骤提取的特征向量,
其中,所述特殊特征向量存储步骤只在所述普通形状识别步骤获得的估计准确性等于或高于预定基准时,才存储普通形状识别步骤的估计结果和由所述提取步骤提取的特征向量。
9.一种文档处理方法,该方法包括:
普通字存储步骤,用于存储字;
输入步骤,用于光学读入一个文档;
识别步骤,用于根据所述输入步骤读入的文档中的字符的形状估计构成该文档的字符串;
未知字检测步骤,用于根据所述识别步骤的估计结果提取未存储在普通字存储器中的字;和
特殊字存储步骤,用于存储由所述未知字检测步骤提取的字,
其中,所述特殊字存储步骤只在所述识别步骤获得的估计准确性等于或高于预定基准时,才存储由所述未知字检测步骤提取的字。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004154970 | 2004-05-25 | ||
JP2004154970A JP2005339039A (ja) | 2004-05-25 | 2004-05-25 | 文書処理装置および文書処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1702682A CN1702682A (zh) | 2005-11-30 |
CN100369046C true CN100369046C (zh) | 2008-02-13 |
Family
ID=35425316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB200510055415XA Expired - Fee Related CN100369046C (zh) | 2004-05-25 | 2005-03-17 | 文档处理装置和文档处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7680331B2 (zh) |
JP (1) | JP2005339039A (zh) |
CN (1) | CN100369046C (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009193356A (ja) * | 2008-02-14 | 2009-08-27 | Canon Inc | 画像処理装置、画像処理方法、プログラム、及び記憶媒体 |
JP5528121B2 (ja) * | 2010-01-05 | 2014-06-25 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
FR2959375B1 (fr) * | 2010-04-23 | 2012-11-16 | Smub France | Systeme informatique de partage et procede correspondant |
JP5741298B2 (ja) * | 2011-08-02 | 2015-07-01 | 大日本印刷株式会社 | 辞書作成装置、辞書作成方法、およびプログラム |
JP2022137634A (ja) * | 2021-03-09 | 2022-09-22 | キヤノン株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0944606A (ja) * | 1995-08-02 | 1997-02-14 | Oki Electric Ind Co Ltd | 文字認識処理方法 |
CN1167949A (zh) * | 1996-06-06 | 1997-12-17 | 富士通株式会社 | 利用部分特征空间上投影特征向量的模式识别装置和方法 |
CN1247348A (zh) * | 1998-07-27 | 2000-03-15 | 夏普株式会社 | 数据处理装置和包含有控制该数据处理装置程序的记录媒体 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59136875A (ja) * | 1983-01-26 | 1984-08-06 | Fuji Electric Co Ltd | パタ−ン識別装置 |
JPH02186484A (ja) | 1989-01-12 | 1990-07-20 | Ricoh Co Ltd | 認識辞書の学習方式 |
EP0553745A3 (en) * | 1992-01-30 | 1994-06-22 | Matsushita Electric Ind Co Ltd | Character recognition apparatus |
DE69328640T2 (de) * | 1992-02-07 | 2000-09-28 | Canon K.K., Tokio/Tokyo | Verfahren und Einrichtung zur Mustererkennung |
JP3350127B2 (ja) | 1993-03-12 | 2002-11-25 | 松下電器産業株式会社 | 文字認識装置 |
US5754671A (en) * | 1995-04-12 | 1998-05-19 | Lockheed Martin Corporation | Method for improving cursive address recognition in mail pieces using adaptive data base management |
US5982931A (en) * | 1995-06-07 | 1999-11-09 | Ishimaru; Mikio | Apparatus and method for the manipulation of image containing documents |
JP3761937B2 (ja) * | 1995-09-18 | 2006-03-29 | キヤノン株式会社 | パターン認識方法及び装置及びコンピュータ制御装置 |
JPH09223195A (ja) * | 1996-02-06 | 1997-08-26 | Hewlett Packard Co <Hp> | 文字認識方法 |
US7032174B2 (en) * | 2001-03-27 | 2006-04-18 | Microsoft Corporation | Automatically adding proper names to a database |
-
2004
- 2004-05-25 JP JP2004154970A patent/JP2005339039A/ja not_active Withdrawn
-
2005
- 2005-03-04 US US11/071,311 patent/US7680331B2/en not_active Expired - Fee Related
- 2005-03-17 CN CNB200510055415XA patent/CN100369046C/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0944606A (ja) * | 1995-08-02 | 1997-02-14 | Oki Electric Ind Co Ltd | 文字認識処理方法 |
CN1167949A (zh) * | 1996-06-06 | 1997-12-17 | 富士通株式会社 | 利用部分特征空间上投影特征向量的模式识别装置和方法 |
CN1247348A (zh) * | 1998-07-27 | 2000-03-15 | 夏普株式会社 | 数据处理装置和包含有控制该数据处理装置程序的记录媒体 |
Also Published As
Publication number | Publication date |
---|---|
US20050265602A1 (en) | 2005-12-01 |
US7680331B2 (en) | 2010-03-16 |
JP2005339039A (ja) | 2005-12-08 |
CN1702682A (zh) | 2005-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | Challenges in end-to-end neural scientific table recognition | |
US9910829B2 (en) | Automatic document separation | |
EP3454256A1 (en) | Method and device for verifying recognition result in character recognition | |
KR100487386B1 (ko) | 부수 모델에 기초한 초서체 한자 수기 주석의 검색법 | |
US20060285748A1 (en) | Document processing device | |
CN100369046C (zh) | 文档处理装置和文档处理方法 | |
Yousefi et al. | Binarization-free OCR for historical documents using LSTM networks | |
CN112307741B (zh) | 保险行业文档智能化解析方法和装置 | |
WO2012104583A1 (en) | System for data extraction and processing | |
EP2191396B1 (en) | An apparatus for preparing a display document for analysis | |
EP0239061B1 (en) | Optical character reader apparatus and optical character reading method | |
EP2138959A1 (en) | Word recognizing method and word recognizing program | |
US20050251743A1 (en) | Learning apparatus, program therefor and storage medium | |
CN113762160B (zh) | 一种日期提取方法、装置、计算机设备及存储介质 | |
Chazalon et al. | A Simple and Uniform Way to Introduce Complimentary Asynchronous Interaction Models in an Existing Document Analysis System | |
JP3435374B2 (ja) | 文字読取装置および文字認識方法 | |
CN104412277A (zh) | 比较两个含有图形元素和文本元素的文件的设备和方法 | |
CN110427613B (zh) | 一种近义词发现方法及其系统、计算机可读存储介质 | |
US20050213819A1 (en) | Form recognition system, method, program, and storage medium | |
CN116991983B (zh) | 一种面向公司资讯文本的事件抽取方法及系统 | |
JPH06223121A (ja) | 情報検索装置 | |
JPH113401A (ja) | 情報処理装置及びその方法 | |
CN113343689A (zh) | 用户标签匹配方法、装置、设备及存储介质 | |
JP2891368B2 (ja) | 文字認識結果の後処理方法 | |
JPH09179935A (ja) | 文字認識装置およびその制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080213 Termination date: 20170317 |