CN100351849C - 字符识别装置和字符识别方法 - Google Patents

字符识别装置和字符识别方法 Download PDF

Info

Publication number
CN100351849C
CN100351849C CNB2005100551946A CN200510055194A CN100351849C CN 100351849 C CN100351849 C CN 100351849C CN B2005100551946 A CNB2005100551946 A CN B2005100551946A CN 200510055194 A CN200510055194 A CN 200510055194A CN 100351849 C CN100351849 C CN 100351849C
Authority
CN
China
Prior art keywords
character
document
field
dictionary database
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100551946A
Other languages
English (en)
Other versions
CN1741034A (zh
Inventor
榊原正义
中村浩太郎
馆野昌一
田中圭
斋藤照花
小山俊哉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN1741034A publication Critical patent/CN1741034A/zh
Application granted granted Critical
Publication of CN100351849C publication Critical patent/CN100351849C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

字符识别装置和字符识别方法。字符识别装置包括:多个词典数据库,包含归类到各个领域中的术语或字符;确定单元,确定文档图像数据表示的文档的内容所属的领域;选择单元,从所述多个词典数据库中选择与确定单元确定的领域有关的词典数据库;识别单元,通过使用所选词典数据库中存储的术语或字符作为候选,对文档图像数据表示的文档中所写的术语或字符进行识别;以及输出单元,输出识别单元的识别结果。

Description

字符识别装置和字符识别方法
技术领域
本发明涉及用于识别从文档(document)读取的字符的技术。
背景技术
在称为OCR(光学字符阅读器)的字符识别技术中,预先把大量字符或术语的候选登记到词典数据库中。对登记在词典数据库中的字符(术语)与从文档光学读取的字符(术语)进行比较,以识别该文档中的字符(术语)。因此,识别准确度很大程度上取决于词典数据库是否包含合适的字符或术语。
已知为诸如日语和英语的多种语言提供了预先准备的词典数据库。然后,对由通过文档识别过程获得的多个字符组成的单词进行识别,从而选择前述词典数据库中的一个。如果所识别的单词被以预定值或高于该预定值的比率(相关率)登记在所选词典中,那么使用该词典继续进行识别过程。如果该比率降到预定值以下,那么再使用另一词典数据库执行前述处理。然而,该技术要求在词典查询之前的阶段中准确地识别字符并恰当地识别单词。此外,该技术旨在用于语言选择,因此无助于提高例如日语文档本身的识别准确度。
已知提供了另一种技术,其中以若干个字符为单位来分离光学读取的一系列字符串,以提取术语候选。然后,确定在各个术语候选中的多个字符的连接(linkage)是否与在词典数据库中登记的术语候选符中的一个相匹配。如果不匹配,那么以不同方式提取术语候选。然而,该技术要求预先准备构成术语候选的所有字符连接。因此数据库的容量变得极大。此外,逐字符地搜索所有连接使得处理极大地复杂化了,从而需要大量的处理时间。
发明内容
鉴于以上情况提出了本发明,本发明提供了一种用于以更高准确度识别文档中所写字符的新机制。
为解决上述问题,本发明提供了一种字符识别装置,其包括:多个词典数据库,包含归类到各个领域中的术语或字符;确定单元,确定文档图像数据表示的文档的内容所属的领域;选择单元,从所述多个词典数据库中选择与确定单元确定的领域有关的词典数据库;识别单元,通过使用所选词典数据库中存储的术语或字符作为候选,对由文档图像数据表示的文档中所写的术语或字符进行识别;以及输出单元,输出识别单元的识别结果。根据该字符识别装置,先确定文档内容所属的领域,然后再选择适合于该领域的领域特定术语词典数据库并将其用于字符识别。由此可期望改进识别准确度。
附图说明
下面根据附图对本发明的实施例进行详细描述,在这些附图中:
图1是示出根据第一实施例的字符识别装置的构成的框图;
图2是示出所述字符识别装置的操作的流程图;
图3是示出所述字符识别装置的操作的流程图;
图4是示出根据第二实施例的字符识别装置的构成的框图;
图5(a)到(e)是概念性地示出要存储到区块(section)格式数据库中的内容的图;
图6是示出所述字符识别装置的操作的流程图;以及
图7是示出所述字符识别装置的操作的流程图。
具体实施方式
下面对本发明的实施例进行描述。
(1)第一实施例
图1是示出根据第一实施例的字符识别装置10的构成的框图。该字符识别装置10可以通过嵌入扫描仪、复合机器(hybrid machine)等中的计算机来实现,或者可以通过用作与扫描仪或复合机器相连接的主机设备的计算机来实现。在该第一实施例中,准备了包含归类到各个领域中的术语或字符的多个领域特定术语词典数据库,以确定文档的内容属于哪个领域。然后,从所述多个领域特定术语词典数据库中选择与已确定的领域有关的领域特定术语词典数据库。通过使用存储在该领域特定术语词典数据库中的术语或字符作为候选来执行字符识别。例如,图1示出了领域特定术语词典数据库11a、11b以及11c。领域特定术语词典数据库11a包含在图像处理领域中频繁出现的术语或字符。领域特定术语词典数据库11b包含在摄影领域中频繁出现的术语或字符。领域特定术语词典数据库11c包含在政治领域中频繁出现的术语或字符。然而,除了这些领域,还可以为各种领域,如IT、计算机、法律、人名、地名以及公司名,准备合适的领域特定术语词典数据库。
格式数据库12按相互对应的方式包含用于描述文档格式的格式信息和文档内容所属领域的名称。更具体来说,该格式信息包括:指配给各个不同格式的文档(如定单和申请表)的格式标识符;和用于描述各个格式的特征(格式本身的形式和结构)的信息。字符识别装置10根据存储在该格式数据库12中的内容和文档图像数据的内容,确定文档的内容属于哪个领域。
存储区特定文档属性存储单元13包含在生成文档图像数据时指定为文档图像数据存储目的地的存储区与相应领域名称之间的对应关系。在当前流行的复合机器等中,可以把由扫描仪读取的图像存储到与从称为“信箱区(mailbox)”的菜单指定的编号对应的存储区中。能够从该“信箱区”指定的存储区就是上述的“在生成文档图像数据时指定为文档图像数据存储目的地的存储区”。在该“信箱区”中,例如,所指定的编号通常对于公司中的组织单元(部门、科室)或者对于用户各不相同。因此,被指配了相同编号的多个存储区通常包含相似领域的文档图像数据。例如,在应由公司的图像处理开发部使用的信箱区中,所存储的文档通常与图像处理有关。因此,把信箱区中的各存储区和要由全职使用这些存储区的用户或组织所在的领域相互对应地存储在存储区特定文档属性存储单元13中。这使得字符识别装置10仅通过参照为信箱区指定的编号就可以确定文档内容属于哪个领域。
标准字符特征量存储单元14包含关于每个单独字符的标准字形(character pattern)的特征量。字符识别装置10对存储在该标准字符特征量存储单元14中的特征量与从文档光学读取的字形的特征量进行对比,并依据它们之间的符合程度识别字符。
附带说明的是,多个领域包括相互关联度较高的多个领域和相互关联度较低的多个领域。例如,图像处理领域与摄影领域具有较高的相互关联度。图像处理领域与政治领域,或摄影领域与政治领域不具有多少相互关联性。在领域关联度存储单元15中存储有用于限定领域之间的这种关联度的信息。例如,假定把最大关联度表示为“1”。那么,存储在领域关联度存储单元15中的信息使得图像处理领域与摄影领域的关联度为“0.8”,而使得图像处理领域与政治领域及摄影领域与政治领域的关联度皆为“0.1”。
文档读取单元16例如是图像扫描仪装置。当启动字符识别处理时,该文档读取单元16利用光照射文档以光学读取文档上的图像,并生成文档图像数据。文档内容确定单元17通过使用稍后描述的几种方法来确定文档图像数据所示文档的内容属于哪个领域。术语词典选择单元18选择与所确定的领域有关的领域的领域特定术语词典数据库。这里,术语词典选择单元18不仅选择由文档内容确定单元17确定的领域的领域特定术语词典数据库,而且选择由领域关联度存储单元15限定成与该领域具有一定关联度或更高关联度的领域的领域特定术语词典数据库。
字符识别单元19通过参照标准字符特征量存储单元14中存储的特征量、从文档光学读取的字形的特征量以及所选的领域特定术语词典数据库,来识别该文档中的字符。输出单元20通过使用诸如屏面显示的预定方法来输出识别结果。
图2和3是示出字符识别装置10的操作的流程图。
在图2中,首先,文档读取单元16利用光照射文档以光学读取文档上的图像,并生成文档图像数据(步骤S11)。从文档读取单元16把该文档图像数据提供给文档内容确定单元17。文档内容确定单元17根据图3所示的流程图确定该文档属于哪个领域(步骤S12)。
在图3中,文档内容确定单元17参照存储在存储区特定文档属性存储单元13中的内容,并确定是否存在任何与包含所述文档图像数据的区域相关联的领域(步骤S21)。这里,如果存在相关联的任何领域(在步骤S21处为“是”),那么文档内容确定单元17把该领域识别为文档内容所属的领域(步骤S27)。
另一方面,如果不存在相关联的领域(在步骤S21处为“否”),那么文档内容确定单元17确定文档图像数据所表示的图像是否包含任何格式标识符(步骤S22)。例如,某些格式标识符写在文档角部。这里,如果在图像中检测到任何格式标识符(在步骤S22处为“是”),那么文档内容确定单元17参照存储在格式数据库12中的内容,来识别对应于该格式标识符的领域(步骤S27)。
另一方面,如果未检测到格式标识符(在步骤S22处为“否”),那么文档内容确定单元17对由文档图像数据所表示的文档的格式(形式和结构)进行分析(步骤S23)。然后,如果可以根据分析结果和存储在格式数据库12中的内容识别其领域(在步骤S24处为“是”),那么文档内容确定单元17识别出其领域(步骤S27)。
另一方面,如果无法根据格式识别其领域(在步骤S24处为“否”),那么文档内容确定单元17对由文档图像数据所表示的文档的一部分执行字符识别(步骤S25)。通过使用经由该识别处理获得的字符或术语作为搜索关键字,文档内容确定单元17对所有领域特定术语词典数据库11a、11b以及11c进行搜索(步骤S26)。如果在该搜索中找到包含匹配或相似的术语或字符的任何领域特定术语词典数据库,那么文档内容确定单元17识别出其领域(步骤S27)。
这里,可以通过如下几种方法来执行步骤S25处的字符识别处理。
某些文档既包含印刷体字符(typed character)又包含手写体字符。对于这些文档,识别印刷体字符的准确度相对较高。因此,文档内容确定单元17基于对印刷体字符的字符识别结果确定文档的领域。具体来说,文档内容确定单元17把文档图像数据所表示的文档的字符区域分成以印刷体字符写出的印刷体字符区域和以手写体字符写出的手写体字符区域。然后文档内容确定单元17对写在印刷体字符区域中的印刷体字符执行字符识别处理。然后,通过使用识别结果作为搜索关键字,文档内容确定单元17对所有领域特定术语词典数据库11a、11b以及11c进行搜索。
此外,用户可以使用笔等在文档的特征内容上作标记。例如,有时利用线标记(line marker)对特征内容进行圈画、加下滑线或勾记。文档内容确定单元17对文档图像数据进行分析,如果存在任何标记点,那么优先识别写在该点处的字符。然后,通过使用识别结果作为搜索关键字,文档内容确定单元17对所有领域特定术语词典数据库11a、11b以及11c进行搜索。此外,写在文档顶部的字符和以比其它字符更大的字体大小写出的字符通常构成文档的标题或题目,因此通常适合于确定该文档的内容属于哪个领域。因此,文档内容确定单元17对文档图像数据进行分析,并且,如果存在任何写在文档顶部或以比其它字符更大的字体大小写出的字符,那么优先识别这些字符。然后,通过使用识别结果作为搜索关键字,文档内容确定单元17对所有领域特定术语词典数据库11a、11b以及11c进行搜索。
回到图2,术语词典选择单元18选择与由文档内容确定单元17确定的领域有关的领域特定术语词典数据库(步骤S13)。例如,当文档的内容被确定为属于图像处理领域时,术语词典选择单元18选择关于图像处理领域的领域特定术语词典数据库11a。除此之外,术语词典选择单元18参照存储在领域关联度存储单元15中的内容,还选择领域特定术语词典数据库11b,该领域特定术语词典数据库11b与被限定为与上述图像处理领域具有一定关联度或更高关联度的领域有关(这里是摄影领域)。
接下来,字符识别单元19通过参照存储在标准字符特征量存储单元14中的特征量、从文档光学读取的字形的特征量以及所选领域特定术语词典数据库11a和11b的内容,来识别文档中的字符或术语(步骤S14)。输出单元20通过使用诸如屏面显示的预定方法来输出识别结果(步骤S15)。
根据上述第一实施例,鉴于文档的内容来选择包含合适的字符或术语的领域特定术语词典数据库。由此预期可改进识别准确度。
(2)第二实施例
在上述第一实施例中,通过使用所选领域特定术语词典数据库对整个文档执行字符识别。在下述第二实施例中,把单个文档分成多个区域,然后,为字符识别选择适于各个区域的领域特定术语词典数据库。图4是示出根据第二实施例的字符识别装置30的构成的框图。与图1中相同的组件由相同的标号标示。图4所示的字符识别装置30与图1所示的第一实施例的字符识别装置的不同之处在于:前者设置有区块格式数据库31和文档内容确定单元34(区块划分单元32和区块内容确定单元33),来取代格式数据库12、存储区特定文档属性存储单元13、领域关联度存储单元15以及文档内容确定单元17。区块格式数据库31包含用于描述文档中要填充的区块的形式和大小的信息。例如,该信息包括如图5(a)-(e)概念性地示出的各种区块的形式和大小。
图6和图7是示出字符识别装置30的操作的流程图。
图6所示的操作与图2所示的前述操作的不同之处在于:前者包括要逐区块地执行的步骤S32到S35的处理,来取代对整个文档执行的步骤S12到S15的处理。即,文档读取单元16利用光照射文档以光学读取文档上的图像,并生成文档图像数据(步骤S11)。然后,文档内容确定单元34逐区块地确定内容(领域)(步骤S32)。具体来说,如图7所示,区块划分单元32最初参照存储在区块格式数据库31中的内容,并以要填充的区块为单位来划分文档(步骤S41)。接着,区块内容确定单元33分析区块的形式和大小以及在该区块中写入的任何印刷体字符、符号及标记(例如,诸如“姓名”和“地址”的印刷体字符以及表示邮政编码或电话号码的符号)。基于该分析结果,区块内容确定单元33对写在区块中的内容的领域进行识别(步骤S42)。例如,具有“地址”描述的区块的内容应当属于地名领域。具有“姓名”描述的区块的内容应当属于人名领域。在图7所示的处理完成之前对所有区块执行这种处理(在步骤S43处为“是”)。
回到图6,术语词典选择单元18选择与由文档内容确定单元34逐区块地确定的领域有关的领域特定术语词典数据库(步骤S33)。字符识别单元19通过参照存储在标准字符特征量存储单元14中的特征量、从文档光学读取的字形的特征量以及逐区块地选择的领域特定术语词典数据库的内容,来识别区块中的字符或术语(步骤S34)。输出单元20通过使用诸如屏面显示的预定方法来输出识别结果(步骤S35)。
根据上述第二实施例,以要填充的区块为单位来划分文档,并根据各区块的内容选择合适的领域特定术语词典数据库。因此与第一实施例相比可以按更高的准确度执行字符识别。
(3)变型例
可以通过上述多个实施例的以下变型例来实施本发明。
领域和领域特定术语词典数据库不限于所述多个实施例中例示的那些,而是可以根据字符识别处理针对的文档的类型和内容来自由地设置。
还可以组合实施第一实施例和第二实施例。例如,在第二实施例中,可以如第一实施例中那样对领域间的关联度加以考虑来执行字符识别。
当把文档中的字符区域划分成多个子区时,可以以文档中的章、节、段为单位,而非以要填充的区块为单位,来进行划分。
可以采用在记录介质(如磁记录介质、光学记录介质以及ROM,对于CPU或其它处理器来说它们是可读的)上进行记录的形式,把字符识别装置10和30用以执行前述操作的控制程序提供给字符识别装置10和30。也可以通过诸如因特网的网络把控制程序下载到字符识别装置10和30。
如上所述,对本发明的一些实施例概述如下。
本发明的实施例提供了一种字符识别装置,其包括:多个词典数据库,包含归类到各个领域中的术语或字符;确定单元,确定文档图像数据表示的文档的内容所属的领域;选择单元,从所述多个词典数据库中选择与确定单元确定的领域有关的词典数据库;识别单元,通过使用所选词典数据库中存储的术语或字符作为候选,对由文档图像数据表示的文档中所写的术语或字符进行识别;以及输出单元,输出识别单元的识别结果。根据该字符识别装置,先确定文档内容所属的领域,然后再选择适合于该领域的领域特定术语词典数据库并将其用于字符识别。由此可期望改进识别准确度。
在本发明的该实施例中,字符识别装置还包括用于把文档的写有字符的区域划分成多个子区的区域划分单元。确定单元逐子区地确定写在所划分的子区中的内容所属的领域。选择单元选择与确定单元确定的各个领域有关的词典数据库。识别单元通过使用所选词典数据库中存储的术语或字符作为候选,对写在所述区域中的术语或字符进行识别。根据该方面,可以选择适合于文档的各个子区的领域特定术语词典数据库并将其用于字符识别。
在本发明的该实施例中,确定单元把由文档图像数据所表示的文档的字符区域分成以印刷体字符写出的印刷体字符区域和以手写体字符写出的手写体字符区域,对写在印刷体字符区域中的印刷体字符执行字符识别,并将识别结果与存储在所述多个词典数据库中的每一个中的术语或字符进行比较,以确定写在文档图像数据表示的文档中的内容所属的领域。某些文档既包含印刷体字符也包含手写体字符。对于这些文档,识别印刷体字符的准确度相对较高。因此,可以通过基于对印刷体字符进行字符识别的结果确定文档的领域,来执行合适的领域确定。
在本发明的该实施例中,字符识别装置还包括属性存储器,该属性存储器包含当生成文档图像数据时被指定为该数据的存储目的地的存储区与相应词典数据库之间的对应关系。确定单元根据存储在该属性存储器中的对应关系,选择与包含所述文档图像数据的存储区对应的词典数据库。在当前流行的复合机器等中,可以把扫描仪读取的图像存储到与从称为“信箱区”的菜单指定的编号对应的存储区中。在该“信箱区”中,例如,所指定的编号通常对于公司中的组织单元(部门、科室)或者对于用户各不相同。因此,被指配了相同编号的多个存储区通常包含相似领域的文档图像数据。因此,把当生成文档图像数据时被指定为该数据的存储目的地的存储区(例如,信箱区中的各存储区)与领域特定词典存储单元(例如,要由全职使用这些存储区的用户或组织使用的领域)相互对应地进行存储。这使得仅通过指定存储区就可以确定文档内容所属的领域。
在本发明的该实施例中,字符识别装置还包括关联度存储器,该关联度存储器存储用于对领域间的关联度进行限定的关联度。选择单元选择按关联度限定为与确定单元确定的领域具有一定关联度的领域的词典数据库。
本发明的实施例提供了一种字符识别方法,其包括以下步骤:按领域在多个词典数据库中存储术语或字符;确定文档图像数据表示的文档的内容所属的领域;从所述多个词典数据库中选择与所确定的领域有关的词典数据库;通过使用所选词典数据库中存储的术语或字符作为候选,对写在文档图像数据表示的文档中的术语或字符进行识别;以及输出识别结果。
在本发明的该实施例中,所述字符识别方法还包括:将文档的写有字符的区域划分成多个子区。确定步骤包括:逐子区地确定写在所划分出的子区中的内容所属的领域。选择步骤包括:选择与各确定领域有关的词典数据库。识别步骤包括:通过使用所选词典数据库中存储的术语或字符作为候选,对写在所述区域中的术语或字符进行识别。
在本发明的该实施例中,确定步骤包括:将文档图像数据表示的文档的字符区域分成以印刷体字符写出的印刷体字符区域和以手写体字符写出的手写体字符区域;对写在印刷体字符区域中的印刷体字符执行字符识别;以及将识别结果与存储在所述多个词典数据库中的每一个中的术语或字符进行比较,以确定写在文档图像数据表示的文档中的内容所属的领域。
在本发明的该实施例中,所述字符识别方法还包括以下步骤:在属性存储器中存储当生成文档图像数据时被指定为该数据的存储目的地的存储区与相应词典数据库之间的对应关系。确定步骤包括:根据存储在属性存储器中的对应关系,选择与包含所述文档图像数据的存储区对应的词典数据库。
在本发明的该实施例中,所述字符识别方法还包括以下步骤:在关联度存储器中存储用于对领域间的关联度进行限定的关联度。选择步骤包括:选择按关联度限定为与确定领域具有一定关联度的领域的词典数据库。
上述对本发明实施例的描述是为进行例示和说明而提供的。其并非穷举性的或者将本发明限于公开的精确形式。显然,本领域的技术人员将清楚许多修改例和变型例。所选择和描述的实施例是为了最佳阐释本发明的原理及其实际应用,从而使得本领域的技术人员能够理解可应用于所构想的特定应用的其它实施例或修改例。本发明的范围由所附权利要求及其等同物来限定。

Claims (10)

1、一种字符识别装置,包括:
多个词典数据库,包含归类到各个领域中的术语或字符;
确定单元,确定文档图像数据表示的文档的内容所属的领域;
选择单元,从所述多个词典数据库中选择与确定单元确定的领域有关的词典数据库;
识别单元,通过使用所选词典数据库中存储的术语或字符作为候选,对由文档图像数据表示的文档中所写的术语或字符进行识别;以及
输出单元,输出识别单元的识别结果。
2、如权利要求1所述的字符识别装置,还包括用于把文档的写有字符的区域划分成多个子区的区域划分单元,并且其中:
确定单元逐子区地确定写在所划分的子区中的内容所属的领域;
选择单元选择与确定单元确定的各个领域有关的词典数据库;
识别单元通过使用所选词典数据库中存储的术语或字符作为候选,对写在所述区域中的术语或字符进行识别。
3、如权利要求1所述的字符识别装置,其中
确定单元把文档图像数据表示的文档的字符区域分成以印刷体字符写出的印刷体字符区域和以手写体字符写出的手写体字符区域,对写在印刷体字符区域中的印刷体字符执行字符识别,并将识别结果与存储在所述多个词典数据库中的每一个中的术语或字符进行比较,以确定写在文档图像数据表示的文档中的内容所属的领域。
4、如权利要求1所述的字符识别装置,还包括属性存储器,该属性存储器包含当生成文档图像数据时被指定为该数据的存储目的地的存储区与相应词典数据库之间的对应关系,并且其中
确定单元根据存储在该属性存储器中的对应关系,选择与包含所述文档图像数据的存储区对应的词典数据库。
5、如权利要求1所述的字符识别装置,还包括关联度存储器,该关联度存储器存储用于对领域间的关联度进行限定的关联度;并且其中
选择单元选择按关联度限定为与确定单元确定的领域具有一定关联度的领域的词典数据库。
6、一种字符识别方法,包括以下步骤:
存储步骤,按领域在多个词典数据库中存储术语或字符;
确定步骤,确定文档图像数据表示的文档的内容所属的领域;
选择步骤,从所述多个词典数据库中选择与所确定的领域有关的词典数据库;
识别步骤,通过使用所选词典数据库中存储的术语或字符作为候选,对写在文档图像数据表示的文档中的术语或字符进行识别;以及
输出步骤,输出识别结果。
7、根据权利要求6所述的字符识别方法,还包括以下步骤:将文档的写有字符的区域划分成多个子区,并且其中:
确定步骤包括:逐子区地确定写在所划分出的子区中的内容所属的领域;
选择步骤包括:选择与各确定领域有关的词典数据库;并且
识别步骤包括:通过使用所选词典数据库中存储的术语或字符作为候选,对写在所述区域中的术语或字符进行识别。
8、根据权利要求6所述的字符识别方法,其中
确定步骤包括:
将文档图像数据表示的文档的字符区域分成以印刷体字符写出的印刷体字符区域和以手写体字符写出的手写体字符区域;
对写在印刷体字符区域中的印刷体字符执行字符识别;以及
将识别结果与存储在所述多个词典数据库中的每一个中的术语或字符进行比较,以确定写在文档图像数据表示的文档中的内容所属的领域。
9、根据权利要求6所述的字符识别方法,还包括以下步骤:在属性存储器中存储当生成文档图像数据时被指定为该数据的存储目的地的存储区与相应词典数据库之间的对应关系,并且其中
确定步骤包括:根据存储在属性存储器中的对应关系,选择与包含所述文档图像数据的存储区对应的词典数据库。
10、根据权利要求6所述的字符识别方法,还包括以下步骤:在关联度存储器中存储用于对领域间的关联度进行限定的关联度;并且其中
选择步骤包括:选择按关联度限定为与确定领域具有一定关联度的领域的词典数据库。
CNB2005100551946A 2004-08-25 2005-03-16 字符识别装置和字符识别方法 Expired - Fee Related CN100351849C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004245311A JP2006065477A (ja) 2004-08-25 2004-08-25 文字認識装置
JP2004245311 2004-08-25

Publications (2)

Publication Number Publication Date
CN1741034A CN1741034A (zh) 2006-03-01
CN100351849C true CN100351849C (zh) 2007-11-28

Family

ID=35943131

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100551946A Expired - Fee Related CN100351849C (zh) 2004-08-25 2005-03-16 字符识别装置和字符识别方法

Country Status (3)

Country Link
US (1) US20060045340A1 (zh)
JP (1) JP2006065477A (zh)
CN (1) CN100351849C (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080008391A1 (en) * 2006-07-10 2008-01-10 Amir Geva Method and System for Document Form Recognition
JP5239419B2 (ja) * 2008-03-14 2013-07-17 オムロン株式会社 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造
JP2010217996A (ja) * 2009-03-13 2010-09-30 Omron Corp 文字認識装置、文字認識プログラム、および文字認識方法
JP2011065322A (ja) * 2009-09-16 2011-03-31 Konica Minolta Holdings Inc 文字認識システム及び文字認識プログラム、並びに音声認識システム及び音声認識プログラム
CN102855264B (zh) * 2011-07-01 2015-11-25 富士通株式会社 文档处理方法及其装置
US9082035B2 (en) * 2011-08-29 2015-07-14 Qualcomm Incorporated Camera OCR with context information
DE102012008512A1 (de) * 2012-05-02 2013-11-07 Eyec Gmbh Vorrichtung und Verfahren zum Vergleich zweier Grafik- und Textelemente enthaltenden Dateien
JP6140946B2 (ja) * 2012-07-26 2017-06-07 キヤノン株式会社 文字認識システム及び文字認識装置
JP2014067303A (ja) * 2012-09-26 2014-04-17 Toshiba Corp 文字認識装置、方法およびプログラム
JP5947451B2 (ja) * 2013-02-28 2016-07-06 発紘電機株式会社 作画エディタ装置、プログラム
CN105427696A (zh) * 2015-11-20 2016-03-23 江苏沁恒股份有限公司 一种对目标题目所作答案进行判别的方法
CN108921103B (zh) * 2018-07-05 2019-04-16 掌阅科技股份有限公司 用于校对的标记同步方法、计算设备及计算机存储介质
KR20200010777A (ko) * 2018-07-23 2020-01-31 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 유사 문자의 과거 인식 결과를 이용하는 문자 인식
JP2022148922A (ja) * 2021-03-24 2022-10-06 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1059414A (zh) * 1991-03-12 1992-03-11 窦祖烈 中文句子的翻译方法
CN1215201A (zh) * 1997-10-16 1999-04-28 富士通株式会社 字符识别/修正方式
CN1221927A (zh) * 1997-12-19 1999-07-07 松下电器产业株式会社 字符识别装置及其方法和计算机能读取的记录媒体
JPH11203414A (ja) * 1998-01-08 1999-07-30 Fuji Xerox Co Ltd 大分類辞書作成装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4944022A (en) * 1986-12-19 1990-07-24 Ricoh Company, Ltd. Method of creating dictionary for character recognition
JP2713622B2 (ja) * 1989-11-20 1998-02-16 富士通株式会社 表形式文書読取装置
JP3275153B2 (ja) * 1993-03-03 2002-04-15 株式会社日立製作所 辞書分散システム及び辞書分散管理方法
JP3375766B2 (ja) * 1994-12-27 2003-02-10 松下電器産業株式会社 文字認識装置
US6101515A (en) * 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
JP3525997B2 (ja) * 1997-12-01 2004-05-10 富士通株式会社 文字認識方法
JP3895892B2 (ja) * 1999-09-22 2007-03-22 株式会社東芝 マルチメディア情報収集管理装置およびプログラムを格納した記憶媒体
JP4377494B2 (ja) * 1999-10-22 2009-12-02 東芝テック株式会社 情報入力装置
US6603464B1 (en) * 2000-03-03 2003-08-05 Michael Irl Rabin Apparatus and method for record keeping and information distribution
US20040205671A1 (en) * 2000-09-13 2004-10-14 Tatsuya Sukehiro Natural-language processing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1059414A (zh) * 1991-03-12 1992-03-11 窦祖烈 中文句子的翻译方法
CN1215201A (zh) * 1997-10-16 1999-04-28 富士通株式会社 字符识别/修正方式
CN1221927A (zh) * 1997-12-19 1999-07-07 松下电器产业株式会社 字符识别装置及其方法和计算机能读取的记录媒体
JPH11203414A (ja) * 1998-01-08 1999-07-30 Fuji Xerox Co Ltd 大分類辞書作成装置

Also Published As

Publication number Publication date
JP2006065477A (ja) 2006-03-09
US20060045340A1 (en) 2006-03-02
CN1741034A (zh) 2006-03-01

Similar Documents

Publication Publication Date Title
CN100351849C (zh) 字符识别装置和字符识别方法
CN100351839C (zh) 文档检索·阅览方法以及文档检索·阅览装置
US6671684B1 (en) Method and apparatus for simultaneous highlighting of a physical version of a document and an electronic version of a document
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US8285047B2 (en) Automated method and system for naming documents from a scanned source based on manually marked text
US20090144277A1 (en) Electronic table of contents entry classification and labeling scheme
US6178417B1 (en) Method and means of matching documents based on text genre
US7593961B2 (en) Information processing apparatus for retrieving image data similar to an entered image
CN1254894A (zh) 字型访问,登记,显示,打印和文件处理方法及记录媒体
CN101533317A (zh) 具备手写识别功能的快速记录装置和方法
CN1894685A (zh) 翻译工具
CN1838148A (zh) 电子设备和记录介质
CN1838113A (zh) 翻译处理方法、文档翻译装置和程序
JP2004334339A (ja) 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JPH11282955A (ja) 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
CN1106620C (zh) 信息处理方法和设备
Couasnon et al. Making handwritten archives documents accessible to public with a generic system of document image analysis
Garris et al. NIST Scoring Package User’s Guide
CN100444194C (zh) 文章标题及关联信息的自动抽取装置和抽取方法
JP3145071B2 (ja) 文字認識方法および装置
US8271874B2 (en) Method and apparatus for locating and transforming data
CN117688162B (zh) 一种基于ocr识别的全文检索方法及系统
Furukawa et al. D-pen: A digital pen system for public and business enterprises
Al-Barhamtoshy et al. Universal metadata repository for document analysis and recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20071128

Termination date: 20170316

CF01 Termination of patent right due to non-payment of annual fee