CN101430758B - 文档识别装置和方法 - Google Patents

文档识别装置和方法 Download PDF

Info

Publication number
CN101430758B
CN101430758B CN2008101741091A CN200810174109A CN101430758B CN 101430758 B CN101430758 B CN 101430758B CN 2008101741091 A CN2008101741091 A CN 2008101741091A CN 200810174109 A CN200810174109 A CN 200810174109A CN 101430758 B CN101430758 B CN 101430758B
Authority
CN
China
Prior art keywords
document
character string
stored
logical
logical elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101741091A
Other languages
English (en)
Other versions
CN101430758A (zh
Inventor
武部浩明
小泽宪秋
皆川明洋
藤井勇作
堀田悦伸
田中宏
藤本克仁
平井淳一
高桥清治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101430758A publication Critical patent/CN101430758A/zh
Application granted granted Critical
Publication of CN101430758B publication Critical patent/CN101430758B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及文档识别装置和方法。一种文档识别装置,该文档识别装置包括显示控制单元,该显示控制单元显示包括与用户选择的字符串相关的字符串的文档数据,并显示至少包括该文档数据的字符串的区域。

Description

文档识别装置和方法
技术领域
本发明涉及包括逻辑结构模型存储部的记录介质,该逻辑结构模型存储部存储逻辑结构,该逻辑结构指示各种文档中的逻辑元素以及这些逻辑元素之间的关系,并且该记录介质其中记录有文档识别程序,该文档识别程序用于根据存储在该逻辑结构模型存储部中的逻辑结构来识别所输入及所识别文档的逻辑结构;本发明还涉及包括该逻辑结构模型存储部的文档识别装置以及用于该文档识别装置的文档识别方法。
背景技术
传统上存在一种文档数据输入系统,该系统为各种形式的文档准备对要被提取的数据位置信息进行描述的布局定义,并且在识别该文档的形式之后,使用该布局定义通过OCR来识别加有标签的数据(taggeddata)。具体地说,在文档上写入代表矩形区域的标签名称的多组两个坐标。例如,对应于数据“Fujitsu Taro”的标签是教育机构(诸如学校)的“负责人姓名”。
该文档数据输入系统对所输入的文档图像以及通过使用该布局定义来识别该文档图像而获得的识别结果进行并列地显示。用户对该文档图像与该识别结果进行比较,并且判断该识别结果是否正确。当该识别结果有误时,用户删除该识别结果,并且使用键盘等来输入正确的值。
然而,使用这种方法,因为用户要对该文档图像与识别结果进行比较并且判断该识别结果是否正确,所以就阅读方面而言用户的负担重。而且,不能避免人为的错误。因此,已经公开了在这种数据输入系统中用于在所读取文档中存在错误时减轻数据校正工作的负担的各种技术。
例如,可以设想自动地产生与在文档识别处理中出现的错误的位置相对应的文档布局图像的数据输入系统。具体地说,该数据输入系统根据用于指定要被读取的文档的布局的布局信息,来分析所读取文档的文档图像的布局,并且执行由该布局分析所确定的各个读取对象的字符识别。该数据输入系统根据该布局信息以及该字符识别的结果数据来检测布局分析错误,并且将与该错误出现位置相对应的文档图像显示在屏幕上。
然而,上述技术存在的问题在于,它并不能始终减轻数据校正工作的负担,相反,这种负担可能增加。
具体地说,因为仅显示与错误出现位置相对应的文档图像,所以当放大并显示该文档图像时,可能不清楚该文档中这个文档错误所出现的位置(即,在哪个字符串)。具体地说,当在该文档中存在相同字符串的标题时,必须区分这些字符串。结果,用户必须缩小已被放大的图像并显示,以检查在该图像周围的图像。这反而增加了用户负担。
使用上述技术,仅将读取文档时的错误呈现给用户。不能向用户显示是否正确地校正了所显示的错误。换句话说,即使用户基于与错误出现位置相对应的图像文档而手动地校正了该错误出现位置,这种校正的内容并不是始终正确的。用户他自己/她自己需要通过可视的方式来检查该校正内容。因此,难以确定这可以减轻数据校正工作的负担。
发明内容
根据本发明的一个方面,一种装置包括逻辑结构模型存储部,该逻辑结构存储部存储指示各种文档中的逻辑元素以及这些逻辑元素之间的关系的逻辑结构,该文档识别装置根据存储在该逻辑结构模型存储部中的逻辑结构来识别所输入及所识别的文档的逻辑结构。该文档识别装置包括:诸如文档数据存储机构的存储器,其将该文档上的字符串以及该文档上的这些字符与存储在该逻辑结构模型存储部中的逻辑元素的彼此关系之间的关联,作为文档数据而进行存储;文档数据存储过程机构或模块,其针对通过识别所输入文档而获得的文档图像,来提取与存储在该逻辑结构模型存储部中的这些逻辑元素相符的字符串,将这些字符串存储在该文档数据存储机构中,提取满足存储在该逻辑结构模型存储部中的这些逻辑元素之间关系的该文档上字符串的组合,并且将该文档上的字符串与存储在该逻辑结构模型存储部中的这些逻辑元素之间关系的关联,存储在该文档数据存储机构中;以及显示控制机构,当用户选择了显示在显示单元上的该文档数据的字符串时,向该显示单元输出所识别的文档图像以及存储在该文档数据存储机构中的该文档数据,从该文档数据存储机构中指定与所选择的字符串相关的字符串,在该显示单元上显示其中所指定字符串与其它字符串相区别的文档数据,并且在该显示单元上显示至少包括该文档图像的文档数据的所指定字符串的最小区域。
根据该详细的说明书,本发明的实施方式的其它特征和优点是明显的,因此,它们都落入所附权利要求的范围内。此外,因为基于此处的说明各种修改和变化对于本领域技术人员而言是明显的,所以不希望将本发明的实施方式限制为所示及所述的确切构造和操作,相应地,包括所有合适的修改和等同物。
附图说明
图1是示出了根据本发明的示例性实施方式的文档识别装置的整体设置的系统图;
图2是示出根据本发明的示例性实施方式的文档识别装置的设置的框图;
图3是示出根据本发明的示例性实施方式的所显示的文档图像及文档数据的图;
图4是示出根据本发明的示例性实施方式的存储在布局信息DB中的信息的示例的图;
图5是示出根据本发明的示例性实施方式的存储在逻辑结构模型DB中的逻辑结构的图;
图6是示出根据本发明的示例性实施方式的构成存储在该逻辑结构模型DB中的逻辑结构的各个逻辑元素的数据结构的图;
图7是示出根据本发明的示例性实施方式的存储在文档数据DB中的逻辑结构关联结果的示例的图;
图8是示出根据本发明的示例性实施方式的存储在逻辑结果数据中的信息的示例的图;
图9是示出根据本发明的示例性实施方式的存储在区域信息中的信息的示例的图;
图10是示出根据本发明的示例性实施方式的存储在控制信息中的信息的示例的图;
图11是示出根据本发明的示例性实施方式的存储在显示信息中的信息的示例的图;
图12是示出根据本发明的示例性实施方式的逻辑元素之间的对应关系的示例的图;
图13是示出根据本发明的示例性实施方式的这些逻辑元素之间的该对应关系的示例的图;
图14是示出根据本发明的示例性实施方式的在该文档识别装置中的整体处理的流程的流程图;
图15是示出根据本发明的示例性实施方式的在该文档识别装置中的显示项目确定处理的流程的流程图;
图16是示出根据本发明的示例性实施方式的在该文档识别装置中的矛盾项目发现处理的流程的流程图;
图17是示出根据本发明的示例性实施方式的在该矛盾项目发现处理中的候选标志改变处理的流程的流程图;
图18是示出根据本发明的示例性实施方式的在该文档识别装置中的显示信息设置处理的流程的流程图;
图19是示出根据本发明的示例性实施方式的所显示画面的示例的
图;
图20是示出根据本发明的示例性实施方式的由用户选择的画面的
图;
图21是示出根据本发明的示例性实施方式的其上例示了逻辑元素候选的画面的图;
图22是示出根据本发明的示例性实施方式的其中由该用户校正逻辑元素的示例的图;
图23是示出根据本发明的示例性实施方式的其中发现矛盾项目的示例的图;
图24是示出根据本发明的示例性实施方式的其中校正矛盾项目的示例的图;
图25是示出根据本发明的示例性实施方式的其中完成该校正的示例的图;
图26是示出根据本发明的示例性实施方式的其中向负责人及办公室添加具有父权限(parental authority)的个人空间的画面的示例的图;
图27是示出根据本发明的示例性实施方式的逻辑结构识别结果的一部分的图;以及
图28是示出根据本发明的示例性实施方式的执行文档识别程序的计算机系统的示例的图。
具体实施方式
下面将参照附图详细说明根据本发明的示例性实施方式的其中记录了文档识别程序的记录介质、文档识别装置以及文档识别方法。在下面的说明中,依次说明根据示例性实施方式的文档识别装置的概述及特征以及该文档识别装置的设置及处理流程。最后,说明对该示例性实施方式的各种修改,以提供其它示例性实施方式。
首先,参照图1来说明根据本发明的第一示例性实施方式的文档识别装置的概述及特征。图1是示出根据第一示例性实施方式的该文档识别装置的整体设置的系统图。
图1所示的文档识别装置包括逻辑模型数据库(DB)以及OCR(光学字符识别),该逻辑模型数据库(DB)用于存储指示各个文档(例如,账目文档的清算、会计文档及人事文档)中的逻辑元素并指示这些逻辑元素之间的关系的逻辑结构,而该OCR(光学字符识别)用于将所键入文档的图像转换成可以由计算机进行编辑的格式(字符代码串)。
具体地说明存储在该逻辑结构模型DB中的信息的示例。逻辑结构模型DB根据文档的类型来存储逻辑元素以及这些逻辑元素之间的关系,并且还存储这些逻辑元素中的字符串。所存储的逻辑元素具有标题属性及数据属性。以树结构来表示标题与数据之间的对应关系、标题之间的层级关系等(参见图1中的(a))。这些文档中所表示的字符串被存储在这些逻辑元素中。图1中的(a)所示的“A”和“B”是这些逻辑元素的标题,而“C”至“H”是这些逻辑元素的数据。
文档识别装置在显示单元(诸如显示器)上并列地显示由该OCR扫描的文档图像以及所扫描的原始文档图像。该文档识别装置使得用户检查所读取的数据是否正确。当数据正确时,该文档识别装置获取该文档数据并且执行各种处理。在本示例性实施方式中作为处理对象的文档可以是由OCR扫描的纸质介质、从网络接收的电子文档(电子数据)、存储介质等。
在这种设置中,如上所述,作为根据第一示例性实施方式的该文档识别装置的概述,该文档识别装置包括存储指示各种文档中的逻辑元素以及这些逻辑元素之间的关系的逻辑结构的逻辑结构模型DB。该文档识别装置根据存储在该逻辑结构模型DB中的逻辑结构,来识别所输入及所识别的文档的逻辑结构。具体地说,该文档识别装置具有的主要特征在于,可以减轻在针对所识别的文档数据的校正工作中的校正操作员的负担。
具体地说明该主要特征。该文档识别装置包括文档数据DB的关联,该文档数据DB将文档上的字符串以及该文档上的字符串与存储在该逻辑结构模型DB的这些逻辑元素之间的关系,作为文档数据而进行存储。作为具体示例,该文档数据DB存储其中将所输入文档上的字符串与存储在该逻辑结构模型DB中的这些逻辑元素之间的关系相关联的信息。
该文档识别装置识别所输入的文档,提取与存储在该逻辑结构模型DB中的这些逻辑元素相符的字符串,并且将这些字符串存储在该文档数据DB中。该文档识别装置提取满足存储在该逻辑结构模型DB中的这些逻辑元素之间的关系的文档上字符串的组合,并且将该文档上的字符串与存储在该逻辑结构模型DB中的这些逻辑元素的彼此关系之间的关联,存储在该文档数据DB中(参见图1中的(1)至(3))。
具体地说,在上述示例中,该文档识别装置接收输入文档,该输入文档包括图1中的(b)所示的布局元素的标题字符串“A1”和“B1”以及这些布局元素的数据字符串“C1”至“H1”。在这种情况下,该文档识别装置提取该输入文档的标题字符串“A1”和“B1”以及数据字符串“C1”至“H1”,并且将这些字符串存储在文档数据DB中。随后,该文档识别装置提取满足这些逻辑元素的标题并满足存储在该逻辑结构模型DB中的数据的该文档上字符串的组合,并且将该文档上的字符串与存储在该逻辑结构模型DB中的这些逻辑元素的彼此关系(参见图1中的(a))之间的关联,存储在该文档数据DB中,如图1中的(c)所示。
该文档识别装置在该显示单元上显示所识别的文档图像以及存储在该文档数据DB中的文档数据(参见图1的(4)和(5))。具体地说,在上述示例中,该文档识别装置将所识别的文档图像以及存储在该文档数据DB中的文档数据,输出到该显示单元,如图1中的(d)所示。
此后,当显示在该显示单元上的文档数据的字符串被用户选择时,该文档识别装置从该文档数据DB中指定与所选择的字符串相关的字符串,并且在该显示单元上显示该文档数据,其中所指定的字符串与其它字符串相区别。该文档识别装置在该显示单元上显示包括该文档图像中的文档数据的所指定字符串的最小区域(图像)(参见图1中的(6)至(8))。
具体地说,在上述示例中,当用户点击图1中的(d)的画面上的识别结果中的“F1”的位置时,该文档识别装置从文档数据DB中指定与所选择的字符串“F1”相关的标题的标题“A1”和数据“F1”。如图1中的(e)所示,该文档识别装置在该显示单元上显示文档数据,其中所指定的“A1、F1”与其它字符串“B1”相区别。该文档识别装置在该显示单元上显示包括该文档图像中的文档数据的所指定“A1、F1”的最小图像。
这样,当用户选择该用户希望检查或校正的字符串时,根据第一示例性实施方式的该文档识别装置可以指定并显示包括与所选择字符串相关的字符串的位置。结果,如该主要特征所示,可以减轻在针对所识别的文档数据的校正工作中的校正操作员的负担。
参照图2来说明图1中所示的该文档识别装置的设置。图2是示出根据示例性实施方式的文档识别装置的设置的框图。如图2所示,该文档识别装置10包括输入接收单元11、显示单元12、存储单元20及控制单元30。
输入接收单元11包括OCR,并且接收各种文档。作为具体示例,输入接收单元11接收纸质介质的文档图像并使用该OCR来扫描该文档图像,或通过网络、各种存储介质等来接收文件格式的文档图像数据。输入接收单元11将所接收的数据输出到接口控制单元31(稍后描述)。
显示单元12包括监视器(或显示器或触摸板)及扬声器,并且输出各种信息。例如,显示单元12根据接口控制单元31或逻辑结构分析单元35(稍后描述)的指令控制,来显示由输入接收单元11所接收的文档数据等(如图3所示)。图3是示出所显示的文档图像和文档数据的图。
存储单元20存储用于由控制单元30运行各种处理的数据和程序。具体地说,作为与本发明密切相关的单元,存储单元20包括布局信息DB 21、逻辑结构模型DB 22及文档数据DB 23。
布局信息DB 21存储包括字符代码及坐标的字符信息并存储包括格线(ruled line)及格子坐标(coordinate of cell)的布局信息。作为具体示例,如图4所示,布局信息DB 21存储包括字符信息、格线信息以及格子信息的布局信息。在该字符信息中,写有字符数量以及关于各个字符的信息。在该关于各个字符的信息中,写有字符代码、坐标以及指向包括该字符的格子的指针。在该格线信息中,写有格线数量以及关于各个格线的信息。在该关于各个格线的信息中,写有格线类型(诸如实线或虚线之类)、坐标以及指向由该格线形成的格子的指针。在该格子信息中,写有格子数量以及关于各个格子的信息。在该关于各个格子的信息中,写有坐标、指向包括在该格子中的字符的指针以及指向形成该格子的格线的指针。图4是示出存储在布局信息DB中的信息的示例的图。
逻辑结构模型DB 22存储指示各种文档中的逻辑元素以及这些逻辑元素之间关系的逻辑结构。作为具体示例,如图5所示,逻辑结构模型DB 22具有标题属性及数据属性,并且存储以树结构的形式来代表了逻辑元素(包括在文档上呈现的多个字符串)、这些标题与数据之间的对应关系、这些标题之间的层级关系等的该逻辑结构。
图5中所示的各个元素具有图6中所示的数据结构。“类型”代表标题或数据。“代表性字符串”例如是hon-nin(本人)、simei(姓名)等。逻辑元素ID是在作为逻辑结构模型的逻辑结构中被唯一地分配的ID。所呈现的字符串代表所登记文档上呈现的字符串。父逻辑元素是在代表该逻辑结构模型的逻辑结构的树结构中的高级逻辑元素。子逻辑元素是低级逻辑元素。例如,以逻辑元素“本人”作为示例进行说明。逻辑结构模型DB 22将逻辑元素的“本人”的数据结构“类型、代表性字符串、逻辑元素ID、所呈现的字符串、所呈现的字符串的字符数、指向父的指针、指向子的指针以及子数量”存储为“midashi、hon-nin、1、hon-nin、go-hon-nin、go(以中文字符)-hon-nin、3、00、01,02,03,04以及4”等。图5是示出存储在逻辑结构模型DB中的逻辑结构的图。图6是示出形成存储在逻辑结构模型DB中的逻辑结构的逻辑元素的数据结构的图。
文档数据DB 23将文档上的字符串以及该文档上的字符串与存储在逻辑结构模型DB 22中的逻辑元素的彼此关系之间的关联,作为文档数据而进行存储。作为具体示例,文档数据DB 23将存储在逻辑结构模型DB 22中的树结构的逻辑结构(参见图5)与该文档上的字符串相关联,并且存储逻辑结构关联结果22a,如图7所示。文档数据DB 23针对所关联的逻辑元素来存储如图8至图11所示的数据结构。
具体地说明各个数据库。首先,文档数据DB 23存储逻辑结果数据23b,作为该文档上的布局元素(字符串)与图5中示出的逻辑结构中的逻辑元素的相关联的结果。逻辑结果数据23b包括被唯一地分配给逻辑元素的“逻辑元素ID”、用于指定与该逻辑元素关联的文档上布局元素的“指向区域候选的指针”、以及指示与该逻辑元素关联的文档上区域候选数量的“区域候选数量”。参照图7,作为示例,文档数据DB 23将“逻辑元素ID、指向区域候选的指针以及区域候选数量”存储为“01(负责人)、00a以及1”、“001(地址)、00b/00k以及2”等,作为逻辑结果数据23b。在图7的示例中,该文档上的一个区域对应于多个逻辑元素的区域候选。22个区域候选数据对应于17个逻辑元素。指向区域候选的指针是诸如用于指定逻辑元素的地址的信息。此处描述了指向区域候选的指针的一个示例。指向区域候选的指针不限于该示例。
说明图9中示出的数据结构。文档数据DB 23存储如图9中示出的区域信息区23c域信息23c与图7中有关的各个逻辑元素相关联。区域信息23c存储以下内容:被唯一地分配给包括逻辑信息的文档上的区域的“区域ID”,用于指示该文档上存在该逻辑元素的位置的“坐标”,用于指示该逻辑元素的“字符串”,用于指示与指示该逻辑元素的字符串有关的信息的“字符信息”,形成该逻辑元素的“字符数量”,用于指示该逻辑元素是相关逻辑元素的可能性的“候选等级”等。当在所扫描的文档图像上存在与图7中从属于元素“负责人”的“地址”及“电话号码”相对应的多个候选时,设置“候选等级”。例如,文档数据DB 23将“区域ID、坐标、字符串、字符信息、字符数量以及候选等级”存储为“01、100.120、hon-nin、book(0x967B)、person(0x906C)、2以及1”等,作为区域信息23c。
文档数据DB 23还存储图10的控制信息22d,控制信息22d与图7中有关的各个逻辑元素相关联。控制信息22d包括以下内容:被唯一地分配给该逻辑元素的“逻辑元素ID”,用于指定文档上与该逻辑元素相关的逻辑元素的“指向区域候选的指针”,用于指示该文档上与该逻辑元素相关的区域候选数量的“区域候选数量”,作为代表用户是否选择区域候选的标志的“选择标志”(具有ON或OFF值),作为代表用户是否选择区域候选的标志的“次选择标志”(具有ON或OFF值),作为代表所选择的区域候选所对应的选择候选等级的“次选择编号”,作为代表识别结果已经改变的标志的“候选改变标志”(具有NOW、PAST或OFF值),作为代表是否在屏幕上显示该识别结果的标志的“显示标志”(具有ON或OFF值),以及作为代表是否存在矛盾的标志的“矛盾标志”(具有ON或OFF值)。例如,文档数据DB 23将“逻辑ID、指向区域候选的指针、区域候选数量、选择标志、次选择标志、次选择编号、候选改变标志、显示标志和矛盾标志”存储为“01(负责人)、00a、1、ON、ON、1、ON、OFF和ON”等,作为控制信息22d。
文档数据DB 23还存储如图11所示的显示信息22e,显示信息22e与图7有关的各个逻辑元素相关联。显示信息22e包括以下内容:代表逻辑元素ID不是根元素的最高级逻辑元素的“最高级逻辑元素”,以坐标来代表所扫描文档图像中的显示区域的“图像显示区域”,以及代表校正窗口的显示项目的“校正窗口显示项目”,其中将所读取的文档数据显示为逻辑元素ID组。例如,文档数据DB 23将“最高级逻辑元素、图像显示区域和校正窗口显示项目”存储为“01(负责人)、300×200、01(负责人).001(001)”等,作为显示信息22e。
图7是示出存储在文档数据DB 23中的逻辑结构关联结果22a的示例的图。图8是示出存储在逻辑结果数据23b中的信息的示例的图。图9是示出存储在区域信息23c中的信息的示例的图。图10是示出存储在控制信息22d中的信息的示例的图。图11是示出存储在显示信息22e中的信息的示例的图。
控制单元30包括内部存储器,该内部存储器用于存储诸如OS(操作系统)的控制程序、定义各种处理过程等的程序以及所需的数据。具体地说,作为与本发明密切相关的单元,控制单元30包括接口控制单元31、布局识别单元32、字符识别单元33、逻辑结构识别单元34以及逻辑结构分析单元35。控制单元30使用这些单元来执行各种处理。参照图14及后续附图来具体地说明控制单元30中各个功能单元执行的详细处理。因此,这里说明各个功能单元的概述。
接口控制单元31从显示单元12接收用户的操作,并且在显示单元12上显示由逻辑结构分析单元35(稍后描述)得到的该逻辑结构的分析结果。具体地说,接口控制单元31将由输入接收单元11接收的文档作为文档图像输出到布局识别单元32,将由逻辑结构识别单元34所识别的文档的识别结果作为校正窗口显示在显示单元12上,从显示单元12接收用户操作(诸如点击)并且将操作内容输出到逻辑结构分析单元35,并且在显示单元12上显示根据所接收的用户操作的结果而改变的显示内容。
布局识别单元32对由输入接收单元11接收的文档的布局进行识别。具体地说,布局识别单元32经由接口控制单元31来接收由输入接收单元11接收的该文档,识别所接收文档的类型,指定存储在布局信息DB 21中的布局信息,并且基于所指定的布局信息来分析与该文档的所指定类型相对应的布局。布局识别单元32将该分析的结果输出到字符识别单元33(稍后描述)。
字符识别单元33对由输入接收单元11接收的该文档上的字符串进行识别。具体地说,字符识别单元33接收由布局识别单元32所识别的该布局的识别结果。字符识别单元33基于由布局识别单元32所指定且存储在布局信息DB 21中的布局信息并基于存储在逻辑结构模型DB 22中的与由布局识别单元32所指定的该文档类型相对应的逻辑结构,来提取由输入接收单元11接收的该文档上的字符串,并且将所提取的结果存储在文档数据DB 23中。
逻辑结构识别单元34对由输入接收单元11接收的该文档上的字符串的逻辑结构进行识别。具体地说,逻辑结构识别单元34接收由布局识别单元32所识别的该布局的识别结果。逻辑结构识别单元34提取满足存储在逻辑结构模型DB 22中的逻辑元素之间关系的该文档上字符串的组合,并且将该文档上的字符串与存储在逻辑结构模型DB 22中的逻辑元素的彼此关系之间的关联存储在文档数据DB 23中,如图12和13所示。作为在逻辑结构识别结果中输出多个候选的方法,例如,可以使用针对每个k1按照幅度的次序而重新设置针对逻辑元素(i1,j1)所计算的后验概率(posterior probability)pp1(i1,j1,k1)并且输出这些后验概率的方法。可以使用按照估计值的次序而对在与存储在逻辑结构模型DB 22中的这些逻辑元素之间的关系相匹配的结果中所输出的集合(clique)进行设置并且采用第一等级及第二等级中的集合作为候选的方法。图12和13是示出逻辑元素之间的对应关系的示例的图。
逻辑结构分析单元35控制显示单元12,以将文档的识别结果显示为校正窗口。具体地说,逻辑结构分析单元35基于由输入接收单元11接收的且存储在文档数据DB 23中的文档上字符串并基于与这些字符串相关的这些逻辑元素之间的关系,来把用于将文档识别结果显示为校正窗口的显示控制指令,输出到接口控制单元31。逻辑结构分析单元35基于由接口控制单元31接收的用户操作(用户动作),来分析这些逻辑元素之间的关系。逻辑结构分析单元35把用于将由所接收的用户操作执行的该文档分析结果的校正内容显示为校正窗口的显示控制指令,输出到接口控制单元31。
参照图14至图18来说明由该文档识别装置执行的处理。图14是示出根据示例性实施方式(诸如第一示例性实施方式)的在该文档识别装置中的整体处理流程的流程图。
如图14所示,当输入文档(在S101为是)时,文档识别装置10进行文档分析处理(在S102)。具体地说,当由输入接收单元11接收文档时,文档识别装置10的布局识别单元32和字符识别单元33基于存储在布局信息DB 21中的布局信息,来对该输入文档的布局及该文档上的字符串进行识别。文档识别单元10的逻辑结构识别单元34对所接收的文档上的这些字符串的逻辑结构进行识别,并且将该逻辑结构存储在文档数据DB 23中。
随后,文档识别装置10执行针对所输入文档的显示处理,并且转移到用户动作等待状态(在S103和S104)。具体地说,文档识别装置10的文档结构分析单元35基于由接收单元11所接收的该输入文档上且存储在文档数据DB 23中的字符串并基于与这些字符串相关的逻辑元素之间的关系,来把用于将文档识别结果显示为校正窗口的显示控制指令,输出到接口控制单元31。接口输出单元31基于所接收的显示控制指令,在显示单元12上显示所输入的文档,并且转移到用于接收用户动作的状态。
此后,接收该用户动作的文档识别装置10执行用户动作获取处理,执行逻辑信息分析,并且显示该分析的结果(在S105至S107)。具体地说,当用户操作对显示在显示单元12上的校正窗口(所读取文档数据)的特定区域(字符串)进行校正时,接口控制单元31将该校正的内容输出到逻辑结构分析单元35。逻辑结构分析单元35基于所接收的校正内容、存储在文档数据DB 23中的该文档上的字符串以及这些逻辑元素之间的关系(该文档的逻辑结构),来对文档数据DB 23中的该文档的逻辑结构进行校正。逻辑结构分析单元35将所校正的该文档的逻辑结构输出到接口控制单元31。接口控制单元31将所接收及所校正的该文档的逻辑结构显示在显示单元12上。
文档识别装置10重复S104至S107中的处理(在S108为否),直到用户动作选择了处理结束为止。当用户动作选择了处理结束(在S108为是)时,文档接收装置10结束该处理。
参照图15来说明显示项目确定处理。图15是示出根据示例性实施方式(诸如第一示例性实施方式)的在该文档识别装置中的显示项目确定处理的流程的流程图。
显示项目确定处理对应于图14中的S107。显示项目确定处理是用于在显示单元12上显示所输入文档的逻辑结构之后当接收到用户动作时基于该用户动作来确定显示项目的处理。
具体地说,在文档识别装置10中,在该显示项目确定处理中,当用户选择特定项目时,其该项目的选择标志设置为ON的逻辑元素被从接口控制单元31发送到逻辑结构分析单元35。因此,逻辑结构分析单元35对存储在文档数据DB 23中的这些逻辑元素进行搜索,并且找到选择标志设置为ON的逻辑元素。逻辑结构分析单元35使用该逻辑元素的逻辑元素ID来参照逻辑结构模型DB 21,以该逻辑元素的父逻辑元素及该父逻辑元素的父逻辑元素的方式来列出跟踪(trace)该相应逻辑元素及高级逻辑元素的所有高级逻辑元素。逻辑元素分析单元35搜索文档数据DB 23,并且找到与所列出的逻辑元素相对应的逻辑元素,而且将这些逻辑元素的显示标志设置为ON。当其选择标志是ON的逻辑元素的候选改变标志是NOW时,逻辑结构分析单元35将该逻辑元素紧上方的逻辑元素的显示标志设置为OFF。
基于逻辑结构模型DB 22,将变量“i(i=0至M)”分配给全部所提取及相关的逻辑元素(逻辑元素Li)。参照流程图来说明上述处理的流程。用户选择了特定项目,而且逻辑结构分析单元35从接口控制单元31接收其中该项目的选择标志被设置为ON的逻辑结构。逻辑结构分析单元35将变量“i”设置为“0”(在S201)。
当变量“i”小于“M”(在S202为是)时,逻辑结构分析单元35判断存储在文档数据DB 23中的逻辑元素“Li”的选择标志是否为ON(在S203)。
当存储在文档数据DB 23的控制信息22d中的逻辑元素“Li”的选择标志为ON(在S203为是)时,逻辑结构分析单元35将逻辑元素“Li”的显示标志设置为ON(在S204)。逻辑结果分析单元35参照存储在逻辑结构模型DB 22中的这些逻辑元素的数据结构,来找到比逻辑元素“Li”更高级的逻辑元素,并且将这些逻辑元素的显示标志设置为ON(在S205)。逻辑结构分析单元35判断逻辑元素“Li”的候选选择标志是否为ON(在S206)。
此后,当存储在文档数据DB 23的控制信息22d中的逻辑元素“Li”的候选选择标志是ON(在S206为是)时,逻辑结构分析单元35将逻辑元素“Li”紧上方的逻辑元素的显示标志设置为OFF,并且结束该处理(在S207)。当逻辑元素“Li”的候选选择标志不是ON(在S206为否)时,逻辑结构分析单元35直接结束该处理。
另一方面,当存储在文档数据DB 23的控制信息22d中的逻辑元素“Li”的选择标志不是ON(在S203为否)时,逻辑信息分析单元35将变量“i”增加1,并针对下一逻辑元素“Li+1”应用S202至S207的处理。
参照图16和图17来说明矛盾项目发现处理。图16是示出根据示例性实施方式(诸如第一示例性实施方式)的在该文档识别装置中的矛盾项目发现处理的流程的流程图。图17是示出根据示例性实施方式(诸如第一示例性实施方式)的在该矛盾项目发现处理中的候选标志改变处理的流程的流程图。
矛盾项目发现处理对应于图14中的S106和S107。矛盾项目发现处理是用于在接收到用户动作(诸如校正)时根据该用户动作来发现在校正内容中产生的矛盾项目的处理。
具体地说,在该矛盾项目发现处理中,文档识别装置10搜索逻辑结构,找到其对应于区域ID的区域是区域候选的逻辑元素,并且列出逻辑元素ID及这些逻辑元素ID的候选等级。当存在多个针对一个区域ID的第一等级候选时,文档识别装置10将与之相对应的逻辑元素及其父逻辑元素上信息的矛盾标志设置为ON。当其选择标志为ON的逻辑元素的候选改变标志是NOW时,针对其第一等级候选是区域候选的逻辑元素,当该逻辑元素不是第一等级候选时,文档识别装置10将该逻辑元素的等级降低为最低候选等级。文档识别装置10增加其它逻辑元素的等级,并且将它们的候选改变标志设置为PAST。
基于逻辑结构模型DB 21,将变量“i(i=0至M)”(逻辑元素Li)和变量“j”(逻辑元素Lj)分配给全部所提取及相关的逻辑元素。参照流程图来说明处理流程。用户选择了特定项目,而且逻辑结构分析单元35从接口控制单元31接收其中存储在文档数据DB 23的控制信息22d中的选择标志被设置为ON的逻辑信息。逻辑信息分析单元35应用变量初始化,以设置这些变量“i”为“0”、“Lj=NULL”和“j=1至N”(在S301)。
当变量“i”小于“M”(在S302为是)时,逻辑信息分析单元35将存储在文档数据DB 23的控制信息22d中的逻辑元素“Li”的第r等级区域候选的ID设置为“s”,并且向L(s)添加(i,r)(在S303),将变量“i”增加1(在S304),并且返回到S302。换句话说,当存在多个针对一个逻辑元素“Li”的候选时,逻辑信息分析单元35将这些候选关联为一个逻辑元素的候选“L(i,r)”。
此后,当变量“i”增加到大于“M”(在S302为否)时,逻辑结构分析单元35将一侧的“j”设置“0”(在S305),并且判断变量“j”是否小于“N”(在S306)。
当变量“j”小于“N”(在S306为是)时,逻辑结构分析单元35参照文档数据DB 23的控制信息22d,当在“Lj”中存在多个第一等级候选时,将与这些第一等级候选相对应的逻辑元素的矛盾标志设置为ON(在S307),将变量“j”增加1(在S308),并且重复步骤S306及其后续步骤的处理。当变量“j”增加到大于“N”(在S306为否)时,逻辑结构分析单元35结束该处理。
参照文档数据DB 23的控制信息22d,当由用户改变的逻辑元素“Li”被用作另一区域的逻辑元素“Lj”时,因为出现矛盾,所以逻辑结构分析单元35判断是否存在与用户所改变的逻辑元素“Li”相符的另一逻辑元素“Li”。当存在这种逻辑元素“Lj”时,逻辑结构分析单元35将该逻辑元素“Lj”的矛盾标志设置为ON。
参照图17来说明根据示例性实施方式(诸如第一示例性实施方式)的在该矛盾项目发现处理中的候选标志改变处理的流程。如图17所示,用户选择了特定项目,而且逻辑结构分析单元35从接口控制单元31接收其中存储在文档数据DB 23的控制信息22d中的选择标志为ON的逻辑信息。逻辑信息分析单元35将变量“i”设置为0(在S401)。
当变量“i”小于“M”(在S402为是)时,逻辑结构分析单元35将存储在文档数据DB 23的控制信息22d中的逻辑元素“Li”的选择标志设置为ON,将逻辑元素“Li”的候选改变标志设置为ON,将逻辑元素“Li”的第一等级候选的ID设置为“s”,并且将在这些逻辑元素L(s)中不是第一等级候选的逻辑元素降低为在这些相应逻辑元素中等级最低的最低等级候选(在S403至S405)。此后,逻辑结构分析单元35将变量“i”增加“1”(在S406),并针对下一逻辑元素“Li+1”应用S402至S405的处理。当变量“i”增加到大于“M”时(在S402为否),逻辑结构分析单元35结束该处理。
参照图18来说明显示信息设置处理。图18是示出根据本发明的示例性实施方式(诸如第一示例性实施方式)的在该文档识别装置中的显示信息设置处理的流程的流程图。该显示信息设置处理对应于图14的S107。该显示信息设置处理是用于在矛盾项目发现处理之后确定显示项目并且确定要显示的图像的区域的处理。
具体地说,在该显示信息设置处理中,文档识别装置10针对其显示标志为ON的逻辑元素,找到没有根逻辑元素的最高级逻辑元素,并且将该逻辑元素设置为显示信息的最高级逻辑元素。在该显示信息设置处理中,文档识别装置10在校正窗口显示项目中写入显示标志是ON的逻辑元素以及矛盾标志是ON的逻辑元素。针对第一等级区域候选中的这些区域以及次选择标志为ON的逻辑元素中的第x等级区域候选的区域(次选择编号为x),文档识别装置10在文档图像上找到环绕这些区域的外接(circumscribed)矩形。文档识别装置10在外接矩形周围增加大小预先确定的空白(margin),如果该外接矩形超出该图像则校正该外接矩形使其不超出该图像,在该文档图像上确定显示区域,并且在图像显示区域中设置该显示区域的坐标。
基于逻辑结构模型DB 22,将变量“i(i=0至M)”分配给全部所提取及相关的逻辑元素(逻辑元素Li)。参照流程图来说明上述处理的流程。当用户选择了特定项目而且逻辑结构分析单元35从接口控制单元31接收其中该项目的选择标志为ON的逻辑信息时,逻辑结构分析单元35将变量“i”设置为“0”(在S501)。
当变量“i”小于“M”(在S502为是)时,逻辑结构分析单元35判断存储在文档数据DB 23的控制信息22d中的逻辑元素“Li”的显示标志是否为ON(在S503)。
当存储在文档数据DB 23的控制信息22d中的逻辑元素“Li”的显示标志不为ON(在S503为否)时,逻辑结构分析单元35判断存储在文档数据DB 23的控制信息22d中的逻辑元素“Li”的矛盾标志是否为ON(在S504)。当该矛盾标志是ON(在S504为是)时,逻辑结构分析单元35在该区域列表中添加逻辑元素“Li”的第一等级区域候选,并且向这些校正窗口项目添加区域候选“Li”(在S505)。
当存储在文档数据DB 23的控制信息22d中的逻辑元素“Li”的次选择标志为ON(在S506为是)时,逻辑结构分析单元35向该区域列表添加逻辑元素“Li”的次选择编号x,作为逻辑元素“Li”的第x等级区域候选(在S507)。此后,逻辑结构分析单元35将变量“i”增加1(在S508),并且重复S502至S508的处理。
另一方面,当存储在文档数据DB 23的控制信息22d中的逻辑元素“Li”的次选择标志不为ON(在S506为否)时,此后,逻辑结构分析单元35将变量“i”增加1(在S508),并且重复S502至S508的处理。
返回到S503,当存储在文档数据DB 23的控制信息22d中的逻辑元素“Li”的显示标志为ON(在S503为是)时,逻辑信息分析单元35执行S505的处理。当存储在文档数据DB 23的控制信息22d中的逻辑元素“Li”的矛盾标志不为ON(在S504为否)时,逻辑信息分析单元35执行步骤S506的处理。
此后,当变量“i”增加到大于“M”时(在S502为否),逻辑结构分析单元35使用坐标针对该区域列表中的区域来计算外接矩形,向所计算的外接矩形添加预先确定的空白以设置用于显示信息的图像显示区域,并且将该图像显示区域存储在文档数据DB 23的显示信息22e中(在S509和S510)。
参照图19至图25,通过使用画面显示的示例来说明该文档识别装置的处理。图19是示出要显示的画面的示例的图。图20是示出由该用户所选择的画面的图。图21是示出其上例示了逻辑元素候选的画面的图。图22是示出其中由该用户校正逻辑元素的示例的图。图23是示出其中发现矛盾项目的示例的图。图24是示出其中校正该矛盾项目的示例的图。图25是示出其中完成该校正的示例的图。
在逻辑信息的校正画面中,并列地设置要识别的图像和校正窗口(参见图19)。在该校正窗口中显示逻辑信息。用户可以自由地写入该逻辑信息的数据部分。在数据输入部分的右下方设置按钮。当选择了数据输入部分时,这些按钮被激活。当用户按下这些按钮时,显示候选。当用户选择逻辑元素时,文档识别装置10参照控制信息22d等,清晰地显示与所选择逻辑元素有关的更高级逻辑元素以及文档上对应于这些逻辑元素的区域。这使得能够对具有相同词语但是具有不同意义的标题进行区别。这使得校正可靠并且高效。
作为具体示例,当该文档识别装置执行图14所示的S101至S103的处理时,如图19所示,文档识别装置10在显示单元12上显示作为所读取原始文档的数据的文档图像(a)以及通过从所读取文档获取逻辑结构而生成的校正窗口(b)。文档识别装置10包括如图8至图10所述的与此处显示的各个逻辑元素(例如,负责人和电话号码)相关的数据。
在该示例中,用户错误地识别了负责人的电话号码和办公室的电话号码。当该用户点击并选择校正画面上负责人的电话号码空间时,文档识别装置10在基本相同的时刻对与之相对应的标题(例如,高级标题)进行高亮,在左侧文档图像的矩形中显示与之相对应的字符串,并且以这些字符串的大小来居中显示电话号码(044-777-1111)。用户观察该显示并且立即注意到该字符串的对应关系有误(参见图20)。
除非不具有任意根逻辑元素的该标题的最高级逻辑元素改变,否则文档识别装置10不改变该文档图像的显示。因此,在左侧的该文档图像在每次检查时并不移动,而在该标题的最高级逻辑元素改变时移动。因此,在检查这些逻辑元素时,用户可以流畅地移动视点(eye point)。例如,假设所有的逻辑结构识别结果都是如图7所示般正确,则文档识别装置10按照从该校正窗口的顶部开始的次序来检查这些逻辑元素。当检查了负责人姓名、负责人地址和负责人电话号码时,封闭(close up)并且显示该文档图像中的该负责人的表,而且该画面不移动。当检查了办公室地址时,该画面移动以封闭该办公室的表。
此后,当用户校正逻辑项目时,文档识别装置10基于该校正的结果来向该用户呈现矛盾项目或要被检查的项目。如果该用户校正的逻辑元素是相关部分并且有误时,文档识别装置10呈现出该校正很可能有误。
例如,因为用户注意到该负责人的电话号码有误,所以当该用户点击右下方的灰色按钮时,文档识别装置10显示另一字符串候选(参见图21)。当用户将光标放在第二候选上时,文档识别装置10在该文档画面上的矩形中显示与该字符串候选相对应的字符串(参见图22)。此后,用户检查并选择该字符串。然后,因为该办公室的电话号码重叠,所以文档识别装置10在该校正画面上显示矛盾部分,并且要求该用户检查该部分(参见图23)。类似地,当点击右下方的灰色按钮时,文档识别装置10显示另一字符串候选(参见图24)。用户将该光标放在第二候选上并且选择该第二候选(参见图25)。
此后,每次用户执行校正时,文档识别装置10对校正结果与识别结果候选进行比较,并且更新该识别结果候选的等级(参见图26和图27)。图26是示出其中向负责人及办公室添加具有父权限的个人空间的画面的示例的图。图27是示出逻辑结构识别结果的一部分的图。假设该负责人地址的识别候选是“1.K”、“2.C”和“3.Q”,而该办公室的识别候选是“1.Q”、“2.C”和“3.K”。当该负责人地址被校正为C时,文档识别装置10可以确定该办公室的识别候选几乎不可能是C。因此,文档识别装置10将该办公室的识别候选改变为“1.Q”、“2.K”和“3.C”。
针对上述处理的流程,在这种显示画面中,通过点击可以选择这些标题的字符串及数据输入部分,并且可以根据该用户操作来在该校正窗口中改变这些数据部分中的字符串。针对这些数据部分的改变,用户具有两种机制:用于选择识别候选的机制及用于直接写入字符串的机制。
具体地说,当用户在该校正窗口中点击这些标题的字符串及这些数据输入部分中的任意一个时,文档识别装置10发现点击了哪个位置,并且将与之对应的逻辑信息的选择标志设置为ON。当文档识别装置10在该校正窗口中显示数据字符串的第二等级及更低等级识别候选并且用户将光标(鼠标)放在其上时,文档识别装置10将次选择标志设置为ON并且将该光标所处的候选的候选等级设置为子候选编号。每次当该光标所处的候选改变时,文档识别装置10执行该同一处理。当用户选择候选时,文档识别装置10更新识别候选的等级以将所选择候选设置在与该候选相对应的逻辑信息的第一等级中,并且将该候选改变标志设置为NOW。当直接写入字符串时,文档识别装置10使用该字符串来替换该逻辑信息的第一等级候选的字符串,清除该字符信息以将字符数量减小为0,并且清除区域ID和坐标。
如图19所示,在文档识别装置10显示的该画面中,存在其中显示文档图像的窗口和其中显示校正图像的窗口。在该文档图像的显示中,文档识别装置10显示与显示信息的图像显示区域相对应的文档图像的区域。在该校正窗口中,文档识别装置10显示希望从文档输入的数据及其标题并显示高级标题。可以预先设置要输入逻辑结构模型DB 22的哪些数据并且可以预先设置按照怎样的次序来显示该数据。在初始状态,文档识别装置10显示所有数据。然而,当用户开始校正工作时,文档识别装置10部分地显示该数据,使得写入在该显示信息的校正窗口显示项目中的逻辑元素被包括在该数据中。
具体地说,逻辑结构分析单元35从接口控制单元31接收逻辑信息和显示信息。逻辑结构分析单元35参照显示信息22e的最高级逻辑元素和图像显示区域,来对前面紧邻的最高级逻辑元素与图像显示区域进行比较。如果该最高级逻辑元素与前面紧邻的逻辑元素相同而且该图像显示区域被包括在前面紧邻的图像显示区域中,则逻辑结构分析单元35不将显示区域改变为前面紧邻的显示区域。否则,逻辑信息分析单元35将给定图像显示区域确定为显示区域,并且将该显示区域存储在显示信息22e中。
逻辑结构分析单元35在该文档图像上显示该图像显示区域,使得写入在该校正窗口上的校正窗口显示项目中的逻辑元素被包括在其中。而且,针对在控制信息22e中显示标志为ON的逻辑元素,逻辑结构分析单元35以矩形来显示在第一等级的区域候选中的区域。在该校正窗口上,如果该逻辑元素是标题,则逻辑结构分析单元35使用不同的字符串颜色(例如,蓝色)来显示该逻辑元素。如果该逻辑元素是数据,则逻辑分析单元35使用不同的输入部分的颜色(例如,红色)来显示该逻辑元素。类似地,针对控制信息22d中选择标志是ON而且次选择标志是ON的逻辑元素,逻辑结构分析单元35将次选择编号设置为x。逻辑结构分析单元35以不同的颜色(例如,桔色)以矩形来显示在第x等级区域候选中的区域。逻辑结构分析单元35使用不同的该逻辑元素的字符串的颜色(例如,绿色),来显示在控制信息22d中显示标志是OFF而且矛盾标志是ON的逻辑元素。当该逻辑元素的类型是数据时,逻辑结构分析单元35以不同的颜色(例如,绿色)以矩形来显示在这些第一等级区域候选中的区域。
这样,根据示例性实施方式,该文档识别装置将文档上的字符串以及该文档上的字符串与存储在逻辑结构模型DB 22中的逻辑元素的彼此关系之间的关联,作为文档数据而存储在文档数据DB 23中,识别所输入文档,并且提取与存储在逻辑结构模型DB 22中的逻辑元素相符的字符串而且将这些字符串存储在文档数据DB 23中。该文档识别装置提取满足存储在逻辑结构模型DB 22中的这些逻辑元素之间关系的该文档上字符串的组合,并且将该文档上的这些字符串与存储在逻辑结构模型DB22中的这些逻辑元素的彼此关系之间的关联存储在文档数据DB 23中,而且向显示单元12输出所识别的文档图像以及存储在文档数据DB 23中的该文档数据。当用户选择显示在显示单元12上的该文档数据的字符串时,该文档识别装置从文档数据DB 23中指定与所选择字符串相关的字符串并且在显示单元12上显示文档数据,其中所指定字符串与其它字符串相区别。此外,该文档识别装置在显示单元12上显示至少包括该文档图像的文档数据的所指定字符串的图像。因此,可以减轻在针对所识别文档数据的校正工作中的校正操作员的负担。
根据示例性实施方式(诸如第一示例性实施方式),该文档识别装置识别所输入的文档,提取要作为存储在逻辑结构模型DB 22中的逻辑元素的候选的该文档上的字符串,并且将这些字符串存储在文档数据DB 23中。该文档识别装置提取满足存储在逻辑结构模型DB 22中的逻辑元素之间关系的该文档上字符串的多个组合,并且将该文档上的字符串与存储在逻辑结构模型DB 22中的这些逻辑元素的彼此关系之间的关联存储在文档数据DB 23中。当用户选择显示在显示单元12上的文档数据的字符串时,该文档识别装置还从文档数据DB 23中指定要作为所选择字符串的候选的其它字符串,并且还在显示单元12上与该用户所选择的字符串相关联地显示要作为候选的所指定的其它字符串。因此,校正操作员(该用户)可以立即注意到该字符串的对应关系有误。
根据示例性实施方式(诸如第一示例性实施方式),该文档识别装置识别所输入的文档,提取文档上要作为存储在逻辑结构模型DB 22中的逻辑元素的候选的字符串的等级,并且将这些字符串等级与这些字符串相关联地存储在文档数据DB 23中。该文档识别装置提取满足存储在逻辑结构模型DB 22中的逻辑元素之间关系的该文档上字符串的多个组合,并且将该文档上的字符串与存储在逻辑结构模型DB 22中的逻辑元素彼此关系之间的关联,存储在文档数据DB 23中。当用户选择显示在显示单元12上的文档数据的字符串时,该文档识别装置从文档数据DB23中指定要将作为所选择字符串的候选的其它字符串以及这些字符串的等级,并且在显示单元12上与该用户所选择的字符串相关联地显示具有要作为候选的等级的所指定的其它字符串。因此,校正操作员(该用户)可以立即注意到该字符串的对应关系有误,并且可以容易地选择新的字符串候选。
根据示例性实施方式(诸如第一示例性实施方式),当用户对显示在显示单元12上的文档数据的字符串进行校正时,该文档识别装置从文档数据DB 23中指定与所校正字符串具有逻辑元素之间关系的另一字符串,并且在显示单元12上显示文档数据,其中具有这些逻辑元素之间关系的所指定字符串与其它未指定字符串相区别。该文档识别装置在显示单元12上显示至少包括该文档图像的文档数据的所指定字符串的图像。因此,可以在用户每次校正识别结果时对数据字符串候选的等级进行改变,并且如果这些等级与校正结果矛盾,则会吸引用户的注意。因此,用户可以准确并快速地执行校正。
上面已经描述了本发明的各种示例性实施方式。下面将描述额外的示例性实施方式:(1)文档图像形式、(2)系统设置等以及(3)程序。
(1)文档图像形式
例如,本发明可以将上述同一处理应用到纸质介质的文档图像、从网络接收到的电子文件的文档图像、各种存储介质、电子邮件等。
(2)系统设置等
在附图中示出的这些设备的各个组件是功能性概念,并不需要物理地设置为如图所示。换句话说,各个设备的分布及集成的具体形式不限于附图所示的那些形式。可以根据各种负载及使用状态而将这些设备的全部或一部分功能性地或物理性地分布或集成在任意单元中。在这些设备中执行的各个处理功能中的全部或一部分可以通过诸如中央处理单元(CPU)的电子逻辑单元以及由该CPU分析并执行的程序来实现,或可以通过硬件逻辑以硬件的方式来实现。
在此处描述的各个示例性实施方式的各个处理中,被解释为自动执行的处理的全部或部分类型可以被手动地执行。被解释为手动执行的处理的所有或部分类型可以由公知的方法自动地执行。此外,除非另行特别注明,否则可以任意地改变上面描述及附图中所示的这些处理过程、这些控制过程、这些具体名称以及包括各种数据及参数的信息。
(3)程序
此处描述的各种示例性实施方式中的各种处理可以通过使用诸如个人计算机和工作站的计算机系统执行预先准备的程序来实现。因此,在下面的描述中,还描述执行具有与上述各个示例性实施方式中的功能基本相同的功能的程序的计算机系统。
图28是示出执行文档识别程序的计算机系统的示例的图。如图28所示,计算机系统100包括RAM 101、HDD 102、ROM 103以及CPU 104。预先在ROM 103中存储提供与上述各个示例性实施方式中的功能基本相同功能的程序(例如,文档数据存储程序103a和显示控制程序103b),如图28所示。程序103a及103b中的各个可以包括用于执行与上述各个示例性实施方式中的功能基本相同的一个或更多个功能的编程过程或程序模块。
CPU 104读出并执行这些程序103a及103b,由此程序103a及103b变为文档数据存储处理104a及显示控制处理104b,如图28所示。文档数据存储处理104a对应于图2所示的字符识别单元33及逻辑结构识别单元34。显示控制处理104b对应于图2所示的接口控制单元31及逻辑结构分析单元35。
在HDD 102中提供逻辑结构模型表102a及文档数据表102b,逻辑结构模型表102a用于存储指示各个文档中的逻辑元素及这些逻辑元素之间关系的逻辑结构,而文档数据表102b用于将文档上的字符串及该文档上的字符串与存储在逻辑结构模型表102a中的这些逻辑元素的彼此关系之间的关联,作为文档数据而进行存储。逻辑结构模型表102a对应于图2所示的逻辑结构模型DB 22。文档数据表102b对应于图2所示的文档数据DB 23。
并不一定要将程序103a及103b存储在ROM 103中。例如,除了计算机可读介质之外,程序103a和103b例如可以存储在计算机可读便携式物理介质(诸如插入在计算机系统100中的软盘(FD)、CD-ROM、MO盘、DVD盘、磁光盘和IC卡)中,可以存储在“固定物理介质”(诸如设置在计算机系统100的内部和外部的硬盘驱动器(HDD))中,可以存储在经由公共线路、互联网、LAN、WAN等与计算机系统100相连的“其它计算机系统”中。计算机系统100可以从这些介质读出这些程序并且执行这些程序。
根据该详细的说明书,本发明的这些实施方式的各种特征和优点是明显的,因此,旨在由所附权利要求覆盖落入本发明真实精神和范围内的这些实施方式的所有这些特征和优点。此外,因为本领域技术人员容易想得到各种修改和变化,所以不希望将这些发明性实施方式限制为所示及所述的确切构造和操作,相应地,可以采用落入本发明的精神内的所有合适的修改和等同物。
相关申请的交叉引用
本申请要求于2007年11月9日提交的日本专利申请No.2007-292618的优先权,此处通过引用并入其全部内容。

Claims (7)

1.一种文档识别方法,该文档识别方法适于根据存储在逻辑结构模型存储部中的逻辑结构来识别输入文档的逻辑结构,所述逻辑结构模型存储部存储逻辑结构,该逻辑结构指示多种文档中的逻辑元素并指示所述逻辑元素之间的关系,所述文档识别方法包括以下步骤:
(1)将输入文档上的字符串以及所述输入文档上的所述字符串与存储在所述逻辑结构模型存储部中的逻辑元素之间的关系的关联,作为文档数据而存储在存储器中;
(2)向显示单元输出所述输入文档以及存储在所述存储器中的所述文档数据;
(3)当用户选择显示在所述显示单元上的所述文档数据的字符串时,从所述存储器中指定与所选择的字符串有逻辑关系的字符串;
(4)在所述显示单元上显示所指定的字符串;以及
(5)在所述显示单元上显示所述输入文档的至少包括所指定的字符串的区域,
其中所述步骤(1)包括:
对所述输入文档进行识别,从所述输入文档中提取与存储在所述逻辑结构模型存储部中的所述逻辑元素相符的字符串;
将所提取的字符串存储在所述存储器中;
提取所述输入文档上的满足存储在所述逻辑结构模型存储部中的所述逻辑元素之间的所述关系的字符串组合;
将所述输入文档上的所述字符串与存储在所述逻辑结构模型存储部中的所述逻辑元素之间的所述关系的关联,存储在所述存储器中。
2.根据权利要求1所述的方法,其中,所述步骤(1)还包括:
提取所述输入文档上的要作为存储在所述逻辑结构模型存储部中的所述逻辑元素的候选的字符串,并将所提取的要作为所述逻辑元素的候选的字符串存储在所述存储器中。
3.根据权利要求2所述的方法,其中,所述步骤(3)还包括:
当所述用户选择显示在所述显示单元上的所述文档数据的字符串时,基于与所述选择的字符串相关联的所述逻辑元素的候选从所述存储器中指定要作为所述选择的字符串的候选的其它字符串;以及
在所述显示单元上与所述用户所选择的所述字符串相关联地显示要作为候选的所述指定的其它字符串。
4.根据权利要求3所述的方法,其中,所述步骤(1)还包括:
提取所述输入文档上的要作为存储在所述逻辑结构模型存储部中的所述逻辑元素的候选的字符串的等级,并将所述等级与所提取的要作为所述逻辑元素的候选的字符串相关联地存储在所述存储器中。
5.根据权利要求4所述的方法,其中,所述步骤(3)还包括:
在所述步骤(3)中,当用户选择显示在所述显示单元上的所述文档数据的字符串时,基于与所述选择的字符串相关联的所述逻辑元素的候选从所述存储器中指定要作为所述选择字符串的候选的其它字符串以及要作为所述选择字符串的候选的所述其它字符串的等级;以及
在所述显示单元上与所述用户所选择的所述字符串相关联地显示具有要作为候选的等级的所指定的其它字符串。
6.根据权利要求1所述的方法,其中:
在所述步骤(3)中,当所述用户对显示在所述显示单元上的所述文档数据的字符串进行校正时,从所述存储器中指定与所述校正的字符串具有所述逻辑元素之间的所述关系的其它字符串。
7.一种文档识别装置,该文档识别装置包括逻辑结构模型存储部,该逻辑结构模型存储部存储逻辑结构,该逻辑结构指示多种文档中的逻辑元素并指示所述逻辑元素之间的关系,所述文档识别装置根据存储在所述逻辑结构模型存储部中的所述逻辑结构来识别被输入进行识别的文档的逻辑结构,所述文档识别装置包括:
第一装置,所述第一装置将输入文档上的字符串以及所述输入文档上的所述字符串与存储在所述逻辑结构模型存储部中的逻辑元素之间的关系的关联,作为文档数据而存储在存储器中;
第二装置,所述第二装置向显示单元输出所述输入文档以及存储在所述存储器中的所述文档数据;
第三装置,所述第三装置当用户选择显示在所述显示单元上的所述文档数据的字符串时,从所述存储器中指定与所选择的字符串具有逻辑关系的字符串;
第四装置,所述第四装置在所述显示单元上重新显示文档数据,所述文档数据中包括所指定的字符串;以及
第五装置,所述第五装置在所述显示单元上显示所述输入文档的至少包括所指定的字符串的区域,
其中所述第一装置包括:
对所述输入文档进行识别,从所述输入文档中提取与存储在所述逻辑结构模型存储部中的所述逻辑元素相符的字符串的单元;
将所提取的字符串存储在所述存储器中的单元;
提取所述输入文档上的满足存储在所述逻辑结构模型存储部中的所述逻辑元素之间的所述关系的字符串组合的单元;
将所述输入文档上的所述字符串与存储在所述逻辑结构模型存储部中的所述逻辑元素之间的所述关系的关联,存储在所述存储器中的单元。
CN2008101741091A 2007-11-09 2008-11-07 文档识别装置和方法 Expired - Fee Related CN101430758B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007292618 2007-11-09
JP2007292618A JP4998219B2 (ja) 2007-11-09 2007-11-09 帳票認識プログラム、帳票認識装置および帳票認識方法
JP2007-292618 2007-11-09

Publications (2)

Publication Number Publication Date
CN101430758A CN101430758A (zh) 2009-05-13
CN101430758B true CN101430758B (zh) 2012-10-10

Family

ID=40624721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101741091A Expired - Fee Related CN101430758B (zh) 2007-11-09 2008-11-07 文档识别装置和方法

Country Status (3)

Country Link
US (1) US8015203B2 (zh)
JP (1) JP4998219B2 (zh)
CN (1) CN101430758B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4998237B2 (ja) * 2007-12-06 2012-08-15 富士通株式会社 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法
JP2010157107A (ja) * 2008-12-26 2010-07-15 Hitachi Software Eng Co Ltd 業務文書処理装置
CN102034081B (zh) * 2009-09-25 2016-06-22 神基科技股份有限公司 使用影像作为数据来源的计算器装置
JP5550959B2 (ja) * 2010-03-23 2014-07-16 株式会社日立ソリューションズ 文書処理システム、及びプログラム
CN102236782A (zh) * 2010-04-30 2011-11-09 陈斌 一种证书证件文字识别方法
JP5832432B2 (ja) * 2010-06-15 2015-12-16 株式会社ナビタイムジャパン ナビゲーションシステム、ナビゲーション方法、および、プログラム
CN102479037B (zh) * 2010-11-30 2014-02-26 汉王科技股份有限公司 电子阅读器及电子阅读器的屏幕内容选取方法
US8347391B1 (en) * 2012-05-23 2013-01-01 TrustPipe LLC System and method for detecting network activity of interest
DE102012025351B4 (de) * 2012-12-21 2020-12-24 Docuware Gmbh Verarbeitung eines elektronischen Dokuments
US8856324B2 (en) 2013-01-28 2014-10-07 TrustPipe LLC System and method for detecting a compromised computing system
US10067921B2 (en) * 2014-03-20 2018-09-04 Nec Corporation Information processing apparatus, information processing method, and information processing program
US10049269B2 (en) * 2015-09-30 2018-08-14 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium
JP6784274B2 (ja) 2018-04-02 2020-11-11 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
JP7354697B2 (ja) * 2019-08-30 2023-10-03 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
JP7458816B2 (ja) 2020-02-18 2024-04-01 キヤノン株式会社 データ入力支援装置、データ入力支援方法、表示装置、及びプログラム
JP7501012B2 (ja) * 2020-03-16 2024-06-18 富士フイルムビジネスイノベーション株式会社 文書処理装置、文書管理サーバ及びプログラム
JP2022097259A (ja) * 2020-12-18 2022-06-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN113221886A (zh) * 2021-05-17 2021-08-06 广西安怡臣信息技术有限公司 一种基于图文识别后的文字学习校对系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5574802A (en) * 1994-09-30 1996-11-12 Xerox Corporation Method and apparatus for document element classification by analysis of major white region geometry

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0407935B1 (en) * 1989-07-10 1999-10-06 Hitachi, Ltd. Document data processing apparatus using image data
JPH05158984A (ja) * 1991-12-05 1993-06-25 Ricoh Co Ltd 文字列抽出装置
JP2579397B2 (ja) * 1991-12-18 1997-02-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 文書画像のレイアウトモデルを作成する方法及び装置
JP3268084B2 (ja) 1993-09-21 2002-03-25 株式会社東芝 帳票読取システム
JPH07134750A (ja) * 1993-11-11 1995-05-23 Nec Corp 文書画像認識装置
JPH10222612A (ja) 1997-02-07 1998-08-21 Hitachi Ltd 文書認識装置
JP4047454B2 (ja) * 1998-06-08 2008-02-13 沖電気工業株式会社 文字認識装置
US6356903B1 (en) * 1998-12-30 2002-03-12 American Management Systems, Inc. Content management system
JP2002007951A (ja) * 2000-06-19 2002-01-11 Hitachi Ltd 帳票入力方法及びその実施装置並びにその処理プログラムを記録した記録媒体
US6754654B1 (en) * 2001-10-01 2004-06-22 Trilogy Development Group, Inc. System and method for extracting knowledge from documents
JP2003223610A (ja) * 2002-01-28 2003-08-08 Toshiba Corp 文字認識装置及び文字認識方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5574802A (en) * 1994-09-30 1996-11-12 Xerox Corporation Method and apparatus for document element classification by analysis of major white region geometry

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JP特開2001-51988A 2001.02.23
JP特開平10-222612A 1998.08.21

Also Published As

Publication number Publication date
JP4998219B2 (ja) 2012-08-15
CN101430758A (zh) 2009-05-13
US20090125509A1 (en) 2009-05-14
JP2009122722A (ja) 2009-06-04
US8015203B2 (en) 2011-09-06

Similar Documents

Publication Publication Date Title
CN101430758B (zh) 文档识别装置和方法
US20070098263A1 (en) Data entry apparatus and program therefor
US5586198A (en) Method and apparatus for identifying characters in ideographic alphabet
US7634718B2 (en) Handwritten information input apparatus
US8913832B2 (en) Method and device for interacting with a map
JP4998220B2 (ja) 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法
CN103384896A (zh) 数字漫画编辑装置及其方法
WO2001053974A1 (en) Unique architecture for handheld computers
WO2005073886A1 (ja) 表フォーマットデータ処理方法並びに表フォーマットデータ処理装置
CN102171708A (zh) 商业文档处理器
Bendoly Excel Basics to Blackbelt: An Accelerated Guide to Decision Support Designs
CN110019862B (zh) 一种课件推荐方法、装置、设备及存储介质
KR101966177B1 (ko) 다중 다차원 속성을 가진 스프레드 시트 처리 방법 및 시스템
JP2007323474A (ja) Ocrシステム、ocrフォーマットパラメータ作成方法、そのプログラムおよびプログラム記録媒体
EP3470993A1 (en) A method and system for click thru capability of electronic media
US9600480B2 (en) Systems and methods for indexing and linking electronic documents
JPH1173472A (ja) フォーマット情報登録方法及びocrシステム
CN113111881A (zh) 信息处理装置及记录媒体
JP4887243B2 (ja) 情報照合装置、情報照合方法、プログラムおよび記録媒体
JP6048601B2 (ja) 情報表示装置、プログラムおよび単語情報表示方法
JP4734551B2 (ja) 表フォーマットデータ処理方法並びに表フォーマットデータ処理装置
JP4357240B2 (ja) 文字認識装置、文字認識方法、プログラムおよび記憶媒体
AU2013200005B2 (en) Method and apparatus for analyzing abbreviations in a document
JP5315890B2 (ja) 評価システムおよび評価方法
JPH0562008A (ja) 文字認識方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121010

Termination date: 20181107

CF01 Termination of patent right due to non-payment of annual fee