CN100447805C - 文档处理装置和文档处理方法 - Google Patents

文档处理装置和文档处理方法 Download PDF

Info

Publication number
CN100447805C
CN100447805C CNB2005100559257A CN200510055925A CN100447805C CN 100447805 C CN100447805 C CN 100447805C CN B2005100559257 A CNB2005100559257 A CN B2005100559257A CN 200510055925 A CN200510055925 A CN 200510055925A CN 100447805 C CN100447805 C CN 100447805C
Authority
CN
China
Prior art keywords
document
data
string
title
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100559257A
Other languages
English (en)
Other versions
CN1750018A (zh
Inventor
增市博
刘绍明
田宗道弘
田川昌俊
田代洁
伊藤笃
石川恭辅
佐藤直子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN1750018A publication Critical patent/CN1750018A/zh
Application granted granted Critical
Publication of CN100447805C publication Critical patent/CN100447805C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Input (AREA)

Abstract

文档处理装置、文档处理方法和记录相关程序的存储介质。本发明提供了一种文档处理装置,包括:存储器,其存储有语法数据,所述语法数据表示成为文档标题的可能性大的字符串或者成为文档标题的可能性小的字符串的语法;输入单元,其输入通过对文档进行数字化而获得的文档数据;提取单元,其分析输入的文档数据、并提取表示字符串的字符串数据;语法分析单元,其分析所提取的字符串数据、并指定对应于文档数据的文档中包含的各字符串的语法;以及指定单元,其根据语法分析单元的指定结果以及存储在存储器中的内容,从所提取的字符串数据中指定表示与文档数据对应的文档的标题的字符串数据。

Description

文档处理装置和文档处理方法
技术领域
本发明涉及用于将纸质文档数字化的技术,具体地,涉及用于根据纸质文档的内容指定标题的技术。
背景技术
纸质文档(以下也称作“文档”)是用于传递和记录信息的优质介质,但是必然伴有包括需要保存空间(例如档案库)的问题。此外,当将信息记录在纸质文档中并保存时,如果以后需要记录在这些纸质文档中的信息,则必须在档案库和类似地方中保存的大量纸质文档中寻找其中记录有期望信息的纸质文档。换言之,从操作效率的观点来看,在纸质文档中记录并保存信息并非理想的。
在这种情况下,通常将纸质文档数字化并存储。具体地说,通常使用扫描仪等读取与纸质文档中的各页对应的图像、将与各个纸质文档的这些图像对应的图像数据(以下称为“文档图像数据”)转换为文件、并将这些文件存储在诸如硬盘的存储装置中。
当将这些文件保存到硬盘等时,在对各个文件添加唯一的文件名之后进行存储、或者根据类型对要数字化的文档进行分类从而将其归档是比较方便的,但是,为了实现此目的,必须准确地为文档指定标题。这是因为通常使用包含文档标题的字符串作为名称,还因为文档标题通常准确地反映了文档类型。已经提出了根据文档图像数据来指定对应于文档图像数据的文档的标题的诸多技术。更详细地说,公知地,提供了根据字符串周围的图像信息(即,表示附于字符串的下划线的图像信息和/或表示与位于上方或者下方的字符串之间的距离的图像信息)来指定文档标题的技术。
然而,以上公开的技术具有如下问题:文档的标题是根据是否存在与待数字化的纸质文档中所包含的字符串的有意义内容无关的格式编排(例如下划线)、或者根据与其他字符串的距离来指定的,从而容易出现判断错误,这使得无法达到高至可以实行的指定精度水平。
鉴于以上情况提出了本发明,并且本发明提供了一种技术,其使得可以提高在根据将文档数字化而获得的文档数据来指定文档标题时的指定精度。
发明内容
为了解决上述问题,本发现提供了一种文档处理装置,其包括:存储单元,用于存储语法数据,所述语法数据表示成为文档标题的可能性大的字符串的语法或者成为文档标题的可能性小的字符串的语法;输入单元,将对文档进行数字化而获得的文档数据输入到所述输入单元;提取单元,用于分析输入到所述输入单元的文档数据、并提取表示字符串的字符串数据;语法分析单元,用于分析由所述提取单元提取的字符串数据、并指定包含在对应于文档数据的文档中的各字符串的语法,所述语法是构成字符串的字符的树结构;以及指定单元,用于根据所述语法分析单元的指定结果以及所述存储单元所存储的内容,从所述提取单元所提取的字符串数据中指定表示与文档数据对应的文档的标题的字符串数据,其中,利用权重数据表示具有语法数据所表示的语法的字符串是文档标题的可能性程度,并且所述权重数据与存储在所述存储器中的语法数据相关联,并且所述指定单元根据与表示所述语法分析单元所指定语法的语法数据相关联地存储在所述存储器中的权重数据,指定表示所述文档标题的字符串数据。
本发明另一方面提供了一种文档处理方法,包括:在存储器中存储语法数据,所述语法数据表示成为文档标题的可能性大的字符串或者成为文档标题的可能性小的字符串的语法;输入通过对文档进行数字化而获得的文档数据;通过对所输入的文档数据进行分析来提取表示字符串的字符串数据;通过对所提取的字符串数据进行分析,指定与所述文档数据对应的文档中包含的各个字符串的语法,所述语法是构成字符串的字符的树结构;以及根据指定结果和所述存储器中存储的内容,从所提取的字符串数据中指定表示与所述文档数据对应的文档的标题的字符串数据,其中,利用权重数据表示具有语法数据所表示语法的字符串是文档标题的可能性程度,并且所述权重数据与所述存储器中存储的语法数据相关联,并且所述字符串数据指定步骤包括:根据与表示所指定语法的语法数据相关联地存储在所述存储器中的权重数据,指定表示文档标题的字符串数据。
使用这种文档处理装置和程序,根据所处理文档中包含的各个字符串的语法来指定文档的标题。
附图说明
将根据附图来详细说明本发明的实施例,其中:
图1是示出配置有根据本发明第一实施例的文档处理装置110的文档数字化系统的总体结构的示例图;
图2是示出文档处理装置110的硬件结构的示例图;
图3是示出文档处理装置110上的非易失性存储单元220b中存储的语法表的表格式的示例图;
图4是示出成为文档标题的可能性小的字符串的语法的示例图;
图5是示出成为文档标题的可能性大的字符串的语法的示例图;
图6是示出成为文档标题的可能性大的字符串的语法的示例图;
图7是示出文档处理装置110上的控制单元200根据纸质文档数字化软件而执行的纸质文档数字化处理的流程的流程图;
图8是示出根据第三变型例的纸质文档数字化处理的流程的流程图;
图9是示出根据第三变型例的纸质文档数字化处理的流程的流程图。
具体实施方式
下面参照附图对根据本发明的实施例进行说明。
<A:结构>
图1是示出配置有根据本发明第一实施例的文档处理装置110的文档数字化系统10的结构的示例框图。图1中的图像读取装置120是例如配置有ADF(Auto Document Feeder)或其他类型的自动送纸机构的扫描仪装置,其一次一页地读取放在ADF中的纸质文档,并通过通信线路130(例如LAN(局域网))将对应于所读取图像的文档图像数据传送给文档处理装置110。注意,虽然在本实施例中说明了通信线路130为LAN的情况,但是这当然可以包括WAN(广域网)或者因特网等。还应注意,虽然在本实施例中对文档处理装置110和图像读取装置120被构造为独立的硬件部件的情况进行说明,但是这二者当然可以被构造为一个硬件部件。在该实施例中,通信线路130是在相关硬件内部连接文档处理装置110和图像读取装置120的内部总线。
图1中的文档处理装置(其将从图像读取装置120传来的文档图像数据转换为文件,并存储和容纳这些文件)具有图2所示的结构。如图2所示,文档处理装置110包括控制单元200、通信接口单元210、存储单元220、以及总线230,总线230协调这些构成部件之间的数据发送和接收。
控制单元200例如是CPU(中央处理单元),其通过执行下述的存储单元220中存储的各种软件程序来控制文档处理装置110的各单元。通信接口210通过通信线路130连接到图像读取装置120,并通过通信线路130接收从图像读取装置120发送来的文档图像数据并将其传送到控制单元200。换言之,通信接口210用作输入单元,从图像读取装置120发送的文档图像数据输入到该输入单元。
如图2所示,存储单元220包括易失性存储单元220a和非易失性存储单元220b。易失性存储单元220a例如是RAM(随机访问存储器),并用作根据下述的各种软件程序来工作的控制单元200的工作区。相反地,非易失性存储单元220b例如是硬盘,其存储并累积转换为文件的文档图像数据。将使控制单元200实现文档处理装置110的特定功能的数据和软件存储在非易失性存储单元220b中。以下是对存储在非易失性存储单元220b中的数据和软件的说明。
存储在非易失性存储单元220b中的数据的一个示例是存储在如图3所示的语法表中的数据。该语法表包括权重数据,其与表示字符串语法的数据(以下称为“语法数据”)相关联,并且表示具有该语法的字符串是文档标题的可能性。当根据通过通信接口单元210输入的文档图像数据来指定与该文档图像数据对应的文档的标题时,使用语法表的内容(即,语法数据和与该语法数据相关联的权重数据)。以下是对语法数据和权重数据的说明。
根据本实施例,语法数据是表示如图4、图5和图6所示的树结构的数据。图4示出了表示成为文档标题的可能性小的字符串的语法的树结构的示例,而图5和图6都示出了表示成为文档标题的可能性大的字符串的语法的树结构的示例。具体地说,图4所示的树结构表示日文字符串“押印および見積申請処理を必要とする書類は稟議決裁書(需要盖章并获得预算的文档是汇票支付凭证)”的语法。图4中的树结构所表示的语法完全由名词短语(NP)和包括名词的谓语(Vnoun)构成。具有该语法的字符串以名词结束,从而其最初看似标题,但是实际上,通常认为它们是文档标题的可能性较小(虽然它们有可能是报纸文章等的标题)。相反地,图5所示的树结构表示字符串“押印および見積申請処理を必要と稟議決裁書(需要盖章并获得预算的汇票支付凭证)”的语法,而图6所示的树结构表示字符串“押印および見積申請処理を必要と稟議決裁書について(关于需要盖章并获得预算的汇票支付凭证)”的语法。图5所示的树结构表示完全由以关系从句(Srel)来修饰名词(Nzero)的名词短语(Nadj)构成的语法,而图6所示的树结构表示完全由其中相当于助词的词紧随名词短语的名词性从句构成的语法。通常认为,图5和图6所示的树结构表示的语法是文档标题的可能性较大。注意,在本实施例中,说明了将以树结构的形式表示字符串语法的数据用作语法数据的情况,然而,该数据当然也可以是其他形式,只要其能够唯一地表示语法。
另一方面,与语法数据相关联并存储在语法表中的权重数据在本实施例中是以如下方式计算的数据。对于预先选择的多个字符串(例如,100,000个字符串),如果字符串是文档的标题则指定值1,而如果其不是文档的标题则指定值0。通过对于各语法累加这些值,算出权重数据。在本实施例中说明了这样的情况:使用在预先选择的多个字符串中针对各个语法累计是文档标题的字符串的数量而得到的值作为权重数据,但是实质上,这可以是任何类型的数据,只要其可以表示具有该语法数据所表示的语法的字符串是文档标题的可能性。
存储在非易失性存储单元220b中的软件的示例包括:操作系统(“OS”)软件,其使控制单元200实现OS;以及纸质文档数字化软件。在本文中,采用纸质文档数字化软件来表示使控制单元200执行如下处理的软件:当将文档图像数据转换为文件并将该文件存储到非易失性存储单元220b中时,在根据对应于该文档图像数据的文档的标题为文档图像数据添加文件名之后,存储所述文档图像数据。以下说明了通过执行该软件而赋予控制单元200的功能。
当文档处理装置110的电源(未示出)接通时,控制单元200首先从非易失性存储单元220b读取OS软件并执行它。当根据OS软件进行操作并实现OS时,控制单元200具有控制文档处理装置110的各种单元的功能、从非易失性存储单元220b读取其他软件并执行它的功能等等。根据本实施例,一旦完成了OS软件的执行并实现了OS,控制单元200就从非易失性存储单元220b读取纸质文档数字化软件并执行它。图7是示出由根据纸质文档数字化软件进行工作的控制单元200执行的纸质文档数字化处理的流程的流程图。如图7所示,根据纸质文档数字化软件进行工作的控制单元200具有下述的三个功能。
第一是提取功能,当通过通信接口单元210读入文档图像数据(即,与正在处理的纸质文档对应的文档图像数据)时对其进行分析、并提取表示字符串的字符串数据。在下文进行详细说明,但是根据本实施例,该提取功能根据下划线的存在与否和/或其相对于其它字符串的位置(即,根据传统技术),提取与被判断为有可能是标题的字符串对应的字符串数据。第二是语法分析功能,用于分析提取功能所提取的所有字符串数据、并为包含在与文档图像数据对应的纸质文档中的每个字符串指定语法。第三是指定功能,用于根据语法分析功能所指定的各个字符串的语法以及语法表的内容,从提取功能提取的字符串数据中指定表示文档标题的字符串数据。
如上所述,根据本实施例的文档处理装置110的硬件配置与普通计算机装置的硬件配置相同,控制单元200根据存储在非易失性存储单元220b中的各种软件程序所进行的操作实现了根据本发明实施例的文档处理装置所特有的功能。因此,虽然在本实施例中对软件模块实现根据本发明的文档处理装置所特有的功能的情况进行说明,但是也可以使用提供这些功能的硬件模块来构造根据本发明的文档处理装置。具体地说,也可以如下地构造根据本发明的文档处理装置:向具有用于从图像读取装置120读取文档图像数据的输入单元以及存储有语法表的存储单元的文档处理装置提供分别作为硬件模块的实现提取功能的提取单元、实现语法分析功能的语法分析单元、以及实现指定功能的指定单元,并对这些硬件模块进行组合以使它们根据图7所示的流程图以链接方式工作。
B.操作
参照附图,下面对例示出文档处理装置110的特征的操作进行说明。
首先,当用户在图像读取装置120的ADF上放置纸质文档并执行预定操作(例如,按下设置在图像读取装置120的操作单元上的开始按钮)时,图像读取装置120读取与纸质文档中的各页对应的图像,从图像读取装置120将与各页图像对应的文档图像数据通过通信线路130发送到文档处理装置110。
另一方面,当通过通信接口210输入文档图像数据时,文档处理装置110的控制单元200通过将文档图像数据写到易失性存储单元220a来存储该文档图像数据。然后控制单元200对累积在易失性存储单元220a中的文档图像数据执行根据图7所示流程图的纸质文档数字化,为与文档图像数据对应的纸质文档指定标题,将其与包含该标题的文件名关联起来,将其写到非易失性存储单元220b中,并结束数字化处理。参照图7,下面对控制单元200执行的操作进行说明。
图7是示出控制单元200执行的纸质文档数字化处理的流程的流程图。如图7所示,控制单元200首先分析易失性存储单元220a中累积的文档图像数据,并对于每个字符串提取表示与文档图像数据对应的文档中的字符串的字符串数据、以及表示字符串是否有下划线和字符串与其上下字符串之间的距离的属性数据(步骤SA1)。具体地说,控制单元200从文档图像数据中提取与包含字符串的区域内的图像对应的数据块,并使用OCR(光学特征识别)在对应于该数据块的图像上提取字符串数据和属性数据。
接着,使用传统技术,控制单元200根据对应于字符串数据的属性数据,从步骤SA1中提取的字符串数据中提取作为标题候选的字符串的字符串数据(步骤SA2)。具体地说,根据步骤SA1中提取的属性数据,控制单元200指定对应于属性数据的字符串数据所代表的字符串是否有下划线,同时还指定这些字符串与其上下字符串之间的距离。随后,控制单元200提取与有下划线的字符串对应、且至其的距离大于预定值的字符串数据作为标题候选。
在步骤SA2后的步骤SA3中,控制单元200对步骤SA2中所提取的用于标题候选的所有字符串数据执行语法分析,并指定与该字符串数据对应的字符串的语法。具体地说,控制单元200对步骤SA2中限定的用于标题候选的所有字符串数据执行语法分析,生成上述的语法数据,并指定字符串数据所表示的字符串的语法。接着,根据步骤SA3的指定结果和存储在语法表中的内容,控制单元200判断步骤SA2中所提取的用于标题候选的字符串数据是否包含与成为标题的可能性大的字符串对应的字符串数据(步骤SA4)。更具体地说,控制单元200对于步骤SA2中提取的所有字符串数据判断:与在步骤SA3中对于相应的字符串数据而生成的语法数据相关联地存储在语法表中的权重数据的值是否大于预定的第一阈值。即使只存在一个判断结果为“是”的字符串数据,控制单元200也会判定在步骤SA2中限定的标题候选包括与成为标题的可能性大的字符串对应的字符串数据。
如果在步骤SA4的判断结果为“是”,则控制单元200选择与在以上步骤SA4中判断为成为标题的可能性较大的字符串对应的字符串数据,作为与文档图像数据对应的文档的标题的最终候选(步骤SA5)。相反地,如果在步骤SA4的判断结果为“否”,则控制单元200根据步骤SA3的指定结果和存储在语法表中的内容,判断在步骤SA2中所提取的用于标题候选的字符串数据是否包含与成为标题的可能性小的字符串对应的字符串数据(步骤SA6)。更具体地说,控制单元200对于步骤SA2提取的所有字符串数据判断:与在步骤SA3中对于相应的字符串数据而生成的语法数据相关联地存储在语法表中的权重数据的值是否小于预定的第二阈值。即使只存在一个判断结果为“是”的字符串数据,控制单元200也会判定标题候选包括与成为标题的可能性小的字符串对应的字符串数据。此外,第二阈值可以是任何值,只要它等于第一阈值或者小于第一阈值。
如果步骤SA6的判断结果为“是”,则控制单元200从步骤SA2中限定的字符串数据中删除与在以上步骤SA6中判定为成为标题的可能性小的字符串对应的字符串数据,并选择剩余字符串数据作为文档标题的最终候选(步骤SA7)。相反地,如果步骤SA6的判断结果为“否”,则控制单元200选择在步骤SA2中提取的标题候选的所有字符串数据,作为表示文档标题的字符串的最终候选(步骤SA8)。
在步骤SA5、步骤SA7或者步骤SA8之后执行的步骤SA9中,控制单元200从最终候选的字符串数据中指定表示被选作文档标题的字符串的字符串数据(步骤SA9)。具体地说,如果只存在一个最终候选的字符串数据例,则控制单元200指定该字符串数据表示的字符串作为标题,而如果存在多个最终候选的字符串数据例,则控制单元200将成为标题的可能性最大的字符串数据所表示的字符串指定为文档标题(即,具有与有最大值的权重数据相关联的语法数据所表示的语法的字符串数据)。当然,如果存在多个最终候选的字符串数据例,也可以向用户提供多个字符串,并将用户选择的字符串指定为文档标题。此后,控制单元200附上与步骤SA9中指定的标题对应的名称,将文档图像数据写到非易失性存储单元220b中,并结束纸质文档数字化处理。
如上所述,通过根据本实施例的文档处理装置110,当指定待数字化文档的标题时,根据传统技术从文档中包含的字符串中限定标题候选的字符串,其后,在进一步根据字符串的语法来对其进行限定之后,指定字符串作为文档的标题。这具有可以以大于先前的精度来指定标题的效果。此外,在本实施例中,说明了指定与输入到文档处理装置110的文档图像数据对应的文档的标题、以及根据标题添加文件名并写到文档处理装置110的存储单元中的情况。然而,当然可以将文档图像数据与表示文件名的名称数据关联起来并发送到独立于文档处理装置110的存储装置,并将它们相互关联地存储在该存储装置中。
C.变型例
以上是对本发明一个实施例的详细说明,但是当然可以加入下述的变型例。
C-1:第一变型例
在以上实施例中,对根据与纸质文档的图像对应的文档图像数据来指定纸质文档的标题的情况进行了说明。然而,当然也可以根据与文字处理器或者其他装置所创建的文档对应的数据(即,例如文档中的字符的字符码和换行码按顺序排列的数据:以下称为“码数据”)来指定文档的标题。也就是说,只要文档数据对应于纸质文档,它可以是图像数据或者码数据。
(C-2):第二变型例
在以上实施例中,使用传统技术(即,根据字符串数据所表示的字符串是否有下划线、以及字符串与上下字符串之间的距离来指定作为标题的字符串的技术)来在从文档图像数据读取的字符串数据中限定作为标题候选的字符串,之后对所限定的字符串的语法进行分析,并根据分析结果和存储在语法表中的内容进一步限定作为与文档图像数据对应的文档的标题的字符串。然而,当然也可以在根据语法限定字符串数据之后利用传统技术进行限定从而限定最终候选。此外,在以上实施例中,作为使用传统技术进行限定的示例,对根据下划线的存在与否以及与上下字符串之间的距离来执行对标题候选的限定的情况进行了说明,但是当然也可以只根据其中之一或者根据字符串的字体类型和字体尺寸来进行限定。此外,当然也可以对从文档图像数据中读取的所有字符串数据所表示的字符串的语法进行分析、并根据分析结果和存储在语法表中的内容来为对应于文档图像数据的文档限定标题候选,而不使用传统技术进行限定(换言之,在步骤SA1之后立即执行步骤SA3,而不是如图7所示地执行步骤SA2)。
(C-3):第三变型例
在以上实施例中,对如下情况进行了说明:将表示字符串语法的语法数据与表示具有该语法的字符串是文档标题的可能性的权重数据关联起来,并且将表示成为标题的可能性大的语法的语法数据以及表示成为标题的可能性小的语法的语法数据存储在语法表中。然而,也可以在语法表中仅存储表示成为标题的可能性大的语法的语法数据,相反地,也可以在语法表中仅存储表示成为标题的可能性小的语法的语法数据。此外,如果在语法表中仅存储表示成为文档标题的可能性小(大)的语法的语法数据,则无需将权重数据与语法数据关联起来。
例如,如果在语法表中仅存储表示成为文档标题的可能性大的语法的语法数据,则应该执行如图8所示的纸质文档数字化处理,而不是图7所示的纸质文档数字化处理。图8所示的纸质文档数字化处理与图7所示的纸质文档数字化处理的不同仅在于:如果在步骤SA4中的判断结果为“否”,则无条件地执行步骤SA8中的处理。此外,如果在语法表中仅存储表示成为文档标题的可能性小的语法的语法数据,则应该执行如图9所示的纸质文档数字化处理,而不是图7所示的纸质文档数字化处理。图9所示的纸质文档数字化处理与图7所示的纸质文档数字化处理的不同仅在于:在步骤SA3之后执行步骤SA6中的处理。
(C-4):第四变型例
在上述实施例中,说明了将用于使控制单元200实现根据本发明的文档处理装置所特有的功能的软件预先存储在非易失性存储单元220b中的情况。然而,当然也可以将该软件存储在计算机可读的存储介质中,例如CD-ROM(光盘只读存储器)和DVD(数字多功能光盘),并使用该存储介质将所述软件安装在通用计算机装置中。这具有可将通用计算机装置用作根据本发明的文档处理装置的效果。
如上所述,本发明提供了一种文档处理装置,其包括:存储器,其存储有语法数据,所述语法数据表示成为文档标题的可能性大的字符串的语法或者成为文档标题的可能性小的字符串的语法;输入单元,其输入通过对文档进行数字化而获得的文档数据;提取单元,其分析输入单元输入的文档数据、并提取表示字符串的字符串数据;语法分析单元,其分析提取单元提取的字符串数据、并指定包含在对应于文档数据的文档中的各字符串的语法;以及指定单元,其根据语法分析单元的指定结果以及存储在存储器中的内容,从提取单元提取的字符串数据中指定表示与文档数据对应的文档的标题的字符串数据。使用这种文档处理装置和程序,根据所处理文档中包含的各个字符串的语法来指定文档的标题。
根据本发明一个实施例,表示具有语法数据所表示的语法的字符串是文档标题的可能性程度的权重数据与存储在存储器中的语法数据相关联,指定单元根据与表示语法分析单元所指定语法的语法数据相关联地存储在存储器中的权重数据来指定表示文档标题的字符串数据。通过该实施例,可以指定其语法表示成为文档标题的可能性最大的字符串作为被处理文档的标题。
根据本发明另一实施例,指定单元根据语法分析单元的指定结果和存储在存储器中的内容,将提取单元所提取的字符串数据限定为有可能成为文档标题的字符串数据,向用户提供该经限定的字符串数据,并将用户选择的字符串数据指定为表示文档标题的字符串数据。通过该实施例,从根据文档中所包含字符串的语法而限定的标题候选中指定文档标题。在存在多个具有表示成为文档标题的可能性大的语法的字符串的情况下、以及在可能性程度没有太大差别的情况下,该实施例尤其适用。
根据本发明另一实施例,指定单元根据语法分析单元的指定结果以及存储在存储器中的内容,从提取单元提取的字符串数据中删除成为文档标题的可能性小的字符串数据,向用户提供剩余字符串数据,并将用户选择的字符串数据指定为表示文档标题的字符串数据。通过该实施例,从已经删除了成为文档标题的可能性小的字符串的标题候选中指定文档标题。
根据本发明另一实施例,提取单元根据与字符串数据对应的字符串有无格式编排、或者根据与位于这些字符串上下的字符串之间的距离,从通过对输入单元输入的文档数据进行分析而获得的文档数据中,仅仅提取表示成为文档(其对应于文档数据)的标题的可能性大的字符串的字符串数据。通过该实施例,在根据字符串是什么格式以及其与上下字符串之间的距离而限定的标题候选中根据语法来限定文档标题。
此外,本发明提供了一种文档处理方法,其包括以下步骤:在存储器中存储语法数据,所述语法数据表示成为文档标题的可能性大的字符串的语法或者成为文档标题的可能性小的字符串的语法;输入通过将文档数字化而获得的文档数据;通过对输入的文档数据进行分析来提取表示字符串的字符串数据;通过对提取的字符串数据进行分析来指定与文档数据对应的文档中包含的各个字符串的语法;以及,根据指定的结果和存储在存储器中的内容,从提取的字符串数据中指定表示与文档数据对应的文档的标题的字符串数据。
根据本发明的一个实施例,表示具有语法数据所表示的语法的字符串是文档标题的可能性程度的权重数据与存储在存储器中的该语法数据相关联,并且字符串数据指定步骤包括以下步骤:根据与表示所指定语法的语法数据相关联地存储在存储器中的权重数据,指定表示文档标题的字符串数据。
根据本发明另一实施例,字符串数据指定步骤包括以下步骤:根据指定结果和存储在存储器中的内容,将提取的字符串数据限定到有可能是文档标题的字符串数据;向用户提供经限定的字符串数据;并且将用户选择的字符串数据指定为表示文档标题的字符串数据。
根据本发明另一实施例,字符串数据指定步骤包括以下步骤:根据指定结果和存储在存储器中的内容,从所提取的字符串数据中删去成为文档标题的可能性小的字符串数据;向用户提供剩余的字符串数据;并且将用户选择的字符串数据指定为表示文档标题的字符串数据。
根据本发明另一实施例,提取步骤包括:根据与字符串数据对应的字符串有无格式编排、或者根据与位于这些字符串上下的字符串之间的距离,从通过对输入文档数据进行分析而获得的文档数据中仅仅提取表示成为对应于该文档数据的文档的标题的可能性大的字符串的字符串数据。
此外,本发明提供了一种计算机可读存储介质,其记录有用于使计算机实现以下功能的程序:提取单元,当输入通过对文档进行数字化而获得的文档数据时,其对文档数据进行分析并提取表示字符串的字符串数据;语法分析单元,用于分析提取单元所提取的字符串数据、并指定包含在与文档数据对应的文档中的各字符串的语法;以及指定单元,用于根据语法分析单元的指定结果、以及预先存储在计算机中作为表示成为文档标题的可能性大的字符串的语法或者成为文档标题的可能性小的字符串的语法的数据的语法数据,从提取单元所提取的字符串数据中指定表示与文档数据对应的文档的标题的字符串数据。使用所述计算机可读存储介质,根据处理文档中包含的各字符串的语法来指定文档的标题。
出于示例和说明的目的提供了上述对本发明实施例的说明。其并不是穷举性的或者将本发明限制于所公开的确切形式。对于本领域技术人员显然可以有多种变化和修改。选择并说明这些实施例以最佳地说明本发明的原理及其实际应用,从而使得本领域其它技术人员能够理解本发明的各种实施例及其各种变型例,以适应具体的预期应用。本发明的范围由所附的权利要求及其等同物限定。

Claims (8)

1、一种文档处理装置,包括:
存储器,其存储有语法数据,所述语法数据表示成为文档标题的可能性大的字符串或者成为文档标题的可能性小的字符串的语法;
输入单元,其输入通过对文档进行数字化而获得的文档数据;
提取单元,其分析所述输入单元输入的文档数据、并提取表示字符串的字符串数据;
语法分析单元,其分析所述提取单元提取的字符串数据、并指定对应于所述文档数据的文档中包含的各字符串的语法,所述语法是构成字符串的字符的树结构;以及
指定单元,其根据所述语法分析单元的指定结果以及所述存储器中存储的内容,从所述提取单元所提取的字符串数据中指定表示与所述文档数据对应的文档的标题的字符串数据,
其中,利用权重数据表示具有语法数据所表示的语法的字符串是文档标题的可能性程度,并且所述权重数据与存储在所述存储器中的语法数据相关联,并且
所述指定单元根据与表示所述语法分析单元所指定语法的语法数据相关联地存储在所述存储器中的权重数据,指定表示所述文档标题的字符串数据。
2、根据权利要求1所述的文档处理装置,其中,所述指定单元根据所述语法分析单元的指定结果和所述存储器中存储的内容,将所述提取单元所提取的字符串数据限定至有可能成为文档标题的字符串数据,向用户提供该经限定的字符串数据,并将用户选择的字符串数据指定为表示文档标题的字符串数据。
3、根据权利要求1所述的文档处理装置,其中,所述指定单元根据所述语法分析单元的指定结果和所述存储器中存储的内容,从所述提取单元提取的字符串数据中删除成为文档标题的可能性小的字符串数据,向用户提供剩余的字符串数据,并将用户选择的字符串数据指定为表示文档标题的字符串数据。
4、根据权利要求1所述的文档处理装置,其中,所述提取单元根据与所述字符串数据对应的字符串有无格式编排、或者根据与位于这些字符串上下的字符串之间的距离,从通过对所述输入单元输入的文档数据进行分析而获得的文档数据中,仅提取表示成为与所述文档数据对应的文档的标题的可能性大的字符串的字符串数据。
5、一种文档处理方法,包括:
在存储器中存储语法数据,所述语法数据表示成为文档标题的可能性大的字符串或者成为文档标题的可能性小的字符串的语法;
输入通过对文档进行数字化而获得的文档数据;
通过对所输入的文档数据进行分析来提取表示字符串的字符串数据;
通过对所提取的字符串数据进行分析,指定与所述文档数据对应的文档中包含的各个字符串的语法,所述语法是构成字符串的字符的树结构;以及
根据指定结果和所述存储器中存储的内容,从所提取的字符串数据中指定表示与所述文档数据对应的文档的标题的字符串数据,
其中,利用权重数据表示具有语法数据所表示语法的字符串是文档标题的可能性程度,并且所述权重数据与所述存储器中存储的语法数据相关联,并且
所述字符串数据指定步骤包括:根据与表示所指定语法的语法数据相关联地存储在所述存储器中的权重数据,指定表示文档标题的字符串数据。
6、根据权利要求5所述的文档处理方法,其中,所述字符串数据指定步骤包括:
根据指定结果和所述存储器中存储的内容,将所提取的字符串数据限定至具有成为文档标题的可能性的字符串数据;
向用户提供经限定的字符串数据;以及
将用户选择的字符串数据指定为表示文档标题的字符串数据。
7、根据权利要求5所述的文档处理方法,其中,所述字符串数据指定步骤包括:
根据指定结果和所述存储器中存储的内容,从所提取的字符串数据中删除成为文档标题的可能性小的字符串数据;
向用户提供剩余的字符串数据;
将用户选择的字符串数据指定为表示文档标题的字符串数据。
8、根据权利要求5所述的文档处理方法,其中,所述提取步骤包括:根据与所述字符串数据对应的字符串有无格式编排、或者根据与位于这些字符串上下的字符串之间的距离,从通过对输入文档数据进行分析而获得的文档数据中仅提取表示成为对应于该文档数据的文档的标题的可能性大的字符串的字符串数据。
CNB2005100559257A 2004-09-17 2005-03-18 文档处理装置和文档处理方法 Expired - Fee Related CN100447805C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004271734 2004-09-17
JP2004271734A JP2006085582A (ja) 2004-09-17 2004-09-17 文書処理装置およびプログラム

Publications (2)

Publication Number Publication Date
CN1750018A CN1750018A (zh) 2006-03-22
CN100447805C true CN100447805C (zh) 2008-12-31

Family

ID=36074077

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100559257A Expired - Fee Related CN100447805C (zh) 2004-09-17 2005-03-18 文档处理装置和文档处理方法

Country Status (3)

Country Link
US (1) US20060062492A1 (zh)
JP (1) JP2006085582A (zh)
CN (1) CN100447805C (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226596B (zh) 2007-01-15 2012-02-01 夏普株式会社 文档图像处理装置以及文档图像处理方法
CN101226595B (zh) 2007-01-15 2012-05-23 夏普株式会社 文档图像处理装置以及文档图像处理方法
CN101354703B (zh) * 2007-07-23 2010-11-17 夏普株式会社 文档图像处理装置和文档图像处理方法
JP2009169536A (ja) * 2008-01-11 2009-07-30 Ricoh Co Ltd 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム
US8504567B2 (en) * 2010-08-23 2013-08-06 Yahoo! Inc. Automatically constructing titles
US9082037B2 (en) * 2013-05-22 2015-07-14 Xerox Corporation Method and system for automatically determining the issuing state of a license plate
US10176500B1 (en) * 2013-05-29 2019-01-08 A9.Com, Inc. Content classification based on data recognition
CN104463155B (zh) * 2013-09-18 2018-05-11 株式会社东芝 文件管理装置以及文件管理方法
JP6050843B2 (ja) 2015-01-30 2016-12-21 株式会社Pfu 情報処理装置、方法およびプログラム
US10572528B2 (en) 2016-08-11 2020-02-25 International Business Machines Corporation System and method for automatic detection and clustering of articles using multimedia information
US20200026767A1 (en) * 2018-07-17 2020-01-23 Fuji Xerox Co., Ltd. System and method for generating titles for summarizing conversational documents

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214194A (ja) * 1997-01-29 1998-08-11 Nec Corp クラス定義取り込み方式
JPH11282844A (ja) * 1998-03-26 1999-10-15 Toshiba Corp 文書作成方法および情報処理装置および記録媒体
JP2000123022A (ja) * 1998-10-13 2000-04-28 Ricoh Co Ltd 文縮約方法、文書縮約装置及び文書抄録装置
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体
JP2004151882A (ja) * 2002-10-29 2004-05-27 Fuji Xerox Co Ltd 情報出力制御方法、情報出力処理システム、プログラム
JP2004199529A (ja) * 2002-12-20 2004-07-15 Fujitsu Ltd 帳票認識装置および帳票認識方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5635272A (en) * 1995-07-03 1997-06-03 The United States Of America As Represented By The Secretary Of The Army Composite structure for transmitting high shear loads
JP3425834B2 (ja) * 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
US5776582A (en) * 1996-08-05 1998-07-07 Polyplus, Inc. Load-bearing structures with interlockable edges
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images
US7099507B2 (en) * 1998-11-05 2006-08-29 Ricoh Company, Ltd Method and system for extracting title from document image
WO2000052645A1 (fr) * 1999-03-01 2000-09-08 Matsushita Electric Industrial Co., Ltd. Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document
JP3913985B2 (ja) * 1999-04-14 2007-05-09 富士通株式会社 文書画像中の基本成分に基づく文字列抽出装置および方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214194A (ja) * 1997-01-29 1998-08-11 Nec Corp クラス定義取り込み方式
JPH11282844A (ja) * 1998-03-26 1999-10-15 Toshiba Corp 文書作成方法および情報処理装置および記録媒体
JP2000123022A (ja) * 1998-10-13 2000-04-28 Ricoh Co Ltd 文縮約方法、文書縮約装置及び文書抄録装置
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体
JP2004151882A (ja) * 2002-10-29 2004-05-27 Fuji Xerox Co Ltd 情報出力制御方法、情報出力処理システム、プログラム
JP2004199529A (ja) * 2002-12-20 2004-07-15 Fujitsu Ltd 帳票認識装置および帳票認識方法

Also Published As

Publication number Publication date
CN1750018A (zh) 2006-03-22
US20060062492A1 (en) 2006-03-23
JP2006085582A (ja) 2006-03-30

Similar Documents

Publication Publication Date Title
CN100447805C (zh) 文档处理装置和文档处理方法
CN100361493C (zh) 文档处理装置和文档处理方法
US8139870B2 (en) Image processing apparatus, recording medium, computer data signal, and image processing method
US8645184B2 (en) Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service
CN102959578B (zh) 取证系统、取证方法及取证程序
CN101276372A (zh) 信息搜索装置及方法
CN101645086B (zh) 检索方法
US20080162602A1 (en) Document archiving system
US10078672B2 (en) Search device, search method, and computer program product
CN101432733A (zh) 利用来自搜索的所检索数据来增加电子文档的内容
US20100005058A1 (en) Computer product, information retrieving apparatus, and information retrieving method
CN102624770B (zh) 信息摘录方法及基于云计算的摘录信息网络存储管理系统
CN102737030A (zh) 专利文档的数据输出方法、终端及系统
US20070185832A1 (en) Managing tasks for multiple file types
JP2010262638A (ja) 代表者の信頼度を用いた検索結果順位化装置および方法
US20040010556A1 (en) Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program
JP4135659B2 (ja) フォーマット変換装置およびファイル検索装置
US11468126B2 (en) Method for collecting component model in component e-commerce platform
CN112000257A (zh) 一种文档重点内容的导出方法及装置
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
JP2002024761A (ja) 画像処理装置及び画像処理方法並びに記憶媒体
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP5618968B2 (ja) 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム
CN112905733A (zh) 一种基于ocr识别技术的图书保存方法、系统及装置
CN111160870A (zh) 一种专利文件生成方法、装置、系统和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CI01 Publication of corrected invention patent application

Correction item: Inventor (sixth inventor)

Correct: Yi Tengdu

False: Yi Tengdu

Number: 11

Volume: 22

CI02 Correction of invention patent application

Correction item: Inventor (sixth inventor)

Correct: Yi Tengdu

False: Yi Tengdu

Number: 11

Volume: 22

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081231

Termination date: 20170318

CF01 Termination of patent right due to non-payment of annual fee