CN102473176B

CN102473176B - 文档数据处理装置

Info

Publication number: CN102473176B
Application number: CN201080028233.2A
Authority: CN
Inventors: 松本俊子
Original assignee: Hitachi Solutions Ltd
Current assignee: Hitachi Solutions Ltd
Priority date: 2009-07-27
Filing date: 2010-07-23
Publication date: 2015-01-07
Anticipated expiration: 2030-07-23
Also published as: US20120179718A1; US8768941B2; EP2461255A4; CN102473176A; JP2011028568A; EP2461255A1; JP5340847B2; WO2011013587A1

Abstract

提供一种用于大幅削减准备用于提取元数据的模型的步骤、并且在各组织中自动取得元数据的技术。将文档及其中记载的元数据群作为输入，使用元数据和非元数据字符串中版式上的特征、临近字符串、部分字符串的特征，自动设定元数据自动取得中版式上的特征、临近字符串、部分字符串的利用(参照图1)。

Description

文档数据处理装置

技术领域

本发明涉及文档数据处理装置，涉及例如用于高效管理大量存在的业务文档的文件数据的技术。

背景技术

对于用于高效处理组织内文档的技术的要求正在提高。例如，伴随着日本版SOX法(金融商品交易法)的施行，企业营业活动中凭证的管理需求正在提高。另外，例如企业内的信息、其中尤其是不保存在相关数据库(非定型)的文档数据正在急剧增加(正产生被称作信息爆炸的现象)。基于该种状况，希望通过标题、生成日、生成人等元数据(meta data)来管理和检索文档的需求正在提高。例如，对于营业文档，如果能够通过文档名称、顾客名称、生成日、定购编号等业务ID进行检索，则进行内部控制的监查时能够迅速地找出所需文档。另外，对于设计文档，如果能够通过文档名称、生成方部门、生成日、产品代码等进行检索，则对于有效灵活运用技术信息具有效果。并且，对于索赔、缺陷信息的记录文档，如果能够通过发生日、采取对策日、产品名称、损失金额、部件名称等进行检索，则对于发生类似缺陷时的迅速应对具有效果。另外，对于业务规定、通告等文档，如果能够通过文档的类别、生成日、实施期间等进行检索，则对于遵照规则高效贯彻业务具有效果。

提出了许多对非定型文档进行解析并自动取得元数据的技术(例如参照专利文献1至3、非专利文献1以及2)。这些文献设想事先确定作为对象的文档的种类，详细调查该种类文档中记述的元数据的特征，保持为作为对象的种类的文档的“模型”(model)。在该基础上，进行文档中出现的字符串和模型的匹配，推测哪个字符串为模型中的哪个结构要素(哪个字符串为元数据)。作为特征，使用版式(layout)上的特征(例如“标题多为居中”等)、临近元数据记载的字符串的特征(例如“订购编号多临近‘订购编号：’这一字符串右侧记载”等)、元数据的部分字符串的特征(例如“顾客名称多起始于‘独立行政法人’”)。

另外，如专利文献4至6以及非专利文献3至8所示，用于自动准备用于元数据取得的模型的解决方案也已经展开。

现有技术文献

专利文献

专利文献1：日本特开平11-184894号公报

专利文献2：日本专利第3425834号公报

专利文献3：日本专利第3425408号公报

专利文献4：美国专利7,149,347B1公报

专利文献5：日本特开2000-90117号公报

专利文献6：日本特开平11-328306号公报

非专利文献

非专利文献1：盛山、直井、武部，以商务文档为对象的关键字自动提取技术，FUJITSU，49，5，pp.404-409(1998-09)

非专利文献2：Ishitani，Y.，Document Transoformation System from Papers toXML Data Based on Pivot XML Document Method，Proceedings of the SeventhInternational Conference on Document Analysis and Recognition(2003)

非专利文献3：F.Esposito，D.Malerba，G.Semeraro，S.Ferilli，O.Altamura，T.M.A.Basile，M.Berardi，M.Ceci，N.Di Mauro，“Machine Learning methods forautomatically processing historical documents：from paper acquisition to XMLtransformation”，Proceedings of the First Inernational Workshop on DocumentImage Analysis for Libraries，2004.

非专利文献4：M.Kramer，H.Kaprykowsky，D.Keysers，T.Breuel，“Bibliographic Meta-Data Extraction Using Probabilistic Finite StateTransducers”，Proceedings of International Conference on Document Analysis andRecognition，Vol.2，pp.609-613，2007

非专利文献5：D.Besagni，A.Belaid，“Citation Recognition for ScientificPublications in Digital Libraries”，Proceedings on the First International Workshopon Document Image Analysis for Libraries，2004

非专利文献6：F.Parmentier，A.Belaid，“Logical Structure Recognition ofScientific Bibliographic References”，Proceedings on International Conference onDocument Analysis and Recognition，pp.1072-1076，1997

非专利文献7：D.Besagni，A.Belaid，N.Benet，“A segmentation method forbibliographic references by contextual tagging of fields”，Proceedings on SeventhInternational Conference on Document Analysis and Recognition，vol.1，pp.384-388，2003

非专利文献8：M.Imamura，Y.Takayama，M.Akiyoshi，and N.Komoda，“AnAcquisition Method on Term Knowledge from Operating Manuals for InformationEquipments by Using the Structure of Headline Sentences”，IEEJ Trans.EIS，Vol.128，No.12，pp.1833-1841(2008)

发明内容

发明要解决的课题

(1)在如专利文献1至3、非专利文献1以及2所示的元数据自动取得处理中，基于如上所述的动作原理，模型的完善程度对于最终的元数据推测精度产生很大影响。

但是，在人工准备模型的情况下，存在如下课题，效率较差。

准备模型时的课题1：根据文档的特征来设定应该使用怎样的版式上(layout)的特征取得怎样的元数据是繁杂的。版式上的特征具有很多种(下划线、居中、字体字号、页内位置等)，与元数据种类的组合数则更多。

准备模型时的课题2：在模型中利用版式上的特征时，有必要考虑到具有怎样的文档、元数据以何种方式出现、元数据以外的字符串以何种方式出现等进行细致的调整。例如，营业文档中，标题下多有下划线。但是，标题以外，在金额、商品名称下多有下划线。因此，如果使用下划线的有无作为版式上的特征在模型中记述，则会误将金额、商品名称取得作为标题。为了避免该种情况，有必要细致调整版式上的特征的利用。

准备模型时的课题3：根据文档的特征来设定作为临近元数据记载的字符串的特征而应该使用怎样的特征取得元数据是繁杂的。例如，作为右侧与定购编号相邻的字符串，除了上述的“订购编号：”之外，还存在“订购NO：”、“订购No：”、“订购No.：”“订购书编号”、“订货编号”等表述形式，毫无遗漏地列举这些表述形式有助于模型的完善程度。

准备模型时的课题4：在利用临近元数据记载的字符串的特征时，有必要考虑到具有怎样的文档、元数据以何种方式出现、元数据以外的字符串以何种方式出现等进行细致的调整。例如，营业文档中，顾客名称多记载为与“行”左侧相邻。但是，如果将记载为与“行”左侧相邻的字符串作为顾客名称取得，则会频繁出现误将作为转入方记载的银行名称的一部分作为顾客名称取得。

准备模型时的课题5：根据文档的特征设定作为元数据的部分字符串的特征应该使用怎样的特征取得元数据是繁杂的。例如，日立软件工程株式会社由于与日立集团企业的交易多，因此使用“日立”作为部分字符串的特征具有效果。像这样通过针对各组织调查交易对象的倾向来列举部分字符串有助于模型的完善程度。

准备模型时的课题6：在利用元数据的部分字符串的特征时，有必要考虑到具有怎样的文档、元数据以何种方式出现、元数据以外的字符串以何种方式出现等进行细致的调整。例如，“公司”这一字符串多包含在顾客名称中。但是，如果将包含“公司”的字符串作为顾客名称取得，则会频繁出现误将“公司名称”等字符串作为顾客名称取得。

(2)专利文献4至6以及非专利文献3至8中所示的技术也各自存在问题点，不能适用于准备用于从非定型的文档正确取得元数据的模型(文档内应该关注的特征)。

亦即，非专利文献3、专利文献4、5、6叙述了针对“账单”、“住宅贷款申请”等文档的每个详细的类准备模型情况下的技术，所处理的文档的种类有限，没有设想一并处理“营业文档”、“设计文档”等广范围文档，难以称作通用技术。另外，针对不同的每个类区分使用模型是繁杂的，作为高效处理业务文档来运用是不现实的。

另外，非专利文献4、5、6、7设想了以论文的参考(Reference)部分为对象、将字符串信息作为输入来处理。因此，不能处理具有二维平面上的扩展性的文档的数据。

并且，非专利文献8以操作手册作为对象，利用索引表述形式。营业文档、设计文档等一般的业务文档中，有很多没有记载索引表述形式的文档，因此不能处理该种文档。

(3)本发明正是鉴于以上状况而提出的发明，提供一种能够大幅削减准备用于提取元数据的模型的步骤、并且在各组织中自动取得元数据的技术。

用于解决课题的手段

为了解决上述课题，本发明所提供的文档数据处理装置判定处理对象文档数据内的处理对象元数据所具有的版式特征对于提取处理对象元数据方面是否有效，并输出该判定结果。更详细地，文档数据处理装置检查处理对象元数据所具有的版式特征是否在处理对象文档数据中元数据以外的字符串中出现，并基于该检查结果判定版式特征对于提取元数据方面是否有效。另外，文档数据处理装置针对被指定了相同元数据种类的多个处理对象文档数据算出版式特征仅在元数据的字符串中出现的文档数(n1)和版式特征仅在元数据以外的字符串中出现的文档数(n2)，输出文档数，并且在n1＞n2的情况下，提示表示将该版式特征设定为模型的信息，该模型中该版式特征是为了自动取得该元数据而应该受到关注的特征。

本发明所提供的文档数据处理装置判定处理对象文档数据内临近处理对象元数据的字符串特征对于提取处理对象元数据方面是否有效，并输出该判定结果。更详细地，文档数据处理装置检查临近字符串特征是否临近处理对象元数据以外字符串出现，并基于该检查结果判定临近字符串特征对于提取处理对象元数据方面是否有效。

并且，本发明所提供的文档数据处理装置判定处理对象文档数据内的处理对象元数据所含的部分字符串特征对于提取处理对象元数据方面是否有效，并输出该判定结果。更详细地，文档数据处理装置检查部分字符串特征是否包含在处理对象元数据以外的字符串中，并基于该检查结果判定部分字符串特征对于提取处理对象元数据方面是否有效。

本发明进一步的特征通过以下用于实施本发明的最佳方式以及附图得以明确。

发明效果

根据本发明，能够大幅削减准备用于提取元数据的模型的步骤、并且在各组织中能够自动取得元数据。

附图说明

图1是表示本发明所提供的业务文档处理装置概略结构的功能框图。

图2是表示文档数据以及字符串数据的数据结构例的图。

图3是表示元数据种类数据以及临近字符串特征数据的数据结构例的图。

图4是用于说明业务文档处理装置中执行的整体处理顺序的流程图。

图5是用于说明通过版式特征利用设定处理部执行的详细动作的流程图。

图6是用于说明通过版式特征利用调整处理部执行的详细动作的流程图。

图7是表示通过版式信息利用调整处理部显示的确认画面的图。

图8是用于说明通过临近字符串特征利用设定处理部执行的详细动作的流程图。

图9是用于说明通过临近字符串特征利用调整处理部执行的详细动作的流程图。

图10是表示通过临近字符串特征利用调整处理部显示的确认画面例的图。

图11是用于说明通过部分字符串特征利用设定处理部执行的详细动作的流程图。

图12是用于说明通过部分字符串特征利用调整处理部执行的详细动作的流程图。

图13是表示通过部分字符串特征利用调整处理部显示的确认画面例的图。

具体实施方式

本发明涉及用于准备从文档提取元数据时所需要的特征(模型)的处理。在本实施方式中，作为准备的模型，表示了元数据与版式特征的关系、与临近字符串的关系、以及与包含在其中的部分字符串的关系。

以下，参照附图针对本发明的实施方式进行说明。但应该注意的是，本实施方式仅仅是用于实现本发明的一个例子，并不限定本发明的技术范围。另外，对各图中共通的结构赋予相同的参照编号。

<业务文档管理装置的结构>

图1是概略性表示本发明的实施方式所提供的业务文档处理装置的内部结构的功能框图。业务文档处理装置1具备用于显示数据的显示装置100、样本文档DB101、用于进行针对显示出的数据选择菜单等操作的键盘102、鼠标等指示设备(pointing device)103、进行必要的运算处理、控制处理等的中央处理装置104、保存中央处理装置104中的处理所需程序的程序存储器105、保存中央处理装置104中的处理所需数据的数据存储器106。

中央处理装置104具备设定为了提取元数据而利用的版式特征(例如“下划线”、“居中”等)的版式特征利用设定处理部107、设定为了提取元数据而利用的临近字符串特征(例如“公启”、“先生/女士”等)的临近字符串特征利用设定处理部108、设定为了提取元数据而利用的部分字符串(例如“股份公司”、“公司”等)的部分字符串特征利用设定处理部109。在本实施例的情况下，由计算机构成，版式特征利用设定处理部107、临近字符串特征利用设定处理部108、部分字符串特征利用设定处理部109均作为计算机上所执行的程序的功能的一部分来实现。并且，这些程序保存在程序存储器105中。

版式特征利用设定处理部107具备版式特征利用调整处理部110，其检查使用某一版式特征(例如“下划线”)来用于提取元数据(例如“标题”)会具有怎样的优先和缺点(对提取元数据是否有效)，并最终执行该版式特征的利用、非利用的调整处理。临近字符串特征利用设定处理部108具备临近字符串特征利用调整处理部111，其检查使用某一临近字符串特征(例如“公启”)来用于提取元数据(例如“顾客名称”)会具有怎样的优先和缺点(对提取元数据是否有效)，并最终执行该临近字符串特征的利用、非利用的调整处理。并且，部分字符串特征利用设定处理部109具备部分字符串特征利用调整处理部112，其检查使用某一部分字符串特征(例如“公司”)来用于提取元数据(例如“顾客名称”)会具有怎样的优先和缺点(对提取元数据是否有效)，并最终执行该部分字符串特征的利用、非利用的调整处理。

数据存储器106具备文档数据保存部113、字符串数据保存部114、元数据种类数据保存部115以及临近字符串特征数据保存部116。

<文档数据以及字符串数据的数据结构>

图2是表示数据存储器106中所含文档数据保存部113以及字符串数据保存部114中保存的文档数据以及字符串数据的数据结构的图。

文档数据包括文档ID200、文档的文件名201、记载内容202以及文档图像203。记载内容202保持为字符串数据结构体的排列形式。另外，文档图像203以图像形式保持文档的印刷图像。

字符串数据包括字符串ID204、字符串的内容205、正解元数据指定ID206、相邻字符串ID207、相邻单元格字符串ID208以及版式特征209。

正解元数据指定ID206在用户指定了希望将其字符串(图2的例子中为“建议书”)作为元数据取得的情况下保持元数据种类所对应的ID(图2的例子中为“标题”这一元数据种类ID)，在未进行该种指定的情况下保持NULL值。

相邻字符串ID207以双层排列形式保持相邻字符串的信息。第一层表示上下左右的方向，第二层在其方向上存在相邻字符串的情况下保持其ID。由于第二层也为排列形式，因此能够对应在相同方向上具有多个相邻字符串的情况。在图2的例子中表示的是，在“建议书”这一字符串的上方相邻两个字符串(字符串ID分别为Str 0002以及Str 0003)，在下方相邻一个字符串(字符串ID为Str 0004)，在右方相邻两个字符串(字符串ID分别为Str 0005以及Str 0006)，在左方不存在相邻字符串。

与相邻字符串ID207相同，相邻单元格字符串ID208在表中包含对象字符串(例如“建议书”)的情况下以双层排列形式保持相邻单元格的信息。第一层表示上下左右的方向，第二层在其方向上相邻单元格中存在字符串的情况下保持其ID。当字符串为在表的外部记载的字符串、在表中记载的字符串中不存在相邻单元格的字符串、在表中记载的虽有相邻单元格但其中为空的字符串，如图2的例子所示，相邻单元格字符串ID208成为空的排列。

版式特征209以将是否具有多种版式特征依次排列的形式保持具有怎样的版式特征的信息。例如，作为版式特征的例子，设从左侧起为居中、字体、下划线、加粗(Bold)等，则以true(正确)或者false(错误)表示是否包含这些特征。

<元数据种类数据以及临近字符串特征数据的数据结构>

图3是表示数据存储器106所含的元数据种类数据115以及临近字符串特征数据116的数据结构的图。亦即，在图3的例子中表示的是，在作为元数据提取“标题”的情况下，着眼于302至304的特征则能够高效提取该元数据。并且，图3的302至304的数据相当于利用图2的数据通过图4的处理(步骤401至403的至少某一个处理)生成的结果(元数据提取模型)。

元数据种类数据作为信息包括元数据种类ID300、元数据种类名称301、利用版式特征302、利用临近字符串特征303以及利用部分字符串特征304。

利用版式特征302将是否利用多种版式特征以依次排列的形式保持。在图3的例子中表示的是，关于元数据“标题”，将图2的版式特征209中的“字体”设定为应该利用的版式特征。

另外，利用临近字符串特征303以临近字符串特征数据排列形式保持对用于提取元数据有效的临近字符串的信息。在图3的例子中表示的是，临近字符串“公启”对于提取元数据“标题”是有效的。另外，临近字符串特征包括字符串305以及方向指定306。在图3中表示的是利用“‘公启’这一字符串多记载于元数据的‘右侧相邻’”这一特征取得元数据的例子。

利用部分字符串特征304以字符串排列形式保持对用于提取元数据有效的部分字符串的信息。在图3的例子中表示的是，为了提取元数据“标题”，利用该元数据中包含“表”、“申请书”这样的字符串是有效的。

<元数据提取模型生成处理(整体)>

接着，针对具有如上结构的本实施方式的业务文档处理装置1中进行的处理进行说明。图4是概略性表示业务文档处理装置1中进行的元数据提取模型生成处理整体流程的流程图。

在图4中，首先，中央处理装置104从样本文档DB101读入应处理文档，并以文档数据113的形式保持(步骤400)。并且，保存在样本文档DB101中的文档如“标题”、“顾客名称”那样由用户预先指定了元数据种类。

接着，版式特征利用设定处理部107进行设定版式上的特征的利用的处理(步骤401)。关于此处的处理，将在图5中详细进行说明。

另外，临近字符串特征利用设定处理部108进行设定临近记载字符串的特征的利用的处理(步骤402)。关于此处的处理，将在图8中详细进行说明。

而且，部分字符串特征利用设定处理部109进行部分字符串的特征的利用的处理(步骤403)。关于此处的处理，将在图11中详细进行说明。

此外，处理401至403为排他性处理，可分别单独执行，也可组合执行。

<版式特征利用设定处理的详细>

图5是用于说明图4的步骤401的详细处理的流程图。首先，版式特征利用设定处理部107针对标题、生成人、生成日等元数据种类依次进行处理，因此将索引i初始化(步骤500)。

接着，版式特征利用设定处理部107针对下划线、居中、字体字号等版式上的特征依次进行处理，因此将索引j初始化(步骤501)。

然后，版式特征利用设定处理部107使用版式特征利用调整处理部110基于第j个版式上的特征有效的样本文档、无效的样本文档、效果不明的样本文档判断第j个版式上的特征是否称得上对取得元数据有效，设定是否利用(步骤502)。关于该处理，将在图6中详细进行说明。

然后，版式特征利用设定处理部107使版式上的特征的索引j增加1(步骤503)，如果还留有版式上的特征，则返回步骤502重新进行处理(步骤504)。另外，版式特征利用设定处理部107使元数据种类的索引i增加1(步骤505)，如果还留有元数据种类，则返回步骤501重新进行处理(步骤506)。

图6是用于说明图5的步骤502的详细处理的流程图。首先，版式特征利用调整处理部110将用于计数版式上的特征对于取得元数据有效的样本文档的计数器n1、用于计数无效样本文档的计数器n2、用于计数效果不明样本文档的计数器n3初始化(步骤600)。另外，版式特征利用调整处理部110针对步骤400中读入的样本文档依次进行处理，因此将索引k初始化(步骤601)。

接着，版式特征利用调整处理部110在第k个样本文档中确认包含在文档数据中的记载内容202，比较版式特征209的第j个版式上的特征为true的字符串数据与作为正解元数据指定ID206具有图5中第i个元数据中元数据种类ID300的字符串数据(步骤602)。在前者的字符串数据与后者的字符串数据完全一致的情况下，意味着使用第j个版式上的特征能够从第k个样本文档中取得第i个元数据。因此，使第j个版式上的特征有效的样本文档数n1增加。在前者的字符串数据与后者的字符串数据不同的情况下，意味着使用第j个版式上的特征试图从第k个样本文档中取得第i个元数据，但是却取得错误的元数据。因此，使第j个版式上的特征无效的样本文档数n2增加。上述以外的情况下效果不明，使n3增加。例如，在元数据种类数据为“标题”、版式上的特征为“居中”的情况下，在第k个文档内，检查由用户指定为标题的字符串是否居中，并且检查居中的字符串在指定标题以外是否存在。指定字符串以外不存在居中字符串时，可知该居中的版式上的特征对于提取元数据有效，n1增加。

然后，版式特征利用调整处理部110使样本文档的索引k增加1(步骤603)，如果还留有样本文档，则返回步骤602重新进行处理(步骤604)。接着，基于n1、n2、n3的值进行图7所示的画面显示(步骤605)。例如，画面显示使用版式特征“居中”时对提取元数据(该例子中为“标题”)有效的文章多还是具有相反效果的文档多，并基于此判断是否应将“居中”用于取得标题。

图7是表示版式上的特征的利用设定结果显示画面(GUI)的图。该结果显示画面中显示的是，针对某一元数据种类，是否利用某一版式上的特征是如何设定的，显示分别基于图5的i值、第i个元数据种类数据的元数据种类名称301、图6的j值、n1、n2、n3的值计算出的是否利用结果(700)。其中的是否利用能够判定在例如n1≥n2的情况下有效，除此之外的情况下无效等。另外，该结果显示画面中，n1、n2、n3的值作为用于向用户提供是否利用判定依据的信息来显示(701)。并且，该结果显示画面中，配置有显示是否利用并且接受用户指定的单选按钮(radio button)702。关于此处由用户指定为“使用”的版式上的特征，将元数据种类数据的利用版式特征302的对应要素设定为true，将指定为“不使用”的版式上的特征设定为false。

<临近字符串特征利用设定处理的详细>

图8是用于说明图4的步骤402的详细处理的流程图。首先，临近字符串特征利用设定处理部108将元数据种类索引i、临近记载的字符串的候选集合s、以及样本文档的索引k初始化(步骤800、步骤801以及步骤802)。

接着，临近字符串特征利用设定处理部108依次确认第k个样本文档中记载内容202所含的字符串数据的正解元数据指定ID206，如果存在具有第i个元数据种类的ID300的字符串数据，则将相邻字符串ID207、相邻单元格字符串ID208中保持的字符串ID的字符串数据的字符串205原原本本或者部分字符串作为候选追加到S中(步骤803)。此时，根据与指定了正解元数据的字符串的哪一个方向相邻，还对临近字符串特征数据的方向指定306设定值。然后，临近字符串特征利用设定处理部108使样本文档的索引k增加1(步骤804)，如果还留有样本文档，则返回步骤803重新进行处理(步骤805)。通过至此为止的处理，对于特定的元数据种类数据(例如“标题”)，收集到作为候选的所有临近字符串数据。

接着，临近字符串特征利用设定处理部108针对候选集合s中所含的字符串，基于临近包含该字符串的字符串记载的字符串是否为元数据，判断候选字符串是否称得上对取得元数据有效，设定是否利用(步骤806)。亦即，针对特定的元数据，确认候选字符串周边的字符串仅为该元数据的字符串还是也存在完全不同的字符串(逆向确认)。例如，关于元数据“顾客名称”，临近字符“公启”的周边仅存在顾客名称，但是在临近字符“行”的周边不一定仅有“顾客名称”，还可能出现其他的字符串“例如ABCD银行”，因此，判断出“行”对于取得元数据非有效。关于该处理的详细，将使用图9进行说明。

然后，临近字符串特征利用设定处理部108使元数据种类的索引i增加1(步骤807)，如果还留有元数据种类，则返回步骤802重新进行处理(步骤808)。

图9是用于详细说明图8的步骤806的处理的流程图。首先，临近字符串特征利用调整处理部111使候选字符串的索引l、样本文档的索引k初始化(步骤900以及901)。

接着，临近字符串特征利用调整处理部111对于第k个样本文档中第l个候选字符串，确认在由方向指定306指定的方向上相邻的临近字符串(步骤902)。此处，确认第k个文档数据的记载内容202，搜索是否存在包含第l个候选字符串的字符串205。针对该种字符串数据，确认相邻字符串ID207、相邻单元格字符串ID208中保持的字符串ID的字符串数据在正解元数据指定ID206中是否具有图8的第i个元数据中的元数据种类ID300。在正解元数据指定ID206中具有值，并且并非第i个元数据的元数据种类ID300的情况下，意味着使用第l个候选字符串试图从第k个样本文档中取得元数据，但是却取得错误的元数据。因此，在该种情况下，临近字符串特征利用调整处理部111设定不使用该第l个候选字符串(步骤903)。在除此之外的情况下，临近字符串特征利用调整处理部111使样本文档的索引k增加1(步骤904)，如果还留有样本文档，则返回步骤902重新进行处理(步骤905)。

如果针对所有样本文档完成了环处理，则临近字符串特征利用调整处理部111设定使用第l个候选字符串(步骤906)。然后，临近字符串特征利用调整处理部111针对第l个候选字符串的利用进行图10所示的画面显示(步骤907)。并且，临近字符串特征利用调整处理部111使候选字符串的索引l增加1(步骤908)，如果还留有候选字符串，则返回步骤901重新进行处理(步骤909)。

图10是表示临近字符串的特征的利用设定结果显示画面(GUI)的图。该结果显示画面中显示的是，针对某一元数据种类，是否利用某一临近字符串的特征是如何设定的，显示分别通过图8的i值、第i个元数据种类数据的元数据种类名称301、图9的第l个候选字符串、图9的步骤903或者步骤906指定的是否利用(1000)。另外，该结果显示画面中，在1001中显示图8的步骤803中登记候选字符串时的样本文档的文档图像203，在图9的步骤903中设定为不利用的情况下在1002中显示那时的文档图像203。

另外，图10的1003中配置有显示通过图9的步骤903或者906指定的是否利用并且接受用户指定的单选按钮。针对此处由用户指定为“使用”的临近字符串的特征，在元数据种类数据的利用临近字符串特征303中保持数据。

<部分字符串特征利用设定处理的详细>

图11是用于说明图4的步骤403的详细处理的流程图。首先，部分字符串特征利用设定处理部109将元数据种类索引i、部分字符串的候选集合s、以及样本文档的索引k初始化(步骤1100、1101以及1102)。

接着，部分字符串特征利用设定处理部109依次确认第k个样本文档中记载内容202所含的字符串数据的正解元数据指定ID206，如果存在具有第i个元数据种类的ID300的字符串数据，则将字符串205原原本本或者部分字符串作为候选在s中追加(步骤1103)。例如，对象元数据种类为“顾客名称”、字符串数据为“股份公司ABCD”的情况下，追加“股份公司”、“ABCD”等作为部分字符串候选。

接着，部分字符串特征利用设定处理部109使样本文档的索引k增加1(步骤1104)，如果还留有样本文档，则返回步骤1103重新进行处理(步骤1105)。

接着，部分字符串特征利用设定处理部109针对候选集合s中所含的字符串，基于包含该字符串的字符串是否为元数据，判断候选字符串是否称得上对取得元数据有效，设定是否利用(步骤1106)。关于该处理，将使用图12详细进行说明。

然后，部分字符串特征利用设定处理部109使元数据种类的索引i增加1(步骤1107)，如果还留有元数据种类，则返回步骤1102重新进行处理(步骤1108)。

图12是用于说明图11的步骤1106的详细的流程图。首先，部分字符串特征利用调整处理部112使候选字符串的索引l、样本文档的索引k初始化(步骤1200以及1201)。

接着，部分字符串特征利用调整处理部112在第k个样本文档中调查第i个以外的元数据中是否存在包含第l个候选字符串的元数据(步骤1202)。此处，确认第k个文档数据的记载内容202，搜索是否存在包含第l个候选字符串的字符串205。针对该种字符串数据，确认在正解元数据指定ID206中是否具有图11的第i个元数据中的元数据种类ID300。在正解元数据指定ID206中具有值，并且并非第i个元数据种类ID300的情况下，意味着使用第l个候选字符串试图从第k个样本文档中取得元数据，但是却取得错误的元数据。因此，在该种情况下，设定不使用第l个候选字符串(步骤1203)。例如，在如上所述的对象元数据种类为“顾客名称”、字符串数据为“股份公司ABCD”的情况下，在存在非顾客名称但是却包含“股份公司”这一字符串的元数据的情况下判断为不作为候选字符串使用。

在除此之外的情况下，部分字符串特征利用调整处理部112使样本文档的索引k增加1(步骤1204)，如果还留有样本文档，则返回步骤1202重新进行处理(步骤1205)。如果针对所有样本文档完成了环处理，则设定为使用第l个候选字符串(步骤1205)。

然后，部分字符串特征利用调整处理部112针对第l个候选字符串的利用进行图13所示的画面显示(步骤1207)，使候选字符串的索引l增加1(步骤1208)，如果还留有候选字符串，则返回步骤1201重新进行处理(步骤1209)。

图13是表示部分字符串的特征的利用设定结果显示画面(GUI)的图。在图13的结果显示画面中显示的是，针对某一个元数据种类，是否利用某一个部分字符串的特征是如何设定的，显示分别通过图11的i值、第i个元数据种类数据的元数据种类名称301、图12的第l个候选字符串、图12的步骤1203或者步骤1206指定的是否利用(1300)。

另外，该结果显示画面中，在1301中显示图11的步骤1103中登记候选字符串时的样本文档的文档图像203，在图12的步骤1203中设定为不利用的情况下在1302中显示那时的文档图像203。

并且，该结果显示画面的1303中配置有显示通过图12的步骤1203或者1206指定的是否利用并且接受用户指定的单选按钮。针对此处由用户指定为“使用”的部分字符串的特征，在元数据种类数据的利用部分字符串特征304中保持数据。

<变形例>

以上针对本发明的基本实施方式进行了说明，但是也能够考虑到如下变形例。

(1)在本说明书中，对于版式特征209以true或者false的2值排列形式保持的例子进行了说明，但是也能够考虑到以分数数值保持的情况。例如为如下方式：在文档中居中字符串非常少的情况下，对居中字符串赋予高的分数，在文档中记载的字符串的大半居中的情况下，对居中字符串赋予不太高的分数。另外，还具有例如赋予对应于字符串的字体字号的分数的方式。即便是这些进行以数值保持版式上的特征的情况下，本发明也是有效的。该情况下，可在步骤602中进行比较时将记载内容202中分数最大的字符串数据作为比较对象。

(2)在本说明书中，对于如步骤605那样通过利用、不利用的2值设定是否利用版式上的特征的例子进行了说明，但是也能够考虑到以加权和的形式进行设定的情况。例如为如下方式：在取得标题时，进行利用居中与字体字号的大小比率为2∶3(使仅指定了居中的字符串的分数为2、仅指定了字体字号的大小的字符串的分数为3、居中且字体字号也大的字符串的分数为5)等指定。即便在该种方式中本发明也是有效的。该情况下，可以在选择了本说明书中叙述的方式中利用的版式上的特征后在变更为各种加权的同时评价元数据取得精度，最终在模型中记述能够达成高精度的加权。

(3)在本说明书中，对于临近字符串特征数据中除了字符串本身305之外还保持有方向指定306的例子进行了说明，但是也能够考虑到伴随进行其他的前缀、后缀指定的情况。例如，在顾客名称记载为与“公启”这一字符串左侧相邻的情况下，在“公启”的前后附加字符的可能性很低。因此，适宜对“公启”设定为前缀、后缀的指定均为ON。

与此相对，在订购编号记载为与“订购编号”这一字符串的右侧相邻的情况下，具有在“订购编号”的前后附加字符的可能性，根据交易对方不同，或者为“贵公司订购编号”，或者为“订购编号(继续交易部分)”。该情况下，适宜将前缀、后缀的指定设定为OFF。即便在可进行该种指定的方式中本发明也是有效的。该情况下，当将临近元数据记载的字符串原原本本作为特征利用的情况下使前缀、后缀的指定为ON，当将临近记载的字符串的部分字符串作为特征利用的情况下可以改变前缀、后缀指定。

(4)在本说明书中，部分字符串的特征的利用是一并在步骤1103中作为候选字符串登记的，但是也能够考虑到附加前缀、后缀的指定来进行登记。例如，在“独立行政法人”这一字符串包含在顾客名称中的情况下，在“独立行政法人”的前面附加字符的可能性很低，但是在后面附加字符的可能性很高。该情况下，适宜将前缀的指定设定为ON，将后缀的指定设定为OFF。即便在可进行该种指定的方式中本发明也是有效的。该情况下，当将元数据原原本本作为特征利用的情况下使前缀、后缀的指定为ON，当将部分字符串作为特征利用的情况下可以改变前缀、后缀指定。

(5)在本说明书中，在步骤605的说明部分中，仅根据n1和n2的大小关系设定了是否利用第j个版式上的特征。可以在此基础上进一步添加条件，设定为利用版式上的特征中、按n1与n2的差从大到小的顺序预先定义的个数的版式上的特征。由此，能够准备通过避免过拟合(over-training)而有重点的模型。

(6)在本说明书中，在步骤902中，设定了仅在临近存在第i个以外的元数据的情况下不利用候选字符串。可以在此基础上进一步添加条件，可以在临近存在的字符串不是第i个元数据的情况下，全部设定为“不利用候选字符串”。由此，能够准备通过可靠地避免非元数据字符串的精度(而不是能够毫无遗漏地取得元数据字符串的概率)而有重点的模型。

(7)在本说明书中，在步骤1202中，设定了仅在第i个以外的元数据中存在包含第l个候选字符串的元数据的情况下不利用候选字符串。可以在此基础上进一步添加条件，可以在第i个元数据以外的字符串包含第l个候选字符串的情况下，全部设定为“不利用候选字符串”。由此，能够准备通过可靠地避免非元数据字符串的精度(而不是能够毫无遗漏地取得元数据字符串的概率)而有重点的模型。

<总结>

在本发明的实施方式所提供的业务文档处理装置中，判定处理对象文档数据内的处理对象元数据所具有的版式特征、处理对象元数据的临近字符串特征、以及处理对象元数据所含的部分字符串特征的至少一个是否对于从文档数据中提取处理对象元数据有效，并输出该判定结果。由此，仅指定文档和其中记载的元数据群，就能够自动设定元数据自动取得中的版式上的特征的利用、临近元数据记载的字符串的特征的利用、元数据的部分字符串的特征的利用。

更详细地，版式特征利用设定处理部以及版式特征利用调整部检查处理对象元数据(例如标题)所具有的版式特征(例如居中)是否出现在处理对象文档数据中元数据以外的字符串中，并基于该检查结果判定版式特征对于提取元数据方面是否有效。另外，临近字符串特征利用设定处理部以及临近字符串特征利用调整处理部检查临近字符串特征(例如公启)是否临近处理对象元数据(例如顾客名称)以外字符串出现，并基于该检查结果判定临近字符串特征对于提取处理对象元数据方面是否有效。

并且，部分字符串特征利用设定处理部以及部分字符串特征利用调整处理部检查部分字符串特征(例如独立行政法人)是否包含在处理对象元数据(例如顾客名称)以外字符串中，并基于该检查结果判定部分字符串特征对于提取处理对象元数据方面是否有效。由此，能够自动进行考虑到了元数据具有何种出现方式、元数据以外的字符串具有何种出现方法的细致的调整，能够高效执行元数据提取，并且这些调整是基于文档的特征来进行的，因此还能够迅速进行文档的处理。由此，能够大幅削减准备元数据提取模型的步骤，能够在各组织中利用自动取得元数据的技术。亦即，能够容易导入使用元数据进行文档的管理和检索的业务文档处理装置。

另外，版式特征利用设定处理部以及版式特征利用调整处理部针对被指定了相同元数据种类(标题)的多个处理对象文档数据算出版式特征仅在元数据的字符串中出现的文档数(n1)、版式特征仅在元数据以外的字符串中出现的文档数(n2)、版式特征在元数据的字符串以及其以外的字符串双方中出现的文档数(n3)，显示各文档数，并且在n1＞n2的情况下，在显示部(GUI)中显示表示将该版式特征设定为模型的信息，该模型中该版式特征是为了自动取得该元数据而应该受到关注的特征。能够将经过该种处理的文档进行分类，并将分类结果提示给用户，因此有助于用户判断是否原原本本使用被提示的基准。

并且，本发明也能够通过实现实施方式的功能的软件的程序代码来实现。该情况下，向系统或者装置提供记录有程序代码的存储介质，该系统或者装置的计算机(或者CPU、MPU)读出保存在存储介质中的程序代码。该情况下，从存储介质读出的程序代码自身实现上述实施方式的功能，该程序代码自身以及存储有该程序代码的存储介质构成本发明。作为用于供给该种程序代码的存储介质，可使用例如软盘、CD-ROM、DVD-ROM、硬盘、光盘、光磁盘、CD-R、磁带、非易失性存储卡、ROM等。

另外，可以基于程序代码的指示由计算机上工作中的OS(操作系统)等进行实际处理的一部分或者全部，通过该处理来实现上述实施方式的功能。并且，可以在从存储介质读出的程序代码写入计算机上的存储器后，基于该程序代码的指示由计算机的CPU等进行实际的处理的一部分或者全部，通过该处理来实现上述实施方式的功能。

另外，可以通过经由网络分发实现实施方式的功能的软件的程序代码，将其保存在系统或者装置的硬盘、存储器等存储单元或者CD-RW、CD-R等存储介质中，在使用时由该系统或者装置的计算机(或者CPU、MPU)读出保存在该存储单元、该存储介质中的程序代码并执行。

符号说明

100...显示装置

101...样本文档DB

102...键盘

103...指示设备

104...中央处理装置

105...程序存储器

106...数据存储器

107...版式特征利用设定处理部

108...临近字符串特征利用设定处理部

109...部分字符串特征利用设定处理部

110...版式特征利用调整处理部

111...临近字符串特征利用调整处理部

112...部分字符串特征利用调整处理部

113...文档数据保存部

114...字符串数据保存部

115...元数据种类数据保存部

116...临近字符串特征数据保存部

Claims

1.一种文档数据处理装置，其使用文档中的元数据来管理文档，其特征在于，具备：

文档数据取得部，其取得文档中所含元数据的种类被指定了的处理对象文档数据；

版式特征判定处理部，其判定所述处理对象文档数据内的处理对象元数据所具有的版式特征对于提取所述处理对象元数据方面是否有效；以及

输出部，其输出所述版式特征判定处理部的判定结果，

其中，所述版式特征判定处理部检查所述处理对象元数据所具有的版式特征是否在所述处理对象文档数据中所述处理对象元数据以外的字符串中出现，并基于该检查结果判定所述版式特征对于提取所述处理对象元数据方面是否有效。

2.根据权利要求1所述的文档数据处理装置，其特征在于，

所述文档数据取得部取得多个文档数据来作为处理对象，

所述版式特征判定处理部针对被指定了相同元数据种类的多个处理对象文档数据算出所述版式特征仅在所述处理对象元数据的字符串中出现的文档数n1和所述版式特征仅在所述处理对象元数据以外的字符串中出现的文档数n2，

所述输出部输出所述文档数，并且在n1>n2的情况下提示表示将该版式特征设定为模型的信息，该模型中该版式特征是为了自动取得该处理对象元数据而应该受到关注的特征。

3.一种文档数据处理装置，其使用文档中的元数据来管理文档，其特征在于，具备：

临近字符串特征判定处理部，其判定所述处理对象文档数据内临近处理对象元数据的字符串特征对于提取所述处理对象元数据方面是否有效；以及

输出部，其输出所述临近字符串特征判定处理部的判定结果，其中，所述临近字符串特征判定处理部检查所述临近字符串特征是否临近所述处理对象元数据以外字符串出现，并基于该检查结果判定所述临近字符串特征对于提取所述处理对象元数据方面是否有效。

4.一种文档数据处理装置，其使用文档中的元数据来管理文档，其特征在于，具备：

部分字符串特征判定处理部，其判定所述处理对象文档数据内的处理对象元数据所含的部分字符串特征对于提取所述处理对象元数据方面是否有效；以及

输出部，其输出所述部分字符串特征判定处理部的判定结果，

其中，所述部分字符串特征判定处理部检查所述部分字符串特征是否包含在所述处理对象元数据以外字符串中，并基于该检查结果判定所述部分字符串特征对于提取所述处理对象元数据方面是否有效。

5.一种文档数据处理装置，其使用文档中的元数据来管理文档，其特征在于，具备：

特征判定处理部，其判定所述处理对象文档数据内的处理对象元数据所具有的版式特征、临近所述处理对象元数据的字符串特征、以及所述处理对象元数据中所含部分字符串特征中至少两个特征对于提取所述处理对象元数据方面是否有效；以及

输出部，其输出所述特征判定处理部的判定结果，

其中，所述特征判定处理部检查所述处理对象元数据所具有的版式特征是否在所述处理对象文档数据中所述处理对象元数据以外的字符串中出现，并基于该检查结果判定所述版式特征对于提取所述处理对象元数据方面是否有效。

6.根据权利要求5所述的文档数据处理装置，其特征在于，

所述特征判定处理部检查所述临近字符串特征是否临近所述处理对象元数据以外字符串出现，并基于该检查结果判定所述临近字符串特征对于提取所述处理对象元数据方面是否有效。

7.根据权利要求5所述的文档数据处理装置，其特征在于，

所述特征判定处理部检查所述部分字符串特征是否包含在所述处理对象元数据以外字符串中，并基于该检查结果判定所述部分字符串特征对于提取所述处理对象元数据方面是否有效。