JP2011028568A - 文書データ処理装置 - Google Patents

文書データ処理装置 Download PDF

Info

Publication number
JP2011028568A
JP2011028568A JP2009174502A JP2009174502A JP2011028568A JP 2011028568 A JP2011028568 A JP 2011028568A JP 2009174502 A JP2009174502 A JP 2009174502A JP 2009174502 A JP2009174502 A JP 2009174502A JP 2011028568 A JP2011028568 A JP 2011028568A
Authority
JP
Japan
Prior art keywords
character string
metadata
feature
document
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009174502A
Other languages
English (en)
Other versions
JP5340847B2 (ja
Inventor
Toshiko Matsumoto
俊子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2009174502A priority Critical patent/JP5340847B2/ja
Priority to CN201080028233.2A priority patent/CN102473176B/zh
Priority to US13/380,561 priority patent/US8768941B2/en
Priority to PCT/JP2010/062417 priority patent/WO2011013587A1/ja
Priority to EP10804333.2A priority patent/EP2461255A4/en
Publication of JP2011028568A publication Critical patent/JP2011028568A/ja
Application granted granted Critical
Publication of JP5340847B2 publication Critical patent/JP5340847B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】メタデータを抽出するためのモデルを用意する工数を大幅に削減し、各組織においてメタデータを自動的に取得するための技術を提供する。
【解決手段】文書とその中に記載されたメタデータの組を入力として、メタデータとそうでない文字列におけるレイアウト上の特徴・近傍文字列・部分文字列の特徴を用いて、メタデータの自動取得におけるレイアウト上の特徴・近傍文字列・部分文字列の利用を自動的に設定する。
【選択図】図1

Description

本発明は、文書データ処理装置に関し、例えば、大量に存在する業務文書のファイルデータを効率的に管理するための技術に関する。
組織内の文書を効率的に取扱うための技術に対する要求が高まっている。例えば、日本版SOX法(金融商品取引法)の施行に伴い、企業の営業活動における証憑の管理ニーズが高まっている。また、例えば企業内の情報、その中でも特にリレーショナルデータベースに格納されない(定型でない)文書データが急激に増大している(情報爆発と呼ばれる現象が起きている)。このような状況のもとで、文書をタイトル・作成日・作成者などのメタデータで管理・検索したいというニーズも高まっている。例えば営業文書であれば、文書名・顧客名・作成日・注文番号などの業務IDで検索を行うことができれば、内部統制の監査において必要な文書を迅速に探し出すことができる。また設計文書であれば、文書名・作成元部署・作成日・製品コードなどで検索を行うことができれば、技術情報の有効活用に効果がある。さらに、クレーム・不具合情報の記録文書であれば、発生日・対策日・製品名・被害額・部品名などで検索を行うことができれば、類似の不具合の発生時における迅速な対応に効果がある。また、業務規定・通達などの文書であれば、文書の種別・作成日・実施期間などで検索を行うことができれば、ルールに沿った効率的な業務遂行に効果がある。
定型でない文書を解析してメタデータを自動的に取得する技術は多く提案されている(例えば、特許文献1乃至3、非特許文献1及び2参照)。これらの文献は、対象となる文書の種類を事前に定め、その種類の文書に記述されるメタデータの特徴を詳細に調査し、対象となる種類の文書の「モデル」として保持しておくことを想定している。その上で、文書中に現れる文字列とモデルとのマッチングを行ない、どの文字列がモデル中のどの構成要素か(どの文字列がメタデータか)を推測する。特徴としては、レイアウト上の特徴(例えば「タイトルはセンタリングされていることが多い」など)・メタデータの近傍に記載される文字列の特徴(例えば「注文番号は『注文番号:』という文字列の右隣に記載されることが多い」など)・メタデータの部分文字列の特徴(例えば「顧客名は『独立行政法人』から始まることが多い」)が用いられる。
また、特許文献4乃至6、及び非特許文献3乃至8に示されるように、メタデータ自動取得のためのモデルを自動的に用意するための取組みも既に行われている。
特開平11−184894号公報 特許第3425834号公報 特許第3425408号公報 米国特許7,149,347B1公報 特開2000−90117号公報 特開平11−328306号公報
勝山・直井・武部, ビジネス文書を対象としたキーワード自動抽出技術, FUJITSU, 49, 5, pp.404-409 (1998-09) Ishitani, Y., Document Transformation System from Papers to XML Data Based on Pivot XML Document Method, Proceedings of the Seventh International Conference on Document Analysis and Recognition (2003) F. Esposito, D. Malerba, G. Semeraro, S. Ferilli, O. Altamura, T. M. A. Basile, M. Berardi, M. Ceci, N. Di Mauro, "Machine Learning methods for automatically processing historical documents: from paper acquisition to XML transformation", Proceedings of the First Inernational Workshop on Document Image Analysis for Libraries, 2004. M. Kramer, H. Kaprykowsky, D. Keysers, T. Breuel, "Bibliographic Meta-Data Extraction Using Probabilistic Finite State Transducers", Proceedings of International Conference on Document Analysis and Recognition, Vol. 2, pp. 609-613, 2007 D. Besagni, A. Belaid, "Citation Recognition for Scientific Publications in Digital Libraries", Proceedings on the First International Workshop on Document Image Analysis for Libraries, 2004 F. Parmentier, A. Belaid, "Logical Structure Recognition of Scientific Bibliographic References", Proceedings on International Conference on Document Analysis and Recognition, pp. 1072-1076, 1997 D. Besagni, A. Belaid, N. Benet, "A segmentation method for bibliographic references by contextual tagging of fields", Proceedings on Seventh International Conference on Document Analysis and Recognition, vol. 1, pp. 384-388, 2003 M. Imamura, Y. Takayama, M. Akiyoshi, and N. Komoda, "An Acquisition Method on Term Knowledge from Operating Manuals for Information Equipments by Using the Structure of Headline Sentences", IEEJ Trans. EIS, Vol. 128, No. 12, pp.1833-1841 (2008)
(1)特許文献1乃至3、非特許文献1及び2で示されるようなメタデータの自動取得処理においては、上述したような動作原理上、モデルの完成度が最終的なメタデータの推測の精度に大きく影響を及ぼす。
しかしながら、モデルを人手で用意する場合、以下のような課題が存在し、効率的でない。
モデルを用意するときの課題1:レイアウト上の特徴としてどのようなものを使ってどのメタデータを取得するべきかを、文書の特徴に応じて設定するのは煩雑である。レイアウト上の特徴はたくさんの種類があり(下線・センタリング・フォントサイズ・ページ内における位置など)、メタデータの種類との組み合わせ数はさらに多いものとなる。
モデルを用意するときの課題2:モデルへのレイアウト上の特徴の利用に当たっては、どのような文書があるか・メタデータはどのような現れ方をするか・メタデータ以外の文字列はどのような現れ方をするか、を考慮して細かい調整を行う必要がある。例えば、営業文書ではタイトルには下線があることが比較的多い。しかし、金額や商品名には、タイトル以上に下線があることが多い。このため、レイアウト上の特徴として下線の有無を用いるようモデルに記述すると、タイトルとして金額や品名を誤って取得することになってしまう。このようなことを避けるため、レイアウト上の特徴の利用を細かく調整する必要がある。
モデルを用意するときの課題3:メタデータの近傍に記載される文字列の特徴としてどのようなものを用いてメタデータを取得するべきかを、文書の特徴に応じて設定するのは煩雑である。例えば、注文番号を右隣に持つ文字列としては、上述の「注文番号:」の他にも「注文NO:」、「注文No:」、「注文No.:」、「注文書番号」、「発注番号」などの表現があり、これらを洩らさず列挙することがモデルの完成度に寄与する。
モデルを用意するときの課題4:メタデータの近傍に記載される文字列の特徴の利用に当たっては、どのような文書があるか・メタデータはどのような現れ方をするか・メタデータ以外の文字列はどのような現れ方をするか、を考慮して細かい調整を行う必要がある。例えば、営業文書では顧客名は『行』の左隣に記載されることが多い。しかし、「行」の左隣に記載された文字列を顧客名として取得してしまうと、振込先として記載されている銀行名の一部を誤って顧客名として取得してしまうことが頻発する。
モデルを用意するときの課題5:メタデータの部分文字列の特徴としてどのようなものを用いてメタデータを取得するべきかを、文書の特徴に応じて設定するのは煩雑である。例えば、日立ソフトウェアエンジニアリング株式会社は日立グループ企業との取引が多いので、部分文字列の特徴として「日立」を用いることに効果がある。このように各組織毎に取引先の傾向を調べて部分文字列を挙げることがモデルの完成度に寄与する。
モデルを用意するときの課題6:メタデータの部分文字列の特徴の利用に当たっては、どのような文書があるか・メタデータはどのような現れ方をするか・メタデータ以外の文字列はどのような現れ方をするか、を考慮して細かい調整を行う必要がある。例えば「会社」という文字列は顧客名に含まれることが多い。しかし、「会社」を含む文字列を顧客名として取得してしまうと、「会社名」などの文字列を誤って顧客名として取得してしまうことが頻発する。
(2)特許文献4乃至6及び非特許文献3乃至8に示される技術にもそれぞれ問題点があり、定型でない文書からメタデータを正確に取得するためのモデル(文書内の注目すべき特徴)を用意するために適用することはできない。
つまり、非特許文献3・特許文献4・5・6は、「請求書」や「住宅ローン申込み」など文書の詳細なクラスごとにモデルを用意する場合の技術について述べているものであり、取り扱う文書の種類が限定されていて、「営業文書」や「設計文書」などの広い範囲の文書をまとめて扱うことを想定しておらず、汎用的な技術とは言い難い。また、それぞれのクラスごとにモデルを使い分けるのは煩雑であり、業務文書の効率的な取扱いとして運用上現実的でない。
また、非特許文献4・5・6・7は、論文のReferenceセクションを対象としており、文字列情報を入力として取扱うことを想定している。したがって、二次元平面上の広がりを持つ文書のデータを扱うことはできない。
さらに、非特許文献8は、マニュアルを対象としており、見出し表現を利用している。営業文書や設計文書など一般の業務文書では見出し表現が記載されていない文書も多く、そのような文書を取扱うことはできない。
(3)本発明はこのような状況に鑑みてなされたものであり、メタデータを抽出するためのモデルを用意する工数を大幅に削減でき、各組織においてメタデータを自動的に取得する技術を提供するものである。
上記課題を解決するために、本発明による文書データ処理装置は、処理対象の文書データ内の処理対象のメタデータが有するレイアウト特徴が、処理対象のメタデータを抽出する上で有効か否か判定し、その判定結果を出力する。より詳細には、文書データ処理装置は、処理対象のメタデータが有するレイアウト特徴が、処理対象の文書データにおけるメタデータ以外の文字列に現れているか否かチェックし、当該チェック結果に基づいてレイアウト特徴がメタデータを抽出する上で有効か否か判定する。また、文書データ処理装置は、同一のメタデータの種類が指定された複数の処理対象の文書データについて、レイアウト特徴がメタデータの文字列にのみ現れている文書数(n1)と、レイアウト特徴がメタデータ以外の文字列にのみ現れている文書数(n2)を算出し、文書数を出力すると共に、n1>n2の場合に、当該レイアウト特徴を、当該メタデータを自動取得するのに注目すべき特徴であるモデルとして設定することを示す情報を提示する。
本発明による文書データ処理装置は、処理対象の文書データ内の処理対象のメタデータの近傍の文字列特徴が、処理対象のメタデータを抽出する上で有効か否か判定し、その判定結果を出力する。より詳細には、文書データ処理装置は、近傍文字列特徴が処理対象のメタデータ以外の文字列の近傍に現れているか否かチェックし、当該チェック結果に基づいて近傍文字列特徴を処理対象のメタデータを抽出する上で有効か否か判定する。
さらに、本発明による文書データ処理装置は、処理対象の文書データ内の処理対象のメタデータに含まれる部分文字列特徴が、処理対象のメタデータを抽出する上で有効か否か判定し、その判定結果を出力する。より詳細には、文書データ処理装置は、部分文字列特徴が処理対象のメタデータ以外の文字列に含まれているか否かチェックし、当該チェック結果に基づいて部分文字列特徴を処理対象のメタデータを抽出する上で有効か否か判定する。
さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。
本発明によれば、メタデータを抽出するためのモデルを用意する工数を大幅に削減でき、各組織においてメタデータを自動的に取得することができるようになる。
本発明による業務文書処理装置の概略構成を示す機能ブロック図である。 文書データおよび文字列データのデータ構造例を示す図である。 メタデータ種類データおよび近傍文字列特徴データのデータ構造例を示す図である。 業務文書処理装置において実行される処理手順の全体を説明するためのフローチャートである。 レイアウト特徴利用設定処理部で実行される詳細動作を説明するためのフローチャートである。 レイアウト特徴利用調整処理部で実行される詳細動作を説明するためのフローチャートである。 レイアウト情報利用調整処理部で表示される確認画面を示す図である。 近傍文字列特徴利用設定処理部で実行される詳細動作を説明するためのフローチャートである。 近傍文字列特徴利用調整処理部で実行される詳細動作を説明するためのフローチャートである。 近傍文字列特徴利用調整処理部で表示される確認画面例を示す図である。 部分文字列特徴利用設定処理部で実行される詳細動作を説明するためのフローチャートである。 部分文字列特徴利用調整処理部で実行される詳細動作を説明するためのフローチャートである。 部分文字列特徴利用調整処理部で表示される確認画面例を示す図である。
本発明は、文書からメタデータを抽出する際に必要とされる特徴(モデル)を用意するための処理に関するものである。本実施形態では、用意されるモデルとして、メタデータのレイアウト特徴との関係、近傍文字列との関係、及びそれに含まれる部分文字列との関係が示されている。
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。
<業務文書管理装置の構成>
図1は、本発明の実施形態による業務文書処理装置の内部構成を概略的に示す機能ブロック図である。業務文書処理装置1は、データを表示するための表示装置100と、サンプル文書DB101と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード102と、マウスなどのポインティングデバイス103と、必要な演算処理や制御処理などを行う中央処理装置104と、中央処理装置104での処理に必要なプログラムを格納するプログラムメモリ105と、中央処理装置104での処理に必要なデータを格納するデータメモリ106と、を備えている。
中央処理装置104は、メタデータ抽出のために利用するレイアウト特徴(例えば、「下線」「センタリング」等)を設定するレイアウト特徴利用設定処理部107と、メタデータ抽出のために利用する近傍文字列特徴(例えば、「御中」「様」等)を設定する近傍文字列特徴利用設定処理部108と、メタデータ抽出のために利用する部分文字列(例えば、「株式会社」「会社」等)を設定する部分文字列特徴利用設定処理部109と、を備えている。本実施形態の場合、コンピュータによって構成され、レイアウト特徴利用設定処理部107と、近傍文字列特徴利用設定処理部108と、部分文字列特徴利用設定処理部109は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。なお、これらのプログラムは、プログラムメモリ105に格納されている。
レイアウト特徴利用設定処理部107は、メタデータ(例えば、「タイトル」)を抽出するのにあるレイアウト特徴(例えば、「下線」)を使うとどのようなメリット・デメリットがあるか(メタデータ抽出に有効か否か)チェックし、最終的に当該レイアウト特徴の利用・非利用の調整処理を実行するレイアウト特徴利用調整処理部110を備えている。近傍文字列特徴利用設定処理部108は、メタデータ(例えば、「顧客名」)を抽出するのにある近傍文字列特徴(例えば、「御中」)を使うとどのようなメリット・デメリットがあるか(メタデータ抽出に有効か否か)チェックし、最終的に当該近傍文字列特徴の利用・非利用の調整処理を実行する近傍文字列特徴利用調整処理部111を備えている。さらに、部分文字列特徴利用設定処理部109は、メタデータ(例えば、「顧客名」)を抽出するのにある部分文字列特徴(例えば、「会社」)を使うとどのようなメリット・デメリットがあるか(メタデータ抽出に有効か否か)チェックし、最終的に当該部分文字列特徴の利用・非利用の調整処理を実行する部分文字列特徴利用調整処理部112を備えている。
データメモリ106は、文書データ格納部113と、文字列データ格納部114と、メタデータ種類データ格納部115と、近傍文字列特徴データ格納部116と、を備えている。
<文書データ及び文字列データのデータ構造>
図2は、データメモリ106に含まれる文書データ格納部113および文字列データ格納部114に格納される文書データ及び文字列データのデータ構造を示す図である。
文書データは、文書ID200と、文書のファイル名201と、記載内容202と、文書画像203とを含んでいる。記載内容202は、文字列データ構造体の配列の形で保持する。また、文書画像203は、文書の印刷イメージを画像形式で保持する。
文字列データは、文字列ID204と、文字列の内容205と、正解メタデータ指定ID206と、隣接文字列ID207と、隣接セル文字列ID208と、レイアウト特徴209と、を含んでいる。
正解メタデータ指定ID206は、その文字列(図2の例では「提案書」)をメタデータとして取得したいとユーザが指定した場合はメタデータの種類に応じたID(図2の例では、「タイトル」というメタデータ種類ID)を保持しており、そのような指定をしていない場合はNULL値を保持している。
隣接文字列ID207は、二重の配列の形で隣接文字列の情報を保持する。一重目は上下左右の方向を表し、二重目はその方向に隣接する文字列があった場合にそのIDを保持する。二重目も配列になっていることで、同じ方向に隣接する文字列が複数ある場合に対応できる。図2の例では、「提案書」という文字列の上には二つの文字列(それぞれ文字列IDはStr_0002およびStr_0003)、下には一つの文字列(文字列IDはStr_0004)、右には二つの文字列(それぞれ文字列IDはStr_0005およびStr_0006)が隣接し、左に隣接する文字列はないことを示している。
隣接セル文字列ID208は、隣接文字列ID207と同様に、対象の文字列(例えば「提案書」)が表の中に含まれている場合に、二重の配列の形で隣接セルの情報を保持する。一重目は上下左右の方向を表し、二重目はその方向に隣接するセルに文字列があった場合にそのIDを保持する。表の外に記載されている文字列や、表の中に記載されている文字列のうち隣接するセルがない文字列や、表の中に記載されている文字列で隣接するセルはあるがその中が空である文字列では、図2の例のように空の配列となる。
レイアウト特徴209は、複数の種類のレイアウト特徴を持つかどうかを順に配列の形でどのようなレイアウト特徴を有しているかの情報を保持する。例えば、レイアウト特徴の例として、左から、センタリング、フォント、下線、Bold等とすると、これらの特徴が含まれるかをtrue又はfalseで示される。
<メタデータ種類データ及び近傍文字列特徴データのデータ構造>
図3は、データメモリ106に含まれるメタデータ種類データ115および近傍文字列特徴データ116のデータ構造を示す図である。つまり、図3の例では、メタデータとして「タイトル」を抽出する場合、302乃至304の特徴に着目すると効率良く当該メタデータを抽出できることが示されている。なお、図3の302乃至304のデータは、図2のデータを利用し、図4の処理(ステップ401乃至403の少なくとも何れか1つの処理)によって生成された結果(メタデータ抽出モデル)に相当する。
メタデータ種類データは、メタデータ種類ID300と、メタデータ種類名301と、利用レイアウト特徴302と、利用近傍文字列特徴303と、利用部分文字列特徴304と、を情報として含んでいる。
利用レイアウト特徴302は、複数の種類のレイアウト特徴を利用するかどうかを順に配列の形で保持する。図3の例では、メタデータ「タイトル」に関しては、図2のレイアウト特徴209のうち「フォント」を利用すべきレイアウト特徴として設定されていることが示されている。
また、利用近傍文字列特徴303は、近傍文字列特徴データの配列の形でメタデータ抽出に利用すると有効な近傍文字列の情報を保持する。図3の例では、近傍文字列「御中」がメタデータ「タイトル」を抽出するのに有効であることが示されている。また、近傍文字列特徴データは、文字列305および方向指定306を含んでいる。図3では、「『御中』という文字列がメタデータの『右隣』に記載されることが多い」という特徴を利用してメタデータを取得する例が示されている。
利用部分文字列特徴304は、文字列の配列の形でメタデータ抽出に利用すると有効な部分文字列の情報を保持する。図3の例では、メタデータ「タイトル」を抽出するには、当該メタデータに「シート」や「申請書」という文字列が含まれていることを利用することが有効であることが示されている。
<メタデータ抽出モデル生成処理(全体)>
次に、上記のように構成された本実施形態の業務文書処理装置1において行われる処理について説明する。図4は、業務文書処理装置1において行われるメタデータ抽出モデル生成処理の全体の流れを概略的に示すフローチャートである。
図4において、まず、中央処理装置104は、処理すべき文書をサンプル文書DB101から読み込み、文書データ113の形で保持する(ステップ400)。なお、サンプル文書DB101に格納されている文書は、例えば「タイトル」や「顧客名」のようにユーザによって予めメタデータの種類が指定されている。
次に、レイアウト特徴利用設定処理部107は、レイアウト上の特徴の利用を設定する処理を行う(ステップ401)。ここでの処理については、図5において詳細に説明する。
また、近傍文字列特徴利用設定処理部108は、近傍に記載される文字列の特徴の利用を設定する処理を行う(ステップ402)。ここでの処理については、図8において詳細に説明する。
そして、部分文字列特徴利用設定処理部109は、部分文字列の特徴の利用を設定する処理を行う(ステップ403)。ここでの処理については、図11において詳細に説明する。
なお、処理401乃至403は排他的な処理であり、それぞれ単独で実行しても良いし、組み合わせて実行しても良い。
<レイアウト特徴利用設定処理の詳細>
図5は、図4のステップ401の処理の詳細を説明するためのフローチャートである。まず、レイアウト特徴利用設定処理部107は、タイトル・作成者・作成日などのメタデータ種類について順に処理を行うため、インデックスiを初期化する(ステップ500)。
次に、レイアウト特徴利用設定処理部107は、下線・センタリング・フォントサイズなどレイアウト上の特徴について順に処理を行うため、インデックスjを初期化する(ステップ501)。
その後、レイアウト特徴利用設定処理部107は、レイアウト特徴利用調整処理部110を用いて、j番目のレイアウト上の特徴が有効だったサンプル文書・無効だったサンプル文書・効果が不明だったサンプル文書を基に、j番目のレイアウト上の特徴はメタデータの取得に有効であると言えるか判断し、利用するかどうか設定する(ステップ502)。この処理については、図6において詳細に説明する。
そして、レイアウト特徴利用設定処理部107は、レイアウト上の特徴のインデックスjを1だけインクリメントし(ステップ503)、レイアウト上の特徴がまだ残っているならばステップ502に戻って処理をやり直す(ステップ504)。また、レイアウト特徴利用設定処理部107は、メタデータ種類のインデックスiを1だけインクリメントし(ステップ505)、メタデータ種類がまだ残っているならばステップ501に戻って処理をやり直す(ステップ506)。
図6は、図5のステップ502の処理の詳細を説明するためのフローチャートである。まず、レイアウト特徴利用調整処理部110は、レイアウト上の特徴がメタデータの取得に有効だったサンプル文書を数えるためのカウンタn1、無効だったサンプル文書を数えるためのカウンタn2、効果が不明だったサンプル文書を数えるためのカウンタn3を初期化する(ステップ600)。また、レイアウト特徴利用調整処理部110は、ステップ400で読み込んだサンプル文書について順に処理を行うため、インデックスkを初期化する(ステップ601)。
次に、レイアウト特徴利用調整処理部110は、k番目のサンプル文書において文書データに含まれる記載内容202を確認し、レイアウト特徴209のj番目のレイアウト上の特徴がtrueになっている文字列データと、正解メタデータ指定ID206として図5のi番目のメタデータにおけるメタデータ種類ID300を持つ文字列データを比較する(ステップ602)。前者の文字列データと後者の文字列データが完全に一致する場合、j番目のレイアウト上の特徴を用いればk番目のサンプル文書からi番目のメタデータを取得できることを意味する。従って、j番目のレイアウト上の特徴が有効であったサンプル文書数n1をインクリメントする。前者の文字列データと後者の文字列データとが異なるものである場合、j番目のレイアウト上の特徴を用いてk番目のサンプル文書からi番目のメタデータを取得しようとすると間違ったものを取得してしまうことを意味する。従って、j番目のレイアウト上の特徴が無効だったサンプル文書数n2をインクリメントする。それ以外の場合は効果が不明であり、n3をインクリメントする。例えば、メタデータ種類データが「タイトル」で、レイアウト上の特徴が「センタリング」の場合、k番目の文書内において、タイトルであるとユーザによって指定された文字列がセンタリングされているかどうかチェックされ、さらにセンタリングされた文字列が指定タイトル以外にあるか否かチェックされる。指定文字列以外にセンタリングされた文字列がなければ、当該センタリングというレイアウト上の特徴は、メタデータ抽出に有効であることが分かり、n1がインクリメントされる。
その後、レイアウト特徴利用調整処理部110は、サンプル文書のインデックスkを1だけインクリメントし(ステップ603)、サンプル文書がまだ残っているならばステップ602に戻って処理をやり直す(ステップ604)。次に、n1,n2,n3の値を基に、図7に示す画面表示を行う(ステップ605)。例えば、レイアウト特徴「センタリング」を用いるとメタデータ(この例では「タイトル」)を抽出するのに有効な文章が多いのか、逆効果の文書が多いのかが画面表示され、これに基づいて、「センタリング」がタイトル取得に用いるべきか判断される。
図7は、レイアウト上の特徴の利用設定結果表示画面(GUI)を示す図である。当該結果表示画面では、どのメタデータ種類についてどのレイアウト上の特徴の利用要否がどのように設定されたか、それぞれ図5のiの値・i番目のメタデータ種類データのメタデータ種類名301・図6のjの値・n1,n2,n3の値を基に計算した利用要否が表示される(700)。このうち利用要否は、例えば、n1≧n2の場合には有効、そうでなければ無効などと判定することができる。また、当該結果表示画面では、n1,n2,n3の値が、利用要否の判定根拠をユーザに提供するための情報として表示される(701)。さらに、当該結果表示画面には、利用要否を表示すると共にユーザの指定を受付けるラジオボタンが702に配されている。ここで「使う」とユーザが指定したレイアウト上の特徴については、メタデータ種類データの利用レイアウト特徴302の該当する要素をtrueに、「使わない」と指定されたレイアウト上の特徴についてはfalseに設定する。
<近傍文字列特徴利用設定処理の詳細>
図8は、図4のステップ402の処理の詳細を説明するためのフローチャートである。まず、近傍文字列特徴利用設定処理部108は、メタデータ種類インデックスi、近傍に記載される文字列の候補セットs、およびサンプル文書のインデックスkを初期化する(ステップ800、ステップ801、およびステップ802)。
次に、近傍文字列特徴利用設定処理部108は、k番目のサンプル文書における記載内容202に含まれる文字列データの正解メタデータ指定ID206を順に確認し、i番目のメタデータ種類のID300を持つ文字列データがあれば、隣接文字列ID207や隣接セル文字列ID208で保持している文字列IDの文字列データの文字列205そのものや部分文字列を候補としてsに追加する(ステップ803)。この際、正解メタデータ指定されている文字列のどちらの方向に隣接しているかに応じて近傍文字列特徴データの方向指定306にも値を設定する。その後、近傍文字列特徴利用設定処理部108は、サンプル文書のインデックスkを1だけインクリメントし(ステップ804)、サンプル文書がまだ残っているならばステップ803に戻って処理をやり直す(ステップ805)。ここまでの処理によって、特定のメタデータ種類データ(例えば、「タイトル」)について、候補となる全ての近傍文字列データが収集される。
次に、近傍文字列特徴利用設定処理部108は、候補セットsに含まれる文字列について、その文字列を含む文字列の近傍に記載される文字列がメタデータであるかどうかを基に、候補文字列がメタデータの取得に有効であると言えるか判断し、利用するかどうか設定する(ステップ806)。つまり、特定のメタデータについて、候補文字列の周辺にある文字列が当該メタデータの文字列だけなのか、全く異なる文字列も存在するのか確認する(逆向きの確認)。例えば、メタデータ「顧客名」について、近傍文字「御中」の周辺には顧客名のみが存在するが、近傍文字「行」の周辺には必ずしも「顧客名」だけでなく、別の文字列(例えば、ABCD銀行)が来ることもあるので、「行」はメタデータ取得には有効ではないという判断がなされる。この処理の詳細については、図9を用いて説明する。
そして、近傍文字列特徴利用設定処理部108は、メタデータ種類のインデックスiを1だけインクリメントし(ステップ807)、メタデータ種類がまだ残っているならばステップ802に戻って処理をやり直す(ステップ808)。
図9は、図8のステップ806の処理を詳細に説明するためのフローチャートである。まず、近傍文字列特徴利用調整処理部111は、候補文字列のインデックスl、サンプル文書のインデックスkを初期化する(ステップ900及び901)。
次に、近傍文字列特徴利用調整処理部111は、k番目のサンプル文書におけるl番目の候補文字列に対し、方向指定306で指定される方向に隣接している近傍文字列を確認する(ステップ902)。ここでは、k番目の文書データの記載内容202を確認し、l番目の候補文字列を含む文字列205があるか探す。そのような文字列データについて、隣接文字列ID207や隣接セル文字列ID208に保持している文字列IDの文字列データが、正解メタデータ指定ID206に図8のi番目のメタデータにおけるメタデータ種類ID300を持つか確認する。正解メタデータ指定ID206に値があり、かつ、i番目のメタデータのメタデータ種類ID300ではない場合、l番目の候補文字列を用いてk番目のサンプル文書からメタデータを取得しようとすると間違ったものを取得してしまうことを意味する。従って、そのような場合は、近傍文字列特徴利用調整処理部111は、当該l番目の候補文字列を利用しないとして設定する(ステップ903)。それ以外の場合は、近傍文字列特徴利用調整処理部111は、サンプル文書のインデックスkを1だけインクリメントし(ステップ904)、サンプル文書がまだ残っているならばステップ902に戻って処理をやり直す(ステップ905)。
全てのサンプル文書についてループ処理を終えたのであれば、近傍文字列特徴利用調整処理部111は、l番目の候補文字列を利用するとして設定する(ステップ906)。その後、近傍文字列特徴利用調整処理部111は、l番目の候補文字列の利用について図10に示す画面表示を行う(ステップ907)。さらに、近傍文字列特徴利用調整処理部111は、候補文字列のインデックスlを1だけインクリメントし(ステップ908)、候補文字列がまだ残っているならばステップ901に戻って処理をやり直す(ステップ909)。
図10は、近傍文字列の特徴の利用設定結果表示画面(GUI)を示す図である。当該結果表示画面では、どのメタデータ種類についてどの近傍文字列の特徴の利用要否がどのように設定されたか、それぞれ図8のiの値・i番目のメタデータ種類データのメタデータ種類名301・図9のl番目の候補文字列・図9のステップ903またはステップ906で指定した利用要否が表示される(1000)。また、当該結果表示画面では、図8のステップ803で候補文字列を登録した際のサンプル文書の文書画像203が1001に表示され、図9のステップ903で利用しないと設定した場合はその際の文書画像203が1002に表示される。
また、図10には、図9のステップ903または906で指定した利用要否を表示すると共にユーザの指定を受付けるラジオボタンが1003に配置されている。ここで「使う」とユーザが指定した近傍文字列の特徴については、メタデータ種類データの利用近傍文字列特徴303にデータを保持する。
<部分文字列特徴利用設定処理の詳細>
図11は、図4のステップ403の処理の詳細を説明するためのフローチャートである。まず、部分文字列特徴利用設定処理部109は、メタデータ種類インデックスi、部分文字列の候補セットs、およびサンプル文書のインデックスkを初期化する(ステップ1100、1101および1102)。
次に、部分文字列特徴利用設定処理部109は、k番目のサンプル文書における記載内容202に含まれる文字列データの正解メタデータ指定ID206を順に確認し、i番目のメタデータ種類のID300を持つ文字列データがあれば、文字列205そのものや部分文字列を候補としてsに追加する(ステップ1103)。例えば、対象のメタデータ種類が「顧客名」で文字列データが「株式会社ABCD」であった場合、部分文字列候補として「株式会社」や「ABCD」等が追加される。
続いて、部分文字列特徴利用設定処理部109は、サンプル文書のインデックスkを1だけインクリメントし(ステップ1104)、サンプル文書がまだ残っているならばステップ1103に戻って処理をやり直す(ステップ1105)。
また、部分文字列特徴利用設定処理部109は、候補セットsに含まれる文字列について、その文字列を含む文字列がメタデータであるかどうかを基に、候補文字列がメタデータ取得に有効だったと言えるか判断し、利用するかどうか判断する(ステップ1106)。この処理については、図12を用いて詳細に説明する。
そして、部分文字列特徴利用設定処理部109は、メタデータ種類のインデックスiを1だけインクリメントし(ステップ1107)、メタデータ種類がまだ残っているならばステップ1102に戻って処理をやり直す(ステップ1108)。
図12は、図11のステップ1106の詳細を説明するためのフローチャートである。まず、部分文字列特徴利用調整処理部112は、候補文字列のインデックスl、サンプル文書のインデックスkを初期化する(ステップ1200、及び1201)。
次に、部分文字列特徴利用調整処理部112は、k番目のサンプル文書においてi番目以外のメタデータでl番目の候補文字列を含むものがあるか調べる(ステップ1202)。ここでは、k番目の文書データの記載内容202を確認し、l番目の候補文字列を含む文字列205があるか探す。そのような文字列データについて、正解メタデータ指定ID206に図11のi番目のメタデータにおけるメタデータ種類ID300を持つか確認する。正解メタデータ指定ID206に値があり、かつ、i番目のメタデータ種類ID300ではない場合、l番目の候補文字列を用いてk番目のサンプル文書からメタデータを取得しようとすると間違ったものを取得してしまうことを意味する。従って、そのような場合はl番目の候補文字列を利用しないとして設定する(ステップ1203)。例えば、上述のように、対象のメタデータ種類が「顧客名」で文字列データが「株式会社ABCD」であった場合に、顧客名でないのに「株式会社」という文字列を含むメタデータがある場合は、候補文字列として使用しないと判断される。
それ以外の場合は、部分文字列特徴利用調整処理部112は、サンプル文書のインデックスkを1だけインクリメントし(ステップ1204)、サンプル文書がまだ残っているならばステップ1202に戻って処理をやり直す(ステップ1205)。全てのサンプル文書についてループ処理を終えたのであれば、l番目の候補文字列を利用するとして設定する(ステップ1205)。
そして、部分文字列特徴利用調整処理部112は、l番目の候補文字列の利用について図13に示す画面表示を行い(ステップ1207)、候補文字列のインデックスlを1だけインクリメントし(ステップ1208)、候補文字列がまだ残っているならばステップ1201に戻って処理をやり直す(ステップ1209)。
図13は、部分文字列の特徴の利用設定結果表示画面(GUI)を示す図である。図13の結果表示画面では、どのメタデータ種類についてどの部分文字列の特徴の利用要否がどのように設定されたか、それぞれ図11のiの値・i番目のメタデータ種類データのメタデータ種類名301・図12のl番目の候補文字列・図12のステップ1203またはステップ1206で指定した利用要否が表示される(1300)。
また、当該結果表示画面では、図11のステップ1103で候補文字列を登録した際のサンプル文書の文書画像203が1301に表示され、図12のステップ1203で利用しないと設定した場合はその際の文書画像203が1302に表示される。
さらに、当該結果表示画面には、図12のステップ1203または1206で指定した利用要否を表示すると共にユーザの指定を受付けるラジオボタンが1303に配置されている。ここで「使う」とユーザが指定した部分文字列の特徴については、メタデータ種類データの利用部分文字列特徴304にデータが保持される。
<変形例>
以上、本発明の基本的な実施形態について説明したが、以下のような変形例も考えられる。
(1)本明細書では、レイアウト特徴209がtrueまたはfalseの2値の配列の形で保持される例について説明したが、スコア数値で保持される場合も考えられる。例えば、文書中にセンタリングされている文字列が非常に少ない場合には、センタリングされている文字列に高いスコアを与え、文書中に記載されている文字列の大半がセンタリングされている場合には、センタリングされている文字列にあまり高くないスコアを与えるような方式である。また、例えば文字列のフォントサイズに応じたスコアを与えるような方式もある。これらのような数値でのレイアウト上の特徴の保持を行う場合でも、本発明は有効である。この場合、ステップ602での比較において、記載内容202の中でスコアが最大になっている文字列データを比較対象とすれば良い。
(2)本明細書では、レイアウト上の特徴の利用の要否はステップ605のように利用する・しないの2値で設定する例について説明したが、重み付け和の形で設定される場合も考えられる。例えば、タイトルの取得にあたってはセンタリングとフォントサイズの大きさを2:3の比率で利用する(センタリングだけが指定されている文字列のスコアは2、フォントサイズが大きいだけの文字列のスコアは3、センタリングされておりフォントサイズも大きい文字列のスコアは5とする)などの指定を行うような方式である。このような方式においても、本発明は有効である。その場合、本明細書で述べた方式で利用するレイアウト上の特徴を選別した後で、重み付けを様々に変えながらメタデータ取得精度を評価し、高精度が達成できる重み付けを最終的にモデルに記述すれば良い。
(3)本明細書では、近傍文字列特徴データでは文字列そのもの305に加えて方向指定306を保持する例について説明したが、その他に接頭辞や接尾辞の指定を伴って行われる場合も考えられる。例えば、「御中」という文字列の左隣に顧客名が記載されるとする場合、「御中」の前後に文字が付加する可能性は低い。従って、「御中」は接頭辞・接尾辞の指定を共にONにすることが適切である。
これに対し、「注文番号」という文字列の右隣に注文番号が記載されるとする場合、取引先によっては「御社注文番号」であったり「注文番号(継続取引分)」であったりと、「注文番号」の前後に文字が付加される可能性があるとする。この場合は、接頭辞・接尾辞の指定をOFFにすることが適切である。このような指定を行える方式にも、本発明は有効である。その場合、メタデータの近傍に記載された文字列をそのまま特徴として利用する場合は接頭辞・接尾辞の指定をONにし、近傍に記載された文字列の部分文字列を特徴として利用する場合は接頭辞・接尾辞指定を変えれば良い。
(4)本明細書では、部分文字列の特徴の利用はひとまとめにしてステップ1103で候補文字列として登録しているが、接頭辞や接尾辞の指定を付加して登録することも考えられる。例えば、「独立行政法人」という文字列が顧客名に含まれるとする場合、「独立行政法人」の前に文字が付加される可能性は低いが、後ろに文字が付加される可能性は高い。この場合は、接頭辞の指定はON、接尾辞の指定はOFFにすることが適切である。このような指定を行える方式にも、本発明は有効である。その場合、メタデータをそのまま特徴として利用する場合は接頭辞・接尾辞の指定をONにし、部分文字列を特徴として利用する場合は接頭辞・接尾辞指定を変えれば良い。
(5)本明細書では、ステップ605の説明部分で、n1とn2の大小関係のみからj番目のレイアウト上の特徴を利用するかどうかを設定している。これにさらに条件を加え、レイアウト上の特徴のうち、n1とn2の差が大きい順からあらかじめ定義した個数だけのものを利用するように設定しても良い。これにより、過学習の回避により重きを置いたモデルを用意することができる。
(6)本明細書では、ステップ902で、近傍にi番目以外のメタデータがある場合のみ候補文字列を利用しないと設定している。これにさらに条件を加え、近傍にある文字列がi番目のメタデータではない場合は全て「候補文字列を利用しない」と設定するようにしても良い。これにより、(メタデータであるものを逃さず取得できる確率ではなく)メタデータではないものを確実に避ける精度により重きを置いたモデルを用意することができる。
(7)本明細書では、ステップ1202で、i番目以外のメタデータでl番目の候補文字列を含むものがある場合のみ候補文字列を利用しないと設定している。これにさらに条件を加え、i番目のメタデータ以外の文字列がl番目の候補文字列を含む場合は全て「候補文字列を利用しない」と設定しても良い。これにより、(メタデータであるものを逃さず取得できる確率ではなく)メタデータではないものを確実に避ける精度により重きを置いたモデルを用意することができる。
<まとめ>
本発明の実施形態による業務文書処理装置では、処理対象の文書データ内の処理対象のメタデータが有するレイアウト特徴、処理対象のメタデータの近傍の文字列特徴、及び処理対象のメタデータに含まれる部分文字列特徴の少なくとも1つが、処理対象のメタデータを文書データから抽出する上で有効か否か判定し、その判定結果を出力する。このようにすることにより、文書とその中に記載されたメタデータの組を指定するだけで、メタデータの自動取得におけるレイアウト上の特徴の利用・メタデータの近傍に記載される文字列の特徴の利用・メタデータの部分文字列の特徴の利用を自動的に設定できる。
より詳細には、レイアウト特徴利用設定処理部及びレイアウト特徴利用調整部は、処理対象のメタデータ(例えば、タイトル)が有するレイアウト特徴(例えば、センタリング)が、処理対象の文書データにおけるメタデータ以外の文字列に現れているか否かチェックし、当該チェック結果に基づいてレイアウト特徴がメタデータを抽出する上で有効か否か判定する。また、近傍文字列特徴利用設定処理部及び近傍文字列特徴利用調整処理部は、近傍文字列特徴(例えば、御中)が処理対象のメタデータ(例えば、顧客名)以外の文字列の近傍に現れているか否かチェックし、当該チェック結果に基づいて近傍文字列特徴を処理対象のメタデータを抽出する上で有効か否か判定する。
さらに、部分文字列特徴利用設定処理部及び部分文字列特徴利用調整処理部は、部分文字列特徴(例えば、独立行政法人)が処理対象のメタデータ(例えば、顧客名)以外の文字列に含まれているか否かチェックし、当該チェック結果に基づいて部分文字列特徴を処理対象のメタデータを抽出する上で有効か否か判定する。これにより、メタデータはどのような現れ方をするか、メタデータ以外の文字列はどのような現れ方をするか、を考慮した細かい調整も自動的に行え、メタデータ抽出を効率的に実行することができると共に、これらの調整が文書の特徴に基づいてなされるので文書の処理も迅速に行うことが可能となる。よって、メタデータ抽出モデルを用意する工数を大幅に削減でき、各組織においてメタデータを自動的に取得する技術を利用可能になる。すなわち、メタデータを用いて文書を管理・検索する業務文書処理装置を容易に導入できるようになる。
また、レイアウト特徴利用設定処理部及びレイアウト特徴利用調整処理部は、同一のメタデータの種類(タイトル)が指定された複数の処理対象の文書データについて、レイアウト特徴がメタデータの文字列にのみ現れている文書数(n1)と、レイアウト特徴がメタデータ以外の文字列にのみ現れている文書数(n2)と、レイアウト特徴がメタデータの文字列及びそれ以外の文字列の両方に現れている文書数(n3)を算出し、それぞれの文書数を表示すると共に、n1>n2の場合に、当該レイアウト特徴を、当該メタデータを自動取得するのに注目すべき特徴であるモデルとして設定することを示す情報を表示部(GUI)に表示する。このように処理された文書を分類し、分類結果をユーザに提示することができるので、ユーザが提示された基準をそのまま用いるか否かの判断をする手助けとなる。
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
100・・・表示装置
101・・・サンプル文書DB
102・・・キーボード
103・・・ポインティングデバイス
104・・・中央処理装置
105・・・プログラムメモリ
106・・・データメモリ
107・・・レイアウト特徴利用設定処理部
108・・・近傍文字列特徴利用設定処理部
109・・・部分文字列特徴利用設定処理部
110・・・レイアウト特徴利用調整処理部
111・・・近傍文字列特徴利用調整処理部
112・・・部分文字列特徴利用調整処理部
113・・・文書データ格納部
114・・・文字列データ格納部
115・・・メタデータ種類データ格納部
116・・・近傍文字列特徴データ格納部

Claims (11)

  1. 文書中のメタデータを用いて文書を管理する文書データ処理装置であって、
    文書中に含まれるメタデータの種類が指定された、処理対象の文書データを取得する文書データ取得部と、
    前記処理対象の文書データ内の処理対象のメタデータが有するレイアウト特徴が、前記処理対象のメタデータを抽出する上で有効か否か判定するレイアウト特徴判定処理部と、
    前記レイアウト特徴判定処理部による判定結果を出力する出力部と、
    を備えることを特徴とする文書データ処理装置。
  2. 請求項1において、
    前記レイアウト特徴判定処理部は、前記処理対象のメタデータが有するレイアウト特徴が、前記処理対象の文書データにおける前記メタデータ以外の文字列に現れているか否かチェックし、当該チェック結果に基づいて前記レイアウト特徴が前記メタデータを抽出する上で有効か否か判定することを特徴とする文書データ処理装置。
  3. 請求項2において、
    前記文書データ取得部は、複数の文書データを処理対象として取得し、
    前記レイアウト特徴判定処理部は、同一のメタデータの種類が指定された複数の処理対象の文書データについて、前記レイアウト特徴が前記メタデータの文字列にのみ現れている文書数(n1)と、前記レイアウト特徴が前記メタデータ以外の文字列にのみ現れている文書数(n2)を算出し、
    前記出力部は、前記文書数を出力すると共に、n1>n2の場合に、当該レイアウト特徴を、当該メタデータを自動取得するのに注目すべき特徴であるモデルとして設定することを示す情報を提示することを特徴とする文書データ処理装置。
  4. 文書中のメタデータを用いて文書を管理する文書データ処理装置であって、
    文書中に含まれるメタデータの種類が指定された、処理対象の文書データを取得する文書データ取得部と、
    前記処理対象の文書データ内の処理対象のメタデータの近傍の文字列特徴が、前記処理対象のメタデータを抽出する上で有効か否か判定する近傍文字列特徴判定処理部と、
    前記近傍文字列特徴判定処理部による判定結果を出力する出力部と、
    を備えることを特徴とする文書データ処理装置。
  5. 請求項4において、
    前記近傍文字列特徴判定処理部は、前記近傍文字列特徴が前記処理対象のメタデータ以外の文字列の近傍に現れているか否かチェックし、当該チェック結果に基づいて前記近傍文字列特徴が前記処理対象のメタデータを抽出する上で有効か否か判定することを特徴とする文書データ処理装置。
  6. 文書中のメタデータを用いて文書を管理する文書データ処理装置であって、
    文書中に含まれるメタデータの種類が指定された、処理対象の文書データを取得する文書データ取得部と、
    前記処理対象の文書データ内の処理対象のメタデータに含まれる部分文字列特徴が、前記処理対象のメタデータを抽出する上で有効か否か判定する部分文字列特徴判定処理部と、
    前記部分文字列特徴判定処理部による判定結果を出力する出力部と、
    を備えることを特徴とする文書データ処理装置。
  7. 請求項6において、
    前記部分文字列特徴判定処理部は、前記部分文字列特徴が前記処理対象のメタデータ以外の文字列に含まれているか否かチェックし、当該チェック結果に基づいて前記部分文字列特徴が前記処理対象のメタデータを抽出する上で有効か否か判定することを特徴とする文書データ処理装置。
  8. 文書中のメタデータを用いて文書を管理する文書データ処理装置であって、
    文書中に含まれるメタデータの種類が指定された、処理対象の文書データを取得する文書データ取得部と、
    前記処理対象の文書データ内の処理対象のメタデータが有するレイアウト特徴、前記処理対象のメタデータの近傍の文字列特徴、及び前記処理対象のメタデータに含まれる部分文字列特徴のうち、少なくとも2つの特徴が前記処理対象のメタデータを抽出する上で有効か否か判定する特徴判定処理部と、
    前記特徴判定処理部による判定結果を出力する出力部と、
    を備えることを特徴とする文書データ処理装置。
  9. 請求項8において、
    前記特徴判定処理部は、前記処理対象のメタデータが有するレイアウト特徴が、前記処理対象の文書データにおける前記メタデータ以外の文字列に現れているか否かチェックし、当該チェック結果に基づいて前記レイアウト特徴が前記メタデータを抽出する上で有効か否か判定することを特徴とする文書データ処理装置。
  10. 請求項8において、
    前記特徴判定処理部は、前記近傍文字列特徴が前記処理対象のメタデータ以外の文字列の近傍に現れているか否かチェックし、当該チェック結果に基づいて前記近傍文字列特徴が前記処理対象のメタデータを抽出する上で有効か否か判定することを特徴とする文書データ処理装置。
  11. 請求項8において、
    前記特徴判定処理部は、前記部分文字列特徴が前記処理対象のメタデータ以外の文字列に含まれているか否かチェックし、当該チェック結果に基づいて前記部分文字列特徴が前記処理対象のメタデータを抽出する上で有効か否か判定することを特徴とする文書データ処理装置。
JP2009174502A 2009-07-27 2009-07-27 文書データ処理装置 Active JP5340847B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2009174502A JP5340847B2 (ja) 2009-07-27 2009-07-27 文書データ処理装置
CN201080028233.2A CN102473176B (zh) 2009-07-27 2010-07-23 文档数据处理装置
US13/380,561 US8768941B2 (en) 2009-07-27 2010-07-23 Document data processing device
PCT/JP2010/062417 WO2011013587A1 (ja) 2009-07-27 2010-07-23 文書データ処理装置
EP10804333.2A EP2461255A4 (en) 2009-07-27 2010-07-23 Document data processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009174502A JP5340847B2 (ja) 2009-07-27 2009-07-27 文書データ処理装置

Publications (2)

Publication Number Publication Date
JP2011028568A true JP2011028568A (ja) 2011-02-10
JP5340847B2 JP5340847B2 (ja) 2013-11-13

Family

ID=43529244

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009174502A Active JP5340847B2 (ja) 2009-07-27 2009-07-27 文書データ処理装置

Country Status (5)

Country Link
US (1) US8768941B2 (ja)
EP (1) EP2461255A4 (ja)
JP (1) JP5340847B2 (ja)
CN (1) CN102473176B (ja)
WO (1) WO2011013587A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI1000577B1 (pt) * 2010-02-19 2020-10-13 Alexandre Jonatan Bertoli Martins método e sistema para extração e gerenciamento de informações contidas em documentos eletrônicos
JP6760244B2 (ja) * 2017-10-31 2020-09-23 京セラドキュメントソリューションズ株式会社 文書管理システム及び文書管理サーバー
CN114616572A (zh) 2019-09-16 2022-06-10 多库加米公司 跨文档智能写作和处理助手
US11880435B2 (en) * 2020-02-12 2024-01-23 Servicenow, Inc. Determination of intermediate representations of discovered document structures

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219922A (ja) * 2006-02-17 2007-08-30 Nec Corp 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム
WO2008093569A1 (ja) * 2007-01-29 2008-08-07 Nec Corporation 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム
JP2008310531A (ja) * 2007-06-13 2008-12-25 Hitachi Computer Peripherals Co Ltd 帳票識別方法及び帳票識別プログラム並びに該帳票識別方法を用いた光学文字読取システム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3425834B2 (ja) 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
US6353840B2 (en) 1997-08-15 2002-03-05 Ricoh Company, Ltd. User-defined search template for extracting information from documents
JPH11184894A (ja) 1997-10-07 1999-07-09 Ricoh Co Ltd 論理要素抽出方法および記録媒体
JPH11328306A (ja) 1998-03-09 1999-11-30 Ricoh Co Ltd 文書画像の論理要素抽出方法、装置および記録媒体
JP2000090117A (ja) 1998-07-16 2000-03-31 Ricoh Co Ltd 文書画像の論理要素抽出方法、装置および記録媒体
US6456738B1 (en) 1998-07-16 2002-09-24 Ricoh Company, Ltd. Method of and system for extracting predetermined elements from input document based upon model which is adaptively modified according to variable amount in the input document
US7149347B1 (en) * 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
JP3425408B2 (ja) 2000-05-31 2003-07-14 株式会社東芝 文書読取装置
WO2005020131A1 (en) * 2003-08-20 2005-03-03 Oce-Technologies B.V. Document scanner
CN100382096C (zh) * 2003-08-20 2008-04-16 奥西-技术有限公司 文档扫描设备及方法
US20060085442A1 (en) * 2004-10-20 2006-04-20 Kabushiki Kaisha Toshiba Document image information management apparatus and document image information management program
US7444325B2 (en) * 2005-01-14 2008-10-28 Im2, Inc. Method and system for information extraction
US20070011183A1 (en) * 2005-07-05 2007-01-11 Justin Langseth Analysis and transformation tools for structured and unstructured data
EP2220591A1 (en) * 2007-11-15 2010-08-25 Netcat.Biz PTY Limited System and method for transforming documents for publishing electronically

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219922A (ja) * 2006-02-17 2007-08-30 Nec Corp 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム
WO2008093569A1 (ja) * 2007-01-29 2008-08-07 Nec Corporation 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム
JP2008310531A (ja) * 2007-06-13 2008-12-25 Hitachi Computer Peripherals Co Ltd 帳票識別方法及び帳票識別プログラム並びに該帳票識別方法を用いた光学文字読取システム

Also Published As

Publication number Publication date
US20120179718A1 (en) 2012-07-12
US8768941B2 (en) 2014-07-01
CN102473176B (zh) 2015-01-07
EP2461255A4 (en) 2017-08-30
CN102473176A (zh) 2012-05-23
EP2461255A1 (en) 2012-06-06
JP5340847B2 (ja) 2013-11-13
WO2011013587A1 (ja) 2011-02-03

Similar Documents

Publication Publication Date Title
Staar et al. Corpus conversion service: A machine learning platform to ingest documents at scale
US8503769B2 (en) Matching text to images
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
MX2013005056A (es) Enfoque multimodal para entrada de busqueda de consulta.
KR20130095171A (ko) 포렌식 시스템과 포렌식 방법 및 포렌식 프로그램
US9164973B2 (en) Processing a reusable graphic in a document
JP5023176B2 (ja) 特徴語抽出装置及びプログラム
US10699112B1 (en) Identification of key segments in document images
CN109033385A (zh) 图片检索方法、装置、服务器及存储介质
Baluja Learning typographic style: from discrimination to synthesis
CN111506608A (zh) 一种结构化文本的比较方法和装置
JP5340847B2 (ja) 文書データ処理装置
CN112434884A (zh) 一种供应商分类画像的建立方法及装置
CN111325200A (zh) 图像标注方法、装置、设备及计算机可读存储介质
CN112464927B (zh) 一种信息提取方法、装置及系统
CN105447073A (zh) 标签赋予装置及方法
Vishwanath et al. Deep reader: Information extraction from document images via relation extraction and natural language
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
Gruber et al. An automated pipeline for robust image processing and optical character recognition of historical documents
Hänig et al. NLP-based Decision Support System for Examination of Eligibility Criteria from Securities Prospectuses at the German Central Bank
Chia et al. Text extraction and categorization from watermark scientific document in bulk
US11367442B2 (en) Device and method with input
CN113505570B (zh) 参考文献参见落空的审校方法、装置、设备及存储介质
US11763094B2 (en) Cascade pooling for natural language processing
CN116303909B (zh) 一种电子投标文件与条款的匹配方法、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130807

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5340847

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250