JP2010102668A - メタデータ抽出装置およびその方法 - Google Patents

メタデータ抽出装置およびその方法 Download PDF

Info

Publication number
JP2010102668A
JP2010102668A JP2008276101A JP2008276101A JP2010102668A JP 2010102668 A JP2010102668 A JP 2010102668A JP 2008276101 A JP2008276101 A JP 2008276101A JP 2008276101 A JP2008276101 A JP 2008276101A JP 2010102668 A JP2010102668 A JP 2010102668A
Authority
JP
Japan
Prior art keywords
metadata
template
area
document
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008276101A
Other languages
English (en)
Other versions
JP5271667B2 (ja
Inventor
Yasuyuki Nozaki
康行 野崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2008276101A priority Critical patent/JP5271667B2/ja
Publication of JP2010102668A publication Critical patent/JP2010102668A/ja
Application granted granted Critical
Publication of JP5271667B2 publication Critical patent/JP5271667B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】一部に共通構造を有し全体的には自由に編集可能な半固定的帳票等の非定型文書からでも、レイアウト情報を使わずに、キーワード・メタデータを抽出する。
【解決手段】一部に共通構造を有し全体的には自由に編集可能な非定型文書からメタデータを抽出するメタデータ抽出装置であって、前記非定型文書の基準型となる参照文書を種別する特徴的な1つ以上の文字列と該文字列を取り囲む所定の領域とをテンプレートに登録するテンプレート作成処理部と、前記メタデータを抽出する対象となる入力文書に対して前記テンプレートに登録された領域内部の文字列を読取り、前記入力文書にテンプレートに登録された前記文字列が含まれるか否かを判別することで文書種別を判定するテンプレート照合処理部と、前記判定の結果に基づき、前記テンプレートを用いて前記入力文書から前記メタデータの記述形式に適合する文字列をメタデータとして抽出するメタデータ抽出処理部と、を有する。
【選択図】図5

Description

本発明は、文書中のメタデータを抽出する装置およびその方法に関する。
スキャナ技術の発達・オフィス効率化の流れから、紙文書を電子化し管理する需要が増えている。近年では、日本版SOX法や内部統制に対応するために、企業は種々の営業証憑や関連文書を確実に保管しておく必要がでてきており、紙文書の電子化の流れはますます強くなっている。
文書量が膨大になると、それをどのように管理し、効率的に検索するかが課題となる。解決手段のひとつとして、文書中の属性情報やキーワード(これをメタデータとよぶ)を抽出し、それを文書と紐付けて管理する方法がある。営業証票を例に取れば、文書中に書かれた案件名・取引先会社名・契約日・受付番号などがメタデータである。メタデータを用いて検索することで、ある案件で取り交わした全文書の取得や、過去にX社と取り交わした文書の取得など様々な切り口による検索が実現できる。
文書からのメタデータ抽出技術では、(1)あらかじめ文書ごとに、文書の形状と文書上の取得したいメタデータの領域の場所を記録しテンプレートとして登録しておき、(2)文書入力時には、入力文書と同じテンプレートがないかを調べ、同じテンプレートがある場合にはテンプレートに記録されたメタデータの領域を参照して入力文書からメタデータを読み取る、というステップで行われる。
メタデータ領域の場所の指定方法としては、例えば非特許文献1に開示されているように、文書画像上の座標値による指定が一般的であり、多くの製品が出ている。しかしながらこの方法では、登録時のテンプレートと入力時の文書画像のズレ(傾き、位置ズレなど)やFAXなどによる若干の文書の形の伸縮変化があると正しいメタデータ領域を抽出することができないという問題点があった。この問題を回避するために、特許文献1では、文書のフォームのうち罫線とユーザが指定したメタデータ領域との相対位置情報をテンプレート登録しておき、入力文書に対してテンプレートの照合を行い、対応する罫線を特定し、その罫線から上記相対位置情報を用いて入力文書のメタデータ領域を抽出している。また特許文献2では、サンプル文書の画像中でメタデータ領域となる箇所を包含するように矩形で囲み、矩形内のレイアウト特徴(座標・レイアウト・文字サイズ・フォントが強調されているか否かなど)を設定し、テンプレート登録する。文書入力時にはテンプレートと照合し、レイアウト特徴の情報からメタデータ項目を抽出する。
OnBase(登録商標)(https://www.onbase.com/japan/) 特開平10−289253号公報 特開2001−56837号公報
しかしながら、企業で取り交わされる実際の帳票・証票文書をみると、テンプレート登録文書と入力文書とは、画像ズレ以外にも多くの差異がみられる。というのも、帳票や証票を作成するときは、多くの場合、以前作成した文書データのオフィスファイルを編集して新たに作成するから(以前に作成した文書データを使いまわしているから)である。
例えば、図1に示す証票「御見積書」をテンプレート登録したとする。この証票には見積No.や日付、あて先(AAA株式会社)、品名(データベースサーバPQR)などが記述されている。
図2に別の「御見積書」の例を示す。図2の証票は図1の証票を参照元として作成している。図2ではあて先として、「BBB株式会社 東京支店マーケティング企画部 御中」とあるが、図1のように複数行とせず一行で書いている。また図1では差出人として郵便番号から記述されているが、図2では郵便番号はない。さらに、図1では、表の中で「データベースサーバPQR」という品名に相当する情報が、図2では「文書管理システムの機器一式および保守サービス(3年分)」となっているが、図2では上記品名を書き込むエリアが小さいので、表の罫線をずらしてセルを広げて入力している。このように、通常、帳票や証票類を作成する際は、フォームの大まかな構造は変えないものの、細かいレベルで、文字列の追加・削除・編集が行われており、元々の参照文書からの差異が生ずる。
したがって、このようにテンプレートと入力文書に差異がある場合、非特許文献1のような座標値によるメタデータ領域の指定を行う方法は、テンプレートで定めたメタデータの座標領域が他の入力文書に当てはまるとは限らないので、適用させることは困難である。また、特許文献1では入力文書と罫線との相対位置情報をテンプレートと比較することでメタデータを抽出するものであるが、上述のように、罫線と記載情報との相対情報をテンプレート登録しておいても、罫線と入力文書との相対位置が一定でないときがあるので、これも適用するのは難しい。またそもそも罫線のない文書には適用することできない。一方、特許文献2では、文書を論理的な構造(レイアウト構造)で解釈するので、上記に述べたテンプレートと入力文書のズレは吸収できる。
しかしながら、テンプレートと入力文書との照合を文字サイズや場所などのレイアウト情報だけで行うため、別種類の文書で類似したレイアウト構造を持つものを同じと判定してしまう恐れがある。実際、そのような類似したレイアウト構造をもつ異なる種類の文書は多い。
本発明は上記問題に鑑みてなされたものであり、一部に共通構造を有し全体的には自由に編集可能な半固定的帳票等の非定型文書からでも、レイアウト情報を使わずに、キーワード・メタデータを抽出する。
本発明のメタデータ抽出装置およびその方法では、GUI上で文書を表示し、文書種別に特徴的な領域と領域内の文字列とメタデータ箇所を囲むように広く領域を登録し、それに従ってメタデータを抽出する。
すなわち、本発明のメタデータ抽出装置は、一部に共通構造を有し全体的には自由に編集可能な非定型文書からメタデータを抽出するメタデータ抽出装置であって、前記非定型文書の基準型となる参照文書を種別する特徴的な1つ以上の文字列と該文字列を取り囲む所定の領域とをテンプレートに登録するテンプレート作成処理部と、前記メタデータを抽出する対象となる入力文書に対して前記テンプレートに登録された領域内部の文字列を読取り、前記入力文書にテンプレートに登録された前記文字列が含まれるか否かを判別することで文書種別を判定するテンプレート照合処理部と、前記判定の結果に基づき、前記テンプレートを用いて前記入力文書から文字列をメタデータとして抽出するメタデータ抽出処理部と、を有する。
また、本発明のメタデータ抽出方法は、一部に共通構造を有し全体的には自由に編集可能な非定型文書からメタデータを抽出するメタデータ抽出方法であって、テンプレート作成処理部が、前記非定型文書の基準型となる参照文書データを種別する特徴的な1つ以上の文字列と該文字列を取り囲む領域とをテンプレートに登録するテンプレート登録ステップと、テンプレート照合処理部が、前記メタデータを抽出する対象となる入力文書に対して前記テンプレートに登録された領域内部の文字列を読取り、前記入力文書にテンプレートに登録された前記文字列が含まれるか否かを判別することで文書種別を判定する入力文書判定ステップと、メタデータ抽出処理部が、前記判定の結果に基づき、前記テンプレートを用いて前記入力文書から文字列をメタデータとして抽出するメタデータ抽出ステップと、を有する。
上記の場合において、前記テンプレート作成処理部は、さらに、前記参照文書内にある1つ以上のメタデータを含む領域と該メタデータの記述形式とを前記テンプレートに登録し、前記テンプレート照合処理部は、前記テンプレートを用いて前記入力文書に対して前記入力文書の種別を判定してもよい。
あるいは、前記テンプレート作成処理部は、さらに、前記メタデータが表内のセルに記載された文字列か表外に記載された文字列かを前記テンプレートに登録し、前記メタデータ抽出処理部は、前記メタデータが表内のセルに記載された文字列の場合、前記セルのうち前記メタデータ領域と交わる面積が最大となるものからメタデータを抽出、前記セルのうち前記メタデータ領域の中心座標が含まれるものに記述されたメタデータを抽出、前記セルのうち前記メタデータ領域と交わる面積の割合が最大となるものに記述されたデータを抽出、のうちいずれか1つの抽出処理を行い、メタデータが表外に記載された文字列の場合、前記メタデータ領域の中に文字列のブロックが完全に納められたものだけを抽出、前記メタデータ領域内に含まれる文字列だけを抽出、前記メタデータ領域と交わる文字列ブロックごとに抽出、のうちいずれか1つの抽出処理を行ってもよい。
一部に共通構造を有し全体的には自由に編集可能な半固定的帳票等の非定型文書において、文書の書き手によってフォームが上下左右に揺らぐ場合でも、レイアウト情報を使わずに、キーワード・メタデータを抽出できる。
以下、添付図面を参照して本発明の実施形態に係るメタデータ抽出方法について説明する。ただし、本実施形態は本発明を実現するための一例にすぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成には同一の参照番号が付されている。
はじめに本発明のメタデータ抽出システムの動作概要について述べ、続いて本発明のメタデータ抽出システムの操作のためのGUI画面、ユーザがGUI画面に従って操作する際にコンピュータが実行する動作処理、の順で説明する。
<メタデータ抽出システムの動作概要>
本発明は、あらかじめユーザがGUI上で文書の“種別”(「御見積書」や「請求書」など)に特異的な領域(タイトル部分など)を囲み、その領域座標と領域内の“文字列”をテンプレート化して登録しておく。そして、入力文書との照合時には、入力文書内で登録済みの領域内に登録済みの文字列が書いてあるかどうかで、文書の種別を選択する。
まず、ユーザはGUI上で文書中の“メタデータ領域”を矩形で囲み、その“領域座標”を登録することについて説明する。ここで注意すべきは、ユーザは、メタデータ領域を矩形で囲むときは、帳票ごとにデータの座標位置がずれるのを考慮し、矩形を左右および上下に広げて登録するようにすることである。
テンプレート作成用の文書を想定したものを図3に示す。この文書が見積書であることをシステムで判断させるために、領域301の中に「御見積書」が、領域302の中に「見積No.」があるという情報を特異的事項として選択する。
そして、この文書から抽出したいメタデータとして、領域303にある「あて先」、領域304にある「日付」、領域305にある「品名」の内容(データベースサーバPQRが書かれた箇所)、領域306にある「見積番号」を選択し、登録する。
メタデータの領域を登録するときは、それが表外にあるデータなのか、表内のセルのデータなのかを予め登録する。表外のデータの場合は、上記メタデータ領域から文字列を取得する場合、(i)文字ブロックが完全にメタデータ領域内に含まれるものだけを読み出す、(ii)メタデータ領域内の全ての文字列を読み出す、(iii)文字ブロックでメタデータ領域と重なりがあるものを読み出す、のいずれかの方法で読む。表内のセルデータであるならば、メタデータの書かれたセルを正しく選ぶことができるように、(i)登録済み領域と表内のセルで重なる面積が最大のセルをメタデータの書かれたものとして選択する、(ii)登録済み領域の中心点が入るセルをメタデータの書かれたものとして選択する、(iii)登録済み領域と表内のセルで重なる面積がセル全体の面積に占める割合を計算し、それが最大のセルをメタデータの書かれたものとして選択する、のいずれかの方法で選択する。
また、あて先は「御中」で終わるもの、日付は年月日が書かれてあるものとして、記述形式に関する条件を設定する。
以上の選択および設定事項をテンプレートとして登録しておく。
このようにすることで、一部に共通構造を有し全体的には自由に編集可能な非定型文書からメタデータを抽出することができる。矩形を広げすぎるとメタデータとは関係のない文字列まで抽出するが、抽出データに対する記述形式(4桁の数であるとか、「御中」で終わる文字列など)を予め定義しておくことで、関係のないデータを取ることを防ぐ。
次に、上記テンプレートに記載された“種別”と入力文書の“種別”との照合でマッチした入力文書に対して、テンプレートに登録されたメタデータ領域に相当する領域を入力文書から抽出し、それを入力文書のメタデータとすることについて説明する。
入力文書を想定したものを図4に示す。ここで領域401〜406は、図3の301〜306と同じ座標位置に位置している。まず、この入力文書がどのような文書かを判定するために、システム内で作成済みのテンプレートを参照する。図3で作成したテンプレートとの照合では、領域401の内部に「御見積書」という文字列があるかどうか、領域402の内部に「見積No.」という文字列があるかどうかを判定する。図4の場合は両方とも登録済みの文字列が存在しているので、これを見積書であると判定する。なお、入力文書の領域401の内部に記載された「御見積書」のように、対応するテンプレートの領域301の記載位置とは異なっていても、矩形内に包含されているため判定可能である。
次に、領域403の中から「御中」で終わる文字列、領域404の中から年月日表記で書かれた文字列を読み出しこれをメタデータとする。領域405については、405の矩形領域と表内のセルで最も重なりが大きいセルを選択し、セル内のデータを読み出し、これをメタデータとする。ここで、表外にあるメタデータに対しては、文字ブロックが完全にメタデータ領域内に含まれるものだけを読み出す方法とし、表内に書かれたメタデータに対しては、登録済み領域と表内のセルとが重複する面積が最大となるセルからメタデータを抽出するものとする。
こうすることで、図3と図4では、あて先の長さが違っていたり、表の位置が上下にずれていたり、表内の罫線位置がずれていたりするが、本方法によってそのような揺らぎも吸収でき、メタデータを抽出することができる。
以上が本発明のメタデータ抽出システムの動作概要である。以下、本発明のメタデータ抽出システムの詳細を説明する。
はじめに、本発明のテンプレート作成、テンプレート更新、メタデータ抽出、のそれぞれの段階で用いられるGUI画面について図13〜18を参照して説明する。
<テンプレート作成画面>
テンプレートの作成中の画面を示した図を図13に示す。テンプレート対象の文書を文書表示エリア1301に表示している。テンプレートを新規に作成するには、メニューバー1302で「テンプレートの新規作成」を選択し、テンプレート名称を入力して開始する。まずこの文書に特徴的な領域を設定する。例えば、文書のタイトルである「御見積書」をマウス等で選択する。すると、画面上に領域1303で示したような矩形が表示される。次に、矩形領域の文字抽出ボタン1304を押す。するとテキストボックス1305にその領域の文字列が入る。ユーザはこの文字列を編集することができる。この情報を取り消して最初から入力処理を始めるなら「キャンセル」ボタン1306、領域情報や文字列を登録するなら「次へ」ボタン1307を押下する。
テンプレート作成中に現れるダイアログ画面を図14に示す。この画面は、図13のボタン1307を押下したときに現れるものである。文書に特徴的な領域をさらに追加するならば「はい」ボタン1401を選択する。すると図13の画面になり、追加できる状態になる。また、領域をこれ以上設定しないならば「いいえ」ボタン1402を選択する。
図14でボタン1402を押下した後に現れるテンプレート作成中の画面を図15に示す。ここではメタデータとして抽出したい領域を選択する。マウスなどでメタデータを取り囲む形で領域を選択すると、領域1501に示したような矩形を表示する。次に、このメタデータに関する情報を入力する。テキストボックス1502にこのメタデータの項目名称を入力し、ラジオボタン1503でこのメタデータが表内のデータか表外のデータかを選択し、テキストボックス1504にこのメタデータに関する記述形式を入力する。これらの情報を取り消して最初から入力処理を始めるなら「キャンセル」ボタン1505、情報を登録するなら「次へ」ボタン1506を押下する。
図15のボタン1506を押下したときに現れるダイアログ画面を図16に示す。文書に特徴的な領域をさらに追加するならば「はい」ボタン1601を選択する。すると図15の画面になり、追加できる状態になる。また、領域をこれ以上設定しないならば「いいえ」ボタン1602を選択する。すると情報を登録したテンプレートファイルが作成される。
<テンプレート更新画面>
テンプレート更新中の画面を図17に示す。テンプレートの更新処理ではメニューバー1701で「テンプレート更新」を選択し、テンプレートファイルを選択して開始する。図17は見積書テンプレートを選択した例である。ユーザが選択すると、テンプレートに登録されている領域情報を読み出し、矩形1702のように画面上に表示する。さらに、文書に特徴的な文字列と、メタデータの文字列を1703のように強調表示する。図17の例では、あて先が強調表示されていない。このような場合、自動的に、メタデータを囲むような領域を1704に示すように表示する。ユーザはこのような表示によって、テンプレートにどのような更新を行うかを視覚的に判断できる。
この文書に対してさらに特徴的な領域を追加する場合は、「特徴的な領域の追加」ボタン1705を押下する。すると図13のような画面に遷移し、特徴的な領域を追加することができる。同様に、この文書に対してメタデータ領域を追加する場合は、「メタデータ領域の追加」ボタン1706を押下する。すると図15のような画面に遷移し、メタデータを追加することができる。
また、領域の情報を削除する場合は、マウスなどで文書画面上の領域を選択し、「領域情報の削除」ボタン1707を押下する。
また、領域情報の編集を行うときは、マウスなどで文書画面上の領域を選択すると、登録済みのメタデータ項目名称がテキストボックス1708に、このメタデータが表内のデータか表外のデータかの選択結果がラジオボタン1709に、メタデータに関する記述形式がテキストボックス1710に入るので、それを編集する。もしくは、文書画面上から領域の矩形をマウスでドラッグすることで再設定することもできる。編集が終われば「更新」ボタン1711を押してテンプレートファイルを更新する。
<メタデータ抽出画面>
メタデータ抽出の画面を図18に示す。メニューバー1801で「メタデータ抽出」を選択すると、表示中の文書に対してテンプレートの照合を行い(この図の場合は見積書テンプレートを照合した)、メタデータを自動抽出する。抽出結果はメタデータ表示エリア1802に表示される。このエリアは編集可能になっており、間違って取得したデータは編集を加えることができる。
また、メタデータを新たに追加したい場合は「追加」ボタン1803を押下することによって追加する。
メタデータを削除したい場合は、メタデータ表示エリアから削除対象のメタデータを選んで「削除」ボタン1804を押下する。
メタデータに対する編集・追加・削除などの処理を終えたら、「メタデータの登録」ボタン1805を押下してメタデータを登録する。
次に、本発明のメタデータ抽出システムの構成および動作処理について図5〜11を参照して説明する。
<メタデータ抽出システムの構成>
本発明のメタデータ抽出システムの内部構造を概略的に示した構成図を図5に示す。このシステムは、見積書や契約書などの文書が蓄積された文書DB501、文書種別を判定しメタデータを抽出するために、文書種別に特徴的な情報や文書のメタデータ領域の情報を記述したテンプレートファイルを格納したテンプレートDB502、文書から抽出したメタデータを格納するメタデータDB503、文書や文書上のメタデータ領域を表示するための表示装置504、メタデータ領域の入力やデータの編集、メニューの選択などの操作を行うためのキーボード505とマウスなどのポインティングデバイス506、必要な演算処理、制御処理等を行う中央処理装置507を備える。ここで文書DB501は、DBとしての実体が物理的に一つではなく複数である場合も対象としている。
中央処理装置507には、テンプレートファイルの作成処理を行うテンプレート作成処理部508、既存のテンプレートファイルに対して更新処理を行うテンプレート更新処理部509、テンプレートと入力文書を照合し文書種別を判定するとともに、テンプレートと合致した入力文書に対してメタデータを抽出するテンプレート照合及びメタデータ抽出処理部510、文書やメタデータ領域など全ての画面表示に関する処理を行う表示処理部511からなる。以上に述べた処理部・データ・処理部等で用いられるプログラム等は、CD−ROM、DVD−ROM、MO、フロッピーディスク、USBメモリ等の記録媒体に格納して提供することもできる。
<テンプレートファイルの内容>
テンプレートDB502に含まれるテンプレートファイルの一例を図6に示す。このファイルはXMLで記述されている。また、このファイルは、文書種別ごとに、文書種別に特徴的な情報や文書内のメタデータ領域に関する情報が記述されており、文書種別を判定しメタデータを抽出するためのものである。
ルート要素<doc_template>は、このテンプレートファイルのテンプレート名称を表す子要素<name>、文書種別に関する特徴的な情報について記述されている子要素<featureList>、文書内のメタデータ領域に関する情報が記述されている子要素<metaRegList>を有する。
まず、<featureList>要素は、子要素となる<feature>を有し、文書種別を特定する文字列領域を領域ごとに設定する。図1、図2では、文書内の「御見積書」と「見積No.」の二つの文字列が、御見積書の種別を特定するものとして挙げられる。したがってこのテンプレートファイルの例では、「御見積書」と「見積No.」の二つの<feature>要素を子要素としてもつ。<feature>要素は、文書に特徴的な文字列である<string>と、その文字列を含む領域の情報<region>を子要素として有する。<region>要素は、4つの数字がカンマで区切られて記述されており、数字左から文字列の矩形領域の左上のx座標、y座標、右下のx座標、y座標を表している(ここでは文書の左上の頂点を原点座標として、右向き、下向きをx座標とy座標の正の方向としている)。
次に、<metaRegList>要素では、文書中でメタデータが現れる領域を、領域ごとに<metaReg>として表している。<metaReg>は子要素として、<item>、<region>、<type>、<format>を有する。<item>要素はメタデータの項目名称であり、後述するメタデータ抽出結果で用いられる。<region>要素はメタデータが現れる箇所の領域を示しており、<feature>要素の<region>子要素と同様に、矩形領域の座標を4つのカンマ区切りの数字で表している。<type>要素はメタデータの表示領域に関する情報である。メタデータ領域が表の中にある場合はcellを、表の外にある場合はstringをここに記述する。<format>はメタデータに対する記述形式の条件である。<region>で指定される領域の文字列の中には、本来のメタデータと関係のない文字列が含まれているかもしれないが、それを削るためにメタデータの記述形式を設定する。つまり、<region>で指定された領域の文字列に対し、この条件に合致したものだけをメタデータとして取り出す。この例では記述形式を正規表現で与えている。
メタデータの抽出結果をまとめたメタデータファイルの一例を図7に示す。このファイルはメタデータDB503に含まれるものであり、XMLで記述されている。メタデータを使った検索を行うときはこのファイルを用いるか、またはこのファイルを検索システムに読み込ませて、文書とメタデータとを紐付けておく。ルート要素<document>には、該当ファイルのファイルパスを示す子要素<fileLoc>、メタデータを抽出するために用いたテンプレートのテンプレート名称(図6のテンプレートファイルの<name>要素の内容)である子要素<doc_template_name>、そして文書のメタデータを示す子要素<metainfo>を有する。<metainfo>は、文書内のメタデータの各々に対して<metadata>という子要素を有する。<metadata>は<item>と<val>という子要素を有しており、<item>はメタデータの項目名(図6)のテンプレートファイルの<item>要素の内容)、<val>はメタデータの値である。
次に、上記のように構成されたメタデータ抽出システムにおいて行われる処理について説明する。
<テンプレート作成処理>
まず、文書からのメタデータ抽出技術において、あらかじめ文書ごとに、文書の形状と文書上の取得したいメタデータの領域の場所を記録しテンプレートとして登録するため、テンプレートを作成する処理について説明する。ここでの処理は、ユーザが上述のテンプレート作成画面(図13、15)を見ながら操作する際に裏で行われる処理である。選択テンプレート作成処理の流れを概略的に示すフローチャートを図8に示す。以下、特に記載の無い処理の動作主体は、テンプレート作成処理部508である。
まず、テンプレートの対象とする文書をユーザが選択すると、表示処理部511がその文書を表示する。そして、テンプレート名称の入力を受け付けた後、テンプレートファイルの<name>要素として登録する。ここで、入力された名称が既にテンプレートDB502に登録済みのテンプレートのテンプレート名称として定義済みの場合は、警告メッセージを表示し、異なる名称で入力するよう促す(ステップ801、802)。
次に、文書の種別を判別するための情報を登録する。表示中の文書に対して、ユーザは文書種別に特異的な文字列領域を取り囲むように、マウス506などを用いて指定する。文書種別に特異的な文字列領域を受け付けた後、表示処理部511は入力領域の矩形を画面上に表示し、入力領域内の文字列を読み取って表示する。入力文書が文字コード情報のないイメージデータである場合は、入力領域に対してOCR処理で文字認識を行った後、表示する(ステップ803,804)。読み取った文字は編集できるようにしておき、編集操作があればそれを受け付ける(ステップ805)。矩形領域として、文書の種別に特徴的な文字列を含むように大きく指定した場合、ステップ804で不必要な文字列までも読み取ることが起こり得る。そこで、この編集操作によって、矩形領域には必要な文字列だけを残す。この領域をテンプレートとして登録すると決まれば、領域座標と文字列をテンプレートファイルの<featureList>の子要素<feature>を作成し、<feature>の子要素<region>と<string>にそれぞれ登録する(ステップ806,807)。もしこの領域を登録しない場合はステップ803に戻り、再度、登録処理を実行する。また、文書に特徴的な領域を更に追加する場合は、ステップ803に戻り、別の領域に対する登録処理を実行する(ステップ808)。
ユーザは、文書に特徴的な領域をできるだけ多く設定することで、文書種別がテンプレートDB内で排他的に一意に決まるようにしなければならない。たとえば同じ御見積書でも、自社で作成し他社に提示する御見積書と、他社が作成し自社に提示する御見積書で文書のフォームが異なる場合がある。このときそれぞれの御見積書に対してテンプレートを作成しなければならないが、文書の上部の領域にある「御見積書」の文字列だけを特徴としてテンプレートを設定すると、自社が作成したフォームか他社が作成したフォームかどちらかが判別できなくなる恐れがある。自社の御見積書フォームならではの文字列、他社の御見積書フォームならではの文字列をテンプレートに追加し、テンプレート照合の際の誤認識を防ぐようにする。たとえばこのステップ808で、テンプレートDB内のテンプレートファイルと比較し、現在設定しているテンプレートと重複するものはないかを確認する実施形態もある。
ステップ808で、他の領域を指定しないならば、次のメタデータ領域の指定処理に進む。メタデータ領域の指定処理では、まず、メタデータの場所を取り囲むようにユーザが領域を指定する。システムでは、その入力を受け付け、入力領域の矩形を画面上に表示する(ステップ809)。次に、指定したメタデータ領域に対して、メタデータの項目名称を受け付け、メタデータ領域が表内のセルデータであるか否かの選択も受け付ける(ステップ810,811)。また、メタデータの記述形式に関する条件があれば、その入力を受け付ける。この記述形式の条件を満足する文字列を、メタデータとして抽出するためである(ステップ812)。以上の情報を登録する場合は、テンプレートファイルの<metaRegList>に子要素<metaReg>を追加し、<item>にメタデータ項目名称を、<region>にメタデータ領域の座標を、<type>にセルデータの場合はcell、セルデータではないならばstringを、<format>にメタデータの記述形式を登録する。これらの情報を登録しない場合は、ステップ809に戻って再度、メタデータ領域に関する登録処理を行う(ステップ813,814)。さらに他のメタデータ領域を登録する場合はステップ815に戻って処理を再開する。全てのメタデータ領域を登録したら、処理を終了する(ステップ815)。
<テンプレート更新処理>
次に、上記で登録済みのテンプレートを更新する処理について説明する。ここでの処理は、ユーザが上述のテンプレート更新画面(図17)を見ながら操作する際に裏で行われる処理である。
テンプレートを更新する処理のフローを概略的に示すフローチャートを図9に示す。ここでの動作主体は、特に記載がないものについては、テンプレート更新処理部509である。従来のテンプレートではメタデータを取得できない場合に、ユーザはテンプレートの更新処理を行う。まず新たにテンプレート対象とする文書を表示する(ステップ901)。
次に、更新対象のテンプレートファイルを読み込み、テンプレートファイルに書かれた全ての領域情報を表示する。すなわち、<featureList>要素のうち全ての<feature>要素に対して、その子要素<region>に書かれた領域の矩形と、<metaRegList>要素のうち全ての<metaReg>要素に対し、その子要素<region>に書かれた領域の矩形を画面上に表示する(ステップ902)。
次に、テンプレートを用いて抽出されるメタデータの領域を画面表示する。すなわち、<metaReg>の子要素<region>の中の文字列であって、<format>要素にある記述形式の条件に合致した文字列の領域を表示する。この条件がない場合は、領域内の全ての文字列を表示する。また、テンプレートによってメタデータが取れない場合は、メタデータが取得できるように拡張した領域を表示する。
ここでメタデータが取れない場合を、図10を用いて説明する。図10(i)に示すように、領域内にある文字列のブロック(図10の例では「BBB株式会社製品企画本部マーケティング企画部御中」と「ご照会の件、下記の通り御見積もり申し上げます」がブロックである)で、領域内に完全に含まれるものがない場合や、(ii)に示すように、メタデータの記述形式に関する条件(<format>の条件。図10(ii)では「御中」で終わる文字列を条件としている)を満たす文字列が領域内に完全に含まれない場合を指す。このようにメタデータを取れない場合は、取れるように領域を自動的に拡張する。つまり(i)(ii)とも「BBB株式会社製品企画本部マーケティング企画部御中」を完全に含むように領域を拡張する。そして拡張した領域を画面上に表示する(ステップ903)。
また、文書に特徴的な領域(テンプレートファイルの<feature>要素の子要素<region>)の中に、登録済み文字列(<feature>要素の子要素<string>の文字列)がない場合は、文字列が取得できるように領域を拡張したものを表示する(ステップ904)。
文書に特徴的な領域(テンプレートファイルにおける<feature>要素)を新たにテンプレートに追加する場合は、文書に特徴的な領域に関する登録処理を行う(ステップ905,906)。ステップ906の処理は、具体的には図8のステップ803から808と同じである。これでテンプレートの更新処理を終えるならば、処理を終了する。更新処理がまだ続くならば、ステップ902に戻って、更新処理を続ける(ステップ907)。
メタデータ領域を新規に追加する場合は、メタデータ領域の登録処理を行う(ステップ908、909)。ステップ909の処理は、具体的には図8のステップ809から815と同じである。ステップ909の処理の後は、ステップ907に進む。
領域の情報を削除する場合は、ユーザが選択した削除対象の矩形領域を受け付け、テンプレートファイルから対応する領域の情報(領域が、文書種別に特徴的な領域であるならばこの領域に対応するテンプレートファイル内の<feature>要素、メタデータ領域ならば領域に対応する<metaReg>要素)を削除する(ステップ910,911,912)。削除処理が終われば、ステップ907に進む。
領域の情報を編集する場合は、ユーザは編集対象の領域を選択し、その入力を受け付ける(ステップ913)。そして、選択された領域の関連情報(領域が文書種別に特徴的な文字列領域のときは領域に対応する文字列<string>、領域がメタデータ領域のときはメタデータ項目名称<item>、セルデータか否かの選択結果<type>、メタデータの記述形式F<format>)を表示し、これらの関連情報に関する編集を受け付ける(ステップ914)。
また、領域の大きさに関する編集操作の入力を受け付ける。たとえば、ユーザが画面上の矩形領域をマウス506などで変更する。また、ステップ903や904で(メタデータを取得するために)拡張した領域が画面上に表示されているならば、拡張された領域を選択することで領域の大きさを変更する方法もある(ステップ915)。以上の変更内容をテンプレートに反映させて、ステップ907に進む(ステップ916)。
<テンプレート照合およびメタデータ抽出処理>
次に、入力文書とテンプレートとを照合し、メタデータを抽出する処理について説明する。ここでの処理は、ユーザが上述のメタデータ抽出画面(図18)を見ながら操作する際に裏で行われる処理である。テンプレート照合およびメタデータ抽出処理のフローを概略的に示すフローチャートを図11に示す。ここでの動作主体は、特に記載がないものについては、テンプレート照合およびメタデータ抽出処理部510である。
まず、入力文書を読み込み、それを画面上に表示する(ステップ1101)。
次に入力文書とテンプレートDB502内のテンプレートファイルとの照合を行う。iを1とし、NをテンプレートDB502に蓄積されたテンプレートファイルの総数とする(ステップ1102)。ここでi はテンプレートファイルのカウンタとして用いる。i 番目のテンプレートとの照合処理では、テンプレートファイル内の<futureList>の全<feature>要素に対して、その子要素<region>に書かれた領域を、入力文書内から読み出す。入力文書が文字コード情報のないイメージデータである場合は、入力領域に対してOCR処理で文字認識を行って読み出す(ステップ1103)。
読み出した文字列が、同じ<feature>要素内の子要素<string>に書かれた文字列を含んでいるかを判定する(ステップ1104)。文字列がない場合は、i番目のテンプレートは当てはまらないことを意味している。次にi とNが等しいかどうかを判定する(ステップ1105)。iとNが等しければ全てのテンプレートファイルを照合したことになるので、マッチするテンプレートがないメッセージを表示し、手動によるメタデータ登録を受け付ける(ステップ1106)。
その後、後述するステップ1118に移動する。ステップ1105でi とNが等しくなければ、iを1つインクリメントし、ステップ1103に戻る。すなわち次のテンプレートファイルに対して処理を続行するようにする(ステップ1107)。一方、ステップ1104で文字列が含まれている場合は、入力文書がi番目のテンプレートと照合したことを示している。
テンプレートとの照合が成功した後は、i番目のテンプレートの情報にもとづいてメタデータを抽出する。jを1とし、Mをi番目のテンプレートファイルの<metaRegList>要素の子要素<metaReg>の数とする。すなわちMは文書から抽出するメタデータ領域の数である(ステップ1108)。
次に、メタデータがどのような形で文書上に書かれているか判別するために、j番目の<metaReg>要素の子要素<type>の値を参照する。これがstringであるならば、同じ<metaReg>要素の子要素<region>に対応する領域を入力文書内から(必要ならばOCR処理を施して)読み出す(ステップ1109、1110)。ここで読み出す文字列としては、文字列のブロックとして<region>の領域内に完全に含まれる文字列を抽出する。したがって、図10の(i)のような場合は何も文字列として抽出されず、(ii)の場合は「受付番号:123」のみが抽出されることになる。
その後、読み出した文字列に対して、j番目の<metaReg>要素の子要素<format>に書かれている条件を満足する文字列のみを抽出する。<format>に何も指定がないならばここでは何も行わない(ステップ1111)。
また、ステップ1109において、j番目の<metaReg>要素の子要素<type>の値がcellであった場合、j番目の<metaReg>要素の子要素<region>の領域が入力文書内の表とオーバーラップしているかを判定する(ステップ1112)。表とオーバーラップしているのであれば、表のセルの中で<region>の領域とオーバーラップしている範囲が最も大きいセルを探索する(ステップ1113)。例えば図12ではテンプレートで指定されたメタデータ領域に対して、表内の8つのセルとオーバーラップしているが、オーバーラップの面積が一番大きいセルは1205なので、それが選択される。ここで選択されたセルに対し、そのセル内のデータを(必要ならばOCR処理を施して)読み出す(ステップ1114)。
読み出したデータに対して、ステップ1111の処理を実行する。ステップ1111が終わるとメタデータが抽出される。jがMと等しいかを判定し(すなわちテンプレートファイルにある全てのメタデータ領域を読み取ったかどうかを判定し)、等しくないならばjを1つインクリメントし、ステップ1109から次の<metaReg>要素に対して処理を続行する(ステップ1115,1116)。
また、ステップ1112で、表と領域がオーバーラップしていないならば、メタデータを取ることが不可能なので、直接ステップ1115に移動する。ステップ1115にて、jとMが等しいならば、全てのメタデータ領域に対する処理を行ったことになる。これまでに読み取ったメタデータを表示し、メタデータに対する編集を受け付ける(ステップ1117)。メタデータの編集が終われば、これらのメタデータをメタデータファイルに登録し(ステップ1118)、処理を終了する。メタデータの登録は、具体的には、入力ファイルのファイルパスを<fileLoc>に、テンプレートファイルの<name>要素のデータを<doc_template_name>に、また<metainfo>の中に子要素<metadata>を作り、テンプレートファイルの<metaReg>要素の子要素<item>のデータを<metadata>の子要素<item>に、抽出したメタデータを<val>にそれぞれ登録する。
なお、図11の処理フローでは、<featureList>の全ての子要素<feature>に対して、その<region>の領域に<string>の文字列があるときにテンプレートと照合したとみなしているが(ステップ1103、1104に相当)、<featureList>の子要素<feature>のうちの“どれか一つ”に対して、その<region>の領域に<string>の文字列があるときにテンプレートと照合したとみなすという実施形態もある。すなわち<feature>のAND条件ではなくOR条件で照合するという実施形態である。
また、他の実施形態として、入力文書について、テンプレートファイルで指定されるメタデータの領域(<metaReg>の子要素<region>の領域)の中にメタデータが存在しない場合、テンプレートファイルが違うものとして別のテンプレートファイルを参照するように処理を行う実施形態もある。つまり、図11のステップ1110や1114で読み出した文字列が存在しない場合、またはステップ1111でformatの条件を満足する文字列が存在しない場合、ステップ1105に進み次のテンプレートファイルを適用するのである。
また、他の実施形態として、ステップ1110では<region>の領域内の文字列のブロックで領域内に完全に含まれる文字列のみを抽出するとしたが、<region>の領域内の全ての文字列を抽出する方法もある。この場合、図10の(i)では「BBB株式会社愛知支店製品企画本部マーケティング」と「ご紹介の件、下記の通り御」が抽出文字列となる。
また、他の実施形態として、ステップ1110では<region>の領域内の文字列のブロックで領域内に完全に含まれる文字列のみを抽出するとしたが、<region>の領域と重なるすべての文字列ブロックを抽出する方法もある。この場合、図10の(i)では「BBB株式会社愛知支店製品企画本部マーケティング企画部御中」と「ご紹介の件、下記の通り御見積もり申し上げます。」が抽出文字列となる。
また、他の実施形態として、ステップ1113で表内のセルを選択する際に、「オーバーラップの面積が最大のセル」として表の中のセルを選択しているが、「テンプレートで指定されたメタデータ領域の中心座標が含まれるセル」として表の中のセルを選択するような方法もある。
また、他の実施形態として、ステップ1113で表内のセルを選択する際に、「オーバーラップの面積が最大のセル」として表の中のセルを選択しているが、「セル内の全面積に対するオーバーラップの領域の面積の割合が最大のセル」として表の中のセルを選択するような利用形態もある。例えば、図12のセル1202についてみると、オーバーラップしている領域の面積はセル全体の約20%を占めているが、これと同じことを全てのセルに対して計算し、割合が最大のセルを選択するのである(この方法の場合、セル1205は割合が100%なので、1205が選択される)。
以上説明したように、本実施の形態によれば、文書種別に特徴的な領域と領域内の文字列とメタデータ箇所の領域を登録し、それに従ってメタデータを抽出する。メタデータ箇所を囲むように広く領域を設定するので、文書の書き手によってフォームが上下左右に揺らぐような半固定的帳票等の非定型文書でも、メタデータを抽出することができる。
御見積書の一例を表す図である。 御見積書の一例を表す図である。 本発明の概要を表す説明図で、文書上に文書種別の特徴的な領域とメタデータ領域を指定する図である。 本発明の概要を表す説明図で、図3で指定した領域の情報を用いて、文書の判定およびメタデータを取得する図である。 本発明の実施の形態に係るシステムの概要図である。 テンプレートファイルの一例である。 メタデータファイルの一例である。 テンプレート作成処理の流れを示すフローチャートである。 テンプレート更新処理の流れを示すフローチャートである。 文書内で領域内の文字列ブロックに対する処理の説明をするための図である。 テンプレート照合とメタデータ抽出処理の流れを示すフローチャートである。 表内のセルデータを選択する処理の説明をするための図である。 テンプレートの作成過程で文書種別に特徴的な領域を設定する画面の例である。 テンプレートを作成する画面(ダイアログ)の例である。 テンプレートの作成過程でメタデータ領域を設定する画面の例である。 テンプレートを作成する画面(ダイアログ)の例である。 テンプレートの更新処理を示す画面の例である。 文書からメタデータを抽出する画面の例である。
符号の説明
301…文書中で「御見積書」を含む文書の特徴領域
302…文書中で「見積No.」を含む文書の特徴領域
303…文書中であて先を含むメタデータ領域
304…文書中で日付を含むメタデータ領域
305…文書中で品名の内容を含むメタデータ領域
306…文書中で見積番号を含むメタデータ領域
401…文書中で「御見積書」を含む文書の特徴領域
402…文書中で「見積No.」を含む文書の特徴領域
403…文書中であて先を含むメタデータ領域
404…文書中で日付を含むメタデータ領域
405…文書中で品名の内容を含むメタデータ領域
406…文書中で見積番号を含むメタデータ領域
501…文書DB
502…テンプレートDB
503…メタデータDB
504…表示装置
505…キーボード
506…マウス
507…中央処理装置
508…テンプレート作成処理部
509…テンプレート更新処理部
510…テンプレート照合及びメタデータ抽出処理部
511…表示処理部
1301…文書表示エリア
1302…メニューバー
1303…選択領域
1304…矩形領域の文字抽出ボタン
1305…文字抽出結果が入力されるテキストボックス
1306…キャンセルボタン
1307…次へボタン
1401…はいボタン
1402…いいえボタン
1501…選択領域
1502…メタデータ項目名を入力するテキストボックス
1503…表外データか表内データかを選択するラジオボタン
1504…メタデータの記述形式を入力するテキストボックス
1505…キャンセルボタン
1506…次へボタン
1601…はいボタン
1602…いいえボタン
1701…文書表示エリア
1702…メニューバー
1703…テンプレートに登録された領域
1704…テンプレートを用いて認識された文字領域
1705…特徴的な領域の追加ボタン
1706…メタデータ領域の追加ボタン
1707…領域情報を削除ボタン
1708…メタデータ項目名を入力するテキストボックス
1709…表外データか表内データかを選択するラジオボタン
1710…メタデータの記述形式を入力するテキストボックス
1711…更新ボタン
1801…メニューバー
1802…メタデータ表示エリア
1803…追加ボタン
1804…削除ボタン
1805…メタデータの登録ボタン

Claims (6)

  1. 一部に共通構造を有し全体的には自由に編集可能な非定型文書からメタデータを抽出するメタデータ抽出装置であって、
    前記非定型文書の基準型となる参照文書を種別する特徴的な1つ以上の文字列と該文字列を取り囲む所定の領域とをテンプレートに登録するテンプレート作成処理部と、
    前記メタデータを抽出する対象となる入力文書に対して前記テンプレートに登録された領域内部の文字列を読取り、前記入力文書にテンプレートに登録された前記文字列が含まれるか否かを判別することで文書種別を判定するテンプレート照合処理部と、
    前記判定の結果に基づき、前記テンプレートを用いて前記入力文書から文字列をメタデータとして抽出するメタデータ抽出処理部と、
    を有することを特徴とするメタデータ抽出装置。
  2. 請求項1に記載のメタデータ抽出装置において、
    前記テンプレート作成処理部は、さらに、前記参照文書内にある1つ以上のメタデータを含む領域と該メタデータの記述形式とを前記テンプレートに登録し、
    前記テンプレート照合処理部は、前記テンプレートを用いて前記入力文書に対して前記入力文書の種別を判定することを特徴とするメタデータ抽出装置。
  3. 請求項2に記載のメタデータ抽出装置において、
    前記テンプレート作成処理部は、さらに、前記メタデータが表内のセルに記載された文字列か表外に記載された文字列かを前記テンプレートに登録し、
    前記メタデータ抽出処理部は、
    前記メタデータが表内のセルに記載された文字列の場合、前記セルのうち前記メタデータ領域と交わる面積が最大となるものからメタデータを抽出、前記セルのうち前記メタデータ領域の中心座標が含まれるものに記述されたメタデータを抽出、前記セルのうち前記メタデータ領域と交わる面積の割合が最大となるものに記述されたデータを抽出、のうちいずれか1つの抽出処理を行い、
    メタデータが表外に記載された文字列の場合、前記メタデータ領域の中に文字列のブロックが完全に納められたものだけを抽出、前記メタデータ領域内に含まれる文字列だけを抽出、前記メタデータ領域と交わる文字列ブロックごとに抽出、のうちいずれか1つの抽出処理を行うことを特徴とするメタデータ抽出方法。
  4. 一部に共通構造を有し全体的には自由に編集可能な非定型文書からメタデータを抽出するメタデータ抽出方法であって、
    テンプレート作成処理部が、前記非定型文書の基準型となる参照文書データを種別する特徴的な1つ以上の文字列と該文字列を取り囲む領域とをテンプレートに登録するテンプレート登録ステップと、
    テンプレート照合処理部が、前記メタデータを抽出する対象となる入力文書に対して前記テンプレートに登録された領域内部の文字列を読取り、前記入力文書にテンプレートに登録された前記文字列が含まれるか否かを判別することで文書種別を判定する入力文書判定ステップと、
    メタデータ抽出処理部が、前記判定の結果に基づき、前記テンプレートを用いて前記入力文書から文字列をメタデータとして抽出するメタデータ抽出ステップと、
    を有することを特徴とするメタデータ抽出方法。
  5. 請求項4に記載のメタデータ抽出方法において、
    前記テンプレート登録ステップは、さらに、前記参照文書内にある1つ以上のメタデータを含む領域と該メタデータの記述形式とを前記テンプレートに登録し、
    前記入力文書判定ステップは、前記テンプレートを用いて前記入力文書に対して前記入力文書の種別を判定することを特徴とするメタデータ抽出方法。
  6. 請求項5に記載のメタデータ抽出方法において、
    前記テンプレート登録ステップは、さらに、前記メタデータが表内のセルに記載された文字列か表外に記載された文字列かを前記テンプレートに登録し、
    前記メタデータ抽出ステップは、
    前記メタデータが表内のセルに記載された文字列の場合、前記セルのうち前記メタデータ領域と交わる面積が最大となるものからメタデータを抽出する方法、前記セルのうち前記メタデータ領域の中心座標が含まれるものに記述されたメタデータを抽出する方法、前記セルのうち前記メタデータ領域と交わる面積の割合が最大となるものに記述されたデータを抽出する方法、のうちいずれか1つの方法を有し、
    メタデータが表外に記載された文字列の場合、前記メタデータ領域の中に文字列のブロックが完全に納められたものだけを抽出する方法、前記メタデータ領域内に含まれる文字列だけを抽出する方法、前記メタデータ領域と交わる文字列ブロックごとに抽出する方法、のうちいずれか1つの方法を有することを特徴とするメタデータ抽出方法。
JP2008276101A 2008-10-27 2008-10-27 メタデータ抽出装置およびその方法 Expired - Fee Related JP5271667B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008276101A JP5271667B2 (ja) 2008-10-27 2008-10-27 メタデータ抽出装置およびその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008276101A JP5271667B2 (ja) 2008-10-27 2008-10-27 メタデータ抽出装置およびその方法

Publications (2)

Publication Number Publication Date
JP2010102668A true JP2010102668A (ja) 2010-05-06
JP5271667B2 JP5271667B2 (ja) 2013-08-21

Family

ID=42293237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008276101A Expired - Fee Related JP5271667B2 (ja) 2008-10-27 2008-10-27 メタデータ抽出装置およびその方法

Country Status (1)

Country Link
JP (1) JP5271667B2 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098913A (ja) * 2010-11-02 2012-05-24 Fujitsu Ltd 処理装置、処理方法及び処理プログラム
JP2014059686A (ja) * 2012-09-18 2014-04-03 Toshiba Corp 情報管理システム及び入力支援プログラム
JP2014170452A (ja) * 2013-03-05 2014-09-18 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2014235619A (ja) * 2013-06-03 2014-12-15 株式会社プリマジェスト 画像情報処理装置及び画像情報処理方法
JP2015005243A (ja) * 2013-06-24 2015-01-08 日本電信電話株式会社 画像領域分割装置、その方法及びプログラム
JP2017033477A (ja) * 2015-08-06 2017-02-09 日本電気株式会社 画像判定システム、画像判定方法、画像判定プログラム、画像判定プログラムを記録する記録媒体
JP6190027B1 (ja) * 2016-10-20 2017-08-30 三菱電機インフォメーションシステムズ株式会社 作業支援装置および作業支援プログラム
JP2018159972A (ja) * 2017-03-22 2018-10-11 株式会社東芝 情報処理装置、方法及びプログラム
JP2019530063A (ja) * 2016-08-09 2019-10-17 リップコード インコーポレイテッド 電子記録のタグ付けのためのシステム及び方法
JP2020119152A (ja) * 2019-01-22 2020-08-06 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP2020204861A (ja) * 2019-06-17 2020-12-24 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP2021018520A (ja) * 2019-07-18 2021-02-15 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN112615970A (zh) * 2019-10-03 2021-04-06 佳能株式会社 控制设置元数据的画面的显示的方法、存储介质及设备
KR102321707B1 (ko) * 2021-03-12 2021-11-04 오세용 비정형 문서의 활용을 위한 데이터 가공 방법
CN114095581A (zh) * 2020-07-31 2022-02-25 深圳富桂精密工业有限公司 数据处理方法、系统及计算机可读存储介质
US11410441B2 (en) 2020-03-06 2022-08-09 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240901A (ja) * 1997-02-21 1998-09-11 Mitsubishi Electric Corp 文書ファイリング装置及び文書ファイリング方法
JPH11328306A (ja) * 1998-03-09 1999-11-30 Ricoh Co Ltd 文書画像の論理要素抽出方法、装置および記録媒体
JP2001056837A (ja) * 1999-08-19 2001-02-27 Ricoh Co Ltd 文書認識方法および記録媒体
JP2007233913A (ja) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2008059157A (ja) * 2006-08-30 2008-03-13 Fuji Xerox Co Ltd 書類確認支援システム、書類確認支援装置およびプログラム
JP2008186256A (ja) * 2007-01-30 2008-08-14 Canon Inc 文書処理装置、文書処理方法、コンピュータプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240901A (ja) * 1997-02-21 1998-09-11 Mitsubishi Electric Corp 文書ファイリング装置及び文書ファイリング方法
JPH11328306A (ja) * 1998-03-09 1999-11-30 Ricoh Co Ltd 文書画像の論理要素抽出方法、装置および記録媒体
JP2001056837A (ja) * 1999-08-19 2001-02-27 Ricoh Co Ltd 文書認識方法および記録媒体
JP2007233913A (ja) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2008059157A (ja) * 2006-08-30 2008-03-13 Fuji Xerox Co Ltd 書類確認支援システム、書類確認支援装置およびプログラム
JP2008186256A (ja) * 2007-01-30 2008-08-14 Canon Inc 文書処理装置、文書処理方法、コンピュータプログラム

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098913A (ja) * 2010-11-02 2012-05-24 Fujitsu Ltd 処理装置、処理方法及び処理プログラム
JP2014059686A (ja) * 2012-09-18 2014-04-03 Toshiba Corp 情報管理システム及び入力支援プログラム
JP2014170452A (ja) * 2013-03-05 2014-09-18 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2014235619A (ja) * 2013-06-03 2014-12-15 株式会社プリマジェスト 画像情報処理装置及び画像情報処理方法
JP2015005243A (ja) * 2013-06-24 2015-01-08 日本電信電話株式会社 画像領域分割装置、その方法及びプログラム
JP2017033477A (ja) * 2015-08-06 2017-02-09 日本電気株式会社 画像判定システム、画像判定方法、画像判定プログラム、画像判定プログラムを記録する記録媒体
JP2019530063A (ja) * 2016-08-09 2019-10-17 リップコード インコーポレイテッド 電子記録のタグ付けのためのシステム及び方法
US11580141B2 (en) 2016-08-09 2023-02-14 Ripcord Inc. Systems and methods for records tagging based on a specific area or region of a record
JP7189125B2 (ja) 2016-08-09 2022-12-13 リップコード インコーポレイテッド 電子記録のタグ付けのためのシステム及び方法
JP6190027B1 (ja) * 2016-10-20 2017-08-30 三菱電機インフォメーションシステムズ株式会社 作業支援装置および作業支援プログラム
JP2018067180A (ja) * 2016-10-20 2018-04-26 三菱電機インフォメーションシステムズ株式会社 作業支援装置および作業支援プログラム
JP2018159972A (ja) * 2017-03-22 2018-10-11 株式会社東芝 情報処理装置、方法及びプログラム
US10832100B2 (en) 2017-03-22 2020-11-10 Kabushiki Kaisha Toshiba Target recognition device
JP2020119152A (ja) * 2019-01-22 2020-08-06 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP7383882B2 (ja) 2019-01-22 2023-11-21 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
JP2020204861A (ja) * 2019-06-17 2020-12-24 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP7292988B2 (ja) 2019-06-17 2023-06-19 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP2021018520A (ja) * 2019-07-18 2021-02-15 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP7317612B2 (ja) 2019-07-18 2023-07-31 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US11972208B2 (en) 2019-07-18 2024-04-30 Canon Kabushiki Kaisha Information processing device and information processing method
CN112615970B (zh) * 2019-10-03 2023-09-01 佳能株式会社 控制设置元数据的画面的显示的方法、存储介质及设备
CN112615970A (zh) * 2019-10-03 2021-04-06 佳能株式会社 控制设置元数据的画面的显示的方法、存储介质及设备
US11410441B2 (en) 2020-03-06 2022-08-09 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium
CN114095581A (zh) * 2020-07-31 2022-02-25 深圳富桂精密工业有限公司 数据处理方法、系统及计算机可读存储介质
KR102321707B1 (ko) * 2021-03-12 2021-11-04 오세용 비정형 문서의 활용을 위한 데이터 가공 방법

Also Published As

Publication number Publication date
JP5271667B2 (ja) 2013-08-21

Similar Documents

Publication Publication Date Title
JP5271667B2 (ja) メタデータ抽出装置およびその方法
JP4973063B2 (ja) 表データ処理方法及び装置
US8578269B2 (en) Information processing apparatus for performing a layout processing of sub-templates, information processing method and computer-readable medium
JP4444867B2 (ja) 業務プロセスモデル作成支援システムおよびプログラム,ならびに業務プロセスモデル作成処理方法
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
JP5424798B2 (ja) メタデータ設定方法及びメタデータ設定システム、並びにプログラム
JP4998220B2 (ja) 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法
US10762377B2 (en) Floating form processing based on topological structures of documents
US8086950B2 (en) Method and system for enhancing engineering information
JP2013164740A (ja) 会計情報読取りシステム、会計情報読取り方法、及びプログラム
KR100874339B1 (ko) 공간연계db를 이용한 cad뷰어 검색방법.
JP2016192223A (ja) 会計情報読取りシステム及びプログラム
JP4983464B2 (ja) 帳票画像処理装置及び帳票画像処理プログラム
JP2007279978A (ja) 文書検索装置及び文書検索方法
CN115935915A (zh) 文档处理方法、计算机设备、存储介质
JP5470308B2 (ja) 法令分析支援装置、法令分析支援方法、及び法令分析支援プログラム
JP6764176B1 (ja) 案件管理装置、案件管理プログラム及び案件管理方法
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム
JP2013008237A (ja) 関連情報抽出プログラム、関連情報抽出方法及び関連情報抽出装置
US20190332655A1 (en) Display editing apparatus, server apparatus, display editing system, and non-transitory computer readable medium storing program
JP6322291B2 (ja) 文書処理装置および項目抽出方法
WO2023047570A1 (ja) 情報処理装置、情報処理方法、情報処理プログラム
JP2010271910A (ja) リポジトリ管理サーバ
JP2007034806A (ja) 情報処理装置及びプログラム
US20140156593A1 (en) Information processing apparatus, information processing method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130513

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees