JP5271667B2 - メタデータ抽出装置およびその方法 - Google Patents
メタデータ抽出装置およびその方法 Download PDFInfo
- Publication number
- JP5271667B2 JP5271667B2 JP2008276101A JP2008276101A JP5271667B2 JP 5271667 B2 JP5271667 B2 JP 5271667B2 JP 2008276101 A JP2008276101 A JP 2008276101A JP 2008276101 A JP2008276101 A JP 2008276101A JP 5271667 B2 JP5271667 B2 JP 5271667B2
- Authority
- JP
- Japan
- Prior art keywords
- metadata
- template
- area
- character string
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、あらかじめユーザがGUI上で文書の“種別”(「御見積書」や「請求書」など)に特異的な領域(タイトル部分など)を囲み、その領域座標と領域内の“文字列”をテンプレート化して登録しておく。そして、入力文書との照合時には、入力文書内で登録済みの領域内に登録済みの文字列が書いてあるかどうかで、文書の種別を選択する。
以上の選択および設定事項をテンプレートとして登録しておく。
テンプレートの作成中の画面を示した図を図13に示す。テンプレート対象の文書を文書表示エリア1301に表示している。テンプレートを新規に作成するには、メニューバー1302で「テンプレートの新規作成」を選択し、テンプレート名称を入力して開始する。まずこの文書に特徴的な領域を設定する。例えば、文書のタイトルである「御見積書」をマウス等で選択する。すると、画面上に領域1303で示したような矩形が表示される。次に、矩形領域の文字抽出ボタン1304を押す。するとテキストボックス1305にその領域の文字列が入る。ユーザはこの文字列を編集することができる。この情報を取り消して最初から入力処理を始めるなら「キャンセル」ボタン1306、領域情報や文字列を登録するなら「次へ」ボタン1307を押下する。
テンプレート更新中の画面を図17に示す。テンプレートの更新処理ではメニューバー1701で「テンプレート更新」を選択し、テンプレートファイルを選択して開始する。図17は見積書テンプレートを選択した例である。ユーザが選択すると、テンプレートに登録されている領域情報を読み出し、矩形1702のように画面上に表示する。さらに、文書に特徴的な文字列と、メタデータの文字列を1703のように強調表示する。図17の例では、あて先が強調表示されていない。このような場合、自動的に、メタデータを囲むような領域を1704に示すように表示する。ユーザはこのような表示によって、テンプレートにどのような更新を行うかを視覚的に判断できる。
メタデータ抽出の画面を図18に示す。メニューバー1801で「メタデータ抽出」を選択すると、表示中の文書に対してテンプレートの照合を行い(この図の場合は見積書テンプレートを照合した)、メタデータを自動抽出する。抽出結果はメタデータ表示エリア1802に表示される。このエリアは編集可能になっており、間違って取得したデータは編集を加えることができる。
本発明のメタデータ抽出システムの内部構造を概略的に示した構成図を図5に示す。このシステムは、見積書や契約書などの文書が蓄積された文書DB501、文書種別を判定しメタデータを抽出するために、文書種別に特徴的な情報や文書のメタデータ領域の情報を記述したテンプレートファイルを格納したテンプレートDB502、文書から抽出したメタデータを格納するメタデータDB503、文書や文書上のメタデータ領域を表示するための表示装置504、メタデータ領域の入力やデータの編集、メニューの選択などの操作を行うためのキーボード505とマウスなどのポインティングデバイス506、必要な演算処理、制御処理等を行う中央処理装置507を備える。ここで文書DB501は、DBとしての実体が物理的に一つではなく複数である場合も対象としている。
テンプレートDB502に含まれるテンプレートファイルの一例を図6に示す。このファイルはXMLで記述されている。また、このファイルは、文書種別ごとに、文書種別に特徴的な情報や文書内のメタデータ領域に関する情報が記述されており、文書種別を判定しメタデータを抽出するためのものである。
まず、文書からのメタデータ抽出技術において、あらかじめ文書ごとに、文書の形状と文書上の取得したいメタデータの領域の場所を記録しテンプレートとして登録するため、テンプレートを作成する処理について説明する。ここでの処理は、ユーザが上述のテンプレート作成画面(図13、15)を見ながら操作する際に裏で行われる処理である。選択テンプレート作成処理の流れを概略的に示すフローチャートを図8に示す。以下、特に記載の無い処理の動作主体は、テンプレート作成処理部508である。
次に、上記で登録済みのテンプレートを更新する処理について説明する。ここでの処理は、ユーザが上述のテンプレート更新画面(図17)を見ながら操作する際に裏で行われる処理である。
次に、入力文書とテンプレートとを照合し、メタデータを抽出する処理について説明する。ここでの処理は、ユーザが上述のメタデータ抽出画面(図18)を見ながら操作する際に裏で行われる処理である。テンプレート照合およびメタデータ抽出処理のフローを概略的に示すフローチャートを図11に示す。ここでの動作主体は、特に記載がないものについては、テンプレート照合およびメタデータ抽出処理部510である。
次に入力文書とテンプレートDB502内のテンプレートファイルとの照合を行う。iを1とし、NをテンプレートDB502に蓄積されたテンプレートファイルの総数とする(ステップ1102)。ここでi はテンプレートファイルのカウンタとして用いる。i 番目のテンプレートとの照合処理では、テンプレートファイル内の<futureList>の全<feature>要素に対して、その子要素<region>に書かれた領域を、入力文書内から読み出す。入力文書が文字コード情報のないイメージデータである場合は、入力領域に対してOCR処理で文字認識を行って読み出す(ステップ1103)。
302…文書中で「見積No.」を含む文書の特徴領域
303…文書中であて先を含むメタデータ領域
304…文書中で日付を含むメタデータ領域
305…文書中で品名の内容を含むメタデータ領域
306…文書中で見積番号を含むメタデータ領域
401…文書中で「御見積書」を含む文書の特徴領域
402…文書中で「見積No.」を含む文書の特徴領域
403…文書中であて先を含むメタデータ領域
404…文書中で日付を含むメタデータ領域
405…文書中で品名の内容を含むメタデータ領域
406…文書中で見積番号を含むメタデータ領域
501…文書DB
502…テンプレートDB
503…メタデータDB
504…表示装置
505…キーボード
506…マウス
507…中央処理装置
508…テンプレート作成処理部
509…テンプレート更新処理部
510…テンプレート照合及びメタデータ抽出処理部
511…表示処理部
1301…文書表示エリア
1302…メニューバー
1303…選択領域
1304…矩形領域の文字抽出ボタン
1305…文字抽出結果が入力されるテキストボックス
1306…キャンセルボタン
1307…次へボタン
1401…はいボタン
1402…いいえボタン
1501…選択領域
1502…メタデータ項目名を入力するテキストボックス
1503…表外データか表内データかを選択するラジオボタン
1504…メタデータの記述形式を入力するテキストボックス
1505…キャンセルボタン
1506…次へボタン
1601…はいボタン
1602…いいえボタン
1701…文書表示エリア
1702…メニューバー
1703…テンプレートに登録された領域
1704…テンプレートを用いて認識された文字領域
1705…特徴的な領域の追加ボタン
1706…メタデータ領域の追加ボタン
1707…領域情報を削除ボタン
1708…メタデータ項目名を入力するテキストボックス
1709…表外データか表内データかを選択するラジオボタン
1710…メタデータの記述形式を入力するテキストボックス
1711…更新ボタン
1801…メニューバー
1802…メタデータ表示エリア
1803…追加ボタン
1804…削除ボタン
1805…メタデータの登録ボタン
Claims (4)
- 一部に共通構造を有し全体的には自由に編集可能な非定型文書からメタデータを抽出するメタデータ抽出装置であって、
前記非定型文書の基準型となる参照文書を種別する特徴的な1つ以上の文字列と該文字列を取り囲む所定の領域とをテンプレートに登録するテンプレート作成処理部と、
前記メタデータを抽出する対象となる入力文書に対して前記テンプレートに登録された領域内部の文字列を読取り、前記入力文書にテンプレートに登録された前記文字列が含まれるか否かを判別することで文書種別を判定するテンプレート照合処理部と、
前記判定の結果に基づき、前記テンプレートを用いて前記入力文書から文字列をメタデータとして抽出するメタデータ抽出処理部と、
を有し、
前記テンプレート作成処理部は、さらに、前記参照文書内にある1つ以上のメタデータを含む領域と該メタデータの記述形式とを前記テンプレートに登録することと、前記メタデータが表内のセルに記載された文字列か表外に記載された文字列かを前記テンプレートに登録することと、を実行し、
前記テンプレート照合処理部は、前記テンプレートを用いて前記入力文書に対して前記入力文書の種別を判定し、
前記メタデータ抽出処理部は、前記テンプレートを用いて前記メタデータが表内のセルの文字列かあるいは表外の文字列かを判定し、前記判定の結果に基づき、前記文字列の抽出処理を選択することを特徴とするメタデータ抽出装置。 - 請求項1に記載のメタデータ抽出装置において、
前記メタデータ抽出処理部は、
前記メタデータが表内のセルに記載された文字列の場合、前記セルのうち前記メタデータ領域と交わる面積が最大となるものからメタデータを抽出、前記セルのうち前記メタデータ領域の中心座標が含まれるものに記述されたメタデータを抽出、前記セルのうち前記メタデータ領域と交わる面積の割合が最大となるものに記述されたデータを抽出、のうちいずれか1つの抽出処理を行い、
メタデータが表外に記載された文字列の場合、前記メタデータ領域の中に文字列のブロックが完全に納められたものだけを抽出、前記メタデータ領域内に含まれる文字列だけを抽出、前記メタデータ領域と交わる文字列ブロックごとに抽出、のうちいずれか1つの抽出処理を行うことを特徴とするメタデータ抽出装置。 - 一部に共通構造を有し全体的には自由に編集可能な非定型文書からメタデータを抽出するメタデータ抽出方法であって、
テンプレート作成処理部が、前記非定型文書の基準型となる参照文書データを種別する特徴的な1つ以上の文字列と該文字列を取り囲む領域とをテンプレートに登録するテンプレート登録ステップと、
テンプレート照合処理部が、前記メタデータを抽出する対象となる入力文書に対して前記テンプレートに登録された領域内部の文字列を読取り、前記入力文書にテンプレートに登録された前記文字列が含まれるか否かを判別することで文書種別を判定する入力文書判定ステップと、
メタデータ抽出処理部が、前記判定の結果に基づき、前記テンプレートを用いて前記入力文書から文字列をメタデータとして抽出するメタデータ抽出ステップと、
を有し、
前記テンプレート登録ステップは、さらに、前記参照文書内にある1つ以上のメタデータを含む領域と該メタデータの記述形式とを前記テンプレートに登録することと、前記メタデータが表内のセルに記載された文字列か表外に記載された文字列かを前記テンプレートに登録することと、を含み、
前記入力文書判定ステップは、前記テンプレートを用いて前記入力文書に対して前記入力文書の種別を判定し、
前記メタデータ抽出ステップは、前記テンプレートを用いて前記メタデータが表内のセルの文字列かあるいは表外の文字列かを判定し、前記判定の結果に基づき、前記文字列の抽出処理を選択することを特徴とするメタデータ抽出方法。 - 請求項3に記載のメタデータ抽出方法において、
前記メタデータ抽出ステップは、
前記メタデータが表内のセルに記載された文字列の場合、前記セルのうち前記メタデータ領域と交わる面積が最大となるものからメタデータを抽出する方法、前記セルのうち前記メタデータ領域の中心座標が含まれるものに記述されたメタデータを抽出する方法、前記セルのうち前記メタデータ領域と交わる面積の割合が最大となるものに記述されたデータを抽出する方法、のうちいずれか1つの方法を有し、
メタデータが表外に記載された文字列の場合、前記メタデータ領域の中に文字列のブロックが完全に納められたものだけを抽出する方法、前記メタデータ領域内に含まれる文字列だけを抽出する方法、前記メタデータ領域と交わる文字列ブロックごとに抽出する方法、のうちいずれか1つの方法を有することを特徴とするメタデータ抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008276101A JP5271667B2 (ja) | 2008-10-27 | 2008-10-27 | メタデータ抽出装置およびその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008276101A JP5271667B2 (ja) | 2008-10-27 | 2008-10-27 | メタデータ抽出装置およびその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010102668A JP2010102668A (ja) | 2010-05-06 |
JP5271667B2 true JP5271667B2 (ja) | 2013-08-21 |
Family
ID=42293237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008276101A Expired - Fee Related JP5271667B2 (ja) | 2008-10-27 | 2008-10-27 | メタデータ抽出装置およびその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5271667B2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012098913A (ja) * | 2010-11-02 | 2012-05-24 | Fujitsu Ltd | 処理装置、処理方法及び処理プログラム |
JP5468660B2 (ja) * | 2012-09-18 | 2014-04-09 | 株式会社東芝 | 情報管理システム及び入力支援プログラム |
JP6222541B2 (ja) * | 2013-03-05 | 2017-11-01 | 富士ゼロックス株式会社 | 画像処理装置及びプログラム |
JP6250307B2 (ja) * | 2013-06-03 | 2017-12-20 | 株式会社プリマジェスト | 画像情報処理装置及び画像情報処理方法 |
JP5950309B2 (ja) * | 2013-06-24 | 2016-07-13 | 日本電信電話株式会社 | 画像領域分割装置、その方法及びプログラム |
JP6875061B2 (ja) * | 2015-08-06 | 2021-05-19 | 日本電気株式会社 | 画像判定システム、画像判定方法、画像判定プログラム、画像判定プログラムを記録する記録媒体 |
CA3033642A1 (en) | 2016-08-09 | 2018-02-15 | Ripcord Inc. | Systems and methods for electronic records tagging |
JP6190027B1 (ja) * | 2016-10-20 | 2017-08-30 | 三菱電機インフォメーションシステムズ株式会社 | 作業支援装置および作業支援プログラム |
JP6448696B2 (ja) | 2017-03-22 | 2019-01-09 | 株式会社東芝 | 情報処理装置、方法及びプログラム |
JP7383882B2 (ja) * | 2019-01-22 | 2023-11-21 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、及び情報処理プログラム |
JP7292988B2 (ja) * | 2019-06-17 | 2023-06-19 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7317612B2 (ja) | 2019-07-18 | 2023-07-31 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7443012B2 (ja) * | 2019-10-03 | 2024-03-05 | キヤノン株式会社 | メタデータを設定するための設定方法、プログラム、装置 |
JP7484236B2 (ja) | 2020-03-06 | 2024-05-16 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
CN114095581A (zh) * | 2020-07-31 | 2022-02-25 | 深圳富桂精密工业有限公司 | 数据处理方法、系统及计算机可读存储介质 |
KR102321707B1 (ko) * | 2021-03-12 | 2021-11-04 | 오세용 | 비정형 문서의 활용을 위한 데이터 가공 방법 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3598711B2 (ja) * | 1997-02-21 | 2004-12-08 | 三菱電機株式会社 | 文書ファイリング装置 |
JPH11328306A (ja) * | 1998-03-09 | 1999-11-30 | Ricoh Co Ltd | 文書画像の論理要素抽出方法、装置および記録媒体 |
JP2001056837A (ja) * | 1999-08-19 | 2001-02-27 | Ricoh Co Ltd | 文書認識方法および記録媒体 |
JP2007233913A (ja) * | 2006-03-03 | 2007-09-13 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
JP2008059157A (ja) * | 2006-08-30 | 2008-03-13 | Fuji Xerox Co Ltd | 書類確認支援システム、書類確認支援装置およびプログラム |
JP2008186256A (ja) * | 2007-01-30 | 2008-08-14 | Canon Inc | 文書処理装置、文書処理方法、コンピュータプログラム |
-
2008
- 2008-10-27 JP JP2008276101A patent/JP5271667B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010102668A (ja) | 2010-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5271667B2 (ja) | メタデータ抽出装置およびその方法 | |
JP4973063B2 (ja) | 表データ処理方法及び装置 | |
JP4444867B2 (ja) | 業務プロセスモデル作成支援システムおよびプログラム,ならびに業務プロセスモデル作成処理方法 | |
JP4998220B2 (ja) | 帳票データ抽出プログラム、帳票データ抽出装置および帳票データ抽出方法 | |
JP5424798B2 (ja) | メタデータ設定方法及びメタデータ設定システム、並びにプログラム | |
US10762377B2 (en) | Floating form processing based on topological structures of documents | |
US8086950B2 (en) | Method and system for enhancing engineering information | |
US20140019852A1 (en) | Document association device, document association method, and non-transitory computer readable medium | |
JP2013164740A (ja) | 会計情報読取りシステム、会計情報読取り方法、及びプログラム | |
JP6623754B2 (ja) | 表形式データ処理プログラム、方法及び装置 | |
Cui et al. | A mixed-initiative approach to reusing infographic charts | |
KR100874339B1 (ko) | 공간연계db를 이용한 cad뷰어 검색방법. | |
JP2016192223A (ja) | 会計情報読取りシステム及びプログラム | |
JP4983464B2 (ja) | 帳票画像処理装置及び帳票画像処理プログラム | |
JP2007279978A (ja) | 文書検索装置及び文書検索方法 | |
CN115935915A (zh) | 文档处理方法、计算机设备、存储介质 | |
JP6764176B1 (ja) | 案件管理装置、案件管理プログラム及び案件管理方法 | |
US11657221B2 (en) | Display editing apparatus, server apparatus, display editing system, and non-transitory computer readable medium storing program | |
JP7377565B2 (ja) | 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム | |
JP2010026766A (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20140156593A1 (en) | Information processing apparatus, information processing method, and program | |
JP6149697B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6322291B2 (ja) | 文書処理装置および項目抽出方法 | |
JP2010271910A (ja) | リポジトリ管理サーバ | |
KR20080007770A (ko) | 블로그 콘텐츠 게재 처리 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130513 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |