JP4970714B2

JP4970714B2 - 指定されたドキュメント・エリアからのメタデータの抽出

Info

Publication number: JP4970714B2
Application number: JP2004234713A
Authority: JP
Inventors: エフヤーヘルヨードキュス
Original assignee: オセ−テクノロジーズビーブイ
Priority date: 2003-08-20
Filing date: 2004-08-11
Publication date: 2012-07-11
Anticipated expiration: 2024-08-11
Also published as: EP1510962A1; CN100382096C; EP1510962B1; DE602004006682T2; US20050041860A1; ATE363700T1; CN100476859C; US7756332B2; CN1839396A; JP2012053911A; DE602004006682D1; CN1604120A; JP2005071349A

Description

本発明は、ピクチャエレメントの輝度及び／又は色を表す値を持つピクセルから成るドキュメント画像からメタデータを抽出する方法及び装置に関する。

本発明は、更に、コンピュータ・プログラム製品にも関する。

多数のディジタル・ドキュメントが処理される環境においては、以後の取り扱いを容易にするためにドキュメントに関連付けることができる記述データを生成する必要がある場合が多い。「メタデータ」とも呼ばれるこのような記述データは、そのドキュメントを表すあらゆるデータ、例えば、タイトル、著者、文書種類、キーワード、内容の要約、などを含む。

メタデータは、例えば、データベースに格納されたドキュメントを検索する際の入力として用いることができる。さらに、メタデータは、スキャン用途などの多くの状況において、ファイル名を生成するのにも用いることができる。

メタデータは、例えば、ドキュメントを読んで、それを２〜３の意味ある単語で記述する人間のオペレータによって創作される。これは、洗練されてはいるが、非常に時間の掛かるメタデータ生成法である。しかし、多くの場合、使用できるメタデータは、既にドキュメント自体に含まれている。例えば、タイトルや著者などである。これらのうちの１つを記述トークンとして用いることは、多くの場合、完全に受け入れ得るものであると思われる。

ドキュメントが、ＭＳ−Ｗｏｒｄ（登録商標）ドキュメントなどのようにディジタルでエンコードされた形式のとき、ドキュメントをスキャンして予めプログラムされたキーワードを抽出する専用プログラムによって、それらのドキュメントに自動的にインデックスを付けることができる。しかし、画像として利用可能なドキュメント、すなわち黒い（色付きの）ピクセルと白いピクセルとから構成されたドキュメントは、まずＯＣＲによってディジタルにエンコードされた形式に変換しなければならない。この処理は、大きな演算能力を必要とすると共に、依然として常に適正に機能するものではない。また、インデックス付けプログラムは、１つのドキュメントを処理するのにかなり時間が掛かる。

特許文書などの非常に構造化されたドキュメントについて、ドキュメント画像を自動的に解釈することが知られている。このようなドキュメントは、予め厳格に定められた形式を有し、コンピュータをそのドキュメント画像の特に所定の情報項目を見つけ処理するようにプログラムすることができる。しかし、自由な形式のドキュメントは、このように処理することができない。

人間のオペレータは、ドキュメント画像全体を見て関連する項目を見つけることが容易にできるという利点を有する。したがって、オペレータにドキュメント画像中のメタデータを選択させ、それらをコンピュータ・システムに自動的に抽出させ、そのドキュメントに関連付けさせるのが有益的であろう。

ドキュメントからメタデータを抽出する方法及び装置は、ＥＰ１１３６９３８から知られている。ドキュメントは、最初に、コンピュータに接続されたスキャナを用いてスキャンされ、ピクセル画像が生成される。上記従来技術におけるこのスキャンされたドキュメントは、メタデータを表すテキスト列が該テキスト列を枠線で囲むボックスの中に配置される構造のレイアウトを有する。特に、技術的な図面は、タイトル、日付、版などのメタデータを含む上記のようなボックスを有する。ユーザは、コンピュータのポインティング部を操作して、複数のドキュメントの少なくとも１つのボックスにおける任意の点を指定する。ユーザが点を指定すると、その点を含むボックスが周囲の線を検出することによって識別される。次いで、そのボックス内の文字が光学式文字認識（ＯＣＲ）によって認識されてメタデータが取り出され、コンピュータに接続されたデータベースに記憶される。これにより、上記のようにスキャンされたドキュメントにインデックスを付けることができる。よって、メタデータのボックス構造は、メタデータを識別するためのものと考えられる。この既知の方法の問題点は、メタデータ・テキスト列を含むボックス構造を有するドキュメントからしかメタデータを抽出できない点である。

ＥＰ１２５６９００に開示されているディジタル・ドキュメントをデータベースへ入力し、検索のためにメタデータを抽出する別の既知のシステムでは、オペレータがマウスなどを用いて、画像中のメタデータ項目の周りに「枠」を描かなければならない。次いで、そのシステムは、ＯＣＲにより、その枠内のビットマップ画像情報をテキスト形式に変換する。この開示において、オペレータは、抽出エリアを指定するが、これには慎重な操作が必要とされる。それでも、不正確なマウスの動きにより誤りが容易に生じ得るものである。

本発明の目的は、ボックス構造又は外見上規定されたエリア・デリミタ内にメタデータが含まれることを必要とせずに、ドキュメントからメタデータを抽出する方法及び装置を提供することである。

本発明の第一の態様によれば、上記目的は、冒頭段落記載の方法であって、上記画像の少なくとも１つをユーザに対してディスプレイ画面上に表示する工程と、該画像のメタデータ要素中の選択点を指定することを含む選択コマンドをユーザから受信する工程と、前景特性を有する値を持つピクセルを前掲ピクセルとして自動的に分類する工程と、上記選択点により指定された前景ピクセルに接続距離に関して接続された前景ピクセルに基づいて上記画像内に抽出エリアを自動的に決定する工程と、該抽出エリアのピクセルを処理することによって上記メタデータを抽出する工程と、を有する方法により実現される。

本発明の第二の態様によれば、上記目的は、冒頭段落記載の装置であって、上記画像を受信する入力手段と、該画像の少なくとも１つをユーザに対して表示するディスプレイと、上記画像のメタデータ要素中の選択点を含む選択コマンドをユーザから受信するインターフェース手段と、処理装置とを有し、該処理装置が、前景特性を有する値を持つピクセルを前掲ピクセルとして分類し、上記選択点により指定された前景ピクセルに接続距離に関して接続された前景ピクセルに基づいて上記画像内に上記抽出エリアを決定し、該抽出エリアのピクセルを処理することによって上記メタデータを抽出する、装置により実現される。

本発明の第三の態様によれば、上記目的は、上記方法をプロセッサに実行させるコンピュータ・プロセッサ製品により実現される。

タッチスクリーンやマウスなどのユーザ・インターフェースを通じて、ユーザは、抽出したいメタデータ要素中の選択点を指定する。選択点の指定により、最初の前景ピクセルが見つかる。すなわち、最初の前景ピクセルは、選択点の位置に対応するか、或いは、選択点がメタデータ要素内の背景ピクセル上であれば選択点の近くに存在する。次いで、指定された最初の前景ピクセルからスタートし、前景ピクセルをその最初の前景ピクセルにつなげることによって、メタデータ要素に対応する抽出エリアが構築される。重要でない背景ピクセルを無視し、文字間隔に関わらず全単語が抽出エリアに確実に含まれるように、接続距離という概念が導入される。

次いで、抽出エリアは、接続された領域に基づいて決定される。抽出エリアの利点は、通常はテキスト要素であるメタデータ要素自体にのみ基づいて決定されるという点である。本メタデータ抽出プロセスをガイドするのにテキストを囲むボックスなど画像中の所定の構造は一切必要でない。

上記方法の一実施形態において、上記抽出エリアを決定する工程は、接続領域を自動的に生成するサブ工程を有し、上記接続領域は、上記選択点により指定された上記ピクセルを含ませ、上記接続領域に含まれる他の前景ピクセルから上記接続距離内にある別の前景ピクセルを徐々に含ませ、そして、上記接続領域を完全に囲むエリアに上記抽出エリアをセットする、ことにより生成される。これは、接続距離に基づいて接続領域を広げることによって、確実且つ簡易に抽出領域についての推定を演算することができるという利点を有する。抽出エリアは、通常、平行な辺を有するが、長方形である必要はないことに注意して頂きたい。テキスト・ドキュメントにおいて、長方形という形状が最も現実的であるが、比較的大きいテキスト群においては、抽出エリアの形状を調整することができる。記号やグラフィクの要素に対して、異なる形状の抽出エリアを用いることができる。

上記方法の一実施形態において、接続領域を生成するサブ工程は、接続方向に応じて上記接続距離をセットするサブ工程を有し、上記接続方向は、特に、水平方向、垂直方向、又は、仮定の読み方向である。接続距離を一文の中の１以上の単語内の文字などの予想されるメタデータ要素間の距離を埋める値にセットすることによって、抽出エリアはユーザが指定しようとしたものと思われるメタデータ要素をカバーしていることになる。読む方向を仮定する又は求めることによって、本方法は、ユーザが比較的大きなテキスト・セクションのテキスト群の先頭を容易に指定できるようにする。なぜなら、拡張により、テキスト要素が該読む方向につながるからである。

上記方法の別の一実施形態においては、上記入力されたドキュメント画像が低解像度に変換され、上記ピクセルを分類する工程及び抽出エリアを決定する工程が上記低解像度画像に対して実行される。これは、適度な解像度の低減は通常上記方法の精度を落とさず、必要とされる演算能力が減るという利点を有する。

上記方法の一実施形態において、上記抽出エリアを決定する工程は該抽出エリアの候補を表示するサブ工程を有する。これは、ユーザが計算された抽出エリアの視覚的フィードバックを得られるという利点を有する。

別の実施形態において、上記方法は、更に、上記選択コマンドに対する補足を受信する工程を有し、ここで上記補足は上記接続距離を調整するためのものである。これは、ユーザが容易に抽出エリアの候補を承認、拒否、又は変更することができるという利点を有する。

別の一実施形態において、上記方法は、更に、上記選択コマンドに対する補足に応じて上記接続距離を自動的に調整する工程を有し、ここで上記選択コマンドに対する補足はユーザにより指定された別の選択点を含む。ユーザは、接続されるべき別の選択点を指定することによって、接続距離を制御する。これは、ユーザが直感的に抽出エリアを必要なサイズへ拡張できるという利点を有する。

更に別の一実施形態において、上記方法は、更に、上記選択コマンドに対する補足を通じて受信された選択方向に応じて上記接続距離を自動的に調整する工程を有し、ここで該選択距離はユーザが選択アイテムを上記ディスプレイ画面上でドラッグすることによって定義される。ユーザは、マウスにより制御されるカーソルなどのポインタをドラッグすることによって、接続距離を制御する。これは、ユーザが直感的に抽出エリアを必要なサイズへ拡張できるという利点を有する。

上記方法の更に別の一実施形態において、上記抽出エリアを決定する工程は、更に、該抽出エリアの候補をユーザ・コマンドに応じて調整するサブ工程を有する。これは、ユーザがメタデータ要素を容易に選択することができるという利点を有する。例えば、抽出エリアの形状を調整するサブ工程は、上記抽出エリアの候補の特に辺及び／又は角に制御可能な要素を提供するサブ工程と、上記制御可能要素の１つを動かす指定手段からドラッグ・コマンドを上記補足として受信するサブ工程とを有する。これら制御可能要素を動かすことによって、ユーザは容易に抽出エリアの形状を調整することができる。別の方法として、上記抽出エリアの候補を調整するサブ工程は、マウスボタンのクリックやマウスホイールの操作などの補助的なユーザ制御イベントを通じて上記抽出エリアのサイズを増減するサブ工程を有する。クリックすることによって、例えば接続距離が増えて上記サイズが所定量大きくなり、より大きな抽出エリアが表示される。マウスホイールなどの連続的制御機構により、このサイズを徐々に変えることができる。テキスト・ドキュメントにおいて接続距離を調整することによって、抽出エリアのサイズが例えば一単語を含むサイズから一文又は一段落を含むサイズまで視覚的に増大する。

上記方法の一実施形態において、上記選択コマンドは、上記選択コマンドに対する補足を含み、ここで上記補足は上記抽出されたメタデータにメタデータ種類を割り当てるためのものである。これは、ユーザが割り当てられるメタデータ種類を直接的に制御できるという利点を有する。ユーザがこのような補助的コマンドを与えることができるようにする良好な方法は、ユーザがメタデータ種類を選択するための少なくとも１つの制御アイテム、特にボタン又はドロップダウン・メニュを表示することである。

別の方法として、本システムは、様々なメタデータ種類を所定の順序で入力し、使用速度を上げるように仮定又は強制されてもよい。本システムは、ユーザのプリファレンスから入力順序を学習することができる。

上記方法の一実施形態において、上記抽出されたメタデータ及び割り当てられた種類はドキュメントに関するインデックス・データとしてデータベースに入力される。これは、抽出されたメタデータに基づいてそのデータベースからドキュメントを取り出すことができるという利点を有する。

一実施形態において、上記方法は、テキスト文字列をメタデータとして抽出する工程と、上記テキスト文字列を割り当てて上記画像を含むファイルのファイル名又は電子メール・メッセージの件名を構築する工程とを更に有する。元々、スキャン中には、例えばシーケンス番号などのファイル名が自動的に割り当てられるか、或いは、手動での入力が要求されていた。メタデータを使うことにより、ドキュメント自体に関連する名前が生成される。メタデータに基づくファイル名は、ファイルの検索を容易にする。また、スキャンされたファイルは、例えば添付ファイルとして、電子メールで送信されてもよい。本発明に係るメタデータ抽出プロセスは、内容が容易に認識されるように電子メール・メッセージの「件名」を生成するのに良好に用いることができる。

本明細書において、「ドキュメント画像」とは、複数枚の実物のドキュメント・ページのそれぞれについての複数の画像を含むものとして理解することができる。概して、ディスプレイ上に示されるドキュメントの一部は、最初のページの画像である。なぜなら、通常、最初のページはメタデータ抽出に最も関連ある情報を含んでいるからである。しかしながら、本発明者らは、本装置にドキュメント画像全体を、すなわち複数の実際のドキュメント・ページの画像全体を閲覧するブラウジング機能を設けることを考えている。

さらに、本発明に係る装置の好ましい実施形態が別の請求項に記載されている。

本発明の上記及び他の態様は、以下に説明に一例が記載された実施形態及び添付図面を参照することによって更に明らかにされる。図面は、略図であり、縮尺は合っていない。図面において、既に説明された要素に対応する要素は同じ参照符号を有する。

図１は、スキャンされたドキュメント画像と、メタデータ抽出エリアとを示す。ドキュメント１３は、スキャンされて、ピクセル画像が生成されている。これらピクセル（ピクチャエレメントの略）は、ドキュメントの数値的表現であり、ピクチャエレメントの輝度及び／又は色を表す値を有する。ユーザ双方向的にメタデータを決定してもらうために、画像の一部はディスプレイ１２（概略的に図示される）上に示される。ドキュメントの画像ファイルは、そのドキュメントの各ページごとに別々の画像を含んでいる場合もある。通常は第１頁であるタイトル・ページは、タイトル、文書種類、著者、発行日などのそのドキュメントの内容についての関連情報を含む。このような情報をここではメタデータと呼ぶ。ユーザは、例えばスクロールするなどその画像又は画像ファイルの関連する部分を示すようにディスプレイを操作することが可能であってもよい。あるいは、ディスプレイが、１ページのドキュメントの全体を示すことが可能であってもよい。

メタデータ要素の一例は、文書種類の一部であるドキュメント番号１１である。メタデータ要素は、ドキュメント番号１１のような一単語でもあってもよく、１行以上のテキストであってもよい。例えば、図示する要約（Ａｂｓｔｒａｃｔ）は約６行のテキストを含む。

ディスプレイ１２上には、ドキュメント番号１１を含む文書種類の周りに抽出エリア１４が示されている。この抽出エリアは、メタデータを見つけて認識する処理装置によって用いられる画像エリアである。通常、メタデータはテキストであり、抽出エリアは、光学式文字認識（ＯＣＲ）として一般的に知られた文字・単語認識のために分析される。また、メタデータは、メタデータとして用いられるものとして分類することができるシンボルやロゴなどの特定のピクチャエレメントであってもよい。

抽出エリアを構築するために、ユーザは、まず、関連があると考えるメタデータ要素（例えば、ドキュメント番号１１）内の選択点を指定する。選択点を指定することは、選択コマンドの第一歩である。選択点を指定するために、ディスプレイは、タッチスクリーンなどの感応式スクリーン上に収容されてもよい。その場合、ユーザは、指で又は専用のポインティング・スティックを用いて、選択点を指定することができる。あるいは、ディスプレイは、マウスやトラックボールなどによりユーザが制御するカーソルを表示してもよい。その場合、選択点は、カーソルを位置決めして、マウスクリックなどによりボタンをアクティブにすることによって、指定される。

次いで、処理装置は、選択点近くのピクセルを分析し、後に詳述するようにメタデータ要素の一部であるピクセルを見つける。ピクセルは、前景特性を有する値に基づいて、前景ピクセルとして分類される。該値は、通常、白色背景ドキュメント上で黒を表す。カラー画像では、前景特性は、例えば、特定の色（例えば、選択点により指定されたピクセルの色から双方向的に決定された色や、背景色とは異なる色、など）を表す値である。前景ピクセルと背景ピクセルとを区別する方法は、本分野では良く知られている。例えば、ＥＰ１１８２６０５Ａ参照。

選択点の指定により、最初の前景ピクセルが見つかる。すなわち、最初の前景ピクセルは、選択点の位置に対応するか、或いは、選択点がメタデータ要素内の背景ピクセル上であれば選択点の近くに存在する。選択点が前景点から所定距離内の背景ピクセル上であった場合、システムは、例えば、目的とするメタデータ要素を構成するピクセルを見つけるために、指定されたピクセルを前景ピクセルと考えることができる、すなわち、ユーザによって指定されたという事実により、その選択点を前景ピクセルとして（再）分類する。別の方法として、システムは、最も近い前景ピクセルを選択点としてもよい。選択点が前景点から遠い背景ピクセル上であった場合、システムは、例えば、このコマンドを現在選択されているメタデータ・エリアをキャンサセルするコマンドと考えることができる。

最初の前景ピクセルに基づいて、ピクセル領域が検出されて、メタデータの一部として考えられる。抽出エリアは、この領域の周囲に描かれ、ユーザに表示される。メタデータは、抽出エリア内のピクセルを処理することによって、抽出される。

一実施形態として、メタデータは１種類のみが検出される。例えば、スキャンされたドキュメントのファイル名を構成するテキストなどである。このファイル名は、ユーザが選択点を指定した後、自動的に生成されてもよい。あるいは、認識されたメタデータ及び／又はファイル名候補がユーザに表示され、そのメタデータを最終的に受け入れることについて確認のコマンドが要求されてもよい。

図２は、ドキュメントを処理し、メタデータを抽出する装置を示す。この装置は、ディジタル画像を入力する入力装置２１を有する。この入力装置は、電気光学スキャナなどの実物のドキュメントから画像をスキャンするスキャン装置を有してもよく、及び／又は、ローカル・エリア・ネットワーク（ＬＡＮ）やインターネットなどのネットワークから画像を受信するディジタル通信装置を有してもよく、及び／又は、光ディスク・ドライブなどの記録キャリアからディジタル情報を取り出す再生装置を有してもよい。入力装置２１は、ストレージ装置２２と協働する処理装置２４に接続される。ストレージ装置は、例えば、磁気テープや光ディスクなどの記録キャリア上の画像及び／又はメタデータを格納する記憶装置を有する。処理装置は、例えば、汎用コンピュータ中央演算装置（ＣＰＵ）と、上述のようなメタデータ抽出を実行するソフトウェアを用いて作動するサポート回路とを有する。処理装置は、少なくとも画像上の選択点を指定するポインティング装置を備えたユーザ・インターフェース２５に接続される。このユーザ・インターフェースは、例えば、キーボード、マウス装置、又はオペレータ・ボタンなどの制御手段を有する。処理装置は、ディスプレイ装置２３へ接続される。ディスプレイ装置は、図１と共に既に述べたように、画像及び抽出エリアを表示するディスプレイ画面を有する。特に、ディスプレイ装置及びポインティング装置は、指を使って表示された画像のメタデータ要素をポインティングして選択点を指定するユーザに感応するタッチスクリーンとして実現されてもよい。処理装置は、処理された画像又はメタデータを紙上に出力する印刷装置に接続されてもよい。抽出されたメタデータは、例えば、ストレージ装置２２内の或いは別のコンピュータ・システム内のデータベースに画像と共に記憶される。

本装置は、標準的なコンピュータ・ハードウェア部品と上述のようなメタデータ抽出処理を実行するコンピュータ・プログラムとを用いて構築することが可能である点に注意して頂きたい。別の方法として、本装置は、スキャン装置、処理装置、及びディスプレイを含むメタデータ抽出に適合した専用のハードウェア装置であってもよい。さらに、スキャン処理は、双方向処理であるメタデータ抽出から切り離されてもよい。例えば、郵便受け室（ｍａｉｌｒｅｃｅｉｖｉｎｇｒｏｏｍ）のスキャン装置が、ＬＡＮ経由で、ディスプレイ及びオペレータを有するインデックス付けロケーションに接続されてもよい。

図３は、メタデータを抽出する方法を示す。最初の工程Ｓ３１においては、画像が、ピクセル値からなるディジタル・ファイルとして、例えばスキャン装置から受信される。この工程は、コントラストの強調、画像全体の統計データに基づく前景特性及び／又は背景特性の決定、画像の回転などの、画像についての所定の知識又は検出された特性に基づく更なる画像処理を行ってもよい。また、この工程は、後述する工程３４の画像分析において用いられるより低解像度の追加的入力画像を準備することを含んでもよい。スキャンされた画像はかなり高い解像度を持っているため、解像度を適度に（例えば１／２〜１／４に）下げることは、通常、分析に悪影響を与えず、同時に、必要とされる演算能力を低減する。元の高解像度入力画像は、依然として、表示及びデータ抽出に用いられる。

次の工程Ｓ３２において、画像は、ディスプレイ上にて、ユーザに示される。この工程は、画像の関連部分を見つけ表示する、例えば広い白色エリアから始まるページから、テキストの１行目を有する部分を見つけ表示する、ことを含む。次の工程Ｓ３３では、画像中、特にメタデータ要素中から選択点を指定するユーザ・アクションが期待される。図中の待機ループＬ３３は、本システムがユーザ・アクションを待機することを示している。

次の工程Ｓ３４において、選択点周りのピクセルを分析し、接続レンジ（図４と共に後述する）内に存在する前景ピクセルを見つける。次の工程Ｓ３５では、この接続されたエリアをカバーする抽出エリアが表示される。この抽出エリアは、例えば、接続された領域、強調されたエリア、又は他の適切な表示部位だけを含む長方形のエリアとして示される。また、この抽出エリアは、メタデータの種類に応じて、例えば、図６を参照して説明するより大きいテキスト群における単語の境界線であってもよい。

ユーザは、例えば、カーソルが所望のメタデータ要素上に位置するときにマウスのボタンをクリックすることによって、又は、タッチスクリーンを指で押すことによって、積極的に選択点を入力できることに注意して頂きたい。しかし、本システムは、ユーザがポインタ要素（例えばカーソルなど）を前景オブジェクトの近くにもってきたとき直ちに又は（短い）所定時間経過後に、抽出エリアの候補を自動的に表示するようにしてもよい。この自動モードでは、工程Ｓ３３、Ｓ３４、及びＳ３５は統合される。また、この場合、カーソルが自動モードを示す特定の記号として示されてもよい。例えば、小さな長方形をカーソルの記号に付加するなど。ユーザは、抽出エリアの候補の視覚的フィードバックに基づいて、選択点を決定することができる。

表示された抽出エリアに基づいて、ユーザは、その抽出エリアが該ユーザが意図したメタデータ要素をカバーしていることを確認することができる。次の工程Ｓ３６において、ユーザは、例えば、マウス・コマンドによって、或いは、次のドキュメントを入力することによって暗示的に、表示された抽出エリアを承認する。

また、ユーザは、ループＬ３６で示すように、図５又は６を用いて説明する抽出エリアの候補を調整することもできる。例えば、ユーザは、抽出エリアに含まれるべき第二の点を指定してもよく、或いは、ユーザはポインティング要素を選択点から該ユーザが抽出エリアを広げたい方向へドラッグすることによって抽出エリアの候補の拡張を指定してもよい。ディスプレイは、この調整に応じて、最終的なエリアを示す。

次の工程Ｓ３７において、最終的に承認された抽出エリアが処理され、ＯＣＲにより単語などのメタデータ要素が検出・認識される。この結果は、例えば、ディスプレイ上のテキスト・フィールドに示される。工程Ｓ３７は、例えば「タイトル」、「著者」、「要約」などの割り当てられる特定のメタデータ種類をユーザが指定した選択コマンドへの補足を受信することを含んでもよい。例えば、ユーザは、特定のボタンをアクティブにして、メタデータをそのドキュメントのタイトルとして抽出エリアに入力してもよい。

図４Ａ、４Ｂ、及び４Ｃは、選択点から領域を広げる様子を示す。ユーザが画像中に選択点を指定すると、以下のように領域が形成される。選択点は、前景ピクセルの先頭とされる。選択点が背景ピクセル上にあるが、ある前景ピクセルから所定距離内にある場合、その前景ピクセルを先頭ピクセルとして用いることができる。

図４Ａは、接続距離を１ピクセルとして広げられた領域を示す。画像４１の細部を４段階の領域拡大段階として示す。各ピクセルは白（背景）又はグレー（前景）として図示されている。ユーザは、黒丸で示す選択点４０を指定する。領域拡大は、選択点４０に対応するピクセルからスタートする。図示するように、最初の開始領域４２は１ピクセルでしかない。ここでは、拡大のための接続距離を１ピクセルとする。すなわち、前景ピクセルの間に背景ピクセルが入ることが許されないものとする。第二の拡大段階では、すぐ隣りのピクセルを含むように下方へ拡張された第二の領域４３が図示されている。第三の拡大段階では、すぐ隣りのピクセルを含むように右へ拡張された第三の領域４４が図示されている。第四の拡大段階では、すぐ隣りのピクセルを含むように更に右へ拡張された第四の領域４５が図示されている。接続距離（＝１）の範囲内にこれ以上前景ピクセルは存在しないため、領域拡大は停止する。長方形のエリアは、拡大領域４２、４３、４４、及び４５の周りの破線として描かれていることに注意して頂きたい。このエリアは、背景ピクセルも含む。領域拡大プロセスが終了すると、描かれたエリアを抽出エリアの候補とすることができる。

図４Ｂは、接続距離を２ピクセルとした場合の領域拡大を示す。図４Ａと同じピクセルの画像が図示されている。接続距離が２ピクセルに増えたため、前景ピクセルの間に１つまで背景ピクセルが入ることが許容される。その結果、得られる長方形エリア４６は、２ピクセルの接続距離を有する前景ピクセルを含むことになる。ユーザは、この結果得られたエリアを承認してもよく、或いは、その長方形エリアでは小さ過ぎると判断してもよい。後者の場合、ユーザは、選択コマンドを補足する。これに加えて、ユーザは、画像の別の前景部分に第二の選択点４７を指定してもよい。これは、例えば、新しいロケーションをポインティングすることによって行われてもよく、或いは、選択点４６から第二の選択点４７までドラッグすることによって行われてもよい。選択コマンドに対する補足は、処理装置２４によって、第二の選択点４７を選択エリアに追加するのにちょうど適したより大きい接続距離へと変換される。これにより、選択エリアは、他の方向にも同様に拡大される。

一実施形態として、ユーザは、接続距離を増やすには、同じロケーションを繰り返しクリック又はポインティングするようにしてもよい。

図４Ｃは、接続距離を３ピクセルとして場合の領域拡大を示す。図４Ｂと同じピクセルの画像が図示されている。接続距離が３ピクセルに増えたため、前景ピクセルの間に２つまで背景ピクセルが入ることが許容される。その結果、得られる長方形エリア４８は、第二の選択点４７を含む。この領域拡大プロセスは実現された結果に対する調整として行われてもよく、或いは、学習機能を有してもよい、ことに注意して頂きたい。後者の場合、例えば、ユーザがたいていの場合に領域を拡張を必要とする場合、より大きい接続距離が用いられる。また、所定サイズ未満の接続領域が見つかった場合、本プロセスは、少なくとも該所定サイズが実現されるように自動的に接続距離を増やすようにしてもよい。

本領域拡大プロセスの別の一実施形態として、接続距離が方向ごとに異なってもよい。例えば、水平方向の接続距離が垂直方向の接続距離より大きくてもよい。これは、一般的なテキスト・ドキュメントについて、あるテキスト行を前後の行とつなげることなく、そのテキスト行における単語のつながりを確実にする。前処理工程として、例えば背景ピクセルのレイアウトを分析することによって、読む方向が決定されてもよい。その場合、接続距離は、その読む方向（例えば左から右）に基づいて決定されてもよい（例えば、選択点から右は接続距離を大きくするなど）。

本領域拡大プロセスの一実施形態として、接続距離は、選択コマンドへの補足を通じて受信された選択方向に応じて調整されてもよい。抽出エリアの候補がユーザに表示されると、ユーザは、抽出エリアが特定の方向に拡張されるべきであることに容易に気が付く。ユーザは、選択アイテム（カーソル又はタッチスクリーン上の指）を選択点からその選択方向へドラッグすることによって、その選択方向を指定することができる。接続距離の増分は第一の選択点からドラッグされた距離から導くことができる点に注意して頂きたい。

このような領域拡大に基づく抽出エリアへの制御に加えて、本装置は、更に別の抽出エリア調整機能を備えていてもよい。例えば、抽出エリアを選択する際に、選択コマンドへの補足を通じて以下のように抽出エリアの形状を調整することができる。

図５は、メタデータ抽出エリアを調整する様子を示す。当初、長方形の抽出エリア５０がユーザに表示されている。抽出エリアの形状は、抽出エリア候補の制御可能要素５２、５３により、変えることができる。ユーザは、これら制御可能要素のうちの１つを動かして、選択コマンドへ補足を与える。これら制御可能要素は、例えば抽出エリア５０の辺及び角に付加された小さい四角などの追加的な記号により、ユーザに表示される。ユーザは、例えば、抽出エリア５０の上辺をドラッグすることができる。その結果、抽出エリアは上方にだけ拡張される。制御可能角５３を操作することによって、対応する左辺及び下辺が動く。操作中、辺及び角の採り得る新しい位置を破線５１として表示することができる。エリアが最終的に選択されると、辺及び角の新しい位置が実線で示される。色や点滅などの他の視覚的要素もこれら制御機能を表示するのに用いることができることに注意して頂きたい。

一実施形態として、例えば専用の記号を操作することによって、４辺が同時に拡張又は減少できるものとしてもよい。抽出エリアの形状は、マウスボタンのクリックなどの補助的なユーザ制御イベントを通じて抽出エリアのサイズを増減することによって調整することができる。

図６は、長方形でない抽出エリアの形状を調整する様子を示す。テキスト群の一部を選択するように構成された抽出エリア６０が図示されている。この選択は、行半ばのある単語からスタートし、別の行の半ばで終わっている。このテキストはコラム・レイアウトであるものとする。垂直辺は容易に検出できるため、ユーザですら制御できない。底辺６１は、２つの水平部分と、１つの中間垂直部分とを有する。底辺６１は、破線で示される新しい位置６２へドラッグすることができる。特に、中間垂直部分は、テキスト行の中でメタデータに含まれるべき最後の単語の後ろの位置へドラッグすることができる。抽出エリアを最終的にセットすると、メタデータが抽出され、ＯＣＲ（光学式文字認識）によって処理される。ユーザは、例えば、ボタンを操作することによって、或いは、後述する図７に示すようなメニュ・オプションを選択することによって、メタデータの種類を割り当てることができる。抽出されたメタデータ及び割り当てられた種類は、データベースに入力される。これらは、そのデータベースにおいて、ドキュメントにインデックスを付けるのに及び／又はドキュメントを認識するのに用いることができる。

一実施形態として、抽出エリアのセット及びメタデータの抽出は、スキャンされたドキュメントに付加するファイル名を決定するのに用いられる。抽出エリアは、例えば長さの上限・下限などのファイル名の要件を用いて提案されてもよい。抽出プロセスは、例えば禁則文字の削除や重複ファイル名の回避などのファイル名決定規則に準拠するように、テキスト文字列を調整することを含んでもよい。さらに、日付や時刻などの識別データが付加されてもよい。スキャンしたドキュメントは、構築されたファイル名を用いて自動的に格納することができる。

図７は、画像、抽出エリア、及びメニュの表示を示す。スキャンされたドキュメントの画像７０がユーザに表示される。抽出エリア７１が選択されている。特に、「要約（ＡＢＳＴＲＡＣＴ）」とみなされたテキスト群が抽出エリア７１によって囲まれている。ユーザは、この抽出エリアを承認し、今、制御項目（例えば、マウスの右ボタンをクリックすることによって起動するドロップダウン・メニュ７２）が表示されている。このメニュは、選択をキャンセルすることなどの他のコマンドに加えて割り当てることが可能な複数種類のメタデータを提供する。また、ショートカット・コマンドが、キーボードの「コントロール（Ｃｔｒｌ）」キーを用いることによって提供されてもよい。メタデータ種類を選択すると、メタデータ抽出の双方向プロセスが終了する。以降、メタデータは、別の処理（例えば、データベースへ格納する、など）に利用することができるようにする。

本発明をディジタル画像のメタデータを表すテキスト要素を用いた実施形態により主として説明してきたが、本発明は、記号、ロゴ、又は、人物画などの分類可能な他のピクチャエレメントなどのメタデータ上方のあらゆる表現にも適している。本明細書において「有する（ｃｏｍｐｒｉｓｉｎｇ）」という動詞及びその活用形は列挙された以外の要素又は工程の存在を排除しないこと、要素に先行する「１つの（ａ／ａｎ）」という語はその要素が複数個存在することを排除しないこと、あらゆる参照符号は請求項の範囲を限定しないこと、及び、本発明及び記載されたすべての装置又は方法は適切なハードウェア及び／又はソフトウェアによって実現可能であること、及び、複数の「手段」又は「装置」は同じアイテムによって表現できること、に注意して頂きたい。さらに、本発明の範囲は実施形態によって限定されず、本発明は、上記の１つ１つの新規な特徴又はその組み合わせに存在する。

スキャンされたドキュメント画像及びメタデータ抽出エリアを示す図である。ドキュメントを処理し、メタデータを抽出する装置を示す図である。メタデータを抽出する方法を示す図である。接続距離を１ピクセルとして広げられた領域を示す図である。接続距離を２ピクセルとして広げられた領域を示す図である。接続距離を３ピクセルとして広げられた領域を示す図である。メタデータ抽出エリアを調整する様子を示す図である。長方形でない抽出エリア形状を調整する様子を示す図である。画像、抽出エリア、及びメニュの表示を示す図である。

符号の説明

１３ドキュメント
１２ディスプレイ
１１ドキュメント番号
１４、５０、６０、７１抽出エリア
２１入力装置
２２ストレージ装置
２３ディスプレイ装置
２４処理装置
２５ユーザ・インターフェース
４０選択点
４１、７０画像
４２、４３、４４、４５領域
４６、４８長方形エリア
４７第二の選択点
５２制御可能辺
５３制御可能角
６１底辺
７２ドロップダウン・メニュ

Claims

ピクチャエレメントの輝度及び／又は色を表す値を有し、前景特性を有する前景ピクセルを含むピクセルから成るドキュメント画像からメタデータを抽出する方法であって、
前記画像の少なくとも一部をユーザに対してディスプレイ画面上に表示する工程と、
前記画像の一領域であってメタデータを含む領域を選択する選択コマンドをユーザから受け取る工程と、
前記ユーザからの前記選択コマンドに基づいて前記画像内に抽出エリアを決定する工程と、
前記抽出エリアのピクセルを処理することによって前記メタデータを抽出する工程と、を有し、
前記画像内に抽出エリアを決定する工程は、前景ピクセルの接続領域として前記抽出エリアを生成するサブ工程を有し、前記生成は、
前記ユーザによる前記選択コマンドの一部として、表示された前記画像の一部に示された一選択点から始めて、前記接続領域に含まれる少なくとも１つの前景ピクセルから所定の接続距離内にあるすべての前景ピクセルを徐々に含ませる工程で行われる
ことを特徴とする方法。
請求項１記載の方法であって、
前記接続距離は、接続方向に応じてセットされ、
前記接続方向は、水平方向、垂直方向、又は、仮定の読み方向である、ことを特徴とする方法。
請求項１または２に記載の方法であって、
前記入力されたドキュメント画像は、低解像度に変換され、
前記ピクセルを分類する工程及び抽出エリアを決定する工程は、前記低解像度画像に対して実行される、ことを特徴とする方法。
請求項１乃至３のいずれか一項記載の方法であって、
前記抽出エリアを決定する工程は、該抽出エリアの候補を表示するサブ工程を有する、ことを特徴とする方法。
請求項１記載の方法であって、
前記選択コマンドに対する補足を受け取る工程を更に有し、
前記補足は、前記接続距離を調整するためのものである、ことを特徴とする方法。
請求項５記載の方法であって、
前記選択コマンドに対する補足に応じて前記接続距離を自動的に調整する工程を更に有し、
前記選択コマンドに対する補足は、ユーザが別の選択点を指定するものである、ことを特徴とする方法。
請求項６記載の方法であって、
前記選択コマンドに対する補足を通じて受け取った選択方向に応じて前記接続距離を自動的に調整する工程を更に有し、
前記選択距離はユーザが選択アイテムを前記ディスプレイ画面上でドラッグすることによって定義される、ことを特徴とする方法。
請求項４記載の方法であって、
前記抽出エリアを決定する工程は、更に、前記抽出エリアの候補をユーザ・コマンドに応じて調整するサブ工程を有する、ことを特徴とする方法。
請求項８記載の方法であって、
前記抽出エリアの候補の辺及び／又は角である制御可能な要素を提供する工程を更に有し、
前記ユーザ・コマンドは前記制御可能要素の１つを動かすことを含む、ことを特徴とする方法。
請求項８記載の方法であって、
前記抽出エリアの候補を調整するサブ工程は、マウスボタンのクリック又はマウスホイールの操作である補助的なユーザ制御イベントを通じて前記抽出エリアのサイズを増減するサブ工程を有する、ことを特徴とする方法。
請求項１記載の方法であって、
前記選択コマンドは、前記選択コマンドに対する補足を含み、
前記補足は、前記抽出されたメタデータにメタデータ種類を割り当てるためのものである、ことを特徴とする方法。
請求項１１記載の方法であって、
前記抽出されたメタデータ及び割り当てられた種類は、ドキュメントに関するインデックス・データとしてデータベースに入力される、ことを特徴とする方法。
請求項１記載の方法であって、
テキスト文字列をメタデータとして抽出する工程と、
前記テキスト文字列を割り当てて前記画像を含むファイルのファイル名又は電子メール・メッセージの件名を構築する工程とを更に有する、ことを特徴とする方法。
ピクセルから成るドキュメント画像からメタデータを抽出するコンピュータ・プログラムであって、
請求項１乃至１３のいずれか一項記載の方法をプロセッサに実行させることを特徴とするコンピュータ・プログラム。
ピクチャエレメントの輝度及び／又は色を表す値を有し、前景特性を有する前景ピクセルを含むピクセルから成るドキュメント画像からメタデータを抽出する装置であって、
前記画像を受け取る入力手段と、
前記画像の少なくとも一部をユーザに対して表示するディスプレイと、
前記画像の一領域であってメタデータを含む領域を選択する選択コマンドをユーザから受け取るユーザ・インターフェースと、
処理装置とを有し、
前記処理装置は、
前記ユーザからの前記選択コマンドに基づいて前記画像内に抽出エリアを決定し、
前記抽出エリアのピクセルを処理することによって前記メタデータを抽出し、
前記処理装置は、前景ピクセルの接続領域として前記抽出エリアを生成するように構成され、前記生成を、
前記ユーザによる前記選択コマンドの一部として、表示された前記画像の一部に示された一選択点から始めて、前記接続領域に含まれる少なくとも１つの前景ピクセルから所定の接続距離内にあるすべての前景ピクセルを徐々に含ませて行う
ことを特徴とする装置。
請求項１５記載の装置であって、
前記処理装置は、前記接続距離を接続方向に応じてセットするように設計され、
前記接続方向は、水平方向、垂直方向、又は、仮定の読み方向である、ことを特徴とする装置。
請求項１５又は１６に記載の装置であって、
前記処理装置は、
前記入力されたドキュメント画像を低解像度に変換し、
前記ピクセルの分類及抽出エリアの決定を前記低解像度画像に対して実行する、ように構成される、ことを特徴とする装置。
請求項１５乃至１７のいずれか一項記載の装置であって、
前記処理装置は、前記抽出エリアの候補を前記ディスプレイ上に表示することによって該抽出エリアを決定するように構成される、ことを特徴とする装置。
請求項１５記載の装置であって、
前記処理装置は、前記選択コマンドに対する補足を受け取るように構成され、
前記補足は、前記接続距離を調整するためのものである、ことを特徴とする装置。
請求項１９記載の装置であって、
前記処理装置は、前記選択コマンドに対する補足に応じて前記接続距離を調整し、
前記選択コマンドに対する補足は、ユーザが別の選択点を指定するものである、ことを特徴とする装置。
請求項２０記載の装置であって、
前記処理装置は、前記選択コマンドに対する補足を通じて受け取った選択方向に応じて前記接続距離を調整し、
前記選択距離はユーザが選択アイテムを前記ディスプレイ上でドラッグすることによって定義される、ことを特徴とする装置。
請求項１８記載の装置であって、
前記処理装置は、更に、前記抽出エリアの候補をユーザ・コマンドに応じて調整する、ことを特徴とする装置。
請求項２２記載の装置であって、
前記処理装置は、前記抽出エリアの候補に辺及び／又は角である制御可能な要素を提供し、ユーザが前記抽出エリアの候補の形状を調整できるようにする、ことを特徴とする装置。
請求項２２記載の装置であって、
前記処理装置は、マウスボタンのクリック又はマウスホイールの操作である補助的なユーザ制御イベントを通じて前記抽出エリアのサイズを増減する、ことを特徴とする装置。
請求項１５記載の装置であって、
前記ユーザ・インターフェースは、前記抽出されたメタデータにメタデータ種類を割り当てるために、前記選択コマンドに対する補足を受け取るように構成される、ことを特徴とする装置。
請求項２５記載の装置であって、
前記処理装置は、前記抽出されたメタデータ及び割り当てられた種類をドキュメントに関するインデックス・データとしてデータベースに入力するように構成される、ことを特徴とする装置。
請求項１５記載の装置であって、
前記処理装置は、
テキスト文字列をメタデータとして抽出し、
前記テキスト文字列を割り当てて前記画像のファイル名を構築する、ように構成される、ことを特徴とする装置。
請求項１５記載の装置であって、
前記入力手段は電気光学装置を有する、ことを特徴とする装置。