JP2007503032A

JP2007503032A - ドキュメントスキャナ

Info

Publication number: JP2007503032A
Application number: JP2006523532A
Authority: JP
Inventors: ヤーヘル，ヨドカス・フランシスクス
Original assignee: Oce Nederland BV
Current assignee: Canon Production Printing Netherlands BV
Priority date: 2003-08-20
Filing date: 2004-04-26
Publication date: 2007-02-15
Also published as: EP1661064A1; ATE356389T1; EP1661064B1; WO2005020131A1; DE602004005216D1; US20060143154A1; DE602004005216T2

Abstract

ドキュメントをスキャンし、ワードやワードのグループなどのオペレータが指定したテキストレイアウト要素を抽出してテキストレイアウト要素をスキャンファイルの指示子中に収めることによって、プロセスで生成された画像データを処理する、方法と装置を記述する。ドキュメント画像の少なくとも一部が、ディスプレイ上でユーザに対して表示される。マウスやタッチスクリーンなどのユーザインタフェース中のポインティング動作制御要素をユーザが操作して、画像のレイアウト要素中の選択ポイントを含む選択コマンドを生成する。すると、抽出エリアが、選択ポイントを含むレイアウト要素の周りに自動的に構築される。提案された抽出エリアはユーザに対して表示され、ユーザは抽出エリアを確認したりそれを調整したりする。最終的には、意図されたレイアウト要素が、抽出エリア中の画素を処理することによって抽出される。ファイル指示子は、スキャンファイルのファイル名であったり、スキャンファイルを含むｅメールメッセージの「件名」列であったりしてよい。

Description

本発明は一般的にはドキュメントのスキャニングに関し、より詳しくは、各々が画像素子の強度および／または色を表す値を有する画素を含む画像データに、ドキュメント画像を変換する方法に関し、このドキュメント画像はワードやワードのグループなどのテキストレイアウト要素を含んでいる。本発明はまた、本方法を実行するように適応されたスキャン装置と、プロセッサ中で実行されると本方法を実行するコンピュータプログラム製品にも関する。

画像データのスキャンファイルがスキャナによって生成されると、ファイルの検索を可能とするためにファイル名を定めなければならない。通常は、スキャナがネットワークに接続された自律的なデバイスである大型システム中では、スキャナはスキャンファイルのファイル名を自動的に発生する。ファイル名は、スキャンＩＤ（ｓｃａｎｎｅ−ｉｄ）や、日付や、時間などの、デバイスにとって利用可能な変数から合成されるが、本システムは、スキャンされたドキュメントに具体的に関連するファイル名を作成することは不可能である。また、自律的なスキャナはしばしば完全なキーボードを有しないことがあり、そのため、オペレータによって、スキャンプロセス中にスキャナの位置のところに意味のあるファイル名をタイプ入力することが不可能である。したがって、特に多数のドキュメントがスキャンされた場合には、後になってスキャンファイルを認識することが困難である。

本発明の目的は、スキャンファイル用の意味あるファイル名を定義する容易な方法を提供することである。スキャンファイルを（たとえば添付によって）組み込んだｅメールメッセージを発生することが可能な、高性能なスキャナ装置に関しては、本発明の目的はまた、メッセージが、スキャンファイルを担持して到達した際に容易に認識されるように、ｅメールメッセージの「件名」フィールドにファイル指示子をこれまた等しく容易に定める方法を提供することにある。

この目的は、請求項１に記載する方法によって達成される。本発明によれば、スキャンされた画像はディスプレイスクリーン上でオペレータに対して表示され、これでオペレータは、オペレータの希望によれば、たとえば、コンテンツのタイトル、筆者、ドキュメントタイプ、キーワード、内容の（短い）要約などのドキュメントの内容をより記述したものであるワードまたはワードの組み合わせ（一般的にはテキストレイアウトの要素）をポインティングすることが可能となる。

オペレータが選択するとそれに応じて、本システムは、スキャンされた画像から選択された画像の情報を抽出して、それをコーディング済みテキストにＯＣＲで変換する。次に、抽出されたテキストは、本システムによって、スキャンファイルを含んでいるｅメールメッセージのファイル名や件名などのファイル指示子（ｄｅｓｉｇｎａｔｏｒ）に、自動的に変換される。

ドキュメント画像から抽出された要素であり、ファイル指示子として用いられるべきレイアウト要素は、さらにまた「メタデータ」と呼ばれるが、これはそれがドキュメントの画像データに由来し、また、具体的にドキュメントに関する情報、たとえば意味のあるファイル名、として用いられるからである。

ドキュメントがＭＳＷＯＲＤ（商標）ドキュメントなどのデジタル符号化された形式にある場合、メタデータは、ドキュメントをスキャンして事前プログラムされているキーワードを抽出することが可能な専用のプログラムによって、自動的に識別することが可能である。しかしながら、画像として入手可能なドキュメント、すなわち黒色（色付き）の画素と白色の画素の組み合わせは、最初に、デジタル符号化された形式にＯＣＲで変換しなければならず、このプロセスは大きな計算能力を必要とする割には、常に正しく作動するとは限らない。また、インデックス付けプログラムは、ドキュメントを処理するのに非常に時間がかかる。

特許文献などの重い構造のドキュメントに対しては、ドキュメント画像を自動的に読み取る仕方が知られている。このようなドキュメントは厳密に規定された形式を有しているため、ドキュメント画像中の特定的な所定の情報項目を発見して処理するように、コンピュータをプログラムすることが可能である。しかしながら、自由形式のドキュメントはこのように処理することは不可能である。

人間のオペレータは、ドキュメント画像を容易に見渡して関連項目を発見することが可能であるという利点を有している。したがって、オペレータに、ドキュメント画像中からメタデータを選択させ、次に、コンピュータシステムによってこのメタデータが自動的に抽出されて、指示子としてスキャンファイルに関連付けられるということは利点である。

メタデータ自体を抽出する（すなわち、関連付けられたスキャンファイル用にファイル名を構成するのではなく、編集目的で構成する）方法は、従来技術から知られている。

欧州特許第１２５６９００号明細書には、オペレータによって、表示されている画像中にメタデータを検索目的で指定することを含む、スキャンされたデジタルドキュメント画像をデータベース中に迅速に入力するシステムが開示されている。オペレータは、画像中のメタデータ項目の周りに、マウスなどで「包絡線」を描かなければならない。次に、システムは、包絡線に含まれているビットマップ画像情報を、ＯＣＲでテキスト形式に変換する。

米国特許第６３２３８７６号明細書には、スキャンされたドキュメント画像中のテキストブロックなどの画像領域を自動的に区別する、ドキュメントスキャンシステムが開示されている。次に、スキャンされた画像がディスプレイに表示され、任意の１つの画像領域がオペレータによって、表示された画像をポインティングすることによって選択される。

ドキュメントからメタデータを抽出する別の方法が、欧州特許第１１３６９３８号明細書から知られる。最初にドキュメントをスキャンして、コンピュータに接続されたスキャナを用いて画素からなる画像を生成する。スキャンされたドキュメントは、メタデータを表すテキスト列が、引かれたラインでテキスト列を囲んでいるボックス内に置かれている、構造化されたレイアウトを有している。特に、技術関連の図表は、タイトルや、日付や、バージョンなどのメタデータを含んでいる、このようなボックスを有している。ユーザはコンピュータのポインティング部材を操作して、ドキュメントが持つ少なくとも１つのボックス中の任意のポイントを指定する。ユーザがポイントを指定したら、ポイントを含んでいるボックスが、周辺のラインを検出することによって識別される。ついで、このボックス中の文字が光学的文字認識（ＯＣＲ）によって認識され、これで、メタデータを検索し、それをコンピュータに接続されているデータベースに記憶して、このようにスキャンされたドキュメントをインデックス付けすることを可能とする。したがって、メタデータのボックス化された構造は、メタデータを識別する目的で想定される。

編集またはインデックス付け目的でスキャン済みドキュメント画像からテキストを抽出する他の方法が、欧州特許第１２５６９００号明細書と、ＮｅｗｍａｎＷらによる、米国、カリフォルニア州、ロスアラミトス、ＩＥＥＥコンプ社の１９９９年、６月７日から１１日でのイタリア、フローレンスでのＩＥＥＥ国際会議での、ＭｕｌｔｉｍｅｄｉａＣｏｍｐｕｔｉｎｇａｎｄＳｙｓｔｅｍｓ（マルチメディアのための計算とシステム）の６４７から６５３ページの「Ｃａｍｗｏｒｋｓ：紙からソースドキュメントを効率的にキャプチャするビデオベースのツール（ａｖｉｄｅｏ−ｂａｓｅｄｔｏｏｌｆｏｒｅｆｆｉｃｉｅｎｔｃａｐｔｕｒｅｆｒｏｍｐａｐｅｒｓｏｕｒｃｅｄｏｃｕｍｅｎｔ）」中に、開示されている。

スキャンされた画像内で選択されたポイントをオペレータが示すとすぐに応答して抽出エリアを自動的に決定するには、いくつかの方法がある。

このようなプロセスの第１の例として、画像を予備的にワードやラインなどのレイアウト要素に自動的に分割した結果（または少なくともその一部）に基づいたプロセスがある。ドキュメント画像をレイアウト要素に分割する方法は元来知られており、たとえば、出願人の米国特許第５，８５６，８７７号明細書に開示された方法や、上述のＮｅｗｍａｎらのドキュメントに開示された方法がある。分割した結果はデバイスのメモリに記憶され、オペレータを混乱させないために、オペレータには示されない。

タッチスクリーンやマウスなどのユーザインタフェースを介して、ユーザはドキュメント画像の表示部分中で、自分がファイル指示子として用いるつもりのワードを示す。それに反応して、示されたレイアウト要素が自動的に選択されて、レイアウト要素を完全にカバーする対応する提案抽出エリアが、決定されて表示される。

最初に自動的に決定された抽出エリアは、オペレータによって、たとえば抽出エリアに含まれるべきさらなるメタデータ要素中の少なくともさらなる選択ポイントを示すことによって調整されるが、この場合、本システムは、さらなるメタデータ要素と中間にある任意の要素とを追加的に含むために、抽出エリアを自動的に増大させる。

抽出エリアを決定するプロセスの第２の例では、最初に前景プロパティを有する画素をその値に基づいて前景画素として自動的に分類し、次に、選択ポイントによって示される前景画素に所定の接続距離を置いて接続されている前景画素に基づいて、抽出エリアを決定する。特に、この方法は、
・選択ポイントで示された前景画素を含むことと、
・接続された領域中に含まれる他の前景画素から接続距離内にある、さらなる前景画素を徐々に含むことと、
・抽出エリアを、接続された領域を完全に囲うようなエリアに設定することと
を含む。

自動的に決定された抽出エリアは、オペレータによって、たとえば、さらなる選択ポイントを示すか、またはマウスのボタンをクリックしたりマウスのホイールを操作したりするような補足的なユーザ制御事象を実行することによって、再度調整される。後者の場合、接続距離は、たとえばクリックする毎に１画素分だけ増加する。

２つの抽出方法を上に詳しく説明したが、本発明はこれらの方法の使用には限られない。同じような結果をもたらす他の方法も、本発明では使用可能であり、満足すべき結果をもたらす。

本明細書中、ドキュメント画像は複数の物理的ドキュメントページを含んでいてもよい。一般に、ディスプレイ上に示されるドキュメント部分は第１ページの画像であるが、その理由は、通常はそれが、メタデータの抽出に関連するほとんどの情報を含むページであるからである。しかしながら、本発明者らは、ドキュメント画像全体にわたって、すなわち複数の物理的ドキュメントページにわたってナビゲートする、ブラウズ機能を装置に備えることを意図している。

本発明によるデバイスのさらなる好ましい実施形態が、さらなる請求項中に記載されている。

本発明の上記の態様および他の態様は、次の説明中の例を用いて記載されている実施形態を参照すれば、また、添付図面を参照すれば、さらに明らかにそして明瞭になるであろう。

図は概略的なものであり、実物大で描かれているわけではない。図中、既述の要素とに対応する要素は、同じ参照符号を有するものとする。

図１に、スキャンされたドキュメントとメタデータ抽出エリアとを示す。ドキュメント１３は、画素からなる画像を発生させるためにスキャンされている。画素（画像素子の略）とはドキュメントを数値で表したものであり、画像素子の強度および／または色を表す値を有する。画像の一部が、ファイル指示子を発生するために用いられるメタデータ、たとえばファイル名を、ユーザが対話的に決定するように、ディスプレイ１２上に示されている（概略的に描かれている）。ドキュメントの画像ファイルには、ドキュメントのページ毎に互いに分離した画像が含まれている。通常は最初のページであるタイトルページには、タイトル、ドキュメントタイプ、筆者、発行日付などの、ドキュメントの内容に関する関連情報が含まれている。このような情報を、本明細書中ではメタデータと呼ぶ。ユーザは、たとえばスクロールすることによって、画像または画像ファイルの関連部分を示すためにディスプレイを操作する選択肢を有している。代替例では、ディスプレイは１ページのドキュメントのページ全体を示す。

メタデータ要素の例として、ドキュメント番号１１があるが、これはドキュメントのタイプの一部である。メタデータ要素は、本出願書の制限範囲内にある、ドキュメント番号１１などの１つのワード、複数のワード、さらには１つ以上のテキストラインなどである。たとえば、図１に示す要約には、約６ライン分のテキストが含まれている。

ディスプレイ１２上において、ドキュメント番号１１を含むドキュメントタイプの周りに抽出エリア１４が示されている。抽出エリアは、メタデータを発見し、また、メタデータを認識するために、処理ユニットによって用いられることになっている画像のエリアである。本発明の文脈では、メタデータはテキストであり、抽出エリアは文字とワードを認識するために分析されるが、これは一般には光学的文字認識（ＯＣＲ）として知られている。

抽出エリアを構築するために、ユーザは、関連していると自分が考えるメタデータ要素中の選択ポイント、たとえばドキュメント番号１１を示す。選択ポイントを示すことは、選択コマンド中の最初のステップである。選択ポイントを示すために、タッチスクリーンなどの感知性のスクリーン上に表示を収める。ユーザは、指を用いるかまたは専用のポインティングスティックを用いて、選択ポイントを示す。代替例では、ディスプレイには、たとえばマウス、トラックボールなどによってユーザによって制御されるカーソルが示される。次に、カーソルを位置付けして、マウスをクリックするなどボタンを起動することによって、選択ポイントが示される。

選択ポイントがユーザによって示されたら、選択ポイントを含むレイアウト要素（ワード）または選択ポイントに最も近いものによって、抽出エリアが決定される。レイアウト要素を発見することが可能な方法は多くあるが、その内の２つを以下に詳述する。しかしながら、本発明は、本書に記載するオペレータによって示されたレイアウト要素を決定する方法に制限されることはない。

選択ポイントの位置が背景エリアにある場合、本システムは、ユーザがレイアウト要素を選択することを望んではいないものと判断する場合がある。一実施形態では、最も近いレイアウト要素までの距離が所定の限度内にあれば、本システムは、ユーザが最も近いレイアウト要素を選択する意図があるものと判断する。選択ポイントが前景ポイントから遠くにある背景画素上にある場合、本システムはこの選択を、現時点で選択されているメタデータ抽出エリアをキャンセルするコマンドであると考える。

選択ポイントによって決定されたレイアウト要素（ワード）に基づいて、抽出エリア、たとえばボックスまたは色付きエリアがレイアウト要素の周りに描かれて、ユーザに対して表示される。ユーザは、以下に説明するように、提案されたエリアを確認する、または提案された抽出エリアを変更する。最終的に、抽出エリア中の画素を処理することによって、メタデータが抽出される。次に、スキャンファイルのファイル名が、抽出された１つもしくは複数のワードの形式、または抽出された１つもしくは複数のワードと、日付および／または時間などの自動的に追加されたシステム情報との組み合わせという形式で、自動的に生成される。

図２に、本発明にしたがってドキュメントを処理して、メタデータを抽出するデバイスを示す。デバイスは、電気光学スキャナなどの物理的ドキュメントから画像をスキャンするスキャンユニットを含むデジタル画像を入力する、入力ユニット２１を有している。入力ユニット２１は、記憶ユニット２２と協働する処理ユニット２４に結合されている。記憶ユニットは、磁気テープや光ディスクのような記録担体上の画像および／またはメタデータを記憶する、記録ユニットを含んでいる。処理ユニットは、汎用コンピュータの中央処理ユニット（ＣＰＵ）と、上述したようにメタデータ抽出を実行するソフトウエアを用いて動作するサポート回路とを備えている。処理ユニットは、画像上の選択ポイントを示す少なくとも１つのポインティングユニットを備えたユーザインタフェース２５にカップリングされている。ユーザインタフェースは、キーボード、マウスデバイスまたはオペレータボタンなどの制御手段を含んでもよい。処理ユニットは表示ユニット２３にカップリングされている。表示ユニットは、図１について上に説明したように、画像と抽出エリアとを表示する表示スクリーンを備えている。特に、表示ユニットとポインティングユニットは、具体的には、選択ポイントを示すために指で表示画像中のメタデータ要素をユーザがポインティングすると、それを感知するタッチスクリーンであったりする。処理ユニットは、処理された画像やメタデータを紙の上に出力する印刷ユニットにカップリングされている。入力ユニット２１によって生成されたスキャンファイルには、抽出されたメタデータに基づいてファイル名が与えられて、たとえば記憶ユニット２２または別個のコンピュータシステム中のデータベースに記憶されてもよい。

デバイスは、標準的なコンピュータハードウエアコンポーネントと、以下に説明するようなメタデータ抽出プロセスを実行するコンピュータプログラムとによって構築されることに留意されたい。代替例では、デバイスは、メタデータの抽出に対処するために、スキャンユニット、処理ユニットおよびディスプレイを含む、専用のハードウエアデバイスであってもよい。さらに、スキャンプロセスは、メタデータ抽出の対話的プロセスから分離されていてもよく、たとえば、メール受信室中のスキャンユニットは、ディスプレイとオペレータを有するインデックス付け位置に、ＬＡＮを介してカップリングされている。

図３に、第１の例示の方法にしたがってメタデータを抽出するプロセスのフローチャートを示す。この方法では、最初に、画素値に基づいて画像をワードやラインなどのレイアウト要素に分割して、レイアウト要素のレベルで抽出エリアの完全な決定を取り扱う。

この方法によれば、画素は、前景プロパティを有する値、通常は白色の背景ドキュメント上の黒色を表す値に基づいて、前景画素として分類される。カラー画像において、前景プロパティは、特定の色、たとえば選択ポイントによって示される画素の色から対話的に決定された色を表す値であってよい。

画像をレイアウト要素に分割することは、元来画像処理で知られているステップである。たとえば、米国特許第５，８５６，８７７号明細書では、画像を分割する方法が記述されている。分割動作は、画像がユーザに対して表示される以前に実行されるか、または、本システム中で処理パワー、たとえばユーザに対してドキュメントを表示している間でのバックグラウンドプロセスが利用可能となったら、すぐに開始されてよい。分割動作はまた、ユーザが選択ポイントを示すとそれに反応して実行されてよいが、その場合、示されたポイントに比較的近いエリアだけに限られる。分割の結果はユーザには示されないことに留意されたい。したがって、分割動作は終了する必要はなく、ユーザは、ドキュメントがスキャンされた後に本システムによる迅速なドキュメント表示を経験する。また、ユーザは、表示されたドキュメント画像全体にわたって、ボックスや他の制限的な要素によって撹乱されることはない。

一実施形態では、分割プロセスは、選択ポイントの周りのエリアに集中される。たとえば、ユーザに対して実際に表示される画像のエリアにだけ実行される。ユーザは最初に対象となるエリアを、ドキュメントをスクロールすることによって選択してもよいことに留意されたい。代替例では、分割動作は、ユーザが選択ポイントを示した後で選択的に実行される。

図３に戻って、第１のステップＳ３１「入力画像を準備する」において、画像がスキャンデバイスから画素値のデジタルファイルとして受信される。このステップは、所定の知識または検出された画像のプロパティに基づくさらなる画像処理、たとえばコントラストを上げたり、前景および／または背景のプロパティを画像のグローバル統計から決定したり、画像を回転させたり、などの処理を含んでよい。さらに、このステップは、画像をレイアウト要素に分割することを含んでよい。しかしながら、分割動作は、画像が表示される前に完了している必要はないが、レイアウト要素がステップＳ３４「レイアウト要素を発見する」で必要とされるまで背景プロセスとして続くことに留意されたい。代替例では、分割の結果は、別個の画像処理システム中で準備ステップとして決定されてよい。

次のステップＳ３２「画像を表示する」では、画像がディスプレイ上でユーザに対して示される。このステップは、たとえば、最初のテキストラインを有する部分を表示している大きい白色のエリアから始まるページから表示するために、画像の関連部分を発見するステップを含む。次のステップＳ３３「選択ポイント」では、画像中の選択ポイント、特にメタデータ要素を示すユーザ動作が期待される。図面中の記号で示す待ちループＬ３３は、本システムがユーザの動作を待っていることを示している。

次のステップＳ３４「レイアウト要素を発見する」では、分割された画像を、メタデータを抽出するためにユーザが意図したレイアウト要素を発見するために処理する。選択ポイントは、図４に関連してどのレイアウト要素が以下に説明するように選択されたかを示す。次のステップＳ３５「抽出エリアを表示する」では、選択されたレイアウト要素をカバーする抽出エリアが表示される。抽出エリアは、ちょうどレイアウト要素を含む矩形で、強調されたエリアまたは他の任意の適当な表示特徴として示されてよい。

ユーザは、たとえばカーソルが所望のメタデータ要素上にあるときにマウスボタンをクリックすることによって、または指をタッチスクリーン上に置くことによって、選択ポイントを能動的に入力してよいことに留意されたい。しかしながら、本システムはまた、ユーザがポインタ要素（カーソルなど）を前景のオブジェクトの近くに置くとすぐに、またはその後で所定の（短い）待ち時間後に、提案されている抽出エリアを自動的に表示する。自動モードにおいては、ステップＳ３３「選択ポイント」、Ｓ３４「レイアウト要素を発見する」およびＳ３５「抽出エリアを表示する」は、組み合わされる。カーソルは、たとえば小さい矩形をカーソル記号に付け加えることによって、自動モードを示す特定の記号として示される。ユーザは、提案された抽出エリアの可視性のフィードバックに基づいて、選択ポイントを決定することが可能である。

表示された抽出エリアに基づいて、ユーザは、ユーザが意図したメタデータ要素を、抽出エリアがカバーすることを検証することが可能である。次のステップＳ３６「最終のエリア」では、ユーザは、例えばマウスコマンドによって、または次のドキュメントを入力することによって暗に、表示された抽出エリアを確認する。

ユーザはまた、記号で示すループＬ３６で示すように、提案された抽出エリアを、図７または図８を参照して説明するように適合させる。たとえば、ユーザは、これも抽出エリアに含まれなければならない第２のポイントを示す。またはユーザは、ポインティング要素を、選択ポイントからユーザが抽出エリアを拡張することを意図する方向にドラッグすることによって、提案された抽出エリアの拡大を示す。ディスプレイは、この適合に応じて最終的なエリアを表示する。

次のステップＳ３７「メタデータを抽出する」では、最終的に確認された抽出エリアが処理されて、ＯＣＲによってワードなどのメタデータ要素を検出して認識する。結果はファイル名などのスキャンファイル指示子に変換されて、ディスプレイのテキストフィールドに表示される。これで、スキャンファイルはファイル指示子を用いて記憶ユニット２２に記憶することが可能である。

図４ａに分割結果を示す。分割の結果はユーザに対しては表示されないが、処理システムの内部でだけ利用可能であることに留意されたい。図１に示す画像は例として用いられている。分割の結果、多くのレイアウト要素が検出された。このプロセスは基本的に個々のワード、たとえば矩形４１と４３で示すワード、さらにラインなどのワードの全てのグループ、たとえば矩形４２で示すラインとテキストブロック、たとえば矩形４４で示すテキストブロックを検出する。

実質的に背景画素しか有しない中間エリアは、背景４５と分類される。黒色ライン４６などの所定の「非テキスト」要素もまた、背景として、または少なくとも選択不可能要素に分類される。ユーザは選択ポイントを、抽出されることを希望するメタデータ要素の近くまたはその上にある、カーソルなどのポインティング要素を位置付けすることによって示す。次に、レイアウト要素を完全にカバーする抽出エリアが決定される。抽出エリアはユーザに対して表示され、これでユーザは提案された抽出エリアを確認することが可能となる。ユーザは、抽出エリアが小さすぎる、大きすぎる、などと判断してもよい。その場合、ユーザは自身の選択コマンドを以下に説明するように補足する。

図４ｂに分割結果の詳細を示す。それは、第１の矩形４７で示す、第１のワードに対応する第１のレイアウト要素と、第２の矩形４８で示す、第２のワードに対応する第２のレイアウト要素と、第３の矩形４９で示す、分割された、すなわちドキュメントタイプ中の数字に対応する第３のレイアウト要素と、を含んでいる。

また、分割プロセスは、３つのワード要素の組み合わせ、すなわち矩形４２で示すラインを検出している。

ユーザが第３の矩形４９中の選択ポイントを示すと、本システムはドキュメント番号だけを囲んでいる小さい抽出エリアを表示する。

ユーザがここで、提案された抽出エリアの上で（マウスを）クリックしたり、（タッチスクリーンを）軽くたたいたりすると、プロセスは自動的に、次に高いレベルのレイアウト要素、この例では矩形４２中の「ライン」を選択する。この特殊な例では存在しないがさらに高いレベルは、テキストブロック（パラグラフ）である。代替例では、クリックすることによって、たとえば読み取り方向でワードが追加されることによって、選択エリアが徐々に拡大する結果となってよい。図４ｂの例では、ユーザは最初に矩形４７中のワードをポインティングし、ついでクリックする（または軽くたたく）ことで、継続的にそれぞれ矩形４８と４９中にワードを追加する。

別のマウスクリック動作（たとえば、マウスの左側のボタンではなく右側のボタンをクリックする）をすると、レベルまたはワードに対する選択エリアが徐々に減少してよい。

選択エリアを拡大させる代替の方法では、ユーザは、画像中のさらなるレイアウト要素中の第２の選択ポイントを、たとえば矩形４８中の新しい位置をポインティングすることによって示す。新しいレイアウト要素は、単にオリジナルのレイアウト要素に追加される。中間レイアウト要素がある場合、ユーザは大抵、中間要素も含まれることを希望する。たとえば、第２の選択ポイントが第１の矩形４７中にあれば、３つの矩形４７、４８、４９のすべてが組み合わされて、抽出エリアとなる。

ユーザはまた、カーソルを第１の矩形４７の方向に（紙の左端に向かって）ドラッグすることによって、抽出エリアを変化させる。本システムは、さらにレイアウト要素を接続するコマンドをこの動きから導出して、次の矩形４８を接続して、隣接する矩形４８と４９の周りを囲む新しい抽出エリアを構成する。この接続動作は、接続距離以内にあるレイアウト要素に適用される。この接続距離は、選択されたレイアウト要素に合成されるべきレイアウト要素を選択するために用いられる。すなわちこれらレイアウト要素同士間の背景は接続距離より短い。接続距離は、レイアウト要素の境界間の最短のユークリッド距離として、すなわち最も近いｘ座標またはｙ座標を有するレイアウト要素のポイント同士間における、水平方向（ｘ）または垂直方向（ｙ）の距離として、定義される。レイアウト要素を接続する閾値距離は、所定の距離、たとえば中間背景画素を有する画像素子を結合させるため分割中に用いられる距離よりも、幾分か大きい値である。選択コマンドに対する補足もまた、ユーザ定義された接続距離に変換されてよい。たとえば接続距離は、ユーザがカーソルを移動させる距離から対話的に導き出されてよい。一実施形態では、ユーザは、接続距離を所定の量だけ増加させるために繰り返し同じ位置をクリックもしくはポインティングする。またはユーザは、接続距離を徐々に増減させるためにマウスホイールを操作してよい。

方向が異なれば接続距離も異なってよい。たとえば、水平方向の接続距離は、垂直方向の接続距離よりも大きくてよい。一般的なテキストドキュメントの場合、この結果、文字をワードに対して、また、ワードをテキストラインに対してロバストに接続するが、テキストラインは次のラインや前のラインには接続されない。前処理ステップでは、読み取り方向は、たとえば背景画素のレイアウトを分析することによって決定される。接続距離はたとえば左から右の読み取り方向に基づいており、選択ポイントから右方向に、接続距離は大きくなる。

接続プロセスの一実施形態では、接続距離は、選択コマンドに対する補足を介して受信された選択方向に基づいて適応される。提案された抽出エリアはユーザに対して表示され、するとユーザは、抽出エリアが特定の方向に拡大されることになっていることを容易に検出する。ユーザは、選択項目（カーソルまたはタッチスクリーン上の指）を選択ポイントから選択方向にドラッグすることによって選択方向を示す。

図５に、第２の例示の方法にしたがってメタデータを抽出するプロセスのフローチャートを示す。この方法では、オペレータが示したレイアウト要素の決定とそれによる抽出エリアの決定は、画素レベルで完全に実行される。

画素は、前景プロパティを有する値に基づいて前景画素と分類され、通常この値は白色の背景のドキュメントにおける黒色を表している。カラー画像中では、前景プロパティは、特定の色、たとえば、選択ポイントで示される画素の色から対話的に決定された色、または背景色とは異なった色を表す値である。前景画素と背景画素を区別する方法は当技術分野において知られている。

選択ポイントで示される第１の前景画素、すなわち、選択ポイントがメタデータ要素中の背景画素上にある場合、選択ポイントの位置に対応する、または選択ポイントに近い前景画素が発見される。選択ポイントが前景ポイントの所定の距離内にある背景画素上にあれば、本システムは、示された画素を、意図されたメタデータ要素を構成する画素を発見する目的のための前景画素であると考える、すなわち選択ポイントを、それがユーザによって示されたという事実による前景画素として（再）分類する。代替例では、本システムは最も近接した前景画素を選択ポイントとして選択する。選択ポイントが前景ポイントから遠く隔たった背景画素上にあれば、本システムはこの選択を、現在選択されているメタデータ抽出エリアをキャンセルするコマンドであると考える。

第１の前景画素に基づいて画素の領域が検出されて、メタデータの一部であると想定され、抽出エリアがこの領域の周りに描かれてユーザに対して表示される。メタデータは抽出エリア中の画素を処理することによって抽出されて、スキャンファイル指示子に変換される。

図５に戻って、第１のステップＳ１３１「入力画像を準備する」では、画像を、画素値のデジタルファイルとしてスキャンデバイスから受信する。このステップは、コントラストを上げたり、前景およびまたは背景のプロパティを画像のグローバル統計から決定したり、画像を回転させたりなどの、画像に関する所定の知識または検出済みのプロパティに基づいた、さらなる画像処理を含む。また、このステップは、ステップＳ１３４（以下に説明する）の画像分析に用いられる低い解像度を有する追加の入力画像を準備することを含む。スキャンされる画像はかなり高い解像度を有しているため、解像度を適当に、たとえば１／２から１／４に下げても、通常は分析は悪化しないが、必要とされる処理パワーが減少する。オリジナルの高解像度入力画像はそのまま、表示とデータ抽出の目的のために用いられる。

次のステップＳ１３２「画像を表示する」では、画像がディスプレイ上でユーザに対して示される。このステップは、たとえば、最初のテキストラインを有する部分を表示している大きい白色のエリアから始まるページから表示するために、画像の関連部分を発見することを含む。次のステップＳ１３３「選択ポイント」では、画像中の選択ポイント、特にメタデータ要素を示すユーザ動作が期待される。図面中の記号で示す待ちループＬ１３３は、本システムがユーザの動作を待っていることを示している。

次のステップＳ１３４「接続された領域を発見する」では、選択ポイントの周りの画素が、図６を参照して以下に説明する接続範囲内にある前景画素を発見するために分析される。次のステップＳ１３５「抽出エリアを表示する」では、接続された領域をカバーする抽出エリアが表示される。抽出エリアは、ちょうど接続された領域を含む矩形エリア、強調されたエリア、または他の任意の適当な表示特徴として示される。

ユーザは、たとえばカーソルが所望のメタデータ要素上にあるときにマウスボタンをクリックすることによって、または指をタッチスクリーン上に置くことによって、選択ポイントを能動的に入力することに留意されたい。しかしながら、本システムはまた、ユーザがポインタ要素（カーソルなど）を前景のオブジェクトの近くに置くとすぐに、または所定の（短い）待ち時間後に、提案されている抽出エリアを自動的に表示する。自動モードにおいては、ステップＳ１３３「選択ポイント」、Ｓ１３４「接続された領域を発見する」およびＳ１３５「抽出エリアを表示する」は、組み合わされる。カーソルは、たとえば小さい矩形をカーソル記号に付け加えることによって、自動モードを示す特定の記号として示される。ユーザは、提案された抽出エリアの可視性のフィードバックに基づいて、選択ポイントを決定することが可能である。

表示された抽出エリアに基づいて、ユーザは、ユーザが意図したメタデータ要素を抽出エリアがカバーすることを検証できる。次のステップＳ１３６「最終のエリア」では、ユーザは、マウスコマンドによって、または次のドキュメントを入力することによって暗に、表示された抽出エリアを確認する。

ユーザはまた、記号で示すループＬ１３６で示すように、提案された抽出エリアを、図７または図８を参照して説明するように適合させる。たとえば、ユーザは、これも抽出エリアに含まれなければならない第２のポイントを示す。またはユーザは、ポインティング要素を選択ポイントからユーザが抽出エリアを拡張することを意図する方向にドラッグすることによって、提案された抽出エリアの拡大を示す。ディスプレイは、この適合に応じて最終的なエリアを表示する。

次のステップＳ１３７「メタデータを抽出する」では、最終的に確認された抽出エリアが処理されて、ＯＣＲによってワードなどのメタデータ要素を検出して認識する。結果はディスプレイ上でテキストフィールド中に示される。結果はファイル名などのスキャンファイル指示子に変換されて、ディスプレイのテキストフィールドに表示される。このようにして、スキャンファイルはファイル指示子を用いて記憶ユニット２２に記憶することが可能である。

図６ａ、図６ｂ、図６ｃは、選択ポイントから領域を成長させる様子を示す図である。ユーザが画像中の選択ポイントを示すると、ある領域が次のように形成される。選択ポイントのところにある開始前景画素が選択される。選択ポイントが背景画素上にあるが前景画素から所定の距離以内にあれば、その前景画素は開始画素として用いられる。

図６ａに１つの画素分の接続距離ずつ領域が成長する様子を示す。画像８１の詳細な部分を４つの領域成長相で示しているが、個々の画素は白色（背景）または灰色（前景）として示す。ユーザは、黒色のドットで示す選択ポイント８０を示した。領域の成長は選択ポイント８０に対応する画素から始まるが、最初はたった１画素からなる開始領域８２を示す。成長のための接続距離は、１画素分であると想定されている、すなわち中間背景画素は許容されない。第２の成長相では、第２の領域８３が、直接接続された画素を含むように下方に拡大している様子が示されている。第３の成長相では、第３の領域８４が、直接接続された画素を含むように右方向に拡大している様子が示されている。第４の成長相では、第４の領域８５が、直接接続された画素を含むように右方向に再度拡大している様子が示されている。これ以上前景画素は接続距離（＝１）以内には存在しないため、領域の成長は停止する。矩形のエリアが、成長領域８２、８３、８４および８５の周りに点線で描かれていることに留意されたい。このエリアはまた、背景画素も含んでいる。領域成長プロセスが終了したら、描かれたエリアは提案の抽出エリアとなることが可能である。

図６ｂに２つの画素分の接続距離ずつ領域が成長する様子を示す。図６ａの場合と同じ画像の詳細を示す。接続距離が２画素分に増えており、したがって、１つの中間背景画素が埋められる。結果として得られる矩形エリア８６は、２という接続距離を有する前景画素を含む。ユーザは、結果としてのエリアを確認するか、または矩形エリアが小さすぎると判断する。その場合、ユーザは、自身の選択コマンドを補足する。それに対して、ユーザは、たとえば新しい位置をポインティングすることによって、または選択ポイント８６から第２の選択ポイント８７までドラッグすることによって、第２の選択ポイント８７を画像のさらなる前景部分中に示す。選択コマンドに対する補足は、処理ユニット２４によって、選択エリアに第２の選択ポイント８７を追加するためちょうど適しているよりも、大きい接続距離に変換される。この結果、選択エリアは、他の方向においても拡大することになる。

一実施形態では、ユーザは、接続距離を増加させるように、繰り返し同じ位置をクリックするかまたはポインティングしてよい。マウスをクリックする毎にまたはタッチスクリーンを軽くたたく毎に、接続距離は１画素分ずつまたは所定の複数の画素分ずつ増加する。また、接続距離は、抽出エリアが実際に増加する効果があるような値ずつ増加する。マウスを用いる場合、マウス上の互いに異なったボタンをクリックすると接続距離がそれぞれ増加したり減少したりする。

図６ｃに３つの画素分の接続距離ずつ領域が成長する様子を示す。図６ｂの場合と同じ画像の詳細を示す。接続距離が３画素分に増えており、したがって、最大で２つの中間背景画素が埋められる。結果として得られる矩形エリア８８は、第２の選択ポイント８７を含む。領域成長プロセスはまた、達成された結果にも適応される、または、たとえばユーザがほとんどの場合領域を増大させる必要がある場合にはより大きい接続距離を用いる学習オプションを含むことに留意されたい。また、接続された領域のうちで所定サイズ未満の領域が発見された場合、本プロセスは、少なくとも所定のサイズを達成するために接続距離を自動的に増加することを含んでよい。

領域成長プロセスのさらなる実施形態では、方向が異なれば接続距離も異なる。たとえば、水平方向の接続距離は、垂直方向の接続距離よりも大きい。一般的なテキストドキュメントの場合、この結果、テキストライン上のワードがロバストに接続されるが、テキストラインは次のラインや前のラインには接続されないということになる。前処理ステップでは、読み取り方向は、たとえば背景画素のレイアウトを分析することによって決定される。接続距離はたとえば左から右の読み取り方向に基づいており、選択ポイントから右方向に接続距離は大きくなる。

領域成長プロセスの一実施形態では、接続距離は、選択コマンドに対する補足を介して受信された選択方向に基づいて適応される。提案された抽出エリアはユーザに対して表示され、するとユーザは、抽出エリアが特定の方向に拡大されることを容易に検出する。ユーザは、選択項目（カーソルまたはタッチスクリーン上の指）を選択ポイントから選択方向にドラッグすることによって、選択方向を示してよい。接続距離の増加は、最初の選択ポイントからドラッグする距離から導き出されることに留意されたい。

本デバイスは、上記の例示の方法の内のいずれかの方法で決定された抽出エリアの形状を適合させる、さらなるオプションを提供してよい。

図７は、メタデータ抽出エリアを適合させる様子を示す図である。最初に、矩形の抽出エリア５０がユーザに対して表示される。抽出エリアの形状は、提案される抽出エリアの制御可能要素５２、５３によって変更することが可能である。ユーザは、制御可能要素のうち１つを移動してよい。制御可能要素は、追加の記号、たとえば抽出エリア５０の辺とエッジに加えられた小さい方形によって、ユーザに対して表示される。ユーザは、たとえば抽出エリア５０の上辺をドラッグすることが可能である。この結果としては、抽出領域を上方に拡大するだけである。制御可能エッジ５３を操作することによって、対応する左側の辺と下方の辺とが移動する。辺とエッジの考えられる新たな位置を、操作中に点線５１として表示する。最終的にエリアを選択したら、辺とエッジの新しい位置が実線として示される。他の可視性の要素は、色や点滅などの制御オプションを表示するために適用されることに留意されたい。

図８に、非矩形の抽出エリアの形状を適合させる様子を示す。テキストの断片の一部を選択するために構築された、抽出エリア６０が示されている。あるラインの中央にあるワードから選択が開始され、また、ラインの中央で終了する。テキストの列のレイアウトが想定される。垂直方向の辺は容易に検出され、ユーザによっては制御不可能でさえある。底辺６１には２つの水平部分とその中間の垂直部分がある。底辺６１は、点線で示される新しい位置６２までドラッグされる。特に、中間の垂直部分は、メタデータに含まれるはずの最後のワードの後で、テキストライン上のある位置までドラッグすることが可能である。

抽出エリアを最終的に設定したら、メタデータを抽出して、光学的文字認識（ＯＣＲ）によって処理することが可能である。次に、抽出されたメタデータを、スキャンされたドキュメントに添付されるファイル名を決定するために用いる。抽出エリアには、たとえば最小長や最大長などの、ファイル名に関するなんらかの要件が課せられている。抽出プロセスは、禁止されている文字を消去したり同じファイル名を再度使用することを防止したりするなどのファイル命名ルールにテキスト列が適合するように、それを適合させることを含む。日付や時間のようなデータをさらに識別することが追加される。スキャンされたドキュメントは、構築されたファイル名を用いて自動的に記憶される。

本発明を主として、デジタル画像中のメタデータを表すテキスト要素を用いる実施形態によって説明したが、本発明はまた、記号、ロゴまたは、ポートレイトなどに分類される絵で表した他の要素などの、メタデータ情報の任意の表示物にも適している。本ドキュメントにおいて、「備える」という動詞およびその活用形を用いた場合、リストアップされていないような要素やステップが存在することを排除するものではなく、また、要素に先行する「ａ」や「ａｎ」を用いた場合、このような要素が複数個存在することを排除するものではないこと、いかなる参照符号も特許請求の範囲を制限するものではないこと、上記の本発明ならびに全てのユニットもしくは手段は、適当なハードウエアおよび／またはソフトウエアによって実現されること、および複数の「手段」や「ユニット」は同じ項目によって表されることに、留意されたい。さらに、本発明の範囲は本実施形態に制限されるものではなく、本発明は全ての新規な特徴または上記の特徴の組み合わせとして実現される。

スキャンされたドキュメントとメタデータ抽出エリアとを示す図である。ドキュメントを処理して、メタデータを抽出するデバイスを示す図である。第１の例示の方法にしたがってメタデータを抽出するプロセスのフローチャートを示す図である。分割結果を示す図である。分割結果の詳細を示す図である。第２の例示の方法にしたがってメタデータを抽出するプロセスのフローチャートを示す図である。選択ポイントから領域を成長させる様子を示す図である。選択ポイントから領域を成長させる様子を示す図である。選択ポイントから領域を成長させる様子を示す図である。メタデータ抽出エリアを適合させる様子を示す図である。非矩形の抽出エリアの形状を適合させる様子を示す図である。

Claims

・ドキュメントをスキャナ装置でスキャンし、これによって画像データのスキャンファイルを生成することと、
・スキャンされた画像の少なくとも一部をユーザに対して表示することと、
・画像中のレイアウト要素内の選択ポイントを示す選択コマンドをユーザから受信することと、
・スキャンされた画像内の抽出エリアを、選択ポイントによって示されたレイアウト要素に基づいて自動的に決定することと、
・抽出エリア中の画素を処理することによってレイアウト要素を抽出することと
を含む、画像素子の強度および／または色を表す値を各々が有する画素を含む画像データに、ワードやワードのグループなどのテキストレイアウト要素を含むドキュメント画像を変換する方法であって、
・抽出されたレイアウト要素をスキャンファイルの指示子中に含めるステップを特徴とする、方法。
指示子がファイル名である、請求項１に記載の方法。
指示子がスキャンファイルを含むｅメールメッセージの件名である、請求項１に記載の方法。
スキャンされた画像の少なくとも一部を、前景プロパティもしくは背景プロパティを有する画素の値に基づいて、レイアウト要素に自動的に分割するが分割結果を表示しない、前処理ステップをさらに含む方法であって、
スキャンされた画像内の抽出エリアを自動的に決定するステップが、分割ステップの結果に基づく、請求項１から３のいずれか一項に記載の方法。
特にユーザが、抽出エリア中に含まれるべきさらなるメタデータ要素中の、少なくともさらなる選択ポイントを示すことによって抽出エリアを調整するために、選択コマンドへの補足動作を受け入れることをさらに含む、請求項４に記載の方法。
マウスボタンのクリックやマウスホイールの操作などのユーザによる補足的な制御事象が実行されると、抽出エリアのサイズを自動的に増減させることによって、抽出エリアを調整することをさらに含む、請求項４に記載の方法。
画素を、前景プロパティを有するその値に基づいて前景画素として自動的に分類するステップをさらに含む方法であって、
画像内の抽出エリアを自動的に決定するステップが、選択ポイントで示される前景画素に対して所定の接続距離をおいて接続される前景画素に基づく、請求項１から３のいずれか一項に記載の方法。
抽出エリアを決定することが、
・選択ポイントで示された前景画素を含むことと、
・接続された領域に含まれる他の前景画素から接続距離内にある、さらなる前景画素を段階的に含むことと、
・接続された領域を完全に囲い込むエリアに抽出エリアを設定することと
によって、接続された領域を自動的に発生するステップを含む、請求項７に記載の方法。
接続距離が、接続方向、特に、水平方向、垂直方向または想定される読み取り方向に依存して設定される、請求項８に記載の方法。
入力ドキュメント画像がより低い解像度に変換され、画素を分類するステップと抽出エリアを決定するステップがより低い解像度の画像に対して実行される、請求項７、８または９に記載の方法。
選択コマンドに対して補足がなされるとそれに応じて、接続距離を自動的に適合させることをさらに含み、選択コマンドに対する補足動作が、ユーザがさらなる選択ポイントを示す動作を含む、請求項８に記載の方法。
マウスボタンのクリックやマウスホイールの操作などのユーザの補足的な制御事象に応じて、自動的に接続距離を増減させることをさらに含む、請求項８に記載の方法。
・ドキュメント画像をスキャンし、スキャンファイルを生成するスキャナ（２１）と、
・画像の少なくとも一部をユーザに対して表示するディスプレイ（２３）と、
・画像中のメタデータ要素中の選択ポイントを含む選択コマンドをユーザから受信するユーザインタフェース（２５）と、
・選択ポイントによって示されるレイアウト要素に基づいてスキャンされた画像内の抽出エリアを自動的に決定することと、抽出エリア中の画素を処理することによってレイアウト要素を抽出することとを実行可能な処理ユニット（２４）とを備える、ワードやワードのグループなどのテキストレイアウト要素を含むドキュメント画像をスキャンし、これによって、画像素子の強度および／または色を表す値を各々が有する画素を含む画像データのスキャンファイルを生成するスキャン装置であって、
処理ユニット（２４）が、抽出されたレイアウト要素をスキャンファイルの指示子中に収める動作も実行可能であることを特徴とする、
スキャン装置。
処理ユニット（２４）が、抽出されたレイアウト要素を含むスキャンファイルのファイル名を自動的に生成する、請求項１３に記載の装置。
処理ユニット（２４）が、スキャンファイルを含むｅメールメッセージを自動的に生成し、また、抽出されたレイアウト要素をメッセージの「件名」フィールドに含める、請求項１３または１４に記載の装置。
処理ユニット（２４）が、スキャンされた画像の少なくとも一部を、前景プロパティまたは背景プロパティを有する画素の値に基づいてレイアウト要素に、自動的に分割する前処理モジュールを含み、
処理ユニット（２４）が、スキャンされた画像内の抽出エリアを前処理モジュールの分割結果に基づいて決定する、
請求項１３に記載の装置。
処理ユニット（２４）が、画素を、前景プロパティを有する画素の値に基づいて前景画素として自動的に分類し、
画像内の抽出エリアを、選択ポイントで示された前景画素に対して所定の接続距離をおいて接続された前景画素に基づいて決定する、
請求項１３に記載の装置。
ドキュメントスキャナ装置と接続されて、請求項１から１２のいずれか一項に記載の方法を実行する、コンピュータプログラム。
ドキュメントスキャナ装置と接続されて、請求項１から１２のいずれか一項に記載の方法を実行する、キャリアに記憶されたコンピュータプログラム。