JP2005228302A

JP2005228302A - 位置エンコードされた文書画像の分析およびラベル付け

Info

Publication number: JP2005228302A
Application number: JP2005001434A
Authority: JP
Inventors: Jian Wang; ワンジャン; Liyong Chen; チェンリヨン; Yingnong Dang; ダンインノン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-01-06
Filing date: 2005-01-06
Publication date: 2005-08-25
Also published as: EP1553485A2; RU2004139190A; AU2004242472A1; CN100517368C; US7581171B2; RU2360303C2; KR20050072699A; CN1637775A; BRPI0500009A; US20050149865A1; ZA200410391B; TW200525455A; CA2491586A1; MXPA05000367A; EP1553485B1; EP1553485A3

Abstract

【課題】位置エンコードされた文書画像の分析およびラベル付けを提供すること。
【解決手段】迷路パターン透かしなどの位置エンコードされた情報を含む文書画像の分析と、テキストなどの文書の内容が位置エンコーディング情報を覆う程度に基づいて画像にラベル付けを行う。そのような覆いの程度に応じて、カメラによって取り込まれた画像の文書内の位置を判定するのに十分な位置エンコーディングビットを、文書のカメラによって取り込まれた画像から抽出することが不可能になる場合がある。分析ラベル付けモジュールが、画像生成取り込みモジュールによって出力される画像データおよびオフライントレーニングデータを入力として受け取り、分析ラベル付け処理を実行し、画像ラベル情報を出力する。文書分析ラベル付け処理の結果を、位置エンコードされた文書内のカメラによって取り込まれた画像の位置を効率的に判定するのに使用することができる。
【選択図】図１１

Description

本発明の実施形態は、位置エンコードされた（ｐｏｓｉｔｉｏｎａｌｌｙｅｎｃｏｄｅｄ）媒体とデジタルペンの間の相互作用に関し、より詳細には、本発明の実施形態は、文書の内容が位置エンコーディング情報を覆う程度に基づいた、位置エンコードされた情報を含む文書画像のラベル付けに関する。

コンピュータユーザは、パーソナルコンピュータと対話する形として、マウスおよびキーボードを使用することに慣れている。パーソナルコンピュータは、書かれる文書に対して多くの利点を有するが、ほとんどのユーザは、印刷される紙を使用する特定の機能を実行している。これらの機能の一部に、書かれた文書を読み、注釈を付ける機能が含まれる。注釈の場合に、ユーザによって書かれた注釈のゆえに、印刷された文書がより重要になる。しかし、注釈を有する印刷された文書を用いることの１つの問題点は、後に電子形式の文書に注釈を入力する必要があることである。これは、オリジナルユーザまたは別のユーザが、注釈全体を読み進め、それをパーソナルコンピュータに入力することを必要とする。ある場合には、ユーザは、注釈およびオリジナルテキストを読み取り、これによって新しい文書を作成する。これらの複数のステップのために、印刷された文書とその文書のデジタルバージョンとの間の相互作用を基本的な操作を繰り返すことによって処理することは難しい。さらに、読み取られた画像は、多くの場合、変更不能である。注釈をオリジナルテキストから分離する方法がない場合がある。これによって、注釈を使用することが困難になる。したがって、注釈を扱う改善された方法が必要である。

Douglas W. Clark and Lih-Jyh Weng, "Maximal and Near-Maximal Shift Register Sequences: Efficient Event Counters and Easy Discrete Logarithms," IEEE Transactions on Computers 43.5 (May 1994, pp 560-568)

手書き情報を取り込む技法の１つが、書いている間に位置を判定できるペンを使用することによるものである。この機能を提供するペンの１つが、ＡｎｏｔｏＩｎｃ．社のＡｎｏｔｏｐｅｎである。このペンは、カメラを使用して、事前定義のパターンを用いてエンコードされた紙の画像を取り込むことによって機能する。画像パターンの例を、図２１に示す。このパターンを（Ａｎｏｔｏ社の）Ａｎｏｔｏｐｅｎによって使用し、紙の上でのペンの位置が判定される。しかし、Ａｎｏｔｏｐｅｎによって使用されるシステムによる位置の判定がどれほど効率的であるかは不確かである。取り込まれた画像の位置の効率的な判定を提供するために、取り込まれた画像の効率的なデコードを提供するシステムが必要である。

文書に注釈を付ける時に、ユーザは、文書に関してペン先を移動することによって、文書にマークを付けることができる。ペン先の経路に、複数のストロークが含まれる場合があり、各ストロークは、一連の取り込まれた画像に対応する。したがって、文書の注釈を処理するためのペンの経路の効率的な識別が望ましい。

透かしを入れられた迷路パターンなどの位置エンコードされた情報の一部は、テキストおよび／またはグラフィックスなどの文書の内容によって覆われる可能性がある。文書の内容が、文書の１区域の位置エンコーディング情報の比較的小さい量を覆う（または覆わない）時に、文書内の区域の位置を、位置を判定する高費用の計算を実行せずに効率的に判定することができる。しかし、文書の内容が、文書の１区域の位置エンコーディング情報の比較的多い量を覆う時には、より計算集中型の技法を使用して、文書内の区域の位置を判定する必要が生じる場合がある。したがって、位置エンコーディング情報が覆われる量が比較的少ない場合と、覆われる量が比較的多い場合とを区別する技法が、ユーザが位置エンコードされた情報を含む文書と相互作用する効率を高めるために望ましい。

本発明の実施形態は、迷路パターンなどの位置エンコードされた情報を含む文書画像を分析し、取り込まれた画像にラベル付けを行うことに関する。そのような文書分析の結果を用いて、位置エンコードされた文書内のカメラによって取り込まれた画像の位置を効率的に判定することができる。

システムに、画像取り込みモジュールおよび分析ラベル付けモジュール（ａｎａｌｙｓｉｓ−ａｎｄ−ｌａｂｅｌｉｎｇｍｏｄｕｌｅ）が含まれる。分析ラベル付けモジュールは、画像取り込みモジュールによって出力された取り込まれた画像およびオフライントレーニングデータを入力として受け取り、分析ラベル付け処理を実行し、画像ラベル情報を出力する。

印刷された文書は、迷路パターンによって透かしを入れられる。そのような迷路パターンは、テキストなどの文書の内容によって覆われる可能性がある。そのような覆いの程度によっては、カメラによって取り込まれた画像の文書内の位置を判定するのに十分な位置エンコーディングビットを、カメラによって取り込まれた画像から抽出することが不可能になる場合がある。

透かしを入れられた文書画像を、分析し、ラベル付けを行う。分析およびラベル付けは、文書内の特定の位置での迷路パターンの可視性の程度に基づく、透かしを入れられた文書内のｘ−ｙ位置を判定する能力に関連する。

本発明の追加の特徴および長所は、後述の詳細な説明を検討する時に明かになる。

本発明の前述の要約ならびに好ましい実施形態の次の詳細な説明は、添付する図面と共に読まれる時によりよく理解されるが、添付する図面は、請求される発明に関する制限ではなく、例として含まれる。

本発明の態様は、より大きい画像に関する取り込まれた画像の位置の判定に関する。本明細書に記載の位置判定の方法およびシステムは、マルチファンクションペンと組み合わせて使用することができる。

下記は、読者の利益のために見出しによって区切られている。見出しには、用語、汎用コンピュータ、画像取り込みペン、配列のエンコード、デコード、エラー訂正、位置判定、ならびにカメラによって取り込まれた画像の分析およびラベル付けが含まれる。

（Ｉ．用語）
ペン − インクをたくわえる能力を含んでも含まなくてもよいすべての書き込み器具。いくつかの例で、インク機能を有しないスタイラスを、本発明の実施形態に従ってペンとして使用することができる。

カメラ − 紙または他の媒体から画像を取り込むことができる画像取り込みシステム。

（ＩＩ．汎用コンピュータ）
図１は、本発明の様々な態様を実施するために使用することができる、普通の汎用デジタルコンピュータ環境の例の機能ブロック図である。図１では、コンピュータ１００に、処理ユニット１１０、システムメモリ１２０、およびシステムメモリを含む様々なシステムコンポーネントを処理ユニット１１０に接続するシステムバス１３０が含まれる。システムバス１３０は、メモリバスまたはメモリコントローラ、周辺バス、および様々なバスアーキテクチャのいずれかを使用するローカルバスを含む複数の種類のバス構造のいずれかとすることができる。システムメモリ１２０に、読み取り専用メモリ（ＲＯＭ）１４０およびランダムアクセスメモリ（ＲＡＭ）１５０が含まれる。

起動中などにコンピュータ１００内の要素の間で情報を転送することを助ける基本ルーチンを含む基本入出力システム１６０（ＢＩＯＳ）が、ＲＯＭ１４０に保管される。コンピュータ１００には、ハードディスク（図示せず）から読み取り、これに書き込むハードディスクドライブ１７０、取外し可能な磁気ディスク１９０から読み取り、これに書き込む磁気ディスクドライブ１８０、およびＣＤＲＯＭまたは他の光媒体などの取外し可能な光ディスク１９２から読み取るか、これに書き込む光ディスクドライブ１９１も含まれる。ハードディスクドライブ１７０、磁気ディスクドライブ１８０、および光ディスクドライブ１９１は、それぞれハードディスクドライブインターフェース１９２、磁気ディスクドライブインターフェース１９３、および光ディスクドライブインターフェース１９４によってシステムバス１３０に接続される。ドライブおよびそれに関連するコンピュータ読み取り可能な媒体は、パーソナルコンピュータ１００のコンピュータ読み取り可能な命令、データ構造、プログラムモジュール、および他のデータの不揮発性ストレージを提供する。磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、および類似物など、コンピュータによってアクセス可能なデータを保管することができる他の種類のコンピュータ読み取り可能な媒体も、例示のオペレーティング環境で使用できることは、当業者に理解されるであろう。

オペレーティングシステム１９５、１つまたは複数のアプリケーションプログラム１９６、他のプログラムモジュール１９７、およびプログラムデータ１９８を含む複数のプログラムモジュールを、ハードディスクドライブ１７０、磁気ディスク１９０、光ディスク１９２、ＲＯＭ１４０、またはＲＡＭ１５０に保管することができる。ユーザは、キーボード１０１およびポインティングデバイス１０２などの入力装置を介して、コンピュータ１００にコマンドおよび情報を入力することができる。他の入力装置（図示せず）に、マイクロホン、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナ、または類似物を含めることができる。これらおよび他の入力装置は、しばしば、システムバスに結合されるシリアルポートインターフェース１０６を介して処理ユニット１１０に接続されるが、パラレルポート、ゲームポート、またはＵＳＢ（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）などの他のインターフェースによって接続することができる。さらに、これらの装置を、適当なインターフェース（図示せず）を介してシステムバス１３０に直接に結合することができる。モニタ１０７または他の種類のディスプレイ装置も、ビデオアダプタ１０８などのインターフェースを介してシステムバス１３０に接続される。モニタのほかに、パーソナルコンピュータに、通常は、スピーカおよびプリンタなどの他の周辺出力装置（図示せず）が含まれる。好ましい実施形態では、ペンデジタイザ１６５および付随するペンまたはスタイラス１６６が、手書き入力をデジタルに取り込むために設けられる。ペンデジタイザ１６５とシリアルポートの直接接続が図示されているが、実際には、当技術分野で既知のように、ペンデジタイザ１６５を、パラレルポートまたは他のインターフェースおよびシステムバス１３０を介して処理ユニット１１０に直接に結合することができる。さらに、デジタイザ１６５が、モニタ１０７と別に図示されているが、デジタイザ１６５の使用可能な入力領域が、モニタ１０７の表示領域と同一の広がりを有することが好ましい。さらに、デジタイザ１６５を、モニタ１０７と一体化することができ、あるいは、モニタ１０７の上に置かれるか、または他の形で追加される別々の装置として存在することができる。

コンピュータ１００は、リモートコンピュータ１０９などの１つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク化された環境で動作することができる。リモートコンピュータ１０９は、サーバ、ルータ、ネットワークＰＣ、ピア装置、または他の一般的なネットワークノードとすることができ、通常は、コンピュータ１００に関して上で説明した要素の多くまたはすべてが含まれるが、図１には、メモリストレージ装置１１１だけを示した。図１に示された論理接続に、ローカルエリアネットワーク（ＬＡＮ）１１２および広域ネットワーク（ＷＡＮ）１１３が含まれる。そのようなネットワーキング環境は、オフィス、会社規模のコンピュータネットワーク、イントラネット、およびインターネットで一般的なものである。

ＬＡＮネットワーキング環境で使用される時に、コンピュータ１００は、ネットワークインターフェースまたはネットワークアダプタ１１４を介してローカルネットワーク１１２に接続される。ＷＡＮネットワーキング環境で使用される時に、パーソナルコンピュータ１００に、通常、インターネットなどの広域ネットワーク１１３を介する通信を確立する、モデム１１５または他の手段が含まれる。モデム１１５は、内蔵または外付けとすることができるが、シリアルポートインターフェース１０６を介してシステムバス１３０に接続される。ネットワーク化された環境では、パーソナルコンピュータ１００に関して図示したプログラムモジュールまたはその一部を、リモートメモリストレージ装置に保管することができる。

図示のネットワーク接続が、例示的であり、コンピュータ間の通信リンクを確立する他の技法を使用できることを理解されたい。ＴＣＰ／ＩＰ、イーサネット（登録商標）、ＦＴＰ、ＨＴＴＰ、Ｂｌｕｅｔｏｏｔｈ、ＩＥＥＥ８０２．１１ｘ、および類似物などの様々な周知のプロトコルのいずれかが仮定され、このシステムは、クライアント−サーバ構成で動作し、ユーザがウェブベースサーバからウェブページを取り出すことを可能にする。様々な普通のウェブブラウザを使用して、ウェブページのデータを表示し、操作することができる。

（ＩＩＩ．画像取り込みペン）
本発明の態様に、エンコードされたデータストリームを、それを表す表示形式に置換することが含まれる（例えば、図４Ｂについて説明するように、エンコードされたデータストリームを使用して、グラフィカルパターンを作成する）。表示形式は、印刷された紙（または他の物理媒体）とするか、別の画像または画像群と共にエンコードされたデータストリームを投影するディスプレイとすることができる。例えば、エンコードされたデータストリームは、（例えば、文書のテキストを表す）紙の上の物理的なグラフィカル画像または表示される画像にオーバーレイするグラフィカル画像とするか、ディスプレイスクリーン上の物理的（変更不能）グラフィカル画像とすることができる（したがって、ペンによって取り込まれた画像部分を、ディスプレイスクリーン上で突き止めることができる）。

取り込まれた画像の位置のこの判定を用いて、紙、媒体、またはディスプレイスクリーンとのユーザとの相互作用の位置を判定することができる。本発明のいくつかの態様で、ペンを、紙に書き込むインクペンとすることができる。他の態様で、ペンを、ユーザがコンピュータディスプレイの表面で書くのに用いられるスタイラスとすることができる。任意の相互作用を、文書上のエンコードされた画像の知識を有するか、またはコンピュータスクリーンに表示される文書をサポートするシステムに戻すことができる。ペンまたはスタイラスが文書を横切る際にペンまたはスタイラス内のカメラを用いて画像を繰り返し取り込むことによって、システムは、ユーザが制御するスタイラスの移動を追跡することができる。表示された画像または印刷された画像を、空白の紙またはコンテンツ豊富な紙に関連する透かしとすることができ、または、スクリーンに重ねられる、もしくはスクリーンに組み込まれている、表示される画像もしくは固定コーディングに関連する透かしとすることができる。

図２Ａおよび２Ｂに、カメラ２０３を有するペン２０１の例を示す。ペン２０１に、インクつぼを含んでも含まなくてもよいペン先２０２が含まれる。カメラ２０３は、表面２０７からの画像２０４を取り込む。ペン２０１には、さらに、破線の箱２０６で表される追加のセンサおよび／またはプロセッサを含めることができる。これらのセンサおよび／またはプロセッサ２０６に、別のペン２０１および／またはパーソナルコンピュータに情報を（例えば、Ｂｌｕｅｔｏｏｔｈまたは他の無線プロトコルを介して）送信する能力を含めることもできる。

図２Ｂは、カメラ２０３が捉える画像を表す。一例では、カメラ２０３の視野（すなわち、カメラの画像センサの解像度）が、３２×３２ピクセルである（Ｎ＝３２である）。この実施形態では、取り込まれる画像（３２ピクセル×３２ピクセル）が、カメラ２０３によって取り込まれる表面平面の約５ｍｍ×５ｍｍの区域に対応する。したがって、図２Ｂには、長さ３２ピクセル×幅３２ピクセルの視野が示されている。Ｎのサイズは、調整可能であり、より大きいＮは、より高い画像解像度に対応する。また、カメラ２０３の視野が、例示のためにこの図では正方形として示されているが、当技術分野で既知のように、視野に他の形状を含むことができる。

カメラ２０３によって取り込まれる画像は、画像フレームの列｛Ｉ_ｉ｝として定義することができ、このＩ_ｉは、ペン２０１によって、サンプリング時刻ｔ_ｉに取り込まれる。サンプリングレートは、システムコンフィギュレーションおよび性能要件に応じて、これより小さくまたはこれより大きくすることができる。取り込まれる画像フレームのサイズは、システムコンフィギュレーションおよび性能要件に応じて、これより小さくまたはこれより大きくすることができる。

カメラ２０３によって取り込まれる画像は、処理システムによって直接に使用することができ、あるいは、事前フィルタリングを受けることができる。この事前フィルタリングは、ペン２０１内で行うことができ、あるいは、ペン２０１の外部（例えばパーソナルコンピュータ内）で行うことができる。

図２Ｂの画像サイズは、３２×３２ピクセルである。各コーディングユニットサイズが３×３ピクセルである場合に、取り込まれるエンコードされたユニットの数は、約１００ユニットになる。エンコーディングユニットサイズが５×５ピクセルの場合には、取り込まれるエンコードされたユニットの数は、約３６になる。

図２Ａには、位置２０４からのパターンの画像２１０が形成される像平面２０９も示す。物体平面２０７のパターンから受け取られる光が、レンズ２０８によって集光される。レンズ２０８は、単一のレンズまたは複数部分のレンズ系とすることができるが、ここでは、図を単純にするために単一レンズとして表されている。画像取り込みセンサ２１１が、画像２１０を取り込む。

画像センサ２１１は、画像２１０を取り込むのに十分な大きさとすることができる。またはそれに替えて、画像センサ２１１を、位置２１２においてペン先２０２の画像を取り込むのに十分な大きさとすることができる。参照のため、位置２１２での画像を、仮想ペン先と呼ぶ。画像センサ２１１に関する仮想ペン先位置は、ペン先、レンズ２０８、および画像センサ２１１の間の一定の関係のゆえに、固定されていることに留意されたい。

次の変換Ｆ_Ｓ→Ｐによって、カメラによって取り込まれた画像内の位置座標が、紙の上の実際の画像の位置座標に変換される。

Ｌ_{ｐａｐｅｒ}＝Ｆ_Ｓ→Ｐ（Ｌ_{Ｓｅｎｓｏｒ}）
書込中に、ペン先と紙は、同一平面にある。したがって、仮想ペン先から実際のペン先への変換も、Ｆ_Ｓ→Ｐになる。

Ｌ_{ｐｅｎｔｉｐ}＝Ｆ_Ｓ→Ｐ（Ｌ_{ｖｉｒｔｕａｌ−ｐｅｎｔｉｐ}）
変換Ｆ_Ｓ→Ｐを、アフィン変換として推定することができる。これは、Ｆ_Ｓ→Ｐの推定値として、

として単純化される。ここで、θ_ｘ、θ_ｙ、ｓ_ｘ、およびｓ_ｙは、位置２０４で取り込まれるパターンの２つの方位の回転およびスケールである。さらに、取り込まれた画像を紙の上の対応する実際の画像と突き合わせることによって、Ｆ’_Ｓ→Ｐを洗練することができる。「洗練」とは、再帰法と称する種類の最適化アルゴリズムによって、変換Ｆ_Ｓ→Ｐのより正確な推定値を得ることを意味する。再帰法では、行列Ｆ’_Ｓ→Ｐを初期値として扱う。洗練された推定によって、ＳとＰの間の変換がより正確に記述される。

次に、較正によって仮想ペン先の位置を判定することができる。

ペン先２０２を、紙の上の固定位置Ｌ_{ｐｅｎｔｉｐ}に置く。次に、ペンを傾け、カメラ２０３が異なるペン姿勢で一連の画像を取り込めるようにする。取り込まれる画像ごとに、変換Ｆ_Ｓ→Ｐを得ることができる。この変換から、仮想ペン先の位置Ｌ_{ｖｉｒｔｕａｌ−ｐｅｎｔｉｐ}を得ることができる。

Ｌ_{ｖｉｒｔｕａｌ−ｐｅｎｔｉｐ}＝Ｆ_Ｐ→Ｓ（Ｌ_{ｐｅｎｔｉｐ}）
ここで、Ｌ_{ｐｅｎｔｉｐ}は、（０，０）として初期化され、
Ｆ_Ｐ→Ｓ＝（Ｆ_Ｓ→Ｐ）^−１
である。

各画像から得られたＬ_{ｖｉｒｔｕａｌ−ｐｅｎｔｉｐ}の平均をとることによって、仮想ペン先の位置Ｌ_{ｖｉｒｔｕａｌ−ｐｅｎｔｉｐ}を判定することができる。Ｌ_{ｖｉｒｔｕａｌ−ｐｅｎｔｉｐ}を用いて、Ｌ_{ｐｅｎｔｉｐ}のより正確な推定値を得ることができる。数回の反復の後に、仮想ペン先の正確な位置Ｌ_{ｖｉｒｔｕａｌ−ｐｅｎｔｉｐ}を判定することができる。

ここで、仮想ペン先の位置Ｌ_{ｖｉｒｔｕａｌ−ｐｅｎｔｉｐ}がわかっている。取り込まれた画像から、変換Ｆ_Ｓ→Ｐも得ることができる。最後に、この情報を使用して、実際のペン先の位置Ｌ_{ｐｅｎｔｉｐ}を判定することができる。

Ｌ_{ｐｅｎｔｉｐ}＝Ｆ_Ｓ→Ｐ（Ｌ_{ｖｉｒｔｕａｌ−ｐｅｎｔｉｐ}）
（ＩＶ．配列のエンコード）
１次元列を折り畳むことによって、２次元配列を構築することができる。十分に多数のビットを含む２次元配列の任意の一部を使用して、完全な２次元配列でのその位置を判定することができる。しかし、１つまたは少数の取り込まれた画像から位置を判定する必要がある場合がある。取り込まれた画像が２次元配列内の複数の位置に関連する可能性を最小にするために、非反復的な列を使用して、配列を作成することができる。作成される列の特性の１つが、列がある長さ（またはウィンドウ）ｎにわたって繰り返されないことである。次に、１次元列の作成と、配列への列の折り畳みを説明する。

（ＩＶ．Ａ．列構築）
エンコーディングシステムの出発点として、数列を使用することができる。例えば、列（ｍ−列とも称する）を、体Ｆ_ｑのｑ個の要素の集合として表すことができる。ここで、ｑ＝ｐ^ｎであり、ｎ≧１、ｐは素数である。列またはｍ−列は、多項式除算を含むがこれに限定されない様々な異なる技法によって生成することができる。多項式除算を使用して、列を次のように定義することができる

ここで、Ｐ_ｎ（ｘ）は、体Ｆ_ｑ［ｘ］（ｑ^ｎ個の要素を有する）の次数ｎの原始多項式である。Ｒ_ｌ（ｘ）は、体Ｆ_ｑ［ｘ］の次数ｌ（ｌ＜ｎ）の非０多項式である。列は、２つのステップ、すなわち、（体Ｆ_ｑの要素がもたらされる）２つの多項式を分割する第１のステップと、剰余にｘをかける第２のステップとからなる反復手順を使用して作成することができる。この計算は、出力が繰返しを始める時に停止する。この処理は、線形フィードバックシフトレジスタを使用して実施することができる（非特許文献１参照）。この環境で、列の循環シフトと多項式Ｒ_ｌ（ｘ）の間の関係が確立され、Ｒ_ｌ（ｘ）を変更することによって、列が循環シフトされるだけであり、すべての循環シフトが、多項式Ｒ_ｌ（ｘ）に対応する。結果の列の特性の１つは、列が、ｑ^ｎ−１の周期を有し、１周期内で、幅（または長さ）ｎにわたって、すべての部分が、列の中に１回だけ存在することである。これを、「ウィンドウプロパティ（ｗｉｎｄｏｗｐｒｏｐｅｒｔｙ）」と称する。周期ｑ^ｎ−１を列の長さとも称し、ｎを列の次数とも称する。

上述した処理は、ウィンドウプロパティを有する列の作成に使用できる様々な処理の１つにすぎない。

（ＩＶ．Ｂ．配列構築）
（その一部をカメラによって取り込むことができる）画像の作成に使用できる配列（またはｍ−配列）は、１次元の列またはｍ−列の拡張である。Ａが、周期（ｍ_１，ｍ_２）の配列である、すなわち、Ａ（ｋ＋ｍ_１，ｌ）＝Ａ（ｋ，ｌ＋ｍ_２）＝Ａ（ｋ，ｌ）であるものとする。ｎ_１×ｎ_２ウィンドウが、Ａの周期の中でシフトされる時に、体Ｆ_ｑのすべての非０ｎ_１×ｎ_２行列が、１回だけ現れる。この特性を、各ウィンドウが一意であるという点で、「ウィンドウプロパティ」とも称する。ウィンドウを、周期（ｍ_１，ｍ_２）（ｍ_１およびｍ_２は、配列内に存在するビットの水平の個数および垂直の個数である）および次数（ｎ_１，ｎ_２）の配列として表すことができる。

２進配列（またはｍ−配列）は、この列を折り畳むことによって構築することができる。１つの手法は、列を入手し、配列の長さがＬ＝ｍ_１×ｍ_２＝２^ｎ−１である場合に、ｍ_１×ｍ_２のサイズに折り畳むことである。代替案では、所定のサイズの含めたい空間（例えば１枚の紙、３０枚の紙、またはコンピュータモニタのサイズ）から始め、区域（ｍ_１×ｍ_２）を判定し、そのサイズを使用して、Ｌ≧ｍ_１×ｍ_２（ただしＬ＝２^ｎ−１）にすることである。

様々な異なる折り畳み技法を使用することができる。例えば、図３Ａから３Ｃに、３つの異なる列を示す。これらのそれぞれを、図３Ｄに示された配列に折り畳むことができる。３つの異なる折り畳み方法は、図３Ｄでオーバーレイとして示され、図３Ｅおよび３Ｆでラスタパスとして示されている。ここでは、図３Ｄに示された折り畳み方法を使用する。

図３Ｄに示された折り畳み方法を作成するために、長さＬ、次数ｎの列｛ａ_ｉ｝を作成する。次に、サイズｍ_１×ｍ_２の配列｛ｂ_ｋｌ｝（ただし、ｇｃｄ（ｍ_１，ｍ_２）＝１かつＬ＝ｍ_１×ｍ_２）を、配列の各ビットを
ｂ_ｋｌ＝ａ_ｉ、ただしｋ＝ｉｍｏｄ（ｍ_１）、ｌ＝ｉｍｏｄ（ｍ_２）、ｉ＝０，．．．，Ｌ−１（１）
によって計算することによって、列｛ａ_ｉ｝から作成する。

この折り畳み方法は、その代わりに、配列の対角線に列を置き、端に達した時に反対の端から継続するように表現されることができる。

図４Ａに、図３Ｄの配列をエンコードするのに使用できるサンプルのエンコード技法を示す。他のエンコーディング技法を使用できることを理解されたい。例えば、代替コーディング技法を、図１１に示す。

図４Ａを参照すると、第１ビット４０１（例えば「１」）が、暗いインクの列によって表される。第２ビット４０２（例えば「０」）が、暗いインクの行によって表される。任意の色のインクを使用して、様々なビットを表すことができることを理解されたい。選択されるインクの色における唯一の要件は、画像取り込みシステムによって区別可能になるように、媒体の背景に対して大きなコントラストをもたらすことである。図４Ａのビットは、セルの３×３行列によって表される。行列のサイズは、画像取り込みシステムのサイズおよび解像度に基づく任意のサイズに変更することができる。ビット０および１の代替表現を、図４Ｃから４Ｅに示す。図４Ａから４Ｅのサンプルコーディングの１または０の表現を、影響なしに切り替えられることを理解されたい。図４Ｃに、インターリーブ配置で２つの行または列を占めるビット表現を示す。図４Ｄに、破線の形で行または列を占めるピクセルの代替の配置を示す。最後に、図４Ｅに、不規則な間隔フォーマット（例えば、２つの暗いドットと１つの空白ドット）で行および列を占めるピクセル表現を示す。

図４Ａに戻ると、あるビットが、３×３行列によって表され、画像処理システムが、３×３領域内で１つの暗い行と２つの白い行を検出する場合に、０（または１）が検出される。１つの暗い列と２つの白い列を有する画像が検出される場合に、１（または０）が検出される。

ここでは、複数のピクセルまたはドットが、１つのビットを表すのに使用される。単一のピクセル（またはドット）を使用して１つのビットを表す方法は、脆弱である。ほこり、紙の折れ目、平らでない表面などによって、データ単位の単一ビット表現の読み取りが難しくなる。しかし、異なる手法を用いて、表面で配列をグラフィカルに表現できることを理解されたい。いくつかの手法を、図４Ｃから４Ｅに示す。他の手法も使用できることを理解されたい。空間的にシフトされたドットだけを使用する１つの手法を、図１１に示す。

ビットストリームを使用して、図４Ｂのグラフィカルパターン４０３を作成する。グラフィカルパターン４０３には、１２個の行と１８個の列が含まれる。行および列は、ビット表現４０１および４０２を使用してグラフィカル表現に変換されたビットストリームによって形成される。図４Ｂは、次のビット表現を有するものと見ることができる。

（Ｖ．デコード）
ある人が、図２Ａのペンを用いて書くか、エンコードされたパターンの近くにペンを移動する時に、カメラが、画像を取り込む。例えば、ペン２０１が、紙に押し付けられる時および紙の上の文書を横切る際に、圧力センサを使用することができる。その画像を処理して、エンコードされた画像の完全な表現に関して取り込まれた画像の方位を判定し、取り込まれた画像を構成するビットを抽出する。

取り込まれた画像の、エンコードされた領域全体に関する方位を判定するために、図５Ａから５Ｄに示された４つの知覚可能な角のすべてがグラフィカルパターン４０３に存在することができないことがわかる。実際に、正しい方位であれば、図５Ａに示された型の角は、グラフィカルパターン４０３に存在し得ない。したがって、図５Ａに示された型の角がない方位が、正しい方位である。

図６に移ると、カメラ２０３によって取り込まれた画像を分析して、その方位を判定することにより、その取り込まれた画像は、画像６０１によって実際に表される位置に関して解釈可能にすることができる。まず、画像６０１を再検討して、ピクセルが水平および垂直に整列するように画像を回転するのに必要な角度θを判定する。水平および垂直以外の配置への基礎になるグリッドの回転（例えば４５°）を含む代替のグリッド配置が可能であることに留意されたい。ユーザは、まず垂直パターンおよび水平パターンに気付く傾向があるので、水平および垂直以外の配置を使用することにより、視覚的にユーザの注意をそらすものを排除する可能性のある利点を提供することができる。説明を単純にするために、グリッドの方位（基礎になるグリッドの水平、垂直、および他の回転）を、まとめて予め定められたグリッド方位と称する。

次に、画像６０１を分析して、どの角が欠けているかを判定する。画像６０１を、デコードの準備ができた画像６０３に回転するのに必要な回転量ｏは、ｏ＝（θ＋｛どの角が欠けているかによって定められる｝回転量）として示される。回転量は、図７の式によって示される。図６に戻ると、角度θは、まず、ピクセルの水平および垂直（または他の事前定義のグリッド方位）配置に達するピクセルのレイアウトによって決定され、画像が、６０２に示されているように回転される。次に、分析を行って、欠けている角を判定し、画像６０２を画像６０３に回転して、デコードのために画像をセットアップする。ここで、画像は、反時計回りに９０°回転され、その結果、画像６０３が、正しい方位を有するようになり、デコードに使用できるようになる。

回転角度θを、欠けている角を考慮するために画像６０１を回転する前または後に適用できることを理解されたい。また、取り込まれた画像のノイズを考慮することによって、４つのすべての型の角が存在し得ることを理解されたい。各型の角の数を数え、最も少ない数を有する型を、欠けている角の型として選択することができる。

最後に、画像６０３内のコードを読み出し、画像４０３の作成に使用された最初のビットストリームと相関させる。この相関は、複数の形で実行することができる。例えば、この相関は、回復されたビットストリームを、最初のビットストリーム内の他のすべてのビットストリームの断片と比較する、再帰的手法によって実行することができる。第２に、回復されたビットストリームと最初のビットストリームとの間で、例えば２つのビットストリーム間のハミング距離を使用することによって、統計分析を実行することができる。様々な手法を用いて、元のビットストリーム内の回復されたビットストリームの位置を判定できることを理解されたい。

回復されたビットを得たならば、最初の配列（例えば、図４Ｂに示されたもの）で取り込まれた画像の位置を突き止める必要がある。配列全体の中でのビットのセグメントの位置を判定する処理は、複数の項目によって複雑になる。第１に、取り込まれた実際のビットが、隠される場合がある（例えば、カメラが、元のコードを隠す手書きの画像を取り込む場合がある）。第２に、ごみ、折れ目、反射などによって、取り込まれる画像のエラーが作られる場合もある。これらのエラーによって、位置突き止めプロセスが難しくなる。これに関して、画像取り込みシステムが、画像から抽出される非シーケンシャルビットを用いて機能する必要がある場合がある。次に、画像からの非シーケンシャルビットを用いて動作する方法を示す。

列（またはｍ−列）Ｉが、べき級数Ｉ（ｘ）＝１／Ｐ_ｎ（ｘ）に対応し、ｎが、ｍ−列の次数であり、取り込まれた画像に、ＩのＫ個のビットｂ＝（ｂ_０ｂ_１ｂ_２．．．ｂ_Ｋ−１）^ｔが含まれ、Ｋ≧ｎであり、添字ｔが、行列またはベクトルの転置を表すものとする。Ｋ個のビットの位置ｓは、ｂ_０が列の先頭にシフトされるようにする、Ｉの循環シフトの回数である。そのときに、このシフトされた列Ｒは、べき級数ｘ^ｓ／Ｐ_ｎ（ｘ）、またはＲ＝Ｔ^ｓ（Ｉ）に対応し、Ｔは、循環シフト演算子である。このｓは、間接的に見つかる。Ｐ_ｎ（ｘ）を法とする多項式は、体を形成する。ｘ^ｓ≡ｒ_０＋ｒ_１ｘ＋．．．ｒ_ｎ−１ｘ^ｎ−１ｍｏｄ（Ｐ_ｎ（ｘ））であることが保証される。したがって、（ｒ_０，ｒ_１，．．．，ｒ_ｎ−１）を見つけることができ、ｓの解を見つけることができる。

関係ｘ^ｓ≡ｒ_０＋ｒ_１ｘ＋．．．ｒ_ｎ−１ｘ^ｎ−１ｍｏｄ（Ｐ_ｎ（ｘ））は、Ｒ＝ｒ_０＋ｒ_１Ｔ（Ｉ）＋．．．＋ｒ_ｎ−１Ｔ^ｎ−１（Ｉ）であることを意味する。これを２進一次方程式で書くと、
Ｒ＝ｒ’Ａ（２）
になる。ここで、ｒ＝（ｒ_０ｒ_１ｒ_２．．．ｒ_ｎ−１）^ｔであり、Ａ＝（ＩＴ（Ｉ）．．．Ｔ^ｎ−１（Ｉ））^ｔであり、これは０シフトから（ｎ−１）シフトまでのＩの循環シフトからなる。ｒを解くために、疎なＫビットだけが、Ｒで使用可能である。Ｒのｂ_ｉとｂ_０のインデックスの差が、ｋ_ｉ（ｉ＝１，２，．．．，ｋ−１）であるものとすると、Ｒの１番目と（ｋ_ｉ＋１）番目（ｉ＝１，２，．．．，ｋ−１）の要素は、正確にｂ_０，ｂ_１，．．．，ｂ_ｋ−１である。Ａの１番目と（ｋ_ｉ＋１）番目（ｉ＝１，２，．．．，ｋ−１）の要素を選択することによって、次の２進一次方程式が形成される。

ｂ’＝ｒ’Ｍ（３）
ここで、Ｍは、Ａのｎ×Ｋ部分行列である。

ｂにエラーがない場合には、ｒの解を

と表すことができる。ここで

は、Ｍの非縮退ｎ×ｎ部分行列であり、

は、ｂの対応する部分ベクトルである。

ｒがわかっていれば、Ｐｏｈｌｉｇ−Ｈｅｌｌｍａｎ−Ｓｉｌｖｅｒアルゴリズム（非特許文献１参照）を使用して、ｘ^ｓ≡ｒ_０＋ｒ_１ｘ＋．．．ｒ_ｎ−１ｘ^ｎ−１ｍｏｄ（Ｐ_ｎ（ｘ））になるｓを見つけることができる。

行列Ａ（ｎ×Ｌのサイズであり、Ｌ＝２^ｎ−１）が巨大になる場合があるので、行列Ａ全体を保管することは避けなければならない。実際に、上のプロセスで見たように、インデックス差ｋ_ｉを有する抽出されたビットを与えられて、Ａの１番目および（ｋ_ｉ＋１）番目の列だけが、計算に関係する。そのようなｋ_ｉの選択は、取り込まれた画像のサイズに対して非常に限られている。したがって、計算に使用される列だけを保存する必要がある。そのような列の総数は、（Ｌ＝２^ｎ−１がｍ−列の長さである場合に）Ｌよりはるかに小さい。

（ＶＩ．エラー訂正）
ｂにエラーが存在する場合、ｒの解決は複雑になる。エラー訂正を伴うデコードの従来の方法は、簡単に適用できない可能性がある。というのは、取り込まれたビットに関連する行列Ｍが、取り込まれた画像ごとに異なる可能性があるからである。

本発明では、統計学的な手法を使用する。ｂのエラービットの数ｎ_ｅが、Ｋと比較して相対的に小さいと仮定すると、ｂおよび対応する、縮退していないＭの部分行列

のＫ個のビットから正しいｎ個のビットが選ばれる確率は、高い。

選択されたｎ個のビットがすべて正しい時に、ｂ’とｒ’Ｍとの間のハミング距離またはｒに関連するエラービットの数は、最小値にならなければならず、ｒは、式（４）を介して計算される。この処理を複数回繰り返すことによって、最小値のエラービットをもたらす正しいｒを識別できる可能性は高い。

最小個数のエラービットに関連する唯一のｒがある場合には、それが正しい解とみなされる。そうではなく、最小個数のエラービットに関連する複数のｒがある場合には、ｎ_ｅが、Ｍによって生成されるコードのエラー訂正能力を超える可能性が高く、デコードプロセスはエラーになる。システムは、次に取り込まれた画像の処理に進むことができる。もう１つの実施形態では、ペンの前の位置に関する情報を考慮に入れることができる。すなわち、取り込まれた画像の各々について、次にペンがあると期待できる宛先領域を識別することができる。例えば、ユーザが、カメラによって取り込まれる２つの画像の間でペンを持ち上げなかった場合に、第２の画像の取り込みによって判定されるペンの位置は、第１の位置から遠過ぎてはならない。最小個数のエラービットに関連する各ｒを検査して、ｒから計算される位置ｓが、局地的な制約を満足するか、すなわち、位置が指定された宛先領域内であるか否かを調べることができる。

位置ｓがローカル制約を満足する場合、配列内の抽出されたビットのＸ，Ｙ位置が返される。そうでない場合には、デコード処理はエラーになる。

図８に、取り込まれた画像の列（またはｍ−列）内の位置を判定するのに使用できる処理を示す。まず、ステップ８０１で、取り込まれた画像に関するデータストリームを受け取る。ステップ８０２で、対応する列をＡから抽出し、行列Ｍを構築する。

ステップ８０３で、ｎ個の独立の列ベクトルを、行列Ｍからランダムに選択し、式（４）を解くことによってベクトルｒを判定する。この処理を、ステップ８０４でＱ回（例えば１００回）繰り返す。ループ回数の判定は、セクション「ループ回数の計算」で説明する。

ステップ８０５で、ｒを、それに関連するエラービットの個数に従ってソートする。ソートは、当技術分野で既知の様々なソーティングアルゴリズムを用いて行うことができる。例えば、選択ソートアルゴリズムを用いることができる。選択ソートアルゴリズムは、数Ｑが多くない時に有益である。しかし、Ｑが多い場合には、多数の項目をより効率的にソートできる他のソーティングアルゴリズム（例えばマージソート）を使用することができる。

システムは、ステップ８０６で、複数のｒが最小個数のエラービットに関連するか否かを検査することによって、エラー訂正が成功裡に実行されたか否かを判定する。そうである場合に、ステップ８０９でエラーを返し、デコード処理が失敗したことを示す。そうでない場合には、ステップ８０７で、例えばＰｏｈｉｇ−Ｈｅｌｌｍａｎ−Ｓｉｌｖｅｒアルゴリズムを用いて、列（またはｍ−列）の抽出されたビットの位置ｓを計算する。

次に、ステップ８０８で、配列内の（Ｘ，Ｙ）位置を、ｘ＝ｓｍｏｄｍ_１およびｙ＝ｓｍｏｄｍ_２として計算し、その結果を返す。

（ＶＩＩ．位置判定）
図９に、ペン先の位置を判定する処理を示す。入力は、カメラによって取り込まれた画像であり、出力は、ペン先の位置座標とすることができる。また、出力に、取り込まれた画像の回転角度などの他の情報を含めることができる（含めないこともできる）。

ステップ９０１で、カメラから画像を受け取る。次に、（ステップ９０２の破線の輪郭によって示されるように）ステップ９０２で、任意に受け取った画像を前処理して、明るいピクセルと暗いピクセルとの間のコントラストの調節などを行うことができる。

次に、ステップ９０３で、画像を分析して、その中のビットストリームを判定する。

次に、ステップ９０４で、ビットストリームからｎ個のビットをランダムに複数回選択し、元の列（またはｍ−列）内の受け取ったビットストリームの位置を判定する。

最後に、取り込まれた画像の位置をステップ９０４で判定したならば、ステップ９０５で、ペン先の位置を判定することができる。

図１０に、９０３および９０４に関するさらなる詳細を示し、取り込まれた画像内のビットストリームを抽出する手法を示す。まず、ステップ１００１で、カメラから画像を受け取る。次に、（ステップ１００２の破線によって示されるように）ステップ１００２で、任意に画像に画像前処理を行うことができる。ステップ１００３で、パターンを抽出する。ここで、様々な線のピクセルを抽出して、パターンの方位および角度θを見つけることができる。

次に、ステップ１００４で、受け取った画像を分析して、基礎になるグリッド線を判定する。ステップ１００５で、グリッド線が見つかる場合に、ステップ１００６でパターンからコードを抽出する。その後、ステップ１００７でコードをデコードし、ステップ１００８でペン先の位置を判定する。ステップ１００５でグリッド線が見つからなかった場合には、ステップ１００９でエラーを返す。

（ＶＩＩＩ．透かしを入れられた文書画像：生成、分析、およびラベル付け）
本発明の実施形態は、迷路パターンなどの位置エンコードされた情報を含む文書画像の分析と、画像のラベル付けに関する。そのような文書分析の結果を、位置エンコードされた文書内のカメラによって取り込まれた画像の位置の効率的な判定に用いることができる。

図１１を参照すると、本発明の様々な実施形態によるシステム１１００に、画像生成取り込みモジュール１１０２と分析ラベル付けモジュール１１０６が含まれる。後続の分析およびラベル付けのための画像の取り込みに適する技法は、上記の画像取り込みペンという題名のセクションＩＩＩ、セクションＶＩＩＩ、および透かしを入れられたグレイスケール文書画像の生成という題名のセクションＶＩＩＩ．Ａで説明する。分析ラベル付けモジュール１１０６は、画像生成取り込みモジュール１１０２によって出力される画像データ１１０４およびオフライントレーニングデータ１１１０を入力として受け取り、下で詳細に説明する分析ラベル付け処理を実行し、画像ラベル情報１１０８を出力する。

本発明の様々な実施形態によれば、カメラ２０３が取り込む画像のサイズは、３２×３２ピクセルである。組み込まれたｍ−配列の順序（表面２０７で位置を位置エンコードするのに使用される）は、３６である、すなわち、ｍ−配列のサイズは、（２^１８＋１）×（２^１８−１）である。したがって、サブブロックｍ−配列から一意のｘ−ｙ位置をデコードするために、表面２０７での位置を判定するのに使用されるサブブロックのビット数は、少なくとも３６でなければならない。

本発明の様々な実施形態によれば、印刷された文書が、迷路パターンによって透かしを入れられる。そのような迷路パターンは、テキストなどの文書の内容によって覆われる場合がある。そのような覆う程度に応じて、カメラによって取り込まれた画像の文書内の位置を判定するのに十分なｍ−配列ビットを、カメラによって取り込まれた画像から抽出することが不可能になる場合がある。

本発明の様々な実施形態によれば、透かしを入れられた文書画像が、分析され、ラベル付けされる。分析およびラベル付けは、文書内の特定の位置の迷路パターンセルの可視性の程度に基づく、透かしを入れられた文書内のｘ−ｙ位置を判定する能力に関する。

（ＶＩＩＩ．Ａ．透かしを入れられたグレイスケール文書画像の生成）
図１２に、本発明の様々な実施形態に従って分析し、ラベル付けを行うことができる、透かしを入れられたグレイスケール文書画像を生成するステップを示す。１２００および１２０４に示されているように、電子文書を印刷された文書に対応するビットマップとするか、１２０２および１２０６に示されているように紙の文書を読み取ることによるなど、文書画像を入手する。１２０８に示されているように、ビットマップを再サンプリングして、適当な解像度にする。解像度の決定は、（１）取り込まれた画像の位置をｍ−配列デコードによって判定できない場合、位置を判定するために、取り込まれた画像が透かしを入れられたグレイスケール文書画像とマッチングされるので、文書画像の解像度が取り込まれた画像の解像度より低くなってはならず、（２）印刷された迷路パターンセルの１つが、整数個数の文書画像ピクセルにマッピングされ、その結果、マッチングアルゴリズムが効率的に働けるようにしなければならないという考慮事項に基づく。例えば、カメラの解像度が０．１５ｍｍ／ピクセルである、すなわち、物理的世界での０．１５ｍｍが１つのカメラピクセルにマッピングされる場合に、印刷される迷路パターンセルサイズは、０．４５ｍｍ×０．４５ｍｍである、すなわち、印刷される迷路パターンのセルが、カメラセンサの３×３ピクセルにマッピングされ、文書画像の解像度にも、０．１５ｍｍ／ピクセルがセットされなければならず、その結果、印刷される迷路パターンセルが、文書画像の３×３ピクセル領域にマッピングされるようになる。

得られた画像に、透かしを入れる。図１３に、文書の内容の一部１３００、位置エンコードされた迷路パターンの一部１３０２、組み合わされた内容および迷路パターン１３０４、ならびに内容および迷路パターンの一部の拡大図１３０６の画像を示す。拡大図１３０６には、（１）重ねられたテキストによって覆われるので迷路パターンセルが可視でない位置１３０８と、（２）迷路パターンセルが文書内容によって覆われず、したがって可視である位置１３１０が示されている。

（ＶＩＩＩ．Ｂ．文書画像の分析およびラベル付け）
本発明の様々な実施形態によれば、文書画像は、その画像が、迷路パターンセルと実質的に同一のサイズを有する比較的小さいブロックに分割され；これらの小さいブロックが、文書テキストなどの文書の内容によって覆われるか否かを判定し；ピクセルごとに、ウィンドウの中心としてそのピクセルを有する隣接ウィンドウ内の完全に可視のブロックの数を数え；その数に基づいてピクセルにラベル付けを行うことによって分析される。隣接ウィンドウは、カメラ２０３によって取り込まれる画像のサイズと実質的に同一のサイズすなわち、３２×３２ピクセルを有することができる。

前述の処理が、グレイスケール文書画像に透かしを入れることを必要としない、すなわち、内容を迷路パターンと組み合わせることを必要としないことに留意されたい。文書画像が、迷路パターンセルと実質的に同一のサイズを有する比較的小さいブロックに分割される限り、文書内容による迷路パターンセルの覆いの分析は、文書内容によるブロックの覆いの分析と同等である。

図１４に、そのような３２×３２ピクセル隣接ウィンドウ１４００およびその中心ピクセル１４０２の例を示す。本発明の様々な実施形態によれば、文書画像のピクセルに、次の４つの型の１つとしてラベル付けを行うことができる。

型Ｉ：（検討中のピクセルを中心とする）３２×３２ピクセル隣接ウィンドウに、実質的に位置エンコードされた迷路パターンセルだけが含まれる。

型ＩＩ：３２×３２ピクセル隣接ウィンドウに、６０個以上の可視迷路パターンセルが含まれる。

型ＩＩＩ：３２×３２ピクセル隣接ウィンドウに、３６個以上６０個以下の可視迷路パターンセルが含まれる。

型ＩＶ：３２×３２ピクセル隣接ウィンドウに、３５個以下の可視迷路パターンセルが含まれる。

本発明の様々な実施形態によれば、取り込まれた画像の中心が、型Ｉまたは型ＩＩの領域に配置される時に、文書内の画像の位置を、ｍ−配列デコードによって一意に決定することができる。

図１５に、各ピクセルの３２×３２隣接ウィンドウ内で可視である迷路パターンセルの量に基づいて文書の諸部分がどの型（すなわち型Ｉ、ＩＩ、ＩＩＩ、またはＩＶ）にラベル付けされるかを表すために文書の領域が着色（または陰付け）されている、例の文書の文書分析結果を示す。

可視迷路パターンセルの数を数える際に、３２×３２ピクセル隣接ウィンドウを３６０°回転して、カメラがある角度で文書の画像を取り込んだ可能性があるという事実を考慮に入れなければならないことに留意されたい。しかし、実施を簡単にするために、傾いていないビューだけが分析され、傾斜角度によって引き起こされるエラーは、ピクセルの型を判定する際の閾値で考慮に入れられる。例えば、図１６に、取り込まれた画像が４５°回転されている場合を示す。これは、可視迷路パターンセルの１７．２％という最大値が失われる、ワーストケースシナリオである。その場合であっても、型ＩＩピクセルは、少なくとも４９個（＝６０×（１−１７．２％））の可視迷路パターンセルを有し、これによって、ｍ−配列デコードによる一意のｘ−ｙ位置判定が可能である。言い換えると、ピクセルが、型ＩまたはＩＩとしてラベル付けされる場合に、カメラがどの角度で画像を取り込んだかに無関係に、ｍ−配列デコードを用いてｘ−ｙ位置を判定するのに十分な数の可視迷路パターンセルがある。その結果、取り込んだ画像をデコードできない場合には、その画像が型ＩＩＩまたはＩＶの領域にある可能性が高い。

十分な迷路パターンセルが可視ではないので、ペンストロークの画像の列からｘ−ｙ位置をデコードできない場合には、検索アルゴリズムを使用して、文書内の型ＩＩＩおよびＩＶピクセル領域などの画像の位置を判定する。そのような検索アルゴリズムを、型ＩＩＩおよびＩＶの領域だけで使用することによって、文書の実質的にすべての部分に関する検索アルゴリズムの使用に対して、画像の位置の判定の計算費用が減る。例えば、図１５の例の文書では、領域の１３．７％だけが、型ＩＩＩ（１１．１％）または型ＩＶ（２．６％）としてラベル付けされる。文書全体を検索することに関連する計算費用は、型ＩＩＩおよびＩＶ領域だけの検索の費用よりはるかに高い。一実施形態で、文書全体の検索に１０秒超を要するが、型ＩＩＩおよびＩＶ領域だけの検索に１秒未満を要する場合がある。文書画像分析によって、計算費用が大幅に減る。

（ＩＸ．カメラによって取り込まれた画像のラベル付け）
カメラによって取り込まれた画像に、文書画像の分析およびラベル付けと題した上のセクションＶＩＩＩ．Ｂ．で説明した４つの型によってラベル付けを行うことができる。カメラによって取り込まれた画像に、実質的に位置エンコードされた迷路パターンだけが含まれるかどうかに関する判定を行うことができる。言い換えると、画像が型Ｉ画像であるか否かに関する判定を行うことができる。この初期判定を、下で詳細に説明する。

カメラによって取り込まれた画像が、型Ｉ画像でない場合に、カメラによって取り込まれた画像の位置エンコードされた迷路パターンを分析して、画像から抽出できる位置エンコーディングビットの数を判定することができる。迷路パターングリッド線のパラメータ（各次元に沿ったスケールおよび回転すなわちアフィン変換）が、まず計算され、その後、迷路パターンが埋め込まれた最初の方向（または四分円）が判定される。その結果、ｍ−配列ビット情報が、グリッド線およびバーの方向に基づいて判定される。抽出されるビット数が約６０を超える場合に、画像は型ＩＩとしてラベル付けされ、約３６ビットと６０ビットの間のビットが抽出される場合に、画像は型ＩＩＩとしてラベル付けされ、約３６ビットより少ないビットが抽出される場合に、画像は型ＩＶとしてラベル付けされる。カメラによって取り込まれた画像をこの形で分類するために、下の、スレッショルディングアルゴリズム（ｔｈｒｅｓｈｏｌｄｉｎｇａｌｇｏｒｉｔｈｍ）と題するセクションＩＸ．Ｂ．で説明するスレッショルディングアルゴリズムを用いて、テキスト領域から迷路パターン領域を分離することができる。その後、抽出されたビットの数に基づいて、画像にラベル付けを行う。型Ｉ、ＩＩ、およびＩＩＩから抽出されたビットは、カメラによって取り込まれた画像の、より大きい文書内のｘ−ｙ位置を判定するのに使用することができる。この型の位置判定処理は、型ＩＶ画像について省略することができる。というのは、型ＩＶ画像に、ｘ−ｙ位置デコードに十分なビットが含まれないからである。

画像に、文書内容と迷路パターンの両方ではなく、実質的に位置エンコードされた迷路パターンだけが含まれるか否かを判定するために、グラディエント画像ヒストグラムのサポート間隔（support interval of gradient image histogram、ＳＩＧＩＨ）と称する特徴を、本発明の様々な実施形態に従って使用することができる。ＳＩＧＩＨは、純粋な迷路パターン画像に、通常はエッジが含まれないが、文書内容が、多くの場合、迷路パターンセルまたは空白領域よりはるかに暗いので、テキストなどの文書内容を有する画像に、通常はエッジが含まれるという知識に基づいて使用される。

（ＩＸ．Ａ．特徴抽出）
本発明の様々な実施形態によれば、特徴抽出の第１ステップは、グラディエント画像（ｇｒａｄｉｅｎｔｉｍａｇｅ）を得るのに使用できる、Ｓｏｂｅｌエッジ演算子（Ｓｏｂｅｌｅｄｇｅｏｐｅｒａｔｏｒ）または別のグラディエント演算子などのグラディエント演算子である。図１７を参照すると、２つの畳み込みカーネル１７００および１７０２が、Ｓｏｂｅｌエッジ演算子を形成する。Ｓｏｂｅｌエッジ演算子を使用するために、画像の各ピクセルを、畳み込みカーネル１７００および１７０２の両方を用いて畳み込む。一方のカーネルは、全般に垂直のエッジに最大限応答し、他方のカーネルは、水平のエッジに最大限応答する。この２つの畳み込みの「ベクトル和」値が、特定のピクセルの出力値としてとられる。その結果が、グラディエント画像である。

グラディエント演算子によって作られたグラディエント画像のヒストグラムを計算することができる。グラディエント画像ヒストグラム（ＳＩＧＩＨ）のサポート間隔を、グラディエント画像のヒストグラムから得ることができる。例えば、図１８に、迷路パターンだけを含む取り込まれた画像のグラディエント画像のヒストグラムを示す。ＳＩＧＩＨ特徴は、１７であり、これは、図１８のヒストグラムの、非０の値を有する、ｘ軸に沿った最大値である。

図１９に、テキストおよび／または１つまたは複数の図などの文書内容を含む取り込まれた画像のグラディエント画像のヒストグラムを示す。ＳＩＧＩＨ特徴は、図１９のヒストグラムでは４４である。

（ＩＸ．Ｂ．スレッショルディングアルゴリズム）
本発明の様々な実施形態に従って画像が型Ｉであるか否かを判定するスレッショルディングアルゴリズムは、２つのセッションすなわち（１）オフライントレーニング、および（２）オンラインラベル付けに分割することができる。

（ＩＸ．Ｂ．１．オフライントレーニング。）
オフライントレーニングセッションでは、ＳＩＧＩＨ特徴を、既知のラベル（すなわち型Ｉ、ＩＩ、ＩＩＩ、またはＩＶ）を有する比較的多数の画像について計算することができる。純迷路パターン画像のＳＩＧＩＨは、多くの場合、他の型の画像のＳＩＧＩＨより低い。最適閾値ηは、トレーニングデータの処理の結果に基づいて選択することができる。トレーニングセット中の実質的にすべての純迷路パターン画像について、そのＳＩＧＩＨはη未満であり、実質的にすべての非純迷路パターン画像について、そのＳＩＧＩＨはηを超える。図２０に、ηすなわち最適閾値２００４が、３２になるように選択されたオフライントレーニングの例の結果を示す。この図には、純迷路パターン画像に対応するヒストグラムバー２００２と、非純迷路パターン画像（すなわち、文書内容を含む画像）に対応するヒストグラムバー２００６も示されている。

（ＩＸ．Ｂ．２．オンラインラベル付け）
オンラインラベル付け中に、取り込まれた画像のそれぞれのＳＩＧＩＨが計算される。ＳＩＧＩＨがηより小さい場合に、画像は型Ｉ画像としてラベル付けされる。そうではなく、ＳＩＧＩＨがηより大きい場合、画像は型Ｉ以外の型（すなわち、型ＩＩ、ＩＩＩ、およびＩＶ）としてラベル付けされる。

上の文書分析およびラベル付けに関する議論では、取り込まれた画像の内容が、比較的一貫性を有することが前提である。言い換えると、画像センサの増幅器および／またはカメラの照明条件が比較的一貫性を有することが前提である。この条件が、大幅に変化する場合に、特徴パラメータを更新するために新しいトレーニングを実行することができる。

（Ｘ．最後に）
上で説明したものは、本発明の原理の適用の例にすぎない。当業者は、本発明の趣旨および範囲から逸脱せずに他の配置および方法を実施することができる。本発明の方法のいずれをも、コンピュータディスクまたは他のコンピュータ読み取り可能な媒体に保管できるソフトウェアで実施することができる。

本発明の実施形態と共に使用することができるコンピュータの全般的な説明を示す図である。本発明の実施形態による画像取り込みシステムを示す図である。本発明の実施形態による取り込まれた画像を示す図である。本発明の実施形態によるシーケンスを示す図である。本発明の実施形態によるシーケンスを示す図である。本発明の実施形態によるシーケンスを示す図である。本発明の実施形態によるシーケンスおよび折り畳み技法を示す図である。本発明の実施形態による折り畳み技法を示す図である。本発明の実施形態による折り畳み技法を示す図である。本発明の実施形態によるエンコーディングシステムを示す図である。本発明の実施形態によるエンコーディングシステムを示す図である。本発明の実施形態によるエンコーディングシステムを示す図である。本発明の実施形態によるエンコーディングシステムを示す図である。本発明の実施形態によるエンコーディングシステムを示す図である。図４Ａおよび４Ｂによるエンコーディングシステムに関連する４つの可能な結果の角の１つを示す図である。図４Ａおよび４Ｂによるエンコーディングシステムに関連する４つの可能な結果の角の１つを示す図である。図４Ａおよび４Ｂによるエンコーディングシステムに関連する４つの可能な結果の角の１つを示す図である。図４Ａおよび４Ｂによるエンコーディングシステムに関連する４つの可能な結果の角の１つを示す図である。本発明の実施形態による、取り込まれた画像の一部の回転を示す図である。図４Ａから４Ｅのコーディングシステムと共に使用される回転の様々な角度を示す図である。本発明の実施形態による、取り込まれた配列の位置を判定する処理を示す図である。本発明の実施形態による、取り込まれた画像の位置を判定する処理を示す図である。本発明の実施形態による、取り込まれた画像の位置を判定するもう１つの処理を示す図である。本発明の様々な実施形態による、画像取り込みモジュールと分析ラベル付けモジュールを示す図である。本発明の様々な実施形態に従って分析し、ラベル付けを行うことができる、透かしを入れられたグレイスケール文書画像を生成するステップを示す図である。文書の内容の一部、位置エンコードされた迷路パターンの一部、組み合わされた内容および迷路パターン、ならびに内容および迷路パターンの一部の拡大図の画像を示す図である。図１３に示された組み合わされた文書および迷路パターンの、サブウィンドウおよびサブウィンドウの中心のピクセルを示す図である。本発明の様々な実施形態による例の文書の文書分析結果を示す図である。非０回転角度および４５°回転角度を有する、カメラによって取り込まれた画像を示す図である。Ｓｏｂｅｌエッジ演算子を形成する２つの畳み込みカーネルを示す図である。迷路パターンだけを含む取り込まれた画像のグラディエント画像のヒストグラムを示す図である。文書内容を含む取り込まれた画像のグラディエント画像のヒストグラムを示す図である。純迷路パターンの画像と文書内容を含む画像の間の区別のために選択される閾値を含む、オフライントレーニングの例の結果を示す図である。従来技術による文書内のエンコーディングスペースの代表を示す図である。

符号の説明

１００コンピュータ
１７０ハードディスクドライブ
１８０磁気ディスクドライブ
１９１光ディスクドライブ
２０１ペン
２０２ペン先
２０３カメラ
２０４位置
２０５位置
２０６追加のセンサおよび／またはプロセッサ
２０７物体平面
２０８レンズ
２０９像平面
２１０画像
２１１画像センサ
２１２位置
１１００本発明の様々な実施形態によるシステム
１３００本文の内容の一部
１３０２迷路パターンの一部
１３０４組み合わされた内容および迷路パターン
１３０６内容および迷路パターンの一部の拡大図
１４００３２×３２ピクセル隣接ウィンドウ
１７００畳み込みカーネル
１７０２畳み込みカーネル

Claims

文書画像から抽出できるエンコードされた位置情報の量を示す位置エンコードされた情報を含む前記文書画像にラベル付けを行う方法であって、
前記文書画像を得るステップと、
少なくとも、実質的に位置エンコードされた情報だけを含み、かつ実質的に文書内容を含まない第１の型、ならびに前記位置エンコードされた情報の少なくとも一部を覆う文書内容を含む第２の型から選択される型となるように前記文書画像にラベル付けを行うステップと
を備えたことを特徴とする方法。
前記文書画像を得るステップは、電子文書を印刷された文書に対応するビットマップ表現とするステップを含むことを特徴とする請求項１に記載の方法。
前記文書画像を得るステップは、読み取られた紙の文書を処理するステップを含むことを特徴とする請求項１に記載の方法。
前記第２の型は、前記文書内容による前記位置エンコードされた情報を覆うそれぞれ異なる程度を表す複数の下位の型に分割されることを特徴とする請求項１に記載の方法。
カメラによって取り込まれた画像から抽出できるエンコードされた位置情報の量を示す位置エンコードされた情報を含む前記画像にラベル付けを行う方法であって、
前記カメラによって取り込まれた画像を得るステップと、
少なくとも、実質的に位置エンコードされた情報だけを含み、かつ実質的に文書内容を含まない第１の型、および前記位置エンコードされた情報の少なくとも一部を覆う文書内容を含む第２の型から選択される型となるように前記画像にラベル付けを行うステップと
を備えたことを特徴とする方法。
前記画像が前記第１の型または前記第２の型のいずれであるかを判定するために、グラディエント画像ヒストグラムのサポート間隔が使用されることを特徴とする請求項５に記載の方法。
グラディエント画像を得るために前記画像にグラディエント演算子を用いるステップをさらに備えたことを特徴とする請求項６に記載の方法。
前記グラディエント演算子は、Ｓｏｂｅｌエッジ演算子であることを特徴とする請求項７に記載の方法。
前記グラディエント画像のヒストグラムを生成するステップをさらに備えたことを特徴とする請求項８に記載の方法。
前記グラディエント画像ヒストグラムのサポート間隔として、非０の値を有する前記ヒストグラムのｘ軸上の最大値を使用するステップをさらに備えたことを特徴とする請求項９に記載の方法。
オフライントレーニングセッションおよびオンラインラベル付けセッションは、前記画像が前記第１の型および前記第２の型のいずれであるかを判定するのに使用されることを特徴とする請求項６に記載の方法。
前記第１の型の画像と前記第２の型の画像とを区別するために使用される閾値は、トレーニングデータ画像に対して実行される前記オフライントレーニングセッションの結果に基づいて選択されることを特徴とする請求項１１に記載の方法。
前記閾値は、前記オンラインラベル付けセッション中に、前記画像が前記第１の型または前記第２の型のいずれであるかを判定するため、前記画像のグラディエント画像ヒストグラムの前記サポート間隔と比較されることを特徴とする請求項１２に記載の方法。
文書画像から抽出されるエンコードされた位置情報の量を示す位置エンコードされた情報を含む前記文書画像にラベル付けを行うシステムであって、
前記文書画像を得る画像生成取り込みモジュールと、
少なくとも、実質的に位置エンコードされた情報だけを含み、かつ実質的に文書内容を含まない第１の型、および前記位置エンコードされた情報の少なくとも一部を覆う文書内容を含む第２の型から選択される型となるように前記文書画像にラベル付けを行う分析ラベル付けモジュールと
を備えたことを特徴とするシステム。
前記画像生成取り込みモジュールは、電子文書を印刷された文書に対応するビットマップ表現とすることを特徴とする請求項１４に記載のシステム。
前記画像生成取り込みモジュールは、読み取られた紙の文書を処理することを特徴とする請求項１４に記載のシステム。
前記第２の型は、前記文書内容による前記位置エンコードされた情報を覆うそれぞれ異なる程度を表す複数の下位の型に分割されることを特徴とする請求項１４に記載のシステム。
カメラによって取り込まれた画像から抽出されるエンコードされた位置情報の量を示すために、位置エンコードされた情報を含む前記画像にラベル付けを行うシステムであって、
前記カメラによって取り込まれた画像を得る画像生成取り込みモジュールと、
少なくとも、実質的に位置エンコードされた情報だけを含み、かつ実質的に文書内容を含まない第１の型、および前記位置エンコードされた情報の少なくとも一部を覆う文書内容を含む第２の型から選択される型となるように前記画像にラベル付けを行う分析ラベル付けモジュールと
を備えたことを特徴とするシステム。
前記画像が前記第１の型または前記第２の型のいずれであるかを判定するために、グラディエント画像ヒストグラムのサポート間隔が使用されることを特徴とする請求項１８に記載のシステム。
前記分析ラベル付けモジュールは、グラディエント画像を得るために前記画像にグラディエント演算子を用いることを特徴とする請求項１９に記載のシステム。
前記グラディエント演算子は、Ｓｏｂｅｌエッジ演算子であることを特徴とする請求項２０に記載のシステム。
前記分析ラベル付けモジュールは、前記グラディエント画像のヒストグラムを生成することを特徴とする請求項１９に記載のシステム。
前記分析ラベル付けモジュールは、前記グラディエント画像ヒストグラムのサポート間隔として、非０の値を有する前記ヒストグラムのｘ軸上の最大値を使用することを特徴とする請求項２２に記載のシステム。
前記分析ラベル付けモジュールは、前記画像が前記第１の型および前記第２の型のいずれであるかを判定するために、オフライントレーニングセッションおよびオンラインラベル付けセッションを実行することを特徴とする請求項２３に記載のシステム。
前記第１の型の画像と前記第２の型の画像とを区別するために使用される閾値は、トレーニングデータ画像に対して実行される前記オフライントレーニングセッションの結果に基づいて選択されることを特徴とする請求項２４に記載のシステム。
前記分析ラベル付けモジュールは、前記オンラインラベル付けセッション中に、前記画像が前記第１の型または前記第２の型のいずれであるかを判定するため、前記閾値を前記画像のグラディエント画像ヒストグラムのサポート間隔と比較することを特徴とする請求項２５に記載のシステム。
文書画像から抽出されるエンコードされた位置情報の量を示す位置エンコードされた情報を含む前記文書画像にラベル付けを行うコンピュータ読み取り可能な命令を備えたコンピュータ読み取り可能な媒体であって、
前記文書画像を得るステップと、
少なくとも、実質的に位置エンコードされた情報だけを含み、かつ実質的に文書内容を含まない第１の型、および前記位置エンコードされた情報の少なくとも一部を覆う文書内容を含む第２の型から選択される型となるように前記文書画像にラベル付けを行うステップと
を実行することによってラベル付けすることを特徴とするコンピュータ読み取り可能な媒体。
前記文書画像を得るステップは、電子文書を印刷された文書に対応するビットマップ表現とするステップを含むことを特徴とする請求項２７に記載のコンピュータ読み取り可能な媒体。
前記文書画像を得るステップは、読み取られた紙の文書を処理するステップをさらに含むことを特徴とする請求項２７に記載のコンピュータ読み取り可能な媒体。
前記第２の型は、前記文書内容による前記位置エンコードされた情報を覆うそれぞれ異なる程度を表す複数の下位の型に分割されることを特徴とする請求項２７に記載のコンピュータ読み取り可能な媒体。
カメラによって取り込まれた画像から抽出されるエンコードされた位置情報の量を示す位置エンコードされた情報を含む前記画像にラベル付けを行うコンピュータ読み取り可能な命令を備えたコンピュータ読み取り可能な媒体であって、
前記カメラによって取り込まれた画像を得るステップと、
少なくとも、実質的に位置エンコードされた情報だけを含み、かつ実質的に文書内容を含まない第１の型、および前記位置エンコードされた情報の少なくとも一部を覆う文書内容を含む第２の型から選択される型となるように前記画像にラベル付けを行うステップと
を実行することによってラベル付けすることを特徴とするコンピュータ読み取り可能な媒体。
前記画像が前記第１の型または前記第２の型のいずれであるかを判定するために、グラディエント画像ヒストグラムのサポート間隔が使用されることを特徴とする請求項３１に記載のコンピュータ読み取り可能な媒体。
グラディエント画像を得るために前記画像にグラディエント演算子を用いるステップを実行するコンピュータ実行可能命令をさらに備えたことを特徴とする請求項３２に記載のコンピュータ読み取り可能な媒体。
前記グラディエント演算子は、Ｓｏｂｅｌエッジ演算子であることを特徴とする請求項３３に記載のコンピュータ読み取り可能な媒体。
前記グラディエント画像のヒストグラムを生成するステップを実行するコンピュータ実行可能命令をさらに備えたことを特徴とする請求項３４に記載のコンピュータ読み取り可能な媒体。
前記グラディエント画像ヒストグラムのサポート間隔として、非０の値を有する前記ヒストグラムのｘ軸上の最大値を使用するステップを実行するコンピュータ実行可能命令をさらに備えたことを特徴とする請求項３５に記載のコンピュータ読み取り可能な媒体。
前記画像が前記第１の型および前記第２の型のいずれであるかを判定するために、オフライントレーニングセッションおよびオンラインラベル付けセッションが使用されることを特徴とする請求項３２に記載のコンピュータ読み取り可能な媒体。
前記第１の型の画像と前記第２の型の画像とを区別するために使用される閾値は、トレーニングデータ画像に対して実行される前記オフライントレーニングセッションの結果に基づいて選択されることを特徴とする請求項３７に記載のコンピュータ読み取り可能な媒体。
前記閾値は、前記オンラインラベル付けセッション中に、前記画像が前記第１の型または前記第２の型のいずれであるかを判定するため、前記画像のグラディエント画像ヒストグラムの前記サポート間隔と比較されることを特徴とする請求項３８に記載のコンピュータ読み取り可能な媒体。