JP2005228302A - 位置エンコードされた文書画像の分析およびラベル付け - Google Patents
位置エンコードされた文書画像の分析およびラベル付け Download PDFInfo
- Publication number
- JP2005228302A JP2005228302A JP2005001434A JP2005001434A JP2005228302A JP 2005228302 A JP2005228302 A JP 2005228302A JP 2005001434 A JP2005001434 A JP 2005001434A JP 2005001434 A JP2005001434 A JP 2005001434A JP 2005228302 A JP2005228302 A JP 2005228302A
- Authority
- JP
- Japan
- Prior art keywords
- image
- type
- document
- labeling
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0354—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
- G06F3/03542—Light pens for emitting or receiving light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/0304—Detection arrangements using opto-electronic means
- G06F3/0317—Detection arrangements using opto-electronic means in co-operation with a patterned surface, e.g. absolute position or relative movement detection for an optical mouse or pen positioned with respect to a coded surface
- G06F3/0321—Detection arrangements using opto-electronic means in co-operation with a patterned surface, e.g. absolute position or relative movement detection for an optical mouse or pen positioned with respect to a coded surface by optically sensing the absolute position with respect to a regularly patterned surface forming a passive digitiser, e.g. pen optically detecting position indicative tags printed on a paper sheet
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Analysis (AREA)
Abstract
【課題】 位置エンコードされた文書画像の分析およびラベル付けを提供すること。
【解決手段】 迷路パターン透かしなどの位置エンコードされた情報を含む文書画像の分析と、テキストなどの文書の内容が位置エンコーディング情報を覆う程度に基づいて画像にラベル付けを行う。そのような覆いの程度に応じて、カメラによって取り込まれた画像の文書内の位置を判定するのに十分な位置エンコーディングビットを、文書のカメラによって取り込まれた画像から抽出することが不可能になる場合がある。分析ラベル付けモジュールが、画像生成取り込みモジュールによって出力される画像データおよびオフライントレーニングデータを入力として受け取り、分析ラベル付け処理を実行し、画像ラベル情報を出力する。文書分析ラベル付け処理の結果を、位置エンコードされた文書内のカメラによって取り込まれた画像の位置を効率的に判定するのに使用することができる。
【選択図】 図11
【解決手段】 迷路パターン透かしなどの位置エンコードされた情報を含む文書画像の分析と、テキストなどの文書の内容が位置エンコーディング情報を覆う程度に基づいて画像にラベル付けを行う。そのような覆いの程度に応じて、カメラによって取り込まれた画像の文書内の位置を判定するのに十分な位置エンコーディングビットを、文書のカメラによって取り込まれた画像から抽出することが不可能になる場合がある。分析ラベル付けモジュールが、画像生成取り込みモジュールによって出力される画像データおよびオフライントレーニングデータを入力として受け取り、分析ラベル付け処理を実行し、画像ラベル情報を出力する。文書分析ラベル付け処理の結果を、位置エンコードされた文書内のカメラによって取り込まれた画像の位置を効率的に判定するのに使用することができる。
【選択図】 図11
Description
本発明の実施形態は、位置エンコードされた(positionally encoded)媒体とデジタルペンの間の相互作用に関し、より詳細には、本発明の実施形態は、文書の内容が位置エンコーディング情報を覆う程度に基づいた、位置エンコードされた情報を含む文書画像のラベル付けに関する。
コンピュータユーザは、パーソナルコンピュータと対話する形として、マウスおよびキーボードを使用することに慣れている。パーソナルコンピュータは、書かれる文書に対して多くの利点を有するが、ほとんどのユーザは、印刷される紙を使用する特定の機能を実行している。これらの機能の一部に、書かれた文書を読み、注釈を付ける機能が含まれる。注釈の場合に、ユーザによって書かれた注釈のゆえに、印刷された文書がより重要になる。しかし、注釈を有する印刷された文書を用いることの1つの問題点は、後に電子形式の文書に注釈を入力する必要があることである。これは、オリジナルユーザまたは別のユーザが、注釈全体を読み進め、それをパーソナルコンピュータに入力することを必要とする。ある場合には、ユーザは、注釈およびオリジナルテキストを読み取り、これによって新しい文書を作成する。これらの複数のステップのために、印刷された文書とその文書のデジタルバージョンとの間の相互作用を基本的な操作を繰り返すことによって処理することは難しい。さらに、読み取られた画像は、多くの場合、変更不能である。注釈をオリジナルテキストから分離する方法がない場合がある。これによって、注釈を使用することが困難になる。したがって、注釈を扱う改善された方法が必要である。
Douglas W. Clark and Lih-Jyh Weng, "Maximal and Near-Maximal Shift Register Sequences: Efficient Event Counters and Easy Discrete Logarithms," IEEE Transactions on Computers 43.5 (May 1994, pp 560-568)
手書き情報を取り込む技法の1つが、書いている間に位置を判定できるペンを使用することによるものである。この機能を提供するペンの1つが、Anoto Inc.社のAnoto penである。このペンは、カメラを使用して、事前定義のパターンを用いてエンコードされた紙の画像を取り込むことによって機能する。画像パターンの例を、図21に示す。このパターンを(Anoto社の)Anoto penによって使用し、紙の上でのペンの位置が判定される。しかし、Anoto penによって使用されるシステムによる位置の判定がどれほど効率的であるかは不確かである。取り込まれた画像の位置の効率的な判定を提供するために、取り込まれた画像の効率的なデコードを提供するシステムが必要である。
文書に注釈を付ける時に、ユーザは、文書に関してペン先を移動することによって、文書にマークを付けることができる。ペン先の経路に、複数のストロークが含まれる場合があり、各ストロークは、一連の取り込まれた画像に対応する。したがって、文書の注釈を処理するためのペンの経路の効率的な識別が望ましい。
透かしを入れられた迷路パターンなどの位置エンコードされた情報の一部は、テキストおよび/またはグラフィックスなどの文書の内容によって覆われる可能性がある。文書の内容が、文書の1区域の位置エンコーディング情報の比較的小さい量を覆う(または覆わない)時に、文書内の区域の位置を、位置を判定する高費用の計算を実行せずに効率的に判定することができる。しかし、文書の内容が、文書の1区域の位置エンコーディング情報の比較的多い量を覆う時には、より計算集中型の技法を使用して、文書内の区域の位置を判定する必要が生じる場合がある。したがって、位置エンコーディング情報が覆われる量が比較的少ない場合と、覆われる量が比較的多い場合とを区別する技法が、ユーザが位置エンコードされた情報を含む文書と相互作用する効率を高めるために望ましい。
本発明の実施形態は、迷路パターンなどの位置エンコードされた情報を含む文書画像を分析し、取り込まれた画像にラベル付けを行うことに関する。そのような文書分析の結果を用いて、位置エンコードされた文書内のカメラによって取り込まれた画像の位置を効率的に判定することができる。
システムに、画像取り込みモジュールおよび分析ラベル付けモジュール(analysis−and−labeling module)が含まれる。分析ラベル付けモジュールは、画像取り込みモジュールによって出力された取り込まれた画像およびオフライントレーニングデータを入力として受け取り、分析ラベル付け処理を実行し、画像ラベル情報を出力する。
印刷された文書は、迷路パターンによって透かしを入れられる。そのような迷路パターンは、テキストなどの文書の内容によって覆われる可能性がある。そのような覆いの程度によっては、カメラによって取り込まれた画像の文書内の位置を判定するのに十分な位置エンコーディングビットを、カメラによって取り込まれた画像から抽出することが不可能になる場合がある。
透かしを入れられた文書画像を、分析し、ラベル付けを行う。分析およびラベル付けは、文書内の特定の位置での迷路パターンの可視性の程度に基づく、透かしを入れられた文書内のx−y位置を判定する能力に関連する。
本発明の追加の特徴および長所は、後述の詳細な説明を検討する時に明かになる。
本発明の前述の要約ならびに好ましい実施形態の次の詳細な説明は、添付する図面と共に読まれる時によりよく理解されるが、添付する図面は、請求される発明に関する制限ではなく、例として含まれる。
本発明の態様は、より大きい画像に関する取り込まれた画像の位置の判定に関する。本明細書に記載の位置判定の方法およびシステムは、マルチファンクションペンと組み合わせて使用することができる。
下記は、読者の利益のために見出しによって区切られている。見出しには、用語、汎用コンピュータ、画像取り込みペン、配列のエンコード、デコード、エラー訂正、位置判定、ならびにカメラによって取り込まれた画像の分析およびラベル付けが含まれる。
(I.用語)
ペン − インクをたくわえる能力を含んでも含まなくてもよいすべての書き込み器具。いくつかの例で、インク機能を有しないスタイラスを、本発明の実施形態に従ってペンとして使用することができる。
ペン − インクをたくわえる能力を含んでも含まなくてもよいすべての書き込み器具。いくつかの例で、インク機能を有しないスタイラスを、本発明の実施形態に従ってペンとして使用することができる。
カメラ − 紙または他の媒体から画像を取り込むことができる画像取り込みシステム。
(II.汎用コンピュータ)
図1は、本発明の様々な態様を実施するために使用することができる、普通の汎用デジタルコンピュータ環境の例の機能ブロック図である。図1では、コンピュータ100に、処理ユニット110、システムメモリ120、およびシステムメモリを含む様々なシステムコンポーネントを処理ユニット110に接続するシステムバス130が含まれる。システムバス130は、メモリバスまたはメモリコントローラ、周辺バス、および様々なバスアーキテクチャのいずれかを使用するローカルバスを含む複数の種類のバス構造のいずれかとすることができる。システムメモリ120に、読み取り専用メモリ(ROM)140およびランダムアクセスメモリ(RAM)150が含まれる。
図1は、本発明の様々な態様を実施するために使用することができる、普通の汎用デジタルコンピュータ環境の例の機能ブロック図である。図1では、コンピュータ100に、処理ユニット110、システムメモリ120、およびシステムメモリを含む様々なシステムコンポーネントを処理ユニット110に接続するシステムバス130が含まれる。システムバス130は、メモリバスまたはメモリコントローラ、周辺バス、および様々なバスアーキテクチャのいずれかを使用するローカルバスを含む複数の種類のバス構造のいずれかとすることができる。システムメモリ120に、読み取り専用メモリ(ROM)140およびランダムアクセスメモリ(RAM)150が含まれる。
起動中などにコンピュータ100内の要素の間で情報を転送することを助ける基本ルーチンを含む基本入出力システム160(BIOS)が、ROM 140に保管される。コンピュータ100には、ハードディスク(図示せず)から読み取り、これに書き込むハードディスクドライブ170、取外し可能な磁気ディスク190から読み取り、これに書き込む磁気ディスクドライブ180、およびCD ROMまたは他の光媒体などの取外し可能な光ディスク192から読み取るか、これに書き込む光ディスクドライブ191も含まれる。ハードディスクドライブ170、磁気ディスクドライブ180、および光ディスクドライブ191は、それぞれハードディスクドライブインターフェース192、磁気ディスクドライブインターフェース193、および光ディスクドライブインターフェース194によってシステムバス130に接続される。ドライブおよびそれに関連するコンピュータ読み取り可能な媒体は、パーソナルコンピュータ100のコンピュータ読み取り可能な命令、データ構造、プログラムモジュール、および他のデータの不揮発性ストレージを提供する。磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、および類似物など、コンピュータによってアクセス可能なデータを保管することができる他の種類のコンピュータ読み取り可能な媒体も、例示のオペレーティング環境で使用できることは、当業者に理解されるであろう。
オペレーティングシステム195、1つまたは複数のアプリケーションプログラム196、他のプログラムモジュール197、およびプログラムデータ198を含む複数のプログラムモジュールを、ハードディスクドライブ170、磁気ディスク190、光ディスク192、ROM 140、またはRAM 150に保管することができる。ユーザは、キーボード101およびポインティングデバイス102などの入力装置を介して、コンピュータ100にコマンドおよび情報を入力することができる。他の入力装置(図示せず)に、マイクロホン、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナ、または類似物を含めることができる。これらおよび他の入力装置は、しばしば、システムバスに結合されるシリアルポートインターフェース106を介して処理ユニット110に接続されるが、パラレルポート、ゲームポート、またはUSB(universal serial bus)などの他のインターフェースによって接続することができる。さらに、これらの装置を、適当なインターフェース(図示せず)を介してシステムバス130に直接に結合することができる。モニタ107または他の種類のディスプレイ装置も、ビデオアダプタ108などのインターフェースを介してシステムバス130に接続される。モニタのほかに、パーソナルコンピュータに、通常は、スピーカおよびプリンタなどの他の周辺出力装置(図示せず)が含まれる。好ましい実施形態では、ペンデジタイザ165および付随するペンまたはスタイラス166が、手書き入力をデジタルに取り込むために設けられる。ペンデジタイザ165とシリアルポートの直接接続が図示されているが、実際には、当技術分野で既知のように、ペンデジタイザ165を、パラレルポートまたは他のインターフェースおよびシステムバス130を介して処理ユニット110に直接に結合することができる。さらに、デジタイザ165が、モニタ107と別に図示されているが、デジタイザ165の使用可能な入力領域が、モニタ107の表示領域と同一の広がりを有することが好ましい。さらに、デジタイザ165を、モニタ107と一体化することができ、あるいは、モニタ107の上に置かれるか、または他の形で追加される別々の装置として存在することができる。
コンピュータ100は、リモートコンピュータ109などの1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク化された環境で動作することができる。リモートコンピュータ109は、サーバ、ルータ、ネットワークPC、ピア装置、または他の一般的なネットワークノードとすることができ、通常は、コンピュータ100に関して上で説明した要素の多くまたはすべてが含まれるが、図1には、メモリストレージ装置111だけを示した。図1に示された論理接続に、ローカルエリアネットワーク(LAN)112および広域ネットワーク(WAN)113が含まれる。そのようなネットワーキング環境は、オフィス、会社規模のコンピュータネットワーク、イントラネット、およびインターネットで一般的なものである。
LANネットワーキング環境で使用される時に、コンピュータ100は、ネットワークインターフェースまたはネットワークアダプタ114を介してローカルネットワーク112に接続される。WANネットワーキング環境で使用される時に、パーソナルコンピュータ100に、通常、インターネットなどの広域ネットワーク113を介する通信を確立する、モデム115または他の手段が含まれる。モデム115は、内蔵または外付けとすることができるが、シリアルポートインターフェース106を介してシステムバス130に接続される。ネットワーク化された環境では、パーソナルコンピュータ100に関して図示したプログラムモジュールまたはその一部を、リモートメモリストレージ装置に保管することができる。
図示のネットワーク接続が、例示的であり、コンピュータ間の通信リンクを確立する他の技法を使用できることを理解されたい。TCP/IP、イーサネット(登録商標)、FTP、HTTP、Bluetooth、IEEE 802.11x、および類似物などの様々な周知のプロトコルのいずれかが仮定され、このシステムは、クライアント−サーバ構成で動作し、ユーザがウェブベースサーバからウェブページを取り出すことを可能にする。様々な普通のウェブブラウザを使用して、ウェブページのデータを表示し、操作することができる。
(III.画像取り込みペン)
本発明の態様に、エンコードされたデータストリームを、それを表す表示形式に置換することが含まれる(例えば、図4Bについて説明するように、エンコードされたデータストリームを使用して、グラフィカルパターンを作成する)。表示形式は、印刷された紙(または他の物理媒体)とするか、別の画像または画像群と共にエンコードされたデータストリームを投影するディスプレイとすることができる。例えば、エンコードされたデータストリームは、(例えば、文書のテキストを表す)紙の上の物理的なグラフィカル画像または表示される画像にオーバーレイするグラフィカル画像とするか、ディスプレイスクリーン上の物理的(変更不能)グラフィカル画像とすることができる(したがって、ペンによって取り込まれた画像部分を、ディスプレイスクリーン上で突き止めることができる)。
本発明の態様に、エンコードされたデータストリームを、それを表す表示形式に置換することが含まれる(例えば、図4Bについて説明するように、エンコードされたデータストリームを使用して、グラフィカルパターンを作成する)。表示形式は、印刷された紙(または他の物理媒体)とするか、別の画像または画像群と共にエンコードされたデータストリームを投影するディスプレイとすることができる。例えば、エンコードされたデータストリームは、(例えば、文書のテキストを表す)紙の上の物理的なグラフィカル画像または表示される画像にオーバーレイするグラフィカル画像とするか、ディスプレイスクリーン上の物理的(変更不能)グラフィカル画像とすることができる(したがって、ペンによって取り込まれた画像部分を、ディスプレイスクリーン上で突き止めることができる)。
取り込まれた画像の位置のこの判定を用いて、紙、媒体、またはディスプレイスクリーンとのユーザとの相互作用の位置を判定することができる。本発明のいくつかの態様で、ペンを、紙に書き込むインクペンとすることができる。他の態様で、ペンを、ユーザがコンピュータディスプレイの表面で書くのに用いられるスタイラスとすることができる。任意の相互作用を、文書上のエンコードされた画像の知識を有するか、またはコンピュータスクリーンに表示される文書をサポートするシステムに戻すことができる。ペンまたはスタイラスが文書を横切る際にペンまたはスタイラス内のカメラを用いて画像を繰り返し取り込むことによって、システムは、ユーザが制御するスタイラスの移動を追跡することができる。表示された画像または印刷された画像を、空白の紙またはコンテンツ豊富な紙に関連する透かしとすることができ、または、スクリーンに重ねられる、もしくはスクリーンに組み込まれている、表示される画像もしくは固定コーディングに関連する透かしとすることができる。
図2Aおよび2Bに、カメラ203を有するペン201の例を示す。ペン201に、インクつぼを含んでも含まなくてもよいペン先202が含まれる。カメラ203は、表面207からの画像204を取り込む。ペン201には、さらに、破線の箱206で表される追加のセンサおよび/またはプロセッサを含めることができる。これらのセンサおよび/またはプロセッサ206に、別のペン201および/またはパーソナルコンピュータに情報を(例えば、Bluetoothまたは他の無線プロトコルを介して)送信する能力を含めることもできる。
図2Bは、カメラ203が捉える画像を表す。一例では、カメラ203の視野(すなわち、カメラの画像センサの解像度)が、32×32ピクセルである(N=32である)。この実施形態では、取り込まれる画像(32ピクセル×32ピクセル)が、カメラ203によって取り込まれる表面平面の約5mm×5mmの区域に対応する。したがって、図2Bには、長さ32ピクセル×幅32ピクセルの視野が示されている。Nのサイズは、調整可能であり、より大きいNは、より高い画像解像度に対応する。また、カメラ203の視野が、例示のためにこの図では正方形として示されているが、当技術分野で既知のように、視野に他の形状を含むことができる。
カメラ203によって取り込まれる画像は、画像フレームの列{Ii}として定義することができ、このIiは、ペン201によって、サンプリング時刻tiに取り込まれる。サンプリングレートは、システムコンフィギュレーションおよび性能要件に応じて、これより小さくまたはこれより大きくすることができる。取り込まれる画像フレームのサイズは、システムコンフィギュレーションおよび性能要件に応じて、これより小さくまたはこれより大きくすることができる。
カメラ203によって取り込まれる画像は、処理システムによって直接に使用することができ、あるいは、事前フィルタリングを受けることができる。この事前フィルタリングは、ペン201内で行うことができ、あるいは、ペン201の外部(例えばパーソナルコンピュータ内)で行うことができる。
図2Bの画像サイズは、32×32ピクセルである。各コーディングユニットサイズが3×3ピクセルである場合に、取り込まれるエンコードされたユニットの数は、約100ユニットになる。エンコーディングユニットサイズが5×5ピクセルの場合には、取り込まれるエンコードされたユニットの数は、約36になる。
図2Aには、位置204からのパターンの画像210が形成される像平面209も示す。物体平面207のパターンから受け取られる光が、レンズ208によって集光される。レンズ208は、単一のレンズまたは複数部分のレンズ系とすることができるが、ここでは、図を単純にするために単一レンズとして表されている。画像取り込みセンサ211が、画像210を取り込む。
画像センサ211は、画像210を取り込むのに十分な大きさとすることができる。またはそれに替えて、画像センサ211を、位置212においてペン先202の画像を取り込むのに十分な大きさとすることができる。参照のため、位置212での画像を、仮想ペン先と呼ぶ。画像センサ211に関する仮想ペン先位置は、ペン先、レンズ208、および画像センサ211の間の一定の関係のゆえに、固定されていることに留意されたい。
次の変換FS→Pによって、カメラによって取り込まれた画像内の位置座標が、紙の上の実際の画像の位置座標に変換される。
Lpaper=FS→P(LSensor)
書込中に、ペン先と紙は、同一平面にある。したがって、仮想ペン先から実際のペン先への変換も、FS→Pになる。
書込中に、ペン先と紙は、同一平面にある。したがって、仮想ペン先から実際のペン先への変換も、FS→Pになる。
Lpentip=FS→P(Lvirtual−pentip)
変換FS→Pを、アフィン変換として推定することができる。これは、FS→Pの推定値として、
変換FS→Pを、アフィン変換として推定することができる。これは、FS→Pの推定値として、
として単純化される。ここで、θx、θy、sx、およびsyは、位置204で取り込まれるパターンの2つの方位の回転およびスケールである。さらに、取り込まれた画像を紙の上の対応する実際の画像と突き合わせることによって、F’S→Pを洗練することができる。「洗練」とは、再帰法と称する種類の最適化アルゴリズムによって、変換FS→Pのより正確な推定値を得ることを意味する。再帰法では、行列F’S→Pを初期値として扱う。洗練された推定によって、SとPの間の変換がより正確に記述される。
次に、較正によって仮想ペン先の位置を判定することができる。
ペン先202を、紙の上の固定位置Lpentipに置く。次に、ペンを傾け、カメラ203が異なるペン姿勢で一連の画像を取り込めるようにする。取り込まれる画像ごとに、変換FS→Pを得ることができる。この変換から、仮想ペン先の位置Lvirtual−pentipを得ることができる。
Lvirtual−pentip=FP→S(Lpentip)
ここで、Lpentipは、(0,0)として初期化され、
FP→S=(FS→P)−1
である。
ここで、Lpentipは、(0,0)として初期化され、
FP→S=(FS→P)−1
である。
各画像から得られたLvirtual−pentipの平均をとることによって、仮想ペン先の位置Lvirtual−pentipを判定することができる。Lvirtual−pentipを用いて、Lpentipのより正確な推定値を得ることができる。数回の反復の後に、仮想ペン先の正確な位置Lvirtual−pentipを判定することができる。
ここで、仮想ペン先の位置Lvirtual−pentipがわかっている。取り込まれた画像から、変換FS→Pも得ることができる。最後に、この情報を使用して、実際のペン先の位置Lpentipを判定することができる。
Lpentip=FS→P(Lvirtual−pentip)
(IV.配列のエンコード)
1次元列を折り畳むことによって、2次元配列を構築することができる。十分に多数のビットを含む2次元配列の任意の一部を使用して、完全な2次元配列でのその位置を判定することができる。しかし、1つまたは少数の取り込まれた画像から位置を判定する必要がある場合がある。取り込まれた画像が2次元配列内の複数の位置に関連する可能性を最小にするために、非反復的な列を使用して、配列を作成することができる。作成される列の特性の1つが、列がある長さ(またはウィンドウ)nにわたって繰り返されないことである。次に、1次元列の作成と、配列への列の折り畳みを説明する。
(IV.配列のエンコード)
1次元列を折り畳むことによって、2次元配列を構築することができる。十分に多数のビットを含む2次元配列の任意の一部を使用して、完全な2次元配列でのその位置を判定することができる。しかし、1つまたは少数の取り込まれた画像から位置を判定する必要がある場合がある。取り込まれた画像が2次元配列内の複数の位置に関連する可能性を最小にするために、非反復的な列を使用して、配列を作成することができる。作成される列の特性の1つが、列がある長さ(またはウィンドウ)nにわたって繰り返されないことである。次に、1次元列の作成と、配列への列の折り畳みを説明する。
(IV.A.列構築)
エンコーディングシステムの出発点として、数列を使用することができる。例えば、列(m−列とも称する)を、体Fqのq個の要素の集合として表すことができる。ここで、q=pnであり、n≧1、pは素数である。列またはm−列は、多項式除算を含むがこれに限定されない様々な異なる技法によって生成することができる。多項式除算を使用して、列を次のように定義することができる
エンコーディングシステムの出発点として、数列を使用することができる。例えば、列(m−列とも称する)を、体Fqのq個の要素の集合として表すことができる。ここで、q=pnであり、n≧1、pは素数である。列またはm−列は、多項式除算を含むがこれに限定されない様々な異なる技法によって生成することができる。多項式除算を使用して、列を次のように定義することができる
ここで、Pn(x)は、体Fq[x](qn個の要素を有する)の次数nの原始多項式である。Rl(x)は、体Fq[x]の次数l(l<n)の非0多項式である。列は、2つのステップ、すなわち、(体Fqの要素がもたらされる)2つの多項式を分割する第1のステップと、剰余にxをかける第2のステップとからなる反復手順を使用して作成することができる。この計算は、出力が繰返しを始める時に停止する。この処理は、線形フィードバックシフトレジスタを使用して実施することができる(非特許文献1参照)。この環境で、列の循環シフトと多項式Rl(x)の間の関係が確立され、Rl(x)を変更することによって、列が循環シフトされるだけであり、すべての循環シフトが、多項式Rl(x)に対応する。結果の列の特性の1つは、列が、qn−1の周期を有し、1周期内で、幅(または長さ)nにわたって、すべての部分が、列の中に1回だけ存在することである。これを、「ウィンドウプロパティ(window property)」と称する。周期qn−1を列の長さとも称し、nを列の次数とも称する。
上述した処理は、ウィンドウプロパティを有する列の作成に使用できる様々な処理の1つにすぎない。
(IV.B.配列構築)
(その一部をカメラによって取り込むことができる)画像の作成に使用できる配列(またはm−配列)は、1次元の列またはm−列の拡張である。Aが、周期(m1,m2)の配列である、すなわち、A(k+m1,l)=A(k,l+m2)=A(k,l)であるものとする。n1×n2ウィンドウが、Aの周期の中でシフトされる時に、体Fqのすべての非0n1×n2行列が、1回だけ現れる。この特性を、各ウィンドウが一意であるという点で、「ウィンドウプロパティ」とも称する。ウィンドウを、周期(m1,m2)(m1およびm2は、配列内に存在するビットの水平の個数および垂直の個数である)および次数(n1,n2)の配列として表すことができる。
(その一部をカメラによって取り込むことができる)画像の作成に使用できる配列(またはm−配列)は、1次元の列またはm−列の拡張である。Aが、周期(m1,m2)の配列である、すなわち、A(k+m1,l)=A(k,l+m2)=A(k,l)であるものとする。n1×n2ウィンドウが、Aの周期の中でシフトされる時に、体Fqのすべての非0n1×n2行列が、1回だけ現れる。この特性を、各ウィンドウが一意であるという点で、「ウィンドウプロパティ」とも称する。ウィンドウを、周期(m1,m2)(m1およびm2は、配列内に存在するビットの水平の個数および垂直の個数である)および次数(n1,n2)の配列として表すことができる。
2進配列(またはm−配列)は、この列を折り畳むことによって構築することができる。1つの手法は、列を入手し、配列の長さがL=m1×m2=2n−1である場合に、m1×m2のサイズに折り畳むことである。代替案では、所定のサイズの含めたい空間(例えば1枚の紙、30枚の紙、またはコンピュータモニタのサイズ)から始め、区域(m1×m2)を判定し、そのサイズを使用して、L≧m1×m2(ただしL=2n−1)にすることである。
様々な異なる折り畳み技法を使用することができる。例えば、図3Aから3Cに、3つの異なる列を示す。これらのそれぞれを、図3Dに示された配列に折り畳むことができる。3つの異なる折り畳み方法は、図3Dでオーバーレイとして示され、図3Eおよび3Fでラスタパスとして示されている。ここでは、図3Dに示された折り畳み方法を使用する。
図3Dに示された折り畳み方法を作成するために、長さL、次数nの列{ai}を作成する。次に、サイズm1×m2の配列{bkl}(ただし、gcd(m1,m2)=1かつL=m1×m2)を、配列の各ビットを
bkl=ai、ただしk=i mod(m1)、l=i mod(m2)、i=0,...,L−1 (1)
によって計算することによって、列{ai}から作成する。
bkl=ai、ただしk=i mod(m1)、l=i mod(m2)、i=0,...,L−1 (1)
によって計算することによって、列{ai}から作成する。
この折り畳み方法は、その代わりに、配列の対角線に列を置き、端に達した時に反対の端から継続するように表現されることができる。
図4Aに、図3Dの配列をエンコードするのに使用できるサンプルのエンコード技法を示す。他のエンコーディング技法を使用できることを理解されたい。例えば、代替コーディング技法を、図11に示す。
図4Aを参照すると、第1ビット401(例えば「1」)が、暗いインクの列によって表される。第2ビット402(例えば「0」)が、暗いインクの行によって表される。任意の色のインクを使用して、様々なビットを表すことができることを理解されたい。選択されるインクの色における唯一の要件は、画像取り込みシステムによって区別可能になるように、媒体の背景に対して大きなコントラストをもたらすことである。図4Aのビットは、セルの3×3行列によって表される。行列のサイズは、画像取り込みシステムのサイズおよび解像度に基づく任意のサイズに変更することができる。ビット0および1の代替表現を、図4Cから4Eに示す。図4Aから4Eのサンプルコーディングの1または0の表現を、影響なしに切り替えられることを理解されたい。図4Cに、インターリーブ配置で2つの行または列を占めるビット表現を示す。図4Dに、破線の形で行または列を占めるピクセルの代替の配置を示す。最後に、図4Eに、不規則な間隔フォーマット(例えば、2つの暗いドットと1つの空白ドット)で行および列を占めるピクセル表現を示す。
図4Aに戻ると、あるビットが、3×3行列によって表され、画像処理システムが、3×3領域内で1つの暗い行と2つの白い行を検出する場合に、0(または1)が検出される。1つの暗い列と2つの白い列を有する画像が検出される場合に、1(または0)が検出される。
ここでは、複数のピクセルまたはドットが、1つのビットを表すのに使用される。単一のピクセル(またはドット)を使用して1つのビットを表す方法は、脆弱である。ほこり、紙の折れ目、平らでない表面などによって、データ単位の単一ビット表現の読み取りが難しくなる。しかし、異なる手法を用いて、表面で配列をグラフィカルに表現できることを理解されたい。いくつかの手法を、図4Cから4Eに示す。他の手法も使用できることを理解されたい。空間的にシフトされたドットだけを使用する1つの手法を、図11に示す。
ビットストリームを使用して、図4Bのグラフィカルパターン403を作成する。グラフィカルパターン403には、12個の行と18個の列が含まれる。行および列は、ビット表現401および402を使用してグラフィカル表現に変換されたビットストリームによって形成される。図4Bは、次のビット表現を有するものと見ることができる。
(V.デコード)
ある人が、図2Aのペンを用いて書くか、エンコードされたパターンの近くにペンを移動する時に、カメラが、画像を取り込む。例えば、ペン201が、紙に押し付けられる時および紙の上の文書を横切る際に、圧力センサを使用することができる。その画像を処理して、エンコードされた画像の完全な表現に関して取り込まれた画像の方位を判定し、取り込まれた画像を構成するビットを抽出する。
ある人が、図2Aのペンを用いて書くか、エンコードされたパターンの近くにペンを移動する時に、カメラが、画像を取り込む。例えば、ペン201が、紙に押し付けられる時および紙の上の文書を横切る際に、圧力センサを使用することができる。その画像を処理して、エンコードされた画像の完全な表現に関して取り込まれた画像の方位を判定し、取り込まれた画像を構成するビットを抽出する。
取り込まれた画像の、エンコードされた領域全体に関する方位を判定するために、図5Aから5Dに示された4つの知覚可能な角のすべてがグラフィカルパターン403に存在することができないことがわかる。実際に、正しい方位であれば、図5Aに示された型の角は、グラフィカルパターン403に存在し得ない。したがって、図5Aに示された型の角がない方位が、正しい方位である。
図6に移ると、カメラ203によって取り込まれた画像を分析して、その方位を判定することにより、その取り込まれた画像は、画像601によって実際に表される位置に関して解釈可能にすることができる。まず、画像601を再検討して、ピクセルが水平および垂直に整列するように画像を回転するのに必要な角度θを判定する。水平および垂直以外の配置への基礎になるグリッドの回転(例えば45°)を含む代替のグリッド配置が可能であることに留意されたい。ユーザは、まず垂直パターンおよび水平パターンに気付く傾向があるので、水平および垂直以外の配置を使用することにより、視覚的にユーザの注意をそらすものを排除する可能性のある利点を提供することができる。説明を単純にするために、グリッドの方位(基礎になるグリッドの水平、垂直、および他の回転)を、まとめて予め定められたグリッド方位と称する。
次に、画像601を分析して、どの角が欠けているかを判定する。画像601を、デコードの準備ができた画像603に回転するのに必要な回転量oは、o=(θ+{どの角が欠けているかによって定められる}回転量)として示される。回転量は、図7の式によって示される。図6に戻ると、角度θは、まず、ピクセルの水平および垂直(または他の事前定義のグリッド方位)配置に達するピクセルのレイアウトによって決定され、画像が、602に示されているように回転される。次に、分析を行って、欠けている角を判定し、画像602を画像603に回転して、デコードのために画像をセットアップする。ここで、画像は、反時計回りに90°回転され、その結果、画像603が、正しい方位を有するようになり、デコードに使用できるようになる。
回転角度θを、欠けている角を考慮するために画像601を回転する前または後に適用できることを理解されたい。また、取り込まれた画像のノイズを考慮することによって、4つのすべての型の角が存在し得ることを理解されたい。各型の角の数を数え、最も少ない数を有する型を、欠けている角の型として選択することができる。
最後に、画像603内のコードを読み出し、画像403の作成に使用された最初のビットストリームと相関させる。この相関は、複数の形で実行することができる。例えば、この相関は、回復されたビットストリームを、最初のビットストリーム内の他のすべてのビットストリームの断片と比較する、再帰的手法によって実行することができる。第2に、回復されたビットストリームと最初のビットストリームとの間で、例えば2つのビットストリーム間のハミング距離を使用することによって、統計分析を実行することができる。様々な手法を用いて、元のビットストリーム内の回復されたビットストリームの位置を判定できることを理解されたい。
回復されたビットを得たならば、最初の配列(例えば、図4Bに示されたもの)で取り込まれた画像の位置を突き止める必要がある。配列全体の中でのビットのセグメントの位置を判定する処理は、複数の項目によって複雑になる。第1に、取り込まれた実際のビットが、隠される場合がある(例えば、カメラが、元のコードを隠す手書きの画像を取り込む場合がある)。第2に、ごみ、折れ目、反射などによって、取り込まれる画像のエラーが作られる場合もある。これらのエラーによって、位置突き止めプロセスが難しくなる。これに関して、画像取り込みシステムが、画像から抽出される非シーケンシャルビットを用いて機能する必要がある場合がある。次に、画像からの非シーケンシャルビットを用いて動作する方法を示す。
列(またはm−列)Iが、べき級数I(x)=1/Pn(x)に対応し、nが、m−列の次数であり、取り込まれた画像に、IのK個のビットb=(b0 b1 b2...bK−1)tが含まれ、K≧nであり、添字tが、行列またはベクトルの転置を表すものとする。K個のビットの位置sは、b0が列の先頭にシフトされるようにする、Iの循環シフトの回数である。そのときに、このシフトされた列Rは、べき級数xs/Pn(x)、またはR=Ts(I)に対応し、Tは、循環シフト演算子である。このsは、間接的に見つかる。Pn(x)を法とする多項式は、体を形成する。xs≡r0+r1x+...rn−1xn−1 mod(Pn(x))であることが保証される。したがって、(r0,r1,...,rn−1)を見つけることができ、sの解を見つけることができる。
関係xs≡r0+r1x+...rn−1xn−1 mod(Pn(x))は、R=r0+r1T(I)+...+rn−1Tn−1(I)であることを意味する。これを2進一次方程式で書くと、
R=r’A (2)
になる。ここで、r=(r0 r1 r2...rn−1)tであり、A=(I T(I)...Tn−1(I))tであり、これは0シフトから(n−1)シフトまでのIの循環シフトからなる。rを解くために、疎なKビットだけが、Rで使用可能である。Rのbiとb0のインデックスの差が、ki(i=1,2,...,k−1)であるものとすると、Rの1番目と(ki+1)番目(i=1,2,...,k−1)の要素は、正確にb0,b1,...,bk−1である。Aの1番目と(ki+1)番目(i=1,2,...,k−1)の要素を選択することによって、次の2進一次方程式が形成される。
R=r’A (2)
になる。ここで、r=(r0 r1 r2...rn−1)tであり、A=(I T(I)...Tn−1(I))tであり、これは0シフトから(n−1)シフトまでのIの循環シフトからなる。rを解くために、疎なKビットだけが、Rで使用可能である。Rのbiとb0のインデックスの差が、ki(i=1,2,...,k−1)であるものとすると、Rの1番目と(ki+1)番目(i=1,2,...,k−1)の要素は、正確にb0,b1,...,bk−1である。Aの1番目と(ki+1)番目(i=1,2,...,k−1)の要素を選択することによって、次の2進一次方程式が形成される。
b’=r’M (3)
ここで、Mは、Aのn×K部分行列である。
ここで、Mは、Aのn×K部分行列である。
bにエラーがない場合には、rの解を
と表すことができる。ここで
は、Mの非縮退n×n部分行列であり、
は、bの対応する部分ベクトルである。
rがわかっていれば、Pohlig−Hellman−Silverアルゴリズム(非特許文献1参照)を使用して、xs≡r0+r1x+...rn−1xn−1 mod(Pn(x))になるsを見つけることができる。
行列A(n×Lのサイズであり、L=2n−1)が巨大になる場合があるので、行列A全体を保管することは避けなければならない。実際に、上のプロセスで見たように、インデックス差kiを有する抽出されたビットを与えられて、Aの1番目および(ki+1)番目の列だけが、計算に関係する。そのようなkiの選択は、取り込まれた画像のサイズに対して非常に限られている。したがって、計算に使用される列だけを保存する必要がある。そのような列の総数は、(L=2n−1がm−列の長さである場合に)Lよりはるかに小さい。
(VI.エラー訂正)
bにエラーが存在する場合、rの解決は複雑になる。エラー訂正を伴うデコードの従来の方法は、簡単に適用できない可能性がある。というのは、取り込まれたビットに関連する行列Mが、取り込まれた画像ごとに異なる可能性があるからである。
bにエラーが存在する場合、rの解決は複雑になる。エラー訂正を伴うデコードの従来の方法は、簡単に適用できない可能性がある。というのは、取り込まれたビットに関連する行列Mが、取り込まれた画像ごとに異なる可能性があるからである。
本発明では、統計学的な手法を使用する。bのエラービットの数neが、Kと比較して相対的に小さいと仮定すると、bおよび対応する、縮退していないMの部分行列
のK個のビットから正しいn個のビットが選ばれる確率は、高い。
選択されたn個のビットがすべて正しい時に、b’とr’Mとの間のハミング距離またはrに関連するエラービットの数は、最小値にならなければならず、rは、式(4)を介して計算される。この処理を複数回繰り返すことによって、最小値のエラービットをもたらす正しいrを識別できる可能性は高い。
最小個数のエラービットに関連する唯一のrがある場合には、それが正しい解とみなされる。そうではなく、最小個数のエラービットに関連する複数のrがある場合には、neが、Mによって生成されるコードのエラー訂正能力を超える可能性が高く、デコードプロセスはエラーになる。システムは、次に取り込まれた画像の処理に進むことができる。もう1つの実施形態では、ペンの前の位置に関する情報を考慮に入れることができる。すなわち、取り込まれた画像の各々について、次にペンがあると期待できる宛先領域を識別することができる。例えば、ユーザが、カメラによって取り込まれる2つの画像の間でペンを持ち上げなかった場合に、第2の画像の取り込みによって判定されるペンの位置は、第1の位置から遠過ぎてはならない。最小個数のエラービットに関連する各rを検査して、rから計算される位置sが、局地的な制約を満足するか、すなわち、位置が指定された宛先領域内であるか否かを調べることができる。
位置sがローカル制約を満足する場合、配列内の抽出されたビットのX,Y位置が返される。そうでない場合には、デコード処理はエラーになる。
図8に、取り込まれた画像の列(またはm−列)内の位置を判定するのに使用できる処理を示す。まず、ステップ801で、取り込まれた画像に関するデータストリームを受け取る。ステップ802で、対応する列をAから抽出し、行列Mを構築する。
ステップ803で、n個の独立の列ベクトルを、行列Mからランダムに選択し、式(4)を解くことによってベクトルrを判定する。この処理を、ステップ804でQ回(例えば100回)繰り返す。ループ回数の判定は、セクション「ループ回数の計算」で説明する。
ステップ805で、rを、それに関連するエラービットの個数に従ってソートする。ソートは、当技術分野で既知の様々なソーティングアルゴリズムを用いて行うことができる。例えば、選択ソートアルゴリズムを用いることができる。選択ソートアルゴリズムは、数Qが多くない時に有益である。しかし、Qが多い場合には、多数の項目をより効率的にソートできる他のソーティングアルゴリズム(例えばマージソート)を使用することができる。
システムは、ステップ806で、複数のrが最小個数のエラービットに関連するか否かを検査することによって、エラー訂正が成功裡に実行されたか否かを判定する。そうである場合に、ステップ809でエラーを返し、デコード処理が失敗したことを示す。そうでない場合には、ステップ807で、例えばPohig−Hellman−Silverアルゴリズムを用いて、列(またはm−列)の抽出されたビットの位置sを計算する。
次に、ステップ808で、配列内の(X,Y)位置を、x=s mod m1およびy=s mod m2として計算し、その結果を返す。
(VII.位置判定)
図9に、ペン先の位置を判定する処理を示す。入力は、カメラによって取り込まれた画像であり、出力は、ペン先の位置座標とすることができる。また、出力に、取り込まれた画像の回転角度などの他の情報を含めることができる(含めないこともできる)。
図9に、ペン先の位置を判定する処理を示す。入力は、カメラによって取り込まれた画像であり、出力は、ペン先の位置座標とすることができる。また、出力に、取り込まれた画像の回転角度などの他の情報を含めることができる(含めないこともできる)。
ステップ901で、カメラから画像を受け取る。次に、(ステップ902の破線の輪郭によって示されるように)ステップ902で、任意に受け取った画像を前処理して、明るいピクセルと暗いピクセルとの間のコントラストの調節などを行うことができる。
次に、ステップ903で、画像を分析して、その中のビットストリームを判定する。
次に、ステップ904で、ビットストリームからn個のビットをランダムに複数回選択し、元の列(またはm−列)内の受け取ったビットストリームの位置を判定する。
最後に、取り込まれた画像の位置をステップ904で判定したならば、ステップ905で、ペン先の位置を判定することができる。
図10に、903および904に関するさらなる詳細を示し、取り込まれた画像内のビットストリームを抽出する手法を示す。まず、ステップ1001で、カメラから画像を受け取る。次に、(ステップ1002の破線によって示されるように)ステップ1002で、任意に画像に画像前処理を行うことができる。ステップ1003で、パターンを抽出する。ここで、様々な線のピクセルを抽出して、パターンの方位および角度θを見つけることができる。
次に、ステップ1004で、受け取った画像を分析して、基礎になるグリッド線を判定する。ステップ1005で、グリッド線が見つかる場合に、ステップ1006でパターンからコードを抽出する。その後、ステップ1007でコードをデコードし、ステップ1008でペン先の位置を判定する。ステップ1005でグリッド線が見つからなかった場合には、ステップ1009でエラーを返す。
(VIII.透かしを入れられた文書画像:生成、分析、およびラベル付け)
本発明の実施形態は、迷路パターンなどの位置エンコードされた情報を含む文書画像の分析と、画像のラベル付けに関する。そのような文書分析の結果を、位置エンコードされた文書内のカメラによって取り込まれた画像の位置の効率的な判定に用いることができる。
本発明の実施形態は、迷路パターンなどの位置エンコードされた情報を含む文書画像の分析と、画像のラベル付けに関する。そのような文書分析の結果を、位置エンコードされた文書内のカメラによって取り込まれた画像の位置の効率的な判定に用いることができる。
図11を参照すると、本発明の様々な実施形態によるシステム1100に、画像生成取り込みモジュール1102と分析ラベル付けモジュール1106が含まれる。後続の分析およびラベル付けのための画像の取り込みに適する技法は、上記の画像取り込みペンという題名のセクションIII、セクションVIII、および透かしを入れられたグレイスケール文書画像の生成という題名のセクションVIII.Aで説明する。分析ラベル付けモジュール1106は、画像生成取り込みモジュール1102によって出力される画像データ1104およびオフライントレーニングデータ1110を入力として受け取り、下で詳細に説明する分析ラベル付け処理を実行し、画像ラベル情報1108を出力する。
本発明の様々な実施形態によれば、カメラ203が取り込む画像のサイズは、32×32ピクセルである。組み込まれたm−配列の順序(表面207で位置を位置エンコードするのに使用される)は、36である、すなわち、m−配列のサイズは、(218+1)×(218−1)である。したがって、サブブロックm−配列から一意のx−y位置をデコードするために、表面207での位置を判定するのに使用されるサブブロックのビット数は、少なくとも36でなければならない。
本発明の様々な実施形態によれば、印刷された文書が、迷路パターンによって透かしを入れられる。そのような迷路パターンは、テキストなどの文書の内容によって覆われる場合がある。そのような覆う程度に応じて、カメラによって取り込まれた画像の文書内の位置を判定するのに十分なm−配列ビットを、カメラによって取り込まれた画像から抽出することが不可能になる場合がある。
本発明の様々な実施形態によれば、透かしを入れられた文書画像が、分析され、ラベル付けされる。分析およびラベル付けは、文書内の特定の位置の迷路パターンセルの可視性の程度に基づく、透かしを入れられた文書内のx−y位置を判定する能力に関する。
(VIII.A.透かしを入れられたグレイスケール文書画像の生成)
図12に、本発明の様々な実施形態に従って分析し、ラベル付けを行うことができる、透かしを入れられたグレイスケール文書画像を生成するステップを示す。1200および1204に示されているように、電子文書を印刷された文書に対応するビットマップとするか、1202および1206に示されているように紙の文書を読み取ることによるなど、文書画像を入手する。1208に示されているように、ビットマップを再サンプリングして、適当な解像度にする。解像度の決定は、(1)取り込まれた画像の位置をm−配列デコードによって判定できない場合、位置を判定するために、取り込まれた画像が透かしを入れられたグレイスケール文書画像とマッチングされるので、文書画像の解像度が取り込まれた画像の解像度より低くなってはならず、(2)印刷された迷路パターンセルの1つが、整数個数の文書画像ピクセルにマッピングされ、その結果、マッチングアルゴリズムが効率的に働けるようにしなければならないという考慮事項に基づく。例えば、カメラの解像度が0.15mm/ピクセルである、すなわち、物理的世界での0.15mmが1つのカメラピクセルにマッピングされる場合に、印刷される迷路パターンセルサイズは、0.45mm×0.45mmである、すなわち、印刷される迷路パターンのセルが、カメラセンサの3×3ピクセルにマッピングされ、文書画像の解像度にも、0.15mm/ピクセルがセットされなければならず、その結果、印刷される迷路パターンセルが、文書画像の3×3ピクセル領域にマッピングされるようになる。
図12に、本発明の様々な実施形態に従って分析し、ラベル付けを行うことができる、透かしを入れられたグレイスケール文書画像を生成するステップを示す。1200および1204に示されているように、電子文書を印刷された文書に対応するビットマップとするか、1202および1206に示されているように紙の文書を読み取ることによるなど、文書画像を入手する。1208に示されているように、ビットマップを再サンプリングして、適当な解像度にする。解像度の決定は、(1)取り込まれた画像の位置をm−配列デコードによって判定できない場合、位置を判定するために、取り込まれた画像が透かしを入れられたグレイスケール文書画像とマッチングされるので、文書画像の解像度が取り込まれた画像の解像度より低くなってはならず、(2)印刷された迷路パターンセルの1つが、整数個数の文書画像ピクセルにマッピングされ、その結果、マッチングアルゴリズムが効率的に働けるようにしなければならないという考慮事項に基づく。例えば、カメラの解像度が0.15mm/ピクセルである、すなわち、物理的世界での0.15mmが1つのカメラピクセルにマッピングされる場合に、印刷される迷路パターンセルサイズは、0.45mm×0.45mmである、すなわち、印刷される迷路パターンのセルが、カメラセンサの3×3ピクセルにマッピングされ、文書画像の解像度にも、0.15mm/ピクセルがセットされなければならず、その結果、印刷される迷路パターンセルが、文書画像の3×3ピクセル領域にマッピングされるようになる。
得られた画像に、透かしを入れる。図13に、文書の内容の一部1300、位置エンコードされた迷路パターンの一部1302、組み合わされた内容および迷路パターン1304、ならびに内容および迷路パターンの一部の拡大図1306の画像を示す。拡大図1306には、(1)重ねられたテキストによって覆われるので迷路パターンセルが可視でない位置1308と、(2)迷路パターンセルが文書内容によって覆われず、したがって可視である位置1310が示されている。
(VIII.B.文書画像の分析およびラベル付け)
本発明の様々な実施形態によれば、文書画像は、その画像が、迷路パターンセルと実質的に同一のサイズを有する比較的小さいブロックに分割され;これらの小さいブロックが、文書テキストなどの文書の内容によって覆われるか否かを判定し;ピクセルごとに、ウィンドウの中心としてそのピクセルを有する隣接ウィンドウ内の完全に可視のブロックの数を数え;その数に基づいてピクセルにラベル付けを行うことによって分析される。隣接ウィンドウは、カメラ203によって取り込まれる画像のサイズと実質的に同一のサイズすなわち、32×32ピクセルを有することができる。
本発明の様々な実施形態によれば、文書画像は、その画像が、迷路パターンセルと実質的に同一のサイズを有する比較的小さいブロックに分割され;これらの小さいブロックが、文書テキストなどの文書の内容によって覆われるか否かを判定し;ピクセルごとに、ウィンドウの中心としてそのピクセルを有する隣接ウィンドウ内の完全に可視のブロックの数を数え;その数に基づいてピクセルにラベル付けを行うことによって分析される。隣接ウィンドウは、カメラ203によって取り込まれる画像のサイズと実質的に同一のサイズすなわち、32×32ピクセルを有することができる。
前述の処理が、グレイスケール文書画像に透かしを入れることを必要としない、すなわち、内容を迷路パターンと組み合わせることを必要としないことに留意されたい。文書画像が、迷路パターンセルと実質的に同一のサイズを有する比較的小さいブロックに分割される限り、文書内容による迷路パターンセルの覆いの分析は、文書内容によるブロックの覆いの分析と同等である。
図14に、そのような32×32ピクセル隣接ウィンドウ1400およびその中心ピクセル1402の例を示す。本発明の様々な実施形態によれば、文書画像のピクセルに、次の4つの型の1つとしてラベル付けを行うことができる。
型I:(検討中のピクセルを中心とする)32×32ピクセル隣接ウィンドウに、実質的に位置エンコードされた迷路パターンセルだけが含まれる。
型II:32×32ピクセル隣接ウィンドウに、60個以上の可視迷路パターンセルが含まれる。
型III:32×32ピクセル隣接ウィンドウに、36個以上60個以下の可視迷路パターンセルが含まれる。
型IV:32×32ピクセル隣接ウィンドウに、35個以下の可視迷路パターンセルが含まれる。
本発明の様々な実施形態によれば、取り込まれた画像の中心が、型Iまたは型IIの領域に配置される時に、文書内の画像の位置を、m−配列デコードによって一意に決定することができる。
図15に、各ピクセルの32×32隣接ウィンドウ内で可視である迷路パターンセルの量に基づいて文書の諸部分がどの型(すなわち型I、II、III、またはIV)にラベル付けされるかを表すために文書の領域が着色(または陰付け)されている、例の文書の文書分析結果を示す。
可視迷路パターンセルの数を数える際に、32×32ピクセル隣接ウィンドウを360°回転して、カメラがある角度で文書の画像を取り込んだ可能性があるという事実を考慮に入れなければならないことに留意されたい。しかし、実施を簡単にするために、傾いていないビューだけが分析され、傾斜角度によって引き起こされるエラーは、ピクセルの型を判定する際の閾値で考慮に入れられる。例えば、図16に、取り込まれた画像が45°回転されている場合を示す。これは、可視迷路パターンセルの17.2%という最大値が失われる、ワーストケースシナリオである。その場合であっても、型IIピクセルは、少なくとも49個(=60×(1−17.2%))の可視迷路パターンセルを有し、これによって、m−配列デコードによる一意のx−y位置判定が可能である。言い換えると、ピクセルが、型IまたはIIとしてラベル付けされる場合に、カメラがどの角度で画像を取り込んだかに無関係に、m−配列デコードを用いてx−y位置を判定するのに十分な数の可視迷路パターンセルがある。その結果、取り込んだ画像をデコードできない場合には、その画像が型IIIまたはIVの領域にある可能性が高い。
十分な迷路パターンセルが可視ではないので、ペンストロークの画像の列からx−y位置をデコードできない場合には、検索アルゴリズムを使用して、文書内の型IIIおよびIVピクセル領域などの画像の位置を判定する。そのような検索アルゴリズムを、型IIIおよびIVの領域だけで使用することによって、文書の実質的にすべての部分に関する検索アルゴリズムの使用に対して、画像の位置の判定の計算費用が減る。例えば、図15の例の文書では、領域の13.7%だけが、型III(11.1%)または型IV(2.6%)としてラベル付けされる。文書全体を検索することに関連する計算費用は、型IIIおよびIV領域だけの検索の費用よりはるかに高い。一実施形態で、文書全体の検索に10秒超を要するが、型IIIおよびIV領域だけの検索に1秒未満を要する場合がある。文書画像分析によって、計算費用が大幅に減る。
(IX.カメラによって取り込まれた画像のラベル付け)
カメラによって取り込まれた画像に、文書画像の分析およびラベル付けと題した上のセクションVIII.B.で説明した4つの型によってラベル付けを行うことができる。カメラによって取り込まれた画像に、実質的に位置エンコードされた迷路パターンだけが含まれるかどうかに関する判定を行うことができる。言い換えると、画像が型I画像であるか否かに関する判定を行うことができる。この初期判定を、下で詳細に説明する。
カメラによって取り込まれた画像に、文書画像の分析およびラベル付けと題した上のセクションVIII.B.で説明した4つの型によってラベル付けを行うことができる。カメラによって取り込まれた画像に、実質的に位置エンコードされた迷路パターンだけが含まれるかどうかに関する判定を行うことができる。言い換えると、画像が型I画像であるか否かに関する判定を行うことができる。この初期判定を、下で詳細に説明する。
カメラによって取り込まれた画像が、型I画像でない場合に、カメラによって取り込まれた画像の位置エンコードされた迷路パターンを分析して、画像から抽出できる位置エンコーディングビットの数を判定することができる。迷路パターングリッド線のパラメータ(各次元に沿ったスケールおよび回転すなわちアフィン変換)が、まず計算され、その後、迷路パターンが埋め込まれた最初の方向(または四分円)が判定される。その結果、m−配列ビット情報が、グリッド線およびバーの方向に基づいて判定される。抽出されるビット数が約60を超える場合に、画像は型IIとしてラベル付けされ、約36ビットと60ビットの間のビットが抽出される場合に、画像は型IIIとしてラベル付けされ、約36ビットより少ないビットが抽出される場合に、画像は型IVとしてラベル付けされる。カメラによって取り込まれた画像をこの形で分類するために、下の、スレッショルディングアルゴリズム(thresholding algorithm)と題するセクションIX.B.で説明するスレッショルディングアルゴリズムを用いて、テキスト領域から迷路パターン領域を分離することができる。その後、抽出されたビットの数に基づいて、画像にラベル付けを行う。型I、II、およびIIIから抽出されたビットは、カメラによって取り込まれた画像の、より大きい文書内のx−y位置を判定するのに使用することができる。この型の位置判定処理は、型IV画像について省略することができる。というのは、型IV画像に、x−y位置デコードに十分なビットが含まれないからである。
画像に、文書内容と迷路パターンの両方ではなく、実質的に位置エンコードされた迷路パターンだけが含まれるか否かを判定するために、グラディエント画像ヒストグラムのサポート間隔(support interval of gradient image histogram、SIGIH)と称する特徴を、本発明の様々な実施形態に従って使用することができる。SIGIHは、純粋な迷路パターン画像に、通常はエッジが含まれないが、文書内容が、多くの場合、迷路パターンセルまたは空白領域よりはるかに暗いので、テキストなどの文書内容を有する画像に、通常はエッジが含まれるという知識に基づいて使用される。
(IX.A.特徴抽出)
本発明の様々な実施形態によれば、特徴抽出の第1ステップは、グラディエント画像(gradient image)を得るのに使用できる、Sobelエッジ演算子(Sobel edge operator)または別のグラディエント演算子などのグラディエント演算子である。図17を参照すると、2つの畳み込みカーネル1700および1702が、Sobelエッジ演算子を形成する。Sobelエッジ演算子を使用するために、画像の各ピクセルを、畳み込みカーネル1700および1702の両方を用いて畳み込む。一方のカーネルは、全般に垂直のエッジに最大限応答し、他方のカーネルは、水平のエッジに最大限応答する。この2つの畳み込みの「ベクトル和」値が、特定のピクセルの出力値としてとられる。その結果が、グラディエント画像である。
本発明の様々な実施形態によれば、特徴抽出の第1ステップは、グラディエント画像(gradient image)を得るのに使用できる、Sobelエッジ演算子(Sobel edge operator)または別のグラディエント演算子などのグラディエント演算子である。図17を参照すると、2つの畳み込みカーネル1700および1702が、Sobelエッジ演算子を形成する。Sobelエッジ演算子を使用するために、画像の各ピクセルを、畳み込みカーネル1700および1702の両方を用いて畳み込む。一方のカーネルは、全般に垂直のエッジに最大限応答し、他方のカーネルは、水平のエッジに最大限応答する。この2つの畳み込みの「ベクトル和」値が、特定のピクセルの出力値としてとられる。その結果が、グラディエント画像である。
グラディエント演算子によって作られたグラディエント画像のヒストグラムを計算することができる。グラディエント画像ヒストグラム(SIGIH)のサポート間隔を、グラディエント画像のヒストグラムから得ることができる。例えば、図18に、迷路パターンだけを含む取り込まれた画像のグラディエント画像のヒストグラムを示す。SIGIH特徴は、17であり、これは、図18のヒストグラムの、非0の値を有する、x軸に沿った最大値である。
図19に、テキストおよび/または1つまたは複数の図などの文書内容を含む取り込まれた画像のグラディエント画像のヒストグラムを示す。SIGIH特徴は、図19のヒストグラムでは44である。
(IX.B.スレッショルディングアルゴリズム)
本発明の様々な実施形態に従って画像が型Iであるか否かを判定するスレッショルディングアルゴリズムは、2つのセッションすなわち(1)オフライントレーニング、および(2)オンラインラベル付けに分割することができる。
本発明の様々な実施形態に従って画像が型Iであるか否かを判定するスレッショルディングアルゴリズムは、2つのセッションすなわち(1)オフライントレーニング、および(2)オンラインラベル付けに分割することができる。
(IX.B.1.オフライントレーニング。)
オフライントレーニングセッションでは、SIGIH特徴を、既知のラベル(すなわち型I、II、III、またはIV)を有する比較的多数の画像について計算することができる。純迷路パターン画像のSIGIHは、多くの場合、他の型の画像のSIGIHより低い。最適閾値ηは、トレーニングデータの処理の結果に基づいて選択することができる。トレーニングセット中の実質的にすべての純迷路パターン画像について、そのSIGIHはη未満であり、実質的にすべての非純迷路パターン画像について、そのSIGIHはηを超える。図20に、ηすなわち最適閾値2004が、32になるように選択されたオフライントレーニングの例の結果を示す。この図には、純迷路パターン画像に対応するヒストグラムバー2002と、非純迷路パターン画像(すなわち、文書内容を含む画像)に対応するヒストグラムバー2006も示されている。
オフライントレーニングセッションでは、SIGIH特徴を、既知のラベル(すなわち型I、II、III、またはIV)を有する比較的多数の画像について計算することができる。純迷路パターン画像のSIGIHは、多くの場合、他の型の画像のSIGIHより低い。最適閾値ηは、トレーニングデータの処理の結果に基づいて選択することができる。トレーニングセット中の実質的にすべての純迷路パターン画像について、そのSIGIHはη未満であり、実質的にすべての非純迷路パターン画像について、そのSIGIHはηを超える。図20に、ηすなわち最適閾値2004が、32になるように選択されたオフライントレーニングの例の結果を示す。この図には、純迷路パターン画像に対応するヒストグラムバー2002と、非純迷路パターン画像(すなわち、文書内容を含む画像)に対応するヒストグラムバー2006も示されている。
(IX.B.2.オンラインラベル付け)
オンラインラベル付け中に、取り込まれた画像のそれぞれのSIGIHが計算される。SIGIHがηより小さい場合に、画像は型I画像としてラベル付けされる。そうではなく、SIGIHがηより大きい場合、画像は型I以外の型(すなわち、型II、III、およびIV)としてラベル付けされる。
オンラインラベル付け中に、取り込まれた画像のそれぞれのSIGIHが計算される。SIGIHがηより小さい場合に、画像は型I画像としてラベル付けされる。そうではなく、SIGIHがηより大きい場合、画像は型I以外の型(すなわち、型II、III、およびIV)としてラベル付けされる。
上の文書分析およびラベル付けに関する議論では、取り込まれた画像の内容が、比較的一貫性を有することが前提である。言い換えると、画像センサの増幅器および/またはカメラの照明条件が比較的一貫性を有することが前提である。この条件が、大幅に変化する場合に、特徴パラメータを更新するために新しいトレーニングを実行することができる。
(X.最後に)
上で説明したものは、本発明の原理の適用の例にすぎない。当業者は、本発明の趣旨および範囲から逸脱せずに他の配置および方法を実施することができる。本発明の方法のいずれをも、コンピュータディスクまたは他のコンピュータ読み取り可能な媒体に保管できるソフトウェアで実施することができる。
上で説明したものは、本発明の原理の適用の例にすぎない。当業者は、本発明の趣旨および範囲から逸脱せずに他の配置および方法を実施することができる。本発明の方法のいずれをも、コンピュータディスクまたは他のコンピュータ読み取り可能な媒体に保管できるソフトウェアで実施することができる。
100 コンピュータ
170 ハードディスクドライブ
180 磁気ディスクドライブ
191 光ディスクドライブ
201 ペン
202 ペン先
203 カメラ
204 位置
205 位置
206 追加のセンサおよび/またはプロセッサ
207 物体平面
208 レンズ
209 像平面
210 画像
211 画像センサ
212 位置
1100 本発明の様々な実施形態によるシステム
1300 本文の内容の一部
1302 迷路パターンの一部
1304 組み合わされた内容および迷路パターン
1306 内容および迷路パターンの一部の拡大図
1400 32×32ピクセル隣接ウィンドウ
1700 畳み込みカーネル
1702 畳み込みカーネル
170 ハードディスクドライブ
180 磁気ディスクドライブ
191 光ディスクドライブ
201 ペン
202 ペン先
203 カメラ
204 位置
205 位置
206 追加のセンサおよび/またはプロセッサ
207 物体平面
208 レンズ
209 像平面
210 画像
211 画像センサ
212 位置
1100 本発明の様々な実施形態によるシステム
1300 本文の内容の一部
1302 迷路パターンの一部
1304 組み合わされた内容および迷路パターン
1306 内容および迷路パターンの一部の拡大図
1400 32×32ピクセル隣接ウィンドウ
1700 畳み込みカーネル
1702 畳み込みカーネル
Claims (39)
- 文書画像から抽出できるエンコードされた位置情報の量を示す位置エンコードされた情報を含む前記文書画像にラベル付けを行う方法であって、
前記文書画像を得るステップと、
少なくとも、実質的に位置エンコードされた情報だけを含み、かつ実質的に文書内容を含まない第1の型、ならびに前記位置エンコードされた情報の少なくとも一部を覆う文書内容を含む第2の型から選択される型となるように前記文書画像にラベル付けを行うステップと
を備えたことを特徴とする方法。 - 前記文書画像を得るステップは、電子文書を印刷された文書に対応するビットマップ表現とするステップを含むことを特徴とする請求項1に記載の方法。
- 前記文書画像を得るステップは、読み取られた紙の文書を処理するステップを含むことを特徴とする請求項1に記載の方法。
- 前記第2の型は、前記文書内容による前記位置エンコードされた情報を覆うそれぞれ異なる程度を表す複数の下位の型に分割されることを特徴とする請求項1に記載の方法。
- カメラによって取り込まれた画像から抽出できるエンコードされた位置情報の量を示す位置エンコードされた情報を含む前記画像にラベル付けを行う方法であって、
前記カメラによって取り込まれた画像を得るステップと、
少なくとも、実質的に位置エンコードされた情報だけを含み、かつ実質的に文書内容を含まない第1の型、および前記位置エンコードされた情報の少なくとも一部を覆う文書内容を含む第2の型から選択される型となるように前記画像にラベル付けを行うステップと
を備えたことを特徴とする方法。 - 前記画像が前記第1の型または前記第2の型のいずれであるかを判定するために、グラディエント画像ヒストグラムのサポート間隔が使用されることを特徴とする請求項5に記載の方法。
- グラディエント画像を得るために前記画像にグラディエント演算子を用いるステップをさらに備えたことを特徴とする請求項6に記載の方法。
- 前記グラディエント演算子は、Sobelエッジ演算子であることを特徴とする請求項7に記載の方法。
- 前記グラディエント画像のヒストグラムを生成するステップをさらに備えたことを特徴とする請求項8に記載の方法。
- 前記グラディエント画像ヒストグラムのサポート間隔として、非0の値を有する前記ヒストグラムのx軸上の最大値を使用するステップをさらに備えたことを特徴とする請求項9に記載の方法。
- オフライントレーニングセッションおよびオンラインラベル付けセッションは、前記画像が前記第1の型および前記第2の型のいずれであるかを判定するのに使用されることを特徴とする請求項6に記載の方法。
- 前記第1の型の画像と前記第2の型の画像とを区別するために使用される閾値は、トレーニングデータ画像に対して実行される前記オフライントレーニングセッションの結果に基づいて選択されることを特徴とする請求項11に記載の方法。
- 前記閾値は、前記オンラインラベル付けセッション中に、前記画像が前記第1の型または前記第2の型のいずれであるかを判定するため、前記画像のグラディエント画像ヒストグラムの前記サポート間隔と比較されることを特徴とする請求項12に記載の方法。
- 文書画像から抽出されるエンコードされた位置情報の量を示す位置エンコードされた情報を含む前記文書画像にラベル付けを行うシステムであって、
前記文書画像を得る画像生成取り込みモジュールと、
少なくとも、実質的に位置エンコードされた情報だけを含み、かつ実質的に文書内容を含まない第1の型、および前記位置エンコードされた情報の少なくとも一部を覆う文書内容を含む第2の型から選択される型となるように前記文書画像にラベル付けを行う分析ラベル付けモジュールと
を備えたことを特徴とするシステム。 - 前記画像生成取り込みモジュールは、電子文書を印刷された文書に対応するビットマップ表現とすることを特徴とする請求項14に記載のシステム。
- 前記画像生成取り込みモジュールは、読み取られた紙の文書を処理することを特徴とする請求項14に記載のシステム。
- 前記第2の型は、前記文書内容による前記位置エンコードされた情報を覆うそれぞれ異なる程度を表す複数の下位の型に分割されることを特徴とする請求項14に記載のシステム。
- カメラによって取り込まれた画像から抽出されるエンコードされた位置情報の量を示すために、位置エンコードされた情報を含む前記画像にラベル付けを行うシステムであって、
前記カメラによって取り込まれた画像を得る画像生成取り込みモジュールと、
少なくとも、実質的に位置エンコードされた情報だけを含み、かつ実質的に文書内容を含まない第1の型、および前記位置エンコードされた情報の少なくとも一部を覆う文書内容を含む第2の型から選択される型となるように前記画像にラベル付けを行う分析ラベル付けモジュールと
を備えたことを特徴とするシステム。 - 前記画像が前記第1の型または前記第2の型のいずれであるかを判定するために、グラディエント画像ヒストグラムのサポート間隔が使用されることを特徴とする請求項18に記載のシステム。
- 前記分析ラベル付けモジュールは、グラディエント画像を得るために前記画像にグラディエント演算子を用いることを特徴とする請求項19に記載のシステム。
- 前記グラディエント演算子は、Sobelエッジ演算子であることを特徴とする請求項20に記載のシステム。
- 前記分析ラベル付けモジュールは、前記グラディエント画像のヒストグラムを生成することを特徴とする請求項19に記載のシステム。
- 前記分析ラベル付けモジュールは、前記グラディエント画像ヒストグラムのサポート間隔として、非0の値を有する前記ヒストグラムのx軸上の最大値を使用することを特徴とする請求項22に記載のシステム。
- 前記分析ラベル付けモジュールは、前記画像が前記第1の型および前記第2の型のいずれであるかを判定するために、オフライントレーニングセッションおよびオンラインラベル付けセッションを実行することを特徴とする請求項23に記載のシステム。
- 前記第1の型の画像と前記第2の型の画像とを区別するために使用される閾値は、トレーニングデータ画像に対して実行される前記オフライントレーニングセッションの結果に基づいて選択されることを特徴とする請求項24に記載のシステム。
- 前記分析ラベル付けモジュールは、前記オンラインラベル付けセッション中に、前記画像が前記第1の型または前記第2の型のいずれであるかを判定するため、前記閾値を前記画像のグラディエント画像ヒストグラムのサポート間隔と比較することを特徴とする請求項25に記載のシステム。
- 文書画像から抽出されるエンコードされた位置情報の量を示す位置エンコードされた情報を含む前記文書画像にラベル付けを行うコンピュータ読み取り可能な命令を備えたコンピュータ読み取り可能な媒体であって、
前記文書画像を得るステップと、
少なくとも、実質的に位置エンコードされた情報だけを含み、かつ実質的に文書内容を含まない第1の型、および前記位置エンコードされた情報の少なくとも一部を覆う文書内容を含む第2の型から選択される型となるように前記文書画像にラベル付けを行うステップと
を実行することによってラベル付けすることを特徴とするコンピュータ読み取り可能な媒体。 - 前記文書画像を得るステップは、電子文書を印刷された文書に対応するビットマップ表現とするステップを含むことを特徴とする請求項27に記載のコンピュータ読み取り可能な媒体。
- 前記文書画像を得るステップは、読み取られた紙の文書を処理するステップをさらに含むことを特徴とする請求項27に記載のコンピュータ読み取り可能な媒体。
- 前記第2の型は、前記文書内容による前記位置エンコードされた情報を覆うそれぞれ異なる程度を表す複数の下位の型に分割されることを特徴とする請求項27に記載のコンピュータ読み取り可能な媒体。
- カメラによって取り込まれた画像から抽出されるエンコードされた位置情報の量を示す位置エンコードされた情報を含む前記画像にラベル付けを行うコンピュータ読み取り可能な命令を備えたコンピュータ読み取り可能な媒体であって、
前記カメラによって取り込まれた画像を得るステップと、
少なくとも、実質的に位置エンコードされた情報だけを含み、かつ実質的に文書内容を含まない第1の型、および前記位置エンコードされた情報の少なくとも一部を覆う文書内容を含む第2の型から選択される型となるように前記画像にラベル付けを行うステップと
を実行することによってラベル付けすることを特徴とするコンピュータ読み取り可能な媒体。 - 前記画像が前記第1の型または前記第2の型のいずれであるかを判定するために、グラディエント画像ヒストグラムのサポート間隔が使用されることを特徴とする請求項31に記載のコンピュータ読み取り可能な媒体。
- グラディエント画像を得るために前記画像にグラディエント演算子を用いるステップを実行するコンピュータ実行可能命令をさらに備えたことを特徴とする請求項32に記載のコンピュータ読み取り可能な媒体。
- 前記グラディエント演算子は、Sobelエッジ演算子であることを特徴とする請求項33に記載のコンピュータ読み取り可能な媒体。
- 前記グラディエント画像のヒストグラムを生成するステップを実行するコンピュータ実行可能命令をさらに備えたことを特徴とする請求項34に記載のコンピュータ読み取り可能な媒体。
- 前記グラディエント画像ヒストグラムのサポート間隔として、非0の値を有する前記ヒストグラムのx軸上の最大値を使用するステップを実行するコンピュータ実行可能命令をさらに備えたことを特徴とする請求項35に記載のコンピュータ読み取り可能な媒体。
- 前記画像が前記第1の型および前記第2の型のいずれであるかを判定するために、オフライントレーニングセッションおよびオンラインラベル付けセッションが使用されることを特徴とする請求項32に記載のコンピュータ読み取り可能な媒体。
- 前記第1の型の画像と前記第2の型の画像とを区別するために使用される閾値は、トレーニングデータ画像に対して実行される前記オフライントレーニングセッションの結果に基づいて選択されることを特徴とする請求項37に記載のコンピュータ読み取り可能な媒体。
- 前記閾値は、前記オンラインラベル付けセッション中に、前記画像が前記第1の型または前記第2の型のいずれであるかを判定するため、前記画像のグラディエント画像ヒストグラムの前記サポート間隔と比較されることを特徴とする請求項38に記載のコンピュータ読み取り可能な媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/753,176 US7581171B2 (en) | 2004-01-06 | 2004-01-06 | Positionally encoded document image analysis and labeling |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005228302A true JP2005228302A (ja) | 2005-08-25 |
Family
ID=34592573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005001434A Pending JP2005228302A (ja) | 2004-01-06 | 2005-01-06 | 位置エンコードされた文書画像の分析およびラベル付け |
Country Status (12)
Country | Link |
---|---|
US (1) | US7581171B2 (ja) |
EP (1) | EP1553485B1 (ja) |
JP (1) | JP2005228302A (ja) |
KR (1) | KR20050072699A (ja) |
CN (1) | CN100517368C (ja) |
AU (1) | AU2004242472A1 (ja) |
BR (1) | BRPI0500009A (ja) |
CA (1) | CA2491586A1 (ja) |
MX (1) | MXPA05000367A (ja) |
RU (1) | RU2360303C2 (ja) |
TW (1) | TW200525455A (ja) |
ZA (1) | ZA200410391B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010123959A (ja) * | 2008-11-24 | 2010-06-03 | Brion Technologies Inc | リソグラフィ装置で使用するための調和レジストモデル及びデバイス製造方法 |
WO2013141885A1 (en) * | 2012-03-22 | 2013-09-26 | Intuit Inc. | Accurately extracting information based on orthogonal images |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7668382B2 (en) * | 2006-02-24 | 2010-02-23 | Microsoft Corporation | Block-based fast image compression |
JP4665933B2 (ja) * | 2006-07-04 | 2011-04-06 | セイコーエプソン株式会社 | 文書編集支援装置、プログラムおよび記憶媒体 |
JP4337867B2 (ja) * | 2006-12-01 | 2009-09-30 | セイコーエプソン株式会社 | 文書編集支援装置、文書編集装置、プログラムおよび記憶媒体 |
GB0700468D0 (en) * | 2007-01-10 | 2007-02-21 | Mitsubishi Electric Inf Tech | Improved image identification |
US8433130B2 (en) | 2007-01-29 | 2013-04-30 | Vergence Media, Inc. | Methodology to optimize and provide streaming object rotation using composite images |
US7903873B2 (en) * | 2007-09-13 | 2011-03-08 | Microsoft Corporation | Textual image coding |
US8602857B2 (en) | 2008-06-03 | 2013-12-10 | Tweedletech, Llc | Intelligent board game system with visual marker based game object tracking and identification |
US8974295B2 (en) * | 2008-06-03 | 2015-03-10 | Tweedletech, Llc | Intelligent game system including intelligent foldable three-dimensional terrain |
JP6043482B2 (ja) * | 2008-06-03 | 2016-12-14 | トウィードルテック リミテッド ライアビリティ カンパニー | インテリジェントボードゲームシステム、ゲーム駒、インテリジェントボードゲームシステムを操作する方法、インテリジェントボードゲームをプレイする方法 |
US9649551B2 (en) | 2008-06-03 | 2017-05-16 | Tweedletech, Llc | Furniture and building structures comprising sensors for determining the position of one or more objects |
WO2012033862A2 (en) | 2010-09-09 | 2012-03-15 | Tweedletech, Llc | A multi-dimensional game comprising interactive physical and virtual components |
TWI471823B (zh) | 2008-07-31 | 2015-02-01 | Pixart Imaging Inc | 以移動向量在微小點陣圖上決定座標的方法 |
WO2010047700A1 (en) * | 2008-10-22 | 2010-04-29 | Hewlett-Packard Development Company, L.P. | Altering an imaging parameter to read a symbol |
JP5003846B2 (ja) * | 2009-09-02 | 2012-08-15 | 富士通株式会社 | 暗号化装置、復号装置、暗号化方法及び復号方法 |
TW201133254A (en) * | 2010-03-17 | 2011-10-01 | Compal Electronics Inc | Document manipulating method and managerial system and electronic device using the same |
JP5993856B2 (ja) | 2010-09-09 | 2016-09-14 | トウィードルテック リミテッド ライアビリティ カンパニー | 動的特徴追跡を有するボードゲーム |
US8549399B2 (en) | 2011-01-18 | 2013-10-01 | Apple Inc. | Identifying a selection of content in a structured document |
KR101495839B1 (ko) * | 2012-02-08 | 2015-02-26 | 주식회사 아이포트폴리오 | 전자문서에서 멀티미디어 정보 제공방법 및 검색방법 |
CN102982501B (zh) * | 2012-11-19 | 2015-07-01 | 山东神思电子技术股份有限公司 | 一种图像样本标定方法 |
US9411829B2 (en) * | 2013-06-10 | 2016-08-09 | Yahoo! Inc. | Image-based faceted system and method |
TWI608428B (zh) * | 2014-03-27 | 2017-12-11 | 緯創資通股份有限公司 | 利用影像辨識產生相對應資訊之影像處理系統及其相關方法 |
CN104361549B (zh) * | 2014-12-08 | 2019-03-05 | 陕西师范大学 | 一种基于3D BacterialGrowth迷宫的数字置乱方法 |
IL251149A0 (en) | 2017-03-14 | 2017-06-29 | Google Inc | Semi-transparent marks for transferred content |
WO2018176486A1 (zh) * | 2017-04-01 | 2018-10-04 | 深圳市汇顶科技股份有限公司 | 触控笔、芯片、触控设备、电子设备和触控的方法 |
CN110296703A (zh) * | 2019-06-21 | 2019-10-01 | 中国人民解放军陆军工程大学 | 一种应用于大规模无人机群系统中的地理位置编码方法 |
CN111494927B (zh) * | 2020-04-20 | 2023-06-09 | 张洋 | 具有触觉反馈的迷宫和生成迷宫触觉反馈的方法 |
DE102021205703A1 (de) * | 2021-06-07 | 2022-12-08 | TechnoTeam Holding GmbH | Verfahren und Vorrichtung zur lichttechnischen Vermessung eines elektronischen Displays sowie Verfahren zur Ansteuerung eines elektronischen Displays |
CN113743361A (zh) * | 2021-09-16 | 2021-12-03 | 上海深杳智能科技有限公司 | 基于图像目标检测的文档切割方法 |
KR20230143885A (ko) | 2022-04-06 | 2023-10-13 | 주식회사 하나금융티아이 | 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 레이블링 장치 및 방법 |
KR20230146384A (ko) | 2022-04-12 | 2023-10-19 | 주식회사 하나금융티아이 | 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 레이블 조절 장치 및 방법 |
KR20230161819A (ko) | 2022-05-19 | 2023-11-28 | 주식회사 하나금융티아이 | 문서 이미지의 테이블 검출 시스템 및 방법 |
CN115035539B (zh) * | 2022-08-12 | 2022-10-28 | 平安银行股份有限公司 | 文档异常检测网络模型构建方法、装置、电子设备及介质 |
CN115757843B (zh) * | 2023-01-09 | 2023-05-05 | 华南师范大学 | 影像标注方法、装置、终端设备以及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0337707A (ja) * | 1989-06-28 | 1991-02-19 | Internatl Business Mach Corp <Ibm> | スタイラス・ロケータ及びデータ入力システム |
JPH06506080A (ja) * | 1991-04-03 | 1994-07-07 | ヒューレット・パッカード・カンパニー | 位置検知装置 |
JPH0798751A (ja) * | 1993-05-21 | 1995-04-11 | Cherloc | イメージ又は言語表記上に指標を重ね持った文書 |
JP2001051792A (ja) * | 1999-08-06 | 2001-02-23 | Ricoh Co Ltd | 筆記記録システム |
JP2002032193A (ja) * | 2000-07-17 | 2002-01-31 | Nec Corp | 座標入力システム、座標入力方法および座標入力用プログラムを記録した記録媒体 |
JP2002304251A (ja) * | 2000-12-19 | 2002-10-18 | Xerox Corp | オクルージョングリフ符号タイリングを実行するための方法及び装置 |
JP2003500777A (ja) * | 1999-05-28 | 2003-01-07 | アノト・アクティエボラーク | 情報の記録 |
JP2003518688A (ja) * | 1999-12-23 | 2003-06-10 | アノト・アクティエボラーク | 集中型情報管理 |
JP2003263267A (ja) * | 2002-03-08 | 2003-09-19 | Ricoh Co Ltd | コンピュータ入力装置、方法、コンピュータ入力システム、及び該システムにおける入力方法 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5146552A (en) * | 1990-02-28 | 1992-09-08 | International Business Machines Corporation | Method for associating annotation with electronically published material |
CA2045907C (en) * | 1991-06-28 | 1998-12-15 | Gerald B. Anderson | A method for storing and retrieving annotations and redactions in final form documents |
US7158654B2 (en) * | 1993-11-18 | 2007-01-02 | Digimarc Corporation | Image processor and image processing method |
US6681029B1 (en) * | 1993-11-18 | 2004-01-20 | Digimarc Corporation | Decoding steganographic messages embedded in media signals |
US5768426A (en) * | 1993-11-18 | 1998-06-16 | Digimarc Corporation | Graphics processing system employing embedded code signals |
US5455898A (en) * | 1993-11-24 | 1995-10-03 | Xerox Corporation | Analyzing an image showing a graphical representation of a layout |
US5659639A (en) * | 1993-11-24 | 1997-08-19 | Xerox Corporation | Analyzing an image showing editing marks to obtain category of editing operation |
US5572010A (en) * | 1995-01-03 | 1996-11-05 | Xerox Corporation | Distributed type labeling for embedded data blocks |
US5626620A (en) * | 1995-02-21 | 1997-05-06 | Medtronic, Inc. | Dual chamber pacing system and method with continual adjustment of the AV escape interval so as to maintain optimized ventricular pacing for treating cardiomyopathy |
US5689585A (en) * | 1995-04-28 | 1997-11-18 | Xerox Corporation | Method for aligning a text image to a transcription of the image |
US6327395B1 (en) * | 1996-12-20 | 2001-12-04 | Xerox Parc | Glyph address carpet methods and apparatus for providing location information in a multidimensional address space |
US6208894B1 (en) * | 1997-02-26 | 2001-03-27 | Alfred E. Mann Foundation For Scientific Research And Advanced Bionics | System of implantable devices for monitoring and/or affecting body parameters |
US5855594A (en) * | 1997-08-08 | 1999-01-05 | Cardiac Pacemakers, Inc. | Self-calibration system for capture verification in pacing devices |
AUPP128498A0 (en) * | 1998-01-12 | 1998-02-05 | Canon Kabushiki Kaisha | A method for smoothing jagged edges in digital images |
US6070102A (en) * | 1998-04-29 | 2000-05-30 | Medtronic, Inc. | Audible sound confirmation of programming an implantable medical device |
US6377704B1 (en) * | 1998-04-30 | 2002-04-23 | Xerox Corporation | Method for inset detection in document layout analysis |
SE9802151D0 (sv) | 1998-06-16 | 1998-06-16 | Pacesetter Ab | Heart stimulator |
US6256398B1 (en) * | 1998-08-22 | 2001-07-03 | Kenneth H. P. Chang | Encoding and decoding a message within an image |
US6551357B1 (en) * | 1999-02-12 | 2003-04-22 | International Business Machines Corporation | Method, system, and program for storing and retrieving markings for display to an electronic media file |
SE516522C2 (sv) * | 1999-05-28 | 2002-01-22 | Anoto Ab | Positionsbestämning |
US6522928B2 (en) * | 2000-04-27 | 2003-02-18 | Advanced Bionics Corporation | Physiologically based adjustment of stimulation parameters to an implantable electronic stimulator to reduce data transmission rate |
JP3771831B2 (ja) * | 2001-11-01 | 2006-04-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | デジタル・コンテンツに付加されるアノテーション情報を共有するためのコンピュータ・システムおよびプログラム |
US20030117378A1 (en) * | 2001-12-21 | 2003-06-26 | International Business Machines Corporation | Device and system for retrieving and displaying handwritten annotations |
US7054461B2 (en) * | 2002-02-15 | 2006-05-30 | Pitney Bowes Inc. | Authenticating printed objects using digital watermarks associated with multidimensional quality metrics |
JP3939189B2 (ja) * | 2002-04-17 | 2007-07-04 | パナソニック コミュニケーションズ株式会社 | 情報処理装置、製品の組立工程表示用プログラム、及び製品の組立工程表示方法 |
US7496228B2 (en) * | 2003-06-13 | 2009-02-24 | Landwehr Val R | Method and system for detecting and classifying objects in images, such as insects and other arthropods |
US7983446B2 (en) * | 2003-07-18 | 2011-07-19 | Lockheed Martin Corporation | Method and apparatus for automatic object identification |
JP5133301B2 (ja) | 2009-07-14 | 2013-01-30 | 日東電工株式会社 | 複合フィルムの製造方法 |
-
2004
- 2004-01-06 US US10/753,176 patent/US7581171B2/en not_active Expired - Fee Related
- 2004-12-22 TW TW093140096A patent/TW200525455A/zh unknown
- 2004-12-23 AU AU2004242472A patent/AU2004242472A1/en not_active Abandoned
- 2004-12-23 ZA ZA200410391A patent/ZA200410391B/xx unknown
- 2004-12-30 RU RU2004139190/28A patent/RU2360303C2/ru not_active IP Right Cessation
- 2004-12-31 CA CA002491586A patent/CA2491586A1/en not_active Abandoned
-
2005
- 2005-01-04 EP EP20050000084 patent/EP1553485B1/en not_active Not-in-force
- 2005-01-05 BR BR0500009-2A patent/BRPI0500009A/pt not_active IP Right Cessation
- 2005-01-06 CN CNB2005100041835A patent/CN100517368C/zh not_active Expired - Fee Related
- 2005-01-06 JP JP2005001434A patent/JP2005228302A/ja active Pending
- 2005-01-06 KR KR1020050001313A patent/KR20050072699A/ko not_active Application Discontinuation
- 2005-01-06 MX MXPA05000367A patent/MXPA05000367A/es not_active Application Discontinuation
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0337707A (ja) * | 1989-06-28 | 1991-02-19 | Internatl Business Mach Corp <Ibm> | スタイラス・ロケータ及びデータ入力システム |
JPH06506080A (ja) * | 1991-04-03 | 1994-07-07 | ヒューレット・パッカード・カンパニー | 位置検知装置 |
JPH0798751A (ja) * | 1993-05-21 | 1995-04-11 | Cherloc | イメージ又は言語表記上に指標を重ね持った文書 |
JP2003500777A (ja) * | 1999-05-28 | 2003-01-07 | アノト・アクティエボラーク | 情報の記録 |
JP2001051792A (ja) * | 1999-08-06 | 2001-02-23 | Ricoh Co Ltd | 筆記記録システム |
JP2003518688A (ja) * | 1999-12-23 | 2003-06-10 | アノト・アクティエボラーク | 集中型情報管理 |
JP2002032193A (ja) * | 2000-07-17 | 2002-01-31 | Nec Corp | 座標入力システム、座標入力方法および座標入力用プログラムを記録した記録媒体 |
JP2002304251A (ja) * | 2000-12-19 | 2002-10-18 | Xerox Corp | オクルージョングリフ符号タイリングを実行するための方法及び装置 |
JP2003263267A (ja) * | 2002-03-08 | 2003-09-19 | Ricoh Co Ltd | コンピュータ入力装置、方法、コンピュータ入力システム、及び該システムにおける入力方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010123959A (ja) * | 2008-11-24 | 2010-06-03 | Brion Technologies Inc | リソグラフィ装置で使用するための調和レジストモデル及びデバイス製造方法 |
US8447095B2 (en) | 2008-11-24 | 2013-05-21 | Asml Netherlands B.V. | Harmonic resist model for use in a lithographic apparatus and a device manufacturing method |
US8682059B2 (en) | 2008-11-24 | 2014-03-25 | Asml Netherlands B.V. | Harmonic resist model for use in a lithographic apparatus and a device manufacturing method |
US8942463B2 (en) | 2008-11-24 | 2015-01-27 | Asml Netherlands B.V. | Harmonic resist model for use in a lithographic apparatus and a device manufacturing method |
WO2013141885A1 (en) * | 2012-03-22 | 2013-09-26 | Intuit Inc. | Accurately extracting information based on orthogonal images |
GB2514303A (en) * | 2012-03-22 | 2014-11-19 | Intuit Inc | Accurately extracting information based on orthogonal images |
US9019568B2 (en) | 2012-03-22 | 2015-04-28 | Intuit Inc. | Accurately extracting information based on orthogonal images |
GB2514303B (en) * | 2012-03-22 | 2018-12-19 | Intuit Inc | Accurately extracting information based on orthogonal images |
Also Published As
Publication number | Publication date |
---|---|
EP1553485A2 (en) | 2005-07-13 |
RU2004139190A (ru) | 2006-06-20 |
AU2004242472A1 (en) | 2005-07-21 |
CN100517368C (zh) | 2009-07-22 |
US7581171B2 (en) | 2009-08-25 |
RU2360303C2 (ru) | 2009-06-27 |
KR20050072699A (ko) | 2005-07-12 |
CN1637775A (zh) | 2005-07-13 |
BRPI0500009A (pt) | 2005-09-06 |
US20050149865A1 (en) | 2005-07-07 |
ZA200410391B (en) | 2008-05-28 |
TW200525455A (en) | 2005-08-01 |
CA2491586A1 (en) | 2005-07-06 |
MXPA05000367A (es) | 2005-08-19 |
EP1553485B1 (en) | 2015-05-20 |
EP1553485A3 (en) | 2012-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005228302A (ja) | 位置エンコードされた文書画像の分析およびラベル付け | |
KR101037238B1 (ko) | m-어레이 디코딩 및 고속 이미지 매칭에 의한 스트로크로컬리제이션 | |
KR101312830B1 (ko) | 임베딩된 상호작용 코드 지원 표면 유형 식별을 위한 이미지 처리 시스템 및 방법 | |
JP4750425B2 (ja) | カメラ−ペン先のマッピングおよび較正 | |
JP4833555B2 (ja) | m配列のデコーディングおよびエラー訂正の強化された手法 | |
US7421439B2 (en) | Global metadata embedding and decoding | |
KR101026580B1 (ko) | 문서의 이미지를 인코딩하기 위한 시스템 및 데이터 스트림을 패턴으로서 인코딩하기 위한 방법 | |
KR101114196B1 (ko) | 고속 이미지 매칭에 의한 글로벌 국소화 | |
US20060182343A1 (en) | Digital pen calibration by local linearization | |
JP4822775B2 (ja) | 迷路パターン分析方法及びその装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100720 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101214 |