JP2016517587A

JP2016517587A - モバイル装置を用いて取込まれたデジタル画像におけるオブジェクトの分類

Info

Publication number: JP2016517587A
Application number: JP2016502178A
Authority: JP
Inventors: アントラップ，ジャン・ウィラーズ; マッチオーラ，アンソニー; トンプソン，スティーブン・マイケル; マ，ジーヨン
Original assignee: コファックス，インコーポレイテッド
Priority date: 2013-03-13
Filing date: 2014-03-13
Publication date: 2016-06-16
Also published as: US20150339526A1; EP2973226A1; EP2973226A4; WO2014160426A1; US20140270536A1; CN105283884A; US9311531B2; US9754164B2

Abstract

方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの１つ以上のオブジェクト特徴を求めることと、求めた１つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、抽出モデルを用いてデジタル画像からデータを抽出することとを含む。関連するシステムおよびコンピュータプログラムプロダクトも開示される。

Description

発明の分野
本発明は、モバイル画像取込みおよび画像処理に関し、より具体的には、モバイル装置を用いてデジタル画像を取込んで処理しこのようなデジタル画像内で検出されたオブジェクトを分類することに関する。

発明の背景
書簡、勘定書、請求書、納品伝票等の文書を含むオブジェクトが描かれているデジタル画像は、従来、ラップトップまたはデスクトップコンピュータ等のコンピュータワークステーションに接続されたスキャナまたは多機能周辺装置を用いて取込まれて処理されてきた。このような取込みおよび処理を実行することが可能な方法およびシステムは、当該技術では周知であり、これら方法およびシステムが採用されるタスクによく適応している。

しかしながら、日々の活動、計算、および仕事をモバイル装置を用いて行なうことが増している時代においては、スマートフォン、デジタルカメラ、タブレットコンピュータ等のモバイルプラットフォームに導入して使用するための、同様の文書取込みおよび処理システムを提供することが、非常に有益であろう。

従来、デジタル画像は、ほぼ無限の多様なアプリケーションの貴重なデータリソースである。ビジネスとの関連では、典型的には文書および／または関連する画像データ（保険給付支払請求、車両登録、売買証書等のデジタル画像に付随する車両のデジタル画像など）に示される情報の伝達および処理のために、デジタル画像が広範囲にわたって使用されてきた。ますます高性能化しているモバイル装置は、デジタル画像処理をモバイルの領域に拡張する機会を提供し、かつ、モバイル技術を用いてリアルタイムでデジタル画像データを取込んで処理する改良された能力を提供する。

既存のモバイル装置および非モバイル装置で使用される従来のデータ抽出方法は、典型的には専門家のユーザによって作成および／または管理されるオブジェクトテンプレートに依拠して、抽出エンジンに情報を与え、このエンジンに抽出の情報がどこにあるか指示する。文書という特定のケースにおいては、従来の抽出技術は、文書の１つ以上の（典型的には矩形）領域の位置が与えられその領域に対して光学式文字認識（ＯＣＲ）を実行するよう指示され、判定した文字を別のプロセスまたはファイルに出力する。

従来の抽出エンジンおよび方法は、テンプレートが予め定められているオブジェクトから情報を確実に抽出することはできるが、テンプレートが存在しないオブジェクトから情報を動的に抽出することは不可能である。このことは、現代社会で遭遇する、多様化している文書配列に対してユーザが高性能の抽出技術を使用することを制限する、望ましくない制約である。

さらに、従来の抽出エンジンでは、オブジェクトクラスの発展に伴いテンプレートを規定しテンプレート規定を維持するための広範な入力が専門の管理者からなされることが必要である。このため、テンプレートに基づく抽出の性能は、適切にテンプレートを規定する管理者の能力と、どの情報が抽出するに「値する」かという管理者の判断との、一次関数である。したがって、専門の管理者は、抽出の正確さおよび精度ならびにデータの抽出元となり得るオブジェクトの範囲という点で、データ抽出のロバストネスにとって望ましくない障害である。

またさらに、従来の抽出方法は、主としてまたは全面的に画像データからのテキスト文字抽出をＯＣＲ技術に頼っている。ＯＣＲエンジンは、テキスト文字の識別に関する推定を行なうことを強いられ、そのため、必然的に、画質が悪いとき、文字が予め規定された一組の「既知の」文字と一致しないとき、文字の外観が曖昧でＯＣＲエンジンが複数の候補文字間の区別を確実に行なうことができないとき（たとえばピリオド「．」とカンマ「，」、または文字「ｌ」と数字の「１」）は、文字を間違って報告することになる。専門の管理者は、これらの問題を、何らかの既知の文字パターンが予測されるときは正しい判断をするようにＯＣＲエンジンを促すことによって緩和することができるが、この緩和でさえ範囲が限定され、最終的には誤りのためにエンドユーザの望ましくない対話が必要になる。

したがって、モバイル装置を用いてデジタル画像データから情報を抽出するための、新たな方法、システム、および／またはコンピュータプログラムプロダクト技術を提供することが、非常に有益であろう。テンプレートに頼らずに情報を抽出できるようにして、専門の管理者の必要性をなくし、かつ、ユーザが抽出モデルを動的に作成および修正して多様で変わりやすいオブジェクトのクラスからデータを抽出できるようにすることが、さらに有益であろう。ＯＣＲ技術に頼らずにデータを抽出する方法を提供して、予め規定された文字クラスおよび低画質の制約を克服し、ユーザがＯＣＲの誤りを訂正する必要を減じるかまたは排除することが、一層有益であろう。

発明の概要
ある実施形態において、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの１つ以上のオブジェクト特徴を求めることと、求めた１つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、抽出モデルを用いてデジタル画像からデータを抽出することとを含み、抽出モデルは光学式文字認識を含まない。

別の実施形態において、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが複数のオブジェクトクラスのうちのいずれにも属さないと判断したとき、デジタル画像をモバイル装置のディスプレイに表示することと、モバイル装置のディスプレイを介してユーザ入力を受けることとを含み、ユーザ入力はオブジェクトにおける１つ以上の注目領域を特定し、ユーザ入力に少なくとも一部基づいて抽出モデルを構築および／または選択することと、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出することとを含み、抽出は光学式文字認識（ＯＣＲ）を含まない。

他の実施形態において、コンピュータプログラムプロダクトは、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、プログラムコードはプロセッサにより読取可能／実行可能であり、プロセッサは、プログラムコードを読取る／実行することにより、モバイル装置によって取込まれたデジタル画像を受け、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断し、オブジェクトが特定のオブジェクトクラスに属すると判断したとき、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの１つ以上のオブジェクト特徴を求め、１つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択し、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出し、データを抽出するように構成されたコンピュータ読取可能なプログラムコードは、光学式文字認識（ＯＣＲ）を利用するように構成されたコンピュータ読取可能なプログラムコードを含まない。

ここで開示される発明の概念の他の局面および特徴は、本質的に例示であり本開示を制限しないと理解されるべき以下の詳細な説明から明らかになるであろう。

ある実施形態に従うネットワークアーキテクチャを示す。ある実施形態に従う、図１のサーバおよび／またはクライアントに関連付けることができる代表的なハードウェア環境を示す。ある実施形態に従うオブジェクトのデジタル画像を示す。ある実施形態に従う、図３Ａに示されるデジタル画像の第１の表現を生成するためにこのデジタル画像を複数の区画に分割したものを概略的に示す。図３Ａに示されるデジタル画像の第１の表現を示し、この第１の表現は、このデジタル画像の解像度よりも低くされた解像度を特徴とする。ある実施形態に従う、文書のデジタル画像内に描かれた複数のサブ領域を概略的に示す。ある実施形態に従う、図４Ａに示されるデジタル画像をマスキングしたものを示す。ある実施形態に従う、図４Ａに示されるデジタル画像をマスキングしたものを示す。ある実施形態に従う、図４Ａに示されるデジタル画像をマスキングしたものを示す。ある実施形態に従う方法のフローチャートである。ある実施形態に従う方法のフローチャートである。ある実施形態に従う方法のフローチャートである。ある実施形態に従う方法のフローチャートである。

詳細な説明
以下の説明は、本発明の一般的な原理を例示することを目的としてなされ、本明細書においてクレームされる発明の概念を限定することを意図しているのではない。さらに、本明細書に記載の特定の特徴は、可能なさまざまな組合せおよび置換え各々において、記載されている他の特徴と組み合わせて使用することができる。

本明細書において特に指定しない限り、すべての用語は、明細書において示される意味および当業者によって理解されるおよび／または辞書、論文等において定義される意味を含む、可能な最も広い解釈が与えられるべきものである。

また、本明細書およびそれに続く請求項において使用される単数形「ａ」、「ａｎ」および「ｔｈｅ」は、特に指定しない限り複数のものを含むことに注意しなければならない。

本願は、カメラ、特にモバイル装置のカメラによって取込まれた画像（たとえば絵、数字、図形、映画、動画、フィルム、クリップの１コマ等）の画像処理に関する。本明細書では、モバイル装置が、物理的な接続（たとえばワイヤ、コード、ケーブル等）を介した電力供給なしでデータを受信することが可能で、かつ、物理的なデータ接続（たとえばワイヤ、コード、ケーブル等）なしでデータを受信することが可能な任意の装置であることが理解される。本開示の範囲に含まれるモバイル装置は、携帯電話、スマートフォン、タブレット、携帯情報端末、ｉＰｏｄ（登録商標）、ｉＰａｄ（登録商標）、ＢＬＡＣＫＢＥＲＲＹ（登録商標）装置等の代表的な装置を含む。

しかしながら、さまざまな機能の説明から明らかになるように、ここで開示されているモバイル画像処理アルゴリズムは、時には何らかの修正が施されて、スキャナおよび多機能周辺装置（ＭＦＰ）からの画像に適用することができる。同様に、いくつかのアプローチでは、ここで開示されている処理アルゴリズムを用いて処理された画像を、従来のスキャナ処理アルゴリズムを用いてさらに処理してもよい。

当然、本明細書において今まで述べてきたさまざまな実施形態は、ハードウェア、ソフトウェア、またはその所望の組合せを用いて実現し得る。そのために、本明細書に記載のさまざまな機能を実現することが可能な何らかの種類のロジックを使用してもよい。

モバイル装置の使用における１つの利点は、データプランを用いて、取込まれた画像に基づく画像処理および情報処理を、スキャナの存在に頼る以前の方法よりも、一層便利で能率的で統合されたやり方で、行なうことができる点である。しかしながら、モバイル装置を文書取込みおよび／または処理装置として使用することは、さまざまな理由から今までは不可能であると考えられてきた。

あるアプローチでは、画像をモバイル装置のカメラによって取込んでもよい。「カメラ」という用語は、一枚の紙等の装置の外部にある物理的なオブジェクトの画像を取込むことができるいずれの種類の装置も含むものとして広く解釈されねばならない。「カメラ」という用語は、周辺装置としてのスキャナまたは多機能装置は包含しない。どのような種類のカメラを使用してもよい。好ましい実施形態は、解像度が高い、たとえば８ＭＰ以上、理想的には１２ＭＰ以上のカメラを使用することがある。画像の取込みは、カラーでも、無彩色でも、白黒でも、またはそれ以外の光学効果を伴っていてもよい。本明細書に記載の「画像」という用語は、生のデータ、処理済みのデータ等を含む、カメラの出力に相当するどの種類のデータも包含することを意図している。

本発明の局面はシステム、方法、またはコンピュータプログラムプロダクトとして実現し得ることが当業者に理解されるであろう。したがって、本発明の局面は、全体がハードウェアである実施形態、全体がソフトウェアである実施形態（ファームウェア、常駐ソフトウェア、マイクロコード等を含む）、または、本明細書において一般的に「ロジック」、「回路」、「モジュール」または「システム」と呼ぶことがあるソフトウェアの側面とハードウェアの側面を組み合わせた実施形態の形態を取り得る。さらに、本発明の局面は、コンピュータ読取可能なプログラムコードが組込まれた１つ以上のコンピュータ読取可能な媒体において実現されるコンピュータプログラムプロダクトの形態を取り得る。

１つ以上のコンピュータ読取可能な媒体を組み合わせたものを使用してもよい。コンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体であってもコンピュータ読取可能な記録媒体であってもよい。コンピュータ読取可能な記録媒体は、たとえば、電子、磁気、光、電磁、赤外線、または半導体システム、装置、またはデバイスであってもよく、これらを適切に組み合わせたものであってもよいが、これらに限定される訳ではない。コンピュータ読取可能な記録媒体のより具体的な例（非網羅的なリスト）は以下のものを含むであろう。ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、消去可能プログラマブル読取専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、ポータブルコンパクトディスク読取専用メモリ（ＣＤ‐ＲＯＭ）、光記憶装置、磁気記憶装置、またはこれらを適切に組み合わせたものである。この文書の文脈において、コンピュータ読取可能な記録媒体は、命令実行システム、装置、プロセッサ、またはデバイスによってまたはこれとの関連で使用するためのプログラムを含むまたは格納することが可能な有形媒体であってもよい。

コンピュータ読取可能な信号媒体は、たとえばベースバンドにおける、搬送波の一部として、コンピュータ読取可能なプログラムコードが組込まれた伝搬データ信号を含み得るものであり、一本以上のワイヤを有する電気的接続、光ファイバ等である。このような伝搬信号は、電磁、光、またはこれを適切に組み合わせたものを含むがこれらに限定されないさまざまな形態のうちのいずれかを取り得る。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記録媒体ではなくかつ命令実行システム、装置、またはデバイスによってまたはこれとの関連で使用するためのプログラムを伝達、伝搬、または搬送することが可能なコンピュータ読取可能な媒体であればよい。

コンピュータ読取可能な媒体上で実現されるプログラムコードは、無線、ワイヤライン、光ファイバケーブル、ＲＦ等またはこれらを適切に組み合わせたものを含むがこれらに限定されない適切な媒体を用いて送信し得る。

本発明の局面の動作を実行するためのコンピュータプログラムコードは、Ｊａｖａ（登録商標）、Smalltalk（登録商標）、Ｃ＋＋等のオブジェクト指向プログラミング言語、および、「Ｃ」プログラミング言語等の従来の手続き型プログラミング言語、または同様のプログラミング言語を含む、１つ以上のプログラミング言語を組み合わせたもので記述されてもよい。プログラムコードは、全体がユーザのコンピュータ上で実行されてもよく、一部がユーザのコンピュータ上で実行されてもよく、独立ソフトウェアパッケージとして、一部がユーザのコンピュータ上で一部が遠隔コンピュータ上で実行されてもよく、または全体が遠隔コンピュータもしくはサーバ上で実行されてもよい。後者のシナリオの場合、遠隔コンピュータは、ユーザのコンピュータに、ローカルエリアネットワーク（ＬＡＮ）もしくはワイドエリアネットワーク（ＷＡＮ）を含む何らかの種類のネットワークを通して接続されてもよく、または、この接続が外部コンピュータに対して（たとえばインターネットサーバプロバイダを用いてインターネットを通して）なされてもよい。

以下、本発明の局面を、本発明の実施形態に従う方法、装置（システム）およびコンピュータプログラムプロダクトのフローチャートの図および／またはブロック図を参照しながら説明する。フローチャートの図および／またはブロック図の各ブロック、および、フローチャートの図および／またはブロック図のブロックを組み合わせたものは、コンピュータプログラム命令によって実現可能であることが理解されるであろう。これらコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、または、他のプログラム可能なデータ処理装置のプロセッサに与えられてマシンを構成し、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートおよびブロック図の１つまたは複数のブロックにおいて指定された機能／動作を実現するための手段を作成してもよい。

これらコンピュータプログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他の装置に特定のやり方で機能するよう指示することが可能な、コンピュータ読取可能な媒体に格納されたものであってもよく、それにより、コンピュータ読取可能な媒体に格納された命令が、フローチャートおよび／またはブロック図の１つまたは複数のブロックにおいて指定された機能／動作を実現する命令を含む製品を構成するようにしてもよい。

コンピュータプログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他の装置にロードされて、一連の動作ステップをこのコンピュータ、他のプログラム可能な装置、または他の装置上で実行させることにより、コンピュータによって実現されるプロセスを生成してもよく、それにより、コンピュータまたは他のプログラム可能な装置上で実行される命令が、フローチャートおよび／またはブロック図の１つまたは複数のブロックにおいて指定された機能／動作を実現するためのプロセスを提供するようにしてもよい。

図面におけるフローチャートおよびブロック図は、本発明のさまざまな実施形態に従うシステム、方法、およびコンピュータプログラムプロダクトの可能な実装例のアーキテクチャ、機能、および動作を示す。この点に関し、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実現するための１つ以上の実行可能命令を含むモジュール、セグメント、またはコードの一部を表わし得る。なお、いくつかの代替実装例においては、ブロックに示される機能が、図面に示される順序と異なる順序で発生してもよい。たとえば、関係する機能に応じて、連続して示されている２つのブロックが実際はほぼ同時に実行されてもよく、または、これらのブロックが逆の順序で実行されることがあってもよい。また、ブロック図および／またはフローチャートの図の各ブロック、および、ブロック図および／またはフローチャートの図におけるブロックを組み合わせたものは、指定された機能もしくは動作、または、専用ハードウェアおよびコンピュータ命令を組み合わせたものを実行する専用ハードウェアに基づいたシステムによって実現することができる。

図１は、ある実施形態に従うアーキテクチャ１００を示す。図１に示されるように、第１の遠隔ネットワーク１０４および第２の遠隔ネットワーク１０６を含む複数の遠隔ネットワーク１０２が与えられている。ゲートウェイ１０１は、遠隔ネットワーク１０２と近接ネットワーク１０８との間に接続されていてもよい。このアーキテクチャ１００に関して、ネットワーク１０４、１０６は各々、インターネット、公衆電話交換網（ＰＳＴＮ）、内部電話網等のＬＡＮ、ＷＡＮを含むがこれに限定されない形態を取り得る。

使用時、ゲートウェイ１０１は、遠隔ネットワーク１０２から近接ネットワーク１０８への入口のポイントとして機能する。このため、ゲートウェイ１０１は、ゲートウェイ１０１に到達した所与のデータパケットを導くことができるルータとして、および、所与のパケットに対してゲートウェイ１０１に出入りする実際の経路を与えるスイッチとして機能し得る。

ゲートウェイ１０１を介して遠隔ネットワーク１０２からアクセスすることが可能な、近接ネットワーク１０８に接続された少なくとも１つのデータサーバ１１４がさらに含まれる。なお、データサーバ１１４は、いずれかの種類の計算装置／グループウェアを含み得る。各データサーバ１１４に接続されているのは複数のユーザ装置１１６である。このようなユーザ装置１１６は、デスクトップコンピュータ、ラップトップコンピュータ、ハンドヘルドコンピュータ、プリンタ、またはその他の種類のロジックを含み得る。なお、ある実施形態において、ユーザ装置１１１もネットワークのいずれかに直接接続されていてもよい。

１つの周辺装置１２０または一連の周辺装置１２０、たとえば、ファクシミリ機、プリンタ、ネットワークされたおよび／またはローカル記憶ユニットまたはシステム等が、ネットワーク１０４、１０６、１０８のうちの１つ以上に接続されてもよい。なお、データベースおよび／またはその他構成要素が、ネットワーク１０４、１０６、１０８に接続された何らかの種類のネットワーク要素とともに使用されてもよく、またはこれに組込まれてもよい。本明細書の文脈において、ネットワーク要素は、ネットワークのいずれかの構成要素を意味し得る。

いくつかのアプローチに従うと、本明細書に記載の方法およびシステムは、仮想システム、および／または１つ以上の他のシステムをエミュレートするシステム、たとえばＩＢＭのｚ／ＯＳ環境をエミュレートするＵＮＩＸ（登録商標）システム、MICROSOFT WINDOWS（登録商標）環境を事実上ホストするＵＮＩＸシステム、ＩＢＭのｚ／ＯＳ環境をエミュレートするMICROSOFT WINDOWSシステム等とともに実現されてもよく、および／またはそのシステム上で実現されてもよい。この仮想化および／またはエミュレートは、いくつかの実施形態ではＶＭＷＡＲＥのソフトウェアの使用を通して向上させてもよい。

さらに多くのアプローチにおいて、１つ以上のネットワーク１０４、１０６、１０８は、一般的に「クラウド」と呼ばれているシステムのクラスタを表わしていてもよい。クラウドコンピューティングでは、処理能力、周辺機器、ソフトウェア、データ、サーバ等の共有リソースが、クラウド内のシステムに、オンデマンドの関係で与えられることにより、多数の計算システム全体におけるアクセスおよびサービスの分配が行なえるようにしている。クラウドコンピューティングは、典型的にはクラウド内で動作するシステム間のインターネット接続を必要とするが、システムの他の接続技術を使用してもよい。

図２は、ある実施形態に従う、図１のユーザ装置１１６および／またはサーバ１１４に関連する代表的なハードウェア環境を示す。この図は、システムバス２１２を介して相互に接続されたマイクロプロセッサ等の中央処理装置２１０およびそれ以外の多数の装置を有するワークステーションの典型的なハードウェア構成を示す。

図２に示されるワークステーションは、ランダムアクセスメモリ（ＲＡＭ）２１４と、読取専用メモリ（ＲＯＭ）２１６と、ディスク記憶ユニット２２０等の周辺装置をバス２１２に接続するためのＩ／Ｏアダプタ２１８と、キーボード２２４、マウス２２６、スピーカ２２８、マイク２３２、および／またはタッチスクリーンおよびデジタルカメラ（図示せず）等の他のユーザインターフェイス装置をバス２１２に接続するためのユーザインターフェイスアダプタ２２２と、ワークステーションを通信ネットワーク２３５（たとえばデータ処理ネットワーク）に接続するための通信アダプタ２３４と、バス２１２をディスプレイ装置２３８に接続するためのディスプレイアダプタ２３６とを含む。

ワークステーションには、Microsoft Windows（登録商標）のオペレーティングシステム（ＯＳ）、ＭＡＣのＯＳ、ＵＮＩＸのＯＳ等のオペレーティングシステムが常駐していてもよい。好ましい実施形態は、上記のもの以外プラットフォームおよびオペレーティングシステム上でも実現し得ることが理解されるであろう。好ましい実施形態は、オブジェクト指向プログラミング技法とともに、ＪＡＶＡ、ＸＭＬ、Ｃ、および／またはＣ＋＋言語、またはその他のプログラム言語を用いて記述されてもよい。複雑なアプリケーションの開発のために使用されることが増えているオブジェクト指向プログラミング（ＯＯＰ）を用いてもよい。

アプリケーションがモバイル装置にインストールされてもよい、たとえば、装置の不揮発性メモリに格納されてもよい。あるアプローチにおいて、アプリケーションは、モバイル装置上で画像処理を実行させる命令を含む。別のアプローチにおいて、アプリケーションは、ネットワークサーバ等の遠隔サーバへ画像を送信させる命令を含む。さらに他のアプローチにおいて、アプリケーションは、モバイル装置上で処理のうちの一部またはすべてを実行するのか、および／または画像を遠隔サイトに送信するのかを決定させる命令を含み得る。

さまざまな実施形態において、ここに開示されている方法、システムおよび／またはコンピュータプログラムプロダクトは、ページ検出、矩形化、不均一な照明の検出、照明の正規化、解像度の推定、不鮮明検出等の機能を利用し得るおよび／または含み得る。

ページ検出のさまざまな実施形態
次に、ページ検出を実行するための代表的な技法を示す、ある代表的な実施形態について説明する。

あるアプローチでは、エッジ検出アルゴリズムが、デジタル画像の境界からこの画像の中心領域に向かって実行され、背景のプロパティに関してわかっているものと十分に異なるポイントを探す。

特に、画像内の背景は、同じモバイル装置によって取込まれても、毎回異なることがあるので、画像内の文書を識別する新たな技術を提供する。

本開示に従いカメラによって取込まれた画像の中のページエッジを発見することは、たとえばスキャナではなくモバイル装置を用いて取込まれた画像のプロパティの重要な相違に対処するのに役立つ。たとえば、射影効果が原因で、写真の中の矩形文書の画像は正確な矩形に見えない場合があり、画像内の文書の対向する辺は同一の長さでないことがある。第２に、最高のレンズであっても何らかの非線形性はあり、結果として、オブジェクト内の直線、たとえば実質的に矩形の文書の直線の辺が、取込まれたこのオブジェクトの画像ではわずかに曲がって見える。第３に、カメラを用いて取込まれた画像は、不均一な照明の効果を取込まれた画像に導入する傾向が非常に強い。照明が不均一である場合、文書を置くことができる面の背景は、完全に均一的であっても、画像の中では明るさに変動があるように見え、特にページが完全に平坦でない場合はページのエッジ周辺に影が出ることが多い。

代表的なアプローチでは、背景の中のこの変動をページエッジと間違えることを避けるために、現在のアルゴリズムは以下の機能のうちの１つ以上を利用する。

さまざまな実施形態において、画像のフレームは、周囲の背景を余白とする文書のデジタル表現を含む。好ましい実装例において、個々のページエッジの探索を、画像の行と列を外側から中に向かって解析するステップオーバーという手法で行なってもよい。ある実施形態では、このステップオーバー手法により、デジタル画像内に複数の解析ウィンドウを定めてもよい。本明細書で理解される解析ウィンドウは、１つ以上の「背景ウィンドウ」、すなわちデジタル画像の背景を描く画素のみを含むウィンドウと、１つ以上の「テストウィンドウ」、すなわちデジタル画像の背景、文書のデジタル表現、またはこれら双方を描く画素を含むウィンドウとを含み得る。

好ましい実施形態において、デジタル画像内の、文書のデジタル表現を、文書が置かれている表面の背景に対応する画像の余白の中に、第１の解析ウィンドウ、すなわち背景解析ウィンドウを定めることにより、検出してもよい。第１の解析ウィンドウの中では、複数の小さな解析ウィンドウ（たとえばテストウィンドウ）を第１の解析ウィンドウ内に定めてもよい。複数のテストウィンドウを用いて、背景を描写する１つ以上の統計的プロパティの１つ以上の分布を推定してもよい。

直前に述べた好ましい実施形態を引続き参照して、文書のデジタル表現の境界の検出における次のステップは、デジタル画像内の複数のテストウィンドウを定めることと、このデジタル画像の対応する領域を解析することとを含み得る。テストウィンドウごとに、画像の対応する領域を描写する１つ以上の統計値を計算してもよい。さらに、これら統計値を、背景を描写する統計値の対応する分布と比較してもよい。

好ましいアプローチにおいて、複数のテストウィンドウは、経路、特に直線経路に沿って定めてもよい。特に好ましいアプローチにおいて、複数のテストウィンドウは、たとえばデジタル画像の行と列に沿って、水平方向および／または垂直方向において定めてもよい。加えて、１ステップずつ進めることを採用することにより、テストウィンドウを、経路に沿って定め、および／または、行の間および／または列の間で定めてもよい。いくつかの実施形態において、１ステップずつ進めることを利用することで、文書検出プロセスの計算効率を有利に高め得ることは、当業者が本明細書を読めばわかるであろう。

加えて、最初の１ステップの大きさは、いくつかの実施形態では画像の解像度または画素サイズに基づいて推定してもよいが、このステップは、以下でさらに説明するように、文書の辺の確実な検出に有利であれば小さくしてもよい。

他の実施形態では、このアルゴリズムは、文書を囲む背景内に位置する大きな解析ウィンドウ内で発見された画像プロパティを描写するいくつかの統計値の分布を推定する。あるアプローチでは、複数の小さなウィンドウをこの大きな解析ウィンドウの中に定めてもよく、この小さなテストウィンドウを描写する統計値の分布を推定してもよい。ある実施形態において、大きな解析ウィンドウを、画像の左上の角等の、デジタル画像の背景領域内に定めてもよい。

背景画素を描写する統計値は、最小値、最大値、中央値、平均値、値の広がりすなわち範囲、分散、標準偏差等の、デジタル画像データから生成することができる何らかの統計値を含み得る。このことは、当業者が本明細書を読めばわかるであろう。たとえば赤‐緑‐青すなわちＲＧＢ、シアン‐マゼンタ、黄色、黒すなわちＣＭＹＫ、色相、彩度、明度すなわちＨＳＶ等の、１つ以上の色チャネル内の明度の値といったデジタル画像を描写するデータから、値をサンプリングしてもよい。このことは、当業者が本明細書を読めばわかるであろう。

小さな解析ウィンドウは各々、大きな解析ウィンドウ内の複数の画素のサブセットを含み得る。加えて、小さな解析ウィンドウは、大きな解析ウィンドウの境界内に収まることができるのであればどのような大きさおよび／または形状であってもよい。好ましい実施形態において、小さな解析ウィンドウは、矩形形状を特徴としてもよく、さらに好ましくは、第１の方向（たとえば高さ）は３画素の長さで第２の方向（たとえば幅）は７画素の長さであることを特徴とする矩形を特徴としてもよい。当然ながら、これ以外の小さな解析ウィンドウのサイズ、形状、および寸法も今回開示される処理アルゴリズムの実現に適する。

ある実施形態において、テストウィンドウを用いて画像を解析しこの画像内に描かれた文書のデジタル表現の境界を検出してもよい。背景ウィンドウは、背景の元の統計的プロパティの推定および／または背景の局所統計的プロパティの再推定に使用される。再推定は、不均一な照明および／または背景のテクスチャのばらつき等のアーティファクトに対処するために必要および／または有利であろう。

好ましくは、いくつかのアプローチにおいて、統計的推定を、文書ページの外側の余白内の大きな解析ウィンドウの中にある複数の小さな解析ウィンドウのうちのいくつかまたはすべてに対して行なってもよい。このような推定は、大きな解析ウィンドウ内の小さな解析ウィンドウを１ステップずつ移動させることを利用して行なってもよく、１ステップずつの移動は、所与の１画素に対して取るサンプル数を変えるために適切に増分して行なってもよい。たとえば、計算効率を高めるために、解析プロセスにより、各画素が一回サンプリングされることを保証するのに十分な数の小さな解析ウィンドウを大きな解析ウィンドウの中に定めてもよい。よって、この計算上効率的なアプローチにおいて定められる複数の小さな解析ウィンドウは、境界を共有するが重なり合わない。

統計的推定のロバスト性を高めるために設計された別のアプローチでは、解析プロセスにより、たとえば連続して定められている小さな解析ウィンドウ間で所与の方向に１つの画素シフトのみが生じるように１ステップを小さくすることによって、各画素が最大回数サンプリングされることを保証するのに十分な数の小さな解析ウィンドウを大きな解析ウィンドウの中に定めてもよい。当然ながら、ここで開示されている処理アルゴリズムのさまざまな実施形態において１ステップのどのような増分量を用いてもよい。このことは当業者が本明細書を読めばわかるであろう。

デジタル画像内の局所的背景の統計値を再推定するのに使用される大きな解析ウィンドウと、テストウィンドウは、所望の方法でデジタル画像内に配置すればよい。

たとえば、ある実施形態に従うと、所与の行ｉにおける左側のエッジの探索は、所与の行ｉを中心とする画像の左辺上のフレーム境界に隣接する大きな解析ウィンドウ内の上記統計値の計算から始まる。

さらに他の実施形態では、このアルゴリズムが画像の外側領域からその内側領域に向かって進むときに存在し得る背景ではないテストウィンドウ（たとえば、推定統計値が最後にわかった局所的背景の統計的特性の分布と似ていないテストウィンドウ）に遭遇したとき、このアルゴリズムは、いくつかの実施形態では、以前に求めた背景領域に戻り、新たな大きな解析ウィンドウを形成し、小さな解析ウィンドウ内の選択された統計値と大きな解析ウィンドウ内の対応する統計値の局所的分布との差の妥当性を再評価するために、背景統計値の分布を再度推定してもよい。

当業者が本明細書を読めばわかるように、このアルゴリズムは、さまざまなやり方で、画像の外側領域から画像の内側領域に進み得る。たとえば、あるアプローチでは、このアルゴリズムはテストウィンドウを実質的に螺旋パターンで定める。他のアプローチでは、このパターンは、垂直方向または水平方向いずれかに沿い実質的に蛇行していてもよい。さらに他のアプローチでは、このパターンは実質的に屋根板状のパターンであってもよい。このパターンはまた、チェックボードパターン、垂直方向、水平方向、または対角線方向のストライプパターン、同心形状等の、デジタル画像の一部またはすべての上に置かれた「連続マスク」によって定めてもよい。このことは当業者が本明細書を読めばわかるであろう。他の実施形態では、大きな解析ウィンドウおよび／または小さな解析ウィンドウ等の解析ウィンドウを、デジタル画像全体において、何らかの規定された手順に従い、ランダムに、疑似ランダムに、総計的に等のやり方で、定めてもよい。このことは当業者が本明細書を読めばわかるであろう。アルゴリズムは、経路によって既知の背景に戻ることができかつ経路が所望の粒度の画像全体をカバーする限り、所望のやり方で一連のテストウィンドウを続けることができる。

好都合なことに、このようにして統計値を再計算することは、さもなければ画像内の非背景ポイント（たとえば外れた候補エッジポイント）の間違った識別につながり得る、デジタル画像および／または背景に固有の照明ドリフトに対処するのに役立つ。

さらに他の実施形態において、相違が統計的に妥当であるとき、アルゴリズムは、木目、表面上の擦り傷、表面のパターン、小さな影等の、背景のテクスチャの小さなばらつきを再度調べてバイパスするために、その経路にさらに沿って一定の距離ジャンプしてもよい。このことを当業者は本明細書を読めば理解するであろう。

その他のおよび／または代替の実施形態において、潜在的な非背景ポイントが発見された後、このアルゴリズムは、ポイントが影のエッジにあるか否か判断し（特にページのエッジが背景面よりも高い場合の可能性）、実際のページエッジに到達しようとする。このプロセスは、影は通常実際のエッジに向かって濃くなり続いて画像が突然明るくなるという観察に依拠する。

上記ページエッジ検出のためのアプローチが利用されていた理由は、標準的なエッジ検出器がいくつかの理由から不要であり望ましくないものでさえある場合があるからである。第１に、ほとんどの標準エッジ検出器は、時間のかかる作業を必要としており、第２に、このアルゴリズムは、エッジがどれほど細いか、エッジがどの方向に沿っているか等のモニタリングのような他の要件には関係していない。さらに重要なのは、ページエッジを探すことは、必ずしもエッジ検出そのものを伴わない、すなわち、本開示に従うページエッジ検出は、文書境界（たとえばページエッジ）を探索するのではなく背景から文書への移行に関連する画像特性を探索するやり方で行なえばよいことである。たとえば、この移行は、光沢紙内のオフホワイトの明度レベルが平坦になること、すなわち、平均グレーまたはカラーレベルではなくテクスチャの変化を特徴とし得る。

結果として、本質的に格子上の各行および列における最初と最後の非背景画素である候補エッジポイント（たとえば候補エッジポイント）を得ることが可能である。ランダムな外れ値を取除くために（たとえば外れ候補エッジポイント）、かつ、どの候補エッジポイントがページの各辺に対応するか判断するために、あるアプローチでは近傍の候補エッジポイントを解析することが有用である。

ある実施形態において、「ポイント」は、当業者が本明細書を読めばわかるように、画素、画素と画素の間の位置（たとえば２画素×２画素の正方形の中心等のフラクショナル座標を有するポイント）、画素の小さなウィンドウ等の、デジタル画像内のある領域とみなし得る。好ましい実施形態において、候補エッジポイントは、局所的背景を描写する統計値の分布と異なると判断された統計値によって特徴付けられることがわかっているテストウィンドウ（たとえば３画素×７画素のウィンドウ）の中心と関連付けられる。

本明細書においてわかるように、「近傍の」候補エッジポイントまたは「近傍の」画素はそれぞれ、対象ポイントまたは画素（たとえば画素）に近いまたは隣接するポイントまたは画素であるとみなされる。これはたとえば、対象ポイントまたは画素の境界に少なくとも一部沿って位置するポイントまたは画素、対象ポイントまたは画素のしきい値距離内（所与の方向における２、１０、６４画素以内等、対象ポイントまたは画素から１行以内、対象ポイントまたは画素から１列以内等）に位置するポイントまたは画素等である。これは当業者が本明細書を読めば理解するであろう。好ましいアプローチにおいて、「近傍」ポイントまたは画素は、特定の方向、たとえば水平方向および／または垂直方向に沿って対象ポイントに最も近い候補エッジポイントであってもよい。

各「優良」エッジポイントは、理想的には真隣に少なくとも２つのポイント（両側に１つずつ）があり、これら隣のポイントをつなぐ直線の線分から遠く外れていない。この「優良」エッジポイント、たとえば候補エッジポイントと真隣の少なくとも２つのポイントは、線形回帰に適合していてもよく、その結果が０．９５以上の決定係数（Ｒ^２）によって特徴付けられてもよい。この線分の、デジタル画像の１以上の境界に対する角度は、その相対的な位置とともに、ページの上辺、左辺、右辺、および左辺のいずれにこのエッジポイントが割当てられるかを決める。好ましい実施形態において、候補エッジポイントおよび２つの近傍エッジポイントは、三角形の角それぞれ割当てられてもよい。候補エッジポイントおける三角形の角度が１８０度に近ければ、この候補エッジポイントは「優良」エッジポイントとみなし得る。候補エッジポイントにおける三角形の角度がしきい値（２０度以上等）よりも大きい角度分１８０度から大きく外れていれば、この候補エッジポイントは一組の「優良」エッジポイントから除外してもよい。この発見的方法（heuristic）の背後にある原理は、マトリクス内の最初と最後の非背景画素の判断におけるランダム誤差をなくしたいという要望に基づいている。これらの画素が同じラインに存在することは起こりにくいので、距離と方向という観点から近傍のものを調べることは、いくつかのアプローチにおいて特に好都合である。

速度のために、格子のマス目の数は、３２等の大きな数から始めてもよいが、２分の１にしてエッジポイントの探索を、ページの辺の最小二乗平均（ＬＭＳ）ベースの等式を求めるのに十分になるまで繰返す（下記参照）。このプロセスが、画像内のすべての行と列を用いた後でも辺を確実に求めることができない場合は、あきらめて画像全体をページとして扱う。

ページの辺の等式は、ある実施形態では下記のように求められる。第１に、アルゴリズムは、最良のＬＭＳ直線を、ＬＭＳ線から短い距離の中にサポートしている残りのエッジすべてが入るまで最悪の外れ値を除外するという手法を用いて、辺各々に適用する。たとえば、文書の特定の境界に沿う複数の候補エッジポイントをつなぐ実質的に真直ぐな線から最大距離にあるポイントを、「最悪」の外れ値と指定してもよい。この手順を反復して繰返すことにより、複数の候補エッジポイントから１つ以上の「最悪」外れ値を指定および／または排除してもよい。いくつかのアプローチにおいて、複数の候補エッジポイントをつなぐ線から候補エッジポイントが外れているであろう距離は、少なくとも一部、デジタル画像のサイズおよび／または解像度に基づく。

この線がこの線の範囲全体に沿って十分にサポートされていない場合、アルゴリズムは、最良の二次多項式（放物線）を、同じ元の候補ポイントに適用しようとしてもよい。最良の放物線を発見することと、最良の直線を発見することとのアルゴリズム的な差は、重要ではなく、直線の方向およびオフセットを決める２つの未知の係数の代わりに、放物線の曲率、方向、およびオフセットを決める３つの係数があるが、ある実施形態では、他の点についてはプロセスは実質的に同一である。

特に候補エッジの範囲の両端により近い場所で、放物線のサポートが直線のサポートよりも強力であれば、結論として、アルゴリズムは、画像内のページの辺のより優れたモデルとして放物線の方が好ましいとみなすはずである。そうでなければ、さまざまなアプローチにおいて線形モデルを採用する。

発見された文書の４辺の交点を、ページの四角形（たとえば以下で詳細に説明する四角形）の角（わずかに湾曲している可能性がある）を発見するために計算してもよい。好ましい実装例では、これらの角を発見するために、３つのケースを考慮する必要がある。すなわち、二本の直線の交点の計算、一本の直線と放物線との交点の計算、および二本の放物線の交点の計算である。

第１のケースでは、（ページの上辺と下辺は大抵の場合水平方向に延びておりページの右辺と左辺は大抵の場合垂直方向に延びているので）解は１つであり、この解によって、対応するページの角の座標が決まる。

第２のケースの、直線と放物線の交点の計算は、少しだけより複雑であり、結果として得られる二次方程式の解は、ゼロ、１つ、または２つである可能性がある。交点がないということは、ページ検出の致命的な問題を示している可能性があり、その結果を不採用にしてもよい。解が１つというのは起こりにくいが、さらに他の問題はない。２つの交点は、選択肢を示し、この場合、フレームの対応する角により近い交点が、より優れた候補であり、実際、この式の他方の解は、画像フレームの座標範囲から非常に大きく離れている可能性がある。

第３のケースの、二本の放物線の計算は、結果として、（原則的に）分析的に解くことができる四次の多項式となる。しかしながら、実際、解を得るのに必要な計算の数は、所望のサブ画素精度をも保証する近似反復アルゴリズムの場合よりも多いかもしれない。

以下、この目的のために使用されるある代表的な手順について、あるアプローチに従う文書のデジタル表現の矩形化を参照しながら詳細に説明する。

結果として得られる、目標四角形（たとえば以下で詳細に説明する四角形）の妥当性には、いくつかの制約がある。すなわち、この四角形は小さすぎる（たとえば画像の総面積の２５％等の所望の値の予め定められたしきい値を下回る）ことがないのが好ましく、この四角形の角は、画像のフレームの外側のより遠いところにないことが好ましく（たとえば１００画素以内）、角自体、好ましくは、四角形の内側で対角線が交差する状態等で、左上、右上、左下、および右下の角として解釈できることが好ましいはずである。これらの制約が満たされていなければ、ある実施形態において、所与のページ検出結果は採用されないかもしれない。

文書のデジタル表現の、検出された四角形が妥当である、ある代表的な実施形態において、アルゴリズムは目標とする矩形を求めてもよい。目標とする矩形の幅および高さは、四角形の上辺と下辺の平均値および左辺と右辺の平均値にそれぞれ設定してもよい。

ある実施形態において、スキュー補正を実行する場合、目標とする矩形のスキュー角をゼロに設定してページの辺が水平方向と垂直方向になるようにしてもよい。そうでなければ、スキュー角を、水平軸に対する上辺と下辺の角度および垂直軸に対する左辺と右辺の角度の平均に設定してもよい。

同様のやり方で、クロップ補正を実行しない場合は、目標とする矩形の中心を、四角形の４つの角の座標の平均値に一致するように設計してもよい。他の実施形態では、そうでなければ、この中心を、目標とする矩形が最終的に画像フレームの左上に収まるように、計算してもよい。

いくつかのアプローチにおいて、ページ検出結果が何らかの理由で採用されない場合、上記プロセスのいくつかまたはすべてのステップを、ステップの増分をより小さくして繰返し、より多くの候補エッジポイントを取得し、好都合にはより信頼できる結果を得てもよい。最悪のケースのシナリオではステップを最小にしても問題はなくならず、検出されたページを画像フレーム全体に設定して元の画像を手つかずの状態のままにしてもよい。

次に、本明細書に記載の発明のページ検出の実施形態の代表的な実装例を特に参照すると、あるアプローチにおいて、ページ検出はこのような方法を実行することを含む。当業者が本明細書を読めば理解するように、この方法は、本明細書に記載され本開示とともに与えられる図面のうちのいずれかに示される環境を含むいずれの環境でも実施し得る。

ある実施形態において、デジタル画像の背景から文書のデジタル表現への移行部に対応する、複数の候補エッジポイントを定める。

さまざまな実施形態において、動作時に複数の候補エッジポイントを定めることは、以下で述べる動作等の１つ以上の他の動作を含み得る。

ある実施形態に従うと、大きな解析ウィンドウ（たとえば大きな解析ウィンドウ）が、デジタル画像の中に定められる。好ましくは、第１の大きな解析ウィンドウが、デジタル画像背景の複数の画素を示すが非背景（たとえば文書のデジタル表現）は示さない領域の中に定められる。これは、デジタル画像背景の特性を示す情報を、非背景（たとえば、以下でより詳細に説明する背景統計値等の、文書のデジタル表現）の特性を示す情報との比較対象を目的として取得するためである。たとえば、第１の大きな解析ウィンドウをデジタル画像の角（左上の角等）に定めてもよい。当然ながら、第１の大きな解析ウィンドウを、本開示の範囲から逸脱することなく、デジタル画像のどの部分に定めてもよい。

加えて、当業者が本明細書を読めば理解するように、この大きな解析ウィンドウはどのようなサイズであってもよく、および／または適切などのような寸法で特徴付けられてもよいが、好ましい実施形態において、大きな解析ウィンドウは、高さがおよそ４０画素で幅がおよそ４０画素である。

特に好ましいアプローチにおいて、大きな解析ウィンドウは、デジタル画像の角領域に定めてもよい。たとえば、デジタル画像は、複数の辺を有する文書のデジタル表現と、背景とを含む。上記のように、大きな分析ウィンドウは、複数の背景画素を含むが文書のデジタル表現に対応する画素は含まない領域に定めてもよい。加えて、大きな分析ウィンドウは、いくつかのアプローチではデジタル画像の角に定めてもよい。

ある実施形態に従うと、複数の小さな解析ウィンドウを、大きな解析ウィンドウの中等、デジタル画像の中に定めてもよい。この小さな解析ウィンドウは、１つ以上の他の小さな解析ウィンドウと少なくとも一部重なり合って、１つ以上の重なり合う領域を含むことを特徴としてもよい。好ましいアプローチにおいて、可能なすべての小さな解析ウィンドウが大きな解析ウィンドウの中に定められる。当然ながら、小さな解析ウィンドウは、デジタル画像のいずれか一部分の中に定めてもよく、好ましくは、小さな解析ウィンドウは、小さな解析ウィンドウ各々が１つの中心画素を特徴とするように定めてもよい。

動作時、ある実施形態に従うと、１つ以上の統計値が、１つ以上の小さな解析ウィンドウ（たとえば大きな解析ウィンドウ内の１つ以上の小さな解析ウィンドウ）について計算されて、対応する統計値の１つ以上の分布（たとえば複数の小さな解析ウィンドウ全体における推定された統計値の分布）が推定される。別の実施形態では、統計値の分布を、１つ以上の大きな解析ウィンドウ全体で推定して任意で併合してもよい。

加えて、値は、当業者が本明細書を読めば理解するように、背景明度値、背景色チャネル値、背景テクスチャ値、背景濃淡値、背景コントラスト値、背景鮮明値等の、デジタル画像の背景に関連する特徴を描写するものであればよい。加えて、さらに、統計値は、大きな解析ウィンドウの中の複数の小さなウィンドウ上のデジタル画像背景を描く複数の画素からなる１つ以上の色チャネルにおける最小値、最大値および／または明度値の範囲を、含み得る。

動作時、ある実施形態に従うと、背景統計値の１つ以上の分布が推定される。統計値の分布を推定することにより、たとえば大きな解析ウィンドウの中のデジタル画像の背景のプロパティを特徴付ける記述的分布を得ることができる。

この分布は、好ましくは、小さな解析ウィンドウ各々について計算された背景統計値に対応し、たとえば、明度最小値の分布、明度最大値の分布等を含み得る。当業者が本明細書を読めば理解するように、この分布から、最小明度値の最小値および／または最大値、最小明度値の最小値および／または最大値、明度値の最小および／または最大の広がり、最小色チャネル値の最小値および／または最大値、最大色チャネル値の最小値および／または最大値、色チャネル値の最小および／または最大の広がり等の分布統計記述子を得ることができる。当然ながら、計算された背景統計値（たとえば明度値、色チャネル値、コントラスト値、テクスチャ値、濃淡値、鮮明値等）のうちのいずれかをまとめて分布にし、この分布を描写する何らかの値を、本開示の範囲から逸脱することなく採用してもよい。

動作時、ある実施形態に従うと、解析ウィンドウ等の大きな解析ウィンドウがデジタル画像の中に定められる。

加えて、ウィンドウの形状は、デジタル画像の一部としてウィンドウの境界を陽画的に設定することによって定めてもよく、たとえばデジタル画像にマスクを適用しマスクされていないデジタル画像の領域を解析ウィンドウとして定めることによって陰画的に定めてもよい。加えて、特にデジタル画像にマスクを適用することによって陰画的にウィンドウを定める実施形態では、ウィンドウをパターンに従って定めてもよい。当然ながら、本開示の範囲から逸脱することなく、ウィンドウを定める他のやり方を採用してもよい。

動作時、ある実施形態に従うと、解析ウィンドウに対して１つ以上の統計値を計算する。加えて、好ましい実施形態では、各解析ウィンドウ統計値は、大きな解析ウィンドウついて推定された背景統計値の分布に対応する。たとえば、ある実施形態において、最大明度は、背景明度の最大値の分布に対応し、最小明度は、背景明度の最小値の分布に対応し、明度の広がりは背景明度の広がりの分布に対応する等であり、このことは、当業者が本明細書を読めば理解するであろう。

動作時、ある実施形態に従うと、少なくとも１つの解析ウィンドウ統計値と、対応する背景統計値の分布との間に、統計学的に有意である相違があるか否か判断する。当業者が本明細書を読めば理解するように、統計学的に有意である相違があるか否かの判断は、当業者が本明細書を読めば理解するように、ｐ値、ｚ検定、カイ二乗分布等の周知の統計学的有意性の評価方法または基準を用いて実施すればよい。

動作時、ある実施形態に従うと、画素を表わす値と対応する背景統計値の分布との間に統計的に有意である相違が存在する解析ウィンドウ内の１つ以上のポイント（たとえば中心画素またはポイント）を、候補エッジポイントとして指定する。この指定は、画素に対応するフラグを設定する、画素の座標を格納する、画素座標のアレイを作成する、画素を表わす１つ以上の値（明度、色相、コントラスト等）を変更する、またはそれ以外の適切な手段等の、当該技術では周知の何らかの方法によって行なえばよい。

ある実施形態に従うと、１つ以上の動作を一回以上繰返してもよい。好ましい実施形態において、複数のこのような繰返しを行なってもよく、各繰返しは、デジタル画像の異なる部分に対して行なう。好ましくは、この繰返しを、文書のデジタル表現の各辺が評価されるまで行ってもよい。さまざまなアプローチにおいて、解析ウィンドウを定めると、結果として、１つ以上の境界を共有する複数の解析ウィンドウ、全体または一部が重なり合う複数の解析ウィンドウ、および／または共有する境界がなく重なり合ってもいない複数の解析ウィンドウ等が、得られるであろう。このことは、当業者が本明細書を読めば理解するであろう。

特に好ましい実施形態において、この複数の繰返しは、潜在的な非背景ウィンドウ（たとえば候補エッジポイントを含むウィンドウまたは不均一な照明、背景テクスチャのばらつき等のアーティファクトを含むウィンドウ等）を検出したときに、局所的背景の統計値を再推定することに関連するやり方で行なってもよい。

動作時、ある実施形態に従うと、四角形の四辺を、複数の候補エッジポイントに基づいて定める。好ましくは、四角形の辺は、デジタル画像内の文書のデジタル表現のエッジを含む。四角形の辺を定めることは、いくつかのアプローチにおいて、１以上の最小二乗平均（ＬＭＳ）近似を実行することを含み得る。

他のアプローチにおいて、四角形の辺を定めることは、１つ以上の外れ候補エッジポイントを識別することと、複数の候補エッジポイントから１つ以上の外れ候補エッジポイントを取除くこととを含み得る。さらに、四角形の辺を定めることは、１つ以上の外れ候補エッジポイントを除外する少なくとも１つの他のＬＭＳ近似を実行することを含み得る。

さらに、ある実施形態において、四角形の各辺は、一クラスの関数から選択された等式によって特徴付けられ、少なくとも１つのＬＭＳ近似を実行することは、好ましい実装例における二次多項式の最良の係数等の１つ以上の係数を各等式について求めることを含む。これらアプローチに従うと、四角形の辺を定めることは、文書のデジタル表現の各辺が、二次多項式、または二次多項式ではなく線形関数等のより単純な関数のような、所与の一クラスの関数に含まれるか否か判断することを含み得る。

好ましいアプローチにおいて、方法を実行することにより、文書の主要な四辺の周りに四角形を正確に定める一方で、裂け目および／または出っ張り等の文書の主要な四辺から外れている１つ以上の部分を無視してもよい。

ここで開示されている四角形のその他のおよび／または代替の実施形態は、四辺を有することによって特徴付けられてもよく、各辺は上記多項式関数等の１つ以上の等式によって特徴付けられる。たとえば、四角形の辺が２以上の等式によって特徴付けられる実施形態は、１つ以上の辺を複数の線分に分割することを含んでいてもよく、各線分は、上記多項式関数等の等式によって特徴付けられる。

四角形を定めることは、さまざまな実施形態において、代替的におよび／またはさらに、四角形の１つ以上の角を定めることを含み得る。たとえば、四角形の角は、四角形の隣合う辺の１つ以上の交点を計算し、複数の交点が計算された場合は計算された複数の交点から適切な交点を指定することによって定めてもよい。他の実施形態において、角を定めることは、１つ以上の等式を解くことを含み得る。各等式は、Ｎ次多項式等の選択されたクラスの関数に属することによって特徴付けられる。このことは当業者が本明細書を読めば理解するであろう。

さまざまな実施形態において、四角形の角は、四角形の二本の湾曲した隣合う辺の交点、二本の実質的に直線の交点、および一本の実質的に直線と一本の実質的に曲線との交点のうちの１つ以上によって定められてもよい。

動作時、ある実施形態に従うと、文書のデジタル表現と四角形とがモバイル装置のディスプレイに出力される。出力は、どのようなやり方で行なわれてもよく、モバイル装置のハードウェアおよび／またはソフトウェアの構成に依存していてもよい。

加えて、出力は、さらなる処理および／または出力とユーザとの対話を簡単にするように、さまざまなアプローチで行ない得る。たとえば、ある実施形態において、たとえば四角形の辺を特定の色、パターン、照明モチーフで表示する、動画として表示する等により、この四角形をデジタル画像の他の特徴から区別するように設計されたやり方で、四角形を表示してもよい。このことは当業者が本明細書を読めば理解するであろう。

さらに、いくつかの実施形態において、四角形と文書のデジタル表現とを出力すると、ユーザは適切なやり方で四角形を手動で調整および／または規定し易くなるであろう。たとえば、ユーザは、モバイル装置のディスプレイと対話することによって、四角形のアスペクト比、形状、エッジの長さ、面積等を維持しながら、四角形を移動させてもよい、すなわち四角形の位置を１以上の方向に動かしてもよい。加えておよび／または代替的に、ユーザはモバイル装置のディスプレイと対話することによって、四角形の角の位置を手動で規定または調整してもよく、たとえば、四角形の角を叩きこの角をデジタル画像内の所望の位置、たとえば文書のデジタル表現の角等にドラッグしてもよい。

ページ検出の理想的な結果の具体的な一例を再び参照すると、デジタル画像内に文書のデジタル表現があり、四角形がこの文書のデジタル表現のエッジを囲んでいる。

いくつかのアプローチにおいて、上記のようなページ検出は、以下で説明するような１つ以上の追加のおよび／または代替の動作を含み得る。

あるアプローチにおいて、方法は、文書のデジタル表現を含む画像データおよびこの文書のデジタル表現に関連する音声データのうちの１つ以上を取込むことをさらに含み得る。取込みは、当業者が本明細書を読めば理解するように、マイク、カメラ、加速度計、センサ等の、モバイル装置に接続された１つ以上の取込み部品を用いて行なってもよい。

別のアプローチにおいて、方法は、新たな大きな解析ウィンドウを定めることと、統計学的に有意である相違が存在すると判断すると、この新たな大きな解析ウィンドウの背景統計値の分布を再推定することとを含み得る。すなわち、本質的には動作を繰返す、および／または文書のエッジに近いポイント等の潜在的な非背景ポイントが識別されたポイントに近いデジタル画像の異なる領域において動作を繰返す。

いくつかの代表的な実施形態において、大きな解析ウィンドウを、１つの行における左端の非背景画素の近くまたはこの画素に配置してもよく、または、１つの行における右端の非背景画素の近くまたはこの画素に配置してもよく、１つの列における上端の非背景画素の近くまたはこの画素に配置してもよく、または、１つの列における下端の非背景画素の近くまたはこの画素に配置してもよい。

このような再推定を含むアプローチはさらに、少なくとも１つの小さな解析ウィンドウ（たとえばテストウィンドウ）の統計値と対応する大きな解析ウィンドウの統計値の再推定された分布との間に統計学的に有意である相違があるか否か判断することを含み得る。このようにして、統計学的に有意である相違が存在するか否かをより信頼性高く判断することが可能であり、したがって、デジタル画像背景から文書のデジタル表現への真の移行と、たとえばデジタル画像内のテクスチャのばらつき、照明の以上、および／またはその他のアーティファクトとを、より明確に区別することが可能である。

加えて、上記の再推定を実行してもしなくても、方法においてデジタル画像内の照明および／またはテクスチャ等のばらつきといった１つ以上のアーティファクトを回避し易くすることができる。このアーティファクトは、デジタル画像背景から文書のデジタル表現への真の移行に対応するものではない。いくつかのアプローチにおいて、アーティファクトの回避は、デジタル画像の１つ以上の領域（たとえばテクスチャ、ばらつき等によって特徴付けられる領域であって真の背景と区別される領域）をバイパスするという形態で行なってもよい。

いくつかのアプローチにおいて、大きな解析ウィンドウについて推定された統計学的分布と、小さな解析ウィンドウについて計算された対応する統計値との間に統計学的に有意である相違があると判断され、小さな解析ウィンドウの近くに新たな大きな解析ウィンドウを定め、この新たな大きな解析ウィンドウについて統計値の分布を再推定し、再推定された統計学的分布と小さな解析ウィンドウについて計算された対応する統計値との間には統計学的に有意な相違はないと判断されたときに、１つ以上の領域をバイパスしてもよい。

他のアプローチにおいて、バイパスを、さらに経路に沿って別の解析ウィンドウを検査し、たとえば統計学的有意性の検定によって示される、検査されたウィンドウの統計値が背景の既知の統計学的プロパティと大きな相違がないという判断がなされたときに、非背景部への移行の探索を再開することによって、行なってもよい。

当業者が本明細書を読めば理解するように、バイパスは、さらに経路に沿って別の解析ウィンドウを検査することによって行なってもよい。

さらに他のアプローチにおいて、ページ検出は、さらにおよび／または代替的に、四角形が１つ以上の品質管理メトリクスを満たすか否か判断することと、四角形が品質管理基準のうちの１つ以上を満たさないと判断されるとこの四角形を採用しないこととを含み得る。加えて、品質管理メトリクスは、ＬＭＳサポートメトリクス、最小の四角形の面積のメトリクス、四角形の角の位置のメトリクス、および四角形の対角線の交点の位置のメトリクス等の尺度を含み得る。

実際、四角形がこれらメトリクスのうちの１つ以上を満たすか否かの判断は、方法の実施についての検査の役割を果たす。たとえば、検査は、四角形がデジタル画像全体の面積の少なくともしきい値をカバーするか否か、たとえば、四角形が画像の総面積の少なくとも２５％を含むか否かの判断を含み得る。さらに、検査は、四角形の対角線が四角形の境界の内側で交差するか否か判断すること、ＬＭＳ近似のうちの１つ以上が、そこから得られる統計値のロバストな信頼度を得るのに十分なデータから計算されたか否かを判断すること、すなわち、ＬＭＳ近似に十分な「サポート」（さまざまなアプローチにおいて少なくとも５つのデータポイント、または、データポイントの総数の少なくとも四分の一から計算された近似等）があるか否か判断すること、および／または（四角形の各辺を特徴付ける等式によって定められる）四角形の角の位置がデジタル画像のエッジのしきい値距離内に存在するか否か判断すること、たとえば、四角形の角が所与の方向においてデジタル画像のエッジから１００画素を超える画素離れているか否か判断することを、含み得る。当然ながら、当業者が本明細書を読めば理解するように、これら開示の範囲から逸脱することなく、他のメトリクスおよび／または検査を使用してもよい。

あるアプローチにおいて、品質メトリクスおび／または検査により、最適ではない四角形の定義を不採用にすることを容易にすることができ、さらに、四角形の辺の定義を改善することを容易にすることができる。たとえば、あるアプローチは、複数の候補エッジポイントに基づいて四角形の四辺を定めたがこれは有効な四角形を定めていない、すなわち品質管理メトリクスのうちの１つ以上を満たさないという表示を受けることと、複数の候補エッジポイントを再度定めることとを含む。特に、この実施形態において、複数の候補エッジポイントを再度定めることは、デジタル画像内の、失敗した先の試みでサンプリングしたポイントの数よりも多い数のポイントをサンプリングすることを含む。これは、あるアプローチでは、デジタル画像の行または列のうちの１つ以上に対するステップを減じ、より多くの数の候補エッジポイントを解析するためにアルゴリズムのステップすべてを繰返すことによって、可能であろう。このステップは、垂直方向において減じてもよく、水平方向において減じてもよく、または両方の方向において減じてもよい。当然ながら、候補エッジポイントを再度定めるおよび／またはデジタル画像内のポイントを再度サンプリングするための他の方法を、本開示の範囲から逸脱することなく利用してもよい。

さらに、特に方法を複数回繰返しデジタル画像解析全体において進行のステップを大幅に小さくしても有効な四角形を定められない場合、ページ検出は、デジタル画像全体を文書のデジタル表現として指定することを含み得る。あるアプローチにおいて、デジタル画像全体を文書のデジタル表現として指定することは、画像の角を文書の角として定めること、画像の辺を文書の辺として定めること等を含み得る。このことは、当業者が本明細書を読めばわかるであろう。

本明細書に記載の、四角形の対角線は、この四角形の計算された左上の角と計算された右下の角とを結ぶ第１の直線と、この四角形の計算された右上の角と計算された左下の角とを結ぶ第２の直線によって特徴付けてもよい。

さまざまなアプローチにおいて、上記動作のうちの１つ以上をプロセッサを用いて実行してもよく、プロセッサは、モバイル装置、特に一体化されたカメラを有するモバイル装置の一部であってもよい。

矩形化
この説明は、デジタル画像内の文書のデジタル表現を矩形化することに関し、そのさまざまなアプローチについて以下で詳細に説明する。

ある実施形態において、矩形化アルゴリズムの目的は、四角形（上記ページ検出方法において定義したもの等）を矩形（同様）にスムーズに変換することである。特に、四角形は複数の等式によって特徴付けられ、各等式は、四角形の一辺に対応し、選ばれたクラスの関数から選択される。たとえば、四角形の各辺は、一次多項式、二次多項式、三次多項式等によって特徴付けられてもよく、このことは当業者が本明細書を読めば理解するであろう。

あるアプローチにおいて、四角形の辺は等式によって説明してもよく、好ましい実施形態において、四角形の左辺は二次多項式ｘ＝ａ_２＊ｙ^２＋ａ_１＊ｙ＋ａ_０によって特徴付けられ、四角形の右辺は二次多項式ｘ＝ｂ_２＊ｙ^２＋ｂ_１＊ｙ＋ｂ_０によって特徴付けられ、四角形の上辺は二次多項式ｙ＝ｃ_２＊ｘ^２＋ｃ_１＊ｘ＋ｃ_０によって特徴付けられ、四角形の下辺は二次多項式ｙ＝ｄ_２＊ｘ^２＋ｄ_１＊ｘ＋ｄ_０によって特徴付けられる。

以下に示すページ矩形化アルゴリズムの説明では、四角形の中の、複数の四角形ベースの固有座標対（ｐ，ｑ）の定義を利用する。各固有座標対（ｐ，ｑ）は、左辺と右辺の等式から、上下方向の曲線の係数比におけるすべての対応する係数ｐ〜１−ｐを組み合わせることによって得られる等式によって特徴付けられる上下方向の曲線と、上辺と下辺の等式から、左右方向の曲線の係数比におけるすべての対応する係数ｑ〜１−ｑを組み合わせることによって得られる等式によって特徴付けられる左右方向の曲線との交点に対応し、０≦ｐ≦１、０≦ｑ≦１である。

四角形の辺が二次多項式によって特徴付けられる好ましい実施形態において、固有座標ｐに対応する上下方向の曲線は、等式ｘ＝（（１−ｐ）＊ａ_２＋ｐ＊ｂ_２）＊ｙ_２＋（（１−ｐ）＊ａ_１＋ｐ＊ｂ_１）＊ｙ＋（（１−ｐ）＊ａ_０＋ｐ＊ｂ_０）によって特徴付けられ、固有座標ｑに対応する左右方向の曲線は、等式ｙ＝（（１−ｑ）＊ｃ_２＋ｑ＊ｄ_２）＊ｙ_２＋（（１−ｑ）＊ｃ_１＋ｑ＊ｄ_１）＊ｙ＋（（１−ｑ）＊ｃ_０＋ｑ＊ｄ_０）によって特徴付けられる。当然ながら、当業者が本明細書を読めば理解するように、他の等式によって上記辺および／または曲線を特徴付けてもよい。

四角形の特殊なケースである矩形の場合、固有座標は特に単純になる。四角形の中で、各固有座標対（ｐ，ｑ）は、矩形の左辺および矩形の右辺各々に平行な線、たとえばｐ〜１−ｐの部分において上辺および下辺双方を分割する線と、矩形の上辺および矩形の下辺各々に平行な辺、たとえばｑ〜１−ｑの部分において上辺および下辺双方を分割する辺との交点に対応し、０≦ｐ≦１、０≦ｑ≦１である。

下記矩形化アルゴリズムの目的は、矩形化された画像内の各ポイントを、元の画像内の対応するポイントにマッチングし、このマッチングを、四角形の四辺各々を実質的に真直ぐな線に変換する一方で四角形の対向する辺が互いに平行でかつ他方の辺の対に対して垂直になるようにすることである。すなわち、四角形の上辺と下辺は互いに平行になり、四角形の左辺と右辺は互いに平行になりかつ新たな上辺と下辺に対して垂直になる。このように、四角形は、４つの角によって特徴付けられる真の矩形に変換され、各角は、交差して９０度の角度を形成する２本の直線を含む。

下記矩形化アルゴリズムの主な意図は、この目的を、第１に、目標とする矩形化画像内の各ポイント（図示せず）の矩形ベースの固有座標（ｐ，ｑ）を計算し、第２に、これらを、元の画像の四角形ベースの固有座標の同じ対（ｐ，ｑ）にマッチングし、第３に、これら固有座標にそれぞれ対応する左右曲線および上下曲線の交点の座標を計算し、最後に、元の画像において発見されたポイントの色またはグレー値をこのポイントに割当てることによって、達成することである。

次に、ある実施形態に従う、ページ矩形化アルゴリズムの第１の反復を表わすものを参照する。デジタル画像内の各ポイントは、ポイントに関連付けられた（上記のような）固有座標に対応する、上下曲線と左右曲線との交点に対応し得る（曲線は、真直ぐな線、曲がった線、たとえば放物線等を含み得るものであり、このことは当業者が本明細書を読めば理解するであろう）。

この説明から明らかになるように、矩形化は、複数のこのような左右方向の線と上下方向の線を定めることを含み得る。

加えて、矩形化は、目標とする矩形ベースの座標を、文書のデジタル表現の四角形ベースの固有座標にマッチングすることを含み得る。

マッチングは、所与の左右曲線と所与の上下曲線との交点を繰返し探索することを含み得る。以下でさらに詳細に説明するあるアプローチに従うと、反復探索は、座標（ｘ０，ｙ０）を有する起点を指定することを含む。起点は、文書のデジタル表現内のどこに位置していてもよいが、好ましくは目標とする矩形の中心または中心近くに位置する。

反復探索は、交差する２つの曲線のうちの一方の上に起点を射影することを含み得る。起点はこれら曲線のうちいずれに射影してもよいが、あるアプローチにおいて、反復探索における第１の探索の前半は、起点を上下曲線上に射影することにより、次の点のｘ座標（ｘ_１）を得ることを含み、この射影の結果を点で表わすとその座標は（ｘ_１，ｙ_０）である。同様に、いくつかの実施形態において、反復探索の第１の反復の後半は、この点を左右曲線上に射影することにより、次の点のｙ座標（ｙ_１）を得ることを含み、この射影の結果を点で表わすとその座標は（ｘ_１，ｙ_１）である。

矩形化は、ページ検出で定められた四角形を真の矩形に変換することを含む。ある実施形態に従うと、このプロセスの結果は、ページ矩形化アルゴリズム実行後の出力の図形表現である。

いくつかの実施形態において、以下でさらに詳細に説明する同様の手法を用いてさらに反復を行なってもよい。

デジタル画像内の文書のデジタル表現の１つ以上の空間特性を修正する方法は、本明細書に記載の技術のいずれかを含み得る。当業者が本明細書を読めば理解するように、方法は、図面および本開示の対応する説明において示されおよび／または記載されるものを含む、何らかの適切な環境で実行得る。

ある実施形態において、（上記ページ検出方法で定めたような）四角形を矩形に変換する。特に、四角形は複数の等式によって特徴付けられ、各等式は四角形の一辺に対応し、選ばれたクラスの関数から選択される。たとえば、四角形の各辺は、当業者が本明細書を読めば理解するように、一次多項式、二次多項式、三次多項式等によって特徴付けられてもよい。

ある実施形態において、四角形の辺は等式によって説明してもよく、好ましい実施形態において、四角形の左辺は二次多項式ｘ＝ａ_２＊ｙ^２＋ａ_１＊ｙ＋ａ_０によって特徴付けられ、四角形の右辺は二次多項式ｘ＝ｂ_２＊ｙ^２＋ｂ_１＊ｙ＋ｂ_０によって特徴付けられ、四角形の上辺は二次多項式ｙ＝ｃ_２＊ｘ^２＋ｃ_１＊ｘ＋ｃ_０によって特徴付けられ、四角形の下辺は二次多項式ｙ＝ｄ_２＊ｘ^２＋ｄ_１＊ｘ＋ｄ_０によって特徴付けられる。加えて、上下曲線の等式はｘ＝（（１−ｐ）＊ａ_２＋ｐ＊ｂ_２）＊ｙ^２＋（（１−ｐ）＊ａ_１＋ｐ＊ｂ_１）＊ｙ＋（（１−ｐ）＊ａ_０＋ｐ＊ｂ_０）であり、左右曲線の等式はｙ＝（（１−ｑ）＊ｃ_２＋ｑ＊ｄ_２）＊ｙ^２＋（（１−ｑ）＊ｃ_１＋ｑ＊ｄ_１）＊ｙ＋（（１−ｑ）＊ｃ_０＋ｑ＊ｄ_０）である。当然ながら、当業者が本明細書を読めば理解するように、他の等式によって上記辺および／または曲線のいずれかを特徴付けてもよい。

ある実施形態において、曲線は、以下の一般的な形態のうちの１つ以上に適合する代表的な多項式関数によって説明してもよい。

ｘ_１＝ｕ_２＊ｙ_０ ^２＋ｕ_１＊ｙ_０＋ｕ_０
ｙ_１＝ｖ_２＊ｘ_１ ^２＋ｖ_１＊ｘ_１＋ｖ_０
式中、ｕ_ｉ＝（１−ｐ）＊ａ_ｉ＋ｐ＊ｂ_ｉ、ｖ_ｉ＝（１−ｑ）＊ｃ_ｉ＋ｑ＊ｄ_ｉであり、ａ_ｉは四角形の左辺の等式における係数であり、ｂ_ｉは四角形の右辺の等式における係数であり、ｃ_ｉは四角形の上辺の等式における係数であり、ｄ_ｉは四角形の下辺の等式における係数であり、ｐおよびｑは曲線に対応する四角形ベースの固有座標である。いくつかのアプローチにおいて、ａ_ｉ、ｂ_ｉ、ｃ_ｉ、ｄ_ｉ等の係数は、上記のようなページ検出法等のページ検出を実行する過程で得られる計算、推定、および／または判断から導出されるものであってもよい。

当然ながら、当業者が本明細書を読めば理解するように、四角形を矩形に変換することは、以下でより詳細に説明するように１以上の加算演算を含み得る。

ある実施形態において、方法は、さらにおよび／または代替的に、四角形の１つ以上の領域を伸張することにより、より矩形に近いものまたは真の矩形にすることを含む。好ましくは、このような伸張は、アーティファクトを矩形に導入しないように十分スムーズなやり方で行なわれる。

いくつかのアプローチにおいて、四角形を矩形に変換することは、矩形の高さ、矩形の幅、矩形のスキュー角、および／または矩形の中心位置を求めることを含み得る。たとえば、このような変換は、目標矩形の幅を、矩形の上辺の幅と下辺の幅の平均として定めること、目標矩形の高さを、矩形の左辺の高さと右辺の高さの平均として定めること、目標矩形の中心を、画像内における矩形の所望の配置に応じて定めること、および、目標矩形のスキューの角度を、たとえば、ユーザからの文書のデジタル表現のスキュー除去要求に応じて定めることを含み得る。

いくつかのアプローチにおいて、この変換は、さらにおよび／または代替的に、元のデジタル画像から矩形化されたデジタル画像を生成し、矩形化されたデジタル画像内の複数のポイント（たとえば目標矩形の内側および外側双方にあるポイント）のｐ座標およびｑ座標を求めることを含み得る。矩形の左側に位置する各ポイントはｐ座標値ｐ＜０を有し、矩形の右側に位置する各ポイントはｐ座標値を有しｐ＞１、矩形の上側に位置する各ポイントはｑ座標値ｑ＜０を有し、矩形の下側に位置する各ポイントはｑ座標値ｑ＞１を有する。

いくつかのアプローチにおいて、この変換は、さらにおよび／または代替的に、元のデジタル画像から矩形化されたデジタル画像を生成し、矩形化されたデジタル画像内の各ポイントの矩形ベースの固有座標の対を求め、矩形ベースの固有座標の各対を、元のデジタル画像内の四角形ベースの固有座標の対応する対にマッチングすることを含み得る。

好ましいアプローチにおいて、矩形ベースの固有座標を四角形ベースの固有座標にマッチングすることは、上下曲線と左右曲線の交点の反復探索を実行することを含み得る。加えて、この反復探索自体、起点（ｘ_０、ｙ_０）たとえば目標矩形の中心を指定すること、起点（ｘ_０，ｙ_０）を左右曲線に射影すること、すなわちｘ_１＝ｕ_２＊ｙ_０ ^２＋ｕ_１＊ｙ_０＋ｕ_０、および、次のポイント（ｘ_１，ｙ_０）を上下曲線に射影すること、すなわちｙ_１＝ｖ_２＊ｘ_１ ^２＋ｖ_１＊ｘ_１＋ｖ_０、を含み、この式においてｕ_ｉ＝（１−ｐ）＊ａ_ｉ＋ｐ＊ｂ_ｉであり、ｖ_ｉ＝（１−ｑ）＊ｃ_ｉ＋ｑ＊ｄ_ｉである。その後、この反復探索は（ｘ_ｋ，ｙ_ｋ）を左右曲線に繰返し射影すること、すなわちｘ_ｋ＋１＝ｕ_２＊ｙ_ｋ ^２＋ｕ_１＊ｙ_ｋ＋ｕ_０、および、（ｘ_ｋ＋_１、ｙ_ｋ）を上下曲線に射影すること、すなわちｙ_ｋ＋１＝ｖ_２＊ｘ_ｋ＋１ ^２＋ｖ_１＊ｘ_ｋ＋１＋ｖ_０を含む。

他の実施形態において、矩形ベースの固有座標を四角形ベースの固有座標にマッチングすることは、（ｘ_ｋ，ｙ_ｋ）と（ｘ_ｋ＋１，ｙ_ｋ＋１）との間の距離を求めることと、この距離が予め定められたしきい値未満であるか否か判断することと、この距離が予め定められたしきい値未満であると判断されると反復探索を終了することとを含み得る。

スキュー角の検出および補正のさまざまな実施形態
いくつかの実施形態において、本明細書に記載の画像処理アルゴリズムはさらにおよび／または代替的に、デジタル画像内の文書のデジタル表現のスキュー角を検出および／または補正するように設計された機能を含み得る。ある好ましいアプローチにおけるスキューの補正について以下で説明する。当然ながら、当業者が本明細書を読めば理解するように、デジタル画像内のスキューを補正する他の方法はこれらの開示の範囲に含まれる。

デジタル画像内の文書のデジタル表現は、１つ以上のスキュー角αによって特徴付けられてもよい。当業者が本明細書を読めば理解するように、水平スキュー角αは、文書のデジタル表現の、水平方向の線とエッジとの間の角度を表わし、このエッジの長手方向軸は実質的に水平方向である（すなわち文書のデジタル表現の上側のエッジまたは下側のエッジいずれか）。同様に、αは、文書のデジタル表現の、垂直方向の線とエッジとの間の角度を表わしてもよく、このエッジの長手方向軸は実質的に垂直方向である（すなわち文書のデジタル表現の左側のエッジまたは右側のエッジいずれか）。

加えて、文書のデジタル表現を、上側のエッジ、下側のエッジ、右側のエッジ、および左側のエッジによって定めてもよい。これらエッジは各々、実質的に線形方程式によって特徴付けられてもよく、上側のエッジはｙ＝−ｔａｎ（α）ｘ＋ｄｔ、下側のエッジはｙ＝−ｔａｎ（α）ｘ＋ｄｂ、右側のエッジはｘ＝ｔａｎ（α）ｙ＋ｄｒ、左側のエッジはｘ＝ｔａｎ（α）ｙ＋ｄｌとなり、式中、ｄｔおよびｄｂはそれぞれ、文書のデジタル表現の上側のエッジおよび下側のエッジを説明する線形方程式のｙ切片であり、ｄｒおよびｄｌはそれぞれ、文書のデジタル表現の右側のエッジおよび左側のエッジを説明する線形方程式のｘ切片である。

あるアプローチにおいて、文書、たとえば矩形文書のデジタル表現の各辺を説明する線形方程式を定義したが、そのスキュー角を、α＝０と設定することにより補正して、上側のエッジではｙ＝ｄｔ、下側のエッジではｙ＝ｄｂ、右側のエッジではｘ＝ｄｒ、および左側のエッジではｘ＝ｄｌとなるようにしてもよい。

照明の問題の検出のさまざまな実施形態
さらに他の実施形態において、ここで説明する画像処理アルゴリズムは、文書のデジタル表現が１つ以上の照明の問題を含むか否か検出することに関する特徴を含み得る。

たとえば、照明の問題は、周囲のおよび／または与えられた照明が不十分な設定で取込まれた画像の特徴のように、画像の背景内において画素ごとに明度の値が大きく異なるときの、デジタル画像の局所的な不飽和領域、および、フラッシュの反射の中の場合のように、画像内のいくつかの領域が褪せているときの、デジタル画像の局所的な過飽和領域を含み得る。

ある実施形態に従い、文書のデジタル表現を含むデジタル画像における照明の問題を検出するためのある代表的なアプローチについて以下で説明する。これは、文書のデジタル表現内に照明の問題が存在するか否か判断する方法を示す。当業者が本明細書を読めば理解するように、方法は、本明細書で説明され添付のさまざまな図面に示されるもののような何らかの適切な環境の中で実施すればよい。当然ながら、当業者が本明細書を読めば理解するように、本開示の範囲に含まれる他の環境も動作方法に適しているであろう。

ある実施形態において、プロセスは（好ましくはモバイル装置のプロセッサを用いて）文書のデジタル表現を含む四角形を複数の区画に分割することを含み、各区画は複数の画素を含む。

他のアプローチにおいて、各区画の明度値の分布を求める。当業者が理解するように、明度値の分布は、周知のやり方でコンパイルおよび／またはアセンブルしてもよく、ガウス分布、２モード分布、歪曲分布等の周知の標準分布モデルに適合させてもよい。

さらに他のアプローチにおいて、各区画の明度値の範囲を求める。当業者が理解するように、範囲は、所与の分布内の最大値と最小値の差であると定義される。ここでは、明度値の範囲を、所与の区画内の特性最大明度値と同じ区画内の特性最小明度値との差であると定義する。たとえば、これら特性値はそれぞれ、全体分布の２番目の百分位数および９８番目の百分位数に相当し得る。

多くのアプローチにおいて、各区画の明度値のばらつきを求める。
さまざまなアプローチにおいて、各区画が過飽和か否か判断する。たとえば、ある実施形態に従い、動作は、文書のデジタル表現を描写するデジタル画像の領域が過飽和か否か判断することを含み得る。各区画が過飽和か否か判断することは、区画ごとに区画過飽和率を求めることを含み得る。特に、好ましい実施形態において、各区画過飽和率は、この区画内の最大明度値を示す画素の数を、この区画内の画素の総数で割ったものとして定義される。

不均一に照明された画像は、デジタル画像の対応する画素、ポイント、または領域の明度レベルが画像または文書の他の領域よりも低くおよび／または画像または文書の平均明度レベルよりも低い領域のより密度が高いであろう複数のダークスポットを示すまたはこれによって特徴付けられてもよい。いくつかの実施形態において、不均一な照明は、明度の勾配によって特徴付けられてもよく、たとえば、画像（近傍領域）の右上角から画像（近傍領域）の左下角への勾配であり、明度はこの勾配に沿って低下しており、画像（近傍領域）の右上角は比較的明るい領域、画像（近傍領域）の左下角は比較的暗い領域である。

いくつかのアプローチにおいて、各区画が過飽和であるか否か判断することはさらに、区画ごとに、この区画の過飽和レベルが予め定められたしきい値、たとえば１０％よりも高いか否か判断することと、この区画の飽和レベルが予め定められたしきい値を超えていると判断されるとこの区画を過飽和であると特徴付けることとを含み得る。ここで説明する実施形態ではしきい値として１０％を用いているが、他の予め定められた過飽和しきい値レベルを本明細書の範囲から逸脱することなく用いることができる。特に、正確な値は視覚および専門家の判断の問題であり、さまざまなアプローチにおいてユーザが調整および／または設定してもよい。

他のアプローチにおいて、各区画が不飽和か否か判断する。たとえば、ある実施形態に従い、動作は、文書のデジタル表現を描写するデジタル画像の領域が不飽和か否か判断することを含み得る。各区画が不飽和か否か判断することは、各区画の明度値の分布のばらつきの中央値を求めること、各ばらつき中央値が予め定められたばらつきしきい値、たとえば０〜２５５の整数範囲のうちの１８という明度ばらつき中央値、よりも大きいか否か判断すること、および、区画ごとにその区画のばらつき中央値が予め定められたばらつき中央値よりも大きいと判断されるとその区画は不飽和であると判断すること等の、他の動作を含み得る。特に、正確な値は視覚および専門家の判断の問題であり、さまざまなアプローチにおいてユーザが調整および／または設定してもよい。

ある具体的なアプローチにおいて、区画のばらつきを求めることは、複数の画素のうちのターゲット画素の明度値を求めることと、ターゲット画素の明度値と近傍の１つ以上の画素の明度値との差を計算することとを含み得るものであり、この近傍画素は各々ターゲット画素から１画素以上（たとえば２画素）離れており、さらに、この明度値を求めることと計算することを、複数の画素のうちの各画素に対して行なうことにより各ターゲット画素のばらつきを得ることと、ターゲット画素ばらつき値の分布を生成することとを含み、各ターゲット画素明度値およびターゲット画素バラツキ値は０〜２５５の範囲に含まれる整数である。このアプローチは、たとえば、０〜２５５の範囲のすべての可能なばらつき値のアレイにおける対応するカウンタを増分してばらつき値のヒストグラムをたとえば生成することによって実現してもよい。

特に、特定の区画のばらつきを求めるときに近傍画素を使用する場合、近傍画素は、垂直方向、水平方向、またはこれらの方向双方（たとえば対角線方向）に沿って、ターゲット画素から約２画素以内にあってもよい。当然ながら、本発明の範囲から逸脱することなく他の画素近接の境界を用いてもよい。

いくつかのアプローチにおいて、方法はさらに、ターゲット画素ばらつき値の分布から１つ以上のターゲット画素ばらつき値を除外することにより、訂正された分布を生成することと、訂正された分布に基づいて特性背景ばらつきを定めることとを含む。たとえば、ある実施形態において、訂正された分布を生成することおよび特性背景ばらつきを定めることは、カウントされたすべての値のうちの上の３５％（または背景から前景への移行に関連する大きな明度変化をカバーするのに十分な他の値）を除外し、分布の残りの値、すなわち文書のデジタル表現の比較的平坦な背景領域から取った値に基づいて特性背景ばらつきを定めることを含み得る。

他のアプローチにおいて、過飽和区画の数を求める。この動作は、たとえば、当業者が本明細書を読めば理解するように、画像の処理中にカウンタをインクリメントすること、各過飽和区画にフラグを設定し処理中のある時点でフラグをカウントすること等、何らかの方法で過飽和区画の総数を求めることを含み得る。

他のアプローチにおいて、不飽和区画の数を求める。この動作は、たとえば、当業者が本明細書を読めば理解するように、画像の処理中にカウンタをインクリメントすること、各不飽和区画にフラグを設定し処理中のある時点でフラグをカウントすること等、何らかの方法で不飽和区画の総数を求めることを含み得る。

他のアプローチにおいて、区画の総数に対する過飽和区画の数の比率が過飽和しきい値を超えたと判断されると、デジタル画像は過飽和であると判断される。このしきい値は、当業者が本明細書を読めば理解するように、ユーザによって定められてもよく、予め定められた値等であってもよい。

他のアプローチにおいて、区画の総数に対する不飽和区画の数の比率が不飽和しきい値を超えたと判断されると、デジタル画像は不飽和であると判断される。このしきい値は、当業者が本明細書を読めば理解するように、ユーザによって定められてもよく、予め定められた値等であってもよい。

他のアプローチにおいて、デジタル画像が不飽和または過飽和であると判断されるとこのデジタル画像には照明の問題があると判断される。

さらに他のアプローチにおいて、方法は、以下で詳細に説明する、１つ以上の他のおよび／または代替の動作を含み得る。

ある実施形態において、方法は、区画ごとに以下の動作を実行することを含み得る。文書の高さを予め定められた数の水平区画に分割することにより区画の高さを定め、文書の幅を予め定められた数の垂直区画に分割することにより区画の幅を定める。好ましいアプローチにおいて、区画の高さおよび幅は、一定数の区画を作成しこれら区画を文書の高さを一定数の水平部分に分割し文書の幅を一定（できれば異なる）数の垂直部分に分割することによってこれら区画をほぼ正方形にする目的に基づいて定められる。

したがって、いくつかの実施形態において、各区画は区画の高さと幅によって特徴付けられ、デジタル画像は画像の幅ｗと画像の高さｈによって特徴付けられ、ｈ＞＝ｗであり、区画サイズは区画の幅ｗ_ｓと区画の高さｈ_ｓによって特徴付けられｗ_ｓ＝ｗ／ｍ、ｈ_ｓ＝ｈ／ｎであり、ｍおよびｎは、ｗｓがｈｓにほぼ等しくなるように定められる。たとえば、好ましい実施形態においてｍ＞＝３、ｎ＞＝４である。

別のアプローチにおいて、文書のデジタル表現内に照明の問題があるか否か判断する方法は、以下の動作を含み、そのうちのいくつかまたはすべてを、本明細書に記載されおよび／またはここで開示されている図面に示される何らかの環境で実行してもよい。

不均一な照明の補正のさまざまな実施形態
いくつかのアプローチにおいて、デジタル画像内の照明の不均一さの補正は、デジタル画像の全体の明度レベルを正規化することを含む。全体的な明度の正規化は、上記のような明度勾配によって特徴付けられるデジタル画像を、デジタル画像全体の明度の比較的平坦で均一な分布によって特徴付けられるデジタル画像に変換することであってもよい。なお、１つの領域は他の領域よりもダークスポットの分布密度が大幅に高いことによって特徴付けられるが、複数の領域は実質的に同様のダークスポット密度プロファイルによって特徴付けられる。

本開示に従い、照明の不均一さを補正してもよい。特に、当業者が本明細書を読めば理解するように、他の適切な環境のうち、本明細書に記載されさまざまな図面に示されるものを含む、何らかの適切な環境で使用するための、デジタル画像の１つ以上の領域における不均一な照明を補正する方法が、ここで提供される。

ある実施形態において、方法は、デジタル画像から二次元照明モデルが得られるプロセッサを用いる動作を含む。

ある実施形態において、二次元照明モデルは、デジタル画像内の各画素に適用される。
他のアプローチにおいて、当業者が本明細書を読めば理解するように、デジタル画像を複数の区画に分割してもよく、１区画内の画素のうちの一部またはすべてを、色、たとえば１つ以上の色チャネル内の明度値、中央色相値等に基づいてクラスタ化してもよい。加えて、構成要素の数が最も多いクラスタをいくつか解析することにより、１つ以上の可能な局所的背景の特性を求めてもよい。１つのクラスタをその区画の局所的背景として指定するためには、このクラスタに属する画素の数が、区画の総面積のしきい値割合等の特定の予め定められた値を超えていなければならない。

さまざまなアプローチにおいて、クラスタ化は、当業者が本明細書を読めば理解するように、マルコフ連鎖モンテカルロ法、最近傍結合、期待値最大化等の分布ベースのクラスタリング、ノイズを使用したアプリケーションの密度ベースの空間クラスタリング（ＤＢＳＣＡＮ）等の密度ベースのクラスタリング、ポイント順序付けによるクラスタリング構造の特定（ＯＰＴＩＣＳ）等を含む、周知のいずれかの方法を用いて行なってもよい。

ある実施形態において、方法は、背景クラスタ内の色チャネル値の分布ごとに、対応する区画の主背景の平均色、および、対応する区画の副背景の平均色のうちの１つ以上を、その区画内に一方または双方が存在するのであれば、求めることを含み得る。

ある実施形態において、方法は、区画ごとに、文書のデジタル表現の主な背景の局所的表現として、主背景色または副背景色いずれかを指定することを含み、各局所的表現は、対応する区画の主背景の平均色か、対応する区画の副背景の平均色いずれかによって特徴付けられる。

ある実施形態において、方法は、画像背景の選択された局所的表現の複数の平均色チャネル値を、二次元照明モデルに適合させることを含む。いくつかのアプローチにおいて、二次元照明モデルは、等式ｖ＝ａｘ^２＋ｂｘｙ＋ｃｙ^２＋ｄｘ＋ｅｙ＋ｆによって特徴付けられる二次多項式であり、式中、ｖは複数の色チャネルのうちの１つの平均色チャネル値であり、ａ、ｂ、ｃ、ｄ、ｅ、およびｆは各々、二次元照明モデルの各未知パラメータであり、各未知パラメータａ、ｂ、ｃ、ｄ、ｅ、およびｆは、最小二乗平均近似を用いて近似され、ｘは区画内の中間点の画素のｘ座標であり、ｙは区画内の中間点の画素のｙ座標である。

あるアプローチにおいて、二次元照明モデルの導出は、複数の背景クラスタについて、各背景クラスタの平均色チャネル値を計算することと、各背景クラスタの色相比を計算することと、複数の背景クラスタについて中央色相比を計算することとを含み得る。加えて、この導出はまた、各背景クラスタの色相比を複数のクラスタの中央色相比と比較することと、この比較に基づいて、起こり得るこれら２つの背景のうちより可能性が高いものを文書背景の局所的表現として選択することと、少なくとも１つの二次元照明モデルをこの局所的表現の平均チャネル値に適合させることと、複数の局所的表現について複数の平均主背景色チャネル値を計算することとを含み得る。

このモデルの適用は、予測された１つ以上の背景チャネル値と、平均主背景色チャネル値との差を計算することと、この差の分数をデジタル画像内の画素ごとに１つ以上の色チャネル値に加算することとを含み得る。たとえば、この分数の加算は、この差の０から１までの範囲にある値、たとえば好ましい実施形態ではこの差の３／４を、実際の画素値に加算することを含み得る。

さらに他のアプローチにおいて、方法は、以下で説明するもののような追加のおよび／または代替の動作を含み得る。

たとえば、あるアプローチにおいて、方法はさらに、区画ごとに複数の色クラスタを決定すること、構成要素の数が多い複数の色クラスタを決定すること‐構成要素の数が多い色クラスタは各々、区画内の高頻度の表現に相当する（たとえば色クラスタはこの色クラスタに属する画素数が最も多い区画を有するクラスタのうちの１つ）‐、区画の総面積を求めること、複数の部分区画面積を求めること‐各部分区画面積は、構成要素の数が多い複数の色クラスタのうちの１つによって表わされる面積に対応する‐、各部分区画面積を総面積で割ることにより、構成要素の数が多い色クラスタ各々のクラスタ面積率を求めること（たとえば、構成要素の数が多い色クラスタに属する区画内の画素数を、この区画内の画素の総数で割ることにより、対応する、構成要素の数が最も多い色クラスタが住める、区画の総面積に対する割合を得ること）、および、構成要素の数が多い、各色クラスタを、クラスタ面積率に基づいて背景クラスタか非背景クラスタいずれかに分類することのうちの１つ以上を含む。

特に、好ましいアプローチにおいて、分類動作により、区画内に背景がないこと、区画内に、構成要素の数が最も多い背景が１つあること、または区画内に、構成要素の数が最も多い背景が２つあることを、識別する。加えて、この分類は、背景しきい値よりも大きな数の画素を含むクラスタに属するものを各々背景画素として分類することを含む。いくつかのアプローチにおいて、背景しきい値は０〜１００％の範囲の中にある（たとえば、好ましいアプローチでは１５％）。背景しきい値は、ユーザによって定められてもよく、予め定められた値でもよい。このことは、当業者が本明細書を読めば理解するであろう。

解像度推定のさまざまな実施形態
ここで開示されている発明の実施形態のさらに他の目的として、モバイル画像処理は、文書のデジタル表現の解像度を推定する方法を含み得る。当然ながら、これら方法は、本明細書に記載の環境およびここで示すさまざまな図面に示される環境を含む、何らかの適切な環境において実施してもよい。加えて、この方法は、本明細書に記載の他の方法との関連で使用してもよく、下記の動作に対する追加のおよび／または代替の動作を含み得る。このことは、当業者が本明細書を読めば理解するであろう。

ある実施形態において、デジタル画像内において、複数の非背景要素の、接続された複数の構成要素が検出される。いくつかのアプローチにおいて、このデジタル画像は、複調画像、すなわち色調が２つのみの画像、好ましくは黒白画像として特徴付けられてもよい。

別の実施形態において、複数の接続された構成要素に基づいて複数の同様の文字を決定してもよい。同様の文字は、所与の方向の予め定められた数の明から暗への移行部、たとえば大文字「Ｅ」を描くデジタル画像の小領域にあるであろう垂直方向の３つの明から暗への移行部によって特徴付けられる、デジタル画像の領域であってもよく、明から暗への各移行部は、文書の背景（明）から文字「Ｅ」の水平方向の字画のうちの１つへの移行に対応する。当然ながら、これ以外の数の明から暗への移行部を採用してもよく、たとえば、文字「ｏ」であれば垂直および／または水平方向の明から暗への移行部が２つあってもよく、文字「ｌ」であれば垂直方向の明から暗への移行部が１つあってもよい。このことは、当業者が本明細書を読めば理解するであろう。

他の実施形態において、１つ以上の平均文字寸法は、同様の複数のテキスト文字に基づいて求めてもよい。本明細書において理解されるように、平均文字寸法は、平均文字幅および平均文字高さのうちの１つ以上を含み得るが、当然ながら、他の適切な文字寸法を用いてもよく、このことは、当業者が本明細書を読めば理解するであろう。

さらに他の実施形態において、デジタル画像の解像度は１つ以上の平均文字寸法に基づいて推定される。

他の実施形態において、方法は、任意でおよび／または代替的に、下記のような１つ以上の他の動作を含む。

たとえば、ある実施形態において、方法は、デジタル画像の推定された解像度に基づいて文書のデジタル表現の１つ以上の寸法を推定すること、文書のデジタル表現の１つ以上の推定された寸法を、複数の既知の文書タイプの１つ以上の既知の寸法と比較すること、この比較に基づいて文書のデジタル表現を複数の既知の文書タイプのうちの１つ以上にマッチングすること、このマッチングが１つ以上の品質管理メトリクスを満たすか否か判断すること、および、このマッチングが１つ以上の品質管理メトリクスを満たすと判断されると、既知の文書タイプの既知の寸法に基づいて文書のデジタル表現の推定された解像度を調整すること、のうちの１つ以上をさらに含む。いくつかのアプローチにおいて、推定された解像度は、文書のデジタル表現が既知の文書タイプのうちの１つに十分にマッチングしていることが見出された場合にのみ、調整されるであろう。

いくつかのアプローチにおいて、上記１つ以上の既知の文書タイプは、レターサイズ文書（８．５×１１インチ）、リーガルサイズ文書（８．５×１４インチ）、Ａ３文書（１１．６９×１６．５４インチ）、Ａ４（ヨーロッパレターサイズ）文書（８．２７×１１．６９インチ）、Ａ５文書（５．８３×８．２７インチ）、帳簿／タブロイド文書（１１×１７インチ）、運転免許証（２．１２５×３．３７５インチ）、名刺（２×３．５インチ）、個人小切手（２．７５×６インチ）、業務用小切手（３×７．２５インチ）、業務用小切手（３×８．２５インチ）、業務用小切手（２．７５×８．５インチ）、業務用小切手（３．５×８．５インチ）、業務用小切手（３．６６×８．５インチ）、業務用小切手（４×８．５インチ）、２．２５インチ幅の領収書、および、３．１２５インチ幅の領収書を含む。

さらに他のアプローチにおいて、方法は、１つ以上の接続された構成要素について、接続された構成要素内のオン‐オフ移行の数（当業者が本明細書を読めばわかるように、たとえば文字から文書背景への移行、たとえば黒から白への、白から黒への等の移行）、接続された構成要素内の黒画素密度、接続された構成要素のアスペクト比、および、黒画素密度、オン‐オフ移行の数、およびアスペクト比に基づく、接続された構成要素のうちの１つ以上がテキスト文字を表わす見込み、のうちの１つ以上を計算することを、さらにおよび／または任意で含み得る。

さらに他のアプローチにおいて、方法は、複数のテキスト文字のうちの少なくとも２つの文字高さを求めることと、この少なくとも２つのテキスト文字の各文字高さに基づいて平均文字高さを計算することと、複数のテキスト文字のうちの少なくとも２つの文字幅を求めることと、この少なくとも２つのテキスト文字の各文字幅に基づいて平均文字幅を計算することと、少なくとも１つの比較を実行することとを、さらにおよび／または任意で含み得る。特に、この比較は、平均文字高さを基準平均文字高さと比較することと、平均文字幅を基準平均文字幅と比較することから、選択してもよい。

このようなアプローチにおいて、方法はさらに、この少なくとも１つの比較に基づいてデジタル画像の解像度を推定することを含み得る。この場合、基準平均文字高さおよび基準平均文字幅は各々、１つ以上の基準文字に対応し、各基準文字は、既知の平均文字幅および既知の平均文字高さによって特徴付けられる。

さまざまな実施形態において、各基準文字は、３００ＤＰＩ等の、選択された解像度の１つ以上のビジネス文書の代表的なサンプルをスキャンすることによって得た文字のデジタル表現に対応し、各基準文字はさらに、Arial、Times New Roman、Helvetica、Courier、Courier New、Tahoma等の１つ以上の一般的なフォントに対応する。このことは、当業者が本明細書を読めば理解するであろう。当然ながら、ビジネス文書の代表的なサンプルは、文書内の文字を認識するのに適した画像解像度となるのであれば他の解像度でスキャンしてもよい。いくつかのアプローチにおいて、解像度は、ある実施形態では高さが１２画素未満の最小文字等の、最小文字サイズを提供するのに十分でなければならない。当然、当業者は、最小文字高さが、画像の性質に応じて変化し得ることを理解するであろう。たとえば、グレースケール画像を処理するときと、２値（たとえば複調）画像を処理するときとでは、異なる文字高さが必要であろう。他のアプローチでは、文字は、光学式文字認識（ＯＣＲ）で認識するのに十分大きくなければならない。

さらに他の実施形態において、方法は、文書のデジタル表現の推定された解像度に基づいて文書のデジタル表現の１つ以上の寸法を推定すること、平均文字寸法から平均文字幅を計算すること、平均文字寸法から平均文字高さを計算すること、平均文字幅を平均文字高さと比較すること、この比較に基づいて文書のデジタル表現の向きを推定すること、および、推定された寸法と推定された向きに基づいて、この文書のデジタル表現を、既知の文書タイプとマッチングすることのうちの１つ以上を含む。

代替実施形態において、解像度の推定は逆のやり方で行なってもよい。すなわち、当業者が本明細書を読めば理解するように、文書のデジタル表現を処理することにより、請求書のデジタル表現の支払額、書簡の宛先、書式のパターン、バーコード等の、文書の内容を判断する。判断した内容に基づいて、文書のデジタル表現が１つ以上の既知の文書タイプに相当すると判断してもよく、既知の文書タイプに関する情報を用いて、文書のデジタル表現の解像度を判断および／または推定してもよい。

不鮮明（Blur）検出のさまざまな実施形態
さまざまな実施形態に従い、デジタル画像内の１つ以上の不鮮明領域を検出する方法について説明する。当業者が本明細書を読めば理解し認識するように、方法は、本明細書に記載され添付の複数の図面に示されるもの等の、適切な環境において実施すればよい。さらに、方法は、本明細書に記載の他の方法の他の動作から独立しておよび／またはこの動作と関連して実施してもよく、画像を含むが画像に限定される訳ではない。

ある実施形態において、方法は、デジタル画像内の文書のデジタル表現を含む四角形を、各々が複数の画素を含む複数の区画に分割する場合に、プロセッサを使用する動作を含む。

ある実施形態において、方法は、区画ごとに、この区画が第１の方向において１つ以上の鮮明な画素間の移行を含むか否か判断する場合の動作を含む。

ある実施形態において、方法は、区画ごとに、第１の方向の鮮明な画素間の移行の総数（Ｓ_Ｓ１）をカウントする場合の動作を含む。

ある実施形態において、方法は、区画ごとに、この区画が第１の方向において１つ以上の不鮮明な画素間の移行を含むか否か判断する場合の動作を含む。

ある実施形態において、方法は、区画ごとに、第１の方向の不鮮明な画素間の移行の総数（Ｓ_Ｂ１）をカウントする場合の動作を含む。

ある実施形態において、方法は、区画ごとに、この区画が第２の方向において１つ以上の鮮明な画素間の移行を含むか否か判断する場合の動作を含む。

ある実施形態において、方法は、区画ごとに、第２の方向の鮮明な画素間の移行の総数（Ｓ_Ｓ２）をカウントする場合の動作を含む。

ある実施形態において、方法は、区画ごとに、この区画が第２の方向において１つ以上の不鮮明な画素間の移行を含むか否か判断する場合の動作を含む。

ある実施形態において、方法は、区画ごとに、第２の方向の不鮮明な画素間の移行の総数（Ｓ_Ｂ２）をカウントする場合の動作を含む。

ある実施形態において、区画ごとに、Ｓ_Ｓ１が予め定められた鮮明移行しきい値よりも小さく、Ｓ_Ｂ１が予め定められた不鮮明移行しきい値よりも小さく、Ｓ_Ｓ２が予め定められた鮮明移行しきい値よりも小さく、Ｓ_Ｂ２が予め定められた不鮮明移行しきい値よりも小さいと判断された場合、この区画は空白であると判断される。

ある実施形態において、空白でない区画ごとに、第１の方向の不鮮明率ｒ_１＝Ｓ_Ｓ１／Ｓ_Ｂ１が求められる。

ある実施形態において、空白でない区画ごとに、第２の方向の不鮮明率ｒ_２＝Ｓ_Ｓ２／Ｓ_Ｂ２が求められる。

ある実施形態において、空白でない区画ごとに、ｒ_１が予め定められた区画不鮮明率しきい値よりも小さいと判断されると、この空白でない区画は第１の方向において不鮮明であると判断される。

ある実施形態において、空白でない区画ごとに、ｒ_２が予め定められた区画不鮮明率しきい値よりも小さいと判断されると、この空白でない区画は第２の方向において不鮮明であると判断される。

いくつかのアプローチにおいて、「第１の方向」および「第２の方向」は、垂直方向、たとえば鉛直方向と水平方向として、または、正方形の直交する対角線として特徴付けてもよい。他のアプローチでは、「第１の方向」および「第２の方向」がデジタル画像を通る任意の経路に対応していてもよいが、好ましくは、各々、デジタル画像を通る線形経路に相当する。当業者が本明細書を読めば理解するように、本明細書に開示される発明の実施形態の範囲は、これらの例にのみ限定されてはならず、当該技術で周知のその均等物を含むものである。

ある実施形態において、空白でない区画ごとに、その区画が第１の方向において不鮮明であること、および、その区画が第２の方向において不鮮明であることの内の１つ以上が判断されると、この空白でない区画は不鮮明であると判断される。

ある実施形態において、不鮮明な区画の総数が求められる。
ある実施形態において、画像不鮮明率Ｒとして定義される、不鮮明な区画の総数を区画の総数で割ったものが、計算される。

ある実施形態において、方法は、画像不鮮明率が予め定められた画像不鮮明しきい値よりも大きいと判断されると、そのデジタル画像は不鮮明であると判断する動作を含む。

さまざまな実施形態において、方法は、以下で説明するような、１つ以上の追加のおよび／または代替的な動作を含み得る。たとえば、ある実施形態において、方法はまた、区画ごとに複数の画素の明度値の分布を求めること、明度値の分布の特性ばらつきυを求めること、υに基づいて顕著な明度の移行しきい値ηを計算すること（たとえばη＝３＊υであるが１６等の特定の値以下）ηに基づいて大きな明度の移行しきい値μを計算すること（たとえばμ＝２＊ηであるが明度範囲の二分の一等の特定の値以下）複数の画素内の画素ごとに、その画素を囲むウィンドウ内における明度変化の方向性パターンを解析すること（たとえば水平方向、鉛直方向、対角線方向等）、および、この解析に基づいて、鮮明な画素間の移行および不鮮明な画素間の移行のうちの１つ以上を識別することを、含み得る。

別の実施形態において、方法はまた、複数の中心画素を定めること、１つの中心画素を囲む画素、たとえば前後の２画素、からなる１つ以上の小さなウィンドウ内の複数の中心画素各々順次解析すること、中心画素の直近（たとえば直前の画素から次の画素）において大きな明度の移行が存在し、大きな明度の移行の前に第１の小さな（顕著なものよりも小さい）明度変化が存在し、かつ、大きな明度の移行の後に第２の小さな明度変化が存在すると判断されると、鮮明な画素間移行を識別すること、小さなウィンドウのうちの１つ以上において大きな移行が存在し、この大きな移行において明度の単調な変化が存在すると判断されると、鮮明な画素間繊維を検出すること、および、小さなウィンドウ内に顕著な移行が発生し、この顕著な移行において明度の単調な変化が存在すると判断されると、不鮮明な画素間移行を検出することを、含み得る。

さらに他の実施形態において、方法はまた、区画ごとに、選択された１つ以上の方向各々において鮮明な移行の総数をカウントすること、選択された各方向における不鮮明な移行の総数をカウントすること、鮮明な移行の総数が予め定められた鮮明な移行のしきい値（たとえば５０）未満であり不鮮明な移行の総数が予め定められた不鮮明な移行のしきい値未満であると判断されると、区画は空白であると判断すること、選択された方向の少なくとも１つにおいて、不鮮明な移行の総数に対する鮮明な移行の総数を含む区画不鮮明率が区画不鮮明率しきい値（たとえば２４％）未満であると判断されると、空白でない区画が不鮮明であると判断すること、および、この区画が空白でも不鮮明でもないと判断されるとその区画は鮮明であると判断することを、含み得る。

さらに他の実施形態において、方法はまた、複数の区画のうちの空白区画の総数（Ｎ_{ｂｌａｎｋ}）を求めること、複数の区画のうちの不鮮明区画の総数（Ｎ_ｂｌｕｒ）を求めること、複数の区画のうちの鮮明区画の総数（Ｎ_{ｓｈａｒｐ}）を求めること、不鮮明率（Ｒ_Ｂ）＝Ｎ_ｂｌｕｒ／（Ｎ_ｂｌｕｒ＋Ｎ_{ｓｈａｒｐ}）を求めること、および、Ｒｂが不鮮明しきい値（好ましくは百分率で表わされたとえば３０％）未満であればデジタルが層は鮮明であると判断することを、含み得る。

本明細書に示す実施形態は、オンデマンドでサービスを提供するために顧客に代わって導入されるサービスの形態で提供されてもよいことが、さらに理解されるであろう。

文書の分類
本開示の範囲に対応する、ある発明の実施形態に従い、図５に示されるように、方法５００が示される。方法５００は、何らかの所望の環境で実施すればよく、特に図１〜図４Ｄに関して説明した実施形態および／またはアプローチを含み得る。当然ながら、方法５００に従い図５に示されるものよりも多いまたは少ない動作を実行してもよく、このことは、当業者が本明細書を読めば理解するであろう。

動作５０２で、モバイル装置によって取込まれたデジタル画像を受ける。
ある実施形態において、デジタル画像は、固有解像度によって特徴付けられるものでもよい。本明細書において理解される「固有解像度」は、最初に取込まれた画像の元の固有の解像度であってもよいが、上記画像処理動作等のうちのいずれかのような何らかの分類前処理の実行後のデジタル画像の解像度であってもよい。このことは当業者が本明細書を読めば理解するであろう。ある実施形態において、固有解像度は、分類を実行する前にＶＲＳの処理を受けた運転免許証のデジタル画像の、約５００画素×６００画素（すなわち５００×６００デジタル画像）である。加えて、デジタル画像は、あるアプローチではカラー画像によって特徴付けられてもよく、他のアプローチではトリミングされたカラー画像、すなわち、画像背景を描写せず実質的には分類するオブジェクトのみを描写するカラー画像であってもよい。

動作５０４において、デジタル画像の第１の表現がモバイル装置のプロセッサを用いて生成される。この第１の表現は、あるアプローチでは低下させた解像度によって特徴付けられてもよい。本明細書において理解されるように、「低下させた解像度」は、デジタル画像の固有解像度よりも低い解像度であってもよく、より具体的には、本明細書に記載の原理に従う第１の表現の後の解析に適した解像度であってもよい。

好ましい実施形態において、低下させた解像度は、モバイル装置、ホスト装置および／またはサーバプラットフォームそれぞれにおいてアルゴリズムを実行するときの、処理オーバヘッドを最小にし計算効率とロバストネスを最大にするのに十分低い。たとえば、あるアプローチにおいて、第１の表現は、約２５画素×２５画素という解像度によって特徴付けられ、この解像度は、当業者が本明細書を読めば理解するように、名刺、運転免許証、領収書等の比較的小さな文書を処理するのに特に効率的でロバストな、低下させた解像度であると、実験を通して判断されたものである。

当然ながら、他の実施形態では、本開示の範囲から逸脱することなく他の解像度を採用してもよい。たとえば、より大きな文書またはオブジェクトの分類は、ロバストな分類および最大計算効率のために、より大きな文書またはオブジェクトをより良く表現するよう、５０画素×５０画素、１００画素×１００画素等のより高い解像度を利用することから利益を享受してもよい。使用される解像度は、各寸法において同一数の画素を有しても有さなくてもよい。加えて、広い範囲のオブジェクトクラスに含まれるさまざまなオブジェクトを分類するために最も望ましい解像度は、ユーザにとって好ましい計算効率と分類ロバストネスのバランスに従って、実験を通して求めてもよい。さらに他の実施形態では、任意の解像度を用いればよく、好ましくは、この解像度は、第１の寸法において１画素と約１０００画素の間、第２の寸法において１画素と約１００画素の間であることによって特徴付けられてもよい。

次に、具体的には図３Ａ〜図３Ｃを参照しながら、第１の表現を生成するためのプロセスフローの入力、出力、および／または結果についての代表的な実施形態を示す。図３Ａ〜図３Ｃはそれぞれ、区画に分割される前のデジタル画像（たとえば図３Ａに示されるデジタル画像３００）、区画に分割されたデジタル画像（たとえば図３Ｂに示される区画３０４）、および低下させた解像度によって特徴付けられるデジタル画像の第１の表現（たとえば図３Ｃに示される表現３１０）を示す。

図３Ａ〜図３Ｂに示されるように、モバイル装置によって取込まれたデジタル画像３００は、複数の区画３０４に分割されてもよい。各区画は複数の画素３０６を含み得る。この区画は、水平画素ｐｓ（ｘ）（図３Ｂに示されるｐｓ（ｘ）＝４）×垂直画素ｐｓ（ｙ）（図３Ｂに示されるｐｓ（ｙ）＝４）という寸法となるように、実質的に矩形の、画素の格子を含んでいてもよい。

ある一般的な実施形態において、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの１つ以上のオブジェクト特徴を求めることと、求めた１つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、抽出モデルを用いてデジタル画像からデータを抽出することとを含む。

別の一般的な実施形態において、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが複数のオブジェクトクラスのうちのいずれにも属さないと判断したとき、デジタル画像をモバイル装置のディスプレイに表示することと、モバイル装置のディスプレイを介してユーザ入力を受けることとを含み、ユーザ入力はオブジェクトにおける１つ以上の注目領域を特定し、ユーザ入力に少なくとも一部基づいて抽出モデルを構築および／または選択することと、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出することとを含む。

他の一般的な実施形態において、コンピュータプログラムプロダクトは、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、プログラムコードはプロセッサにより読取可能／実行可能であり、プロセッサは、プログラムコードを読取る／実行することにより、モバイル装置によって取込まれたデジタル画像を受け、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断し、オブジェクトが特定のオブジェクトクラスに属すると判断したとき、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの１つ以上のオブジェクト特徴を求め、１つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択し、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出する。

第１の表現は、デジタル画像Ｒ（解像度ｘＲ画素×ｙＲ画素）をＳｘの水平区画とＳｙの垂直区画に分割することによって生成されてもよく、低下させた解像度ｒとしてＳｘ画素×Ｓｙ画素を特徴としてもよい。このように、第１の表現の生成は、本質的に、デジタル画像の、粒度がより低い表現を生成することを含む。

たとえば、あるアプローチにおいて、デジタル画像３００はＳの区画に分割され、各区画３０４はｓ×ｓの格子３０２の一部に相当する。第１の表現を生成することは、ｓ画素×ｓ画素の第１の表現３１０を生成することを含み、第１の表現３１０の各画素３１２はデジタル画像のＳの区画３０４のうちの１つに相当し、各画素３１２は、デジタル画像内の対応する区画３０４の位置に対応する、第１の表現３１０の位置にある。すなわち、第１の表現の左上の角の画素３１２は、デジタル画像の左上の角の区画３０４に対応する。

当然ながら、第１の表現に対してこれ以外の低下させた解像度を用いてもよく、この解像度は、必然ではないが理想的には、当業者が本明細書を読めば理解するように、この処理を実行するのに使用されるモバイル装置、ホスト装置、および／またはサーバプラットフォームの制限および／または特徴、デジタル画像の特性（解像度、照明、不鮮明部分の存在等）、および／または検出および／または分類対象のオブジェクトの特性（背景と対比されるものであり、テキストまたは他の記号の存在、一般的なテンプレートへの適合の度合い等）に応じたものである。

いくつかのアプローチにおいて、第１の表現を生成することは、デジタル画像を複数の区画に分割すること等、１つ以上の代替的なおよび／または追加のサブ動作を含み得る。デジタル画像は、何らかの適切なやり方で複数の区画に分割されればよく、ある実施形態において、デジタル画像は複数の矩形区画に分割される。当然ながら、区画はどのような形状で特徴付けられてもよく、代替的なアプローチでは、複数の区画は、デジタル画像全体を表わしていてもいなくてもよく、画像のいくつかの領域のオーバサンプリングを表わしてもよく、またはデジタル画像内に描かれた各画素の１サンプリングを表わしてもよい。好ましい実施形態では、図３Ａ〜図３Ｃに関して先に述べたように、デジタル画像は、Ｓの実質的に矩形の区画３０４に分割されてｓ×ｓの格子３０２を形成する。

他のアプローチでは、第１の表現を生成することはまた、デジタル画像の区画ごとに少なくとも１つの特性値を求めることを含み得る。各特性値はその区画を説明する１つ以上の特徴に対応する。本開示の範囲の中で、数値で表わすことができる何らかの特徴が、第１の表現の生成において使用するのに適しており、たとえば、当業者が本明細書を読めば理解するように、その区画内の各画素全体の平均明度または強度（０〜２５５）、その区画内の各画素の各色チャネルの平均値（０〜２５５）、たとえば赤緑青（ＲＧＢ）画像の場合の平均赤チャネル値、平均緑チャネル値、および平均青チャネル値等である。

引続き図３Ａ〜図３Ｃを参照すると、いくつかの実施形態において、第１の表現３１０の各画素３１２は、位置的な対応性だけでなく特徴の対応性についても、Ｓの区画３０４のうちの１つに対応する。たとえば、あるアプローチにおいて、第１の表現３１０を生成することはさらに、区画３０４内の各画素３０６の個々の強度値ｉＰの平均値を計算することにより、特性区画強度値ｉＳを求めることを含み得る。次に、第１の表現３１０の各画素３１２に、デジタル画像３００の対応する区画３０４について計算された平均強度値ｉＳに等しい強度値が割当てられる。このようにして、第１の表現３１０は、デジタル画像３００に示される特徴の、より粒度が低い正規化表現を反映する。

当然ながら、第１の表現３１０を含む画素３１２を、ここで開示される分類法の範囲から逸脱することなく、何らかの特性値または特性値の組合せを用いて表わしてもよい。さらに、特性値を、値の分布から特性値をランダムに選択することにより、平均値、値の広がり、最小値、最大値、値の標準偏差、値の分散等の統計的手段または基準によって、または、当業者が本明細書を読めばわかるであろう他の手段によってというように、適切な手段を用いて計算および／または決定してもよい。

動作５０６において、第１の表現に基づき第１の特徴ベクトルが生成される。
第１の特徴ベクトルおよび／または基準特徴マトリクスは、複数の特徴ベクトルを含み得る。各特徴ベクトルは、対応するオブジェクトクラスの特性に対応する。たとえば、特性最小、最大、平均値等、特定の場所（画素または区画）における１つ以上のカラーチャネルの明度、特定の場所における特定の記号またはその他基準オブジェクトの存在、寸法、アスペクト比、画素密度（特に黒画素密度であるが他の色チャネルの画素密度の場合もある）等である。

当業者が本明細書を読めば理解するように、第１の特徴ベクトルおよび／または基準特徴マトリクスに含めるのに適した特徴ベクトルは、任意の種類、数、および／または長さの特徴ベクトルを含む。

動作５０８において、第１の特徴ベクトルを複数の基準特徴マトリクスと比較する。
比較動作５０８は、何らかの適切なマトリクス比較に従って実施すればよい。

このように、上記のようなアプローチにおいて、比較することは、Ｎ次元の特徴空間比較を含み得る。少なくとも１つのアプローチにおいて、Ｎは５０よりも大きいが、当然ながら、Ｎは、当業者が本明細書を読めば理解する、オブジェクトを１つの正しいオブジェクトクラスにロバストに分類することを保証するのに十分大きな値であってもよく、これは、オブジェクトの複雑度、オブジェクトクラス間の類似性または相違性、オブジェクトクラスの数等の数多くのファクタに応じて変化する。

本明細書において理解される、「オブジェクト」は、画像内で表現されている有形のものを含み、当業者が本明細書を読めば理解するように、色、サイズ、寸法、形状、テクスチャ、明度、強度、１つ以上の代表的なマークまたはその他の特徴があることまたはないこと、１つ以上の代表的なマークまたはその他の特徴の位置、複数の代表的なマークまたはその他の特徴間の位置関係等、少なくとも１つの独自のオブジェクト特徴または特性に従って説明し得るものである。加えて、オブジェクトは、画像内で表現される何らかの有形のものであり、このような特性の少なくとも１つの独自の組合せに従って分類し得るものである。たとえば、さまざまな実施形態において、オブジェクトは、当業者が本明細書を読めば理解するように、人、動物、乗物、建築物、ランドマーク、文書、家具、植物等を含み得るがこれらに限定されない。

たとえば、ある実施形態において、デジタル画像に描かれたオブジェクトをわずか少数のオブジェクトクラス（たとえば３〜５のオブジェクトクラス）のうちの１つとして分類しようと試みる場合であって各オブジェクトクラスが相当な数の際立って顕著な特徴または特徴ベクトルによって特徴付けられる場合（たとえば、各オブジェクトクラスが大きく異なるサイズ、形状、カラープロファイル、および／または配色によって特徴付けられる１つまたは複数のオブジェクトに対応しており、各オブジェクトクラスの固有の場所に容易に見分けられる基準シンボルが位置している等）、ロバストな分類を保証するのに、比較的小さい数のＮは十分に大きいであろう。

一方、デジタル画像に描かれたオブジェクトを多数のオブジェクトクラス（たとえば３０以上のオブジェクトクラス）のうちの１つとして分類しようと試みる場合であって各オブジェクトクラスが相当な数の類似する特徴または特徴ベクトルおよびほんの少数の顕著な特徴または特徴ベクトルによって特徴付けられる場合、ロバストな分類を保証するのに、比較的大きな値のＮが好ましいであろう。同様に、好ましくは、Ｎの値は、分類がロバストであるだけでなく計算効率が高くなるように、すなわち分類プロセスが、分類アルゴリズムを実施するのに使用される装置またはシステムに最小の処理オーバヘッドしか導入しないように、選択または決定される。

分類のロバストネスと処理オーバヘッドとの望ましいバランスが得られるＮの値は、上述したような要素および当業者が本明細書を読めばわかるであろう他の要素等の多数の要素に依存する。加えて、この望ましいバランスが得られるＮの適切な値の決定は、当業者が本明細書を読めば理解する何らかの周知の方法またはそれの均等物を用いて行なえばよい。

運転免許証を州によって分類し運転免許証をその他無数の文書タイプから区別することに関する具体的な実装例では、６２５寸法比較（Ｎ＝６２５）により、多様な現世代のモバイル装置を用いて実行する処理に対して不本意な高いオーバヘッドをもたらすことなく、好ましいロバストな分類となった。

動作５１０において、デジタル画像に描かれたオブジェクトを、比較動作５０８に少なくとも一部基づいて、特定のオブジェクトクラスのメンバとして分類する。より具体的には、比較動作５０８は、特徴ベクトルの各基準リストおよび／または特徴マトリクスの各特徴ベクトルを評価すること、またはその代わりに特定のオブジェクトクラスに属するオブジェクトの複数の特徴マトリクスを評価すること、および、特徴ベクトルの１つの基準リストおよび／または特徴マトリクスの特徴ベクトルをその他の基準特徴マトリクスの特徴ベクトルから分離するＮ次元特徴空間における超平面を識別することを、含み得る。このようにして、この分類アルゴリズムは、オブジェクトクラス間の正確な超平面境界を定め、特徴ベクトルの、特定のオブジェクトクラスとの類似点および／または特徴ベクトルのその他の基準リストおよび／または特徴マトリクスプロファイルとの相違点に基づいて、未知のオブジェクトを特定のオブジェクトクラスに割当ててもよい。

このような特徴と空間の区別の最も単純な例では、ある特徴が縦軸に沿って示され別の特徴が横軸に沿って示される二次元特徴空間を考えると、ある特定クラスに属するオブジェクトはこの特徴空間の右下部分においてクラスタ化された値の分布を有する特徴ベクトルによって特徴付けられてもよく、一方、別のクラスのオブジェクトはこの特徴空間の左上部分においてクラスタ化された値の分布を示す特徴ベクトルによって特徴付けられてもよく、分類アルゴリズムはこれら２つを、特徴空間を二つのクラス、すなわち「左上」および「右下」に分ける、各クラスタ間のラインを識別することによって、区別し得る。当然ながら、特徴空間において考慮する次元の数が増えると、分類の複雑度は急速に増すが、分類のロバストネスの多大な改善ももたらす。このことは当業者が本明細書を読めば理解するであろう。

その他の処理
いくつかのアプローチにおいて、ここに開示されている方法の実施形態に従う分類は、以下で説明するような１つ以上の追加のおよび／または代替の特徴および／または動作を含み得る。

ある実施形態において、上述のような分類は、比較動作（たとえば方法５００の動作５０８で行なわれるもの）に基づいて信頼度値を複数の推定上のオブジェクトクラスに割当てることをさらにおよび／または代替的に含み得る。ここに開示される分類方法、システム、および／またはコンピュータプログラムプロダクトは、さらにおよび／または代替的に、モバイル装置の位置を判断すること、モバイル装置の位置を示す位置情報を受けること等を行なってもよく、判断した位置に基づいて、特定の位置に対応する分類結果の信頼度値を調整してもよい。たとえば、モバイル装置が、ＧＰＳ信号に基づいて特定の州（たとえばメリーランド州）に位置すると判断された場合は、分類中に、信頼度値を、特定の州に対応するオブジェクトクラス（たとえば、当業者が本明細書を読めば理解するように、メリーランド州の運転免許証、メリーランド州の自動車権利／登録書の管理局、メリーランド州の交通違反チケット等）について調整してもよい。

信頼度値は、特定の位置に対応するオブジェクトクラスについて信頼度値を増す、特定の位置に対応しないオブジェクトクラスについて信頼度値を減じる、特定の場所に対する対応／非対応に基づいて信頼度値を正規化する等、何らかの適切なやり方で調整すればよく、このことは当業者が本明細書を読めば理解するであろう。

モバイル装置の位置は、いずれか周知の方法を用い、モバイル装置のハードウェア構成要素、または、１つ以上の衛星、無線ネットワーク、サーバ等のモバイル装置と通信する他の多数の装置を用いて、判断すればよく、このことは当業者が本明細書を読めば理解するであろう。

たとえば、モバイル装置の位置は、グローバルポジショニングシステム（ＧＰＳ）信号、無線通信ネットワークとの接続、わかっている位置のデータベース（たとえばコンタクトデータベース、Google Maps（登録商標）等のナビゲーションツールに関連付けられたデータベース）、ソーシャルメディアツール（たとえばFacebook（登録商標）、Google Plus、Yelp（登録商標）等で提供されるもののような「チェックイン」特徴）、ＩＰアドレス等のうちの１つ以上に、全体的または一部基づいて、判断すればよい。このことは当業者が本明細書を読めば理解するであろう。

他の実施形態において、分類はさらにおよび／または代替的に、モバイル装置のディスプレイに、特定のオブジェクトクラスの表示を出力すること、および、この表示の出力に応じたモバイル装置のディスプレイを介するユーザ入力を受けることを含む。ユーザ入力は、周知のいずれかのタイプであればよく、本明細書に記載の特徴および／または動作のうちのいずれかに関連すればよいが、好ましくは、ユーザ入力は、分類アルゴリズムによってオブジェクトが割当てられた特定のオブジェクトクラスの確認、否認、または修正に関連する。

この表示は、当業者によって理解されるであろう、押すことによる通知、テキストメッセージ、モバイル装置のディスプレイ上のディスプレイウィンドウ、電子メール等と介して、適切なやり方でディスプレイに出力すればよい。加えて、ユーザ入力は、どのような形態を取ってもよく、（たとえば、タッチスクリーン装置の抵抗、容量の変化を検出すること、モバイル装置の１つ以上のボタンまたはスイッチとユーザの対話を検出すること等により）ユーザがモバイル装置のディスプレイの一部を軽く叩いたまたは押したことを検出する等、どのような周知のやり方で受けてもよい。

ある実施形態において、分類はさらに、特定のオブジェクトクラスに少なくとも一部基づいて、分類されたオブジェクトの１つ以上のオブジェクト特徴を判断することを含む。このように、分類は、オブジェクトクラス識別コードを受けオブジェクトクラス識別コードをクエリとして用いること、および／またはオブジェクトクラスに従って組織されオブジェクトクラス識別コードに対してキーが付けられた、ハッシュされた、インデックスされたデータベースでルックアップを実行すること等、適切なメカニズムまたはアプローチを用いて、このようなオブジェクト特徴を判断することを含み得る。

本開示の範囲に含まれるオブジェクト特徴は、デジタル画像内で認識されることが可能な何らかの特徴、好ましくは、数値フォーマット（スカラーでもベクトルでもそれ以外でもよい）で表現されることが可能な特徴を含み得る。これは、当業者が本明細書を読めば理解するように、たとえば、基準オブジェクトを含むサブ領域の位置（特に縦置き、横置き等の１つ以上のオブジェクトの向きの状態）、オブジェクトのカラープロファイルまたは配色、オブジェクトサブ領域のカラープロファイルまたは配色、テキストの位置等である。

本開示の範囲に対応する、別の発明の実施形態に従い、図６に示されるように、方法６００が示される。方法６００は、何らかの所望の環境で実施すればよく、特に図１〜図４Ｄに関して説明した実施形態および／またはアプローチを含み得る。当然ながら、方法６００に従い図６に示されるものよりも多いまたは少ない動作を実行してもよく、このことは、当業者が本明細書を読めば理解するであろう。

動作６０２で、モバイル装置によって取込まれたデジタル画像に基づいて第１の特徴ベクトルを生成する。

動作６０４で、第１の特徴ベクトルを複数の基準特徴ベクトルと比較する。
動作６０６で、この比較（たとえば動作６０４で実施された比較）に少なくとも一部基づいて、デジタル画像に描かれたオブジェクトを特定のオブジェクトクラスのメンバとして分類する。

動作６０８で、この特定のオブジェクトクラスに少なくとも一部基づいて、オブジェクトの１つ以上のオブジェクト特徴を判断する。

動作６１０において、処理動作を実行する。この処理動作は、以下のサブプロセスのうちの１つ以上を実行することを含む。すなわち、１つ以上のオブジェクト特徴に少なくとも一部基づいてデジタル画像に描かれたオブジェクトを検出すること、１つ以上のオブジェクト特徴に少なくとも一部基づいてデジタル画像に描かれたオブジェクトを矩形化すること、１つ以上のオブジェクト特徴に少なくとも一部基づいてデジタル画像をトリミングすること、および、１つ以上のオブジェクト特徴に少なくとも一部基づいてデジタル画像を２値化することである。

当業者が本明細書を読めばさらに理解するように、さまざまな実施形態において、文書の分類を介して判断されたオブジェクト特徴に少なくとも一部基づいて、デジタル画像に対し、動作６１０を参照して先に述べたサブプロセスのような１つ以上の他の処理動作を実行することが、好都合であろう。

たとえば、文書等のデジタル画像に描かれたオブジェクトの分類後に、他の処理パラメータ、機能等を改良すること、および／または分類されたオブジェクトが属するオブジェクトのクラスについて正しいことがわかっている情報、たとえば、オブジェクトの形状、サイズ、寸法、オブジェクト上および／または内の注目領域、たとえば１つ以上の記号、パターン、テキスト等を示す領域の位置を用いることが、可能であろう。このことは当業者が本明細書を読めば理解するであろう。

分類に基づいてページ検出を実行することに関して、いくつかのアプローチでは、オブジェクト検出能力を改善するために、特定のオブジェクトクラスに属するオブジェクトに関してわかっている情報を利用することが好都合であろう。たとえば、当業者が理解するように、デジタル画像内のオブジェクトを識別する可能性があると思われる一組の特性を、１つまたは少数の離散的なわかっている特性に狭めれば、計算コストが低くなり、および／または信頼度がより高いまたは品質がより高い結果をもたらすであろう。

オブジェクト検出を改善するのに利用し得る代表的な特性は、オブジェクトの寸法、オブジェクトの形状、オブジェクトの色、オブジェクトクラスの１つ以上の基準特徴（文書のわかっている位置にある基準記号等）を含み得る。

別のアプローチにおいて、オブジェクトを描いているデジタル画像の領域を、他のオブジェクト、画像背景、アーティファクト等を描いているデジタル画像の領域から区別するオブジェクト検出アルゴリズムを容易にすることにより、１つ以上のわかっている特性に基づいて、オブジェクト検出を改善してもよい。このことは当業者が本明細書を読めば理解するであろう。たとえば、特定のオブジェクトクラスに属するオブジェクトが特定のカラープロファイルまたは配色を示すことがわかっていれば、特に２つのカラープロファイルまたは配色が鮮明な対比を示す特徴によって特徴付けられていない場合は、１つのカラープロファイルまたは配色（たとえば背景のカラープロファイルまたは配色）から別のカラープロファイルまたは配色（たとえばオブジェクトのカラープロファイルまたは配色）への移行を検出するのではなく、デジタル画像内の特定のカラープロファイルまたは配色を検出しようとする方が、より簡単でおよび／またはより確実であろう。

分類に基づいて矩形化を実行することに関して、いくつかのアプローチでは、オブジェクト矩形化能力を改善するために、特定のオブジェクトクラスに属するオブジェクトに関してわかっている情報を利用することが、好都合であろう。たとえば、当業者が理解するように、固有の外見から真のオブジェクト構成を推定し固有の外見を推定されたオブジェクト構成に射影しようとするよりも、真のオブジェクト構成を明確に表わす一組のわかっているオブジェクト特性に基づいて、オブジェクトのデジタル表現を、固有の外見から真の構成に変換すれば、計算コストが低くなり、および／または信頼度がより高いまたは品質がより高い結果をもたらすであろう。

あるアプローチにおいて、分類によって、オブジェクトのわかっている寸法を識別してもよく、これらわかっている寸法に基づいて、（たとえば、従来のフラットベッドスキャナ、給紙スキャナまたはその他同様の多機能周辺装置（ＭＦＰ）ではなくモバイル装置のカメラを用いて画像を取込むプロセスで導入された射影効果を除去することにより）デジタル画像を矩形化してデジタル画像におけるオブジェクトの歪んだ表現を歪のない表現に変換してもよい。

分類に基づいてトリミングを実行することに関して、矩形化に関して先に述べた原理と同様に、いくつかのアプローチでは、特定のオブジェクトクラスに属するオブジェクトに関してわかっている情報を利用して、トリミングされた画像すべてまたは実質的にすべてが画像背景（または画像に描かれた他のオブジェクト、アーティファクト等）ではなくオブジェクトを示すように、オブジェクトを示すデジタル画像のトリミングを改善することが、好都合であろう。

単純な例として、オブジェクト分類に基づいてオブジェクトのわかっているサイズ、寸法、構成等を判断しこの情報を利用してオブジェクトを描いていない画像の領域からオブジェクトを描いている画像の領域を識別し、オブジェクトを描いていない画像の領域を除去するようにオブジェクトを囲むトリミングラインを定めることが、好都合であろう。

分類に基づいて２値化を実行することに関して、ここで開示される分類アルゴリズムは、モバイル画像処理にいくつかの有用な改良をもたらす。この改良のいくつかの代表的な実施形態について次に図４Ａ〜図４Ｄを参照しながら説明する。

たとえば、２値化アルゴリズムは一般的に、多色調のデジタル画像（たとえばグレースケール、カラー、または３つ以上の色調を示す画像４００等）を２色調画像すなわち２つの色調のみ（典型的には白と黒）を示す画像に変換する。当業者は、２つ以上の明確に異なるカラープロファイルおよび／または配色を示す領域（たとえば白黒のテキスト領域４０４を描いた領域と対比されるカラー写真４０２、カラーテキスト領域４０６、基準オブジェクト、透かし模様等の記号４０８、オブジェクト背景領域４１０等）を有するオブジェクトを描いたデジタル画像を２値化しようとすると、結果は失敗または不満足なものになる場合があることを、理解するであろう。

１つの説明として、こういった難点は、少なくとも一部、１回の２値化変換に悪影響を与えるカラープロファイル、配色等の違いが原因である。したがって、本質的に異なる配色またはカラースキームを有し各々について別々の２値化パラメータを規定するこれら領域各々を区別する能力を与えれば、結果として得られる２色調の画像全体の品質、特に各領域の変換の質が大幅に改善されるであろう。

図４Ａ〜図４Ｂに示される１つの代表的な実施形態に従うと、改善された２値化は、オブジェクトクラスのカラープロファイルおよび／または配色を判断すること（たとえばオブジェクト背景領域４１０についてのカラープロファイルおよび／または配色を判断すること）、オブジェクトクラスのカラープロファイルおよび／または配色に基づいて１つ以上の２値化パラメータを調整すること、および、調整された１つ以上の２値化パラメータを用いてデジタル画像をしきい値処理することとを含み得る。

２値化パラメータは、当業者が本明細書を読めば理解するであろう何らかの適切な２値化プロセスの何らかのパラメータを含み得る。また、２値化パラメータは適切な技法に従って調整してもよい。たとえば、オブジェクトクラスのカラープロファイルおよび／または配色に基づく２値化パラメータの調整に関して、２値化パラメータは、オブジェクトクラスのカラープロファイルおよび／または配色に従って、１つ以上の色チャネル、強さ等の寄与度を過度に強調するおよび／または十分に強調しないように、調整してもよい（たとえば赤の色相によって相対的に飽和するオブジェクトクラスのカラープロファイルおよび／または配色について赤チャネルを十分に強調しない）。

同様に、図４Ｂ〜図４Ｄに具体的に示されるような他の実施形態において、改良された２値化は、オブジェクトクラスマスクを決定することと、オブジェクトクラスマスクをデジタル画像に適用しオブジェクトクラスマスクに基づいてデジタル画像のサブ領域をしきい値処理することとを含み得る。オブジェクトクラスマスクが、そのクラスに属するオブジェクトの特徴的な特定の注目領域の位置に関する情報を提供しこのような領域を２値化動作に選択的に含めるおよび／または２値化動作から選択的に除外することを可能にする限り、オブジェクトクラスマスクはどのような種類のものであってもよい。

たとえば、図４Ｂに示されるように、改良された２値化は、上記のような領域を識別するオブジェクトクラスマスク４２０を決定し、オブジェクトマスク４２０を適用して、オブジェクトマスク背景領域４１０のような１つの注目領域を除いてデジタル画像４００すべてを２値化から除外することを含む。これに代えて、デジタル画像全体をマスクアウトしオブジェクト背景領域４１０等の注目領域をその後マスクインして２値化処理を行なってもよい。加えて、いずれの場合でも、たとえば、オブジェクトクラスマスクとオブジェクトのカラープロファイルおよび／または配色とを双方取得し、オブジェクトクラスマスクを適用してオブジェクト背景領域４１０以外デジタル画像すべてを２値化の対象外とし、オブジェクト背景領域のカラープロファイルおよび／または配色に基づいて１つ以上の２値化パラメータを調整し、調整された２値化パラメータを用いてオブジェクト背景領域４１０をしきい値処理することによって、ここで図４Ｂを参照しながら説明するマスク機能を、上記カラープロファイルおよび／または配色情報機能と、組み合わせてもよい。

図４Ｂに示す原理を拡張して、オブジェクトクラスマスク４２０を用いて複数の注目領域をマスクインおよび／またはマスクアウトすることにより、高品質の２色調画像を生成するため設計された層状のアプローチにおいて２値化のための領域および／またはパラメータを選択的に指定してもよい。たとえば、図４Ｃに示されるように、たとえば、いくつかのアプローチでは、非テキスト領域すべてを２値化から除外するために、オブジェクトクラスマスク４２０の適用後に複数のテキスト領域４０４、４０６を（可能性のあるものとしては調整されたパラメータを用いて）２値化用に保持してもよい。

同様に、パラメータを調整するか否かにかかわらず、画像の一部のみを２値化から単純に除外することが好都合であろう。たとえば、図４Ｄを参照して、オブジェクトマスク４２０を用いて、カラー写真４０２を示す領域等の、デジタル画像４００の固有領域をマスクアウトすることが望ましいであろう。次に、特に、デジタル画像４００の残りの部分が１つのカラープロファイルおよび／または配色で特徴付けられるかまたは少数（すなわち３以下）の実質的に類似するカラープロファイルおよび／または配色で特徴付けられる場合、２値化を実行することによってデジタル画像４００の残りの部分を明確にしてもよい。次に、マスクアウトした固有領域を任意でデジタル画像４００に戻すと、結果として、２値化処理を受けたデジタル画像４００のすべての領域において２色調画像の質が改善され、それとともに、２値化処理を受けなかった領域のカラー画像４０２は乱されていない。

さらに他の実施形態において、分類および／または分類結果に少なくとも一部基づいて光学式文字認識（ＯＣＲ）を実行することが好都合であろう。具体的には、特定のクラスに属するオブジェクトに描かれているテキストの位置、フォーマット、および／または内容に関する情報を求め、予測されるテキスト位置、フォーマットおよび／または内容に基づいて、従来のＯＣＲ方法によって判断される予測を修正することが好都合であろう。たとえば、ＯＣＲ予測が、文書の「日付」フィールドに対応する領域のテキストが「Jan, 14, 201l」と読めると予想する実施形態では、ここに開示されるアルゴリズムは、このテキストについて予想されるフォーマットが「［月の略語］［.］［##］［,］［####］」といったフォーマットに従うと判断してもよく、このアルゴリズムは、間違ったＯＣＲ予測を、たとえば、「Jan」の後ろのカンマをピリオドに変換しおよび／または201lの最後の文字を１という数字に変換することによって、訂正してもよい。同様に、ここに開示されているアルゴリズムは、同じテキストについて予想されるフォーマットが「［##］/［##］/［####］」であると判断しカンマと空白の各セット「, 」をスラッシュ「/」に変換することにより間違ったＯＣＲ予測を訂正してもよい。

当然ながら、当業者が本明細書を読めば理解するであろう、ＯＣＲ予測の改善および／または修正の他の方法も、その全体が本開示の範囲に含まれる。

データ抽出
オブジェクト分類に基づいて改善された画像処理を実行することに加えて、ユーザはデジタル画像に示された１つ以上のオブジェクトに関する情報を収集することを望む場合がある。いくつかの実施形態において、デジタル画像からデータを抽出するためにオブジェクト分類を活用することが好都合である。以下でより詳しく説明するように、ここに開示されている方法、システム、およびコンピュータプログラムプロダクトはしたがって、オブジェクト分類に基づいてデジタル画像からデータを抽出するための機能を含む。

本明細書に記載のデータ抽出の実施形態は、当業者が本明細書を読めば理解するように、サポートベクターマシン（ＳＶＭ）技術、手本から学ぶ（learn-by-example）（ＬＢＥ）技術、特徴ベクトル、特徴マトリクス、文書検証技術、データセット編成技術、変換分類技術、最大エントロピー識別（ＭＥＤ）技術等のうちの１つ以上を利用し得る。

次に図７を参照して、ある実施形態に従う方法７００が示される。この方法は、さまざまなアプローチにおいて、図１〜図４Ｄに示されるものを含む、何らかの適切な環境でおよび／または何らかの適切なメカニズムを用いて実行し得る。

あるアプローチにおいて、方法７００は、モバイル装置によって取込まれたデジタル画像を受けるという動作７０２を含む。このデジタル画像は、いくつかの実施形態において、このモバイル装置または別のモバイル装置のメモリに収容されおよび／または格納されてもよい。加えて、このデジタル画像は、当業者が本明細書を読めば理解するように、カメラ、メモリ、無線受信機、アンテナ等を含む、モバイル装置の構成部品といったさまざまなソースから受けてもよい。他のアプローチでは、デジタル画像は、遠隔サーバ、別のモバイル装置、一体化されたデータ送信機能を有するカメラ、ファクシミリ機またはその他多機能プリンタ等といった遠隔装置から受けてもよい。任意で、デジタル画像は、当業者が本開示を読めば理解するように、オンラインサービス、データベース等を介して受けてもよい。

方法７００はさらに、以下でさらに詳しく説明するようにモバイル装置のプロセッサを用いて動作７０４〜７１０を実行することを含む。当業者が本明細書を読めば理解するように方法７００のさまざまな実施形態は、モバイル装置のプロセッサ、サーバのプロセッサ、クラウド計算環境等、およびその任意の組合せを用いて動作７０４〜７１０のうちいずれかを実行することを含み得る。

動作７０４において、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断する。描かれているオブジェクトが特定のオブジェクトクラスに属するか否かの判断は、図５および図６を参照して先に述べたオブジェクト分類方法を特に参照して、本明細書に記載のいずれかの方法を用いて行なえばよい。

動作７０６において、モバイル装置のプロセッサを用いて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの１つ以上のオブジェクト特徴を求める。ある実施形態において、オブジェクト特徴は、特徴ベクトル、特徴ベクトルリスト、特徴マトリクス、および／または抽出モデルを用いて求めればよい。オブジェクト特徴を求めることは、オブジェクトが特定のオブジェクトクラスに属するという判断に応じて行なわれる。本明細書に記載のオブジェクト特徴は、可能性がある複数のオブジェクトのうちの１つのオブジェクトを識別するのに十分である独自の特性もしくは特性の独自の組合せ、または、複数のオブジェクトクラスのうちの特定のオブジェクトクラスにオブジェクトが属すると識別するのに十分である独自の特性もしくは特性の独自の組合せを含む。たとえば、さまざまなアプローチにおいて、オブジェクト特徴は、当業者が本明細書を読めば理解するように、オブジェクトの色、サイズ、寸法、形状、テクスチャ、明度、強度、１つ以上の代表的なマークまたはその他の特徴があることまたはないこと、１つ以上の代表的なマークまたはその他の特徴の位置、複数の代表的なマークまたはその他の特徴間の位置関係等を、含み得る。

好ましい実施形態において、１つ以上のオブジェクト特徴は、オブジェクトの１つ以上の注目領域を含む。本明細書で理解される注目領域は、ユーザが抽出したい情報を示す、表現する、含む等の、オブジェクトの一部を含み得る。したがって、いくつかのアプローチにおいて、注目領域のうちの１つ以上は、１つ以上のテキスト文字、記号、写真、画像等を含む。

たとえば、一例において、ユーザが、信用調査、融資または賃貸の申込み等を希望する場合がある。所望の行為を行なうには、ユーザは、申込人の名前、住所、社会保障番号、生年月日等のデータを収集する必要がある。モバイル装置は、公共料金請求書、運転免許証、社会保障カード、パスポート、給与明細書等、信用調査、融資または賃貸の申込み等の実行に関連する情報を含む／示す１つ以上の身分証明文書のデジタル画像を受信してもよい。この場合、注目領域は、申込人の名前、住所、社会保障番号、生年月日等の関連データを示す身分証明文書のいずれかの部分を含み得る。

別の例において、ユーザが、電子送金、定期支払の設定、金融取引の契約等を希望するとする。当業者が本明細書を読めば理解するように、この場合、ユーザは、口座番号、ルーティングナンバー、受取人の名前、住所、請求人の名前および／または住所、サイン、支払額、支払日、および／またはスケジュール等といったデータを収集する必要があるであろう。モバイル装置は、請求書、送金券、小切手、クレジットカード、運転免許証、社会保障カード、パスポート、給与明細書等、信用調査、融資または賃貸の申込み等の実行に関連する情報を含む／示す１つ以上の金融書類のデジタル画像を受信してもよい。この場合、注目領域は、口座番号、ルーティングナンバー、受取人の名前、重症、請求人の名前および／または重慮、サイン、支払額、支払日、および／またはスケジュール等の関連データを示す身分証明文書のいずれかの部分を含み得る。

他の例において、ユーザが、自動車登録または新たな銀行口座等を申込む個人の身元確認を希望するとする。申込人は身分証明として運転免許証を提供する。ユーザは、運転免許証の画像を取込み、名前、住所、運転免許証番号等のテキスト情報を含む画像からデータを抽出することができる。ユーザはまた、画像から免許証の写真を抽出し、抽出した写真を免許証の参照写真と比較してもよい。さまざまなアプローチにおいて、参照写真は、自動車登録事務所や銀行が管理するローカルデータベース、行政機関が管理するデータベース等から取得してもよい。代替的に、参照写真は、以前に取得した免許証写真、たとえば、身元確認が必要であった以前の取引の間に取得した写真であってもよい。ある実施形態では、この比較に基づいて、抽出した写真が参照写真と一致するか否かの表示を任意の信用度スコアとともにユーザに提示してもよい。

動作７０８は、モバイル装置のプロセッサを用いて、１つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することを含む。ある実施形態において、オブジェクトクラスは抽出モデルを決定する。本明細書で理解される抽出モデルは、デジタル画像からデータを抽出するためにこのデジタル画像に適用できるものであればよい。好ましいアプローチにおいて、抽出モデルは、デジタル画像からデータを収集するための一組の命令および／またはパラメータを含む。特に好ましい実施形態において、抽出モデルは、特徴ベクトルおよび／または特徴ベクトルのリストおよび／または特徴マトリクスを用いて、デジタル画像からデータを抽出するための命令を生成および／または修正する。

たとえば、あるアプローチにおいて、本明細書に記載の代表的なデータ抽出プロセスは、オブジェクトおよび／またはそのオブジェクト特徴（１つ以上の特徴ベクトルにおいて実現されてもよい）に基づいて、さまざまな形態の身分証明書（ＩＤ）からデータを抽出するように構成される。実例としての身分証明書の形態は、たとえば複数の運転免許証フォーマットを含み得る。加えて、実例としてのＩＤは、そのＩＤに対応する発行元（州、行政機関等）といった１つ以上の識別基準に従って分類されてもよい。抽出モデルは、ＩＤの予め定められたカテゴリのうちの１つに属する当該ＩＤの判定に基づいて選択されてもよい（たとえば、当該ＩＤはメリーランド州の運転免許証）。好ましくは、選択された抽出モデルは、対応するカテゴリ／クラスからの複数の見本を用いて構築される。

ある代表的なアプローチにおいて、動作７０８は、注目領域を特定するユーザ入力に基づいて、１つ以上の既存のオブジェクトクラス規定を見直して、求めたオブジェクト特徴が、その既存のオブジェクトクラスに属するオブジェクトの特徴を規定するパターンと一致する、対応する、またはそれと同様のパターンを規定するか否か判断することを含み得る。パターンが一致する、対応する、または同様であると判断した場合、動作７０８は、一致するオブジェクトクラスについて規定された既存の抽出モデルを選択することを含んでもよく、この抽出モデルを用いてデジタル画像からデータを抽出してもよい。当業者が本明細書を読めば理解するように、既存のオブジェクトクラス規定および／または抽出モデルは、モバイル装置のメモリ、モバイル装置と通信するメモリ、サーバ、ローカルまたはオンラインデータベース等から取得してもよい。

代替的に、動作７０８は、画像およびその特性を解析することにより、画像特性を示す特徴ベクトルを規定することを含み得る。この新たな特徴ベクトルを用いて、一致する、対応する、または同様の注目領域のパターンを有する、既存のオブジェクトクラスを示す、特徴ベクトル、特徴ベクトルのリスト、および／または特徴マトリクスを修正してもよい。たとえば、抽出モデルを構築することは、オブジェクト特徴を、上記のように新たな特徴ベクトルを介して修正された特徴ベクトル、特徴ベクトルのリスト、および／または特徴マトリクスにマッピングすることを含み得る。結果として得られる抽出モデルは、既存のオブジェクトクラスに属するオブジェクトを示す画像からデータを抽出するように構成される。

加えておよび／または代替的に、いくつかのアプローチにおいて、動作７０８は、オブジェクト特徴に基づいて新たな抽出モデルを構築することを含み得る。より具体的には、モバイル装置のプロセッサを用いて、画像を解析し、その特性を用いて、画像特性を示す特徴ベクトルおよび／または特徴ベクトルのリストを規定する。たとえば、特徴ベクトルは、１つ以上の色チャネルにおける画素の明度および／または強度、１つ以上の色チャネルにおける１つ以上の近傍画素の明度および／または強度、画像内または画像のサブ領域内の画素の位置関係等の画像特性に対応し得る。画像の解析および特徴ベクトルの規定は、何らかの好ましいやり方で実行すればよく、好ましくは実質的に「文書の分類」および「その他の処理」に関して先に説明したように実施すればよい。動作７０８は、特徴ベクトルを用いて、注目領域に示された画像特性に対応するデータを抽出するように構成された抽出モデルを構築することを含み得る。

他の実施形態において、抽出モデルを構築することは、特徴ベクトル、特徴ベクトルのリスト、および／または特徴マトリクスをマッピングし、メタデータラベルをマッピングされた各オブジェクト特徴と関連付けることを含み得る。あるアプローチにおいて、特徴ベクトル、特徴ベクトルのリスト、および／または特徴マトリクスをマッピングすることは、特徴ベクトルを処理することによって、そこから、画像について、関連する位置情報、カラープロファイル情報等を求めることを含む。

メタデータラベルは、何らかの種類の情報を含み得るものであり、何らかの種類のオブジェクト特徴と関連付けることができる。たとえば、いくつかの実施形態において、メタデータラベルは、当業者が本明細書を読めば理解するように、テキスト、英数字、記号、数字、絵、背景、前景、フィールド、影、テクスチャ、形状、寸法、カラープロファイルまたは配色等といった、示されるデータの種類に従って、オブジェクト特徴を識別し得る。

たとえば納品伝票の場合、メタデータラベルは、テキストおよび／または相対または絶対位置情報を含み得る。たとえば、メタデータラベルは、テキストを、納品伝票の右下の角という絶対位置にある納品伝票番号として識別してもよい。加えて、別のメタデータラベルは、テキストを、納品伝票上の納品伝票番号アドレスの真下という相対位置にある納品伝票の日付として識別してもよい。

加えておよび／または代替的に、メタデータラベルは、特定のデータフォーマットまたは情報内容を識別する等、後の処理動作において関連性に従ってオブジェクト特徴を識別してもよい。たとえば、当業者が本明細書を読めば理解するように、メタデータラベルは、「名前」、「住所」、「社会保障番号」、「運転免許証番号」、「生年月日」、「クレジットスコア」、「口座番号」、「ルーティングナンバー」、「写真」等の、個人情報ラベルを含み得る。

動作７１０において、モバイル装置のプロセッサを用いて、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出する。特に、データの抽出は、光学式文字認識（ＯＣＲ）技術を利用しない。しかしながら、以下でさらに説明するように、光学式文字認識技術を、動作７１０で実行されるデータ抽出という状況の範囲外では利用してもよい。

次に図８を参照して、ある実施形態に従う方法８００が示される。この方法は、さまざまなアプローチにおいて、図１〜図４Ｄに示されるものを含む、何らかの適切な環境でおよび／または何らかの適切なメカニズムを用いて実行し得る。ある観点では、方法８００は本明細書に記載のデータ抽出プロセスの実装例とみなし得る。この実装例はユーザが契約するモバイルアプリケーションのフォーマットである。

あるアプローチにおいて、方法８００は、モバイル装置によって取込まれたデジタル画像を受けるという動作８０２を含む。このデジタル画像は、いくつかの実施形態において、このモバイル装置または別のモバイル装置のメモリに収容されおよび／または格納されてもよい。加えて、このデジタル画像は、当業者が本明細書を読めば理解するように、カメラ、メモリ、無線受信機、アンテナ等を含む、モバイル装置の構成部品といったさまざまなソースから受けてもよい。他のアプローチでは、デジタル画像は、遠隔サーバ、別のモバイル装置、一体化されたデータ送信機能を有するカメラ、ファクシミリ機またはその他多機能プリンタ等といった遠隔装置から受けてもよい。任意で、デジタル画像は、当業者が本開示を読めば理解するように、オンラインサービス、データベース等を介して受けてもよい。

方法８００はさらに、以下でさらに詳しく説明する、モバイル装置のプロセッサ、サーバのプロセッサ、遠隔クラウド計算環境の１つ以上のプロセッサ等のうちの１つ以上を用いて動作８０４〜８１２を実行することを含む。

動作８０４において、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断する。さまざまな実施形態において、オブジェクトが特定のオブジェクトクラスに属するか否かの判断は、何らかの適切な方法に従って実行すればよく、好ましくは、たとえば図５および図６を参照して先に述べた文書の分類に関する説明に対応するやり方で実行すればよい。

動作８０６において、再びモバイル装置のプロセッサを用いて、デジタル画像をモバイル装置のディスプレイに表示する。デジタル画像は、オブジェクトが複数のオブジェクトクラスのうちいずれの特定のオブジェクトクラスにも属さないという判断に応じて表示される。加えておよび／または代替的に、デジタル画像を、オブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するという判断に応じて表示してもよい。

デジタル画像をモバイル装置のディスプレイに表示することは、プロセッサを用いてデジタル画像からデータを効率的かつロバストに抽出することにつながる、さらなる機能を可能にする。たとえば、さまざまなアプローチにおいて、デジタル画像をモバイル装置のディスプレイに表示することにより、画質、オブジェクト分類（または分類されていないこと）といったデジタル画像に関するフィードバックを提供することができる。同様に、デジタル画像を表示することにより、分類および／または抽出結果に関するユーザフィードバック、デジタル画像に関連付けられたまたは関連付けられるべきメタデータ、デジタル画像に描かれたオブジェクト、および／または描かれているオブジェクトが属すると判断される特定のオブジェクトクラス等、デジタル画像に対する追加処理、抽出、または他の操作の実行命令といった、さらなる入力を、ユーザから受け易くすることができる。このことは当業者が本明細書を読めば理解するであろう。

動作８０８は、モバイル装置のプロセッサを用いて、ユーザ入力をモバイル装置のディスプレイを介して受けることを含む。より具体的には、ユーザ有力はオブジェクト内の１つ以上の注目領域を特定する。動作８０８を含む方法８００のある実施形態において、身分証明文書の画像を、モバイル装置のディスプレイを介してユーザに提示してもよい。ユーザに、オブジェクト分類に基づいて特定された注目領域を確認、否認、および／または修正するよう促してもよい。さまざまな実施形態において、ユーザに、さらにおよび／または代替的に、分類に基づいて特定されていない１つ以上の注目領域を規定、確認、否認、および／または修正するよう促してもよい。

動作８１０において、動作８０８で受けたユーザ入力に少なくとも一部基づいて抽出モデルを構築および／または選択する。ある代表的なアプローチにおいて、動作８１０は、注目領域を特定するユーザ入力に基づいて、１つ以上の既存のオブジェクトクラスを見直して、特定された注目領域が、既存のオブジェクトクラスに属するオブジェクトの注目領域を規定するパターンに一致、対応、または類似するか否か判断することを含み得る。パターンが一致、対応、または類似すると判断した場合、動作８１０は、一致するオブジェクトクラスについて規定された既存の抽出モデルを選択することを含んでいてもよく、その抽出モデルを用いてデータをデジタル画像から抽出してもよい。これに代えて、動作８１０は、画像およびその特定を解析することにより、画像特性を説明する特徴ベクトルを規定することを含んでいてもよい。この新たな特徴ベクトルを用いて、注目領域の一致、対応、または類似するパターンを有する既存のオブジェクトクラスを説明する特徴ベクトルのリストおよび／または特徴マトリクスを修正してもよい。当業者が本明細書を読めば理解するように、結果として得られる抽出モデルは、生の画像データ、テキスト、画像、写真、記号等に対応するデータを含めて、既存のオブジェクトクラスに属するオブジェクトを示す画像からデータを抽出するように構成されている。

加えておよび／または代替的に、動作８１０は、いくつかのアプローチでは注目領域を規定するユーザ入力に基づいて新たな抽出モデルを構築することを含んでいてもよい。より具体的には、モバイル装置のプロセッサを用いて、画像を解析し、その特性を用いて画像特性を説明する特徴ベクトルを規定する。たとえば、特徴ベクトルは、１つ以上の色チャネルにおける画素の明度および／または強度、１つ以上の色チャネルにおける１つ以上の近傍画素の明度および／または強度、画像内または画像のサブ領域内の画素の位置関係、テキストを示している可能性が高い文書の領域、写真を示している可能性が高い文書の領域等といった画像特性に対応し得る。画像の解析および特徴ベクトルの規定は、何らかの適切なやり方で実行すればよく、好ましくは実質的に「文書の分類」および「その他の処理」に関して先に説明したように実施すればよい。動作８１０は、特徴ベクトルを用いて、注目領域に示された画像特性に対応するデータを抽出するように構成された抽出モデルを構築することを含み得る。

動作８１２において、抽出モデルに少なくとも一部基づいて画像からデータを抽出する。特に、この抽出プロセスはＯＣＲ技術を利用しない。むしろ、抽出モデルは、オブジェクトまたはオブジェクトクラスをそれぞれ説明する特徴ベクトルの特徴ベクトルリストおよび／または特徴マトリクスに基づいて規定される。

実例となるある実施形態において、ユーザは、本明細書に記載のデータ分類および／または抽出を実行し易くするように適合させたモバイルアプリケーションを介して、分類動作を実行してデジタル画像に示されたオブジェクトを分類しようとしてもよい。分類アルゴリズムが、あるオブジェクトが特定のオブジェクトクラスに属するか否か認識するよう訓練されてきたか否かに応じて、このアルゴリズムがデジタル画像に描かれた特定のオブジェクトの分類に成功する場合もあれば失敗する場合もある。一回以上の分類の試みが終わった後で、身分証明文書の画像をモバイル装置のディスプレイを介してユーザに提示してもよい。ユーザに、オブジェクト分類に基づいて特性された注目領域を確認、否認、および／または修正するよう促してもよい。さらにおよび／または代替的に、ユーザに、分類に基づいて特定されていない１つ以上の注目領域を規定するよう促してもよい。

同様に、分類を試みてもオブジェクトクラスの特定に失敗した場合は、ユーザに、新たなオブジェクトクラスを規定しモバイル装置のディスプレイと対話することによって新たなオブジェクトクラスに属するオブジェクトにおける１つ以上の注目領域をさらに規定するよう促してもよい。たとえば、ユーザは、モバイル装置のディスプレイを介して触覚によるフィードバックを与えることにより、注目領域の周りに１つ以上の囲みボックスを描いてもよい。次に、ユーザは、デジタル画像からデータを抽出するようアプリケーションに指示してもよく、アプリケーションは任意で、モバイル装置、サーバ等のプロセッサを用いて、ユーザが規定した注目領域に少なくとも一部基づいて抽出モデルを構築および／または選択し、抽出モデルに全面的にまたは一部基づいてデジタル画像からデータを抽出してもよい。

さまざまなアプローチにおいて、方法７００および／または８００は任意で下記のように１つ以上の他の機能、特徴および／または動作を含み得る。

あるアプローチにおいて、方法７００および／または方法８００は、抽出モデルを訓練することをさらに含み得る。抽出モデルの訓練は、当業者が本明細書を読めば理解するように、周知の方法、モデル、メカニズム等を用いて行なえばよい。好ましい実施形態において、訓練は、手本から学ぶ（ＬＢＥ）プロセスを含む。具体的には、特定のオブジェクトクラスについて、複数の代表的なオブジェクトを、関連するメタデータラベルとともにまたはメタデータラベルなしで与えてもよい。与えた代表的なオブジェクトのオブジェクト特徴に少なくとも一部基づいて、抽出モデルを訓練することにより、オブジェクトクラスに属するオブジェクトからデータを抽出するときのロバストネスを修正しそうして改善してもよい。

いくつかのアプローチにおいて、抽出モデルの訓練は、この抽出モデルを構築した対象である特定のオブジェクトクラスに属するオブジェクトからデータを精密にかつ正確に抽出する抽出モデルの能力を改善するように、特に設計されてもよいことを、当業者は理解するであろう。このような訓練は、実質的に同一のオブジェクト特徴によって特徴付けられる一組のオブジェクト、たとえば、標準化された書式、文書の種類、同じオブジェクトの複数の画像等といった同じオブジェクトタイプの複数のコピーを与えることによってモデルを訓練して、抽出の精度および／または正確さを改善してもよい。この訓練セットを用いて、抽出モデルは、クラス内のオブジェクトを表わす特徴ベクトルのリストおよび／または特徴マトリクスを強化し、クラスに属するオブジェクトからデータを抽出するときのロバストネスを改善してもよい。

代替的に、訓練は、可変のオブジェクト特徴によって特徴付けられる１つのオブジェクトクラス内の一組のオブジェクトまたはいくつかのオブジェクトクラスにまたがる一組のオブジェクトからデータを抽出する抽出モデルの能力を改善するように、特に設計されてもよい。このような訓練は、異なるオブジェクトクラスまたはいくつかのオブジェクトクラスからデータを一般的に抽出する抽出モデルの能力を改善するように、異なる特性を有する一組のオブジェクトを与えることを含んでいてもよい。

他のアプローチにおいて、抽出モデルをモバイル装置のプロセッサを用いて訓練してもよい。加えて、訓練された抽出モデルを、たとえばメモリ、バッファ、別のプロセスまたはプロセッサ等に格納および／またはエクスポートしてもよい。訓練された抽出モデルを、好ましくは、モバイル装置のメモリ、モバイル装置のプロセッサ、またはモバイル装置のプロセッサを用いて実行されている別のプロセスに、格納および／またはエクスポートしてもよい。さまざまな実施形態において、モバイル装置または別のモバイル装置による後の使用のために、訓練された抽出モデルにフラグを立ててもよくおよび／または訓練された抽出モデルを検索してもい。同様に、抽出モデルを、別のモバイル装置、サーバ、クラウド計算環境等の別の装置のメモリおよび／またはプロセッサに格納および／または送ってもよい。

好ましくは、本明細書に記載の訓練は、複数のオブジェクトを含む訓練セットを利用し、より好ましくは、訓練セットは５つ以上のオブジェクトを含む。

抽出モデルの訓練に加えて、方法７００のいくつかの実施形態は、さらにおよび／または代替的に、デジタル画像の１つ以上の領域に対して少なくとも１つのＯＣＲ技術を実施することを含み得る。ＯＣＲされた領域は、オブジェクト特徴（たとえばオブジェクトクラス規定および／または抽出モデルを用いて特定されるオブジェクト特徴）および／または他のオブジェクト特徴（たとえばオブジェクトクラス規定および／または抽出モデルを用いて以前に特定されなかった特徴）のうちの１つ以上に対応し得る。

方法７００および／または方法８００のさらに他の実施形態は、文書等のオブジェクト内の１行以上のテキストを検出することをさらに含み得る。いくつかのアプローチにおいて、テキスト行を検出することは、デジタル画像を一次元に射影することを含む。代表的なアプローチにおいて、射影を、テキスト行の向きの主軸に垂直な次元に沿って行なうことにより、テキストの行およびテキストの行間の領域を暗領域密度（たとえば黒画素密度、数等）に従って容易に区別できるようにしてもよい。したがって、文書が縦置きの向きの場合、テキストの検出は垂直方向（ｙ軸）に沿って射影することを含み、文書が横置きの向きの場合、テキストの検出は水平方向（ｘ軸）に沿って射影することを含む。他のアプローチにおいて、射影を用いることにより、文書の向き（縦置き、横置き、またはその他のスキュー角）を判断および／または操作することもできる。たとえば、運転免許証のような標準的なＩＤに対応する文書の画像からデータを分類および／または抽出するように構成された代表的な実施形態では、テキストの行等の検出を利用して、可能性のある複数の向き（たとえばあるアプローチでは回転角度０°、９０°、１８０°、または２７０°）のうちの最も確実な文書の向きを判断してもよい。

テキスト行の検出は、射影に沿う明領域と暗領域の分布を求めること、および複数の暗画素密度を求めることをさらに含み得る。加えて、各暗画素密度は射影に沿う１つの位置に対応し得る。複数の暗画素密度を求めたとき、各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断することによって、推定されるテキスト行を求めてもよく、このしきい値は、ユーザによって予め定められる、実験で求められる、自動的に求められる等のものであればよい。推定テキスト行しきい値が用いられる実施形態では、テキスト行の検出は、対応する暗画素密度が推定テキスト行しきい値よりも大きいと判断したときに各位置をテキスト行として指定することをさらに含む。

別の実施形態では、テキスト行の検出は、デジタル画像内の非背景要素の接続された構成要素を検出すること、および、複数の接続された構成要素に基づいて推定される複数の文字を判断することを含み得る。推定される文字は、所与の方向の予め定められた数の明から暗への移行によって特徴付けられるデジタル画像の領域であってもよく、たとえば、大文字「Ｅ」を示すデジタル画像の小さな領域においてみられるような垂直方向の３つの明から暗への移行であり、明から暗への各移行は、文書の背景（明）から文字「Ｅ」の水平方向の字画のうちの１つへの移行に対応する。当然ながら、他の数の明から暗への移行を用いる場合もあり、たとえば、文字「ｏ」の場合は２つの垂直方向および／または水平方向の明から暗への移行であり、文字「ｌ」の場合は１つの垂直方向の明から暗への移行である。このことは当業者が本明細書を読めば理解するであろう。ある実施形態において、文字と推定されるという判断がなされると、テキストの行を、複数の隣合う文字を有する画像の領域を識別することによって求めてもよく、隣合う複数の文字のテキストベースラインに従ってテキスト行を定めてもよい。

いくつかのアプローチにおいて、一次元に沿って画像を射影した結果に基づいて画像の向きを判断および／または操作することが可能である。たとえば、射影によって、低暗画素密度領域を間に挟んで高暗画素密度領域がある一次元パターンが生まれた場合、この射影は、テキスト行の向きの長手方向軸に垂直な軸に沿って行なわれたと考えられる（すなわちテキストの向きが画像のｘ軸に沿って左から右である「縦置き」の文書の場合、射影はｙ軸に沿い、テキストの向きが画像のｙ軸に沿って下から上である「横置き」の文書の場合、射影はｘ軸に沿う）。この推定による判断に基づいて、射影の結果に従い画像の向きを任意で回転させてもよくおよび／または向きを設定し直してもよい。

一次元射影に沿う暗画素密度に基づいてテキスト行を検出することは、特にカラー画像では難しいことを当業者は理解するであろう。たとえば、文書によっては、テキストのカラーが背景よりも相対的に明るいことがあり、その場合、暗画素密度は、テキストの存在ではなくテキストがないと推定されることを示すであろう。この場合、テキスト行の検出は、ある位置が、暗画素密度が暗画素密度しきい値よりも小さいことによって特徴付けられると判断した場合、射影に沿うその位置の近くにあるテキスト行と推定されるものを指定することを含み得る。

加えて、テキストはさまざまな色で表わされる場合があり、暗画素密度だけでは、テキスト行であると推定されるものを識別するのに不十分な特性かもしれない。この課題に対処するために、カラー画像におけるテキスト行を検出することは、好ましくは、デジタル画像の各色チャネルを、１つの次元に沿う１つのチャネル上に射影することを含む。言い換えると、色チャネルの強度値（たとえば０〜２５５の整数）を１つの強度値に変換する。この変換は、何らかの適切な機能に従って実施すればよく、好ましい実施形態では、所与の画素または一組の画素の各色チャネルの強度を平均し、画素または一組の画素に、色チャネル強度値の平均値に従って代表的な強度値を割当てる。

別の実施形態において、データ抽出は、オブジェクトクラスを、注目情報を含むオブジェクト領域の１つ以上のリスト、たとえば、テキストを含むまたはテキストおよび予測されるテキストの色を含み得る文書の矩形領域のリストと関連付けることを含み得る。

実例となる１つの例において、モバイル装置のディスプレイを介してユーザにオブジェクトの画像を提示する。ユーザは、モバイル装置のディスプレイを介して画像と対話し、たとえばユーザの名前、住所、免許証番号等を表示している領域を示す、１つ以上の注目領域を規定する。ユーザは、多数の画像に対してこのプロセスを繰返すことができ、そうすることによって、意図的にまたは透明なプロセスの一部として訓練画像を提供する。十分な数の訓練例が規定されたら（たとえば運転免許証のような小さな文書の場合は約５）、訓練アルゴリズムを自動的にまたはユーザの判断で実行してもよい。訓練の結果としての抽出モデルを用いて、その後提示される未知の文書の関連する位置および矩形を、すべてＯＣＲ技術を利用することなく、自動的に抽出することができる。

他のアプローチでは、上記方法に従ってデータを抽出した後で、ＯＣＲ技術を単なるデータ抽出以外の目的で利用してもよい。たとえば、ＯＣＲをモバイル装置のプロセッサを用いて実行してもよく、画像全体の小さなサブセットのみにＯＣＲを行なってもよい。これに代えて、ＯＣＲをサーバのプロセッサを用いて実施してもよい。モバイル装置とサーバとの通信時間を短縮するために、画像の一部のみをＯＣＲを用いて処理してサーバに送信してもよい。

他の実施形態において、分類および／または抽出結果を、検証のため、たとえば割当てられたクラス等の確認、否認、修正のためにユーザに提示してもよい。たとえば、半自動または全自動プロセスを本明細書で規定するような判別基準とともに用いてオブジェクトを分類したときに、分類とこの分類が関連するデジタル画像とを（たとえばモバイル装置のディスプレイ上で）ユーザ対して表示して、ユーザがその分類を確認または否認できるようにしてもよい。ユーザは、分類を否認したときは、デジタル画像に示されたオブジェクトの「正しい」分類を手作業で示してもよい。好ましいアプローチでは、このユーザ入力を利用して、継続中の「訓練」を分類器に与えてもよい。当然ながら、ユーザ入力は、本開示の範囲から逸脱することなく本明細書に記載のいくつかの動作に関連して与えてもよい。

さらに他の好ましい実施形態において、上記検証を、ユーザ入力を必要とすることなく実行してもよい。たとえば、抽出結果の自動検証を実行することによって、ユーザが抽出結果を見直すおよび／または訂正する必要性を軽減することが可能である。一般的に、この技術は、抽出された値が正しいことがわかっているか否か確認するために外部システムまたはデータベースを参照することを含む。たとえば、名前と住所が抽出されたときは、場合によっては、当該人物が実際その住所に居住していると確認することが可能である。

さらに他の実施形態において、この検証原理は分類に及ぶ。たとえば、いくつかのアプローチにおいて、抽出が正しい場合分類も正しいと推測することが妥当である。この推測は、「正しい」抽出結果を得る方法は１つしかないという仮定に依拠している（たとえば、当業者が本明細書を読めば理解するように、ある値が、基準データソースにおける予測値と一致する、当該値についての予測フォーマットと一致する、予測される記号またはその他の値に関連付けられている等）。

本開示の範囲に含まれるデータ抽出のここでの説明は主として方法との関連で行なってきたが、本明細書に記載の発明の概念はシステムおよび／またはコンピュータプログラムプロダクトにおいても等しく実現し得ることを当業者は理解するであろう。

たとえば、本明細書の範囲に含まれるシステムは、プロセッサと、プロセッサ内のおよび／またはプロセッサによって実行可能なロジックとを含み、このロジックによりプロセッサに方法７００および８００等の本明細書に記載の方法のステップを実行させてもよい。

同様に、本明細書の範囲に含まれるコンピュータプログラムプロダクトは、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、プログラムコードはプロセッサによる読取および／または実行が可能であり、このプログラムコードによりプロセッサに方法７００および８００等の本明細書に記載の方法のステップを実行させてもよい。

あるアプローチにおいて、プロセスは、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの１つ以上のオブジェクト特徴を求めることと、求めた１つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、抽出モデルを用いてデジタル画像からデータを抽出することとを含み、抽出モデルは光学式文字認識（ＯＣＲ）機能を含まない。

この１つ以上のオブジェクト特徴はオブジェクトの１つ以上の注目領域を含み、好ましくは、注目領域のうちの１つ以上は１つ以上のテキスト文字を含む。加えて、抽出モデルが構築され、抽出モデルを構築することは、特徴ベクトル、特徴ベクトルのリスト、および特徴マトリクスのうちの１つ以上をオブジェクト特徴のうちの１つ以上にマッピングすることと、少なくとも１つのメタデータラベルをマッピングされた各オブジェクト特徴と関連付けることとを含む。さらに、抽出モデルは訓練され、抽出モデルの訓練は、オブジェクトクラスに属する少なくとも１つの他のオブジェクトの１つ以上の他の（たとえば少なくとも４つの）オブジェクト特徴に基づく。抽出モデルは、モバイル装置のプロセッサを用いて訓練され、その後、たとえば、メモリ、別のモバイル装置、サーバ、データベース、ログファイル、出力等に格納および／またはエクスポートされる。抽出モデルからＯＣＲは除外されるが、ＯＣＲを抽出モデルを適用した後で実行してもよく、たとえばオブジェクト特徴および／またはそれ以外のオブジェクト特徴のうちの１つ以上に対応するデジタル画像の１つ以上の領域に対してＯＣＲを実行してもよい。オブジェクト内の１行以上のテキストが検出され、この検出は、デジタル画像を一次元に射影し、射影に沿う明領域と暗領域の分布を求め、複数の暗画素密度を求め‐各暗画素密度は射影に沿う１つの位置に対応し‐、各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断し、各位置を、対応する暗画素密度が推定テキスト行しきい値よりも大きいと判断したとき、テキスト行として指定することによって、行なう。デジタル画像の各色チャネルを上記一次元に沿う１つのチャネルに射影してもよい。

別のアプローチにおいて、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが複数のオブジェクトクラスのうちのいずれにも属さないと判断したとき、デジタル画像をモバイル装置のディスプレイに表示することと、モバイル装置のディスプレイを介してユーザ入力を受けることとを含み、ユーザ入力はオブジェクトにおける１つ以上の注目領域を特定し、ユーザ入力に少なくとも一部基づいて抽出モデルを構築および／または選択することと、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出することとを含み、抽出は光学式文字認識（ＯＣＲ）を含まない。注目領域は１つ以上のテキスト文字を含む。この方法は、ユーザ入力に少なくとも一部基づいて新たなオブジェクトクラスを生成することを含む。抽出モデルは、新たなオブジェクトクラスに属する複数のオブジェクトからデータを抽出するように構成される。ユーザ入力は、任意で、複数のオブジェクトにおける複数の注目領域を含む。抽出モデルを構築することは、特徴ベクトル、特徴ベクトルのリスト、および特徴マトリクスのうちの１つ以上をオブジェクト特徴のうちの１つ以上にマッピングすることと、少なくとも１つのメタデータラベルをマッピングされた各オブジェクト特徴と関連付けることとを含む。さらに、このプロセスは、オブジェクトクラスに属する少なくとも１つの他のオブジェクトの１つ以上の他の（たとえば少なくとも４つの）オブジェクトおよび／またはオブジェクト特徴に基づいて抽出モデルを訓練することを含む。この方法は、オブジェクト特徴および／またはそれ以外のオブジェクト特徴のうちの１つ以上に対応するデジタル画像の１つ以上の領域に対してＯＣＲを実行することを含む。この方法は、オブジェクト内の１行以上のテキストを検出することを含み得る。検出は、デジタル画像を一次元に射影することと、射影に沿う明領域と暗領域の分布を求めることと、複数の暗画素密度を求めることとを含み、各暗画素密度は射影に沿う１つの位置に対応し、各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断することと、各位置を、対応する暗画素密度が推定テキスト行しきい値よりも大きいと判断したとき、テキスト行として指定することとを含む。この方法は、任意で、デジタル画像の各色チャネルを上記一次元に沿う１つのチャネルに射影することを含み得る。

別のアプローチにおいて、コンピュータプログラムプロダクトは、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、プログラムコードはプロセッサにより読取可能／実行可能であり、プロセッサは、プログラムコードを読取る／実行することにより、モバイル装置によって取込まれたデジタル画像を受け、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断し、オブジェクトが特定のオブジェクトクラスに属すると判断したとき、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの１つ以上のオブジェクト特徴を求め、１つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択し、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出する。データを抽出するように構成されたコンピュータ読取可能なプログラムコードは、光学式文字認識（ＯＣＲ）を利用するように構成されたコンピュータ読取可能なプログラムコードを含まない。

本明細書に開示される発明の概念を、複数の、説明のためのシナリオ、実施形態、および／または実装例における無数の特徴を説明するために、例示を目的として示してきた。概要が開示されているこれら概念は、モジュール方式とみなされるべきものであり、何らかの組合せ、入替え、または合成の形態で実現し得る。加えて、当業者が本明細書を読めば理解するであろう、ここで開示されている特徴、機能、および概念の修正、改変、または均等物も、この開示の範囲に含まれるとみなさるべきものである。

したがって、本発明の一実施形態は、図面のうちのいずれかに示されそれとの関連で記載されたものを含めて、本明細書に開示されている特徴すべてを含む。他の実施形態は、本明細書に開示されおよび／または図面のうちいずれかに示されそれとの関係で記載された特徴の一部を含む。このような特徴またはその一部は、当業者にとっては本明細書を読めば明らかになるであろう周知の技術を用いて任意のやり方で組み合わせてもよい。

以上さまざまな実施形態が説明されているが、これら実施形態は限定ではなく専ら例示のために示されていることが理解されるはずである。よって、本発明の実施形態の広さおよび範囲は、上記代表的な実施形態のいずれによっても限定されてはならず、以下の請求項およびこれらの均等物に従ってのみ定義されるべきものである。

Claims

方法であって、
モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、
前記モバイル装置のプロセッサを用いて、
前記デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、
前記オブジェクトが前記特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、前記特定のオブジェクトクラスに少なくとも一部基づいて前記オブジェクトの１つ以上のオブジェクト特徴を求めることと、
前記求めた１つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、
前記抽出モデルを用いて前記デジタル画像からデータを抽出することとを含む、方法。
前記抽出モデルは光学式文字認識（ＯＣＲ）を実行することをさらに含み、前記ＯＣＲは前記受けたまたは取込んだ画像の１つ以上の部分を除く前記デジタル画像の選択された部分に対して実行される、請求項１に記載の方法。
前記１つ以上のオブジェクト特徴は、前記オブジェクトの１つ以上の注目領域を含む、請求項１に記載の方法。
前記注目領域のうちの１つ以上は１つ以上のテキスト文字を含む、請求項３に記載の方法。
前記抽出モデルが構築され、前記抽出モデルを構築することは、
特徴ベクトル、特徴ベクトルのリスト、および特徴マトリクスのうちの１つ以上を前記オブジェクト特徴のうちの１つ以上にマッピングすることと、
少なくとも１つのメタデータラベルをマッピングされた各オブジェクト特徴と関連付けることとを含む、請求項１に記載の方法。
前記オブジェクトクラスに属する少なくとも１つの他のオブジェクトの１つ以上の他のオブジェクト特徴に基づいて前記抽出モデルを訓練することをさらに含む、請求項１に記載の方法。
前記抽出モデルは前記モバイル装置の前記プロセッサを用いて訓練され、前記訓練された抽出モデルを格納および／またはエクスポートすることをさらに含む、請求項６に記載の方法。
前記少なくとも１つの他のオブジェクトは、少なくとも４つの他のオブジェクトを含む、請求項７に記載の方法。
前記オブジェクト特徴および／またはそれ以外のオブジェクト特徴のうちの１つ以上に対応する前記デジタル画像の１つ以上の領域に対してＯＣＲを実行することをさらに含む、請求項１に記載の方法。
前記オブジェクト内の１行以上のテキストを検出することをさらに含む、請求項１に記載の方法。
前記検出することは、
前記デジタル画像を一次元に射影することと、
前記射影に沿う明領域と暗領域の分布を求めることと、
複数の暗画素密度を求めることとを含み、各暗画素密度は前記射影に沿う１つの位置に対応し、
各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断することと、
各位置を、対応する暗画素密度が前記推定テキスト行しきい値よりも大きいと判断したとき、テキスト行として指定することとを含む、請求項１０に記載の方法。
前記デジタル画像の各色チャネルを前記一次元に沿う１つのチャネルに射影することをさらに含む、請求項１１に記載の方法。
方法であって、
モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、
前記モバイル装置のプロセッサを用いて、
前記デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、
前記オブジェクトが前記複数のオブジェクトクラスのうちのいずれにも属さないと判断したとき、前記デジタル画像を前記モバイル装置のディスプレイに表示することと、
前記モバイル装置の前記ディスプレイを介してユーザ入力を受けることとを含み、前記ユーザ入力は前記オブジェクトにおける１つ以上の注目領域を特定し、
前記ユーザ入力に少なくとも一部基づいて抽出モデルを構築および／または選択することと、
前記抽出モデルに少なくとも一部基づいて前記デジタル画像からデータを抽出することとを含む、方法。
前記抽出することは光学式文字認識（ＯＣＲ）を実行することをさらに含み、前記ＯＣＲは前記受けたまたは取込んだ画像の１つ以上の部分を除く前記デジタル画像の選択された部分に対して実行される、請求項１３に記載の方法。
前記注目領域のうちの１つ以上は１つ以上のテキスト文字を含む、請求項１３に記載の方法。
前記ユーザ入力に少なくとも一部基づいて新たなオブジェクトクラスを生成することをさらに含む、請求項１３に記載の方法。
前記抽出モデルは、前記新たなオブジェクトクラスに属する複数のオブジェクトからデータを抽出するように構成される、請求項１６に記載の方法。
前記ユーザ入力は複数のオブジェクト内の複数の注目領域を指定することを含む、請求項１６に記載の方法。
前記抽出モデルを構築することは、
特徴ベクトル、特徴ベクトルのリスト、および特徴マトリクスのうちの１つ以上をオブジェクト特徴のうちの１つ以上にマッピングすることと、
少なくとも１つのメタデータラベルをマッピングされた各オブジェクト特徴と関連付けることとを含む、請求項１６に記載の方法。
前記オブジェクトクラスに属する少なくとも１つの他のオブジェクトの１つ以上の他のオブジェクト特徴に基づいて前記抽出モデルを訓練することをさらに含む、請求項１６に記載の方法。
前記少なくとも１つの他のオブジェクトは、少なくとも４つの他のオブジェクトを含む、請求項２０に記載の方法。
オブジェクト特徴および／またはそれ以外のオブジェクト特徴のうちの１つ以上に対応する前記デジタル画像の１つ以上の領域に対してＯＣＲを実行することをさらに含む、請求項１６に記載の方法。
前記オブジェクト内の１行以上のテキストを検出することをさらに含む、請求項１６に記載の方法。
前記検出することは、
前記デジタル画像を一次元に射影することと、
前記射影に沿う明領域と暗領域の分布を求めることと、
複数の暗画素密度を求めることとを含み、各暗画素密度は前記射影に沿う１つの位置に対応し、
各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断することと、
各位置を、対応する暗画素密度が前記推定テキスト行しきい値よりも大きいと判断したとき、テキスト行として指定することとを含む、請求項１６に記載の方法。
前記デジタル画像の各色チャネルを前記一次元に沿う１つのチャネルに射影することをさらに含む、請求項２４に記載の方法。
コンピュータプログラムプロダクトであって、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、前記プログラムコードはプロセッサにより読取可能／実行可能であり、前記プロセッサは、前記プログラムコードを読取る／実行することにより、
モバイル装置によって取込まれたデジタル画像を受け、
前記デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断し、
前記オブジェクトが前記特定のオブジェクトクラスに属すると判断したとき、前記特定のオブジェクトクラスに少なくとも一部基づいて前記オブジェクトの１つ以上のオブジェクト特徴を求め、
前記１つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択し、
前記抽出モデルに少なくとも一部基づいて前記デジタル画像からデータを抽出する、コンピュータプログラムプロダクト。