JP2021527263A

JP2021527263A - アクティブ照明システムによるデジタル画像生成方法

Info

Publication number: JP2021527263A
Application number: JP2020569048A
Authority: JP
Inventors: リチャードオースティンジュニアホバー; マシューウィリアムフラグ; サトヤプラカシュマリック
Original assignee: アイディーメトリクスグループインコーポレイテッド
Priority date: 2018-06-12
Filing date: 2019-06-11
Publication date: 2021-10-11
Also published as: US20190377970A1; EP3807812A1; EP3807812A4; US11195047B2; US20220092333A1; IL279403A; WO2019241265A1

Abstract

コンピュータ記憶媒体上に符号化されたコンピュータプログラムを含む、アクティブ照明システムのための方法、システム、および装置を開示する。一局面において、方法は、第1のグレアシグネチャを有する、物理的文書の第1の画像と、該第1のグレアシグネチャとは異なる第2のグレアシグネチャを有する、物理的文書の第2の画像とを受け取る工程;第1の画像の第1のグレアマップおよび第2の画像の第2のグレアマップを決定する工程;第1のグレアマップを第2のグレアマップと比較する工程;ならびに第1のグレアマップと第2のグレアマップとの該比較に基づいてデジタル画像を生成する工程を含む。

Description

技術分野
本明細書は概して、一般的な解析のために文書を取り込むためのシステムおよび方法に関する。

背景
本明細書では、デジタル画像に基づいて、改ざんされた物理的文書を検出しかつ文書から情報を抽出するための技術を説明する。物理的な身分証明書の使用は、何十年にもわたって様々な業界で広く浸透している。さらに、近年では、身分証明書のデジタル画像がセキュアな電子取引を行うためにますます使用されるようになっている。画像化された身分証明書を認証するための現在の技術は、基礎をなす文書に物理的に埋め込まれた特定のセキュリティ特徴を精査するように構成されたシステムを含む。これらのセキュリティ特徴は、意図的に、複製がきわめて困難であるようにされているので、文書の偽造コピーを作成しようとする試みを効果的に阻止する。現在使用されている多くのセキュリティ特徴には、複雑な印刷パターン、電子透かし、マイクロプリントテキスト、固有のエンブレムまたはロゴ、ホログラムなどが含まれる。これらの画像化された身分証明書を処理するための従来の認証技術は、電子透かしから情報を系統的に復号すること、および/またはテキストマッチング技術もしくはパターンマッチング技術を用いて1つもしくは複数の他のセキュリティ特徴の正当性を検証することによって行われる。

概要
本明細書では、文書解析の向上のための、デジタル画像の融合に用いられるアクティブ照明システムのための技術を説明する。より具体的には、実施形態は、別個のグレアシグネチャを各々有する物理的文書の複数の画像から生成されたグレアマップに基づいて物理的文書のマージ画像を生成するためのアクティブ照明システムの技術（例えば、方法、システム、デバイスなど）を対象とする。マージ画像は、デジタル画像に固有であり、かつ、例えば、抽出されたテキスト（光学式文字認識によって識別されたテキストなど）とも他の符号化データ（セキュリティ特徴または機械可読ゾーンにおいて符号化されたデータなど）とも関連付けられていない1つまたは複数の様相に基づいて、物理的文書の電子的または物理的改ざんを検出する際に用いられ得る。そのような様相は、物理的および/または電子的改ざんの証拠を提供する画素特徴、ならびに、環境、取込装置、信用証明書の摩耗、照明の影響、ハードウェア/ソフトウェア量子化、および/またはデジタル圧縮の影響を含むがこれらに限定されない特定の無害な画素特徴を含む。いくつかの例では、これらの改ざん検出技術は、1つまたは複数の特定の関心領域（物理的文書の高価値識別領域など）に適用される。

物理的文書のデジタル画像は、本開示で論じられるように、電子取引での使用に適した物理的文書のデジタル画像である。「電子取引」という用語は、物理的な、または画像化された身分証明書の所有者と1または複数の第三者との間の任意のコンピュータによって促進される交換を広く指す。電子取引は、対面して、またはコンピュータネットワークを介して遠隔で行うことができる。電子取引の中には通貨の交換を含むものもあり、含まないものもある。セキュアな電子取引を行うのに適した物理的文書には、個人の身元、雇用もしくは職業上の信用証明書もしくは証明書、または他の高価値の身元確認文書（運転免許証またはパスポートなど）が含まれ得るが、これに限定されない。さらに、いくつかの実施形態では、適切な物理的文書には、いわゆる「ブリーダ文書」（出生証明書、結婚証明書、社会保障文書、ならびに公共料金請求書、サービス請求書、および他の重要なデータ相関文書など）が含まれ得る。「物理的文書」という用語は、本開示全体を通して、識別データを含む身元の証明、確認、または承認のために設計された任意の文書を指す場合に使用され得る。「識別データ」は、識別写真、人物情報（生年月日、識別シリアル番号、社会保障番号、物理的な郵送先住所もしくは電子的なメールアドレス、身長、目の色、性別など）および/または1つもしくは複数の機械可読ゾーン（MRZ）（バーコードまたはQコードなど）、のうちの1つまたは複数を含み得る。いくつかの実施形態では、識別データは、ID写真に加えて、指紋、掌形、網膜パターン、虹彩パターン、筆跡パターン、および/または他の物理的な形態学的識別特性などの他のバイオメトリック情報をさらに含み得る。この識別データを含む画像化された身分証明書の領域は、電子取引において文書の所有者を識別する際に重要であるため、本開示全体を通してこれらを概して「高価値領域」と呼ぶ。

本開示の1つまたは複数の態様は、画像化された物理的文書を認証するための従来の技術が、実施が困難であり、失敗しやすく、かつ/または重大なセキュリティ脆弱性を抱えているという認識の結果として得られたものである。一例として、セキュリティ特徴に依拠した認証技術は、物理的セキュリティ特徴を挿入するべく物理的文書に対する改変を必要とするため、大規模に実施することが困難であり得る。これは各所有者に信用証明書を再発行することを意味する。これらの改変が、パスポートおよび運転免許証などの大量の物理的信用証明書全体に行き渡るには、ユーザがこれらの証明書を滅多に替えない傾向にあるので、長い時間を要する可能性がある。よって、例えば、各文書に符号化データが埋め込まれることを必要とする電子透かしシステムを完全に実施するのに何年もかかることになり得る。これらの従来の認証技術はまた、失敗しやすい可能性もある。というのは、復号および/またはテキスト/パターン認識ルーチンは、身分証明書が非常に特殊な照明条件および/または整列の向きで画像化されることを必要とするからである。多くの場合、ユーザは、適切な画像取込み（例えば、グレア、被写体ぶれ、焦点ぼけ、レンズ汚れによるにじみなどといった不要な画像アーチファクトのない画像）を達成しようと数回試みる必要がある。取込装置としてスマートフォンなどのモバイルデバイスが望ましい場合、アクティブUVおよび近赤外照明を備えたパスポートスキャナなどの取込み手段が適切ではない場合もある。さらに、従来のセキュリティ特徴は、偽造の成功を阻止または防止するのに有効ではあり得るが、真正に発行された物理的身分証明書が電子的にまたは手作業で改ざんされているかどうかを検出する際には役に立たない。例えば、本物の身分証明書の所有者は、電子取引において所有者を識別するのに重要な特定の高価値領域（写真、バイオメトリクス、人物情報、MRZなど）を置き換えるまたは変更することによってその文書を改ざんすることが可能である。

この種の改ざんは多くの場合（例えば、セキュリティ特徴が身分証明書の高価値領域と重なっていない場合には）埋め込まれたセキュリティ特徴に影響を与えずに成し遂げることができ、よって、従来の認証技術によって検出されず、文書所有者が自分の身元を秘匿するために重要な情報を隠蔽または完全に置き換えることを許すことになる。さらに、市販の画像編集ソフトウェアを使用して、高価値領域を含む身分証明書の非セキュリティ特徴の様相を操作することは比較的簡単である。当然ながら、物理的文書を改ざんしようとする試みは、そのタイプおよび洗練度が様々に異なる傾向にある。低い洗練度では、テクスチャまたはフォントを一致させようと試みることなく身分証明書の全領域が（電子的または物理的に）変更されまたは置き換えられ得る。他の試みはより洗練されたものであり得る。例えば、偽造者が特殊なソフトウェアを利用して、背景、セキュリティ特徴などを細部にわたって再現しようと試みる場合もある。さらに別の例として、偽造者が、継ぎ合わせまたは改ざん済みのもののプリントアウトまたはスクリーンショットの新しいライブ写真を撮影することによって画像の改変部分を均質化しようとする場合もある。これらおよび無数の他の改ざん技術を使用して、従来の認証方法を効果的に弱体化させることが可能である。

したがって、本開示の態様は、画像化された物理的文書の正当性を検証するために、セキュリティ特徴のみに依拠しない当分野における根本的なパラダイムシフトを提供することによって、従来の認証技術に伴う上記その他の問題を解決することを目的とする。1つの一般的な実施形態において、本開示は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサに結合されたコンピュータ可読記憶デバイスとを含むシステムに関する。コンピュータ可読記憶デバイス上には、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに動作を行わせる命令が格納される。これらの動作は、第1のグレアシグネチャを有する、物理的文書の第1の画像と、第1のグレアシグネチャとは異なる第2のグレアシグネチャを有する、物理的文書の第2の画像とを受け取ることを含む。第1の画像と第2の画像とは、1）各画像に描かれる物理的文書の周りのテクスチャの記述を提供するように、加速されたセグメントテストからの特徴（features from accelerated segment test）（FAST）検出器ならびに方向付きFASTおよび回転バイナリロバスト独立基本特徴（oriented FAST and rotated Binary Robust Independent Elementary Features）（ORB）検出器を使用して、ホモグラフィを推定することと、2）双線形補間法を介して第2の画像内の各画素を第1の画像に対してワーピングすることとによって、物理的文書に基づいて整列される。第1の画像の第1のグレアマップが、第1の画像の第1のグレースケール画像を生成することによって決定される。第2の画像の第2のグレアマップが、第2の画像の第2のグレースケール画像を生成することによって決定される。第1のグレアマップおよび第2のグレアマップは、各マップ上に表す拡張されたグレア領域まで膨張される。第1のグレアマップは第2のグレアマップと比較される。第1の画像内のグレア領域を、第2の画像からのそれぞれのマップされた領域で置き換えることによってデジタル画像が生成され、第2の画像からのマップされた領域はグレアを含まない。

別の一般的な実施形態において、物理的文書のデジタル画像を提供するための、コンピュータに実装される方法は、第1のグレアシグネチャを有する、物理的文書の第1の画像と、第1のグレアシグネチャとは異なる第2のグレアシグネチャを有する、物理的文書の第2の画像とを受け取る工程を含む。第1の画像の第1のグレアマップおよび第2の画像の第2のグレアマップが決定される。第1のグレアマップと第2のグレアマップとが比較される。デジタル画像は、第1のグレアマップと第2のグレアマップとの比較に基づいて生成される。

さらに別の一般的な実施形態では、1つまたは複数の非一時的なコンピュータ可読記憶媒体は、1つまたは複数のプロセッサに結合され、かつ、1つまたは複数のプロセッサによって実行されると1つまたは複数のプロセッサに動作を行わせる命令を格納している。これらの動作は、第1のグレアシグネチャを有する、物理的文書の第1の画像と、第1のグレアシグネチャとは異なる第2のグレアシグネチャを有する、物理的文書の第2の画像とを受け取ることを含む。第1の画像の第1のグレアマップおよび第2の画像の第2のグレアマップが決定される。第1のグレアマップと第2のグレアマップとが比較される。第1のグレアマップと第2のグレアマップとの比較に基づいてデジタル画像が生成される。

これらの一般的な実施形態のいずれかと組み合わせ可能な一局面において、第1の画像はフラッシュありで撮影され、第2の画像はフラッシュなしで撮影される。

前述の局面のいずれかと組み合わせ可能な別の局面において、第1の画像および第2の画像は閾値時間的距離内で連続して撮影される。

前述の局面のいずれかと組み合わせ可能な別の局面において、動作または方法は、第1の画像の第1のグレアマップおよび第2の画像の第2のグレアマップを決定する前に、物理的文書に基づいて第1の画像と第2の画像とを整列させることを含む。

前述の局面のいずれかと組み合わせ可能な別の局面において、第1の画像と第2の画像とを整列させることは、各画像に描かれる物理的文書の周りのテクスチャの記述を提供するように、FAST検出器およびORB検出器を使用して、ホモグラフィを推定することと、双線形補間法を介して第2の画像内の各画素を第1の画像に対してワーピングすることと、を含む。

前述の局面のいずれかと組み合わせ可能な別の局面において、ホモグラフィは、ランダムサンプルコンセンサス（RANSAC）アルゴリズムに基づいて推定される。

前述の局面のいずれかと組み合わせ可能な別の局面において、第1の画像の第1のグレアマップを決定することは、第1の画像の第1のグレースケール画像を生成することを含み、第2の画像の第2のグレアマップを決定することは、第2の画像の第2のグレースケール画像を生成することを含む。

前述の局面のいずれかと組み合わせ可能な別の局面において、第1のグレアマップおよび第2のグレアマップは各々、各画素がグレアまたは非グレアのいずれかを表す二値画像である。

前述の局面のいずれかと組み合わせ可能な別の局面において、動作または方法は、第1のグレアマップを第2のグレアマップと比較する前に、第1のグレアマップおよび第2のグレアマップを、各マップ上に表す拡張されたグレア領域まで膨張させることを含む。

前述の局面のいずれかと組み合わせ可能な別の局面において、デジタル画像は、第1の画像内のグレア領域を、第2の画像からのそれぞれのマップされた領域で置き換えることによって生成され、第2の画像からのマップされた領域はグレアを含まない。

前述の局面のいずれかと組み合わせ可能な別の局面において、ポアソン画像合成を介してデジタル画像を形成するために、第2の画像からのマップされた領域が、第1の画像にマージされる。

前述の局面のいずれかと組み合わせ可能な別の局面において、生成されたデジタル画像内の置き換えられた各グレア領域の境界から伝播される色を補間するために、置き換えられたグレア領域全体の勾配情報が用いられる。

前述の局面のいずれかと組み合わせ可能な別の局面において、インスタントイメージクローニングのための平均値座標（Mean Value Coordinates（MVC））アルゴリズムを介してデジタル画像を形成するために、第2の画像からのマップされた領域が、第1の画像にマージされる。

前述の局面のいずれかと組み合わせ可能な別の局面において、デジタル画像は、物理的文書の解析において、物理的文書内のテキストまたはデータ要素を識別するために用いられる。

前述の局面のいずれかと組み合わせ可能な別の局面において、物理的文書の解析は、光学式文字認識（OCR）、光学式単語認識（OWR）、インテリジェント文字認識（ICR）、インテリジェント単語認識（IWR）、自然言語処理（NLP）、または機械学習のうちの少なくとも1つを含む。

前述の局面のいずれかと組み合わせ可能な別の局面において、デジタル画像は、物理的文書の解析において、電子的改ざんまたは物理的改ざんを検出するために用いられる。

前述の局面のいずれかと組み合わせ可能な別の局面において、物理的文書は、職業上のまたは政府発行の信用証明書または証明書である。

本開示による技術は、本明細書に記載される局面および特徴の任意の組み合わせを含み得ることが理解される。すなわち、本開示による技術は、本明細書に具体的に記載される局面および特徴の組み合わせに限定されず、与えられる局面および特徴の任意の組み合わせも含み得る。

添付の図面および以下の説明において、本開示の1つまたは複数の実施形態の詳細を示す。本開示の他の特徴および利点は、説明および図面から、ならびに特許請求の範囲から明らかになるであろう。

本開示の実施形態を実行するために用いることができる環境例を示す。本開示の実施形態による処理のための、文書についての2つ以上の画像を取り込むためのシステム例を示す。物理的文書の画像例を示す。物理的文書の画像例を示す。物理的文書の画像例を示す。マージ画像を生成するためにアクティブ照明システム内で用いられるプロセス例の流れ図を示す。マージ画像を生成するためにアクティブ照明システム内で用いられるプロセス例の流れ図を示す。本開示の実施形態を実行するために用いることができるコンピューティングデバイスおよびモバイルコンピューティングデバイスの例を示す。

詳細な説明
本開示の1つまたは複数の態様は、電子取引を行うための物理的文書のマージ画像を生成するためのアクティブ照明システムのためのシステムおよび方法を含む。特に、特定の態様は、受け取った物理的文書の画像を、受け取った各画像の別個のグレアシグネチャに基づいてグレアマップを生成するように処理することを含み得る。グレアマップは、マージ画像を生成するために比較される。マージ画像は、OCR、顔認識（顔からグレアを除去する）、および改ざん検出を含む広範囲の用途において用いられ得る。例えば、マージ画像は、デジタル画像に固有であり、かつ、例えば、抽出されたテキスト（光学式文字認識によって識別されたテキストなど）とも他の符号化データ（セキュリティ特徴または機械可読ゾーンにおいて符号化されたデータなど）とも関連付けられていない1つまたは複数の様相に基づいて、物理的文書の電子的または物理的改ざんを検出する際に用いられ得る。

図1に、本開示の実施形態を実行するために用いることができる環境例100を示す。環境例100は、モバイルコンピューティングデバイス104および106と、バックエンドシステム112と、ネットワーク110とを含む。いくつかの実施形態では、ネットワーク110は、ローカルエリアネットワーク（LAN）、広域ネットワーク（WAN）、インターネット、またはそれらの組み合わせを含み、ウェブサイトと、デバイス（モバイルコンピューティングデバイス104および106など）と、バックエンドシステム（バックエンドシステム112）とを接続する。いくつかの実施形態では、有線通信リンクおよび/または無線通信リンク上でネットワーク110にアクセスすることができる。例えば、モバイルコンピューティングデバイス（スマートフォンデバイス104およびタブレットデバイス106など）は、セルラーネットワークを使用してネットワーク110にアクセスすることができる。

図示の例では、バックエンドシステム112は、少なくとも1つのサーバシステム114とデータストア116とを含む。いくつかの実施形態では、バックエンドシステム112は、ユーザ102がモバイルコンピューティングデバイス104および/または106を使用して対話することができる、コンピュータに実装された1つまたは複数のサービスへのアクセスを提供する。コンピュータに実装されたサービスは、例えば、少なくとも1つのサーバシステム114およびデータストア116上でホストされていてもよい。コンピュータに実装されたサービスは、例えば、画像マージサービスを含み得る。いくつかの実施形態では、バックエンドシステム112は、ネットワーク110を介してアクセスされるときにシームレスなリソースの単一のプールとして働くクラスタ化されたコンピュータおよび構成要素を用いるコンピュータシステムを含む。例えば、そのような実施形態は、データセンタ、クラウドコンピューティング、ストレージエリアネットワーク（SAN）、およびネットワーク接続ストレージ（NAS）アプリケーションにおいて使用され得る。いくつかの実施形態では、バックエンドシステム112は、（1つまたは複数の）仮想マシンを介して配置され、コンピュータに実装されたサービスを提供する。

モバイルコンピューティングデバイス104および106は、ラップトップコンピュータ、ハンドヘルドコンピュータ、タブレットコンピュータ、パーソナルデジタルアシスタント（PDA）、セルラー電話、ネットワークアプライアンス、カメラ、スマートフォン、エンハンスド汎用パケット無線サービス（EGPRS）携帯電話、メディアプレーヤ、ナビゲーションデバイス、電子メールデバイス、ゲームコンソール、またはこれらのデバイスもしくはその他のデータ処理デバイスのうちの任意の2つ以上の適切な組み合わせなどの、任意の適切なタイプのコンピューティングデバイスを各々含み得る。図示の例では、コンピューティングデバイス104はスマートフォンとして提供されており、コンピューティングデバイス106はタブレットコンピューティングデバイスとして提供されている。しかしながら、本開示の実施形態は、前述のコンピューティングデバイスなどの適切なコンピューティングデバイスのいずれでも実現できることが企図されている。例えば、モバイルコンピューティングデバイス104および106は、デスクトップコンピュータ、ラップトップコンピュータ、スマートアプライアンス、ゲームコンソールなどといった、あまり容易に携帯できないタイプのコンピューティングデバイスとすることもできる。

本開示の実施形態を、コンテキスト例を参照してここでさらに詳細に説明する。コンテキスト例は、ユーザ102が処理のための文書の画像を提供することを含む。例えば、ユーザ102は、確認されるべき、政府発行の識別子または信用証明書、例えばパスポートなどを提供する必要がある場合がある。しかしながら、本開示の実施形態は任意の適切なコンテキストで実現できることが企図されている。他のコンテキスト例には、セキュリティゲートを通り抜ける場合などの、ユーザ装着バッジ自動認証；ポリカーボネート製ギフトカードまたは複数の非機械可読識別子を有する製品包装などの、非拡散材料でプリントされた一般材料からのデータ抽出；および、例えば、物体がコンベヤーベルト上を高速で流れる工場におけるマシンビジョン用途が含まれる。

図2に、本開示の実施形態による処理のための、物理的文書220についての2つ以上の画像を取り込むためのシステム例200を示す。デバイス202は、図1に示されるモバイルコンピューティングデバイス104および106と実質的に同様である。デバイス202は、1つまたは複数のライト208と、デバイス202に近接した視野の（1つまたは複数の）画像および/またはビデオデータを取り込む1つまたは複数のカメラ206とを含む。いくつかの例では、（1つまたは複数の）カメラ206は、デバイス202の組み込み構成要素ではなく、有線または無線ネットワーク上でデバイス202に接続された（1つまたは複数の）周辺デバイスであり得る。（1つまたは複数の）カメラ206は、物理的文書220などの、対象物の画像および/またはビデオデータを取り込むことができる。システム例200では、画像化された対象物は、上記で詳細に説明されたような、物理的文書220である。（1つまたは複数の）カメラ206によって生成された画像データは、画像化された対象物の少なくとも2つの静止画像および/またはビデオデータを含むことができる。（1つまたは複数の）ライト208は、（1つまたは複数の）カメラ206が画像を取り込むときに「フラッシュ」ライトを生成し得る。このフラッシュライトは、グレアに対抗する、文書処理に関連した電磁スペクトル上の任意の帯域のものであり得る。例には、可視光のみならず、赤外光および紫外光も含まれる。

実施形態は、図1に示されるユーザ102などのユーザがユーザインターフェース（UI）212を介してアプリケーション204と対話するために用いることができる任意の適切なタイプのデバイス202の使用をサポートする。UI212は、ユーザにコンテンツを表示する。アプリケーション204は、（1つまたは複数の）カメラ206を用いて画像214を取り込み、取り込まれた画像間の照明を能動的に変更することによって、訓練されていない非技術系ユーザを支援するようにプログラムされ得る。例えば、アプリケーション204は、相互の構成可能な閾値内で、かつ/またはフラッシュありもしくはフラッシュなしで画像（フラッシュ画像および非フラッシュ画像など）を取り込むようにプログラムされ得る。いくつかの実施形態では、アプリケーション204は、取り込まれた画像を、図1に示されるバックエンドシステム112などのバックエンドシステムによって提供される画像マージサービスに提供する。いくつかの実施形態では、アプリケーション204は、画像マージサービスを含む。画像マージサービスは、リモートでホストされているにせよアプリケーション204に含まれるにせよ、本明細書で詳細に説明されるようなアクティブ照明システムを用いる。

いくつかの実施形態では、アクティブ照明システムは、別個のグレアシグネチャ（同じでないグレア領域など）を有する少なくとも2つの画像をマージしてマージ画像または合成画像を形成する。グレアシグネチャは、特定の画像のグレア領域を指し得る。グレアまたは鏡面反射は、（1つまたは複数の）画像に取り込まれた反射光を指す。いくつかの例では、同じでないグレアは、画像間で同一ではないグレアを指し、よってそれらの画像は別個のグレアシグネチャを有する。これらの別個のグレアシグネチャによって、識別データ要素222などの隠蔽または遮蔽された詳細が、生成されたマージ画像において明らかになり得るように、画像を相互にマージすべき構造が提供される。

例えば、フラッシュなしで撮影された画像は、取り込まれた物理的文書220から発する、環境からの（例えば、天井の照明器具からの）周囲照明の反射が画像に取り込まれた（1つまたは複数の）グレア領域を含み得る。物理的文書220の画像内のこれらのグレア領域は、例えば、識別データ要素222内の文字の一部または全部を遮る場合がある。これらの遮られたグレア領域により、文字が処理において判読不能になり得る。アクティブ照明システムは、この非フラッシュ画像を同じ物理的文書220の、ただし異なる照明で（例えば、ライト208からの「フラッシュ」ライトありで）撮影された画像と一緒に使用して、物理的文書220の遮られた詳細を示すマージ画像を形成する（図3Cなどを参照）。記載のアクティブ照明システム内で使用するための別個のグレアシグネチャを有する画像を取り込む他のやり方には、同じでない色の光を使用するか、または異なる位置にあるフラッシュ（デバイス202の異なる隅に位置決めされた2つのライト208など）で画像を取り込むことが含まれる。非フラッシュ画像およびフラッシュ画像の例が、それぞれ、図3Aおよび図3Bに示されている。

いくつかの実施形態では、アクティブ照明システムによって生成されたマージ画像の大部分は、処理のために送信された画像のうちの1つから取られる。この画像は第1画像と呼ばれ得る。（1つまたは複数の）その他の画像は、第1画像のグレア領域を埋めるために使用され得る。この（1つまたは複数の）画像は（1つまたは複数の）第2画像と呼ばれ得る。例えば、物理的文書220のフラッシュ画像および非フラッシュ画像では、フラッシュ画像が第1画像の役割を果たし、非フラッシュ画像が第2画像の役割を果たし得る（またはその逆であってもよい）。そのような例では、アクティブ照明システムは、（1つまたは複数の）グレア領域内の画素を除く第1画像からの画素をマージ画像に使用し得る。（1つまたは複数の）グレア領域内の画素については、アクティブ照明システムは、第1画像上の（1つまたは複数の）グレア領域を検出し、次いで、第2画像を補間ソースとして使用してそのグレア領域内の色を合成または補間する。他の実施形態では、マージ画像は、アクティブ照明システムによって、例えば、図示の文書220に従って整列された第1画像内および第2画像内のそれぞれの画素間の実際の混合としての各画素を用いて生成される（例えば、色の一部はフラッシュなしに由来し、色の一部はフラッシュに由来する）。アクティブ照明システムによってマージ画像を生成するためのプロセス例が、図4Aおよび図4Bで説明されている。

アクティブ照明システムによって生成されると、物理的文書220のマージ画像の解析が、例えば、物理的文書220内に存在する1つまたは複数の識別データ要素222を決定するために用いられ得る。そのような識別データ要素222は、1つまたは複数の文字、語、句、文、数字、記号、バーコード、および/またはその他のコンテキスト要素などの、任意の適切な長さのテキスト部分（英数字テキストなど）を含むことができる。識別データ要素222は、物理的文書220上に印刷されている1つまたは複数の図形要素および/または画像の少なくとも一部分も含むことができる。文書解析は、OCR、OWR、ICR、IWR、NLP、機械学習、構文解析のための任意の適切な技術、および/または物理的文書220内の特定のテキスト要素もしくはその他のデータ要素を識別するためのその他の技術を含むことができる。文書解析は、操作された生年月日などの改ざん領域を潜在的に覆い隠すかまたは該領域の彩度を過剰に上げている可能性のある妨害グレアを除去することによる、電子的改ざんまたは物理的改ざんの検出を含むことができる。文書解析の他の技術は、参照により本明細書に組み入れられる、米国特許公開第2018/0107887号で論じられている。

図3A〜図3Cに、それぞれ、画像例300、310、および320を各々示す。画像例300、310、および320は、物理的文書220を示し、それぞれのグレアシグネチャを各々含む。画像例300は、グレア領域302を有するグレアシグネチャを含み、フラッシュなしで撮影された画像の例である。画像例310は、グレア領域312を有するグレアシグネチャを含み、フラッシュありで撮影された画像の例である。画像例310では、非フラッシュ画像例300には前にグレア（グレア領域302など）があったが、グレアの影響は低減されており、それらのグレア領域302における可視性が高まった。しかしながら、結果として、フラッシュ画像上には導入された新しい光源（フラッシュなど）に対応する別のグレア領域である、グレア領域312が生じている。画像例320は、本明細書に記載されるアクティブ照明システムの結果として得られる画像300と画像310とのマージ画像である。マージ画像例320は、画像300と画像310とのグレアシグネチャ（各画像からの2つのグレア領域302および312）間のオーバーラップを表すグレア領域322を含む。整列された照明システムによって生成されたマージ画像の中には、例えば、第1画像と（1つまたは複数の）第2画像とのグレア領域間にオーバーラップがなく、かつ/またはマージ画像からグレア領域を完全に除去するのに十分なデータがあるために、非グレア領域322を含まないものもある。

図4A〜図4Bに、それぞれ、プロセス例400および420の流れ図を示す。プロセス400および420は、例えば、解析のための文書のマージ画像を生成するためにアクティブ照明システム内で用いられる。提示を明確にするために、以下の説明では概して、方法400および420を図1〜図3Cのコンテキストで説明する。しかしながら、方法400および420は、必要に応じて、例えば、任意の他の適切なシステム、環境、ソフトウェア、およびハードウェアによって、またはシステム、環境、ソフトウェア、およびハードウェアの組み合わせによって各々行われ得ることが理解されるであろう。いくつかの実施形態では、方法400および420の様々な工程を、並列に、組み合わせて、ループで、または任意の順序で実行することができる。

プロセス400では、第1画像および第2画像が、例えば、ユーザデバイスと関連付けられたカメラによって取り込まれる（402）。いくつかの実施形態では、画像取込み間のカメラの動きを最小限に抑えるために、画像は、連続して次々に、閾値時間的距離内で撮影される。短い閾値でさえも、画像間にはある程度のカメラの動きが生じ得る。この動きに対応するために画像が整列される。画像を整列させるために、動き前の画像と動き後の画像との間の少なくとも4つの点対応を使用してホモグラフィ（3×3行列）が推定される（404）。点は、FASTアルゴリズムなどの特徴検出器を使用して計算され、前の画像と後の画像との間の点の照合に使用される各点の記述子は、ORBアルゴリズムなどの特徴記述子を使用して計算される。ORBは、高速でロバストなローカル特徴記述子であり、各位置の周りの画素強度の近傍を記述する。ORBは、画像内の二次元ランドマーク（物理的文書など）の周りのテクスチャの記述を提供し、これが別の画像内の他のORB記述子の照合（第1画像と第2画像との間の照合など）につながる。ホモグラフィは、例えば、RANSACアルゴリズムを介して推定されてもよく、RANSACアルゴリズムは、無作為に選択された4つの点対応を使用してホモグラフィを推定し、試行ごとにインライアの数をカウントし、最大数のインライア一致を有するホモグラフィを選択する無作為の試行を含む。ホモグラフィに基づいて画素をワーピングすることによって画像が整列される（406）。例えば、一方の画像内の画像化された文書の各画素が、他方の画像内の画像化された文書の対応する画素にマップされる（例えば、画像は、3D平面内にあると想定される物理的文書に従って整列される）。具体的には、点［x y 1］が、座標［x' y' w'］'＝H＊［x y 1］'を使用して他方の画像にマップされ、式中、Hは、ホモグラフィであり、［x y 1］'は、同次座標としての座標（x,y）の列ベクトルであり（第3次元として1が付加される）、［x' y' w'］'は、マップされた同次座標の列ベクトルであり（（x'/w',y'/w'）を使用して非同次座標に逆変換される。いくつかの実施形態では、Hは、あるワールド平面内にある均一な点を、完全な射影歪み下の別のワールド平面へとワーピングする3×3行列である。いくつかの実施形態では、推定されたホモグラフィを使用し、双線形補間法を用いて、第2画像が第1画像と完全に整列するように第2画像内の各画素がワーピングされる。

整列された画像が、画像ごとのグレアシグネチャに基づいてグレア領域と非グレア領域とにセグメント化される（408）。いくつかの実施形態では、画像をセグメント化するために、第1画像と第2画像の両方がグレースケールに変換される。各グレースケール画像内のグレア領域および非グレア領域は閾値に基づいて識別される。例えば、特定の強度閾値より大きい強度を有する画素はグレアと分類される（例えば、画素が画像内の飽和画素または「白い」画素である）。この閾値に基づいて、第1画像および第2画像の各々に新しい二値画像（黒と白など）が生成される。二値画像は、各画素がグレアかまたは非グレアのどちらかを表すグレアマップの一種である。一例として、閾値は、8ビットのグレースケール画像の255の強度のうちの253に設定され得る。閾値より大きい画素はグレアマップ内の前景として割り当てられ、それ以外の画素は背景として割り当てられる。プロセス400が画像をセグメント化するために、他の技術が用いられてもよい。例えば、何が画像においてグレア領域および非グレア領域を構成するかを決定するために、機械学習を用いて訓練データに従ってアルゴリズムを訓練する。機械学習法では、グラウンドトゥルースを表すために訓練データセットが構築され、セグメント化され得る。これにより、グレアセグメントの境界が、テキストの数字もしくは文字など、またはセキュリティ特徴などの重要な特徴とオーバーラップしないようにする機会が与えられる。

セグメント化された画像（グレアマップなど）の各々について、グレア領域が膨張される（410）（例えば、白い画素の量が、各グレアマップ上のグレア領域のサイズを増大させるためにわずかに拡張される）。例えば、グレア領域は、グレア領域のエッジの周りの鏡面反射を取り込むためにある閾値が満たされるまで拡大される。いくつかの実施形態では、グレア検出器を用いて、マージ画像の生成に使用するために各画像から最適な画素および/または画素グループを選択することができる。例えば、300ドット/インチ（DPI）の解像度の画像上の7×7膨張カーネルが、画像内の文書を推定するために使用され得る。フラッシュおよび非グレアマップは、構成可能な回数連続して膨張され得る。グレア領域は、最大グレア領域を保持するために各グレアマップにおいてフィルタリングされる。フラッシュグレアマップと非フラッシュグレアマップとの差は、この差を正の値に保持するための閾値（0以上の閾値など）を設定して計算される。この差からの最大グレア領域が保持される。

膨張されたグレアマップから合成画像が生成される（412）。いくつかの実施形態では、第1画像（フラッシュ画像など）内のグレア領域は、第2画像（非フラッシュ画像など）からの非グレアのそれぞれのマップされた領域で置き換えられる。いくつかの実施形態では、第1画像および第2画像内の図示の文書上の同じ位置にグレア領域がある場合、第1画像（フラッシュ画像など）からの画素はマージ画像のベースラインとして保持される。

第2画像から第1画像へのコピーされた画素間の境界は、例えば、画像化された文書のテキスト要素全体にわたって強い、高周波コントラスト領域がある場合に、文書の適正な解析にとって問題となり得る（例えば、改ざん検出またはOCR解析が妨げられ得る）。この工程では、ポアソン画像合成などの、マージされた画素を合成する様々なモードが用いられ得る。一例として、ポアソン画像合成を用いるために、クローン化されるおよび/または置き換えられるべきである領域全体にわたる勾配情報または強度の変化がコピーされる。コピーされた勾配は、マージ画像内の対応する領域の境界から伝播される新しい色を補間または作成するために使用される。このタイプの合成を用いることにより、第1画像からの色が第2画像からのコピー/置き換え領域に固定される。いくつかの例では、領域は、第2画像から直接コピーされ、合成なしでマージ画像に挿入される。そのような例では、OCRは、これらの領域を適正に認識し、文書および/またはマージ画像の有効性を正確に判定するように訓練され得る。例えば、どれであれ最小量のグレアを有するソース画像の中からマージ画像のために画素が選択され得る。別の例では、インスタントイメージクローニングのためのMVCという名称の、ポアソン画像合成アルゴリズムの加速近似が、例えば、ポアソンと同様の品質で性能を高めるために使用され得る。

いくつかの例では、フラッシュ・非フラッシュマージ動作の前に文書のタイプが知られている場合、最新の米国パスポートなどの、その文書タイプのテンプレートが、フラッシュ画像と非フラッシュ画像をどのようにマージするかに関するコンテンツ依存の判定を行うために使用され得る。取り込まれた画像対はどちらも、フラッシュと非フラッシュを位置合わせするために使用される同じホモグラフィベースのワーピング技術を使用してテンプレートに位置合わせされる。テンプレートに位置合わせした後、テンプレートで指定された可変領域が、フラッシュ画像と非フラッシュ画像の両方の同じ領域に位置する。姓のテキストなどの高価値関心領域の一部分でグレアが検出される場合、グレア領域は、その領域内のグレア画素だけではなく、姓全体がフラッシュ画像において非フラッシュ画素で置き換えられるように拡張され得る。テンプレートは、高価値領域の識別、およびこれに対応したそれらの領域内でのセグメント化および合成の方法の識別を可能にする。文書タイプは、ユーザによって提供され得るか、または別個の認識モジュールを使用して自動認識され得る。

プロセス420では、物理的文書の第1の画像および第2の画像が受け取られる（422）。第1の画像は第1のグレアシグネチャを含み、第2の画像は、第1のグレアシグネチャとは異なる第2のグレアシグネチャを含む。第1の画像の第1のグレアマップおよび第2の画像の第2のグレアマップが決定される（424）。第1のグレアマップが第2のグレアマップと比較される（426）。第1のグレアマップと第2のグレアマップとの比較に基づいてデジタル画像が生成され（426）、プロセス420が終了する。

図5に、本開示の実施形態を実行するために用いられるコンピューティングデバイス500およびモバイルコンピューティングデバイス550の例を示す。コンピューティングデバイス500は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの、様々な形のデジタルコンピュータを表すことが意図されている。モバイルコンピューティングデバイス550は、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、および他の同様のコンピューティングデバイスなどの、様々な形のモバイルデバイスを表すことが意図されている。加えて、コンピューティングデバイス500および/または550は、ユニバーサルシリアルバス（USB）フラッシュドライブも含むことができる。USBフラッシュドライブは、オペレーティングシステムおよび他のアプリケーションを格納し得る。USBフラッシュドライブは、別のコンピューティングデバイスのUSBポートに挿入され得る無線送信機またはUSBコネクタなどの入力/出力構成要素を含むことができる。ここで示される構成要素、それらの接続および関係、ならびにそれらの機能は、例にすぎず、限定を意味するものではない。

コンピューティングデバイス500は、プロセッサ502と、メモリ504と、記憶デバイス506と、高速インターフェース508と、低速インターフェース512とを含む。いくつかの実施形態では、高速インターフェース508は、メモリ504と複数の高速拡張ポート510とに接続する。いくつかの実施形態では、低速インターフェース512は、低速拡張ポート514と記憶デバイス506とに接続する。プロセッサ502、メモリ504、記憶デバイス506、高速インターフェース508、高速拡張ポート510、および低速インターフェース512の各々が、様々なバスを使用して相互接続され、共通のマザーボード上に、または必要に応じて他の様式で搭載され得る。プロセッサ502は、高速インターフェース508に結合されたディスプレイ516などの、外部入力/出力デバイス上でグラフィカルユーザインターフェース（GUI）のグラフィック情報を表示するためにメモリ504および/または記憶デバイス506に格納された命令を含む、コンピューティングデバイス500内で実行するための命令を処理することができる。他の実施形態では、複数のプロセッサおよび/または複数のバスが、必要に応じて、複数のメモリおよび複数のタイプのメモリと共に使用され得る。加えて、複数のコンピューティングデバイスが、（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な動作の部分を提供する各デバイスと接続されてもよい。

メモリ504は、コンピューティングデバイス500内で情報を格納する。いくつかの実施形態では、メモリ504は1つまたは複数の揮発性メモリユニットである。いくつかの実施形態では、メモリ504は1つまたは複数の不揮発性メモリユニットである。メモリ504は、磁気ディスクまたは光ディスクなどの、別の形のコンピュータ可読媒体であってもよい。

記憶デバイス506は、コンピューティングデバイス500に大容量記憶を提供することができる。いくつかの実施形態では、記憶デバイス506は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、テープデバイス、フラッシュメモリ、もしくは他の同様のソリッドステートメモリデバイス、または、ストレージエリアネットワークもしくは他の構成におけるデバイスを含む、デバイスの配列などの、コンピュータ可読媒体であり得るか、またはコンピュータ可読媒体を含み得る。命令を情報キャリアに格納することができる。命令は、プロセッサ502などの1つまたは複数の処理デバイスによって実行されると、上記のような1つまたは複数の方法を行う。命令は、メモリ504、記憶デバイス506、またはプロセッサ502上のメモリなどの、コンピュータ可読媒体または機械可読媒体などといった1つまたは複数の記憶デバイスによって格納され得る。

高速インターフェース508はコンピューティングデバイス500のための帯域幅集約型動作を管理し、低速インターフェース512は帯域幅集約性の低い動作を管理する。そのような機能の割り振りは例にすぎない。いくつかの実施形態では、高速インターフェース508は、メモリ504と、（例えば、グラフィックスプロセッサまたはアクセラレータを介して）ディスプレイ516と、様々な拡張カードを受け入れ得る高速拡張ポート510とに結合される。この実施形態では、低速インターフェース512は、記憶デバイス506と低速拡張ポート514とに結合される。低速拡張ポート514は、様々な通信ポート（USB、ブルートゥース、イーサネット、無線イーサネットなど）を含んでいてもよく、1つまたは複数の入力/出力デバイスに結合され得る。そのような入力/出力デバイスには、スキャナ530、印刷装置534、またはキーボードもしくはマウス536が含まれ得る。入力/出力デバイスは、ネットワークアダプタを介して低速拡張ポート514に結合されてもよい。そのようなネットワーク入力/出力デバイスには、例えば、スイッチまたはルータ532が含まれ得る。

コンピューティングデバイス500は、図5に示されるように、いくつかの異なる形で実装され得る。例えば、コンピューティングデバイス500は、標準的なサーバ520として、または多くはそのようなサーバのグループとして実装され得る。加えて、コンピューティングデバイス500は、ラップトップコンピュータ522などのパーソナルコンピュータにおいて実装されてもよい。コンピューティングデバイス500は、ラックサーバシステム114の一部として実装されてもよい。あるいは、コンピューティングデバイス500の構成要素が、モバイルコンピューティングデバイス550などのモバイルデバイス内の他の構成要素と組み合わされてもよい。そのようなデバイスの各々がコンピューティングデバイス500およびモバイルコンピューティングデバイス550のうちの1つまたは複数を含んでいてもよく、システム全体が、互いに通信し合う複数のコンピューティングデバイスで構成されていてもよい。

モバイルコンピューティングデバイス550は、構成要素の中でも特に、プロセッサ552と、メモリ564と、ディスプレイ554などの入力/出力デバイスと、通信インターフェース566と、送受信機568とを含む。モバイルコンピューティングデバイス550は、追加の記憶を提供するために、マイクロドライブまたは他のデバイスなどの、記憶デバイスを備えていてもよい。プロセッサ552、メモリ564、ディスプレイ554、通信インターフェース566、および送受信機568の各々が、様々なバスを使用して相互接続され、構成要素のうちのいくつかは、共通のマザーボード上にまたは必要に応じて他の様式で搭載され得る。いくつかの実施形態では、モバイルコンピューティングデバイス550は、カメラデバイス（図示されていない）を含み得る。

プロセッサ552は、メモリ564に格納された命令を含む、モバイルコンピューティングデバイス550内の命令を実行することができる。プロセッサ552は、別個の複数のアナログプロセッサおよびデジタルプロセッサを含むチップのチップセットとして実装され得る。例えば、プロセッサ552は、複合命令セットコンピュータ（CISC）プロセッサ、縮小命令セットコンピュータ（RISC）プロセッサ、または最小命令セットコンピュータ（MISC）プロセッサであってもよい。プロセッサ552は、例えば、UIのコントロール、モバイルコンピューティングデバイス550によって実行されるアプリケーション、および/またはモバイルコンピューティングデバイス550による無線通信などの、モバイルコンピューティングデバイス550の他の構成要素の調整を提供し得る。

プロセッサ552は、制御インターフェース558およびディスプレイ554に結合された表示インターフェース556を介してユーザと通信し得る。ディスプレイ554は、例えば、薄膜トランジスタ液晶ディスプレイ（TFT）ディスプレイ、有機発光ダイオード（OLED）ディスプレイ、または他の適切な表示技術であり得る。表示インターフェース556は、ユーザにグラフィック情報および他の情報を提示するようディスプレイ554を駆動するための適切な回路を含み得る。制御インターフェース558は、ユーザからコマンドを受け取り、それらのコマンドをプロセッサ552に送信するために変換し得る。加えて、外部インターフェース562が、モバイルコンピューティングデバイス550と他のデバイスとの近距離通信を可能にするために、プロセッサ552との通信を提供してもよい。外部インターフェース562は、例えば、いくつかの実施形態では有線通信を提供してもよく、または別の実施形態では無線通信を提供してもよく、複数のインターフェースが使用されてもよい。

メモリ564は、モバイルコンピューティングデバイス550内で情報を格納する。メモリ564は、1つもしくは複数のコンピュータ可読媒体、1つもしくは複数の揮発性メモリユニット、または1つもしくは複数の不揮発性メモリユニットのうちの1つまたは複数として実装され得る。拡張インターフェース572を介してモバイルコンピューティングデバイス550に拡張メモリ574が提供および接続されてもよく、拡張インターフェース572は、例えば、シングルインラインメモリモジュール（SIMM）カードインターフェースを含み得る。拡張メモリ574は、モバイルコンピューティングデバイス550に追加の記憶空間を提供してもよく、またはモバイルコンピューティングデバイス550のためのアプリケーションもしくは他の情報を格納してもよい。具体的には、拡張メモリ574は、上記のプロセスを実行または補足する命令を含んでいてもよく、セキュア情報も含み得る。よって、例えば、拡張メモリ574は、モバイルコンピューティングデバイス550のためのセキュリティモジュールとして設けられてもよく、モバイルコンピューティングデバイス550のセキュアな使用を可能にする命令でプログラムされ得る。加えて、ハッキングできない方法で識別情報をSIMMカード上に配置するなど、セキュアなアプリケーションがSIMMカードを介して追加情報と共に提供されてもよい。

メモリは、後述するように、例えば、フラッシュメモリおよび/または不揮発性ランダムアクセスメモリ（NVRAM）を含み得る。いくつかの実施形態では、命令は情報キャリアに格納される。命令は、プロセッサ552などの1つまたは複数の処理デバイスによって実行されると、上記のような1つまたは複数の方法を行う。命令は、メモリ564、拡張メモリ574、またはプロセッサ552上のメモリなどの、1つまたは複数のコンピュータ可読媒体または機械可読媒体などといった1つまたは複数の記憶デバイスによって格納され得る。いくつかの実施形態では、命令を、送受信機568上または外部インターフェース562上などで、伝播信号において受信することができる。

モバイルコンピューティングデバイス550は、通信インターフェース566を介して無線で通信してもよく、通信インターフェース566は必要に応じてデジタル信号処理回路を含み得る。通信インターフェース566は、グローバル・システム・フォー・モバイル・コミュニケーションズ（GSM）音声通話、ショートメッセージサービス（SMS）、拡張メッセージングサービス（EMS）、マルチメディアメッセージングサービス（MMS）メッセージング、符号分割多元接続（CDMA）、時分割多元接続（TDMA）、パーソナルデジタルセルラー（PDC）、広帯域符号分割多元接続（WCDMA）、CDMA2000、汎用パケット無線サービス（GPRS）などの、様々なモードまたはプロトコルの下での通信を提供し得る。そのような通信は、例えば、無線周波数を使用して送受信機568を介して行われ得る。加えて、ブルートゥースまたはWi-Fiを使用するなどの、近距離通信も行われ得る。加えて、全地球測位システム（GPS）受信機モジュール570が、モバイルコンピューティングデバイス550に、モバイルコンピューティングデバイス550上で動くアプリケーションによって必要に応じて使用され得る、追加的なナビゲーションおよび位置特定に関連した無線データを提供してもよい。

モバイルコンピューティングデバイス550は、オーディオコーデック560を使用して音声で通信してもよく、オーディオコーデック560は、ユーザから音声情報を受け取り、それを使用可能なデジタル情報に変換し得る。オーディオコーデック560は、同様に、例えば、モバイルコンピューティングデバイス550のハンドセット内などのスピーカを介して、ユーザに可聴音を生成し得る。そのような音は、音声通話からの音を含んでいてもよく、記録された音（例えば、音声メッセージ、音楽ファイルなど）を含んでいてもよく、また、モバイルコンピューティングデバイス550上で動作するアプリケーションによって生成された音も含み得る。モバイルコンピューティングデバイス550は、図5に示されるように、いくつかの異なる形で実装され得る。例えば、モバイルコンピューティングデバイス550は、図1のモバイルコンピューティングデバイス104および/または106ならびに図2のデバイス202（図示されていない）として実装され得る。モバイルコンピューティングデバイス550は、スマートフォン、パーソナルデジタルアシスタント、または他の同様のモバイルデバイスの一部としても実装され得る。

本明細書に記載されるシステムおよび技術の様々な実施形態を、デジタル電子回路、集積回路、専用に設計された特定用途向け集積回路（ASIC）、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受け取り、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスへとデータおよび命令を送るように結合された、専用または汎用であり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実施を含むことができる。

これらのコンピュータプログラムは（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれ）、プログラマブルプロセッサのための機械命令を含み、高水準手続き型言語、オブジェクト指向言語、アセンブリ言語、および/または機械語で実装され得る。本明細書で使用される場合、機械可読媒体およびコンピュータ可読媒体という用語は、機械命令を機械可読信号として受け取る機械可読媒体を含む、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、装置および/またはデバイス（磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（PLD）など）を指す。機械可読信号という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載されるシステムおよび技術を、ユーザに情報を表示するための表示装置（陰極線管（CRT）または液晶ディスプレイ（LCD）モニタなど）と、ユーザがコンピュータに入力を提供するためのキーボードおよびポインティングデバイス（マウスまたはトラックボールなど）とを備えるコンピュータ上に実装することができる。他の種類にデバイスを使用してユーザとの対話を提供することもできる。例えば、ユーザに提供されるフィードバックは、任意の形の感覚的フィードバック（視覚フィードバック、聴覚フィードバック、または触覚フィードバックなど）とすることができ、ユーザからの入力を、音響、音声、または触覚入力を含む、任意の形で受け取ることができる。

本明細書に記載されるシステムおよび技術を、バックエンドコンポーネント（データサーバとしてなど）を含むコンピューティングシステム、またはミドルウェアコンポーネント（アプリケーションサーバなど）を含むコンピューティングシステム、またはフロントエンドコンポーネント（ユーザが本明細書に記載されるシステムおよび技術の実施形態と対話するためのGUIまたはウェブブラウザを有するクライアントコンピュータなど）を含むコンピューティングシステムにおいて、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネントもしくはフロントエンドコンポーネントの任意の組み合わせにおいて、実装することができる。システムの構成要素は、図1のネットワーク110などの、任意の形または媒体のデジタルデータ通信によって相互接続することができる。通信ネットワークの例には、LAN、WAN、およびインターネットが含まれる。

コンピューティングシステムは、クライアントとサーバとを含むことができる。クライアントとサーバとは、一般に互いにリモートであり、通常は通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で動く、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生じる。

いくつかの実施形態が以上で詳細に説明されているが、他の改変も可能である。例えば、クライアントアプリケーションが（1つまたは複数の）デリゲートにアクセスするものとして説明されているが、他の実施形態では、（1つまたは複数の）デリゲートは、1つまたは複数のサーバ上で実行されているアプリケーションなどの、1つまたは複数のプロセッサによって実施される他のアプリケーションによって用いられ得る。加えて、各図に示される論理フローは、所望の結果を達成するのに、図示の特定の順序、または順番を必要としない。加えて、他の作動が提供されてもよく、または、記載のフローから作動が除かれてもよく、他の構成要素が記載のシステムに加えられてもよく、記載のシステムから除去されてもよい。したがって、添付の特許請求の範囲内には他の実施形態が含まれる。

本開示の以下の局面が考慮される。
局面1. 物理的文書のデジタル画像を提供するための、コンピュータに実装される方法であって、
第1のグレアシグネチャを有する、物理的文書の第1の画像と、該第1のグレアシグネチャとは異なる第2のグレアシグネチャを有する、該物理的文書の第2の画像とを受け取る工程;
第1の画像の第1のグレアマップおよび第2の画像の第2のグレアマップを決定する工程;
第1のグレアマップを第2のグレアマップと比較する工程;ならびに
第1のグレアマップと第2のグレアマップとの該比較に基づいてデジタル画像を生成する工程
を含む、方法。
局面2. 第1の画像がフラッシュありで撮影され、かつ第2の画像がフラッシュなしで撮影される、局面1のコンピュータに実装される方法。
局面3. 第1の画像および第2の画像が閾値時間的距離内で連続して撮影される、局面1または2のコンピュータに実装される方法。
局面4. 第1の画像の第1のグレアマップおよび第2の画像の第2のグレアマップを決定する工程の前に、前記物理的文書に基づいて第1の画像と第2の画像とを整列させる工程
を含む、局面1〜3のいずれか1つのコンピュータに実装される方法。
局面5. 第1の画像と第2の画像とを整列させる工程が、
各画像において描かれる前記物理的文書の周りのテクスチャの記述を提供するように、加速されたセグメントテストからの特徴（features from accelerated segment test）（FAST）検出器ならびに方向付きFASTおよび回転バイナリロバスト独立基本特徴（oriented FAST and rotated Binary Robust Independent Elementary Features）（ORB）検出器を使用して、ホモグラフィを推定することと;
双線形補間法を介して第2の画像内の各画素を第1の画像に対してワーピングすることと
を含む、局面4のコンピュータに実装される方法。
局面6. 前記ホモグラフィが、ランダムサンプルコンセンサス（RANSAC）アルゴリズムに基づいて推定される、局面5のコンピュータに実装される方法。
局面7. 第1の画像の第1のグレアマップを決定する工程が、第1の画像の第1のグレースケール画像を生成することを含み、かつ第2の画像の第2のグレアマップを決定する工程が、第2の画像の第2のグレースケール画像を生成することを含む、局面1〜6のいずれか1つのコンピュータに実装される方法。
局面8. 第1のグレアマップおよび第2のグレアマップが各々、各画素がグレアまたは非グレアのいずれかを表す二値画像である、局面1〜7のいずれか1つのコンピュータに実装される方法。
局面9. 第1のグレアマップを第2のグレアマップと比較する工程の前に、第1のグレアマップおよび第2のグレアマップを、各マップ上に表す拡張されたグレア領域まで膨張させる工程
をさらに含む、局面1〜8のいずれか1つのコンピュータに実装される方法。
局面10. 前記デジタル画像が、第1の画像内の前記グレア領域を、第2の画像からのそれぞれのマップされた領域で置き換えることによって生成され、第2の画像からの該マップされた領域がグレアを含まない、局面9のコンピュータに実装される方法。
局面11. ポアソン画像合成を介して前記デジタル画像を形成するために、第2の画像からの前記マップされた領域が、第1の画像にマージされる、局面10のコンピュータに実装される方法。
局面12. 前記生成されたデジタル画像内の置き換えられた各グレア領域の境界から伝播される色を補間するために、前記置き換えられたグレア領域全体の勾配情報が用いられる、局面11のコンピュータに実装される方法。
局面13. インスタントイメージクローニングのための平均値座標（MVC）アルゴリズムを介して前記デジタル画像を形成するために、第2の画像からの前記マップされた領域が、第1の画像にマージされる、局面10のコンピュータに実装される方法。
局面14. 前記デジタル画像が、前記物理的文書の解析において、前記物理的文書内のテキストまたはデータ要素を識別するために用いられる、局面1〜13のいずれか1つのコンピュータに実装される方法。
局面15. 前記物理的文書の前記解析が、光学式文字認識（OCR）、光学式単語認識（OWR）、インテリジェント文字認識（ICR）、インテリジェント単語認識（IWR）、自然言語処理（NLP）、または機械学習のうちの少なくとも1つを含む、局面14のコンピュータに実装される方法。
局面16. 前記デジタル画像が、前記物理的文書の解析において、電子的改ざんまたは物理的改ざんを検出するために用いられる、局面1〜15のいずれか1つのコンピュータに実装される方法。
局面17. 前記物理的文書が、職業上のまたは政府発行の信用証明書または証明書である、局面1〜16のいずれか1つのコンピュータに実装される方法。
局面18. 1つまたは複数のプロセッサに結合された1つまたは複数の非一時的なコンピュータ可読記憶媒体であって、
該1つまたは複数のプロセッサによって実行されると、
第1のグレアシグネチャを有する、物理的文書の第1の画像と、該第1のグレアシグネチャとは異なる第2のグレアシグネチャを有する、該物理的文書の第2の画像とを受け取ること;
第1の画像の第1のグレアマップおよび第2の画像の第2のグレアマップを決定すること;
第1のグレアマップを第2のグレアマップと比較すること;ならびに
第1のグレアマップと第2のグレアマップとの該比較に基づいてデジタル画像を生成すること
を含む動作を該1つまたは複数のプロセッサに行わせる命令
を格納している、1つまたは複数の非一時的なコンピュータ可読記憶媒体。
局面19. 前記デジタル画像が、前記物理的文書の解析において、前記物理的文書内のテキストもしくはデータ要素を識別するために、または電子的改ざんもしくは物理的改ざんを検出するために用いられ、前記物理的文書の該解析が、光学式文字認識（OCR）、光学式単語認識（OWR）、インテリジェント文字認識（ICR）、インテリジェント単語認識（IWR）、自然言語処理（NLP）、または機械学習のうちの少なくとも1つを含み、かつ前記物理的文書が、職業上のまたは政府発行の信用証明書または証明書である、局面18の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
局面20. 1つまたは複数のプロセッサと、
該1つまたは複数のプロセッサに結合されたコンピュータ可読記憶デバイスであって、
該1つまたは複数のプロセッサによって実行されると、
第1のグレアシグネチャを有する、物理的文書の第1の画像と、該第1のグレアシグネチャとは異なる第2のグレアシグネチャを有する、該物理的文書の第2の画像とを受け取ること;
該物理的文書に基づいて第1の画像と第2の画像とを、以下：
各画像において描かれる該物理的文書の周りのテクスチャの記述を提供するように、加速されたセグメントテストからの特徴（FAST）検出器ならびに方向付きFASTおよび回転バイナリロバスト独立基本特徴（ORB）検出器を使用して、ホモグラフィを推定することと、
双線形補間法を介して第2の画像内の各画素を第1の画像に対してワーピングすることと
によって整列させること;
第1の画像の第1のグレアマップを、第1の画像の第1のグレースケール画像を生成することによって決定すること;
第2の画像の第2のグレアマップを、第2の画像の第2のグレースケール画像を生成することによって決定すること;
第1のグレアマップおよび第2のグレアマップを、各マップ上に表す拡張されたグレア領域まで膨張させること;
第1のグレアマップを第2のグレアマップと比較すること;ならびに
第1の画像内の該グレア領域を、第2の画像からのそれぞれのマップされた領域で置き換えることによってデジタル画像を生成することであって、第2の画像からの該マップされた領域がグレアを含まない、生成すること
を含む動作を該1つまたは複数のプロセッサに行わせる命令
を格納している、コンピュータ可読記憶デバイスと
を含む、システム。

Claims

物理的文書のデジタル画像を提供するための、コンピュータに実装される方法であって、
第1のグレアシグネチャを有する、物理的文書の第1の画像と、該第1のグレアシグネチャとは異なる第2のグレアシグネチャを有する、該物理的文書の第2の画像とを受け取る工程;
第1の画像の第1のグレアマップおよび第2の画像の第2のグレアマップを決定する工程;
第1のグレアマップを第2のグレアマップと比較する工程;ならびに
第1のグレアマップと第2のグレアマップとの該比較に基づいてデジタル画像を生成する工程
を含む、方法。
第1の画像がフラッシュありで撮影され、かつ第2の画像がフラッシュなしで撮影される、請求項1記載のコンピュータに実装される方法。
第1の画像および第2の画像が閾値時間的距離内で連続して撮影される、請求項1または2記載のコンピュータに実装される方法。
第1の画像の第1のグレアマップおよび第2の画像の第2のグレアマップを決定する工程の前に、前記物理的文書に基づいて第1の画像と第2の画像とを整列させる工程
を含む、請求項1〜3のいずれか一項記載のコンピュータに実装される方法。
第1の画像と第2の画像とを整列させる工程が、
各画像において描かれる前記物理的文書の周りのテクスチャの記述を提供するように、加速されたセグメントテストからの特徴（features from accelerated segment test）（FAST）検出器ならびに方向付きFASTおよび回転バイナリロバスト独立基本特徴（oriented FAST and rotated Binary Robust Independent Elementary Features）（ORB）検出器を使用して、ホモグラフィを推定することと;
双線形補間法を介して第2の画像内の各画素を第1の画像に対してワーピングすることと
を含む、請求項4記載のコンピュータに実装される方法。
前記ホモグラフィが、ランダムサンプルコンセンサス（RANSAC）アルゴリズムに基づいて推定される、請求項5記載のコンピュータに実装される方法。
第1の画像の第1のグレアマップを決定する工程が、第1の画像の第1のグレースケール画像を生成することを含み、かつ第2の画像の第2のグレアマップを決定する工程が、第2の画像の第2のグレースケール画像を生成することを含む、請求項1〜6のいずれか一項記載のコンピュータに実装される方法。
第1のグレアマップおよび第2のグレアマップが各々、各画素がグレアまたは非グレアのいずれかを表す二値画像である、請求項1〜7のいずれか一項記載のコンピュータに実装される方法。
第1のグレアマップを第2のグレアマップと比較する工程の前に、第1のグレアマップおよび第2のグレアマップを、各マップ上に表す拡張されたグレア領域まで膨張させる工程
をさらに含む、請求項1〜8のいずれか一項記載のコンピュータに実装される方法。
前記デジタル画像が、第1の画像内の前記グレア領域を、第2の画像からのそれぞれのマップされた領域で置き換えることによって生成され、第2の画像からの該マップされた領域がグレアを含まない、請求項9記載のコンピュータに実装される方法。
ポアソン画像合成を介して前記デジタル画像を形成するために、第2の画像からの前記マップされた領域が、第1の画像にマージされる、請求項10記載のコンピュータに実装される方法。
前記生成されたデジタル画像内の置き換えられた各グレア領域の境界から伝播される色を補間するために、前記置き換えられたグレア領域全体の勾配情報が用いられる、請求項11記載のコンピュータに実装される方法。
インスタントイメージクローニングのための平均値座標（MVC）アルゴリズムを介して前記デジタル画像を形成するために、第2の画像からの前記マップされた領域が、第1の画像にマージされる、請求項10記載のコンピュータに実装される方法。
前記デジタル画像が、前記物理的文書の解析において、前記物理的文書内のテキストまたはデータ要素を識別するために用いられる、請求項1〜13のいずれか一項記載のコンピュータに実装される方法。
前記物理的文書の前記解析が、光学式文字認識（OCR）、光学式単語認識（OWR）、インテリジェント文字認識（ICR）、インテリジェント単語認識（IWR）、自然言語処理（NLP）、または機械学習のうちの少なくとも1つを含む、請求項14記載のコンピュータに実装される方法。
前記デジタル画像が、前記物理的文書の解析において、電子的改ざんまたは物理的改ざんを検出するために用いられる、請求項1〜15のいずれか一項記載のコンピュータに実装される方法。
前記物理的文書が、職業上のまたは政府発行の信用証明書または証明書である、請求項1〜16のいずれか一項記載のコンピュータに実装される方法。
1つまたは複数のプロセッサに結合された1つまたは複数の非一時的なコンピュータ可読記憶媒体であって、
該1つまたは複数のプロセッサによって実行されると、
第1のグレアシグネチャを有する、物理的文書の第1の画像と、該第1のグレアシグネチャとは異なる第2のグレアシグネチャを有する、該物理的文書の第2の画像とを受け取ること;
第1の画像の第1のグレアマップおよび第2の画像の第2のグレアマップを決定すること;
第1のグレアマップを第2のグレアマップと比較すること;ならびに
第1のグレアマップと第2のグレアマップとの該比較に基づいてデジタル画像を生成すること
を含む動作を該1つまたは複数のプロセッサに行わせる命令
を格納している、1つまたは複数の非一時的なコンピュータ可読記憶媒体。
前記デジタル画像が、前記物理的文書の解析において、前記物理的文書内のテキストもしくはデータ要素を識別するために、または電子的改ざんもしくは物理的改ざんを検出するために用いられ、前記物理的文書の該解析が、光学式文字認識（OCR）、光学式単語認識（OWR）、インテリジェント文字認識（ICR）、インテリジェント単語認識（IWR）、自然言語処理（NLP）、または機械学習のうちの少なくとも1つを含み、かつ前記物理的文書が、職業上のまたは政府発行の信用証明書または証明書である、請求項18記載の1つまたは複数の非一時的なコンピュータ可読記憶媒体。
1つまたは複数のプロセッサと、
該1つまたは複数のプロセッサに結合されたコンピュータ可読記憶デバイスであって、
該1つまたは複数のプロセッサによって実行されると、
第1のグレアシグネチャを有する、物理的文書の第1の画像と、該第1のグレアシグネチャとは異なる第2のグレアシグネチャを有する、該物理的文書の第2の画像とを受け取ること;
該物理的文書に基づいて第1の画像と第2の画像とを、以下：
各画像において描かれる該物理的文書の周りのテクスチャの記述を提供するように、加速されたセグメントテストからの特徴（FAST）検出器ならびに方向付きFASTおよび回転バイナリロバスト独立基本特徴（ORB）検出器を使用して、ホモグラフィを推定することと、
双線形補間法を介して第2の画像内の各画素を第1の画像に対してワーピングすることと
によって整列させること;
第1の画像の第1のグレアマップを、第1の画像の第1のグレースケール画像を生成することによって決定すること;
第2の画像の第2のグレアマップを、第2の画像の第2のグレースケール画像を生成することによって決定すること;
第1のグレアマップおよび第2のグレアマップを、各マップ上に表す拡張されたグレア領域まで膨張させること;
第1のグレアマップを第2のグレアマップと比較すること;ならびに
第1の画像内の該グレア領域を、第2の画像からのそれぞれのマップされた領域で置き換えることによってデジタル画像を生成することであって、第2の画像からの該マップされた領域がグレアを含まない、生成すること
を含む動作を該1つまたは複数のプロセッサに行わせる命令
を格納している、コンピュータ可読記憶デバイスと
を含む、システム。