JP2023502584A - 文書の認証のためのシステム及び方法 - Google Patents

文書の認証のためのシステム及び方法 Download PDF

Info

Publication number
JP2023502584A
JP2023502584A JP2022525664A JP2022525664A JP2023502584A JP 2023502584 A JP2023502584 A JP 2023502584A JP 2022525664 A JP2022525664 A JP 2022525664A JP 2022525664 A JP2022525664 A JP 2022525664A JP 2023502584 A JP2023502584 A JP 2023502584A
Authority
JP
Japan
Prior art keywords
document
target document
template
data
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2022525664A
Other languages
English (en)
Inventor
ヴァサント バラクリシュナン
ジョン カオ
ジョン ベアード
ヤコフ ケセルマン
Original Assignee
ウーリー ラブス インコーポレイテッド ディービーエー ヴァウチト
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ウーリー ラブス インコーポレイテッド ディービーエー ヴァウチト filed Critical ウーリー ラブス インコーポレイテッド ディービーエー ヴァウチト
Publication of JP2023502584A publication Critical patent/JP2023502584A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/44Program or device authentication
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B42BOOKBINDING; ALBUMS; FILES; SPECIAL PRINTED MATTER
    • B42DBOOKS; BOOK COVERS; LOOSE LEAVES; PRINTED MATTER CHARACTERISED BY IDENTIFICATION OR SECURITY FEATURES; PRINTED MATTER OF SPECIAL FORMAT OR STYLE NOT OTHERWISE PROVIDED FOR; DEVICES FOR USE THEREWITH AND NOT OTHERWISE PROVIDED FOR; MOVABLE-STRIP WRITING OR READING APPARATUS
    • B42D25/00Information-bearing cards or sheet-like structures characterised by identification or security features; Manufacture thereof
    • B42D25/20Information-bearing cards or sheet-like structures characterised by identification or security features; Manufacture thereof characterised by a particular use or purpose
    • B42D25/23Identity cards
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B42BOOKBINDING; ALBUMS; FILES; SPECIAL PRINTED MATTER
    • B42DBOOKS; BOOK COVERS; LOOSE LEAVES; PRINTED MATTER CHARACTERISED BY IDENTIFICATION OR SECURITY FEATURES; PRINTED MATTER OF SPECIAL FORMAT OR STYLE NOT OTHERWISE PROVIDED FOR; DEVICES FOR USE THEREWITH AND NOT OTHERWISE PROVIDED FOR; MOVABLE-STRIP WRITING OR READING APPARATUS
    • B42D25/00Information-bearing cards or sheet-like structures characterised by identification or security features; Manufacture thereof
    • B42D25/30Identification or security features, e.g. for preventing forgery
    • B42D25/309Photographs
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B42BOOKBINDING; ALBUMS; FILES; SPECIAL PRINTED MATTER
    • B42DBOOKS; BOOK COVERS; LOOSE LEAVES; PRINTED MATTER CHARACTERISED BY IDENTIFICATION OR SECURITY FEATURES; PRINTED MATTER OF SPECIAL FORMAT OR STYLE NOT OTHERWISE PROVIDED FOR; DEVICES FOR USE THEREWITH AND NOT OTHERWISE PROVIDED FOR; MOVABLE-STRIP WRITING OR READING APPARATUS
    • B42D25/00Information-bearing cards or sheet-like structures characterised by identification or security features; Manufacture thereof
    • B42D25/30Identification or security features, e.g. for preventing forgery
    • B42D25/328Diffraction gratings; Holograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/245Font recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/09Recognition of logos

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Credit Cards Or The Like (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

本人確認文書及び他の文書の認証/検証に関するシステム及び方法。このような文書は、身分証明カード、運転免許証、パスポート、登録又は証明の証拠を示すために使用されている文書、投票者の投票用紙、データ入力フォーム等を含み得る。認証又は検証処理は、セキュリティ機能の実施を支援するために、情報へのアクセスを制御し、且つ、会場、輸送の方法、又はサービスへのアクセス及び/又はそれらの使用を制御する目的で実行されて、政府が提供するサービス又は利益等に対する有資格性を確立することと、当該サービス又は利益等の提供を可能にすることと、を行い得る。この認証又は検証処理は、加えて又はその代わりに、文書自体が真正であると検証する目的で実行されてもよく、それによって、当該文書が含む情報は、正確であって信頼できると確信的に想定され得る。

Description

発明の詳細な説明
[関連出願の相互参照]
この出願は、2019年10月29日に出願され、“System and Methods for Authentication of Identification Documents”と題された米国仮出願第62/927,322号の利益を主張し、参照により、(付録を含む)その開示全体が援用される。
また、この出願は、2020年9月15日に出願され、“System and Methods for Authentication of Documents”と題された米国仮出願第63/078,507号の利益も主張し、参照により、(付録を含む)その開示全体が援用される。
[背景]
文書は、サービス、会場、輸送機関、情報、又は、他の利益若しくは特権に個人がアクセスし得るように個人を識別する目的を含む、多くの目的で使用されている。また、文書は、サービスへの登録、投票、個人情報の提出、学問課程の修了の確認等を個人が行うことを可能にするためにも使用され得る。これらの用途のうちの多くにとっては、適正に認証/検証された文書に基づいて適正に識別された個人のみにアクセスが提供されることが重要である。他の用途にとっては、文書自体が真正であると確認され、それにより、当該文書が含む情報が、正確であって信頼できると確信的に想定できることが重要である。その結果、文書の確認に使用される認証処理の、正確度及び拡張性が非常に重要である。
識別文書及び他の種類の文書の認証又は検証を実行する従来のアプローチが存在しているものの、このようなアプローチは、1つ以上の著しく不利な点を有している。著しく不利な点には、分類若しくは認証処理にヒューマンエラーが入ってしまうこと、及び/又は、自動化若しくは半自動化された処理によりもたらされた分類の決定についての要因若しくは理由の識別に限界があること、が含まれる。
文書を認証又は検証する従来のアプローチは、1つ以上の不利な点に煩わされている。よって、これらの機能をより効率的に且つ正確に実行するためのシステムおよび方法が必要とされている。この発明の実施形態は、これら及び他の問題を個別且つ一括して解決することに関する。
[概要]
本明細書で使用されるような、「発明」、「その発明」、「この発明」、「本発明」、「本開示」、又は「その開示」という用語は、この書類、図面又は図に記載された主題の全てと、請求項と、を広く指すことを意図している。これらの用語を含んでいる記載は、本明細書に記載された主題を限定しないもの、又は、請求項の意味若しくは範囲を限定しないもの、と理解されるべきである。この特許に網羅されたこの発明の実施形態は、この概要によってではなく、請求項によって定義される。この概要は、この発明の様々な態様の上位の大要であり、以下の詳細な説明の欄においてさらに記載された概念のうちのいくつかを紹介している。この概要は、請求された主題の、鍵となる、必須の又は必要な特徴を識別することを意図しておらず、また、請求された主題の範囲を決定するために単独で使用されることも意図していない。この主題は、この特許の明細書全体の適切な部分と、図又は図面のいずれか又は全てと、各請求項と、を参照することによって理解されるべきである。
本明細書に記載されたシステム及び方法の実施形態は、本人確認文書又は他の文書の認証/検証に関する。このような文書には、身分証明カード、運転免許証、パスポート、登録又は認可の証明を示すために使用されている文書、投票者の投票用紙、データ入力フォーム等が含まれ得る。認証又は検証処理は、セキュリティ機能の実行を支援するために、情報へのアクセスを制御し、且つ、会場、輸送の方法、又はサービスへのアクセス及び/又はそれらの使用を制御する、目的で実行されて、政府が提供するサービス又は利益等に対する有資格性を確立することと、当該サービス又は利益等の提供を可能にすることと、を行い得る。この認証又は検証処理は、加えて又はその代わりに、文書自体が真正であると確認する目的で実行されて、それにより、当該文書が含む情報が、正確であって信頼できると確信的に想定できるようになり得る。別の例として、本明細書に記載された画像及びテキストの処理は、ロボティック・プロセス・オートメーション作業と共に使用され得り、当該作業は、現在のコンピュータ画面の理解に依存しており、ユーザの活動を推論するように動作する。
いくつかの実施形態において、本明細書に記載されたシステム及び方法は、画像処理機能とテキスト処理機能との集合、又は画像処理機能とテキスト処理能力との集合の一方又は両方を使用して、対象文書の真正性を確認する。画像処理機能は、テンプレート又は代表的な文書のカテゴリ又は種類を決定することと、(必要な場合に)変換を決定して、対象文書の画像を、テンプレート内の歪みのない標準的な画像に、より良好に「位置合わせする」ことと、対象文書の特定のデータ又は要素を抽出することと、抽出されたデータ又は要素を、既知の正当なデータ又は要素と比較することと、を含む。テキスト処理機能は、対象文書の画像から、1つ以上の英数字テキスト文字を抽出することと、当該1つ以上の文字の(フォントの種類、サイズ、間隔/カーニング、太字か、イタリック体か、下線付きか、等といった)1つ以上の特性を決定することと、決定された特性を、対象文書に関連付けられていると確信された文書種類のテンプレートに含まれた既知の正当な特性と比較することと、を含む。
いくつかの実施形態において、この開示は、文書を認証するためのシステムに関しており、当該システムは、実行可能な命令の集合でプログラムされた電子プロセッサを含み、当該命令が当該電子プロセッサで実行されると、当該命令によって、当該システムが、
対象文書の画像を受信することと、
当該対象文書の1つ以上の不変の属性を識別することであって、不変の属性は、ラベル、タイトル、ヘッダ、フィールド名、ロゴ、ホログラム、透かし、又は、印影のうちの1つ以上である、当該対象文書の1つ以上の不変の属性を識別することと、
文書テンプレートの集合にアクセスすることであって、各テンプレートは、文書の種類の例を表現し、文書の各種類に関連付けられた不変の属性の集合に関する情報を含んでいる、文書テンプレートの集合にアクセスすることと、
当該対象文書の当該識別された不変の属性を、テンプレートの当該集合の文書の各種類に関連付けられた当該不変の属性と比較することにより、当該対象文書の種類の文書を表している文書テンプレートの当該集合内のテンプレートを識別することと、
当該識別されたテンプレートに関連付けられたデータにアクセスすることであって、当該アクセスされたデータは、当該識別されたテンプレートの不変の属性に関連付けられたフォント種類に関するデータと、当該識別されたテンプレートの不変の属性に関連付けられたフォント特性に関するデータと、当該識別されたテンプレートの不変の属性に関連付けられたフィールド内に入力された情報についてのデータフォーマットとのうちの1つ以上を含む、当該識別されたテンプレートに関連付けられたデータにアクセスすることと、
当該対象文書の当該不変の属性のうちの1つ以上のフォント又はフォント特性を、当該識別されたテンプレートの不変の属性に関連付けられたフォント又はフォント特性に関する当該データと比較することにより、当該識別されたテンプレートが、当該対象文書に充分に近似する合致であることを検証することと、
当該識別されたテンプレートが、当該対象文書に充分に近似する合致であれば、追加的な処理のために、当該対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することであって、当該追加的な処理は、当該識別されたデータを、当該識別されたテンプレートに関連付けられた、当該アクセスされたデータと比較することを含み、さらに、当該追加的な処理は、
文書の変更又は改竄の可能性のある事例を識別する不正検出処理と、
不変の属性及び当該識別されたデータが、当該識別されたテンプレートにより表された、文書の当該種類についての予期されたフォーマットであるのかを決定するフォーマットチェックと、
当該識別されたデータが、当該識別されたテンプレートにより表された、文書の当該種類についての予期されたフォント種類及びフォント特性であるのかを決定するフォント検証処理と、
適用可能であれば、外部のデータベースにアクセスして、当該識別されたデータの1つ以上の正当性を確認することと、
のうちの1つ以上を含む、追加的な処理のために、当該対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することと、
当該対象文書が正当であると当該追加的な処理が示すのであれば、当該対象文書及び当該対象文書が含む当該情報が正当であるという表示を生成することと、
を行う。
本発明の他の目的及び利点は、本発明の詳細な説明及び含まれた図を精査すれば、当業者にとって明らかになるであろう。
本開示に従ったこの発明の実施形態を以下の図面を参照しながら説明する。
本明細書に記載された認証/検証処理の対象であり得る例示的な文書を例示している図であって、当該文書の或る例示的な特徴又は局面の表示を有し、いくつかの実施形態に従った図である。
文書を認証/検証するための例示的な処理、動作、方法、又は機能を例示しているフローチャート又はフロー図であって、本明細書に記載されたシステム及び方法のいくつかの実施形態に従った図である。
文書を認証/検証するための例示的な処理、動作、方法、又は機能を例示している第2のフローチャート又はフロー図であって、本明細書に記載されたシステム及び方法のいくつかの実施形態に従った図である。
認証/検証の処理、方法、機能、又は動作の一部として文書の画像に適用され得る(それぞれがホモグラフィ、アフィン、及び回転である)3つの例示的な変換を例示している図であって、いくつかの実施形態に従った図である。
文書を認証/検証するための例示的なワークフロー又はシステムの主要な機能要素又はコンポーネントを例示しているブロック図であって、いくつかの実施形態に従ったブロック図である。
対象文書の画像に適用され得る変換を推定するための例示的な処理、動作、方法、又は機能を例示しているフローチャート又はフロー図であって、本明細書に記載されたシステム及び方法のいくつかの実施形態に従ったフローチャート又はフロー図である。
変換された画像内の点のサンプリングに基づいて、可能性のあるテンプレートを基準として、対象文書についての確信度スコアを生成するための例示的な処理、動作、方法、又は機能を例示しているフローチャート又はフロー図であって、本明細書に記載されたシステム及び方法のいくつかの実施形態に従ったフローチャート又はフロー図である。
抽出された文書属性の正確度の確信度レベルを表している「ヒート」マップの一例を例示している図であって、本明細書に記載されたシステム及び方法の一実施形態による処理を施した文書の領域の、検証正確度の視覚的表示を提供する「ヒート」マップの一例を例示している図である。
同じ州からの2つの本人確認文書を例示しており、どのようにこれらの文書が異なるフォントを使用し得るのかと、どのように単一の文書が異なる属性について異なるフォントを使用し得るのかと、を示している。
この発明の一実施形態に従った方法、処理、機能、又は動作を実装するように構成されたコンピュータデバイス又はシステム内に存在し得る要素又はコンポーネントを例示している図である。
本明細書に記載されたシステム及び方法の一実施形態を実装するのに使用され得るマルチテナントプラットフォーム又はSaaSプラットフォームについてのアーキテクチャを例示している図である。 本明細書に記載されたシステム及び方法の一実施形態を実装するのに使用され得るマルチテナントプラットフォーム又はSaaSプラットフォームについてのアーキテクチャを例示している図である。 本明細書に記載されたシステム及び方法の一実施形態を実装するのに使用され得るマルチテナントプラットフォーム又はSaaSプラットフォームについてのアーキテクチャを例示している図である。
同様のコンポーネント及び特徴を参照するのに、この開示及び図の全体にわたって同じ番号が使用されていることに留意されたい。
[詳細な説明]
本明細書では、本開示の実施形態の主題を、法定上の要件を満たすように特定して説明しているが、この説明は、請求の範囲を限定することを意図していない。請求された主題は、他の方式で具現化されてもよく、異なる要素又はステップを含んでいてもよく、他の既存の又は後に開発された技術と共に使用されてもよい。この説明は、複数の様々なステップ又は要素間における、必要とされるあらゆる順序又は配列を示唆していると解釈されるべきではないが、個々のステップの順序又は複数の要素の配列が必要とされていることが明示的に言及されている場合は、この限りではない。
添付の図面を参照しながら本発明の実施形態を本明細書においてより充分に説明するが、添付の図面は、本発明の一部を成しており、且つ、本発明が実施され得る例示的な実施形態を例示のために示している。しかしながら、この発明は、異なる形で具現化されてもよく、本明細書に記載された実施形態を限定するものと解釈されるべきではなく、むしろ、これらの実施形態が提供されることによって、この開示は、法定上の要件を満たすことになり、当業者にこの発明の範囲を伝えることになる。
数ある中でも、本発明の全体又はその一部は、システムとして、1つ以上の方法として、又は、1つ以上のデバイスとして、実施されてもよい。この発明の実施形態は、ハードウェアで実装された実施形態、ソフトウェアで実装された実施形態、又は、ソフトウェア及びハードウェアの局面を組み合わせている実施形態、の形態を取り得る。例えば、いくつかの実施形態において、本明細書に記載された動作、機能、プロセス、又は方法のうちの1つ以上は、クライアントデバイス、サーバ、ネットワーク要素、(SaaSプラットフォームといった)遠隔プラットフォーム、「クラウド内」サービス、又は、他の形態のコンピューティング若しくはデータ処理システム、デバイス、若しくはプラットフォーム、の一部である、(プロセッサ、マイクロプロセッサ、CPU、GPU、TPU、コントローラ等といった)1つ以上の好適な処理要素により実装されてもよい。
1つ以上の処理要素は、実行可能な命令(例えば、ソフトウェア命令)の集合でプログラムされてもよく、当該命令は、好適であって非一時的なデータストレージ要素上に(又は内に)格納されてもよい。いくつかの実施形態において、本明細書に記載された動作、機能、処理、又は方法のうちの1つ以上は、プログラマブルゲートアレイ、又は特定用途向け集積回路(ASIC)等といった、特化された形態のハードウェアにより実装されてもよい。この発明の方法の一実施形態は、アプリケーション、より大きなアプリケーションの一部であるサブルーチン、「プラグイン」、データ処理システム若しくはプラットフォームの機能性の拡張、の形態で、又は、任意の他の好適な形態で、実装されてもよいことに留意されたい。したがって、以下の詳細な説明は、限定の意味合いで理解されるべきではない。
本明細書に記載されたシステム及び方法の実施形態は、本人確認文書及び他の文書の認証/検証に関する。このような文書には、身分証明カード、運転免許証、パスポート、教育的な証明書、修了証書、銀行預金残高証明書、住所証明書類、出生証明書、請求明細書、保険カード、デジタル身分証明及び電子国民身分証明の文書、専門職のための課程又は免許取得プログラムを修了したことの登録又は認定の証明を示すのに使用されている文書、或いは、投票者登録フォーム又は投票用紙が含まれてもよい(が、これらに限定されない)。本明細書に記載された文書認証処理は、国及び言語に依存せず、種々の異なる属性を有する文書に適用することができ、異なる属性には、画像、デジタルハッシュ、テキスト、及びホログラムが含まれるが、これらに限定されず、又は、これらを含むことが必要とされない。記載された認証又は検証処理は、(排他的にではないけれども)典型的に、セキュリティ機能の実行を支援するために、情報へのアクセスを制御し、且つ、会場、輸送の方法、又はサービスへのアクセス及び/又はそれらの使用を制御する、目的で実行されて、政府が提供するサービス若しくは利益に対する有資格性を確立することと、当該サービス若しくは利益の提供を可能にすることと、を行うか、又は、文書に含まれた情報の信頼度を決定する。
文書検証を行う多くの従来のアプローチは、ある程度の、文書要素の手動検証を伴う(典型的に、このような要素の数は限られる)。これらの要素には、ロゴや、名前、生年月日、住所、ホログラム、署名等といったフィールド、が含まれ得る。また、手作業(人間)の検証は、文書が何らかの方式、形状、又は形式において変更されているのかを決定するのを試みることにより、不正の試み又はシナリオの特定の事例をチェックし得る。
しかしながら、文書認証を行うこのような手作業のアプローチは、以下のものを含む、1つ以上の著しい不都合を被っている。
●人間は、詳細を見逃す傾向があり、いくつかの種類の文書変更は、一目で識別可能ではないことがある。
●同じ種類の情報の処理を繰り返すことが、精神的疲労を生じさせ、文書を正しく識別及び検証する各自の能力に極度の影響を及ぼし得る。
●人間は、文書の真正性の検証に関わるルールの変化と、異なるユースケースに必要な検証のレベルと、により混乱し得る。
●この種類の手作業精査処理は、文書の数が増大するのに伴い、又は、比較的高いスループット要求があるとき、規模を調整することが難しい。
●手作業処理は、文書を正当であるか、それとも不当であるかについて、各自が合意しないことがあるため、一貫性を欠く。
文書検証を行う他のアプローチは、ある程度の自動化又は半自動化を含んでもよく、典型的に、文書種類又はクラスを識別し、認証を試みる、分類子の使用を伴い得る。いくつかの場合において、これらのアプローチは、検出モデルを使用して、入力画像から文書を検出し得る。
しかしながら、文書認証を行う手作業のアプローチと同様に、自動化されたもの又は半自動化されたものも、以下のものを含む、1つ以上の著しい不都合を被っている。
●検出器は、典型的に、エッジ境界に依存して、カード又は文書の、切り取られたバージョンを生成しており、エッジ境界において、検出されたエッジは、排除、改竄、折り畳み等に依存して変化し得る。ほとんどの場合では、検出出力の他に改良は行われず、これにより、検出エラーが後の検証ステージに波及する。
●分類器は、カード又は文書がどのクラス/種類に属しているのかを見分けることは比較的得意であるものの、文書の実際の検証に重要であり得るニュアンスのうちの或る特定のものの検出にはvas効果的ではない。その結果、このような分類器は、典型的に、文書レベルにおいてのみ使用され、フィールドレベルにおいては使用されない(即ち、分類器は、文書内に含まれた特定の情報の検出及び/又は検証には使用されない)。
●分類器は文書レベルにおいて使用されるため、各フィールドベースでの集計は行われない。特定の文書が正当であるか又は偽であると分類されたときに、1つ以上のどのフィールドがこの決定に寄与したのか、及び、各々が最終的な決定又は分類にどの程度寄与したのか、を見分ける術がない。これは問題となる虞があるが、その理由は、これにより、分類の根拠を絞り込み、必要な場合に当該根拠をより綿密に考察し、特定のフィールドが最終的な分類にどれほど寄与したかを理解する、能力が妨げられるためである。
○例えば、特定のフィールド値が、文書を真正である又は真正ではないと分類する際の主要因子であり、当該フィールド値が誤解されていたか、又は、より低い関連性を有していたと後に決定された場合、どの文書分類を再評価すべきかを決定できない虞がある。
●文書レベル分類は、検証に使用されるルールに対する変化の簡便な実装を見込んでおらず、当該ルールは、ユースケースに依存し得る。検証ルールを修正する処理は、ルールの新たな集合のために調節された新たなモデルの訓練を伴うことが多い。つまり、このことは時間がかかる虞があり、多数のデータ集合と、人間による入力と、の提供が、監視された学習処理の一部とされる。
●文書の特定の集合について訓練された分類器は、訓練文書のその集合の特徴及び構造又は配列に偏っている。また、当該分類器は、特に、著しい量の訓練データを利用可能ではない場合、文書のより新たな又はより変化した集合に合わせてスケール変更することがより難しい。そして、
●いくつかのアプローチは、テキスト抽出用の(MRZ又はPDF417といった)バーコードのスキャンに依拠している。しかし、MRZコード又はPDF417コードは、内容が与えられると容易に生成される可能性があり、それ故に、詐称が比較的簡単であり、不正であるとの検出が本質的に不可能である。
文書の認証及び/又は検証と、後に続く、個人の身元又は文書の内容の検証と、のための、堅牢であって効果的なシステム(即ち、他の特性の中でも、正確であり、高信頼であり、拡張性のあるもの)は、典型的に、いくつかの主要な機能又は動作を含む。いくつかの実施形態において、これらには、以下のものが含まれる。
●情報の識別/抽出
○所与の(文書の画像といった)サンプルから、文書内に存在するグラフィック要素及びテキスト要素の集合を取得する。これらの要素には、文書種類、バージョン、名前、住所、署名、顔、スタンプ、印影、生年月日、又は、当該文書の一部であるかもしれなくて、且つ、当該文書の正当性の証として評価することが可能な、他のデータが含まれ得る。
●抽出された情報及びデータの、デジタル化及び(必要な場合に)フィルタリング又は処理
●文書の検証/認証
○文書のサンプル(スキャン画像又は当初の画像)が与えられると、当該サンプル内で表されている文書の真正性を検証する。つまり、当該文書が、対応するソース文書を有していて変更されていないことを確認する。
図1(a)は、いくつかの実施形態に従った、本明細書に記載された認証/検証処理の対象であり得る例示的な文書100を例示する図であり、当該文書の或る特定の例示的な特徴又は局面の表示を有する、図である。真正性について考察されているこの文書(本明細書において対象文書と称する)は、画像として提供されている。この画像は、写真、スキャン、OCR、又は他の好適な処理のうちの1つ以上によって取得され得る。この図に示されるように、文書は、ロゴ102、写真又は同様の画像104、「透かし」のような他の特定の形態のホログラムまたはマーカー106、欧数字文字を含む1つ以上のデータフィールド108(図中、ヘッダ、フィールド1、及びフィールド2として識別される)、並びに、追加的なテキスト110、といった要素又は特徴を含んでもよい。
データフィールドのうちの1つ以上は、ラベル、タイトル、又は、他の形態の表示子によって識別されてもよく、且つ、フィールド内に挿入された値又はテキストを有してもよいことに留意されたい。さらに、図1(a)に示す「画像」が歪みのないものとして例示されているが、対象文書の実際の画像に、スキュー、回転、歪み等が生じ得ることに留意されたい。以下に記載するように、いくつかの実施形態では、記載された処理が、対象文書の画像を「補正する」変換を決定し、次に適用して、当該画像の、より高信頼な処理及び評価を可能にすること、を含んでもよい。
図1(a)は、或る特定の属性又は特性(ロゴ、ホログラム等)を有する文書の一例を例示しているが、本明細書に記載されたシステム及び方法の一実施形態を使用して処理及び認証又は検証が行われ得る文書は、この例の特性を有するものに限定されない。記載されたシステム及び方法は、特性又は属性の特定の集合を有する文書の処理に限定されず、それ自体について、高信頼のテンプレート又は例が利用可能であるか、或いは、高信頼のテンプレート又は例を生成することが可能な、あらゆる文書に適用され得る。
図1(b)は、本明細書に記載されたシステム及び方法のいくつかの実施形態に従った、文書を認証/検証するための例示的な処理、動作、方法、又は機能120を例示するフローチャート又はフロー図である。高いレベルでは、対象文書の処理及び認証は、以下のステップ、ステージ、機能、方法、又は動作のうちの1つ以上を伴う。
●対象文書の画像の受信又は当該画像へのアクセスを行うこと(ステップ又はステージ121)。
●対象文書の不変の属性を識別及び/又は抽出すること(ステップ122)。
○「候補テンプレートを特定する」ステップ123により示唆されるように、不変の属性に基づいて、対象文書を含む、(州Aからの運転免許証、州Bからの識別カード、国Cが発行したパスポート、大学Dからの卒業証書、等といった)文書のクラス又は種類を表している可能性のある1つ以上の文書テンプレートを識別すること。ステップ123は、いくつかの実施形態において、以下のものを含む。
■文書テンプレートの集合と、各テンプレートに関連付けられた不変の属性を記述するデータと、にアクセスすること。そして、
■不変の属性に基づいて、対象文書に「合致する」、最も可能性の高い文書テンプレートを決定すること。
●「対象文書に『最も良く』合致するテンプレートを決定する」ステップ124により示唆されるように、対象文書を表している、最も可能性の高いテンプレート(又は「最良の」テンプレート)を決定すること。これは、対象文書の不変の属性の集合と、対象文書のクラス又は種類を表し得るテンプレートの各々の属性の集合と、の間の合致の近似性を反映するスコア又は他のメトリックの生成等により行われ、ステップ124は、いくつかの実施形態において、以下のものを含む。
○不変の属性の比較及び/又はフォント解析に基づいて、最も可能性の高い正しいテンプレートを決定すること。
○(対象文書と同じ種類の文書を表している可能性がある)最も可能性の高いテンプレートの各々について、対象文書の画像を、テンプレートにより表された文書の標準的な形式(つまり、スキュー又は歪みが生じてないもの)に変換する画像変換を(必要な場合に)決定すること。そして、
○対象文書の変換された例及び標準的な形式、不変の属性、並びに/又は、フォント解析に基づいて、どのテンプレートが、対象文書に対する最良の合致であるのかを決定/確認すること。
■例えば、対象文書の変換された画像の不変の属性と、各テンプレートに関連付けられた不変の属性と、の評価に基づいて、対象文書を表している、最も可能性の高いテンプレート又は文書種類(即ち、テンプレートの集合と対象文書との間での「最良の」合致)を識別すること。
●(まだ実行されていない場合に)ステップ125により示唆されるように、最も良く合致しているテンプレートについて、対象文書の不変の属性及び/又は内容についての、フォント、フォーマット、又は他の要件について記述しているデータにアクセスすること。
〇データファイル又はメタデータは、例えば、不変の属性についてのフォント種類及び特性、対象文書内に入力された(名前、生年月日、シリアル番号等といった)情報についてのデータフォーマット、を含んでもよい。
●選択されたテンプレートと対象文書との間の、フォント検証処理といったテキスト解析を実行して、対象文書が、テンプレートにより表された文書種類の正当な例であることを確認すること。このことは、ステップ126により示唆されるように、(まだ実行されていない場合に)テンプレート内の不変の属性と対象文書内の不変の属性との間で、フォント、フォーマット、又は他の要件を比較するように働く。
○このことが、対象文書内の内容又は個人情報を確認しておらず、例えば、対象文書内のフィールド名又はラベルに関連付けられたテキストを、テンプレートにより表された、文書の種類内のフィールド名又はラベルの要件又は予期された特性と比較することにより、対象文書がテンプレート文書の正当な例であることのみを確認していることに留意されたい。
●ステップ127により示唆されるように、対象文書からデータ又は画像を識別及び/抽出して、文書内容(即ち、正しいフォント及びフォーマットである特定の生年月日といった、入力された情報)について、テンプレートの属性及び要件と比較すること。
●「さらなる認証/検証処理を実行する」ステップ128により示唆されるように、対象文書のデータ及び/又は画像に対して追加的な処理を実行して、(発行されたパスポート番号の外部のデータベースの参照等により)対象文書における、不正の試みの検出、情報の確認等を行うこと。ステップ128は、いくつかの実施形態において、以下のものを含む。
○適用可能である場合、外部のデータベースにアクセスして、対象文書内の内容の真正性を検証すること。そして、
○不正の及び/又は他の、チェック又は評価を実行すること。
●ステップ129により示唆されるように、不変の属性及び内容の検討に基づいて、対象文書の1つ以上の(不変の又はそれ以外の態様の)属性の、真正性の確信度のレベルを示すスコア及び/又はヒートマップといった、対象文書の真正性の評価を生成すること。
○スコアが閾値を超えている場合、対象文書及び当該対象文書が含む情報を、正当であると受け入れること。そして、
○スコアが閾値を超えていない場合、他の属性を検討し、画像変換を再推定し、又は、対象文書の他の精査を実行すること。
図1(c)は、本明細書に記載されたシステム及び方法のいくつかの実施形態に従った、文書を認証/検証するための例示的な処理、動作、方法、又は機能130を例示する第2のフローチャート又はフロー図である。これらの処理のステップ又はステージは、以下のように、さらに詳細に記載され得る。
●(ステップ又はステージ132により示唆されるように)対象文書の画像の受信又は当該画像へのアクセスを行うこと。
○例として、画像は、写真であってもよいし、スキャンであってもよいし、又は、OCRプロセスの使用により生成されてもよい。
●対象文書の画像を処理して、対象文書の1つ以上の不変の属性を識別及び抽出すること(ステップ又はステージ133)。
○不変の属性は、画像にスキュー又は歪みが生じている場合でさえも確信的に認識することが可能な、ラベル、タイトル、ヘッダ、フィールド名、ロゴ、ホログラム、印影、又は同様の特徴を含んでもよく、当該文書を所持している個人に特有の(フィールド内に挿入されたデータ、生年月日、住所等といった)情報又はデータを表していない。
●対象文書を含み得る文書のクラス、カテゴリ、又は種類を表す1つ以上の文書テンプレートの識別を、対象文書の、識別/抽出された不変の属性と、1つ以上のテンプレートに関連付けられた不変の属性と、の間の充分な類似度又は合致に基づいて行うこと(ステップ又はステージ134)。
○このことは、抽出された不変の属性の集合を含むか、又は当該集合に関連付けられた、1つ以上のテンプレートについて比較又は探索を実行することと、合致するか又は実質的に類似する属性の数を評価することと、その後、1つ以上のどのテンプレートが、対象文書を表している可能性が最も高いかについての決定を生成することと、を含んでもよい(ステップ又はステージ135)。
■合致するか又は実質的に類似する潜在的なテンプレートが2つ以上存在する(か、又は存在しない)場合、他の属性が考察されてもよく(ステップ又はステージ136)、或いは、(不変の属性を、より正確に識別及び抽出するために、画像を変更し得る)画像変換ステップ又はステージの後に、テンプレート選択が実行されてもよい。
●(必要な場合に)対象文書の画像を、対応するテンプレートの識別、可能性のあるテンプレートの確認、及び/又は、さらなる処理、のために、より好適な形式に変換する変換を決定/推定すること(ステップ又はステージ137)。
○可能性のある変換の例には、ホモグラフィ、アフィン、及び回転が含まれるが、これらに限定されない。
■変換の正確度又は充足性は、変換された画像を1つ以上の文書テンプレートと比較して、適切な変換の決定を支援する、サンプリングプロセスによって評価することができ、当該適切な変換は、高信頼に処理することが可能な、対象文書の画像を製作するため、並びに/或いは、対象文書の適切なテンプレートを、及びそれ故に、文書の種類又はカテゴリを、決定するため、に使用されるものである(使用され得るサンプリング及び評価プロセスの一例については、図2(b)を参照して説明する)。
●特定/推定された変換を、対象文書の画像に適用すること(ステップ又はステージ138)。
○フォント検証処理を実行して、対象文書内に存在する不変の属性のフォント及びフォント特性が、1つ以上のテンプレートとの比較に基づいて予期されたものに合致するか否かを決定すること(ステップ又はステージ139)。つまり、このことは、テンプレートの不変の属性についてのフォントタイプ及び特性に関する情報を提供する、1つ以上のテンプレートに関連付けられたファイル又はメタデータにアクセスすることを伴い得る。
■処理のこのステージでは、フォント検証が、正しいか、又は正しい可能性が最も高いテンプレートの選択を支援するために使用され得ることに留意されたい。つまり、処理の他のステージでは、フォント検証が、文書内のテキスト又は数字に対する、可能性のある変更を検出するために使用されてもよい。
○変換と、抽出された不変の属性と、に基づいて、識別された属性及び/又は文書種類の確信度レベル又は正確度を反映するスコア又はメトリック(即ち、合致の測度、又は、テンプレートへの合致の近似性)を生成すること。
○生成されたスコアが閾値又は確信度レベルを(典型的には上回ることによって)満たしているのかを決定すること。
■生成されたスコアが閾値又は確信度レベルを満たしている場合、対象文書を特定の文書種類、カテゴリ、又はクラスとして分類すること(ステップ又はステージ140)。
■生成されたスコアが閾値を満たしていない場合、追加的な不変の属性のうちの1つ以上か、個人による対象文書の検査か、又は、正しい文書種類を特定する、異なる方法体系の使用、を使用して、対象文書を再評価(再スコアリング)すること。
●対象文書のクラス又は種類を最も良く表していると決定されたテンプレートに関連付けられた情報の、ファイル、メタデータ、又は他の形式にアクセスすること。
●さらなる比較及び認証又は検証処理で使用するために、対象文書画像から、1つ以上のフィールド、データ、内容、画像、又は他の要素を識別/抽出すること。
○いくつかの実施形態において、対象文書から識別/抽出されたデータは、名前又は生年月日といった、不変の属性に関連付けられたフィールド内に含まれたデータ又は情報を表してもよい。(ステップ又はステージ141)。
●対象文書から識別/抽出されたデータに対し、さらなる処理のステップ又はステージを実行して、当該データの、予期されたフォーマットとの比較を可能にすること(例えば、年月日、ID番号、住所等についての内容フォーマットチェック)。ここで、そのフォーマットは、決定されたテンプレートに関連付けられた情報のファイル、メタデータ、又は他の形、により定義されてもよい(ステップ又はステージ142)。
○内容フォーマットチェックに加えて(又はその代わりに)実行され得る他の処理ステップは、以下のものを含む。
■対象文書が、その属性及び/又は内容の各々について、適切なフォント種類、フォントサイズ、及びフォントスタイルを含んでいるか否かを評価する、フォント検証(143)。
■文書の、可能性のある改竄又は変更を識別する、不正検出チェック(144)。
○いくつかの場合において、識別/抽出されたデータは、利用可能な外部のデータソースとの比較を可能にするために、及び、外部のデータベース又はデータソース(このようなソースには、発行された免許証又はパスポートについての政府データベース、偽IDデータベース、組織のメンバーのデータベース等が含まれ得る)を用いて或る特定のデータを検証するために、標準的なフォーマットに変換又は統合されてもよい。
■外部のデータベースを用いた、対象文書内の特定の情報の、この検証(又は、検証が不可能であること)は、対象文書のものであると確信される種類の文書が、当該対象文書上に名前、住所、生年月日、及び/又は画像が示されている個人に対して発行されたのか否かの決定を支援し得る。
●例えば、認証処理のこのステップは、文書自体が本物であるように見えても、当該文書上の情報が、高信頼ではないと、又は、誰か他の人の名前若しくは生年月日に変更されていると、決定してもよい。
●評価のスコア、メトリック、又は、(ヒートマップといった)他の形式を生成して、対象文書の1つ以上の属性、データ、又は内容の認証又は検証の、確信度又は正確度のレベルを示すこと(ステップ又はステージ145)。
○生成されたスコア又はヒートマップが文書の真正性の充分な信頼度又は確信度を示す場合、文書が開示する事物の目的のために、及び、対象文書を提示している個人を識別するために、対象文書及び当該対象文書が含む情報を、正確なものとして受け入れること(ステップ又はステージ146)。
○生成されたスコアが所望の閾値レベル若しくは確信度値を満たしていない場合、又は、ヒートマップが望ましい確信度レベルよりも低い確信度レベルを示す場合、最も可能性の高いテンプレートに特有の、より多くの属性(これが識別されている場合に)を用いて再スコアリングを行うことと、画像変換推定ステップ(ステップ又はステージ137)を、以降(ステップ又はステージ147)に向けて実行することにより、処理を反復すること。
■スコア又は評価が、それでもなお閾値を満たすことができない場合、文書を拒否し、おそらくは、人間の介入と、他の形態の解析又は評価と、を必要とすること。
フォント検証について論述したときに述べたように、いくつかの実施形態では、文書の欧数字要素の処理が、単独で又は画像処理と組み合わせて実行されてもよい。フォント検証処理は、記載された処理ステップ(不正検出、内容フォーマットチェック等)のうちの或る特定のものの一部として、又はその代わりに、実行されてもよい。フォント検証は、特に、正当な文書が、(特定のラベル若しくはフィールド名について、又は、入力された年月日若しくは識別番号等について、といった)文書の属性又は内容について、特定のフォント、フォントサイズ、フォントスタイル等を有することが予期される場合に、変更又は偽造された文書の識別を助けるために使用することができる。述べたように、フォント検証は、対象文書と或る文書種類の不変の属性との間の比較において使用することができる追加的な情報を提供することにより、対象文書を表す、最も可能性の高いテンプレートの識別を支援するためにも使用することができる。
いくつかの実施形態において、その真正性が決定されるべき文書は、典型的に、個人又はデータストレージ要素から、受信又はアクセスされる。必要な場合に、個人は、文書の画像を、カメラ、スキャナ、又は同様のデバイスを使用して提供してもよい。文書の不変の属性の集合は、識別及び抽出される。いくつかの実施形態では、不変の属性は、文書の或るクラス又はカテゴリにおいて見出され、且つ、そのクラス内の全文書の一部である、特性又はデータ(例えば、名前、署名、DOBといった語や、ロゴや、ホログラムや、フィールドラベル等)を指す。例えば、これらは、文書上のフィールド名、ラベル、タイトル、見出し等であってもよい。また、これらは、画像にスキュー又は僅かな歪みが生じている場合でさえも、充分な正確度及び信頼度で識別され得ることが多い、属性又は特性でもある。
抽出された不変の属性は、テンプレートの集合についての属性に照らして比較され、各テンプレートは、文書の(州Aにより発行された運転免許証、国Bからのパスポート等といった)種類又はクラスを表している。このことは、典型的に、処理されている対象文書に対応し得る1つ以上のテンプレートを決定するために、不変の属性の初期集合が使用されることを意味する。ほとんどの場合において、不変の属性の小さな集合は、当該集合について、当該不変の属性の識別に関する比較的高レベルの確信度が存在しており、それら属性を含む1つ以上のテンプレートを見出すために使用される。属性の当該集合が、2つ以上のテンプレート内に含まれたものに合致する場合、1つ又は小さな集合の候補テンプレートが識別されるまで、他の属性が抽出されてもよい。対象文書からの属性をテンプレートと比較する各ステージでは、対象文書と1つ以上のテンプレートとの間の類似度のメトリック又は測度が、属性の集合に基づいて生成されてもよく、このメトリック又は測度を評価して、この処理が、特定のテンプレートを、対象文書が属している種類又はカテゴリを表す正しい(又は「最良の」)ものとして受け入れるのかを決定する。
いくつかの実施形態では、テンプレートの各属性は、確信度のレベル又はメトリックに関連付けられている。これにより、属性が対象文書内に存在している場合に、対象文書についてのスコアに対する当該属性の寄与が決定される。例として、属性は、文書内のラベル又はタイトルや、テンプレートにより表されたクラス又は種類に属している文書内に存在していることが予期されるロゴ、顔、ホログラム、印影等、であるかもしれない。いくつかの属性は、対象文書内の特定の場所において探索され、一方で、(印影といった)他の属性には、対象文書内のそれらの位置を検討することなく、スコアが割り当てられてもよい。
複数のテンプレートにおいて存在する共通の属性(例えば、「Driver’f1
s」、「US」、「License」等のテキスト)には、より低い確信度レベルが割り当てられてもよい一方で、より特有の属性(例えば、印影、ロゴ、「UTAH」といった州名、国コード等)には、より高い確信度レベルが与えられる。この方式で、確信度レベルは、グループのテンプレート間における属性の共通性の測度を表しており、1つ以上のどのテンプレートが対象文書を最も良く表しているかを決定する際に、最も共通性が高い属性に対し、結果的に、より小さな重みが与えられる。
テンプレートは、テンプレートに特有の処理情報を含んでいるか、又は当該処理情報に関連付けられて、追加的な属性の抽出、又は、対象文書の他の態様での処理、を支援してもよい。この処理情報は、透かし、ぼかし背景のテキスト等の表示を含んでもよい。より簡単に抽出可能な属性が、対象文書に「最も良く」関連付けられたテンプレートの特定を充分な確信度で行うには充分ではないときに、追加的な属性が使用され得る。追加的な属性には、典型的に、より高い確信度レベルが与えられるが、その理由は、それらが特定のテンプレートクラスに特有であることが多いためである。
正しいか、又は正しい可能性が最も高いテンプレートを識別することの一部として、処理されている画像に変換又は変換の集合が施され得るが、その目的は、当該画像をテンプレート内の画像により正確に合致させることを可能にするため、及び/又は、文書処理の後に続くステージ用に、当該画像のより効果的な使用を可能にするため、である。これは、画像にスキュー又は歪みが生じている状況において役立ち得る。1つ以上の変換が対象文書の画像に適用されてもよく、その結果、各々が、可能性のある各テンプレート(例えば、それらは、対象文書から抽出された不変の属性を含んでいる)に照らして評価又はスコアリングされて、当該テンプレートのうちの1つに関連付けられた文書種類の画像の標準的な形式に最も近似する形式で対象文書の画像を生成するために適用する、当該1つ以上の変換が特定される。
いくつかの実施形態では、特定された1つ以上の変換が、画像に適用され、合致する不変の属性の数と共に使用されて「スコア」を生成して、当該文書が所与のテンプレートにより表されたクラス(又は文書種類)に「属している」か否かが決定される。処理のこのステージにおいて発現した1つ以上のスコアが決定的ではない場合、このスコアは、不正検出(特定の属性の真正性のチェック)、フォント種類検証(ID文書及び他の種類の文書の真正性を確認する際に価値を有する)、品質検出(改竄、損耗の証拠の検出)、並びに/又は、フォーマット検証(例えば、年月日が、文書による使用が予期されたフォーマットであるかのチェック)、が含まれるがこれらに限定されない、テンプレートに特有の追加的なステップの後に、再算出されて、改訂された検証スコアが取得されてもよい。本明細書に記載された「さらなる精査」処理は、テンプレート文書の知識を使用して、テンプレートに特有の追加的な属性を検出及び強調することにより、スコアの再算出及び改善を行うためにも(又はその代わりに)使用されてもよい。
入力画像がより低い品質を有している場合では、いずれのテンプレートも、十分に高信頼の合致を結果的に生じないことが有り得る。この状況において、さらなる精査ステップが実行され、最も可能性の高いテンプレート候補が識別され、(相対的な意味合いで)計算集約的な、テンプレートに特有の1つ以上の処理動作が実行され、その後、画像のスコアリングが再び行われ、変換推定が再算出される。この処理の一部として適用され得る、テンプレートに特有の動作には、テンプレートに特有の背景アーチファクトの除去、背景テキストの除去、ロゴの検出/マッチング、テキスト強調等が含まれるが、これらに限定されない。
述べたように、文書認証/検証処理の一部として、1つ以上の変換が適用されてもよく、ここで、当該変換は、対象文書の当初の画像を標準的なフォーマットに転換し、それにより、当初の画像が、さらなる処理用に、より簡単に且つより正確に表されるようにするために、使用されてもよい。図1(d)~図1(f)は、本明細書に記載されたシステム及び方法のいくつかの実施形態に従った、認証/検証の処理、方法、機能、又は動作の一部として文書の画像に適用され得る3つの可能性のある例示的な変換(それぞれ、ホモグラフィ、アフィン、及び回転)を例示する図である。
図1(d)は、ホモグラフィ変換の一例を例示する。ホモグラフィは、射影空間の同型写像であって、当該射影空間が派生するベクトル空間の同型写像により誘導される。ホモグラフィ変換は、線を線にマッピングし、よって、共線変換である。ホモグラフィ変換は、8自由度を有しており、典型的に、少なくとも4つの属性(x,y)の使用を必要とする。ホモグラフィ変換は、演算子行列Sとして表されてもよく、以下のようにベクトルに作用する。
Figure 2023502584000002
図1(e)は、アフィン変換の一例を例示する。アフィン変換、アフィン写像、又はアフィニティは、点、直線、及び平面を保持しているアフィン空間間の関数である。平行な線の集合は、アフィン変換後も平行なままである。アフィン変換は、線間の角度又は点間の距離を必ずしも保持しないが、直線上にある点間の距離の比率は保持している。アフィン変換は、6自由度を有しており、典型的に、少なくとも3つの属性(x,y)の使用を必要とする。アフィン変換は、演算子行列Sとして表されてもよく、以下のようにベクトルに作用する。
Figure 2023502584000003
図1(f)は、回転又は回転変換の一例を例示する。幾何学的回転は、線を線に変換し、点間の距離の比率を保持する。回転変換は、4自由度を有しており、典型的に、少なくとも2つの属性(x,y)の使用を必要とする。回転変換は、演算子行列Sとして表されてもよく、以下のようにベクトルに作用する。
Figure 2023502584000004
図1(g)は、いくつかの実施形態に従った、文書を認証/検証するための例示的なワークフロー又はシステム150の主要機能要素又はコンポーネントを例示するブロック図である。図に示されるように、対象文書の画像は、(ステップ又はステージ152により示唆されるように)処理ワークフロー又はパイプラインに入力される。この処理は、(ステップ又はステージ154により示唆されるように)画像内の文書の不変の属性を識別及び抽出する。さらなる処理のために、及び/又は、1つ以上のテンプレートとの、より高信頼の比較のために、画像を標準化された形式に変換する(158)ように動作する、画像の変換が推定される(ステップ又はステージ156により示唆)。この変換は、少なくとも部分的に、対象文書から抽出された不変の属性の集合と、テンプレート(159)のライブラリの各テンプレート内のものとの比較と、に基づいており、各テンプレートは、文書の可能性のある種類又はカテゴリを表している。可能性のある合致を表す測度若しくはメトリック、又は、対象文書と1つ以上の可能性のある文書テンプレートとの間の類似度の程度、を提供する検証スコア(160)が、決定又は算出されてもよい。いくつかの実施形態では、フォント検証処理が、テンプレートに対する対象文書のマッチングの一部として、及び/又は、対象文書の真正性の検証の一部として、実行されてもよいことに留意されたい(各テンプレートが、或る特定のラベル又はフィールドについて、特定のフォント又はフォントバリエーションに関連付けられ得るためである)。
スコア又はメトリックが信頼度又は確信度レベルの閾値を満たすには充分ではない場合、変換、想定された正しいテンプレート、又は、これらの双方は、さらなる精査を受けなければならず(ステップ又はステージ162)、抽出及び検討のために、可能性のある追加的な属性が識別されてもよい(ステップ又はステージ164)。このことは、変換の再推定と、改訂された標準化画像の生成と、テンプレートの集合内の1つ以上のテンプレートに関する、対象文書の再スコアリングと、に至ってもよい。
対象文書が充分な程度の確信度でテンプレートに関連付けられた後に、対象文書の他の局面の識別/抽出が行われてもよく、当該他の局面が検証を受けてもよい(ステップ又はステージ166)。これには、個人の名前、住所、生年月日、運転免許証番号、又は、特定の対象文書に特有であることが予期された他の情報、といった内容が含まれてもよい。抽出された情報は、情報、それ故に、対象文書、の検証の一部として、(データベースチェック168により示唆されるように)データベース又はデータレコード内において利用可能な情報に対するチェック又は比較が行われてもよい。不正チェック(169)及び/又はフォント検証を含む、追加的な検証処理を実行して、対象文書及び当該対象文書が含む情報が、さらに認証されてもよい。
記載されるように、いくつかの場合では、正しいテンプレートの識別を支援するために、及び/又は、テンプレート文書の標準化された形式に、より近似する画像のバージョンを生成するために、対象文書の画像には1つ以上の変換が加えられてもよい。これにより、フォント検証、不正検出等のためといった、対象画像のさらなる処理が支援される。対象文書の画像に対し、1つ以上のどの変換を適用するかについての選択は、図2(a)及び図2(b)を参照して説明する処理によって決定されてもよい。
図2(a)は、本明細書に記載されたシステム及び方法のいくつかの実施形態に従った、対象文書の画像に適用され得る変換を推定するための例示的な処理、動作、方法、又は機能200を例示するフローチャート又はフロー図である。図に示されるように、対象文書の画像(202)が取得され、処理ワークフロー又はパイプラインに入力される。画像の属性(204であって、典型的に、文書の不変の属性)が識別及び抽出されて、変換エンジン(206)に提供される。テンプレート(205)のライブラリもまた、変換エンジンに提供されるか、又は、変換エンジンによるアクセスが可能となる。
いくつかの実施形態では、変換エンジン206は、対象文書の画像に適用する、可能性のある変換又は変換の集合を決定して、1つ以上のテンプレートにより表されたクラス又は種類に属する文書を表す画像を生成する、ように動作する。また、変換エンジン206は、1つ以上のテンプレートの各々に対する、対象文書の変換された画像の近似性を表すスコア又はメトリックを生成するようにも動作してもよい。その後、最高スコアが閾値と比較されて(208)、当該スコアが閾値を超えているか、及び、それ故に、可能性のあるテンプレートのうちの1つが対象文書のカテゴリ又は種類を表している可能性が充分であるか、が決定されてもよい。スコアが閾値を充分に満たしているか、又は超えている場合、その変換が入力画像に適用されて(210)、対象文書の標準化画像が生成される(212)。また、文書についての検証又は認証スコアも生成されてもよく(214)、その対象文書が特定のクラス又は種類の文書に属している(つまり、特定のテンプレートの一例である)確信度レベルを表す。
可能性のあるテンプレートに対する、変換された画像の近似性を反映するスコアが、閾値を超えなかった場合、対象文書は、未知又は認証不可能であるとして拒否されてもよい(216)。可能性のあるテンプレートに対する、変換された画像の近似性を反映するスコアが閾値を超えないいくつかの場合では、対象文書の画像の、人間による目視検査及び評価を含み得る、さらなる精査処理(209)が使用されてもよい。
いくつかの実施形態では、閾値は、テンプレートクラスが、対象文書に対して可能性のある「合致」と見なされることの積み重ねに(少なくとも部分的に)基づいて、決定されてもよい。例えば、テンプレートクラスがほとんど特有の属性により成っている場合、より低い閾値が使用されてもよい。テンプレートクラスが、より似ている(例えば、同じ州からの運転免許証の2つのテンプレートであり、一方がより古いバージョン、他方がより最近のバージョンである)状況では、対象文書が、同様の(しかし究極的には間違った)テンプレートとして誤分類されることを防止するために、閾値がより高く設定されてもよい。この意味合いにおいて、閾値の1つの目的は、検討されるテンプレートの集合からの最高スコアのテンプレート(即ち、対象文書と同じ種類の文書を表している可能性が最も高いテンプレート)が、誤分類ではないことを確実にすることである。
いくつかの例では、閾値は、エンドユーザの許容度に基づいて調節されてもよく、この許容度は、エラーが万一生じた場合の有意性又はリスクを反映してもよい。例えば、集荷を検証している食品雑貨店は、エラーに対してより高い許容度を有する可能性がある(購入証明の、より古いバージョンを、より新たなバージョンとして誤分類することが、著しい問題にはなり得ず、又は、簡単に補正可能である)一方で、銀行業務の手続は、不正又は法的責任に対するより良好な保護を得るために、より厳しい閾値を必要とし得る。
特定の画像変換が、文書テンプレートに充分に近似する「合致」を生じたか否かの決定又は評価の一部として、変換の正確度又は充足性を、サンプリング処理によって評価することができる。いくつかの実施形態では、サンプリング処理は、1つ以上の文書テンプレートの領域内の点と比較するために、変換された画像内の点を選択する。認識される属性の数に依存して、対象文書の画像の異なるスキュー又は歪みを補正して、結果的に生じる画像が、文書テンプレートにより表された文書の、スキュー又は歪みのない標準的な画像に、より類似して見えるようにすることができる。
変換及び標準化の動作を実行するために使用する1つ以上の変換行列を決定するために、いくつかの異なるタイプの変換が検討されてもよい。文書の認証及び検証のユースケースが、多様な文書及び文書種類において生じる同様の属性を伴うことが予期されるため、外れ値耐性推定処理が良好に働くことが予期され、当該処理を使用して、正しい変換又は変換の集合である可能性が最も高いものを識別することができる。外れ値耐性は、処理が、属性における検出の不正確さおよび誤検出に対して耐性を有することを支援する特徴又は特性である。
図2(b)は、本明細書に記載されたシステム及び方法のいくつかの実施形態に従った、変換された画像内の点のサンプリングに基づいて、可能性のあるテンプレートを基準とした、対象文書についての確信度スコアを生成するための例示的な処理、動作、方法、又は機能220を例示するフローチャート又はフロー図である。この図は、外れ値耐性推定処理を例示しており、この例では、可能性のあるテンプレートを基準として、対象文書からのデータの集合についての検証スコア又は確信度の基準を生成するために使用され得る、ランダムサンプルコンセンサス(RANSAC)処理、を例示する。
RANSACは、外れ値を含む観測データの集合から数理モデルのパラメータを推定する反復法であり、このとき、外れ値は、推定の値に影響を与えないはずである。したがって、RANSACは、外れ値検出方法と解釈することもできる。各反復中に、入力点(222により表現されるように、P)の百分率がサンプリングされ(ステップ又はステージ224により示唆されるように、S)、その後、点のサンプリングされた集合に基づいて、画像変換が算出される(226)。変換は、一旦算出されると、(228により示唆されるように)点Pの集合全体に照らしてスコアリングされる。フィットの誤差限界内に入る入力点Pの数に基づいて、スコアが決定される。あまりにも多くの点が誤差限界の外にある(外れ値)か、又は、スコアが(確信度閾値若しくは正確度閾値といった)或る特定の値を下回る場合、(230及び反復フィードバックループ231により示唆されるように)点の新たな集合について変換が再推定される。十分良好な適合が一旦見出されるか、又は、充分な数の反復が試行されると、(232により示唆されるように)スコアが返される。
他の方法を使用して画像変換の正確度又は近似性を評価してよいことに留意されたい。これらには、テイルセン推定量、及びL1又はL2回帰が含まれる。しかしながら、これらの代替例の各々には欠点がある。テイルセン推定量は、ノイズに対して堅牢である一方で、RANSACに比べて、検討されているユースケースについて互角の正確度を発揮するものの、計算集約的である。回帰法は、より高速であるものの、RANSACのような、外れ値に対するロバスト性を有さない。
いくつかの場合では、対象文書の1つ以上の要素又は属性について、この処理により結果的に生じた確信度の関連度合いを理解することが役立ち得る。このことは、処理の有効性を識別すること、及び/又は、さらなる処理若しくは解析を必要とし得る要素若しくは属性を識別すること、に有用であり得る。図2(c)は、対象文書から抽出された1つ以上の属性の正確度の確信度レベルを表す「ヒート」マップの一例を例示する図であって、本明細書に記載されたシステム及び方法の実施形態による処理を実行した文書の領域の、検証正確度の視覚的表示を提供する。
この確信度マップは、文書の領域又は局面の、検証正確度の視覚的表示を提供している。このヒートマップを使用して、ぼやけといったアーチファクトを有する領域、グレア/ホログラムの反射を有する領域、又は、内容(ロゴ、テキストのフォント及び色等)が、予期された内容と合致しないエリア、を例示することができる。多くの場合において、このようなヒートマップは、集計情報を理解する、より簡単な方式を提供する。例えば、対象文書のOCRが、背景アーチファクトに起因して、生年月日に一貫性のある問題を有している場合、ヒートマップはこの問題を強調表示することができる。さらに、画像処理ワークフロー又はパイプラインに対し、潜在的な改善を示唆することの一部として、エラーを再現する領域のコンパイル及びチェックを行うことができる。
例えば、処理ワークフローの改善には、新たなOCRモデル(即ち、アーチファクトを有する生年月日を含み得るもの)について追加的な訓練データを収集し、それにより、決定されたシナリオについてOCR正確度が改善されるようにすることと、アーチファクトを除去又は低減する特定の画像処理(背景パターンのスクリーニングアウト、或る特定の色の除去等)と、文書提供者に対し、文書内のグレア又はぼやけた領域に関するフィードバックを提供して、文書のより良好なバージョンを要求することと、画像の取り込み機構を改善し、それにより、ぼやけた文書又はグレアのシナリオが生じないように又は低減されるようにすることと、等が含まれ得るが、これらに限定されない。
記載したように、いくつかの実施形態では、文書の欧数字要素の処理が、単独で、又は、画像処理と組み合わせて、のいずれかにおいて実行されてもよい。欧数字要素は、フォント検証処理により処理されてもよく、フォント検証処理は、特に、正当な文書が特定の文書属性について、特定のフォント、フォントサイズ、フォントスタイル等を有することが予期されると思われる場合に、変更又は偽造された文書を識別するために使用することができる。また、フォント検証は、いくつかの可能性のある文書テンプレートのうちのどれが対象文書に最も近似した合致であるのかを、より確信的に識別するためにも使用されてもよい。フォント検証のその使用法において、フォント検証は、対象文書の画像に適用する変換が特定された後に適用されてもよい。
図3に示される例で分かるように、同じ州からの異なる本人確認文書は、異なるフォントを使用する可能性があり、単一の文書は、異なる属性について異なるフォントを使用する可能性がある。例えば、より古い本人確認文書(図中、上側のもの)は、属性値の大部分について、ヘルベチカボールドフォントを使用する一方で、より新たな文書(下側のもの)の右側のIDは、エイリアルフォント及びヘルベチカコンデンスドボールドフォントの混合物を使用している。
特定の属性値について使用されるべき正しいフォントを知得していることは、不正検出又はテンプレート選択のワークフローが、未処理のOCR結果から的確な属性値を抽出することを支援する。いくつかの実施形態では、このことは、返された文字の集合を、フォントに合致するものと合致しないものとに分けることによって行われる。下側の例において、フィールド名「DOB」内の文字「OB」は、潜在的に、OCRエンジンによって「08」と読み取られ、その行のそれ以外の部分と連結されて、極めて曖昧な文字列「0808/31/1978」を結果的に生じる可能性がある。しかしながら、この処理は、文字「0」及び「8」が異なるフォントで活字に組まれているという事実を用いて、曖昧性なしに、当初の値「08/31/1978」を回復することができる。
文書処理に属性フォントのモデリングを含めることは、属性値の、予期されたレンダリングを、当該値の実際のレンダリングに照らして比較することにより、可能性のある不正を検出することも助ける。下側の画像で分かるように、住所フィールド内の文字「3」の外観は、DOBフィールド内の同じ文字の外観とはかなり異なるが、その理由は、2つのフィールドが、それぞれ、エイリアルレギュラーフォント及びヘルベチカコンデンスドボールドフォントを使用しているためである。属性レベルにおける2つのデータ項目間の差異は、より顕著になるが、その理由は、異なるフォントが、単一の文字についてだけではなく、文字対の間についても、異なる量の空間を使用しているためである(即ち、カーニング)。このことは、同じ属性値が異なるフォントでレンダリングされると、画素レベルでは注目に値する差異を有してもよいことを意味する。
フォント認識は、画像からフォント種類を認識しようとするフォント処理の1つの形態である。フォント認識用の、公にアクセス可能な既存のウェブサイトには、MyFonts/WhatTheFont、Font Squirrel、及び、Font Finderが含まれる。利用可能なオープンソースフォント認識システムには、DeepFont及びTypeFontが含まれる。しかしながら、これらの性能は概して、特にノイズの多いシナリオにおいて、実際の適用には満足の行くものではない。
これらの汎用のフォント認識システムとは対照的に、本明細書に記載されたフォント検証処理又はサービスは、文書テンプレート又は属性モデルによって指定されたフォント種類及び/又は特性が、対象文書内に存在し、且つ、属性値のレンダリングに使用されることを保証するように動作する。この意味合いにおいて、このシステムは、汎用のフォント認識よりもむしろ、モデルベースのフォント検証を実行する。これが、実装及び性能の両方の観点における、本明細書に記載されたシステムと従来のシステムとの間の違いである。
いくつかの実施形態では、属性のフォント種類及びフォント特性の、文書に特有のモデルを作成するときに、同じ種類又はカテゴリの複数の文書でワークフローが開始する。文書のこの集合は、記載された画像処理ワークフローによって決定されてもよい。画像処理ワークフローを使用して、同じ種類又はカテゴリであると確信される文書の集合が選択される。次に、OCR結果及び探索処理が、可能性のあるフォントの集合を各属性に適合するのに使用される。これは、属性レンダリングを画像と比較することによって行われてもよい。このシステムは、複数の文書にわたる集計スコアを計算した後に、最良の総合的合致を選択する。好適な合致が見出されない場合には、人間の専門家に相談して未確認のフォントを見出すか、又は、未確認のフォントを最初からデザインしてもよい。
記載されたフォント検証ワークフローは、以下の特性のうちの1つ以上の利点を有する。第1に、このシステムは、画像処理ワークフローに起因して、文書種類の認識を、文書に特有であって属性ベースのフォント検証を実行する前に、行うことができる。第2に、文書種類を決定するために構築された文書テンプレートは、フォント検証システムの範囲及び要件を限定する。第3に、画像のセグメント化と、文字レベル及び属性レベルの画像位置合わせアルゴリズムと、を使用して、適正なフォントでの属性値のレンダリングが、より高いスコア又はメトリックを結果的に生じる一方で、異なるフォントでの、その同じ値のレンダリングが、より低いスコアを結果的に生じること、を確実にし得る。このマルチステージのアプローチは、文書の識別及び検証について、より高い正解率を結果的に生じる。対照的に、従来のシステムは、制約のないフォント認識を使用しており、これにより、本人確認文書及び他のクラスの文書のケースに頻出するような、ノイズ及び複数のフォントを特徴とする画像については、より一段と低い正確度が結果的に生じる。
記載されたフォント認証/検証処理は、対象文書内の特定の文書属性について使用されたフォント及び/又はフォント特性が、正しく正当なものであることを検証する。これが、不変の属性についてのラベル、タイトル、若しくはフィールド名の一部として使用されたフォント、及び/又は、(生年月日若しくは識別番号といった)文書内の内容の一部として使用されたフォント、であってもよいことに留意されたい。いくつかの実施形態では、フォント検証は、コンテキストに特有のフォントモデルをオフラインで自動的に構築し、対象文書の処理時におけるランタイムに当該モデルを適用する、ことによって実行される。このアプローチは、多くの本人確認文書と、或る特定の他のカテゴリの文書と、についての場合におけるような、属性値の利用可能な例が一貫性のあるフォントを有しているようなシナリオにおいて、良好に働くことが分かっている。属性値が、低い可能性の合致、又は、比較的低い正確度スコアを結果的に生じる場合において、当該合致又はスコアは、典型的に、(1)低品質のOCR結果、(2)不正の疑い、又は、(3)文書テンプレートの不一致、のいずれかを示している。これらの場合はいずれも、システムに、追加的な検査と改善された総合的システム性能とを求めて、入力に「フラグを立て」させる。
いくつかの実施形態では、フォント検証サービスは、以下の機能、動作、又は目的のうちの1つ以上を実行してもよい。
1.ID(又は文書)種類及び属性の各組合せについて、フォント属性(即ち、フォント特性又は制約)を学習すること。フォント特性又は制約には、書体(例えば、エイリアル)、そのバリエーション(例えば、ボールド)、アスペクト比、及び、カーニング(文字対の間の、余分なポジティブスペース又はネガティブスペース)のうちの1つ以上が含まれてもよい。
2.「/」(スラッシュ)といった単語区切り記号と、生年月日(DOB)フィールドについては2といった、区切り記号の最大数と、を示す区切り記号制約を学習すること。
3.フォント及び区切り記号制約を適用することにより、並びに、欠落した文字及び単語区切り記号を追加することにより、文書画像のOCR処理から使用可能な属性値を抽出すること。
4.グレア、ホログラム、低解像度、又はモーションブラーといった画像欠陥が存在することに起因して、OCR結果が信頼できない状態であるのかを検出すること。
5.フォント、間隔、及びサイズの観点において属性値の正しい外観を確実にすることにより、明らかな場合に潜在的な不正を示すこと。
6.潜在的な画像欠陥又は文書位置合わせ問題が存在するときに、画像処理ワークフローにフィードバックを提供して、ワークフローの修正を支援すること。
a.フォント検証サービスが、グレア、ぼやけ、又は低コントラストに起因して、テキストを対象文書の画像に合致させることができない(又は、合致させても確信度レベル又は正確度が不充分である)場合、これらの要因は、時として、ビデオから異なるフレームを選択すること、又は、ユーザに自身の撮像条件を変化させるよう求めること、のいずれかを行うことによって克服することができる。これにより、文書のより明瞭な画像の提供が可能になり、これにより、処理ワークフローの他の部分の正確度も改善される。
いくつかの実施形態では、本明細書に記載された文書処理システム又はサービスは、対象文書の提出に応じて実行される、マイクロサービス、プロセス、ワークフロー、又は機能として実装されてもよい。当該マイクロサービス、プロセス、ワークフロー、又は機能は、サーバ、データ処理要素、プラットフォーム、又はシステムにより実行されてもよい。いくつかの実施形態では、文書の評価、認証、若しくは検証サービス及び/又は身元検証サービスは、「クラウド内」に配置されたサービスプラットフォームにより提供されてもよい。このような実施形態では、プラットフォームは、典型的に、API及びSDKを通じてアクセス可能である。フォント検証及び画像処理サービスは、プラットフォーム内のマイクロサービスとして提供されてもよい。マイクロサービスに対するインターフェイスは、REST及びGraphQLのエンドポイントにより定義されてもよい。管理運営コンソールにより、ユーザは、基礎的な要求データ及び応答データに安全にアクセスすること、アカウント及びアクセスを管理すること、並びに、いくつかの場合では、処理ワークフロー又は構成を修正すること、が可能であってもよい。フォント検証/認証処理の局面は、以下のデータストア、機能、コンポーネント、処理ワークフロー又は要素、のうちの1つ以上を含んでもよい。
1.属性値のレンダリングに使用される許諾書体の集合又は集まり。これらの書体は、フォントファウンドリといった有料又は無料のソースから取得されてもよい。直接調達することができない書体は、書体デザイナーにより作成されてもよい。
2.文字を2値画像としてレンダリングし、最小境界矩形を計算することにより、(各フォントについて)文字の画素寸法を決定するように動作するコンポーネント。
3.1つの文書テンプレートにつき1つの属性である、フォント構成ファイルの集合であって、そのテンプレート内のその属性について、以下のものの1つ以上を含む。
a.エイリアルボールドといったフォント名、
b.画素内において許容可能なフォントサイズの範囲、
c.アスペクト比、
d.カーニング(文字間の、余分なポジティブ/ネガティブスペース)、
e.(「/」といった)単語区切り記号、及び
f.区切り記号の最大数。
4.文字を、その境界ボックス内部において背景から分離して、(全ビットが1に設定される)白い部分が前景文字を表し、(全ビットが0に設定される)黒い部分が背景を表す2値(白黒)画像を取得する、ように動作する(これは、後に続く2値画像マッチングアルゴリズム又は方法の使用に、より良好に順応するために行われ得る)文字セグメント化コンポーネント。
a.このアプローチ又は実装の利点は、タスクについて、ほとんどの既存のセグメント化アルゴリズムを使用できるということであることに留意されたい。
i.使用され得る例示的な方法には、大津の適応的閾値処理、ストローク幅変換、及び、MLベースのセグメンタが含まれる。
b.文字が、その近傍から効果的に分離されないケースでは、システムは、追加的なセグメント化方法を適用してもよい。
i.例えば、適正な分離を達成するために、大津の初期閾値が調節されてもよい。
5.フォントの、OTF又はTTFのファイルフォーマット又は表現を使用して、文字及び語を特定のフォントでレンダリングするように動作するテキスト・レンダリング・コンポーネント。
6.レンダリングのサイズ及び位置を変化させて、文字のセグメント化された画像と、そのレンダリングとの間の最良の合致を生じる組合せを見出すことによって、文字のセグメント化された画像と、そのレンダリングと、の間の「最適な」又は最良の合致を計算する文字マッチングコンポーネント。2値セグメント化と2値レンダリングとの間の類似度を計算するために使用され得るメトリックの例には、Jaccard類似度、畳み込み類似度、及び、ハウスドルフ距離、が含まれる。類似度決定及び最適マッチング処理の一例として、以下のものがある。
a.特定の重ね合わせの類似度を計算するために、全ての白色画素を1(又は同様の正数)で置換し、全ての黒色画素を-0.25(又は同様の負数)で置換し、その後、より小さな矩形の領域により正規化された畳み込み(画素値の積の和)を計算すること。
b.1文字につき、(画素の観点における)最適なフォントサイズ及び位置を決定すること。
c.(最適なF1スコアに基づいて決定され得る)閾値を超えるサイズを有しており、且つ、セグメント化された画像とレンダリングとの間に重複がない、領域が存在する場合、不一致を宣言すること。
d.推定されたフォントサイズが閾値未満である文字も、典型的には破棄されること。
7.合致している最初の数個の文字を使用して、画素の観点から、文字の予期されたサイズを決定する、有効フォントサイズコンポーネント。
a.フィールドタイトルに対応する小さな文字は、破棄されてもよい。
b.スペース及びコンマといった区切り記号は、処理から除外されてもよい。
c.閾値を超える合致値を有する、最初の数個の文字のフォントサイズの中央値を決定する。
8.以前計算された有効フォントサイズを使用して、新たな/更新された文字マッチングスコアを算出する、文字スコアリングコンポーネント。実際上、文字スコアリングコンポーネントは、フォントサイズが小さな範囲に限定され、且つ、当該コンポーネントが位置を変化させることを除き、ステップ6からのマッチング処理のうちの1つ以上の部分を繰り返す。
9.最適な回転角を決定するために合致している文字を使用する回転角コンポーネント。正確な回転角は、文字のマッチングには比較的重要ではないものの、属性のマッチングには重要である。その理由は、属性値が3文字以上の長さであって角度が不正確である場合には、当該属性値のレンダリングが、その画像と正しく交差するようにはならないためである。1つの例示的な実施形態では、アルゴリズムは、最適な角度を見出す探索を使用するが、空間変換ネットワークといった他の方法もまた、検討される以下のようなユースケースの制約下において、良好に働くことが予期される。
a.合致している文字のユニオンが2値画像であり、マッチングされた画素が強度1を有し、背景画素が強度0を有する。
i.矩形の2値画像を0-1行列と捉え、行和が、行内の白色画素の数に対応する。
ii.行和が非ゼロである行は、少なくとも1つの文字の存在を示す。
b.最適な回転角は、行和が非ゼロである行の数を最小化する角度である。その理由は、最適な回転角は、全ての文字を完全に含む最も細い水平ストライプに対応するためである。
i.画像ノイズの可能性に起因して、(8といった)小さな閾値を使用して、そのように多くの非ゼロエントリよりも多くの非ゼロエントリを有する行を無視することは、最適な角度を見出すことの改善を助ける。
ii.最適な回転値は、典型的に、-5度から5度の範囲内の探索によって見出すことができる。この効率は、画像処理ステージの有効性の結果である。
10.属性の画像画素を背景画素から分離する、属性セグメント化コンポーネント。コントラスト差に基づく潜在的な問題を回避するために、いくつかの実施形態では、このコンポーネントは、大域的画像セグメント化法の適用よりもむしろ、以前にマッチングされた文字(又は、このような文字間の文字)のセグメント化の結合を使用する。
11.属性の、セグメント化された画像とレンダリングとの間の最良の合致を生じるサイズ及び位置の組合せを見出す処理において、レンダリングのサイズ及び位置を変化させることによって、当該セグメント化された画像と、そのレンダリングとを位置合わせする属性マッチングコンポーネント。さらなる詳細については、上記の文字マッチング処理を参照されたい。この属性マッチングの一部として、以下のものがある。
a.フォント及びその(アスペクト比及びカーニングといった)特性が正しいと仮定すること。
b.正しい回転角が決定されたと仮定すること。
c.先の文字マッチングコンポーネントがフォントサイズの範囲を決定しているため、その範囲内におけるフォントサイズのみを変化させること。
d.以前にマッチングされた文字、又は、以前にマッチングされた文字間にある文字、のいずれかのレンダリングのみを行い、(左側の)フィールドラベル若しくは(右側の)背景像に属する文字、又は、他の望ましくないOCR結果、のマッチングを回避すること。
e.可能性のある最適な合致が見出されたときに、(典型的に、最適なF1スコアに基づいて決定された)閾値を超えるサイズを有しており、且つ、双方の間に重複がない、領域が存在するのであれば、不一致であると仮定して、結果を使用しないこと。
12.スペース及びコンマといった区切り記号を暫定的に挿入及び除去して、結果的に生じるレンダリングが、属性の画像と比較したときに、より高いマッチングスコアを結果的に生じるのか決定を可能にする、属性修正コンポーネント。
13.複数個のOCRエンジン(例えば、クラーケン、テッセラクト、又は、グーグルクラウドビジョン)についての合致値を組み合わせて、最終的な結果を形成する、合致値組合せコンポーネント。組み合わされた結果は、個々のOCR入力についての出力と同様に、個々の文字及び属性についての合致値を含んでおり、空の合致の可能性を含む。
14.一貫性のあるOCR結果を有する、最も明瞭な画像を使用して、上記の、1つのテンプレートにつき1つの属性の構成を組み立てる、構成生成コンポーネント。これは、以下により達成されてもよい。
a.OCR結果を使用して、単語区切り記号の候補を抽出すること(潜在的な単語区切り記号の完全な集合は、典型的に、以下の5文字から成る。
i.「,」、「.」、「-」、「/」、「 」
b.エイリアルレギュラー、エイリアルボールド等といった候補を含むフォントの既存の集まりを使用して、以下に記載するように、最良に合致するものを見出すこと。
c.総合的マッチングメトリックを、文字マッチング及び属性マッチングの合成(加重平均)と定義することであって、重みは、最適なF1スコアにより(少なくとも部分的に)決定される。
d.各潜在的マッチングフォントについて、2次元空間内のグリッド探索を実行することにより、カーニング及びアスペクト比の、最も良く合致している組合せを計算すること。
i.このグリッド探索動作を、明瞭な画像の複数個の(例えば、5つの)ランダムな部分集合に実行して、フォント、カーニング、及びアスペクト比の複数の組合せを生成すること。
ii.充分に近似したマッチングスコアを有する複数の組合せの中から、最も倹約的なモデル、即ち、カーニング及びアスペクト比を記述するために、10進小数点の後に使用される総桁数が最も小さいもの、を選ぶこと。そして、
e.(例えば、利用可能な集まり内のフォントがいずれも、合致しないか、又は、実際のフォントに対して十分に近似していないという事実に起因して)最大組合せ合致値が比較的低い場合においては、標準的なフォントを当該集まりに追加するか、又は、外観に合致する真新しいフォントをデザインする、専門家により、対応する画像が検査されてもよいこと。
記載したように、文書種類又はカテゴリのテンプレートの構築と、1つ以上のテンプレートの、対象文書との正確な比較とが、画像処理ワークフロー及び認証処理の重要な局面である。以下においては、文書の認証及び検証で使用するために、本明細書に記載されたシステム及び方法の一実施形態の、或る特定の要素、コンポーネント、ステージ、又は機能の例示的な実装に関し、追加的な詳細を提供する。
[テンプレートの定義及び作成]
テンプレートは、当該テンプレート(又は、或る形の文書検証/認証の目的で少なくとも使用されているもの)により表された種類又はカテゴリの文書内に存在する、可能性のある属性の集団と見なすことができる。また、テンプレートは、典型的に、テンプレートにより表された文書クラスに特有のものであって、且つ、「さらなる精査」処理の一部として使用され得る、属性の追加的な集合(それらのうちのいくつかについては、以下のテンプレート作成の章に記載されている)を含む。また、テンプレートは、特定のテンプレートにより表されたクラスの一例であると確信される文書の前処理又は後処理に関する示唆を提供する情報を含んでもよいし、又は、当該情報に関連付けられてもよい。また、テンプレートは、標準化された(つまり、スキューのない、歪みのない、又は、変更のない)画像がどのように見えるべきかに関する情報を含んでもよいし、又は、当該情報に関連付けられてもよく、それにより、スキュー又は他の態様の歪みが生じた入力画像を、より使用可能な画像に変換することができ、当該画像は、jpeg、png、pdf等といった標準的な画像フォーマットにより表されてもよい。
いくつかの実施形態において、文書のクラス、種類、又はカテゴリについてのテンプレートは、所定の文書についての特徴、要件、又は制約と、当該文書内の各フィールドが取ることのできる値(及び、適用可能である場合は、それらの値のフォーマット)と、の一例を指定及び提供する、(特定のクラス又は種類の)標準的な基準文書から作成されてもよい。例えば、特定の位置にある、特定のフォーマットでの生年月日(DOB)、特定のフォーマットでの個人の写真、等である。これらの「制約」、特性、又は要件は、例示的な入力文書が特定のテンプレート又はクラスに属しているのかについて、当該入力文書を分類する際にチェックされる属性の例である。いくつかの場合では、標準的な基準文書は、発行機関から、又は、文書種類の既知の正当な例を使用することにより、取得されてもよい。
一般的な意味合いにおいて、テンプレート及びそれに関連付けられたファイル又はメタデータは、以下のものを含んでもよい。
●特定の文書種類/クラスに特有の情報(属性、スコアリング、抽出点、閾値、不正検出メカニズム、等)
●「さらなる精査」ステージの示唆
●対象文書を特定のテンプレートに、より良好に関連付けるために、当該対象文書に推奨され得る前処理及び/又は後処理の表示
○前処理動作は、以下のもののうちの1つ以上を含んでもよい。
■透かしの入った文書のOCR正確度を改善し得る、背景色抑制、前景色強調、シャープネス、明るさホワイトバランスの変更等、或いは
■コントラスト強調、つまり、画像の照明条件を標準化することにより、顔、ロゴの検出又は認識を改善し得るホワイトバランス正規化。
○後処理動作は、以下のもののうちの1つ以上を含んでもよい。
■スコアリングの変更、不正の試みの検出、データフォーマット、カラープロファイル、フィンガープリントの抽出、及び、さらなる精査の示唆、
■統計に基づいた、検出におけるフォールスポジティブの除去(どこか他の位置で検出された、より低スコアの顔は、スクリーニングアウトされてもよく、又は、文書内で検出された背景テキストは、検出されたテキストのサイズに基づいて、予期された文書フォントサイズと比較して、除去することが可能である)、或いは、
■OCRエラーの一掃、つまり、例えば、検出された「$」符号は、文書が記号を含んでいることが予期されていないとき、「S」に置換され得る。
テンプレートは、前処理若しくは後処理の技法と、関連付けられた閾値と、の集合、及び/又は、当該技法の各々についてのフラグ、を含んでもよいし、又は、それらに関連付けられてもよく、その目的は、特定のテンプレートに処理ワークフローを合わせるためである。例えば、赤い背景を有する文書のテンプレートは、「色除去」を前処理ステップとして含み得るとともに、除去されるべき特定の色(この場合には赤)を、当該処理に関連付けられたメタデータとして含み得る。色除去ステップの実装は、このような処理を要求するテンプレートに共通であるものの、除去されるべき特定の色は、テンプレートに特有のものであり、処理の出力を変更する。
いくつかの実施形態では、或る文書種類を有しており、明瞭であって、正当であることが既知である、単一の画像を用いて、テンプレートを作成することができる。この処理では、文書の充分に良好な画像が、取得され、且つ、(文書の隅角を使用して自動的に、又は手動で、のいずれかにより)位置合わせされて、テンプレート画像がもたらされる。次に、このシステムは、以下のうちの1つ以上を実行してもよい。
●1つ以上の検出メカニズム(OCR、顔、ロゴ、ホログラム等)を画像に適用して、テンプレート内に存在する、可能性のある属性を検出する。
○OCRの場合では、キーワードの集合が予め定められ、それらのキーワードのみが、属性として適しているとされる。キーワードは、典型的に、PII(個人を識別可能な情報)ではなく、且つ、同じ種類又はカテゴリに属する複数の文書にわたって繰り返し現れるものであって、例えば、名前、DOB(生年月日)、失効(失効年月日)、署名、等の語である。
●他の属性、顔、ロゴ等は、検出器/分類器を使用して自動的に検出され、又は、手動でタグ付けされることが可能であり、このタグ付けは、画像内の領域をアンカー(これは、位置合わせ及び検証のため、入ってくる対象文書と比較され得る)として選択することによって行われる。
●特定の検出メカニズムの、属性についての重みは、当該特定のメカニズムの信頼度と、その検出の正確度及び/又は属性の有意性と、に基づいて、予め定められてもよい。
○例えば、IDカード上の顔といった、存在しなければならないフィールドは、より大きな重み1を有し、これは、個人が臓器ドナーであるか否かを示す(とともに、0.5という重みが割り当てられ得る)オプションのドナー記号とは対照的である。
●文書/テンプレートの属性の集合を完成させるために、必要な場合には、属性は、手動で検証及び調節されてもよい。
●検出及び/又は検証のために、比較的より大きな計算リソースを必要とし得る属性は、「さらなる精査」属性と見なされてもよい。これらには、透かし、背景パターン、ID内の曲線状の印刷テキスト等といった、(「さらなる精査」をしなければ検出が難しいか、又は、検出が計算集約的な)局面が含まれてもよいが、これらに限定されない。対象文書画像が(ぼやけ、改竄、損耗等に起因して)より低いスコアを有しており、且つ、当該文書の真正性をより高い信頼性で決定するために追加的な属性が必要とされるときに、これらの属性の検討及びスコアリングが行われ得る。この2段階のアプローチは、検証の速度を高める。その理由は、ほどんどの場合が、より計算集約的な属性の解析を必要としないためである。そして、
●その後、テンプレートは、属性の信頼できる(又は十分に信頼できる)検出を結果的に生じるのに必要であり得る前処理/後処理でタグ付けされ、又は、当該前処理/後処理に関連付けられる。ここで、前処理又は後処理のステップ又はステージは、記載された種類のうちの1つ以上を含んでもよい。
典型的に、検証(又はテンプレート構築)には、20個から最大100個の属性が抽出される。従来の方法は、(それほど信頼できない)単一の分類器か、又は、(生成されたバーコードにより、容易に詐称が行われる可能性がある)バーコードリーダーを使用することに留意されたい。
記載したように、いくつかの実施形態では、文書の属性は、以下のものを含んでもよいが、これらを含むことは必要とされず、又は、これらに限定されない。
●ヘッダ、ラベル、フィールド名、タイトル、ロゴ、OCRテキスト、テキストパターン(定型の又はしかるべき句又は表現)、顔、署名、透かし、ホログラム、位置推定値を有する他の要素
○これらは、文書を基準として静的であってもよく、又は、動的/フリーフローであってもよい。
○属性の特性には、位置、検出確信度、スコアリング重み、静的/動的マージンが含まれてもよい。
本明細書に記載された処理ワークフロー及び方法は、複数のモード/種類のデータを組み合わせて、スコアリング重みに基づいてスコアを生成する。以前に記載したように、異なる属性についての相対的重みは、テンプレートに関連付けられる。対象文書内の属性がテンプレートの属性に合致するのであれば、当該テンプレートの属性の確信度レベルが、対象文書についてのスコアに加算される。記載したように、文書の属性の識別には、検出器、テンプレート照合器、又はOCR処理が使用されてもよい。
1つの実施形態では、スコアS=ΣWmatching_attributes/ΣWall_attributesであり、式中、合致している属性は、或る特定の閾値Tを上回る確率Pにより検出されたものである。
○閾値は、属性のモダリティと、使用された検出メカニズムと、に依存して変化し得る。例えば、顔検出は、正確な結果をもたらし得ると見なされる或る特定の閾値を有しているかもしれない一方で、OCRテキストは、異なる閾値を有しているかもしれない。
○正規化メカニズムが後に続く、別の集計処理もまた、スコアリングに適していることが期待されているものと思われ、例えば、S=ΣiWi*Pi/ΣjWjであり、式中、Wは重みであり、Pは、個々の検出された属性が正確である確率である。
記載したように、不変の属性が画像から抽出された後に、1つ以上の変換を適用して、対象文書の入力画像を「標準的な」フォーマットに転換することができ、それにより、当該入力画像は、追加的なチェック、情報抽出、フォント検証、不正検出等の実行といったさらなる処理に、より適したものとなる。対象文書の画像は、非標準的スキュー及び回転を含んでもよく、当該スキュー及び回転は、1つ以上の適した変換ステップにより排除することが可能であって、結果的に、後に続く処理ステージのために標準的な入力が生じる。
[さらなる精査ステージ]
各テンプレートは、確信度スコアについての中間閾値又は中間範囲に関連付けられてもよい。いくつかの実施形態では、さらなる精査属性の数と、それらの、関連付けられた確信度レベルと、に基づいて、中間値が決定されてもよい。中間閾値が、以下のようなもの、即ち、さらなる精査属性が合致して、再スコアリング中にスコアに加算されるとき、対象文書が、当初の閾値に合格することができるとともにテンプレートへの合致であると見なされるようなもの、であることが望ましい。これらのスコア又はこの範囲内のスコアについて、対象文書は、さらなる精査ステージを受けてもよい。
○この閾値スコア又は範囲を下回るスコアの文書は、テンプレートに合致しないと見なされてもよい。
○さらなる精査ステージは、テンプレートに特有の検出、チェック、不正チェックを伴って、追加的な属性の提供と、文書の再スコアリングと、を行ってもよい。そして、
○この処理ステージは、十分に明瞭ではなく追加的な処理を必要とする入力の検証を補助してもよい。
[属性識別/抽出ステージ]
一旦、標準化変換が推定されて、対象文書の画像に適用されると、対象文書の(その個人に固有の内容といった)特定の属性の識別/抽出を行うことができる。
●これらには、個人を識別可能な情報(PII)、署名、ホログラム、タグ等が含まれ得る。
●抽出ステージは、文書要素を、より使用可能なフォーマットに変換又は翻訳する、以下のものといった追加的な後処理ステップを含んでもよい。
○テキスト中の、ノイズを有するフィールドの抽出、つまり、これは、文書の背景、損耗、又は改竄が、テキストのOCR画像内にノイズを生じている状況に対処するために使用することができる。記載された処理ワークフローは、各文書ベースで、予期されるノイズを理解することができ、可能性のある補正を、文書毎に、より細かいスケールで適用できる。
○名前表記/年月日の規範。名前(ファーストネーム、ミドルネーム、及びラストネーム)、年月日、住所等について国際的に合意を得たフォーマットが存在しないため、各文書は、それ自体の規範に従い得る。このことが特に当てはまるのは、異なる言語を使用して異なる国から発出された(タイプアウトしたフォーマットで、現地の言語で、等において、右横書きのテキスト、左横書きのテキスト、年月日を有し得る)文書である。これらの多数の異なるフォーマットの各々は、各文書ベース/各フィールドベースで対処することができ、抽出結果は、標準的なフォーマットで返すことができる。
○このようなオプションが利用可能な場合、住所、パスポート番号、生年月日等といった文書属性の、標準的なフォーマットへの転換と、信用できるソース(例えば、政府データベース)に照らした検証と、を行って、抽出プロセスの正確度を確実にすること、及び、不正/偽造を防止すること、を可能にする。
○抽出された要素を、取引不正システム、信用調査等といった既存の標準的な不正モデルへの入力として、追加的なデータとして提供して、それらモデル及びシステムの正確度を改善することができる。不正検出メカニズムの例については、より詳細に以下に論述する。
[不正検出ステージ]
文書内の有り得る偽造を検出することは、文書の真正性の検証に非常に重要なステップである。文書位置合わせステージが、文書の、適正な位置合わせ及び切り取りが行われたバージョンを返すが故に、従来のアプローチと比較して比較的簡単に、複数の不正シナリオを検出することができる。これらの不正シナリオには、以下のもののうちの1つ以上が含まれ得る。
●顔インジェクション:文書内の顔が改竄されている場合、この改竄は、アーチファクト、文書上において予期された背景(或る特定の文書が、偽造者が気付かないかもしれない背景/顔サイズの厳しい制限事項を有しているため)、予期された年齢/性別の範囲等、を編集するためのチェックにより、検出することができる。
●フォントインジェクション:各文書のフォントは、適正に位置合わせされた文書上において、比較的高い精度で識別することができる。このことは、文書内のテキストが改竄されているのかを決定することを助けるが、その理由は、編集された文書テキストが、正当な文書のフォント、間隔、レタリングフォーマット、並びに、背景及びサイズの制約に適合しないことがあり得るためである。
●ホログラム及びロゴ:ホログラム、透かし、ロゴ等といったオブジェクトは、その公式バージョンに照らして検出及び検証を行うことができる。或る特定のIDカード及びパスポートは、顔のホログラムを冗長因子として有する。つまり、これらに、文書内の顔写真に照らした類似度チェックを行うことができる。
●カラープロファイル:文書が編集されているか、又は、文書にフィルタリングが適用されている場合、その編集又はフィルタリングを、当該文書の、正当であることが既知であって公式のバージョンの、予期されたカラープロファイルに照らしたマッチングにより、時としてスクリーニングアウトすることができる。
●スクリーンショット又はスクリーンキャプチャ:画面の外部レコーディング及びスクリーンショットを、画面上の、画面フリッカーアーチファクト、画像内の他のオブジェクト、UI要素等に基づいて検出することができる。
●不正文書フィンガープリント:インターネットは、多くのサンプル及び偽の文書へのアクセスを提供する。それらの各々を、スクレイピングすることができ、このような文書のデータベースには、デジタルフィンガープリント処理を行うことができる。これは、インターネットサンプル、偽の文書、又は、その編集されたバージョンが、検証用に提出される状況の検出を助ける。
●デジタル文書フィンガープリント:デジタル文書の場合には、チェックサム及びハッシュを使用して、他の形態の不正チェックに加え、文書のデジタルフィンガープリントの検証を行うことができる。
●データベースチェック:データベースを提供する公的エンティティ(政府機関等)の数は多数であって且つ増大しており、当該データベースを使用者して、それらエンティティが発行した公的文書を認証することができる。これらのデータベースにより、他の不正チェックに合格することが可能な不正文書の許容又は検証を防止する、追加的なレベルのセキュリティがもたらされる。
不正シナリオの各々は、スコアに関連付けることができ、これらスコアを組み合わせて、対象文書についての総合的スコア又は評価が生成される。いくつかの実施形態において、顔インジェクション、フォントインジェクション、又は偽の文書といった或る特定の不正の試みは、問題の文書の拒否を生じ得る。(或る特定のデータベースが、あらゆる人の詳細を含んでいないことに起因する)データベースマッチング誤りといった他の形態の潜在的な不正には、フラグを立てるものの、拒否の根拠としては使用しない、ことがあり得る。潜在的な不正表示と、関連付けられた確信度レベルと、を使用して、特定のアプリケーション又はユースケースを参照した、文書の許可又は拒否を行うことができる。
いくつかの実施形態では、ユースケースに依存して、独自に、異なる不正チェックの選択又は適用を行うことができる。例えば、低リスクの不正ユースケースは、公的データベースチェックを省略してもよく、一方で、銀行業務のアプリケーションは、不正チェックの全てに適用された厳しい基準を必要としてもよい。不正シナリオは、文書のテンプレートに基づいて、各文書ベース/各フィールドベースで構成することができる。このアプローチは、利用可能である多種多様な文書の、より効果的な取り扱いに適している。
文書の認証及び検証のために本明細書に記載されたシステム及び方法の実施形態は、述べてきた利点に加え、以下の利点及び利益のうちの1つ以上をもたらし得る。
○スケーラビリティ:このシステム及び方法は、一度に数百個から数千個のテンプレートと共に使用され得る(注記されることとして、記載された処理は、数百個のテンプレートを用いて試験済みである)。
○データ要件:このシステム及び方法は、テンプレートの作成に、既知の正当な文書の単一の画像しか必要としない。
○テンプレート作成速度:テンプレート作成処理の、全てではなくともほとんど(突出した特徴と、存在する特徴のタイプと、の識別を含む)の自動化が可能である。
○多様性:このシステム及び方法は、(画像及びテキストといった)異なるモードからの特徴を、使用された検出メカニズムに関係なく、スコアへと組み合わせる能力を含んでいる。異なる検出メカニズムは、異なる正確度を有することができ、文書内の異なる特徴を識別及び抽出するために使用され得る。各属性には重みが与えられてもよく、この重みは、当該重みと、検出の確率と、を集計することによるスコアの算出を助ける。これにより、異なる検出メカニズムの全てを表す、1つ以上のスコアが生じる。
○比較されたフィールド数:このシステム及び方法は、典型的に、1つのテンプレートにつき20個から100個の間の属性を使用する。各属性は、検証の一点であり、微細な違いを呈した検証メカニズムを提供する。
○デバッギング:このシステム及び方法は、各フィールドが別々に取り扱われるが故に、どの属性が検証不可能であったのかを識別する能力を提供する。「検証しなければならない」フィールド(例えば、ロゴ又は顔)が存在しない場合、各フィールドが別々に検出されるが故に、そのことを迅速に識別することができる。
○これは、検証スコアが単一のモデルに基づいているが故に、個々のフィールドエラーを突き止めることがより難しい、従来の単一分類器によるアプローチとは対照的である。また、別個の属性の検出は、クライアントが異なれば、当該クライアントに特有の要件に基づいて、「検証しなければならない」フィールドも異なることを見込んでいるが、このことは、単一分類器ベースの検証シナリオでは不可能である。
○抽出:テンプレートがフィールドレベルで理解されているが故に、文書から情報を抽出して、当該情報を複数個の形にフォーマット化することが可能である。
○堅牢性:いくつかのスコアの集計により、単一の文書レベル分類器と比較して、ノイズに対してより堅牢な測定基準が生じる。例えば、単一分類器によるアプローチは、敵対的攻撃(例えば、画像に加えられた特定のグラデーションノイズが、分類器に、犬を猫として分類させ得る)を被りやすい。本明細書に記載されたシステム及び方法は、複数のモードにわたって複数の属性を使用するため、これらの種類の攻撃は不可能である。その理由は、(属性が、異なるモードのデータを使用して、異なる訓練メカニズムに関連付けられているが故に、)或る属性に影響を及ぼすグラデーションノイズが他の属性に影響を及ぼさないためである。そして、
○網羅する範囲:記載されたこのシステム及び方法は、これまでの方法と比較して、複数の検出及び認識メカニズムを組み合わせる能力を有しており、それらを使用して、情報の抽出及びスコアリングを行うことができる。つまり、これにより、評価することが可能な文書の種類が増大する。例えば、記載されたシステムは、以下のものを含む文書の処理及び検証又は認証を行うことができる。
○本人確認文書、
○学問課程の修了証明書、
○専門職の証明書、
○修了証書、
○イベントへの登録、
○料金支払いの領収書、
○製品又はサービスのバウチャー、
○会場へ入場するための文書、
○郵送投票用紙(ロゴ、ヘッダ、印影/ホログラム、フィールド詳細、文書レイアウト、及び署名を使用して、文書の正当性認証、及び、個人の投票の抽出、を行うことができる)、並びに
○店の領収書(このシステムを使用して、請求情報を編集することができる)。
このような柔軟性が与えられると、このシステムは、身分証明カード、運転免許証、パスポート、卒業証明書、銀行預金残高証明書、住所証明書類、出生証明書、請求明細書、保険カード、投票用紙(郵送投票用紙)、デジタル身分証明及び電子国民身分証明の文書、並びに、登録又は認定の証明を示すために使用されている文書、を含む多種多様なユースケースに適用されることが可能である。
図4は、この発明のいくつかの実施形態に従った方法、プロセス、機能、又は動作を実装するように構成されたコンピューティングデバイス、サーバ、プラットフォーム、又はシステム400内に存在し得る要素又はコンポーネントを例示する図である。注記されたように、いくつかの実施形態では、この発明のシステム及び方法は、処理要素と、実行可能な命令の集合と、を含む装置の形態で実装されてもよい。いくつかの実施形態では、この装置は、遠隔配置されたプラットフォーム又はシステムの一部であるサーバであってもよい。実行可能な命令は、ソフトウェアアプリケーションの一部であってもよく、ソフトウェアアーキテクチャへ配置されてもよい。概して、この発明の一実施形態は、(GPU、TPU、CPU、マイクロプロセッサ、プロセッサ、コントローラ、コンピューティングデバイス等といった)好適にプログラムされた処理要素により実行されるように設計されたソフトウェア命令の集合を使用して実装されてもよい。複雑なアプリケーション又はシステムにおいて、このような命令は、典型的に、「モジュール」へ配置され、このようなモジュールの各々は、典型的に、特定のタスク、プロセス、機能、又は動作を実行する。モジュールの集合全体は、それらの動作が、オペレーティングシステム(OS)又は他の形の組織的プラットフォームにより制御又は協調されてもよい。
アプリケーションモジュール及び/又はサブモジュールは、プログラミング言語に対応するコンピュータで実行可能なコードといった、任意の好適なコンピュータで実行可能なコード又は命令の集合(例えば、好適にプログラムされたプロセッサ、マイクロプロセッサ、又はCPUにより実行されるようなもの)を含んでもよい。例えば、プログラミング言語ソースコードが、コンピュータで実行可能なコードにコンパイルされてもよい。プログラミング言語は、代替的に又は追加的に、スクリプト言語といったインタプリタ型プログラミング言語であってよい。
各アプリケーションモジュール又はサブモジュールは、当該モジュール又はサブモジュールにより実装される特定の機能、方法、プロセス、又は動作に対応し得る。このような機能、方法、プロセス、又は動作は、開示されたシステム及び方法の1つ以上の局面を実装するために使用される、例えば、以下のことを行うためのものを含んでもよい。
1.対象文書の画像の受信又は当該画像へのアクセスを行うこと。
2.画像を処理して、対象文書の1つ以上の不変の属性を識別及び/又は抽出すること。
3.対象文書の種類の文書を表す1つ以上のテンプレートの識別を、対象文書内の、識別された不変の属性と、テンプレートの各々に関連付けられた不変の属性と、の合致又は類似度に基づいて行うこと。
○このステップが生じ得るのは、対象文書の画像を、各テンプレートに関連付けられた文書の標準的な形式の画像と、より良好に比較され得る形式に変換する、当該画像に適用する好適な変換を特定するステップの前及び/又は後に続いて、であることに留意されたい。
4.(必要な場合に)対象文書の画像を、最も可能性の高い又は最も良く適合するテンプレートにより表された種類の画像の標準的な形式に変換する変換を推定すること。
○潜在的な各変換又は変換の集合を評価して、1つ以上のテンプレートに関連付けられた画像に対する最良の適合を生じる1つ以上の変換を決定すること。
5.推定された変換を、対象文書の画像に適用すること。
6.当該変換に基づいて、対象文書と1つ以上のテンプレートとの間の合致の、確信度レベル又は確信された正確度を反映するスコアを生成すること。
○フォント検証処理を実行して、対象文書と1つ以上のテンプレートとの間の対応関係の正確度のさらなる検証、及び/又は、対象文書を表す、最も可能性の高い文書テンプレートの特定の支援、のいずれかを行うこと。
7.生成されたスコアが閾値又は確信度レベルを満たしているのかを決定すること。
○生成されたスコアが閾値又は確信度レベルを満たしている場合、対象文書を、当該対象文書を最も良く表すテンプレートに基づいて、特定の文書種類又はクラスとして分類すること。
○対象文書のクラス又は種類を表すテンプレートに関連付けられたファイル及び/又はメタデータにアクセスすること。
○対象文書のクラスが与えられると、さらなる認証又は検証処理(不変の属性及び内容の双方について、テンプレートの属性及び要件と比較する)において使用するために、対象文書から、1つ以上のフィールド、データ、要素、属性、又は局面を識別/抽出すること。
■不正検出処理を実行すること。
■内容フォーマットチェック(例えば、年月日、識別番号等について)。
■抽出された(生年月日といった)内容データ又は情報にフォント検証処理を実行して、フィールド内の情報が、正当な書体であるか、予期された間隔を有しているのか等を決定すること。
■外部データベースにアクセスして、生年月日、名前、住所、免許証識別番号等といった、抽出された内容データ又は情報の、確認又は正当性検証を行うこと。
○生成されたスコアが閾値レベル又は確信度値を満たしていない場合、(利用可能なものがあれば)最も可能性の高いテンプレートに特有の追加的な属性を用いて、再スコアリングを行い、変換推定ステップ以降の処理を再度行い、それでもなおスコアが閾値を満たしていない場合、当該文書を、検証又は認証が不可能であるとして拒否すること。
図に示されるように、システム400は、サーバ、又は、他の形態のコンピューティング若しくはデータ処理デバイス若しくは装置を表してもよい。モジュール402の各々は、実行可能な命令の集合を格納しており、ここでは、これら命令の集合が、(図中、「物理プロセッサ430」により示されたものといった)好適な電子プロセッサにより実行されると、システム(又は、サーバか、装置か、デバイス)400は、特定の処理、動作、機能、又は方法を実行するように動作する。モジュール402は、メモリ420内に格納されており、メモリ420は、典型的に、命令を含むオペレーティングシステムモジュール404を含んでおり、当該命令は、(他の機能の中でも)他のモジュールに含まれた命令にアクセスして当該命令の実行を制御するために使用される。メモリ420内のモジュール402は、「バス」又は通信回線419を使用することによるデータの転送及び命令の実行という目的でアクセスされ、バス又は通信回線419は、プロセッサ430が、命令の集合にアクセスしてそれを実行する目的で、モジュールと通信できるようにも働く。また、バス又は通信回線419は、プロセッサ430が、入力又は出力デバイス422、システム400にとって外部のデバイスとデータ及び情報を交換するための通信要素424、並びに、追加的なメモリデバイス426、といったシステム400の他の要素と相互作用することも可能にする。
図に示されるように、モジュール402は、図1(b)、図1(f)、図2(a)、又は図2(b)を参照して説明した方法又は機能を実行するための命令の1つ以上の集合を含んでもよい。これらのモジュールは、例示されたものを含み得るが、含んでいる数は、例示されたものよりも多くてもよいし、又は少なくてもよい。さらに、モジュール内に含まれたコンピュータで実行可能な命令は、同じプロセッサ又は異なるプロセッサにより実行されてもよい。
一例として、対象の画像の受信又は当該画像へのアクセスを行うモジュール406は、実行されると、対象文書の画像を取得し、入力として受信し、取り出すか又は他の態様でアクセスする、処理を実行する命令を含んでもよい。画像は、ユーザにより、ウェブサイトへのアップロードを介して、又は、メッセージへのアタッチメントとして、提供されてもよい。対象文書の画像を処理して不変の属性を識別するモジュール408は、実行されると、対象文書の画像内の1つ以上の不変の属性を識別する処理を実行する命令を含んでもよい。記載したように、これらには、画像にスキュー又は歪みが生じている場合でさえも確信的に認識することが可能であり、且つ、当該文書を所持している個人により提供された情報又はデータを表していない、ラベル、ヘッダ、フィールド名、ロゴ、ホログラム、印影、又は、同様の特徴が含まれてもよい。対象文書を表す1つ以上のテンプレートを識別するモジュール410は、実行されると、不変の属性に基づいて、対象文書を表している又は対象文書に対応している可能性が最も高い、1つ以上のテンプレートを決定する処理を実行する命令を含んでもよい。対象文書の画像を標準的な形式に変換する変換を推定するモジュール412は、実行されると、対象文書の画像を、1つ以上のテンプレートの各々により表された文書種類の標準的な形式に変換するために、本明細書に記載された種類(ホモグラフィ、アフィン、回転等)の1つ以上の変換を決定する処理を実行する命令を含んでもよい。このことは、当該画像の他の要素の、より正確な処理を支援することができる。(オプションの)フォント検証を実行してテンプレートに対する合致をスコアリングするモジュール414は、実行されると、対象文書を表している又は対象文書に対応している、最も可能性の高いテンプレートの、さらなる検証の一部として、不変の属性のうちの1つ以上について、対象文書内で使用されているフォントを検証する処理を実行する命令を含んでもよい。また、このモジュールは、1つ以上のテンプレートの各々に対する、対象文書の合致の相対度を表すスコアを生成する命令も含んでもよい。スコアが閾値を超えている場合に対象文書から内容を抽出して内容検証を実行するモジュール416は、実行されると、対象文書のスコアが所望の閾値を超えているのかを決定して、超えている場合に、対象文書から内容情報又はデータを抽出する、処理を実行する命令を含んでもよい。抽出された内容には、対象文書及び当該対象文書が含む情報の認証又は検証の一部として、1つ以上のさらなる試験又は評価が施されてもよい。いくつかの実施形態において、これらのさらなる試験又は評価には、不正検出処理の実行、内容フォーマットチェック、抽出された内容データ若しくは情報に対するフォント検証処理の実行、又は、外部のデータベースにアクセスして、抽出された内容データ若しくは情報を確認又は正当性検証すること、が含まれてもよい。スコアが閾値を超えていない場合に追加的な属性を用いて再スコアリングを行うモジュール418は、実行されると、1つ以上のテンプレートからの追加的な属性を考慮した後に、対象文書について改訂されたスコアを生成する処理を実行する命令を含んでもよい。
いくつかの実施形態では、本明細書に記載されたシステム及び方法によって提供される機能性及びサービスは、複数のユーザにとって、サーバ又はサービスプラットフォームにより維持されているアカウントにアクセスすることにより、利用可能になってもよい。このようなサーバ又はサービスプラットフォームは、或る形態の、サービスとしてのソフトウェア(SaaS)と称され得る。図5は、この発明の一実施形態が実装され得るSaaSシステムを例示する図である。図6は、この発明の一実施形態が実装され得る例示的な動作環境の要素又はコンポーネントを例示する図である。図7は、この発明の一実施形態が実装され得る、図6のマルチテナント分散コンピューティングサービスプラットフォームの要素又はコンポーネントの追加的な詳細を例示する図である。
いくつかの実施形態では、本明細書に記載された文書処理システム又はサービスは、対象文書の提出に応じて実行される、マイクロサービス、プロセス、ワークフロー、又は機能として実装され得る。当該マイクロサービス、プロセス、ワークフロー、又は機能は、サーバ、データ処理要素、プラットフォーム、又はシステムにより実行されてもよい。いくつかの実施形態では、文書の評価、認証、若しくは検証サービス及び/又は身元検証サービスは、「クラウド内」に位置するサービスプラットフォームにより提供されてもよい。このような実施形態において、プラットフォームは、API及びSDKを通じてアクセス可能である。フォント検証及び画像処理サービスは、プラットフォーム内のマイクロサービスとして提供されてもよい。マイクロサービスに対するインターフェイスは、REST及びGraphQLのエンドポイントにより定義されてもよい。管理運営コンソールにより、ユーザ又は管理運営者は、基礎となる要求データ及び応答データに安全にアクセスすること、アカウント及びアクセスを管理すること、並びに、いくつかの場合において、処理ワークフロー又は構成を修正すること、が可能になり得る。
図5~図7は、ビジネス関連の又は他のアプリケーション及びサービスを、複数のアカウント/複数のユーザに配信するために使用され得るマルチテナント又はSaaSアーキテクチャを例示しているが、このようなアーキテクチャが、他の種類のデータ処理サービスの配信、及び、他のアプリケーションへのアクセスの提供、のために使用されてもよいことに留意されたい。例えば、このようなアーキテクチャは、文書の認証及び検証サービスの提供を、文書内に含まれる情報の正当性、又は、本人確認文書を提示する個人の身元、の確認と併せて行うために使用されてもよい。いくつかの実施形態では、図5~図7に例示された種類のプラットフォーム又はシステムは、第三者のプロバイダにより運用されて、ビジネス関連のアプリケーションの特定の集合を提供してもよいが、他の実施形態では、このプラットフォームは、プロバイダにより運用されてもよく、異なるビジネスが、このプラットフォームを通じてユーザのためにアプリケーション又はサービスを提供してもよい。
図5は、この発明の一実施形態が実装され得るか、又は、本明細書に記載された文書認証/検証サービスの一実施形態へのアクセスを中継し得る、システム500を例示する図である。アプリケーションサービスプロバイダ(ASP)によりホストされる、(マルチテナントデータ処理プラットフォームといった)ビジネスサービスシステムの利点によると、本明細書に記載されたサービスのユーザには、個人、ビジネス、店、組織等が含まれ得る。ユーザは、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スキャナ、スマートフォン等を含むがこれらに限定されない、任意の好適なクライアントを使用して、文書処理サービスにアクセスしてもよい。概して、インターネット及び(好ましくはカメラ又は他の画像取り込みデバイス)へのアクセスを有している任意のクライアントデバイスが使用されて、処理のために、プラットフォームに文書の画像が提供されてもよい。ユーザは、インターネット512、又は別の好適な通信ネットワーク、又はネットワークの組合せ、を介してサービスプラットフォームに接続して連係する。好適なクライアントデバイスの例には、デスクトップコンピュータ503、スマートフォン504、タブレットコンピュータ505、又は、ラップトップコンピュータ506が含まれる。
文書認証及び検証システム510は、第三者によりホストされてもよく、図5に示されるように結合された、文書認証サービス512及びウェブインターフェイスサーバ514の集合を含んでもよい。文書処理サービス512及びウェブインターフェイスサーバ514のいずれか一方又は双方は、図5において単体のユニットとして表されているものの、1つ以上の異なるハードウェアシステム及びコンポーネント上に実装されてもよいことを認識されるべきである。文書処理サービス512は、対象文書の認証又は検証の一部として、文書画像の処理のための1つ以上の機能又は動作を含んでもよい。
いくつかの実施形態では、ユーザにとって利用可能なアプリケーションの集合は、文書認証、文書検証、及び、文書内に含まれた情報の検証、のために、本明細書に記載された機能及び方法を実行する1つ以上を含んでもよい。論述したように、これらの機能又は処理ワークフローは、個人の本人確認の検証を、当該個人による、会場へのアクセス、システムの使用、サービスの集合の取得等を可能にする目的で行うために使用されてもよい。加えて又はその代わりに、これらの機能又は処理ワークフローは、文書の検証及び文書内に含まれた情報の収集を、要件への準拠、学問課程の修了又は認定取得の証明、選挙で個人がどのように投票したかの決定、経費の追跡等といった目的で行うために使用されてもよい。
例として、いくつかの実施形態では、プラットフォーム又はシステム510を通じて利用可能になった文書処理アプリケーション、機能、動作、又はサービスの集合は、以下のものを含んでもよい。
●アカウント管理サービス516。例えば、
○評価のために対象文書の提出を望んでいるユーザを認証する処理又はサービス、
○対象文書を評価する要求を受信し、対象文書の画像を評価する準備をする、処理又はサービス、
○対象文書の、要求された評価についての価格(これは、当該文書についての種類又は使用、当該評価を要求するユーザ、関連産業及びその要件、同様の文書の評価における先行経験、ユーザとの価格決定協定等に基づき得る)を生成する処理又はサービス、
○対象文書についての文書評価処理のコンテナ又はインスタンシエーションを生成する処理又はサービス、或いは、
○他の形態のアカウント管理サービス。
●テンプレート識別処理又はサービス517。例えば、
○対象文書の画像から、1つ以上の不変の属性を識別及び抽出する処理又はサービス、
○対象文書の画像を、1つ以上のテンプレートにより表された文書種類又はクラスの、より標準的な形式に変換する1つ以上の変換を、決定する処理又はサービス、
○スコアリング方法に基づいて、対象文書の画像内の文書の種類を最も良く表している、1つ以上の最も可能性の高いテンプレートを識別する処理又はサービス。
●文書加工処理又はサービス518。例えば、
○対象文書から、(フィールド内に配置された情報等といった)内容データ又は情報を抽出する処理又はサービス。
●抽出された内容を評価する処理又はサービス519。例えば、
○対象文書の内容に関して潜在的な不正を識別し、抽出された内容の一部若しくは全ての、外部のデータベースを用いた検証を試みるか、又は、(本明細書に記載されたフォント処理といったように)抽出された内容を他の態様で処理して、その真正性の検証を試みる、処理又はサービス。
●スコアを生成して出力する処理又はサービス520。例えば、
○文書、及び/又は、その属性若しくは内容データのうちの1つ以上、の真正性の確信度レベルを表す、ヒートマップ、数値スコア、相対的スコア等、といったスコア又はメトリックを生成又は決定する処理又はサービス。そして、
●管理運営サービス520。例えば、
○文書評価サービスのプロバイダ及び/又はプラットフォームが、依頼人に提供された処理及びサービスの管理運営及び構成を行うことを、例えば、価格決定モデルの変更、対象文書を処理するためのワークフローの変更、異なるスコアリング方法体系の導入等により、可能にする処理又はサービス。
図5に示されたプラットフォーム又はシステムは、少なくとも1つであるが可能性としては複数の「サーバ」により構成された、分散コンピューティングシステム上でホストされてもよい。サーバは、例えば、インターネットといった公衆ネットワークを介して、当該サーバとデータ通信を行っている他のコンピュータのユーザの必要性に応えることが意図される1つ以上のソフトウェアアプリケーション又はサービスのために、データストレージ及び実行環境を提供するための専用の物理コンピュータである。サーバ及び当該サーバが提供するサービスは、「ホスト」と称されてもよく、リモートコンピュータと、サービスされている当該リモートコンピュータ上で稼働しているソフトウェアアプリケーションと、は「クライアント」と称されてもよい。サーバが提供するコンピューティングサービスに依存して、サーバは、データベースサーバ、データストレージサーバ、ファイルサーバ、メールサーバ、プリントサーバ、ウェブサーバ等と称され得る。ウェブサーバは、ほとんどの場合、通例、ウェブサイトをホストすることによって、インターネットを介してウェブサーバにアクセスするクライアントウェブブラウザへのコンテンツ配信を助ける、ハードウェア及びソフトウェアの組合せである。
図6は、この発明の一実施形態が実装され得る例示的な動作環境600の要素又はコンポーネントを例示する図である。示されるように、多様なコンピューティングデバイスを組み込んでいる、及び/又は、多様なコンピューティングデバイスに組み込まれている、多様なクライアント602は、1つ以上のネットワーク614を通じてマルチテナントサービスプラットフォーム608と通信してもよい。例えば、クライアントは、これらのコンピューティングデバイスのうちの1つ以上によって少なくとも部分的に実装されたクライアントアプリケーション(例えば、ソフトウェア)を組み込んでもよいし、及び/又は、当該クライアントアプリケーションに組み込まれてもよい。好適なコンピューティングデバイスの例には、パーソナルコンピュータ、サーバコンピュータ604、デスクトップコンピュータ606、ラップトップコンピュータ607、ノート型コンピュータ、タブレットコンピュータ又はパーソナルデジタルアシスタント(PDA)610、スマートフォン612、携帯電話、及び、1つ以上の電子プロセッサ、マイクロプロセッサ、中央処理装置(CPU)、又はコントローラといった1つ以上のコンピューティングデバイスコンポーネントを組み込んだ家庭用電子デバイス、が含まれる。好適なネットワーク614の例には、ワイヤード及び/又はワイヤレス通信技術を利用するネットワーク、並びに、任意の好適なネットワーキング及び/又は通信プロトコルに従って動作するネットワーク(例えば、インターネット)、が含まれる。
(マルチテナントデータ処理プラットフォームとも称されてもよい)分散コンピューティングサービス/プラットフォーム608は、ユーザインターフェイス層616、アプリケーションサーバ層620、及びデータストレージ層624を含む複数個の処理層を含んでもよい。ユーザインターフェイス層616は、グラフィカルユーザインターフェイス及び/又はウェブベースのインターフェイスを含む、複数のユーザインターフェイス617を維持してもよい。ユーザインターフェイスは、(図中、「サービスUI」として描かれた)サービス用のデフォルトユーザインターフェイスであって、当該サービスのユーザ又は「テナント」に、アプリケーション及びデータへのアクセスを提供する、デフォルトユーザインターフェイスと、ユーザ特有の要件に従って特化/カスタマイズされた1つ以上の(例えば、図中、「テナントA UI」、…、「テナントZ UI」により表され、1つ以上のAPIを介してアクセスされ得る)ユーザインターフェイスと、を含んでもよい。
デフォルトユーザインターフェイスは、サービスプラットフォームにより提供された機能及び能力にテナントがアクセスすること、並びに、当該機能及び当該能力をテナントが使用すること、を当該テナントが管理運営することを可能にする、ユーザインターフェイスコンポーネントを含んでもよい。これには、テナントデータにアクセスすること、特定のアプリケーションのインスタンシエーションに着手すること、特定のデータ処理動作の実行を生じること等が含まれてもよい。図に示される、各アプリケーションサーバ又は処理層622は、コンピュータサーバ及びプロセッサを含むコンピュータ及び/又はコンポーネントの集合を用いて実装されてもよく、ソフトウェアアプリケーション又は命令の集合の実行により決定されるような、様々な機能、方法、処理、又は動作を実行してもよい。データストレージ層624は、1つ以上のデータストアを含んでもよく、当該データストアは、サービスデータストア625及び1つ以上のテナントデータストア626を含んでもよい。データストアは、構造化照会言語(SQL)を基礎とするリレーショナルデータベース管理システム(RDBMS)を含む、任意の好適なデータストレージ技術を用いて実装されてもよい。
サービスプラットフォーム608は、複数のテナントに対し、ビジネス関連の又は他の、データ処理アプリケーション、データストレージ、及び機能性の集合を提供するために、マルチテナント性であってもよく、エンティティにより運用されてもよい。例えば、アプリケーション及び機能性には、ビジネスにより使用される機能性へのウェブベースのアクセスを提供して、エンドユーザにサービスを提供し、それにより、ブラウザ及びインターネット接続又はイントラネット接続を有しているユーザによる、或る特定の種類の情報の閲覧、入力、処理、又は修正、を可能にすること、が含まれてもよい。このような機能又はアプリケーションは、典型的に、プラットフォームのアプリケーションサーバ層620の一部である1つ以上のサーバ622上で維持されるとともに当該サーバ622により実行される、ソフトウェアコード/命令の1つ以上のモジュールにより実装される。図5に関して注記されたように、図6に示されたプラットフォームシステムは、少なくとも1つであるが典型的には複数の「サーバ」により構成された、分散コンピューティングシステム上でホストされてもよい。
述べたように、ビジネスは、このようなプラットフォーム又はシステムを自身で構築及び維持するよりもむしろ、第三者により提供されたシステムを利用してもよい。第三者は、マルチテナントプラットフォームのコンテキストにおいて、上記のようなビジネスシステム/プラットフォームを実装してもよく、ここでは、ビジネスの(本明細書に記載された文書認証/検証処理といった)データ処理ワークフローの個々のインスタンシエーションがユーザに提供され、各ビジネスは、当該プラットフォームのテナントを表している。このようなマルチテナントプラットフォームの1つの利点は、各テナントが、データ処理ワークフローのそれらのインスタンシエーションを、そのテナント特有のビジネスの必要性又は運用方法にカスタマイズできる能力である。各テナントは、マルチテナントプラットフォームを使用してビジネスサービス及び機能性を複数のユーザに提供する、ビジネス又はエンティティであってもよい。
図7は、この発明の一実施形態が実装され得る、図6のマルチテナント分散コンピューティングサービスプラットフォームの要素又はコンポーネントの追加的な詳細を例示する図である。図7に示されるソフトウェアアーキテクチャは、この発明の一実施形態を実装するために使用され得るアーキテクチャの一例を表している。概して、この発明の一実施形態は、好適にプログラムされた(CPU、マイクロプロセッサ、プロセッサ、コントローラ、コンピューティングデバイス等といった)処理要素により実行されるように設計されたソフトウェア命令の集合を使用して実装されてもよい。複雑なシステムにおいて、このような命令は、典型的に、「モジュール」へと配置され、このようなモジュールの各々は、特定のタスク、プロセス、機能、又は動作を実行する。モジュールの集合全体は、それらの動作が、オペレーティングシステム(OS)又は他の形態の組織的プラットフォームにより制御又は協調されてもよい。
注記されたように、図7は、この発明の一実施形態が実装され得るマルチテナント分散コンピューティングサービスプラットフォームの要素又はコンポーネント700の追加的な詳細を例示する図である。この例示的なアーキテクチャは、1つ以上のユーザインターフェイス703を有するユーザインターフェイスレイヤ又は層702を含む。このようなユーザインターフェイスの例には、グラフィカルユーザインターフェイス、及び、アプリケーションプログラムインターフェイス(API)が含まれる。各ユーザインターフェイスは、1つ以上のインターフェイス要素704を含んでもよい。例えば、ユーザは、例示的なアーキテクチャのアプリケーションレイヤ及び/又はデータストレージレイヤにより提供された機能性及び/又はデータにアクセスするために、インターフェイス要素と相互作用してもよい。グラフィカルユーザインターフェイス要素の例には、ボタン、メニュー、チェックボックス、ドロップダウンリスト、スクロールバー、スライダー、スピナー、テキストボックス、アイコン、ラベル、プログレスバー、ステータスバー、ツールバー、ウィンドウ、ハイパーリンク、及び、ダイアログボックスが含まれる。アプリケーションプログラムインターフェイスは、ローカル又はリモートであってもよく、パラメタライズドプロシージャ呼び出し、プログラム的オブジェクト、及び、メッセージ通信プロトコルといったインターフェイス要素を含んでもよい。
アプリケーションレイヤ710は、1つ以上のアプリケーションモジュール711を含んでもよく、それらの各々は、1つ以上のサブモジュール712を有する。各アプリケーションモジュール711又はサブモジュール712は、当該モジュール又はサブモジュールにより実装される機能、方法、処理、又は動作(例えば、ビジネス関連のデータ処理及びサービスを、プラットフォームのユーザに提供することに関連する機能又は処理)に対応してもよい。このような機能、方法、処理、又は動作は、この発明のシステム及び方法の1つ以上の局面を実装するために使用される、例えば、以下のような、図1(b)、図1(c)、図1(g)、図2(a)、図2(b)、図4、及び、図5を参照して説明した処理又は機能のうちの1つ以上を行うためのものを含んでもよい。
1.対象文書の画像の受信又は当該画像へのアクセスを行うこと。
2.画像を処理して、対象文書の1つ以上の不変の属性を識別及び/又は抽出すること。
3.対象文書の種類の文書を表す1つ以上のテンプレートの識別を、対象文書内の、識別された不変の属性と、テンプレートの各々に関連付けられた不変の属性と、の合致又は類似度に基づいて行うこと。
○このステップは、対象文書の画像を、各テンプレートに関連付けられた文書の標準的な形式の画像と、より良好に比較され得る形式に変換する、当該画像に適用する好適な変換を決定するステップの前及び/又は後に続いて生じてもよいことに留意されたい。
4.(必要な場合に)対象文書の画像を、最も可能性の高い又は最も良く適合するテンプレートにより表された種類の画像の標準的な形式に変換する変換を推定すること。
○潜在的な各変換又は変換の集合を評価して、1つ以上のテンプレートに関連付けられた画像に対する最良の適合を生じる1つ以上の変換を決定すること。
5.推定された変換を、対象文書の画像に適用すること。
6.当該変換に基づいて、対象文書と1つ以上のテンプレートとの間の合致の、確信度レベル又は確信された正確度を反映するスコアを生成すること。
○フォント検証処理を実行して、対象文書と1つ以上のテンプレートとの間の対応関係の正確度のさらなる検証、及び/又は、対象文書を表す、最も可能性の高い文書テンプレートの決定の支援、のいずれかを行うこと。
7.生成されたスコアが閾値又は確信度レベルを満たしているのかを決定すること。
○生成されたスコアが閾値又は確信度レベルを満たしている場合、対象文書を、当該対象文書を最も良く表すテンプレートに基づいて、特定の文書種類又はクラスとして分類すること。
○対象文書のクラス又は種類を表すテンプレートに関連付けられたファイル及び/又はメタデータにアクセスすること。
○対象文書のクラスが与えられると、さらなる認証又は検証処理(不変の属性及び内容の双方について、テンプレートの属性及び要件と比較する)において使用するために、対象文書から、1つ以上のフィールド、データ、要素、属性、又は局面を識別/抽出すること。
■不正検出処理を実行すること。
■内容フォーマットチェック(例えば、年月日、識別番号等について)。
■抽出された(生年月日といった)内容データ又は情報にフォント検証処理を実行して、フィールド内の情報が、正当な書体であるか、予期された間隔を有しているか等を決定すること。
■外部のデータベースにアクセスして、生年月日、名前、住所、免許証識別番号等といった、抽出された内容データ又は情報の、確認又は正当性検証を行うこと。
○生成されたスコアが閾値レベル又は確信度値を満たしていない場合、(利用可能なものがあれば)最も可能性の高いテンプレートに特有の追加的な属性を用いて、再スコアリングを行い、変換推定ステップ以降の処理を再度行い、それでもなおスコアが閾値を満たしていない場合、当該文書を、検証又は認証が不可能であるとして拒否すること。
アプリケーションモジュール及び/又はサブモジュールは、プログラミング言語に対応するコンピュータで実行可能なコードといった、任意の好適なコンピュータで実行可能なコード又は命令の集合(例えば、好適にプログラムされたプロセッサ、マイクロプロセッサ、又はCPUにより実行されるようなもの)を含んでもよい。例えば、プログラミング言語ソースコードは、コンピュータで実行可能なコードにコンパイルされてもよい。プログラミング言語は、代替的に又は追加的に、スクリプト言語といったインタプリタ型プログラミング言語であってよい。(例えば、図6の要素622により表されるような)各アプリケーションサーバは、各アプリケーションモジュールを含んでもよい。代替的に、異なるアプリケーションサーバは、アプリケーションモジュールの異なる集合を含んでもよい。このような集合は、交わりを持たなくてもよいし、重なっていてもよい。
データストレージレイヤ720は、1つ以上のデータオブジェクト722を含んでもよく、データオブジェクト722の各々は、属性及び/又は振る舞いといった1つ以上のデータオブジェクトコンポーネント721を有する。例えば、データオブジェクトは、リレーショナルデータベースのテーブルに対応してもよく、データオブジェクトコンポーネントは、このようなテーブルのカラム又はフィールドに対応してもよい。代替的に又は追加的に、データオブジェクトは、フィールド及び関連付けられたサービスを有するデータレコードに対応してもよい。代替的に又は追加的に、データオブジェクトは、構造及びクラスといったプログラム的データオブジェクトの永続インスタンスに対応してもよい。データストレージレイヤ内の各データストアは、各データオブジェクトを含んでもよい。代替的に、異なるデータストアは、データオブジェクトの異なる集合を含んでもよい。このような集合は、交わりを持たなくてもよいし、重なっていてもよい。
図5~図7に描かれた例示的なコンピューティング環境が、例を限定することを意図していないことに留意されたい。この発明の一実施形態が実装され得るさらなる環境は、全部又は一部において、データ入力、データ処理、アプリケーション実行、又はデータ精査のために、複数のユーザにより使用され得る、(モバイルデバイスを含む)デバイス、ソフトウェアアプリケーション、システム、装置、ネットワーク、SaaSプラットフォーム、IaaS(サービスとしてのインフラストラクチャ)プラットフォーム、又は、他の構成可能なコンポーネント、を含む。別の例として、本明細書に記載された画像及びテキストの処理は、ロボティックプロセスオートメーション作業と共に使用され得り、当該作業は、現在のコンピュータ画面の理解に依拠しており、ユーザのアクティビティを推論するように動作する。
理解されるべきこととして、上記のような本発明は、コンピュータソフトウェアをモジュール式又は一体式で使用する制御ロジックの形態で実装することができる。本明細書に提供された開示及び教示に基づいて、当業者は、ハードウェア並びにハードウェア及びソフトウェアの組合せを使用して、本発明を実装する他の方式及び/又は方法について、知得及び認識するであろう。
いくつかの実施形態では、本明細書に記載された方法、モデル、又は機能のうちの或る特定のものは、訓練したニューラルネットワークの形態で実施されてもよく、ここで、当該ネットワークは、コンピュータで実行可能な命令の集合を実行することにより実装される。これらの命令は、非一時的なコンピュータで読み取り可能な媒体内に(又は媒体上に)格納されてもよく、プログラムされたプロセッサ又は処理要素により実行されてもよい。特定の形態の方法、モデル、又は機能が、ニューラルネットワークの開発又は運用か、機械学習の1つ以上の技法の適用か、或いは、適切な決定書理の開発又は実装、で使用される動作、機能、処理、又は方法のうちの1つ以上を定義するために使用されてもよい。留意されたいこととして、ニューラルネットワーク又は深層学習モデルは、データ構造の形態で特徴付けられてもよく、当該データ構造においては、ノードを包含するレイヤの集合を表すデータが格納されており、異なるレイヤ内のノード間には、入力に作用して決定又は値を出力として提供する接続が作成(又は形成)されている。
一般的には、ニューラルネットワークは、互いの間でメッセージを交換する、相互接続された人工「ニューロン」のシステムと捉えられ得る。接続は、訓練プロセス中に「チューニング」される数値的重みを有しており、それにより、適正に訓練されたネットワークは、(例えば)認識すべき画像又はパターンが提示されたときに、正しく応答する。この特徴付けにおいて、ネットワークは、特徴検出「ニューロン」の複数のレイヤから成り、各レイヤは、前のレイヤからの入力の異なる組合せに応答するニューロンを有する。ネットワークの訓練は、入力の「ラベル付けされた」データ集合を、それらの意図される出力応答に関連付けられた、幅広い取り合わせの代表的入力パターンで使用することにより、実行される。訓練は、汎用方法を使用して、中間特徴ニューロン及び最終特徴ニューロンについての重みを反復的に決定する。計算モデルの観点において、各ニューロンは、入力及び重みのドット積を算出し、バイアスを加算し、(例えば、シグモイド応答関数を使用して)非線形トリガ関数又は活性化関数を適用する。
機械学習モデルは、入力データのサンプルに関する(分類といった)決定を行うように動作する、接続されたニューロンのレイヤの集合である。モデルは、典型的に、入力データの複数の例と、入力データの各集合に関して関連付けられた正しい「応答」又は決定と、を入力することによって訓練される。よって、各入力データ例は、適正に訓練されたモデルが生成するはずの正しい応答のラベル又は他の表示子に関連付けられる。これらの例及びラベルは、モデルを訓練する目的で、モデルに入力される。モデルは、訓練される(即ち、ニューロンを接続する重みが収束して安定性を有するようになるか、又は、許容可能な変化量内に収まるようになる)と、データの入力サンプルに応答して、正しい応答又は決定を生成する、ように動作する。
畳み込みニューラルネットワーク、すなわちCNNは、処理のほとんどが、画像の異なる部分において反復されているという事実を使用する(例えば、本開示のコンテキストでは、文書が画像内のどこに存在するかに関係なく、当該文書を検出することが望まれ得る)。CNNは、画像の内容を簡略化してクラス又はハッシュを効果的に決定するために、(各レベルにおいてスタックされた)複数のレベルのフィルタを使用する。各フィルタは、全結合ニューラルネットワークにおいては必要とされる、(ドット積についての)入力画像のサイズを基準としたニューロンのアレイを有する代わりに、画像の全体にわたって同じ動作(例えば、エッジ検出)を適用する。これにより、CNNの使用は効率的なアプローチとなるが、その理由は、フィルタのサイズが入力画像よりも一段と小さくなるためである(例えば、フィルタは、典型的に、3×3又は5×5アレイであり、一方で、画像のサイズは典型的に、1000×1000である)。レイヤからのフィルタの出力は、次のレイヤに入力され、当該次のレイヤは、僅かにより高いレベルの情報に作用する(例えば、1つ目のレイヤは、未処理の画像画素に作用してもよく、2つ目のレイヤは、エッジマップを入力として有してもよく、開始から数個のレイヤは、円、円弧、又は線のような基本的形状に働いてもよく、さらなるレイヤは、ホイール、目、尻尾等といった、より高いレベルのコンテキストを有してもよい)。各レベルにおいて複雑性を増大させる、この方式は、複数のクラスにわたるフィルタの共有を助ける(例えば、動物分類器は、より低いレベルのフィルタの同じ集合を共有して、異なる種類の動物の目を検出するかもしれない)。
畳み込みネットワークは、検出及び個々の属性認識のステップを実行するモデルにおいて広く使用されている。しかしながら、留意されたいこととして、本明細書に記載された文書認証及び検証フレームワーク/システムは、CNNを使用した実装に限定されない。検出及び識別タスクを高信頼に実行する他のモデルを、高信頼の検証及び抽出のための(SVM、及び、Haar、LBP、HOG等のようなカスケードベースの検出器、といった)フレームワーク/システムと共に使用することができる。検出モデルは、関心の対象となる領域をローカライズすること(例えば、机の中の文書の画像から文書を切り取ること、又は、IDから顔を検出すること)を助ける。認識/探索モデルは、属性のタイプの分類/検証を助ける(例えば、ID内の顔を所与のユーザの顔と比較する顔認識モデル)。
畳み込みニューラルネットワーク(CNN)及び他の機械学習モデルは、本明細書に記載された文書認証及び検証処理の、以下のものを含むがそれらに限定されない、いくつかの部分で使用することができる。
●テキストを検出及び認識するOCRモデル。
●ロゴ、署名、顔、ホログラム、フラグ、印影等といった属性を検出する属性検出器。
●ぼやけ、グレア、ノイズ等といった画像アーチファクトを検出して、劣化した又は変更された文書についてのフィードバックを提供する、アーチファクト検出器。
●検証されている文書内のノイズを一掃する、セグメント化モデル及び自動エンコーダ。
●処理のフォント検証ステージ中に文字をセグメント化する、フォントセグメント化モデル。
●抽出されたフォントを既知の標準的なフォントに合致させて、それらの真正性を検証する照合器。
●関心の対象となる対象文書を背景と共に包含している画像からの、当該文書の検出及び切り取りを助ける文書検出器。そして、
●以下のものを含み得る、不正検出モデル。
○文書内の、編集された顔を認識する、顔インジェクション検出器。
○文書内の、インジェクションされたフォントを検出する、フォントインジェクション検出器。
○文書がデジタル画面又はプリントアウトから取り込まれているか否かを分類する、スクリーンショット又はスクリーンキャプチャ分類器。
○検証されている文書内において検出されたホログラムを認証するホログラム検証モデル。
○文書のカラープロファイルを、予期されたプロファイルと合致させるカラープロファイル照合器。そして、
○検証処理中に入ってくる文書に照らしてクロスチェックされるべき既知の不正文書から、文書フィンガープリントを抽出するモデル。
本明細書に記載されたシステム、方法、及びデバイスの実施形態は、以下を含む。
1.文書を認証するためのシステムであって、
実行可能な命令の集合でプログラムされた電子プロセッサを備え、前記命令が前記電子プロセッサで実行されると、前記命令によって、前記システムが、
対象文書の画像を受信することと、
前記対象文書の1つ以上の不変の属性を識別することであって、不変の属性は、ラベル、タイトル、ヘッダ、フィールド名、ロゴ、ホログラム、透かし、又は、印影のうちの1つ以上である、前記対象文書の1つ以上の不変の属性を識別することと、
文書テンプレートの集合にアクセスすることであって、各テンプレートは、文書の種類の例を表し、文書の各種類に関連付けられた不変の属性の集合に関する情報を含んでいる、文書テンプレートの集合にアクセスすることと、
前記対象文書の前記識別された不変の属性を、テンプレートの前記集合の文書の各種類に関連付けられた前記不変の属性と比較することにより、前記対象文書の前記種類の文書を表している文書テンプレートの前記集合内のテンプレートを識別することと、
前記識別されたテンプレートに関連付けられたデータにアクセスすることであって、前記アクセスされたデータは、前記識別されたテンプレートの不変の属性に関連付けられたフォント種類に関するデータと、前記識別されたテンプレートの不変の属性に関連付けられたフォント特性に関するデータと、前記識別されたテンプレートの不変の属性に関連付けられたフィールド内に入力された情報についてのデータフォーマットと、のうちの1つ以上を含む、前記識別されたテンプレートに関連付けられたデータにアクセスすることと、
前記対象文書の前記不変の属性のうちの1つ以上のフォント又はフォント特性を、前記識別されたテンプレートの不変の属性に関連付けられたフォント又はフォント特性に関する前記データと比較することにより、前記識別されたテンプレートが前記対象文書に充分に近似する合致であることを検証することと、
前記識別されたテンプレートが前記対象文書に充分に近似する合致であれば、追加的な処理のために、前記対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することであって、前記追加的な処理は、前記識別されたデータを、前記識別されたテンプレートに関連付けられた、前記アクセスされたデータと比較することを含み、さらに、前記追加的な処理は、
文書の変更又は改竄の可能性のある事例を識別する不正検出処理と、
不変の属性及び前記識別されたデータが、前記識別されたテンプレートにより表された、文書の前記種類についての予期されたフォーマットであるのかを決定するフォーマットチェックと、
前記識別されたデータが、前記識別されたテンプレートにより表された、文書の前記種類についての予期されたフォント種類及びフォント特性であるのかを決定するフォント検証処理と、
適用可能であれば、外部のデータベースにアクセスして、前記識別されたデータの1つ以上の正当性を確認することと、
のうちの1つ以上を含む、追加的な処理のために、前記対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することと、
前記対象文書が正当であると前記追加的な処理が示すのであれば、前記対象文書及び前記対象文書が含む前記情報が正当であるという表示を生成することと、
を行う、システム。
2.実施形態1のシステムであって、
前記対象文書は、免許証、パスポート、本人確認文書、証明書、修了証書、領収書、又は、会場への入場を許可する文書、のうちの1つである、システム。
3.実施形態1のシステムであって、
各テンプレートに関連付けられた不変の属性の前記集合に関する前記情報は、ファイルに格納されたデータ及びメタデータのうちの1つ以上の形態である、システム。
4.実施形態1のシステムであって、前記対象文書の前記種類の文書を表しているテンプレートの前記集合内のテンプレートを識別することは、さらに、前記対象文書に関連付けられたスコアが閾値を超えているのかを決定することを含み、前記スコアは、前記対象文書の前記不変の属性に基づいている、システム。
5.実施形態1のシステムであって、
前記識別されたテンプレートが前記対象文書に充分に近似する合致であることを検証することの前に、前記命令によって、前記システムが、
前記対象文書の前記画像を、前記識別されたテンプレートにより表された前記種類の文書の画像の標準的な形式に変換する変換を決定することと、
決定された変換を、前記対象文書の前記画像に適用することと、
を行うように動作する、システム。
6.実施形態5のシステムであって、
前記対象文書の前記画像を標準的な形式に変換する前記変換は、ホモグラフィ変換、アフィン変換、及び回転のうちの1つ以上である、システム。
7.実施形態5のシステムであって、さらに、
前記変換を前記対象文書の前記画像に適用した結果が、前記識別されたテンプレートにより表された前記種類の文書の前記画像の前記標準的な形式にどの程度近似して合致しているのかを評価することにより、前記変換を決定することを含む、システム。
8.実施形態7のシステムであって、
前記変換を前記対象文書の前記画像に適用した前記結果が、前記識別されたテンプレートにより表された前記種類の文書の前記画像の前記標準的な形式にどの程度近似して合致しているのかを評価することは、外れ値耐性推定プロセスを使用することを含む、システム。
9.実施形態1のシステムであって、
前記対象文書及び前記対象文書が含む前記情報が正当であるという表示を生成することに応じて、前記システムは、前記対象文書を所持している個人が、場所、会場、又は、制限区域へ入ることを許可するように動作する、システム。
10.実施形態1のシステムであって、
追加的な処理のために識別された、前記対象文書のフィールド内に配置されたデータの前記1つ以上の要素は、前記対象文書が識別することになっている個人に特有の情報を含む、システム。
11.実施形態10のシステムであって、
前記対象文書が識別することになっている個人に特有の前記情報は、名前、生年月日、住所、及び、前記個人又は前記対象文書についての識別番号、のうちの1つ以上を含む、システム。
12.文書を認証する方法であって、
対象文書の画像を受信することと、
前記対象文書の1つ以上の不変の属性を識別することであって、不変の属性は、ラベル、タイトル、ヘッダ、フィールド名、ロゴ、ホログラム、透かし、又は、印影のうちの1つ以上である、前記対象文書の1つ以上の不変の属性を識別することと、
文書テンプレートの集合にアクセスすることであって、各テンプレートは、文書の種類の例を表し、文書の各種類に関連付けられた不変の属性の集合に関する情報を含んでいる、文書テンプレートの集合にアクセスすることと、
前記対象文書の前記識別された不変の属性を、テンプレートの前記集合の文書の各種類に関連付けられた前記不変の属性と比較することにより、前記対象文書の前記種類の文書を表現している文書テンプレートの前記集合内のテンプレートを識別することと、
前記識別されたテンプレートに関連付けられたデータにアクセスすることであって、前記アクセスされたデータは、前記識別されたテンプレートの不変の属性に関連付けられたフォント種類に関するデータと、前記識別されたテンプレートの不変の属性に関連付けられたフォント特性に関するデータと、前記識別されたテンプレートの不変の属性に関連付けられたフィールド内に入力された情報についてのデータフォーマットとのうちの1つ以上を含む、前記識別されたテンプレートに関連付けられたデータにアクセスすることと、
前記対象文書の前記不変の属性のうちの1つ以上のフォント又はフォント特性を、前記識別されたテンプレートの不変の属性に関連付けられたフォント又はフォント特性に関する前記データと比較することにより、前記識別されたテンプレートが前記対象文書に充分に近似する合致であることを検証することと、
前記識別されたテンプレートが前記対象文書に充分に近似する合致であれば、追加的な処理のために、前記対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することであって、前記追加的な処理は、前記識別されたデータを、前記識別されたテンプレートに関連付けられた、前記アクセスされたデータと比較することを含み、さらに、前記追加的な処理は、
文書の変更又は改竄の可能性のある事例を識別する不正検出処理と、
不変の属性及び前記識別されたデータが、前記識別されたテンプレートにより表された、文書の前記種類についての予期されたフォーマットであるのかを決定するフォーマットチェックと、
前記識別されたデータが、前記識別されたテンプレートにより表された、文書の前記種類についての予期されたフォント種類及びフォント特性であるのかを決定するフォント検証処理と、
適用可能であれば、外部のデータベースにアクセスして、前記識別されたデータの1つ以上の正当性を確認すること、
のうちの1つ以上を含む、追加的な処理のために、前記対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することと、
前記対象文書が正当であると前記追加的な処理が示すのであれば、前記対象文書及び前記対象文書が含む前記情報が正当であるという表示を生成することと、
を含む、方法。
13.実施形態12の方法であって、
前記対象文書は、免許証、パスポート、本人確認文書、証明書、修了証書、領収書、又は、会場への入場を許可する文書、のうちの1つである、方法。
14.実施形態12の方法であって、
前記識別されたテンプレートが前記対象文書に充分に近似する合致であることを検証することの前に、前記方法は、さらに、
前記対象文書の前記画像を、前記識別されたテンプレートにより表された前記種類の文書の画像の標準的な形式に変換する変換を決定することと、
前記決定された変換を、前記対象文書の前記画像に適用することと、
を含む、方法。
15.実施形態12の方法であって、
前記対象文書の前記画像を標準的な形式に変換する前記変換は、ホモグラフィ変換、アフィン変換、及び回転のうちの1つ以上である、方法。
16.実施形態12の方法であって、さらに、
前記変換を前記対象文書の前記画像に適用した結果が、前記識別されたテンプレートにより表された前記種類の文書の前記画像の前記標準的な形式にどの程度近似して合致しているのかを評価することにより、前記変換を決定することを含み、さらに、前記評価することは、外れ値耐性推定プロセスを使用することを含む、方法。
17.実施形態12の方法であって、
前記対象文書及び前記対象文書が含む前記情報が正当であるという表示を生成することに応じて、前記方法は、さらに、前記対象文書を所持している個人が、場所、会場、又は、制限区域へ入ることを許可することを含む、方法。
18.実施形態12の方法であって、
追加的な処理のために識別された、前記対象文書のフィールド内に配置されたデータの前記1つ以上の要素は、前記対象文書が識別することになっている個人に特有の情報を含む、方法。
19.実施形態18の方法であって、
前記対象文書が識別することになっている個人に特有の前記情報は、名前、生年月日、住所、及び、前記個人又は前記対象文書についての識別番号、のうちの1つ以上を含む、方法。
20.実行可能な命令の集合を格納している1つ以上の非一時的でコンピュータで読み取り可能な媒体であって、前記命令が、プログラムされたプロセッサにより実行されると、前記命令によって、デバイスが、
対象文書の画像を受信することと、
前記対象文書の1つ以上の不変の属性を識別することであって、不変の属性は、ラベル、タイトル、ヘッダ、フィールド名、ロゴ、ホログラム、透かし、又は、印影のうちの1つ以上である、前記対象文書の1つ以上の不変の属性を識別することと、
文書テンプレートの集合にアクセスすることであって、各テンプレートは、文書の種類の例を表し、文書の各種類に関連付けられた不変の属性の集合に関する情報を含んでいる、文書テンプレートの集合にアクセスすることと、
前記対象文書の前記識別された不変の属性を、テンプレートの前記集合の文書の各種類に関連付けられた前記不変の属性と比較することにより、前記対象文書の前記種類の文書を表している文書テンプレートの前記集合内のテンプレートを識別することと、
前記識別されたテンプレートに関連付けられたデータにアクセスすることであって、前記アクセスされたデータは、前記識別されたテンプレートの不変の属性に関連付けられたフォント種類に関するデータと、前記識別されたテンプレートの不変の属性に関連付けられたフォント特性に関するデータと、前記識別されたテンプレートの不変の属性に関連付けられたフィールド内に入力された情報についてのデータフォーマットとのうちの1つ以上を含む、前記識別されたテンプレートに関連付けられたデータにアクセスすることと、
前記対象文書の前記不変の属性のうちの1つ以上のフォント又はフォント特性を、前記識別されたテンプレートの不変の属性に関連付けられたフォント又はフォント特性に関する前記データと比較することにより、前記識別されたテンプレートが前記対象文書に充分に近似する合致であることを検証することと、
前記識別されたテンプレートが前記対象文書に充分に近似する合致であれば、追加的な処理のために、前記対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することであって、前記追加的な処理は、前記識別されたデータを、前記識別されたテンプレートに関連付けられた、前記アクセスされたデータと比較することを含み、さらに、前記追加的な処理は、
文書の変更又は改竄の可能性のある事例を識別する不正検出処理と、
不変の属性及び前記識別されたデータが、前記識別されたテンプレートにより表された、文書の前記種類についての予期されたフォーマットであるのかを決定するフォーマットチェックと、
前記識別されたデータが、前記識別されたテンプレートにより表された、文書の前記種類についての予期されたフォント種類及びフォント特性であるのかを決定するフォント検証処理と、
適用可能であれば、外部のデータベースにアクセスして、前記識別されたデータの1つ以上の正当性を確認すること、
のうちの1つ以上を含む、追加的な処理のために、前記対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することと、
前記対象文書が正当であると前記追加的な処理が示すのであれば、前記対象文書及び前記対象文書が含む前記情報が正当であるという表示を生成することと、
を行う、1つ以上の非一時的でコンピュータで読み取り可能な媒体。
この出願に記載されたソフトウェアコンポーネント、処理、又は機能はいずれも、従来の又はオブジェクト指向の技法を使用した、Python、Java(登録商標)、JavaScript(登録商標)、C++、又は、Perlといった任意の好適なコンピュータ言語をプロセッサが使用することにより実行されるべきソフトウェアコードとして、実装されてよい。ソフトウェアコードは、一連の命令又はコマンドとして、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)か、ハードドライブ若しくはフロッピー(登録商標)ディスクといった磁気媒体か、又は、CD-ROMといった光媒体、といった非一時的でコンピュータで読み取り可能な媒体内に(又は媒体上に)格納されてもよい。このコンテキストにおいて、非一時的でコンピュータで読み取り可能な媒体は、データ又は命令集合の格納に好適であって、一時的な波形を除く、ほとんどあらゆる媒体である。このようなコンピュータで読み取り可能な媒体はいずれも、単一の計算装置上に又は内に常駐していてもよく、システム又はネットワーク内の異なる計算装置上又は内に存在していてもよい。
1つの例示的な実装によると、本明細書で使用されるような、処理要素又はプロセッサという用語は、中央処理装置(CPU)であってよく、又は、(仮想マシンといった)CPUとして概念化されたものであってよい。この例示的な実装において、CPU、又は、CPUが組み込まれたデバイスは、ディスプレイといった1つ以上の周辺デバイスと、結合されてもよいし、接続されてもよいし、及び/又は、通信してもよい。別の例示的な実装において、処理要素又はプロセッサは、スマートフォン又はタブレットコンピュータといったモバイルコンピューティングデバイス内に組み込まれてもよい。
本明細書において言及された、非一時的でコンピュータで読み取り可能な記憶媒体は、独立ディスクによる冗長アレイ(RAID)、フロッピー(登録商標)ディスクドライブ、フラッシュメモリ、USBフラッシュドライブ、外付けハードディスクドライブ、サムドライブ、ペンドライブ、キードライブ、高密度デジタル多用途ディスク(HD-DVD)光ディスクドライブ、内蔵ハードディスクドライブ、Blu-Ray(登録商標)光ディスクドライブ若しくはホログラフィックデジタルデータストレージ(HDDS)光ディスクドライブ、同期動的ランダムアクセスメモリ(SDRAM)、又は、同様の技術に基づいた同様のデバイス若しくは他の形態のメモリ、といった複数の物理ドライブユニットを含んでもよい。このようなコンピュータで読み取り可能な記憶媒体は、処理要素又はプロセッサが、取り外し可能な及び取り外し不可能なメモリ媒体上に格納された、コンピュータで実行可能なプロセスステップ及びアプリケーションプログラム等にアクセスして、デバイスからデータをオフロードすること、又は、デバイスにデータをアップロードすること、を可能にする。述べたように、本明細書に記載された実施形態に関し、非一時的でコンピュータで読み取り可能な媒体は、一時的な波形又は同様の媒体を除く、ほとんどあらゆる構造、技術、又は方法を含んでもよい。
開示された技術の或る特定の実装について、システムのブロック図、及び/又は、機能、動作、処理、若しくは方法のフローチャート若しくはフロー図、を参照して本明細書に記載している。ブロック図の1つ以上のブロック、又は、フローチャート若しくはフロー図の1つ以上のステージ若しくはステップ、及び、ブロック図内のブロックと、フローチャート若しくはフロー図のステージ若しくはステップと、のそれぞれの組合せが、コンピュータで実行可能なプログラム命令により実装できることが理解されるであろう。留意されたいこととして、いくつかの実施形態では、ブロックのうちの、又は、ステージ若しくはステップのうちの、1つ以上が、提示された順序での実行が必ずしも必要とされなくてよく、或いは、実行が必ず必要とされなくてよい。
これらのコンピュータで実行可能なプログラム命令は、汎用コンピュータ、専用コンピュータ、プロセッサ、又は、他のプログラム可能なデータ処理装置上にロードされて、マシンの特定の例を生じ、それにより、コンピュータ、プロセッサ、又は他のプログラム可能なデータ処理装置により実行される当該命令が、本明細書に記載された機能、動作、処理、又は方法のうちの1つ以上を実装するための手段を生じ得るようにする。また、これらのコンピュータプログラム命令は、コンピュータ又は他のプログラム可能なデータ処理装置が特定の方法で機能させることが可能なコンピュータで読み取り可能なメモリ内に格納されてもよく、それにより、当該コンピュータで読み取り可能なメモリ内に格納された当該命令が、本明細書に記載された機能、動作、処理、又は方法のうちの1つ以上を実装する命令手段を含んだ製品を生じる。
開示された技術の或る特定の実装を、現時点で最も実用的で且つ様々な実装であると見なされているものをめぐって説明してきたが、理解されるべきこととして、開示された技術は、開示された実装に限定されない。むしろ、開示された実装は、添付の請求項の範囲内に含まれる、様々な修正及び均等構成を網羅することが意図される。本明細書では特定の用語が用いられているが、これらは、汎用であって且つ記述的な意味合いでのみ使用されており、限定の目的では使用されていない。
この、書面による説明は、例を使用して、開示された技術の或る特定の実装を開示しており、また、あらゆる当業者による、あらゆるデバイス又はシステムの製造及び使用、並びに、組み込まれたあらゆる方法の実行、を含む、開示された技術の或る特定の実装の実施も可能にする。開示された技術の或る特定の実装の、特許可能な範囲は、請求項により定義されており、当業者が想到する他の例を含み得る。このような他の例は、請求項の文字通りの言語とは異ならない、構造上及び/又は機能上の要素を有している場合、或いは、請求項の文字通りの言語との間で些末な差異を有する構造上及び/又は機能上の要素を含んでいる場合、請求項の範囲内に入ることが意図される。
本明細書において引用された、刊行物、特許出願、及び特許を含む、全ての参考文献は、各参考文献が、あたかも、参照により組み込まれるように個々に及び具体的に示されるのと同じ程度での、並びに/又は、その全体が本明細書において明記されているのと同じ程度での、参照により、本明細書に組み込まれる。
明細書及び以下の請求項における、「1つの」、「1つの」、「その」という用語、及び、同様のレファレントの使用は、本明細書において特段示されない限り、又は、コンテキストによりはっきりと矛盾しない限り、単数及び複数の双方を網羅するように解釈されるべきである。明細書及び以下の請求項における、「有する」、「含む」、「包含する」という用語、及び、同様のレファレントは、特段注記されない限り、オープンエンドの用語(例えば、「含むが、~に限定されない」の意味)として解釈されるべきである。本明細書における値の範囲の記載は、本明細書に特段示されない限り、単に、この範囲内にこの範囲の両端を含めて入っている各別個の値を個々に指す略記方法として働くことを意図しているに過ぎず、各別個の値は、あたかも本明細書において個々に記載されているかのように、明細書に組み込まれている。本明細書に記載された全ての方法は、本明細書において特段示されない限り、又は、コンテキストによりはっきりと矛盾しない限り、任意の好適な順序で実施することができる。本明細書において提供された、あらゆる全ての例又は例示的な言語(例えば、「~といった」)の使用は、単に、この発明の実施形態をより良好に明らかにすることを意図しているに過ぎず、特段請求されていない限り、この発明の範囲に限定を課すものではない。明細書中のどの言語も、請求されていないあらゆる要素を、本発明の各実施形態に必須のものとして示していると解釈されるべきではない。
図面に描かれるか又は上記のコンポーネントの異なる配列、並びに、図示又は記載されていないコンポーネント及びステップ、が可能である。同様に、いくつかの特徴、及び、サブコンビネーション、が有用であり、他の特徴及びサブコンビネーションを参照せずに利用されてもよい。この発明の実施形態は、限定ではなく例示の目的で記載されており、この特許の読者には、代替例実施形態が明らかになるであろう。したがって、本発明は、上記の又は図面に描かれた実施形態に限定されず、以下の請求の範囲から逸脱することなく、様々な実施形態及び修正を生じることが可能である。
しかしながら、文書認証を行う手作業のアプローチと同様に、自動化されたもの又は半自動化されたものも、以下のものを含む、1つ以上の著しい不都合を被っている。
●検出器は、典型的に、エッジ境界に依存して、カード又は文書の、切り取られたバージョンを生成しており、エッジ境界において、検出されたエッジは、排除、改竄、折り畳み等に依存して変化し得る。ほとんどの場合では、検出出力の他に改良は行われず、これにより、検出エラーが後の検証ステージに波及する。
●分類器は、カード又は文書がどのクラス/種類に属しているのかを見分けることは比較的得意であるものの、文書の実際の検証に重要であり得るニュアンスのうちの或る特定のものの検出には効果的ではない。その結果、このような分類器は、典型的に、文書レベルにおいてのみ使用され、フィールドレベルにおいては使用されない(即ち、分類器は、文書内に含まれた特定の情報の検出及び/又は検証には使用されない)。
●分類器は文書レベルにおいて使用されるため、各フィールドベースでの集計は行われない。特定の文書が正当であるか又は偽であると分類されたときに、1つ以上のどのフィールドがこの決定に寄与したのか、及び、各々が最終的な決定又は分類にどの程度寄与したのか、を見分ける術がない。これは問題となる虞があるが、その理由は、これにより、分類の根拠を絞り込み、必要な場合に当該根拠をより綿密に考察し、特定のフィールドが最終的な分類にどれほど寄与したかを理解する、能力が妨げられるためである。
○例えば、特定のフィールド値が、文書を真正である又は真正ではないと分類する際の主要因子であり、当該フィールド値が誤解されていたか、又は、より低い関連性を有していたと後に決定された場合、どの文書分類を再評価すべきかを決定できない虞がある。
●文書レベル分類は、検証に使用されるルールに対する変化の簡便な実装を見込んでおらず、当該ルールは、ユースケースに依存し得る。検証ルールを修正する処理は、ルールの新たな集合のために調節された新たなモデルの訓練を伴うことが多い。つまり、このことは時間がかかる虞があり、多数のデータ集合と、人間による入力と、の提供が、監視された学習処理の一部とされる。
●文書の特定の集合について訓練された分類器は、訓練文書のその集合の特徴及び構造又は配列に偏っている。また、当該分類器は、特に、著しい量の訓練データを利用可能ではない場合、文書のより新たな又はより変化した集合に合わせてスケール変更することがより難しい。そして、
●いくつかのアプローチは、テキスト抽出用の(MRZ又はPDF417といった)バーコードのスキャンに依拠している。しかし、MRZコード又はPDF417コードは、内容が与えられると容易に生成される可能性があり、それ故に、詐称が比較的簡単であり、不正であるとの検出が本質的に不可能である。
図1(b)は、本明細書に記載されたシステム及び方法のいくつかの実施形態に従った、文書を認証/検証するための例示的な処理、動作、方法、又は機能120を例示するフローチャート又はフロー図である。高いレベルでは、対象文書の処理及び認証は、以下のステップ、ステージ、機能、方法、又は動作のうちの1つ以上を伴う。
●対象文書の画像の受信又は当該画像へのアクセスを行うこと(ステップ又はステージ121)。
●対象文書の不変の属性を識別及び/又は抽出すること(ステップ122)。
○「候補テンプレートを特定する」ステップ123により示唆されるように、不変の属性に基づいて、対象文書を含む、(州Aからの運転免許証、州Bからの識別カード、国Cが発行したパスポート、大学Dからの卒業証書、等といった)文書のクラス又は種類を表している可能性のある1つ以上の文書テンプレートを識別すること。ステップ123は、いくつかの実施形態において、以下のものを含む。
■文書テンプレートの集合と、各テンプレートに関連付けられた不変の属性を記述するデータと、にアクセスすること。そして、
■不変の属性に基づいて、対象文書に「合致する」、最も可能性の高い文書テンプレートを決定すること。
●「対象文書に『最も良く』合致するテンプレートを決定する」ステップ124により示唆されるように、対象文書を表している、最も可能性の高いテンプレート(又は「最良の」テンプレート)を決定すること。これは、対象文書の不変の属性の集合と、対象文書のクラス又は種類を表し得るテンプレートの各々の属性の集合と、の間の合致の近似性を反映するスコア又は他のメトリックの生成等により行われ、ステップ124は、いくつかの実施形態において、以下のものを含む。
○不変の属性の比較及び/又はフォント解析に基づいて、最も可能性の高い正しいテンプレートを決定すること。
○(対象文書と同じ種類の文書を表している可能性がある)最も可能性の高いテンプレートの各々について、対象文書の画像を、テンプレートにより表された文書の標準的な形式(つまり、スキュー又は歪みが生じてないもの)に変換する画像変換を(必要な場合に)決定すること。そして、
○対象文書の変換された例及び標準的な形式、不変の属性、並びに/又は、フォント解析に基づいて、どのテンプレートが、対象文書に対する最良の合致であるのかを決定/確認すること。
■例えば、対象文書の変換された画像の不変の属性と、各テンプレートに関連付けられた不変の属性と、の評価に基づいて、対象文書を表している、最も可能性の高いテンプレート又は文書種類(即ち、テンプレートの集合と対象文書との間での「最良の」合致)を識別すること。
●(まだ実行されていない場合に)ステップ125により示唆されるように、最も良く合致しているテンプレートについて、対象文書の不変の属性及び/又は内容についての、フォント、フォーマット、又は他の要件について記述しているデータにアクセスすること。
〇データファイル又はメタデータは、例えば、不変の属性についてのフォント種類及び特性、対象文書内に入力された(名前、生年月日、シリアル番号等といった)情報についてのデータフォーマット、を含んでもよい。
●選択されたテンプレートと対象文書との間の、フォント検証処理といったテキスト解析を実行して、対象文書が、テンプレートにより表された文書種類の正当な例であることを確認すること。このことは、ステップ126により示唆されるように、(まだ実行されていない場合に)テンプレート内の不変の属性と対象文書内の不変の属性との間で、フォント、フォーマット、又は他の要件を比較するように働く。
○このことが、対象文書内の内容又は個人情報を確認しておらず、例えば、対象文書内のフィールド名又はラベルに関連付けられたテキストを、テンプレートにより表された、文書の種類内のフィールド名又はラベルの要件又は予期された特性と比較することにより、対象文書がテンプレート文書の正当な例であることのみを確認していることに留意されたい。
●ステップ127により示唆されるように、対象文書からデータ又は画像を識別及び/又は抽出して、文書内容(即ち、正しいフォント及びフォーマットである特定の生年月日といった、入力された情報)について、テンプレートの属性及び要件と比較すること。
●「さらなる認証/検証処理を実行する」ステップ128により示唆されるように、対象文書のデータ及び/又は画像に対して追加的な処理を実行して、(発行されたパスポート番号の外部のデータベースの参照等により)対象文書における、不正の試みの検出、情報の確認等を行うこと。ステップ128は、いくつかの実施形態において、以下のものを含む。
○適用可能である場合、外部のデータベースにアクセスして、対象文書内の内容の真正性を検証すること。そして、
○不正の及び/又は他の、チェック又は評価を実行すること。
●ステップ129により示唆されるように、不変の属性及び内容の検討に基づいて、対象文書の1つ以上の(不変の又はそれ以外の態様の)属性の、真正性の確信度のレベルを示すスコア及び/又はヒートマップといった、対象文書の真正性の評価を生成すること。
○スコアが閾値を超えている場合、対象文書及び当該対象文書が含む情報を、正当であると受け入れること。そして、
○スコアが閾値を超えていない場合、他の属性を検討し、画像変換を再推定し、又は、対象文書の他の精査を実行すること。
いくつかの実施形態では、本明細書に記載された文書処理システム又はサービスは、対象文書の提出に応じて実行される、マイクロサービス、プロセス、ワークフロー、又は機能として実装されてもよい。当該マイクロサービス、プロセス、ワークフロー、又は機能は、サーバ、データ処理要素、プラットフォーム、又はシステムにより実行されてもよい。いくつかの実施形態では、文書の評価、認証、若しくは検証サービス及び/又は身元検証サービスは、「クラウド内」に配置されたサービスプラットフォームにより提供されてもよい。このような実施形態では、プラットフォームは、典型的に、API及びSDKを通じてアクセス可能である。フォント検証及び画像処理サービスは、プラットフォーム内のマイクロサービスとして提供されてもよい。マイクロサービスに対するインターフェイスは、REST及びGraphQLのエンドポイントにより定義されてもよい。管理運営コンソールにより、ユーザは、基礎的な要求データ及び応答データに安全にアクセスすること、アカウント及びアクセスを管理すること、並びに、いくつかの場合では、処理ワークフロー又は構成を修正すること、が可能であってもよい。フォント検証/認証処理の局面は、以下のデータストア、機能、コンポーネント、処理ワークフロー又は要素、のうちの1つ以上を含んでもよい。
1.属性値のレンダリングに使用される許諾書体の集合又は集まり。これらの書体は、フォントファウンドリといった有料又は無料のソースから取得されてもよい。直接調達することができない書体は、書体デザイナーにより作成されてもよい。
2.文字を2値画像としてレンダリングし、最小境界矩形を計算することにより、(各フォントについて)文字の画素寸法を決定するように動作するコンポーネント。
3.1つの文書テンプレートにつき1つの属性である、フォント構成ファイルの集合であって、そのテンプレート内のその属性について、以下のものの1つ以上を含む。
a.エイリアルボールドといったフォント名、
b.画素内において許容可能なフォントサイズの範囲、
c.アスペクト比、
d.カーニング(文字間の、余分なポジティブ/ネガティブスペース)、
e.(「/」といった)単語区切り記号、及び
f.区切り記号の最大数。
4.文字を、その境界ボックス内部において背景から分離して、(全ビットが1に設定される)白い部分が前景文字を表し、(全ビットが0に設定される)黒い部分が背景を表す2値(白黒)画像を取得する、ように動作する(これは、後に続く2値画像マッチングアルゴリズム又は方法の使用に、より良好に順応するために行われ得る)文字セグメント化コンポーネント。
a.このアプローチ又は実装の利点は、タスクについて、ほとんどの既存のセグメント化アルゴリズムを使用できるということであることに留意されたい。
i.使用され得る例示的な方法には、大津の適応的閾値処理、ストローク幅変換、及び、MLベースのセグメンタが含まれる。
b.文字が、その近傍から効果的に分離されないケースでは、システムは、追加的なセグメント化方法を適用してもよい。
i.例えば、適正な分離を達成するために、大津の初期閾値が調節されてもよい。
5.フォントの、OTF又はTTFのファイルフォーマット又は表現を使用して、文字及び語を特定のフォントでレンダリングするように動作するテキスト・レンダリング・コンポーネント。
6.レンダリングのサイズ及び位置を変化させて、文字のセグメント化された画像と、そのレンダリングとの間の最良の合致を生じる組合せを見出すことによって、文字のセグメント化された画像と、そのレンダリングと、の間の「最適な」又は最良の合致を計算する文字マッチングコンポーネント。2値セグメント化と2値レンダリングとの間の類似度を計算するために使用され得るメトリックの例には、Jaccard類似度、畳み込み類似度、及び、ハウスドルフ距離、が含まれる。類似度決定及び最適マッチング処理の一例として、以下のものがある。
a.特定の重ね合わせの類似度を計算するために、全ての白色画素を1(又は同様の正数)で置換し、全ての黒色画素を-0.25(又は同様の負数)で置換し、その後、より小さな矩形の領域により正規化された畳み込み(画素値の積の和)を計算すること。
b.1文字につき、(画素の観点における)最適なフォントサイズ及び位置を決定すること。
c.(最適なF1スコアに基づいて決定され得る)閾値を超えるサイズを有しており、且つ、セグメント化された画像とレンダリングとの間に重複がない、領域が存在する場合、不一致を宣言すること。
d.推定されたフォントサイズが閾値未満である文字も、典型的には破棄されること。
7.合致している最初の数個の文字を使用して、画素の観点から、文字の予期されたサイズを決定する、有効フォントサイズコンポーネント。
a.フィールドタイトルに対応する小さな文字は、破棄されてもよい。
b.スペース及びコンマといった区切り記号は、処理から除外されてもよい。
c.閾値を超える合致値を有する、最初の数個の文字のフォントサイズの中央値を決定する。
8.以前計算された有効フォントサイズを使用して、新たな/更新された文字マッチングスコアを算出する、文字スコアリングコンポーネント。実際上、文字スコアリングコンポーネントは、フォントサイズが小さな範囲に限定され、且つ、当該コンポーネントが位置を変化させることを除き、ステップ6からのマッチング処理のうちの1つ以上の部分を繰り返す。
9.最適な回転角を決定するために合致している文字を使用する回転角コンポーネント。正確な回転角は、文字のマッチングには比較的重要ではないものの、属性のマッチングには重要である。その理由は、属性値が3文字以上の長さであって角度が不正確である場合には、当該属性値のレンダリングが、その画像と正しく交差するようにはならないためである。1つの例示的な実施形態では、アルゴリズムは、最適な角度を見出す探索を使用するが、空間変換ネットワークといった他の方法もまた、検討される以下のようなユースケースの制約下において、良好に働くことが予期される。
a.合致している文字のユニオンが2値画像であり、マッチングされた画素が強度1を有し、背景画素が強度0を有する。
i.矩形の2値画像を0-1行列と捉え、行和が、行内の白色画素の数に対応する。
ii.行和が非ゼロである行は、少なくとも1つの文字の存在を示す。
b.最適な回転角は、行和が非ゼロである行の数を最小化する角度である。その理由は、最適な回転角は、全ての文字を完全に含む最も細い水平ストライプに対応するためである。
i.画像ノイズの可能性に起因して、(8といった)小さな閾値を使用して、そのように多くの非ゼロエントリよりも多くの非ゼロエントリを有する行を無視することは、最適な角度を見出すことの改善を助ける。
ii.最適な回転値は、典型的に、-5度から5度の範囲内の探索によって見出すことができる。この効率は、画像処理ステージの有効性の結果である。
10.属性の画像画素を背景画素から分離する、属性セグメント化コンポーネント。コントラスト差に基づく潜在的な問題を回避するために、いくつかの実施形態では、このコンポーネントは、大域的画像セグメント化法の適用よりもむしろ、以前にマッチングされた文字(又は、このような文字間の文字)のセグメント化の結合を使用する。
11.属性の、セグメント化された画像とレンダリングとの間の最良の合致を生じるサイズ及び位置の組合せを見出す処理において、レンダリングのサイズ及び位置を変化させることによって、当該セグメント化された画像と、そのレンダリングとを位置合わせする属性マッチングコンポーネント。さらなる詳細については、上記の文字マッチング処理を参照されたい。この属性マッチングの一部として、以下のものがある。
a.フォント及びその(アスペクト比及びカーニングといった)特性が正しいと仮定すること。
b.正しい回転角が決定されたと仮定すること。
c.先の文字マッチングコンポーネントがフォントサイズの範囲を決定しているため、その範囲内におけるフォントサイズのみを変化させること。
d.以前にマッチングされた文字、又は、以前にマッチングされた文字間にある文字、のいずれかのレンダリングのみを行い、(左側の)フィールドラベル若しくは(右側の)背景像に属する文字、又は、他の望ましくないOCR結果、のマッチングを回避すること。
e.可能性のある最適な合致が見出されたときに、(典型的に、最適なF1スコアに基づいて決定された)閾値を超えるサイズを有しており、且つ、双方の間に重複がない、領域が存在するのであれば、不一致であると仮定して、結果を使用しないこと。
12.スペース及びコンマといった区切り記号を暫定的に挿入及び除去して、結果的に生じるレンダリングが、属性の画像と比較したときに、より高いマッチングスコアを結果的に生じるのか決定を可能にする、属性修正コンポーネント。
13.複数個のOCRエンジン(例えば、クラーケン、テッセラクト、又は、グーグルクラウドビジョン)についての合致値を組み合わせて、最終的な結果を形成する、合致値組合せコンポーネント。組み合わされた結果は、個々のOCR入力についての出力と同様に、個々の文字及び属性についての合致値を含んでおり、空の合致の可能性を含む。
14.一貫性のあるOCR結果を有する、最も明瞭な画像を使用して、上記の、1つのテンプレートにつき1つの属性の構成を組み立てる、構成生成コンポーネント。これは、以下により達成されてもよい。
a.OCR結果を使用して、単語区切り記号の候補を抽出すること(潜在的な単語区切り記号の完全な集合は、典型的に、以下の5文字から成る
i.「,」、「.」、「-」、「/」、「 」
b.エイリアルレギュラー、エイリアルボールド等といった候補を含むフォントの既存の集まりを使用して、以下に記載するように、最良に合致するものを見出すこと。
c.総合的マッチングメトリックを、文字マッチング及び属性マッチングの合成(加重平均)と定義することであって、重みは、最適なF1スコアにより(少なくとも部分的に)決定される。
d.各潜在的マッチングフォントについて、2次元空間内のグリッド探索を実行することにより、カーニング及びアスペクト比の、最も良く合致している組合せを計算すること。
i.このグリッド探索動作を、明瞭な画像の複数個の(例えば、5つの)ランダムな部分集合に実行して、フォント、カーニング、及びアスペクト比の複数の組合せを生成すること。
ii.充分に近似したマッチングスコアを有する複数の組合せの中から、最も倹約的なモデル、即ち、カーニング及びアスペクト比を記述するために、10進小数点の後に使用される総桁数が最も小さいもの、を選ぶこと。そして、
e.(例えば、利用可能な集まり内のフォントがいずれも、合致しないか、又は、実際のフォントに対して十分に近似していないという事実に起因して)最大組合せ合致値が比較的低い場合においては、標準的なフォントを当該集まりに追加するか、又は、外観に合致する真新しいフォントをデザインする、専門家により、対応する画像が検査されてもよいこと。
文書内の有り得る偽造を検出することは、文書の真正性の検証に非常に重要なステップである。文書位置合わせステージが、文書の、適正な位置合わせ及び切り取りが行われたバージョンを返すが故に、従来のアプローチと比較して比較的簡単に、複数の不正シナリオを検出することができる。これらの不正シナリオには、以下のもののうちの1つ以上が含まれ得る。
●顔インジェクション:文書内の顔が改竄されている場合、この改竄は、アーチファクト、文書上において予期された背景(或る特定の文書が、偽造者が気付かないかもしれない背景/顔サイズの厳しい制限事項を有しているため)、予期された年齢/性別の範囲等、を編集するためのチェックにより、検出することができる。
●フォントインジェクション:各文書のフォントは、適正に位置合わせされた文書上において、比較的高い精度で識別することができる。このことは、文書内のテキストが改竄されているのかを決定することを助けるが、その理由は、編集された文書テキストが、正当な文書のフォント、間隔、レタリングフォーマット、並びに、背景及びサイズの制約に適合しないことがあり得るためである。
●ホログラム及びロゴ:ホログラム、透かし、ロゴ等といったオブジェクトは、その公式バージョンに照らして検出及び検証を行うことができる。或る特定のIDカード及びパスポートは、顔のホログラムを冗長因子として有する。つまり、これらに、文書内の顔写真に照らした類似度チェックを行うことができる。
●カラープロファイル:文書が編集されているか、又は、文書にフィルタリングが適用されている場合、その編集又はフィルタリングを、当該文書の、正当であることが既知であって公式のバージョンの、予期されたカラープロファイルに照らしたマッチングにより、時としてスクリーニングアウトすることができる。
●スクリーンショット又はスクリーンキャプチャ:画面の外部レコーディング及びスクリーンショットを、画面上の、画面フリッカーアーチファクト、画像内の他のオブジェクト、UI要素等に基づいて検出することができる。
●不正文書フィンガープリント:インターネットは、多くのサンプル及び偽の文書へのアクセスを提供する。それらの各々を、スクレイピングすることができ、このような文書のデータベースには、デジタルフィンガープリント処理を行うことができる。これは、インターネットサンプル、偽の文書、又は、その編集されたバージョンが、検証用に提出される状況の検出を助ける。
●デジタル文書フィンガープリント:デジタル文書の場合には、チェックサム及びハッシュを使用して、他の形態の不正チェックに加え、文書のデジタルフィンガープリントの検証を行うことができる。
●データベースチェック:データベースを提供する公的エンティティ(政府機関等)の数は多数であって且つ増大しており、当該データベースを使用して、それらエンティティが発行した公的文書を認証することができる。これらのデータベースにより、他の不正チェックに合格することが可能な不正文書の許容又は検証を防止する、追加的なレベルのセキュリティがもたらされる。
図に示されるように、モジュール402は、図1(b)、図1(c)、図2(a)、又は図2(b)を参照して説明した方法又は機能を実行するための命令の1つ以上の集合を含んでもよい。これらのモジュールは、例示されたものを含み得るが、含んでいる数は、例示されたものよりも多くてもよいし、又は少なくてもよい。さらに、モジュール内に含まれたコンピュータで実行可能な命令は、同じプロセッサ又は異なるプロセッサにより実行されてもよい。
一例として、対象文書の画像の受信又は当該画像へのアクセスを行うモジュール406は、実行されると、対象文書の画像を取得し、入力として受信し、取り出すか又は他の態様でアクセスする、処理を実行する命令を含んでもよい。画像は、ユーザにより、ウェブサイトへのアップロードを介して、又は、メッセージへのアタッチメントとして、提供されてもよい。対象文書の画像を処理して不変の属性を識別するモジュール408は、実行されると、対象文書の画像内の1つ以上の不変の属性を識別する処理を実行する命令を含んでもよい。記載したように、これらには、画像にスキュー又は歪みが生じている場合でさえも確信的に認識することが可能であり、且つ、当該文書を所持している個人により提供された情報又はデータを表していない、ラベル、ヘッダ、フィールド名、ロゴ、ホログラム、印影、又は、同様の特徴が含まれてもよい。対象文書を表す1つ以上のテンプレートを識別するモジュール410は、実行されると、不変の属性に基づいて、対象文書を表している又は対象文書に対応している可能性が最も高い、1つ以上のテンプレートを決定する処理を実行する命令を含んでもよい。対象文書の画像を標準的な形式に変換する変換を推定するモジュール412は、実行されると、対象文書の画像を、1つ以上のテンプレートの各々により表された文書種類の標準的な形式に変換するために、本明細書に記載された種類(ホモグラフィ、アフィン、回転等)の1つ以上の変換を決定する処理を実行する命令を含んでもよい。このことは、当該画像の他の要素の、より正確な処理を支援することができる。(オプションの)フォント検証を実行してテンプレートに対する合致をスコアリングするモジュール414は、実行されると、対象文書を表している又は対象文書に対応している、最も可能性の高いテンプレートの、さらなる検証の一部として、不変の属性のうちの1つ以上について、対象文書内で使用されているフォントを検証する処理を実行する命令を含んでもよい。また、このモジュールは、1つ以上のテンプレートの各々に対する、対象文書の合致の相対度を表すスコアを生成する命令も含んでもよい。スコアが閾値を超えている場合に対象文書から内容を抽出して内容検証を実行するモジュール416は、実行されると、対象文書のスコアが所望の閾値を超えているのかを決定して、超えている場合に、対象文書から内容情報又はデータを抽出する、処理を実行する命令を含んでもよい。抽出された内容には、対象文書及び当該対象文書が含む情報の認証又は検証の一部として、1つ以上のさらなる試験又は評価が施されてもよい。いくつかの実施形態において、これらのさらなる試験又は評価には、不正検出処理の実行、内容フォーマットチェック、抽出された内容データ若しくは情報に対するフォント検証処理の実行、又は、外部のデータベースにアクセスして、抽出された内容データ若しくは情報を確認又は正当性検証すること、が含まれてもよい。スコアが閾値を超えていない場合に追加的な属性を用いて再スコアリングを行うモジュール418は、実行されると、1つ以上のテンプレートからの追加的な属性を考慮した後に、対象文書について改訂されたスコアを生成する処理を実行する命令を含んでもよい。
例として、いくつかの実施形態では、プラットフォーム又はシステム510を通じて利用可能になった文書処理アプリケーション、機能、動作、又はサービスの集合は、以下のものを含んでもよい。
●アカウント管理サービス516。例えば、
○評価のために対象文書の提出を望んでいるユーザを認証する処理又はサービス、
○対象文書を評価する要求を受信し、対象文書の画像を評価する準備をする、処理又はサービス、
○対象文書の、要求された評価についての価格(これは、当該文書についての種類又は使用、当該評価を要求するユーザ、関連産業及びその要件、同様の文書の評価における先行経験、ユーザとの価格決定協定等に基づき得る)を生成する処理又はサービス、
○対象文書についての文書評価処理のコンテナ又はインスタンシエーションを生成する処理又はサービス、或いは、
○他の形態のアカウント管理サービス。
●テンプレート識別処理又はサービス517。例えば、
○対象文書の画像から、1つ以上の不変の属性を識別及び抽出する処理又はサービス、
○対象文書の画像を、1つ以上のテンプレートにより表された文書種類又はクラスの、より標準的な形式に変換する1つ以上の変換を、決定する処理又はサービス、
○スコアリング方法に基づいて、対象文書の画像内の文書の種類を最も良く表している、1つ以上の最も可能性の高いテンプレートを識別する処理又はサービス。
●文書加工処理又はサービス518。例えば、
○対象文書から、(フィールド内に配置された情報等といった)内容データ又は情報を抽出する処理又はサービス。
●抽出された内容を評価する処理又はサービス519。例えば、
○対象文書の内容に関して潜在的な不正を識別し、抽出された内容の一部若しくは全ての、外部のデータベースを用いた検証を試みるか、又は、(本明細書に記載されたフォント処理といったように)抽出された内容を他の態様で処理して、その真正性の検証を試みる、処理又はサービス。
●スコアを生成して出力する処理又はサービス520。例えば、
○文書、及び/又は、その属性若しくは内容データのうちの1つ以上、の真正性の確信度レベルを表す、ヒートマップ、数値スコア、相対的スコア等、といったスコア又はメトリックを生成又は決定する処理又はサービス。そして、
●管理運営サービス522。例えば、
○文書評価サービスのプロバイダ及び/又はプラットフォームが、依頼人に提供された処理及びサービスの管理運営及び構成を行うことを、例えば、価格決定モデルの変更、対象文書を処理するためのワークフローの変更、異なるスコアリング方法体系の導入等により、可能にする処理又はサービス。

Claims (20)

  1. 文書を認証するためのシステムであって、
    実行可能な命令の集合でプログラムされた電子プロセッサを備え、前記命令が前記電子プロセッサで実行されると、前記命令によって、前記システムが、
    対象文書の画像を受信することと、
    前記対象文書の1つ以上の不変の属性を識別することであって、不変の属性は、ラベル、タイトル、ヘッダ、フィールド名、ロゴ、ホログラム、透かし、又は、印影のうちの1つ以上である、前記対象文書の1つ以上の不変の属性を識別することと、
    文書テンプレートの集合にアクセスすることであって、各テンプレートは、文書の種類の例を表し、文書の各種類に関連付けられた不変の属性の集合に関する情報を含んでいる、文書テンプレートの集合にアクセスすることと、
    前記対象文書の識別された不変の属性を、テンプレートの前記集合の文書の各種類に関連付けられた前記不変の属性と比較することにより、前記対象文書の種類の文書を表している文書テンプレートの前記集合内のテンプレートを識別することと、
    識別されたテンプレートに関連付けられたデータにアクセスすることであって、アクセスされたデータは、前記識別されたテンプレートの不変の属性に関連付けられたフォント種類に関するデータと、前記識別されたテンプレートの不変の属性に関連付けられたフォント特性に関するデータと、前記識別されたテンプレートの不変の属性に関連付けられたフィールド内に入力された情報についてのデータフォーマットとのうちの1つ以上を含む、識別されたテンプレートに関連付けられたデータにアクセスすることと、
    前記対象文書の前記不変の属性のうちの1つ以上におけるフォント又はフォント特性を、前記識別されたテンプレートの不変の属性に関連付けられたフォント又はフォント特性に関する前記データと比較することにより、前記識別されたテンプレートが前記対象文書に充分に近似する合致であることを検証することと、
    前記識別されたテンプレートが前記対象文書に充分に近似する合致であれば、追加的な処理のために、前記対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することであって、前記追加的な処理は、識別されたデータを、前記識別されたテンプレートに関連付けられた、前記アクセスされたデータと比較することを含み、さらに、前記追加的な処理は、
    文書の変更又は改竄の可能性のある事例を識別する不正検出処理と、
    不変の属性及び前記識別されたデータが、前記識別されたテンプレートにより表された、文書の前記種類についての予期されたフォーマットであるのかを決定するフォーマットチェックと、
    前記識別されたデータが、前記識別されたテンプレートにより表された、文書の前記種類についての予期されたフォント種類及びフォント特性であるのかを決定するフォント検証処理と、
    適用可能であれば、外部のデータベースにアクセスして、前記識別されたデータの1つ以上の正当性を確認することと、
    のうちの1つ以上を含む、追加的な処理のために、前記対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することと、
    前記対象文書が正当であることを前記追加的な処理が示すのであれば、前記対象文書及び前記対象文書が含む前記情報が正当であるという表示を生成することと、
    を行う、システム。
  2. 請求項1に記載のシステムであって、
    前記対象文書は、免許証、パスポート、本人確認文書、証明書、修了証書、領収書、又は、会場への入場を許可する文書、のうちの1つである、システム。
  3. 請求項1に記載のシステムであって、
    各テンプレートに関連付けられた不変の属性の前記集合に関する前記情報は、ファイルに格納されたデータ及びメタデータのうちの1つ以上の形態である、システム。
  4. 請求項1に記載のシステムであって、
    前記対象文書の前記種類の文書を表しているテンプレートの前記集合内のテンプレートを識別することは、さらに、前記対象文書に関連付けられたスコアが閾値を超えているのかを決定することを含み、
    前記スコアは、前記対象文書の前記不変の属性に基づいている、システム。
  5. 請求項1に記載のシステムであって、
    前記識別されたテンプレートが前記対象文書に充分に近似する合致であることを検証することの前に、前記命令によって、前記システムが、
    前記対象文書の前記画像を、前記識別されたテンプレートにより表された前記種類の文書の画像の標準的な形式に変換する変換を決定することと、
    決定された変換を、前記対象文書の前記画像に適用することと、
    を行うように動作する、システム。
  6. 請求項5に記載のシステムであって、
    前記対象文書の前記画像を標準的な形式に変換する前記変換は、ホモグラフィ変換、アフィン変換、及び回転のうちの1つ以上である、システム。
  7. 請求項5に記載のシステムであって、さらに、
    前記変換を前記対象文書の前記画像に適用した結果が、前記識別されたテンプレートにより表された前記種類の文書の前記画像の前記標準的な形式にどの程度近似して合致しているのかを評価することにより、前記変換を決定すること
    を含む、システム。
  8. 請求項7に記載のシステムであって、
    前記変換を前記対象文書の前記画像に適用した前記結果が、前記識別されたテンプレートにより表された前記種類の文書の前記画像の前記標準的な形式にどの程度近似して合致しているのかを評価することは、外れ値耐性推定プロセスを使用することを含む、システム。
  9. 請求項1に記載のシステムであって、
    前記対象文書及び前記対象文書が包む前記情報が正当であるという表示を生成することに応じて、前記システムは、前記対象文書を所持している個人が、場所、会場、又は、制限区域へ入ることを許可するように動作する、システム。
  10. 請求項1に記載のシステムであって、
    追加的な処理のために識別された、前記対象文書のフィールド内に配置されたデータの前記1つ以上の要素は、前記対象文書が識別することになっている個人に特有の情報を含む、システム。
  11. 請求項10に記載のシステムであって、
    前記対象文書が識別することになっている個人に特有の前記情報は、名前、生年月日、住所、及び、前記個人又は前記対象文書についての識別番号、のうちの1つ以上を含む、システム。
  12. 文書を認証する方法であって、
    対象文書の画像を受信することと、
    前記対象文書の1つ以上の不変の属性を識別することであって、不変の属性は、ラベル、タイトル、ヘッダ、フィールド名、ロゴ、ホログラム、透かし、又は、印影のうちの1つ以上である、前記対象文書の1つ以上の不変の属性を識別することと、
    文書テンプレートの集合にアクセスすることであって、各テンプレートは、文書の種類の例を表し、文書の各種類に関連付けられた不変の属性の集合に関する情報を含んでいる、文書テンプレートの集合にアクセスすることと、
    前記対象文書の識別された不変の属性を、テンプレートの前記集合の文書の各種類に関連付けられた前記不変の属性と比較することにより、前記対象文書の種類の文書を表している文書テンプレートの前記集合内のテンプレートを識別することと、
    識別されたテンプレートに関連付けられたデータにアクセスすることであって、アクセスされたデータは、前記識別されたテンプレートの不変の属性に関連付けられたフォント種類に関するデータと、前記識別されたテンプレートの不変の属性に関連付けられたフォント特性に関するデータと、前記識別されたテンプレートの不変の属性に関連付けられたフィールド内に入力された情報についてのデータフォーマットとのうちの1つ以上を含む、識別されたテンプレートに関連付けられたデータにアクセスすることと、
    前記対象文書の前記不変の属性のうちの1つ以上のフォント又はフォント特性を、前記識別されたテンプレートの不変の属性に関連付けられたフォント又はフォント特性に関する前記データと比較することにより、前記識別されたテンプレートが前記対象文書に充分に近似する合致であることを検証することと、
    前記識別されたテンプレートが前記対象文書に充分に近似する合致であれば、追加的な処理のために、前記対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することであって、前記追加的な処理は、識別されたデータを、前記識別されたテンプレートに関連付けられた、前記アクセスされたデータと比較することを含み、さらに、前記追加的な処理は、
    文書の変更又は改竄の可能性のある事例を識別する不正検出処理と、
    不変の属性及び前記識別されたデータが、前記識別されたテンプレートにより表された、文書の前記種類についての予期されたフォーマットであるのかを決定するフォーマットチェックと、
    前記識別されたデータが、前記識別されたテンプレートにより表された、文書の前記種類についての予期されたフォント種類及びフォント特性であるのかを決定するフォント検証処理と、
    適用可能であれば、外部のデータベースにアクセスして、前記識別されたデータの1つ以上の正当性を確認すること、
    のうちの1つ以上を含む、追加的な処理のために、前記対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することと、
    前記対象文書が正当であると前記追加的な処理が示すのであれば、前記対象文書及び前記対象文書が含む前記情報が正当であるという表示を生成することと、
    を含む、方法。
  13. 請求項12に記載の方法であって、
    前記対象文書は、免許証、パスポート、本人確認文書、証明書、修了証書、領収書、又は、会場への入場を許可する文書、のうちの1つである、方法。
  14. 請求項12に記載の方法であって、
    前記識別されたテンプレートが前記対象文書に充分に近似する合致であることを検証することの前に、前記方法は、さらに、
    前記対象文書の前記画像を、前記識別されたテンプレートにより表された前記種類の文書の画像の標準的な形式に変換する変換を決定することと、
    決定された変換を、前記対象文書の前記画像に適用することと、
    を含む、方法。
  15. 請求項12に記載の方法であって、
    前記対象文書の前記画像を標準的な形式に変換する前記変換は、ホモグラフィ変換、アフィン変換、及び回転のうちの1つ以上である、方法。
  16. 請求項12に記載の方法であって、さらに、
    前記変換を前記対象文書の前記画像に適用した結果が、前記識別されたテンプレートにより表された前記種類の文書の前記画像の前記標準的な形式にどの程度近似して合致しているのかを評価することにより、前記変換を決定することを含み、
    さらに、前記評価することは、外れ値耐性推定プロセスを使用することを含む、
    方法。
  17. 請求項12に記載の方法であって、
    前記対象文書及び前記対象文書が包む前記情報が正当であるという表示を生成することに応じて、前記方法は、さらに、前記対象文書を所持している個人が、場所、会場、又は、制限区域へ入ることを許可することを含む、方法。
  18. 請求項12に記載の方法であって、
    追加的な処理のために識別された、前記対象文書のフィールド内に配置されたデータの前記1つ以上の要素は、前記対象文書が識別することになっている個人に特有の情報を含む、方法。
  19. 請求項18に記載の方法であって、
    前記対象文書が識別することになっている個人に特有の前記情報は、名前、生年月日、住所、及び、前記個人又は前記対象文書についての識別番号、のうちの1つ以上を含む、方法。
  20. 実行可能な命令の集合を格納している1つ以上の非一時的でコンピュータで読み取り可能な媒体であって、前記命令が、プログラムされたプロセッサにより実行されると、前記命令によって、デバイスが、
    対象文書の画像を受信することと、
    前記対象文書の1つ以上の不変の属性を識別することであって、不変の属性は、ラベル、タイトル、ヘッダ、フィールド名、ロゴ、ホログラム、透かし、又は、印影のうちの1つ以上である、前記対象文書の1つ以上の不変の属性を識別することと、
    文書テンプレートの集合にアクセスすることであって、各テンプレートは、文書の種類の例を表し、文書の各種類に関連付けられた不変の属性の集合に関する情報を含んでいる、文書テンプレートの集合にアクセスすることと、
    前記対象文書の前記識別された不変の属性を、テンプレートの前記集合の文書の各種類に関連付けられた前記不変の属性と比較することにより、前記対象文書の種類の文書を表している文書テンプレートの前記集合内のテンプレートを識別することと、
    前記識別されたテンプレートに関連付けられたデータにアクセスすることであって、前記アクセスされたデータは、前記識別されたテンプレートの不変の属性に関連付けられたフォント種類に関するデータと、前記識別されたテンプレートの不変の属性に関連付けられたフォント特性に関するデータと、前記識別されたテンプレートの不変の属性に関連付けられたフィールド内に入力された情報についてのデータフォーマットとのうちの1つ以上を含む、前記識別されたテンプレートに関連付けられたデータにアクセスすることと、
    前記対象文書の前記不変の属性のうちの1つ以上のフォント又はフォント特性を、前記識別されたテンプレートの不変の属性に関連付けられたフォント又はフォント特性に関する前記データと比較することにより、前記識別されたテンプレートが前記対象文書に充分に近似する合致であることを検証することと、
    前記識別されたテンプレートが前記対象文書に充分に近似する合致であれば、追加的な処理のために、前記対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することであって、前記追加的な処理は、前記識別されたデータを、前記識別されたテンプレートに関連付けられた、前記アクセスされたデータと比較することを含み、さらに、前記追加的な処理は、
    文書の変更又は改竄の可能性のある事例を識別する不正検出処理と、
    不変の属性及び前記識別されたデータが、前記識別されたテンプレートにより表された、文書の前記種類についての予期されたフォーマットであるのかを決定するフォーマットチェックと、
    前記識別されたデータが、前記識別されたテンプレートにより表された、文書の前記種類についての予期されたフォント種類及びフォント特性であるのかを決定するフォント検証処理と、
    適用可能であれば、外部のデータベースにアクセスして、前記識別されたデータの1つ以上の正当性を確認することと、
    のうちの1つ以上を含む、追加的な処理のために、前記対象文書のフィールド内に配置されたデータの1つ以上の要素を識別することと、
    前記対象文書が正当であると前記追加的な処理が示すのであれば、前記対象文書及び前記対象文書が含む前記情報が正当であるという表示を生成することと、
    を行う、1つ以上の非一時的でコンピュータで読み取り可能な媒体。
JP2022525664A 2019-10-29 2020-10-27 文書の認証のためのシステム及び方法 Ceased JP2023502584A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962927322P 2019-10-29 2019-10-29
US62/927,322 2019-10-29
US202063078507P 2020-09-15 2020-09-15
US63/078,507 2020-09-15
PCT/US2020/057503 WO2021086837A1 (en) 2019-10-29 2020-10-27 System and methods for authentication of documents

Publications (1)

Publication Number Publication Date
JP2023502584A true JP2023502584A (ja) 2023-01-25

Family

ID=75585929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022525664A Ceased JP2023502584A (ja) 2019-10-29 2020-10-27 文書の認証のためのシステム及び方法

Country Status (7)

Country Link
US (1) US20210124919A1 (ja)
EP (1) EP4052177A4 (ja)
JP (1) JP2023502584A (ja)
BR (1) BR112022008253A2 (ja)
CA (1) CA3154393A1 (ja)
MX (1) MX2022005163A (ja)
WO (1) WO2021086837A1 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11238540B2 (en) 2017-12-05 2022-02-01 Sureprep, Llc Automatic document analysis filtering, and matching system
BR112021005572A2 (pt) * 2018-09-26 2021-06-29 Sotec Consulting S.L. sistema e método de identificação automática de documentos fotocopiados
US20210004795A1 (en) * 2019-07-03 2021-01-07 Sap Se Anomaly and fraud detection using duplicate event detector
US20210142334A1 (en) * 2019-11-08 2021-05-13 Ul Llc Technologies for using machine learning to determine product certification eligibility
EP4100873B1 (en) * 2020-02-06 2024-03-13 Robust Intelligence, Inc. Detection and mitigation of cyber attacks on binary image recognition systems
EP3905108A1 (en) * 2020-04-29 2021-11-03 Onfido Ltd Scalable, flexible and robust template-based data extraction pipeline
US20210351927A1 (en) * 2020-05-11 2021-11-11 Au10Tix Ltd. System, method and computer program product for mitigating customer onboarding risk
CN111680634B (zh) * 2020-06-10 2023-08-01 平安科技(深圳)有限公司 公文文件处理方法、装置、计算机设备及存储介质
US11495011B2 (en) * 2020-08-07 2022-11-08 Salesforce, Inc. Template-based key-value extraction for inferring OCR key values within form images
US11809532B2 (en) * 2020-10-14 2023-11-07 Irdeto B.V. Detection of modification of an item of content
US11734445B2 (en) * 2020-12-02 2023-08-22 International Business Machines Corporation Document access control based on document component layouts
RU2760471C1 (ru) * 2020-12-17 2021-11-25 АБИ Девелопмент Инк. Способы и системы идентификации полей в документе
JP2022097138A (ja) * 2020-12-18 2022-06-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN112580620A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 标志图片处理方法、装置、设备和介质
EP4033376A1 (en) * 2021-01-22 2022-07-27 Amadeus S.A.S. Distributed computer system for document authentication
US11494418B2 (en) * 2021-01-28 2022-11-08 The Florida International University Board Of Trustees Systems and methods for determining document section types
US11847845B2 (en) 2021-03-01 2023-12-19 Orbit Healthcare, Inc. Integrating a widget in a third-party application
US20220277167A1 (en) * 2021-03-01 2022-09-01 Orbit Healthcare, Inc. Real-time documentation verification using artificial intelligence and machine learning
US11537787B2 (en) * 2021-03-01 2022-12-27 Adobe Inc. Template-based redesign of a document based on document content
CN112906686A (zh) * 2021-03-11 2021-06-04 北京小米移动软件有限公司 文字识别方法、装置、电子设备及存储介质
US20220301335A1 (en) * 2021-03-16 2022-09-22 DADO, Inc. Data location mapping and extraction
US11860950B2 (en) * 2021-03-30 2024-01-02 Sureprep, Llc Document matching and data extraction
US11971872B2 (en) * 2021-05-13 2024-04-30 Truthset, Inc. Generating user attribute verification scores to facilitate improved data validation from scaled data providers
EP4105825A1 (en) * 2021-06-14 2022-12-21 Onfido Ltd Generalised anomaly detection
US11973753B2 (en) * 2021-06-16 2024-04-30 Meta Platforms, Inc. Systems and methods for client-side identity verification
IT202100016208A1 (it) * 2021-06-21 2022-12-21 Witit S R L Start Up Costituita A Norma Dellarticolo 4 Comma 10 Bis Del Decreto Legge 24 Gennaio 201 Metodo e sistema di acquisizione digitale documenti cartacei
US11823427B2 (en) * 2021-06-24 2023-11-21 Accenture Global Solutions Limited Automatic artwork review and validation
CN113704181B (zh) * 2021-07-12 2024-01-30 中煤天津设计工程有限责任公司 一种基于python的标准和规程与图集有效性检验方法
US20230017185A1 (en) * 2021-07-15 2023-01-19 Innov8Tif Solutions Sdn. Bhd. Method to determine authenticity of security hologram
CN113723903A (zh) * 2021-08-02 2021-11-30 北京来也网络科技有限公司 Rpa结合ai的通行证办理方法、装置、电子设备及存储介质
US20230073775A1 (en) * 2021-09-06 2023-03-09 Nathalie Goldstein Image processing and machine learning-based extraction method
US11989733B2 (en) * 2021-10-15 2024-05-21 Adp, Inc. Multi-model system for electronic transaction authorization and fraud detection
US11651093B1 (en) * 2022-02-24 2023-05-16 LendingClub Bank, National Association Automated fraudulent document detection
US11868714B2 (en) * 2022-02-28 2024-01-09 Adobe Inc. Facilitating generation of fillable document templates
WO2024065374A1 (en) * 2022-09-29 2024-04-04 Amazon Technologies, Inc. Automated verification of documents related to accounts within a service provider network
CN116434266B (zh) * 2023-06-14 2023-08-18 邹城市人民医院 一种医疗检验单的数据信息自动提取分析方法
CN116597551A (zh) * 2023-06-21 2023-08-15 厦门万安智能有限公司 一种基于私有云的智能楼宇访问管理系统
CN117786121B (zh) * 2024-02-28 2024-05-03 珠海泰坦软件系统有限公司 一种基于人工智能的档案鉴定方法以及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MXPA05003984A (es) * 2002-10-15 2005-06-22 Digimarc Corp Documento de identificacion y metodos relacionados.
US20050289182A1 (en) * 2004-06-15 2005-12-29 Sand Hill Systems Inc. Document management system with enhanced intelligent document recognition capabilities
US7917554B2 (en) * 2005-08-23 2011-03-29 Ricoh Co. Ltd. Visibly-perceptible hot spots in documents
US10102583B2 (en) * 2008-01-18 2018-10-16 Mitek Systems, Inc. System and methods for obtaining insurance offers using mobile image capture
WO2011058554A1 (en) * 2009-11-10 2011-05-19 Au10Tix Limited Computerized integrated authentication/ document bearer verification system and methods useful in conjunction therewith
US20130343639A1 (en) * 2012-06-20 2013-12-26 Microsoft Corporation Automatically morphing and modifying handwritten text
US8792715B2 (en) * 2012-07-02 2014-07-29 Palo Alto Research Center Incorporated System and method for forms classification by line-art alignment
US9053364B2 (en) * 2012-10-30 2015-06-09 Authentiform, LLC Product, image, or document authentication, verification, and item identification
US9864906B2 (en) * 2015-08-05 2018-01-09 Xerox Corporation Method and system for creating a validation document for security
US10217179B2 (en) * 2016-10-17 2019-02-26 Facebook, Inc. System and method for classification and authentication of identification documents using a machine learning based convolutional neural network
US10482280B2 (en) * 2017-01-30 2019-11-19 Symantec Corporation Structured text and pattern matching for data loss prevention in object-specific image domain

Also Published As

Publication number Publication date
EP4052177A1 (en) 2022-09-07
WO2021086837A1 (en) 2021-05-06
US20210124919A1 (en) 2021-04-29
BR112022008253A2 (pt) 2022-07-12
CA3154393A1 (en) 2021-05-06
MX2022005163A (es) 2022-08-15
EP4052177A4 (en) 2023-11-08

Similar Documents

Publication Publication Date Title
US20210124919A1 (en) System and Methods for Authentication of Documents
US20220012487A1 (en) Systems and methods for classifying payment documents during mobile image processing
US10902252B2 (en) Systems and methods for image based content capture and extraction utilizing deep learning neural network and bounding box detection training techniques
US7697758B2 (en) Shape clustering and cluster-level manual identification in post optical character recognition processing
EP2240878B1 (en) Identification and verification of an unknown document according to an eigen image process
US7650035B2 (en) Optical character recognition based on shape clustering and multiple optical character recognition processes
Van Beusekom et al. Text-line examination for document forgery detection
JP6528147B2 (ja) 会計データ入力支援システム、方法およびプログラム
US8326041B2 (en) Machine character recognition verification
US20090152357A1 (en) Document verification using dynamic document identification framework
JP2020525947A (ja) 操作された画像の検出
Artaud et al. Find it! fraud detection contest report
Ahmed et al. Forgery detection based on intrinsic document contents
US11144752B1 (en) Physical document verification in uncontrolled environments
Jain et al. Passive classification of source printer using text-line-level geometric distortion signatures from scanned images of printed documents
US20220277066A1 (en) Identity authentication and processing
Abramova et al. Detecting copy–move forgeries in scanned text documents
EP4244761A1 (en) Fraud detection via automated handwriting clustering
US20230069960A1 (en) Generalized anomaly detection
van Beusekom et al. Document inspection using text-line alignment
Bogahawatte et al. Online Digital Cheque Clearance and Verification System using Block Chain
Markham et al. Open-Set: ID Card Presentation Attack Detection using Neural Transfer Style
Markham et al. Open-Set: ID Card Presentation Attack Detection using Neural Style transfer
Chandra et al. Development of an End-to-End Form Data Capture Model for an Electronic Election Recapitulation System
CN115761745A (zh) 票据数据的识别方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220920

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220920

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231024

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20240227