JP2024500641A - デジタルサンプル画像の複製防止方法 - Google Patents

デジタルサンプル画像の複製防止方法 Download PDF

Info

Publication number
JP2024500641A
JP2024500641A JP2023531548A JP2023531548A JP2024500641A JP 2024500641 A JP2024500641 A JP 2024500641A JP 2023531548 A JP2023531548 A JP 2023531548A JP 2023531548 A JP2023531548 A JP 2023531548A JP 2024500641 A JP2024500641 A JP 2024500641A
Authority
JP
Japan
Prior art keywords
digital
image
security
training
security document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023531548A
Other languages
English (en)
Inventor
スコット ハロック,ジョン
ビガール,パスカル
ショッソン,シルヴァン
ベッリーニ,クラウディオ
アイヒェンベルガー,マルティン
シュルツ,エリーザベト
Original Assignee
ヨーロピアン セントラル バンク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヨーロピアン セントラル バンク filed Critical ヨーロピアン セントラル バンク
Publication of JP2024500641A publication Critical patent/JP2024500641A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/95Pattern authentication; Markers therefor; Forgery detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Inspection Of Paper Currency And Valuable Securities (AREA)
  • Processing Or Creating Images (AREA)

Abstract

人工知能ベースのニューラルネットワークをトレーニングするための、コンピュータによって実行される方法が提供される。少なくとも1つのセキュリティ文書の少なくとも1つのデジタル画像が基準として提供される。デジタルトレーニング画像のセットが提供され、これらはセキュリティ文書のデジタル画像と比較して変更される。デジタルトレーニング画像のセットは、先入観のない人間の観察者がそれぞれのデジタルトレーニング画像の複製を、セキュリティ文書または複数のセキュリティ文書を表すとみなし得るような、変更の視覚的影響を有するポジティブデジタルトレーニング画像の第1のサブセットを含む。デジタルトレーニング画像のセットは、ネガティブデジタルトレーニング画像の第2のサブセットを含む。それぞれのデジタルトレーニング画像の複製が1つまたは複数のセキュリティ文書を表すとみなされるかどうかに関するグランドトゥルースがニューラルネットワークに提供される。

Description

本発明は、セキュリティ機能を認証することなく、セキュリティ文書として考慮されるかどうかを分類するために使用される人工知能ベースのニューラルネットワークのトレーニング方法、少なくとも1つのセキュリティ文書の複製防止のための、コンピュータによって実行される方法、紙幣検出器、およびコンピュータプログラム製品に関する。
セキュリティに関連するフライトチケットや紙幣などの文書は、偽造などの複製行為の対象となることがよくある。偽造文書に対するアプローチの一つは、疑わしい文書の真正性の評価に関連する。しかし、このアプローチは、疑わしい文書の認証プロセスを実行する時点で元の文書は既に複製されているため、後段の活動となる。そのため、認証に関連する対策は望ましくない。
元の文書の複製(reproduction)は、スキャン装置、プリンタ、および/またはコピー機を使用して行われることがある。複製は、データ変換などのデータコピー処理とも考えられる。この点において、文書が複製される場合、それが潜在的に元のセキュリティ文書と見なされる可能性がある場合、複製行為そのものを避けることが望ましい。この場合、複製が行われる前に複製を回避する。このような方法は、セキュリティ文書に含まれる特殊なセキュリティ機能に関して存在する。つまり、疑わしい文書に対して、その文書が元のセキュリティ文書に最初から含まれていたセキュリティ機能を有しているかどうかが評価される。しかし、これらのアプローチはいくつかの理由で好ましくない。第一に、セキュリティ機能に関する評価は複雑で高度な装置が必要である。第二に、その評価プロセスにはセキュリティ機能に関する具体的な情報が含まれている必要がある。もしも偽造者が評価プロセスを知れば、その情報を入手することができる。第三に、偽造者は対象となる文書内のセキュリティ機能や修正された機能に対して攻撃を行う可能性があり、評価方法の結果に誤りが生じる可能性がある。
上記の行動を防止するため、さまざまなセキュリティ機能が存在する。たとえば、前述の装置の特殊な検出器によって認識される印刷されたグラフィカルなデザイン要素が含まれる場合がある。検出器はそれに応じて反応し、処理を拒否するか、劣化した画像を印刷するなどの望ましくない行動に干渉することがある。このようなグラフィカルな要素は、セキュリティ文書のアートワークの一部であるかのように見えるようにデザインされる場合がある。このような要素の使用例は、米国特許5,845,008に見られるかもしれない。他の場合では、印刷されたデザインに目視でほとんど感知できない特殊な信号を追加し、前述の装置の特殊な検出器によって認識されるようにすることがある。その後、これらの検出器は上記で説明したような反応を引き起こす可能性がある。このような要素の使用例は、米国特許6,449,377に見られるかもしれない。
しかし、これらのセキュリティ機能には固有の脆弱性が存在する。グラフィカルなデザイン要素は、アートワークの一部のように見せるための試みがされていても、熟練者によってそのセキュリティ目的が容易に認識されることがしばしばある。その結果、わずかに変更されるだけで、特殊な検出器がそれらを識別できなくなり、複製者の望ましい行動を中断することができなくなる可能性がある。また、これらの要素が正当な利用者によって保護の対象とされていない他の文書に適用され、その結果、人々がこれらの文書のスキャン、コピー、印刷などの操作を完了できなくなる可能性がある。
電子透かしなどの特別な信号には、印刷された文書が歪んで見えるという望ましくない特性がある場合もある。紙幣のアートワークの場合、これは特に望ましくない可能性がある。信号強度は犠牲になるが、歪みは軽減できる。通常は妥協が求められる。
機械学習と組み合わせた人工知能は、顔認識やその他の物体識別などの用途にますます使用されている。このようなアプリケーションでは、潜在的な画像が無限に存在し、それらを確実に認識する必要がある場合がある。たとえば、ハイイロリスの画像そのものを認識するようにトレーニングされたアプリケーションは、ハイイロリスのサイズ、ポーズ、年齢、色合い、照明、またはその他の多数の個々の特徴の膨大なバリエーションのいずれかに遭遇する可能性がある。個々の人の顔を確実に認識するように設計されたアプリケーションは、同様の変動に直面する必要があり、少なくともアプリケーションの計算の複雑さとコンピューティング リソースの必要性が増大する。
解決すべき客観的な技術的課題は、セキュリティ機能を認証することなくデジタル画像をセキュリティ文書と見なすか否かを分類するのに適用可能な人工知能ベースのニューラルネットワークをトレーニングする方法と、コピー防止方法を提供することにあると考えられる。このようにトレーニングされたニューラルネットワークを利用したセキュリティ文書は、従来技術と比較して改善されている。
本発明によれば、ニューラルネットワークは、デジタル画像、特にセキュリティ文書のデジタル画像を認証するようにトレーニングされていない。さらに、セキュリティ文書のコピー防止のための本発明の方法は、いかなる認証プロセスも置き換えるものではない。対照的に、本発明のコピー防止方法は一般に、デジタルサンプル画像の複製が先入観のない人間の観察者(an unbiased human observer)によってセキュリティ文書として認識されるかどうかを評価するために適用できる追加の手段を表すことができる。
この問題は、独立請求項の主題によって解決される。好ましい実施形態は、従属請求項および以下の説明内に示されており、それらのそれぞれは、個別にまたは組み合わせて、本発明の態様を表すことができる。示された装置に関して説明された利点および好ましい実施形態は、対応する方法に同様に移転され、またその逆も同様である。
人工知能ベースのニューラルネットワーク150をトレーニングするための方法100の簡略化された概略図 少なくとも1つのセキュリティ文書110のコピー防止のための方法200の簡略化された概略図 紙幣検出器300の簡略化した概略図 コンピュータプログラム製品の簡略化された概略図
本発明は、文書のデジタル画像がコピー/複製されてよいかどうかを決定するために、独創的にトレーニングされた人工知能ベースのニューラルネットワークを使用し、したがって、コピー保護のためのコードを表すセキュリティ機能の存在を利用しない。したがって、コピーを防止すべき文書は、特にデジタル画像の複製を防止するために、コピー防止のためのコードを含む必要はない。本発明によれば、コピープロテクトされる文書のデザインは、コピー保護のための追加コードの使用によって歪められる必要がなく、これにより、偽造者がプロテクトのためのコードの領域を特定するリスクも低減される。また、文書上にコピー防止用のコードが存在しないことにより、コピー防止用のコードがハッキングされたり、そのコードが他の物品に不正に使用されて複製を違法に停止させられたりする危険性が低減される。本発明のトレーニングされた人工知能ベースのニューラルネットワークを使用する本発明のコピー保護方法は、セキュリティ文書、特に紙幣の高スループット分類および/またはコピー/複製ソリューションに特に適している。これは、コピー保護のために特定のコードの認証を必要とするセキュリティ文書の一般的な認証方法よりも、文書を複製するかどうかの決定に必要な時間が短いため、より短い時間スケールで実行できる可能性がある。
第1の態様によれば、人工知能ベースのニューラルネットワークをトレーニングするための、コンピュータによって実行される方法(コンピュータ実装方法)が提供される。ニューラルネットワークは、デジタル画像をセキュリティ文書(以下では参考のためにAとも示す)として考慮するかどうかを分類するのに適用できる。これは、デジタル画像をセキュリティ文書Aとみなされるように分類するか、またはデジタル画像がセキュリティ文書とみなされないように分類するためにネットワークをトレーニングするように方法を構成できることを意味する。人工知能ベースのニューラルネットワーク、特に深層学習モデルとしての畳み込みネットワークの利点は、主に正規化と標準化を除いた未処理の画像全体の解釈から得られる。次に、ニューラルネットワークは通常、分類が行われる基準に基づいて信号を一連の特徴に変換する。一連の特徴は、そのアーキテクチャとトレーニングプロセスによりモデル間で異なるが、一般に、画像のコンテンツに関する凝縮された情報として解釈できる。
この方法は、少なくとも1つのセキュリティ文書の少なくとも1つのデジタル画像A1を基準として提供することを含む。
この方法はまた、デジタルトレーニング画像のセットを提供することを含む(以下では、参考のためにB1とも示す)。デジタルトレーニング画像に基づいて、分類プロセスに関してニューラルネットワークをトレーニングできる。デジタルトレーニング画像は、セキュリティ文書のデジタル画像と比較して変更されている。
デジタルトレーニング画像のセットは、先入観のない人間の観察者が、それぞれのデジタルトレーニング画像の複製を、セキュリティ文書または複数のセキュリティ文書を表すとみなすほどの視覚的影響を与える変更を有するポジティブデジタルトレーニング画像の第1のサブセット(以下では参照目的のためにB1-1とも示す)を含む。
デジタルトレーニング画像のセットは、先入観のない人間の観察者が、それぞれのデジタルトレーニング画像の複製を、セキュリティ文書または複数のセキュリティ文書を表すとみなすほどには視覚的影響を与えない変更を有するネガティブデジタルトレーニング画像の第2サブセット(以下でもB1-2で示される)も含む。
この方法はさらに、各デジタルトレーニング画像のグラウンドトゥルースを人工知能ベースのニューラルネットワークに提供するステップを含む。グラウンドトゥルースは、それぞれのデジタルトレーニング画像の複製がセキュリティ文書または複数のセキュリティ文書を表すかどうかについて、1人または複数の先入観のない人間の観察者の少なくとも1つの許容レベルを表す。言い換えれば、グラウンドトゥルースは、分類の決定プロセスに関してニューラルネットワークをトレーニングするために使用される。グラウンドトゥルースは、このトレーニングプロセスで特定のデジタルトレーニング画像がどのように解釈されるかを記述する。少なくとも1つの許容レベルは、それぞれのトレーニング画像の複製がセキュリティ文書を表すか否かについての決定に関する先入観のない人間観察者の1つ以上の応答をそれぞれ含む。たとえば、1人の先入観のない人間観察者の場合、許容レベルはこの人間観察者のそれぞれの反応を表す。人間の観察者が2人、3人、4人以上の場合、2人、3人、4人以上の人間の観察者の応答がそれぞれ許容レベルを表すために使用される。
このように設計された方法は、少なくとも1つのセキュリティ文書に関するデジタルトレーニング画像に関して人工知能ベースのニューラルネットワークを有利にトレーニングできる。したがって、ニューラルネットワークは、先入観のない人間の観察者によって特定のデジタルトレーニング画像の複製がセキュリティ文書とみなされる許容レベルに関して各デジタルトレーニング画像に対してトレーニングされ得る。したがって、ニューラルネットワークは、デジタル画像の複製がセキュリティ文書とみなされる場合の決定動作をトレーニングできる。
本発明のすべての態様の文脈内で、し得る、可能性がある、できる、などの用語には、相関する動詞の直説法(indicative mood)/事実的な叙法(realis mood)も含まれる。たとえば、「データファイルはデジタルコードの画像手段の特性を記述するのに適している」という表現には、「データファイルはデジタルコードの画像手段の特性を記述するのに適している」という直説法/事実的な叙法も含まれる。
本発明の文脈内では、「セキュリティ文書とみなされる画像」、「セキュリティ文書とみなされるデジタル画像」、「セキュリティ文書とみなされる画像の複製」、または「セキュリティ文書とみなされるデジタル画像の複製」とは、先入観のない人間の観察者が、(デジタル)画像の複製をセキュリティ文書として(少なくとも一定の許容レベルまでは)認識し/みなし/解釈できることを意味する。言い換えれば、先入観のない人間の観察者は、セキュリティ文書、その(デジタル)画像、またはその複製を認証せず、その代わりに、先入観のない人間の観察者は、デジタル画像を閲覧/観察または使用により、(デジタル)画像またはその複製がセキュリティ文書またはその見本を表していると、少なくとも一定の許容レベルについて考慮/印象を持つ/想像する。したがって、上で示した特徴表現は、先入観のない人間の観察者が、基礎となる認証プロセスなしで(デジタル)画像またはその複製をセキュリティ機能のサンプルとして許容するかどうかに関するものとみなすこともできる。
本発明の文脈内では、デジタル画像とは、通常はコンピュータ言語で書かれたデジタルコードを指し、したがって特定の画像をデータファイルとして表すコンピュータ可読コードである。データファイルは、デジタルコードを使用して画像の特性を記述するのに適している。
セキュリティ文書のデジタル画像は、50dpi~2000dpiの範囲内、特に100dpi~1000dpiの範囲内、さらに特に200dpi~600dpi、さらに、特に300 dpi~400dpiの範囲内の解像度を有し得る。
本方法の文脈内では、デジタル画像の複製とは、デジタル画像が物理的に処理されて、数年程度の、少なくとも一定の時間、印刷可能な媒体上に永久に見えるように処理される、ハードコピーおよび/または印刷プロセスを指す。さらに、デジタル画像の複製には、それぞれのデジタル画像の基礎となるデータに関するデータ処理、変換または保存プロセスも含まれる場合がある。
デジタルトレーニング画像は、基準と比較して変更される場合がある。本発明の文脈内では、変更されたデジタルトレーニング画像は、基準と比較して品質が異なる、または品質が低下したデジタルトレーニング画像とみなされてもよい。画像の変更/変換の例は、
・明るさ、コントラスト、彩度、色相などのパラメータを含むColorJitter拡張
・度数、平行移動、スケール、せん断、補間、および/または塗りつぶしのパラメータを含み得るRandomAffine拡張
・カーネルサイズおよび/または標準偏差のパラメータを含み得るGuassianBlurの拡張
に関連する場合がある。
セキュリティ文書として認識可能であるとラベル付けされた変更されたデジタルトレーニング画像には、基準セキュリティ文書と比較して次の変更/変換範囲が含まれる場合がある:
ColorJitter拡張。これは、明るさ(例:±5%の範囲)、コントラスト(例:±8%の範囲)、彩度(例:±8%の範囲)のパラメータの変更が含まれる場合がある。)および/または色相(例:±6%の範囲)を含み得る;
RandomAffine拡張。これは、パラメータの度数(例:0.05度)、移動(たとえば、水平方向または垂直方向の画像サイズの0%から1%の間)、スケール(例:サイズを1%ずつ拡大または縮小する)、シアー(たとえば、-0.5度から+ 0.5度の間でx軸に平行にせん断する)、補間(例:最近傍補間)、および/またはフィル(白)の変更を含み得る;」
GuassianBlurの拡張。これは、カーネルサイズ(例: 5x5)および/または標準偏差(例: 0.3)のパラメータの変更を含み得る。
同様に、セキュリティとして認識できないとラベル付けされた変更されたデジタルトレーニング画像には、基準セキュリティ文書と比較して次の変更/変換範囲を含み得る:
・パラメータの変更:明るさ(例:±5%以上の範囲)、コントラスト(例:±8%以上の範囲)、彩度(例:±8%以上の範囲)、および/または色相(例:±6%以上の範囲);
・RandomAffine拡張。これは、パラメータの度数(たとえば、0.05度以上)、移動(例:水平方向または垂直方向の画像サイズの1%以上)、スケール(例:サイズを1%を超えて拡大または縮小する)、シアー(例:-0.5度を超えて+0.5度を超える範囲でx軸に平行なせん断)の変更を含み得る。
あるいは、デジタルトレーニング画像は、印刷などの複製の観点からは同様の品質を有するが、基準セキュリティ文書と区別するために加工または変更されてもよい。例としては、デザインおよび/またはテキスト要素の修正/置換、デザインおよび/またはテキスト要素の異なる配置などが挙げられる。
一例によれば、基準セキュリティ文書は、例えば、英国女王の肖像画を含む特定の紙幣であってもよい。デジタルトレーニング画像は、解像度、形状、寸法、色などの印刷特性に関して同様の品質を持つ可能性がある。ただし、英国女王の肖像画は別の人物、たとえば英国首相やその他の人物に置き換えられる可能性がある。先入観のない人間の観察者がこの文書をセキュリティ文書であるとみなせるように、関係者に提供する。このような変更されたデジタルトレーニング画像は、本発明によれば、先入観のない人間の観察者が、それぞれのデジタルトレーニング画像の複製をセキュリティ文書または複数のセキュリティ文書を表すとみなすような変更とみなすことができる。変更には劣化が含まれる場合がある。別の実施形態によれば、英国女王の肖像画は、先入観のない人間の観察者がこの文書をセキュリティ文書と考えられないことを直接理解できるように、アメリカ合衆国大統領または任意の無関係な人物の肖像画に置き換えることができる。この場合、デジタルトレーニング画像は依然として変更または劣化しているとみなされる可能性があるが、先入観のない人間の観察者は、それぞれのデジタルトレーニング画像の複製がセキュリティ文書または複数のセキュリティ文書を表すとは考えないであろう。
変更されたデジタルトレーニング画像の品質は劣化し得る。この場合、デジタルトレーニング画像は、化学的または物理的に侵食されたトレーニング文書Bに基づき得る。これは、トレーニング文書の品質が化学的または物理的に劣化し得ることを意味する。たとえば、化学反応性物質が適用されたり、トレーニング文書に傷がついたりする可能性がある。デジタルトレーニングイメージは、基礎となるトレーニングドキュメントが侵食された後に取得される可能性がある。したがって、デジタルトレーニングイメージには、基礎となるトレーニングドキュメントに対する侵食によって引き起こされた変更が現れる可能性がある。
あるいは、デジタル画像は改変されていないトレーニング文書に基づいて取得された可能性があるが、デジタル画像自体がデジタル的に侵食を受けた可能性がある。たとえば、デジタル画像は、デジタルフィルタを適用することによって変更/拡張されている可能性がある。変更/増強には、明るさ、コントラスト、彩度、および/または色相のパラメータを含むColorJitter増強が含まれる場合がある。RandomAffine拡張には、度数、平行移動、スケール、せん断、補間、および/または塗りつぶしのパラメータが含まれる場合がある。GuassianBlur拡張には、カーネルサイズおよび/または標準偏差のパラメータが含まれる場合がある。この場合、デジタルトレーニング画像は、デジタル的に侵食を受けたデジタル画像である可能性がある。
変更されたデジタルトレーニング画像は、下記の少なくとも1つに関して、セキュリティ文書のデジタル画像と異なっている:ピクセル化、解像度、精細度、一般的なアスペクト、形状、色、色分布、画像処理フィルタ、そしてアスペクト比。例えば、デジタルトレーニング画像は、基準の解像度と比較して低減された、単位面積当たりのピクセル密度を意味する解像度を有できる。したがって、視覚的なインパクトが異なる場合がある。それでも、複製されるとき、デジタルトレーニング画像の解像度は、先入観のない人間の観察者が、その複製をセキュリティ文書を表すとみなすのに十分である可能性がある。一般的な側面とは、デジタルトレーニング文書には同様に含まれない、セキュリティ文書のデジタル画像の特徴を指す。たとえば、セキュリティ文書には、いくつかの山を含む特定の風景が部分的に示されている場合がある。デジタルトレーニング画像は、同じ数の山を持つ異なる風景を示している場合もあれば、原理的には同じ風景を示しているが、セキュリティ文書に含まれる山の一部を見逃している場合もある。アスペクト比は、セキュリティ文書とデジタルトレーニング画像の長さと幅の一般的な比率を指す。精細度は各項目の水平方向と垂直方向の合計ピクセル数を指す。画像処理フィルタには、ノイズ低減フィルタ、ぼかしフィルタ、AIを利用して画像を処理するいわゆるニューラルフィルタ、および同様のデジタルフィルタが含まれ得る。
変更されたデジタルトレーニング画像は、遠近角、基調的な照明(underlying illumination)、色合い(coloration)、折り目(fold)、またはしわ(crease)のうちの少なくとも1つに関して、セキュリティ文書のデジタル画像とは異なる場合がある。遠近角は、デジタルトレーニング画像が取得されたように見える角度を指す場合がある。例えば、セキュリティ文書は長方形の形状を有していてもよい。デジタルトレーニング画像の取得中の遠近角により(またはそれぞれのデジタル的な侵食により)、デジタルトレーニング画像は長方形の形状を持たない可能性がある。さらに、特定の遠近角を指定すると、デジタルトレーニング画像内の特定の特徴が歪む可能性がある。照明は、上面図で十分に照明されたときにセキュリティ文書が示す輝度分布とは異なる、デジタルトレーニング文書内に存在する輝度分布を指す場合がある。同様に、デジタルトレーニング画像は、配色、すなわち少なくとも一部の特定の色、またはより一般的にはデジタルトレーニング画像全体にわたる色の分布に従って、セキュリティ文書とは異なっていてもよい。デジタルトレーニングドキュメントが取得されたトレーニングドキュメントに折り目またはしわがある可能性がある。したがって、折り目またはしわは、一般に、デジタルトレーニング画像内でも認識可能である。
さらに、セキュリティ文書には、肖像画、例えば英国女王の肖像画、や、建築画像(橋、建物など)、自然画像(葉などの植物またはその一部(いわゆる花/植物のエンブレムまたは花/植物の要素)、または動物相/動物(いわゆる野生動物のエンブレムまたは野生動物の要素)など)などの1つまたは複数のグラフィックデザインの特徴が含まれる場合がある。次いで、変更されたデジタルトレーニング画像は、デジタルトレーニング画像が、セキュリティ文書の対応するデザイン特徴を置換する少なくとも1つの異なるデザイン特徴、例えば、別個の、関係するまたは無関係の人物の別個の肖像画、無関係の人物、関係するまたは無関係の別個の建築画像、あるいは自然界の別個の関係するまたは無関係の画像のような、セキュリティ文書の異なるデザイン特徴を含むことができるという点で、セキュリティ文書のデジタル画像とは異なっていてもよい。この点において、デジタルトレーニング画像は変更されていると考えることができる。ニューラルネットワークは、この点に関して、すなわち、先入観のない人間の観察者が、それぞれ変更されたデジタル画像をセキュリティ文書に関連するとみなすかどうかに応じてトレーニングできる。一実施形態によれば、先入観のない人間の観察者は、グラフィックデザイン特徴が関連するグラフィックデザイン特徴によって置き換えられる場合、変更後の画像をセキュリティ文書に関連するとみなし得る。例えば英国ポンド紙幣の場合、エリザベス女王の肖像画が英国首相の肖像画、または英国王室の他のメンバーの肖像画に置き換えられ得る。別の実施形態によれば、先入観のない人間の観察者は、グラフィックデザイン特徴が無関係のグラフィックデザイン特徴に置き換えられる場合、変更後の画像をセキュリティ文書に関連するとみなし得る。例えば英国ポンド紙幣の場合、エリザベス女王の肖像画がアメリカ合衆国または他の国の大統領の肖像画に置き換えられ得る。本発明によれば、建築画像は、例えば橋、建物などの同じカテゴリに属する場合、または同じ国を表すとみなされる建築画像に属する場合(例えば、英国を代表するタワーブリッジ、ウェストミンスターブリッジおよび/またはウェストミンスター寺院、ビッグベン、またはフランスを代表するエッフェル塔とポンヌフ)に、相互に関連していると見なすことができる。本発明の別の実施形態によれば、自然画像は、それらが同じカテゴリ、例えば植物またはその一部(葉、動物など)に属する場合、またはそれらが同じカテゴリに属する場合、同じ国を表すとみなされる自然画像に属する場合(たとえば、オーストラリアを表すカンガルー、カモノハシ、コアラ)に、相互に関連していると見なすことができる。
これは、デジタルトレーニング画像が一般にセキュリティ文書のデジタル画像と等しくないことを意味する。ただし、その違いは十分に小さいため、デジタルトレーニング画像の複製は依然としてセキュリティ文書とみなされる。言い換えれば、ニューラルネットワークは、少なくとも特定の許容レベルにおいて、先入観のない人間の観察者によって、複製される際に、セキュリティ文書のデジタル画像とは異なるデジタル画像もセキュリティ文書を表すとみなされる可能性があるという発見を反映するように有利にトレーニングされる。この点において、許容レベルは、先入観のない人間の観察者の誤った信念を表す可能性がある。デジタルトレーニング画像とセキュリティ文書との間にかなりの差異が存在する可能性があるが、観察者は依然としてデジタルトレーニング画像の複製を、セキュリティ文書を表すとみなすことができる。セキュリティ文書とデジタルトレーニング画像を直接比較すると、そのような差異は容易に認識できる可能性がある。しかし、人間の認識と記憶には限界がある。たとえば、本物の紙幣とは外観が大きく異なる偽造紙幣を人々が許容することが多いことはよく知られている。したがって、先入観のない人間の観察者は、違いがそれほど強くない場合、少なくともある程度(許容レベル)までは、異なるアイテムを同じであると一般にみなす可能性がある。たとえば、人間の観察者は、偽造された紙幣を、オリジナルの紙幣を表しているとみなす可能性がある。本発明のニューラルネットワークは、これらの違いと、人間の知覚と記憶に関する詳細を有利に組み込むようにトレーニングされる。
許容レベルは、変更されたデジタルトレーニング画像と、これら(複製)がそれぞれの数の人間の観察者によってどの程度相互に区別されるとみなされるかに関する基準との間の類似性メトリックを記述するものと考えることができる。
先入観のない人間の観察者は、その分野の専門家である必要はないが、セキュリティ文書を一般的に使用する人物とみなされる。
グラウンドトゥルースは、少なくとも4人の先入観のない人間の観察者の許容レベルを表す可能性がある。この場合、グランドトゥルースは、少なくとも5つの異なる許容レベルを含み得る。デジタルトレーニング画像の複製がセキュリティ文書を表すかどうかは人間によって異なる判断がされる可能性があるため、決定的に先入観のない人間の観察者の数を増やすことによって、この不確実性がトレーニングプロセスに組み込まれる。したがって、グラウンドトゥルースには、許容レベルに関する改善された分布が含まれるという利点がある。たとえば、先入観のない人間の観察者(ラベル作成者)が4人いる場合、これらは一般に5つの異なる許容レベルをもたらす。この場合、複製がセキュリティ文書またはその倍数を表すとみなされるかどうか、またはこれがセキュリティ文書であるとみなされるかどうかに関する許容レベルに関する分布が決まる。そうでない場合は、4/0、3/1、2/2、1/3、0/4のいずれかになる。換言すれば、4人のラベラーがデジタルトレーニング画像にラベルを付ける場合、少なくとも1人のラベラー(またはラベラーの少なくとも25%)がこの画像をセキュリティ文書としてラベル付けする場合に備えて、トレーニング画像はセキュリティ文書として知覚可能なものとしてラベル付けされる可能性がある。あるいは、少なくとも2人のラベラー(またはラベラーの少なくとも50%)がこの画像をセキュリティ文書としてラベル付けする場合に備えて、トレーニング画像をセキュリティ文書として認識できるものとしてラベル付けすることもできる。
もちろん、許容レベルのより細かいセグメント化も同様に、オプションで、評価されたデジタル画像から抽出された情報および/または抽出された情報に基づいて決定されたスコアと相互に関連付けることができる。したがって、ニューラルネットワークによって実行されるデジタル画像を分類するときの決定メカニズムは、より洗練される可能性がある。
一般に、「ポジティブデジタルトレーニング画像の第1サブセット(B1-1)」として分類されたトレーニング画像にはそれぞれ1が割り当てられ、「ネガティブデジタルトレーニング画像の第2サブセット(B1-2)」として分類されたトレーニング画像にはそれぞれ番号0が割り当てられる。したがって、深層学習モデルは、0から1までの連続数値であるスコアを出力する。このスコアは、特定の画像が特定のクラスである可能性を表す。したがって、出力スコアが1に近いほど、デジタル画像がセキュリティ文書として認識される可能性が高くなる。つまり、スコアが0に近いほど、デジタル画像がセキュリティ文書として認識されない可能性が高くなる。一般に、2つのクラス間のしきい値は0.5以上になる。
このしきい値は、許容レベルと相関することもある。許容レベルが低い場合、例えば、デジタル画像をポジティブデジタルトレーニング画像の第1のサブセットに分類するラベラーの50%未満の場合、閾値レベルは0.5以上であると決定され得る。許容レベルがより高い場合、すなわちラベラーの50%以上がそれぞれのデジタル画像をポジティブデジタルトレーニング画像の第1のサブセットに分類する場合、出力スコアの閾値は0.5より低いと決定され得る。
代替または追加として、このしきい値は各モデルの精度/再現要件に基づいて調整できる。したがって、閾値は、少なくとも0.1以上、0.15以上、0.2以上、0.25以上、0.3以上、0.35以上、0.4以上、0.45以上であってもよい。
セキュリティ文書は紙幣であってもよい。この場合、紙幣の表面画像と裏面画像からなる2つのデジタル画像が2つの基準として提供されてもよい。次に、各ポジティブデジタルトレーニング画像は、先入観のない人間の観察者が、それぞれのデジタルトレーニング画像の複製をセキュリティ文書の表面画像および/または裏面画像または複数を表すとみなすほどに、変更の視覚的影響を与える可能性がある。紙幣の裏面も印刷され、特に表面とは異なる方法で印刷されるため、ポジティブデジタルトレーニング画像は基本的には両面のうちの一方、または両面の組み合わせと一致する。いずれにせよ、先入観のない人間の観察者が、少なくとも片面または様々な組み合わせに関して、特定のデジタルトレーニング画像の複製を、紙幣を表すとみなし得るため、そのようなデジタルトレーニング画像はポジティブデジタルトレーニング画像と言える。したがって、紙幣の両面を基準として提供する必要があり、それに応じてトレーニング画像のセットが適応される。
本発明のあらゆる側面において、人工知能(AI)ニューラルネットワークとは、決定を下すように構成されたソフトウェアまたはハードウェアベースの技術、例えばコンピュータで実行されるアルゴリズムを指す。AIは、意図された目的に関して提供されたデータを自動的に活用し、それぞれの結果をユーザに自動的に提供するように構成することもできる。
入力データとして1つ以上のデジタル画像が使用され、好ましくは2つ以上のデジタル画像のバッチ、特に8枚以上、16枚以上、または32枚以上のデジタル画像が、0から1までの予測スコアを出力するため、ニューラルネットワーク予測モデルの入力データとして一度に使用される。一般に、予測出力スコアが1に近づくほど、それぞれのデジタル画像がセキュリティ文書(ポジティブ)として認識される可能性が高くなる。逆も同様で、予測出力スコアが0に近づくほど、それぞれのデジタル画像がセキュリティ文書として認識されないと分類されたそれぞれのデジタル画像(ネガティブ)として認識される可能性が高くなる。閾値レベルは一般に0.5以上であるが、それぞれのモデルの精度および再現率に基づいて、および/または許容レベルに基づいて調整されてもよい。したがって、閾値は、例えば、0.1以上、0.15以上、0.2以上、0.25以上、0.3以上、0.35以上、0.4以上、または0.45以上であり得る。
デジタルサンプル画像は、適切な画像サイズで提供されるか、それに応じてサイズ変更されることが好ましい。適切な画像サイズは、(64,128)、(129,256)、(192,384)、(256,512)、または(299,299)である。好ましくは、画像サイズは、予測モデルをトレーニングするために使用されるサイズであり、好ましくは、画像サイズは(64,128)であり得る。
この方法は、1つ以上のニューラル層を有するディープニューラルネットワークを使用して実行できる。各層は、他の層から独立して多数のニューロンを示す場合がある。各層は、分岐または非分岐のアーキテクチャ構造を持つことができる。したがって、ニューラルネットワークは、トレーニングメカニズムをより詳細に実行できるように進歩させることができる。
すべての発明の態様の人工知能ベースのニューラルネットワークは、機械学習機能を備えることができる。したがって、ニューラルネットワークは、トレーニングメカニズムから学習し、提供されたデジタルトレーニング画像に基づいて決定プロセスを一般化するように構成され得る。
機械学習機能を含む本発明のニューラルネットワークは、描画決定のプロセスを改善するために複数の入力を含むように構成できる。言い換えれば、ネットワークは、単一の入力に基づいて決定を下す精度と比較して、決定を下す精度の確率を向上させるために、いくつかの同様の入力を認識するように構成できる。
要約すると、既に利用可能な画像分類に適したアーキテクチャおよびデータセットを本発明に使用できる。例として、次の予測モデルアーキテクチャは、同様の問題に対して高いパフォーマンスを発揮し、微調整を使用してさまざまなタスクに適応できる柔軟性があるため、使用できる。
ResNet(レズネット)
ResNetアーキテクチャ(ヒーら。「画像認識のための深層残差学習」、https://arxiv.org/abs/1512.03385)は、ILSVRC(ルサコフスキーら。「Imagenetの大規模視覚認識チャレンジ」、https://arxiv.org/abs/1409.0575)2015分類コンテストで優勝した。当時、研究者らは、ネットワークの層数が多いほど、多くの問題に対してパフォーマンスが向上する可能性があることを発見した。ただし、実際には、出力から遠く離れた初期層の重みを更新するのが難しいため(勾配消失問題)、これらのより深いアーキテクチャをトレーニングするのは困難であった。残差ブロックの導入により、152層のResNet152をトレーニングすることが可能になった。
ResNetアーキテクチャは、層間の通常の接続に加えて、スキップ層を追加することによって機能する(ジェブラド。「残差ニューラルネットの標準形式」、https://commons.wikimedia.org/wiki/File:ResNets.svg)。これにより、層l-2の出力が中間の層l-1を最初に通過する必要がなく、次の層lに直接影響を与えるため、バックプロパゲーション中の勾配が増加する。通常の接続のみでは消滅する勾配は、残差ブロックが存在する場合には十分に大きな値を持つ。
ResNetには、ResNeXt4やWide ResNet5など、いくつかの亜種が存在する。本アプリケーションの場合、トレーニングの労力と予測パフォーマンスのバランスが適切に保たれる可能性があるため、50層の元のResNetアーキテクチャが選択される可能性がある。
インセプションv3
インセプションネットワークの最初のバージョン(セゲディら。「コンピュータービジョンのインセプションアーキテクチャの再考」、https://arxiv.org/abs/1512.00567)(GoogLeNetとしても知られる、Szegedyら。「畳み込みを用いてより深く」(“Going Deeper with Convolutions”)、https://arxiv.org/abs/1409.4842)では、さまざまなスケールの機能を使用するために、さまざまなカーネルサイズの畳み込みを組み合わせるインセプションモジュールが導入された。さらに、補助分類器(小さな畳み込みニューラルネットワーク)が、いくつかの層間の正則化子として追加された。これらは、ネットワークが目に見えない画像をより適切に一般化するのに役立った。このアーキテクチャは、ILSVRC 2014コンペティション(「ImageNet Large Scale Visual Recognition Challenge 2014」、https://image-net.org/challenges/LSVRC/2014/)で優勝した。
第2のバージョンでは、より大きな畳み込みをより小さな畳み込みに因数分解することで、より高い計算効率が達成された。たとえば、5x5カーネルを使用した畳み込みは、3x3カーネルを使用した2つの畳み込みに分割されるため、パラメータの数が25から18に減る。
Inception v3には、以前のバージョンのアイデアが組み込まれており、さらに因数分解と補助分類器への変更を使用して改良されている。
DenseNet(高密度ネット)
DenseNetは、3つのモデルの中で最も新しいアーキテクチャである(フアンら。「Densely Connected Convolutional Networks」、https://arxiv.org/abs/1608.06993)。2017年のCVPR10カンファレンス(「CVPR 2017」、https://cvpr2017.thecvf.com/)で最優秀論文賞を受賞した。これは、高密度ブロック(Dense Blocks)を使用して単一レイヤーをスキップするというResNetのアイデアをさらに一歩進めたものである。すべての高密度ブロックでは、各層が先行するすべての層から入力を受け取る。以前のすべてのレイヤーからの特徴マップが連結され、次のレイヤーの入力として使用される。したがって、ブロック内の最後の層は集合情報全体にアクセスできる。特に、100以上、特に121の層を有するDenseNetを本用途に使用できる。
事前トレーニング
特定のタスクのために1つのデータセットでトレーニングすることによってニューラルネットワークが学習する特徴は、異なるデータセットを含む別のタスクにも意味があることが示されている。特にネットワークの最初の層は、より一般化可能な機能を学習することが知られている。これらの調査結果に基づいて、ImageNet(「ImageNet大規模視覚認識チャレンジ2014」、https://image-net.org/challenges/LSVRC/2014/)やCOCO(リンら。「Microsoft COCO:コンテキスト内の共通オブジェクト」、https://arxiv.org/abs/1405.0312)などの大規模なデータセットでトレーニングされたネットワークを取得し、次に対象となる第2のデータセットでその重みを微調整するのが一般的である。事前トレーニングされた重みを使用するこのアプローチは、第2のデータセットが非常に小さい場合でも効果的であることが示されている。
したがって、本発明のトレーニング方法は、好ましい実施形態によれば、一般的な大きな画像データセットに対する事前トレーニングを使用し、それによって、モデルの重みを、ImageNetまたはCOCOなどのそれぞれの画像データセット上で良好に機能する状態に初期化する。ここでは、ImageNetは分類モデルのベンチマークの標準となっている。
次に、セキュリティ文書(ポジティブトレーニング文書)として認識されるトレーニング画像の第1のサブセットのデジタル画像と、セキュリティ文書として認識されるトレーニング画像の第2のサブセットのデジタル画像を含むデータセットでトレーニングすることによって、それぞれの予測モデルアーキテクチャが微調整される。それぞれ紙幣やセキュリティ文書として認識されることはない。
本発明の第1の態様の方法は、複数のセキュリティ文書の閉じたセットに対して実行できる。次に、人工知能ベースのニューラルネットワークは、セキュリティ文書の閉じたセットのすべてのセキュリティ文書に対してトレーニングされ得る。したがって、閉集合は、ニューラルネットワークがトレーニングされる特定の数のセキュリティ文書を含むか、またはそれらから構成され得る。これは、特定の数の異なる要素のみが存在する特定のタイプのセキュリティ文書にニューラルネットワークを使用する場合に有利である可能性がある。たとえば、セキュリティ文書の閉じたセットは、限られた数の通貨システムのさまざまな紙幣の種類によって決定できる。
データ処理
すでに前述したように、入力データは、予測モデルで一度に使用される1つ以上、好ましくは8つ以上、16つ以上、または32つ以上のデジタル画像のバッチに関する。たとえば、32個のデジタル画像を含むバッチは、特に上記のモデル例で有利なパフォーマンスを示す。
本トレーニング方法およびコピー防止方法の好ましい実施形態によれば、それぞれのバッチのデジタル画像は、重みに有利な影響を与えるために、共通のサイズ、例えば、(64,128)、(128,256)、(192,384)、(256,512)、(299,299)にサイズ変更され得る。一般的な画像データセットを使用した事前トレーニングが実行されている場合、サイズ変更には、ImageNetやCOCOなどの画像データセットの平均標準偏差を使用することが好ましい。換言すれば、本発明のトレーニングデータがトレーニング前の画像データ資産と同様に標準化されている場合、事前トレーニングされた重みは本発明のトレーニングデータに対してうまく機能する。
本発明の追加的または代替的な実施形態によれば、トレーニング画像の数は、適切な拡張、例えば、パラメータの明るさ、コントラスト、彩度および/または色相を含むことができるColorJitter拡張、RandomAffine拡張、GuassianBlur拡張、を使用して人為的に増加できる。RandomAffine拡張には、度数、平行移動、スケール、せん断、補間、および/または塗りつぶしのパラメータが含まれる場合がある。GuassianBlur拡張には、カーネルサイズおよび/または標準偏差のパラメータが含まれる場合がある。より具体的には、トレーニング時に、トレーニング画像の一部またはすべてに小さな摂動を適用できる。これらの摂動の強度は、事前定義された範囲からランダムに選択される。この範囲は、摂動がグランドトゥルースを変更するほど強力にならないように慎重に定義される。つまり、セキュリティ文書として許容されると考えられる画像、特に紙幣は、摂動を適用した後も許容可能なままになる。
したがって、セキュリティ文書として認識可能であるとラベル付けされた拡張デジタルトレーニング画像には、次の変更/変換範囲が含まれる可能性がある:
ColorJitter拡張。これには、明るさ(例:±5%の範囲)、コントラスト(例:±8%の範囲)、彩度(例:±8%の範囲)および/またはパラメータの変更が含まれる場合がある。色相(例:±6%の範囲);
RandomAffine拡張。パラメータの度数(例: 0.05度)、移動(たとえば、水平方向または垂直方向の画像サイズの0%から1%の間)、スケール(例:サイズを1%ずつ拡大または縮小する)、シアー(たとえば、-0.5度から+0.5度の間でx軸に平行にせん断する)、補間(例:最近傍補間)、および/またはフィル(白)の変更が含まれる場合がある;
GuassianBlurの拡張。これには、カーネルサイズ(例:5x5)および/または標準偏差(例:0.3)のパラメータの変更が含まれる場合がある。前述の変換は、torchvisionフレームワークを使用して適用できる。
しかしながら、本実験の結果によれば(例のセクションを参照)、そのような人為的な増強はトレーニングを改善しない。代わりに、画像拡張をモデルの評価に使用することもできる。
0.005、0.01、0.05、または0.1などの適切な学習率を使用して、予測モデルをトレーニングできる。言い換えれば、学習率は、モデルの学習プロセスを最適化するために使用されるステップサイズを定義する。したがって、ステップサイズが小さいほど、モデル学習プロセスの最適化がより早く実行され、全体的なパフォーマンスは向上するが、全体的な計算負荷は高くなる。今回の実験によれば、ステップサイズ0.005が最高のパフォーマンスを示した。
オプティマイザ
一般に、ニューラルネットワークのトレーニングは最適化問題である。この最適化は通常、さまざまなオプティマイザを介して実行できるが、その中で確率的勾配降下法が最もよく知られている。通常、オプティマイザは、単一バッチの損失関数の値を計算し、この関数の勾配を決定し、損失を最小化する方向に向かって(学習率によって定義される)ステップを実行することにより、モデルの重みを繰り返し更新する。例えば、Adam (Kingma et al. 「Adam: A Method for Stochastic Optimization」、https://arxiv.org/abs/1412.6980)オプティマイザを、本発明のトレーニング方法に適したオプティマイザとして使用できる。これは確率的勾配降下法に基づいて構築されており、各パラメータに個別の学習率があり、トレーニングの進行状況に応じてこれらを調整する。
ハイパーパラメータ検索
本発明の追加または代替の好ましい実施形態によれば、機能モデルをベースラインとして確立した後、モデルの性能を最適化することが好ましい。これは、トレーニング中にさまざまなパラメータの組み合わせを試すことで実行できる。
加えて、または別個に、本発明のトレーニング方法は、数字など(例えば、紙幣の場合、額面金額、文字または単語)の適切なテキストベースの分類器を実装し得るし、および/または、画像分類器のみのアンサンブル、または画像とテキストベースの分類器のアンサンブルを使用するなど、アンサンブル戦略とモデルを実装し得る。特にアンサンブルを使用すると、パフォーマンスが向上し、より堅牢になり得る。
本発明のトレーニング方法は、一般に、精度、適合率(「陽性的中率」とも呼ばれる)、再現率(「感受性」とも呼ばれる)、F1およびマシュー相関係数(MCC)などの1つまたは複数の一般的な指標を使用して評価される。
混同行列は通常、モデルのパフォーマンスの全体的なビューを提供する。それは、混同行列は、分類器の予測品質を記述し、かつ、グラウンドトゥルース(ターゲット)の正および負に分類されたデジタル画像と、予測(モデル)の正および負に分類されたデジタル画像とを表示することによって、正しい予測と誤った予測がどこで発生するかを示すためである。よって、混同行列は、真陽性(TP)、偽陽性(FP)、真陰性(TN)、および偽陰性(FN)に分類されたデジタル画像の数を示す。
各評価メトリックは、混同行列を1つの値で要約することを試みる。
評価指標の「精度」は、正しい予測の割合に関係する。つまり、精度=(TP + TN)/(TP + TN + FP + FN)となる。バランスの取れたクラス、つまりポジティブクラスとネガティブクラスのデジタル画像の数が同じ場合、精度は全体的なパフォーマンスの適切な尺度になる。
評価指標「再現率」は、モデルによって予測できる真陽性の割合に関連する。言い換えると、再現率= TP/(TP + FN)となる。
評価指標の「精度」は、陽性を予測する場合の真陽性の割合に関連する。つまり、精度= TP/(TP + FP)となる。
評価指標「F1」は、単一の指標における適合率と再現率の組み合わせに関連しており、適合率と再現率の調和平均として定義される。言い換えると、F1 = (2x精度x再現率)/(精度+再現率)となる。
評価指標「マシューズ相関係数(MCC)」は、クラスの不均衡に対するロバスト性を提供し、いくつかの望ましいモデル特性が1つの数値にマージされる。値は[-1,+1]の間で、-1が最悪で+1が最高である。言い換えると、MCC = [(TP x TN)-(FFP x FN)]/[(TP + FP) x (TP + FN) x (TN + FP) x (TN + FN)]となる。
以下の例のセクションで詳しく説明するように、紙幣を分類するために設定された実験トレーニングでは、入力画像サイズ(64,128)、バッチサイズ32、学習率0.005、および標準の変換を組み合わせたResNet50のアーキテクチャが、最高のパフォーマンスを示した。
本発明により構成されたコピー防止方法は、安全性に関して有利に改善される。デジタル画像の分類の予測に基づいて実行されるデジタル画像の特性はアプリオリに決定されていないため、デジタル画像がどのような基準に基づいてデジタル画像が分析されるのかは、一般には知られておらず、したがって可能性のある反適合者にも知られていない。したがって、偽造者は、コピー防止を回避したりコピーを容易にしたりするデジタル画像を設計できない。
本発明の第1の態様に関して開示されたすべての特徴および実施形態は、結果として得られる組み合わせを条件として、単独で、またはその好ましい実施形態のそれぞれを含む本発明の第2から第5の態様のひとつと、またはそれらの(サブ)コンビネーションで組み合わせることができる。特徴のいくつかは当業者にとって合理的である。
第2の態様によれば、少なくとも1つのセキュリティ文書Aのコピー防止のための、コンピュータによって実行される方法が提供される。
この方法は、デジタルサンプル画像C1を提供することを含んでもよい。この方法はまた、デジタルサンプル画像を第1のカテゴリまたは第2のカテゴリに分類するために人工知能ベースのニューラルネットワークを適用することを含んでもよい。ニューラルネットワークは、本明細書で前述した方法に従ってトレーニングできる。
デジタルサンプル画像の少なくとも一部の複製が先入観のない人間の観察者によって少なくとも1つのセキュリティ文書または複数のセキュリティ文書を表すとみなされ得るとニューラルネットワークが判断した場合、デジタルサンプル画像は第1のカテゴリに分類され得る。この予測は、予測モデルの出力スコアのしきい値に関連する。閾値が0.5の場合、0.5以上のスコアを獲得したデジタルサンプル画像が最初(第1)のカテゴリに分類される。あるいは、閾値が0.1以上、0.15以上、0.2以上、0.25以上、0.3以上、0.35以上、0.4以上、0.45以上の場合で、スコアがそれぞれ少なくとも0.1以上、0.15以上、0.2以上、0.25以上、0.3以上、0.35以上、0.4以上、または0.45以上の場合、デジタルサンプル画像は第1のカテゴリに分類される。セキュリティ文書として認識できる文書、特に紙幣が複製されない可能性を高めるために、閾値を下げることができる。ただし、この場合、デジタル画像の数が増加するというトレードオフがあり、これらは一般にセキュリティ文書、特に紙幣として認識される可能性が低いと考えられている。不正コピー防止の数を減らすために、人工知能検出をプレフィルタとして使用できる。これにより、ユーリオンやオムロンリングなどの、コピー防止画像のセキュリティ機能を識別するための適切な検出器を使用して、後のステップで元のデジタル画像の一部のみを認証する必要がある。言い換えれば、最初の人工知能検出(認証セキュリティ機能を使用しない)で第1のカテゴリに分類されたデジタル画像のこの部分のみが、共通の画像セキュリティ機能を使用して第2のステップで認証される。第2の認証ステップでコピー防止画像セキュリティ機能が識別された場合、コピープロセスは防止される。画像セキュリティ機能の2段階目の認証でそれぞれの画像セキュリティ機能が識別されない場合、コピープロセスは阻止されない。したがって、人工知能検出をプレフィルタとして組み合わせ、その後、第1ステップのポジティブな部分にのみコピー防止認証を適用する好ましい実施形態は、コピー防止画像セキュリティ機能を含まない、これらのデジタル画像に関するコピー防止の部分を削減することを容易にする。同時に、人工知能の検出はその後のコピー防止画像セキュリティ機能の認証よりも時間がかからないため、全体の認証時間が短縮される。さらに、人工知能プレフィルタは、コピー防止画像セキュリティ機能を違法に備えているが、セキュリティ文書として認識可能とはみなされていない文書の複製を阻止しない。
代替案では、デジタルサンプル画像のどの部分についても、先入観のない人間の観察者によって複製が少なくとも1つのセキュリティ文書または複数のセキュリティ文書を表すとみなされる可能性がないとニューラルネットワークが判断した場合、デジタルサンプル画像は第2のカテゴリに分類され得る。この予測は、予測モデルの出力スコアのしきい値にも関係する。しきい値が0.5の場合、0.5未満のスコアを受け取ったデジタルサンプル画像は第2のカテゴリに分類される。あるいは、閾値が0.1以上、0.15以上、0.2以上、0.25以上、0.3以上、0.35以上、0.4以上、0.45以上の場合で、スコアがそれぞれ0.1未満、0.15未満、0.2未満、0.25未満、0.3未満、0.35未満、0.4未満、0.45未満の場合、デジタルサンプル画像は、第2のカテゴリに分類される。
さらに、この方法は、ニューラルネットワークがデジタルサンプル画像を第1のカテゴリに分類する場合、デジタルサンプル画像の複製を防止するステップを含んでもよい。
本出願の文脈内では、デジタルサンプル画像はサンプル文書Cのデジタル画像を指す。例えば、複製を禁止すべきか許可すべきかを決定すべきサンプル文書があり得る。明らかに、先入観のない人間の観察者がサンプル文書のどの部分もセキュリティ文書を表しているとみなし得るのであれば、複製は避けるべきである。次に、(オリジナルの)セキュリティ文書として不適切または違法に使用される可能性のある候補の複製を回避するための効果的な手段が提供される。
したがって、サンプル文書のデジタル画像を取得してデジタルサンプル画像を得ることができる。このデジタルサンプル画像は、ニューラルネットワークに提供される。ニューラルネットワークは、前述の詳細に従ってトレーニングされ得るため、少なくとも1つのセキュリティ文書のデジタル画像を基準として認識する。次に、ニューラルネットワークは、デジタルサンプル画像の複製が、先入観のない人間の観察者によってセキュリティ文書またはその複数を表すとみなされるかどうかを判断できるようにできる。このプロセス中に、ニューラルネットワークはデジタルサンプル画像と基準画像の間の差異を考慮する場合がある。これらの違いは存在する可能性があるが、ネットワークは、少なくとも一定の許容レベルで、先入観のない人間の観察者によってデジタルサンプル画像の少なくとも一部の複製がセキュリティ文書を表すとみなされる可能性があると判断する可能性がある。この条件が、少なくとも一定の許容レベルまで真であると判定された場合、デジタルサンプル画像は第1のカテゴリに分類され得る。これは、第1のカテゴリは悪用される可能性のあるデジタルサンプル画像を含む、またはそれらから構成されることを意味する。したがって、第1のカテゴリに分類されるデジタルサンプル画像については、現状の方法で実現できる不正利用を防止するために、複製を防止できる。複製の防止には、デジタルサンプル画像のハードコピーが取得できないようにデジタルサンプル画像の処理を防止することが含まれる場合がある。加えて、または代わりに、防止措置には、デジタルサンプル画像の基礎となるデータの処理、変換、または保存を防止することも含まれ得る。
本方法の文脈内では、セキュリティ文書は、紙幣、小切手、証書、切符、パスポート、または航空券のうちの1つであり得る。これらの種類の文書の場合、それぞれのデジタル画像を不正に複製すると、経済的理由とセキュリティ関連の両方の理由で重大なリスクが生じる。これらのリスクは、本明細書で前述したコピー防止の方法によって回避されるか、少なくとも軽減される。
本発明によりトレーニングされたニューラルネットワークがデジタルサンプル画像を第1のカテゴリに分類する場合、デジタルサンプル画像の複製を阻止することは、禁止手段の起動を含むことができる。禁止手段は、ソフトウェアまたはハードウェアで実装された構造とできる。禁止手段は、プリンタや複写機等の複製手段によるデジタルサンプル画像の複製を禁止するものであってもよい。禁止手段は、データの保存やデータの変換処理を禁止するように構成することもできる。これは、マスタ/スレーブシステムによって達成でき、禁止手段は、そのようなデバイスまたは共通のデータ処理システムに含まれるデータ処理ユニットを制御できる。さらに、または代わりに、デジタルサンプル画像を表すデータは、複製装置、すなわちプリンタまたは複写機によって読み取れない、または処理できないように、禁止手段によって修正されてもよい。データを修正することは、マーク/属性/フラグを含むようにデータを修正することを含むことができ、マーク/属性/フラグはデータの複製を防止する。
デジタルサンプル画像は、セキュリティ文書のデジタル画像と比較して変更されている可能性がある。デジタルサンプル画像は、特に、セキュリティ文書のデジタル画像と比較して劣化する可能性がある。変更されたデジタルサンプル画像は、遠近角、基調的な照明、色合い、折り目、またはしわのうちの少なくとも1つに関して、セキュリティ文書のデジタル画像とは異なる場合がある。デジタルトレーニング画像の文脈内で本明細書に記載される変更(同義語:劣化または修正)に関して説明される詳細は、変更されたデジタルサンプル画像にも同様に適用され得る。同様に、変更されたデジタルトレーニング画像の場合と同様に、デジタルサンプル画像は、さまざまな理由、特に劣化により最適ではない可能性がある。さらに、照明の制限または画像取得手段の最適化されていない配置により、画像取得が最適化されない可能性がある。さらに、サンプル文書自体は、例えば機能、特にグラフィックデザイン機能、の流通または交換により、セキュリティ文書とは異なる場合がある。したがって、そのような違いはデジタルサンプル画像自体に存在する可能性がある。しかし、それに応じてニューラルネットワークがトレーニングされると、先入観のない人間の観察者によってデジタルサンプル画像の複製がセキュリティ文書に関連するとみなされるかどうかを判断できる可能性がある。言い換えれば、ニューラルネットワークは、基準と比較して変更されたデジタルトレーニング画像を使用してトレーニングされている可能性があるため、ニューラルネットワークは、変更されたデジタルサンプル画像と基準との間に存在する差異を補うことができる。ニューラルネットワークは、先入観のない人間の観察者が、基準との関係でデジタルサンプル画像の少なくとも一部の複製を、どのようにみなす考慮するかを評価することに適合するよう、変更されたデジタルサンプル画像と基準との間の差異に適切にアクセスするように構成されている。
セキュリティ文書は表面と裏面を含む場合がある。次に、デジタルサンプル画像の少なくとも一部の複製が先入観のない人間の観察者によって、セキュリティ文書の1つまたは複数のセキュリティ文書の表面および/または裏面を表すとみなされる可能性があるとニューラルネットワークが判断した場合、デジタルサンプル画像は第1のカテゴリに分類され得る。あるいは、デジタルサンプル画像のどの部分も先入観のない人間の観察者によって、複製が、セキュリティ文書または複数のセキュリティ文書の表側および/または裏側を表しているとみなされ得ないとニューラルネットワークが判断した場合、デジタルサンプル画像は第2のカテゴリに分類される。
ニューラルネットワークをトレーニングするための方法において提供されるグランドトゥルースは、第1の部分範囲および第2の部分範囲を含む、またはそれらからなる許容レベルの範囲を表すことができる。そして、デジタルサンプル画像の少なくとも一部の複製が先入観のない人間の観察者によって、少なくとも1つのセキュリティ文書または複数のセキュリティ文書を表すとみなされ得るという許容レベルを、第1の部分範囲に従ってニューラルネットワークが決定する場合に、デジタルサンプル画像が第1のカテゴリに分類される限りにおいて、コピー防止の方法を修正できる。
あるいは、デジタルサンプル画像のどの部分も、先入観のない人間の観察者によって、少なくとも1つのセキュリティ文書または複数のセキュリティ文書の複製を表すとみなされ得ないという許容レベルを、第2の部分範囲に従ってニューラルネットワークが決定する場合に、デジタルサンプル画像が第2のカテゴリに分類され得る。このシナリオでは、第1の部分範囲が第2の部分範囲よりも大きい可能性がある。
決定された許容レベルは、出力スコアの閾値と相関関係にあり得る。すなわち、閾値の数値が高くなるほど、数値の許容レベルは低くなり、その逆も同様である。
許容レベルは、変更されたデジタルサンプル画像と、それぞれの数の人間の観察者がこれら(複製)をどの程度区別するかについての基準との間の類似性メトリックを記述すると考えることができる。
これは、デジタルサンプル画像の複製が先入観のない人間の観察者によってセキュリティ文書を表すとみなされるかどうかについて、複数の異なる許容レベルを決定できるようにニューラルネットワークをトレーニングできることを意味する。有利なことに、許容レベルの範囲は、デジタルサンプル画像の分類メカニズムに関して非対称に分散される。換言すれば、許容レベルが非常に低い場合にのみ、デジタルサンプル画像は、複製が必ずしも阻止されない第2のカテゴリに分類されてもよい。許容レベルのより大きな部分範囲に従って、デジタルサンプル画像は、複製が防止されるように、代わりに第1のカテゴリに分類され得る。言い換えると、第1の部分範囲が第2の部分範囲より大きい場合、少なくとも、さまざまな許容レベルに関して少なくともデジタルサンプルの均一な分布を仮定すると、第1のカテゴリに分類されるデジタルサンプル画像の数と第2のカテゴリに分類されるデジタルサンプル画像の数の間に非対称があり得る。
単純なシナリオでは、先入観のない人間の観察者は、デジタルサンプル画像の複製を、0~1の範囲の50%許容レベルでセキュリティ文書を表すとみなし得る。第1の部分範囲が第2の部分範囲より大きいと仮定すると、このデジタルサンプル画像は、50%の許容レベルにより、第1のカテゴリに分類される。部分範囲間の閾値は、特に、非常に低く決定でき、例えば、0から1の範囲では0.3対0.7、さらに0から1の範囲では0.2対0.8、例えば0から1の範囲では0.1対0.9であり、許容レベルの同じ範囲では、例えば0.01対0.99である。
決定された許容レベルに応じてデジタルサンプル画像を第1のカテゴリまたは第2のカテゴリに分類することに関する非対称分布も、偽陰性イベントと比較した偽陽性イベント間の割合の非対称を引き起こす可能性がある。偽陽性の数は偽陰性の数よりも多く、特にはるかに多くなる可能性がある。ここで、偽陽性とは、観察者が実際には、複製を、セキュリティ文書を表さないとみなしているにもかかわらず、デジタルサンプル画像の少なくとも一部の複製が、先入観のない人間の観察者によってセキュリティ文書を表しているとみなされるとニューラルネットワークが判断する構成を指す。偽陰性とは、先入観のない人間の観察者が、実際には、少なくともデジタルサンプル画像の一部の複製を、セキュリティ文書を表すとみなすのであろうが、先入観のない人間の観察者が、少なくともデジタルサンプル画像の一部の複製を、セキュリティ文書を表すとみなさない、とニューラルネットワークが判断する構成を指し得る。偽陽性と偽陰性とに非対称性があるその背後の理由は、第1の部分範囲と第2部分範囲との間の許容レベルに関する閾値にあり得る。これらの部分範囲間の閾値許容レベルが低い場合、デジタルサンプル画像はむしろ第1のカテゴリに分類される。第2のカテゴリに分類されるのはまれなケースである。したがって、偽陰性の数は、偽陽性の数よりも少なく、特にはるかに少なくなる。
許容レベルに関する第1および第2の部分範囲の特定のサイズは、ニューラルネットワークに適用されたトレーニングプロセスの結果であり得る。
あるいは、ニューラルネットワークは、第1および第2の部分範囲が、許容レベルの全体範囲に関して基本的に同じサイズとなるようにトレーニングされてもよい。この場合、セキュリティ文書のコピー防止のためにニューラルネットワークを使用する前または使用中に、それぞれの閾値許容レベルを設定することによって、非対称性を手動で導入できる。閾値許容レベルの設定または適応は、例えば、デジタルサンプル画像の分類によって動機付けられることがある。第2のカテゴリが、複製を防止すべきデジタルサンプル画像を含む、またはそれらから構成される場合、閾値許容レベルは、それに応じて適応され得る。
別の代替例では、閾値許容レベルは、ニューラルネットワーク自体がその固有の機械学習能力に基づいて適応され得る。
少なくとも1つのセキュリティ文書のコピー防止のための方法は、コードに基づくことができ、方法のそれぞれのコードは、100kBから50MBの間、特に200kBから10MBの間、さらに特に200kBから10MBの間、さらに特に500kBと1MB、のバイナリサイズを有し得る。コードは同等の小さいサイズであるため、コードは、スキャン装置、プリンタ、コピー装置などの非ハイエンドデータ処理装置にも実装できるという利点がある。
少なくとも1つのセキュリティ文書のコピー防止のための方法は、60秒未満の時間内、特に100ミリ秒から30秒の間の時間内、特に1秒未満の時間内、で実行可能であるように構成できる。このように構成された方法は、デジタル画像の印刷など、リアルタイムでの通常のデータ処理手順中にも、許容可能な時間を費やして有利に適用できる。
特に、コピー防止のための方法は、印刷プロセスなどの複製プロセスを実質的に遅くしない速度で実行可能であってもよい。この場合、本発明の第2の態様による方法の処理は、印刷装置の機械的待ち時間内で行うことができる。例えば、一実施形態によれば、プリンタ、例えばインクジェットプリンタを使用する場合、これは、コピー防止のために複製/印刷動作が停止される前に、デジタル画像の数ラインだけが複製/印刷され得ることを意味し得る。それでもなお、この実施形態は本発明の目的を達成する。本発明の第2の態様に関して開示されたすべての特徴および実施形態は、単独で、または好ましい実施形態のそれぞれを含む本発明の第1または第3から第4の態様のいずれかと(サブ)組み合わせて組み合わせることができる。得られる特徴の組み合わせは、当業者にとって合理的である。
本発明の第3の態様によれば、通信手段およびデータ処理ユニットを備える、または通信手段およびデータ処理ユニットからなる紙幣検出器が提供される。通信手段は、デジタルサンプル画像を受信し、そのデジタルサンプル画像をデータ処理ユニットに提供するように構成され得る。データ処理ユニットは、少なくとも1つのセキュリティ文書のコピー防止のための方法を実行するように構成され得る。紙幣検出器は、デジタルサンプル画像の複製を防止するように構成できる。
本発明の紙幣検出器は、特に、コピー機やプリンタなどのサンプル文書を複製するための装置に実装できる。したがって、紙幣検出器は、デジタルサンプル画像が前述した第1のカテゴリに分類される場合、サンプル文書またはデジタルサンプル画像の複製処理を有利に防止できる。
本発明の紙幣検出器はソフトウェアで実装できる。紙幣検出器は、デジタルサンプル画像を複製するための装置内に含まれていてもよい。あるいは、紙幣検出器はクラウドベースまたはサーバベースのアプリケーションとして構成されてもよい。
代替案によれば、紙幣検出器は少なくとも部分的にハードウェアで実装されてもよい。この場合、紙幣検出器の機能の少なくとも一部は、CPUまたはCPUに結合されたネットワーク通信装置などのハードウェアベースのデータ処理コンポーネントによって実装され得る。ニューラルネットワークでさえ、量子コンピューティングデバイスを使用するなど、少なくとも部分的にハードウェアベースで実装することもできる。あるいは、ニューラルネットワークは、例えばCPUによって実行されるプロセッサコマンドによってソフトウェアで実装されてもよい。
本発明の紙幣検出器は、全体がデジタルコードとして実現され、コンピュータ言語で書かれてもよい。したがって、紙幣検出器は、複製装置、特に複写機やプリンタのファームウェアに容易に組み込むことができる。さらに、紙幣検出器の更新は、そのようなデバイスのアップグレードされたファームウェアバージョンを提供することによって簡単に実現できる。あるいは、そのようなデバイスは紙幣検出器のクライアント部分のみを含み、紙幣検出器自体はクラウドサービスまたはサーバ内に含まれていてもよい。次に、クライアント部分は、クラウドまたはサーバと通信して、クライアントに存在するローカルデジタルサンプル画像に関してクラウド内またはサーバ上で紙幣検出器を実行するように構成され得る。この場合、デジタルサンプル画像に関するデータをクラウドやサーバに転送する必要がある場合がある。
本発明の紙幣検出器は、デジタルサンプル画像が第1のカテゴリに分類される場合に、デジタルサンプル画像を真正性に関して評価するようにさらに構成され得る。デジタルサンプル画像は、少なくとも1つのセキュリティ文書に含まれる少なくとも1つのセキュリティ機能、すなわちコピー防止のための画像セキュリティ機能に関して評価され得る。特に、オムロンリングとも呼ばれる、いわゆるユーリオン(Eurion constellation)などの特定のコピー防止セキュリティ機能がこの点で使用される場合がある。この実施形態は、第1のカテゴリに分類されるデジタル画像、すなわちセキュリティ文書を表すと考えられるデジタル画像が、実際にコピーが禁止されるセキュリティ文書を表すかどうかをさらに検証できるため有利である。換言すれば、このような好ましい本発明の実施形態は、第1のカテゴリに分類されたデジタル画像が「真の」ポジティブなセキュリティ文書であるかどうかのクロスチェックを提供し、したがって、非セキュリティ書類に違法に適用されるであろう画像セキュリティ機能の悪用を防止する。認証プロセスは、プレフィルタAI検出プロセスと比較して一般に時間がかかることを考慮すると、好ましい実施形態は、真陽性ヒットをクロスチェックすることを可能にするだけでなく、画像の認証プロセスとして全体的な時間を節約することもできる。セキュリティ機能は、第1のカテゴリに分類されたデジタル画像のサブセットに対してのみ実行する必要がある。
本発明のコピー防止方法は、特定のコピー防止セキュリティ機能(ユーリオン)に(のみ)依存しないため、人工知能ニューラルネットワークも、プリンタや複写機に実装されている既知の機構とは異なる。これらには、そのような特定のコピー防止セキュリティ機能がサンプルドキュメントに存在する必要がある。しかしながら、第1に、この方法は真の物理的サンプル文書に依存せず、その代わりにデジタルサンプル画像に依存し、第2に、これらのデジタルサンプル画像は、それぞれのデジタルサンプル画像に含まれる視覚的特徴のかなり広範な範囲に基づいて分類できるため、コピー防止のための本発明の方法の有用性ははるかに広い。
それとは対照的に、本発明の第1の態様による人工知能ベースのニューラルネットワークをトレーニングする方法および本発明の第2の態様による少なくとも1つのセキュリティ文書のコピー防止方法は、セキュリティ文書内に含まれる任意のセキュリティ機能には依存しない。よって、セキュリティ文書を認証しない。したがって、特定のセキュリティ機能、特にコピー防止のための画像セキュリティ機能の誤用または改変は、本発明のコピー防止方法に影響を及ぼさない。前述したように、本発明は、一般的な認証方法と比較して、文書をさらに処理するか、特にコピー、印刷、その他の方法で複製するかどうかの分類を、コピー防止のコードのための完全な認証ステップを実行するよりも迅速に実行できるという利点を有する。したがって、より迅速なニューラルネットワークベースの方法を最初に適用して、デジタルサンプル画像の複製がセキュリティ文書であると一般にみなされるかどうかを評価できる。
デジタルサンプル画像の複製が一般にセキュリティ文書として知覚可能であると考えられるかどうかを評価する人工知能手法を、それぞれのセキュリティ機能に対してその後に適用される認証方法と組み合わせて順次適用すること、すなわち、画像セキュリティ機能人為的な方法の最初のステップでセキュリティ文書を表すと分類された文書に対してのみ実行されるコピーの防止により、全体的な時間が短縮される。
デジタルサンプル画像の複製が一般にセキュリティ文書として認識可能であるとみなされるかどうかを評価する人工知能手法の最初のステップでは、一般に、調査されたデジタルサンプル画像の大部分は、人間によるものとして第2のカテゴリに分類される可能性がある。観察者は、デジタルサンプル画像のいかなる部分の複製もセキュリティ文書とはみなさない。本発明の好ましい方法によれば、第1ステップにおいて、これらの文書が一般にセキュリティ文書として認識されることが本発明のコピー防止方法によってすでに除外されているため、この大部分については認証方法を実行する必要すらない。したがって、プロセスを順次適用することにより、デジタルサンプル画像のセット全体の完全な認証が実行される場合と比較して時間を節約できる。
さらに、コピー防止コードの使用によって文書デザインが歪められることがなく、コピー防止コードの不正適用によるハッキングの危険性も低減される。原則として、デジタルサンプル画像に関する評価は、コピープロテクトのセキュリティ機能/コードとは独立している。したがって、デジタルサンプル画像が第1のカテゴリに分類される場合、複製は防止されるべきである。
基礎となるセキュリティ文書のセキュリティ機能または特性が、そのようにマークされることを意図していない文書上で悪用された場合、追加の局面により時間の節約も実現され得る。セキュリティ機能またはセキュリティ文書の特性の使用は、認可された当局に制限される場合がある。特徴または特性が、セキュリティ文書として使用することを意図していない文書上で、または文書とともに違法な方法で使用された場合、本発明の方法は、最初のステップで、プレフィルタとしてのAI検出方法を使用して、この文書のデジタル画像が以下の内容を含んでいるかどうかを評価する。コピー防止のために違法に適用された画像セキュリティ機能は、第1のカテゴリ(セキュリティ文書として認識可能)または第2のカテゴリ(セキュリティ文書として認められない)に分類される。デジタル画像が第2のカテゴリに分類される場合、本発明の方法は後続の認証プロセスを適用しないため、コピー防止のために不法に適用された画像セキュリティ機能は複製プロセスを停止できない。セキュリティ文書(第1のカテゴリに分類される)として認識される可能性のあるデジタル画像に対してのみ、コピー防止のための画像セキュリティ機能に対する後続の認証プロセスが適用され、複製プロセスの防止につながる。しかしながら、先入観のない人間であれば、このデジタル画像のデジタル複製を、セキュリティ文書を表すとみなし得るので、これは有利である。したがって、第1のカテゴリに分類される誤使用ケースについてのみ、時間のかかる認証プロセスを実行し、第2のカテゴリに分類される誤使用ケースについては、時間のかかる認証プロセスを完全に回避できる。
認証を含む文書のより高度な評価を提供するために、紙幣検出器は、コピー防止のためのコードを含む1つまたは複数のセキュリティ機能を評価するための認証手段をさらに備えることができ、デジタルサンプル画像の真正性を判定するように構成できる。偽造文書に基づくデジタル画像を識別するために基準と比較する。例えば、追加の認証手段として、紙幣検出器は、オムロンリングとも呼ばれるいわゆるユーリオンなど、コピー防止のための1つ以上のコードに関してデジタルサンプル画像を評価するように構成できる。追加の認証ステップにより、文書にコピー防止用の1つ以上のコードが含まれていないと判定された場合でも、さらなる処理は停止され、文書はさらに偽造文書として分類される可能性がある。この場合、コピー保護のためのコードの認証方法に加えて本発明のコピー防止方法を組み合わせると、コピー保護のためのコード、例えばユーリオンが違法にハッキングされ、非合法的に非セキュリティ書類に適用される場合にさらなる利点がもたらされる。従来技術のコピー防止方法によれば、文書の性質に関係なく、すなわち先入観のない人間の観察者が文書の(デジタル)画像またはその複製をセキュリティ文書とみなすかどうかにかかわらず、文書に不法に適用されたコピー防止コードが認証され、コピー操作が停止される。これとは対照的に、本発明の第2の局面のコピー防止方法は、デジタル画像を第1のカテゴリに分類する、または第2のカテゴリに分類することを必要とする。第1のカテゴリに分類することは、少なくとも一定の許容レベルまでは、画像またはその複製が、先入観のない人間の観察者によって、画像またはその複製とみなされ得ることを意味する。第2のカテゴリに分類することは、少なくとも一定の許容レベルまでは、画像またはその複製が、先入観のない人間の観察者によって、画像またはその複製とみなされ得ないことを意味する。デジタル画像が第2のカテゴリに分類される場合、たとえユーリオンが追加の認証方法で認証されたとしても、コピー防止は行われない可能性がある。したがって、不法に適用されたコピー保護コードは、不法なコピー保護を許可しない。
本発明の第2の態様のコピー防止方法を従来技術の認証方法と組み合わせることの別の利点は、偽造文書の(デジタル)画像がコピー防止のコードを持たない場合にコピーを防止でき、したがって、複製が不可能になることである。先入観のない人間の観察者によってセキュリティ文書と見なされる場合には、従来技術の認証方法によって阻止される可能性がある。
したがって、本発明の第1の態様による人工知能ベースのニューラルネットワークをトレーニングする方法と、本発明の第2の態様による少なくとも1つのセキュリティ文書のコピー防止方法は、偽造文書に基づくデジタル画像を識別して、それらの画像の複製を防止するために、少なくとも1つのセキュリティ機能の信頼性を評価する方法とともに、順次または同時に適用できる。逐次適用の場合、認証方法は、人工知能ベースのニューラルネットワークの適用に基づく本発明のコピー保護方法に続いて適用される。
紙幣検出器は、モバイルデバイスで一般的に使用される下位のARMタイプのマルチコアCPUまたは同様のCPUで構成できる。デバイスは、4MBから8GBの範囲内、さらに特に16MBから2GBの範囲内、さらに特に64MBから512MBの範囲内、さらに特に128MBから256MBの範囲内のメインメモリをさらに備えることができる。少なくとも1つのセキュリティ文書のコピー防止方法は、指定されたサイズのメインメモリを使用して、ローカルまたはリモート方式で指定されたCPUタイプ上で実行可能であるように構成できる。
本発明の第3の態様に関して開示されたすべての特徴および実施形態は、単独で、または好ましい実施形態のそれぞれを含む本発明の第1、第2、および第4の態様のいずれかと(サブ)組み合わせて組み合わせることができる。得られる特徴の組み合わせは、当業者にとって合理的である。
第4の態様によれば、プログラムがデータ処理ユニットによって実行されるとき、データ処理ユニットに、デジタルサンプル画像を第1のカテゴリまたは第2のカテゴリに分類するための人工知能ベースのニューラルネットワークを適用させる命令を含む、または命令からなるコンピュータプログラム製品である。この場合、ニューラルネットワークは、本明細書で前述した方法に従ってトレーニングでき、分類プロセスは、本明細書で前述したように達成できる。
コンピュータプログラム製品は、暗号化および/またはエラーコード化して保存できる。基礎となるテクニックや手順のいくつかは、セキュリティ上の理由から秘密にしておく必要がある。したがって、コードが暗号化されて保存される場合、基礎となる技術および命令が公開されるのを有利に防止できる。
あるいは、コンピュータプログラム製品はオープンアクセスであってもよい。一般に、このプログラムは、電子透かし検出器などと同じ方法で実際に悪用されることはないため、これにはいかなるリスクもない。電子透かしの場合、コードが悪用されると、偽造者が電子透かし信号を再構築し、不正な画像に適用できる可能性がある。しかしながら、本発明の第2の態様によるコピー防止方法の場合、デジタルサンプル画像の少なくとも一部の複製は、先入観のない人間の観察者によってセキュリティ文書を表すとみなされるか、そうでないかのいずれかである。したがって、現在のコンピュータプログラム製品を悪用しても同様のリスクはない。
本発明の第4の態様に関して開示されたすべての特徴および実施形態は、結果として得られる組み合わせを条件として、単独でまたは本発明の好ましい実施形態のそれぞれを含む本発明の第1から第3の態様のいずれかと(サブ)組み合わせて組み合わせることができる。特徴のいくつかは当業者にとって合理的である。
本発明のさらなる態様および特徴は、添付の図面を参照した本発明の好ましい実施形態の以下の説明から明らかになるであろう。
-図1は、デジタル画像をセキュリティ文書と見なすかそうでないかを分類するために適用可能な人工知能ベースのニューラルネットワークをトレーニングするための方法の簡略化された概略図
-図2は、少なくとも1つのセキュリティ文書のコピー防止のための方法の簡略化された概略図
-図3は、紙幣検出器の簡略化した概略図
-図4は、コンピュータプログラム製品の簡略化された概略図を示す。
例示的な実施形態および/または添付の図面に関して以下に開示されるすべての特徴は、単独で、または任意の部分的な組み合わせで、結果として得られる特徴の組み合わせが以下であることを条件として、好ましい実施形態の特徴を含む本発明の態様の特徴と組み合わせることができる。当業者にとって合理的である。
図1は、人工知能ベースのニューラルネットワーク150をトレーニングするための方法100の簡略化された概略図を示す。方法100は、例示の目的でデバイス型ニューラルネットワーク150を参照して以下に説明される。しかしながら、これは方法100を限定するものとして解釈されるべきではない。
ニューラルネットワーク150は、デジタル画像をセキュリティ文書110と見なすか否かを分類するのに適用可能である。ニューラルネットワーク100は、複数の層を有するディープニューラルネットワークであってもよい。この方法100内で、ニューラルネットワーク150は3つの入力に基づいてトレーニングされる。ニューラルネットワーク150は、1つ以上の層にわたるスキップ接続またはショートカットをさらに利用する残差ニューラルネットワーク(ResNet)であってもよい。例のセクションで説明したように、本発明に関しては、50層を有する残差ニューラルネットワークが使用されている。あるいは、ニューラルネットワーク150は、異なるスケールの特徴を使用するために、異なるカーネルサイズと畳み込みを組み合わせるインセプションネットワークを利用することもできる。インセプションv3は、例のセクションで説明したように使用されている。あるいは、ニューラルネットワーク150は、DenseNetアーキテクチャを利用してもよく、高密度ブロックの各層は、前のすべての層からの入力を受信し、それにより、前のすべての層からの特徴マップが連結され、次の層の入力として使用される。この場合、高密度ブロックの最後の層は集合情報全体にアクセスできる。例のセクションで説明したように、121層のDenseNetが使用されている。
まず、セキュリティ文書110のデジタル画像が、ニューラルネットワーク150への基準として提供される。したがって、セキュリティ文書110は、デジタル画像がセキュリティ文書110としてみなされるか否かについて分類されるための基準を表す。
第2に、一組のデジタルトレーニング画像120がニューラルネットワーク150に提供される。デジタルトレーニング画像120は、一般に、セキュリティ文書110のデジタル画像とは異なる場合がある。特に、デジタルトレーニング画像120は、セキュリティ文書110のデジタル画像との関係で変更される。デジタルトレーニング画像120の変更は、本明細書で上述した少なくとも1つの態様に関するものであってもよい。
特定の例では、変更は、デジタルトレーニング画像が磨耗したインク、小さな穴、表面の特定の割合までの熱損傷、追加の落書き、汚れ、マーク、テープ、ホッチキス、または破れのうちの1つを少なくとも部分的に含み得ることに基づく劣化を含み得る。
トレーニング画像のセット120は、ポジティブデジタルトレーニング画像125の第1のサブセットおよびネガティブデジタルトレーニング画像130の第2のサブセットを含む、またはそれらから構成される。この点に関して、ポジティブデジタルトレーニング画像125は、先入観のない人間の観察者が、それぞれのデジタルトレーニング画像125の複製をセキュリティ文書110または複数のセキュリティ文書110を表すとみなすような、変更の視覚的影響を有し得る。ネガティブデジタルトレーニング画像130は、先入観のない人間の観察者が、それぞれのデジタルトレーニング画像130の複製がセキュリティ文書110またはその複数を表すとはみなさないような、変更の視覚的影響を有し得る。
デジタル画像は、同じ画像サイズを示すように提供されてもよい。好ましくは、一般的な画像データによる事前トレーニングが実施された場合、事前トレーニングされた重み付けがさらに機能するように、画像サイズを一般的な画像データで使用される画像サイズに標準化できる。画像サイズは、(64,128)、(128,256)、(192,384)、(256,512)、または(299,299)のいずれかであり、好ましくは(64,128)である。
トレーニングの目的で、適切な数のデジタル画像が一度に処理される。例えば、一度に8枚以上、16枚以上、32枚以上のデジタル画像が処理される。計算負荷を考慮したトレードオフの観点から、32枚のデジタル画像を含むバッチは良好なパフォーマンスを示すことが証明されている。
学習率は適切に選択されるべきである。特に、0.005、0.01、0.05、または0.1のいずれかのステップサイズを持つ学習率を使用することがある。計算負荷を考慮したトレードオフの観点から、学習率のステップサイズは0.005とすることができる。
モデル学習プロセスは、前述のように最適化できる。この最適化は通常、さまざまなオプティマイザを介して実行できるが、その中で確率的勾配降下法が最もよく知られている。通常、オプティマイザは、単一バッチの損失関数の値を計算し、この関数の勾配を決定し、損失を最小化する方向に向かって(学習率によって定義される)ステップを実行することにより、モデルの重みを繰り返し更新する。例えば、Adam (Kingma et al.「Adam: A Method for Stochastic Optimization」、https://arxiv.org/abs/1412.6980)オプティマイザを、本発明のトレーニング方法に適したオプティマイザとして使用できる。これは確率的勾配降下法に基づいて構築されており、各パラメータに個別の学習率があり、トレーニングの進行状況に応じてこれらを調整する。
本発明の追加または代替の好ましい実施形態によれば、機能モデルをベースラインとして確立した後、モデルの性能を最適化することが好ましい。これは、トレーニング中にさまざまなパラメータの組み合わせを試すことで実行できる。
加えて、または別個に、本発明のトレーニング方法は、数字などのテキストベースの分類器を実装し得る。数字など、とは、例えば、例えば紙幣の場合、額面金額、文字または単語、および/または、アンサンブル戦略とモデルの実装であり、画像分類器のみのアンサンブル、または画像とテキストベースの分類器を使用するなど、である。特にアンサンブルを使用すると、パフォーマンスが向上し、より堅牢になり得る。
複製は、特に、例えばプリンタや複写機によるハードコピータイプの複製、あるいはデータの変換、保存、または処理動作とみなされる場合がある。
当然のことながら、複製が望まれる画像が単一のセキュリティ文書を表すか、それともその複数を表すかは同様に興味深い。両方のイベントを考慮する必要がある。
先入観のない人間の観察者については前に説明した。
第三に、グラウンドトゥルース140がニューラルネットワーク150に提供される。グランドトゥルース140は、各ポジティブデジタルトレーニング画像125および各ネガティブデジタルトレーニング画像130に対するそれぞれのデジタルトレーニング画像120の複製がニューラルネットワーク150によって、セキュリティ文書110またはその複数を表すと見なされるかどうかに関する、1人または複数の先入観のない人間観察者の少なくとも1つの許容レベルを表す。換言すれば、デジタルトレーニング画像120は、デジタル画像ごとに1以上のラベラー、この場合は4つのラベラー、を使用して、ポジティブデジタルトレーニング画像125の第1のサブセットまたはネガティブデジタルトレーニング画像130の第2のサブセットに分類される。少なくとも1つのラベラー、この場合は2つのラベラー、がデジタルトレーニング画像を第1のポジティブサブセット125または第2のネガティブサブセット130のいずれかに分類する場合、デジタル画像は分類されることになる。
許容レベルは、先入観のない人間の観察者がセキュリティ文書110に関連してデジタルトレーニング画像120の複製をどのように解釈するかを離散値で表していると考えられ得る。
方法100に基づいて、ニューラルネットワーク150は、提供されたデジタルトレーニング画像120の複製がセキュリティ文書110としてみなされるべきか否かに関する決定動作をトレーニングされ得る。この決定動作は、少なくとも1人の先入観のない人間観察者の受容レベルに基づいている。したがって、予測出力スコアはデジタル画像に割り当てられ、そのスコアは、それぞれのデジタル画像がセキュリティ文書、特に紙幣、として認識できる可能性を示している。スコアは0~1の範囲に正規化される。スコアが1に近づくほど、デジタル画像がセキュリティ文書として認識される可能性が高くなる。スコアが0に近づくほど、デジタル画像がセキュリティ文書として認識される可能性は低くなる。閾値出力スコアは、閾値以上を表す予測出力スコアを有するデジタル画像がセキュリティ文書として認識可能であるとみなされるように、予め定められてもよい。逆に、予測出力スコアがしきい値未満を表すデジタル画像は、セキュリティ文書として認識できないと見なされる。閾値は、許容レベルと相関して決定されてもよい。言い換えると、許容レベルが低い場合、つまり、デジタル画像を第1のポジティブなサブセットに分類するラベラーの50%未満の場合、しきい値は0.5以上になる可能性がある。一方、許容レベルが高い場合、つまりラベラーの50%以上がデジタル画像を第1のポジティブなサブセットに分類する場合、閾値は0.5未満になる可能性がある。
方法100内では、セキュリティ文書100およびデジタルトレーニング画像のセット120はそれぞれ閉集合であってもよい。例えば、所与の一連のセキュリティ文書、例えばユーロ紙幣の場合、デジタルトレーニング画像120のセットは、それぞれ異なるポジティブおよびネガティブデジタルトレーニング画像125、130を含む、またはそれらから構成され得る。さらなる例では、基準としてのセキュリティ文書110およびデジタルトレーニング画像120が、異なる通貨の異なる額面金額に対して提供され得る。
例示的に、デジタルトレーニング画像のセット120は、ポジティブデジタルトレーニング画像125およびネガティブデジタルトレーニング画像130のそれぞれについて数百または数千を含むことができる。
図2は、少なくとも1つのセキュリティ文書110のコピー防止のための方法200の簡略化された概略図を示す。再び、例示の目的で、方法200は、ニューラルネットワーク150を参照して説明される。しかしながら、これは方法200を限定するものとして理解されるべきではない。
ニューラルネットワーク150は、特に、人工知能ベースのニューラルネットワーク150をトレーニングするための方法100に従ってトレーニングされ得る。したがって、ニューラルネットワークは、セキュリティ文書110としてみなされるデジタル画像を分類するのに適用可能である可能性がある。ニューラルネットワーク150は、トレーニング方法100に従ってトレーニングされるので、ニューラルネットワーク150は、基準として少なくとも1つのセキュリティ文書110を認識する。もちろん、複数のセキュリティ文書110をニューラルネットワーク150でトレーニングできる。
コピー防止のための方法200内で、デジタルサンプル画像210がニューラルネットワークに提供される。デジタルサンプル画像210は一般に、以前にニューラルネットワークに提供されたセキュリティ文書110とは異なる。特に、デジタルサンプル画像210は、セキュリティ文書110と比較して変更される可能性がある。前述したように変更が現れる場合がある。
次に、ニューラルネットワーク150は、デジタルサンプル画像210の少なくとも一部の複製が先入観のない人間の観察者によって、少なくとも1つのセキュリティ文書110または複数のセキュリティ文書110を表すとみなされる可能性があると判断した場合、このデジタルサンプル画像210を第1のカテゴリに分類する。あるいは、ニューラルネットワーク150は、デジタルサンプル画像210のどの部分についても、複製が先入観のない人間の観察者によって、少なくとも1つのセキュリティ文書110または複数のセキュリティ文書110を表すと見なされ得ないとニューラルネットワーク150が判断した場合、このデジタルサンプル画像210を第2のカテゴリに分類する。この点において、ニューラルネットワークは、デジタルサンプル画像210とセキュリティ文書110との間の差異を考慮する。しかしながら、ニューラルネットワーク150は、トレーニングされた決定行動に基づいて、先入観のない人間の観察者がデジタルサンプル画像210の少なくとも一部の複製を、セキュリティ文書110を表すものとみなすことができる許容レベルを少なくともどの程度まで決定できる。
さらに、ニューラルネットワークは、デジタルサンプル画像210が第1のカテゴリに分類された場合、その複製を防止する。
オプションとして、方法200は、好ましくは第1のカテゴリに分類されるデジタルサンプル画像210、すなわちセキュリティ文書として知覚可能なデジタルサンプル画像210に対してのみ実行される、その後に適用される認証プロセスと組み合わせることができる。認証プロセス中に、第1のカテゴリのデジタルサンプル画像は、ユーリオンなどのコピー防止のための特定の画像セキュリティ機能に関して評価される。画像セキュリティ機能に続いて適用されるこの認証プロセスは、迅速AI検出方法でセキュリティ文書として認識される文書の肯定的な評価が、実際にコピー防止用のそれぞれの画像セキュリティ文書を構成する「真の」ポジティブヒットであるかどうかのクロスチェックを提供する。コピー防止のための画像セキュリティ機能を考慮した認証には、セキュリティ文書全体の詳細な評価が必要であるため、認証プロセスには同等の時間がかかる。したがって、AI検出プロセスと認証プロセスの組み合わせはより複雑に見えるが、全体的な時間の節約につながるという利点も関係する。それは、コピー防止のための画像セキュリティ機能の観点から、第1のカテゴリに分類されるデジタルサンプル画像210のごく一部のみを認証する必要があり、及び、デジタルサンプル画像210の大部分は第2のカテゴリに分類され得るため、都合よく省略できるからである。
図3は、紙幣検出器300の簡略化した概略図を示す。紙幣検出器300は、複写機320内にソフトウェアで実装され、少なくとも1つのセキュリティ文書の複写防止のための方法200を実行するように構成されている。
例示的なシナリオでは、コピー機300のユーザが複製することを望むサンプル文書310がコピー機320に提供される。複写機320は、サンプル文書310に基づいてデジタルサンプル画像325を取得するように構成されている。デジタルサンプル画像325は、通信手段330、例えば紙幣検出器300の通信インターフェースに提供される。通信手段330は、デジタルサンプル画像325をデータ処理ユニット335に提供するように構成されている。データ処理ユニット335は、人工知能ベースのニューラルネットワーク340を備える。ニューラルネットワーク340は、前述のコピー防止方法200を実行するように構成されている。ニューラルネットワーク340は、デジタルサンプル画像325を第1または第2のカテゴリに分類する。デジタルサンプル画像325が第1のカテゴリに分類された場合、紙幣検出器は禁止手段350を作動させる。禁止手段350は、割り込み355で所望の複製処理を中断するように構成されている。したがって、デジタルサンプル画像325の複製を回避できる。デジタルサンプル画像325がニューラルネットワーク340によって第2のカテゴリに分類された場合、禁止手段350は作動しない。したがって、複製プロセスは回避されず、サンプル文書310の複製310aが作成され得る。
図4は、コンピュータプログラム製品400の簡略化された概略図を示す。コンピュータプログラム製品は、特に、データ処理ユニットによって実行されると、デジタルサンプル画像の分類に関連するステップをデータ処理ユニットに実行させる命令を含む、または命令から構成され得る。さらに、コンピュータプログラム製品400は、データ処理ユニットによって実行されると、第1のカテゴリに分類されたデジタルサンプル画像の複製をデータ処理ユニットに防止させる命令を含む、または命令から構成されてもよい。
あるいは、データ処理ユニットは、第1のカテゴリに分類されたデジタルサンプル画像の複製を防止するように配置および構成され得るアクティブ禁止手段への含まれる命令に基づいて実行され得る。
以上、本発明を特定の実施形態を参照して説明したが、これらの実施形態に限定されるものではなく、請求される本発明の範囲内にある更なる代替案が当業者に想起されることは疑いない。
例:
トレーニングデータセットには6,000枚のデジタル画像が含まれており、3,000枚にはポジティブ(セキュリティ文書、つまり紙幣として知覚可能であるとみなされるポジティブクラス)のラベルが付けられ、3,000枚にはネガティブ(セキュリティ文書として認識できないと考えられるネガティブクラス、つまり紙幣)のラベルが付けられている。本発明のトレーニング後のテスト/評価の目的で、クラスごとに500枚のデジタル画像が隠される。
このデータセットでは、ポジティブクラスに属する一部のデジタル画像はまったく劣化のない真の紙幣(基準紙幣)に関連しており、一部のデジタル画像はわずかな劣化があるが、ラベラーによってまだポジティブクラスに属するとみなされ、その他は深刻な劣化があるため、ラベラーはそれらをネガティブクラスに分類する。劣化のある紙幣に関してのみ、4つのラベラーを使用してそれぞれのデジタル画像を分類した。この場合、少なくとも2つのラベラー、つまり50%が画像をポジティブクラスにラベル付けした場合、それぞれのデジタル画像はポジティブクラスにラベル付けされた。
50層の深層学習モデルResNet50、121層のInceptionv3およびDenseNet121が使用された。
ImageNetの一般的な画像データセットを使用して事前トレーニングが行われた。
この例では、モデルの重みは、分類モデルのベンチマークの標準となっているImageNetデータセットで適切に実行される状態に初期化される。次に、モデルは、トレーニングデータセットでトレーニングすることによって微調整される。トレーニングデータセットは、ImageNetデータセットの標準に合わせてサイズ変更される。
この例では、確率的勾配降下法に基づいて構築され、各パラメータに個別の学習率があり、トレーニングの進行状況に応じてこれらを調整するAdamオプティマイザが使用される。
この場合、ポジティブクラスのデジタル画像にはそれぞれ番号1が割り当てられ、ネガティブクラスのデジタル画像にはそれぞれ番号0が割り当てられた。深層学習モデルは、0から1までの連続数値であるスコアを出力する。このスコアは、特定の画像が特定のクラスである可能性を表す。より具体的には、このスコアが0に近づくほど、先入観のない人間の観察者によって紙幣が紙幣として認識されないとみなされる可能性が高くなる。その逆もまた真である。コップのスコアが1に近い場合、その紙幣は先入観のない人間の観察者によって紙幣として認識されるとみなされる可能性が高くなる。
デフォルトでは、2つのクラス間のしきい値は0.5に定義されている。ただし、このしきい値は精度/再現率の要件に基づいて調整できる。デフォルトのしきい値を使用すると、画像の予測クラスは、スコアがしきい値(たとえば0.5)以下の場合はスコアを0に切り捨て、しきい値より大きい場合はスコアを1に切り上げることによって決定される。たとえば0.5である。
次の表1は、本発明のトレーニング方法による実験例として使用された、さまざまなパラメータとその可能な値を示している。
Figure 2024500641000002
今回の実験では、異なるモデルが異なるメトリックに対して同様のパフォーマンスを示すことが明らかになった。言い換えれば、あるメトリックで高いパフォーマンスを発揮するモデルは、他のメトリックでも高いパフォーマンスを発揮した。
これにより、メトリック間で考慮すべきトレードオフがほとんどないため、「最適な」モデルの選択が容易になる。
すべてのパラメータの組み合わせを検索した結果、表2の次のパラメータセットが、紙幣として知覚できるかどうかを考慮したデジタル画像の分類タスクにおいて最適なモードを実行することが判明した。
Figure 2024500641000003
混同行列は、256 TN、19 FP、9 FN、および266 TPを示している。
このモデルは、精度値94.9%(モデルランキング1位)、F1値95.0%(モデルランキング1位)、MCC値0.899(モデルランキング1位)、再現率96.7%(モデルランキング4位)、精度は03.3%(モデルランキング32位)。
本発明のトレーニング方法は、テキスト分類器および/またはアンサンブル、特に画像分類器のみまたは画像およびテキストベースの分類器のみを含むアンサンブルに関するトレーニングをさらに含んでもよい。

Claims (28)

  1. セキュリティ機能を認証することなく、デジタル画像をセキュリティ文書(110、A)とみなすかそうでないかを分類するのに適用可能な人工知能ベースのニューラルネットワーク(150)をトレーニングするためのコンピュータによって実行される方法(100)であって、
    a)少なくとも1つのセキュリティ文書(110、A)の少なくとも1つのデジタル画像(A1)を基準として提供することと、
    b)デジタルトレーニング画像(120、B1)のセットを提供することであって、
    前記デジタルトレーニング画像(120、B1)は、前記セキュリティ文書(110、A)の前記デジタル画像(A1)と比較して変更されており、
    デジタルトレーニング画像(120、B1)の前記セットは、先入観のない人間の観察者が、それぞれのデジタルトレーニング画像(125、B1-1)の複製を、前記セキュリティ文書(110、A)または複数のセキュリティ文書(110、A)を表すとみなすほどの視覚的影響を与える変更を有するポジティブデジタルトレーニング画像(125、B1-1)の第1のサブセットを含み、
    デジタルトレーニング画像(120、B1)の前記セットは、前記先入観のない人間の観察者が、それぞれのデジタルトレーニング画像(125、B1-1)の複製を、前記セキュリティ文書(110、A)または複数のセキュリティ文書(110、A)を表すとみなすほどには視覚的影響を与えない変更を有するネガティブデジタルトレーニング画像(130、B1~2)の第2のサブセットを含んでおり、
    c)ステップb)において、各デジタルトレーニング画像(120、B1)についてグラウンドトゥルース(140)を人工知能ベースのニューラルネットワーク(150)に提供することであって、前記グラウンドトゥルース(140)は、それぞれの前記デジタルトレーニング画像(120、B1)の複製が、前記セキュリティ文書(110、A)または複数のセキュリティ文書(110、A)を示していると考えられるか示していないと考えられるかに関して、1人以上の先入観のない人間の観察者の少なくとも1つの許容レベルを表している、提供することと
    を包含する、方法。
  2. ステップb)における少なくとも1つの変更されたデジタルトレーニング画像(120、B1)の品質は劣化されており、
    前記デジタルトレーニング画像の品質の劣化は、
    化学的または物理的に侵食されたトレーニング文書(B)、または、
    デジタル的に侵食を受けている、トレーニング文書(B)のデジタル画像
    に基づいている、請求項1に記載の方法(100)。
  3. ステップb)における少なくとも1つの変更されたデジタルトレーニング画像(120、B1)は、解像度、精細度、一般的なアスペクト、形状、色、色分布、およびアスペクト比のうちの少なくとも1つに関して、前記セキュリティ文書(110、A)のデジタル画像(A1)と異なる、請求項1~2のいずれか一項に記載の方法(100)。
  4. ステップb)における少なくとも1つの変更されたデジタルトレーニング画像(120、B1)は、遠近角、基調的な照明、彩色、折り目、しわのうちの少なくとも1つに関して前記セキュリティ文書(110、A)のデジタル画像(A1)と異なる、請求項1~3のいずれか一項に記載の方法(100)。
  5. 前記セキュリティ文書(110、A)は、1つ以上のグラフィックデザイン特徴、特に肖像画、建築画像、または自然画像を有しており、
    ステップb)の少なくとも1つのデジタルトレーニング画像(120、B1)は、少なくとも1つのデザイン特徴が、異なるデザイン特徴、特に、異なる肖像画または異なる建築画像または異なる自然画像、で置き換えられている点において、前記セキュリティ文書(110、A)のデジタル画像(A1)と異なる、
    請求項1~4のいずれか一項に記載の方法(100)。
  6. 前記グラウンドトゥルース(140)は、少なくとも4人の先入観のない人間観察者の許容レベルを表し、前記グラウンドトゥルース(140)は、少なくとも5つの異なる許容レベルを含む、またはそれらから構成される、請求項1~5のいずれか一項に記載の方法(100)。
  7. 前記セキュリティ文書(110、A)は紙幣であり、
    ステップa)において、それぞれが表面画像(A2)および裏面画像(A3)を含む2つのデジタル画像が提供され、
    ステップb)において、各ポジティブデジタルトレーニング画像(125、B1-1)は、先入観のない人間の観察者が、それぞれのデジタルトレーニング画像(125、B1-1)の複製を、前記セキュリティ文書(110、A)または複数のセキュリティ文書(110、A)の表面画像(A2)および/または裏面画像(A3)とみなすほどの視覚的影響を与える変更を有している、
    請求項1~6のいずれか一項に記載の方法(100)。
  8. 前記方法は、1以上のニューラル層を有するディープニューラルネットワーク(150)を使用して実行され、
    特に、各層は他の層とは独立して多数のニューロンを示しており、および/または各層は分岐または非分岐のアーキテクチャ構造を有する、
    請求項1~7のいずれか一項に記載の方法(100)。
  9. 前記人工知能ベースのニューラルネットワーク(150)は、機械学習機能を有する、請求項1~8のいずれか一項に記載の方法(100)。
  10. 前記方法(100)は、複数のセキュリティ文書(110、A)の閉集合について実行され、前記人工知能ベースのニューラルネットワーク(150)は、セキュリティ文書(110,A)の前記閉集合のセキュリティ文書ごとにトレーニングされる、
    請求項1~9のいずれか一項に記載の方法(100)。
  11. 前記ニューラルネットワーク(150)は、
    少なくとも1つの層を飛び越えるためにスキップ接続および/またはショートカットをさらに利用する残差ニューラルネットワークを使用し、好ましくは、前記残差ニューラルネットワークは50層以上を含み、または、
    異なるカーネルサイズの畳み込み、好ましくは3x3カーネルの2つの畳み込み、を組み合わせるインセプションネットワークを使用するか、または、
    高密度ブロックを使用するDenseNetを使用し、各層はすべての先行層からの入力を受け取り、好ましくは121層のDenseNetを使用する、
    請求項1~10のいずれか一項に記載の方法(100)。
  12. 一般画像データセットがさらに提供され、
    ステップa)およびステップb)の前記デジタル画像(120)を用いて前記ニューラルネットワークをトレーニングする前に、大規模汎用画像データセットで前記ニューラルネットワーク(150)が事前トレーニングされる、請求項11に記載の方法(100)。
  13. ステップa)およびステップb)の前記デジタル画像(120)が同じ標準化されたサイズで提供され、好ましくは事前トレーニングする場合に、ステップa)およびステップb)の前記デジタル画像(120)が前記事前トレーニングで用いられたと前記画像データと同じ標準化されたサイズで提供され、好ましくは、画像サイズは(64,128)、(128,256)、(192,384)、(256,512)、または(299,299)のいずれかであり、より好ましくは(64,128)である、請求項11または12に記載の方法(100)。
  14. 前記方法(100)は、ステップa)およびステップb)の合計で8以上、16以上、または32以上のデジタル画像(120)のバッチサイズを使用する、請求項1~13のいずれか一項に記載の方法(100)。
  15. 前記方法(100)は、0.005、0.01、0.5、または0.1のうちの1つ、好ましくは0.005、の学習率を使用する、請求項1~14のいずれか一項に記載の方法(100)。
  16. 前記方法(100)は、ステップb)の前記画像分類器のアンサンブルを使用する、請求項1から15のいずれか一項に記載の方法(100)。
  17. 前記方法(100)は、1つまたは複数のテキスト分類器をさらに使用する、請求項1~16のいずれか一項に記載の方法(100)。
  18. 前記方法(100)は、前記1つ以上のテキスト分類器のアンサンブルを使用する、請求項17に記載の方法(100)。
  19. セキュリティ機能を認証することなく、少なくとも1つのセキュリティ文書(110、A)のコピーを防止するためのコンピュータによって実行される方法(200)であって、
    a)デジタルサンプル画像(210、C1)を提供することと、
    b)前記デジタルサンプル画像(210、C1)を第1のカテゴリまたは第2のカテゴリに分類するために人工知能ベースのニューラルネットワーク(150)を適用することであって、
    前記ニューラルネットワーク(150)は、請求項1から18のいずれかの方法(100)に従ってトレーニングされ、
    前記デジタルサンプル画像(210、C1)の少なくとも一部の複製が、先入観のない人間の観察者によって、前記セキュリティ文書(110、A)または複数のセキュリティ文書(110、A)を表すとみなし得ると前記ニューラルネットワーク(150)が判断した場合、前記デジタルサンプル画像(210、C1)は前記第1のカテゴリに分類され、
    前記デジタルサンプル画像(210、C1)のすべてについて、複製が、先入観のない人間の観察者によって、前記セキュリティ文書(110、A)または複数のセキュリティ文書(110、A)を表すとみなされ得ないと前記ニューラルネットワーク(150)が判断した場合、前記デジタルサンプル画像(210、C1)は、前記第2のカテゴリに分類され、および
    c)前記ニューラルネットワーク(150)が前記デジタルサンプル画像(210、C1)を前記第1のカテゴリに分類する場合、前記デジタルサンプル画像(210、C1)の複製を防止する、
    方法。
  20. 前記デジタルサンプル画像(210、C1)は、前記セキュリティドキュメント(110、A)の前記デジタル画像(A1)と比較して変更されており、前記変更されたデジタルサンプル画像(210、C1)は、遠近角、基調的な照明、彩色、折り目、しわのうちの少なくとも1つに関して前記セキュリティ文書(110、A)のデジタル画像(A1)と異なる、請求項19に記載の方法(200)。
  21. 前記セキュリティ文書(110、A)は、1つ以上のグラフィックデザイン特徴、特に肖像画、建築画像、または自然画像を有しており、
    前記デジタルサンプル画像(210、C1)は、少なくとも1つのデザイン特徴が、異なるデザイン特徴、特に、異なる肖像画または異なる建築画像または異なる自然画像、で置き換えられている点において、前記セキュリティ文書(110、A)のデジタル画像(110、A)と異なる、
    請求項19または20に記載の方法(200)。
  22. 前記セキュリティ文書(110、A)は表面と裏面を含み、
    前記デジタルサンプル画像(210、C1)の少なくとも一部の複製が、前記先入観のない人間の観察者によって、前記セキュリティ文書(110、A)または複数のセキュリティ文書(110、A)の前記前面および/または前記裏面を表すとみなし得ると前記ニューラルネットワーク(150)が判断した場合、前記デジタルサンプル画像(210、C1)は、請求項19のステップb)の前記第1のカテゴリに分類され、
    前記デジタルサンプル画像(210、C1)のすべてについて、複製が、前記先入観のない人間の観察者によって、前記セキュリティ文書(110、A)または複数のセキュリティ文書(110、A)の前記前面および/または前記裏面を表すとみなし得ないと前記ニューラルネットワーク(150)が判断した場合、前記デジタルサンプル画像(210、C1)は、請求項19のステップb)の前記第2のカテゴリに分類される、
    請求項19から21のいずれかに記載の方法(200)。
  23. 請求項1のステップc)において、前記グランドトゥルース(140)は、第1の部分範囲および第2の部分範囲を含む、またはそれらからなる許容レベルの範囲を表し、
    請求項19のステップb)において、前記デジタルサンプル画像(210、C1)の少なくとも一部の複製が、先入観のない人間の観察者によって、前記セキュリティ文書(110、A)または複数のセキュリティ文書(110、A)を表すとみなし得る、として、前記ニューラルネットワーク(150)が前記第1の部分範囲に従って許容レベルを決定する場合、前記デジタルサンプル画像(210、C1)は、前記第1のカテゴリに分類され、
    請求項19のステップb)において、先入観のない人間の観察者が、前記デジタルサンプル画像(210、C1)のすべてについて、複製が、前記先入観のない公平な人間の観察者によって前記セキュリティ文書(110、A)または複数のセキュリティ文書(110、A)を表すとみなされ得ないと前記ニューラルネットワーク(150)が判断した場合、前記デジタルサンプル画像(210、C1)は、前記第2のカテゴリに分類され、および
    前記第1の部分範囲は前記第2の部分範囲よりも大きい、
    請求項19から22のいずれかに記載の方法(200)。
  24. 通信手段(330)およびデータ処理ユニット(335)を備える、またはそれらからなる紙幣検出器(300)であって、
    前記通信手段(330)は、デジタルサンプル画像(210、325、C1)を受信するよう構成され、前記デジタルサンプル画像(210、325、C1)を前記データ処理ユニット(335)に提供するように構成され、
    前記データ処理ユニット(335)は、請求項19から23のいずれかに記載の方法(200)を実行するように構成され、
    前記デジタルサンプル画像(210、325、C1)の複製を防止するように構成されている、紙幣検出器(300)。
  25. 前記紙幣検出器(300)はソフトウェアで実装され、
    前記紙幣検出器(300)は、前記デジタルサンプル画像(210、325、C1)を複製するための装置内に含まれるか、または前記紙幣検出器(300)は、クラウドベースまたはサーバベースのアプリケーションとして構成される、請求項24に記載の紙幣検出器(300)。
  26. 前記紙幣検出器(300)は、
    前記デジタルサンプル画像(210、325、C1)が請求項19のステップb)における前記第1のカテゴリに分類される場合に、前記デジタルサンプル画像(210、325、C1)を真正性に関して評価するようにさらに構成されており、
    前記デジタルサンプル画像(210、325、C1)は、前記少なくとも1つのセキュリティ文書(110、A)に含まれる少なくとも1つのセキュリティ機能に関して評価される、
    請求項24または25に記載の紙幣検出器(300)。
  27. 前記デジタルサンプル画像(210、325、C1)は、前記少なくとも1つのセキュリティ文書(110、A)に含まれるコピー防止のための少なくとも1つの画像セキュリティ機能に関して認証される、請求項26に記載の紙幣検出器(300)。
  28. データ処理ユニットによってプログラムが実行されると、前記データ処理装置に請求項19のステップb)を実行させる命令を含む、または命令からなるコンピュータプログラム製品(400)。
JP2023531548A 2020-11-24 2021-05-25 デジタルサンプル画像の複製防止方法 Pending JP2024500641A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20209547.7 2020-11-24
EP20209547.7A EP4002196A1 (en) 2020-11-24 2020-11-24 Copy prevention of digital sample images
PCT/EP2021/063914 WO2022111864A1 (en) 2020-11-24 2021-05-25 Copy prevention of digital sample images

Publications (1)

Publication Number Publication Date
JP2024500641A true JP2024500641A (ja) 2024-01-10

Family

ID=73597798

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023531548A Pending JP2024500641A (ja) 2020-11-24 2021-05-25 デジタルサンプル画像の複製防止方法

Country Status (6)

Country Link
US (1) US20240112484A1 (ja)
EP (2) EP4002196A1 (ja)
JP (1) JP2024500641A (ja)
CN (1) CN116802696A (ja)
CA (1) CA3198527A1 (ja)
WO (1) WO2022111864A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484905B (zh) * 2023-06-20 2023-08-29 合肥高维数据技术有限公司 针对非对齐样本的深度神经网络模型训练方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07143334A (ja) * 1993-11-18 1995-06-02 Fuji Xerox Co Ltd カラー複写機における複写禁止原稿検出装置
US6449377B1 (en) 1995-05-08 2002-09-10 Digimarc Corporation Methods and systems for watermark processing of line art images
US5845008A (en) 1994-01-20 1998-12-01 Omron Corporation Image processing device and method for identifying an input image, and copier scanner and printer including same
US10217179B2 (en) * 2016-10-17 2019-02-26 Facebook, Inc. System and method for classification and authentication of identification documents using a machine learning based convolutional neural network

Also Published As

Publication number Publication date
WO2022111864A1 (en) 2022-06-02
EP4252147A1 (en) 2023-10-04
EP4002196A1 (en) 2022-05-25
CN116802696A (zh) 2023-09-22
US20240112484A1 (en) 2024-04-04
CA3198527A1 (en) 2022-06-02

Similar Documents

Publication Publication Date Title
US20230009392A1 (en) Tamper detection for identification documents
Seibold et al. Accurate and robust neural networks for face morphing attack detection
Li et al. Deep learning backdoors
Roy et al. Authentication of currency notes through printing technique verification
Roy et al. Machine-assisted authentication of paper currency: an experiment on Indian banknotes
Asghar et al. Edge–texture feature-based image forgery detection with cross-dataset evaluation
Xiang et al. Reverse engineering imperceptible backdoor attacks on deep neural networks for detection and training set cleansing
JP2024500641A (ja) デジタルサンプル画像の複製防止方法
Kumar et al. A robust copy move forgery classification using end to end convolution neural network
Diong et al. Document authentication using 2D codes: Maximizing the decoding performance using statistical inference
Thirunavukkarasu et al. Passive image tamper detection based on fast retina key point descriptor
Hussein et al. KurdFace morph dataset creation using OpenCV
Yu et al. Two strategies to optimize the decisions in signature verification with the presence of spoofing attacks
Nastoulis et al. Banknote recognition based on probabilistic neural network models.
Saxena et al. Fake currency detection using image processing
Nowroozi et al. SPRITZ-PS: validation of synthetic face images using a large dataset of printed documents
US20220415111A1 (en) Computer-implemented method for copy protection, data processing device and computer program product
Devi et al. Fake Currency Detection System Using Cnn-Vg16
Quan Model Watermarking for Deep Neural Networks of Image Recovery Yuhui Quan and Huan Teng
Berenguel Centeno Analysis of background textures in banknotes and identity documents for counterfeit detection
Patgar et al. A Voting based Approach to Detect Recursive Order Number of Photocopy Documents using Probability Distributions
SHEHU Altered Fingerprint Detection and Reconstruction using Artificial Neural Networks
Patgar et al. Detection of fabrication in photocopy document using texture features through K-means clustering
Sayed et al. VeriFace: Defending against Adversarial Attacks in Face Verification Systems.
Shekharappa Gouda et al. Detection of Image Forgery Through Novel Hybrid Technique

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240112