JP7304082B2 - 三次元実物体を実物体の二次元のスプーフと区別するための方法 - Google Patents

三次元実物体を実物体の二次元のスプーフと区別するための方法 Download PDF

Info

Publication number
JP7304082B2
JP7304082B2 JP2020560255A JP2020560255A JP7304082B2 JP 7304082 B2 JP7304082 B2 JP 7304082B2 JP 2020560255 A JP2020560255 A JP 2020560255A JP 2020560255 A JP2020560255 A JP 2020560255A JP 7304082 B2 JP7304082 B2 JP 7304082B2
Authority
JP
Japan
Prior art keywords
image
matrix
neural network
spoof
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020560255A
Other languages
English (en)
Other versions
JP2021522591A (ja
Inventor
ヘスス アラゴン
Original Assignee
アイデンティー インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=61768233&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP7304082(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by アイデンティー インコーポレイテッド filed Critical アイデンティー インコーポレイテッド
Publication of JP2021522591A publication Critical patent/JP2021522591A/ja
Application granted granted Critical
Publication of JP7304082B2 publication Critical patent/JP7304082B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/13Sensors therefor
    • G06V40/1312Sensors therefor direct reading, e.g. contactless acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/17Image acquisition using hand-held instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/13Sensors therefor
    • G06V40/1318Sensors therefor using electro-optical elements or layers, e.g. electroluminescent sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/1347Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/1365Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/1382Detecting the live character of the finger, i.e. distinguishing from a fake or cadaver finger
    • G06V40/1388Detecting the live character of the finger, i.e. distinguishing from a fake or cadaver finger using image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/0202Portable telephone sets, e.g. cordless phones, mobile phones or bar type handsets
    • H04M1/026Details of the structure or mounting of specific components
    • H04M1/0264Details of the structure or mounting of specific components for a camera module assembly
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/56Cameras or camera modules comprising electronic image sensors; Control thereof provided with illuminating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)
  • Image Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は、請求項1に記載の例えば手の指等の三次元実物体を当該実物体の二次元のスプーフ(spoof、なりすまし)と区別するためのコンピュータ実装された方法と、請求項15に記載の当該方法を実施するモバイル装置と、に関する。
従来技術では、画像又は画像から得られた情報を分類するための技術が既に知られている。例えば、2012年にImageNet Large Scale Visual Recognition Challenge等で発表されたいわゆるAlexNetは、分類精度に関して改善された結果を示している。
しかしこれらの方法は、物体自体とそのスプーフとを区別するように設計されていないか、又は未だそのために適用されていない。それゆえ、取得された画像内にて識別された物体を、例えば手続のログイン等のセキュリティ関連の事項に使用することは危険である。というのも、その物体は実物体のスプーフでしかない可能性があるからである。
この従来技術を背景として本発明の課題は、必要とする計算リソースをごく最小限に抑えつつ、実物体と当該実物体の二次元スプーフとを効率的に区別できるようにすることによって、スマートフォン等のモバイル装置内にて又はモバイル装置を用いて実施を完結できる、コンピュータ実装された方法を提供することである。
上記課題は、請求項1に記載の手の指等の三次元実物体を当該実物体の二次元のスプーフと区別するためのコンピュータ実装された方法と、請求項15に記載の発明の、光学センサを備え上記方法を実施するモバイル装置と、によって解決される。本発明の好適な実施形態は、従属請求項に記載されている。
手の指等の三次元実物体を当該実物体の二次元のスプーフと区別するためのコンピュータ実装された方法は、
モバイル装置の光学センサによって、スプーフ又は実物体を含む画像を取得することと、
画像をニューラルネットワークへ供給することと、
ニューラルネットワークによって画像を処理することと、
を含み、
処理は、
画像内の物体の少なくとも一部に該当する複数の画素から光学センサまでの距離を表す距離マップと、
画像内の物体の少なくとも一部に該当する複数の画素に関連付けられる光反射を表す反射パターンと、
のうち少なくとも1つを計算することを含み、
処理はさらに、好適にはニューラルネットワークを用いて、計算された距離マップ又は計算された反射パターンのうち少なくとも1つと、学習済みの距離マップ又は学習済みの反射パターンとを比較することを含み、
比較の結果に基づいて、画像がスプーフ又は実物体のいずれかを含むことを判断する。
原則的に、三次元実物体の画像が人間の本当の指等の意図された物体のスプーフである場合もあり得るかもしれないが、本発明では、三次元の物体は実物体であろうと想定する。実物体の二次元のスプーフは何でも良いが、通常は実物体を撮影した当初の画像となるであろうし、ここではそのことを予定している(例えば、光学センサに対する紙又は他のあらゆる平坦な表面8であり、この画像をさらに光学センサが撮影する)。しかし、実物体の(ほとんど二次元の扁平な)模型等の二次元のスプーフの他の実現態様もあり得る。いずれの場合においても、本発明でいうところのスプーフは、実物体の三次元の再現ではないことを意図している。
距離マップとは、光学センサによって取得された当初の画像中の特定の画素と、当該特定の画素から光学センサまでの推定距離又は算定距離とを関連付ける、例えばマトリクス又は表又は他の構造等のデータ構造を構成するものを意味する。画素はデータ構造に過ぎないため、画素そのものが光学センサまでの距離を有するものではないことが明らかである。その意味するところは、光学センサによって画像を撮影することにより取得された物体が、元々は光学センサまでの距離を有していた、ということである。よって、取得された画像中の各画素は実世界における一点を表し、よって、画像が撮影された時点での実世界における当該一点から光学センサまでの距離に依然として関連付けられている、ということになる。
画像内の物体の少なくとも一部に該当する複数の画素に関連付けられた光反射を表す反射パターンについても、同様のことが当てはまる。ここで、画素そのものが反射パターンを実現するものではなく、元の物体(又はこの実物体の二次元のスプーフ)が、光反射を表す反射パターンを有していたことが明らかである。この反射パターンは、光学センサによって取得された画像情報に基づいて算出することができる。距離マップと同様、反射パターンもマトリクス又は二次元の表等のデータ構造の形態を有することを意図している。
計算された距離マップは学習済みの距離マップと比較され、又は、計算された反射パターンは学習済みの反射パターンと比較される。ここで、学習済みの距離マップ及び学習済みの反射パターンは、実物体の距離マップ又は実物体の二次元のスプーフの距離マップに該当することがニューラルネットワークに既知となっている距離マップと、実物体の反射パターン又は実物体の二次元のスプーフの反射パターンに該当することがニューラルネットワークに既知となっている反射パターンと、に相当する。計算された距離マップと学習済みの距離マップとの比較又は計算された反射パターンと学習済みの反射パターンとの比較により、実物体と当該物体のスプーフとを区別するために使用できる結果が得られ、この区別は例えば、得られた距離マップ又は反射パターンが、スプーフに該当する学習済みの距離マップ又は反射パターンと一致する可能性の方が、実物体に該当する学習済みの距離マップ又は反射パターンと一致する可能性より高いと判断することにより行われる。
本発明の方法により、実物体と実物体のスプーフとを効率的に区別することができる。というのも、使用されるニューラルネットワークは、画像内の物体に関する固有の特性を求めるため、撮影された画像と学習済みの情報(学習済みの距離マップ及び学習済みの反射パターン等)との類似度を高信頼性で判断できるからである。よって本方法は、実物体に関する画像中の情報が、ユーザを識別するために使用される指先を有する指等のセキュリティ上繊細な情報である場合にも適用可能であり、かかる物体を撮影した画像の悪用を防止することができる。
一実施形態では、距離マップ及び反射パターンを計算して学習済みの距離マップ及び学習済みの反射パターンと比較することにより、この比較結果に基づいて、画像がスプーフ又は実物体のいずれかを含むことを判断する。計算された距離マップと計算された反射パターンの両方を使用することにより、物体の画像が示しているのがスプーフであるか実物体であるかの判断の信頼性を向上することができ、これによって、識別がセキュリティ関連の事項のためにさらに使用される場合の識別の信頼性及びセキュリティをさらに向上することができる。
一実施形態では、カメラである光学センサに関連付けられたフラッシュを使用しながら、画像を光学センサによって取得する。カメラのフラッシュを使用することによって、画像の取得元の領域の部分が強調され、これにより、より高信頼性で反射パターンを高精度で計算することができ、また、実物体のスプーフと実物体とをより容易に区別することができる。
さらに、ニューラルネットワークは複数の層を備えることができ、最後の層は、処理中に判断された実物体に関する出力を供給する第1のノードと、処理中に判断されたスプーフに関する出力を供給する第2のノードの、2つのノードを有する。
本発明では、画像上で取得されたものが実物体であるか実物体のスプーフであるかにかかわらず、これら両ノードは、画像が撮影されるごとに出力を供給するように構成されている。この出力は後で、画像上で取得された物体が実物体であるか又はスプーフであるかの確率論的な判断を行うために、さらに処理されることができる。
本実施形態のより具体的な一態様では、各ノードは画像の処理に応じて-∞~+∞の範囲の出力を供給し、各ノードの出力は出力正規化部に通され、出力正規化部は最初に各ノードの出力xを取り、S(x)=e/(1+e)によって、削減された値S(x)を算出する。ここで、第1ノードの場合にはi=1であり、第2ノードの場合にはi=2であり、出力正規化部は正規化関数
Figure 0007304082000001

へ値S(x)を供給し、これにより正規化値σ(S(x))≡σ及びσ(S(x))≡σが得られる。第1ノード及び第2ノードの出力をこのようにさらに処理することにより、第1ノード及び第2ノードに基づいて計算された正規化値が得られ、これにより、画像中にあるのがスプーフであるか又は実物体であるかを判断するための第1及び第2ノードの当該出力の統計的評価を行うことができる。
一実施形態では、σ>0.5である場合には画像は実物体を含むと判断し、σ>0.5である場合には画像はスプーフを含むと判断する。第1及び第2ノードの出力の正規化値を使用することにより、実物体とスプーフとを高信頼性で区別することができる。
ここで留意すべき点は、本実施形態が好適である理由は、その指数関数をコンピューティングシステムで容易に実装することができ、これにより必要な処理労力を削減できることである。さらに、指数関数はコンピューティングシステムによって容易に処理することができ、これにより、結果を計算するために必要な処理性能や他の計算リソースを削減することができる。
一実施形態では、画像を入力としてニューラルネットワークにより処理することは、当該ニューラルネットワークの第1層によって入力画像を処理することにより第1の中間出力を生成することと、各層における入力の処理順に深度畳み込み層(depthwise convolutional layer)と、第1のバッチ正規化部と、第1の整流線形ユニット(正規化線形ユニット、rectified linear unit)と、点畳み込み層(pointwise convolutional layer)と、第2のバッチ正規化部と、第2の整流線形ユニットとをそれぞれ有する深度で分離可能な畳み込みである複数の層をニューラルネットワークが有し、各先行層の出力を各後続層によって処理し、前記複数の層を用いて入力を処理することにより、ニューラルネットワークは出力として、画像が実物体又はスプーフのいずれかを含むとの判断結果を得ることと、を含む。
深度畳み込み層は意図されているところによれば、元の画像に相当するマトリクス又は距離マップに相当するマトリクス又は反射パターンに相当するマトリクスのいずれかのマトリクスと、例えば3×3のサイズのマトリクスであるカーネルと、の乗算又は内積を使用して、別のマトリクスを算出する。かかる層を用いることは、処理効率の面でより効率的である。この点において、上記実施形態にて提案する深度畳み込み層は、そのパラメータ感度に関して一般に使用されている畳み込み層より高効率となる。
深度畳み込み層及び点畳み込み層は、「深度畳み込みサブレイヤ」及び「点畳み込みサブレイヤ」とも称され得る。実際、これらはニューラルネットワークの「層の中の層」であるから、サブレイヤとなる。
この特殊な実施態様の深度畳み込み層を、上記実施形態における点畳み込み層、バッチ正規化部及び整流線形ユニットと共に適用することにより、ニューラルネットワークが画像中のスプーフのリアルタイム判定を行うために必要とされるコンピュータリソースは、現在公知の技術と比較して有意に削減される。
他の一実施形態では、画像をニューラルネットワークによって処理することは、少なくとも1つのマトリクスIを当該画像から作成して、当該マトリクスを入力としてニューラルネットワークへ供給するステップを含み、ここで画像はN×M個の画素を有し、マトリクスIはN×M個の値を有するマトリクスであり、マトリクスIの成分はIijによって与えられ、ここでi及びjは整数であり、i=1・・・N、j=1・・・Mである。
ここで留意すべき点は、マトリクスIは、元の画像のRGB色値のうち1つに相当するマトリクスとすることができることである。しかし好適なのは、マトリクスIを作成する前に元の画像をHSV色空間に変換することにより、元の画像からマトリクスIを得ることである。HSV色空間とは、色相-彩度-明度(Hue-Saturation-Value)の色空間のことである。取得当初の画像をHSV色空間に変換することは、元の画像に含まれる画素数がN×Mである場合、変換後の画像がそれぞれN×M個の画素又はデータ成分を含むことができる。よってマトリクスIは、変換後の画像中のN×M個の要素から得ることができる。
取得当初の画像の画素数はN×Mより多くすることができると解すべきである。この画素数は、色相-彩度-明度変換を適用する前又は適用した後にN×Mに削減することができる。この変換が特に有利である理由は、HSV変換は、各画素に関連付けられた色情報(すなわちRGB値)から各画素のluma情報を分離するからである。このようにして、距離マップ及び反射パターンをより効率的に計算することができる。
より具体的には、各深度畳み込み層はマトリクスIに、サイズS×Tのマトリクスである予め定義されたカーネルKを適用し、ここでS,T<N、S,T<Mであり、成分Sabを含み、マトリクスにカーネルを適用することは、マトリクスKと、マトリクスZのサイズ(N×M)S,Tの各削減マトリクスRと、の内積を算出することを含み、ここで、マトリクスRはカーネルKと等しいサイズを有し、マトリクスZはサイズ((N+2P)×(M+2P))を有し、
Figure 0007304082000002
であるマトリクスZcdの成分は、
Figure 0007304082000003
によって与えられ、出力として、
Figure 0007304082000004
のサイズを有するマトリクスPを提供し、ここで、W及びWはストライド幅を定義し、マトリクスPの各成分Pijはij番目の削減マトリクスRとカーネルKとの内積の値であり、マトリクスPは深度畳み込み層から出力として第1のバッチ正規化部へ供給される。
かかるカーネルにより、導入されたマトリクスにおいて隣り合う画素から得られた情報を適切に重み付けすることができると共に如何なる情報も失われることがなくなり、このことによって、ニューラルネットワークにおいて複数の連続する層がスプーフであるか又は実物体であるかを判断するための処理をサポートする効率を向上することができる。こうするためにカーネルは、画像を受け取る前すなわちニューラルネットワークの訓練中に得られた特定の重み又はパラメータに相当する成分を含む。
本発明の一認識は、上記実施形態の各方法を実施できるアプリケーション又は他のプログラムが実際にモバイル装置に装備される前に上記の訓練が行われる場合、このモバイル装置上で必要とされるコンピュータリソースを削減できるという利点が得られることである。
深度畳み込み層と点畳み込み層とを用いて分離可能な畳み込みを実装することは、この組み合わせが識別及び所要コンピュータリソースの観点で性能改善を示すという理由により最も有利であるというのが本発明の認識であるが、深度畳み込み層を指又は指先の識別に特化した畳み込み層に置き換えることも可能である。よって、本発明の説明は深度畳み込み層の使用に着目してなされているが、畳み込み層を用いて本発明を実装することも可能である。
さらに、全ての畳み込み層においてカーネルのサイズS及びTを等しくすることができ、又は、少なくとも1つの畳み込み層及び/若しくはカーネルKの少なくとも1つの成分Sa’b’≠Sa≠a’,b≠b’についてカーネルのサイズS及びTが異なることができる。
各畳み込み層(すなわち複数の各深度畳み込み層)について同一のカーネルを選択することにより、これにより得られる、対応するモバイル装置にインストールされるプログラムのサイズを削減することができる。一方、畳み込み層のうち少なくとも1つについて異なるカーネルを使用すると、カーネルが適切に構成されていれば、識別失敗に関する公知の問題を回避することができる。例えば、識別プロシージャの開始の際に大きなカーネル(サイズS及びTが大きいことに相当する)を用いると、画像のより重要な部分を取り出して照準を当てることができ、これにより識別効率を向上することができる。
また、本発明の一認識は、対応するカーネルは当該カーネルのサイズと、識別効率と、各方法を実装するために必要なコンピュータリソースと、の間で最良のトレードオフとなり、これによって識別精度及び所要コンピュータリソースの面で全体的な効率を向上することができる。
他の一実施形態では、バッチ正規化部は正規化された削減マトリクスP’を整流線形ユニットへ供給し、整流線形ユニットは各成分P’ijに、
Figure 0007304082000005
を有する
Figure 0007304082000006
を計算する整流関数(正規化線形関数、rectification function)を適用する。この
Figure 0007304082000007
は、整流線形ユニットが第1の整流線形ユニットである場合には点畳み込み層へ出力として供給され、若しくは、整流線形ユニットが第2の整流線形ユニットである場合にはニューラルネットワークの次の層へ供給され、及び/又は、
点畳み込み層が、
Figure 0007304082000008
の各成分に重みαを乗算することにより、先行層から受け取った
Figure 0007304082000009
に重みαを付与する。
この整流関数によって、ニューラルネットワークの各層の後に、スプーフ及び実物体の判断精度に悪影響を与える可能性のある画像中の部分をフィルタリング除去することができる。
Figure 0007304082000010
内の各点に同一の重みαを付与した場合でも、本実施形態は画像中の一部(識別に有意な影響を及ぼさないマトリクス中の成分に相当する一部)を効率的に減衰することができる。この減衰は、マトリクス中のかかる一部の絶対的な寄与度を低減し、整流線形ユニットと共に次のサイクルで当該一部を除外することにより達成される。
好適な一実施形態では、上記で説明した方法の各ステップはモバイル装置上で実施される。これは少なくとも、画像の処理と実物体及びスプーフの判断とを含む上記の方法のステップを含むことができる。ここでも、画像の記憶、又は、物体が実物体であってスプーフではないと判断された場合に画像から抽出されたバイオメトリック特徴若しくはバイオメトリック特性を用いてユーザを識別する等の以降行われるいずれのステップも、任意の記憶装置によって、画像をモバイル装置の内部又は外部にて処理することにより行うことができる。さらに、実物体から取得された情報を用いて以降行われるユーザを識別する識別ステップは、例えば会社のサーバ等のモバイル装置とは別の装置上で行うことも可能である。
各ステップを専らモバイル装置上でのみ行うことにより、例えば、実際の識別プロセスを実行するサーバ等へのデータ伝送のためにチャネルを空けておく必要が無くなる。よって物体識別は、モバイルネットワーク又はローカルエリアネットワークへアクセスできない領域でも用いることができる。
本発明のモバイル装置は、光学センサと、プロセッサと、実行可能な指令を記憶する記憶ユニットと、を備えており、当該指令は、モバイル装置のプロセッサによって実行されたときにプロセッサに上記のいずれかの実施形態の方法を実行させるものである。
取得された画像の処理の概略図である。 画像内の画素と実物体から光学センサまでの距離との関係を示す概略図である。 光反射パターンをどのようにして求めるかを示す概略図である。 一実施形態のニューラルネットワーク内の一層の構造と、当該一層におけるデータの処理とを概略的に示す図である。 ニューラルネットワークを訓練するプロセスを示す図である。 一実施形態の画像を取得して当該画像中の物体を識別するためのモバイル装置を示す図である。
図1は、画像の撮影を含めた取得画像の処理のフローチャートである。
最初のステップ101において、例えばスマートフォン又はタブレットコンピュータ等のモバイル装置の光学センサによって画像を取得する。任意の状況の画像を撮影することができるが、本発明の方法では撮影された画像は、当該画像を撮影した状況における物体が実物体すなわち三次元物体であるか、又は当該物体のスプーフすなわち実物体の二次元表現(写真等)であるかを判断する対象となる物体を含むことを意図している。しかしステップ101では、撮影された画像がスプーフであるか又は実物体であるかは、モバイル装置にも他のいずれのエンティティにも分かっていない。
その後、撮影された画像はステップ102においてニューラルネットワークへ供給される。具体的には、例えば画素に関連付けられた色値等を有する複数の画素等の画像に相当するデータ構造が、ニューラルネットワークへ供給される。このニューラルネットワークは、画像を撮影したモバイル装置上に存在するか、又は、当該画像の転送先である他の計算主体上に存在することができる。例えば、ユーザは自己のスマートフォンを用いて画像を撮影することができ、この画像の情報は(完全な状態又は削減された状態又は他の変更態様のいずれかの状態で)、会社のサーバ上に存在するニューラルネットワークであって例えば実物体の画像を用いてユーザを識別するためのツールを提供するニューラルネットワークへ供給される。
よって、以降の処理はモバイル装置内部で行われるか、又は以降の処理の一部若しくは全部がモバイル装置外部において他の計算主体で行われる。この点については本発明は限定されないが、好適なのは、全世界のモバイルインターネットへのアクセスが制限される地域でも使用できるように、図1に記載されている方法の全部をモバイル装置上で実施することである。
次のステップ103において、画像はニューラルネットワークによって処理される。具体的には、完全な状態の画像を処理するか、又は当該画像を削減し若しくは他の態様で操作若しくは変更したバージョンを処理することができる。例えば、画像が高精細(HD)画質で撮影されたものである場合、最初に、画像がスプーフ又は三次元実物体のいずれを示しているかの正確な識別を判断するために必要な画素数に応じて、画像をより少ない画素数(例えば512×512又は256×256又は224×224の画素数)に削減することができる。これに関して、ステップ103は画像の「前処理」を含むことができ、この前処理には例えば、画素数の削減又は必要と考えられる他の任意の前処理(例えば画像の照明条件の変更等)が含まれる。
しかしこのステップは、画像を撮影するステップ101と、画像を処理するステップ103との間の任意の適切な時期に、ニューラルネットワークによって行うこともできる。例えば、ステップ102において画像をニューラルネットワークへ供給する前に画像の撮影直後に画像の操作若しくは画像の前処理を行うことができ、又は、ステップ102におけるニューラルネットワークへの画像の供給と、ステップ131~134及び最後のステップ104を含めたステップ103におけるニューラルネットワークによる画像の処理の実際の開始と、の間に、画像の操作若しくは画像の前処理を設けることができる。
いずれの場合においても、元の画像に相当するデータ構造はステップ103と後続のステップ131~134とにおいて処理される。
ステップ103におけるニューラルネットワークによる画像の処理は、当該画像の2つの別々の処理に分割することができる。これら2つのうち一方の処理は距離マップの計算及び処理(ステップ131及び132)に関わるものであり、他方の処理は反射パターンの計算及び以降の使用に関わるものである。
まず距離マップについて述べる。ステップ131において距離マップを計算する。この距離マップは、モバイル装置の光学センサの画像中の各画素が該当し又は表現する実世界の部分の算出された距離と当該各画素とを関連付けるものである。例えば、ユーザが手の画像を撮影するために自己の手を光学センサの手前にかざしていると仮定すると、距離マップは少なくとも一部の画素について、手から光学センサまでの距離に相当する計算された距離を含むこととなり、また、画像中の他の物体の計算された他の距離、例えば撮影された画像の背景中に配置されているTV、又は撮影された画像中の背景を構成する風景中の家屋等の距離も含み得る。したがって、画像を撮影した実世界の中の様々な物体に該当し又は表す画素の様々な距離が存在することとなる。
その後、計算された距離マップはステップ132において、ニューラルネットワークの学習済みの距離マップと比較される。この学習済みの距離マップは、一部の実施形態では少なくとも2つの距離マップに分割することができ、これら少なくとも2つの距離マップのうち第1の学習済みの距離マップは、撮影された実物体の画像に関する距離マップに相当し、第2の学習済みの距離マップは、当該物体の二次元のスプーフを撮影した画像の距離マップに相当する。第1の学習済みの距離マップが第2の学習済みの距離マップと相違する点は、第1の学習済みの距離マップは画像の全範囲にわたって様々な距離を示すものであるのに対し、第2の学習済みの距離マップでは、第1画素から第2画素へ移動すると、各画素に関連付けられた距離の変化が滑らかであることである。その理由は、二次元スプーフ(具体的には例えば、実物体の画像の紙)を撮影の際に光学センサの手前にかざした場合、画素から光学センサまでの距離は、特定の点(光学センサ)から光学センサに対して任意の相対配置(アンギュレーション)がなされている平面までの距離に従って計算され得るので、如何なる不連続性も有しないからである。
比較は好適には、その全部がニューラルネットワークにおいて行われ、例えばニューラルネットワークにおける画像の処理の一部として行われるが、他の実施態様も可能である場合があり、比較の全部をニューラルネットワーク外部で、又は、得られた距離マップと計算された距離マップとを比較する際、及び得られた反射パターンと計算された反射パターンとを比較する際にニューラルネットワークと共に追加のソフトウェア若しくはハードウェアを併用して行う実施態様もあり得る。
この比較から結果が得られ、この結果は後でステップ104において使用される。
他方のフローでは、まずステップ133が、画像中の物体の少なくとも一部に該当する複数の画素に関連付けられた光反射を表す反射パターンを計算することを含む。この光反射パターンは例えば、取得された画像中の各画素に輝度の値を関連付けるものとすることができる。この輝度の値も(距離マップと)同様に、画素の輝度ではなく、画像を撮影した実際の状況の実際の輝度に相当する。というのも、画素は実際の状況を表すデータ構造でしかないからである。反射パターンを適切に計算するためには、ステップ101においてモバイル装置のカメラにより、当該カメラのフラッシュを用いて画像を撮影することが好適となり得る。かかる撮影により、画像が撮影された実際の状況のうち光学センサ付近の部分は比較的明るくなり、入射したフラッシュの相当量を反射するのに対し、実際の状況におけるより遠距離の部分、又は光学センサに対して斜めになっている物体の部分はより少ないフラッシュを反射することとなり、これにより比較的暗く見える。フラッシュは近似的に点の形態の光源であるから、フラッシュを用いる場合の反射パターンの計算は、実際の周辺光条件のみを用いる場合に取得できる反射パターンと比較して格段に正確になる。というのも、周辺光は点の形態の光源ではないからである。
次のステップ134において、ステップ132と同様に、計算された反射パターンとニューラルネットワークの学習済みの反射パターンとを比較する。ステップ132と同様に、ニューラルネットワークは好適には2つの学習済みの反射パターンを有し、そのうち第1の学習済みの反射パターンは撮影された実物体の画像に相当し、第2の学習済みの反射パターンは二次元のスプーフの反射パターンに関するものである。この比較によって結果が得られ、この結果は後でステップ104において使用される。
画像の処理がステップ131及び132又はステップ133及び134に従って行われたか、又はこれらの全てのステップを行うことにより行われたかにかかわらず、最後にステップ104において、光学センサにより撮影された画像が実物体の二次元のスプーフを含み若しくは写したものであるか否か、又は実物体を含むか否かを判断する。この判断は本発明では、ステップ132及び/又はステップ134のいずれかの比較の結果に基づいて行われる。よって、これらのステップの結果は好適には、画像中に示されているものがスプーフであるか又は実物体であるかを後で判断するために使用できる複数の情報又は任意の他の情報であるか、又はこれを含む。
下記にて説明するように、ニューラルネットワークは1つの最後の層を含む複数の層を有する。好適な一実施形態では、本発明の最後の層は、ステップ132又は134の比較ステップの際に判断される実物体について-∞~+∞の範囲の出力を供給する第1ノードと、ステップ132及び/又は134において識別されるスプーフについて-∞~+∞の範囲の出力を供給する第2ノードと、を含むことができる。
例えばこれらの出力値は、得られた距離マップと学習済みの距離マトリクスとを構成する差分の総和を表すことができる。得られた距離マップは、各個別の画素ij(画像のi番目の行、j番目の列)に対応する複数の距離Oとして表すことができ、学習済みの距離マップはLであり、各距離マップはそれぞれ成分Oij及びLijを有すると仮定する。この場合、結果D=L-Oは成分dijを有することとなる。総和Σijijを計算することにより、最後の層におけるノードの一例として出力を供給することができる。第1の出力は例えば、実物体の学習済みの距離マップの構造Lに相当し、第2ノードによる第2の出力は、スプーフに対応する学習済みの距離マップの構造Lに相当する。もちろん、反射パターンについても同様のことが当てはまる。
上記の説明は、O,L及びDは各自成分を有する通常知られているマトリクス等の構造となり得るかのような印象を与えるものであったが、通常は距離マップ及び反射パターンは、(学習済みのものであっても、得られたものであっても)規則的なマトリクスの形態で表現することはできないだろう。その理由は、距離マップはニューラルネットワーク自体において画像を処理しながら得られるものであるから、単純にマトリクスの形態で表現できないからである。しかしながら、説明を分かりやすくする観点から、より容易に視覚化できるコンテキストを当該手順に与えるため、O,L及びDをマトリクスの形態で表現されたものであると仮定する。
上述の値(例えば総和Σijij等)では、第1ノード又は第2ノードの出力が実物体に該当するのか又は実物体のスプーフに該当するのかを容易に判断することができない。よって本実施形態では、画像に示されているのが実物体であるか又は物体のスプーフであるかを判断できるようにするため、何らかの正規化を行うのが好適である。
このことを遂行するためには、xによって表される第1ノード及び第2ノードの出力値を、最初に値S(x)に削減する。ここで、i=1は第1ノードを表し、i=2は第2ノードを表し、S(x)=e/(1+e)である。
これらの値は既に1より小さいが、必ずしも最大1である必要はなく、よって、必ずしも統計的又は確率的な判定を行えるようにする必要はない。
かかる判定を行えるようにするため、取得された画像中にて物体のスプーフ又は実物体を発見する確率は最大1であることを前提とする。というのも、画像上にはスプーフ又は実物体のいずれかが必ず存在するからである。次に、この仮定に鑑みて、計算された値S(x)を下記の正規化関数によってさらに処理して、値σ(S(x))を得る:
Figure 0007304082000011
値σ(S(x))は常に最大1である。というのも、上記の関数はベクトルのノルムの計算であるからであり、ソフトマックス関数として知られている。
値σ(S(x))≡σ及びσ(S(x))≡σにより、統計的で確率的な評価が可能である。
よって、この計算の結果σ及びσは、図1の判断ステップ104に使用することができる。画像が実物体である確率であるσが0.5より大きい場合(σ<0.5に相当する)、画像は実物体であるという判断結果になり、σ>0.5の場合には(σ<0.5に相当する)、画像は実物体のスプーフであるとの判断が下される。
図1には明示的に示されていないが、判断ステップ104の後に他のステップが続くことができる。例えば、画像上に示されているのが実物体であるか又は実物体のスプーフであるかの判断は、撮影された画像が実物体のスプーフであるから例えばログイン手続又は銀行送金等の他のセキュリティ関連のプロセスにおいてユーザを識別するために用いることができない旨のユーザ又は他のエンティティに対する表示等の他のステップをトリガするために使用することができる。他方、肯定的な判断となった場合、すなわち画像が実物体である場合には、当該実物体から得られるユーザ固有の情報に基づきユーザを識別する他のプロセスをトリガすることができる。これは例えば、実物体の画像をさらに処理することを含むことができる。例えば実物体が手又は指先である場合、画像から指紋等のバイオメトリック特性を取得して、ユーザの識別と、例えばログイン手続又はバイオメトリック特性を用いる他のプロセス等と、に使用することができる。
図2及び図3は、実物体を撮影した画像と当該実物体のスプーフを撮影した画像の場合、距離マップがどのようなものになるかの一例を示す概略図である。上記にて説明したように、距離マップ及び反射パターンは、通常はマトリクスの形態で表現することができない。しかしながら距離マップ及び反射パターンを得るコンセプトを説明するため、各画素とこれらに対応する距離/反射特性との間で一対一の対応関係が可能であると仮定する。説明のため、これは距離マップ及び反射パターンのマトリクスの形態の表現についての話であると捉えることができる。
これについては図2に、画像が撮影される視野211を有する光学センサ201を備えたモバイル装置200を使用して画像を実物体から取得する状況を示している。図2は、実世界において光学センサにより捉えられる実際の三次元状況の二次元断面である。画像の撮影対象である実物体は物体120であり、場合によっては、光学センサの視野211内には物体221等の他の物体が存在し得る。図示の二次元配置から得られる画像は画素の一次元配列であり(実際の三次元の状況を撮影した二次元画像である画像に相当する)、これらの画素は図示の方向xに配列されている。画像中の画素ごと、例えば1,2,3及び4の表示が与えられた画素ごとに、距離を計算する。実際の状況については、これにより距離マップが得られ、これは図2にも示されている。図から分かるように、実物体の距離は任意の態様でばらつき、限られた数のパラメータのみに依存する関数では、この距離を容易に計算することができない。というのも、光学センサに対する実物体の配置及び当該物体の三次元構造(図2aでは二次元構造)は、通常は未知だからである。
これに対して図3は、光学センサの手前に実物体の画像(すなわち二次元のスプーフ)が掲げられている場合を示している。この図示の例でも、光学センサにより取得される状況は二次元の状況によって表されるので、取得された「画像」は、図2の事例に関して既に説明したように一次元であると仮定する。
説明を簡単化するため、さらに、光学センサが取り付けられているモバイル装置300に対して平行になるように画像が光学センサ301に対して掲げられていると仮定する。また、これも説明の簡単化のため、スプーフの(二次元の)画像330は光学センサの手前に完全な平面となると仮定する。
この場合、光学センサ301の視野311内には、当該光学センサからの距離が最短距離dである点が存在する。この画像内の他の点は全て、
Figure 0007304082000012
によって与えられる距離dを有することとなり、これにより、x方向に関して座標系の原点が、光学センサまでの距離が最小距離dである点であると仮定した場合、図3の距離マップのグラフ表現を得ることができる。
図3を見ると分かるように、取得された(一次元の)画像の画素に相当するこの距離マップは、画像内の特定の点から原点までの距離にのみ依存するので、上記の数式を用いて最短距離dを求めることができる。
よって、光学センサにより取得された実物体又は実際の状況の距離マップは二次元のスプーフの距離マップと有意に異なることが明らかである。というのも、二次元のスプーフの距離マップは、パラメータの数が限られている関数の値を計算することによって得られるものだからである。
計算された反射パターンについても上記と同様のことが当てはまるが、反射パターンは、距離マップと同様のやり方では容易に撮影することができない。
しかし、計算された距離マップについての上記説明を参酌すれば、撮影された画像の画素ごとに実際の状況に対応する反射値又は輝度値又は照明条件に関連付けられた他の任意の値を計算できることも明らかとなる。この実際の状況も、図3にて説明したような実物体の二次元のスプーフである場合、反射パターン(光強度を参照してより容易に説明される)も上記数式に従って、又は少なくとも上記数式に依存して変化することとなる。というのも、特定の一点から得られる光の強度は一次近似では、距離の2乗に相互依存するからである。
よって、複数の他の物体の中に実物体が示されている状況(図2のような状況)では、反射パターンは非常に複雑な構造になるのに対し、光学センサに対して二次元のスプーフを示した場合、その反射パターンは、パラメータの数が限られている関数を用いて容易に計算することができる。
実物体に相当する学習済みの距離マップ(又は反射パターン)と、物体の二次元のスプーフに相当する学習済みの距離マップについても同様である。というのも、これらはニューラルネットワークに既知であるからである。したがって、ニューラルネットワークは学習済みの距離マップと(そしてもちろん反射パターンも)得られた距離マップ及び反射パターンとを比較することにより、取得された画像が実物体であるか又は当該実物体のスプーフであるかを合理的に判断することができる。
距離マップ及び反射パターンの各計算を簡略化するため、及び、判断ステップ104に必要なコンピュータリソースを削減するためには、学習済みの距離マップ及び学習済みの反射パターンは通常、各要素が距離の学習済みの振舞い又は対応する反射パターンの学習済みの振舞いを構成するデータ構造の形態で、ニューラルネットワークに設けられることとなる。
得られた又は計算された距離マップ及び得られた反射パターンも同様に、各要素が取得された画像における距離(又は各反射パターン)を構成するデータ構造の形態で提供することができる。
このことは、学習済み及び計算された距離マップ及び反射パターンの両方とも、画素ごとに該当し得る。すなわち、各データ構造内の各要素は、特定の一画素の学習済み/計算された距離又は反射パターンに相当する。
これはもちろん、取得された画像における画素の位置とデータ構造内の要素との間に関連付けが存在することを要する。この関連付けは、データ構造を計算する基礎として画像内の画素自体の配置を使用して行われる。具体的には、取得された画像に即して、距離マップ(例えば名称「L」)及び反射パターン(例えば名称「Y」)に使用される各データ構造を構築する。例えば画像が1色値あたり512×512個の画素(すなわち512×512×3)を含む場合、距離マップ及び反射パターンは、(1色値あたり)各成分が取得された画像中の一画素にそれぞれ相当する成分数512×512のサイズのデータ構造となる(必ずしも要素数512×512個のマトリクスとして表現可能なものであるとは限らない)。画像の他のどのような解像度であっても、同様のことが当てはまる。
図4は、本発明の一実施形態のニューラルネットワークの一層200において受け取った入力画像の内部処理を示す。この入力画像は元の画像か、又は元の画像からHSV変換により得られたHSV変換データ構造のいずれかとすることができる。実際には、ニューラルネットワークへ供給されるデータ構造は、HSV色空間への変換後の入力画像に相当するマトリクスであることが多い。というのもこれは、色値よりも画素のluma値をより的確に示すからである。これにより、距離マップ及び反射パターンの計算をより効率的にすることができる。
この層200は、ニューラルネットワークによる元の入力画像の処理順で、上述のステップ102の後に元の入力画像を受け取る最初の層、若しくは、ニューラルネットワークの他の2つの層240と250との間に配されたいずれかの中間層とすることができ、又は、層200は最終的に、図1を参照して説明したステップ104に従って出力を供給するニューラルネットワークの最後の層とすることもできる。最後の場合、層は、画像内のスプーフ識別及び実物体の識別のための対応する出力を供給するために上述の2つの出力ノードを有することとなる。
いかなる場合においても層200は、少なくとも何らかの形で取得当初の画像に対応する入力230を受け取る。この入力は好適には、次元N×Mを有する少なくとも1つのマトリクスの形態であり、ここでN及びMは、0より大きい整数である。マトリクスは例えば、少なくとも1つの色値(例えば赤)又はHSV変換画像について画像中の画素を表すものとすることができる。よって、このマトリクスの成分は、当該特定の画素の当該色(本事例では赤)の値に相当する値又はそのluma値を有することができる。以下の記載から明らかであるように、入力は取得された画像と同一でなくてもよく、ニューラルネットワーク内の層による何らかの処理によって、又は何らかの前処理(例えば上述の解像度低減処理等)によって元の画像を表すマトリクスから得られたマトリクスPとすることができる。
しかし説明の簡素化のため、入力230は、取得当初の画像を表すN×Mマトリクスに相当し、当該N×Mマトリクスの各成分は当該画像中の各画素の一色(例えば赤)の値に相当すると仮定する。この考え方は、元のN×Mマトリクスをニューラルネットワークの各層で処理した変換後のどのような他のマトリクスにも、容易に適用することができる。
ここで、図4に例示した処理によれば、入力230は処理のために深度畳み込み層211によって受け取られる。下記では、深度畳み込み層によって入力マトリクス230をどのように処理できるかに関する比較的簡単な例を提示する。これは、カーネルKを用いて当該マトリクスとの内積を算出することを含む。このカーネルは、いわゆる「ストライド」でマトリクス全体で実行される。下記の例は値1の水平方向ストライド幅及び垂直方向ストライド幅を用いているが、ストライド幅が0より大きい整数であれば、1より大きい他の任意の値を使用することができる。カーネルKはサイズがS×Tであり、ここでS及びTは整数であり、かつN及びMより小さい。
さらに、サイズN×Mの元の入力マトリクスI(すなわち入力マトリクス230)のみがカーネルとの内積を算出するために使用されると仮定する。しかし、カーネルとの内積を算出するために、拡張されたマトリクスZを用いることも可能である。この拡張されたマトリクスZは、元のマトリクスIの最初の行の上と最後の行の下とに行を「付加」し、最初の列の左側と最後の列の右側とに列を「付加」することによって得られるものである。
これは「パディング」と称される。パディングは通常、行方向に数Pの行を追加し、列方向に数Pの列を追加することを含む。数PはS-1に等しくすることができ、数PはT-1に等しくすることができ、これにより、Zとカーネルとで算出されたいかなる内積も、元のマトリクスIの少なくとも1つの成分を含むこととなる。よって、これにより得られるマトリクスZのサイズは(N+2P)×(M+2P)となる。このことから、マトリクスZは以下の成分を有することとなる:
Figure 0007304082000013
ここで、全ての内積を算出してこれらを行及び列に従って適切に配列することによって得られる新たなマトリクスは、一般的に
Figure 0007304082000014
のサイズとなる。ここで、Wは行方向のストライド幅であり、Wは列方向のストライド幅である。サイズS×Tの所与のカーネルKを得るためには、新たなマトリクスのサイズが整数となるパディング及びストライド幅のみが許容されることが明らかである。さらに、ストライド幅WはSより小さく、かつストライド幅WはTより小さいことが好適である。その理由は、そうしないとマトリクスIにおけるカーネルの動きが、元のマトリクスのうち新たなマトリクスの算出で除外されてしまう行又は列が出てきてしまうものになってしまうからである。
以下では説明の簡素化のため、元のマトリクスIに対してはパディングを行わず、水平方向及び垂直方向のストライドのストライド幅は1であると仮定する。さらに、カーネルはサイズS×Sのマトリクスであると仮定する。すなわち、S=Tである特殊な事例を想定する。任意のパディング及びストライド幅及び任意のカーネルサイズに対して以下の説明を適用することは、以下の思想により容易に行える。
深度畳み込み層211では、受け取った入力マトリクス230を使用して、サイズS×SのカーネルKとの内積を求める。ここで、S<N,Mである。この内積は、元のN×Mマトリクスの各削減マトリクスごとに計算され、削減マトリクスのサイズはS×Sであり、元のN×Mマトリクスのコヒーレントな成分を含む。一例としてS=3の場合を考察すると、元のN×Mマトリクスの第1の削減マトリクスRは成分i=1,2,3;j=1,2,3を有し、9個の成分から構成され、カーネルKとの内積を計算するとその結果は単一の数となる。元のN×Mマトリクスの行方向における次の削減マトリクスは、iを1増分したマトリクスであり、これにより当該方向における次のマトリクスは、元のN×Mマトリクスのi=2,3,4;j=1,2,3の要素から構成されることとなる。その後、このマトリクスはカーネルとの次の内積を算出するために使用される。なお、ここで提示した一例のS=3であるS×Sマトリクスは単なる一例であり、他のカーネルを使用することも可能である。
列/カラム方向において次のサイズ(N×M)の削減マトリクスRを算出するためには、元のN×Mマトリクスの要素の添え字jを1増分する。これは、行方向において最後の削減マトリクスまで行われ、この最後の削減マトリクスは、S=3の場合にはi=N-S+1,N-S+2,N-S+3となる。上述のことは列についても同様に行われ、j=M-S+1,M-S+2,M-S+3となる。これらの内積を計算することにより、サイズが(N-S+1)×(M-S+1)の新たなマトリクスであるマトリクスPが算出される。その成分Pijは、元のN×Mマトリクスの各削減マトリクスとカーネルKとから計算された各内積に相当する。なお、実際にはこのサイズのマトリクスが層200の点畳み込み層へ転送される。
カーネルKは、意図されている物体を適切に識別するため、すなわち物体のスプーフと実物体とを区別するためにニューラルネットワークを訓練する学習プロセスによって得られた成分である。ニューラルネットワークの層200において使用されるこのカーネルKは、各ニューラルネットワークの他の層において使用されるカーネルと同一のサイズ及び成分である必要はない。また、カーネルの各成分は互いに同一である必要はなく、少なくとも0以上の数である。かかる成分は、ニューラルネットワークの学習を通じて得られる「重み」を表すものとみなすことができる。
深度畳み込み層によるマトリクス230の処理の結果は、行方向ではΔi=1の距離と列方向ではΔj=1の距離とを有するストライドでカーネルを元のN×Mマトリクス上で移動させる場合、上述のように、サイズ(N-S+1)×(M-S+1)のマトリクス231となる。しかし、このストライドがΔi=2やΔj=3のようなより大きな距離を有する場合(これは列についても同様にあり得る)、これに応じて結果231の次元が上述のように変化することとなる。
後続の処理において、この結果231は第1のバッチ正規化部212へ転送される。この第1のバッチ正規化部212は、図4中の矢印で示されている処理順において深度畳み込み層211の次である。このバッチ正規化部は、受け取った結果マトリクス231の正規化を試行する。この正規化は、(N-S+1)×(M-S+1)マトリクスの各成分の総和を算出し、これを(N-S+1)×(M-S+1)マトリクスの成分の数によって除算することにより達成される。要素Pijを有する(N-S+1)×(M-S+1)マトリクス(以下「P」で示す)の平均値Vは、次のように与えられる:
Figure 0007304082000015
ここでn及びmは、N×Mマトリクスの行数及びカラム/列数、又はマトリクスPの行数及び列数を表す。要素PijはマトリクスPの成分であり、所与の要素Pijは、当該マトリクスの第i番目の行かつ第j番目の列の要素である。
その後、バッチ正規化部は元のマトリクスの各成分Pijから平均値Vを差し引くことにより削減マトリクスP’を算出し、P’ij=Pij-Vとなる。これによって削減マトリクスP’内の値は正規化され、一方向又は他方向における変則値(anomalies、極端に大きい値又は極端に小さい値)がフィルタリング除去される。また、項Pij-Vを平均値Vに相当する標準偏差によって除算することにより項P’ijを計算することもできる。
第1のバッチ正規化部212によって生成された結果232は、(図4の例では)未だサイズが(N-S+1)×(M-S+1)であるマトリクスとなる。というのもこれ以前では、マトリクスの次元削減が行われていないからである。
結果232はその後、第1のバッチ正規化部212の次の第1の整流線形ユニット213へ供給される。
この整流線形ユニットは、
Figure 0007304082000016
を算出することによって、マトリクス232の各成分をさらに修正する。ここで、
Figure 0007304082000017
である。
これにより、0より小さい値はバッチ正規化部を通過した後は0に設定され、これにより、以下説明する深度畳み込み層における更なる処理に影響を及ぼさなくなる。このことは、具体的には例えば、バッチ正規化部において算出された平均値を下回る色値はこれ以降考慮されず、平均値Vと少なくとも一致する値のみが計算の次のステップの結果に影響を及ぼす、ということである。
よって、第1の整流線形ユニット213によって出力される結果233は依然として(N-S+1)×(M-S+1)の形状/サイズのマトリクスであり、このマトリクスは点畳み込み層221へ転送される。
点畳み込み層221は結果234を生成する。この結果234は、点畳み込み層221が(N-S+1)×(M-S+1)マトリクス233の各成分をとって当該各成分に重みαを乗じることによって生成される。αは好適には、常に0より大きい数であり、この数は(N-S+1)×(M-S+1)マトリクスの各成分に対して同一である。よって、点畳み込み層221から得られる結果234は、同一サイズの(N-S+1)×(M-S+1)であるが各成分に重みαを乗じたマトリクスとなる。
その後、結果234は第2のバッチ正規化部222へ供給され、この第2のバッチ正規化部222において第1のバッチ正規化部212について説明した態様で正規化されて、同じ次元の正規化マトリクスP’が結果235として算出される。このマトリクス/結果235は第2の整流線形ユニット223へ転送され、第2の整流線形ユニット223において
Figure 0007304082000018
を得るために整流関数が適用され、この結果/マトリクスはニューラルネットワークにおける次の層へ転送され、又は、ニューラルネットワークにおいて次の層がもはや無い場合には、結果236は出力として供給される。
これより図5において、図4を参照して説明したカーネルKの重み及び重みαと、実際に実物体又は実物体のスプーフを識別するパターンと、をニューラルネットワークが学習するために、ニューラルネットワークをどのようにして適切に訓練できるかを説明する。
図5の方法は、訓練データ401の準備から開始する。この訓練データは、実物体の複数の画像と実物体のスプーフの複数の画像とにより構成することができる。この訓練データを構成する画像は例えば、本物の手又は指等の複数の画像と、これら物体の画像(すなわちスプーフ)の画像とを含むことができる。これら複数の画像は、同一画像を回転、強調、暗色化、拡大、又は他の修正を施した複製を用いて増加したものとすることができ、このような複製を訓練データとして導入する。好適には、より多数の訓練画像を得るため、画像フリップ、画像回転及び直線移動、シェアリング(shear)、トリミング、輝度及びガウスブラーを増加するための乗算を含む修正を使用することができる。上掲の技術の任意の組み合わせを用いることもできる。項目408で提供される値σ及びσは、ニューラルネットワークの最後の層の第1ノード及び第2ノードであって、画像が物体のスプーフである確率又は実物体である確率を供給する第1ノード及び第2ノードの出力が「正しい」ことを示す値となる。これらの値は、訓練データの各画像ごとに与えられる。
次のステップにおいて、ニューラルネットワークの他に最適化部407及び損失関数計算部406がさらに設けられた訓練環境下で、ニューラルネットワークに1つの特定の入力画像402が供給される。
この入力画像は、第1段階において、深度畳み込み層と第1のバッチ正規化部と第1の整流線形ユニット403(これら3つは「DCBR」としてまとめられている)を用いて処理され、その後、点畳み込み層と第2のバッチ正規化部と第2の整流線形ユニット(これら3つはPCBRとしてまとめられている)へ転送され、図4での説明に従い処理される。これは具体的には、各セクション403及び404それぞれにおいて点畳み込み層(PC)及び深度畳み込み層(DC)のカーネルKに係る対応する重みを用いて、図5に示されているステップ又はセクション403及び404を図4にて説明したように、好適には13回等の回数で実行する、ということである。項目403及び404の第1及び第2のバッチ正規化部並びに整流線形ユニットは、上記にて図4を参照して説明したように動作する。
その結果、上記の説明によれば値σ及びσが得られる。この結果はその後、損失関数に供給され、損失関数では当該結果と、408において設けられた事前設定済みの値σ及びσとが比較されることにより、結果405と、正しい値σ及びσとの差が特定される。損失関数406により得られたこの差はその後、最適化部407へ供給され、最適化部407の方は、各点畳み込み層及び各深度畳み込み層の重み、すなわちαとカーネルKの成分を修正する。これは具体的には、ネットワークの全ての層に対して同時に、又は各層ごとに別個に、点畳み込み層の重みαと深度畳み込み層のカーネルKの成分を操作する、ということになる。
これらの新たな値を用いて、まさに同一の画像について上記サイクルが繰り返され、その結果得られる値σ及びσが損失関数へ供給されて正しい値σ及びσと比較され、この比較の結果が最適化部407へ供給されて、最適化部407は再び重みを修正する。
この手順は、上記の結果の値σ (n)及びσ (n)(nは、これらの値のn回目の繰り返しである)と、項目408の値σ及びσとの差が、意図された実物体及びスプーフの判断精度に実質的に相当する所与の閾値を超える限り行われる。
そのあと、訓練データ401から次の入力画像402が取られて、対応する値σ及びσが損失関数に供給される。その後、この新たな画像について上記のプロセスを再び繰り返し、点畳み込み層及び深度畳み込み層に係る最適な重みが求められる。これは、重みの特定の組み合わせによって全ての入力画像の識別精度が適切になるまで繰り返される。このようにして得られた重みの組み合わせは、最終的な重み410として出力される。
この最終的な重みはその後、モバイル装置上で本発明の方法を実行するアプリケーションに導入される。実際には本方法により、実物体又は実物体のスプーフを示す特定の距離マップ及び反射パターンをニューラルネットワークが学習することが可能である。よって、図5に記載されている方法は、距離マップ又は反射パターンを学習するために使用された入力によって同様に実施することができる。
また、値σ及びσの他に追加して、又は組み合わせで、画像に相当する正しい距離マップ及び反射パターンを供給することも可能である。この場合、ステップ405におけるニューラルネットワークの出力は各値σ (n)及びσ (n)だけでなく、入力408によって得られた事前設定された距離マップ及び/又は反射パターンと比較される距離マップ及び/又は反射パターンでもある。
このようにして本発明のコンセプトでは、モバイル装置に供給されるニューラルネットワークは既に、画像が実物体であるか又は実物体の二次元のスプーフでしかないかの判断に完全に適したものとなっている。
総合的に、上記にて図4を参照して説明した点畳み込み層と深度畳み込み層とバッチ正規化部と整流線形ユニットとを使用することにより、1メガバイト未満のアプリケーションを提供することができ、これによりインターネット等を介して他のデータソースに何らアクセスしなくても、モバイル装置単独で使用することができる。これにより、無線ネットワーク等へのアクセスが不可能である環境下での適用に適したものとなる。さらに、この用途を実行するために必要なプロセッサ性能を最小限に抑えつつ、例えば、識別された実物体からバイオメトリック特性を抽出して後続のセキュリティ関連のプロセスに使用すること等により行われるユーザの識別に後で使用できる、実物体の適切な判断結果を得ることができる。
本発明の方法を実施できる場面を提示するため、図6に、本発明の一実施形態のスマートフォンの形態のモバイル装置を示す。
モバイル装置500は、現在公知のスマートフォンとして構成されている。モバイル装置500は光学センサ520を備えており、これは好適には、モバイル装置500におけるディスプレイ530の設置場所である側とは反対側のカメラの裏面に設けられている。カメラは、1MP又は2MP以上の解像度を有するカメラとすることができ、例えばHDカメラとすることができる。カメラにはフラッシュライトを備え付けることができるが、これは必須ではない。カメラはまた、解像度を低くしたリアルタイム画像を撮影するよう構成することもでき、カメラが起動されるとディスプレイ530は、カメラが実際に「見ている」ものを表示することができる。これは例えば手510とすることができる。

Claims (11)

  1. 手の指等の三次元実物体と当該実物体の二次元のスプーフとを区別するための方法であって、
    モバイル装置の光学センサによって、前記スプーフ又は前記実物体のいずれかを含む画像を取得することと、
    前記画像をニューラルネットワークへ供給することと、
    前記画像の処理を前記ニューラルネットワークによって行うことと、
    を含み、
    前記処理は、
    前記画像内の物体の少なくとも一部に該当する複数の画素から前記光学センサまでの距離を表す距離マップと、
    前記画像内の前記物体の少なくとも一部に該当する複数の画素に関連付けられる光反射を表す反射パターンと、
    のうち少なくとも1つを計算することを含み、
    前記処理はさらに、前記ニューラルネットワークを用いて、計算された前記距離マップ又は計算された前記反射パターンのうち少なくとも1つと、学習済みの距離マップ又は学習済みの反射パターンとを比較し、前記比較の結果に基づいて、前記画像が前記スプーフ又は前記実物体のいずれかを含むことを判断することを含み、
    前記ニューラルネットワークは複数の層を備えており、最後の層は、前記処理中に判断される実物体に関する出力を供給する第1のノードと、前記処理中に判断されるスプーフに関する出力を供給する第2のノードの、2つのノードを有し、
    前記各ノードは前記画像の処理に応じて-∞~+∞の範囲の出力を供給し、前記各ノードの前記出力は出力正規化部に通され、前記出力正規化部は最初に前記各ノードの出力x を取り、S(x)=e /(1+e )によって、削減された値S(x )を算出し、ここで、前記第1ノードの場合にはi=1であり、前記第2ノードの場合にはi=2であり、前記出力正規化部は正規化関数
    Figure 0007304082000019
    へ値S(x )を供給することにより、正規化値σ(S(x ))≡σ 及びσ(S(x ))≡σ を得る
    ことを特徴とする方法。
  2. 前記距離マップ及び前記反射パターンを計算して前記学習済みの距離マップ及び前記学習済みの反射パターンと比較し、前記比較の結果に基づいて、前記画像が前記スプーフ又は前記実物体のいずれかを含むことを判断する、
    請求項1記載の方法。
  3. カメラである前記光学センサに関連付けられたフラッシュを使用しながら、前記画像を前記光学センサによって取得する、
    請求項1又は2記載の方法。
  4. σ>0.5である場合、前記画像は前記実物体を含むと判断し、σ>0.5である場合、前記画像は前記スプーフを含むと判断する、
    請求項1から3までのいずれか1項記載の方法。
  5. 前記ニューラルネットワークは複数の層を有し、
    前記画像を前記ニューラルネットワークによって処理することは、当該ニューラルネットワークの第1層によって、入力された前記画像を処理することにより第1の中間出力を生成するステップと、各先行層の出力を各後続層によって処理するステップと、を有し、
    前記複数の各層は、各層における前記入力の処理順に、深度畳み込み層と、第1のバッチ正規化部と、第1の整流線形ユニットと、点畳み込み層と、第2のバッチ正規化部と、第2の整流線形ユニットとをそれぞれ有する、深度で分離可能な畳み込みであり、
    前記複数の層を用いて前記画像を処理することにより、前記ニューラルネットワークは出力として、前記画像が前記実物体又は前記スプーフのいずれかを含むとの判断結果を得る、
    請求項1からまでのいずれか1項記載の方法。
  6. 前記画像を前記ニューラルネットワークにより処理することは、前記画像から少なくとも1つのマトリクスIを生成するステップと、前記マトリクスを前記ニューラルネットワークへ入力として供給するステップと、を含み、
    前記画像はN×M個の画素を有し、
    前記マトリクスIはN×M個の値を有するマトリクスであり、
    前記マトリクスIの成分はIijによって与えられ、ここでi及びjは整数であり、i=1・・・Nかつj=1・・・Mである、
    請求項記載の方法。
  7. 各深度畳み込み層は、サイズS×Tのマトリクスである予め定められたカーネルKであって成分Sabを有するカーネルKを、前記マトリクスIに適用し、ここでS,T<N、S,T<Mであり、
    前記カーネルを前記マトリクスに適用することは、サイズ(N+2P)×(M+2P)を有するマトリクスZのサイズ(N×M)S,Tの各削減マトリクスRと前記マトリクスKとの内積を算出することを含み、
    前記マトリクスRは前記カーネルKと同一サイズであり、
    前記マトリクスZの成分Zcdは、
    Figure 0007304082000020
    により与えられ、
    Figure 0007304082000021
    であり、
    出力として、
    Figure 0007304082000022
    のサイズを有するマトリクスPが供給され、
    ここでW及びWはストライド幅を定義し、前記マトリクスPの各成分Pijは、ij番目の前記削減マトリクスRと前記カーネルKとの内積の値であり、
    前記マトリクスPは前記深度畳み込み層から出力として前記第1のバッチ正規化部へ供給される、
    請求項記載の方法。
  8. 前記カーネルのサイズS及びTは全ての深度畳み込み層において等しく、又は、少なくとも1つの深度畳み込み層及び/若しくは前記カーネルKの少なくとも1つの成分について異なっており、Sa’b’≠Sa≠a’,b≠b’である、
    請求項記載の方法。
  9. 前記バッチ正規化部は、正規化された削減マトリクスP’を前記整流線形ユニットへ供給し、前記整流線形ユニットは整流関数を各成分P’ijに適用し、前記整流関数は、
    Figure 0007304082000023
    を有する
    Figure 0007304082000024
    を算出し、
    Figure 0007304082000025
    は、前記整流線形ユニットが第1の整流線形ユニットである場合には前記点畳み込み層へ出力として供給され、若しくは、前記整流線形ユニットが前記第2の整流線形ユニットである場合には前記ニューラルネットワークの次の層へ供給され、及び/又は、
    前記点畳み込み層は、先行層から受け取った
    Figure 0007304082000026
    の各成分に重みαを乗じることにより、
    Figure 0007304082000027
    に前記重みαを適用する、
    請求項からまでのいずれか1項記載の方法。
  10. 前記方法の各ステップを前記モバイル装置上で実施する、
    請求項1からまでのいずれか1項記載の方法。
  11. 光学センサと、プロセッサと、実行可能な指令を記憶する記憶ユニットと、を備えたモバイル装置であって、
    前記指令は、前記モバイル装置の前記プロセッサによって実行されたときに前記プロセッサに請求項1から10までのいずれか1項記載の方法を実行させる
    ことを特徴とするモバイル装置。
JP2020560255A 2018-03-16 2019-05-09 三次元実物体を実物体の二次元のスプーフと区別するための方法 Active JP7304082B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP18382174.3A EP3540635B1 (en) 2018-03-16 2018-03-16 Method for identifying an object within an image and mobile device for executing the method
EP18382295.6 2018-04-27
EP18382295.6A EP3540636A1 (en) 2018-03-16 2018-04-27 Method for distinguishing a real three-dimensional object from a two-dimensional spoof of the real object
PCT/IB2019/053824 WO2019207557A1 (en) 2018-03-16 2019-05-09 Method for distinguishing a real three-dimensional object from a two-dimensional spoof of the real object

Publications (2)

Publication Number Publication Date
JP2021522591A JP2021522591A (ja) 2021-08-30
JP7304082B2 true JP7304082B2 (ja) 2023-07-06

Family

ID=61768233

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020571920A Active JP7386545B2 (ja) 2018-03-16 2019-03-15 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置
JP2020560255A Active JP7304082B2 (ja) 2018-03-16 2019-05-09 三次元実物体を実物体の二次元のスプーフと区別するための方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020571920A Active JP7386545B2 (ja) 2018-03-16 2019-03-15 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置

Country Status (13)

Country Link
US (4) US11508184B2 (ja)
EP (3) EP3540633B1 (ja)
JP (2) JP7386545B2 (ja)
KR (4) KR102554724B1 (ja)
CN (1) CN111989689A (ja)
AU (2) AU2019234110B2 (ja)
BR (2) BR112020018915A2 (ja)
CA (3) CA3215158A1 (ja)
ES (2) ES2828358T3 (ja)
MX (2) MX2020009382A (ja)
PE (2) PE20201181A1 (ja)
WO (2) WO2019175846A1 (ja)
ZA (2) ZA202006256B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3540633B1 (en) * 2018-03-16 2020-09-23 Identy Inc. Method for identifying an object within an image and mobile device for executing the method
WO2020051776A1 (en) * 2018-09-11 2020-03-19 Intel Corporation Method and system of deep supervision object detection for reducing resource usage
US11189028B1 (en) * 2020-05-15 2021-11-30 Retrace Labs AI platform for pixel spacing, distance, and volumetric predictions from dental images
EP4097632A1 (en) * 2020-01-28 2022-12-07 Universidad Autónoma de Madrid Method to generate training data for a bot detector module, bot detector module trained from training data generated by the method and bot detection system
EP4246454A3 (en) 2020-04-09 2023-11-29 Identy Inc. Liveliness detection using a device comprising an illumination source
CN111598110B (zh) * 2020-05-11 2023-04-28 重庆大学 基于网格细胞记忆的hog算法图像识别方法
KR20210149542A (ko) 2020-06-02 2021-12-09 삼성에스디에스 주식회사 이미지 촬영 및 판독 방법, 이를 위한 장치
US11443527B2 (en) 2021-01-13 2022-09-13 Ford Global Technologies, Llc Material spectroscopy
US11657589B2 (en) 2021-01-13 2023-05-23 Ford Global Technologies, Llc Material spectroscopy
US11741747B2 (en) 2021-01-13 2023-08-29 Ford Global Technologies, Llc Material spectroscopy
KR102672353B1 (ko) * 2021-01-25 2024-06-05 숭실대학교산학협력단 사진 촬영 기반 낙서 드로잉 장치 및 방법
WO2023272604A1 (zh) * 2021-06-30 2023-01-05 东莞市小精灵教育软件有限公司 基于生物特征识别的定位方法及装置
CN113706647B (zh) * 2021-07-30 2024-02-13 浪潮电子信息产业股份有限公司 一种图像上色方法及相关装置
US20230274574A1 (en) * 2022-02-28 2023-08-31 Armatura Llc System and method for rotation invariant fingerprint recognition
CN117037221B (zh) * 2023-10-08 2023-12-29 腾讯科技(深圳)有限公司 活体检测方法、装置、计算机设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018508888A (ja) 2015-02-06 2018-03-29 ヴェリディウム アイピー リミテッド モバイル・デバイスを用いてキャプチャしたイメージを使用する指紋ベースのユーザ認証を実行するためのシステムおよび方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5978495A (en) * 1996-07-17 1999-11-02 Intelnet Inc. Method and apparatus for accurate determination of the identity of human beings
US6072891A (en) * 1997-02-21 2000-06-06 Dew Engineering And Development Limited Method of gathering biometric information
JP4085470B2 (ja) 1998-05-29 2008-05-14 オムロン株式会社 個人識別装置、個人識別方法および個人識別プログラムを記録した記録媒体
FR2826443B1 (fr) * 2001-06-21 2003-10-10 Gilles Cavallucci Procede et dispositif de detection optique de la position d'un objet
JP4734980B2 (ja) 2005-03-15 2011-07-27 オムロン株式会社 顔認証装置およびその制御方法、顔認証装置を備えた電子機器、顔認証装置制御プログラム、ならびに該プログラムを記録した記録媒体
US8542928B2 (en) * 2005-09-26 2013-09-24 Canon Kabushiki Kaisha Information processing apparatus and control method therefor
KR101349892B1 (ko) * 2006-07-19 2014-01-13 루미다임 인크. 다중 생체인식 다중 스펙트럼 이미저
JP2008257327A (ja) 2007-04-02 2008-10-23 Omron Corp 照合装置
SG11201501691VA (en) 2012-09-05 2015-04-29 Element Inc Biometric authentication in connection with camera-equipped devices
JP6304999B2 (ja) * 2013-10-09 2018-04-04 アイシン精機株式会社 顔検出装置、方法およびプログラム
JP6187817B2 (ja) * 2013-10-09 2017-08-30 アイシン精機株式会社 顔検出装置、方法およびプログラム
US10025915B2 (en) * 2013-12-05 2018-07-17 Lenovo (Singapore) Pte. Ltd. Contact signature authentication of user of device
US9489560B2 (en) * 2014-02-12 2016-11-08 Advanced Optical Systems, Inc. On-the go touchless fingerprint scanner
US9195879B1 (en) * 2014-08-31 2015-11-24 Qualcomm Incorporated Air/object determination for biometric sensors
KR102290892B1 (ko) 2014-12-12 2021-08-19 엘지전자 주식회사 이동단말기 및 그것의 제어방법
US11120478B2 (en) 2015-01-12 2021-09-14 Ebay Inc. Joint-based item recognition
US10339362B2 (en) * 2016-12-08 2019-07-02 Veridium Ip Limited Systems and methods for performing fingerprint based user authentication using imagery captured using mobile devices
RU2715521C2 (ru) 2015-06-16 2020-02-28 Айверифай Инк. Системы и способы для обнаружения обманных объектов и анализа жизненности
KR102439938B1 (ko) * 2015-08-03 2022-09-05 삼성전자주식회사 사용자 인증을 위한 멀티-모달 퓨전 방법 및 사용자 인증 방법
CN106056095A (zh) * 2016-06-13 2016-10-26 北京小米移动软件有限公司 指纹处理的方法和装置
KR102483642B1 (ko) 2016-08-23 2023-01-02 삼성전자주식회사 라이브니스 검사 방법 및 장치
US11157814B2 (en) * 2016-11-15 2021-10-26 Google Llc Efficient convolutional neural networks and techniques to reduce associated computational costs
EP3552150A4 (en) * 2016-12-08 2020-10-21 Veridium IP Limited SYSTEMS AND METHODS FOR PERFORMING FINGERPRINT-BASED USER AUTHENTICATION USING CAPTURED IMAGES USING MOBILE DEVICES
US10216977B2 (en) * 2017-01-06 2019-02-26 Qualcomm Incorporated Progressive multiple fingerprint enrollment and matching, and dynamic user account transitions
EP3540633B1 (en) * 2018-03-16 2020-09-23 Identy Inc. Method for identifying an object within an image and mobile device for executing the method
CN108810616B (zh) * 2018-05-31 2019-06-14 广州虎牙信息科技有限公司 目标定位方法、视频显示方法、装置、设备和存储介质
WO2020254857A1 (en) * 2019-06-18 2020-12-24 Uab Neurotechnology Fast and robust friction ridge impression minutiae extraction using feed-forward convolutional neural network

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018508888A (ja) 2015-02-06 2018-03-29 ヴェリディウム アイピー リミテッド モバイル・デバイスを用いてキャプチャしたイメージを使用する指紋ベースのユーザ認証を実行するためのシステムおよび方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Di Tang et al.、Face Flashing: a Secure Liveness Detection Protocol based on Light Reflections、arxiv.org、2018年1月6日、https://arxiv.org/pdf/1801.01949v1.pdf
Yao Liu et al.,Aurora Guard:Real-Time Face Anti-Spoofing via Light Reflection、arxiv.org、2019年2月27日、https://arxiv.org/pdf/1902.10311v1.pdf
Yousef Atoum et al.、Face Anti-Spoofing Using Patch and Depth-Based CNNs、2017 IEEE Int. Joint Conf. on Biometrics (IJCB)、IEEE、2017年,pp.319-328
伊藤,岡野,青木、顔認証システムのためのFully Conventional Networkを用いた生体検知手法に関する検討、電子情報通信学会技術研究報告、社団法人電子情報通信学会、2017年10月5日、Vol.117,No.236、BioX2017-27、pp.11-15
海老原ほか、フラッシュ反射光を利用した単眼可視光カメラによるなりすまし検知、映像情報メディア学会技術報告、映像情報メディア学会、2018年5月17日、Vol.42,No.14、pp.15-19

Also Published As

Publication number Publication date
PE20240541A1 (es) 2024-03-19
KR20210032310A (ko) 2021-03-24
ZA202007383B (en) 2021-09-29
KR20200130440A (ko) 2020-11-18
CA3093966C (en) 2023-11-14
CA3098286A1 (en) 2019-10-31
EP3540633A1 (en) 2019-09-18
CA3093966A1 (en) 2019-09-19
CA3215158A1 (en) 2019-09-19
AU2022202817A1 (en) 2022-05-19
US20230011257A1 (en) 2023-01-12
JP7386545B2 (ja) 2023-11-27
KR20220125377A (ko) 2022-09-14
EP3540635A1 (en) 2019-09-18
US20210103749A1 (en) 2021-04-08
US11508184B2 (en) 2022-11-22
AU2022202817B2 (en) 2023-05-18
MX2020011313A (es) 2021-04-28
EP3540633B1 (en) 2020-09-23
ZA202006256B (en) 2021-09-29
WO2019207557A1 (en) 2019-10-31
ES2837382T3 (es) 2021-06-30
EP3540635B1 (en) 2020-08-26
US20210027041A1 (en) 2021-01-28
WO2019175846A1 (en) 2019-09-19
MX2020009382A (es) 2020-12-11
KR20230107415A (ko) 2023-07-14
AU2019234110A1 (en) 2020-09-24
BR112020018915A2 (pt) 2020-12-29
BR112020021946A2 (pt) 2021-01-26
US20220335748A1 (en) 2022-10-20
KR102629380B1 (ko) 2024-01-24
KR102554724B1 (ko) 2023-07-11
US11495050B2 (en) 2022-11-08
KR102442844B1 (ko) 2022-09-14
ES2828358T3 (es) 2021-05-26
CN111989689A (zh) 2020-11-24
AU2019234110B2 (en) 2022-02-03
JP2021517330A (ja) 2021-07-15
PE20201181A1 (es) 2020-11-03
EP3540636A1 (en) 2019-09-18
CA3098286C (en) 2024-02-13
JP2021522591A (ja) 2021-08-30

Similar Documents

Publication Publication Date Title
JP7304082B2 (ja) 三次元実物体を実物体の二次元のスプーフと区別するための方法
US11657525B2 (en) Extracting information from images
US11941918B2 (en) Extracting information from images
US7925093B2 (en) Image recognition apparatus
CN112232155B (zh) 非接触指纹识别的方法、装置、终端及存储介质
CN112016525A (zh) 非接触式指纹采集方法和装置
US11620854B2 (en) Evaluating the security of a facial recognition system using light projections
CN112232163A (zh) 指纹采集方法及装置、指纹比对方法及装置、设备
CN112232159B (zh) 指纹识别的方法、装置、终端及存储介质
CN116229528A (zh) 一种活体掌静脉检测方法、装置、设备及存储介质
CN112232157B (zh) 指纹区域检测方法、装置、设备、存储介质
JP7360217B2 (ja) ユーザのバイオメトリック特性を有する当該ユーザの物体の画像からデータを取得するための方法
US20220277579A1 (en) Clustered dynamic graph convolutional neural network (cnn) for biometric three-dimensional (3d) hand recognition
JP7270304B2 (ja) ユーザのバイオメトリック特性を有する画像中の物体を識別することにより当該ユーザのidを検証するための方法、及び当該方法を実施するためのモバイル装置
JP7445335B2 (ja) 照明源を含むデバイスを使用する生体性検出
CN212569821U (zh) 非接触式指纹采集装置
US20230075233A1 (en) Synthetic human fingerprints
Chan et al. Face liveness detection by brightness difference

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221201

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20221205

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221226

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20221227

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230120

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20230124

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20230207

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20230328

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230619

R150 Certificate of patent or registration of utility model

Ref document number: 7304082

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150