JP7270304B2 - ユーザのバイオメトリック特性を有する画像中の物体を識別することにより当該ユーザのidを検証するための方法、及び当該方法を実施するためのモバイル装置 - Google Patents

ユーザのバイオメトリック特性を有する画像中の物体を識別することにより当該ユーザのidを検証するための方法、及び当該方法を実施するためのモバイル装置 Download PDF

Info

Publication number
JP7270304B2
JP7270304B2 JP2021542315A JP2021542315A JP7270304B2 JP 7270304 B2 JP7270304 B2 JP 7270304B2 JP 2021542315 A JP2021542315 A JP 2021542315A JP 2021542315 A JP2021542315 A JP 2021542315A JP 7270304 B2 JP7270304 B2 JP 7270304B2
Authority
JP
Japan
Prior art keywords
user
biometric
image
matrix
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021542315A
Other languages
English (en)
Other versions
JP2022518036A (ja
Inventor
ハーディック グプタ
サテーシュ ムルガン
Original Assignee
アイデンティー インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイデンティー インコーポレイテッド filed Critical アイデンティー インコーポレイテッド
Publication of JP2022518036A publication Critical patent/JP2022518036A/ja
Application granted granted Critical
Publication of JP7270304B2 publication Critical patent/JP7270304B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/1347Preprocessing; Feature extraction
    • G06V40/1353Extracting features related to minutiae or pores
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は、請求項1記載のユーザを識別するバイオメトリック特性を有する画像中の物体を使用して当該ユーザを識別するための方法と、請求項15記載の当該方法を実施するために適したモバイル装置と、に関する。
画像認識は一般に広く用いられており、多岐にわたる用途で使用することができる。例えば、画像中の特定の人物及び顔又は物体の認識は、ソーシャルネットワークや他のメディアによって過剰に使用されている。さらに、より最近のスマートフォンでは、識別技術は例えば指紋センサによってユーザを識別するためにも用いられている。この技術はユーザの存在を特定するために使用されるだけでなく、指紋を高精度で識別することによりユーザを認証するためにも使用される。
従来の技術は、「ブルートフォース(総当たり、brute force)」を使用するか、又は物体を識別するために特化して訓練されたより新規のネットワークを使用するか否かにかかわらず、画像中の物体の識別を達成するためには相当量のコンピュータリソースを必要とする。
しかしより最近では、画像中の物体の格段に高速かつ高信頼性の識別を可能にする「YOLO(You Only Look Once)」技術が提供されている。この技術の基本的原理は、Redmon et al. による論文“You Only Look Once: Unified, Real-Time Object Detection”及びRedmon et al. による論文“YOLO9000: Better, Faster, Stronger”に説明がある。
「YOLO」技術の基本的コンセプトは、取得された画像を複数のグリッドに分離し、訓練されたニューラルネットワークを使用して、取得された当該画像をそれぞれ処理する複数の削減層と畳み込み層とを含むニューラルネットワークを用いて当該グリッドセルのうちいずれか1つ又は複数内の物体を識別することである。
ここで使用されるニューラルネットワークは、多数の物体の動画像(ビデオ映像)であっても適切な結果を得ることができ、なおかつリアルタイム検出を行うことができるが、ユーザの顔又は手のひらのような非常に特異な物体の他の識別に対しては未だ適していないことが分かっている。その結果、物体を識別するために要する時間が長くなる。
その上、ニューラルネットワークが比較的複雑であるため、物体のリアルタイム識別を可能にするためには相当量のコンピュータリソースが必要となり、このことも、スマートフォンやタブレットのような現在の水準のモバイル装置に対してYOLO技術の適用が適していない理由である。
上記点に鑑みて、本発明の課題は、ユーザを高速で識別すると同時に格段に高い検出精度を提供し、なおかつ、識別に使用されるモバイル装置とのユーザのインタラクションを簡素化できる方法及びシステムを提供することである。さらに、識別のために必要なコンピュータリソースを、現在の世代のモバイル装置に当該識別を実装できる程度に削減できると有利である。
上記課題の解決手段は、請求項1記載のモバイル計算機上に実装される方法と、請求項15記載のモバイル計算機である。本発明の好適な実施形態は従属請求項に記載されている。
ユーザの手のひら、ユーザの顔、ユーザの眼、ユーザの足の裏のうちいずれか1つである当該ユーザのバイオメトリック特性を有する当該ユーザの物体の画像を用いて当該ユーザを識別するための本発明の方法は、
モバイル装置の光学センサによって物体の画像を取得するステップと、
画像をニューラルネットワークへ供給するステップと、
画像をニューラルネットワークによって処理することにより、画像中の物体の位置及び物体の両方を識別するステップと、
識別された物体からバイオメトリック特性を抽出するステップと、
バイオメトリック特性を記憶装置に記憶し、及び/又は、少なくともバイオメトリック特性を入力として識別手段へ供給するステップと、
を有し、
識別手段は、バイオメトリック特性がユーザを識別するか否かを判定するために入力を処理することを含む。
ここで記憶装置は、モバイル装置自体に関連付けられた任意の装置、又は、モバイル装置の外部に設けられた遠隔の記憶装置とすることができる。例えば記憶装置は、モバイルインターネット手段又は他の伝送手段等のデータ伝送手段を介してのバイオメトリック特性の転送先である会社のサーバに関連付けられた記憶部とすることができる。
バイオメトリック特性を識別手段へ供給するステップもまた、バイオメトリック特性をモバイル装置内部で例えば特定のアプリケーションへ転送すること、又は、適切な伝送手段を介してバイオメトリック特性を、例えば銀行若しくはソーシャルネットワーク等のログインサーバのような遠隔の識別手段へ転送すること、のいずれかを含むことができる。
「ユーザ」は、必ずしもモバイル装置の実際の操作者であるとは限らない。ユーザすなわち識別対象者は、他の者であってもよい。例えば、足の裏は識別対象の乳児の足の裏とすることができる。そうすると、識別対象の「ユーザ」はこの乳児になる。モバイル装置の操作者は例えば、乳児の親又は看護師等の他の者とすることができる。
画像を取得するステップは好適には、自由に撮影された画像を介して、又は、手若しくは顔若しくは眼の画像の自由な撮影を許容するアプリケーションを介して行われる。具体的には、手又は顔又は眼の画像の自由な撮影を許容するアプリケーションとは、識別のための画像を撮影するためにユーザが自己の手又は顔又は眼を配置すべき態様を当該ユーザに示唆するマスクを提供しないものである、ということである。
当該方法により、識別のためにどのように振る舞うべきか、又はどのようにモバイル装置とインタラクションすべきかについて如何なる制約も受けずに、ユーザを簡単かつ高信頼性で識別することができる。
一実施形態では、物体はユーザの手のひらであり、バイオメトリック特性は手のひらの少なくとも1つのしわであり、識別手段によって入力を処理するステップは、手のひらのしわから例えば当該しわの長さや方向等のバイオメトリック特徴を抽出するステップと、抽出されたバイオメトリック特徴と記憶装置に記憶されたバイオメトリック特徴とを比較するステップと、を含み、抽出されたバイオメトリック特徴と記憶されたバイオメトリック特徴との差が閾値を下回る場合、識別手段は当該しわによってユーザが識別されると判定し、バイオメトリック特徴と記憶されたバイオメトリック特徴との差が閾値を上回る場合、識別手段は当該しわによってユーザが識別されないと判定し、又は、
物体はユーザの顔であり、バイオメトリック特性はユーザの顔の中の眼、口、鼻のうち少なくとも1つであり、識別手段によって入力を処理するステップは、バイオメトリック特性から例えば顔の中での口の位置等のバイオメトリック特徴を抽出するステップと、抽出されたバイオメトリック特徴と記憶装置に記憶されたバイオメトリック特徴とを比較するステップと、を含み、抽出されたバイオメトリック特徴と記憶されたバイオメトリック特徴との差が閾値を下回る場合、識別手段は当該バイオメトリック特性によってユーザが識別されると判定し、バイオメトリック特徴と記憶されたバイオメトリック特徴との差が閾値を上回る場合、識別手段は当該バイオメトリック特性によってユーザが識別されないと判定し、又は、
物体はユーザの眼であり、バイオメトリック特性はユーザの眼の虹彩であり、識別手段によって入力を処理するステップは、虹彩から例えば当該虹彩の色素パターン等のバイオメトリック特徴を抽出するステップと、抽出されたバイオメトリック特徴と記憶装置に記憶されたバイオメトリック特徴とを比較するステップと、を含み、抽出されたバイオメトリック特徴と記憶されたバイオメトリック特徴との差が閾値を下回る場合、識別手段は当該虹彩によってユーザが識別されると判定し、バイオメトリック特徴と記憶されたバイオメトリック特徴との差が閾値を上回る場合、識別手段は当該虹彩によってユーザが識別されないと判定し、又は、
物体はユーザの足の裏であり、バイオメトリック特性は当該足の裏の少なくとも1つの足形であり、識別手段によって入力を処理するステップは、足形から例えば当該足形の線の長さや方向等のバイオメトリック特徴を抽出するステップと、抽出されたバイオメトリック特徴と記憶装置に記憶されたバイオメトリック特徴とを比較するステップと、を含み、抽出されたバイオメトリック特徴と記憶されたバイオメトリック特徴との差が閾値を下回る場合、識別手段は当該足形によってユーザが識別されると判定し、バイオメトリック特徴と記憶されたバイオメトリック特徴との差が閾値を上回る場合、識別手段は当該足形によってユーザが識別されないと判定する。
このようにバイオメトリック特徴は、ユーザのバイオメトリック識別を行うことができる当該ユーザの手のひら、顔、眼又は足の裏の全ての特徴、又は、ユーザの識別をそのバイオメトリック特性や潜在的な他の特性によって少なくとも支援できる当該ユーザの手のひら、顔、眼又は足の裏の任意の特徴とすることができる。
上記閾値は、画像を用いて取り出され又は取得されたバイオメトリック特徴が、記憶されたバイオメトリック特徴と一致しているか否か、及びどの程度一致しているかを示す数値とすることができる。例えば、閾値は0≦x≦1の実数xとすることができる。ここで大きいxは、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との差が有意であると認められるが、ユーザの識別は行うことができることを意味している。xが小さいほど、識別結果を得るため、取得されたバイオメトリック特徴は記憶されたバイオメトリック特徴と良好に一致する必要がある。
閾値を必要に応じた値に設定することにより、識別のセキュリティを向上させることができる。
上記実施形態にて列挙した第1又は第3又は第4の態様のより具体的な実装では、画像は1つより多くの物体を含み、本方法はさらに、識別手段によって画像中の各バイオメトリック特性の位置を識別し、ユーザの識別のために各バイオメトリック特性のバイオメトリック特徴を使用するステップを含む。
例えば識別のために手のひらの全てのしわを使用することにより、ユーザを識別するための方法は失敗しにくくなる。というのも、手のひらの複数のしわを偽装するためには相当量のリソースを要することとなり、その可能性は低くなるからである。
本実施形態の一態様では、識別手段は、画像中の全ての物体のバイオメトリック特徴の組み合わされた識別精度が所与の閾値を上回ると判定することによって、物体のバイオメトリック特徴によりユーザが識別されると判定し、又は、識別手段は、物体ごとに当該物体のバイオメトリック特性のバイオメトリック特徴と当該物体のバイオメトリック特性の記憶されたバイオメトリック特徴との差が閾値を下回るか否かを判定し、判定された全ての差が対応する閾値を下回る場合にのみ当該物体のバイオメトリック特性によってユーザが識別されると判定することにより、物体のバイオメトリック特徴によりユーザが識別されると判定する。
上述の組み合わされた識別精度は、別々に取り出された各バイオメトリック特徴の識別精度の組み合わせと解すべきものである。これは例えば、ユーザの手のひらの各しわ又は各虹彩又は足の裏の足形のバイオメトリック特徴は、他のものとは別々に評価される、ということである。上記の実施形態では、差が所与の閾値を下回る場合、バイオメトリック特徴は記憶されたバイオメトリック特徴と一致するとみなされる。取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との一致の相対的な値が、識別精度となることができる。例えば、1本の指先の取得されたバイオメトリック特性と記憶されたバイオメトリック特性とが99.9%マッチングする場合、識別精度の値を0.999とすることができる。その際には、全ての識別精度の総和をとることができ、この総和が、例えば取得された1つのバイオメトリック特徴が記憶されたバイオメトリック特徴と一致するとみなされるか否かを示す閾値に依存し得る閾値を上回る場合、ユーザは、取得されたバイオメトリック特徴によって識別されたとみなされる。
一実施形態では、画像はモバイル装置の光学センサとしてのカメラによって取得される。ほぼ全ての現在入手可能なスマートフォンが少なくとも1つのカメラを備えているので、上記実施形態により、本発明の方法は例えばスマートフォン等の現在の世代のモバイル装置に適用可能となる。
一実施形態では、画像を入力としてニューラルネットワークにより処理するステップは、当該ニューラルネットワークの第1層によって入力を処理することにより第1の中間出力を生成するステップと、各層における入力の処理順に深度畳み込み層(depthwise convolutional layer)と、第1のバッチ正規化部と、第1の整流線形ユニット(正規化線形ユニット、rectified linear unit)と、点畳み込み層(pointwise convolutional layer)と、第2のバッチ正規化部と、第2の整流線形ユニットとをそれぞれ有する深度で分離可能な畳み込みである複数の層をニューラルネットワークが有し、各先行層の出力を各後続層によって処理し、前記複数の層を用いて入力を処理することにより、ニューラルネットワークは出力として物体の識別結果と画像中における物体の位置とを得るステップと、を含む。
深度畳み込み層は意図されているところによれば、例えば3×3のサイズのマトリクスであるカーネルを含む、元の画像に相当する特徴マップ(マトリクス)の乗算又は内積を使用して、別のマトリクスを算出する。かかる層を用いることは、識別効率の面でより効率的である。その理由は特に、マックスプーリング層によって情報損失が生じ、この情報損失により、必要な繰り返しが多くなってしまうからである。この点において、上記実施形態にて提案する深度畳み込み層は、そのパラメータ感度に関して一般に使用されている畳み込み層より高効率となる。
深度畳み込み層及び点畳み込み層は、「深度畳み込みサブレイヤ」及び「点畳み込みサブレイヤ」とも称され得る。実際、これらはニューラルネットワークの「層の中の層」であるから、サブレイヤとなる。
この特殊な実施態様の深度畳み込み層を、上記実施形態における点畳み込み層、バッチ正規化部及び整流線形ユニットと共に適用することにより、ニューラルネットワークが画像中の手のひらのしわ又は虹彩等のバイオメトリック特性を有する物体のリアルタイム識別を行うために必要とされるコンピュータリソースは、現在公知のニューラル技術と比較して有意に削減される。というのも公知のYOLO技術は、使用されるニューラルネットワーク内の層群のうち一層としてマックスプーリング層を利用するからである。
一実施形態では、出力を生成するステップは処理中に画像を、Q×R個のグリッドセルを有するグリッドに分離するステップを含み、当該ステップでは各グリッドセルにおいて少なくとも1つの境界ボックスが作成され、境界ボックスはグリッドセルにおける予め定められた位置と、予め定められた幾何学的特性と、を有し、出力を生成するステップはさらに、境界ボックスの位置及び幾何学的特性を修正することにより、物体の位置に最もマッチングする修正後位置と修正後幾何学的特性とを有する修正後境界ボックスを得るステップを含む。
取得された画像を、事前定義された境界ボックスを有するグリッドセルに分離することにより、最終結果における境界ボックスを用いて物体の位置及び物体自体をマーキングすることによって、識別された物体を的確に表示してそのフィードバックを提供することが可能になる。
本実施形態のより特殊な一実施態様では、境界ボックスの位置は二次元におけるグリッドセルの中心を基準として計算され、境界ボックスの幾何学的特性は境界ボックスの高さ及び幅を含み、さらに、物体が境界ボックス内に含まれる確率が、各境界ボックスに関連付けられる。
境界ボックスを対応する確率に関連付けることにより、境界ボックスを表すマトリクス又はベクトルを提供することが可能になり、また、これをマトリクス又はベクトルの形態で表される他の物体と合成しなければならない場合に、グラフィック処理ユニットによって高精度の効率で処理することができる。これにより、必要なコンピュータリソースが一層削減される。
より具体的には、出力は次元Q×R×B×AのテンソルTとすることができる。ここでAは、各グリッドセル内の相違する境界ボックスの数であり、Bは、次元5を有する各境界ボックスに関連付けられたベクトルであり、Bは以下のように表される。
Figure 0007270304000001
これにより得られたテンソルは、グラフィック処理ユニットによって高効率で処理することができる。さらに、かかるテンソルの形態で識別結果を供給することにより、特定の物体を識別する確率が最も高い結果を容易に導き出すことができる。
さらに、出力を出力するステップは、画像と、各グリッドセルの中の境界ボックスのうち最も高い確率を有する修正後境界ボックスと、を表示するステップを含むことができる。
最も高い確率を有するグリッドセルのみを供給することにより、それぞれ識別された物体を含む境界ボックスを通じて、ユーザに位置及び物体の識別結果が提供され、かかる境界ボックスは、認識しやすいフィードバックを提供する。さらに、修正後境界ボックスは、上記実施形態において出力として供給される結果テンソルの中で1つのベクトルのみを表すので、ユーザ又は他のプログラムによって容易に抽出することができ、修正後境界ボックスの各座標のみをとることによって更に処理を行うために使用することができる。
画像中における手のひら又は眼又は足の裏の位置を識別する上述の手法は、他の手法より使用リソース量が少なくなるため好適となり得るが、他の手法も用いることができる。例えば、手のひらが存在する可能性がある領域について最初に提案をすることができる。その後、かかる提案をさらに処理することにより、提案の領域内に手のひら等の物体が本当に存在するか否かを見出すことができる。
他の一実施形態では、画像をニューラルネットワークによって処理するステップは、画像中の各画素の色値を表す少なくとも1つのマトリクスIを当該画像から作成して、当該マトリクスを入力としてニューラルネットワークへ供給するステップを含み、ここで画像はN×M個の画素を有し、マトリクスIはN×M個の値を有するマトリクスであり、マトリクスIの成分はIijによって与えられ、ここでi及びjは整数であり、i=1・・・N、j=1・・・Mである。
画像を色値ごとにマトリクスに分離することにより、各色値を別個に処理することができ、これによって識別効率を向上し、なおかつ所要コンピュータリソースを削減できるという利点が奏される。
より具体的には、各深度畳み込み層はマトリクスIに、サイズS×Tのマトリクスである予め定義されたカーネルKを適用し、ここでS,T<N;S,T<Mであり、成分Sabを含み、マトリクスにカーネルを適用することは、マトリクスKと、マトリクスZのサイズ(N×M)S,Tの各削減マトリクスRと、の内積を算出することを含み、ここで、マトリクスRはカーネルKと等しいサイズを有し、マトリクスZはサイズ((N+2P)×(M+2P))を有し、
Figure 0007270304000002

であるマトリクスZcdの成分は、
Figure 0007270304000003

によって与えられ、出力として、
Figure 0007270304000004

のサイズを有するマトリクスPを提供し、 ここで、W及びWはストライド幅を定義し、 マトリクスPの各成分Pijはij番目の削減マトリクスRとカーネルKとの内積の値であり、マトリクスPは深度畳み込み層から出力として第1のバッチ正規化部へ供給される。
かかるカーネルにより、特徴マップにおいて隣り合う画素から得られた情報を適切に重み付けすることができると共に如何なる情報も失われることがなくなり、このことによって、ニューラルネットワークにおいて複数の連続する層が物体の識別をサポートできる効率を向上することができる。こうするためにカーネルは、画像を受け取る前すなわちニューラルネットワークの訓練中に得られた特定の重み又はパラメータに相当する成分を含む。
本発明の一認識は、上記実施形態の各方法を実施できるアプリケーション又は他のプログラムが実際にモバイル装置に装備される前に上記の訓練が行われる場合、このモバイル装置上で必要とされるコンピュータリソースを削減できるという利点が得られることである。
深度畳み込み層と点畳み込み層とを用いて分離可能な畳み込みを実装することは、この組み合わせが識別及び所要コンピュータリソースの観点で性能改善を示すという理由により最も有利であるというのが本発明の認識であるが、深度畳み込み層を手のひら又は眼又は顔又は足の裏の識別に特化した畳み込み層に置き換えることも可能である。よって、本発明の説明は深度畳み込み層の使用に着目してなされているが、畳み込み層を用いて本発明を実装することも可能である。
他の一実施形態では、バッチ正規化部はマトリクスPからV=(Σijij)/(n・m)を計算することによって平均値Vを算出し、成分P’ij=Pij-Vを有するバッチ正規化された削減マトリクスP’を作成する。
このような正規化を施すことにより、各層による画像の処理全体を通じてオーバーエクスポジション等の意図しない作用をフィルタリング除去することができ、これにより画像中の物体を識別する効率を向上することができる。
さらに、全ての畳み込み層においてカーネルのサイズS及びTを等しくすることができ、又は、少なくとも1つの畳み込み層についてカーネルのサイズS及びTが異なることができる。
各畳み込み層(すなわち複数の各深度畳み込み層)について同一のカーネルを選択することにより、これにより得られる、対応するモバイル装置にインストールされるプログラムのサイズを削減することができる。一方、畳み込み層のうち少なくとも1つについて異なるカーネルを使用すると、カーネルが適切に構成されていれば、識別失敗に関する公知の問題を回避することができる。例えば、識別プロシージャの開始の際に大きなカーネル(サイズS及びTが大きいことに相当する)を用いると、画像のより重要な部分を取り出して照準を当てることができ、これにより識別効率を向上することができる。
特殊な一実施形態では、サイズS,T=3であり、全ての深度畳み込み層においてサイズS,Tは等しく、成分のうち少なくとも1つはSa’b’≠Sa≠a’,b≠b’である。
また、本発明の一認識は、対応するカーネルは当該カーネルのサイズと、識別効率と、各方法を実装するために必要なコンピュータリソースと、の間で最良のトレードオフとなり、これによって識別精度及び所要コンピュータリソースに対して全体的な効率を向上することができる。
他の一実施形態では、バッチ正規化部は正規化された削減マトリクスP’を整流線形ユニットへ供給し、整流線形ユニットは各成分P’ijに、
Figure 0007270304000005

を有する
Figure 0007270304000006

を計算する整流関数(正規化線形関数、rectification function)を適用する。この
Figure 0007270304000007

は、整流線形ユニットが第1の整流線形ユニットである場合には点畳み込み層へ出力として供給され、又は、整流線形ユニットが第2の整流線形ユニットである場合にはニューラルネットワークの次の層へ供給される。
この整流関数によって、ニューラルネットワークの各層の後に、識別精度に悪影響を与える可能性のある画像中の部分をフィルタリング除去することができる。これにより、誤識別の数を削減することができ、また、これに応じて適切な識別精度を達成するために必要な反復回数も削減することができ、これによりコンピュータリソースを節約することができる。
また、点畳み込み層が、先行層から受け取った
Figure 0007270304000008

の各成分に重みαを乗算することにより、
Figure 0007270304000009

に重みαを付与するよう構成することもできる。
特徴マップ内の各点に同一の重みαを付与した場合でも、本実施形態は画像中の一部(識別に有意な影響を及ぼさないマトリクス中の成分に相当する一部)を効率的に減衰することができる。この減衰は、マトリクス中のかかる一部の絶対的な寄与度を低減し、整流線形ユニットと共に次のサイクルで当該一部を除外することにより達成される。
好適な一実施形態では、上記で説明した方法の各ステップはモバイル装置上で実施される。
これは少なくとも、画像の処理とユーザの識別とを含む上記の方法のステップを含むことができる。ここでも、画像又はバイオメトリック特徴又はバイオメトリック特性の記憶はモバイル装置の内部又は外部の任意の記憶装置によって行うことができる。さらに、ユーザを識別する識別ステップを、例えば会社のサーバ等のモバイル装置とは別の装置上で行うことも可能である。
各ステップを専らモバイル装置上でのみ行うことにより、例えば、実際の識別プロセスを実行するサーバ等へのデータ伝送のためにチャネルを空けておく必要が無くなる。よって物体識別は、モバイルネットワーク又はローカルエリアネットワークへアクセスできない領域でも用いることができる。
本発明のモバイル装置は、光学センサと、プロセッサと、実行可能な指令を記憶する記憶ユニットと、を備えており、当該指令は、モバイル装置のプロセッサによって実行されたときにプロセッサに上記のいずれかの実施形態の方法を実行させるものである。
本発明のユーザを識別するための方法の全体的な概観図である。 画像から抽出されたバイオメトリック特徴を用いて識別を実施する詳細な流れ図である。 一実施形態の画像中の物体を識別する全体的な処理フローを示す略図である。 一実施形態のニューラルネットワーク内の一層の構造と、当該一層におけるデータの処理とを概略的に示す図である。 境界ボックスを用いた手の画像の処理の略図である。 ニューラルネットワークを訓練するプロセスを示す略図である。 一実施形態の画像を取得して当該画像中の物体を識別するためのモバイル装置を示す図である。
図1は、ユーザの物体の画像を用いて当該ユーザを識別するための本発明の方法の全体的な概観図である。本方法はステップ11において開始し、ステップ11ではかかる物体の画像を取得する。ユーザのこの物体は、ユーザの識別を可能にするバイオメトリック特性を有することとなる。具体的には物体は、ユーザの少なくとも1つの手の手のひら、ユーザの少なくとも1つの眼、ユーザの顔、ユーザの少なくとも1つの足の裏のうちいずれか1つとすることができる。よって、この画像から取得されるバイオメトリック特性は例えば、ユーザの手のひらの1つ若しくは複数のしわ、ユーザの眼の虹彩、ユーザの口、鼻若しくは眼(の位置)又はこれらの組み合わせ、ユーザの足の裏の1つ若しくは複数の足形とすることもできる。
本発明は、物体が1本若しくは複数本の指又は1つ若しくは複数の指先である実施形態を含まないので、バイオメトリック特性が(1つ若しくは複数の)各指先又は(1つ若しくは複数の)各指の指紋である実施形態も含まない。
画像は、例えばカメラ等の光学センサによって取得することができる。より好適には、当該光学センサは、一般的に入手可能なスマートフォン等のモバイル装置の光学センサである。カメラは、1メガピクセル以上の高精細画像を取得できるカメラとすることができる。
その後、取得された画像はステップ12における処理のためにニューラルネットワークへ供給される。このニューラルネットワークについては、下記にて詳細に説明する。画像をニューラルネットワークへ供給するステップは、モバイル装置内部で、ニューラルネットワークを実現する該当のアプリケーションへ画像を転送又は伝送すること、又は、遠隔の場所へ画像を供給すること、のいずれかを含むことができる。これは、サーバ又は他の計算主体とすることができる。しかし、モバイル装置に内蔵されたニューラルネットワークへ画像を供給するのが好適である。
その後ステップ13において、画像はニューラルネットワークによって処理される。これについては、下記にて図3~6を参照して詳細に説明する。いかなる場合であっても、ニューラルネットワークによる画像の処理によって、画像内におけるバイオメトリック特性を有する物体の位置と、物体自体と、の両方が識別される。具体的には、例えば物体が手のひらである場合、ニューラルネットワークは画像中の手のひらを識別し(すなわち、ニューラルネットワークは画像中に手のひらが存在することを判定する)、画像内における当該手のひらの位置を識別する。画像内における手のひらの位置を識別するステップは、例えば、手のひらに属する全ての画素、又は、画像全体と完全同一ではない当該画像中の部分セクション、例えば画像の領域全体の1/10に相当するセクションを少なくとも識別することを含むことができる。
次のステップ14において、識別された物体からバイオメトリック特性を抽出する。かかる抽出は例えば、識別された手のひらのうち実際に掌紋又は手のひらの少なくとも1つのしわを構成する部分のみを抽出することを含むことができる。本発明に含まれる他の物体については、相応のバイオメトリック特性が抽出されることとなる。
その後、バイオメトリック特性をさらに処理することができる。これは、ステップ15及び16によって示されている。
ステップ15において、バイオメトリック特性は単に記憶される。バイオメトリック特性を記憶するステップは、バイオメトリック特性を好適には不揮発性の記憶装置に記憶することを含むことができる。この記憶装置は、モバイル装置自体に内蔵されたソリッドステート記憶装置又は遠隔の記憶場所等の記憶装置とすることができる。遠隔の記憶場所は、会社のサーバ又は他の任意の遠隔記憶場所とすることができる。この場合には、バイオメトリック特性はデータパケットの形態(例えば画像又はPDF又は数値等の形態)で、例えばLAN接続若しくはWLAN接続等のデータ伝送手段又はモバイルインターネットを介して転送される。
バイオメトリック特性を任意の態様で記憶することの他に付加的に、又はステップ15によりバイオメトリック特性を記憶することに代えて代替的に、バイオメトリック特性はステップ16に従って識別手段へ入力として転送することもできる。この識別手段は、バイオメトリック特性を有するユーザの物体の画像を撮影するために用いられたモバイル装置に内蔵されているアプリケーションとすることができ、又は、例えばユーザを識別するためにバイオメトリック特性を使用して例えばソーシャルネットワーク若しくは銀行口座等へのログイン等の他のステップを実行するログインサーバ又は他の主体等の、遠隔の識別手段とすることもできる。
図2は、バイオメトリック特性が手のひらのしわである場合にバイオメトリック特性を使用してどのようにユーザを識別できるかを詳細に説明する図であり、この場合、物体はユーザの少なくとも1つの手のひらである。
図2の方法はステップ21で開始し、当該ステップでは、手のひらからバイオメトリック特徴を抽出する。よって、これらのステップは少なくとも、図1にて説明したステップ14において、識別された物体からバイオメトリック特性を抽出するステップの後に行われる。
手のひらからバイオメトリック特徴を抽出するステップは、例えば少なくとも手のひらの1つのしわ又は手のひらのしわの一部又は複数のしわの位置及び/又は長さ及び/又は方向及び/又は曲率を抽出することを含むことができる。また、掌紋の非常に具体的な種類のみを抽出することも可能である(例えば、手のひらの互いに交差するしわ等)。なお、物体が上記の他のものである場合、相応のバイオメトリック特徴を抽出することができる。
例えば、物体がユーザの少なくとも1つの眼である場合、バイオメトリック特徴として虹彩のパターンを抽出することができる。このパターンは、虹彩における幾何学的パターンを含むだけでなく、虹彩の色特性又はこれに類するものを含むこともできる。
物体がユーザの顔である場合、抽出されるバイオメトリック特徴は、顔の特定の各部分の位置又は各部分の相互間の相対距離に関するものとすることができる。例えば、顔における口、鼻又は眼の位置を抽出することができる。また、口、鼻及び/又は眼の間の距離をバイオメトリック特徴として抽出することもできる。
物体がユーザの足の裏である場合、バイオメトリック特性は足の裏の足形とすることができる。バイオメトリック特徴の抽出は、足形の1本又は複数本の線の位置、長さ、方向、曲率のうち1つ又は複数の抽出を含むことができる。
この情報を使用してユーザを識別するためには、もちろん、対応するバイオメトリック特徴の形態で参照が存在することが必要である。そのため、上記にて図1を参照して説明した識別手段が、特定のユーザに係るバイオメトリック特徴を記憶した記憶装置に関連付けられ、又は、かかる記憶装置を備えている場合があり得る。例えば、1つ又は複数のバイオメトリック特徴を例えば画像、数値、又は他のデータ構造の形態で記憶したファイルが、ユーザごとに存在することが可能である。これは、ユーザの少なくとも1つ若しくは両方の手の手のひらのしわを記憶すること、及び/又は、虹彩の少なくとも1つのパターンを記憶すること、及び/又は、上記のような顔の少なくとも1つの一部分の位置若しくは上記のような顔の少なくとも2つの一部分間の距離を記憶すること、及び/又は、ユーザの少なくとも1つの足の裏の少なくとも1つの足形を記憶すること、を含むことができる。
次のステップ22において、手のひらから得られたバイオメトリック特徴(又は上記の各種物体の他の各種バイオメトリック特徴)を、対応して記憶されたバイオメトリック特徴と比較する。このステップは、記憶されたバイオメトリック特徴が手のひらのしわの複数の場所によって表されている場合、抽出されたバイオメトリック特徴における対応する場所を比較することを含むことができる。もちろん、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴とを比較するための他の手段も公知であり、また使用可能であり、例えば画像認識技術又は周波数変換等を用いることができる。取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴とを比較するステップは本発明では、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との一致度を計算できるように行われる。換言すると、この比較によって、記憶されたバイオメトリック特徴と取得されたバイオメトリック特徴との差が算出される。この差は1つの実数又はテンソル又はベクトル又は他の任意の数学的構造とすることができる。また、記憶されたバイオメトリック特徴画像から、取得されたバイオメトリック特徴画像を画素ごとに減じることにより得られる差分画像とすることもできる。
取得されたバイオメトリック特徴が記憶されたバイオメトリック特徴と一致するか否かを判定するために使用できる閾値、すなわちユーザを識別できる閾値を設けることができる。
これに応じてステップ23では、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との差が上記の閾値を上回るか又は下回るかを判定する。当該閾値を下回る場合、ステップ25において、ユーザがバイオメトリック特徴によって識別されると判定する。差が閾値を上回る場合には、上記判定結果ではなく、ステップ24においてユーザがバイオメトリック特徴によって識別されないと判定する。
これによって識別手段は、取得された手のひらのしわによってユーザが識別されたこと、又は、取得された手のひらのしわによってユーザが識別されなかったことのいずれかを判定することとなる。バイオメトリック特性が上記の他のもののうちいずれかである場合にも、相応の判定を同様に行うことができる。
図1及び図2では、ユーザを識別するために使用される手のひらが1つのみである場合であって当該手のひらが画像中に存在する場合に、撮影当初の画像から取得されたバイオメトリック特性を用いてユーザを識別する態様を説明した。
しかしながら、識別手段は1つの手のひらのみ(又は片方の眼又は片方の足の裏のみ)を評価するだけでなく、ユーザを識別するために画像上に存在する両手の手のひら又は両眼又は両足(両足の各裏)より多くを評価することも可能である。1つの手のひら又は複数の手のひらのしわから取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴とを識別手段によって照合する態様は、図2を参照して説明した態様に相当する。
しかし手のひらの複数のしわ(又は虹彩又は足の裏の複数の足形)を評価する場合には、複数のバイオメトリック特徴の組み合わされた識別精度が所与の閾値を上回る場合にのみユーザが識別されたとするか、又は、取得された各手のひら又は各眼又は各足の裏ごとに、図2のステップ22及び23にて説明した取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との比較を行うことによってステップ25の結果が得られた場合にのみユーザが識別されたとすることができる。
図2を参照して説明した方法は画像中の手のひらのしわごと又は虹彩ごとに行われ、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との差が各取得された手のひらのしわごと又は虹彩ごとに所与の閾値を下回る場合にのみユーザが識別されるので、後者の場合が明確である。他の全ての場合では、ユーザは識別されないとすることができる。
しかし、画像中の全ての手のひらのしわ又は全ての眼の虹彩又は全ての足の裏の組み合わされた識別精度が所与の閾値を上回る場合にユーザが識別されたとする場合には、各手のひらごと又は各眼ごとに、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との比較の結果として、図2のステップ23の差が閾値を下回ることを要しない。
例えば、あるバイオメトリック特徴の識別精度が0(非識別)~1(取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴とが完全一致)の範囲の数値とすると、組み合わされた識別精度が、バイオメトリック特徴ごとに単独で得られる別々の識別精度の総和によって求められる場合、組み合わされた識別精度の値は2未満とすることができる(2は、2つの手のひら又は2つの眼又は2つの足それぞれについての識別精度が満点であることに相当する)。
例えば、組み合わされた識別精度に対応する閾値は1.75とすることができる。この場合、ユーザを識別するためには、例えば各手のひら又は各眼(それぞれ手のひらの全てのしわ又は全ての虹彩)の識別精度が約0.9であれば足りることとなる。というのも、これらの識別精度の総和(すなわち組み合わされた識別精度)は1.8となり、総和の閾値を上回るからである。他の一例として、両方の手のひらのうち一方が0.95の識別精度で識別される場合を考えると、他方の手のひらは0.8の精度で識別されるだけで足りることとなる。物体が眼である場合にも、相応の値が引き続き用いられる。
また、識別精度を各識別されたバイオメトリック特徴に係るものとすることもできる。具体的には、例えば手のひらの各しわごと(又は足の裏の各足形ごと)に上述のような識別精度を設けることができる。1つの手あたり最大で10個のしわを、それぞれ0~1の範囲の値で上述のように識別できるとすると、両手のひらの最大達成可能な識別精度は合計で20となる。かかる場合、組み合わされた識別精度が18.5である場合には、上記識別精度で足りるということになる。このような組み合わされた識別精度は、ユーザの顔から抽出されたバイオメトリック特徴についても用いることができる。例えば、ユーザの顔の画像における口及び鼻及び少なくとも1つの眼の位置と、口から鼻までの距離と、を、ユーザの識別に用いることができる。かかる場合、これらの各バイオメトリック特徴(位置及び距離それぞれ)を、0~1の範囲の識別精度に関連付けることができる。この場合、組み合わされた識別精度が達成できる値は最大4となる。各バイオメトリック特徴の識別精度については、相応の手順で3.8の識別精度で足りることとなる。
なお、識別精度は、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との相対的な類似度又は一致度と考えることができる。よって、取得されたバイオメトリック特徴が記憶されたバイオメトリック特徴と90%一致する場合、識別精度(すなわち、当該バイオメトリック特徴によってどの程度正確にユーザを識別できるか)は0.9となる。
識別精度の他の値を使用すること、又は閾値の他の値を使用することも可能であることは明らかである。さらに、組み合わされた識別精度を求める手段は他にも存在する。例えば、複数の識別精度の平均値を求めることにより、又は、複数の識別精度の積を求めることにより、組み合わされた識別精度を算出することができる。
後続の複数の図では、取得当初の画像をステップ12~14に従って処理して最終的にバイオメトリック特性を抽出する処理を詳細に説明すると共に、指先を高精度で識別できるようにするためニューラルネットワークをどのように訓練できるかについての説明を行う。
図3は、一実施形態の図1のステップ12~14の一実施態様を示す流れ略図である。ここで説明する方法は、取得された画像中のユーザのバイオメトリック特性を保持する物体を識別できるようにするためのものである。本発明では、この画像は最初のステップ101において(図1のステップ11に相当)、好適にはモバイル計算機の光学センサによって取得される。このモバイル計算機は、スマートフォン又はタブレットコンピュータ又は他の相応の装置とすることができる。したがって、光学センサは通常はカメラとなるが、赤外線カメラ又は他の光学センサとすることも可能である。このカメラは、1メガピクセル(MP)の解像度を有するカメラ、若しくはHDカメラとすることができ、又は、より低解像度のカメラとすることもできる。解像度は任意のものとすることができ、例えば通常用いられるカメラ等の光学センサによって通常適用される任意の解像度をカバーすることができる。しかし一部の実施形態例では、取得された画像の解像度は、1画素あたり3色値で少なくとも104×104であり、又は1画素あたり3色値で224×224とすることができる。
取得された画像は物体を含むことができ、この物体は本発明では、当該物体自体(例えば手のひら、眼又は顔又は足の裏等)について識別されるだけでなく画像中における自己の位置について識別されるものである。ここでは、物体はユーザの適切な識別を可能にするユーザのバイオメトリック特性を保持又は保有していることを想定している。具体的には、物体は、しわ又は他の上記の適切なバイオメトリック特性を有する手のひら(又は上掲の他のいずれかの物体)等の物体でなければならない。ユーザを個人識別するために掌紋又は例えば虹彩のパターン等を使用できること、すなわち、非常に特殊な一部の事例を除いて掌紋は各人ごとに一意であるから、取得された掌紋に基づいて二者を区別できることが知られている。
なお、上記ではユーザの片手の手のひらや両手の手のひらにそれぞれについてのみ説明したが、これを他の任意の適切な物体又はバイオメトリック特性又はバイオメトリック特徴に既に上記で述べたように置き換えることができる。具体的には、ユーザの少なくとも片眼若しくは両眼及び/又はユーザの顔及び/又はユーザの少なくとも片足の裏を各物体として用いると共に、当該物体について上記にて説明した相応のバイオメトリック特徴及びバイオメトリック特性を用いて本発明を実施することができる。
図1以降の図は「画像」について記載しているが、本発明はリアルタイムの物体識別を可能とするものであるから、必要とされる処理時間は数msの範囲内となり、これにより、例えば光学センサによって取得されたビデオ映像又はライブストリーム等の複数の連続画像中の物体を適切に識別することもできる。よって、「画像」との用語は単一画像を指すだけでなく、ビデオストリーム等の非常に短時間で連続して取得される複数の画像も指すと解すべきである。
実際には、スマートフォンにおいて慣用されているように、カメラを起動すると、写真を撮影することなくカメラの現在のビューがスマートフォンのユーザに供給される。よって、この「仮のビュー」は、カメラによって撮影された通常は比較的低解像度の複数の画像から構成される。かかる複数の画像に対しても、本願に記載の発明の方法を使用することができる。
本方法の第2のステップ102では、取得された画像(又は連続して取得された複数の画像)が図1のステップ12に従ってニューラルネットワークへ供給される。このニューラルネットワークはモバイル装置に搭載されるのが好適であるが、必須ではない。
ニューラルネットワークは、モバイル装置上で実行されるアプリケーション(アプリ)又は他の任意のプログラムで実装することができる。本発明の好適な一実施形態では、ニューラルネットワークによって実行される後続の処理及び本発明の方法で実施される他のあらゆるステップは、モバイル装置外部のいかなる計算主体にもアクセスする必要なく実施されるので、モバイル装置の「オフライン」モードで本方法を実施することもできる。
ステップ102は、画像を特段処理することなく、又は画像のいかなる他の前処理も行うことなく、ニューラルネットワークへ画像を直接転送することにより実現することができる。しかしこのステップは、例えば取得当初の画像の解像度を変更し、具体的には低減する等の画像の前処理を含むこともできる。画像中に手のひらが識別された場合、一部の例では、104×104×3(「3」は、画像の青、赤及び緑の3色の色値に相当する)の同等の低解像度で足りるが、本発明はこの点で限定されることはなく、他の解像度に設定することも可能である。取得された画像が、手のひらを識別するために必要な104×104の画像解像度より格段に高い解像度を有する場合、ステップ102又はステップ102とステップ103との間に設けられるステップは、画像の解像度を低減することを含むことができる。この前処理は、輝度条件の変更、画像内のガンマ値の変更、又は適切と考えられる他の任意の前処理を提供するステップ等の他のステップを含むことができる。
画像中にて顔や眼を識別する場合にも、相応の解像度で足りることが認められた。
ステップ102において画像が入力としてニューラルネットワークへ供給された後、この入力はステップ103において、物体の識別及び/又は画像中における当該物体の位置の識別を可能にする出力を生成するように、ニューラルネットワークによって処理される。物体が手のひらである場合、上記の処理は具体的には、画像中に存在する少なくとも1つの手のひらが(例えばラベルの形態で)識別されると共に、当該手のひらの位置(例えば当該手のひらを構成する画素の各座標)も何らかの態様で出力に含まれる、ということになる。これは後述のように、識別された手のひらに相当する位置において当該手のひらを包囲し包含する境界ボックスを設け、この位置において境界ボックスを当該手のひらに重畳することにより、達成することができる。画像を基準とするこの境界ボックスの座標は、その後、手のひらの位置として使用することができる。
ステップ103における入力(すなわち、実質的には受け取った画像)の処理は、ニューラルネットワークを用いることによって多数の態様で容易化することができる。いかなる場合においても、ニューラルネットワークは、バイオメトリック特性を保有する意図された物体を識別するために特化して訓練されたニューラルネットワークであることを想定している。より好適には、ニューラルネットワークは、光学センサが少なくとも1つの手のひらの画像を撮影できる限りにおいて、当該光学センサに対する手のひらの位置及び配置如何にかかわらず、入力画像中において手のひらを識別するために訓練されたものである。この処理は、後述するように、ニューラルネットワークの複数の層による入力の処理を含むことができる。
本発明では、これは少なくとも、入力をニューラルネットワークの第1の層によって処理することにより第1の中間出力を生成し、その後、ニューラルネットワークの処理方向において第1の層の次の層により第1の中間出力を処理することにより、第2の中間出力を生成することを含む。その後、この第2の中間出力はニューラルネットワーク内の次の層へ転送され、この次の層において第2の中間出力が処理されて第3の中間出力が生成され、これ以降は、ニューラルネットワーク内の全ての層が各自受け取った中間出力を処理完了するまで、同様の処理がなされる。ニューラルネットワークの最後の層が「最終的な」出力を供給し、これはその後、後述のようにステップ104において出力することができる。
本発明ではさらに、ニューラルネットワークの各層が深度で分離可能な畳み込みフィルタとなるように、2つの畳み込み層から構成されている。この深度で分離可能な畳み込みフィルタは、「深度分離可能畳み込み」とも称される。
この深度分離可能畳み込み(すなわちニューラルネットワークの層)は、当該深度分離可能畳み込みによる入力の処理順に、深度畳み込み層、第1のバッチ正規化部、及び第1の整流線形ユニットを備えている。
第1の整流線形ユニットの後の処理順に、点畳み込み層、第2のバッチ正規化部、及び第2の整流線形ユニットが設けられており、整流線形ユニットからの出力を受け取った第2の整流線形ユニット又は処理モジュールは、ニューラルネットワークにおける次の層へ中間出力を転送する。
ニューラルネットワークの全ての層によって画像を処理した後は、最終的に位置及び物体自体を識別する出力が生成される。
このことはステップ104で行われ、ステップ104ではニューラルネットワークの出力が出力される。本発明の複数の好適な実施形態では、この出力は「修正画像」とすることができ、識別された物体及びその位置についてのユーザフィードバックを提供するために、識別された手のひらを囲む境界ボックスによって当該画像を強調することができる。
しかし、この出力は、モバイル装置のディスプレイ又はモバイル装置に関連付けられた他のいかなるディスプレイ上にも表示する必要はない。実際、出力は後述のように、画像中における手のひらの位置(具体的には、手のひらを構成する画像の画素の座標)を正しく識別するマトリクス又はテンソルの形態とすることができ、このマトリクス又はテンソルは後続の処理モジュールへ転送することができ、この後続の処理モジュールはこの情報を使用して、具体的には手のひらを識別する座標を使用して、識別された手のひらにさらなる処理を施す。出力はその後、図1のステップ14により、識別された物体からバイオメトリック特性を抽出するために使用することができる。
このさらなる処理は好適には、ユーザの手のひらの少なくとも1つのしわを識別するために、識別された手のひらを評価することを含むことができる。例として、手のひらから高解像画像が取得される場合を考察すると、本発明の方法は、最初のステップにおいて、上述のステップ101~104を含む方法を用いて画像中における手のひらの位置を識別し、その後、最終的な出力を他の画像処理コンポーネントへ転送することを含むことができる。この他の画像処理コンポーネントは、手のひらのしわを識別するために手のひら及びその位置を識別する出力を使用して高解像画像を評価する。これは、図2を参照して説明したように、ユーザを識別して例えば他のプロセスのセキュリティを向上するために使用することができる。例えば、ユーザが自己のモバイル装置を用いて銀行振込を行うために本発明の方法を使用して自己を識別する場合、本発明の方法は、当該ユーザの正しい一意の識別を可能にすることにより、銀行振込のセキュリティを向上することができる。というのも、ユーザの手のひらのしわは当該個人を一意に識別するからである。
本発明は、手のひらを識別するために相応の方法を用いて銀行振込を行うことに限定されるものではなく、例えばモバイル装置の機能や、ユーザの識別及び認証を要求する他の任意のアクティビティ等にアクセスするために、ユーザを識別するために使用することもできる。
図4は、本発明の一実施形態のニューラルネットワークの一層200における受け取った入力の内部処理を示す図である。この層200は、ニューラルネットワークによる元の入力の処理順で、上述のステップ102の後に元の入力を受け取る最初の層、若しくは、ニューラルネットワークの他の2つの層240と250との間に配されたいずれかの中間層とすることができ、又は、層200は最終的に、図1を参照して説明したステップ104に従って出力を供給するニューラルネットワークの最後の層とすることもできる。
いかなる場合においても層200は、少なくとも何らかの形で取得当初の画像に対応する入力230を受け取る。この入力は好適には、次元N×Mを有する少なくとも1つのマトリクスの形態であり、ここでN及びMは、0より大きい整数である。マトリクスは例えば、少なくとも1つの色値(例えば赤)について画像中の画素を表すものとすることができる。よって、このマトリクスの成分は、当該特定の画素の当該色(本事例では赤)の値に相当する値を有することができる。以下の記載から明らかであるように、入力は取得された画像と同一でなくてもよく、ニューラルネットワーク内の層による何らかの処理によって、又は何らかの前処理(例えば上述の解像度低減処理等)によって元の画像を表すマトリクスから得られたマトリクスPとすることができる。
しかし説明の簡素化のため、入力230は、取得当初の画像を表すN×Mマトリクスに相当し、当該N×Mマトリクスの各成分は当該画像中の各画素の一色(例えば赤)の値に相当すると仮定する。この考え方は、元のN×Mマトリクスをニューラルネットワークの各層で処理した変換後のどのような他のマトリクスにも、容易に適用することができる。
ここで、図4に例示した処理によれば、入力230は処理のために深度畳み込み層211によって受け取られる。下記では、深度畳み込み層によって入力マトリクス230をどのように処理できるかに関する比較的簡単な例を提示する。これは、カーネルKを用いて当該マトリクスとの内積を算出することを含む。このカーネルは、いわゆる「ストライド」でマトリクス全体で実行される。下記の例は値1の水平方向ストライド幅及び垂直方向ストライド幅を用いているが、ストライド幅が0より大きい整数であれば、1より大きい他の任意の値を使用することができる。カーネルKはサイズがS×Tであり、ここでS及びTは整数であり、かつN及びMより小さい。
さらに、サイズN×Mの元の入力マトリクスI(すなわち入力マトリクス230)のみがカーネルとの内積を算出するために使用されると仮定する。しかし、カーネルとの内積を算出するために、拡張されたマトリクスZを用いることも可能である。この拡張されたマトリクスZは、元のマトリクスIの最初の行の上と最後の行の下とに行を「付加」し、最初の列の左側と最後の列の右側とに列を「付加」することによって得られるものである。
これは「パディング」と称される。パディングは通常、行方向に数Pの行を追加し、列方向に数Pの列を追加することを含む。数PはS-1に等しくすることができ、数PはT-1に等しくすることができ、これにより、Zとカーネルとで算出されたいかなる内積も、元のマトリクスIの少なくとも1つの成分を含むこととなる。よって、これにより得られるマトリクスZのサイズは(N+2P)×(M+2P)となる。このことから、マトリクスZは以下の成分を有することとなる:
Figure 0007270304000010
ここで、全ての内積を算出してこれらを行及び列に従って適切に配列することによって得られる新たなマトリクスは、一般的に
Figure 0007270304000011

のサイズとなる。ここで、Wは行方向のストライド幅であり、Wは列方向のストライド幅である。サイズS×Tの所与のカーネルKを得るためには、新たなマトリクスのサイズが整数となるパディング及びストライド幅のみが許容されることが明らかである。さらに、ストライド幅WはSより小さく、かつストライド幅WはTより小さいことが好適である。その理由は、そうしないとマトリクスIにおけるカーネルの動きが、元のマトリクスのうち新たなマトリクスの算出で除外されてしまう行又は列が出てきてしまうものになってしまうからである。
以下では説明の簡素化のため、元のマトリクスIに対してはパディングを行わず、水平方向及び垂直方向のストライドのストライド幅は1であると仮定する。さらに、カーネルはサイズS×Sのマトリクスであると仮定する。すなわち、S=Tである特殊な事例を想定する。任意のパディング及びストライド幅及び任意のカーネルサイズに対して以下の説明を適用することは、以下の思想により容易に行える。
深度畳み込み層211では、受け取った入力マトリクス230を使用して、サイズS×SのカーネルKとの内積を求める。ここで、S<N,Mである。この内積は、元のN×Mマトリクスの各削減マトリクスごとに計算され、削減マトリクスのサイズはS×Sであり、元のN×Mマトリクスのコヒーレントな成分を含む。一例としてS=3の場合を考察すると、元のN×Mマトリクスの第1の削減マトリクスRは成分i=1,2,3;j=1,2,3を有し、9個の成分から構成され、カーネルKとの内積を計算するとその結果は単一の数となる。元のN×Mマトリクスの行方向における次の削減マトリクスは、iを1増分したマトリクスであり、これにより当該方向における次のマトリクスは、元のN×Mマトリクスのi=2,3,4;j=1,2,3の要素から構成されることとなる。その後、このマトリクスはカーネルとの次の内積を算出するために使用される。なお、ここで提示した一例のS=3であるS×Sマトリクスは単なる一例であり、他のカーネルを使用することも可能である。
列/カラム方向において次のサイズ(N×M)の削減マトリクスRを算出するためには、元のN×Mマトリクスの要素の添え字jを1増分する。これは、行方向において最後の削減マトリクスまで行われ、この最後の削減マトリクスは、S=3の場合にはi=N-S+1,N-S+2,N-S+3となる。上述のことは列についても同様に行われ、j=M-S+1,M-S+2,M-S+3となる。これらの内積を計算することにより、サイズが(N-S+1)×(M-S+1)の新たなマトリクスであるマトリクスPが算出される。その成分Pijは、元のN×Mマトリクスの各削減マトリクスとカーネルKとから計算された各内積に相当する。なお、実際にはこのサイズのマトリクスが層200の点畳み込み層へ転送される。
カーネルKは、意図されている物体を適切に識別するためにニューラルネットワークを訓練する学習プロセスによって得られた成分である。ニューラルネットワークの層200において使用されるこのカーネルKは、各ニューラルネットワークの他の層において使用されるカーネルと同一のサイズ及び成分である必要はない。また、カーネルの各成分は互いに同一である必要はなく、少なくとも0以上の数である。かかる成分は、ニューラルネットワークの学習を通じて得られる「重み」を表すものとみなすことができる。
深度畳み込み層によるマトリクス230の処理の結果は、行方向ではΔi=1の距離と列方向ではΔj=1の距離とを有するストライドでカーネルを元のN×Mマトリクス上で移動させる場合、上述のように、サイズ(N-S+1)×(M-S+1)のマトリクス231となる。しかし、このストライドがΔi=2やΔj=3のようなより大きな距離を有する場合(これは列についても同様にあり得る)、これに応じて結果231の次元が上述のように変化することとなる。
後続の処理において、この結果231は第1のバッチ正規化部212へ転送される。この第1のバッチ正規化部212は、図4中の矢印で示されている処理順において深度畳み込み層211の次である。このバッチ正規化部は、受け取った結果マトリクス231の正規化を試行する。この正規化は、(N-S+1)×(M-S+1)マトリクスの各成分の総和を算出し、これを(N-S+1)×(M-S+1)マトリクスの成分の数によって除算することにより達成される。要素Pijを有する(N-S+1)×(M-S+1)マトリクス(以下「P」で示す)の平均値Vは、次のように与えられる:
Figure 0007270304000012

ここでn及びmは、N×Mマトリクスの行数及びカラム/列数、又はマトリクスPの行数及び列数を表す。要素PijはマトリクスPの成分であり、所与の要素Pijは、当該マトリクスの第i番目の行かつ第j番目の列の要素である。
その後、バッチ正規化部は元のマトリクスの各成分Pijから平均値Vを差し引くことにより削減マトリクスP’を算出し、P’ij=Pij-Vとなる。これによって削減マトリクスP’内の値は正規化され、一方向又は他方向における変則値(anomalies、極端に大きい値又は極端に小さい値)がフィルタリング除去される。
第1のバッチ正規化部212によって生成された結果232は、(図4の例では)未だサイズが(N-S+1)×(M-S+1)であるマトリクスとなる。というのもこれ以前では、マトリクスの次元削減が行われていないからである。
結果232はその後、第1のバッチ正規化部212の次の第1の整流線形ユニット213へ供給される。
この整流線形ユニットは、
Figure 0007270304000013

を算出することによって、マトリクス232の各成分をさらに修正する。ここで、
Figure 0007270304000014

である。
これにより、0より小さい値はバッチ正規化部を通過した後は0に設定され、これにより、以下説明する深度畳み込み層における更なる処理に影響を及ぼさなくなる。このことは、具体的には例えば、バッチ正規化部において算出された平均値を下回る色値はこれ以降考慮されず、平均値Vと少なくとも一致する値のみが計算の次のステップの結果に影響を及ぼす、ということである。
よって、第1の整流線形ユニット213によって出力される結果233は依然として(N-S+1)×(M-S+1)の形状/サイズのマトリクスであり、このマトリクスは点畳み込み層221へ転送される。
点畳み込み層221は結果234を生成する。この結果234は、点畳み込み層221が(N-S+1)×(M-S+1)マトリクス233の各成分をとって当該各成分に重みαを乗じることによって生成される。αは好適には、常に0より大きい数であり、この数は(N-S+1)×(M-S+1)マトリクスの各成分に対して同一である。よって、点畳み込み層221から得られる結果234は、同一サイズの(N-S+1)×(M-S+1)であるが各成分に重みαを乗じたマトリクスとなる。
その後、結果234は第2のバッチ正規化部222へ供給され、この第2のバッチ正規化部222において第1のバッチ正規化部212について説明した態様で正規化されて、同じ次元の正規化マトリクスP’が結果235として算出される。このマトリクス/結果235は第2の整流線形ユニット223へ転送され、第2の整流線形ユニット223において
Figure 0007270304000015

を得るために整流関数が適用され、この結果/マトリクスはニューラルネットワークにおける次の層へ転送され、又は、ニューラルネットワークにおいて次の層がもはや無い場合には、結果236は出力として供給される。
本発明の一認識は、手のひらを識別するためには図4にて説明した層200と同一の層を13個設けるのが最も好適である。というのも、手のひらの識別精度及びその位置の識別精度が比較的高くなると同時に、各方法の実装に必要なコンピュータリソースが削減され、このことによってモバイル装置により適用しやすくなるからである。
図5は、複数の境界ボックスと、複数のグリッドへの元の画像の分離とを用いて手のひらの識別(具体的には、手のひらを構成する元の画像内の画素の識別)を行えるよう、図4に記載されているコンセプトを拡張した他の一実施形態を示す図である。なお、以下説明するステップはニューラルネットワーク内の各層において元の画像を処理した後に行うことができ、又は、ニューラルネットワークの最後の層において画像を処理完了した後にしか行うことができず、ひいては図3のステップ104で出力を出力する直前にしか行うことができない。
図5で説明する実施形態は、ニューラルネットワークの層から受け取った出力に基づいて本発明に従い手のひら又は他の物体を高精度で完璧に識別できる、既に学習済みのニューラルネットワークであると仮定する。
図5の実施形態では、ニューラルネットワークの層から受け取った出力も、手のひらを含む手350の画像300の形態で何らかの態様で表現できると仮定する。よって、ここでは「画像」についてのみ説明するが、画像以外にも図2で説明した出力マトリクスのうちいずれかを用いることも可能であることが明らかである。
最初のステップにおいて、受け取った画像300は複数のグリッドセル310,311,312及び313に分離される。ここでは4つのグリッドセルを設けているが、設けるグリッドセル数を2のみにすること、又は4より多くすることもできる。各方向のグリッドセルの数は限定されることはないが、好適な他の一実施形態では、画像300は水平方向に2個のグリッドセルと、垂直方向に2個のグリッドセルとに分離され、一般的表現のQ×Rグリッドではなく2×2グリッドが生成される。本実施形態は、画像中にて発見/識別しようとする対象が単独の物体、例えば手のひら、顔又は乳児の足等である場合に有利である。識別対象の物体が複数である場合には、値Q=R=7を用いることができる。
次のステップにおいて、各グリッドセルの中心点330を識別し、この中心点330を用いて、各グリッドセルの座標の原点をグリッドセル相互間で別々に確立する。この中心330まわりに、通常は方形の形状である少なくとも1つの境界ボックス331及び332が配置され、ここでは、グリッドセル313で分かるように、境界ボックス331及び332は初期高さh及び幅又は横幅bを有する。各グリッドセルの境界ボックスが複数である場合には、その値は互いに異なることができる。例えば、各グリッドセルの最小の境界ボックスについては初期値h及びbをとることができ、各グリッドセルの他の境界ボックスの寸法を計算するために、これらの値を1.5倍又は2倍又は任意の倍率で増加することができる。
なお、各グリッドセルの座標系における境界ボックスの位置、例えば境界ボックス331の位置は、各グリッドセルにおける中心点330すなわち各座標系の原点を基準とする境界ボックス331の中心点の位置によって表されることとなる。よって、グリッドセル311における各境界ボックスの位置は2つの座標x及びyによって表すことができる。境界ボックスの幅及び高さは、0より大きい2つの値によって表すことができる当該境界ボックスの幾何学的特性を表すと考えられる。
これらの境界ボックスは後で手のひらの位置を識別するために用いられるが、これらの各境界ボックスに、境界ボックスが識別対象の手のひらを含む確率である第5の値を関連付けることも可能である。
よって、各境界ボックスは
Figure 0007270304000016

の形態の5次元のベクトルによって表すことができる。
これはすなわち、各グリッドセルが各々の境界ボックスと共に、次元Q×R×B×Aを有するテンソルTの形態で表すことができる、ということである。ここで、Aはグリッドセル1つあたりの境界ボックス数である。Q及びRの値は本発明では限定されないが、一部の実施形態では、例えば手のひら、顔又は眼又は足の裏を識別する際には、Q=R=2又はQ=R=7、B=5(ベクトルbの次元)等の値を設定することができ、また、Aは3~10の整数、最も好適には5に設定することができる。
上記にて説明したように、ニューラルネットワークは特定の物体、好適には手のひら、眼又は顔又は足の裏を識別するために既に完璧に学習済みであると仮定する。これは、上記の物体のうちいずれか1つを表す可能性が最も高い画素の特定のパターンをニューラルネットワークが識別可能であることを含む。これは、そのスポットの色値、又は輝度等の他の特性の特定のパターンをいうことができる。しかし、画像300の手のひら(又は他の物体)の表示は任意であり、ニューラルネットワークを学習するために使用された手のひら又は他の物体とサイズ及び配置が一致しない手のひら又は他の物体である場合もあり得ることが明らかである。
しかし、境界ボックス及びグリッドを用いることにより、各種物体を含む可能性が最も高い特定の境界ボックスをニューラルネットワークが識別することができる。この特定の境界ボックスを識別するためには、ニューラルネットワーク(又は、これに関連付けられ画像300を処理する構成要素)は各グリッドセルの各境界ボックス内の画素の値を、当該ニューラルネットワークが事前に学習した物体に相当する画素のパターンと比較する。この最初の段階では、完全一致が見つかる可能性は極めて低いが、物体の少なくとも一部分を含む可能性が他の境界ボックスより既に高い境界ボックスが出てくることとなる。
図5に示されている事例では、例えば、グリッドセル313内に点Mを中心として配された境界ボックス341は、手350の手のひらの一部を含む。これに対して、グリッドセル310及び311及び312はいずれも、手のひらの一部を含む境界ボックスを含まない。続けて本方法が境界ボックス341内の画素値と、場合によっては境界ボックス340内の画素値とを評価する場合、そのプロセスは、境界ボックス341が手のひらに相当するパターンを境界ボックス340より含むことを判定することができる。
このことに鑑みて、本方法は、境界ボックス331及び332(及び場合によっては他のグリッドセルの他の境界ボックス)のいずれも手のひらを含まないと結論付けることができ、これらの境界ボックスのBベクトルの確率値を0にセットすることができる。
点Mを中心として配された境界ボックス340及び341が両方ともに手のひらの少なくとも一部を含むので、これらの境界ボックスは実際に手のひらを含む可能性があると考えることができ、その確率値は最初のステップでは0より大きい。
より小さい境界ボックス340が、手のひらに相当する可能性のあるパターンによって略完全に埋め尽くされている一方、より大きい境界ボックス341については、本プロセスによって手のひらに相当するパターンを含むと考えられるのは、当該境界ボックス341の左側の境界のみである。
これにより、本方法は続いて損失関数を計算することができる。この損失関数は、各境界ボックス341及び340内で識別されたパターンと、実際に手のひらに相当する学習から得られたパターンとの差を決定するものである。
次のステップにおいて本方法は、各境界ボックスのサイズ及び位置を修正することにより上記の差を最小にすることを試みる。これについては、学習済みのパターンに合わせて差を最小にするため、より大きな境界ボックス341を開始点として使用してその位置及び形状を修正すること、又は、より小さい境界ボックス340を開始点として使用してその位置及びサイズを修正することが可能である。
この最小化プロセスは最初に、図3に示されているように各グリッドセルの中心点Mまわりにx軸に沿った方向に少量移動させてから、その後にこれに直交するy軸に沿った方向に少量移動させることにより(又は、先にy軸に沿った方向に移動させてからその後にx軸に沿った方向に移動させることにより)、境界ボックスの位置を修正することを含むことができる(以下では、境界ボックス341がその後の計算に用いられると仮定する)。この移動は、正及び負のx軸及びy軸に沿った移動となり、位置ごとに、学習により得られたパターンと画像中で識別された実際のパターンとの差関数を求めるために比較が行われることとなる。これにより、座標に基づいて差d(x,y)を表す二次元関数を計算することができる。
これに基づいて傾き∇xydを計算することができ、これにより、学習済みのパターンとの一致を増大し、好適には最大化するため(関数d(x,y)の値を最小にすることに相当する)座標系においてどの方向に境界ボックスを移動すべきかを判断することができる。これは、∇xyd=0の場合に当てはまる。
その結果、関数d(x,y)が最小値をとる新たな中心点M’に向かう方向rに沿って境界ボックスは移動することができる。次のステップにおいて、一方向又は二方向におけるサイズ(すなわち高さ及び/又は幅)の増加又は減少が高さh及び幅bに応じてe(h,b)により表すことができる元のパターンに対する他の差関数の値を変化させるか否かを判断するため、位置M’における当該境界ボックスのサイズを増加又は減少することができる。この関数は、位置M’を有し高さh及び幅bを有する特定の境界ボックスと学習済みのパターンとの差が最小になるように最小化される。
その後、この境界ボックスは、画像300のうち手のひら(又は他の物体)を含む部分を識別する確率pが最も高い最終的な境界ボックスとして用いられることとなる。この境界ボックスに係る出力ベクトルは、以下の形態を有することとなる。
Figure 0007270304000017
このプロセスの結果として、次元Q×R×B×Aを有するテンソルTが出力され、各グリッドセル内の境界ボックスごとに当該グリッドセルの中心を基準とするx及びy位置と、当該境界ボックスの幅及び高さと、当該境界ボックスが手のひらを識別し又は含む確率と、が得られる。
隣のグリッドセルの境界ボックスが同じ方向に移動して互いに重なり合うのを阻止するため、また、別のグリッドセルの境界ボックスが他のグリッドセル内に入ってしまうのを阻止するため、本方法は境界ボックスの中心の移動がその元のグリッドセル内でしか行えないようにすることができる。
よって、この結果は複数のベクトルBを含むテンソルとなり、これらのベクトルのうち1つ又は複数は手のひらを識別する確率が高く、その他のベクトルは確率が低い。確率が低いベクトルは、その全ての値を0にセットすることにより完全に無視することができ、これによりテンソルを処理する際に必要な処理労力を削減することができる。
その後、確率が最も高いベクトルBを使用して、画像のさらなる処理、具体的には手のひらを識別する当該画像の一部分のさらなる処理を行うことができ、これによって例えば手のひらを処理して手のひらのしわ(掌紋)を識別することによりモバイル装置のユーザを識別することができる。
上記のアプローチは、識別された手のひらのしわ又は眼の虹彩又は足の裏の足形等のバイオメトリック特性をさらに処理するために使用される境界ボックスを適切に識別できるものであるが、以下では、破棄すべき境界ボックスについて説明する。
上記にて説明したように、境界ボックスのベクトルbは、当該境界ボックスが手のひらを含み又は表す可能性を示す確率pを含む。この確率pを用いて、全ての境界ボックス(又はその各ベクトル)を、最も高い確率値pを有するベクトルbから降順にソートすることができる。
これが完了すると、値pが最も高い境界ボックスから降順にリストを順次処理することができる。この順次処理は、リストから値pを有する特定の境界ボックスを選択し、この特定の境界ボックスについて、他の境界ボックスとの交差の量を計算することを含むことができる。これは具体的には、選択された特定の境界ボックスの面積と、他の境界ボックスの面積とを比較することであり、これらの境界ボックスが共有する全ての面積(すなわち境界ボックスが交差し合う面積)が、算出される交差部に寄与する。
交差の量は、選択された境界ボックスの面積に対する比率として計算することができる。これにより、算出された交差部ごとに無次元の値が得られ、この無次元の値は、0(交差部なし)から1(検討対象の残りの境界ボックスが、選択された当該境界ボックスの領域と完全に交差し、又は当該領域を覆う)までの範囲である。
次のステップにおいて、事前設定された閾値を用いて境界ボックスを無視若しくは破棄し、又はこれらを除外することができる。上記の例では、この閾値は0.75の計算された交差量とすることができる。交差量がこの閾値を超える選択された境界ボックスと他の境界ボックスとの各対について、値pが低い境界ボックスを無視し、又は上記のリストから除外することができる。
その結果、最終的に手のひらを表す1つの境界ボックスのみが残ることとなる。もちろん上記ステップの結果として、画像中にて視認可能な関連する物体又はバイオメトリック特性の数に依存して複数の境界ボックスが残ることがあり得る。例えば、画像上にそれぞれ手のひらを有する両手又は両眼がある場合、2つの境界ボックスが残ることとなる。
図6及び以下の説明では、図4を参照して説明したカーネルKの重み及び重みαと、実際に手のひら(又は他の物体)を識別するパターンと、をニューラルネットワークが学習するために、ニューラルネットワークをどのようにして適切に訓練できるかを説明する。
下記に示す例及び実施形態は、上記の他の物体に対しても実施可能であることに留意すべきである。
図6の方法は、訓練データ401及び事前設定された境界ボックス408の準備から開始する。この訓練データは、例えばユーザの手のひらを含む手又は片眼若しくは両目又はユーザの片足若しくは両足の裏の複数の画像、又は、1つの画像中に他の物体と共に表されている上記物体の画像により構成することができる。これら複数の画像は、同一画像を回転、強調、暗色化、拡大、又は他の修正を施した複製を用いて増加したものとすることができ、このような複製を訓練データとして導入する。項目408で準備される境界ボックスは、訓練データに含まれる画像に対応する境界ボックスであって、識別対象の物体に正しく関連付けられた境界ボックス、すなわち、正しいサイズ及び正しい位置と、図5を参照して説明した相応の確率値とを有する境界ボックスである。かかる境界ボックスは、訓練データ中の全ての画像に対して画像ごとに設けられる。
次のステップにおいて、ニューラルネットワークの他に最適化部407及び損失関数計算部406がさらに設けられた訓練環境下で、ニューラルネットワークに1つの特定の入力画像402が供給される。
この入力画像は、第1段階において、深度畳み込み層と第1のバッチ正規化部と第1の整流線形ユニット403(これら3つは「DCBR」としてまとめられている)を用いて処理され、その後、点畳み込み層と第2のバッチ正規化部と第2の整流線形ユニット(これら3つはPCBRとしてまとめられている)へ転送され、図4での説明に従い処理される。これは具体的には、各セクション403及び404それぞれにおいて点畳み込み層(PC)及び深度畳み込み層(DC)のカーネルKに係る対応する重みを用いて、図6に示されているステップ又はセクション403及び404を図4にて説明したように、好適には13回実行する、ということである。項目403及び404の第1及び第2のバッチ正規化部並びに整流線形ユニットは、上記にて図5を参照して説明したように動作する。
その結果、図5によれば、出力は図5の第1の成分Tqrbaを有するサイズQ×R×B×Aの第1のテンソルTとなる。この結果はその後、損失関数に供給され、損失関数では当該結果と事前設定された境界ボックスとが比較されることにより、結果405と、408から得られた正しい境界ボックスとの差が特定される。損失関数406により得られたこの差はその後、最適化部407へ供給され、最適化部407の方は、各点畳み込み層及び各深度畳み込み層の重み、すなわちαとカーネルKの成分を修正する。これは具体的には、ネットワークの全ての層に対して同時に、又は各層ごとに別個に、点畳み込み層の重みαと深度畳み込み層のカーネルKの成分を操作する、ということになる。
これらの新たな値を用いて、まさに同一の画像について上記サイクルが繰り返され、その結果得られる成分T’qrbaを有するテンソルT’が損失関数へ供給されて正しい境界ボックスと比較され、この比較の結果が最適化部407へ供給されて、最適化部407は再び重みを修正する。
この手順は、上記の結果のテンソルT(n)、特に識別された境界ボックスと、項目408の事前定義された境界ボックスと、の差が、意図された識別精度に実質的に相当する所与の閾値を超える限り行われる。
そのあと、訓練データ401から次の入力画像402が取られて、対応する境界ボックスが損失関数に供給される。その後、この新たな画像について上記のプロセスを再び繰り返し、点畳み込み層及び深度畳み込み層に係る最適な重みが求められる。これは、重みの特定の組み合わせによって全ての入力画像の識別精度が適切になるまで繰り返される。このようにして得られた重みの組み合わせは、最終的な重み410として出力される。
この最終的な重みはその後、モバイル装置上で本発明の方法を実行するアプリケーションに導入される。
このようにして本発明のコンセプトでは、モバイル装置に供給されるニューラルネットワークは既に、手のひら、眼又は顔又は足の裏等のバイオメトリック特性を保有する特定の物体の識別に完全に適したものとなっているので、さらに学習を行う必要なく当該ニューラルネットワークを用いることができ、モバイル装置で必要とされるコンピュータリソースをさらに削減することができる。
総合的に、上記にて図3及び図4を参照して説明した点畳み込み層と深度畳み込み層とバッチ正規化部と整流線形ユニットとを使用すると共に、図3で説明したように元の画像を複数のグリッドセルに分離して各対応する境界ボックスを特定することにより、1メガバイト未満のアプリケーションを提供することができ、これによりインターネット等を介して他のデータソースに何らアクセスしなくても、モバイル装置単独で使用することができる。これにより、無線ネットワーク等へのアクセスが不可能である環境下での適用に適したものとなる。さらに、この用途を実行するために必要なプロセッサ性能を最小限に抑えつつ、上記にて説明したように、これまで説明した物体のバイオメトリック特性によって後で行われるユーザの識別に使用できる各種物体の適切な識別結果を得ることができる。
上記の説明は、手の手のひら側を示す手の画像に焦点を当てたが、ユーザは手の甲を光学センサに偶然又は意図的に提示することがあり得る。手のこのような画像からは、手のひらは視認できないので抽出することができない。
手のひらのしわを保持する手の画像を、手のひらが見えず爪又は指関節や手の甲しか見えない手の画像と区別するためには、以下の手順を用いることができ、この手順は、識別精度を向上するように上記にて説明した方法を拡張することができる。
上記の例では、境界ボックスは以下のベクトルにより特徴付けられた。
Figure 0007270304000018

また上記の例では、手のひら側を表示する手の画像のみを用いて訓練を行った。
手の両側(すなわち、手のひら側と爪若しくは指関節を保持する側又は手の甲側)から画像を撮影できる場合には、画像中で識別される物体の2つのクラス、すなわち、手のひらのしわを見せる手である物体と、手の甲を見せる手である物体と、を考慮することが有利である。
この場合、上述のベクトルに1次元cを追加して以下のように拡張することができる:
Figure 0007270304000019

ここで、cはいわゆるクラスである。第1のクラスは肯定的な識別結果(少なくとも1つのしわを保持する手のひらを識別できる)とすることができ、第2のクラスは否定的な識別結果(手が裏側/甲を見せている)とすることができる。このクラスは、例えば肯定的な識別結果の場合には値1、否定的な識別結果の場合には値0によって表すことができる。ベクトルbに含まれる他の値とは異なり、クラスは離散値であり、クラスの数に相当する限られた数の異なる値しかとれないことが明らかである。
その後、第1のクラス又は第2のクラスのいずれかに属する画像を区別できるようにするため、(しわを保持する手のひらを含む画像と境界ボックス408とを示す訓練データのみが供給されるのではなく)肯定的及び否定的な識別結果をニューラルネットワークへ供給して上記の訓練を行うことができる。ここで、手のひらを示さずそれ以外のものを示す手の複数の画像が考えられ、この画像が示すものは、あらゆるものが考えられる。かかる「物体」は全て第2のクラス(すなわち否定的な識別結果)に分類することができ、これによりニューラルネットワークは、手のひらを保持する手の画像を、手のの「他のあらゆる」画像と区別するよう訓練される。訓練のために設けられる境界ボックスはもちろん、ネットワークを適切に訓練できるようにするため、正しいクラスcを含むこととなる。
画像中の手のひらのしわを保持する全ての手のひらを識別するためには、上記のプロセスは、手の位置を表す境界ボックスであって第2のクラス(すなわち否定的な識別結果)に属すると考えられる境界ボックスを全て無視することとなり、これにより、バイオメトリック特性(本例では手のひらのしわ)を見せない手の画像又は当該画像の一部の以降の処理が阻止される。
上記のコンセプトは、対象とするバイオメトリック特性(例えば眼の虹彩又は口、鼻、又は顔の眼等)を示す第1のクラスと、各バイオメトリック特性を示さない第2のクラスとに分けられる場合において、これまでに述べた他の全ての物体にも適用できることが明らかである。
本発明の方法を実施できる場面を提示するため、図7に、本発明の一実施形態のスマートフォンの形態のモバイル装置を示す。
モバイル装置500は、現在公知のスマートフォンとして構成されている。モバイル装置500は光学センサ520を備えており、これは好適には、モバイル装置500におけるディスプレイ530の設置場所である側とは反対側のカメラの裏面に設けられている。カメラは、1MP又は2MP以上の解像度を有するカメラとすることができ、例えばHDカメラとすることができる。カメラにはフラッシュライトを備え付けることができるが、これは必須ではない。カメラはまた、解像度を低くしたリアルタイム画像を撮影するよう構成することもでき、カメラが起動されるとディスプレイ530は、カメラが実際に「見ている」ものを表示することができる。これは例えば手510とすることができる。
本発明の一実施形態では、撮影画像に対して本発明の方法を実施した後、ディスプレイ530上に表示されている手の画像上にて、手のひらを識別する境界ボックス511を強調する。上記にて詳細に説明したように、識別された1つ又は複数の境界ボックスは表示される必要はなく、例えば、手のひらのしわを識別することによりユーザが識別されるように手のひらに相当する画像の一部分を処理するため、モバイル装置内部でさらに処理することができる。これはもちろん、上掲の他の全ての物体及びバイオメトリック特性にも適用できる。

Claims (13)

  1. ユーザのバイオメトリック特性を有する当該ユーザの物体の画像を用いて当該ユーザを識別するための方法であって、
    前記物体は、前記ユーザの手のひら、前記ユーザの顔、前記ユーザの眼、前記ユーザの足の裏のうちいずれか1つであり、
    前記方法は、
    モバイル装置の光学センサによって前記物体の前記画像を取得するステップと、
    前記画像をニューラルネットワークへ供給するステップと、
    前記画像を前記ニューラルネットワークによって処理することにより、前記画像中の前記物体の位置及び前記物体の両方を識別するステップと、
    を有し、
    前記ニューラルネットワークは複数の層を有し、
    前記画像を入力として前記ニューラルネットワークによって処理することは、当該ニューラルネットワークの第1層によって前記入力を処理することにより第1の中間出力を生成するステップと、各先行層の出力を各後続層によって処理するステップと、を有し、
    前記複数の各層は、各層における前記入力の処理順に、深度畳み込み層と、第1のバッチ正規化部と、第1の整流線形ユニットと、点畳み込み層と、第2のバッチ正規化部と、第2の整流線形ユニットとをそれぞれ有する、深度で分離可能な畳み込みであり、
    前記複数の層を用いて前記入力を処理することにより、前記ニューラルネットワークは出力として、前記物体の識別結果と前記画像中における前記物体の位置とを得、
    前記方法はさらに、
    識別された前記物体から前記バイオメトリック特性を抽出するステップと、
    前記バイオメトリック特性を記憶装置に記憶し、及び/又は、少なくとも前記バイオメトリック特性を入力として識別手段へ供給するステップであって、前記識別手段は、当該バイオメトリック特性が前記ユーザを識別するか否かを判定するために前記入力を処理することを含むステップと、
    を有し、
    前記方法の各ステップを前記モバイル装置上で実施し、
    前記モバイル装置はスマートフォンであり、
    前記ニューラルネットワークは訓練されたニューラルネットワークであり、前記ニューラルネットワークの訓練は、前記方法を実施できるアプリケーション又は他のプログラムが前記モバイル装置に装備される前に行われる
    ことを特徴とする方法。
  2. 前記物体は前記ユーザの手のひらであり、前記バイオメトリック特性は前記手のひらの少なくとも1つのしわであり、前記識別手段によって前記入力を処理するステップは、前記しわから例えば当該しわの長さや方向等のバイオメトリック特徴を抽出するステップと、抽出された前記バイオメトリック特徴と前記記憶装置に記憶された前記バイオメトリック特徴とを比較するステップと、を含み、抽出された前記バイオメトリック特徴と記憶された前記バイオメトリック特徴との差が閾値を下回る場合、前記識別手段は当該しわによって前記ユーザが識別されると判定し、前記バイオメトリック特徴と記憶された前記バイオメトリック特徴との差が閾値を上回る場合、前記識別手段は当該しわによって前記ユーザが識別されないと判定し、又は、
    前記物体は前記ユーザの顔であり、前記バイオメトリック特性は前記ユーザの顔の中の眼、口、鼻のうち少なくとも1つであり、前記識別手段によって前記入力を処理するステップは、前記バイオメトリック特性から例えば顔の中での口の位置等のバイオメトリック特徴を抽出するステップと、抽出された前記バイオメトリック特徴と前記記憶装置に記憶されたバイオメトリック特徴とを比較するステップと、を含み、抽出された前記バイオメトリック特徴と記憶された前記バイオメトリック特徴との差が閾値を下回る場合、前記識別手段は当該前記バイオメトリック特性によって前記ユーザが識別されると判定し、前記バイオメトリック特徴と記憶された前記バイオメトリック特徴との差が閾値を上回る場合、前記識別手段は当該前記バイオメトリック特性によって前記ユーザが識別されないと判定し、又は、
    前記物体は前記ユーザの眼であり、前記バイオメトリック特性は前記ユーザの前記眼の虹彩であり、前記識別手段によって前記入力を処理するステップは、前記虹彩から例えば当該虹彩の色素パターン等のバイオメトリック特徴を抽出するステップと、抽出された前記バイオメトリック特徴と前記記憶装置に記憶されたバイオメトリック特徴とを比較するステップと、を含み、抽出された前記バイオメトリック特徴と記憶された前記バイオメトリック特徴との差が閾値を下回る場合、前記識別手段は当該虹彩によって前記ユーザが識別されると判定し、前記バイオメトリック特徴と記憶された前記バイオメトリック特徴との差が閾値を上回る場合、前記識別手段は当該虹彩によって前記ユーザが識別されないと判定し、又は、
    前記物体は前記ユーザの足の裏であり、前記バイオメトリック特性は当該足の足形であり、前記識別手段によって前記入力を処理するステップは、前記足形から例えば当該足形の線の長さや方向等のバイオメトリック特徴を抽出するステップと、抽出された前記バイオメトリック特徴と前記記憶装置に記憶されたバイオメトリック特徴とを比較するステップと、を含み、抽出された前記バイオメトリック特徴と記憶された前記バイオメトリック特徴との差が閾値を下回る場合、前記識別手段は当該足形によって前記ユーザが識別されると判定し、前記バイオメトリック特徴と記憶された前記バイオメトリック特徴との差が閾値を上回る場合、前記識別手段は当該足形によって前記ユーザが識別されないと判定する、
    請求項1記載の方法。
  3. 前記画像は複数の物体を有し、
    前記方法はさらに、前記画像中における各バイオメトリック特性の位置を識別し、前記識別手段による前記ユーザの識別のために各バイオメトリック特性の前記バイオメトリック特徴を使用することを含む、
    請求項2記載の第1及び/又は第3及び/又は第4の選択的実施形態の方法。
  4. 前記識別手段は、前記画像中の全ての物体の前記バイオメトリック特徴の組み合わされた識別精度が特定の閾値を上回ると判定することによって、前記物体の前記バイオメトリック特徴によりユーザが識別されると判定し、又は、
    前記識別手段は、前記物体ごとに当該物体の前記バイオメトリック特性のバイオメトリック特徴と当該物体の前記バイオメトリック特性の記憶されたバイオメトリック特徴との差が閾値を下回るか否かを判定し、判定された全ての差が対応する前記閾値を下回る場合にのみ前記物体の前記バイオメトリック特性によってユーザが識別されると判定することにより、前記物体の前記前記バイオメトリック特徴によりユーザが識別されると判定する、
    請求項3記載の方法。
  5. 前記画像は、前記モバイル装置の光学センサとしてのカメラによって取得される、
    請求項1から4までのいずれか1項記載の方法。
  6. 前記物体の位置を識別することは、Q×R個のグリッドセルを有するグリッドに前記画像を分離し、各グリッドセル内に、当該グリッドセルにおける予め定められた位置と予め定められた幾何学的特性とを有する少なくとも1つの境界ボックスを作成することを含み、
    前記出力を生成することはさらに、前記境界ボックスの位置及び幾何学的特性を修正することにより、前記物体の位置に最も一致する修正後位置と修正後幾何学的特性とを有する修正後境界ボックスを得ることを含む、
    請求項1からまでのいずれか1項記載の方法。
  7. 前記境界ボックスの位置は、前記グリッドセルの中心を基準として二次元で算出され、
    前記境界ボックスの幾何学的特性は、当該境界ボックスの高さ及び幅を含み、さらに、前記物体が前記境界ボックス内にある確率が各境界ボックスに関連付けられる、
    請求項記載の方法。
  8. 前記方法はさらに、前記画像と、前記物体の位置を識別する前記境界ボックスとを表示するステップを含む、
    請求項記載の方法。
  9. 前記画像を前記ニューラルネットワークにより処理することは、前記画像から、前記画像中の各画素の色値を表す少なくとも1つのマトリクスIを生成するステップと、前記マトリクスを前記ニューラルネットワークへ入力として供給するステップと、を含み、
    前記画像はN×M個の画素を有し、
    前記マトリクスIはN×M個の値を有するマトリクスであり、
    前記マトリクスIの成分はIijによって与えられ、ここでi及びjは整数であり、i=1・・・Nかつj=1・・・Mである、
    請求項からまでのいずれか1項記載の方法。
  10. 各深度畳み込み層は、サイズS×Tのマトリクスである予め定められたカーネルKであって成分Sabを有するカーネルKを、前記マトリクスIに適用し、ここでS,T<N、S;T<Mであり、
    前記カーネルを前記マトリクスに適用することは、サイズ(N+2P)×(M+2P)を有するマトリクスZのサイズ(N×M)S,Tの各削減マトリクスRと前記マトリクスKとの内積を算出することを含み、
    前記マトリクスRは前記カーネルKと同一サイズであり、
    前記マトリクスZの成分Zcdは、
    Figure 0007270304000020
    により与えられ、
    Figure 0007270304000021
    であり、出力として、
    Figure 0007270304000022
    のサイズを有するマトリクスPが供給され、
    ここでW及びWはストライド幅を定義し、前記マトリクスPの各成分Pijは、ij番目の前記削減マトリクスRと前記カーネルKとの内積の値であり、
    前記マトリクスPは前記深度畳み込み層から出力として前記第1のバッチ正規化部へ供給される、
    請求項記載の方法。
  11. 前記カーネルのサイズS及びTは全ての深度畳み込み層において等しく、又は、少なくとも1つの深度畳み込み層及び/若しくは前記カーネルKの少なくとも1つの成分について異なっており、Sa’b’≠Sa≠a’,b≠b’である、
    請求項10記載の方法。
  12. 前記バッチ正規化部は、正規化された削減マトリクスP’を前記整流線形ユニットへ供給し、前記整流線形ユニットは整流関数を各成分P’ijに適用し、前記整流関数は、
    Figure 0007270304000023
    を有する
    Figure 0007270304000024
    を算出し、
    Figure 0007270304000025
    は、前記整流線形ユニットが前記第1の整流線形ユニットである場合には前記点畳み込み層へ出力として供給され、若しくは、前記整流線形ユニットが前記第2の整流線形ユニットである場合には前記ニューラルネットワークの次の層へ供給され、及び/又は、
    前記点畳み込み層は、先行層から受け取った
    Figure 0007270304000026
    の各成分に重みαを乗じることにより、
    Figure 0007270304000027
    に前記重みαを適用する、
    請求項から11までのいずれか1項記載の方法。
  13. 光学センサと、プロセッサと、実行可能な指令を記憶する記憶ユニットと、を備えたモバイル装置であって、
    前記指令は、前記モバイル装置の前記プロセッサによって実行されたときに前記プロセッサに請求項1から12までのいずれか1項記載の方法を実行させる
    ことを特徴とするモバイル装置。
JP2021542315A 2019-01-24 2020-01-22 ユーザのバイオメトリック特性を有する画像中の物体を識別することにより当該ユーザのidを検証するための方法、及び当該方法を実施するためのモバイル装置 Active JP7270304B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19153461.9 2019-01-24
EP19153461.9A EP3686771A1 (en) 2019-01-24 2019-01-24 Method for verifying the identify of a user by identifying an object within an image that has a biometric characteristic of the user and mobile device for executing the method
PCT/IB2020/050494 WO2020152599A1 (en) 2019-01-24 2020-01-22 Method for verifying the identity of a user by identifying an object within an image that has a biometric characteristic of the user and mobile device for executing the method

Publications (2)

Publication Number Publication Date
JP2022518036A JP2022518036A (ja) 2022-03-11
JP7270304B2 true JP7270304B2 (ja) 2023-05-10

Family

ID=65228433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021542315A Active JP7270304B2 (ja) 2019-01-24 2020-01-22 ユーザのバイオメトリック特性を有する画像中の物体を識別することにより当該ユーザのidを検証するための方法、及び当該方法を実施するためのモバイル装置

Country Status (8)

Country Link
US (2) US11875597B2 (ja)
EP (1) EP3686771A1 (ja)
JP (1) JP7270304B2 (ja)
KR (1) KR20210119487A (ja)
BR (1) BR112021014579A2 (ja)
MX (1) MX2021008676A (ja)
WO (1) WO2020152599A1 (ja)
ZA (1) ZA202104984B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183408B (zh) * 2020-09-30 2023-09-29 重庆天智慧启科技有限公司 基于案场图像的客户画像系统及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10339362B2 (en) * 2016-12-08 2019-07-02 Veridium Ip Limited Systems and methods for performing fingerprint based user authentication using imagery captured using mobile devices
US11341222B1 (en) * 2018-08-21 2022-05-24 Smart Eye Technology, Inc. System and method for securely viewing, editing and sharing documents and other information
US10726302B2 (en) * 2018-11-29 2020-07-28 Qualcomm Incorporated Edge computing
JP7360217B2 (ja) * 2019-09-12 2023-10-12 アイデンティー インコーポレイテッド ユーザのバイオメトリック特性を有する当該ユーザの物体の画像からデータを取得するための方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Evair Severo, et al.,A Benchmark for Iris Location and a Deep Learning Detector Evaluation,2018 International Joint Conference on Neural Networks(IJCNN),2018年
Joseph Redmon, et al.,YOLO9000: Better, Faster, Stronger,CVPR 2017 open access,2017年
Joseph Redmon, et al.,You Only Look Once: Unified, Real-Time Object Detection,CVPR 2016 open access,2016年
Ranjeet Ranjan Jha, et al.,UBSegNet: Unified Biometric Region of Interest Segmentation Network,arXiv,2017年,aiXiv:1709.08924v1

Also Published As

Publication number Publication date
KR20210119487A (ko) 2021-10-05
BR112021014579A2 (pt) 2021-10-05
US20230394870A1 (en) 2023-12-07
EP3686771A1 (en) 2020-07-29
US20220114808A1 (en) 2022-04-14
US11875597B2 (en) 2024-01-16
JP2022518036A (ja) 2022-03-11
MX2021008676A (es) 2021-10-13
ZA202104984B (en) 2022-09-28
WO2020152599A1 (en) 2020-07-30

Similar Documents

Publication Publication Date Title
US11657525B2 (en) Extracting information from images
JP7386545B2 (ja) 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置
US11941918B2 (en) Extracting information from images
JP5629803B2 (ja) 画像処理装置、撮像装置、画像処理方法
JP4743823B2 (ja) 画像処理装置、撮像装置、画像処理方法
JP2018508888A (ja) モバイル・デバイスを用いてキャプチャしたイメージを使用する指紋ベースのユーザ認証を実行するためのシステムおよび方法
US20230394871A1 (en) Method for verifying the identity of a user by identifying an object within an image that has a biometric characteristic of the user and separating a portion of the image comprising the biometric characteristic from other portions of the image
US20230394870A1 (en) Method for verifying the identity of a user by identifying an object within an image that has a biometric characteristic of the user and mobile device for executing the method
CN109409322B (zh) 活体检测方法、装置及人脸识别方法和人脸检测系统
JP7360217B2 (ja) ユーザのバイオメトリック特性を有する当該ユーザの物体の画像からデータを取得するための方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230418

R150 Certificate of patent or registration of utility model

Ref document number: 7270304

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150