JP7353686B2 - 周期画像復元装置及び方法、識別装置及び方法、検証装置及び方法、特徴抽出装置、訓練方法、位相推定装置、並びに記憶媒体 - Google Patents

周期画像復元装置及び方法、識別装置及び方法、検証装置及び方法、特徴抽出装置、訓練方法、位相推定装置、並びに記憶媒体 Download PDF

Info

Publication number
JP7353686B2
JP7353686B2 JP2022541174A JP2022541174A JP7353686B2 JP 7353686 B2 JP7353686 B2 JP 7353686B2 JP 2022541174 A JP2022541174 A JP 2022541174A JP 2022541174 A JP2022541174 A JP 2022541174A JP 7353686 B2 JP7353686 B2 JP 7353686B2
Authority
JP
Japan
Prior art keywords
phase
image
images
feature
periodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022541174A
Other languages
English (en)
Other versions
JPWO2022030179A1 (ja
Inventor
康史 八木
靖 槇原
遅 徐
想 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Osaka University NUC
Original Assignee
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osaka University NUC filed Critical Osaka University NUC
Publication of JPWO2022030179A1 publication Critical patent/JPWO2022030179A1/ja
Application granted granted Critical
Publication of JP7353686B2 publication Critical patent/JP7353686B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Description

この発明はバイオメトリクス解析技術に関し、特に、人等の歩き方(「歩容」)を解析する歩容解析技術に関する。この出願は2020年08月05日出願の日本出願第2020-132951号に基づく優先権を主張し、 前記日本出願に記載された全ての記載内容を援用するものである。
セキュリティに関する関心の増大に伴い、社会の様々な局面で人物の認証を行ったり特定したりすることが行われている。人物の認証及び特定をするために様々な技術が使用されている。これら技術の中に、盗用等の危険が小さな、いわゆるバイオメトリクスを用いるバイオメトリック認証がある。
バイオメトリック認証には様々なバイオメトリクスが用いられている。バイオメトリクスの主なものとして、生体と認証装置との間の距離の近い順番に挙げると、DNA、指紋、静脈、虹彩、顔等がある。コンピュータの小型化及び性能の向上に伴い、ごく短い時間でバイオメトリクスの照合が可能になっている。例えば携帯電話及び携帯型コンピュータにおいて指紋認証及び顔認証が実用化されている。
バイオメトリクスとしては、上記したような生体そのものの特徴ではなく、人物の行動の特徴を用いるものもある。よく知られたバイオメトリクスとして声紋がある。
声紋と同様、人物の行動に伴う特徴であって、人物の認証及び特定に使用される特徴として、最近、歩容が注目されている。例えば遠くを知人が歩いているときでも、その歩き方から人物を特定できることは我々が日常生活でよく経験することである。つまり、人物の歩き方にはその人物を特定するために十分な特徴があるということである。したがって、バイオメトリック認証に歩容を用いることは十分に理にかなっている。
上記したDNAはもちろん、指紋、静脈、虹彩、顔等を用いる認証の場合には、認証の対象となる人物の協力が必要である。またこれらのバイオメトリクスを用いる認証では、対象となる人物が遠くにいる場合には認証が困難であるという問題がある。それに対して歩容の場合には、人物の協力が得られなくても、単に歩いている映像が得られればよい。しかもかなり遠くの人物の画像で解像度が低いものを用いた場合でも人物の特定を行うことができるという特徴がある。またヘルメットをかぶったりマスクをしたりしている人物でも、その歩き方を隠すことはできない。そのため、歩容は特に犯罪捜査等に有効と考えられ、実際に利用されている。
従来の歩容認証では、人物の歩行する様子を撮影した一連の画像を解析してその特徴を抽出し、予め準備した特徴と照合する。人物の歩行は周期的な運動であり、歩容認証には例えば歩行の1サイクルを表す何枚かの画像が利用される。画像の枚数は実装により異なるが、例えば1サイクルを単位円の一周と考えて、等間隔の位相に相当する画像を用いることが多い。例えば画像が10枚なら360度を10で等分して位相間隔は36°である。画像が20枚なら位相間隔は18°、25枚なら14.4°等である。
このように歩行の1周期の画像を用いる歩容認証では、認証には人物の歩行の1周期分の画像が必要である。そのため、認証が完了するためには少なくとも人物の歩行の1周期に相当する時間が必要である。したがって、ある会場への人物の入場の許可に歩容認証を用いる場合、認証結果が得られたときには既に人物がその会場に入ってしまっているというケースが生じ得る。歩容認証をより広い局面に適用可能にするためには、1周期の画像より少ない画像で認証が完了できるようにすることが望ましい。
さらに、多数の人が往来している場所では、カメラの画像内に複数の人が重なって撮影される。したがって、特定の個人の完全な全身像を歩行の1周期分にわたって撮影できることは稀である。そうした場所では歩容認証により個人識別を行ったりすることは難しい。
こうした問題を解決するための一つの提案が、後掲の特許文献1で行われている。特許文献1に記載の方法はGaitSetと名付けられている。GaitSetでは、1周期とは別に、複数の画像の各々を独立したものとして、複数の画像から特徴を抽出し、画像全体から得られた特徴の集合を用いて認証を行う。画像の数には制限がなく、任意の枚数の画像に基づいて認証を行ったり、異なる歩行機会から得られた画像を用いた認証を行ったりすることも可能であるとされている。特に画像が十分に多い場合、人物の服装、持ち物等にかかわらず高い精度で認証を行うことができると報告されている。
中国特許出願公開第109583298号
Hanqing Chao 外3名、GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition, [online], 2018年11月15日, Association for the Advancement of Artificial Intelligence (www.aai.org),[2020年 7月26日検索], インターネット, <URL: https://arxiv.org/abs/1811.06186v1>, arXiv:1811.06186 (特許文献1に対応する英語論文) K. Shiraga 外4名、GEINet: View-Invariant Gait Recognition Using a Convolutional Neural Network, Proceedings of the 8th IAPR International Conference on Biometrics (ICB 2016), No. 019, pp. 1-8, Halmstad, Sweden, 2016年 6月 Zifeng Wu 外4名, A Comprehensive Study on Cross-View Gait Based Human Identification with Deep CNNs. IEEE Transactions on Pattern Analysis and Machine Intelligence. 39. 1-1. 10.1109/TPAMI.2016.2545669.
特許文献1に記載の技術により、1周期分より少ない画像でも歩容認証を行うことができる。しかし、特許文献1の図5によれば、この技術によるRank-1精度(特定された人物が正解である率)は、画像が1枚では25%、2枚でも44.1%、7枚で82.5%である。すなわち、特許文献1の技術には、画像の数が少ないときの精度が極めて低いという問題がある。仮に少ない画像で歩容認証を行うことができたとしても、この精度では実用化することは難しい。したがって、1周期の画像枚数よりも少ない枚数の歩行画像を用いても、高い精度で歩容認証又は歩容検証を行えるようにすることが望ましい。
このとき、例えば1周期の画像枚数よりも少ない枚数の歩行画像から、1周期の画像枚数と同じ枚数の画像を精度高く復元できれば、従来の歩容認証装置又は歩容検証装置をそのまま用いることができる。したがって、1周期の画像枚数よりも少ない枚数の歩行画像から、1周期の画像枚数と同じ枚数の画像を精度高く復元できればさらに好ましい。このような歩容認証を行う際には、入力された画像の、歩行周期における位相が推定できれば、復元画像の精度を高めることができると考えられる。したがって、周期画像を構成する各画像からその位相を高い精度で推定できる位相推定装置が得られればより好ましい。
本発明の第1の局面に係る周期画像復元装置は、周期性を持つ運動の、少なくとも当該運動の半周期以上の予め定められた第1の数の位相における、生物の第1の数の画像を、第1の数より小さな第2の数の画像から復元するための周期画像復元装置であって、第2の数の画像に関する運動の位相を推定する位相推定手段と、第2の数の画像から、位相に依存した位相依存特徴を抽出する位相依存特徴抽出手段と、位相推定手段が推定した位相に基づいて、位相依存特徴抽出手段により抽出された位相依存特徴を、位相から独立した位相非依存特徴に変換するための特徴変換手段と、特徴変換手段により変換された後の位相非依存特徴に基づいて、運動をしている生物の、第1の数の位相の各々における画像を復元するための画像復元手段とを含む。
好ましくは、位相推定手段は、第2の数の画像から、当該画像の位相を推定するよう予め訓練された位相推定用のニューラルネットワークを含む。
より好ましくは、位相依存特徴抽出手段は、第2の数の画像を入力とし、第2の数の画像から、位相依存特徴を抽出するよう予め訓練された位相依存特徴抽出用のニューラルネットワークを含む。
さらに好ましくは、特徴変換手段は、位相推定手段が推定した位相と、位相依存特徴とを入力として、位相非依存特徴を出力するよう予め訓練済の特徴変化用のニューラルネットワークを含む。
好ましくは、画像復元手段は、特徴変換手段により変換された後の位相非依存特徴を入力とし、運動をしている生物の、第1の数の位相の各々における画像データを出力するよう予め訓練済の、画像復元用のニューラルネットワークを含む。
より好ましくは、第1の数の位相は、運動の周期を第1の数で等分した位相の各々を含む。
さらに好ましくは、第2の数は、第1の数の半分以下である。
好ましくは、第2の数は1である。
より好ましくは、生物は人間である。
本発明の第2の局面に係る識別装置は、上記したいずれかの周期画像復元装置と、各々が第1の数の画像からなる複数の対照画像列を記憶した対照画像列記憶装置と、入力画像から周期画像復元装置が復元した第1の数の画像と、対照画像列記憶装置に記憶された複数の対照画像列とを比較することにより、入力画像内の生物が、対照画像列記憶装置に記憶された複数の対照画像列が示す生物のいずれであるか識別するための識別手段とを含む。
本発明の第3の局面に係る検証装置は、上記したいずれかの周期画像復元装置と、第1の数の画像からなる対照画像列を記憶した対照画像列記憶装置と、入力画像から周期画像復元装置が復元した第1の数の画像と、対照画像列記憶装置に記憶された対照画像列とを比較することにより、入力画像内の生物が、対照画像列記憶装置に記憶された対照画像列が示す生物と同一か否かを検証するための検証手段とを含む。
本発明の第4の局面に係る周期画像復元方法は、周期性を持つ運動の、少なくとも当該運動の半周期以上の予め定められた第1の数の位相における、生物の第1の数の画像を、第1の数より小さな第2の数の画像から復元するための、コンピュータにより実現される方法であって、コンピュータが、第2の数の画像に関する運動の位相を推定する位相推定ステップと、コンピュータが、第2の数の画像から、位相に依存した位相依存特徴を抽出する位相依存特徴抽出ステップと、コンピュータが、位相推定ステップにおいて推定された位相に基づいて、位相依存特徴抽出ステップにおいて抽出された位相依存特徴を、位相から独立した位相非依存特徴に変換する特徴変換ステップと、コンピュータが、特徴変換ステップにおいて変換された後の位相非依存特徴に基づいて、運動をしている生物の、第1の数の位相の各々における画像を復元する画像復元ステップとを含む。
本発明の第5の局面に係る識別方法は、第4の局面に係る方法の各ステップと、コンピュータが、入力画像から方法により復元された第1の数の画像と、各々が第1の数の対照画像を含む複数の対照画像列とを比較することにより、入力画像内の生物が、対照画像列記憶装置に記憶された複数の対照画像列が示す生物のいずれであるか識別するステップとを含む。
本発明の第6の局面に係る検証方法は、第4の局面に係る方法の各ステップと、コンピュータが、入力画像から方法により復元された第1の数の画像と、第1の数の対照画像を含む対照画像列とを比較することにより、入力画像内の生物が、対照画像列が示す生物と同一か否かを検証するステップとを含む。
本発明の第7の局面に係る特徴抽出装置は、周期性を持つ運動を行っている生物の画像から、当該生物の個性を表す特徴を抽出するための特徴抽出装置であって、入力画像に基づいて、入力画像内の生物の姿勢が、運動におけるどの位相の姿勢かを推定する位相推定手段と、入力画像から、位相に依存した位相依存特徴を抽出する位相依存特徴抽出手段と、位相推定手段が推定した位相に基づいて、位相依存特徴抽出手段により抽出された位相依存特徴を、位相から独立した位相非依存特徴に変換するための特徴変換手段とを含む。
本発明の第8の局面に係る識別装置は、第7の局面に係る特徴抽出装置と、複数の生物が運動を行っている生物の画像からなる複数の対照画像を記憶した対照画像記憶装置と、入力画像から特徴抽出装置が抽出した位相非依存特徴と、複数の対照画像の各々から特徴抽出装置が抽出した位相非依存特徴とを比較することにより、入力画像内の生物が、対照画像記憶装置に記憶された複数の対照画像が示す生物のいずれであるか識別するための識別手段とを含む。
本発明の第9の局面に係る検証装置は、第7の局面に係る特徴抽出装置と、対照画像を記憶した対照画像記憶装置と、入力画像から特徴抽出装置が抽出した位相非依存特徴と、対照画像記憶装置に記憶された対照画像から特徴抽出装置が抽出した位相非依存特徴とを比較することにより、入力画像内の生物が、対照画像記憶装置に記憶された対照画像が示す生物と同一か否かを検証するための検証手段とを含む。
本発明の第10の局面に係る位相推定用のニューラルネットワークの訓練方法は、各々が、ある生物の、周期性を持つ運動の第1の数の位相のいずれかにおける、生物の姿勢を表す複数の画像を、それぞれ当該姿勢の位相を表す情報と関連付けて準備するステップと、画像の入力を受ける入力層と、第1の数のいずれかを示す出力を持つ出力層と、入力層と出力層との間に配置された、少なくともコンボリューション層を含む複数の中間層とを含むニューラルネットワークを準備し、各パラメータを初期化するステップと、複数の画像の各々について、当該画像を入力とし、当該画像の位相を表す情報を教師データとして、ニューラルネットワークの出力と教師データとの差を減少させるように、予め定められた終了条件が充足されるまでニューラルネットワークを訓練するステップとを含む。
好ましくは、複数の画像は、第1の生物を表す1又は複数の画像と、第1の生物と異なる第2の生物を表す1又は複数の画像とを含む。
より好ましくは、生物は人間である。
さらに好ましくは、第1の数の位相は、運動の一周期を等分した位相である。
本発明の第11の局面に係る周期画像の位相推定装置は、第10の局面に係る訓練方法により訓練されたニューラルネットワークを用いたものである。
この発明の第12の局面に係る周期画像復元装置は、周期性を持つ運動の、少なくとも当該運動の半周期以上の予め定められた第1の数の位相における、生物の第1の数の画像を、第1の数より小さな第2の数の画像から復元するための周期画像復元装置であって、第2の数の画像に関する運動の位相を推定する位相推定器と、第2の数の画像から、位相に依存した位相依存特徴を抽出する位相依存特徴抽出器と、位相推定器が推定した位相に基づいて、位相依存特徴抽出器により抽出された位相依存特徴を、位相から独立した位相非依存特徴に変換するための特徴変換器と、特徴変換器により変換された後の位相非依存特徴に基づいて、運動をしている生物の、第1の数の位相の各々における画像を復元するための画像復元器とを含む。
この発明の第13の局面に係る周期画像復元装置は、周期性を持つ運動の、少なくとも当該運動の半周期以上の予め定められた第1の数の位相における、生物の第1の数の画像を、第1の数より小さな第2の数の画像から復元するための、プロセッサを含む周期画像復元装置であって、プロセッサは、第2の数の画像に関する運動の位相を推定する位相推定器と、第2の数の画像から、位相に依存した位相依存特徴を抽出する位相依存特徴抽出器と、位相推定器が推定した位相に基づいて、位相依存特徴抽出器により抽出された位相依存特徴を、位相から独立した位相非依存特徴に変換するための特徴変換器と、特徴変換器により変換された後の位相非依存特徴に基づいて、運動をしている生物の、第1の数の位相の各々における画像を復元するための画像復元器として動作するようプログラムされている。
この発明の第14の局面に係る記憶媒体は、周期性を持つ運動の、少なくとも当該運動の半周期以上の予め定められた第1の数の位相における、生物の第1の数の画像を、第1の数より小さな第2の数の画像から復元するための周期画像復元装置として機能するようコンピュータを動作させるコンピュータプログラムを記憶した、コンピュータ読み取り可能な非一時的記憶媒体であって、コンピュータプログラムは、コンピュータを、第2の数の画像に関する運動の位相を推定する位相推定器と、第2の数の画像から、位相に依存した位相依存特徴を抽出する位相依存特徴抽出器と、位相推定器が推定した位相に基づいて、位相依存特徴抽出器により抽出された位相依存特徴を、位相から独立した位相非依存特徴に変換するための特徴変換器と、特徴変換器により変換された後の位相非依存特徴に基づいて、運動をしている生物の、第1の数の位相の各々における画像を復元するための画像復元器として動作させる。
この発明の上記及び他の目的、特徴、局面及び利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。
図1は、歩行画像に現れる、人物の歩容の特徴を説明する図である。 図2は、歩行画像から特徴を抽出する過程を説明する図である。 図3は、同一人物の異なる歩行画像を示す図である。 図4は、同一人物の歩行画像のうち、異なる位相の画像の相違を示す図である。 図5は、1枚の歩行画像から他の位相の歩行画像を推定するための情報が得られることを示す図である。 図6は、この発明の第1実施形態に係る歩容認証装置の概略構成を示すブロック図である。 図7は、歩容認証装置を用いた歩容認証システムの概略と、一歩行周期復元ネットワーク(PA-GCR)の概略構成を示すブロック図である。 図8は、図7に示す前処理部の構成を示すブロック図である。 図9は、図7に示す位相推定器を構成するニューラルネットワークの構成を示すブロック図である。 図10は、図7に示すエンコーダを構成するニューラルネットワークの構成を示すブロック図である。 図11は、図7に示すデコーダを構成するニューラルネットワークの構成を示すブロック図である。 図12は、第1実施形態に係る、図7に示す一歩行周期復元ネットワークを用いる本人認証システム及びその訓練の構成を示すブロック図である。 図13は、本人認証システムの構成及びその訓練に必要な構成を示すブロック図である。 図14は、図7に示す位相推定器を訓練するコンピュータプログラム(以下、単に「プログラム」という)の制御構造を示すフローチャートである。 図15は、図7に示す一歩行周期復元ネットワークを訓練するプログラムの制御構造を示すフローチャートである。 図16は、図7に示す認識ネットワークを訓練するプログラムの制御構造を示すフローチャートである。 図17は、図7に示す一歩行周期復元ネットワーク及び認識ネットワークの全体を訓練するプログラムの制御構造を示すフローチャートである。 図18は、コンピュータを、図12に示す本人認証システムとして機能させるプログラムの制御構造を示すフローチャートである。 図19は、図12に示す本人認証システムにより復元された画像が正解画像を精度よく復元していることを示す図である。 図20は、図12に示す本人認証システムにより、異なる位相の画像から復元された画像が正解と精度良く一致していることを示す図である。 図21は、図7に示す一歩行周期復元ネットワークを用いる個人識別装置の構成及びその訓練の構成を示す図である。 図22は、コンピュータを、図21に示す個人識別装置として機能させるプログラムの制御構造を示すフローチャートである。 図23は、図7に示す一歩行周期復元ネットワークを訓練するための、この発明の第2実施形態に係る訓練システムの概略構成を示すブロック図である。 図24は、図23に示す訓練システムにより訓練された一歩行周期復元ネットワークを用いる、この発明の第2実施形態に係る本人認証装置の概略構成を示すブロック図である。 図25は、データセットOU-MVLPを用いて検証したこの発明の実施形態に係る一歩行周期復元ネットワークによる認識精度を従来技術と比較して表形式で示す図である。 図26は、データセットCASIA-B及びOU-MVLPの組み合わせを用いて検証してこの発明の実施形態に係る一歩行周期復元ネットワークによる認識精度を従来技術と比較して表形式で示す図である。 図27は、データセットOUTD-D及びOU-MVLPの組み合わせを用いて検証したこの発明の実施形態に係る一歩行周期復元ネットワークによる認識精度を従来技術と比較して表形式で示す図である。 図28は、この発明の実施形態に係る一歩行周期復元ネットワーク及びそれを訓練するシステムを実現するコンピュータシステムの外観図である。 図29は、図28に示すコンピュータシステムのハードウェア構成を示すブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰り返さない。
<歩容の特徴>
図1は、互いに異なる3人の被験者の歩行画像列50、52及び54を示す図である。これらはいずれも1歩行周期を表す。
人の歩容には人それぞれの個性(個人性)が現れる。個性とは、例えば参照符号60及び62により示されるような腕の振り、参照符号64及び66により示されるような姿勢、参照符号68及び70により示されるような歩幅、参照符号72及び74により示されるような左右の非対称性等である。様々な人物についてこれらの特徴を予め抽出する。入力された歩行画像から同様の特徴を抽出する。この特徴を予め抽出しておいた人物の特徴と比較することで、人物を認証したり同定したりできる。
図2を参照して、歩行周期とその特徴との関係について説明する。図2を参照して、例えば歩行画像90が周期画像100、102及び104の3周期からなるものとする。最初に歩行画像90からこれら3周期を区別する。そして周期画像100から特徴110、周期画像102から特徴112、周期画像104から特徴114のように各周期からその歩容を示す特徴を抽出する。これら特徴を予め準備しておいた複数の人物の歩容の特徴と比較すればよい。
図2に示すように1歩行周期の画像が全て入手できれば既存の方法で歩容認証を行うことができる。しかし、例えば1枚の画像から高い精度で歩容認証を行うのは非常に難しいという問題があった。
図3を参照して、歩行画像列130及び歩行画像列132は同一人物の歩容を示す。例えば歩行画像列130の歩行画像150と歩行画像列132の歩行画像152を抽出したものを図4に示す。
図4を参照して、同一人物であっても、歩容の位相が異なればその画像は異なってくる。そもそも、同一人物の歩容で位相が同一であっても、画像がほとんど同一になるとは限らない。したがって、ある人物の歩容のある位相の単一歩行画像のみを使用しても、歩容認証を高い精度で行うことは難しい。特許文献1の記載からもそれが理解できる。また単一の画像でなく、複数の位相の画像を用いたとしても、枚数が少なければ特許文献1の記載からは精度を十分に高めることが難しい事が分かる。
一方、図5には別々の人物の半歩行周期の歩行画像列170及び172を示す。これら歩行画像列170及び172はそれぞれ位相を揃えて示してある。図5を参照して、例えば歩行画像列170の参照符号180とその画像に隣接する画像とを比較すると、参照符号180で前かがみである場合には、その前後でも前かがみの姿勢が持続することが分かる。また歩行画像列170の参照符号180と歩行画像列172の参照符号184とを比較すると、参照符号184の姿勢は後方に傾いており、また足の膝関節の角度も大きい。これらの画像をその後の画像参照符号182及び186と比較すると、両足支持の状態では、明らかに参照符号186のほうが参照符号182よりも歩幅が大きくなっている。
このように歩行周期の画像を詳細に検討すると、単一の画像でも個人性を保っており、かつ歩行周期の別の位相の画像とも特徴を共有していたり、特徴を推定可能であったりすることが分かる。こうしたことから、単一(又は少数)の歩行画像から1歩行周期の全位相の画像が推定できる可能性があることが分かる。この発明は、そうした可能性に基づき実際に実験をし、その結果、単一の画像からも1歩行周期の全位相の画像が十分に高精度に推定可能であることを確認したことにより実現したものである。
このように1歩行周期の全位相の画像が高精度に推定できると、1周期の歩行画像列から歩容認証を行う既存のシステムをそのまま利用でき、利用価値が非常に高い。なお、特許文献1に記載の技術では、1周期の歩行画像の全てでなくても、ある程度の枚数、例えば半数程度以上の枚数であればかなり高い精度で歩容認証が行えることもわかっている。
<第1実施形態>
《構成》
図6に、この発明の第1実施形態に係る歩容認証装置200の概略構成を示す。図6を参照して、歩容認証装置200は、単一の入力画像210から一歩行周期の全位相の一歩行周期画像214を復元する、ニューラルネットワークを含む一歩行周期復元ネットワーク212と、一歩行周期画像214を入力として歩容認証のための識別的な特徴218を抽出する、ニューラルネットワークからなる認識ネットワーク216とを含む。認識ネットワーク216としては既存のもの、例えば特許文献1に記載のもの(GaitSet)を利用できる。なお、図面上では、記載を簡明にするために認識ネットワーク216を「GaitSet」と、一歩行周期復元ネットワークを「PA-GCR」又は「PA-CGRNet」と記載することがある。
図7を参照して、図6に示す一歩行周期復元ネットワーク212を用いる歩容認証システム240は、歩行画像を撮影するカメラ250と、カメラ250からの画像に所定の前処理を行いシルエット画像である入力画像210を出力する前処理部252と、入力画像210を受けて一歩行周期の所定の数の位相の各々についての歩行画像からなる歩行画像列214を出力する一歩行周期復元ネットワーク212と、歩行画像列214を入力として、識別的な特徴(識別特徴)を出力するための認識ネットワーク216とを含む。
一歩行周期復元ネットワーク212は、入力画像210の一歩行周期における位相を推定して位相270を出力する位相推定器260と、入力画像210から、画像の個人性を表す、位相に依存した位相依存特徴272を抽出するためのエンコーダ262と、位相270と位相依存特徴272とを受けて、位相依存特徴272を位相に依存しない位相非依存特徴274に変換するための特徴変換器264と、位相非依存特徴274から一歩行周期の各位相の画像からなる一歩行周期画像214を出力するためのデコーダ266とを含む。一歩行周期画像214が得られれば、この一歩行周期画像214を認識ネットワーク216に与えることにより歩容認証のための識別的な特徴が得られる。
この第1実施形態では、位相推定器260、エンコーダ262、特徴変換器264及びデコーダ266はいずれもニューラルネットワークで実現される。これらのうち、特徴変換器264は位相依存特徴272を受ける入力を持ち位相非依存特徴274を出力する全結合ネットワークである。特徴変換器264の入出力ともその個数は100である。他の構成については後述する。
図8に、前処理部252の構成を示す。図8を参照して、前処理部252は、人物と背景画像とが同時に撮影された入力画像290と、人物を除く背景画像292とを受け、グラフカット法、平均値シフト法、領域拡張法、セマンティックセグメンテーション法等の公知の手法を用いて自動的にシルエット画像302を抽出するためのシルエット画像抽出装置300と、シルエット画像302のうち、人物に相当する部分を含む所定形状の領域を抽出し、人物の画像の高さが所定の画素数となるように、かつ人物の部分が中央にくるように、これも公知の手法を用いて画像を正規化し入力画像210を出力するための画像正規化処理部304とを含む。この第1実施形態では、入力画像210は64×64画素に正規化される。
図9を参照して、位相推定器260は、入力画像210の入力を受けるコンボリューション層からなる第1層320と、同様にそれぞれ第一層前の出力を入力として受ける第2層322、第3層324及び第4層326と、第4層326の出力を入力として受ける全結合層からなる第5層328と、第5層328の出力を受ける全結合層からなる第6層330と、第6層330の出力を受けて正規化(バッチ正規化)を行って正規化後の位相270を表すパラメータを出力するための正規化層332とを含む。
図9及び以下の図面において、第1層320のように点線で示した層はコンボリューション層であり、実線で示した層は全結合層である。図11に示すように破線で示した層はデコンボリューション層である。またコンボリューション層の左に記載した数字(99×9×9/9)のうち、スラッシュの左側はコンボリューションのカーネル(フィルタ)の数及び次元を示し、右側はストライドを示す。全結合層の左側に記載した数字はその層の出力数である。
図10を参照して、エンコーダ262は、入力画像210を受ける入力を持つ第1層350と、それぞれ前層の出力を受ける入力を持つ第2層352、第3層354及び第4層356と、第4層356の出力を受け、位相依存特徴272を出力する第5層358とを含む。
図11を参照して、デコーダ266は、位相非依存特徴274を受ける、活性化関数としてReLU関数を用いる第1層380と、第1層380の出力から後に順に接続された、いずれもコンボリューション層からなる第2層382、第3層384、第4層386及び第5層388とを含む。第5層388からは、各々が64×64画素の、一歩行周期の25個の歩行画像が得られる。
図7に示す一歩行周期復元ネットワーク212及び認識ネットワーク216がニューラルネットワークを含むため、これらについて適切な訓練を行う必要がある。この実施形態では、位相推定器260の訓練、一歩行周期復元ネットワーク212の訓練、及び一歩行周期復元ネットワーク212及び認識ネットワーク216を含む歩容認証システム240の全体の訓練という3段階の訓練を行う。
図12に、第1実施形態に係る本人認証システム400の概略構成を示す。図13を参照して、本人認証システム400は、一歩行周期復元ネットワーク212と、一歩行周期復元ネットワーク212と同じ構成で、各ニューラルネットワークのパラメータを共有する、一歩行周期復元ネットワーク212の訓練に用いる一歩行周期復元ネットワーク418とを含む。一歩行周期復元ネットワーク212には、同じ対象の異なる歩行周期の画像からも同様の特徴を抽出するという制約条件が課される。一歩行周期復元ネットワーク418を訓練に用いるのは、この制約条件を一歩行周期復元ネットワーク212が満たすように訓練するためである。
訓練では、Probe画像410が一歩行周期復元ネットワーク212に入力され、一歩行周期復元ネットワーク212が復元歩行画像列412を出力する。ここで、Probe画像とは、本人認証又は個人識別の対照となる人物の画像のことをいう。後述するGallery画像とは、予め登録されている同一人物の歩行画像のことをいう。訓練ではさらに、この復元歩行画像列412と、Probe画像410を含む正解歩行画像列424との損失関数610(Lrecon)を算出する。一方、同様にGallery画像414を一歩行周期復元ネットワーク418に入力して復元歩行画像列416を出力する。この復元歩行画像列416と、Gallery画像414に対する正解歩行画像列428との間の損失関数612を算出する。
さらに復元歩行画像列412を認識ネットワーク216に入力して識別特徴を算出する。同様に、復元歩行画像列416を認識ネットワーク436に入力して識別特徴を算出する。そして両者の差Dに基づく損失関数614(Lcont)を算出する。具体的には、本人同士のペアに対してはLcont=D、別人物同士のペアの場合に対してはLcont=max(マージン-D,0)として損失を算出する。こうすることで、本人同士のペアの場合には画像の差Dが小さくなるように認識ネットワーク216及び436のパラメータの学習が行われ、別人物同士のペアの場合には、画像の差Dが一定の値(マージン)よりも大きければペナルティなし、画像の差Dがマージン以下であればマージンと差Dとの差が小さくなるように、すなわち画像の差Dが大きくなるように、パラメータの学習が行われる。
一方、一歩行周期復元ネットワーク212がProbe画像410から得る位相に依存しない特徴と、一歩行周期復元ネットワーク418がGallery画像414から得た位相に依存しない特徴との間の誤差(Lsim)も算出する。
一歩行周期復元ネットワーク212の訓練では、これらの誤差の重み付き和を損失関数として、誤差逆伝播法により各ネットワークのパラメータの学習を行う。
図13を参照して、より具体的には、本人認証システム400は、位相推定器260の訓練のための歩行画像をその位相を示す値とともに訓練データとして記憶する訓練データ記憶装置420と、訓練データ記憶装置420に記憶された訓練データを用いて位相推定器260の訓練を行うための位相推定器訓練部422とを含む。
一歩行周期復元ネットワーク418は、一歩行周期復元ネットワーク212の位相推定器260、エンコーダ262、特徴変換器264及びデコーダ266に対応する構成要素として、位相推定器450、エンコーダ452、特徴変換器454及びデコーダ456を含む。一歩行周期復元ネットワーク418にGallery画像414が与えられると、位相推定器450は位相460を、エンコーダ452は位相依存特徴462を、それぞれ出力する。特徴変換器454は位相460を用いて位相依存特徴462を位相非依存特徴464に変換する。デコーダ456は位相非依存特徴464から復元歩行画像列416を復元する。
本人認証システム400はさらに、一歩行周期復元ネットワーク212及び一歩行周期復元ネットワーク418にそれぞれProbe画像410及びGallery画像414を与えたときの位相非依存特徴274と位相非依存特徴464との所定の誤差関数Lsimを算出するための誤差算出部432と、Probe画像410が与えられたときに一歩行周期復元ネットワーク212が出力する復元歩行画像列412及び正解歩行画像列424の間の所定の誤差関数Lreconを算出するための誤差算出部426と、Gallery画像414が与えられたときにデコーダ456が出力する復元歩行画像列416及び正解歩行画像列428の間の誤差関数Lreconを算出するための誤差算出部430と、誤差算出部432、426、430がそれぞれ算出する誤差関数の重み付き和を最小化するように一歩行周期復元ネットワーク212のエンコーダ262、特徴変換器264及びデコーダ266のパラメータを訓練するための一歩行周期復元ネットワーク訓練部434とを含む。
位相非依存特徴274をfIp、位相非依存特徴464をfIgとすると、誤差算出部432が算出する誤差関数LsimはLsim=│fIp-fIg で表される。復元歩行画像列412をRIp、正解歩行画像列424をGTとすると誤差算出部426が算出する誤差関数LreconはLrecon=|RIp-GT で表される。復元歩行画像列416をRIg、正解歩行画像列428をGTとすると誤差算出部430が算出する誤差関数LreconはLrecon=|RIg-GT で表される。
図14は、コンピュータを位相推定器訓練部422として機能させるプログラムの制御構造を示すフローチャートである。図14を参照して、このプログラムは、位相推定器260を訓練するための訓練データを訓練データ記憶装置420に準備するステップ500と、訓練の予定実行回数だけステップ504を繰り返し実行するステップ502と、ステップ502の終了後、終了条件が充足されたか否かを判定し、充足されていなければ制御をステップ502に戻すステップ506と、ステップ506で終了条件が充足されていると判定されたときに、そのときの位相推定器260のネットワークパラメータを記憶装置に保存するステップ508とを含む。
ステップ504は、訓練データセットからm1サンプルのミニバッチをサンプリングするステップ510と、サンプリングされたミニバッチの画像を位相推定器260に順次入力し、位相推定器260の出力と訓練データの位相のラベル値との誤差Lestiを算出し、ミニバッチの各サンプルについてこの誤差Lestiを蓄積するステップ512と、ステップ512でミニバッチのサンプルについて蓄積された誤差Lestiを用いた誤差逆伝播法により、位相推定器260のパラメータを更新するステップ514とを含む。
図15は、コンピュータを、一歩行周期復元ネットワーク(PA-GCR)212の訓練装置として機能させるプログラムの制御構造を示すフローチャートである。ここでの訓練データは、ある人物の歩行画像列及びその中の1枚の画像と、同一人物の他の歩行画像列及びその中の1枚の画像とを一組としたデータからなる。
図15を参照して、このプログラムは、PA-GCRの訓練データを準備するステップ530と、訓練の予定実行回数だけ以下のステップ534を繰り返し実行するステップ532と、ステップ532の完了後、終了条件が充足されているか否かを判定し、充足されていなければ制御をステップ532に戻すステップ536と、ステップ536で終了条件が充足されていると判定されたときに、そのときの一歩行周期復元ネットワーク212のネットワークパラメータを保存するステップ538とを含む。
ステップ534は、図13に示す一歩行周期復元ネットワーク212と一歩行周期復元ネットワーク418(これらはパラメータを共有する、実質的に同一のネットワークである。)について行われる。以下の説明は一歩行周期復元ネットワーク212の各部について行い、一歩行周期復元ネットワーク418についての対応する部分はカッコ内に示す。
ステップ534は、訓練データセットからm2サンプルのミニバッチをサンプリングするステップ540と、サンプリングされたミニバッチ内の各サンプルをエンコーダ262(エンコーダ452)に入力し、位相依存特徴272(位相依存特徴462)を出力するステップ542と、位相推定器260(位相推定器450)の出力である位相270(位相460)に基づいて位相依存特徴272(位相依存特徴462)を変換し、位相非依存特徴274(位相非依存特徴464)を出力するステップ544とを含む。これら各ステップの処理の詳細については後述する。
ステップ534はさらに、同一人物に対する位相非依存特徴274と位相非依存特徴464の誤差Lsimを算出するステップ546と、位相非依存特徴274(位相非依存特徴464)をデコーダ266(デコーダ456)に入力して復元歩行画像列412(復元歩行画像列416)を出力し、復元歩行画像列412(復元歩行画像列416)と訓練データの正解歩行画像列424(正解歩行画像列428)との誤差Lreconを算出するステップ548と、ステップ546で算出された誤差Lsimとステップ548で算出された誤差Lreconとの重み付き和を損失関数として、誤差逆伝播法によりエンコーダ262、特徴変換器264及びデコーダ266のパラメータを更新するステップ550とを含む。
ステップ542、544では、正解歩行画像列424から1枚の画像を取り出してProbe画像410として一歩行周期復元ネットワーク212に入力する。同様に一歩行周期復元ネットワーク418において、一歩行周期復元ネットワーク212の訓練データと同一人物の他の訓練データから1枚の画像を取り出してGallery画像414として一歩行周期復元ネットワーク418に入力する。これらに対してステップ534の処理で得られた誤差関数を、Probe画像410及びGallery画像414となる画像を変えながら計算しステップ546及びステップ548で蓄積する。その値をミニバッチの全サンプルに対して実行し、蓄積された誤差をステップ550の誤差逆伝播法によるパラメータの更新で用いる。
図16は、図7に示す認識ネットワーク216を訓練するプログラムの制御構造を示すフローチャートである。図16を参照して、このプログラムは、認識ネットワーク216の訓練データを準備するステップ570と、訓練の予定実行回数だけステップ574を繰り返し実行するステップ572と、ステップ572が完了したときに、終了条件が充足されているか否かを判定し、充足されていなければ制御をステップ572に戻すステップ576と、ステップ576で終了条件が充足されていると判定されたときに、そのときの認識ネットワーク216のネットワークパラメータを記憶装置に保存してこのプログラムの実行を終了するステップ578とを含む。
ステップ574は、訓練データセットからm3サンプルのミニバッチをサンプリングするステップ580と、歩行画像列を認識ネットワーク216に入力し、出力される識別的な特徴218を元に識別損失Lregを算出しミニバッチ内で蓄積するステップ582と、識別損失Lregを損失関数とする誤差逆伝播法により、認識ネットワーク216のパラメータを更新するステップ584とを含む。
図17は、図7に示す一歩行周期復元ネットワーク212及び認識ネットワーク216の全体を訓練するプログラムの制御構造を示すフローチャートである。図17を参照して、このプログラムは、全体訓練の訓練データを準備するステップ880と、訓練の予定実行回数だけステップ884を繰り返して実行するステップ882と、ステップ882が完了したときに終了条件が充足されているか否かを判定し、充足されていなければ制御をステップ882に戻すステップ886と、ステップ886で終了条件が充足されていると判定されたときに、そのときの全体のネットワークパラメータを記憶装置に保存してプログラムの実行を終了するステップ888とを含む。
ここでの訓練データも、一歩行周期復元ネットワーク212のための各人物の歩行画像列及びその中の1枚の単一歩行画像、並びに一歩行周期復元ネットワーク418(図13)のための同じ人物の別の歩行画像列及びその中の1枚の単一歩行画像である。各歩行画像列には、画像内の人物を示すラベルが付されている。2枚の単一歩行画像の位相は同一である必要はない。
ステップ884での処理では、図13に示す一歩行周期復元ネットワーク212と一歩行周期復元ネットワーク418とに対し、異なるデータを用いて同じ処理を行うことがある。説明を簡明にするため、そうした場合には以下の説明では一歩行周期復元ネットワーク212についての処理のみを説明する。また以下の説明では図7又は図13に示された構成要素に適宜言及する。
ステップ884は、訓練データセットからm4個のサンプルからなるミニバッチをサンプリングするステップ900と、サンプリングされたミニバッチの各データについて、単一歩行画像をエンコーダ262に入力して位相依存特徴272を出力するステップ902と、同じ単一歩行画像について位相推定器260が出力した位相270と位相依存特徴272とを特徴変換器264に入力し、位相非依存特徴274を出力するステップ904と、以上のようにして一歩行周期復元ネットワーク212及び一歩行周期復元ネットワーク418でそれぞれ算出された位相非依存特徴274及びGallery画像414の間の差Lsimを算出するステップ906とを含む。
ステップ884はさらに、位相非依存特徴274をデコーダ266に入力して復元歩行画像列412を出力し、正解歩行画像列424との誤差Lreconを算出するステップ908と、ステップ908で出力された復元歩行画像列412と正解歩行画像列424とをそれぞれ認識ネットワーク216(図7)に入力し、認識ネットワーク216から出力された識別特徴を元に認識損失Lrcgを算出するステップ910と、ステップ906、908及びステップ910でそれぞれ算出された誤差Lsim, Lrecon, Lrcgの重み付き和により損失関数の値を算出し、ミニバッチについてのそれらの和を用いた誤差逆伝播法により全体ネットワークのパラメータを更新するステップ912とを含む。
本人認証では、図12に示す構成のうち、Probe画像410、一歩行周期復元ネットワーク212、復元歩行画像列412及び認識ネットワーク216の系列と、Gallery画像414、一歩行周期復元ネットワーク418、復元歩行画像列416及び認識ネットワーク436の系列を用いる。ただし一歩行周期復元ネットワーク418及び認識ネットワーク436は一歩行周期復元ネットワーク212及び認識ネットワーク216と同一である。Probe画像410は認証対象となる人物の単一歩行画像である。Gallery画像414は、認証対象となる人物と比較される人物の、予め準備(登録)された単一歩行画像である。
図18を参照して、本人認証を行うプログラムは、本人認証のテストデータ対(図12に示すProbe画像410とGallery画像414)を準備するステップ620と、一歩行周期復元ネットワーク212(一歩行周期復元ネットワーク418)及び認識ネットワーク216(認識ネットワーク436)のネットワークパラメータを読み込むステップ622と、テストデータ対の単一歩行画像の各々を一歩行周期復元ネットワーク212のエンコーダ262(図13)及び一歩行周期復元ネットワーク418のエンコーダ452に入力し、それぞれ位相依存特徴272及び462を算出するステップ624と、Probe画像410及びGallery画像414に対して位相推定器260及び450がそれぞれ出力する位相270及び460と、Probe画像410及びGallery画像414に対してそれぞれ得られた位相依存特徴272及び462を位相270及び460を用いて位相非依存特徴274及び464に変換するステップ626とを含む。
このプログラムはさらに、位相非依存特徴274をデコーダ266に、位相非依存特徴464をデコーダ456に、それぞれ入力し、復元歩行画像列412及び416を出力するステップ628と、復元歩行画像列412及び416を図12に示す認識ネットワーク216及び436に入力し、それぞれ識別特徴を出力するステップ630と、これらの識別特徴の差を算出するステップ632と、この識別特徴の差の絶対値が所定のしきい値以下か否かを判定し、判定結果にしたがって制御の流れを分岐させるステップ634と、ステップ634の判定が肯定のときに、Probe画像410とGallery画像414とが同一人物の画像であると判定してプログラムの実行を終了するステップ636と、ステップ634の判定が否定のときに、これらが他人の画像であると判定してプログラムの実行を終了するステップ638とを含む。すなわち、ステップ634の判定が肯定ならProbe画像410により表される人物の本人認証に成功したことになる。
《動作》
〈本人認証の訓練〉
図12を参照して、最初に位相推定器訓練部422が訓練データ記憶装置420に記憶された訓練データを用いて図14に示すプログラムにより位相推定器260の訓練を行う。次に本人認証システム400が、予め準備された訓練データを用いて図15に示すプログラムにより一歩行周期復元ネットワーク212の訓練を行う。さらに本人認証システム400が、予め準備された訓練データを用いて図16に示すプログラムにより正解歩行画像列424の訓練を行う。
次に、全体訓練のための訓練データを用いて、図17に示すプログラムにより一歩行周期復元ネットワーク212及び正解歩行画像列424を含む全体の訓練を行う。各プログラムの終了条件としては、例えば各プログラムでの繰り返し処理を、さらに規定のエポック数だけ繰り返したときという条件を用いる。
本人認証の訓練時の各構成要素の動作は、実質的に上記構成の説明の繰り返しになるのでここでは繰り返さない。
〈本人認証〉
本人認証の際の本人認証システム400の動作は、実質的に図18に示すプログラムの構造についての説明の繰り返しになるのでここでは繰り返さない。
〈第1実施形態の効果〉
図19に、上記第1実施形態を用いて単一歩行画像から1歩行周期の画像を復元した結果を示す。なお、この復元に用いたデータの詳細については後述する。
図19を参照して、入力Probeと入力Galleryとは図示したとおりである。入力Probeを含む1歩行周期の正解画像列を図19(A)に、入力Galleryを含む1歩行周期の正解画像列を図19(B)に、それぞれ示す。入力Probeから上記した一歩行周期復元ネットワーク212を用いて復元した歩行周期画像列を図19(C)に、入力Galleryから復元した歩行周期画像列を図19(D)に、それぞれ示す。
この結果から分かるように、単一の入力Probe画像から復元した歩行周期画像列も、同様に単一のGallery画像から復元した歩行周期画像列も、ともにそれぞれの正解画像とよく似ている。したがって、単一歩行画像から歩行周期画像列が高い精度で復元されていることが分かる。入力Probe画像と照合対象となったGallery画像とが、歩行周期の異なる位相のものであるにもかかわらずこうした結果が得られた。したがって、この結果から、単一の歩行画像から1歩行周期の画像列が、入力画像と比較対照の画像の位相と関係なく高い精度で得られることが分かる。
図19においてProbe画像とGallery画像の正解画像列同士の画像を歩行画像列(a)(b)の組み合わせ650で示す。これら正解画像列同士の画像としての平均二乗L2距離(参照符号650)は1.52e+06である。歩行画像列(a)(c)の組み合わせ652で示す、入力Probe画像から再現した歩行周期画像列とProbe画像の正解画像列との間の再現誤差は5.40e+02である。また歩行画像列(b)(d)の組み合わせ656で示す、入力Gallery画像から再現した歩行周期画像列とGallery画像の正解画像列との再現誤差は4.87e+02である。歩行画像列(c)(d)の組み合わせ654で示す、復元した画像列同士の平均二乗L2距離は1.55e+05である。
これら結果から、復元した画像列と正解画像列との間の誤差がProbe画像の正解画像列とGallery画像の正解画像列との間の距離よりも小さいという事実が分かる。またProbe画像からの復元歩行画像列とGallery画像からの復元歩行画像列との間の距離も同様に正解画像列同士の間の距離よりも小さいことが分かる。したがって、上記した第1実施形態により十分に高い精度で本人認証を行うことができる。
図20に、一歩行周期復元ネットワーク212を用いて同一人物の異なる3つの位相の単一歩行画像670、672及び674から復元した復元歩行画像列680、682及び684と、正解の正解歩行画像列686とを示す。単一歩行画像670、672及び674はいずれも単一歩行画像である。それに対し、図示はしていないが復元歩行画像列680、682、684及び正解歩行画像列686はいずれも1歩行周期を25個に分割した各位相の画像である。図20にはそのうち互いに同じ位相の画像を示す。
図20から分かるように、異なる位相の単一歩行画像から復元した復元歩行画像列680、682及び684は互いによく似ており、さらにいずれも正解歩行画像列686とも類似している。すなわち、上記した第1実施形態の説明に記載した訓練方法で訓練した一歩行周期復元ネットワーク212によれば、単一の歩行画像から、1歩行周期の画像全体を高い精度で復元できることが分かる。このように復元された1歩行周期の画像全体を認識ネットワーク216に入力することで、短時間で得られた少ない画像でも人物を認証するための特徴を抽出できる。
<第2実施形態>
第2実施形態は、第1実施形態と同様の構成を持つ一歩行周期復元ネットワーク212を個人識別に用いる場合の例である。
《構成》
図21を参照して、第2実施形態に係る個人識別装置690は、第1実施形態と異なり、ネットワークパラメータを共通にする3つの系列を持つ。第1の系列はProbe画像700を受けて復元歩行画像列412を出力する一歩行周期復元ネットワーク212と、復元歩行画像列412から識別特徴を出力する識別ネットワーク604とを含む。第2の系列は、Genuine画像702から復元歩行画像列416を出力する一歩行周期復元ネットワーク418と、復元歩行画像列416からその識別特徴を出力する識別ネットワーク606とを含む。第3の系列は、Imposter画像704から復元歩行画像列708を出力する一歩行周期復元ネットワーク706と、復元歩行画像列708から識別特徴を出力する認識ネットワーク712とを含む。
なお、Genuine画像とは、Probe画像と同一人物の、予め登録されている歩行画像列の1枚である。Imposter画像とは、Probe画像とは別人物の、予め登録されている歩行画像列の1枚である。
個人識別装置690の訓練時、一歩行周期復元ネットワーク212と一歩行周期復元ネットワーク418の間では、第1実施形態と同様に位相非依存特徴の差Lsimが算出される。復元歩行画像列412と正解歩行画像列424、復元歩行画像列416と正解歩行画像列428との間でもそれぞれ損失関数610及び612(Lrecon)が算出される。復元歩行画像列708と、Imposter画像704を含む正解歩行画像列710との間の損失関数714も算出される。識別ネットワーク604、606及び712の出力する識別的な特徴の間で定義される損失関数716(Ltrip)も算出される。Ltripについては後述する。
個人識別装置690の訓練のうち、一歩行周期復元ネットワーク212及び識別ネットワーク604の訓練は第1実施形態と同様である。個人識別装置690の全体訓練では、上記した誤差から定義される損失関数を用いた誤差逆伝播法によりネットワーク全体のパラメータの訓練が行われる。
識別ネットワーク604と識別ネットワーク606とは同じ人物の画像に関するものである。したがって、損失関数716の算出時にはその差の絶対値(これをD1とする。)が損失として用いられ、これを小さくするようパラメータが更新される。一方、認識ネットワーク712の出力は、識別ネットワーク604とは異なる人物のものである。したがって、損失関数716の算出時にはその差の絶対値(これをD2とする。)にマイナス符号をつけたものが損失として用いられ、この値を小さくするようパラメータが更新される。例えば、ある対象となる人物のあるサンプルについての誤差Ltripをmax(マージン+D1-D2、0)とする。この誤差Ltripをミニバッチに含まれる全ての人物の全てのサンプルについて加算したものを他の損失に加算して損失関数とし、誤差逆伝播法を適用する。このように損失関数を定義することで、同じ人物の画像の誤差が、異なる人物の画像の誤差より相対的に小さくなるように、ネットワークの学習が行われる。
個人識別装置690の訓練の流れについては、損失関数の計算が異なるだけで全体の流れは第1実施形態と同様である。したがってここではその詳細は繰り返さない。
個人識別装置690による個人識別では、図21に示す第1の系列と第2の系列とを使用する。第3の系列は使用しない。
図22は、コンピュータを第2実施形態の個人識別装置690として機能させるプログラムの制御構造を示すフローチャートである。図22を参照して、このプログラムは、個人識別の入力データを準備するステップ730と、個人識別のために予め準備されている、各個人の照合用の歩行画像列からなる登録データセットを準備するステップ732とを含む。個人識別は、入力画像が表す人物が、登録されている歩行画像列の人物のいずれであるかを識別するためのものである。
このプログラムはさらに、図21に示す一歩行周期復元ネットワーク212及び識別ネットワーク604のネットワークパラメータを記憶装置から読み出して各ニューラルネットワークを初期化するステップ734と、入力データの単一歩行画像をエンコーダ262(図13)に入力し位相依存特徴272を出力するステップ736と、位相推定器260の出力する位相270に基づいて、位相依存特徴272を位相非依存特徴274に変換するステップ738と、ステップ738で出力された位相非依存特徴をデコーダ266に入力し、一歩行周期の復元歩行画像列412を出力するステップ740と、このようにして得られた一歩行周期の復元歩行画像列412を識別ネットワーク604に入力し、識別特徴を出力するステップ742とを含む。
このプログラムはさらに、登録データの単一歩行画像をエンコーダ452に入力しその出力に位相依存特徴462を得るステップ744と、位相推定器450の出力する位相460とステップ744で出力された位相依存特徴462とを特徴変換器454に入力し、その出力に位相非依存特徴464を得るステップ746と、ステップ746で出力された位相非依存特徴464をデコーダ456に入力し、一歩行周期の復元歩行画像列416を出力するステップ748と、ステップ748で出力された復元歩行画像列416を識別ネットワーク606(図21)に入力し、その出力に識別特徴を得るステップ750とを含む。
このプログラムはさらに、ステップ742で出力された識別特徴とステップ750で出力された識別特徴との差を算出し昇順にソートするステップ732と、ステップ732で得られたリストを登録ランクリストとして出力しプログラムの実行を終了するステップ754とを含む。この実施形態では、ステップ752で算出される差は、識別特徴を構成するベクトルの二乗L2距離である。入力画像の人物は、このリストの先頭にある識別特徴の差、すなわち最小の識別特徴の差を与えた登録データの人物であると識別される。
《動作》
この第2実施形態に係る個人識別装置690の訓練時の動作は、実質的に構成の説明の繰り返しになるため、ここでは繰り返さない。テスト時(識別時)の個人識別装置690の動作も同様、図22の説明の繰り返しになるため、ここでは繰り返さない。
この第2実施形態によれば、一歩行周期復元ネットワーク212を用いて、単一の歩行画像から復元歩行画像列412、416等を高い精度で復元できる。識別を行うための識別ネットワーク604及び識別ネットワーク606としては、既存のものをそのまま流用できる。その結果、単一の歩行画像から、その人物が予め歩行データの登録された人物のうちのいずれであるかを高い精度で識別できる。
<第3実施形態>
上記した第1実施形態及び第2実施形態のいずれでも一歩行周期復元ネットワーク212が復元した一歩行周期画像を認証及び識別に用いている。しかし、例えば図13を見ると、デコーダ266は位相非依存特徴274に基づいて復元歩行画像列412を復元している。したがって、適切に訓練した一歩行周期復元ネットワーク212により単一歩行画像から得られた位相非依存特徴274は、復元歩行画像列412を復元するために十分な情報というだけではなく、画像の人物を特定するに十分な情報を保持しているはずである。そこで、この第3実施形態では、位相非依存特徴274を直接に識別ネットワークに入力して識別特徴を得て、歩容による本人認証又は個人識別を行う。
《構成》
図23に、第3実施形態に係る一歩行周期復元ネットワーク212の訓練を行うための訓練システム770の構成を示す。訓練システム770は、第1実施形態の図13に示すものと類似した構成を持つ。より具体的には、訓練システム770は、図13に示すものと同様の構成である一歩行周期復元ネットワーク212及び418と、誤差算出部426及び430とを含む。一歩行周期復元ネットワーク212には認証対象となる人物のProbe画像780が入力される。一歩行周期復元ネットワーク418には照合対象となる人物の、予め登録されたGallery画像782が入力される。
訓練システム770はさらに、一歩行周期復元ネットワーク212の特徴変換器264が出力する位相非依存特徴274を受けて識別的な特徴を出力する識別ネットワーク784と、一歩行周期復元ネットワーク418の特徴変換器454が出力する位相非依存特徴464を受けて識別的な特徴を出力する識別ネットワーク786と、誤差算出部426及び430が出力する誤差と識別ネットワーク784及び識別ネットワーク786の出力の差との重み付き和により定義される損失関数を最小化するよう、一歩行周期復元ネットワーク212及び識別ネットワーク784のネットワークパラメータを更新する一歩行周期復元ネットワーク訓練部792とを含む。
この第3実施形態に係る一歩行周期復元ネットワーク212を用いて本人認証を行う本人認証装置800の構成を図24に示す。図24を参照して、本人認証装置800は、図23の誤差算出部426、430及び一歩行周期復元ネットワーク訓練部792に代えて、識別ネットワーク784及び識別ネットワーク786の出力を受けて、その差が所定のしきい値以内であればProbe画像780の表す人物がGallery画像782の表す人物と同一であるとしてこの人物を認証し、さもなければ認証を拒否する処理を行う判定部802を含む。
《動作》
図23を参照して、位相推定器260及び一歩行周期復元ネットワーク212の訓練は第1実施形態と同様に実施される。識別ネットワーク784については独立した訓練を行わず、訓練システム770の全体で訓練を行う。この訓練のときの訓練システム770の動作は、上記した構成で説明したことで実質的に示されている。したがって、説明を簡明にするために個々では繰り返さない。
テスト時には、図24に示す本人認証装置800が使用される。本人認証装置800の動作も、識別ネットワーク784、786及び判定部802について上記した説明から明らかであるのでここでは繰り返さない。
<実施形態の効果>
上記第1実施形態の効果を確認するために、大規模公開歩行映像データベースを用いて第1実施形態の精度を評価した。使用したデータベースは以下のとおりである。
OU-MVLP: The OU-ISIR Gait Database, Multi-View Large Population Dataset。入手先はhttp://www.am.sanken.osaka-u.ac.jp/BiometricDB/GaitMVLP.html。被験者数は10,307名。
CASIA-B: CASIA Gait Database, Dataset B。入手先はhttp://www.cbsr.ia.ac.cn/english/Gait%20Databases.asp。被験者数は124名。
OUTD-D: The OU-ISIR Gait Database, Treadmill Dataset D。入手先はhttp://www.am.sanken.osaka-u.ac.jp/BiometricDB/GaitTM.html。被験者は185名。
訓練では以下の条件を使用した。
・最適化アルゴリズム: Adam
・バッチサイズ: 8人の人物 × 1人当たり16サンプル
・Triplet損失のmargin: 0.2
・各損失関数の重み
・Lsim: 0.0005
・Lrecon: 1
・Ltrip: 1
・訓練時の学習率と繰り返し数は以下のとおりである。なおこの表中で「GaitSet」は識別ネットワークとして使用したものを表し、「PA-GCR」又は「PA-GCRNet」は一歩行周期復元ネットワーク(実施形態の一歩行周期復元ネットワーク212)を表す。また、以下の実験で本人認証に用いたネットワークは、第2実施形態の個人識別のためのネットワークとして訓練したものである。
Figure 0007353686000001
位相推定器260の訓練にはOU-MVLPを利用した。その内容は以下のとおり
・入力:様々な位相の単一歩行画像
・ラベル:位相
・データ数:5,153名の歩行画像(64×64画素)
一歩行周期復元ネットワーク212の事前学習に使用した訓練データの概略は以下のとおり
・入力:様々な位相の単一歩行画像(64×64画素)
・ラベル:一周期の歩行画像列(25枚×64×64画素)、被験者ID
・データ数
・OU-MVLP:5,153名の2セッション分(被験者によっては1セッション分)
・CASIA-B:24名の6セッション分
・OUTD-D:85名の2セッション分
識別ネットワーク(GaitSet)の事前学習に利用したデータの内容は以下のとおり
・入力:歩行画像列からランダムに選択した画像(30枚×64×64画素)
・ラベル:被験者ID
・データ数:一歩行周期復元ネットワーク212の事前学習と同じ
全体ネットワークの訓練に利用したデータの内容は以下のとおり
・入力:様々な位相の単一歩行画像(64画素×64画素)
・ラベル:一周期の歩行画像列(25枚×64×64画素)、被験者ID
・データ数:一歩行周期復元ネットワーク212及び識別ネットワークの事前学習と同じ
テストに利用したデータの内容は以下のとおりである。
・入力:様々な位相の単一歩行画像(64画素×64画素)
・ラベル:一周期の歩行画像列(25枚×64×64画素)、被験者ID
・データ数
・OU-MVLP:5,154名の2セッション分(被験者によっては1セッション分)
・各セッションを登録と入力に割り当て
・CASIA-B:100名の6セッション分
・登録:1セッション目
・入力:2-6セッション目
・OUTD-D:85名の2セッション分
・各セッションを登録と入力に割り当て
以下の実験における精度評価には、Rank-1とEER(Equal Error Rate)とを使用した。これらの定義は以下のとおりである。
Rank-1:登録人物群に対して、入力された人物がだれであるかを識別する問題(個人識別)の正解率(登録数は約5,000人)
EER[%]:入力ペアに対する本人認証問題における、他人受け入れ誤り率(他人を誤って本人として認証してしまう確率)と、本人拒否誤り率(本人を誤って他人として拒否してしまう確率)とが等しい値となる誤り率
《実験1》
図25に実験1の結果を示す。図25において、「DM」は単に画像間の類似度に基づいて判定を行った結果を示す。「GaitSet」は特許文献1に記載の方法を用いた場合の結果を示す。「PA-GCRNet」は上記第1実施形態(本人認証)及び第2実施形態(個人識別)を用いた場合の結果を示す。これらは後述の実験2及び実験3でも同様である。なお、特許文献1(非特許文献1)に記載の方法を実装するためのプログラムは公開されており、以下の実験ではそれらプログラムを用いて本発明の発明者が実装したものを用いた。
図25を参照して、Rank-1では、参照符号810で示すとおり、非特許文献1に記載の方法の結果は14.0であった。それに対して参照符号812で示すとおり、上記実施形態での結果は80.3である。両者を比較すると、上記実施形態はRank-1で約5.5倍(14.0→80.3)の精度を示している。
EERについては、参照符号814及び参照符号816で示すとおり、上記実施形態によれば非特許文献1の結果に対して約1/15(19.6→1.3)の低減を示している。したがって上記実施形態に係るPA-GCANetが非特許文献1に記載の方法と比較して非常に高い精度を示すことが分かる。
《実験2》
図26に実験2の結果を示す。この表においてPA-GCRNet(scratch)、PA-GCRNet(cross-dataset)、及びPA-GCRNet(fine-tune)の意味はそれぞれ以下のとおりである。
・PA-GCRNet(scratch):CASIA-Bのうち24人の人物の訓練データのみを用いてPA-GCRNetの訓練をしたもの。
・PA-GCRNet(cross-dataset):OU-MVLPを用いてPA-GCRNetを訓練したものについて、CASIA-Bのデータを用いてテスト。これはPA-GCRNetの汎化性能を確認するためである。
・PA-GCRNet(fine-tune):OU-MVLPを用いて訓練したPA-GCRNetをCASIA-Bによりファインチューニングしたもの。
図26にはさらにITCNetによる結果も示した。ITCNetは以下の参考文献1で報告されている手法である。
[参考文献1] Babaee, M., Li, L., Rigoll, G.: Person identification from partial gait cycle using fully convolutional neural networks. Neurocomputing 338, 116-125 (2019)
なお、他の手法が入力画像として単一歩行画像を用いるのと異なり、ITCNetはProbe画像とGallery画像の双方について14フレームの画像を用い、両者を融合することで結果を得る手法である。
図26を参照して、PA-CGRNet(scratch)は訓練データセットのデータ量が少ないことに起因して、Rank-1及びEERの双方においてそれほど高い性能を示していない。しかしそれでもPA-GCRNet(scratch)はいずれについても特許文献1に記載のGaitSetよりは高い性能を示していることが分かる。
PA-GCRNet(cross-dataset)とPA-GCRNet(fine-tune)とを比較すると、参照符号820及び参照符号822で示すとおり、Rank-1では両者はいずれも74.7という非常に高い値を示しており、この値は他のどの手法よりも高い。またEERでも参照符号824及び参照符号826で示すとおり、両者は他のどの手法と比較しても低い誤り率を示していることが分かる。特にPA-GCRNet(cross-dataset)によるEER(参照符号826)の値は9.9と、PA-GCRNet(fine-tune)によるEER(参照符号824)の値(8.1)よりわずかに低いだけである。すなわち、OU-MLVPで訓練しただけでファインチューニングしていないPA-GCRNetを用いてCASIA-Bのデータについてテストをしても十分に高い性能が得られ、PA-GCRNetの汎化性能が高いことが分かる。
《実験3》
図27に、データセットOUTD-D及びOU-MVLPの組み合わせを用いてPA-GCRNetの性能を検証した結果を示す。図27の参照符号840で示す4行のうち、「NoTSR」及び「Unified TSR」は下記の参考文献2に、「Morph」は参考文献3に、「TSR」は参考文献4に、それぞれ記載された手法を用いて得た結果を示す。これら4行の手法は、各画像列について同時に6フレームの画像を用いる点で上記各実施形態とは異なる。
[参考文献2] Akae, N., Mansur, A., Makihara, Y., Yagi, Y.: Video from nearly still: an application to low frame-rate gait recognition. In: Proceedings of the 25th IEEE Conf. on Computer Vision and Pattern Recognition (CVPR2012). pp. 1537-1543. Providence, RI, USA (Jun 2012)
[参考文献3] Al-Huseiny, M.S., Mahmoodi, S., Nixon, M.S.: Gait learning-based regenerative model: A level set approach. In: The 20th International Conference on Pattern Recognition. pp. 2644-2647. Istanbul, Turkey (Aug 2010)
[参考文献4] Akae, N., Makihara, Y., Yagi, Y.: Gait recognition using periodic temporal super resolution for low frame-rate videos. In: Proceedings of the International Joint Conference on Biometrics (IJCB2011). pp. 1-7. Washington D.C., USA (Oct 2011)
この表においてPA-GCRNet(scratch)、PA-GCRNet(cross-dataset)、及びPA-GCRNet(fine-tune)の意味はそれぞれ以下のとおりである。
・PA-GCRNet(scratch):OUTD-Dの訓練データを用いてPA-GCRNetの訓練をしたもの。
・PA-GCRNet(cross-dataset):OU-MVLPを用いてPA-GCRNetを訓練したものについて、OUTD-Dのデータを用いてテスト。
・PA-GCRNet(fine-tune):OU-MVLPを用いて訓練したPA-GCRNetをOUTD-Dによりファインチューニングしたもの。
図27から、PA-GCRNet(scratch)も含めて本発明の実施形態に係るPA-GCRNetによれば、単一の画像を用いる他のどの手法よりも高い精度が得られる事が分かる。参照符号850及び参照符号854により示されるように、PA-GCRNeが十分な汎化性能を持つことが分かる。PA-GCRNet(fine-tune)の場合には参照符号852及び参照符号856に示すようにさらに高い性能を示す。これらの値は、低フレームレート(各画像列について1より多い画像を使用)の手法で最も高い性能を示すUnified TSR以上の性能を示すものとなっている。
以上から、本発明に係る一歩行周期復元ネットワークは、単一の歩行画像を入力として用いるにもかかわらず、高い精度で一周期の歩行画像を復元できることが分かる。その結果、この復元画像を用いて既存の歩容認証の手法を用いることで本人認証及び個人識別のいずれについても高い精度で行える。このことからまた、一周期の歩行画像を復元せず、位相非依存特徴を使用した場合についても同様に高い性能を示すであろうことが予測できる。
<コンピュータによる実現>
図28は、上記各実施形態に係る歩容認証装置200、一歩行周期復元ネットワーク212、認識ネットワーク216、歩容認証システム240、前処理部252、本人認証システム400、個人識別装置690、訓練システム770、本人認証装置800等を実現するコンピュータシステム950の外観図である。図29は、図28に示すコンピュータシステム950のハードウェアブロック図である。
図28を参照して、このコンピュータシステム950は、DVD(Digital Versatile Disc)ドライブ1002を有するコンピュータ970と、いずれもコンピュータ970に接続された、ユーザと対話するためのキーボード974、マウス976、及びモニタ972とを含む。もちろんこれはユーザ対話のための構成の一例であって、ユーザ対話に利用できる一般のハードウェア及びソフトウェア(例えばタッチパネル、音声入力、ポインティングデバイス一般)であればどのようなものも利用できる。
図29を参照して、コンピュータ970は、DVDドライブ1002に加えて、CPU(Central Processing Unit)990と、GPU(Graphics Processing Unit)992と、CPU990、GPU992、DVDドライブ1002に接続されたバス1010と、バス1010に接続され、コンピュータ970のブートアッププログラム等を記憶するROM(Read-Only Memory)996と、バス1010に接続され、プログラムを構成する命令、システムプログラム、及び作業データ等を記憶するRAM(Random Access Memory)998と、バス1010に接続された不揮発性メモリであるハードディスクドライブ1000とを含む。
ハードディスクドライブ1000は、CPU990及びGPU992が実行するプログラム、CPU990及びGPU992が実行するプログラムが使用するデータ等を記憶するためのものである。コンピュータ970はさらに、他端末との通信を可能とするネットワーク986への接続を提供するネットワークンターフェイス1008と、半導体メモリ984が着脱可能で、半導体メモリ984とコンピュータ970内の各部との通信を提供する半導体メモリポート1006と、カメラ等の外部装置との間でデータの入出力を行うための入出力インターフェイス1004とを含む。
上記実施形態では、図7から図12、図20、図21、図23及び図24等に記載されたデータ及びパラメータ等は、いずれも例えば図29に示すハードディスクドライブ1000、RAM998、DVD978、半導体メモリ984、若しくはネットワークンターフェイス1008及びネットワーク986又は入出力インターフェイス1004を介して接続された図示しない外部装置の記憶媒体等、非一時的記憶媒体に格納される。典型的には、これらのデータ及びパラメータ等は、例えば外部からハードディスクドライブ1000に書き込まれ、コンピュータ970の実行時には必要に応じRAM998にロードされる。
このコンピュータシステム950を図6に示す歩容認証装置200、図7に示す前処理部252、歩容認証システム240及び認識ネットワーク216、図12及び図13に示す本人認証システム400、図21に示す個人識別装置690、図23に示す訓練システム770、並びに図24に示す判定部802並びにそれらの各構成要素の機能を実現するよう動作させるためのプログラム、ニューラルネットワークのネットワークパラメータ及びアルゴリズムを実現するプログラム、図14から図18並びに図22に制御構造を示すプログラム等は、DVDドライブ1002に装着されるDVD978に記憶され、DVDドライブ1002からハードディスクドライブ1000に転送される。又は、これらのプログラム及びパラメータは半導体メモリ984に記憶され、半導体メモリ984を半導体メモリポート1006に装着し、プログラム及びパラメータをハードディスクドライブ1000に転送する。又は、これらのプログラム及びパラメータはネットワーク986を通じてコンピュータ970に送信されハードディスクドライブ1000に記憶されてもよい。いずれにせよ、プログラム及びパラメータはコンピュータ読み取り可能な非一時的記憶媒体に記憶される。プログラム及びパラメータはプログラムの実行のときにRAM998にロードされる。もちろん、キーボード974、モニタ972及びマウス976を用いてソースプログラムを入力し、コンパイルした後のオブジェクトプログラムをハードディスクドライブ1000に格納してもよい。スクリプト言語の場合には、キーボード974等を用いて入力したスクリプトをハードディスクドライブ1000に格納してもよい。仮想マシン上で動作するプログラムの場合には、仮想マシンとして機能するプログラムを予めコンピュータ970にインストールしておく必要がある。
CPU990は、その内部のプログラムカウンタと呼ばれるレジスタ(図示せず)により示されるアドレスにしたがってRAM998からプログラムを読み出して命令を解釈し、命令の実行に必要なデータを命令及びデータにより指定されるアドレスにしたがってRAM998、ハードディスクドライブ1000又はそれ以外の機器から読み出して命令により指定される処理を実行する。CPU990は、実行結果のデータを、RAM998、ハードディスクドライブ1000、CPU990内のレジスタ等、プログラム及びデータにより指定されるアドレスに格納する。このとき、プログラムカウンタの値もプログラムのロジックによって更新される。プログラムは、DVD978から、半導体メモリ984から、又はネットワーク986を介して、RAM998に直接にロードしてもよい。なお、CPU990が実行するプログラムの中で、一部のタスク(主として数値計算)については、プログラムに含まれる命令により、又はCPU990による命令実行時の解析結果にしたがって、GPU992にディスパッチされ、その結果又はその格納アドレスがCPU990に通知される。
コンピュータ970により上記した各実施形態に係る各部の機能を実現するプログラムは、それら機能を実現するようコンピュータ970を動作させるように記述され配列された複数の命令を含む。この命令を実行するのに必要な基本的機能のいくつかは、コンピュータ970上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラム、又はコンピュータ970にインストールされる各種ツールキットのモジュールにより、プログラムの実行時に動的に当該プログラムにリンクされ実行される。したがって、このプログラムはこの実施形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の中で、所望の結果が得られるように制御されたやり方で適切な機能又は「プログラミング・ツール・キット」の機能に静的に、又は実行時に動的に、リンクすることにより、上記した各装置及びその構成要素としての動作を実行する命令のみを含んでいればよい。そのためのコンピュータ970の動作方法は周知であるので、ここでは繰り返さない。
なお、GPU992は並列処理を行うことが可能であり、機械学習及び推論実行に伴う多量の計算を同時並列的又はパイプライン的に実行できる。例えばプログラムのコンパイル時にプログラム中で発見された並列的計算要素、又はプログラムの実行時に発見された並列的計算要素は、随時、CPU990からGPU992にディスパッチされ、実行され、その結果が直接に、又はRAM998の所定アドレスを介してCPU990に返され、プログラム中の所定の変数に代入される。
なお、上記実施形態は、いずれも入力画像が1枚の場合についてのものである。しかしこの発明はそのような実施形態には限定されない。入力画像の枚数が、最終的に復元される1周期の歩行画像の数より少なければよい。実験結果から見て、入力画像が2枚以上のときの精度は入力画像が1枚のときと同等又はそれ以上であると考えられる。ただし、入力画像の枚数が多くなると計算量が増大し、識別に要する時間が長くなる。実際の応用でどの程度の時間内に処理すべきかを考えに入れて入力枚数を決定すればよい。
また、上記実施形態は本人認証と個人識別に関するものであった。しかし、従来の技術で1周期以上の歩行画像が必要とされていたような処理であれば、他の識別処理に本発明を適用することも可能である。例えば、歩行中の人物の男女の識別、年齢、体重、健康状態、怪我の有無、又はその気分等についても本発明を適用できる。さらに、上記実施形態は人間の歩容解析に関するものであった。しかしこの発明はそのような実施形態には限定されない。人間と同様の二足歩行をする生物の歩行に同様に適用できる可能性がある。さらに、四足歩行をする生物の歩行にも適用できる可能性がある。要するに、ある周期性を持つ運動をする生物の個性について、その周期的運動の画像から解析することに意味があるような場合には、上記実施形態の技術を適用できる。この場合の周期性運動としては、歩行に限定されない。例えば鳥等の飛行、水中での人間を含む哺乳類及び魚類の、周期性を持つ運動についても適用できる可能性がある。
今回開示された実施形態は単に例示であって、本発明が上記した実施形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
50、52、54、130、132、170、172 歩行画像列
90、150、152 歩行画像
100、102、104 周期画像
200 歩容認証装置
210、290 入力画像
212、418、706 一歩行周期復元ネットワーク
214 一歩行周期画像
216、436、712 認識ネットワーク
240 歩容認証システム
252 前処理部
260、450 位相推定器
262、452 エンコーダ
264、454 特徴変換器
266、456 デコーダ
292 背景画像
300 シルエット画像抽出装置
302 シルエット画像
304 画像正規化処理部
400 本人認証システム
410、700、780 Probe画像
412、416、680、682、684、708 復元歩行画像列
414、782 Gallery画像
420 訓練データ記憶装置
422 位相推定器訓練部
424、428、686、710 正解歩行画像列
426、430、432 誤差算出部
434、792 一歩行周期復元ネットワーク訓練部
604、606、784、786 識別ネットワーク
610、612、614、714、716 損失関数
670、672、674 単一歩行画像
690 個人識別装置
702 Genuine画像
704 Imposter画像
770 訓練システム
800 本人認証装置
802 判定部

Claims (18)

  1. 周期性を持つ運動の、少なくとも当該運動の半周期以上の予め定められた第1の数の位相における、生物の第1の数の画像を、前記第1の数より小さな第2の数の画像から復元するための周期画像復元装置であって、
    前記第2の数の画像に関する前記運動の位相を推定する位相推定手段と、
    前記第2の数の画像から、位相に依存した位相依存特徴を抽出する位相依存特徴抽出手段と、
    前記位相推定手段が推定した前記位相に基づいて、前記位相依存特徴抽出手段により抽出された前記位相依存特徴を、前記位相から独立した位相非依存特徴に変換するための特徴変換手段と、
    前記特徴変換手段により変換された後の前記位相非依存特徴に基づいて、前記運動をしている前記生物の、前記第1の数の位相の各々における画像を復元するための画像復元手段とを含む、周期画像復元装置。
  2. 前記位相推定手段は、前記第2の数の画像から、当該画像の位相を推定するよう予め訓練された位相推定用のニューラルネットワークを含む、請求項1に記載の周期画像復元装置。
  3. 前記位相依存特徴抽出手段は、前記第2の数の画像を入力とし、前記第2の数の画像から、前記位相依存特徴を抽出するよう予め訓練された位相依存特徴抽出用のニューラルネットワークを含む、請求項1又は請求項2に記載の周期画像復元装置。
  4. 前記特徴変換手段は、前記位相推定手段が推定した前記位相と、前記位相依存特徴とを入力として、前記位相非依存特徴を出力するよう予め訓練済の特徴変化用のニューラルネットワークを含む、請求項1から請求項3のいずれか1項に記載の周期画像復元装置。
  5. 前記画像復元手段は、前記特徴変換手段により変換された後の前記位相非依存特徴を入力とし、前記運動をしている前記生物の、前記第1の数の位相の各々における画像データを出力するよう予め訓練済の、画像復元用のニューラルネットワークを含む、請求項1から請求項4のいずれか1項に記載の周期画像復元装置。
  6. 請求項1から請求項5のいずれか1項に記載の周期画像復元装置と、
    各々が前記第1の数の画像からなる複数の対照画像列を記憶した対照画像列記憶装置と、
    入力画像から前記周期画像復元装置が復元した前記第1の数の画像と、前記対照画像列記憶装置に記憶された前記複数の対照画像列とを比較することにより、前記入力画像内の前記生物が、前記対照画像列記憶装置に記憶された前記複数の対照画像列が示す生物のいずれであるか識別するための識別手段とを含む、識別装置。
  7. 請求項1から請求項5のいずれか1項に記載の周期画像復元装置と、
    前記第1の数の画像からなる対照画像列を記憶した対照画像列記憶装置と、
    入力画像から前記周期画像復元装置が復元した前記第1の数の画像と、前記対照画像列記憶装置に記憶された前記対照画像列とを比較することにより、前記入力画像内の前記生物が、前記対照画像列記憶装置に記憶された前記対照画像列が示す生物と同一か否かを検証するための検証手段とを含む、検証装置。
  8. 周期性を持つ運動の、少なくとも当該運動の半周期以上の予め定められた第1の数の位相における、生物の第1の数の画像を、前記第1の数より小さな第2の数の画像から復元するための、コンピュータにより実現される周期画像復元方法であって、
    コンピュータが、前記第2の数の画像に関する前記運動の位相を推定する位相推定ステップと、
    コンピュータが、前記第2の数の画像から、位相に依存した位相依存特徴を抽出する位相依存特徴抽出ステップと、
    コンピュータが、前記位相推定ステップにおいて推定された前記位相に基づいて、前記位相依存特徴抽出ステップにおいて抽出された前記位相依存特徴を、前記位相から独立した位相非依存特徴に変換する特徴変換ステップと、
    コンピュータが、前記特徴変換ステップにおいて変換された後の前記位相非依存特徴に基づいて、前記運動をしている前記生物の、前記第1の数の位相の各々における画像を復元する画像復元ステップとを含む、周期画像復元方法。
  9. 請求項8に記載の方法の各ステップと、
    コンピュータが、入力画像から前記方法により復元された前記第1の数の画像と、各々が前記第1の数の対照画像を含む複数の対照画像列とを比較することにより、前記入力画像内の前記生物が、前記複数の対照画像列が示す生物のいずれであるか識別するステップとを含む、識別方法。
  10. 請求項8に記載の方法の各ステップと、
    コンピュータが、入力画像から前記方法により復元された前記第1の数の画像と、前記第1の数の対照画像を含む対照画像列とを比較することにより、前記入力画像内の前記生物が、前記対照画像列が示す生物と同一か否かを検証するステップとを含む、検証方法。
  11. 周期性を持つ運動を行っている生物の画像から、当該生物の個性を表す特徴を抽出するための特徴抽出装置であって、
    入力画像に基づいて、前記入力画像内の前記生物の姿勢が、前記運動におけるどの位相の姿勢かを推定する位相推定手段と、
    前記入力画像から、位相に依存した位相依存特徴を抽出する位相依存特徴抽出手段と、
    前記位相推定手段が推定した前記位相に基づいて、前記位相依存特徴抽出手段により抽出された前記位相依存特徴を、前記位相から独立した位相非依存特徴に変換するための特徴変換手段とを含む、特徴抽出装置。
  12. 請求項11に記載の特徴抽出装置と、
    複数の生物が前記運動を行っている生物の画像からなる複数の対照画像を記憶した対照画像記憶装置と、
    入力画像から前記特徴抽出装置が抽出した前記位相非依存特徴と、前記複数の対照画像の各々から前記特徴抽出装置が抽出した前記位相非依存特徴とを比較することにより、前記入力画像内の前記生物が、前記対照画像記憶装置に記憶された前記複数の対照画像が示す生物のいずれであるか識別するための識別手段とを含む、識別装置。
  13. 請求項11に記載の特徴抽出装置と、
    対照画像を記憶した対照画像記憶装置と、
    入力画像から前記特徴抽出装置が抽出した前記位相非依存特徴と、前記対照画像記憶装置に記憶された前記対照画像から前記特徴抽出装置が抽出した前記位相非依存特徴とを比較することにより、前記入力画像内の前記生物が、前記対照画像記憶装置に記憶された前記対照画像が示す生物と同一か否かを検証するための検証手段とを含む、検証装置。
  14. 各々が、ある生物の、周期性を持つ運動の第1の数の位相のいずれかにおける、前記生物の姿勢を表す複数の画像を、それぞれ当該姿勢の前記位相を表す情報と関連付けて準備するステップと、
    前記画像の入力を受ける入力層と、前記第1の数のいずれかを示す出力を持つ出力層と、前記入力層と前記出力層との間に配置された、少なくともコンボリューション層を含む複数の中間層とを含むニューラルネットワークを準備し、各パラメータを初期化するステップと、
    前記複数の画像の各々について、当該画像を入力とし、当該画像の位相を表す情報を教師データとして、前記ニューラルネットワークの出力と前記教師データとの差を減少させるように、予め定められた終了条件が充足されるまで前記ニューラルネットワークを訓練するステップとを含む、位相推定用のニューラルネットワークの訓練方法。
  15. 請求項14に記載の訓練方法により訓練されたニューラルネットワークを用いた、周期画像の位相推定装置。
  16. 周期性を持つ運動の、少なくとも当該運動の半周期以上の予め定められた第1の数の位相における、生物の前記第1の数の画像を、前記第1の数より小さな第2の数の画像から復元するための周期画像復元装置であって、
    前記第2の数の画像に関する前記運動の位相を推定する位相推定器と、
    前記第2の数の画像から、位相に依存した位相依存特徴を抽出する位相依存特徴抽出器と、
    前記位相推定器が推定した前記位相に基づいて、前記位相依存特徴抽出器により抽出された前記位相依存特徴を、前記位相から独立した位相非依存特徴に変換するための特徴変換器と、
    前記特徴変換器により変換された後の前記位相非依存特徴に基づいて、前記運動をしている前記生物の、前記第1の数の位相の各々における画像を復元するための画像復元器とを含む、周期画像復元装置。
  17. 周期性を持つ運動の、少なくとも当該運動の半周期以上の予め定められた第1の数の位相における、生物の前記第1の数の画像を、前記第1の数より小さな第2の数の画像から復元するための、プロセッサを含む周期画像復元装置であって、前記プロセッサは、
    前記第2の数の画像に関する前記運動の位相を推定する位相推定器と、
    前記第2の数の画像から、位相に依存した位相依存特徴を抽出する位相依存特徴抽出器と、
    前記位相推定器が推定した前記位相に基づいて、前記位相依存特徴抽出器により抽出された前記位相依存特徴を、前記位相から独立した位相非依存特徴に変換するための特徴変換器と、
    前記特徴変換器により変換された後の前記位相非依存特徴に基づいて、前記運動をしている前記生物の、前記第1の数の位相の各々における画像を復元するための画像復元器として動作するようプログラムされている、周期画像復元装置。
  18. 周期性を持つ運動の、少なくとも当該運動の半周期以上の予め定められた第1の数の位相における、生物の前記第1の数の画像を、前記第1の数より小さな第2の数の画像から復元するための周期画像復元装置として機能するようコンピュータを動作させるコンピュータプログラムを記憶した、コンピュータ読み取り可能な非一時的記憶媒体であって、前記コンピュータプログラムは、前記コンピュータを、
    前記第2の数の画像に関する前記運動の位相を推定する位相推定器と、
    前記第2の数の画像から、位相に依存した位相依存特徴を抽出する位相依存特徴抽出器と、
    前記位相推定器が推定した前記位相に基づいて、前記位相依存特徴抽出器により抽出された前記位相依存特徴を、前記位相から独立した位相非依存特徴に変換するための特徴変換器と、
    前記特徴変換器により変換された後の前記位相非依存特徴に基づいて、前記運動をしている前記生物の、前記第1の数の位相の各々における画像を復元するための画像復元器として動作させる、記憶媒体。
JP2022541174A 2020-08-05 2021-07-09 周期画像復元装置及び方法、識別装置及び方法、検証装置及び方法、特徴抽出装置、訓練方法、位相推定装置、並びに記憶媒体 Active JP7353686B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020132951 2020-08-05
JP2020132951 2020-08-05
PCT/JP2021/025891 WO2022030179A1 (ja) 2020-08-05 2021-07-09 周期画像復元装置及び方法、識別装置及び方法、検証装置及び方法、特徴抽出装置、訓練方法、位相推定装置、並びに記憶媒体

Publications (2)

Publication Number Publication Date
JPWO2022030179A1 JPWO2022030179A1 (ja) 2022-02-10
JP7353686B2 true JP7353686B2 (ja) 2023-10-02

Family

ID=80119767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022541174A Active JP7353686B2 (ja) 2020-08-05 2021-07-09 周期画像復元装置及び方法、識別装置及び方法、検証装置及び方法、特徴抽出装置、訓練方法、位相推定装置、並びに記憶媒体

Country Status (2)

Country Link
JP (1) JP7353686B2 (ja)
WO (1) WO2022030179A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000182060A (ja) 1998-12-21 2000-06-30 Nec Corp 個人識別装置及び個人識別方法
JP2005074075A (ja) 2003-09-02 2005-03-24 Matsushita Electric Works Ltd 歩行周期計測装置、周期画像取得装置、移動体輪郭の圧縮処理装置、移動体識別システム
WO2006013765A1 (ja) 2004-08-03 2006-02-09 Matsushita Electric Industrial Co., Ltd. 人物判定装置及び人物検索追跡装置
JP2017094006A (ja) 2015-11-27 2017-06-01 株式会社島津製作所 画像処理装置および放射線撮影装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000182060A (ja) 1998-12-21 2000-06-30 Nec Corp 個人識別装置及び個人識別方法
JP2005074075A (ja) 2003-09-02 2005-03-24 Matsushita Electric Works Ltd 歩行周期計測装置、周期画像取得装置、移動体輪郭の圧縮処理装置、移動体識別システム
WO2006013765A1 (ja) 2004-08-03 2006-02-09 Matsushita Electric Industrial Co., Ltd. 人物判定装置及び人物検索追跡装置
JP2017094006A (ja) 2015-11-27 2017-06-01 株式会社島津製作所 画像処理装置および放射線撮影装置

Also Published As

Publication number Publication date
WO2022030179A1 (ja) 2022-02-10
JPWO2022030179A1 (ja) 2022-02-10

Similar Documents

Publication Publication Date Title
Chen et al. A semisupervised recurrent convolutional attention model for human activity recognition
CN112784764B (zh) 一种基于局部与全局注意力机制的表情识别方法及系统
Jalilian et al. Iris segmentation using fully convolutional encoder–decoder networks
CN111695415B (zh) 图像识别方法及相关设备
US8340435B2 (en) Method and system for object recognition search
Liang et al. Pose-invariant facial expression recognition
Rajput et al. An accurate and noninvasive skin cancer screening based on imaging technique
US20210232855A1 (en) Movement state recognition model training device, movement state recognition device, methods and programs therefor
Slim et al. IoT System Based on parameter optimization of Deep Learning using Genetic Algorithm.
Tanigaki et al. Predicting performance improvement of human activity recognition model by additional data collection
Santos et al. Manifold learning for user profiling and identity verification using motion sensors
JP7353686B2 (ja) 周期画像復元装置及び方法、識別装置及び方法、検証装置及び方法、特徴抽出装置、訓練方法、位相推定装置、並びに記憶媒体
Almabdy et al. An overview of deep learning techniques for biometric systems
Abdulmunem et al. Deep learning based masked face recognition in the era of the COVID-19 pandemic
CN116797817A (zh) 基于自监督图卷积模型的自闭症疾病预测技术
Nikolov et al. Skeleton-based human activity recognition by spatio-temporal representation and convolutional neural networks with application to cyber physical systems with human in the loop
Chhabria et al. Survey of fusion techniques for design of efficient multimodal systems
Qian et al. Transfer learning model knowledge across multi-sensors locations over body sensor network
KR20220128016A (ko) 피부 분석 시스템
Kang et al. Neural network architecture and transient evoked otoacoustic emission (TEOAE) biometrics for identification and verification
CN112651363A (zh) 基于多特征点的微表情拟合方法和系统
KR102636549B1 (ko) 노이즈 개선 네트워크 기반 보행 인식 장치 및 방법
Chou et al. Low-complexity on-demand reconstruction for compressively sensed problematic signals
Hashem et al. Human gait identification system based on transfer learning
KR102549558B1 (ko) 비접촉식 측정 데이터를 통한 감정 예측을 위한 인공지능 기반 감정인식 시스템 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230912

R150 Certificate of patent or registration of utility model

Ref document number: 7353686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150