JP7628680B2

JP7628680B2 - 動的アイデンティティ認証

Info

Publication number: JP7628680B2
Application number: JP2023511812A
Authority: JP
Inventors: メンドロヴィク，デビッド; コーレン，メナヘム; ゲルベルグ，リオル; コーヘン，ケーン; アズーレ，モル－アヴィ; ヴォーヴォヴィチ，オハッド
Original assignee: Ramot at Tel Aviv University Ltd
Current assignee: Ramot at Tel Aviv University Ltd
Priority date: 2020-08-20
Filing date: 2021-07-30
Publication date: 2025-02-12
Anticipated expiration: 2041-07-30
Also published as: CN116635910A; JP7695730B2; KR20230164240A; WO2022038591A1; KR102607766B1; CN116635910B; KR20230018529A; US12373528B2; EP4200725A4; EP4200725A1; JP2024059900A; JP2023535231A; KR102924015B1; US20230306094A1

Description

発明の詳細な説明

〔関連出願〕
本出願は２０２０年８月２０日に出願された米国仮出願第６３／０６７，８９０号の３５Ｕ．Ｓ．Ｃ．１１９（ｅ）に基づく利益を主張し、その開示は参照により本明細書に組み込まれる。

〔技術分野〕
本開示の実施形態は、人物のアイデンティティの生体認証を提供するための方法および装置に関する。

〔背景技術〕
サービスの増え続けるリストはサービスへのユーザアクセスを認証および認可するために、慣習的に多要素認証手順（ＭＦＡ：multi-factor authentication procedure）と呼ばれる認証手順を必要とする。ＭＦＡ手順では、ユーザが複数のカテゴリのチャレンジのそれぞれに対して、チャレンジに対する適切な応答を提供することが要求される。チャレンジカテゴリは、「認証要素（authentication factors）」と呼ばれる。一般のＭＦＡは、２要素認証（２ＦＡ：two-factor authentication）と呼ばれ、ユーザは３つの認証要素、すなわち、知識要素、所有要素、および固有要素のうちの少なくとも２つに正しく応答するようにチャレンジされる。知識要素は、ユーザが知っているはずのもの、例えばパスワードをテストする。所有要素は、ユーザが有すると予想されるもの、例えばクレジットカードまたはスマートフォンの提示を必要とする。固有要素は、ユーザが該ユーザを特徴付ける何か、例えば、指紋、声紋、または虹彩スキャンなどの生体特徴を提示することを必要とする。

しかしながら、レガシー認証技術は現代の市民によって定期的に行われる行動のマトリックスの複雑さおよび相互依存性の増大によって必要とされている、使用の容易化および認証の品質の提供において困難に直面しているように見える。例えば、レガシーＭＦＡ構成はオープンバンキングイニシアチブにおいて消費者、銀行、およびサードパーティプロバイダ（ＴＰＰ）を統合するために公布された改訂された欧州決済サービス指令（ＰＳＤ２）の強力な顧客認証（ＳＣＡ）の仕様を満たすために、厳しく迫られているように見える。ＳＣＡの実行は２回遅れている。当初２０１９年９月に開始予定であった制度は、２０２１年３月１４日まで延期された後、２０２１年９月１４日の現在の期限まで延期された。

〔発明の概要〕
本開示の実施形態の一態様は、方法を提供することに関する。この方法は、動的識別（ＤＹＮＡＭＩＤＥ：dynamic identification）方法、または単にＤＹＮＡＭＩＤＥと呼ばれ得る。この方法は、人物が行動を行う方法の固有性に基づき当該人物を識別する。本開示の一実施形態によれば、ＤＹＮＡＭＩＤＥは、人々によって実行される行動中に、解剖学的ランドマークを識別することと、当該行動が実行されている間に当該解剖学的ランドマークの時空間軌跡を識別することを含む。解剖学的ランドマークは、随意的に行動基準（ＡＦＩＤ：activity fiducial）と呼ばれ、様々な運動の程度またはその欠如を示す。時空間軌跡は、行動を識別するために用いられ得る。ＤＹＮＡＭＩＤＥは、前記軌跡を処理して、特定の個人によって実行される行動を区別するために有利であり、行動を実行する特定の個人を識別するのに有利である該軌跡の特徴を決定することを含む。

行動を実行する個人によって該行動を区別し得る行動の特徴は非常に微妙であり得る。該行動に関連するＡＦＩＤ軌跡は実質的にわずかで直観的でない（nonintuitive）クロストークを呈し得る。結果として、行動の１つの時空間軌跡の特徴であって、該行動の別の時空間軌跡の特徴とは無関係に直感的に現れ得る特徴は、実際には行動を実行する個人に固有であり得、該個人を識別するための基準を提供し得る。本開示の一実施形態によれば、軌跡の識別と、空間および／または時間的処理と、のための、該軌跡によって示される固有性を発見および使用するのに有利な時空間決定の提供は、非局所的かつ多数のアプリオリ処理制約であってよい。アプリオリ処理制約は、有利に限定されるＡＦＩＤ軌跡によって示される動きに対して仮定される。

一実施形態によれば、個人が実行し得る所与の行動に基づいて特定の個人を識別することは、所与の行動を実行する個人の一連の画像を取得することと、当該所与の行動に関連するＡＦＩＤを該画像内で識別することと、を含む。画像は識別されたＡＦＩＤによって示される時空間軌跡と、行動を実行し得る複数の個人の中から、行動を実行した特定の個人を識別するために処理された軌跡と、を決定するために処理され得る。随意的に、ＡＦＩＤ軌跡を処理することは、所与の行動の実行中にＡＦＩＤが示す局所的および非局所的時空間的相関を決定することと、特定の個人のアイデンティティを決定するために当該相関を使用することとを含む。時空間的相関は、１以上のＡＦＩＤにおける時空間軌跡または軌跡を特徴付ける、空間パラメータ、時間パラメータ、または空間パラメータと時間パラメータとの両方に基づく相関を含み得る。

本開示の実施形態において、所与の行動に関連するＡＦＩＤは、該行動を行う人物を識別する際に使用するのに適した所与の行動の実行において時空間的軌跡を示す、手足、顔、または頭などの任意の身体部分の解剖学的ランドマークであり得る。例えば、ＡＦＩＤは例えば、歩行、ゴルフボールを打つこと、またはＡＴＭでのパスワードのタイピングなどの行動中に適合する時空間的軌跡を示す、手足の関節または骨格の骨（bone）であってもよい。タイピングのために、ＡＦＩＤＳは、手の骨が接続される複数の関節を含み得る。ＡＦＩＤは、フェイシャルアクションコーディングシステム（ＦＡＣＳ：facial action coding system）のアクションユニット（ＡＵ：action unit）を定義するためにその動きが使用される、眉、目、および唇の隅などの顔のランドマークであってよい。フェイシャルアクションコーディングシステムは、表情および微小な表現を分類するために用いられる。ＡＦＩＤはまた、手の複数の指の指紋の詳細なペアの特徴であってもよく、ペアの特徴の識別を可能にするのに十分な光分解能で、非接触で画像化される。

一実施形態によれば、ＤＹＮＡＭＩＤＥは、行動を実行する個人を識別するために、行動の画像を処理するための少なくとも１つのニューラルネットワークを用いる。一実施形態では、少なくとも１つのニューラルネットワークは、画像内の身体部分または関心領域（ＢＲＯＩ：body part or region of interest）を検出し、それらが含み得るＡＦＩＤを識別するように訓練される。行動の実行中における識別されたＡＦＩＤの空間および時間な進行は、時空間グラフ（ＳＴ－Ｇｒａｐｈ：spatiotemporal graph）によって表される。時空間グラフにおいて、ＡＦＩＤは、行動の時空間ＡＦＩＤ軌跡を定義する空間および時間エッジによって接続されたノードである。少なくとも１つのニューラルネットワークは、軌跡を処理し、行動を実行する個人に従って行動を分類するための少なくとも１つのグラフ畳み込みネットワーク（ＧＣＮ：graph convolutional network）を備え得る。

一実施形態では、少なくとも１つのＧＣＮは、ＡＦＩＤ時空間軌跡を処理するための少なくとも１つの非局所的ニューラルネットワークブロックを有する非局所的ニューラルネットワーク（ＮＬＧＣＮ：nonlocal neural network）を備える。少なくとも１つの非局所的ニューラルネットワークブロックは、少なくとも１つの空間非局所的ニューラルネットワークブロックおよび／または少なくとも１つの時間非局所的ニューラルネットワークブロックを備え得る。随意的に、ＮＬＧＣＮは、ＡＦＩＤ軌跡に基づく独立した自由度によって特徴付けられるデータのセットを処理するように動作する複数の構成要素ＮＬＧＣＮを備えるマルチストリームＧＣＮとして構成される。一実施形態では、マルチストリームＧＣＮの出力は、構成要素ＧＣＮＳの各々の出力の重み付けされた平均を含み得る。

一例として、個人がタイプする方法によって個人を識別するように構成されたＤＹＮＡＭＩＤＥにおいて、手の関節であるＡＦＩＤは、関節を接続する手の骨であるＡＦＩＤに対して得られる運動の自由度とは独立した運動の自由度（例えば、異なる指の関節間の距離）によって特徴付けられる。したがって、一実施形態では、ＤＹＮＡＭＩＤＥは、２つの構成要素ＮＬＧＣＮを有する２ストリーム２ｓ－ＮＬＧＣＮマルチストリームＧＣＮを含み得る。２つの構成要素ＮＬＧＣＮの一方は関節ＡＦＩＤを処理し、他方の構成要素ＮＬＧＣＮは骨ＡＦＩＤを処理する。一実施形態では、関節ＮＬＧＣＮは、２ｓ－ＮＬＧＣＮを構成するために使用され得るアプリオリ制約の数を低減するために駆動される実質的なデータである、少なくとも１つの学習可能な「適応的」隣接行列を備える。本開示の一実施形態に係る、適応隣接行列を備える２ｓ－ＮＬＧＣＮは、適応２ｓ－ＮＬＧＣＮ（２ｓ－ＡＮＬＧＣＮ）と呼ばれ得る。タイピングＤＹＮＡＭＩＤＥの、２ｓ－ＮＬＧＣＮまたは２ｓ－ＡＮＬＧＣＮにおける関節および骨ＮＬＧＣＮの出力、は個人を識別するために融合され得る。

一実施形態によれば、特定の個人を識別することは、リアルタイムで行われる。一実施形態に係るリアルタイム識別は、個人が行動を行っている間の個人の識別、または識別が行われるサービスの経験品質（ＱｏＥ：quality of experience）が識別プロセスによって実質的に劣化しないタイムフレーム内での個人の識別を指す。

この概要は、以下の詳細な説明においてさらに説明される概念の選択を簡略化された形式で紹介するために提供される。この概要は、特許請求される主題の主要な特徴または必須の特徴を識別することを意図するものではなく、特許請求される主題の範囲を限定するために使用されることを意図するものでもない。

〔図面の簡単な説明〕
本発明の実施形態の非限定的な例は、この段落の後に列挙される、本明細書に添付される図面を参照して、以下に記載される。２つ以上の図に現れる同一の特徴は一般に、該特徴が現れる全ての図において同じラベルでラベル付けされる。図中において、本発明の実施形態の所与の特徴を表すアイコンをラベル付けするラベルは、当該所与の特徴を参照するために使用され得る。図に示される特徴の寸法は、提示の利便性および明瞭さのために選択され、必ずしも一定の縮尺で示されていない。

図１は、本開示の実施形態に係る、人物を識別するための、ＤＹＮＡＭＩＤＥが行動を実行する該人物の一連のビデオフレームを処理し得るプロセスを図示するフロー図である。

図２は、本開示の実施形態に係る、人物を識別するためにＡＴＭ（automated teller machine：現金自動預け払い機）キーパッド上でタイピングする人物の一連のビデオフレームを処理するＤＹＮＡＭＩＤＥシステムを概略的に示す図である。

図３Ａは、本開示の実施形態に係る、ＤＹＮＡＭＩＤＥがキーボード上でタイピングする人物を識別するために使用し得る手の画像および手のＡＦＩＤを概略的に示す図である。

図３Ｂは、本開示の実施形態に係る、図３Ａに示される手をモデル化する空間グラフであるＳ－グラフを概略的に示す図である。

図４Ａは、本開示の実施形態に係る、図２に示されるＡＴＭでタイピングに関与する人物のために取得された一連のビデオフレームのうちの１つのビデオフレームの拡大画像を概略的に示す図である。

図４Ｂは、本開示の実施形態に係る、図４Ａに示されるビデオフレームにおいて画像化される手をモデル化するＳ－グラフを概略的に示す図である。

図５Ａは、本開示の実施形態に係る、図２に示される一連のビデオフレームの拡大画像を概略的に示す図である。

図５Ｂは、本開示の実施形態に係る、図５Ａに示される一連のビデオフレームの画像に対応する時空間グラフＳＴ－グラフを概略的に示す図である。

図６Ａは、本開示の一実施形態に係る、図５Ｂに示されるＳＴ－グラフのノードに関連するデータを備える時空間特徴テンソルを概略的に示す図である。

図６Ｂは、本開示の実施形態に係る、ＤＹＮＡＭＩＤＥが図６Ａに示されるテンソル内のデータを処理するために使用し得る非局所的ニューラルネットワークのスキーマを示す図である。

〔詳細な説明〕
議論において、特に明記しない限り、本開示の実施形態の１つの特徴点または複数の特徴点の状態または特性の関係を修正する「実質的に」および「約」などの形容詞は、当該状態または特性が、明細書の所望の実施形態の工程に対して容認可能な許容範囲内で定義されることを意味すると理解される。本開示における一般用語が例示または例示のリストを参照することによって説明される場合はいつでも、言及される実例（単数または複数）は該一般用語の非限定的な例示を目的としている。また、該一般用語は、言及される特定の例示（単数または複数）に限定されることを意図するものではない。「実施形態において」という語句は「あり得る」、「随意的に」、または「例示を目的として」などの許容性に関連するか否かにかかわらず、例示の検討材料を紹介するために使用される。しかしながら、当該語句は、必ずしも本開示の可能な実施形態において要求される構成を導入するわけではない。特に明示のない限り、明細書および特許請求の範囲における「または」という用語は、排他的なものではなく、包括的な「または」であると考えられ、結合する複数の項目のうちの少なくとも１つ、またはいずれかの組み合わせを示す。

図１は、本開示の実施形態に係る、随意的に数字２０によっても参照されるプロセスであって、該プロセスに基づき、人物が実行する行動に応答して該人物を識別するためにＤＹＮＡＭＩＤＥが動作し得るプロセスを図示する高レベルフロー図２０を示す。

ブロック２２において、本開示の実施形態に係るＤＹＮＡＭＩＤＥは、随意的に、行動に関与する人物の一連のビデオフレームを取得する。ＤＹＮＡＭＩＤＥは、行動に関与する人物のアイデンティティを決定するために処理を行うように構成される。ブロック２４において、ＤＹＮＡＭＩＤＥは、ビデオフレームを処理して、行動に関連する少なくとも１つのＡＦＩＤを画像化するビデオフレームにおける身体関心領域（ＢＲＯＩ：body region of interest）の画像を識別する。ビデオフレーム中のＢＲＯＩを識別することは、随意的に、ＢＲＯＩの画像を含むフレーム中の少なくとも１つのバウンディングボックス（bounding box）を決定することを含む。ブロック２６において、ＤＹＮＡＭＩＤＥは、ビデオフレームに対して決定されたバウンディングボックスの各々を処理して、バウンディングボックスの各々において、少なくとも１つのＡＦＩＤの画像を識別する。ビデオフレームのバウンディングボックス内のＡＦＩＤの画像を識別することは、随意的に、ＡＦＩＤの識別ラベルを含む時空間ＩＤ（ＳＴ－ＩＤ：spaciotemporal ID）である「ＡＦＩＤＳＴ－ＩＤ」を画像に関連付けることを含む。ここで、「ＡＦＩＤＳＴ－ＩＤ」は、ビデオフレーム内の同じＡＦＩＤのすべての識別された画像をラベル付けし、画像の時空間座標を決定するために使用される。時空間座標は、タイムスタンプと、少なくとも２つの空間座標とを含む。タイムスタンプは、一連のビデオフレームにおける他のビデオフレームが取得された時間に対して、ＡＦＩＤが位置するバウンディングボックスを含むビデオフレームが取得された時間、時間位置を識別する。少なくとも２つの空間座標は、タイムスタンプによって示される時間におけるＡＦＩＤの空間位置に対応する。随意的に、所与の識別されたＡＦＩＤに対するＡＦＩＤＳＴ－ＩＤは、各空間座標についての標準偏差（ｓｄ：standard deviation）と、ＡＦＩＤＳＴ－ＩＤに関連付けられたＡＦＩＤ－ＩＤラベルが正しい確率とを含む。ＡＦＩＤＳＴ－ＩＤに対して決定された最古および最新のタイムスタンプおよび極端な空間座標は、時空間体積を決定する。時空間体積は、一連のビデオフレームにおいて画像化され識別されたＡＦＩＤのすべてのインスタンスの時空間座標を含む時空間ＡＦＩＤハル（ＳＴ－Ｈｕｌｌ：spatiotemporal AFID hull）と呼ばれることがある。

ブロック２８において、ＤＹＮＡＭＩＤＥは、ＡＦＩＤＳのＳＴ－ＩＤを使用して、ＡＦＩＤの識別されたインスタンスを、空間および時間エッジによって接続されるＡＦＩＤ時空間グラフ（ＳＴ－グラフ）のノードとして構成する。空間エッジはＳＴ－グラフノードを接続する。ＳＴ－グラフノードは、同じタイムスタンプによって識別されるＡＦＩＤの画像化されたインスタンス、すなわち、同じビデオフレーム内で画像化されるＡＦＩＤのインスタンスと、人物の身体の構造によってＡＦＩＤに課される空間的制約と、を表す。同じ所与のフレームおよび所与の時間において画像化されたＡＦＩＤのインスタンスの空間関係を表す空間エッジによって接続されたノードの構成は、所与の時間におけるＡＦＩＤの空間グラフ（Ｓ－グラフ）と呼称され得る。時間エッジは、一連のビデオフレームにおける２つの連続して取得されたビデオフレーム中において同じＡＦＩＤの画像を表すＳＴ－グラフ中の時間的に隣接するノードを接続する。時間エッジは、２つの連続するタイムスタンプ間の経過時間を表す。ＳＴ－グラフは、時間エッジによって接続されたＡＦＩＤに対応するＳ－グラフを含むと見なされ得る。

一実施形態では、ブロック３０において、ＤＹＮＡＭＩＤＥは、随意的に適応できる適応非局所的グラフ畳み込みニューラルネット、ＡＮＬＧＣＮを用いてＡＦＩＤＳＴ－グラフを処理する。これにより、ＤＹＮＡＭＩＤＥは、ＡＮＬＧＣＮが認識するように訓練された複数の人物のうちのどの人物が行動に関与しているか、または関与しようとしているかを、随意的にはリアルタイムで、決定する。一実施形態では、ＡＮＬＧＣＮは、ＡＦＩＤＳＴ－ハルをスパンし、ハル内の任意の時空間位置におけるＡＦＩＤの画像化されたインスタンスに関連付けられたデータが学習された重みによって重み付けされることを可能とするように構成される。また、ＡＮＬＧＣＮは、ハル内の任意の他の場所における時空間位置に対して実行される、ＡＮＬＧＣＮによる畳み込みに寄与するように構成される。随意的に、ＮＬＧＣＮは、独立した自由度によって特徴付けられるＡＦＩＤデータのセットを処理するように動作する複数の構成要素ＮＬＧＣＮを備えるマルチストリームＧＣＮとして構成される。

図２は本開示の実施形態に係るＤＹＮＡＭＩＤＥシステム１００を概略的に示す。ＤＹＮＡＭＩＤＥシステム１００は、図１に示されるプロセスを実行し、人物が行動を実行する方法に基づき行動に関与する人物を識別するように構成される。ＤＹＮＡＭＩＤＥシステム１００は、随意的にはクラウドベースの処理ハブ１２０と、破線１１１によって示される視野（ＦＯＶ：field of view）を有する画像化システム１１０と、を備え得る。一例として、当該図では、行動は、ＡＴＭ６０において人物５０が関与する、キーパッド６２上でタイプする行動である。

画像化システム１１０は、キーパッド６２上でタイプする人物５０の手５２の複数の（「Ｎ」個の）２Ｄおよび／または３Ｄビデオフレーム１１４ｎから成るビデオの配列１１４を提供するように動作可能である。ここで、１≦ｎ≦Ｎである。画像化システム１１０は少なくとも１つの有線および／または無線通信チャネル１１３によってハブ１２０に接続され、それを介して、画像化システム１１０は取得したビデオフレームをハブに送信する。ハブ１２０は、受信したビデオフレーム１１４ｎを処理して、人物５０を識別するように構成される。人物５０は、該人物５０の手５２がビデオフレーム内で画像化された人物である。ハブは、データおよび／または実行可能命令と、様々な電子的および／または光学的物理的および／または仮想的なプロセッサ、メモリ、および／または有線または無線通信インターフェースのいずれかと、を備える、および／またはそれらへのアクセスを有する。これらは、ハブが提供する機能をサポートするために必要とされ得る。データおよび／または実行可能命令は、以下、ソフトウェアとも称される。また、プロセッサ、メモリ、および／または通信インターフェースは、以下、ハードウェアとも称される。

例として、ハブ１２０は、オブジェクト検出モジュール１３０と、ＡＦＩＤ識別子モジュール１４０と、分類器モジュール１５０と、をサポートするソフトウェアおよびハードウェアを備える。オブジェクト検出器モジュール１３０は、ビデオフレーム１１４ｎ内のＢＲＯＩを検出するように動作可能である。ＡＦＩＤ識別子モジュール１４０は、検出されたＢＲＯＩ内のＡＦＩＤを識別し、識別されたＡＦＩＤの各々にＳＴ－ＩＤを提供する。分類器モジュール１５０は、人物５０を識別するためにＳＴ－ＩＤのセットを時空間グラフとして処理するように動作可能な非局所的分類器を備える。

一実施形態では、オブジェクトＢＲＯＩ検出器モジュール１３０は、関連するＢＲＯＩをリアルタイムで検出することができるＹＯＬＯ（You Look Only Once）検出器などの高速物体検出器を備える。ＡＦＩＤ識別子モジュール１４０は、検出されたＢＲＯＩ中のＡＦＩＤを識別するための畳み込みポーズマシン（ＣＰＭ：convolutional pose machine）を備え得る。分類器モジュール１５０は、上述され、以下で論じられる、随意的に適応できる非局所的グラフ畳み込みネットワークを備える。図２では、分類器モジュール１５０は、ヒストグラム１５２によって表される確率の出力を提供するように概略的に示される。該ヒストグラムは、複数の人物のうちの所与の人物の各々について、当該所与の人物が、ビデオフレーム内でタイピングしている手５２が画像化された人物である確率を与える。ＤＹＮＡＭＩＤＥ１００は、所与の人物が、ビデオフレーム内でタイピングしている手５２が画像化された人物であることを認識するように訓練される。ＤＹＮＡＭＩＤＥ１００は、ビデオフレーム１１４ｎにおいてタイピングしている手５２が画像化された人物として人物５０を首尾よく識別するものとして概略的に示されている。

一実施形態では、ＤＹＮＡＭＩＤＥ１００が人物のタイピングを識別するために使用するＡＦＩＤは、タイピングする手の関節（指の関節および／または手関節）および指の骨（指骨（phalanges））である。図３Ａは本開示の実施形態に係る、タイピングする手のビデオ画像を処理するために、ＤＹＮＡＭＩＤＥ１００によってＡＦＩＤとして随意的に使用される指の関節（指関節（knuckles）とも呼ばれる）および手関節を有する手２００の画像を概略的に示す。関節はプラス記号「＋」によって示される手２００上の配置を有し、図に示されるように、手関節のラベル「ＪＨ」によって総称的に参照され得、数字ラベルＪ０、Ｊ１、…、Ｊ２０によって個々に区別され得る。ＤＹＮＡＭＩＤＥ１００がタイピング行動のためのＡＦＩＤとして使用し得る所定の指骨は、当該所定の指骨が、接続する２つの指関節を示す英数字ラベルによって参照される場合に識別される。例えば、図３Ａにおいて、関節Ｊ５とＪ６とを接続する指の骨は、Ｂ５－６とラベル付けされた破線によって図３Ａにおいて概略的に示され、指骨Ｂ１８－１９は指関節Ｊ１８とＪ１９とを接続する。指の骨は、ラベルＢＨによって総称的に参照され得る。

図３Ｂは、本開示の実施形態に係る、所与の時間におけるＡＦＩＤの空間関係を表すために使用され得る空間グラフ（Ｓ－グラフ２００）を概略的に示す。一例として、該空間グラフは、手２００が画像化された所与の時間における手２００によって示される。空間Ｓ－グラフ２００において、図３Ａに示される指関節ＡＦＩＤＪＨは、ラベルＪＮによって総称的に参照されるノードによって表される。ノードＪＮは、図３Ａに示される相同の指関節Ｊ０、Ｊ１、…、Ｊ２０にそれぞれ対応する英数字ラベルＪＮ０、ＪＮ１、…、ＪＮ２０によって個々に区別される。ノードＪＮを接続するＳ－グラフ２００のエッジは、指の骨、すなわち指関節を接続する骨ＡＦＩＤを表す。図３Ｂに示されるように、エッジは、ラベルＢＥによって総称的に参照され得、手２００における相同な指の骨に対応する参照ラベルによって個々に参照される。例えば、図３ＢのエッジＢＥ５－６は、図３Ａの骨Ｂ５－６に対応する。

図４Ａは、本開示の一実施形態に係る、取得時間ｔｎにおいて画像化システム１１０によって取得され、処理のためにＤＹＮＡＭＩＤＥハブ１２０に送信されるビデオフレームの配列１１４（図２）におけるｎ番目のビデオフレーム１１４ｎの拡大画像を概略的に示す。ビデオフレーム１１４ｎは、キーパッド６２上でタイピングする手５２、ならびに撮像システム１１０のＦＯＶ１１１（図２）内に位置し得る手を取り囲む環境内の特徴を画像化している。図４Ａに概略的に示される周囲の特徴は、例えば、カウンタ６４および側壁６６などのＡＴＭ６０の構造の一部、ならびに人物５０がカウンタ６４上に置いた携帯電話５５を含み得る。

上述のように、ビデオフレーム１１４ｎの配列１１４の処理において、オブジェクト検出モジュール１３０は、ＡＦＩＤ検出器１４０が識別し、ＤＹＮＡＭＩＤＥ１００が人物５０を識別するために使用する関節ＡＦＩＤを備える物体として、フレーム内の手５２の画像を位置特定するバウンディングボックスを決定し得る。ビデオフレーム１１４ｎ内の手５２についてオブジェクト検出器モジュール１３０によって決定されたバウンディングボックスは、破線の長方形１１６によって示される。ＡＦＩＤ検出器１４０がバウンディングボックス１１６内で検出および識別する指関節ＡＦＩＤは、汎用ＡＦＩＤラベルＪＨによって示される（図３Ａ）。図４Ｂは、取得時間ｔｎにおいて取得されたビデオフレーム１１４ｎ内の手の画像に基づくグラフとして手５２をモデル化する空間Ｓ－グラフ－５２（ｔｎ）を概略的に示す。Ｓ－グラフ－５２（ｔｎ）内の指関節ノードは、適切な指関節ノードラベルＪＮ０、ＪＮ１、…、ＪＮ２０によって示され、ノードが属するＳ－グラフ－５２（ｔｎ）に関連する取得時間ｔｎを示す引数が追加されてもよい。例えば、Ｓ－グラフ－５２（ｔｎ）のノードＪＮ０、ＪＮ１、・・・、ＪＮ２０は、ＪＮ０（ｔｎ）、ＪＮ１（ｔｎ）、…、ＪＮ２０（ｔｎ）と参照され得る。

図５Ａは、それぞれの時間ｔ１、ｔ２、ｔ３、…、ｔＮにおいて、ＡＴＭ６０でタイピングする手５２を画像化するビデオフレーム１１４１、１１４２、１１４３、…、１１４Ｎを含む、図２に示されるビデオ配列１１４の拡大画像を概略的に示す。図５Ｂは、本開示の一実施形態に係る、ビデオフレーム１１４１～１１４Ｎ内の手５２の画像に基づいて、タイピングする行動の時空間的な進行をモデル化するＳＴ－グラフ５２を概略的に示す。ＳＴグラフ５２は、ビデオフレーム１１４１、…、１１４Ｎにおける手５２の画像に対応する空間Ｓグラフ－５２（ｔｎ）を含む。ここで、１≦ｎ≦Ｎである。隣接するＳ－グラフである、Ｓ－グラフ－５２（ｔｎ）およびＳ－グラフ－５２（ｔｎ＋１）における相同ノードＪＮは、それぞれの取得時間ｔｎとｔｎ＋１との間の経過時間を表す時間エッジによって接続される。隣接するＳ－グラフ－５２（ｔｎ）とＳ－グラフ－５２（ｔｎ＋１）との間のすべての時間エッジは同じ時間的長さを有し、ＴＥｎ、ｎ＋１とラベル付けされる。図５Ｂの時間エッジのいくつかは、それらのそれぞれのラベルによってラベル付けされる。

ＳＴ－グラフ－５２に関連するノードデータは、ＤＹＮＡＭＩＤＥハブ１２０の分類器モジュール１５０がＡＴＭ６０のキーパッド６２上でタイピングする人物５０のアイデンティティを決定するために処理する時空間入力特徴のセットを提供する。入力特徴のセットは、図６Ａに概略的に示されるように、入力時空間特徴テンソル３００としてモデル化され得、該入力時空間特徴テンソル３００は、行、列、および奥行きによってテンソル内の位置を示すＡＦＩＤ、時間、およびチャネル軸を有する。ＳＴ－グラフ－５２では、ＡＦＩＤ軸は手５２における特定の関節を示すノード番号で較正され、時間軸は連続フレーム番号またはフレーム取得時間によって較正される。一例として、時空間特徴テンソル３００のチャネル軸は４つのチャネルを概略的に示すが、一実施形態に係る時空間特徴テンソルは４つより多いまたは少ないチャネルを有し得ることに留意されたい。例えば、ＡＦＩＤおよび時間軸に沿ってそれぞれ示される所与のノードおよび所与の時間に対応するチャネル軸に沿ったエントリは、所与の時間における所与のノードに対応して空間位置を決定する２つまたは３つの空間座標を提供し得る。チャネルエントリはまた、座標の精度、および所与のノードが正しく識別される確率の誤差推定値を提供し得る。

一実施形態では、本開示の一実施形態に係る分類器モジュール１５０は、テンソル３００内のデータを処理するための少なくとも１つの非局所的グラフ畳み込みネット（ＮＬＧＣＮ）を含む分類器を有し、人物５０のアイデンティティを提供し得る。随意的に、少なくとも１つのＮＬＧＣＮは、非局所的ＧＣＮ層に加えて適応隣接行列を含む少なくとも１つの適応ＡＮＬＧＣＮを備える。適応隣接行列は、互いに関連する手の関節における時空間運動の分類器認識を改善するように動作する。該時空間運動は、空間構造によって影響されず、人物がタイピングを実行する方法に特有の運動である。

一例として、図６Ｂは、本開示の一実施形態に係る、ＤＹＮＡＭＩＤＥハブ１２０がテンソル３００内のデータを処理するために使用し得る分類器３２０のスキーマを示す。分類器３２０は、完全に接続されたネットＦＣＮ３２８に対してデータを順方向に供給する畳み込みニューラルネットワークブロック３２２、３２４、および３２６を随意的に備える。完全に接続されたネットＦＣＮ３２８は、複数の人物の各々に対して、当該人物が、キーパッド６２上でタイピングするビデオシーケンス１１４（図２）において手５２が撮像された人物であるか否かに関する確率を提供する。ブロック３２２は随意的に、時間畳み込みネットワーク（ＴＣＮ：time convolutional network）に順方向データを供給するＧＣＮを備える。ブロック３２４はＴＣＮに対してデータを順方向に供給するＡＮＬ－ＧＣＮを備え、ブロック３２６はＡＮＬ－ＴＣＮに対してデータを順方向に供給するＧＣＮを備える。

従って、本開示の一実施形態によれば、人物を識別する方法が提供される。当該方法は、人物が関与する行動に関連する複数の解剖学的ランドマークであって、前記行動の期間中における、前記解剖学的ランドマークの少なくとも１つの時空間軌跡を決定付けるデータを提供する解剖学的ランドマークの各々に対する時空間データを取得する工程と、前記取得された時空間データを、時空間グラフ（ＳＴ－グラフ）としてモデル化する工程と、前記人物に対応するアイデンティティを提供するために、少なくとも１つの非局所的グラフ畳み込みニューラルネットワーク（ＮＬＧＣＮ）を用いて前記ＳＴ－グラフを処理する工程と、を含む。随意的に、前記少なくとも１つのＮＬＧＣＮは、前記複数の解剖学的ランドマークから成る解剖学的ランドマークに関するデータに応答して学習される適応隣接行列を含む少なくとも１つの適応ＮＬＧＣＮ（ＡＮＬＧＣＮ）を備え、前記複数の解剖学的ランドマークから成る解剖学的ランドマークは、前記人物の身体構造のみによって決定されない。加えて、または二者択一的に、前記ＳＴ－グラフを処理することは、前記複数の解剖学的ランドマークを、解剖学的ランドマークの複数のセットにセグメント化することを含み、各セットは、運動の自由度が異なる構成によって特徴付けられる。随意的に、前記方法は、各セット内の前記解剖学的ランドマークに関連する、前記取得された時空間データを、ＳＴ－グラフとしてモデル化することを含む。前記処理する工程は、前記人物のアイデンティティを示すデータを決定するために、前記少なくとも１つのＮＬＧＣＮから成るＮＬＧＣＮを用いて、前記解剖学的ランドマークの複数のセットにおける各セットについてモデル化された前記ＳＴ－グラフを処理することを含み、前記決定は、前記複数のセットのうちの他のセットを処理することとは無関係であってもよい。前記方法は、随意的に、全ての前記セットから前記決定されたデータを融合して、前記人物に対する前記アイデンティティを提供することを含む。

一実施形態において、前記時空間データを取得することは、前記行動に関与する前記人物を画像化した一連のビデオフレームを取得することを含み、各ビデオフレームは、前記複数の解剖学的ランドマークから成る解剖学的ランドマークを画像化した少なくとも１つの身体関心領域（ＢＲＯＩ）の画像を含む。随意的に、前記方法は、各ビデオフレームにおいて前記少なくとも１つのＢＲＯＩを検出するために前記ビデオフレームを処理することを含む。加えて、または二者択一的に、前記方法は、随意的に、前記少なくとも１つの検出されたＢＲＯＩの各々において、前記複数の解剖学的ランドマークから成る解剖学的ランドマークの画像を識別することを含む。随意的に、前記方法は、前記識別された前記解剖学的ランドマークの画像を処理して、前記時空間軌跡を定義する前記データを決定することを含む。

一実施形態において、前記複数の解剖学的ランドマークは、関節を含む。随意的に、前記複数の解剖学的ランドマークは、前記関節を接続する骨を含む。加えて、または二者択一的に、前記関節は、指の関節を含む。随意的に、前記行動は、一連の指の動かし方を含む。前記指の動かし方は、キーボードの操作に関与する動かし方を含んでもよい。

一実施形態において、前記関節は、大きな外肢の関節を含む。随意的に、前記行動は、スポーツである。随意的に、前記スポーツは、サッカーである。随意的に、前記スポーツは、ゴルフである。

一実施形態において、前記複数の解剖学的ランドマークは、顔のランドマークを含む。随意的に、前記顔のランドマークは、表情および微小な表現を分類するために使用されるフェイシャルアクションコーディングシステム（ＦＡＣＳ）のアクションユニット（ＡＵ）を定義するためにその動きが使用される顔のランドマークを含む。一実施形態において、前記複数の解剖学的ランドマークは、手の複数の指の指紋の詳細なペアの特徴を含む。

さらに、本開示の一実施形態によれば、人物を識別するためのシステムが提供される。当該システムは、行動に関与する人物を撮像するビデオフレームを有する映像を取得するように動作可能な撮像システムと、前記人物に対応するアイデンティティを提供するために、前記請求項のいずれかに従って前記ビデオフレームを処理するために使用可能なソフトウェアと、を備える。

本出願における本発明の実施形態の説明は、例として提供されるものであり、本発明の範囲を限定することを意図するものではない。説明される実施形態は異なる特徴を含み、それらの全てが全ての実施形態において必要とされるわけではない。いくつかの実施形態は特徴のうちのいくつか、または特徴の可能な組み合わせのみを利用する。記載された本発明の実施形態の変形例、および記載された実施形態で述べられた特徴の異なる組み合わせを含む実施形態は、当業者に想起されるだろう。本発明の範囲は、特許請求の範囲によってのみ限定される。

本開示の実施形態に係る、人物を識別するための、ＤＹＮＡＭＩＤＥが行動を実行する該人物の一連のビデオフレームを処理し得るプロセスを図示するフロー図である。本開示の実施形態に係る、人物を識別するためにＡＴＭ（automated teller machine：現金自動預け払い機）キーパッド上でタイピングする人物の一連のビデオフレームを処理するＤＹＮＡＭＩＤＥシステムを概略的に示す図である。図３Ａは、本開示の実施形態に係る、ＤＹＮＡＭＩＤＥがキーボード上でタイピングする人物を識別するために使用し得る手の画像および手のＡＦＩＤを概略的に示す図である。図３Ｂは、本開示の実施形態に係る、図３Ａに示される手をモデル化する空間グラフであるＳ－グラフを概略的に示す図である。図４Ａは、本開示の実施形態に係る、図２に示されるＡＴＭでタイピングに関与する人物のために取得された一連のビデオフレームのうちの１つのビデオフレームの拡大画像を概略的に示す図である。図４Ｂは、本開示の実施形態に係る、図４Ａに示されるビデオフレームにおいて画像化される手をモデル化するＳ－グラフを概略的に示す図である。図５Ａは、本開示の実施形態に係る、図２に示される一連のビデオフレームの拡大画像を概略的に示す図である。図５Ｂは、本開示の実施形態に係る、図５Ａに示される一連のビデオフレームの画像に対応する時空間グラフＳＴ－グラフを概略的に示す図である。図６Ａは、本開示の一実施形態に係る、図５Ｂに示されるＳＴ－グラフのノードに関連するデータを備える時空間特徴テンソルを概略的に示す図である。図６Ｂは、本開示の実施形態に係る、ＤＹＮＡＭＩＤＥが図６Ａに示されるテンソル内のデータを処理するために使用し得る非局所的ニューラルネットワークのスキーマを示す図である。

Claims

人物を識別する方法であって、
データおよび実行可能命令をメモリに保存することと、
以下の工程を実行するために、前記実行可能命令をプロセッサにおいて実行することと、を含み、
前記工程は、
人物が関与する行動に関連する複数の解剖学的ランドマークであって、前記行動の期間中における、前記解剖学的ランドマークの少なくとも１つの時空間軌跡を決定付けるデータを提供する解剖学的ランドマークの各々に対する時空間データを取得する工程と、
前記取得された時空間データを、時空間グラフ（ＳＴ－グラフ）としてモデル化する工程と、
前記複数の解剖学的ランドマークを、解剖学的ランドマークの複数のセットにセグメント化することによって、少なくとも１つの非局所的グラフ畳み込みニューラルネットワーク（ＮＬＧＣＮ）を用いて前記ＳＴ－グラフを処理する工程と、
前記ＳＴ－グラフの処理結果に基づき生成された、前記人物のアイデンティティを出力する工程と、
を含み、
前記複数のセットのそれぞれは、複数の運動の自由度のそれぞれによって特徴付けられ、前記運動の自由度は、互いに独立している、
方法。
前記少なくとも１つのＮＬＧＣＮは、前記複数の解剖学的ランドマークから成る解剖学的ランドマークに関するデータに応答して学習される適応隣接行列を含む少なくとも１つの適応ＮＬＧＣＮ（ＡＮＬＧＣＮ）を備え、前記複数の解剖学的ランドマークから成る解剖学的ランドマークは、前記人物の身体構造のみによって決定されない、請求項１に記載の方法。
各セット内の前記解剖学的ランドマークに関連する、前記取得された時空間データを、ＳＴ－グラフとしてモデル化することを含む、請求項１に記載の方法。
処理する工程は、前記人物のアイデンティティを示すデータを決定するために、前記少なくとも１つのＮＬＧＣＮから成るＮＬＧＣＮを用いて、前記解剖学的ランドマークの複数のセットにおける各セットについてモデル化された前記ＳＴ－グラフを処理することを含み、前記決定は、前記複数のセットのうちの他のセットを処理することとは無関係である、請求項３に記載の方法。
全ての前記セットから前記決定されたデータを融合して、前記人物に対する前記アイデンティティを提供することを含む、請求項４に記載の方法。
前記時空間データを取得することは、前記行動に関与する前記人物を画像化した一連のビデオフレームを取得することを含み、各ビデオフレームは、前記複数の解剖学的ランドマークから成る解剖学的ランドマークを画像化した少なくとも１つの身体関心領域（ＢＲＯＩ）の画像を含む、請求項１に記載の方法。
各ビデオフレームにおいて前記少なくとも１つのＢＲＯＩを検出するために前記ビデオフレームを処理することを含む、請求項６に記載の方法。
前記少なくとも１つの検出されたＢＲＯＩの各々において、前記複数の解剖学的ランドマークから成る解剖学的ランドマークの画像を識別することを含む、請求項６に記載の方法。
前記識別された前記解剖学的ランドマークの画像を処理して、前記時空間軌跡を定義する前記データを決定することを含む、請求項８に記載の方法。
前記複数の解剖学的ランドマークは、関節を含む、請求項８に記載の方法。
前記複数の解剖学的ランドマークは、前記関節を接続する骨を含む、請求項１０に記載の方法。
前記関節は、指の関節を含む、請求項１０に記載の方法。
前記行動は、一連の指の動かし方を含む、請求項１２に記載の方法。
前記指の動かし方は、キーボードの操作に関与する動かし方を含む、請求項１３に記載の方法。
前記関節は、大きな外肢の関節を含む、請求項１０に記載の方法。
前記行動は、スポーツである、請求項１５に記載の方法。
前記スポーツは、サッカーである、請求項１６に記載の方法。
前記スポーツは、ゴルフである、請求項１６に記載の方法。
人物を識別する方法であって、
データおよび実行可能命令をメモリに保存することと、
以下の工程を実行するために、前記実行可能命令をプロセッサにおいて実行することと、を含み、
前記工程は、
人物が関与する行動に関連する複数の解剖学的ランドマークであって、前記行動の期間中における、前記解剖学的ランドマークの少なくとも１つの時空間軌跡を決定付けるデータを提供する解剖学的ランドマークの各々に対する時空間データを取得する工程と、
前記取得された時空間データを、時空間グラフ（ＳＴ－グラフ）としてモデル化する工程と、
前記解剖学的ランドマークに関連する複数の人物に対する確率ヒストグラムを生成するように構成された、完全に接続されたネットワーク（ＦＣＮ）を含む少なくとも１つの非局所的グラフ畳み込みニューラルネットワーク（ＮＬＧＣＮ）を用いて前記ＳＴ－グラフを処理する工程と、
前記確率ヒストグラムに基づき生成された、前記人物のアイデンティティを出力する工程と、
を含み、
前記複数の解剖学的ランドマークは、顔のランドマークを含む、方法。
前記顔のランドマークは、表情および微小な表現を分類するために使用されるフェイシャルアクションコーディングシステム（ＦＡＣＳ）のアクションユニット（ＡＵ）を定義するためにその動きが使用される顔のランドマークを含む、請求項１９に記載の方法。
前記複数の解剖学的ランドマークは、手の複数の指の指紋の詳細なペアの特徴を含む、
請求項１９に記載の方法。