JP2022544349A

JP2022544349A - デバイスのネットワーク全体での人物認識可能性を使用するシステムおよび方法

Info

Publication number: JP2022544349A
Application number: JP2021576386A
Authority: JP
Inventors: アンドリュー・ギャラガー; ジョセフ・エドワード・ロス; マイケル・クリスチャン・ネチバ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2022-10-18
Also published as: US20220254190A1; CN114127801A; KR20220016217A; WO2021029881A1; EP3973441A1

Abstract

本開示は、デバイスのネットワークを介して認識を実行するためのコンピュータ実装システムおよび方法を対象とする。一般に、本システムおよび方法は、人物を識別するために使用できる生体情報を必ずしも生成または記憶せずに、認識可能性スコアを決定するために、人物の声、顔の特徴、または同様の情報などの情報を処理することができる、機械学習認識可能性モデルを実装する。認識可能性スコアは、デバイスのネットワーク内の他のデバイスで実行することができる生体認証の参照として、情報の品質のプロキシとして機能することができる。したがって、ネットワークに人物を登録するために(たとえば、人物の写真を多数キャプチャすることによって)、単一のデバイスを使用することもできる。その後、他のデバイスへの接続は、参照情報の特徴をセンサによって受信された入力と比較するために、他のデバイス上のセンサ(たとえば、カメラ)を利用することができる。

Description

本開示は、一般に機械学習に関する。より具体的には、本開示は、生体認証分析を特定の信頼できるデバイスに限定しながら、デバイスのネットワーク全体でユーザ認識を行うことを可能にする登録プロセス(たとえば、機械学習モデルを使用する)に関する。

顔認識、指紋認識、音声認識などの生体認証は、スマートフォンおよびパーソナルホームアシスタントを含む様々なデバイスに実装されている。多くの場合、これらの認識方法は、デバイスまたはデバイスの特定の機能にアクセスするためのアクセス許可を制御するための認証の形式として使用される。

コンピューティングデバイス、特に、一般に「スマート」デバイスおよび/またはモノのインターネット(IoT)と呼ばれるネットワーク接続可能なデバイスの数が増えるにつれて、デバイスごとにアクセス許可を定義する必要がある。

通常、生体認証を有効にするために、ユーザは登録プロセスに参加することができ、これは、ユーザの1つまたは複数の参照ファイル(たとえば、参照画像、指紋スキャン、音声サンプルなど)の生成を含み得る。しかしながら、スマートコンピューティングデバイスの数が増えると、個別のデバイスごとのこの登録プロセスにおける冗長なパフォーマンスは、時間のかかる、面倒な、またはユーザにとって苛立たしいものになる可能性がある。したがって、ユーザがデバイスの彼女のネットワークに新しいデバイスを追加するとき、登録プロセスを再度実行する必要なしに、彼女のアイデンティティを認識する機能をそのような新しいデバイスに単に拡張したい場合がある。

当技術分野で必要とされるのは、デバイスのネットワーク全体で生体認証を有利に管理することができる方法およびシステムである。

Schroffらの、FaceNet:A Unified Embedding for Face Recognition and Clustering(https://arxiv.org/abs/1503.03832)

当業者に向けられた実施形態の詳細な議論は本明細書に記載されており、添付の図面を参照している。

本開示の例示的な実施形態による、デバイスのネットワーク全体にわたって認識を実行する例示的なコンピューティングシステムのブロック図である。本開示の例示的な実施形態による、認識および/または認識における登録を実装するために使用することができる例示的なコンピューティングデバイスのブロック図である。本開示の例示的な実施形態による、認識および/または認識における登録を実装するために使用することができる例示的なコンピューティングデバイスのブロック図である。本開示の例示的な実施形態によるデバイスの例示的なネットワークの図を示す図である。本開示の例示的な実施形態による、デバイスの例示的なネットワークのブロック図を示す図である。本開示の例示的な実施形態による、デバイスのネットワークへの登録を実行するための例示的な方法のフローチャート図である。本開示の例示的な実施形態による、認識可能性モデルをトレーニングするための例示的なプロセスを表示するブロック図である。

複数の図面にわたって繰り返される参照番号は、様々な実装形態において同じ機能を識別することを目的としている。

概要
一般に、本開示は、デバイスのネットワークを介して認識を実行するためのコンピュータ実装システムおよび方法を対象とする。特に、上記のように、ユーザがデバイスの彼女のネットワークに新しいデバイスを追加するとき、登録プロセスを再度実行する必要なしに、彼女のアイデンティティを認識する機能をそのような新しいデバイスに単に拡張したい場合がある。本開示の態様は、1つまたは複数の第1のデバイス(たとえば、スマートフォンおよび/またはサーバコンピューティングシステムなどのユーザのデバイス)においてユーザの参照ファイル(たとえば、参照画像のギャラリ)をキャプチャおよび記憶することによって、そのようなプロセスを可能にする。その後、ユーザがアイデンティティ認識を第2のデバイス(たとえば、新しいホームアシスタントデバイス)に拡張したいとき、ユーザは、参照ファイルを第2のデバイスと共有するように第1のデバイスに単に指示することができる。そのような方法で、ユーザは、参照ファイルが収集される登録プロセスを再度実行する必要なしに、新しいデバイスを迅速かつ容易に登録することができる(たとえば、新しいデバイスが彼女を認識するための認識プロセスを実行できるようにする)。さらに、本開示の追加の態様は、登録および認識プロセスを容易にするための機械学習モデルの使用を対象とする。具体的には、本開示の態様は、ユーザに関する生体認証または他の個人を特定できる情報を計算することなしに、高品質の参照ファイルのキュレーションを可能にする、機械学習認識可能性モデルの使用(たとえば、ユーザデバイスおよび/またはサーバデバイスなどの第1のデバイスにおいて、またはそれによって)を含むことができる。

より具体的には、本開示の一態様によれば、ネットワークに参加しているデバイスのうちの1つまたは複数は、人物を識別するために使用できる生体情報を必ずしも生成または記憶せずに、認識可能性スコアを決定するために、人物の声、顔の特徴、または同様の情報などの情報を処理することができる、機械学習認識可能性モデルを含み、採用することができる。一般に、認識可能性スコアは、デバイスのネットワーク内の他のデバイスで実行することができる生体認証の参照として、情報の品質のプロキシとして機能することができる。

品質や認識可能性のいずれの定義にも同意することなしに、一般にこれらの用語は、データ(画像または音声)を識別する条件が個人を区別するのに十分な詳細を表示することを示すために使用される。たとえば、登録を実行する個人に関連する画像またはオーディオファイルに含まれる情報が多いほど、通常、ファイルの品質は高くなる。一例として、顔の上半分のみを表示する画像ファイルは、顔全体を表示する画像ファイルと比較して品質が低くなる。別の例として、静かな部屋において取得された音声録音を含むオーディオファイルは、屋外または混雑した環境において取得された音声録音と比較して高品質である。したがって、一般に、認識可能性は、データの量、ならびに識別機能に比べて低いバックグラウンドなどのデータプロパティの両方に関連付けることができる。たとえば、低い認識可能性は、より少ない量のデータ、および/またはより高いバックグラウンド機能を表示するファイルに関連付けることができる。

認識可能性の他の定義は、クエリに関連付けることができる。例として、認識可能性が高く、アイデンティティが不明なクエリ信号の場合、知られているアイデンティティの信号(画像)のギャラリが提供されたときにアイデンティティを正確に決定できる可能性が高い(たとえば、75%以上)ことを示すために、高い認識可能性を使用することができる。この例の逆もまた、低い認識可能性の例を定義するために使用され得る。したがって、画像または他のファイルからアイデンティティが正確に決定され得る確率を示すために、認識可能性スコアが使用され得る。

したがって、いくつかの実装形態では、そのようなファイル(たとえば、画像)がファイルによって描かれている、または参照されている個人を認識するために役立つ範囲を示す認識可能性スコアを決定するために、新しくキャプチャされた参照ファイル(たとえば、初期登録プロセスの一部としてユーザのデバイスによってキャプチャされた画像)を、機械学習認識可能性モデルによって評価することができる。しかしながら、認識可能性スコア自体は、個人の識別を可能にする生体情報または他の情報を含まない。代わりに、認識可能性スコアは、ファイルが別の認識プロセスを介して認識を実行するために役立つかどうかを単に示し、このプロセスは、異なるデバイス(たとえば、ユーザが後で彼女のアイデンティティが拡張されることを要求する「セカンダリ」デバイス)によって実行され得る。

ユーザの前進を認識する際に使用される参照ファイルとして機能する参照ファイルのセットに含めるために、新たにキャプチャされた参照ファイルの一部がそれぞれの認識可能性スコアに基づいて選択される。一例として、新しくキャプチャされた画像(たとえば、初期登録プロセスの一部としてユーザのデバイスによってキャプチャされた画像)は、画像ごとの認識可能性スコアを決定するために、機械学習認識可能性モデルによって評価することができる。特定のしきい値スコアを満たす認識可能性スコアを受信する画像(たとえば、高い「認識可能性」を有すると判断される)を選択し(たとえば、ユーザのデバイスおよび/またはサーバデバイスによって)、ユーザに関連付けられる画像ギャラリ内に記憶することができる(たとえば、ユーザのデバイスおよび/またはサーバデバイスによって)。しかしながら、重要なのは、認識可能性分析を使用して参照ファイルのセットを構築することができることであり(たとえば、認識プロセスの実行に非常に役立つ参照ファイルのみを含む高品質の参照セットを作成するために)、実際の生体情報の計算は、参照ファイルのセットを生成するために必ずしも発生するわけではない。したがって、たとえ第1のデバイス(たとえば、ユーザのデバイス)が生体情報の計算または記憶を禁止されている場合(たとえば、ポリシの制約、許可などのため)でも、高品質の参照セットを構築することができる。

ユーザの要求に応じて、この画像ギャラリは、ユーザが認識機能を拡張したい新しいセカンダリデバイス(たとえば、ホームアシスタントデバイス)と共有したり、アクセスできるようにしたりすることができる。特に、いくつかの実装形態では、セカンダリデバイスは、参照ファイル(たとえば、画像ギャラリ)に少なくとも部分的に基づいてユーザを認識するために、機械学習認識モデルを含む、および/または採用することができる。

より具体的には、本開示の別の態様は、個人を認識するように動作する(たとえば、生体情報の計算または分析を通じて)機械学習認識モデル(認識可能性モデルとは別)の使用に関する。具体的には、セカンダリデバイスは、人物を描写する、または他の方法で表す追加のファイル(たとえば、画像、オーディオなど)をキャプチャする1つまたは複数のセンサ(たとえば、カメラ、マイクロフォン、指紋センサなど)を含むことができる。セカンダリデバイスは、追加ファイルによって表される人物をユーザとして認識できるかどうかを決定するために、追加ファイルおよび参照ファイルを分析するために機械学習認識モデルを採用することができる。一例として、機械学習認識モデルは、(たとえば、最終層および/あるいは1つまたは複数の隠れ層において)認識を実行するために役立つ埋込みを生成するように、(たとえば、トリプレットトレーニング技法を介して)トレーニングされたニューラルネットワークであってよい。たとえば、それぞれの入力に対してそれぞれの埋込みを生成するために機械学習認識モデルをトレーニングするために、トリプレットトレーニングスキームを使用することができ、埋込みのペア間の距離(たとえば、L2距離)は、対応する入力のペア(たとえば、画像)が同じ人物を描写または参照する確率を表す。したがって、いくつかの実装形態では、機械学習認識モデルは、追加ファイルおよび参照ファイルの埋込みを生成することができ、追加ファイルによって表される人物がユーザとして認識できるかどうかを決定するためにそれぞれの埋込みを比較することができる。

本明細書の他の場所でさらに詳細に説明される本開示の別の態様は、蒸留トレーニング技法を使用する機械学習認識モデルに基づく機械学習認識可能性モデルのトレーニングに関する。特に、蒸留トレーニング技法は、機械学習認識モデルの1つまたは複数の隠れ層からの隠れ層出力が、入力に関する生体情報に加えて、入力の認識可能性に関する情報を含むという事実を活用する。さらに、隠れ層出力に関連付けられるメトリック(たとえば、基準または他の累積統計)の計算は、認識可能性情報を保持しながら、生体認証または個人を特定できる情報を削除または破壊し得る。したがって、いくつかの実装形態では、機械学習認識可能性モデルを、機械学習認識モデルの1つまたは複数の隠れ層からの1つまたは複数の隠れ層出力の基準または他のメトリックを予測するようにトレーニングすることができる。そのような方法で、認識可能性を示すが、生体認証データまたは他の個人を特定できる情報を除外するか、含まない認識スコアを生成するために、機械学習認識可能性モデルをトレーニングすることができる。

したがって、いくつかの実施形態では、ネットワークに人物を登録するために(たとえば、人物の写真を多数キャプチャすることによって)、単一のデバイスを使用することもできる。その後、人物の認識を実行するために、他のデバイスへの接続は、参照情報の特徴をセンサによって受信された入力と比較するために、他のデバイス上のセンサ(たとえば、カメラ)を利用することができる。

本開示の実装形態は、接続されたデバイスのネットワーク全体のデバイスアクセスポリシを定義するための利点を提供し得る。これは、モノのインターネット(IoT)デバイスの数が増え続け、デバイスごとにアクセス許可を定義するのが面倒になるため、特に便利である。各デバイスを音声、顔、指紋、または他のバイオマーカ認識に登録するのではなく、参照として選択するために高品質の情報を決定する単一の登録を実行することができる。次いで、ネットワーク内のデバイスのうちの1つにアクセスしようとする人は、そのような追加のデバイスによって取得された新しくキャプチャされたデータを参照ファイルと比較する認識分析(たとえば、トレーニングされた機械学習認識モデルを使用する)を受けることができる。そのような方法で、ユーザは、複数の異なるデバイスの登録プロセスの冗長なパフォーマンスを回避することができる。プロセスは複数回ではなく1回しか実行されないため、登録プロセスの冗長なパフォーマンスを排除することによって、コンピューティングリソース(たとえば、プロセス使用量、メモリ使用量、ネットワーク帯域幅など)を節約することができる。

説明のための例として、ホームアシスタント、キーレスエントリ、および/または生体認証機能(たとえば、指紋、目、顔、音声など)を利用する追加のデバイスなどの機能を含むスマートホームをセットアップしたい人は、デバイスの各々と対話するため、またはデバイスの特定の機能にアクセスするためのアクセスポリシとして、顔認識を設定したい場合がある。デバイスのネットワークを介して登録プロセスを達成するために、人は、本開示によるソフトウェアまたはハードウェアの実装方法を含むパーソナルコンピューティングデバイス(たとえば、スマートフォン)を用いて1つまたは複数の画像をキャプチャすることができる。パーソナルコンピューティングデバイスは、1つまたは複数の画像(もしあれば)のどれを参照ファイルとしてサーバまたは他の集中型コンピューティングシステム(たとえば、クラウドネットワーク)に送信するかを決定するために、認識可能性モデルを適用することができる。一般に、集中型コンピューティングシステムは、デバイスの各々と通信できるため、デバイスの各々と集中型コンピューティングシステムとの間のネットワーク(たとえば、インターネット、ブルートゥース（登録商標）、LANなど)を介してデータを送信することができる。その後、各デバイスへのアクセスは、各デバイスのポリシに従って実行することができる。たとえば、デバイスへのアクセスには、顔認識の場合にカメラなどのデバイスセンサによって受信された入力データを1つまたは複数の参照ファイルと比較するために、デバイスに含まれる認識モデルを使用することを含むことができる。

本開示の例示的な実装形態は、デバイスのネットワーク全体で個人識別に登録するための方法を含むことができる。一般に、本方法は、人を表す1つまたは複数のファイル(たとえば、顔の画像、指紋、目、または同様の情報、および/あるいは音声録音像)を含むデータセットを取得するステップを含む。これらの1つまたは複数のファイルから、機械学習認識可能性モデル(たとえば、蒸留モデル)は、ファイルを機械学習認識可能性モデルに提供することによって、1つまたは複数のファイルの各々の認識可能性スコアを決定することができる。認識可能性スコアに少なくとも部分的に基づいて、デバイスのうちの1つまたは複数に1つまたは複数の参照ファイルとして記憶するために、データセットの一部を選択することができる。その上で、ネットワークに含まれるデバイスのうちの1つにアクセスしようとすることは、認識ステップを含む可能性がある。一例として、認識ステップを実装することは、(たとえば、カメラまたはマイクを使用して)デバイスにアクセスしようとしている人物を説明するセンサ情報を取得することを含むことができる。生体情報が、デバイス、デバイス上のアプリケーション、または両方の組合せへのアクセスを許可する一致を示しているかどうかを決定するために、このセンサ情報を1つまたは複数の参照ファイルと比較することができる。

個人識別に登録するための方法の態様は、デバイスのネットワークに含まれる第1のデバイスを使用する人物を表す1つまたは複数のファイルを含むデータセットを取得するステップを含むことができる。いくつかの実装形態では、第1のデバイスは、カメラあるいは他の画像キャプチャデバイスおよび/またはマイクロフォンなどの組込みコンポーネントを含むことができるスマートフォンまたはパーソナルコンピュータなどのパーソナルコンピューティングデバイスを含むことができる。第1のデバイスの追加の機能は、1人または複数の人物が画像内に存在するかどうかを検出するように構成され得る画像プロセッサを含むことができる。簡潔にするために、本開示の実装形態は、使用例として1人の人物を使用して説明されている。しかしながら、これは、これらまたは他の実装形態を、1人の人物または1人の人物を含む画像のみを登録することに限定するものではない。登録を実行するために画像を個々のアイデンティティ(別個の検出された人物)にセグメント化するために、デバイスのうちの1つまたは複数によってアクセスすることができる画像フィルタまたは他の画像処理が使用され得る。

個人識別に登録する別の態様は、1つまたは複数のファイルの各々の認識可能性スコアを決定することを含む。例示的な実装形態では、認識可能性スコアは、蒸留を使用してトレーニングされた認識可能性モデルを使用して決定することができ、蒸留モデルと呼ばれ得る。一例として、本開示による認識可能性モデルは、1つまたは複数の他のニューラルネットワークの1つまたは複数の出力からトレーニングされた蒸留モデルを含み得る。蒸留モデルは、ラップトップやスマートフォンなどのパーソナルコンピューティングデバイスで蒸留モデルを実行できるようにする、コンピューティングコストの削減などの利点を提供することができる。

蒸留モデルのトレーニングは、ニューラルネットワークおよび/またはニューラルネットワークの1つまたは複数の出力を取得するステップを含むことができる。ニューラルネットワークは、ニューラルネットワークに入力(たとえば、顔の画像)を提供することによって、1つまたは複数の隠れ層を含む出力を生成するために使用することができる。隠れ層の各々は1つまたは複数の特徴を含むことができるため、1つまたは複数の隠れ層からメトリック(たとえば、基準)を計算することができる。次いで、蒸留モデルのトレーニングは、特定の入力に対して決定された1つまたは複数の隠れ層から計算されたメトリックを予測するための目的関数の最適化を含むことができる。

たとえば、蒸留モデルをトレーニングするための方法の例は、一連の隠れ層を決定するように構成されたニューラルネットワークを取得するステップと、ニューラルネットワークに複数の入力を提供することによって複数の出力を決定するステップであって、各出力がそれぞれの入力に関連付けられ、各出力が一連の隠れ層の一部を含む、ステップと、一連の隠れ層の一部に含まれる少なくとも1つの隠れ層のメトリックを計算するステップと、それぞれの入力を受信することに少なくとも部分的に基づいてメトリックを予測するために蒸留モデルをトレーニングするステップとを含むことができる。

ニューラルネットワークの態様は、ニューラルネットワークが決定するように構成されている隠れ層の数を記述するネットワーク構成を含むことができる。たとえば、ニューラルネットワークは、少なくとも5つの隠れ層、少なくとも7つの隠れ層、少なくとも10の隠れ層、少なくとも20の隠れ層などの、少なくとも3つの層を決定するように構成することができる。一般に、メトリックの計算に使用される少なくとも1つまたは複数の隠れ層には、層の最初の層または最後の層は含まれない。したがって、蒸留モデルをトレーニングするために、一般に、メトリックを計算するためにニューラルネットワークの中間層を選択することができる。説明のための例として、最後から2番目の層(すなわち、最後の層から2番目)を、メトリックを計算するための隠れ層として選択することができる。さらに、場合によっては、ニューラルネットワークは出力の決定を制限するように構成され得る。たとえば、メトリックを計算するためにニューラルネットワークの中間層を選択することができるため、ニューラルネットワークの後続の層を計算する必要はなく、ニューラルネットワークはニューラルネットワークのさらなる隠れ層または他の出力の決定を停止するように構成され得る。

蒸留モデルを使用すると、人を識別するために使用できる生体情報を必ずしも生成せずに認識可能性分析を実行することができるため、特定の利点が得られる場合がある。これは、ユーザがデバイスのネットワークに含まれるすべてのデバイスのポリシまたは機能に精通する必要がないため、ユーザに利点を提供することができる。代わりに、ユーザは各デバイスが独自のポリシに従って動作することを許可することができる。さらに、蒸留モデルは、参照ファイルをより迅速に識別および/または選択するためにユーザデバイスに実装することができるより軽量の実装形態を提供することができる。

本開示の実装形態のさらなる例示的な態様は、認識可能性スコアに少なくとも部分的に基づいて、1つまたは複数の参照ファイルとして記憶するデータセットの一部を選択することを含むことができる。特定の実装形態によれば、参照ファイルは、ネットワークに含まれるデバイスのうちの1つにアクセスしようとしている人と比較するためのプロキシとしてアクセスすることができる。したがって、場合によっては、誤検知を減らすために(たとえば、デバイスは、人が登録していないときに、その人がデバイスにアクセスできるようにする)、検出漏れを減らすために(たとえば、デバイスは、人が登録したときに、その人がデバイスにアクセスできないようにする)、または両方の組合せを行うために、選択を最適化することができる。たとえば、本開示の実装形態は、人がアクセスしようとしているデバイス上に存在する内蔵画像または音声比較モデルから生じる可能性がある検出漏れを減らすための利点を提供し得る。認識可能性モデルは、登録プロセス中に個人を表す高品質の情報を決定または識別することができ、場合によっては、データセットに含まれているファイルのいずれも認識可能性の基準またはしきい値を満たしていないことを、登録を実行しようとしているユーザにプロンプトを表示することさえある。別の例として、本開示の実装形態は、高品質の画像を選択するだけで誤検知を減らすための利点を提供することができる。たとえば、ある人がぼやけた画像で仮に登録した場合、識別情報が不明瞭になり、別の人がデバイスにアクセスしやすくなる可能性がある。一般に、画像が不明瞭になるほど、含まれる特徴の識別が少なくなり、誤検知の可能性が高くなる。

いくつかの実装形態では、しきい値は、1つまたは複数のファイルの認識可能性スコアから決定されるパーセンタイル、最小、最大、または他の同様の集計尺度などのメトリックによって決定することができる。追加的または代替的に、しきい値はあらかじめ設定された値を含み得、値を満たすかまたは超えるファイルのすべてまたは設定された数を、参照ファイルとして記憶するデータセットの一部として選択することができる。あらかじめ設定された値を含めると、登録中にキャプチャされたファイルが低品質のデータを含み、各ファイルの認識可能性スコアをしきい値と比較すると、どのスコアもしきい値を満たしていない、または超えていないことを示す場合に利点がある。このような場合、登録を実行するデバイスは、登録を繰り返す必要がある、または追加のファイルをデータセットに含める必要があるというメッセージをデバイスに表示するなど、ユーザにプロンプトを表示する場合がある。第1のデバイスにおいて登録を実行することの別の例示的な利点は、第1のデバイスが(もしあれば)どのファイルが選択のしきい値を満たすかを決定できるので、ネットワークトラフィックを保存および/または削減することを含むことができる。次いで、取得したファイル全体を送信する代わりに、選択したファイルのみを(たとえば、デバイスのネットワーク内の第2のデバイスに)送信することができる。たとえば、どのファイルもしきい値を満たしていないため、ネットワークに含まれる他のデバイスにどのファイルを送信する必要がない場合がある。

しきい値を満たす、または超える認識可能性スコアを有するファイルの場合、これらは参照ファイルとして記憶するために第2のデバイスに送信することができる。いくつかの実装形態では、第2のデバイスは、サーバ、クラウドコンピューティングデバイス、またはデバイスのネットワーク内の各デバイスによってアクセスされ得る同様のデバイスを含むことができる。この一元化された参照を持つことで、データストレージの削減、および/またはデバイスへのアクセスを許可された人などの登録更新の容易化などの利点を提供することができる。

例示的な実装形態として、デバイスのネットワークに含まれるデバイスにアクセスしようとする人、および/またはデバイスによって実行される動作/アプリケーションは、デバイス上で生体認証分析を受ける場合がある。生体認証分析は、デバイスにアクセスしようとしている人に関する情報(たとえば、カメラからのビデオ、マイクからのオーディオなど)を含む信号を取得するために、デバイスに含まれるセンサにアクセスすることを含むことができる。この信号は、人に関連付けられる特徴のセット(たとえば、顔の特徴)を決定するようにトレーニングされた機械学習認識モデルなどの生体認証アナライザによって処理することができる。同じ生体認証アナライザまたは同様にトレーニングされた生体認証アナライザは、機能の参照セットを決定するために、参照ファイルを処理することができる。次いで、これらの2つの特徴のセットを比較し、その比較に基づいて、デバイスにアクセスしようとしている人に応答が提供され得る。たとえば、デバイスにアクセスしようとしている人がデバイスのネットワークへの登録を完了した場合、応答は、デバイスのホーム画面を開くこと、またはデバイスに含まれる動作/アプリケーションを実行することを含むことができる。あるいは、デバイスにアクセスしようとしている人がデバイスのネットワークに登録していない場合、応答には、登録を実行するようにその人に促すこと、その人にエラーを提供すること、および/または登録を実行した人に通知を送信することを含むことができる。

一般に、生体認証アナライザは、デバイスのネットワークに含まれるデバイスのうちの1つまたは複数に含めることができ、デバイスのポリシに従って生体認証分析を実行するように構成され得る。たとえば、デバイスのネットワークに含まれる第3のデバイスは、Google Homeなどのコンピュータアシスタント、または自然言語の入力を受け取り、入力に基づいて出力を生成するように構成された他の同様のデバイスを含み得る。これらのデバイスの各々は、生体認証を実行するための独自のモデル(たとえば、機械学習認識モデル)を含み得る。たとえば、機械学習モデルは、デバイスにアクセスしようとしている人の特徴表現を記述する埋込みを生成するために、ニューラルネットワークを実装することができる。これらのデバイスはまた、デバイスにアクセスしようとしている人を説明する情報を含む信号を取得するための1つまたは複数のセンサを含むことができる。

技術的な効果および利点の例として、デバイスのネットワーク全体で認識を実行するための方法とシステムは、アクセスポリシを管理および更新するためのより優れた制御を提供し、コンピューティングリソースを削減することができる。たとえば、ネットワークに含まれる各デバイスを個別に更新するのではなく、1回の登録を実行するだけで時間およびコンピューティングリソースを節約することができる。さらに、1回の登録で高品質の情報を決定することができるため、再登録の必要性、あるいは検出漏れまたは誤検知の可能性が減少する。同様に、本明細書に記載の認識可能性分析は、登録中に加えて、認識時に(たとえば、ホームアシスタントデバイスなどのセカンダリデバイスによって)実行することができる。認識時に認識可能性分析を使用すると、低い認識可能性の低品質のファイル(たとえば、画像)に認識分析が実行されないようにすることによって、コンピューティングリソースを節約することができる。

一般に、本開示の実装形態は、認識可能性分析を実行するための認識可能性モデルを含むか、アクセスすることができる。特定の実装形態では、認識可能性モデルは蒸留を使用してトレーニングすることができ、蒸留モデルと呼ばれ得る。たとえば、本開示による認識可能性モデルは、1つまたは複数のニューラルネットワークからの出力からトレーニングされた蒸留モデルを含み得る。蒸留モデルは、ラップトップやスマートフォンなどのパーソナルコンピューティングデバイスで蒸留モデルを実行できるようにする、コンピューティングコストの削減などの利点を提供することができる。特に、本明細書で説明される蒸留モデルは、非常に高速かつ軽量であり、それによってプロセッサおよびメモリ使用量などのコンピューティングリソースを節約する特殊なモデルであってよい。

次に図面を参照して、本開示の例示的な実施形態をさらに詳細に論じる。

例示的なデバイスおよびシステム
図1Aは、本開示の例示的な実施形態による、デバイスのネットワークへの登録を実行することができる例示的なコンピューティングシステム100のブロック図を示している。システム100は、ネットワーク180を介して通信可能に結合されたユーザコンピューティングデバイス102、サーバコンピューティングシステム130、トレーニングコンピューティングシステム150、およびセカンダリコンピューティングデバイス170を含む。

ユーザコンピューティングデバイス102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップまたはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンまたはタブレット)、ゲームコンソールまたはコントローラ、ウェアラブルコンピューティングデバイス、組込みコンピューティングデバイス、ホームアシスタント(たとえば、Google HomeまたはAmazon Alexa)または他のタイプのコンピューティングデバイスなどの、あらゆるタイプのコンピューティングデバイスであってよい。

ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112およびメモリ114を含む。1つまたは複数のプロセッサ112は、任意の適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってよく、動作可能に接続されている1つのプロセッサまたは複数のプロセッサであってよい。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの1つまたは複数の非一時的コンピュータ可読ストレージ媒体を含むことができる。メモリ114は、データ116および命令118を記憶することができ、これらは、ユーザコンピューティングデバイス102に動作を実行させるために、プロセッサ112によって実行される。

いくつかの実装形態では、ユーザコンピューティングデバイス102は、1つまたは複数の認識可能性モデル120を記憶または含むことができる。たとえば、認識可能性モデル120は、ニューラルネットワーク(たとえば、ディープニューラルネットワーク)などの様々な機械学習モデル、あるいは非線形モデルおよび/または線形モデルを含む他のタイプの機械学習モデルであるか、そうでなければ含むことができる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク(たとえば、長短期記憶リカレントニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形式のニューラルネットワークを含むことができる。

いくつかの実装形態では、1つまたは複数の認識可能性モデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受信され、ユーザコンピューティングデバイスメモリ114に記憶され、次いで、1つまたは複数のプロセッサ112によって使用されるか、そうでなければそれによって実装することができる。いくつかの実装形態では、ユーザコンピューティングデバイス102は、単一の認識可能性モデル120の複数の並列インスタンスを実装することができる(たとえば、並列登録を実行する、および/または認識可能性モデル120の複数のインスタンスにわたって認識可能性スコアを決定するために)。

より具体的には、認識可能性モデルは、情報が認識できるかどうかを決定するために人または顔のピクセル、および/あるいは音声の信号などの識別情報を処理するために、蒸留技法を使用してトレーニングされた機械学習モデルを含むことができる。一般に、人物認識可能性アナライザは、顔の埋込み、音声の埋込み、目や鼻などの顔のランドマーク、またはアクセントなどの音声特徴などの生体情報を計算または記憶しないように構成することができる。認識可能性モデルのこの態様は、入力情報の品質に対応する認識可能性スコアを出力するように認識可能性モデルをトレーニングすることによって実現することができる。

追加的または代替的に、1つまたは複数の認識可能性モデル140は、クライアント-サーバ関係に従ってユーザコンピューティングデバイス102と通信するサーバコンピューティングシステム130に含まれるか、さもなければ記憶されて実装され得る。たとえば、認識可能性モデル140は、ウェブサービスの一部としてサーバコンピューティングシステム130によって実装することができる。したがって、1つまたは複数のモデル120は、ユーザコンピューティングデバイス102に記憶および実装することができ、および/または1つまたは複数のモデル140は、サーバコンピューティングシステム130に記憶および実装することができる。

特定の実装形態では、ユーザコンピューティングデバイスはまた、認識モデル124を含むことができる。認識モデル124は、生体認証を実行するための機械学習モデル(たとえば、トレーニングされたニューラルネットワーク)を含むことができる。一般に、認識モデル124は、個人を識別するために使用することができる生体情報(たとえば、瞳孔間距離などの顔の特徴)を生成および/または記憶することができるので、認識可能性モデル120とは異なる。いくつかの実装形態では、認識モデル124は、ユーザコンピューティングデバイス102の一部として含まれていなくてもよい。代わりに、サーバコンピューティングシステム130などの別のコンピューティングシステムの一部として記憶された認識モデル144は、ユーザコンピューティングデバイス102によってアクセスされ得る。

ユーザコンピューティングデバイス102はまた、ユーザ入力を受信する1つまたは複数のユーザ入力コンポーネント122を含むことができる。たとえば、ユーザ入力コンポーネント122は、ユーザ入力オブジェクト(たとえば、指またはスタイラス)のタッチに敏感であるタッチセンシティブコンポーネント(たとえば、タッチセンシティブディスプレイスクリーンまたはタッチパッド)であり得る。タッチセンシティブコンポーネントは、仮想キーボードを実装するために役立つ。他の例示的なユーザ入力コンポーネントは、カメラ、マイクロフォン、従来のキーボード、またはユーザがユーザ入力を提供することができる他の手段を含む。

サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132およびメモリ134を含む。1つまたは複数のプロセッサ132は、任意の適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってよく、動作可能に接続されている1つのプロセッサまたは複数のプロセッサであってよい。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの1つまたは複数の非一時的コンピュータ可読ストレージ媒体を含むことができる。メモリ134は、データ136および命令138を記憶することができ、これらは、サーバコンピューティングデバイス130に動作を実行させるために、プロセッサ132によって実行される。

いくつかの実装形態では、サーバコンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含むか、そうでなければそれによって実装される。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む場合、そのようなサーバコンピューティングデバイスは、シーケンシャルコンピューティングアーキテクチャ、パラレルコンピューティングアーキテクチャ、またはそれらのいくつかの組合せに従って動作することができる。

上記のように、サーバコンピューティングシステム130は、1つまたは複数の機械学習認識可能性モデル140を記憶するか、そうでなければ含むことができる。たとえば、モデル140は、様々な機械学習モデルであるか、そうでなければ含むことができる。例示的な機械学習モデルは、ニューラルネットワークまたは他の多層非線形モデルを含む。例示的なニューラルネットワークは、フィードフォワードニューラルネットワーク、ディープニューラルネットワーク、リカレントニューラルネットワーク、および畳み込みニューラルネットワークを含む。

さらに、特定の実装形態では、サーバコンピューティングシステム130は、1つまたは複数の機械学習認識モデル144を記憶するか、そうでなければ含むことができる。上記のように、認識可能性モデル120および認識モデル144は、生体情報を記憶または生成する機能によって区別し得る。一般に、認識可能性モデル120は、モデルに提供される情報が、生体認証(たとえば、認識モデル144を使用する)を実行するための十分な詳細または品質を含むかどうかを決定するためのフィルタとして使用することができる。

ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130は、ネットワーク180を介して通信可能に結合されたトレーニングコンピューティングシステム150との相互作用を介してモデル120および/または140をトレーニングすることができる。トレーニングコンピューティングシステム150は、サーバコンピューティングシステム130から分離することができ、またはサーバコンピューティングシステム130の一部であることができる。

セカンダリコンピューティングデバイス170は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップまたはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンまたはタブレット)、ゲームコンソールまたはコントローラ、ウェアラブルコンピューティングデバイス、組込みコンピューティングデバイス、ホームアシスタント(たとえば、Google HomeまたはAmazon Alexa)または他のタイプのコンピューティングデバイスなどの、あらゆるタイプのコンピューティングデバイスであってよい。一般に、セカンダリコンピューティングデバイスは、1つまたは複数のプロセッサ172、メモリ174、認識モデル182、およびユーザ入力コンポーネント184を含むことができる。例示的な実装形態では、セカンダリコンピューティングデバイス170は、Google HomeなどのAIアシスタントを含むことができるIoTデバイスであり得る。さらに、単一のセカンダリコンピューティングデバイス170として示されているが、セカンダリコンピューティングデバイス170は、生体認証(たとえば、顔認識、音声認識、指紋認識など)を実行するための認識モデル182を含む1つまたは複数の接続されたデバイスを表すことができる。セカンダリコンピューティングデバイス170の1つの態様は、このデバイスが、認識可能性スコアを決定するための認識可能性モデル120または140を含む必要がないことである。代わりに、セカンダリコンピューティングデバイス170は、ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130に含まれる認識可能性モデル120および/または140によって決定された認識可能性スコアに少なくとも部分的に基づいて選択された(たとえば、サーバコンピューティングシステム130に記憶されたデータ136またはユーザコンピューティングデバイスに記憶されたデータ116として)参照ファイルにアクセスし得る。このようにして、セカンダリコンピューティングデバイス170にアクセスしようとするユーザは、各セカンダリコンピューティングデバイス170に対して登録を実行する必要はない。

トレーニングコンピューティングシステム150は、1つまたは複数のプロセッサ152およびメモリ154を含む。1つまたは複数のプロセッサ152は、任意の適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってよく、動作可能に接続されている1つのプロセッサまたは複数のプロセッサであってよい。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの1つまたは複数の非一時的コンピュータ可読ストレージ媒体を含むことができる。メモリ154は、データ156および命令158を記憶することができ、これらは、トレーニングコンピューティングデバイス150に動作を実行させるために、プロセッサ152によって実行される。いくつかの実装形態では、トレーニングコンピューティングシステム150は、1つまたは複数のサーバコンピューティングデバイスを含むか、そうでなければそれによって実装される。

トレーニングコンピューティングシステム150は、たとえば、エラーの後方伝播などの様々なトレーニングまたは学習技法を使用して、ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130に記憶された機械学習モデル120および/または140をトレーニングするモデルトレーナ160を含むことができる。いくつかの実装形態では、エラーの後方伝播の実行は、時間の経過に伴う切り捨てられた後方伝播の実行が含まれる場合がある。モデルトレーナ160は、トレーニングされているモデルの一般化能力を改善するために、いくつかの一般化技法(たとえば、体重の減衰、ドロップアウトなど)を実行することができる。

特に、モデルトレーナ160は、トレーニングデータ162のセットに基づいて、認識可能性モデル120および/または140をトレーニングすることができる。トレーニングデータ162は、たとえば、顔または音声認識を実行するように構成されたモデルなど、1つまたは複数の機械学習モデルからの出力を含むことができる。これらの1つまたは複数の機械学習モデルは、3つ以上の隠れ層を生成するように構成されたニューラルネットワークを含むことができる。例示的な実装形態では、認識可能性モデル120および/または140は、ニューラルネットワークの出力ではなく、1つまたは複数のニューラルネットワークによって生成された隠れ層の特徴を使用してトレーニングすることができる。さらに、場合によっては、隠れ層の特徴は、メトリック(たとえば、基準)およびメトリックを含むトレーニングデータ162を使用してトレーニングされた認識可能性モデル120および/または140を使用して要約され得る。たとえば、顔認識用の蒸留モデルを学習するために、小さいサムネイル画像を入力し、最後から2番目の隠れ層から決定されたメトリック(たとえば、L2基準値)に直接回帰するネットワークを利用することができる。

いくつかの実装形態では、ユーザが同意を提供した場合、トレーニング例は、ユーザコンピューティングデバイス102によって提供することができる。したがって、そのような実装形態では、ユーザコンピューティングデバイス102に提供されるモデル120は、ユーザコンピューティングデバイス102から受信したユーザ固有のデータについてトレーニングコンピューティングシステム150によってトレーニングすることができる。場合によっては、このプロセスは、モデルのパーソナライズと呼ぶことができる。

モデルトレーナ160は、所望の機能を提供するために利用されるコンピュータロジックを含む。モデルトレーナ160は、汎用プロセッサを制御するハードウェア、ファームウェア、および/またはソフトウェアに実装することができる。たとえば、いくつかの実装形態では、モデルトレーナ160は、ストレージデバイスに記憶され、メモリにロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。他の実装形態では、モデルトレーナ160は、RAMハードディスクあるいは光学または磁気媒体などの有形のコンピュータ可読ストレージ媒体に記憶されるコンピュータ実行可能命令の1つまたは複数のセットを含む。

ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、ワイドエリアネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなどの任意のタイプの通信ネットワークであり得、任意の数のワイヤードまたはワイヤレスリンクを含むことができる。一般に、ネットワーク180を介した通信は、多種多様な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、エンコーディングまたはフォーマット(たとえば、HTML、XML)、および/または保護スキーム(たとえば、VPN、セキュアHTTP、SSL)を使用して、任意のタイプのワイヤードおよび/またはワイヤレス接続を介して運ぶことができる。

図1Aは、本開示を実装するために使用することができる1つの例示的なコンピューティングシステムを示している。他のコンピューティングシステムも使用することができる。たとえば、いくつかの実装形態では、ユーザコンピューティングデバイス102は、モデルトレーナ160およびトレーニングデータセット162を含むことができる。そのような実装形態では、モデル120は、ユーザコンピューティングデバイス102においてローカルにトレーニングおよび使用することができる。いくつかの実装形態では、ユーザコンピューティングデバイス102は、ユーザ固有のデータに基づいてモデル120をパーソナライズするために、モデルトレーナ160を実装することができる。

図1Bは、本開示の例示的な実施形態による、デバイスのネットワーク全体にわたって登録を実行することができる例示的なコンピューティングデバイス10のブロック図を示している。コンピューティングデバイス10は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであり得る。

コンピューティングデバイス10は、いくつかのアプリケーション(たとえば、アプリケーション1からN)を含むことができる。各アプリケーションは、独自の機械学習ライブラリと機械学習モデルを含むことができる。たとえば、各アプリケーションは機械学習モデルを含むことができる。例示的なアプリケーションは、テキストメッセージングアプリケーション、パーソナルアシスタントアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。

図1Bに示されるように、各アプリケーションは、たとえば、1つまたは複数のセンサ、コンテキストマネージャ、デバイス状態コンポーネント、および/または追加のコンポーネントなどの、コンピューティングデバイスの他のいくつかのコンポーネントと通信することができる。いくつかの実装形態では、各アプリケーションは、API(たとえば、パブリックAPI)を使用して各デバイスコンポーネントと通信することができる。いくつかの実装形態では、各アプリケーションによって使用されるAPIは、そのアプリケーションに固有である。

図1Cは、本開示の例示的な実施形態に従って実行する例示的なコンピューティングデバイス50のブロック図を示している。コンピューティングデバイス50は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであり得る。

コンピューティングデバイス50は、いくつかのアプリケーション(たとえば、アプリケーション1からN)を含む。各アプリケーションは、中央インテリジェンス層と通信している。例示的なアプリケーションは、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。いくつかの実装形態では、各アプリケーションは、API(たとえば、すべてのアプリケーションに共通のAPI)を使用して、中央インテリジェンス層(およびそこに記憶されているモデル)と通信することができる。

中央インテリジェンス層は、機械学習モデルを多数含む。たとえば、図1Cに示されるように、それぞれの機械学習モデル(たとえば、モデル)をアプリケーションごとに提供し、中央インテリジェンス層によって管理することができる。他の実装形態では、2つ以上のアプリケーションが単一の機械学習モデルを共有できる。たとえば、いくつかの実装形態では、中央インテリジェンス層は、すべてのアプリケーションに単一のモデル(たとえば、単一のモデル)を提供することができる。いくつかの実装形態では、中央インテリジェンス層は、コンピューティングデバイス50のオペレーティングシステム内に含まれるか、そうでなければそれによって実装される。

中央インテリジェンス層は、中央デバイスデータ層と通信することができる。中央デバイスデータ層は、コンピューティングデバイス50のデータの一元化されたリポジトリであり得る。図1Cに示されるように、中央デバイスデータ層は、たとえば、1つまたは複数のセンサ、コンテキストマネージャ、デバイス状態コンポーネント、および/または追加のコンポーネントなどの、コンピューティングデバイスの他のいくつかのコンポーネントと通信することができる。いくつかの実装形態では、中央デバイスデータ層は、API(たとえば、プライベートAPI)を使用して各デバイスコンポーネントと通信することができる。

例示的なモデル配置
図2は、本開示の例示的な実施形態によるデバイスの例示的なネットワークの図を示す図である。図に示されるように、デバイスのネットワークは、モバイルコンピューティングデバイス202、クラウドまたはサーバコンピューティングデバイス203、およびコンピュータアシスタントデバイスなどの補助またはセカンダリデバイス205などの、少なくとも3つのデバイスを含むことができる。セカンダリデバイス205はまた、情報(たとえば、新しい画像などの新しいファイル)を取得するためのカメラまたはマイクロフォンなどのセンサ206を含むことができる。例示的な実装形態では、デバイスのネットワークへの登録を実行する人物201は、人物201を表す1つまたは複数のファイルを含むデータセットを取得するために、モバイルコンピューティングデバイス202を使用し得る。たとえば、これらのファイルは、画像、サウンド、またはその他の識別情報を含むことができる。モバイルコンピューティングデバイス202またはクラウドコンピューティングデバイス203において、クラウドコンピューティングデバイス203上の参照ファイルとして記憶するために、もしあれば、通信ネットワーク204を介してどのファイルを転送するべきかを決定するために、認識可能性モデルが使用され得る。登録後、人物201が、コンピュータアシスタントデバイス205などのネットワークに含まれる別のデバイスの登録を要求すると、コンピュータアシスタントデバイス205は、生体認証分析を実行するために(たとえば、機械学習認識モデルを使用して)、モバイルコンピューティングデバイス202および/またはクラウドコンピューティングデバイス203から参照ファイルにアクセスまたは受信し得る。

図3は、本開示の例示的な実施形態による、デバイスの例示的なネットワークのブロック図を示している。図3は、図2の例を示しており、ここでは、少なくとも3つのデバイスの各々が、特定のコンポーネントを含むか、特定の動作を実行しているように示されている。図3において、モバイルコンピューティングデバイス300は、デバイスのネットワークへの登録を実行する人物を表す画像302を取得するための画像キャプチャデバイス301を含むものとして示されている。これらの画像302は、たとえば、画像302が複数の人物を含む場合に、画像302を識別するか、さもなければ検出された人物304にグループ化するために、画像プロセッサ303に提供することができる。たとえば、画像プロセッサ303は、画像302内の人物を検出するために、物体検出モデルまたはプロセスを適用することができる。

次いで、検出された人物304のグループ化が、本明細書で説明される機械学習蒸留モデルまたは認識可能性モデルなどの人物認識可能性アナライザ305に提供され得る。人物認識可能性アナライザ305によって決定された認識可能性スコアに少なくとも部分的に基づいて、人物画像セレクタ306は、特定のユーザまたは人のために作成することができるギャラリ321に含まれる参照画像322としてクラウドコンピューティングデバイス320に送信する画像および選択された人物を別々に決定し得る。図3には2つの別個の機能として示されているが、人物認識可能性アナライザおよび人物画像セレクタ306は、認識可能性モデルおよびそれに関連付けられるロジックの単一の動作として実装され得る。同様に、コンポーネント303～306は、モバイルコンピューティングデバイス300に示されているが、これらのコンポーネントのいくつかまたはすべては、代わりに、クラウドコンピューティングデバイス320に含まれるか、またはそこで実行され得る。

また、図3には、コンピュータアシスタントデバイス310として示される第3のデバイスが示されている。このデバイス310は、デバイス310またはデバイス310によって実行されるアプリケーションにアクセスしようとする人物を表す追加の画像312を取得するために使用できる画像キャプチャデバイス311を含むものとして示されている。デバイス310はまた、画像に関連付けられる生体認証情報を分析するために、画像(たとえば、画像312および/または画像322)に対して生体認証分析を実行することができる人物生体認証アナライザ315を含む。たとえば、人物生体認証アナライザ315は、本明細書に記載される機械学習認識モデルを含むか、または採用することができる。認識モデルの例の1つは、FaceNetとその派生物などである。入力のペアの埋込みのペアを生成するために認識モデルをトレーニングするために使用できるトリプレットトレーニングプロセスの例を提供し、距離が、入力における顔の類似性の尺度に直接対応する、Schroffらの、FaceNet:A Unified Embedding for Face Recognition and Clustering(https://arxiv.org/abs/1503.03832)を参照されたい。

コンピュータアシスタントデバイス310は、1人または複数の人物314を検出するための画像プロセッサ313を含むものとして示されているが、これらの要素は存在する必要はなく、画像キャプチャデバイス311によって撮影された画像312は、埋込み、測定値、特徴的な特徴の位置など、人物の外観の生体認証を決定するために、人物生体認証アナライザ315に直接入力され得る。画像312に描かれている特定の人物がユーザの画像のギャラリ321にも含まれているかどうかを識別するための信頼スコアを生成するために、たとえば、人の外観識別子(たとえば、それぞれの埋込み(たとえば、それらの間の距離)、それぞれの特徴などを比較し得る)を使用して、人物外観バイオメトリクス317と比較することができるユーザの画像のギャラリ321から生体認証情報316を決定するために、ユーザ参照画像322を処理するために、同じまたは異なる人物生体認証アナライザ315が使用され得る。

例示的な方法
図4は、本開示の例示的な実施形態に従って実行するための例示的な方法のフローチャート図を示している。図4は、例示および説明の目的で特定の順序で実行されるステップを示しているが、本開示の方法は、特に図示された順序または配置に限定されない。方法400の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略、再配置、結合、および/または適合させることができる。

402において、コンピュータシステムは、第1のデバイス上の人物を表す1つまたは複数のファイルを含むデータセットを取得することができる。第1のデバイスは、カメラあるいは他の画像キャプチャデバイスおよび/またはマイクロフォンなどの組込みコンポーネントを有するスマートフォンまたはパーソナルコンピュータなどのパーソナルコンピューティングデバイスを含むことができる。第1のデバイスの追加の機能は、1人または複数の人物が画像内に存在するかどうかを検出するように構成され得る画像プロセッサを含むことができる。

404において、コンピューティングシステムは、各ファイルを蒸留モデルに提供することによって1つまたは複数のファイルの各々の認識可能性スコアを決定することができ、蒸留モデルは、ニューラルネットワークの1つまたは複数の隠れ層から計算されたメトリックを使用してトレーニングされている。一般に、認識可能性スコアは、ファイルを第2のデバイスに送信する前に計算することができる。したがって、認識可能性モデルは、認識可能性スコアを決定するために、第1のデバイス上に実装されてもよく、第1のデバイスによってアクセスされてもよい。ストレージおよび計算のコストを最小限に抑えるために望ましいが、クラウドサービスは、第1のデバイスにおいて生成された任意のファイルを第2のデバイス(たとえば、サーバ)に自動的にアップロードされ得る。したがって、いくつかの実装形態では、認識可能性スコアの決定は、第2のデバイスにおいて実行され得る。

406において、コンピューティングシステムは、認識可能性スコアに少なくとも部分的に基づいて、1つまたは複数の参照ファイルとして記憶するために、データセットの一部を選択することができる。一般に、参照ファイルとして記憶するためにデータセットの一部を選択することは、参照ファイルを第2のデバイスに送信することを含むことができる。代替的または追加的に、選択することは、ネットワークに含まれる他のデバイスによってアクセスすることができるユーザの画像または記録のギャラリなどの参照ファイルを記憶するための参照場所を指定することを含み得る。このようにして、第2のデバイスに直接アップロードされたファイルは、人がネットワークに含まれるデバイスにアクセスしようとするときに生体認証中に指定された参照ファイルのみがアクセスできるようにフィルタリングされ得る。

図5は、本開示による特定の方法およびシステムの例示的な態様を示している。いくつかの実装形態では、方法およびシステムは、トレーニングされた認識可能性モデルおよび/または認識可能性モデルをトレーニングすることを含み得る。図5は、本開示に従って認識可能性モデル500をトレーニングするための例示的な方法を表示するブロックフロー図を示している。図5は、複数の隠れ層508を含むニューラルネットワークとして構成された認識モデル506に提供される複数の入力502を示している。認識モデル506は、入力504のうちの1つを認識モデル506に提供することに部分的に基づいて、複数の隠れ層508を生成することができる。次いで、隠れ層508に含まれる特徴の基準などのメトリック512を決定するために、隠れ層(たとえば、隠れ層N 508)のうちの1つまたは複数を抽出することもできる。複数の入力502に含まれる各入力504に対してこのプロセスを継続することにより、各入力に対して計算されたメトリックを生成することができる。次いで、蒸留技法を使用して認識可能性モデルをトレーニングするために、入力のセットおよび計算されたメトリック514を使用することができる。このようにして、認識可能性モデルは、メトリック512を決定するために使用されるそれぞれの入力を受信することに少なくとも部分的に基づいて、計算されたメトリック512を決定するようにトレーニングすることができる。いくつかの実装形態では、認識モデル506は、メトリック512を生成するために使用される隠れ層508を生成した後、それ以上の隠れ層508または出力510を決定しないように構成され得る。したがって、認識可能性モデル500のトレーニング中に使用される認識モデル506は、図1Aに示されるような、デバイスのネットワークに含まれる認識モデルと同じである必要はない。

追加の開示
本明細書で説明する技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびにそのようなシステムで取られるアクション、およびそのようなシステムとの間で送受信される情報を参照する。コンピュータベースのシステムに固有の柔軟性により、コンポーネント間のタスクと機能の様々な可能な構成、組合せ、および分割が可能になる。たとえば、本明細書で説明するプロセスは、単一のデバイスまたはコンポーネント、あるいは複数のデバイスまたはコンポーネントを組合せて使用して実装することができる。データベースとアプリケーションは、単一のシステムに実装することも、複数のシステムに分散させることもできる。分散されたコンポーネントは、順次または並列に動作することができる。

本主題は、その様々な特定の例示的な実施形態に関して詳細に説明されてきたが、各実施例は、本開示を限定するものではなく、説明のために提供されている。当業者は、前述の理解を得ると、そのような実施形態の変更、変形、および同等物を容易に作り出すことができる。したがって、主題の開示は、当業者に容易に明らかであるような、本主題へのそのような修正、変形、および/または追加を含めることを排除するものではない。たとえば、さらに別の実施形態を生成するために、一実施形態の一部として図示または説明された特徴を別の実施形態とともに使用することができる。したがって、本開示は、そのような変更、変形、および同等物をカバーすることが意図されている。

10 コンピューティングデバイス
50 コンピューティングデバイス
100 コンピューティングシステム
102 ユーザコンピューティングデバイス
112 プロセッサ
114 メモリ
116 データ
118 命令
120 認識可能性モデル
122 ユーザ入力コンポーネント
124 認識モデル
130 サーバコンピューティングシステム
132 プロセッサ
134 メモリ
136 データ
138 命令
140 認識可能性モデル
144 認識モデル
150 トレーニングコンピューティングシステム
152 プロセッサ
154 メモリ
156 データ
158 命令
160 モデルトレーナ
162 トレーニングデータ
170 セカンダリコンピューティングデバイス
172 プロセッサ
174 メモリ
180 ネットワーク
182 認識モデル
184 ユーザ入力コンポーネント
201 人物
202 モバイルコンピューティングデバイス
203 クラウドまたはサーバコンピューティングデバイス
204 通信ネットワーク
205 補助またはセカンダリデバイス
205 コンピュータアシスタントデバイス
206 センサ
300 モバイルコンピューティングデバイス
301 画像キャプチャデバイス
302 画像
303 画像プロセッサ
304 検出された人物
305 人物認識可能性アナライザ
306 人物画像セレクタ
310 コンピュータアシスタントデバイス
311 画像キャプチャデバイス
312 画像
313 画像プロセッサ
314 人物
315 人物生体認証アナライザ
316 生体認証情報
317 人物の外観の生体認証
320 クラウドコンピューティングデバイス
321 ユーザの画像のギャラリ
322 参照画像
400 方法
500 認識可能性モデル
502 入力
504 入力
506 認識モデル
508 隠れ層
510 出力
512 メトリック
514 メトリック

Claims

1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されると、登録デバイスが、
登録プロセスを受けているユーザを描いた複数の画像を取得することと、
機械学習認識可能性モデルの出力として各画像のそれぞれの認識可能性スコアを決定するために、前記機械学習認識可能性モデルを使用して前記複数の画像の各々を処理することであって、各画像の前記認識可能性スコアが、前記画像によって示されるような前記ユーザの認識可能性を示し、前記ユーザに関連付けられる生体情報を除外する、ことと、
前記複数の画像の前記それぞれの認識可能性スコアに少なくとも部分的に基づいて、前記ユーザに関連付けられる画像ギャラリに含めるために前記複数の画像のうちの少なくとも1つを選択することと、
1つまたは複数のセカンダリコンピューティングデバイスによる前記ユーザの認識に使用するために、前記画像ギャラリを前記1つまたは複数のセカンダリコンピューティングデバイスに直接的または間接的に送信することと
を行うように構成する命令を集合的に記憶する1つまたは複数の非一時的コンピュータ可読媒体と
を備える登録デバイスとを備える、コンピューティングシステム。

前記画像ギャラリを受信して記憶することと、
人物を描いた追加の画像を取得することと、
前記追加の画像に描かれている前記人物が前記ユーザであるかどうかを決定するために、前記追加の画像を前記画像ギャラリと比較することと
を行うように構成された、前記1つまたは複数のセカンダリコンピューティングデバイスをさらに備える、請求項1に記載のコンピューティングシステム。

前記1つまたは複数のセカンダリコンピューティングデバイスがサーバコンピューティングデバイスを備える、請求項1または2に記載のコンピューティングシステム。

前記1つまたは複数のセカンダリコンピューティングデバイスがコンピュータアシスタントデバイスを備える、請求項1から3のいずれか一項に記載のコンピューティングシステム。

前記1つまたは複数のセカンダリコンピューティングデバイスが、
前記登録デバイスから前記画像ギャラリを受信することと、
前記ユーザに関連付けられるユーザアカウントで1つまたは複数の追加デバイスを登録するために、前記ユーザからの要求に応じて、前記画像ギャラリを前記1つまたは複数の追加デバイスに選択的に転送することと
を行うように構成されたサーバコンピューティングデバイスを備える、請求項1から4のいずれか一項に記載のコンピューティングシステム。

前記登録デバイスが、前記ユーザに関連付けられるユーザデバイスを備える、請求項1から5のいずれか一項に記載のコンピューティングシステム。

前記登録デバイスがサーバコンピューティングデバイスを備え、前記サーバコンピューティングデバイスが、前記複数の画像をキャプチャし、前記ユーザに関連付けられるユーザデバイスから前記複数の画像を取得する、請求項1から6のいずれか一項に記載のコンピューティングシステム。

前記1つまたは複数のセカンダリコンピューティングデバイスの各々が、前記画像の顔の埋込みを取得する機械学習顔認識モデルを使用して、前記画像ギャラリに含まれる前記画像の各々を処理するように構成され、前記顔の埋込みが、前記ユーザに関連付けられる前記生体情報を含む、請求項1から7のいずれか一項に記載のコンピューティングシステム。

前記機械学習認識可能性モデルが、入力画像の顔の埋込みを生成するように構成された機械学習顔認識モデルの隠れ層によって生成される隠れ層出力の基準を予測するために前記機械学習認識可能性モデルがトレーニングされる蒸留トレーニング技法を通じて学習された、請求項1から8のいずれか一項に記載のコンピューティングシステム。

デバイスのネットワーク全体で個人識別に登録するためのコンピュータ実装方法であって、
1つまたは複数のコンピューティングデバイスによって、第1のデバイス上の人物を表す1つまたは複数のファイルを備えるデータセットを取得するステップと、
前記1つまたは複数のコンピューティングデバイスによって、機械学習された蒸留モデルに各ファイルを提供することによって、前記1つまたは複数のファイルの各々の認識可能性スコアを決定するステップであって、前記蒸留モデルが、ニューラルネットワークの1つまたは複数の隠れ層から計算されたメトリックを使用してトレーニングされている、ステップと、
前記1つまたは複数のコンピューティングデバイスによって、および前記認識可能性スコアに少なくとも部分的に基づいて、前記人物の1つまたは複数の参照ファイルとして記憶するために前記データセットの一部を選択するステップと、
を備える、方法。

1つまたは複数の前記参照ファイルとして記憶するために、前記データセットの前記一部を選択するステップが、
前記1つまたは複数のコンピューティングデバイスによって、前記1つまたは複数のファイルの各々の前記認識可能性スコアとしきい値とを比較するステップと、
前記認識可能性スコアのいずれも前記しきい値を満たさない場合、
前記1つまたは複数のコンピューティングデバイスによって、前記人物が追加のファイルを生成することを要求するプロンプトを前記第1のデバイスに提供するステップと、
前記データセットに含まれる1つまたは複数のファイルの前記認識可能性スコアが前記しきい値を満たす場合、
前記1つまたは複数のコンピューティングデバイスによって、1つまたは複数の前記ファイルを第2のデバイスに送信するステップと
を備える、請求項10に記載のコンピュータ実装方法。

前記第2のデバイスが、クラウドコンピューティングデバイスまたはサーバコンピューティングデバイスを備え、前記第2のデバイスが、通信ネットワークを介してデバイスの前記ネットワークに含まれる少なくとも1つの他のデバイスと通信している、請求項11に記載のコンピュータ実装方法。

前記1つまたは複数のコンピューティングデバイスによって、デバイスの前記ネットワークに含まれる前記デバイスのうちの1つにアクセスしようとするステップ、前記デバイスのうちの1つによって実行される動作、またはその両方であって、アクセスしようとするステップが、前記1つまたは複数のコンピューティングデバイスによって、
前記1つまたは複数のコンピューティングデバイスによって、前記人物を表す情報を備える信号を取得するステップと、
前記1つまたは複数のコンピューティングデバイスによって、1つまたは複数の前記参照ファイルにアクセスするステップと、
前記1つまたは複数のコンピューティングデバイスによって、1つまたは複数の前記参照ファイルを前記信号と比較するステップと、
前記1つまたは複数のコンピューティングデバイスによって、および前記参照ファイルを前記信号と比較するステップに少なくとも部分的に基づいて、前記アクセスしようとすることを許可または拒否する応答を提供するステップと
を備える生体認証分析を実行するステップを含む、ステップをさらに備える、請求項10から12のいずれか一項に記載のコンピュータ実装方法。

前記1つまたは複数のコンピューティングデバイスによって、前記人物を表す情報を備える前記信号を取得するステップが、第3のデバイスによって、前記人物を表す情報を含む前記信号を取得するステップを備える、請求項13に記載のコンピュータ実装方法。

前記第3のデバイスが、視覚、オーディオ、またはテキスト入力のうちの少なくとも1つを備える入力を受信し、前記入力に少なくとも部分的に基づいて、出力を提供するように構成されたコンピュータアシスタントを備える、請求項14に記載のコンピュータ実装方法。

1つまたは複数の前記参照ファイルをファイルの前記セットと比較するステップが、
前記1つまたは複数のコンピューティングデバイスによって、機械学習モデルに1つまたは複数の前記参照ファイルを提供することによって、生体情報のセットを決定するステップを備える、請求項13から15のいずれか一項に記載のコンピュータ実装方法。

前記機械学習モデルがニューラルネットワークを備え、生体情報の前記セットが前記ニューラルネットワークによって生成された埋込みを備える、請求項16に記載のコンピュータ実装方法。

前記第1のデバイスが、モバイルコンピューティングデバイスを備える、請求項10から17のいずれか一項に記載のコンピュータ実装方法。

前記第1のデバイスが、視覚、オーディオ、またはテキストのうちの少なくとも1つを備える入力を受信し、前記入力に少なくとも部分的に基づいて、出力を提供するように構成されたコンピュータアシスタントを備える、請求項10から18のいずれか一項に記載のコンピュータ実装方法。

前記1つまたは複数のファイルが、オーディオ、ビデオ、写真、またはそれらの組合せを備える、請求項10から19のいずれか一項に記載のコンピュータ実装方法。

前記第1のデバイスが、生体認証識別子を計算することを禁じられている、請求項10から20のいずれか一項に記載のコンピュータ実装方法。

前記生体認証識別子が、認識ニューラルネットワークによって生成された埋込みを備える、請求項21に記載のコンピュータ実装方法。

前記蒸留モデルが、
前記1つまたは複数のコンピューティングデバイスによって、入力を受信すると一連の隠れ層を計算するようにトレーニングされた認識ニューラルネットワークを取得するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記認識ニューラルネットワークに複数の入力を提供することによって複数の出力を決定するステップであって、前記複数の出力の各出力が、それぞれの入力に関連付けられており、各出力が、前記一連の隠れ層の少なくとも1つの隠れ層からの少なくとも1つの中間出力を備える、ステップと、
出力ごとの前記1つまたは複数のコンピューティングデバイスによって、前記一連の隠れ層の前記少なくとも1つの隠れ層からの前記少なくとも1つの中間出力のメトリックを計算するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記メトリックを計算するための前記少なくとも1つの中間出力を決定するために使用される前記入力を受信することに少なくとも部分的に基づいて前記メトリックを予測するために前記蒸留モデルをトレーニングするステップと
を備えるトレーニング方法を使用してトレーニングされた、請求項10から22のいずれか一項に記載のコンピュータ実装方法。

前記メトリックが、前記少なくとも1つの中間出力の基準を備える、請求項23に記載のコンピュータ実装方法。

前記認識ニューラルネットワークが3つ以上の隠れ層を決定するように構成されており、前記メトリックを計算するために使用される前記少なくとも1つまたは複数の隠れ層が、前記3つ以上の隠れ層の最初の層または最後の層を含まない、請求項23または24のいずれか一項に記載のコンピュータ実装方法。

前記認識ニューラルネットワークが、前記メトリックを計算するために使用される前記少なくとも1つまたは複数の隠れ層の後に隠れ層がないことを決定するように構成される、請求項23から25のいずれか一項に記載のコンピュータ実装方法。

請求項10から26のいずれか一項に記載の方法を実行するように構成された、コンピュータシステム。

請求項1から9のいずれか一項に記載の動作のいずれかを実行することを備える、コンピュータ実装方法。

請求項1から26のいずれか一項に記載の動作のいずれかを実行するための命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体。