JP2022051683A5

JP2022051683A5 -

Info

Publication number: JP2022051683A5
Application number: JP2021135884A
Authority: JP
Filing date: 2021-08-23
Publication date: 2022-11-11
Anticipated expiration: 2041-08-23

Description

実施例は、訓練データを生成し、同一物判定に使用するための機械学習モデルを訓練することについての概念に関する。

視覚的な人物の同一物判定(短縮形:re-id)システムは、人物の絶対的なアイデンティティ（同一性）を(通常は顔の特徴から)確立しようとする識別システムとは対照的に、人物を外見だけから区別又は同一物判定する目的に役立つ。人物同一物判定システムは、しばしば、異なる人物を表す画像データに基づいて同一物判定コードを生成するように訓練された機械学習モデルを使用して実装される。同一物判定システムを訓練するための画像を作成するための現在の方法は、しばしば、大量の手動の注釈付け作業に依存する。これは作業集約的で低速である。

本開示の様々な実施例は次のような発見に基づいている。すなわち、通常は媒体データの単一サンプルのみが同一物判定コードを生成するために使用される同一物判定システムのリアルタイム性に反して、同一物判定コードを生成するために使用される機械学習モデルの訓練は、これらの制約によって制限されないという発見である。反対に、様々な実施例において、そのような機械学習モデルを訓練するための訓練データの自動生成を可能にするために、追加情報が、訓練のために使用される媒体データのサンプルと共に収集されることができる。追加的に、又は代替的に、適当な訓練データの編集を可能にする他のシステムが使用されてよい。

提案される概念では、機械学習モデルの訓練に使用される複数のサンプルが取得される。これらのサンプルは処理され、同一の人物、動物、又は物体を表すサンプルがグループ化される。これらのグループ、つまり「組（tuple：タプル）」は、訓練データの生成に使用される。サンプルについての異なる組へのグループ化は、例えば、一連の画像サンプル(例えば、動画ストリーム)における画像サンプルの位置、又はそれぞれのサンプルと共に記録される無線識別子のような、二次情報を使用して実行されることができる。代替的に、別のシステム、例えば、別の基本的な同一物判定システムが使用されて、サンプルを組にグループ化してよい。これらの組は、訓練データとして、例えば、機械学習モデルの三つ組損失ベースの訓練（triplet loss-based training）で使用されてよい。組の2つのサンプルがベースライン及び正の入力として使用され、別の組のサンプルが三つ組損失ベースの訓練の負の入力として使用される。

本開示の様々な実施例は、同一物判定に使用する機械学習モデルを訓練するための訓練データを生成するコンピュータシステムに関する。コンピュータシステムは、媒体データを取得するように構成された処理回路を含む。媒体データは、人物、動物又は物体を表す複数のサンプルを含む。処理回路は、媒体データを処理して、同一人物、動物又は物体を表すサンプルの組を識別するように構成される。処理回路は、同一の人物、動物、又は物体を表すサンプルの識別された組に基づいて訓練データを生成するように構成される。プログラムによってサンプルを同一の人物、動物、又は物体を表すサンプルの組にグループ化することにより、機械学習モデルを訓練するための適当な訓練データを生成することができる。

いくつかの実施例では、各サンプルは、サンプル又はサンプルによって表される人物、動物又は物体を特徴付ける二次情報と関連付けられる。処理回路は、それぞれのサンプルに関連付けられている二次情報に基づいて、同一の人物、動物、又は物体を表すサンプルの組を識別するように構成されてもよい。二次情報は、例えば、サンプルの内容に依存することなく、又は部分的にのみ依存して、同一の組に属するサンプルを識別するために使用されることができる。

二次情報の１つのタイプは、それぞれのサンプルの相互関係に関係する。例えば、少なくともいくつかのサンプルは、動画ストリームから、あるいは、より一般的には、一連の画像から取得されることができる。動画ストリームの後続の画像サンプルは、しばしば同一の人物、動物、又は物体を示し、したがって、同一の組に割り当てられてもよい。換言すれば、媒体データが一連の画像サンプルを含む場合、二次情報は、一連の画像サンプル内のそれぞれのサンプルの位置を特徴付けることができる。処理回路は、一連の画像サンプル内のそれぞれのサンプルの位置に基づいて、同一の人物、動物又は物体を表すサンプルの組を識別するように構成されてもよい。

二次情報の別のタイプは、サンプルの出所に関係する。例えば、媒体データが二つ以上のカメラの媒体データを含む場合、二次情報は、二つ以上のカメラに関するそれぞれのサンプルの出所とサンプルの撮像時刻とを特徴付けることができる。この文脈において、「出所」という用語は、それぞれのサンプルを提供するカメラの位置に対応し得る。処理回路は、2つ以上のカメラに関するサンプルの出所に基づいて、及びサンプルの撮像時刻に基づいて、同一の人物、動物又は物体を表すサンプルの組を識別するように構成されてもよい。この手法は、２つのカメラが部分的又はほぼ重なり合う視野を有する状況で（例えば、一方のカメラの視野から他方のカメラの視野に移動する人物、動物又は物体を識別するために）使用されてもよい。したがって、２つ以上のカメラの媒体データは、少なくとも部分的に重なり合う視野を示すことができる。

二次情報の３つ目のタイプは、サンプル取得時に収集される追加情報に関連する。例えば、各媒体データ生成装置(例えば、カメラ)は、それぞれの媒体データ生成装置によって記録されている人物のモバイル装置の無線通信識別子(例えば、媒体アクセス制御アドレス)を記録するために使用されることができる無線通信装置にリンクされてもよい。この無線通信識別子は、その後、同一の人物(又は、動物か物体)を表すサンプルを識別するために使用されてよい。換言すれば、二次情報は、媒体データのサンプルと共に記録される無線通信識別子についての情報を含むことができる。処理回路は、それぞれのサンプルと共に記録されている無線通信識別子に基づいて、同一の人物、動物、又は物体を表すサンプルの組を識別するように構成されてもよい。

提示される手法の別の応用は、同一物判定ベースのアクセス制御システムである。ここでは、提案される手法を使用して、人物の外観が、たとえば、髪の成長、日焼け、又は髭の成長により徐々に変化する場合でも、長い期間にわたって同一物判定ベースのアクセス制御を実行するために使用されることができる。したがって、複数のサンプルは、同一物判定ベースのアクセス制御システムから複数日間にわたって取得されてもよい。二次情報は、同一物判定ベースのアクセス制御システムによって提供される、人物の識別子についての情報を含むことができる。新たに取得されたサンプルは、それぞれの人物を表すサンプルの組に追加されることができる。本開示の様々な実施例は、コンピュータシステムを含む対応する同一物判定ベースのアクセス制御システムを提供する。コンピュータシステムの処理回路は、生成された訓練データのシステムに基づいて、同一物判定ベースのアクセス制御における同一物判定のために使用される機械学習モデルを適合させるように構成されてもよい。新たに追加された組は、それぞれの機械学習モデルの訓練を適合させるために使用されることができる。

いくつかの実施例では、たとえば、二次情報の使用が予測されてよい。例えば、処理回路は、第１の同一物判定システムを用いてサンプルの組を識別するように構成されてもよい。訓練データは、第２の同一物判定システムで使用するために、機械学習モデルの訓練のために生成されてもよい。換言すれば、新たに訓練された同一物判定システム(すなわち、第２の同一物判定システム)によって使用される機械学習モデルを訓練するために使用されるサンプルを識別するために、既存の同一物判定システム(すなわち、第１の同一物判定システム)が使用されてもよい。

場合によっては、複数サンプルは、機械学習モデルの訓練での使用に適さないサンプル（例えば、人物、動物又は物体が示されていないような、又はあまりにも少ない詳細事項で示されているようなサンプル）を含むこともある。このようなサンプルが訓練に使用されるのを避けるために、これらのサンプルは破棄されてもよい。例えば、処理回路は、複数サンプルのサンプル内の人物、動物又は物体の存在を判定し、人物、動物又は物体の存在の判定が失敗した場合にサンプルを破棄するように構成されてもよい。

追加的に、又は代替的に、それぞれの組内のサンプルは、その質に関して評価され、質が所望よりも低い場合、破棄されてもよい。例えば、処理回路は、組のサンプルの質を判定し、サンプルの質が事前に定義された規則に従って不十分な場合、組からサンプルを削除するように構成されてもよい。

視覚的な人物同一物判定システムでは、同一物判定はしばしば、それぞれの人物の顔に基づいて行われる。したがって、事前定義された規則の１つは、サンプルに示された人物の顔の可視性に関連してよい。換言すれば、媒体データは人物を表してよい。組のサンプルの質は、それぞれのサンプルにおける人物の顔の可視性に基づいて決定されることができる。

事前に定義された別の規則は、存在する同一物判定システムを使用して生成される同一物判定コードの間の距離に基づいてもよい。例えば、処理回路は、同一物判定システムを使用して、それぞれのサンプルによって表される人物、動物又は物体を表す(いくつかの)同一物判定コード生成するように構成されてもよい。組のサンプルの質は、組のサンプルに対して(この方法で)生成された(いくつかの)同一物判定コードの間の距離に基づいてもよい。これは、それぞれの組のサンプルの質の自動評価を可能にしてよい。

通常、媒体データは、画像データ、動画データ、音声データ、物体の動きの三次元表現、及びテキストベースの媒体データのうちの１つであってもよい。これらは、同一物判定での使用に適した媒体データのタイプの実施例である。

提示される手法は、それぞれの機械学習モデルを訓練するために使用される訓練データを生成するために使用されてよい。生成された訓練データは、サンプルの複数の組を含み、サンプルの各組は、同一の人物、動物、又は物体を表すサンプルを含む。例えば、生成された訓練データは、それらが割り当てられた先の組によってグループ化された複数サンプルを含んでよい。

いくつかの実施例では、コンピュータシステムはまた、機械学習モデルを訓練するために使用されてもよい。換言すれば、処理回路は、生成された訓練データを使用して機械学習モデルを訓練するように構成されてもよい。機械学習モデルは、機械学習モデルの入力時に提供される媒体データに基づいて同一物判定コードを生成するように訓練されてもよい。生成された訓練データを用いて機械学習モデルを訓練することにより、機械学習モデルの効率的訓練が可能であり、訓練データの生成に必要な手動での労力がより少なく又は０である。

例えば、機械学習モデルは、三つ組損失ベースの訓練を用いて訓練されてよい。ここで、組のサンプルが三つ組損失ベースの訓練のベースライン及び正の入力として使用される。機械学習モデルの三つ組損失ベースの訓練では、ベースライン入力と正の入力は、同一の人物、動物、又は物体を表す媒体データを与えられ、負の入力は、別の人物、動物、又は物体を表す媒体データを与えられる。

本開示の様々な実施例は、同一物判定に使用する機械学習モデルを訓練するために訓練データを生成する、対応するコンピュータ実装方法に関する。方法は、媒体データの取得を含む。媒体データは、人物、動物又は物体を表す複数のサンプルを含む。方法は、媒体データを処理して、同一の人物、動物又は物体を表すサンプルの組を識別することを含む。方法は、同一の人物、動物、又は物体を表すサンプルの識別された組に基づいて訓練データを生成することを含む。

本開示の様々な実施例は、同一物判定に使用する機械学習モデルを訓練するためのコンピュータシステムに関する。コンピュータシステムは、機械学習モデルを訓練するための訓練データを取得するように構成された処理回路を含む。訓練データは、上記のように、コンピュータシステムによって生成される。処理回路は、取得された訓練データを用いて機械学習モデルを訓練するように構成される。機械学習モデルは、機械学習モデルの入力で提供される媒体データに基づいて同一物判定コードを生成するように訓練される。生成された訓練データを用いて機械学習モデルを訓練することにより、訓練データの生成に必要な手動の労力がより少なく又は０である、機械学習モデルの効率的訓練が可能になる。

例えば、機械学習モデルは、三つ組損失ベースの訓練を用いて訓練されてよく、ここで、組のサンプルが三つ組損失ベースの訓練のベースライン及び正の入力として使用される。機械学習モデルの三つ組損失ベースの訓練では、ベースライン入力と正の入力は、同一の人物、動物、又は物体を表す媒体データで与えられ、負の入力は、別の人物、動物、又は物体を表す媒体データで与えられる。

本開示の様々な実施例は、同一物判定に使用するための機械学習モデルを訓練する、対応するコンピュータ実装方法に関する。方法は、機械学習モデルを訓練するための訓練データを取得することを含む。訓練データは、上記のように訓練データを生成するコンピュータ実装方法によって生成される。方法は、取得された訓練データを用いて機械学習モデルを訓練する。機械学習モデルは、機械学習モデルの入力で提供される媒体データに基づいて同一物判定コードを生成するように訓練される。

本開示の様々な実施例は、コンピュータプログラムがコンピュータ、プロセッサ、又はプログラム可能なハードウェア構成要素上で実行されるとき、上記方法の少なくとも１つを実行するためのプログラムコードを有する対応するコンピュータプログラムに関する。

装置及び／又は方法のいくつかの実施例は、以下では、単に実施例として、及び添付される図を用いて説明される。

同一物判定に使用される機械学習モデルを訓練するための訓練データを生成するコンピュータシステムの一例のブロック図を示す。同一物判定に使用される機械学習モデルを訓練するための訓練データを生成する方法の一例のフローチャートを示す。異なる人物を表す一連の画像の概略図を示す。重なり合う視野をカバーする２つのカメラを用いたシナリオの概略図を示す。無線通信装置が搭載された２つのカメラを用いた概略図を示す。同一物判定ベースのアクセス管理システムの概略図を示す。図２ａは、同一物判定に使用する機械学習モデルを訓練するためのコンピュータシステムの実施例のブロック図を示す。図２ｂは、同一物判定に用いる機械学習モデルを訓練する方法の実施例のフローチャートを示す。

ここでは、添付された図を参照して、いくつかの実施例をより詳細に説明する。しかしながら、他の考えられる実施例は、詳細に記載されたこれらの実施例の特徴に限定されない。他の実施例には、特徴の修正物、ならびに特徴の同等物及び代替物が含まれてもよい。さらに、特定の実施例を説明するために本明細書で使用される用語は、さらなる可能な実施例を制限するものであってはならない。

図の説明全体を通して、同一又は類似の参照符号は、同一又は類似の要素及び/又は特徴を示す。これは、同一又は類似の機能を提供しつつ、同一であってよいし、修正形態において実装されてもよい。図中の線の太さ、層、及び/又は領域は、明確化のために増強されることがある。

二つの要素A及びBが「又は」を用いて組み合わされているとき、これは、個々の事例において明示的に別段定義されていない限り、可能なすべての組み合わせ、すなわち、Aのみ、Bだけ、A及びB、を開示するものと理解されるべきである。同一の組み合わせの代替表現として、「A及びBの少なくとも1つ」又は「A及び/又はB」が使用されてよい。これは、２つ以上の要素の組合せに適用される。

「１」、「一」及び「前記」のような単数形が使用され、単一要素のみの使用が明示的に又は暗黙的にも必須として定義されない場合、さらなる例は、同一の機能を実装するためにいくつかの要素を使用することもできる。複数の要素を使用するものとしてある機能が以下で説明される場合、さらなる例は、単一の要素又は単一の処理エンティティを使用して同一の機能を実装することができる。「含む」、「備える」及び/又は「有する」という用語は、使用されるとき、指定された特徴、整数、ステップ、操作、処理、要素、構成要素及び/又はそれらのグループの存在を説明するが、１つ又は複数の他の特徴、整数、ステップ、操作、処理、要素、構成要素及び/又はそれらのグループの存在又は追加を除外しないことをさらに理解されたい。

本開示の様々な態様は、ディープラーニング（深層学習）のための訓練画像を自動的に取得する方法に関する。より具体的には、提案される概念は、ディープラーニングに基づき、同一物判定システムを訓練するための訓練画像を自動的に取得する方法を提供する。

通常、同一物判定に使用する機械学習モデルの訓練は、人間の注釈付けに基づいて行われる。人間のオペレータは、同一の人物(又は、動物/物体)を表す媒体データ(例えば、画像)のサンプルを選択し、媒体データによって表されている人物によってサンプルをグループ化する。この処理は"手動注釈付け"と呼ばれ、通常は人間の注釈者によって実行される。たとえば、このような機械学習モデルを訓練するための視覚的な媒体データを準備するために、この人間の注釈者は、(表されるべき人物を含む)境界ボックスを作成し、どの顔が類似しているか又は異なっているかをサンプルの対で識別することができる。

提案される概念は、(視覚的同一物判定コードを必要としなくてよい方法を使用することにより)同一人物の以前の未知の画像が類似していると識別される教師なし方法を提供する。有効なカメラでライブシステムに接続されると、これは、ディープラーニングベースの同一物判定コードシステムの訓練にその後使用される追加画像を作成できるため、結果として生じるシステムの精度が向上する。訓練画像の数、又は媒体データのより一般的なサンプルの数が増加するにつれて、結果として生じるシステムはより高い精度を有することがある。このようなシステムは、また、適応性があり、潜在的にはリアルタイムであり、経時的な人物の視覚的外観の小さな変化を可能にする。

以下に、視覚的な同一物判定システムのための機械学習モデルを訓練する訓練画像サンプルを収集する実施例が示される。以下の記述は、しばしば視覚的な人物同一物判定システムに関係するが、同じ手法が、他の媒体データの非視覚的なタイプや、動物や物体(例えばツールや車両など)にも適用可能である。

図1aは、同一物判定に使用する機械学習モデルを訓練するための訓練データを生成するコンピュータシステム10の一例のブロック図である。コンピュータシステムは、コンピュータシステムの機能性を提供するように構成された処理回路14を含む。さらに、コンピュータシステムは、(情報を交換するための)1つ以上のインタフェース12、及び/又は、(情報を記憶するための)1つ以上の記憶装置16を含むことができる。図1aに示すように、処理回路は、(任意の)1つ以上のインタフェース12と1つ以上の記憶装置16とに接続される。

処理回路は、(例えば、1つ以上のインタフェースを介して、又は1つ以上の記憶装置から)媒体データを取得するように構成される。媒体データは、人物、動物又は物体を表す複数のサンプルを含む。処理回路は、媒体データを処理して、同一人物、動物又は物体を表すサンプルの組を識別するように構成される。処理回路は、同一の人物、動物、又は物体を表すサンプルの識別された組に基づいて訓練データを生成するように構成される。

図1bは、同一物判定に使用する機械学習モデルを訓練するための訓練データを生成する、対応する(コンピュータ実装)方法の実施例のフローチャートを示す。方法は、媒体データを取得すること（110）を含む。方法は、媒体データを加工して、同一人物、動物、又は物体を表すサンプルの組を識別すること（120）を含む。方法は、同一の人物、動物、又は物体を表すサンプルの識別された組に基づいて訓練データを生成すること（130）を含む。

以下の記述は、図1aのコンピュータシステム及び図1bの対応する方法の両方に関連する。図1aのコンピュータシステムに関連して説明される特徴は、図1bの対応する方法に同様に適用され得る。

本開示の様々な態様は、同一物判定に使用する機械学習モデルを訓練するための訓練データを生成するコンピュータシステム、方法、及びコンピュータプログラムに関する。通常、同一物判定システムは、人物、動物又は物体の表現から、人物、動物又は物体を区別又は同一物判定する目的に役立つ。例えば、視覚的な人物同一物判定システムは、視覚的な媒体データ（例えば監視カメラの媒体データ）で見ることができる人物を区別又は同一物判定するために使用されることができる。2つの監視カメラを有するシステムが想定される。これらのカメラから、2つの画像が取得されてよく、各々では単一の人物が見える。画像は、異なる角度から、また異なる照明条件下(又は、同じカメラからであっても、異なる時点)で取得された可能性がある。同一物判定システムは、2つの画像が同一人物を表現するかどうか、又は、実際に画像が2つの異なった人物を表現するかどうかを（仮に、実際のアイデンティティを知らなくても）推測しようとする。さらに、同一物判定は、画像内の人物の検出に限定されず、例えば、同一物判定は、動物又は物体に対して行われてよく、3次元モデル、テキスト又は音声のような他のタイプの媒体を使用して行われてよい。

同一物判定システムは、しばしば、いわゆる同一物判定コードに基づいており、これは、それぞれの媒体データによって表現される人物(又は、動物/物体)の数値表現である。これらのコードは、しばしば、ディープラーニングベースの機械学習モデルを使用して生成され、これはそれぞれの媒体データに基づいて適切な同一物判定コードを生成するように訓練される。この文脈において、「適切」という語は、機械学習モデルによって生成される同一物判定コードが、同一の(又は非常に類似した)人物、動物もしくは物体を表す媒体データの2つのサンプルについての類似メトリックに従って類似し、及び、異なる且つ非類似の人物、動物もしくは物体を表す媒体データの2つのサンプルについての類似メトリックに従って非類似の同一物判定コードをもたらすことを意味する。この効果を実現するために、それぞれの機械学習モデルは、提案されるコンピュータシステム、方法及びコンピュータプログラムによって生成される訓練データのような訓練データを用いた訓練される。

一般に、機械学習とは、モデル及び推論に頼る代わりに、明示的な命令を使用せずに、コンピュータシステムが特定の作業を実行するために使用することができるアルゴリズム及び統計モデルを指す。たとえば、機械学習では、データの規則ベースの変形の代わりに、履歴データ及び／又は訓練データの分析から推論される、データの変形が使用されてよい。例えば、画像の内容は、機械学習モデルを使用して、又は機械学習アルゴリズムを使用して、分析されてよい。機械学習モデルが画像の内容を分析するために、機械学習モデルは、訓練画像を入力及び訓練内容情報として使用して、又は、分類情報を出力として使用して、訓練されてもよい。多数の訓練画像と関連する訓練内容情報とを用いて機械学習モデルを訓練することにより、機械学習モデルは、画像の内容を認識するために「学習する」。よって、訓練画像に含まれない画像の内容は機械学習モデルを用いて認識されることができる。同じ原理が、上記の参照された特性をもつ同一物判定コードの生成のような、他の種類の変形のために同様に使用されてよい。

機械学習モデルは、訓練データを使用して訓練される。上記の実施例は、「教師あり学習」と呼ばれる訓練方法を使用する。教師あり学習では、複数の訓練サンプルを使用して機械学習モデルが訓練される。ここで、各サンプルは複数の入力データ値と複数の所望の出力値とを含んでいてもよく、すなわち、各訓練サンプルは所望の出力値と関連付けられている。訓練サンプルと所望の出力値との両方を指定することによって、機械学習モデルは、訓練中に提供されたサンプルと類似した入力サンプルに基づいて、どの出力値を提供するかを「学習」する。

媒体間の類似度を決定するために使用される機械学習アルゴリズムの1つのタイプが、三つ組損失と称される。換言すれば、機械学習モデルは、三つ組損失ベースの訓練を使用して訓練されてもよい。三つ組損失では、ベースライン入力が正の入力及び負の入力と比較される。提示されるコンピュータシステム、方法及びコンピュータプログラムは、三つ組損失ベースの訓練のベースライン入力、正の入力及び負の入力で提供されるサンプルを識別するために使用されてもよい。例えば、生成された訓練データは、サンプルの複数の組を含み、サンプルの各組は、同一の人物、動物、又は物体を表すサンプルを含む。機械学習モデルの訓練に使用される入力の各セットに対して、同じ組の２つのサンプルがベースライン入力及び正の入力として使用されてよい。異なる組のサンプルが三つ組損失ベースの訓練の負の入力として使用されてよい。

したがって、提案される手法は、同一の人物、動物、又は物体を表すサンプルを識別してグループ化するために使用されるので、それらは三つ組損失ベースの訓練のベースライン入力及び正の入力として使用されてよく、別の組の別のサンプルが負の入力として使用される。

いくつかの実施例では、組のサンプルが三つ組損失ベースの訓練の三つ組につき選択される順序が決定されてよい。例えば、「ハードネガティブマイニング（hard-negative mining）」と示される概念が、「最もハード」な三つ組が最初に選択されるように訓練にて適用されてもよい。それは、例えば、ベースライン入力と正の入力が同一人物、物体、又は動物を示しているが、(例えば、同一物判定システムに従って)大きな距離を有する三つ組を形成することによる。

この概念は三つ組損失ベースの訓練を参照して説明されているが、機械学習モデルの訓練は他の教師あり学習、教師なし学習、又は強化学習アルゴリズムに基づいてもよい。例えば、
Ye et al: "Deep Learning for Person Re-identification: A Survey and Outlook" (2020年)
は、対応する訓練方法論と共に、機械学習ベースの同一物判定システムのための実施例を提供する。

処理回路は、媒体データを取得するように構成され、媒体データは、人物、動物又は物体を表す複数のサンプルを含む。ほとんどの実施例は視覚的な(人物)同一物判定システムの文脈で与えられるが、同一物判定のために媒体データの異なるタイプが使用されてもよい。通常、媒体データは、視覚的、音声的、又は視聴覚的媒体データであってもよい。例えば、媒体データは、画像データ、動画データ、音声データ、物体の動きの三次元表現(すなわち、三次元の身体の動き)、及びテキストベースの媒体データ/入力のうちの1つであってもよい。それに応じて、媒体データは、様々なタイプの媒体データ生成装置、例えば、カメラ又はカメラセンサ、マイクロホン、三次元スキャナ又はテキスト収集システムから生じてよい。様々な実施例では、1つ以上の動画ストリームの画像サンプル(例えば、1つ以上の監視カメラの画像サンプル)が使用されてもよい。例えば、提案される方法は、単一のカメラ又は複数のカメラから生じる可能性がある、有効な動画ストリーム(又は以前に記録されたもの)を経る(go through)可能性がある。

処理回路は、媒体データを処理して、同一人物、動物又は物体を表すサンプルの組を識別するように構成される。サンプルが組にグループ化される前に、様々な実施例では、それぞれの機械学習モデルによって期待される入力に応じて、1つ以上の前処理タスクが実行されてもよい。例えば、前処理を実行して、関心のある人物、動物又は物体を示す媒体データのサンプルの一部を分離することができる。視覚的な媒体データでは、このタスクは、別の機械学習モデルを使用して、それぞれのサンプルによって表される人物、動物又は物体の周囲に境界ボックスを生成することによって達成されることができる。一般に、たたみ込みニューラルネットワーク(CNN)は、このような境界ボックスを生成するためにしばしば使用される。結果として生じる境界ボックスは、画像サンプルをクロップするために使用することができる。いくつかの実施形態では、２つ以上の境界ボックスが生成される場合、画像サンプルの二つ以上の部分が出力されることがある。境界ボックスの生成に失敗した場合、関心のある人物、動物、又は物体を示す可能性が低いため、サンプルは破棄されることがある。例えば、処理回路は、(例えば、画像サンプルであるサンプル内に境界ボックスを生成しようとすることによって)複数サンプルのサンプル内の人物、動物又は物体の存在を判定するよう構成されてよく、また、人物、動物又は物体の存在の判定が失敗した場合にサンプルを破棄するように構成されてもよい。この手法では、伝統的なディープラーニング方法を使用して、個々の画像内の人物、動体又は物体を分類(すなわち、人物、動体又は物体の存在及び/又は位置を決定)することができる。

処理回路は、同一人物、動物又は物体を表すサンプルの組を識別し、組内のサンプルをグループ化するように構成されている。一般に、組は、ゼロ個以上の要素を順序付けられた方法で構成する値のグループである。しかしながら、本出願の文脈では、組に対するサンプルの密着性だけが機械学習モデルの訓練に関係することがあるので、組内のサンプルの順序は意味を持たない。したがって、記載された組は、サンプルの「セット」又は「グループ」として理解されてもよい。また、各組は1つ以上のサンプルを含むことができる(０でない組が1つ以上のサンプルを削除した場合を除く)。

通常、同じ組内で、同一の人物(又は動物/物体)を特徴とする画像の対を識別し、これらの画像の対、又はより一般的な媒体データをグループ化するために、二次的な情報源(これは通常は視覚的な同一物判定コードに基づくものではない)が使用される設定が使用されてよい。換言すれば、各サンプルは、サンプル又はサンプルによって表される人物、動物又は物体を特徴付ける二次情報と関連付けられてよい。二次情報は、以下により詳細に概説されるように、多くの形態をとることができ、サンプル(例:サンプルの出所、サンプルが記録された時刻)又はサンプルによって表される人物、動物又は物体(例:サンプルと同時に記録された二次識別子)を特徴付ける。処理回路は、それぞれのサンプルに関連付けられた二次情報に基づいて、同一の人物、動物又は物体を表すサンプルの組を識別するように構成されてもよい。

様々な実施例において、(re-idではない)情報の二次的な情報源は、同一人物を特徴とする画像の異なる対を識別するために使用される。これは、たとえば、従来のカルマントラッカー(Kalman tracker)を使用して、複数のフレームにわたって人物を追跡する(表示中の人物が1人だけであることを確認する)ことによって、単一のカメラ上で実行されることができる。図1cは、異なる人物を表す一連の画像の概略図を示す。図1cは、一連の画像サンプル140～144を示し、画像サンプル140及び141は第1の人物を示し、画像サンプル143及び144は第2の人物を示し、画像サンプル142は人物をまったく示さない。提案される概念は、画像サンプル140及び141が同一の人物を表し、また、画像サンプル143及び144が同一の人物を表すことを判定し、したがって、それらを同一の組に割り当てるように使用されてよい。この判定は、一連内の画像サンプルの位置に基づいてよく、このため、後続の画像サンプルは、その人物、動物又は物体が一連内の画像サンプルによって表されなくなるまで、同一の人物、動物又は物体を示すとみなされてよい。換言すれば、媒体データが動画ストリームのような一連の画像サンプルを含む場合、二次情報は、一連の画像サンプル内のそれぞれのサンプルの位置（例えば、動画ストリーム内のフレーム番号）を特徴付けることができる。画像シーケンス内の位置(動画ストリーム内のフレーム番号)に基づいて、他の、例えば、後続の又は先行する、同一人物、動物又は物体を示す画像サンプルが識別されることができる。同一人物、動物又は物体を表すサンプルの組は、一連の画像サンプル内のそれぞれのサンプルの位置に基づいて識別されてもよい。

二つのカメラの視覚的な媒体データが使用されている場合、二次情報の別のタイプが使用されてよい。人物、動物、又は物体が、二つ以上の重なり合うカメラ上で同時に見える場合(ただし、異なる角度から見える場合)、別の手法は、その人物が占める空間内の同じ位置を向く(したがって、少なくとも部分的に重なり合う視野を有する)別のカメラから画像の対を取得することである(ここでは、それぞれの画像が同じ時点で取得される)。図1dは、同一の人物150に及ぶ重なり合う視野に及ぶ2つのカメラ151及び152を有するシナリオの概略図を示す。この人物は、同時に記録される2つの画像サンプル153及び154に示される。このような関係が分かっている場合は、それを用いて、同一人物、動物、又は物体を表す画像サンプルの対を決定することができる。換言すれば、媒体データが二つ以上のカメラの媒体データ(例えば、視覚的媒体データ、画像データ)を含む場合、二次情報は、二つ以上のカメラに関するそれぞれのサンプルの出所と、サンプルの撮像時刻とを特徴付けることができる。ここで、「出所」とは、それぞれのサンプルを記録した2つ以上のカメラを意味する。さらに、各カメラは、空間内の位置と、空間内のその位置における視野とに関連付けられてよい。2つのカメラが、空間のある位置で重なり合う視野を持つ場合、すなわち、空間の同じ位置を示す場合、これらのカメラによって記録されたサンプルは、同時に、同一の人物、動物、又は物体を示すと見なされてよい。したがって、2つ以上のカメラの媒体データは、少なくとも部分的に重なり合う視野を示すことができる。処理回路は、2つ以上のカメラに関するサンプルの出所に基づいて、及びサンプルの撮像時刻に基づいて、同一の人物、動物又は物体を表すサンプルの組を識別するように構成されてもよい。

複数のカメラにわたって(いくつかの他の既存の方法によって)人物を追跡することが可能である、重なり合わないマルチカメラ設定上では、異なるカメラからの画像は、（例えば、これらのカメラの視野間の推定遷移時間に基づいて）、同じ時点では取得されない場合であっても識別されることもできる。

いくつかのシステムでは、それぞれのサンプルと(実質的に)同時に記録される二次識別子が、サンプルを特徴付けるために使用されてよい。二次的な情報源は、携帯電話のBluetooth又はWi-Fi識別(媒体アクセス制御(MAC)アドレス)、IDカード又は個人用アクセストークン(カスタマイズされたキー、アクセスカードなど)のような、視覚的でない手がかり(セカンダリ識別子)であってよい。換言すれば、二次情報は、無線通信識別子、アクセストークン識別子、識別カード等の(二次)識別子上の情報を含んでよく、媒体データのサンプルと共に記録される。例えば、無線通信識別子は、サンプルによって表される人物、動物又は物体によって運ばれる、又はそれに取り付けられるモバイル装置の媒体アクセス制御識別子であってもよい。処理回路は、それぞれのサンプルと共に記録されている(二次)識別子に基づいて、同一の人物、動物、又は物体を表すサンプルの組を識別するように構成されてもよい。このようなシナリオの1つが図1eに示されており、2つのカメラは、2つのカメラによって記録されている人物、動物又は物体のモバイル装置(スマートフォン、スマートウォッチ、スマートカラー、又は物体追跡器など)の無線通信識別子を記録するために使用される、無線通信装置（例えば、Bluetooth又はWi-Fi受信機）に各々が関連付けられている。図1eは、無線通信装置を2つのカメラに搭載した場合の概略図である。図1eでは、第1のカメラ162によって、モバイル装置161を運んでいる人物160が記録されて、第1の画像サンプル164が生成される。一方、モバイル装置161の無線通信識別子が第1のカメラに関連付けられている第1の無線通信装置163によって記録されており、第1の画像サンプルと共に記録される。同一の人物160は、続いて、第2のカメラ165によって記録され、第2の画像サンプル167を生成し、無線通信識別子は、第2のカメラ165に関連付けられた第2の無線通信装置166によって記録され、記録された無線通信識別子は、第2の画像サンプルと共に記録される。無線通信識別子を使用して（これは、２つの記録間で変化しなくてよい）、2つの画像サンプルが同じ組に割り当てられてもよい。

様々な情報源が組み合わされてよい。すなわちシステムは、単一の情報源に依存する必要がない。例えば、システムはMACアドレスと経時的追跡の両方を使用してよい。これらは、その後、同一物判定システムを訓練するために使用されてよい。

非同一物判定ベースの二次的な情報源の使用に対する代替例として（又は追加例として）、同一の人物を表す画像を識別するために、別の同一物判定が使用されることがある。従って、処理回路は、第1の同一物判定システムを用いてサンプルの組を識別するように構成されてもよい。たとえば、精度の低い同一物判定システム（これはたまにしか機能しないこともある）が、精度の低い同一物判定システムが複数のサンプルにわたる人物のアイデンティティを特定する動画内のキーフレームの対を識別するために使用されることもできる。これらの画像から、人物のアイデンティティは、次に、例えば、カルマントラッカーによって、隣接する（時間）フレームに対し追跡されることができ、正しく識別された画像の対の数を増やすことができる。しかしながら、訓練データは、第2の(異なった)同一物判定システムで使用するために、機械学習モデルの訓練のために生成されてもよい。

続いて、「不良画像」(又は一般的な「不良媒体データ」)（すなわち、機械学習モデルの訓練に適さない可能性がある質の画像）を除去するフィルタが適用されてよい。換言すれば、処理回路は、組のサンプルの質を決定し、サンプルの質が事前に定義された規則に従って不十分な場合に、組からサンプルを削除するように構成されてもよい。例えば、不良画像は、人物の明確な光景を提供しない画像であってもよい。例えば、媒体データは人物を表すことがある。組のサンプルの質は、それぞれのサンプルにおける人物の顔の可視性に基づいて決定されることができる。いくつかの発見的手法は、例えば、目、耳、耳、及び/又は口の位置を分析することによって顔の方向を識別することによって、このようなフィルタを実装するように使用されることができる。いくつかの実施例では、「不良画像」フィルタは、対応する同一物判定コードが互いに非常に離れている画像を単に拒絶することによって、粗い同一物判定コードベースのシステムを適用して画像の対をフィルタリングすることもできる。換言すれば、処理回路は、同一物判定システムを使用して、それぞれのサンプルによって表される人物、動物、又は物体を表す同一物判定コードを生成するように構成されてもよい。組のサンプルの質は、組のサンプルのために生成された同一物判定コードの間の距離に基づいてもよい。例えば、処理回路は、同一物判定システムを使用して、組のサンプルに基づいて同一物判定コードを生成し、組間の相互距離に基づいて組の1つ以上のサンプルを破棄するように構成されてもよい(例えば、同一物判定コードと組の他のサンプルの同一物判定コードとの距離に基づいて外れ値を除去する)。

最後に、採取された組（すなわち、本開示に記載されているように取得された組）（例えば、類似人物の画像の対）が使用されて、同一物判定システム(の機械学習モデル)を訓練することができる。

要約すると、システムは、既存のシステムを使用して、画像内の人物を分類及び追跡することができる。その上に、同一人物の異なる画像を識別することができる二次的な情報源が使用されてよい。この識別情報は、上述のように、空間的又は時間的に(又は他の手段によって)人物を追跡することによって実行されることができる。識別された画像対は、その後、同一物判定システムを訓練するために使用されてよい。任意に、訓練の精度を高めるために、フィルタが使用されて、幾つかの基準に従って不良画像対をフィルタ除去してもよい。

本システムの特定の実装の1つは、同一物判定ベースのアクセスシステムに関する。これらは、人物の見た目が経時的にゆっくりと変化することが許容される顔認識に基づくアクセスシステムの実装を可能にするために使用されてもよい。人物の見た目が(たとえば、髪や髭を長くすることで)徐々に変化し、毎日確認しても、システムは長い日数にわたって追跡できる(なぜなら、変化が少量のため)。したがって、複数のサンプルは、同一物判定ベースのアクセス制御システムから複数日間にわたって取得されてもよい。ある時間（例えば、１ヶ月）の後、システムは、その人物を識別するのに十分な画像を収集したであろう。例えば、髪が短いとき(元の状況)及び髪が長いとき(最終状況)の画像である。画像サンプルをそれぞれの人物の媒体データを含む組に割り当てるには、同一物判定ベースのアクセス制御システムによって決定される、人物の識別子が使用されることができる。換言すれば、二次情報は、同一物判定ベースのアクセス制御システムによって提供される人物の識別子に対する情報を含むことができる(例えば、その判定は、その人物に関連付けられた以前の同一物判定コードとの対比に基づく)。新しく取得されたサンプルは、それぞれの人物を表すサンプルの組に追加される。たとえば髪が再度カットされるとき、同一物判定は正確なままになる。

図1fは、コンピュータシステム10とカメラ18とを含む同一物判定ベースのアクセス制御システム100の概略図を示し、カメラ18は、コンピュータシステムに媒体データ(例えば画像データ)を提供するために使用される。コンピュータシステムの処理回路は、生成された訓練データのシステムに基づいて、（新たに取得されたサンプルを用いて機械学習モデルの訓練を継続することによって、）同一物判定ベースのアクセス制御における同一物判定のために使用される機械学習モデルを適合させるように構成されてもよい。

上述したように、訓練データは、同一物判定に使用するために、例えば上記で参照された三つ組損失ベースの訓練を使用して、機械学習モデルを訓練するために生成される。各種実施例において、このタスクは、他のコンピュータシステム（例えば、汎用目的グラフィックス処理ユニット(GPGPU)、機械学習モデルの訓練を加速するための特定用途向け集積回路(ASIC)、又は機械学習モデルの訓練を加速するためのフィールドプログラマブルゲートアレイ(FPGA)などの計算アクセラレータを含むコンピュータシステムによって実行されてもよい。あるいは、訓練は、訓練データを生成する同じコンピュータシステムによって実行されてもよい。換言すれば、処理回路は、生成された訓練データを使用して機械学習モデルを訓練するように構成されてもよい。機械学習モデルは、機械学習モデルの入力時に提供される媒体データに基づいて同一物判定コードを生成するように訓練されてもよい。換言すれば、訓練された機械学習モデルは、その入力部で媒体データを受け入れ、その出力部で媒体データによって表される人物、動物又は物体を表す同一物判定コードを提供するように訓練されてもよい。

例えば、機械学習モデルは、複数の組の複数のサンプル対(各対は、単一組のサンプルを含む)に対して、対の第1のサンプルをベースライン入力として提供し、対の第2のサンプルを正の入力として提供し、そして別の組から取得される第3のサンプルを負の入力として提供することによって、三つ組損失ベースの訓練を用いて訓練されてもよい。この手順は、複数の一対のサンプル対に対して繰り返され、機械学習モデルを訓練する。次に、機械学習モデルは、媒体データのサンプルを入力し、結果として生じた同一物判定コードを比較することによって検証されてよい。例えば、同一人物、動物もしくは物体を表すサンプルの同一物判定コードが(類似度メトリックに従って)高い類似度を有し、異なる人物、動物もしくは物体を表すサンプルの同一物判定コードが(類似度メトリックに従って)低い類似度を有することを確認する。

指摘されたように、同一物判定に使用する機械学習モデルを訓練するための訓練データを生成するユースケースにつき、上記の手法が議論された。追加的に又は代替的に、提案される方法は、同一物判定以外のシステムのための訓練画像を取得するために使用されてもよい。例えば、物体分類(例えば、異なる角度からの犬の画像を自動的に収集すること)である。1つの画像が分類される場合、その分類は、(視覚的追跡によって)動画ストリーム中の隣接する画像に対し実行されることができる。

機械学習アルゴリズムは、通常、機械学習モデルに基づいている。換言すれば、「機械学習アルゴリズム」という用語は、機械学習モデルを作成、訓練、又は使用するために使用される一組の命令を意味してよい。「機械学習モデル」という用語は、例えば機械学習アルゴリズムによって実行される訓練に基づいて、学習された知識を表すデータ構造及び/又は一組の規則を意味してよい。実施形態において、機械学習アルゴリズムの使用は、基礎となる機械学習モデル(又は、基礎となる複数の機械学習モデル)の使用を意味してよい。機械学習モデルの使用は、機械学習モデル及び/又は機械学習モデルである規則のデータ構造/一組の規則が、機械学習アルゴリズムによって訓練されることを意味してよい。

例えば、機械学習モデルは人工ニューラルネットワーク(ANN)であってもよい。ANNは、生体情報ニューラルネットワークによって示唆(inspire)されるシステムであり、例えば脳に見られる。ANNは、複数の相互接続されたノードと、ノード間の複数の接続、いわゆるエッジとを含む。通常3タイプのノード、つまり、入力値を受け取る入力ノードと、他のノードに(のみ) 接続されている隠れノードと、出力値を提供する出力ノードとがある。各ノードは人工ニューロンを表すことができる。各端は、あるノードから別のものへ情報を送信することができる。ノードの出力は、その入力の合計の(非線形)関数として定義されてよい。ノードの入力は、入力を提供する端又はノードの「重み」に基づいて関数において使用されてもよい。ノードの重みや端の重みは、学習過程で調整されてよい。換言すれば、人工ニューラルネットワークの訓練は、人工ニューラルネットワークのノード及び/又は端の重みを調整すること、すなわち、所与の入力に対して所望の出力を達成することを含んでもよい。少なくともいくつかの実施形態において、機械学習モデルは、ディープニューラルネットワーク（例えば、隠れノードの1つ以上の層(すなわち、隠れ層)を含むニューラルネットワーク）であってもよく、好ましくは、隠れノードの複数の層であってもよい。

あるいは、機械学習モデルはサポートベクターマシンであってもよい。サポートベクターマシン(すなわちサポートベクターネットワーク)は、分類や回帰分析などでデータを分析するために使用されることがある関連学習アルゴリズムを有する教師あり学習モデルである。サポートベクトルマシンは、2つの分類のうちの1つに属する複数の訓練入力値を入力部に提供することによって訓練されてよい。サポートベクターマシンは、2つの分類のうちの1つに新しい入力値を割り当てるように訓練されてもよい。あるいは、機械学習モデルは、確率的有向非巡回グラフィカルモデルであるベイジアンネットワークであってもよい。ベイジアンネットワークは有向非巡回グラフを用いて確率変数とその条件依存性との組を表すことができる。あるいは、機械学習モデルは、自然選択の処理を模倣する検索アルゴリズム及び発見的技術である、遺伝的アルゴリズムに基づいてもよい。

1つ以上のインタフェース12は、情報を受信及び/又は送信するための1つ以上の入力部及び/又は出力部に対応してもよく、これらは、モジュール内、モジュール間、又は異なるエンティティのモジュール間で、指定されたコードに従ったデジタル(ビット)値であってもよい。例えば、1つ以上のインタフェース12は、情報を受信及び/又は送信するように構成されたインタフェース回路を含んでもよい。

処理回路14は、1つ以上の処理ユニット、1つ以上の処理装置、処理のための任意の手段（例えば、プロセッサ、コンピュータ、又は適宜適合されたソフトウェアで動作可能なプログラム可能なハードウェア構成要素）を用いて、実装されることができる。換言すれば、処理回路14の上述の機能は、同様に、ソフトウェアで実現されてもよく、これは、1つ以上のプログラム可能なハードウェア構成要素上で実行される。このようなハードウェア構成要素は、中央演算処理装置(CPU)、デジタル信号プロセッサ(DSP)、マイクロコントローラなどの汎用プロセッサを含むことができる。いくつかの実施例では、処理回路は、汎用目的グラフィック処理ユニット(GPGPU)、機械学習モデルの訓練を加速するための特定用途集積回路(ASIC)、又は機械学習モデルの訓練を加速するためのフィールドプログラマブルゲートアレイ(FPGA)のうちの少なくとも1つを含んでもよい。

様々な実施例において、1つ以上の記憶装置16は、ハードディスクドライブ、フラッシュメモリ、フロッピーディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、プログラム可能読み取り専用メモリ(PROM)、消去可能プログラム可能読み取り専用メモリ(EPROM)、電子的消去可能プログラム可能読み取り専用メモリ(EEPROM)、又はネットワーク記憶部などの、コンピュータ読み取り可能記憶媒体のグループの少なくとも1つの要素を含んでもよい。

訓練データを生成するためのコンピュータシステム、方法、及びコンピュータプログラムのより多くの詳細及び態様が、提案される概念又は上もしくは下に記載された1つ以上の実施例(例えば、図2aから2b)に関連して言及される。訓練データを生成するためのコンピュータシステム、方法、及びコンピュータプログラムは、提案される概念の1つ以上の態様、又は上もしくは下に記載された1つ以上の実施例に対応する1つ以上の追加の任意の機能を含むことができる。

図2aは、同一物判定に使用する機械学習モデルを訓練するためのコンピュータシステム20の一例のブロック図である。コンピュータシステムは、コンピュータシステムの機能性を提供するように構成された処理回路24を含む。さらに、コンピュータシステムは、(情報を交換するための)1つ以上のインタフェース22及び/又は(情報を記憶するための)1つ以上の記憶装置26を含むことができる。図2aに示すように、処理回路は、(任意の)1つ以上のインタフェース22及び1つ以上の記憶装置26に接続される。

処理回路は、機械学習モデルを訓練するための訓練データを取得するように構成される。訓練データは、図1aから図1fに関連して導入される訓練データを生成するためのコンピュータシステム、方法、又はコンピュータプログラムによって生成される。処理回路は、取得された訓練データを用いて機械学習モデルを訓練するように構成される。機械学習モデルは、機械学習モデルの入力部で提供される媒体データに基づいて同一物判定コードを生成するように訓練される。

図2bは、同一物判定に使用する機械学習モデルを訓練するための、対応する(コンピュータ実装)方法の実施例のフローチャートを示す。方法は、機械学習モデルを訓練するための訓練データを取得することを(210)含む。方法は、取得された訓練データを用いて機械学習モデルを訓練することを(220)含む。

以下の記述は、図2aのコンピュータシステム及び図2bの対応する方法の両方に関連する。図2aのコンピュータシステムに関連して説明された特徴は、図2bの対応する方法に同様に適用されてよい。

本開示の様々な態様は、同一物判定に使用するための機械学習モデルの訓練に関連する。一般に、機械学習モデルの訓練は、図1a及び/又は1bに関連して導入された。ここでは、訓練データを生成するために使用されるのと同じコンピュータシステムによって機械学習モデルの訓練が実行される。特に、訓練は、上で導入されたように、三つ組損失ベースの訓練であってもよい。

しかしながら、多くの場合、機械学習モデルを訓練するために使用されるコンピュータシステムは、訓練データを生成するために使用されるコンピュータシステムとは別であってもよい。したがって、図2a及び/又は図2bでは、コンピュータシステム、方法及びコンピュータプログラムが導入され、これは、図1a及び/又は1bに関連して導入されたコンピュータシステム、方法、及びコンピュータプログラムによって生成された訓練データに基づいて、機械学習モデルを訓練するために使用されることができる。したがって、訓練データは、上記のコンピュータシステム、コンピュータ方法及びコンピュータプログラムによって生成され、上記のコンピュータシステム、コンピュータ方法及びコンピュータプログラムから、例えば、インタフェース22及びコンピュータネットワークを介して、又は取り外し可能な記憶部から取得されてもよい。したがって、訓練データを取得することは、訓練データを図1aのコンピュータシステムから、例えば、コンピュータネットワークを介して受信すること、又は訓練データを、コンピュータシステムに取り付けられている取り外し可能な記憶部から読み出すことを含むことができる。

1つ以上のインタフェース22は、情報を受信及び/又は送信するための1つ以上の入力部及び/又は出力部に対応することができ、これは、モジュール内、モジュール間、又は異なるエンティティのモジュール間で、指定されたコードに従うデジタル(ビット)値であってもよい。例えば、1つ以上のインタフェース22は、情報を受信及び/又は送信するように構成されたインタフェース回路を含んでもよい。

処理回路24は、1つ以上の処理ユニット、1つ以上の処理装置、処理のための任意の手段（例えば、プロセッサ、コンピュータ、又は適宜適合されたソフトウェアで動作可能なプログラム可能なハードウェア構成要素）を用いて実装されることができる。換言すれば、処理回路24の上述の機能は、同様に、ソフトウェアで実現されてもよく、それは、1つ以上のプログラム可能なハードウェア構成要素上で実行される。このようなハードウェア構成要素は、中央演算処理装置(CPU)、デジタル信号プロセッサ(DSP)、マイクロコントローラなどの汎用目的プロセッサを含むことができる。いくつかの実施例では、処理回路は、汎用目的グラフィック処理ユニット(GPGPU)、機械学習モデルの訓練を加速するための特定用途集積回路(ASIC)、又は機械学習モデルの訓練を加速するためのフィールドプログラマブルゲートアレイ(FPGA)のうちの少なくとも1つを含んでもよい。

様々な実施例において、1つ以上の記憶装置26は、ハードディスクドライブ、フラッシュメモリ、フロッピーディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、プログラム可能読み取り専用メモリ(PROM)、消去可能プログラム可能読み取り専用メモリ(EPROM)、電子的消去可能プログラム可能読み取り専用メモリ(EEPROM)、又はネットワーク記憶部などの、コンピュータ読み取り可能記憶媒体のグループの少なくとも1つの要素を含んでもよい。

機械学習モデルを訓練するためのコンピュータシステム、方法、及びコンピュータプログラムのより多くの詳細及び態様は、提案される概念又は上もしくは下に記載された1つ以上の実施例(例えば、図1aから1f)に関連して言及される。機械学習モデルを訓練するためのコンピュータシステム、方法、及びコンピュータプログラムは、提案される概念の1つ以上の態様、又は上もしくは下に記載された1つ以上の実施例に対応する1つ以上の追加の任意の機能を含むことができる。

一般に、提案される概念は、コンピュータビジョン、機械学習、動画分析、アクセス制御、及び/又は人流監視に関する。

前の例の特定の1つに関連して説明された態様及び特徴は、さらなる実施例の同一又は類似の特徴を置き換えるため、又はさらなる実施例に特徴を追加的に導入するために、さらなる実施例の1つ以上と組み合わされてもよい。

実施例はさらに、プログラムがコンピュータ、プロセッサ又は他のプログラム可能なハードウェア構成要素上で実行されるときに、上記方法の1つ以上を実行するプログラムコードを含む(コンピュータ)プログラムであってもよく、又はそれに関連してもよい。したがって、上述の方法とは異なる方法のステップ、動作又は処理が、プログラムされたコンピュータ、プロセッサ又は他のプログラム可能なハードウェア構成要素によって実行されてもよい。実施例は、プログラム記憶装置（例えばデジタルデータ記憶媒体）に及んでよく、これは、機械で、プロセッサで又はコンピュータで読み取り可能であり、機械実行可能、プロセッサ実行可能又はコンピュータ実行可能なプログラム及び命令を含む。プログラム記憶装置は、例えば、デジタル記憶装置、磁気ディスク及び磁気テープのような磁気記憶媒体、ハードディスクドライブ、又は、光学的に可読可能なデジタルデータ記憶媒体を含むか、又はそれらであってもよい。他の実施例は、コンピュータ、プロセッサ、制御ユニット、(フィールド)プログラマブルロジックアレイ((F)PLA)、(フィールド)プログラマブルゲートアレイ((F)PGA)、グラフィックスプロセッサユニット(GPU)、特定用途集積路(ASIC)、集積回路(IC)、又は上述した方法のステップを実行するようにプログラムされたシステムオンチップ(SoC)のシステムを含んでよい。

さらに、明細書又は請求項における、いくつかのステップ、処理、動作又は機能の開示は、個々のケースにおいて明示的に記載される場合、又は技術的理由により必要である場合を除き、これらの動作が記載された順序に必ずしも依存することを示唆するとは解釈されないことを理解されたい。したがって、前の説明では、いくつかのステップ又は機能の実行は特定の順序に制限されない。さらに、別の実施例では、単一のステップ、機能、処理又は動作は、いくつかのサブのステップ、機能、処理又は動作を含み、及び/又はそれらに分割されてもよい。

いくつかの態様が装置又はシステムに関連して記述されている場合、これらの態様は、対応する方法の記述としても理解されるべきである。例えば、装置又はシステムのブロック、装置、又は機能態様は、対応する方法の方法的ステップのような特徴に対応することができる。したがって、方法に関連して記述される態様は、対応するブロック、対応する要素、又は対応する装置もしくは対応するシステムの特性もしくは機能的特徴の記述としても理解されたい。

以下の請求項は、ここで詳細な説明に組み込まれ、各請求項は、別個の実施例としてそれ自体に立脚することができる。また、請求項において、従属請求項は、1つ以上の他の請求項との特定の組み合わせを指すものの、他の実施例は、従属請求項と他の任意の従属請求項又は独立請求項の主題事項との組み合わせを含むこともできることに留意されたい。このような組み合わせは、個々のケースで特定の組み合わせが意図されないことが述べられていない限り、ここで明示的に提案される。さらに、当該請求項が他の独立請求項に従属していると直接定義されていない場合であっても、当該請求項の特徴は、他の独立請求項にも含まれるべきである。

Claims

同一物判定に使用する機械学習モデルを訓練するための訓練データを生成するコンピュータシステム（１０）であって、前記コンピュータシステムは処理回路（１４）を含み、前記処理回路は、
媒体データを取得することであって、前記媒体データは、人物、動物又は物体を表す複数のサンプルを含む、ことと、
前記媒体データを処理して、同一の人物、動物又は物体を表すサンプルの組を識別することと、
同一の人物、動物又は物体を表すサンプルの前記識別された組に基づいて、前記訓練データを生成することと、
を実行するよう構成され、
各サンプルは、前記サンプル又は前記サンプルによって表される人物、動物又は物体を特徴付ける二次情報に関連付けられ、前記処理回路は、前記それぞれのサンプルに関連付けられた前記二次情報に基づいて、前記同一の人物、動物又は物体を表すサンプルの前記組を識別するように構成され、
前記二次情報は、前記媒体データの前記サンプルと共に記録される無線通信識別子についての情報を含み、前記処理回路は、前記それぞれのサンプルと共に記録されている前記無線通信識別子に基づいて、前記同一の人物、動物又は物体を表すサンプルの前記組を識別するように構成される、コンピュータシステム。
請求項１に記載のコンピュータシステムにおいて、
前記媒体データが一連の画像サンプルを含む場合、前記二次情報は、前記一連の画像サンプル内の前記それぞれのサンプルの位置を特徴付け、前記同一の人物、動物又は物体を表すサンプルの前記組は、前記一連の画像サンプル内の前記それぞれのサンプルの前記位置に基づいて識別される、コンピュータシステム。
請求項１又は２に記載のコンピュータシステムにおいて、
前記媒体データが２つ以上のカメラの媒体データを含む場合、前記二次情報は、前記２つ以上のカメラに関する前記それぞれのサンプルの出所と、前記サンプルの撮像時刻とを特徴付け、前記処理回路は、前記２つ以上のカメラに関する前記サンプルの出所と、前記サンプルの前記撮像時刻とに基づいて、前記同一の人物、動物又は物体を表すサンプルの前記組を識別するように構成される、コンピュータシステム。
請求項１に記載のコンピュータシステムにおいて、
前記処理回路は、第１の同一物判定システムを使用してサンプルの前記組を識別するように構成され、前記訓練データは、第２の同一物判定システムで使用する機械学習モデルの訓練のために生成される、コンピュータシステム。
請求項１乃至４のいずれか一項に記載のコンピュータシステムにおいて、
前記処理回路は、前記複数のサンプルのうちの前記サンプル内の人物、動物又は物体の存在を判定し、前記人物、動物又は物体の存在の判定が失敗した場合に、サンプルを破棄するように構成される、コンピュータシステム。
請求項１乃至５のいずれか一項に記載のコンピュータシステムにおいて、
前記処理回路は、前記組の前記サンプルの質を決定するように構成され、前記サンプルの前記質が予め定義された規則に従って不十分な場合に、組からサンプルを削除するように構成される、コンピュータシステム。
請求項６に記載のコンピュータシステムにおいて、
前記媒体データは人物を表し、組の前記サンプルの前記質は、前記それぞれのサンプルにおける前記人物の顔の可視性に基づいて決定される、コンピュータシステム。
請求項６に記載のコンピュータシステムにおいて、
前記処理回路は、同一物判定システムを用いて、前記それぞれのサンプルによって表される前記人物、動物又は物体を表す同一物判定コードを生成するように構成され、組の前記サンプルの前記質は、前記組の前記サンプルにつき生成された前記同一物判定コードの間の距離に基づく、コンピュータシステム。
請求項１乃至８のいずれか一項に記載のコンピュータシステムを含む同一物判定ベースのアクセス制御システム（１００）であって、前記同一物判定ベースのアクセス制御システムから複数日間にわたって前記複数のサンプルが取得され、前記二次情報は、前記同一物判定ベースのアクセス制御システムによって提供される人物の識別子についての情報を含み、新たに取得されたサンプルが、前記それぞれの人物を表すサンプルの前記組に追加され、前記コンピュータシステムの前記処理回路は、生成された前記訓練データに基づいて、前記同一物判定ベースのアクセス制御システムにおける同一物判定に使用される機械学習モデルを適合させるように構成される、同一物判定ベースのアクセス制御システム（１００）。
同一物判定に使用する機械学習モデルを訓練するための訓練データを生成するコンピュータ実装方法であって、
媒体データを取得（１１０）することであって、前記媒体データは、人物、動物又は物体を表す複数のサンプルを含む、ことと、
前記媒体データを処理（１２０）して、同一の人物、動物又は物体を表すサンプルの組を識別することと、
前記同一の人物、動物又は物体を表すサンプルの前記識別された組に基づいて、前記訓練データを生成（１３０）することと、
を含み、
各サンプルは、前記サンプル又は前記サンプルによって表される人物、動物又は物体を特徴付ける二次情報に関連付けられ、前記コンピュータ実装方法は、前記それぞれのサンプルに関連付けられた前記二次情報に基づいて、前記同一の人物、動物又は物体を表すサンプルの前記組を識別することを含み、
前記二次情報は、前記媒体データの前記サンプルと共に記録される無線通信識別子についての情報を含み、前記コンピュータ実装方法は、前記それぞれのサンプルと共に記録されている前記無線通信識別子に基づいて、前記同一の人物、動物又は物体を表すサンプルの前記組を識別することを含む、コンピュータ実装方法。
同一物判定に使用するための機械学習モデルを訓練するためのコンピュータシステム（２０）であって、前記コンピュータシステムは処理回路（２４）を含み、前記処理回路は、
前記機械学習モデルを訓練するための訓練データを取得することであって、前記訓練データは、請求項１乃至８のいずれか一項に記載のコンピュータシステムによって生成される、ことと、
前記取得された訓練データを用いて前記機械学習モデルを訓練することであって、前記機械学習モデルは、前記機械学習モデルの入力部で提供される媒体データに基づいて、同一物判定コードを生成するように訓練される、ことと、
を実行するよう構成される、コンピュータシステム（２０）。
請求項１１に記載のコンピュータシステムにおいて、
前記機械学習モデルは、三つ組損失ベースの訓練を用いて訓練され、組の前記サンプルは、前記三つ組損失ベースの訓練のベースライン及び正の入力として用いられる、コンピュータシステム。
同一物判定に使用する機械学習モデルを訓練するコンピュータ実装方法であって、
前記機械学習モデルを訓練するための訓練データを取得（２１０）することであって、前記訓練データは、請求項１０に記載の訓練データを生成するためのコンピュータ実装方法によって生成される、ことと、
前記取得された訓練データを用いて前記機械学習モデルを訓練（２２０）することであって、前記機械学習モデルは、前記機械学習モデルの入力部で提供される媒体データに基づいて同一物判定コードを生成するように訓練される、ことと、
を含む、コンピュータ実装方法。