JP2023548512A

JP2023548512A - 対照学習を用いたビデオドメイン適応

Info

Publication number: JP2023548512A
Application number: JP2023526672A
Authority: JP
Inventors: イ－シューアンツァイ、; シアンユ、; ビンビンズオン、; マンモハンチャンドラカー、; ドンヒュンキム、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2020-11-10
Filing date: 2021-11-09
Publication date: 2023-11-17
Also published as: US20240037186A1; WO2022103753A1; US20220147761A1; US20240037188A1; US20240037187A1

Abstract

ビデオ方法及びシステムは、第１のドメインにおけるラベル付けされた第１の訓練データセット及び第２のドメインにおけるラベル付けされていない第２の訓練データセットから、第１のモダリティ及び第２のモダリティの特徴を抽出する（２０４／２０６）ことを含む。ビデオ分析モデルは、クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数の最適化を含む、抽出された特徴に対する対照学習を用いて訓練される（２１８）。【選択図】図１

Description

この出願は、２０２１年１１月８日に出願された米国特許出願第１７／５２１，０５７号、２０２０年１１月１０日に出願された米国特許仮出願第６３／１１１，７６６号、２０２０年１１月１３日に出願された米国特許仮出願第６３／１１３，４６４号及び２０２０年１１月１６日に出願された米国特許仮出願第６３／１１４，１２０号を基礎とする優先権を主張し、それぞれの開示の全てをここに取り込む。

本発明は、ビデオデータ分析に関し、より詳細には、ビデオドメイン間の情報転移に関する。

ビデオには、ラベル付けされた訓練データで訓練された機械学習システムを利用してラベル付けされる場合がある。訓練データは、第１のドメインに応じてラベル付けされる。但し、このような訓練されたモデルを別のラベルの無いドメインに適用すると、ドメインの違いによりパフォーマンスが低下することがある。

ビデオ方法は、第１のドメインにおけるラベル付けされた第１の訓練データセット及び第２のドメインにおけるラベル付けされていない第２の訓練データセットから、第１のモダリティ及び第２のモダリティの特徴を抽出することを含む。ビデオ分析モデルは、クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数の最適化を含む、抽出された特徴に対する対照学習を用いて訓練される。

ビデオ方法は、第１の視点から得られたビデオに関連する、第１のドメインにおけるラベル付けされた第１の訓練データセット、並びに第２の異なる視点から得られたビデオに関連する、第２のドメインにおけるラベル付けされていない第２の訓練データセットから、第１のモダリティ及び第２のモダリティの特徴を抽出することを含む。ビデオ分析モデルは、抽出された特徴に対する対照学習を用いて訓練される。ビデオ分析モデルを訓練することは、ビデオ分析モデルを用いて、ラベル付けされていない訓練データセットの疑似ラベルを生成し、同じドメインにおける異なるキュータイプの特徴を比較する、クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数を最適化することを含む。

ビデオシステムは、ハードウェアプロセッサと、コンピュータプログラムを格納するメモリとを含む。ハードウェアプロセッサによって実行されると、コンピュータプログラムは、ハードウェアプロセッサに、第１のドメインにおけるラベル付けされた第１の訓練データセット及び第２のドメインにおけるラベル付けされていない第２の訓練データセットから、第１のモダリティ及び第２のモダリティの特徴を抽出させ、クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数の最適化を含む、抽出された特徴に対する対照学習を用いて、ビデオ分析モデルを訓練させる。

これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。

本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。

図１は、本発明の一実施形態による、様々なドメインで得られたシーンのビデオを比較する図である。

図２は、本発明の一実施形態による、ラベル付けされた訓練データとラベル付けされていない訓練データとの組み合わせを用いてビデオ分析モデルを訓練するための方法のブロック／フロー図である。

図３は、本発明の一実施形態による、ラベル付けされた訓練データとラベル付けされていない訓練データとの組み合わせを用いて訓練されたモデルを用いてビデオ情報を分析して応答するための方法のブロック／フロー図である。

図４は、本発明の一実施形態による、ビデオ分析モデルを訓練することが可能であり、訓練されたモデルを用いてビデオ分析を実行できるコンピューティング装置のブロック図である。

図５は、本発明の一実施形態による、ラベル付けされた訓練データとラベル付けされていない訓練データとの組み合わせを用いてビデオ分析モデルを訓練するためのコンピュータプログラムのブロック図である。

図６は、本発明の一実施形態による、ニューラルネットワークのアーキテクチャを示す図である。

図７は、本発明の一実施形態による、深層ニューラルネットワークのアーキテクチャを示す図である。

第１のドメインにおけるラベル付けされたソース訓練データからの情報は、ラベル付けされていない第２のドメインにおける訓練データに転移できる。第２のドメインにおいて手間を要するアノテーションを行うことなく、両方のドメインでダウンストリームビデオ分析を実行できる。このようにして、第１のドメインにおける訓練ドメインの既存のコーパス（例えば、三人称視点ビデオ）を用いて、訓練データの取得及びアノテーションの付与が簡単ではない、一人称視点ビデオ、無人航空ビデオ及び無人地上車両等のドメインにおいてビデオ分析システムを訓練できる。この情報転移は、教師無しの対照学習を用いて実行できる。

ビデオ分析は、ビデオフレームを連続的かつ動的に取得する際に複雑な背景情報を処理する。例えば、カメラの動き、体の動き及び多様な背景により、ビデオ分析が複雑になることがある。その結果、ビデオ分析のための効果的な特徴表現を学習することが困難になる。あるドメインから別のドメインに変更すると、背景の挙動及び外観が大幅に変わり、訓練された機械学習システムが新しいドメインを処理するのが困難になる。但し、ドメイン適応における情報転移の特徴表現を強化するために、ビデオから複数のキューを抽出できる。

ここで図１を参照すると、図１には、異なるビジュアルドメインの比較例が示されている。単一のシーン１０２が、３つの異なる場所から視認されている。一人称視点１０６では、人１０４が自身の視点からビデオ情報を収集する。これは、例えばウェアラブルビデオカメラまたは携帯型の電子装置を用いて実行できる。一人称視点１０６は、シーン１０２の周囲の意図的な移動によるか、人の体の無意識の動きによるかに関係なく、人１０４の動きにより影響を受ける。

三人称視点１１０では、固定ビデオカメラ１０８（例えば、セキュリティカメラ）が高い位置からビデオデータを取得できる。これにより、三人称視点１１０にシーン１０２の斜視図を与えることが可能になり、上から及び横からの視界を提供する。さらに、ビデオカメラ１０８は所定の位置で固定されるため、三人称視点１１０は、シーン１０２に対する動きを含まなくてもよい。

上から見下ろす視点１１４では、航空カメラを有人または無人の航空機１１２に取り付ければよく、上からのシーン１０２の視界を提供する。航空機１１２は、シーン１０２から大きく離れていてもよく、シーン１０２に対して動いていてもよい。

これらの場合のそれぞれにおいて、ビデオデータが取得される方法、並びにビデオカメラの位置及び方向は、取得されるシーン１０２に関する実質的に異なる情報をもたらす。そのため、１つのドメインで取得されたデータで訓練された機械学習システムは、第２のドメインのデータが全く同じシーンから取得されたものであっても、第２のドメインで取得されたビデオデータを認識しないことがある。

取得されたビデオコンテンツは、例えば、ロウ（raw）画像及びオプティカルフローからそれぞれ抽出された外観キュー及びモーションキューを用いてアノテーションが付与される。これらのキューは、シーン１０２内の被写体による動作を認識する等、ビデオに関する情報を抽出するために利用できる。複数のキューは、教師なし対照学習を用いてブリッジされていてもよい。そのため、キューは、まず第１のドメインでビデオデータから学習され、次にビデオ分析タスクの全体的なパフォーマンスを向上させるために互いに関連付けられる。

与えられたビデオにおいて、外観キューまたはモーションキューのいずれかがビデオ分析タスクからの同じ出力につながる可能性がある。すなわち、例えば、動作認識は外観または動きに基づくことができる。これらの２つのキューから抽出された特徴は、特徴をジョイント潜在空間に投影するときに類似する。例えば、ビデオにおける動作が「ランニング」である場合、外観キューも「ランニング」特徴にマッピングすべきである。例えば、外観キューがバスケットボールコートに片足をおく人を示す場合、モーションキューは人の動きを認識する。対照的に、このビデオを別の異なるビデオと比較すると、コンテンツまたは動作クラスが異なり、外観キューまたはモーションキューから抽出される特徴も異なる。そのため、与えられたビデオにおいて、外観キューとモーションキューは共有潜在空間における同様の特徴にマッピングされるはずであるが、これらの特徴は別のビデオに見られる特徴とは大きく異なる場合がある。この特性は、対照学習のための教師なしオブジェクティブとして使用できる。

対照学習では、ミニバッチ内でポジティブサンプルとネガティブサンプルを選択し、ドメイン全体またはキュータイプ全体で特徴を対比できる。本明細書において、

は、ソースビデオの外観及びモーション特徴を表し、

は、ターゲットビデオの外観及びモーション特徴を表す。そのため、クロスタイプの特徴は

であり、クロスドメインの特徴は

である。これらのキュータイプは、本明細書ではモダリティとも呼ぶ。そのため、２つの異なるタイプの特徴を比較することをクロスモダリティ比較と呼ぶことがある。

２種類の対照損失関数（contrastive loss function）を使用できる。第１の対照損失関数は、各タイプを１つの視点と見なすクロスタイプ損失を含む。ソースドメインとターゲットドメインの両方のビデオ特徴は、特徴が同じビデオから抽出されたか否かに基づいて対比される。そのため、与えられたビデオにおいて、１つのポジティブペアはＦ^a及びＦ^mになる。

第２の対照損失関数は、異なるドメインからの各タイプの特徴を対比するクロスドメイン損失である。ターゲットドメインでは動作ラベルを使用できないため、疑似ラベルが生成され、ターゲットビデオ用のポジティブサンプルとネガティブサンプルが決定される。ラベルは、訓練中のモデルによって生成される。例えば、外観及びモーション分類器の予測が与えられた場合、それらの予測を平均して最終的な予測を提供できる。場合によっては、疑似ラベルプロセスを開始する前に幾つかの訓練エポックを実行し、分類器が使用される前に何らかの訓練を受けることができる。

そのため、ソースビデオＶ_s及び動作ラベルＹ_sを含むソースデータセットが与えられると、動作認識モデルは、Ｖ_sのドメインとは異なるドメインであるターゲットビデオＶ_tにラベル付けするように訓練される。例えば、ニューラルネットワークのアーキテクチャを用いて実施される、２ストリーム機械学習モデルを使用できる。このモデルは、ビデオの画像の外観及びフロー情報を入力として受け取り、外観特徴Ｆ^a及びモーション特徴Ｆ^mを出力して４つの異なる特徴空間

を形成する。

２つの対照損失関数を用いて特徴を正則化できる。第１に、各タイプのビデオを視点として扱い、ソースビデオまたはターゲットビデオから外観及びフロー特徴を抽出する。複数の視点は、特徴が同じビデオに由来するか否かに基づいて対比され、同じビデオのクロスタイプ特徴を、異なるビデオから抽出された特徴よりも、埋め込み空間において互いに近づける。第２に、異なるドメインにあるが同じタイプ

の特徴の場合、ビデオが同じ動作ラベルを共有するか否かに基づいて特徴を対比する。

各キュータイプは、それ自体の特徴特性を維持し、特に動作認識のようなビデオ分析タスクの場合、互いに補完し合うことができる。したがって、特徴

は直接対比することができない。これは、特徴表現に悪影響を及ぼし、認識精度を低下させる。２つの異なるソースビデオｉ及びｊからのソース特徴

が与えられると、プロジェクションヘッドが適用可能であり。損失関数は次のように記述できる。

ここで、

は、以下の温度パラメータτ及びプロジェクションヘッドｈ（・）

を伴う特徴

との間のポジティブ／ネガティブペアの類似度の値を表す。

クロスタイプ対応を学習するために、同様の損失関数

を用いることが可能であり、ポジティブサンプルは異なるタイプからのみ選択される。ターゲットビデオの場合、別の損失関数

で同じプロジェクションヘッドｈ（・）を使用できる。ここで、φ^tは次のように定義できる。

ソースドメイン及びターゲットドメインのそれぞれにおいて、

を組み合わせることで、ラベル付けされていないターゲットビデオの特徴正則化として機能する埋め込み空間において、同じビデオにおける異なるタイプの特徴が、より近くに共に配置される。

クロスタイプ正則化に加えて、４つの特徴空間の間の相互作用が、クロスドメインサンプルの対照学習オブジェクティブを用いてさらに利用される。外観キューを例にとると、特徴

を使用できる。ポジティブサンプルは、ドメイン間で同じラベルが付与されたビデオを見つけることで決定できる。但し、ターゲットドメインのビデオにはラベルが提供されないため、予測スコアに基づいて疑似ラベルが生成される。正則化の目的のために、しきい値のスコアを超えるラベルをターゲットビデオに適用できる。ソースビデオとターゲットビデオにおいて、同じラベルを有するサンプルを選択できる。

両方のタイプを組み合わせたソース及びターゲット特徴が与えられると、損失関数は次のように定義される。

ここで、

は、ソースビデオセットｓ_iに関して、疑似ラベルで決定されるポジティブ／ネガティブのターゲットビデオセットを示す。項

は、特徴

間の類似度の値である。

クロスドメイン特徴正則化に関して、追加のプロジェクションヘッドを用いても、モデルのパフォーマンスに影響はなく、省略してもよい。この目的関数は、埋め込み空間内で同じラベルを有する特徴を互いに近づける。

上記の損失関数は、次のように組み込むことができる。

ここで、

はソースビデオＶ_sの動作ラベルＹ_sのクロスエントロピー損失である。

はビデオＶ_tの一連の疑似ラベルであり、λはクロスモダリティ損失とクロスドメイン損失のバランスを取るための重みである。上記のように、

は、同じ損失形式を用いて実施できるが、ドメイン毎に異なるプロジェクションヘッドを使用する。一方、

は、２つのドメインから同時にビデオを取得し、外観特徴及びモーション特徴に関して同じ形式である。

訓練の繰り返し毎にビデオセットＶ_s及びＶ_tから全ての特徴を計算するのではなく、特徴をそれぞれのメモリ

に格納できる。バッチにおける特徴が与えられると、ポジティブ及びネガティブ特徴に関して、例えば、

が

に置き換えられる等、ポジティブ及びネガティブ特徴が引き出される。メモリバンク特徴は、繰り返し毎の最後にバッチにおける特徴で更新される。例えば、次のようなモーメンタム更新を使用できる。

ここで、δは、例えば０．５等のモーメンタム項である。他のメモリも同様に更新できる。モーメンタムの更新により、訓練ダイナミクスの平滑性が促進される。訓練プロセス中に、ビデオクリップ内の連続するフレームがランダムにサンプリングされる場合がある。これらのメモリを用いることで、モデルは特徴学習の時間的な平滑性を促進する。

ここで図２を参照すると、図２には、対照訓練を用いてビデオ分析モデルを訓練する方法が示されている。ブロック２０２は、入力ビデオを受け取り、ビデオからモーション情報を生成する。例えば、ブロック２０２は、ビデオフレーム内のオブジェクトを識別し、検出したオブジェクトの位置を、前または後のフレームにおける類似のオブジェクトと比較する。場合によっては、このモーション情報は、ビデオセットの一部として提供される。ビデオには、ラベル付けされたソースビデオとラベル付けされていないターゲットビデオが含まれる。

ブロック２０４は、例えば外観特徴抽出モデルを用いて、ソース及びターゲットビデオから外観特徴を抽出する。ブロック２０６は、例えばモーション特徴抽出モデルを用いて、ソース及びターゲットビデオからモーション特徴を抽出する。外観及びモーション特徴が具体的に示しているが、代わりに任意の適切な特徴セットを使用できることを理解されたい。

ブロック２０８は、ターゲットビデオ用の疑似ラベルを生成する。これにより、同様のラベルを有する異なるドメインのビデオとの比較に使用できるラベルが提供される。ブロック２１０は、ソースビデオのモーション損失を決定し、ブロック２１２は、ターゲットビデオのモーション損失を決定する。ブロック２１４は、クロスドメイン損失を決定し、異なるドメインのビデオの同様の特徴を対比する。ブロック２１６は、クロスエントロピー損失を決定する。ブロック２１８は、ソースモーション損失、ターゲットモーション損失、ドメイン損失及びクロスエントロピー損失の組み合わせにより、外観畳み込みニューラルネットワーク（ＣＮＮ）及びモーションＣＮＮのモデルパラメータを更新する。

ここで図３を参照すると、図３には、ビデオ分析を実行する方法が示されている。ブロック３０２は、訓練データのセットを用いてモデルを訓練する。訓練データのセットには、第１のドメインからのラベル付けされたデータと、第２のドメインからのラベル付けされていないデータとが含まれる。上記で詳細に説明したように、訓練では、モデルを訓練してビデオを潜在空間に埋め込むために対照学習を用いる。ここでは、異なるドメインからの同様にラベル付けされたビデオが互いに近くに配置され、与えられた視点と異なる視点が互いに近くに配置される。このようにして、ラベル付けされていないドメインからの訓練データを、時間を要するデータのラベル付けプロセス無しで使用できる。

ランタイム中、ブロック３０４は、訓練されたモデルを用いて新しいデータを分析する。例えば、新しいビデオデータが提供され、そのビデオデータにラベルが付与される。ブロック３０６は、決定されたラベルに基づいて応答動作を実行する。例えば、動作認識を監視及びセキュリティアプリケーションに用いて、人が許可されていない場所に行ったり、関わる権限がないものに触れたりした場合など、異常な活動を認識できる。動作認識は、身振りでスマートホーム装置を制御できるスマートホームアプリケーションにも使用できる。動作認識は、患者と治療機器との相互作用や薬の使用を監視できるヘルスケアアプリケーションにも使用できる。動作認識は、選手の行動を認識して自動的に分析できるスポーツ分析アプリケーションにも使用できる。

図４は、本発明の一実施形態による例示的なコンピューティング装置４００を示すブロック図である。コンピューティング装置４００は、屋内シーンのトップダウン型のパラメトリック表現を識別し、シーンを用いたナビゲーションを提供するように構成されている。

コンピューティング装置４００は、コンピュータ、サーバ、ラックベースのサーバ、ブレードサーバ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイルコンピューティング装置、ウェアラブルコンピューティング装置、ネットワークアプライアンス、Ｗｅｂアプライアンス、分散コンピューティングシステム、プロセッサベースのシステム及び／または家庭用電化製品を含むがこれらに限定されない、本明細書に記載された機能を実行できる任意のタイプの計算装置またはコンピュータ装置で具現化される。追加または代替として、コンピューティング装置４００は、１つまたは複数の計算スレッド、メモリスレッドまたは他のラック、スレッド、計算シャーシ、あるいは物理的に分散されたコンピューティング装置の他のコンポーネントで具現化されてもよい。

図４で示すように、コンピューティング装置４００は、プロセッサ４１０、入出力サブシステム４２０、メモリ４３０、データ記憶装置４４０、通信サブシステム４５０及び／またはサーバまたは同様の計算で一般的に見られる他のコンポーネント及び装置を例示的に含む。コンピューティング装置４００は、他の実施形態において、サーバコンピュータに一般的に見られるコンポーネント（例えば、様々な入力／出力装置）等、他のコンポーネントまたは追加のコンポーネントを含んでいてもよい。さらに、いくつかの実施形態において、例示的な構成要素のうちの１つまたは複数を、別の構成要素に組み込むか、または別の構成要素の一部を形成してもよい。例えば、メモリ４３０またはその一部は、いくつかの実施形態において、プロセッサ４１０に組み込まれていてもよい。

プロセッサ４１０は、本明細書に記載の機能を実行できる任意のタイプのプロセッサで具現化してもよい。プロセッサ４１０は、単一のプロセッサ、複数のプロセッサ、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、シングルまたはマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラまたは他のプロセッサまたは処理／制御回路で具現化してもよい。

メモリ４３０は、本明細書に記載の機能を実行できる任意のタイプの揮発性または不揮発性メモリまたはデータ記憶装置で具現化してもよい。動作中、メモリ４３０は、オペレーティングシステム、アプリケーション、プログラム、ライブラリ及びドライバ等、コンピューティング装置４００の動作中に使用される様々なデータ及びソフトウェアを格納できる。メモリ４３０は、Ｉ／Ｏサブシステム４２０を介してプロセッサ４１０に通信可能に接続され、これはプロセッサ４１０、メモリ４３０及びコンピューティング装置４００の他のコンポーネントとの入出力動作を容易にする回路及び／またはコンポーネントで具現化される。例えば、Ｉ／Ｏサブシステム４２０は、メモリコントローラハブ、入力／出力制御ハブ、プラットフォームコントローラハブ、統合制御回路、ファームウェア装置、通信リンク（例えば、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板トレース等）及び／または入出力操作を容易にするその他のコンポーネント及びサブシステムで具現化されてもよく、あるいは含んでいてもよい。いくつかの実施形態において、Ｉ／Ｏサブシステム４２０は、システムオンチップ（ＳＯＣ）の一部を形成してもよく、プロセッサ４１０、メモリ４３０及びコンピューティング装置４００の他の構成要素と共に、単一の集積回路チップに組み込まれていてもよい。

データ記憶装置４４０は、例えば、メモリ装置及び回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブまたはその他のデータ記憶装置等、データの短期または長期の記憶のために構成された任意のタイプの装置または複数の装置で具現化できる。データ記憶装置４４０は、例えばラベル付けされた及びラベル付けされていない訓練データを用いてビデオ分析モデルを訓練するためのプログラムコード４４０Ａと、訓練されたモデルを用いてビデオ分析を実行するためのプログラムコード４４０Ｂとを格納できる。コンピューティング装置４００の通信サブシステム４５０は、ネットワークを介してコンピューティング装置４００と他のリモート装置との間の通信を可能にする、任意のネットワークインタフェースコントローラまたは他の通信回路、装置、若しくはそれらの集合で具現化される。通信サブシステム４５０は、任意の１つまたは複数の通信技術（例えば、有線または無線通信）及び関連するプロトコル（例えば、イーサネット、ＩｎｆｉｎｉＢａｎｄ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ-Ｆｉ（登録商標）、ＷｉＭＡＸなど）を用いて、そのような通信を行うように構成される。

示されるように、コンピューティング装置４００は、１つまたは複数の周辺装置４６０を含んでいてもよい。周辺装置４６０は、任意の数の追加の入力／出力装置、インタフェース装置及び／または他の周辺装置を含んでいてもよい。例えば、幾つかの実施形態において、周辺装置４６０は、ディスプレイ、タッチスクリーン、グラフィック回路、キーボード、マウス、スピーカシステム、マイクロフォン、ネットワークインタフェース及び／または他の入出力装置、インタフェース装置、ビデオキャプチャ装置及び／または周辺機器を含んでいてもよい。

もちろん、コンピューティング装置４００は、当業者であれば容易に思いつくような他の要素（図示せず）を含むことも、特定の要素を省略することもできる。例えば、当業者には容易に理解されるように、特定の実施に応じて、様々な他のセンサ、入力装置及び／または出力装置をコンピューティング装置４００に含んでいてもよい。例えば、様々なタイプの無線及び／または有線入力及び／または出力装置を利用できる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリ等を利用することもできる。処理システム４００のこれら及び他の変形例は、本明細書で提供される本発明の教示を考慮すれば、当業者に容易に考えられる。

ハードウェアプロセッササブシステムのこれら及び他の変形例も、本発明の実施形態により考えられる。

ここで図５を参照すると、図５には、モデル訓練４４０Ａに関する追加の詳細が示されている。モデルは、入力ビデオの外観特徴を処理する外観ＣＮＮ５０２と、入力ビデオのモーション特徴を処理するモーションＣＮＮ５０４とを含む。対照学習５１０は、第１のドメインにおけるラベル付けされた訓練データ５０６と、第２のドメインにおけるラベル付けされていない訓練データ５０８とを用いて、外観ＣＮＮ５０２及びモーションＣＮＮ５０４を訓練する。

モデルは、人工ニューラルネットワークのアーキテクチャを用いて実施される。ＣＮＮは、入力に対するスライディング「ウィンドウ」を用いて情報を処理する。ＣＮＮ層の各ニューロンには、各ウィンドウ位置に適用されるそれぞれの「フィルタ」がある。各フィルタは、例えば入力内のそれぞれのパターンを処理するように訓練される。ＣＮＮは、画像の様々な領域を通過するときに、個々の画素間の局所的な関係が、フィルタによって取得される画像の処理に特に役に立つ。ＣＮＮ層のニューロンの出力には、それぞれのフィルタがスライディングウィンドウの値の各セットと一致したか否かを表す値のセットが含まれる。

ここで図６を参照すると、図６には、例示的なニューラルネットワークのアーキテクチャが示されている。階層型のニューラルネットワークでは、複数のノードが層形式で配置される。単純なニューラルネットワークは、ソースノード６２２の入力層６２０と、出力ノードとしても機能する１つまたは複数の計算ノード６３２を備える単一の計算層６３０とを有する。計算層６３０には、入力例を分類できると考えられるカテゴリ毎に１つのノード６３２がある。入力層６２０は、入力データ６１０におけるデータ値６１２の数に等しい数のソースノード６２２を有する。入力データ６１０のデータ値６１２は、列ベクトルとして表すことができる。計算層の各計算ノード６３０は、入力ノード６２０に供給される入力データ６１０から重み値の線形結合を生成し、総和に対して微分可能な非線形な活性化関数を適用する。単純なニューラルネットワークは、線形に分離可能な例（パターン等）の分類を実行できる。

ここで図７を参照すると、図７には、深層ニューラルネットワークのアーキテクチャが示されている。多層パーセプトロンとも呼ばれる深層ニューラルネットワークは、ソースノード６２２の入力層６２０と、１つまたは複数の計算ノード６３２を含む１つまたは複数の計算層６３０と、出力層６４０とを有する。出力層６４０には、入力例を分類できるカテゴリ毎に１つの出力ノード６４２がある。入力層６２０は、入力データ６１０におけるデータ値６１２の数に等しい数のソースノード６２２を有する。計算層６３０の計算ノード６３２は、ソースノード６２２と出力ノード６４２との間にあり、直接観察されないため、隠れ層とも称される。計算層の各ノード６３２、６４２は、前段の層のノードから出力された値から重み値の線形結合を生成し、総和に対して微分可能な非線形な活性化関数を適用する。前段の各ノードからの値に適用される重みは、例えば、ｗ₁、ｗ₂、ｗ_n-1、ｗ_nで表すことができる。出力層は、入力データに対するネットワーク全体の応答を提供する。深層ニューラルネットワークは、計算層の各ノードを前段の層の全ての他のノードと接続する、全結合としてもよい。ノード間のリンクが欠落している場合、ネットワークは部分的に接続されていると見なされる。

深層ニューラルネットワークの訓練には、各ノードの重みが固定され、入力がネットワークを経由して伝搬する順方向フェーズと、エラー値がネットワークを経由して逆方向に伝搬する逆方向フェーズの２つのフェーズを含む。

１つまたは複数の計算（隠れ）層６３０における計算ノード６３２は、特徴空間を生成する入力データ６１２に対して非線形変換を実行する。クラスまたはカテゴリの特徴空間は、オリジナルのデータ空間よりも簡単に分離できる。

図６及び図７のニューラルネットワークのアーキテクチャは、例えば、図５で示されたモデルのいずれかを実施するために用いられる。ニューラルネットワークを訓練するために、訓練データを訓練セットとテストセットに分けることができる。訓練データには、入力と既知の出力のペアが含まれる。訓練中、訓練セットの入力は、フィードフォワード伝搬を用いてニューラルネットワークに供給される。各入力の後、ニューラルネットワークの出力が、それぞれの既知の出力と比較される。ニューラルネットワークの出力とその特定の入力に関連付けられている既知の出力との不一致を用いてエラー値が生成される。エラー値はニューラルネットワークを通して逆伝播され、その後、ニューラルネットワークの重み値が更新される。このプロセスは、訓練セットにおける上記ペアが無くなるまで継続する。

本明細書に記載する実施形態は、全てハードウェアで実現してもよく、全てソフトウェアで実現してもよく、ハードウェアとソフトウェアの両方の要素を含んでいてもよい。好ましい実施形態において、本発明は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むが、これらに限定されないソフトウェアでも実現可能である。

実施形態には、コンピュータ若しくは任意の命令実行システムによって使用される、または関連して使用されるプログラムコードを提供する、コンピュータで使用可能な、またはコンピュータで読み取り可能な媒体からアクセスできる、コンピュータプログラム製品を含んでもいてよい。コンピュータで使用可能な、またはコンピュータで読み取り可能な媒体には、命令実行システム、機器、若しくは装置によって使用される、または関連して使用されるプログラムを格納、伝達、伝搬または転移する任意の機器を含んでいてもよい。該媒体は、磁気媒体、光学媒体、電子媒体、電磁気媒体、赤外線媒体または半導体システム（または機器もしくは装置）、あるいは伝搬媒体であってもよい。該媒体には、半導体または固体メモリ、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、リジッド磁気ディスク及び光ディスク等のコンピュータで読み取り可能な媒体を含んでいてもよい。

各コンピュータプログラムは、汎用または特別な目的を持つプログラム可能なコンピュータで読み取ることができる、機械で読み取り可能なストレージメディアまたは装置（例えば、プログラムメモリまたは磁気ディスク）に格納される。該コンピュータプログラムは、ストレージメディアまたは装置から本明細書に記載された手順を実行するコンピュータで読み出される、該コンピュータの設定及び制御動作のためのものである。本発明のシステムには、本明細書に記載した機能を実行する、特定の及び事前に定義された方法をコンピュータに動作させるように構成されたコンピュータプログラムを含む、コンピュータで読み取り可能なストレージメディアも考慮される。

プログラムコードを格納及び／または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接または間接的に接続された少なくとも１つのプロセッサを備えていてもよい。このメモリ要素には、処理の実行中にバルクメモリ装置からコードが検索される回数を減らすために、プログラムコードの実際の実行中に用いられるローカルなメモリ、バルクメモリ装置及び少なくともいくつかのプログラムコードを一時的に記憶するキャッシュメモリを備えていてもよい。入出力またはＩ／Ｏ装置（限定されるものではないが、キーボード、ディスプレイ、ポインティング装置等を含む）は、直接またはＩ／Ｏコントローラを介してシステムに接続されてもよい。

ネットワークアダプタは、データ処理システムが、プライベートネットワークまたは公衆ネットワークを介して、他のデータ処理システムまたはリモートプリンタもしくはメモリ装置に接続されることを可能にするために、上記システムと接続されていてもよい。モデム、ケーブルモデム及びイーサネット（登録商標）カードは、現在利用可能なタイプのネットワークアダプタのほんの一例である。

本明細書で用いる「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、１つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態において、ハードウェアプロセッササブシステムは、１つまたは複数のデータ処理要素（例えば、論理回路、処理回路、命令実行装置等）を含むことができる。１つまたは複数のデータ処理要素は、中央処理装置、グラフィックス処理装置及び／または個別のプロセッサまたはコンピューティング要素ベースのコントローラ（例えば、論理ゲート等）を含めることができる。ハードウェアプロセッササブシステムは、１つ以上のオンボードメモリ（例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリ等）を含むことができる。任意の実施形態において、ハードウェアプロセッササブシステムは、オンボードまたはオフボードとすることができる、またはハードウェアプロセッササブシステム（例えば、ＲＯＭ、ＲＡＭ、基本入出力システム（ＢＩＯＳ）等）で用いるための専用の１つ以上のメモリを含むことができる。

任意の実施形態において、ハードウェアプロセッササブシステムは、１つ以上のソフトウェア要素を含み実行できる。１つ以上のソフトウェア要素は、特定の結果を達成するためにオペレーティングシステム及び／または１つ以上のアプリケーション及び／または特定のコードを含むことができる。

他の実施形態において、ハードウェアプロセッササブシステムは、指定された結果を達成するために１つまたは複数の電子処理機能を実行する専用回路を含むことができる。そのような回路は、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）及び／またはプログラマブルロジックアレイ（ＰＬＡ）を含むことができる。

ハードウェアプロセッササブシステムのこれら及び他の変形例もまた、本発明の実施形態によって考えられる。

本明細書では本発明の「一実施形態」または「一実施形態」、ならびにその他の変形形態に言及し、実施形態に関連して説明した特定の機能、構成、特徴などが、本発明の少なくとも１つの実施形態に含まれることを意味する。したがって、「一実施形態において」または「一実施形態において」という語句の出現、並びに本明細書全体を通して様々な場所に出現する任意の他の変形形態は、必ずしも全てが同じ実施形態を参照しているわけではない。しかしながら、本明細書で提供される本発明の教示を前提として、１つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。

例えば、「Ａ／Ｂ」、「Ａ及び／またはＢ」、並びに「Ａ及びＢのうちの少なくとも１つ」の場合における「／」、「及び／または」、並びに「うちの少なくとも１つ」のうちのいずれかの使用は、第１に挙げた選択肢（Ａ）のみの選択、第２に挙げた選択肢（Ｂ）のみの選択、または両方の選択肢（Ａ及びＢ）の選択を含むことを意図したものと理解すべきである。さらに例を挙げれば、「Ａ、Ｂ及び／またはＣ」、並びに「Ａ、Ｂ及びＣのうちの少なくとも１つ」の場合、このような表現法は、第１に挙げた選択肢（Ａ）のみの選択、第２に挙げた選択肢（Ｂ）のみの選択、第３に挙げた選択肢（Ｃ）のみの選択、第１及び第２に挙げた選択肢（Ａ及びＢ）のみの選択、第１及び第３に挙げた選択肢（Ａ及びＣ）のみの選択、第２及び第３に挙げた選択肢（Ｂ及びＣ）のみの選択、または３つの選択肢全て（Ａ及びＢ及びＣ）の選択を含むことを意図したものである。上述した例は、当業者に容易に明らかとなるように、列挙される多数の項目に応じて拡大適用される。

上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims

コンピュータで実施されるビデオ方法であって、
第１のドメインにおけるラベル付けされた第１の訓練データセット及び第２のドメインにおけるラベル付けされていない第２の訓練データセットから、第１のモダリティ及び第２のモダリティの特徴を抽出するステップ（２０４／２０６）と、
クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数の最適化を含む、前記抽出された特徴に対する対照学習を用いて、ビデオ分析モデルを訓練するステップ（２１８）と、
を有するコンピュータで実施される方法。
前記ビデオ分析モデルを訓練するステップは、前記ラベル付けされていない訓練データセットのための疑似ラベルを生成することを含む、請求項１に記載のコンピュータで実施されるビデオ方法。
前記クロスドメイン正則化部は、前記第１の訓練データセットからの第１の訓練データと前記第２の訓練データセットからの第２の訓練データとを比較し、前記第２の訓練データは、第１の訓練データのラベルと一致する擬似ラベルを有する、請求項２に記載のコンピュータで実施される方法。
前記疑似ラベルは、前記ビデオ分析モデルによって生成される、請求項２に記載コンピュータで実施される方法。
前記クロスモダリティ正則化部は、同じドメインにおける異なるキュータイプの特徴を比較する、請求項１に記載のコンピュータで実施される方法。
前記異なるキュータイプは、外観特徴及びモーション特徴を含む、請求項５に記載のコンピュータで実施される方法。
前記第１のドメインは第１の視点から得られたビデオに関連し、前記第２のドメインは第２の異なる視点から得られたビデオに関連する、請求項１に記載のコンピュータで実施される方法。
Ｖ_sをソースドメインにおけるビデオのセットとし、Ｖ_tをターゲットドメインにおけるビデオのセットとし、Ｙ_sを前記ソースビデオのラベルとし、

を前記ターゲットビデオの疑似ラベルとし、

を前記ソースビデオのクロスエントロピー損失とし、

を前記ソースビデオのクロスモダリティ損失項とし、

を前記ターゲットビデオのクロスモダリティ損失項とし、

をクロスドメイン損失項とし、λをバランスパラメータとしたとき、
前記損失関数が、

で表される、請求項１に記載のコンピュータで実施される方法。
前記クロスドメイン損失項は、

で表され、

は、ポジティブサンプルのための、同じモダリティ及び異なるドメインの特徴間の類似度であり、

は、ネガティブサンプルのための、同じモダリティ及び異なるドメインの特徴間の類似度である、請求項８に記載のコンピュータで実施される方法。
前記ソースビデオのクロスモダリティ損失項は、

で表され、

は、ポジティブサンプルのための、異なるモダリティ及び同じドメインの特徴間の類似度であり、

は、ネガティブサンプルのための、異なるモダリティ及び同じドメインの特徴間の類似度である、請求項８に記載のコンピュータで実施される方法。
コンピュータで実施されるビデオ方法であって、
第１の視点から得られたビデオに関連する、第１のドメインにおけるラベル付けされた第１の訓練データセット、並びに第２の異なる視点から得られたビデオに関連する、第２のドメインにおけるラベル付けされていない第２の訓練データセットから、第１のモダリティ及び第２のモダリティの特徴を抽出するステップ（２０４／２０６）と、
前記抽出された特徴に対する対照学習を用いて、ビデオ分析モデルを訓練するステップ（２１８）と、
前記ビデオ分析モデルを用いて、前記ラベル付けされていない訓練データセットの疑似ラベルを生成するステップ（２０８）と、
同じドメインにおける異なるキュータイプの特徴を比較する、クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数を最適化（２１８）するステップと、
を有するコンピュータで実施される方法。
ハードウェアプロセッサ（４１０）と、
前記ハードウェアプロセッサで実行されると、前記ハードウェアプロセッサに、
第１のドメインにおけるラベル付けされた第１の訓練データセット及び第２のドメインにおけるラベル付けされていない第２の訓練データセットから、第１のモダリティ及び第２のモダリティの特徴を抽出するステップ（２０４／２０６）と、
クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数の最適化を含む、前記抽出された特徴に対する対照学習を用いて、ビデオ分析モデルを訓練するステップ（２１８）と、
を実行させるコンピュータプログラムを格納するメモリ（４３０）と、
を有するビデオシステム。
前記コンピュータプログラムは、前記ハードウェアプロセッサに、さらに前記ラベル付けされていない訓練データセットのための疑似ラベルを生成させる、請求項１２に記載のシステム。
前記クロスドメイン正則化部は、前記第１の訓練データセットからの第１の訓練データと前記第２の訓練データセットからの第２の訓練データとを比較し、前記第２の訓練データは、第１の訓練データのラベルと一致する擬似ラベルを有する、請求項１３に記載のシステム。
前記疑似ラベルは、ビデオ分析モデルによって生成される、請求項１３に記載のシステム。
前記クロスモダリティ正則化部は、同じドメインにおける異なるキュータイプの特徴を比較する、請求項１２に記載のシステム。
前記異なるキュータイプは、外観特徴及びモーション特徴を含む、請求項１６に記載のシステム。
Ｖ_sをソースドメインにおけるビデオのセットとし、Ｖ_tをターゲットドメインにおけるビデオのセットとし、Ｙ_sを前記ソースビデオのラベルとし、

を前記ターゲットビデオの疑似ラベルとし、

を前記ソースビデオのクロスエントロピー損失とし、

を前記ソースビデオのクロスモダリティ損失項とし、

を前記ターゲットビデオのクロスモダリティ損失項とし、

をクロスドメイン損失項とし、λをバランスパラメータとしたとき、
前記損失関数が、

で表される、請求項１２に記載のシステム。
前記クロスドメイン損失項は、

で表され、

は、ポジティブサンプルのための、同じモダリティ及び異なるドメインの特徴間の類似度であり、

は、ネガティブサンプルのための、同じモダリティ及び異なるドメインの特徴間の類似度である、請求項１８に記載のシステム。
前記ソースビデオのクロスモダリティ損失項は、

で表され、

は、ポジティブサンプルのための、異なるモダリティ及び同じドメインの特徴間の類似度であり、

は、ネガティブサンプルのための、異なるモダリティ及び同じドメインの特徴間の類似度である、請求項１８に記載のシステム。