JP2023548512A - 対照学習を用いたビデオドメイン適応 - Google Patents

対照学習を用いたビデオドメイン適応 Download PDF

Info

Publication number
JP2023548512A
JP2023548512A JP2023526672A JP2023526672A JP2023548512A JP 2023548512 A JP2023548512 A JP 2023548512A JP 2023526672 A JP2023526672 A JP 2023526672A JP 2023526672 A JP2023526672 A JP 2023526672A JP 2023548512 A JP2023548512 A JP 2023548512A
Authority
JP
Japan
Prior art keywords
domain
video
features
cross
modality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023526672A
Other languages
English (en)
Inventor
イ-シューアン ツァイ、
シアン ユ、
ビンビン ズオン、
マンモハン チャンドラカー、
ドンヒュン キム、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2023548512A publication Critical patent/JP2023548512A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

ビデオ方法及びシステムは、第1のドメインにおけるラベル付けされた第1の訓練データセット及び第2のドメインにおけるラベル付けされていない第2の訓練データセットから、第1のモダリティ及び第2のモダリティの特徴を抽出する(204/206)ことを含む。ビデオ分析モデルは、クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数の最適化を含む、抽出された特徴に対する対照学習を用いて訓練される(218)。【選択図】図1

Description

この出願は、2021年11月8日に出願された米国特許出願第17/521,057号、2020年11月10日に出願された米国特許仮出願第63/111,766号、2020年11月13日に出願された米国特許仮出願第63/113,464号及び2020年11月16日に出願された米国特許仮出願第63/114,120号を基礎とする優先権を主張し、それぞれの開示の全てをここに取り込む。
本発明は、ビデオデータ分析に関し、より詳細には、ビデオドメイン間の情報転移に関する。
ビデオには、ラベル付けされた訓練データで訓練された機械学習システムを利用してラベル付けされる場合がある。訓練データは、第1のドメインに応じてラベル付けされる。但し、このような訓練されたモデルを別のラベルの無いドメインに適用すると、ドメインの違いによりパフォーマンスが低下することがある。
ビデオ方法は、第1のドメインにおけるラベル付けされた第1の訓練データセット及び第2のドメインにおけるラベル付けされていない第2の訓練データセットから、第1のモダリティ及び第2のモダリティの特徴を抽出することを含む。ビデオ分析モデルは、クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数の最適化を含む、抽出された特徴に対する対照学習を用いて訓練される。
ビデオ方法は、第1の視点から得られたビデオに関連する、第1のドメインにおけるラベル付けされた第1の訓練データセット、並びに第2の異なる視点から得られたビデオに関連する、第2のドメインにおけるラベル付けされていない第2の訓練データセットから、第1のモダリティ及び第2のモダリティの特徴を抽出することを含む。ビデオ分析モデルは、抽出された特徴に対する対照学習を用いて訓練される。ビデオ分析モデルを訓練することは、ビデオ分析モデルを用いて、ラベル付けされていない訓練データセットの疑似ラベルを生成し、同じドメインにおける異なるキュータイプの特徴を比較する、クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数を最適化することを含む。
ビデオシステムは、ハードウェアプロセッサと、コンピュータプログラムを格納するメモリとを含む。ハードウェアプロセッサによって実行されると、コンピュータプログラムは、ハードウェアプロセッサに、第1のドメインにおけるラベル付けされた第1の訓練データセット及び第2のドメインにおけるラベル付けされていない第2の訓練データセットから、第1のモダリティ及び第2のモダリティの特徴を抽出させ、クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数の最適化を含む、抽出された特徴に対する対照学習を用いて、ビデオ分析モデルを訓練させる。
これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。
図1は、本発明の一実施形態による、様々なドメインで得られたシーンのビデオを比較する図である。
図2は、本発明の一実施形態による、ラベル付けされた訓練データとラベル付けされていない訓練データとの組み合わせを用いてビデオ分析モデルを訓練するための方法のブロック/フロー図である。
図3は、本発明の一実施形態による、ラベル付けされた訓練データとラベル付けされていない訓練データとの組み合わせを用いて訓練されたモデルを用いてビデオ情報を分析して応答するための方法のブロック/フロー図である。
図4は、本発明の一実施形態による、ビデオ分析モデルを訓練することが可能であり、訓練されたモデルを用いてビデオ分析を実行できるコンピューティング装置のブロック図である。
図5は、本発明の一実施形態による、ラベル付けされた訓練データとラベル付けされていない訓練データとの組み合わせを用いてビデオ分析モデルを訓練するためのコンピュータプログラムのブロック図である。
図6は、本発明の一実施形態による、ニューラルネットワークのアーキテクチャを示す図である。
図7は、本発明の一実施形態による、深層ニューラルネットワークのアーキテクチャを示す図である。
第1のドメインにおけるラベル付けされたソース訓練データからの情報は、ラベル付けされていない第2のドメインにおける訓練データに転移できる。第2のドメインにおいて手間を要するアノテーションを行うことなく、両方のドメインでダウンストリームビデオ分析を実行できる。このようにして、第1のドメインにおける訓練ドメインの既存のコーパス(例えば、三人称視点ビデオ)を用いて、訓練データの取得及びアノテーションの付与が簡単ではない、一人称視点ビデオ、無人航空ビデオ及び無人地上車両等のドメインにおいてビデオ分析システムを訓練できる。この情報転移は、教師無しの対照学習を用いて実行できる。
ビデオ分析は、ビデオフレームを連続的かつ動的に取得する際に複雑な背景情報を処理する。例えば、カメラの動き、体の動き及び多様な背景により、ビデオ分析が複雑になることがある。その結果、ビデオ分析のための効果的な特徴表現を学習することが困難になる。あるドメインから別のドメインに変更すると、背景の挙動及び外観が大幅に変わり、訓練された機械学習システムが新しいドメインを処理するのが困難になる。但し、ドメイン適応における情報転移の特徴表現を強化するために、ビデオから複数のキューを抽出できる。
ここで図1を参照すると、図1には、異なるビジュアルドメインの比較例が示されている。単一のシーン102が、3つの異なる場所から視認されている。一人称視点106では、人104が自身の視点からビデオ情報を収集する。これは、例えばウェアラブルビデオカメラまたは携帯型の電子装置を用いて実行できる。一人称視点106は、シーン102の周囲の意図的な移動によるか、人の体の無意識の動きによるかに関係なく、人104の動きにより影響を受ける。
三人称視点110では、固定ビデオカメラ108(例えば、セキュリティカメラ)が高い位置からビデオデータを取得できる。これにより、三人称視点110にシーン102の斜視図を与えることが可能になり、上から及び横からの視界を提供する。さらに、ビデオカメラ108は所定の位置で固定されるため、三人称視点110は、シーン102に対する動きを含まなくてもよい。
上から見下ろす視点114では、航空カメラを有人または無人の航空機112に取り付ければよく、上からのシーン102の視界を提供する。航空機112は、シーン102から大きく離れていてもよく、シーン102に対して動いていてもよい。
これらの場合のそれぞれにおいて、ビデオデータが取得される方法、並びにビデオカメラの位置及び方向は、取得されるシーン102に関する実質的に異なる情報をもたらす。そのため、1つのドメインで取得されたデータで訓練された機械学習システムは、第2のドメインのデータが全く同じシーンから取得されたものであっても、第2のドメインで取得されたビデオデータを認識しないことがある。
取得されたビデオコンテンツは、例えば、ロウ(raw)画像及びオプティカルフローからそれぞれ抽出された外観キュー及びモーションキューを用いてアノテーションが付与される。これらのキューは、シーン102内の被写体による動作を認識する等、ビデオに関する情報を抽出するために利用できる。複数のキューは、教師なし対照学習を用いてブリッジされていてもよい。そのため、キューは、まず第1のドメインでビデオデータから学習され、次にビデオ分析タスクの全体的なパフォーマンスを向上させるために互いに関連付けられる。
与えられたビデオにおいて、外観キューまたはモーションキューのいずれかがビデオ分析タスクからの同じ出力につながる可能性がある。すなわち、例えば、動作認識は外観または動きに基づくことができる。これらの2つのキューから抽出された特徴は、特徴をジョイント潜在空間に投影するときに類似する。例えば、ビデオにおける動作が「ランニング」である場合、外観キューも「ランニング」特徴にマッピングすべきである。例えば、外観キューがバスケットボールコートに片足をおく人を示す場合、モーションキューは人の動きを認識する。対照的に、このビデオを別の異なるビデオと比較すると、コンテンツまたは動作クラスが異なり、外観キューまたはモーションキューから抽出される特徴も異なる。そのため、与えられたビデオにおいて、外観キューとモーションキューは共有潜在空間における同様の特徴にマッピングされるはずであるが、これらの特徴は別のビデオに見られる特徴とは大きく異なる場合がある。この特性は、対照学習のための教師なしオブジェクティブとして使用できる。
対照学習では、ミニバッチ内でポジティブサンプルとネガティブサンプルを選択し、ドメイン全体またはキュータイプ全体で特徴を対比できる。本明細書において、
Figure 2023548512000002
は、ソースビデオの外観及びモーション特徴を表し、
Figure 2023548512000003
は、ターゲットビデオの外観及びモーション特徴を表す。そのため、クロスタイプの特徴は
Figure 2023548512000004
であり、クロスドメインの特徴は
Figure 2023548512000005
である。これらのキュータイプは、本明細書ではモダリティとも呼ぶ。そのため、2つの異なるタイプの特徴を比較することをクロスモダリティ比較と呼ぶことがある。
2種類の対照損失関数(contrastive loss function)を使用できる。第1の対照損失関数は、各タイプを1つの視点と見なすクロスタイプ損失を含む。ソースドメインとターゲットドメインの両方のビデオ特徴は、特徴が同じビデオから抽出されたか否かに基づいて対比される。そのため、与えられたビデオにおいて、1つのポジティブペアはFa及びFmになる。
第2の対照損失関数は、異なるドメインからの各タイプの特徴を対比するクロスドメイン損失である。ターゲットドメインでは動作ラベルを使用できないため、疑似ラベルが生成され、ターゲットビデオ用のポジティブサンプルとネガティブサンプルが決定される。ラベルは、訓練中のモデルによって生成される。例えば、外観及びモーション分類器の予測が与えられた場合、それらの予測を平均して最終的な予測を提供できる。場合によっては、疑似ラベルプロセスを開始する前に幾つかの訓練エポックを実行し、分類器が使用される前に何らかの訓練を受けることができる。
そのため、ソースビデオVs及び動作ラベルYsを含むソースデータセットが与えられると、動作認識モデルは、Vsのドメインとは異なるドメインであるターゲットビデオVtにラベル付けするように訓練される。例えば、ニューラルネットワークのアーキテクチャを用いて実施される、2ストリーム機械学習モデルを使用できる。このモデルは、ビデオの画像の外観及びフロー情報を入力として受け取り、外観特徴Fa及びモーション特徴Fmを出力して4つの異なる特徴空間
Figure 2023548512000006
を形成する。
2つの対照損失関数を用いて特徴を正則化できる。第1に、各タイプのビデオを視点として扱い、ソースビデオまたはターゲットビデオから外観及びフロー特徴を抽出する。複数の視点は、特徴が同じビデオに由来するか否かに基づいて対比され、同じビデオのクロスタイプ特徴を、異なるビデオから抽出された特徴よりも、埋め込み空間において互いに近づける。第2に、異なるドメインにあるが同じタイプ
Figure 2023548512000007
の特徴の場合、ビデオが同じ動作ラベルを共有するか否かに基づいて特徴を対比する。
各キュータイプは、それ自体の特徴特性を維持し、特に動作認識のようなビデオ分析タスクの場合、互いに補完し合うことができる。したがって、特徴
Figure 2023548512000008
は直接対比することができない。これは、特徴表現に悪影響を及ぼし、認識精度を低下させる。2つの異なるソースビデオi及びjからのソース特徴
Figure 2023548512000009
が与えられると、プロジェクションヘッドが適用可能であり。損失関数は次のように記述できる。
Figure 2023548512000010
ここで、
Figure 2023548512000011
は、以下の温度パラメータτ及びプロジェクションヘッドh(・)
Figure 2023548512000012
を伴う特徴
Figure 2023548512000013
との間のポジティブ/ネガティブペアの類似度の値を表す。
クロスタイプ対応を学習するために、同様の損失関数
Figure 2023548512000014
を用いることが可能であり、ポジティブサンプルは異なるタイプからのみ選択される。ターゲットビデオの場合、別の損失関数
Figure 2023548512000015
で同じプロジェクションヘッドh(・)を使用できる。ここで、φtは次のように定義できる。
Figure 2023548512000016
ソースドメイン及びターゲットドメインのそれぞれにおいて、
Figure 2023548512000017
を組み合わせることで、ラベル付けされていないターゲットビデオの特徴正則化として機能する埋め込み空間において、同じビデオにおける異なるタイプの特徴が、より近くに共に配置される。
クロスタイプ正則化に加えて、4つの特徴空間の間の相互作用が、クロスドメインサンプルの対照学習オブジェクティブを用いてさらに利用される。外観キューを例にとると、特徴
Figure 2023548512000018
を使用できる。ポジティブサンプルは、ドメイン間で同じラベルが付与されたビデオを見つけることで決定できる。但し、ターゲットドメインのビデオにはラベルが提供されないため、予測スコアに基づいて疑似ラベルが生成される。正則化の目的のために、しきい値のスコアを超えるラベルをターゲットビデオに適用できる。ソースビデオとターゲットビデオにおいて、同じラベルを有するサンプルを選択できる。
両方のタイプを組み合わせたソース及びターゲット特徴が与えられると、損失関数は次のように定義される。
Figure 2023548512000019
ここで、
Figure 2023548512000020
は、ソースビデオセットsiに関して、疑似ラベルで決定されるポジティブ/ネガティブのターゲットビデオセットを示す。項
Figure 2023548512000021
は、特徴
Figure 2023548512000022
間の類似度の値である。
クロスドメイン特徴正則化に関して、追加のプロジェクションヘッドを用いても、モデルのパフォーマンスに影響はなく、省略してもよい。この目的関数は、埋め込み空間内で同じラベルを有する特徴を互いに近づける。
上記の損失関数は、次のように組み込むことができる。
Figure 2023548512000023
ここで、
Figure 2023548512000024
はソースビデオVsの動作ラベルYsのクロスエントロピー損失である。
Figure 2023548512000025
はビデオVtの一連の疑似ラベルであり、λはクロスモダリティ損失とクロスドメイン損失のバランスを取るための重みである。上記のように、
Figure 2023548512000026
は、同じ損失形式を用いて実施できるが、ドメイン毎に異なるプロジェクションヘッドを使用する。一方、
Figure 2023548512000027
は、2つのドメインから同時にビデオを取得し、外観特徴及びモーション特徴に関して同じ形式である。
訓練の繰り返し毎にビデオセットVs及びVtから全ての特徴を計算するのではなく、特徴をそれぞれのメモリ
Figure 2023548512000028
に格納できる。バッチにおける特徴が与えられると、ポジティブ及びネガティブ特徴に関して、例えば、
Figure 2023548512000029

Figure 2023548512000030
に置き換えられる等、ポジティブ及びネガティブ特徴が引き出される。メモリバンク特徴は、繰り返し毎の最後にバッチにおける特徴で更新される。例えば、次のようなモーメンタム更新を使用できる。
Figure 2023548512000031
ここで、δは、例えば0.5等のモーメンタム項である。他のメモリも同様に更新できる。モーメンタムの更新により、訓練ダイナミクスの平滑性が促進される。訓練プロセス中に、ビデオクリップ内の連続するフレームがランダムにサンプリングされる場合がある。これらのメモリを用いることで、モデルは特徴学習の時間的な平滑性を促進する。
ここで図2を参照すると、図2には、対照訓練を用いてビデオ分析モデルを訓練する方法が示されている。ブロック202は、入力ビデオを受け取り、ビデオからモーション情報を生成する。例えば、ブロック202は、ビデオフレーム内のオブジェクトを識別し、検出したオブジェクトの位置を、前または後のフレームにおける類似のオブジェクトと比較する。場合によっては、このモーション情報は、ビデオセットの一部として提供される。ビデオには、ラベル付けされたソースビデオとラベル付けされていないターゲットビデオが含まれる。
ブロック204は、例えば外観特徴抽出モデルを用いて、ソース及びターゲットビデオから外観特徴を抽出する。ブロック206は、例えばモーション特徴抽出モデルを用いて、ソース及びターゲットビデオからモーション特徴を抽出する。外観及びモーション特徴が具体的に示しているが、代わりに任意の適切な特徴セットを使用できることを理解されたい。
ブロック208は、ターゲットビデオ用の疑似ラベルを生成する。これにより、同様のラベルを有する異なるドメインのビデオとの比較に使用できるラベルが提供される。ブロック210は、ソースビデオのモーション損失を決定し、ブロック212は、ターゲットビデオのモーション損失を決定する。ブロック214は、クロスドメイン損失を決定し、異なるドメインのビデオの同様の特徴を対比する。ブロック216は、クロスエントロピー損失を決定する。ブロック218は、ソースモーション損失、ターゲットモーション損失、ドメイン損失及びクロスエントロピー損失の組み合わせにより、外観畳み込みニューラルネットワーク(CNN)及びモーションCNNのモデルパラメータを更新する。
ここで図3を参照すると、図3には、ビデオ分析を実行する方法が示されている。ブロック302は、訓練データのセットを用いてモデルを訓練する。訓練データのセットには、第1のドメインからのラベル付けされたデータと、第2のドメインからのラベル付けされていないデータとが含まれる。上記で詳細に説明したように、訓練では、モデルを訓練してビデオを潜在空間に埋め込むために対照学習を用いる。ここでは、異なるドメインからの同様にラベル付けされたビデオが互いに近くに配置され、与えられた視点と異なる視点が互いに近くに配置される。このようにして、ラベル付けされていないドメインからの訓練データを、時間を要するデータのラベル付けプロセス無しで使用できる。
ランタイム中、ブロック304は、訓練されたモデルを用いて新しいデータを分析する。例えば、新しいビデオデータが提供され、そのビデオデータにラベルが付与される。ブロック306は、決定されたラベルに基づいて応答動作を実行する。例えば、動作認識を監視及びセキュリティアプリケーションに用いて、人が許可されていない場所に行ったり、関わる権限がないものに触れたりした場合など、異常な活動を認識できる。動作認識は、身振りでスマートホーム装置を制御できるスマートホームアプリケーションにも使用できる。動作認識は、患者と治療機器との相互作用や薬の使用を監視できるヘルスケアアプリケーションにも使用できる。動作認識は、選手の行動を認識して自動的に分析できるスポーツ分析アプリケーションにも使用できる。
図4は、本発明の一実施形態による例示的なコンピューティング装置400を示すブロック図である。コンピューティング装置400は、屋内シーンのトップダウン型のパラメトリック表現を識別し、シーンを用いたナビゲーションを提供するように構成されている。
コンピューティング装置400は、コンピュータ、サーバ、ラックベースのサーバ、ブレードサーバ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイルコンピューティング装置、ウェアラブルコンピューティング装置、ネットワークアプライアンス、Webアプライアンス、分散コンピューティングシステム、プロセッサベースのシステム及び/または家庭用電化製品を含むがこれらに限定されない、本明細書に記載された機能を実行できる任意のタイプの計算装置またはコンピュータ装置で具現化される。追加または代替として、コンピューティング装置400は、1つまたは複数の計算スレッド、メモリスレッドまたは他のラック、スレッド、計算シャーシ、あるいは物理的に分散されたコンピューティング装置の他のコンポーネントで具現化されてもよい。
図4で示すように、コンピューティング装置400は、プロセッサ410、入出力サブシステム420、メモリ430、データ記憶装置440、通信サブシステム450及び/またはサーバまたは同様の計算で一般的に見られる他のコンポーネント及び装置を例示的に含む。コンピューティング装置400は、他の実施形態において、サーバコンピュータに一般的に見られるコンポーネント(例えば、様々な入力/出力装置)等、他のコンポーネントまたは追加のコンポーネントを含んでいてもよい。さらに、いくつかの実施形態において、例示的な構成要素のうちの1つまたは複数を、別の構成要素に組み込むか、または別の構成要素の一部を形成してもよい。例えば、メモリ430またはその一部は、いくつかの実施形態において、プロセッサ410に組み込まれていてもよい。
プロセッサ410は、本明細書に記載の機能を実行できる任意のタイプのプロセッサで具現化してもよい。プロセッサ410は、単一のプロセッサ、複数のプロセッサ、中央処理装置(CPU)、グラフィックス処理装置(GPU)、シングルまたはマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラまたは他のプロセッサまたは処理/制御回路で具現化してもよい。
メモリ430は、本明細書に記載の機能を実行できる任意のタイプの揮発性または不揮発性メモリまたはデータ記憶装置で具現化してもよい。動作中、メモリ430は、オペレーティングシステム、アプリケーション、プログラム、ライブラリ及びドライバ等、コンピューティング装置400の動作中に使用される様々なデータ及びソフトウェアを格納できる。メモリ430は、I/Oサブシステム420を介してプロセッサ410に通信可能に接続され、これはプロセッサ410、メモリ430及びコンピューティング装置400の他のコンポーネントとの入出力動作を容易にする回路及び/またはコンポーネントで具現化される。例えば、I/Oサブシステム420は、メモリコントローラハブ、入力/出力制御ハブ、プラットフォームコントローラハブ、統合制御回路、ファームウェア装置、通信リンク(例えば、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板トレース等)及び/または入出力操作を容易にするその他のコンポーネント及びサブシステムで具現化されてもよく、あるいは含んでいてもよい。いくつかの実施形態において、I/Oサブシステム420は、システムオンチップ(SOC)の一部を形成してもよく、プロセッサ410、メモリ430及びコンピューティング装置400の他の構成要素と共に、単一の集積回路チップに組み込まれていてもよい。
データ記憶装置440は、例えば、メモリ装置及び回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブまたはその他のデータ記憶装置等、データの短期または長期の記憶のために構成された任意のタイプの装置または複数の装置で具現化できる。データ記憶装置440は、例えばラベル付けされた及びラベル付けされていない訓練データを用いてビデオ分析モデルを訓練するためのプログラムコード440Aと、訓練されたモデルを用いてビデオ分析を実行するためのプログラムコード440Bとを格納できる。コンピューティング装置400の通信サブシステム450は、ネットワークを介してコンピューティング装置400と他のリモート装置との間の通信を可能にする、任意のネットワークインタフェースコントローラまたは他の通信回路、装置、若しくはそれらの集合で具現化される。通信サブシステム450は、任意の1つまたは複数の通信技術(例えば、有線または無線通信)及び関連するプロトコル(例えば、イーサネット、InfiniBand(登録商標)、Bluetooth(登録商標)、Wi-Fi(登録商標)、WiMAXなど)を用いて、そのような通信を行うように構成される。
示されるように、コンピューティング装置400は、1つまたは複数の周辺装置460を含んでいてもよい。周辺装置460は、任意の数の追加の入力/出力装置、インタフェース装置及び/または他の周辺装置を含んでいてもよい。例えば、幾つかの実施形態において、周辺装置460は、ディスプレイ、タッチスクリーン、グラフィック回路、キーボード、マウス、スピーカシステム、マイクロフォン、ネットワークインタフェース及び/または他の入出力装置、インタフェース装置、ビデオキャプチャ装置及び/または周辺機器を含んでいてもよい。
もちろん、コンピューティング装置400は、当業者であれば容易に思いつくような他の要素(図示せず)を含むことも、特定の要素を省略することもできる。例えば、当業者には容易に理解されるように、特定の実施に応じて、様々な他のセンサ、入力装置及び/または出力装置をコンピューティング装置400に含んでいてもよい。例えば、様々なタイプの無線及び/または有線入力及び/または出力装置を利用できる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリ等を利用することもできる。処理システム400のこれら及び他の変形例は、本明細書で提供される本発明の教示を考慮すれば、当業者に容易に考えられる。
ハードウェアプロセッササブシステムのこれら及び他の変形例も、本発明の実施形態により考えられる。
ここで図5を参照すると、図5には、モデル訓練440Aに関する追加の詳細が示されている。モデルは、入力ビデオの外観特徴を処理する外観CNN502と、入力ビデオのモーション特徴を処理するモーションCNN504とを含む。対照学習510は、第1のドメインにおけるラベル付けされた訓練データ506と、第2のドメインにおけるラベル付けされていない訓練データ508とを用いて、外観CNN502及びモーションCNN504を訓練する。
モデルは、人工ニューラルネットワークのアーキテクチャを用いて実施される。CNNは、入力に対するスライディング「ウィンドウ」を用いて情報を処理する。CNN層の各ニューロンには、各ウィンドウ位置に適用されるそれぞれの「フィルタ」がある。各フィルタは、例えば入力内のそれぞれのパターンを処理するように訓練される。CNNは、画像の様々な領域を通過するときに、個々の画素間の局所的な関係が、フィルタによって取得される画像の処理に特に役に立つ。CNN層のニューロンの出力には、それぞれのフィルタがスライディングウィンドウの値の各セットと一致したか否かを表す値のセットが含まれる。
ここで図6を参照すると、図6には、例示的なニューラルネットワークのアーキテクチャが示されている。階層型のニューラルネットワークでは、複数のノードが層形式で配置される。単純なニューラルネットワークは、ソースノード622の入力層620と、出力ノードとしても機能する1つまたは複数の計算ノード632を備える単一の計算層630とを有する。計算層630には、入力例を分類できると考えられるカテゴリ毎に1つのノード632がある。入力層620は、入力データ610におけるデータ値612の数に等しい数のソースノード622を有する。入力データ610のデータ値612は、列ベクトルとして表すことができる。計算層の各計算ノード630は、入力ノード620に供給される入力データ610から重み値の線形結合を生成し、総和に対して微分可能な非線形な活性化関数を適用する。単純なニューラルネットワークは、線形に分離可能な例(パターン等)の分類を実行できる。
ここで図7を参照すると、図7には、深層ニューラルネットワークのアーキテクチャが示されている。多層パーセプトロンとも呼ばれる深層ニューラルネットワークは、ソースノード622の入力層620と、1つまたは複数の計算ノード632を含む1つまたは複数の計算層630と、出力層640とを有する。出力層640には、入力例を分類できるカテゴリ毎に1つの出力ノード642がある。入力層620は、入力データ610におけるデータ値612の数に等しい数のソースノード622を有する。計算層630の計算ノード632は、ソースノード622と出力ノード642との間にあり、直接観察されないため、隠れ層とも称される。計算層の各ノード632、642は、前段の層のノードから出力された値から重み値の線形結合を生成し、総和に対して微分可能な非線形な活性化関数を適用する。前段の各ノードからの値に適用される重みは、例えば、w1、w2、wn-1、wnで表すことができる。出力層は、入力データに対するネットワーク全体の応答を提供する。深層ニューラルネットワークは、計算層の各ノードを前段の層の全ての他のノードと接続する、全結合としてもよい。ノード間のリンクが欠落している場合、ネットワークは部分的に接続されていると見なされる。
深層ニューラルネットワークの訓練には、各ノードの重みが固定され、入力がネットワークを経由して伝搬する順方向フェーズと、エラー値がネットワークを経由して逆方向に伝搬する逆方向フェーズの2つのフェーズを含む。
1つまたは複数の計算(隠れ)層630における計算ノード632は、特徴空間を生成する入力データ612に対して非線形変換を実行する。クラスまたはカテゴリの特徴空間は、オリジナルのデータ空間よりも簡単に分離できる。
図6及び図7のニューラルネットワークのアーキテクチャは、例えば、図5で示されたモデルのいずれかを実施するために用いられる。ニューラルネットワークを訓練するために、訓練データを訓練セットとテストセットに分けることができる。訓練データには、入力と既知の出力のペアが含まれる。訓練中、訓練セットの入力は、フィードフォワード伝搬を用いてニューラルネットワークに供給される。各入力の後、ニューラルネットワークの出力が、それぞれの既知の出力と比較される。ニューラルネットワークの出力とその特定の入力に関連付けられている既知の出力との不一致を用いてエラー値が生成される。エラー値はニューラルネットワークを通して逆伝播され、その後、ニューラルネットワークの重み値が更新される。このプロセスは、訓練セットにおける上記ペアが無くなるまで継続する。
本明細書に記載する実施形態は、全てハードウェアで実現してもよく、全てソフトウェアで実現してもよく、ハードウェアとソフトウェアの両方の要素を含んでいてもよい。好ましい実施形態において、本発明は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むが、これらに限定されないソフトウェアでも実現可能である。
実施形態には、コンピュータ若しくは任意の命令実行システムによって使用される、または関連して使用されるプログラムコードを提供する、コンピュータで使用可能な、またはコンピュータで読み取り可能な媒体からアクセスできる、コンピュータプログラム製品を含んでもいてよい。コンピュータで使用可能な、またはコンピュータで読み取り可能な媒体には、命令実行システム、機器、若しくは装置によって使用される、または関連して使用されるプログラムを格納、伝達、伝搬または転移する任意の機器を含んでいてもよい。該媒体は、磁気媒体、光学媒体、電子媒体、電磁気媒体、赤外線媒体または半導体システム(または機器もしくは装置)、あるいは伝搬媒体であってもよい。該媒体には、半導体または固体メモリ、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク及び光ディスク等のコンピュータで読み取り可能な媒体を含んでいてもよい。
各コンピュータプログラムは、汎用または特別な目的を持つプログラム可能なコンピュータで読み取ることができる、機械で読み取り可能なストレージメディアまたは装置(例えば、プログラムメモリまたは磁気ディスク)に格納される。該コンピュータプログラムは、ストレージメディアまたは装置から本明細書に記載された手順を実行するコンピュータで読み出される、該コンピュータの設定及び制御動作のためのものである。本発明のシステムには、本明細書に記載した機能を実行する、特定の及び事前に定義された方法をコンピュータに動作させるように構成されたコンピュータプログラムを含む、コンピュータで読み取り可能なストレージメディアも考慮される。
プログラムコードを格納及び/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接または間接的に接続された少なくとも1つのプロセッサを備えていてもよい。このメモリ要素には、処理の実行中にバルクメモリ装置からコードが検索される回数を減らすために、プログラムコードの実際の実行中に用いられるローカルなメモリ、バルクメモリ装置及び少なくともいくつかのプログラムコードを一時的に記憶するキャッシュメモリを備えていてもよい。入出力またはI/O装置(限定されるものではないが、キーボード、ディスプレイ、ポインティング装置等を含む)は、直接またはI/Oコントローラを介してシステムに接続されてもよい。
ネットワークアダプタは、データ処理システムが、プライベートネットワークまたは公衆ネットワークを介して、他のデータ処理システムまたはリモートプリンタもしくはメモリ装置に接続されることを可能にするために、上記システムと接続されていてもよい。モデム、ケーブルモデム及びイーサネット(登録商標)カードは、現在利用可能なタイプのネットワークアダプタのほんの一例である。
本明細書で用いる「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態において、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行装置等)を含むことができる。1つまたは複数のデータ処理要素は、中央処理装置、グラフィックス処理装置及び/または個別のプロセッサまたはコンピューティング要素ベースのコントローラ(例えば、論理ゲート等)を含めることができる。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリ等)を含むことができる。任意の実施形態において、ハードウェアプロセッササブシステムは、オンボードまたはオフボードとすることができる、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)等)で用いるための専用の1つ以上のメモリを含むことができる。
任意の実施形態において、ハードウェアプロセッササブシステムは、1つ以上のソフトウェア要素を含み実行できる。1つ以上のソフトウェア要素は、特定の結果を達成するためにオペレーティングシステム及び/または1つ以上のアプリケーション及び/または特定のコードを含むことができる。
他の実施形態において、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用回路を含むことができる。そのような回路は、1つまたは複数の特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)及び/またはプログラマブルロジックアレイ(PLA)を含むことができる。
ハードウェアプロセッササブシステムのこれら及び他の変形例もまた、本発明の実施形態によって考えられる。
本明細書では本発明の「一実施形態」または「一実施形態」、ならびにその他の変形形態に言及し、実施形態に関連して説明した特定の機能、構成、特徴などが、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、「一実施形態において」または「一実施形態において」という語句の出現、並びに本明細書全体を通して様々な場所に出現する任意の他の変形形態は、必ずしも全てが同じ実施形態を参照しているわけではない。しかしながら、本明細書で提供される本発明の教示を前提として、1つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。
例えば、「A/B」、「A及び/またはB」、並びに「A及びBのうちの少なくとも1つ」の場合における「/」、「及び/または」、並びに「うちの少なくとも1つ」のうちのいずれかの使用は、第1に挙げた選択肢(A)のみの選択、第2に挙げた選択肢(B)のみの選択、または両方の選択肢(A及びB)の選択を含むことを意図したものと理解すべきである。さらに例を挙げれば、「A、B及び/またはC」、並びに「A、B及びCのうちの少なくとも1つ」の場合、このような表現法は、第1に挙げた選択肢(A)のみの選択、第2に挙げた選択肢(B)のみの選択、第3に挙げた選択肢(C)のみの選択、第1及び第2に挙げた選択肢(A及びB)のみの選択、第1及び第3に挙げた選択肢(A及びC)のみの選択、第2及び第3に挙げた選択肢(B及びC)のみの選択、または3つの選択肢全て(A及びB及びC)の選択を含むことを意図したものである。上述した例は、当業者に容易に明らかとなるように、列挙される多数の項目に応じて拡大適用される。
上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims (20)

  1. コンピュータで実施されるビデオ方法であって、
    第1のドメインにおけるラベル付けされた第1の訓練データセット及び第2のドメインにおけるラベル付けされていない第2の訓練データセットから、第1のモダリティ及び第2のモダリティの特徴を抽出するステップ(204/206)と、
    クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数の最適化を含む、前記抽出された特徴に対する対照学習を用いて、ビデオ分析モデルを訓練するステップ(218)と、
    を有するコンピュータで実施される方法。
  2. 前記ビデオ分析モデルを訓練するステップは、前記ラベル付けされていない訓練データセットのための疑似ラベルを生成することを含む、請求項1に記載のコンピュータで実施されるビデオ方法。
  3. 前記クロスドメイン正則化部は、前記第1の訓練データセットからの第1の訓練データと前記第2の訓練データセットからの第2の訓練データとを比較し、前記第2の訓練データは、第1の訓練データのラベルと一致する擬似ラベルを有する、請求項2に記載のコンピュータで実施される方法。
  4. 前記疑似ラベルは、前記ビデオ分析モデルによって生成される、請求項2に記載コンピュータで実施される方法。
  5. 前記クロスモダリティ正則化部は、同じドメインにおける異なるキュータイプの特徴を比較する、請求項1に記載のコンピュータで実施される方法。
  6. 前記異なるキュータイプは、外観特徴及びモーション特徴を含む、請求項5に記載のコンピュータで実施される方法。
  7. 前記第1のドメインは第1の視点から得られたビデオに関連し、前記第2のドメインは第2の異なる視点から得られたビデオに関連する、請求項1に記載のコンピュータで実施される方法。
  8. sをソースドメインにおけるビデオのセットとし、Vtをターゲットドメインにおけるビデオのセットとし、Ysを前記ソースビデオのラベルとし、
    Figure 2023548512000032
    を前記ターゲットビデオの疑似ラベルとし、
    Figure 2023548512000033
    を前記ソースビデオのクロスエントロピー損失とし、
    Figure 2023548512000034
    を前記ソースビデオのクロスモダリティ損失項とし、
    Figure 2023548512000035
    を前記ターゲットビデオのクロスモダリティ損失項とし、
    Figure 2023548512000036
    をクロスドメイン損失項とし、λをバランスパラメータとしたとき、
    前記損失関数が、
    Figure 2023548512000037
    で表される、請求項1に記載のコンピュータで実施される方法。
  9. 前記クロスドメイン損失項は、
    Figure 2023548512000038
    で表され、
    Figure 2023548512000039
    は、ポジティブサンプルのための、同じモダリティ及び異なるドメインの特徴間の類似度であり、
    Figure 2023548512000040
    は、ネガティブサンプルのための、同じモダリティ及び異なるドメインの特徴間の類似度である、請求項8に記載のコンピュータで実施される方法。
  10. 前記ソースビデオのクロスモダリティ損失項は、
    Figure 2023548512000041
    で表され、
    Figure 2023548512000042
    は、ポジティブサンプルのための、異なるモダリティ及び同じドメインの特徴間の類似度であり、
    Figure 2023548512000043
    は、ネガティブサンプルのための、異なるモダリティ及び同じドメインの特徴間の類似度である、請求項8に記載のコンピュータで実施される方法。
  11. コンピュータで実施されるビデオ方法であって、
    第1の視点から得られたビデオに関連する、第1のドメインにおけるラベル付けされた第1の訓練データセット、並びに第2の異なる視点から得られたビデオに関連する、第2のドメインにおけるラベル付けされていない第2の訓練データセットから、第1のモダリティ及び第2のモダリティの特徴を抽出するステップ(204/206)と、
    前記抽出された特徴に対する対照学習を用いて、ビデオ分析モデルを訓練するステップ(218)と、
    前記ビデオ分析モデルを用いて、前記ラベル付けされていない訓練データセットの疑似ラベルを生成するステップ(208)と、
    同じドメインにおける異なるキュータイプの特徴を比較する、クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数を最適化(218)するステップと、
    を有するコンピュータで実施される方法。
  12. ハードウェアプロセッサ(410)と、
    前記ハードウェアプロセッサで実行されると、前記ハードウェアプロセッサに、
    第1のドメインにおけるラベル付けされた第1の訓練データセット及び第2のドメインにおけるラベル付けされていない第2の訓練データセットから、第1のモダリティ及び第2のモダリティの特徴を抽出するステップ(204/206)と、
    クロスドメイン正則化部及びクロスモダリティ正則化部を含む損失関数の最適化を含む、前記抽出された特徴に対する対照学習を用いて、ビデオ分析モデルを訓練するステップ(218)と、
    を実行させるコンピュータプログラムを格納するメモリ(430)と、
    を有するビデオシステム。
  13. 前記コンピュータプログラムは、前記ハードウェアプロセッサに、さらに前記ラベル付けされていない訓練データセットのための疑似ラベルを生成させる、請求項12に記載のシステム。
  14. 前記クロスドメイン正則化部は、前記第1の訓練データセットからの第1の訓練データと前記第2の訓練データセットからの第2の訓練データとを比較し、前記第2の訓練データは、第1の訓練データのラベルと一致する擬似ラベルを有する、請求項13に記載のシステム。
  15. 前記疑似ラベルは、ビデオ分析モデルによって生成される、請求項13に記載のシステム。
  16. 前記クロスモダリティ正則化部は、同じドメインにおける異なるキュータイプの特徴を比較する、請求項12に記載のシステム。
  17. 前記異なるキュータイプは、外観特徴及びモーション特徴を含む、請求項16に記載のシステム。
  18. sをソースドメインにおけるビデオのセットとし、Vtをターゲットドメインにおけるビデオのセットとし、Ysを前記ソースビデオのラベルとし、
    Figure 2023548512000044
    を前記ターゲットビデオの疑似ラベルとし、
    Figure 2023548512000045
    を前記ソースビデオのクロスエントロピー損失とし、
    Figure 2023548512000046
    を前記ソースビデオのクロスモダリティ損失項とし、
    Figure 2023548512000047
    を前記ターゲットビデオのクロスモダリティ損失項とし、
    Figure 2023548512000048
    をクロスドメイン損失項とし、λをバランスパラメータとしたとき、
    前記損失関数が、
    Figure 2023548512000049
    で表される、請求項12に記載のシステム。
  19. 前記クロスドメイン損失項は、
    Figure 2023548512000050
    で表され、
    Figure 2023548512000051
    は、ポジティブサンプルのための、同じモダリティ及び異なるドメインの特徴間の類似度であり、
    Figure 2023548512000052
    は、ネガティブサンプルのための、同じモダリティ及び異なるドメインの特徴間の類似度である、請求項18に記載のシステム。
  20. 前記ソースビデオのクロスモダリティ損失項は、
    Figure 2023548512000053
    で表され、
    Figure 2023548512000054
    は、ポジティブサンプルのための、異なるモダリティ及び同じドメインの特徴間の類似度であり、
    Figure 2023548512000055
    は、ネガティブサンプルのための、異なるモダリティ及び同じドメインの特徴間の類似度である、請求項18に記載のシステム。
JP2023526672A 2020-11-10 2021-11-09 対照学習を用いたビデオドメイン適応 Pending JP2023548512A (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US202063111766P 2020-11-10 2020-11-10
US63/111,766 2020-11-10
US202063113464P 2020-11-13 2020-11-13
US63/113,464 2020-11-13
US202063114120P 2020-11-16 2020-11-16
US63/114,120 2020-11-16
US17/521,057 US20220147761A1 (en) 2020-11-10 2021-11-08 Video domain adaptation via contrastive learning
US17/521,057 2021-11-08
PCT/US2021/058622 WO2022103753A1 (en) 2020-11-10 2021-11-09 Video domain adaptation via contrastive learning

Publications (1)

Publication Number Publication Date
JP2023548512A true JP2023548512A (ja) 2023-11-17

Family

ID=81453488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023526672A Pending JP2023548512A (ja) 2020-11-10 2021-11-09 対照学習を用いたビデオドメイン適応

Country Status (3)

Country Link
US (4) US20220147761A1 (ja)
JP (1) JP2023548512A (ja)
WO (1) WO2022103753A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022183763A (ja) * 2021-05-31 2022-12-13 株式会社東芝 学習装置、方法およびプログラム
CN115859175B (zh) * 2023-02-16 2023-05-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于跨模态生成式学习的液压减震器设备异常检测方法
US11887367B1 (en) * 2023-04-19 2024-01-30 OpenAI Opco, LLC Using machine learning to train and use a model to perform automatic interface actions based on video and input datasets

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229479B (zh) * 2017-08-01 2019-12-31 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质
CN111598124B (zh) * 2020-04-07 2022-11-11 深圳市商汤科技有限公司 图像处理及装置、处理器、电子设备、存储介质

Also Published As

Publication number Publication date
US20240037186A1 (en) 2024-02-01
WO2022103753A1 (en) 2022-05-19
US20220147761A1 (en) 2022-05-12
US20240037188A1 (en) 2024-02-01
US20240037187A1 (en) 2024-02-01

Similar Documents

Publication Publication Date Title
Bayoudh et al. A survey on deep multimodal learning for computer vision: advances, trends, applications, and datasets
Islam et al. Multi-gat: A graphical attention-based hierarchical multimodal representation learning approach for human activity recognition
Liang et al. 3D convolutional neural networks for dynamic sign language recognition
Bhatti et al. Facial expression recognition of instructor using deep features and extreme learning machine
Neverova et al. Moddrop: adaptive multi-modal gesture recognition
Basly et al. CNN-SVM learning approach based human activity recognition
Asadi-Aghbolaghi et al. Deep learning for action and gesture recognition in image sequences: A survey
Khan et al. Human gait analysis for osteoarthritis prediction: A framework of deep learning and kernel extreme learning machine
Han et al. Strength modelling for real-worldautomatic continuous affect recognition from audiovisual signals
JP2023548512A (ja) 対照学習を用いたビデオドメイン適応
Caputo et al. SHREC 2021: Skeleton-based hand gesture recognition in the wild
Boualia et al. Pose-based human activity recognition: a review
Kallipolitis et al. Affective analysis of patients in homecare video-assisted telemedicine using computational intelligence
Lovanshi et al. Human skeleton pose and spatio-temporal feature-based activity recognition using ST-GCN
Usmani et al. Skeleton joint trajectories based human activity recognition using deep RNN
Samadiani et al. A novel video emotion recognition system in the wild using a random forest classifier
Karim et al. Understanding video transformers for segmentation: A survey of application and interpretability
Dornier et al. Scaf: Skip-connections in auto-encoder for face alignment with few annotated data
Imran et al. Three-stream spatio-temporal attention network for first-person action and interaction recognition
JP2023553630A (ja) キーポイントベースの行動位置特定
Escalera et al. Guest editors’ introduction to the special issue on multimodal human pose recovery and behavior analysis
Roselind Johnson et al. A Novel Parameter Initialization Technique Using RBM‐NN for Human Action Recognition
EP4158440A1 (en) Semi-supervised action-actor detection from tracking data in sport
Liu et al. A two-stream sign language recognition network based on keyframe extraction method
Mahbub et al. Contactless human monitoring: Challenges and future direction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230501

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240611