JP7471514B2 - 多様な人分析のための勾配分割によるマルチタスク学習 - Google Patents

多様な人分析のための勾配分割によるマルチタスク学習 Download PDF

Info

Publication number
JP7471514B2
JP7471514B2 JP2023514020A JP2023514020A JP7471514B2 JP 7471514 B2 JP7471514 B2 JP 7471514B2 JP 2023514020 A JP2023514020 A JP 2023514020A JP 2023514020 A JP2023514020 A JP 2023514020A JP 7471514 B2 JP7471514 B2 JP 7471514B2
Authority
JP
Japan
Prior art keywords
task
feature extractor
gradient
parameters
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023514020A
Other languages
English (en)
Other versions
JP2023540933A (ja
Inventor
ユミン ス、
シャオ ユ、
マスード ファラキ、
マンモハン チャンドラカー、
ウェイジャン デン、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2023540933A publication Critical patent/JP2023540933A/ja
Application granted granted Critical
Publication of JP7471514B2 publication Critical patent/JP7471514B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Description

この出願は、2020年10月21日に出願された米国仮特許出願第63/094,365号、2020年11月10日に出願された米国仮特許出願第63/111,662号、2020年11月15日に出願された米国仮特許出願第63/113,944号及び2021年10月7日に出願された米国特許出願第17/496,214号を基礎とする優先権を主張し、それぞれの開示の全てをここに取り込む。
本発明は、マルチタスク学習に関し、より具体的には、多様な人分析のための勾配分割によるマルチタスク学習に関する。
現実世界の問題の多くは、画像における人の広範囲な理解を必要とする。例えば、人々を追跡調査するカスタマイズされた広告システムは、複数のカメラにわたる再識別化を利用し、基本的な情報(性別や年齢等)を認識し、姿勢推定を用いて行動を分析し、最適な広告を作成する。近年、人の再識別化、歩行者の検出、人の姿勢推定等、人に関連する様々なタスクに関して目覚ましい進歩が見られる。一方で、個々のタスク毎に多くのアノテーション付きのデータセットが提案されている。しかしながら、それらのほとんどは単一のタスクを考慮しており、他の問題と共に調査する能力は無い。
多様な人分析にふさわしい勾配分割によるマルチタスク学習のための方法が提示される。本方法は、各データセットがそれぞれ1つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出し、特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに訓練データを供給し、特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるN個のグループに分割し、N個のグループの各グループにそれぞれ1つのタスクを割り当て、各タスクの損失がフィルタの1つのサブセットのみを更新するように、勾配を処理することを含む。
多様な人分析にふさわしい勾配分割によるマルチタスク学習のためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体が提示される。コンピュータで読み取り可能なプログラムがコンピュータで実行されると、コンピュータに、各データセットがそれぞれ1つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出させ、特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに訓練データを供給させ、特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるN個のグループに分割させ、N個のグループの各グループにそれぞれ1つのタスクを割り当てさせ、各タスクの損失がフィルタの1つのサブセットのみを更新するように、勾配を処理させる。
多様な人分析にふさわしい勾配分割によるマルチタスク学習のためのシステムが提示される。本システムは、メモリと、各データセットがそれぞれ1つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出し、特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに訓練データを供給し、特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるN個のグループに分割し、N個のグループの各グループにそれぞれ1つのタスクを割り当て、各タスクの損失がフィルタの1つのサブセットのみを更新するように、勾配を処理するように構成された、メモリと通信する1つまたは複数のプロセッサとを有する。
これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。
図1は、例示的な人分析パイプラインを示すブロック/フロー図である。
図2は、本発明の実施形態による、複数のデータセットを用いる訓練手順を含む例示的な人分析パイプラインを示すブロック/フロー図である。
図3は、本発明の実施形態による、例示的なモデル分割プロセスを示すブロック/フロー図である。
図4は、本発明の実施形態による、訓練アルゴリズムの例示的なパラメータ及びモデル更新を示すブロック/フロー図である。
図5は、本発明の実施形態による、共有バックボーン及びタスク固有ヘッドモジュールを含む、例示的なGradSplitフレームワークを示すブロック/フロー図である。
図6は、本発明の実施形態による、GradSplitのための2タスク訓練で使用される例示的な勾配テンソルを示すブロック/フロー図である。
図7は、本発明の実施形態による、GradSplitが重みを均一に分割し、各タスクの損失が1つの特定のフィルタグループのみに影響を与える方法を示すブロック/フロー図である。
図8は、本発明の実施形態による、多様な人分析のための勾配分割によるマルチタスク学習のための例示的な実際のアプリケーションを示す図である。
図9は、本発明の実施形態による、多様な人分析のための勾配分割によるマルチタスク学習のための例示的な処理システムを示す図である。
図10は、本発明の実施形態による、多様な人分析のための勾配分割によるマルチタスク学習のための例示的な方法を示すブロック/フロー図である。
例示的な実施形態は、個々のタスクにそれぞれアノテーションが付与されたデータセットを用いて、人に関連する複数のタスクを同時にまたは並行して解明する統合フレームワークを導入する。必要なフレームワークは、タスク全体で相互情報量を利用し、共有ネットワークアーキテクチャを用いてメモリと計算コストを節約する。但し、あるタスクにとって重要な勾配信号は、別のタスクにとって有害な情報になる可能性があり、共有ネットワークを学習するときに勾配のコンフリクトが発生する可能性がある。これにより、最適化の課題が発生し、全体的な性能が最適化されなくなる。例えば、姿勢の推定には姿勢に敏感な特徴量が必要であるが、人物の再識別化には姿勢の不変な特徴量が必要である。
この問題に対処するため、既存の方法は、タスク固有の特徴量を生成できるように、タスク固有モジュールを共有バックボーンに統合する。共有ネットワークは、人のタスクによるタスク固有の特徴量を学習することが推奨されるが、追加のモジュールを用いる代わりに、例示的な方法では慎重に設計された訓練スキームを用いてこれを達成する。具体的には、共有バックボーン内の各畳み込みモジュールにおいて、例示的な方法は、フィルタをN個のタスクのN個のグループに分離または分割する。訓練中、各グループは対応するタスク勾配によってのみ更新される。これは、更新中に勾配をグループに分離または分割するため、Gradient Split(または、GradSplit)と呼ばれる。
GradSplitは誤差逆伝播のプロセス中のフィルタにのみ適用されるが、順方向パスはベースラインと同じである。これにより少なくとも次の利点がもたらされる。まず、タスク固有のフィルタは、他のタスク固有のフィルタから生成された特徴量を受け取るため、他のタスクからの情報を引き続き利用できる。さらに、例示的な方法は、追加のパラメータまたは計算コストを導入しない。最後に、例示的な方法は、全てのタスクの損失からの勾配の比較が不要であり、そのため、特に複数の単一のアノテーションデータセットを扱う場合の訓練手順が簡素化する。別の貢献では、例示的な方法は、共有バックボーンにおける正規化層を分析することで強力なマルチタスクベースラインを提供する。これにより、複数のデータセットから学習する際のドメインギャップ問題が効果的に軽減される。
例示的な方法は、人に関連する複数のタスクを同時にまたは並行して解明する統合モデルを訓練することを目標とする。
例示的な方法は、共同タスクの損失Lを最小化する最適パラメータΘを求める。
Figure 0007471514000001
ここで、Tはタスクの数を表し、Ltはタスクの損失Ltを表す。マルチヘッドネットワークは、図5に関して後述するように、1つの共有バックボーンとタスク固有ヘッドを有すると仮定する。
マルチタスク学習のよく知られた問題は、タスクに矛盾がある場合(例えば、恒等不変特徴量対恒等可変属性)、共同最適化が準最適解につながることである。これを軽減するため、例示的な方法は、各タスクが他のタスクから干渉されることなくその本質的な特徴量を学習できるようにする、Gradient Split(またはGradSplit)と呼ばれる訓練スキームを提案する。各タスクの損失を用いて共有バックボーンの畳み込みの全てのフィルタを更新する代わりに、GradSplitは明確にフィルタのサブセットのみに影響を与えるようにする。
勾配分割(gradient split)に関して、
Figure 0007471514000002
によってパラメータ化された、入力チャネルciと出力チャネルcoとの畳み込みを考える。これにはcoフィルタが含まれており、各フィルタは1つの特徴量マップを生成する。ここで、hは高さを示し、wは幅を示す。先の方程式に基づいて、標準的な確率的勾配降下法は次のように定式化される。
Figure 0007471514000003
GradSplitは異なるタスクからの勾配を平均化するため、GradSplitは、タスクがコンフリクトの場合に有用な信号を相殺する可能性があり、性能を低下させる。
例示的な方法は、勾配のコンフリクトが無いように、勾配をタスク全体にわたって分割し、それらに異なるフィルタに適用する。T個のタスクが与えられると、例示的な方法はフィルタをT個のグループに分割し、各グループを明確に1つのタスクに割り当てる。例示的な方法は、t番目のタスクに割り当てられたパラメータを
Figure 0007471514000004
として示す。ここで、ntはタスクtに割り当てられた出力チャネルの数である。次に、GradSplit用いたパラメータ更新の1回の反復は、次のように定式化される。
Figure 0007471514000005
ここで、
Figure 0007471514000006
である。
したがって、GradSplitは、割り当てられたタスクのみからの勾配を用いてパラメータθtを更新し、他のタスクからの勾配は廃棄する。更新では、勾配がタスク全体で平均化されないため、1つのタスクが別のタスクに干渉することは無い。以下で説明する図6は、GradSplitで使用される勾配を示している。
GradSplitは、転送手順に影響を与えず、勾配更新手順のみに影響を与える。その結果、GradSplitは、ネットワーク構造を変更することなく、任意の畳み込み層に簡単に適用できる。例示的な方法は、GradSplitを、経験的に最良の性能をもたらす、共有バックボーンの最後の層(例えば、ResNet-50のLayer4)に適用する。各モジュールに関して、例示的な方法は、各グループが[co/T]フィルタを含むT個のグループにそのフィルタを均等に分割する単純な戦略を採用する。
正則化としてのGradSplitの直感的な理解に関して、タスク勾配の重み付けされた線形和としてのθtに関して、勾配を処理することを考慮する。
Figure 0007471514000007
t=1及びmt’=0(t≠t’)の場合、上式は、
Figure 0007471514000008
になる。mtが確率的バイナリマスクである場合、それはドロップアウト勾配と同等である。訓練中に勾配にノイズを注入するため、正則化効果が得られる。この処理は、ドロップレートp∈[0,1)の場合、特別に設計されたドロップアウトマスクを用いたGradDropと同等であることが分かる。
複数のタスク固有のデータセットを用いた訓練に関して、各データセットが単一タスクのアノテーションを含む実際の設定が想定される。この条件下において、モデルは、画像が、背景、照明、カメラの視野及び解像度に固有の視覚的特性を示す、複数のデータセットを用いて訓練される。
Figure 0007471514000009
は、さらに
Figure 0007471514000010
で特定される。
ここで、
Figure 0007471514000011
は、タスクtの損失関数及び予測関数を表す。
例示的な方法は、最適化のためにラウンドロビンのバッチレベル更新方式を採用する。1つのマルチタスクの繰り返しには、各タスクのバッチ転送とパラメータ更新のシーケンスが含まれる。様々なタスクに様々な入力サイズを許容するのに十分な柔軟性を有し、制約のあるグラフィックプロセッシングユニット(GPU)メモリでタスクの数にスケーリングすることもできる。これは、トリプレット損失等、バッチサイズが性能に影響する特定の損失関数で訓練する場合に役に立つ。
訓練データセット間のドメインギャップに関して、ラウンドロビンのバッチ構築を用いると、タスクtのミニバッチは、分布Dtからサンプリングされた画像を含む。
経験損失は、以下で計算される。
Figure 0007471514000012
ここで、
Figure 0007471514000013
は、タスクtに関してサンプリングされたミニバッチを表す。それと同時に、バッチ正規化(BN)には、EfficientNetやResNet等の最新式のネットワークアーキテクチャが広く採用されている。BNは、訓練中に実行中のバッチ統計を使用し、推論中に蓄積された統計を用いて独立同分布(iid)のミニバッチ仮定を使用することに注意されたい。データセット間のドメインギャップにより、ミニバッチ
Figure 0007471514000014
のタスクtの損失を計算するために使用される実行中のBN統計は、訓練中にタスク全体で異なる分布に従うが、一般的なBN統計はタスク全体で蓄積され、テスト段階で使用される。このような訓練段階とテスト段階の間のBN統計の不一致により、性能が大幅に低下することが見出された。
解決策の1つの候補として、残りの畳み込みパラメータを共有しつつ、異なるタスクに関して固有のBNモジュールを用いることで、タスク固有のBNが、この問題を軽減する。但し、最初のタスク固有のBNに続く特徴量はタスク間で共有できず、N個のタスクに対してN個の順方向パスが必要になるため、計算コストが増加する。もう1つの解決策は、訓練中にBN統計を修正することであるが、これもベースラインの性能を低下させる。その代わりに、例示的な方法は、共有バックボーンにおいてグループ正規化(GN)を使用する。これにより、上記の問題を回避することが可能であり、信頼できるベースラインが得られる。
図1は、例示的な人分析パイプラインを示すブロック/フロー図である。
訓練画像110は、入力訓練データに基づいて人分析システムのパラメータを更新する訓練アルゴリズム120に対する入力として使用される。訓練後、人分析システム130は、見知らぬ画像に対して使用することができる。
訓練データセット110に関して、人分析システムのための訓練データは、関心のあるタスクのためのアノテーションと共に画像のセットを含む。アノテーションの形式は、タスクによって異なる。例えば、各人物画像には、人物の再識別化タスクのために人物の身元がアノテーションとして付与される。姿勢推定タスクでは、主要なポイントのアノテーションが各画像に付与される。1つの主要な身体関節のアノテーションには、画像空間における座標とその視認性の2つの値が含まれる。1つの画像に対する各アノテーションは、例えば、肩、肘及び手首等の主要な身体関節に関するアノテーションを含む。
訓練アルゴリズム120に関して、モデルは、与えられた訓練データに基づいて調整する必要がある、パラメータを有する深層ニューラルネットワークである。損失関数は、グラウンドトゥルースと現在のモデルの予測との差が訓練データの特定の画像に関して測定されるように定義される。確率的勾配降下法(SGD:stochastic gradient descent)等の最適化手法を用いて、損失を低減する方向にモデルのパラメータを更新できる。
多様な人分析モデル/システム130に関して、訓練データ110を用いてニューラルネットワークモデルのパラメータを調整した後、システムは新しい画像に適用する準備ができている。与えられた画像について、多様な人分析システム130は、全てのタスクの出力を同時にまたは並行して戻す。
図2は、本発明の実施形態による、複数のデータセットを用いる訓練手順を含む、例示的な人分析パイプラインを示すブロック/フロー図である。
図2のパイプラインは、図1の標準パイプラインとは、人分析のために2つの点で異なる。第1に、訓練データ110は、タスク毎に1つずつのN個のデータセットを含む。1つのデータセットには、画像とタスクのアノテーションが含まれる。例えば、データセット1には、注釈付きの身元を備える人物の画像が含まれ、データセット2には、主要な身体の関節位置の注釈付きの人物画像が含まれる。第2に、複数のタスクを同時にまたは並行して実行するようにモデルを訓練する。タスク間の潜在的なコンフリクトに対処するため、例示的な方法は、モデルをタスク固有の部分と共有部分、すなわちモデル124と変更された訓練アルゴリズム122とに分割する。
図3は、本発明の実施形態による、例示的なモデル分割プロセスを示すブロック/フロー図である。
モデルは、2つの部分、すなわち特徴量抽出器125とタスク固有ヘッド140とを含む。特徴量抽出器125は、与えられた画像から特徴量マップを生成し、タスク固有ヘッド140は、特徴量マップに基づいてタスク予測を出力する。例示的な方法は、特徴量抽出器125を共有モジュール(またはコンポーネント)126とタスク固有モジュール(またはコンポーネント)128とにさらに分割する。タスク固有モジュール128の各層に関して、フィルタはN個のグループに分割され、各グループは1つのタスクに割り当てられる。この割り当ては、各フィルタの専門分野を特定し、訓練アルゴリズム120がこれらの専門分野を強化する方法でパラメータを更新するようにする。特徴量抽出器125は、全てのデータセットを用いて訓練され、タスク固有ヘッド140は、対応するタスクデータセットを用いて訓練される。
図4は、本発明の実施形態による、訓練アルゴリズムの例示的なパラメータ及びモデルの更新を示すブロック/フロー図である。
訓練中、例示的な方法は、モデル分割124に基づいてパラメータ更新150を修正し、モデル更新152を取得する。従来の訓練アルゴリズムでは、全てのタスクの損失の合計を最小化する方向に全てのパラメータが更新される。同じ更新手順は、124で定義された特徴量抽出器のタスク固有モジュールにおけるものを除いて、全てのパラメータに関して従来のアルゴリズムのように維持される。タスク固有モジュールのパラメータは、全てのタスクの損失の合計を最小化するのではなく、割り当てられたタスクのみの損失を最小化するように更新される。
図5は、本発明の実施形態による、共有バックボーン180及びタスク固有ヘッドモジュール140を含む、例示的なGradSplitフレームワーク160を示すブロック/フロー図である。
本発明の例示的な実施形態は、与えられたRGB画像における人の様々な属性を認識するタスクである視覚的な人分析を目的としている。人の姿勢推定は人分析の一例である。人の姿勢推定システムは、画像を入力として受け取り、頭、肩等の主要な身体関節の位置として表される、画像内の人物の姿勢を予測する。多様な人分析により、この例は人の姿勢推定を超えた様々なタスク(身元、性別、年齢認識等)に拡張される。人分析システムを訓練するには、システムが解明するタスク毎に十分な量の訓練データが必要である。
深層ニューラルネットワークは、各層が前の層の出力特徴量マップを入力として取得し、特徴量マップを出力する複数の順序層を含むシステムである。各層の出力または特徴量マップは、各位置の周囲に存在する特定の特性を表すいくつかの行列を含む3次元テンソルである。例えば、姿勢推定システムの最初の層は、RGB画像を入力として受け取り、エッジ、色、テクスチャ等の抽象的なレベルの低い視覚情報をエンコードする特徴量マップを出力する。より深い層は、各位置における身体部分の存在等、より抽象的なレベルの情報をエンコードする特徴量マップを出力する。各層には複数のフィルタが含まれており、1つのフィルタは前の層から特徴量マップを入力として取得し、2次元行列を出力する。その層における全てのフィルタからのこれらの行列は、出力特徴量マップに連結される。
1つの画像のいくつかの人関連のタスクを同時に実行するため、従来のシステムは、タスクの数に比例して増加した計算コスト及びメモリを必要とする。例えば、システムが人の識別とその姿勢の認識を同時に行う必要がある場合、従来の方法では、人を識別するシステムと姿勢を予測するシステムの2つのシステムが使用されていた。このアプローチでは、必要な計算とメモリのコストが増加するだけでなく、他のタスクから得られる有用な情報を活用できない。
それに対して、例示的な方法は、共有バックボーン180及びタスク固有ヘッドモジュール140を含む、図5のネットワークを導入する。勾配のコンフリクト問題を軽減するため、GradSplitは勾配を処理し、各タスクの損失がフィルタの1つのグループのみを更新し、タスク固有のフィルタ170を生成するようにする。順方向のフローは同じままであるのに対し、逆方向のフローのみが変更されることに注意されたい。入力162からの勾配は、対応するフィルタのみを更新するために使用される。このようにして、他のタスクの損失はコンフリクトな勾配を導入しない。
したがって、図5の例示的なアプローチは、計算コストと性能との間のトレードオフを軽減する。例示的なアプローチは、同等またはより優れた性能を達成しながら、単一のタスクシステム毎に同様の計算コストでRGB画像が与えられた人の多様な情報を予測できる。例示的なアプローチは、共通の特徴量抽出器を共有することで、タスク全体で有用な情報をさらに活用する。
一例として、自動チェックインのために人々を識別できる空港監視システムを考えてみる。感染症の拡大を予防するため、マスクを着用しているか否かをチェックする新しい機能をシステムに追加したい場合がある。さらに、乗客の性別及び年齢の分布を理解することで、サービスを最適化したい場合がある。上記のシナリオと同様に、タスク毎に1つずつ、複数のシステムを採用する必要がある。図5の例示的なアプローチは、複数のタスクを同時に効果的にかつ効率的に実行できる統合システムを用いることを可能にする。
図6は、本発明の実施形態による、GradSplitの2タスク訓練で使用される例示的な勾配テンソル200を示すブロック/フロー図である。
GradSplitの確率的勾配降下のための2タスク訓練で使用される勾配テンソル200の視覚的な例が示されている。畳み込みには、入力チャネルciと出力チャネルco、例えば
Figure 0007471514000015
が含まれる。GradSplitでは、タスクの損失Ltを用いて、対応するフィルタのみの勾配テンソルを計算する。GradSplitは、右側(例えば、タスクB)220から左側(例えば、タスクA)210を分離する分離線または分割線215を含む。
図7は、本発明の実施形態による、GradSplitが重みを均一に分割し、各タスクの損失が1つの特定のフィルタグループのみに影響を与える方法を示すブロック/フロー図である。
誤差逆伝播プロセス中、ベースラインモデル300では、各タスクの損失を用いて全ての重みを更新する。その結果、タスクAとタスクBとがコンフリクトを有し、重みの共有に混乱が生じる可能性がある。
誤差逆伝播中、GradSplitモデル310において、例示的な方法は、重みをN=2のグループに一様に分割する。したがって、各タスクの損失は、1つの特定のフィルタグループにのみ影響する。第1のフィルタグループG1には、最下位の重みまたは最下位のグループのみ(指定G1と水平に並べられた)が含まれる。第2のフィルタグループG2には、最上位のグループのみ(指定G2と水平に並べられた)の最上位の重みが含まれる。
結論として、本発明の例示的な実施形態は、慎重に設計された最適化法によりコンフリクトの問題を緩和する。例示的な実施形態は、エンコーダ及びデコーダを含むモデルを想定している。エンコーダは、全てのタスクにわたってその出力を共有する特徴量抽出器125である。デコーダは、特徴量抽出器125の出力を入力として受け取り、タスク固有の結果を予測するタスク固有ヘッド140を含む。
第1に、例示的な方法は、特徴量抽出器125の畳み込み層の最後の層または最も深い層のフィルタをN個のグループに分割し、各グループに1つのタスクを割り当てる。ここで、Nはタスクの数である。
第2に、例示的な方法は、割り当てられたタスクのみの損失を最小化するために各グループ内のパラメータ(150、図4)を更新しながら、N個のタスクの全体的な損失を最小化するためにパラメータ全体を更新することでネットワークを訓練する。
訓練手順をよりよく理解するために、タスクがA及びBである場合、特徴量抽出器の最後の層または最も深い層に10個のフィルタを有するシステムを考える。従来の訓練アルゴリズムでは、10個のフィルタを更新して、タスクAとBの損失の合計を最小化する。しかしながら、例示的な方法は、タスクAの損失を最小化するために最初の5つのフィルタを更新し、タスクBの損失を最小化するために残りの5つのフィルタを更新する。これにより、タスクAで特に必要な特徴量を予測するための最初の5つのフィルタが作成される。これらのフィルタは、入力として、前の層からタスクAとBの両方の特徴量を取得することに注意されたい。この訓練アルゴリズムは、割り当てられたタスクに固有の特徴量を学習するように各フィルタを明確に誘導することで、タスク間の潜在的なコンフリクトを回避する。同時に、システムがタスク全体で有用な特徴量を活用できるようにする。提案するシステムに必要な計算コスト及びメモリは、従来のマルチヘッドネットワークと同じであり、複数の単一タスクモデルを含むシステムよりもN分の1である。
したがって、例示的な実施形態は、人の再識別化、姿勢推定及び属性予測等の複数の人関連のタスクを同時にまたは並行して解明する統合深層ネットワークを訓練するアプローチを提示する。このようなフレームワークは、タスク全体の情報が制限された計算リソースで活用される可能性があるため、望ましいものである。但し、コンフリクトなタスクからの勾配の更新は互いにコンフリクトになる可能性があり、共有パラメータの最適化が困難になり、性能が最適化されない。例示的な実施形態は、そのような問題を効果的に軽減するGradSplitと呼ばれる訓練方式を導入する。各畳み込みモジュールにおいて、GradSplitは特徴量をN個のタスクのN個のグループに分離または分割し、対応するタスクのみからの勾配更新を用いて各グループを訓練する。訓練中、例示的な方法は、GradSplitを一連の畳み込みに適用する。その結果、各モジュールまたはコンポーネントは、前のモジュールと共有する特徴量を用いてタスク固有の特徴量のセットを生成するように訓練される。これにより、ネットワークは勾配のコンフリクトを回避しながら、タスク全体で補完的な情報を活用できる。
図8は、本発明の実施形態による、多様な人分析のための勾配分割を介したマルチタスク学習の実際のアプリケーションを示すブロック/フロー図である。
1つの実際の例において、カメラ802は、異なる性別で異なる姿勢のオブジェクトまたは人804、806を検出できる。例示的な方法は、特徴量抽出器125及びタスク固有ヘッド140を用いる勾配分割160によるマルチタスク学習を使用する。結果810(例えば、姿勢)は、ユーザ814により扱われるユーザインタフェース812に提供または表示できる。
図9は、本発明の実施形態による、多様な人分析のための勾配分割によるマルチタスク学習のための例示的な処理システムを示す図である。
処理システムは、システムバス902を介して他のコンポーネントと動作可能に接続された少なくとも1つのプロセッサ(CPU)904を含む。システムバス1002には、GPU905、キャッシュ906、読み取り専用メモリ(ROM)908、ランダムアクセスメモリ(RAM)910、入出力(I/O)アダプタ920、ネットワークアダプタ930、ユーザインタフェースアダプタ9400及び/またはディスプレイアダプタ960が動作可能に接続されている。さらに、Gradient Split160によるマルチタスク学習は、特徴量抽出器125及びタスク固有ヘッド140を用いることで採用できる。
記憶装置922は、I/Oアダプタ920によってシステムバス902と動作可能に接続されている。記憶装置922は、ディスク記憶装置(例えば、磁気または光ディスク記憶装置)、固体磁気装置等のいずれであってもよい。
トランシーバ932は、ネットワークアダプタ930によってシステムバス902に動作可能に接続されている。
ユーザ入力装置942は、ユーザインタフェースアダプタ940によってシステムバス902に動作可能に接続されている。ユーザ入力装置942は、キーボード、マウス、キーパッド、イメージキャプチャ装置、モーションセンシング装置、マイクロホン、あるいはこれらの装置のうちの少なくとも2つの装置の機能を組み込んだ装置等のいずれであってもよい。もちろん、本発明の原理の主旨を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置942は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置942は、処理システムに情報を入力し、処理システムから情報を出力するために使用される。
ディスプレイ装置952は、ディスプレイアダプタ950によってシステムバス902に動作可能に接続されている。
もちろん、処理システムは、当業者であれば容易に思いつくような他の要素(図示せず)を含んでもよく、特定の要素を省略することも可能である。例えば、当業者であれば容易に理解できるが、処理システムには、その特定の実装に応じて他の様々なタイプの入力装置及び/または出力装置を含むことができる。例えば、無線及び/または有線による様々な入力装置及び/または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成の追加プロセッサ、コントローラ、メモリ等を使用することも可能である。処理システムの上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。
図10は、本発明の実施形態による、多様な人分析のための勾配分割によるマルチタスク学習のための例示的な方法を示すブロック/フロー図である。
ブロック1001において、複数のデータセットを有する訓練データから画像を抽出する。各データセットはそれぞれ1つのタスクに関連付けられている。
ブロック1003において、訓練データを、特徴量抽出器及びタスク固有ヘッドを含むニューラルネットワークモデルに入力する。特徴量抽出器は、特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する。
ブロック1005において、特徴量抽出器の畳み込み層のより深い層のフィルタをN個のグループに分割する。Nはタスクの数である。
ブロック1007において、N個のグループの各グループにそれぞれ1つのタスクを割り当てる。
ブロック1009において、各タスクの損失がフィルタのサブセットを1つだけ更新するように勾配を処理する。
本明細書で用いる「データ」、「コンテンツ」、「情報」及び同様の用語は、様々な例示的な実施形態によって取得され、送信され、受信され、表示され、及び/または保存可能なデータを示すために、交換可能に使用できる。したがって、これらの用語の使用は、開示の主旨及び範囲を制限するものと解釈されるべきではない。さらに、本明細書に別の計算デバイスからデータを受信するための計算デバイスが記載されている場合、データは、別の計算デバイスから直接受信してもよく、1つ以上の中間計算デバイス、例えば1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局等を介して間接的に受信してもよい。同様に、本明細書にデータを別の計算デバイスに送信するための計算デバイスが記載されている場合、データは、別の計算データに直接送信してもよく、例えば、1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局及び/または同様のもの等の1つ以上の中間計算デバイスを介して間接的に送信してもよい。
当業者であれば理解するように、本発明の態様は、システム、方法またはコンピュータプログラム製品として実施してもよい。したがって、本発明の態様は、全体としてハードウェアの実施形態であってもよく、全体としてソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)であってもよく、本明細書において、一般に「回路」、「モジュール」、「計算機」、「装置」または「システム」と呼ぶことができる、ソフトウェアとハードウェアの態様を組み合わせた実施の形態を採用してもよい。さらに、本発明の態様は、コンピュータで読み取り可能なプログラムコードを有する、1つまたは複数のコンピュータで読み取り可能な媒体で具現化された、コンピュータプログラム製品の形態を採用してもよい。
1つまたは複数のコンピュータで読み取り可能な媒体の任意の組合せを用いてもよい。コンピュータで読み取り可能な媒体は、コンピュータで読み取り可能な信号媒体またはコンピュータで読み取り可能な記録媒体であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイス、あるいは前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体的な例(以下に限定されない)は、1つ以上のワイヤ、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯用コンパクトディスクリードオンリーメモリ(CD-ROM)、光データ記憶装置、磁気データ記憶装置または前述した任意の適切な組み合わせを含む。本文書のコンテキストにおいて、コンピュータで読み取り可能な記録媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、またはそれを記憶できる、任意の有形媒体であってもよい。
コンピュータで読み取り可能な信号媒体には、例えば、ベースバンドで、または搬送波の一部として、コンピュータで読み取り可能なプログラムコードが具現化された伝搬データ信号を含むことができる。そのような伝播信号は、電磁、光学またはそれらの任意の適切な組み合わせを含むが、それらに限定されない、任意の様々な形態がある。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記録媒体ではなく、命令実行システム、装置または装置によって、またはそれに関連して使用するためにプログラムを通信、伝播、または移送できる、任意のコンピュータ読み取り可能な媒体であってもよい。
コンピュータで読み取り可能な媒体で具現化されるプログラムコードは、無線、有線、光ファイバケーブル、RF等、あるいは前述した任意の適切な組合せを含むが、これらに限定されない、任意の適切な媒体を用いて送信される。
本発明の態様に関する処理を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++等のオブジェクト指向プログラミング言語及び「C」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、(例えば、インターネットサービスプロバイダを利用したインターネットを介して)外部コンピュータと接続されてもよい。
本発明の態様について、本発明の実施形態による方法、装置(システム)、並びにコンピュータプログラム製品のフローチャート及び/またはブロック図を参照して以下で説明する。フローチャート及び/またはブロック図の各ブロック、並びにフローチャート及び/またはブロック図のブロックにおける組合せは、コンピュータプログラム命令によって実施できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを通して実行される命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定される機能/動作を実施するための手段を作り出すようなマシンを生成するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供される。
これらのコンピュータプログラム命令は、コンピュータで読み取り可能な媒体に保存された命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定された機能/動作を実装する命令を含む製品を生成するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、特定の方法で機能するように指示できるコンピュータで読み取り可能な媒体に保存できる。
コンピュータプログラム命令は、またコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードされて、一連の動作ステップがコンピュータ、他のプログラマブル装置または他のデバイスで実行され、コンピュータまたは他のプログラマブル装置で実行される命令が、フローチャート及び/またはブロック図のブロックまたはモジュールに指定された機能/動作を実装するためのプロセスを提供するように、コンピュータ実装プロセスを生成できる。
本明細書で使用する「プロセッサ」という用語は、例えばCPU(central processing unit)及び/または他の処理回路を含むもの等、任意の処理装置を含むことを意図している。また、「プロセッサ」という用語は1つ以上の処理装置を指すことが可能であり、処理装置に関連する様々な要素は、他の処理装置によって共有されることも理解されたい。
本明細書で使用する「メモリ」という用語は、例えば、RAM、ROM、固定メモリデバイス(例えば、ハードドライブ)、リムーバブルメモリデバイス(例えば、ディスケット)、フラッシュメモリ等、プロセッサまたはCPUに関連するメモリを含むことを意図している。このようなメモリは、コンピュータで読み取り可能な記録媒体と考えることができる。
さらに、本明細書で使用する「入力/出力装置」または「I/O装置」という用語は、例えば、処理ユニットにデータを入力するための1つまたは複数の入力装置(例えば、キーボード、マウス、スキャナ等)及び/または処理ユニットに関連する、結果を提示するための1つまたは複数の出力装置(例えば、スピーカ、ディスプレイ、プリンタなど)を含むことを意図する。
上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴量の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims (20)

  1. 多様な人分析にふさわしい勾配分割によるマルチタスク学習のための方法であって、
    各データセットがそれぞれ1つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出し(1001)、
    特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに前記訓練データを供給し(1003)、
    前記特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるN個のグループに分割し(1005)、
    前記N個のグループの各グループにそれぞれ1つのタスクを割り当て(1007)、
    前記特徴量抽出器タスク固有コンポーネントにおけるパラメータを、前記パラメータから、定数と、前記特徴量抽出器タスク固有コンポーネントの割り当てられたタスクの損失の前記パラメータに対しての勾配との積を減算することのみによって更新する、方法。
  2. 前記特徴量抽出器は前記抽出された画像から特徴量マップを生成し、前記タスク固有ヘッドは前記生成された特徴量マップに基づいてタスク予測を出力する、請求項1に記載の方法。
  3. 前記特徴量抽出器タスク固有コンポーネントにおけるパラメータは、その割り当てられたタスクのみの損失を最小化するように更新される、請求項1に記載の方法。
  4. 訓練中、前記N個のグループの各グループは、対応するタスク勾配によってのみ更新される、請求項1に記載の方法。
  5. 各タスクは、他のタスクから干渉されることなくその特徴量を学習する、請求項1に記載の方法。
  6. 前記フィルタを分割することは誤差逆伝播のみに適用される、請求項1に記載の方法。
  7. ラウンドロビンのバッチレベル更新メカニズムが適用される、請求項1に記載の方法。
  8. 多様な人分析にふさわしい勾配分割によるマルチタスク学習のためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体であって、
    前記コンピュータで読み取り可能なプログラムが前記コンピュータで実行されると、前記コンピュータに、
    各データセットがそれぞれ1つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出させ(1001)、
    特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに前記訓練データを供給させ(1003)、
    前記特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるN個のグループに分割させ(1005)、
    前記N個のグループの各グループにそれぞれ1つのタスクを割り当てさせ(1007)、
    前記特徴量抽出器タスク固有コンポーネントにおけるパラメータを、前記パラメータから、定数と、前記特徴量抽出器タスク固有コンポーネントの割り当てられたタスクの損失の前記パラメータに対しての勾配との積を減算することのみによって更新させる、非一時的なコンピュータで読み取り可能な記録媒体。
  9. 前記特徴量抽出器は前記抽出された画像から特徴量マップを生成し、前記タスク固有ヘッドは前記生成された特徴量マップに基づいてタスク予測を出力する、請求項8に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  10. 前記特徴量抽出器のタスク固有コンポーネントにおけるパラメータは、その割り当てられたタスクのみの損失を最小化するように更新される、請求項8に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  11. 訓練中、前記N個のグループの各グループは、対応するタスク勾配によってのみ更新される、請求項8に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  12. 各タスクは、他のタスクから干渉されることなくその特徴量を学習する、請求項8に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  13. 前記フィルタを分割することは誤差逆伝播のみに適用される、請求項8に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  14. ラウンドロビンのバッチレベル更新メカニズムが適用される、請求項8に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  15. 多様な人分析にふさわしい勾配分割によるマルチタスク学習のためのシステムであって、
    メモリと、
    各データセットがそれぞれ1つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出し(1001)、
    特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに前記訓練データを供給し(1003)、
    前記特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるN個のグループに分割し(1005)、
    前記N個のグループの各グループにそれぞれ1つのタスクを割り当て(1007)、
    前記特徴量抽出器タスク固有コンポーネントにおけるパラメータは、前記パラメータから、定数と、前記特徴量抽出器タスク固有コンポーネントの割り当てられたタスクの損失の前記パラメータに対しての勾配との積を減算することのみによって更新されるように構成された、前記メモリと通信する1つまたは複数のプロセッサと、
    を有するシステム。
  16. 前記特徴量抽出器は前記抽出された画像から特徴量マップを生成し、前記タスク固有ヘッドは前記生成された特徴量マップに基づいてタスク予測を出力する、請求項15に記載のシステム。
  17. 前記特徴量抽出器タスク固有コンポーネントにおけるパラメータは、その割り当てられたタスクのみの損失を最小化するように更新される、請求項15に記載のシステム。
  18. 訓練中、前記N個のグループの各グループは、対応するタスク勾配によってのみ更新される、請求項15に記載のシステム。
  19. 各タスクは、他のタスクから干渉されることなくその特徴量を学習する、請求項15に記載のシステム。
  20. 前記フィルタを分割することは誤差逆伝播のみに適用される、請求項15に記載のシステム。
JP2023514020A 2020-10-21 2021-10-08 多様な人分析のための勾配分割によるマルチタスク学習 Active JP7471514B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US202063094365P 2020-10-21 2020-10-21
US63/094,365 2020-10-21
US202063111662P 2020-11-10 2020-11-10
US63/111,662 2020-11-10
US202063113944P 2020-11-15 2020-11-15
US63/113,944 2020-11-15
US17/496,214 2021-10-07
US17/496,214 US20220121953A1 (en) 2020-10-21 2021-10-07 Multi-task learning via gradient split for rich human analysis
PCT/US2021/054142 WO2022086728A1 (en) 2020-10-21 2021-10-08 Multi-task learning via gradient split for rich human analysis

Publications (2)

Publication Number Publication Date
JP2023540933A JP2023540933A (ja) 2023-09-27
JP7471514B2 true JP7471514B2 (ja) 2024-04-19

Family

ID=81186327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023514020A Active JP7471514B2 (ja) 2020-10-21 2021-10-08 多様な人分析のための勾配分割によるマルチタスク学習

Country Status (4)

Country Link
US (1) US20220121953A1 (ja)
JP (1) JP7471514B2 (ja)
DE (1) DE112021005555T5 (ja)
WO (1) WO2022086728A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114783003B (zh) * 2022-06-23 2022-09-20 之江实验室 一种基于局部特征注意力的行人重识别方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019084189A1 (en) 2017-10-26 2019-05-02 Magic Leap, Inc. SYSTEMS AND METHODS FOR GRADIENT NORMALIZATION FOR ADAPTIVE LOSS BALANCING IN DEEP MULTITASK NETWORKS
JP2019087237A (ja) 2017-11-08 2019-06-06 アドビ インコーポレイテッド 敵対的ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善
WO2020180469A1 (en) 2019-03-07 2020-09-10 Nec Laboratories America, Inc. Multi-task perception network with applications to scene understanding and advanced driver-assistance system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016146174A (ja) * 2015-02-06 2016-08-12 パナソニックIpマネジメント株式会社 決定方法およびプログラム
KR20190051697A (ko) * 2017-11-07 2019-05-15 삼성전자주식회사 뉴럴 네트워크의 디컨벌루션 연산을 수행하는 장치 및 방법
US11049000B2 (en) * 2018-03-27 2021-06-29 International Business Machines Corporation Distributed state via cascades of tensor decompositions and neuron activation binding on neuromorphic hardware
US11363002B2 (en) * 2019-12-13 2022-06-14 TripleBlind, Inc. Systems and methods for providing a marketplace where data and algorithms can be chosen and interact via encryption

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019084189A1 (en) 2017-10-26 2019-05-02 Magic Leap, Inc. SYSTEMS AND METHODS FOR GRADIENT NORMALIZATION FOR ADAPTIVE LOSS BALANCING IN DEEP MULTITASK NETWORKS
JP2019087237A (ja) 2017-11-08 2019-06-06 アドビ インコーポレイテッド 敵対的ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善
WO2020180469A1 (en) 2019-03-07 2020-09-10 Nec Laboratories America, Inc. Multi-task perception network with applications to scene understanding and advanced driver-assistance system

Also Published As

Publication number Publication date
DE112021005555T5 (de) 2023-08-17
WO2022086728A1 (en) 2022-04-28
JP2023540933A (ja) 2023-09-27
US20220121953A1 (en) 2022-04-21

Similar Documents

Publication Publication Date Title
JP7335274B2 (ja) ジオロケーションの予測のためのシステムおよび方法
US9971958B2 (en) Method and system for generating multimodal digital images
US20190392587A1 (en) System for predicting articulated object feature location
US10936912B2 (en) Image classification using a mask image and neural networks
CN108230346B (zh) 用于分割图像语义特征的方法和装置、电子设备
US10776662B2 (en) Weakly-supervised spatial context networks to recognize features within an image
US10742990B2 (en) Data compression system
CN108229280A (zh) 时域动作检测方法和系统、电子设备、计算机存储介质
WO2021218471A1 (zh) 一种用于图像处理的神经网络以及相关设备
CN112507990A (zh) 视频时空特征学习、抽取方法、装置、设备及存储介质
CN115885289A (zh) 利用全局自注意力神经网络对依赖性建模
Torres et al. Patient facial emotion recognition and sentiment analysis using secure cloud with hardware acceleration
WO2023273668A1 (zh) 图像分类方法、装置、设备、存储介质及程序产品
US20230177384A1 (en) Attention Bottlenecks for Multimodal Fusion
KR20090123757A (ko) 비디오 시퀀스의 움직이는 객체들의 중심들을 추정하는 시스템 및 방법
CN111612010A (zh) 图像处理方法、装置、设备以及计算机可读存储介质
JP7471514B2 (ja) 多様な人分析のための勾配分割によるマルチタスク学習
WO2022222854A1 (zh) 一种数据处理方法及相关设备
Xiong et al. Face2Statistics: user-friendly, low-cost and effective alternative to in-vehicle sensors/monitors for drivers
US20210018978A1 (en) Method and apparatus for predicting intention of user
Uddin et al. Dynamic facial expression understanding using deep spatiotemporal LDSP on spark
WO2023231753A1 (zh) 一种神经网络的训练方法、数据的处理方法以及设备
JP7225731B2 (ja) 多変数データシーケンスの画像化
WO2022052647A1 (zh) 一种数据处理方法、神经网络的训练方法以及相关设备
CN113408694A (zh) 用于生成式神经网络的权重解调

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240409

R150 Certificate of patent or registration of utility model

Ref document number: 7471514

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150