JP7471514B2

JP7471514B2 - 多様な人分析のための勾配分割によるマルチタスク学習

Info

Publication number: JP7471514B2
Application number: JP2023514020A
Authority: JP
Inventors: ユミンス、; シャオユ、; マスードファラキ、; マンモハンチャンドラカー、; ウェイジャンデン、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2020-10-21
Filing date: 2021-10-08
Publication date: 2024-04-19
Anticipated expiration: 2041-10-08
Also published as: DE112021005555T5; WO2022086728A1; JP2023540933A; US20220121953A1

Description

この出願は、２０２０年１０月２１日に出願された米国仮特許出願第６３／０９４，３６５号、２０２０年１１月１０日に出願された米国仮特許出願第６３／１１１，６６２号、２０２０年１１月１５日に出願された米国仮特許出願第６３／１１３，９４４号及び２０２１年１０月７日に出願された米国特許出願第１７／４９６，２１４号を基礎とする優先権を主張し、それぞれの開示の全てをここに取り込む。

本発明は、マルチタスク学習に関し、より具体的には、多様な人分析のための勾配分割によるマルチタスク学習に関する。

現実世界の問題の多くは、画像における人の広範囲な理解を必要とする。例えば、人々を追跡調査するカスタマイズされた広告システムは、複数のカメラにわたる再識別化を利用し、基本的な情報（性別や年齢等）を認識し、姿勢推定を用いて行動を分析し、最適な広告を作成する。近年、人の再識別化、歩行者の検出、人の姿勢推定等、人に関連する様々なタスクに関して目覚ましい進歩が見られる。一方で、個々のタスク毎に多くのアノテーション付きのデータセットが提案されている。しかしながら、それらのほとんどは単一のタスクを考慮しており、他の問題と共に調査する能力は無い。

多様な人分析にふさわしい勾配分割によるマルチタスク学習のための方法が提示される。本方法は、各データセットがそれぞれ１つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出し、特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに訓練データを供給し、特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるＮ個のグループに分割し、Ｎ個のグループの各グループにそれぞれ１つのタスクを割り当て、各タスクの損失がフィルタの１つのサブセットのみを更新するように、勾配を処理することを含む。

多様な人分析にふさわしい勾配分割によるマルチタスク学習のためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体が提示される。コンピュータで読み取り可能なプログラムがコンピュータで実行されると、コンピュータに、各データセットがそれぞれ１つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出させ、特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに訓練データを供給させ、特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるＮ個のグループに分割させ、Ｎ個のグループの各グループにそれぞれ１つのタスクを割り当てさせ、各タスクの損失がフィルタの１つのサブセットのみを更新するように、勾配を処理させる。

多様な人分析にふさわしい勾配分割によるマルチタスク学習のためのシステムが提示される。本システムは、メモリと、各データセットがそれぞれ１つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出し、特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに訓練データを供給し、特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるＮ個のグループに分割し、Ｎ個のグループの各グループにそれぞれ１つのタスクを割り当て、各タスクの損失がフィルタの１つのサブセットのみを更新するように、勾配を処理するように構成された、メモリと通信する１つまたは複数のプロセッサとを有する。

これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。

本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。

図１は、例示的な人分析パイプラインを示すブロック／フロー図である。

図２は、本発明の実施形態による、複数のデータセットを用いる訓練手順を含む例示的な人分析パイプラインを示すブロック／フロー図である。

図３は、本発明の実施形態による、例示的なモデル分割プロセスを示すブロック／フロー図である。

図４は、本発明の実施形態による、訓練アルゴリズムの例示的なパラメータ及びモデル更新を示すブロック／フロー図である。

図５は、本発明の実施形態による、共有バックボーン及びタスク固有ヘッドモジュールを含む、例示的なＧｒａｄＳｐｌｉｔフレームワークを示すブロック／フロー図である。

図６は、本発明の実施形態による、ＧｒａｄＳｐｌｉｔのための２タスク訓練で使用される例示的な勾配テンソルを示すブロック／フロー図である。

図７は、本発明の実施形態による、ＧｒａｄＳｐｌｉｔが重みを均一に分割し、各タスクの損失が１つの特定のフィルタグループのみに影響を与える方法を示すブロック／フロー図である。

図８は、本発明の実施形態による、多様な人分析のための勾配分割によるマルチタスク学習のための例示的な実際のアプリケーションを示す図である。

図９は、本発明の実施形態による、多様な人分析のための勾配分割によるマルチタスク学習のための例示的な処理システムを示す図である。

図１０は、本発明の実施形態による、多様な人分析のための勾配分割によるマルチタスク学習のための例示的な方法を示すブロック／フロー図である。

例示的な実施形態は、個々のタスクにそれぞれアノテーションが付与されたデータセットを用いて、人に関連する複数のタスクを同時にまたは並行して解明する統合フレームワークを導入する。必要なフレームワークは、タスク全体で相互情報量を利用し、共有ネットワークアーキテクチャを用いてメモリと計算コストを節約する。但し、あるタスクにとって重要な勾配信号は、別のタスクにとって有害な情報になる可能性があり、共有ネットワークを学習するときに勾配のコンフリクトが発生する可能性がある。これにより、最適化の課題が発生し、全体的な性能が最適化されなくなる。例えば、姿勢の推定には姿勢に敏感な特徴量が必要であるが、人物の再識別化には姿勢の不変な特徴量が必要である。

この問題に対処するため、既存の方法は、タスク固有の特徴量を生成できるように、タスク固有モジュールを共有バックボーンに統合する。共有ネットワークは、人のタスクによるタスク固有の特徴量を学習することが推奨されるが、追加のモジュールを用いる代わりに、例示的な方法では慎重に設計された訓練スキームを用いてこれを達成する。具体的には、共有バックボーン内の各畳み込みモジュールにおいて、例示的な方法は、フィルタをＮ個のタスクのＮ個のグループに分離または分割する。訓練中、各グループは対応するタスク勾配によってのみ更新される。これは、更新中に勾配をグループに分離または分割するため、ＧｒａｄｉｅｎｔＳｐｌｉｔ（または、ＧｒａｄＳｐｌｉｔ）と呼ばれる。

ＧｒａｄＳｐｌｉｔは誤差逆伝播のプロセス中のフィルタにのみ適用されるが、順方向パスはベースラインと同じである。これにより少なくとも次の利点がもたらされる。まず、タスク固有のフィルタは、他のタスク固有のフィルタから生成された特徴量を受け取るため、他のタスクからの情報を引き続き利用できる。さらに、例示的な方法は、追加のパラメータまたは計算コストを導入しない。最後に、例示的な方法は、全てのタスクの損失からの勾配の比較が不要であり、そのため、特に複数の単一のアノテーションデータセットを扱う場合の訓練手順が簡素化する。別の貢献では、例示的な方法は、共有バックボーンにおける正規化層を分析することで強力なマルチタスクベースラインを提供する。これにより、複数のデータセットから学習する際のドメインギャップ問題が効果的に軽減される。

例示的な方法は、人に関連する複数のタスクを同時にまたは並行して解明する統合モデルを訓練することを目標とする。

例示的な方法は、共同タスクの損失Ｌを最小化する最適パラメータΘを求める。

ここで、Ｔはタスクの数を表し、Ｌ_tはタスクの損失Ｌ_tを表す。マルチヘッドネットワークは、図５に関して後述するように、１つの共有バックボーンとタスク固有ヘッドを有すると仮定する。

マルチタスク学習のよく知られた問題は、タスクに矛盾がある場合（例えば、恒等不変特徴量対恒等可変属性）、共同最適化が準最適解につながることである。これを軽減するため、例示的な方法は、各タスクが他のタスクから干渉されることなくその本質的な特徴量を学習できるようにする、ＧｒａｄｉｅｎｔＳｐｌｉｔ（またはＧｒａｄＳｐｌｉｔ）と呼ばれる訓練スキームを提案する。各タスクの損失を用いて共有バックボーンの畳み込みの全てのフィルタを更新する代わりに、ＧｒａｄＳｐｌｉｔは明確にフィルタのサブセットのみに影響を与えるようにする。

勾配分割（gradient split）に関して、

によってパラメータ化された、入力チャネルｃ_iと出力チャネルｃ_oとの畳み込みを考える。これにはｃ_oフィルタが含まれており、各フィルタは１つの特徴量マップを生成する。ここで、ｈは高さを示し、ｗは幅を示す。先の方程式に基づいて、標準的な確率的勾配降下法は次のように定式化される。

ＧｒａｄＳｐｌｉｔは異なるタスクからの勾配を平均化するため、ＧｒａｄＳｐｌｉｔは、タスクがコンフリクトの場合に有用な信号を相殺する可能性があり、性能を低下させる。

例示的な方法は、勾配のコンフリクトが無いように、勾配をタスク全体にわたって分割し、それらに異なるフィルタに適用する。Ｔ個のタスクが与えられると、例示的な方法はフィルタをＴ個のグループに分割し、各グループを明確に１つのタスクに割り当てる。例示的な方法は、ｔ番目のタスクに割り当てられたパラメータを

として示す。ここで、ｎ_tはタスクｔに割り当てられた出力チャネルの数である。次に、ＧｒａｄＳｐｌｉｔ用いたパラメータ更新の１回の反復は、次のように定式化される。

ここで、

である。

したがって、ＧｒａｄＳｐｌｉｔは、割り当てられたタスクのみからの勾配を用いてパラメータθ_tを更新し、他のタスクからの勾配は廃棄する。更新では、勾配がタスク全体で平均化されないため、１つのタスクが別のタスクに干渉することは無い。以下で説明する図６は、ＧｒａｄＳｐｌｉｔで使用される勾配を示している。

ＧｒａｄＳｐｌｉｔは、転送手順に影響を与えず、勾配更新手順のみに影響を与える。その結果、ＧｒａｄＳｐｌｉｔは、ネットワーク構造を変更することなく、任意の畳み込み層に簡単に適用できる。例示的な方法は、ＧｒａｄＳｐｌｉｔを、経験的に最良の性能をもたらす、共有バックボーンの最後の層（例えば、ＲｅｓＮｅｔ－５０のＬａｙｅｒ４）に適用する。各モジュールに関して、例示的な方法は、各グループが［ｃ_o／Ｔ］フィルタを含むＴ個のグループにそのフィルタを均等に分割する単純な戦略を採用する。

正則化としてのＧｒａｄＳｐｌｉｔの直感的な理解に関して、タスク勾配の重み付けされた線形和としてのθ_tに関して、勾配を処理することを考慮する。

ｍ_t＝１及びｍ_t’＝０(ｔ≠ｔ’)の場合、上式は、

になる。ｍ_tが確率的バイナリマスクである場合、それはドロップアウト勾配と同等である。訓練中に勾配にノイズを注入するため、正則化効果が得られる。この処理は、ドロップレートｐ∈［０，１）の場合、特別に設計されたドロップアウトマスクを用いたＧｒａｄＤｒｏｐと同等であることが分かる。

複数のタスク固有のデータセットを用いた訓練に関して、各データセットが単一タスクのアノテーションを含む実際の設定が想定される。この条件下において、モデルは、画像が、背景、照明、カメラの視野及び解像度に固有の視覚的特性を示す、複数のデータセットを用いて訓練される。

は、さらに

で特定される。

ここで、

は、タスクｔの損失関数及び予測関数を表す。

例示的な方法は、最適化のためにラウンドロビンのバッチレベル更新方式を採用する。１つのマルチタスクの繰り返しには、各タスクのバッチ転送とパラメータ更新のシーケンスが含まれる。様々なタスクに様々な入力サイズを許容するのに十分な柔軟性を有し、制約のあるグラフィックプロセッシングユニット（ＧＰＵ）メモリでタスクの数にスケーリングすることもできる。これは、トリプレット損失等、バッチサイズが性能に影響する特定の損失関数で訓練する場合に役に立つ。

訓練データセット間のドメインギャップに関して、ラウンドロビンのバッチ構築を用いると、タスクｔのミニバッチは、分布Ｄ_tからサンプリングされた画像を含む。

経験損失は、以下で計算される。

ここで、

は、タスクｔに関してサンプリングされたミニバッチを表す。それと同時に、バッチ正規化（ＢＮ）には、ＥｆｆｉｃｉｅｎｔＮｅｔやＲｅｓＮｅｔ等の最新式のネットワークアーキテクチャが広く採用されている。ＢＮは、訓練中に実行中のバッチ統計を使用し、推論中に蓄積された統計を用いて独立同分布（ｉｉｄ）のミニバッチ仮定を使用することに注意されたい。データセット間のドメインギャップにより、ミニバッチ

のタスクｔの損失を計算するために使用される実行中のＢＮ統計は、訓練中にタスク全体で異なる分布に従うが、一般的なＢＮ統計はタスク全体で蓄積され、テスト段階で使用される。このような訓練段階とテスト段階の間のＢＮ統計の不一致により、性能が大幅に低下することが見出された。

解決策の１つの候補として、残りの畳み込みパラメータを共有しつつ、異なるタスクに関して固有のＢＮモジュールを用いることで、タスク固有のＢＮが、この問題を軽減する。但し、最初のタスク固有のＢＮに続く特徴量はタスク間で共有できず、Ｎ個のタスクに対してＮ個の順方向パスが必要になるため、計算コストが増加する。もう１つの解決策は、訓練中にＢＮ統計を修正することであるが、これもベースラインの性能を低下させる。その代わりに、例示的な方法は、共有バックボーンにおいてグループ正規化（ＧＮ）を使用する。これにより、上記の問題を回避することが可能であり、信頼できるベースラインが得られる。

訓練画像１１０は、入力訓練データに基づいて人分析システムのパラメータを更新する訓練アルゴリズム１２０に対する入力として使用される。訓練後、人分析システム１３０は、見知らぬ画像に対して使用することができる。

訓練データセット１１０に関して、人分析システムのための訓練データは、関心のあるタスクのためのアノテーションと共に画像のセットを含む。アノテーションの形式は、タスクによって異なる。例えば、各人物画像には、人物の再識別化タスクのために人物の身元がアノテーションとして付与される。姿勢推定タスクでは、主要なポイントのアノテーションが各画像に付与される。１つの主要な身体関節のアノテーションには、画像空間における座標とその視認性の２つの値が含まれる。１つの画像に対する各アノテーションは、例えば、肩、肘及び手首等の主要な身体関節に関するアノテーションを含む。

訓練アルゴリズム１２０に関して、モデルは、与えられた訓練データに基づいて調整する必要がある、パラメータを有する深層ニューラルネットワークである。損失関数は、グラウンドトゥルースと現在のモデルの予測との差が訓練データの特定の画像に関して測定されるように定義される。確率的勾配降下法（ＳＧＤ：stochastic gradient descent）等の最適化手法を用いて、損失を低減する方向にモデルのパラメータを更新できる。

多様な人分析モデル／システム１３０に関して、訓練データ１１０を用いてニューラルネットワークモデルのパラメータを調整した後、システムは新しい画像に適用する準備ができている。与えられた画像について、多様な人分析システム１３０は、全てのタスクの出力を同時にまたは並行して戻す。

図２は、本発明の実施形態による、複数のデータセットを用いる訓練手順を含む、例示的な人分析パイプラインを示すブロック／フロー図である。

図２のパイプラインは、図１の標準パイプラインとは、人分析のために２つの点で異なる。第１に、訓練データ１１０は、タスク毎に１つずつのＮ個のデータセットを含む。１つのデータセットには、画像とタスクのアノテーションが含まれる。例えば、データセット１には、注釈付きの身元を備える人物の画像が含まれ、データセット２には、主要な身体の関節位置の注釈付きの人物画像が含まれる。第２に、複数のタスクを同時にまたは並行して実行するようにモデルを訓練する。タスク間の潜在的なコンフリクトに対処するため、例示的な方法は、モデルをタスク固有の部分と共有部分、すなわちモデル１２４と変更された訓練アルゴリズム１２２とに分割する。

モデルは、２つの部分、すなわち特徴量抽出器１２５とタスク固有ヘッド１４０とを含む。特徴量抽出器１２５は、与えられた画像から特徴量マップを生成し、タスク固有ヘッド１４０は、特徴量マップに基づいてタスク予測を出力する。例示的な方法は、特徴量抽出器１２５を共有モジュール（またはコンポーネント）１２６とタスク固有モジュール（またはコンポーネント）１２８とにさらに分割する。タスク固有モジュール１２８の各層に関して、フィルタはＮ個のグループに分割され、各グループは１つのタスクに割り当てられる。この割り当ては、各フィルタの専門分野を特定し、訓練アルゴリズム１２０がこれらの専門分野を強化する方法でパラメータを更新するようにする。特徴量抽出器１２５は、全てのデータセットを用いて訓練され、タスク固有ヘッド１４０は、対応するタスクデータセットを用いて訓練される。

図４は、本発明の実施形態による、訓練アルゴリズムの例示的なパラメータ及びモデルの更新を示すブロック／フロー図である。

訓練中、例示的な方法は、モデル分割１２４に基づいてパラメータ更新１５０を修正し、モデル更新１５２を取得する。従来の訓練アルゴリズムでは、全てのタスクの損失の合計を最小化する方向に全てのパラメータが更新される。同じ更新手順は、１２４で定義された特徴量抽出器のタスク固有モジュールにおけるものを除いて、全てのパラメータに関して従来のアルゴリズムのように維持される。タスク固有モジュールのパラメータは、全てのタスクの損失の合計を最小化するのではなく、割り当てられたタスクのみの損失を最小化するように更新される。

図５は、本発明の実施形態による、共有バックボーン１８０及びタスク固有ヘッドモジュール１４０を含む、例示的なＧｒａｄＳｐｌｉｔフレームワーク１６０を示すブロック／フロー図である。

本発明の例示的な実施形態は、与えられたＲＧＢ画像における人の様々な属性を認識するタスクである視覚的な人分析を目的としている。人の姿勢推定は人分析の一例である。人の姿勢推定システムは、画像を入力として受け取り、頭、肩等の主要な身体関節の位置として表される、画像内の人物の姿勢を予測する。多様な人分析により、この例は人の姿勢推定を超えた様々なタスク（身元、性別、年齢認識等）に拡張される。人分析システムを訓練するには、システムが解明するタスク毎に十分な量の訓練データが必要である。

深層ニューラルネットワークは、各層が前の層の出力特徴量マップを入力として取得し、特徴量マップを出力する複数の順序層を含むシステムである。各層の出力または特徴量マップは、各位置の周囲に存在する特定の特性を表すいくつかの行列を含む３次元テンソルである。例えば、姿勢推定システムの最初の層は、ＲＧＢ画像を入力として受け取り、エッジ、色、テクスチャ等の抽象的なレベルの低い視覚情報をエンコードする特徴量マップを出力する。より深い層は、各位置における身体部分の存在等、より抽象的なレベルの情報をエンコードする特徴量マップを出力する。各層には複数のフィルタが含まれており、１つのフィルタは前の層から特徴量マップを入力として取得し、２次元行列を出力する。その層における全てのフィルタからのこれらの行列は、出力特徴量マップに連結される。

１つの画像のいくつかの人関連のタスクを同時に実行するため、従来のシステムは、タスクの数に比例して増加した計算コスト及びメモリを必要とする。例えば、システムが人の識別とその姿勢の認識を同時に行う必要がある場合、従来の方法では、人を識別するシステムと姿勢を予測するシステムの２つのシステムが使用されていた。このアプローチでは、必要な計算とメモリのコストが増加するだけでなく、他のタスクから得られる有用な情報を活用できない。

それに対して、例示的な方法は、共有バックボーン１８０及びタスク固有ヘッドモジュール１４０を含む、図５のネットワークを導入する。勾配のコンフリクト問題を軽減するため、ＧｒａｄＳｐｌｉｔは勾配を処理し、各タスクの損失がフィルタの１つのグループのみを更新し、タスク固有のフィルタ１７０を生成するようにする。順方向のフローは同じままであるのに対し、逆方向のフローのみが変更されることに注意されたい。入力１６２からの勾配は、対応するフィルタのみを更新するために使用される。このようにして、他のタスクの損失はコンフリクトな勾配を導入しない。

したがって、図５の例示的なアプローチは、計算コストと性能との間のトレードオフを軽減する。例示的なアプローチは、同等またはより優れた性能を達成しながら、単一のタスクシステム毎に同様の計算コストでＲＧＢ画像が与えられた人の多様な情報を予測できる。例示的なアプローチは、共通の特徴量抽出器を共有することで、タスク全体で有用な情報をさらに活用する。

一例として、自動チェックインのために人々を識別できる空港監視システムを考えてみる。感染症の拡大を予防するため、マスクを着用しているか否かをチェックする新しい機能をシステムに追加したい場合がある。さらに、乗客の性別及び年齢の分布を理解することで、サービスを最適化したい場合がある。上記のシナリオと同様に、タスク毎に１つずつ、複数のシステムを採用する必要がある。図５の例示的なアプローチは、複数のタスクを同時に効果的にかつ効率的に実行できる統合システムを用いることを可能にする。

図６は、本発明の実施形態による、ＧｒａｄＳｐｌｉｔの２タスク訓練で使用される例示的な勾配テンソル２００を示すブロック／フロー図である。

ＧｒａｄＳｐｌｉｔの確率的勾配降下のための２タスク訓練で使用される勾配テンソル２００の視覚的な例が示されている。畳み込みには、入力チャネルｃ_iと出力チャネルｃ_o、例えば

が含まれる。ＧｒａｄＳｐｌｉｔでは、タスクの損失Ｌ_tを用いて、対応するフィルタのみの勾配テンソルを計算する。ＧｒａｄＳｐｌｉｔは、右側（例えば、タスクＢ）２２０から左側（例えば、タスクＡ）２１０を分離する分離線または分割線２１５を含む。

誤差逆伝播プロセス中、ベースラインモデル３００では、各タスクの損失を用いて全ての重みを更新する。その結果、タスクＡとタスクＢとがコンフリクトを有し、重みの共有に混乱が生じる可能性がある。

誤差逆伝播中、ＧｒａｄＳｐｌｉｔモデル３１０において、例示的な方法は、重みをＮ＝２のグループに一様に分割する。したがって、各タスクの損失は、１つの特定のフィルタグループにのみ影響する。第１のフィルタグループＧ₁には、最下位の重みまたは最下位のグループのみ（指定Ｇ₁と水平に並べられた）が含まれる。第２のフィルタグループＧ₂には、最上位のグループのみ（指定Ｇ₂と水平に並べられた）の最上位の重みが含まれる。

結論として、本発明の例示的な実施形態は、慎重に設計された最適化法によりコンフリクトの問題を緩和する。例示的な実施形態は、エンコーダ及びデコーダを含むモデルを想定している。エンコーダは、全てのタスクにわたってその出力を共有する特徴量抽出器１２５である。デコーダは、特徴量抽出器１２５の出力を入力として受け取り、タスク固有の結果を予測するタスク固有ヘッド１４０を含む。

第１に、例示的な方法は、特徴量抽出器１２５の畳み込み層の最後の層または最も深い層のフィルタをＮ個のグループに分割し、各グループに１つのタスクを割り当てる。ここで、Ｎはタスクの数である。

第２に、例示的な方法は、割り当てられたタスクのみの損失を最小化するために各グループ内のパラメータ（１５０、図４）を更新しながら、Ｎ個のタスクの全体的な損失を最小化するためにパラメータ全体を更新することでネットワークを訓練する。

訓練手順をよりよく理解するために、タスクがＡ及びＢである場合、特徴量抽出器の最後の層または最も深い層に１０個のフィルタを有するシステムを考える。従来の訓練アルゴリズムでは、１０個のフィルタを更新して、タスクＡとＢの損失の合計を最小化する。しかしながら、例示的な方法は、タスクＡの損失を最小化するために最初の５つのフィルタを更新し、タスクＢの損失を最小化するために残りの５つのフィルタを更新する。これにより、タスクＡで特に必要な特徴量を予測するための最初の５つのフィルタが作成される。これらのフィルタは、入力として、前の層からタスクＡとＢの両方の特徴量を取得することに注意されたい。この訓練アルゴリズムは、割り当てられたタスクに固有の特徴量を学習するように各フィルタを明確に誘導することで、タスク間の潜在的なコンフリクトを回避する。同時に、システムがタスク全体で有用な特徴量を活用できるようにする。提案するシステムに必要な計算コスト及びメモリは、従来のマルチヘッドネットワークと同じであり、複数の単一タスクモデルを含むシステムよりもＮ分の１である。

したがって、例示的な実施形態は、人の再識別化、姿勢推定及び属性予測等の複数の人関連のタスクを同時にまたは並行して解明する統合深層ネットワークを訓練するアプローチを提示する。このようなフレームワークは、タスク全体の情報が制限された計算リソースで活用される可能性があるため、望ましいものである。但し、コンフリクトなタスクからの勾配の更新は互いにコンフリクトになる可能性があり、共有パラメータの最適化が困難になり、性能が最適化されない。例示的な実施形態は、そのような問題を効果的に軽減するＧｒａｄＳｐｌｉｔと呼ばれる訓練方式を導入する。各畳み込みモジュールにおいて、ＧｒａｄＳｐｌｉｔは特徴量をＮ個のタスクのＮ個のグループに分離または分割し、対応するタスクのみからの勾配更新を用いて各グループを訓練する。訓練中、例示的な方法は、ＧｒａｄＳｐｌｉｔを一連の畳み込みに適用する。その結果、各モジュールまたはコンポーネントは、前のモジュールと共有する特徴量を用いてタスク固有の特徴量のセットを生成するように訓練される。これにより、ネットワークは勾配のコンフリクトを回避しながら、タスク全体で補完的な情報を活用できる。

図８は、本発明の実施形態による、多様な人分析のための勾配分割を介したマルチタスク学習の実際のアプリケーションを示すブロック／フロー図である。

１つの実際の例において、カメラ８０２は、異なる性別で異なる姿勢のオブジェクトまたは人８０４、８０６を検出できる。例示的な方法は、特徴量抽出器１２５及びタスク固有ヘッド１４０を用いる勾配分割１６０によるマルチタスク学習を使用する。結果８１０（例えば、姿勢）は、ユーザ８１４により扱われるユーザインタフェース８１２に提供または表示できる。

処理システムは、システムバス９０２を介して他のコンポーネントと動作可能に接続された少なくとも１つのプロセッサ（ＣＰＵ）９０４を含む。システムバス１００２には、ＧＰＵ９０５、キャッシュ９０６、読み取り専用メモリ（ＲＯＭ）９０８、ランダムアクセスメモリ（ＲＡＭ）９１０、入出力（Ｉ／Ｏ）アダプタ９２０、ネットワークアダプタ９３０、ユーザインタフェースアダプタ９４００及び／またはディスプレイアダプタ９６０が動作可能に接続されている。さらに、ＧｒａｄｉｅｎｔＳｐｌｉｔ１６０によるマルチタスク学習は、特徴量抽出器１２５及びタスク固有ヘッド１４０を用いることで採用できる。

記憶装置９２２は、Ｉ／Ｏアダプタ９２０によってシステムバス９０２と動作可能に接続されている。記憶装置９２２は、ディスク記憶装置（例えば、磁気または光ディスク記憶装置）、固体磁気装置等のいずれであってもよい。

トランシーバ９３２は、ネットワークアダプタ９３０によってシステムバス９０２に動作可能に接続されている。

ユーザ入力装置９４２は、ユーザインタフェースアダプタ９４０によってシステムバス９０２に動作可能に接続されている。ユーザ入力装置９４２は、キーボード、マウス、キーパッド、イメージキャプチャ装置、モーションセンシング装置、マイクロホン、あるいはこれらの装置のうちの少なくとも２つの装置の機能を組み込んだ装置等のいずれであってもよい。もちろん、本発明の原理の主旨を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置９４２は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置９４２は、処理システムに情報を入力し、処理システムから情報を出力するために使用される。

ディスプレイ装置９５２は、ディスプレイアダプタ９５０によってシステムバス９０２に動作可能に接続されている。

もちろん、処理システムは、当業者であれば容易に思いつくような他の要素（図示せず）を含んでもよく、特定の要素を省略することも可能である。例えば、当業者であれば容易に理解できるが、処理システムには、その特定の実装に応じて他の様々なタイプの入力装置及び／または出力装置を含むことができる。例えば、無線及び／または有線による様々な入力装置及び／または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成の追加プロセッサ、コントローラ、メモリ等を使用することも可能である。処理システムの上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。

ブロック１００１において、複数のデータセットを有する訓練データから画像を抽出する。各データセットはそれぞれ１つのタスクに関連付けられている。

ブロック１００３において、訓練データを、特徴量抽出器及びタスク固有ヘッドを含むニューラルネットワークモデルに入力する。特徴量抽出器は、特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する。

ブロック１００５において、特徴量抽出器の畳み込み層のより深い層のフィルタをＮ個のグループに分割する。Ｎはタスクの数である。

ブロック１００７において、Ｎ個のグループの各グループにそれぞれ１つのタスクを割り当てる。

ブロック１００９において、各タスクの損失がフィルタのサブセットを１つだけ更新するように勾配を処理する。

本明細書で用いる「データ」、「コンテンツ」、「情報」及び同様の用語は、様々な例示的な実施形態によって取得され、送信され、受信され、表示され、及び／または保存可能なデータを示すために、交換可能に使用できる。したがって、これらの用語の使用は、開示の主旨及び範囲を制限するものと解釈されるべきではない。さらに、本明細書に別の計算デバイスからデータを受信するための計算デバイスが記載されている場合、データは、別の計算デバイスから直接受信してもよく、１つ以上の中間計算デバイス、例えば１つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局等を介して間接的に受信してもよい。同様に、本明細書にデータを別の計算デバイスに送信するための計算デバイスが記載されている場合、データは、別の計算データに直接送信してもよく、例えば、１つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局及び／または同様のもの等の１つ以上の中間計算デバイスを介して間接的に送信してもよい。

当業者であれば理解するように、本発明の態様は、システム、方法またはコンピュータプログラム製品として実施してもよい。したがって、本発明の態様は、全体としてハードウェアの実施形態であってもよく、全体としてソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコード等を含む）であってもよく、本明細書において、一般に「回路」、「モジュール」、「計算機」、「装置」または「システム」と呼ぶことができる、ソフトウェアとハードウェアの態様を組み合わせた実施の形態を採用してもよい。さらに、本発明の態様は、コンピュータで読み取り可能なプログラムコードを有する、１つまたは複数のコンピュータで読み取り可能な媒体で具現化された、コンピュータプログラム製品の形態を採用してもよい。

１つまたは複数のコンピュータで読み取り可能な媒体の任意の組合せを用いてもよい。コンピュータで読み取り可能な媒体は、コンピュータで読み取り可能な信号媒体またはコンピュータで読み取り可能な記録媒体であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイス、あるいは前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体的な例（以下に限定されない）は、１つ以上のワイヤ、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、携帯用コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光データ記憶装置、磁気データ記憶装置または前述した任意の適切な組み合わせを含む。本文書のコンテキストにおいて、コンピュータで読み取り可能な記録媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、またはそれを記憶できる、任意の有形媒体であってもよい。

コンピュータで読み取り可能な信号媒体には、例えば、ベースバンドで、または搬送波の一部として、コンピュータで読み取り可能なプログラムコードが具現化された伝搬データ信号を含むことができる。そのような伝播信号は、電磁、光学またはそれらの任意の適切な組み合わせを含むが、それらに限定されない、任意の様々な形態がある。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記録媒体ではなく、命令実行システム、装置または装置によって、またはそれに関連して使用するためにプログラムを通信、伝播、または移送できる、任意のコンピュータ読み取り可能な媒体であってもよい。

コンピュータで読み取り可能な媒体で具現化されるプログラムコードは、無線、有線、光ファイバケーブル、ＲＦ等、あるいは前述した任意の適切な組合せを含むが、これらに限定されない、任意の適切な媒体を用いて送信される。

本発明の態様に関する処理を実行するためのコンピュータプログラムコードは、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋等のオブジェクト指向プログラミング言語及び「Ｃ」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、１つ以上のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、（例えば、インターネットサービスプロバイダを利用したインターネットを介して）外部コンピュータと接続されてもよい。

本発明の態様について、本発明の実施形態による方法、装置（システム）、並びにコンピュータプログラム製品のフローチャート及び／またはブロック図を参照して以下で説明する。フローチャート及び／またはブロック図の各ブロック、並びにフローチャート及び／またはブロック図のブロックにおける組合せは、コンピュータプログラム命令によって実施できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを通して実行される命令が、フローチャート及び／またはブロック図の１つまたは複数のブロックまたはモジュールに指定される機能／動作を実施するための手段を作り出すようなマシンを生成するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供される。

これらのコンピュータプログラム命令は、コンピュータで読み取り可能な媒体に保存された命令が、フローチャート及び／またはブロック図の１つまたは複数のブロックまたはモジュールに指定された機能／動作を実装する命令を含む製品を生成するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、特定の方法で機能するように指示できるコンピュータで読み取り可能な媒体に保存できる。

コンピュータプログラム命令は、またコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードされて、一連の動作ステップがコンピュータ、他のプログラマブル装置または他のデバイスで実行され、コンピュータまたは他のプログラマブル装置で実行される命令が、フローチャート及び／またはブロック図のブロックまたはモジュールに指定された機能／動作を実装するためのプロセスを提供するように、コンピュータ実装プロセスを生成できる。

本明細書で使用する「プロセッサ」という用語は、例えばＣＰＵ（central processing unit）及び／または他の処理回路を含むもの等、任意の処理装置を含むことを意図している。また、「プロセッサ」という用語は１つ以上の処理装置を指すことが可能であり、処理装置に関連する様々な要素は、他の処理装置によって共有されることも理解されたい。

本明細書で使用する「メモリ」という用語は、例えば、ＲＡＭ、ＲＯＭ、固定メモリデバイス（例えば、ハードドライブ）、リムーバブルメモリデバイス（例えば、ディスケット）、フラッシュメモリ等、プロセッサまたはＣＰＵに関連するメモリを含むことを意図している。このようなメモリは、コンピュータで読み取り可能な記録媒体と考えることができる。

さらに、本明細書で使用する「入力／出力装置」または「Ｉ／Ｏ装置」という用語は、例えば、処理ユニットにデータを入力するための１つまたは複数の入力装置（例えば、キーボード、マウス、スキャナ等）及び／または処理ユニットに関連する、結果を提示するための１つまたは複数の出力装置（例えば、スピーカ、ディスプレイ、プリンタなど）を含むことを意図する。

上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴量の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims

多様な人分析にふさわしい勾配分割によるマルチタスク学習のための方法であって、
各データセットがそれぞれ１つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出し（１００１）、
特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに前記訓練データを供給し（１００３）、
前記特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるＮ個のグループに分割し（１００５）、
前記Ｎ個のグループの各グループにそれぞれ１つのタスクを割り当て（１００７）、
前記特徴量抽出器タスク固有コンポーネントにおけるパラメータを、前記パラメータから、定数と、前記特徴量抽出器タスク固有コンポーネントの割り当てられたタスクの損失の前記パラメータに対しての勾配との積を減算することのみによって更新する、方法。
前記特徴量抽出器は前記抽出された画像から特徴量マップを生成し、前記タスク固有ヘッドは前記生成された特徴量マップに基づいてタスク予測を出力する、請求項１に記載の方法。
前記特徴量抽出器タスク固有コンポーネントにおけるパラメータは、その割り当てられたタスクのみの損失を最小化するように更新される、請求項１に記載の方法。
訓練中、前記Ｎ個のグループの各グループは、対応するタスク勾配によってのみ更新される、請求項１に記載の方法。
各タスクは、他のタスクから干渉されることなくその特徴量を学習する、請求項１に記載の方法。
前記フィルタを分割することは誤差逆伝播のみに適用される、請求項１に記載の方法。
ラウンドロビンのバッチレベル更新メカニズムが適用される、請求項１に記載の方法。
多様な人分析にふさわしい勾配分割によるマルチタスク学習のためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体であって、
前記コンピュータで読み取り可能なプログラムが前記コンピュータで実行されると、前記コンピュータに、
各データセットがそれぞれ１つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出させ（１００１）、
特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに前記訓練データを供給させ（１００３）、
前記特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるＮ個のグループに分割させ（１００５）、
前記Ｎ個のグループの各グループにそれぞれ１つのタスクを割り当てさせ（１００７）、
前記特徴量抽出器タスク固有コンポーネントにおけるパラメータを、前記パラメータから、定数と、前記特徴量抽出器タスク固有コンポーネントの割り当てられたタスクの損失の前記パラメータに対しての勾配との積を減算することのみによって更新させる、非一時的なコンピュータで読み取り可能な記録媒体。
前記特徴量抽出器は前記抽出された画像から特徴量マップを生成し、前記タスク固有ヘッドは前記生成された特徴量マップに基づいてタスク予測を出力する、請求項８に記載の非一時的なコンピュータで読み取り可能な記録媒体。
前記特徴量抽出器のタスク固有コンポーネントにおけるパラメータは、その割り当てられたタスクのみの損失を最小化するように更新される、請求項８に記載の非一時的なコンピュータで読み取り可能な記録媒体。
訓練中、前記Ｎ個のグループの各グループは、対応するタスク勾配によってのみ更新される、請求項８に記載の非一時的なコンピュータで読み取り可能な記録媒体。
各タスクは、他のタスクから干渉されることなくその特徴量を学習する、請求項８に記載の非一時的なコンピュータで読み取り可能な記録媒体。
前記フィルタを分割することは誤差逆伝播のみに適用される、請求項８に記載の非一時的なコンピュータで読み取り可能な記録媒体。
ラウンドロビンのバッチレベル更新メカニズムが適用される、請求項８に記載の非一時的なコンピュータで読み取り可能な記録媒体。
多様な人分析にふさわしい勾配分割によるマルチタスク学習のためのシステムであって、
メモリと、
各データセットがそれぞれ１つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出し（１００１）、
特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに前記訓練データを供給し（１００３）、
前記特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるＮ個のグループに分割し（１００５）、
前記Ｎ個のグループの各グループにそれぞれ１つのタスクを割り当て（１００７）、
前記特徴量抽出器タスク固有コンポーネントにおけるパラメータは、前記パラメータから、定数と、前記特徴量抽出器タスク固有コンポーネントの割り当てられたタスクの損失の前記パラメータに対しての勾配との積を減算することのみによって更新されるように構成された、前記メモリと通信する１つまたは複数のプロセッサと、
を有するシステム。
前記特徴量抽出器は前記抽出された画像から特徴量マップを生成し、前記タスク固有ヘッドは前記生成された特徴量マップに基づいてタスク予測を出力する、請求項１５に記載のシステム。
前記特徴量抽出器タスク固有コンポーネントにおけるパラメータは、その割り当てられたタスクのみの損失を最小化するように更新される、請求項１５に記載のシステム。
訓練中、前記Ｎ個のグループの各グループは、対応するタスク勾配によってのみ更新される、請求項１５に記載のシステム。
各タスクは、他のタスクから干渉されることなくその特徴量を学習する、請求項１５に記載のシステム。
前記フィルタを分割することは誤差逆伝播のみに適用される、請求項１５に記載のシステム。