JP7126613B2

JP7126613B2 - ドメイン分類器を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法

Info

Publication number: JP7126613B2
Application number: JP2021522367A
Authority: JP
Inventors: チェン、ルーシン; チェン、ミン―ハン; ユー、ジェクウォン; リュー、シャオユー
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-10-31
Filing date: 2019-08-27
Publication date: 2022-08-26
Anticipated expiration: 2039-08-27
Also published as: US11494612B2; US20200134424A1; EP3874414A1; JP2022505718A; WO2020091882A1; JP2022171662A; CN112970035A; JP7431291B2; EP3874414A4

Description

本出願は、一般に、コンピュータ技術に必然的に根ざしており、具体的な技術的改善をもたらす、技術的に創意工夫された非定型的な解決策に関する。

機械学習は、時としてディープラーニングと称され、画像分類、光学式文字認識（ＯＣＲ）、オブジェクト認識、アクション認識、スピーチ認識及び感情認識を含む、データの理解、検出及び／または分類に関する多岐にわたる有用な用途に使用することができる。しかしながら、本明細書で理解されるように、機械学習システムは、例えば、コンピュータゲームなどのあるドメインにおけるアクションを、例えば、動画ビデオといった別のドメインからのデータの訓練セットを使用して認識するには不十分である可能性がある。

例えば、コンピュータゲーム業界では、ビデオとオーディオとは、２つの別個のプロセスである。ゲームは、オーディオなしで最初に設計及び制作され、次いで、オーディオグループがゲームビデオ全体を調査し、対応するサウンドエフェクト（ＳＦＸ）をＳＦＸデータベースから挿入するが、これには時間がかかる。本明細書で理解されるように、プロセスを促進するために機械学習が使用され得るが、現在のアクション認識モデルは、実世界のビデオデータセット上で訓練されるため、ゲームビデオ上で使用されるとデータセットシフトまたはデータセットバイアスの影響を受ける場合がある。

上記で言及されたドメインの不一致の問題を克服するために、訓練データの少なくとも２つの汎用ドメイン（画像もしくはビデオまたはオーディオ）を使用してターゲットデータセットを分類する。訓練データドメインのペアは、例えば、実世界のビデオとコンピュータゲームのビデオ、第１の話者の音声と第２の話者の音声（音声認識用）、標準フォントテキストと筆記体スクリプト（手書き認識用）などによって確立され得る。

したがって、損失関数及び／または実際のニューラルネットワークによって確立された汎用ドメイン適応モジュールは、深層学習の２つの訓練ドメインから複数の出力ポイントからの入力を受け取り、ニューラルネットワークの２つのトラックの一方及び場合によっては両方に対して最適化を行うことができるように出力測定値を提供する。汎用クロスドメイン特徴正規化モジュールも使用され得、このモジュールは、ニューラルネットワークのいずれかの層に挿入される。

したがって、一態様では、装置は、少なくとも１つのプロセッサと、一時的信号ではない少なくとも１つのコンピュータ記憶装置であって、少なくとも１つのプロセッサによって実行可能な命令を含む少なくとも１つのコンピュータ記憶装置とを含む。命令は、第１のデータタイプに関連付けられた第１のニューラルネットワークにアクセスすることと、第１のデータタイプとは異なる第２のデータタイプに関連付けられた第２のニューラルネットワークにアクセスすることと、入力として第１の訓練データを第２のニューラルネットワークに提供することとを行うように実行可能である。命令はまた、第１の層を選択することであって、第１の層が第２のニューラルネットワークの隠れ層である、選択することを行うように実行可能である。命令は、次いで、第１の訓練データに基づいて生成された第１の層からの出力を識別することと、第３のニューラルネットワークを使用して、第１の層からの出力が第１のニューラルネットワークからのものであるかどうかを判定することとを行うように実行可能である。第３のニューラルネットワークは、第１及び第２のニューラルネットワークとは異なる。命令は、第１の層からの出力が第１のニューラルネットワークからのものではないとの判定に基づき、第１の層の１つ以上の重みを調整することを行うようにさらに実行可能である。

いくつかの例では、命令は、第１のニューラルネットワークをコピーすることによって第２のニューラルネットワークを最初に確立することを行うように実行可能であり得る。

また、いくつかの例では、命令は、第１の層からの出力が第１のニューラルネットワークからのものであるとの判定に基づき、第１の層の１つ以上の重みを調整することを拒否することを行うように実行可能であり得る。いくつかの実施形態では、出力は第１の出力であり得、命令は、第１の層からの第１の出力が第１のニューラルネットワークからのものであるとの判定に基づき、第２の層を選択することであって、第２の層も第２のニューラルネットワークの隠れ層である、選択することを行うように実行可能であり得る。命令はまた、第２の出力を識別することであって、第２の出力が第２の層からのものである、識別することと、第３のニューラルネットワークを使用して、第２の出力が第１のニューラルネットワークからのものであるかどうかを判定することとを行うように実行可能であり得る。命令は、次いで、第２の出力が第１のニューラルネットワークからのものではないとの判定に基づき、第２の層の１つ以上の重みを調整することを行うように実行可能であり得る。第２のニューラルネットワークの第１及び第２の層は、ランダムに選択され得る。

加えて、第１の層からの出力が第１のニューラルネットワークからのものであるかどうかを判定するために第３のニューラルネットワークを使用する前に、命令は、第１のニューラルネットワーク及び第２のニューラルネットワークのうちのいずれかの層からの出力を正しく分類するように第３のニューラルネットワークが学習するように第３のニューラルネットワークの１つ以上の層の１つ以上の重みを調整することを行うように実行可能であり得る。第３のニューラルネットワークは、さらに、教師なしモードにおいて、ラベル付きデータを使用して、第１のニューラルネットワーク及び第２のニューラルネットワークのうちのいずれかの層からの出力を正しく分類するように学習するように動作し得る。

別の態様では、方法は、第１のデータタイプに関連付けられた第１のニューラルネットワークにアクセスすることと、第１のデータタイプとは異なる第２のデータタイプに関連付けられた第２のニューラルネットワークにアクセスすることと、入力として、第１の訓練データを第２のニューラルネットワークに提供することとを含む。方法はまた、第１の層を選択することであって、第１の層が第２のニューラルネットワークの隠れ層である、選択することと、第１の訓練データに基づいて生成された第１の層からの出力を識別することと、第３のニューラルネットワークを使用して、第１の層からの出力が第１のニューラルネットワークからのものであるかどうかを判定することとを含む。第３のニューラルネットワークは、第１及び第２のニューラルネットワークとは異なる。方法はまた、第１の層からの出力が第１のニューラルネットワークからのものではないと判定したことに基づき、第１の層の１つ以上の重みを調整することを含む。

さらに別の態様では、装置は、一時的な信号ではない少なくとも１つのコンピュータ記憶装置であって、少なくとも１つのプロセッサにより、第１のドメインジャンルに関連付けられた第１のドメインにアクセスすることと、第１のドメインジャンルとは異なる第２のドメインジャンルに関連付けられた第２のドメインにアクセスすることと、第１及び第２のドメインに提供された訓練データを使用して、ターゲットデータセットを分類することとを行うように実行可能である命令を含む少なくとも１つのコンピュータ記憶装置を含む。命令はまた、ターゲットデータセットの分類を出力することであって、ターゲットデータセットが、勾配を反転し、勾配をメインモデルに逆伝播させるためにドメイン分類器を含むドメイン適応モジュールによって分類される、出力することを行うように実行可能である。

本出願の詳細は、その構造と動作との両方について、同様の参照符号が同様の部分を指す添付図面を参照して最も良く理解することができる。

本原理と一致した例示的なシステムのブロック図である。本原理と一致する例示的な論理のフローチャートである。本原理と一致する例示的な論理のフローチャートである。本原理に従った各種のドメイン適応アーキテクチャの例を示す図である。本原理と一致する例示的な論理のフローチャートである。本原理に従った各種のドメイン適応アーキテクチャの例を示す図である。本原理と一致する例示的な論理のフローチャートである。本原理に従った各種のドメイン適応アーキテクチャの例を示す図である。本原理と一致する例示的な論理のフローチャートである。本原理と一致する例示的な論理のフローチャートである。本原理に従った各種のドメイン適応アーキテクチャの例を示す図である。本原理を示す例示的な表である。本原理に従った各種のドメイン適応アーキテクチャの例を示す図である。本原理と一致する例示的な論理のフローチャートである。本原理に従った各種のドメイン適応アーキテクチャの例を示す図である。本原理と一致する例示的な論理のフローチャートである。本原理を示す例示的な表である。本原理に従った各種のドメイン適応アーキテクチャの例を示す図である。

本原理によれば、深層学習ベースのドメイン適応方法は、任意のソース及びターゲットドメインデータが与えられた場合の理解／検出／分類などの画像もしくはビデオまたはオーディオ関連タスクのドメイン不一致の問題を克服するために使用され得る。少なくとも３つの汎用タイプのデータが使用され得（画像もしくはビデオまたはオーディオ）、システムパフォーマンスを改善するために全てのタイプのニューラルネットワークモジュールが使用され得る。

本明細書で説明されるように、深層学習処理フローの２つのトラックが、タスクを出力するための特定の入力のいずれかに使用され得る。一方のトラックは、一方のデータのドメインに使用され得、別のトラックは、別のデータのドメインに使用され得るため、２つのデータのドメインに少なくとも２つの深層学習のトラックが存在し得る。ドメインのペアは、例として、実世界のビデオ及びビデオゲーム世界のビデオなどの２つのタイプのビデオ、ある話者の音声と別の話者の音声、標準フォントテキストと筆記体スクリプト、スピーチ認識ドメイン、テキスト・トゥ・スピーチ、及びスピーチ・トゥ・テキストとすることができる。

汎用ドメイン適応モジュールについて以下に説明するが、このモジュールは、時として損失関数を使用する。汎用ドメイン適応モジュールはまた、複数の出力ポイントからの入力を深層学習の２つのトラックから取り、ニューラルネットワークの２つのトラックに対して最適化を行うことができるように出力測定値を提供する実際のニューラルネットワーク接続を使用し得る。汎用ドメイン適応モジュールはまた、ニューラルネットワークのいずれかの層に挿入することができる汎用クロスドメイン特徴正規化モジュールを使用し得る。

したがって、本明細書で説明される方法は、複数のオブジェクト及び複数のオブジェクトに関連付けられた複数のアクションに関係し得る。例えば、多くのテキストの画像テキストブロックは「オブジェクト」であり得、画像ブロックのタイプは「アクション」であり得る。

この開示はまた、一般に、限定されることはないが、分散コンピュータゲームネットワーク、拡張現実（ＡＲ）ネットワーク、仮想現実（ＶＲ）ネットワーク、ビデオブロードキャスティング、コンテンツ配信ネットワーク、仮想マシン、ならびに人工ニューラルネットワーク及び機械学習アプリケーションなどの、家電（ＣＥ）デバイスネットワークの態様を含むコンピュータエコシステムに関する。

本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るように、ネットワークを通じて接続されたサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントは、ＡＲヘッドセット、ＶＲヘッドセット、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）などのゲームコンソール及び関連マザーボード、ゲームコントローラ、ポータブルテレビ（例えば、スマートＴＶ、インターネット対応ＴＶ）、ラップトップ及びタブレットコンピュータなどのポータブルコンピュータ、ならびにスマートフォン及び以下で議論される追加の例を含む他のモバイルデバイスを含む１つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、多岐にわたる動作環境で動作し得る。例えば、クライアントコンピュータのいくつかは、例として、Ｏｒｂｉｓ（登録商標）もしくはＬｉｎｕｘ（登録商標）オペレーティングシステム、Ｍｉｃｒｏｓｏｆｔ（登録商標）のオペレーティングシステムもしくはＵｎｉｘ（登録商標）オペレーティングシステム、またはＡｐｐｌｅ（登録商標），Ｉｎｃ．もしくはＧｏｏｇｌｅ（登録商標）によって制作されたオペレーティングシステムを採用し得る。これらの動作環境は、以下で議論されるインターネットサーバによってホスティングされたウェブサイトにアクセスすることができる、Ｍｉｃｒｏｓｏｆｔ（登録商標）もしくはＧｏｏｇｌｅ（登録商標）もしくはＭｏｚｉｌｌａ（登録商標）によって作られたブラウザ、または他のブラウザプログラムなどの、１つ以上のプログラム／アプリケーションを実行するために使用され得る。また、本原理に従った動作環境は、本原理を担う１つ以上のコンピュータゲームプログラム／アプリケーション及び他のプログラム／アプリケーションを実行するために使用され得る。

サーバ及び／またはゲートウェイは、インターネットなどのネットワークを通じてデータを受信及び送信するようにサーバを構成する命令を実行する１つ以上のプロセッサを含み得る。追加的または代替的に、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを通じて接続することができる。サーバまたはコントローラは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）、パーソナルコンピュータなどの、ゲームコンソール及び／またはその１つ以上のマザーボードよってインスタンス化され得る。

情報は、クライアントとサーバとの間でネットワークを通じて交換され得る。この目的のために、さらにはセキュリティのために、サーバ及び／またはクライアントは、ファイアウォール、ロードバランサ、一時的記憶装置、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含むことができる。１つ以上のサーバは、オンラインソーシャルウェブサイトまたはビデオゲームウェブサイトなどのセキュアなコミュニティを本原理に従ってクラウドソーシングによってコミュニケーションするためにネットワークユーザに提供する方法を実施する装置を形成し得る。

本明細書で使用される場合、命令は、本システムにおいて情報を処理するためのコンピュータによって実施されるステップを指す。命令は、ソフトウェア、ファームウェア、またはハードウェアにおいて実施することができ、システムのコンポーネントが担ういずれかのタイプのプログラムされたステップを含むことができる。

プロセッサは、アドレスライン、データライン及び制御ラインなどの各種のライン、ならびにレジスタ及びシフトレジスタによって論理を実行することができる、いずれかの従来の汎用シングルチッププロセッサまたはマルチチッププロセッサであり得る。

本明細書でフローチャート及びユーザインタフェースによって説明されるソフトウェアモジュールは、各種のサブルーチン、手順などを含むことができる。本開示を限定することなく、特定のモジュールによって実行されるように規定された論理は、他のソフトウェアモジュールに再分配することができ、及び／または共に組み合わせて単一のモジュールにすることができ、及び／または共有可能ライブラリにおいて利用可能にすることができる。

上記で指示されたように、本明細書で説明される本原理は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせとして実装することができる。したがって、例示的なコンポーネント、ブロック、モジュール、回路及びステップが、それらの機能性の観点から記載される。

さらに、上記で示唆されたものについて、以下で説明される論理ブロック、モジュール及び回路は、本明細書で説明される機能を実行するように設計された、汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、もしくは特定用途向け集積回路（ＡＳＩＣ）などの他のプログラマブルロジックデバイス、個別ゲートもしくはトランジスタロジック、個別ハードウェアコンポーネント、またはそれらの任意の組み合わせを用いて実装または実行することができる。プロセッサは、コントローラもしくはステートマシン、またはコンピューティングデバイスの組み合わせによって実装することができる。

以下で説明される機能及び方法は、ハードウェア回路またはソフトウェア回路で実装され得る。ソフトウェアで実装されるとき、機能及び方法は、限定されることはないが、Ｊａｖａ（登録商標）、Ｃ＃またはＣ＋＋などの適切な言語で書き込むことができ、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、電気的消去可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）もしくはデジタル多用途ディスク（ＤＶＤ）などの他の光ディスク記憶装置、磁気ディスク記憶装置もしくは着脱可能なサムドライブを含む他の磁気記憶デバイスなどのコンピュータ可読記憶媒体上に記憶させることができるか、またはそのようなコンピュータ可読記憶媒体を通じて転送することができる。接続は、コンピュータ可読媒体を確立し得る。係る接続は、例として、光ファイバ及び同軸ワイヤ及びデジタル加入者回線（ＤＳＬ）及びツイストペアワイヤを含む有線ケーブルを含むことができる。係る接続は、赤外線及び無線を含む無線通信接続を含み得る。

一実施形態に含まれるコンポーネントは、他の実施形態では、いずれかの適切な組み合わせで使用することができる。例えば、本明細書で説明される、及び／または図で示される各種のコンポーネントのいずれかが、組み合わされ得、交換され得、または他の実施形態から排除され得る。

「Ａ、Ｂ及びＣのうちの少なくとも１つを有するシステム」（同様に「Ａ、ＢまたはＣのうちの少なくとも１つを有するシステム」及び「Ａ、Ｂ、Ｃのうちの少なくとも１つを有するシステム」）は、Ａ単独、Ｂ単独、Ｃ単独、Ａ及びＢを一緒に、Ａ及びＣを一緒に、Ｂ及びＣを一緒に、ならびに／またはＡ、Ｂ及びＣを一緒に有するシステムなどを含む。

ここで、具体的には図１を参照すると、上記で言及され、本原理に従って以下でさらに説明される例示的なデバイスのうちの１つ以上を含み得る例示的なシステム１０が示されている。システム１０に含まれる例示的なデバイスのうちの最初のものは、限定されることはないが、テレビチューナ（同様に、テレビを制御するセットトップボックス）を備えたインターネット対応テレビなどのオーディオビデオデバイス（ＡＶＤ）１２などの家電（ＣＥ）デバイスである。しかしながら、ＡＶＤ１２は、代替的に、例えば、コンピュータ化されたインターネット対応冷蔵庫、洗濯機または乾燥機といった、電気器具または家庭用品であり得る。代替的に、ＡＶＤ１２はまた、コンピュータ化されたインターネット対応（「スマート」）電話、タブレットコンピュータ、ノートブックコンピュータ、拡張現実（ＡＲ）ヘッドセット、仮想現実（ＶＲ）ヘッドセット、インターネット対応グラスまたは「スマート」グラス、コンピュータ化されたインターネット対応時計などの別のタイプのコンピュータ化されたウェアラブルデバイス、コンピュータ化されたインターネット対応ブレスレット、コンピュータ化されたインターネット対応ミュージックプレイヤー、コンピュータ化されたインターネット対応ヘッドフォン、埋め込み可能な皮膚用デバイスなどのコンピュータ化されたインターネット対応の埋め込み可能なデバイス、他のコンピュータ化されたインターネット対応デバイスなどであり得る。それにも関わらず、ＡＶＤ１２は、本原理を担う（例えば、本原理を担うように他の家電（ＣＥ）デバイスと通信し、本明細書で説明される論理を実行し、本明細書で説明されるいずれかの他の機能及び／または動作を実行する）ように構成されることが理解されよう。

したがって、係る原理を担うために、ＡＶＤ１２は、図１に示されるコンポーネントのいくつかまたは全てによって確立することができる。例えば、ＡＶＤ１２は、高解像度または超高解像度「４Ｋ」以上のフラットスクリーンによって実装され得、ディスプレイに対するタッチを介してユーザ入力信号を受信するためにタッチ対応であり得る１つ以上のディスプレイ１４を含むことができる。ＡＶＤ１２は、本原理に従ってオーディオを出力するための１つ以上のスピーカ１６、及び可聴コマンドをＡＶＤ１２に入力してＡＶＤ１２を制御するためのオーディオ受信機／マイクロホンなどの、少なくとも１つの追加入力デバイス１８を含み得る。例示的なＡＶＤ１２はまた、１つ以上のプロセッサの制御下で、インターネット、ＷＡＮ、ＬＡＮなどの、少なくとも１つのネットワーク２２を経由して通信するための１つ以上のネットワークインタフェース２０を含み得る。したがって、インタフェース２０は、限定されることはないが、Ｗｉ－Ｆｉ（登録商標）送受信機であり得、このＷｉ－Ｆｉ（登録商標）送受信機は、限定されることはないが、メッシュネットワーク送受信機などの無線コンピュータネットワークインタフェースの例である。さらに、ネットワークインタフェース２０は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニー送受信機もしくは上記で言及されたようなＷｉ－Ｆｉ（登録商標）送受信機などの他の適切なインタフェースであり得ることに留意されたい。

１つ以上のプロセッサは、ディスプレイ１４を制御して当該ディスプレイ上に画像を提示すること、及び当該ディスプレイから入力を受信することなどの、本明細書で説明されるＡＶＤ１２の他の要素を含む、本原理を担うようにＡＶＤ１２を制御することが理解されよう。１つ以上のプロセッサは、中央処理装置（ＣＰＵ）２４、及びグラフィックスカード２５Ａ上のグラフィックス処理装置（ＧＰＵ）２５を含み得る。

上記に加えて、ＡＶＤ１２はまた、例えば、別の家電（ＣＥ）デバイスに（例えば、有線接続を使用して）物理的に接続するための高解像度マルチメディアインタフェース（ＨＤＭＩ（登録商標））ポートもしくはＵＳＢポート、及び／またはヘッドフォンを通じてＡＶＤ１２からユーザにオーディオを提供するためにＡＶＤ１２にヘッドフォンを接続するためのヘッドフォンポートなどの、１つ以上の入力ポート２６を含み得る。例えば、入力ポート２６は、ケーブルまたはオーディオビデオコンテンツのサテライトソース２６ａに有線または無線を介して接続され得る。したがって、ソース２６ａは、例えば、分離もしくは統合されたセットトップボックス、またはサテライト受信機であり得る。または、ソース２６ａは、チャネル割り当て目的でユーザによって好みとみなされ得るコンテンツを含むゲームコンソールまたはディスクプレイヤーであり得る。ソース２６ａは、ゲームコンソールとして実装されるとき、ＣＥデバイス４４に関連して以下で説明されるコンポーネントのいくつかまたは全てを含み得、本明細書で説明される論理のいくつかまたは全てを実装し得る。

ＡＶＤ１２はさらに、いくつかの場合には、スタンドアロンデバイスとして、もしくはパーソナルビデオレコーディングデバイス（ＰＶＲ）としてＡＶＤのシャーシ内で具現化され、またはＡＶプログラムを再生するためにＡＶＤのシャーシの内部もしくは外部のいずれかでビデオディスクプレイヤーとして具現化され、または着脱可能なメモリ媒体として具現化された、一時的信号ではないディスクベースの記憶装置またはソリッドステート記憶装置などの１つ以上のコンピュータメモリ２８を含み得る。また、いくつかの実施形態では、ＡＶＤ１２は、限定されることはないが、例えば、少なくとも１つのサテライト基地局もしくは携帯電話基地局から地理的位置情報を受信し、情報をプロセッサ２４に提供し、及び／またはＡＶＤ１２がプロセッサ２４と共に配置される高度を判定するように構成された、携帯電話受信機、ＧＰＳ受信機及び／または高度計３０などの位置受信機または場所受信機を含むことができる。しかしながら、例えば、全ての３つの次元において、ＡＶＤ１２の場所を判定するために、携帯電話受信機、ＧＰＳ受信機及び／または高度計以外の別の適切な位置受信機が本原理に従って使用され得ることが理解されよう。

ＡＶＤ１２の説明を続けると、いくつかの実施形態では、ＡＶＤ１２は、１つ以上のカメラ３２を含み得る。このカメラは、例えば、サーマルイメージングカメラ、ウェブカメラなどのデジタルカメラ、赤外線（ＩＲ）カメラ、ならびに／またはＡＶＤ１２に統合され、本原理に従って写真／画像及び／もしくはビデオを生成するようにプロセッサ２４によって制御可能であるカメラであり得る。また、ＡＶＤ１２に含まれるのは、Ｂｌｕｅｔｏｏｔｈ（登録商標）及び／または近距離無線通信（ＮＦＣ）技術をそれぞれ使用して他のデバイスと通信するためのＢｌｕｅｔｏｏｔｈ（登録商標）送受信機３４及び他のＮＦＣ要素３６であり得る。例示的なＮＦＣ要素は、無線周波数識別（ＲＦＩＤ）要素とすることができる。

さらにまた、ＡＶＤ１２は、プロセッサ２４に入力を提供する１つ以上の補助センサ３７（例えば、加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、または磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度センサ及び／またはケイデンスセンサ、（例えば、ジェスチャコマンドを検出するための）ジェスチャセンサなど）を含み得る。ＡＶＤ１２は、プロセッサ２４に入力を提供する無線経由ＴＶ放送を受信するためのＯＴＡテレビ放送ポート３８を含み得る。上記に加えて、ＡＶＤ１２はまた、赤外線データアソシエーション（ＩＲＤＡ）デバイスなどの赤外線（ＩＲ）送信機及び／またはＩＲ受信機及び／またはＩＲ送受信機４２を含み得ることに留意されたい。ＡＶＤ１２に給電するためにバッテリ（図示せず）が提供され得る。

さらに図１を参照すると、ＡＶＤ１２に加えて、システム１０は、１つ以上の他の家電（ＣＥ）デバイスタイプを含み得る。一例では、第１のＣＥデバイス４４は、ＡＶＤ１２に直接送られるコマンドを介して、及び／または以下で説明されるサーバを通じてコンピュータゲームのオーディオ及びビデオをＡＶＤ１２に送るために使用され得る一方、第２のＣＥデバイス４６は、第１のＣＥデバイス４４と同様のコンポーネントを含み得る。示される例では、第２のＣＥデバイス４６は、示されるようにユーザ４７によって装着されたＡＲまたはＶＲヘッドセットとして構成され得る。示される例では、２つのＣＥデバイス４４、４６のみが示されているが、より少ない、またはより多いデバイスも本原理に従って使用され得ることを理解されたい。

示される例では、３つのデバイス１２、４４、４６は全て、安全なもしくは暗号化されたネットワーク、エンターテインメントネットワーク、もしくは例えば家庭内のＷｉ－Ｆｉなどのネットワークのメンバであるか、または、少なくとも特定の場所で互いに近接して存在し、本明細書で説明されるように互いに、及びサーバと通信可能であると仮定される。しかしながら、本原理は、他に明確に主張されない限り、特定の場所またはネットワークに限定されない。

例示的な限定されない第１のＣＥデバイス４４は、上記で言及されたデバイス、例えば、スマートフォン、デジタルアシスタンス、ポータブル無線ラップトップコンピュータもしくはノートブックコンピュータまたはゲームコントローラ（「コンソール」とも称される）のうちのいずれか１つによって確立され得、したがって、以下で説明されるコンポーネントのうちの１つ以上を有し得る。限定されない第２のＣＥデバイス４６は、ＡＲヘッドセット、ＶＲヘッドセット、「スマート」インターネット対応グラス、またはさらにはＢｌｕ－ｒａｙ（登録商標）プレイヤー、ゲームコンソールなどのビデオディスクプレイヤーなどによって確立され得る。またさらに、いくつかの実施形態では、第１のＣＥデバイス４４は、例えば、ＡＶＤ１２にＡＶ再生及び一時停止コマンドを発行するためのリモート制御（ＲＣ）であり得、または、この第１のＣＥデバイスは、有線もしくは無線リンクを介して図１に示されたデバイスのうちの別の１つによって実装されたゲームコンソールと通信し、ＡＶＤ１２、パーソナルコンピュータ、無線電話などに対するビデオゲームの提示を制御するタブレットコンピュータ、ゲームコントローラなどの、より洗練されたデバイスであり得る。

したがって、第１のＣＥデバイス４４は、１つ以上のディスプレイ５０を含み得、このディスプレイは、ディスプレイ５０に対するタッチを介してユーザ入力信号を受信するためのタッチ対応であり得る。追加的または代替的に、ディスプレイ５０（複数可）は、ＡＲヘッドセットディスプレイまたは「スマート」グラスディスプレイまたは「ヘッドアップ」ディスプレイ、ならびにＶＲヘッドセットディスプレイ、またはＡＲ及び／もしくはＶＲ画像を提示するように構成された他のディスプレイなどの、少なくとも部分的に透明なディスプレイであり得る。

第１のＣＥデバイス４４は、本原理に従ってオーディオを出力するための１つ以上のスピーカ５２、及びデバイス４４を制御するために可聴コマンドを第１のＣＥデバイス４４に入力するための、例えば、オーディオ受信機／マイクロホンなどの、少なくとも１つの追加入力デバイス５４を含み得る。例示的な第１のＣＥデバイス４４はさらに、１つ以上のＣＥデバイスプロセッサ５８の制御下で、ネットワーク２２を経由して通信するための１つ以上のネットワークインタフェース５６を含み得る。したがって、インタフェース５６は、限定されることはないが、Ｗｉ－Ｆｉ（登録商標）送受信機であり得る。このＷｉ－Ｆｉ送受信機は、メッシュネットワークインタフェースを含む無線コンピュータネットワークインタフェースの例である。プロセッサ５８は、例えば、ディスプレイ５０を制御して当該ディスプレイ上に画像を提示すること、及び当該ディスプレイから入力を受信することなどの、本明細書で説明される第１のＣＥデバイス４４の他の要素を含む、本原理を担うように第１のＣＥデバイス４４を制御することが理解されよう。さらに、ネットワークインタフェース５６は、例えば、有線もしくは無線のモデムもしくはルータ、または無線テレフォニー送受信機もしくは上記で言及されたようなＷｉ－Ｆｉ送受信機などの他の適切なインタフェースなどであり得ることに留意されたい。

またさらに、プロセッサ（複数可）５８に加えて、第１のＣＥデバイス４４はまた、グラフィックスカード５５Ａ上にグラフィックス処理ユニット（ＧＰＵ）５５を含み得ることに留意されたい。グラフィックス処理ユニット５５は、とりわけ、ディスプレイ５０上にＡＲ及び／またはＶＲ画像を提示するように構成され得る。

上記に加えて、第１のＣＥデバイス４４はまた、例えば、別のＣＥデバイスに（例えば、有線接続を使用して物理的に接続するためのＨＤＭＩ（登録商標）ポートもしくはＵＳＢポート、及び／またはヘッドフォンを通じて第１のＣＥデバイス４４からユーザにオーディオを提示するために第１のＣＥデバイス４４にヘッドフォンを接続するためのヘッドフォンポートなどの、１つ以上の入力ポート６０を含み得る。第１のＣＥデバイス４４はさらに、ディスクベースの記憶装置またはソリッドステート記憶装置などの、１つ以上の有形コンピュータ可読記憶媒体６２を含み得る。また、いくつかの実施形態では、第１のＣＥデバイス４４は、限定されることはないが、例えば、三角測量を使用して、少なくとも１つのサテライト基地局及び／または携帯電話基地局から地理的位置情報を受信し、ＣＥデバイスプロセッサ５８に情報を提供し、及び／または第１のＣＥデバイス４４がＣＥデバイスプロセッサ５８と共に配置される高度を判定するように構成された携帯電話及び／またはＧＰＳ受信機及び／または高度計６４などの位置受信機または場所受信機を含むことができる。しかしながら、例えば、全ての３つの次元において第１のＣＥデバイス４４の場所を判定するために、携帯電話及び／またはＧＰＳ受信機及び／または高度計以外の別の適切な位置受信機が本原理に従って使用され得ることが理解されよう。

第１のＣＥデバイス４４の説明を続けると、いくつかの実施形態では、第１のＣＥデバイス４４は、１つ以上のカメラ６６を含み得る。このカメラは、例えば、サーマルイメージングカメラ、ＩＲカメラ、ウェブカメラなどのデジタルカメラ、ならびに／または第１のＣＥデバイス４４に統合され、本原理に従って写真／画像及び／もしくはビデオを生成するようＣＥデバイスプロセッサ５８によって制御可能である別のタイプのカメラであり得る。また、第１のＣＥデバイス４４に含まれるのは、Ｂｌｕｅｔｏｏｔｈ（登録商標）及び／または近距離無線通信（ＮＦＣ）技術をそれぞれ使用して他のデバイスと通信するためのＢｌｕｅｔｏｏｔｈ（登録商標）送受信機６８及び他のＮＦＣ要素７０であり得る。例示的なＮＦＣ要素は、無線周波数識別（ＲＦＩＤ）要素とすることができる。

さらにまた、第１のＣＥデバイス４４は、ＣＥデバイスプロセッサ５８に入力を提供する１つ以上の補助センサ７２（例えば、加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、または磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度及び／またはケイデンスセンサ、（例えば、ジェスチャコマンドを検知するための）ジェスチャセンサなど）を含み得る。第１のＣＥデバイス４４は、例えば、ＣＥデバイスプロセッサ５８に入力を提供する１つ以上の気候センサ７４（例えば、気圧計、湿度センサ、風力センサ、光センサ、温度センサなど）及び／または１つ以上の生体センサ７６などの、さらに他のセンサを含み得る。上記に加えて、いくつかの実施形態では、第１のＣＥデバイス４４はまた、赤外線（ＩＲ）データアソシエーション（ＩＲＤＡ）デバイスなどのＩＲ送信機及び／またはＩＲ受信機及び／またはＩＲ送受信機７８を含み得ることに留意されたい。第１のＣＥデバイス４４に給電するためにバッテリ（図示せず）が提供され得る。ＣＥデバイス４４は、上記で説明された通信モード及び関連コンポーネントのいずれかを通じてＡＶＤ１２と通信し得る。

第２のＣＥデバイス４６は、ＣＥデバイス４４に関して示されたコンポーネントのいくつかまたは全てを含み得る。いずれか１つまたは両方のＣＥデバイスは、１つ以上のバッテリによって給電され得る。

ここで、先に言及された少なくとも１つのサーバ８０を参照すると、このサーバは、少なくとも１つのサーバプロセッサ８２、ディスクベースの記憶装置またはソリッドステート記憶装置などの、少なくとも１つの有形コンピュータ可読記憶媒体８４を含む。実施態様では、媒体８４は、１つ以上のソリッドステート記憶ドライブ（ＳＳＤ）を含む。サーバはまた、ネットワーク２２を経由した図１の他のデバイスとの通信を可能にし、実際には、本原理に従ってサーバとクライアントデバイスとの間の通信を容易化し得る少なくとも１つのネットワークインタフェース８６を含む。ネットワークインタフェース８６は、例えば、有線もしくは無線のモデムもしくはルータ、Ｗｉ－Ｆｉ（登録商標）送受信機、または無線テレフォニー送受信機などの他の適切なインタフェースであり得ることに留意されたい。ネットワークインタフェース８６は、サーバプロセッサ８２を通過することなく、いわゆる「ファブリック」などのネットワークに媒体８４を直接接続するリモートダイレクトメモリアクセス（ＲＤＭＡ）インタフェースであり得る。ネットワークは、イーサネット（登録商標）ネットワーク及び／またはファイバチャネルネットワーク及び／またはインフィニバンドネットワークを含み得る。典型的には、サーバ８０は、物理サーバ「スタック」に配列され得る「ブレード」と称される複数のコンピュータにおいて複数のプロセッサを含む。

したがって、いくつかの実施形態では、サーバ８０は、インターネットサーバまたは「サーバファーム」全体であり得、「クラウド」機能を含み得、「クラウド」機能を実行し得、それにより、システム１０のデバイスは、例えば、本明細書に開示されるようなドメイン適応のための例示的な実施形態ではサーバ８０を介して「クラウド」環境にアクセスし得る。追加的または代替的に、サーバ８０は、１つ以上のゲームコンソール、または図１に示された他のデバイスと同じ部屋もしくはその近くにある他のコンピュータによって実装され得る。

追加の図を説明する前に、本原理に従って、人工知能システムを最適化するために、十分に訓練されたデータの最適化されたソースドメイン／モデルをコピーすることにより、異なるタイプのデータのためにソースドメインよりもさらに改良されるターゲットドメイン／モデルが確立され得ることが理解されよう。例えば、ソースドメインは、実世界のビデオにおけるアクション認識のためのものであり得るのに対し、ターゲットドメインは、ビデオゲームのビデオにおけるアクション認識のためのものであり得る。ビデオタイプ及びビジュアルが異なるため、ソースドメインは、ビデオゲームデータを使用してアクション認識を実行するには不十分であり得るが、ビデオゲームデータからのアクション認識に対して適切なターゲットドメインを適合させるための良好な開始点を依然として提供し得る。

したがって、本原理は、ドメインの適応及び最適化を実行するためのシステム及び方法について説明する。本開示によれば、これは、人間の監督者またはシステム管理者によってエラーが一旦識別されてからニューラルネットワークの出力／活性化層から逆伝播することによってのみならず、異なるが関連する訓練データをターゲットドメインとソースドメインとの両方を通じて実行し、出力が類似しているか、またはさらには同一であるかを判定するために互いに並列である各ドメインについていずれかの所与の隠れ層または中間層を選択することによって実行され得る。出力が統計的に類似していない場合、監督者または管理によって定義され得るように、中間ターゲット層についての特定の重み調整を本明細書で説明されるように実行して、（例えば、並列層についての抽象化が類似している／同一であることを保証するために）並列層からの出力の差を最小限に抑え、それによって異なるタイプのデータについてターゲットドメインをさらに最適化することができる。次いで、訓練後、最適化が許容可能な程度に実行されたことを保証するためにテストも行われ得る。

異なるが関連する訓練データに関する限り、データは、所与のドメインに適したデータであるという点で異なり得るが、ドメインのそれぞれについての訓練データが類似の概念またはメタファに関係し得るという点で関連し得る。例えば、ソースドメインに供給された訓練データは、パンチを実行する人間の実世界のビデオであり得、一方、ターゲットドメインに供給された訓練データは、パンチを実行するゲームキャラクタのビデオゲームのビデオであり得る。別の例として、今回はオブジェクト認識に関連して、ソースドメインに供給された訓練データは、リンゴの実世界の写真であり得、一方、ターゲットドメインに供給された訓練データは、デジタルのリンゴのビデオゲームのビデオであり得る。

加えて、上記で参照して使用されたような並列のソース及びターゲットの中間／隠れ層は、それらの層が同じタスク（複数可）を実行し、及び／または同じ目的を有する状態で、最初にターゲットドメインを確立するためにソースドメインがコピーされるため、同じことを開始するそれぞれのソース及びターゲット中間層を指す。したがって、中間ソース層番号５００は、例えば、中間ターゲット層番号５００と並列であり得る。ここで、ターゲットドメインはソースドメインからコピーされ、２つのドメインは同じ数の中間層を有し、ターゲット層番号５００は最初にソース層番号５００によって確立された。

上記を念頭に置き、以下、本原理についてより詳細に説明する。ビデオ分類のためのニューラルネットワーク（ＮＮ）の汎用トラックの修正の例としてフローチャート形式で示されたような図２の論理を参照して開始すると、ビデオ分類のためのベースラインアーキテクチャは次のように修正され得る。ブロック２００で開始すると、共通畳み込みニューラルネットワーク（ＣＮＮ）の空間領域抽出ネットワーク（ＳＲＥＮ）への修正が実行され得る。その結果、ビデオのシーン全体及び重要な空間領域（例えば、オブジェクト、身体部分など）の特徴ベクトルを抽出することができる。図２の論理は、次いで、ブロック２０２に進み得る。ここで、２つのタイプの出力である領域の特徴及びシーンの特徴が、フレームレベルの特徴ベクトルに連結され得、次いで、ブロック２０４で、それらがビデオモデルに入力され得る。

図２の論理は、次いで、ブロック２０６に進み得る。このブロックで、フレームレベルの特徴ベクトルは、時間的動的情報をモデル化するために長短期記憶（ＬＳＴＭ）ユニットを含むリカレントニューラルネットワーク（ＲＮＮ）に入力され得る。論理は、次いで、ブロック２０８に進み得る。このブロックで、（Ａ）シーン全体と（Ｂ）ビデオ（複数可）内の全ての重要な領域との両方を分類するように最終分類器が修正され得る。

図２の論理は、次いで、ブロック２１０に進み得る。このブロックで、ブロック２００～２０８が、異なるビデオタイプ／ジャンルからのデータを用いてアーキテクチャ全体を利用及び最適化するために第２のドメインジャンルに対して繰り返され得る。次いで、ブロック２１２で、フレームレベルの特徴ベクトル、ＲＮＮ後の特徴、及び分類器の出力が、入力としてドメイン適応モジュールに入力され得る。ドメイン適応モジュールは、以下の３つの方法のうちの１つ以上を使用し得る。これらのそれぞれは、図３、５及び７の異なるフローチャートにおいてそれぞれ示されており、ビデオデータを参照して説明される：不一致関数方法（図３）、ドメイン分類方法（図５）及びクロスドメインバッチ正規化方法（図７）。

図３を参照して不一致関数方法で開始すると、不一致関数は、ソースデータとターゲットデータとの間の全体的なデータ分布の距離を算出するために使用され得ることが理解されよう。不一致損失は、（以下参照してさらに説明されるような）モデルの複数の層から抽出されたソースデータとターゲットデータとの間の確率ベースの距離などの、ソース／ターゲットモデルの層のいずれかのサブセットからの異なるメトリックにより、または（以下でもさらに説明されるような）ソースモデルとターゲットモデルとの間のパラメータの差、もしくは（以下でもさらに説明されるような）これら２つのタイプの損失の加重和を規格化することによって定義することができる。不一致関数によって同時訓練することにより、分布の差が減少するようにモデルが最適化されて汎用化機能が向上する。

したがって、上記で説明されたようなブロック２１２から、図３は、ブロック３００で開始し得る。ここで、（出力層から逆伝播するときに使用される全体的な損失関数とは異なる）別の損失関数が定義及び追加され得、この追加の損失関数は、ソースから学習された特徴と、それぞれの並列層から出力されたターゲットデータとの間の距離として算出される不一致損失関数である。

不一致損失がない場合、全体的な損失関数は、ラベル付きのソースデータのみを使用して計算され得るため、最適化中、モデルはソースデータに徐々に適合する。これにより、２つのドメイン間の分布の差が大きくなる。したがって、ソースドメインからのラベル付きデータ及びターゲットドメインからのラベルなしデータを含む訓練データが使用される場合（一般に指定されたブロック３０２）、ならびにターゲットドメインからの全てであるテストデータが使用される場合（一般に指定されたブロック３０４）、教師なしドメイン適応プロトコルが、ソースデータとターゲットデータとの間の全体的な分布の差を減少させるように使用され得る。

図３のブロック３０６で、論理は、場合によってはラベルなしで、それぞれの並列層から出力されたソースデータ及びターゲットデータから学習された特徴間の距離を算出する。次いで、ブロック３０８で、不一致損失関数を用いた同時訓練が、ソースデータとターゲットデータとの間の全体的な分布の差を減少させるためにモデルに対して使用され得る。これは、時間モジュール及び最後の全結合層の出力からの特徴ベクトルを使用して不一致損失を算出することによってブロック３１０で行われ得る。図３からのこれらの原理を組み込んだ例示的なアクション認識アーキテクチャ及びその説明について図４に示す。

したがって、図４に示されるように、本原理を担うデバイスは、ソースニューラルネットワーク／ドメインであり得る第１のデータタイプに関連付けられた第１のニューラルネットワーク／ドメイン４００にアクセスし得、ターゲットニューラルネットワーク／ドメインであり得る第１のデータタイプとは異なる第２のデータタイプに関連付けられた第２のニューラルネットワーク／ドメイン４０２にアクセスし得、入力として、第１の訓練データを第１のニューラルネットワークに提供し得る。デバイスはまた、入力として、第２の訓練データを第２のニューラルネットワークに提供し得る。ここで、第１の訓練データは、第２の訓練データとは異なるが、依然として関連している。

例えば、第１のニューラルネットワーク／ドメイン４００は、実世界のビデオを使用したオブジェクト認識に関係し得る一方、第２のニューラルネットワーク／ドメイン４０２は、ビデオゲームのビデオを使用したオブジェクト認識に関係し得る。したがって、第１の訓練データは、実際のビデオ録画からの実世界のリンゴのビデオであり得、第２の訓練データは、ビデオゲームからのビデオゲームでレンダリングされたグラフィカルなリンゴのビデオであり得る。

デバイスは、次いで、第１の層からの第１の出力を識別し得、第１の層は、第１のニューラルネットワークの出力／活性化層であり、第１の出力は、第１の訓練データに基づいている。デバイスはまた、第２の層からの第２の出力を識別し得、第２の層は、第２のニューラルネットワークの出力／活性化層であり、第２の出力は、第２の訓練データに基づいている。デバイスは、次いで、第１及び第２の出力に基づき、第３の層の１つ以上の重みに対する第１の調整を決定し得、第３の層は、第２のニューラルネットワークの中間層である。第１の調整は、例えば、第１の不一致／損失関数を使用して、第２のニューラルネットワークの第２の層（第２のニューラルネットワークの出力／活性化層）からの逆伝播を介して決定され得る。

その後、人間の監督者が、第３の層及び第４の層（第４の層は、第１のニューラルネットワークの中間層である）を手動で選択するためにコマンドを提供し得、またはデバイス自体が、第３の層及び第４の層を（例えば、ランダムに）選択し得る。第３及び第４の層は、並列の中間層／隠れ層であり得る。その後、第３の層からの第３の出力が測定され得、第２のニューラルネットワーク用のオブジェクトラベル（例えば、「リンゴ」）が利用可能かどうかに関係なく第３の出力と第４の出力との間の類似性を測定するように（例えば、人間の監督者によって）変えられた第２の不一致／損失関数を使用して第４の層からの第４の出力と比較され得る。第３及び第４の出力自体は、第３及び第４の出力が、それぞれの第２及び第１のニューラルネットワークの後続のそれぞれの中間層にそれぞれ提供される前の、それぞれの第３及び第４の層のそれぞれのベクトル出力であり得、第３及び第４の出力自体は、それぞれ、第２及び第１の訓練データに基づいている。

デバイスは、次いで、比較／第２の関数に基づき、第３の層の１つ以上の重みに対する第２の調整を決定し得、重みの変化の量は、第２の関数の大きさに比例する。その後、デバイスは、第１の調整と第２の調整との両方の検討に基づき、第３の層（及びさらには第２のニューラルネットワークの１つまたは全ての先行層）の１つ以上の重みを継続して調整し得る。例えば、第３の層の１つ以上の重みは、第１の調整からの重みの変化及び第２の調整からの重みの変化をそれぞれ合計することによって調整され得る。しかしながら、いくつかの例では、第１の調整と第２の調整との両方からの重みの変化の和よりも損失が少なくなるように人間の監督者またはデバイスによって決定された場合、第１の調整または第２の調整のうちの一方からの重みの変化のみが適用され得る。さらに他の例では、上記の代替例よりも損失が少なくなるように人間の監督者またはデバイスによって決定された場合、第１の調整からの重みの変化（複数可）の半分と第２の調整からの重みの変化（複数可）の半分とが合計され得る。

加えて、第２のニューラルネットワークは、第２の訓練データが第２のニューラルネットワークに提供される前に、第１のニューラルネットワークのコピーによって確立され得ることに留意されたい。それぞれのニューラルネットワークの第３及び第４の層は、それぞれのニューラルネットワークの中間の隠れ層などの、出力層以外の層であり得る。

加えて、第１の訓練データは第２の訓練データに関連し得、例えば、これら訓練データの両方は、アクション認識中の同じタイプのアクションまたはオブジェクト認識中の同じタイプのオブジェクトに関係する。

以下、上記で参照されたドメイン分類方法について、例示的な敵対的ベースのドメイン適応について説明するために図５を参照して説明する。この方法は、ドメイン分類器において勾配反転層（ＧＲＬ）を使用して重みを調整するため、アーキテクチャ／ドメイン分類器全体を混乱させ、その結果、ドメイン分類器は、異なるドメインからの出力を区別する機能を徐々に失い得る。ドメイン分類器は、それ自体、ソース及びターゲットニューラルネットワークとは別の第３のニューラルネットワークによって少なくとも部分的に確立され得る。

上記を念頭に置くと、上記で説明されたようなブロック２１２から、ブロック２１２のドメイン適応モジュールへのデータ入力が、図６に示されるようにブロックＦＣ－２６００を介してソースドメインからのものか、それともターゲットドメインからのものかを識別または判別するために図５の論理は、追加の浅い二値分類器（「ドメイン分類器」と称される）を追加することによってブロック５００で開始し得る。さらに、デバイスがメインモデル（例えば、メインビデオモデル）に勾配を逆伝播させる前に、ブロック５０２で勾配反転層（ＧＲＬ）６０２は、勾配を反転するために１つ以上のドメイン分類器６０４によって使用され得、その結果、ビデオモデルは反対方向に最適化され得、したがってドメイン分類器（複数可）は、２つのドメインからのベクトルを区別する能力を徐々に失う。したがって、モデルはソースドメインとターゲットドメインとの両方に汎用化される。

次いで、ブロック５０４で、１つのドメイン分類器６０４が、アーキテクチャの空間モジュール６０５の直後に挿入され得、別のドメイン分類器６０６が、空間方向と時間方向との両方においてドメイン適応を実行するためにアーキテクチャの時間モジュール６０８の直後に挿入され得る。次いで、ブロック５０６で、デバイスは、勾配をメインモデル（この場合、ビデオモデルであり得る）に逆伝播させ得る。この実施形態のための例示的なアーキテクチャ自体を図６に示す。

したがって、本原理を担うデバイスは、第１のデータタイプに関連付けられ、ソースニューラルネットワーク／ドメインであり得る第１のニューラルネットワーク／ドメインにアクセスし得る。デバイスはまた、第１のデータタイプとは異なる第２のデータタイプに関連付けられ、ターゲットニューラルネットワーク／ドメインであり得る第２のニューラルネットワーク／ドメインにアクセスし得る。デバイスは、次いで、入力として、第１の訓練データを第２のニューラルネットワークに提供し得る。

例えば、第１のニューラルネットワーク／ドメインは、実世界のビデオを使用したアクション認識に関係し得る一方、第２のニューラルネットワーク／ドメインは、ビデオゲームのビデオを使用したアクション認識に関係し得る。したがって、第１の訓練データは、ビデオゲームからのビデオゲームレンダリングされたグラフィカルなパンチングアクションの１フレームであり得る。

その後、人間の監督者が、第２のニューラルネットワークの第１の中間／隠れ層を手動で選択するためにコマンドを提供し得、またはデバイス自体が、第２のニューラルネットワークの第１の中間／隠れ層を（例えば、ランダムに）選択し、次いで、第２のニューラルネットワークの第１の層からの第１のベクトル出力をビデオのそれぞれのフレームについて識別し得る。次いで、ドメイン分類器であり得る第３のニューラルネットワークを使用して、デバイスは、第１のベクトル出力が第１のニューラルネットワークからのものであるか、それとも第２のニューラルネットワークからのものであるかを判定し得る。

第３のニューラルネットワークが、第１のベクトル出力が第２のニューラルネットワーク（例えば、ビデオゲームビデオドメイン）からのものであると判定した場合、第３のニューラルネットワークは混乱させられず、したがって、第２のニューラルネットワークの第１の層の１つ以上の重みは、第３のニューラルネットワークが再度実行されたときに第３のニューラルネットワークを継続して混乱させるように調整され得、第３のニューラルネットワークに、第２のニューラルネットワークの第１の層からの第２のベクトル出力を、実際には第２のニューラルネットワークからのベクトル出力ではなく第１のニューラルネットワークからのベクトル出力であるとして分類させる。ただし、その第２のベクトル出力が、依然として、第２のニューラルネットワークからのベクトル出力であるとして分類された場合、調整された第１の層の重みがその以前の値に戻され得、第２のニューラルネットワークの別の層が代わりに選択され得、このプロセスが繰り返され得る。

しかしながら、第３のニューラルネットワークのすぐ上のパラグラフの代わりに、第２のニューラルネットワークの第１の層からの第１のベクトル出力を、実際には第１のニューラルネットワーク（例えば、実世界のビデオのドメイン）からの出力であるとして分類した場合、デバイスは、第２のニューラルネットワークの第１の層が既に少なくともある程度最適化されている（例えば、第３のニューラルネットワークを混乱させて第２のニューラルネットワークからの第１のベクトル出力が実際には第１のニューラルネットワークからのものであったと勘違いさせる程度に最適化されている）ために第２のニューラルネットワークの第１の層の１つ以上の重みを調整することを拒否し得る。必要に応じて、別の隠れ層が次いで選択され得、このプロセスが、第２のニューラルネットワークの他の隠れ層について繰り返され得る。

したがって、アクション認識の例を使用すると、ゲームデータ出力がドメイン分類器／第３のニューラルネットワークによってゲームドメインからのものとして分類された場合、ゲームドメインの隠れ層の重みは、ドメイン分類器／第３のニューラルネットワークに後続のゲームデータ出力を実際のビデオドメインからのものとして分類させるという目標を達成するように、ドメイン分類器／第３のニューラルネットワークの勾配反転層を介して「逆」損失関数を使用して調整され得る。

ドメイン分類器方法に関係するような上記の事項は、第３のニューラルネットワーク自体（ドメイン分類器）が最初に訓練され、精度に対して最適化された後に実行され得ることにも留意されるべきである。第３のニューラルネットワークの訓練のこの初期段階中、第３のニューラルネットワークは、ラベル付きデータのベクトル出力を、そのベクトル出力が実際にはラベル毎の他のドメインからのものであったときにあるドメインからのものとして誤って分類するとき、教師なしで自己訂正し得る。

したがって、第３のニューラルネットワークについての重みは、最初はランダムであり得、次いで自己訂正中、第３のニューラルネットワークの重みを調整し、したがって（ドメイン分類器を確立する）第３のニューラルネットワーク自体を最適化して隠れ層または出力層からの出力を一方のドメインまたは他方のドメインからのものとして正しく分類するように第３のニューラルネットワークの出力層からの逆伝播が行われ得る。

上記で参照されたクロスドメインバッチ正規化（ＣＤＢＮ）方法について、以下、本原理に従った別のバージョンのドメイン適応を明らかにするために図７を参照して説明し、例としてビデオデータを再度参照する。本出願は、最適化を改善するために当初使用されたバッチ正規化（ＢＮ）自体がドメイン適応に利益をもたらすように修正することもできることを認識する。そのように行うために、ＣＤＢＮ方法は、ＣＢＤＮモジュール８００（図８）を空間領域抽出ネットワーク（ＳＲＥＮ）８０２とビデオモデル８０４との両方に適用し得る。ＣＤＢＮを用いて、メカニズムは、入力を正規化するようにドメイン統計を適応的に選択し得る。これにより、異なるビデオタイプ間の分布の差を減少させることができる。したがって、このＣＤＢＮと通常のＢＮとの違いのうちの１つは、一方がソースブランチ用であり、他の一方がターゲットブランチ用である、２つの統計をＣＤＢＮが算出することである。両方の統計は、この実施形態のための図８の例示的なアーキテクチャに従って示されるように、比率α（アルファ）でのソースデータとターゲットデータとの混合を使用して算出される。

ここで、ＣＤＢＮ方法のための図７の例示的な論理について説明すると、上記で説明されたようなブロック２１２から、論理は、図８に示されたように空間モジュール内でＣＤＢＮを全結合層８０６の後に追加することによってブロック７００で開始し得る。次いで、ブロック７０２での訓練中、モデルは、ソースブランチとターゲットブランチとの両方に対してデータを正規化するための最良の比率α（アルファ）を学習し得る。次いで、ブロック７０４でのテスト中、ソースブランチに関する統計及びターゲットブランチに関する統計を正規化するためにα（アルファ）及びターゲットブランチに関する統計が使用され得る。次いで、ブロック７０６で、別個のラベルなしのターゲットデータにエントロピー損失８０８が追加され得る。

したがって、本原理を担うデバイスは、第１のデータタイプに関連付けられた第１のニューラルネットワークにアクセスし得、第２のデータタイプに関連付けられた第２のニューラルネットワークにアクセスし得、入力として、第１の訓練データを第１のニューラルネットワークに提供し得る。デバイスはまた、入力として、第２の異なる訓練データを第２のニューラルネットワークに提供し得る。デバイスは、次いで、第１の訓練データに基づいて第１のニューラルネットワークの中間層からの第１の出力を識別し得、第２の訓練データに基づいて第２のニューラルネットワークの並列中間層からの第２の出力を識別し得る。デバイスは、次いで、第１の出力及び第２の出力を正規化するための比率を識別し得、比率を算定する式を適用して第２のニューラルネットワークの中間層の１つ以上の重みを変更し得る。

比率は、平均値に関係し得、いくつかの例では、第１の出力と第２の出力との間の平均と分散との両方が、式を適用するために分析され得る。比率が識別され得、並列中間層からの出力間で同様の平均及び分散を有するようにクロスドメインバッチ正規化（ＣＤＢＮ）を使用して式が適用され得る。

他の方法と同様に、ＣＤＢＮ方法の場合の第２のニューラルネットワークは、第２の訓練データが第２のニューラルネットワークに提供される前に第１のニューラルネットワークのコピーによって確立され得る。さらに、いくつかの例では、第１及び第２のニューラルネットワークは、アクション認識に関係し得、第１の訓練データは、第１の訓練データと第２の訓練データとが両方とも同じアクションに関係し得るという点で第２の訓練データに関連し得る。他の例では、第１及び第２のニューラルネットワークは、オブジェクト認識に関係し得、第１の訓練データは、第１の訓練データと第２の訓練データとが両方とも同じオブジェクトに関係し得るという点で第２の訓練データに関連し得る。

図２～８を参照した前述の説明に基づき、ここで、提案されたフレームワーク（複数可）が汎用的でもあり、フレキシブルでもあることが認識され得る。ドメイン損失の１つ以上またはソース／ターゲットモデルの一部をわずかに修正した状態で、多くの話者／ユーザ適応アルゴリズムをこのフレームワークに適用することができる。例えば、話者の適応では、敵対的損失は話者分類エラーとして定義することができるため、ソースモデルによって学習された深い特徴は、音響単位（例えば、音素または単語など）に関して判別できることにもなり、話者に対して変わらないことにもなる。

以下、本原理を組み込んだ適用及び例について説明する。

本原理は、とりわけ、画像、ビデオ及びオーディオデータ処理のための全ての可能な深層学習ベースの方法において使用され得る。

ゲームオブジェクト及び／またはアクション検出の場合、ゲームビデオが収集され得、別の既存のビデオデータセットを用いたプロトコルに従って生のビデオを処理済みのデータセットに変換するために効率的なデータ準備ツールが開発され得る。これを実世界のビデオデータセット「Ｋｉｎｅｔｉｃｓ」と組み合わせることにより、ドメイン適応のための第１のアクション認識データセットを形成することができる。本原理は、実世界とゲームの世界との両方において複数のオブジェクト及びアクションを認識するために使用することができ、データセットを評価し、データセット生成を強化するために使用することもできる。

光学式文字認識の場合、本原理は、標準フォント、芸術的テキスト、ゲーム内のフォントなどを含む、種々の手書きスタイルを認識するために使用され得る。

音声変換の場合、本原理は、ある話者の音声を他の話者の音声に変換するために使用され得る。

スピーチ認識のための話者適応の場合、本原理は、入力をスピーチのスペクトログラムに置き換えることによってオーディオ関連のタスクに対して使用され得る。話者適応では、ソースモデルは、多くの話者の音声を使用して事前に訓練され得、ターゲットドメインは、新しい話者からのわずかの発話のみを含み得る。この場合、ターゲットドメインモデルはソースモデルによって初期化することができる。適応中、ターゲットドメインデータの分類損失及びソースモデルとターゲットモデルとの間の不一致損失に対して同時最適化を実行することができる。不一致損失は、ソースモデルとターゲットモデルとの間のパラメータの差、またはソースモデル出力とターゲットモデル出力との間の電話配信距離のいずれかである可能性がある。

感情認識のためのマルチモーダルユーザ適応（例えば、感情出力を伴うテキスト、画像、ビデオ及び音声としての入力）の場合、ユーザの音声またはビデオクリップ（またはその両方）が与えられると、ドメイン適応モジュールは、あるユーザのスタイルを別のユーザのスタイルに適応させることができるため、ユーザの適応により、訓練セットに含まれていない新しい話者について感情認識の精度を改善することができる。加えて、空間領域抽出ネットワークを使用して複数の顔の表情を検出することができるため、種々のスタイルを有する複数の人々から感情を認識することができる。

ゲームの世界と実世界との間のアクション認識のためのドメイン適応について、以下でさらに詳細に述べるが、このタイプのドメイン適応に従って使用される例示的なアーキテクチャは、図４、６及び８において既に示されている。

ゲーム業界では、ビデオとオーディオとは、２つの別個のプロセスであり得る。ゲームは、最初にオーディオなしで設計及び制作されることが多く、次いで、オーディオグループは、ゲームビデオ全体を調査し、ゲームのＳＦＸデータベースから対応するサウンドエフェクト（ＳＦＸ）を挿入する。本原理に従ってアルゴリズムを開発することにより、マシンに、ゲームビデオからのビジュアルコンテンツを自動的に分析させ、次いで、対応するＳＦＸを分析結果とマッチングさせて、プロセスを最適化することができる。

深層学習技術はまた、ゲームビデオコンテンツを分析するために使用され得る。重要なサウンドエフェクトのほとんどはキャラクタのアクションに関連しているため、アクション認識はＳＦＸマッチングの重要なタスクである。深層学習アプローチを使用したアクション認識の場合、これらのアプローチは、ゲーム内のアクションを認識し、対応するアクション関連のＳＦＸを自動的に識別及び特定してゲーム制作プロセスを加速するために適用され得る。

残念なことに、全てではないとしてもほとんどの既存のアクション認識システムは実世界のビデオ用のものである。このことは、これらのシステムが全て、実世界のデータセットに対するパフォーマンスを示すことを意味する。それらの訓練済みのモデルは、データセットシフトまたはデータセットバイアスとも呼ばれる大きな分布の不一致が存在するため、ゲームビデオに対して直接使用することができない。したがって、本原理を使用することにより、ゲームビデオから収集されたデータを使用してモデルを訓練することができ、ドメイン適応を使用して、アクション認識のための深いアーキテクチャ用を含む、ビデオタスクの場合のデータセットシフトによる影響を低下させることができる。

以下では、図９及び１０のフローチャートに示される論理を参照しながら、ゲームのビデオと実世界のビデオとの間のドメイン関係を学習するためのモデルについて説明する。

実際のアクションデータセットの場合、図９のブロック９００に反映されているように、ゲームビデオが収集され得、効率的なデータ準備ツールが開発され得ることにより、別の既存のビデオデータセットを用いた共通プロトコルに従って生のビデオが処理済みのデータセットに変換される。次いで、図９のブロック９０２に反映されているように、これを実世界のビデオデータセット「Ｋｉｎｅｔｉｃｓ」と組み合わせて、ドメイン適応のための第１のアクション認識データセットを形成することができる。

次いで、図９のブロック９０４に従って、例えば、適正な比較のためのドメイン適応技術を用いることなく、アクション認識のためにベースラインアプローチが提供され得る。次いで、ビデオドメイン適応の場合、図９のブロック９０６に反映されているように、ベースラインと比較してパフォーマンスを改善するためにいくつかの（例えば、不一致ベース、敵対的ベース及び正規化ベースの）ドメイン適応技術をパイプラインに統合する第１のアクション認識アーキテクチャが開発され得る。

したがって、図１１に示されるように、アクション認識のためのベースラインアーキテクチャが確立され得る。入力された生のビデオは、フレームレベルの特徴ベクトルを抽出するために１０１層のＲｅｓＮｅｔにフィードフォワードされ得る。特徴ベクトルの数は、ビデオフレームの数に対応し得る。特徴ベクトルは、次いで、均一にサンプリングされ得、モデルに供給され得る。モデル全体は、図１１に示されるように、空間モジュール１１００と時間モジュール１１０２との２つの部分に分割され得る。空間モジュールは、１つの全結合層１１０４、１つの正規化線形ユニット（ＲｅＬＵ）１１０６及び１つのドロップアウト層１１０８を含み得る。空間モジュールは、汎用特徴ベクトル１１１０を、アクション認識であり得るタスク駆動型の特徴ベクトルに変換し得る。時間モジュール１１０２は、フレームレベルの特徴ベクトルを集約して、各ビデオを表す単一のビデオレベルの特徴ベクトルを形成することを目的としている。ビデオレベルの特徴ベクトルを生成するために、時間方向に沿った全ての特徴要素について平均値が計算され得る。この技術は、時として、時間プーリングと称される。次いで、ビデオレベルの特徴ベクトルは、予測１１１４を生成するための分類器としての最後の全結合層１１１２に供給され得る。予測は、分類損失を算出するために使用され得、次いで、モデル全体を最適化するために使用され得る。

次いで、図１０のブロック１０００によれば、本明細書で説明されたような１つ以上のドメイン適応（ＤＡ）アプローチ：（図４、６及び８にそれぞれ示されたような）不一致ベースのドメイン適応、敵対的ベースのドメイン適応及び正規化ベースのドメイン適応がベースラインアーキテクチャに統合され得る。次いで、教師なしのドメイン適応プロトコルに従い得る。ここで、訓練データは、（図１０のブロック１００２によれば）ソースドメインからのラベル付きデータ及びターゲットドメインからのラベルなしデータを含む一方、テストデータは、（図１０のブロック１００４によれば）全てターゲットドメインからのものであり得る。アクション認識のためのこの例によるドメイン適応方法に関するさらなる詳細については、図２～８及びそれに対応する説明を再度参照のこと。

次いで、各種のドメイン適応アプローチのパフォーマンスを評価するために、データセットは、仮想ドメインと実ドメインとの両方におけるデータを含み得る。ゲームビデオは、次いで、仮想ドメイン用のゲームアクションデータセットを構築するためにいくつかのゲームから収集され得る。ビデオの全体の長さは、例として、５時間４１分であり得る。全ての生のビデオ及びトリミングされていないビデオは、注釈に応じてビデオクリップにセグメント化され得る。各ビデオクリップについての全体の長さは１０秒であり得、最小の長さは１秒であり得る。データセット全体はまた、７：２：１の比率で各カテゴリのビデオをランダムに選択することによって訓練セット、検証セット及びテストセットに分割され得る。実ドメインの場合、Ｋｉｎｅｔｉｃｓ－６００が使用され得る。

ドメイン適応のための互いに近接した設定に従うことにより、仮想ドメインと実ドメインとの間で３０個の重複するカテゴリが選択され得る。カテゴリは、例として、休憩する、運ぶ、床を掃除する、登る、這う、しゃがむ、泣く、踊る、飲む、運転する、倒れる、戦う、抱擁する、ジャンプする、蹴る、点灯する、ニュースアンカー、ドアを開ける、塗装ブラシ、パラグライド、注ぐ、押す、読む、走る、銃を撃つ、凝視する、話す、投げる、歩く、皿を洗う、を含み得る。各カテゴリは、Ｋｉｎｅｔｉｃｓ－６００または仮想／ゲームデータセットの複数のカテゴリに対応し得る。例えば、「読む」というカテゴリは、Ｋｉｎｅｔｉｃｓ－６００における本を読んだり新聞を読んだりするカテゴリに対応し得る。

次いで、ビデオゲームの実際のアクションデータセットが、両方のドメインを用いて構築され得る。仮想ドメインの場合、合計で２６２５本の訓練ビデオと７４９本の検証ビデオとが存在し得る。実世界のドメインの場合、実ドメインと仮想ドメインとの間で同様のスケールの訓練データを保つために各カテゴリについて１００本のビデオがランダムに選択され得、元のＫｉｎｅｔｉｃｓ－６００の設定からの全ての検証ビデオが使用され得る。合計で３０００本の訓練用ビデオと３２５６本の検証用ビデオとが存在し得る。加えて、純粋なテスト用に５４２本のビデオも存在し得る。

提案されたドメイン適応アプローチは、次いで、自己収集された仮想データセット上で評価され得る。いくつかの例では、実装は、ＰｙＴｏｒｃｈフレームワークに基づき得る。フレームレベルの特徴抽出器としてＩｍａｇｅＮｅｔｒａｗビデオ１１１８上で事前に訓練されたＲｅｓＮｅｔ－１０１１１１６モデルが利用され得る。モデルに供給する前に、各ビデオについて時間方向に等しいスペースを有する固定数のフレームレベルの特徴ベクトルがサンプリングされ得る。適切な比較のために、アクション認識の一般的なプロトコルに従って、２５フレームがテストのためにサンプリングされ得る。訓練の場合、計算リソースの何らかの制限を仮定して５フレームのみがサンプリングされ得る。最適化の場合、初期学習率が０．１であり得、学習率の減少戦略に従い得る。確率的勾配降下法（ＳＧＤ）は、運動量及び重量の減衰が０．９及び１×１０－４のオプティマイザとして使用され得る。バッチサイズは５１２であり得、ここで、半分はラベル付きのソースデータからのものであり得、半分はラベルなしのターゲットデータからのものであり得る。

次いで、教師なしドメイン適応の実験プロトコルに従い得、この実験プロトコルは、次の実験設定を有し得る（ここで、全ての設定は仮想検証セット上でテストされ得る）：Ｏｒａｃｌｅ、ドメイン適応アプローチなしのラベル付きの仮想訓練セットを用いた訓練；ソースのみ、ドメイン適応アプローチなしのラベル付きの実際のアクション訓練セットを用いた訓練；不一致ベースのドメイン適応、不一致ベースのドメイン適応アプローチを用いたラベル付きの実際のアクション訓練セット及びラベルなしの仮想訓練セットを用いた訓練；敵対的ベースのドメイン適応、敵対的ベースのドメイン適応アプローチを用いたラベル付きの実際のアクション訓練セット及びラベルなしの仮想訓練セットを用いた訓練；ならびに正規化ベースのドメイン適応、正規化ベースのドメイン適応アプローチを用いたラベル付きの実際のアクション訓練セット及びラベルなしの仮想訓練セットを用いた訓練。

例示的な結果を図１２に示す。Ｏｒａｃｌｅ１２００とソースのみの設定１２０２との間の違いは、訓練に使用されるドメインである。Ｏｒａｃｌｅの設定は、そもそもドメインシフトの問題がない上限とみなすことができる一方、ソースのみの設定は、種々のドメインからのデータを用いて訓練されたモデルを直接適用する下限を示す。示されるように、精度の差は５０パーセントである。図１２はまた、本明細書に開示される３つのドメイン適応アプローチ１２０４のそれぞれが、ドメインシフト問題を緩和することができることを示す。中でも、正規化ベースのドメイン適応は、この例において最良のパフォーマンスを有し、精度を９．２％上げる。

以下、感情認識のためのドメイン適応についてさらに詳細に説明する。限定されたユーザ固有のオーディオ及びビデオサンプルが与えられると、マルチモーダル感情認識の精度が改善され得る。ユーザ適応は、本原理に従って汎用ドメイン適応フレームワークに適合するユーザ適応構造により、例えば、オーディオのみ、ビデオのみ、またはオーディオデータとビデオデータとの両方を共に使用する深層学習ベースの感情認識精度に役立ち得る。

この例のためのベースラインモデル構造が図１３に示されており、図１４のフローチャートに反映された論理に対してさらに参照がなされる。同じモデル構造がオーディオ及びビデオの感情認識に対して使用され得る。

最初に、一連の特徴１３００（図１３）が、図１４のブロック１４００に反映されているように、生データ１３０２から抽出され得る。話者非依存（ＳＩ）モデル１３０４が、次いで、図１４のブロック１４０２に反映されているように、複数の話者訓練データセットによって訓練され得る。モデル構造は、３つの双方向長短期記憶（ＢＬＳＴＭ）層１３０６のスタックを含み得、各層１３０６は、方向ごとに５１２個のセルを有し得る。特徴は、フレーム毎にモデルに送られ得、図１４のブロック１４０４で、時間平均層１３０８は、発話埋め込みとして最後のＬＳＴＭ層の隠れた状態の時間平均をとり得る。全結合層１３１０は、次いで、ブロック１４０６で１，０２４次元の埋め込みを２５６次元に縮小し、次いで、ブロック１４０８でソフトマックス分類器１３１２を通過させて埋め込みを事後感情確率に変換するために使用され得る。モデルは、クロスエントロピーエラーを最小化することによって訓練され得る。

したがって、オーディオ及びビデオデータを使用して別個のモデルが訓練され得る。テスト中、オーディオとビデオとの各テストデータペアは、前処理ステップにおいて同じ発話に対して揃えられ得る。各ペアについて、感情事後確率が、２つのモデルから計算され得、意思決定の最終確率を取得するために平均され得る。この方法は、「決定融合」と称され得る。

この例のためのユーザ適応構造が図１５に示されており、図１６のフローチャートに反映された論理に対してさらに参照がなされる。この新しい話者からの限定された適応データを使用して事前に訓練されたＳＩモデルを新しいユーザに適応させるために、話者依存（ＳＤ）モデル１５００（上部ブランチ）が、図１６のブロック１６００でＳＩモデル１５０２から初期化され得る。ユーザ適応の場合、現実的な用途は、時として、適応中にターゲット（新しいユーザ）の適応データのみを使用できることを意味し得る。したがって、ソースデータ（ＳＩモデルの訓練に対して使用される多くの話者）は、汎用構造のように使用されない場合がある。

損失関数は、２つの項の合計を含み得、一方は、ターゲットドメインデータに対して定義されたクロスエントロピー分類損失であり、もう一方は、ソースモデルとターゲットモデルとの間のモデルパラメータＬ２距離であり、これは、汎用構造の不一致損失に類似し得る。ブロック１６０２及び１６０４でそれぞれこれらの２つの項を同時最適化することにより、ターゲットモデルは、ブロック１６０６で新しい各ユーザについて感情を正しく分類するように学習し得、ソースモデルから離れすぎて適応されることも回避し得る。したがって、図１５のユーザ適応構造は、例えば、ターゲットドメインデータのみが使用されているため、分類エラーがターゲットデータに対してのみ定義され得るように汎用構造を修正し得る。ユーザ適応構造はまた、ソースモデルとターゲットモデルとの間のＬ２ノルムであり得る特定の形式をとった不一致損失を介して汎用構造を修正し得る。

本原理に従った例として、オーディオＳＩモデルを訓練するために、８４人の話者のオーディオの感情的録音が収集され得る。テストの場合、訓練セットには現れなかった別の５人の話者が使用され得る。データベースには１０個の感情クラスが存在し得る。それらは、幸せ、怒り、悲しみ、恐れ、驚き、その他（例えば、興奮、退屈、平静、失望、反感を含む）を含む６個のクラスにマージされ得、重み付けされていない精度が報告され得、これは、６個のクラスの個々の精度の平均として計算され得る。ビデオデータの場合、訓練のために１１４人の話者が収集され得る。テストの場合、同じ５人の話者のテストセットが使用され得、その場合、オーディオ及びビデオが各発話に対して揃えられている。

次いで、ユーザ適応を行うために、最大の適応セットとして５人のテスト話者のそれぞれについて最大１５０個の発話がランダムに選択され得る。残りの発話はテストに対して使用され得る。５人のテスト話者は、合計２６６１個の発話を有し得るため、各話者について１５０個の適応発話を削除した後、テスト用に依然として１９１１個の発話が存在し得、これにより、この例において結果が統計的に有効になり得る。

各話者についての適応データの数はまた、５個の発話から１５０個の発話まで変化し得る。結果を比較するために、テストセットが同じになり得るように全てのより小さい適応セットが１５０個の発話から選択され得る。

適応データを使用して、オーディオモデルとビデオモデルとが別々に適応され得、テスト時に、個々のモデルのパフォーマンスが決定融合のパフォーマンスと共にテストされ得る。オーディオ用の４０次元のログメルフィルタバンク特徴が使用され得、１次及び２次のデルタ（合計１２３次元）、フレームエネルギーが追加され得る。オーディオフレームの長さは２５ミリ秒であり得、１０ミリ秒ごとにシフトされ得る。ビデオ特徴は、各フレームについてＶＧＧモデルの最後の層（１０２４次元）から抽出され得る。ＶＧＧモデルは、顔の表情を認識するためのデータセットであるＦＥＲＰｌｕｓデータセット上で事前に訓練され得、１３６次元のランドマークの顔のポイントも各フレームに追加され得る。

モデルの訓練及び適応の場合、損失関数を最小限に抑えるためのＡｄａｍオプティマイザを用いて、４０個の発話／ビデオのミニバッチサイズが使用され得る。ＳＩモデルを訓練するときの初期学習率は０．００１に設定され得、開発セット上で分類精度が低下したときにはこの学習率に０．１が掛けられ得る。適応の場合、学習率は０．００１に固定され得、オーディオモデルは５エポックに適応され得、ビデオモデルは適応セット上で２５エポックに適応され得る。

図１７は、ユーザ適応前後の、テストセット上の例示的な６クラスの感情認識精度の表を示す。ＳＩ＿Ａ、ＳＩ＿Ｖ及びＳＩ＿ＡＶは、オーディオのみ、ビデオのみ及び決定融合を使用したＳＩモデルのパフォーマンスを指す。同様に、ＳＤ＿Ａ、ＳＤ＿Ｖ及びＳＤ＿ＡＶは、適応後の結果を示す。単独の各モダリティについて、ユーザ適応がベースラインのパフォーマンスを改善し得、より多くの適応データがより良い認識精度をもたらすことが認識され得る。また、決定融合は、単一のモダリティのみを使用するよりも優れた精度を提供し得る。

図１８に移ると、この図は、第２の（ソース）ドメイン１８０４から得られた第１の（ターゲット）ドメイン１８０２を最適化するために本原理に従ってドメイン適応モジュール１８００によって共に使用される３つのドメイン適応方法の全てを示す。

したがって、前述の詳細な説明から認識され得るように、本原理は、本明細書で説明された技術的解決策を通じてニューラルネットワークの適応及び訓練を改善する。

いくつかの例示的な実施形態を参照して本原理が説明されてきたが、これらは限定することを意図しておらず、各種の代替的な配置が本明細書で特許請求される主題を実装するために使用され得ることが認識されよう。

Claims

少なくとも１つのプロセッサと、
一時的信号ではない少なくとも１つのコンピュータ記憶装置であって、少なくとも１つのプロセッサにより、
第１のデータタイプに関連付けられた第１のニューラルネットワークにアクセスすることと、
前記第１のデータタイプとは異なる第２のデータタイプに関連付けられた第２のニューラルネットワークにアクセスすることと、
入力として、第１の訓練データを前記第２のニューラルネットワークに提供することと、
第１の層を選択することであって、前記第１の層が前記第２のニューラルネットワークの複数の隠れ層のうちのいずれかの層である、前記選択することと、
前記第１の訓練データに基づいて生成された前記第１の層からの出力を識別することと、
前記第１及び第２のニューラルネットワークとは異なる第３のニューラルネットワークを使用して、前記第１の層からの前記出力が前記第１のニューラルネットワークからのものであるかどうかを判定することと、
前記第１の層からの前記出力が前記第１のニューラルネットワークからのものではないとの判定に基づき、前記第１の層の１つ以上の重みを調整することとを行うように実行可能な命令を含む前記少なくとも１つのコンピュータ記憶装置と、を含む、装置。
前記命令が、前記少なくとも１つのプロセッサにより、
前記第１のニューラルネットワークをコピーすることによって前記第２のニューラルネットワークを最初に確立することを行うように実行可能である、請求項１に記載の装置。
前記命令が、前記少なくとも１つのプロセッサにより、
前記第１の層からの前記出力が前記第１のニューラルネットワークからのものであるとの判定に基づき、前記第１の層の１つ以上の重みを調整することを拒否することを行うように実行可能である、請求項１に記載の装置。
前記出力が第１の出力であり、前記命令が、前記少なくとも１つのプロセッサにより、前記第１の層からの前記第１の出力が前記第１のニューラルネットワークからのものであるとの判定に基づき、第２の層を選択することであって、前記第２の層も前記第２のニューラルネットワークの隠れ層である、前記選択することと、
第２の出力を識別することであって、前記第２の出力が前記第２の層からのものである、前記識別することと、
前記第３のニューラルネットワークを使用して、前記第２の出力が前記第１のニューラルネットワークからのものであるかどうかを判定することと、
前記第２の出力が前記第１のニューラルネットワークからのものではないとの判定に基づき、前記第２の層の１つ以上の重みを調整することとを行うように実行可能である、請求項３に記載の装置。
前記第２のニューラルネットワークの前記第１及び第２の層がランダムに選択される、請求項４に記載の装置。
前記命令が、前記少なくとも１つのプロセッサにより、
前記第１の層からの前記出力が前記第１のニューラルネットワークからのものであるかどうかを判定するために前記第３のニューラルネットワークを使用する前に、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークのうちのいずれかの層からの出力を正しく分類するように前記第３のニューラルネットワークが学習するように前記第３のニューラルネットワークの１つ以上の層の１つ以上の重みを調整することを行うように実行可能である、請求項１に記載の装置。
前記第３のニューラルネットワークが、教師なしモードにおいて、ラベル付きデータを使用して、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークのうちのいずれかの層からの出力を正しく分類するように学習するように動作する、請求項６に記載の装置。
第１のデータタイプに関連付けられた第１のニューラルネットワークにアクセスすることと、
前記第１のデータタイプとは異なる第２のデータタイプに関連付けられた第２のニューラルネットワークにアクセスすることと、
入力として、第１の訓練データを前記第２のニューラルネットワークに提供することと、
第１の層を選択することであって、前記第１の層が前記第２のニューラルネットワークの複数の隠れ層のうちのいずれかの層である、前記選択することと、
前記第１の訓練データに基づいて生成された前記第１の層からの出力を識別することと、
前記第１及び第２のニューラルネットワークとは異なる第３のニューラルネットワークを使用して、前記第１の層からの前記出力が前記第１のニューラルネットワークからのものであるかどうかを判定することと、
前記第１の層からの前記出力が前記第１のニューラルネットワークからのものではないと判定したことに基づき、前記第１の層の１つ以上の重みを調整することと、を含む、方法。
前記第３のニューラルネットワークを使用して、前記第１のデータタイプに関連するものとして前記第１の層からの前記出力を識別するために前記第３のニューラルネットワークを使用することによって少なくとも部分的に前記第１の層からの前記出力が前記第１のニューラルネットワークからのものであるかどうかを判定することを含む、請求項８に記載の方法。
前記第１の層からの前記出力が前記第１のニューラルネットワークからのものであると判定したことに基づき、前記第１の層の１つ以上の重みを調整することを拒否することを含む、請求項８に記載の方法。
前記出力が第１の出力であり、前記方法が、
前記第１の層からの前記第１の出力が前記第１のニューラルネットワークからのものであると判定したことに基づき、第２の層を選択することであって、前記第２の層も前記第２のニューラルネットワークの隠れ層である、前記選択することと、
前記第２の層からの第２の出力を識別することと、
前記第３のニューラルネットワークを使用して、前記第２の出力が前記第１のニューラルネットワークからのものであるかどうかを判定することと、
前記第２の出力が前記第１のニューラルネットワークからのものではないと判定したことに基づき、前記第２の層の１つ以上の重みを調整することとを含む、請求項１０に記載の方法。
人間の監督者からの指示に基づいて前記第１の層が選択される、請求項８に記載の方法。
前記第１の層からの前記出力が前記第１のニューラルネットワークからのものであるかどうかを判定するために前記第３のニューラルネットワークを使用する前に、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークのうちのいずれかの層からの出力を正しく分類するように前記第３のニューラルネットワークが学習するように前記第３のニューラルネットワークの１つ以上の層の１つ以上の重みを調整することを含む、請求項８に記載の方法。
前記第３のニューラルネットワークが、教師なしモードにおいて、ラベル付きデータを使用して、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークのうちのいずれかの層からの出力を正しく分類するように学習するように動作する、請求項８に記載の方法。
前記第１のニューラルネットワークをコピーすることによって前記第２のニューラルネットワークを最初に確立することを含む、請求項８に記載の方法。
一時的信号ではない少なくとも１つのコンピュータ記憶装置であって、少なくとも１つのプロセッサにより、
第１のドメインジャンルに関連付けられた第１のニューラルネットワークにアクセスすることと、
前記第１のドメインジャンルとは異なる第２のドメインジャンルに関連付けられた第２のニューラルネットワークにアクセスすることと、
第１の層を選択することであって、前記第１の層が前記第２のニューラルネットワークの複数の隠れ層のうちのいずれかの層である、前記選択することと、
前記第１及び第２のニューラルネットワークに提供された訓練データを使用して、前記第１の層からの出力が前記第１のニューラルネットワークからのものであるかどうかを分類することと、
前記第１の層からの前記出力の分類結果を出力することであって、前記第１の層からの出力が、勾配を反転し、前記勾配をメインモデルに逆伝播させるためにドメイン分類器を含むドメイン適応モジュールによって分類される、前記出力することと、
前記第１の層からの前記出力が前記第１のニューラルネットワークからのものではないとの分類結果に基づき、前記第１の層の１つ以上の重みを調整することとを行うように実行可能である命令を含む前記少なくとも１つのコンピュータ記憶装置を含む、装置。
前記第１のニューラルネットワークが実世界のビデオに関係し、前記第２のニューラルネットワークがコンピュータゲームのビデオに関係する、請求項１６に記載の装置。
前記第１のニューラルネットワークが、第１の音声から得られた情報に関係し、前記第２のニューラルネットワークが、第２の音声から得られた情報に関係する、請求項１６に記載の装置。
前記第１のニューラルネットワークが標準フォントテキストに関係し、前記第２のニューラルネットワークが筆記体スクリプトに関係する、請求項１６に記載の装置。
前記ドメイン分類器が、空間モデル及び時間モデルからデータを受信する勾配反転層（ＧＲＬ）を使用して前記勾配を反転する、請求項１６に記載の装置。