JP7470137B2

JP7470137B2 - 視覚的特徴をサウンドタグに相関させることによるビデオタグ付け

Info

Publication number: JP7470137B2
Application number: JP2021564437A
Authority: JP
Inventors: クリシュナムルティ、スーダ; リュー、シャオユー
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-04-30
Filing date: 2020-04-14
Publication date: 2024-04-17
Anticipated expiration: 2040-04-14
Also published as: JP2022531220A; WO2020223007A1; CN113767434A; EP3963582A1; US20210035610A1; CN113767434B; US11450353B2; EP3963582A4; US10847186B1; US20200349975A1

Description

本出願は、概して、コンピュータ技術に必然的に根ざし、かつ具体的な技術的改善をもたらす、技術的に独創性のある非定型的解決策に関する。

深層学習と称されることもある機械学習は、データの理解、検出、及び／または分類に関連する様々な有用なアプリケーションに使用できる。ゲーム業界などのコンピュータシミュレーション業界では、ビデオとオーディオは、２つの別個のプロセスである。シミュレーションは、最初に、オーディオなしで設計及び制作され、次いで、オーディオグループがシミュレーションビデオを調査して、対応するサウンドエフェクト（ＳＦＸ）をＳＦＸデータベースから挿入するのだが、これには時間がかかる。

本明細書で理解されるように、機械学習を使用して、コンピュータシミュレーションシーンに関連するＳＦＸ推薦を提供することにより、上記の技術的問題は対処され得る。

従って、装置は、少なくとも１つのプロセッサと、一時的信号ではなく、かつ命令を含む少なくとも１つのコンピュータストレージと、を含み、命令は、プロセッサにより、サウンドエフェクト（ＳＦＸ）を分類して、分類されたＳＦＸをレンダリングすることを、実行可能である。命令は、少なくとも１つの機械学習エンジンを使用して、第１のコンピュータシミュレーションのビデオ属性と分類されたＳＦＸとの間の学習された相関関係に少なくとも部分的に基づいて、少なくとも第１のコンピュータシミュレーションに対し、分類されたＳＦＸのうちの少なくとも第１のＳＦＸを出力することを、実行可能である。

例示的な実施形態では、命令は、第１のコンピュータシミュレーション内の要素と、分類されたＳＦＸのうちの第１のＳＦＸの分類との直接マッピングを使用して、第１のコンピュータシミュレーションに対し、分類されたＳＦＸのうちの第１のＳＦＸを推薦することを、実行可能であり得る。このような実施形態では、命令は、ビデオの視覚的特徴とＳＦＸタグとの間の相関関係を学習するようにトレーニングされた少なくとも第１のニューラルネットワーク（ＮＮ）に、サウンドのない第１のコンピュータシミュレーションを入力することと、第１のＮＮに、混音ＳＦＸのグラウンドトゥルース分類を含む少なくとも第１の混音ＳＦＸモデルからの情報を入力することと、を実行可能であり得る。命令はさらに、第１の混音ＳＦＸモデルにトレーニングデータを入力して、第１の混音ＳＦＸモデルをトレーニングすることを、実行可能であり得、トレーニングデータは、１つ以上のコンピュータシミュレーションからのオーディオクリップと、合成オーディオクリップとを含む。命令はさらに、第１の混音ＳＦＸモデルの複数の畳み込みＮＮ（ＣＮＮ）にトレーニングデータを入力して第１の出力をレンダリングし、次に第１の出力を分類マッパーに入力して、第１のコンピュータシミュレーションに対するＳＦＸの予測を含む第２の出力をレンダリングすることを、実行可能であり得る。

いくつかの実施態様では、第１の混音ＳＦＸモデルは、複数のゲート付き畳み込みニューラルネットワーク（ＣＮＮ）を含む。少なくとも１つの双方向リカレントニューラルネットワーク（ＲＮＮ）は、複数のゲート付きＣＮＮの出力を受信するように構成され得る。また、複数のアテンションベースのフィードフォワードニューラルネットワーク（ＦＮＮ）は、ＲＮＮの出力を受信するように構成され得る。

いくつかの実施例では、第１の混音ＳＦＸモデルは、複数のゲート付き畳み込みニューラルネットワーク（ＣＮＮ）を含み得、これらのうちの少なくとも１つは、トレーニングデータを受信するように構成される。少なくとも第１の分類器（ＣＬＦ）ネットワークは、複数のゲート付きＣＮＮの出力を受信するように構成され得、少なくとも第２のＣＬＦネットワークは、複数のゲート付きＣＮＮの出力を受信するように構成され得る。このような実施形態では、第１のＣＬＦネットワークは、１つ以上のコンピュータシミュレーションからのオーディオクリップと合成オーディオクリップとの両方からのデータを含む複数のゲート付きＣＮＮから、出力を受信するように構成された教師あり３２カテゴリネットワークであり得る。第２のＣＬＦネットワークは、１つ以上のコンピュータシミュレーションのオーディオクリップからではなく、合成オーディオクリップからのデータを含む複数のゲート付きＣＮＮから、出力を受信するように構成された教師あり１８２カテゴリネットワークであり得る。

別の態様では、装置は、少なくとも１つのプロセッサと、一時的信号ではなく、かつ命令を含む少なくとも１つのコンピュータストレージと、を含み、命令は、プロセッサにより、サイレントビデオフレーム及び混音ＳＦＸラベルを複数の残差ニューラルネットワーク（Ｒｅｓｎｅｔ）に少なくとも部分的に入力することにより、少なくとも第１のサウンドエフェクト（ＳＦＸ）推薦エンジンをトレーニングすることを、実行可能である。命令は、Ｒｅｓｎｅｔの出力を少なくとも１つの双方向ゲート付きリカレントユニットに入力して、ベクトルをレンダリングすることと、少なくとも１つのトレーニング済みモデルに、Ｒｅｓｎｅｔの出力を少なくとも部分的に入力することにより、少なくともサウンドのない第１のビデオに対し、少なくとも１つのＳＦＸを推薦することと、を実行可能であり、トレーニング済みモデルはまた、少なくともサウンドのない第２のビデオを入力として受信して、第２のビデオに対する推薦ＳＦＸを表す少なくとも１つのＳＦＸタグを出力するように構成される。

別の態様では、方法は、第１のビデオまたは第１のコンピュータシミュレーションにおける第１のサウンドエフェクト及び第２のサウンドエフェクトを分類することと、少なくとも部分的に分類に基づいて、第２のビデオまたは第２のコンピュータシミュレーションのサウンドエフェクト予測を提供することと、を含む。

本出願の構造及び動作の両方についての詳細は、添付図面を参照することで最良に理解でき、図面では、同様の参照番号は、同様の部分を指す。

本発明の原理と一致する、例示的なシステムのブロック図である。本発明の原理と一致する、ビデオまたはコンピュータシミュレーションに対するサウンドエフェクト（ＳＦＸ）を推薦するための例示的な全体ロジックのフローチャートである。図２のロジックを例示するブロック図である。ビデオからＳＦＸタグへの直接マッピングを伴うＳＦＸタグ付けの第１の手法のブロック図である。図４の第１の手法と一致する、追加機能のブロック図である。図４の第１の手法と一致する、「混音」粗粒度（図示される例では３２カテゴリ）ＳＦＸ分類に関連する機械学習アーキテクチャのブロック図である。図４の第１の手法と一致する、「混音」粗粒度（図示される例では３２カテゴリ）ＳＦＸ分類に関連する機械学習アーキテクチャのブロック図である。図４の第１の手法と一致する、「混音」細粒度ＳＦＸ分類に関連する半教師あり機械学習アーキテクチャのブロック図である。図４の第１の手法と一致する、トレーニングフェーズ及びテストフェーズに関連する機械学習アーキテクチャのブロック図である。視覚的把握による間接的なタグ付けを伴うビデオタグ付けの第２の手法の特徴のブロック図である。スクリーンショット、及び視覚的タグとマッチングするＳＦＸオーディオタグとの相関を示す関連テーブルである。スクリーンショット、及び視覚的タグとマッチングするＳＦＸオーディオタグとの相関を示す関連テーブルである。

本発明の原理に従って、深層学習ベースのドメイン適応方法を使用して、ビデオ、及びビデオゲームなどのコンピュータシミュレーションに対するＳＦＸが推薦され得る。

本明細書で説明される方法は、複数のオブジェクト、及び複数のオブジェクトに関連付けられた複数のアクションに関係し得る。例えば、多くのテキストの画像テキストブロックは「オブジェクト」であり得、画像ブロックのタイプは「アクション」であり得る。

本開示はまた、概して、分散コンピュータゲームネットワーク、拡張現実（ＡＲ）ネットワーク、仮想現実（ＶＲ）ネットワーク、ビデオブロードキャスティング、コンテンツ配信ネットワーク、仮想マシン、ならびに人工ニューラルネットワーク及び機械学習アプリケーションなど、これらに限定されない一般消費者向け電子製品（ＣＥ）デバイスネットワークの態様を含むコンピュータエコシステムに関する。

本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るように、ネットワークを介して接続されたサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントには、ＡＲヘッドセット、ＶＲヘッドセット、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）などのゲームコンソール及び関連マザーボード、ゲームコントローラ、ポータブルテレビ（例えばスマートＴＶ、インターネット対応ＴＶ）、ラップトップ及びタブレットコンピュータなどのポータブルコンピュータ、ならびにスマートホン及び下記で論じられる追加例を含む他のモバイルデバイスを含む１つ以上のコンピューティングデバイスが含まれ得る。これらのクライアントデバイスは、様々な動作環境で作動し得る。例えば、クライアントコンピュータのうちのいくつかは、例を挙げると、Ｏｒｂｉｓ（登録商標）もしくはＬｉｎｕｘ（登録商標）オペレーティングシステム、Ｍｉｃｒｏｓｏｆｔ（登録商標）のオペレーティングシステム、またはＵｎｉｘ（登録商標）オペレーティングシステム、またはＡｐｐｌｅ，Ｉｎｃ．（登録商標）製もしくはＧｏｏｇｌｅ（登録商標）製のオペレーティングシステムを採用し得る。これらの動作環境を使用して、Ｍｉｃｒｏｓｏｆｔ（登録商標）製もしくはＧｏｏｇｌｅ（登録商標）製のブラウザ、または下記に論じられるインターネットサーバによりホストされるウェブサイトにアクセスできるＭｏｚｉｌｌａ（登録商標）もしくは他のブラウザプログラムなど、１つ以上のプログラム／アプリケーションが実行され得る。また、本発明の原理による動作環境を使用して、本発明の原理を実施する１つ以上のコンピュータゲームプログラム／アプリケーション及び他のプログラム／アプリケーションが実行され得る。

サーバ及び／またはゲートウェイは、１つ以上のプロセッサを含み得、１つ以上のプロセッサは、インターネットなどのネットワークを介してデータを送受信するようにサーバを構成する命令を実行する。付加的または代替的に、クライアントとサーバは、ローカルイントラネットまたは仮想プライベートネットワークを介して接続され得る。サーバまたはコントローラは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）といったゲームコンソール及び／またはその１つ以上のマザーボード、パーソナルコンピュータなどにより、インスタンス化され得る。

クライアントとサーバとの間でネットワークを介して情報が交換され得る。このために、及びセキュリティのために、サーバ及び／またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。１つ以上のサーバは、本発明の原理に従って、ネットワークユーザがクラウドソーシングによる通信を行うために、オンラインソーシャルウェブサイトまたはビデオゲームウェブサイトなどのセキュアなコミュニティをネットワークユーザに提供する方法を実施する装置を形成し得る。

本明細書で使用される命令は、システムで情報を処理するためのコンピュータ実施ステップを指す。命令は、ソフトウェア、ファームウェア、またはハードウェアで実施され、システムのコンポーネントにより実行される任意の種類のプログラム化されたステップを含み得る。

プロセッサは、アドレスライン、データライン、及び制御ラインなどの様々なライン、ならびにレジスタ及びシフトレジスタにより、ロジックを実行することができる任意の従来の汎用シングルチッププロセッサまたは汎用マルチチッププロセッサであり得る。

本明細書において、フローチャートを介して説明されるソフトウェアモジュール、及びユーザインターフェースは、様々なサブルーチン、プロシージャなどを含み得る。本開示を限定することなく、特定のモジュールにより実行されると述べられるロジックは、他のソフトウェアモジュールに再配分されてもよく、及び／または単一モジュール内に一緒に組み合わされてもよく、及び／または共有可能なライブラリで利用可能な状態にされてもよい。

上記のように、本明細書で記述される本発明の原理は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせで実施され得、ゆえに、例示的なコンポーネント、ブロック、モジュール、回路、及びステップは、これらの機能の観点から説明される。

上記で示唆されたことに加えて、後述されるロジックブロック、モジュール、及び回路は、本明細書で説明される機能を実行するように設計された、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または例えば特定用途向け集積回路（ＡＳＩＣ）、個別ゲート、もしくはトランジスタロジックなどの他のプログラムマブルロジックデバイス、個別ハードウェアコンポーネント、またはこれらの任意の組み合わせにより、実装または実行され得る。プロセッサは、コントローラもしくはステートマシン、またはコンピューティングデバイスの組み合わせにより、実施され得る。

後述される機能及び方法は、ハードウェア回路またはソフトウェア回路で実施され得る。ソフトウェアで実施される場合、機能及び方法は、Ｊａｖａ（登録商標）、Ｃ＃、またはＣ＋＋などのこれに限定されない好適な言語で記述され得、コンピュータ可読記憶媒体により格納または送信され得、コンピュータ可読記憶媒体の例には、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、電気的消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、またはデジタル多用途ディスク（ＤＶＤ）などの他の光学ディスクストレージ、磁気ディスクストレージ、またはリムーバブルサムドライブを含む他の磁気ストレージデバイスなどが挙げられる。接続により、コンピュータ可読媒体が確立され得る。このような接続には、例として、光ファイバ及び同軸ワイヤを含むハードワイヤケーブル、ならびにデジタル加入者線（ＤＳＬ）及びツイストペア線が含まれ得る。このような接続には、赤外線及び無線を含む無線通信接続が含まれ得る。

一実施形態に含まれるコンポーネントは、他の実施形態において、任意の好適な組み合わせで使用することができる。例えば、本明細書で説明され及び／または図に描かれる様々なコンポーネントのいずれも、組み合わされてもよく、交換されてもよく、または他の実施形態から除外されてもよい。

「Ａ、Ｂ、及びＣのうちの少なくとも１つを有するシステム」（同様に「Ａ、Ｂ、またはＣのうちの少なくとも１つを有するシステム」及び「Ａ、Ｂ、Ｃのうちの少なくとも１つを有するシステム」）には、Ａのみ、Ｂのみ、Ｃのみ、ＡとＢを一緒に、ＡとＣを一緒に、ＢとＣを一緒に、及び／またはＡとＢとＣを一緒に、などを有するシステムが含まれる。

ここで具体的に図１を参照すると、本発明の原理による、上記で言及され下記でさらに説明される例示的なデバイスのうちの１つ以上を含み得る例示的なシステム１０が示される。システム１０に含まれる例示的なデバイスのうちの第１のデバイスは、ＴＶチューナー（同等にＴＶを制御するセットトップボックス）を備えたインターネット対応ＴＶなどのこれに限定されないオーディオビデオデバイス（ＡＶＤ）１２といった一般消費者向け電子製品（ＣＥ）デバイスである。しかし、ＡＶＤ１２は、代替的に、例えばインターネット対応コンピュータ化冷蔵庫、洗濯機、または乾燥機などの電化製品または家庭用品であってもよい。また、ＡＶＤ１２は、代替的に、コンピュータ制御型インターネット対応（「スマート」）電話、タブレットコンピュータ、ノートブックコンピュータ、拡張現実（ＡＲ）ヘッドセット、仮想現実（ＶＲ）ヘッドセット、インターネット対応すなわち「スマート」グラス、別の種類のウェアラブルコンピュータ制御型デバイス、例えばコンピュータ制御型インターネット対応腕時計、コンピュータ制御型インターネット対応ブレスレット、コンピュータ制御型インターネット対応ミュージックプレーヤ、コンピュータ制御型インターネット対応ヘッドホン、インプラント可能皮膚用デバイスなどのコンピュータ制御型インターネット対応インプラント可能デバイス、他のコンピュータ制御型インターネット対応デバイスなどであってもよい。いずれにせよ、ＡＶＤ１２は、本発明の原理を実施する（例えば本発明の原理を実施するために他の一般消費者向け電子製品（ＣＥ）デバイスと通信し、本明細書で説明されるロジックを実行し、本明細書で説明されるいずれかの他の機能及び／または動作を実行する）ように構成されることを理解されたい。

従って、このような原理を実施するために、図１に示されるコンポーネントのうちのいくつかまたは全てにより、ＡＶＤ１２は確立され得る。例えば、ＡＶＤ１２は、１つ以上のディスプレイ１４を含み得、これは、高解像度または超高解像度「４Ｋ」以上のフラットスクリーンが実装され得、ディスプレイ上のタッチを介してユーザ入力信号を受信するタッチ対応であり得る。ＡＶＤ１２は、本発明の原理に従ってオーディオを出力するための１つ以上のスピーカ１６、及びＡＶＤ１２を制御するようにＡＶＤ１２に可聴コマンドを入力するための、オーディオ受信器／マイクロホンなどの少なくとも１つの追加入力デバイス１８を含み得る。例示的なＡＶＤ１２はまた、１つ以上のプロセッサの制御下でインターネット、ＷＡＮ、ＬＡＮなどの少なくとも１つのネットワーク２２を介して通信するための１つ以上のネットワークインターフェース２０を含み得る。従って、インターフェース２０は、Ｗｉ－Ｆｉ（登録商標）送受信器であり得るが、これに限定されず、Ｗｉ－Ｆｉ（登録商標）送受信器は、非限定的にメッシュネットワーク送受信器などの無線コンピュータネットワークインターフェースの例である。さらに、ネットワークインターフェース２０は、例えば有線もしくは無線のモデムもしくはルータであり得る、または、例えば無線電話送受信器、または上述のＷｉ－Ｆｉ（登録商標）送受信器などの他の好適なインターフェースであり得ることに、留意されたい。

１つ以上のプロセッサは、本発明の原理を実施するためにＡＶＤ１２を制御し、これには、例えばディスプレイ１４を制御してディスプレイ１４上に画像を提示し、ディスプレイ１４から入力を受信するなど、本明細書に説明されるＡＶＤ１２の他の素子が含まれることを理解されたい。１つ以上のプロセッサは、中央処理装置（ＣＰＵ）２４、ならびにグラフィックスカード２５Ａ上のグラフィックス処理装置（ＧＰＵ）２５を含み得る。

上記に加えて、ＡＶＤ１２はまた、別の一般消費者向け電子製品（ＣＥ）デバイスに（例えば有線接続を用いて）物理的に接続するための、例えば高解像度マルチメディアインターフェース（ＨＤＭＩ（登録商標））ポートまたはＵＳＢポートなどの１つ以上の入力ポート２６、及び／または、ＡＶＤ１２からのオーディオをヘッドホンを介してユーザに提供するように、ヘッドホンをＡＶＤ１２に接続するためのヘッドホンポートを含み得る。例えば、入力ポート２６は、オーディオビデオコンテンツのケーブルソースまたは衛星ソース２６ａに、有線または無線を介して接続され得る。従って、ソース２６ａは、例えば、別個のもしくは統合されたセットトップボックス、または衛星受信器であり得る。あるいは、ソース２６ａは、チャネル割り当て目的でユーザがお気に入りとみなし得るコンテンツを含むゲームコンソールまたはディスクプレーヤであってもよい。ソース２６ａは、ゲームコンソールとして実装される場合、ＣＥデバイス４４に関連して後述されるコンポーネントのうちのいくつかまたは全てを含み得、本明細書で説明されるロジックのうちのいくつかまたは全てを実施し得る。

ＡＶＤ１２はさらに、一時的信号ではないディスクベースストレージまたはソリッドステートストレージなどの１つ以上のコンピュータメモリ２８を含み得、これらは、いくつかの事例では、ＡＶＤのシャシー内にスタンドアロンデバイスとして、またはＡＶプログラムを再生するためにＡＶＤのシャシーの内部もしくは外部のパーソナルビデオレコーディングデバイス（ＰＶＲ）もしくはビデオディスクプレーヤとして、またはリムーバブルメモリ媒体として、具現化される。また、いくつかの実施形態では、ＡＶＤ１２は、位置受信器すなわち所在地受信器を含み得、これは、携帯電話受信器、ＧＰＳ受信器、及び／または高度計３０などであるがこれらに限定されず、例えば少なくとも１つの衛星または携帯電話中継塔から地理的位置情報を受信し、情報をプロセッサ２４に提供し、及び／またはプロセッサ２４と連動して、ＡＶＤ１２が配置されている高度を特定するように構成される。しかしながら、例えばＡＶＤ１２の所在地を全３次元で特定するために、本発明の原理による、携帯電話受信器、ＧＰＳ受信器、及び／または高度計以外の別の好適な位置受信器が使用されてもよいことを、理解されたい。

ＡＶＤ１２の説明を続けると、いくつかの実施形態では、ＡＶＤ１２は、１つ以上のカメラ３２を含み得、これは、例えば熱画像カメラ、ウェブカメラなどのデジタルカメラ、赤外線（ＩＲ）カメラ、及び／またはＡＶＤ１２に統合されたカメラであり得、本発明の原理に従って写真／画像及び／またはビデオを生成するようにプロセッサ２４により制御可能であり得る。また、ＡＶＤ１２は、ブルートゥース（登録商標）送受信器３４、及び他の近距離無線通信（ＮＦＣ）素子３６を含み得、これらは、ブルートゥース（登録商標）及び／またはＮＦＣ技術をそれぞれ使用して、他のデバイスと通信する。例示的なＮＦＣ素子は、無線周波数識別（ＲＦＩＤ）素子であり得る。

さらにまた、ＡＶＤ１２は、プロセッサ２４に入力を提供する１つ以上の補助センサ３７を含み得る（例えば加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、あるいは磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度及び／またはケイデンスセンサ、ジェスチャセンサ（例えばジェスチャコマンドを感知する）など）。ＡＶＤ１２は、地上波（ＯＴＡ）ＴＶ放送を受信し、プロセッサ２４に入力を提供するＯＴＡＴＶ放送ポート３８を含み得る。前述に加えて、ＡＶＤ１２はまた、赤外線データ協会（ＩＲＤＡ）デバイスなどの赤外線（ＩＲ）送信器及び／またはＩＲ受信器及び／またはＩＲ送受信器４２を含み得ることに留意されたい。バッテリ（図示せず）が、ＡＶＤ１２に電力供給を行うために設けられ得る。

さらに図１を参照すると、ＡＶＤ１２に加えて、システム１０は、１つ以上の他の一般消費者向け電子製品（ＣＥ）デバイス類を含み得る。一例では、ＡＶＤ１２に直接及び／または後述のサーバを通して送信されるコマンドを介して、ＡＶＤ１２にコンピュータゲームのオーディオ及びビデオを送信するために、第１のＣＥデバイス４４は使用され得るが、第２のＣＥデバイス４６も、第１のＣＥデバイス４４と同様のコンポーネントを含み得る。示される例では、第２のＣＥデバイス４６は、図示されるようにユーザ４７が装着するＡＲまたはＶＲヘッドセットとして構成され得る。示される例では、２つのＣＥデバイス４４、４６のみが図示されるが、より少ないまたはより多いデバイスも本発明の原理に従って使用されてもよいことが理解されよう。

示される例では、３つのデバイス１２、４４、４６は全て、例えば自宅内の安全なもしくは暗号化されたネットワーク、エンターテインメントネットワーク、もしくはＷｉ－Ｆｉ（登録商標）などのネットワークのメンバーであり、または少なくとも特定の場所で互いに近接して存在し、本明細書で説明されるように互いに及びサーバと通信可能であると想定される。しかし、本発明の原理は、明確に別段の主張がない限り、特定の場所またはネットワークに限定されない。

非限定的な例示の第１のＣＥデバイス４４は、上記のデバイスのうちのいずれか１つ、例えば、スマートホン、デジタルアシスタント、ポータブル無線ラップトップコンピュータもしくはノートブックコンピュータ、またはゲームコントローラ（「コンソール」とも称される）により確立され得、従って、後述されるコンポーネントのうちの１つ以上を有し得る。第２のＣＥデバイス４６は、ＡＲヘッドセット、ＶＲヘッドセット、「スマート」インターネット対応グラス、またはさらにブルーレイプレーヤ及びゲームコンソールなどのビデオディスクプレーヤによっても、確立され得るが、これらに限定されない。またさらに、いくつかの実施形態では、第１のＣＥデバイス４４は、例えばＡＶ再生及び一時停止コマンドをＡＶＤ１２に発令するためのリモートコントロール（ＲＣ）であり得、または第１のＣＥデバイス４４は、タブレットコンピュータ、図１に示されるデバイスのうちの別のデバイスにより実施されるゲームコンソールと有線または無線リンクを介して通信し、ＡＶＤ１２上のビデオゲームの提示を制御するゲームコントローラ、パーソナルコンピュータ、無線電話などのより洗練されたデバイスであり得る。

従って、第１のＣＥデバイス４４は、１つ以上のディスプレイ５０を含み得、これは、ディスプレイ５０上のタッチを介してユーザ入力信号を受信するタッチ対応であり得る。付加的または代替的に、ディスプレイ（複数可）５０は、ＡＲヘッドセットディスプレイまたは「スマート」グラスディスプレイまたは「ヘッドアップ」ディスプレイ、ならびにＶＲヘッドセットディスプレイ、もしくはＡＲ及び／またはＶＲ画像を提示するように構成された他のディスプレイなど、少なくとも部分的に透明なディスプレイであり得る。

第１のＣＥデバイス４４はまた、本発明の原理に従ってオーディオを出力するための１つ以上のスピーカ５２と、例えば第１のＣＥデバイス４４を制御するように第１のＣＥデバイス４４に可聴コマンドを入力するための、例えばオーディオ受信器／マイクロホンなどの少なくとも１つの追加入力デバイス５４と、を含み得る。例示的な第１のＣＥデバイス４４はさらに、１つ以上のＣＥデバイスプロセッサ５８の制御下で、ネットワーク２２を介して通信するための１つ以上のネットワークインターフェース５６を含み得る。従って、インターフェース５６は、Ｗｉ－Ｆｉ（登録商標）送受信器であり得るが、これに限定されず、Ｗｉ－Ｆｉ（登録商標）送受信器は、メッシュネットワークインターフェースを含む無線コンピュータネットワークインターフェースの例である。プロセッサ５８は、本発明の原理を実施するために第１のＣＥデバイス４４を制御し、これには、例えばディスプレイ５０を制御してディスプレイ５０上に画像を提示し、ディスプレイ５０から入力を受信するなど、本明細書に説明される第１のＣＥデバイス４４の他の素子が含まれることを理解されたい。さらに、ネットワークインターフェース５６は、例えば有線または無線のモデムまたはルータであり得、または、無線電話送受信器、もしくは上記のＷｉ－Ｆｉ（登録商標）送受信器などの他の好適なインターフェースであり得ることに、留意されたい。

またさらに、プロセッサ（複数可）５８に加えて、第１のＣＥデバイス４４はまた、グラフィックスカード５５Ａ上にグラフィックス処理ユニット（ＧＰＵ）５５を含み得ることに留意されたい。グラフィックス処理ユニット５５は、とりわけ、ディスプレイ５０上にＡＲ及び／またはＶＲ画像を提示するように構成され得る。

上記に加えて、第１のＣＥデバイス４４はまた、別のＣＥデバイスに（例えば有線接続を用いて）物理的に接続するための、例えばＨＤＭＩ（登録商標）ポートまたはＵＳＢポートなどの１つ以上の入力ポート６０、及び／または、ヘッドホンを第１のＣＥデバイス４４に接続して、第１のＣＥデバイス４４からのオーディオをヘッドホンを介してユーザに提供するためのヘッドホンポートを含み得る。第１のＣＥデバイス４４はさらに、ディスクベースストレージまたはソリッドステートストレージなどの１つ以上の有形コンピュータ可読記憶媒体６２を含み得る。また、いくつかの実施形態では、第１のＣＥデバイス４４は、位置受信器すなわち所在地受信器を含み得、これは、携帯電話及び／またはＧＰＳ受信器及び／または高度計６４などであるがこれらに限定されず、例えば、三角測量を使用して、少なくとも１つの衛星及び／または携帯電話中継塔から地理的位置情報を受信し、情報をＣＥデバイスプロセッサ５８に提供し、及び／またはＣＥデバイスプロセッサ５８と連動して、第１のＣＥデバイス４４が配置されている高度を特定するように構成される。しかし、例えば、第１のＣＥデバイス４４の所在地を全３次元で特定するために、携帯電話及び／またはＧＰＳ受信器及び／または高度計以外の別の好適な位置受信器が、本発明の原理に従って使用されてもよいことを、理解されたい。

第１のＣＥデバイス４４の説明を続けると、いくつかの実施形態では、第１のＣＥデバイス４４は、１つ以上のカメラ６６を含み得、これは、例えば熱画像カメラ、ＩＲカメラ、ウェブカメラなどのデジタルカメラ、及び／または第１のＣＥデバイス４４に統合された別の種類のカメラであり得、本発明の原理に従って写真／画像及び／またはビデオを生成するようにＣＥデバイスプロセッサ５８により制御可能であり得る。また、第１のＣＥデバイス４４は、ブルートゥース（登録商標）送受信器６８と他の近距離無線通信（ＮＦＣ）素子７０とを含み得、これらは、ブルートゥース（登録商標）及び／またはＮＦＣ技術をそれぞれ使用して、他のデバイスと通信する。例示的なＮＦＣ素子は、無線周波数識別（ＲＦＩＤ）素子であり得る。

さらにまた、第１のＣＥデバイス４４は、ＣＥデバイスプロセッサ５８に入力を提供する１つ以上の補助センサ７２を含み得る（例えば加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、または磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度及び／またはケイデンスセンサ、ジェスチャセンサ（例えばジェスチャコマンドを感知する）など）。第１のＣＥデバイス４４はさらに、例えば１つ以上の気候センサ７４（例えば気圧計、湿度センサ、風センサ、光センサ、温度センサなど）及び／または１つ以上の生体センサ７６などの他のセンサを含み得、これらは、ＣＥデバイスプロセッサ５８に入力を提供する。前述に加えて、いくつかの実施形態では、第１のＣＥデバイス４４はまた、赤外線データ協会（ＩＲＤＡ）デバイスなどの赤外線（ＩＲ）送信器及び／またはＩＲ受信器及び／またはＩＲ送受信器７８を含み得ることに留意されたい。第１のＣＥデバイス４４に給電するためにバッテリ（図示せず）が提供され得る。ＣＥデバイス４４は、前述の通信モード及び関連コンポーネントのうちのいずれかを介して、ＡＶＤ１２と通信し得る。

第２のＣＥデバイス４６は、ＣＥデバイス４４に関して示されるコンポーネントのうちのいくつかまたは全てを含み得る。一方または両方のＣＥデバイスは、１つ以上のバッテリにより電力供給され得る。

ここで、上記の少なくとも１つのサーバ８０を参照すると、これは、少なくとも１つのサーバプロセッサ８２と、ディスクベースストレージまたはソリッドステートストレージなどの少なくとも１つの有形コンピュータ可読記憶媒体８４とを含む。実施態様では、媒体８４は、１つ以上のソリッドステートストレージドライブ（ＳＳＤ）を含む。サーバはまた、少なくとも１つのネットワークインターフェース８６を含み、これにより、ネットワーク２２を介して図１の他のデバイスとの通信が可能となり、実際に、本発明の原理に従ってサーバとクライアントデバイスとの間の通信が促進され得る。ネットワークインターフェース８６は、例えば、有線もしくは無線のモデムもしくはルータ、Ｗｉ－Ｆｉ（登録商標）送受信器、または無線電話送受信器などの他の好適なインターフェースであり得ることに、留意されたい。ネットワークインターフェース８６は、サーバプロセッサ８２を通ることなく、いわゆる「ファブリック」などのネットワークに媒体８４を直接接続するリモートダイレクトメモリアクセス（ＲＤＭＡ）インターフェースであり得る。ネットワークは、イーサネット（登録商標）ネットワーク及び／またはファイバチャネルネットワーク及び／またはインフィニバンドネットワークを含み得る。通常、サーバ８０は、物理サーバ「スタック」に配置され得る「ブレード」と称される複数のコンピュータに、複数のプロセッサを含む。

従って、いくつかの実施形態では、サーバ８０は、インターネットサーバまたは「サーバファーム」全体であり得、「クラウド」機能を含んで実行し得、これにより、例えば本明細書で開示されるドメイン適応などの例示的な実施形態では、システム１０のデバイスがサーバ８０を介して「クラウド」環境にアクセスし得る。付加的または代替的に、サーバ８０は、図１に示される他のデバイスと同じ部屋または近くに存在する１つ以上のゲームコンソールまたは他のコンピュータにより、実施され得る。

図２及び図３は、全体的な原理を示す。図２のブロック２００から始まり、サウンドエフェクト（ＳＦＸ）が分類される。一例では、この分類は、入力デジタル化サウンドエフェクト信号３００に対して実行され、本明細書の他の箇所で説明されるように、分類されるサウンドエフェクトを言葉で説明するタグ３０２（図３に図示される）がレンダリングされ得る。

図２のブロック２０２へ移動して、さらに図３を相互参照すると、タグ３０２はデータベース３０４に登録される。次に、図２のブロック２０４に進むと、登録されたタグがサウンドのないビデオ３０６と組み合わされて、ビデオにサウンドエフェクトサウンド３０８がレンダリングされ得る。「サウンドエフェクト」とは、例えば、銃声音、火の燃える音、人が走る音、人が叫び声を上げる音、水の音などをコンピュータゲームが模倣するコンピュータシミュレーションの一環である非言語オーディオを指すことに留意されたい。さらに後述されるように、ビデオゲームなどのコンピュータシミュレーションのサウンドコンテンツ作成を支援するために、本明細書では、深層学習／ＡＩ技術が提供される。

本明細書で使用される「クリーンＳＦＸタグ付け」とは、ゲームサウンドデザイナが使用するクリーンオーディオサンプル（単一の音源によるサウンドエフェクト）を、彼らのカテゴリ及びサブカテゴリに基づいて分類またはタグ付けすることで、クリーンオーディオサンプルがデータベースに自動的に登録され得ることを指す。これは、サウンドミキシング中の検索及び取得をより効率的にすることで、ゲームデザイナを支援する。「ビデオタグ付け」とは、ゲームシーンに関連するサウンドエフェクトを自動的に推薦することを指す。これは、サウンドデザインプロセスをより効率的にすることで、ゲームデザイナを支援するために行われる。本発明の原理は、ビデオのタグ付けを実現する技法に焦点を当てる。

本開示は、ビデオのタグ付けの２つの技法を明らかにする。図４～図９は、ゲームビデオの視覚的特徴と対応するＳＦＸ（オーディオ）タグ３０２との間の相関関係を学習するように深層学習エンジンがトレーニングされる直接マッピング手法を説明する。図１０～図１２は、視覚的把握手法を、２つのステップで、すなわち、ゲームシーンの視覚的コンテンツを把握して、オブジェクトタグ、アクションタグ、及びキャプションを含む視覚的タグを生成するニューラルネットワーク（ＮＮ）を提供することと、続いて、セマンティックテキストの類似性を使用して視覚的タグをオーディオタグにマッピングすることと、の２つのステップで説明する。辞書ベースのマッピングも、他の知識ベースに基づいて使用され得る。

従って、ここで図４を参照すると、トレーニングフェーズ４００では、ＳＦＸサウンド付きのコンピュータシミュレーション４０２などのビデオを使用して、ＮＮシステムは、様々なＳＦＸソースのタグ４０４を生成して、ＳＦＸタグ４０６をレンダリングするように、トレーニングされる。ＮＮシステムは、一旦トレーニングされると、テストフェーズ４０８にて、ＳＦＸサウンドのないコンピュータシミュレーションなどのビデオ４１０を、下記でさらに説明されるトレーニング済みモデル４１２への入力として受信し、ビデオ４１０と組み合わせるＳＦＸタグ４１４を出力し、ＳＦＸサウンドが組み込まれたビデオ４１６をレンダリングするように、使用され得る。

ここで図５を参照すると、図４のトレーニングフェーズのより詳細な説明が示され得る。コンピュータゲームビデオ５００などのサイレントビデオは、トレーニング済みＮＮ５０２に入力される。ビデオの視覚的特徴と対応するサウンドエフェクトとの間の直接マッピングを学習するために、教師あり学習手法がＮＮ５０２により使用される。この教師ありモデルをトレーニングするには、ゲームオーディオのサウンドアノテーションが必要である。本明細書で理解されるように、ゲームオーディオは通常、サウンドの混合（混音ＳＦＸとも称される）を含むという事実により、サウンドカテゴリの数が多い場合は特に、人間アノテーション５０４を取得することが困難になるため、プロセスは複雑である。ゆえに、深層学習モデル５０６は、サウンドの混合（混音ＳＦＸモデル）に自動的にタグ付けして、構成サウンドのカテゴリを識別するようにトレーニングされる。

ここで図６及び図７を参照すると、最初の実施形態では、混音ＳＦＸモデルは、人間アノテーションを使用した少数のカテゴリ（３２クラス）のタグ付けを行うようにトレーニングされる。スペクトログラム６００により表されるオーディオクリップは、一連の畳み込みＮＮ（ＣＮＮ）６０４を含むセグメンテーションマッピングモジュール６０２に入力される。セグメンテーションマスク６０６は、マッピングモジュール６０２により出力され、分類マッピング６０８が対応する確率を有するタグの予測６１０を生成するのに使用される。関連して、図７は、ゲート付き畳み込みリカレントＮＮ（ＣＲＮＮ）７００を示し、これは、ＳＦＸクリップ７０２を入力として受信し、時間ステップごとにスペクトルパターンを抽出し、双方向長短期記憶（ＬＳＴＭ）などの双方向ＲＮＮ７０４に出力を提供する。図７は、ネットワーク７００で使用されるＣＮＮの種類を示す。Ｂｉ－ＲＮＮ７０４は、複数のフィードフォワードＮＮ（ＦＮＮ）を含むアテンションベースのローカリゼーションモジュール７０６に接続され、複数のＦＮＮは、シグモイドＦＮＮ及びソフトマックスＦＮＮとして作動し、加重平均で予測タグ７０８を生成することが示される。

本発明の原理で重要なことは、図８が示す混音ＳＦＸタグ付けの高度な技法である。混音サンプル内の様々なサウンドエフェクトをより適切に区別するために、より細粒度のＳＦＸタグ（例えば１８２クラスもしくは５０００クラスのラベル、またはさらにより細かいラベル）を生成するために、コンピュータシミュレーションからの実際のＳＦＸデータ８００と、ゲート付きＣＮＮモジュール８０４をトレーニングすることのみを目的として全てのシミュレーションとは別に生成された合成混音ＳＦＸデータ８０２とを使用して、教師ありモデルがトレーニングされる。言い換えると、図８に反映される本発明の原理では、教師ありモデルをトレーニングするには、より細粒度（例えば１８２クラスまたは５０００クラス）のグラウンドトゥルースタグを有するトレーニングデータが必要であるが、より粗粒度（３２クラス）の人間アノテーション付きＳＦＸラベルのみがゲームオーディオ用に現在利用可能であることが、認識される。ゆえに、図８以降の図は、追加の人間アノテーションなしで、粗粒度オーディオタグから細粒度オーディオタグを生成する半教師あり手法を示す。粗粒度タグと細粒度タグの例として、３２クラスと１８２クラスが使用されていることに留意されたい。

８０２で表されるサウンドサンプルの合成混合物が作成され、それらのカテゴリがミキシング中に記録される。この合成混合物では、細粒度ＳＦＸラベル（本明細書の他の箇所ではデータセット１と称される）が確立される。一方、ブロック８００は、データセット２と称される粗粒度ラベル（人間が生成）を有する実際の利用可能なゲームオーディオを表す。図８に示されるように、実際のシミュレーションまたはゲームデータのデータセット１と、シミュレーションまたはゲームからではなく、ゲームデータを補足する目的で作成された合成データのデータセット２を組み合わせて、エンドツーエンドの半教師ありモデル８０４がトレーニングされ、半教師ありモデル８０４は、混音ゲームオーディオの成分を識別する細粒度タグ８１０を生成するために、粗粒度分類器８０６と、細粒度分類器８０８とを含む。前に説明されたように、本物の細粒度ゲームオーディオラベルがトレーニング用に存在しないため、これは半教師ありで行われる。これは、粗粒度オーディオタグ８１２及び細粒度オーディオタグ８１０の両方を生成することができるので、マルチタスクモデルである。言い換えると、細粒度分析は、粗粒度分析よりも多くのカテゴリを使用する。

このモデルのトレーニング損失関数は、細粒度タグ付け及び粗粒度タグ付けの損失の合計である。トレーニングの目標は、トレーニングの損失を最小化することである。モデルが収束すると、トレーニングは終了する。この時点で、混音オーディオ混合を成分タグに分解することができるモデルが実現する。

従って、上記の説明は、ゲームオーディオの成分サウンドエフェクトカテゴリを識別する技法を明らかにし、一方、図９は、これらのタグ（人間または図８のモデルによる生成）を使用して教師ありビデオタグ付けモデルをトレーニングする方法を示す。示されるように、トレーニング中、サウンドが抽出されたビデオ９００は、前述のように生成された、及び／または人間アノテーションが付けられた混音ＳＦＸタグ９０２と共に、トレーニングフェーズモジュール９０４に入力される。より具体的には、ビデオから抽出された対応するオーディオは、上記の図８で説明された混音ＳＦＸモデルに通され、ＳＦＸタグまたはラベル９０２が生成され、これらは、対応するビデオセグメント９００と共に、教師ありトレーニングフェーズモデル９０４に入力される。このようにして、トレーニングの前に、ビデオはオーディオタグと同期化される。非限定的な例示的実施態様では、使用されるフレームレートは、毎秒３０フレーム（３０ｆｐｓ）であり得、ビデオ持続時間は１秒であり得る。

トレーニングフェーズモジュール９０４は、サイレントビデオフレームを深層ＣＮＮ９０６（例えばＲｅｓｎｅｔまたは同様のネットワーク）に通すことにより、ビデオ埋め込み（数値ベクトル）を生成する。フレームごとに、１つの埋め込み（ベクトル）が生成され、ビデオフレームの視覚的特徴として機能する。他の視覚的機能も使用され得る。ビデオは一連のフレームであるため、一連のビデオ埋め込みが生成され、これは次に、リカレントニューラルネットワーク９０８に、示される例ではタグ予測９１０を生成する双方向ゲート付きリカレントユニット（ＧＲＵ）またはゲート付きリカレントネットワークに、入力される。

トレーニングの出力は、ニューラルモデル９１２であり、これは、テストフェーズでサウンドのない新たなシミュレーションビデオ９１４を受信し、サイレントビデオ９１４に対応するサウンドタグ９１６を生成することができる。これらのタグを使用して、対応するサウンドエフェクト９１８が取得され、９２０に示されるビデオと組み合わされ得る。

図１０～図１２は、上記で示唆された視覚的把握手法を示す。第１のステップでは、サウンド（オーディオ）のないコンピュータシミュレーションなどのビデオ１０００を使用して、例えば、ビデオ内の識別されたオブジェクト１００４、ビデオ内の識別されたアクション１００６、及びビデオ内の識別されたシーン説明１００８の視覚的把握に基づいて、視覚的タグ１００２が生成される。次に、セマンティックテキスト類似性モジュール１０１０は、視覚的タグ１００２を、前述のデータベースからのＳＦＸタグ１０１２と共に受信して、視覚的タグをサウンドデータベース内の特定のオーディオカテゴリに自動的にマッピングして、サウンド付きのビデオ１０１４を生成する。

図１１にて、さらなる例示が行われる。オブジェクト１１０２を含むビデオを提示するディスプレイ１１００が示され、オブジェクトは、画像認識技術を使用して認識され、対応する視覚的タグ１１０４が生成される。視覚的タグ１１０４は、単語埋め込みまたは文埋め込みを使用して埋め込まれ得、これは、数値ベクトルを生じる。ビデオタグ１１０４は、対応するオーディオタグ１１０６とマッチングされる。オーディオサンプルを識別する各オーディオカテゴリまたはオーディオファイル名は、単語埋め込みまたは文埋め込みを使用して埋め込まれ、これも数値ベクトルを生じる。図１２は、同様に、ディスプレイ１２００上のビデオを、キャプション１２０２と共に示し、キャプション１２０２は、教師なしセマンティックテキスト類似性モデル１２０３を使用して、オーディオタグ１２０４にマッチングされ得る。

いずれの事例も、オーディオタグを、オブジェクトタグに、キャプションタグに、またはアクションタグにマッチングさせるかに関係なく、２つの数値ベクトルが、１つはオーディオタグのために、もう１つはビデオから派生するタグのために、生成される。タグの類似性は、２つのベクトル間の距離を計算することにより決定される。コサイン類似度またはユークリッド距離など、任意の距離測定が使用され得る。距離が小さいほど、タグの類似度は高くなる。この手法を使用して、各視覚的タグは、上位ｋ個の最も類似するオーディオタグにマッピングされる。

このテキスト類似性手法を使用することで、各視覚的タグは、オーディオサンプルのグループを識別する粗粒度（例えば３２クラス）タグから、個々のサウンドサンプルを識別する高細粒度タグまでに至る、様々な粒度のオーディオタグにマッピングされ得る。

ゲームシーンの視覚的把握から自動的に生成されるオーディオタグは、２つの目的を果たし得る。１つ目は、オーディオタグを使用して、ゲームシーンに対するサウンドエフェクトを、ゲームデザイナに推薦することができる。２つ目に、オーディオタグは、オーディオから派生する混音ＳＦＸラベルの代わりに、図４～図９で明らかにされた直接マッピングビデオタグ付けモデルをトレーニングするためのＳＦＸラベルとしても使用できる。

図４～図９の直接マッピングは、図１０～図１２に示される視覚的把握技法よりも、タグ付け精度を高め得るが、視覚的把握は、教師なしテキスト類似性を使用してより細粒度のタグ付けを行い、オブジェクト及びキャプションに比較的簡単にアノテーション付けを行う。直接マッピングは、正確なグラウンドトゥルースＳＦＸタグがタグ付けに使用できる場合、または音源分離が実行可能な場合に、特に有利である。あるいは細粒度ＳＦＸアノテーションを取得することが困難な場合、視覚的把握は特に有利であり、視覚的把握は、サウンドエンジニアのワークフローに類似する。

本発明の原理は、数ある中でも画像、ビデオ、及びオーディオのデータ処理を行うための深層学習ベースの方法で、使用され得る。従って、前述の詳細説明から理解され得るように、本発明の原理は、本明細書で説明される技術的解決策により、ニューラルネットワークの適応及びトレーニングを向上させる。

本発明の原理は、いくつかの例示的な実施形態を参照して説明されたが、これらは限定を意図するものではなく、本明細書で特許請求される発明の主題を実施するために、様々な代替的構成が使用されてもよいことが、理解されよう。

Claims

少なくとも１つのプロセッサと、
命令を含む少なくとも１つのコンピュータストレージと、
を備える装置であって、
前記命令は、前記少なくとも１つのプロセッサに、
サウンドエフェクト（ＳＦＸ）を分類して、分類されたＳＦＸをレンダリングすることと、
少なくとも１つの機械学習エンジンを使用して、第１のコンピュータシミュレーションの視覚的特徴と前記分類されたＳＦＸとの間の学習された相関関係に基づいて、少なくとも前記第１のコンピュータシミュレーションに対し、前記分類されたＳＦＸのうちの少なくとも第１のＳＦＸを出力することと、
前記視覚的特徴とＳＦＸタグとの間の相関関係を学習するようにトレーニングされる少なくとも第１のニューラルネットワーク（ＮＮ）に、サウンドが抽出された前記第１のコンピュータシミュレーションを入力することと、
前記第１のＮＮに、抽出された前記サウンドを第１の混音ＳＦＸモデルに入力することにより前記第１の混音ＳＦＸモデルから出力された混音ＳＦＸのグラウンドトゥルース分類を入力することと、
を実行させる、前記装置。
前記命令は、前記少なくとも１つのプロセッサに、
前記視覚的特徴と、前記分類されたＳＦＸのうちの前記第１のＳＦＸの分類との直接マッピングを使用して、前記第１のコンピュータシミュレーションに対し、前記分類されたＳＦＸのうちの前記第１のＳＦＸを推薦すること、
を実行させる、請求項１に記載の装置。
前記命令は、前記少なくとも１つのプロセッサに、
前記第１の混音ＳＦＸモデルにトレーニングデータを入力して、前記第１の混音ＳＦＸモデルをトレーニングすることを、実行させ、前記トレーニングデータは、１つ以上のコンピュータシミュレーションからのオーディオクリップと、前記１つ以上のコンピュータシミュレーションとは別に生成された合成オーディオクリップとを含む、
請求項１に記載の装置。
前記命令は、前記少なくとも１つのプロセッサに、
前記第１の混音ＳＦＸモデルの複数の畳み込みＮＮ（ＣＮＮ）に前記トレーニングデータを入力して第１の出力をレンダリングすることと、
前記第１の出力を分類マッパーに入力して、ＳＦＸの予測を含む第２の出力をレンダリングすることと、
を実行させる、請求項３に記載の装置。
前記第１の混音ＳＦＸモデルは、
複数のゲート付き畳み込みニューラルネットワーク（ＣＮＮ）と、
前記複数のゲート付きＣＮＮの出力を受信するように構成された少なくとも１つの双方向リカレントニューラルネットワーク（ＲＮＮ）と、
前記ＲＮＮの出力を受信するように構成された複数のアテンションベースのフィードフォワードニューラルネットワーク（ＦＮＮ）と、
を備える、請求項１に記載の装置。
前記第１の混音ＳＦＸモデルは、
複数のゲート付き畳み込みニューラルネットワーク（ＣＮＮ）であって、これらのうちの少なくとも１つは、前記トレーニングデータを受信するように構成される、前記複数のゲート付きＣＮＮと、
前記複数のゲート付きＣＮＮの出力を受信するように構成された少なくとも第１の分類器（ＣＬＦ）ネットワークと、
前記複数のゲート付きＣＮＮの出力を受信するように構成された少なくとも第２のＣＬＦネットワークと、
を備える、請求項３に記載の装置。
前記第１のＣＬＦネットワークは、１つ以上のコンピュータシミュレーションからの前記オーディオクリップと前記合成オーディオクリップとの両方からのデータを入力する前記複数のゲート付きＣＮＮから、出力を受信するように構成された３２カテゴリの教師ありネットワークである、請求項６に記載の装置。
前記第２のＣＬＦネットワークは、１つ以上のコンピュータシミュレーションの前記オーディオクリップからではなく、前記合成オーディオクリップからのデータを入力する前記複数のゲート付きＣＮＮから、出力を受信するように構成された１８２カテゴリの教師ありネットワークである、請求項７に記載の装置。
少なくとも１つのプロセッサと、
命令を含む少なくとも１つのコンピュータストレージと、
を備える装置であって、
前記命令は、前記少なくとも１つのプロセッサに、
少なくとも第１のサウンドエフェクト（ＳＦＸ）推薦エンジンをトレーニングすることと、
少なくともサウンドのない第１のビデオに対し、少なくとも１つのＳＦＸを推薦することと、
を実行させ、
前記ＳＦＸ推薦エンジンをトレーニングすることは、
サイレントビデオフレームと混音ＳＦＸラベルを複数の残差ニューラルネットワーク（Ｒｅｓｎｅｔ）に入力することと、
前記Ｒｅｓｎｅｔの出力を少なくとも１つの双方向ゲート付きリカレントユニットに入力して、ベクトルをレンダリングすることと、
を含み、
前記少なくとも１つのＳＦＸを推薦することは、
前記Ｒｅｓｎｅｔと前記少なくとも１つの双方向ゲート付きリカレントユニットとをトレーニングした少なくとも１つのトレーニングされるモデルに、少なくともサウンドのない第２のビデオを入力することを含み、
前記トレーニングされるモデルはまた、前記第２のビデオに対する推薦ＳＦＸを表す少なくとも１つのＳＦＸタグを出力するように構成される、
前記装置。
前記命令は、前記少なくとも１つのプロセッサに、前記推薦ＳＦＸを前記第２のビデオと組み合わせることを実行させる、請求項９に記載の装置。
前記命令は、前記少なくとも１つのプロセッサに、
第１の混音ＳＦＸモデルにトレーニングデータを入力して、前記第１の混音ＳＦＸモデルをトレーニングすることを、実行させ、前記トレーニングデータは、１つ以上のコンピュータシミュレーションからのオーディオクリップと、前記１つ以上のコンピュータシミュレーションとは別に生成された合成オーディオクリップとを含む、
請求項９に記載の装置。
前記命令は、前記少なくとも１つのプロセッサに、
前記第１の混音ＳＦＸモデルの複数の畳み込みＮＮ（ＣＮＮ）に前記トレーニングデータを入力して第１の出力をレンダリングすることと、
前記第１の出力を分類マッパーに入力して、ＳＦＸの予測を含む第２の出力をレンダリングすることと、
を実行させる、請求項１１に記載の装置。
前記第１の混音ＳＦＸモデルは、
複数のゲート付き畳み込みニューラルネットワーク（ＣＮＮ）であって、これらのうちの少なくとも１つは、前記トレーニングデータを受信するように構成される、前記複数のゲート付きＣＮＮと、
前記複数のゲート付きＣＮＮの出力を受信するように構成された少なくとも第１の分類器（ＣＬＦ）ネットワークと、
前記複数のゲート付きＣＮＮの出力を受信するように構成された少なくとも第２のＣＬＦネットワークと、
を備える、請求項１２に記載の装置。
前記第１のＣＬＦネットワークは、１つ以上のコンピュータシミュレーションからの前記オーディオクリップと前記合成オーディオクリップとの両方からのデータを入力する前記複数のゲート付きＣＮＮから、出力を受信するように構成された３２カテゴリの教師ありネットワークである、請求項１３に記載の装置。
前記第２のＣＬＦネットワークは、１つ以上のコンピュータシミュレーションの前記オーディオクリップからではなく、前記合成オーディオクリップからのデータを入力する前記複数のゲート付きＣＮＮから、出力を受信するように構成された細粒度の半教師ありネットワークである、請求項１４に記載の装置。
プロセッサが、
第１のビデオまたは第１のコンピュータシミュレーションにおける第１のサウンドエフェクトと第２のサウンドエフェクトとを分類することと、
前記分類に基づいて、第２のビデオまたは第２のコンピュータシミュレーションのサウンドエフェクト予測を提供することと、
を実行し、
前記分類することは、
コンピュータシミュレーションの視覚的特徴とサウンドエフェクト（ＳＦＸ）タグとの間の相関関係を学習するようにトレーニングされる少なくとも第１のニューラルネットワーク（ＮＮ）に、サウンドが抽出された前記第１のコンピュータシミュレーションと抽出された前記サウンドを第１の混音ＳＦＸモデルに入力することにより前記第１の混音ＳＦＸモデルから出力された混音ＳＦＸのグラウンドトゥルース分類及び／または予測されたＳＦＸタグとを入力することにより、前記第１のＮＮをトレーニングすることと、
前記第１のＮＮに前記第１のサウンドエフェクトと前記第２のサウンドエフェクトとを入力することにより、前記分類を取得することと、
を含む、
方法。
前記提供することは、前記第２のビデオまたは前記第２のコンピュータシミュレーションにおけるサウンドエフェクトをサウンドエフェクトタグに直接マッピングすることにより前記サウンドエフェクト予測を出力することを含む、請求項１６に記載の方法。
前記提供することは、前記第２のビデオまたは前記第２のコンピュータシミュレーションの画像認識を行うことにより識別されたオブジェクト、アクション、及びキャプションに基づいて前記サウンドエフェクト予測を出力することを含む、請求項１６に記載の方法。