JP2022506486A

JP2022506486A - 機械学習のための同期入力フィードバック

Info

Publication number: JP2022506486A
Application number: JP2021523882A
Authority: JP
Inventors: ベネット、マシュー
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-10-31
Filing date: 2019-09-27
Publication date: 2022-01-17
Anticipated expiration: 2039-09-27
Also published as: US11706499B2; US20230362458A1; EP3874446A1; JP7193630B2; EP3874446A4; US20200134447A1; WO2020091925A1; CN113228093A

Abstract

【解決手段】同期入力フィードバックを提供する方法及びシステムは、入力イベントを受信することと、入力イベントを出力ストリームに符号化することであって、入力イベントの符号化は、特定のイベントに同期される、符号化することと、出力デバイスを通じて出力ストリームを再現することであって、それによって、再現された出力ストリームへの符号化された入力イベントは、ユーザに対して感知可能でない、再現することと、を含む。【選択図】図１

Description

本開示は、機械学習のためのデータセットを作成することに関する。特に、本開示は、ニューラルネットワークを訓練するための同期入力フィードバックによりデータセットを作成することに関する。

ソフトウェアの品質保証及びリリース試験は典型的には、バグを発見し、コンテンツが品質基準を満たすことを保証するために多くの日数にわたる数人の作業を必要とする。品質保証及びリリース試験タスクを行うために必要とされる作業者の人数及び時間の量を削減するための方式として、機械学習が提案されてきた。この分野に対して機械学習を使用することの現在の問題は、機械を訓練することが、機械がテスタ入力を受信する間に、作業者が莫大な回数の試験手順を繰り返すことを必要とすることである。

本開示の実施形態が生じるのはこの状況においてである。

添付図面と共に以下の詳細な説明を考慮することによって、本開示の態様を容易に理解することができる。

本開示の態様に従った、入力フィードバックを同期する方法のブロック図を表す。本開示の態様に従った、入力フィードバックを音声出力ストリームと同期する方法のブロック図を示す。本開示の態様に従った、ビデオ出力ストリーム内のウォーターマークとして入力フィードバックを同期する方法のブロック図を表す。本開示の態様に従った、ビデオストリーム内のメタデータとして入力フィードバックを同期する方法のブロック図を示す。本開示の態様に従った、機械学習のための符号化された入力イベントを有する出力ストリームを使用するブロック図を表す。本開示の態様に従った、入力フィードバックを音声出力ストリームと同期する方法の図を示す。本開示の態様に従った、同期入力フィードバックを有するシステムにおいて使用するための再帰型ニューラルネットワークの簡易化されたノード図である。本開示の態様に従った、同期入力フィードバックを有するシステムにおいて使用するための展開された再帰型ニューラルネットワークの簡易化されたノード図である。本開示の態様に従った、同期入力フィードバックを有するシステムにおいて使用するための畳み込みニューラルネットワークの簡易化された図である。本開示の態様に従った、同期入力フィードバックを有するシステムにおいてニューラルネットワークを訓練する方法のブロック図である。本開示の態様に従った、ニューラルネットワークにより同期入力フィードバックを実装するシステムのブロック図を表す。

以下の詳細な説明は、例示を目的として多くの特定の詳細を包含するが、当業者は、以下の詳細への多くの変形及び変更が開示の範囲内にあることを認識するであろう。したがって、特許請求される開示の一般性を失うことなく、及び特許請求される開示に限定を課すことなく、以下で説明される開示の実施形態の実施例が示される。

開示の実施形態の完全な理解を提供するために多数の特定の詳細が示されると共に、それらの特定の詳細なしに、他の実施形態が実施されてもよいことが当業者によって理解されるであろう。他の例では、本開示を曖昧にしないように、公知の方法、手順、構成要素、及び回路が説明されていない。本明細書における説明のいくつかの部分は、コンピュータメモリ内のデータビットまたは二値デジタル信号に対する演算のアルゴリズム及び象徴的表現に関して提示される。それらのアルゴリズムの記述及び表現は、その作業の本質を他の当業者に伝達するために、データ処理の分野における当業者によって使用される技術であってもよい。

本明細書で使用されるようなアルゴリズムは、所望の結果につながる首尾一貫した一連のアクションまたは演算である。それらは、物理量の物理操作を含む。通常、必ずしもそうではないが、それらの量は、記憶され、転送され、組み合わされ、比較され、及びそうでなければ操作されることが可能な電子信号または磁気信号の形式をとる。主に一般的な使用を理由として、これらの信号が、ビット、値、要素、シンボル、文字、用語、または数字などを指すことが便利であり得ることが証明されている。

特に述べられない限り、または以下の議論から明らかでない限り、説明の全体を通じて、「処理する」、「計算する」、「変換する」、「調停する」、「判定する」、または「識別する」などの用語を利用する議論は、コンピュータプラットフォームのアクション及び処理を指し、コンピュータプラットフォームは、プロセッサのレジスタ及びアクセス可能なプラットフォームメモリ内の物理（例えば、電子）量として表されるデータを、コンピュータプラットフォームメモリ、プロセッサレジスタ、またはディスプレイスクリーン内の物理量と同様に表される他のデータに操作及び変換するプロセッサを含む電子コンピューティングデバイスである。

コンピュータプログラムは、それらに限定されないが、フロッピー（登録商標）ディスク、光学ディスク（例えば、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタルビデオディスク（ＤＶＤ）、ブルーレイディスク（登録商標）など）を含むいずれかのタイプのディスク、及び磁気光学ディスク、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気もしくは光学カード、フラッシュメモリ、または電子命令を記憶するために適切ないずれかの他のタイプの非一時的媒体などのコンピュータ可読記憶媒体に記憶されてもよい。

それらの派生形と共に用語「結合される」及び「接続される」は、本明細書における演算を実行する装置の構成要素の間の構造的関係を説明するために本明細書で使用されてもよい。それらの用語は、相互に同義語として意図されないことは理解されるべきである。むしろ、特定の実施形態では、「接続される」は、２つ以上の要素が相互に直接物理接触または直接電気接触していることを示すために使用されてもよい。いくつかの例では、「接続される」、「接続」、及びそれらの派生形は、例えば、ニューラルネットワーク（ＮＮ）内のノード層の間の論理的関係を示すために使用される。「結合される」は、２つ以上の要素が相互に直接物理接触もしくは直接電気接触し、または間接物理接触（それらの間の他の仲介する要素による）もしくは間接電気接触していることのいずれかであること、及び／あるいは２つ以上の要素が相互に協同または通信する（因果関係にあるように）ことを示すために使用されてもよい。

ビデオゲーム及び他のソフトウェアの試験に対して現在訓練している人工エージェントは、多くの作業者が、十分な量の訓練データを生成するために、試験プロトコルを実行及び繰り返すことを必要とする。同期は、テスタがそれらの試験プロトコルを実行する間に、機械学習アルゴリズムがテスタ入力を受信すると共に全ての訓練がライブで実行される必要がある現在の方法による大きな問題である。機械がユーザからの入力をソフトウェア環境内で発生する特定のイベントと同期する方式が存在しないことを理由に、記録された試験性能に対して試験を実行することができない。よって、本開示の態様は、機械学習が入力をソフトウェア環境内で発生する特定のイベントと同期することが可能であるように、ユーザからの入力イベントを出力ストリームに符号化するシステム及び方法を作成することを目的とする。いくつかの実装態様では、入力タイミング情報及び出力タイミング情報を単一の出力ファイルに組み合わせることによって、結果として生じる出力との入力のタイミングの同期を大いに簡易化することができる。

［入力フィードバック機構］
図１は、本開示の態様に従った、入力フィードバックを同期する方法を表す。方法は、入力デバイスからの入力イベントの受信１０１により開始する。入力イベントは、ボタン押下、ジョイスティック入力、アナログジョイパッド入力、ステアリングホイール入力、またはポテンショメータ入力などであってもよい。いくつかの実装態様では、入力イベントは、ソフトウェア環境内で発生する特定のイベントと同期される。いくつかのケースでは、特定のイベントは、出力ストリーム内の出力イベントまたは一連の出力イベントである。例えば、ビデオゲームでの限定なしに、キー押下（入力イベント）は、ゲーム内のアバタによるアクション（特定のイベント）に先行するよう同期されてもよい。別の実施例として、ミュージックプレイヤにおいて、ポテンショメータの動き（入力イベント）は、振幅の増加（特定のイベント）に先行してもよい。うまく作動しないアプリケーションが誤った振る舞い、長いドゥエル（dwell）（滞在）タイム、または重要な処理に対して応答がないことを示す場合があることを理由に、特定のイベントまたはイベント（複数可）との入力イベントの同期は、ビデオゲーム及びユーザインタフェースなどのいくつかのアプリケーションを試験するために重要である。入力イベントは次いで、出力ストリームに符号化される１０２。出力ストリームは、音声ストリーム、ビデオストリームなどを含んでもよい。符号化１０２の間、入力イベントと特定のイベントとの間の同期は、出力ストリーム内で維持されるべきである。限定としてではなくビデオゲームビデオゲームについての実施例として、ビデオストリーム内のアバタのアクションに先行する入力イベントは、アバタのアクションの前にビデオゲームの音声ストリームが発生する時に行われる。この実施例では、音声ストリーム及びビデオストリームが同期され、それは、ほとんどのタイプのマルチメディア表現において一般的である。出力デバイスは次いで、符号化された入力により出力ストリームを再現してもよく、１０３において示されるようにそれを送信してもよい。実施例として、及び限定としてではなく、出力デバイスは、スピーカ、ディスプレイスクリーン、またはテレビスクリーンであってもよい。１０３における再現の間の出力ストリームに埋め込まれた符号化された入力は、出力デバイスによって再現されるとき、ユーザに対して検出可能でなく、または少なくとも感知可能でないが、この場合ユーザは、平均的な視覚及び聴覚能力を有する人間である。

図２Ａ及び図４は、入力フィードバックを音声出力ストリームと同期する方法を示す。入力イベント４０１、４０２は、入力デバイスから受信される２０１。上記議論されたように、ほとんどのマルチメディア表現の間、音声ストリーム４０４及びビデオストリームが同期される。そのようにして、ビデオ出力ストリームまたは音声出力ストリームのいずれかにおいて発生する特定のイベントは、いずれかの出力ストリームにおける適切な時間に行われる符号化された入力イベントと同期されてもよい。入力イベントを音声ストリームに符号化する利点は、ビデオ出力ストリームへの音声出力ストリームの比較的高いサンプルレートである。符号化の間、音声ストリームの低周波数部分４０６または高周波数部分のいずれかは、高域通過周波数フィルタまたは低域通過周波数フィルタのいずれかを適用することによって除去される２０２。音声ストリームの低周波数部分は、２０ヘルツ未満の音の振動である超低周波音に対応する。音声ストリームの高周波数部分は、２０キロヘルツを上回る音の振動である超音波に対応する。概して、超低周波音及び超音波は、成人に対して検出可能でなく、または少なくとも感知可能でない。入力イベントは、音声トーン４０３に変換されてもよく音声トーン４０３は次いで、式１に示されるように、周波数ドメインにおける加算、及び各時間ステップにおいて共に加算された音声周波数の合計数による合計の除算によって音声ストリームに混合される２０３、４０７。ｆ（ａ）は、時間ステップｔにおける出力ストリームの周波数であり、ｆ（ｂ_１…ｎ）は、符号化されたトーンを表し、ｎは、トーンの数を表し、
［（ｆ（ａ）＋ｆ（ｂ_１）＋…．ｆ（ｂ_ｎ））／（ｎ＋１）］_ｔ式１
である。

図４に示されるように、ボタン押下の長さ４０１、４０２は、トーンの長さ４０６によって符号化されてもよい。各々のタイプのボタン押下は、異なる周波数トーンとして符号化されてもよい。符号化されたトーンを有する出力音声ストリームは、例えば、フーリエ変換によって分解されてもよく、入力トーンの存在を判定するよう分析されてもよい。出力音声ストリームが出力ビデオストリームに同期される場合、同期音声ストリーム及びビデオストリームは、単一の出力ファイルに保存されてもよく、それは、入力イベントと特定の出力イベントとの間のタイミングを著しく簡易化する。示される実施例では、下向き矢印ボタン押下４０１は、右向き矢印ボタン押下４０２、及びトーンが符号化されないボタン押下の間よりも高い周波数４０６において符号化されてもよい。再生の間、音声データに符号化されたトーンは、ユーザに対して検出可能でないが、ニューラルネットワークによる使用のために復号可能である。特に、本開示の態様に従って、ニューラルネットワークは、ゲームプレイの間に発生するどの特定のイベントが、符号化されたトーンと関連付けられた入力イベントと関連付けられるかを判定するために、トーンから復号された情報を使用してもよい。

図２Ｂは、ビデオ出力ストリーム内のウォーターマークとして入力フィードバックを同期する方法を表す。入力イベントは、入力デバイスから受信される２０４。入力イベントは、ビデオ出力ストリームまたは音声出力ストリーム内で発生する特定のイベントと同期されてもよい。入力イベントは次いで、同期を維持すると共に、ウォーターマークとしてビデオストリームに符号化される２０５。例えば、ビデオ出力ストリーム内の動き、例えば、ビデオゲーム内のアバタの動き、または出力音声ストリームの振幅の増加の前に、キー押下は、ビデオ出力ストリームに符号化される。ウォーターマークは、限定することなく、アルファチャネル内、スクリーン位置内、または視認可能でない透かしに位置してもよい。

図２Ｃは、ビデオストリーム内のメタデータとして入力フィードバックを同期する方法を示す。以前の通り、同期入力イベントは、入力デバイスから受信される２０６。同期入力イベントは次いで、ビデオストリームのメタデータ内でビデオストリームと同期して符号化される。メタデータは、ビデオストリームのフレームごとのヘッダまたは補助的拡張情報などであってもよい。入力イベントをビデオ出力ストリームに符号化するとき、出力ストリーム内で符号化された入力イベントのレートは、ビデオストリームのフレームレートにロックされる。そのようにして、符号化された入力のレートは、ビデオストリームに対する典型的なフレームレートである、６０～１２０ヘルツに制限されてもよい。対照的に、入力を音声ストリームに符号化することは、音声ストリームのサンプルレートがビデオのサンプルレートよりもはるかに高いように、それほど制限されない。

［機械学習改善］
概して、ソフトウェアを試験するよう、ＮＮなどの機械学習システムを訓練するために大量の訓練データが必要とされる。ソフトウェア試験の重要な構成要素は、入力イベントが適切なソフトウェアの振る舞いに対応すること、及び入力イベントがユーザ経験に有害なクラッシュまたは他の不都合なイベントをもたらさないことを保証することである。上記議論されたように、ソフトウェア試験ＮＮに対する現在の訓練方法は、ＮＮが訓練している間にテスタが試験プロトコルを実行することを必要とする。このライブ試験データは、ラベル付けされたデータセットとして使用される。そのような情報をＮＮに提供するように構成されていないソフトウェア環境内で同期入力イベント情報を提供する容易な方式が現在存在しないので、試験はライブで実行される必要がある。そのようなソフトウェア環境は、ビデオゲーム及びユーザインタフェースを含む。

本開示の態様に従って、入力フィードバック機構は、システムの音声出力ストリームまたはビデオ出力ストリーム内で発生する特定のイベントに動機された入力イベント情報を提供することによって、ニューラルネットワーク（ＮＮ）の訓練を改善することができる。図３に示される以下の図は、ＮＮ訓練を改善するために、符号化された入力イベントを有する出力ストリームを使用する方法を表す。方法は、ストリーム内で符号化された、同期入力イベントを有する出力ストリームを受信すること３０１により開始する。受信された出力ストリームは、分割され、実際の出力から入力イベントを分離する３０２ために、分割された出力ストリームの１つにフィルタが適用される。いくつかの実装態様では、ＮＮは、出力ストリームからの入力イベントを分離するよう訓練されてもよい。代わりに、デコーダアプリケーションは、入力イベントを引き出してもよく、それらをＮＮに別個に供給してもよい。いくつかの実装態様では、出力ストリームは、複製されてもよく、１つの複製された出力ストリームに低域通過フィルタが適用されてもよく、その他の複製された出力ストリームに高域通過フィルタが適用されてもよい。別の実装態様では、出力ストリームのチャネルは、出力ストリームのアルファチャネルを他のチャネルから分離して分割されてもよい。いくつかの実装態様では、フレームメタデータは、ビデオデータから分離されてもよい。

符号化された入力イベントが出力ストリームから分離されると、ＮＮは、実の入力イベントを表すよう、符号化された入力イベントを使用して訓練されてもよい３０３。符号化された入力イベントが特定のイベントと同期されることを理由に、この方法は有利である。この同期は、出力ストリーム内のイベントの間にあってもよく、または符号化された入力イベントを含む、出力ストリームとは異なる出力ストリーム内のイベントの間にあってもよい。例えば、限定することなく、同期は、音声ストリーム内のトーンとして符号化された入力イベントと、ビデオストリーム内のユーザインタフェース要素の活性化との間にあってもよい。ホストシステムの構成に対する大きな変更なしに、記録されたデータセットにより訓練することを可能にすることを理由に、出力ストリームなどの媒体に容易にアクセスするためのこの同期の維持は、ＮＮの訓練を改善する。本明細書で使用されるように、用語「ホストシステム」は、出力ストリームが再現され、ＮＮが訓練されるデバイスを指す。実施例として、及び限定としてではなく、ＮＮは、以下で議論される方法に従ってソフトウェア試験に対して訓練されてもよい。

［機械学習訓練］
ニューラルネットワーク、ディープラーニング、またはソフトウェア試験を実装する他の機械学習は、いくつかの異なるタイプのニューラルネットワークのうちの１つ以上を含んでもよく、多くの異なる層を有してもよい。実施例として、及び限定としてではなく、ニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ）、再帰型ニューラルネットワーク（ＲＮＮ）、及び／または動的ニューラルネットワーク（ＤＮＮ）のうちの１つ以上を含んでもよい。

図５Ａは、ノード５２０の層を有するＲＮＮの基本的な形式を表し、ノード５２０の各々は、活性化関数Ｓ、１つの入力重みＵ、再帰型隠れノード遷移重みＷ、及び出力遷移重みＶによって特徴付けられる。活性化関数Ｓは、本分野において既知であるいずれかの非線形関数であってもよく、双曲線正接（ｔａｎｈ）関数に限定されない。例えば、活性化関数Ｓは、シグモイドまたはＲｅＬＵ関数であってもよい。他のタイプのニューラルネットワークとは異なり、ＲＮＮは、層全体に対する活性化関数及び重みの１つのセットを有する。図５Ｂに示されるように、ＲＮＮは、時間Ｔ及びＴ＋１を移る同一の活性化関数を有する一連のノード５２０として考えられてもよい。よって、ＲＮＮは、前の時間Ｔから現在の時間Ｔ＋１までの結果を供給することによって、履歴情報を維持する。

重みＵ、Ｗ、Ｖを構成することができるいくつかの方式が存在する。例えば、入力重みＵは、ビデオ画素値、音声サンプル値、または入力イベント値などに基づいて適用されてもよい。それらの異なる入力に対する重みは、ルックアップテーブルに記憶されてもよく、必要に応じて適用されてもよい。システムが最初に適用するデフォルトの値が存在する。それらは次いで、ユーザによって手動で、または機械学習によって自動で修正されてもよい。

いくつかの実施形態では、畳み込みＲＮＮ（ＣＲＮＮ）が使用されてもよい。使用することができる別のタイプのＲＮＮは、参照によって本明細書に組み込まれる、Ｈｏｃｈｒｅｉｔｅｒ＆Ｓｃｈｍｉｄｈｕｂｅｒ「ＬｏｎｇＳｈｏｒｔ－ｔｅｒｍＭｅｍｏｒｙ」ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ９（８）：１７３４－１７８０（１９９７）によって説明されるような、ネットワークがより長い時間期間の間に何らかの情報を保持することを可能にするゲーティングメモリをもたらす、入力ゲート活性化関数、出力ゲート活性化関数、及び忘却ゲート活性化関数によりメモリブロックをＲＮＮノードに追加する、長・短期メモリ（ＬＳＴＭ）ニューラルネットワークである。

図５Ｃは、本開示の態様に従った、ＣＲＮＮなどの畳み込みニューラルネットワークの実施例のレイアウトを表す。この表現では、畳み込みニューラルネットワークは、１６の単位の総領域を与える、高さにおける４の単位及び幅における４の単位のサイズを有する画像５３２に対して生成される。表される畳み込みニューラルネットワークは、１のスキップ値及びサイズ９のチャネル５３６を有する、高さにおける２の単位及び幅における２の単位のサイズを有するフィルタ５３３を有する。図５Ｃにおいて明確にするために、チャネルの第１の列とそれらのフィルタウインドウとの間の接続５３４のみが表される。しかしながら、本開示の態様は、そのような実装態様に限定されない。本開示の態様に従って、ソフトウェア試験を実装する畳み込みニューラルネットワーク５２９は、任意の数の追加のニューラルネットワークノード層５３１を有してもよく、任意のサイズの、追加の畳み込み層、完全接続層、プーリング層、マックスプーリング層、局所コントラスト正規化層などとして、そのような層のタイプを含んでもよい。

図５Ｄにおいて見られるように、ニューラルネットワーク（ＮＮ）を訓練することは、ＮＮの重みの初期化５４１により開始する。概して、初期の重みは、ランダムに分散されるべきである。例えば、ｔａｎｈ活性化関数を有するＮＮは、－１／√ｎと１／√ｎとの間で分散されるランダムな値を有するべきであり、ｎは、ノードへの入力の数である。

初期化の後、活性化関数及びオプティマイザが定義される。ＮＮは次いで、特徴データセットまたは入力データセットが提供される５４２。いくつかの実装態様では、ソフトウェア試験ＮＮは、既知のラベル付けを有する入力に対応する特徴ベクトルが提供されてもよい。ＮＮは次いで、特徴または入力についてのラベル及び分類を予測する５４３。予測されたラベルまたはクラスが、既知のラベルまたはクラス（グラウンドトゥルースとしても知られる）と比較され、損失関数は、全ての訓練サンプルにわたって予測とグラウンドトゥルースとの間の全誤差を測定する５４４。実施例として、及び限定としてではなく、損失関数は、クロスエントロピ損失関数、二次コスト、トリプレット対照関数、指数関数的コストなどであってもよい。目的に応じて複数の異なる損失関数が使用されてもよい。ＮＮは次いで、損失関数の結果を使用して、及び確率的勾配降下法などによるバックプロパゲーションなどのニューラルネットワークに対する訓練の既知の方法を使用して最適及び訓練される５４５。各々の訓練エポックでは、オプティマイザは、訓練損失関数（すなわち、全誤差）を最小にするモデルパラメータ（すなわち、重み）を選択することを試みる。データは、訓練サンプル、検証サンプル、及び試験サンプルに区分化される。

訓練の間、オプティマイザは、訓練サンプルに対して損失関数を最小にする。各訓練エポックの後、検証損失及び精度を計算することによって、検証サンプルに対してモードが評価される。著しい変化がない場合、訓練が停止してもよく、試験データのラベルを予測するために、結果として生じる訓練されたモデルが使用されてもよい。

よって、ソフトウェア試験ニューラルネットワークは、既知のターゲットラベルを仮定してクロスエントロピ損失を最小にすることによって、変則のソフトウェア活動を識別及び分類するよう、既知のラベルまたは分類を有する音声ストリーム、ビデオストリーム、及び符号化された入力イベントストリームから訓練されてもよい。

［実装態様］
図６は、本開示の態様に従った、同期入力フィードバックを提供するシステムを表す。システムは、ユーザ入力デバイス６０２に結合されたコンピューティングデバイス６００を含んでもよい。ユーザ入力デバイス６０２は、コントローラ、タッチスクリーン、マイクロフォン、キーボード、マウス、ジョイスティック、または他の同様のデバイスであってもよい。

コンピューティングデバイス６００は、例えば、シングルコア、デュアルコア、クアッドコア、マルチコア、プロセッサコプロセッサ、及びセルプロセッサなどの公知のアーキテクチャに従って構成することができる、１つ以上のプロセッサユニット６０３を含んでもよい。コンピューティングデバイスはまた、１つ以上のメモリユニット６０４（例えば、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、及びリードオンリメモリ（ＲＯＭ）など）を含んでもよい。

プロセッサユニット６０３は、１つ以上のプログラムを実行してもよく、１つ以上のプログラムの一部は、メモリ６０４に記憶されてもよく、プロセッサ６０３は、例えば、データバス６０５を介してメモリにアクセスすることによって、メモリに動作可能に結合されてもよい。プログラムは、出力ストリームからの別個の入力イベントに対するフィルタ６０８を実装するように構成されてもよい。加えて、メモリ６０４は、ＮＮ６２１の訓練を実装するプログラムを包含してもよい。メモリ６０４はまた、ユーザ入力デバイス６０２から出力ストリームへの入力イベントの符号化を実装する、符号化モジュール６１０などのソフトウェアモジュールを包含してもよい。出力ストリームは、大容量記憶装置６１５内のプログラム６１７またはネットワーク６２０から受信されたプログラム６１７の実行によって生成されてもよく、入力イベントを符号化する前または後に、メモリ６０４内のバッファにおいて保持されてもよい。

ＮＮの全体構造及び確率も、大容量記憶装置６１５にデータ６１８として記憶されてもよい。プロセッサユニット６０３は、大容量記憶装置６１５またはメモリ６０４に記憶された１つ以上のプログラム６１７を実行するように更に構成され、１つ以上のプログラム６１７は、入力デバイス６０２からの入力イベントを出力ストリーム６１０に符号化する方法１００をプロセッサに実行させる。加えて、プロセッサユニット６０４は、上記議論された方法３００及び５００に従ってＮＮを訓練する方法を実行するように構成されてもよい。システムは、ＮＮ訓練工程の一部としてニューラルネットワークを生成してもよい。それらのニューラルネットワークは、サウンドカテゴリ化ＮＮモジュール６２１においてメモリ６０４に記憶されてもよい。完了したＮＮは、メモリ６０４に記憶されてもよく、または大容量記憶装置６１５にデータ６１８として記憶されてもよい。プログラム６１７（または、その一部）も、例えば、符号化された入力イベント及び別個の出力ストリームを生成するよう適切なフィルタ６０８を出力ストリームに適用し、符号化された入力イベントによりＮＮ６２１を訓練し、同期された様式において入力イベントを出力ストリーム６１０に符号化するための適切なプログラミングによって構成されてもよい。

コンピューティングデバイス６００はまた、例えば、バス６０５を介してシステムの他の構成要素を通信することができる、入力／出力（Ｉ／Ｏ）６０７、回路、電力供給装置（Ｐ／Ｓ）６１１、クロック（ＣＬＫ）６１２、及びキャッシュ６１３などの公知のサポート回路を含んでもよい。コンピューティングデバイスは、ネットワークインタフェース６１４を含んでもよい。プロセッサユニット６０３及びネットワークインタフェース６１４は、適切なネットワークプロトコル、例えば、パーソナルエリアネットワーク（ＰＡＮ）に対するＢｌｕｅｔｏｏｔｈ（登録商標）を介して、ローカルエリアネットワーク（ＬＡＮ）またはＰＡＮを実装するように構成されてもよい。コンピューティングデバイスは任意選択で、ディスクドライブ、ＣＤ－ＲＯＭドライブ、テープドライブ、またはフラッシュメモリなど大容量記憶装置６１５を含んでもよく、大容量記憶装置は、プログラム及び／またはデータを記憶してもよい。コンピューティングデバイスはまた、システムとユーザとの間の対話を促進するためのユーザインタフェース６１６を含んでもよい。ユーザインタフェースは、モニタ、テレビスクリーン、スピーカ、ヘッドフォン、または情報をユーザに通信する他のデバイスを含んでもよい。

コンピューティングデバイス６００は、電子通信ネットワーク６２０を介した通信を促進するためのネットワークインタフェース６１４を含んでもよい。ネットワークインタフェース６１４は、ローカルエリアネットワーク及びインターネットなどのワイドエリアネットワークを通じた有線通信または無線通信を実装するように構成されてもよい。デバイス６００は、ネットワーク６２０を通じて１つ以上のメッセージパケットを介してデータ及び／またはファイルについての要求を送信及び受信してもよい。ネットワーク６２０を通じて送信されるメッセージパケットは、メモリ６０４内のバッファ６０９に一時的に記憶されてもよい。出力ストリームは、ネットワーク６２０を通じて受信されてもよく、またはプログラム６１７からローカルに生成されてもよい。

上述したことは、本開示の好ましい実施形態の完全な説明であるが、様々な変形物、修正物、及び同等物を使用することが可能である。上記説明は、例示的であり、限定するものではないことを意図していることが理解されよう。例えば、図面におけるフローチャートは、開示の特定の実施形態によって実行される演算の特定の順序を示すが、そのような順序が必須でないことが理解されるべきである（例えば、代替的な実施形態は、異なる順序において演算を実行してもよく、特定の演算を組み合わせてもよく、特定の演算を重複させてもよい、など）。更に、上記説明を読み、理解すると、多くの他の実施形態が当業者にとって明らかである。特定の例示的な実施形態を参照して本開示が説明されてきたが、開示が説明された実施形態に限定されないが、添付の請求項の趣旨及び範囲内で修正及び変形により実施されてもよいことが認識されよう。したがって、開示の範囲は、添付の請求項が権利を与えられる同等物の全範囲に従って、そのような請求項を参照して決定されるべきである。好ましいか否かに関わらず、本明細書で説明されたいずれかの特徴は、好ましいか否かに関わらず、本明細書で説明されたいずれかの他の特徴と組み合わされてもよい。以下の請求項では、不定冠詞「Ａ」または「Ａｎ」は、明確に述べられる場合を除き、冠詞に続く項目のうちの１つ以上の量を指す。添付の請求項は、ミーンズプラスファンクションの限定が、フレーズ「～する手段（ｍｅａｎｓｆｏｒ）」を使用して所与の請求項に明確に記載されない限り、そのような限定を含むとして解釈されるべきではない。

Claims

同期入力フィードバックを提供する方法であって、
ａ）入力イベントを受信することと、
ｂ）前記入力イベントを出力ストリームに符号化することであって、前記入力イベントの前記符号化は、特定のイベントと同期される、前記符号化することと、
ｃ）出力デバイスを通じて前記出力ストリームを再現することであって、前記再現された出力ストリームの前記符号化された入力イベントは、前記出力デバイスを通じて再現されるときにユーザに対して感知可能でない、前記再現することと、
を備えた、方法。
前記出力ストリームは、音声ストリームを含み、前記入力イベントは、トーンとして前記音声ストリームに符号化される、請求項１に記載の方法。
前記入力イベントは、超低周波トーンとして符号化される、請求項２に記載の方法。
前記入力イベントは、超音波トーンとして符号化される、請求項２に記載の方法。
前記出力ストリームは、ビデオストリームを含む、請求項１に記載の方法。
前記入力イベントは、前記ビデオストリーム上でウォーターマークとして符号化される、請求項５に記載の方法。
前記入力イベントは、メタデータとして前記ビデオストリームに符号化される、請求項５に記載の方法。
前記メタデータは、ビデオフレームごとの補助的拡張情報である、請求項７に記載の方法。
前記出力ストリームは、一連のイベントを含み、前記入力イベントの前記符号化は、前記一連の出力イベントと同期される、請求項１に記載の方法。
前記入力イベントの前記符号化は、ビデオゲーム内で発生するイベントと同期される、請求項１に記載の方法。
前記入力イベントの前記符号化は、ネットワークを通じてリモートデバイス上で発生するイベントと同期される、請求項１に記載の方法。
前記入力イベントは、キー押下である、請求項１に記載の方法。
前記入力イベントは、ジョイスティック制御入力である、請求項１に記載の方法。
前記入力イベントは、ステアリングホイール制御入力である、請求項１に記載の方法。
前記符号化された入力を有する前記出力ストリームは、前記出力ストリームから前記符号化された入力イベントを分離するようフィルタリングされる、請求項１に記載の方法。
前記出力ストリーム及び前記符号化された入力イベントは、ニューラルネットワークに提供される、請求項１５に記載の方法。
前記ニューラルネットワークは、前記符号化された入力イベントを前記特定のイベントと関連付けるよう訓練される、請求項１６に記載の方法。
前記入力イベントは、前記特定のイベントを生じさせるように構成される、請求項１に記載の方法。
非一時的コンピュータ可読媒体に埋め込まれた命令であって、前記命令は、実行されるとき、
ａ）入力イベントを受信することと、
ｂ）前記入力イベントを出力ストリームに符号化することであって、前記入力イベントの前記符号化は、特定のイベントと同期される、前記符号化することと、
ｃ）出力デバイスを通じて前記出力ストリームを再現することであって、それによって、前記再現された出力ストリームの前記符号化された入力イベントは、ユーザに対して検出可能でない、前記再現することと、
を含む方法を実施する、命令。
システムであって、
プロセッサと、
メモリと、
前記メモリ内の非一時的命令と、を備え、前記非一時的命令は、実行されるとき、前記プロセッサに、
ａ）入力イベントを受信することと、
ｂ）前記入力イベントを出力ストリームに符号化することであって、前記入力イベントの前記符号化は、特定のイベントと同期される、前記符号化することと、
ｃ）出力デバイスを通じて前記出力ストリームを再現することであって、それによって、前記再現された出力ストリームの前記符号化された入力イベントは、ユーザに対して検出可能でない、前記再現することと、
を含む方法を実施させる、システム。
改善された機械学習訓練のための方法であって、
ａ）符号化された入力イベントを含む出力ストリームを受信することであって、前記符号化された入力イベントは、ユーザに対して検出可能でない、前記受信することと、
ｂ）前記符号化された入力イベントを復元するよう前記出力ストリームをフィルタリングすることであって、前記符号化された入力イベントは、特定のイベントと同期される、前記フィルタリングすることと、
ｃ）前記符号化された入力イベントを前記特定のイベントと関連付けるよう、ニューラルネットワークを訓練することと、
を備えた、方法。