JP2024519577A

JP2024519577A - 機械学習を使用するビデオフレームからのコントローラーアクション認識

Info

Publication number: JP2024519577A
Application number: JP2023566928A
Authority: JP
Inventors: クリシュナン、ラティシュ; シャー、マウリク
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2021-05-04
Filing date: 2022-04-29
Publication date: 2024-05-17
Also published as: CN117242498A; WO2022235505A1; EP4334907A1; US20220355211A1

Abstract

【課題】機械学習モデル（３０６）を使用して、観客用コンピューターで提示するために、録画されたビデオゲームを受信し（７００）、ビデオから、録画されたビデオゲームで生じたゲームのプレイ中におけるコントローラー操作の識別を導出する（７０２）。【解決手段】識別されたコントローラー操作のインジケーションは、記録されたビデオゲームとともに提示され（７０４）、視聴者がゲームをプレイする方法を学習するのを支援し得る。【選択図】図７

Description

本願は、必然的にコンピューター技術が原因となり、具体的な技術的改善を生じさせる、技術的に発明性のある非定型な解決策に関する。

本明細書で理解されるように、以前にプレイしたコンピューターゲームのビデオは、コンピューターネットワークを通じて共有され得、ゲームのレベルを完了することによる等、視聴者にゲームに成功する方法を指導する。さらに本明細書で理解されるように、そのようなゲームビデオは、どのコントローラーボタンが押されたのかに関する情報及びゲームのプレイ中のタイミングに関する情報を含まない場合がある。その理由として、ゲームビデオは、ゲームがプレイされたときにコントローラーアクションをキャプチャすることなく記録され得るためである。

また、本明細書で理解されるように、どのコントローラーボタンが押されたのかに関する情報、及びコンピューターゲームのプレイを学習するプレイヤーに価値があるタイミングに関する情報は、初心者からスピードランナーまで、多くのタイプのゲーマーにとって、ゲームをより楽しいものにする。本明細書では、追加のコントローラーデータを用いずに一連のビデオフレームを分析することによって、コントローラーアクション情報を生成する機械学習技術が提供される。

したがって、デバイスは少なくとも１つのコンピューターメモリを含み、少なくとも１つのコンピューターメモリは、一時的信号ではなく、さらには、ビデオフレームのシーケンスを含む記録されたコンピューターシミュレーションを受信するために、少なくとも１つのプロセッサによって実行可能な命令を含む。命令は、機械学習（ＭＬ）モデルにおいてビデオフレームのシーケンスを処理すること、記録されたコンピューターシミュレーションを生成することに関連付けられたコンピューターシミュレーションコントローラー（ＣＳＣ）操作の識別をＭＬモデルから受信することを実行可能にする。加えて、命令は、記録されたコンピューターシミュレーションを少なくとも１つのオーディオビデオ（ＡＶ）ディスプレイに、ＭＬモデルから受信されたＣＳＣ操作の少なくとも１つのインジケーションとともに提示することを実行可能にする。

例示的な実施形態では、ＭＬモデルは、少なくとも１つの長短期記憶（ＬＳＴＭ）ネットワーク等の少なくとも１つのリカレントニューラルネットワーク（ＲＮＮ）を含む。また、畳み込みニューラルネットワーク（ＣＮＮ）も使用できる。

本デバイスはプロセッサを含み得、このプロセッサは、ＡＶディスプレイに、もしくはコンピューターシミュレーションコンソール等のコンピューターシミュレーションのソースに、及び／またはワイドエリアコンピューターネットワークを通じてＡＶディスプレイと通信するサーバーに、組み込まれ得る。

別の態様では、本装置は、少なくとも１つのコンピューターシミュレーションコントローラーの制御下で生成された、少なくとも１つの記録されたコンピューターシミュレーションのビデオを提示するように構成された少なくとも１つのディスプレイを含む。しかしながら、記録されたコンピューターシミュレーションは、少なくとも１つの記録されたコンピューターシミュレーションのビデオの生成中におけるコンピューターシミュレーションコントローラーの操作に関する情報を含まない。したがって、本装置は少なくとも１つのプロセッサを含み、プロセッサは、少なくとも１つの記録されたコンピューターシミュレーションのビデオの生成中に、ビデオから、コンピューターシミュレーションコントローラーの操作に関する情報を識別するための命令を伴って構成される。命令は、少なくとも１つの記録されたコンピューターシミュレーションのビデオを提示することとともに当該情報を提示するために、少なくとも１つの記録されたコンピューターシミュレーションのビデオの生成中のコンピューターシミュレーションコントローラーの操作に関する情報を、少なくとも１つのディスプレイに提供するために実行可能である。

例示的な実施態様では、少なくとも１つの機械学習（ＭＬ）モデルを使用して、少なくとも１つの記録されたコンピューターシミュレーションのビデオの生成中に、ビデオから、コンピューターシミュレーションコントローラーの操作に関する情報を識別するために実行可能であり得る。

別の態様では、本方法は、少なくともトレーニングセットを、少なくとも１つの機械学習（ＭＬ）モデルに入力することを含む。トレーニングセットは、複数の記録されたコンピューターシミュレーションからのビデオフレームのシーケンスと、ビデオフレームのシーケンスの生成中に実行されたコンピューターシミュレーションコントローラー（ＣＳＣ）操作に関するビデオフレームのシーケンスに関連付けられた情報とを含む。本方法は、次に、少なくとも第１の記録されたコンピューターシミュレーションをＭＬモデルに入力することを含み、第１の記録されたコンピューターシミュレーションは、第１の記録されたコンピューターシミュレーションの生成中に実行されたＣＳＣ操作に関する情報を含まない。本方法は、ＭＬモデルから受信された第１の記録されたコンピューターシミュレーションの生成中に実行されたＣＳＣ操作に関する可聴情報及び／または可視情報とともに第１の記録されたコンピューターシミュレーションを提示することを含む。

本願の詳細は、その構造及び動作の両方について、添付の図面を参照すると最良に理解でき、図面において、類似の参照符号は、類似の部分を指す。

本原理による例を含む例示的なシステムのブロック図である。本原理に即した記録されたコンピューターシミュレーション（コンピューターゲーム等）のビデオから学習され得る例示的なキー操作を要するゲームコントローラーの例を示す。本原理に即したコンピューターゲーム等の記録されたコンピューターシミュレーションを閲覧するための例を示す。どのようなコントローラー操作が実施され、いつ実施されたかに関する情報を、記録されたコンピューターシミュレーションビデオから導出するために、機械学習（ＭＬ）モデルをトレーニングするための例示的なフローチャートフォーマットにおける例示的なロジックを示す。ＭＬモデルをトレーニングするために使用され得るコントローラー操作に関する付随情報を伴う一連のビデオフレームを概略的に示す。コントローラー操作に依存して発生する可能性があるコントローラー操作及び代替ビデオパスに関する付随情報を伴わないビデオフレームのシーケンスを概略的に示し、コントローラー操作の識別を示す。記録されたコンピューターシミュレーションからの記録されたビデオフレームのシーケンスからのコントローラー操作を識別するための、例示的なフローチャートフォーマットの例示的なロジックを示す。本原理に即したＭＬモデルからの例示的な出力表現を示す。

したがって、本原理では、深層学習モデルを含む機械学習モデルを使用し得る。機械学習モデルは、教師あり学習、教師なし学習、半教師あり学習、強化学習、機能学習、自己学習、及び他の学習形式を含む方法でトレーニングされた様々なアルゴリズムを使用する。コンピューター回路によって実装できるそのようなアルゴリズムの例は、畳み込みニューラルネットワーク（ＣＮＮ）、一連の画像から情報を学習するのに適し得るリカレントニューラルネットワーク（ＲＮＮ）、及び長短期記憶（ＬＳＴＭ）ネットワークとして既知のＲＮＮのタイプ等の１つ以上のニューラルネットワークを含む。サポートベクターマシン（ＳＶＭ）及びベイジアンネットワークは、また、機械学習モデルの例と見なされ得る。

本明細書で理解されるように、機械学習を行うことは、トレーニングデータでモデルにアクセスして、次にトレーニングし、モデルがさらなるデータを処理して予測を行うのを可能にすることを含む。ニューラルネットワークは、入力層、出力層、及びそれらの間に複数の隠れ層を含み得、それらの層は、適切な出力について推論するように構成及び重み付けされる。

本開示は、概して、限定ではないが、コンピューターゲームネットワーク等の家電製品（ＣＥ）デバイスネットワークの態様を含むコンピューターエコシステムに関する。本明細書のシステムはネットワークを通じて接続され得るサーバーコンポーネント及びクライアントコンポーネントを含み得、それにより、クライアントコンポーネントとサーバーコンポーネントとの間でデータが交換され得る。クライアントコンポーネントは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲーム機またはＭｉｃｒｏｓｏｆｔ（登録商標）もしくはＮｉｎｔｅｎｄｏ（登録商標）もしくは他の製造者によって作成されたゲーム機、仮想現実（ＶＲ）ヘッドセット、拡張現実（ＡＲ）ヘッドセット、ポータブルテレビ（例えば、スマートテレビ、インターネット対応テレビ）、ラップトップ及びタブレットコンピューター等のポータブルコンピューター、ならびにスマートフォン及び下記に説明される追加例を含む他のモバイルデバイスを含む、１つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピューターの一部は、例として、Ｌｉｎｕｘ（登録商標）オペレーティングシステム、Ｍｉｃｒｏｓｏｆｔ（登録商標）のオペレーティングシステム、もしくはＵｎｉｘ（登録商標）オペレーティングシステム、またはＡｐｐｌｅ（登録商標）社もしくはＧｏｏｇｌｅ（登録商標）によって製造されたオペレーティングシステムを使用し得る。これらの動作環境を使用して、Ｍｉｃｒｏｓｏｆｔ（登録商標）もしくはＧｏｏｇｌｅ（登録商標）もしくはＭｏｚｉｌｌａ（登録商標）によって作成されたブラウザ、または下記に説明されるインターネットサーバーによってホストされるウェブサイトにアクセスできる他のブラウザプログラム等の１つ以上の閲覧プログラムを実行し得る。また、本原理に従った動作環境を使用して、１つ以上のコンピューターゲームプログラムを実行し得る。

サーバー及び／またはゲートウェイは、インターネット等のネットワークを通じてデータを受信及び伝送するサーバーを構成する命令を実行する１つ以上のプロセッサを含み得る。または、クライアント及びサーバーは、ローカルイントラネットまたは仮想プライベートネットワークを通じて接続できる。サーバーまたはコントローラーは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）等のゲーム機、パーソナルコンピューター等によってインスタンス化され得る。

情報は、クライアントとサーバーとの間でネットワークを通じて交換され得る。この目的のために及びセキュリティのために、サーバー及び／またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。１つ以上のサーバーは、ネットワークメンバーにオンラインソーシャルウェブサイト等のセキュアコミュニティを提供する方法を実施する装置を形成し得る。

プロセッサは、アドレスライン、データライン、及び制御ライン等の様々なライン、ならびにレジスタ及びシフトレジスタによってロジックを実行できるシングルチッププロセッサまたはマルチチッププロセッサであり得る。

一実施形態に含まれるコンポーネントは、他の実施形態では、任意の適切な組み合わせで使用できる。例えば、本明細書に説明される及び／または図で示される様々なコンポーネントのいずれかは、組み合わされ得る、交換され得る、または他の実施形態から排除され得る。

「Ａ、Ｂ、及びＣのうちの少なくとも１つを有するシステム」（同様に「Ａ、Ｂ、またはＣのうちの少なくとも１つを有するシステム」及び「Ａ、Ｂ、Ｃのうちの少なくとも１つを有するシステム」）は、Ａ単独、Ｂ単独、Ｃ単独、Ａ及びＢをともに、Ａ及びＣをともに、Ｂ及びＣをともに、ならびに／またはＡ、Ｂ、及びＣ等をともに有するシステムを含む。

ここで具体的に図１を参照すると、例示的なシステム１０が示され、システム１０は、本原理による、上述され及び下記に詳述される、例示的なデバイスの１つ以上を含み得る。システム１０に含まれる第１の例示的デバイスは、限定ではないが、テレビチューナ（同様に、テレビを制御するセットトップボックス）を有するインターネット対応テレビ等の音声ビデオデバイス（ＡＶＤ）１２等の家電製品（ＣＥ）デバイスである。代わりに、ＡＶＤ１２は、また、コンピューター制御型インターネット対応（「スマート」）電話、タブレットコンピューター、ノートブックコンピューター、ＨＭＤ、ウェアラブルコンピューター制御デバイス、コンピューター制御型インターネット対応ミュージックプレイヤー、コンピューター制御型インターネット対応ヘッドフォン、インプラント可能な皮膚用デバイス等のコンピューター制御型インターネット対応のインプラント可能なデバイス等であり得る。とにかく、ＡＶＤ１２は、本原理を実施するように構成される（例えば、本原理を実施するように他のＣＥデバイスと通信し、本明細書に説明されるロジックを実行し、本明細書に説明されるいずれかの他の機能及び／または動作を行う）ことを理解されたい。

したがって、そのような原理を実施するために、ＡＶＤ１２は、図１に示されるコンポーネントの一部または全てによって確立できる。例えば、ＡＶＤ１２は、１つ以上のディスプレイ１４を含み得、１つ以上のディスプレイ１４は、高解像度もしくは超解像度の「４Ｋ」またはより高い解像度のフラットスクリーンによって実装され得、ディスプレイのタッチによりユーザー入力信号を受信するためにタッチ対応であり得る。ＡＶＤ１２は、本原理に従って音声を出力するための１つ以上のスピーカー１６と、可聴コマンドをＡＶＤ１２に入力して、ＡＶＤ１２を制御するための、例えば、音声受信機／マイクロホン等の少なくとも１つの追加入力デバイス１８と、を含み得る。例示的なＡＶＤ１２は、また、１つ以上のプロセッサ２４の制御の下、インターネット、ＷＡＮ、ＬＡＮ等の少なくとも１つのネットワーク２２を通じて通信するための１つ以上のネットワークインターフェース２０を含み得る。また、グラフィックプロセッサを含み得る。したがって、インターフェース２０は、限定ではないが、Ｗｉ－Ｆｉ（登録商標）送受信機であり得、Ｗｉ－Ｆｉ（登録商標）送受信機は、限定ではないが、メッシュネットワークトランシーバー等の無線コンピューターネットワークインターフェースの例である。プロセッサ２４は、ディスプレイ１４をそこで画像を提示するように制御することと、そこから入力を受信すること等の本明細書に説明されるＡＶＤ１２の他の要素を含む本原理を実施するようにＡＶＤ１２を制御することを理解されたい。さらに、ネットワークインターフェース２０は、有線もしくは無線のモデムもしくはルータ、または、無線テレフォニ送受信機もしくは上述したＷｉ－Ｆｉ（登録商標）送受信機等の他の適切なインターフェースであり得ることに留意されたい。

上述に加えて、ＡＶＤ１２は、また、別のＣＥデバイスに物理的に接続するための高精細マルチメディアインターフェース（ＨＤＭＩ（登録商標））ポートもしくはＵＳＢポート、及び／またはヘッドフォンを経由してＡＶＤ１２からユーザーに音声を提示するためにＡＶＤ１２にヘッドフォンを接続するためのヘッドフォンポート等の１つ以上の入力ポート２６を含み得る。例えば、入力ポート２６は、オーディオビデオコンテンツのケーブルまたは衛星ソース２６ａに有線でまたは無線で接続され得る。したがって、ソース２６ａは、分離もしくは統合されたセットトップボックス、またはサテライト受信機であり得る。または、ソース２６ａは、コンテンツを含むゲーム機またはディスクプレイヤーであり得る。ソース２６ａは、ゲーム機として実装されるとき、ＣＥデバイス４４に関連して下記に説明されるコンポーネントの一部または全てを含み得る。

ＡＶＤ１２は、さらに、一時的信号ではない、ディスクベースストレージまたはソリッドステートストレージ等の１つ以上のコンピューターメモリ２８を含み得、これらのストレージは、いくつかの場合、スタンドアロンデバイスとして、またはＡＶプログラムを再生するためにＡＶＤのシャーシの内部もしくは外部のいずれかでパーソナルビデオ録画デバイス（ＰＶＲ）もしくはビデオディスクプレイヤーとして、または取り外し可能メモリ媒体として、ＡＶＤのシャーシ内で具現化される。また、いくつかの実施形態では、ＡＶＤ１２は、限定ではないが、サテライト基地局もしくは携帯電話基地局から地理的位置情報を受信し、情報をプロセッサ２４に提供し、及び／またはＡＶＤ１２がプロセッサ２４と併せて配置される高度を判定するように構成される、携帯電話受信機、ＧＰＳ受信機、及び／または高度計３０等の位置受信機または場所受信機を含み得る。コンポーネント３０は、また、３次元でのＡＶＤ１２の位置及び向きを判定するために、典型的に、加速度計、ジャイロスコープ、及び磁力計の組み合わせを含む慣性測定ユニット（ＩＭＵ）によって実現され得る。

ＡＶＤ１２の説明を続けると、いくつかの実施形態では、ＡＶＤ１２は、１つ以上のカメラ３２を含み得、１つ以上のカメラ３２は、熱画像カメラ、ウェブカメラ等のデジタルカメラ、ならびに／または本原理に従って写真／画像及び／もしくはビデオを集めるように、ＡＶＤ１２に統合され、プロセッサ２４によって制御可能であるカメラであり得る。また、ＡＶＤ１２に含まれるのは、Ｂｌｕｅｔｏｏｔｈ（登録商標）及び／または近距離無線通信（ＮＦＣ）技術を各々使用して、他のデバイスと通信するためのＢｌｕｅｔｏｏｔｈ（登録商標）送受信機３４及び他のＮＦＣ要素３６であり得る。例示的なＮＦＣ素子は、無線自動識別（ＲＦＩＤ）素子であり得る。

さらにまた、ＡＶＤ１２は、プロセッサ２４に入力を提供する１つ以上の補助センサ３８（例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度センサ及び／またはケイデンスセンサ、ジェスチャセンサ（例えば、ジェスチャコマンドを検知するためのセンサ））を含み得る。ＡＶＤ１２は、プロセッサ２４に入力を提供する無線（ｏｖｅｒ－ｔｈｅ－ａｉｒ（ＯＴＡ））ＴＶ放送を受信するための無線テレビ放送ポート４０を含み得る。上述に加えて、ＡＶＤ１２は、また、赤外線（ＩＲ）データアソシエーション（ＩＲＤＡ）デバイス等のＩＲ伝送機及び／またはＩＲ受信機及び／またはＩＲ送受信機４２も含み得ることに留意されたい。バッテリー（図示せず）は、ＡＶＤ１２に給電するために提供され得、運動エネルギーを電力に変換してバッテリーを充電し、及び／またはＡＶＤ１２に給電し得る運動エネルギーハーベスターであり得る。グラフィックスプロセッシングユニット（ＧＰＵ）４４及びフィールドプログラマブルゲートアレイ４６も含み得る。

さらに図１を参照すると、ＡＶＤ１２に加えて、システム１０は、１つ以上の他のＣＥデバイスタイプを含み得る。一例では、第１のＣＥデバイス４８は、ＡＶＤ１２に直接送信されたコマンドを介して及び／または後述のサーバーを経由して、コンピューターゲームの音声及びビデオをＡＶＤ１２に送信するために使用できるコンピューターゲーム機であり得る一方、第２のＣＥデバイス５０は第１のＣＥデバイス４８と同様のコンポーネントを含み得る。示される例では、第２のＣＥデバイス５０は、プレイヤーによってマニピュレートされたコンピューターゲームコントローラー、またはプレイヤーによって装着されたヘッドマウントディスプレイ（ＨＭＤ）として構成され得る。示される例では、２つのＣＥデバイスだけが示され、より少ない数またはより多い数のデバイスが使用され得ることを理解されたい。本明細書のデバイスは、ＡＶＤ１２用に示されるコンポーネントの一部または全てを実装し得る。次の図に示されるコンポーネントのいずれかは、ＡＶＤ１２の場合に示されるコンポーネントの一部または全てを組み込み得る。

ここで、上述の少なくとも１つのサーバー５２を参照すると、サーバー５２は、少なくとも１つのサーバープロセッサ５４と、ディスクベースストレージまたはソリッドステートストレージ等の少なくとも１つの有形コンピューター可読記憶媒体５６と、サーバープロセッサ５４の制御の下、ネットワーク２２を通じて図１の他のデバイスとの通信を可能にし、実際に、本原理に従ってサーバーとクライアントデバイスとの間の通信を容易にし得る少なくとも１つのネットワークインターフェース５８とを含む。ネットワークインターフェース５８は、例えば、有線もしくは無線のモデムもしくはルータ、Ｗｉ－Ｆｉ（登録商標）送受信機、または、例えば、無線テレフォニ送受信機等の他の適切なインターフェースであり得ることに留意されたい。

したがって、いくつかの実施形態では、サーバー５２は、インターネットサーバーまたはサーバー「ファーム」全体であり得、「クラウド」機能を含み得、「クラウド」機能を行い得、それにより、システム１０のデバイスは、例えば、ネットワークゲーミングアプリケーションに関する例示的な実施形態ではサーバー５２を介して「クラウド」環境にアクセスし得る。または、サーバー５２は、１つ以上のゲーム機、または図１に示される他のデバイスと同じ部屋もしくはその近くにある他のコンピューターによって実装され得る。

以下の図に示されるコンポーネントは、図１に示されるコンポーネントの一部または全てを含み得る。

図２は、ゲームのプレイ中にコンピューターゲーム等のコンピューターシミュレーションを制御するために本原理に従って使用され得るゲームコントローラーの非限定的な例を示し、ゲームに関連付けられたゲームのビデオ（及びオーディオ／触覚等）は、ディスプレイ１４等のディスプレイに示され（触覚の場合、例えばコントローラーを使用して触覚検出のために生成され）、また再生のために記録され、例えばコンピューターメモリ２８は図１に示される、及び／またはサーバーメモリ５６は図１に示される。

ゲームコントローラーは、ディスプレイ１４に提示されたコンピューターゲームを制御するために、コンピューターシミュレーションのソースと通信する上述したコンポーネント（コンピューターゲーム機として組み込まれたＣＥデバイス４８及び／またはサーバー５２等）のうちの１つ以上を組み込むことができると理解されたい。

図２は、円形のほぼ円筒形状の左右のハンドル２０２，２０４を伴う軽量なハンドヘルド筐体を含むコントローラー２００を示し、各ハンドルは上面を規定しており、上面には４つの操作可能なキーが配置されている。例えば４つの方向キー２０６は、左側のハンドル２０２の上部に十字形パターンに並んでいる。キー２０６を使用して、ディスプレイの各々の方向にオブジェクトを移動させることができる。

左ハンドル２０２のすぐ前方に、追加のＬ１及びＬ２キー２０８が提供され得る。ブリッジはハンドル２０２、２０４を接続し、セレクトキー２１０は、スタートキー２１２とともにブリッジ上に配置され得る。

右ハンドル２０４の４つのキーは、三角形キー２１４、正方形キー２１６、及び「Ｏ」キー２１８、及び「Ｘ」キー２２０を含み得、各キーは、ゲーム設計者の要望に従って各々の機能を担い得る。右ハンドル２０４のすぐ前方に、追加のＲ１及びＲ２キー２２２が提供され得る。

また、ハンドル２０２とハンドル２０４との間に、左ハンドル２０２のすぐ内側に左ジョイスティック２２４が提供され得る。左ジョイスティック２２４は押し下げ可能な上部２２６を含み得る。同様に、右ジョイスティック２２８は右ハンドル２０４のすぐ内側に提供され得る。右ジョイスティック２２８は押し下げ可能な上部２３０を含み得る。

図３はデバイス３００を示し、デバイス３００は、コンピューターシミュレーション（コンピューターゲーム等）のビデオを記録し、必要に応じて、そのビデオに関連付けられたオーディオ及び触覚を記録する。デバイス３００は、例えば、ビデオを生成するためにゲームがプレイされるデバイス、コンピューターゲーム機、プレイヤーから離れたコンピューターゲームサーバー、またはそれらの組み合わせによって実装され得る。

記録されたコンピューターシミュレーション（コンピューターゲーム等）は、記録されたコンピューターゲームのソース３０２に提供される。ソース３０２は、記録されたビデオ（必要に応じて、記録されたオーディオ及びゲームの他の感覚的出力、本明細書ではオーディオビデオと呼ぶ）を、観客／学習者コンピューターデバイス３０４に提供する。

記録中にゲームを制御するために入力されたコンピューターゲームコントローラーの操作を記録することなく、コンピューターゲームＡＶを記録し得るため、機械学習（ＭＬ）エンジン３０６は、記録されたゲームＡＶとともに観客／コンピューター３０４にインジケーションを提示するために、コントローラー操作をコンピューターゲームオーディオビデオから再現するために、本明細書の原理に従った実行のために提供される。ＭＬモデル３０６は、少なくとも１つの長短期記憶（ＬＳＴＭ）ネットワーク等の少なくとも１つのリカレントニューラルネットワーク（ＲＮＮ）を含み得る。また、畳み込みニューラルネットワーク（ＣＮＮ）も使用し得る。ＭＬモデル３０６は、観客／学習者コンピューター３０４、記録されたゲームソース３０２（リモートサーバーまたはローカルゲーム機等）におけるプロセッサ等、本明細書で開示されるプロセッサのいずれかまたはそれらの組み合わせによって実行され得る。いくつかの実施形態では、要素３００、３０２、及び３０４は同一のデバイスによって実装され得る。例えば、ユーザーは、同じコンソール上でより早くプレイしていた異なるユーザーのゲーム記録から学習しようとし得る。

図４は、図３のＭＬモデル３０６をトレーニングするためのロジックを示す。ブロック４００において、データのトレーニングセットはＭＬモデルに入力される。訓練セットは、コンピューターゲーム等の典型的に複数のコンピューターシミュレーションに関連付けられたビデオ及び／またはオーディオを含み得る。

より高い特異性により、トレーニングセットは、複数の記録されたコンピューターシミュレーションからのビデオフレームのシーケンス、及び／または必要に応じて、ビデオに関連付けられたオーディオを含み得る。さらに、トレーニングセットは、ビデオフレームのシーケンスの発生中に実行されたコンピューターシミュレーションコントローラー（ＣＳＣ）操作に関するビデオフレームのシーケンスに関連付けられたグラウンドトゥルース情報を含む。ＣＳＣ操作は、例えば、図２の例に示される制御のうちの任意の１つ以上のマニピュレーションから生じ得る。トレーニングセットから、及び適切な学習技術（例えば、教師あり、教師なし、半教師あり等）を使用して、ブロック４０２において、ＭＬモデル３０６はビデオフレームシーケンスからＣＳＣ操作を学習する。

図５は、ＭＬモデルをトレーニングするために使用されるトレーニングセットにおけるビデオフレーム５０２のシーケンス５００を示す。メタデータ５０４は、必要に応じて、フレームごとにシーケンス５００に関連付けられ、トレーニングシーケンスの記録中にどのコントローラー操作が発生したかと、そのコントローラー操作がいつ発生したかとを示す。いくつかの実施形態では、メタデータはフレーム毎である必要はないことに留意されたい。メタデータは、ＣＳＣ操作が以前のフレームと比較して変化していた場合にのみ更新され得る。また、ＣＳＣ操作は、ビデオデータ及びＣＳＣデータを同期させるために使用できたタイムスタンプとともに、完全に別個のファイルに記憶できる。メタデータ５０４は、例えば図２に示されるコントローラー等のコントローラーにおいて、どのような特定の制御面がマニピュレートされたのかのインジケーションと、これらの制御面が記録されたシーケンス５００の生成中にいつマニピュレートされたかのインジケーションとを含み得る。

トレーニングセットは様々な方法で作成され得る。ボタンマニピュレーションのグラウンドトゥルースはゲームプレイ中に集められ、トレーニングセットの一部として使用するために、時間整合して生成されたビデオに関連付けられ得る。トレーニングセットは、また、予め記録されたゲームビデオも含み得、これらのゲームビデオは、それらの上にコントローラーオーバーレイを有し、コントローラーオーバーレイは、オリジナルのゲームがプレイされ、ビデオとともに提示されたときに生成される。オーバーレイにおけるコントローラー操作データは、典型的にビデオ上に提示されるため、既にビデオと時間整合している。各フレームのビデオの画素値をチェックして、ラベリングデータを生成するためにオーバーレイで示されたように、どのボタンが押されたかを確認し得る。これにより、各フレームがタイムスタンプに関連付けられ得るので、タイミングデータも与えられる。オーバーレイ機能は、トレーニングセットビデオが生成されるときの初期再生時にオンにできる。

グラウンドトゥルースのコントローラー操作は、コントローラーの制御下でゲームビデオを記録するデバイスにコントローラーからストリーミングされ得、これによって、トレーニングセットの要素を確立するために、グラウンドトゥルースのコントローラー操作をビデオに関連付ける。

トレーニングに続いて、ＭＬモデルは、第１の記録されたコンピューターシミュレーションの生成中に実行されたＣＳＣ操作に関する情報を含まないビデオフレームのシーケンス６００（図６では、分かり易くするために、オプションのオーディオを示していない）を伴う第１の記録されたコンピューターシミュレーションを受信するために使用され得る。ビデオフレームのシーケンスがどのように推移するかに応じて、ＭＬモデルは図５のトレーニングに基づき、第１の記録されたシミュレーションの生成中にどのＣＳＣ操作が行われたかと、ＣＳＣ操作がいつ行われたかとを識別する。例えば、図６に示されるシーケンス１と、潜在的なシーケンス２Ａとの間で、ＣＳＣコントローラー操作が発生していない場合がある。一方、シーケンス１と潜在的なシーケンス２Ｂ（潜在的なシーケンス２Ａとは異なるシーケンス）との間では、シーケンス全体をシーケンス１‐シーケンス２Ａからシーケンス１‐シーケンス２ＢにずらすようにＣＳＣ操作を行い得、そのようなＣＳＣ操作の識別６０２はＭＬモデルによって行われる。

図７は、例示的なフローチャートフォーマットで上述した原理を示す。図７のロジックは、観客／学習者ＡＶディスプレイ３０４、及び／または生成されたコンピューターシミュレーションのソース３００、及び／または記録されたコンピューターシミュレーションのソース３０２に組み込まれたプロセッサのうちの任意の１つ以上によって実行され得、それらのいずれか一方または両方は、コンピューターシミュレーションコンソール、またはインターネット等の広域コンピューターネットワークを通じてＡＶディスプレイと通信するサーバーとしてインスタンス化され得る。

下記に加えて、ＭＬモデルがＣＳＣ操作を識別するのに必要な時間を短くするために、前処理及びダウンスケーリングに対してブロックが提供され得、同様に、サポートされていないＣＳＣ操作をフィルタリングし、レイテンシを調整するために後処理及び同期に対してブロックが提供され得ることを理解されたい。

ステップ７００から開始して、ビデオフレームのシーケンス及び／または付随するオーディオサウンドトラックを含む、記録されたコンピューターゲーム等の記録されたコンピューターシミュレーションを受信する。典型的に、記録されたシミュレーションは、記録されたコンピューターシミュレーションの生成中のコンピューターシミュレーションコントローラーの操作に関する情報を含まない。フレームのシーケンスは、例えば、インターネットプラットフォームからのゲームビデオのスニペットであり得る。

ブロック７０２に進むと、記録されたコンピューターシミュレーション、例えば、記録されたシミュレーションにおけるビデオフレームのシーケンスは、図４を参照して開示されるようにトレーニングされた、図３におけるＭＬモデル３０６によって処理される。ＭＬモデルはコンピューターシミュレーションコントローラー（ＣＳＣ）操作のインジケーションを識別し、出力し、そして、ＣＳＣ操作は、受信され、記録されたコンピューターシミュレーションに関連付けられたトレーニングに従って記録されたコンピューターシミュレーションの生成に関連付けられる。ＭＬモデルによって識別されたＣＳＣ操作は、例えば、図２の例では、どの制御要素がマニピュレートされたかと、いつマニピュレートされたかとを含み得る。

ブロック７０４に進むと、記録されたコンピューターシミュレーションは、ＭＬモデルから受信されたＣＳＣ操作の少なくとも１つのインジケーションとともに、図３の観客／学習者コンピューター３０４等の少なくとも１つのオーディオビデオ（ＡＶ）ディスプレイに提示される。

図８には以下のことが示される。記録されたビデオゲーム８００は、図１に示されるディスプレイ１４等のディスプレイに提示され得る。図中、ゲーム８００は、飛行物体８０６において武器８０４を射撃するキャラクタ８０２を含む。ライン８０８は、オブジェクト８０６がヒットしたことを示す。

どのＣＳＣ操作が発生したか（「赤キーが押された」）と、ＣＳＣ操作がゲーム中にいつ発生したかとを示すインジケーション８１０がディスプレイに提示され、例では「今」で示され、爆発に繋がった過去のＣＳＣ操作、及び操作時間を示し、また探索のために今後のＣＳＣ操作も示し得ることを理解されたい。インジケーション８１０は、示されるように視覚的に提示され得る、及び／またはディスプレイに関連付けられたスピーカーで聴覚的に提示され得る。このように、記録されたコンピューターシミュレーションは、記録されたコンピューターシミュレーションの生成中に実行されたＣＳＣ操作に関するＭＬモデルから受信された情報とともに提示される。

上述のロジックは、コンピューターゲームコントローラーまたは他の機能を伴うプラグインとして提供されることによって、ゲーマーがゲームビデオをダウンロードし、ビデオを生成したコントローラー操作のシーケンスに関する情報を取得することを可能にし得る。

いくつかの例示的な実施形態を参照して本原理を説明してきたが、これらは限定することを意図していないことと、様々な代替の配置を使用して、本明細書で特許請求される主題を実施し得ることとが認識される。

Claims

一時的信号ではなく、
ビデオフレームのシーケンスを含む記録されたコンピューターシミュレーションを受信することと、
機械学習（ＭＬ）モデルにおいてビデオフレームの前記シーケンスを処理することと、
前記ＭＬモデルから、前記記録されたコンピューターシミュレーションを生成することに関連付けられた少なくともいくつかのコンピューターシミュレーションコントローラー（ＣＳＣ）操作の識別を受信することと、
前記ＭＬモデルから受信された前記ＣＳＣ操作のうちの少なくとも１つの少なくとも１つのインジケーションとともに、前記記録されたコンピューターシミュレーションを少なくとも１つのオーディオビデオ（ＡＶ）ディスプレイに提示することと、
のために、少なくとも１つのプロセッサによって実行可能な命令を含む少なくとも１つのコンピューターメモリ、
を備える、デバイス。
前記ＭＬモデルは、少なくとも１つのリカレントニューラルネットワーク（ＲＮＮ）を含む、請求項１に記載のデバイス。
前記ＲＮＮは、少なくとも１つの長短期記憶（ＬＳＴＭ）ネットワークを含む、請求項２に記載のデバイス。
前記ＭＬモデルは、少なくとも１つの畳み込みニューラルネットワーク（ＣＮＮ）を含む、請求項１に記載のデバイス。
前記少なくとも１つのプロセッサを含み、
前記少なくとも１つのプロセッサは前記ＡＶディスプレイに組み込まれている、請求項１に記載のデバイス。
前記少なくとも１つのプロセッサを含み、
前記少なくとも１つのプロセッサは前記コンピューターシミュレーションのソースに組み込まれている、請求項１に記載のデバイス。
前記ソースは、少なくとも１つのコンピューターシミュレーションコンソールを含む、請求項６に記載のデバイス。
前記ソースは、ワイドエリアコンピューターネットワークを通じて前記ＡＶディスプレイと通信する少なくとも１つのサーバーを含む、請求項６に記載のデバイス。
少なくとも１つのコンピューターシミュレーションコントローラーの制御下で生成された、少なくとも１つの記録されたコンピューターシミュレーションの少なくともビデオを提示するように構成され、かつ前記少なくとも１つの記録されたコンピューターシミュレーションの前記ビデオの生成中の前記コンピューターシミュレーションコントローラーの操作に関する情報を含まない、少なくとも１つのディスプレイと、
命令を伴って構成された少なくとも１つのプロセッサと、を備え、
前記命令は、
前記少なくとも１つの記録されたコンピューターシミュレーションの前記ビデオの生成中に、前記ビデオから、前記コンピューターシミュレーションコントローラーの操作に関する情報を識別することと、
前記少なくとも１つの記録されたコンピューターシミュレーションの前記ビデオを提示することとともに前記情報を提示するために、前記少なくとも１つの記録されたコンピューターシミュレーションの前記ビデオの生成中の前記コンピューターシミュレーションコントローラーの操作に関する前記情報を、前記少なくとも１つのディスプレイに提示することと、
のためのものである、装置。
前記プロセッサは、前記ディスプレイに組み込まれている、請求項９に記載の装置。
前記プロセッサは、コンピューターシミュレーションコンソールに組み込まれている、請求項９に記載の装置。
前記プロセッサは、ワイドエリアネットワークを通じて前記ディスプレイと通信するサーバーに組み込まれている、請求項９に記載の装置。
前記命令は、
少なくとも１つの機械学習（ＭＬ）モデルを使用して、前記少なくとも１つの記録されたコンピューターシミュレーションの前記ビデオの生成中に、前記ビデオから、前記コンピューターシミュレーションコントローラーの操作に関する情報を識別することを行うために実行可能である、請求項９に記載の装置。
前記ＭＬモデルは、少なくとも１つのリカレントニューラルネットワーク（ＲＮＮ）を含む、請求項１３に記載の装置。
前記ＲＮＮは、少なくとも１つの長短期記憶（ＬＳＴＭ）ネットワークを含む、請求項１４に記載の装置。
少なくとも１つの機械学習（ＭＬ）モデルに、少なくともトレーニングセットを入力することであって、前記トレーニングセットは、複数の記録されたコンピューターシミュレーションからのビデオフレームのシーケンスと、前記ビデオフレームのシーケンスの生成中に実行されたコンピューターシミュレーションコントローラー（ＣＳＣ）操作に関する前記ビデオフレームのシーケンスに関連付けられた情報とを含む、前記入力することと、
前記ＭＬモデルに、第１の記録されたコンピューターシミュレーションの生成中に実行されたＣＳＣ操作に関する情報を含まない少なくとも前記第１の記録されたコンピューターシミュレーションを入力することと、
前記ＭＬモデルから受信された前記第１の記録されたコンピューターシミュレーションの生成中に実行されたＣＳＣ操作に関する情報とともに、前記第１の記録されたコンピューターシミュレーションを提示することと、
を含む、方法。
前記ＭＬモデルから受信された前記第１の記録されたコンピューターシミュレーションの生成中に実行された前記ＣＳＣ操作に関する情報を、前記第１の記録されたコンピューターシミュレーションを視覚的に提示することとともに、聴覚的に提示することを含む、請求項１６に記載の方法。
前記ＭＬモデルから受信された前記第１の記録されたコンピューターシミュレーションの生成中に実行された前記ＣＳＣ操作に関する情報を、前記第１の記録されたコンピューターシミュレーションを視覚的に提示することとともに、視覚的に提示することを含む、請求項１６に記載の方法。
前記第１の記録されたコンピューターシミュレーションを提示するディスプレイに前記第１の記録されたコンピューターシミュレーションを提供するサーバーにおいて、前記第１の記録されたコンピューターシミュレーションを、前記第１の記録されたコンピューターシミュレーションの生成中に実行されたＣＳＣ操作に関する情報と関連付けることを含む、請求項１６に記載の方法。
前記第１の記録されたコンピューターシミュレーションを提示するディスプレイに前記第１の記録されたコンピューターシミュレーションを提供するローカルソースにおいて、前記第１の記録されたコンピューターシミュレーションを、前記第１の記録されたコンピューターシミュレーションの生成中に実行されたＣＳＣ操作に関する情報と関連付けることを含む、請求項１６に記載の方法。