JP7553705B2

JP7553705B2 - 人工知能を対象とする効率的なゲームプレイ訓練

Info

Publication number: JP7553705B2
Application number: JP2023520250A
Authority: JP
Inventors: マルツ，ネイサン・サン; モラルド，オラシオ・エルナン; マイルズ，スチュアート; ハーラー，レオポルト; 日和子坂▲崎▼
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-05-26
Filing date: 2022-04-11
Publication date: 2024-09-18
Anticipated expiration: 2042-04-11
Also published as: CN116322916A; KR20230054896A; KR102861080B1; JP2024174947A; JP2024505320A; WO2023043493A1; US20240198232A1

Description

背景
消費者向けのＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、一般に普及しているブロードバンド可用性と、市場の動きとが組み合わさって、相当なスコープおよび複雑性を有するゲームが作られてきた。最近のゲームは、これまでのゲームよりも複雑であるだけでなく、ゲームを設計およびプレイする方法の根本的な変化も反映している。単純な直線的な屋内階層は、巨大で写真とほとんど変わらない屋外空間に置き換わり、脚本が書かれた一続きの場面は、動的シミュレーションに置き換わり、手続主義は、種類の豊富さがほぼ無限である世界を可能にした。

ゲームをプレイする方法がこのように劇的にシフトしたにも関わらず、テスト方法はほとんど変わっていない。ゲームは、本質的に、高次元状態空間内部でのシステム間の複雑かつ突発的なインタラクションを有するシミュレーションである。これは、単体テストのようなコード重視の方法の有用性を限定してしまう。その結果、ゲームのテストは、圧倒的に、手作業の処理であり、ゲームを繰り返しプレイして欠陥を探す人間に大きく依存している。残念ながら、これらのチームの規模は、もはや最近のゲームの複雑さに合わせることができず、発売の遅延および製品の品質低下につながっている。

実施の形態の概要
本明細書では、ローカルで実行されたアクターコンポーネントが、リモート学習サービスが生成する１つ以上のゲームプレイデータモデルに基づいて、ゲームアプリケーションにおいてリアルタイムのゲームプレイアクションを実行するように訓練される実施の形態について説明する。ゲームアプリケーションのゲームプレイデータモデルは、リモート学習サービスを実行する１つ以上のサーバーコンピューティングシステムからクライアントコンピューティングデバイスに提供される。提供されたゲームプレイデータモデルを用いてアクターコンポーネントが生成した推論に少なくとも一部基づいて、ローカルアクターコンポーネントが実行した人工ゲームプレイアクションのゲーム内結果に基づいて、ローカルアクターコンポーネントによって観測データが生成される。受信した観測データに基づいて、リモート学習サービスは、ゲームプレイデータモデルを修正し、修正後のゲームプレイデータモデルをローカルアクターコンポーネントに提供して将来の人工ゲームプレイアクションを改善する。観測データに基づいてゲームプレイデータモデルを修正することは、特に、リモートクライアントコンピューティングデバイスがローカルで生成した、リモートクライアントコンピューティングデバイスから受信した観測データを用いてゲームプレイデータモデルを（たとえば、リアルタイムで）更新することを含み得る。

特定の実施形態では、方法は、プログラマティックインタフェースを介して１つ以上のサーバーコンピューティングシステムからリモートクライアントコンピューティングデバイスに、リモートクライアントコンピューティングデバイス上で実行されているゲームアプリケーションのゲームプレイデータモデルを提供することと、提供されたゲームプレイデータモデルを用いてリモートクライアントコンピューティングデバイス上で実行されているアクターコンポーネントが生成した推論に少なくとも一部基づいて、ゲームアプリケーション内でアクターコンポーネントが実行した人工ゲームプレイアクションから生成された観測データを、プログラマティックインタフェースを介してリモートクライアントコンピューティングデバイスから受信することと、１つ以上のサーバーコンピューティングシステムが、受信した観測データに基づいてゲームプレイデータモデルを修正することと、プログラマティックインタフェースを介してリモートクライアントコンピューティングデバイスに修正後のゲームプレイデータモデルを提供することとを含んでもよい。

この方法は、１つ以上のサーバーコンピューティングシステムが、リモートクライアントコンピューティングデバイス上で実行されているアクターコンポーネントの入力変数にゲームアプリケーションの１つ以上の出力状態の各々を対応付けたコントロール情報を、プログラマティックインタフェースを介して受信することをさらに含んでもよい。ゲームアプリケーションの１つ以上の出力状態は、ゲームアプリケーションの仮想環境内のプレーヤー基準位置、ゲームアプリケーションの仮想環境内のプレーヤー基準位置に対する物体の位置、ゲームアプリケーションの仮想環境内のプレーヤー基準位置に対する物体に関連する動きベクトル、ゲームアプリケーションの仮想環境の１つ以上の態様に関するジオメトリ情報、および／またはゲームアプリケーションのゲームプレイに関連する１つ以上のゲーム内報酬インジケーターを含む群の１つ以上を含んでもよい。

方法は、１つ以上のサーバーコンピューティングシステムが、ゲームアプリケーションの人間のユーザが利用可能なアクションにアクターコンポーネントの１つ以上の入力変数の各々を対応付けたコントロール情報をプログラマティックインタフェースを介して受信することをさらに含んでもよい。

ゲームプレイデータモデルを修正することは、ゲームアプリケーションの人間のユーザがゲームアプリケーション内で実行したゲームプレイアクションに基づいて生成された追加の観測データにさらに基づいてもよい。

受信した追加の観測データに基づいてゲームプレイデータモデルを修正することは、深層学習人工知能を用いてゲームプレイデータモデルを修正することを含む。方法は、人工ゲームプレイアクションに基づいてゲームアプリケーションのテストデータを生成することをさらに含んでもよい。

方法は、観測データをたとえば観測データのバッチの形式で１つ以上のサーバーコンピューティングシステムに送信する前に、リモートクライアントコンピューティングデバイスにおいて集約することをさらに含んでもよい。これにより、１つ以上のサーバーコンピューティングシステムとリモートクライアントコンピューティングデバイスとの間の通信におけるデータトラフィックが低減されるであろう。受信した観測データに基づいてゲームプレイデータモデルを修正することは、その後、観測データの集約が少なくとも１つの予め定義された基準を満たしたことに応じて実行されてもよい。少なくとも１つの基準は、たとえば、所定期間、所定量の観測データ（たとえば、バイト単位またはその他の数量単位で測定される）、および、リモートクライアントコンピューティングデバイスにおいて受信した、たとえば１つ以上のサーバーコンピューティングシステムからの明確なリクエストのうち、少なくとも１つを含んでもよい。

特定の実施形態では、サーバーは、ネットワークインタフェースと、１つ以上のプロセッサと、実行可能な命令のセットを格納したメモリとを備えてもよい。実行可能な命令のセットは、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサを操作して、入力変数にゲームアプリケーションの１つ以上の出力状態の各々を対応付けたコントロール情報に少なくとも一部基づいて、ゲームアプリケーションのゲームプレイデータモデルを生成させ、生成したゲームプレイデータモデルをリモートクライアントコンピューティングデバイス上で実行されているアクターコンポーネントにプログラマティックインタフェースを介して提供させ、生成したゲームプレイデータモデルを用いてアクターコンポーネントが生成した推論に基づいて、ゲームアプリケーション内でアクターコンポーネントが実行した人工ゲームプレイアクションから生成された観測データを、プログラマティックインタフェースを介してアクターコンポーネントから受信させ、受信した観測データに基づいて、生成したゲームプレイデータモデルを修正させ、ゲームアプリケーション内で追加の人工ゲームプレイアクションを実行する際にアクターコンポーネントが使用するために、プログラマティックインタフェースを介してアクターコンポーネントに修正後のゲームプレイデータモデルを提供させてもよい。

リモートクライアントコンピューティングデバイスは、リモートクライアントコンピューティングデバイスは、ゲームアプリケーションのインスタンスを実行してもよく、観測データは、リモートクライアントコンピューティングデバイスが実行したゲームアプリケーションのインスタンス内でアクターコンポーネントが実行した人工ゲームプレイアクションから生成される。

実行可能な命令のセットは、１つ以上のプロセッサをさらに操作して、リモートクライアントコンピューティングデバイス上で実行されているアクターコンポーネントの入力変数にゲームアプリケーションの１つ以上の出力状態の各々を対応付けたコントロール情報を、プログラマティックインタフェースを介して受信させてもよい。ゲームアプリケーションの１つ以上の出力状態は、ゲームアプリケーションの仮想環境内のプレーヤー基準位置、ゲームアプリケーションの仮想環境内のプレーヤー基準位置に対する物体の位置、ゲームアプリケーションの仮想環境内のプレーヤー基準位置に対する物体に関連する動きベクトル、ゲームアプリケーションの仮想環境の１つ以上の態様に関するジオメトリ情報、および／またはゲームアプリケーションのゲームプレイに関連する１つ以上のゲーム内報酬インジケーターを含む群の１つ以上を含んでもよい。

実行可能な命令のセットは、１つ以上のプロセッサをさらに操作して、ゲームアプリケーションの人間のユーザが利用可能なアクションにアクターコンポーネントの１つ以上の入力変数の各々を対応付けたコントロール情報を、プログラマティックインタフェースを介して受信させてもよい。

実行可能な命令のセットは、１つ以上のプロセッサをさらに操作して、ゲームアプリケーションの人間のユーザがゲームアプリケーション内で実行したゲームプレイアクションから生成された追加の観測データを、プログラマティックインタフェースを介して受信させてもよく、ゲームプレイデータモデルを修正させることは、受信した追加の観測データにさらに基づく。

受信した追加の観測データに基づいてゲームプレイデータモデルを修正させることは、深層学習人工知能を用いてゲームプレイデータモデルを修正させることを含んでもよい。

特定の実施形態では、クライアント方法は、１つ以上のプロセッサが実行するアクターコンポーネントが、プログラマティックインタフェースを介して、１つ以上のリモートサーバーコンピューティングシステム上で実行されている機械学習コンポーネントからゲームアプリケーションのゲームプレイデータモデルを受信することと、１つ以上のプロセッサが、ゲームアプリケーションのインスタンスを実行することと、ゲームプレイデータモデルを用いてアクターコンポーネントが生成した推論に少なくとも一部基づいて、ゲームアプリケーションの実行インスタンス内でアクターコンポーネントが実行した人工ゲームプレイアクションから生成された観測データを、プログラマティックインタフェースを介して機械学習コンポーネントに提供することと、提供した観測データに少なくとも一部基づいた修正後のゲームプレイデータモデルを、１つ以上のリモートサーバーコンピューティングシステム上で実行されている機械学習コンポーネントからプログラマティックインタフェースを介して受信することとを含んでもよい。

このクライアント方法は、修正後のゲームプレイデータモデルを用いてアクターコンポーネントが生成した追加の推論に少なくとも一部基づいて１つ以上の追加の人工ゲームプレイアクションを実行することをさらに含んでもよい。

クライアント方法は、人工ゲームプレイアクションに基づいてゲームアプリケーションのテストデータを生成することをさらに含んでもよい。

ゲームプレイデータモデルは、アクターコンポーネントの入力変数にゲームアプリケーションの１つ以上の出力状態の各々を対応付けたコントロール情報に少なくとも一部基づいてもよい。ゲームアプリケーションの１つ以上の出力状態は、ゲームアプリケーションの仮想環境内のプレーヤー基準位置、ゲームアプリケーションの仮想環境内のプレーヤー基準位置に対する物体の位置、ゲームアプリケーションの仮想環境内のプレーヤー基準位置に対する物体に関連する動きベクトル、ゲームアプリケーションの仮想環境の１つ以上の態様に関するジオメトリ情報、および／またはゲームアプリケーションのゲームプレイに関連する１つ以上のゲーム内報酬インジケーターを含む群の１つ以上を含んでもよい。

ゲームプレイデータモデルは、ゲームアプリケーションの人間のユーザが利用可能なアクションにアクターコンポーネントの１つ以上の出力変数の各々を対応付けたコントロール情報に少なくとも一部基づいてもよい。

クライアント方法は、修正後のゲームプレイデータモデルが追加の観測データにさらに基づくよう、ゲームアプリケーションの人間のユーザがゲームアプリケーション内で実行したゲームプレイアクションから生成された追加の観測データを生成することをさらに含んでもよい。

本開示は、添付の図面を参照することによって当業者に理解され、その数多くの特徴および利点が当業者に明らかになるであろう。異なる図面における同一の参照符号の使用は、同様または同一の項目を示す。

いくつかの実施の形態に係る、例示的なネットワーク化されたゲーム訓練システムを示す。いくつかの実施の形態に係る、別の例示的なネットワーク化されたゲーム訓練システムを示す。１つ以上の実施の形態に従って実装されたＧＴ（ＧａｍｅｐｌａｙＴｒａｉｎｅｒ）システムの概略ブロック図を示す。１つ以上の実施の形態に係る、ＧＴシステムの動作ルーチンの概要を説明するブロックフロー図である。

詳細な説明
本明細書において説明する技術の実施の形態によって、ゲームアプリケーションの開発者（「ゲーム開発者」とも呼ばれる）は、ＡＩ（人工知能）を利用して、１つ以上のゲームアプリケーション（たとえば、ビデオゲームまたはその他のシミュレーション）をプレイおよびテストできる実行可能なアクターコンポーネントを訓練できるようになる。このような技術、それらの様々な実施の形態は、参照の便宜上、本明細書においてＧＴ（ＧａｍｅｐｌａｙＴｒａｉｎｅｒ）システムと称される場合があり、ゲーム開発者がゲームアプリケーションにリンクし得るＳＤＫ（ソフトウェア開発キット）、および、当該ＳＤＫが特定のゲームアプリケーションに関連するゲームプレイモデルを訓練するために用いるリモート学習サービスの両方を利用し得る。よって、上位レベルでは、ゲームとＧＴシステムとのインタラクションは、ゲームと人間のプレーヤーとのインタラクションに類似するであろう。ゲームは、ＧＴシステムに送られる出力を生成する。ＧＴシステムは、その出力に対する応答方法を評価し、ＧＴシステムが実行したい人工ゲームプレイアクションを返す。その後、ゲームは、これらのアクションを適用し、新しい出力を生成する。このサイクルが繰り返される。

特定の実施形態では、ＧａｍｅｐｌａｙＴｒａｉｎｅｒは、ゲームプレイデータモデル用いて１つ以上のゲームアプリケーションの各々をプレイおよびテストするための、ローカルで実行中のＡＩ（人工知能）アクターコンポーネントと連動するリモート学習サービスをゲーム開発者に提供する。少なくともいくつかの実施の形態では、ローカルで実行中のアクターコンポーネントが用いるゲームプレイデータモデルは、アクターコンポーネントがゲームアプリケーション内で実行する人工ゲームプレイアクションから収集された観測データに基づいて、（ＧＴ学習サービスを介して）ＧＴシステムによって生成される。よって、ＧＴシステムは、コスト感応度、予測可能性、および統合の容易さを含む、ゲーム開発の様々な目的に合わせたソリューションを提供する。ＧＴシステムの特定の実施の形態は、それによって、ゲーム開発者がゲームアプリケーションにＧＴシステムを素早く統合して有用なゲームプレイデータモデルを生成できるようにするソリューションを提供する。

特定の実施形態では、普及しているフレームワークのサポートおよび／または一般的な参照用語の利用などのために、ＧＴシステムは、１つ以上のアプリケーションプログラミングインタフェース（ＡＰＩ、本明細書において使用する場合、アプリケーションプログラミングインタフェースまたはその他の適したプログラマティックインタフェースを示し得る）を提供してもよい。様々な実施の形態では、ゲームアプリケーション開発者がプラットフォーム固有のＳＤＫ（ソフトウェア開発キット）の使用をゲームアプリケーションに組み込むために、このようなＡＰＩが提供されてもよい。

ＧａｍｅｐｌａｙＴｒａｉｎｅｒシステムは、有用、フレキシブル、訓練可能、かつゲームアプリケーションにおいて単純に「勝つ」ことよりも目的に向かって前進できるソリューションをゲーム開発者に提供する。一非限定例として、ゲームアプリケーションのゲームプレイデータモデルは、ゲームアプリケーションの人間のプレーヤーがゲーム世界において前進できない可能性が高い、すなわち、人間のプレーヤーが「立ち往生」する可能性の高いゲーム世界の１つ以上のエリアをＧＴシステムのアクターコンポーネントが判断できるようにし得る。別の非限定例として、ゲームプレイデータモデルは、ゲーム世界において１つ以上のゲーム世界の敵がその地位にしては不適切に力が与えられていること、たとえば、ロールプレイングゲームにおいて下位レベルまたは中間レベルのキャラクターと遭遇に値するよりも敵が強いか弱いかのどちらかであるとＧＴシステムのアクターコンポーネントが判断できるようにし得る。よって、特定の実施形態では、ＧＴは、ゲーム世界における１つ以上の異なる目的に各々が関連する、ゲームアプリケーションの複数のゲームプレイデータモデルを高速で開発することを強調してもよい。これに代えて、ＧＴシステムは、ＧＴシステムに提供される１つ以上のユーザ指定パラメータを介して識別される目的および／またはＧＴシステム自体が識別する目的など、複数の目的を含む１つのゲームプレイデータモデル、そうでない場合、複数の目的に向かって前進する１つのゲームプレイデータモデルを開発してもよい。

本明細書ではゲームアプリケーションに関する技術および実施の形態について説明するが、様々なシミュレーションシナリオと連動して別の実施の形態を利用し、その他の状況における挙動データモデルおよび／または自動エージェント（たとえば、自動運転車、自律型ロボディクスなど）が生成されてもよいことが分かるであろう。同様に、本明細書ではゲームアプリケーションテストに関する技術および実施の形態について説明するが、その他の状況におけるこのような挙動データモデルおよび／または自動エージェントが生成および／または利用されてもよい（たとえば、自動プレイエージェントまたは「ボット」開発、ゲーム内自律型仲間キャラクター、人間のプレーヤーとプレイするための生成自動エージェントの開発など）。

ＧＴシステムの実施の形態は、各ゲームアプリケーションの１つ以上の態様をテストしたい１人以上の開発者にとっての様々な利点を提供するであろう。一例として、開発者にとって、動作しているゲームを遠隔テストできることは利点であろう。特定の実施形態では、ＧＴアクターコンポーネントは、ＧＴシステムがテストしているゲームアプリケーションの実行インスタンスに関してローカルで動作する。しかしながら、ＧＴシステムは、帯域幅とレイテンシとの制限を暗に示す公共インターネットを横断するゲームへの接続を経由したこのようなテストを可能にする。

別の例として、ＧＴシステムは、このようなテストに利用されるコンピューティングリソース（ゲーム開発者にとっては、通常、大変な犠牲である）を減らし得る。本明細書に記載の技術は、ゲームアプリケーションの大量の個々のインスタンスに合わせてスケーリングされたテストを可能にするが、このような技術は、ＧＴシステムが有用なＡＩを１つのインスタンスから効果的に訓練することも可能にする。

別の例として、ＧＴシステムは、１つ以上の関連するゲームエンジン（通常、ゲーム物理およびグラフィカルレンダリングなどの一般的な下位サービスを提供する大きなコードベース）のネイティブサポートを介した１つ以上のゲームアプリケーションのテストを可能にし得る。様々な実施の形態では、様々なこのようなゲームエンジン（たとえば、Ｕｎｉｔｙ、Ｕｎｒｅａｌ、およびｐｕｒｅＣ＋＋）および共用論理のコンパイル済みライブラリの各々についての、ＧＴシステムに関連する１つ以上のＳＤＫが提供され得る。

特定の実施形態では、ＧＴシステムは、ゲームアプリケーションの最初のゲームプレイモデルを、そのゲームアプリケーションに関して定義された１つ以上のパラメータに基づいて生成し得る。一般に、定義されたパラメータは、通常、観測（プレーヤーが普段体験するゲーム状態）、アクション（ゲームにおいてプレーヤーが行い得る論理的やり取り）、および報酬（ＧＴアクターコンポーネントがどれだけ上手くまたは下手にやっているかを示すもの）という３つのタイプの情報を、ＧＴアクターコンポーネントに提供する。

図１は、ネットワーク化されたゲーム訓練システム１００の例示的な実施の形態を示す。ネットワーク化されたゲーム訓練システムは、ローカルコンピューティングシステム１１０上で実行されているＧＴアクターコンポーネント１０５のインスタンスを含む。ローカルコンピューティングシステム１１０は、ＧＴアクターコンポーネントからゲームプレイアクション１２８を受信するゲームアプリケーション１１５も実行している。ＧＴアクターコンポーネント１０５は、インターネットまたはその他の介在ネットワークなど、１つ以上のコンピュータネットワーク１０１を経由して、１つ以上のリモートサーバー１２５上で実行されているＧＴ学習サービス１２０に通信可能に連結される。図示した実施の形態では、ＧＴアクターコンポーネント１０５は、人工ゲームプレイアクション１２８を生成してゲームアプリケーション１１５に提供し、ゲームアプリケーションから観測データおよびゲーム内報酬インジケーター１１２を受信し、この情報の一部またはすべてを観測体験データ１３０としてＧＴ学習サービス１２０に提供する。そして、ＧＴ学習サービス１２０は、受信した観測体験データ１３０を用いて、ＧＴアクターコンポーネントがゲームアプリケーションに提供する全体のゲームプレイおよび個々の人工ゲームプレイアクションの両方を改善するための、ゲームアプリケーション１１５に関連する１つ以上のゲームプレイモデル１３５を生成、改良、および／またはＧＴアクターコンポーネント１０５に提供する。

この過程の様々なポイントにおいて、ＧＴシステム１００は、（ＧＴ学習サービス１２０および／またはＧＴアクターコンポーネント１０５によって）ゲームアプリケーション１１５に関連するテスト用データを生成し得る。特定の実施形態では、ゲームアプリケーション１１５に関連するゲーム開発者は、（ＧＴ学習サービス１２０および／またはＧＴアクターコンポーネント１０５のプログラマティックインタフェースを介するなどして）このようなテスト用データの１つ以上のタイプおよび振る舞いを指定し得る。これに加えて、特定の実施形態では、ＧＴシステムは、ＧＴシステムが格納する定義された基準に基づくなどして、生成するテスト用データの１つ以上の態様を決定し得る。このような実施の形態では、定義された基準は、ゲームアプリケーション１１５が条件を満たしていると判断された１つ以上のタイプのゲームアプリケーションに関連し得る。たとえば、ＧＴシステムが生成するテスト用データの定義された基準の第１セットは、２次元のプラットフォームゲームタイプに関連し、第２セットは３次元のプラットフォームゲームタイプに関連し、第３セットはレーシングゲームタイプに関連し、第４セットは、オープンワールドのロールプレイングゲームに関連する、などであり得る。

上述したように、特定のシナリオでは、ＧＴアクターコンポーネント１０５による人工ゲームプレイアクションは、ゲームアプリケーション１１５に関して定義された１つ以上のパラメータに基づいてＧＴシステム１００が生成した１つ以上のゲームプレイデータモデル１３５に少なくとも一部基づき得る。このようなパラメータは、（非限定例として）ゲームアプリケーション１１５の開発者によって、ＧＴシステム１００のプログラマティックインタフェースを介して提供され得る。たとえば、最初のゲームプレイモデルは、ゲームアプリケーション１１５の１つ以上の出力状態の各々をＧＴアクターコンポーネント１０５の入力変数に対応付けたコントロール情報、および／またはゲームアプリケーションの１つ以上の入力状態の各々をＧＴアクターコンポーネント１０５の出力変数に対応付けたコントロール情報に基づき得る。特定の実施形態では、このようなコントロール情報は、ＧＴアクターコンポーネント１０５のこれらの入力変数および／または出力変数のうち１つ以上の各々を、ゲームアプリケーションの人間のユーザが利用可能な観測またはアクションと対応付け得る。たとえば、ＧＴアクターコンポーネント１０５の出力変数は、ゲームアプリケーションにおける仮想キャラクターの動きを表し得、この出力変数は、人間のユーザがゲームプレイ中に利用する物理的入力装置によるその仮想キャラクターの動きに対応する。ＧＴアクターコンポーネント１０５のこのような出力変数は、このようなゲームプレイ中に人間のユーザが利用可能なアクションまたは観測に対応し得る。特定の実施形態では、ＧＴＡＰＩは、ゲームアプリケーション開発者が上位プリミティブ（たとえば、「ジョイスティック」、「エンティティ」など）を用いて入力および出力を記述できるようにする。ＧＴＳＤＫは、その後、上位プリミティブをＧＴコントロール情報にマッピングして、ゲームアプリケーション開発者が機械学習における専門知識を行使することを必要としないでＡＰＩが利用できるようにする。

特定の実施形態では、コントロール情報は、ＧＴアクターコンポーネント１０５が入力変数として使用するためのゲームアプリケーション１１５の１つ以上の出力状態を含み得る。非限定例として、このような出力状態は、ゲームアプリケーション１１５の仮想環境内のプレーヤー基準位置、ゲームアプリケーション１１５の仮想環境内のプレーヤー基準位置に対する物体の位置、ゲームアプリケーション１１５の仮想環境内のプレーヤー基準位置に対する物体に関連する動きベクトル、ゲームアプリケーション１１５の仮想環境の１つ以上の態様に関するジオメトリ情報、および／またはゲームアプリケーション１１５内のゲームプレイに関連するスコアまたはその他のゲーム内報酬インジケーターを含み得る。一般に、コントロール情報は、人間のプレーヤーが観測可能なゲームアプリケーションの任意の態様をＧＴアクターコンポーネント１０５の入力変数に対応付け得る。

また、いくつかの実施の形態では、ＧＴアクターコンポーネント１０５の人工ゲームプレイアクションに起因する観測体験データ１３０を受信するときに用いられる方法と同様の方法でゲームアプリケーション１１５に関連する１つ以上のゲームプレイモデルを生成または修正するなどするために、ＧＴシステム１００は、１人以上の人間のプレーヤーがそのゲームアプリケーション１１５に提供したゲームプレイアクションに起因する観測体験データを受信し得る。一例として、ＧＴアクターコンポーネント１０５が所定期間または所定回数試行しても乗り越えることが長い間できなかったゲームアプリケーション１１５における障害に遭遇した場合、ＧＴシステム１００がコミュニケーションを開始して、１人以上の人間のプレーヤーにその障害を乗り越えることを示す１つ以上のゲームプレイアクションを提供するよう促し得るなど、ＧＴアクターコンポーネント１０５の出力変数によって、ＧＴアクターコンポーネント１０５は、ゲームアプリケーション１１５内でのアシスタンス状態を示すことができるようになり得る。これらの人が提供したゲームプレイアクションに起因する観測体験データがＧＴ学習サービス１２０に提供される。その後、ＧＴ学習サービス１２０は、ＧＴアクターコンポーネント１０５が次に遭遇したときにその障害および／またはその他の障害を乗り越えられるようにゲームプレイモデル１３５を修正する。

ゲームをプレイできるＡＩを訓練するための１つの手法として、ＲＬ（強化学習）がある。ＲＬでは、開発者は、勝利すると報酬を与え、敗北するとペナルティを与え、ＡＩがますます最適な戦略を自律的に学習するために後で使用する信号を提供する。残念ながら、ＲＬでは非常に素晴らしい結果がデモンストレーションされているが、ＲＬのアルゴリズムには、通常、プレーヤーを訓練するために何百万個または何十億個ものフレームのデータなど大量のデータ消費（サンプル非効率）、時間およびコンピューティングリソースの観点において開発者にとって、通常、影響が著しいコストが伴う。また、これらのアルゴリズムの結果は非常にばらつく傾向があり、許容可能な結果を実現するために、その分野でのかなりの知識、および超パラメータの調整が利用される。

そのため、特定の実施の形態は、ＩＬ（模倣学習）機械学習技術を利用する。ＩＬ機械学習技術は、１人以上の人間のプレーヤーがゲームをプレイするのを観察することに基づいてＡＩを訓練する。エージェントが最適なポリシーを自身で見つける必要があるＲＬとは異なり、ＩＬでは、人間の熟練者の挙動が効果的に再現される。生成ＩＬのポリシーは、人間のデモンストレーションにおいて捕らえたシナリオと類似するが同一でないシナリオにおいて上手く機能する。この問題は、特に、少ない数の共通テーマ（メカニクス）の上で多数のバリエーション（レベル）として一般に構築されるゲームでは切実である。特定のバリエーションのみを学習できるが基礎となるテーマを学習できないＡＩは、非常に効果的なツールとはならない。

ＧＴシステム１００は、効果的に一般化する観測を用いる。たとえば、３Ｄ情報が絶対座標ではなくＧＴアクターコンポーネント１０５の視点を基準として表現されている自己中心的な観測は、ＧＴ学習サービス１２０に、訓練環境とは無関係の動きや目標ポリシーを含んだゲームプレイデータモデル１３５を生成させてしまう。

よって、様々な実施の形態では、ＧＴシステム１００は、１つ以上の追加の基準、すなわち、困難な障害に向き合うこと以外の基準に基づいて関連性のあるゲームプレイモデル１３５を改良するために、人が提供したゲームプレイアクションに起因する観測体験データ１３０を受信すると決定してもよい。非限定例として、ＧＴシステム１００は、このようなデータを提供することを選択した１つ以上の識別された人間のプレーヤーに関連するすべてのセッションまたはセッションのサブセットについてのこのようなデータ、；ゲームアプリケーション１１５の１つ以上の識別された部分に関連するゲームプレイアクションについてのこのようなデータなどを、一定間隔、そうでない場合、予定されている間隔の間受信し得る。

いくつかの実施の形態では、開発者は、ゲームアプリケーション１１５をリアルタイムで単にプレイすることによってＧＴ学習サービスに訓練データを提供し得、ＧＴ学習サービス１２０は、これに応じて１つ以上のゲームプレイモデル１３５を修正し、ＧＴアクターコンポーネント１０５を更新する。このように、ＧＴシステム１００は、ＧＴ学習サービス１２０の品質に関するインタラクティブなフィードバックを開発者に提供し、ＧＴシステム１００が問題に遭遇した場合または遭遇したときに開発者がジャストインタイム方式で訂正できるようにする。いくつかの実施の形態では、開発者は、ＧＴアクターコンポーネント１０５の同時インスタンスを必要に応じた数作成し、これらのインスタンスにゲームアプリケーションを大規模にプレイおよびテストさせてもよい。また、特定の実施形態では、ＧＴシステム１００は、様々な報酬基準に基づいて複数のゲームプレイデータモデル１３５を評価し、いずれの１つまたは複数のゲームプレイデータモデル１３５がゲーム内のこれらの報酬基準に関してより優れて機能するかを判断するなどしてもよい。そのため、ＧＴシステム１００は、最も優れて機能したゲームプレイデータモデル１３５を、今後の推論のために利用するゲームプレイデータモデルとして選択してもよい。このような自動的評価は、ＧＴシステム１００が訓練済みゲームプレイデータモデルを「磨き上げる」ことを可能にする。

図２は、別のネットワーク化されたＧＴシステム２００の例示的な実施の形態を示す。図１のネットワーク化されたシステム１００と同様に、ネットワーク化されたシステム２００は、ローカルコンピューティングシステム１１０上で実行されているＧＴアクターコンポーネント１０５のインスタンスを含む。ローカルコンピューティングシステム１１０は、ゲームアプリケーション１１５も実行している。ＧＴアクターコンポーネント１０５（コンピュータネットワーク（複数可）１０１を経由してＧＴ学習サービス１２０に通信可能に連結されている）は、人工ゲームプレイアクション１２８をゲームアプリケーション１１５に提供し、ゲームアプリケーション１１５から観測データ１１２を受信し、結果として得られる観測体験データ１３０をＧＴ学習サービス１２０に提供する。しかしながら、ここでは、ゲームアプリケーション１１５は、ＧＴアクターコンポーネント１０５の人工ゲームプレイアクション１２８を受信し得、様々な時点で様々な基準に従って、通常のゲーミングセッションのやり方でゲームアプリケーション１１５が生成した表示情報２５５（通常、音声情報、視覚情報、触覚情報、および／またはその他の感覚によって検知される情報を含む）を認識する１人以上の人間のプレーヤー２５０のその他のゲームプレイアクション２６０も受信してもよい。ゲームアプリケーション１１５がゲームプレイアクションをＧＴアクターコンポーネント１０５から受信する、人間のプレーヤー（複数可）２５０から受信する、またはその両方でるかを問わず、ＧＴアクターコンポーネント１０５は、ゲームアプリケーション１１５から観測データ１１２を受信し、結果として得られる観測体験データ１３０をＧＴ学習サービス１２０に提供する。

上述したように、特定の実施形態および実施態様では、ＧＴアクターコンポーネント１０５は、ＧａｍｅｐｌａｙＴｒａｉｎｅｒＳＤＫを含み得る。ＧａｍｅｐｌａｙＴｒａｉｎｅｒＳＤＫは、開発者が（ゲームアプリケーションのプログラムコードにＳＤＫを組み込むことなどによって）ゲームアプリケーション１１５に通信可能に接続する（または「リンクする」）実行可能な命令およびコンパイル済みライブラリと、ＧＴシステム２００の１つ以上の構成要素とのプログラマティックインタラクションを可能にするために開発者が使用し得るＡＰＩとを含む。特定の実施形態では、ＧＴシステム２００は、様々なＳＤＫを備えて、（たとえば、プロプライエタリエンジンのための）Ｕｎｉｔｙ、Ｕｎｒｅａｌ、およびＣ＋＋などのいくつかの普及しているゲーム開発フレームワークの各々をサポートしてもよい。これらのＳＤＫの各々は、同じ機能（観測／アクションの収集／送信、およびオンデバイス推論など）を提供し得るが、多くの場合、言語固有のバインディングおよびエンジン固有のバインディングを用いて慣用的な方法で同じ機能を提供し得る。

図３は、１つ以上の実施の形態に従って実装されたＧＴシステム３００の概略ブロック図を示す。図示した実施の形態では、１つ以上のリモートＧＴサーバー３２５は、ＧＴＡＰＩ３９９と、ストレージ設備３１２と、ＧＴ学習サービス３６０の実行インスタンスとを備える。クライアントコンピューティングシステム３１０が、ゲームアプリケーション３１５のインスタンスおよびＧＴアクターコンポーネント３０５のインスタンスを実行している。ＧＴサーバー（複数可）３２５およびクライアントコンピューティングシステム３１０の各々は、固定されていてもよく、移動可能であってもよく、デスクトップまたはその他のコンピュータ（たとえば、タブレット端末、スレートなど）、データベースサーバー、ネットワーク記憶装置およびその他のネットワーク機器、スマートフォンおよびその他の携帯電話、家庭用電化製品、ゲーム機システム、デジタル音楽プレーヤー装置、携帯可能なゲーム機、ＰＤＡ、ポケットベル、電子手帳、インターネット家電、（たとえば、セットトップボックスおよび／またはパーソナル／デジタルビデオレコーダーを用いた）テレビベースのシステム、ならびに適切な通信機能を備える様々なその他の消費者製品など、様々なコンピューティングデバイスのインスタンスを含んでもよいが、これらに限定されない。

本明細書において記述されているように、ＧＴ学習サービス３６０は、ＧＴアクターコンポーネント３０５と様々な情報（たとえば、認証情報、ゲームプレイデータモデル、観測データ）をやり取りする。図示した実施の形態では、ＧＴ学習サービス３６０の実施の形態は、説明した技術のうち少なくとも一部を実行するために、１つ以上のハードウェアプロセッサ（複数可）を用いて、これらの説明した技術を実現する自動動作を実行するようリモートＧＴサーバー（複数可）３２５を構成する方法でＧＴ学習サービス３６０のソフトウェア命令を実行するなどによってリモートＧＴサーバー（複数可）３２５のメモリ（図示せず）内で動作する。このような自動動作の一部として、ＧＴ学習サービス３６０は、ストレージ設備３１２のデータ構造を含め、様々な種類のデータを格納および／または取り出し得る。

ストレージ設備３１２は、１つ以上のクライアントコンピューティングシステム（たとえば、クライアントコンピューティングシステム３１０）に提供することの一部としてゲームプレイデータモデル３３４を生成および格納するためにＧＴシステム３００（特に、ＧＴ学習サービス３６０）が使用する様々な情報を格納する。ストレージ設備３１２によって格納されているその他の情報は、開発者情報３３８（１人以上のゲームアプリケーション開発者に関するアクセス情報およびプロジェクト情報を含み得る）と、ゲームアプリケーション情報３４０（コントロール情報３４１、ゲームプレイ観測データ、そのゲームプレイ観測データの解析および／または評価、ならびに１つ以上の特定のゲームアプリケーションに関する過去情報を含み得る）と、ゲームセッション情報３４２と、訓練データ３３６（１つ以上のゲームプレイデータモデル３３４を生成することの一部として、およびその他の動作のためにＧＴ学習サービス３６０によって利用および格納され得る）とを含む。特定の実施態様では、ストレージ設備３１２は、ＧＴシステム３００内に組み込まれてもよく、そうでない場合、ＧＴシステム３００によって直接操作されてもよい。その他の実施態様では、ストレージ設備３１２が提供する機能の一部またはすべては、１つ以上のサードパーティのネットワーク経由でアクセス可能なストレージサービスプロバイダによって提供されてもよい。また、特定の実施形態では、ＧＴ学習サービス３６０は、開発者情報３３８の態様を利用および修正するなどによって開発者を認証して開発者のプロジェクトについてのメタデータを追跡するための論理を含む。

ＧＴ学習サービス３６０とのインタラクション（たとえば、ゲームアプリケーション開発者によるインタラクションおよび／またはクライアントコンピューティングシステム３１０によるインタラクション）は、ＧＴＡＰＩ３９９を介して行われる。図示した実施の形態では、ＧＴＡＰＩ３９９は、アクセス制御設備３８０と、リモートＧＴサーバー３４５とクライアントコンピューティングシステム３１０との間でゲームプレイデータモデル３８２および観測データ３８４を渡すためのプログラマティックインタフェースとを提供する。特定の実施形態では、ＧＴシステム３００の使用は、１つ以上の取り消し可能なＡＰＩキー３８１によって制限されてもよく、識別された開発者に関連する１つ以上のプロジェクトに関する様々なその他の情報とともに、開発者情報３３８の一部として格納されるなどしてもよい。これらのキーは、たとえば、観測および（人工または人間のプレーヤーが生成した）ゲームプレイアクションを含む、開発者が送信したすべてのデータに索引を付けるために用いられてもよい。このような実施の形態では、開発者は、自身が送信したデータにのみアクセスでき、そのデータの様々な態様（たとえば、転送および／または削除）をさらに制御してもよい。よって、特定の実施形態では、ＡＰＩリクエストは、認証に使われ、ＧＴ学習サービスとのインタラクションのすべてを通して用いられ得るサーバーが提供した有効なＡＰＩキーを提供するよう、開発者に要求し得る。このように、ＧＴシステム３００は、ＡＰＩ呼び出しおよび収集したデータが呼び出し元の開発者と対応付けられることを徹底する。

開発者に面したＧＴＡＰＩ３９９の背後において、ＧＴ学習サービス３６０は、ＧＴアクターコンポーネント３０５がゲームアプリケーション３１５に関連する１つ以上のゲームプレイデータモデルを生成および更新／修正することによってＧＴ学習サービス３６０についてのゲームプレイ観測を収集および生成してゲームプレイアクションに変換するアクター（Ａｃｔｏｒ）／ラーナー（Ｌｅａｒｎｅｒ）パターンを実装する。図示した実施の形態では、ＧＴアクターコンポーネント３０５およびそのＭＬＰ（機械学習プラットフォーム）３０２は、ゲームアプリケーション３１５との様々なインタラクションを実行して、ＧＴＡＰＩ３９９を介してＧＴ学習サービス３６０から受信した１つ以上のローカルゲームプレイデータモデル３０６に基づいてゲームアプリケーションの人間のプレーヤーのアクションをシミュレーションし得る。たとえば、ローカルゲームプレイデータモデル３０６に基づくゲームプレイアクションがアクション適用部３１６を経由してゲームアプリケーション３１５に供給される。アクション適用部３１６は、コントローラモジュール３１８を操作して、通常であれば人間のプレーヤー２５０によって操作されるゲームコントローラの機能によってこれらのゲームプレイアクションの実行をシミュレーションする。これらのゲームプレイアクションは、アクション報告部３１９を介してＭＬＰ３０２に報告される。ゲームプレイアクション自体によって、ＧＴアクターコンポーネント３０５の出力変数（図示せず）を介して、シミュレーション３２０が変更され、ローカル観測データ３０４を生成するための根拠として追加の環境観測３２２が収集される。

様々な実施の形態では、ＧＴアクターコンポーネント３０５は、ＧＴＳＤＫ（開発者が自身のゲームアプリケーションにリンクして、ＧＴＡＰＩ３９９を介してやり取りするために利用する、図示されていないコードおよびコンパイル済みライブラリ）に含まれ得る、および／またはＧＴＳＤＫを用いて生成されてもよく、オンデバイス推論（たとえば、ゲームプレイデータモデルを用いて、ゲーム内挙動および結果の１つ以上の予測を推論３０３として生成する）を実行してローカル観測データを収集および生成してもよい。ＧＴ学習サービス３６０は、ＳＤＫからデータを取り込み、ストレージ設備３１２を介して格納し、新しいゲームプレイデータモデル３３４を訓練し、これらのゲームプレイデータモデルをＧＴＡＰＩ３９９を介してＧＴアクターコンポーネント３０５に返すために必要なインフラストラクチャを提供する。このように、ＧＴＳＤＫは、観測／アクションの収集およびオンデバイス推論を提供し、開発者に面したＡＰＩとＧＴ学習サービス３６０とのアダプタとしても機能する。ＧＴ学習サービス３６０は、リモートＧＴサーバー（複数可）３２５によって実行され、様々なアルゴリズムを用いてゲームプレイデータモデルを訓練する。特定の実施形態では、モデル訓練アルゴリズムのうち１つ以上は、ＴｅｎｓｏｒＦｌｏｗまたはその他の機械学習プラットフォームなど、ＭＬＰ（機械学習プラットフォーム）３３２の動作に基づいてもよい。同様に、オンデバイス推論は、ＭＬＰ３０２（ここでも、ＴｅｎｓｏｒＦｌｏｗまたはその他の機械学習プラットフォームを含み得る）を用いて実行されてもよい。ローカルゲームプレイデータモデル３０６は、ＧＴ学習サービス３６０から取り出され、特定の実施形態では、ゲームプレイデータモデルの入力および出力変数に観測およびアクションをどのようにマッピングするかについて記述したコントロール情報を含み得る。

ＧＴＡＰＩ３９９は、ゲームアプリケーションの論理入力および論理出力、ならびにＡＩがその時にどれだけ上手くやっているかについてのフィードバックを記述したパラメータをゲームアプリケーション開発者が定義することを可能にする。具体的には、ＧＴシステムは、１つ以上のゲームアプリケーション（たとえば、ゲームアプリケーション３１５）の各々についての１つ以上の観測パラメータ、１つ以上のアクションパラメータ、および１つ以上の報酬パラメータを開発者が定義できるようにする。観測パラメータ（観測データの生成をもたらす）には、プレーヤーが普段体験するゲーム状態が記述されており、ファーストパーソンシューティングゲームにおいて見えている敵の位置、またはレーシングゲームにおけるプレーヤーの車から走路の壁までの距離などの情報を含み得る。アクションパラメータは、プラットフォームゲームにおいてジャンプすること、またはレーシングゲームにおけるハンドルの位置など、プレーヤーがゲームにおいて実行する論理的なゲームプレイアクションについて記述している。報酬パラメータは、ＧＴアクターコンポーネント３０５がどれだけ上手く動作しているかについてのフィードバック、したがって、ゲームプレイアクションに応じたゲームアプリケーションの出力状態を提供するための１つ以上のメトリックを設定する。特定のシナリオおよび実施の形態では、このようなパラメータは、プレーヤーがゲームアプリケーションにおいてポイントをどのように獲得し得るかに類似した数値を含み得るが、その他のパラメータも含み得る。たとえば、報酬パラメータは、所定期間、または特定のゲームセッションの間に、プレーヤーが遭遇時に与え得る平均量または最大量のダメージ、およびゲームセッション終了時点での単純な勝利／敗北信号を含み得る。

この手法によって、すべての関連性のある出力を数百キロビット／秒（４Ｋ映像の場合は、数十メガビット／秒）で送信できるようになり、ＧＴアクターコンポーネント３０５は、複雑なコンピュータビジョン問題を同時に解決することなく、ゲームアプリケーション３１５のプレイ方法を学習することに集中できるようになる。この過程では、ゲームアプリケーション開発者には、ＧＴ学習サービス３６０と共有するデータに対するさらなるコントロールが与えられる。また、この手法は、スタンドアロンゲームクライアントおよびサーバーベースのゲームアプリケーションにも同様に機能する。これに加えて、ＧＴシステム３００は、ゲームが観測を送信してからアクションを受けるまでの避けることのできない数十ミリ秒（またはそれ以上）のレイテンシによる重大なマイナスの影響を受けることなく動作する。ゲームアプリケーションが一般に１秒当たり３０フレームよりも多いフレーム（フレーム当たり３３．３ミリ秒未満）で動作する（これは、サーバーとクライアントコンピューティングシステムとの間の往復にかかる時間よりも優に少ない）ことを考えると、このようなレイテンシは、ゲームプレイアクションについてのサーバー入力に左右される別のソリューションにとっては特に問題になり得る。

特定の実施形態では、ＧＴシステム３００は、リモートＧＴサーバー３２５とクライアントコンピューティングシステム３１０との間で非同期に動作してもよく、たとえば、１つのフレームに基づいて観測データを生成し、シミュレーションを進め、その後、いくつかのフレームの後に１つ以上のゲームプレイアクションを適用する。このような非同期動作は、ＧＴアクター３０５がゲームプレイデータモデルを用いてゲームプレイ観測をゲームプレイアクションに素早く変換するＧＴシステムのアクター／ラーナーアーキテクチャ、アクターコンポーネントが生成した観測データ、アクション、および報酬、ならびにゲームアプリケーション３１５とのインタラクションに基づいてＧＴ学習サービス３６０が新しいゲームプレイデータモデルを作製するＧＴシステムのアクター／ラーナーアーキテクチャによって活用される。ＡＩの動作をこれらの２つのコンポーネントに分けることによって、ＧＴ学習サービス３６０がセキュアな機械学習アルゴリズムおよびかなりの量のコンピューティングリソースを活用しているのも関わらず、推論を実行するためにかかる時間よりも長いレイテンシを引き起こすことなくアクターコンポーネントがゲームプレイ観測をゲームプレイアクションに変換できるようになる。

このアーキテクチャには、公共インターネットを横断することに伴うレイテンシを回避すること以上にいくつもの利点がある。このアーキテクチャは、訓練（非常に多くの演算を必要とする）と推論（単一のＣＰＵの一部分で実行され得る）との間の非対称性に自然に合致する。ＧＴアクターコンポーネント３０５において体験をバッチ化および圧縮することによって、ＧＴシステム３００は、関連する１秒当たりのクエリ数（ＱＰＳ：queries per second）を３０分の１まで低減し得るとともに、帯域幅を１０分の１まで低減し得る。

ゲームは、本質的にインタラクティブなメディアである。残念ながら、従来のＭＬワークフローは、決してインタラクティブではなく、データの送信とそのデータに基づいたモデルの生成との間に数分または数時間の間が空いている。ＧＴシステム３００は、ゲームプレイデータモデルをリアルタイムで訓練することによってこの問題に対処する。特定の実施形態では、ＧＴ学習サービス３６０が観測データ（既存のゲームプレイデータモデルを用いてＧＴアクターコンポーネント３０５が実行したアクションに基づく観測データであれ、１人以上の人間のプレーヤーが実行したアクションに基づく観測データであれ）を受信するとすぐに、ＧＴ学習サービス３６０がそのデータについてモデルの訓練を開始し、多くの場合、前回のデモンストレーションおよび／またはゲームプレイデータモデルから結果を作り上げる。観測およびアクションがコンパクトに表現されているおかげで、新しいゲームプレイデータモデルを数秒で生成できる。これらのゲームプレイデータモデルは、人間のプレーヤーが送信したデモンストレーションに照らして常に評価され得、ＧＴアクターコンポーネントが使用中の現在のゲームプレイデータモデルを上回るパフォーマンスをした場合にのみ、ＧＴアクターコンポーネント３０５に提供される。

よって、上述したように、ＧＴシステム３００は、ゲームアプリケーション開発者に、完全にリアルタイムかつインタラクティブな訓練体験を提供する。ゲームアプリケーション開発者は、ゲームアプリケーションの１つ以上の出力状態の各々をクライアントコンピューティングデバイス上で実行されているアクターコンポーネントの入力変数に対応付けたコントロール情報を定義および提供できるようになっているが、ＡＩを訓練するためには、ゲームアプリケーション開発者は、単純にゲームコントローラを手に取ってゲームをプレイすることによってＡＩを訓練すればよい。ゲームを数ラウンドプレイした後、ゲームアプリケーション開発者は、コントローラを置いてＡＩがゲームをプレイするのを見ていてもよい。ＡＩが問題のある状態に遭遇した場合、ゲームアプリケーション開発者は、単純にコントローラを手に取って、正しい挙動をデモンストレーションし、その後、ＡＩに再び操作させる。その結果、体験に大きく基づいた、制御可能なサービスが得られる。

ＧＴ学習サービス３６０がゲームプレイデータモデルを生成するために、ＧＴアクターコンポーネント３０５は、ＧＴ学習サービスにローカル観測データ３０４（ゲームプレイの観測、アクション、および報酬を含む）を定期的に送信する。人間のゲームプレイのデモンストレーションから（人間のプレーヤー２５０を介するなどして）学習する際、この観測データは、人間がゲームをプレイ中にとるアクションから導出される。特定の実施形態では、この体験データは、ゲーム開発会社の従業員によって生成されてもよく、利用者プレーヤーによって生成されてもよく、またはそれらの組合せによって生成されてもよい。

観測データの新しいバッチを受信した後、ＧＴＡＰＩ３９９は、新しい課題３４４を生成する。課題３４４の各々は、新しいゲームプレイデータモデルを生成する要求を表す。課題は、課題キュー３４６を経由してＧＴ学習サービス３６０に提供される。ＧＴ学習サービス３６０は、課題に含まれているゲームプレイのアクションと、観測データと、報酬と、特定のパラメータとを組み合わせて、ＭＬＰ３３２が理解できるフォーマットに変換し、新しいゲームプレイデータモデルを生成／評価するために必要な論理を含む。このようなゲームプレイデータモデルは、使い捨てできるように設計されており、特定の実施形態では、ゲームプレイデータモデルの状態を再開可能なＭＬチェックポイントとして表現してもよい。

ＧＴ学習サービス３６０が課題に対する作業を完了すると、それに応じて生成されたゲームプレイデータモデルがゲームプレイデータモデル３３４の一部として格納される。その後、ＧＴ学習サービス３６０は、更新後のゲームプレイデータモデルを、クライアントコンピューティングシステム３１０内のオンデバイス推論に使用するためにＧＴアクターコンポーネント３０５に提供する。

少なくともいくつかの実施の形態では、開発者のゲームとのリアルタイムなインタラクションをサポートするなどのために、ＧＴアクターコンポーネント３０５は、推論をミリ秒程度で実行できる。サーバー側では、ＧＴ学習サービス３６０が、特定の実施形態において、追加の観測データを新しいゲームプレイデータモデルに数十秒程度の期間（３０秒未満などで）で変換してもよい。

本明細書において示す個々の構成要素およびモジュールは、構成要素レベルの構造および特定のデータフロー動作を説明する便宜上の例として提供しているが、様々な実施の形態において、特定のコンポーネントおよびモジュールをその他の配置にすることによっても本明細書において提示した技術を実現できることが分かるであろう。

図４は、ＧＴ学習サーバー４０１における動作およびクライアントコンピューティングシステム４０２における動作の両方を含む、ＧＴシステムの動作ルーチン４００の概要を説明するブロックフロー図である。クライアントコンピューティングシステム４０２は、１つ以上の実施の形態に従ってゲームアプリケーションおよびＧＴアクターコンポーネント（図１および図２のＧＴアクターコンポーネント１０５または図３のＧＴアクターコンポーネント３０５など）を実行している。

ルーチンは、ブロック４０５から開始する。ブロック４０５では、ＧＴ学習サーバー４０１がクライアントコンピューティングシステム４０２にゲームプレイデータモデル４１０を提供する。クライアントコンピューティングシステム４０２は、ブロック４１５において、ＧＴＡＰＩ４９９を経由してゲームプレイデータモデルを受信する。本明細書においてさらに詳細を説明しているが、特定の実施形態では、ＧＴ学習サーバー４０１が最初に提供したゲームプレイデータモデル４１０は、そのゲームアプリケーションに関して定義された１つ以上のパラメータに基づき得、ゲーム観測パラメータと、ゲームアクションパラメータ（コントロール情報など）と、ゲーム報酬パラメータとの組合せを含み得る。これに加えて、最初のゲームプレイデータモデル４１０（および後続のゲームプレイデータモデル）は、１人以上の人間のプレーヤーから生成された観測データに少なくとも一部基づき得る。

ブロック４１５でゲームプレイデータモデル４１０が受信された後、ルーチンは、ブロック４２０に進む。ブロック４２０では、クライアントコンピューティングシステム４０２が、ゲームプレイデータモデルを用いたゲームプレイに関する観測データを生成する。ブロック４２５では、クライアントコンピューティングシステム４０２は、ＡＰＩ４９９を介してＧＴ学習サーバー４０１に生成した観測データ４３０を提供する。

特定の実施形態では、観測データおよびゲームプレイアクションは、１つ以上の基準に応答してＧＴ学習サービス３６０に提供されるまで、クライアントコンピューティングシステム４０２上に集約されてもよい（ＧＴアクターコンポーネント、たとえば、図３のＧＴアクターコンポーネント３０５によってなど）。たとえば、図３を参照すると、ローカル観測データ３０４（ゲームプレイアクション情報を含む）の提供は、明確なリクエストに応じて、所定期間の後、所定量の観測データが生成された後などに開始されてもよい。

ブロック４３５では、ＧＴ学習サーバー４０１は、ゲームプレイデータモデル４１０を用いてクライアントコンピューティングシステム４０２が生成した観測データを受信し、ルーチンは、ブロック４４０に進む。ブロック４４０では、ＧＴ学習サーバー４１０は、新しく受信した観測データ４３０に基づいて、ゲームプレイデータモデル４１０を修正する。

ブロック４４５では、ＧＴ学習サーバー４０１は、ＡＰＩ４９９を介してクライアントコンピューティングシステム４０２に修正後のゲームプレイデータモデル４５０を提供する。ブロック４５５では、クライアントコンピューティングシステム４０２は、修正後のゲームプレイデータモデル４５０を受信し、修正後のゲームプレイデータモデルを用いたゲームプレイアクションに基づいて追加の観測データを収集および生成するために、ブロック４２０に戻る。同様に、ブロック４４５において修正後のゲームプレイデータモデル４５０を提供した後、ＧＴ学習サーバー４０１は、ブロック４３５に戻り、クライアントコンピューティングシステム４０２から更新後の観測データを受信する。

いくつかの実施形態において、上述した技術のいくつかの態様は、ソフトウェアを実行する処理システムの１つ以上のプロセッサによって実装されてもよい。ソフトウェアは、非一時的なコンピュータ読取可能な記憶媒体に格納される、そうでない場合、有形に含まれる実行可能な命令の１つ以上のセットを含む。ソフトウェアは、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに上述した技術の１つ以上の態様を実行させるこれらの命令および特定のデータを含み得る。非一時的なコンピュータ読取可能な記憶媒体は、たとえば、磁気または光ディスク記憶装置、フラッシュメモリ、キャッシュ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、またはその他の１つまたは複数の非一時的なメモリ素子など、固体記憶装置を含み得る。非一時的なコンピュータ読取可能な記憶媒体に格納された実行可能な命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、または１つ以上のプロセッサによって解釈されるまたは実行可能なその他の命令形式で格納されてもよい。

コンピュータ読み取り可能な記憶媒体は、使用中、命令および／もしくはデータをコンピュータシステムに提供するためにコンピュータシステムによってアクセス可能な任意の１つの記憶媒体または複数の記憶媒体の組合せを含んでもよい。このような記憶媒体は、光学媒体（たとえば、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）、ＤＶＤ（デジタル多用途ディスク）、Ｂｌｕ－Ｒａｙディスク）、磁気媒体（たとえば、フロッピー（登録商標）ディスク、磁気テープ、または磁気ハードドライブ）、揮発性メモリ（たとえば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）またはキャッシュ）、不揮発性メモリ（たとえば、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）またはフラッシュメモリ）、またはＭＥＭＳ（ＭｉｃｒｏｅｌｅｃｔｒｏｍｅｃｈａｎｉｃａｌＳｙｓｔｅｍ）ベースの記憶媒体を含み得るが、これらに限定されない。コンピュータ読み取り可能な記憶媒体は、コンピューティングシステムに埋め込まれてもよく（たとえば、システムＲＡＭまたはＲＯＭ）、コンピューティングシステムに固定して取り付けられてもよく（たとえば、磁気ハードドライブ）、コンピューティングシステムに取り外し可能に取り付けられてもよく（たとえば、光ディスクまたはＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ベースのフラッシュメモリ）、有線またはワイヤレスネットワークを介してコンピュータシステムに連結されてもよい（たとえば、ＮＡＳ（ＮｅｔｗｏｒｋＡｃｃｅｓｓｉｂｌｅＳｔｏｒａｇｅ））。

なお、全体的な説明において上述した動作または要素のすべてが必要であるわけではない。特定の動作または装置の一部を必要としなくてもよい。説明した動作や要素に加えて、１つ以上の追加の動作が実行されてもよく、１つ以上の追加の構成要素が含まれてもよい。さらに、動作が挙げられている順番は、必ずしもそれらが実行される順番ではない。また、具体的な実施の形態を例に概念を説明した。しかしながら、当業者であれば、添付のクレームに記載の本開示の範囲から逸脱することなく、様々な変形および変更を行うことが可能であることが分かる。したがって、明細書および図面は、厳密ではなく、例示であるとみなされるべきであり、すべてのこのような変形は、本開示の範囲に含まれるものとする。

メリット、その他の利点、および問題の解決策を、具体的な実施の形態を例に説明した。しかしながら、メリット、利点、問題の解決策、およびメリット、利点、もしくは解決策を生じさせ得るまたはより顕著にさせ得るいかなる特徴（複数可）も、いずれかのクレームまたはすべてのクレームの重大な特徴、必要な特徴、または必須の特徴として解釈されないものとする。また、本明細書における教示のメリットを有する当業者にとって明らかである差異はあるが同等の方法で、開示した発明の主題を変更および実施してもよいため、本明細書に開示した特定の実施の形態は、例示に過ぎない。添付のクレームに記載されている以外の、本明細書において示されている構造または設計の詳細は、限定されない。そのため、本明細書に開示した特定の実施の形態を変更したり、改良したりしてもよく、このような変形例のすべては、開示した発明の主題の範囲に含まれるとみなされることは明らかである。したがって、本明細書において要求する保護は、添付のクレームに記載する通りである。

Claims

サーバー方法であって、
プログラマティックインタフェースを介して１つ以上のサーバーコンピューティングシステムからリモートクライアントコンピューティングデバイスに、前記リモートクライアントコンピューティングデバイス上で実行されているゲームアプリケーションのゲームプレイデータモデルを提供することと、
提供された前記ゲームプレイデータモデルを用いて前記リモートクライアントコンピューティングデバイス上で実行されているアクターコンポーネントが生成した推論に少なくとも一部基づいて、前記ゲームアプリケーション内で前記アクターコンポーネントが実行した人工ゲームプレイアクションから生成された観測データを、前記プログラマティックインタフェースを介して前記リモートクライアントコンピューティングデバイスから受信することと、
前記１つ以上のサーバーコンピューティングシステムが、受信した前記観測データに基づいて前記ゲームプレイデータモデルを修正することと、
前記プログラマティックインタフェースを介して前記リモートクライアントコンピューティングデバイスに修正後の前記ゲームプレイデータモデルを提供することとを含む、方法。
前記１つ以上のサーバーコンピューティングシステムが、前記リモートクライアントコンピューティングデバイス上で実行されている前記アクターコンポーネントの入力変数に前記ゲームアプリケーションの１つ以上の出力状態の各々を対応付けたコントロール情報を、前記プログラマティックインタフェースを介して受信することをさらに含む、請求項１に記載の方法。
前記ゲームアプリケーションの前記１つ以上の出力状態は、前記ゲームアプリケーションの仮想環境内のプレーヤー基準位置、前記ゲームアプリケーションの前記仮想環境内の前記プレーヤー基準位置に対する物体の位置、前記ゲームアプリケーションの前記仮想環境内の前記プレーヤー基準位置に対する物体に関連する動きベクトル、前記ゲームアプリケーションの前記仮想環境の１つ以上の態様に関するジオメトリ情報、および／または前記ゲームアプリケーションのゲームプレイに関連する１つ以上のゲーム内報酬インジケーターを含む群の１つ以上を含む、請求項２に記載の方法。
前記１つ以上のサーバーコンピューティングシステムが、前記ゲームアプリケーションの人間のユーザが利用可能なアクションに前記アクターコンポーネントの１つ以上の出力変数の各々を対応付けたコントロール情報を受信することをさらに含む、請求項１に記載の方法。
前記ゲームプレイデータモデルを修正することは、前記ゲームアプリケーションの人間のユーザが前記ゲームアプリケーション内で実行したゲームプレイアクションに基づいて生成された追加の観測データにさらに基づく、請求項１に記載の方法。
前記追加の観測データに基づいて前記ゲームプレイデータモデルを修正することは、深層学習人工知能を用いて前記ゲームプレイデータモデルを修正することを含む、請求項５に記載の方法。
前記人工ゲームプレイアクションに基づいて前記ゲームアプリケーションのテストデータを生成することをさらに含む、請求項１に記載の方法。
少なくとも１つの予め定義された基準を満たす観測データの集約を受信したことに応答して、受信した前記観測データに基づいて前記ゲームプレイデータモデルを修正することをさらに含む、請求項１に記載の方法。
前記少なくとも１つの予め定義された基準は、所定期間、所定量の観測データ、および前記リモートクライアントコンピューティングデバイスにおいて受信した明確なリクエストのうち、少なくとも１つを含む、請求項８に記載の方法。
サーバーであって、
ネットワークインタフェースと、
１つ以上のプロセッサと、
実行可能な命令のセットを格納したメモリとを備え、前記実行可能な命令のセットは、前記１つ以上のプロセッサを操作して、
入力変数にゲームアプリケーションの１つ以上の出力状態の各々を対応付けたコントロール情報に少なくとも一部基づいて、前記ゲームアプリケーションのゲームプレイデータモデルを生成させ、
生成した前記ゲームプレイデータモデルをリモートクライアントコンピューティングデバイス上で実行されているアクターコンポーネントにプログラマティックインタフェースを介して提供させ、
生成した前記ゲームプレイデータモデルを用いて前記アクターコンポーネントが生成した推論に基づいて、前記ゲームアプリケーション内で前記アクターコンポーネントが実行した人工ゲームプレイアクションから生成された観測データを、前記プログラマティックインタフェースを介して前記アクターコンポーネントから受信させ、
受信した前記観測データに基づいて、生成した前記ゲームプレイデータモデルを修正させ、
前記ゲームアプリケーション内で追加の人工ゲームプレイアクションを実行する際に前記アクターコンポーネントが使用するために、前記プログラマティックインタフェースを介して前記アクターコンポーネントに修正後の前記ゲームプレイデータモデルを提供させる、サーバー。
前記リモートクライアントコンピューティングデバイスは、前記ゲームアプリケーションのインスタンスを実行し、前記観測データは、前記リモートクライアントコンピューティングデバイスが実行した前記ゲームアプリケーションの前記インスタンス内で前記アクターコンポーネントが実行した人工ゲームプレイアクションから生成される、請求項１０に記載のサーバー。
前記実行可能な命令のセットは、前記１つ以上のプロセッサをさらに操作して、前記リモートクライアントコンピューティングデバイス上で実行されている前記アクターコンポーネントの入力変数に前記ゲームアプリケーションの１つ以上の出力状態の各々を対応付けたコントロール情報を、前記プログラマティックインタフェースを介して受信させる、請求項１０に記載のサーバー。
前記ゲームアプリケーションの前記１つ以上の出力状態は、前記ゲームアプリケーションの仮想環境内のプレーヤー基準位置、前記ゲームアプリケーションの前記仮想環境内の前記プレーヤー基準位置に対する物体の位置、前記ゲームアプリケーションの前記仮想環境内の前記プレーヤー基準位置に対する物体に関連する動きベクトル、前記ゲームアプリケーションの前記仮想環境の１つ以上の態様に関するジオメトリ情報、および／または前記ゲームアプリケーションのゲームプレイに関連する１つ以上のゲーム内報酬インジケーターを含む群の１つ以上を含む、請求項１２に記載のサーバー。
前記実行可能な命令のセットは、前記１つ以上のプロセッサをさらに操作して、前記ゲームアプリケーションの人間のユーザが利用可能なアクションに前記アクターコンポーネントの１つ以上の出力変数の各々を対応付けたコントロール情報を、前記プログラマティックインタフェースを介して受信させる、請求項１０に記載のサーバー。
前記実行可能な命令のセットは、前記１つ以上のプロセッサをさらに操作して、前記ゲームアプリケーションの人間のユーザが前記ゲームアプリケーション内で実行したゲームプレイアクションから生成された追加の観測データを、前記プログラマティックインタフェースを介して受信させ、前記ゲームプレイデータモデルを修正させることは、受信した前記追加の観測データにさらに基づく、請求項１０に記載のサーバー。
受信した前記追加の観測データに基づいて前記ゲームプレイデータモデルを修正させることは、深層学習人工知能を用いて前記ゲームプレイデータモデルを修正させることを含む、請求項１５に記載のサーバー。
１つ以上のプロセッサが実行するアクターコンポーネントが、プログラマティックインタフェースを介して、１つ以上のリモートサーバーコンピューティングシステム上で実行されている機械学習コンポーネントからゲームアプリケーションのゲームプレイデータモデルを受信することと、
前記１つ以上のプロセッサが、前記ゲームアプリケーションのインスタンスを実行することと、
前記ゲームプレイデータモデルを用いて前記アクターコンポーネントが生成した推論に少なくとも一部基づいて、前記ゲームアプリケーションの前記実行インスタンス内で前記アクターコンポーネントが実行した人工ゲームプレイアクションから生成された観測データを、前記プログラマティックインタフェースを介して前記機械学習コンポーネントに提供することと、
提供した前記観測データに少なくとも一部基づいた修正後のゲームプレイデータモデルを、前記１つ以上のリモートサーバーコンピューティングシステム上で実行されている前記機械学習コンポーネントから前記プログラマティックインタフェースを介して受信することとを含む、方法。
修正後の前記ゲームプレイデータモデルを用いて前記アクターコンポーネントが生成した追加の推論に少なくとも一部基づいて１つ以上の追加の人工ゲームプレイアクションを実行することをさらに含む、請求項１７に記載の方法。
前記人工ゲームプレイアクションに基づいて前記ゲームアプリケーションのテストデータを生成することをさらに含む、請求項１７に記載の方法。
前記ゲームプレイデータモデルは、前記アクターコンポーネントの入力変数に前記ゲームアプリケーションの１つ以上の出力状態の各々を対応付けたコントロール情報に少なくとも一部基づく、請求項１７に記載の方法。
前記ゲームアプリケーションの前記１つ以上の出力状態は、前記ゲームアプリケーションの仮想環境内のプレーヤー基準位置、前記ゲームアプリケーションの前記仮想環境内の前記プレーヤー基準位置に対する物体の位置、前記ゲームアプリケーションの前記仮想環境内の前記プレーヤー基準位置に対する物体に関連する動きベクトル、前記ゲームアプリケーションの前記仮想環境の１つ以上の態様に関するジオメトリ情報、および／または前記ゲームアプリケーションのゲームプレイに関連する１つ以上のゲーム内報酬インジケーターを含む群の１つ以上を含む、請求項２０に記載の方法。
前記ゲームプレイデータモデルは、前記ゲームアプリケーションの人間のユーザが利用可能なアクションに前記アクターコンポーネントの１つ以上の出力変数の各々を対応付けたコントロール情報に少なくとも一部基づく、請求項１７に記載の方法。
修正後の前記ゲームプレイデータモデルが追加の観測データにさらに基づくよう、前記ゲームアプリケーションの人間のユーザが前記ゲームアプリケーション内で実行したゲームプレイアクションから生成された前記追加の観測データを生成することをさらに含む、請求項１７に記載の方法。
請求項１～９、または１７～２３のいずれか１項に記載の方法を実行するためのコンピュータシステム。
１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサを操作して請求項１～９、または１７～２３のいずれか１項に記載の方法を実行させる実行可能な命令を格納した、コンピュータプログラム。