JP2021536066A

JP2021536066A - 情報予測方法、モデルトレーニング方法、サーバー及びコンピュータプログラム

Info

Publication number: JP2021536066A
Application number: JP2021512924A
Authority: JP
Inventors: リ，ホォンリアン; ワン，リアン; シ，トンフェイ; ユアン，ボ; ヤン，シャオジエ; ユィ，ホォンション; イン，インユィティン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2018-12-13
Filing date: 2019-12-11
Publication date: 2021-12-23
Anticipated expiration: 2039-12-11
Also published as: KR20210090239A; KR102542774B1; EP3896611A1; CN110163238A; WO2020119737A1; JP7199517B2; US20210201148A1; CN110163238B; EP3896611A4

Abstract

情報予測方法、モデルトレーニングの方法及サーバーであって、前記情報予測方法は、予測画像を取得するステップ（１０１）と、予測画像における予測特徴セットを抽出するステップ（１０２）と、ターゲットジョイントモデルにより、予測特徴セットに対応する第１タグ及び／又は第２タグを取得するステップ（１０３）と含み、予測特徴セットは、第１領域の画像特徴を示す第１予測特徴、第１領域よりも範囲が大きい第２領域の画像特徴を示す第２予測特徴、及び、インタラクション操作に関する属性特徴を示す第３予測特徴を含み、第１タグは、操作の内容に関するタグであり、第２タグは操作の意図に関するタグである。１つのジョイントモデルを使用するだけで微操作及び大局観を予測することができ、階層化モデルでのハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。

Description

本出願は、２０１８年１２月１３日に中国専利局に提出した、出願番号が２０１８１１５２６０６０．１であり、発明の名称が「情報予測方法、モデルトレーニング方法及びサーバー」である中国特許出願の優先権を主張し、その全ての内容を援用して本願に組み込む。

本出願は、人工知能の技術分野に関し、特に、情報予測方法、モデルトレーニング方法、サーバー及びコンピュータプログラムに関する。

人工知能（ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）プログラムは、ルールが明確化されているチェスゲームでトッププロプレイヤを打ち負かした。それに対して、マルチプレイヤオンラインバトルアリーナ（ｍｕｌｔｉｐｌａｙｅｒｏｎｌｉｎｅｂａｔｔｌｅａｒｅｎａ、ＭＯＢＡ）ゲームは、操作がより複雑であり、現実世界におけるシナリオにより近づく。ＭＯＢＡゲームにおけるＡＩ課題の解消は、現実世界における複雑な課題に対する探索・解消に役立つ。

ＭＯＢＡゲーム操作の複雑さに基づいて、通常、ＭＯＢＡゲームの操作全体を、大局観と微操作の２つのタイプに分けて、ＭＯＢＡゲーム全体の複雑さを軽減する。図１を参照し、図１は関連技術におけるモデルを階層化して確立する概略図であり、図１に示すように、「ジャングル」、「ファーム」、「チームファイト」及び「トップリングタワー」などの大局観による策略決定に従って区分され、各ラウンドのゲームには平均で約１００の大局観タスクしかなく、各大局観タスクにおける微操作策略決定のステップの数の平均が２００個である。上記の内容に基づいて、図２を参照し、図２は関連技術における階層化モデルの構造概略図であり、図２に示すように、大局観特徴を利用して大局観モデルを確立し、微操作特徴を利用して微操作モデルを確立して、大局観モデルにより大局観タグを出力し、微操作モデルにより微操作タグを出力することができる。

しかしながら、階層化モデルを確立するには、大局観モデルと微操作モデルを別々に設計及びトレーニングする必要がある。つまり、これらの２つのモデルは、互いに独立したものであり、実際の応用においては、どちらのモデルを予測に使用するかを特定しなければならないため、２つのモデルの間にハードハンドオーバーの問題があり、予測の利便性に不利である。

本出願の実施形態は、情報予測方法、モデルトレーニング方法及びサーバーを提供し、１つのジョイントモデルのみを使用して微操作及び大局観を予測することができ、階層化モデルにおけるハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。

これに鑑み、本出願の第１態様は、情報予測方法を提供し、当該情報予測方法は、予測画像を取得するステップと、
前記予測画像における予測特徴セットを抽出するステップと、
ターゲットジョイントモデルにより、前記予測特徴セットに対応する第１タグ及び／又は第２タグを取得するステップとを含み、
前記第１タグは、操作の内容に関するタグであり、
前記第２タグは、操作の意図に関するタグであり、
前記予測特徴セットには、第１領域の画像特徴を示す第１予測特徴、前記第１領域よりも範囲が小さい第２領域の画像特徴を示す第２予測特徴、及び、インタラクション操作に関する属性特徴を示す第３予測特徴が含まれる。

本出願の第２態様はモデルトレーニングの方法を提供し、Ｎ個（Ｎは１以上の整数）のトレーニング画像を含むトレーニング画像セットを取得するステップと、
各トレーニング画像におけるトレーニング特徴セットを抽出するステップと、
前記各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグを取得するステップと、
前記各トレーニング画像における前記トレーニング特徴セット、前記各トレーニング画像に対応する前記第１トレーニングタグ及び前記第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するステップとを含み、
前記第１トレーニングタグは、操作の内容に関するタグであり、
前記第２トレーニングタグは、操作の意図に関するタグであり、
前記トレーニング特徴セットには、第１領域の画像特徴を示す第１トレーニング特徴、前記第１領域よりも範囲が大きい第２領域の画像特徴を示す第２トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第３トレーニング特徴が含まれる。

本出願の第３態様は、サーバーを提供し、
予測画像を取得するための取得モジュールと、
前記取得モジュールにより取得された前記予測画像における予測特徴セットを抽出するための抽出モジュールと、を含み、
前記予測特徴セットには、第１領域の画像特徴を示す第１予測特徴、前記第１領域よりも範囲が大きい第２領域の画像特徴を示す第２予測特徴、及び、インタラクション操作に関する属性特徴を示す第３予測特徴が含まれ、
前記取得モジュールは、さらに、ターゲットジョイントモデルにより、前記抽出モジュールにより抽出された前記予測特徴セットに対応する第１タグ及び第２タグを取得するために利用され、
前記第１タグは、操作の内容に関するタグであり、
前記第２タグは、操作の意図に関するタグである。

好ましい構成は、本出願の実施形態の第３態様の第１実現形態において、
前記取得モジュールは、前記ターゲットジョイントモデルにより、前記予測特徴セットに対応する前記第１タグ、前記第２タグ、及び、勝敗の状況に関するタグである第３タグを取得するために利用される。

本出願の第４の態様はサーバーを提供し、
Ｎ個のトレーニング画像を含むトレーニング画像セットを取得する（Ｎは１以上の整数である）ために用いられる取得モジュールと、
前記取得モジュールにより取得された各トレーニング画像におけるトレーニング特徴セットを抽出するための抽出モジュールと、
前記抽出モジュールにより抽出された前記各トレーニング画像における前記トレーニング特徴セット、前記取得モジュールにより取得された前記各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するためのトレーニングモジュールとを含み、
前記トレーニング特徴セットには、第１領域の画像特徴を示す第１トレーニング特徴、前記第１領域よりも範囲が大きい第２領域の画像特徴を示す第２トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第３トレーニング特徴が含まれ、
前記取得モジュールは、さらに、前記各トレーニング画像に対応する、操作の内容に関するタグである前記第１トレーニングタグ、及び、操作の意図に関するタグである前記第２トレーニングタグを取得するために利用される。

好ましい構成は、本出願の実施形態の第４の態様の第１実現形態において、
前記第１トレーニング特徴は、二次元ベクトル特徴であり、前記第１領域におけるキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報及び防御オブジェクト位置情報の少なくとも１つを含み、
前記第２トレーニング特徴は、二次元ベクトル特徴であり、前記第２領域におけるキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報、防御オブジェクト位置情報、障碍オブジェクト位置情報及び出力オブジェクト位置情報の少なくとも１つを含み、
前記第３トレーニング特徴は、一次元ベクトル特徴であり、キャラクターヒットポイント、キャラクター出力値、時間情報及びスコア情報の少なくとも１つを含み、
前記第１トレーニング特徴と、前記第２トレーニング特徴と、前記第３トレーニング特徴との間に対応関係がある。

好ましい構成は、本出願の実施形態の第４の態様の第２実現形態において、
前記第１トレーニングタグは、ボタンタイプ情報及び／又はボタンパラメータ情報を含み、
前記ボタンパラメータ情報は、方向パラメータ、位置パラメータ及びターゲットパラメータの少なくとも１つを含み、
前記方向パラメータは、キャラクターが移動する方向を示すために利用され、
前記位置パラメータは、前記キャラクターが所在している位置を示すために利用され、前記ターゲットパラメータは、前記キャラクターの出力すべきオブジェクトを示すために利用される。

好ましい構成は、本出願の実施形態の第４の態様の第３実現形態において、前記第２トレーニングタグは、操作の意図情報及びキャラクター位置情報を含み、前記操作の意図情報は、キャラクターとオブジェクトとがインタラクションする目的を示し、前記キャラクター位置情報は、前記キャラクターの前記第１領域における位置を示す。

好ましい構成は、本出願の実施形態の第４の態様の第４の実現形態において、前記トレーニングモジュールは、
前記各トレーニング画像における前記トレーニング特徴セットを処理して、第１ターゲット特徴、第２ターゲット特徴及び第３ターゲット特徴を含むターゲット特徴セットを取得するステップと、
長短期記憶ＬＳＴＭ層により、前記ターゲット特徴セットに対応する第１予測タグ及び第２予測タグを取得するステップと、
前記各トレーニング画像の前記第１予測タグ、前記第１トレーニングタグ、前記第２予測タグ及び前記第２トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップと、
前記モデルコアパラメータに基づいて、前記ターゲットジョイントモデルを生成するステップとが実現されることに利用され、
前記第１予測タグは、予測により得られた操作の内容に関するタグであり、
前記第２予測タグは、予測により得られた操作の意図に関するタグであり、
前記第１予測タグと前記第２予測タグとは、予測値に属し、
前記第１トレーニングタグと前記第２トレーニングタグとは、真の値に属する。

好ましい構成は、本出願の実施形態の第４の態様の第５の実現形態において、前記トレーニングモジュールは、全結合層により、前記各トレーニング画像における前記第３トレーニング特徴を処理して、一次元ベクトル特徴である前記第３ターゲット特徴を取得するステップと、
畳み込み層により、前記各トレーニング画像における前記第２トレーニング特徴を処理して、一次元ベクトル特徴である前記第２ターゲット特徴を取得するステップと、
前記畳み込み層により、前記各トレーニング画像における前記第１トレーニング特徴を処理して、一次元ベクトル特徴である前記第１ターゲット特徴を取得するステップとが実現されることに利用される。

好ましい構成は、本出願の実施形態の第４の態様の第６の実現形態において、前記トレーニングモジュールは、長短期記憶ＬＳＴＭ層により、前記ターゲット特徴セットに対応する第１予測タグ、第２予測タグ、及び、予測により得られた勝敗の状況に関するタグである第３予測タグを取得するステップと、
前記各トレーニング画像に対応する、実際の勝敗の状況を示すための第３トレーニングタグを取得するステップと
前記第１予測タグ、前記第１トレーニングタグ、前記第２予測タグ、前記第２トレーニングタグ、前記第３予測タグ及び前記第３トレーニングタグに基づいてトレーニングして前記モデルコアパラメータを取得するステップとが実現されることに利用され、
前記第３トレーニングタグは、予測値に属し、
前記第３予測タグは、真の値に属する。

好ましい構成は、本出願の実施形態の第４の態様の第７の実現形態において、前記サーバーは、更新モジュールをさらに含み、
前記取得モジュールは、さらに、
前記トレーニングモジュールが前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記各トレーニング画像に対応する前記第１トレーニングタグ及び前記第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
前記ターゲットジョイントモデルにより、前記トレーニングビデオに対応する、ターゲットシナリオでの関連データを含むターゲットシナリオデータを取得するステップとを実行するために利用され、
前記トレーニングモジュールは、さらに、前記取得モジュールにより取得された前記ターゲットシナリオデータ、前記第１トレーニングタグ及び第１予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップを実行するために利用され、
前記第１予測タグは、予測により得られた操作の内容に関するタグであり、
前記第１予測タグは、予測値に属し、
前記第１トレーニングタグは、真の値に属し、
前記更新モジュールは、前記トレーニングモジュールがトレーニングして得られた前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップを実行するために利用される。

好ましい構成は、本出願の実施形態の第４の態様の第８の実現形態において、前記サーバーは、更新モジュールをさらに含み、
前記取得モジュールは、さらに、
前記トレーニングモジュールが前記各トレーニング画像における前記トレーニング特徴セット、前記各トレーニング画像に対応する前記第１トレーニングタグ及び前記第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
前記ターゲットジョイントモデルにより、ターゲットシナリオでの関連データを含む前記トレーニングビデオに対応するターゲットシナリオデータを取得するステップとを実行するために利用され、
前記トレーニングモジュールは、さらに、前記取得モジュールにより取得された前記ターゲットシナリオデータ、前記第２トレーニングタグ及び第２予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップとを実行するために利用され、
前記第２予測タグは、予測により得られた操作の意図に関するタグであり、
前記第２予測タグは、予測値に属し、
前記第２トレーニングタグは、真の値に属し、
前記更新モジュールは、前記トレーニングモジュールがトレーニングして得られた前記ターゲットモデルパラメータ利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップを実行するために利用される。

本出願の第５の態様はサーバーを提供し、当該サーバーは、上記の第１態様又は第１態様のいずれかの可能な実現形態における情報予測方法を実行するために用いられる。具体的に、当該サーバーは、第１態様又は第１態様のいずれかの可能な実現形態における情報予測方法を実行するためのモジュールを含む。

本出願の第６の態様はサーバーを提供し、当該サーバーは上記の第２態様又は第２態様態様のいずれかの可能な実現形態におけるモデルトレーニング方法を実行するために用いられる。例示的に、当該サーバーは、第２態様又は第２態様のいずれかの可能な実現形態におけるモデルトレーニング方法を実行するためのモジュールを含む。

本出願の第７の態様は、コンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータ読み取り可能な記憶媒体にコマンドが記憶され、コンピュータに実行されると、上記の各態様に記載の方法をコンピュータに実行させる。

本出願の第８の態様は、コンピュータプログラム（製品）を提供し、当該コンピュータプログラム（製品）はコンピュータプログラムコードが記憶され、前記コンピュータプログラムコードがコンピュータによって実行されると、上記の各態様のいずれかに記載の方法を前記コンピュータに実行させる。

以上の技術案から、本出願の実施形態は少なくとも以下の利点を有することが見られる。
本出願の実施形態において、情報予測方法を提供し、まず、サーバーは予測画像を取得し、そして、予測画像における予測特徴セットを抽出し、予測特徴セットは第１予測特徴、第２予測特徴及び第３予測特徴を含み、第１予測特徴は第１領域の画像特徴を示し、第２予測特徴は第２領域の画像特徴を示し、第３予測特徴はインタラクション操作に関する属性特徴を示し、第１領域の範囲が第２領域の範囲よりも小さい。最後に、サーバーは、ターゲットジョイントモデルにより予測画像に対応する第１タグ及び第２タグを取得することができ、第１タグが操作の内容に関するタグであり、第２タグが操作の意図に関するタグである。上記の方式により、１つのジョイントモデルのみを使用して微操作及び大局観を予測することができる。なお、微操作の予測結果は、第１タグとして示され、大局観の予測結果は、第２タグとして示される。従って、大局観モデル及び微操作モデルを１つのジョイントモデルにマージし、階層化モデルでのハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。

関連技術における階層化してモデルを確立する概略図である。関連技術における階層化モデルの構造概略図である。本出願の実施形態における情報予測システムのアーキテクチャの概略図である。本出願の実施形態におけるターゲットジョイントモデルの１つのシステムの構造の概略図である。本出願の実施形態における情報予測方法の一実施形態の概略図である。本出願の実施形態における強化ジョイントモデルの作動流れの概略図である。本出願の実施形態におけるモデルトレーニングの方法の一実施形態の概略図である。本出願の実施形態におけるトレーニング特徴セットを抽出する一実施形態の概略図である。本出願の実施形態におけるトレーニング特徴セットの１つの特徴表現の概略図である。本出願の実施形態におけるクラス画像の１つの特徴表現の概略図である。本出願の実施形態における微操作タグの概略図である。本出願の実施形態における微操作タグの他の概略図である。本出願の実施形態における微操作タグの他の概略図である。本出願の実施形態における微操作タグの他の概略図である。本出願の実施形態における大局観タグの概略図である。本出願の実施形態におけるターゲットジョイントモデルの１つのネットワーク構造の概略図である。本出願の実施形態における強化ジョイントモデルの１つのシステムの構造概略図である。本出願の実施形態における強化ジョイントモデルの他のシステムの構造概略図である。本出願の実施形態におけるサーバーの一実施形態の概略図である。本出願の実施形態におけるサーバーの他の実施形態の概略図である。本出願の実施形態におけるサーバーの他の実施形態の概略図である。本出願の実施形態におけるサーバーの構造概略図である。

本出願の実施形態は、情報予測方法、モデルトレーニングの方法及びサーバーを提供し、１つのジョイントモデルを使用するだけで微操作及び大局観を予測でき、階層化モデルでのハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。

本出願の明細書及び請求項ならびに上記図面における用語である「第１」、「第２」、「第３」、「第４」など（存在する場合）は、類似した対象を区別するために用いられ、必ずしも特定の順番又は前後順序を記載する意図はない。このように用いられたデータは、適切な状況で交換可能であり、本明細書に記載の本出願の実施形態は、例えば、本明細書に図示又は記載した順序以外の順序でも実施可能であることが理解されるべきである。さらに、「含む」及び「有する」という用語、ならびに、それらの任意の変化形は、非排他的な包含を網羅するよう意図されたものであり、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品、又は、デバイスが、明確に列挙された工程又はユニットに必ずしも限定されることはなく、明確に列挙されていない他のステップ又はユニット、もしくは、これらのプロセス、方法、システム、製品、又は、デバイスに固有の他のステップ又はユニットを含んでもよい。

本出願に係るモデルはＡＩ分野に適用されてよく、その適用範囲は、機械翻訳、インテリジェント制御、エキスパートシステム、ロボット、言語と画像の理解、自動プログラミング、航空宇宙アプリケーション、及び巨大な情報処理、保存、管理などを含むがそれらに限定されないと理解されるべきである。説明の都合上、本出願は、オンラインゲームシナリオを例として説明し、ＭＯＢＡタイプのゲームシナリオであってもよい。ＭＯＢＡゲームに対して、本出願の実施形態では、ＡＩモデルを設計し、人間のプレイヤの操作をより良くシミュレートし、人間と機械の対戦、オフラインのプレイヤのシミュレーション、プレイヤによるキャラクターの練習などの場合でより良い結果を達成することができる。なお、ＭＯＢＡゲームの典型的なゲームプレイは、マルチバトルマルチのモードであり、つまり、同じ数のプレイヤで構成される２つ（又はそれ以上）のチームが互いに競い合い、各プレイヤがヒーローキャラクターを制御し、先に相手の「クリスタル」ベースをトップリングした一方が勝者である。

理解を容易にするために、本出願は、情報予測方法を提供し、当該方法は図３に示す情報予測システムに適用され、図３を参照し、図３は本出願の実施形態における情報予測システムのアーキテクチャの概略図であり、図３に示すように、クライアント上で複数のラウンドのゲームがプレイされ、大量のゲーム画面データ（即ち、トレーニング画像）を生成し、次に、ゲーム画面データをサーバーに送信する。なお、これらのゲーム画面データのプロセスは、実際のゲームプロセスで人間のプレイヤによって生成されたデータであってもよいし、マシンが人間のプレイヤの操作をシミュレートしたことで取得されたデータであってもよく、本出願では、主に人間のプレイヤによって提供されたデータである。１ラウンドのゲームで平均３０分、毎秒１５フレームで計算すると、各ラウンドのゲームのドロンに２７，０００フレームの画像がある。本出願では、主に、大局観タスク及び微操作タスクに関するデータを選択してトレーニングを行い、データの複雑さを削減する。なお、大局観タスクは、操作の意図に従って区分され、大局観タスクは、「ジャングル」、「ファーム」、「チームファイト」及び「トップリングタワー」を含むが、それらのみに限定されない。各ラウンドのゲームに平均で約１００の大局観タスクしかなく、各大局観タスクにおける微操作策略決定ステップの数は約２００であり、従って、大局観による策略決定ステップの数及び微操作策略決定ステップの数は許容範囲内である。

サーバーは、クライアントから報告されたゲーム画面データを使用してモデルをトレーニングし、ターゲットジョイントモデルを得た上で、さらに、強化ジョイントモデルを生成する。説明の都合上、図４を参照し、図４は、本出願の実施形態における強化ジョイントモデルの１つのシステムの構造概略図である。図４に示すように、モデルトレーニングのプロセス全体は、２つの段階に分けることができる。まず、教師あり学習により、人間のプレイヤのゲームデータから初期の大局観と微操作とのジョイントモデルを学習し、ジョイントモデルを基に、大局観全結合（ｆｕｌｌｃｏｎｎｅｃｔｉｏｎ、ＦＣ）層及び微操作ＦＣ層を追加し、これにより、ターゲットジョイントモデルを取得する。次に、強化学習により、微操作ＦＣ層（又は大局観ＦＣ層）を最適化し、他の層のパラメータが固定され、このように、「チームファイト」におけるスキルヒット率及び回避スキル成功率などのコア指標を改善する。

なお、クライアントは端末装置に配置され、端末装置はタブレットコンピュータ、ノートパソコン、パームトップコンピュータ、携帯電話及びパーソナルコンピュータ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、ＰＣ）を含むが、それに限定されず、ここで限定しない。

上記の説明に基づいて、以下、本出願における情報予測方法について説明する。図５を参照し、本出願の実施形態において、情報予測方法の一実施形態は以下のステップを含む。

１０１において、予測画像を取得する。
本実施形態において、サーバーは、まず、予測画像を取得し、当該予測画像は、ＭＯＢＡゲームにおける画像を指してもよい。

１０２において、予測画像における予測特徴セットを抽出し、予測特徴セットには、第１予測特徴、第２予測特徴及び第３予測特徴が含まれ、第１予測特徴は、第１領域の画像特徴を示し、第２予測特徴は、第２領域の画像特徴を示し、第３予測特徴は、インタラクション操作に関する属性特徴を示し、第１領域の範囲が第２領域の範囲よりも小さい。

本実施形態において、サーバーは、予測画像における予測特徴セットを抽出する必要があり、ここで、予測特徴セットには、主に、３種類の特徴が含まれ、それぞれ、第１予測特徴、第２予測特徴及び第３予測特徴である。第１予測特徴は第１領域の画像特徴を示し、例示として、第１予測特徴は、ＭＯＢＡゲームにおけるミニマップクラス画像特徴である。第２予測特徴は第２領域の画像特徴を示し、例示として、第２予測特徴は、ＭＯＢＡゲームにおける現在の視野クラス画像特徴である。第３予測特徴はインタラクション操作に関する属性特徴を示し、例示として、第３予測特徴は、ＭＯＢＡゲームにおけるヒーローの属性ベクトル特徴である。

１０３において、ターゲットジョイントモデルにより、予測特徴セットに対応する第１タグ及び／又は第２タグを取得し、第１タグが操作の内容に関するタグであり、第２タグが操作の意図に関するタグである。

本実施形態において、サーバーは、抽出された予測特徴セットをターゲットジョイントモデルに入力し、さらに、強化された強化ジョイントモデルに入力してもよい。なお、強化ジョイントモデルは、ターゲットジョイントモデルが強化されたモデルである。理解を容易にするために、図６を参照し、図６は、本出願の実施形態におけるターゲットジョイントモデルの作動流れの概略図であり、図６に示すように、本出願は、大局観モデルと微操作モデルとを、同一のモデル、即ち、ジョイントモデルとしてマージする。ジョイントモデルを基に、大局観ＦＣ層及び微操作ＦＣ層を追加することで、ターゲットジョイントモデルを取得する。このように、人間による策略決定プロセスとより符合することができる。ジョイントモデルは統一的な特徴入力を利用し、即ち、予測特徴セットを入力する。統一的な符号化層を学習するとともに、大局観タスク及び微操作タスクを学習し、大局観タスクの出力はカスケードで操作タスクの符号化層に入力され、ジョイントモデルは、最終的に、操作の内容に関する第１タグのみを出力し、第１タグに基づいて微操作ＦＣ層の出力を実行コマンドとしてもよい。操作の意図に関する第２タグのみを出力し、第２タグに応じて大局観ＦＣ層の出力を実行コマンドとしてもよい。第１タグ及び第２タグを同時に出力し、即ち、同時に、第１タグ及び第２タグに基づいて微操作ＦＣ層及び大局観ＦＣ層の出力を実行コマンドとしてもよい。

本出願の実施形態において、情報予測方法を提供する。まず、サーバーは予測画像を取得する。そして、予測画像における予測特徴セットを抽出する。なお、予測特徴セットには、第１予測特徴、第２予測特徴及び第３予測特徴が含まれ、第１予測特徴は、第１領域の画像特徴を示し、第２予測特徴は、第２領域の画像特徴を示し、第３予測特徴は、インタラクション操作に関する属性特徴を示し、第１領域の範囲が第２領域の範囲よりも小さい。最後に、サーバーは、ターゲットジョイントモデルにより予測画像に対応する第１タグ及び第２タグを取得する。なお、第１タグは、操作の内容に関するタグであり、第２タグは操作の意図に関するタグである。上記の方式により、１つのジョイントモデルのみを使用して微操作及び大局観を予測することができる。なお、微操作の予測結果は、第１タグとして示され、大局観の予測結果は、第２タグとして示される。従って、大局観モデル及び微操作モデルを１つのジョイントモデルにマージし、階層化モデルでのハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。

好ましくは、上記の図５に対応する実施形態に基づいて、本出願の実施形態で提供される情報予測方法の第１オプション実施形態において、ターゲットジョイントモデルにより予測特徴セットに対応する第１タグ及び／又は第２タグを取得することは、ターゲットジョイントモデルにより予測特徴セットに対応する第１タグ、第２タグ及び第３タグを取得することを含んでもよく、第３タグは勝敗の状況に関するタグである。

本実施形態において、比較的に包括的な予測方式を提供する。即ち、ターゲットジョイントモデルにより第１タグ、第２タグ及び第３タグを同時に出力することで、大局観タスクにおける操作及び微操作タスクにおける操作を予測可能であるのみならず、勝敗の状況も予測可能となる。

好ましくは、実際のアプリケーションにおいて、通常、連続する複数フレームの予測画像を入力して、予測の精度を向上する。例えば、１００フレームの予測画像を入力し、フレームごとの予測画像に対して特徴抽出を行うことで、１００組の予測特徴セットを得る。１００組の予測特徴セットをターゲットジョイントモデルに入力することで、大局観タスクに関する潜んだ意図が予測され、汎用ナビゲーション能力を学習して、微操作タスクの実行コマンドを予測したり、このラウンドのゲームの勝敗に関して起こり得る状況、例えば、このラウンドのゲームは勝つか、敗れるかを予測したりすることができる。

次に、本出願の実施形態において、ターゲットジョイントモデルは、第１タグ及び第２タグだけではなく、第３タグも出力することができる。即ち、ターゲットジョイントモデルは予測勝敗の状況を予測することもできる。上記の方式により、実際応用において、状況の結果をより良く予測することができ、予測の信頼性の向上に寄与し、予測の柔軟性と実用性とを向上させる。

以下、本出願におけるモデル予測の方法について説明し、人間データを利用して高速な教師あり学習を行うことができ、強化学習によりモデルの予測精度を向上することができ、図７を参照し、本出願の実施形態において、モデル予測の方法の一実施形態は以下のステップを含む。

２０１において、トレーニング画像セットを取得し、トレーニング画像セットはＮ個のトレーニング画像を含み、Ｎは１以上の整数である。

本実施形態において、モデルトレーニングの流れについて説明し、まず、サーバーは、クライアントから報告された人間のプレイヤのゲームデータにより、相応するトレーニング画像セットを取得する。トレーニング画像セットは、通常、複数フレームの画像を含み、即ち、トレーニング画像セットはＮ個のトレーニング画像を含み、モデルの精度を向上させ、Ｎは１以上の整数である。

２０２において、各トレーニング画像におけるトレーニング特徴セットを抽出し、トレーニング特徴セットには、第１トレーニング特徴、第２トレーニング特徴及び第３トレーニング特徴が含まれ、第１トレーニング特徴は第１領域の画像特徴を示し、第２トレーニング特徴は第２領域の画像特徴を示し、第３トレーニング特徴はインタラクション操作に関する属性特徴を示し、第１領域の範囲が第２領域の範囲よりも小さい。

本実施形態において、サーバーは、トレーニング画像セットにおける各トレーニング画像のトレーニング特徴セットを抽出する必要があり、ここで、トレーニング特徴セットには、主に、３種類の特徴が含まれ、それぞれ、第１トレーニング特徴、第２トレーニング特徴及び第３トレーニング特徴である。第１トレーニング特徴は第１領域の画像特徴を示し、例示として、第１トレーニング特徴は、ＭＯＢＡゲームにおけるミニマップクラス画像特徴である。第２トレーニング特徴は、第２領域の画像特徴を示し、例示として、第２トレーニング特徴は、ＭＯＢＡゲームにおける現在の視野クラス画像特徴である。第３トレーニング特徴は、インタラクション操作に関する属性特徴を示し、例示として、第３トレーニング特徴は、ＭＯＢＡゲームにおけるヒーロー属性ベクトル特徴である。

２０３において、各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグを取得し、第１トレーニングタグは、操作の内容に関するタグであり、第２トレーニングタグは、操作の意図に関するタグである。

本実施形態において、サーバーは、さらに、各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグを取得する必要があり、第１トレーニングタグは、操作の内容に関するタグであり、例示として、第１トレーニングタグは、微操作タスクに関するタグである。第２トレーニングタグは、操作の意図に関するタグであり、例示として、第２トレーニングタグは、大局観タスクに関するタグである。

なお、実際応用において、ステップ２０３は、ステップ２０２の前に実行されてもよいし、ステップ２０２の後に実行されてもよい。または、ステップ２０２と同時に実行されてもよいため、ここで限定しない。

２０４において、各トレーニング画像におけるトレーニング特徴セット、各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグに応じて、トレーニングしてターゲットジョイントモデルを取得する。

本実施形態において、最後に、サーバーは、各トレーニング画像から抽出されたトレーニング特徴セット、各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグに基づいてトレーニングして、ターゲットジョイントモデルを取得する。当該ターゲットジョイントモデルは、大局観タスクの状況及び微操作タスクのコマンドを予測するために利用され得る。

本出願の実施形態において、モデルトレーニングの方法について説明し、まず、サーバーはトレーニング画像セットを取得し、そして、各トレーニング画像におけるトレーニング特徴セットを抽出し、トレーニング特徴セットには、第１トレーニング特徴、第２トレーニング特徴及び第３トレーニング特徴が含まれる。そして、サーバーは、各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグを取得する必要がある。最後に、各トレーニング画像におけるトレーニング特徴セット、各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得する。上記の方式により、微操作及び大局観を同時に予測可能なモデルが構成され、大局観モデル及び微操作モデルを１つのジョイントモデルにマージし、階層化モデルにおけるハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。それとともに、大局観タスクが考慮されることで、マクロ策略決定の精度を効果的に向上し、特に、ＭＯＢＡゲームにおいて、大局観による策略決定は非常に重要である。

好ましくは、上記の図７に対応する実施形態を基に、本出願の実施形態で提供されるモデルトレーニングの方法の第１オプション実施形態において、第１トレーニング特徴は二次元ベクトル特徴であり、第１トレーニング特徴は、第１領域でのキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報及び防御オブジェクト位置情報の少なくとも１つを含む。
第２トレーニング特徴は、二次元ベクトル特徴であり、第２トレーニング特徴は、第２領域におけるキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報、防御オブジェクト位置情報、障碍オブジェクト位置情報及び出力オブジェクト位置情報の少なくとも１つを含む。
第３トレーニング特徴は、一次元ベクトル特徴であり、第３トレーニング特徴はキャラクターヒットポイント、キャラクター出力値、時間情報及びスコア情報の少なくとも１つを含む。
なお、第１トレーニング特徴と、第２トレーニング特徴と、第３トレーニング特徴との間に対応関係がある。

本実施形態において、第１トレーニング特徴と、第２トレーニング特徴と、第３トレーニング特徴との間の関係及び内容について、説明の都合上、以下にＭＯＢＡゲームのシナリオを例にして説明し、人間のプレイヤは、操作中に、ミニマップ、現在の視野及びヒーローの属性などの情報を包括的に考慮する。従って、本出願は、マルチモード及びマルチスケールの特徴表現を利用する。図８を参照し、図８は本出願の実施形態におけるトレーニング特徴セットを抽出する一実施形態の概略図であり、図８に示すように、Ｓ１で示された部分は、ヒーローの属性情報であり、ゲームのヒーローキャラクター、及び各ヒーローキャラクターのヒットポイント、物理攻撃値、魔法攻撃値、物理防御値、魔法防御値を含む。Ｓ２で示された部分は、ミニマップ、即ち第１領域である。ミニマップにおいて、ヒーローキャラクター、ライン、モンスター、防御タワーの場所を見ることができる。なお、ヒーローキャラクターは、チームメイトが制御するヒーローキャラクターと敵が制御するヒーローキャラクターを含み、ラインとは、両方の手先が戦っている位置を指す。モンスターとは、プレイヤ以外の、環境にある「中立的な敵対」オブジェクトを指し、ノンプレイヤキャラクター（Ｎｏｎ−ＰｌａｙｅｒＣｈａｒａｃｔｅｒ、ＮＰＣ）タイプのモンスターに属し、プレイヤによって制御されない。防御タワーは防御建物である。なお、２つの陣営にそれぞれクリスタル防御タワーがあり、相手のクリスタル防御タワーを破壊すると勝利を収める。Ｓ３で示された部分は、現在の視野、即ち、第２領域である。現在の視野で、ヒーロー、ライン、モンスター、防御タワー、地図の障害物、弾丸をはっきりと見ることができる。

図９を参照し、図９は、本出願の実施形態におけるトレーニング特徴セットの１つ特徴表現の概略図であり、図９に示すように、ヒーローの属性のベクトル特徴（即ち、第３トレーニング特徴）は、ミニマップクラス画像特徴（即ち、第１トレーニング特徴）及び現在視野クラス画像特徴（即ち、第２トレーニング特徴）と１対１にマッピング関係を確立することで、マクロとミクロの両方の策略決定に使用できる。ヒーローの属性のベクトル特徴は数値からなる特徴であるため、一次元ベクトル特徴に属し、当該ベクトル特徴は、ヒーローキャラクターの属性特徴、例えば、血液量（即ち、５人の敵のヒーローのキャラクターのヒットポイント及び５人の当方のヒーローキャラクターのヒットポイント）、攻撃力（即ち、５人の敵のヒーローキャラクターのキャラクター出力値及び５人の当方のヒーローキャラクターのキャラクター出力値）、時間（１ラウンドのゲーム期間）及びスコア（各チームの最終スコア）を含むが、それらに限定されない。ミニマップクラス画像特徴及び現在視野クラス画像特徴とはクラス画像特徴に属し、理解を容易にするために、図１０を参照し、図１０は本出願の実施形態におけるクラス画像の特徴表現の概略図である。図１０に示すように、クラス画像特徴は、元の画素画像から人工的に構成される二次元特徴であり、元の複雑な画像から直接学習することの難しさを削減する。ミニマップクラス画像特徴は、ヒーロー、ライン、モンスター、防御タワーなどの位置情報を含み、マクロスケールの情報を表現するために使用される。現在視野クラス画像特徴は、ヒーロー、ライン、モンスター、防御タワー、地図の障害物、弾丸の位置情報を含み、ローカルのマイクロスケールの情報を表現するために使用される。

このような人間の視角をシミュレートするマルチモード及びマルチスケール特徴は、空間相対位置関係をよくモデリングするだけでなく、ＭＯＢＡゲームでの高次元の状態特徴の表現にも非常に適する。

次に、本出願の実施形態において、３種類のトレーニング特徴の内容について説明し、第１トレーニング特徴は二次元ベクトル特徴であり、第２トレーニング特徴は二次元ベクトル特徴であり、第３トレーニング特徴は一次元ベクトル特徴である。上記の方式により、３種類のトレーニング特徴に含まれる具体的な情報を特定することができ、よって、より多い情報量を取得してモデルトレーニングに使用する。一方、第１トレーニング特徴及び第２トレーニング特徴は二次元ベクトル特徴であるため、特徴の空間表現の向上に有利であり、特徴の多様性を増加させる。

好ましくは、上記の図７に対応する実施形態を基に、本出願の実施形態で提供されるモデルトレーニングの方法の第２オプション実施形態において、第１トレーニングタグはボタンタイプ情報及び／又はボタンパラメータ情報を含む。

なお、ボタンパラメータ情報は方向パラメータ、位置パラメータ及びターゲットパラメータの少なくとも１つを含み、方向パラメータは、キャラクターが移動する方向を示すために用いられ、位置パラメータは、キャラクターの所在している位置を示すために用いられ、ターゲットパラメータは、キャラクターの出力すべきオブジェクトを示すために用いられる。

本実施形態において、第１トレーニングタグに含まれる内容について詳細に説明する。第１トレーニングタグはボタンタイプ情報及び／又はボタンパラメータ情報を含み、通常、タグの精度を向上させるために、ボタンタイプ情報及びボタンパラメータ情報を同時に第１トレーニングタグとすることを考慮する。人間のプレイヤは、操作中に、使用するボタンを決定し、そして、ボタンの操作パラメータを決定することが一般であるため、本出願は、階層化のタグ構成を利用する。即ち、まず、現時点で実行するボタンを予測し、そして、ボタンのリリースパラメータを予測する。

理解を容易にするために、以下、図面に基づいて例を挙げて第１トレーニングタグを説明する。ボタンパラメータ情報は、主に、三種類の情報に分けられ、それぞれ、方向型の情報、位置型の情報及びターゲット型の情報である。１周の方向は３６０度で、６度毎に１つのタグを設定すれば、方向型の情報を６０個の方向に離散化することができる。１つのヒーローキャラクターは通常画像の１０００画素を占めるため、位置型の情報を３０×３０の位置に離散化することができる。ターゲット情報は、攻撃ターゲットの候補として表され、スキルを発動するときにヒーローキャラクターが攻撃するターゲットを指してもよい。

図１１を参照し、図１１は本出願の実施形態における微操作タグの概略図であり、図１１に示すように、ヒーローキャラクターは、Ａ１で示される範囲でスキル３を発動し、スキルの方向が右下で４５度である。Ａ２はスキル３の操作インターフェースにおける位置を示す。これにより、人間のプレイヤの操作が「スキル３＋方向」であることを示す。図１２を参照し、図１２は本出願の実施形態における微操作タグの他の概略図であり、図１２に示すように、ヒーローキャラクターは、Ａ３で示される方向に従って移動し、移動方向は右である。これにより、人間のプレイヤの操作が「移動＋方向」であることを示す。図１３を参照し、図１３は本出願の実施形態における微操作タグの他の概略図であり、図１３に示すように、ヒーローキャラクターは、スキル１を発動し、Ａ４はスキル１の操作インターフェースにおける位置を示す。これにより、人間のプレイヤの操作が「スキル１」であることを示す。図１４を参照し、図１４は本出願の実施形態における微操作タグの概略図であり、図１４に示すように、ヒーローキャラクターは、Ａ５で示される範囲でスキル２を発動し、スキルの方向は右上で４５度である。Ａ６はスキル２の操作インターフェースにおける位置を示す。これにより、人間のプレイヤの操作が「スキル２＋方向」であることを示す。

ＡＩは、異なるリリースタイプのスキルを予測することができる。即ち、方向ボタンについて方向を予測し、位置ボタンについて位置を予測し、ターゲットボタンについて具体的なターゲットを予測する。階層タグの構成方法は、ゲーム中の人間のプレイヤの実際の操作の意図に近づけ、ＡＩの学習に有利である。

次に、本出願の実施形態において、第１トレーニングタグはボタンタイプ情報及び／又はボタンパラメータ情報を含み、ボタンパラメータ情報は、方向パラメータ、位置パラメータ及びターゲットパラメータの少なくとも１つを含み、方向パラメータは、キャラクターが移動する方向を示すために用いられ、位置パラメータは、キャラクターの所在している位置を示すために用いられ、ターゲットパラメータは、キャラクターの出力すべきオブジェクトを示すために用いられることについて説明した。上記の方式により、第１トレーニングタグの内容をより洗練させ、階層的にタグを作成することで、ゲーム中の人間のプレイヤの実際の操作の意図に近づけることができ、ＡＩの学習能力の向上に有利である。

好ましくは、上記の図７に対応する実施形態を基に、本出願の実施形態で提供されるモデルトレーニングの方法の第３オプション実施形態において、第２トレーニングタグは操作の意図情報及びキャラクター位置情報を含み、操作の意図情報は、キャラクターとオブジェクトとがインタラクトする目的を示し、キャラクター位置情報は、キャラクターの第１領域における位置を示す。

本実施形態において、第２トレーニングタグに含まれる内容について詳細に説明し、第２トレーニングタグは操作の意図情報及びキャラクター位置情報を含む。実際の応用において、人間のプレイヤは、現在のゲーム状態に応じて大局観による策略決定を行い、例えば、道路上のラインをクリアしたり、当方のジャングルエリアのモンスターを攻撃したり、ミッドでチームバトルに参加したり、ローワーでの防御タワーをトップリングしたりする。これらの大局観による策略決定は、微操作のようにそれに対応する明示的な操作ボタンがなく、潜んだ意図としてプレイヤデータに反映される。

理解を容易にするために、図１５を参照し、図１５は本出願の実施形態における大局観タグの概略図であり、例示的に、タイムラインの変化に応じて人間の大局観、及び対応する大局観タグ（第２トレーニングタグ）を取得する。１ラウンドの人間のプレイヤのバトルビデオを「チームファイト」、「ファーム」、「ジャングル」及び「トップリングタワー」などのシナリオに分けることができ、これらのシナリオをモデリングすると、プレイヤの大局観による意図の操作の意図情報として表現することができ、ミニマップを２４＊２４個のグリッドに離散化し、キャラクター位置情報は、キャラクターが次回の攻撃のときに所在しているグリッドとして表される。図１５に示すように、第２トレーニングタグは、操作の意図情報＋キャラクター位置情報である。即ち、「ジャングル＋座標Ａ」、「チームファイト＋座標Ｂ」及び「ファーム＋座標Ｃ」としてそれぞれ表される。

次に、本出願の実施形態において、第２トレーニングタグは、操作の意図情報及びキャラクター位置情報を含み、操作の意図情報はキャラクターとオブジェクトがインタラクトする目的を示し、キャラクター位置情報はキャラクターの第１領域における位置を示すことについて説明した。上記の方式により、操作の意図情報及びキャラクター位置情報を併用することで、人間のプレイヤの大局観を反映し、ＭＯＢＡゲームに大局観による策略決定は非常に重要であり、ソリューションのフィージビリティとオペラビリティを向上させる。

好ましくは、上記の図７に対応する実施形態を基に、本出願の実施形態で提供されるモデルトレーニングの方法の第４のオプション実施形態において、各トレーニング画像におけるトレーニング特徴セット、及び各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するステップは、
各トレーニング画像におけるトレーニング特徴セットを処理して、第１ターゲット特徴、第２ターゲット特徴及び第３ターゲット特徴を含むターゲット特徴セットを取得するステップと、
長短期記憶ＬＳＴＭ層により、ターゲット特徴セットに対応する第１予測タグ及び第２予測タグを取得するステップと、
各トレーニング画像の第１予測タグ、第１トレーニングタグ、第２予測タグ及び第２トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップと、
モデルコアパラメータに基づいてターゲットジョイントモデルを生成するステップとを含み、
第１予測タグは、予測によって得られた操作の内容に関するタグであり、
第２予測タグは、予測によって得られた操作の意図に関するタグであり、
第１予測タグと第２予測タグは、予測値に属し、
第１トレーニングタグと第２トレーニングタグとは、真の値に属する。

本実施形態において、トレーニングによりターゲットジョイントモデルが取得される概略プロセスについて説明し、理解を容易にするために、図１６を参照し、図１６は本出願の実施形態におけるターゲットジョイントモデルの１つのネットワークの構造概略図である。図１６に示すように、モデルの入力は現在フレームのトレーニング画像のトレーニング特徴セットであり、当該トレーニング特徴セットはミニマップクラス画像特徴（即ち、第１トレーニング特徴）、現在視野クラス画像特徴（即ち、第２トレーニング特徴）及びヒーローキャラクターのベクトル特徴（即ち、第３トレーニング特徴）を含む。クラス画像特徴は、それぞれ畳み込みネットワークを介し符号化され、ベクトル特徴は全結合ネットワークを介して符号化されてターゲット特徴セットを取得し、ターゲット特徴セットは第１ターゲット特徴、第２ターゲット特徴及び第３ターゲット特徴を含む。なお、第１ターゲット特徴は第１トレーニング特徴を処理して得られたものであり、第２ターゲット特徴は第２トレーニング特徴を処理して得られたものであり、第３ターゲット特徴は第３トレーニング特徴を処理して得られたものである。次に、ターゲット特徴セットを共通の符号化層に連結する。符号化層は長短期記憶（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）ネットワーク層に入力され、ＬＳＴＭネットワーク層は、主に、ヒーローの視野の一部が可視という問題を解決するために用いられる。

なお、ＬＳＴＭネットワークは、時間回帰型ニューラルネットワークであり、時間シーケンスにおける間隔及び遅延が相対的に長い重要なイベントの処理及び予測に適する。ＬＳＴＭは、回帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）との違いは、主に、アルゴリズムに情報が有用か否かを判断するプロセッサーを追加して、このプロセッサーが作用している構造はユニットと呼ばれる。１つのユニットに３つのゲートがセットされ、それぞれ、入力ゲート、忘却ゲート及び出力ゲートである。１つの情報はＬＳＴＭネットワーク層に入って、ルールに従って、有用か否かを判断することができ、アルゴリズム認証に合致した情報のみを残し、合致しない情報が忘却ゲートを介して忘却される。ＬＳＴＭは、長いシーケンス依存の問題を解決するための効果的な技術であり、この技術の普遍性は非常に高い。ＭＯＢＡゲームの場合、不可視の視野の問題が存在する可能性がある。つまり、当方のヒーローキャラクターは、当方のユニット（例えば、チームメイトのヒーローキャラクター）の近くにいる敵のヒーロー、モンスターとラインのみを観察することができ、他の位置にいる敵のユニットを観察することができず、敵のヒーローは芝生に隠れたり、ステルススキルを使用したりして、自分の視野を遮ることができる。この場合、モデルをトレーニングしている過程で情報の完全性を考慮するため、ＬＳＴＭネットワーク層を利用してこれらの非表示の情報を復元する必要がある。

ＬＳＴＭ層の出力結果により、当該フレームのトレーニング画像の第１予測タグ及び第２予測タグが得られる。手動によるマーキング結果により、当該フレームのトレーニング画像の第１トレーニングタグ及び第２トレーニングタグを特定するため、この場合、損失関数を利用して第１予測タグ及び第１トレーニングタグのうちの最小値を取得し、損失関数を利用して第２予測タグ及び第２トレーニングすべきタグのうちの最小値を取得してもい。最小値である場合に、モデルコアパラメータを特定する。なお、モデルコアパラメータは、微操作タスク（例えば、ボタン、移動、一般攻撃、スキル１、スキル２及びスキル３など）でのモデルパラメータ及び大局観タスクでのモデルパラメータを含む。モデルコアパラメータに基づいてターゲットジョイントモデルを生成する。

各出力タスクは、個別に演算されてもよく、即ち、各タスクの出力層全結合ネットワークパラメータは、当該タスクのみに影響されると理解すべきである。ターゲットジョイントモデルには、大局観による位置及び意図を予測する支援タスクが含まれ、当該大局観タスクの出力はカスケードで微操作タスクの符号化層に入力される。

なお、損失関数は、モデルの予測値と真の値との一致していない程度を推定するために用いられ、非負の実数値関数である。損失関数が小さければ小さいほど、識別モデルのロバスト性が良くなる。損失関数は経験的危険関数のコアであり、構造危険関数の重要な部分である。一般的な損失関数は、ヒンジ損失（ＨｉｎｇｅＬｏｓｓ）、クロスエントロピー損失（ＣｒｏｓｓＥｎｔｒｏｐｙＬｏｓｓ）、二乗損失（ＳｑｕａｒｅＬｏｓｓ）及び指数損失（ＥｘｐｏｎｅｎｔｉａｌＬｏｓｓ）を含むが、それらに限定されない。

次に、本出願の実施形態において、トレーニングによりターゲットジョイントモデルが取得されるプロセスを提供し、主に以下の内容を含む。まず、各トレーニング画像におけるトレーニング特徴セットを処理して、ターゲット特徴セットを取得し、次に、ＬＳＴＭにより、ターゲット特徴セットに対応する第１予測タグ及び第２予測タグを取得し、さらに、各トレーニング画像の第１予測タグ、第１トレーニングタグ、第２予測タグ及び第２トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得し、当該モデルコアパラメータはターゲットジョイントモデルを生成するために用いられる。上記の方式により、ＬＳＴＭ層により、一部の視野の観測不可問題を解決することができる。つまり、ＬＳＴＭ層は過去の一定期間のデータを取得するため、データをより完全にすることができ、モデルトレーニングプロセスでの推定及び策略決定に有利である。

好ましくは、上記の図７に対応する第４の実施形態を基に、本出願の実施形態で提供されるモデルトレーニングの方法の第５のオプション実施形態において、各トレーニング画像におけるトレーニング特徴セットを処理して、ターゲット特徴セットを取得するステップは、全結合層により、各トレーニング画像における第３トレーニング特徴を処理して、一次元ベクトル特徴である第３ターゲット特徴を取得するステップと、畳み込み層により、各トレーニング画像における第２トレーニング特徴を処理して、一次元ベクトル特徴である第２ターゲット特徴を取得するステップと、畳み込み層により、各トレーニング画像における第１トレーニング特徴を処理して、一次元ベクトル特徴である第１ターゲット特徴を取得するステップとを含んでもよい。

本実施形態において、モデルから入力される各フレームのトレーニング画像のトレーニング特徴セットをどのように処理するかについて説明し、当該トレーニング特徴セットには、ミニマップクラス画像特徴（即ち、第１トレーニング特徴）、現在視野クラス画像特徴（即ち、第２トレーニング特徴）及びヒーローキャラクターのベクトル特徴（即ち、第３トレーニング特徴）が含まれる。例示として、第３トレーニング特徴についての処理方式は、第３トレーニング特徴をＦＣ層に入力し、ＦＣ層を介して出力し、第３ターゲット特徴を取得する。ＦＣ層の作用は、分散型の特徴表現をサンプルマーキング空間にマッピングすることである。ＦＣ層の各ノードは前の層の全てのノードと接続され、前に抽出された特徴を統合するために用いられる。全接続の特性によって、通常の場合に、全結合層のパラメータも最も多い。

第１トレーニング特徴及び第２トレーニング特徴についての処理方式は、その両方をそれぞれ畳み込み層に入力し、畳み込み層を介して第１トレーニング特徴に対応する第１ターゲット特徴を出力し、第２トレーニング特徴に対応する第２ターゲット特徴を出力する。畳み込み層により、元の画像を平らにし（ｆｌａｔ）、画像データについて、１つの画素は、上、下、左、右などの方向のデータと大きな関連性があり、全結合の場合、データを展開した後に、ピクチャの関連性が無視され易く、又は関連のない二つの画素を強制的に関連することがある。従って、画像データに対して畳み込み処理を行う必要がある。第１トレーニング特徴に対応する画像の画素が１０×１０であると仮定して、畳み込み層を通じて得られた第１ターゲット特徴は１００次元のベクトル特徴である。第２トレーニング特徴に対応する画像画素が１０×１０であると仮定して、畳み込み層を通じて得られた第２ターゲット特徴は１００次元のベクトル特徴である。第３トレーニング特徴に対応する第３ターゲット特徴が１０次元のベクトル特徴であると仮定して、連結（ｃｏｎｃａｔ）層を通じて２１０（１００＋１００＋１０）のベクトル特徴を取得することができる。

また、本出願の実施形態において、さらに、トレーニング特徴セットを処理してもよい。即ち、全結合層により各トレーニング画像における第１トレーニング特徴を処理して、第１ターゲット特徴を取得し、畳み込み層により各トレーニング画像における第２トレーニング特徴を処理して、第２ターゲット特徴を取得し、畳み込み層により各トレーニング画像における第３トレーニング特徴を処理して、第３ターゲット特徴を取得してもよい。上記の方式により、すべてが一次元ベクトルである特徴群を取得することができるため、これらのベクトル特徴に対して連結処理を行うことができ、後続のモデルトレーニングに便利であり、ソリューションのフィージビリティとオペラビリティの向上に有利である。

好ましくは、上記の図７に対応する第４の実施形態を基に、本出願の実施形態で提供されるモデルトレーニングの方法の第６のオプション実施形態において、長短期記憶ＬＳＴＭ層により、ターゲット特徴セットに対応する第１予測タグ及び第２予測タグを取得するステップは、
長短期記憶ＬＳＴＭ層により、ターゲット特徴セットに対応する第１予測タグ、第２予測タグ、及び、予測によって得られた勝敗の状況に関するタグである第３予測タグを取得するステップを含み、
各トレーニング画像の第１予測タグ、第１トレーニングタグ、第２予測タグ及び第２トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップは、
各トレーニング画像に対応する、実際の勝敗の状況を示すための第３トレーニングタグを取得するステップと、
第１予測タグ、第１トレーニングタグ、第２予測タグ、第２トレーニングタグ、第３予測タグ及び第３トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップとを含んでもよく、
第３トレーニングタグは、予測値に属し、第３予測タグは、真の値に属する。

本実施形態において、さらに、ターゲットジョイントモデルは勝敗の状況をさらに予測することができることについて説明した。例示として、上記の図７に対応する第４の実施形態を基に、ＬＳＴＭ層の出力結果に基づいて当該フレームのトレーニング画像の第３トレーニングタグを取得することができる。手動によるマーキング結果に応じて、当該フレームのトレーニング画像の第３予測タグ及び第３トレーニングタグを特定するため、この場合、損失関数を利用して第３予測タグと、第３トレーニングタグとのうちの最小値を取得し、最小値である場合、モデルコアパラメータを特定する。この場合、モデルコアパラメータは、微操作タスク（例えば、ボタン、移動、一般攻撃、スキル１、スキル２及びスキル３など）でのモデルパラメータ及び大局観タスクでのモデルパラメータのみならず、同時に勝敗タスクでのモデルパラメータを含み得、最後に、モデルコアパラメータに応じてターゲットジョイントモデルを生成する。

また、本出願の実施形態において、ターゲットジョイントモデルが勝敗に関するタグをさらにトレーニングし、即ち、サーバーはＬＳＴＭ層によりターゲット特徴セットに対応する第１予測タグ、第２予測タグ、及び予測により得られた勝敗の状況に関するタグである第３予測タグを取得し、次に、各トレーニング画像に対応する第３トレーニングタグ取得し、最後に、第１予測タグ、第１トレーニングタグ、第２予測タグ、第２トレーニングタグ、第３予測タグ及び第３トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得する。上記の方式により、ターゲットジョイントモデルは、ゲームの勝率を予測することもできる。それによって状況の認知と学習を強化することができ、モデルアプリケーションの信頼性と多様性を向上させる。

好ましく、上記の図７及び図７に対応する第１〜第６実施形態のいずれかを基に、本出願の実施形態で提供されるモデルトレーニングの方法の第７のオプション実施形態において、各トレーニング画像におけるトレーニング特徴セット、各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
ターゲットジョイントモデルによりトレーニングビデオに対応する、ターゲットシナリオでの関連データを含むターゲットシナリオデータを取得するステップと、
ターゲットシナリオデータ、第１トレーニングタグ及び第１予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップと、
ターゲットモデルパラメータを利用してターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップをさらに含んでもよく、
第１予測タグは、予測により得られた操作の内容に関するタグであり、第１予測タグが予測値に属し、第１トレーニングタグが真の値に属する。

本実施形態において、ＭＯＢＡゲームのプレイヤが非常に多くて、通常、大量の人間のプレイヤデータは教師あり学習トレーニングに使用されることができる。これにより、モデルにより人間の操作をシミュレーションする。しかしながら、人間の緊張や集中力の欠如などのさまざまな要因、例えば、スキルリリースの方向のずれや敵の回避のスキルの遅れなどによる誤操作が存在し、トレーニングデータに不良サンプルが存在する。それに鑑み、本出願は、強化学習を強化することでターゲットジョイントモデルにおける一部のタスク層を最適化する。例えば、微操作ＦＣ層に対して強化学習を行わず、大局観ＦＣ層のみに対して強化学習を行う。

理解を容易にするために、図１７を参照し、図１７は本出願の実施形態における強化ジョイントモデルの１つのシステムの構造概略図であり、図１７に示すように、ターゲットジョイントモデルは、ジョイントモデル、大局観ＦＣ層及び微操作ＦＣ層を含む。ジョイントモデルにおける符号化層及び大局観ＦＣ層は、既に教師あり学習により相応するコアモデルパラメータを取得したものである。なお、強化学習のプロセスにおいて、ジョイントモデルにおける符号化層及び大局観ＦＣ層のコアモデルパラメータはそのままであり、このように、強化学習の場合、特徴表現を学習する必要がないため、強化学習の収束速度が速くなる。チームファイトシナリオで微操作タスク策略決定ステップの数が平均的に１００ステップ（約２０秒）であり、策略決定ステップの数を効果的に削減することができる。微操作ＦＣ層を強化することで、ＡＩのスキルヒット率及び敵の回避のスキルなどの重要な能力を向上させることができる。微操作ＦＣ層は強化学習アルゴリズムを利用してトレーニングし、アルゴリズムは、具体的に、深層強化学習（ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎ、ＰＰＯ）アルゴリズムであってもよい。

以下、強化学習の流れについて説明する。
ステップ１において、トレーニングしてターゲットジョイントモデルを取得した後に、サーバーは、教師あり学習により得られたターゲットジョイントモデルをロードし、ジョイントモデルの符号化層及び微操作ＦＣ層を固定し、ゲーム環境をロードする必要がある。

ステップ２において、トレーニングビデオを取得する。なお、トレーニングビデオは複数フレームのインタラクション画像を含み、ターゲットジョイントモデルによりトレーニングビデオにおける起始フレームからバトルを開始し、ヒーローチームファイトシナリオのターゲットシナリオデータを保存し、ターゲットシナリオデータは特徴、動作、奨励信号及びジョイントモデルネットワーク出力の確率分布を含み得る。なお、特徴はヒーローの属性のベクトル特徴、ミニマップクラス画像特徴及び現在視野クラス画像特徴である。動作は、プレイヤがヒーローキャラクターを制御する場合に利用するボタンである。奨励信号は、ヒーローキャラクターがチームファイト中に敵のヒーローキャラクターを殺した回数である。ジョイントモデルネットワークによって出力される確率分布は、微操作タスクの各タグの分布確率として表すことができ、例えば、タグ１の分布確率が０．１、タグ２の分布確率が０．３、タグ３の分布確率が０．６である。

ステップ３において、ターゲットシナリオデータ、第１トレーニングタグ及び第１予測タグに応じて、トレーニングしてターゲットモデルパラメータを取得し、ＰＰＯアルゴリズムを利用してターゲットジョイントモデルにおけるコアモデルパラメータを更新する。なお、ここで、微操作ＦＣ層のモデルパラメータのみを更新する。つまり、第１トレーニングタグ及び第１予測タグに基づいて更新後のモデルパラメータを生成する。なお、第１トレーニングタグ及び第１予測タグはどちらも微操作タスクに関するタグである。

ステップ４において、トレーニングビデオの各フレーム画像に対してステップ２からステップ４までの処理を行い、最大反復フレーム数に達していないと、更新されたターゲットジョイントモデルをバトル環境に送信し、ステップ２に戻る。最大反復フレーム数に達すると、ステップ５に進む。最大反復フレーム数は、経験に基づいて設定されてもよいし、シナリオに基づいて設定されてもよく、本出願の実施形態において、それを限定しない。

ステップ５において、最終的に強化した後に得られた強化ジョイントモデルを保存する。

さらに、本出願の実施形態において、さらに強化学習によりターゲットジョイントモデルにおける一部のタスク層を最適化し、微操作タスクのこの一部を強化する必要がある場合、サーバーはトレーニングビデオを取得する。次に、ターゲットジョイントモデルによりトレーニングビデオに対応するターゲットシナリオデータを取得し、ターゲットシナリオデータ、第１トレーニングタグ及び第１予測タグに基づいて、トレーニングしてターゲットモデルパラメータを取得する。最後に、サーバーは、ターゲットモデルパラメータを利用してターゲットジョイントモデルを更新することで、強化ジョイントモデルを取得する。上記の方式により、微操作ＦＣ層を強化することで、ＡＩ能力を向上でき、また、強化学習は、人間の緊張や集中力の欠如などのさまざまな要因による誤操作の問題を克服することもできる。これにより、トレーニングデータに存在する不良サンプルの数を大幅に減少し、さらに、モデルの信頼性、及びモデルによる予測の精度を向上する。強化学習方法は、シナリオの一部のみを強化するため、策略決定ステップの数を削減し、収束速度が速くなる。

好ましく、上記の図７及び図７に対応する第１〜第７の実施形態のいずれかを基に、本出願の実施形態で提供されるモデルトレーニングの方法の第８のオプション実施形態において、各トレーニング画像におけるトレーニング特徴セット、各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
ターゲットジョイントモデルによりトレーニングビデオに対応するターゲットシナリオでの関連データを含むターゲットシナリオデータを取得するステップと、
ターゲットシナリオデータ、第２トレーニングタグ及び第２予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップと、
ターゲットモデルパラメータを利用してターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップとをさらに含んでもよく、
第２予測タグは、予測により得られた操作の意図に関するタグであり、
第２予測タグは、予測値に属し、第２トレーニングタグは、真の値に属する。

本実施形態において、ＭＯＢＡゲームのプレイヤが非常に多いため、通常、大量の人間のプレイヤデータが教師あり学習トレーニングに使用される。これにより、モデルにより人間の操作をシミュレーションする。しかしながら、人間の緊張や集中力の欠如などのさまざまな要因、例えば、スキルリリースの方向のずれや敵の回避のスキルの遅れなどによって誤操作が存在し、トレーニングデータに不良サンプルが存在する。それに鑑み、本出願は、強化学習を強化することでターゲットジョイントモデルにおける一部のタスク層を最適化する。例えば、微操作ＦＣ層に対して強化学習を行わず、大局観ＦＣ層のみに対して強化学習を行う。

理解を容易にするために、図１８を参照し、図１８は本出願の実施形態における強化ジョイントモデルの他のシステムの構造概略図であり、図１８に示すように、ターゲットジョイントモデルは、ジョイントモデル、大局観ＦＣ層及び微操作ＦＣ層を含む。ジョイントモデルにおける符号化層及び微操作ＦＣ層は、既に教師あり学習により相応するコアモデルパラメータを取得したものである。なお、強化学習のプロセスにおいて、ジョイントモデルにおける符号化層及び微操作ＦＣ層のコアモデルパラメータはそのままである。このように、強化学習の場合に、特徴表現を学習する必要がないため、強化学習の収束速度が速くなる。大局観ＦＣ層を強化することで、ＡＩのマクロ策略決定能力を向上することができる。大局観ＦＣ層は強化学習アルゴリズムを利用してトレーニングし、アルゴリズムは、ＰＰＯ（ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎ：近傍方策最適化）アルゴリズムや、深層強化学習（Ａｃｔｏｒ−Ｃｒｉｔｉｃ）アルゴリズムであってもよい。

以下、強化学習の流れを説明する。
ステップ１において、トレーニングしてターゲットジョイントモデルを取得した後に、サーバーは、教師あり学習により得られたターゲットジョイントモデルをロードし、ジョイントモデルの符号化層及び微操作ＦＣ層を固定し、ゲーム環境をロードする必要がある。

ステップ２において、トレーニングビデオを取得する。なお、トレーニングビデオは複数フレームのインタラクション画像を含み、ターゲットジョイントモデルによりトレーニングビデオにおける起始フレームからバトルを開始し、ヒーローチームファイトシナリオのターゲットシナリオデータを保存し、ターゲットシナリオデータは「ジャングル」、「ファーム」、「チームファイト」及び「トップリングタワー」などのシナリオでのデータを含む。

ステップ３において、ターゲットシナリオデータ、第２トレーニングタグ及び第２予測タグに応じて、トレーニングしてターゲットモデルパラメータを取得し、Ａｃｔｏｒ−Ｃｒｉｔｉｃアルゴリズムを利用してターゲットジョイントモデルにおけるコアモデルパラメータを更新する。なお、ここで、大局観ＦＣ層のモデルパラメータのみを更新し、つまり、第２トレーニングタグ及び第２予測タグに応じて更新後のモデルパラメータを生成する。なお、第２トレーニングタグ及び第２予測タグはどちらも大局観タスクに関するタグである。

ステップ４において、トレーニングビデオの各フレーム画像に対してステップ２からステップ４までの処理を行い、最大反復フレーム数に達していないと、更新されたターゲットジョイントモデルをバトル環境に送信し、ステップ２に戻る。最大反復フレーム数に達すると、ステップ５に進む。

さらに、本出願の実施形態において、さらに強化学習によりターゲットジョイントモデルにおける一部のタスク層を最適化し、当該タスクのこの一部を強化する必要がある場合、サーバーはトレーニングビデオを取得する。次に、ターゲットジョイントモデルによりトレーニングビデオに対応するターゲットシナリオデータを取得し、ターゲットシナリオデータ、第２トレーニングタグ及び第２予測タグに応じて、トレーニングしてターゲットモデルパラメータを取得する。最後に、サーバーは、ターゲットモデルパラメータを利用してターゲットジョイントモデルを更新することで、強化ジョイントモデルを取得する。上記の方式により、大局観ＦＣ層を強化することで、ＡＩ能力を向上できる。また、強化学習は、人間の緊張や集中力の欠如などのさまざまな要因によって存在する誤操作の問題を克服することもでき、これにより、トレーニングデータに存在する不良サンプルの数を大幅に減少し、さらに、モデルの信頼性、及びモデルによる予測の精度を向上する。強化学習方法は、シナリオの一部のみを強化するため、策略決定ステップの数を削減し、収束速度が速くなる。

以下、本出願におけるサーバーについて詳細に説明し、図１９を参照し、図１９は本出願の実施形態におけるサーバーの一実施形態の概略図であり、サーバー３０は、
予測画像を取得する取得モジュール３０１と、
取得モジュール３０１によって取得された前記予測画像における予測特徴セットを抽出する抽出モジュール３０２とを含み、
なお、前記予測特徴セットには、第１領域の画像特徴を示す第１予測特徴、前記第１領域よりも範囲が小さい第２領域の画像特徴を示す第２予測特徴、及び、インタラクション操作に関する属性特徴を示す第３予測特徴が含まれ、
取得モジュール３０１は、さらに、ターゲットジョイントモデルにより、抽出モジュール３０２によって抽出された前記予測特徴セットに対応する第１タグ及び第２タグを取得するために利用される。なお、前記第１タグは操作の内容に関するタグであり、前記第２タグは操作の意図に関するタグである。

本実施形態において、取得モジュール３０１は、予測画像を取得し、抽出モジュール３０２は取得モジュール３０１によって取得された前記予測画像における予測特徴セットを抽出する。なお、前記予測特徴セットは第１予測特徴、第２予測特徴及び第３予測特徴を含み、前記第１予測特徴が第１領域の画像特徴を示し、前記第２予測特徴が第２領域の画像特徴を示し、前記第３予測特徴がインタラクション操作に関する属性特徴を示し、前記第１領域の範囲が前記第２領域の範囲よりも小さい。取得モジュール３０１は、ターゲットジョイントモデルにより、抽出モジュール３０２によって抽出された前記予測特徴セットに対応する第１タグ及び第２タグを取得する。なお、前記第１タグは操作の内容に関するタグであり、前記第２タグは操作の意図に関するタグである。

本出願の実施形態において、サーバーを提供し、まず、当該サーバーは、予測画像を取得し、次に、予測画像における予測特徴セットを抽出する。なお、予測特徴セットには第１予測特徴、第２予測特徴及び第３予測特徴が含まれ、第１予測特徴は、第１領域の画像特徴を示し、第２予測特徴は、第２領域の画像特徴を示し、第３予測特徴は、インタラクション操作に関する属性特徴を示し、第１領域の範囲が第２領域の範囲よりも小さい。最後に、サーバーは、ターゲットジョイントモデルにより予測画像に対応する第１タグ及び第２タグを取得することができる。なお、第１タグは操作の内容に関するタグであり、第２タグは操作の意図に関するタグである。上記の方式により、１つのジョイントモデルを使用するだけで微操作及び大局観を予測することができる。なお、微操作の予測結果は、第１タグとして示され、大局観の予測結果は、第２タグとして示される。従って、大局観モデル及び微操作モデルを１つのジョイントモデルにマージし、階層化モデルでのハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。

好ましく、上記の図１９に対応する実施形態を基に、本出願の実施形態で提供されるサーバー３０の他の実施形態において、前記取得モジュール３０１は、前記ターゲットジョイントモデルにより前記予測特徴セットに対応する前記第１タグ、前記第２タグ及び第３タグを取得するために用いられる。なお、前記第３タグは、勝敗の状況に関するタグである。

次に、本出願の実施形態において、ターゲットジョイントモデルは、第１タグ及び第２タグを出力できるだけでなく、さらに、第３タグを出力でき、即ち、ターゲットジョイントモデルは予測勝敗の状況を予測することもできる。上記の方式により、実際のアプリケーションにおいて、状況の結果をより良く予測でき、予測の信頼性の向上に寄与し、予測の柔軟性と実用性を向上させる。

以下、本出願におけるサーバーについて詳細に説明し、図２０を参照し、図２０は本出願の実施形態におけるサーバーの一実施形態の概略図であり、サーバー４０は、
Ｎ個（Ｎは１以上の整数）のトレーニング画像を含むトレーニング画像セットを取得する取得モジュール４０１と、
取得モジュール４０１によって取得された各トレーニング画像におけるトレーニング特徴セットを抽出する抽出モジュール４０２と、
抽出モジュール４０２によって抽出された前記各トレーニング画像における前記トレーニング特徴セット、前記取得モジュール４０１によって取得された前記各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグに応じて、トレーニングしてターゲットジョイントモデルを取得するトレーニングモジュール４０３とを含み、
なお、前記トレーニング特徴セットには、第１領域の画像特徴を示す第１トレーニング特徴、前記第１領域よりも範囲が大きい第２領域の画像特徴を示す第２トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第３トレーニングすべき特徴が含まれ、
取得モジュール４０１は、さらに、前記各トレーニング画像に対応する前記第１トレーニングタグ及び前記第２トレーニングタグを取得するために用いられる。なお、前記第１トレーニングタグは操作の内容に関するタグであり、前記第２トレーニングタグは操作の意図に関するタグである。
に用いられる。

本実施形態において、取得モジュール４０１はトレーニング画像セットを取得する。なお、前記トレーニング画像セットはＮ個のトレーニング画像を含み、前記Ｎは１以上の整数であり、抽出モジュール４０２は、取得モジュール４０１によって取得された各トレーニング画像におけるトレーニング特徴セットを抽出する。なお、前記トレーニング特徴セットは、第１トレーニング特徴、第２トレーニング特徴及び第３トレーニング特徴を含み、前記第１トレーニング特徴が第１領域の画像特徴を示し、前記第２トレーニング特徴が第２領域の画像特徴を示し、前記第３トレーニング特徴がインタラクション操作に関する属性特徴を示し、前記第１領域の範囲が前記第２領域の範囲よりも小さい。取得モジュール４０１は、前記各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグを取得する。なお、前記第１トレーニングタグは、操作の内容に関するタグであり、前記第２トレーニングタグは操作の意図に関するタグであり、トレーニングモジュール４０３は、抽出モジュール４０２によって抽出された前記各トレーニング画像における前記トレーニング特徴セット、取得モジュール４０１によって取得された前記各トレーニング画像に対応する前記第１トレーニングタグ及び前記第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得する。

本出願の実施形態において、サーバーを説明し、まず、サーバーはトレーニング画像セットを取得し、次に、各トレーニング画像におけるトレーニング特徴セットを抽出する。なお、トレーニング特徴セットは、第１トレーニング特徴、第２トレーニング特徴及び第３トレーニング特徴を含む。次に、サーバーは、各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグを取得し、最後に、各トレーニング画像におけるトレーニング特徴セット、各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグに応じて、トレーニングしてターゲットジョイントモデルを取得する必要がある。上記の方式により、微操作及び大局観を同時に予測できるモデルを設計することにより、大局観モデル及び微操作モデルを１つのジョイントモデルにマージし、階層化モデルでのハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。同時に、大局観タスクを考慮することで、マクロ策略決定の精度を効果的に向上し、特に、ＭＯＢＡゲームにおいて、大局観による策略決定は非常に重要である。

好ましくは、上記の図２０に対応する実施形態を基に、本出願の実施形態で提供されるサーバー４０の他の実施形態において、前記第１トレーニング特徴は二次元ベクトル特徴であり、前記第１トレーニング特徴は、前記第１領域でのキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報及び防御オブジェクト位置情報の少なくとも１つを含み、
前記第２トレーニング特徴は二次元ベクトル特徴であり、前記第２トレーニング特徴は、前記第２領域でのキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報、防御オブジェクト位置情報、障碍オブジェクト位置情報及び出力オブジェクト位置情報の少なくとも１つを含み、
前記第３トレーニング特徴は一次元ベクトル特徴であり、前記第３トレーニング特徴は、キャラクターヒットポイント、キャラクター出力値、時間情報及びスコア情報の少なくとも１つを含み、
前記第１トレーニング特徴と、前記第２トレーニング特徴と、前記第３トレーニング特徴との間に対応関係がある。

次に、本出願の実施形態において、３種類のトレーニング特徴の内容について説明し、第１トレーニング特徴は二次元ベクトル特徴であり、第２トレーニング特徴は二次元ベクトル特徴であり、第３トレーニング特徴は一次元ベクトル特徴である。上記の方式により、一方で、３種類のトレーニング特徴に含まれる具体的な情報を特定でき、これにより、より多い情報量を取得しモデルトレーニングに使用する。他方で、第１トレーニング特徴及び第２トレーニング特徴は二次元ベクトル特徴であるため、特徴の空間表現の向上に有利であり、特徴の多様性を増加させる。

好ましく、上記の図２０に対応する実施形態を基に、出願の実施形態で提供されるサーバー４０の他の実施形態において、前記第１トレーニングタグは、ボタンタイプ情報及び／又はボタンパラメータ情報を含み、
前記ボタンパラメータ情報は方向パラメータ、位置パラメータ及びターゲットパラメータの少なくとも１つを含み、前記方向パラメータは、キャラクターが移動する方向を示すために用いられ、前記位置パラメータは、前記キャラクターの所在する位置を示すために用いられ、前記ターゲットパラメータは、前記キャラクターの出力すべきオブジェクト示すために用いられる。

次に、本出願の実施形態において、第１トレーニングタグはボタンタイプ情報及び／又はボタンパラメータ情報を含み、ボタンパラメータ情報が方向パラメータ、位置パラメータ及びターゲットパラメータの少なくとも１つを含み、方向パラメータがキャラクターの移動する方向を示すために用いられ、位置パラメータがキャラクターの所在している位置を示すために用いられ、ターゲットパラメータがキャラクターの出力すべきオブジェクトを示すために用いられることについて説明した。上記の方式により、第１トレーニングタグの内容をより洗練させ、階層的にタグを作成することで、ゲーム中の人間のプレイヤの実際の操作の意図に近づけることができ、ＡＩの学習能力の向上に有利である。

好ましく、上記の図２０に対応する実施形態を基に、本出願の実施形態で提供されるサーバー４０の他の実施形態において、前記第２トレーニングタグは操作の意図情報及びキャラクター位置情報を含み、
前記操作の意図情報は、キャラクターとオブジェクトとがインタラクションする目的を示し、前記キャラクター位置情報が前記キャラクターの前記第１領域における位置を示す。

次に、本出願の実施形態において、第２トレーニングタグは操作の意図情報及びキャラクター位置情報を含み、操作の意図情報は、キャラクターとオブジェクトとがインタラクションする目的を示し、キャラクター位置情報はキャラクターの第１領域における位置を示すことについて説明した。上記の方式により、操作の意図情報及びキャラクター位置情報を併用することで人間のプレイヤの大局観を反映し、ＭＯＢＡゲームに大局観による策略決定は非常に重要であり、ソリューションのフィージビリティとオペラビリティを向上させる。

好ましく、上記の図２０に対応する実施形態を基に、本出願の実施形態で提供されるサーバー４０の他の実施形態において、トレーニングモジュール４０３は、以下のステップを実行するために利用されてもよい。即ち、前記各トレーニング画像における前記トレーニング特徴セットを処理して、第１ターゲット特徴、第２ターゲット特徴及び第３ターゲット特徴を含むターゲット特徴セットを取得するステップと、
長短期記憶ＬＳＴＭ層により、前記ターゲット特徴セットに対応する第１予測タグ及び第２予測タグを取得するステップと、
前記各トレーニング画像の前記第１予測タグ、前記第１トレーニングタグ、前記第２予測タグ及び前記第２トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップと
前記モデルコアパラメータに基づいて前記ターゲットジョイントモデルを生成するステップとを含み、
前記第１予測タグは、予測によって得られた操作の内容に関するタグであり、
前記第２予測タグは、予測によって得られた操作の意図に関するタグであり、
前記第１予測タグと前記第２予測タグとは、予測値に属し、前記第１トレーニングタグと前記第２トレーニングタグとは、真の値に属する。

次に、本出願の実施形態において、トレーニングによりターゲットジョイントモデルを取得するプロセスを提供し、主に以下のステップを含む。まず、各トレーニング画像におけるトレーニング特徴セットを処理して、ターゲット特徴セットを取得するステップである。次に、ＬＳＴＭにより、ターゲット特徴セットに対応する第１予測タグ及び第２予測タグを取得するステップである。さらに、各トレーニング画像の第１予測タグ、第１トレーニングタグ、第２予測タグ及び第２トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップである。当該モデルコアパラメータはターゲットジョイントモデルを生成するために用いられる。上記の方式により、ＬＳＴＭ層により、一部の視野の観測不可の問題を解決することができる。つまり、ＬＳＴＭ層は過去の一定期間のデータを取得することができるため、データをより完全にすることができ、モデルトレーニングプロセス中の推定と策略決定に有利である。

好ましく、上記の図２０に対応する実施形態を基に、本出願の実施形態で提供されるサーバー４０の他の実施形態において、トレーニングモジュール４０３は、以下のステップを実行するために利用されてもよい。即ち、全結合層により、前記各トレーニング画像における前記第３トレーニング特徴を処理することで、一次元ベクトル特徴である前記第３ターゲット特徴を取得するステップと、
畳み込み層により、前記各トレーニング画像における前記第２トレーニング特徴を処理して、一次元ベクトル特徴である前記第２ターゲット特徴を取得するステップと、
前記畳み込み層により、前記各トレーニング画像における前記第１トレーニング特徴を処理して、一次元ベクトル特徴である前記第１ターゲット特徴を取得するステップとを含む。

再び、本出願の実施形態において、さらに、トレーニング特徴セットを処理し、即ち、全結合層により各トレーニング画像における第１トレーニング特徴を処理して、第１ターゲット特徴を取得し、畳み込み層により各トレーニング画像における第２トレーニング特徴を処理して、第２ターゲット特徴を取得し、畳み込み層により各トレーニング画像における第３トレーニング特徴を処理して、第３ターゲット特徴を取得してもよい。上記の方式により、すべてが一次元のベクトルである特徴群を取得することができるため、これらのベクトル特徴に対して連結処理を行うことができ、後続のモデルトレーニングに便利であり、ソリューションのフィージビリティとオペラビリティの向上に有利である。

好ましく、上記の図２０に対応する実施形態を基に、本出願の実施形態で提供されるサーバー４０の他の実施形態において、トレーニングモジュール４０３は、以下のステップを実行するために利用されてもよい。即ち、長短期記憶ＬＳＴＭ層により前記ターゲット特徴セットに対応する第１予測タグ、第２予測タグ、及び予測して得られた勝敗の状況に関するタグである第３予測タグを取得するステップと、
前記各トレーニング画像に対応する、実際の勝敗の状況を示すための第３トレーニングタグを取得するステップと、
前記第１予測タグ、前記第１トレーニングタグ、前記第２予測タグ、前記第２トレーニングタグ、前記第３予測タグ及び前記第３トレーニングタグに基づいてトレーニングして前記モデルコアパラメータを取得するステップとを含み、
前記第３トレーニングタグは、予測値に属し、前記第３予測タグは、真の値に属する。

再び、本出願の実施形態において、ターゲットジョイントモデルが勝敗に関するタグをさらにトレーニングする。即ち、サーバーはＬＳＴＭ層によりターゲット特徴セットに対応する第１予測タグ、第２予測タグ、及び予測により得られた勝敗の状況に関するタグである第３予測タグを取得し、次に、各トレーニング画像に対応する第３トレーニングタグ取得し、最後に、第１予測タグ、第１トレーニングタグ、第２予測タグ、第２トレーニングタグ、第３予測タグ及び第３トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得する。上記の方式により、ターゲットジョイントモデルは、ゲームの勝率を予測することもでき、それによって状況の認知と学習を強化することができ、モデルアプリケーションの信頼性と多様性を向上させる。

好ましく、上記の図２０に対応する実施形態を基に、図２１を参照し、本出願の実施形態で提供されるサーバー４０の他の実施形態において、サーバー４０は更新モジュール４０４をさらに含み、
取得モジュール４０１は、さらに、トレーニングモジュール４０３が前記各トレーニング画像における前記トレーニング特徴セット、前記各トレーニング画像に対応する前記第１トレーニングタグ及び前記第２トレーニングタグに応じて、トレーニングしてターゲットジョイントモデルを取得した後に、複数フレームのインタラクション画像を含むトレーニングビデオを取得するために用いられる。
取得モジュール４０１は、さらに、前記ターゲットジョイントモデルにより前記トレーニングビデオに対応するターゲットシナリオデータを取得するために用いられ、前記ターゲットシナリオデータはターゲットシナリオでの関連データを含む。
トレーニングモジュール４０３は、さらに、取得モジュール４０１によって取得された前記ターゲットシナリオデータ、前記第１トレーニングタグ及び第１予測タグに応じて、トレーニングしてターゲットモデルパラメータを取得するために用いられる、前記第１予測タグは予測して得られた操作の内容に関するタグを示し、前記第１予測タグは予測値に属し、前記第１トレーニングタグは真の値に属する。
更新モジュール４０４は、トレーニングモジュール４０３がトレーニングして得られた前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新することで、強化ジョイントモデルを取得するために用いられる。

さらに、本出願の実施形態において、さらに強化学習によりターゲットジョイントモデルにおける一部のタスク層を最適化し、微操作タスクのこの一部を強化する必要があれば、サーバーはトレーニングすべきビデオを取得する。次に、ターゲットジョイントモデルによりトレーニングすべきビデオに対応するターゲットシナリオデータを取得し、ターゲットシナリオデータ、第１トレーニングすべきタグ及び第１予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得する。最後に、サーバーは、ターゲットモデルパラメータを利用してターゲットジョイントモデルを更新して、強化ジョイントモデルを取得する。上記の方式により、微操作ＦＣ層を強化することで、ＡＩ能力を向上される。また、強化学習は、人間の緊張や集中力の欠如などのさまざまな要因による誤操作の問題を克服することもできる。これにより、トレーニングデータに存在する不良サンプルの数を大幅に減少し、さらに、モデルの信頼性、及びモデルによる予測の精度を向上する。強化学習方法は、シナリオの一部のみを強化可能であるため、策略決定ステップの数を削減し、収束速度が速くなる。

好ましく、上記の図２０に対応する実施形態を基に、再び図２１を参照し、本出願の実施形態で提供されるサーバー４０の他の実施形態において、サーバー４０は更新モジュール４０４をさらに含み、
取得モジュール４０１は、さらに、トレーニングモジュール４０３が前記各トレーニング画像における前記トレーニング特徴セット、前記各トレーニング画像に対応する前記第１トレーニングタグ及び前記第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、トレーニングビデオを取得するために用いられる。なお、前記トレーニングビデオは、複数フレームのインタラクション画像を含む。
取得モジュール４０１は、さらに、前記ターゲットジョイントモデルにより前記トレーニングビデオに対応するターゲットシナリオデータを取得するために用いられ、前記ターゲットシナリオデータはターゲットシナリオにおける関連データを含む。
トレーニングモジュール４０３は、さらに、取得モジュール４０１によって取得された前記ターゲットシナリオデータ、前記第２トレーニングタグ及び第２予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するために用いられる。なお、前記第２予測タグは予測によって得られた操作の意図に関するタグであり、前記第２予測タグは予測値に属し、前記第２トレーニングタグは真の値に属する。
更新モジュール４０４は、トレーニングモジュール４０３がトレーニングして得られた前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するために用いられる。

さらに、本出願の実施形態において、さらに強化学習によりターゲットジョイントモデルにおける一部のタスク層を最適化し、当該タスクのこの一部を強化する必要がある場合に、サーバーはトレーニングビデオを取得する。次に、ターゲットジョイントモデルによりトレーニングビデオに対応するターゲットシナリオデータを取得し、ターゲットシナリオデータ、第２トレーニングタグ及び第２予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得する。最後に、サーバーは、ターゲットモデルパラメータを利用してターゲットジョイントモデルを更新して、強化ジョイントモデルを取得する。上記の方式により、大局観ＦＣ層を強化することで、ＡＩ能力が向上される。また、強化学習は、人間の緊張や集中力の欠如などのさまざまな要因による誤操作の問題を克服することもできる。これにより、トレーニングデータに存在する不良サンプルの数を大幅に減少し、さらに、モデルの信頼性、及びモデルによる予測の精度を向上する。強化学習方法は、シナリオの一部のみ強化可能であるため、策略決定ステップの数を削減し、収束速度が速くなる。

図２２は、本出願の実施形態で提供されるサーバーの構造概略図であり、当該サーバー５００は、配置又は性能によって大きく異なってもよく、１つ以上の中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ、ＣＰＵ）５２２（例えば、１つ以上のプロセッサー）と、メモリ５３２と、アプリケーション５４２又はデータ５４４を記憶する１つ以上の記憶媒体５３０（例えば、１つ以上の大容量記憶デバイス）とを含んでもよい。メモリ５３２及び記憶媒体５３０は、一時的な記憶又は永続的な記憶であってもよい。記憶媒体５３０に記憶されたプログラムは、１つ以上のモジュール（図示せず）を含んでもよく、各モジュールは、当該サーバーにおける一連の命令動作を含んでもよい。さらに、中央処理装置５２２は、記憶媒体５３０と通信し、サーバー５００において記憶媒体５３０における一連の命令動作を実行するように構成されてもよい。

サーバー５００は１つ以上の電源５２６、１つ以上の有線／無線ネットワークインタフェース５５０、１つ以上の入出力インタフェース５５８、及び／又は、ＷｉｎｄｏｗｓＳｅｒｖｅｒ（登録商標）、ＭａｃＯＳＸ（登録商標）、Ｕｎｉｘ（登録商標）、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤ（登録商標）などのような１つ以上のオペレーティングシステム５４１を更に含んでもよい。

上記の実施形態におけるサーバーによって実行されるステップは当該図２２に示されるサーバーの構造に基づいてもよい。

本出願の実施形態において、ＣＰＵ５２２は以下のステップを実行するために利用されてもよい。即ち、
予測画像を取得するステップと、
前記予測画像における予測特徴セットを抽出するステップと、
ターゲットジョイントモデルにより、前記予測特徴セットに対応する第１タグ及び／又は第２タグを取得するステップとを含み、
前記予測特徴セットには、第１領域の画像特徴を示す第１予測特徴、前記第１領域よりも範囲が大きい第２領域の画像特徴を示す第２予測特徴、及び、インタラクション操作に関する属性特徴を示す第３予測特徴が含まれ、
前記第１タグは、操作の内容に関するタグであり、
前記第２タグは、操作の意図に関するタグである。

好ましく、ＣＰＵ５２２は以下のステップを実行するために利用されてもよい。即ち、
前記ターゲットジョイントモデルにより、前記予測特徴セットに対応する前記第１タグ及び／又は前記第２タグ、及び勝敗の状況に関するタグである第３タグを取得するステップを含む。

本出願の実施形態において、ＣＰＵ５２２は以下のステップを実行するために利用されてもよい。即ち、
Ｎ個（Ｎは１以上の整数）のトレーニング画像を含むトレーニング画像セットを取得するステップと、
各トレーニング画像におけるトレーニング特徴セットを抽出するステップと、
前記各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグを取得するステップと、
前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記各トレーニング画像に対応する前記第１トレーニングタグ及び前記第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するステップとを含み、
前記トレーニング特徴セットには、第１領域の画像特徴を示す第１トレーニング特徴、前記第１領域よりも範囲が大きい第２領域の画像特徴を示す第２トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第３トレーニング特徴が含まれ、
前記第１トレーニングタグは、操作の内容に関するタグであり、
前記第２トレーニングタグは、操作の意図に関するタグである。

好ましくは、ＣＰＵ５２２は以下のステップを実行するために利用されてもよい。即ち、
前記各トレーニング画像における前記トレーニング特徴セットを処理して、第１ターゲット特徴、第２ターゲット特徴及び第３ターゲット特徴を含むターゲット特徴セットを取得するステップと、
長短期記憶ＬＳＴＭ層により、前記ターゲット特徴セットに対応する第１予測タグ及び第２予測タグを取得するステップと、
前記各トレーニング画像の前記第１予測タグ、前記第１トレーニングタグ、前記第２予測タグ及び前記第２トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップと、
前記モデルコアパラメータに基づいて前記ターゲットジョイントモデルを生成するステップとを含み、
前記第１予測タグは、予測によって得られた操作の内容に関するタグであり、
前記第２予測タグは、予測によって得られた操作の意図に関するタグであり、
前記第１予測タグと前記第２予測タグとは、予測値に属し、
前記第１トレーニングタグと前記第２トレーニングタグとは真の値に属する。

好ましくは、ＣＰＵ５２２は以下のステップを実行するために利用されてもよい。即ち、
全結合層により、前記各トレーニング画像における前記第３トレーニング特徴を処理して、一次元ベクトル特徴である前記第３ターゲット特徴を取得するステップと、
畳み込み層により、前記各トレーニング画像における前記第２トレーニング特徴を処理して、一次元ベクトル特徴である前記第２ターゲット特徴を取得するステップと、
前記畳み込み層により、前記各トレーニング画像における前記第１トレーニング特徴を処理して、一次元ベクトル特徴である前記第１ターゲット特徴を取得するステップとを含む。

好ましくは、ＣＰＵ５２２は以下のステップを実行するために利用されてもよい。即ち、
長短期記憶ＬＳＴＭ層により、前記ターゲット特徴セットに対応する第１予測タグ、第２予測タグ、及び、予測により得られた勝敗の状況に関するタグである第３予測タグを取得するステップと、
前記各トレーニング画像の前記第１予測タグ、前記第１トレーニングタグ、前記第２予測タグ及び前記第２トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップと、
前記各トレーニング画像に対応する、実際の勝敗の状況を示すための第３トレーニングタグを取得するステップと、
前記第１予測タグ、前記第１トレーニングタグ、前記第２予測タグ、前記第２トレーニングタグ、前記第３予測タグ及び前記第３トレーニングタグに基づいてトレーニングして前記モデルコアパラメータを取得するステップとを含み、
前記第３トレーニングタグは、予測値に属し、
前記第３予測タグは、真の値に属する。

好ましくは、ＣＰＵ５２２は、さらに、以下のステップを実行するために利用されてもよい。即ち、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
前記ターゲットジョイントモデルにより、前記トレーニングビデオに対応する、ターゲットシナリオにおける関連データを含むターゲットシナリオデータを取得するステップと、
前記ターゲットシナリオデータ、前記第１トレーニングタグ及び第１予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップと、
前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップとを含み、
前記第１予測タグは、予測によって得られた操作の内容に関するタグであり、
前記第１予測タグは、予測値に属し、前記第１トレーニングタグは真の値に属する。

好ましくは、ＣＰＵ５２２は、さらに、以下のステップを実行するために利用されてもよい。即ち、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
前記ターゲットジョイントモデルにより、前記トレーニングビデオに対応する、ターゲットシナリオにおける関連データを含むターゲットシナリオデータを取得するステップと、
前記ターゲットシナリオデータ、前記第２トレーニングタグ及び第２予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップと、
前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップとを含み、
前記第２予測タグは、予測によって得られた操作の意図に関するタグであり、
前記第２予測タグは、予測値に属し、前記第２トレーニングタグは、真の値に属する。

説明の便宜及び簡潔のため、上述のシステム、装置及びユニットの具体的な作動プロセスは、上述の方法の実施形態における対応するプロセスを参照することができるので、ここでは、再度説明されないことは、当業者であれば理解されるべきである。

本出願で提供されるいくつかの実施形態では、開示されたシステム、装置、及び方法は、他の形態で実現され得ることを理解されたい。例えば、以上に記載された装置の実施形態はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割であり、実際に実現するときは他の分割方式によってもよい。例えば、複数のユニット又はコンポーネントを組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインターフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的又は他の形式であってもよい。

上で分離部材として説明したユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークユニットに分布してもよい。実際の必要に応じてそのうちの一部又は全てのユニットにより本実施形態のソリューションの目的を実現することができる。

また、本出願の各実施形態における各機能ユニットは、１つの処理ユニットに統合されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが１つのユニットに統合されてもよい。上記統合されるユニットは、ハードウェアの形式で実現されてもよく、ソフトウェアの機能ユニットの形式で実現されてもよい。

上記統合されるユニットはソフトウェア機能ユニットの形式で実現され、かつ独立した製品として販売又は使用される場合に、コンピュータ読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本出願の技術案は、本質的に、又は、従来技術に対して貢献をもたらした部分又は当該技術案の全部又は一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶し、また、コンピュータ機器（パソコン、サーバー、又はネットワーク装置などであり得る）に、本出願の各実施形態に記載の方法の全部又は一部のステップを実行させるために、若干のコマンドを含む。前記の記憶媒体は、Ｕディスク、リムーバブルハードディスク、読み出し専用メモリ（Ｒｅａｄ−ｏｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

この明細書で言及された「複数」は２つ以上を指す。「及び／又は」は、関連するオブジェクトの関連関係を記述し、３つの関係が存在し得ることを表し、例えば、Ａ及び／又はＢは、Ａが単独で存在し、ＡとＢが同時に存在し、Ｂが単独で存在するという３つの状況を表すことができる。符号「／」は、一般的に前後関連するオブジェクトが「又は」の関係であることを表す。

以上のように、以上の実施形態は、ただ本出願の技術案を説明するために用いられるが、本出願を限定することを意図するものではなく、前記実施形態を参照して本出願を詳細に説明したが、当業者であれば、依然として前記各実施形態に記載の技術提案を変更する、又はその一部の技術的特徴に等価置換を行うことができ、これらの変更や置換によって、対応する技術提案の本質が本出願の各実施形態の技術提案の精神と範囲から逸脱することはないと理解されるべきである。

Claims

サーバーが実行する情報予測方法であって、
予測画像を取得するステップと、
前記予測画像における予測特徴セットを抽出するステップと、
ターゲットジョイントモデルにより前記予測特徴セットに対応する第１タグ及び／又は第２タグを取得するステップとを含み、
前記予測特徴セットは、第１領域の画像特徴を示す第１予測特徴、前記第１領域よりも範囲が大きい第２領域の画像特徴を示す第２予測特徴、及び、インタラクション操作に関する属性特徴を示す第３予測特徴を含み、
前記第１タグは、操作の内容に関するタグであり、
前記第２タグは、操作の意図に関するタグであることを特徴とする方法。
前記ターゲットジョイントモデルにより前記予測特徴セットに対応する第１タグ及び／又は第２タグを取得するステップは、
前記ターゲットジョイントモデルにより前記予測特徴セットに対応する前記第１タグ及び／又は前記第２タグ、並びに、勝敗の状況に関するタグである第３タグを取得するステップを含むことを特徴とする請求項１に記載の方法。
サーバーが実行するモデルトレーニング方法であって、
Ｎ（Ｎは１以上の整数）個のトレーニング画像を含むトレーニング画像セットを取得するステップと、
各トレーニング画像におけるトレーニング特徴セットを抽出するステップと、
前記各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグを取得するステップと、
前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記各トレーニング画像に対応する前記第１トレーニングタグ及び前記第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するステップとを含み、
前記第１トレーニングタグは、操作の内容に関するタグであり、
前記第２トレーニングタグは、操作の意図に関するタグであり、
前記トレーニング特徴セットは、第１領域の画像特徴を示す第１トレーニング特徴、前記第１領域よりも範囲が大きい第２領域の画像特徴を示す第２トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第３トレーニング特徴を含む、ことを特徴とする方法。
前記第１トレーニング特徴は、二次元ベクトル特徴であり、前記第１領域におけるキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報及び防御オブジェクト位置情報の少なくとも１つを含み、
前記第２トレーニング特徴は、二次元ベクトル特徴であり、前記第２領域におけるキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報、防御オブジェクト位置情報、障碍オブジェクト位置情報及び出力オブジェクト位置情報の少なくとも１つを含み、
前記第３トレーニング特徴は、一次元ベクトル特徴であり、キャラクターヒットポイント、キャラクター出力値、時間情報及びスコア情報の少なくとも１つを含み、
前記第１トレーニング特徴と、前記第２トレーニング特徴と、前記第３トレーニング特徴との間に対応関係があることを特徴とする請求項３に記載の方法。
前記第１トレーニングタグは、ボタンタイプ情報及び／又はボタンパラメータ情報を含み、
前記ボタンパラメータ情報は、方向パラメータ、位置パラメータ及びターゲットパラメータの少なくとも１つを含み、
前記方向パラメータは、キャラクターが移動する方向を示すために利用され、
前記位置パラメータは、前記キャラクターが所在している位置を示すために利用され、前記ターゲットパラメータは、前記キャラクターの出力すべきオブジェクトを示すために利用されることを特徴とする請求項３に記載の方法。
前記第２トレーニングタグは、操作の意図の情報及びキャラクター位置情報を含み、
前記操作の意図の情報は、キャラクターとオブジェクトとがインタラクションする目的を示し、
前記キャラクター位置情報は、前記キャラクターの前記第１領域における位置を示すことを特徴とする請求項３に記載の方法。
前記各トレーニング画像における前記トレーニング特徴セット、前記各トレーニング画像に対応する前記第１トレーニングタグ及び前記第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するステップは、
前記各トレーニング画像における前記トレーニング特徴セットを処理して、第１ターゲット特徴、第２ターゲット特徴及び第３ターゲット特徴を含むターゲット特徴セットを取得するステップと、
長短期記憶ＬＳＴＭ層により、前記ターゲット特徴セットに対応する第１予測タグ及び第２予測タグを取得するステップと、
前記各トレーニング画像の前記第１予測タグ、前記第１トレーニングタグ、前記第２予測タグ及び前記第２トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップと、
前記モデルコアパラメータに基づいて前記ターゲットジョイントモデルを生成するステップとを含み、
前記第１予測タグは、予測により得られた操作の内容に関するタグであり、
前記第２予測タグは、予測により得られた操作の意図に関するタグであり、
前記第１予測タグと前記第２予測タグとは予測値に属し、前記第１トレーニングタグと前記第２トレーニングタグとは真の値に属することを特徴とする請求項３に記載の方法。
前記各トレーニング画像における前記トレーニング特徴セットを処理してターゲット特徴セットを取得するステップは、
全結合層により、前記各トレーニング画像における前記第３トレーニング特徴を処理して、一次元ベクトル特徴である前記第３ターゲット特徴を取得するステップと、
畳み込み層により、前記各トレーニング画像における前記第２トレーニング特徴を処理して、一次元ベクトル特徴である前記第２ターゲット特徴を取得するステップと、
前記畳み込み層により、前記各トレーニング画像における前記第１トレーニング特徴を処理して、一次元ベクトル特徴である前記第１ターゲット特徴を取得するステップとを含むことを特徴とする請求項７に記載の方法。
前記長短期記憶ＬＳＴＭ層により、前記ターゲット特徴セットに対応する第１予測タグ及び第２予測タグを取得するステップは、
長短期記憶ＬＳＴＭ層により、前記ターゲット特徴セットに対応する、第１予測タグ、第２予測タグ、及び、予測により得られた勝敗の状況に関するタグである第３予測タグを取得するステップを含み、
前記各トレーニング画像の前記第１予測タグ、前記第１トレーニングタグ、前記第２予測タグ及び前記第２トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップは、
前記各トレーニング画像に対応する、実際の勝敗の状況を示すための第３トレーニングタグを取得するステップと、
前記第１予測タグ、前記第１トレーニングタグ、前記第２予測タグ、前記第２トレーニングタグ、前記第３予測タグ及び前記第３トレーニングタグに基づいてトレーニングして前記モデルコアパラメータを取得するステップとを含み、
前記第３トレーニングタグは、予測値に属し、
前記第３予測タグは、真の値に属することを特徴とする請求項７に記載の方法。
前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記各トレーニング画像に対応する前記第１トレーニングタグ及び前記第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、前記方法は、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
前記ターゲットジョイントモデルにより、前記トレーニングビデオに対応する、ターゲットシナリオにおける関連データを含むターゲットシナリオデータを取得するステップと、
前記ターゲットシナリオデータ、前記第１トレーニングタグ及び第１予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップと、
前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップとをさらに含み、
前記第１予測タグは、予測により得られた操作の内容に関するタグであり、且つ予測値に属し、
前記第１トレーニングタグは、真の値に属することを特徴とする請求項３〜９のいずれか一項に記載の方法。
前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記各トレーニング画像に対応する前記第１トレーニングタグ及び前記第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、前記方法は、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
前記ターゲットジョイントモデルにより、前記トレーニングビデオに対応する、ターゲットシナリオにおける関連データを含むターゲットシナリオデータを取得するステップと、
前記ターゲットシナリオデータ、前記第２トレーニングタグ及び第２予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップと、
前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップとをさらに含み、
前記第２予測タグは、予測により得られた操作の意図に関するタグであり、且つ予測値に属し、
前記第２トレーニングタグは、真の値に属することを特徴とする請求項３〜９のいずれか一項に記載の方法。
サーバーであって、
予測画像を取得する取得モジュールと、
前記取得モジュールにより取得された前記予測画像における予測特徴セットを抽出する抽出モジュールと、を含み、
前記予測特徴セットは、第１領域の画像特徴を示す第１予測特徴、前記第１領域よりも範囲が大きい第２領域の画像特徴を示す第２予測特徴、及び、インタラクション操作に関する属性特徴を示す第３予測特徴を含み、
前記取得モジュールは、さらに、ターゲットジョイントモデルにより、前記抽出モジュールにより抽出された前記予測特徴セットに対応する第１タグ及び第２タグを取得するために利用され、前記第１タグは、操作の内容に関するタグであり、前記第２タグは操作の意図に関するタグであることを特徴とするサーバー。
サーバーであって、
Ｎ個（Ｎは１以上の整数）のトレーニング画像を含むトレーニング画像セットを取得する取得モジュールと、
前記取得モジュールにより取得された各トレーニング画像におけるトレーニング特徴セットを抽出する抽出モジュールと、
前記抽出モジュールにより抽出された前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記取得モジュールにより取得された前記各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するトレーニングモジュールとを含み、
前記トレーニング特徴セットは、第１領域の画像特徴を示す第１トレーニング特徴、前記第１領域よりも範囲が大きい第２領域の画像特徴を示す第２トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第３トレーニング特徴を含み、
前記取得モジュールは、さらに、前記各トレーニング画像に対応する、操作の内容に関するタグである前記第１トレーニングタグ、及び、操作の意図に関するタグである前記第２トレーニングタグを取得するために利用されることを特徴とするサーバー。
サーバーであって、
プログラムが記憶されるメモリと、
送受信器と、
前記メモリにおけるプログラムを実行するプロセッサーと、
前記メモリ及び前記プロセッサーが通信するように前記メモリと前記プロセッサーとを接続するバスシステムとを含み、
前記プロセッサーが前記メモリにおけるプログラムを実行することにより、
予測画像を取得するステップと、
前記予測画像における予測特徴セットを抽出するステップと、
ターゲットジョイントモデルにより、前記予測特徴セットに対応する第１タグ及び／又は第２タグを取得するステップとを含む方法が実行され、
前記予測特徴セットは、第１領域の画像特徴を示す第１予測特徴、前記第１領域よりも範囲が大きい第２領域の画像特徴を示す第２予測特徴、及び、インタラクション操作に関する属性特徴を示す第３予測特徴を含み、
前記第１タグは、操作の内容に関するタグであり、
前記第２タグは、操作の意図に関するタグであることを特徴とするサーバー。
前記プロセッサーは、
前記ターゲットジョイントモデルにより前記予測特徴セットに対応する前記第１タグ及び／又は前記第２タグ、並びに、勝敗の状況に関するタグである第３タグを取得するステップを実行するために用いられることを特徴とする請求項１４に記載のサーバー。
サーバーであって、
プログラムが記憶されるメモリと、
送受信器と、
プロセッサーと、
前記メモリ及び前記プロセッサーが通信するように前記メモリと前記プロセッサーとを接続するバスシステムとを含み、
前記プロセッサーが前記メモリにおけるプログラムを実行することにより、
Ｎ個（Ｎは１以上の整数）のトレーニング画像を含むトレーニング画像セットを取得するステップと、
各トレーニング画像におけるトレーニング特徴セットを抽出するステップと、
前記各トレーニング画像に対応する第１トレーニングタグ及び第２トレーニングタグを取得するステップと、
前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記各トレーニング画像に対応する前記第１トレーニングタグ及び前記第２トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するステップとを含む方法が実行され、
前記トレーニング特徴セットは、第１領域の画像特徴を示す第１トレーニング特徴、前記第１領域よりも範囲が大きい第２領域の画像特徴を示す第２トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第３トレーニング特徴を含み、
前記第１トレーニングタグは、操作の内容に関するタグであり、
前記第２トレーニングタグは、操作の意図に関するタグである、ことを特徴とするサーバー。
前記プロセッサーが前記メモリにおけるプログラムを実行することにより、
請求項７〜１１の何れか一項に記載の方法が実行されることを特徴とする請求項１６に記載のサーバー。
コンピュータプログラムであって、
コンピュータプログラムコードが記憶され、前記コンピュータプログラムコードがコンピュータによって実行されると、請求項１〜１１のいずれか一項に記載の方法を前記コンピュータに実行させることを特徴とするコンピュータプログラム。