JP2021536066A - 情報予測方法、モデルトレーニング方法、サーバー及びコンピュータプログラム - Google Patents

情報予測方法、モデルトレーニング方法、サーバー及びコンピュータプログラム Download PDF

Info

Publication number
JP2021536066A
JP2021536066A JP2021512924A JP2021512924A JP2021536066A JP 2021536066 A JP2021536066 A JP 2021536066A JP 2021512924 A JP2021512924 A JP 2021512924A JP 2021512924 A JP2021512924 A JP 2021512924A JP 2021536066 A JP2021536066 A JP 2021536066A
Authority
JP
Japan
Prior art keywords
training
tag
feature
image
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021512924A
Other languages
English (en)
Other versions
JP7199517B2 (ja
Inventor
リ,ホォンリアン
ワン,リアン
シ,トンフェイ
ユアン,ボ
ヤン,シャオジエ
ユィ,ホォンション
イン,インユィティン
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2021536066A publication Critical patent/JP2021536066A/ja
Application granted granted Critical
Publication of JP7199517B2 publication Critical patent/JP7199517B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/30Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
    • A63F13/35Details of game servers
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/53Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game
    • A63F13/537Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game using indicators, e.g. showing the condition of a game character on screen
    • A63F13/5378Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game using indicators, e.g. showing the condition of a game character on screen for displaying an additional top view, e.g. radar screens or maps
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/822Strategy games; Role-playing games

Abstract

情報予測方法、モデルトレーニングの方法及サーバーであって、前記情報予測方法は、予測画像を取得するステップ(101)と、予測画像における予測特徴セットを抽出するステップ(102)と、ターゲットジョイントモデルにより、予測特徴セットに対応する第1タグ及び/又は第2タグを取得するステップ(103)と含み、予測特徴セットは、第1領域の画像特徴を示す第1予測特徴、第1領域よりも範囲が大きい第2領域の画像特徴を示す第2予測特徴、及び、インタラクション操作に関する属性特徴を示す第3予測特徴を含み、第1タグは、操作の内容に関するタグであり、第2タグは操作の意図に関するタグである。1つのジョイントモデルを使用するだけで微操作及び大局観を予測することができ、階層化モデルでのハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。

Description

本出願は、2018年12月13日に中国専利局に提出した、出願番号が201811526060.1であり、発明の名称が「情報予測方法、モデルトレーニング方法及びサーバー」である中国特許出願の優先権を主張し、その全ての内容を援用して本願に組み込む。
本出願は、人工知能の技術分野に関し、特に、情報予測方法、モデルトレーニング方法、サーバー及びコンピュータプログラムに関する。
人工知能(artificial intelligence、AI)プログラムは、ルールが明確化されているチェスゲームでトッププロプレイヤを打ち負かした。それに対して、マルチプレイヤオンラインバトルアリーナ(multiplayer online battle arena、MOBA)ゲームは、操作がより複雑であり、現実世界におけるシナリオにより近づく。MOBAゲームにおけるAI課題の解消は、現実世界における複雑な課題に対する探索・解消に役立つ。
MOBAゲーム操作の複雑さに基づいて、通常、MOBAゲームの操作全体を、大局観と微操作の2つのタイプに分けて、MOBAゲーム全体の複雑さを軽減する。図1を参照し、図1は関連技術におけるモデルを階層化して確立する概略図であり、図1に示すように、「ジャングル」、「ファーム」、「チームファイト」及び「トップリングタワー」などの大局観による策略決定に従って区分され、各ラウンドのゲームには平均で約100の大局観タスクしかなく、各大局観タスクにおける微操作策略決定のステップの数の平均が200個である。上記の内容に基づいて、図2を参照し、図2は関連技術における階層化モデルの構造概略図であり、図2に示すように、大局観特徴を利用して大局観モデルを確立し、微操作特徴を利用して微操作モデルを確立して、大局観モデルにより大局観タグを出力し、微操作モデルにより微操作タグを出力することができる。
しかしながら、階層化モデルを確立するには、大局観モデルと微操作モデルを別々に設計及びトレーニングする必要がある。つまり、これらの2つのモデルは、互いに独立したものであり、実際の応用においては、どちらのモデルを予測に使用するかを特定しなければならないため、2つのモデルの間にハードハンドオーバーの問題があり、予測の利便性に不利である。
本出願の実施形態は、情報予測方法、モデルトレーニング方法及びサーバーを提供し、1つのジョイントモデルのみを使用して微操作及び大局観を予測することができ、階層化モデルにおけるハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。
これに鑑み、本出願の第1態様は、情報予測方法を提供し、当該情報予測方法は、予測画像を取得するステップと、
前記予測画像における予測特徴セットを抽出するステップと、
ターゲットジョイントモデルにより、前記予測特徴セットに対応する第1タグ及び/又は第2タグを取得するステップとを含み、
前記第1タグは、操作の内容に関するタグであり、
前記第2タグは、操作の意図に関するタグであり、
前記予測特徴セットには、第1領域の画像特徴を示す第1予測特徴、前記第1領域よりも範囲が小さい第2領域の画像特徴を示す第2予測特徴、及び、インタラクション操作に関する属性特徴を示す第3予測特徴が含まれる。
本出願の第2態様はモデルトレーニングの方法を提供し、N個(Nは1以上の整数)のトレーニング画像を含むトレーニング画像セットを取得するステップと、
各トレーニング画像におけるトレーニング特徴セットを抽出するステップと、
前記各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグを取得するステップと、
前記各トレーニング画像における前記トレーニング特徴セット、前記各トレーニング画像に対応する前記第1トレーニングタグ及び前記第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するステップとを含み、
前記第1トレーニングタグは、操作の内容に関するタグであり、
前記第2トレーニングタグは、操作の意図に関するタグであり、
前記トレーニング特徴セットには、第1領域の画像特徴を示す第1トレーニング特徴、前記第1領域よりも範囲が大きい第2領域の画像特徴を示す第2トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第3トレーニング特徴が含まれる。
本出願の第3態様は、サーバーを提供し、
予測画像を取得するための取得モジュールと、
前記取得モジュールにより取得された前記予測画像における予測特徴セットを抽出するための抽出モジュールと、を含み、
前記予測特徴セットには、第1領域の画像特徴を示す第1予測特徴、前記第1領域よりも範囲が大きい第2領域の画像特徴を示す第2予測特徴、及び、インタラクション操作に関する属性特徴を示す第3予測特徴が含まれ、
前記取得モジュールは、さらに、ターゲットジョイントモデルにより、前記抽出モジュールにより抽出された前記予測特徴セットに対応する第1タグ及び第2タグを取得するために利用され、
前記第1タグは、操作の内容に関するタグであり、
前記第2タグは、操作の意図に関するタグである。
好ましい構成は、本出願の実施形態の第3態様の第1実現形態において、
前記取得モジュールは、前記ターゲットジョイントモデルにより、前記予測特徴セットに対応する前記第1タグ、前記第2タグ、及び、勝敗の状況に関するタグである第3タグを取得するために利用される。
本出願の第4の態様はサーバーを提供し、
N個のトレーニング画像を含むトレーニング画像セットを取得する(Nは1以上の整数である)ために用いられる取得モジュールと、
前記取得モジュールにより取得された各トレーニング画像におけるトレーニング特徴セットを抽出するための抽出モジュールと、
前記抽出モジュールにより抽出された前記各トレーニング画像における前記トレーニング特徴セット、前記取得モジュールにより取得された前記各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するためのトレーニングモジュールとを含み、
前記トレーニング特徴セットには、第1領域の画像特徴を示す第1トレーニング特徴、前記第1領域よりも範囲が大きい第2領域の画像特徴を示す第2トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第3トレーニング特徴が含まれ、
前記取得モジュールは、さらに、前記各トレーニング画像に対応する、操作の内容に関するタグである前記第1トレーニングタグ、及び、操作の意図に関するタグである前記第2トレーニングタグを取得するために利用される。
好ましい構成は、本出願の実施形態の第4の態様の第1実現形態において、
前記第1トレーニング特徴は、二次元ベクトル特徴であり、前記第1領域におけるキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報及び防御オブジェクト位置情報の少なくとも1つを含み、
前記第2トレーニング特徴は、二次元ベクトル特徴であり、前記第2領域におけるキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報、防御オブジェクト位置情報、障碍オブジェクト位置情報及び出力オブジェクト位置情報の少なくとも1つを含み、
前記第3トレーニング特徴は、一次元ベクトル特徴であり、キャラクターヒットポイント、キャラクター出力値、時間情報及びスコア情報の少なくとも1つを含み、
前記第1トレーニング特徴と、前記第2トレーニング特徴と、前記第3トレーニング特徴との間に対応関係がある。
好ましい構成は、本出願の実施形態の第4の態様の第2実現形態において、
前記第1トレーニングタグは、ボタンタイプ情報及び/又はボタンパラメータ情報を含み、
前記ボタンパラメータ情報は、方向パラメータ、位置パラメータ及びターゲットパラメータの少なくとも1つを含み、
前記方向パラメータは、キャラクターが移動する方向を示すために利用され、
前記位置パラメータは、前記キャラクターが所在している位置を示すために利用され、前記ターゲットパラメータは、前記キャラクターの出力すべきオブジェクトを示すために利用される。
好ましい構成は、本出願の実施形態の第4の態様の第3実現形態において、前記第2トレーニングタグは、操作の意図情報及びキャラクター位置情報を含み、前記操作の意図情報は、キャラクターとオブジェクトとがインタラクションする目的を示し、前記キャラクター位置情報は、前記キャラクターの前記第1領域における位置を示す。
好ましい構成は、本出願の実施形態の第4の態様の第4の実現形態において、前記トレーニングモジュールは、
前記各トレーニング画像における前記トレーニング特徴セットを処理して、第1ターゲット特徴、第2ターゲット特徴及び第3ターゲット特徴を含むターゲット特徴セットを取得するステップと、
長短期記憶LSTM層により、前記ターゲット特徴セットに対応する第1予測タグ及び第2予測タグを取得するステップと、
前記各トレーニング画像の前記第1予測タグ、前記第1トレーニングタグ、前記第2予測タグ及び前記第2トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップと、
前記モデルコアパラメータに基づいて、前記ターゲットジョイントモデルを生成するステップとが実現されることに利用され、
前記第1予測タグは、予測により得られた操作の内容に関するタグであり、
前記第2予測タグは、予測により得られた操作の意図に関するタグであり、
前記第1予測タグと前記第2予測タグとは、予測値に属し、
前記第1トレーニングタグと前記第2トレーニングタグとは、真の値に属する。
好ましい構成は、本出願の実施形態の第4の態様の第5の実現形態において、前記トレーニングモジュールは、全結合層により、前記各トレーニング画像における前記第3トレーニング特徴を処理して、一次元ベクトル特徴である前記第3ターゲット特徴を取得するステップと、
畳み込み層により、前記各トレーニング画像における前記第2トレーニング特徴を処理して、一次元ベクトル特徴である前記第2ターゲット特徴を取得するステップと、
前記畳み込み層により、前記各トレーニング画像における前記第1トレーニング特徴を処理して、一次元ベクトル特徴である前記第1ターゲット特徴を取得するステップとが実現されることに利用される。
好ましい構成は、本出願の実施形態の第4の態様の第6の実現形態において、前記トレーニングモジュールは、長短期記憶LSTM層により、前記ターゲット特徴セットに対応する第1予測タグ、第2予測タグ、及び、予測により得られた勝敗の状況に関するタグである第3予測タグを取得するステップと、
前記各トレーニング画像に対応する、実際の勝敗の状況を示すための第3トレーニングタグを取得するステップと
前記第1予測タグ、前記第1トレーニングタグ、前記第2予測タグ、前記第2トレーニングタグ、前記第3予測タグ及び前記第3トレーニングタグに基づいてトレーニングして前記モデルコアパラメータを取得するステップとが実現されることに利用され、
前記第3トレーニングタグは、予測値に属し、
前記第3予測タグは、真の値に属する。
好ましい構成は、本出願の実施形態の第4の態様の第7の実現形態において、前記サーバーは、更新モジュールをさらに含み、
前記取得モジュールは、さらに、
前記トレーニングモジュールが前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記各トレーニング画像に対応する前記第1トレーニングタグ及び前記第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
前記ターゲットジョイントモデルにより、前記トレーニングビデオに対応する、ターゲットシナリオでの関連データを含むターゲットシナリオデータを取得するステップとを実行するために利用され、
前記トレーニングモジュールは、さらに、前記取得モジュールにより取得された前記ターゲットシナリオデータ、前記第1トレーニングタグ及び第1予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップを実行するために利用され、
前記第1予測タグは、予測により得られた操作の内容に関するタグであり、
前記第1予測タグは、予測値に属し、
前記第1トレーニングタグは、真の値に属し、
前記更新モジュールは、前記トレーニングモジュールがトレーニングして得られた前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップを実行するために利用される。
好ましい構成は、本出願の実施形態の第4の態様の第8の実現形態において、前記サーバーは、更新モジュールをさらに含み、
前記取得モジュールは、さらに、
前記トレーニングモジュールが前記各トレーニング画像における前記トレーニング特徴セット、前記各トレーニング画像に対応する前記第1トレーニングタグ及び前記第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
前記ターゲットジョイントモデルにより、ターゲットシナリオでの関連データを含む前記トレーニングビデオに対応するターゲットシナリオデータを取得するステップとを実行するために利用され、
前記トレーニングモジュールは、さらに、前記取得モジュールにより取得された前記ターゲットシナリオデータ、前記第2トレーニングタグ及び第2予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップとを実行するために利用され、
前記第2予測タグは、予測により得られた操作の意図に関するタグであり、
前記第2予測タグは、予測値に属し、
前記第2トレーニングタグは、真の値に属し、
前記更新モジュールは、前記トレーニングモジュールがトレーニングして得られた前記ターゲットモデルパラメータ利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップを実行するために利用される。
本出願の第5の態様はサーバーを提供し、当該サーバーは、上記の第1態様又は第1態様のいずれかの可能な実現形態における情報予測方法を実行するために用いられる。具体的に、当該サーバーは、第1態様又は第1態様のいずれかの可能な実現形態における情報予測方法を実行するためのモジュールを含む。
本出願の第6の態様はサーバーを提供し、当該サーバーは上記の第2態様又は第2態様態様のいずれかの可能な実現形態におけるモデルトレーニング方法を実行するために用いられる。例示的に、当該サーバーは、第2態様又は第2態様のいずれかの可能な実現形態におけるモデルトレーニング方法を実行するためのモジュールを含む。
本出願の第7の態様は、コンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータ読み取り可能な記憶媒体にコマンドが記憶され、コンピュータに実行されると、上記の各態様に記載の方法をコンピュータに実行させる。
本出願の第8の態様は、コンピュータプログラム(製品)を提供し、当該コンピュータプログラム(製品)はコンピュータプログラムコードが記憶され、前記コンピュータプログラムコードがコンピュータによって実行されると、上記の各態様のいずれかに記載の方法を前記コンピュータに実行させる。
以上の技術案から、本出願の実施形態は少なくとも以下の利点を有することが見られる。
本出願の実施形態において、情報予測方法を提供し、まず、サーバーは予測画像を取得し、そして、予測画像における予測特徴セットを抽出し、予測特徴セットは第1予測特徴、第2予測特徴及び第3予測特徴を含み、第1予測特徴は第1領域の画像特徴を示し、第2予測特徴は第2領域の画像特徴を示し、第3予測特徴はインタラクション操作に関する属性特徴を示し、第1領域の範囲が第2領域の範囲よりも小さい。最後に、サーバーは、ターゲットジョイントモデルにより予測画像に対応する第1タグ及び第2タグを取得することができ、第1タグが操作の内容に関するタグであり、第2タグが操作の意図に関するタグである。上記の方式により、1つのジョイントモデルのみを使用して微操作及び大局観を予測することができる。なお、微操作の予測結果は、第1タグとして示され、大局観の予測結果は、第2タグとして示される。従って、大局観モデル及び微操作モデルを1つのジョイントモデルにマージし、階層化モデルでのハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。
関連技術における階層化してモデルを確立する概略図である。 関連技術における階層化モデルの構造概略図である。 本出願の実施形態における情報予測システムのアーキテクチャの概略図である。 本出願の実施形態におけるターゲットジョイントモデルの1つのシステムの構造の概略図である。 本出願の実施形態における情報予測方法の一実施形態の概略図である。 本出願の実施形態における強化ジョイントモデルの作動流れの概略図である。 本出願の実施形態におけるモデルトレーニングの方法の一実施形態の概略図である。 本出願の実施形態におけるトレーニング特徴セットを抽出する一実施形態の概略図である。 本出願の実施形態におけるトレーニング特徴セットの1つの特徴表現の概略図である。 本出願の実施形態におけるクラス画像の1つの特徴表現の概略図である。 本出願の実施形態における微操作タグの概略図である。 本出願の実施形態における微操作タグの他の概略図である。 本出願の実施形態における微操作タグの他の概略図である。 本出願の実施形態における微操作タグの他の概略図である。 本出願の実施形態における大局観タグの概略図である。 本出願の実施形態におけるターゲットジョイントモデルの1つのネットワーク構造の概略図である。 本出願の実施形態における強化ジョイントモデルの1つのシステムの構造概略図である。 本出願の実施形態における強化ジョイントモデルの他のシステムの構造概略図である。 本出願の実施形態におけるサーバーの一実施形態の概略図である。 本出願の実施形態におけるサーバーの他の実施形態の概略図である。 本出願の実施形態におけるサーバーの他の実施形態の概略図である。 本出願の実施形態におけるサーバーの構造概略図である。
本出願の実施形態は、情報予測方法、モデルトレーニングの方法及びサーバーを提供し、1つのジョイントモデルを使用するだけで微操作及び大局観を予測でき、階層化モデルでのハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。
本出願の明細書及び請求項ならびに上記図面における用語である「第1」、「第2」、「第3」、「第4」など(存在する場合)は、類似した対象を区別するために用いられ、必ずしも特定の順番又は前後順序を記載する意図はない。このように用いられたデータは、適切な状況で交換可能であり、本明細書に記載の本出願の実施形態は、例えば、本明細書に図示又は記載した順序以外の順序でも実施可能であることが理解されるべきである。さらに、「含む」及び「有する」という用語、ならびに、それらの任意の変化形は、非排他的な包含を網羅するよう意図されたものであり、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品、又は、デバイスが、明確に列挙された工程又はユニットに必ずしも限定されることはなく、明確に列挙されていない他のステップ又はユニット、もしくは、これらのプロセス、方法、システム、製品、又は、デバイスに固有の他のステップ又はユニットを含んでもよい。
本出願に係るモデルはAI分野に適用されてよく、その適用範囲は、機械翻訳、インテリジェント制御、エキスパートシステム、ロボット、言語と画像の理解、自動プログラミング、航空宇宙アプリケーション、及び巨大な情報処理、保存、管理などを含むがそれらに限定されないと理解されるべきである。説明の都合上、本出願は、オンラインゲームシナリオを例として説明し、MOBAタイプのゲームシナリオであってもよい。MOBAゲームに対して、本出願の実施形態では、AIモデルを設計し、人間のプレイヤの操作をより良くシミュレートし、人間と機械の対戦、オフラインのプレイヤのシミュレーション、プレイヤによるキャラクターの練習などの場合でより良い結果を達成することができる。なお、MOBAゲームの典型的なゲームプレイは、マルチバトルマルチのモードであり、つまり、同じ数のプレイヤで構成される2つ(又はそれ以上)のチームが互いに競い合い、各プレイヤがヒーローキャラクターを制御し、先に相手の「クリスタル」ベースをトップリングした一方が勝者である。
理解を容易にするために、本出願は、情報予測方法を提供し、当該方法は図3に示す情報予測システムに適用され、図3を参照し、図3は本出願の実施形態における情報予測システムのアーキテクチャの概略図であり、図3に示すように、クライアント上で複数のラウンドのゲームがプレイされ、大量のゲーム画面データ(即ち、トレーニング画像)を生成し、次に、ゲーム画面データをサーバーに送信する。なお、これらのゲーム画面データのプロセスは、実際のゲームプロセスで人間のプレイヤによって生成されたデータであってもよいし、マシンが人間のプレイヤの操作をシミュレートしたことで取得されたデータであってもよく、本出願では、主に人間のプレイヤによって提供されたデータである。1ラウンドのゲームで平均30分、毎秒15フレームで計算すると、各ラウンドのゲームのドロンに27,000フレームの画像がある。本出願では、主に、大局観タスク及び微操作タスクに関するデータを選択してトレーニングを行い、データの複雑さを削減する。なお、大局観タスクは、操作の意図に従って区分され、大局観タスクは、「ジャングル」、「ファーム」、「チームファイト」及び「トップリングタワー」を含むが、それらのみに限定されない。各ラウンドのゲームに平均で約100の大局観タスクしかなく、各大局観タスクにおける微操作策略決定ステップの数は約200であり、従って、大局観による策略決定ステップの数及び微操作策略決定ステップの数は許容範囲内である。
サーバーは、クライアントから報告されたゲーム画面データを使用してモデルをトレーニングし、ターゲットジョイントモデルを得た上で、さらに、強化ジョイントモデルを生成する。説明の都合上、図4を参照し、図4は、本出願の実施形態における強化ジョイントモデルの1つのシステムの構造概略図である。図4に示すように、モデルトレーニングのプロセス全体は、2つの段階に分けることができる。まず、教師あり学習により、人間のプレイヤのゲームデータから初期の大局観と微操作とのジョイントモデルを学習し、ジョイントモデルを基に、大局観全結合(full connection、FC)層及び微操作FC層を追加し、これにより、ターゲットジョイントモデルを取得する。次に、強化学習により、微操作FC層(又は大局観FC層)を最適化し、他の層のパラメータが固定され、このように、「チームファイト」におけるスキルヒット率及び回避スキル成功率などのコア指標を改善する。
なお、クライアントは端末装置に配置され、端末装置はタブレットコンピュータ、ノートパソコン、パームトップコンピュータ、携帯電話及びパーソナルコンピュータ(Personal Computer、PC)を含むが、それに限定されず、ここで限定しない。
上記の説明に基づいて、以下、本出願における情報予測方法について説明する。図5を参照し、本出願の実施形態において、情報予測方法の一実施形態は以下のステップを含む。
101において、予測画像を取得する。
本実施形態において、サーバーは、まず、予測画像を取得し、当該予測画像は、MOBAゲームにおける画像を指してもよい。
102において、予測画像における予測特徴セットを抽出し、予測特徴セットには、第1予測特徴、第2予測特徴及び第3予測特徴が含まれ、第1予測特徴は、第1領域の画像特徴を示し、第2予測特徴は、第2領域の画像特徴を示し、第3予測特徴は、インタラクション操作に関する属性特徴を示し、第1領域の範囲が第2領域の範囲よりも小さい。
本実施形態において、サーバーは、予測画像における予測特徴セットを抽出する必要があり、ここで、予測特徴セットには、主に、3種類の特徴が含まれ、それぞれ、第1予測特徴、第2予測特徴及び第3予測特徴である。第1予測特徴は第1領域の画像特徴を示し、例示として、第1予測特徴は、MOBAゲームにおけるミニマップクラス画像特徴である。第2予測特徴は第2領域の画像特徴を示し、例示として、第2予測特徴は、MOBAゲームにおける現在の視野クラス画像特徴である。第3予測特徴はインタラクション操作に関する属性特徴を示し、例示として、第3予測特徴は、MOBAゲームにおけるヒーローの属性ベクトル特徴である。
103において、ターゲットジョイントモデルにより、予測特徴セットに対応する第1タグ及び/又は第2タグを取得し、第1タグが操作の内容に関するタグであり、第2タグが操作の意図に関するタグである。
本実施形態において、サーバーは、抽出された予測特徴セットをターゲットジョイントモデルに入力し、さらに、強化された強化ジョイントモデルに入力してもよい。なお、強化ジョイントモデルは、ターゲットジョイントモデルが強化されたモデルである。理解を容易にするために、図6を参照し、図6は、本出願の実施形態におけるターゲットジョイントモデルの作動流れの概略図であり、図6に示すように、本出願は、大局観モデルと微操作モデルとを、同一のモデル、即ち、ジョイントモデルとしてマージする。ジョイントモデルを基に、大局観FC層及び微操作FC層を追加することで、ターゲットジョイントモデルを取得する。このように、人間による策略決定プロセスとより符合することができる。ジョイントモデルは統一的な特徴入力を利用し、即ち、予測特徴セットを入力する。統一的な符号化層を学習するとともに、大局観タスク及び微操作タスクを学習し、大局観タスクの出力はカスケードで操作タスクの符号化層に入力され、ジョイントモデルは、最終的に、操作の内容に関する第1タグのみを出力し、第1タグに基づいて微操作FC層の出力を実行コマンドとしてもよい。操作の意図に関する第2タグのみを出力し、第2タグに応じて大局観FC層の出力を実行コマンドとしてもよい。第1タグ及び第2タグを同時に出力し、即ち、同時に、第1タグ及び第2タグに基づいて微操作FC層及び大局観FC層の出力を実行コマンドとしてもよい。
本出願の実施形態において、情報予測方法を提供する。まず、サーバーは予測画像を取得する。そして、予測画像における予測特徴セットを抽出する。なお、予測特徴セットには、第1予測特徴、第2予測特徴及び第3予測特徴が含まれ、第1予測特徴は、第1領域の画像特徴を示し、第2予測特徴は、第2領域の画像特徴を示し、第3予測特徴は、インタラクション操作に関する属性特徴を示し、第1領域の範囲が第2領域の範囲よりも小さい。最後に、サーバーは、ターゲットジョイントモデルにより予測画像に対応する第1タグ及び第2タグを取得する。なお、第1タグは、操作の内容に関するタグであり、第2タグは操作の意図に関するタグである。上記の方式により、1つのジョイントモデルのみを使用して微操作及び大局観を予測することができる。なお、微操作の予測結果は、第1タグとして示され、大局観の予測結果は、第2タグとして示される。従って、大局観モデル及び微操作モデルを1つのジョイントモデルにマージし、階層化モデルでのハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。
好ましくは、上記の図5に対応する実施形態に基づいて、本出願の実施形態で提供される情報予測方法の第1オプション実施形態において、ターゲットジョイントモデルにより予測特徴セットに対応する第1タグ及び/又は第2タグを取得することは、ターゲットジョイントモデルにより予測特徴セットに対応する第1タグ、第2タグ及び第3タグを取得することを含んでもよく、第3タグは勝敗の状況に関するタグである。
本実施形態において、比較的に包括的な予測方式を提供する。即ち、ターゲットジョイントモデルにより第1タグ、第2タグ及び第3タグを同時に出力することで、大局観タスクにおける操作及び微操作タスクにおける操作を予測可能であるのみならず、勝敗の状況も予測可能となる。
好ましくは、実際のアプリケーションにおいて、通常、連続する複数フレームの予測画像を入力して、予測の精度を向上する。例えば、100フレームの予測画像を入力し、フレームごとの予測画像に対して特徴抽出を行うことで、100組の予測特徴セットを得る。100組の予測特徴セットをターゲットジョイントモデルに入力することで、大局観タスクに関する潜んだ意図が予測され、汎用ナビゲーション能力を学習して、微操作タスクの実行コマンドを予測したり、このラウンドのゲームの勝敗に関して起こり得る状況、例えば、このラウンドのゲームは勝つか、敗れるかを予測したりすることができる。
次に、本出願の実施形態において、ターゲットジョイントモデルは、第1タグ及び第2タグだけではなく、第3タグも出力することができる。即ち、ターゲットジョイントモデルは予測勝敗の状況を予測することもできる。上記の方式により、実際応用において、状況の結果をより良く予測することができ、予測の信頼性の向上に寄与し、予測の柔軟性と実用性とを向上させる。
以下、本出願におけるモデル予測の方法について説明し、人間データを利用して高速な教師あり学習を行うことができ、強化学習によりモデルの予測精度を向上することができ、図7を参照し、本出願の実施形態において、モデル予測の方法の一実施形態は以下のステップを含む。
201において、トレーニング画像セットを取得し、トレーニング画像セットはN個のトレーニング画像を含み、Nは1以上の整数である。
本実施形態において、モデルトレーニングの流れについて説明し、まず、サーバーは、クライアントから報告された人間のプレイヤのゲームデータにより、相応するトレーニング画像セットを取得する。トレーニング画像セットは、通常、複数フレームの画像を含み、即ち、トレーニング画像セットはN個のトレーニング画像を含み、モデルの精度を向上させ、Nは1以上の整数である。
202において、各トレーニング画像におけるトレーニング特徴セットを抽出し、トレーニング特徴セットには、第1トレーニング特徴、第2トレーニング特徴及び第3トレーニング特徴が含まれ、第1トレーニング特徴は第1領域の画像特徴を示し、第2トレーニング特徴は第2領域の画像特徴を示し、第3トレーニング特徴はインタラクション操作に関する属性特徴を示し、第1領域の範囲が第2領域の範囲よりも小さい。
本実施形態において、サーバーは、トレーニング画像セットにおける各トレーニング画像のトレーニング特徴セットを抽出する必要があり、ここで、トレーニング特徴セットには、主に、3種類の特徴が含まれ、それぞれ、第1トレーニング特徴、第2トレーニング特徴及び第3トレーニング特徴である。第1トレーニング特徴は第1領域の画像特徴を示し、例示として、第1トレーニング特徴は、MOBAゲームにおけるミニマップクラス画像特徴である。第2トレーニング特徴は、第2領域の画像特徴を示し、例示として、第2トレーニング特徴は、MOBAゲームにおける現在の視野クラス画像特徴である。第3トレーニング特徴は、インタラクション操作に関する属性特徴を示し、例示として、第3トレーニング特徴は、MOBAゲームにおけるヒーロー属性ベクトル特徴である。
203において、各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグを取得し、第1トレーニングタグは、操作の内容に関するタグであり、第2トレーニングタグは、操作の意図に関するタグである。
本実施形態において、サーバーは、さらに、各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグを取得する必要があり、第1トレーニングタグは、操作の内容に関するタグであり、例示として、第1トレーニングタグは、微操作タスクに関するタグである。第2トレーニングタグは、操作の意図に関するタグであり、例示として、第2トレーニングタグは、大局観タスクに関するタグである。
なお、実際応用において、ステップ203は、ステップ202の前に実行されてもよいし、ステップ202の後に実行されてもよい。または、ステップ202と同時に実行されてもよいため、ここで限定しない。
204において、各トレーニング画像におけるトレーニング特徴セット、各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグに応じて、トレーニングしてターゲットジョイントモデルを取得する。
本実施形態において、最後に、サーバーは、各トレーニング画像から抽出されたトレーニング特徴セット、各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグに基づいてトレーニングして、ターゲットジョイントモデルを取得する。当該ターゲットジョイントモデルは、大局観タスクの状況及び微操作タスクのコマンドを予測するために利用され得る。
本出願の実施形態において、モデルトレーニングの方法について説明し、まず、サーバーはトレーニング画像セットを取得し、そして、各トレーニング画像におけるトレーニング特徴セットを抽出し、トレーニング特徴セットには、第1トレーニング特徴、第2トレーニング特徴及び第3トレーニング特徴が含まれる。そして、サーバーは、各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグを取得する必要がある。最後に、各トレーニング画像におけるトレーニング特徴セット、各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得する。上記の方式により、微操作及び大局観を同時に予測可能なモデルが構成され、大局観モデル及び微操作モデルを1つのジョイントモデルにマージし、階層化モデルにおけるハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。それとともに、大局観タスクが考慮されることで、マクロ策略決定の精度を効果的に向上し、特に、MOBAゲームにおいて、大局観による策略決定は非常に重要である。
好ましくは、上記の図7に対応する実施形態を基に、本出願の実施形態で提供されるモデルトレーニングの方法の第1オプション実施形態において、第1トレーニング特徴は二次元ベクトル特徴であり、第1トレーニング特徴は、第1領域でのキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報及び防御オブジェクト位置情報の少なくとも1つを含む。
第2トレーニング特徴は、二次元ベクトル特徴であり、第2トレーニング特徴は、第2領域におけるキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報、防御オブジェクト位置情報、障碍オブジェクト位置情報及び出力オブジェクト位置情報の少なくとも1つを含む。
第3トレーニング特徴は、一次元ベクトル特徴であり、第3トレーニング特徴はキャラクターヒットポイント、キャラクター出力値、時間情報及びスコア情報の少なくとも1つを含む。
なお、第1トレーニング特徴と、第2トレーニング特徴と、第3トレーニング特徴との間に対応関係がある。
本実施形態において、第1トレーニング特徴と、第2トレーニング特徴と、第3トレーニング特徴との間の関係及び内容について、説明の都合上、以下にMOBAゲームのシナリオを例にして説明し、人間のプレイヤは、操作中に、ミニマップ、現在の視野及びヒーローの属性などの情報を包括的に考慮する。従って、本出願は、マルチモード及びマルチスケールの特徴表現を利用する。図8を参照し、図8は本出願の実施形態におけるトレーニング特徴セットを抽出する一実施形態の概略図であり、図8に示すように、S1で示された部分は、ヒーローの属性情報であり、ゲームのヒーローキャラクター、及び各ヒーローキャラクターのヒットポイント、物理攻撃値、魔法攻撃値、物理防御値、魔法防御値を含む。S2で示された部分は、ミニマップ、即ち第1領域である。ミニマップにおいて、ヒーローキャラクター、ライン、モンスター、防御タワーの場所を見ることができる。なお、ヒーローキャラクターは、チームメイトが制御するヒーローキャラクターと敵が制御するヒーローキャラクターを含み、ラインとは、両方の手先が戦っている位置を指す。モンスターとは、プレイヤ以外の、環境にある「中立的な敵対」オブジェクトを指し、ノンプレイヤキャラクター(Non−Player Character、NPC)タイプのモンスターに属し、プレイヤによって制御されない。防御タワーは防御建物である。なお、2つの陣営にそれぞれクリスタル防御タワーがあり、相手のクリスタル防御タワーを破壊すると勝利を収める。S3で示された部分は、現在の視野、即ち、第2領域である。現在の視野で、ヒーロー、ライン、モンスター、防御タワー、地図の障害物、弾丸をはっきりと見ることができる。
図9を参照し、図9は、本出願の実施形態におけるトレーニング特徴セットの1つ特徴表現の概略図であり、図9に示すように、ヒーローの属性のベクトル特徴(即ち、第3トレーニング特徴)は、ミニマップクラス画像特徴(即ち、第1トレーニング特徴)及び現在視野クラス画像特徴(即ち、第2トレーニング特徴)と1対1にマッピング関係を確立することで、マクロとミクロの両方の策略決定に使用できる。ヒーローの属性のベクトル特徴は数値からなる特徴であるため、一次元ベクトル特徴に属し、当該ベクトル特徴は、ヒーローキャラクターの属性特徴、例えば、血液量(即ち、5人の敵のヒーローのキャラクターのヒットポイント及び5人の当方のヒーローキャラクターのヒットポイント)、攻撃力(即ち、5人の敵のヒーローキャラクターのキャラクター出力値及び5人の当方のヒーローキャラクターのキャラクター出力値)、時間(1ラウンドのゲーム期間)及びスコア(各チームの最終スコア)を含むが、それらに限定されない。ミニマップクラス画像特徴及び現在視野クラス画像特徴とはクラス画像特徴に属し、理解を容易にするために、図10を参照し、図10は本出願の実施形態におけるクラス画像の特徴表現の概略図である。図10に示すように、クラス画像特徴は、元の画素画像から人工的に構成される二次元特徴であり、元の複雑な画像から直接学習することの難しさを削減する。ミニマップクラス画像特徴は、ヒーロー、ライン、モンスター、防御タワーなどの位置情報を含み、マクロスケールの情報を表現するために使用される。現在視野クラス画像特徴は、ヒーロー、ライン、モンスター、防御タワー、地図の障害物、弾丸の位置情報を含み、ローカルのマイクロスケールの情報を表現するために使用される。
このような人間の視角をシミュレートするマルチモード及びマルチスケール特徴は、空間相対位置関係をよくモデリングするだけでなく、MOBAゲームでの高次元の状態特徴の表現にも非常に適する。
次に、本出願の実施形態において、3種類のトレーニング特徴の内容について説明し、第1トレーニング特徴は二次元ベクトル特徴であり、第2トレーニング特徴は二次元ベクトル特徴であり、第3トレーニング特徴は一次元ベクトル特徴である。上記の方式により、3種類のトレーニング特徴に含まれる具体的な情報を特定することができ、よって、より多い情報量を取得してモデルトレーニングに使用する。一方、第1トレーニング特徴及び第2トレーニング特徴は二次元ベクトル特徴であるため、特徴の空間表現の向上に有利であり、特徴の多様性を増加させる。
好ましくは、上記の図7に対応する実施形態を基に、本出願の実施形態で提供されるモデルトレーニングの方法の第2オプション実施形態において、第1トレーニングタグはボタンタイプ情報及び/又はボタンパラメータ情報を含む。
なお、ボタンパラメータ情報は方向パラメータ、位置パラメータ及びターゲットパラメータの少なくとも1つを含み、方向パラメータは、キャラクターが移動する方向を示すために用いられ、位置パラメータは、キャラクターの所在している位置を示すために用いられ、ターゲットパラメータは、キャラクターの出力すべきオブジェクトを示すために用いられる。
本実施形態において、第1トレーニングタグに含まれる内容について詳細に説明する。第1トレーニングタグはボタンタイプ情報及び/又はボタンパラメータ情報を含み、通常、タグの精度を向上させるために、ボタンタイプ情報及びボタンパラメータ情報を同時に第1トレーニングタグとすることを考慮する。人間のプレイヤは、操作中に、使用するボタンを決定し、そして、ボタンの操作パラメータを決定することが一般であるため、本出願は、階層化のタグ構成を利用する。即ち、まず、現時点で実行するボタンを予測し、そして、ボタンのリリースパラメータを予測する。
理解を容易にするために、以下、図面に基づいて例を挙げて第1トレーニングタグを説明する。ボタンパラメータ情報は、主に、三種類の情報に分けられ、それぞれ、方向型の情報、位置型の情報及びターゲット型の情報である。1周の方向は360度で、6度毎に1つのタグを設定すれば、方向型の情報を60個の方向に離散化することができる。1つのヒーローキャラクターは通常画像の1000画素を占めるため、位置型の情報を30×30の位置に離散化することができる。ターゲット情報は、攻撃ターゲットの候補として表され、スキルを発動するときにヒーローキャラクターが攻撃するターゲットを指してもよい。
図11を参照し、図11は本出願の実施形態における微操作タグの概略図であり、図11に示すように、ヒーローキャラクターは、A1で示される範囲でスキル3を発動し、スキルの方向が右下で45度である。A2はスキル3の操作インターフェースにおける位置を示す。これにより、人間のプレイヤの操作が「スキル3+方向」であることを示す。図12を参照し、図12は本出願の実施形態における微操作タグの他の概略図であり、図12に示すように、ヒーローキャラクターは、A3で示される方向に従って移動し、移動方向は右である。これにより、人間のプレイヤの操作が「移動+方向」であることを示す。図13を参照し、図13は本出願の実施形態における微操作タグの他の概略図であり、図13に示すように、ヒーローキャラクターは、スキル1を発動し、A4はスキル1の操作インターフェースにおける位置を示す。これにより、人間のプレイヤの操作が「スキル1」であることを示す。図14を参照し、図14は本出願の実施形態における微操作タグの概略図であり、図14に示すように、ヒーローキャラクターは、A5で示される範囲でスキル2を発動し、スキルの方向は右上で45度である。A6はスキル2の操作インターフェースにおける位置を示す。これにより、人間のプレイヤの操作が「スキル2+方向」であることを示す。
AIは、異なるリリースタイプのスキルを予測することができる。即ち、方向ボタンについて方向を予測し、位置ボタンについて位置を予測し、ターゲットボタンについて具体的なターゲットを予測する。階層タグの構成方法は、ゲーム中の人間のプレイヤの実際の操作の意図に近づけ、AIの学習に有利である。
次に、本出願の実施形態において、第1トレーニングタグはボタンタイプ情報及び/又はボタンパラメータ情報を含み、ボタンパラメータ情報は、方向パラメータ、位置パラメータ及びターゲットパラメータの少なくとも1つを含み、方向パラメータは、キャラクターが移動する方向を示すために用いられ、位置パラメータは、キャラクターの所在している位置を示すために用いられ、ターゲットパラメータは、キャラクターの出力すべきオブジェクトを示すために用いられることについて説明した。上記の方式により、第1トレーニングタグの内容をより洗練させ、階層的にタグを作成することで、ゲーム中の人間のプレイヤの実際の操作の意図に近づけることができ、AIの学習能力の向上に有利である。
好ましくは、上記の図7に対応する実施形態を基に、本出願の実施形態で提供されるモデルトレーニングの方法の第3オプション実施形態において、第2トレーニングタグは操作の意図情報及びキャラクター位置情報を含み、操作の意図情報は、キャラクターとオブジェクトとがインタラクトする目的を示し、キャラクター位置情報は、キャラクターの第1領域における位置を示す。
本実施形態において、第2トレーニングタグに含まれる内容について詳細に説明し、第2トレーニングタグは操作の意図情報及びキャラクター位置情報を含む。実際の応用において、人間のプレイヤは、現在のゲーム状態に応じて大局観による策略決定を行い、例えば、道路上のラインをクリアしたり、当方のジャングルエリアのモンスターを攻撃したり、ミッドでチームバトルに参加したり、ローワーでの防御タワーをトップリングしたりする。これらの大局観による策略決定は、微操作のようにそれに対応する明示的な操作ボタンがなく、潜んだ意図としてプレイヤデータに反映される。
理解を容易にするために、図15を参照し、図15は本出願の実施形態における大局観タグの概略図であり、例示的に、タイムラインの変化に応じて人間の大局観、及び対応する大局観タグ(第2トレーニングタグ)を取得する。1ラウンドの人間のプレイヤのバトルビデオを「チームファイト」、「ファーム」、「ジャングル」及び「トップリングタワー」などのシナリオに分けることができ、これらのシナリオをモデリングすると、プレイヤの大局観による意図の操作の意図情報として表現することができ、ミニマップを24*24個のグリッドに離散化し、キャラクター位置情報は、キャラクターが次回の攻撃のときに所在しているグリッドとして表される。図15に示すように、第2トレーニングタグは、操作の意図情報+キャラクター位置情報である。即ち、「ジャングル+座標A」、「チームファイト+座標B」及び「ファーム+座標C」としてそれぞれ表される。
次に、本出願の実施形態において、第2トレーニングタグは、操作の意図情報及びキャラクター位置情報を含み、操作の意図情報はキャラクターとオブジェクトがインタラクトする目的を示し、キャラクター位置情報はキャラクターの第1領域における位置を示すことについて説明した。上記の方式により、操作の意図情報及びキャラクター位置情報を併用することで、人間のプレイヤの大局観を反映し、MOBAゲームに大局観による策略決定は非常に重要であり、ソリューションのフィージビリティとオペラビリティを向上させる。
好ましくは、上記の図7に対応する実施形態を基に、本出願の実施形態で提供されるモデルトレーニングの方法の第4のオプション実施形態において、各トレーニング画像におけるトレーニング特徴セット、及び各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するステップは、
各トレーニング画像におけるトレーニング特徴セットを処理して、第1ターゲット特徴、第2ターゲット特徴及び第3ターゲット特徴を含むターゲット特徴セットを取得するステップと、
長短期記憶LSTM層により、ターゲット特徴セットに対応する第1予測タグ及び第2予測タグを取得するステップと、
各トレーニング画像の第1予測タグ、第1トレーニングタグ、第2予測タグ及び第2トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップと、
モデルコアパラメータに基づいてターゲットジョイントモデルを生成するステップとを含み、
第1予測タグは、予測によって得られた操作の内容に関するタグであり、
第2予測タグは、予測によって得られた操作の意図に関するタグであり、
第1予測タグと第2予測タグは、予測値に属し、
第1トレーニングタグと第2トレーニングタグとは、真の値に属する。
本実施形態において、トレーニングによりターゲットジョイントモデルが取得される概略プロセスについて説明し、理解を容易にするために、図16を参照し、図16は本出願の実施形態におけるターゲットジョイントモデルの1つのネットワークの構造概略図である。図16に示すように、モデルの入力は現在フレームのトレーニング画像のトレーニング特徴セットであり、当該トレーニング特徴セットはミニマップクラス画像特徴(即ち、第1トレーニング特徴)、現在視野クラス画像特徴(即ち、第2トレーニング特徴)及びヒーローキャラクターのベクトル特徴(即ち、第3トレーニング特徴)を含む。クラス画像特徴は、それぞれ畳み込みネットワークを介し符号化され、ベクトル特徴は全結合ネットワークを介して符号化されてターゲット特徴セットを取得し、ターゲット特徴セットは第1ターゲット特徴、第2ターゲット特徴及び第3ターゲット特徴を含む。なお、第1ターゲット特徴は第1トレーニング特徴を処理して得られたものであり、第2ターゲット特徴は第2トレーニング特徴を処理して得られたものであり、第3ターゲット特徴は第3トレーニング特徴を処理して得られたものである。次に、ターゲット特徴セットを共通の符号化層に連結する。符号化層は長短期記憶(Long Short−Term Memory、LSTM)ネットワーク層に入力され、LSTMネットワーク層は、主に、ヒーローの視野の一部が可視という問題を解決するために用いられる。
なお、LSTMネットワークは、時間回帰型ニューラルネットワークであり、時間シーケンスにおける間隔及び遅延が相対的に長い重要なイベントの処理及び予測に適する。LSTMは、回帰型ニューラルネットワーク(Recurrent Neural Network、RNN)との違いは、主に、アルゴリズムに情報が有用か否かを判断するプロセッサーを追加して、このプロセッサーが作用している構造はユニットと呼ばれる。1つのユニットに3つのゲートがセットされ、それぞれ、入力ゲート、忘却ゲート及び出力ゲートである。1つの情報はLSTMネットワーク層に入って、ルールに従って、有用か否かを判断することができ、アルゴリズム認証に合致した情報のみを残し、合致しない情報が忘却ゲートを介して忘却される。LSTMは、長いシーケンス依存の問題を解決するための効果的な技術であり、この技術の普遍性は非常に高い。MOBAゲームの場合、不可視の視野の問題が存在する可能性がある。つまり、当方のヒーローキャラクターは、当方のユニット(例えば、チームメイトのヒーローキャラクター)の近くにいる敵のヒーロー、モンスターとラインのみを観察することができ、他の位置にいる敵のユニットを観察することができず、敵のヒーローは芝生に隠れたり、ステルススキルを使用したりして、自分の視野を遮ることができる。この場合、モデルをトレーニングしている過程で情報の完全性を考慮するため、LSTMネットワーク層を利用してこれらの非表示の情報を復元する必要がある。
LSTM層の出力結果により、当該フレームのトレーニング画像の第1予測タグ及び第2予測タグが得られる。手動によるマーキング結果により、当該フレームのトレーニング画像の第1トレーニングタグ及び第2トレーニングタグを特定するため、この場合、損失関数を利用して第1予測タグ及び第1トレーニングタグのうちの最小値を取得し、損失関数を利用して第2予測タグ及び第2トレーニングすべきタグのうちの最小値を取得してもい。最小値である場合に、モデルコアパラメータを特定する。なお、モデルコアパラメータは、微操作タスク(例えば、ボタン、移動、一般攻撃、スキル1、スキル2及びスキル3など)でのモデルパラメータ及び大局観タスクでのモデルパラメータを含む。モデルコアパラメータに基づいてターゲットジョイントモデルを生成する。
各出力タスクは、個別に演算されてもよく、即ち、各タスクの出力層全結合ネットワークパラメータは、当該タスクのみに影響されると理解すべきである。ターゲットジョイントモデルには、大局観による位置及び意図を予測する支援タスクが含まれ、当該大局観タスクの出力はカスケードで微操作タスクの符号化層に入力される。
なお、損失関数は、モデルの予測値と真の値との一致していない程度を推定するために用いられ、非負の実数値関数である。損失関数が小さければ小さいほど、識別モデルのロバスト性が良くなる。損失関数は経験的危険関数のコアであり、構造危険関数の重要な部分である。一般的な損失関数は、ヒンジ損失(Hinge Loss)、クロスエントロピー損失(Cross EntropyLoss)、二乗損失(Square Loss)及び指数損失(Exponential Loss)を含むが、それらに限定されない。
次に、本出願の実施形態において、トレーニングによりターゲットジョイントモデルが取得されるプロセスを提供し、主に以下の内容を含む。まず、各トレーニング画像におけるトレーニング特徴セットを処理して、ターゲット特徴セットを取得し、次に、LSTMにより、ターゲット特徴セットに対応する第1予測タグ及び第2予測タグを取得し、さらに、各トレーニング画像の第1予測タグ、第1トレーニングタグ、第2予測タグ及び第2トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得し、当該モデルコアパラメータはターゲットジョイントモデルを生成するために用いられる。上記の方式により、LSTM層により、一部の視野の観測不可問題を解決することができる。つまり、LSTM層は過去の一定期間のデータを取得するため、データをより完全にすることができ、モデルトレーニングプロセスでの推定及び策略決定に有利である。
好ましくは、上記の図7に対応する第4の実施形態を基に、本出願の実施形態で提供されるモデルトレーニングの方法の第5のオプション実施形態において、各トレーニング画像におけるトレーニング特徴セットを処理して、ターゲット特徴セットを取得するステップは、全結合層により、各トレーニング画像における第3トレーニング特徴を処理して、一次元ベクトル特徴である第3ターゲット特徴を取得するステップと、畳み込み層により、各トレーニング画像における第2トレーニング特徴を処理して、一次元ベクトル特徴である第2ターゲット特徴を取得するステップと、畳み込み層により、各トレーニング画像における第1トレーニング特徴を処理して、一次元ベクトル特徴である第1ターゲット特徴を取得するステップとを含んでもよい。
本実施形態において、モデルから入力される各フレームのトレーニング画像のトレーニング特徴セットをどのように処理するかについて説明し、当該トレーニング特徴セットには、ミニマップクラス画像特徴(即ち、第1トレーニング特徴)、現在視野クラス画像特徴(即ち、第2トレーニング特徴)及びヒーローキャラクターのベクトル特徴(即ち、第3トレーニング特徴)が含まれる。例示として、第3トレーニング特徴についての処理方式は、第3トレーニング特徴をFC層に入力し、FC層を介して出力し、第3ターゲット特徴を取得する。FC層の作用は、分散型の特徴表現をサンプルマーキング空間にマッピングすることである。FC層の各ノードは前の層の全てのノードと接続され、前に抽出された特徴を統合するために用いられる。全接続の特性によって、通常の場合に、全結合層のパラメータも最も多い。
第1トレーニング特徴及び第2トレーニング特徴についての処理方式は、その両方をそれぞれ畳み込み層に入力し、畳み込み層を介して第1トレーニング特徴に対応する第1ターゲット特徴を出力し、第2トレーニング特徴に対応する第2ターゲット特徴を出力する。畳み込み層により、元の画像を平らにし(flat)、画像データについて、1つの画素は、上、下、左、右などの方向のデータと大きな関連性があり、全結合の場合、データを展開した後に、ピクチャの関連性が無視され易く、又は関連のない二つの画素を強制的に関連することがある。従って、画像データに対して畳み込み処理を行う必要がある。第1トレーニング特徴に対応する画像の画素が10×10であると仮定して、畳み込み層を通じて得られた第1ターゲット特徴は100次元のベクトル特徴である。第2トレーニング特徴に対応する画像画素が10×10であると仮定して、畳み込み層を通じて得られた第2ターゲット特徴は100次元のベクトル特徴である。第3トレーニング特徴に対応する第3ターゲット特徴が10次元のベクトル特徴であると仮定して、連結(concat)層を通じて210(100+100+10)のベクトル特徴を取得することができる。
また、本出願の実施形態において、さらに、トレーニング特徴セットを処理してもよい。即ち、全結合層により各トレーニング画像における第1トレーニング特徴を処理して、第1ターゲット特徴を取得し、畳み込み層により各トレーニング画像における第2トレーニング特徴を処理して、第2ターゲット特徴を取得し、畳み込み層により各トレーニング画像における第3トレーニング特徴を処理して、第3ターゲット特徴を取得してもよい。上記の方式により、すべてが一次元ベクトルである特徴群を取得することができるため、これらのベクトル特徴に対して連結処理を行うことができ、後続のモデルトレーニングに便利であり、ソリューションのフィージビリティとオペラビリティの向上に有利である。
好ましくは、上記の図7に対応する第4の実施形態を基に、本出願の実施形態で提供されるモデルトレーニングの方法の第6のオプション実施形態において、長短期記憶LSTM層により、ターゲット特徴セットに対応する第1予測タグ及び第2予測タグを取得するステップは、
長短期記憶LSTM層により、ターゲット特徴セットに対応する第1予測タグ、第2予測タグ、及び、予測によって得られた勝敗の状況に関するタグである第3予測タグを取得するステップを含み、
各トレーニング画像の第1予測タグ、第1トレーニングタグ、第2予測タグ及び第2トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップは、
各トレーニング画像に対応する、実際の勝敗の状況を示すための第3トレーニングタグを取得するステップと、
第1予測タグ、第1トレーニングタグ、第2予測タグ、第2トレーニングタグ、第3予測タグ及び第3トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップとを含んでもよく、
第3トレーニングタグは、予測値に属し、第3予測タグは、真の値に属する。
本実施形態において、さらに、ターゲットジョイントモデルは勝敗の状況をさらに予測することができることについて説明した。例示として、上記の図7に対応する第4の実施形態を基に、LSTM層の出力結果に基づいて当該フレームのトレーニング画像の第3トレーニングタグを取得することができる。手動によるマーキング結果に応じて、当該フレームのトレーニング画像の第3予測タグ及び第3トレーニングタグを特定するため、この場合、損失関数を利用して第3予測タグと、第3トレーニングタグとのうちの最小値を取得し、最小値である場合、モデルコアパラメータを特定する。この場合、モデルコアパラメータは、微操作タスク(例えば、ボタン、移動、一般攻撃、スキル1、スキル2及びスキル3など)でのモデルパラメータ及び大局観タスクでのモデルパラメータのみならず、同時に勝敗タスクでのモデルパラメータを含み得、最後に、モデルコアパラメータに応じてターゲットジョイントモデルを生成する。
また、本出願の実施形態において、ターゲットジョイントモデルが勝敗に関するタグをさらにトレーニングし、即ち、サーバーはLSTM層によりターゲット特徴セットに対応する第1予測タグ、第2予測タグ、及び予測により得られた勝敗の状況に関するタグである第3予測タグを取得し、次に、各トレーニング画像に対応する第3トレーニングタグ取得し、最後に、第1予測タグ、第1トレーニングタグ、第2予測タグ、第2トレーニングタグ、第3予測タグ及び第3トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得する。上記の方式により、ターゲットジョイントモデルは、ゲームの勝率を予測することもできる。それによって状況の認知と学習を強化することができ、モデルアプリケーションの信頼性と多様性を向上させる。
好ましく、上記の図7及び図7に対応する第1〜第6実施形態のいずれかを基に、本出願の実施形態で提供されるモデルトレーニングの方法の第7のオプション実施形態において、各トレーニング画像におけるトレーニング特徴セット、各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
ターゲットジョイントモデルによりトレーニングビデオに対応する、ターゲットシナリオでの関連データを含むターゲットシナリオデータを取得するステップと、
ターゲットシナリオデータ、第1トレーニングタグ及び第1予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップと、
ターゲットモデルパラメータを利用してターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップをさらに含んでもよく、
第1予測タグは、予測により得られた操作の内容に関するタグであり、第1予測タグが予測値に属し、第1トレーニングタグが真の値に属する。
本実施形態において、MOBAゲームのプレイヤが非常に多くて、通常、大量の人間のプレイヤデータは教師あり学習トレーニングに使用されることができる。これにより、モデルにより人間の操作をシミュレーションする。しかしながら、人間の緊張や集中力の欠如などのさまざまな要因、例えば、スキルリリースの方向のずれや敵の回避のスキルの遅れなどによる誤操作が存在し、トレーニングデータに不良サンプルが存在する。それに鑑み、本出願は、強化学習を強化することでターゲットジョイントモデルにおける一部のタスク層を最適化する。例えば、微操作FC層に対して強化学習を行わず、大局観FC層のみに対して強化学習を行う。
理解を容易にするために、図17を参照し、図17は本出願の実施形態における強化ジョイントモデルの1つのシステムの構造概略図であり、図17に示すように、ターゲットジョイントモデルは、ジョイントモデル、大局観FC層及び微操作FC層を含む。ジョイントモデルにおける符号化層及び大局観FC層は、既に教師あり学習により相応するコアモデルパラメータを取得したものである。なお、強化学習のプロセスにおいて、ジョイントモデルにおける符号化層及び大局観FC層のコアモデルパラメータはそのままであり、このように、強化学習の場合、特徴表現を学習する必要がないため、強化学習の収束速度が速くなる。チームファイトシナリオで微操作タスク策略決定ステップの数が平均的に100ステップ(約20秒)であり、策略決定ステップの数を効果的に削減することができる。微操作FC層を強化することで、AIのスキルヒット率及び敵の回避のスキルなどの重要な能力を向上させることができる。微操作FC層は強化学習アルゴリズムを利用してトレーニングし、アルゴリズムは、具体的に、深層強化学習(Proximal Policy Optimization、PPO)アルゴリズムであってもよい。
以下、強化学習の流れについて説明する。
ステップ1において、トレーニングしてターゲットジョイントモデルを取得した後に、サーバーは、教師あり学習により得られたターゲットジョイントモデルをロードし、ジョイントモデルの符号化層及び微操作FC層を固定し、ゲーム環境をロードする必要がある。
ステップ2において、トレーニングビデオを取得する。なお、トレーニングビデオは複数フレームのインタラクション画像を含み、ターゲットジョイントモデルによりトレーニングビデオにおける起始フレームからバトルを開始し、ヒーローチームファイトシナリオのターゲットシナリオデータを保存し、ターゲットシナリオデータは特徴、動作、奨励信号及びジョイントモデルネットワーク出力の確率分布を含み得る。なお、特徴はヒーローの属性のベクトル特徴、ミニマップクラス画像特徴及び現在視野クラス画像特徴である。動作は、プレイヤがヒーローキャラクターを制御する場合に利用するボタンである。奨励信号は、ヒーローキャラクターがチームファイト中に敵のヒーローキャラクターを殺した回数である。ジョイントモデルネットワークによって出力される確率分布は、微操作タスクの各タグの分布確率として表すことができ、例えば、タグ1の分布確率が0.1、タグ2の分布確率が0.3、タグ3の分布確率が0.6である。
ステップ3において、ターゲットシナリオデータ、第1トレーニングタグ及び第1予測タグに応じて、トレーニングしてターゲットモデルパラメータを取得し、PPOアルゴリズムを利用してターゲットジョイントモデルにおけるコアモデルパラメータを更新する。なお、ここで、微操作FC層のモデルパラメータのみを更新する。つまり、第1トレーニングタグ及び第1予測タグに基づいて更新後のモデルパラメータを生成する。なお、第1トレーニングタグ及び第1予測タグはどちらも微操作タスクに関するタグである。
ステップ4において、トレーニングビデオの各フレーム画像に対してステップ2からステップ4までの処理を行い、最大反復フレーム数に達していないと、更新されたターゲットジョイントモデルをバトル環境に送信し、ステップ2に戻る。最大反復フレーム数に達すると、ステップ5に進む。最大反復フレーム数は、経験に基づいて設定されてもよいし、シナリオに基づいて設定されてもよく、本出願の実施形態において、それを限定しない。
ステップ5において、最終的に強化した後に得られた強化ジョイントモデルを保存する。
さらに、本出願の実施形態において、さらに強化学習によりターゲットジョイントモデルにおける一部のタスク層を最適化し、微操作タスクのこの一部を強化する必要がある場合、サーバーはトレーニングビデオを取得する。次に、ターゲットジョイントモデルによりトレーニングビデオに対応するターゲットシナリオデータを取得し、ターゲットシナリオデータ、第1トレーニングタグ及び第1予測タグに基づいて、トレーニングしてターゲットモデルパラメータを取得する。最後に、サーバーは、ターゲットモデルパラメータを利用してターゲットジョイントモデルを更新することで、強化ジョイントモデルを取得する。上記の方式により、微操作FC層を強化することで、AI能力を向上でき、また、強化学習は、人間の緊張や集中力の欠如などのさまざまな要因による誤操作の問題を克服することもできる。これにより、トレーニングデータに存在する不良サンプルの数を大幅に減少し、さらに、モデルの信頼性、及びモデルによる予測の精度を向上する。強化学習方法は、シナリオの一部のみを強化するため、策略決定ステップの数を削減し、収束速度が速くなる。
好ましく、上記の図7及び図7に対応する第1〜第7の実施形態のいずれかを基に、本出願の実施形態で提供されるモデルトレーニングの方法の第8のオプション実施形態において、各トレーニング画像におけるトレーニング特徴セット、各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
ターゲットジョイントモデルによりトレーニングビデオに対応するターゲットシナリオでの関連データを含むターゲットシナリオデータを取得するステップと、
ターゲットシナリオデータ、第2トレーニングタグ及び第2予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップと、
ターゲットモデルパラメータを利用してターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップとをさらに含んでもよく、
第2予測タグは、予測により得られた操作の意図に関するタグであり、
第2予測タグは、予測値に属し、第2トレーニングタグは、真の値に属する。
本実施形態において、MOBAゲームのプレイヤが非常に多いため、通常、大量の人間のプレイヤデータが教師あり学習トレーニングに使用される。これにより、モデルにより人間の操作をシミュレーションする。しかしながら、人間の緊張や集中力の欠如などのさまざまな要因、例えば、スキルリリースの方向のずれや敵の回避のスキルの遅れなどによって誤操作が存在し、トレーニングデータに不良サンプルが存在する。それに鑑み、本出願は、強化学習を強化することでターゲットジョイントモデルにおける一部のタスク層を最適化する。例えば、微操作FC層に対して強化学習を行わず、大局観FC層のみに対して強化学習を行う。
理解を容易にするために、図18を参照し、図18は本出願の実施形態における強化ジョイントモデルの他のシステムの構造概略図であり、図18に示すように、ターゲットジョイントモデルは、ジョイントモデル、大局観FC層及び微操作FC層を含む。ジョイントモデルにおける符号化層及び微操作FC層は、既に教師あり学習により相応するコアモデルパラメータを取得したものである。なお、強化学習のプロセスにおいて、ジョイントモデルにおける符号化層及び微操作FC層のコアモデルパラメータはそのままである。このように、強化学習の場合に、特徴表現を学習する必要がないため、強化学習の収束速度が速くなる。大局観FC層を強化することで、AIのマクロ策略決定能力を向上することができる。大局観FC層は強化学習アルゴリズムを利用してトレーニングし、アルゴリズムは、PPO(Proximal Policy Optimization:近傍方策最適化)アルゴリズムや、深層強化学習(Actor−Critic)アルゴリズムであってもよい。
以下、強化学習の流れを説明する。
ステップ1において、トレーニングしてターゲットジョイントモデルを取得した後に、サーバーは、教師あり学習により得られたターゲットジョイントモデルをロードし、ジョイントモデルの符号化層及び微操作FC層を固定し、ゲーム環境をロードする必要がある。
ステップ2において、トレーニングビデオを取得する。なお、トレーニングビデオは複数フレームのインタラクション画像を含み、ターゲットジョイントモデルによりトレーニングビデオにおける起始フレームからバトルを開始し、ヒーローチームファイトシナリオのターゲットシナリオデータを保存し、ターゲットシナリオデータは「ジャングル」、「ファーム」、「チームファイト」及び「トップリングタワー」などのシナリオでのデータを含む。
ステップ3において、ターゲットシナリオデータ、第2トレーニングタグ及び第2予測タグに応じて、トレーニングしてターゲットモデルパラメータを取得し、Actor−Criticアルゴリズムを利用してターゲットジョイントモデルにおけるコアモデルパラメータを更新する。なお、ここで、大局観FC層のモデルパラメータのみを更新し、つまり、第2トレーニングタグ及び第2予測タグに応じて更新後のモデルパラメータを生成する。なお、第2トレーニングタグ及び第2予測タグはどちらも大局観タスクに関するタグである。
ステップ4において、トレーニングビデオの各フレーム画像に対してステップ2からステップ4までの処理を行い、最大反復フレーム数に達していないと、更新されたターゲットジョイントモデルをバトル環境に送信し、ステップ2に戻る。最大反復フレーム数に達すると、ステップ5に進む。
ステップ5において、最終的に強化した後に得られた強化ジョイントモデルを保存する。
さらに、本出願の実施形態において、さらに強化学習によりターゲットジョイントモデルにおける一部のタスク層を最適化し、当該タスクのこの一部を強化する必要がある場合、サーバーはトレーニングビデオを取得する。次に、ターゲットジョイントモデルによりトレーニングビデオに対応するターゲットシナリオデータを取得し、ターゲットシナリオデータ、第2トレーニングタグ及び第2予測タグに応じて、トレーニングしてターゲットモデルパラメータを取得する。最後に、サーバーは、ターゲットモデルパラメータを利用してターゲットジョイントモデルを更新することで、強化ジョイントモデルを取得する。上記の方式により、大局観FC層を強化することで、AI能力を向上できる。また、強化学習は、人間の緊張や集中力の欠如などのさまざまな要因によって存在する誤操作の問題を克服することもでき、これにより、トレーニングデータに存在する不良サンプルの数を大幅に減少し、さらに、モデルの信頼性、及びモデルによる予測の精度を向上する。強化学習方法は、シナリオの一部のみを強化するため、策略決定ステップの数を削減し、収束速度が速くなる。
以下、本出願におけるサーバーについて詳細に説明し、図19を参照し、図19は本出願の実施形態におけるサーバーの一実施形態の概略図であり、サーバー30は、
予測画像を取得する取得モジュール301と、
取得モジュール301によって取得された前記予測画像における予測特徴セットを抽出する抽出モジュール302とを含み、
なお、前記予測特徴セットには、第1領域の画像特徴を示す第1予測特徴、前記第1領域よりも範囲が小さい第2領域の画像特徴を示す第2予測特徴、及び、インタラクション操作に関する属性特徴を示す第3予測特徴が含まれ、
取得モジュール301は、さらに、ターゲットジョイントモデルにより、抽出モジュール302によって抽出された前記予測特徴セットに対応する第1タグ及び第2タグを取得するために利用される。なお、前記第1タグは操作の内容に関するタグであり、前記第2タグは操作の意図に関するタグである。
本実施形態において、取得モジュール301は、予測画像を取得し、抽出モジュール302は取得モジュール301によって取得された前記予測画像における予測特徴セットを抽出する。なお、前記予測特徴セットは第1予測特徴、第2予測特徴及び第3予測特徴を含み、前記第1予測特徴が第1領域の画像特徴を示し、前記第2予測特徴が第2領域の画像特徴を示し、前記第3予測特徴がインタラクション操作に関する属性特徴を示し、前記第1領域の範囲が前記第2領域の範囲よりも小さい。取得モジュール301は、ターゲットジョイントモデルにより、抽出モジュール302によって抽出された前記予測特徴セットに対応する第1タグ及び第2タグを取得する。なお、前記第1タグは操作の内容に関するタグであり、前記第2タグは操作の意図に関するタグである。
本出願の実施形態において、サーバーを提供し、まず、当該サーバーは、予測画像を取得し、次に、予測画像における予測特徴セットを抽出する。なお、予測特徴セットには第1予測特徴、第2予測特徴及び第3予測特徴が含まれ、第1予測特徴は、第1領域の画像特徴を示し、第2予測特徴は、第2領域の画像特徴を示し、第3予測特徴は、インタラクション操作に関する属性特徴を示し、第1領域の範囲が第2領域の範囲よりも小さい。最後に、サーバーは、ターゲットジョイントモデルにより予測画像に対応する第1タグ及び第2タグを取得することができる。なお、第1タグは操作の内容に関するタグであり、第2タグは操作の意図に関するタグである。上記の方式により、1つのジョイントモデルを使用するだけで微操作及び大局観を予測することができる。なお、微操作の予測結果は、第1タグとして示され、大局観の予測結果は、第2タグとして示される。従って、大局観モデル及び微操作モデルを1つのジョイントモデルにマージし、階層化モデルでのハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。
好ましく、上記の図19に対応する実施形態を基に、本出願の実施形態で提供されるサーバー30の他の実施形態において、前記取得モジュール301は、前記ターゲットジョイントモデルにより前記予測特徴セットに対応する前記第1タグ、前記第2タグ及び第3タグを取得するために用いられる。なお、前記第3タグは、勝敗の状況に関するタグである。
次に、本出願の実施形態において、ターゲットジョイントモデルは、第1タグ及び第2タグを出力できるだけでなく、さらに、第3タグを出力でき、即ち、ターゲットジョイントモデルは予測勝敗の状況を予測することもできる。上記の方式により、実際のアプリケーションにおいて、状況の結果をより良く予測でき、予測の信頼性の向上に寄与し、予測の柔軟性と実用性を向上させる。
以下、本出願におけるサーバーについて詳細に説明し、図20を参照し、図20は本出願の実施形態におけるサーバーの一実施形態の概略図であり、サーバー40は、
N個(Nは1以上の整数)のトレーニング画像を含むトレーニング画像セットを取得する取得モジュール401と、
取得モジュール401によって取得された各トレーニング画像におけるトレーニング特徴セットを抽出する抽出モジュール402と、
抽出モジュール402によって抽出された前記各トレーニング画像における前記トレーニング特徴セット、前記取得モジュール401によって取得された前記各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグに応じて、トレーニングしてターゲットジョイントモデルを取得するトレーニングモジュール403とを含み、
なお、前記トレーニング特徴セットには、第1領域の画像特徴を示す第1トレーニング特徴、前記第1領域よりも範囲が大きい第2領域の画像特徴を示す第2トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第3トレーニングすべき特徴が含まれ、
取得モジュール401は、さらに、前記各トレーニング画像に対応する前記第1トレーニングタグ及び前記第2トレーニングタグを取得するために用いられる。なお、前記第1トレーニングタグは操作の内容に関するタグであり、前記第2トレーニングタグは操作の意図に関するタグである。
に用いられる。
本実施形態において、取得モジュール401はトレーニング画像セットを取得する。なお、前記トレーニング画像セットはN個のトレーニング画像を含み、前記Nは1以上の整数であり、抽出モジュール402は、取得モジュール401によって取得された各トレーニング画像におけるトレーニング特徴セットを抽出する。なお、前記トレーニング特徴セットは、第1トレーニング特徴、第2トレーニング特徴及び第3トレーニング特徴を含み、前記第1トレーニング特徴が第1領域の画像特徴を示し、前記第2トレーニング特徴が第2領域の画像特徴を示し、前記第3トレーニング特徴がインタラクション操作に関する属性特徴を示し、前記第1領域の範囲が前記第2領域の範囲よりも小さい。取得モジュール401は、前記各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグを取得する。なお、前記第1トレーニングタグは、操作の内容に関するタグであり、前記第2トレーニングタグは操作の意図に関するタグであり、トレーニングモジュール403は、抽出モジュール402によって抽出された前記各トレーニング画像における前記トレーニング特徴セット、取得モジュール401によって取得された前記各トレーニング画像に対応する前記第1トレーニングタグ及び前記第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得する。
本出願の実施形態において、サーバーを説明し、まず、サーバーはトレーニング画像セットを取得し、次に、各トレーニング画像におけるトレーニング特徴セットを抽出する。なお、トレーニング特徴セットは、第1トレーニング特徴、第2トレーニング特徴及び第3トレーニング特徴を含む。次に、サーバーは、各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグを取得し、最後に、各トレーニング画像におけるトレーニング特徴セット、各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグに応じて、トレーニングしてターゲットジョイントモデルを取得する必要がある。上記の方式により、微操作及び大局観を同時に予測できるモデルを設計することにより、大局観モデル及び微操作モデルを1つのジョイントモデルにマージし、階層化モデルでのハードハンドオーバー問題を効果的に解決し、予測の利便性を向上させる。同時に、大局観タスクを考慮することで、マクロ策略決定の精度を効果的に向上し、特に、MOBAゲームにおいて、大局観による策略決定は非常に重要である。
好ましくは、上記の図20に対応する実施形態を基に、本出願の実施形態で提供されるサーバー40の他の実施形態において、前記第1トレーニング特徴は二次元ベクトル特徴であり、前記第1トレーニング特徴は、前記第1領域でのキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報及び防御オブジェクト位置情報の少なくとも1つを含み、
前記第2トレーニング特徴は二次元ベクトル特徴であり、前記第2トレーニング特徴は、前記第2領域でのキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報、防御オブジェクト位置情報、障碍オブジェクト位置情報及び出力オブジェクト位置情報の少なくとも1つを含み、
前記第3トレーニング特徴は一次元ベクトル特徴であり、前記第3トレーニング特徴は、キャラクターヒットポイント、キャラクター出力値、時間情報及びスコア情報の少なくとも1つを含み、
前記第1トレーニング特徴と、前記第2トレーニング特徴と、前記第3トレーニング特徴との間に対応関係がある。
次に、本出願の実施形態において、3種類のトレーニング特徴の内容について説明し、第1トレーニング特徴は二次元ベクトル特徴であり、第2トレーニング特徴は二次元ベクトル特徴であり、第3トレーニング特徴は一次元ベクトル特徴である。上記の方式により、一方で、3種類のトレーニング特徴に含まれる具体的な情報を特定でき、これにより、より多い情報量を取得しモデルトレーニングに使用する。他方で、第1トレーニング特徴及び第2トレーニング特徴は二次元ベクトル特徴であるため、特徴の空間表現の向上に有利であり、特徴の多様性を増加させる。
好ましく、上記の図20に対応する実施形態を基に、出願の実施形態で提供されるサーバー40の他の実施形態において、前記第1トレーニングタグは、ボタンタイプ情報及び/又はボタンパラメータ情報を含み、
前記ボタンパラメータ情報は方向パラメータ、位置パラメータ及びターゲットパラメータの少なくとも1つを含み、前記方向パラメータは、キャラクターが移動する方向を示すために用いられ、前記位置パラメータは、前記キャラクターの所在する位置を示すために用いられ、前記ターゲットパラメータは、前記キャラクターの出力すべきオブジェクト示すために用いられる。
次に、本出願の実施形態において、第1トレーニングタグはボタンタイプ情報及び/又はボタンパラメータ情報を含み、ボタンパラメータ情報が方向パラメータ、位置パラメータ及びターゲットパラメータの少なくとも1つを含み、方向パラメータがキャラクターの移動する方向を示すために用いられ、位置パラメータがキャラクターの所在している位置を示すために用いられ、ターゲットパラメータがキャラクターの出力すべきオブジェクトを示すために用いられることについて説明した。上記の方式により、第1トレーニングタグの内容をより洗練させ、階層的にタグを作成することで、ゲーム中の人間のプレイヤの実際の操作の意図に近づけることができ、AIの学習能力の向上に有利である。
好ましく、上記の図20に対応する実施形態を基に、本出願の実施形態で提供されるサーバー40の他の実施形態において、前記第2トレーニングタグは操作の意図情報及びキャラクター位置情報を含み、
前記操作の意図情報は、キャラクターとオブジェクトとがインタラクションする目的を示し、前記キャラクター位置情報が前記キャラクターの前記第1領域における位置を示す。
次に、本出願の実施形態において、第2トレーニングタグは操作の意図情報及びキャラクター位置情報を含み、操作の意図情報は、キャラクターとオブジェクトとがインタラクションする目的を示し、キャラクター位置情報はキャラクターの第1領域における位置を示すことについて説明した。上記の方式により、操作の意図情報及びキャラクター位置情報を併用することで人間のプレイヤの大局観を反映し、MOBAゲームに大局観による策略決定は非常に重要であり、ソリューションのフィージビリティとオペラビリティを向上させる。
好ましく、上記の図20に対応する実施形態を基に、本出願の実施形態で提供されるサーバー40の他の実施形態において、トレーニングモジュール403は、以下のステップを実行するために利用されてもよい。即ち、前記各トレーニング画像における前記トレーニング特徴セットを処理して、第1ターゲット特徴、第2ターゲット特徴及び第3ターゲット特徴を含むターゲット特徴セットを取得するステップと、
長短期記憶LSTM層により、前記ターゲット特徴セットに対応する第1予測タグ及び第2予測タグを取得するステップと、
前記各トレーニング画像の前記第1予測タグ、前記第1トレーニングタグ、前記第2予測タグ及び前記第2トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップと
前記モデルコアパラメータに基づいて前記ターゲットジョイントモデルを生成するステップとを含み、
前記第1予測タグは、予測によって得られた操作の内容に関するタグであり、
前記第2予測タグは、予測によって得られた操作の意図に関するタグであり、
前記第1予測タグと前記第2予測タグとは、予測値に属し、前記第1トレーニングタグと前記第2トレーニングタグとは、真の値に属する。
次に、本出願の実施形態において、トレーニングによりターゲットジョイントモデルを取得するプロセスを提供し、主に以下のステップを含む。まず、各トレーニング画像におけるトレーニング特徴セットを処理して、ターゲット特徴セットを取得するステップである。次に、LSTMにより、ターゲット特徴セットに対応する第1予測タグ及び第2予測タグを取得するステップである。さらに、各トレーニング画像の第1予測タグ、第1トレーニングタグ、第2予測タグ及び第2トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップである。当該モデルコアパラメータはターゲットジョイントモデルを生成するために用いられる。上記の方式により、LSTM層により、一部の視野の観測不可の問題を解決することができる。つまり、LSTM層は過去の一定期間のデータを取得することができるため、データをより完全にすることができ、モデルトレーニングプロセス中の推定と策略決定に有利である。
好ましく、上記の図20に対応する実施形態を基に、本出願の実施形態で提供されるサーバー40の他の実施形態において、トレーニングモジュール403は、以下のステップを実行するために利用されてもよい。即ち、全結合層により、前記各トレーニング画像における前記第3トレーニング特徴を処理することで、一次元ベクトル特徴である前記第3ターゲット特徴を取得するステップと、
畳み込み層により、前記各トレーニング画像における前記第2トレーニング特徴を処理して、一次元ベクトル特徴である前記第2ターゲット特徴を取得するステップと、
前記畳み込み層により、前記各トレーニング画像における前記第1トレーニング特徴を処理して、一次元ベクトル特徴である前記第1ターゲット特徴を取得するステップとを含む。
再び、本出願の実施形態において、さらに、トレーニング特徴セットを処理し、即ち、全結合層により各トレーニング画像における第1トレーニング特徴を処理して、第1ターゲット特徴を取得し、畳み込み層により各トレーニング画像における第2トレーニング特徴を処理して、第2ターゲット特徴を取得し、畳み込み層により各トレーニング画像における第3トレーニング特徴を処理して、第3ターゲット特徴を取得してもよい。上記の方式により、すべてが一次元のベクトルである特徴群を取得することができるため、これらのベクトル特徴に対して連結処理を行うことができ、後続のモデルトレーニングに便利であり、ソリューションのフィージビリティとオペラビリティの向上に有利である。
好ましく、上記の図20に対応する実施形態を基に、本出願の実施形態で提供されるサーバー40の他の実施形態において、トレーニングモジュール403は、以下のステップを実行するために利用されてもよい。即ち、長短期記憶LSTM層により前記ターゲット特徴セットに対応する第1予測タグ、第2予測タグ、及び予測して得られた勝敗の状況に関するタグである第3予測タグを取得するステップと、
前記各トレーニング画像に対応する、実際の勝敗の状況を示すための第3トレーニングタグを取得するステップと、
前記第1予測タグ、前記第1トレーニングタグ、前記第2予測タグ、前記第2トレーニングタグ、前記第3予測タグ及び前記第3トレーニングタグに基づいてトレーニングして前記モデルコアパラメータを取得するステップとを含み、
前記第3トレーニングタグは、予測値に属し、前記第3予測タグは、真の値に属する。
再び、本出願の実施形態において、ターゲットジョイントモデルが勝敗に関するタグをさらにトレーニングする。即ち、サーバーはLSTM層によりターゲット特徴セットに対応する第1予測タグ、第2予測タグ、及び予測により得られた勝敗の状況に関するタグである第3予測タグを取得し、次に、各トレーニング画像に対応する第3トレーニングタグ取得し、最後に、第1予測タグ、第1トレーニングタグ、第2予測タグ、第2トレーニングタグ、第3予測タグ及び第3トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得する。上記の方式により、ターゲットジョイントモデルは、ゲームの勝率を予測することもでき、それによって状況の認知と学習を強化することができ、モデルアプリケーションの信頼性と多様性を向上させる。
好ましく、上記の図20に対応する実施形態を基に、図21を参照し、本出願の実施形態で提供されるサーバー40の他の実施形態において、サーバー40は更新モジュール404をさらに含み、
取得モジュール401は、さらに、トレーニングモジュール403が前記各トレーニング画像における前記トレーニング特徴セット、前記各トレーニング画像に対応する前記第1トレーニングタグ及び前記第2トレーニングタグに応じて、トレーニングしてターゲットジョイントモデルを取得した後に、複数フレームのインタラクション画像を含むトレーニングビデオを取得するために用いられる。
取得モジュール401は、さらに、前記ターゲットジョイントモデルにより前記トレーニングビデオに対応するターゲットシナリオデータを取得するために用いられ、前記ターゲットシナリオデータはターゲットシナリオでの関連データを含む。
トレーニングモジュール403は、さらに、取得モジュール401によって取得された前記ターゲットシナリオデータ、前記第1トレーニングタグ及び第1予測タグに応じて、トレーニングしてターゲットモデルパラメータを取得するために用いられる、前記第1予測タグは予測して得られた操作の内容に関するタグを示し、前記第1予測タグは予測値に属し、前記第1トレーニングタグは真の値に属する。
更新モジュール404は、トレーニングモジュール403がトレーニングして得られた前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新することで、強化ジョイントモデルを取得するために用いられる。
さらに、本出願の実施形態において、さらに強化学習によりターゲットジョイントモデルにおける一部のタスク層を最適化し、微操作タスクのこの一部を強化する必要があれば、サーバーはトレーニングすべきビデオを取得する。次に、ターゲットジョイントモデルによりトレーニングすべきビデオに対応するターゲットシナリオデータを取得し、ターゲットシナリオデータ、第1トレーニングすべきタグ及び第1予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得する。最後に、サーバーは、ターゲットモデルパラメータを利用してターゲットジョイントモデルを更新して、強化ジョイントモデルを取得する。上記の方式により、微操作FC層を強化することで、AI能力を向上される。また、強化学習は、人間の緊張や集中力の欠如などのさまざまな要因による誤操作の問題を克服することもできる。これにより、トレーニングデータに存在する不良サンプルの数を大幅に減少し、さらに、モデルの信頼性、及びモデルによる予測の精度を向上する。強化学習方法は、シナリオの一部のみを強化可能であるため、策略決定ステップの数を削減し、収束速度が速くなる。
好ましく、上記の図20に対応する実施形態を基に、再び図21を参照し、本出願の実施形態で提供されるサーバー40の他の実施形態において、サーバー40は更新モジュール404をさらに含み、
取得モジュール401は、さらに、トレーニングモジュール403が前記各トレーニング画像における前記トレーニング特徴セット、前記各トレーニング画像に対応する前記第1トレーニングタグ及び前記第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、トレーニングビデオを取得するために用いられる。なお、前記トレーニングビデオは、複数フレームのインタラクション画像を含む。
取得モジュール401は、さらに、前記ターゲットジョイントモデルにより前記トレーニングビデオに対応するターゲットシナリオデータを取得するために用いられ、前記ターゲットシナリオデータはターゲットシナリオにおける関連データを含む。
トレーニングモジュール403は、さらに、取得モジュール401によって取得された前記ターゲットシナリオデータ、前記第2トレーニングタグ及び第2予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するために用いられる。なお、前記第2予測タグは予測によって得られた操作の意図に関するタグであり、前記第2予測タグは予測値に属し、前記第2トレーニングタグは真の値に属する。
更新モジュール404は、トレーニングモジュール403がトレーニングして得られた前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するために用いられる。
さらに、本出願の実施形態において、さらに強化学習によりターゲットジョイントモデルにおける一部のタスク層を最適化し、当該タスクのこの一部を強化する必要がある場合に、サーバーはトレーニングビデオを取得する。次に、ターゲットジョイントモデルによりトレーニングビデオに対応するターゲットシナリオデータを取得し、ターゲットシナリオデータ、第2トレーニングタグ及び第2予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得する。最後に、サーバーは、ターゲットモデルパラメータを利用してターゲットジョイントモデルを更新して、強化ジョイントモデルを取得する。上記の方式により、大局観FC層を強化することで、AI能力が向上される。また、強化学習は、人間の緊張や集中力の欠如などのさまざまな要因による誤操作の問題を克服することもできる。これにより、トレーニングデータに存在する不良サンプルの数を大幅に減少し、さらに、モデルの信頼性、及びモデルによる予測の精度を向上する。強化学習方法は、シナリオの一部のみ強化可能であるため、策略決定ステップの数を削減し、収束速度が速くなる。
図22は、本出願の実施形態で提供されるサーバーの構造概略図であり、当該サーバー500は、配置又は性能によって大きく異なってもよく、1つ以上の中央処理装置(central processing units、CPU)522(例えば、1つ以上のプロセッサー)と、メモリ532と、アプリケーション542又はデータ544を記憶する1つ以上の記憶媒体530(例えば、1つ以上の大容量記憶デバイス)とを含んでもよい。メモリ532及び記憶媒体530は、一時的な記憶又は永続的な記憶であってもよい。記憶媒体530に記憶されたプログラムは、1つ以上のモジュール(図示せず)を含んでもよく、各モジュールは、当該サーバーにおける一連の命令動作を含んでもよい。さらに、中央処理装置522は、記憶媒体530と通信し、サーバー500において記憶媒体530における一連の命令動作を実行するように構成されてもよい。
サーバー500は1つ以上の電源526、1つ以上の有線/無線ネットワークインタフェース550、1つ以上の入出力インタフェース558、及び/又は、Windows Server(登録商標)、Mac OS X(登録商標)、Unix(登録商標)、Linux(登録商標)、FreeBSD(登録商標)などのような1つ以上のオペレーティングシステム541を更に含んでもよい。
上記の実施形態におけるサーバーによって実行されるステップは当該図22に示されるサーバーの構造に基づいてもよい。
本出願の実施形態において、CPU522は以下のステップを実行するために利用されてもよい。即ち、
予測画像を取得するステップと、
前記予測画像における予測特徴セットを抽出するステップと、
ターゲットジョイントモデルにより、前記予測特徴セットに対応する第1タグ及び/又は第2タグを取得するステップとを含み、
前記予測特徴セットには、第1領域の画像特徴を示す第1予測特徴、前記第1領域よりも範囲が大きい第2領域の画像特徴を示す第2予測特徴、及び、インタラクション操作に関する属性特徴を示す第3予測特徴が含まれ、
前記第1タグは、操作の内容に関するタグであり、
前記第2タグは、操作の意図に関するタグである。
好ましく、CPU522は以下のステップを実行するために利用されてもよい。即ち、
前記ターゲットジョイントモデルにより、前記予測特徴セットに対応する前記第1タグ及び/又は前記第2タグ、及び勝敗の状況に関するタグである第3タグを取得するステップを含む。
本出願の実施形態において、CPU522は以下のステップを実行するために利用されてもよい。即ち、
N個(Nは1以上の整数)のトレーニング画像を含むトレーニング画像セットを取得するステップと、
各トレーニング画像におけるトレーニング特徴セットを抽出するステップと、
前記各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグを取得するステップと、
前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記各トレーニング画像に対応する前記第1トレーニングタグ及び前記第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するステップとを含み、
前記トレーニング特徴セットには、第1領域の画像特徴を示す第1トレーニング特徴、前記第1領域よりも範囲が大きい第2領域の画像特徴を示す第2トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第3トレーニング特徴が含まれ、
前記第1トレーニングタグは、操作の内容に関するタグであり、
前記第2トレーニングタグは、操作の意図に関するタグである。
好ましくは、CPU522は以下のステップを実行するために利用されてもよい。即ち、
前記各トレーニング画像における前記トレーニング特徴セットを処理して、第1ターゲット特徴、第2ターゲット特徴及び第3ターゲット特徴を含むターゲット特徴セットを取得するステップと、
長短期記憶LSTM層により、前記ターゲット特徴セットに対応する第1予測タグ及び第2予測タグを取得するステップと、
前記各トレーニング画像の前記第1予測タグ、前記第1トレーニングタグ、前記第2予測タグ及び前記第2トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップと、
前記モデルコアパラメータに基づいて前記ターゲットジョイントモデルを生成するステップとを含み、
前記第1予測タグは、予測によって得られた操作の内容に関するタグであり、
前記第2予測タグは、予測によって得られた操作の意図に関するタグであり、
前記第1予測タグと前記第2予測タグとは、予測値に属し、
前記第1トレーニングタグと前記第2トレーニングタグとは真の値に属する。
好ましくは、CPU522は以下のステップを実行するために利用されてもよい。即ち、
全結合層により、前記各トレーニング画像における前記第3トレーニング特徴を処理して、一次元ベクトル特徴である前記第3ターゲット特徴を取得するステップと、
畳み込み層により、前記各トレーニング画像における前記第2トレーニング特徴を処理して、一次元ベクトル特徴である前記第2ターゲット特徴を取得するステップと、
前記畳み込み層により、前記各トレーニング画像における前記第1トレーニング特徴を処理して、一次元ベクトル特徴である前記第1ターゲット特徴を取得するステップとを含む。
好ましくは、CPU522は以下のステップを実行するために利用されてもよい。即ち、
長短期記憶LSTM層により、前記ターゲット特徴セットに対応する第1予測タグ、第2予測タグ、及び、予測により得られた勝敗の状況に関するタグである第3予測タグを取得するステップと、
前記各トレーニング画像の前記第1予測タグ、前記第1トレーニングタグ、前記第2予測タグ及び前記第2トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップと、
前記各トレーニング画像に対応する、実際の勝敗の状況を示すための第3トレーニングタグを取得するステップと、
前記第1予測タグ、前記第1トレーニングタグ、前記第2予測タグ、前記第2トレーニングタグ、前記第3予測タグ及び前記第3トレーニングタグに基づいてトレーニングして前記モデルコアパラメータを取得するステップとを含み、
前記第3トレーニングタグは、予測値に属し、
前記第3予測タグは、真の値に属する。
好ましくは、CPU522は、さらに、以下のステップを実行するために利用されてもよい。即ち、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
前記ターゲットジョイントモデルにより、前記トレーニングビデオに対応する、ターゲットシナリオにおける関連データを含むターゲットシナリオデータを取得するステップと、
前記ターゲットシナリオデータ、前記第1トレーニングタグ及び第1予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップと、
前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップとを含み、
前記第1予測タグは、予測によって得られた操作の内容に関するタグであり、
前記第1予測タグは、予測値に属し、前記第1トレーニングタグは真の値に属する。
好ましくは、CPU522は、さらに、以下のステップを実行するために利用されてもよい。即ち、
複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
前記ターゲットジョイントモデルにより、前記トレーニングビデオに対応する、ターゲットシナリオにおける関連データを含むターゲットシナリオデータを取得するステップと、
前記ターゲットシナリオデータ、前記第2トレーニングタグ及び第2予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップと、
前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップとを含み、
前記第2予測タグは、予測によって得られた操作の意図に関するタグであり、
前記第2予測タグは、予測値に属し、前記第2トレーニングタグは、真の値に属する。
説明の便宜及び簡潔のため、上述のシステム、装置及びユニットの具体的な作動プロセスは、上述の方法の実施形態における対応するプロセスを参照することができるので、ここでは、再度説明されないことは、当業者であれば理解されるべきである。
本出願で提供されるいくつかの実施形態では、開示されたシステム、装置、及び方法は、他の形態で実現され得ることを理解されたい。例えば、以上に記載された装置の実施形態はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割であり、実際に実現するときは他の分割方式によってもよい。例えば、複数のユニット又はコンポーネントを組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインターフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的又は他の形式であってもよい。
上で分離部材として説明したユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークユニットに分布してもよい。実際の必要に応じてそのうちの一部又は全てのユニットにより本実施形態のソリューションの目的を実現することができる。
また、本出願の各実施形態における各機能ユニットは、1つの処理ユニットに統合されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが1つのユニットに統合されてもよい。上記統合されるユニットは、ハードウェアの形式で実現されてもよく、ソフトウェアの機能ユニットの形式で実現されてもよい。
上記統合されるユニットはソフトウェア機能ユニットの形式で実現され、かつ独立した製品として販売又は使用される場合に、コンピュータ読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本出願の技術案は、本質的に、又は、従来技術に対して貢献をもたらした部分又は当該技術案の全部又は一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶し、また、コンピュータ機器(パソコン、サーバー、又はネットワーク装置などであり得る)に、本出願の各実施形態に記載の方法の全部又は一部のステップを実行させるために、若干のコマンドを含む。前記の記憶媒体は、Uディスク、リムーバブルハードディスク、読み出し専用メモリ(Read−only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
この明細書で言及された「複数」は2つ以上を指す。「及び/又は」は、関連するオブジェクトの関連関係を記述し、3つの関係が存在し得ることを表し、例えば、A及び/又はBは、Aが単独で存在し、AとBが同時に存在し、Bが単独で存在するという3つの状況を表すことができる。符号「/」は、一般的に前後関連するオブジェクトが「又は」の関係であることを表す。
以上のように、以上の実施形態は、ただ本出願の技術案を説明するために用いられるが、本出願を限定することを意図するものではなく、前記実施形態を参照して本出願を詳細に説明したが、当業者であれば、依然として前記各実施形態に記載の技術提案を変更する、又はその一部の技術的特徴に等価置換を行うことができ、これらの変更や置換によって、対応する技術提案の本質が本出願の各実施形態の技術提案の精神と範囲から逸脱することはないと理解されるべきである。

Claims (18)

  1. サーバーが実行する情報予測方法であって、
    予測画像を取得するステップと、
    前記予測画像における予測特徴セットを抽出するステップと、
    ターゲットジョイントモデルにより前記予測特徴セットに対応する第1タグ及び/又は第2タグを取得するステップとを含み、
    前記予測特徴セットは、第1領域の画像特徴を示す第1予測特徴、前記第1領域よりも範囲が大きい第2領域の画像特徴を示す第2予測特徴、及び、インタラクション操作に関する属性特徴を示す第3予測特徴を含み、
    前記第1タグは、操作の内容に関するタグであり、
    前記第2タグは、操作の意図に関するタグであることを特徴とする方法。
  2. 前記ターゲットジョイントモデルにより前記予測特徴セットに対応する第1タグ及び/又は第2タグを取得するステップは、
    前記ターゲットジョイントモデルにより前記予測特徴セットに対応する前記第1タグ及び/又は前記第2タグ、並びに、勝敗の状況に関するタグである第3タグを取得するステップを含むことを特徴とする請求項1に記載の方法。
  3. サーバーが実行するモデルトレーニング方法であって、
    N(Nは1以上の整数)個のトレーニング画像を含むトレーニング画像セットを取得するステップと、
    各トレーニング画像におけるトレーニング特徴セットを抽出するステップと、
    前記各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグを取得するステップと、
    前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記各トレーニング画像に対応する前記第1トレーニングタグ及び前記第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するステップとを含み、
    前記第1トレーニングタグは、操作の内容に関するタグであり、
    前記第2トレーニングタグは、操作の意図に関するタグであり、
    前記トレーニング特徴セットは、第1領域の画像特徴を示す第1トレーニング特徴、前記第1領域よりも範囲が大きい第2領域の画像特徴を示す第2トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第3トレーニング特徴を含む、ことを特徴とする方法。
  4. 前記第1トレーニング特徴は、二次元ベクトル特徴であり、前記第1領域におけるキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報及び防御オブジェクト位置情報の少なくとも1つを含み、
    前記第2トレーニング特徴は、二次元ベクトル特徴であり、前記第2領域におけるキャラクター位置情報、移動オブジェクト位置情報、固定オブジェクト位置情報、防御オブジェクト位置情報、障碍オブジェクト位置情報及び出力オブジェクト位置情報の少なくとも1つを含み、
    前記第3トレーニング特徴は、一次元ベクトル特徴であり、キャラクターヒットポイント、キャラクター出力値、時間情報及びスコア情報の少なくとも1つを含み、
    前記第1トレーニング特徴と、前記第2トレーニング特徴と、前記第3トレーニング特徴との間に対応関係があることを特徴とする請求項3に記載の方法。
  5. 前記第1トレーニングタグは、ボタンタイプ情報及び/又はボタンパラメータ情報を含み、
    前記ボタンパラメータ情報は、方向パラメータ、位置パラメータ及びターゲットパラメータの少なくとも1つを含み、
    前記方向パラメータは、キャラクターが移動する方向を示すために利用され、
    前記位置パラメータは、前記キャラクターが所在している位置を示すために利用され、前記ターゲットパラメータは、前記キャラクターの出力すべきオブジェクトを示すために利用されることを特徴とする請求項3に記載の方法。
  6. 前記第2トレーニングタグは、操作の意図の情報及びキャラクター位置情報を含み、
    前記操作の意図の情報は、キャラクターとオブジェクトとがインタラクションする目的を示し、
    前記キャラクター位置情報は、前記キャラクターの前記第1領域における位置を示すことを特徴とする請求項3に記載の方法。
  7. 前記各トレーニング画像における前記トレーニング特徴セット、前記各トレーニング画像に対応する前記第1トレーニングタグ及び前記第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するステップは、
    前記各トレーニング画像における前記トレーニング特徴セットを処理して、第1ターゲット特徴、第2ターゲット特徴及び第3ターゲット特徴を含むターゲット特徴セットを取得するステップと、
    長短期記憶LSTM層により、前記ターゲット特徴セットに対応する第1予測タグ及び第2予測タグを取得するステップと、
    前記各トレーニング画像の前記第1予測タグ、前記第1トレーニングタグ、前記第2予測タグ及び前記第2トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップと、
    前記モデルコアパラメータに基づいて前記ターゲットジョイントモデルを生成するステップとを含み、
    前記第1予測タグは、予測により得られた操作の内容に関するタグであり、
    前記第2予測タグは、予測により得られた操作の意図に関するタグであり、
    前記第1予測タグと前記第2予測タグとは予測値に属し、前記第1トレーニングタグと前記第2トレーニングタグとは真の値に属することを特徴とする請求項3に記載の方法。
  8. 前記各トレーニング画像における前記トレーニング特徴セットを処理してターゲット特徴セットを取得するステップは、
    全結合層により、前記各トレーニング画像における前記第3トレーニング特徴を処理して、一次元ベクトル特徴である前記第3ターゲット特徴を取得するステップと、
    畳み込み層により、前記各トレーニング画像における前記第2トレーニング特徴を処理して、一次元ベクトル特徴である前記第2ターゲット特徴を取得するステップと、
    前記畳み込み層により、前記各トレーニング画像における前記第1トレーニング特徴を処理して、一次元ベクトル特徴である前記第1ターゲット特徴を取得するステップとを含むことを特徴とする請求項7に記載の方法。
  9. 前記長短期記憶LSTM層により、前記ターゲット特徴セットに対応する第1予測タグ及び第2予測タグを取得するステップは、
    長短期記憶LSTM層により、前記ターゲット特徴セットに対応する、第1予測タグ、第2予測タグ、及び、予測により得られた勝敗の状況に関するタグである第3予測タグを取得するステップを含み、
    前記各トレーニング画像の前記第1予測タグ、前記第1トレーニングタグ、前記第2予測タグ及び前記第2トレーニングタグに基づいてトレーニングしてモデルコアパラメータを取得するステップは、
    前記各トレーニング画像に対応する、実際の勝敗の状況を示すための第3トレーニングタグを取得するステップと、
    前記第1予測タグ、前記第1トレーニングタグ、前記第2予測タグ、前記第2トレーニングタグ、前記第3予測タグ及び前記第3トレーニングタグに基づいてトレーニングして前記モデルコアパラメータを取得するステップとを含み、
    前記第3トレーニングタグは、予測値に属し、
    前記第3予測タグは、真の値に属することを特徴とする請求項7に記載の方法。
  10. 前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記各トレーニング画像に対応する前記第1トレーニングタグ及び前記第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、前記方法は、
    複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
    前記ターゲットジョイントモデルにより、前記トレーニングビデオに対応する、ターゲットシナリオにおける関連データを含むターゲットシナリオデータを取得するステップと、
    前記ターゲットシナリオデータ、前記第1トレーニングタグ及び第1予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップと、
    前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップとをさらに含み、
    前記第1予測タグは、予測により得られた操作の内容に関するタグであり、且つ予測値に属し、
    前記第1トレーニングタグは、真の値に属することを特徴とする請求項3〜9のいずれか一項に記載の方法。
  11. 前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記各トレーニング画像に対応する前記第1トレーニングタグ及び前記第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得した後に、前記方法は、
    複数フレームのインタラクション画像を含むトレーニングビデオを取得するステップと、
    前記ターゲットジョイントモデルにより、前記トレーニングビデオに対応する、ターゲットシナリオにおける関連データを含むターゲットシナリオデータを取得するステップと、
    前記ターゲットシナリオデータ、前記第2トレーニングタグ及び第2予測タグに基づいてトレーニングしてターゲットモデルパラメータを取得するステップと、
    前記ターゲットモデルパラメータを利用して前記ターゲットジョイントモデルを更新して、強化ジョイントモデルを取得するステップとをさらに含み、
    前記第2予測タグは、予測により得られた操作の意図に関するタグであり、且つ予測値に属し、
    前記第2トレーニングタグは、真の値に属することを特徴とする請求項3〜9のいずれか一項に記載の方法。
  12. サーバーであって、
    予測画像を取得する取得モジュールと、
    前記取得モジュールにより取得された前記予測画像における予測特徴セットを抽出する抽出モジュールと、を含み、
    前記予測特徴セットは、第1領域の画像特徴を示す第1予測特徴、前記第1領域よりも範囲が大きい第2領域の画像特徴を示す第2予測特徴、及び、インタラクション操作に関する属性特徴を示す第3予測特徴を含み、
    前記取得モジュールは、さらに、ターゲットジョイントモデルにより、前記抽出モジュールにより抽出された前記予測特徴セットに対応する第1タグ及び第2タグを取得するために利用され、前記第1タグは、操作の内容に関するタグであり、前記第2タグは操作の意図に関するタグであることを特徴とするサーバー。
  13. サーバーであって、
    N個(Nは1以上の整数)のトレーニング画像を含むトレーニング画像セットを取得する取得モジュールと、
    前記取得モジュールにより取得された各トレーニング画像におけるトレーニング特徴セットを抽出する抽出モジュールと、
    前記抽出モジュールにより抽出された前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記取得モジュールにより取得された前記各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するトレーニングモジュールとを含み、
    前記トレーニング特徴セットは、第1領域の画像特徴を示す第1トレーニング特徴、前記第1領域よりも範囲が大きい第2領域の画像特徴を示す第2トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第3トレーニング特徴を含み、
    前記取得モジュールは、さらに、前記各トレーニング画像に対応する、操作の内容に関するタグである前記第1トレーニングタグ、及び、操作の意図に関するタグである前記第2トレーニングタグを取得するために利用されることを特徴とするサーバー。
  14. サーバーであって、
    プログラムが記憶されるメモリと、
    送受信器と、
    前記メモリにおけるプログラムを実行するプロセッサーと、
    前記メモリ及び前記プロセッサーが通信するように前記メモリと前記プロセッサーとを接続するバスシステムとを含み、
    前記プロセッサーが前記メモリにおけるプログラムを実行することにより、
    予測画像を取得するステップと、
    前記予測画像における予測特徴セットを抽出するステップと、
    ターゲットジョイントモデルにより、前記予測特徴セットに対応する第1タグ及び/又は第2タグを取得するステップとを含む方法が実行され、
    前記予測特徴セットは、第1領域の画像特徴を示す第1予測特徴、前記第1領域よりも範囲が大きい第2領域の画像特徴を示す第2予測特徴、及び、インタラクション操作に関する属性特徴を示す第3予測特徴を含み、
    前記第1タグは、操作の内容に関するタグであり、
    前記第2タグは、操作の意図に関するタグであることを特徴とするサーバー。
  15. 前記プロセッサーは、
    前記ターゲットジョイントモデルにより前記予測特徴セットに対応する前記第1タグ及び/又は前記第2タグ、並びに、勝敗の状況に関するタグである第3タグを取得するステップを実行するために用いられることを特徴とする請求項14に記載のサーバー。
  16. サーバーであって、
    プログラムが記憶されるメモリと、
    送受信器と、
    プロセッサーと、
    前記メモリ及び前記プロセッサーが通信するように前記メモリと前記プロセッサーとを接続するバスシステムとを含み、
    前記プロセッサーが前記メモリにおけるプログラムを実行することにより、
    N個(Nは1以上の整数)のトレーニング画像を含むトレーニング画像セットを取得するステップと、
    各トレーニング画像におけるトレーニング特徴セットを抽出するステップと、
    前記各トレーニング画像に対応する第1トレーニングタグ及び第2トレーニングタグを取得するステップと、
    前記各トレーニング画像における前記トレーニング特徴セット、並びに、前記各トレーニング画像に対応する前記第1トレーニングタグ及び前記第2トレーニングタグに基づいてトレーニングしてターゲットジョイントモデルを取得するステップとを含む方法が実行され、
    前記トレーニング特徴セットは、第1領域の画像特徴を示す第1トレーニング特徴、前記第1領域よりも範囲が大きい第2領域の画像特徴を示す第2トレーニング特徴、及び、インタラクション操作に関する属性特徴を示す第3トレーニング特徴を含み、
    前記第1トレーニングタグは、操作の内容に関するタグであり、
    前記第2トレーニングタグは、操作の意図に関するタグである、ことを特徴とするサーバー。
  17. 前記プロセッサーが前記メモリにおけるプログラムを実行することにより、
    請求項7〜11の何れか一項に記載の方法が実行されることを特徴とする請求項16に記載のサーバー。
  18. コンピュータプログラムであって、
    コンピュータプログラムコードが記憶され、前記コンピュータプログラムコードがコンピュータによって実行されると、請求項1〜11のいずれか一項に記載の方法を前記コンピュータに実行させることを特徴とするコンピュータプログラム。
JP2021512924A 2018-12-13 2019-12-11 情報予測方法、モデルトレーニング方法、サーバー及びコンピュータプログラム Active JP7199517B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811526060.1 2018-12-13
CN201811526060.1A CN110163238B (zh) 2018-12-13 2018-12-13 一种信息预测的方法、模型训练的方法以及服务器
PCT/CN2019/124681 WO2020119737A1 (zh) 2018-12-13 2019-12-11 信息预测的方法、模型训练的方法以及服务器

Publications (2)

Publication Number Publication Date
JP2021536066A true JP2021536066A (ja) 2021-12-23
JP7199517B2 JP7199517B2 (ja) 2023-01-05

Family

ID=67645216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021512924A Active JP7199517B2 (ja) 2018-12-13 2019-12-11 情報予測方法、モデルトレーニング方法、サーバー及びコンピュータプログラム

Country Status (6)

Country Link
US (1) US20210201148A1 (ja)
EP (1) EP3896611A4 (ja)
JP (1) JP7199517B2 (ja)
KR (1) KR102542774B1 (ja)
CN (1) CN110163238B (ja)
WO (1) WO2020119737A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163238B (zh) * 2018-12-13 2023-04-07 腾讯科技(深圳)有限公司 一种信息预测的方法、模型训练的方法以及服务器
CN111450534B (zh) * 2020-03-31 2021-08-13 腾讯科技(深圳)有限公司 一种标签预测模型的训练方法、标签预测的方法及装置
CN113469188A (zh) * 2021-07-15 2021-10-01 有米科技股份有限公司 字符识别模型训练的数据增强、字符识别的方法及装置
CN113780101A (zh) * 2021-08-20 2021-12-10 京东鲲鹏(江苏)科技有限公司 避障模型的训练方法、装置、电子设备及存储介质
KR102593036B1 (ko) 2021-11-24 2023-10-23 고려대학교 산학협력단 알츠하이머병 진단 모델의 결정을 추론하고 강화하는 방법 및 장치
CN115121913B (zh) * 2022-08-30 2023-01-10 北京博清科技有限公司 激光中心线的提取方法
CN116109525B (zh) * 2023-04-11 2024-01-05 北京龙智数科科技服务有限公司 基于多维度数据增强的强化学习方法及装置
CN116842856B (zh) * 2023-09-04 2023-11-14 长春工业大学 一种基于深度强化学习的工业过程优化方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180239989A1 (en) * 2017-02-20 2018-08-23 Alibaba Group Holding Limited Type Prediction Method, Apparatus and Electronic Device for Recognizing an Object in an Image

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3827691B2 (ja) * 2004-09-03 2006-09-27 株式会社コナミデジタルエンタテインメント ゲーム装置、その制御方法、ならびに、プログラム
US8774515B2 (en) * 2011-04-20 2014-07-08 Xerox Corporation Learning structured prediction models for interactive image labeling
CN103544496B (zh) * 2012-07-12 2016-12-21 同济大学 基于空间与时间信息融合的机器人场景识别方法
CN103544960B (zh) * 2013-11-11 2016-03-30 苏州威士达信息科技有限公司 基于人耳感知的drm+系统的动态数据发送方法
JP2015198935A (ja) * 2014-04-04 2015-11-12 コナミゲーミング インコーポレーテッド ゲーミング環境の操作のためのシステムおよび方法
CN107480687A (zh) * 2016-06-08 2017-12-15 富士通株式会社 信息处理装置和信息处理方法
CN107766870A (zh) * 2016-08-22 2018-03-06 富士通株式会社 信息处理装置和信息处理方法
KR102308871B1 (ko) * 2016-11-02 2021-10-05 삼성전자주식회사 객체의 속성에 기반하여 객체를 인식 및 트레이닝하는 방법 및 장치
CN107019901B (zh) * 2017-03-31 2020-10-20 北京大学深圳研究生院 基于图像识别及自动化控制的棋牌类游戏自动博弈机器人的建立方法
CN108090561B (zh) * 2017-11-09 2021-12-07 腾讯科技(成都)有限公司 存储介质、电子装置、游戏操作的执行方法和装置
CN107890674A (zh) * 2017-11-13 2018-04-10 杭州电魂网络科技股份有限公司 Ai行为调用方法和装置
CN108434740B (zh) * 2018-03-23 2021-01-29 腾讯科技(深圳)有限公司 一种策略信息确定的方法及装置、存储介质
CN108724182B (zh) * 2018-05-23 2020-03-17 苏州大学 基于多类别模仿学习的端到端游戏机器人生成方法及系统
CN109529338B (zh) * 2018-11-15 2021-12-17 腾讯科技(深圳)有限公司 对象控制方法、装置、电子设计及计算机可读介质
CN110163238B (zh) * 2018-12-13 2023-04-07 腾讯科技(深圳)有限公司 一种信息预测的方法、模型训练的方法以及服务器
CN109893857B (zh) * 2019-03-14 2021-11-26 腾讯科技(深圳)有限公司 一种操作信息预测的方法、模型训练的方法及相关装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180239989A1 (en) * 2017-02-20 2018-08-23 Alibaba Group Holding Limited Type Prediction Method, Apparatus and Electronic Device for Recognizing an Object in an Image

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
VINYALS, O ET AL.: "StarCraft II: A New Challenge for Reinforcement Learning", ARXIV.ORG [ONLINE], JPN7022002054, 2017, pages 1 - 20, ISSN: 0004769168 *

Also Published As

Publication number Publication date
KR20210090239A (ko) 2021-07-19
KR102542774B1 (ko) 2023-06-14
EP3896611A1 (en) 2021-10-20
CN110163238A (zh) 2019-08-23
WO2020119737A1 (zh) 2020-06-18
JP7199517B2 (ja) 2023-01-05
US20210201148A1 (en) 2021-07-01
CN110163238B (zh) 2023-04-07
EP3896611A4 (en) 2022-01-19

Similar Documents

Publication Publication Date Title
JP7199517B2 (ja) 情報予測方法、モデルトレーニング方法、サーバー及びコンピュータプログラム
Synnaeve et al. Torchcraft: a library for machine learning research on real-time strategy games
US11491400B2 (en) Method, apparatus, and device for scheduling virtual objects in virtual environment
Risi et al. From chess and atari to starcraft and beyond: How game ai is driving the world of ai
Hausknecht et al. A neuroevolution approach to general atari game playing
CN109893857B (zh) 一种操作信息预测的方法、模型训练的方法及相关装置
CN111111220B (zh) 多人对战游戏的自对弈模型训练方法、装置和计算机设备
US7296007B1 (en) Real time context learning by software agents
CN112691377B (zh) 虚拟角色的控制方法、装置、电子设备及存储介质
US20190118085A1 (en) Data processing method and apparatus, and storage medium
CN112169339A (zh) 用于在视频游戏中模仿玩家玩游戏的定制的模型
CN110064205B (zh) 用于游戏的数据处理方法、设备和介质
WO2023024762A1 (zh) 人工智能对象控制方法、装置、设备及存储介质
CN115888119A (zh) 一种游戏ai训练方法、装置、电子设备及存储介质
Edwards et al. The Role of Machine Learning in Game Development Domain-A Review of Current Trends and Future Directions
Stapelberg et al. A survey of benchmarking frameworks for reinforcement learning
Pirovano et al. Fuzzy Tactics: A scripting game that leverages fuzzy logic as an engaging game mechanic
Espinosa Leal et al. Reinforcement learning for extended reality: designing self-play scenarios
Vitek et al. Intelligent agents in games: Review with an open-source tool
CN114404976A (zh) 决策模型的训练方法、装置、计算机设备及存储介质
Khatri The Gaming Experience With AI
CN113018862A (zh) 虚拟对象的控制方法、装置、电子设备及存储介质
Zhang Using artificial intelligence assistant technology to develop animation games on iot
Stapelberg et al. A survey of benchmarks for reinforcement learning algorithms
CN116726500B (zh) 一种虚拟角色的控制方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221220

R150 Certificate of patent or registration of utility model

Ref document number: 7199517

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150