JP7014913B2

JP7014913B2 - メッセージ出力装置、学習装置、メッセージ出力方法、学習方法及びプログラム

Info

Publication number: JP7014913B2
Application number: JP2020537908A
Authority: JP
Inventors: 弘孝浅山
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2022-02-01
Anticipated expiration: 2038-08-20
Also published as: WO2020039476A1; US11711328B2; CN112567734A; US20210245063A1; JPWO2020039476A1

Description

本発明は、メッセージ出力装置、学習装置、メッセージ出力方法、学習方法及びプログラムに関する。

例えばゲーム実況や映像によるスポーツ観戦などにおいて、プレイヤや観客などのユーザによって投稿されたメッセージの文字列や発せられたメッセージの音声が共有されるようにすることでコミュニケーションを促進する技術が知られている。

ここでプレイヤや観客などのユーザが例えば一人でいる状況でも上述のコミュニケーションが行われているかのような気分を味わうことができれば、当該ユーザはよりゲーム実況や映像によるスポーツ観戦などを楽しめるものと期待できる。

本発明は上記課題に鑑みてなされたものであって、その目的の１つは、コミュニケーションが行われているかのような気分をユーザが味わうことができるメッセージ出力装置、学習装置、メッセージ出力方法、学習方法及びプログラムを提供することを目的とする。

上記課題を解決するために、本発明に係るメッセージ出力装置は、連続する複数のフレームの学習画像を含む学習入力データと、前記学習入力データに対応付けられるメッセージを含む教師データと、を含む学習データを用いた学習が実行された学習済の機械学習モデルと、連続する複数のフレームのターゲット画像を少なくとも含むターゲット入力データを前記機械学習モデルに入力する入力部と、前記ターゲット入力データを前記機械学習モデルに入力した際の出力に応じたメッセージを特定するメッセージ特定部と、特定される前記メッセージを出力するメッセージ出力部と、を含む。

本発明の一態様では、前記入力部は、ゲームのプレイ中に生成される、当該ゲームのプレイ状況を表す連続する複数のフレームの前記ターゲット画像を少なくとも含む前記ターゲット入力データを前記機械学習モデルに入力し、前記メッセージ出力部は、特定される前記メッセージを、前記ゲームのプレイ中に出力する。

この態様では、前記学習入力データは、前記学習画像に対応付けられるプレイヤの情報をさらに含み、前記ターゲット入力データは、前記ゲームをプレイしているプレイヤの情報をさらに含んでいてもよい。

ここで、前記プレイヤの情報には、前記プレイヤによるコントローラ入力の情報が含まれていてもよい。

この場合、前記プレイヤの情報には、コントローラの入力頻度を示す値が含まれていてもよい。

また、この態様では、前記プレイヤの情報には、前記プレイヤの顔を撮影した画像が含まれていてもよい。

また、本発明の一態様では、前記学習入力データは、前記教師データが示すメッセージとは異なるメッセージをさらに含み、前記ターゲット入力データは、前記メッセージ出力部により既に出力されたメッセージをさらに含む。

また、本発明に係る学習装置は、連続する複数のフレームの学習画像を含む学習入力データと、前記学習入力データに対応付けられるメッセージを含む教師データと、を含む学習データを取得する学習データ取得部と、前記学習データを用いて機械学習モデルの学習を実行する学習部と、を含む。

本発明の一態様では、現在配信中である、あるいは、過去に配信された、ゲームの配信の状況を示す配信データに基づいて、前記学習データを生成する学習データ生成部、をさらに含む。

また、本発明に係るメッセージ出力方法は、連続する複数のフレームの学習画像を含む学習入力データと、前記学習入力データに対応付けられるメッセージを含む教師データと、を含む学習データを用いた学習が実行された学習済の機械学習モデルに、連続する複数のフレームのターゲット画像を少なくとも含むターゲット入力データを入力するステップと、前記ターゲット入力データを前記機械学習モデルに入力した際の出力に応じたメッセージを特定するステップと、特定される前記メッセージを出力するステップと、を含む。

また、本発明に係る学習方法は、連続する複数のフレームの学習画像を含む学習入力データと、前記学習入力データに対応付けられるメッセージを含む教師データと、を含む学習データを取得するステップと、前記学習データを用いて機械学習モデルの学習を実行するステップと、を含む。

また、本発明に係るプログラムは、連続する複数のフレームの学習画像を含む学習入力データと、前記学習入力データに対応付けられるメッセージを含む教師データと、を含む学習データを用いた学習が実行された学習済の機械学習モデルに、連続する複数のフレームのターゲット画像を少なくとも含むターゲット入力データを入力する手順、前記ターゲット入力データを前記機械学習モデルに入力した際の出力に応じたメッセージを特定する手順、特定される前記メッセージを出力する手順、をコンピュータに実行させる。

また、本発明に係る別のプログラムは、連続する複数のフレームの学習画像を含む学習入力データと、前記学習入力データに対応付けられるメッセージを含む教師データと、を含む学習データを取得する手順、前記学習データを用いて機械学習モデルの学習を実行する手順、をコンピュータに実行させる。

本発明の一実施形態に係るエンタテインメントシステムの全体構成の一例を示す図である。本発明の一実施形態に係るエンタテインメント装置の構成の一例を示す図である。ゲーム画面の一例を示す図である。本発明の一実施形態に係るエンタテインメント装置で実装される機能の一例を示す機能ブロック図である。学習データの一例を模式的に示す図である。本発明の一実施形態に係るエンタテインメント装置で行われる学習処理の流れの一例を示すフロー図である。本発明の一実施形態に係るエンタテインメント装置で行われるメッセージ出力処理の流れの一例を示すフロー図である。

以下、本発明の一実施形態について図面に基づき詳細に説明する。

図１は、本発明の一実施形態に係るエンタテインメントシステム１０の全体構成の一例を示す図である。本実施形態に係るエンタテインメントシステム１０は、エンタテインメント装置１２、ディスプレイ１４、カメラ１６、マイク１８、コントローラ２０などを含んでいる。

本実施形態に係るエンタテインメント装置１２は、例えばゲームコンソール、ＤＶＤプレイヤ、Ｂｌｕ－ｒａｙ（登録商標）プレイヤなどといったコンピュータである。本実施形態に係るエンタテインメント装置１２は、例えば記憶されている、あるいは、光ディスクに記録された、ゲームプログラムの実行やコンテンツの再生などによって映像や音声を生成する。そして本実施形態に係るエンタテインメント装置１２は、生成される映像を表す映像信号や生成される音声を表す音声信号を、ディスプレイ１４に出力する。

本実施形態に係るエンタテインメント装置１２には、例えば図２に示すように、プロセッサ３０、記憶部３２、通信部３４、入出力部３６が含まれる。

プロセッサ３０は、例えばエンタテインメント装置１２にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。本実施形態に係るプロセッサ３０には、ＣＰＵから供給されるグラフィックスコマンドやデータに基づいてフレームバッファに画像を描画するＧＰＵ（Graphics Processing Unit）も含まれている。

記憶部３２は、例えばＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部３２には、プロセッサ３０によって実行されるプログラムなどが記憶される。また、本実施形態に係る記憶部３２には、ＧＰＵにより画像が描画されるフレームバッファの領域が確保されている。

通信部３４は、例えば無線ＬＡＮモジュールなどの通信インタフェースなどである。

入出力部３６は、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）ポート、ＵＳＢポートなどの入出力ポートである。

ディスプレイ１４は、例えば液晶ディスプレイ等であり、エンタテインメント装置１２から出力される映像信号が表す映像などを表示させる。またディスプレイ１４は、エンタテインメント装置１２から出力される音声信号が表す音声を出力する。

カメラ１６は、例えば被写体を撮像した画像などといった、カメラ１６の周辺の様子を表すデータをエンタテインメント装置１２に出力するデジタルカメラ等のデバイスである。

マイク１８は、周囲の音声を取得して当該音声を表す音声データをエンタテインメント装置１２に出力するデバイスである。

エンタテインメント装置１２とディスプレイ１４とは、例えば、ＨＤＭＩケーブルなどを介して接続されている。エンタテインメント装置１２とカメラ１６やマイク１８とは、例えば、ＡＵＸケーブルなどを介して接続されている。

コントローラ２０は、エンタテインメント装置１２に対する操作入力を行うための操作入力装置である。ユーザは、コントローラ２０が備える方向キーやボタンを押下したり、操作スティックを傾けたりすることで、コントローラ２０を用いて各種の操作入力を行うことができる。そして本実施形態では、コントローラ２０は、操作入力に対応付けられる入力データをエンタテインメント装置１２に出力する。また本実施形態に係るコントローラ２０は、ＵＳＢポートを備えている。そしてコントローラ２０は、ＵＳＢケーブルでエンタテインメント装置１２と接続することで、有線で入力データをエンタテインメント装置１２に出力することができる。また本実施形態に係るコントローラ２０は、無線通信モジュール等を備えており、無線で入力データをエンタテインメント装置１２に出力することができるようにもなっている。

またコントローラ２０が、加速度センサや感圧センサやタッチパッドなどのセンサを備えていてもよい。そしてコントローラ２０は、コントローラ２０が備えるセンサによる測定値を示すセンシングデータをエンタテインメント装置１２に送信してもよい。

本実施形態では例えば、エンタテインメント装置１２でゲームプログラムが実行されることにより、ゲームのプレイ状況を表す映像や音声が生成される。そして当該映像が、当該ゲームのプレイヤが見るディスプレイ１４に表示され、当該音声がディスプレイ１４から出力される。

図３は、本実施形態においてディスプレイ１４に表示されるゲーム画面４０の一例を示す図である。図３の例ではゲーム画面４０の左側にゲームのプレイ状況を表すフレーム画像であるプレイ状況画像４２が配置されている。またゲーム画面４０の右上隅には、例えばゲームのプレイ状況を実況するキャラクタ４４の画像が配置される。そしてゲームのプレイ状況に応じたメッセージを表す文字列が、当該キャラクタ４４が発するセリフとして右下のメッセージ領域４６に表示されたり、当該メッセージを表す音声がディスプレイ１４から出力されたりする。

そして本実施形態では例えば、ニューラルネットワークやサポートベクタマシンなどといった学習済の機械学習モデルを用いて特定されるメッセージが出力される。以下、当該機械学習モデルの学習、及び、学習済の当該機械学習モデルを用いたメッセージの出力を中心に、本実施形態に係るエンタテインメント装置１２の機能、及び、エンタテインメント装置１２で実行される処理について説明する。

図４は、本実施形態に係るエンタテインメント装置１２で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係るエンタテインメント装置１２で、図４に示す機能のすべてが実装される必要はなく、また、図４に示す機能以外の機能が実装されていても構わない。

図４に示すように、エンタテインメント装置１２は、機能的には例えば、機械学習モデル５０、配信データ取得部５２、学習データ生成部５４、学習データ記憶部５６、学習データ取得部５８、学習部６０、ターゲット入力データ生成部６２、ターゲット入力データ取得部６４、入力部６６、メッセージ特定部６８、メッセージ出力部７０、を含んでいる。

機械学習モデル５０は、プロセッサ３０及び記憶部３２を主として実装される。配信データ取得部５２は、プロセッサ３０及び通信部３４を主として実装される。学習データ生成部５４、学習データ取得部５８、学習部６０、ターゲット入力データ生成部６２、ターゲット入力データ取得部６４、入力部６６、メッセージ特定部６８は、プロセッサ３０を主として実装される。学習データ記憶部５６は、記憶部３２を主として実装される。メッセージ出力部７０は、プロセッサ３０及び入出力部３６を主として実装される。

機械学習モデル５０、配信データ取得部５２、学習データ生成部５４、学習データ記憶部５６、学習データ取得部５８、学習部６０の機能は、機械学習モデル５０の学習を実行する学習装置としての機能に相当する。

機械学習モデル５０、ターゲット入力データ生成部６２、ターゲット入力データ取得部６４、入力部６６、メッセージ特定部６８、メッセージ出力部７０の機能は、学習済の機械学習モデル５０を用いたメッセージの出力を実行するメッセージ出力装置の機能に相当する。

以上の機能は、コンピュータであるエンタテインメント装置１２にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ３０で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してエンタテインメント装置１２に供給されてもよい。

機械学習モデル５０は、本実施形態では例えば、ニューラルネットワークやサポートベクタマシンなどの機械学習モデルである。

配信データ取得部５２は、本実施形態では例えば、ゲーム実況映像の配信サイトなどから、現在配信中である、あるいは、過去に配信された、ゲームの配信の状況を示す配信データを取得する。

学習データ生成部５４は、本実施形態では例えば、図５に模式的に示されている学習データ８０を生成する。ここで例えば、配信データ取得部５２が取得する配信データに基づいて、学習データ８０が生成されてもよい。

学習データ生成部５４は例えば、配信データから、プレイヤや観客などのユーザにより投稿されて画面に表示されたメッセージの文字列や、プレイヤや観客などのユーザが発した音声のメッセージなどといった、発生したメッセージを抽出する。以下、当該メッセージを学習メッセージ８２と呼ぶこととする。ここで例えば、直前のメッセージが発生したタイミングから所定時間以上が経過してから発生したメッセージが学習メッセージ８２として抽出されてもよい。また例えば、直前のメッセージが発生したタイミングから所定時間以上が経過してから連続して発生した所定数のメッセージが学習メッセージ８２として抽出されてもよい。あるいは例えば、所定時間内に発生した一連のメッセージが学習メッセージ８２として抽出されてもよい。

そして学習データ生成部５４は、例えば、抽出されたメッセージが発生したタイミングに相当するフレームを特定する。ここで複数のメッセージが抽出される場合には、例えば最初のメッセージが発生したタイミングに相当するフレームが特定されてもよい。ここでは、特定されるフレームのフレーム番号がｎであるとする。そして学習データ生成部５４は、フレーム番号が（ｎ－ａ＋１）以上（ｎ＋ｂ）以下である、（ａ＋ｂ）個のフレーム画像を配信データから抽出する。以下、このようにして抽出されるフレーム画像を学習画像８４と呼ぶこととする。

そして学習データ生成部５４は例えば、連続する複数のフレームの学習画像８４を学習入力データとして含み、抽出された学習メッセージ８２を教師データとして含む学習データ８０を生成する。ここで学習データ生成部５４は、ゲームのプレイ状況を表す連続する所定数のフレームの学習画像８４を学習入力データとして含み、抽出された学習メッセージ８２を教師データとして含む学習データ８０を生成してもよい。ここでは例えば、（ａ＋ｂ）個の学習画像８４を学習入力データとして含む学習データ８０が生成される。この例では、学習データ８０に含まれる教師データである学習メッセージ８２は、当該学習データ８０に含まれる、連続する（ａ＋ｂ）個のフレームの学習画像８４が表示されている期間に発せられたメッセージであることとなる。そして、学習データ生成部５４は、生成される学習データ８０を学習データ記憶部５６に記憶させる。

なお後述するように、学習データ８０に含まれる教師データに、当該メッセージが発せられた際の感情を表すラベルが含まれていてもよい。

また学習データ８０に含まれる教師データに、メッセージが発生したか否かを示すラベルが含まれていてもよい。

この場合、学習データ生成部５４は例えば、連続する複数のフレームの学習画像８４を学習入力データとして含み、抽出された学習メッセージ８２、及び、メッセージが発生したことを示すラベルを教師データとして含む学習データ８０を生成してもよい。

また学習データ生成部５４は例えば、配信データから、メッセージが発生していない期間における複数のフレーム画像（例えば（ａ＋ｂ）個のフレーム画像）を学習画像８４として抽出してもよい。そして、学習データ生成部５４は、抽出される学習画像８４を学習入力データとして含み、メッセージが発生していないことを示すラベルを教師データとして含む学習データ８０を生成してもよい。

学習データ記憶部５６は、本実施形態では例えば、学習入力データと教師データとを含む学習データ８０を記憶する。ここで学習入力データには、連続する複数のフレームの学習画像８４が含まれていてもよい。また教師データには、当該学習入力データに対応付けられる学習メッセージ８２（例えば、当該学習画像８４が表示されている期間に発せられた学習メッセージ８２）が含まれていてもよい。

学習データ取得部５８は、本実施形態では例えば、学習データ記憶部５６が記憶する学習データ８０を取得する。

学習部６０は、本実施形態では例えば、学習データ取得部５８が取得する学習データ８０を用いて機械学習モデル５０の学習を実行する。ここで例えば学習データ８０に含まれる学習入力データを機械学習モデル５０に入力した際の出力と当該学習データ８０に含まれる教師データとの差に基づいて、機械学習モデル５０に設定されているパラメータの値が更新される教師あり学習が実行されてもよい。

ターゲット入力データ生成部６２は、本実施形態では例えば、連続する複数のフレームのターゲット画像を少なくとも含むターゲット入力データを生成する。ここでターゲット入力データ生成部６２は、ゲームのプレイ中に生成される、当該ゲームのプレイ状況を表す連続する所定数のフレームのターゲット画像を少なくとも含むターゲット入力データを生成してもよい。ここで例えば表示されているプレイ状況画像４２のフレーム番号がｍであるとする。この場合、フレーム番号が（ｍ－ａ－ｂ＋１）以上ｍ以下である、直近に表示された（ａ＋ｂ）個のフレームのプレイ状況画像４２が取得される。そして当該（ａ＋ｂ）個のフレームのプレイ状況画像４２をターゲット画像として含むターゲット入力データが生成される。

ターゲット入力データ取得部６４は、本実施形態では例えば、ターゲット入力データ生成部６２が生成するターゲット入力データを取得する。

入力部６６は、本実施形態では例えば、ターゲット入力データ取得部６４が取得するターゲット入力データを学習済の機械学習モデル５０に入力する。

メッセージ特定部６８は、本実施形態では例えば、ターゲット入力データ取得部６４が取得するターゲット入力データを学習済の機械学習モデル５０に入力した際の出力に応じたメッセージを特定する。

メッセージ出力部７０は、本実施形態では例えば、メッセージ特定部６８が特定するメッセージを出力する。ここでメッセージ出力部７０は、特定されるメッセージを、ゲームのプレイ中に出力してもよい。メッセージ出力部７０は例えば、メッセージ特定部６８が特定するメッセージを表す文字列をメッセージ領域４６に表示させてもよい。またメッセージ出力部７０は、メッセージ特定部６８が特定するメッセージに基づいて音声合成技術を用いて生成される音声を出力させてもよい。

本実施形態では、プレイヤや観客などのユーザによって投稿されたメッセージの文字列や発せられたメッセージの音声などを学習した学習済の機械学習モデル５０を用いた、ゲームのプレイ状況に応じたメッセージの出力が行われる。このようにして本実施形態によれば、例えばプレイヤが一人でゲームをプレイしている状況などにおいても、ゲームのプレイ中におけるコミュニケーションが行われているかのような気分をプレイヤが味わうことができる。

なお、本発明の適用範囲は、プレイヤに対するメッセージの出力には限定されない。例えば、ゲームのプレイ映像を視聴している観客に対するプレイの状況に応じたメッセージの出力や、スポーツの試合映像を鑑賞している視聴者に対する試合の状況に応じたメッセージの出力などに本実施形態が応用されてもよい。これらの場合もコミュニケーションが行われているかのような気分を観客や視聴者などのユーザは味わうことができる。

なお、機械学習モデル５０に入力可能な画像の数が固定である場合には、学習入力データに含まれる学習画像８４の数と、ターゲット入力データに含まれるターゲット画像の数と、は同じ所定数にする必要がある。ここで、機械学習モデル５０がニューラルネットワークである場合にニューラルネットワークの種類によっては入力可能な画像のフレーム数が可変なことがある。このような場合には、複数の学習データ８０のそれぞれに含まれる学習画像８４の数やターゲット入力データに含まれるターゲット画像の数は同じでなくてもよい。

ここで上述の配信データに、例えば、ゲームをプレイするプレイヤの情報が含まれていてもよい。当該プレイヤの情報は、例えばゲーム実況映像の配信サイトに接続されたエンタテインメントシステム１０から収集されるようにしてもよい。そして例えば学習データ生成部５４が、学習画像８４に対応付けられるプレイヤの情報をさらに学習入力データに含む学習データ８０を生成してもよい。そしてこの場合に、ターゲット入力データ生成部６２が、ゲームをプレイしているプレイヤの情報をさらに含むターゲット入力データを生成してもよい。

学習入力データに含まれるプレイヤの情報には、例えば、キーログのデータなどといった、プレイヤによるコントローラ入力の情報が含まれていてもよい。例えば学習データ生成部５４が、学習データ８０に含まれる複数のフレームの学習画像８４が表示された期間におけるプレイヤによるコントローラ入力の情報を特定してもよい。そして特定されるコントローラ入力の情報をさらに学習入力データに含む学習データ８０を生成してもよい。

この場合、ターゲット入力データ生成部６２が、直近の複数のフレーム（上述の例では（ａ＋ｂ）個のフレーム）のプレイ状況画像４２が表示されている期間における、ゲームをプレイしているプレイヤの情報をさらに含むターゲット入力データを生成してもよい。例えば当該期間における、ゲームをプレイしているプレイヤによるコントローラ入力の情報をさらに含むターゲット入力データが生成されてもよい。

また例えば、学習データ生成部５４は、学習データ８０に含まれる複数のフレームの学習画像８４が表示された期間におけるプレイヤによるコントローラ入力の情報に基づいて、当該期間におけるコントローラ２０の入力頻度を特定してもよい。ここで例えば、当該期間における、コントローラ２０に対する単位時間あたりの入力回数が入力頻度として特定されてもよい。そして学習データ生成部５４は、当該入力頻度を示す値をさらに学習入力データに含む学習データ８０を生成してもよい。

この場合、ターゲット入力データ生成部６２が、直近の複数のフレームのプレイ状況画像４２が表示されている期間におけるプレイヤによるコントローラ入力の情報に基づいて、当該期間におけるコントローラ２０の入力頻度を特定してもよい。そして学習データ生成部５４は、当該入力頻度を示す値をさらに含むターゲット入力データを生成してもよい。

また学習入力データに含まれるプレイヤの情報に、例えば、カメラ１６がプレイヤの顔を撮影した画像であるプレイヤ顔画像が含まれていてもよい。例えば学習データ生成部５４が、学習データ８０に含まれる複数のフレームの学習画像８４が表示された期間に撮影されたプレイヤ顔画像をさらに学習入力データに含む学習データ８０を生成してもよい。

この場合、ターゲット入力データ生成部６２が、直近の複数のフレームのプレイ状況画像４２が表示されている期間にカメラ１６が撮影したプレイヤ顔画像をさらに含むターゲット入力データを生成してもよい。

また学習入力データに含まれるプレイヤの情報に、例えば、学習データ８０に含まれる複数のフレームの学習画像８４が表示された期間にコントローラ２０が備えるセンサによる測定値を示すセンシングデータが含まれていてもよい。ここで上述のように、当該センサは、例えば加速度センサや感圧センサやタッチパッドなどであってもよい。また上述のように当該センシングデータはコントローラ２０からエンタテインメント装置１２に送信されてもよい。この場合、ターゲット入力データ生成部６２が、直近の複数のフレームのプレイ状況画像４２が表示されている期間におけるコントローラ２０が備えるセンサによる測定値を示すセンシングデータをさらに含むターゲット入力データを生成してもよい。

また例えば、ヘッドマウントディスプレイ（ＨＭＤ）を装着してプレイするゲームにおける当該プレイヤの情報に、ＨＭＤから取得可能な、ＨＭＤが備える視線センサや加速度センサなどのセンサによる測定値を示すセンシングデータが含まれていてもよい。例えば学習データ８０に含まれる複数のフレームの学習画像８４が表示された期間にＨＭＤから取得されるセンシングデータをさらに学習入力データに含む学習データ８０が生成されてもよい。この場合、ターゲット入力データ生成部６２が、直近の複数のフレームのプレイ状況画像４２が表示されている期間にＨＭＤから取得されるセンシングデータをさらに含むターゲット入力データを生成してもよい。

例えばゲームの状況がのんびりしている場合と緊迫している場合とでは、上述のようにして取得されるプレイヤの情報が異なるものと思われる。具体的には例えば、ゲームの状況がのんびりしている場合よりも緊迫している場合の方がコントローラ２０の入力頻度は高くなるものと思われる。また例えばゲームの状況がのんびりしている場合よりも緊迫している場合の方がコントローラ２０や視線やＨＭＤの動きは激しくなるものと思われる。また例えば、ゲームの状況がのんびりしている場合よりも緊迫している場合とではプレイヤの表情は違うものと思われる。このようにプレイヤの情報は出力されるべきメッセージに応じたものとなっている可能性が高い。そのため例えば機械学習モデル５０の学習に上述のプレイヤの情報を用いることで、機械学習モデル５０からより的確なメッセージが出力されるようになるものと期待できる。

また学習入力データに、学習データ８０に教師データとして含まれる学習メッセージ８２とは異なるメッセージが含まれていてもよい。ここで例えば学習データ生成部５４は、学習データ８０に教師データとして含まれる学習メッセージ８２が発生したタイミングの所定時間前から当該学習メッセージ８２が発生したタイミングまでに発生したメッセージを特定してもよい。そして学習データ生成部５４は、特定されたメッセージをさらに学習入力データに含む学習データ８０を生成してもよい。この場合、ターゲット入力データ生成部６２が、所定時間前から現在までにメッセージ出力部７０が出力したメッセージをさらに含むターゲット入力データを生成してもよい。

メッセージは、当該メッセージよりも前に発せられたメッセージを受けて発せられることが多い。そのため、例えば機械学習モデル５０の学習に当該メッセージよりも前に発生したメッセージ等の、当該メッセージとは異なるメッセージを用いることで、機械学習モデル５０からより的確なメッセージが出力されるようになるものと期待できる。

また学習入力データに、プレイされているゲームのタイトルや種類を示すデータが含まれていてもよい。この場合、ターゲット入力データ生成部６２が、プレイされているゲームのタイトルや種類を示すデータを含むターゲット入力データを生成してもよい。

また上述したように、学習データ８０に含まれる教師データに感情を表すラベルが含まれる場合、メッセージ特定部６８は、学習済の機械学習モデル５０からの出力に基づいて、感情を特定する。そしてメッセージ出力部７０は、特定される感情に応じたメッセージの出力を行ってもよい。例えば特定される感情が表現された音声が出力されてもよい。また例えば特定される感情に応じた動作のキャラクタ４４が表示されるようにしてもよい。

ここで例えば、学習データ生成部５４は、上述したプレイヤの情報に基づいて感情を推定してもよい。そして、学習データ生成部５４は、推定される感情を表すラベルをさらに教師データに含む学習データ８０を生成してもよい。

ここで、本実施形態に係るエンタテインメント装置１２で行われる機械学習モデル５０の学習処理の流れの一例を、図６に例示するフロー図を参照しながら説明する。ここでは例えば、学習データ記憶部５６に複数の学習データ８０が記憶されていることとする。

まず、学習データ取得部５８が、学習データ記憶部５６に記憶されている学習データ８０のうちから、機械学習モデル５０の学習に用いられていないものを１つ取得する（Ｓ１０１）。

そして、学習部６０が、Ｓ１０１に示す処理で取得された学習データ８０を用いて機械学習モデル５０の学習を実行する（Ｓ１０２）。

そして、学習部６０が、学習データ記憶部５６に記憶されているすべての学習データ８０についてＳ１０２に示す処理が実行されたか否かを確認する（Ｓ１０３）。

ここですべての学習データ８０についてＳ１０２に示す処理が実行されていないことが確認された場合は（Ｓ１０３：Ｎ）、Ｓ１０１に示す処理に戻る。

すべての学習データ８０についてＳ１０２に示す処理が実行されたことが確認された場合は（Ｓ１０３：Ｙ）、本処理例に示す処理は終了される。

次に、本実施形態に係るエンタテインメント装置１２で行われる学習済の機械学習モデル５０を用いたメッセージの出力処理の流れの一例を、図７に例示するフロー図を参照しながら説明する。本処理例ではプレイ状況画像４２の表示が行われるフレームレートでＳ２０１～Ｓ２０６に示す処理は繰り返し実行されることとする。

まず、ターゲット入力データ生成部６２が、当該フレームにおけるターゲット入力データを生成する（Ｓ２０１）。

そして、ターゲット入力データ取得部６４が、Ｓ２０１に示す処理で生成されたターゲット入力データを取得する（Ｓ２０２）。

そして、入力部６６が、Ｓ２０２に示す処理で取得されたターゲット入力データを学習済の機械学習モデル５０に入力する（Ｓ２０３）。

そして、メッセージ特定部６８が、Ｓ２０３に示す処理での入力に応じた機械学習モデル５０の出力に基づいて、出力すべきメッセージを特定する（Ｓ２０４）。ここで上述のように感情やメッセージが発生したか否かの判定結果が特定されてもよい。

そして、メッセージ特定部６８が、Ｓ２０４に示す処理でメッセージが特定されたか否かを確認する（Ｓ２０５）。メッセージが特定されなかったことが確認された場合は（Ｓ２０５：Ｎ）、Ｓ２０１に示す処理に戻る。メッセージが特定されたことが確認された場合は（Ｓ２０５：Ｙ）、メッセージ出力部７０が、Ｓ２０４に示す処理で特定されたメッセージを出力して（Ｓ２０６）、Ｓ２０１に示す処理に戻る。ここで上述のように特定された感情に応じた出力が行われてもよい。また、メッセージが発生したか否かの判定結果が出力されてもよい。

上述の処理例において、例えばプレイ状況画像４２の最初のフレーム番号が０であることとした場合における、フレーム番号が０以上（ａ＋ｂ－２）以下であるプレイ状況画像４２が表示されている期間は、上述の処理が実行されないようにしてもよい。

また上述の処理例のように毎フレームにおいてＳ２０１～Ｓ２０６に示す処理が実行される必要はない。例えばランダムに、あるいは、所定時間間隔でＳ２０１～Ｓ２０６に示す処理が実行されるようにしてもよい。

なお、本発明は上述の実施形態に限定されるものではない。

また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims

連続する複数のフレームの学習画像を含む学習入力データと、前記学習入力データに対応付けられるメッセージを含む教師データと、を含む学習データを用いた学習が実行された学習済の機械学習モデルと、
連続する複数のフレームのターゲット画像を少なくとも含むターゲット入力データを前記機械学習モデルに入力する入力部と、
前記ターゲット入力データを前記機械学習モデルに入力した際の出力に応じたメッセージを特定するメッセージ特定部と、
特定される前記メッセージを出力するメッセージ出力部と、
を含むことを特徴とするメッセージ出力装置。
前記入力部は、ゲームのプレイ中に生成される、当該ゲームのプレイ状況を表す連続する複数のフレームの前記ターゲット画像を少なくとも含む前記ターゲット入力データを前記機械学習モデルに入力し、
前記メッセージ出力部は、特定される前記メッセージを、前記ゲームのプレイ中に出力する、
ことを特徴とする請求項１に記載のメッセージ出力装置。
前記学習入力データは、前記学習画像に対応付けられるプレイヤの情報をさらに含み、
前記ターゲット入力データは、前記ゲームをプレイしているプレイヤの情報をさらに含む、
ことを特徴とする請求項２に記載のメッセージ出力装置。
前記プレイヤの情報には、前記プレイヤによるコントローラ入力の情報が含まれる、
ことを特徴とする請求項３に記載のメッセージ出力装置。
前記プレイヤの情報には、コントローラの入力頻度を示す値が含まれる、
ことを特徴とする請求項４に記載のメッセージ出力装置。
前記プレイヤの情報には、前記プレイヤの顔を撮影した画像が含まれる、
ことを特徴とする請求項３から５のいずれか一項に記載のメッセージ出力装置。
前記学習入力データは、前記教師データが示すメッセージとは異なるメッセージをさらに含み、
前記ターゲット入力データは、前記メッセージ出力部により既に出力されたメッセージをさらに含む、
ことを特徴とする請求項１から６のいずれか一項に記載のメッセージ出力装置。
連続する複数のフレームの学習画像を含む学習入力データと、前記学習入力データに対応付けられるメッセージを含む教師データと、を含む学習データを取得する学習データ取得部と、
前記学習データを用いて機械学習モデルの学習を実行する学習部と、
を含むことを特徴とする学習装置。
現在配信中である、あるいは、過去に配信された、ゲームの配信の状況を示す配信データに基づいて、前記学習データを生成する学習データ生成部、をさらに含む、
ことを特徴とする請求項８のいずれか一項に記載の学習装置。
連続する複数のフレームの学習画像を含む学習入力データと、前記学習入力データに対応付けられるメッセージを含む教師データと、を含む学習データを用いた学習が実行された学習済の機械学習モデルに、連続する複数のフレームのターゲット画像を少なくとも含むターゲット入力データを入力するステップと、
前記ターゲット入力データを前記機械学習モデルに入力した際の出力に応じたメッセージを特定するステップと、
特定される前記メッセージを出力するステップと、
を含むことを特徴とするメッセージ出力方法。
連続する複数のフレームの学習画像を含む学習入力データと、前記学習入力データに対応付けられるメッセージを含む教師データと、を含む学習データを取得するステップと、
前記学習データを用いて機械学習モデルの学習を実行するステップと、
を含むことを特徴とする学習方法。
連続する複数のフレームの学習画像を含む学習入力データと、前記学習入力データに対応付けられるメッセージを含む教師データと、を含む学習データを用いた学習が実行された学習済の機械学習モデルに、連続する複数のフレームのターゲット画像を少なくとも含むターゲット入力データを入力する手順、
前記ターゲット入力データを前記機械学習モデルに入力した際の出力に応じたメッセージを特定する手順、
特定される前記メッセージを出力する手順、
をコンピュータに実行させることを特徴とするプログラム。
連続する複数のフレームの学習画像を含む学習入力データと、前記学習入力データに対応付けられるメッセージを含む教師データと、を含む学習データを取得する手順、
前記学習データを用いて機械学習モデルの学習を実行する手順、
をコンピュータに実行させることを特徴とするプログラム。