JP7375751B2

JP7375751B2 - 情報処理装置、および情報処理方法

Info

Publication number: JP7375751B2
Application number: JP2020527215A
Authority: JP
Inventors: 亮中橋
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-06-29
Filing date: 2019-03-28
Publication date: 2023-11-08
Anticipated expiration: 2039-03-28
Also published as: JPWO2020003670A1; WO2020003670A1; US20210260482A1

Description

本開示は、情報処理装置、および情報処理方法に関する。

コンピュータゲームや実空間で行われるスポーツでは、ユーザがスキルを身につけたときの成功感や達成感が、醍醐味の一つである。しかし、難易度の高いスキルの獲得には、時間を要する場合がある。そこで、１つ１つステップを踏みながら技術を習得させる、トレーニング用のアプリケーションが知られている（例えば、非特許文献１）。

ＤａｖｉｄＳｉｌｖｅｒ１他、「ＭａｓｔｅｒｉｎｇｔｈｅｇａｍｅｏｆＧｏｗｉｔｈｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓａｎｄｔｒｅｅｓｅａｒｃｈ」、ＡＲＴＩＣＬＥ、ｄｏｉ：１０．１０３８／ｎａｔｕｒｅ１６９６１

しかしながら、トレーニング用のアプリケーションは画一的であり、ユーザの行動に応じたアドバイス情報を提供することは困難であった。

そこで、本開示では、ユーザの行動に応じたアドバイス情報を提供することができる、情報処理装置、および情報処理方法を提案する。

上記の課題を解決するために、本開示に係る一形態の情報処理装置は、ユーザの行動モデルに基づいて、前記ユーザの行動に応じて状況が変化するコンテンツの特定状況を抽出する抽出部と、前記特定状況に関するアドバイス情報を出力する出力制御部と、を備える。

本開示によれば、ユーザの行動に応じたアドバイス情報を提供することができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本開示の第１の実施形態、第１の実施形態の変形例、および第２の実施形態に係る情報処理システムの一例を示す模式図である。本開示の第１の実施形態に係るコンテンツの一例を示す模式図である。本開示の第１の実施形態および第２の実施形態に係る情報処理装置および端末装置の機能ブロック図の一例を示す図である。本開示の第１の実施形態に係る第１行動履歴情報および第２行動履歴情報のデータ構成の一例を示す模式図である。本開示の第１の実施形態に係る発生要因の抽出の一例を示す説明図である。本開示の第１の実施形態に係る表示画面の一例を示す模式図である。本開示の第１の実施形態に係る情報処理の手順の一例を示すフローチャートである。本開示の第１の実施形態に係る出力処理の手順の一例を示すフローチャートである。本開示の第１の実施形態の変形例に係る情報処理装置および端末装置の機能ブロック図の一例を示す図である。本開示の第１の実施形態の変形例に係る第３行動履歴情報の生成の一例を示す説明図である。本開示の第１の実施形態の変形例に係る情報処理の手順の一例を示すフローチャートである。本開示の第２の実施形態に係る表示画面の一例を示す模式図である。本開示の第２の実施形態に係る情報処理の手順の一例を示すフローチャートである。本開示の情報処理装置および端末装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

（第１の実施形態）
［第１の実施形態に係る情報処理システムの構成］
図１は、本実施形態の情報処理システム１の一例を示す模式図である。

情報処理システム１は、情報処理装置１０と、端末装置１２と、を備える。情報処理装置１０と端末装置１２とは、ネットワークＮを介して通信可能に接続されている。情報処理装置１０と端末装置１２とは、無線または有線により通信可能に接続されていればよく、通信形態は限定されない。

情報処理装置１０は、コンテンツに対する、ユーザＵの行動に応じたアドバイス情報を提供する装置である。

コンテンツは、ユーザＵの行動に応じて状況が変化する事象である。言い換えると、コンテンツは、入力されたユーザＵの行動に応じてコンテンツ内の状況が変化し、変化後の状況を出力するアプリケーションプログラムである。詳細には、コンテンツは、ユーザＵの行動に対する状況の変化の集合によって表される。例えば、コンテンツにユーザＵの行動を示す行動信号が入力されると、コンテンツは、行動信号に応じた変化後の状況を示す状況情報を出力する。なお、以下では、行動信号を単に行動と称し、状況情報を単に状況と称して説明する場合がある。

具体的には、コンテンツは、コンピュータで実行されるゲームである。ゲームは、現実の事象や体験を仮想的に進行するシミュレーションゲームや、コンピュータゲームを示す。

図２は、コンテンツ３２の一例を示す模式図である。例えば、コンテンツ３２は、ドライブゲーム３２Ａ、アクションゲーム３２Ｂ、ボードゲーム３２Ｃ、ボードゲーム３２Ｄ、スポーツゲーム３２Ｅ、などである。ドライブゲーム３２Ａは、仮想空間内で車両を走行させるゲームである。アクションゲーム３２Ｂは、キャラクタの動きによりゲーム内の状況が変化するゲームである。ボードゲーム３２Ｃは、囲碁のボードゲームである。ボードゲーム３２Ｄは、将棋のボードゲームである。スポーツゲーム３２Ｅは、試合や競技などのスポーツを示すゲームである。

なお、コンテンツ３２の種類は、これらに限定されない。例えば、コンテンツ３２は、現実の世界で行われるスポーツや車両の走行などの現実の事象や体験を、仮想的に実行するシミュレーション用のアプリケーションプログラムであってもよい。また、コンテンツ３２は、現実の世界で行われる事象の一部を簡易的に実行するアプリケーションプログラムであってもよい。すなわち、コンテンツ３２は、ユーザＵが実空間で行うスポーツなどの事象を、該事象の少なくとも一部を模擬的に示すプログラムとして提供したものであってもよい。

図１に戻り説明を続ける。本実施形態の情報処理装置１０は、コンテンツ３２に対するユーザＵの行動に応じたアドバイス情報を出力する。ユーザＵの行動およびアドバイス情報の詳細は後述する。本実施形態では、情報処理装置１０は、アドバイス情報を端末装置１２へ送信することで、アドバイス情報を出力する。情報処理装置１０の詳細は後述する。

端末装置１２は、情報処理装置１０から受信したアドバイス情報を出力する装置である。端末装置１２には、コンテンツ３２を実現するためのプログラム（以下、ゲームプログラムと称する）が予めインストールされている。端末装置１２は、コンテンツ３２の実行時や実行前などの所定のタイミングで、アドバイス情報を出力する。

端末装置１２は、情報処理装置１０から受信したアドバイス情報をユーザＵが確認可能な形態で出力可能な装置であればよい。また、コンテンツ３２の実行時または実行前などにアドバイス情報を出力する観点から、端末装置１２は、コンテンツ３２を実行可能な装置であり、且つ、アドバイス情報を出力可能な装置であることが好ましい。図１には、端末装置１２の一例として、ゲーム装置１２Ａと、携帯端末１２Ｂと、を示した。

ゲーム装置１２Ａは、コンテンツ３２の一例であるゲームを実行する装置である。ゲーム装置１２Ａは、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを有し、ゲーム用ＲＯＭをＲＯＭドライブに挿入してゲームプログラムを実行することで、ゲーム装置１２Ａとして動作する。なお、ゲーム装置１２Ａは、エミュレータプログラムを起動することで、ゲームプログラムのイメージファイルを実行するエミュレーション装置としても動作できる。なおエミュレータプログラムは、ネットワークＮを介して取得してもよく、また出荷時にプリインストールされていてもよい。

ゲーム装置１２Ａには、出力部１４および入力部１６が有線または無線により接続されている。入力部１６は、ユーザＵがゲーム装置１２Ａに対して操作入力を行うための入力インターフェース装置である。入力部１６は、ユーザＵの操作指示に応じた動作信号をゲーム装置１２Ａへ出力する。入力部１６は、コントローラ、キーボード、タッチパネル、ポインティングデバイス、マウス、入力ボタンなどである。

出力部１４は、各種画像を表示するディスプレイである。出力部１４は、例えば、公知のＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）や有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）などである。出力部１４は、画像の表示機能に加えて、音を出力するスピーカ機能を更に有していてもよい。

携帯端末１２Ｂは、ユーザＵによって携帯可能な端末装置１２である。携帯端末１２Ｂは、例えば、タブレット端末やスマートフォンである。携帯端末１２Ｂは、ＵＩ（ユーザ・インターフェース）部２６を備える。ＵＩ部２６は、ユーザＵによる各種操作入力の受付および各種情報の出力を行う。ＵＩ部２６は、出力部２６Ａと、入力部２６Ｂと、を備える。出力部２６Ａは、各種情報を表示する。出力部２６Ａは、有機ＥＬやＬＣＤなどである。なお、出力部２６Ａは、表示機能に加えて、音を出力するスピーカ機能を備えていてもよい。入力部２６Ｂは、ユーザＵによる各種操作入力を受付ける。本実施形態では、入力部２６Ｂは、ユーザＵの操作指示に応じた動作信号を携帯端末１２Ｂの制御部へ出力する。入力部２６Ｂは、例えば、キーボード、ポインティングデバイス、マウス、入力ボタンなどである。なお、出力部２６Ａと入力部２６Ｂとを一体的に構成し、タッチパネルとしてもよい。

［第１の実施形態に係る情報処理装置１０の構成］
図３は、情報処理装置１０および端末装置１２の機能ブロック図の一例である。

情報処理装置１０は、制御部１８と、記憶部２０と、通信部２２と、を備える。記憶部２０および通信部２２と、制御部１８とは、データや信号を授受可能に接続されている。

通信部２２は、ネットワークＮを介して端末装置１２などの各種装置と通信するための通信インターフェースである。

記憶部２０は、各種情報を記憶する。本実施形態では、記憶部２０は、第１行動履歴情報２０Ａと、第２行動履歴情報２０Ｂと、行動モデルＤＢ２０Ｃと、を記憶する。

第１行動履歴情報２０Ａは、第１ユーザＵ１の行動の履歴を示す情報である。第２行動履歴情報２０Ｂは、第２ユーザＵ２の行動の履歴を示す情報である。第１ユーザＵ１および第２ユーザＵ２は、ユーザＵの一例である。第２ユーザＵ２は、第１ユーザＵ１に比べて、コンテンツ３２に対する習熟度やスキルの高いユーザＵである。なお、第１ユーザＵ１および第２ユーザＵ２を総称して説明する場合には、単に、ユーザＵと称して説明する。

図４は、第１行動履歴情報２０Ａおよび第２行動履歴情報２０Ｂのデータ構成の一例を示す模式図である。

第１行動履歴情報２０Ａおよび第２行動履歴情報２０Ｂは、コンテンツ３２の状況ｓと、状況ｓに対するユーザＵの行動ａと、の対応の集合によって表される。

コンテンツ３２の状況ｓとは、コンテンツ３２によって提供される環境を示す。状況ｓは、具体的には、ゲーム中に出力される画面、ゲーム内においてユーザＵによる操作指示などに応じて動くキャラクタの位置や活動状態、キャラクタ以外の周辺環境の状態、ゲームの進行状況、およびゲームスコア等によって表される。周辺環境の状態は、ゲーム内における上記キャラクタ以外の物の位置や物の状態、明るさや天候などを含む。なお、上述したように、コンテンツ３２が、ユーザＵが実空間で行うスポーツなどの事象を、該事象の少なくとも一部を模擬的に示すプログラムとして提供したものである場合がある。この場合、状況ｓは、実空間の状態を示す情報であってもよい。実空間の状態とは、ユーザＵの行動に応じて変化する環境であればよい。

ユーザＵの行動ａは、ユーザＵの行動を示す行動信号によって表される。行動信号は、ユーザＵによる入力部１６の操作指示などの行動ａや、ユーザＵの身体の少なくとも一部の動き（行動ａ）を示す情報である。

すなわち、第１行動履歴情報２０Ａおよび第２行動履歴情報２０Ｂに示される行動ａは、コンテンツ３２によって提供される状況ｓに対してユーザＵが入力部１６を操作することで入力した行動信号と、実空間におけるユーザＵの身体の少なくとも一部の動きを示す行動信号の検出結果と、の少なくとも一方を示す情報であればよい。ユーザＵの身体の少なくとも一部の動きを示す行動信号には、例えば、ユーザＵの身体の少なくとも一部の動きを検出する公知の画像処理技術や公知のセンサ検知による技術により検出された検出結果を用いればよい。

このように、第１行動履歴情報２０Ａおよび第２行動履歴情報２０Ｂに示されるユーザＵの行動ａの履歴情報は、コンテンツ３２によって提供されるゲームに対してユーザＵが過去に入力部１６や入力部２６Ｂなどを用いて操作入力を行ったときの履歴情報であってもよい。また、第１行動履歴情報２０Ａおよび第２行動履歴情報２０Ｂに示されるユーザＵの行動ａの履歴情報は、ユーザＵが実空間においてコンテンツ３２に対応するスポーツなどの動作を行ったときの履歴情報であってもよい。

コンテンツ３２は、ユーザＵによる入力部１６の操作指示や身体の動きなどの行動ａにより、コンテンツ３２の状況ｓが次の状況ｓへと変化する。すなわち、コンテンツ３２は、入力された行動ａに応じて変化後の状況ｓを出力する。そして、更に、変化後の状況ｓに対するユーザＵの行動ａに応じて、該状況ｓが次の状況ｓへと変化する。この繰返しにより、コンテンツ３２によって提供されるゲームやストーリなどが進行する。

このため、第１行動履歴情報２０Ａおよび第２行動履歴情報２０Ｂには、コンテンツ３２の状況ｓと、状況ｓに対するユーザＵの行動ａと、の対応の集合が登録される。

なお、第１行動履歴情報２０Ａおよび第２行動履歴情報２０Ｂの少なくとも一方は、状況ｓと、ユーザＵの行動ａと、の対応の時系列集合であってもよい。すなわち、第１行動履歴情報２０Ａおよび第２行動履歴情報２０Ｂの少なくとも一方は、状況ｓと行動ａとの対応を時系列のタイミングごとに示した時系列集合であってもよい。なお、時系列集合は、連続的または段階的な時系列集合であってもよく、離散的な時系列集合であってもよい。

以下では、第１ユーザＵ１の行動ａを、第１行動ａａと称して説明する。また、第２ユーザＵ２の行動ａを、推奨行動ａｂと称して説明する。上述したように、第２ユーザＵ２は、第１ユーザＵ１に比べて、コンテンツ３２に対する習熟度やスキルの高いユーザＵである。このため、本実施形態では、第２ユーザＵ２の行動ａを、状況ｓに対する推奨される行動ａ、すなわち推奨行動ａｂと称して説明する。

図４には、第１行動履歴情報２０Ａの一例として、各タイミングに応じた複数の状況ｓ（状況ｓ１～状況ｓｍ（ｍは２以上の整数））と、各状況ｓに対して第１ユーザＵ１の行った行動ａ（第１行動ａａ（第１行動ａａ１～第１行動ａａｍ））と、の時系列集合を示した。

また、図４には、第２行動履歴情報２０Ｂの一例として、各タイミングに応じた複数の状況ｓ（状況ｓ１～状況ｓｎ（ｎは２以上の整数））と、各状況ｓに対して第２ユーザＵ２の行った行動ａ（推奨行動ａｂ（推奨行動ａｂ１～推奨行動ａｂｎ））と、の集合を一例として示した。

なお、第１行動履歴情報２０Ａは、後述する制御部１８で学習した第１行動モデルに、状況ｓを入力することで導出される第１行動ａａの集合であってもよい。この場合、第１行動モデルを用いて仮想的にコンテンツ３２をプレイさせることで得られる履歴情報を、第１行動履歴情報２０Ａとして用いることが可能となる。また、この場合、第１ユーザＵ１の未経験の状況ｓに対する第１行動ａａを含む、第１行動履歴情報２０Ａを得ることができる。第１行動モデルの詳細は後述する。

同様に、第２行動履歴情報２０Ｂは、後述する制御部１８で学習した第２行動モデルに状況ｓを入力することで導出される推奨行動ａｂの集合であってもよい。この場合、第２行動モデルを用いて仮想的にコンテンツ３２をプレイさせることで得られた履歴情報を、第２行動履歴情報２０Ｂとして用いることが可能となる。また、この場合、第２ユーザＵ２の未経験の状況ｓに対する推奨行動ａｂを含む、第２行動履歴情報２０Ｂを得ることができる。第２行動モデルの詳細は後述する。

図３に戻り説明を続ける。情報処理装置１０は、ネットワークＮを介して１または複数の端末装置１２や外部装置などから、第１行動履歴情報２０Ａおよび第２行動履歴情報２０Ｂを収集し、記憶部２０へ記憶すればよい。

また、上述したように、情報処理装置１０は、制御部１８で行動モデル（第１行動モデル、第２行動モデル）を用いて生成した第１行動履歴情報２０Ａおよび第２行動履歴情報２０Ｂを、記憶部２０へ記憶してもよい。

次に、行動モデルＤＢ２０Ｃについて説明する。行動モデルＤＢ２０Ｃは、制御部１８で学習された行動モデルを登録するためのデータベースである。なお、行動モデルＤＢ２０Ｃのデータ形式は、データベースに限定されない。

次に、制御部１８について説明する。制御部１８は、情報処理装置１０を制御する。

制御部１８は、第１学習部１８Ａと、第２学習部１８Ｂと、抽出部１８Ｃと、出力制御部１８Ｄと、を備える。第１学習部１８Ａ、第２学習部１８Ｂ、抽出部１８Ｃ、および出力制御部１８Ｄの一部またはすべては、例えば、ＣＰＵなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

第１学習部１８Ａは、第１行動履歴情報２０Ａに基づいて、第１行動モデルを学習する。

第１行動モデルは、行動モデルの一例である。行動モデルは、状況ｓから行動ａを導出するための学習モデルである。言い換えると、行動モデルは、状況ｓに応じたユーザＵの行動パターンを示すアルゴリズムによって表される分類器や識別器である。

第１行動モデルは、状況ｓから第１行動ａａを導出するための学習モデルである。第１行動モデルは、例えば、下記式（１）で表される。

π（ｓ）→ａａ式（１）

式（１）中、ｓは、コンテンツ３２によって提供される状況ｓを示す。式（１）中、ａａは、ある状況ｓのときの第１ユーザＵ１の第１行動ａａを示す。

なお、第１行動モデルは、ある状況ｓのときに特定の第１行動ａａをとる確率を示す学習モデルであってもよい。この場合、第１行動モデルは、例えば、下記式（２）で表される。

π（ａａ｜ｓ）→［０，１］式（２）

式（２）中、ａａおよびｓは、式（１）と同様である。

第１学習部１８Ａは、第１行動履歴情報２０Ａに示される各タイミングに対応する状況ｓと第１行動ａａとの対を教師データとして用いる。そして、第１学習部１８Ａは、該教師データを用いて、ある状況ｓのときに第１ユーザＵ１が行う第１行動ａａを導出するための行動モデルを学習する。第１学習部１８Ａは、公知のＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇなどのユーザＵの行動模倣を学習する公知の機械学習により、第１行動モデルを学習すればよい。

第２学習部１８Ｂは、第２行動履歴情報２０Ｂに基づいて、第２行動モデルを学習する。第２行動モデルは、行動モデルの一例である。第２行動モデルは、状況ｓから推奨行動ａｂを導出するための学習モデルである。

第２行動モデルは、例えば、下記式（３）で表される。

π’（ｓ）→ａｂ式（３）

式（３）中、ｓは、コンテンツ３２によって提供される状況ｓを示す。式（３）中、ａｂは、ある状況ｓのときの第２ユーザＵ２の推奨行動ａｂを示す。

なお、第２行動モデルは、ある状況ｓのときに特定の推奨行動ａｂをとる確率を示す学習モデルであってもよい。この場合、第２行動モデルは、例えば、下記式（４）で表される。

π’（ａｂ｜ｓ）→［０，１］式（４）

式（４）中、ａｂおよびｓは、上記式（３）と同様である。

第２学習部１８Ｂは、第２行動履歴情報２０Ｂに示される各タイミングに対応する状況ｓと推奨行動ａｂとの対を教師データとして用いる。そして、第２学習部１８Ｂは、該教師データを用いて、ある状況ｓのときに第２ユーザＵ２が行う推奨行動ａｂを導出するための行動モデルを学習する。第２学習部１８Ｂは、公知のＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇなどのユーザＵの行動模倣を学習する公知の機械学習により、第２行動モデルを学習すればよい。

なお、第１学習部１８Ａおよび第２学習部１８Ｂは、学習した第１行動モデルおよび第２行動モデルを、これらの行動モデルを分類規則に応じて分類し、各分類規則の識別情報に対応付けて行動モデルＤＢ２０Ｃへ登録してもよい。分類規則は、予め定めればよい。分類規則は、例えば、これらの行動モデルの学習に用いたユーザＵごと、ユーザＵの属するグループごと、行動モデルの適用対象ごと、などである。なお、分類規則は、これらに限定されない。

次に、抽出部１８Ｃについて説明する。

抽出部１８Ｃは、ユーザＵの行動モデルに基づいて、コンテンツ３２の特定状況を抽出する。コンテンツ３２の特定状況に抽出に用いるユーザＵの行動モデルは、第１ユーザＵ１の第１行動モデル、および、第２ユーザＵ２の第２行動モデル、の少なくとも一方である。本実施形態では、抽出部１８Ｃは、第１ユーザＵ１の第１行動モデルに基づいて、特定状況を抽出する。

特定状況とは、コンテンツ３２に含まれる状況ｓの内、特定の１または複数の状況ｓの集合を示す。特定状況は、連続的または段階的な状況ｓの時系列集合であってもよいし、離散的な状況ｓの時系列集合であってもよい。なお、特定状況は、１または複数の状況ｓの集合であればよく、時系列の集合に限定されない。

特定状況は、具体的には、コンテンツ３２で予め規定された異常とされる状況ｓである。例えば、コンテンツ３２がドライブゲーム３２Ａ（図２参照）である場合、異常とされる状況ｓは、例えば、予め定めた走行ルートを外れた状況ｓや、他の車両と衝突した状況ｓなどである。

本実施形態では、抽出部１８Ｃは、第１行動モデルから導出した第１行動ａａを行動ａとしてコンテンツ３２に入力したときに、該コンテンツ３２から出力される状況ｓの評価値が第１閾値以下の状況を、特定状況として抽出する。

評価値が高いほど、予め定めた推奨の状況ｓに近い事を示す。また、評価値が低いほど、予め定めた推奨の状況ｓからの距離が大きい事を示す。評価値が第１閾値以下の状態とは、コンテンツ３２で予め規定した異常とされる状況ｓである。

第１閾値には、異常な状況ｓと正常な状況ｓとを判別するための閾値を予め定めればよい。言い換えると、第１閾値には、異常な状況ｓとみなす評価値の範囲の上限値を予め定めればよい。なお、抽出部１８Ｃは、コンテンツ３２ごとに第１閾値を予め定め、コンテンツ３２の識別情報に対応づけて第１閾値を記憶部２０へ記憶してもよい。そして、抽出部１８Ｃは、特定状況の抽出時に、特定状況の抽出対象のコンテンツ３２の識別情報に対応する第１閾値を記憶部２０から読取り、特定状況の抽出に用いればよい。

抽出部１８Ｃは、コンテンツ３２によって提供された状況ｓを、第１行動モデルへ導入することで、該状況ｓに対する第１行動ａａを得る。そして、抽出部１８Ｃは、得られた第１行動ａａを、行動ａとしてコンテンツ３２へ入力することで、変化した次の状況ｓを得る。そして、抽出部１８Ｃは、この処理を繰り返し実行する。すなわち、抽出部１８Ｃは、第１行動モデルを用いて、コンテンツ３２によって実現されるゲームを仮想的に実行する。

コンテンツ３２を示すモデルは、例えば、下記式（５）で表される。

Ｔ（ｓ，ａ）→ｓ式（５）

式（５）は、ある状況ｓである行動ａが入力されると、次の状況ｓが出力されることを示す。

抽出部１８Ｃは、第１行動ａａ（行動ａ）の入力により、コンテンツ３２から変化後の新たな状況ｓが出力されるごとに、該状況ｓの評価値を算出する。

抽出部１８Ｃは、該状況ｓの示す内容が該状況ｓを提供するコンテンツ３２において予め定めた推奨される状況ｓに近いほど、高い評価値を算出する。評価値の算出方法は、コンテンツ３２に応じて予め定めればよい。

例えば、抽出部１８Ｃは、状況判定関数を用いて、評価値を算出する。状況判定関数は、例えば、下記式（６）または式（７）で表される。

ｒ（ｓ）→Ｒ・・・式（６）
ｒ（ｓ，ａ）→Ｒ・・・式（７）

式（６）は、ある状況ｓに対する評価値Ｒを導出するための状況判定関数ｒを示す式である。式（７）は、ある状況ｓである行動ａを行ったときの評価値Ｒを導出するための状況判定関数ｒを示す式である。

抽出部１８Ｃは、コンテンツ３２から出力された変化後の状況ｓ、または該変化後の状況ｓと該変化後の状況ｓに対して入力された第１行動ａａとしての行動ａを、上記式（６）または式（７）へ導入することで、評価値Ｒを算出する。

そして、抽出部１８Ｃは、算出した評価値Ｒが第１閾値以下の状況ｓを、評価値Ｒが悪い、すなわち、推奨の状況ｓからより離れた状況ｓであると判断し、特定状況として抽出する。

上記処理により抽出部１８Ｃは、第１ユーザＵ１の第１行動モデルに基づいて、コンテンツ３２の特定状況を抽出する。

なお、抽出部１８Ｃは、抽出した特定状況の発生要因を更に抽出してもよい。

この場合、抽出部１８Ｃは、特定状況の発生タイミングより前の期間の状況ｓと第１行動ａａとの対応を、特定状況の発生要因として更に抽出する。

詳細には、抽出部１８Ｃは、第１行動モデルを用いて、コンテンツ３２によって実現されるゲームを仮想的に実行する。そして、抽出部１８Ｃは、上述したように、特定状況を特定すると共に、特定状況の発生タイミングを特定する。さらに、抽出部１８Ｃは、特定状況の発生タイミングより前の期間の状況ｓの時系列集合の内、少なくとも１つの状況ｓと、該状況ｓのとき入力された第１行動ａａと、の対応を、特定状況の発生要因として抽出する。

図５は、発生要因の抽出の一例を示す説明図である。なお、図５に示すグラフ中、縦軸には状況判定関数ｒ（ｓ，ａ）によって表される評価値Ｒを示し、横軸にはタイミングを示した。

例えば、タイミングｔ４のときの状況ｓ１０の評価値Ｒが第１閾値Ｔ１以下の範囲内であったと仮定する。この場合、抽出部１８Ｃは、該タイミングｔ４のときの状況ｓ１０を特定状況として抽出する。また、抽出部１８Ｃは、該タイミングｔ４を、特定状況の発生タイミングｔ４として特定する。

そして、抽出部１８Ｃは、特定状況の発生タイミングｔ４より前の期間Ａの状況ｓの内、該発生タイミングｔ４より前のタイミングの状況ｓ（図５では、状況ｓ９、状況ｓ８、状況ｓ７）の各々に対する第１行動ａａを補正した補正行動を、行動ａとしてコンテンツ３２へ入力する。

詳細には、抽出部１８Ｃは、発生タイミングｔ４より前の（過去の）タイミングに向かって、１つずつ状況ｓを遡り、１つ状況ｓを遡るごとに、遡った状況ｓに対して行われた第１行動ａａを、該第１行動ａａとは異なる値の補正行動に補正する。そして、補正した補正行動を、該状況ｓの該タイミングに対する行動ａとしてコンテンツ３２へ入力する。

図５に示す例の場合、抽出部１８Ｃは、タイミングｔ４から１つ状況ｓを遡ったタイミングｔ３の状況ｓ９に対して入力された第１行動ａａを、補正行動に補正する。そして、抽出部１８Ｃは、該補正行動を、該タイミングｔ３に対応する行動ａとしてコンテンツ３２へ入力することで、補正後の状況ｓ９’を得る。

なお、抽出部１８Ｃは、遡った状況ｓに対する第２ユーザＵ２の推奨行動ａｂを、補正行動として用いてもよい。すなわち、抽出部１８Ｃは、遡った状況ｓに対して入力された第２ユーザＵ２の推奨行動ａｂを、補正行動として用いてもよい。

この場合、抽出部１８Ｃは、遡った状況ｓを、第２学習部１８Ｂで学習した第２行動モデルへ入力することで、該状況ｓに対する推奨行動ａｂを取得すればよい。

なお、抽出部１８Ｃは、遡った状況ｓに対応する推奨行動ａｂを第２行動履歴情報２０Ｂから読取ることで、該状況ｓに対する推奨行動ａｂを取得してもよい。抽出部１８Ｃが第２行動履歴情報２０Ｂから推奨行動ａｂを読取る場合には、制御部１８は、第２学習部１８Ｂを備えない構成であってもよい。

抽出部１８Ｃは、遡ったタイミングの状況ｓに対する行動ａとして補正行動をコンテンツ３２へ入力した後に、特定状況の発生タイミングｔ４に向かって、上記と同様にして第１行動モデルを用いてコンテンツ３２を仮想的に実行する。

そして、抽出部１８Ｃは、特定状況の発生タイミングｔ４においてコンテンツ３２から出力される状況ｓの評価値Ｒが第１閾値Ｔ１を超えたと判定するまで、発生タイミングｔ４より前の（過去の）タイミングに向かって、１つずつ状況ｓを遡り、補正行動のコンテンツ３２への入力と発生タイミングｔ４における状況ｓの評価値Ｒの判定を繰返し実行する。

そして、抽出部１８Ｃは、発生タイミングｔ４においてコンテンツ３２から出力される状況ｓの評価値Ｒが第１閾値Ｔ１を超えたときのタイミングの状況ｓと、該状況ｓに対する第１行動ａａとの対応を、発生要因として抽出すればよい。

図５に示すように、発生タイミングｔ４から１つ状況ｓを遡ったタイミングｔ３の状況ｓ９を第１行動ａａの補正によって状況ｓ９’としたと想定する。そして、この場合、その後の第１行動モデルを用いたコンテンツ３２の仮想的な実行によって、発生タイミングｔ４でコンテンツ３２から出力された状況ｓが、第１閾値Ｔ１以下の状況ｓ１０９であったと想定する。

そして、タイミングｔ３から更に１つ状況ｓを遡ったタイミングｔ２の状況ｓ８の状況ｓ８を第１行動ａａの補正によって状況ｓ８’としたと想定する。そして、この場合、その後の第１行動モデルを用いたコンテンツ３２の仮想的な実行によって、発生タイミングｔ４でコンテンツ３２から出力された状況ｓが、第１閾値Ｔ１を超える状況ｓ１０８となったと想定する。

この場合、抽出部１８Ｃは、該タイミングｔ２の状況ｓ８と、該状況ｓ８に対する第１ユーザＵ１の第１行動ａａと、の対応を、発生タイミングｔ４の特定状況（状況ｓ１０）の発生要因として抽出する。

このように、抽出部１８Ｃは、特定状況の発生タイミングｔ４より前の期間の状況ｓに対する第１行動ａａを補正した補正行動を、コンテンツ３２に入力する。そして、抽出部１８Ｃは、該前の期間に補正行動をコンテンツ３２に入力した場合に、発生タイミングｔ４においてコンテンツ３２から出力される状況ｓの評価値Ｒが第１閾値Ｔ１を超え、且つ発生タイミングｔ４に最も近いタイミングｔの状況ｓと第１行動ａａとの対応を、発生要因として抽出する。

図３に戻り説明を続ける。次に、出力制御部１８Ｄについて説明する。出力制御部１８Ｄは、特定状況に関するアドバイス情報を出力する。

出力制御部１８Ｄは、抽出部１８Ｃから特定状況を受付ける。なお、出力制御部１８Ｄは、抽出部１８Ｃから、特定状況および発生要因の双方を受付けてもよい。そして、抽出部１８Ｃは、特定状況に関するアドバイス情報を出力する。なお、抽出部１８Ｃは、特定状況および発生要因に関するアドバイス情報を出力してもよい。

アドバイス情報とは、第１ユーザＵ１に対する、特定状況に関するアドバイスとなる情報である。具体的には、アドバイス情報は、特定状況の内容、特定状況の発生要因、および特定状況の回避方法、の少なくとも１つを示す。

特定状況の内容とは、特定状況の示す状況ｓや、該状況ｓに対する第１ユーザＵ１の第１行動ａａを示す情報である。特定情報の示す状況ｓは、例えば、ゲーム中に出力される画面、ゲーム内において第１ユーザＵ１による操作指示などに応じて動くキャラクタの位置や活動状態、キャラクタ以外の周辺環境の状態、ゲームの進行状況、およびゲームスコア等によって表される。また、特定状況の内容は、コンテンツ３２における該特定状況の位置や発生タイミングを示す情報を含んでいてもよい。また、特定状況の内容は、該特定状況の位置や発生タイミングによって示される箇所が、第１ユーザＵ１の注意を喚起すべき箇所であることを示す情報を含んでいてもよい。

特定状況の発生要因は、抽出部１８Ｃが抽出した発生要因を示す状況ｓと第１ユーザＵ１の第１行動ａａとの対応を示す情報であればよい。例えば、発生要因は、ある状況ｓで第１ユーザＵ１がどのような行動を行うと、発生タイミングにおいて特定状況に示される状況ｓが発生するかを示す情報であってもよい。

特定状況の回避方法は、特定情報を回避するために第１ユーザＵ１がとる行動ａを示す情報である。特定状況の回避方法は、例えば、特定状況の示す状況ｓに対応する推奨行動ａｂを示す情報や、発生要因に示される状況ｓに対応する推奨行動ａｂを示す情報である。

出力制御部１８Ｄは、抽出部１８Ｃから受付けた特定状況、または特定状況および発生要因を用いて、アドバイス情報を生成し、出力すればよい。

本実施形態では、出力制御部１８Ｄは、特定状況に関するアドバイス情報を、第１ユーザＵ１に該情報を提供可能な端末装置１２へ送信することで、該アドバイス情報を出力する。

例えば、出力制御部１８Ｄは、特定状況に関するアドバイス情報を、通信部２２およびネットワークＮを介して第１ユーザＵ１の操作する端末装置１２へ送信すればよい。この場合、例えば、記憶部２０は、第１ユーザＵ１の識別情報と、該第１ユーザＵ１の操作する端末装置１２の識別情報と、を対応づけて予め記憶すればよい。そして、出力制御部１８Ｄは、提供対象の第１ユーザＵ１の識別情報に対応する、該第１ユーザＵ１の操作する端末装置１２の識別情報を記憶部２０から読取り、該識別情報によって識別される端末装置１２へアドバイス情報を送信すればよい。

なお、出力制御部１８Ｄは、特定状況に関するアドバイス情報を、情報処理装置１０に直接接続された表示装置などの出力装置に出力してもよい。

［第１の実施形態に係る端末装置の構成］
次に、端末装置１２について説明する。端末装置１２は、情報処理装置１０から受信したアドバイス情報を出力する。

端末装置１２は、制御部２４と、ＵＩ部２６と、通信部２８と、記憶部３０と、を備える。ＵＩ部２６、通信部２８、および記憶部３０と、制御部２４とは、データや信号を授受可能に接続されている。

ＵＩ部２６は、上述したように、出力部２６Ａと入力部２６Ｂとを含む。なお、端末装置１２がゲーム装置１２Ａである場合には、出力部２６Ａは出力部１４に相当し、入力部２６Ｂは入力部１６に相当する。

通信部２８は、ネットワークＮを介して情報処理装置１０や他の装置と通信する通信インターフェースである。記憶部３０は、各種情報を記憶する。

制御部２４は、端末装置１２を制御する。制御部２４は、取得部２４Ａと、出力制御部２４Ｂと、を備える。取得部２４Ａおよび出力制御部２４Ｂの一部またはすべては、例えば、ＣＰＵなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣなどのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

取得部２４Ａは、情報処理装置１０からアドバイス情報を取得する。出力制御部２４Ｂは、アドバイス情報をＵＩ部２６へ出力する。本実施形態では、出力制御部２４Ｂは、アドバイス情報を示す表示画面をＵＩ部２６へ表示する。

図６は、表示画面４０の一例を示す模式図である。図６には、コンテンツ３２がドライブゲーム３２Ａ（図２参照）である場合を一例として示した。この場合、端末装置１２の出力制御部２４Ｂは、ドライブゲーム３２Ａで提供されるゲーム画面に、アドバイス情報を示すアイコンＰを配置した、表示画面４０を生成し、ＵＩ部２６へ出力する。なお、表示画面４０の生成は、情報処理装置１０の出力制御部１８Ｄで実行してもよい。

例えば、第１ユーザＵ１は、ＵＩ部２６（入力部２６Ｂまたは入力部１６）を操作することで、表示画面４０におけるアイコンＰの表示位置を選択する。出力制御部２４Ｂは、該選択を示す選択信号をＵＩ部２６から受付けると、選択されたアイコンＰに対応するアドバイス情報の詳細をＵＩ部２６へ表示すればよい。なお、アドバイス情報の表示形態は、図６に示す形態に限定されない。

図３に戻り説明を続ける。端末装置１２における、アドバイス情報の出力タイミングは限定されない。例えば、制御部２４は、第１ユーザＵ１によるＵＩ部２６の操作指示によってゲーム開始指示信号を受付けたときに、アドバイス情報をＵＩ部２６へ表示する。また、例えば、制御部２４は、端末装置１２がコンテンツ３２のゲームプログラムを実行中に、アドバイス情報をＵＩ部２６へ出力してよい。この場合、制御部２４は、コンテンツ３２によって提供される状況ｓがアドバイス情報に示される特定状況や発生要因の状況ｓとなった場合や特定状況に近づいたときなどに、アドバイス情報をＵＩ部２６へ出力すればよい。

［第１の実施形態に係る情報処理手順］
次に、情報処理装置１０が実行する情報処理の手順の一例を説明する。

図７は、情報処理装置１０が実行する情報処理の手順の一例を示す、フローチャートである。

まず、第１学習部１８Ａが、記憶部２０から第１行動履歴情報２０Ａを取得する（ステップＳ１００）。次に、第１学習部１８Ａは、ステップＳ１００で取得した第１行動履歴情報２０Ａに基づいて、第１行動モデルを学習する（ステップＳ１０２）。

次に、第２学習部１８Ｂが、記憶部２０から第２行動履歴情報２０Ｂを取得する（ステップＳ１０４）。次に、第２学習部１８Ｂは、ステップＳ１０４で取得した第２行動履歴情報２０Ｂに基づいて、第２行動モデルを学習する（ステップＳ１０６）。

次に、抽出部１８Ｃが、ステップＳ１０２で学習した第１行動モデルを用いて、コンテンツ３２によって実現されるゲームを仮想的に実行する（ステップＳ１０８）。すなわち、ステップ１０８では、抽出部１８Ｃは、第１行動モデルから導出される第１行動ａａを行動ａとして、順次コンテンツ３２へ入力し、順次出力される状況ｓを得る。

次に、抽出部１８Ｃは、ステップＳ１０２で学習した第１ユーザＵ１の第１行動モデルに基づいて、ステップＳ１０８でコンテンツ３２から順次出力される状況ｓの評価値Ｒに基づいて、コンテンツ３２の特定状況を抽出する（ステップＳ１１０）。

次に、抽出部１８Ｃは、ステップＳ１１０で抽出した特定状況の発生要因を抽出する（ステップＳ１１２）。

次に、出力制御部１８Ｄが、ステップＳ１１０で抽出した特定状況およびステップＳ１１２で抽出した発生要因に関するアドバイス情報を端末装置１２へ出力する（ステップＳ１１４）。そして、本ルーチンを終了する。

なお、制御部１８は、上記ステップＳ１００～ステップＳ１０６の第１行動モデルの学習および第２行動モデルの学習の少なくとも一方の処理を、抽出部１８Ｃによる特定状況の抽出とは異なるタイミングで実行してもよい。具体的には、ステップＳ１００～ステップＳ１０６の一連の処理を、ステップＳ１０８～ステップＳ１１４の一連の処理とは異なるタイミングで実行してもよい。

［第１の実施形態に係る出力処理手順］
次に、端末装置１２が実行する出力処理の手順の一例を説明する。

図８は、端末装置１２が実行する出力処理の手順の一例を示す、フローチャートである。なお、図８には、端末装置１２がゲーム装置１２Ａであり、コンテンツ３２としてゲームプログラムを実行する場合を一例として説明する。

まず、端末装置１２の取得部２４Ａが、入力部１６からゲーム開始指示信号を受付けたか否かを判断する（ステップＳ２００）。ステップＳ２００で否定判断すると（ステップＳ２００：Ｎｏ）、本ルーチンを終了する。一方、ステップＳ２００で肯定判断すると（ステップＳ２００：Ｙｅｓ）、ステップＳ２０２へ進む。

ステップＳ２０２では、取得部２４Ａは、通信部２８を介して情報処理装置１０から、アドバイス情報を取得する。なお、端末装置１２の制御部２４は、情報処理装置１０から受信したアドバイス情報を記憶部３０へ記憶してもよい。そして、取得部２４Ａは、記憶部３０からアドバイス情報を読取ることで、アドバイス情報を取得してもよい。

そして、出力制御部２４Ｂは、アドバイス情報をＵＩ部２６へ出力する（ステップＳ２０４）。このため、端末装置１２のＵＩ部２６には、例えば、図６に示す、アドバイス情報を示すアイコンＰを含む表示画面４０が表示される。

そして、制御部２４は、ステップＳ２００で受付けたゲーム開始指示信号に対応するゲームプログラムを実行する（ステップＳ２０６）。そして、制御部２４は、入力部１６からゲーム終了指示を受付けたと判断するまで否定判断を繰り返し（ステップＳ２０８：Ｎｏ）、肯定判断すると（ステップＳ２０８：Ｙｅｓ）、本ルーチンを終了する。なお、上述したように、制御部２４は、ゲームの実行中に、アドバイス情報をＵＩ部２６へ出力してもよい。

以上説明したように、本実施形態の情報処理装置１０は、抽出部１８Ｃと、出力制御部１８Ｄと、を備える。抽出部１８Ｃは、ユーザＵの行動モデルに基づいて、ユーザＵの行動に応じて状況が変化するコンテンツ３２の特定状況を抽出する。出力制御部１８Ｄは、特定状況に関するアドバイス情報を出力する。

ここで、従来では、１つ１つステップを踏みながら技術を習得させる、トレーニング用のコンテンツを用意していた。例えば、ドライブゲームの場合、なめらかな加速方法、コーナへの進入方法などのトレーニング用コンテンツが別途用意されていた。しかしながら、トレーニング用のコンテンツは画一的であり、ユーザＵの行動に応じたアドバイス情報を提供することは困難であった。

一方、本実施形態では、抽出部１８Ｃが、ユーザＵの行動モデルに基づいて、特定状況を抽出する。そして、出力制御部１８Ｄは、このユーザＵの行動モデルに基づいて抽出された特定状況に関する、アドバイス情報を出力する。

従って、本実施形態の情報処理装置１０は、ユーザＵの行動に応じたアドバイス情報を提供することができる。

また、本実施形態では、第１学習部１８Ａは、状況ｓとユーザＵとしての第１ユーザＵ１の第１行動ａａとの対応を示す第１行動履歴情報２０Ａに基づいて、状況ｓから第１行動ａａを導出するための行動モデルとして第１行動モデルを学習する。抽出部１８Ｃは、第１行動モデルから導出した第１行動ａａを行動ａとして入力したときにコンテンツ３２から出力される状況ｓの評価値Ｒが第１閾値Ｔ１以下の状況ｓを特定状況として抽出する。

このように、本実施形態の情報処理装置１０は、第１行動モデルを用いて、コンテンツ３２へ入力するための第１ユーザＵ１の第１行動ａａを得る。このため、コンテンツ３２によって提供される状況ｓの少なくとも１つが第１行動履歴情報２０Ａに未登録の場合であっても、情報処理装置１０は、コンテンツ３２によって提供される状況ｓに応じた第１行動ａａを得ることができる。そして、情報処理装置１０の抽出部１８Ｃは、第１行動モデルから導出した第１行動ａａを行動ａとして入力したときにコンテンツ３２から出力される状況ｓの評価値Ｒを用いて、特定状況を抽出する。

このため、本実施形態の情報処理装置１０は、上記効果に加えて、精度良く特定状況を抽出することができる。

また、本実施形態では、抽出部１８Ｃは、特定状況の発生タイミングより前の期間の状況ｓと第１行動ａａとの対応を、特定状況の発生要因として更に抽出する。

このように、特定状況の発生要因を更に抽出することで、本実施の形態の情報処理装置１０は、上記効果に加えて、ユーザＵに対して適切なアドバイス情報を提供することができる。

また、本実施形態では、抽出部１８Ｃは、特定状況の発生タイミングより前の期間の状況ｓの内、第１行動ａａを補正した補正行動を行動ａとしてコンテンツ３２に入力したときに、発生タイミングにおいてコンテンツ３２から出力される状況ｓの評価値Ｒが第１閾値Ｔ１を超える状況ｓと第１行動ａａとの対応を、発生要因として抽出する。

すなわち、抽出部１８Ｃは、特定状況の発生タイミングより前の期間の状況ｓの内、状況ｓに対する第１行動ａａを他の行動ａである補正行動に変更した場合に、発生タイミングにおける状況ｓの評価値Ｒが良好となる状況ｓと、該状況ｓに対して行われた第１行動ａａと、を発生要因として抽出する。

このため、本実施形態の情報処理装置１０は、上記効果に加えて、精度良く発生要因を抽出することができる。

［第１の実施形態の変形例］
本変形例では、第１ユーザＵ１の第１行動履歴情報２０Ａを補正した行動履歴情報を生成し、該行動履歴情報に基づいて学習した行動モデルに基づいて、推奨状況を抽出する。

［第１の実施形態の変形例に係る情報処理システムの構成］
図１は、本変形例の情報処理システム１Ａの一例を示す模式図である。

情報処理システム１Ａは、情報処理装置１０Ａと、端末装置１２と、を備える。情報処理システム１Ａは、情報処理装置１０に代えて情報処理装置１０Ａを備える点以外は、第１の実施形態の情報処理システム１と同様である。

［第１の実施形態の変形例に係る情報処理装置の構成］
図９は、情報処理装置１０Ａおよび端末装置１２の機能ブロック図の一例である。端末装置１２の機能的構成は、第１の実施形態と同様である。

情報処理装置１０Ａは、制御部１７と、記憶部２１と、通信部２２と、を備える。記憶部２１および通信部２２と、制御部１７とは、データや信号を授受可能に接続されている。通信部２２は、第１の実施形態と同様である。

記憶部２１は、各種情報を記憶する。本変形例では、記憶部２１は、第１行動履歴情報２０Ａと、第２行動履歴情報２０Ｂと、第３行動履歴情報２０Ｄと、行動モデルＤＢ２０Ｃと、を記憶する。第１行動履歴情報２０Ａ、第２行動履歴情報２０Ｂ、および行動モデルＤＢ２０Ｃは、第１の実施形態と同様である。

第３行動履歴情報２０Ｄは、第１行動履歴情報２０Ａを補正した行動履歴情報である。第３行動履歴情報２０Ｄは、制御部１７の処理によって生成され、記憶部２１に記憶される（詳細後述）。

制御部１７は、情報処理装置１０Ａを制御する。制御部１７は、第１学習部１８Ａと、第２学習部１８Ｂと、生成部１７Ｅと、第３学習部１７Ｆと、抽出部１７Ｃと、出力制御部１８Ｄと、を備える。第１学習部１８Ａ、第２学習部１８Ｂ、生成部１７Ｅ、第３学習部１７Ｆ、抽出部１７Ｃ、および出力制御部１８Ｄの一部またはすべては、例えば、ＣＰＵなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣなどのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。第１学習部１８Ａ、第２学習部１８Ｂ、および出力制御部１８Ｄは、第１の実施形態と同様である。

生成部１７Ｅは、第１ユーザＵ１の第１行動履歴情報２０Ａを補正し、第３行動履歴情報２０Ｄを生成する。

図１０は、第３行動履歴情報２０Ｄの生成の一例を示す説明図である。

生成部１７Ｅは、第１行動履歴情報２０Ａと、第２行動履歴情報２０Ｂと、に基づいて、第１行動履歴情報２０Ａの第１行動ａａの内、推奨行動ａｂとの差が所定値以上の第１行動ａａを該推奨行動ａｂに置換することにより、第３行動履歴情報２０Ｄを生成する。

詳細には、生成部１７Ｅは、第１行動履歴情報２０Ａと第２行動履歴情報２０Ｂについて、同じ状況ｓに対応する第１行動ａａと推奨行動ａｂとを比較する。言い換えると、生成部１７Ｅは、第１行動履歴情報２０Ａと第２行動履歴情報２０Ｂについて、同じ状況ｓごとに、対応する第１行動ａａと推奨行動ａｂとを比較する。

そして、生成部１７Ｅは、第１行動履歴情報２０Ａに規定された１または複数の状況ｓにおける、対応する第１行動ａａと推奨行動ａｂとの差が所定値以上の状況ｓを特定する。

ここで、第１行動ａａと推奨行動ａｂとの差が小さいほど、第１行動ａａは正常または良好な行動ａである。また、第１行動ａａと推奨行動ａｂとの差が大きいほど、第１行動ａａは異常または不良な行動ａである。

このため、所定値には、異常または不良な行動ａとみなす、第１行動ａａと推奨行動ａｂとの差の範囲の下限値を予め定めればよい。なお、生成部１７Ｅは、コンテンツ３２やユーザＵごとに所定値を予め定め、コンテンツ３２およびユーザＵの識別情報に対応づけて記憶部２１へ予め記憶してもよい。そして、生成部１７Ｅは、第３行動履歴情報２０Ｄの生成時に、処理対象のコンテンツ３２およびユーザＵの識別情報に対応する所定値を記憶部２１から読取り、第３行動履歴情報２０Ｄの生成に用いればよい。

次に、生成部１７Ｅは、第１行動履歴情報２０Ａに規定された１または複数の状況ｓに対応する第１行動ａａの内、該差が所定値以上であると特定した状況ｓに対応する第１行動ａａを、第２行動履歴情報２０Ｂにおける同じ状況ｓに対応する推奨行動ａｂに置換する。この置換により、生成部１７Ｅは、第３行動履歴情報２０Ｄを生成する。

具体的には、図１０に示すように、第１行動履歴情報２０Ａの状況ｓ２に対応する第１行動ａａ２と、第２行動履歴情報２０Ｂの同じ状況ｓ２に対応する推奨行動ａｂ２との差が、所定値以上であったと想定する。また、第１行動履歴情報２０Ａの状況ｓ３に対応する第１行動ａａ３と、第２行動履歴情報２０Ｂの同じ状況ｓ３に対応する推奨行動ａｂ３との差が、所定値以上であったと想定する。この場合、生成部１７Ｅは、第１行動履歴情報２０Ａの第１行動ａａ２および第１行動ａａ３（図１０中、枠線４２Ａ内参照）を、第２行動履歴情報２０Ｂの推奨行動ａｂ２および推奨行動ａｂ３（図１０中、枠線４２Ｂ内参照）に置換する。この処理により、生成部１７Ｅは、第３行動履歴情報２０Ｄを生成する。

図９に戻り説明を続ける。第３学習部１７Ｆは、第３行動履歴情報２０Ｄに基づいて、状況ｓから該第３行動履歴情報２０Ｄにおける第３行動ａｃを導出するための行動モデルとして、第３行動モデルを学習する。第３行動ａｃは、図１０に示すように、第３行動履歴情報２０Ｄに規定された行動ａであり、第１行動履歴情報２０Ａの第１行動ａａと、第２行動履歴情報２０Ｂの推奨行動ａｂと、によって表される。

図９に戻り説明を続ける。第３行動モデルは、行動モデルの一例である。第３行動モデルは、状況ｓから第３行動ａｃを導出するための学習モデルである。

第３学習部１７Ｆは、第３行動履歴情報２０Ｄに示される各タイミングに対応する状況ｓと第３行動ａｃとの対応を示す教師データを用いて、第１学習部１８Ａと同様にして、第３行動モデルを学習すればよい。

次に、抽出部１７Ｃについて説明する。

抽出部１７Ｃは、第３行動モデルから導出した第３行動ａｃを行動ａとして入力したときにコンテンツ３２から出力される状況ｓの評価値Ｒが第３閾値を超える状況ｓを、特定状況として抽出する。

すなわち、抽出部１７Ｃは、第１行動モデルおよび第２行動モデルに代えて、第３行動モデルを用いて評価値Ｒを算出する点以外は、第１の実施形態の抽出部１８Ｃと同様にして、特定状況を抽出する。

ここで、上述したように、第３行動履歴情報２０Ｄは、第１行動履歴情報２０Ａにおける、推奨行動ａｂとの差が所定値以上の第１行動ａａを該推奨行動ａｂに置換することにより生成された行動履歴情報である。

このため、本変形例では、抽出部１７Ｃは、第１行動ａａを推奨行動ａｂに置換することで評価値Ｒの向上した状況ｓを、特定状況として抽出する。

すなわち、本変形例では、抽出部１７Ｃは、評価値Ｒの判断に、第３閾値を用いる。第３閾値には、第１行動ａａを推奨行動ａｂに置換することで状況ｓが向上したと判別するための評価値Ｒの範囲の下限値を定めればよい。そして、抽出部１７Ｃは、評価値Ｒが第３閾値以上の状況ｓを、特定状況として抽出すればよい。

なお、抽出部１７Ｃは、第１の実施形態の抽出部１８Ｃと同様に、特定状況の発生要因を更に抽出してもよい。特定状況の発生要因の抽出は、抽出部１８Ｃと同様に実行すればよい。

［第１の実施形態の変形例に係る情報処理手順］
次に、情報処理装置１０Ａが実行する情報処理の手順の一例を説明する。

図１１は、情報処理装置１０が実行する情報処理の手順の一例を示す、フローチャートである。

まず、第１学習部１８Ａが、記憶部２１から第１行動履歴情報２０Ａを取得する（ステップＳ３００）。次に、第１学習部１８Ａは、ステップＳ３００で取得した第１行動履歴情報２０Ａに基づいて、第１行動モデルを学習する（ステップＳ３０２）。

次に、第２学習部１８Ｂが、記憶部２１から第２行動履歴情報２０Ｂを取得する（ステップＳ３０４）。次に、第２学習部１８Ｂは、ステップＳ３０４で取得した第２行動履歴情報２０Ｂに基づいて、第２行動モデルを学習する（ステップＳ３０６）。

次に、生成部１７Ｅが、第１行動履歴情報２０Ａおよび第２行動履歴情報２０Ｂを用いて第３行動履歴情報２０Ｄを生成する（ステップＳ３０８）。次に、第３学習部１７Ｆが、ステップＳ３０８で生成した第３行動履歴情報２０Ｄに基づいて、第３行動モデルを学習する（ステップＳ３１０）。

次に、抽出部１７Ｃが、ステップＳ３１０で学習した第３行動モデルを用いて、コンテンツ３２によって実現されるゲームを仮想的に実行する（ステップＳ３１２）。すなわち、ステップ３１２では、抽出部１７Ｃは、第３行動モデルから導出される第３行動ａｃを行動ａとして、順次コンテンツ３２へ入力する。

次に、抽出部１７Ｃは、ステップＳ３１０で学習した第３行動モデルに基づいて、ステップＳ３１２でコンテンツ３２から順次出力される状況ｓの評価値Ｒに基づいて、コンテンツ３２の特定状況を抽出する（ステップＳ３１４）。

次に、抽出部１８Ｃは、ステップＳ３１４で抽出した特定状況の発生要因を抽出する（ステップＳ３１６）。

次に、出力制御部１８Ｄが、ステップＳ３１６で抽出した特定状況およびステップＳ３１６で抽出した発生要因に関するアドバイス情報を端末装置１２へ出力する（ステップＳ３１８）。そして、本ルーチンを終了する。

以上説明したように、本変形例では、生成部１７Ｅが、第１行動履歴情報２０Ａと第２行動履歴情報２０Ｂとに基づいて、第１行動履歴情報２０Ａの第１行動ａａの内、第２行動履歴情報２０Ｂの推奨行動ａｂとの差が所定値以上の第１行動ａａを該推奨行動ａｂに置換した第３行動履歴情報２０Ｄを生成する。第３学習部１７Ｆは、第３行動履歴情報２０Ｄに基づいて、状況ｓから第３行動履歴情報２０Ｄにおける第１行動ａａおよび推奨行動ａｂとしての第３行動ａｃを導出するための行動モデルとして第３行動モデルを学習する。抽出部１７Ｃは、第３行動モデルから導出した第３行動ａｃを行動ａとして入力したときにコンテンツ３２から出力される状況ｓの評価値Ｒが第３閾値以上の状況ｓを、特定状況として抽出する。

このように、本変形例では、生成部１７Ｅが、第１ユーザＵ１の第１行動履歴情報２０Ａを、第１ユーザＵ１よりコンテンツ３２に対する習熟度やスキルの高い第２ユーザＵ２の第２行動履歴情報２０Ｂを用いて補正した、第３行動履歴情報２０Ｄを生成する。そして、抽出部１７Ｃは、この第３行動履歴情報２０Ｄから学習された、ユーザＵの第３行動モデルに基づいて、特定状況を抽出する。

このため、本変形例の情報処理装置１０Ａは、ユーザＵの行動ａに応じたアドバイス情報を提供することができる。

（第２の実施形態）
本実施形態では、第１ユーザＵ１の第１行動履歴情報２０Ａに規定された第１行動ａａと、第２ユーザＵ２の第２行動モデルから導出した推奨行動ａｂと、の差に基づいて、特定状況を抽出する形態を説明する。

［第２の実施形態に係る情報処理システムの構成］
図１は、本変形例の情報処理システム１Ｂの一例を示す模式図である。

情報処理システム１Ｂは、情報処理装置１０Ｂと、端末装置１２と、を備える。情報処理システム１Ｂは、情報処理装置１０に代えて情報処理装置１０Ｂを備える点以外は、第１の実施形態の情報処理システム１と同様である。

［第２の実施形態に係る情報処理装置の構成］
図３は、情報処理装置１０Ｂおよび端末装置１２の機能ブロック図の一例である。端末装置１２の機能的構成は、第１の実施形態と同様である。

情報処理装置１０Ｂは、制御部１９と、記憶部２０と、通信部２２と、を備える。記憶部２１および通信部２２と、制御部１９とは、データや信号を授受可能に接続されている。記憶部２０および通信部２２は、第１の実施形態と同様である。

制御部１９は、情報処理装置１０Ｂを制御する。制御部１９は、第１学習部１８Ａと、第２学習部１８Ｂと、抽出部１９Ｃと、出力制御部１８Ｄと、を備える。第１学習部１８Ａ、第２学習部１８Ｂ、抽出部１９Ｃ、および出力制御部１８Ｄの一部またはすべては、例えば、ＣＰＵなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣなどのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。第１学習部１８Ａ、第２学習部１８Ｂ、および出力制御部１８Ｄは、第１の実施形態と同様である。

抽出部１９Ｃは、状況ｓと第１ユーザＵ１の第１行動ａａとの対応を示す第１行動履歴情報２０Ａと、第２行動モデルと、に基づいて、第１行動ａａと推奨行動ａｂとの差が第２閾値以上の状況ｓを、特定状況として抽出する。

詳細には、本実施形態では制御部１９の第２学習部１８Ｂが、第１の実施形態と同様にして、第２行動履歴情報２０Ｂから第２行動モデルを学習する。

そして、抽出部１９Ｃは、第１行動履歴情報２０Ａに示される状況ｓの各々を、第２行動モデルへ導入することで、該状況ｓに対する推奨行動ａｂを得る。

ここで、第１行動履歴情報２０Ａに示される状況ｓと、第２行動履歴情報２０Ｂに示される状況ｓとは、少なくとも一部が不一致の場合がある。上述したように、コンテンツ３２は、入力されたユーザＵの行動ａに応じて、出力する状況ｓが変化する。このため、ある状況ｓに対する第１ユーザＵ１と第２ユーザＵ２の行動ａが異なる場合、コンテンツ３２から出力される変化後の状況ｓは、異なるものとなる。このため、第１行動履歴情報２０Ａに示される状況ｓと、第２行動履歴情報２０Ｂに示される状況ｓと、の少なくとも一部が不一致の場合がある。

すると、第１行動履歴情報２０Ａに示される複数の状況ｓの内、少なくとも一部の状況ｓが、第２行動履歴情報２０Ｂには示されない場合がある。言い換えると、第１ユーザＵ１による第１行動ａａによって変化した状況ｓには、第２ユーザＵ２による推奨行動ａｂによっては生じない状況ｓが含まれる場合がある。

そこで、本実施形態では、抽出部１９Ｃは、第１行動履歴情報２０Ａに示される状況ｓの各々を、第２行動モデルへ導入することで、該状況ｓに対応する推奨行動ａｂを導出する。

そして、抽出部１９Ｃは、第１行動履歴情報２０Ａに示される状況ｓごとに、対応する第１行動ａａと、第２行動モデルを用いて導出した該対応する推奨行動ａｂと、の差を算出する。

そして、抽出部１９Ｃは、この第１行動ａａと推奨行動ａｂとの差が第２閾値以上の状況ｓを、特定状況として抽出する。

ここで、第１行動ａａと推奨行動ａｂとの差が小さいほど、第１行動ａａは正常または良好な行動ａである。また、第１行動ａａと推奨行動ａｂとの差が大きいほど、第１行動ａａは異常または不良な行動である。

このため、第２閾値には、異常または不良な行動ａとみなす、第１行動ａａと推奨行動ａｂとの差の範囲の下限値を予め定めればよい。なお、抽出部１９Ｃは、コンテンツ３２や第１ユーザＵ１や第２ユーザＵ２ごとに第２閾値を予め定め、これらの識別情報に対応づけて記憶部２０へ予め記憶してもよい。そして、抽出部１９Ｃは、特定状況の抽出時に、処理対象の第１ユーザＵ１、第２ユーザＵ２、およびコンテンツ３２の識別情報に対応する第２閾値を記憶部２０から読取り、特定状況の抽出に用いればよい。

上記処理により抽出部１９Ｃは、第１ユーザＵ１の第１行動履歴情報２０Ａと、第２ユーザＵ２の第２行動モデルと、に基づいて、第１行動ａａと推奨行動ａｂとの差が第２閾値以上の状況ｓを、特定状況として抽出する。

なお、抽出部１９Ｃは、第１行動履歴情報２０Ａにおける連続した第１行動ａａの集合と、第２行動履歴情報２０Ｂにおける連続した推奨行動ａｂの集合と、の乖離度合を、該差として算出し、該差が第２閾値以上の状況ｓを、特定状況として抽出してもよい。

なお、抽出部１９Ｃは、第１の実施形態の抽出部１８Ｃと同様に、抽出した特定状況の発生要因を更に抽出してもよい。発生要因の抽出は、第１の実施形態と同様に、第１学習部１８Ａで学習した第１行動モデルを用いて実行すればよい。なお、情報処理装置１０Ｂが、特定状況の発生要因の抽出を行わない場合には、制御部１９は、第１学習部１８Ａを備えない構成であってもよい。

出力制御部１８Ｄは、第１の実施形態と同様に、特定状況に関するアドバイス情報を出力する。

ここで、本実施形態では、特定状況は、第１行動ａａと推奨行動ａｂとの差が第２閾値以上の状況ｓである。このため、アドバイス情報は、第１ユーザＵ１の第１行動ａａと第２ユーザＵ２の推奨行動ａｂとの差を示す情報を更に含んでいてもよい。

具体的には、アドバイス情報は、特定状況の内容、特定状況の発生要因、特定状況に対するユーザＵの行動ａと推奨行動ａｂとの差、および、特定状況の回避方法、の少なくとも１つを示す情報であればよい。

アドバイス情報が、特定状況に関する情報として、第１ユーザＵ１の第１行動ａａと第２ユーザＵ２の推奨行動ａｂとの差を示す情報を含むため、端末装置１２で出力される情報は、該差を示す情報を含んだものであってもよい。

図１２は、アドバイス情報を含む表示画面４４の一例を示す模式図である。図１２には、コンテンツ３２がドライブゲーム３２Ａ（図２参照）である場合を一例として示した。例えば、端末装置１２の制御部２４は、ドライブゲーム３２Ａで提供されるゲーム画面に、アドバイス情報を示すラインＰ１およびラインＰ２を配置した、表示画面４４をＵＩ部２６へ出力する。

ラインＰ１は、第１ユーザＵ１の第１行動ａａを示す画像である。ラインＰ２は、第２ユーザＵ２の推奨行動ａｂを示す画像である。端末装置１２は、これらのラインＰ１およびラインＰ２を示す表示画面４４を表示することで、第１ユーザＵ１の第１行動ａａと第２ユーザＵ２の推奨行動ａｂとの差を示す情報を出力してもよい。

なお、第１の実施形態と同様に、表示画面４４は、情報処理装置１０Ｂ側で生成してもよいし、端末装置１２側で生成してもよい。

［第２の実施形態に係る情報処理手順］
次に、情報処理装置１０Ｂが実行する情報処理の手順の一例を説明する。

図１３は、情報処理装置１０Ｂが実行する情報処理の手順の一例を示す、フローチャートである。

まず、第１学習部１８Ａが、記憶部２０から第１行動履歴情報２０Ａを取得する（ステップＳ４００）。次に、第１学習部１８Ａは、ステップＳ４００で取得した第１行動履歴情報２０Ａに基づいて、第１行動モデルを学習する（ステップＳ４０２）。

次に、第２学習部１８Ｂが、記憶部２０から第２行動履歴情報２０Ｂを取得する（ステップＳ４０４）。次に、第２学習部１８Ｂは、ステップＳ４０４で取得した第２行動履歴情報２０Ｂに基づいて、第２行動モデルを学習する（ステップＳ４０６）。

次に、抽出部１９Ｃが、第１行動履歴情報２０Ａに示される状況ｓの各々を、ステップＳ４０６で学習した第２行動モデルへ入力することで、該状況ｓに対応する推奨行動ａｂを導出する（ステップＳ４０８）。

そして、抽出部１９Ｃは、第１行動履歴情報２０Ａに示される状況ｓごとに、対応する第１行動ａａと、ステップＳ４０８で第２行動モデルを用いて導出した対応する推奨行動ａｂと、の差が第２閾値以上の状況ｓを、特定状況として抽出する（ステップＳ４１０）。

次に、抽出部１９Ｃが、ステップＳ４０２で学習した第１行動モデルと、ステップＳ４１０で抽出した特定状況と、に基づいて、第１の実施形態の抽出部１８Ｃと同様にして、ステップＳ４１０で抽出した特定状況の発生要因を抽出する（ステップＳ４１２）。

次に、出力制御部１８Ｄが、ステップＳ４１０で抽出した特定状況およびステップＳ４１２で抽出した発生要因に関するアドバイス情報を端末装置１２へ出力する（ステップＳ４１４）。そして、本ルーチンを終了する。

以上説明したように、本実施形態の情報処理装置１０Ｂでは、第２学習部１８Ｂが、第２行動履歴情報２０Ｂに基づいて、状況ｓから推奨行動ａｂを導出するための行動モデルとして第２行動モデルを学習する。抽出部１９Ｃは、第１行動履歴情報２０Ａと第２行動モデルとに基づいて、第１行動ａａと推奨行動ａｂとの差が第２閾値以上の状況ｓを特定状況として抽出する。

このように、本実施形態の情報処理装置１０Ｂは、第１ユーザＵ１の第１行動履歴情報２０Ａに示される状況ｓに対応する第１行動ａａと、第２行動モデルから導出した該状況ｓに対応する推奨行動ａｂと、の差が第２閾値以上の状況ｓを、特定状況として抽出する。

このため、第１行動履歴情報２０Ａに示される状況ｓと、第２行動履歴情報２０Ｂに示される状況ｓと、の少なくとも一部が不一致の場合であっても、第１行動履歴情報２０Ａに示される状況ｓの各々に対応する第２ユーザＵ２の推奨行動ａｂを導出することができる。

従って、本実施形態の情報処理装置１０Ｂは、上記実施形態の効果に加えて、精度良く、ユーザＵの行動に応じたアドバイス情報を提供することができる。

また、アドバイス情報は、特定状況の内容、特定状況の発生要因、特定状況に対するユーザＵの行動ａと推奨行動ａｂとの差、および、特定状況の回避方法、の少なくとも１つを示す。

このため、本実施形態の情報処理装置１０Ｂは、上記効果に加えて、ユーザＵの行動に応じた適切なアドバイス情報を提供することができる。

なお、上記には、本開示の実施形態および変形例を説明したが、上述した各実施形態および変形例に係る処理は、上記各実施形態および変形例以外にも種々の異なる形態にて実施されてよい。また、上述してきた各実施形態および変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

［上記実施形態および変形例の抽出装置および情報処理装置の適用対象］
上記実施形態および変形例に係る情報処理装置１０、１０Ａ、１０Ｂの適用対象は限定されない。例えば、ゲーム装置１２Ａを用いたシステムや、ゲーム開発者向けの開発ツールキットや、実空間のユーザＵの行動に対するアドバイス情報を提供する各種システムなどに適用することができる。

ゲーム開発者向けの開発ツールキットに適用した場合、上記実施形態および変形例の効果に加えて、ゲーム内で動作するキャラクタやアバターなどの育成ゲームや、ゲームに搭載されたＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）の開発効率化を図ることができる。

（ハードウェア構成）
図１４は、上記実施形態および変形例に係る情報処理装置１０、１０Ａ、１０Ｂおよび端末装置１２の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。

コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１３００、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１４００、通信インターフェース１５００、及び入出力インターフェース１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係るプログラムなどを記録する記録媒体である。

通信インターフェース１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェースである。例えば、ＣＰＵ１１００は、通信インターフェース１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信する。

入出力インターフェース１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェースである。例えば、ＣＰＵ１１００は、入出力インターフェース１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェース１６００を介して、ディスプレイやスピーカやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェース１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＰＤ（ＰｈａｓｅｃｈａｎｇｅｒｅｗｒｉｔａｂｌｅＤｉｓｋ）等の光学記録媒体、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌｄｉｓｋ）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が第１の実施形態に係る情報処理装置１０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、抽出部１８Ｃ等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部２０や記憶部２１内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

なお、本技術は以下のような構成も取ることができる。
（１）
ユーザの行動モデルに基づいて、前記ユーザの行動に応じて状況が変化するコンテンツの特定状況を抽出する抽出部と、
前記特定状況に関するアドバイス情報を出力する出力制御部と、
を備える情報処理装置。
（２）
前記状況と前記ユーザとしての第１ユーザの第１行動との対応を示す第１行動履歴情報に基づいて、前記状況から前記第１行動を導出するための前記行動モデルとして第１行動モデルを学習する第１学習部を備え、
前記抽出部は、
前記第１行動モデルから導出した前記第１行動を前記行動として入力したときに前記コンテンツから出力される前記状況の評価値が第１閾値以下の前記状況を、前記特定状況として抽出する、
前記（１）に記載の情報処理装置。
（３）
前記抽出部は、
前記特定状況の発生タイミングより前の期間の前記状況と前記第１行動との対応を、前記特定状況の発生要因として更に抽出する、
前記（２）に記載の情報処理装置。
（４）
前記抽出部は、
前記特定状況の発生タイミングより前の期間の前記状況の内、前記第１行動を補正した補正行動を前記行動として前記コンテンツに入力したときに、前記発生タイミングにおいて前記コンテンツから出力される前記状況の前記評価値が前記第１閾値を超える前記状況と前記第１行動との対応を、前記発生要因として抽出する、
前記（３）に記載の情報処理装置。
（５）
前記状況と前記ユーザとしての第２ユーザの推奨行動との対応を示す第２行動履歴情報に基づいて、前記状況から前記推奨行動を導出するための前記行動モデルとして第２行動モデルを学習する第２学習部を備え、
前記抽出部は、
前記状況と前記ユーザとしての第１ユーザの第１行動との対応を示す第１行動履歴情報と、前記第２行動モデルと、に基づいて、前記第１行動と前記推奨行動との差が第２閾値以上の前記状況を前記特定状況として抽出する、
前記（１）に記載の情報処理装置。
（６）
前記状況と前記ユーザとしての第１ユーザの第１行動との対応を示す第１行動履歴情報と、前記状況と前記ユーザとしての第２ユーザの推奨行動との対応を示す第２行動履歴情報と、に基づいて、
前記第１行動履歴情報の前記第１行動の内、前記推奨行動との差が所定値以上の前記第１行動を前記推奨行動に置換した第３行動履歴情報を生成する生成部と、
前記第３行動履歴情報に基づいて、前記状況から該第３行動履歴情報における前記第１行動および前記推奨行動としての第３行動を導出するための前記行動モデルとして第３行動モデルを学習する第３学習部と、
を備え、
前記抽出部は、
前記第３行動モデルから導出した前記第３行動を前記行動として入力したときに前記コンテンツから出力される前記状況の評価値が第３閾値以上の前記状況を、前記特定状況として抽出する、
前記（１）に記載の情報処理装置。
（７）
前記アドバイス情報は、
前記特定状況の内容、前記特定状況の発生要因、前記特定状況に対するユーザの行動と推奨行動との差、および、前記特定状況の回避方法、の少なくとも１つを示す、
前記（１）～前記（６）の何れか１つに記載の情報処理装置。
（８）
コンピュータが、
ユーザの行動モデルに基づいて、前記ユーザの行動に応じて状況が変化するコンテンツの特定状況を抽出し、
前記特定状況に関するアドバイス情報を出力する、
情報処理方法。

１０、１０Ａ、１０Ｂ情報処理装置
１７Ｅ生成部
１７Ｆ第３学習部
１８Ａ第１学習部
１８Ｂ第２学習部
１８Ｃ、１９Ｃ抽出部
１８Ｄ出力制御部

Claims

ユーザの行動モデルに基づいて、前記ユーザの行動に応じて状況が変化するコンテンツの特定状況を抽出する抽出部と、
前記特定状況に関するアドバイス情報を出力する出力制御部と、
前記状況と前記ユーザとしての第１ユーザの第１行動との対応を示す第１行動履歴情報に基づいて、前記状況から前記第１行動を導出するための前記行動モデルとして第１行動モデルを学習する第１学習部と、
を備え、
前記抽出部は、
前記第１行動モデルから導出した前記第１行動を前記行動として入力することで、仮想的に前記コンテンツを前記ユーザがプレイしたものとして得られる履歴情報に基づいて、前記特定状況を抽出する、
情報処理装置であって、
前記抽出部は、
前記第１行動モデルから導出した前記第１行動を前記行動として入力したときに前記コンテンツから出力される前記状況の評価値が第１閾値以下の前記状況を、前記特定状況として抽出するとともに、前記特定状況の発生タイミングより前の期間の前記状況の内、前記第１行動を補正した補正行動を前記行動として前記コンテンツに入力したときに、前記発生タイミングにおいて前記コンテンツから出力される前記状況の前記評価値が前記第１閾値を超える前記状況と前記第１行動との対応を、前記特定状況の発生要因として抽出する、
情報処理装置。
前記状況と前記ユーザとしての第２ユーザの推奨行動との対応を示す第２行動履歴情報に基づいて、前記状況から前記推奨行動を導出するための前記行動モデルとして、前記第１行動モデルとは異なる第２行動モデルを学習する第２学習部を備え、
前記抽出部は、
前記状況と前記ユーザとしての第１ユーザの第１行動との対応を示す第１行動履歴情報と、前記第２行動モデルと、に基づいて、前記第１行動と前記推奨行動との差が第２閾値以上の前記状況を前記特定状況として抽出する、
請求項１に記載の情報処理装置。
ユーザの行動モデルに基づいて、前記ユーザの行動に応じて状況が変化するコンテンツの特定状況を抽出する抽出部と、
前記特定状況に関するアドバイス情報を出力する出力制御部と、
前記状況と前記ユーザとしての第１ユーザの第１行動との対応を示す第１行動履歴情報に基づいて、前記状況から前記第１行動を導出するための前記行動モデルとして第１行動モデルを学習する第１学習部と、
を備え、
前記抽出部は、
前記第１行動モデルから導出した前記第１行動を前記行動として入力することで、仮想的に前記コンテンツを前記ユーザがプレイしたものとして得られる履歴情報に基づいて、前記特定状況を抽出する、
情報処理装置であって、さらに、
前記状況と前記ユーザとしての第１ユーザの第１行動との対応を示す第１行動履歴情報と、前記状況と前記ユーザとしての第２ユーザの推奨行動との対応を示す第２行動履歴情報と、に基づいて、
前記第１行動履歴情報の前記第１行動の内、前記推奨行動との差が所定値以上の前記第１行動を前記推奨行動に置換した第３行動履歴情報を生成する生成部と、
前記第３行動履歴情報に基づいて、前記状況から該第３行動履歴情報における前記第１行動および前記推奨行動としての第３行動を導出するための前記行動モデルとして、前記第１行動モデルとは異なる第３行動モデルを学習する第３学習部と、
を備え、
前記抽出部は、
前記第３行動モデルから導出した前記第３行動を前記行動として入力したときに前記コンテンツから出力される前記状況の評価値が第３閾値以上の前記状況を、前記特定状況として抽出する、
情報処理装置。
前記アドバイス情報は、
前記特定状況の内容、前記特定状況の発生要因、前記特定状況に対するユーザの行動と推奨行動との差、および、前記特定状況の回避方法、の少なくとも１つを示す、
請求項１または３に記載の情報処理装置。
コンピュータが、
ユーザの行動モデルに基づいて、前記ユーザの行動に応じて状況が変化するコンテンツの特定状況を抽出し、
前記特定状況に関するアドバイス情報を出力し、
前記状況と前記ユーザとしての第１ユーザの第１行動との対応を示す第１行動履歴情報に基づいて、前記状況から前記第１行動を導出するための前記行動モデルとして第１行動モデルを学習する、
情報処理方法であって、
前記第１行動モデルから導出した前記第１行動を前記行動として入力することで、仮想的に前記コンテンツを前記ユーザがプレイしたものとして得られる履歴情報に基づいて、前記特定状況を抽出し、さらに、前記第１行動モデルから導出した前記第１行動を前記行動として入力したときに前記コンテンツから出力される前記状況の評価値が第１閾値以下の前記状況を、前記特定状況として抽出するとともに、前記特定状況の発生タイミングより前の期間の前記状況の内、前記第１行動を補正した補正行動を前記行動として前記コンテンツに入力したときに、前記発生タイミングにおいて前記コンテンツから出力される前記状況の前記評価値が前記第１閾値を超える前記状況と前記第１行動との対応を、前記特定状況の発生要因として抽出する、
情報処理方法。
コンピュータが、
ユーザの行動モデルに基づいて、前記ユーザの行動に応じて状況が変化するコンテンツの特定状況を抽出し、
前記特定状況に関するアドバイス情報を出力し、
前記状況と前記ユーザとしての第１ユーザの第１行動との対応を示す第１行動履歴情報に基づいて、前記状況から前記第１行動を導出するための前記行動モデルとして第１行動モデルを学習する、
情報処理方法であって、
前記第１行動モデルから導出した前記第１行動を前記行動として入力することで、仮想的に前記コンテンツを前記ユーザがプレイしたものとして得られる履歴情報に基づいて、前記特定状況を抽出し、さらに、
前記状況と前記ユーザとしての第１ユーザの第１行動との対応を示す第１行動履歴情報と、前記状況と前記ユーザとしての第２ユーザの推奨行動との対応を示す第２行動履歴情報と、に基づいて、
前記第１行動履歴情報の前記第１行動の内、前記推奨行動との差が所定値以上の前記第１行動を前記推奨行動に置換した第３行動履歴情報を生成し、
前記第３行動履歴情報に基づいて、前記状況から該第３行動履歴情報における前記第１行動および前記推奨行動としての第３行動を導出するための前記行動モデルとして、前記第１行動モデルとは異なる第３行動モデルを学習し、前記第３行動モデルから導出した前記第３行動を前記行動として入力したときに前記コンテンツから出力される前記状況の評価値が第３閾値以上の前記状況を、前記特定状況として抽出する、
情報処理方法。