JP7244390B2

JP7244390B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP7244390B2
Application number: JP2019151993A
Authority: JP
Inventors: 善数大貫
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2023-03-22
Anticipated expiration: 2039-08-22
Also published as: JP2021033559A; WO2021033626A1; US20220327805A1

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。

例えば特許文献１には、発話中に行われたジェスチャーの特徴量と発話に含まれる単語の単語ベクトルとの間の時間的対応関係に基づいて、ジェスチャーの特徴量から発話単語を推定するモデルを生成するモデル学習装置が記載されている。

特開２０１８－１６３４００号公報

その一方で、音声認識技術の進歩によって、音声から発話内容を認識する精度は向上している。つまり、ジェスチャーから推定しなくても、発話内容を精度よく認識することが可能になっている。

しかしながら、上記の特許文献１は、ジェスチャーの特徴量と発話単語との間に相関性があることに着目しているが、ジェスチャーの特徴量から発話単語を推定することを目的とするものであり、その用途は限られている。

そこで、本発明は、ユーザの身体動作と、身体動作が発生したときのユーザの状況を示す情報との相関性を活用してユーザによりよい体験を提供することが可能な、情報処理装置、情報処理方法およびプログラムを提供することを目的とする。

本発明のある観点によれば、ユーザの身体動作の特徴量と、身体動作が発生したときのユーザの状況を示す状況情報とを収集するデータ収集部と、身体動作の特徴量と状況情報との関係性を学習することによって身体動作の特徴量を状況情報に従って分類する学習済みモデルを構築する関係性学習部と、学習済みモデルに基づいて、状況情報を身体動作の特徴量に対応付けることが可能なマップを生成するマップ生成部とを備える情報処理装置が提供される。

本発明の別の観点によれば、ユーザによって観察される状況を示す第１の状況情報を取得する状況情報取得部と、過去に発生したユーザの第１の身体動作の特徴量と第１の身体動作が発生したときのユーザの状況を示す第２の状況情報との関係性を学習することによって構築された学習済みモデルに基づいて生成されたマップによって第１の状況情報に対応付けられる特徴量から第２の身体動作を仮想的に構築する身体動作構築部とを備える情報処理装置が提供される。

本発明のさらに別の観点によれば、ユーザの第１の身体動作の特徴量と、第１の身体動作が発生したときのユーザの状況を示す第１の状況情報とを収集するステップと、第１の身体動作の特徴量と第１の状況情報との関係性を学習することによって第１の身体動作の特徴量を第１の状況情報に従って分類する学習済みモデルを構築するステップと、ユーザによって観察される状況を示す第２の状況情報を取得するステップと、学習済みモデルに基づいて生成されたマップによって第２の状況情報に対応付けられる特徴量から第２の身体動作を仮想的に構築するステップとを含む情報処理方法が提供される。

本発明のさらに別の観点によれば、ユーザの身体動作の特徴量と、身体動作が発生したときのユーザの状況を示す状況情報とを収集する機能と、身体動作の特徴量と状況情報との関係性を学習することによって身体動作の特徴量を状況情報に従って分類する学習済みモデルを構築する機能と、学習済みモデルに基づいて、状況情報を身体動作の特徴量に対応付けることが可能なマップを生成する機能とをコンピュータに実現させるためのプログラムが提供される。

本発明のさらに別の観点によれば、ユーザによって観察される状況を示す第１の状況情報を取得する機能と、過去に発生したユーザの第１の身体動作の特徴量と第１の身体動作が発生したときのユーザの状況を示す第２の状況情報との関係性を学習することによって構築された学習済みモデルに基づいて生成されたマップによって第１の状況情報に対応付けられる特徴量から第２の身体動作を仮想的に構築する機能とをコンピュータに実現させるためのプログラムが提供される。

上記のような構成によって、身体動作の特徴量と状況情報との関係性の学習結果に基づいて、ユーザによって観察される状況に適合した身体動作を仮想的に構築することができ、ユーザによりよい体験を提供することができる。

本発明の第１の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。ユーザの状況をＶａｌｅｎｃｅ属性とＡｒｏｕｓａｌ属性とを用いて表現した例を示す図である。本発明の第２の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。本発明の第３の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。本発明の実施形態における処理の例を示すフローチャートである。本発明の実施形態においてユーザのＩＤまたは属性情報ごとに学習を実施する場合の効果について模式的に説明するための図である。

以下、添付図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

（第１の実施形態）
図１は、本発明の第１の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。図示された例において、システム１０は、端末装置１００Ａ，１００Ｂと、カメラ２１０と、マイクロフォン２２０Ａ，２２０Ｂと、ディスプレイ２３０と、サーバー３００とを含む。カメラ２１０およびマイクロフォン２２０Ａは端末装置１００Ａに接続され、マイクロフォン２２０Ｂおよびディスプレイ２３０は端末装置１００Ｂに接続される。また、端末装置１００Ａ，１００Ｂは、それぞれネットワークを介してサーバー３００に接続される。

端末装置１００Ａ，１００Ｂおよびサーバー３００は、例えば通信インターフェース、プロセッサ、およびメモリを有するコンピュータによって実装される。端末装置１００Ａ，１００Ｂおよびサーバー３００では、プロセッサがメモリに格納された、または通信インターフェースを介して受信されたプログラムに従って動作することによって、以下で説明するような各部の機能がソフトウェア的に実現される。なお、端末装置およびサーバーの上記のような構成は、後述する他の実施形態でも同様である。

端末装置１００Ａは、身体動作特徴量抽出部１１０と、音声認識部１２０Ａと、状況情報抽出部１３０Ａと、データ送信部１４０とを含む。身体動作特徴量抽出部１１０は、カメラ２１０が取得した画像からユーザＵ１の身体動作の特徴量を取得する。身体動作は、例えば身体部分の動き、表情または視線方向の変化を含む。身体動作特徴量抽出部１１０は、ユーザＵ１の身体動作を捉えた画像から、ソフトウェア的に構成される認識器を用いて特徴量を取得する。なお、画像から各種の特徴量を抽出する認識器については、公知の各種の技術を利用可能であるため詳細な説明は省略する。

一方、音声認識部１２０Ａは、マイクロフォン２２０Ａが取得した音声からユーザＵ１の発話内容を認識する。状況情報抽出部１３０Ａは、音声認識部１２０Ａによるユーザの発話の音声認識結果、すなわち発話内容から、例えばテキスト解析によってユーザＵ１の状況を示す状況情報を抽出する。音声認識およびテキスト解析についても、公知の各種の技術を利用可能であるため詳細な説明は省略する。また、音声認識部１２０Ａは、ユーザＵ１の発話の抑揚または強弱の特徴量から状況情報を抽出してもよい。

ここで、本実施形態において、状況情報は様々な観点でユーザの状況を分類した情報である。例えば、発話内容をテキスト解析することによって、メタ言語的な状況情報を抽出することができる。本明細書において、状況情報は、例えばユーザの発話から抽出されるものではあるが、発話内容そのものではなく、その発話内容から推定されるユーザの状況を説明するための情報である、という意味でメタ言語的である。具体的には、例えば、「はい」、「そうですね」（同意）、「いいえ」（不同意）、「おはようございます」、「こんにちは」（挨拶）、など特定の状況に固有のキーワードを認識することによって、それらの状況を意味する状況情報を抽出してもよい。また、発話内容に含まれる一人称、二人称、および三人称の名詞を用いて、ユーザの周りに他者がいるか否か、また他者を話題にしているか否かを意味する状況情報を抽出してもよい。また、発話内容の文脈を解析することによって、喜怒哀楽や好き嫌いなどのユーザの感情を意味する状況情報を抽出してもよい。発話の抑揚や強弱の特徴量は、それ自体がパラ言語的かつメタ言語的な状況情報として利用されてもよいし、発話内容のテキスト解析と組み合わせて、上述したメタ言語的な状況情報を抽出するために用いられてもよい。状況情報が示すユーザの状況は、例えば図２に示すように、Ｖａｌｅｎｃｅ属性とＡｒｏｕｓａｌ属性とを用いて表現されるものであってもよい。

再び図１を参照して、端末装置１００Ａのデータ送信部１４０は、身体動作特徴量抽出部１１０が抽出したユーザＵ１の身体動作の特徴量と、状況情報抽出部１３０Ａが抽出した状況情報とをサーバー３００に送信する。ここで、データ送信部１４０は、特徴量と状況情報とをタイムスタンプなどで互いに関連付けてサーバー３００に送信する。つまり、ユーザＵ１の身体動作の特徴量は、当該身体動作が発生したときのユーザＵ１の状況を示す状況情報とともにサーバー３００に送信される。

サーバー３００は、データ収集部３１０と、関係性学習部３３０と、マップ生成部３５０とを含む。データ収集部３１０は、端末装置１００Ａから送信されるユーザＵ１の身体動作の特徴量と、当該身体動作が発生したときのユーザＵ１の状況を示す状況情報とを収集する。収集された特徴量および状況情報は、データ３２０としてサーバー３００に蓄積される。データ収集部３１０は、例えば、同じユーザＵ１について、様々な身体動作の特徴量と、それぞれの身体動作が発生したときのユーザＵ１の状況を示す状況情報とを収集してもよい。また、データ収集部３１０は、異なる複数のユーザＵ１について、身体動作の特徴量と、当該身体動作が発生したときのユーザＵ１の状況を示す状況情報とを収集してもよい。

関係性学習部３３０は、データ３２０から、ユーザＵ１の身体動作の特徴量と状況情報との関係性を学習して学習済みモデル３４０を構築する。ここで、学習済みモデル３４０は、身体動作の特徴量を状況情報に従って分類するモデルである。本実施形態において、状況情報は、例えばテキスト解析などを用いて取得され、身体動作の特徴量に比べて確実性が高く、かつ分類しやすい。従って、関係性学習部３３０は、状況情報をラベルとして用いて、身体動作の特徴量について教師あり学習を実行することによって学習済みモデル３４０を構築することができる。なお、機械学習の具体的な手法については、公知の各種の技術を利用可能であるため詳細な説明は省略する。

マップ生成部３５０は、学習済みモデル３４０に基づいて、状況情報を身体動作の特徴量に対応付けることが可能なマップを生成する。例えば関係性学習部３３０が身体動作の特徴量から状況情報への推定器である場合、最終分類層のネットワークの中で重みが大きい接続を抽出することによって、ある状況情報を当該状況情報に有意に関連する身体動作の特徴量に対応付けることが可能なマップを生成することができる。このようなマップの生成手法として、例えばWord2Vec（オープンソース）などの自然言語処理で用いられる手法を用いて単語の分散表現、具体的には例えばword embeddingをする際に、パラ言語的な特徴量や身体動作の特徴量を付加した学習によってlookup tableを生成してもよい。

端末装置１００Ｂは、音声認識部１２０Ｂと、状況情報抽出部１３０Ｂと、データ送受信部１５０と、身体動作構築部１６０とを含む。音声認識部１２０Ｂは、マイクロフォン２２０Ｂが取得した音声からユーザＵ２、またはユーザＵ２が観察可能な他者の発話内容を認識する。状況情報抽出部１３０Ｂは、音声認識部１２０ＢによるユーザＵ２の発話の音声認識結果、またはユーザＵ２の発話の抑揚または強弱の特徴量から、ユーザＵ２または他者がおかれた状況を示す状況情報を抽出する。

ここで、端末装置１００Ｂの音声認識部１２０Ｂおよび状況情報抽出部１３０Ｂは上記の端末装置１００Ａの場合と同様にユーザの状況情報を取得するが、対象がユーザＵ２に限られず、ユーザＵ２が観察可能な他者であってもよい点で端末装置１００Ａの場合とは異なる。つまり、端末装置１００Ａでは音声認識部１２０Ａおよび状況情報抽出部１３０ＡがユーザＵ１の状況を示す状況情報を取得するのに対して、端末装置１００Ｂでは音声認識部１２０Ｂおよび状況情報抽出部１３０ＢがユーザＵ２によって観察される状況（必ずしもユーザＵ２自身の状況とは限らない）を示す状況情報を取得する。

データ送受信部１５０は、音声認識部１２０Ｂおよび状況情報抽出部１３０Ｂによって取得された状況情報（第１の状況情報）をサーバー３００に送信し、サーバー３００から身体動作の特徴量を受信する。上述のように、サーバー３００では学習済みモデル３４０に基づいて、状況情報を身体動作の特徴量に対応付けることが可能なマップが生成されている。データ送受信部１５０が受信する身体動作の特徴量は、このマップによって上記の第１の状況情報に対応付けられる特徴量である。

身体動作構築部１６０は、データ送受信部１５０がサーバー３００から受信した特徴量から身体動作を仮想的に構築する。身体動作構築部１６０は、仮想的に構築した身体動作を、例えばディスプレイ２３０によってユーザＵ２に向けて表示される仮想的なキャラクター、例えばユーザＵ２のアバターやコンパニオン的なキャラクターの動きとして出力してもよい。あるいは、身体動作構築部１６０は、ディスプレイ２３０による出力とともに、またはこれに代えて、仮想的に構築した身体動作をロボットの動きとして出力してもよい。具体的には、例えばオートエンコーダーやＧＡＮ（Generative Adversarial Network）などを用いて身体動作構築部１６０が構成されてもよい。

ここで、身体動作構築部１６０によって仮想的に構築される身体動作（第２の身体動作）は、過去に発生したユーザＵ１の身体動作（第１の身体動作）の特徴量と当該身体動作が発生したときのユーザＵ１の状況を示す状況情報（第２の状況情報）との関係性の学習結果を反映している。つまり、端末装置１００Ｂでは、ユーザＵ２によって観察される状況を示す状況情報から、「そのような状況でユーザＵ１が実行するであろう身体動作」が仮想的に構築される。

以上で説明したような本発明の第１の実施形態の構成によれば、ユーザＵ１の身体動作の特徴量と状況情報との関係性の学習結果に基づいて、ユーザＵ２によって観察される状況に適合した身体動作を仮想的に構築することができる。例えばより多くのユーザＵ１の学習結果を取得することによって、例えばユーザＵ２に向けて表示される仮想的なキャラクターの動きとして出力される身体動作が、ユーザＵ２にとって自然な、または共感できるものになる。

（第２の実施形態）
図３は、本発明の第２の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。図示された例において、システム２０は、端末装置１００と、カメラ２１０と、マイクロフォン２２０と、ディスプレイ２３０と、サーバー３００とを含む。上記の第１の実施形態との違いとして、本実施形態では、例えばユーザＩＤによって特定される単一のユーザＵに対して、身体動作の特徴量と状況情報との関係性が学習され、学習結果に基づいて、ユーザＵによって観察される状況に対応した身体動作が仮想的に構築される。

図示された例において、端末装置１００は、身体動作特徴量抽出部１１０と、音声認識部１２０と、状況情報抽出部１３０と、データ送信部１４０と、データ送受信部１５０と、身体動作構築部１６０とを含む。このうち、音声認識部１２０および状況情報抽出部１３０は、上記の第１の実施形態における音声認識部１２０Ａおよび状況情報抽出部１３０Ａ、ならびに音声認識部１２０Ｂおよび状況情報抽出部１３０Ｂを合わせた機能を有する。

つまり、サーバー３００における関係性の学習段階では、音声認識部１２０および状況情報抽出部１３０が身体動作が発生したときのユーザＵの状況を示す状況情報を取得し、取得された状況情報は身体動作の特徴量とともにデータ送信部１４０からサーバー３００に送信される。一方、サーバー３００における関係性の学習結果を利用して身体動作を仮想的に構築する段階では、音声認識部１２０および状況情報抽出部１３０がユーザＵによって観察される状況を示す状況情報を取得し、取得された状況情報はデータ送受信部１５０からサーバー３００に送信される。

上記のようなシステム２０は、例えば、サーバー３００においてデータ収集部３１０がユーザＵのＩＤとともに特徴量および状況情報を収集し、関係性学習部３３０がユーザＵのＩＤごとに関係性を学習することによって実現されてもよい。この場合、学習済みモデル３４０は、ユーザＵのＩＤごとに構築された複数のモデルを含む。あるいは、サーバー３００の機能が端末装置１００に取り込まれ、ユーザＵの自宅などの中でシステム２０が完結してもよい。この場合、学習済みモデル３４０は、単一のユーザＵについて構築されたモデルだけを含んでもよい。

本実施形態のシステム２０は、例えば、上記の第１の実施形態のシステム１０を用いて多数のユーザのデータを収集して学習済みモデル３４０を構築した後に、個々のユーザＵに学習済みモデル３４０を適合させる転移学習を実施する過程で利用することができる。

以上で説明したような本発明の第２の実施形態の構成によれば、ユーザＵの身体動作の特徴量と状況情報との関係性の学習結果に基づいて、同じユーザＵによって観察される状況に適合した身体動作を仮想的に構築することができる。この場合、仮想的に構築される身体動作は、ユーザＵにとってより自然な、またはより共感できるものになる。

（第３の実施形態）
図４は、本発明の第３の実施形態に係る情報処理装置を含むシステムの概略的な構成を示すブロック図である。図示された例において、システム３０は、端末装置４００Ａ，４００Ｂと、カメラ２１０と、ゲーム機２４０Ａ，２４０Ｂと、サーバー３００とを含む。上記の第１の実施形態との違いとして、本実施形態では、マイクロフォンの代わりにゲーム機２４０Ａ，２４０Ｂによって状況情報が取得される。また、仮想的に構築された身体動作の出力にもゲーム機２４０Ｂが用いられる。

図示された例において、端末装置４００Ａは、身体動作特徴量抽出部１１０と、ログ取得部４２０Ａと、状況情報抽出部４３０Ａと、データ送信部１４０とを含む。ログ取得部４２０Ａは、ユーザＵ１がゲーム機２４０Ａでプレイするインタラクティブなコンテンツ、具体的にはゲームのログを取得する。状況情報抽出部４３０Ａは、ログからユーザＵ１の状況を示す状況情報を抽出する。

具体的には、状況情報抽出部４３０Ａは、チャットログに含まれるユーザＵ１のテキスト入力内容をテキスト解析することによって、上記の第１の実施形態と同様にメタ言語的な状況情報を抽出してもよい。また、状況情報抽出部４３０Ａは、ゲームコンテンツ内のフラグ情報やパラメータなどから状況情報を抽出してもよい。この場合、ゲームのフラグ情報やパラメータから抽出される状況情報は、必ずしもユーザが言語的に認識できるものではないため、非言語的な状況情報であるともいえる。抽出された状況情報は、データ送信部１４０からサーバー３００に送信され、上記の第１の実施形態と同様に学習に利用される。

一方、端末装置４００Ｂは、ログ取得部４２０Ｂと、状況情報抽出部４３０Ｂと、データ送受信部１５０と、身体動作構築部１６０とを含む。ログ取得部４２０Ｂは、ユーザＵ２がゲーム機２４０Ｂでプレイするインタラクティブなコンテンツ、具体的にはゲームのログを取得する。状況情報抽出部４３０Ｂは、ログからユーザＵ２によって観察される状況を示す状況情報を抽出する。状況情報抽出部４３０Ｂは、ゲームコンテンツ内のフラグ情報やパラメータから状況情報を抽出してもよい。

ここで、第３の実施形態でも、第１の実施形態と同様に、端末装置４００Ｂのログ取得部４２０Ｂおよび状況情報抽出部４３０Ｂは、例えばゲーム内におけるユーザＵ２自身の状況を示す状況情報を取得してもよいし、ユーザＵ２が観察可能な他者（ゲーム内の仮想的な存在を含む）の状況を示す状況情報を取得してもよい。状況情報抽出部４３０Ｂによって抽出された状況情報は、データ送受信部１５０からサーバー３００に送信され、第１の実施形態と同様にマップによって状況情報に対応付けられる身体動作の特徴量が特定される。

以上で説明したような本発明の第３の実施形態の構成によれば、ユーザがプレイするインタラクティブなコンテンツのログなどから抽出される状況情報を用いて、ユーザＵ１の身体動作の特徴量と状況情報との関係性を学習し、学習結果に基づいてユーザＵ２によって観察される状況に適合した身体動作を仮想的に構築することができる。コンテンツ内でのユーザの状況はログなどから精度よく判定することができるため、コンテンツをプレイ中に生じる各種の状況に応じた身体動作を的確に構築することができる。

なお、上述した本発明の実施形態は、適宜組み合わせ可能である。例えば、第１の実施形態と第３の実施形態とを組み合わせ、ユーザの発話の音声認識結果、発話の抑揚または強弱の特徴量から抽出した状況情報と、コンテンツのログなどから抽出した状況情報とを併用してもよい。この場合、例えば、コンテンツ内の状況と、コンテンツ外の状況と、コンテンツ内の状況とコンテンツ外の状況とが組み合わされた複合的な状況とのそれぞれに対応した身体動作を仮想的に構築することができる。また、第２の実施形態と第３の実施形態とを組み合わせ、単一のユーザＵに対してコンテンツのログなどから抽出した状況情報と身体動作の特徴量との関係性の学習、およびユーザＵによって観察される状況に対応した身体動作の仮想的な構築が実施されてもよい。

また、各実施形態において、端末装置の機能とサーバーの機能とは互換的である。つまり、上記の実施形態において端末装置で実装されるものとして説明された機能は、サーバーで実装されてもよい。例えば、カメラが取得した画像やマイクロフォンが取得した音声が端末装置からサーバーに送信され、サーバーで仮想的に構築された身体動作の画像が端末装置に送信されてディスプレイに表示される場合のように、説明されたすべての機能をサーバーで実装することも可能である。あるいは、単一のユーザについて学習を実施する場合や、同じ端末装置を共用する複数のユーザについて学習を実施する場合に、説明されたすべての機能を端末装置で実装することも可能である。

図５は、本発明の実施形態における処理の例を示すフローチャートである。以下の説明では第１の実施形態の構成要素を用いて説明するが、他の実施形態についても同様である。

まず、サーバー３００で、データ収集部３１０が、端末装置１００Ａから送信されるユーザＵ１の身体動作の特徴量および状況情報を収集する（ステップＳ１０１）。ここで、身体動作の特徴量と状況情報とは互いに関連付けられている。データ３２０が蓄積されると、関係性学習部３３０が、身体動作の特徴量と状況情報との関係性を学習することによって学習済みモデル３４０を構築する（ステップＳ１０２）。学習済みモデル３４０の構築後に、端末装置１００Ｂで新たな状況情報が取得された場合（ステップＳ１０３のＹＥＳ）、マップ生成部３５０が学習済みモデル３４０に基づいて生成したマップによって新たな状況情報に対応付けられる身体動作の特徴量が特定される（ステップＳ１０４）。特定された特徴量は端末装置１００Ｂに送信され、端末装置１００Ｂでは身体動作構築部１６０が身体動作を仮想的に構築する（ステップＳ１０５）。端末装置１００Ｂで新たな状況情報が取得されない場合（ステップＳ１０３のＮＯ）、端末装置１００Ａから送信されるデータの収集（ステップＳ１０１）と学習済みモデルの更新（ステップＳ１０２）とが継続される。

上述したような本発明の実施形態において、データ収集部は身体動作の特徴量および状況情報とともに、ユーザのＩＤまたは属性情報を収集してもよい。属性情報は、例えば、ユーザの年齢や性別、または所属するコミュニティなどの情報を含んでもよい。この場合、関係性学習部３３０は、ユーザのＩＤまたは属性情報ごとに身体動作の特徴量と状況情報との関係性を学習して学習済みモデル３４０を構築する。この場合、マップ生成部３５０がユーザのＩＤまたは属性情報ごとにマップを生成することによって、例えば同じ状況情報に対しても異なる身体動作の特徴量が特定される。

図６は、本発明の実施形態においてユーザのＩＤまたは属性情報ごとに学習を実施する場合の効果について模式的に説明するための図である。図６では、身体動作の特徴量が模式的に二次元平面上の分布として表現されている。図示された例において、状況情報はユーザの発話内容のテキスト解析によって抽出される。「いいえ」というキーワードに対応する状況情報とともに取得された特徴量ｆｖ１と、「そうですね」というキーワードに対応する状況情報とともに取得された特徴量ｆｖ２と、「はい」というキーワードに対応する状況情報とともに取得された特徴量ｆｖ３とが例示されている。

例えば、ユーザのＩＤまたは属性情報に関係なく状況情報に従って身体動作の特徴量を分類した場合、「いいえ」に対応する分類ＣＬ１と、「そうですね」に対応する分類ＣＬ２と、「はい」に対応する分類ＣＬ３とが特定される。図示された例において、これらの分類は範囲が広いために、例えば状況情報を身体情報の特徴量に対応付けるマップを生成しようとしても、対応付けられる特徴量が定まらない可能性がある。また、分類ＣＬ２と分類ＣＬ３とは同じではないものの部分的に重なっており、それぞれの分類に対応する状況情報が同じ特徴量に対応付けられるか否かが明確ではない。

これに対して、例えば、「いいえ」に対応する特徴量ｆｖ１から、特定のユーザのＩＤまたは属性情報に関連付けられた特徴量ｆｖ＿Ｐ１を抽出して状況情報との関係性を学習した場合、より狭い範囲の分類ＣＬ＿Ｐ１を特定することができる。これによって、状況情報に対してより適切な特徴量を出力することができる。また、別のユーザのＩＤまたは属性情報に関連付けられた特徴量ｆｖ＿Ｑ１を抽出した場合、全体の分類ＣＬ１には含まれない分類ＣＬ＿Ｑ１を特定することができる。これによって、例えば全体的な傾向とは異なる傾向を示す個別のユーザ、または特定の属性を持つユーザについて、状況情報に対して適切な特徴量を対応付けるマップを生成することができる。

また、例えば、「そうですね」に対応する特徴量ｆｖ２および「はい」に対応する特徴量ｆｖ３から、特定のユーザのＩＤまたは属性情報に関連付けられた特徴量ｆｖ＿Ｐ２および特徴量ｆｖ＿Ｐ３を抽出して状況情報との関係性を学習した場合、「そうですね」および「はい」の両方に対応する分類ＣＬ＿Ｐ４を特定することができる。これによって、当該ＩＤまたは属性情報を有するユーザについては、「そうですね」および「はい」に対応する状況情報に同じ特徴量を対応付ければよいことが明確になる。

以上、添付図面を参照しながら本発明のいくつかの実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

１０，２０，３０…システム、１００，１００Ａ，１００Ｂ，４００Ａ，４００Ｂ…端末装置、１１０…身体動作特徴量抽出部、１２０，１２０Ａ，１２０Ｂ…音声認識部、１３０，１３０Ａ，１３０Ｂ，４３０Ａ，４３０Ｂ…状況情報抽出部、１４０…データ送信部、１５０…データ送受信部、１６０…身体動作構築部、２１０…カメラ、２２０，２２０Ａ，２２０Ｂ…マイクロフォン、２３０…ディスプレイ、２４０Ａ，２４０Ｂ…ゲーム機、３００…サーバー、３１０…データ収集部、３２０…データ、３３０…関係性学習部、３４０…学習済みモデル、３５０…マップ生成部。

Claims

ユーザの身体動作の特徴量と、前記身体動作が発生したときの前記ユーザの状況を示す状況情報とを収集するデータ収集部と、
前記身体動作の特徴量と前記状況情報との関係性を学習することによって前記身体動作の特徴量を前記状況情報に従って分類する学習済みモデルを構築する関係性学習部と、
前記学習済みモデルに基づいて、前記状況情報を前記身体動作の特徴量に対応付けたマップを生成するマップ生成部と
を備える情報処理装置。
前記状況情報は、前記ユーザの発話の音声認識結果から抽出されるメタ言語的な情報、または前記ユーザの発話の抑揚もしくは強弱の特徴量から抽出されるパラ言語的な情報の少なくともいずれかを含む、請求項１に記載の情報処理装置。
前記状況情報は、前記ユーザがプレイするインタラクティブなコンテンツのログから抽出される情報を含む、請求項１または請求項２に記載の情報処理装置。
前記状況情報は、前記ユーザがプレイするインタラクティブなコンテンツ内のフラグ情報またはパラメータから抽出される情報を含む、請求項１から請求項３のいずれか１項に記載の情報処理装置。
前記状況情報は、前記ユーザの状況をＶａｌｅｎｃｅ属性とＡｒｏｕｓａｌ属性とを用いて表現する、請求項１から請求項４のいずれか１項に記載の情報処理装置。
前記身体動作は、身体部分の動き、表情または視線方向の変化を含む、請求項１から請求項５のいずれか１項に記載の情報処理装置。
前記データ収集部は、前記ユーザのＩＤまたは属性情報をさらに収集し、
前記関係性学習部は、前記ユーザのＩＤまたは前記属性情報ごとに前記関係性を学習する、請求項１から請求項６のいずれか１項に記載の情報処理装置。
ユーザによって観察される状況を示す第１の状況情報を取得する状況情報取得部と、
過去に発生した前記ユーザの第１の身体動作の特徴量と前記第１の身体動作が発生したときの前記ユーザの状況を示す第２の状況情報との関係性を学習することによって構築された学習済みモデルに基づいて生成されたマップにおいて前記第１の状況情報に対応付けられている特徴量から第２の身体動作を仮想的に構築する身体動作構築部と
を備える情報処理装置。
前記第１および第２の状況情報は、前記ユーザの発話の音声認識結果から抽出されるメタ言語的な情報、または前記ユーザの発話の抑揚もしくは強弱の特徴量から抽出されるパラ言語的な情報の少なくともいずれかを含む、請求項８に記載の情報処理装置。
前記第１および第２の状況情報は、前記ユーザがプレイするインタラクティブなコンテンツのログから抽出される情報を含む、請求項８または請求項９に記載の情報処理装置。
前記第１および第２の状況情報は、前記ユーザがプレイするインタラクティブなコンテンツ内のフラグ情報またはパラメータから抽出される情報を含む、請求項８から請求項１０のいずれか１項に記載の情報処理装置。
前記第１および第２の状況情報は、前記ユーザの状況をＶａｌｅｎｃｅ属性とＡｒｏｕｓａｌ属性とを用いて表現する、請求項８から請求項１１のいずれか１項に記載の情報処理装置。
前記第１および第２の身体動作は、身体部分の動き、表情または視線方向の変化を含む、請求項８から請求項１２のいずれか１項に記載の情報処理装置。
前記ユーザは、第１のユーザと第２のユーザとを含み、
前記第１の状況情報は、前記第１のユーザによって観察される状況を示し、
前記第２の状況情報は、前記第２のユーザの状況を示す、請求項８から請求項１３のいずれか１項に記載の情報処理装置。
前記身体動作構築部は、前記第２の身体動作を前記ユーザに向けて表示される仮想的なキャラクターの動きとして出力する、請求項８から請求項１４のいずれか１項に記載の情報処理装置。
ユーザの第１の身体動作の特徴量と、前記第１の身体動作が発生したときの前記ユーザの状況を示す第１の状況情報とを収集するステップと、
前記第１の身体動作の特徴量と前記第１の状況情報との関係性を学習することによって前記第１の身体動作の特徴量を前記第１の状況情報に従って分類する学習済みモデルを構築するステップと、
前記ユーザによって観察される状況を示す第２の状況情報を取得するステップと、
前記学習済みモデルに基づいて生成されたマップにおいて前記第２の状況情報に対応付けられている特徴量から第２の身体動作を仮想的に構築するステップと
を含む情報処理方法。
ユーザの身体動作の特徴量と、前記身体動作が発生したときの前記ユーザの状況を示す状況情報とを収集する機能と、
前記身体動作の特徴量と前記状況情報との関係性を学習することによって前記身体動作の特徴量を前記状況情報に従って分類する学習済みモデルを構築する機能と、
前記学習済みモデルに基づいて、前記状況情報を前記身体動作の特徴量に対応付けたマップを生成する機能と
をコンピュータに実現させるためのプログラム。
ユーザによって観察される状況を示す第１の状況情報を取得する機能と、
過去に発生した前記ユーザの第１の身体動作の特徴量と前記第１の身体動作が発生したときの前記ユーザの状況を示す第２の状況情報との関係性を学習することによって構築された学習済みモデルに基づいて生成されたマップにおいて前記第１の状況情報に対応付けられている特徴量から第２の身体動作を仮想的に構築する機能と
をコンピュータに実現させるためのプログラム。