JP6930781B1

JP6930781B1 - 学習方法、及びコンテンツ再生装置

Info

Publication number: JP6930781B1
Application number: JP2021063937A
Authority: JP
Inventors: 継河合
Original assignee: クリスタルメソッド株式会社
Priority date: 2021-04-05
Filing date: 2021-04-05
Publication date: 2021-09-01
Anticipated expiration: 2041-04-05
Also published as: JP2022159632A

Abstract

【課題】ユーザの多面的な感情が反映できるキャラクターの表現を再生できる学習方法、及びコンテンツ再生装置を提供する。【解決手段】ユーザのユーザデータを取得する入力データ取得ステップと、前記ユーザの内部表象を示す内部表象データとを取得する出力データ取得ステップと、前記ユーザデータを第１入力データとし、第１内部表象用データベースを生成する第１内部表象用データベース生成ステップと、前記ユーザデータを第２入力データとし、前記第１内部表象用データベース生成ステップにおける第１出力データと異なる種類のデータであり、前記内部表象データに含まれる１種類以上のデータを第２出力データとして、第２内部表象用データベースを生成する第２内部表象用データベース生成ステップとを備えることを特徴とする。【選択図】図２

Description

本発明は、学習方法、及びコンテンツ再生装置に関する。

近年、ＡＩ（Artificial Intelligence）によって生成された、外見や声や嗜好がユーザと類似するキャラクターを生成する技術が注目を集めている。例えば、出産や七五三や成人式や結婚式の記録を残すために写真を取るように、ユーザの記録をキャラクター化することによって、当時の知識や技術、思い出までもがデジタル上で生き続けることが可能となる。それと同時に、キャラクターとの会話がユーザとの会話と比べて、違和感のない会話にするための、キャラクターの表現を再生するための技術が注目されており、例えば特許文献１の話者変換技術が知られている。

上記特許文献１に記載された技術は、ソース話者の発話を表す映像音声データをソース話者の感情に対応して発話を発声するターゲット話者を表す映像音声データに変換する学習済みニューラルネットワーク構造を格納し、ニューラルネットワークを介しソース話者の発話を表す映像データ及びソース話者の音声データをターゲット話者の発話を表す映像データ及び音声データに変換することで、映像処理及び音響処理の専門家などによる変換処理を必要とすることなく、映像データと音声データとを相互利用することによって話者変換を行うことができる話者変換装置に関する技術である。

特開２０２０−９１３３８号公報

ここで、特許文献１では、ユーザの発話を表す映像音声データと、ユーザの感情に対応するキャラクターの発話を表す映像音声データとのペアから構成される訓練データをニューラルネットワーク構造に入力し、キャラクターの映像音声データを出力する。しかしながら、特許文献１では、訓練データとして、ユーザの発話を表す映像音声データと、ユーザの感情に対応するキャラクターの発話を表す映像音声データとを用いているため、ユーザの複雑な感情まで、映像音声データに反映することはできず、ユーザと会話する時と比べて、違和感が残るキャラクターの映像音声データができてしまう。例えば、ユーザの感情が怒りを示していても、表情が笑顔であった場合、特許文献１では、ユーザの感情として笑顔が選択されるため、キャラクターの映像音声データにユーザの感情の怒りを反映することができず、違和感の残るキャラクターの映像音声データができてしまう。従って、ユーザの多面的な感情が反映できるキャラクターの表現を再生するための技術が望まれている。

そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、ユーザの多面的な感情が反映できるキャラクターの表現を再生できる学習方法、及びコンテンツ再生装置を提供することにある。

第１発明に係る学習方法は、キャラクターの表現を示す表現データを生成するために用いられるデータベースを生成する学習方法であって、ユーザに関する情報が記載されたテキストデータと、前記ユーザの画像を含む画像データと、前記ユーザの音声に関する音声データとの中の何れか１以上を含むユーザデータを取得する入力データ取得ステップと、前記ユーザの自己認識を示す自己認識データと、前記ユーザの事象に対する優先順位を示す優先順位データと、前記ユーザの事象に対する感情表現を示す感情表現データと、前記ユーザの事象に対する因果関係の推定を示す因果関係データと、の中の２種類以上のデータを含む、前記ユーザの内部表象を示す内部表象データとを取得する出力データ取得ステップと、前記入力データ取得ステップにより取得したユーザデータを第１入力データとし、前記内部表象データに含まれる１種類以上のデータである第１内部表象データを第１出力データとして、前記第１入力データと前記第１出力データとを一組の第１内部表象用学習データとして、複数の前記第１内部表象用学習データを用いた機械学習により第１内部表象用データベースを生成する第１内部表象用データベース生成ステップと、前記入力データ取得ステップにより取得したユーザデータを第２入力データとし、前記第１内部表象用データベース生成ステップにおける第１出力データと異なる種類のデータであり、前記内部表象データに含まれる１種類以上のデータである第２内部表象データを第２出力データとして、前記第２入力データと前記第２出力データとを一組の第２内部表象用学習データとして、複数の前記第２内部表象用学習データを用いた機械学習により第２内部表象用データベースを生成する第２内部表象用データベース生成ステップとをコンピュータに実行させることを特徴とする。

第２発明に係る学習方法は、第１発明において、前記第１内部表象用データベースを用いて生成された第１内部表象データと、前記第２内部表象用データベースを用いて生成された第２内部表象データとを入力として、前記キャラクターの表現を示す表現データを出力するための表現用データベースを生成する表現用データベース生成ステップをさらにコンピュータに実行させることを特徴とする。

第３発明に係る学習方法は、第１発明又は第２発明において、前記入力データ取得ステップは、質問に対して前記ユーザが回答した内容に関するテキスト形式のデータを含む前記テキストデータと、前記質問に対して前記ユーザが回答した内容に関する画像形式のデータを含む前記画像データと、前記質問に対して前記ユーザが回答した内容に関する音声形式のデータとの中の何れか１以上を含む前記ユーザデータを取得することを特徴とする。

第４発明に係る学習方法は、第１発明〜第３発明のいずれかにおいて、前記ユーザデータは、前記テキストデータの特徴を示すテキスト特徴量データを有し、前記入力データ取得ステップは、取得した前記テキストデータに基づき抽出された前記テキスト特徴量データを取得するテキスト特徴量データ取得ステップを含むことを特徴とする。

第５発明に係る学習方法は、第１発明〜第４発明のいずれかにおいて、前記ユーザデータは、前記画像データの特徴を示す画像特徴量データを有し、前記入力データ取得ステップは、取得した前記画像データに基づき抽出された前記画像特徴量データを取得する画像特徴量データ取得ステップを含むことを特徴とする。

第６発明に係る学習方法は、第１発明〜第５発明のいずれかにおいて、前記ユーザデータは、前記音声データの特徴を示す音声特徴量データを有し、前記入力データ取得ステップは、取得した前記音声データに基づき抽出された前記音声特徴量データを取得する音声特徴量データ取得ステップを含むことを特徴とする。

第７発明に係るコンテンツ再生装置は、第２発明の学習方法により生成された前記第１内部表象用データベースと、前記第２内部表象用データベースと、前記表現用データベースとを参照し、前記キャラクターの表現データを出力するコンテンツ再生装置であって、任意のテキストデータと、画像データと、音声データとの中の何れか１以上のデータを含む刺激データを取得する取得部と、前記第１内部表象用データベースを参照し、前記取得部により取得した刺激データに対応する前記第１内部表象データを取得する第１内部表象処理部と、前記第２内部表象用データベースを参照し、前記取得部により取得した刺激データに対応する前記第２内部表象データを取得する第２内部表象処理部と、前記表現用データベースを参照し、前記第１内部表象用データベースを用いて生成された第１内部表象データと、前記第２内部表象用データベースを用いて生成された第２内部表象データとに対応する前記表現データを出力する表現処理部と、を備えることを特徴とする。

第１発明〜第７発明によれば、第１内部表象用データベース生成ステップは、複数の第１内部表象用学習データを用いた機械学習により第１内部表象用データベースを生成し、第２内部表象用データベース生成ステップは、第２入力データと第２出力データとを一組の第２内部表象用学習データとして、複数の第２内部表象用学習データを用いた機械学習により第２内部表象用データベースを生成する。このため、一つのユーザデータから異なる種類のデータを含む内部表象データを生成することができる。これにより、ユーザの感情を多面的に学習することが可能となる。例えばユーザの感情が怒りであるが、表情が笑いであるようなユーザの感情を多面的に学習する。これによって、ユーザの多面的な感情が反映できるキャラクターの表現が可能となる。

特に、第２発明によれば、内部表象データを入力として、キャラクターの表現を示す表現データを出力するための表現用データベースを生成する。これにより、キャラクターの表情を取得することができるため、多面的なユーザの感情に合わせたキャラクターの表現を学習することが可能となる。

特に、第３発明によれば、入力データ取得ステップは、質問に対してユーザが回答した内容に関するテキスト形式のデータを含むテキストデータと、質問に対してユーザが回答した内容に関する画像形式のデータを含む画像データと、質問に対してユーザが回答した内容に関する音声形式のデータとの中の何れか１以上を含むユーザデータを取得する。これにより、例えばユーザの好みや価値観に関する質問に対する回答を学習に反映することが可能となり、よりユーザの性質にあった学習ができるため、多面的なユーザの感情を学習することができる。

特に、第４発明によれば、入力データ取得ステップは、取得したテキストデータに基づき抽出されたテキスト特徴量データを取得する。これにより、取得したテキストデータからユーザの性質の傾向を学習することができるため、より精度の高い学習が可能となる。

特に、第５発明によれば、入力データ取得ステップは、取得した画像データに基づき抽出された画像特徴量データを取得する。これにより、取得した画像データからユーザの性質の傾向を学習することができるため、より精度の高い学習が可能となる。

特に、第６発明によれば、入力データ取得ステップは、取得した音声データに基づき抽出された音声特徴量データを取得する。これにより、取得した音声データからユーザの性質の傾向を学習することができるため、より精度の高い学習が可能となる。

特に、第７発明によれば、第１内部表象用データベースと、第２内部表象用データベースと、表現用データベースとを参照し、刺激データに対するキャラクターの表現データを出力する。これにより、刺激データに対するユーザの内部表象を反映したキャラクターの表現データを出力することができるためユーザの多面的な感情をキャラクターで再生することが可能となる。

図１は、第１実施形態におけるコンテンツ再生システムの一例を示す模式図である。図２は、第１実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。図３（ａ）は、第１内部表象用データベースの学習方法の一例を示す模式図であり、図３（ｂ）は、第２内部表象用データベースの学習方法の一例を示す模式図である。図４（ａ）は、表現用データベースの学習方法の一例を示す模式図であり、図４（ａ）は、ｓｏｕｎｄ学習モデルの学習方法の一例を示す模式図である。図５（ａ）は、ｖｉｓｕａｌ学習モデルの学習方法の一例を示す模式図であり、図５（ｂ）は、テキスト学習モデルの学習方法の一例を示す模式図である。図６は、第１内部表象用データベースの一例を示す模式図である。図７は、第２内部表象用データベースの一例を示す模式図である。図８は、表現用データベースの一例を示す模式図である。図９は、ｓｏｕｎｄ学習モデルの一例を示す模式図である。図１０は、ｖｉｓｕａｌ学習モデルの一例を示す模式図である。図１１は、テキスト学習モデルの一例を示す模式図である。図１２（ａ）は、実施形態におけるコンテンツ再生装置の構成の一例を示す模式図であり、図１２（ｂ）は、実施形態におけるコンテンツ再生装置の機能の一例を示す模式図であり、図１２（ｃ）は、ＤＢ生成部の一例を示す模式図である。図１３は、処理部の一例を示す模式図である。図１４は、実施形態における学習方法の一例を示すフローチャートである。図１５は、実施形態におけるコンテンツ再生システムの動作の一例を示すフローチャートである。

以下、本発明を適用した実施形態における学習方法、コンテンツ再生装置、及びコンテンツ再生システムの一例について、図面を参照しながら説明する。

（第１実施形態）
図１〜図５を参照して、第１実施形態におけるコンテンツ再生システム１００、コンテンツ再生装置１、及び学習方法の一例について説明する。図１は、本実施形態におけるコンテンツ再生システム１００の一例を示す模式図である。図２は、本実施形態におけるコンテンツ再生システム１００の動作の一例を示す模式図である。図３〜図５は、本実施形態における学習方法の一例を示す模式図である。

＜コンテンツ再生システム１００＞
コンテンツ再生システム１００は、入力された任意のテキストデータと、画像データと、音声データとの中の何れか１以上のデータを含む刺激データに対し、キャラクターの表現を示す表現データを生成するために用いられる。コンテンツ再生システム１００は、例えば学習データを用いた機械学習により生成されたデータベースを参照し、入力された刺激データに対し、キャラクターの音声データと画像データとテキストデータの中の何れか１以上のデータを含む表現データを生成する。

コンテンツ再生システム１００は、例えば図１に示すように、コンテンツ再生装置１を備える。コンテンツ再生システム１００は、例えば端末２及びサーバ３の少なくとも何れかを備えてもよい。コンテンツ再生装置１は、例えば通信網４を介して端末２やサーバ３と接続される。

コンテンツ再生システム１００では、例えば図２に示すように、コンテンツ再生装置１が刺激データを取得する。例えばコンテンツ再生装置１は、刺激データを取得する。その後、コンテンツ再生装置１は、ｓｏｕｎｄ学習モデルを参照し、刺激データに含まれる音声データに対する音声特徴量データを、ｖｉｓｕａｌ学習モデルを参照し、刺激データに含まれる画像データに対する画像特徴量データを、テキスト学習モデルを参照し、刺激データに含まれるテキストデータに対するテキスト特徴量データを、をそれぞれ取得する。その後、コンテンツ再生装置１は、第１内部表象用データベースを参照し、音声特徴量データと、画像特徴量データと、テキスト特徴量データとの中の何れか１以上のデータに対応する第１内部表象データと、第２内部表象用データベースを参照し、音声特徴量データと、画像特徴量データと、テキスト特徴量データとの中の何れか１以上のデータに対応する第２内部表象データとを取得する。そして、コンテンツ再生装置１は、取得した第１内部表象データ及び第２内部表象データに基づき、表現用データベースを参照し、キャラクターの音声データと画像データとテキストデータの中の何れか１以上のデータを含む表現データを生成する。これにより、コンテンツ再生システム１００では、生成された表現データを出力することで、入力された任意の音声データと画像データとテキストデータの中の何れか１以上のデータを含む刺激データに対応する最適な表現データを再生させることができる。

ｓｏｕｎｄ学習モデルは、入力された音声データから、音声特徴量データを出力するモデルである。ｓｏｕｎｄ学習モデルは、例えば機械学習により、生成されてもよい。ｓｏｕｎｄ学習モデルは、例えば一組の予め取得された過去の音声データと、過去の音声データに紐づけられた音声特徴量データとを学習データ（音声特徴量用学習データ）として、複数の学習データを用いた機械学習により構築された学習済みモデルが用いられてもよい。

ｖｉｓｕａｌ学習モデルは、入力された画像データから、画像特徴量データを出力するモデルである。ｖｉｓｕａｌ学習モデルは、例えば機械学習により、生成されてもよい。ｖｉｓｕａｌ学習モデルは、例えば一組の予め取得された過去の画像データと、過去の画像データに紐づけられた画像特徴量データとを学習データ（画像特徴量用学習データ）として、複数の学習データを用いた機械学習により構築された学習済みモデルが用いられてもよい。

テキスト学習モデルは、入力されたテキストデータから、テキスト特徴量データを出力するモデルである。テキスト学習モデルは、例えば機械学習により、生成されてもよい。テキスト学習モデルは、例えば一組の予め取得された過去のテキストデータと、過去のテキストデータに紐づけられたテキスト特徴量データとを学習データ（テキスト特徴量用学習データ）として、複数の学習データを用いた機械学習により構築された学習済みモデルが用いられてもよい。

第１内部表象用データベースは、機械学習により生成される。第１内部表象用データベースとして、例えばユーザデータを入力データとし、内部表象データに含まれる１種類以上のデータ（第１内部表象データ）を第１出力データとして、第１入力データと第１出力データを一組の学習データ（第１内部表象用学習データ）として、学習データを用いた機械学習により構築された、第１入力データから第１出力データを生成するための学習済みモデルが用いられる。また、第１出力データは、第１内部表象用学習データとして用いられる第１内部表象データである。また、第１内部表象データは、第１内部表象用データベースを用いて生成された内部表象データを含む。

第２内部表象用データベースは、第１内部表象用データベースに用いられた第１出力データと異なる種類のデータを第２出力データとする点で、第１内部表象用データベースと異なる。第２内部表象用データベースは、機械学習により生成される。第２内部表象用データベースとして、例えばユーザデータを第２入力データとし、内部表象データに含まれる１種類以上のデータ（第２内部表象データ）を第２出力データとして、第２入力データと第２出力データを一組の学習データ（第２内部表象用学習データ）として、学習データを用いた機械学習により構築された、第２入力データから第２出力データを生成するための学習済みモデルが用いられる。また、第２出力データは、第２内部表象用学習データとして用いられる第２内部表象データである。また、第２内部表象データは、第２内部表象用データベースを用いて生成された内部表象データを含む。

表現用データベースは、入力された第１内部表象データと第２内部表象データとに基づいて、表現データを出力する。表現用データベースは、例えば機械学習により生成されてもよい。表現用データベースとして、例えば予め取得された一対の第１内部表象データと第２内部表象データとを第３入力データとし、表現データを第３出力データとして、第３入力データと第３出力データを一組の学習データ（表現用学習データ）として、学習データを用いた機械学習により構築された、第３入力データから第３出力データを生成するための学習済みモデルが用いられてもよい。

刺激データは、例えばコンテンツ再生システム１００によって出力される内部表象データを生成する際に用いられる。刺激データは、任意の任意のテキストデータと、画像データと、音声データとの中の何れか１以上のデータを含む。刺激データは、例えば、画像データだけであってもよいし、画像データと音声データとであってもよい。また、刺激データは、任意のテキストデータに基づき抽出されたテキスト特徴量データと、任意の画像データに基づき抽出された画像特徴量データと、任意の音声データに基づき抽出された音声特徴量データとの中の何れか１以上を含んでいてもよい。

テキストデータは、例えばコンテンツ再生システム１００によって出力される内部表象データを生成する際に用いられる。テキストデータは、文字など文字コードによって表されるデータである。テキストデータは、例えば、モニタやプリンタなどの機器を制御するためのデータである制御文字を含む。制御文字は、例えば、改行を表す改行文字やタブ（水平タブ）などが含まれる。

テキストデータは、例えば通信網４を介して、ＳＮＳ等のサーバに記憶されたユーザが投稿した、又はユーザに関する情報が記載されたデータを含む。また、テキストデータは、音声データを音声認識することによって抽出したものであってもよい。テキストデータは、例えばコンテンツ再生装置１等を介して、ユーザ等により入力されてもよい。

音声データは、例えばコンテンツ再生システム１００によって出力される内部表象データを生成する際に用いられる。音声データは、音声を符号化したものである。音声の符号化には例えば、量子化ビット数とサンプリング周波数と時間とで定まる長さのビット列として表されるパルス符号変調（ＰＣＭ）方式に基づくものと、音声の波の疎密を１ｂｉｔで表現して一定の間隔で標本化するパルス密度変調（ＰＤＭ）方式に基づくものなどがある。

音声データは、例えば動画データから抽出された音声に基づいたものであってもよい。音声データは、例えば公知の収音装置等を用いて収音された音声のデータを示すほか、例えば公知の技術で生成された擬似的な音声を示してもよい。音声データは、例えば通信網４を介して、ＳＮＳ等のサーバに記憶されたユーザが投稿した、又はユーザに関する情報が記載されたデータを含む。音声データは、例えばコンテンツ再生装置１等を介して、ユーザ等により入力されてもよい。

画像データは、例えばコンテンツ再生システム１００によって出力される内部表象データを生成する際に用いられる。画像データは、複数の画素の集合体を含むデータである。画像データは、例えば動画から抽出されたものであってもよく、動画データであってもよい。

画像データは、例えば通信網４を介して取得したものであってもよい。画像データは、例えば公知の撮像装置等を用いて撮像された画像を示す他、例えば公知の技術で生成された擬似的な画像を示してもよい。画像データは、例えば通信網４を介して、ＳＮＳ等のサーバに記憶されたユーザが投稿した、又はユーザに関する情報が記載されたデータを含む。画像データは、例えばコンテンツ再生装置１等を介して、ユーザ等により入力されてもよい。

テキスト特徴量データは、テキストデータに含まれる特徴を示すデータである。テキストの特徴とは、例えばテキストを形態素解析し、得られた単語や文章の意味に基づいて算出した、類似する単語及び単語の意味の出現傾向等であってもよい。また、単語や文章の意味に基づいて、ベクトルや関数グラフ等であってもよい。また、テキスト特徴量データは、会話の内容から、推測した単語の意味が含まれてもよい。また、テキスト特徴量データは、公知の技術を用いて取得してもよい。

音声特徴量データは、音声データに含まれる音声の特徴を示すデータである。音声の特徴とは、音の響きの特徴である音響特徴量と、音声の言語的意味に伴い、音声をテキストに変換しても損なわない意味特徴量を含む。音響特徴量は、例えば、基本周波数、スペクトル包絡、非周期性指標、スペクトログラム、音声の大きさ、ケプストラム、単語の発音、イントネーション、音波の時間遅れ、音声の時間による増減の変化等を示したものである。意味特徴量は、発言した単語の傾向、言葉使い等を示したものである。また、意味特徴量はテキスト特徴量と同じものであってもよい。また、音声特徴量データは、音響特徴量から取得された意味特徴量を含んでもよい。この場合、意味特徴量は、例えば音響特徴量に含まれる単語のアクセントから単語の意味特徴量を取得することで同音異義語の判断したものを含んでもよい。また、音声特徴量データは、公知の技術を用いて取得してもよい。

画像特徴量データは、画像の特徴を示すデータである。画像の特徴とは、例えば画像認識により、認識した撮像対象であってもよい。また、複数の画像から共通して現れるデータであってもよい。共通して現れるデータは、例えばユーザを映した動画の中で、ユーザの笑顔が良く見られる傾向にあるとすれば、上述したユーザの笑顔を共通して現れるデータとしてもよい。また、画像の特徴は、例えば人の瞳の動きの特徴であってもよい。また、画像特徴量データは、撮像対象に基づく点群データであってもよい。点群データは、撮像対象に対する３次元構造の特徴を示し、例えばＳＩＦＴ（Scale-Invariant Feature Transform）による画像解析又は３Ｄカメラ等の公知の撮像装置や処理技術によって取得してもよい。点群データは、例えば撮像対象の構造に基づく曲率情報や、位置情報を含んでもよい。なお、曲率情報、及び位置情報は、公知の撮像装置や処理技術によって取得してもよい。また、画像特徴量データは、公知の技術を用いて取得してもよい。

ユーザデータは、ユーザに関する情報が記載されたテキストデータと、ユーザの画像を含む画像データと、ユーザの音声に関する音声データとの中の何れか１以上を含むデータである。また、ユーザデータは、ユーザに関する情報が記載されたテキストデータに基づき抽出されたテキスト特徴量データと、ユーザに関する情報が記載された画像データに基づき抽出された画像特徴量データと、ユーザに関する情報が記載された音声データに基づき抽出された音声特徴量データとの中の何れか１以上を含んでいてもよい。

ユーザに関する情報が記載されたテキストデータは、例えばユーザの住所や氏名等の個人情報にが記載されたテキストデータ、又はユーザの好みや思い出等のユーザの嗜好について記載されたテキストデータ、又はユーザが自分で記載したテキストデータを含む。また、ユーザに関する情報が記載されたテキストデータは、ユーザに関する質問に対してユーザが回答した内容に関するテキスト形式のデータを含めてもよい。

ユーザの画像を含む画像データは、ユーザの姿の全身、又は体の一部の画像を含む画像データである。また、ユーザの画像を含む画像データは、ユーザに関する質問に対してユーザが回答した内容に関する画像形式のデータでもよい。

ユーザの音声に関する音声データは、ユーザの声を記録した音声データである。また、ユーザの音声に関する音声データは、ユーザに関する質問に対してユーザが回答した内容に関する音声形式のデータでもよい。

内部表象データは、ユーザの自己認識を示す自己認識データと、ユーザの事象に対する優先順位を示す優先順位データと、ユーザの事象に対する感情表現を示す感情表現データと、ユーザの事象に対する因果関係の推定を示す因果関係データと、の中の何れか１種類以上のデータを含むデータである。

自己認識データは、ユーザの自己認識を示すデータである。自己認識は、自身の社会の中での使命や役割、立場などから生まれる感情を指す。例えば、集団の中でリーダー立場であった場合、「リーダーとしてとるべき表現」が自己認識である。また、自己認識は、例えば集団の中で空気を乱さないようにするための感情なども含む。自己認識データは、例えば、例えば喜び、怒り、哀愁、楽しいなどがある。

優先順位データは、ユーザの事象に対する優先順位を示すデータである。ユーザの事象に対する優先順位とは、事象に対してユーザがどのようなことを優先するかに順列をつけたものである。例えば、ユーザが感情表現の優先順位よりも自己認識の優先順位を上にしたならば、ユーザは自己認識からなる表現をする傾向であることを示す。優先順位データとして、例えば自己認識、モーダリティ、感情表現、因果関係等がある。

感情表現データは、ユーザの事象に対する感情表現を示すデータである。ユーザの事象に対する感情表現は、事象に対してユーザがどのような感情を抱いたかを示すものである。感情表現データは、例えば喜び、怒り、哀愁、楽しいなどがある。

因果関係データは、事象に対する因果関係の推定を示すデータである。事象に対する因果関係の推定とは、ユーザが事象に対してどのような事象を連想したかを示すものである。例えば、事故が起きたという事象に対して、渋滞という事象を連想することを指す。

表現データは、キャラクターを含む画像、及びキャラクターの音声によって構成されるキャラクターの表現を示すデータである。表現は、例えば映像的表現、音声的表現、身体的表現等がある。映像的表現は、視覚に働きかける表現であり、身振りや表情等がある。音声的表現は、聴覚に働きかける表現であり、言葉や発言、歌等がある。身体的表現は、触覚に働きかける表現であり、ボディタッチなどがある。表現データは、擬似的に生成された擬似データを含んでいてもよい。

なお、上述した「ユーザ」は、実在する人物又は動物のほか、アニメーション等のような、擬似的に生成された人物又は動物でもよい。

なお、上述した「キャラクター」は、ユーザを模して擬似的に生成された人物又は動物、或いは実在する人物又は動物を模して擬似的に生成された人物又は動物のほか、アニメーション等のような、擬似的に生成された人物又は動物でもよい。

＜学習方法＞
本実施形態における学習方法は、入力された刺激データに対し、キャラクターの表現を示す表現データを生成するために用いられるデータベース又は学習モデルを生成する際に用いられる。データベースは、例えば第１内部表象用データベース第２内部表象用データベースと、表現用データベースとを含む。学習モデルは、例えばｓｏｕｎｄ学習モデル、ｖｉｓｕａｌ学習モデル、テキスト学習モデルとを含む。

学習方法は、例えば図３（ａ）に示すように、第１内部表象用データベースを生成する。ユーザデータを第１入力データとし、内部表象データに含まれる１種類以上の第１内部表象データを第１出力データとして、第１入力データと第１出力データとを一組の第１内部表象用学習データとして、内部表象用学習データを用いた機械学習により、第１入力データから第１出力データを生成するための第１内部表象用データベースを生成する。

また、学習方法は、例えば図３（ｂ）に示すように、第２内部表象用データベースを生成する。ユーザデータを第２入力データとし、内部表象データに含まれる１種類以上の第２内部表象データを第２出力データとして、第２入力データと第２出力データとを一組の第２内部表象用学習データとして、内部表象用学習データを用いた機械学習により、第２入力データから第２出力データを生成するための第２内部表象用データベースを生成する。第２内部表象用データベースの学習方法は、第１内部表象用データベースに用いられた第１出力データと異なる種類のデータを第２出力データとする点で、第１内部表象用データベースの学習方法と異なる。

また、学習方法は、例えば図４（ａ）に示すように、表現用データベースを生成してもよい。学習方法は、第１内部表象用データベースと、第２内部表象用データベースとを用いて生成された２種類以上のデータを含む内部表象データを入力として、キャラクターの表現を示す表現データを出力とした１組の表現用学習データとして、複数の表現用学習データを用いた機械学習により、２種類以上のデータを含む内部表象データを入力として、キャラクターの表現を示す表現データを出力するための表現用データベースを生成してもよい。

また、学習方法は、例えば図４（ａ）に示すように、ｓｏｕｎｄ学習モデルを生成してもよい。学習方法は、一組の予め取得された過去の音声データと、過去の音声データに紐づけられた音声特徴量データとを音声特徴量用学習データとして、複数の音声特徴量用学習データを用いた機械学習により、音声データを入力として、音声特徴量データを出力するためのｓｏｕｎｄ学習モデルを生成してもよい。

また、学習方法は、例えば図５（ａ）に示すように、ｖｉｓｕａｌ学習モデルを生成してもよい。学習方法は、一組の予め取得された過去の画像データと、過去の画像データに紐づけられた画像特徴量データとを画像特徴量用学習データとして、複数の画像特徴量用学習データを用いた機械学習により、画像データを入力として、画像特徴量データを出力するためのｖｉｓｕａｌ学習モデルを生成してもよい。

また、学習方法は、例えば図５（ｂ）に示すように、テキスト学習モデルを生成してもよい。学習方法は、一組の予め取得された過去のテキストデータと、過去のテキストデータに紐づけられたテキスト特徴量データとをテキスト特徴量用学習データとして、複数のテキスト特徴量用学習データを用いた機械学習により、テキストデータを入力として、テキスト特徴量データを出力するためのテキスト学習モデルを生成してもよい。

学習方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、上述したデータベースを生成する。上述したデータベースは、例えばＣＮＮ（Convolution Neural Network）等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。

第１内部表象用データベースには、例えばユーザデータ（第１入力データ）と内部表象データに含まれる１種類以上の第１内部表象データ（第１出力データ）との間における連関度を有する第１連関性が記憶される。連関度は、第１入力データと第１出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

例えば第１連関性は、多対多の情報（複数の第１入力データ、対、複数の第１出力データ）の間における繋がりの度合いにより構築される。第１連関性は、機械学習の過程で適宜更新され、例えば複数の第１入力データ、及び複数の第１出力データに基づいて最適化された関数（分類器）を示す。なお、第１連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。

このため、コンテンツ再生システム１００では、例えば分類器の判定した結果を全て踏まえた第１連関性を用いて、第１入力データに適した第１出力データを選択する。これにより、第１入力データが、第１出力データと同一又は類似である場合のほか、非類似である場合においても、第１入力データに適した第１出力データを定量的に選択することができる。

第１連関性は、例えば図６に示すように、複数の第１出力データと、複数の第１入力データとの間における繋がりの度合いを示してもよい。この場合、第１連関性を用いることで、複数の第１出力データ（図６では「第１出力データＡ」〜「第１出力データＣ」）のそれぞれに対し、複数の第１入力データ（図６では「第１出力データＡ」〜「第１出力データＣ」）の関係の度合いを紐づけて記憶させることができる。このため、例えば第１連関性を介して、１つの第１出力データに対して、複数の第１入力データを紐づけることができる。これにより、第１入力データに対して多角的な第１出力データの選択を実現することができる。

第１連関性は、例えば各第１出力データと、各第１入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、１０段階、又は５段階等の３段階以上で示され、例えば線の特徴（例えば太さ等）で示される。例えば、第１出力データに含まれる「第１出力データＡ」は、第１入力データに含まれる「第１出力データＡ」との間の連関度ＡＡ「７３％」を示し、第１入力データに含まれる「第１出力データＢ」との間の連関度ＡＢ「１２％」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。

また、第１内部表象用データベースは、第１入力データと第１出力データとの間に少なくとも１以上の隠れ層が設けられ、機械学習させるようにしてもよい。第１入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。

第２内部表象用データベースには、例えばユーザデータ（第２入力データ）と内部表象データに含まれる１種類以上の第２内部表象データ（第２出力データ）との間における連関度を有する第２連関性が記憶される。連関度は、第２入力データと第２出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

例えば第２連関性は、多対多の情報（複数の第２入力データ、対、複数の第２出力データ）の間における繋がりの度合いにより構築される。第２連関性は、機械学習の過程で適宜更新され、例えば複数の第２入力データ、及び複数の第２出力データに基づいて最適化された関数（分類器）を示す。なお、第２連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。

このため、コンテンツ再生システム１００では、例えば分類器の判定した結果を全て踏まえた第２連関性を用いて、第２入力データに適した第２出力データを選択する。これにより、第２入力データが、第２出力データと同一又は類似である場合のほか、非類似である場合においても、第２入力データに適した第２出力データを定量的に選択することができる。

第２連関性は、例えば図７に示すように、複数の第２出力データと、複数の第２入力データとの間における繋がりの度合いを示してもよい。この場合、第２連関性を用いることで、複数の第２出力データ（図７では「第２出力データＡ」〜「第２出力データＣ」）のそれぞれに対し、複数の第２入力データ（図７では「第２出力データＡ」〜「第２出力データＣ」）の関係の度合いを紐づけて記憶させることができる。このため、例えば第２連関性を介して、１つの第２出力データに対して、複数の第２入力データを紐づけることができる。これにより、第２入力データに対して多角的な第２出力データの選択を実現することができる。

第２連関性は、例えば各第２出力データと、各第２入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、１０段階、又は５段階等の３段階以上で示され、例えば線の特徴（例えば太さ等）で示される。例えば、第２出力データに含まれる「第２出力データＡ」は、第２入力データに含まれる「第２出力データＡ」との間の連関度ＡＡ「７３％」を示し、第２入力データに含まれる「第２出力データＢ」との間の連関度ＡＢ「１２％」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。

また、第２内部表象用データベースは、第２入力データと第２出力データとの間に少なくとも１以上の隠れ層が設けられ、機械学習させるようにしてもよい。第２入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。

表現用データベースには、例えば２種類以上のデータを含む内部表象データ（第３入力データ）と表現データ（第３出力データ）との間における連関度を有する第３連関性が記憶される。連関度は、第３入力データと第３出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

例えば第３連関性は、多対多の情報（複数の第３入力データ、対、複数の第３出力データ）の間における繋がりの度合いにより構築される。第３連関性は、機械学習の過程で適宜更新され、例えば複数の第３入力データ、及び複数の第３出力データに基づいて最適化された関数（分類器）を示す。なお、第３連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。

このため、コンテンツ再生システム１００では、例えば分類器の判定した結果を全て踏まえた第３連関性を用いて、第３入力データに適した第３出力データを選択する。これにより、第３入力データが、第３出力データと同一又は類似である場合のほか、非類似である場合においても、第３入力データに適した第３出力データを定量的に選択することができる。

第３連関性は、例えば図８に示すように、複数の第３出力データと、複数の第３入力データとの間における繋がりの度合いを示してもよい。この場合、第３連関性を用いることで、複数の第３出力データ（図８では「第３出力データＡ」〜「第３出力データＣ」）のそれぞれに対し、複数の第３入力データ（図８では「第３出力データＡ」〜「第３出力データＣ」）の関係の度合いを紐づけて記憶させることができる。このため、例えば第３連関性を介して、１つの第３出力データに対して、複数の第３入力データを紐づけることができる。これにより、第３入力データに対して多角的な第３出力データの選択を実現することができる。

第３連関性は、例えば各第３出力データと、各第３入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、１０段階、又は５段階等の３段階以上で示され、例えば線の特徴（例えば太さ等）で示される。例えば、第３出力データに含まれる「第３出力データＡ」は、第３入力データに含まれる「第３出力データＡ」との間の連関度ＡＡ「７３％」を示し、第３入力データに含まれる「第３出力データＢ」との間の連関度ＡＢ「１２％」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。

また、表現用データベースは、第３入力データと第３出力データとの間に少なくとも１以上の隠れ層が設けられ、機械学習させるようにしてもよい。第３入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。

ｓｏｕｎｄ学習モデルには、例えば音声データを入力データとし、音声特徴量データを出力データとして、入力データと出力データとの間における連関度を有する音声連関性が記憶される。連関度は、入力データと出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

例えば音声連関性は、多対多の情報（複数の入力データ、対、複数の出力データ）の間における繋がりの度合いにより構築される。音声連関性は、機械学習の過程で適宜更新され、例えば複数の入力データ、及び複数の出力データに基づいて最適化された関数（分類器）を示す。なお、音声連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。

このため、コンテンツ再生システム１００では、例えば分類器の判定した結果を全て踏まえた音声連関性を用いて、入力データに適した出力データを選択する。これにより、入力データが、出力データと同一又は類似である場合のほか、非類似である場合においても、入力データに適した出力データを定量的に選択することができる。

音声連関性は、例えば図９に示すように、複数の出力データと、複数の入力データとの間における繋がりの度合いを示してもよい。この場合、音声連関性を用いることで、複数の出力データ（図９では「音声特徴量データＡ」〜「音声特徴量データＣ」）のそれぞれに対し、複数の入力データ（図９では「音声データＡ」〜「音声データＣ」）の関係の度合いを紐づけて記憶させることができる。このため、例えば音声連関性を介して、１つの出力データに対して、複数の入力データを紐づけることができる。これにより、入力データに対して多角的な出力データの選択を実現することができる。

音声連関性は、例えば各出力データと、各入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、１０段階、又は５段階等の３段階以上で示され、例えば線の特徴（例えば太さ等）で示される。例えば、出力データに含まれる「音声特徴量データＡ」は、入力データに含まれる「音声特徴量データＡ」との間の連関度ＡＡ「７３％」を示し、入力データに含まれる「音声特徴量データＢ」との間の連関度ＡＢ「１２％」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。

また、ｓｏｕｎｄ学習モデルは、入力データと出力データとの間に少なくとも１以上の隠れ層が設けられ、機械学習させるようにしてもよい。入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。

ｖｉｓｕａｌ学習モデルには、例えば画像データを入力データとし、画像特徴量データを出力データとして、入力データと出力データとの間における連関度を有する画像連関性が記憶される。連関度は、入力データと出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

例えば画像連関性は、多対多の情報（複数の入力データ、対、複数の出力データ）の間における繋がりの度合いにより構築される。画像連関性は、機械学習の過程で適宜更新され、例えば複数の入力データ、及び複数の出力データに基づいて最適化された関数（分類器）を示す。なお、画像連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。

このため、コンテンツ再生システム１００では、例えば分類器の判定した結果を全て踏まえた画像連関性を用いて、入力データに適した出力データを選択する。これにより、入力データが、出力データと同一又は類似である場合のほか、非類似である場合においても、入力データに適した出力データを定量的に選択することができる。

画像連関性は、例えば図１０に示すように、複数の出力データと、複数の入力データとの間における繋がりの度合いを示してもよい。この場合、画像連関性を用いることで、複数の出力データ（図１０では「画像特徴量データＡ」〜「画像特徴量データＣ」）のそれぞれに対し、複数の入力データ（図１０では「画像データＡ」〜「画像データＣ」）の関係の度合いを紐づけて記憶させることができる。このため、例えば画像連関性を介して、１つの出力データに対して、複数の入力データを紐づけることができる。これにより、入力データに対して多角的な出力データの選択を実現することができる。

画像連関性は、例えば各出力データと、各入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、１０段階、又は５段階等の３段階以上で示され、例えば線の特徴（例えば太さ等）で示される。例えば、出力データに含まれる「画像特徴量データＡ」は、入力データに含まれる「画像特徴量データＡ」との間の連関度ＡＡ「７３％」を示し、入力データに含まれる「画像特徴量データＢ」との間の連関度ＡＢ「１２％」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。

また、ｖｉｓｕａｌ学習モデルは、入力データと出力データとの間に少なくとも１以上の隠れ層が設けられ、機械学習させるようにしてもよい。入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。

テキスト学習モデルには、例えばテキストデータを入力データとし、テキスト特徴量データを出力データとして、入力データと出力データとの間における連関度を有するテキスト連関性が記憶される。連関度は、入力データと出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の３値以上（３段階以上）で示されるほか、２値（２段階）で示されてもよい。

例えばテキスト連関性は、多対多の情報（複数の入力データ、対、複数の出力データ）の間における繋がりの度合いにより構築される。テキスト連関性は、機械学習の過程で適宜更新され、例えば複数の入力データ、及び複数の出力データに基づいて最適化された関数（分類器）を示す。なお、テキスト連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。

このため、コンテンツ再生システム１００では、例えば分類器の判定した結果を全て踏まえたテキスト連関性を用いて、入力データに適した出力データを選択する。これにより、入力データが、出力データと同一又は類似である場合のほか、非類似である場合においても、入力データに適した出力データを定量的に選択することができる。

テキスト連関性は、例えば図１１に示すように、複数の出力データと、複数の入力データとの間における繋がりの度合いを示してもよい。この場合、テキスト連関性を用いることで、複数の出力データ（図１１では「テキスト特徴量データＡ」〜「テキスト特徴量データＣ」）のそれぞれに対し、複数の入力データ（図１１では「テキストデータＡ」〜「テキストデータＣ」）の関係の度合いを紐づけて記憶させることができる。このため、例えばテキスト連関性を介して、１つの出力データに対して、複数の入力データを紐づけることができる。これにより、入力データに対して多角的な出力データの選択を実現することができる。

テキスト連関性は、例えば各出力データと、各入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、１０段階、又は５段階等の３段階以上で示され、例えば線の特徴（例えば太さ等）で示される。例えば、出力データに含まれる「テキスト特徴量データＡ」は、入力データに含まれる「テキスト特徴量データＡ」との間の連関度ＡＡ「７３％」を示し、入力データに含まれる「テキスト特徴量データＢ」との間の連関度ＡＢ「１２％」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。

また、テキスト学習モデルは、入力データと出力データとの間に少なくとも１以上の隠れ層が設けられ、機械学習させるようにしてもよい。入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。

＜コンテンツ再生装置１＞
次に、図１２、図１３を参照して、本実施形態におけるコンテンツ再生装置１の一例を説明する。図１２（ａ）は、本実施形態におけるコンテンツ再生装置１の構成の一例を示す模式図であり、図１２（ｂ）は、本実施形態におけるコンテンツ再生装置１の機能の一例を示す模式図である。図１２（ｃ）は、ＤＢ生成部１６の一例を示す模式図である。図１３は、処理部１２の一例を示す模式図である。

コンテンツ再生装置１として、例えばラップトップ（ノート）ＰＣ又はデスクトップＰＣ等の電子機器が用いられる。コンテンツ再生装置１は、例えば図１２（ａ）に示すように、筐体１０と、ＣＰＵ（Central Processing Unit）１０１と、ＲＯＭ（Read Only Memory）１０２と、ＲＡＭ（Random Access Memory）１０３と、保存部１０４と、Ｉ／Ｆ１０５〜１０７とを備える。各構成１０１〜１０７は、内部バス１１０により接続される。

ＣＰＵ１０１は、コンテンツ再生装置１全体を制御する。ＲＯＭ１０２は、ＣＰＵ１０１の動作コードを格納する。ＲＡＭ１０３は、ＣＰＵ１０１の動作時に使用される作業領域である。保存部１０４は、データベースや学習対象データ等の各種情報が記憶される。保存部１０４として、例えばＨＤＤ（Hard Disk Drive）のほか、ＳＳＤ（Solid State Drive）等のデータ保存装置が用いられる。なお、例えばコンテンツ再生装置１は、図示しないＧＰＵ（Graphics Processing Unit）を有してもよい。

Ｉ／Ｆ１０５は、通信網４を介して、必要に応じて端末２、サーバ３、ウェブサイト等との各種情報の送受信を行うためのインターフェースである。Ｉ／Ｆ１０６は、入力部１０８との情報の送受信を行うためのインターフェースである。入力部１０８として、例えばキーボードが用いられ、コンテンツ再生装置１の使用者等は、入力部１０８を介して、各種情報、又はコンテンツ再生装置１の制御コマンド等を入力する。Ｉ／Ｆ１０７は、表示部１０９との各種情報の送受信を行うためのインターフェースである。表示部１０９は、保存部１０４に保存された各種情報、又はコンテンツ等を表示する。表示部１０９として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部１０８と一体に設けられる。また、表示部１０９は、スピーカが用いられてもよい。

図１２（ｂ）は、コンテンツ再生装置１の機能の一例を示す模式図である。コンテンツ再生装置１は、取得部１１と、処理部１２と、生成部１３と、出力部１４と、記憶部１５とを備え、例えばＤＢ生成部１６を有してもよい。ＤＢ生成部１６は、例えば図１２（ｃ）に示すように、第１内部表象用データベース生成部１６１と、第２内部表象用データベース生成部１６２と、表現用データベース生成部１６３とを有する。なお、図１２（ｂ）、図１２（ｃ）、図１３に示した各機能は、ＣＰＵ１０１が、ＲＡＭ１０３を作業領域として、保存部１０４等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。

＜＜取得部１１＞＞
取得部１１は、刺激データを取得する。取得したデータは、上述した表現データを生成する際に用いられる。取得部１１は、例えば入力部１０８から入力されたテキストデータ、画像データ、音声データを取得するほか、例えば通信網４を介して、端末２等からテキストデータ、画像データ、音声データを取得してもよい。

取得部１１は、例えば上述した各種データベースの生成に用いられる学習データを取得してもよい。取得部１１は、例えば入力部１０８から入力された学習データを取得するほか、例えば通信網４を介して、端末２等から学習データを取得してもよい。

例えば、第１内部表象用データベースの生成に用いられる第１内部表象用学習データとして、過去のユーザデータ及び内部表象データが挙げられる。また、例えば表現用データベースの生成に用いられる学習データ（表現用学習データ）として、表現データが挙げられる。

＜＜処理部１２＞＞
処理部１２は、例えばｓｏｕｎｄ学習モデル、ｖｉｓｕａｌ学習モデル、テキスト学習モデル、第１内部表象用データベース、第２内部表象用データベース、表現用データベースを参照し、刺激データに対応する表現データを取得する。

処理部１２は、図１３に示すように、取得部１１に接続される音声処理部１２１と、画像処理部１２２と、テキスト処理部１２３とを有する。また、処理部１２は、音声処理部１２１と、画像処理部１２２と、テキスト処理部１２３に接続される第１内部表象処理部１２４と、第２内部表象処理部１２５とを有する。また、処理部１２は、第１内部表象処理部１２４と、第２内部表象処理部１２５とに接続される表現処理部１２６を有する。

音声処理部１２１は、例えばｓｏｕｎｄ学習モデルを参照し、音声データに対応する音声特徴量データを取得する。音声処理部１２１は、例えば音声データに対し、音声連関性の最も高い音声特徴量データを、第１音声特徴量データとして選択するほか、例えば予め設定された閾値以上の連関度を有する複数の音声特徴量データを、第１音声特徴量データとして選択してもよい。また、選択される音声特徴量データの数については、任意に設定できる。

画像処理部１２２は、例えばｖｉｓｕａｌ学習モデルを参照し、画像データに対応する画像特徴量データを取得する。画像処理部１２２は、例えば画像データに対し、画像連関性の最も高い画像特徴量データを、第１画像特徴量データとして選択するほか、例えば予め設定された閾値以上の連関度を有する複数の画像特徴量データを、第１画像特徴量データとして選択してもよい。また、選択される画像特徴量データの数については、任意に設定できる。

テキスト処理部１２３は、例えばテキスト学習モデルを参照し、テキストデータに対応するテキスト特徴量データを取得する。テキスト処理部１２３は、例えばテキストデータに対し、テキスト連関性の最も高いテキスト特徴量データを、第１テキスト特徴量データとして選択するほか、例えば予め設定された閾値以上の連関度を有する複数のテキスト特徴量データを、第１テキスト特徴量データとして選択してもよい。また、選択されるテキスト特徴量データの数については、任意に設定できる。

第１内部表象処理部１２４は、例えば第１内部表象用データベースを参照し、音声特徴量データを含む音声データと、画像特徴量データを含む画像データと、テキスト特徴量データを含むテキストデータとの中の何れか１以上のデータを入力として、入力に対応する内部表象データに含まれる１種類以上のデータ（第１内部表象データ）を取得する。第１内部表象処理部１２４は、例えばテキストデータを入力データとし、第１内部表象用データベースを参照して演算された出力データを、第１内部表象データとして取得する。

第１内部表象処理部１２４は、例えばテキストデータに対し、第１連関性の最も高い第１内部表象データを選択するほか、例えば予め設定された閾値以上の連関度を有する第１内部表象データを選択してもよい。また、選択される第１内部表象データの数については、任意に設定できる。

第２内部表象処理部１２５は、例えば第２内部表象用データベースを参照し、音声特徴量データを含む音声データと、画像特徴量データを含む画像データと、テキスト特徴量データを含むテキストデータとの中の何れか１以上のデータを入力として、入力に対応する内部表象データに含まれる１種類以上のデータ（第２内部表象データ）を取得する。第２内部表象処理部１２５は、例えばテキストデータを入力データとし、第２内部表象用データベースを参照して演算された出力データを、第２内部表象データとして取得する。

第２内部表象処理部１２５は、例えばテキストデータに対し、第２連関性の最も高い第２内部表象データを選択するほか、例えば予め設定された閾値以上の連関度を有する第２内部表象データを選択してもよい。また、選択される第２内部表象データの数については、任意に設定できる。

表現処理部１２６は、例えば表現用データベースを参照し、第１内部表象データと、第２内部表象データを入力として、入力に対応する表現データを取得する。表現処理部１２６は、例えば第１内部表象データに含まれる自己認識データと、第２内部表象データに含まれる感情表現データとを入力データとし、表現用データベースを参照して演算された出力データを、表現データとして取得する。

表現処理部１２６は、例えば自己認識データと、感情表現データとに対し、第３連関性の最も高い表現データを選択するほか、例えば予め設定された閾値以上の連関度を有する表現データを選択してもよい。また、選択される第２内部表象データの数については、任意に設定できる。

＜＜生成部１３＞＞
生成部１３は、処理部１２で取得した表現データに基づき、少なくとも１つの擬似データを生成する。生成部１３は、例えば表現処理部１２６で取得された表現データに基づき、音声及び画像を含む擬似データを生成する。擬似データを生成することによって、記憶部１５に記憶されていないキャラクターの表現を出力することが可能となる。生成部１３は、擬似データを生成する際に、公知の技術を用いてもよい。

＜＜出力部１４＞＞
出力部１４は、表現データを出力する。出力部１４は、例えば生成部１３で生成された擬似データを出力してもよい。出力部１４は、Ｉ／Ｆ１０７を介して表示部１０９に表現データを出力するほか、例えばＩ／Ｆ１０５を介して、端末２等に表現データを出力する。

＜＜記憶部１５＞＞
記憶部１５は、保存部１０４に保存されたデータベース等の各種データを必要に応じて取出す。記憶部１５は、各構成１１〜１４、１６により取得又は生成された各種データを、必要に応じて保存部１０４に保存する。

＜＜ＤＢ生成部１６＞＞
ＤＢ生成部１６は、複数の学習データを用いた機械学習によりデータベースを生成する。機械学習には、例えば上述したニューラルネットワーク等が用いられる。

ＤＢ生成部１６は、例えば、第１内部表象用データベース生成部１６１と、第２内部表象用データベース生成部１６２と、表現用データベース生成部１６３とを有する。

第１内部表象用データベース生成部１６１は、例えば一対のユーザデータと、第１内部表象データと、を第１内部表象用学習データとして、複数の第１内部表象用学習データを用いた機械学習により第１内部表象用データベースを生成する。

第２内部表象用データベース生成部１６２は、例えば一対のユーザデータと、第２内部表象データと、を第２内部表象用学習データとして、複数の第２内部表象用学習データを用いた機械学習により第２内部表象用データベースを生成する。

表現用データベース生成部１６３は、例えば一対の第１内部表象データと第２内部表象データと、表現データと、を表現用学習データとして、複数の表現用学習データを用いた機械学習により表現用データベースを生成する。

＜端末２＞
端末２は、例えばコンテンツ再生システム１００を用いたサービスのユーザ等が保有し、通信網４を介してコンテンツ再生装置１と接続される。端末２は、例えばデータベースを生成する電子機器を示してもよい。端末２は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末２は、例えばコンテンツ再生装置１の備える機能のうち、少なくとも一部の機能を備えてもよい。

＜サーバ３＞
サーバ３は、通信網４を介してコンテンツ再生装置１と接続される。サーバ３は、過去の各種データ等が記憶され、必要に応じてコンテンツ再生装置１から各種データが送信される。サーバ３は、例えばコンテンツ再生装置１の備える機能のうち、少なくとも一部の機能を備えてもよく、例えばコンテンツ再生装置１の代わりに少なくとも一部の処理を行ってもよい。サーバ３は、例えばコンテンツ再生装置１の保存部１０４に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部１０４の代わりに用いられてもよい。

＜通信網４＞
通信網４は、例えばコンテンツ再生装置１が通信回路を介して接続されるインターネット網等である。通信網４は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網４は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。

（実施形態：学習方法）
次に、実施形態における学習方法の一例について説明する。図１４は、本実施形態における学習方法の一例を示すフローチャートである。

学習方法は、取得ステップＳ１１０と、第１内部表象用データベース生成ステップＳ１２０と、第２内部表象用データベース生成ステップＳ１３０と、表現用データベース生成ステップＳ１４０を備える。

＜取得ステップＳ１１０＞
取得ステップＳ１１０は、ユーザデータと、第１内部表象データと、第２内部表象データと、表現データを取得する。取得ステップＳ１１０は、例えばユーザデータとして、ユーザがユーザに関する質問がされたインタビュー動画を取得してもよい。また、取得ステップＳ１１０は、ユーザデータとして、例えばｓｏｕｎｄ学習モデルを参照し、ユーザデータに含まれる音声データに対する音声特徴量データと、ｖｉｓｕａｌ学習モデルを参照し、ユーザデータに含まれる画像データに対する画像特徴量データと、テキスト学習モデルを参照し、ユーザデータに含まれるテキストデータに対するテキスト特徴量データと、をそれぞれ取得してもよい。また、取得ステップＳ１１０は、主成分分析、形態素分析、ランダムフォレストによる分類等の公知の技術によって、テキスト学習モデルを用いることなく、ユーザデータとして、テキスト特徴量データを取得してもよい。また、取得ステップＳ１１０は、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）等の公知の技術によって、ｓｏｕｎｄ学習モデルを用いることなく、ユーザデータとして、音声特徴量データを取得してもよい。また、取得ステップＳ１１０は、ＳＩＦＴ（Scale-Invariant Feature Transform）等の公知の技術によって、テキスト学習モデルを用いることなく、ユーザデータとして、テキスト特徴量データを取得してもよい。

取得ステップＳ１１０は、ユーザデータとして、ユーザがソーシャルネットサービス等に投稿した画像データ、音声データ、テキストデータのいずれかを取得してもよい。取得ステップＳ１１０では、例えば取得部１１が、上述した各データを取得する。取得部１１は、例えば端末２等からユーザデータ、及び内部表象データに含まれる２種類以上のデータ及び表現データを取得するほか、例えば記憶部１５を介して、保存部１０４から取得してもよい。ユーザデータとして、例えばユーザに関する情報が記載されたテキストデータのみを取得してもよいが、ユーザに関する情報が記載されたテキストデータと、ユーザの画像を含む画像データと、ユーザの音声に関する音声データとを取得することにより、例えば、ユーザの視覚的表現や、聴覚的表現を学習することが可能となるため、より精度の良い学習を行うことが可能となる。

＜第１内部表象用データベース生成ステップＳ１２０＞
次に、第１内部表象用データベース生成ステップＳ１２０は、一対のユーザデータと、第１内部表象データとを第１内部表象用学習データとした機械学習により、第１内部表象用データベースを生成する。例えば、第１内部表象用データベース生成部１６１は、公知の機械学習により、第１内部表象用データベースを生成する。第１内部表象用データベース生成部１６１は、例えば記憶部１５を介して、生成した第１内部表象用データベースを保存部１０４に保存する。なお、生成された第１内部表象用データベースは、例えばサーバ３や他のコンテンツ再生装置１に送信されてもよい。第１内部表象用学習データは、一対のユーザデータと内部表象データに含まれる１種類以上のデータとのデータを複数（例えば１０００程度）含ませてもよい。

＜第２内部表象用データベース生成ステップＳ１３０＞
次に、第２内部表象用データベース生成ステップＳ１３０は、一対のユーザデータと、第２内部表象データとを第２内部表象用学習データとした機械学習により、第２内部表象用データベースを生成する。例えば、第２内部表象用データベース生成部１６２は、公知の機械学習により、第２内部表象用データベースを生成する。第２内部表象用データベース生成部１６２は、例えば記憶部１５を介して、生成した第２内部表象用データベースを保存部１０４に保存する。なお、生成された第２内部表象用データベースは、例えばサーバ３や他のコンテンツ再生装置１に送信されてもよい。第２内部表象用学習データは、一対のユーザデータと内部表象データに含まれる１種類以上のデータとのデータを複数（例えば１０００程度）含ませてもよい。第１内部表象用データベースと、第２内部表象用データベースとを参照して、別々の種類のデータを含む内部表象データを独立して取得することにより、ユーザの多面的な感情を示した内部表象データを取得することが可能となる。例えば、第１内部表象用データベースを用いて、内部表象データに含まれる自己認識データとして、「笑い」を取得し、第２内部表象用データベースを用いて、内部表象データに含まれる感情表現データとして、「怒り」を取得することで、ユーザの多面的な感情を示した内部表象データを学習することができる。

＜表現用データベース生成ステップＳ１４０＞
次に、表現用データベース生成ステップＳ１４０は、一組の第１内部表象データと、第２内部表象データと、表現データと、を表現用学習データとして、複数の表現用学習データを用いた機械学習により表現用データベースを生成する。例えば、表現用データベース生成部１６３は、公知の機械学習により、表現用データベースを生成する。表現用データベース生成部１６３は、例えば記憶部１５を介して、生成した表現用データベースを保存部１０４に保存する。なお、生成された表現用データベースは、例えばサーバ３や他のコンテンツ再生装置１に送信されてもよい。表現用学習データは、一対の第１内部表象データと第２内部表象データと、表現データとのデータを複数（例えば１０００程度）含ませてもよい。第１内部表象データと第２内部表象データを入力データとすることにより、多面的な感情に基づく表現データを取得することが可能となる。

また、上述した学習方法は、一例であり、学習のタイミング及び学習のステップの手順等は任意のものであってもよい。また、第１内部表象用データベース及び第２内部表象用データベースと、出力データが異なる種類のデータを用いた点で異なる学習方法によって、内部表象データを出力するためのデータベースを１以上生成してもよい。これによって、多面的なユーザの感情をより多角的に評価することが可能となる。

（第１実施形態：コンテンツ再生システムの動作）
次に、本実施形態におけるコンテンツ再生システム１００の動作の一例について説明する。図１５は、本実施形態におけるコンテンツ再生システム１００の動作の一例を示すフローチャートである。

＜取得手段Ｓ２１０＞
取得手段Ｓ２１０は、ユーザ等により入力された刺激データを取得する。取得手段Ｓ２１０では、例えば取得部１１が、刺激データを取得する。取得部１１は、例えば端末２等から刺激データを取得するほか、例えば記憶部１５を介して、保存部１０４から取得してもよい。また、取得手段Ｓ２１０は、例えば刺激データとして、任意の音声データのみを取得してもよいが、一つのデータに紐づいた複数種類のデータを取得してもよい。例えば刺激データとして、動画のように画像データと、画像データに紐づいた音声データを取得してもよい。

＜特徴量処理手段Ｓ２２０＞
特徴量処理手段Ｓ２２０は、例えばｓｏｕｎｄ学習モデル、ｖｉｓｕａｌ学習モデル、テキスト学習モデルを参照し、取得手段Ｓ２１０で取得した刺激データに対応するテキスト特徴量データ、画像特徴量データ、音声特徴量データをそれぞれ取得する。特徴量処理手段Ｓ２２０は、例えばテキスト学習モデルを参照し、取得したテキストデータに対するテキスト特徴量データを取得する。また、特徴量処理手段Ｓ２２０は、例えばｓｏｕｎｄ学習モデルを参照し、刺激データに含まれる音声データに対する音声特徴量データと、ｖｉｓｕａｌ学習モデルを参照し、刺激データに含まれる画像データに対する画像特徴量データと、テキスト学習モデルを参照し、刺激データに含まれるテキストデータに対するテキスト特徴量データと、をそれぞれ取得してもよい。また、特徴量処理手段Ｓ２２０は、主成分分析、形態素分析、ランダムフォレストによる分類等の公知の技術によって、テキスト学習モデルを用いることなく、テキスト特徴量データを取得してもよい。また、特徴量処理手段Ｓ２２０は、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）等の公知の技術によって、ｓｏｕｎｄ学習モデルを用いることなく、音声特徴量データを取得してもよい。また、特徴量処理手段Ｓ２２０は、ＳＩＦＴ（Scale-Invariant Feature Transform）等の公知の技術によって、テキスト学習モデルを用いることなく、テキスト特徴量データを取得してもよい。

また、特徴量処理手段Ｓ２２０は、例えば記憶部１５を介して、取得した音声データ及び特徴点データを保存部１０４に保存してもよい。なお、取得した各データは、例えばサーバ３や他のコンテンツ再生装置１に送信されてもよい。取得するデータは、擬似的に生成されたデータでもよい。取得するデータは、例えばひとつのテキストデータに対して複数のデータを取得してもよい。また、一つのデータに紐づいた複数種類のデータを入力データとすることにより、例えば複合的に特徴量を算出することが可能となり、より精度のよい表現データの取得ができる。

＜内部表象処理手段Ｓ２３０＞
内部表象処理手段Ｓ２３０は、例えば第１内部表象用データベース及び第２内部表象用データベースを参照し、特徴量処理手段Ｓ２２０で取得したテキスト特徴量データを含むテキストデータ、画像特徴量データを含む画像データ、音声特徴量データを含む音声データに対応する第１内部表象データ及び第２内部表象データを取得する。内部表象処理手段Ｓ２３０では、例えば第１内部表象処理部１２４は、第１内部表象用データベースを参照し、テキスト特徴量データに対応する自己認識データを取得し、第２内部表象処理部１２５は、第２内部表象用データベースを参照し、テキスト特徴量データに対応する感情表現データをそれぞれ取得する。内部表象処理手段Ｓ２３０は、例えば記憶部１５を介して、取得した内部表象データを保存部１０４に保存してもよい。なお、取得した内部表象データは、例えばサーバ３や他のコンテンツ再生装置１に送信されてもよい。取得するデータはひとつの入力データに対して複数のデータを取得してもよい。また、内部表象処理手段Ｓ２３０は、、第１内部表象用データベース及び第２内部表象用データベースと、出力データが異なる種類のデータを用いた点で異なる学習方法によって、内部表象データを出力するためのデータベースを１以上用いて、より多くの種類を含む内部表象データを取得してもよい。これにより、ユーザの感情をより多角的に判断することができる。

＜表現処理手段Ｓ２４０＞
表現処理手段Ｓ２４０は、例えば表現用データベースを参照し、内部表象処理手段Ｓ２３０で取得した第１内部表象データと第２内部表象データとを入力として、入力に対応する表現データを取得する。表現処理手段Ｓ２４０では、表現処理部１２６は、例えば第１内部表象データに含まれる自己認識データと、第２内部表象データに含まれる感情表現データとを入力データとし、表現用データベースを参照して演算された出力データを、表現データとして取得する。例えば、第１内部表象データに含まれる自己認識データとして、「笑い」を、第２内部表象データに含まれる感情表現データとして、「怒り」と、優先順位データとして「自己認識」とが入力されたとすると、内心では怒りを感じているが、場の空気を優先して笑っているというような多面的な感情に基づく表現データを取得することができる。

表現処理手段Ｓ２４０は、例えば記憶部１５を介して、取得した表現データを保存部１０４に保存してもよい。なお、取得した表現データは、例えばサーバ３や他のコンテンツ再生装置１に送信されてもよい。取得するデータは擬似データでもよい。取得するデータはひとつの入力データに対して複数のデータを取得してもよい。

＜出力手段Ｓ２５０＞
出力手段Ｓ２５０では、例えば出力部１４は、表現処理手段Ｓ２４０により取得された表現データを、表示部１０９や端末２等に出力する。

上述した各手段を行うことで、本実施形態におけるコンテンツ再生システム１００の動作が完了する。

本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１：コンテンツ再生装置
２：端末
３：サーバ
４：通信網
１０：筐体
１１：取得部
１２：処理部
１３：生成部
１４：出力部
１５：記憶部
１６：ＤＢ生成部
１００：コンテンツ再生システム
１０１：ＣＰＵ
１０２：ＲＯＭ
１０３：ＲＡＭ
１０４：保存部
１０５：Ｉ／Ｆ
１０６：Ｉ／Ｆ
１０７：Ｉ／Ｆ
１０８：入力部
１０９：表示部
１１０：内部バス
１２１：音声処理部
１２２：画像処理部
１２３：テキスト処理部
１２４：第１内部表象処理部
１２５：第２内部表象処理部
１２６：表現処理部
１６１：第１内部表象用データベース生成部
１６２：第２内部表象用データベース生成部
１６３：表現用データベース生成部
Ｓ１１０：取得ステップ
Ｓ１２０：第１内部表象用データベース生成ステップ
Ｓ１３０：第２内部表象用データベース生成ステップ
Ｓ１４０：表現用データベース生成ステップ
Ｓ２１０：取得手段
Ｓ２２０：特徴量処理手段
Ｓ２３０：内部表象処理手段
Ｓ２４０：表現処理手段
Ｓ２５０：出力手段

Claims

キャラクターの表現を示す表現データを生成するために用いられるデータベースを生成する学習方法であって、
ユーザに関する情報が記載されたテキストデータと、前記ユーザの画像を含む画像データと、前記ユーザの音声に関する音声データとの中の何れか１以上を含むユーザデータを取得する入力データ取得ステップと、
前記ユーザの自己認識を示す自己認識データと、前記ユーザの事象に対する優先順位を示す優先順位データと、前記ユーザの事象に対する感情表現を示す感情表現データと、前記ユーザの事象に対する因果関係の推定を示す因果関係データと、の中の２種類以上のデータを含む、前記ユーザの内部表象を示す内部表象データとを取得する出力データ取得ステップと、
前記入力データ取得ステップにより取得したユーザデータを第１入力データとし、前記内部表象データに含まれる１種類以上のデータである第１内部表象データを第１出力データとして、前記第１入力データと前記第１出力データとを一組の第１内部表象用学習データとして、複数の前記第１内部表象用学習データを用いた機械学習により第１内部表象用データベースを生成する第１内部表象用データベース生成ステップと、
前記入力データ取得ステップにより取得したユーザデータを第２入力データとし、前記第１内部表象用データベース生成ステップにおける第１出力データと異なる種類のデータであり、前記内部表象データに含まれる１種類以上のデータである第２内部表象データを第２出力データとして、前記第２入力データと前記第２出力データとを一組の第２内部表象用学習データとして、複数の前記第２内部表象用学習データを用いた機械学習により第２内部表象用データベースを生成する第２内部表象用データベース生成ステップとを
コンピュータに実行させること
を特徴とする学習方法。
前記第１内部表象用データベースを用いて生成された第１内部表象データと、前記第２内部表象用データベースを用いて生成された第２内部表象データとを入力として、前記キャラクターの表現を示す表現データを出力するための表現用データベースを生成する表現用データベース生成ステップを
さらにコンピュータに実行させること
を特徴とする請求項１に記載の学習方法。
前記入力データ取得ステップは、質問に対して前記ユーザが回答した内容に関するテキスト形式のデータを含む前記テキストデータと、前記質問に対して前記ユーザが回答した内容に関する画像形式のデータを含む前記画像データと、前記質問に対して前記ユーザが回答した内容に関する音声形式のデータとの中の何れか１以上を含む前記ユーザデータを取得すること
を特徴とする請求項１又は２に記載の学習方法。
前記ユーザデータは、前記テキストデータの特徴を示すテキスト特徴量データを有し、
前記入力データ取得ステップは、取得した前記テキストデータに基づき抽出された前記テキスト特徴量データを取得するテキスト特徴量データ取得ステップを含むこと
を特徴とする請求項１〜３の何れか１項記載の学習方法。
前記ユーザデータは、前記画像データの特徴を示す画像特徴量データを有し、
前記入力データ取得ステップは、取得した前記画像データに基づき抽出された前記画像特徴量データを取得する画像特徴量データ取得ステップを含むこと
を特徴とする請求項１〜４の何れか１項記載の学習方法。
前記ユーザデータは、前記音声データの特徴を示す音声特徴量データを有し、
前記入力データ取得ステップは、取得した前記音声データに基づき抽出された前記音声特徴量データを取得する音声特徴量データ取得ステップを含むこと
を特徴とする請求項１〜５の何れか１項記載の学習方法。
請求項２に記載の学習方法により生成された前記第１内部表象用データベースと、前記第２内部表象用データベースと、前記表現用データベースとを参照し、前記キャラクターの表現データを出力するコンテンツ再生装置であって、
任意のテキストデータと、画像データと、音声データとの中の何れか１以上のデータを含む刺激データを取得する取得部と、
前記第１内部表象用データベースを参照し、前記取得部により取得した刺激データに対応する前記第１内部表象データを取得する第１内部表象処理部と、
前記第２内部表象用データベースを参照し、前記取得部により取得した刺激データに対応する前記第２内部表象データを取得する第２内部表象処理部と、
前記表現用データベースを参照し、前記第１内部表象用データベースを用いて生成された第１内部表象データと、前記第２内部表象用データベースを用いて生成された第２内部表象データとに対応する前記表現データを出力する表現処理部と、を備えること
を特徴とするコンテンツ再生装置。