JP6930781B1 - 学習方法、及びコンテンツ再生装置 - Google Patents
学習方法、及びコンテンツ再生装置 Download PDFInfo
- Publication number
- JP6930781B1 JP6930781B1 JP2021063937A JP2021063937A JP6930781B1 JP 6930781 B1 JP6930781 B1 JP 6930781B1 JP 2021063937 A JP2021063937 A JP 2021063937A JP 2021063937 A JP2021063937 A JP 2021063937A JP 6930781 B1 JP6930781 B1 JP 6930781B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- internal representation
- user
- database
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
図1〜図5を参照して、第1実施形態におけるコンテンツ再生システム100、コンテンツ再生装置1、及び学習方法の一例について説明する。図1は、本実施形態におけるコンテンツ再生システム100の一例を示す模式図である。図2は、本実施形態におけるコンテンツ再生システム100の動作の一例を示す模式図である。図3〜図5は、本実施形態における学習方法の一例を示す模式図である。
コンテンツ再生システム100は、入力された任意のテキストデータと、画像データと、音声データとの中の何れか1以上のデータを含む刺激データに対し、キャラクターの表現を示す表現データを生成するために用いられる。コンテンツ再生システム100は、例えば学習データを用いた機械学習により生成されたデータベースを参照し、入力された刺激データに対し、キャラクターの音声データと画像データとテキストデータの中の何れか1以上のデータを含む表現データを生成する。
本実施形態における学習方法は、入力された刺激データに対し、キャラクターの表現を示す表現データを生成するために用いられるデータベース又は学習モデルを生成する際に用いられる。データベースは、例えば第1内部表象用データベース第2内部表象用データベースと、表現用データベースとを含む。学習モデルは、例えばsound学習モデル、visual学習モデル、テキスト学習モデルとを含む。
次に、図12、図13を参照して、本実施形態におけるコンテンツ再生装置1の一例を説明する。図12(a)は、本実施形態におけるコンテンツ再生装置1の構成の一例を示す模式図であり、図12(b)は、本実施形態におけるコンテンツ再生装置1の機能の一例を示す模式図である。図12(c)は、DB生成部16の一例を示す模式図である。図13は、処理部12の一例を示す模式図である。
取得部11は、刺激データを取得する。取得したデータは、上述した表現データを生成する際に用いられる。取得部11は、例えば入力部108から入力されたテキストデータ、画像データ、音声データを取得するほか、例えば通信網4を介して、端末2等からテキストデータ、画像データ、音声データを取得してもよい。
処理部12は、例えばsound学習モデル、visual学習モデル、テキスト学習モデル、第1内部表象用データベース、第2内部表象用データベース、表現用データベースを参照し、刺激データに対応する表現データを取得する。
生成部13は、処理部12で取得した表現データに基づき、少なくとも1つの擬似データを生成する。生成部13は、例えば表現処理部126で取得された表現データに基づき、音声及び画像を含む擬似データを生成する。擬似データを生成することによって、記憶部15に記憶されていないキャラクターの表現を出力することが可能となる。生成部13は、擬似データを生成する際に、公知の技術を用いてもよい。
出力部14は、表現データを出力する。出力部14は、例えば生成部13で生成された擬似データを出力してもよい。出力部14は、I/F107を介して表示部109に表現データを出力するほか、例えばI/F105を介して、端末2等に表現データを出力する。
記憶部15は、保存部104に保存されたデータベース等の各種データを必要に応じて取出す。記憶部15は、各構成11〜14、16により取得又は生成された各種データを、必要に応じて保存部104に保存する。
DB生成部16は、複数の学習データを用いた機械学習によりデータベースを生成する。機械学習には、例えば上述したニューラルネットワーク等が用いられる。
端末2は、例えばコンテンツ再生システム100を用いたサービスのユーザ等が保有し、通信網4を介してコンテンツ再生装置1と接続される。端末2は、例えばデータベースを生成する電子機器を示してもよい。端末2は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末2は、例えばコンテンツ再生装置1の備える機能のうち、少なくとも一部の機能を備えてもよい。
サーバ3は、通信網4を介してコンテンツ再生装置1と接続される。サーバ3は、過去の各種データ等が記憶され、必要に応じてコンテンツ再生装置1から各種データが送信される。サーバ3は、例えばコンテンツ再生装置1の備える機能のうち、少なくとも一部の機能を備えてもよく、例えばコンテンツ再生装置1の代わりに少なくとも一部の処理を行ってもよい。サーバ3は、例えばコンテンツ再生装置1の保存部104に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部104の代わりに用いられてもよい。
通信網4は、例えばコンテンツ再生装置1が通信回路を介して接続されるインターネット網等である。通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網4は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。
次に、実施形態における学習方法の一例について説明する。図14は、本実施形態における学習方法の一例を示すフローチャートである。
取得ステップS110は、ユーザデータと、第1内部表象データと、第2内部表象データと、表現データを取得する。取得ステップS110は、例えばユーザデータとして、ユーザがユーザに関する質問がされたインタビュー動画を取得してもよい。また、取得ステップS110は、ユーザデータとして、例えばsound学習モデルを参照し、ユーザデータに含まれる音声データに対する音声特徴量データと、visual学習モデルを参照し、ユーザデータに含まれる画像データに対する画像特徴量データと、テキスト学習モデルを参照し、ユーザデータに含まれるテキストデータに対するテキスト特徴量データと、をそれぞれ取得してもよい。また、取得ステップS110は、主成分分析、形態素分析、ランダムフォレストによる分類等の公知の技術によって、テキスト学習モデルを用いることなく、ユーザデータとして、テキスト特徴量データを取得してもよい。また、取得ステップS110は、MFCC(Mel-Frequency Cepstrum Coefficient)等の公知の技術によって、sound学習モデルを用いることなく、ユーザデータとして、音声特徴量データを取得してもよい。また、取得ステップS110は、SIFT(Scale-Invariant Feature Transform)等の公知の技術によって、テキスト学習モデルを用いることなく、ユーザデータとして、テキスト特徴量データを取得してもよい。
次に、第1内部表象用データベース生成ステップS120は、一対のユーザデータと、第1内部表象データとを第1内部表象用学習データとした機械学習により、第1内部表象用データベースを生成する。例えば、第1内部表象用データベース生成部161は、公知の機械学習により、第1内部表象用データベースを生成する。第1内部表象用データベース生成部161は、例えば記憶部15を介して、生成した第1内部表象用データベースを保存部104に保存する。なお、生成された第1内部表象用データベースは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。第1内部表象用学習データは、一対のユーザデータと内部表象データに含まれる1種類以上のデータとのデータを複数(例えば1000程度)含ませてもよい。
次に、第2内部表象用データベース生成ステップS130は、一対のユーザデータと、第2内部表象データとを第2内部表象用学習データとした機械学習により、第2内部表象用データベースを生成する。例えば、第2内部表象用データベース生成部162は、公知の機械学習により、第2内部表象用データベースを生成する。第2内部表象用データベース生成部162は、例えば記憶部15を介して、生成した第2内部表象用データベースを保存部104に保存する。なお、生成された第2内部表象用データベースは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。第2内部表象用学習データは、一対のユーザデータと内部表象データに含まれる1種類以上のデータとのデータを複数(例えば1000程度)含ませてもよい。第1内部表象用データベースと、第2内部表象用データベースとを参照して、別々の種類のデータを含む内部表象データを独立して取得することにより、ユーザの多面的な感情を示した内部表象データを取得することが可能となる。例えば、第1内部表象用データベースを用いて、内部表象データに含まれる自己認識データとして、「笑い」を取得し、第2内部表象用データベースを用いて、内部表象データに含まれる感情表現データとして、「怒り」を取得することで、ユーザの多面的な感情を示した内部表象データを学習することができる。
次に、表現用データベース生成ステップS140は、一組の第1内部表象データと、第2内部表象データと、表現データと、を表現用学習データとして、複数の表現用学習データを用いた機械学習により表現用データベースを生成する。例えば、表現用データベース生成部163は、公知の機械学習により、表現用データベースを生成する。表現用データベース生成部163は、例えば記憶部15を介して、生成した表現用データベースを保存部104に保存する。なお、生成された表現用データベースは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。表現用学習データは、一対の第1内部表象データと第2内部表象データと、表現データとのデータを複数(例えば1000程度)含ませてもよい。第1内部表象データと第2内部表象データを入力データとすることにより、多面的な感情に基づく表現データを取得することが可能となる。
次に、本実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図15は、本実施形態におけるコンテンツ再生システム100の動作の一例を示すフローチャートである。
取得手段S210は、ユーザ等により入力された刺激データを取得する。取得手段S210では、例えば取得部11が、刺激データを取得する。取得部11は、例えば端末2等から刺激データを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。また、取得手段S210は、例えば刺激データとして、任意の音声データのみを取得してもよいが、一つのデータに紐づいた複数種類のデータを取得してもよい。例えば刺激データとして、動画のように画像データと、画像データに紐づいた音声データを取得してもよい。
特徴量処理手段S220は、例えばsound学習モデル、visual学習モデル、テキスト学習モデルを参照し、取得手段S210で取得した刺激データに対応するテキスト特徴量データ、画像特徴量データ、音声特徴量データをそれぞれ取得する。特徴量処理手段S220は、例えばテキスト学習モデルを参照し、取得したテキストデータに対するテキスト特徴量データを取得する。また、特徴量処理手段S220は、例えばsound学習モデルを参照し、刺激データに含まれる音声データに対する音声特徴量データと、visual学習モデルを参照し、刺激データに含まれる画像データに対する画像特徴量データと、テキスト学習モデルを参照し、刺激データに含まれるテキストデータに対するテキスト特徴量データと、をそれぞれ取得してもよい。また、特徴量処理手段S220は、主成分分析、形態素分析、ランダムフォレストによる分類等の公知の技術によって、テキスト学習モデルを用いることなく、テキスト特徴量データを取得してもよい。また、特徴量処理手段S220は、MFCC(Mel-Frequency Cepstrum Coefficient)等の公知の技術によって、sound学習モデルを用いることなく、音声特徴量データを取得してもよい。また、特徴量処理手段S220は、SIFT(Scale-Invariant Feature Transform)等の公知の技術によって、テキスト学習モデルを用いることなく、テキスト特徴量データを取得してもよい。
内部表象処理手段S230は、例えば第1内部表象用データベース及び第2内部表象用データベースを参照し、特徴量処理手段S220で取得したテキスト特徴量データを含むテキストデータ、画像特徴量データを含む画像データ、音声特徴量データを含む音声データに対応する第1内部表象データ及び第2内部表象データを取得する。内部表象処理手段S230では、例えば第1内部表象処理部124は、第1内部表象用データベースを参照し、テキスト特徴量データに対応する自己認識データを取得し、第2内部表象処理部125は、第2内部表象用データベースを参照し、テキスト特徴量データに対応する感情表現データをそれぞれ取得する。内部表象処理手段S230は、例えば記憶部15を介して、取得した内部表象データを保存部104に保存してもよい。なお、取得した内部表象データは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。取得するデータはひとつの入力データに対して複数のデータを取得してもよい。また、内部表象処理手段S230は、、第1内部表象用データベース及び第2内部表象用データベースと、出力データが異なる種類のデータを用いた点で異なる学習方法によって、内部表象データを出力するためのデータベースを1以上用いて、より多くの種類を含む内部表象データを取得してもよい。これにより、ユーザの感情をより多角的に判断することができる。
表現処理手段S240は、例えば表現用データベースを参照し、内部表象処理手段S230で取得した第1内部表象データと第2内部表象データとを入力として、入力に対応する表現データを取得する。表現処理手段S240では、表現処理部126は、例えば第1内部表象データに含まれる自己認識データと、第2内部表象データに含まれる感情表現データとを入力データとし、表現用データベースを参照して演算された出力データを、表現データとして取得する。例えば、第1内部表象データに含まれる自己認識データとして、「笑い」を、第2内部表象データに含まれる感情表現データとして、「怒り」と、優先順位データとして「自己認識」とが入力されたとすると、内心では怒りを感じているが、場の空気を優先して笑っているというような多面的な感情に基づく表現データを取得することができる。
出力手段S250では、例えば出力部14は、表現処理手段S240により取得された表現データを、表示部109や端末2等に出力する。
2 :端末
3 :サーバ
4 :通信網
10 :筐体
11 :取得部
12 :処理部
13 :生成部
14 :出力部
15 :記憶部
16 :DB生成部
100 :コンテンツ再生システム
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部
109 :表示部
110 :内部バス
121 :音声処理部
122 :画像処理部
123 :テキスト処理部
124 :第1内部表象処理部
125 :第2内部表象処理部
126 :表現処理部
161 :第1内部表象用データベース生成部
162 :第2内部表象用データベース生成部
163 :表現用データベース生成部
S110 :取得ステップ
S120 :第1内部表象用データベース生成ステップ
S130 :第2内部表象用データベース生成ステップ
S140 :表現用データベース生成ステップ
S210 :取得手段
S220 :特徴量処理手段
S230 :内部表象処理手段
S240 :表現処理手段
S250 :出力手段
Claims (7)
- キャラクターの表現を示す表現データを生成するために用いられるデータベースを生成する学習方法であって、
ユーザに関する情報が記載されたテキストデータと、前記ユーザの画像を含む画像データと、前記ユーザの音声に関する音声データとの中の何れか1以上を含むユーザデータを取得する入力データ取得ステップと、
前記ユーザの自己認識を示す自己認識データと、前記ユーザの事象に対する優先順位を示す優先順位データと、前記ユーザの事象に対する感情表現を示す感情表現データと、前記ユーザの事象に対する因果関係の推定を示す因果関係データと、の中の2種類以上のデータを含む、前記ユーザの内部表象を示す内部表象データとを取得する出力データ取得ステップと、
前記入力データ取得ステップにより取得したユーザデータを第1入力データとし、前記内部表象データに含まれる1種類以上のデータである第1内部表象データを第1出力データとして、前記第1入力データと前記第1出力データとを一組の第1内部表象用学習データとして、複数の前記第1内部表象用学習データを用いた機械学習により第1内部表象用データベースを生成する第1内部表象用データベース生成ステップと、
前記入力データ取得ステップにより取得したユーザデータを第2入力データとし、前記第1内部表象用データベース生成ステップにおける第1出力データと異なる種類のデータであり、前記内部表象データに含まれる1種類以上のデータである第2内部表象データを第2出力データとして、前記第2入力データと前記第2出力データとを一組の第2内部表象用学習データとして、複数の前記第2内部表象用学習データを用いた機械学習により第2内部表象用データベースを生成する第2内部表象用データベース生成ステップとを
コンピュータに実行させること
を特徴とする学習方法。 - 前記第1内部表象用データベースを用いて生成された第1内部表象データと、前記第2内部表象用データベースを用いて生成された第2内部表象データとを入力として、前記キャラクターの表現を示す表現データを出力するための表現用データベースを生成する表現用データベース生成ステップを
さらにコンピュータに実行させること
を特徴とする請求項1に記載の学習方法。 - 前記入力データ取得ステップは、質問に対して前記ユーザが回答した内容に関するテキスト形式のデータを含む前記テキストデータと、前記質問に対して前記ユーザが回答した内容に関する画像形式のデータを含む前記画像データと、前記質問に対して前記ユーザが回答した内容に関する音声形式のデータとの中の何れか1以上を含む前記ユーザデータを取得すること
を特徴とする請求項1又は2に記載の学習方法。 - 前記ユーザデータは、前記テキストデータの特徴を示すテキスト特徴量データを有し、
前記入力データ取得ステップは、取得した前記テキストデータに基づき抽出された前記テキスト特徴量データを取得するテキスト特徴量データ取得ステップを含むこと
を特徴とする請求項1〜3の何れか1項記載の学習方法。 - 前記ユーザデータは、前記画像データの特徴を示す画像特徴量データを有し、
前記入力データ取得ステップは、取得した前記画像データに基づき抽出された前記画像特徴量データを取得する画像特徴量データ取得ステップを含むこと
を特徴とする請求項1〜4の何れか1項記載の学習方法。 - 前記ユーザデータは、前記音声データの特徴を示す音声特徴量データを有し、
前記入力データ取得ステップは、取得した前記音声データに基づき抽出された前記音声特徴量データを取得する音声特徴量データ取得ステップを含むこと
を特徴とする請求項1〜5の何れか1項記載の学習方法。 - 請求項2に記載の学習方法により生成された前記第1内部表象用データベースと、前記第2内部表象用データベースと、前記表現用データベースとを参照し、前記キャラクターの表現データを出力するコンテンツ再生装置であって、
任意のテキストデータと、画像データと、音声データとの中の何れか1以上のデータを含む刺激データを取得する取得部と、
前記第1内部表象用データベースを参照し、前記取得部により取得した刺激データに対応する前記第1内部表象データを取得する第1内部表象処理部と、
前記第2内部表象用データベースを参照し、前記取得部により取得した刺激データに対応する前記第2内部表象データを取得する第2内部表象処理部と、
前記表現用データベースを参照し、前記第1内部表象用データベースを用いて生成された第1内部表象データと、前記第2内部表象用データベースを用いて生成された第2内部表象データとに対応する前記表現データを出力する表現処理部と、を備えること
を特徴とするコンテンツ再生装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021063937A JP6930781B1 (ja) | 2021-04-05 | 2021-04-05 | 学習方法、及びコンテンツ再生装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021063937A JP6930781B1 (ja) | 2021-04-05 | 2021-04-05 | 学習方法、及びコンテンツ再生装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6930781B1 true JP6930781B1 (ja) | 2021-09-01 |
JP2022159632A JP2022159632A (ja) | 2022-10-18 |
Family
ID=77456397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021063937A Active JP6930781B1 (ja) | 2021-04-05 | 2021-04-05 | 学習方法、及びコンテンツ再生装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6930781B1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015069231A (ja) * | 2013-09-26 | 2015-04-13 | Kddi株式会社 | キャラクタ生成装置およびプログラム |
JP2019028993A (ja) * | 2017-07-31 | 2019-02-21 | 和宏 増田 | 情報処理装置、情報処理方法、および、プログラム |
US20200193667A1 (en) * | 2018-09-19 | 2020-06-18 | XRSpace CO., LTD. | Avatar facial expression generating system and method of avatar facial expression generation |
-
2021
- 2021-04-05 JP JP2021063937A patent/JP6930781B1/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015069231A (ja) * | 2013-09-26 | 2015-04-13 | Kddi株式会社 | キャラクタ生成装置およびプログラム |
JP2019028993A (ja) * | 2017-07-31 | 2019-02-21 | 和宏 増田 | 情報処理装置、情報処理方法、および、プログラム |
US20200193667A1 (en) * | 2018-09-19 | 2020-06-18 | XRSpace CO., LTD. | Avatar facial expression generating system and method of avatar facial expression generation |
Also Published As
Publication number | Publication date |
---|---|
JP2022159632A (ja) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11144597B2 (en) | Computer generated emulation of a subject | |
WO2020135194A1 (zh) | 基于情绪引擎技术的语音交互方法、智能终端及存储介质 | |
CN108536802A (zh) | 基于儿童情绪的交互方法及装置 | |
JP7242736B2 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
Gharavian et al. | Audio-visual emotion recognition using FCBF feature selection method and particle swarm optimization for fuzzy ARTMAP neural networks | |
CN115329779A (zh) | 一种多人对话情感识别方法 | |
KR20040014123A (ko) | 가상인격체의 감정표현과 동작구현 시스템 및 그 방법 | |
KR20120044809A (ko) | 감성적 음성합성 장치 및 그 방법 | |
JP2006178063A (ja) | 対話処理装置 | |
US9922644B2 (en) | Analysis of professional-client interactions | |
CN109658917A (zh) | 电子书诵读方法、装置、计算机设备及存储介质 | |
Sadoughi et al. | Meaningful head movements driven by emotional synthetic speech | |
CN115631267A (zh) | 生成动画的方法及装置 | |
Filntisis et al. | Video-realistic expressive audio-visual speech synthesis for the Greek language | |
JP6843409B1 (ja) | 学習方法、コンテンツ再生装置、及びコンテンツ再生システム | |
KR102101311B1 (ko) | 동물구현체를 포함하는 가상현실 플랫폼 제공 방법 및 장치 | |
JP6930781B1 (ja) | 学習方法、及びコンテンツ再生装置 | |
JP2022531994A (ja) | 人工知能ベースの会話システムの生成および動作 | |
KR102350359B1 (ko) | 음성 인식 알고리즘을 이용한 영상 편집 방법 | |
KR102388465B1 (ko) | 가상 콘텐츠 생성 방법 | |
JP6993034B1 (ja) | コンテンツ再生方法、及びコンテンツ再生システム | |
CN111971670A (zh) | 在对话中生成响应 | |
JP7232485B1 (ja) | 情報処理装置、情報処理システム、情報処理方法及びプログラム | |
JP7313518B1 (ja) | 評価方法、評価装置、および、評価プログラム | |
KR102568994B1 (ko) | 사용자의 스피치 능력 개선을 위한 피드백 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210405 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210405 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210430 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210804 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6930781 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |