JP6843409B1 - 学習方法、コンテンツ再生装置、及びコンテンツ再生システム - Google Patents
学習方法、コンテンツ再生装置、及びコンテンツ再生システム Download PDFInfo
- Publication number
- JP6843409B1 JP6843409B1 JP2020107660A JP2020107660A JP6843409B1 JP 6843409 B1 JP6843409 B1 JP 6843409B1 JP 2020107660 A JP2020107660 A JP 2020107660A JP 2020107660 A JP2020107660 A JP 2020107660A JP 6843409 B1 JP6843409 B1 JP 6843409B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- feature point
- pseudo
- post
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 521
- 238000010801 machine learning Methods 0.000 claims abstract description 94
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims description 89
- 238000003384 imaging method Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 abstract description 14
- 238000004891 communication Methods 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 239000002131 composite material Substances 0.000 description 4
- 210000000887 face Anatomy 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Landscapes
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
Description
第15発明に係るコンテンツ再生装置は、音声及び画像を含む擬似データを生成するためのコンテンツ再生装置であって、テキストデータを取得する取得部と、一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理部と、一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成部と、を備え、前記後工程用特徴点データは、前記後工程用特徴点データの一部を変化させ、複数生成した前記点群を含む擬似特徴点データを有することを特徴とする。
第16発明に係るコンテンツ再生装置は、音声及び画像を含む擬似データを生成するためのコンテンツ再生装置であって、テキストデータを取得する取得部と、一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理部と、一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成部と、一対の前記音声データと、前記後工程用特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により構成された擬似音声用データベースと、を備えることを特徴とする。
第17発明に係るコンテンツ再生システムは、音声及び画像を含む擬似データを生成するためのコンテンツ再生システムであって、テキストデータを取得する取得手段と、一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理手段と、一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理手段と、前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成手段と、を備え、前記後工程用特徴点データは、前記画像データに基づき抽出された前記点群を含む関連データを有することを特徴とする。
第18発明に係るコンテンツ再生システムは、音声及び画像を含む擬似データを生成するためのコンテンツ再生システムであって、テキストデータを取得する取得手段と、一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理手段と、一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理手段と、前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成手段と、を備え、前記後工程用特徴点データは、前記後工程用特徴点データの一部を変化させ、複数生成した前記点群を含む擬似特徴点データを有することを特徴とする。
第19発明に係るコンテンツ再生システムは、音声及び画像を含む擬似データを生成するためのコンテンツ再生システムであって、テキストデータを取得する取得手段と、一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理手段と、一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理手段と、前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成手段と、一対の前記音声データと、前記後工程用特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により構成された擬似音声用データベースと、を備えることを特徴とする。
図1〜図3を参照して、第1実施形態におけるコンテンツ再生システム100、コンテンツ再生装置1、及び学習方法の一例について説明する。図1は、本実施形態におけるコンテンツ再生システム100の一例を示す模式図である。図2は、本実施形態におけるコンテンツ再生システム100の動作の一例を示す模式図である。図3(a)及び図3(b)は、本実施形態における学習方法の一例を示す模式図である。
コンテンツ再生システム100は、音声及び画像を含む擬似データを生成するために用いられる。コンテンツ再生システム100は、例えば学習データを用いた機械学習により生成されたデータベースを参照し、入力されたテキストに対し、音声及び画像を含む擬似データを生成する。
本実施形態における学習方法は、入力されたテキストに対し、音声及び画像を含む擬似データを生成するために用いられるデータベースを生成する際に用いられる。データベースは、例えば前処理用データベースと、後処理用データベースとを含む。
次に、図6を参照して、本実施形態におけるコンテンツ再生装置1の一例を説明する。図6(a)は、本実施形態におけるコンテンツ再生装置1の構成の一例を示す模式図であり、図6(b)は、本実施形態におけるコンテンツ再生装置1の機能の一例を示す模式図である。
取得部11は、テキストデータを取得する。テキストデータは、上述した擬似データを生成する際に用いられる。取得部11は、例えば入力部108から入力されたテキストデータを取得するほか、例えば通信網4を介して、端末2等からテキストデータを取得してもよい。
処理部12は、例えば前工程用データベース及び後工程用データベースを含むデータベースを参照し、入力データに対応する出力データを取得する。処理部12は、例えば前工程処理部12aと、後工程処理部12bとを有する。
生成部13は、処理部12の出力データに基づき、少なくとも1つの擬似データを生成する。生成部13は、例えば前工程処理部12aで取得された音声データ(第1音声データ)、及び後工程処理部12bで取得された画像データ(第1画像データ)に基づき、音声及び画像を含む擬似データを生成する。生成部13は、例えば、第1音声データ及び第1画像データに加え、前工程処理部12aで取得された第1特徴点データに基づき、擬似データを生成してもよい。
出力部14は、擬似データを出力する。出力部14は、例えば第1特徴点データに対して選択された第1画像データを出力してもよい。出力部14は、例えば生成部13で生成されたデータを出力してもよい。出力部14は、I/F107を介して表示部109に擬似データを出力するほか、例えばI/F105を介して、端末2等に擬似データを出力する。
記憶部15は、保存部104に保存されたデータベース等の各種データを必要に応じて取出す。記憶部15は、各構成11〜14、16により取得又は生成された各種データを、必要に応じて保存部104に保存する。
DB生成部16は、複数の学習データを用いた機械学習によりデータベースを生成する。機械学習には、例えば上述したニューラルネットワーク等が用いられる。
端末2は、例えばコンテンツ再生システム100を用いたサービスのユーザ等が保有し、通信網4を介してコンテンツ再生装置1と接続される。端末2は、例えばデータベースを生成する電子機器を示してもよい。端末2は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末2は、例えばコンテンツ再生装置1の備える機能のうち、少なくとも一部の機能を備えてもよい。
サーバ3は、通信網4を介してコンテンツ再生装置1と接続される。サーバ3は、過去の各種データ等が記憶され、必要に応じてコンテンツ再生装置1から各種データが送信される。サーバ3は、例えばコンテンツ再生装置1の備える機能のうち、少なくとも一部の機能を備えてもよく、例えばコンテンツ再生装置1の代わりに少なくとも一部の処理を行ってもよい。サーバ3は、例えばコンテンツ再生装置1の保存部104に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部104の代わりに用いられてもよい。
通信網4は、例えばコンテンツ再生装置1が通信回路を介して接続されるインターネット網等である。通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網4は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。
次に、第1実施形態における学習方法の一例について説明する。図7(a)は、本実施形態における学習方法の一例を示すフローチャートである。
取得ステップS110は、画像データと、特徴点データ(後工程用特徴点データ)とを取得する。取得ステップS110は、例えば学習用の人の顔を含む画像データと、画像データを用いて生成された関連データを有する後工程用特徴点データとを取得してもよい。取得ステップS110では、例えば取得部11が、上述した各データを取得する。取得部11は、例えば端末2等から画像データ、及び後工程用特徴点データを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。
次に、後工程用データベース生成ステップS120は、一対の画像データと、後工程用特徴点データとを学習データ(後工程用学習データ)とした機械学習により、後工程用データベースを生成する。例えば、後工程用データベース生成部16bは、公知の機械学習により、後工程用データベースを生成する。後工程用データベース生成部16bは、例えば記憶部15を介して、生成した後工程用データベースを保存部104に保存する。なお、生成された後工程用データベースは、例えばサーバ3や他のコンテンツ再生装置1に、後工程用データベースを送信されてもよい。後工程用学習データは、一対の画像データと後工程用特徴点データとのデータを複数(例えば1000程度)含ませてもよい。
次に、前工程用データベース生成ステップS220は、一組の過去のテキストデータと、音声データと、前工程用特徴点データとを学習データ(前工程用学習データ)とした機械学習により、前工程用データベースを生成する。例えば、前工程用データベース生成部16aは、公知の機械学習により、前工程用データベースを生成する。前工程用データベース生成部16aは、例えば記憶部15を介して、生成した前工程用データベースを保存部104に保存する。なお、生成された前工程用データベースは、例えばサーバ3や他のコンテンツ再生装置1に、前工程用データベースを送信されてもよい。前工程用学習データは、一組の過去のテキストデータと、音声データと、前工程用特徴点データとを複数(例えば1000程度)含ませてもよい。
次に、本実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図8は、本実施形態におけるコンテンツ再生システム100の動作の一例を示すフローチャートである。
取得手段S310は、ユーザ等により入力された任意のテキストデータを取得する。取得手段S310では、例えば取得部11が、上述したテキストデータを取得する。取得部11は、例えば端末2等からテキストデータを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。
前工程処理手段S320は、例えば前工程用データベースを参照し、取得手段S310で取得した任意のテキストデータに対応する音声データ(第1音声データ)及び特徴点データ(第1特徴点データ)を取得する。前工程処理手段S320では、例えば前工程処理部12aは、前工程用データベースを参照し、テキストデータに対して連関性の最も高い音声データ、及び特徴点データを、第1音声データ及び第1特徴点データとして取得する。
後工程処理手段S330は、例えば後工程用データベースを参照し、前工程処理手段S320で取得した第1特徴点データに対応する第1画像データを取得する。後工程処理手段S330では、例えば後工程処理部12bは、後工程用データベースを参照し、第1特徴点データに対応する第1画像データを取得する。
生成手段S340は、例えば前工程処理手段S320で取得した第1音声データと後工程処理手段S330で取得した第1画像データとに基づく擬似データを生成する。生成手段S340では、例えば生成部13は、前工程処理部12aで取得した第1音声データと、後工程処理部12bで取得した第1画像データに基づき、擬似データを生成する。生成部13は例えば記憶部15を介して、取得した擬似データを保存部104に保存してもよい。なお、取得したデータは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。
次に、第2実施形態におけるコンテンツ再生システム100、コンテンツ再生装置1、及び学習方法の一例について説明する。上述した実施形態と、本実施形態との違いは、学習データの一部を擬似的に生成する点である。なお、上述した内容と同様の内容については、説明を省略する。
次に、第2実施形態における学習方法の一例について説明する。図10は、本実施形態における後工程用データベースを生成する学習方法の一例を示すフローチャートである。
関連データ取得ステップS410は、例えば人の顔を含む画像データを取得し、取得した画像データを用いて生成された関連データを取得する。関連データ取得ステップS410では、例えば取得部11は、関連データを特徴点データとして取得する。なお、関連データ取得ステップS410では、例えば予め生成された過去の画像データ及び過去の特徴点データを取得する動作のほか、例えば撮影装置により撮像された人の顔を含む画像に基づき生成された画像データを取得する動作、及び画像データを用いて生成された関連データを取得する動作、を実行するコンテンツ再生装置1等の電子機器が用いられてもよい。関連データ取得ステップS410では、例えば取得部11が、上述した各データを取得する。取得部11は、例えば端末2等から画像データを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。
擬似特徴点データ取得ステップS420は、例えば関連データ取得ステップS410で取得した特徴点データの一部を変化させ、擬似特徴点データを複数取得する。擬似特徴点データ取得ステップS420では、例えば取得部11が、上述した各データを取得する。取得部11は、例えば端末2等から特徴点データを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。
擬似画像データ取得ステップS430は、例えば一対の予め取得された過去の画像データと、過去の特徴点データと、を準備用学習データとして、複数の準備用学習データを用いた機械学習により生成された画像生成用モデルを参照し、特徴点データ又は擬似特徴点データに基づき擬似画像データを取得する。擬似画像データ取得ステップS430では、例えば取得部11が、上述した各データを取得する。取得部11は、例えば端末2等から擬似特徴点データ等を取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。
次に、後工程用データベースを生成する。後工程用データベース生成ステップS440では、例えば一対の取得した擬似画像データを含む画像データと、取得した擬似特徴点データを含む特徴点データとを後工程用学習データとした機械学習により、後工程用データベースを生成する。後工程用データベース生成部16bは、例えば記憶部15を介して、生成した後工程用データベースを保存部104に保存する。なお、生成された後工程用データベースは、例えばサーバ3や他のコンテンツ再生装置1に、後工程用データベースを送信してもよい。後工程用学習データは、一対の擬似画像データと、擬似特徴点データとの学習データを複数(例えば1000程度)含ませてもよい。
音声取得ステップS510は、例えば音声を含める音声データと、特徴点データとを取得する。なお、音声取得ステップS510では、例えば予め生成された音声データ及び特徴点データとして取得する動作のほか、例えば撮影装置により収音された音声データを取得する動作、及び特徴点データを取得する動作、を実行するコンテンツ再生装置1等の電子機器を用いてもよい。また、例えばコンテンツ再生装置1は、テキストデータに基づき生成された音声データを取得してもよい。音声取得ステップS510では、例えば取得部11が、上述した各データを取得する。取得部11は、例えば端末2等から音声データ、及び特徴点データを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。
擬似音声データ取得ステップS520は、例えば一対の予め取得された過去の音声データと、過去の特徴点データと、を音声取得用学習データとして、複数の音声取得用学習データを用いた機械学習により生成された音声取得用モデルを参照し、例えば擬似特徴点データに基づく擬似音声データを取得する。
次に、擬似音声用データベースを生成する。擬似音声用データベース生成ステップS530では、例えば一対の取得した音声データ又は擬似音声データと、取得した特徴点データ又は擬似特徴点データとを擬似音声用学習データとした機械学習により、擬似音声用データベースを生成する。例えば、前工程用データベース生成部16aは、公知の機械学習により、擬似音声用データベースを生成する。前工程用データベース生成部16aは、例えば記憶部15を介して、生成したデータベースを保存部104に保存する。なお、生成された擬似音声用データベースは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。擬似音声用データベースは、一対の音声データ又は擬似音声データと特徴点データ又は擬似特徴点データを複数(例えば1000程度)含ませてもよい。
2 :端末
3 :サーバ
4 :通信網
10 :筐体
11 :取得部
12 :処理部
12a :前工程処理部
12b :後工程処理部
13 :生成部
14 :出力部
15 :記憶部
16 :DB生成部
16a :前工程用データベース生成部
16b :後工程用データベース生成部
100 :コンテンツ再生システム
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部
109 :表示部
110 :内部バス
S110 :取得ステップ
S120 :後工程用データベース生成ステップ
S210 :取得ステップ
S220 :前工程用データベース生成ステップ
S310 :取得手段
S320 :前工程処理手段
S330 :後工程処理手段
S340 :生成手段
S410 :関連データ取得ステップ
S420 :擬似特徴点データ取得ステップ
S430 :擬似画像データ取得ステップ
S440 :後工程用データベース生成ステップ
S510 :音声取得ステップ
S520 :擬似音声データ取得ステップ
S530 :擬似音声用データベース生成ステップ
Claims (19)
- 入力されたテキストデータに対し、音声及び画像を含む擬似データを生成するために用いられるデータベースを生成する学習方法であって、
人の顔を含む画像データと、前記人の顔に基づく点群を含む特徴点データと、を取得する取得ステップと、
一対の前記画像データと、前記特徴点データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により、前記特徴点データに対応する前記画像データを取得するための後工程用データベースを生成する後工程用データベース生成ステップと、
を備え、
前記特徴点データは、前記画像データを用いて生成された関連データを有し、
前記取得ステップは、取得した前記画像データに基づき抽出された前記点群を含む前記関連データを取得する関連データ取得ステップを含むこと
を特徴とする学習方法。 - 入力されたテキストデータに対し、音声及び画像を含む擬似データを生成するために用いられるデータベースを生成する学習方法であって、
人の顔を含む画像データと、前記人の顔に基づく点群を含む特徴点データと、を取得する取得ステップと、
一対の前記画像データと、前記特徴点データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により、前記特徴点データに対応する前記画像データを取得するための後工程用データベースを生成する後工程用データベース生成ステップと、
を備え、
前記取得ステップは、取得した前記特徴点データの一部を変化させ、前記点群を含む擬似特徴点データを複数生成し、前記特徴点データとして取得する擬似特徴点データ取得ステップを含むこと
を特徴とする学習方法。 - 入力されたテキストデータに対し、音声及び画像を含む擬似データを生成するために用いられるデータベースを生成する学習方法であって、
人の顔を含む画像データと、前記人の顔に基づく点群を含む特徴点データと、を取得する取得ステップと、
一対の前記画像データと、前記特徴点データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により、前記特徴点データに対応する前記画像データを取得するための後工程用データベースを生成する後工程用データベース生成ステップと、
を備え、
前記取得ステップは、音声データを取得する音声取得ステップを含み、
一対の前記音声データと、前記特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により擬似音声用データベースを生成する擬似音声用データベース生成ステップをさらに備えること
を特徴とする学習方法。 - 前記取得ステップは、過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、前記点群を含む前工程用特徴点データとを取得することを含み、
一組の前記過去のテキストデータと、前記音声データと、前記前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により、前記テキストデータに対応する前記音声データと前記前工程用特徴点データとを取得するための前工程用データベースを生成する前工程用データベース生成ステップをさらに備えること
を特徴とする請求項1〜3の何れか1項記載の学習方法。 - 前記取得ステップは、取得した前記特徴点データの一部を変化させ、前記点群を含む擬似特徴点データを複数生成し、前記特徴点データとして取得する擬似特徴点データ取得ステップを含むこと
を特徴とする請求項1記載の学習方法。 - 前記画像データは、前記特徴点データ又は前記擬似特徴点データを用いて生成された擬似画像データを有し、
一対の予め取得された過去の画像データと、過去の特徴点データと、を準備用学習データとして、複数の前記準備用学習データを用いた機械学習により生成された画像生成用モデルを参照し、前記特徴点データ又は前記擬似特徴点データに基づき擬似画像データを生成する擬似画像データ取得ステップを含むこと
を特徴とする請求項2又は5記載の学習方法。 - 前記取得ステップは、音声データを取得する音声取得ステップを含み、
一対の前記音声データと、前記特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により擬似音声用データベースを生成する擬似音声用データベース生成ステップをさらに備えること
を特徴とする請求項1記載の学習方法。 - 前記音声データは、前記特徴点データを用いて生成された擬似音声データを有し、
前記取得ステップは、一対の予め取得された過去の音声データと、過去の特徴点データと、を音声取得用学習データとして、複数の前記音声取得用学習データを用いた機械学習により生成された音声取得用モデルを参照し、前記特徴点データに基づく擬似音声データを取得する擬似音声データ取得ステップを含むこと、
を特徴とする請求項7記載の学習方法。 - 前記特徴点データは、前記音声データを用いて生成された擬似特徴点データを有し、
前記取得ステップは、一対の予め取得された過去の音声データと、過去の特徴点データと、を音声取得用学習データとして、複数の前記音声取得用学習データを用いた機械学習により生成された音声取得用モデルを参照し、前記音声データに基づく擬似特徴点データを取得する擬似特徴点データ取得ステップを含めること、
を特徴とする請求項7記載の学習方法。 - 前記擬似画像データ取得ステップは、
1つの新たな前記特徴点データ又は1つの新たな前記擬似特徴点データに対して、複数の前記擬似画像データを取得すること
を特徴とする請求項6記載の学習方法。 - 前記擬似音声データ取得ステップは、
1つの新たな前記特徴点データに対して、複数の前記擬似音声データを取得すること
を特徴とする請求項8記載の学習方法。 - 前記擬似特徴点データ取得ステップは、
1つの新たな音声データに対して、複数の前記擬似特徴点データを取得すること
を特徴とする請求項9記載の学習方法。 - 請求項4の学習方法により生成された前記前工程用データベース及び前記後工程用データベースを参照し、前記音声及び前記画像を含む前記擬似データを出力するコンテンツ再生装置であって、
テキストデータを取得する取得部と、
前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データと、前記点群を含む第1特徴点データと、を取得する前工程処理部と、
前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、
前記第1画像データと、前記第1音声データとに基づき生成された擬似データを出力する出力部と、
を備えることを特徴とするコンテンツ再生装置。 - 音声及び画像を含む擬似データを生成するためのコンテンツ再生装置であって、
テキストデータを取得する取得部と、
一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、
前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理部と、
一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、
前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、
前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成部と、
を備え、
前記後工程用特徴点データは、前記画像データに基づき抽出された前記点群を含む関連データを有すること
を特徴とするコンテンツ再生装置。 - 音声及び画像を含む擬似データを生成するためのコンテンツ再生装置であって、
テキストデータを取得する取得部と、
一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、
前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理部と、
一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、
前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、
前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成部と、
を備え、
前記後工程用特徴点データは、前記後工程用特徴点データの一部を変化させ、複数生成した前記点群を含む擬似特徴点データを有すること
を特徴とするコンテンツ再生装置。 - 音声及び画像を含む擬似データを生成するためのコンテンツ再生装置であって、
テキストデータを取得する取得部と、
一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、
前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理部と、
一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、
前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、
前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成部と、
一対の前記音声データと、前記後工程用特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により構成された擬似音声用データベースと、
を備えることを特徴とするコンテンツ再生装置。 - 音声及び画像を含む擬似データを生成するためのコンテンツ再生システムであって、
テキストデータを取得する取得手段と、
一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、
前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理手段と、
一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、
前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理手段と、
前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成手段と、
を備え、
前記後工程用特徴点データは、前記画像データに基づき抽出された前記点群を含む関連データを有すること
を特徴とするコンテンツ再生システム。 - 音声及び画像を含む擬似データを生成するためのコンテンツ再生システムであって、
テキストデータを取得する取得手段と、
一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、
前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理手段と、
一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、
前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理手段と、
前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成手段と、
を備え、
前記後工程用特徴点データは、前記後工程用特徴点データの一部を変化させ、複数生成した前記点群を含む擬似特徴点データを有すること
を特徴とするコンテンツ再生システム。 - 音声及び画像を含む擬似データを生成するためのコンテンツ再生システムであって、
テキストデータを取得する取得手段と、
一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、
前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理手段と、
一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、
前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理手段と、
前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成手段と、
一対の前記音声データと、前記後工程用特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により構成された擬似音声用データベースと、
を備えることを特徴とするコンテンツ再生システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020107660A JP6843409B1 (ja) | 2020-06-23 | 2020-06-23 | 学習方法、コンテンツ再生装置、及びコンテンツ再生システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020107660A JP6843409B1 (ja) | 2020-06-23 | 2020-06-23 | 学習方法、コンテンツ再生装置、及びコンテンツ再生システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6843409B1 true JP6843409B1 (ja) | 2021-03-17 |
JP2022003447A JP2022003447A (ja) | 2022-01-11 |
Family
ID=74860752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020107660A Active JP6843409B1 (ja) | 2020-06-23 | 2020-06-23 | 学習方法、コンテンツ再生装置、及びコンテンツ再生システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6843409B1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115155058A (zh) * | 2022-09-06 | 2022-10-11 | 北京澜舟科技有限公司 | 一种捏脸方法、捏脸系统及存储介质 |
WO2023032224A1 (ja) * | 2021-09-06 | 2023-03-09 | 日本電信電話株式会社 | 画像処理装置、学習装置、画像処理方法、学習方法、画像処理プログラム及び学習プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000011200A (ja) * | 1998-06-19 | 2000-01-14 | Nippon Hoso Kyokai <Nhk> | Cg制御装置 |
US9613450B2 (en) * | 2011-05-03 | 2017-04-04 | Microsoft Technology Licensing, Llc | Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech |
JP3173022U (ja) * | 2011-11-01 | 2012-01-19 | サイバークローン株式会社 | 音声合成を伴う動く画像システム |
GB2510201B (en) * | 2013-01-29 | 2017-05-03 | Toshiba Res Europe Ltd | A computer generated head |
GB2517212B (en) * | 2013-08-16 | 2018-04-25 | Toshiba Res Europe Limited | A Computer Generated Emulation of a subject |
JP6665446B2 (ja) * | 2015-08-21 | 2020-03-13 | ヤマハ株式会社 | 情報処理装置、プログラム及び音声合成方法 |
TW202009924A (zh) * | 2018-08-16 | 2020-03-01 | 國立臺灣科技大學 | 音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體 |
-
2020
- 2020-06-23 JP JP2020107660A patent/JP6843409B1/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023032224A1 (ja) * | 2021-09-06 | 2023-03-09 | 日本電信電話株式会社 | 画像処理装置、学習装置、画像処理方法、学習方法、画像処理プログラム及び学習プログラム |
CN115155058A (zh) * | 2022-09-06 | 2022-10-11 | 北京澜舟科技有限公司 | 一种捏脸方法、捏脸系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2022003447A (ja) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022116977A1 (zh) | 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品 | |
WO2021103698A1 (zh) | 换脸方法、装置、电子设备及存储介质 | |
JP6019108B2 (ja) | 文字に基づく映像生成 | |
US20160134840A1 (en) | Avatar-Mediated Telepresence Systems with Enhanced Filtering | |
JP2014519082A5 (ja) | ||
EP3982362B1 (en) | Audio processing method, apparatus, computer device, and storage medium | |
CN110931042B (zh) | 同声传译方法、装置、电子设备以及存储介质 | |
US10713471B2 (en) | System and method for simulating facial expression of virtual facial model | |
KR20210040882A (ko) | 동영상을 생성하기 위한 방법 및 장치 | |
Steinmetz et al. | Multimedia fundamentals, Volume 1: Media coding and content processing | |
JP6843409B1 (ja) | 学習方法、コンテンツ再生装置、及びコンテンツ再生システム | |
CN115049016B (zh) | 基于情绪识别的模型驱动方法及设备 | |
JP2018001403A (ja) | 音声と仮想動作を同期させる方法、システムとロボット本体 | |
JP2021521704A (ja) | 遠隔会議システム、遠隔会議のための方法、およびコンピュータ・プログラム | |
EP3987447A1 (en) | Anonymization | |
CN110728971B (zh) | 一种音视频合成方法 | |
WO2024060873A1 (zh) | 动态影像的生成方法和装置 | |
CN113395569A (zh) | 视频生成方法及装置 | |
CN112637692B (zh) | 互动方法、装置、设备 | |
CN115690277A (zh) | 视频生成方法、系统、装置、电子设备和计算机存储介质 | |
WO2021153618A1 (ja) | 情報処理装置、情報処理方法、プログラム及び記憶媒体 | |
JP6930781B1 (ja) | 学習方法、及びコンテンツ再生装置 | |
US12126791B1 (en) | Conversational AI-encoded language for data compression | |
Iqbal et al. | A GPT-based Practical Architecture for Conversational Human Digital Twins. | |
CN118413722B (zh) | 音频驱动视频生成方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200623 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200623 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200624 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6843409 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |