JP6843409B1 - 学習方法、コンテンツ再生装置、及びコンテンツ再生システム - Google Patents

学習方法、コンテンツ再生装置、及びコンテンツ再生システム Download PDF

Info

Publication number
JP6843409B1
JP6843409B1 JP2020107660A JP2020107660A JP6843409B1 JP 6843409 B1 JP6843409 B1 JP 6843409B1 JP 2020107660 A JP2020107660 A JP 2020107660A JP 2020107660 A JP2020107660 A JP 2020107660A JP 6843409 B1 JP6843409 B1 JP 6843409B1
Authority
JP
Japan
Prior art keywords
data
feature point
pseudo
post
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020107660A
Other languages
English (en)
Other versions
JP2022003447A (ja
Inventor
継 河合
継 河合
Original Assignee
クリスタルメソッド株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クリスタルメソッド株式会社 filed Critical クリスタルメソッド株式会社
Priority to JP2020107660A priority Critical patent/JP6843409B1/ja
Application granted granted Critical
Publication of JP6843409B1 publication Critical patent/JP6843409B1/ja
Publication of JP2022003447A publication Critical patent/JP2022003447A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

【課題】擬似データを生成する際の精度向上を図ることができる学習方法、コンテンツ再生装置及びコンテンツ再生システムを提供する。【解決手段】コンテンツ再生システムにおいて、入力されたテキストに対し、音声及び画像を含む擬似データを生成するために用いられるデータベースを生成する学習方法であって、人の顔を含む画像データと、人の顔に基づく点群を含む特徴点データとを取得する取得ステップと、一対の画像データと、特徴点データとを後工程用学習データとして、複数の後工程用学習データを用いた機械学習により後工程用データベースを生成する後工程用データベース生成ステップと、を備える。【選択図】図2

Description

本発明は、学習方法、コンテンツ再生装置、及びコンテンツ再生システムに関する。
従来、任意のテキストを任意の音声に変換し、任意の画像に同期させて出力することができる技術として、例えば特許文献1の表示制御装置が知られている。
上記特許文献1に記載された技術は、聴かせて欲しい人の音声音色を再生することができ、文章文字から変換された発話音声を選択することにより、ユーザーがいつでも聴き慣れた声の音色および音声を聴くことのできる音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体を提供し、上述したボイス再生システムは、さらに、処理装置に接続されたディスプレイを含む。処理装置は、少なくとも1つの本物の顔映像を収集し、この合成ボイス信号に基づいて口唇形状変化データを生成し、1つの本物の顔映像を口唇形状変化データに基づいて合成顔映像に合成するとともに、それぞれディスプレイおよびスピーカーで合成顔映像および合成ボイス信号を同時に再生する技術である。
特開2020−56996号公報
ここで、特許文献1では、本物の顔映像を口唇形状変化データに基づいて、合成顔映像に合成する。このため、合成ボイス信号に対して口唇の動きは連動させることができるが、顔全体の動きを連動させることができず、ユーザーが求める精度との乖離が懸念として挙げられる。従って、合成顔画像等を含む擬似データを生成する際の精度向上が望まれている。
そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、擬似データを生成する際の精度向上を図ることができる学習方法、コンテンツ再生装置、及びコンテンツ再生システムを提供することにある。
第1発明に係る学習方法は、入力されたテキストデータに対し、音声及び画像を含む擬似データを生成するために用いられるデータベースを生成する学習方法であって、人の顔を含む画像データと、前記人の顔に基づく点群を含む特徴点データと、を取得する取得ステップと、一対の前記画像データと、前記特徴点データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により、前記特徴点データに対応する前記画像データを取得するための後工程用データベースを生成する後工程用データベース生成ステップと、を備え、前記特徴点データは、前記画像データを用いて生成された関連データを有し、前記取得ステップは、取得した前記画像データに基づき抽出された前記点群を含む前記関連データを取得する関連データ取得ステップを含むことを特徴とする。
第2発明に係る学習方法は、入力されたテキストデータに対し、音声及び画像を含む擬似データを生成するために用いられるデータベースを生成する学習方法であって、人の顔を含む画像データと、前記人の顔に基づく点群を含む特徴点データと、を取得する取得ステップと、一対の前記画像データと、前記特徴点データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により、前記特徴点データに対応する前記画像データを取得するための後工程用データベースを生成する後工程用データベース生成ステップと、を備え、前記取得ステップは、取得した前記特徴点データの一部を変化させ、前記点群を含む擬似特徴点データを複数生成し、前記特徴点データとして取得する擬似特徴点データ取得ステップを含むことを特徴とする。
第3発明に係る学習方法は、入力されたテキストデータに対し、音声及び画像を含む擬似データを生成するために用いられるデータベースを生成する学習方法であって、人の顔を含む画像データと、前記人の顔に基づく点群を含む特徴点データと、を取得する取得ステップと、一対の前記画像データと、前記特徴点データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により、前記特徴点データに対応する前記画像データを取得するための後工程用データベースを生成する後工程用データベース生成ステップと、を備え、前記取得ステップは、音声データを取得する音声取得ステップを含み、一対の前記音声データと、前記特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により擬似音声用データベースを生成する擬似音声用データベース生成ステップをさらに備えることを特徴とする。
第4発明に係る学習方法は、第1発明〜第3発明のいずれかにおいて、前記取得ステップは、過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、前記点群を含む前工程用特徴点データとを取得することを含み、一組の前記過去のテキストデータと、前記音声データと、前記前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により、前記テキストデータに対応する前記音声データと前記前工程用特徴点データとを取得するための前工程用データベースを生成する前工程用データベース生成ステップをさらに備えることを特徴とする。
第5発明に係る学習方法は、第発明において、前記取得ステップは、取得した前記特徴点データの一部を変化させ、前記点群を含む擬似特徴点データを複数生成し、前記特徴点データとして取得する擬似特徴点データ取得ステップを含むことを特徴とする。
第6発明に係る学習方法は、第発明又は第発明において、前記画像データは、前記特徴点データ又は前記擬似特徴点データを用いて生成された擬似画像データを有し、一対の予め取得された過去の画像データと、過去の特徴点データと、を準備用学習データとして、複数の前記準備用学習データを用いた機械学習により生成された画像生成用モデルを参照し、前記特徴点データ又は前記擬似特徴点データに基づき擬似画像データを生成する擬似画像データ取得ステップを含むことを特徴とする。
第7発明に係る学習方法は、第発明において、前記取得ステップは、音声データを取得する音声取得ステップを含み、一対の前記音声データと、前記特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により擬似音声用データベースを生成する擬似音声用データベース生成ステップをさらに備えることを特徴とする。
第8発明に係る学習方法は、第発明において、前記音声データは、前記特徴点データを用いて生成された擬似音声データを有し、前記取得ステップは、一対の予め取得された過去の音声データと、過去の特徴点データと、を音声取得用学習データとして、複数の前記音声取得用学習データを用いた機械学習により生成された音声取得用モデルを参照し、前記特徴点データに基づく擬似音声データを取得する擬似音声データ取得ステップを含むことを特徴とする。
第9発明に係る学習方法は、第発明において、前記特徴点データは、前記音声データを用いて生成された擬似特徴点データを有し、前記取得ステップは、一対の予め取得された過去の音声データと、過去の特徴点データと、を音声取得用学習データとして、複数の前記音声取得用学習データを用いた機械学習により生成された音声取得用モデルを参照し、前記音声データに基づく擬似特徴点データを取得する擬似特徴点データ取得ステップを含めることを特徴とする。
第10発明に係る学習方法は、第発明において、前記擬似画像データ取得ステップは、1つの新たな前記特徴点データ又は1つの新たな前記擬似特徴点データに対して、複数の前記擬似画像データを取得することを特徴とする。
第11発明に係る学習方法は、第8発明において、前記擬似音声データ取得ステップは、1つの新たな前記特徴点データに対して、複数の前記擬似音声データを取得することを特徴とする。
第12発明に係る学習方法は、第発明において、前記擬似特徴点データ取得ステップは、1つの新たな音声データに対して、複数の前記擬似特徴点データを取得することを特徴とする。
第13明に係るコンテンツ再生装置は、第4発明の学習方法により生成された前記前工程用データベース及び前記後工程用データベースを参照し、前記音声及び前記画像を含む前記擬似データを出力するコンテンツ再生装置であって、テキストデータを取得する取得部と、前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データと、前記点群を含む第1特徴点データと、を取得する前工程処理部と、前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、前記第1画像データと、前記第1音声データとに基づき生成された擬似データを出力する出力部と、を備えることを特徴とする。
第14発明に係るコンテンツ再生装置は、音声及び画像を含む擬似データを生成するためのコンテンツ再生装置であって、テキストデータを取得する取得部と、一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理部と、一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成部と、を備え、前記後工程用特徴点データは、前記画像データに基づき抽出された前記点群を含む関連データを有することを特徴とする。
第15発明に係るコンテンツ再生装置は、音声及び画像を含む擬似データを生成するためのコンテンツ再生装置であって、テキストデータを取得する取得部と、一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理部と、一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成部と、を備え、前記後工程用特徴点データは、前記後工程用特徴点データの一部を変化させ、複数生成した前記点群を含む擬似特徴点データを有することを特徴とする。
第16発明に係るコンテンツ再生装置は、音声及び画像を含む擬似データを生成するためのコンテンツ再生装置であって、テキストデータを取得する取得部と、一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理部と、一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成部と、一対の前記音声データと、前記後工程用特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により構成された擬似音声用データベースと、を備えることを特徴とする。
第17発明に係るコンテンツ再生システムは、音声及び画像を含む擬似データを生成するためのコンテンツ再生システムであって、テキストデータを取得する取得手段と、一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理手段と、一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理手段と、前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成手段と、を備え、前記後工程用特徴点データは、前記画像データに基づき抽出された前記点群を含む関連データを有することを特徴とする。
第18発明に係るコンテンツ再生システムは、音声及び画像を含む擬似データを生成するためのコンテンツ再生システムであって、テキストデータを取得する取得手段と、一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理手段と、一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理手段と、前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成手段と、を備え、前記後工程用特徴点データは、前記後工程用特徴点データの一部を変化させ、複数生成した前記点群を含む擬似特徴点データを有することを特徴とする。
第19発明に係るコンテンツ再生システムは、音声及び画像を含む擬似データを生成するためのコンテンツ再生システムであって、テキストデータを取得する取得手段と、一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理手段と、一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理手段と、前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成手段と、一対の前記音声データと、前記後工程用特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により構成された擬似音声用データベースと、を備えることを特徴とする。
第1発明〜第1発明によれば、後工程用データベース生成ステップは、一対の人の顔を含む画像データと、人の顔に基づく点群を含む特徴点データと、を後工程用学習データとして、複数の後工程用学習データを用いた機械学習により後工程用データベースを生成する。このため、生成された後工程用データベースを用いて擬似データを生成する際、点群に基づく顔全体の動きを、テキストに連動させることができる。これにより、擬似データを生成する際の精度向上を図ることが可能となる。
特に、第発明によれば、前工程用データベース生成ステップは、一組の過去のテキストデータと、過去のテキストデータに紐づけられた音声データと、点群を含む前処理用特徴点データとを前工程用学習データとして、複数の前工程用学習データを用いた機械学習により前工程用データベースを生成する。すなわち、生成された前工程用データベースを参照し、任意のテキストデータに対応する音声データ、及び特徴点データを取得することができる。また、後工程用データベースを参照し、取得した特徴点データに対応する画像データを取得でき、各データベースを参照して取得した音声データ及び画像データに基づき、擬似データを生成することができる。このため、前工程用データベース及び後工程用データベースを用いることで、入力データとしてテキストデータのみから擬似データを生成することができる。これにより、擬似データを生成するために必要なデータ種類を最小限に抑えることができる。従って、ユーザ等がデータを準備するための負担を軽減することが可能となる。
特に、第発明によれば、擬似特徴点データ取得ステップは、取得した特徴点データの一部を変化させ、点群を含む擬似特徴点データを複数生成し、特徴点データとして取得する。すなわち、後工程用学習データとして用いられる特徴点データが少ない場合においても、擬似特徴点データを後工程用学習データとして用いることができる。このため、機械学習に用いられる後工程用学習データを容易に取得することができる。これにより、少ない学習データでさらなる精度の向上を実現することが可能となる。
特に、第発明によれば、擬似画像データ取得ステップは、特徴点データ又は擬似特徴点データに基づき擬似画像データを生成する。すなわち、後工程用学習データとして用いられる画像データが少ない場合においても、擬似画像データを後工程用学習データとして用いることができる。このため、機械学習に用いられる後工程用学習データを容易に取得することができる。これにより、少ない学習データでさらなる精度の向上を実現することが可能となる。
特に、第発明によれば、擬似音声データ取得ステップは、特徴点データに基づく擬似音声データを生成する。すなわち、擬似音声用学習データとして用いられる音声データが少ない場合においても、特徴点データに基づき生成された擬似音声データを、擬似音声用学習データとして用いることができる。このため、機械学習に用いられる特徴点データに紐づけられた擬似音声データを、擬似音声用学習データとして容易に取得することができる。これにより、少ない学習データでさらなる精度の向上を実現することが可能となる。
特に、第発明によれば、擬似特徴点データ取得ステップは、人の音声データから擬似特徴点データを生成する。すなわち、擬似音声用学習データとして用いられる特徴点データが少ない場合においても、音声データから生成された擬似特徴点データを擬似音声用学習データとして用いることができる。このため、機械学習に用いられる音声データに紐つけられた特徴点データを擬似音声用学習データを容易に取得することができる。これにより、少ない学習データでさらなる精度の向上を実現することが可能となる。
第14〜16発明によれば、後工程処理部は、後工程用データベースを参照し、第1特徴点データに対応する第1画像データを取得する。また、生成部は、第1音声データ、及び第1画像データに基づき、音声及び画像を含む擬似データを生成する。このため、擬似データを生成する際、点群に基づく顔全体の動きを、テキストに連動させることができる。これにより、擬似データを生成する際の精度向上を図ることが可能となる。
第17〜19発明によれば、後工程処理手段は、後工程用データベースを参照し、第1特徴点データに対応する第1画像データを取得する。また、生成手段は、第1音声データ、及び第1画像データに基づき、音声及び画像を含む擬似データを生成する。このため、擬似データを生成する際、点群に基づく顔全体の動きを、テキストに連動させることができる。これにより、擬似データを生成する際の精度向上を図ることが可能となる。
図1は、第1実施形態におけるコンテンツ再生システムの一例を示す模式図である。 図2は、第1実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。 図3(a)及び図3(b)は、学習方法の一例を示す模式図である。 図4は、後工程用データベースの一例を示す模式図である。 図5は、前工程用データベースの一例を示す模式図である。 図6(a)は、第1実施形態におけるコンテンツ再生装置の構成の一例を示す模式図であり、図6(b)は、第1実施形態におけるコンテンツ再生装置の機能の一例を示す模式図であり、図6(c)は、処理部の一例を示す模式図であり、図6(d)は、DB生成部の一例を示す模式図である。 図7(a)及び図7(b)は、第1実施形態における学習方法の一例を示すフローチャートである。 図8は、第1実施形態におけるコンテンツ再生システムの動作の一例を示すフローチャートである。 図9(a)及び図9(b)は、第2実施形態における学習方法の一例を示す模式図である。 図10は、第2実施形態における学習方法の一例を示すフローチャートである。 図11は、第2実施形態における学習方法の他の例を示すフローチャートである。
以下、本発明を適用した実施形態における学習方法、コンテンツ再生装置及びコンテンツ再生システムの一例について、図面を参照しながら説明する。
(第1実施形態)
図1〜図3を参照して、第1実施形態におけるコンテンツ再生システム100、コンテンツ再生装置1、及び学習方法の一例について説明する。図1は、本実施形態におけるコンテンツ再生システム100の一例を示す模式図である。図2は、本実施形態におけるコンテンツ再生システム100の動作の一例を示す模式図である。図3(a)及び図3(b)は、本実施形態における学習方法の一例を示す模式図である。
<コンテンツ再生システム100>
コンテンツ再生システム100は、音声及び画像を含む擬似データを生成するために用いられる。コンテンツ再生システム100は、例えば学習データを用いた機械学習により生成されたデータベースを参照し、入力されたテキストに対し、音声及び画像を含む擬似データを生成する。
コンテンツ再生システム100は、例えば図1に示すように、コンテンツ再生装置1を備える。コンテンツ再生システム100は、例えば端末2及びサーバ3の少なくとも何れかを備えてもよい。コンテンツ再生装置1は、例えば通信網4を介して端末2やサーバ3と接続される。
コンテンツ再生システム100では、例えば図2に示すように、コンテンツ再生装置1が任意のテキストデータを取得する。コンテンツ再生装置1は、前工程用データベースを参照し、任意のテキストデータに対応する音声データ(第1音声データ)と、人の顔に基づく点群で構成された特徴点データ(第1特徴点データ)とを取得する。その後、コンテンツ再生装置1は、後工程用データベースを参照し、第1特徴点データに対応する画像データ(第1画像データ)を取得する。そして、コンテンツ再生装置1は、取得した第1音声データ、及び第1画像データに基づき、音声及び画像を含む擬似データを生成する。これにより、コンテンツ再生システム100では、生成された擬似データ出力することで、入力されたテキスト(テキストデータ)に最適な音声と画像とを同期再生させることができる。
前工程用データベースは、機械学習により生成される。前工程用データベースとして、例えば一組の予め取得された過去のテキストデータと、過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む特徴点データ(前工程用特徴点データ)とを学習データ(前工程用学習データ)として、複数の学習データを用いた機械学習により構築された学習済みモデルが用いられる。
なお、例えば一組の過去の音声データと、過去の音声データから生成されたテキストデータと、過去の特徴点データとを前工程用学習データとしてもよい。この場合、過去の音声データからテキストデータを生成する方法として、公知の技術が用いられる。
後工程用データベースは、機械学習により生成される。後工程用データベースとして、例えば一対の予め取得された過去の特徴点データ(後工程用特徴点データ)と、人の顔全体を撮像した画像データとを学習データ(後工程用学習データ)として、複数の学習データを用いた機械学習により構築された学習済みモデルが用いられる。
テキストデータは、文字など文字コードによって表されるデータである。テキストデータは例えば、モニタやプリンタなどの機器を制御するためのデータである制御文字を含む。制御文字は例えば、改行を表す改行文字やタブ(水平タブ)などが含まれる。
テキストデータは、コンテンツ再生システム100によって出力される音声に関する内容を示す。テキストデータは、例えばコンテンツ再生装置1等を介して、ユーザ等により入力される。なお、過去のテキストデータは、上記テキストデータと同種のデータ形式を示す。
音声データは、音声を符号化したものである。音声の符号化には例えば、量子化ビット数とサンプリング周波数と時間とで定まる長さのビット列として表されるパルス符号変調(PCM)方式に基づくものと、音声の波の疎密を1bitで表現して一定の間隔で標本化するパルス密度変調(PDM)方式に基づくものなどがある。
音声データは、コンテンツ再生システム100によって出力される音声を生成する際に用いられるデータを示す。音声データとして、例えば擬似データを生成する際、そのまま音声として利用できるデータ形式が用いられてもよい。音声データは、例えば公知の収音装置等を用いて収音された音声のデータを示すほか、例えば公知の技術で生成された擬似的な音声を示してもよい。なお、過去の音声データは、上記音声データと同種のデータ形式を示す。
特徴点データは、画像データを取得する際に用いられる。特徴点データは、人の顔に基づく点群を含む。点群は、人の顔全体に対する3次元構造の特徴を示し、例えばSIFT(Scale-Invariant Feature Transform)による画像解析又は3Dカメラ等の公知の撮像装置や処理技術によって取得することができる。
なお、「顔全体」とは、例えば口、鼻、及び目を含む領域を示し、例えば耳、額、顎、及び頬の少なくとも何れかを含む領域を示してもよい。特に、特徴点データが、口、鼻、目、顎、及び頬を含む領域に基づく点群を含む場合、コンテンツ再生システム100によって出力される音声に対し、画像の動きを高精度に同期させることが可能となる。
なお、過去の特徴点データ、前工程用特徴点データ、及び後工程用特徴点データは、上記特徴点データと同種のデータ形式を示す。また、上述した各データベースの生成に用いられる各特徴点データ(前工程用特徴点データ、及び後工程用特徴点データ)として、例えば同一のデータが少なくとも一部用いられてもよいほか、例えば全く異なるデータが用いられてもよい。
特徴点データは、例えば顔の構造に基づく曲率情報や、位置情報を含んでもよい。この場合、コンテンツ再生システム100によって出力される画像の表現パターンを増大させることができる。これにより、音声に対して画像を同期させる精度をさらに向上させることが可能となる。なお、曲率情報、及び位置情報は、公知の撮像装置や処理技術によって取得してもよい。
コンテンツ再生システム100では、特徴点データを用いて画像データを取得することで、テキストに対応する擬似データの精度を向上させることが可能となる。
画像データは、コンテンツ再生システム100によって出力される擬似データを生成する際に用いられる。画像データとして、例えば擬似データを生成する際、そのまま画像として利用できるデータ形式が用いられてもよい。画像データは、例えば公知の撮像装置等を用いて撮像された人を含む画像のデータを示すほか、例えば公知の技術で生成された擬似的な画像を示してもよい。
擬似データは、音声及び画像を含み、コンテンツ再生システム100によって取得されたテキストに対応する内容を示す。擬似データは、例えば音声データ、及び画像データに基づき、公知の技術を用いて生成される。擬似データとして、例えば画像に含まれる人が、音声に適した動きを示す動画が用いられる。なお、上述した「人」は、実在する人物のほか、アニメーション等のような、擬似的に生成された人物(キャラクター)でもよい。
<学習方法>
本実施形態における学習方法は、入力されたテキストに対し、音声及び画像を含む擬似データを生成するために用いられるデータベースを生成する際に用いられる。データベースは、例えば前処理用データベースと、後処理用データベースとを含む。
学習方法は、例えば図3(a)に示すように、後工程用データベースを生成する。学習方法は、一対の人の顔を含む画像データと、人の顔に基づく点群を含む特徴点データとを学習データ(後工程用学習データ)として、複数の学習データを用いた機械学習により、後工程用データベースを生成する。
また、学習方法は、例えば図3(b)に示すように、前工程用データベースを生成してもよい。学習方法は、一組のテキストデータと、人の音声を含む音声データと、人の顔に基づく点群を含む特徴点データと、を学習データ(前工程用学習データ)として、複数の学習データを用いた機械学習により前工程用データベースを生成してもよい。
学習方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、前工程用データベース及び後工程用データベースを生成する。前工程用データベース及び後工程用データベースは、例えばCNN(Convolution Neural Network) 等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。
後工程用データベースには、例えば画像データと特徴点データとの間における連関度を有する第1連関性が記憶される。連関度は、画像データと特徴点データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
例えば連関性は、多対多の情報(複数の画像データ、対、複数の特徴点データ)の間における繋がりの度合いにより構築される。連関性は、機械学習の過程で適宜更新され、例えば複数の画像データ、及び複数の特徴点データに基づいて最適化された関数(分類器)を示す。なお、連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。
このため、コンテンツ再生システム100では、例えば分類器の判定した結果を全て踏まえた連関性を用いて、特徴点データに適した画像データを選択する。これにより、特徴点データが、画像データと同一又は類似である場合のほか、非類似である場合においても、特徴点データに適した画像データを定量的に選択することができる。
連関性は、例えば図4に示すように、複数の画像データと、複数の特徴点データとの間における繋がりの度合いを示してもよい。この場合、連関性を用いることで、複数の画像データ(図4では「画像A」〜「画像C」)のそれぞれに対し、複数の特徴点データ(図4では「特徴点A」〜「特徴点C」)の関係の度合いを紐づけて記憶させることができる。このため、例えば連関性を介して、1つの画像データに対して、複数の特徴点データを紐づけることができる。これにより、特徴点データに対して多角的な画像データの選択を実現することができる。
連関性は、例えば各画像データと、各特徴点データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、画像データに含まれる「画像A」は、特徴点データに含まれる「特徴点A」との間の連関度AA「73%」を示し、特徴点データに含まれる「特徴点B」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。
前工程用データベースには、例えば過去のテキストデータと、音声データ及び特徴点データの組合せとの間における連関度を有する第2連関性が記憶される。連関度は、過去のテキストデータと、音声データ及び特徴点データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。
例えば連関性は、多対多の情報(複数の過去のテキストデータ、対、複数の音声データ及び特徴点データの組合せ)の間における繋がりの度合いにより構築される。連関性は、機械学習の過程で適宜更新され、例えば複数の過去のテキストデータと、複数の音声データ及び特徴点データの組合せに基づいて最適化された関数(分類器)を示す。なお、連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。
このため、コンテンツ再生システム100では、例えば分類器の判定した結果を全て踏まえた連関性を用いて、任意のテキストデータに適した音声データ及び特徴点データの組合せを選択する。これにより、音声データ及び特徴点データの組合せが、任意のテキストデータと同一又は類似である場合のほか、非類似である場合においても、任意のテキストデータに適した音声データ及び特徴点データの組合せを定量的に選択することができる。
連関性は、例えば図5に示すように、複数のテキストデータ(過去のテキストデータ)と、複数の音声データ及び複数の特徴点データと、の間における繋がりの度合いを示してもよい。この場合、連関性を用いることで、複数のテキストデータ(図5では「テキストA」〜「テキストC」)のそれぞれに対し、複数の音声データ及び特徴点データ(図5では「音声A+特徴点A」〜「音声C+特徴点C」)の関係の度合いを紐づけて記憶させることができる。このため、例えば連関性を介して、1つのテキストデータに対して、複数の音声データ及び特徴点データを紐づけることができる。これにより、任意のテキストデータに対して多角的な音声データ及び特徴点データの選択や評価を実現することができる。
連関性は、各テキストデータと、各音声データ及び特徴点データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、テキストデータに含まれる「テキストA」は、音声データ及び特徴点データに含まれる「音声A+特徴点A」との間の連関度AA「73%」を示し、音声データ及び特徴点データに含まれる「音声B+特徴点B」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。
<コンテンツ再生装置1>
次に、図6を参照して、本実施形態におけるコンテンツ再生装置1の一例を説明する。図6(a)は、本実施形態におけるコンテンツ再生装置1の構成の一例を示す模式図であり、図6(b)は、本実施形態におけるコンテンツ再生装置1の機能の一例を示す模式図である。
コンテンツ再生装置1として、例えばラップトップ(ノート)PC又はデスクトップPC等の電子機器が用いられる。コンテンツ再生装置1は、例えば図6(a)に示すように、筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105〜107とを備える。各構成101〜107は、内部バス110により接続される。
CPU101は、コンテンツ再生装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、データベースや学習対象データ等の各種情報が記憶される。保存部104として、例えばHDD(Hard Disk Drive)のほか、SSD(Solid State Drive)等のデータ保存装置が用いられる。なお、例えばコンテンツ再生装置1は、図示しないGPU(Graphics Processing Unit)を有してもよい。
I/F105は、通信網4を介して、必要に応じて端末2、サーバ3、ウェブサイト等との各種情報の送受信を行うためのインターフェースである。I/F106は、入力部108との情報の送受信を行うためのインターフェースである。入力部108として、例えばキーボードが用いられ、コンテンツ再生装置1の使用者等は、入力部108を介して、各種情報、又はコンテンツ再生装置1の制御コマンド等を入力する。I/F107は、表示部109との各種情報の送受信を行うためのインターフェースである。表示部109は、保存部104に保存された各種情報、又はコンテンツ等を表示する。表示部109として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部108と一体に設けられる。
図6(b)は、コンテンツ再生装置1の機能の一例を示す模式図である。コンテンツ再生装置1は、取得部11と、処理部12と、生成部13と、出力部14と、記憶部15とを備え、例えばDB生成部16を有してもよい。処理部12は、例えば図6(c)に示すように、前工程処理部12aと、後工程処理部12bとを有する。DB生成部16は、例えば図6(d)に示すように、前工程用データベース生成部16aと、後工程用データベース生成部16bとを有する。なお、図6(b)〜図6(d)に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。
<<取得部11>>
取得部11は、テキストデータを取得する。テキストデータは、上述した擬似データを生成する際に用いられる。取得部11は、例えば入力部108から入力されたテキストデータを取得するほか、例えば通信網4を介して、端末2等からテキストデータを取得してもよい。
取得部11は、例えば上述した各種データベースの生成に用いられる学習データを取得してもよい。取得部11は、例えば入力部108から入力された学習データを取得するほか、例えば通信網4を介して、端末2等から学習データを取得してもよい。
例えば前工程用データベースの生成に用いられる学習データ(前工程用学習データ)として、過去のテキストデータ、音声データ、及び特徴点データ(前工程用特徴点データ)が挙げられる。また、例えば後工程用データベースの生成に用いられる学習データ(後工程用学習データ)として、特徴点データ(後工程用特徴点データ)、及び画像データが挙げられる。
<<処理部12>>
処理部12は、例えば前工程用データベース及び後工程用データベースを含むデータベースを参照し、入力データに対応する出力データを取得する。処理部12は、例えば前工程処理部12aと、後工程処理部12bとを有する。
後工程処理部12bは、例えば後工程用データベースを参照し、特徴点データ(第1特徴点データ)に対応する画像データ(第1画像データ)を取得する。後工程処理部12bは、例えば特徴点データを入力データとし、後工程用データベースを参照して演算された出力データを、画像データとして取得する。
後工程処理部12bは、例えば特徴点データに対し、連関性の最も高い画像データを、第1画像データとして選択するほか、例えば予め設定された閾値以上の連関度を有する複数の画像データを、第1画像データとして選択してもよい。
後工程処理部12bは、例えば図4の後工程用データベースを参照した場合、処理部12は、入力された特徴点データと同一又は類似する後工程用特徴点データ(例えば「特徴点A」:第1特徴点データとする)を選択する。選択される後工程用特徴点データとして、入力された特徴点データと一部一致又は完全一致する後工程用特徴点データが選択されるほか、例えば入力された特徴点データと類似する後工程用特徴点データが選択される。なお、選択される類似度の度合い、及び選択される後工程用特徴点データの数については、任意に設定できる。
後工程処理部12bは、前工程処理部12aで取得された特徴点データに紐づく画像データのうち、例えば最も連関度の高い画像データ(例えば「画像A」:第1画像データとする)を選択するほか、例えば閾値(例えば30%)以上の連関度を有する画像データ(例えば「画像A」(連関度AA(73%))、及び「画像C」(連関度AC(33%)))を、第1画像データとして選択してもよい。
前工程処理部12aは、例えば前工程用データベースを参照し、テキストデータに対応する音声データ(第1音声データ)及び特徴点データ(第1特徴点データ)を取得する。前工程処理部12aは、例えばテキストデータを入力データとし、前工程用データベースを参照して演算された出力データを、音声データ及び特徴点データの組合せとして取得する。
前工程処理部12aは、例えばテキストデータに対し、連関性の最も高い音声データ及び特徴点データを、第1音声データ及び第1特徴点データとして選択するほか、例えば予め設定された閾値以上の連関度を有する複数の音声データ及び特徴点データを、第1音声データ及び第1特徴点データとして選択してもよい。
前工程処理部12aは、例えば図5の前工程用データベースを参照した場合、処理部12は、入力されたテキストデータと同一又は類似する過去のテキストデータ(例えば「テキストA」:第1テキストデータとする)を選択する。選択される過去のテキストデータとして、入力されたテキストデータと一部一致又は完全一致する過去のテキストデータが選択されるほか、例えば入力されたテキストデータと類似する過去のテキストデータが選択される。なお、選択される類似度の度合い、及び選択される過去のテキストデータの数については、任意に設定できる。
前工程処理部12aは、選択した第1テキストデータに紐づく音声データ及び特徴点データのうち、例えば最も連関度の高い音声データ及び特徴点データ(例えば「音声A+特徴点A」:第1音声データ及び第1特徴点データとする)を選択するほか、例えば閾値(例えば30%)以上の連関度を有する音声データ及び特徴点データ(例えば「音声A+特徴点A」(連関度AA(73%)))、及び「音声C+特徴点C」(連関度AC(33%))を、第1音声及び第1特徴点データとして選択してもよい。
<<生成部13>>
生成部13は、処理部12の出力データに基づき、少なくとも1つの擬似データを生成する。生成部13は、例えば前工程処理部12aで取得された音声データ(第1音声データ)、及び後工程処理部12bで取得された画像データ(第1画像データ)に基づき、音声及び画像を含む擬似データを生成する。生成部13は、例えば、第1音声データ及び第1画像データに加え、前工程処理部12aで取得された第1特徴点データに基づき、擬似データを生成してもよい。
<<出力部14>>
出力部14は、擬似データを出力する。出力部14は、例えば第1特徴点データに対して選択された第1画像データを出力してもよい。出力部14は、例えば生成部13で生成されたデータを出力してもよい。出力部14は、I/F107を介して表示部109に擬似データを出力するほか、例えばI/F105を介して、端末2等に擬似データを出力する。
<<記憶部15>>
記憶部15は、保存部104に保存されたデータベース等の各種データを必要に応じて取出す。記憶部15は、各構成11〜14、16により取得又は生成された各種データを、必要に応じて保存部104に保存する。
<<DB生成部16>>
DB生成部16は、複数の学習データを用いた機械学習によりデータベースを生成する。機械学習には、例えば上述したニューラルネットワーク等が用いられる。
DB生成部16は、例えば、前工程用データベース生成部16aと、後工程用データベース生成部16bとを有する。
後工程用データベース生成部16bは、例えば一対の特徴点データと、画像データと、を学習データとして、複数の学習データを用いた機械学習により前工程用データベースを生成する。
前工程用データベース生成部16aは、例えば一組のテキストデータと、音声データ及び特徴点データと、を学習データとして、複数の学習データを用いた機械学習により前工程用データベースを生成する。
<端末2>
端末2は、例えばコンテンツ再生システム100を用いたサービスのユーザ等が保有し、通信網4を介してコンテンツ再生装置1と接続される。端末2は、例えばデータベースを生成する電子機器を示してもよい。端末2は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末2は、例えばコンテンツ再生装置1の備える機能のうち、少なくとも一部の機能を備えてもよい。
<サーバ3>
サーバ3は、通信網4を介してコンテンツ再生装置1と接続される。サーバ3は、過去の各種データ等が記憶され、必要に応じてコンテンツ再生装置1から各種データが送信される。サーバ3は、例えばコンテンツ再生装置1の備える機能のうち、少なくとも一部の機能を備えてもよく、例えばコンテンツ再生装置1の代わりに少なくとも一部の処理を行ってもよい。サーバ3は、例えばコンテンツ再生装置1の保存部104に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部104の代わりに用いられてもよい。
<通信網4>
通信網4は、例えばコンテンツ再生装置1が通信回路を介して接続されるインターネット網等である。通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網4は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。
(第1実施形態:学習方法)
次に、第1実施形態における学習方法の一例について説明する。図7(a)は、本実施形態における学習方法の一例を示すフローチャートである。
学習方法は、取得ステップS110と、後工程用データベース生成ステップS120と、を備える。学習方法は、例えば図7(b)に示すように、前工程用データベース生成ステップS220をさらに備えてもよい。
<取得ステップS110>
取得ステップS110は、画像データと、特徴点データ(後工程用特徴点データ)とを取得する。取得ステップS110は、例えば学習用の人の顔を含む画像データと、画像データを用いて生成された関連データを有する後工程用特徴点データとを取得してもよい。取得ステップS110では、例えば取得部11が、上述した各データを取得する。取得部11は、例えば端末2等から画像データ、及び後工程用特徴点データを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。
<後工程用データベース生成ステップS120>
次に、後工程用データベース生成ステップS120は、一対の画像データと、後工程用特徴点データとを学習データ(後工程用学習データ)とした機械学習により、後工程用データベースを生成する。例えば、後工程用データベース生成部16bは、公知の機械学習により、後工程用データベースを生成する。後工程用データベース生成部16bは、例えば記憶部15を介して、生成した後工程用データベースを保存部104に保存する。なお、生成された後工程用データベースは、例えばサーバ3や他のコンテンツ再生装置1に、後工程用データベースを送信されてもよい。後工程用学習データは、一対の画像データと後工程用特徴点データとのデータを複数(例えば1000程度)含ませてもよい。
上述した各ステップを行うことで、本実施形態における学習方法が完了する。
学習方法は、例えば上述した後工程用データベースを生成するほか、前工程用データベースを生成してもよい(前工程用データベース生成ステップS220)。この場合、取得ステップS210は、例えばテキストデータ(過去のテキストデータ)と、過去のテキストデータに紐つけられた音声データと、点群を含める特徴点データ(前工程用特徴点データ)とを取得することを含んでもよい(取得ステップS210)。また、取得ステップS210は音声データから生成されたテキストデータを取得してもよい。取得ステップS210は、画像データ、特徴点データ(前工程用特徴点データ及び後工程用特徴点データ)、過去のテキストデータ、及び音声データのそれぞれを取得するタイミングは、任意である。
<前工程用データベース生成ステップS220>
次に、前工程用データベース生成ステップS220は、一組の過去のテキストデータと、音声データと、前工程用特徴点データとを学習データ(前工程用学習データ)とした機械学習により、前工程用データベースを生成する。例えば、前工程用データベース生成部16aは、公知の機械学習により、前工程用データベースを生成する。前工程用データベース生成部16aは、例えば記憶部15を介して、生成した前工程用データベースを保存部104に保存する。なお、生成された前工程用データベースは、例えばサーバ3や他のコンテンツ再生装置1に、前工程用データベースを送信されてもよい。前工程用学習データは、一組の過去のテキストデータと、音声データと、前工程用特徴点データとを複数(例えば1000程度)含ませてもよい。
(第1実施形態:コンテンツ再生システムの動作)
次に、本実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図8は、本実施形態におけるコンテンツ再生システム100の動作の一例を示すフローチャートである。
<取得手段S310>
取得手段S310は、ユーザ等により入力された任意のテキストデータを取得する。取得手段S310では、例えば取得部11が、上述したテキストデータを取得する。取得部11は、例えば端末2等からテキストデータを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。
<前工程処理手段S320>
前工程処理手段S320は、例えば前工程用データベースを参照し、取得手段S310で取得した任意のテキストデータに対応する音声データ(第1音声データ)及び特徴点データ(第1特徴点データ)を取得する。前工程処理手段S320では、例えば前工程処理部12aは、前工程用データベースを参照し、テキストデータに対して連関性の最も高い音声データ、及び特徴点データを、第1音声データ及び第1特徴点データとして取得する。
前工程処理部12aは、例えば取得部11からテキストデータを取得してもよい。前工程処理部12aは、例えば記憶部15を介して、取得した音声データ及び特徴点データを保存部104に保存してもよい。なお、取得した各データは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。取得するデータは擬似的に生成されたデータでもよい。取得するデータはひとつのテキストデータに対して複数のデータを取得してもよい。
<後工程処理手段S330>
後工程処理手段S330は、例えば後工程用データベースを参照し、前工程処理手段S320で取得した第1特徴点データに対応する第1画像データを取得する。後工程処理手段S330では、例えば後工程処理部12bは、後工程用データベースを参照し、第1特徴点データに対応する第1画像データを取得する。
後工程処理部12bは、例えば前工程処理部12aから第1特徴点データを取得してもよい。後工程処理部12bは、例えば記憶部15を介して、取得した画像データを保存部104に保存してもよい。なお、取得した画像データは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。取得するデータは擬似データでもよい。取得するデータはひとつの特徴点データに対して複数のデータを取得してもよい。
<生成手段S340>
生成手段S340は、例えば前工程処理手段S320で取得した第1音声データと後工程処理手段S330で取得した第1画像データとに基づく擬似データを生成する。生成手段S340では、例えば生成部13は、前工程処理部12aで取得した第1音声データと、後工程処理部12bで取得した第1画像データに基づき、擬似データを生成する。生成部13は例えば記憶部15を介して、取得した擬似データを保存部104に保存してもよい。なお、取得したデータは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。
その後、例えば出力部14は、生成手段S340により生成された擬似データを、表示部109や端末2等に出力する。
上述した各手段を行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。
本実施形態によれば、後工程用データベース生成ステップS120は、一対の人の顔を含む画像データと、人の顔に基づく点群を含む特徴点データと、を後工程用学習データとして、複数の後工程用学習データを用いた機械学習により後工程用データベースを生成する。このため、生成された後工程用データベースを用いて擬似データを生成する際、点群に基づく顔全体の動きを、テキストに連動させることができる。これにより、擬似データを生成する際の精度向上を図ることが可能となる。
また、本実施形態によれば、前工程用データベース生成ステップS220は、一組の過去のテキストデータと、過去のテキストデータに紐づけられた音声データと、点群を含む前処理用特徴点データとを前工程用学習データとして、複数の前工程用学習データを用いた機械学習により前工程用データベースを生成する。すなわち、生成された前工程用データベースを参照し、任意のテキストデータに対応する音声データ、及び特徴点データを取得することができる。また、後工程用データベースを参照し、取得した特徴点データに対応する画像データを取得でき、各データベースを参照して取得した音声データ及び画像データに基づき、擬似データを生成することができる。このため、前工程用データベース及び後工程用データベースを用いることで、入力データとしてテキストデータのみから擬似データを生成することができる。これにより、擬似データを生成するために必要なデータ種類を最小限に抑えることができる。従って、ユーザ等がデータを準備するための負担を軽減することが可能となる。
また、本実施形態によれば、後工程処理部12bは、後工程用データベースを参照し、第1特徴点データに対応する第1画像データを取得する。また、生成部13は、第1音声データ、及び第1画像データに基づき、音声及び画像を含む擬似データを生成する。このため、擬似データを生成する際、点群に基づく顔全体の動きを、テキストに連動させることができる。これにより、擬似データを生成する際の精度向上を図ることが可能となる。
(第2実施形態)
次に、第2実施形態におけるコンテンツ再生システム100、コンテンツ再生装置1、及び学習方法の一例について説明する。上述した実施形態と、本実施形態との違いは、学習データの一部を擬似的に生成する点である。なお、上述した内容と同様の内容については、説明を省略する。
本実施形態における学習方法では、例えば図9(a)に示すように、後工程用データベースを生成する際、一対の擬似的に生成された擬似画像データと擬似特徴点データの後工程用学習データが用いられてもよい。例えば、擬似画像データは画像データに含まれ、擬似特徴点データは特徴点データに含まれ、上述した後工程用学習データとして用いられる。なお、後工程用学習データに含まれる擬似画像データ及び擬似特徴点データの割合は、任意である。
本実施形態における学習方法は、例えば画像データを取得したあと、画像データを用いて関連データを生成し、特徴点データとしてもよい。すなわち、関連データは、画像データに撮像された人の顔の特徴を特定し、点群として抽出されたデータを示す。このため、関連データは、特徴点データと同種のデータであり、特徴点データに関連データを含ませることができる。なお、関連データを生成する方法として、2次元データから3次元データを抽出する公知の技術が用いられる。
例えば取得部11は、1つの画像データに基づいて、少なくとも1つの関連データを生成でき、生成された関連データを、特徴点データとして取得することができる。
学習方法は、例えば取得した特徴点データの一部を変化させた擬似特徴点データを取得してもよい。擬似特徴点データは、例えばGAN(Generative Adversarial Network)等のようなGeneratorとDiscriminatorとの2つのネットワークを持つモデルを用いて行われる画像補完の技術によって生成することができる。
例えば取得部11は、1つの特徴点データに基づいて、少なくとも1つの擬似特徴点データを取得することができる。
学習方法は、例えば予め生成された画像生成用モデルを参照して、特徴点データ又は擬似特徴点データに基づく擬似画像データを取得してもよい。画像生成用モデルは、例えば一対の予め取得された過去の画像データと、過去の特徴点データと、を準備用学習データとして、複数の前記準備用学習データを用いた機械学習により生成される。例えば取得部11は、画像生成用モデルを参照し、特徴点データ又は擬似特徴点データに基づき擬似画像データを生成する。
例えば取得部11は、1つの特徴点データ又は擬似特徴点データに基づいて、少なくとも1つの擬似画像データを取得することができる。
DB生成部16は、例えばニューラルネットワークをモデルとした機械学習を用いて、画像生成用モデルを生成する。学習方法では、例えばGANやオートエンコーダをモデルとした機械学習を用いて、画像生成用モデルが生成され、特に、Conditional GANの一種であるpix2pixをモデルとした機械学習を用いて、画像生成用モデルが生成されてもよい。
画像生成用モデルは、例えば、特徴点データ又は擬似特徴点データに対する擬似画像データの生成に用いることができる。この画像生成用モデルを用いた擬似画像データの生成は、GAN等のようなGeneratorとDiscriminatorとの2つのネットワークを持つモデルを用いて行われる画像補完の技術を利用することで、実現することが可能である。即ち、過去の画像データを、過去の特徴点データの正解特徴点として学習させることで、擬似画像データを生成する精度を高めることができる。
本実施形態による学習方法は、例えば擬似音声用データベースを生成してもよい。擬似音声用データベースは、例えば前工程処理用データベースの学習データとして用いられる音声データ、及び特徴点データを、擬似的に生成するために用いられる。
学習方法は、例えば図9(b)に示すように、複数の学習データ(複数の擬似音声用学習データ)を用いた機械学習により、擬似音声用データベースを生成する。学習方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、擬似音声用データベースを生成する。擬似音声用データベースは、例えばCNNをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。
擬似音声用データベースは、例えば一対の予め取得された過去の音声データと、過去の特徴点データと、を擬似音声用学習データとして、複数の擬似音声用学習データを用いた機械学習により生成される。学習方法では、擬似音声用データベースを参照し、擬似特徴点データに基づく擬似音声データを取得する。学習方法は、1つの擬似特徴点データに基づいて、少なくとも1つの擬似音声データを取得することができる。
本実施形態における学習方法は、例えば擬似特徴点データを取得し、擬似音声用データベースを参照し、擬似特徴点データに基づく擬似音声データを取得してもよい。
学習方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、音声取得用モデルを生成する。学習方法では、GANやオートエンコーダをモデルとした機械学習を用いて、音声取得用モデルが生成され、特に、GANを用いたクロスモーダルをモデルとした機械学習を用いて、音声取得用モデルが生成されてもよい。
音声取得用モデルは、一対の過去の音声データと、過去の特徴点データとを音声取得用学習データとした機械学習により生成されることで、入力データ(例えば特徴点データ)に対する出力データ(例えば擬似音声データ)の生成に用いることができる。この擬似音声データの生成は、GAN等のようなGeneratorとDiscriminatorとの2つのネットワークを持つモデルを用いて行われる学習データを補完する技術を利用することで、実現することが可能である。即ち、過去の音声データを、過去の特徴点データの正解として学習させることで、擬似音声データを生成する精度を高めることができる。
本実施形態における学習方法は、例えば、音声データを取得し、擬似音声用データベースを参照し、音声データに基づく擬似特徴点データを取得してもよい。学習方法は、1つの音声データに基づいて、少なくとも1つの擬似特徴点データを取得することができる。
学習方法では、擬似音声用データベースを参照し、特徴点データに基づいた擬似音声データを取得する。学習方法は、1つの特徴点データに基づいて、少なくとも1つの擬似音声データを取得することができる。
本実施形態における学習方法は、例えば一組の上述した擬似音声データと、擬似音声データから生成されたテキストデータと、擬似特徴点データとを前工程用学習データとして前工程用データベースを生成してもよい。
なお、コンテンツ再生装置1は、上述したモデル、データベース及び学習方法を実施する機能を備えるほか、例えば端末2等によって生成されたデータベース、擬似音声データ、擬似特徴点データ、擬似画像データ及び各モデルの少なくとも何れかを取得してもよい。
(第2実施形態:学習方法)
次に、第2実施形態における学習方法の一例について説明する。図10は、本実施形態における後工程用データベースを生成する学習方法の一例を示すフローチャートである。
後工程用データベースを生成する学習方法は関連データ取得ステップS410と、擬似特徴点データ取得ステップS420と、擬似画像データ取得ステップS430と、後工程用データベース生成ステップS440と、を備える。
<関連データ取得ステップS410>
関連データ取得ステップS410は、例えば人の顔を含む画像データを取得し、取得した画像データを用いて生成された関連データを取得する。関連データ取得ステップS410では、例えば取得部11は、関連データを特徴点データとして取得する。なお、関連データ取得ステップS410では、例えば予め生成された過去の画像データ及び過去の特徴点データを取得する動作のほか、例えば撮影装置により撮像された人の顔を含む画像に基づき生成された画像データを取得する動作、及び画像データを用いて生成された関連データを取得する動作、を実行するコンテンツ再生装置1等の電子機器が用いられてもよい。関連データ取得ステップS410では、例えば取得部11が、上述した各データを取得する。取得部11は、例えば端末2等から画像データを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。
<擬似特徴点データ取得ステップS420>
擬似特徴点データ取得ステップS420は、例えば関連データ取得ステップS410で取得した特徴点データの一部を変化させ、擬似特徴点データを複数取得する。擬似特徴点データ取得ステップS420では、例えば取得部11が、上述した各データを取得する。取得部11は、例えば端末2等から特徴点データを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。
<擬似画像データ取得ステップS430>
擬似画像データ取得ステップS430は、例えば一対の予め取得された過去の画像データと、過去の特徴点データと、を準備用学習データとして、複数の準備用学習データを用いた機械学習により生成された画像生成用モデルを参照し、特徴点データ又は擬似特徴点データに基づき擬似画像データを取得する。擬似画像データ取得ステップS430では、例えば取得部11が、上述した各データを取得する。取得部11は、例えば端末2等から擬似特徴点データ等を取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。
<後工程用データベース生成ステップS440>
次に、後工程用データベースを生成する。後工程用データベース生成ステップS440では、例えば一対の取得した擬似画像データを含む画像データと、取得した擬似特徴点データを含む特徴点データとを後工程用学習データとした機械学習により、後工程用データベースを生成する。後工程用データベース生成部16bは、例えば記憶部15を介して、生成した後工程用データベースを保存部104に保存する。なお、生成された後工程用データベースは、例えばサーバ3や他のコンテンツ再生装置1に、後工程用データベースを送信してもよい。後工程用学習データは、一対の擬似画像データと、擬似特徴点データとの学習データを複数(例えば1000程度)含ませてもよい。
上述したステップを行うことで、本実施形態における学習方法が完了する。
図11は、本実施形態における擬似音声用データベースを生成する学習方法の一例を示すフローチャートである。
学習方法は、例えば擬似音声データ取得ステップS520と、擬似音声用データベース生成ステップS530と、をさらに備えてもよい。また、上述した取得ステップS110は、音声取得ステップS510を含んでもよい。
<音声取得ステップS510>
音声取得ステップS510は、例えば音声を含める音声データと、特徴点データとを取得する。なお、音声取得ステップS510では、例えば予め生成された音声データ及び特徴点データとして取得する動作のほか、例えば撮影装置により収音された音声データを取得する動作、及び特徴点データを取得する動作、を実行するコンテンツ再生装置1等の電子機器を用いてもよい。また、例えばコンテンツ再生装置1は、テキストデータに基づき生成された音声データを取得してもよい。音声取得ステップS510では、例えば取得部11が、上述した各データを取得する。取得部11は、例えば端末2等から音声データ、及び特徴点データを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。
<擬似音声データ取得ステップS520>
擬似音声データ取得ステップS520は、例えば一対の予め取得された過去の音声データと、過去の特徴点データと、を音声取得用学習データとして、複数の音声取得用学習データを用いた機械学習により生成された音声取得用モデルを参照し、例えば擬似特徴点データに基づく擬似音声データを取得する。
また擬似音声データ取得ステップS520は、例えば音声取得用モデルを参照し、音声データに基づき、擬似特徴点データを生成してもよい。擬似音声データ取得ステップS520では、例えば取得部11が、上述した各データを取得する。取得部11は、例えば端末2等から音声データ、及び特徴点データを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。
<擬似音声用データベース生成ステップS530>
次に、擬似音声用データベースを生成する。擬似音声用データベース生成ステップS530では、例えば一対の取得した音声データ又は擬似音声データと、取得した特徴点データ又は擬似特徴点データとを擬似音声用学習データとした機械学習により、擬似音声用データベースを生成する。例えば、前工程用データベース生成部16aは、公知の機械学習により、擬似音声用データベースを生成する。前工程用データベース生成部16aは、例えば記憶部15を介して、生成したデータベースを保存部104に保存する。なお、生成された擬似音声用データベースは、例えばサーバ3や他のコンテンツ再生装置1に送信されてもよい。擬似音声用データベースは、一対の音声データ又は擬似音声データと特徴点データ又は擬似特徴点データを複数(例えば1000程度)含ませてもよい。
上述したステップを行うことで、本実施形態における擬似音声用データベースの学習方法が完了する。
本実施形態によれば、擬似特徴点データ取得ステップS420は、取得した特徴点データの一部を変化させ、点群を含む擬似特徴点データを複数生成し、特徴点データとして取得する。すなわち、後工程用学習データとして用いられる特徴点データが少ない場合においても、擬似特徴点データを後工程用学習データとして用いることができる。このため、機械学習に用いられる後工程用学習データを容易に取得することができる。これにより、少ない学習データでさらなる精度の向上を実現することが可能となる。
また、本実施形態によれば、擬似画像データ取得ステップS430は、特徴点データ又は擬似特徴点データに基づき擬似画像データを生成する。すなわち、後工程用学習データとして用いられる画像データが少ない場合においても、擬似画像データを後工程用学習データとして用いることができる。このため、機械学習に用いられる後工程用学習データを容易に取得することができる。これにより、少ない学習データでさらなる精度の向上を実現することが可能となる。
また、本実施形態によれば、擬似音声データ取得ステップS520は、特徴点データに基づく擬似音声データを生成する。すなわち、擬似音声用入力データとして用いられる音声データが少ない場合においても、特徴点データに基づき生成された擬似音声データを、擬似音声用入力データとして用いることができる。このため、機械学習に用いられる特徴点データに紐づけられた擬似音声データを、擬似音声用入力データとして容易に取得することができる。これにより、少ない学習データでさらなる精度の向上を実現することが可能となる。
本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 :コンテンツ再生装置
2 :端末
3 :サーバ
4 :通信網
10 :筐体
11 :取得部
12 :処理部
12a :前工程処理部
12b :後工程処理部
13 :生成部
14 :出力部
15 :記憶部
16 :DB生成部
16a :前工程用データベース生成部
16b :後工程用データベース生成部
100 :コンテンツ再生システム
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部
109 :表示部
110 :内部バス
S110 :取得ステップ
S120 :後工程用データベース生成ステップ
S210 :取得ステップ
S220 :前工程用データベース生成ステップ
S310 :取得手段
S320 :前工程処理手段
S330 :後工程処理手段
S340 :生成手段
S410 :関連データ取得ステップ
S420 :擬似特徴点データ取得ステップ
S430 :擬似画像データ取得ステップ
S440 :後工程用データベース生成ステップ
S510 :音声取得ステップ
S520 :擬似音声データ取得ステップ
S530 :擬似音声用データベース生成ステップ

Claims (19)

  1. 入力されたテキストデータに対し、音声及び画像を含む擬似データを生成するために用いられるデータベースを生成する学習方法であって、
    人の顔を含む画像データと、前記人の顔に基づく点群を含む特徴点データと、を取得する取得ステップと、
    一対の前記画像データと、前記特徴点データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により、前記特徴点データに対応する前記画像データを取得するための後工程用データベースを生成する後工程用データベース生成ステップと、
    を備え
    前記特徴点データは、前記画像データを用いて生成された関連データを有し、
    前記取得ステップは、取得した前記画像データに基づき抽出された前記点群を含む前記関連データを取得する関連データ取得ステップを含むこと
    を特徴とする学習方法。
  2. 入力されたテキストデータに対し、音声及び画像を含む擬似データを生成するために用いられるデータベースを生成する学習方法であって、
    人の顔を含む画像データと、前記人の顔に基づく点群を含む特徴点データと、を取得する取得ステップと、
    一対の前記画像データと、前記特徴点データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により、前記特徴点データに対応する前記画像データを取得するための後工程用データベースを生成する後工程用データベース生成ステップと、
    を備え
    前記取得ステップは、取得した前記特徴点データの一部を変化させ、前記点群を含む擬似特徴点データを複数生成し、前記特徴点データとして取得する擬似特徴点データ取得ステップを含むこと
    を特徴とする学習方法。
  3. 入力されたテキストデータに対し、音声及び画像を含む擬似データを生成するために用いられるデータベースを生成する学習方法であって、
    人の顔を含む画像データと、前記人の顔に基づく点群を含む特徴点データと、を取得する取得ステップと、
    一対の前記画像データと、前記特徴点データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により、前記特徴点データに対応する前記画像データを取得するための後工程用データベースを生成する後工程用データベース生成ステップと、
    を備え
    前記取得ステップは、音声データを取得する音声取得ステップを含み、
    一対の前記音声データと、前記特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により擬似音声用データベースを生成する擬似音声用データベース生成ステップをさらに備えること
    を特徴とする学習方法。
  4. 前記取得ステップは、過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、前記点群を含む前工程用特徴点データとを取得することを含み、
    一組の前記過去のテキストデータと、前記音声データと、前記前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により、前記テキストデータに対応する前記音声データと前記前工程用特徴点データとを取得するための前工程用データベースを生成する前工程用データベース生成ステップをさらに備えること
    を特徴とする請求項1〜3の何れか1項記載の学習方法。
  5. 前記取得ステップは、取得した前記特徴点データの一部を変化させ、前記点群を含む擬似特徴点データを複数生成し、前記特徴点データとして取得する擬似特徴点データ取得ステップを含むこと
    を特徴とする請求項1記載の学習方法。
  6. 前記画像データは、前記特徴点データ又は前記擬似特徴点データを用いて生成された擬似画像データを有し、
    一対の予め取得された過去の画像データと、過去の特徴点データと、を準備用学習データとして、複数の前記準備用学習データを用いた機械学習により生成された画像生成用モデルを参照し、前記特徴点データ又は前記擬似特徴点データに基づき擬似画像データを生成する擬似画像データ取得ステップを含むこと
    を特徴とする請求項2又は5記載の学習方法。
  7. 前記取得ステップは、音声データを取得する音声取得ステップを含み、
    一対の前記音声データと、前記特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により擬似音声用データベースを生成する擬似音声用データベース生成ステップをさらに備えること
    を特徴とする請求項記載の学習方法。
  8. 前記音声データは、前記特徴点データを用いて生成された擬似音声データを有し、
    前記取得ステップは、一対の予め取得された過去の音声データと、過去の特徴点データと、を音声取得用学習データとして、複数の前記音声取得用学習データを用いた機械学習により生成された音声取得用モデルを参照し、前記特徴点データに基づく擬似音声データを取得する擬似音声データ取得ステップを含むこと、
    を特徴とする請求項記載の学習方法。
  9. 前記特徴点データは、前記音声データを用いて生成された擬似特徴点データを有し、
    前記取得ステップは、一対の予め取得された過去の音声データと、過去の特徴点データと、を音声取得用学習データとして、複数の前記音声取得用学習データを用いた機械学習により生成された音声取得用モデルを参照し、前記音声データに基づく擬似特徴点データを取得する擬似特徴点データ取得ステップを含めること、
    を特徴とする請求項記載の学習方法。
  10. 前記擬似画像データ取得ステップは、
    1つの新たな前記特徴点データ又は1つの新たな前記擬似特徴点データに対して、複数の前記擬似画像データを取得すること
    を特徴とする請求項記載の学習方法。
  11. 前記擬似音声データ取得ステップは、
    1つの新たな前記特徴点データに対して、複数の前記擬似音声データを取得すること
    を特徴とする請求項記載の学習方法。
  12. 前記擬似特徴点データ取得ステップは、
    1つの新たな音声データに対して、複数の前記擬似特徴点データを取得すること
    を特徴とする請求項記載の学習方法。
  13. 請求項の学習方法により生成された前記前工程用データベース及び前記後工程用データベースを参照し、前記音声及び前記画像を含む前記擬似データを出力するコンテンツ再生装置であって、
    テキストデータを取得する取得部と、
    前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データと、前記点群を含む第1特徴点データと、を取得する前工程処理部と、
    前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、
    前記第1画像データと、前記第1音声データとに基づき生成された擬似データを出力する出力部と、
    を備えること特徴とするコンテンツ再生装置。
  14. 音声及び画像を含む擬似データを生成するためのコンテンツ再生装置であって、
    テキストデータを取得する取得部と、
    一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、
    前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理部と、
    一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、
    前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、
    前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成部と、
    を備え
    前記後工程用特徴点データは、前記画像データに基づき抽出された前記点群を含む関連データを有すること
    特徴とするコンテンツ再生装置。
  15. 音声及び画像を含む擬似データを生成するためのコンテンツ再生装置であって、
    テキストデータを取得する取得部と、
    一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、
    前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理部と、
    一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、
    前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、
    前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成部と、
    を備え
    前記後工程用特徴点データは、前記後工程用特徴点データの一部を変化させ、複数生成した前記点群を含む擬似特徴点データを有すること
    特徴とするコンテンツ再生装置。
  16. 音声及び画像を含む擬似データを生成するためのコンテンツ再生装置であって、
    テキストデータを取得する取得部と、
    一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、
    前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理部と、
    一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、
    前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理部と、
    前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成部と、
    一対の前記音声データと、前記後工程用特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により構成された擬似音声用データベースと、
    を備えること特徴とするコンテンツ再生装置。
  17. 音声及び画像を含む擬似データを生成するためのコンテンツ再生システムであって、
    テキストデータを取得する取得手段と、
    一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、
    前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理手段と、
    一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、
    前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理手段と、
    前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成手段と、
    を備え
    前記後工程用特徴点データは、前記画像データに基づき抽出された前記点群を含む関連データを有すること
    を特徴とするコンテンツ再生システム。
  18. 音声及び画像を含む擬似データを生成するためのコンテンツ再生システムであって、
    テキストデータを取得する取得手段と、
    一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、
    前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理手段と、
    一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、
    前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理手段と、
    前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成手段と、
    を備え
    前記後工程用特徴点データは、前記後工程用特徴点データの一部を変化させ、複数生成した前記点群を含む擬似特徴点データを有すること
    を特徴とするコンテンツ再生システム。
  19. 音声及び画像を含む擬似データを生成するためのコンテンツ再生システムであって、
    テキストデータを取得する取得手段と、
    一組の予め取得された過去のテキストデータと、前記過去のテキストデータに紐づけられた音声データと、人の顔に基づく点群を含む前工程用特徴点データとを前工程用学習データとして、複数の前記前工程用学習データを用いた機械学習により構築された前工程用データベースと、
    前記前工程用データベースを参照し、前記テキストデータに対応する第1音声データ、及び第1特徴点データを取得する前工程処理手段と、
    一対の予め取得された前記点群を含む後工程用特徴点データと、前記人の顔を撮像した画像データとを後工程用学習データとして、複数の前記後工程用学習データを用いた機械学習により構築された後工程用データベースと、
    前記後工程用データベースを参照し、前記第1特徴点データに対応する第1画像データを取得する後工程処理手段と、
    前記第1音声データ、及び第1画像データに基づき、前記音声及び前記画像を含む前記擬似データを生成する生成手段と、
    一対の前記音声データと、前記後工程用特徴点データと、を擬似音声用学習データとして、複数の前記擬似音声用学習データを用いた機械学習により構成された擬似音声用データベースと、
    を備えることを特徴とするコンテンツ再生システム。
JP2020107660A 2020-06-23 2020-06-23 学習方法、コンテンツ再生装置、及びコンテンツ再生システム Active JP6843409B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020107660A JP6843409B1 (ja) 2020-06-23 2020-06-23 学習方法、コンテンツ再生装置、及びコンテンツ再生システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020107660A JP6843409B1 (ja) 2020-06-23 2020-06-23 学習方法、コンテンツ再生装置、及びコンテンツ再生システム

Publications (2)

Publication Number Publication Date
JP6843409B1 true JP6843409B1 (ja) 2021-03-17
JP2022003447A JP2022003447A (ja) 2022-01-11

Family

ID=74860752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020107660A Active JP6843409B1 (ja) 2020-06-23 2020-06-23 学習方法、コンテンツ再生装置、及びコンテンツ再生システム

Country Status (1)

Country Link
JP (1) JP6843409B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115155058A (zh) * 2022-09-06 2022-10-11 北京澜舟科技有限公司 一种捏脸方法、捏脸系统及存储介质
WO2023032224A1 (ja) * 2021-09-06 2023-03-09 日本電信電話株式会社 画像処理装置、学習装置、画像処理方法、学習方法、画像処理プログラム及び学習プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000011200A (ja) * 1998-06-19 2000-01-14 Nippon Hoso Kyokai <Nhk> Cg制御装置
US9613450B2 (en) * 2011-05-03 2017-04-04 Microsoft Technology Licensing, Llc Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
JP3173022U (ja) * 2011-11-01 2012-01-19 サイバークローン株式会社 音声合成を伴う動く画像システム
GB2510201B (en) * 2013-01-29 2017-05-03 Toshiba Res Europe Ltd A computer generated head
GB2517212B (en) * 2013-08-16 2018-04-25 Toshiba Res Europe Limited A Computer Generated Emulation of a subject
JP6665446B2 (ja) * 2015-08-21 2020-03-13 ヤマハ株式会社 情報処理装置、プログラム及び音声合成方法
TW202009924A (zh) * 2018-08-16 2020-03-01 國立臺灣科技大學 音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023032224A1 (ja) * 2021-09-06 2023-03-09 日本電信電話株式会社 画像処理装置、学習装置、画像処理方法、学習方法、画像処理プログラム及び学習プログラム
CN115155058A (zh) * 2022-09-06 2022-10-11 北京澜舟科技有限公司 一种捏脸方法、捏脸系统及存储介质

Also Published As

Publication number Publication date
JP2022003447A (ja) 2022-01-11

Similar Documents

Publication Publication Date Title
WO2022116977A1 (zh) 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品
WO2021103698A1 (zh) 换脸方法、装置、电子设备及存储介质
JP6019108B2 (ja) 文字に基づく映像生成
US20160134840A1 (en) Avatar-Mediated Telepresence Systems with Enhanced Filtering
JP2014519082A5 (ja)
EP3982362B1 (en) Audio processing method, apparatus, computer device, and storage medium
CN110931042B (zh) 同声传译方法、装置、电子设备以及存储介质
US10713471B2 (en) System and method for simulating facial expression of virtual facial model
KR20210040882A (ko) 동영상을 생성하기 위한 방법 및 장치
Steinmetz et al. Multimedia fundamentals, Volume 1: Media coding and content processing
JP6843409B1 (ja) 学習方法、コンテンツ再生装置、及びコンテンツ再生システム
CN115049016B (zh) 基于情绪识别的模型驱动方法及设备
JP2018001403A (ja) 音声と仮想動作を同期させる方法、システムとロボット本体
JP2021521704A (ja) 遠隔会議システム、遠隔会議のための方法、およびコンピュータ・プログラム
EP3987447A1 (en) Anonymization
CN110728971B (zh) 一种音视频合成方法
WO2024060873A1 (zh) 动态影像的生成方法和装置
CN113395569A (zh) 视频生成方法及装置
CN112637692B (zh) 互动方法、装置、设备
CN115690277A (zh) 视频生成方法、系统、装置、电子设备和计算机存储介质
WO2021153618A1 (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP6930781B1 (ja) 学習方法、及びコンテンツ再生装置
US12126791B1 (en) Conversational AI-encoded language for data compression
Iqbal et al. A GPT-based Practical Architecture for Conversational Human Digital Twins.
CN118413722B (zh) 音频驱动视频生成方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200623

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200624

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210208

R150 Certificate of patent or registration of utility model

Ref document number: 6843409

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250