JP2014035541A

JP2014035541A - コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム

Info

Publication number: JP2014035541A
Application number: JP2012178620A
Authority: JP
Inventors: Kazunori Kita; 一記喜多; Toru Watanabe; 亨渡辺; Kakuya Komuro; 覚哉小室; Toshiyuki Iguchi; 敏之井口
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2012-08-10
Filing date: 2012-08-10
Publication date: 2014-02-24
Also published as: US20150187368A1; CN104520923A; WO2014024399A1

Abstract

【課題】視聴者に対し、テキスト音声と画像を自由に組み合わせて音声と動画を同期再生させることができるコンテンツ再生制御装置、コンテンツ再生制御方法及びそのプログラムを提供する。
【解決手段】コンテンツ再生制御装置１００は、音声再生すべきテキスト内容を入力するテキスト入力手段１０７と、テキスト内容を発声させる主体の画像を入力する画像入力手段１０２と、テキスト内容を音声データに変換する変換手段１０９と、画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成手段１０９と、音声データと、生成された動画データとを同期して再生させる再生制御手段１０９とを備える。
【選択図】図２

Description

本発明は、コンテンツ再生制御装置、コンテンツ再生制御方法及びそのプログラムに関する。

任意のテキストを音声に変換し、所定の画像に同期させて出力することができる表示制御装置が知られている（特許文献１参照）。

特開平０５−３１３６８６号公報

上記特許文献１に記載された技術は、キーボードから入力されたテキストを音声に変換して、所定の画像に同期させて出力することができるものの、画像は準備されたものであって、テキスト音声とその音声を発声させる画像との組み合わせという観点では、バラエティーの少ないものであった。

本発明は上記のような実情に鑑みてなされたもので、その目的とするところは、テキスト音声と画像を自由に組み合わせて音声と画像とを同期再生させることができるコンテンツ再生制御装置、コンテンツ再生制御方法及びそのプログラムを提供することである。

本発明の一態様は、コンテンツの再生を制御するコンテンツ再生制御装置であって、音声再生すべきテキスト内容を入力するテキスト入力手段と、当該テキスト入力手段により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力手段と、前記テキスト内容を音声データに変換する変換手段と、当該変換手段で変換された音声データに応じて、前記画像入力手段で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成手段と、前記音声データと、前記生成手段で生成された前記動画データとを同期して再生させる再生制御手段とを備えることを特徴とする。

本発明によれば、テキストと画像を自由に組み合わせて音声と動画を同期再生させることができるコンテンツ再生制御装置、コンテンツ再生制御方法及びそのプログラムを提供できる。

本発明の一実施形態に係るコンテンツ再生制御装置を含むシステムの使用状況を示す概略図である。本発明の一実施形態に係るコンテンツ再生制御装置を含むシステムの他の使用状況を示す概略図である。同実施形態に係るコンテンツ再生制御装置の機能の概略構成を示すブロック図である。同実施形態に係るコンテンツ再生制御装置の動作の処理内容を示すフローチャートである。同実施形態に係る属性と声色、及び属性と変化例の対応関係を示す表である。同実施形態に係るコンテンツ再生制御装置の同期再生用動画音声データを作成処理する際の画面イメージである。

以下、本発明の一実施形態によるコンテンツ再生制御装置について図面を参照して説明する。図１（ａ）、図１（ｂ）は、この発明の一実施形態によるコンテンツ再生制御装置１００を含むシステムの使用状況を示す概略図である。

図１（ａ）、図１（ｂ）に示すように、コンテンツ再生制御装置１００は、例えば無線通信等を用いてコンテンツ供給装置である記憶装置２００と接続されている。また、コンテンツ再生制御装置１００は、コンテンツ映像再生装置であるプロジェクタ３００と接続されている。このプロジェクタ３００の出力光照射方向側にはスクリーン３１０が設置されている。プロジェクタ３００は、コンテンツ再生制御装置１００から供給されるコンテンツを受信して出力光にてコンテンツの映像内容として、後述する方法で作成保存されたものが、スクリーン３１０に例えば人物画像等映像３２０が投影される。

コンテンツ再生制御装置１００は例えばキーボード等の文字入力部１０７を備えている。コンテンツ再生制御装置１００は、文字入力部１０７により入力されたテキストデータを音声データに変換する。（詳しくは後述する。）

そして、コンテンツ再生制御装置１００はスピーカ１０６を備えている。このスピーカ１０６より、文字入力部１０７により入力されたテキストデータに基づいた音声データの音声が動画コンテンツに同期するように放音される。（詳しくは後述する。）

記憶装置２００には、ユーザによりデジタルカメラなどで撮影された画像データが例えば記憶されている。そして、記憶装置２００はコンテンツ再生制御装置１００からの指令に基づいてコンテンツ再生制御装置１００に画像データを供給する。

プロジェクタ３００は例えば、アレイ状に配列された複数、例えばＸＧＡ（横１０２４画素×縦７６８画素）個の微小ミラーの各傾斜角度を個々に高速でオン／オフ動作して表示動作することで、その反射光により光像を形成する表示素子であるＤＭＤを利用したＤＬＰ（ＤｉｇｉｔａｌＬｉｇｈｔＰｒｏｃｅｓｓｉｎｇ）（登録商標）方式のデータプロジェクタである。

スクリーン３１０は、投影するコンテンツの形状になるように樹脂板が切断されて作成されている。この背面投射型のプロジェクタ用のスクリーンフィルムが投影面に貼付され、背面投射用のスクリーンとしての機能を有する。このスクリーンフィルムは、市販されている高輝度、高コントラストを有するものを用いることにより、日中の明るさであっても、また、明るい居室内であっても、スクリーンに投影されたコンテンツを視認することができる。

さらに、コンテンツ再生制御装置１００は、記憶装置２００から供給された画像データを解析し、その画像データに応じた声色で、スピーカ１０６を通してアナウンスを実施する。

例えば、コンテンツ再生制御装置１００に文字入力部１０７を介して「時計バーゲン開催中です。３階特設会場にお越し下さい。」というテキストが入力され、画像データとして「大人の男性」の映像が供給されたとする。すると、コンテンツ再生制御手段は、記憶装置２００から供給された画像データを解析し、この画像データは「大人の男性」の映像であると判断する。

そして、コンテンツ再生制御手段は、「時計バーゲン開催中です。３階特設会場にお越し下さい。」というテキストデータを「大人の男性」の声色で発生できるように音声データを作成する。

図１（ａ）は、スクリーン３１０に対して大人の男性が投影されていることを示しており、視聴者に対して、スピーカ１０６を通して「大人の男性」の声色で「時計バーゲン開催中です。３階特設会場にお越し下さい。」というアナウンスを実施しているところを示している。

また、コンテンツ再生制御装置１００は、記憶装置２００から供給された画像データを解析し、文字入力部１０７から入力されたテキストデータを、その画像データに応じて変換する。

例えば、コンテンツ再生制御装置１００に文字入力部１０７を介して「時計バーゲン開催中です。３階特設会場にお越し下さい。」というテキストが入力され、画像データとして「子供の女性」の顔映像が供給されたとする。すると、コンテンツ再生制御手段は、記憶装置２００から供給された画像データを解析し、この画像データは「子供の女性」の映像であると判断する。

そして、コンテンツ再生制御手段１００は、「時計バーゲン開催中です。３階特設会場にお越し下さい。」というテキストデータを「子供の女性」の映像に関連づけて「時計バーゲン開催中だよ。３階特設会場に来てね。」と変化させる。

図１（ｂ）は、スクリーン３１０に対して子供の女性が投影されていることを示しており、視聴者に対して、スピーカ１０６を通して「子供の女性」の声色で「時計バーゲン開催中だよ。３階特設会場に来てね。」というアナウンスを実施しているところを示している。

次に図２により本実施形態に係るコンテンツ制御装置１００の概略機能構成について説明する。

同図中、符号１０９は中央制御部（ＣＰＵ）である。このＣＰＵ１０９がコンテンツ再生制御装置１００での動作すべてを統括して制御する。

このＣＰＵ１０９は、記憶部１１０と直接接続される。記憶部１１０は全体制御プログラム１１０Ａ、テキスト変化用データ１１０Ｂ、音声合成用素材データ１１０Ｃ、を記憶し、その他ワーク用領域１１０Ｆ等を備える。

全体制御プログラム１１０Ａは、ＣＰＵ１０９が実行する動作プログラムや各種定型データ等である。

テキスト変化用データ１１０Ｂは、後述する文字入力部１０７により入力されたテキスト情報を変化させる際に利用するデータである。（詳しくは後述する。）

音声合成用データ１１０Ｃは、テキストデータを適切なフォーマットの音声ファイル（音声データ）に変換するテキスト音声データ変換処理に用いられる音声合成素材のデータである音声合成用素材パラメータ１１０Ｄと、その周波数成分の変換等を行い、音声として出力される際の声色を変換させるために用いられる声色設定用パラメータ１１０Ｅとを有している。（詳しくは後述する。）

その他ワーク用データ領域１１０Ｆは、ＣＰＵ１０９のワークメモリとして機能する。

ＣＰＵ１０９は、上記記憶部１１０に記憶されているプログラムや定型データ等を読出し、その他ワーク用領域１１０Ｆに展開して当該プログラムを実行することにより、このコンテンツ再生制御装置を統括して制御する。

上記ＣＰＵ１０９はさらに、操作部１０３と接続される。操作部１０３は図示しないリモコン等からのキー操作信号を受信し、当該キー操作信号をＣＰＵ１０９に供給する。ＣＰＵ１０９は操作部１０３からの操作信号に応じて電源の投入やモード切替え等の各種動作を実行する。

上記ＣＰＵ１０９はさらに、表示部１０４と接続される。表示部１０４は操作部１０３からの操作信号に対応した種々の操作状況等を表示する。

上記ＣＰＵ１０９はさらに、通信部１０１、画像入力部１０２と接続される。
通信部１０１は例えば無線通信を利用して、ＣＰＵ１０９からの命令に基づいて、所望する画像データを記憶装置２００内から取得するために、取得信号を記憶装置２００に送信する。記憶装置２００は、その取得信号に基づいて自身が持つ画像データをコンテンツ再生制御装置１００に供給する。尚、有線通信を利用して、画像データの取得信号等を記憶装置２００に送信してもよいことは勿論である。
画像入力部１０２は記憶装置２００から供給される画像データを無線通信又は有線通信により受け取り、ＣＰＵ１０９にその画像データを渡す。

上記ＣＰＵ１０９はさらに、文字入力部１０７と接続される。

文字入力部１０７は例えばキーボードであり、文字が打ち込まれるとそれに対応したテキスト（テキストデータ）をＣＰＵ１０９に対して渡す。

上記ＣＰＵ１０９はさらに、音声出力部１０５及び映像出力部１０８と接続される。

音声出力部１０５にはスピーカ１０６が接続され、音声出力部１０５は、このスピーカ１０６を用いＣＰＵ１０９でテキストから音声変換された音声データを実際の音声に変換して音声発生させる。

映像出力部１０８はプロジェクタ３００に、ＣＰＵ１０９により編集された動画音声データの画像のデータ部分を供給する。

次に上記実施形態の動作について説明する。
なお以下に示す動作は、上述した如くＣＰＵ１０９がプログラムメモリ１１０Ａから読出した動作プログラムや定型データ等をワーク用領域１１０Ｆに展開した上で実行するものである。全体制御プログラムとして記憶される動作プログラム等は、このコンテンツ再生制御装置１００の工場出荷時に記憶されていたもののみならず、ユーザがこのコンテンツ再生制御装置１００を購入後に通信部１０１を介して図示しないパーソナルコンピュータ等からインターネット経由でダウンロードしたバージョンアップ用のプログラム等によりインストールした内容を含む。

図３は、本実施形態に係るコンテンツ再生制御装置の同期再生用動画音声データ（コンテンツ）を作成に関する処理を示すフローチャートである。

まず、ＣＰＵ１０９は、ユーザが音声を発声させたい主体となるものの画像の入力を画面等に表示して促し、画像入力がされたか否かを待機する（ステップＳ１０１）。画像入力は、静止画を指定して入力されてもよいし、動画データから所望の画面を指定して入力されるようにしてもよい。
その主体となるもの画像は、例えば、人の画像である。また、動物や物の画像であってもよく、その場合は、擬人化して音声が発声されることとなる。（詳しくは後述する。）

画像入力がされたと判断されると、ＣＰＵ１０９は、その画像の特徴を解析し、その特徴から、主体の属性を抽出する（ステップＳ１０２）。

属性とは、例えば、図４に示す属性１〜３のようなものである。
ここでは、属性１として、主体が人間（人）か動物か物かが判別され抽出されるものとしている。
人間の場合、顔の特徴から性別、大体の年齢（大人か子供か）が更に抽出される。
また、画像の特徴から、主体が動物であると判断された場合、猫か犬かといった詳細な属性を抽出し、更に猫の種別や、犬の種別が判別される例を示している。

主体が物であった場合、画像の特徴点を抽出し、物に適した顔（キャラクターの顔）に対応する部分を作成するようにすればよい。

次に、ＣＰＵ１０９は、このステップＳ１０２の特徴抽出処理により、所定の属性が所定の確度以上で抽出された否かを判断する（ステップＳ１０３）。

図４に示すような属性が所定の確度以上で抽出されたと判断された場合、ＣＰＵ１０９は、その抽出された属性を主体画像に関する属性と決定する（ステップＳ１０４）。

図４に示すような所定の属性が所定の確度以上では抽出されなかったと判断された場合、ＣＰＵ１０９は、属性を決定させるべく、図示しない設定用画面を表示させ、ユーザに属性を決定するように促す（ステップＳ１０５）。

そして、ユーザにより所定の属性が指定されたか否かを判断する（ステップＳ１０６）。

ユーザにより所定の属性が指定されたと判断された場合、その指定された属性を主体画像に関する属性と決定する（ステップＳ１０７）。

ユーザにより所定の属性が指定されなかったと判断された場合、ＣＰＵ１０９は、デフォルトの属性（例えば、人、女性、大人）の属性を主体画像に関する属性と決定する（ステップＳ１０８）。

次に、ＣＰＵ１０９は、画像の顔部分を判別して切り出す処理を行う（ステップＳ１０９）。この切り出しは、既存の顔認識技術を用いて、基本的には、自動で行われる。また、ユーザがマウス等を用いて手動で切り出すようにしてもよい。
なお、ここでは、属性決定、顔画像の切り出しの順番で、処理が行われる例で説明したが、顔画像の切り出しを行ってから、顔画像の輪郭の大きさや縦横比、目鼻口など特徴パーツの大きさや位置、形状などより、属性を決定する処理を行うようにしてもよい。

また、胸部より下の画像は、画像入力されたものをそのまま用いてもよいが、顔画像に適した画像が、その属性に基づいて自動的に生成されるようにすると、ユーザの画像の入力の自由度が増し、負荷が軽減される。

次に、ＣＰＵ１０９は、顔画像のうち口元部分を含む発声に基づいて変化する部分の画像を抽出する（ステップＳ１１０）。ここでは、この部分の画像を発声変化部分画像と呼ぶことにする。

この発声変化部分画像には、発声情報に対応して変化する口元以外に、眼球や瞼、眉など顔の表情変化に関する部分が含まれる。

次に、ＣＰＵ１０９は、ユーザが音声を発声させたいテキストの入力を促し、テキスト入力がされたか否かを待機する（ステップＳ１１１）。

テキスト入力がされたと判断されると、ＣＰＵ１０９は、入力されたテキストの文章（構文）を解析する（ステップＳ１１２）。

次に、ＣＰＵ１０９は、入力されたテキスト自体を、文章解析結果、前述した主体の属性に基づいて変化させるか否かを、ユーザに選択された指示に基づいて判別する（ステップＳ１１３）。

主体の属性に基づいてテキスト自体を変化させると指示されなかった場合（ステップＳ１１３、ＮＯ）、ＣＰＵ１０９は、後述のステップＳ１１５に進む。

ここで、入力されたテキストを、主体の属性に基づいて変化させると指示された場合（ステップＳ１１３、ＹＥＳ）、ＣＰＵ１０９は、テキストの属性対応変化処理を行う（ステップＳ１１４）。

このテキストの属性対応変化処理とは、入力されたテキストをテキストの形で変化させる処理である。
これは、記憶部１１０に記憶された属性に結びつけられたテキスト変化用データ１１０Ｂを参照して、変化させる。

具体的には、例えば、図４の表に記載したように、テキスト文をその語尾を変化させて異なるテキストに変化させる処理である。
この処理は、語尾に限らず、テキストの他の部分を属性に応じて変化させる処理を含む。

例えば、入力された文章の語尾が「〜です。」であり、テキストを発声させる主体が猫であった場合、語尾を「〜だニャン。」と変化させる。

そして、ＣＰＵ１０９は、変化させたテキストを元にテキスト音声データ変換処理（音声合成処理）を行う（ステップＳ１１５）。

具体的には、記憶部１１０に記憶された音声合成用データ１１０Ｃとして、音声合成用素材パラメータと、前述した主体の属性毎に結びつけられた声色設定パラメータ１１０Ｄを参照して変換される。例えば、テキストを発声させる主体が子供の男性であった場合、音色として男性子供の声色で音声合成される。

また、属性に応じて、ピッチ（速度）といったパラメータも反映させて音声合成されるようにしてもよい。

次に、ＣＰＵ１０９は、変換された音声データに基づいて、前述した発声変化部分の画像を変化させて、合成用の画像の作成の処理を行う（ステップＳ１１６）。

ＣＰＵ１０９は、ここでは、前述した発声変化部分の画像を元に、音声データに連動するように各パーツの詳細の位置を適切に調整変化させることにより、いわゆる口パクデータを生成することができる。この口パクデータには、前述した口元の動き以外に、発声内容に関連する眼球や瞼、眉など顔の表情変化に関する動きも反映される。

口の開閉は多くの顔の筋肉の作用によって行われているため、例えば、成人男性では喉仏の動きが顕著であり、その動きもまた属性によって変化させることが重要になってくる。

そして、入力された元画像に作成された口パクデータ画像を元の画像に合成することにより、主体の顔部分の動画データが生成される（ステップＳ１１７）。

最後に、ＣＰＵ１０９は、ステップＳ１１５で生成された音声データとＳ１１７で生成された動画データを動画音声データとして保存する（ステップＳ１１８）。

なお、ここでは、画像入力されてからテキスト入力させる例で説明したが、ステップＳ１１４の前であれば、テキスト入力が先で画像入力が後であってもよい。

このような同期再生用動画音声データを作成処理する際の画面イメージを図５に示す。
ユーザは、画像入力（選択）、切り出すべき画像を中央の画像入力（選択）、切り出し画面で指定する。

また、ユーザは、発声させたいテキストを画面右側のオリジナルテキスト入力欄に入力する。
テキスト自体を主体の属性に基づいて変化させるというボタン（変化ボタン）が押されれば（変化アイコンがクリックされれば）、属性に応じてテキストが変化され、音声に変換されるテキスト欄に表示される。
オリジナルテキストをそのまま音声データに変換させたい場合は、無変化ボタンが押されれば、テキストが変化されずに、オリジナルテキストが音声に変換されるテキスト欄に表示される。
また、再生ボタンを押すことで、音声に変換されるテキストが実際にどのように発声されるのかを音として確認することができる。

そして、決定された属性に基づいて、口パクデータが作成され、最終的に動画音声データが画面左側のプレビュー画面に表示され、プレビューボタンを押すことにより、動画音声データが再生されて、コンテンツの動作を確認することができる。

簡単のために省略するが、確認の上で、動画音声データを修正した場合は、適宜修正ができる機能を持たせることが望ましい。

そして、コンテンツ再生制御装置１００は、ステップＳ１１２で保存された動画音声データを読み出して、音声出力部、映像出力部より出力する。

このような処理により、動画音声データをプロジェクタ３００等のコンテンツ映像再生装置３００に出力して、音声と同期させるように再生することにより、いわゆるデジタルマネキンを用いた案内等を実現することができる。

以上、詳述したように、上記実施形態によれば、ユーザが所望の画像を選んで発声させる主体を（選択）入力できるようにしたので、テキスト音声とテキスト音声を発声させる主体画像を自由に組み合わせて音声と動画を同期再生させることができる。

また、入力されたテキスト音声を発声させる主体の属性を決定した上で、その属性に基づいて、テキストを音声データに変換するようにしたので、主体画像に適した発声のさせ方（声色、イントネーション）で、テキストを発声表現することができる。

この主体の属性の決定は、画像認識処理技術を用いれば、属性を自動で抽出し決定することができる。

具体的には、属性として、性別を抽出し、主体が女性であれば、女性らしい声色での発声、男性であれば、男らしい声色での発声を実現することができる。

また、属性として、年齢を抽出し、主体が子供であれば、子供らしい声色での発声を実現することができる。

また、属性の決定は、ユーザの指定により決定することもできるようにしたので、属性の抽出が適切にされなかった場合にも臨機応変対応することができる。

また、入力されたテキスト音声を発声させる主体の属性を決定した上で、その属性に基づいて、テキストの段階で主体画像に適したテキストに変化させた上で音声データへの変換もできるようにしたので、より主体画像に適したテキストにて発声表現することができる。

例えば、主体の属性として、人間か動物かを抽出し、動物であれば、動物を擬人化したテキストに変化させた上で発声されるようにすれば、より親しみの持てるアナウンスを実現することができる。

また、テキストをテキストベースで変化させるか否かを設定して選択できるようにしたので、入力されたテキストをそのまま忠実に発声させることもできるし、主体の属性に応じて、テキストを変化させ、より適切なニュアンスを伝えるテキストで発声を実現するということもできる。

そして、いわゆる口パクデータを入力された画像に基づいて作成するようにしたので、入力された画像に適した動画データを作成することができる。

また、その際、発声に関係する部分のみを抽出して、口パクデータを作成し、元画像に合成するようにしたので、処理を軽くし、高速、省電力で動画データを作成することができる。

また、上記実施形態では、映像と音声を伴うコンテンツの映像部分を、プロジェクタを用い、人型のスクリーンに投影して、再生するようにしたので、視聴者に、コンテンツの内容（広告内容等）を、印象をづけるように再生することができる。

なお、上記実施形態では、主体の属性が所定の確度以上で抽出できなかった際に、属性が指定できるようにしたが、属性の抽出できたか否かに拘わらず、属性を指定できるようにしてもかまわない。

なお、上記実施形態では、映像と音声を伴うコンテンツの映像部分を、プロジェクタを用い、人型のスクリーンに投影して、再生するようにしたが、本発明はそれに限らず、直視型の表示装置に映像部分を表示する形態にも適用できることは言うまでもない。

また、上記実施形態では、当該コンテンツ再生制御装置１００は、コンテンツ供給装置２００、コンテンツ映像再生装置３００と別体のものとして説明した。
しかし、当該コンテンツ再生制御装置１００は、コンテンツ供給装置２００及び又はコンテンツ映像再生装置３００と一体になっているものであってもよい。
そのようにすれば、システムをよりコンパクトなものにすることができる。

その他、本発明は前述した実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、前述した実施形態で実行される機能は可能な限り適宜組み合わせて実施しても良い。前述した実施形態には種々の段階が含まれており、開示される複数の構成要件による適宜の組み合せにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、効果が得られるのであれば、この構成要件が削除された構成が発明として抽出され得る。

以下に、この出願の願書に最初に添付した特許請求の範囲に記載した発明を付記する。付記に記載した請求項の項番は、この出願の願書に最初に添付した特許請求の範囲の通りである。
〔付記〕
＜請求項１＞
コンテンツの再生を制御するコンテンツ再生制御装置であって、
音声再生すべきテキスト内容を入力するテキスト入力手段と、
当該テキスト入力手段により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力手段と、
前記テキスト内容を音声データに変換する変換手段と、
当該変換手段で変換された音声データに応じて、前記画像入力手段で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成手段と、
前記音声データと、前記生成手段で生成された前記動画データとを同期して再生させる再生制御手段と
を備えることを特徴とするコンテンツ再生制御装置。
＜請求項２＞
前記画像の属性を決定する決定手段を更に備え、
前記変換手段は、前記決定手段により決定された属性に基づいて、前記テキスト内容を音声データに変換することを特徴とする請求項１記載のコンテンツ再生制御装置。
＜請求項３＞
前記変換手段は、前記決定手段により決定された属性に基づいて、前記テキストを別のテキストに変化させた上で、変化させたテキストを音声データに変換することを特徴とする請求項２記載のコンテンツ再生制御装置。
＜請求項４＞
前記決定手段は、前記画像から画像解析により属性を抽出する属性抽出手段を含み、
前記決定手段は、前記属性抽出手段により抽出された属性を、前記主体の画像に関する属性であると決定することを特徴とする請求項２又は３記載のコンテンツ再生制御装置。
＜請求項５＞
前記決定手段は、ユーザに属性を指定させる属性指定手段を更に含み、
前記決定手段は、前記属性指定手段により指定された属性を、前記主体の画像に関する属性であると決定することを特徴とする請求項２〜４何れか記載のコンテンツ再生制御装置。
＜請求項６＞
前記決定手段は、前記画像の属性として、発声させる主体の性別を決定し、
前記変換手段は、決定された性別に基づいて、前記テキストを音声データに変換することを特徴とする請求項２〜５何れか記載のコンテンツ再生制御装置。
＜請求項７＞
前記決定手段は、前記画像の属性として、発声させる主体の年齢を決定し、
前記変換手段は、決定された年齢に基づいて、前記テキストを音声データに変換することを特徴とする請求項２〜６何れか記載のコンテンツ再生制御装置。
＜請求項８＞
前記決定手段は、画像の属性として、発声させる主体が人か動物か物かを決定し、
前記変換手段は、決定された結果に基づいて、前記テキストを音声データに変換することを特徴とする請求項２〜７何れか記載のコンテンツ再生制御装置。
＜請求項９＞
前記変換手段は、前記決定手段により決定された属性に基づいて、再生速度を設定し、前記テキスト内容を音声データに変換することを特徴とする請求項２〜８何れか記載のコンテンツ再生制御装置。
＜請求項１０＞
前記生成手段は、前記画像入力手段により入力された画像の発声に関する画像部分を抽出する画像抽出手段を含み、
前記生成手段は、前記画像抽出手段により抽出された発声に関する画像部分を、前記変換手段で変換された音声データに応じて変化させ、変化させた画像を前記画像入力手段により入力された画像に合成することにより前記動画データを生成することを特徴とする請求項１〜９何れか記載のコンテンツ再生制御装置。
＜請求項１１＞
コンテンツの再生を制御するコンテンツ再生制御方法であって、
音声再生すべきテキスト内容を入力するテキスト入力工程と、
当該テキスト入力工程により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力工程と、
前記テキスト内容を音声データに変換する変換工程と、
当該変換工程で変換された音声データに応じて、前記画像入力工程で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成工程と、
前記音声データと、前記生成工程で生成された前記動画データとを同期して再生させる再生制御工程と
を備えることを特徴とするコンテンツ再生制御方法。
＜請求項１２＞
コンテンツの再生を制御する装置が内蔵するコンピュータが実行するプログラムであって、
前記コンピュータを、
音声再生すべきテキスト内容を入力するテキスト入力手段、
当該テキスト入力手段により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力手段、
前記テキスト内容を音声データに変換する変換手段、
当該変換手段で変換された音声データに応じて、前記画像入力手段で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成手段、
前記音声データと、前記生成手段で生成された前記動画データとを同期して再生させる再生制御手段
として機能させることを特徴とするプログラム。

１００…コンテンツ再生制御装置、１０１…通信部、１０２…画像入力部、１０３…操作部、１０４…表示部、１０５…音声出力部、１０６…スピーカ、１０７…文字入力部、１０８…映像出力部、１０９…ＣＰＵ、１１０…記憶部、１１１、２００…記憶装置、３００…プロジェクタ、３１０…スクリーン、３２０…コンテンツの内容として投影された映像。

Claims

コンテンツの再生を制御するコンテンツ再生制御装置であって、
音声再生すべきテキスト内容を入力するテキスト入力手段と、
当該テキスト入力手段により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力手段と、
前記テキスト内容を音声データに変換する変換手段と、
当該変換手段で変換された音声データに応じて、前記画像入力手段で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成手段と、
前記音声データと、前記生成手段で生成された前記動画データとを同期して再生させる再生制御手段と
を備えることを特徴とするコンテンツ再生制御装置。
前記画像の属性を決定する決定手段を更に備え、
前記変換手段は、前記決定手段により決定された属性に基づいて、前記テキスト内容を音声データに変換することを特徴とする請求項１記載のコンテンツ再生制御装置。
前記変換手段は、前記決定手段により決定された属性に基づいて、前記テキストを別のテキストに変化させた上で、変化させたテキストを音声データに変換することを特徴とする請求項２記載のコンテンツ再生制御装置。
前記決定手段は、前記画像から画像解析により属性を抽出する属性抽出手段を含み、
前記決定手段は、前記属性抽出手段により抽出された属性を、前記主体の画像に関する属性であると決定することを特徴とする請求項２又は３記載のコンテンツ再生制御装置。
前記決定手段は、ユーザに属性を指定させる属性指定手段を更に含み、
前記決定手段は、前記属性指定手段により指定された属性を、前記主体の画像に関する属性であると決定することを特徴とする請求項２〜４何れか記載のコンテンツ再生制御装置。
前記決定手段は、前記画像の属性として、発声させる主体の性別を決定し、
前記変換手段は、決定された性別に基づいて、前記テキストを音声データに変換することを特徴とする請求項２〜５何れか記載のコンテンツ再生制御装置。
前記決定手段は、前記画像の属性として、発声させる主体の年齢を決定し、
前記変換手段は、決定された年齢に基づいて、前記テキストを音声データに変換することを特徴とする請求項２〜６何れか記載のコンテンツ再生制御装置。
前記決定手段は、画像の属性として、発声させる主体が人か動物か物かを決定し、
前記変換手段は、決定された結果に基づいて、前記テキストを音声データに変換することを特徴とする請求項２〜７何れか記載のコンテンツ再生制御装置。
前記変換手段は、前記決定手段により決定された属性に基づいて、再生速度を設定し、前記テキスト内容を音声データに変換することを特徴とする請求項２〜８何れか記載のコンテンツ再生制御装置。
前記生成手段は、前記画像入力手段により入力された画像の発声に関する画像部分を抽出する画像抽出手段を含み、
前記生成手段は、前記画像抽出手段により抽出された発声に関する画像部分を、前記変換手段で変換された音声データに応じて変化させ、変化させた画像を前記画像入力手段により入力された画像に合成することにより前記動画データを生成することを特徴とする請求項１〜９何れか記載のコンテンツ再生制御装置。
コンテンツの再生を制御するコンテンツ再生制御方法であって、
音声再生すべきテキスト内容を入力するテキスト入力工程と、
当該テキスト入力工程により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力工程と、
前記テキスト内容を音声データに変換する変換工程と、
当該変換工程で変換された音声データに応じて、前記画像入力工程で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成工程と、
前記音声データと、前記生成工程で生成された前記動画データとを同期して再生させる再生制御工程と
を備えることを特徴とするコンテンツ再生制御方法。
コンテンツの再生を制御する装置が内蔵するコンピュータが実行するプログラムであって、
前記コンピュータを、
音声再生すべきテキスト内容を入力するテキスト入力手段、
当該テキスト入力手段により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力手段、
前記テキスト内容を音声データに変換する変換手段、
当該変換手段で変換された音声データに応じて、前記画像入力手段で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成手段、
前記音声データと、前記生成手段で生成された前記動画データとを同期して再生させる再生制御手段
として機能させることを特徴とするプログラム。