JP2014035541A - コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム - Google Patents

コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム Download PDF

Info

Publication number
JP2014035541A
JP2014035541A JP2012178620A JP2012178620A JP2014035541A JP 2014035541 A JP2014035541 A JP 2014035541A JP 2012178620 A JP2012178620 A JP 2012178620A JP 2012178620 A JP2012178620 A JP 2012178620A JP 2014035541 A JP2014035541 A JP 2014035541A
Authority
JP
Japan
Prior art keywords
image
text
content
attribute
reproduction control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012178620A
Other languages
English (en)
Inventor
Kazunori Kita
一記 喜多
Toru Watanabe
亨 渡辺
Kakuya Komuro
覚哉 小室
Toshiyuki Iguchi
敏之 井口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2012178620A priority Critical patent/JP2014035541A/ja
Priority to PCT/JP2013/004466 priority patent/WO2014024399A1/en
Priority to US14/420,027 priority patent/US20150187368A1/en
Priority to CN201380041604.4A priority patent/CN104520923A/zh
Publication of JP2014035541A publication Critical patent/JP2014035541A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • H04N5/9305Regeneration of the television signal or of selected parts thereof involving the mixing of the reproduced video signal with a non-recorded signal, e.g. a text signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Abstract

【課題】視聴者に対し、テキスト音声と画像を自由に組み合わせて音声と動画を同期再生させることができるコンテンツ再生制御装置、コンテンツ再生制御方法及びそのプログラムを提供する。
【解決手段】コンテンツ再生制御装置100は、音声再生すべきテキスト内容を入力するテキスト入力手段107と、テキスト内容を発声させる主体の画像を入力する画像入力手段102と、テキスト内容を音声データに変換する変換手段109と、画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成手段109と、音声データと、生成された動画データとを同期して再生させる再生制御手段109とを備える。
【選択図】図2

Description

本発明は、コンテンツ再生制御装置、コンテンツ再生制御方法及びそのプログラムに関する。
任意のテキストを音声に変換し、所定の画像に同期させて出力することができる表示制御装置が知られている(特許文献1参照)。
特開平05−313686号公報
上記特許文献1に記載された技術は、キーボードから入力されたテキストを音声に変換して、所定の画像に同期させて出力することができるものの、画像は準備されたものであって、テキスト音声とその音声を発声させる画像との組み合わせという観点では、バラエティーの少ないものであった。
本発明は上記のような実情に鑑みてなされたもので、その目的とするところは、テキスト音声と画像を自由に組み合わせて音声と画像とを同期再生させることができるコンテンツ再生制御装置、コンテンツ再生制御方法及びそのプログラムを提供することである。
本発明の一態様は、コンテンツの再生を制御するコンテンツ再生制御装置であって、音声再生すべきテキスト内容を入力するテキスト入力手段と、当該テキスト入力手段により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力手段と、前記テキスト内容を音声データに変換する変換手段と、当該変換手段で変換された音声データに応じて、前記画像入力手段で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成手段と、前記音声データと、前記生成手段で生成された前記動画データとを同期して再生させる再生制御手段とを備えることを特徴とする。
本発明によれば、テキストと画像を自由に組み合わせて音声と動画を同期再生させることができるコンテンツ再生制御装置、コンテンツ再生制御方法及びそのプログラムを提供できる。
本発明の一実施形態に係るコンテンツ再生制御装置を含むシステムの使用状況を示す概略図である。 本発明の一実施形態に係るコンテンツ再生制御装置を含むシステムの他の使用状況を示す概略図である。 同実施形態に係るコンテンツ再生制御装置の機能の概略構成を示すブロック図である。 同実施形態に係るコンテンツ再生制御装置の動作の処理内容を示すフローチャートである。 同実施形態に係る属性と声色、及び属性と変化例の対応関係を示す表である。 同実施形態に係るコンテンツ再生制御装置の同期再生用動画音声データを作成処理する際の画面イメージである。
以下、本発明の一実施形態によるコンテンツ再生制御装置について図面を参照して説明する。図1(a)、図1(b)は、この発明の一実施形態によるコンテンツ再生制御装置100を含むシステムの使用状況を示す概略図である。
図1(a)、図1(b)に示すように、コンテンツ再生制御装置100は、例えば無線通信等を用いてコンテンツ供給装置である記憶装置200と接続されている。また、コンテンツ再生制御装置100は、コンテンツ映像再生装置であるプロジェクタ300と接続されている。このプロジェクタ300の出力光照射方向側にはスクリーン310が設置されている。プロジェクタ300は、コンテンツ再生制御装置100から供給されるコンテンツを受信して出力光にてコンテンツの映像内容として、後述する方法で作成保存されたものが、スクリーン310に例えば人物画像等映像320が投影される。
コンテンツ再生制御装置100は例えばキーボード等の文字入力部107を備えている。コンテンツ再生制御装置100は、文字入力部107により入力されたテキストデータを音声データに変換する。(詳しくは後述する。)
そして、コンテンツ再生制御装置100はスピーカ106を備えている。このスピーカ106より、文字入力部107により入力されたテキストデータに基づいた音声データの音声が動画コンテンツに同期するように放音される。(詳しくは後述する。)
記憶装置200には、ユーザによりデジタルカメラなどで撮影された画像データが例えば記憶されている。そして、記憶装置200はコンテンツ再生制御装置100からの指令に基づいてコンテンツ再生制御装置100に画像データを供給する。
プロジェクタ300は例えば、アレイ状に配列された複数、例えばXGA(横1024画素×縦768画素)個の微小ミラーの各傾斜角度を個々に高速でオン/オフ動作して表示動作することで、その反射光により光像を形成する表示素子であるDMDを利用したDLP(Digital Light Processing)(登録商標)方式のデータプロジェクタである。
スクリーン310は、投影するコンテンツの形状になるように樹脂板が切断されて作成されている。この背面投射型のプロジェクタ用のスクリーンフィルムが投影面に貼付され、背面投射用のスクリーンとしての機能を有する。このスクリーンフィルムは、市販されている高輝度、高コントラストを有するものを用いることにより、日中の明るさであっても、また、明るい居室内であっても、スクリーンに投影されたコンテンツを視認することができる。
さらに、コンテンツ再生制御装置100は、記憶装置200から供給された画像データを解析し、その画像データに応じた声色で、スピーカ106を通してアナウンスを実施する。
例えば、コンテンツ再生制御装置100に文字入力部107を介して「時計バーゲン開催中です。3階特設会場にお越し下さい。」というテキストが入力され、画像データとして「大人の男性」の映像が供給されたとする。すると、コンテンツ再生制御手段は、記憶装置200から供給された画像データを解析し、この画像データは「大人の男性」の映像であると判断する。
そして、コンテンツ再生制御手段は、「時計バーゲン開催中です。3階特設会場にお越し下さい。」というテキストデータを「大人の男性」の声色で発生できるように音声データを作成する。
図1(a)は、スクリーン310に対して大人の男性が投影されていることを示しており、視聴者に対して、スピーカ106を通して「大人の男性」の声色で「時計バーゲン開催中です。3階特設会場にお越し下さい。」というアナウンスを実施しているところを示している。
また、コンテンツ再生制御装置100は、記憶装置200から供給された画像データを解析し、文字入力部107から入力されたテキストデータを、その画像データに応じて変換する。
例えば、コンテンツ再生制御装置100に文字入力部107を介して「時計バーゲン開催中です。3階特設会場にお越し下さい。」というテキストが入力され、画像データとして「子供の女性」の顔映像が供給されたとする。すると、コンテンツ再生制御手段は、記憶装置200から供給された画像データを解析し、この画像データは「子供の女性」の映像であると判断する。
そして、コンテンツ再生制御手段100は、「時計バーゲン開催中です。3階特設会場にお越し下さい。」というテキストデータを「子供の女性」の映像に関連づけて「時計バーゲン開催中だよ。3階特設会場に来てね。」と変化させる。
図1(b)は、スクリーン310に対して子供の女性が投影されていることを示しており、視聴者に対して、スピーカ106を通して「子供の女性」の声色で「時計バーゲン開催中だよ。3階特設会場に来てね。」というアナウンスを実施しているところを示している。
次に図2により本実施形態に係るコンテンツ制御装置100の概略機能構成について説明する。
同図中、符号109は中央制御部(CPU)である。このCPU109がコンテンツ再生制御装置100での動作すべてを統括して制御する。
このCPU109は、記憶部110と直接接続される。記憶部110は全体制御プログラム110A、テキスト変化用データ110B、音声合成用素材データ110C、を記憶し、その他ワーク用領域110F等を備える。
全体制御プログラム110Aは、CPU109が実行する動作プログラムや各種定型データ等である。
テキスト変化用データ110Bは、後述する文字入力部107により入力されたテキスト情報を変化させる際に利用するデータである。(詳しくは後述する。)
音声合成用データ110Cは、テキストデータを適切なフォーマットの音声ファイル(音声データ)に変換するテキスト音声データ変換処理に用いられる音声合成素材のデータである音声合成用素材パラメータ110Dと、その周波数成分の変換等を行い、音声として出力される際の声色を変換させるために用いられる声色設定用パラメータ110Eとを有している。(詳しくは後述する。)
その他ワーク用データ領域110Fは、CPU109のワークメモリとして機能する。
CPU109は、上記記憶部110に記憶されているプログラムや定型データ等を読出し、その他ワーク用領域110Fに展開して当該プログラムを実行することにより、このコンテンツ再生制御装置を統括して制御する。
上記CPU109はさらに、操作部103と接続される。操作部103は図示しないリモコン等からのキー操作信号を受信し、当該キー操作信号をCPU109に供給する。CPU109は操作部103からの操作信号に応じて電源の投入やモード切替え等の各種動作を実行する。
上記CPU109はさらに、表示部104と接続される。表示部104は操作部103からの操作信号に対応した種々の操作状況等を表示する。
上記CPU109はさらに、通信部101、画像入力部102と接続される。
通信部101は例えば無線通信を利用して、CPU109からの命令に基づいて、所望する画像データを記憶装置200内から取得するために、取得信号を記憶装置200に送信する。記憶装置200は、その取得信号に基づいて自身が持つ画像データをコンテンツ再生制御装置100に供給する。尚、有線通信を利用して、画像データの取得信号等を記憶装置200に送信してもよいことは勿論である。
画像入力部102は記憶装置200から供給される画像データを無線通信又は有線通信により受け取り、CPU109にその画像データを渡す。
上記CPU109はさらに、文字入力部107と接続される。
文字入力部107は例えばキーボードであり、文字が打ち込まれるとそれに対応したテキスト(テキストデータ)をCPU109に対して渡す。
上記CPU109はさらに、音声出力部105及び映像出力部108と接続される。
音声出力部105にはスピーカ106が接続され、音声出力部105は、このスピーカ106を用いCPU109でテキストから音声変換された音声データを実際の音声に変換して音声発生させる。
映像出力部108はプロジェクタ300に、CPU109により編集された動画音声データの画像のデータ部分を供給する。
次に上記実施形態の動作について説明する。
なお以下に示す動作は、上述した如くCPU109がプログラムメモリ110Aから読出した動作プログラムや定型データ等をワーク用領域110Fに展開した上で実行するものである。全体制御プログラムとして記憶される動作プログラム等は、このコンテンツ再生制御装置100の工場出荷時に記憶されていたもののみならず、ユーザがこのコンテンツ再生制御装置100を購入後に通信部101を介して図示しないパーソナルコンピュータ等からインターネット経由でダウンロードしたバージョンアップ用のプログラム等によりインストールした内容を含む。
図3は、本実施形態に係るコンテンツ再生制御装置の同期再生用動画音声データ(コンテンツ)を作成に関する処理を示すフローチャートである。
まず、CPU109は、ユーザが音声を発声させたい主体となるものの画像の入力を画面等に表示して促し、画像入力がされたか否かを待機する(ステップS101)。画像入力は、静止画を指定して入力されてもよいし、動画データから所望の画面を指定して入力されるようにしてもよい。
その主体となるもの画像は、例えば、人の画像である。また、動物や物の画像であってもよく、その場合は、擬人化して音声が発声されることとなる。(詳しくは後述する。)
画像入力がされたと判断されると、CPU109は、その画像の特徴を解析し、その特徴から、主体の属性を抽出する(ステップS102)。
属性とは、例えば、図4に示す属性1〜3のようなものである。
ここでは、属性1として、主体が人間(人)か動物か物かが判別され抽出されるものとしている。
人間の場合、顔の特徴から性別、大体の年齢(大人か子供か)が更に抽出される。
また、画像の特徴から、主体が動物であると判断された場合、猫か犬かといった詳細な属性を抽出し、更に猫の種別や、犬の種別が判別される例を示している。
主体が物であった場合、画像の特徴点を抽出し、物に適した顔(キャラクターの顔)に対応する部分を作成するようにすればよい。
次に、CPU109は、このステップS102の特徴抽出処理により、所定の属性が所定の確度以上で抽出された否かを判断する(ステップS103)。
図4に示すような属性が所定の確度以上で抽出されたと判断された場合、CPU109は、その抽出された属性を主体画像に関する属性と決定する(ステップS104)。
図4に示すような所定の属性が所定の確度以上では抽出されなかったと判断された場合、CPU109は、属性を決定させるべく、図示しない設定用画面を表示させ、ユーザに属性を決定するように促す(ステップS105)。
そして、ユーザにより所定の属性が指定されたか否かを判断する(ステップS106)。
ユーザにより所定の属性が指定されたと判断された場合、その指定された属性を主体画像に関する属性と決定する(ステップS107)。
ユーザにより所定の属性が指定されなかったと判断された場合、CPU109は、デフォルトの属性(例えば、人、女性、大人)の属性を主体画像に関する属性と決定する(ステップS108)。
次に、CPU109は、画像の顔部分を判別して切り出す処理を行う(ステップS109)。この切り出しは、既存の顔認識技術を用いて、基本的には、自動で行われる。また、ユーザがマウス等を用いて手動で切り出すようにしてもよい。
なお、ここでは、属性決定、顔画像の切り出しの順番で、処理が行われる例で説明したが、顔画像の切り出しを行ってから、顔画像の輪郭の大きさや縦横比、目鼻口など特徴パーツの大きさや位置、形状などより、属性を決定する処理を行うようにしてもよい。
また、胸部より下の画像は、画像入力されたものをそのまま用いてもよいが、顔画像に適した画像が、その属性に基づいて自動的に生成されるようにすると、ユーザの画像の入力の自由度が増し、負荷が軽減される。
次に、CPU109は、顔画像のうち口元部分を含む発声に基づいて変化する部分の画像を抽出する(ステップS110)。ここでは、この部分の画像を発声変化部分画像と呼ぶことにする。
この発声変化部分画像には、発声情報に対応して変化する口元以外に、眼球や瞼、眉など顔の表情変化に関する部分が含まれる。
次に、CPU109は、ユーザが音声を発声させたいテキストの入力を促し、テキスト入力がされたか否かを待機する(ステップS111)。
テキスト入力がされたと判断されると、CPU109は、入力されたテキストの文章(構文)を解析する(ステップS112)。
次に、CPU109は、入力されたテキスト自体を、文章解析結果、前述した主体の属性に基づいて変化させるか否かを、ユーザに選択された指示に基づいて判別する(ステップS113)。
主体の属性に基づいてテキスト自体を変化させると指示されなかった場合(ステップS113、NO)、CPU109は、後述のステップS115に進む。
ここで、入力されたテキストを、主体の属性に基づいて変化させると指示された場合(ステップS113、YES)、CPU109は、テキストの属性対応変化処理を行う(ステップS114)。
このテキストの属性対応変化処理とは、入力されたテキストをテキストの形で変化させる処理である。
これは、記憶部110に記憶された属性に結びつけられたテキスト変化用データ110Bを参照して、変化させる。
具体的には、例えば、図4の表に記載したように、テキスト文をその語尾を変化させて異なるテキストに変化させる処理である。
この処理は、語尾に限らず、テキストの他の部分を属性に応じて変化させる処理を含む。
例えば、入力された文章の語尾が「〜です。」であり、テキストを発声させる主体が猫であった場合、語尾を「〜だニャン。」と変化させる。
そして、CPU109は、変化させたテキストを元にテキスト音声データ変換処理(音声合成処理)を行う(ステップS115)。
具体的には、記憶部110に記憶された音声合成用データ110Cとして、音声合成用素材パラメータと、前述した主体の属性毎に結びつけられた声色設定パラメータ110Dを参照して変換される。例えば、テキストを発声させる主体が子供の男性であった場合、音色として男性子供の声色で音声合成される。
また、属性に応じて、ピッチ(速度)といったパラメータも反映させて音声合成されるようにしてもよい。
次に、CPU109は、変換された音声データに基づいて、前述した発声変化部分の画像を変化させて、合成用の画像の作成の処理を行う(ステップS116)。
CPU109は、ここでは、前述した発声変化部分の画像を元に、音声データに連動するように各パーツの詳細の位置を適切に調整変化させることにより、いわゆる口パクデータを生成することができる。この口パクデータには、前述した口元の動き以外に、発声内容に関連する眼球や瞼、眉など顔の表情変化に関する動きも反映される。
口の開閉は多くの顔の筋肉の作用によって行われているため、例えば、成人男性では喉仏の動きが顕著であり、その動きもまた属性によって変化させることが重要になってくる。
そして、入力された元画像に作成された口パクデータ画像を元の画像に合成することにより、主体の顔部分の動画データが生成される(ステップS117)。
最後に、CPU109は、ステップS115で生成された音声データとS117で生成された動画データを動画音声データとして保存する(ステップS118)。
なお、ここでは、画像入力されてからテキスト入力させる例で説明したが、ステップS114の前であれば、テキスト入力が先で画像入力が後であってもよい。
このような同期再生用動画音声データを作成処理する際の画面イメージを図5に示す。
ユーザは、画像入力(選択)、切り出すべき画像を中央の画像入力(選択)、切り出し画面で指定する。
また、ユーザは、発声させたいテキストを画面右側のオリジナルテキスト入力欄に入力する。
テキスト自体を主体の属性に基づいて変化させるというボタン(変化ボタン)が押されれば(変化アイコンがクリックされれば)、属性に応じてテキストが変化され、音声に変換されるテキスト欄に表示される。
オリジナルテキストをそのまま音声データに変換させたい場合は、無変化ボタンが押されれば、テキストが変化されずに、オリジナルテキストが音声に変換されるテキスト欄に表示される。
また、再生ボタンを押すことで、音声に変換されるテキストが実際にどのように発声されるのかを音として確認することができる。
そして、決定された属性に基づいて、口パクデータが作成され、最終的に動画音声データが画面左側のプレビュー画面に表示され、プレビューボタンを押すことにより、動画音声データが再生されて、コンテンツの動作を確認することができる。
簡単のために省略するが、確認の上で、動画音声データを修正した場合は、適宜修正ができる機能を持たせることが望ましい。
そして、コンテンツ再生制御装置100は、ステップS112で保存された動画音声データを読み出して、音声出力部、映像出力部より出力する。
このような処理により、動画音声データをプロジェクタ300等のコンテンツ映像再生装置300に出力して、音声と同期させるように再生することにより、いわゆるデジタルマネキンを用いた案内等を実現することができる。
以上、詳述したように、上記実施形態によれば、ユーザが所望の画像を選んで発声させる主体を(選択)入力できるようにしたので、テキスト音声とテキスト音声を発声させる主体画像を自由に組み合わせて音声と動画を同期再生させることができる。
また、入力されたテキスト音声を発声させる主体の属性を決定した上で、その属性に基づいて、テキストを音声データに変換するようにしたので、主体画像に適した発声のさせ方(声色、イントネーション)で、テキストを発声表現することができる。
この主体の属性の決定は、画像認識処理技術を用いれば、属性を自動で抽出し決定することができる。
具体的には、属性として、性別を抽出し、主体が女性であれば、女性らしい声色での発声、男性であれば、男らしい声色での発声を実現することができる。
また、属性として、年齢を抽出し、主体が子供であれば、子供らしい声色での発声を実現することができる。
また、属性の決定は、ユーザの指定により決定することもできるようにしたので、属性の抽出が適切にされなかった場合にも臨機応変対応することができる。
また、入力されたテキスト音声を発声させる主体の属性を決定した上で、その属性に基づいて、テキストの段階で主体画像に適したテキストに変化させた上で音声データへの変換もできるようにしたので、より主体画像に適したテキストにて発声表現することができる。
例えば、主体の属性として、人間か動物かを抽出し、動物であれば、動物を擬人化したテキストに変化させた上で発声されるようにすれば、より親しみの持てるアナウンスを実現することができる。
また、テキストをテキストベースで変化させるか否かを設定して選択できるようにしたので、入力されたテキストをそのまま忠実に発声させることもできるし、主体の属性に応じて、テキストを変化させ、より適切なニュアンスを伝えるテキストで発声を実現するということもできる。
そして、いわゆる口パクデータを入力された画像に基づいて作成するようにしたので、入力された画像に適した動画データを作成することができる。
また、その際、発声に関係する部分のみを抽出して、口パクデータを作成し、元画像に合成するようにしたので、処理を軽くし、高速、省電力で動画データを作成することができる。
また、上記実施形態では、映像と音声を伴うコンテンツの映像部分を、プロジェクタを用い、人型のスクリーンに投影して、再生するようにしたので、視聴者に、コンテンツの内容(広告内容等)を、印象をづけるように再生することができる。
なお、上記実施形態では、主体の属性が所定の確度以上で抽出できなかった際に、属性が指定できるようにしたが、属性の抽出できたか否かに拘わらず、属性を指定できるようにしてもかまわない。
なお、上記実施形態では、映像と音声を伴うコンテンツの映像部分を、プロジェクタを用い、人型のスクリーンに投影して、再生するようにしたが、本発明はそれに限らず、直視型の表示装置に映像部分を表示する形態にも適用できることは言うまでもない。
また、上記実施形態では、当該コンテンツ再生制御装置100は、コンテンツ供給装置200、コンテンツ映像再生装置300と別体のものとして説明した。
しかし、当該コンテンツ再生制御装置100は、コンテンツ供給装置200及び又はコンテンツ映像再生装置300と一体になっているものであってもよい。
そのようにすれば、システムをよりコンパクトなものにすることができる。
その他、本発明は前述した実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、前述した実施形態で実行される機能は可能な限り適宜組み合わせて実施しても良い。前述した実施形態には種々の段階が含まれており、開示される複数の構成要件による適宜の組み合せにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、効果が得られるのであれば、この構成要件が削除された構成が発明として抽出され得る。
以下に、この出願の願書に最初に添付した特許請求の範囲に記載した発明を付記する。付記に記載した請求項の項番は、この出願の願書に最初に添付した特許請求の範囲の通りである。
〔付記〕
<請求項1>
コンテンツの再生を制御するコンテンツ再生制御装置であって、
音声再生すべきテキスト内容を入力するテキスト入力手段と、
当該テキスト入力手段により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力手段と、
前記テキスト内容を音声データに変換する変換手段と、
当該変換手段で変換された音声データに応じて、前記画像入力手段で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成手段と、
前記音声データと、前記生成手段で生成された前記動画データとを同期して再生させる再生制御手段と
を備えることを特徴とするコンテンツ再生制御装置。
<請求項2>
前記画像の属性を決定する決定手段を更に備え、
前記変換手段は、前記決定手段により決定された属性に基づいて、前記テキスト内容を音声データに変換することを特徴とする請求項1記載のコンテンツ再生制御装置。
<請求項3>
前記変換手段は、前記決定手段により決定された属性に基づいて、前記テキストを別のテキストに変化させた上で、変化させたテキストを音声データに変換することを特徴とする請求項2記載のコンテンツ再生制御装置。
<請求項4>
前記決定手段は、前記画像から画像解析により属性を抽出する属性抽出手段を含み、
前記決定手段は、前記属性抽出手段により抽出された属性を、前記主体の画像に関する属性であると決定することを特徴とする請求項2又は3記載のコンテンツ再生制御装置。
<請求項5>
前記決定手段は、ユーザに属性を指定させる属性指定手段を更に含み、
前記決定手段は、前記属性指定手段により指定された属性を、前記主体の画像に関する属性であると決定することを特徴とする請求項2〜4何れか記載のコンテンツ再生制御装置。
<請求項6>
前記決定手段は、前記画像の属性として、発声させる主体の性別を決定し、
前記変換手段は、決定された性別に基づいて、前記テキストを音声データに変換することを特徴とする請求項2〜5何れか記載のコンテンツ再生制御装置。
<請求項7>
前記決定手段は、前記画像の属性として、発声させる主体の年齢を決定し、
前記変換手段は、決定された年齢に基づいて、前記テキストを音声データに変換することを特徴とする請求項2〜6何れか記載のコンテンツ再生制御装置。
<請求項8>
前記決定手段は、画像の属性として、発声させる主体が人か動物か物かを決定し、
前記変換手段は、決定された結果に基づいて、前記テキストを音声データに変換することを特徴とする請求項2〜7何れか記載のコンテンツ再生制御装置。
<請求項9>
前記変換手段は、前記決定手段により決定された属性に基づいて、再生速度を設定し、前記テキスト内容を音声データに変換することを特徴とする請求項2〜8何れか記載のコンテンツ再生制御装置。
<請求項10>
前記生成手段は、前記画像入力手段により入力された画像の発声に関する画像部分を抽出する画像抽出手段を含み、
前記生成手段は、前記画像抽出手段により抽出された発声に関する画像部分を、前記変換手段で変換された音声データに応じて変化させ、変化させた画像を前記画像入力手段により入力された画像に合成することにより前記動画データを生成することを特徴とする請求項1〜9何れか記載のコンテンツ再生制御装置。
<請求項11>
コンテンツの再生を制御するコンテンツ再生制御方法であって、
音声再生すべきテキスト内容を入力するテキスト入力工程と、
当該テキスト入力工程により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力工程と、
前記テキスト内容を音声データに変換する変換工程と、
当該変換工程で変換された音声データに応じて、前記画像入力工程で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成工程と、
前記音声データと、前記生成工程で生成された前記動画データとを同期して再生させる再生制御工程と
を備えることを特徴とするコンテンツ再生制御方法。
<請求項12>
コンテンツの再生を制御する装置が内蔵するコンピュータが実行するプログラムであって、
前記コンピュータを、
音声再生すべきテキスト内容を入力するテキスト入力手段、
当該テキスト入力手段により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力手段、
前記テキスト内容を音声データに変換する変換手段、
当該変換手段で変換された音声データに応じて、前記画像入力手段で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成手段、
前記音声データと、前記生成手段で生成された前記動画データとを同期して再生させる再生制御手段
として機能させることを特徴とするプログラム。
100…コンテンツ再生制御装置、101…通信部、102…画像入力部、103…操作部、104…表示部、105…音声出力部、106…スピーカ、107…文字入力部、108…映像出力部、109…CPU、110…記憶部、111、200…記憶装置、300…プロジェクタ、310…スクリーン、320…コンテンツの内容として投影された映像。

Claims (12)

  1. コンテンツの再生を制御するコンテンツ再生制御装置であって、
    音声再生すべきテキスト内容を入力するテキスト入力手段と、
    当該テキスト入力手段により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力手段と、
    前記テキスト内容を音声データに変換する変換手段と、
    当該変換手段で変換された音声データに応じて、前記画像入力手段で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成手段と、
    前記音声データと、前記生成手段で生成された前記動画データとを同期して再生させる再生制御手段と
    を備えることを特徴とするコンテンツ再生制御装置。
  2. 前記画像の属性を決定する決定手段を更に備え、
    前記変換手段は、前記決定手段により決定された属性に基づいて、前記テキスト内容を音声データに変換することを特徴とする請求項1記載のコンテンツ再生制御装置。
  3. 前記変換手段は、前記決定手段により決定された属性に基づいて、前記テキストを別のテキストに変化させた上で、変化させたテキストを音声データに変換することを特徴とする請求項2記載のコンテンツ再生制御装置。
  4. 前記決定手段は、前記画像から画像解析により属性を抽出する属性抽出手段を含み、
    前記決定手段は、前記属性抽出手段により抽出された属性を、前記主体の画像に関する属性であると決定することを特徴とする請求項2又は3記載のコンテンツ再生制御装置。
  5. 前記決定手段は、ユーザに属性を指定させる属性指定手段を更に含み、
    前記決定手段は、前記属性指定手段により指定された属性を、前記主体の画像に関する属性であると決定することを特徴とする請求項2〜4何れか記載のコンテンツ再生制御装置。
  6. 前記決定手段は、前記画像の属性として、発声させる主体の性別を決定し、
    前記変換手段は、決定された性別に基づいて、前記テキストを音声データに変換することを特徴とする請求項2〜5何れか記載のコンテンツ再生制御装置。
  7. 前記決定手段は、前記画像の属性として、発声させる主体の年齢を決定し、
    前記変換手段は、決定された年齢に基づいて、前記テキストを音声データに変換することを特徴とする請求項2〜6何れか記載のコンテンツ再生制御装置。
  8. 前記決定手段は、画像の属性として、発声させる主体が人か動物か物かを決定し、
    前記変換手段は、決定された結果に基づいて、前記テキストを音声データに変換することを特徴とする請求項2〜7何れか記載のコンテンツ再生制御装置。
  9. 前記変換手段は、前記決定手段により決定された属性に基づいて、再生速度を設定し、前記テキスト内容を音声データに変換することを特徴とする請求項2〜8何れか記載のコンテンツ再生制御装置。
  10. 前記生成手段は、前記画像入力手段により入力された画像の発声に関する画像部分を抽出する画像抽出手段を含み、
    前記生成手段は、前記画像抽出手段により抽出された発声に関する画像部分を、前記変換手段で変換された音声データに応じて変化させ、変化させた画像を前記画像入力手段により入力された画像に合成することにより前記動画データを生成することを特徴とする請求項1〜9何れか記載のコンテンツ再生制御装置。
  11. コンテンツの再生を制御するコンテンツ再生制御方法であって、
    音声再生すべきテキスト内容を入力するテキスト入力工程と、
    当該テキスト入力工程により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力工程と、
    前記テキスト内容を音声データに変換する変換工程と、
    当該変換工程で変換された音声データに応じて、前記画像入力工程で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成工程と、
    前記音声データと、前記生成工程で生成された前記動画データとを同期して再生させる再生制御工程と
    を備えることを特徴とするコンテンツ再生制御方法。
  12. コンテンツの再生を制御する装置が内蔵するコンピュータが実行するプログラムであって、
    前記コンピュータを、
    音声再生すべきテキスト内容を入力するテキスト入力手段、
    当該テキスト入力手段により入力された前記テキスト内容を発声させる主体の画像を入力する画像入力手段、
    前記テキスト内容を音声データに変換する変換手段、
    当該変換手段で変換された音声データに応じて、前記画像入力手段で入力された画像を元に、当該画像の口元を含む発声に関する対応部分を変化させた動画データを生成する生成手段、
    前記音声データと、前記生成手段で生成された前記動画データとを同期して再生させる再生制御手段
    として機能させることを特徴とするプログラム。
JP2012178620A 2012-08-10 2012-08-10 コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム Pending JP2014035541A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012178620A JP2014035541A (ja) 2012-08-10 2012-08-10 コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム
PCT/JP2013/004466 WO2014024399A1 (en) 2012-08-10 2013-07-23 Content reproduction control device, content reproduction control method and program
US14/420,027 US20150187368A1 (en) 2012-08-10 2013-07-23 Content reproduction control device, content reproduction control method and computer-readable non-transitory recording medium
CN201380041604.4A CN104520923A (zh) 2012-08-10 2013-07-23 内容再现控制设备、内容再现控制方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012178620A JP2014035541A (ja) 2012-08-10 2012-08-10 コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2014035541A true JP2014035541A (ja) 2014-02-24

Family

ID=49447764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012178620A Pending JP2014035541A (ja) 2012-08-10 2012-08-10 コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム

Country Status (4)

Country Link
US (1) US20150187368A1 (ja)
JP (1) JP2014035541A (ja)
CN (1) CN104520923A (ja)
WO (1) WO2014024399A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017007033A (ja) * 2015-06-22 2017-01-12 シャープ株式会社 ロボット
CN110867177A (zh) * 2018-08-16 2020-03-06 林其禹 音色可选的人声播放系统、其播放方法及可读记录介质
CN114467140A (zh) * 2020-08-05 2022-05-10 互动解决方案公司 基于语音来改变图像的系统
JP2022538702A (ja) * 2020-05-27 2022-09-06 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声パケット推薦方法、装置、電子機器およびプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794104A (zh) * 2015-04-30 2015-07-22 努比亚技术有限公司 多媒体文档的生成方法及装置
WO2017176527A1 (en) * 2016-04-05 2017-10-12 Carrier Corporation Apparatus, system, and method of establishing a communication link
JP7107017B2 (ja) * 2018-06-21 2022-07-27 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム
CN109218629B (zh) * 2018-09-14 2021-02-05 三星电子(中国)研发中心 视频生成方法、存储介质和装置
CN112562721B (zh) * 2020-11-30 2024-04-16 清华珠三角研究院 一种视频翻译方法、系统、装置及存储介质
CN112580577B (zh) * 2020-12-28 2023-06-30 出门问问(苏州)信息科技有限公司 一种基于面部关键点生成说话人图像的训练方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05153581A (ja) * 1991-12-02 1993-06-18 Seiko Epson Corp 顔画像符号化方式
JP2002190009A (ja) * 2000-12-22 2002-07-05 Minolta Co Ltd 電子アルバム装置および電子アルバムプログラムを記録したコンピュータ読取可能な記録媒体
JP2005202552A (ja) * 2004-01-14 2005-07-28 Pioneer Electronic Corp 文章生成装置及び方法
JP2005257747A (ja) * 2004-03-09 2005-09-22 Nec Corp 音声合成装置、声質生成装置及びプログラム
JP2008241772A (ja) * 2007-03-26 2008-10-09 Konami Digital Entertainment:Kk 音声画像処理装置、音声画像処理方法、ならびに、プログラム
JP2010141412A (ja) * 2008-12-09 2010-06-24 Canon Inc 画像選択装置及びその制御方法
JP2010238133A (ja) * 2009-03-31 2010-10-21 Namco Bandai Games Inc プログラム、情報記憶媒体、口形状制御方法及び口形状制御装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05313686A (ja) * 1992-04-02 1993-11-26 Sony Corp 表示制御装置
US6963839B1 (en) * 2000-11-03 2005-11-08 At&T Corp. System and method of controlling sound in a multi-media communication application
EP1271469A1 (en) * 2001-06-22 2003-01-02 Sony International (Europe) GmbH Method for generating personality patterns and for synthesizing speech
US20030163315A1 (en) * 2002-02-25 2003-08-28 Koninklijke Philips Electronics N.V. Method and system for generating caricaturized talking heads
US20040203613A1 (en) * 2002-06-07 2004-10-14 Nokia Corporation Mobile terminal
AU2002950502A0 (en) * 2002-07-31 2002-09-12 E-Clips Intelligent Agent Technologies Pty Ltd Animated messaging
GB0702150D0 (en) * 2007-02-05 2007-03-14 Amegoworld Ltd A Communication Network and Devices
US7853659B2 (en) * 2008-11-25 2010-12-14 International Business Machines Corporation Method for presenting personalized, voice printed messages from online digital devices to hosted services
US20100299134A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Contextual commentary of textual images
WO2011119117A1 (en) * 2010-03-26 2011-09-29 Agency For Science, Technology And Research Facial gender recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05153581A (ja) * 1991-12-02 1993-06-18 Seiko Epson Corp 顔画像符号化方式
JP2002190009A (ja) * 2000-12-22 2002-07-05 Minolta Co Ltd 電子アルバム装置および電子アルバムプログラムを記録したコンピュータ読取可能な記録媒体
JP2005202552A (ja) * 2004-01-14 2005-07-28 Pioneer Electronic Corp 文章生成装置及び方法
JP2005257747A (ja) * 2004-03-09 2005-09-22 Nec Corp 音声合成装置、声質生成装置及びプログラム
JP2008241772A (ja) * 2007-03-26 2008-10-09 Konami Digital Entertainment:Kk 音声画像処理装置、音声画像処理方法、ならびに、プログラム
JP2010141412A (ja) * 2008-12-09 2010-06-24 Canon Inc 画像選択装置及びその制御方法
JP2010238133A (ja) * 2009-03-31 2010-10-21 Namco Bandai Games Inc プログラム、情報記憶媒体、口形状制御方法及び口形状制御装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017007033A (ja) * 2015-06-22 2017-01-12 シャープ株式会社 ロボット
CN110867177A (zh) * 2018-08-16 2020-03-06 林其禹 音色可选的人声播放系统、其播放方法及可读记录介质
JP2020056996A (ja) * 2018-08-16 2020-04-09 國立臺灣科技大學 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体
JP2022538702A (ja) * 2020-05-27 2022-09-06 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声パケット推薦方法、装置、電子機器およびプログラム
JP7240505B2 (ja) 2020-05-27 2023-03-15 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声パケット推薦方法、装置、電子機器およびプログラム
CN114467140A (zh) * 2020-08-05 2022-05-10 互动解决方案公司 基于语音来改变图像的系统
US11568877B2 (en) 2020-08-05 2023-01-31 Interactive Solutions Corp. System to change image based on voice

Also Published As

Publication number Publication date
US20150187368A1 (en) 2015-07-02
CN104520923A (zh) 2015-04-15
WO2014024399A1 (en) 2014-02-13

Similar Documents

Publication Publication Date Title
JP2014035541A (ja) コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム
US9332100B2 (en) Portable communications device
JP2014011676A (ja) コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム
US20080275700A1 (en) Method of and System for Modifying Messages
JP6665446B2 (ja) 情報処理装置、プログラム及び音声合成方法
JP2020056996A (ja) 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体
JP2020160341A (ja) 動画出力システム
JP2003530654A (ja) キャラクタのアニメ化
JP5045519B2 (ja) 動作生成装置、ロボット及び動作生成方法
EP3548156B1 (en) Animated character head systems and methods
KR19980082608A (ko) 다중매체와의 연동을 위한 텍스트/음성변환기 및 그 입력 데이터 구조화 방법
TW201233413A (en) Input support device, input support method, and recording medium
KR20150076128A (ko) 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법
US7315820B1 (en) Text-derived speech animation tool
JPH11109991A (ja) マンマシンインターフェースシステム
US20240022772A1 (en) Video processing method and apparatus, medium, and program product
CN112348932A (zh) 口型动画录制方法及装置、电子设备、存储介质
JP3569278B1 (ja) 発音学習支援方法、学習者端末及び処理プログラム並びに該プログラムを記録した記録媒体
Fletcher et al. Speech modification by a deaf child through dynamic orometric modeling and feedback
JP4276393B2 (ja) 番組制作支援装置及び番組制作支援プログラム
JP6902127B2 (ja) 動画出力システム
US20080228497A1 (en) Method For Communication and Communication Device
JP4720974B2 (ja) 音声発生装置およびそのためのコンピュータプログラム
JP2001005476A (ja) プレゼンテーション装置
JP4052561B2 (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170314

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171003