JP2010224782A - 動画生成装置、動画生成方法、及び、動画生成プログラム - Google Patents

動画生成装置、動画生成方法、及び、動画生成プログラム Download PDF

Info

Publication number
JP2010224782A
JP2010224782A JP2009070315A JP2009070315A JP2010224782A JP 2010224782 A JP2010224782 A JP 2010224782A JP 2009070315 A JP2009070315 A JP 2009070315A JP 2009070315 A JP2009070315 A JP 2009070315A JP 2010224782 A JP2010224782 A JP 2010224782A
Authority
JP
Japan
Prior art keywords
image
message
moving image
face
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009070315A
Other languages
English (en)
Inventor
Shigeru Kafuku
滋 加福
Keisuke Shimada
敬輔 島田
Daisei Kasahara
大聖 笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2009070315A priority Critical patent/JP2010224782A/ja
Publication of JP2010224782A publication Critical patent/JP2010224782A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】他人が撮影した画像でも、撮影時の場面や状況を十分に楽しめるように、静止画に高い自由度で容易にメッセージを付加することができるようにする。
【解決手段】デジタルカメラ100にて背景差分除去により、母音、撥音の発話状態の顔画像を取得し、これをPC200に送信する、PC200ではこれらの顔画像と取得するとともに、合成したい画像、合成したいコメント、及び、各発話状態の顔画像とをサーバ300に送信する。サーバ300では、これら送信されたデータに含まれる合成させたいコメントを対応する母音又は撥音に変換して、1文字ごとに対応する発話状態の顔画像を画像に合成したものをフレーム画像とした動画を生成する。動画は、通信ネットワーク500を介して接続されたフォトフレーム400に送信され、フォトフレーム400にて再生表示される。
【選択図】図1

Description

本発明は、静止画を複数枚合成することにより動画を生成する動画生成装置、動画生成方法、及び、動画生成プログラムに関する。
SDカード、MMCカード又はUSBメモリカード等の記憶媒体に記憶された画像や通信ネットワークを介して受信した画像を再生するデジタルフォトフレームが存在する。
このようなデジタルフォトフレームによって、自分が撮影した画像以外に、他人が撮影した画像をデータとして提供してもらうことで、容易に他人が撮影した画像を再生して楽しむことができる。
また、撮影した静止画と音声メッセージとを対応付けさせ、静止画再生時に音声メッセージを出力することで、演出効果を高めた画像再生技術が存在する。このように静止画と音声メッセージとを対応付けさせるにあたり、予め複数の静止画の表示順序を設定した後、音声メッセージの録音を行うことで、簡単に対応付けをさせる技術が開示されている(例えば、特許文献1)。
特開2004−134984号公報
他人が撮影した画像は、その画像だけを見ていてもどういう場面、どういう状況の写真なのかが分からない場合も多く、特に静止画の場合には、ある瞬間的な画像しか得られていないため、見た人にはその場面・状況が伝わりにくい。
そのため、その場面・状況を説明した音声を画像とともに収録して再生することが考えられる。しかしながら、例えば、特許文献1に記載の技術を用いて画像に音声メッセージを対応付けるとしても、演出面において自由度が低く、随時、画像の撮影と音声の録音とを行う必要があるなどという課題があった。或いは、その場面・状況を説明した説明コメントを入力して音声変換し、画像の再生に合せて音声も再生することも考えられるが、画像と音声とに一体性がなく、あまりに味気ない画像となってしまう。
本発明は、かかる課題に鑑みてなされたものであり、他人が撮影した画像でも、撮影時の場面や状況を十分に楽しむことができるように、静止画に高い自由度で容易にメッセージを付加することができるようにすることを目的とする。
前記課題を解決するため請求項1記載の発明に係る動画生成装置にあっては、撮像により各母音と撥音を発話した状態の顔画像を取得する顔画像取得手段と、メッセージを取得するメッセージ取得手段と、取得した顔画像及びメッセージを記憶する記憶手段と、前記記憶手段に記憶されたメッセージを、所定の規則に従って母音と撥音とからなる文字列に変換する変換手段と、前記変換手段によって変換された文字列に含まれる母音と撥音に基づいて、対応する複数の顔画像を前記記憶手段より読み出す読出手段と、前記記憶手段に記憶されたメッセージを合成し、且つ、前記読出手段によって読み出された複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成する生成手段と、を備えることを特徴とする。
また、請求項2記載の発明に係る動画生成装置にあっては、前記生成手段は更に、任意に入力された画像を背景とし、前記複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成することを特徴とする。
また、請求項3記載の発明に係る動画生成装置にあっては、前記生成手段は更に、前記動画の最初と最後に、前記撥音を発話した状態の顔画像を含ませることを特徴とする。
また、請求項4記載の発明に係る動画生成方法にあっては、撮像により各母音と撥音を発話した状態の顔画像を取得する顔画像取得ステップと、メッセージを取得するメッセージ取得ステップと、取得した顔画像及びメッセージを記憶部に記憶させる記憶ステップと、前記記憶部にて記憶されたメッセージを、所定の規則に従って母音と撥音とからなる文字列に変換する変換ステップと、前記変換ステップにて変換された文字列に含まれる母音と撥音に基づいて、対応する複数の顔画像を前記記憶部より読み出す読出ステップと、前記記憶部に記憶されたメッセージを合成し、且つ、前記読出ステップにて読み出された複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成する生成ステップと、を含むことを特徴とする。
また、請求項5記載の発明に係る動画生成プログラムにあっては、コンピュータを撮像により各母音と撥音を発話した状態の顔画像を取得する顔画像取得手段、メッセージを取得するメッセージ取得手段、取得した顔画像及びメッセージを記憶部に記憶させる記憶手段、前記記憶部に記憶されたメッセージを、所定の規則に従って母音と撥音とからなる文字列に変換する変換手段、前記変換手段によって変換された文字列に含まれる母音と撥音に基づいて、対応する複数の顔画像を前記記憶部より読み出す読出手段、前記記憶部に記憶されたメッセージを合成し、且つ、前記読出ステップにて読み出された複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成する生成手段、として機能させることを特徴とする。
本発明によれば、予め記憶された数種類の顔画像の組み合わせと相手に伝えたいメッセージとが連携した動画を生成することから、あたかも撮影時にメッセージしたかのような画像によって撮影時の場面や状況を伝えることができる。
本発明の一実施の形態の動画生成システムの概要を示す図である。 本発明の一実施の形態のデジタルカメラの電気的構成を示したブロック図である。 本発明の一実施の形態のデジタルカメラのブロックマッチング部の処理内容を説明する図である。 図3のデジタルカメラにおけるCPUの処理工程を説明するフローチャートである。 本発明の一実施の形態のPCの電気的構成を示したブロック図である。 図5のPCにおけるCPUの処理工程を説明するフローチャートである。 画像に説明コメントを付加する処理を説明する図である。 図7aに続く、画像に説明コメントを付加する処理を説明する図である。 図7bに続く、画像に説明コメントを付加する処理を説明する図である。 本発明の一実施の形態のサーバの電気的構成を示したブロック図である。 サーバにおけるCPUの処理工程を説明するフローチャートである。 図9の処理工程によって生成する画像データの概念を示す概略図である。 合成動画の一例を示す図である。 デジタルフォトフレームの電気的構成を示したブロック図である。 デジタルフォトフレームにおけるCPUの処理工程を説明するフローチャートである。
図1は、本発明の一実施の形態の動画生成システムの概要を示す図であり、動画生成システムは、撮像装置としてのデジタルカメラ100と、通信ネットワーク500を介して外部との通信を行うコンピュータであるPC200と、動画生成装置としてのサーバ300と、画像の再生を行うフォトフレーム400と、から構成される。なお、PC200の諸機能が搭載されたデジタルカメラ100にあっては、デジタルカメラ100とPC200とを一体として本システムを把握することができる。PC200、サーバ300、フォトフレーム400が相互にデータを送受信する手法は、通信ネットワーク500を介してもよいし、着脱可能な記憶媒体によってもよい。すなわち、あらゆる手法が適用可能である。
[顔画像の撮像]
図2は、本発明の一実施の形態のデジタルカメラ100の電気的構成を示したブロック図である。このデジタルカメラは、基本となる動作モードとして撮影を行うための記録モードと、撮影した画像を再生するための再生モードと、を有する。
図2に示すように本実施の形態のデジタルカメラ100は、撮影レンズ1と、撮影レンズ1により収束された撮影光をシャッタ2を介して受光するとともに、受光面に結像された被写体の光学像を光電変換し画像信号として出力する撮像部3、この撮像部3の出力信号をデジタルの画像データへ変換するA/D変換器4、変換後の画像データを逐次記憶するDRAM5を備えている。
シャッタ2の動作は、CPUコア7aの命令に従いシャッタ制御部7bにより制御され、撮像部3及びA/D変換器4の動作はCPUコア7aの命令に従い受光制御部7cにより制御される。DRAM5に格納された1枚分の画像データ、すなわちRAWデータはデモザイク部7dにより画素毎に色情報を補間されてYUVデータに変換された後、液晶表示コントローラ6を介して液晶表示画面8に表示される。なお、変換されたYUVデータもDRAM5に一時的に記憶される。
記録モードでの撮影時にデモザイク部7dによりYUVデータに変換された画像データは、CPUコア7aによってJPEG等の所定の圧縮方式に従い圧縮された後、外部記憶媒体11に静止画ファイル又は動画ファイルとして記録される。外部記憶媒体11に記録された画像データは、再生モードにおいては、必要に応じてCPUコア7aに読み出されて伸張された後、液晶表示コントローラ6を介して液晶表示画面8において表示される。なお、外部記憶媒体11は、例えばカメラ本体に着脱自在なメモリカードや、カメラ本体に内蔵されたフラッシュメモリ等により構成される。
また、CPUコア7aには、ブロックマッチング部7fの他、シャッタボタン9、モードボタン10が接続されている。なお、CPUコア7a内のメモリには、CPUコア7aの動作に必要な種々のプログラム及びプログラムの実行に際して使用される各種のデータが記憶されているが、これらはCPUコア7aとは別のメモリに記憶されていてもよい。
CPUコア7aは、プログラムに従いシャッタボタン9の押下操作に応じてデジタルカメラの各部の動作を制御する機能を有する。
ブロックマッチング部7fは、SRAM7eを作業メモリとして使用し、撮像部3により撮像された複数枚の画像を位置合わせしてマッチングを行い、マッチングされた撮像画角の画像を差分除去することによって、顔画像を生成する。図3は、このブロックマッチング部7fが行う処理内容を説明する図である。
ブロックマッチング部7fは、上記記録モードの一部として、予め設定された記録行程に従い、被写体画像(顔画像を含む)を含まない背景画像110(図3(a)参照)と、上記被写体画像(顔画像を含む)を含む背景画像111とが記録され、SRAM7eに一時記憶されると、背景画像111から背景画像110を画素ブロックレベルで差分除去し、背景部分を透過領域113、被写体画像(顔画像含む)部分を非透過領域114とした画像112を生成する(図3(c)参照)。
なお、図3(c)においては、全身を含む顔画像を撮影画角として得ているが、肩から上の部分のみを顔画像として切り取ったり、上半身のみを切り取ったりといった編集は自由に行うことができる。また、顔画像を含まない画像から顔画像を含む画角を差分除去する際には、一画像を4×4の16ブロックに区画してブロックごとの差分の有無を検出し、顔画像を含まない撮像画角と顔画像を含む撮影画角とで差分が生じている場合には、設定により差分の小さいブロックは破棄するなどの処理を行うことで、ノイズに対するロバスト性をあげることができる。一方、差分の大きいブロックについては顔画像を含む領域である可能性が高いので破棄せずに残しておく。
ここで、各母音や撥音を発する時の顔画像の撮像については、被写体が「あ」「い」「う」「え」「お」「ん」と発話している様子を連写撮影又は動画撮影して取得する。DRAM5に記録された連写画像又は動画は、ビタビアライメントによりどのフレームで何と発話しているのかが特定できるので、典型的な「あ」を発話しているフレームの位置を推定して切り出し、これを「あ」の顔画像として記憶する。以下同様に、「い」「う」「え」「お」「ん」のフレーム位置も推定して切り出し、それぞれの顔画像として外部記憶媒体11に記憶する。
図4は、複数枚の画像を撮像し、ブロックマッチング部7fを用いて撮像画角の画像を切り抜いて顔画像を生成する工程を説明するフローチャートである。複数枚の画像を撮像し、顔画像を生成する処理はすべてCPUコア7aの制御の下で行われる。図4を参照して、顔画像を生成する際のデジタルカメラ100におけるCPUコア7aの処理工程について説明する。
まず、CPUコア7aは、ユーザの操作に従って、図3(a)に示すような被写体を含まない画像110を取得し、SRAM7e一時記憶する。
この後、画像110と略同一の光景を背景として被写体人物に「あ、い、う、え、お、ん」と順次を発話してもらい、発話時の被写体人物の顔(望ましくは発話時の口の形が明確に分かる状態の顔)を順次撮影する(ステップSA1)。具体的には、CPUコア7aは、ユーザの操作に従って、被写体人物が「あ」「い」「う」「え」「お」「ん」と発話している時、連写撮影又は動画撮影を行い、DRAM5に記憶する。次に、音声認識的手法により、連写撮影若しくは動画撮影された複数の画像(動画撮影の場合はフレーム画像)から、上述の差分除去処理の対象となるフレーム画像を選択する(ステップSA2)。具体的には、CPUコア7aは連写撮影若しくは動画撮影により得られた複数の画像(動画撮影の場合はフレーム画像)について、被写体人物が「あ」「い」「う」「え」「お」「ん」の6つの発話について、発話した瞬間に撮像された画像(フレーム画像)を広く知られているビタビアライメントなどにより順次選択する(ステップSA2)。そしてこの後、順次選択された各画像について、上述の差分除去処理により被写体人物の顔部分を切り出して、これを非透過画像とした画像112を各発話状態を示す情報と対応付けて、順次外部記憶媒体11に保存する(ステップSA3)。
次に、PC200の処理内容ついて説明する。
[メッセージ入力と顔画像の取り込み]
図5は、本発明の一実施の形態のPC200の電気的構成を示したブロック図である。
PC200は、バス27を介して各種の機器が接続されており、CPU20と、ROM21と、RAM22と、インターフェイス23と、入力手段24と、出力手段26と、が接続されている。PC200は、パーソナルコンピュータだけではなく、PHS、携帯電話、衛星携帯電話、PDA、電子手帳等に代表される通信端末を用いて、映像、音声、及び文字情報を活用し通信ネットワーク500に接続可能な情報通信機器を含むものとする。
CPU20は、ROM21に記憶されているプログラムやデータを読み出し、それを用いることでPC200の制御を行う。ROM21は、カメラ100からの画像の取り込みや通信ネットワーク500への接続を行うための各種プログラムが記憶されている。RAM22は、CPU20がプログラムを実行するための作業領域を提供する。インターフェイス23は、CPU20からの命令に基づいて様々を処理が実行される他の機器を接続するものであり、ネットワークインタフェイスとしても機能する。
入力手段24は、撮影者によるメッセージの入力を受け付け、入力されたメッセージはRAM22に一時的に記憶される。また、インターフェイス23にデジタルカメラ100を接続して、上述の図4の処理によって保存された各発話状態の画像(顔画像)112を順次RAM22に取り込む。さらに、合成させたい画像(例えば、背景画像)をRAM22に取り込む。このようにして、RAM22には、各発話状態の画像(顔画像)112と合成させたい画像(例えば、背景画像)とが記憶され、それらを含めた一連のデータを通信ネットワーク500を介してサーバ300に送信する。このとき、合成させたい画像における各発話状態の画像の合成位置を示す合成位置情報もサーバ300に送信する。
図6は、合成させたい画像、各発話状態の画像、及び、合成させたいコメントをPC200からサーバ300へ送信する工程を説明するフローチャートである。
図7は、合成させたい画像に合成させたいコメントを付加する処理を説明する図である。図6と図7を参照して、合成させたい画像と合成させたいコメントとをサーバ300に送信する際のPC200におけるCPU20の処理工程について下記に詳述する。
まず、ユーザの操作に従いCPU20は合成させたい画像を選択する(ステップSB1)。具体的には、CPU20は、ユーザが選択した画像の情報を入力手段24から受け付けるとともに、予めインターフェイス23に接続されたデジタルカメラ100から画像120(図7(a)参照)をRAM22に取り込む。続いて、ユーザの操作に従い取り込むべき各発話状態の顔画像112を選択する(ステップSB2)。具体的には、CPU20は、ユーザが選択した切り抜き画像群の情報を入力手段24から受け付け、図4の処理により外部記憶媒体11に保存した顔画像112(図7(b)の「あ」の発話状態の顔画像112a、「う」の発話状態の顔画像112b、「お」の発話状態の顔画像112c等)をRAM22に取り込む。次に、ユーザの操作に従い画像120における顔画像112の合成位置を設定する(ステップSB3)。具体的には、CPU20は、入力手段24からユーザが設定した画像120に対する顔画像112の合成表示位置情報を、例えば、図7(c)に図示するように、「合成位置を選択してください」のメッセージ132と、合成対象となる画像130と、顔画像を合成対象となる画像の右上に仮合成させた状態131tr、顔画像を合成対象となる画像の右下に仮合成させた状態131tb、顔画像を合成対象となる画像の中央に仮合成させた状態131c、顔画像を合成対象となる画像の左上に仮合成させた状態131tl、顔画像を合成対象となる画像の左下に仮合成させた状態131blとを表示し、ユーザの選択操作に従って、画像120のどの位置に切り抜き画像群を表示するかを決定し、その情報をRAM22に取り込む。続いて、合成させたいコメントを入力する(ステップSB4)。具体的には、CPU20は、入力手段24からユーザからのテキスト入力、例えば、「動物園に行きました」というコメントを受け付け、その情報をRAM22に取り込む。続いて、これらの情報をサーバ300に送信する(ステップSB5)。具体的には、CPU20は、入力手段24から入力されるユーザの指示に応じて、合成させたい画像120、各発話状態の顔画像112、合成位置情報、及び、合成させたいコメントをサーバ300に送信する。
[動画生成]
図8は、本発明の一実施の形態のサーバ300の電気的構成を示したブロック図である。
サーバ300は、総合的な情報処理を担うCPU32と、RAM33とROM34等から構成される記憶装置部35と、主にNIC(ネットワーク・インターフェイス・カード)から構成され、通信ネットワーク500を介した種々のデータを双方向でやりとりする通信制御部36と、から構成される。記憶装置部35は、CPU32の主記憶又はワークエリア等として機能するRAM33と、ブートプログラム、ネットワークプログラム等の格納庫として機能するROM34と、を有する。なお、CPU32は、本発明の顔画像取得手段、メッセージ取得手段、変換手段、読出手段、生成手段、背景画像取得手段、合成動画生成手段として機能する。また、ROM34には、本実施の形態の各種情報も記憶されている。
図9は、サーバ300におけるCPU32の処理工程を説明するフローチャートである。
CPU32は、セッション待ちの状態からユーザログインの処理を介して、PC200から通信ネットワーク500を介して送信されるデータを通信制御部36によって受信する(ステップSC1)。PC200から受信するデータは、各発話状態の顔画像112、合成させたい画像120、合成させたいコメント、及び、合成位置情報である。取得したこれらのデータはRAM33に記憶される(ステップSC2)。
次に、CPU32は受信した合成させたいコメントを所定の規則に従って変換する(ステップSC3)。すなわち、上記コメントをテキスト解析して構成文字ごとに分解し、一つのかな文字に対応する母音にそれぞれ変換していく。次に母音変換を行う。具体的には、一つのかな文字と母音とを対応付けしたデータテーブルはROM34に格納されているので、CPU32は、ROM34に格納されたデータテーブル(五十音表)を参照して一つのかな文字を母音に変換していく。なお、データテーブル上で「、」や「。」は撥音「ん」に対応付けされている。
例えば、「どうぶつえんに、いきました」というコメントについては、「ど」「う」「ぶ」「つ」「え」「ん」「に」「、」「い」「き」「ま」「し」「た」と分解されて、「お」「お」「う」「う」「え」「ん」「い」「ん」「い」「い」「あ」「い」「あ」と母音と撥音のみに変換される。
なお、コメントに漢字が含まれている場合、例えば、「動物園に行きました」というコメントについては、テキスト解析を行って「どうぶつえんにいきました」というかな文字に変換をしてから、母音と撥音のみの変換を行う。
次に、母音と撥音のみに変換されたコメントとステップSC1にて受信した各発話状態の顔画像とを対応付けすべく、各発話状態の顔画像を順にRAM33から読み出していく(ステップSC4)。このとき、最初と最後に撥音「ん」を発話した時の顔画像を読み出すことで、最初は口を閉じた状態、次にコメントを読み上げている状態、最後は口を閉じた状態とすることで、現実味のある顔画像の動画を生成することができる。
次に、CPU32は、読み出された顔画像を変換された順序に従って配置し、コメントを含めた動画を生成する(ステップSC5)。さらに、CPU32は、合成させたい画像120を合成する(ステップSC6)。
ここで、図10は、CPU32において生成される画像データの概念を示す概略図である。母音又は撥音を発する時の顔画像112a〜112fを画像120の合成位置情報によって指定された位置に配置し、さらに、吹き出し画像113を配置することによって、フレーム画像130a〜130fからなる動画を生成することができる。
図11は合成動画の一例であり、最初のフレームでは、画像120と母音「お」を発話した状態の顔画像112eと合成させたいコメントの一部である「ど」が表示された吹き出し画像113が合成され、これに続くフレームでは、画像120と母音「う」を発話した状態の顔画像112cと合成させたいコメントの一部である「う」が表示された吹き出し画像113が合成され、コレに続くフレームでは、画像120と母音「う」を発話した状態の顔画像112cと合成させたいコメントの一部である「ぶ」が表示された吹き出し画像113が合成される。
以後続くフレームでは、合成させたいコメントである、「つ」「え」「ん」「に」「い」「き」「ま」「し」「た」に対応するフレームが生成され、再生表示される場合は、これらのフレームを順次切り換えた動画を再生表示する。
[合成動画の表示]
以上のようにして生成された合成動画は、通信機能を有するデジタルフォトフレーム400によって再生表示することができる。
デジタルフォトフレームは、アプリケーションサービスプロバイダ(ASP)として機能するサーバ300から合成動画を受信することにより、図11に示す画像を順次表示する。
[選択的な合成動画の表示]
デジタルフォトフレームは、通信機能を有するだけでなく、サーバ300と同様に、CPU、記憶装置部、通信制御部を有するようにして、ユーザの指示に応じて、選択的に適すと解析を行って説明コメントを読み上げるようにしてもよい。この構成について、以下、詳細に説明する。
図12は、一実施の形態のデジタルフォトフレーム400の電気的構成を示すブロック図である。
デジタルフォトフレーム400は、総合的な情報処理を担うCPU42と、RAM43とROM44等から構成される記憶装置部45と、主にNIC(ネットワーク・インターフェイス・カード)から構成され、通信ネットワーク500を介した種々のデータを双方向でやりとりする通信制御部46と、から構成される。記憶装置部45は、CPU42の主記憶又はワークエリア等として機能するRAM43と、ブートプログラム、ネットワークプログラム等の格納庫として機能するROM44と、ユーザからの指示を受け付ける、説明ボタンなど有する入力部47と、画像を表示するディスプレイ48と、音声を出力するスピーカ49とを有する。なお、CPU42は、本発明の顔画像取得手段、メッセージ取得手段、変換手段、読出手段、生成手段、背景画像取得手段、合成動画生成手段として機能する。また、ROM44には、本実施の形態の各種情報も記憶されている。
図13は、デジタルフォトフレーム400におけるCPU42の処理工程を説明するフローチャートである。
デジタルフォトフレーム400のディスプレイ48は、処理開始時においては画像表示状態であり(ステップSD1)、この状態において、データを受信したか否かを判定する(ステップSD2)。具体的には、CPU42は、PC200またはサーバ300から通信ネットワーク500を介して画像データを通信制御部46によって受信したか否かを判定し、受信してないと判定するとステップSD1に戻り同一の画像の表示を継続し、受信したと判定すると、受信した画像を表示する(ステップSD3)。PC200またはサーバ300から受信する画像データとしては、上述した各発話状態の顔画像112、合成させたい画像120、合成させたいコメント、合成位置情報である。そして取得したこれらのデータはRAM43に記憶され、ディスプレイ48に表示される。
次に、説明ボタンが押下されたか否かを判定する。具体的には、CPU42は、ユーザが入力部47の説明ボタンを押下した否かを判定する(ステップSD4)。押下していないと判定されると、ステップSD2に戻り、押下したと判定すると、合成させたいコメントについてテキスト解析を開始し(ステップSD5)、母音変換を行い(ステップSD6)、各発話状態の顔画像との対応付けを行う(ステップSD7)。ステップSD5〜SD7のテキスト解析、顔画像との対応付けの処理は、図9を参照して説明したステップSC3、及び、ステップSC4の処理と同様であるので説明を省略する。
続いて、CPU42は、各発話状態の顔画像112とコメントに含まれる各文字が合成された吹き出し画像とが合成された複数の画像120をフレームとして動画表示する(ステップSD8)。
尚、この時、合成させたいコメントを人工音声に変換して、動画表示に同期させて音声出力するようにしてもよい。
以上説明したように、本実施の形態では、デジタルカメラは、メッセージを読み上げている画像を撮影するのではなく、予め母音又は撥音の各々を発する時の顔画像を撮影しておくことで、PC、サーバ、フォトフレームなどによって様々なメッセージに活用することができる。また、背景画像が変わっても以前に撮影した顔画像を使用してメッセージを伝えることができる。
また、メッセージを含めた動画を生成する際には、メッセージに対応する母音や撥音を発する時の顔画像だけで動画を生成すると、唐突にメッセージを発しているような不自然な画像がフォトフレーム400に表示されるのを防ぐために、上述のフローチャートを開始する前後、すなわち、メッセージの最初と最後に撥音、例えば、「ん」を発する時の顔画像を含めることにする。
このように、本発明の動画生成システムによると、他人が撮影した画像でも、撮影時の場面や状況を十分に楽しめるように、静止画に高い自由度で容易にメッセージを付加することができる。
7a CPUコア7a
24 入力手段
26 出力手段
32 CPU
42 CPU
100 カメラ
200 PC
300 サーバ
400 フォトフレーム

Claims (5)

  1. 撮像により各母音と撥音を発話した状態の顔画像を取得する顔画像取得手段と、
    メッセージを取得するメッセージ取得手段と、
    取得した顔画像及びメッセージを記憶する記憶手段と、
    前記記憶手段に記憶されたメッセージを、所定の規則に従って母音と撥音とからなる文字列に変換する変換手段と、
    前記変換手段によって変換された文字列に含まれる母音と撥音に基づいて、対応する複数の顔画像を前記記憶手段より読み出す読出手段と、
    前記記憶手段に記憶されたメッセージを合成し、且つ、前記読出手段によって読み出された複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成する生成手段と、
    を備えることを特徴とする動画生成装置。
  2. 前記生成手段は更に、任意に入力された画像を背景とし、前記複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成することを特徴とする請求項1記載の動画生成装置。
  3. 前記生成手段は更に、前記動画の最初と最後に、前記撥音を発話した状態の顔画像を含ませることを特徴とする請求項1又は2記載の動画生成装置。
  4. 撮像により各母音と撥音を発話した状態の顔画像を取得する顔画像取得ステップと、
    メッセージを取得するメッセージ取得ステップと、
    取得した顔画像及びメッセージを記憶部に記憶させる記憶ステップと、
    前記記憶部にて記憶されたメッセージを、所定の規則に従って母音と撥音とからなる文字列に変換する変換ステップと、
    前記変換ステップにて変換された文字列に含まれる母音と撥音に基づいて、対応する複数の顔画像を前記記憶部より読み出す読出ステップと、
    前記記憶部に記憶されたメッセージを合成し、且つ、前記読出ステップにて読み出された複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成する生成ステップと、
    を含むことを特徴とする動画生成方法。
  5. コンピュータを
    撮像により各母音と撥音を発話した状態の顔画像を取得する顔画像取得手段、
    メッセージを取得するメッセージ取得手段、
    取得した顔画像及びメッセージを記憶部に記憶させる記憶手段、
    前記記憶部に記憶されたメッセージを、所定の規則に従って母音と撥音とからなる文字列に変換する変換手段、
    前記変換手段によって変換された文字列に含まれる母音と撥音に基づいて、対応する複数の顔画像を前記記憶部より読み出す読出手段、
    前記記憶部に記憶されたメッセージを合成し、且つ、前記読出ステップにて読み出された複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成する生成手段、
    として機能させることを特徴とする動画生成プログラム。
JP2009070315A 2009-03-23 2009-03-23 動画生成装置、動画生成方法、及び、動画生成プログラム Pending JP2010224782A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009070315A JP2010224782A (ja) 2009-03-23 2009-03-23 動画生成装置、動画生成方法、及び、動画生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009070315A JP2010224782A (ja) 2009-03-23 2009-03-23 動画生成装置、動画生成方法、及び、動画生成プログラム

Publications (1)

Publication Number Publication Date
JP2010224782A true JP2010224782A (ja) 2010-10-07

Family

ID=43041914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009070315A Pending JP2010224782A (ja) 2009-03-23 2009-03-23 動画生成装置、動画生成方法、及び、動画生成プログラム

Country Status (1)

Country Link
JP (1) JP2010224782A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012128701A (ja) * 2010-12-16 2012-07-05 Casio Comput Co Ltd 画像処理装置、画像処理方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003037826A (ja) * 2001-07-23 2003-02-07 Alpine Electronics Inc 代理画像表示装置およびテレビ電話装置
JP2003309829A (ja) * 2002-04-15 2003-10-31 Matsushita Electric Ind Co Ltd 携帯動画電話装置
JP2006301063A (ja) * 2005-04-18 2006-11-02 Yamaha Corp コンテンツ提供システム、コンテンツ提供装置および端末装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003037826A (ja) * 2001-07-23 2003-02-07 Alpine Electronics Inc 代理画像表示装置およびテレビ電話装置
JP2003309829A (ja) * 2002-04-15 2003-10-31 Matsushita Electric Ind Co Ltd 携帯動画電話装置
JP2006301063A (ja) * 2005-04-18 2006-11-02 Yamaha Corp コンテンツ提供システム、コンテンツ提供装置および端末装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012128701A (ja) * 2010-12-16 2012-07-05 Casio Comput Co Ltd 画像処理装置、画像処理方法及びプログラム

Similar Documents

Publication Publication Date Title
JP4768028B2 (ja) 画像キャプチャの方法およびデバイス
JP4842033B2 (ja) 携帯端末機の画像表示装置及び方法
JP4377886B2 (ja) 画像通信中の画像合成方法及び装置
JP5457092B2 (ja) デジタルカメラ及びデジタルカメラの合成画像表示方法
JP2012100216A (ja) カメラおよび動画撮影プログラム
KR20100017242A (ko) 파노라마식 사운드 이미지를 생성하고 재생하는 방법과, 그러한 이미지를 재생하기 위한 장치
KR20050113058A (ko) 카메라를 구비한 이동 단말에서 촬영 이미지 합성 장치 및방법
JP4595832B2 (ja) 撮像装置、プログラム、及び記憶媒体
JP2010224782A (ja) 動画生成装置、動画生成方法、及び、動画生成プログラム
JP2003309829A (ja) 携帯動画電話装置
JP2006211570A (ja) 撮影装置
JP2004297229A (ja) 画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラム
JP2010035091A (ja) 撮影装置、撮影方法及びプログラム
KR100426127B1 (ko) 동영상 전송시스템
JP4275629B2 (ja) データ送受信装置、画像処理装置、及び、画像処理方法
KR20130101707A (ko) 촬영장치, 전자 장치, 동영상 생성 방법 및 썸네일 표시 방법
JP2002290901A (ja) 視聴者映像記録再生装置
KR100810649B1 (ko) 동영상 파일과 멀티미디어 파일을 합성하는 시스템 및 그방법
JP2006203396A (ja) 撮像装置、撮像方法および撮像プログラム
JP2024005948A (ja) 撮像装置、その制御方法及びプログラム
JP2004120269A (ja) 携帯型撮像装置およびその制御方法
JP2004120279A (ja) 動画・テキスト編集装置、編集方法及び編集プログラム
JP2015029211A (ja) 撮像装置
JP5045792B2 (ja) 撮像装置、並びにプログラム
JP2006217187A (ja) 電話システムおよびその通話方法、電話端末、電話システム制御プログラム、および該プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120321

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130426

A02 Decision of refusal

Effective date: 20130521

Free format text: JAPANESE INTERMEDIATE CODE: A02