JP2010224782A

JP2010224782A - 動画生成装置、動画生成方法、及び、動画生成プログラム

Info

Publication number: JP2010224782A
Application number: JP2009070315A
Authority: JP
Inventors: Shigeru Kafuku; 滋加福; Keisuke Shimada; 敬輔島田; Daisei Kasahara; 大聖笠原
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2009-03-23
Filing date: 2009-03-23
Publication date: 2010-10-07

Abstract

【課題】他人が撮影した画像でも、撮影時の場面や状況を十分に楽しめるように、静止画に高い自由度で容易にメッセージを付加することができるようにする。
【解決手段】デジタルカメラ１００にて背景差分除去により、母音、撥音の発話状態の顔画像を取得し、これをＰＣ２００に送信する、ＰＣ２００ではこれらの顔画像と取得するとともに、合成したい画像、合成したいコメント、及び、各発話状態の顔画像とをサーバ３００に送信する。サーバ３００では、これら送信されたデータに含まれる合成させたいコメントを対応する母音又は撥音に変換して、１文字ごとに対応する発話状態の顔画像を画像に合成したものをフレーム画像とした動画を生成する。動画は、通信ネットワーク５００を介して接続されたフォトフレーム４００に送信され、フォトフレーム４００にて再生表示される。
【選択図】図１

Description

本発明は、静止画を複数枚合成することにより動画を生成する動画生成装置、動画生成方法、及び、動画生成プログラムに関する。

ＳＤカード、ＭＭＣカード又はＵＳＢメモリカード等の記憶媒体に記憶された画像や通信ネットワークを介して受信した画像を再生するデジタルフォトフレームが存在する。

このようなデジタルフォトフレームによって、自分が撮影した画像以外に、他人が撮影した画像をデータとして提供してもらうことで、容易に他人が撮影した画像を再生して楽しむことができる。

また、撮影した静止画と音声メッセージとを対応付けさせ、静止画再生時に音声メッセージを出力することで、演出効果を高めた画像再生技術が存在する。このように静止画と音声メッセージとを対応付けさせるにあたり、予め複数の静止画の表示順序を設定した後、音声メッセージの録音を行うことで、簡単に対応付けをさせる技術が開示されている（例えば、特許文献１）。

特開２００４−１３４９８４号公報

他人が撮影した画像は、その画像だけを見ていてもどういう場面、どういう状況の写真なのかが分からない場合も多く、特に静止画の場合には、ある瞬間的な画像しか得られていないため、見た人にはその場面・状況が伝わりにくい。

そのため、その場面・状況を説明した音声を画像とともに収録して再生することが考えられる。しかしながら、例えば、特許文献１に記載の技術を用いて画像に音声メッセージを対応付けるとしても、演出面において自由度が低く、随時、画像の撮影と音声の録音とを行う必要があるなどという課題があった。或いは、その場面・状況を説明した説明コメントを入力して音声変換し、画像の再生に合せて音声も再生することも考えられるが、画像と音声とに一体性がなく、あまりに味気ない画像となってしまう。

本発明は、かかる課題に鑑みてなされたものであり、他人が撮影した画像でも、撮影時の場面や状況を十分に楽しむことができるように、静止画に高い自由度で容易にメッセージを付加することができるようにすることを目的とする。

前記課題を解決するため請求項１記載の発明に係る動画生成装置にあっては、撮像により各母音と撥音を発話した状態の顔画像を取得する顔画像取得手段と、メッセージを取得するメッセージ取得手段と、取得した顔画像及びメッセージを記憶する記憶手段と、前記記憶手段に記憶されたメッセージを、所定の規則に従って母音と撥音とからなる文字列に変換する変換手段と、前記変換手段によって変換された文字列に含まれる母音と撥音に基づいて、対応する複数の顔画像を前記記憶手段より読み出す読出手段と、前記記憶手段に記憶されたメッセージを合成し、且つ、前記読出手段によって読み出された複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成する生成手段と、を備えることを特徴とする。

また、請求項２記載の発明に係る動画生成装置にあっては、前記生成手段は更に、任意に入力された画像を背景とし、前記複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成することを特徴とする。

また、請求項３記載の発明に係る動画生成装置にあっては、前記生成手段は更に、前記動画の最初と最後に、前記撥音を発話した状態の顔画像を含ませることを特徴とする。

また、請求項４記載の発明に係る動画生成方法にあっては、撮像により各母音と撥音を発話した状態の顔画像を取得する顔画像取得ステップと、メッセージを取得するメッセージ取得ステップと、取得した顔画像及びメッセージを記憶部に記憶させる記憶ステップと、前記記憶部にて記憶されたメッセージを、所定の規則に従って母音と撥音とからなる文字列に変換する変換ステップと、前記変換ステップにて変換された文字列に含まれる母音と撥音に基づいて、対応する複数の顔画像を前記記憶部より読み出す読出ステップと、前記記憶部に記憶されたメッセージを合成し、且つ、前記読出ステップにて読み出された複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成する生成ステップと、を含むことを特徴とする。

また、請求項５記載の発明に係る動画生成プログラムにあっては、コンピュータを撮像により各母音と撥音を発話した状態の顔画像を取得する顔画像取得手段、メッセージを取得するメッセージ取得手段、取得した顔画像及びメッセージを記憶部に記憶させる記憶手段、前記記憶部に記憶されたメッセージを、所定の規則に従って母音と撥音とからなる文字列に変換する変換手段、前記変換手段によって変換された文字列に含まれる母音と撥音に基づいて、対応する複数の顔画像を前記記憶部より読み出す読出手段、前記記憶部に記憶されたメッセージを合成し、且つ、前記読出ステップにて読み出された複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成する生成手段、として機能させることを特徴とする。

本発明によれば、予め記憶された数種類の顔画像の組み合わせと相手に伝えたいメッセージとが連携した動画を生成することから、あたかも撮影時にメッセージしたかのような画像によって撮影時の場面や状況を伝えることができる。

本発明の一実施の形態の動画生成システムの概要を示す図である。本発明の一実施の形態のデジタルカメラの電気的構成を示したブロック図である。本発明の一実施の形態のデジタルカメラのブロックマッチング部の処理内容を説明する図である。図３のデジタルカメラにおけるＣＰＵの処理工程を説明するフローチャートである。本発明の一実施の形態のＰＣの電気的構成を示したブロック図である。図５のＰＣにおけるＣＰＵの処理工程を説明するフローチャートである。画像に説明コメントを付加する処理を説明する図である。図７ａに続く、画像に説明コメントを付加する処理を説明する図である。図７ｂに続く、画像に説明コメントを付加する処理を説明する図である。本発明の一実施の形態のサーバの電気的構成を示したブロック図である。サーバにおけるＣＰＵの処理工程を説明するフローチャートである。図９の処理工程によって生成する画像データの概念を示す概略図である。合成動画の一例を示す図である。デジタルフォトフレームの電気的構成を示したブロック図である。デジタルフォトフレームにおけるＣＰＵの処理工程を説明するフローチャートである。

図１は、本発明の一実施の形態の動画生成システムの概要を示す図であり、動画生成システムは、撮像装置としてのデジタルカメラ１００と、通信ネットワーク５００を介して外部との通信を行うコンピュータであるＰＣ２００と、動画生成装置としてのサーバ３００と、画像の再生を行うフォトフレーム４００と、から構成される。なお、ＰＣ２００の諸機能が搭載されたデジタルカメラ１００にあっては、デジタルカメラ１００とＰＣ２００とを一体として本システムを把握することができる。ＰＣ２００、サーバ３００、フォトフレーム４００が相互にデータを送受信する手法は、通信ネットワーク５００を介してもよいし、着脱可能な記憶媒体によってもよい。すなわち、あらゆる手法が適用可能である。
［顔画像の撮像］

図２は、本発明の一実施の形態のデジタルカメラ１００の電気的構成を示したブロック図である。このデジタルカメラは、基本となる動作モードとして撮影を行うための記録モードと、撮影した画像を再生するための再生モードと、を有する。

図２に示すように本実施の形態のデジタルカメラ１００は、撮影レンズ１と、撮影レンズ１により収束された撮影光をシャッタ２を介して受光するとともに、受光面に結像された被写体の光学像を光電変換し画像信号として出力する撮像部３、この撮像部３の出力信号をデジタルの画像データへ変換するＡ／Ｄ変換器４、変換後の画像データを逐次記憶するＤＲＡＭ５を備えている。

シャッタ２の動作は、ＣＰＵコア７ａの命令に従いシャッタ制御部７ｂにより制御され、撮像部３及びＡ／Ｄ変換器４の動作はＣＰＵコア７ａの命令に従い受光制御部７ｃにより制御される。ＤＲＡＭ５に格納された１枚分の画像データ、すなわちＲＡＷデータはデモザイク部７ｄにより画素毎に色情報を補間されてＹＵＶデータに変換された後、液晶表示コントローラ６を介して液晶表示画面８に表示される。なお、変換されたＹＵＶデータもＤＲＡＭ５に一時的に記憶される。

記録モードでの撮影時にデモザイク部７ｄによりＹＵＶデータに変換された画像データは、ＣＰＵコア７ａによってＪＰＥＧ等の所定の圧縮方式に従い圧縮された後、外部記憶媒体１１に静止画ファイル又は動画ファイルとして記録される。外部記憶媒体１１に記録された画像データは、再生モードにおいては、必要に応じてＣＰＵコア７ａに読み出されて伸張された後、液晶表示コントローラ６を介して液晶表示画面８において表示される。なお、外部記憶媒体１１は、例えばカメラ本体に着脱自在なメモリカードや、カメラ本体に内蔵されたフラッシュメモリ等により構成される。

また、ＣＰＵコア７ａには、ブロックマッチング部７ｆの他、シャッタボタン９、モードボタン１０が接続されている。なお、ＣＰＵコア７ａ内のメモリには、ＣＰＵコア７ａの動作に必要な種々のプログラム及びプログラムの実行に際して使用される各種のデータが記憶されているが、これらはＣＰＵコア７ａとは別のメモリに記憶されていてもよい。

ＣＰＵコア７ａは、プログラムに従いシャッタボタン９の押下操作に応じてデジタルカメラの各部の動作を制御する機能を有する。

ブロックマッチング部７ｆは、ＳＲＡＭ７ｅを作業メモリとして使用し、撮像部３により撮像された複数枚の画像を位置合わせしてマッチングを行い、マッチングされた撮像画角の画像を差分除去することによって、顔画像を生成する。図３は、このブロックマッチング部７ｆが行う処理内容を説明する図である。

ブロックマッチング部７ｆは、上記記録モードの一部として、予め設定された記録行程に従い、被写体画像（顔画像を含む）を含まない背景画像１１０（図３（ａ）参照）と、上記被写体画像（顔画像を含む）を含む背景画像１１１とが記録され、ＳＲＡＭ７ｅに一時記憶されると、背景画像１１１から背景画像１１０を画素ブロックレベルで差分除去し、背景部分を透過領域１１３、被写体画像（顔画像含む）部分を非透過領域１１４とした画像１１２を生成する（図３（ｃ）参照）。
なお、図３（ｃ）においては、全身を含む顔画像を撮影画角として得ているが、肩から上の部分のみを顔画像として切り取ったり、上半身のみを切り取ったりといった編集は自由に行うことができる。また、顔画像を含まない画像から顔画像を含む画角を差分除去する際には、一画像を４×４の１６ブロックに区画してブロックごとの差分の有無を検出し、顔画像を含まない撮像画角と顔画像を含む撮影画角とで差分が生じている場合には、設定により差分の小さいブロックは破棄するなどの処理を行うことで、ノイズに対するロバスト性をあげることができる。一方、差分の大きいブロックについては顔画像を含む領域である可能性が高いので破棄せずに残しておく。

ここで、各母音や撥音を発する時の顔画像の撮像については、被写体が「あ」「い」「う」「え」「お」「ん」と発話している様子を連写撮影又は動画撮影して取得する。ＤＲＡＭ５に記録された連写画像又は動画は、ビタビアライメントによりどのフレームで何と発話しているのかが特定できるので、典型的な「あ」を発話しているフレームの位置を推定して切り出し、これを「あ」の顔画像として記憶する。以下同様に、「い」「う」「え」「お」「ん」のフレーム位置も推定して切り出し、それぞれの顔画像として外部記憶媒体１１に記憶する。

図４は、複数枚の画像を撮像し、ブロックマッチング部７ｆを用いて撮像画角の画像を切り抜いて顔画像を生成する工程を説明するフローチャートである。複数枚の画像を撮像し、顔画像を生成する処理はすべてＣＰＵコア７ａの制御の下で行われる。図４を参照して、顔画像を生成する際のデジタルカメラ１００におけるＣＰＵコア７ａの処理工程について説明する。

まず、ＣＰＵコア７ａは、ユーザの操作に従って、図３（ａ）に示すような被写体を含まない画像１１０を取得し、ＳＲＡＭ７ｅ一時記憶する。
この後、画像１１０と略同一の光景を背景として被写体人物に「あ、い、う、え、お、ん」と順次を発話してもらい、発話時の被写体人物の顔（望ましくは発話時の口の形が明確に分かる状態の顔）を順次撮影する（ステップＳＡ１）。具体的には、ＣＰＵコア７ａは、ユーザの操作に従って、被写体人物が「あ」「い」「う」「え」「お」「ん」と発話している時、連写撮影又は動画撮影を行い、ＤＲＡＭ５に記憶する。次に、音声認識的手法により、連写撮影若しくは動画撮影された複数の画像（動画撮影の場合はフレーム画像）から、上述の差分除去処理の対象となるフレーム画像を選択する（ステップＳＡ２）。具体的には、ＣＰＵコア７ａは連写撮影若しくは動画撮影により得られた複数の画像（動画撮影の場合はフレーム画像）について、被写体人物が「あ」「い」「う」「え」「お」「ん」の６つの発話について、発話した瞬間に撮像された画像（フレーム画像）を広く知られているビタビアライメントなどにより順次選択する（ステップＳＡ２）。そしてこの後、順次選択された各画像について、上述の差分除去処理により被写体人物の顔部分を切り出して、これを非透過画像とした画像１１２を各発話状態を示す情報と対応付けて、順次外部記憶媒体１１に保存する（ステップＳＡ３）。
次に、ＰＣ２００の処理内容ついて説明する。

［メッセージ入力と顔画像の取り込み］
図５は、本発明の一実施の形態のＰＣ２００の電気的構成を示したブロック図である。

ＰＣ２００は、バス２７を介して各種の機器が接続されており、ＣＰＵ２０と、ＲＯＭ２１と、ＲＡＭ２２と、インターフェイス２３と、入力手段２４と、出力手段２６と、が接続されている。ＰＣ２００は、パーソナルコンピュータだけではなく、ＰＨＳ、携帯電話、衛星携帯電話、ＰＤＡ、電子手帳等に代表される通信端末を用いて、映像、音声、及び文字情報を活用し通信ネットワーク５００に接続可能な情報通信機器を含むものとする。

ＣＰＵ２０は、ＲＯＭ２１に記憶されているプログラムやデータを読み出し、それを用いることでＰＣ２００の制御を行う。ＲＯＭ２１は、カメラ１００からの画像の取り込みや通信ネットワーク５００への接続を行うための各種プログラムが記憶されている。ＲＡＭ２２は、ＣＰＵ２０がプログラムを実行するための作業領域を提供する。インターフェイス２３は、ＣＰＵ２０からの命令に基づいて様々を処理が実行される他の機器を接続するものであり、ネットワークインタフェイスとしても機能する。

入力手段２４は、撮影者によるメッセージの入力を受け付け、入力されたメッセージはＲＡＭ２２に一時的に記憶される。また、インターフェイス２３にデジタルカメラ１００を接続して、上述の図４の処理によって保存された各発話状態の画像（顔画像）１１２を順次ＲＡＭ２２に取り込む。さらに、合成させたい画像（例えば、背景画像）をＲＡＭ２２に取り込む。このようにして、ＲＡＭ２２には、各発話状態の画像（顔画像）１１２と合成させたい画像（例えば、背景画像）とが記憶され、それらを含めた一連のデータを通信ネットワーク５００を介してサーバ３００に送信する。このとき、合成させたい画像における各発話状態の画像の合成位置を示す合成位置情報もサーバ３００に送信する。

図６は、合成させたい画像、各発話状態の画像、及び、合成させたいコメントをＰＣ２００からサーバ３００へ送信する工程を説明するフローチャートである。
図７は、合成させたい画像に合成させたいコメントを付加する処理を説明する図である。図６と図７を参照して、合成させたい画像と合成させたいコメントとをサーバ３００に送信する際のＰＣ２００におけるＣＰＵ２０の処理工程について下記に詳述する。

まず、ユーザの操作に従いＣＰＵ２０は合成させたい画像を選択する（ステップＳＢ１）。具体的には、ＣＰＵ２０は、ユーザが選択した画像の情報を入力手段２４から受け付けるとともに、予めインターフェイス２３に接続されたデジタルカメラ１００から画像１２０（図７（ａ）参照）をＲＡＭ２２に取り込む。続いて、ユーザの操作に従い取り込むべき各発話状態の顔画像１１２を選択する（ステップＳＢ２）。具体的には、ＣＰＵ２０は、ユーザが選択した切り抜き画像群の情報を入力手段２４から受け付け、図４の処理により外部記憶媒体１１に保存した顔画像１１２（図７（ｂ）の「あ」の発話状態の顔画像１１２ａ、「う」の発話状態の顔画像１１２ｂ、「お」の発話状態の顔画像１１２ｃ等）をＲＡＭ２２に取り込む。次に、ユーザの操作に従い画像１２０における顔画像１１２の合成位置を設定する（ステップＳＢ３）。具体的には、ＣＰＵ２０は、入力手段２４からユーザが設定した画像１２０に対する顔画像１１２の合成表示位置情報を、例えば、図７（ｃ）に図示するように、「合成位置を選択してください」のメッセージ１３２と、合成対象となる画像１３０と、顔画像を合成対象となる画像の右上に仮合成させた状態１３１ｔｒ、顔画像を合成対象となる画像の右下に仮合成させた状態１３１ｔｂ、顔画像を合成対象となる画像の中央に仮合成させた状態１３１ｃ、顔画像を合成対象となる画像の左上に仮合成させた状態１３１ｔｌ、顔画像を合成対象となる画像の左下に仮合成させた状態１３１ｂｌとを表示し、ユーザの選択操作に従って、画像１２０のどの位置に切り抜き画像群を表示するかを決定し、その情報をＲＡＭ２２に取り込む。続いて、合成させたいコメントを入力する（ステップＳＢ４）。具体的には、ＣＰＵ２０は、入力手段２４からユーザからのテキスト入力、例えば、「動物園に行きました」というコメントを受け付け、その情報をＲＡＭ２２に取り込む。続いて、これらの情報をサーバ３００に送信する（ステップＳＢ５）。具体的には、ＣＰＵ２０は、入力手段２４から入力されるユーザの指示に応じて、合成させたい画像１２０、各発話状態の顔画像１１２、合成位置情報、及び、合成させたいコメントをサーバ３００に送信する。

［動画生成］
図８は、本発明の一実施の形態のサーバ３００の電気的構成を示したブロック図である。

サーバ３００は、総合的な情報処理を担うＣＰＵ３２と、ＲＡＭ３３とＲＯＭ３４等から構成される記憶装置部３５と、主にＮＩＣ（ネットワーク・インターフェイス・カード）から構成され、通信ネットワーク５００を介した種々のデータを双方向でやりとりする通信制御部３６と、から構成される。記憶装置部３５は、ＣＰＵ３２の主記憶又はワークエリア等として機能するＲＡＭ３３と、ブートプログラム、ネットワークプログラム等の格納庫として機能するＲＯＭ３４と、を有する。なお、ＣＰＵ３２は、本発明の顔画像取得手段、メッセージ取得手段、変換手段、読出手段、生成手段、背景画像取得手段、合成動画生成手段として機能する。また、ＲＯＭ３４には、本実施の形態の各種情報も記憶されている。

図９は、サーバ３００におけるＣＰＵ３２の処理工程を説明するフローチャートである。

ＣＰＵ３２は、セッション待ちの状態からユーザログインの処理を介して、ＰＣ２００から通信ネットワーク５００を介して送信されるデータを通信制御部３６によって受信する（ステップＳＣ１）。ＰＣ２００から受信するデータは、各発話状態の顔画像１１２、合成させたい画像１２０、合成させたいコメント、及び、合成位置情報である。取得したこれらのデータはＲＡＭ３３に記憶される（ステップＳＣ２）。

次に、ＣＰＵ３２は受信した合成させたいコメントを所定の規則に従って変換する（ステップＳＣ３）。すなわち、上記コメントをテキスト解析して構成文字ごとに分解し、一つのかな文字に対応する母音にそれぞれ変換していく。次に母音変換を行う。具体的には、一つのかな文字と母音とを対応付けしたデータテーブルはＲＯＭ３４に格納されているので、ＣＰＵ３２は、ＲＯＭ３４に格納されたデータテーブル（五十音表）を参照して一つのかな文字を母音に変換していく。なお、データテーブル上で「、」や「。」は撥音「ん」に対応付けされている。
例えば、「どうぶつえんに、いきました」というコメントについては、「ど」「う」「ぶ」「つ」「え」「ん」「に」「、」「い」「き」「ま」「し」「た」と分解されて、「お」「お」「う」「う」「え」「ん」「い」「ん」「い」「い」「あ」「い」「あ」と母音と撥音のみに変換される。

なお、コメントに漢字が含まれている場合、例えば、「動物園に行きました」というコメントについては、テキスト解析を行って「どうぶつえんにいきました」というかな文字に変換をしてから、母音と撥音のみの変換を行う。

次に、母音と撥音のみに変換されたコメントとステップＳＣ１にて受信した各発話状態の顔画像とを対応付けすべく、各発話状態の顔画像を順にＲＡＭ３３から読み出していく（ステップＳＣ４）。このとき、最初と最後に撥音「ん」を発話した時の顔画像を読み出すことで、最初は口を閉じた状態、次にコメントを読み上げている状態、最後は口を閉じた状態とすることで、現実味のある顔画像の動画を生成することができる。

次に、ＣＰＵ３２は、読み出された顔画像を変換された順序に従って配置し、コメントを含めた動画を生成する（ステップＳＣ５）。さらに、ＣＰＵ３２は、合成させたい画像１２０を合成する（ステップＳＣ６）。

ここで、図１０は、ＣＰＵ３２において生成される画像データの概念を示す概略図である。母音又は撥音を発する時の顔画像１１２ａ〜１１２ｆを画像１２０の合成位置情報によって指定された位置に配置し、さらに、吹き出し画像１１３を配置することによって、フレーム画像１３０ａ〜１３０ｆからなる動画を生成することができる。

図１１は合成動画の一例であり、最初のフレームでは、画像１２０と母音「お」を発話した状態の顔画像１１２ｅと合成させたいコメントの一部である「ど」が表示された吹き出し画像１１３が合成され、これに続くフレームでは、画像１２０と母音「う」を発話した状態の顔画像１１２ｃと合成させたいコメントの一部である「う」が表示された吹き出し画像１１３が合成され、コレに続くフレームでは、画像１２０と母音「う」を発話した状態の顔画像１１２ｃと合成させたいコメントの一部である「ぶ」が表示された吹き出し画像１１３が合成される。
以後続くフレームでは、合成させたいコメントである、「つ」「え」「ん」「に」「い」「き」「ま」「し」「た」に対応するフレームが生成され、再生表示される場合は、これらのフレームを順次切り換えた動画を再生表示する。

［合成動画の表示］
以上のようにして生成された合成動画は、通信機能を有するデジタルフォトフレーム４００によって再生表示することができる。

デジタルフォトフレームは、アプリケーションサービスプロバイダ（ＡＳＰ）として機能するサーバ３００から合成動画を受信することにより、図１１に示す画像を順次表示する。

［選択的な合成動画の表示］
デジタルフォトフレームは、通信機能を有するだけでなく、サーバ３００と同様に、ＣＰＵ、記憶装置部、通信制御部を有するようにして、ユーザの指示に応じて、選択的に適すと解析を行って説明コメントを読み上げるようにしてもよい。この構成について、以下、詳細に説明する。

図１２は、一実施の形態のデジタルフォトフレーム４００の電気的構成を示すブロック図である。

デジタルフォトフレーム４００は、総合的な情報処理を担うＣＰＵ４２と、ＲＡＭ４３とＲＯＭ４４等から構成される記憶装置部４５と、主にＮＩＣ（ネットワーク・インターフェイス・カード）から構成され、通信ネットワーク５００を介した種々のデータを双方向でやりとりする通信制御部４６と、から構成される。記憶装置部４５は、ＣＰＵ４２の主記憶又はワークエリア等として機能するＲＡＭ４３と、ブートプログラム、ネットワークプログラム等の格納庫として機能するＲＯＭ４４と、ユーザからの指示を受け付ける、説明ボタンなど有する入力部４７と、画像を表示するディスプレイ４８と、音声を出力するスピーカ４９とを有する。なお、ＣＰＵ４２は、本発明の顔画像取得手段、メッセージ取得手段、変換手段、読出手段、生成手段、背景画像取得手段、合成動画生成手段として機能する。また、ＲＯＭ４４には、本実施の形態の各種情報も記憶されている。

図１３は、デジタルフォトフレーム４００におけるＣＰＵ４２の処理工程を説明するフローチャートである。

デジタルフォトフレーム４００のディスプレイ４８は、処理開始時においては画像表示状態であり（ステップＳＤ１）、この状態において、データを受信したか否かを判定する（ステップＳＤ２）。具体的には、ＣＰＵ４２は、ＰＣ２００またはサーバ３００から通信ネットワーク５００を介して画像データを通信制御部４６によって受信したか否かを判定し、受信してないと判定するとステップＳＤ１に戻り同一の画像の表示を継続し、受信したと判定すると、受信した画像を表示する（ステップＳＤ３）。ＰＣ２００またはサーバ３００から受信する画像データとしては、上述した各発話状態の顔画像１１２、合成させたい画像１２０、合成させたいコメント、合成位置情報である。そして取得したこれらのデータはＲＡＭ４３に記憶され、ディスプレイ４８に表示される。

次に、説明ボタンが押下されたか否かを判定する。具体的には、ＣＰＵ４２は、ユーザが入力部４７の説明ボタンを押下した否かを判定する（ステップＳＤ４）。押下していないと判定されると、ステップＳＤ２に戻り、押下したと判定すると、合成させたいコメントについてテキスト解析を開始し（ステップＳＤ５）、母音変換を行い（ステップＳＤ６）、各発話状態の顔画像との対応付けを行う（ステップＳＤ７）。ステップＳＤ５〜ＳＤ７のテキスト解析、顔画像との対応付けの処理は、図９を参照して説明したステップＳＣ３、及び、ステップＳＣ４の処理と同様であるので説明を省略する。

続いて、ＣＰＵ４２は、各発話状態の顔画像１１２とコメントに含まれる各文字が合成された吹き出し画像とが合成された複数の画像１２０をフレームとして動画表示する（ステップＳＤ８）。
尚、この時、合成させたいコメントを人工音声に変換して、動画表示に同期させて音声出力するようにしてもよい。

以上説明したように、本実施の形態では、デジタルカメラは、メッセージを読み上げている画像を撮影するのではなく、予め母音又は撥音の各々を発する時の顔画像を撮影しておくことで、ＰＣ、サーバ、フォトフレームなどによって様々なメッセージに活用することができる。また、背景画像が変わっても以前に撮影した顔画像を使用してメッセージを伝えることができる。

また、メッセージを含めた動画を生成する際には、メッセージに対応する母音や撥音を発する時の顔画像だけで動画を生成すると、唐突にメッセージを発しているような不自然な画像がフォトフレーム４００に表示されるのを防ぐために、上述のフローチャートを開始する前後、すなわち、メッセージの最初と最後に撥音、例えば、「ん」を発する時の顔画像を含めることにする。

このように、本発明の動画生成システムによると、他人が撮影した画像でも、撮影時の場面や状況を十分に楽しめるように、静止画に高い自由度で容易にメッセージを付加することができる。

７ａＣＰＵコア７ａ
２４入力手段
２６出力手段
３２ＣＰＵ
４２ＣＰＵ
１００カメラ
２００ＰＣ
３００サーバ
４００フォトフレーム

Claims

撮像により各母音と撥音を発話した状態の顔画像を取得する顔画像取得手段と、
メッセージを取得するメッセージ取得手段と、
取得した顔画像及びメッセージを記憶する記憶手段と、
前記記憶手段に記憶されたメッセージを、所定の規則に従って母音と撥音とからなる文字列に変換する変換手段と、
前記変換手段によって変換された文字列に含まれる母音と撥音に基づいて、対応する複数の顔画像を前記記憶手段より読み出す読出手段と、
前記記憶手段に記憶されたメッセージを合成し、且つ、前記読出手段によって読み出された複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成する生成手段と、
を備えることを特徴とする動画生成装置。
前記生成手段は更に、任意に入力された画像を背景とし、前記複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成することを特徴とする請求項１記載の動画生成装置。
前記生成手段は更に、前記動画の最初と最後に、前記撥音を発話した状態の顔画像を含ませることを特徴とする請求項１又は２記載の動画生成装置。
撮像により各母音と撥音を発話した状態の顔画像を取得する顔画像取得ステップと、
メッセージを取得するメッセージ取得ステップと、
取得した顔画像及びメッセージを記憶部に記憶させる記憶ステップと、
前記記憶部にて記憶されたメッセージを、所定の規則に従って母音と撥音とからなる文字列に変換する変換ステップと、
前記変換ステップにて変換された文字列に含まれる母音と撥音に基づいて、対応する複数の顔画像を前記記憶部より読み出す読出ステップと、
前記記憶部に記憶されたメッセージを合成し、且つ、前記読出ステップにて読み出された複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成する生成ステップと、
を含むことを特徴とする動画生成方法。
コンピュータを
撮像により各母音と撥音を発話した状態の顔画像を取得する顔画像取得手段、
メッセージを取得するメッセージ取得手段、
取得した顔画像及びメッセージを記憶部に記憶させる記憶手段、
前記記憶部に記憶されたメッセージを、所定の規則に従って母音と撥音とからなる文字列に変換する変換手段、
前記変換手段によって変換された文字列に含まれる母音と撥音に基づいて、対応する複数の顔画像を前記記憶部より読み出す読出手段、
前記記憶部に記憶されたメッセージを合成し、且つ、前記読出ステップにて読み出された複数の顔画像を前記文字列の順序に従って切り換え表示する動画を生成する生成手段、
として機能させることを特徴とする動画生成プログラム。