以下、図面を参照して本発明の実施の形態を説明する。
[実施形態1]
図1から図13は本発明の実施形態1を示したものであり、図1は再生装置が適用された撮像装置としてのカメラの構成を示すブロック図である。ここに、再生装置は、画像を表示する場合には画像再生装置(あるいは表示装置)、音声を再生する場合には音声再生装置、などとなる。
カメラは、撮像部1と、画像処理部2と、マイク3と、音声処理部4と、タッチパネル5と、WEB通信部6と、GPS部7と、時計8と、温度計9と、制御部10と、再生制御部11と、表示パネル12と、スピーカ13と、記録部14と、データベース部15と、を備えている。
撮像部1は、画像を撮像するものであり、被写体の光学像を光電変換して撮像信号を出力する。従って、本実施形態の再生装置は、撮像装置としての機能を備えている。
画像処理部2は、撮像部1からの撮像信号に、増幅、デジタル化、ホワイトバランス、ノイズ除去、ガンマ補正等の各種の信号処理を施す。
マイク3は、音声データを録音するための録音部の一部であり、動画撮像時の音声を音声信号に変換するだけでなく、静止画撮影時刻前後の音声も音声信号に変換するようになっている。
音声処理部4は、録音部の一部であり、マイク3から出力される音声信号を増幅しデジタル化して、必要に応じて風切り音を低減するなどの音声処理を行う。
タッチパネル5は、表示パネル12の表示面上に貼設されていて、ユーザがタッチ操作を行うことにより入力を行うためのデバイスである。なお、ここではタッチパネル5を設けたが、タッチパネル5に代えて、もしくはタッチパネル5に加えて、専用のスイッチ(例えば十字パッド等)をカメラに設けても勿論構わない。
WEB通信部6は、無線LANや電気通信事業のパケット通信等を介してネットワーク、例えばインターネット等へ接続するための装置である。このWEB通信部6を介して、画像をインターネット等へアップロードしたり、インターネットから地図情報や天気情報などを取得することができる。ただし、天気情報については、WEB通信部6を介して取得するに限るものではなく、例えば、撮像部1により撮影した画像や温度計9から取得した温度情報に基づき判定する(例えば、青空が撮影されているから「晴れ」である、取得した温度が30°であるから「暑い」等)ようにしても構わない。
GPS部7は、GPS(グローバル・ポジショニング・システム:Global Positioning System)衛星からの信号を受信して、現在位置を測定するGPS受信機である。このGPS部7は、消費電力を削減する観点からオン/オフを切り換えることができるようになっており、GPS位置情報を取得するモードに設定されている場合にはオンに切り換えられ、GPS位置情報を取得するモードに設定されていない場合にはオフに切り換えられる。
時計8は、現在時刻を出力する計時部である。
温度計9は、カメラの周囲の環境温度を取得する温度測定部である。ただし、温度情報をWEB通信部6を介してインターネットから取得しても良く、この場合には、カメラに温度計9を設けなくても構わない。
制御部10は、カメラの各部を統括的に制御するものであり、画像を画像群に分類する画像分類部としての機能や、画像の特徴を検出する(例えば、画像における画面上方に青空があるか否かや、複数の画像同士が類似しているか否か等を検出する)特徴検出部としての機能も果たすようになっている。ここに、画像群とは、分類上における特定の性質を備える1つ以上の画像の集合であり、複数の画像が含まれる場合には、共通する特定の性質を備えるという点で互いに関連性のある複数の画像の集合となる。以下では簡単のために、画像群には複数の画像が含まれていると想定して説明を行うが、1つの画像群に含まれる画像が1つであることを妨げるものではない。画像群の具体例としては、撮影時刻が近い複数の画像、同一人物が写っている複数の画像、被写体が類似している複数の画像、などが挙げられる。
再生制御部11は、カメラに設定されている画像再生モードに従って画像を表示パネル12に表示再生させると共に、画像再生モードが画面に画像を拡大して表示する第1の表示モード(第1の再生モード)(具体的な一例として、画面に画像を1つだけ表示する全画面表示モード)であるときには後述する第1の要約を、画像再生モードが画面に画像を縮小して複数表示する第2の表示モード(第2の再生モード)(後述する、サムネイル表示モード、フロー表示モード等)であるときには後述する第2の要約を再生させるものである。再生制御部11は、具体的に、要約が音声データであるときにはスピーカ13に音声再生させ、要約がテキスト(文字情報)である場合には表示パネル12に表示再生させる。第1の要約は、画像撮影時の状況を認識するのを補助する情報(補助情報)が表示可能な情報である場合には、そのまま表示再生しても良い。
表示パネル12は、再生制御部11から出力される画像(撮影された画像)や、カメラに関する各種情報などを画面に表示する表示部である。
スピーカ13は、再生制御部11から出力される音声データを音声として再生する音声再生部である。
記録部14は、撮像部1から取得された画像やマイク3から取得された音声などを記録する、コンピュータにより読み取り可能な一時的でない記録媒体である。従って、記録部14は録音部の一部であり、本実施形態の再生装置は録音装置としての機能を備えている。
データベース部15は、カメラにおいて用いる各種のデータを、不揮発かつ書き換え可能に記録するコンピュータにより読み取り可能な一時的でない記録媒体である。なお、ここではデータベース部15を記録部14とは別体に設けたが、記録部14内に設けても構わない。
次に、上述した制御部10は、音声分析部10aと、テキスト化部10bと、要約部10cと、顔判定部10dと、を備えている。
制御部10は、音声処理部4を介してマイク3から入力される音声から、撮影時点を含む所定時間(撮影時点の前の前録時間(例えば5秒)、および撮影時点の後の後録時間(例えば5秒)(つまり、例えば合計10秒))の音声を、図2に示すように第1の音声データts1として録音するように制御する。
ここに、図2は静止画記録の前後に行われる音声録音の例を示すタイミングチャートである。
音声分析部10aは、音声処理部4から入力された音声データを分析して、例えば波の音である、さざ波の音である、風音である、破裂音である、呼びかけ等の人の声である、などの音声の種類に分類する処理を行う。
テキスト化部10bは、上述した音声分析部10aの分析結果に基づき、人の声であると分類された場合には音声認識を行ってテキストデータに変換し、人の声以外の音であると分類された場合には擬音テキストデータベース(この擬音テキストデータベースは、後述するように、データベース部15の例えば文章用テンプレート15aに付帯して設けられている)の中から該当する擬音、波の音である場合には「ざざー」、さざ波の音である場合には「ちゃぷちゃぷ」、風音である場合には「そよそよ」、破裂音である場合には「バーン」等を選択する。
要約部10cは、画像撮影時の状況を認識するのを補助する情報である要約を作成するものである。
具体的に、要約部10cは、例えば第1の音声データts1自体を第1の要約とする。ここに、第1の要約は、いわゆる生録音声(マイク3から入力される音声をそのまま録音した音声)に限るものではなく、雑音などを除去して要約し上述した所定時間(例えば10秒)にした音声でも良いし、必要な部分のみを採用して所定時間(例えば10秒)にした音声であっても構わないし、その他であっても良い。つまり要約は、写真などの画像と共に再生することで撮影時を思い出すのに有効な情報であれば良い。具体例として、要約は、その画像にふさわしい特徴的な環境音や、撮影するときのかけ声や返事等の一連の会話などが相当する。
そして、要約部10cは、第1の音声データts1の中から特徴的な一部分、例えば図2に示すように音圧が最も高い部分を含む所定時間分(例えば1秒分)を抽出して、第1の要約よりも画像単位での認識に要する時間(具体的には、再生時間)が短い第2の要約である第2の音声データts2とする。なお、特徴的な部分の他の例としては、第1の音声データts1の中の、人の声であると分類された部分、周期的に発生している特徴音(例えば波の音)などが挙げられる。
さらに、要約部10cは、画像群に含まれる全画像の第1の音声データts1でなる第1の音声データts1群から、特徴部分である特徴音を所定時間分だけ抽出して第1の音声データts1よりも再生時間が短い第3の音声データts3を作成するとともに、作成した第3の音声データts3を他の第2の要約とする。この第2の要約において、大きな音の部分を選択したり、撮影者の声などは省いて、肝心の被写体の声だけを選択するような工夫も有効である。また、周期的に繰り返される音声を第2の要約とする場合には、2周期分のみを採用する、などの短縮を行うことも有効である。つまり第2の要約においては、一枚の画像当たりの補助情報を時間的に短縮する。
ここに、第3の音声データts3として抽出される画像群の特徴音とは、画像群に含まれる各画像に係る全ての第1の音声データts1の中の特徴的な部分である。画像群の特徴音としては、例えば、画像群に含まれる各画像に係る複数の特徴的な第2の音声データts2の内の、最も特徴的な1つの第2の音声データts2が挙げられる。なお、「最も特徴的な1つの第2の音声データts2」とは、例えば、複数の第2の音声データts2の音圧の各最高値の内の、最も高い値を示す第2の音声データts2、あるいは音声認識を最も高い精度で行うことができる第2の音声データts2、などである。もしくは簡単に、画像群に含まれる複数の画像中の、撮影時刻が最も古い(あるいは撮影時刻が最も新しい、さらにあるいは最も古い撮影時刻と最も新しい撮影時刻との中間時刻に最も近い、等の)画像の第2の音声データts2を第3の音声データts3として設定しても構わない。
第3の音声データts3として抽出される画像群の特徴音の他の例としては、画像群に含まれる各画像に係る複数の第1の音声データts1において、共通に含まれている音声成分(音波の性質(音圧、周波数など)がほぼ同一の音声部分)が挙げられる。ここに「共通に含まれている音声成分」とは、例えば、複数の第2の音声データts2に共通して波の音が含まれている場合に、何れか1つの第2の音声データts2から抽出した波の音の音声成分、あるいは複数の第2の音声データts2の全てから抽出した波の音を平均化した音声成分、などである。
なお、第3の音声データts3の抽出方法は、上記に挙げた例に限定されるものではなく、その他の技術を適宜用いることができる。例えば、ステレオ式に複数の音声を複数のスピーカから同時に再生して、コラージュ風の表現をしても良い。また、1つのスピーカーからモノラルで音声を再生しても良く、旅行などでは、その土地を一番良く表す音声を選んでも良い。このときに、GPS情報などを補助的に利用することが可能である。例えば、GPS情報に基づき海の近くであることが分かる場合には、録音した音声データに含まれる海の音の音声成分を、その他の音声成分よりも優先させて音量を上げる、等である。また、季節の情報なども有効に利用することが可能である。例えば、季節の情報が夏である場合には、録音した音声データに含まれる特徴的な音声としての蝉の鳴き声の音声成分を、その他の音声成分よりも優先させて音量を上げる、等である。こうした季節や土地に対して、どのような音声が特徴的となるかを示す優先度情報を表形式でもつようにして、この表を参照して優先させる音声成分を判断するようにしても良い。
加えて、要約部10cは、画像の撮影に伴って得られた撮影時情報、つまり、撮影で得られた画像自体(具体的には、画像に基づき顔判定部10dにより検出された顔、あるいは画像を解析して得られる画像の特徴など)、第1の音声データts1自体(具体的には、第1の音声データts1から抽出される環境音やテキスト化された音声など)、GPS部7から取得したGPS位置情報、WEB通信部6から受信した地図情報や天気情報、時計8から取得した時間情報、温度計9から取得した温度情報等(列挙したこれらの例に限定されるものではなく、その他の情報を用いても勿論構わない)に基づいて、画像の特徴を表すタグ情報(このタグ情報は、画像の特徴を表し、下記に説明するように、例えば画像の説明文を作成するために用いられる)を、画像に関連付け可能な文字情報として生成する(タグ情報生成の処理の一例については、後で図11Aおよび図11Bを参照して説明する)。
その後、要約部10cは、必要に応じて、データベース部15の文章用テンプレート15aに保存されている複数の文章テンプレート(空欄に言葉を嵌め込むことにより文章を構成するためのテンプレート)の中からタグ情報に応じて適切な1つの文章テンプレートを読み込み、読み込んだ文章テンプレートの空欄個所にタグ情報を嵌め込むことにより、画像の説明文を生成する。一例を挙げれば、次の文章テンプレート、「(X1)月(X2)日、(X3)と(X4)に行った。その日は(X5)日だった。」を用いて、時間情報に基づき「X1=5」および「X2=5」を、顔情報に基づき「X3=太郎さん」を、GPS位置情報および地図情報に基づき「X4=京都」を、天気情報(あるいは天気情報および温度情報)に基づき「X5=晴れていてとても暑い」を、それぞれ嵌め込み、次の画像の説明文を作成する。「5月5日、太郎さんと京都に行った。その日は晴れていてとても暑い日だった。」このようにして要約部10cにより生成された画像の説明文は、要約部10cの制御に基づき後述する音声合成部11dにより音声生成されて第1の要約である第4の音声データts4に変換される。
なお、要約部10cによる画像の説明文の作成は、画像が撮像された時点で行うに限るものではなく、画像を鑑賞する時点で行っても良い。画像を鑑賞する時点で画像の説明文を作成すれば、鑑賞する時点と撮像時点との時間差を考慮した文章を作成することが可能になる利点がある。一例としては、撮像時点が1年前であれば「昨年」という文言を選択することができ、2年前であれば「一昨年」という文言を選択することができる、等である。
そして、これらの音声データts1〜ts4の例をまとめたのが図3である。ここに、図3は画像再生時に再生される音声データの例を示す図表である。
顔判定部10dは、画像に基づき顔を検出するものである。すなわち、顔判定部10dは、画像処理部2を介して撮像部1から得られた画像データから、人物の顔部分を抽出し、抽出した顔の特徴点データから、データベース部15の後述する顔データベース15bに既に登録済みの顔であると判断される場合(つまり、抽出した顔の特徴点データと同一と判定される顔の特徴点データが、人物名等の人物情報に既に関連付けされている場合)には、関連付けられた人物情報を読み出して撮像して得られた画像データに関連付けする。また、顔判定部10dは、必要に応じて、顔の状態(例えば、笑顔であるか否か等)についても判定を行う。
なお、記録部14には、画像データが記録されると共に、画像データに関連付けて第1の音声データts1とタグ情報とが記録される。また、要約である第2の音声データts2も画像データに関連付けて記録部14に記録されても良いが、第2の音声データts2自体に代えて、第1の音声データts1中の特定範囲を示すポインタ等が記録されても構わない。さらに、画像群に係る第3の音声データts3が画像群に関連付けて記録部14に記録されても良いが、例えば旅行に係る画像群はその旅行が終了すれば確定するのに対して、特定の人物が写っている画像群はその特定の人物が含まれる画像が将来撮影されることもあり得るために、現時点の画像群が既に確定したものであるとはいえない。従って、記録部14に第3の音声データts3が記録されている場合であっても、画像群が更新された場合には第3の音声データts3も更新すると良い。あるいは、第3の音声データts3は、必要になる毎に画像群に含まれる各画像に係る複数の第1の音声データts1から作成しても良い。
続いて、再生制御部11は、全画面表示部11aと、サムネイル表示部11bと、フロー表示部11cと、音声合成部11dと、テロップ作成部11eと、を備えている。
全画面表示部11aは、画像の全画面表示を行うための表示用データを作成する。
サムネイル表示部11bは、画像のサムネイル表示を行うための表示用データを作成する。
フロー表示部11cは、画像のフロー表示を行うための表示用データを作成する。
音声合成部11dは、テキスト化部10bにより作成されたテキスト、または要約部10cにより作成されたタグ情報(このタグ情報もテキストである)に基づき音声合成を行って、読み上げ用の音声データを作成する。さらに、音声合成部11dは、要約部10cにより作成された画像の説明文に基づき音声合成を行って、画像の説明文に係る第4の音声データts4を作成する。
テロップ作成部11eは、上述したテキスト化部10bにより作成されたテキスト、要約部10cにより作成されたタグ情報、または要約部10cにより作成された画像の説明文に基づき、フォントデータを用いて表示用のテロップデータを作成する。
そして、データベース部15は、文章用テンプレート15aと、顔データベース15bと、を備えている。
文章用テンプレート15aは、上述したような、タグ情報を嵌め込む文章テンプレートを保持するものである。文章テンプレートは、撮影シーンに合わせて各種が予め用意されているが、WEB通信部6を介してインターネット等から新たな文章テンプレートや所望の文章テンプレートをダウンロードするようにしても構わない。このとき、インターネットへ接続するタイミング等は、所望のタイミングであっても良いし、画像をインターネットへアップロードするタイミングであっても構わない。なお、文章用テンプレート15aには、テキスト化部10bにより用いられる擬音テキストデータベースや、画像の撮影時刻と再生時刻との時間差を表す言葉を収納する時差テンプレートなどが付帯して設けられている(ただし、擬音テキストデータベースや時差テンプレートを文章用テンプレート15aとは別体に設けても構わない)。
顔データベース15bは、顔(具体的には、顔の特徴点データ)と人物名等の人物情報とを関連付けて記憶するデータベースである。ここに、顔の特徴点データは画像から顔判定部10dにより抽出され、人物情報は例えばユーザが入力する。
次に、図8は、カメラのメイン処理を示すフローチャートである。
カメラの電源スイッチがオンされる等によりこの処理が開始され、まず、カメラが撮影モードに設定されているか否かを判定する(ステップS1)。
ここで撮影モードに設定されている場合には、後で図9を参照して説明する撮影モードの処理を実行する(ステップS2)。
また、ステップS1において撮影モードに設定されていないと判定された場合には、カメラが再生モードに設定されているか否かを判定する(ステップS3)。
ここで再生モードに設定されている場合には、後で図10を参照して説明する再生モードの処理を実行する(ステップS4)。
また、ステップS3において再生モードに設定されていないと判定された場合には、カメラが通信モードに設定されていると判定して、画像通信の処理を実行する(ステップS5)。この画像通信の処理は、WEB通信部6等を介して画像をパーソナルコンピュータへ送信したり、あるいは画像をインターネットへアップロードする処理を含み、公知の技術を広く適用可能であるためにここでは詳細には説明しない。
上述したステップS2、ステップS4、またはステップS5の処理を行ったら、このメイン処理を終了するか否かを判定する(ステップS6)。ここにメイン処理の終了は、例えば、電源スイッチがオフに操作された場合、あるいは何の操作もなされていない時間が自動電源オフ設定時間(あるいはスリープ設定時間)に達した場合などに実行されるようになっている。
ここで、メイン処理をまだ終了しない場合にはステップS1へ戻って上述したような処理を繰り返して行い、終了する場合にはメイン処理を終える。
続いて、図9は、撮影モードの処理を示すフローチャートである。図8に示したステップS2に入ると、この撮影モード処理が開始される。
まず、カメラがGPS位置情報を取得するモードに設定されていて、GPS部7がオンになっているか否かを判定する(ステップS11)。
ここで、GPS部7がオンになっている場合には、GPS部7によりGPS位置情報を取得する(ステップS12)。
次に、撮像部1により撮像を開始し、画像処理部2や再生制御部11等により処理を行って表示パネル12にスルー画を表示開始する(ステップS13)と共に、マイク3により録音を開始する(ステップS14)。ここにスルー画は、構図等を決定する際にユーザが観察することができるように表示パネル12に表示されるリアルタイムの動画であり、例えば60fpsのフレームレートで撮影される。なお、例えば60fpsのフレームレートで撮像部1の全画素を読み出すことは困難であったり消費電力を要したりするために、例えば間引き読み出しや加算読み出し等が行われ、静止画よりも画素数が少なくなっている。従って、図2においては、記録画となる静止画よりも小さい画像として図示している。
そして、スルー画における顔判定を行うモードに設定されているか否かを判定する(ステップS15)。
ここで、スルー画における顔判定を行うモードに設定されている場合には、顔判定部10dにより人物の顔部分を抽出して、スルー画における人物の顔部分に例えば四角の枠を表示する等の顔判定表示を行う(ステップS16)。
そして、認証可能であるか否か、つまり顔判定の対象となる人物のデータが顔データベース15bに既に登録されているか否かを判定する(ステップS17)。
ここで認証可能である場合には、顔認証処理として、スルー画における人物の顔部分に人物のデータを関連付ける(ステップS18)。
ステップS15においてスルー画の顔判定を行うモードに設定されていないと判定された場合、ステップS17において認証不可能であると判定された場合、またはステップS18における顔認証処理が終了した場合には、静止画撮影を指示するレリーズ操作(なお、カメラにおいては2段押圧式のレリーズスイッチにより操作が行われることが多いために、この場合にはセカンド(2nd)レリーズ操作)が行われたか否かを判定する(ステップS19)。
ここでレリーズ操作が行われていない場合には、ステップS14において録音を開始した音声データの内の、最新の前録時間(上記例では5秒)分の音声データ以前の部分をクリア(削除)して(ステップS20)、ステップS13に戻り、スルー画の表示と、前録時間分の音声データの記録と、必要に応じた顔判定と、を継続して行いながら、レリーズ操作が行われるのを待機する。
そして、ステップS19においてレリーズ操作が行われたと判定された場合には、図2にも示すように、記録画としての静止画を撮影する(ステップS21)。
静止画撮影後も、後録時間(上記例では5秒)が経過するまでは音声データの録音を行い、後録時間が経過した時点で録音を終了する(ステップS22)。こうして録音された、レリーズ時点を含む前録時間および後録時間の音声データが第1の音声データts1である。
続いて、要約部10cが、第1の音声データts1から第2の音声データts2を上述したように作成する(ステップS23)。
さらに、要約部10cが、後で図11Aおよび図11Bを参照して説明する3W+1H要約テキスト化の処理を実行して、各種のタグ情報を生成する(ステップS24)。ここに「3W+1H」とは、タグ情報の幾つかの例としての、いつ(WHEN)、どこで(WHERE)、誰が(WHO)、どのように(HOW)、を意味している。
そして、撮影された画像を記録部14に記録すると共に、画像に関連付けて第1の音声データts1とタグ情報、あるいはさらに第2の音声データts2等が記録される(ステップS25)。
このステップS25の処理を終えたら、この撮影モードの処理から図8に示すメイン処理に復帰する。
次に、図10は、再生モードの処理を示すフローチャートである。図8に示したステップS4に入ると、この再生モード処理が開始される。
まず、記録部14に記録されている全画像を、上述したように画像群に分類する(ステップS31)。記録部14に記録されている全画像が画像群に全く分類されていない場合には、全画像の分類を行うが、再生モード処理を既に1回以上行っている場合には、前回再生モード処理を行って以降に撮影された画像のみを画像群に分類(つまり、既存の画像群への追加、または新規の画像群の生成を)すれば良い。これにより、記録部14に記録されている全画像の、現時点での画像群への分類が行われたことになるために、ここでは更新が必要な第3の音声データts3を要約部10cが作成して、記録部14へ記録する処理も行う。
続いて、再生モードが、第2の表示モードであるサムネイル表示モードに設定されているか否かを判定する(ステップS32)。
ここでサムネイル表示モードに設定されていない場合には、全画面表示モードに設定されていると判定して、後で図12を参照して説明する全画面表示の処理を行う(ステップS33)。
また、ステップS32においてサムネイル表示モードに設定されていると判定された場合には、サムネイル表示部11bがサムネイル表示用の画像データを作成し、サムネイル表示の処理を行う(ステップS34)。このサムネイル表示は、デジタルカメラ等において広範に利用されているためにここでは詳細な説明を省略するが、図6に示すように、表示パネル12の画面12a全体に複数のサムネイル画像psを同じ大きさで配列して表示する(従って、複数のサムネイル画像psが同時に表示される)ものである。ここに、図6はサムネイル表示モードの様子を示す図である。
なお、ここではサムネイル表示を、例えば画像群毎に区切って(つまり、画面に表示される複数のサムネイル画像が同一の画像群に属するように)行うものとする。具体的に、第1の画像群に属する画像が20枚、第2の画像群に属する画像が10枚で、12枚のサムネイル画像を配列してサムネイル表示する場合を考えると、まず、第1の画像群のサムネイル画像12枚を表示し、次に第1の画像群の残りのサムネイル画像8枚を表示し、その後に第2の画像群のサムネイル画像10枚を表示する、等である。ただし、このような表示例に限定されるものではなく、第1の画像群の残りのサムネイル画像8枚と第2の画像群のサムネイル画像4枚とを1つの画面にサムネイル表示しても良いし、その他の種々の表示方法を適宜利用しても構わない。
サムネイル表示を行っているときに、フロー表示に移行する操作がなされたか否かを監視している(ステップS35)。
ここで、フロー表示に移行する操作がなされた場合には、フロー表示を行う際の基準画像として、撮影時刻が最新となる画像を設定する(ステップS36)。
そして、後で図13を参照して説明するフロー表示の処理を行う(ステップS37)。
ステップS37のフロー表示が終了したら、フロー表示から全画面表示へ移行する操作がなされたか否かを判定し(ステップS38)、操作がなされた場合にはステップS33の全画面表示の処理へ移行する。
一方、ステップS35において、フロー表示に移行する操作がなされていないと判定された場合には、配列して表示されている複数のサムネイル画像psの内の1つが選択されて着目画像となったか否かを判定する(ステップS39)。
ここで、何れのサムネイル画像psも選択されていない場合には、サムネイル画像psが配列されていない周辺の余白部分に、タッチパネル5を介したタッチ操作がなされたか否かを判定する(ステップS40)。
ここで、周辺の余白部分にタッチ操作がなされた場合(従って、サムネイル表示において着目画像が存在しない場合)には、再生制御部11の制御により、サムネイル表示されている画像群の第3の音声データts3をスピーカ13から音声再生する(ステップS41)。
このステップS41の処理を開始した後、または、ステップS40において周辺の余白部分にタッチ操作がなされていないと判定された場合には、ステップS35へ戻ってフロー表示への移行を再び判定する。
また、ステップS39において、サムネイル画像psの内の1つ(ひいては、サムネイル画像psにより表される1つの画像)がシングルタッチ(あるいはシングルタップ)により選択されたと判定された場合には、選択された着目画像の第2の音声データts2をスピーカ13から音声再生する(ステップS42)。また、サムネイル画像psの内の1つがダブルタッチ(あるいはシングルタップ)により選択された場合には、カメラが全画面表示モードに設定されるために、ステップS42の処理は実質的にスキップされ、ステップS43、ステップS45の分岐を経て、ステップS32の分岐を「NO」へ移行し、ステップS33の全画面表示の処理を行うことになる。
このステップS42の処理を開始した後に、次のサムネイル表示候補を選択する操作(つまり、サムネイル表示を次頁へ進める操作)がなされたか否かを判定する(ステップS43)。
ここで、操作がなされた場合には、現在表示中の画像群の中に未表示の画像があるときにはその画像の選択を行い、現在表示中の画像群の全てがサムネイル表示済みのときには次の画像群から画像の選択を行う(ステップS44)。このステップS44の処理を行ったら、ステップS34へ戻って選択した画像をサムネイル表示する。
一方、ステップS43において、次のサムネイル表示候補を選択する操作がなされていないと判定された場合には、表示を終了するか否かを判定する(ステップS45)。
ここで、表示を終了しない場合にはステップS32へ戻る。また、表示を終了する場合、あるいはステップS33の処理を終了した場合には、この再生モードの処理から図8に示すメイン処理に復帰する。
なお、上述では、サムネイル表示を行っただけでは音声は再生されず、サムネイル表示における周辺の余白部分にタッチ操作がなされたときに画像群に係る第3の音声データts3を再生するようにしているが、これに代えて、サムネイル表示を行っただけで第3の音声データts3が自動的に再生されるように構成しても構わない。
ここで、サムネイル表示モードは、複数の画像を縮小して並べて表示するモードであり、少ない枚数(1〜2枚)ごとに画像を鑑賞するモード(第1の表示モードであり、例えば全画面表示モード)とは異なる第2の表示モードの1種である。そして、サムネイル画像は、このサムネイル表示モードにおいて並べて表示される縮小された画像のことである。第2の表示モードとしては、グループで(少なくない枚数の画像が)表示されれば良く、縮小して並べて表示するに限らず、縮小することなく重ねて表示する表示方法を取っても良い。そして、複数の中から特定画像を選択するのにふさわしい表示方法であると良い。
次に、図11Aおよび図11Bを参照して、図9のステップS24の処理の詳細を説明する。ここに、図11Aは3W+1H要約テキスト化の処理の一部を示すフローチャート、図11Bは3W+1H要約テキスト化の処理の他の一部を示すフローチャートである。
この3W+1H要約テキスト化の処理を開始すると、まず、画像に関連して録音された第1の音声データts1の中から、音声分析部10aにより環境音が検出されたか否かを判定する(ステップS51)。
ここで環境音が検出された場合には、要約部10cが、文章用テンプレート15aに付帯して設けられた擬音テキストデータベースから、検出された環境音に対応する擬音テキストを選択して、HOWのタグ情報として設定する(ステップS52)。タグ情報の幾つかの具体例を挙げれば、波→「ザザー」、さざ波→「ちゃぷちゃぷ」、風音→「そよそよ」、破裂音→「バーン」、呼びかける声→テキスト化部10bによるテキスト化、等である。なお、これらのタグ情報は、テキストとして再生するに限るものではなく、例えばアイコン化して(つまり図として)表示再生しても良い。これにより、聴覚に自信のないユーザや、聞き取りが困難な騒音環境下にいるユーザでも、タグ情報をより容易に認識することが可能となる。
ステップS51において環境音が検出されないと判定された場合、またはステップS52の処理を行った場合には、次に、顔判定部10dにより記録画像である静止画像中に顔部分が検出されたか否かを判定する(ステップS53)。
ここで顔部分が検出された場合には、検出された顔部分の数が所定数以上であるか否かを判定する(ステップS54)。そして所定数以上である場合には、要約部10cは、WHOのタグ情報として例えば「みんな一緒」を設定する(ステップS55)。
また、検出された顔部分の数が所定数未満である場合、またはステップS54の処理を行った場合には、検出された顔部分の認証が可能であるか否かを判定する(ステップS56)。
ここで認証可能である場合には、要約部10cは、顔判定部10dにより検出された顔に基づきデータベース部15の顔データベース15bから人物情報を取得して、顔が検出された画像のWHOのタグ情報として認証された人物情報、例えば「○○さん」を設定する(ステップS57)。なお、ステップS55において既にWHOのタグ情報を設定している場合であって、このステップS57の処理をさらに行った場合には、WHOのタグ情報が追記され、つまり1つの種類のタグに複数のタグ情報が保存されることになる。このように、タグ情報は1種類に対して1つ設定するに限るものではなく、複数を列記しても構わない。
また、ステップS56において認証不可能であると判定された場合には、図9のステップS18における静止画像撮影前後の動画像における認証結果を利用可能であるか否かを判定する(ステップS58)。
ここで利用可能である場合には、ステップS57へ行って上述したようにWHOのタグ情報を設定する。
ステップS53において顔部分が検出されないと判定された場合、ステップS58においてステップS18の認証結果を利用不可能であると判定された場合、またはステップS57の処理を行った場合には、記録画像である静止画像の画面上方に特徴が検出されたか否かを判定する(ステップS59)。ここに、カメラには図示しない重力センサ等が設けられていて、静止画像には重力方向上側の情報が付随して記録されていることを想定している。
そして、画面上方に特徴が検出された場合には、検出された特徴に対応するキーワードをWHEREのタグ情報として設定する(ステップS60)。画面上方の特徴に応じたタグ情報の幾つかの具体例を挙げれば、青い→「青空の下」、暗い→「夜空の下」、人工光→「室内で」、等である。なお、これらのキーワードは、データベース部15にキーワードテンプレートとして予め用意しておいても構わないし、ユーザが入力しても良いし、WEB通信部6を介してインターネット等からダウンロードしても構わない。
ステップS59において画面上方に特徴が検出されないと判定された場合、またはステップS60の処理を行った場合には、GPS位置情報および地図情報を取得可能であるか否かを判定する(ステップS61)。
ここで取得可能である場合には、取得されたGPS位置情報および地図情報に基づき、WHEREのタグ情報として、例えば「東京」などの地名やその他の地理情報を設定する(ステップS62)。なお、上述と同様に、ステップS60において設定されたWHEREのタグ情報が存在する場合には、ステップS62において設定したWHEREのタグ情報が列記されることになる。
ステップS61においてGPS位置情報または地図情報が取得できないと判定された場合、またはステップS62の処理を行った場合には、静止画像の撮影時刻の情報を取得可能であるか否かを判定する(ステップS63)。
一般的なカメラ等であれば静止画像には撮影時刻の情報が付随しているために取得可能であり、取得した撮影時刻に基づいて、WHENのタグ情報を設定する(ステップS64)。タグ情報の幾つかの具体例を挙げれば、撮影時刻→「年月日時分」、月日→「春」「夏」「秋」「冬」、特別な日→「誕生日」「クリスマス」、時分→「朝」「夜」、等である。なお、例示したこれらのタグ情報は、上述したように、複数を列記しても構わない。
ステップS63において何らかの理由により撮影時刻が取得できないと判定された場合、またはステップS64の処理を行った場合には、WHEN、WHERE、WHO、HOWの各タグ情報を画像と関連付けて(例えば画像ファイルのヘッダ情報などとして)記録部14に記録し(ステップS65)、この3W+1H要約テキスト化の処理から図9に示す撮影モードの処理に復帰する。
なお、上述では、静止画像の撮影時の状況を表すタグ情報として、3W+1Hのタグ情報を用いたが、その他のタグ情報を適宜取捨選択しても構わないことは勿論である。
続いて、図12を参照して、図10のステップS33の処理の詳細を説明する。ここに、図12は全画面表示の処理を示すフローチャートである。
この全画面表示は、必ずしも文字通りに画像を全画面に拡大して表示する必要はなく、余白付きの画像表示であっても良く、さらにこの余白に情報表示があっても構わず、加えて余白の情報表示が次の画像の予告であっても良い。
この全画面表示の処理を開始すると、まず、全画面表示部11aが選択画像を全画面表示するための表示用データを作成し、図5に示すように全画面表示を行う(ステップS71)。ここに図5は、全画面表示モードの様子を示す図である。この全画面表示モードにおいては、表示パネル12の画面12aのほぼ全体に(つまり画像を主体として)1枚の選択画像pのみを表示する。ただし、画面12aの全面積を用いて1つの選択画像pを表示するに限らず、画面12aの中央に1つの選択画像pを比較的大きな面積で表示して、その周辺に各種の情報を表示する等の表示形態であっても構わない。
次に、画像の説明文に係る第4の音声データts4を音声再生する設定がなされているか否かを判定する(ステップS72)。
ここで、第4の音声データts4を音声再生する場合には、画像の撮像時点の前後に録音された第1の音声データts1と、第4の音声データts4と、を例えば同時に(あるいは順次に)音声再生する(ステップS73)。
例えば同時に音声再生する場合には、撮影時の第1の音声データts1を背景音として説明文に係る第4の音声データts4をナレーションとする感覚であり、このようなバランスをより明瞭にするために、第4の音声データts4の再生音量を第1の音声データts1の再生音量よりも大きくするようにしても良い。画像の説明文に係る第4の音声データts4が音声合成部11dにより作成されるのは、上述した通りである。
そして、同時音声再生の場合には、第4の音声データts4の再生時間が、第1の音声データts1の再生時間(ひいては第1の音声データts1の録音時間:上述した例では10秒)以下となるようにすると良い。このためには、要約部10cが画像の説明文を作成する際に、読み上げ時間長さが第1の音声データts1の再生時間以下となるような文章テンプレートを文章用テンプレート15aから選択して読み込むようにすると良い。従って、各文章テンプレートに、標準的な読み上げ時間等の情報を予め関連付けておくようにすると良い。
また、ステップS72において第4の音声データts4を音声再生しないと判定された場合には、第1の音声データts1を音声再生すると共に、第4の音声データts4を作成する基となった、要約部10cにより作成された画像の説明文を、選択画像pの表示に重畳して例えばテロップ表示再生する(ステップS74)。このときに用いる表示用のテロップデータがテロップ作成部11eにより作成されるのは、上述した通りである。なお、ここでは画像の説明文のテロップ再生を行ったが、テロップ再生は行わずに第1の音声データts1のみの音声再生を行うようにしても構わない。
また、上述では第1の音声データts1を必ず再生しているが、第1の音声データts1のみの音声再生に代えて、第4の音声データts4のみの音声再生を行っても構わない。
こうして、ステップS73またはステップS74の処理が行われたら、音声再生を終了するか否かを判定する(ステップS75)。この判定は、全画面表示における音声再生が、繰り返し再生として設定されているか、あるいは1回再生として設定されているかに基づき行われる。そして、ここで音声再生を終了しない場合には、ステップS72へ戻って、音声再生を繰り返して行う。
一方、ステップS75において音声再生を終了すると判定された場合には、全画面表示する画像を次の画像に進める操作が行われたか否かを判定する(ステップS76)。
そして、次の画像に進める操作が行われた場合には、ステップS71へ戻って、次の画像について上述したような音声再生を伴う全画面表示を行う。
また、ステップS76において次の画像に進める操作が行われていないと判定された場合には、この全画面表示の処理から、図10に示す再生モードの処理に復帰する。
次に、図13を参照して、図10のステップS37の処理の詳細を説明する。ここに、図13はフロー表示の処理を示すフローチャートである。
この処理に入ると、ステップS36において設定した最新画像を規準としてフロー表示部11cがフロー表示用データ作成し、例えば図7に示すようなフロー表示を開始する(ステップS81)。ここに図7は、フロー表示モードの様子を示す図である。
フロー表示モードは、表示パネル12の画面12a内に複数の縮小画像prを撮影時刻順に配置して表示し、時間軸方向(図7に示す例では、時間軸方向が画面12aの左右方向であることを想定している)の操作入力に応じて表示を移動させる第2の表示モードである。
本実施形態のフロー表示モードは、さらに、ある画像がどの画像群PGに含まれるのかが見ただけで容易に判別されるように、画像群PGに含まれる画像同士を近接させて(例えば、画像群PGに含まれる任意の画像は、同一の画像群PGに含まれる他の少なくとも1つの画像と一部が重複するように)縮小画像prとして表示し、さらに、一の画像群PGと他の画像群PGとは所定の距離を離すように(重複部分がなく、時間軸方向において離隔するように)表示するようにしている。従って、このフロー表示モードにおいて利用される画像分類は、撮影時刻に沿った画像群への画像の分類である。
図7に示す例においては、画面12aの左側により古い画像が表示され、画面12aの右側により新しい画像が表示されるものとする。また、この図7の例では、縮小画像prの大きさも、例えば大小のサイズがランダムに混在するように表示されている(ただし、大きさをランダムにしなくても勿論構わない)。
そして、フロー表示モードにおいては、フリック入力の操作(タッチパネル5を指先等でスライドしたり、パッと払ったりする入力操作)が行われると、その操作が時間軸方向における未来方向か過去方向かに応じて、表示パネル12に表示する画像をスライドさせる。
すなわち、まずフリック入力により、フロー表示の流れを停止させる操作が行われたか否かを判定する(ステップS82)。
ここでフロー表示の流れを停止させる操作が行われていない場合には、画面を左側へ移動させるような左向きのフリック入力の操作が行われたか否かを判定する(ステップS83)。
左向きのフリック入力の操作が行われた場合には、画面12a内に新しく表示される画像をリサイズして縮小画像prとして、時間進行方向へフロー移動を行う(ステップS84)。これにより、画面12a内の右側に、撮影時刻がより後の(より新しい)画像が新たに表示される。
また、ステップS83において画面を右側へ移動させるような右向きのフリック入力の操作が行われたと判定された場合には、画面12a内に新しく表示される画像をリサイズして縮小画像prとして、時間後退方向へフロー移動を行う(ステップS85)。これにより、画面12a内の左側に、撮影時刻がより前の(より古い)画像が新たに表示される。
ステップS84またはステップS85の処理を行ったら、次に、時間軸方向の操作入力によるフロー表示の移動速度が所定値未満であるか否かを判定する(ステップS86)。なお、フロー表示の移動速度は、フリック入力の操作の仕方によって変化するようになっている。
ここで、移動速度が所定値未満である場合には、各画像毎の音声再生が可能であると判断して、時間軸方向(図示の例では画面12aの左右方向)における画面12aの中央Cを通過している縮小画像prに係る画像の第2の音声データts2を音声再生する(ステップS87)。
一方、ステップS86において移動速度が所定値以上であると判定された場合には、各画像毎の音声再生が不可能(あるいは困難)であると判断して、時間軸方向における画面12aの中央Cを通過している画像群PGに係る第3の音声データts3を音声再生する(ステップS88)。このときにはもちろん、第2の音声データts2は音声再生されない。
このように、フロー表示の移動速度が所定値よりも遅い場合には画像に係る第2の音声データts2が再生され、フロー表示の移動速度が所定値以上に速い場合には画像群PGに係る第3の音声データts3が再生されるようになっている。このときの移動速度の区分は、例えば、画像群PGに含まれる各縮小画像prが画面12aの中央Cを通過する縮小画像pr毎の時間の内の最短時間が、第2の音声データts2を再生するに要すると見込まれる典型時間以上である場合に移動速度が所定値未満であるとし、典型時間未満である場合に移動速度が所定値以上であるとするなどが考えられる。
ステップS87またはステップS88の処理を行ったら、ステップS82へ戻ってフロー表示の流れを停止させる操作が行われたか否かを判定する。こうして、ステップS82において、フロー表示の流れを停止させる操作が行われたと判定された場合には、このフロー表示の処理から、図10に示す再生モードの処理に復帰する。
上述したように、各表示モードが設定されたときに再生される音声データは、例えば図4に示すようになっている。ここに図4は、画像再生モードの幾つかの例を説明するための図表である。
すなわち、全画面表示モードが設定されると、画像に係る音声データの内の、比較的長い再生時間を要すると考えられる、撮影時刻前後の第1の音声データts1と、画像の説明文を読み上げる第4の音声データts4と、の少なくとも一方が音声再生される。
この全画面表示モードは、必ずしも全画面で表示する必要はなく、1枚あるいは2枚の少ない枚数の画像を比較的大きめに表示して鑑賞するものを想定している。このときさらに、画像表示部分の外に様々なアイコンや要約を表示することができるスペースがあっても良い。
また、サムネイル表示モードが設定されると、特定の画像が選択されていないときには音声再生されないか、または画像群の特徴音声である第3の音声データts3が音声再生され、特定の画像が着目画像として選択されたときに、第1の音声データts1の中の特徴部分の第2の音声データts2が音声再生される。
上述したように、サムネイル表示モードは、複数の画像を縮小して並べて表示するモードであり、少ない枚数(1〜2枚)ごとに画像を鑑賞する第1の表示モード(例えば、叙述したような全画面表示モード)とは異なる第2の表示モードである。そして、第2の表示モードとしては、縮小して並べて表示するに限らないことも上述した通りである。
さらに、フロー表示モードが設定されると、フロー表示の移動速度が遅いときには画像に係る第2の音声データts2が再生され、フロー表示の移動速度が速いときには画像群に係る第3の音声データts3が再生される。
ここに、音声データts1,ts2,ts3,ts4の各音声再生時間Tts1 ,Tts2 ,Tts3 ,Tts4 は、概略、次のような大小関係にあると考えられる。ここに、下記の不等式において用いた記号「〜」は、近似した時間長さであることを示している。
Tts1 〜Tts4 >Tts2 〜Tts3
ただし、画像群として考えたときに、第2の音声データts2は画像群に含まれる各画像毎に音声再生されるのに対して、第3の音声データts3は画像群全体で1つ音声再生されるのみであるために、1画像当たりの再生時間を考えたときには、次のような大小関係になると捉えることもできる。
Tts1 〜Tts4 >Tts2 >Tts3
そして、全画面表示モードのときに最も再生時間の長い音声データts1,ts4が音声再生されるのは、全画面表示モードが特定の1つの画像をじっくりと観察する際に利用される表示モードであると考えられるためである。
また、1つの画面に複数の画像が表示されるサムネイル表示モードまたはフロー表示モードにおいては、1つの画像のみに対する音声再生を行うことがふさわしい場合には第2の音声データts2が音声再生され、そうでない場合には必要に応じて第3の音声データts3が音声再生される。
このような実施形態1によれば、画面に画像を拡大して表示する第1の表示モード(第1の再生モード)(例えば、画面に画像を1つだけ表示する全画面表示モード)が設定されているときには第1の要約を、画面に画像を縮小して複数表示する第2の表示モード(第2の再生モード)が設定されているときには第1の要約よりも画像単位での認識に要する時間が短い第2の要約を、作成して再生するようにしたために、画像撮影時の回想を、一枚毎だけでなく、画像群としても効果的に行うことが可能となる。
また、第1の要約を第1の音声データts1、第2の要約を第2の音声データts2とした場合には、画像を観察すると共に音声を聴取することにより(つまり、視覚だけでなく聴覚を併用して)、画像撮影時の状況をよりリアルに認識することが可能となる。
さらに、サムネイル表示モードにおいては、着目画像となっているサムネイル画像に係る第2の音声データts2を音声再生するようにしたために、着目画像の撮影時の状況を簡潔に認識することが可能となる。
そして、サムネイル表示において前記着目画像が存在しないとき(例えば、周辺の余白部分にタッチ操作がなされたとき)に、第3の音声データts3を音声再生するようにしたために、サムネイル表示されている画像群の撮影時の状況を簡潔に認識することが可能となる。
一方、フロー表示モードにおいては、画面中央を通過する縮小画像に係る第2の音声データts2を音声再生するようにしたために、画面中央の縮小画像の撮影時の状況を簡潔に認識することが可能となる。
また、フロー表示の移動速度が所定値以上であるときには画像群に係る第3の音声データts3を音声再生するようにしたために、個々の画像に係る第2の音声データts2を音声再生するのが難しい場合でも、画面中央の画像群の撮影時の状況を簡潔に認識することが可能となる。
さらに、要約部10cが撮影時情報に基づきタグ情報を生成するようにしたために、タグ情報を用いて画像の特徴を明瞭に表すことが可能となる。このとき、文章テンプレートの空欄にタグ情報を嵌め込んで画像の説明文を生成する場合には、撮影時の状況認識を文章に基づき行うことが可能となる。
そして、画像の説明文を第4の音声データts4として音声再生する場合には、撮影時の状況を表す言葉を聴覚を用いて聞き取ることにより、撮影時の状況を明瞭に認識することが可能となる。ここに、第4の音声データts4の再生時間が第1の音声データts1の再生時間以下となるようにする場合には、第1の音声データts1の再生時間内において、第1の音声データts1を背景音とし第4の音声データts4をナレーションとする聴取が可能となる。
また、上述した再生装置は、撮像装置や録音装置として構成することも可能であるために、撮像装置や録音装置においても同様の効果を奏することができる。
[実施形態2]
図14から図18は本発明の実施形態2を示したものであり、図14はタグ表示を伴う全画面表示の第1の例を示す図、図15はタグ表示を伴う全画面表示の第2の例を示す図、図16はタグ表示を伴う全画面表示の第3の例を示す図、図17はタグ表示を伴う組写真表示の様子を示す図、図18は再生モードの処理を示すフローチャートである。
この実施形態2において、上述の実施形態1と同様である部分については同一の符号を付すなどして説明を適宜省略し、主として異なる点についてのみ説明する。
本実施形態においては、全画面表示以外に、組写真表示を行う例について説明する。ただし、全画面表示および組写真表示に加えて、上述したサムネイル表示やフロー表示を行っても勿論構わない。また、本実施形態においては、音声再生を行う必要はなく、音声再生に代えて、あるいは音声再生と共に、要約部10cにより作成されたタグ情報を表示するようになっている。もちろん上述した実施形態1と同様に、音声でタグ情報を読み上げたり、タグ情報とテンプレートとを組み合わせて文章にして読み上げたりしても良い。
また、上述した実施形態1においては、サムネイル表示として複数の画像を縮小して並べて表示するモードでの表示方法を詳しく説明したが、少ない枚数(1〜2枚)ごとに画像を鑑賞する第1の表示モード(第1の再生モード)(例えば全画面表示モード)とは異なるモードであるという点で、本実施形態の組写真表示もサムネイル表示と同じ分類となり、上位概念としての第2の表示モード(第2の再生モード)であると考えることができる。なお、この組写真表示においても、グループで(少なくない枚数の画像が)表示されれば良く、縮小して並べて表示するに限らず、縮小することなく一部を重ねて表示する表示方法を取っても良い。また、複数の画像の中から一つの画像を選択することができるようにすれば、この組写真表示は検索用にも使えるモードである。そして組写真表示は、アルバム風のレイアウトをとる点が特徴となっている。
まず、図14〜図16は、タグ表示を伴う全画面表示の幾つかの例を示している。要約部10cは、全画面表示モードが設定されているときには、画面12aに表示される1つの画像pのタグ情報を第1の要約とする。つまり全画面表示においては、例えば、画像に関連付けられているタグ情報が全て(あるいは、1つの種類のタグ毎に代表的なタグ情報が1つ)表示再生されるような表示方法が採用されている。なお、タグ情報の列挙表示に代えて、要約部10cにおいて作成された画像の説明文をテロップ作成部11eにより表示用のテロップデータとして画像化し、第1の要約として表示再生しても構わない。ここでも全画面表示は、表示パネル12の画面12aの全表示面積を使う表示である必要はなく、少ない枚数の画像を一枚ずつ鑑賞することができる表示であれば良い。従って、単純化のためにここでは全画面表示モードと呼んで説明しているが、全画面表示をより広い概念化した第1の表示モードであれば良い。
具体的に、図14においては、画像pに加えて、WHENのタグ情報として「去年」および「夏」が、WHEREのタグ情報として「伊豆」が、WHOのタグ情報として「Aちゃん」が、HOWのタグ情報として「ざざー」が、タグ表示12tとして表示されている。ただし、「去年」のタグ情報は、後で図18を参照して説明するように、画像の撮影時刻と再生時刻との時間差に基づき設定されたものである。
また、図15においては、画像pに加えて、WHENのタグ情報として「去年」および「夏」が、WHEREのタグ情報として「伊豆」および「青空」が、HOWのタグ情報として「そよそよ」が、タグ表示12tとして表示されているが、人物が画像内にいないためにWHOのタグ情報は表示されていない。
さらに、図16においては、画像pに加えて、WHENのタグ情報として「去年」および「夏」が、WHEREのタグ情報として「伊豆」および「山」が、タグ表示12tとして表示されているが、人物が画像内にいないためにWHOのタグ情報は表示されておらず、さらにHOWのタグ情報も設定されておらず表示されていない。
次に、図17は、タグ表示を伴う組写真表示の例を示している。組写真表示モードは、表示パネル12の画面12aに、例えばユーザが選択した(あるいはカメラが自動選択した)複数枚(例えば3枚以上(ただし、全画面表示が1枚のみの表示である場合には、組写真表示は2枚以上であっても良い))の画像に係る縮小画像prが同時に表示される第2の表示モードである。この図17に示す例では、図14〜図16に示した画像pの縮小画像prが適宜の大きさで同時に表示されている。
要約部10cは、第2の表示モードである組写真表示モードが設定されているときには画面12aに表示される複数の縮小画像prのタグ情報における共通部分を重複させることなく第2の要約とする。すなわち、組写真においては、表示される複数枚の画像に共通するタグが表示される。なお、全画面表示において表示されたタグ情報に共通するタグ情報がない場合でも、画像に関連して記録されたタグ情報(つまり、全画面表示では未表示となっていたタグ情報も含む全タグ情報)中に共通するタグ情報が存在する場合には、そのタグ情報が表示される。このタグ情報には、被写体の姿勢情報や表情情報などを含んでも良く、タグ情報の変化を見れば、行動などを要約することができる。例えば、「座っている」タグが付いた画像と「立っている」タグが付いた画像が組写真中にあるときに、これらの画像の撮影時刻タグを含めて判定すれば、組写真に対する第2の要約として「座っている」タグと「立っている」タグとを並記するよりも、時系列順に、「座っている」→「立っている」となった場合にはタグ「立ち上がった」を、「立っている」→「座っている」となった場合にはタグ「座り込んだ」を、記載した方が分かり易く、かつ情報量も少なく要約されることになり好ましい。同じ赤ちゃんが立っている画像と座っている画像において、こうしたタグ情報が付されていると、愛らしい赤ちゃんの行動がリアルに回想される。
また、要約部10cは、第2の表示モードである組写真表示モードが設定されているときには、画面12aに表示される複数の縮小画像prの各タグ情報の何れかに人物情報が含まれているときには、その人物情報を第2の要約にさらに含める。つまり、組写真に係るWHOのタグ情報は、(もちろん重複させることなく)全て表示するようになっている。これは、組写真の何れかに顔データベース15bに登録されている人物が写っている場合には、組写真表示された画像の全てに共通して写っていなくても観察者が容易に認識することができるためである。
従って、図17に示す例においては、図14〜図16における共通するタグ情報として、WHENのタグ情報「去年」および「夏」と、WHEREのタグ情報「伊豆」がタグ表示12tとして表示され、さらに、図14〜図16におけるWHOのタグ情報「Aちゃん」がタグ表示12tとして表示される。
なお、図14〜図17に示したようなタグ情報は、文字として表示するだけでも構わないが、音声としての読み上げ再生を併用するようにしても良い。
次に、図18を参照して、本実施形態における再生モードの処理について説明する。
この再生モードの処理が開始されると、再生を行う現在時刻と、画像が撮影された時刻と、の時間差に基づいて、文章用テンプレート15aに付帯して設けられた時差テンプレートの中から、適切な言葉を選択する(ステップS91)。時差テンプレートには、例えば、「今年」、「去年」、「一昨年」、…等の言葉が予め記憶されているものとする。
続いて、再生モードにおいて、組写真表示モードが設定されているか否かを判定する(ステップS92)。
ここで、組写真表示モードが設定されている場合には、組写真表示部として機能する再生制御部11が組写真として表示する画像群を生成して再生し、要約部10cおよび再生制御部11が画像テキストくくり表示、つまり共通するタグ情報をくくる表示を図17のタグ表示12tに示したように行う(ステップS93)。
そして、組写真として表示する画像群を変更する操作が行われたか否かを判定し(ステップS94)、操作が行われた場合には画像群の変更処理を行う(ステップS95)。
一方、ステップS92において、組写真表示モードが設定されていない場合(つまり、全画面表示モードが設定されている場合)には、選択されている画像を再生して、選択画像に係るタグ情報を図14〜図16のタグ表示12tに示したようにテキスト表示する(ステップS96)。
さらに、全画面表示する画像を変更する操作が行われたか否かを判定し(ステップS97)、操作が行われた場合には画像の変更処理を行う(ステップS98)。
ステップS94において画像群を変更する操作が行われていないと判定された場合、ステップS97において画像を変更する操作が行われていないと判定された場合、ステップS95またはステップS98の処理が行われた場合には、この再生モードの処理から図8に示すメイン処理に復帰する。従って、ステップS95において変更された画像群、またはステップS98において変更された画像の再生は、図8のメイン処理における次回のループ処理において実行されることになる。
なお、表示される文字情報をユーザが読むのに要すると考えられる時間Tは、概略、次のような大小関係にあると考えられる。ここに記号「〜」は、上述したように、近似した時間長さであることを示している。
T(画像の説明文)〜T(画像のタグ情報)≧T(画像群のタグ情報)
ただし、画像群として考えたときに、画像のタグ情報は画像群に含まれる各画像毎に表示再生されるのに対して、画像群のタグ情報は画像群全体に対して表示再生されるものであるために、文字情報をユーザが読むのに要する1画像当たりの時間を考えたときには、次のような大小関係になると捉えることもできる。
T(画像の説明文)〜T(画像のタグ情報)>T(画像群のタグ情報)
そして、全画面表示モードのときに読むのに最も長い時間を要する「画像の説明文」または「画像のタグ情報」が表示再生されるのは、全画面表示モードが特定の1つの画像をじっくりと観察する際に利用される表示モードであると考えられるためである。
また、1つの画面に複数の画像が表示される組写真表示モードにおいては、読むのに要する1画像当たりの時間が短い「画像群のタグ情報」が表示再生される。
また、本実施形態において、実施形態1で説明したサムネイル表示やフロー表示を行う場合には、音声再生に代えて、あるいは音声再生と共に、タグ情報を表示するようにすれば良い。
具体的に、サムネイル表示においては、サムネイル表示が行われたときに表示されている画像群に関連するタグ情報(画像群タグ情報)を第2の要約として表示する。ここに画像群タグ情報は、画像群に含まれている全画像に係る(重複を除いた)全タグ情報であっても良いが、上述した組写真の例と同様に、画像群の全画像に共通するタグ情報、および画像群の何れかの画像に係るWHOのタグ情報であっても良い。そして、サムネイル表示において、特定の画像がシングルタッチされて着目状態になると、シングルタッチされた画像に係るタグ情報を例えば簡易的に(つまり例えば、全種類のタグ情報の中の、重要と考えられる特定種類のタグ情報のみを)第2の要約として表示する(簡易タグ情報の表示)。
その後、サムネイル表示において特定の画像がダブルタッチされると、図14〜図16に示したような全画面表示に移行して画像のタグ情報または画像の説明文を第1の要約として表示する。
また、フロー表示においては、上述したようなフロー表示の移動速度に応じて、時間軸方向における画面中央を通過している画像に関連する簡易タグ情報、もしくは画面中央を通過している画像群に関連するタグ情報(画像群タグ情報)を第2の要約として表示する。このときには、タグ情報の表示を、文字が流れて行くテロップ表示として行っても良い。
このような実施形態2によれば、上述した実施形態1とほぼ同様の効果を奏するとともに、音声再生を要することなく表示再生のみによっても、画像撮影時の状況をよりリアルに認識することが可能となる。
また、第2の表示モードが設定されているときには、画面に表示される複数の画像のタグ情報における共通部分を重複させることなく第2の要約として表示再生するようにしたために、複数の画像のタグ情報をそれぞれ認識する場合に比べて、認識に要する時間を有効に短縮することができる。また、時間的な特徴変化を要約する辞書を参照可能に記録しておき、これによって個々の姿勢を動作に変換して表示するなどの工夫も可能となる。例えば上述したように、「立っている」、「座っている」という二つの情報の時間変化を、「座っている」→「立っている」に時間変化した場合には「立ち上がった」、「立っている」→「座っている」に時間変化した場合には「座り込んだ」、というシンプルな動作情報に変換することも可能である。
さらに、顔判定により検出された顔の人物情報を、第2の表示モードにおいて表示再生する第2の要約に含めるようにしたために、重要度が高いと考えられる、画像に写っている人物の名前等を、画像撮影時の状況に沿って明瞭に認識することが可能となる。
なお、上述では主として再生装置について説明したが、再生を上述したように行うための再生方法、再生を上述したように制御するための再生制御方法であっても良いし、コンピュータに再生装置を上述したように制御させるための、あるいは再生方法や再生制御方法を上述したように実行するためのプログラム、該プログラムを記録するコンピュータにより読み取り可能な一時的でない記録媒体、等であっても構わない。
具体的に、上記で説明した技術の内の、主にフローチャートを参照して説明した制御に関しては、プログラムの処理より実行可能であることが多く、このプログラムは記録媒体や記録部に収められる場合もある。このプログラムの記録は、製品を出荷するときに出荷製品に対して行っても良いし、製品の出荷と共にあるいは製品の出荷とは異なる時点で配布する記録媒体に対して行っても良い。あるいは、プログラムを、インターネット等の通信回線を介してダウンロードすることができるようにしても良い。
また、本発明は民生用のカメラ、ビデオカメラ、撮影機能付きの携帯機器、録音用装置、PCのみならず、産業用、医療用の表示機器においても適用可能である。例えば、カプセル内視鏡で一枚の画像を拡大して診る場合と、複数の臓器の画像を通して診る場合とで、補助情報を変更することにより、一つ一つの病変とトータルな健康状態を要約を切り替えて認識させても良い。顕微鏡や工業用内視鏡においても同様である。監視カメラの場合は、不審者の外見特徴として一枚の画像から性別や年齢、服装などの見た目から分かる要約を表示し、複数の画像から行動や動作、癖などその他の分かることを要約しても良い。例えば、一枚表示では、「黒服の40代の男で髪が長い」といった要約になり、複数枚表示では、位置情報タグや姿勢情報のタグの変化を解析して「男が走っていた」という要約にしても良い。
さらに、上述の実施形態では、画像の表示を前提としていたが、要約機能だけを用いて、画面表示せずに楽しむことも考えられる。例えば、耳で聞く回想装置として使用する場合は、画面を消して省エネ効果を持たせてもよい。必要なのは、グループとしての画像を扱うか、特定の画像を扱うかの差異で、要約が切り替わる点である。思い出に浸る方法としては、画像群を選んでの鑑賞と、特定の画像(1枚でなくともよい)を選んでの鑑賞があるということで、この選択に従って再生される補助情報や要約が変わるといった特徴をもつ機器を提供することができる。このような構成によれば、視覚にこだわることなく、聴覚のみでの鑑賞、回想が可能となり、車を運転しながらの回想や、視覚に自信がない人の回想や、多人数での鑑賞などの一つの画面が見えない(あるいは見難い)状況での鑑賞に対応することが可能となる。
そして、本発明は上述した実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明の態様を形成することができる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除しても良い。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。このように、発明の主旨を逸脱しない範囲内において種々の変形や応用が可能であることは勿論である。