JP4922445B2

JP4922445B2 - システム、方法、装置及びプログラム

Info

Publication number: JP4922445B2
Application number: JP2010199275A
Authority: JP
Inventors: 一学三野; 章依田; 祐己太後藤田
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2005-02-25
Filing date: 2010-09-06
Publication date: 2012-04-25
Anticipated expiration: 2025-12-15
Also published as: JP2011019277A

Description

本発明は、撮像装置、撮像方法、出力装置、出力方法、及びプログラムに関する。特に本発明は、画像を撮像する撮像装置及び撮像方法、画像を出力する出力装置及び出力方法、並びに撮像装置及び出力装置用のプログラムに関する。

従来、静止画だけでなく動画もメモリカードに記録することができ、また、静止画や動画の撮影記録時にマイクロホンで検出した音声を画像に対応させて記録できるデジタルスチルカメラがある（例えば、特許文献１参照。）。また、デジタルスチルカメラで撮影した静止画や動画を表示しながら、画像に対応させて記録された音声を出力することができる電子フォトスタンドが知られている。
特許文献１特開平７−１５４７３４号公報

しかしながら、このようなカメラを用いて撮像された画像を電子フォトスタンドで再生すると、同じ画像に対しては、いつも同じ音声が再生されてしまう。このため、ユーザは画像を再生したときの音声に飽きてしまうという課題があった。また、ユーザにとっては、画像と音声の編集等の煩雑な作業をすることなく、容易に飽きの来ない音声を画像とともに鑑賞することができることが望ましい。また、特許文献１には、複数の画像から合成された画像に音声を対応させて記録する技術について開示されていない。

そこで本発明は、上記の課題を解決することができる撮像装置、撮像方法、出力装置、出力方法、及びプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。

本発明の第１の形態における出力装置は、撮像された複数の画像を格納する画像格納部と、画像格納部が格納している画像を出力する画像出力部と、画像格納部が格納している画像を画像出力部に出力させる画像出力制御部と、録音された複数の音声を格納する音声格納部と、音声格納部が格納している音声を出力する音声出力部と、画像出力部が画像を出力しているときに、音声格納部が格納している複数の音声のうちから第１の音声を選択して音声出力部に出力させ、画像出力部が同一の画像を再度出力するときに、音声格納部が格納している複数の音声のうちから第１の音声とは異なる第２の音声を選択して音声出力部に出力させる音声出力制御部とを備える。

音声格納部は、画像格納部が格納している複数の画像を撮像した撮像装置の録音機能によって録音された複数の音声を格納してよい。音声格納部は、画像格納部が格納している複数の画像がそれぞれ撮像された複数の時刻を含む期間である撮像期間を含み、撮像期間より長い期間である録音期間において録音された複数の音声を格納してよい。音声格納部が格納している複数の音声の合計の時間は、画像出力部が１つの画像を出力する予め設定された出力時間に、画像格納部が格納している複数の画像の数を乗じた時間より長くてよい。

画像格納部は、複数の画像のそれぞれに対応づけて、複数の画像が撮像されたタイミングを示す情報をそれぞれ格納し、音声格納部は、複数の音声のそれぞれに対応づけて、複数の音声が録音されたタイミングを示す情報をそれぞれ格納し、音声出力制御部は、録音されたタイミングが、画像が撮像されたタイミングから近い順に音声を選択してよい。

画像格納部は、複数の画像のそれぞれに対応づけて、複数の画像が撮像された時刻をそれぞれ格納し、音声格納部は、複数の音声のそれぞれに対応づけて、複数の音声が録音された時刻をそれぞれ格納し、音声出力制御部は、録音された時刻が、画像が撮像された時刻から近い順に音声を選択してよい。音声出力制御部は、音量が大きい順に音声を選択してよい。

音声格納部が格納している複数の音声が音声出力部に出力された回数である出力回数を計数して保持する出力回数保持部と、音声格納部が格納している複数の音声が音声出力部に出力されるべき回数である目標回数を格納する目標回数格納部とをさらに備え、音声出力制御部は、目標回数から出力回数を引いた値が大きい順に音声を選択してよい。

音声格納部が格納している複数の音声が音声出力部に出力された回数である出力回数を計数して保持する出力回数保持部と、音声格納部が格納している複数の音声が音声出力部に出力されるべき回数の比率である出力比率を格納する出力比率格納部とをさらに備え、音声出力制御部は、出力回数保持部が保持する出力回数の比率が、出力比率格納部が格納している出力比率に近づくように音声を選択してよい。

音声格納部は、撮像装置が撮像動作を受け付ける状態の動作モードである撮像モード、及び撮像装置が撮像動作を受け付けない状態の動作モードである非撮像モードの場合の双方において録音機能によって録音された複数の音声のそれぞれを、音声が録音されたときの動作モードに対応づけて格納し、音声出力制御部は、撮像装置が撮像モードのときに録音された音声を、非撮像モードのときに録音された音声より優先的に選択してよい。

音声出力部からの音声の出力中に、当該音声の出力が制限された回数を格納する制限回数格納部をさらに備え、音声出力制御部は、制限回数格納部が格納する回数がより少ない音声をより優先的に選択してよい。

画像格納部が格納している複数の画像を画像出力部に出力させるべき旨の指示を受け付ける出力指示受付部と、出力指示受付部が指示を受け付けた時刻を検出する出力時刻検出部とをさらに備え、画像格納部は、複数の画像のそれぞれに対応づけて、複数の画像が撮像された時刻を格納し、音声格納部は、複数の音声のそれぞれに対応づけて、複数の音声が録音された時刻を格納し、音声出力制御部は、出力時刻検出部が検出した時刻と、画像格納部が格納している複数の画像が撮像された時刻との差に基づいて、画像格納部が格納している複数の画像が撮像された時刻と、音声格納部が格納している複数の音声から選択する音声が録音された時刻との差の許容範囲を設定してよい。

音声出力制御部は、出力時刻検出部が検出した時刻と、画像格納部が格納している複数の画像が撮像された時刻との差がより大きい場合に、画像格納部が格納している複数の画像が撮像された時刻と、音声格納部が格納している複数の音声から選択する音声が録音された時刻との差の許容範囲をより大きく設定してよい。

本発明の第２の形態における出力方法は、撮像された複数の画像を格納する画像格納段階と、画像格納段階において格納される画像を出力する画像出力段階と、画像格納段階において格納される画像を画像出力段階において出力させる画像出力制御段階と、録音された複数の音声を格納する音声格納段階と、音声格納段階において格納される音声を出力する音声出力段階と、画像出力段階において画像が出力されているときに、音声格納段階において格納される複数の音声のうちから第１の音声を選択して音声出力段階において出力させ、画像出力段階が同一の画像を再度出力するときに、音声格納段階において格納される複数の音声のうちから第１の音声とは異なる第２の音声を選択して音声出力段階において出力させる音声出力制御段階とを備える。

本発明の第３の形態によると、画像を出力する出力装置用のプログラムであって、出力装置を、撮像された複数の画像を格納する画像格納部、画像格納部が格納している画像を出力する画像出力部、画像格納部が格納している画像を画像出力部に出力させる画像出力制御部、録音された複数の音声を格納する音声格納部、音声格納部が格納している音声を出力する音声出力部、画像出力部が画像を出力しているときに、音声格納部が格納している複数の音声のうちから第１の音声を選択して音声出力部に出力させ、画像出力部が同一の画像を再度出力するときに、音声格納部が格納している複数の音声のうちから第１の音声とは異なる第２の音声を選択して音声出力部に出力させる音声出力制御部として機能させる。

本発明の第４の形態における撮像装置は、撮像部と、撮像部が撮像した画像に含まれるオブジェクトを抽出するオブジェクト抽出部と、オブジェクト抽出部が抽出したオブジェクトに関連する音声を取得する音声取得部と、撮像部が撮像した画像における、音声取得部が取得した音声に関連するオブジェクトの位置を特定するオブジェクト位置特定部と、オブジェクト位置特定部が特定したオブジェクトの位置に対応づけて、音声取得部が取得した音声を格納する音声格納部とを備える。

撮像部の周囲の音声を録音する録音部をさらに備え、音声取得部は、オブジェクト抽出部が抽出したオブジェクトに関連する音声を、録音部が録音した音声から抽出し、オブジェクト位置特定部は、撮像部が撮像した画像における、音声取得部が抽出した音声に関連するオブジェクトの位置を特定し、音声格納部は、オブジェクト位置特定部が特定したオブジェクトの位置に対応づけて、音声取得部が抽出した音声を格納してよい。

本発明の第５の形態における撮像方法は、撮像段階と、撮像段階において撮像された画像に含まれるオブジェクトを抽出するオブジェクト抽出段階と、オブジェクト抽出段階において抽出されたオブジェクトに関連する音声を取得する音声取得段階と、撮像段階において撮像された画像における、音声取得段階において取得された音声に関連するオブジェクトの位置を特定するオブジェクト位置特定段階と、オブジェクト位置特定段階において特定されたオブジェクトの位置に対応づけて、音声取得段階が取得した音声を格納する音声格納段階とを備える。

本発明の第６の形態によると、画像を撮像する撮像装置用のプログラムであって、撮像装置を、撮像部、撮像部が撮像した画像に含まれるオブジェクトを抽出するオブジェクト抽出部、オブジェクト抽出部が抽出したオブジェクトに関連する音声を取得する音声取得部、撮像部が撮像した画像における、音声取得部が取得した音声に関連するオブジェクトの位置を特定するオブジェクト位置特定部、オブジェクト位置特定部が特定したオブジェクトの位置に対応づけて、音声取得部が取得した音声を格納する音声格納部として機能させる。

本発明の第７の形態における出力装置は、画像を格納する画像格納部と、画像格納部が格納している画像及び当該画像における位置に対応づけて、音声を格納する音声格納部と、画像格納部が格納している画像における少なくとも一部を含む部分領域の範囲を取得する部分領域範囲取得部と、画像格納部が格納している画像における部分領域範囲取得部が取得した部分領域の範囲の画像から出力画像を生成する出力画像生成部と、画像格納部が格納している画像において部分領域範囲取得部が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納部が格納している音声から出力音声を生成する出力音声生成部と、出力画像生成部が生成した出力画像と出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部とを備える。

出力画像生成部は、画像格納部が格納している画像における部分領域範囲取得部が取得した部分領域の範囲の画像と、画像格納部が格納している他の画像とを合成して出力画像を生成し、出力音声生成部は、部分領域範囲取得部が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納部が格納している音声と、出力画像に含まれる他の画像に対応づけて音声格納部が格納している音声とから出力音声を生成し、画像出力部は、出力画像生成部が生成した出力画像と出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力してよい。

オブジェクトの種類に対応づけて音声を格納する音声データベースをさらに備え、音声格納部は、画像格納部が格納している画像に対応づけられた位置に存在するオブジェクトの種類に対応づけて音声データベースが格納している音声を取得して格納してよい。

出力音声生成部は、出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部が格納している音声を、より強調した出力音声を生成してよい。出力音声生成部は、出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部が格納している音声を、より大きい音量で合成した出力音声を生成してよい。

出力音声生成部は、出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部が格納している音声を、より強調した出力音声を生成してよい。出力音声生成部は、出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部が格納している音声を、より大きい音量で合成した出力音声を生成してよい。

本発明の第８の形態における出力方法は、画像を格納する画像格納段階と、画像格納段階において格納されている画像及び当該画像における位置に対応づけて、音声を格納する音声格納段階と、画像格納段階において格納されている画像における少なくとも一部を含む部分領域の範囲を取得する部分領域範囲取得段階と、画像格納段階において格納されている画像における部分領域範囲取得段階において取得された部分領域の範囲の画像から出力画像を生成する出力画像生成段階と、画像格納段階において格納されている画像において部分領域範囲取得段階において取得された部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納段階において格納されている音声から出力音声を生成する出力音声生成段階と、出力画像生成段階において生成された出力画像と出力音声生成段階において生成された出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力段階とを備える。

本発明の第９の形態によると、画像を出力する出力装置用のプログラムであって、出力装置を、画像を格納する画像格納部、画像格納部が格納している画像及び当該画像における位置に対応づけて、音声を格納する音声格納部、画像格納部が格納している画像における少なくとも一部を含む部分領域の範囲を取得する部分領域範囲取得部、画像格納部が格納している画像における部分領域範囲取得部が取得した部分領域の範囲の画像から出力画像を生成する出力画像生成部、画像格納部が格納している画像において部分領域範囲取得部が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納部が格納している音声から出力音声を生成する出力音声生成部、出力画像生成部が生成した出力画像と出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部として機能させる。

本発明の第１０の形態における出力装置は、複数の画像を格納する画像格納部と、画像格納部が格納する複数の画像のそれぞれに対応づけて複数の音声を格納する音声格納部と、画像格納部が格納している複数の画像を合成して出力画像を生成する出力画像生成部と、出力画像生成部が生成した出力画像に含まれる第１画像及び第２画像のそれぞれに対応づけて音声格納部が格納する第１音声及び第２音声を用いて出力音声を生成する出力音声生成部と、出力画像生成部が生成した出力画像と出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部とを備え、出力音声生成部は、出力画像生成部が生成した出力画像において第１画像が第２画像より強調されている場合に、第１音声を第２音声より強調して合成した出力音声を生成する。

出力音声生成部は、出力画像生成部が生成した出力画像において第１画像が第２画像より大きい場合に、第１音声を第２音声より強調して合成した出力音声を生成してよい。出力音声生成部は、出力画像生成部が生成した出力画像において第１画像が第２画像より前面にある場合に、第１音声を第２音声より強調して合成した出力音声を生成してよい。

出力音声生成部は、出力画像生成部が生成した出力画像において第１画像が第２画像より中央に存在する場合に、第１音声を第２音声より強調して合成した出力音声を生成してよい。出力音声生成部は、出力画像生成部が生成した出力画像において第１画像が第２画像より強調されている場合に、第１音声の音量を第２音声の音量より大きく合成した出力音声を生成してよい。

本発明の第１１の形態における出力方法は、複数の画像を格納する画像格納段階と、画像格納段階において格納されている複数の画像のそれぞれに対応づけて複数の音声を格納する音声格納段階と、画像格納段階において格納されている複数の画像を合成して出力画像を生成する出力画像生成段階と、出力画像生成段階において生成された出力画像に含まれる第１画像及び第２画像のそれぞれに対応づけて音声格納段階において格納されている第１音声及び第２音声を用いて出力音声を生成する出力音声生成段階と、出力画像生成段階において生成された出力画像と出力音声生成段階において生成された出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力段階とを備え、出力音声生成段階は、出力画像生成段階において生成された出力画像において第１画像が第２画像より強調されている場合に、第１音声を第２音声より強調して合成した出力音声を生成する。

本発明の第１２の形態によると、画像を出力する出力装置用のプログラムであって、出力装置を、複数の画像を格納する画像格納部、画像格納部が格納する複数の画像のそれぞれに対応づけて複数の音声を格納する音声格納部、画像格納部が格納している複数の画像を合成して出力画像を生成する出力画像生成部、出力画像生成部が生成した出力画像に含まれる第１画像及び第２画像のそれぞれに対応づけて音声格納部が格納する第１音声及び第２音声を用いて出力音声を生成する出力音声生成部、出力画像生成部が生成した出力画像と出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部として機能させ、出力音声生成部に、出力画像生成部が生成した出力画像において第１画像が第２画像より強調されている場合に、第１音声を第２音声より強調して合成した出力音声を生成させる。

なお上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた発明となりうる。

本発明によれば、撮像画像に対してユーザが飽きない音声を出力する出力装置を提供することができる。

音声出力システムの一例を示す図である。出力装置１４０のブロック構成の一例を示す図である。音声格納部２２０が格納するデータの一例をテーブル形式で示す図である。音声の録音と画像の撮像との時間関係の一例を示す図である。音声格納部２２０が格納するデータの他の一例をテーブル形式で示す図である。目標回数格納部２３２が格納するデータの一例をテーブル形式で示す図である。出力比率格納部２３４が格納するデータの一例をテーブル形式で示す図である。音声出力制御部２２２が音声を選択する時間範囲の一例を示す図である。撮像装置１００のブロック構成の一例を示す図である。出力装置１４０の他の実施例におけるブロック構成を示す図である。音声データベース１０９０が格納するデータの一例を示す図である。画像格納部１０１０が格納する画像の一例を示す図である。音声格納部９６０又は音声格納部１０６０が格納するデータの一例を示す図である。出力画像生成部１０７５が生成する出力画像の一例を示す図である。撮像装置１００及び出力装置１４０に係るコンピュータ１５００のハードウェア構成の一例を示す図である。

以下、発明の実施形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、本発明の一実施形態に係る音声出力システムの一例を示す。音声出力システムは、撮像装置１００、出力装置１４０、及び音声データベース１９０を備える。この例では、撮像装置１００は、海岸に遊びにきている人の画像を撮像する。また、撮像装置１００は、撮像装置１００の周囲の音をマイクロホン１０２で録音する。撮像装置１００は、撮像装置１００が撮像した画像及び録音した音声を、インターネット等の通信回線１５０を通じて出力装置１４０に送信する。出力装置１４０は、撮像装置１００から受け取った画像を出力するときに、撮像装置１００から受け取った音声を同期させて出力する。このとき、出力装置１４０は、同じ画像を再度出力するときには、前回出力した音声とは異なる音声を出力する。このため、ユーザ１８０は、画像を出力する毎に異なる音声を楽しむことができるので、飽きることなく画像を鑑賞することができる。

出力装置１４０は、例えば、ＨＤＴＶ、電子フォトスタンド、コンピュータ等の、画像及び音声を出力する装置であってよい。また、出力装置１４０は、音声を文字として出力してもよい。例えば、出力装置１４０は、液晶等の表示デバイスに画像を表示するときに、音声を文字として表示デバイスに表示させる。なお、出力装置１４０は、画像を表示させる表示デバイスに文字を表示させてよく、画像を表示させる表示デバイスとは別の表示デバイスに文字を表示させてもよい。他にも、出力装置１４０は、プリンタ等の画像を印刷する印刷装置であってもよく、画像を印刷するとともに音声を文字として印刷してもよい。

撮像装置１００は、例えば、デジタルスチルカメラ、カメラ付携帯電話等であってよい。また、撮像装置１００は、出力装置１４０が有する、画像又は音声を出力する機能を有してもよい。また、撮像装置１００が画像及び音声データを記録媒体に記録して、出力装置１４０は当該記録媒体からデータを受け取ることによって、画像及び音声を出力してもよい。また、撮像装置１００は、画像及び音声データを、通信回線１５０に接続されたサーバの、ユーザ１８０毎にそれぞれ設けられたディレクトリ、例えば撮像装置１００と関連付けられたディレクトリに格納してもよい。そして出力装置１４０は、ユーザ１８０毎にサーバに格納された画像及び音声データを受け取ってもよい。

また、撮像装置１００は、撮像した画像に写っている犬、鳥等のオブジェクトを抽出して、抽出したオブジェクトの種類を特定する。そして、撮像装置１００は、犬、鳥等のオブジェクトの種類別にオブジェクトの代表的な音声を格納している音声データベース１９０から、特定した種類のオブジェクトの代表的な音声を取得する。そして、撮像装置１００は、取得した音声を、撮像した画像に関連づけて出力装置１４０に提供する。出力装置１４０は、ユーザ１８０による画像の編集指示を受け付ける。例えば、出力装置１４０は、ユーザ１８０から指定された複数の画像を、ユーザ１８０から指定されたレイアウトで合成して出力画像を生成する。このとき、出力装置１４０は、出力画像の生成に用いた各画像に関連づけられた音声を、出力画像において各画像が占める面積比と同じ音量比で合成された出力音声を生成する。そして、出力装置１４０は、生成した出力音声を、出力画像の表示と同期して再生する。このため、出力装置１４０は、例えばユーザ１８０が犬を含む画像と鳥を含む画像とを合成した出力画像を、犬と鳥の鳴き声が合成された出力音声とともに鑑賞することができる。したがってユーザ１８０は、編集後の出力画像の画像内容に応じた望ましい音声を、出力装置１４０を用いて容易に鑑賞することができる。

図２は、出力装置１４０のブロック構成の一例を示す。本図は、同じ画像に対して続けて同じ音声が出力されないように制御する出力装置１４０のブロック構成の一例を示す。出力装置１４０は、画像格納部２１０、画像出力制御部２１２、画像出力部２１４、出力指示受付部２４０、出力許容時間設定部２４２、出力時刻検出部２４４、音声格納部２２０、音声出力制御部２２２、音声出力部２２４、出力回数保持部２３０、目標回数格納部２３２、出力比率格納部２３４、及び制限回数格納部２３６を備える。

画像格納部２１０は、撮像された複数の画像を格納する。画像格納部２１０は、複数の画像のそれぞれに対応づけて、複数の画像が撮像されたタイミングを示す情報をそれぞれ格納する。具体的には、画像格納部２１０は、複数の画像のそれぞれに対応づけて、複数の画像が撮像された時刻をそれぞれ格納する。

出力指示受付部２４０は、画像格納部２１０が格納している複数の画像を画像出力部２１４に出力させるべき旨の指示を受け付ける。画像出力制御部２１２は、出力指示受付部２４０の指示に基づいて、画像格納部２１０が格納している画像を画像出力部２１４に出力させる。画像出力部２１４は、例えば画像を出力する液晶等の表示デバイスであってよく、画像を印刷する印刷デバイスであってもよい。

音声格納部２２０は、録音された複数の音声を格納する。例えば、音声格納部２２０は、画像格納部２１０が格納している複数の画像を撮像した撮像装置１００の録音機能によって録音された複数の音声を格納する。具体的には、音声格納部２２０は、画像格納部２１０が格納している複数の画像が撮像されたときに撮像装置１００の録音機能によって録音された音声、及び画像格納部２１０が格納している複数の画像が撮像されていないときに撮像装置１００の録音機能によって録音された音声を格納する。

また、音声格納部２２０は、複数の音声のそれぞれに対応づけて、複数の音声が録音されたタイミングを示す情報をそれぞれ格納する。具体的には、音声格納部２２０は、複数の音声のそれぞれに対応づけて、複数の音声が録音された時刻をそれぞれ格納する。なお、録音された時刻とは、録音を開始した時刻であってよく、録音を終了した時刻であってもよい。他にも、音声格納部２２０は、タイミングを示す情報として、例えば複数の音声の録音を開始した時刻と、当該複数の音声が録音された順番を示す情報を格納してもよい。

音声格納部２２０は、画像格納部２１０が格納している複数の画像がそれぞれ撮像された複数の時刻を含む期間である撮像期間を含み、撮像期間より長い期間である録音期間において録音された複数の音声を格納する。なお、音声格納部２２０が格納している複数の音声の合計の時間は、画像出力部２１４が１つの画像を出力する予め設定された出力時間に、画像格納部２１０が格納している複数の画像の数を乗じた時間より長い。

音声出力部２２４は、音声格納部２２０が格納している音声を出力する。具体的には、音声出力部２２４は、音声を再生する再生デバイスであってよい。また、音声出力部２２４は、例えば液晶等の、文字を出力する表示デバイスを含んでよく、音声格納部２２０が格納している音声を表示デバイスに文字として出力させてもよい。また、音声出力部２２４は、印字デバイス等の、文字として印刷する印刷デバイスを含んでよく、音声格納部２２０が格納している音声を文字として印刷してもよい。

音声出力制御部２２２は、画像出力部２１４が画像を出力しているときに、音声格納部２２０が格納している複数の音声のうちから第１の音声を選択して音声出力部２２４に出力させ、画像出力部２１４が同一の画像を再度出力するときに、音声格納部２２０が格納している複数の音声のうちから第１の音声とは異なる第２の音声を選択して音声出力部２２４に出力させる。このため、ユーザ１８０は画像を出力する毎に異なる音声を楽しむことができる。

なお、音声出力制御部２２２は、録音されたタイミングが、画像が撮像されたタイミングから近い順に音声を選択する。例えば、音声出力制御部２２２は、録音された時刻が、画像が撮像された時刻から近い順に音声を選択する。他にも、音声出力制御部２２２は、音量が大きい順に音声を選択してもよい。このため、ユーザ１８０は、画像を撮像したときの特徴的な音から順に音声を楽しむことができる。

出力回数保持部２３０は、音声格納部２２０が格納している複数の音声が音声出力部２２４に出力された回数である出力回数を計数して保持する。目標回数格納部２３２は、音声格納部２２０が格納している複数の音声が音声出力部２２４に出力されるべき回数である目標回数を格納する。そして、音声出力制御部２２２は、目標回数から出力回数を引いた値が大きい順に音声を選択してもよい。

出力比率格納部２３４は、音声格納部２２０が格納している複数の音声が音声出力部２２４に出力されるべき回数の比率である出力比率を格納する。そして、音声出力制御部２２２は、出力回数保持部２３０が保持する出力回数の比率が、出力比率格納部２３４が格納している出力比率に近づくように音声を選択してもよい。このため、ユーザ１８０は、画像を撮像したときの特徴的な音声をより多く楽しむことができる。

なお、音声格納部２２０は、撮像装置１００が撮像動作を受け付ける状態の動作モードである撮像モードの場合、及び撮像装置１００が撮像動作を受け付けない状態の動作モードである非撮像モードの場合の双方において録音機能によって録音された複数の音声のそれぞれを、音声が録音されたときの動作モードに対応づけて格納する。そして、音声出力制御部２２２は、撮像装置１００が撮像モードのときに録音された音声を、非撮像モードのときに録音された音声より優先的に選択する。

制限回数格納部２３６は、音声格納部２２０が格納している音声が音声出力部２２４から出力されているときに当該音声の出力が制限された場合に、制限された回数を計数して格納する。そして、音声出力制御部２２２は、制限回数格納部２３６が格納する回数がより少ない音声をより優先的に選択する。なお、音声出力制御部２２２は、出力回数保持部２３０が保持している出力回数と制限回数格納部２３６が格納している回数とから、音声の出力が制限された制限比率を算出して、算出した制限比率がより小さい音声をより優先的に選択してもよい。

出力時刻検出部２４４は、出力指示受付部２４０が指示を受け付けた時刻を検出する。そして、出力許容時間設定部２４２は、出力時刻検出部２４４が検出した時刻と、画像格納部２１０が格納している複数の画像が撮像された時刻との差に基づいて、画像格納部２１０が格納している複数の画像が撮像された時刻と、音声格納部２２０が格納している複数の音声から選択する音声が録音された時刻との差の許容範囲を設定する。そして、音声出力制御部２２２は、出力許容時間設定部２４２が設定した許容範囲の範囲内で録音された音声の中から、音声出力部２２４に出力させる音声を選択する。

具体的には、出力許容時間設定部２４２は、出力時刻検出部２４４が検出した時刻と、画像格納部２１０が格納している複数の画像が撮像された時刻との差がより大きい場合に、画像格納部２１０が格納している複数の画像が撮像された時刻と、音声格納部２２０が格納している複数の音声から選択する音声が録音された時刻との差の許容範囲をより大きく設定する。このため、出力装置１４０はより近い過去に撮像された画像を、撮像時刻の近くで録音された音声の中から選択して出力するので、画像とともに出力される音声がユーザ１８０にとって不自然なものになることを防ぐことができる。また、出力装置１４０は、遠い過去の画像を出力するときには、より広い時間範囲で録音された音声の中から選択される音声を出力することができるので、ユーザ１８０はより特徴的な音声を楽しむことができる。

以上説明した出力装置１４０によれば、同じ画像を再度出力するときでも、複数の音声の中から出力する音声を選択して出力するので、ユーザ１８０は飽きることなく音声と画像とを鑑賞することができる。また、ユーザ１８０は、出力装置１４０に出力させる画像が撮像されたときのより特徴的な音声を、当該画像とともに鑑賞することができる。

図３は、音声格納部２２０が格納するデータの一例をテーブル形式で示す。音声格納部２２０は、複数の音声データに対応付けて、複数の音声データを識別する音声ＩＤ及び音声が録音された時刻を格納する。なお、音声が録音された時刻とは、録音開始時刻であってよく、録音終了時刻であってもよい。また、音声が録音された時刻には、音声が録音された日付を含んでよい。

図４は、音声の録音と画像の撮像との時間関係の一例を示す。撮像装置１００は、動作モードとして、待機モード、撮像モード、及び出力モードを有する。そして、出力装置１４０は、撮像装置１００が待機モード、撮像モード、出力モードのいずれかである期間に録音した音声を格納する。なお、撮像モードは、撮像装置１００が撮像及び／又は録音することのできる動作モードであってよい。例えば、撮像モードとは、撮像装置１００がユーザ１８０によるレリーズボタンの押下によって画像を撮像することができる動作モードであってよい。また、出力モードは、撮像装置１００が画像及び／又は音声を出力することのできる動作モードであってよい。例えば、出力モードとは、撮像装置１００がメモリ等に格納している画像を読み出して、モニタ画面等の表示デバイスに表示することのできる動作モードであってよい。

なお、撮像装置１００は、起動された直後には待機モードに設定される。なお、撮像装置１００は、動作モードが待機モード又は出力モードに設定されている場合に、ユーザ１８０によって撮像動作又は録音動作に関する操作がなされた場合に撮像モードに遷移する。撮像動作に関する操作は、例えば、画像を撮像する操作、シャッタスピード、焦点距離等の、撮像条件を調整する操作等を含む。また、録音動作に関する操作は、例えば、音声を録音する操作、録音感度の調整等の、録音条件を調整する操作等を含む。また、撮像装置１００は、動作モードが待機モード又は撮像モードに設定されている場合に、ユーザ１８０によって撮像装置１００の出力動作に関する操作がなされた場合に、出力モードに遷移する。出力動作に関する操作は、例えば、画像を出力する操作、出力する画像を選択する操作、出力速度の調節等の、出力条件を調整する操作等を含む。なお、撮像装置１００は、撮像装置１００が撮像モード又は出力モードに設定されている場合に、ユーザ１８０による撮像装置１００の操作が所定の期間操作されなかったことを条件として、待機モードに遷移してよい。このように、撮像装置１００は、動作モードが撮像モード以外の待機モード又は出力モードに設定されている間においてユーザ１８０によるレリーズボタンの押下を受け付けると、画像を撮像せずに動作モードを撮像モードに遷移させる。その他、待機モード又は出力モードとは、撮像装置１００がユーザ１８０によるレリーズボタンの押下を受け付けない動作モードであってよい。

音声格納部２２０は、撮像装置１００が撮像モードに設定されている期間（ｔ４２２〜ｔ４２８）に撮像装置１００によって録音された音声＃４０４及び＃４０６を格納している。また、音声格納部２２０は、撮像装置１００が出力モードに設定されている期間（ｔ４２８〜ｔ４３０）に撮像装置１００によって録音された音声（＃４０８及び＃４１０）、及び撮像装置１００が待機モードに設定されている期間（ｔ４２０〜ｔ４２２及びｔ４３０〜ｔ４３２）に録音された音声（＃４０２、＃４０３、及び＃４１２）をも格納している。

また、音声格納部２２０は、画像出力部２１４が１つの画像を出力する予め設定された出力時間（Δｔ４５２）に、画像格納部２１０が格納する複数の画像の数を乗じた時間より長い音声を格納している。例えば、音声格納部２２０は１つの画像を出力する出力時間がΔｔ４５２であるとき、音声格納部２２０は、時刻ｔ４２４及び時刻ｔ４２６に撮像された２つの画像を出力する音声として、例えば音声の長さが出力時間Δｔ４５２を持つ２つ以上の音声（＃４０４、＃４０６、＃４０８、＃４１０、＃４１２）及び出力時間Δｔ４５２の半分の長さΔｔ４５１を有する音声（＃４０２及び＃４０３）を格納している。このため、音声出力制御部２２２は、画像出力部２１４から画像が出力される度に、異なる音声を複数の音声の中から選択して出力することができる。

なお、音声出力制御部２２２は、音声出力部２２４に出力させる音声を選択する場合に、選択される音声の合計の時間が、画像出力部２１４が１つの画像を出力する予め設定された出力時間となるように、複数の音声を選択して音声出力部２２４に出力させてもよい。例えば、音声出力制御部２２２は、時刻ｔ４２４に撮像された画像が出力されるときに、出力時間Δｔ４５２の半分の長さを有する音声＃４０２及び音声＃４０３を選択して、音声出力部２２４に出力させてよい。また、音声出力制御部２２２は、出力時間Δｔ４５２よりも長い音声を音声格納部２２０が格納している場合には、当該音声を出力時間Δｔ４５２の長さに分割された音声＃４０８又は＃４１０を選択して、音声出力部２２４に出力させてもよい。

なお、画像出力制御部２１２は、画像出力部２１４から出力される画像の数と、出力すべき複数の音声の合計の時間に基づいて、画像出力部２１４から画像を出力させる出力時間を調整してもよい。例えば、ユーザ１８０から出力すべき複数の音声及び画像を出力指示受付部２４０が受け付けたときに、画像出力制御部２１２は、当該出力すべき複数の音声の合計の時間を出力すべき画像の数で除した期間、各画像を画像出力部２１４から出力させる。

なお、音声出力制御部２２２は、時刻ｔ４２４において撮像された画像を出力する旨の指示を出力指示受付部２４０から受け取った場合に、当該画像が出力される毎に、当該画像が撮像された時刻から近い順に出力する。例えば、音声出力制御部２２２は、時刻ｔ４２４に撮像された画像を出力する場合には、音声＃４０４、＃４０６、＃４０２、＃４０３、＃４０８、＃４１０、及び＃４１２の順に選択して、音声出力部２２４に出力させる。また、音声出力制御部２２２は、音量が大きい順に、例えば音声＃４０６、＃４０４、＃４０８、＃４１０、＃４０３、＃４０２、＃４１２の順に選択して出力する。なお、音声出力制御部２２２は、予め定めた閾値音量よりも大きい音量の音声を選択してもよい。このとき、音声出力制御部２２２は、選択される音声の合計の長さが、予め定めた出力時間よりも長くなるように閾値音量を設定してもよい。

なお、撮像装置１００は、撮像装置１００の周囲の音声のうちで、予め設定された設定音量より大きい音声を録音してもよい。例えば、撮像装置１００は、予め設定された閾値音量より大きい音声を録音してもよい。また、撮像装置１００は、録音感度を変更することによって変更された設定音量より大きい音声を録音してもよい。そして、撮像装置１００は、当該設定音量に対応づけて録音した音声を格納してよい。そして、画像格納部２１０は、撮像装置１００が録音した音声を設定音量に対応づけて取得して格納する。そして、音声出力制御部２２２は、音声に対応づけられている設定音量に対する音声の音量の比を算出し、当該比が大きい順に音声を選択してよい。これにより、音声出力制御部２２２は、設定音量に対する音声の音量の比率がより大きい順に選択することができる。他にも、音声出力制御部２２２は、録音された音量と録音時の設定音量との差の、設定音量に対する比がより大きい音量の順に、音声を選択してもよい。これにより、音声の音量の絶対値が小さくても、録音時に閾値音量を下げて録音した音声については、出力装置１４０において再生され易くなる。例えばユーザ１８０が虫を撮像しながら閾値音量を下げて虫の小さな鳴き声を録音した場合には、小さな虫の鳴き声が出力装置１４０から再生され易くなる。このように、出力装置１４０によれば、ユーザ１８０の撮像時の意図を反映した音声を優先的に再生することができる。

図５は、音声格納部２２０が格納するデータの他の一例をテーブル形式で示す。音声格納部２２０は、音声データに対応付けて、音声データを識別する音声ＩＤ、及び音声が録音された時刻、及びインデックスを格納する。なお、音声格納部２２０が格納する時刻とは、例えば録音開始時刻であってよい。音声格納部２２０が格納するインデックスとは、例えば音声が録音されたタイミングを示す値であってよい。例えば、音声格納部２２０は、録音開始時刻からの、それぞれの音声が録音された順番を示す値を、インデックスとして格納する。音声出力制御部２２２は、音声格納部２２０が格納する時刻及びインデックスから、音声が録音されたタイミングを判断する。そして音声出力制御部２２２は、音声が録音されたタイミングが、画像出力部２１４から出力される画像が撮像されたタイミングから近い順に音声を選択してもよい。

なお、音声格納部２２０は、音声データの音量に対応づけて音声データを格納してよい。ここでいう音量とは、音声データの音量の時間的平均値である平均音量であってよく、音声データの最大音量又は最小音量であってもよい。また、音量とは、最大音量と最小音量の平均値である中間音量であってもよい。これにより、音声出力制御部２２２は、音量の大きさの順で音声を順次選択して再生する場合に、速やかに音声を選択することができる。

また、音声格納部２２０は、音声の音量の時間変化に対応づけて音声データを格納してよい。音量の時間変化とは、音声の音量の時間変化そのものであってよいし、音量の大きさの変化を示す情報（例えば、増加速度又は減少速度等）であってよい。そして、音声出力制御部２２２は、画像出力部２１４が表示する画像の大きさ又は大きさの変化に応じて、音声格納部２２０から音声を選択して音声出力部２２４に出力させてよい。例えば、音声出力制御部２２２は、画像出力部２１４が画像を拡大させながら表示する場合には、音量が増大する音声を音声格納部２２０が格納する音声から選択して音声出力部２２４に出力させ、画像出力部２１４が画像を縮小させながら表示する場合には、音量が減少する音声を音声格納部２２０が格納する音声から選択して音声出力部２２４に出力させてよい。

また、音声格納部２２０は、ステレオ録音された音声について、右及び左の音量の時間変化に対応づけて音声データを格納してよい。右及び左の音量の時間変化とは、右及び左の音量の時間変化そのものであってよいし、音量の大きさの変化を示す情報（例えば、増加速度又は減少程度）であってよい。そして、音声出力制御部２２２は、画像出力部２１４が表示する画像の位置又は位置の変化に応じて、音声格納部２２０から音声を選択して出力してよい。例えば、音声出力制御部２２２は、画像出力部２１４が画像を右から左にスライドさせて表示する場合には、左の音量が増大し、かつ、右の音量が減少する音声を、音声格納部２２０が格納する音声から選択して音声出力部２２４に出力させてよい。これにより、出力装置１４０は、表示される画像の位置、大きさに応じた望ましい音楽を再生することができる。

図６は、目標回数格納部２３２が格納するデータの一例をテーブル形式で示す。目標回数格納部２３２は、音声格納部２２０が格納する音声ＩＤに対応づけて、当該音声ＩＤで識別される音声が音声出力部２２４に出力されるべき回数である目標回数を格納する。なお、出力回数保持部２３０は、音声格納部２２０が格納する音声ＩＤに対応づけて、音声出力部２２４が出力された音声が出力された出力回数を格納している。そして、音声出力制御部２２２は、目標回数から、出力回数保持部２３０が保持する出力回数を引いた値を計算して、当該値が大きい順に音声を選択して音声出力部２２４に出力させる。このため、例えば撮像装置１００が撮像したときのより特徴的な音声に対して目標回数をより多く設定することによって、画像を出力するときに、撮像したときの特徴的な音声を多く出力させることができる。そして、撮像したときの特徴的な音声が何度も出力された後には他の音声も時々出力されていくので、ユーザ１８０は飽きることなく画像を鑑賞することができる。

なお、目標回数格納部２３２は、ユーザ１８０によって設定された目標回数を格納してよい。他にも、目標回数格納部２３２は、音声格納部２２０が格納する音声の持つ音量に基づいて目標回数を設定してもよい。例えば、目標回数格納部２３２は、音量のより大きい音声に対して目標回数をより多く設定してもよい。他にも、目標回数格納部２３２は、人の声が含まれる音声が出力されるべき目標回数を、人の声が含まれない音声が出力されるべき目標回数よりも多く設定してもよい。

また、目標回数格納部２３２は、複数の音声が出力されるべき回数である目標回数を、画像格納部２１０が格納する画像毎に格納してよい。具体的には、目標回数格納部２３２は、画像格納部２１０が格納する画像ＩＤ、音声ＩＤ、及び目標回数を格納する。そして音声出力制御部２２２は、画像出力部２１４から画像が出力されるときに、当該画像を識別する画像ＩＤに対応付けて格納された複数の音声の中から、目標回数から出力回数を引いた値が大きい順に音声を選択して、音声出力部２２４に出力させる。

図７は、出力比率格納部２３４が格納するデータの一例をテーブル形式で示す。出力比率格納部２３４は、音声格納部２２０が格納する音声ＩＤに対応づけて、当該音声ＩＤで識別される音声が音声出力部２２４に出力されるべき回数の比率である出力比率を格納する。そして、音声出力制御部２２２は、出力回数保持部２３０が保持する出力回数に基づいてそれぞれの音声が出力された回数の比率を計算して、出力回数の比率が、出力比率格納部２３４が格納する出力比率に近づくように音声を選択する。このため、例えば撮像装置１００によって撮像したときの特徴的な音声に対して出力比率を大きく設定すると、撮像したときのより特徴的な音声をより多く出力させることができる。このため、ユーザ１８０は、画像を鑑賞ながらいろいろな音声を楽しみつつ、撮像したときの特徴的な音声を何度も楽しむことができる。

なお、出力比率格納部２３４は、ユーザ１８０によって設定された出力比率を格納してよい。他にも、出力比率格納部２３４は、音声格納部２２０が格納する音声の持つ音量に基づいて出力比率を設定してもよい。例えば、出力比率格納部２３４は、音量のより大きい音声を出力する出力比率をより大きく設定してもよい。他にも、出力比率格納部２３４は、音声格納部２２０が格納する音声のうち、人の声が含まれる音声が出力されるべき出力比率を、人の声が含まれない音声が出力される出力比率よりも多く設定してもよい。

また、画像格納部２１０は、複数の音声が出力されるべき回数の比率である出力比率を、画像格納部２１０が格納する画像毎に格納してよい。具体的には、出力比率格納部２３４は、画像格納部２１０が格納する画像ＩＤ、音声ＩＤ、及び出力比率を格納する。そして音声出力制御部２２２は、画像出力部２１４から画像が出力されるときに、出力される画像を識別する画像ＩＤに対応付けて格納された複数の音声の中から、出力比率格納部２３４が格納する出力比率に出力回数の比率が近づくように音声を選択して、音声出力部２２４に出力させてよい。

なお、制限回数格納部２３６は、音声格納部２２０が格納している音声が音声出力部２２４から出力されているときに音声の出力が制限された制限回数を、画像ＩＤに対応づけて格納する。例えば、制限回数格納部２３６は、音声出力部２２４が音声を再生している場合に、ユーザ１８０による音声の早送り操作等によって音声の再生がキャンセルされる毎に、当該音声の音声ＩＤに対応づけて格納している制限回数を１増加させる。また、制限回数格納部２３６は、ユーザ１８０によるボリュームの操作によって音声出力部２２４が再生している音声の音量が低下させられる毎に、当該音声の音声ＩＤに対応づけて格納する制限回数を増加させてもよい。また、制限回数格納部２３６は、音声出力部２２４が再生している音声の音量の低下量に応じて、格納している制限回数を増加させてもよい。例えば、制限回数格納部２３６は、音声出力部２２４が再生している音声の音量の低下量が予め定められた基準低下量より大きいことを条件として、格納している制限回数を１増加させてよい。そして、制限回数格納部２３６は、音量の低下量が予め定められた基準低下量より小さい場合には、音量の低下量に応じて予め定められた増加回数（例えば、０より大きい、１未満の増加回数）だけ、格納している制限回数を増加させてよい。

そして、目標回数格納部２３２は、制限回数格納部２３６が格納する回数がより少ない音声の音声ＩＤに対応づけて格納している目標回数をより大きく設定する。また、出力比率格納部２３４は、制限回数格納部２３６が格納する回数がより少ない音声の音声ＩＤに対応づけて格納している出力比率をより大きく設定する。これにより、音声出力制御部２２２は、制限回数格納部２３６が格納する回数がより少ない音声を音声出力部２２４からより高い頻度で出力させることができる。なお、目標回数格納部２３２又は出力比率格納部２３４は、制限回数格納部２３６が格納している回数を出力回数保持部２３０が保持している出力回数で除した値である制限比率を算出して、算出した制限比率がより小さい音声の音声ＩＤに対応づけて格納する目標回数又は出力比率をより大きく設定してもよい。

なお、目標回数格納部２３２は、音声格納部２２０が撮像モードに対応づけて格納している音声の目標回数をより大きく設定して格納してよい。また、出力比率格納部２３４は、音声格納部２２０が撮像モードに対応づけて格納している音声の出力比率をより大きく設定して格納してもよい。これにより、音声出力制御部２２２は、撮像装置１００が撮像モードに設定されている間に録音された音声を、待機モード及び出力モードに設定されている間に録音された音声より高い頻度で音声出力部２２４から出力させることができる。なお、目標回数格納部２３２及び出力比率格納部２３４は、制限回数の逆数で示される重み付け係数で重み付けされた目標回数及び出力比率をそれぞれ格納してよい。また、目標回数格納部２３２及び出力比率格納部２３４は、撮像モードに対応づけて格納される音声の目標回数及び出力比率を、待機モード又は出力モードに対応づけて格納される音声より大きい重み付け係数で重み付けして算出してもよい。

図８は、音声出力制御部２２２が音声を選択する時間範囲の一例を示す。例えば、ユーザ１８０から、時刻ｔ８０４で撮像された画像を出力する指示を時刻ｔ８０６において受け付けた場合に、出力許容時間設定部２４２は、出力を指示された時刻と出力される画像が撮像された時刻との差（ｔ８０６−ｔ８０４）に基づいて、音声出力部２２４から出力させる音声を選択させる許容範囲Δｔ８５２を決定する。そして、音声出力制御部２２２は、音声格納部２２０に格納されている音声のうち、時刻ｔ８０４からΔｔ８５２だけ前又は後の時間範囲（時刻ｔ８０４―Δｔ８５２〜時刻ｔ８０４＋Δｔ８５２）に録音された音声（＃８４１〜＃８４９）の中から音声を選択して、音声出力部２２４に出力させる。

なお、音声出力制御部２２２は、時刻ｔ８０４から許容範囲Δｔ８５２だけ前の時刻から時刻ｔ８０４までの間に録音された音声を選択してもよいし、時刻ｔ８０４から許容範囲Δｔ８５２だけ後の時刻までの間に録音された音声を選択してもよい。

また、出力許容時間設定部２４２は、画像格納部２１０が格納する撮像画像が撮像された時刻と、出力する指示を受け付けた時刻との差が大きいほど、音声出力部２２４から出力させる音声を選択させる許容範囲をより大きく設定する。図８の例では、出力許容時間設定部２４２は、時刻ｔ８０４よりも前の時刻ｔ８０２に撮像された画像を出力するよう時刻ｔ８０６において指示された場合には、許容範囲Δｔ８５２に比べて時間的により長い許容範囲Δｔ８５０を設定する。そして、音声出力制御部２２２は、時刻（ｔ８０２−Δｔ８５０）から時刻（ｔ８０２＋Δｔ８５０）までの時間範囲内で録音された音声（＃８１１〜＃８３４）の中から音声を選択して、音声出力部２２４に出力させる。

なお、出力許容時間設定部２４２は、撮像された時刻と出力を指示された時刻との間の時間を予め定められた数で割って得られた期間を許容範囲として設定してよい。例えば、音声出力制御部２２２は、１０日前に撮像した画像を出力するときには、撮像した時刻の前後１日の間に録音された音声の中から、出力する音声を選択する。また、小学校３年生のときの運動会の画像を４０年後に出力する場合には、撮像した時刻の前後４年の間に録音された音声から選択する。この場合、小学生時代の運動会の様子を鑑賞しながら、小学校への入学式、卒業式等の、より特徴的な音声が出力されるので、ユーザ１８０はより楽しく画像を鑑賞することができる。

以上説明した出力装置１４０によれば、同じ画像を再度出力するときでも、複数の音声の中から出力する音声を選択して出力するので、ユーザ１８０は飽きることなく音声と画像とを容易に楽しむことができる。

図９は、撮像装置１００のブロック構成を示す。図１０は、出力装置１４０の他の実施例におけるブロック構成を示す。本実施例における出力装置１４０及び撮像装置１００は、複数の画像又は画像をトリミングした複数のトリミング画像を用いて生成された出力画像に対して、適切な出力音声を生成して同期して出力する。撮像装置１００は、撮像部９１０、録音部９２０、オブジェクト抽出部９３０、オブジェクト位置特定部９４０、及び音声取得部９５０を備える。

撮像部９１０は画像を撮像する。オブジェクト抽出部９３０は、撮像部９１０が撮像した画像に含まれるオブジェクトを抽出する。オブジェクト位置特定部９４０は、撮像部９１０が撮像した画像における、音声取得部９５０が取得した音声に関連するオブジェクトの位置を特定する。

音声取得部９５０は、オブジェクト抽出部９３０が抽出したオブジェクトに関連する音声を取得する。具体的には、音声取得部９５０は、オブジェクト抽出部９３０が抽出したオブジェクトの種類に関連する音声を、オブジェクトの種類に対応づけて音声を格納している音声データベース１９０から取得する。そして、音声格納部９６０は、オブジェクト位置特定部９４０が特定したオブジェクトの位置に対応づけて、音声取得部９５０が取得した音声を格納する。

なお、録音部９２０は、撮像部９１０の周囲の音声を録音する。なお、図１に関連して説明したマイクロホン１０２は、録音部９２０の一部であってよい。そして、音声取得部９５０は、オブジェクト抽出部９３０が抽出したオブジェクトに関連する音声を、録音部９２０が録音した音声から抽出してもよい。この場合、オブジェクト位置特定部９４０は、撮像部９１０が撮像した画像における、音声取得部９５０が抽出した音声に関連するオブジェクトの位置を特定する。そして、音声格納部９６０は、オブジェクト位置特定部９４０が特定したオブジェクトの位置に対応づけて、音声取得部９５０が抽出した音声を格納する。

出力装置１４０は、画像格納部１０１０、オブジェクト抽出部１０３０、オブジェクト位置特定部１０４０、音声取得部１０５０、音声格納部１０６０、部分領域範囲取得部１０２０、出力音声生成部１０７０、出力画像生成部１０７５、画像出力部１０８０、及び音声データベース１０９０を備える。

画像格納部１０１０は、画像を格納する。具体的には、画像格納部１０１０は、撮像装置１００が撮像した撮像画像を撮像装置１００から受け取って格納する。音声格納部１０６０は、画像格納部１０１０が格納している画像及び当該画像における位置に対応づけて、音声を格納する。具体的には、音声格納部１０６０は、撮像装置１００の音声格納部１０６０から撮像装置１００によって撮像された画像及び当該画像における位置に対応づけて記録された音声を取得して格納する。

部分領域範囲取得部１０２０は、画像格納部１０１０が格納している画像における少なくとも一部を含む部分領域の範囲を取得する。例えば、部分領域範囲取得部１０２０は、画像格納部１０１０が格納している画像に対するユーザ１８０によるトリミング操作を受け付けて、当該トリミング操作で示されるトリミング範囲を部分領域の範囲として取得する。

出力画像生成部１０７５は、画像格納部１０１０が格納している画像における部分領域範囲取得部１０２０が取得した部分領域の範囲の画像から出力画像を生成する。出力音声生成部１０７０は、画像格納部１０１０が格納している画像において部分領域範囲取得部１０２０が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納部１０６０が格納している音声から出力音声を生成する。

そして、画像出力部１０８０は、出力画像生成部１０７５が生成した出力画像と出力音声生成部１０７０が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する。なお、画像出力部１０８０は、出力画像と出力音声とを対応づけて記録媒体に記録してよい。また、画像出力部１０８０は、ディスプレイ等の表示デバイスに出力画像を表示するのと同期して、スピーカ等の再生デバイスから出力音声が出力されるように、出力画像と出力音声とを対応づけて出力してよい。このため、出力装置１４０は、ユーザ１８０のトリミング操作によって得られるトリミング画像を表示する場合に、トリミング画像に含まれるオブジェクトの代表的な音声等の適切な音声をトリミング画像に同期して再生することができる。

なお、出力画像生成部１０７５は、画像格納部１０１０が格納している画像における部分領域範囲取得部１０２０が取得した部分領域の範囲の画像と、画像格納部１０１０が格納している他の画像とを合成して出力画像を生成してよい。この場合、出力音声生成部１０７０は、部分領域範囲取得部１０２０が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納部１０６０が格納している音声と、出力画像に含まれる他の画像に対応づけて音声格納部１０６０が格納している音声とから出力音声を生成する。このため、出力装置１４０は、複数の画像を編集して得られる画像を表示する場合に、編集に用いた画像に関連する音声を合成して得られる音声を、編集後の画像の表示に同期して再生することができる。

音声データベース１０９０は、オブジェクトの種類に対応づけて音声を格納している。そして、音声格納部１０６０は、画像格納部１０１０が格納している画像に対応づけられた位置に存在するオブジェクトの種類に対応づけて音声データベース１０９０が格納している音声を取得して格納する。なお、音声格納部１０６０は、画像格納部１０１０が格納している画像に対応づけられた位置に存在するオブジェクトの種類に対応づけて出力装置１４０の外部の音声データベース１９０が格納している音声を取得して格納してもよい。

そして、出力音声生成部１０７０は、出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部１０６０が格納している音声を、より強調した出力音声を生成してよい。具体的には、出力音声生成部１０７０は、出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部１０６０が格納している音声を、より大きい音量で合成した出力音声を生成してよい。

また、出力音声生成部１０７０は、出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部１０６０が格納している音声を、より強調した出力音声を生成してよい。具体的には、出力音声生成部１０７０は、出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部１０６０が格納している音声を、より大きい音量で合成した出力音声を生成する。

なお、出力画像生成部１０７５は、出力画像の生成に用いた複数の画像のそれぞれに対応づけて音声格納部１０６０が格納している複数の音声が、連続して出力される出力音声を生成してよい。この場合、出力音声生成部１０７０は、出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部１０６０が格納している音声がより長い時間出力される出力音声を生成してもよい。また、出力音声生成部１０７０は、出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置に対応づけて音声格納部１０６０が格納している音声がより長い時間出力される出力音声を生成してもよい。

以上説明したように、出力装置１４０は、ユーザ１８０が自由に画像をトリミングすることによって得られたトリミング画像を用いて作成された画像を、当該画像に含まれるオブジェクトの音声とともに再生することができる。このため、トリミングによって除外されたオブジェクトに関連する音声が出力画像とともに再生される等、不適切な音声が再生されることを未然に防ぐことができる。また、出力装置１４０は、合成画像においてより強調されたオブジェクトに関連する音声を強調した音声を、合成画像とともにユーザ１８０に提供することができる。

なお、音声格納部１０６０は、画像格納部１０１０が格納する複数の画像のそれぞれに対応づけて複数の音声を格納してよい。そして、出力画像生成部１０７５は、画像格納部１０１０が格納している複数の画像を合成して出力画像を生成してよい。例えば、出力画像生成部１０７５は、ユーザ１８０が選択した複数の画像を、ユーザ１８０から指定されたレイアウトで配置することによって出力画像を生成する。この場合、出力音声生成部１０７０は、出力画像生成部１０７５が生成した出力画像に含まれる第１画像及び第２画像のそれぞれに対応づけて音声格納部１０６０が格納する第１音声及び第２音声を用いて出力音声を生成する。このとき、出力音声生成部１０７０は、出力画像生成部１０７５が生成した出力画像において第１画像が第２画像より強調されている場合に、第１音声を第２音声より強調して合成した出力音声を生成する。このため、出力装置１４０は、ユーザ１８０が出力画像において強調してレイアウトした画像に関連する音声が強調された出力音声を、出力画像に同期して出力することができる。

具体的には、出力音声生成部１０７０は、出力画像生成部１０７５が生成した出力画像において第１画像が第２画像より大きい場合に、第１音声を第２音声より強調して合成した出力音声を生成する。また、出力音声生成部１０７０は、出力画像生成部１０７５が生成した出力画像において第１画像が第２画像より前面にある場合に、第１音声を第２音声より強調して合成した出力音声を生成する。また、出力音声生成部１０７０は、出力画像生成部１０７５が生成した出力画像において第１画像が第２画像より中央に存在する場合に、第１音声を第２音声より強調して合成した出力音声を生成する。なお、出力音声生成部１０７０は、出力画像生成部１０７５が生成した出力画像において第１画像が第２画像より強調されている場合に、第１音声の音量を第２音声の音量より大きく合成した出力音声を生成してよい。

図１１は、音声データベース１０９０が格納するデータの一例を示す図である。音声データベース１０９０は、オブジェクトの種類及び音声データを格納する。例えば音声データベース１０９０は、犬、鳥、波等のオブジェクトの種類のそれぞれに対応づけて、オブジェクト毎の代表的な音声である犬の鳴き声、鳥の鳴き声、波の音等を格納する。なお、音声データベース１９０は、本図の例における音声データベース１０９０と同様のデータを格納してよい。

図１２は、画像格納部１０１０が格納している画像１２００の一例を示す図である。本図の画像１２００を例に挙げて、音声取得部１０５０が音声を取得する場合の動作を説明すると、オブジェクト抽出部１０３０は、画像１２００から、エッジ抽出等によって犬１２１０、鳥１２２０等のオブジェクトの輪郭を抽出する。そして、オブジェクト抽出部１０３０は、犬、鳥等のオブジェクトの種類毎に予め記憶しているオブジェクトのパターンと、抽出した輪郭とのパターンマッチングによって、予め定められた一致度より高く、かつ、最も一致度の高いオブジェクトの種類を特定する。そして、音声取得部１０５０は、特定したオブジェクトの種類に対応づけて音声データベース１０９０又は音声データベース１９０が格納する音声を取得する。

なお、撮像装置１００の音声取得部９５０は、音声取得部１０５０と同様の動作によって、撮像部９１０が撮像した画像のオブジェクトに対応づけて音声データベース１９０から音声を取得することができる。また、音声取得部９５０は、オブジェクトの種類に対応づけて音声の特徴量を予め記憶しており、記憶している音声の特徴量と、録音部９２０によって録音された音声の特徴量とを比較して、予め定められた一致度より高く、かつ、最も一致度の高い特徴量を持つ音声を、録音部９２０によって録音された音声から抽出してもよい。なお、音声の特徴量とは、音声の特徴的な周波数スペクトルであったり、当該周波数スペクトルの特徴的な時間変化パターンであってよい。

図１３は、音声格納部９６０又は音声格納部１０６０が格納するデータの一例を示す。以下、音声格納部１０６０が格納するデータを例に挙げて説明すると、音声格納部１０６０は、撮像部９１０が撮像した画像を識別する画像ＩＤ、当該画像に含まれるオブジェクトの位置である全体画像内位置、及び音声取得部１０５０が取得した音声データを格納する。なお、オブジェクト位置特定部１０４０は、オブジェクト抽出部１０３０が抽出したオブジェクトの重心位置を特定する。そして、音声格納部１０６０は、オブジェクト位置特定部１０４０が特定したオブジェクトの重心位置を、オブジェクトの全体画像内位置として格納する。なお、音声格納部１０６０は、全体画像内位置を示す、画像の横幅及び縦幅の長さに対する相対値を格納してよい。具体的には、音声格納部１０６０は、画像の左下角を座標の原点として、画像の横幅及び縦幅の長さに対する相対的な座標を格納する。

なお、音声格納部１０６０は、全体画像内位置に対応づけることなく、画像に対応づけて音声を格納してよい。本図の例では、音声格納部１０６０は、画像ＩＤ＃ＡＡＡに対応づけて音声データ１３を格納しており、画像ＩＤ＃ＢＢＢに対応づけて音声データ２２を格納している。この場合、音声格納部１０６０は、音声データ１３及び２２に対する全体画像内位置として、全体画像内位置に対応づけられていない旨を示す値（ＮＵＬＬ値等）を格納する。以上、音声格納部１０６０が格納するデータについて説明したが、音声格納部９６０は、音声格納部１０６０が格納するデータと同様のデータを格納してよい。

図１４は、出力画像生成部１０７５が生成する出力画像の一例を示す。本図の例では、出力装置１４０は、画像ＩＤ＃ＡＡＡで識別される画像１２００と、画像ＩＤ＃ＢＢＢで示される画像１４００とから出力画像１４５０を生成して表示する。この例では、出力画像生成部１０７５は、ユーザ１８０からのトリミング指示によって部分領域範囲取得部１０２０が取得した範囲の部分画像１４１１及び部分画像１４１２を、ユーザ１８０の指示で示されるレイアウトで配置して出力画像１４５０を生成する。

このとき、出力音声生成部１０７０は、画像１２００及び１４００が出力画像１４５０において含まれる画像の面積を算出する。そして、出力音声生成部１０７０は、画像１２００及び１４００に対応づけて音声格納部１０６０が格納する音声１３及び２２の音量を、それぞれの画像の出力画像１４５０における面積に比例する大きさの音量で合成して出力音声を生成する。これにより、出力画像１４５０において面積の大きい画像１４００（＃ＢＢＢ）を撮像したときに録音された子供の声等を含む音声（音声データ２２）が大きく再生される。したがって、出力画像１４５０に含まれる面積の小さい画像１２００（＃ＡＡＡ）を撮像したときに録音された音声が大きく再生されることがないので、ユーザ１８０は違和感なく出力画像１４５０を鑑賞することができる。

また、出力音声生成部１０７０は、出力画像１４５０におけるオブジェクトの面積に応じて、出力音声を生成してもよい。具体的には、出力音声生成部１０７０は、部分領域範囲取得部１０２０によって取得された範囲に含まれるオブジェクト（例えば、犬を示すオブジェクト１４２１、海を示すオブジェクト１４２２等）の、出力画像における面積を算出する。そして、出力音声生成部１０７０は、各オブジェクト１４２１、１４２２の全体画像内位置、及び画像１２００及び１４００の画像ＩＤに対応づけて音声格納部１０６０が格納する音声データ１１及び２１を取得して、取得した音声データ１１及び１２を、オブジェクトの面積に比例した大きさの音量で合成して出力音声を生成する。なお、出力音声生成部１０７０は、出力音声そのものに代えて、出力音声に用いる音声データを識別する識別情報及び音声データの音量の大きさを示す音量情報とを、出力音声として生成してもよい。以上説明したように、出力装置１４０によって出力画像１４５０が表示されるとき、例えば波の音の音声が犬の鳴き声より大きい音量で再生される。このように、ユーザ１８０は、出力装置１４０を用いることによって、ユーザ１８０が自由に編集して作製した画像を、当該画像の画像内容に対して違和感を感じることのない音声とともに鑑賞することができる。

なお、本図において、出力音声生成部１０７０が、出力画像１４５０における画像又はオブジェクトの面積の大きさに応じた音量で音声を合成する場合について説明したが、出力音声生成部１０７０は、面積に大きさの他に、画像又はオブジェクトの出力画像１４５０における配置に応じて音声の合成比率を決定してよい。例えば、出力音声生成部１０７０は、出力画像１４５０の中央との間の距離の逆数に比例する重み付け係数で重み付けされた音声の合成比率で音声を合成してよい。また、出力音声生成部１０７０は、出力画像１４５０においてより前面に配置される画像又はオブジェクトに対応する音声の重み付け係数をより大きくしてよい。なお、音声の合成比率とは、本図に関連して説明したような音量の合成比率であってよいし、音声を再生する時間に対する合成比率であってもよい。また、出力音声生成部１０７０は、出力画像１４５０における画像又はオブジェクトの面積が最も大きい画像又はオブジェクトに対応する音声を、出力音声として生成してよい。その他、出力音声生成部１０７０は、出力画像１４５０における画像又はオブジェクトのうち、最も前面に配置された画像又は画像内のオブジェクトに対応する音声を、出力音声として生成してもよい。

図１５は、撮像装置１００及び出力装置１４０に係るコンピュータ１５００のハードウェア構成の一例を示す。コンピュータ１５００は、ホスト・コントローラ１５８２により相互に接続されるＣＰＵ１５０５、ＲＡＭ１５２０、グラフィック・コントローラ１５７５、及び表示装置１５８０を有するＣＰＵ周辺部と、入出力コントローラ１５８４によりホスト・コントローラ１５８２に接続される通信インターフェイス１５３０、ハードディスクドライブ１５４０、及びＣＤ−ＲＯＭドライブ１５６０を有する入出力部と、入出力コントローラ１５８４に接続されるＲＯＭ１５１０、フレキシブルディスク・ドライブ１５５０、及び入出力チップ１５７０を有するレガシー入出力部とを備える。

ホスト・コントローラ１５８２は、ＲＡＭ１５２０と、高い転送レートでＲＡＭ１５２０をアクセスするＣＰＵ１５０５、及びグラフィック・コントローラ１５７５とを接続する。ＣＰＵ１５０５は、ＲＯＭ１５１０、及びＲＡＭ１５２０に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ１５７５は、ＣＰＵ１５０５等がＲＡＭ１５２０内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置１５８０上に表示させる。これに代えて、グラフィック・コントローラ１５７５は、ＣＰＵ１５０５等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。

入出力コントローラ１５８４は、ホスト・コントローラ１５８２と、比較的高速な入出力装置であるハードディスクドライブ１５４０、通信インターフェイス１５３０、ＣＤ−ＲＯＭドライブ１５６０を接続する。ハードディスクドライブ１５４０は、コンピュータ１５００内のＣＰＵ１５０５が使用するプログラム、及びデータを格納する。通信インターフェイス１５３０は、ネットワークを介して出力装置１４０と通信し、出力装置１４０にプログラム、及びデータを提供する。ＣＤ−ＲＯＭドライブ１５６０は、ＣＤ−ＲＯＭ１５９５からプログラムまたはデータを読み取り、ＲＡＭ１５２０を介してハードディスクドライブ１５４０、及び通信インターフェイス１５３０に提供する。

また、入出力コントローラ１５８４には、ＲＯＭ１５１０と、フレキシブルディスク・ドライブ１５５０、及び入出力チップ１５７０の比較的低速な入出力装置とが接続される。ＲＯＭ１５１０は、コンピュータ１５００が起動時に実行するブート・プログラムや、コンピュータ１５００のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ１５５０は、フレキシブルディスク１５９０からプログラムまたはデータを読み取り、ＲＡＭ１５２０を介してハードディスクドライブ１５４０、及び通信インターフェイス１５３０に提供する。入出力チップ１５７０は、フレキシブルディスク・ドライブ１５５０や、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を接続する。

ＲＡＭ１５２０を介して通信インターフェイス１５３０に提供されるプログラムは、フレキシブルディスク１５９０、ＣＤ−ＲＯＭ１５９５、またはＩＣカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、ＲＡＭ１５２０を介して通信インターフェイス１５３０に提供され、ネットワークを介して出力装置１４０に送信される。出力装置１４０に送信されたプログラムは出力装置１４０においてインストールされて実行される。

出力装置１４０にインストールされて実行されるプログラムは、出力装置１４０を、図１から図１４に関連して説明した出力装置１４０として機能させる。また、撮像装置１００にインストールされて実行されるプログラムは、撮像装置１００を、図１から図１４に関連して説明した撮像装置１００として機能させる。

以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク１５９０、ＣＤ−ＲＯＭ１５９５の他に、ＤＶＤやＰＤ等の光学記録媒体、ＭＤ等の光磁気記録媒体、テープ媒体、ＩＣカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスクまたはＲＡＭ等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ１５００に提供してもよい。

以上、実施形態を用いて本発明を説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更又は改良を加えることができる。そのような変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

１００撮像装置
１４０出力装置
１５０通信回線
１８０ユーザ
１９０音声データベース
２１０画像格納部
２１２画像出力制御部
２１４画像出力部
２２０音声格納部
２２２音声出力制御部
２２４音声出力部
２３０出力回数保持部
２３２目標回数格納部
２３４出力比率格納部
２３６制限回数格納部
２４０出力指示受付部
２４２出力許容時間設定部
２４４出力時刻検出部
９１０撮像部
９２０録音部
９３０オブジェクト抽出部
９４０オブジェクト位置特定部
９５０音声取得部
９６０音声格納部
１０１０画像格納部
１０２０部分領域範囲取得部
１０３０オブジェクト抽出部
１０４０オブジェクト位置特定部
１０５０音声取得部
１０６０音声格納部
１０７０出力音声生成部
１０７５出力画像生成部
１０８０画像出力部
１０９０音声データベース

Claims

画像に含まれるオブジェクトを抽出するオブジェクト抽出部と、
オブジェクトの種類に対応づけて音声を格納する音声データベースに、前記オブジェクト抽出部が抽出したオブジェクトの種類に対応づけて格納されている音声を取得する音声取得部と、
前記画像における、前記音声取得部が取得した音声に関連するオブジェクトの位置を特定するオブジェクト位置特定部と、
前記オブジェクト位置特定部が特定したオブジェクトの位置に対応づけて、前記音声取得部が取得した音声を格納する音声格納部と
を備えるシステム。
前記画像は、撮像部により撮像された画像であり、
前記撮像部の周囲の音声を録音する録音部
をさらに備え、
前記音声取得部は、前記オブジェクト抽出部が抽出したオブジェクトに関連する音声を、前記録音部が録音した音声から抽出し、
前記オブジェクト位置特定部は、前記撮像部が撮像した画像における、前記音声取得部が抽出した音声に関連するオブジェクトの位置を特定し、
前記音声格納部は、前記オブジェクト位置特定部が特定したオブジェクトの位置に対応づけて、前記音声取得部が抽出した音声を格納する
請求項１に記載のシステム。
オブジェクトの種類に対応づけて音声を格納する前記音声データベース
をさらに備える
請求項１または２に記載のシステム。
前記画像を格納する画像格納部が格納している画像における少なくとも一部を含む部分領域の範囲を取得する部分領域範囲取得部と、
前記画像格納部が格納している画像における前記部分領域範囲取得部が取得した部分領域の範囲の画像から出力画像を生成する出力画像生成部と、
前記画像格納部が格納している画像において前記部分領域範囲取得部が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて前記音声格納部が格納している音声から出力音声を生成する出力音声生成部と、
前記出力画像生成部が生成した出力画像と前記出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部と
を更に備える請求項１から３のいずれか１項に記載のシステム。
前記出力画像生成部は、前記画像格納部が格納している画像における前記部分領域範囲取得部が取得した部分領域の範囲の画像と、前記画像格納部が格納している他の画像とを合成して出力画像を生成し、
前記出力音声生成部は、前記部分領域範囲取得部が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて前記音声格納部が格納している音声と、前記出力画像に含まれる他の画像に対応づけて前記音声格納部が格納している音声とから出力音声を生成し、
前記画像出力部は、前記出力画像生成部が生成した出力画像と前記出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する
請求項４に記載のシステム。
前記出力音声生成部は、前記出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて前記音声格納部が格納している音声を、より強調した出力音声を生成する
請求項４または５に記載のシステム。
前記出力音声生成部は、前記出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて前記音声格納部が格納している音声を、より大きい音量で合成した出力音声を生成する
請求項６に記載のシステム。
前記出力音声生成部は、前記出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて前記音声格納部が格納している音声が、より長い時間出力される出力音声を生成する
請求項６または７に記載のシステム。
前記出力音声生成部は、前記出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて前記音声格納部が格納している音声を、より強調した出力音声を生成する
請求項４から８のいずれか１項に記載のシステム。
前記出力音声生成部は、前記出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて前記音声格納部が格納している音声を、より大きい音量で合成した出力音声を生成する
請求項９に記載のシステム。
前記出力音声生成部は、前記出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて前記音声格納部が格納している音声が、より長い時間出力される出力音声を生成する
請求項９または１０に記載のシステム。
前記出力音声生成部は、前記出力画像においてより中央に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて前記音声格納部が格納している音声を、より強調した出力音声を生成する
請求項４から１１のいずれか１項に記載のシステム。
前記画像を格納する画像格納部が格納している複数の画像を合成して出力画像を生成する出力画像生成部と、
前記出力画像生成部が生成した出力画像に含まれる第１画像及び第２画像のそれぞれに対応づけて前記音声格納部が格納している第１音声及び第２音声を用いて出力音声を生成する出力音声生成部と、
前記出力画像生成部が生成した出力画像と前記出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部と
を備え、
前記出力音声生成部は、前記出力画像生成部が生成した出力画像において前記第１画像が前記第２画像より強調されている場合に、前記第１音声を前記第２音声より強調して合成した出力音声を生成する請求項１または２に記載のシステム。
前記出力音声生成部は、前記出力画像生成部が生成した出力画像において前記第１画像が前記第２画像より大きい場合に、前記第１音声を前記第２音声より強調して合成した出力音声を生成する
請求項１３に記載のシステム。
前記出力音声生成部は、前記出力画像生成部が生成した出力画像において前記第１画像が前記第２画像より前面にある場合に、前記第１音声を前記第２音声より強調して合成した出力音声を生成する
請求項１３または１４に記載のシステム。
前記出力音声生成部は、前記出力画像生成部が生成した出力画像において前記第１画像が前記第２画像より中央に存在する場合に、前記第１音声を前記第２音声より強調して合成した出力音声を生成する
請求項１３から１５のいずれか１項に記載のシステム。
前記出力音声生成部は、前記出力画像生成部が生成した出力画像において前記第１画像が前記第２画像より強調されている場合に、前記第１音声の音量を前記第２音声の音量より大きく合成した出力音声を生成する
請求項１３に記載のシステム。
コンピュータを、請求項１から１７のいずれか１項に記載のシステムとして機能させるためのプログラム。
画像に含まれるオブジェクトを抽出するオブジェクト抽出部と、
オブジェクトの種類に対応づけて音声を格納する音声データベースに、前記オブジェクト抽出部が抽出したオブジェクトの種類に対応づけて格納されている音声を取得する音声取得部と、
前記画像における、前記音声取得部が取得した音声に関連するオブジェクトの位置を特定するオブジェクト位置特定部と、
前記オブジェクト位置特定部が特定したオブジェクトの位置に対応づけて、前記音声取得部が取得した音声を格納する音声格納部と
を備える装置。
画像に含まれるオブジェクトを抽出するオブジェクト抽出段階と、
オブジェクトの種類に対応づけて音声を格納する音声データベースに、前記オブジェクト抽出段階において抽出されたオブジェクトの種類に対応づけて格納されている音声を取得する音声取得段階と、
前記画像における、前記音声取得段階において取得された音声に関連するオブジェクトの位置を特定するオブジェクト位置特定段階と、
前記オブジェクト位置特定段階において特定されたオブジェクトの位置に対応づけて、前記音声取得段階が取得した音声を格納する音声格納段階と
を備える方法。