以下、発明の実施形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、本発明の一実施形態に係る音声出力システムの一例を示す。音声出力システムは、撮像装置100、出力装置140、及び音声データベース190を備える。この例では、撮像装置100は、海岸に遊びにきている人の画像を撮像する。また、撮像装置100は、撮像装置100の周囲の音をマイクロホン102で録音する。撮像装置100は、撮像装置100が撮像した画像及び録音した音声を、インターネット等の通信回線150を通じて出力装置140に送信する。出力装置140は、撮像装置100から受け取った画像を出力するときに、撮像装置100から受け取った音声を同期させて出力する。このとき、出力装置140は、同じ画像を再度出力するときには、前回出力した音声とは異なる音声を出力する。このため、ユーザ180は、画像を出力する毎に異なる音声を楽しむことができるので、飽きることなく画像を鑑賞することができる。
出力装置140は、例えば、HDTV、電子フォトスタンド、コンピュータ等の、画像及び音声を出力する装置であってよい。また、出力装置140は、音声を文字として出力してもよい。例えば、出力装置140は、液晶等の表示デバイスに画像を表示するときに、音声を文字として表示デバイスに表示させる。なお、出力装置140は、画像を表示させる表示デバイスに文字を表示させてよく、画像を表示させる表示デバイスとは別の表示デバイスに文字を表示させてもよい。他にも、出力装置140は、プリンタ等の画像を印刷する印刷装置であってもよく、画像を印刷するとともに音声を文字として印刷してもよい。
撮像装置100は、例えば、デジタルスチルカメラ、カメラ付携帯電話等であってよい。また、撮像装置100は、出力装置140が有する、画像又は音声を出力する機能を有してもよい。また、撮像装置100が画像及び音声データを記録媒体に記録して、出力装置140は当該記録媒体からデータを受け取ることによって、画像及び音声を出力してもよい。また、撮像装置100は、画像及び音声データを、通信回線150に接続されたサーバの、ユーザ180毎にそれぞれ設けられたディレクトリ、例えば撮像装置100と関連付けられたディレクトリに格納してもよい。そして出力装置140は、ユーザ180毎にサーバに格納された画像及び音声データを受け取ってもよい。
また、撮像装置100は、撮像した画像に写っている犬、鳥等のオブジェクトを抽出して、抽出したオブジェクトの種類を特定する。そして、撮像装置100は、犬、鳥等のオブジェクトの種類別にオブジェクトの代表的な音声を格納している音声データベース190から、特定した種類のオブジェクトの代表的な音声を取得する。そして、撮像装置100は、取得した音声を、撮像した画像に関連づけて出力装置140に提供する。出力装置140は、ユーザ180による画像の編集指示を受け付ける。例えば、出力装置140は、ユーザ180から指定された複数の画像を、ユーザ180から指定されたレイアウトで合成して出力画像を生成する。このとき、出力装置140は、出力画像の生成に用いた各画像に関連づけられた音声を、出力画像において各画像が占める面積比と同じ音量比で合成された出力音声を生成する。そして、出力装置140は、生成した出力音声を、出力画像の表示と同期して再生する。このため、出力装置140は、例えばユーザ180が犬を含む画像と鳥を含む画像とを合成した出力画像を、犬と鳥の鳴き声が合成された出力音声とともに鑑賞することができる。したがってユーザ180は、編集後の出力画像の画像内容に応じた望ましい音声を、出力装置140を用いて容易に鑑賞することができる。
図2は、出力装置140のブロック構成の一例を示す。本図は、同じ画像に対して続けて同じ音声が出力されないように制御する出力装置140のブロック構成の一例を示す。出力装置140は、画像格納部210、画像出力制御部212、画像出力部214、出力指示受付部240、出力許容時間設定部242、出力時刻検出部244、音声格納部220、音声出力制御部222、音声出力部224、出力回数保持部230、目標回数格納部232、出力比率格納部234、及び制限回数格納部236を備える。
画像格納部210は、撮像された複数の画像を格納する。画像格納部210は、複数の画像のそれぞれに対応づけて、複数の画像が撮像されたタイミングを示す情報をそれぞれ格納する。具体的には、画像格納部210は、複数の画像のそれぞれに対応づけて、複数の画像が撮像された時刻をそれぞれ格納する。
出力指示受付部240は、画像格納部210が格納している複数の画像を画像出力部214に出力させるべき旨の指示を受け付ける。画像出力制御部212は、出力指示受付部240の指示に基づいて、画像格納部210が格納している画像を画像出力部214に出力させる。画像出力部214は、例えば画像を出力する液晶等の表示デバイスであってよく、画像を印刷する印刷デバイスであってもよい。
音声格納部220は、録音された複数の音声を格納する。例えば、音声格納部220は、画像格納部210が格納している複数の画像を撮像した撮像装置100の録音機能によって録音された複数の音声を格納する。具体的には、音声格納部220は、画像格納部210が格納している複数の画像が撮像されたときに撮像装置100の録音機能によって録音された音声、及び画像格納部210が格納している複数の画像が撮像されていないときに撮像装置100の録音機能によって録音された音声を格納する。
また、音声格納部220は、複数の音声のそれぞれに対応づけて、複数の音声が録音されたタイミングを示す情報をそれぞれ格納する。具体的には、音声格納部220は、複数の音声のそれぞれに対応づけて、複数の音声が録音された時刻をそれぞれ格納する。なお、録音された時刻とは、録音を開始した時刻であってよく、録音を終了した時刻であってもよい。他にも、音声格納部220は、タイミングを示す情報として、例えば複数の音声の録音を開始した時刻と、当該複数の音声が録音された順番を示す情報を格納してもよい。
音声格納部220は、画像格納部210が格納している複数の画像がそれぞれ撮像された複数の時刻を含む期間である撮像期間を含み、撮像期間より長い期間である録音期間において録音された複数の音声を格納する。なお、音声格納部220が格納している複数の音声の合計の時間は、画像出力部214が1つの画像を出力する予め設定された出力時間に、画像格納部210が格納している複数の画像の数を乗じた時間より長い。
音声出力部224は、音声格納部220が格納している音声を出力する。具体的には、音声出力部224は、音声を再生する再生デバイスであってよい。また、音声出力部224は、例えば液晶等の、文字を出力する表示デバイスを含んでよく、音声格納部220が格納している音声を表示デバイスに文字として出力させてもよい。また、音声出力部224は、印字デバイス等の、文字として印刷する印刷デバイスを含んでよく、音声格納部220が格納している音声を文字として印刷してもよい。
音声出力制御部222は、画像出力部214が画像を出力しているときに、音声格納部220が格納している複数の音声のうちから第1の音声を選択して音声出力部224に出力させ、画像出力部214が同一の画像を再度出力するときに、音声格納部220が格納している複数の音声のうちから第1の音声とは異なる第2の音声を選択して音声出力部224に出力させる。このため、ユーザ180は画像を出力する毎に異なる音声を楽しむことができる。
なお、音声出力制御部222は、録音されたタイミングが、画像が撮像されたタイミングから近い順に音声を選択する。例えば、音声出力制御部222は、録音された時刻が、画像が撮像された時刻から近い順に音声を選択する。他にも、音声出力制御部222は、音量が大きい順に音声を選択してもよい。このため、ユーザ180は、画像を撮像したときの特徴的な音から順に音声を楽しむことができる。
出力回数保持部230は、音声格納部220が格納している複数の音声が音声出力部224に出力された回数である出力回数を計数して保持する。目標回数格納部232は、音声格納部220が格納している複数の音声が音声出力部224に出力されるべき回数である目標回数を格納する。そして、音声出力制御部222は、目標回数から出力回数を引いた値が大きい順に音声を選択してもよい。
出力比率格納部234は、音声格納部220が格納している複数の音声が音声出力部224に出力されるべき回数の比率である出力比率を格納する。そして、音声出力制御部222は、出力回数保持部230が保持する出力回数の比率が、出力比率格納部234が格納している出力比率に近づくように音声を選択してもよい。このため、ユーザ180は、画像を撮像したときの特徴的な音声をより多く楽しむことができる。
なお、音声格納部220は、撮像装置100が撮像動作を受け付ける状態の動作モードである撮像モードの場合、及び撮像装置100が撮像動作を受け付けない状態の動作モードである非撮像モードの場合の双方において録音機能によって録音された複数の音声のそれぞれを、音声が録音されたときの動作モードに対応づけて格納する。そして、音声出力制御部222は、撮像装置100が撮像モードのときに録音された音声を、非撮像モードのときに録音された音声より優先的に選択する。
制限回数格納部236は、音声格納部220が格納している音声が音声出力部224から出力されているときに当該音声の出力が制限された場合に、制限された回数を計数して格納する。そして、音声出力制御部222は、制限回数格納部236が格納する回数がより少ない音声をより優先的に選択する。なお、音声出力制御部222は、出力回数保持部230が保持している出力回数と制限回数格納部236が格納している回数とから、音声の出力が制限された制限比率を算出して、算出した制限比率がより小さい音声をより優先的に選択してもよい。
出力時刻検出部244は、出力指示受付部240が指示を受け付けた時刻を検出する。そして、出力許容時間設定部242は、出力時刻検出部244が検出した時刻と、画像格納部210が格納している複数の画像が撮像された時刻との差に基づいて、画像格納部210が格納している複数の画像が撮像された時刻と、音声格納部220が格納している複数の音声から選択する音声が録音された時刻との差の許容範囲を設定する。そして、音声出力制御部222は、出力許容時間設定部242が設定した許容範囲の範囲内で録音された音声の中から、音声出力部224に出力させる音声を選択する。
具体的には、出力許容時間設定部242は、出力時刻検出部244が検出した時刻と、画像格納部210が格納している複数の画像が撮像された時刻との差がより大きい場合に、画像格納部210が格納している複数の画像が撮像された時刻と、音声格納部220が格納している複数の音声から選択する音声が録音された時刻との差の許容範囲をより大きく設定する。このため、出力装置140はより近い過去に撮像された画像を、撮像時刻の近くで録音された音声の中から選択して出力するので、画像とともに出力される音声がユーザ180にとって不自然なものになることを防ぐことができる。また、出力装置140は、遠い過去の画像を出力するときには、より広い時間範囲で録音された音声の中から選択される音声を出力することができるので、ユーザ180はより特徴的な音声を楽しむことができる。
以上説明した出力装置140によれば、同じ画像を再度出力するときでも、複数の音声の中から出力する音声を選択して出力するので、ユーザ180は飽きることなく音声と画像とを鑑賞することができる。また、ユーザ180は、出力装置140に出力させる画像が撮像されたときのより特徴的な音声を、当該画像とともに鑑賞することができる。
図3は、音声格納部220が格納するデータの一例をテーブル形式で示す。音声格納部220は、複数の音声データに対応付けて、複数の音声データを識別する音声ID及び音声が録音された時刻を格納する。なお、音声が録音された時刻とは、録音開始時刻であってよく、録音終了時刻であってもよい。また、音声が録音された時刻には、音声が録音された日付を含んでよい。
図4は、音声の録音と画像の撮像との時間関係の一例を示す。撮像装置100は、動作モードとして、待機モード、撮像モード、及び出力モードを有する。そして、出力装置140は、撮像装置100が待機モード、撮像モード、出力モードのいずれかである期間に録音した音声を格納する。なお、撮像モードは、撮像装置100が撮像及び/又は録音することのできる動作モードであってよい。例えば、撮像モードとは、撮像装置100がユーザ180によるレリーズボタンの押下によって画像を撮像することができる動作モードであってよい。また、出力モードは、撮像装置100が画像及び/又は音声を出力することのできる動作モードであってよい。例えば、出力モードとは、撮像装置100がメモリ等に格納している画像を読み出して、モニタ画面等の表示デバイスに表示することのできる動作モードであってよい。
なお、撮像装置100は、起動された直後には待機モードに設定される。なお、撮像装置100は、動作モードが待機モード又は出力モードに設定されている場合に、ユーザ180によって撮像動作又は録音動作に関する操作がなされた場合に撮像モードに遷移する。撮像動作に関する操作は、例えば、画像を撮像する操作、シャッタスピード、焦点距離等の、撮像条件を調整する操作等を含む。また、録音動作に関する操作は、例えば、音声を録音する操作、録音感度の調整等の、録音条件を調整する操作等を含む。また、撮像装置100は、動作モードが待機モード又は撮像モードに設定されている場合に、ユーザ180によって撮像装置100の出力動作に関する操作がなされた場合に、出力モードに遷移する。出力動作に関する操作は、例えば、画像を出力する操作、出力する画像を選択する操作、出力速度の調節等の、出力条件を調整する操作等を含む。なお、撮像装置100は、撮像装置100が撮像モード又は出力モードに設定されている場合に、ユーザ180による撮像装置100の操作が所定の期間操作されなかったことを条件として、待機モードに遷移してよい。このように、撮像装置100は、動作モードが撮像モード以外の待機モード又は出力モードに設定されている間においてユーザ180によるレリーズボタンの押下を受け付けると、画像を撮像せずに動作モードを撮像モードに遷移させる。その他、待機モード又は出力モードとは、撮像装置100がユーザ180によるレリーズボタンの押下を受け付けない動作モードであってよい。
音声格納部220は、撮像装置100が撮像モードに設定されている期間(t422〜t428)に撮像装置100によって録音された音声#404及び#406を格納している。また、音声格納部220は、撮像装置100が出力モードに設定されている期間(t428〜t430)に撮像装置100によって録音された音声(#408及び#410)、及び撮像装置100が待機モードに設定されている期間(t420〜t422及びt430〜t432)に録音された音声(#402、#403、及び#412)をも格納している。
また、音声格納部220は、画像出力部214が1つの画像を出力する予め設定された出力時間(Δt452)に、画像格納部210が格納する複数の画像の数を乗じた時間より長い音声を格納している。例えば、音声格納部220は1つの画像を出力する出力時間がΔt452であるとき、音声格納部220は、時刻t424及び時刻t426に撮像された2つの画像を出力する音声として、例えば音声の長さが出力時間Δt452を持つ2つ以上の音声(#404、#406、#408、#410、#412)及び出力時間Δt452の半分の長さΔt451を有する音声(#402及び#403)を格納している。このため、音声出力制御部222は、画像出力部214から画像が出力される度に、異なる音声を複数の音声の中から選択して出力することができる。
なお、音声出力制御部222は、音声出力部224に出力させる音声を選択する場合に、選択される音声の合計の時間が、画像出力部214が1つの画像を出力する予め設定された出力時間となるように、複数の音声を選択して音声出力部224に出力させてもよい。例えば、音声出力制御部222は、時刻t424に撮像された画像が出力されるときに、出力時間Δt452の半分の長さを有する音声#402及び音声#403を選択して、音声出力部224に出力させてよい。また、音声出力制御部222は、出力時間Δt452よりも長い音声を音声格納部220が格納している場合には、当該音声を出力時間Δt452の長さに分割された音声#408又は#410を選択して、音声出力部224に出力させてもよい。
なお、画像出力制御部212は、画像出力部214から出力される画像の数と、出力すべき複数の音声の合計の時間に基づいて、画像出力部214から画像を出力させる出力時間を調整してもよい。例えば、ユーザ180から出力すべき複数の音声及び画像を出力指示受付部240が受け付けたときに、画像出力制御部212は、当該出力すべき複数の音声の合計の時間を出力すべき画像の数で除した期間、各画像を画像出力部214から出力させる。
なお、音声出力制御部222は、時刻t424において撮像された画像を出力する旨の指示を出力指示受付部240から受け取った場合に、当該画像が出力される毎に、当該画像が撮像された時刻から近い順に出力する。例えば、音声出力制御部222は、時刻t424に撮像された画像を出力する場合には、音声#404、#406、#402、#403、#408、#410、及び#412の順に選択して、音声出力部224に出力させる。また、音声出力制御部222は、音量が大きい順に、例えば音声#406、#404、#408、#410、#403、#402、#412の順に選択して出力する。なお、音声出力制御部222は、予め定めた閾値音量よりも大きい音量の音声を選択してもよい。このとき、音声出力制御部222は、選択される音声の合計の長さが、予め定めた出力時間よりも長くなるように閾値音量を設定してもよい。
なお、撮像装置100は、撮像装置100の周囲の音声のうちで、予め設定された設定音量より大きい音声を録音してもよい。例えば、撮像装置100は、予め設定された閾値音量より大きい音声を録音してもよい。また、撮像装置100は、録音感度を変更することによって変更された設定音量より大きい音声を録音してもよい。そして、撮像装置100は、当該設定音量に対応づけて録音した音声を格納してよい。そして、画像格納部210は、撮像装置100が録音した音声を設定音量に対応づけて取得して格納する。そして、音声出力制御部222は、音声に対応づけられている設定音量に対する音声の音量の比を算出し、当該比が大きい順に音声を選択してよい。これにより、音声出力制御部222は、設定音量に対する音声の音量の比率がより大きい順に選択することができる。他にも、音声出力制御部222は、録音された音量と録音時の設定音量との差の、設定音量に対する比がより大きい音量の順に、音声を選択してもよい。これにより、音声の音量の絶対値が小さくても、録音時に閾値音量を下げて録音した音声については、出力装置140において再生され易くなる。例えばユーザ180が虫を撮像しながら閾値音量を下げて虫の小さな鳴き声を録音した場合には、小さな虫の鳴き声が出力装置140から再生され易くなる。このように、出力装置140によれば、ユーザ180の撮像時の意図を反映した音声を優先的に再生することができる。
図5は、音声格納部220が格納するデータの他の一例をテーブル形式で示す。音声格納部220は、音声データに対応付けて、音声データを識別する音声ID、及び音声が録音された時刻、及びインデックスを格納する。なお、音声格納部220が格納する時刻とは、例えば録音開始時刻であってよい。音声格納部220が格納するインデックスとは、例えば音声が録音されたタイミングを示す値であってよい。例えば、音声格納部220は、録音開始時刻からの、それぞれの音声が録音された順番を示す値を、インデックスとして格納する。音声出力制御部222は、音声格納部220が格納する時刻及びインデックスから、音声が録音されたタイミングを判断する。そして音声出力制御部222は、音声が録音されたタイミングが、画像出力部214から出力される画像が撮像されたタイミングから近い順に音声を選択してもよい。
なお、音声格納部220は、音声データの音量に対応づけて音声データを格納してよい。ここでいう音量とは、音声データの音量の時間的平均値である平均音量であってよく、音声データの最大音量又は最小音量であってもよい。また、音量とは、最大音量と最小音量の平均値である中間音量であってもよい。これにより、音声出力制御部222は、音量の大きさの順で音声を順次選択して再生する場合に、速やかに音声を選択することができる。
また、音声格納部220は、音声の音量の時間変化に対応づけて音声データを格納してよい。音量の時間変化とは、音声の音量の時間変化そのものであってよいし、音量の大きさの変化を示す情報(例えば、増加速度又は減少速度等)であってよい。そして、音声出力制御部222は、画像出力部214が表示する画像の大きさ又は大きさの変化に応じて、音声格納部220から音声を選択して音声出力部224に出力させてよい。例えば、音声出力制御部222は、画像出力部214が画像を拡大させながら表示する場合には、音量が増大する音声を音声格納部220が格納する音声から選択して音声出力部224に出力させ、画像出力部214が画像を縮小させながら表示する場合には、音量が減少する音声を音声格納部220が格納する音声から選択して音声出力部224に出力させてよい。
また、音声格納部220は、ステレオ録音された音声について、右及び左の音量の時間変化に対応づけて音声データを格納してよい。右及び左の音量の時間変化とは、右及び左の音量の時間変化そのものであってよいし、音量の大きさの変化を示す情報(例えば、増加速度又は減少程度)であってよい。そして、音声出力制御部222は、画像出力部214が表示する画像の位置又は位置の変化に応じて、音声格納部220から音声を選択して出力してよい。例えば、音声出力制御部222は、画像出力部214が画像を右から左にスライドさせて表示する場合には、左の音量が増大し、かつ、右の音量が減少する音声を、音声格納部220が格納する音声から選択して音声出力部224に出力させてよい。これにより、出力装置140は、表示される画像の位置、大きさに応じた望ましい音楽を再生することができる。
図6は、目標回数格納部232が格納するデータの一例をテーブル形式で示す。目標回数格納部232は、音声格納部220が格納する音声IDに対応づけて、当該音声IDで識別される音声が音声出力部224に出力されるべき回数である目標回数を格納する。なお、出力回数保持部230は、音声格納部220が格納する音声IDに対応づけて、音声出力部224が出力された音声が出力された出力回数を格納している。そして、音声出力制御部222は、目標回数から、出力回数保持部230が保持する出力回数を引いた値を計算して、当該値が大きい順に音声を選択して音声出力部224に出力させる。このため、例えば撮像装置100が撮像したときのより特徴的な音声に対して目標回数をより多く設定することによって、画像を出力するときに、撮像したときの特徴的な音声を多く出力させることができる。そして、撮像したときの特徴的な音声が何度も出力された後には他の音声も時々出力されていくので、ユーザ180は飽きることなく画像を鑑賞することができる。
なお、目標回数格納部232は、ユーザ180によって設定された目標回数を格納してよい。他にも、目標回数格納部232は、音声格納部220が格納する音声の持つ音量に基づいて目標回数を設定してもよい。例えば、目標回数格納部232は、音量のより大きい音声に対して目標回数をより多く設定してもよい。他にも、目標回数格納部232は、人の声が含まれる音声が出力されるべき目標回数を、人の声が含まれない音声が出力されるべき目標回数よりも多く設定してもよい。
また、目標回数格納部232は、複数の音声が出力されるべき回数である目標回数を、画像格納部210が格納する画像毎に格納してよい。具体的には、目標回数格納部232は、画像格納部210が格納する画像ID、音声ID、及び目標回数を格納する。そして音声出力制御部222は、画像出力部214から画像が出力されるときに、当該画像を識別する画像IDに対応付けて格納された複数の音声の中から、目標回数から出力回数を引いた値が大きい順に音声を選択して、音声出力部224に出力させる。
図7は、出力比率格納部234が格納するデータの一例をテーブル形式で示す。出力比率格納部234は、音声格納部220が格納する音声IDに対応づけて、当該音声IDで識別される音声が音声出力部224に出力されるべき回数の比率である出力比率を格納する。そして、音声出力制御部222は、出力回数保持部230が保持する出力回数に基づいてそれぞれの音声が出力された回数の比率を計算して、出力回数の比率が、出力比率格納部234が格納する出力比率に近づくように音声を選択する。このため、例えば撮像装置100によって撮像したときの特徴的な音声に対して出力比率を大きく設定すると、撮像したときのより特徴的な音声をより多く出力させることができる。このため、ユーザ180は、画像を鑑賞ながらいろいろな音声を楽しみつつ、撮像したときの特徴的な音声を何度も楽しむことができる。
なお、出力比率格納部234は、ユーザ180によって設定された出力比率を格納してよい。他にも、出力比率格納部234は、音声格納部220が格納する音声の持つ音量に基づいて出力比率を設定してもよい。例えば、出力比率格納部234は、音量のより大きい音声を出力する出力比率をより大きく設定してもよい。他にも、出力比率格納部234は、音声格納部220が格納する音声のうち、人の声が含まれる音声が出力されるべき出力比率を、人の声が含まれない音声が出力される出力比率よりも多く設定してもよい。
また、画像格納部210は、複数の音声が出力されるべき回数の比率である出力比率を、画像格納部210が格納する画像毎に格納してよい。具体的には、出力比率格納部234は、画像格納部210が格納する画像ID、音声ID、及び出力比率を格納する。そして音声出力制御部222は、画像出力部214から画像が出力されるときに、出力される画像を識別する画像IDに対応付けて格納された複数の音声の中から、出力比率格納部234が格納する出力比率に出力回数の比率が近づくように音声を選択して、音声出力部224に出力させてよい。
なお、制限回数格納部236は、音声格納部220が格納している音声が音声出力部224から出力されているときに音声の出力が制限された制限回数を、画像IDに対応づけて格納する。例えば、制限回数格納部236は、音声出力部224が音声を再生している場合に、ユーザ180による音声の早送り操作等によって音声の再生がキャンセルされる毎に、当該音声の音声IDに対応づけて格納している制限回数を1増加させる。また、制限回数格納部236は、ユーザ180によるボリュームの操作によって音声出力部224が再生している音声の音量が低下させられる毎に、当該音声の音声IDに対応づけて格納する制限回数を増加させてもよい。また、制限回数格納部236は、音声出力部224が再生している音声の音量の低下量に応じて、格納している制限回数を増加させてもよい。例えば、制限回数格納部236は、音声出力部224が再生している音声の音量の低下量が予め定められた基準低下量より大きいことを条件として、格納している制限回数を1増加させてよい。そして、制限回数格納部236は、音量の低下量が予め定められた基準低下量より小さい場合には、音量の低下量に応じて予め定められた増加回数(例えば、0より大きい、1未満の増加回数)だけ、格納している制限回数を増加させてよい。
そして、目標回数格納部232は、制限回数格納部236が格納する回数がより少ない音声の音声IDに対応づけて格納している目標回数をより大きく設定する。また、出力比率格納部234は、制限回数格納部236が格納する回数がより少ない音声の音声IDに対応づけて格納している出力比率をより大きく設定する。これにより、音声出力制御部222は、制限回数格納部236が格納する回数がより少ない音声を音声出力部224からより高い頻度で出力させることができる。なお、目標回数格納部232又は出力比率格納部234は、制限回数格納部236が格納している回数を出力回数保持部230が保持している出力回数で除した値である制限比率を算出して、算出した制限比率がより小さい音声の音声IDに対応づけて格納する目標回数又は出力比率をより大きく設定してもよい。
なお、目標回数格納部232は、音声格納部220が撮像モードに対応づけて格納している音声の目標回数をより大きく設定して格納してよい。また、出力比率格納部234は、音声格納部220が撮像モードに対応づけて格納している音声の出力比率をより大きく設定して格納してもよい。これにより、音声出力制御部222は、撮像装置100が撮像モードに設定されている間に録音された音声を、待機モード及び出力モードに設定されている間に録音された音声より高い頻度で音声出力部224から出力させることができる。なお、目標回数格納部232及び出力比率格納部234は、制限回数の逆数で示される重み付け係数で重み付けされた目標回数及び出力比率をそれぞれ格納してよい。また、目標回数格納部232及び出力比率格納部234は、撮像モードに対応づけて格納される音声の目標回数及び出力比率を、待機モード又は出力モードに対応づけて格納される音声より大きい重み付け係数で重み付けして算出してもよい。
図8は、音声出力制御部222が音声を選択する時間範囲の一例を示す。例えば、ユーザ180から、時刻t804で撮像された画像を出力する指示を時刻t806において受け付けた場合に、出力許容時間設定部242は、出力を指示された時刻と出力される画像が撮像された時刻との差(t806−t804)に基づいて、音声出力部224から出力させる音声を選択させる許容範囲Δt852を決定する。そして、音声出力制御部222は、音声格納部220に格納されている音声のうち、時刻t804からΔt852だけ前又は後の時間範囲(時刻t804―Δt852〜時刻t804+Δt852)に録音された音声(#841〜#849)の中から音声を選択して、音声出力部224に出力させる。
なお、音声出力制御部222は、時刻t804から許容範囲Δt852だけ前の時刻から時刻t804までの間に録音された音声を選択してもよいし、時刻t804から許容範囲Δt852だけ後の時刻までの間に録音された音声を選択してもよい。
また、出力許容時間設定部242は、画像格納部210が格納する撮像画像が撮像された時刻と、出力する指示を受け付けた時刻との差が大きいほど、音声出力部224から出力させる音声を選択させる許容範囲をより大きく設定する。図8の例では、出力許容時間設定部242は、時刻t804よりも前の時刻t802に撮像された画像を出力するよう時刻t806において指示された場合には、許容範囲Δt852に比べて時間的により長い許容範囲Δt850を設定する。そして、音声出力制御部222は、時刻(t802−Δt850)から時刻(t802+Δt850)までの時間範囲内で録音された音声(#811〜#834)の中から音声を選択して、音声出力部224に出力させる。
なお、出力許容時間設定部242は、撮像された時刻と出力を指示された時刻との間の時間を予め定められた数で割って得られた期間を許容範囲として設定してよい。例えば、音声出力制御部222は、10日前に撮像した画像を出力するときには、撮像した時刻の前後1日の間に録音された音声の中から、出力する音声を選択する。また、小学校3年生のときの運動会の画像を40年後に出力する場合には、撮像した時刻の前後4年の間に録音された音声から選択する。この場合、小学生時代の運動会の様子を鑑賞しながら、小学校への入学式、卒業式等の、より特徴的な音声が出力されるので、ユーザ180はより楽しく画像を鑑賞することができる。
以上説明した出力装置140によれば、同じ画像を再度出力するときでも、複数の音声の中から出力する音声を選択して出力するので、ユーザ180は飽きることなく音声と画像とを容易に楽しむことができる。
図9は、撮像装置100のブロック構成を示す。図10は、出力装置140の他の実施例におけるブロック構成を示す。本実施例における出力装置140及び撮像装置100は、複数の画像又は画像をトリミングした複数のトリミング画像を用いて生成された出力画像に対して、適切な出力音声を生成して同期して出力する。撮像装置100は、撮像部910、録音部920、オブジェクト抽出部930、オブジェクト位置特定部940、及び音声取得部950を備える。
撮像部910は画像を撮像する。オブジェクト抽出部930は、撮像部910が撮像した画像に含まれるオブジェクトを抽出する。オブジェクト位置特定部940は、撮像部910が撮像した画像における、音声取得部950が取得した音声に関連するオブジェクトの位置を特定する。
音声取得部950は、オブジェクト抽出部930が抽出したオブジェクトに関連する音声を取得する。具体的には、音声取得部950は、オブジェクト抽出部930が抽出したオブジェクトの種類に関連する音声を、オブジェクトの種類に対応づけて音声を格納している音声データベース190から取得する。そして、音声格納部960は、オブジェクト位置特定部940が特定したオブジェクトの位置に対応づけて、音声取得部950が取得した音声を格納する。
なお、録音部920は、撮像部910の周囲の音声を録音する。なお、図1に関連して説明したマイクロホン102は、録音部920の一部であってよい。そして、音声取得部950は、オブジェクト抽出部930が抽出したオブジェクトに関連する音声を、録音部920が録音した音声から抽出してもよい。この場合、オブジェクト位置特定部940は、撮像部910が撮像した画像における、音声取得部950が抽出した音声に関連するオブジェクトの位置を特定する。そして、音声格納部960は、オブジェクト位置特定部940が特定したオブジェクトの位置に対応づけて、音声取得部950が抽出した音声を格納する。
出力装置140は、画像格納部1010、オブジェクト抽出部1030、オブジェクト位置特定部1040、音声取得部1050、音声格納部1060、部分領域範囲取得部1020、出力音声生成部1070、出力画像生成部1075、画像出力部1080、及び音声データベース1090を備える。
画像格納部1010は、画像を格納する。具体的には、画像格納部1010は、撮像装置100が撮像した撮像画像を撮像装置100から受け取って格納する。音声格納部1060は、画像格納部1010が格納している画像及び当該画像における位置に対応づけて、音声を格納する。具体的には、音声格納部1060は、撮像装置100の音声格納部1060から撮像装置100によって撮像された画像及び当該画像における位置に対応づけて記録された音声を取得して格納する。
部分領域範囲取得部1020は、画像格納部1010が格納している画像における少なくとも一部を含む部分領域の範囲を取得する。例えば、部分領域範囲取得部1020は、画像格納部1010が格納している画像に対するユーザ180によるトリミング操作を受け付けて、当該トリミング操作で示されるトリミング範囲を部分領域の範囲として取得する。
出力画像生成部1075は、画像格納部1010が格納している画像における部分領域範囲取得部1020が取得した部分領域の範囲の画像から出力画像を生成する。出力音声生成部1070は、画像格納部1010が格納している画像において部分領域範囲取得部1020が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納部1060が格納している音声から出力音声を生成する。
そして、画像出力部1080は、出力画像生成部1075が生成した出力画像と出力音声生成部1070が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する。なお、画像出力部1080は、出力画像と出力音声とを対応づけて記録媒体に記録してよい。また、画像出力部1080は、ディスプレイ等の表示デバイスに出力画像を表示するのと同期して、スピーカ等の再生デバイスから出力音声が出力されるように、出力画像と出力音声とを対応づけて出力してよい。このため、出力装置140は、ユーザ180のトリミング操作によって得られるトリミング画像を表示する場合に、トリミング画像に含まれるオブジェクトの代表的な音声等の適切な音声をトリミング画像に同期して再生することができる。
なお、出力画像生成部1075は、画像格納部1010が格納している画像における部分領域範囲取得部1020が取得した部分領域の範囲の画像と、画像格納部1010が格納している他の画像とを合成して出力画像を生成してよい。この場合、出力音声生成部1070は、部分領域範囲取得部1020が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納部1060が格納している音声と、出力画像に含まれる他の画像に対応づけて音声格納部1060が格納している音声とから出力音声を生成する。このため、出力装置140は、複数の画像を編集して得られる画像を表示する場合に、編集に用いた画像に関連する音声を合成して得られる音声を、編集後の画像の表示に同期して再生することができる。
音声データベース1090は、オブジェクトの種類に対応づけて音声を格納している。そして、音声格納部1060は、画像格納部1010が格納している画像に対応づけられた位置に存在するオブジェクトの種類に対応づけて音声データベース1090が格納している音声を取得して格納する。なお、音声格納部1060は、画像格納部1010が格納している画像に対応づけられた位置に存在するオブジェクトの種類に対応づけて出力装置140の外部の音声データベース190が格納している音声を取得して格納してもよい。
そして、出力音声生成部1070は、出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部1060が格納している音声を、より強調した出力音声を生成してよい。具体的には、出力音声生成部1070は、出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部1060が格納している音声を、より大きい音量で合成した出力音声を生成してよい。
また、出力音声生成部1070は、出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部1060が格納している音声を、より強調した出力音声を生成してよい。具体的には、出力音声生成部1070は、出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部1060が格納している音声を、より大きい音量で合成した出力音声を生成する。
なお、出力画像生成部1075は、出力画像の生成に用いた複数の画像のそれぞれに対応づけて音声格納部1060が格納している複数の音声が、連続して出力される出力音声を生成してよい。この場合、出力音声生成部1070は、出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部1060が格納している音声がより長い時間出力される出力音声を生成してもよい。また、出力音声生成部1070は、出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置に対応づけて音声格納部1060が格納している音声がより長い時間出力される出力音声を生成してもよい。
以上説明したように、出力装置140は、ユーザ180が自由に画像をトリミングすることによって得られたトリミング画像を用いて作成された画像を、当該画像に含まれるオブジェクトの音声とともに再生することができる。このため、トリミングによって除外されたオブジェクトに関連する音声が出力画像とともに再生される等、不適切な音声が再生されることを未然に防ぐことができる。また、出力装置140は、合成画像においてより強調されたオブジェクトに関連する音声を強調した音声を、合成画像とともにユーザ180に提供することができる。
なお、音声格納部1060は、画像格納部1010が格納する複数の画像のそれぞれに対応づけて複数の音声を格納してよい。そして、出力画像生成部1075は、画像格納部1010が格納している複数の画像を合成して出力画像を生成してよい。例えば、出力画像生成部1075は、ユーザ180が選択した複数の画像を、ユーザ180から指定されたレイアウトで配置することによって出力画像を生成する。この場合、出力音声生成部1070は、出力画像生成部1075が生成した出力画像に含まれる第1画像及び第2画像のそれぞれに対応づけて音声格納部1060が格納する第1音声及び第2音声を用いて出力音声を生成する。このとき、出力音声生成部1070は、出力画像生成部1075が生成した出力画像において第1画像が第2画像より強調されている場合に、第1音声を第2音声より強調して合成した出力音声を生成する。このため、出力装置140は、ユーザ180が出力画像において強調してレイアウトした画像に関連する音声が強調された出力音声を、出力画像に同期して出力することができる。
具体的には、出力音声生成部1070は、出力画像生成部1075が生成した出力画像において第1画像が第2画像より大きい場合に、第1音声を第2音声より強調して合成した出力音声を生成する。また、出力音声生成部1070は、出力画像生成部1075が生成した出力画像において第1画像が第2画像より前面にある場合に、第1音声を第2音声より強調して合成した出力音声を生成する。また、出力音声生成部1070は、出力画像生成部1075が生成した出力画像において第1画像が第2画像より中央に存在する場合に、第1音声を第2音声より強調して合成した出力音声を生成する。なお、出力音声生成部1070は、出力画像生成部1075が生成した出力画像において第1画像が第2画像より強調されている場合に、第1音声の音量を第2音声の音量より大きく合成した出力音声を生成してよい。
図11は、音声データベース1090が格納するデータの一例を示す図である。音声データベース1090は、オブジェクトの種類及び音声データを格納する。例えば音声データベース1090は、犬、鳥、波等のオブジェクトの種類のそれぞれに対応づけて、オブジェクト毎の代表的な音声である犬の鳴き声、鳥の鳴き声、波の音等を格納する。なお、音声データベース190は、本図の例における音声データベース1090と同様のデータを格納してよい。
図12は、画像格納部1010が格納している画像1200の一例を示す図である。本図の画像1200を例に挙げて、音声取得部1050が音声を取得する場合の動作を説明すると、オブジェクト抽出部1030は、画像1200から、エッジ抽出等によって犬1210、鳥1220等のオブジェクトの輪郭を抽出する。そして、オブジェクト抽出部1030は、犬、鳥等のオブジェクトの種類毎に予め記憶しているオブジェクトのパターンと、抽出した輪郭とのパターンマッチングによって、予め定められた一致度より高く、かつ、最も一致度の高いオブジェクトの種類を特定する。そして、音声取得部1050は、特定したオブジェクトの種類に対応づけて音声データベース1090又は音声データベース190が格納する音声を取得する。
なお、撮像装置100の音声取得部950は、音声取得部1050と同様の動作によって、撮像部910が撮像した画像のオブジェクトに対応づけて音声データベース190から音声を取得することができる。また、音声取得部950は、オブジェクトの種類に対応づけて音声の特徴量を予め記憶しており、記憶している音声の特徴量と、録音部920によって録音された音声の特徴量とを比較して、予め定められた一致度より高く、かつ、最も一致度の高い特徴量を持つ音声を、録音部920によって録音された音声から抽出してもよい。なお、音声の特徴量とは、音声の特徴的な周波数スペクトルであったり、当該周波数スペクトルの特徴的な時間変化パターンであってよい。
図13は、音声格納部960又は音声格納部1060が格納するデータの一例を示す。以下、音声格納部1060が格納するデータを例に挙げて説明すると、音声格納部1060は、撮像部910が撮像した画像を識別する画像ID、当該画像に含まれるオブジェクトの位置である全体画像内位置、及び音声取得部1050が取得した音声データを格納する。なお、オブジェクト位置特定部1040は、オブジェクト抽出部1030が抽出したオブジェクトの重心位置を特定する。そして、音声格納部1060は、オブジェクト位置特定部1040が特定したオブジェクトの重心位置を、オブジェクトの全体画像内位置として格納する。なお、音声格納部1060は、全体画像内位置を示す、画像の横幅及び縦幅の長さに対する相対値を格納してよい。具体的には、音声格納部1060は、画像の左下角を座標の原点として、画像の横幅及び縦幅の長さに対する相対的な座標を格納する。
なお、音声格納部1060は、全体画像内位置に対応づけることなく、画像に対応づけて音声を格納してよい。本図の例では、音声格納部1060は、画像ID#AAAに対応づけて音声データ13を格納しており、画像ID#BBBに対応づけて音声データ22を格納している。この場合、音声格納部1060は、音声データ13及び22に対する全体画像内位置として、全体画像内位置に対応づけられていない旨を示す値(NULL値等)を格納する。以上、音声格納部1060が格納するデータについて説明したが、音声格納部960は、音声格納部1060が格納するデータと同様のデータを格納してよい。
図14は、出力画像生成部1075が生成する出力画像の一例を示す。本図の例では、出力装置140は、画像ID#AAAで識別される画像1200と、画像ID#BBBで示される画像1400とから出力画像1450を生成して表示する。この例では、出力画像生成部1075は、ユーザ180からのトリミング指示によって部分領域範囲取得部1020が取得した範囲の部分画像1411及び部分画像1412を、ユーザ180の指示で示されるレイアウトで配置して出力画像1450を生成する。
このとき、出力音声生成部1070は、画像1200及び1400が出力画像1450において含まれる画像の面積を算出する。そして、出力音声生成部1070は、画像1200及び1400に対応づけて音声格納部1060が格納する音声13及び22の音量を、それぞれの画像の出力画像1450における面積に比例する大きさの音量で合成して出力音声を生成する。これにより、出力画像1450において面積の大きい画像1400(#BBB)を撮像したときに録音された子供の声等を含む音声(音声データ22)が大きく再生される。したがって、出力画像1450に含まれる面積の小さい画像1200(#AAA)を撮像したときに録音された音声が大きく再生されることがないので、ユーザ180は違和感なく出力画像1450を鑑賞することができる。
また、出力音声生成部1070は、出力画像1450におけるオブジェクトの面積に応じて、出力音声を生成してもよい。具体的には、出力音声生成部1070は、部分領域範囲取得部1020によって取得された範囲に含まれるオブジェクト(例えば、犬を示すオブジェクト1421、海を示すオブジェクト1422等)の、出力画像における面積を算出する。そして、出力音声生成部1070は、各オブジェクト1421、1422の全体画像内位置、及び画像1200及び1400の画像IDに対応づけて音声格納部1060が格納する音声データ11及び21を取得して、取得した音声データ11及び12を、オブジェクトの面積に比例した大きさの音量で合成して出力音声を生成する。なお、出力音声生成部1070は、出力音声そのものに代えて、出力音声に用いる音声データを識別する識別情報及び音声データの音量の大きさを示す音量情報とを、出力音声として生成してもよい。以上説明したように、出力装置140によって出力画像1450が表示されるとき、例えば波の音の音声が犬の鳴き声より大きい音量で再生される。このように、ユーザ180は、出力装置140を用いることによって、ユーザ180が自由に編集して作製した画像を、当該画像の画像内容に対して違和感を感じることのない音声とともに鑑賞することができる。
なお、本図において、出力音声生成部1070が、出力画像1450における画像又はオブジェクトの面積の大きさに応じた音量で音声を合成する場合について説明したが、出力音声生成部1070は、面積に大きさの他に、画像又はオブジェクトの出力画像1450における配置に応じて音声の合成比率を決定してよい。例えば、出力音声生成部1070は、出力画像1450の中央との間の距離の逆数に比例する重み付け係数で重み付けされた音声の合成比率で音声を合成してよい。また、出力音声生成部1070は、出力画像1450においてより前面に配置される画像又はオブジェクトに対応する音声の重み付け係数をより大きくしてよい。なお、音声の合成比率とは、本図に関連して説明したような音量の合成比率であってよいし、音声を再生する時間に対する合成比率であってもよい。また、出力音声生成部1070は、出力画像1450における画像又はオブジェクトの面積が最も大きい画像又はオブジェクトに対応する音声を、出力音声として生成してよい。その他、出力音声生成部1070は、出力画像1450における画像又はオブジェクトのうち、最も前面に配置された画像又は画像内のオブジェクトに対応する音声を、出力音声として生成してもよい。
図15は、撮像装置100及び出力装置140に係るコンピュータ1500のハードウェア構成の一例を示す。コンピュータ1500は、ホスト・コントローラ1582により相互に接続されるCPU1505、RAM1520、グラフィック・コントローラ1575、及び表示装置1580を有するCPU周辺部と、入出力コントローラ1584によりホスト・コントローラ1582に接続される通信インターフェイス1530、ハードディスクドライブ1540、及びCD−ROMドライブ1560を有する入出力部と、入出力コントローラ1584に接続されるROM1510、フレキシブルディスク・ドライブ1550、及び入出力チップ1570を有するレガシー入出力部とを備える。
ホスト・コントローラ1582は、RAM1520と、高い転送レートでRAM1520をアクセスするCPU1505、及びグラフィック・コントローラ1575とを接続する。CPU1505は、ROM1510、及びRAM1520に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ1575は、CPU1505等がRAM1520内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置1580上に表示させる。これに代えて、グラフィック・コントローラ1575は、CPU1505等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
入出力コントローラ1584は、ホスト・コントローラ1582と、比較的高速な入出力装置であるハードディスクドライブ1540、通信インターフェイス1530、CD−ROMドライブ1560を接続する。ハードディスクドライブ1540は、コンピュータ1500内のCPU1505が使用するプログラム、及びデータを格納する。通信インターフェイス1530は、ネットワークを介して出力装置140と通信し、出力装置140にプログラム、及びデータを提供する。CD−ROMドライブ1560は、CD−ROM1595からプログラムまたはデータを読み取り、RAM1520を介してハードディスクドライブ1540、及び通信インターフェイス1530に提供する。
また、入出力コントローラ1584には、ROM1510と、フレキシブルディスク・ドライブ1550、及び入出力チップ1570の比較的低速な入出力装置とが接続される。ROM1510は、コンピュータ1500が起動時に実行するブート・プログラムや、コンピュータ1500のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ1550は、フレキシブルディスク1590からプログラムまたはデータを読み取り、RAM1520を介してハードディスクドライブ1540、及び通信インターフェイス1530に提供する。入出力チップ1570は、フレキシブルディスク・ドライブ1550や、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を接続する。
RAM1520を介して通信インターフェイス1530に提供されるプログラムは、フレキシブルディスク1590、CD−ROM1595、またはICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、RAM1520を介して通信インターフェイス1530に提供され、ネットワークを介して出力装置140に送信される。出力装置140に送信されたプログラムは出力装置140においてインストールされて実行される。
出力装置140にインストールされて実行されるプログラムは、出力装置140を、図1から図14に関連して説明した出力装置140として機能させる。また、撮像装置100にインストールされて実行されるプログラムは、撮像装置100を、図1から図14に関連して説明した撮像装置100として機能させる。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1590、CD−ROM1595の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスクまたはRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1500に提供してもよい。
以上、実施形態を用いて本発明を説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更又は改良を加えることができる。そのような変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。