JP2006270921A - Imaging apparatus, imaging method, output device, output method and program - Google Patents
Imaging apparatus, imaging method, output device, output method and program Download PDFInfo
- Publication number
- JP2006270921A JP2006270921A JP2005362465A JP2005362465A JP2006270921A JP 2006270921 A JP2006270921 A JP 2006270921A JP 2005362465 A JP2005362465 A JP 2005362465A JP 2005362465 A JP2005362465 A JP 2005362465A JP 2006270921 A JP2006270921 A JP 2006270921A
- Authority
- JP
- Japan
- Prior art keywords
- output
- image
- sound
- unit
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
Abstract
Description
本発明は、撮像装置、撮像方法、出力装置、出力方法、及びプログラムに関する。特に本発明は、画像を撮像する撮像装置及び撮像方法、画像を出力する出力装置及び出力方法、並びに撮像装置及び出力装置用のプログラムに関する。 The present invention relates to an imaging device, an imaging method, an output device, an output method, and a program. In particular, the present invention relates to an imaging device and an imaging method for capturing an image, an output device and an output method for outputting an image, and a program for the imaging device and the output device.
従来、静止画だけでなく動画もメモリカードに記録することができ、また、静止画や動画の撮影記録時にマイクロホンで検出した音声を画像に対応させて記録できるデジタルスチルカメラがある(例えば、特許文献1参照。)。また、デジタルスチルカメラで撮影した静止画や動画を表示しながら、画像に対応させて記録された音声を出力することができる電子フォトスタンドが知られている。
しかしながら、このようなカメラを用いて撮像された画像を電子フォトスタンドで再生すると、同じ画像に対しては、いつも同じ音声が再生されてしまう。このため、ユーザは画像を再生したときの音声に飽きてしまうという課題があった。また、ユーザにとっては、画像と音声の編集等の煩雑な作業をすることなく、容易に飽きの来ない音声を画像とともに鑑賞することができることが望ましい。また、特許文献1には、複数の画像から合成された画像に音声を対応させて記録する技術について開示されていない。
However, when an image captured using such a camera is reproduced on an electronic photo stand, the same sound is always reproduced for the same image. Therefore, there is a problem that the user gets bored with the sound when the image is reproduced. In addition, it is desirable for the user to be able to easily appreciate the sound that does not get tired together with the image without performing complicated operations such as editing of the image and the sound. Further,
そこで本発明は、上記の課題を解決することができる撮像装置、撮像方法、出力装置、出力方法、及びプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。 Accordingly, an object of the present invention is to provide an imaging device, an imaging method, an output device, an output method, and a program that can solve the above-described problems. This object is achieved by a combination of features described in the independent claims. The dependent claims define further advantageous specific examples of the present invention.
本発明の第1の形態における出力装置は、撮像された複数の画像を格納する画像格納部と、画像格納部が格納している画像を出力する画像出力部と、画像格納部が格納している画像を画像出力部に出力させる画像出力制御部と、録音された複数の音声を格納する音声格納部と、音声格納部が格納している音声を出力する音声出力部と、画像出力部が画像を出力しているときに、音声格納部が格納している複数の音声のうちから第1の音声を選択して音声出力部に出力させ、画像出力部が同一の画像を再度出力するときに、音声格納部が格納している複数の音声のうちから第1の音声とは異なる第2の音声を選択して音声出力部に出力させる音声出力制御部とを備える。 An output device according to a first aspect of the present invention includes an image storage unit that stores a plurality of captured images, an image output unit that outputs an image stored in the image storage unit, and an image storage unit that stores An image output control unit that outputs an image output unit to the image output unit, an audio storage unit that stores a plurality of recorded sounds, an audio output unit that outputs audio stored in the audio storage unit, and an image output unit When outputting an image, when the first sound is selected from a plurality of sounds stored in the sound storage unit and output to the sound output unit, and the image output unit outputs the same image again And a sound output control unit that selects a second sound different from the first sound from a plurality of sounds stored in the sound storage unit and outputs the second sound to the sound output unit.
音声格納部は、画像格納部が格納している複数の画像を撮像した撮像装置の録音機能によって録音された複数の音声を格納してよい。音声格納部は、画像格納部が格納している複数の画像がそれぞれ撮像された複数の時刻を含む期間である撮像期間を含み、撮像期間より長い期間である録音期間において録音された複数の音声を格納してよい。音声格納部が格納している複数の音声の合計の時間は、画像出力部が1つの画像を出力する予め設定された出力時間に、画像格納部が格納している複数の画像の数を乗じた時間より長くてよい。 The sound storage unit may store a plurality of sounds recorded by a recording function of an imaging apparatus that has captured a plurality of images stored in the image storage unit. The audio storage unit includes an imaging period that is a period including a plurality of times when a plurality of images stored in the image storage unit are respectively captured, and a plurality of audios recorded in a recording period that is longer than the imaging period May be stored. The total time of the plurality of sounds stored in the sound storage unit is obtained by multiplying the preset output time for the image output unit to output one image by the number of the plurality of images stored in the image storage unit. It may be longer than the time.
画像格納部は、複数の画像のそれぞれに対応づけて、複数の画像が撮像されたタイミングを示す情報をそれぞれ格納し、音声格納部は、複数の音声のそれぞれに対応づけて、複数の音声が録音されたタイミングを示す情報をそれぞれ格納し、音声出力制御部は、録音されたタイミングが、画像が撮像されたタイミングから近い順に音声を選択してよい。 The image storage unit stores information indicating the timing at which the plurality of images are captured in association with each of the plurality of images, and the sound storage unit associates each of the plurality of sounds with a plurality of sounds. Information indicating the recorded timing may be stored, and the audio output control unit may select the audio in the order in which the recorded timing is closer to the timing at which the image was captured.
画像格納部は、複数の画像のそれぞれに対応づけて、複数の画像が撮像された時刻をそれぞれ格納し、音声格納部は、複数の音声のそれぞれに対応づけて、複数の音声が録音された時刻をそれぞれ格納し、音声出力制御部は、録音された時刻が、画像が撮像された時刻から近い順に音声を選択してよい。音声出力制御部は、音量が大きい順に音声を選択してよい。 The image storage unit stores the time at which the plurality of images are captured in association with each of the plurality of images, and the sound storage unit records the plurality of sounds in association with each of the plurality of sounds. Each time is stored, and the sound output control unit may select the sound in the order in which the recorded time is closer to the time when the image was captured. The voice output control unit may select voices in descending order of volume.
音声格納部が格納している複数の音声が音声出力部に出力された回数である出力回数を計数して保持する出力回数保持部と、音声格納部が格納している複数の音声が音声出力部に出力されるべき回数である目標回数を格納する目標回数格納部とをさらに備え、音声出力制御部は、目標回数から出力回数を引いた値が大きい順に音声を選択してよい。 An output count holding unit that counts and holds the number of times that a plurality of voices stored in the voice storage unit are output to the voice output unit, and a plurality of voices stored in the voice storage unit are output as voices A target number storage unit that stores a target number of times that should be output to the unit, and the sound output control unit may select the sound in descending order of a value obtained by subtracting the output number from the target number of times.
音声格納部が格納している複数の音声が音声出力部に出力された回数である出力回数を計数して保持する出力回数保持部と、音声格納部が格納している複数の音声が音声出力部に出力されるべき回数の比率である出力比率を格納する出力比率格納部とをさらに備え、音声出力制御部は、出力回数保持部が保持する出力回数の比率が、出力比率格納部が格納している出力比率に近づくように音声を選択してよい。 An output count holding unit that counts and holds the number of times that a plurality of voices stored in the voice storage unit are output to the voice output unit, and a plurality of voices stored in the voice storage unit are output as voices An output ratio storage unit that stores an output ratio that is a ratio of the number of times to be output to the unit, and the audio output control unit stores the ratio of the output number held by the output number holding unit in the output ratio storage unit The voice may be selected so as to approach the output ratio being used.
音声格納部は、撮像装置が撮像動作を受け付ける状態の動作モードである撮像モード、及び撮像装置が撮像動作を受け付けない状態の動作モードである非撮像モードの場合の双方において録音機能によって録音された複数の音声のそれぞれを、音声が録音されたときの動作モードに対応づけて格納し、音声出力制御部は、撮像装置が撮像モードのときに録音された音声を、非撮像モードのときに録音された音声より優先的に選択してよい。 The audio storage unit was recorded by the recording function in both the imaging mode, which is an operation mode in which the imaging device accepts an imaging operation, and the non-imaging mode, which is an operation mode in which the imaging device does not accept an imaging operation. Each of the plurality of sounds is stored in association with the operation mode when the sound is recorded, and the sound output control unit records the sound recorded when the image pickup apparatus is in the image pickup mode, when it is in the non-image pickup mode. You may select preferentially over the recorded voice.
音声出力部からの音声の出力中に、当該音声の出力が制限された回数を格納する制限回数格納部をさらに備え、音声出力制御部は、制限回数格納部が格納する回数がより少ない音声をより優先的に選択してよい。 The sound output unit further includes a limit number storage unit that stores the number of times that the output of the sound is limited during the output of the sound, and the sound output control unit is configured to output a voice with a smaller number of times stored in the limit number storage unit. You may select more preferentially.
画像格納部が格納している複数の画像を画像出力部に出力させるべき旨の指示を受け付ける出力指示受付部と、出力指示受付部が指示を受け付けた時刻を検出する出力時刻検出部とをさらに備え、画像格納部は、複数の画像のそれぞれに対応づけて、複数の画像が撮像された時刻を格納し、音声格納部は、複数の音声のそれぞれに対応づけて、複数の音声が録音された時刻を格納し、音声出力制御部は、出力時刻検出部が検出した時刻と、画像格納部が格納している複数の画像が撮像された時刻との差に基づいて、画像格納部が格納している複数の画像が撮像された時刻と、音声格納部が格納している複数の音声から選択する音声が録音された時刻との差の許容範囲を設定してよい。 An output instruction reception unit that receives an instruction to output the plurality of images stored in the image storage unit to the image output unit, and an output time detection unit that detects a time when the output instruction reception unit receives the instruction The image storage unit stores the time when the plurality of images are captured in association with each of the plurality of images, and the sound storage unit records a plurality of sounds in association with each of the plurality of sounds. The audio output control unit stores the time based on the difference between the time detected by the output time detection unit and the time when a plurality of images stored in the image storage unit are captured. The allowable range of the difference between the time when the plurality of images taken and the time when the sound selected from the plurality of sounds stored in the sound storage unit is recorded may be set.
音声出力制御部は、出力時刻検出部が検出した時刻と、画像格納部が格納している複数の画像が撮像された時刻との差がより大きい場合に、画像格納部が格納している複数の画像が撮像された時刻と、音声格納部が格納している複数の音声から選択する音声が録音された時刻との差の許容範囲をより大きく設定してよい。 When the difference between the time detected by the output time detection unit and the time when the plurality of images stored in the image storage unit are captured is larger, the audio output control unit is stored in the plurality of images stored in the image storage unit. The allowable range of the difference between the time when the image is captured and the time when the sound selected from the plurality of sounds stored in the sound storage unit is recorded may be set larger.
本発明の第2の形態における出力方法は、撮像された複数の画像を格納する画像格納段階と、画像格納段階において格納される画像を出力する画像出力段階と、画像格納段階において格納される画像を画像出力段階において出力させる画像出力制御段階と、録音された複数の音声を格納する音声格納段階と、音声格納段階において格納される音声を出力する音声出力段階と、画像出力段階において画像が出力されているときに、音声格納段階において格納される複数の音声のうちから第1の音声を選択して音声出力段階において出力させ、画像出力段階が同一の画像を再度出力するときに、音声格納段階において格納される複数の音声のうちから第1の音声とは異なる第2の音声を選択して音声出力段階において出力させる音声出力制御段階とを備える。 The output method according to the second aspect of the present invention includes an image storage stage for storing a plurality of captured images, an image output stage for outputting an image stored at the image storage stage, and an image stored at the image storage stage. Output in the image output stage, an audio storage stage for storing a plurality of recorded sounds, an audio output stage for outputting the audio stored in the audio storage stage, and an image output in the image output stage If the first sound is selected from the plurality of sounds stored in the sound storage stage and output in the sound output stage, and the same image is output again in the image output stage, the sound is stored. A voice output control stage for selecting a second voice different from the first voice from a plurality of voices stored in the stage and outputting the second voice in the voice output stage. Equipped with a.
本発明の第3の形態によると、画像を出力する出力装置用のプログラムであって、出力装置を、撮像された複数の画像を格納する画像格納部、画像格納部が格納している画像を出力する画像出力部、画像格納部が格納している画像を画像出力部に出力させる画像出力制御部、録音された複数の音声を格納する音声格納部、音声格納部が格納している音声を出力する音声出力部、画像出力部が画像を出力しているときに、音声格納部が格納している複数の音声のうちから第1の音声を選択して音声出力部に出力させ、画像出力部が同一の画像を再度出力するときに、音声格納部が格納している複数の音声のうちから第1の音声とは異なる第2の音声を選択して音声出力部に出力させる音声出力制御部として機能させる。 According to the third aspect of the present invention, there is provided a program for an output device that outputs an image, the output device storing an image storage unit that stores a plurality of captured images, and an image stored in the image storage unit. An image output unit for outputting, an image output control unit for outputting an image stored in the image storage unit to the image output unit, a sound storage unit for storing a plurality of recorded sounds, and a sound stored in the sound storage unit When the audio output unit to output and the image output unit output an image, the first audio is selected from the plurality of audios stored in the audio storage unit, and is output to the audio output unit to output the image. Audio output control for selecting the second audio different from the first audio from the plurality of audios stored in the audio storage unit and outputting the same to the audio output unit when the unit outputs the same image again Function as a part.
本発明の第4の形態における撮像装置は、撮像部と、撮像部が撮像した画像に含まれるオブジェクトを抽出するオブジェクト抽出部と、オブジェクト抽出部が抽出したオブジェクトに関連する音声を取得する音声取得部と、撮像部が撮像した画像における、音声取得部が取得した音声に関連するオブジェクトの位置を特定するオブジェクト位置特定部と、オブジェクト位置特定部が特定したオブジェクトの位置に対応づけて、音声取得部が取得した音声を格納する音声格納部とを備える。 An imaging apparatus according to a fourth aspect of the present invention includes an imaging unit, an object extraction unit that extracts an object included in an image captured by the imaging unit, and audio acquisition that acquires audio related to the object extracted by the object extraction unit. Sound acquisition in association with the position of the object, the object position specifying unit for specifying the position of the object related to the sound acquired by the sound acquisition unit, and the object position specified by the object position specifying unit in the image captured by the imaging unit A voice storage unit that stores the voice acquired by the unit.
撮像部の周囲の音声を録音する録音部をさらに備え、音声取得部は、オブジェクト抽出部が抽出したオブジェクトに関連する音声を、録音部が録音した音声から抽出し、オブジェクト位置特定部は、撮像部が撮像した画像における、音声取得部が抽出した音声に関連するオブジェクトの位置を特定し、音声格納部は、オブジェクト位置特定部が特定したオブジェクトの位置に対応づけて、音声取得部が抽出した音声を格納してよい。 A sound recording unit that records sound around the imaging unit is further provided, the sound acquisition unit extracts sound related to the object extracted by the object extraction unit from the sound recorded by the recording unit, and the object position specifying unit captures the image. In the image captured by the unit, the position of the object related to the voice extracted by the voice acquisition unit is specified, and the voice storage unit is extracted by the voice acquisition unit in association with the position of the object specified by the object position specification unit. Audio may be stored.
本発明の第5の形態における撮像方法は、撮像段階と、撮像段階において撮像された画像に含まれるオブジェクトを抽出するオブジェクト抽出段階と、オブジェクト抽出段階において抽出されたオブジェクトに関連する音声を取得する音声取得段階と、撮像段階において撮像された画像における、音声取得段階において取得された音声に関連するオブジェクトの位置を特定するオブジェクト位置特定段階と、オブジェクト位置特定段階において特定されたオブジェクトの位置に対応づけて、音声取得段階が取得した音声を格納する音声格納段階とを備える。 An imaging method according to a fifth aspect of the present invention acquires an imaging stage, an object extraction stage for extracting an object included in an image captured in the imaging stage, and a sound related to the object extracted in the object extraction stage. Corresponding to the sound acquisition stage, the object position specifying stage for specifying the position of the object related to the sound acquired in the sound acquisition stage in the image captured in the imaging stage, and the object position specified in the object position specifying stage In addition, the voice acquisition stage includes a voice storage stage for storing the acquired voice.
本発明の第6の形態によると、画像を撮像する撮像装置用のプログラムであって、撮像装置を、撮像部、撮像部が撮像した画像に含まれるオブジェクトを抽出するオブジェクト抽出部、オブジェクト抽出部が抽出したオブジェクトに関連する音声を取得する音声取得部、撮像部が撮像した画像における、音声取得部が取得した音声に関連するオブジェクトの位置を特定するオブジェクト位置特定部、オブジェクト位置特定部が特定したオブジェクトの位置に対応づけて、音声取得部が取得した音声を格納する音声格納部として機能させる。 According to a sixth aspect of the present invention, there is provided a program for an imaging device that captures an image, the imaging device including an imaging unit, an object extraction unit that extracts an object included in the image captured by the imaging unit, and an object extraction unit The sound acquisition unit that acquires sound related to the object extracted by the object, the object position specifying unit that specifies the position of the object related to the sound acquired by the sound acquisition unit in the image captured by the imaging unit, and the object position specifying unit specifies In association with the position of the object, the voice acquisition unit functions as a voice storage unit that stores the voice acquired.
本発明の第7の形態における出力装置は、画像を格納する画像格納部と、画像格納部が格納している画像及び当該画像における位置に対応づけて、音声を格納する音声格納部と、画像格納部が格納している画像における少なくとも一部を含む部分領域の範囲を取得する部分領域範囲取得部と、画像格納部が格納している画像における部分領域範囲取得部が取得した部分領域の範囲の画像から出力画像を生成する出力画像生成部と、画像格納部が格納している画像において部分領域範囲取得部が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納部が格納している音声から出力音声を生成する出力音声生成部と、出力画像生成部が生成した出力画像と出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部とを備える。 An output device according to a seventh aspect of the present invention includes an image storage unit that stores an image, an audio storage unit that stores audio in association with an image stored in the image storage unit and a position in the image, and an image A partial region range acquisition unit that acquires a partial region range including at least a part of an image stored in the storage unit, and a partial region range acquired by the partial region range acquisition unit in the image stored in the image storage unit An output image generation unit that generates an output image from the image of the image, and a position in the entire image that is a position where the range of the partial region acquired by the partial region range acquisition unit exists in the image stored in the image storage unit The output sound generation unit that generates output sound from the sound stored in the sound storage unit, the output image generated by the output image generation unit, and the output sound generated by the output sound generation unit are output in synchronization. Ku, and an image output unit for outputting in association with the said output image and the output audio.
出力画像生成部は、画像格納部が格納している画像における部分領域範囲取得部が取得した部分領域の範囲の画像と、画像格納部が格納している他の画像とを合成して出力画像を生成し、出力音声生成部は、部分領域範囲取得部が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納部が格納している音声と、出力画像に含まれる他の画像に対応づけて音声格納部が格納している音声とから出力音声を生成し、画像出力部は、出力画像生成部が生成した出力画像と出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力してよい。 The output image generation unit combines the image of the partial region range acquired by the partial region range acquisition unit in the image stored in the image storage unit with the other image stored in the image storage unit, and outputs an image. The output sound generation unit associates the sound stored in the sound storage unit with the position in the entire image that is the position where the range of the partial region acquired by the partial region range acquisition unit exists, and the output image The output sound is generated from the sound stored in the sound storage unit in association with the other images included, and the image output unit outputs the output image generated by the output image generation unit and the output sound generated by the output sound generation unit. And the output image and the output sound may be output in association with each other.
オブジェクトの種類に対応づけて音声を格納する音声データベースをさらに備え、音声格納部は、画像格納部が格納している画像に対応づけられた位置に存在するオブジェクトの種類に対応づけて音声データベースが格納している音声を取得して格納してよい。 An audio database that stores audio in association with the object type is further provided, and the audio storage unit stores the audio database in association with the type of object existing at a position associated with the image stored in the image storage unit. The stored voice may be acquired and stored.
出力音声生成部は、出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部が格納している音声を、より強調した出力音声を生成してよい。出力音声生成部は、出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部が格納している音声を、より大きい音量で合成した出力音声を生成してよい。 The output sound generation unit emphasizes the sound stored in the sound storage unit in association with the position in the entire image where the object occupying a larger area exists in the output image and the image including the object. Voice may be generated. The output sound generation unit outputs the sound stored in the sound storage unit in association with the position in the entire image, which is a position where an object occupying a larger area in the output image, and the image including the object, at a higher volume. A synthesized output speech may be generated.
出力音声生成部は、出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部が格納している音声を、より強調した出力音声を生成してよい。出力音声生成部は、出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部が格納している音声を、より大きい音量で合成した出力音声を生成してよい。 The output sound generation unit stores the sound stored in the sound storage unit in association with the position in the entire image, which is the position where the object in the image arranged in front of the output image exists, and the image including the object, A more emphasized output sound may be generated. The output sound generation unit stores the sound stored in the sound storage unit in association with the position in the entire image, which is the position where the object in the image arranged in front of the output image exists, and the image including the object, Output speech synthesized at a higher volume may be generated.
本発明の第8の形態における出力方法は、画像を格納する画像格納段階と、画像格納段階において格納されている画像及び当該画像における位置に対応づけて、音声を格納する音声格納段階と、画像格納段階において格納されている画像における少なくとも一部を含む部分領域の範囲を取得する部分領域範囲取得段階と、画像格納段階において格納されている画像における部分領域範囲取得段階において取得された部分領域の範囲の画像から出力画像を生成する出力画像生成段階と、画像格納段階において格納されている画像において部分領域範囲取得段階において取得された部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納段階において格納されている音声から出力音声を生成する出力音声生成段階と、出力画像生成段階において生成された出力画像と出力音声生成段階において生成された出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力段階とを備える。 An output method according to an eighth aspect of the present invention includes an image storage stage for storing an image, an audio storage stage for storing audio in association with the image stored at the image storage stage and a position in the image, and an image A partial region range acquisition step for acquiring a partial region range including at least a part of the image stored in the storage step; and a partial region acquired in the partial region range acquisition step for the image stored in the image storage step. Corresponds to the position in the whole image, which is the position where the partial area range acquired in the partial area range acquisition stage exists in the image stored in the image storage stage and the output image generation stage that generates the output image from the range image An output sound generation stage for generating output sound from the sound stored in the sound storage stage, and an output image To output sound generated by the generated output image and the output sound generating step in formation stage is outputted in synchronization, and an image output step of outputting in association with the said output image and the output audio.
本発明の第9の形態によると、画像を出力する出力装置用のプログラムであって、出力装置を、画像を格納する画像格納部、画像格納部が格納している画像及び当該画像における位置に対応づけて、音声を格納する音声格納部、画像格納部が格納している画像における少なくとも一部を含む部分領域の範囲を取得する部分領域範囲取得部、画像格納部が格納している画像における部分領域範囲取得部が取得した部分領域の範囲の画像から出力画像を生成する出力画像生成部、画像格納部が格納している画像において部分領域範囲取得部が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納部が格納している音声から出力音声を生成する出力音声生成部、出力画像生成部が生成した出力画像と出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部として機能させる。 According to a ninth aspect of the present invention, there is provided a program for an output device that outputs an image, wherein the output device is placed in an image storage unit that stores an image, an image stored in the image storage unit, and a position in the image. Correspondingly, an audio storage unit that stores audio, a partial region range acquisition unit that acquires a range of a partial region including at least a part of an image stored in the image storage unit, and an image stored in the image storage unit An output image generation unit that generates an output image from an image of a partial region range acquired by the partial region range acquisition unit, and there is a partial region range acquired by the partial region range acquisition unit in the image stored in the image storage unit An output sound generation unit that generates output sound from the sound stored in the sound storage unit in association with the position in the entire image as a position, an output image generated by the output image generation unit, and an output sound generation unit To an output audio form is outputted in synchronism to function as an image output unit for outputting in association with the said output image and the output audio.
本発明の第10の形態における出力装置は、複数の画像を格納する画像格納部と、画像格納部が格納する複数の画像のそれぞれに対応づけて複数の音声を格納する音声格納部と、画像格納部が格納している複数の画像を合成して出力画像を生成する出力画像生成部と、出力画像生成部が生成した出力画像に含まれる第1画像及び第2画像のそれぞれに対応づけて音声格納部が格納する第1音声及び第2音声を用いて出力音声を生成する出力音声生成部と、出力画像生成部が生成した出力画像と出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部とを備え、出力音声生成部は、出力画像生成部が生成した出力画像において第1画像が第2画像より強調されている場合に、第1音声を第2音声より強調して合成した出力音声を生成する。 An output device according to a tenth aspect of the present invention includes an image storage unit that stores a plurality of images, a sound storage unit that stores a plurality of sounds in association with each of the plurality of images stored in the image storage unit, and an image An output image generation unit that generates an output image by combining a plurality of images stored in the storage unit, and a first image and a second image that are included in the output image generated by the output image generation unit The output sound generation unit that generates the output sound using the first sound and the second sound stored in the sound storage unit, the output image generated by the output image generation unit, and the output sound generated by the output sound generation unit are synchronized. An output unit that outputs the output image and the output sound in association with each other, and the output sound generation unit is configured such that the first image is the second image in the output image generated by the output image generation unit. More emphasized place To generate an output speech in which the first audio stressed to synthesize than the second sound.
出力音声生成部は、出力画像生成部が生成した出力画像において第1画像が第2画像より大きい場合に、第1音声を第2音声より強調して合成した出力音声を生成してよい。出力音声生成部は、出力画像生成部が生成した出力画像において第1画像が第2画像より前面にある場合に、第1音声を第2音声より強調して合成した出力音声を生成してよい。 When the first image is larger than the second image in the output image generated by the output image generation unit, the output sound generation unit may generate an output sound obtained by emphasizing the first sound over the second sound. The output sound generation unit may generate an output sound in which the first sound is emphasized and synthesized from the second sound when the first image is in front of the second image in the output image generated by the output image generation unit. .
出力音声生成部は、出力画像生成部が生成した出力画像において第1画像が第2画像より中央に存在する場合に、第1音声を第2音声より強調して合成した出力音声を生成してよい。出力音声生成部は、出力画像生成部が生成した出力画像において第1画像が第2画像より強調されている場合に、第1音声の音量を第2音声の音量より大きく合成した出力音声を生成してよい。 The output sound generation unit generates an output sound obtained by emphasizing the first sound from the second sound and synthesizing the first image in the output image generated by the output image generation unit. Good. The output sound generation unit generates an output sound in which the volume of the first sound is greater than the volume of the second sound when the first image is emphasized from the second image in the output image generated by the output image generation unit. You can do it.
本発明の第11の形態における出力方法は、複数の画像を格納する画像格納段階と、画像格納段階において格納されている複数の画像のそれぞれに対応づけて複数の音声を格納する音声格納段階と、画像格納段階において格納されている複数の画像を合成して出力画像を生成する出力画像生成段階と、出力画像生成段階において生成された出力画像に含まれる第1画像及び第2画像のそれぞれに対応づけて音声格納段階において格納されている第1音声及び第2音声を用いて出力音声を生成する出力音声生成段階と、出力画像生成段階において生成された出力画像と出力音声生成段階において生成された出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力段階とを備え、出力音声生成段階は、出力画像生成段階において生成された出力画像において第1画像が第2画像より強調されている場合に、第1音声を第2音声より強調して合成した出力音声を生成する。 An output method according to an eleventh aspect of the present invention includes an image storage stage for storing a plurality of images, and an audio storage stage for storing a plurality of sounds in association with each of the plurality of images stored in the image storage stage. An output image generation step of generating an output image by combining a plurality of images stored in the image storage step, and a first image and a second image included in the output image generated in the output image generation step, respectively. An output sound generation step for generating output sound using the first sound and the second sound stored in the sound storage step in association with each other, an output image generated in the output image generation step, and an output sound generation step The output sound generation stage includes an image output stage for outputting the output image and the output sound in association with each other so that the output sound is output in synchronization with each other. First image if it is emphasized from the second image to generate an output speech in which the first audio stressed to synthesize than the second audio in the output image generated by the output image generating step.
本発明の第12の形態によると、画像を出力する出力装置用のプログラムであって、出力装置を、複数の画像を格納する画像格納部、画像格納部が格納する複数の画像のそれぞれに対応づけて複数の音声を格納する音声格納部、画像格納部が格納している複数の画像を合成して出力画像を生成する出力画像生成部、出力画像生成部が生成した出力画像に含まれる第1画像及び第2画像のそれぞれに対応づけて音声格納部が格納する第1音声及び第2音声を用いて出力音声を生成する出力音声生成部、出力画像生成部が生成した出力画像と出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部として機能させ、出力音声生成部に、出力画像生成部が生成した出力画像において第1画像が第2画像より強調されている場合に、第1音声を第2音声より強調して合成した出力音声を生成させる。 According to a twelfth aspect of the present invention, there is provided a program for an output device that outputs an image, the output device corresponding to each of an image storage unit that stores a plurality of images and a plurality of images that the image storage unit stores. A voice storage unit that stores a plurality of sounds, an output image generation unit that generates an output image by combining a plurality of images stored in the image storage unit, and an output image generated by the output image generation unit. An output sound generation unit that generates output sound using the first sound and the second sound stored in the sound storage unit in association with each of the one image and the second image, and the output image and output sound generated by the output image generation unit In order to output the output sound generated by the generation unit in synchronism, the output image is generated by the output sound generation unit by causing the output sound generation unit to function as an image output unit that outputs the output image in association with the output sound. Output image If the Oite first image is emphasized from the second image to generate an output speech the first speech synthesized emphasized than the second sound.
なお上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた発明となりうる。 Note that the above summary of the invention does not enumerate all the necessary features of the present invention, and sub-combinations of these feature groups can also be the invention.
本発明によれば、撮像画像に対してユーザが飽きない音声を出力する出力装置を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the output device which outputs the audio | voice which a user does not get tired with respect to a captured image can be provided.
以下、発明の実施形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。 Hereinafter, the present invention will be described through embodiments of the invention. However, the following embodiments do not limit the claimed invention, and all combinations of features described in the embodiments are inventions. It is not always essential to the solution.
図1は、本発明の一実施形態に係る音声出力システムの一例を示す。音声出力システムは、撮像装置100、出力装置140、及び音声データベース190を備える。この例では、撮像装置100は、海岸に遊びにきている人の画像を撮像する。また、撮像装置100は、撮像装置100の周囲の音をマイクロホン102で録音する。撮像装置100は、撮像装置100が撮像した画像及び録音した音声を、インターネット等の通信回線150を通じて出力装置140に送信する。出力装置140は、撮像装置100から受け取った画像を出力するときに、撮像装置100から受け取った音声を同期させて出力する。このとき、出力装置140は、同じ画像を再度出力するときには、前回出力した音声とは異なる音声を出力する。このため、ユーザ180は、画像を出力する毎に異なる音声を楽しむことができるので、飽きることなく画像を鑑賞することができる。
FIG. 1 shows an example of an audio output system according to an embodiment of the present invention. The audio output system includes an
出力装置140は、例えば、HDTV、電子フォトスタンド、コンピュータ等の、画像及び音声を出力する装置であってよい。また、出力装置140は、音声を文字として出力してもよい。例えば、出力装置140は、液晶等の表示デバイスに画像を表示するときに、音声を文字として表示デバイスに表示させる。なお、出力装置140は、画像を表示させる表示デバイスに文字を表示させてよく、画像を表示させる表示デバイスとは別の表示デバイスに文字を表示させてもよい。他にも、出力装置140は、プリンタ等の画像を印刷する印刷装置であってもよく、画像を印刷するとともに音声を文字として印刷してもよい。
The
撮像装置100は、例えば、デジタルスチルカメラ、カメラ付携帯電話等であってよい。また、撮像装置100は、出力装置140が有する、画像又は音声を出力する機能を有してもよい。また、撮像装置100が画像及び音声データを記録媒体に記録して、出力装置140は当該記録媒体からデータを受け取ることによって、画像及び音声を出力してもよい。また、撮像装置100は、画像及び音声データを、通信回線150に接続されたサーバの、ユーザ180毎にそれぞれ設けられたディレクトリ、例えば撮像装置100と関連付けられたディレクトリに格納してもよい。そして出力装置140は、ユーザ180毎にサーバに格納された画像及び音声データを受け取ってもよい。
The
また、撮像装置100は、撮像した画像に写っている犬、鳥等のオブジェクトを抽出して、抽出したオブジェクトの種類を特定する。そして、撮像装置100は、犬、鳥等のオブジェクトの種類別にオブジェクトの代表的な音声を格納している音声データベース190から、特定した種類のオブジェクトの代表的な音声を取得する。そして、撮像装置100は、取得した音声を、撮像した画像に関連づけて出力装置140に提供する。出力装置140は、ユーザ180による画像の編集指示を受け付ける。例えば、出力装置140は、ユーザ180から指定された複数の画像を、ユーザ180から指定されたレイアウトで合成して出力画像を生成する。このとき、出力装置140は、出力画像の生成に用いた各画像に関連づけられた音声を、出力画像において各画像が占める面積比と同じ音量比で合成された出力音声を生成する。そして、出力装置140は、生成した出力音声を、出力画像の表示と同期して再生する。このため、出力装置140は、例えばユーザ180が犬を含む画像と鳥を含む画像とを合成した出力画像を、犬と鳥の鳴き声が合成された出力音声とともに鑑賞することができる。したがってユーザ180は、編集後の出力画像の画像内容に応じた望ましい音声を、出力装置140を用いて容易に鑑賞することができる。
Further, the
図2は、出力装置140のブロック構成の一例を示す。本図は、同じ画像に対して続けて同じ音声が出力されないように制御する出力装置140のブロック構成の一例を示す。出力装置140は、画像格納部210、画像出力制御部212、画像出力部214、出力指示受付部240、出力許容時間設定部242、出力時刻検出部244、音声格納部220、音声出力制御部222、音声出力部224、出力回数保持部230、目標回数格納部232、出力比率格納部234、及び制限回数格納部236を備える。
FIG. 2 shows an example of a block configuration of the
画像格納部210は、撮像された複数の画像を格納する。画像格納部210は、複数の画像のそれぞれに対応づけて、複数の画像が撮像されたタイミングを示す情報をそれぞれ格納する。具体的には、画像格納部210は、複数の画像のそれぞれに対応づけて、複数の画像が撮像された時刻をそれぞれ格納する。
The
出力指示受付部240は、画像格納部210が格納している複数の画像を画像出力部214に出力させるべき旨の指示を受け付ける。画像出力制御部212は、出力指示受付部240の指示に基づいて、画像格納部210が格納している画像を画像出力部214に出力させる。画像出力部214は、例えば画像を出力する液晶等の表示デバイスであってよく、画像を印刷する印刷デバイスであってもよい。
The output
音声格納部220は、録音された複数の音声を格納する。例えば、音声格納部220は、画像格納部210が格納している複数の画像を撮像した撮像装置100の録音機能によって録音された複数の音声を格納する。具体的には、音声格納部220は、画像格納部210が格納している複数の画像が撮像されたときに撮像装置100の録音機能によって録音された音声、及び画像格納部210が格納している複数の画像が撮像されていないときに撮像装置100の録音機能によって録音された音声を格納する。
The
また、音声格納部220は、複数の音声のそれぞれに対応づけて、複数の音声が録音されたタイミングを示す情報をそれぞれ格納する。具体的には、音声格納部220は、複数の音声のそれぞれに対応づけて、複数の音声が録音された時刻をそれぞれ格納する。なお、録音された時刻とは、録音を開始した時刻であってよく、録音を終了した時刻であってもよい。他にも、音声格納部220は、タイミングを示す情報として、例えば複数の音声の録音を開始した時刻と、当該複数の音声が録音された順番を示す情報を格納してもよい。
In addition, the
音声格納部220は、画像格納部210が格納している複数の画像がそれぞれ撮像された複数の時刻を含む期間である撮像期間を含み、撮像期間より長い期間である録音期間において録音された複数の音声を格納する。なお、音声格納部220が格納している複数の音声の合計の時間は、画像出力部214が1つの画像を出力する予め設定された出力時間に、画像格納部210が格納している複数の画像の数を乗じた時間より長い。
The
音声出力部224は、音声格納部220が格納している音声を出力する。具体的には、音声出力部224は、音声を再生する再生デバイスであってよい。また、音声出力部224は、例えば液晶等の、文字を出力する表示デバイスを含んでよく、音声格納部220が格納している音声を表示デバイスに文字として出力させてもよい。また、音声出力部224は、印字デバイス等の、文字として印刷する印刷デバイスを含んでよく、音声格納部220が格納している音声を文字として印刷してもよい。
The
音声出力制御部222は、画像出力部214が画像を出力しているときに、音声格納部220が格納している複数の音声のうちから第1の音声を選択して音声出力部224に出力させ、画像出力部214が同一の画像を再度出力するときに、音声格納部220が格納している複数の音声のうちから第1の音声とは異なる第2の音声を選択して音声出力部224に出力させる。このため、ユーザ180は画像を出力する毎に異なる音声を楽しむことができる。
The audio
なお、音声出力制御部222は、録音されたタイミングが、画像が撮像されたタイミングから近い順に音声を選択する。例えば、音声出力制御部222は、録音された時刻が、画像が撮像された時刻から近い順に音声を選択する。他にも、音声出力制御部222は、音量が大きい順に音声を選択してもよい。このため、ユーザ180は、画像を撮像したときの特徴的な音から順に音声を楽しむことができる。
Note that the audio
出力回数保持部230は、音声格納部220が格納している複数の音声が音声出力部224に出力された回数である出力回数を計数して保持する。目標回数格納部232は、音声格納部220が格納している複数の音声が音声出力部224に出力されるべき回数である目標回数を格納する。そして、音声出力制御部222は、目標回数から出力回数を引いた値が大きい順に音声を選択してもよい。
The output
出力比率格納部234は、音声格納部220が格納している複数の音声が音声出力部224に出力されるべき回数の比率である出力比率を格納する。そして、音声出力制御部222は、出力回数保持部230が保持する出力回数の比率が、出力比率格納部234が格納している出力比率に近づくように音声を選択してもよい。このため、ユーザ180は、画像を撮像したときの特徴的な音声をより多く楽しむことができる。
The output
なお、音声格納部220は、撮像装置100が撮像動作を受け付ける状態の動作モードである撮像モードの場合、及び撮像装置100が撮像動作を受け付けない状態の動作モードである非撮像モードの場合の双方において録音機能によって録音された複数の音声のそれぞれを、音声が録音されたときの動作モードに対応づけて格納する。そして、音声出力制御部222は、撮像装置100が撮像モードのときに録音された音声を、非撮像モードのときに録音された音声より優先的に選択する。
Note that the
制限回数格納部236は、音声格納部220が格納している音声が音声出力部224から出力されているときに当該音声の出力が制限された場合に、制限された回数を計数して格納する。そして、音声出力制御部222は、制限回数格納部236が格納する回数がより少ない音声をより優先的に選択する。なお、音声出力制御部222は、出力回数保持部230が保持している出力回数と制限回数格納部236が格納している回数とから、音声の出力が制限された制限比率を算出して、算出した制限比率がより小さい音声をより優先的に選択してもよい。
The limited
出力時刻検出部244は、出力指示受付部240が指示を受け付けた時刻を検出する。そして、出力許容時間設定部242は、出力時刻検出部244が検出した時刻と、画像格納部210が格納している複数の画像が撮像された時刻との差に基づいて、画像格納部210が格納している複数の画像が撮像された時刻と、音声格納部220が格納している複数の音声から選択する音声が録音された時刻との差の許容範囲を設定する。そして、音声出力制御部222は、出力許容時間設定部242が設定した許容範囲の範囲内で録音された音声の中から、音声出力部224に出力させる音声を選択する。
The output
具体的には、出力許容時間設定部242は、出力時刻検出部244が検出した時刻と、画像格納部210が格納している複数の画像が撮像された時刻との差がより大きい場合に、画像格納部210が格納している複数の画像が撮像された時刻と、音声格納部220が格納している複数の音声から選択する音声が録音された時刻との差の許容範囲をより大きく設定する。このため、出力装置140はより近い過去に撮像された画像を、撮像時刻の近くで録音された音声の中から選択して出力するので、画像とともに出力される音声がユーザ180にとって不自然なものになることを防ぐことができる。また、出力装置140は、遠い過去の画像を出力するときには、より広い時間範囲で録音された音声の中から選択される音声を出力することができるので、ユーザ180はより特徴的な音声を楽しむことができる。
Specifically, the output allowable
以上説明した出力装置140によれば、同じ画像を再度出力するときでも、複数の音声の中から出力する音声を選択して出力するので、ユーザ180は飽きることなく音声と画像とを鑑賞することができる。また、ユーザ180は、出力装置140に出力させる画像が撮像されたときのより特徴的な音声を、当該画像とともに鑑賞することができる。
According to the
図3は、音声格納部220が格納するデータの一例をテーブル形式で示す。音声格納部220は、複数の音声データに対応付けて、複数の音声データを識別する音声ID及び音声が録音された時刻を格納する。なお、音声が録音された時刻とは、録音開始時刻であってよく、録音終了時刻であってもよい。また、音声が録音された時刻には、音声が録音された日付を含んでよい。
FIG. 3 shows an example of data stored in the
図4は、音声の録音と画像の撮像との時間関係の一例を示す。撮像装置100は、動作モードとして、待機モード、撮像モード、及び出力モードを有する。そして、出力装置140は、撮像装置100が待機モード、撮像モード、出力モードのいずれかである期間に録音した音声を格納する。なお、撮像モードは、撮像装置100が撮像及び/又は録音することのできる動作モードであってよい。例えば、撮像モードとは、撮像装置100がユーザ180によるレリーズボタンの押下によって画像を撮像することができる動作モードであってよい。また、出力モードは、撮像装置100が画像及び/又は音声を出力することのできる動作モードであってよい。例えば、出力モードとは、撮像装置100がメモリ等に格納している画像を読み出して、モニタ画面等の表示デバイスに表示することのできる動作モードであってよい。
FIG. 4 shows an example of the time relationship between audio recording and image capturing. The
なお、撮像装置100は、起動された直後には待機モードに設定される。なお、撮像装置100は、動作モードが待機モード又は出力モードに設定されている場合に、ユーザ180によって撮像動作又は録音動作に関する操作がなされた場合に撮像モードに遷移する。撮像動作に関する操作は、例えば、画像を撮像する操作、シャッタスピード、焦点距離等の、撮像条件を調整する操作等を含む。また、録音動作に関する操作は、例えば、音声を録音する操作、録音感度の調整等の、録音条件を調整する操作等を含む。また、撮像装置100は、動作モードが待機モード又は撮像モードに設定されている場合に、ユーザ180によって撮像装置100の出力動作に関する操作がなされた場合に、出力モードに遷移する。出力動作に関する操作は、例えば、画像を出力する操作、出力する画像を選択する操作、出力速度の調節等の、出力条件を調整する操作等を含む。なお、撮像装置100は、撮像装置100が撮像モード又は出力モードに設定されている場合に、ユーザ180による撮像装置100の操作が所定の期間操作されなかったことを条件として、待機モードに遷移してよい。このように、撮像装置100は、動作モードが撮像モード以外の待機モード又は出力モードに設定されている間においてユーザ180によるレリーズボタンの押下を受け付けると、画像を撮像せずに動作モードを撮像モードに遷移させる。その他、待機モード又は出力モードとは、撮像装置100がユーザ180によるレリーズボタンの押下を受け付けない動作モードであってよい。
Note that the
音声格納部220は、撮像装置100が撮像モードに設定されている期間(t422〜t428)に撮像装置100によって録音された音声#404及び#406を格納している。また、音声格納部220は、撮像装置100が出力モードに設定されている期間(t428〜t430)に撮像装置100によって録音された音声(#408及び#410)、及び撮像装置100が待機モードに設定されている期間(t420〜t422及びt430〜t432)に録音された音声(#402、#403、及び#412)をも格納している。
The
また、音声格納部220は、画像出力部214が1つの画像を出力する予め設定された出力時間(Δt452)に、画像格納部210が格納する複数の画像の数を乗じた時間より長い音声を格納している。例えば、音声格納部220は1つの画像を出力する出力時間がΔt452であるとき、音声格納部220は、時刻t424及び時刻t426に撮像された2つの画像を出力する音声として、例えば音声の長さが出力時間Δt452を持つ2つ以上の音声(#404、#406、#408、#410、#412)及び出力時間Δt452の半分の長さΔt451を有する音声(#402及び#403)を格納している。このため、音声出力制御部222は、画像出力部214から画像が出力される度に、異なる音声を複数の音声の中から選択して出力することができる。
The
なお、音声出力制御部222は、音声出力部224に出力させる音声を選択する場合に、選択される音声の合計の時間が、画像出力部214が1つの画像を出力する予め設定された出力時間となるように、複数の音声を選択して音声出力部224に出力させてもよい。例えば、音声出力制御部222は、時刻t424に撮像された画像が出力されるときに、出力時間Δt452の半分の長さを有する音声#402及び音声#403を選択して、音声出力部224に出力させてよい。また、音声出力制御部222は、出力時間Δt452よりも長い音声を音声格納部220が格納している場合には、当該音声を出力時間Δt452の長さに分割された音声#408又は#410を選択して、音声出力部224に出力させてもよい。
When the audio
なお、画像出力制御部212は、画像出力部214から出力される画像の数と、出力すべき複数の音声の合計の時間に基づいて、画像出力部214から画像を出力させる出力時間を調整してもよい。例えば、ユーザ180から出力すべき複数の音声及び画像を出力指示受付部240が受け付けたときに、画像出力制御部212は、当該出力すべき複数の音声の合計の時間を出力すべき画像の数で除した期間、各画像を画像出力部214から出力させる。
The image
なお、音声出力制御部222は、時刻t424において撮像された画像を出力する旨の指示を出力指示受付部240から受け取った場合に、当該画像が出力される毎に、当該画像が撮像された時刻から近い順に出力する。例えば、音声出力制御部222は、時刻t424に撮像された画像を出力する場合には、音声#404、#406、#402、#403、#408、#410、及び#412の順に選択して、音声出力部224に出力させる。また、音声出力制御部222は、音量が大きい順に、例えば音声#406、#404、#408、#410、#403、#402、#412の順に選択して出力する。なお、音声出力制御部222は、予め定めた閾値音量よりも大きい音量の音声を選択してもよい。このとき、音声出力制御部222は、選択される音声の合計の長さが、予め定めた出力時間よりも長くなるように閾値音量を設定してもよい。
In addition, when the audio
なお、撮像装置100は、撮像装置100の周囲の音声のうちで、予め設定された設定音量より大きい音声を録音してもよい。例えば、撮像装置100は、予め設定された閾値音量より大きい音声を録音してもよい。また、撮像装置100は、録音感度を変更することによって変更された設定音量より大きい音声を録音してもよい。そして、撮像装置100は、当該設定音量に対応づけて録音した音声を格納してよい。そして、画像格納部210は、撮像装置100が録音した音声を設定音量に対応づけて取得して格納する。そして、音声出力制御部222は、音声に対応づけられている設定音量に対する音声の音量の比を算出し、当該比が大きい順に音声を選択してよい。これにより、音声出力制御部222は、設定音量に対する音声の音量の比率がより大きい順に選択することができる。他にも、音声出力制御部222は、録音された音量と録音時の設定音量との差の、設定音量に対する比がより大きい音量の順に、音声を選択してもよい。これにより、音声の音量の絶対値が小さくても、録音時に閾値音量を下げて録音した音声については、出力装置140において再生され易くなる。例えばユーザ180が虫を撮像しながら閾値音量を下げて虫の小さな鳴き声を録音した場合には、小さな虫の鳴き声が出力装置140から再生され易くなる。このように、出力装置140によれば、ユーザ180の撮像時の意図を反映した音声を優先的に再生することができる。
Note that the
図5は、音声格納部220が格納するデータの他の一例をテーブル形式で示す。音声格納部220は、音声データに対応付けて、音声データを識別する音声ID、及び音声が録音された時刻、及びインデックスを格納する。なお、音声格納部220が格納する時刻とは、例えば録音開始時刻であってよい。音声格納部220が格納するインデックスとは、例えば音声が録音されたタイミングを示す値であってよい。例えば、音声格納部220は、録音開始時刻からの、それぞれの音声が録音された順番を示す値を、インデックスとして格納する。音声出力制御部222は、音声格納部220が格納する時刻及びインデックスから、音声が録音されたタイミングを判断する。そして音声出力制御部222は、音声が録音されたタイミングが、画像出力部214から出力される画像が撮像されたタイミングから近い順に音声を選択してもよい。
FIG. 5 shows another example of data stored in the
なお、音声格納部220は、音声データの音量に対応づけて音声データを格納してよい。ここでいう音量とは、音声データの音量の時間的平均値である平均音量であってよく、音声データの最大音量又は最小音量であってもよい。また、音量とは、最大音量と最小音量の平均値である中間音量であってもよい。これにより、音声出力制御部222は、音量の大きさの順で音声を順次選択して再生する場合に、速やかに音声を選択することができる。
Note that the
また、音声格納部220は、音声の音量の時間変化に対応づけて音声データを格納してよい。音量の時間変化とは、音声の音量の時間変化そのものであってよいし、音量の大きさの変化を示す情報(例えば、増加速度又は減少速度等)であってよい。そして、音声出力制御部222は、画像出力部214が表示する画像の大きさ又は大きさの変化に応じて、音声格納部220から音声を選択して音声出力部224に出力させてよい。例えば、音声出力制御部222は、画像出力部214が画像を拡大させながら表示する場合には、音量が増大する音声を音声格納部220が格納する音声から選択して音声出力部224に出力させ、画像出力部214が画像を縮小させながら表示する場合には、音量が減少する音声を音声格納部220が格納する音声から選択して音声出力部224に出力させてよい。
In addition, the
また、音声格納部220は、ステレオ録音された音声について、右及び左の音量の時間変化に対応づけて音声データを格納してよい。右及び左の音量の時間変化とは、右及び左の音量の時間変化そのものであってよいし、音量の大きさの変化を示す情報(例えば、増加速度又は減少程度)であってよい。そして、音声出力制御部222は、画像出力部214が表示する画像の位置又は位置の変化に応じて、音声格納部220から音声を選択して出力してよい。例えば、音声出力制御部222は、画像出力部214が画像を右から左にスライドさせて表示する場合には、左の音量が増大し、かつ、右の音量が減少する音声を、音声格納部220が格納する音声から選択して音声出力部224に出力させてよい。これにより、出力装置140は、表示される画像の位置、大きさに応じた望ましい音楽を再生することができる。
In addition, the
図6は、目標回数格納部232が格納するデータの一例をテーブル形式で示す。目標回数格納部232は、音声格納部220が格納する音声IDに対応づけて、当該音声IDで識別される音声が音声出力部224に出力されるべき回数である目標回数を格納する。なお、出力回数保持部230は、音声格納部220が格納する音声IDに対応づけて、音声出力部224が出力された音声が出力された出力回数を格納している。そして、音声出力制御部222は、目標回数から、出力回数保持部230が保持する出力回数を引いた値を計算して、当該値が大きい順に音声を選択して音声出力部224に出力させる。このため、例えば撮像装置100が撮像したときのより特徴的な音声に対して目標回数をより多く設定することによって、画像を出力するときに、撮像したときの特徴的な音声を多く出力させることができる。そして、撮像したときの特徴的な音声が何度も出力された後には他の音声も時々出力されていくので、ユーザ180は飽きることなく画像を鑑賞することができる。
FIG. 6 illustrates an example of data stored in the target
なお、目標回数格納部232は、ユーザ180によって設定された目標回数を格納してよい。他にも、目標回数格納部232は、音声格納部220が格納する音声の持つ音量に基づいて目標回数を設定してもよい。例えば、目標回数格納部232は、音量のより大きい音声に対して目標回数をより多く設定してもよい。他にも、目標回数格納部232は、人の声が含まれる音声が出力されるべき目標回数を、人の声が含まれない音声が出力されるべき目標回数よりも多く設定してもよい。
The target
また、目標回数格納部232は、複数の音声が出力されるべき回数である目標回数を、画像格納部210が格納する画像毎に格納してよい。具体的には、目標回数格納部232は、画像格納部210が格納する画像ID、音声ID、及び目標回数を格納する。そして音声出力制御部222は、画像出力部214から画像が出力されるときに、当該画像を識別する画像IDに対応付けて格納された複数の音声の中から、目標回数から出力回数を引いた値が大きい順に音声を選択して、音声出力部224に出力させる。
Further, the target
図7は、出力比率格納部234が格納するデータの一例をテーブル形式で示す。出力比率格納部234は、音声格納部220が格納する音声IDに対応づけて、当該音声IDで識別される音声が音声出力部224に出力されるべき回数の比率である出力比率を格納する。そして、音声出力制御部222は、出力回数保持部230が保持する出力回数に基づいてそれぞれの音声が出力された回数の比率を計算して、出力回数の比率が、出力比率格納部234が格納する出力比率に近づくように音声を選択する。このため、例えば撮像装置100によって撮像したときの特徴的な音声に対して出力比率を大きく設定すると、撮像したときのより特徴的な音声をより多く出力させることができる。このため、ユーザ180は、画像を鑑賞ながらいろいろな音声を楽しみつつ、撮像したときの特徴的な音声を何度も楽しむことができる。
FIG. 7 shows an example of data stored in the output
なお、出力比率格納部234は、ユーザ180によって設定された出力比率を格納してよい。他にも、出力比率格納部234は、音声格納部220が格納する音声の持つ音量に基づいて出力比率を設定してもよい。例えば、出力比率格納部234は、音量のより大きい音声を出力する出力比率をより大きく設定してもよい。他にも、出力比率格納部234は、音声格納部220が格納する音声のうち、人の声が含まれる音声が出力されるべき出力比率を、人の声が含まれない音声が出力される出力比率よりも多く設定してもよい。
The output
また、画像格納部210は、複数の音声が出力されるべき回数の比率である出力比率を、画像格納部210が格納する画像毎に格納してよい。具体的には、出力比率格納部234は、画像格納部210が格納する画像ID、音声ID、及び出力比率を格納する。そして音声出力制御部222は、画像出力部214から画像が出力されるときに、出力される画像を識別する画像IDに対応付けて格納された複数の音声の中から、出力比率格納部234が格納する出力比率に出力回数の比率が近づくように音声を選択して、音声出力部224に出力させてよい。
The
なお、制限回数格納部236は、音声格納部220が格納している音声が音声出力部224から出力されているときに音声の出力が制限された制限回数を、画像IDに対応づけて格納する。例えば、制限回数格納部236は、音声出力部224が音声を再生している場合に、ユーザ180による音声の早送り操作等によって音声の再生がキャンセルされる毎に、当該音声の音声IDに対応づけて格納している制限回数を1増加させる。また、制限回数格納部236は、ユーザ180によるボリュームの操作によって音声出力部224が再生している音声の音量が低下させられる毎に、当該音声の音声IDに対応づけて格納する制限回数を増加させてもよい。また、制限回数格納部236は、音声出力部224が再生している音声の音量の低下量に応じて、格納している制限回数を増加させてもよい。例えば、制限回数格納部236は、音声出力部224が再生している音声の音量の低下量が予め定められた基準低下量より大きいことを条件として、格納している制限回数を1増加させてよい。そして、制限回数格納部236は、音量の低下量が予め定められた基準低下量より小さい場合には、音量の低下量に応じて予め定められた増加回数(例えば、0より大きい、1未満の増加回数)だけ、格納している制限回数を増加させてよい。
The limit
そして、目標回数格納部232は、制限回数格納部236が格納する回数がより少ない音声の音声IDに対応づけて格納している目標回数をより大きく設定する。また、出力比率格納部234は、制限回数格納部236が格納する回数がより少ない音声の音声IDに対応づけて格納している出力比率をより大きく設定する。これにより、音声出力制御部222は、制限回数格納部236が格納する回数がより少ない音声を音声出力部224からより高い頻度で出力させることができる。なお、目標回数格納部232又は出力比率格納部234は、制限回数格納部236が格納している回数を出力回数保持部230が保持している出力回数で除した値である制限比率を算出して、算出した制限比率がより小さい音声の音声IDに対応づけて格納する目標回数又は出力比率をより大きく設定してもよい。
Then, the target
なお、目標回数格納部232は、音声格納部220が撮像モードに対応づけて格納している音声の目標回数をより大きく設定して格納してよい。また、出力比率格納部234は、音声格納部220が撮像モードに対応づけて格納している音声の出力比率をより大きく設定して格納してもよい。これにより、音声出力制御部222は、撮像装置100が撮像モードに設定されている間に録音された音声を、待機モード及び出力モードに設定されている間に録音された音声より高い頻度で音声出力部224から出力させることができる。なお、目標回数格納部232及び出力比率格納部234は、制限回数の逆数で示される重み付け係数で重み付けされた目標回数及び出力比率をそれぞれ格納してよい。また、目標回数格納部232及び出力比率格納部234は、撮像モードに対応づけて格納される音声の目標回数及び出力比率を、待機モード又は出力モードに対応づけて格納される音声より大きい重み付け係数で重み付けして算出してもよい。
Note that the target number of
図8は、音声出力制御部222が音声を選択する時間範囲の一例を示す。例えば、ユーザ180から、時刻t804で撮像された画像を出力する指示を時刻t806において受け付けた場合に、出力許容時間設定部242は、出力を指示された時刻と出力される画像が撮像された時刻との差(t806−t804)に基づいて、音声出力部224から出力させる音声を選択させる許容範囲Δt852を決定する。そして、音声出力制御部222は、音声格納部220に格納されている音声のうち、時刻t804からΔt852だけ前又は後の時間範囲(時刻t804―Δt852〜時刻t804+Δt852)に録音された音声(#841〜#849)の中から音声を選択して、音声出力部224に出力させる。
FIG. 8 shows an example of a time range in which the audio
なお、音声出力制御部222は、時刻t804から許容範囲Δt852だけ前の時刻から時刻t804までの間に録音された音声を選択してもよいし、時刻t804から許容範囲Δt852だけ後の時刻までの間に録音された音声を選択してもよい。
Note that the audio
また、出力許容時間設定部242は、画像格納部210が格納する撮像画像が撮像された時刻と、出力する指示を受け付けた時刻との差が大きいほど、音声出力部224から出力させる音声を選択させる許容範囲をより大きく設定する。図8の例では、出力許容時間設定部242は、時刻t804よりも前の時刻t802に撮像された画像を出力するよう時刻t806において指示された場合には、許容範囲Δt852に比べて時間的により長い許容範囲Δt850を設定する。そして、音声出力制御部222は、時刻(t802−Δt850)から時刻(t802+Δt850)までの時間範囲内で録音された音声(#811〜#834)の中から音声を選択して、音声出力部224に出力させる。
Further, the allowable output
なお、出力許容時間設定部242は、撮像された時刻と出力を指示された時刻との間の時間を予め定められた数で割って得られた期間を許容範囲として設定してよい。例えば、音声出力制御部222は、10日前に撮像した画像を出力するときには、撮像した時刻の前後1日の間に録音された音声の中から、出力する音声を選択する。また、小学校3年生のときの運動会の画像を40年後に出力する場合には、撮像した時刻の前後4年の間に録音された音声から選択する。この場合、小学生時代の運動会の様子を鑑賞しながら、小学校への入学式、卒業式等の、より特徴的な音声が出力されるので、ユーザ180はより楽しく画像を鑑賞することができる。
Note that the output allowable
以上説明した出力装置140によれば、同じ画像を再度出力するときでも、複数の音声の中から出力する音声を選択して出力するので、ユーザ180は飽きることなく音声と画像とを容易に楽しむことができる。
According to the
図9は、撮像装置100のブロック構成を示す。図10は、出力装置140の他の実施例におけるブロック構成を示す。本実施例における出力装置140及び撮像装置100は、複数の画像又は画像をトリミングした複数のトリミング画像を用いて生成された出力画像に対して、適切な出力音声を生成して同期して出力する。撮像装置100は、撮像部910、録音部920、オブジェクト抽出部930、オブジェクト位置特定部940、及び音声取得部950を備える。
FIG. 9 shows a block configuration of the
撮像部910は画像を撮像する。オブジェクト抽出部930は、撮像部910が撮像した画像に含まれるオブジェクトを抽出する。オブジェクト位置特定部940は、撮像部910が撮像した画像における、音声取得部950が取得した音声に関連するオブジェクトの位置を特定する。
The
音声取得部950は、オブジェクト抽出部930が抽出したオブジェクトに関連する音声を取得する。具体的には、音声取得部950は、オブジェクト抽出部930が抽出したオブジェクトの種類に関連する音声を、オブジェクトの種類に対応づけて音声を格納している音声データベース190から取得する。そして、音声格納部960は、オブジェクト位置特定部940が特定したオブジェクトの位置に対応づけて、音声取得部950が取得した音声を格納する。
The
なお、録音部920は、撮像部910の周囲の音声を録音する。なお、図1に関連して説明したマイクロホン102は、録音部920の一部であってよい。そして、音声取得部950は、オブジェクト抽出部930が抽出したオブジェクトに関連する音声を、録音部920が録音した音声から抽出してもよい。この場合、オブジェクト位置特定部940は、撮像部910が撮像した画像における、音声取得部950が抽出した音声に関連するオブジェクトの位置を特定する。そして、音声格納部960は、オブジェクト位置特定部940が特定したオブジェクトの位置に対応づけて、音声取得部950が抽出した音声を格納する。
Note that the
出力装置140は、画像格納部1010、オブジェクト抽出部1030、オブジェクト位置特定部1040、音声取得部1050、音声格納部1060、部分領域範囲取得部1020、出力音声生成部1070、出力画像生成部1075、画像出力部1080、及び音声データベース1090を備える。
The
画像格納部1010は、画像を格納する。具体的には、画像格納部1010は、撮像装置100が撮像した撮像画像を撮像装置100から受け取って格納する。音声格納部1060は、画像格納部1010が格納している画像及び当該画像における位置に対応づけて、音声を格納する。具体的には、音声格納部1060は、撮像装置100の音声格納部1060から撮像装置100によって撮像された画像及び当該画像における位置に対応づけて記録された音声を取得して格納する。
The
部分領域範囲取得部1020は、画像格納部1010が格納している画像における少なくとも一部を含む部分領域の範囲を取得する。例えば、部分領域範囲取得部1020は、画像格納部1010が格納している画像に対するユーザ180によるトリミング操作を受け付けて、当該トリミング操作で示されるトリミング範囲を部分領域の範囲として取得する。
The partial area
出力画像生成部1075は、画像格納部1010が格納している画像における部分領域範囲取得部1020が取得した部分領域の範囲の画像から出力画像を生成する。出力音声生成部1070は、画像格納部1010が格納している画像において部分領域範囲取得部1020が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納部1060が格納している音声から出力音声を生成する。
The output
そして、画像出力部1080は、出力画像生成部1075が生成した出力画像と出力音声生成部1070が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する。なお、画像出力部1080は、出力画像と出力音声とを対応づけて記録媒体に記録してよい。また、画像出力部1080は、ディスプレイ等の表示デバイスに出力画像を表示するのと同期して、スピーカ等の再生デバイスから出力音声が出力されるように、出力画像と出力音声とを対応づけて出力してよい。このため、出力装置140は、ユーザ180のトリミング操作によって得られるトリミング画像を表示する場合に、トリミング画像に含まれるオブジェクトの代表的な音声等の適切な音声をトリミング画像に同期して再生することができる。
Then, the image output unit 1080 associates the output image with the output sound so that the output image generated by the output
なお、出力画像生成部1075は、画像格納部1010が格納している画像における部分領域範囲取得部1020が取得した部分領域の範囲の画像と、画像格納部1010が格納している他の画像とを合成して出力画像を生成してよい。この場合、出力音声生成部1070は、部分領域範囲取得部1020が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて音声格納部1060が格納している音声と、出力画像に含まれる他の画像に対応づけて音声格納部1060が格納している音声とから出力音声を生成する。このため、出力装置140は、複数の画像を編集して得られる画像を表示する場合に、編集に用いた画像に関連する音声を合成して得られる音声を、編集後の画像の表示に同期して再生することができる。
Note that the output
音声データベース1090は、オブジェクトの種類に対応づけて音声を格納している。そして、音声格納部1060は、画像格納部1010が格納している画像に対応づけられた位置に存在するオブジェクトの種類に対応づけて音声データベース1090が格納している音声を取得して格納する。なお、音声格納部1060は、画像格納部1010が格納している画像に対応づけられた位置に存在するオブジェクトの種類に対応づけて出力装置140の外部の音声データベース190が格納している音声を取得して格納してもよい。
The
そして、出力音声生成部1070は、出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部1060が格納している音声を、より強調した出力音声を生成してよい。具体的には、出力音声生成部1070は、出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部1060が格納している音声を、より大きい音量で合成した出力音声を生成してよい。
Then, the output
また、出力音声生成部1070は、出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部1060が格納している音声を、より強調した出力音声を生成してよい。具体的には、出力音声生成部1070は、出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部1060が格納している音声を、より大きい音量で合成した出力音声を生成する。
In addition, the output
なお、出力画像生成部1075は、出力画像の生成に用いた複数の画像のそれぞれに対応づけて音声格納部1060が格納している複数の音声が、連続して出力される出力音声を生成してよい。この場合、出力音声生成部1070は、出力画像においてより大きい面積を占めるオブジェクトが存在する位置である全体画像内位置及び当該オブジェクトを含む画像に対応づけて音声格納部1060が格納している音声がより長い時間出力される出力音声を生成してもよい。また、出力音声生成部1070は、出力画像においてより前面に配置された画像内のオブジェクトが存在する位置である全体画像内位置に対応づけて音声格納部1060が格納している音声がより長い時間出力される出力音声を生成してもよい。
Note that the output
以上説明したように、出力装置140は、ユーザ180が自由に画像をトリミングすることによって得られたトリミング画像を用いて作成された画像を、当該画像に含まれるオブジェクトの音声とともに再生することができる。このため、トリミングによって除外されたオブジェクトに関連する音声が出力画像とともに再生される等、不適切な音声が再生されることを未然に防ぐことができる。また、出力装置140は、合成画像においてより強調されたオブジェクトに関連する音声を強調した音声を、合成画像とともにユーザ180に提供することができる。
As described above, the
なお、音声格納部1060は、画像格納部1010が格納する複数の画像のそれぞれに対応づけて複数の音声を格納してよい。そして、出力画像生成部1075は、画像格納部1010が格納している複数の画像を合成して出力画像を生成してよい。例えば、出力画像生成部1075は、ユーザ180が選択した複数の画像を、ユーザ180から指定されたレイアウトで配置することによって出力画像を生成する。この場合、出力音声生成部1070は、出力画像生成部1075が生成した出力画像に含まれる第1画像及び第2画像のそれぞれに対応づけて音声格納部1060が格納する第1音声及び第2音声を用いて出力音声を生成する。このとき、出力音声生成部1070は、出力画像生成部1075が生成した出力画像において第1画像が第2画像より強調されている場合に、第1音声を第2音声より強調して合成した出力音声を生成する。このため、出力装置140は、ユーザ180が出力画像において強調してレイアウトした画像に関連する音声が強調された出力音声を、出力画像に同期して出力することができる。
Note that the
具体的には、出力音声生成部1070は、出力画像生成部1075が生成した出力画像において第1画像が第2画像より大きい場合に、第1音声を第2音声より強調して合成した出力音声を生成する。また、出力音声生成部1070は、出力画像生成部1075が生成した出力画像において第1画像が第2画像より前面にある場合に、第1音声を第2音声より強調して合成した出力音声を生成する。また、出力音声生成部1070は、出力画像生成部1075が生成した出力画像において第1画像が第2画像より中央に存在する場合に、第1音声を第2音声より強調して合成した出力音声を生成する。なお、出力音声生成部1070は、出力画像生成部1075が生成した出力画像において第1画像が第2画像より強調されている場合に、第1音声の音量を第2音声の音量より大きく合成した出力音声を生成してよい。
Specifically, the output
図11は、音声データベース1090が格納するデータの一例を示す図である。音声データベース1090は、オブジェクトの種類及び音声データを格納する。例えば音声データベース1090は、犬、鳥、波等のオブジェクトの種類のそれぞれに対応づけて、オブジェクト毎の代表的な音声である犬の鳴き声、鳥の鳴き声、波の音等を格納する。なお、音声データベース190は、本図の例における音声データベース1090と同様のデータを格納してよい。
FIG. 11 is a diagram illustrating an example of data stored in the
図12は、画像格納部1010が格納している画像1200の一例を示す図である。本図の画像1200を例に挙げて、音声取得部1050が音声を取得する場合の動作を説明すると、オブジェクト抽出部1030は、画像1200から、エッジ抽出等によって犬1210、鳥1220等のオブジェクトの輪郭を抽出する。そして、オブジェクト抽出部1030は、犬、鳥等のオブジェクトの種類毎に予め記憶しているオブジェクトのパターンと、抽出した輪郭とのパターンマッチングによって、予め定められた一致度より高く、かつ、最も一致度の高いオブジェクトの種類を特定する。そして、音声取得部1050は、特定したオブジェクトの種類に対応づけて音声データベース1090又は音声データベース190が格納する音声を取得する。
FIG. 12 is a diagram illustrating an example of an
なお、撮像装置100の音声取得部950は、音声取得部1050と同様の動作によって、撮像部910が撮像した画像のオブジェクトに対応づけて音声データベース190から音声を取得することができる。また、音声取得部950は、オブジェクトの種類に対応づけて音声の特徴量を予め記憶しており、記憶している音声の特徴量と、録音部920によって録音された音声の特徴量とを比較して、予め定められた一致度より高く、かつ、最も一致度の高い特徴量を持つ音声を、録音部920によって録音された音声から抽出してもよい。なお、音声の特徴量とは、音声の特徴的な周波数スペクトルであったり、当該周波数スペクトルの特徴的な時間変化パターンであってよい。
Note that the
図13は、音声格納部960又は音声格納部1060が格納するデータの一例を示す。以下、音声格納部1060が格納するデータを例に挙げて説明すると、音声格納部1060は、撮像部910が撮像した画像を識別する画像ID、当該画像に含まれるオブジェクトの位置である全体画像内位置、及び音声取得部1050が取得した音声データを格納する。なお、オブジェクト位置特定部1040は、オブジェクト抽出部1030が抽出したオブジェクトの重心位置を特定する。そして、音声格納部1060は、オブジェクト位置特定部1040が特定したオブジェクトの重心位置を、オブジェクトの全体画像内位置として格納する。なお、音声格納部1060は、全体画像内位置を示す、画像の横幅及び縦幅の長さに対する相対値を格納してよい。具体的には、音声格納部1060は、画像の左下角を座標の原点として、画像の横幅及び縦幅の長さに対する相対的な座標を格納する。
FIG. 13 shows an example of data stored in the
なお、音声格納部1060は、全体画像内位置に対応づけることなく、画像に対応づけて音声を格納してよい。本図の例では、音声格納部1060は、画像ID#AAAに対応づけて音声データ13を格納しており、画像ID#BBBに対応づけて音声データ22を格納している。この場合、音声格納部1060は、音声データ13及び22に対する全体画像内位置として、全体画像内位置に対応づけられていない旨を示す値(NULL値等)を格納する。以上、音声格納部1060が格納するデータについて説明したが、音声格納部960は、音声格納部1060が格納するデータと同様のデータを格納してよい。
Note that the
図14は、出力画像生成部1075が生成する出力画像の一例を示す。本図の例では、出力装置140は、画像ID#AAAで識別される画像1200と、画像ID#BBBで示される画像1400とから出力画像1450を生成して表示する。この例では、出力画像生成部1075は、ユーザ180からのトリミング指示によって部分領域範囲取得部1020が取得した範囲の部分画像1411及び部分画像1412を、ユーザ180の指示で示されるレイアウトで配置して出力画像1450を生成する。
FIG. 14 shows an example of an output image generated by the output
このとき、出力音声生成部1070は、画像1200及び1400が出力画像1450において含まれる画像の面積を算出する。そして、出力音声生成部1070は、画像1200及び1400に対応づけて音声格納部1060が格納する音声13及び22の音量を、それぞれの画像の出力画像1450における面積に比例する大きさの音量で合成して出力音声を生成する。これにより、出力画像1450において面積の大きい画像1400(#BBB)を撮像したときに録音された子供の声等を含む音声(音声データ22)が大きく再生される。したがって、出力画像1450に含まれる面積の小さい画像1200(#AAA)を撮像したときに録音された音声が大きく再生されることがないので、ユーザ180は違和感なく出力画像1450を鑑賞することができる。
At this time, the output
また、出力音声生成部1070は、出力画像1450におけるオブジェクトの面積に応じて、出力音声を生成してもよい。具体的には、出力音声生成部1070は、部分領域範囲取得部1020によって取得された範囲に含まれるオブジェクト(例えば、犬を示すオブジェクト1421、海を示すオブジェクト1422等)の、出力画像における面積を算出する。そして、出力音声生成部1070は、各オブジェクト1421、1422の全体画像内位置、及び画像1200及び1400の画像IDに対応づけて音声格納部1060が格納する音声データ11及び21を取得して、取得した音声データ11及び12を、オブジェクトの面積に比例した大きさの音量で合成して出力音声を生成する。なお、出力音声生成部1070は、出力音声そのものに代えて、出力音声に用いる音声データを識別する識別情報及び音声データの音量の大きさを示す音量情報とを、出力音声として生成してもよい。以上説明したように、出力装置140によって出力画像1450が表示されるとき、例えば波の音の音声が犬の鳴き声より大きい音量で再生される。このように、ユーザ180は、出力装置140を用いることによって、ユーザ180が自由に編集して作製した画像を、当該画像の画像内容に対して違和感を感じることのない音声とともに鑑賞することができる。
Further, the output
なお、本図において、出力音声生成部1070が、出力画像1450における画像又はオブジェクトの面積の大きさに応じた音量で音声を合成する場合について説明したが、出力音声生成部1070は、面積に大きさの他に、画像又はオブジェクトの出力画像1450における配置に応じて音声の合成比率を決定してよい。例えば、出力音声生成部1070は、出力画像1450の中央との間の距離の逆数に比例する重み付け係数で重み付けされた音声の合成比率で音声を合成してよい。また、出力音声生成部1070は、出力画像1450においてより前面に配置される画像又はオブジェクトに対応する音声の重み付け係数をより大きくしてよい。なお、音声の合成比率とは、本図に関連して説明したような音量の合成比率であってよいし、音声を再生する時間に対する合成比率であってもよい。また、出力音声生成部1070は、出力画像1450における画像又はオブジェクトの面積が最も大きい画像又はオブジェクトに対応する音声を、出力音声として生成してよい。その他、出力音声生成部1070は、出力画像1450における画像又はオブジェクトのうち、最も前面に配置された画像又は画像内のオブジェクトに対応する音声を、出力音声として生成してもよい。
In this figure, the case where the output
図15は、撮像装置100及び出力装置140に係るコンピュータ1500のハードウェア構成の一例を示す。コンピュータ1500は、ホスト・コントローラ1582により相互に接続されるCPU1505、RAM1520、グラフィック・コントローラ1575、及び表示装置1580を有するCPU周辺部と、入出力コントローラ1584によりホスト・コントローラ1582に接続される通信インターフェイス1530、ハードディスクドライブ1540、及びCD−ROMドライブ1560を有する入出力部と、入出力コントローラ1584に接続されるROM1510、フレキシブルディスク・ドライブ1550、及び入出力チップ1570を有するレガシー入出力部とを備える。
FIG. 15 illustrates an example of a hardware configuration of a
ホスト・コントローラ1582は、RAM1520と、高い転送レートでRAM1520をアクセスするCPU1505、及びグラフィック・コントローラ1575とを接続する。CPU1505は、ROM1510、及びRAM1520に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ1575は、CPU1505等がRAM1520内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置1580上に表示させる。これに代えて、グラフィック・コントローラ1575は、CPU1505等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
The
入出力コントローラ1584は、ホスト・コントローラ1582と、比較的高速な入出力装置であるハードディスクドライブ1540、通信インターフェイス1530、CD−ROMドライブ1560を接続する。ハードディスクドライブ1540は、コンピュータ1500内のCPU1505が使用するプログラム、及びデータを格納する。通信インターフェイス1530は、ネットワークを介して出力装置140と通信し、出力装置140にプログラム、及びデータを提供する。CD−ROMドライブ1560は、CD−ROM1595からプログラムまたはデータを読み取り、RAM1520を介してハードディスクドライブ1540、及び通信インターフェイス1530に提供する。
The input /
また、入出力コントローラ1584には、ROM1510と、フレキシブルディスク・ドライブ1550、及び入出力チップ1570の比較的低速な入出力装置とが接続される。ROM1510は、コンピュータ1500が起動時に実行するブート・プログラムや、コンピュータ1500のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ1550は、フレキシブルディスク1590からプログラムまたはデータを読み取り、RAM1520を介してハードディスクドライブ1540、及び通信インターフェイス1530に提供する。入出力チップ1570は、フレキシブルディスク・ドライブ1550や、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を接続する。
The input /
RAM1520を介して通信インターフェイス1530に提供されるプログラムは、フレキシブルディスク1590、CD−ROM1595、またはICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、RAM1520を介して通信インターフェイス1530に提供され、ネットワークを介して出力装置140に送信される。出力装置140に送信されたプログラムは出力装置140においてインストールされて実行される。
A program provided to the communication interface 1530 via the
出力装置140にインストールされて実行されるプログラムは、出力装置140を、図1から図14に関連して説明した出力装置140として機能させる。また、撮像装置100にインストールされて実行されるプログラムは、撮像装置100を、図1から図14に関連して説明した撮像装置100として機能させる。
The program installed and executed in the
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1590、CD−ROM1595の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスクまたはRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1500に提供してもよい。
The program shown above may be stored in an external storage medium. As the storage medium, in addition to the
以上、実施形態を用いて本発明を説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更又は改良を加えることができる。そのような変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。 As mentioned above, although this invention was demonstrated using embodiment, the technical scope of this invention is not limited to the range as described in the said embodiment. Various modifications or improvements can be added to the above embodiment. It is apparent from the scope of the claims that the embodiments added with such changes or improvements can be included in the technical scope of the present invention.
100 撮像装置
140 出力装置
150 通信回線
180 ユーザ
190 音声データベース
210 画像格納部
212 画像出力制御部
214 画像出力部
220 音声格納部
222 音声出力制御部
224 音声出力部
230 出力回数保持部
232 目標回数格納部
234 出力比率格納部
236 制限回数格納部
240 出力指示受付部
242 出力許容時間設定部
244 出力時刻検出部
910 撮像部
920 録音部
930 オブジェクト抽出部
940 オブジェクト位置特定部
950 音声取得部
960 音声格納部
1010 画像格納部
1020 部分領域範囲取得部
1030 オブジェクト抽出部
1040 オブジェクト位置特定部
1050 音声取得部
1060 音声格納部
1070 出力音声生成部
1075 出力画像生成部
1080 画像出力部
1090 音声データベース
100
Claims (36)
前記画像格納部が格納している画像を出力する画像出力部と、
前記画像格納部が格納している画像を前記画像出力部に出力させる画像出力制御部と、
録音された複数の音声を格納する音声格納部と、
前記音声格納部が格納している音声を出力する音声出力部と、
前記画像出力部が画像を出力しているときに、前記音声格納部が格納している複数の音声のうちから第1の音声を選択して前記音声出力部に出力させ、前記画像出力部が同一の画像を再度出力するときに、前記音声格納部が格納している複数の音声のうちから前記第1の音声とは異なる第2の音声を選択して前記音声出力部に出力させる音声出力制御部と
を備える出力装置。 An image storage unit for storing a plurality of captured images;
An image output unit for outputting an image stored in the image storage unit;
An image output control unit that causes the image output unit to output an image stored in the image storage unit;
A voice storage unit for storing a plurality of recorded voices;
An audio output unit for outputting the audio stored in the audio storage unit;
When the image output unit is outputting an image, a first sound is selected from a plurality of sounds stored in the sound storage unit and is output to the sound output unit, and the image output unit is When outputting the same image again, an audio output for selecting the second audio different from the first audio from the plurality of audios stored in the audio storage unit and outputting the selected second audio to the audio output unit An output device comprising a control unit.
請求項1に記載の出力装置。 The output device according to claim 1, wherein the sound storage unit stores a plurality of sounds recorded by a recording function of an imaging device that has captured a plurality of images stored in the image storage unit.
請求項2に記載の出力装置。 The sound storage unit captures the sound recorded by the recording function when a plurality of images stored in the image storage unit are captured, and the plurality of images stored in the image storage unit. The output device according to claim 2, wherein the sound recorded by the recording function when there is not is stored.
請求項2に記載の出力装置。 The sound storage unit includes an imaging period that is a period including a plurality of times when the plurality of images stored in the image storage unit are respectively captured, and was recorded in a recording period that is longer than the imaging period. The output device according to claim 2 which stores a plurality of voices.
請求項1に記載の出力装置。 The total time of the plurality of sounds stored in the sound storage unit is a preset output time for the image output unit to output one image. The output device according to claim 1, wherein the output device is longer than a time multiplied by a number.
前記音声格納部は、前記複数の音声のそれぞれに対応づけて、前記複数の音声が録音されたタイミングを示す情報をそれぞれ格納し、
前記音声出力制御部は、録音されたタイミングが、画像が撮像されたタイミングから近い順に音声を選択する
請求項1に記載の出力装置。 The image storage unit stores information indicating timing at which the plurality of images are captured in association with each of the plurality of images,
The sound storage unit stores information indicating timings when the plurality of sounds are recorded in association with the plurality of sounds, respectively.
The output device according to claim 1, wherein the audio output control unit selects audio in the order in which recording timing is closer to timing at which an image is captured.
前記音声格納部は、前記複数の音声のそれぞれに対応づけて、前記複数の音声が録音された時刻をそれぞれ格納し、
前記音声出力制御部は、録音された時刻が、画像が撮像された時刻から近い順に音声を選択する
請求項6に記載の出力装置。 The image storage unit stores times when the plurality of images are captured in association with the plurality of images,
The voice storage unit stores the times at which the plurality of voices were recorded in association with each of the plurality of voices,
The output device according to claim 6, wherein the sound output control unit selects the sound in the order in which the recorded time is closer to the time when the image is captured.
請求項1に記載の出力装置。 The output device according to claim 1, wherein the sound output control unit selects sound in descending order of volume.
前記音声格納部が格納している複数の音声が前記音声出力部に出力されるべき回数である目標回数を格納する目標回数格納部と
をさらに備え、
前記音声出力制御部は、前記目標回数から前記出力回数を引いた値が大きい順に音声を選択する
請求項1に記載の出力装置。 An output number holding unit that counts and holds the number of times that the plurality of sounds stored in the sound storage unit are output to the sound output unit;
A target number storage unit that stores a target number of times that a plurality of sounds stored in the sound storage unit should be output to the sound output unit;
The output device according to claim 1, wherein the voice output control unit selects voices in descending order of a value obtained by subtracting the number of outputs from the target number of times.
前記音声格納部が格納している複数の音声が前記音声出力部に出力されるべき回数の比率である出力比率を格納する出力比率格納部と
をさらに備え、
前記音声出力制御部は、前記出力回数保持部が保持する出力回数の比率が、前記出力比率格納部が格納している出力比率に近づくように音声を選択する
請求項1に記載の出力装置。 An output number holding unit that counts and holds the number of times that the plurality of sounds stored in the sound storage unit are output to the sound output unit;
An output ratio storage unit that stores an output ratio that is a ratio of the number of times that the plurality of voices stored in the voice storage unit should be output to the voice output unit;
The output device according to claim 1, wherein the sound output control unit selects a sound such that a ratio of the number of outputs held by the output number holding unit approaches an output ratio stored in the output ratio storage unit.
前記音声出力制御部は、前記撮像装置が撮像モードのときに録音された音声を、非撮像モードのときに録音された音声より優先的に選択する
請求項2に記載の出力装置。 The sound storage unit is configured in both the imaging mode, which is an operation mode in which the imaging device accepts an imaging operation, and the non-imaging mode, which is an operation mode in which the imaging device does not accept an imaging operation. Each of the multiple voices recorded by the recording function is stored in association with the operation mode when the voice is recorded,
The output device according to claim 2, wherein the audio output control unit preferentially selects audio recorded when the imaging device is in an imaging mode over audio recorded when the imaging device is in a non-imaging mode.
をさらに備え、
前記音声出力制御部は、前記制限回数格納部が格納する回数がより少ない音声をより優先的に選択する
請求項1に記載の出力装置。 When the voice stored in the voice storage unit is output from the voice output unit and the output of the voice is limited, the voice storage unit further includes a limited number storage unit that counts and stores the limited number of times. ,
The output device according to claim 1, wherein the sound output control unit preferentially selects a sound with a smaller number of times stored by the limit number storage unit.
前記出力指示受付部が指示を受け付けた時刻を検出する出力時刻検出部と
をさらに備え、
前記画像格納部は、前記複数の画像のそれぞれに対応づけて、前記複数の画像が撮像された時刻を格納し、
前記音声格納部は、前記複数の音声のそれぞれに対応づけて、前記複数の音声が録音された時刻を格納し、
前記音声出力制御部は、前記出力時刻検出部が検出した時刻と、前記画像格納部が格納している複数の画像が撮像された時刻との差に基づいて、前記画像格納部が格納している複数の画像が撮像された時刻と、前記音声格納部が格納している複数の音声から選択する音声が録音された時刻との差の許容範囲を設定する
請求項1に記載の出力装置。 An output instruction receiving unit that receives an instruction to output a plurality of images stored in the image storage unit to the image output unit;
An output time detection unit that detects a time at which the output instruction reception unit has received the instruction;
The image storage unit stores the time when the plurality of images are captured in association with each of the plurality of images.
The voice storage unit stores the time when the plurality of voices were recorded in association with each of the plurality of voices,
The audio output control unit stores the image storage unit based on a difference between a time detected by the output time detection unit and a time when a plurality of images stored in the image storage unit are captured. The output device according to claim 1, wherein an allowable range of a difference between a time at which a plurality of images are captured and a time at which a sound selected from a plurality of sounds stored in the sound storage unit is recorded is set.
請求項13に記載の出力装置。 The audio output control unit stores the image storage unit when the difference between the time detected by the output time detection unit and the time when the plurality of images stored in the image storage unit are captured is larger. 14. The allowable range of a difference between a time when a plurality of images captured is recorded and a time when a sound selected from a plurality of sounds stored in the sound storage unit is recorded is set larger. Output device.
前記画像格納段階において格納される画像を出力する画像出力段階と、
前記画像格納段階において格納される画像を前記画像出力段階において出力させる画像出力制御段階と、
録音された複数の音声を格納する音声格納段階と、
前記音声格納段階において格納される音声を出力する音声出力段階と、
前記画像出力段階において画像が出力されているときに、前記音声格納段階において格納される複数の音声のうちから第1の音声を選択して前記音声出力段階において出力させ、前記画像出力段階が同一の画像を再度出力するときに、前記音声格納段階において格納される複数の音声のうちから前記第1の音声とは異なる第2の音声を選択して前記音声出力段階において出力させる音声出力制御段階と
を備える出力方法。 An image storage stage for storing a plurality of captured images;
An image output stage for outputting an image stored in the image storage stage;
An image output control step for outputting the image stored in the image storage step in the image output step;
A voice storage stage for storing a plurality of recorded voices;
An audio output stage for outputting the audio stored in the audio storage stage;
When an image is output in the image output step, a first sound is selected from a plurality of sounds stored in the sound storage step and is output in the sound output step, and the image output step is the same A sound output control step of selecting a second sound different from the first sound from the plurality of sounds stored in the sound storage step and outputting the second image in the sound output step when the image is output again An output method comprising:
撮像された複数の画像を格納する画像格納部、
前記画像格納部が格納している画像を出力する画像出力部、
前記画像格納部が格納している画像を前記画像出力部に出力させる画像出力制御部、
録音された複数の音声を格納する音声格納部、
前記音声格納部が格納している音声を出力する音声出力部、
前記画像出力部が画像を出力しているときに、前記音声格納部が格納している複数の音声のうちから第1の音声を選択して前記音声出力部に出力させ、前記画像出力部が同一の画像を再度出力するときに、前記音声格納部が格納している複数の音声のうちから前記第1の音声とは異なる第2の音声を選択して前記音声出力部に出力させる音声出力制御部
として機能させるプログラム。 An output device program for outputting an image, an image storage unit for storing a plurality of images captured by the output device;
An image output unit for outputting an image stored in the image storage unit;
An image output control unit that causes the image output unit to output an image stored in the image storage unit;
A voice storage unit for storing a plurality of recorded voices;
An audio output unit for outputting the audio stored in the audio storage unit;
When the image output unit is outputting an image, a first sound is selected from a plurality of sounds stored in the sound storage unit and is output to the sound output unit, and the image output unit is When outputting the same image again, an audio output for selecting the second audio different from the first audio from the plurality of audios stored in the audio storage unit and outputting the selected second audio to the audio output unit A program that functions as a control unit.
前記撮像部が撮像した画像に含まれるオブジェクトを抽出するオブジェクト抽出部と、
前記オブジェクト抽出部が抽出したオブジェクトに関連する音声を取得する音声取得部と、
前記撮像部が撮像した画像における、前記音声取得部が取得した音声に関連するオブジェクトの位置を特定するオブジェクト位置特定部と、
前記オブジェクト位置特定部が特定したオブジェクトの位置に対応づけて、前記音声取得部が取得した音声を格納する音声格納部と
を備える撮像装置。 An imaging unit;
An object extraction unit that extracts an object included in the image captured by the imaging unit;
A sound acquisition unit that acquires sound related to the object extracted by the object extraction unit;
An object position specifying unit for specifying the position of an object related to the sound acquired by the sound acquisition unit in the image captured by the image capturing unit;
An imaging apparatus comprising: a sound storage unit that stores the sound acquired by the sound acquisition unit in association with the position of the object specified by the object position specifying unit.
をさらに備え、
前記音声取得部は、前記オブジェクト抽出部が抽出したオブジェクトに関連する音声を、前記録音部が録音した音声から抽出し、
前記オブジェクト位置特定部は、前記撮像部が撮像した画像における、前記音声取得部が抽出した音声に関連するオブジェクトの位置を特定し、
前記音声格納部は、前記オブジェクト位置特定部が特定したオブジェクトの位置に対応づけて、前記音声取得部が抽出した音声を格納する
請求項17に記載の撮像装置。 A recording unit for recording sound around the imaging unit;
The voice acquisition unit extracts the voice related to the object extracted by the object extraction unit from the voice recorded by the recording unit,
The object position specifying unit specifies a position of an object related to the sound extracted by the sound acquisition unit in the image picked up by the image pickup unit,
The imaging device according to claim 17, wherein the sound storage unit stores the sound extracted by the sound acquisition unit in association with the position of the object specified by the object position specifying unit.
前記撮像段階において撮像された画像に含まれるオブジェクトを抽出するオブジェクト抽出段階と、
前記オブジェクト抽出段階において抽出されたオブジェクトに関連する音声を取得する音声取得段階と、
前記撮像段階において撮像された画像における、前記音声取得段階において取得された音声に関連するオブジェクトの位置を特定するオブジェクト位置特定段階と、
前記オブジェクト位置特定段階において特定されたオブジェクトの位置に対応づけて、前記音声取得段階が取得した音声を格納する音声格納段階と
を備える撮像方法。 Imaging stage;
An object extraction stage for extracting an object included in the image captured in the imaging stage;
A sound acquisition step of acquiring sound related to the object extracted in the object extraction step;
An object position specifying step for specifying a position of an object related to the sound acquired in the sound acquisition step in the image picked up in the image pickup step;
An imaging method comprising: a sound storing step of storing the sound acquired in the sound acquiring step in association with the position of the object specified in the object position specifying step.
撮像部、
前記撮像部が撮像した画像に含まれるオブジェクトを抽出するオブジェクト抽出部、
前記オブジェクト抽出部が抽出したオブジェクトに関連する音声を取得する音声取得部、
前記撮像部が撮像した画像における、前記音声取得部が取得した音声に関連するオブジェクトの位置を特定するオブジェクト位置特定部、
前記オブジェクト位置特定部が特定したオブジェクトの位置に対応づけて、前記音声取得部が取得した音声を格納する音声格納部
として機能させるプログラム。 A program for an imaging device that captures an image, the imaging device being an imaging unit,
An object extraction unit that extracts an object included in the image captured by the imaging unit;
A sound acquisition unit for acquiring sound related to the object extracted by the object extraction unit;
An object position specifying unit for specifying the position of an object related to the sound acquired by the sound acquisition unit in the image captured by the image capturing unit;
A program that functions as a sound storage unit that stores the sound acquired by the sound acquisition unit in association with the position of the object specified by the object position specifying unit.
前記画像格納部が格納している画像及び当該画像における位置に対応づけて、音声を格納する音声格納部と、
前記画像格納部が格納している画像における少なくとも一部を含む部分領域の範囲を取得する部分領域範囲取得部と、
前記画像格納部が格納している画像における前記部分領域範囲取得部が取得した部分領域の範囲の画像から出力画像を生成する出力画像生成部と、
前記画像格納部が格納している画像において前記部分領域範囲取得部が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて前記音声格納部が格納している音声から出力音声を生成する出力音声生成部と、
前記出力画像生成部が生成した出力画像と前記出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部と
を備える出力装置。 An image storage unit for storing images;
An audio storage unit that stores audio in association with an image stored in the image storage unit and a position in the image;
A partial region range acquisition unit for acquiring a range of a partial region including at least a part of the image stored in the image storage unit;
An output image generation unit that generates an output image from an image of a partial region range acquired by the partial region range acquisition unit in the image stored in the image storage unit;
Output from the sound stored in the sound storage unit in association with the position in the entire image where the partial region range acquired by the partial region range acquisition unit exists in the image stored in the image storage unit An output sound generation unit for generating sound;
An image output unit that outputs the output image and the output sound in association with each other so that the output image generated by the output image generation unit and the output sound generated by the output sound generation unit are output in synchronization with each other; Output device provided.
前記出力音声生成部は、前記部分領域範囲取得部が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて前記音声格納部が格納している音声と、前記出力画像に含まれる他の画像に対応づけて前記音声格納部が格納している音声とから出力音声を生成し、
前記画像出力部は、前記出力画像生成部が生成した出力画像と前記出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する
請求項21に記載の出力装置。 The output image generation unit synthesizes the image of the partial region range acquired by the partial region range acquisition unit in the image stored in the image storage unit with another image stored in the image storage unit. To generate an output image,
The output sound generation unit associates the sound stored in the sound storage unit with the position in the entire image that is the position where the range of the partial region acquired by the partial region range acquisition unit exists, and the output image Generating an output sound from the sound stored in the sound storage unit in association with another image included;
The image output unit outputs the output image and the output sound in association with each other so that the output image generated by the output image generation unit and the output sound generated by the output sound generation unit are output in synchronization with each other. The output device according to claim 21.
をさらに備え、
前記音声格納部は、前記画像格納部が格納している画像に対応づけられた位置に存在するオブジェクトの種類に対応づけて前記音声データベースが格納している音声を取得して格納する
請求項22に記載の出力装置。 A voice database that stores voices in association with object types;
23. The voice storage unit acquires and stores the voice stored in the voice database in association with the type of object existing at a position associated with the image stored in the image storage unit. Output device according to.
請求項23に記載の出力装置。 The output sound generation unit further includes the sound stored in the sound storage unit in association with the position in the entire image where the object occupying a larger area in the output image and the image including the object are stored. 24. The output device according to claim 23, wherein the output sound is emphasized.
請求項24に記載の出力装置。 The output sound generation unit further includes the sound stored in the sound storage unit in association with the position in the entire image where the object occupying a larger area in the output image and the image including the object are stored. The output device according to claim 24, wherein the output sound is synthesized with a high volume.
請求項24に記載の出力装置。 The output sound generation unit stores the position in the entire image, which is the position where the object in the image arranged in front of the output image exists, and the image including the object in association with the image. 25. The output device according to claim 24, wherein an output sound in which the sound is emphasized is generated.
請求項24に記載の出力装置。 The output sound generation unit stores the position in the entire image, which is the position where the object in the image arranged in front of the output image exists, and the image including the object in association with the image. The output device according to claim 24, wherein an output sound is generated by synthesizing the sound at a larger volume.
前記画像格納段階において格納されている画像及び当該画像における位置に対応づけて、音声を格納する音声格納段階と、
前記画像格納段階において格納されている画像における少なくとも一部を含む部分領域の範囲を取得する部分領域範囲取得段階と、
前記画像格納段階において格納されている画像における前記部分領域範囲取得段階において取得された部分領域の範囲の画像から出力画像を生成する出力画像生成段階と、
前記画像格納段階において格納されている画像において前記部分領域範囲取得段階において取得された部分領域の範囲が存在する位置である全体画像内位置に対応づけて前記音声格納段階において格納されている音声から出力音声を生成する出力音声生成段階と、
前記出力画像生成段階において生成された出力画像と前記出力音声生成段階において生成された出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力段階と
を備える出力方法。 An image storage stage for storing images;
A sound storing step of storing sound in association with the image stored in the image storing step and the position in the image;
A partial region range acquisition step of acquiring a partial region range including at least a part of the image stored in the image storage step;
An output image generation step of generating an output image from an image of the partial region range acquired in the partial region range acquisition step in the image stored in the image storage step;
In the image stored in the image storage stage, from the voice stored in the voice storage stage in association with the position in the entire image, which is the position where the range of the partial area acquired in the partial area range acquisition stage exists. An output sound generation stage for generating output sound;
An image output step of outputting the output image and the output sound in association with each other so that the output image generated in the output image generation step and the output sound generated in the output sound generation step are output in synchronization. An output method comprising:
画像を格納する画像格納部、
前記画像格納部が格納している画像及び当該画像における位置に対応づけて、音声を格納する音声格納部、
前記画像格納部が格納している画像における少なくとも一部を含む部分領域の範囲を取得する部分領域範囲取得部、
前記画像格納部が格納している画像における前記部分領域範囲取得部が取得した部分領域の範囲の画像から出力画像を生成する出力画像生成部、
前記画像格納部が格納している画像において前記部分領域範囲取得部が取得した部分領域の範囲が存在する位置である全体画像内位置に対応づけて前記音声格納部が格納している音声から出力音声を生成する出力音声生成部、
前記出力画像生成部が生成した出力画像と前記出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部
して機能させるプログラム。 A program for an output device for outputting an image, wherein the output device is
An image storage unit for storing images,
An audio storage unit for storing audio in association with an image stored in the image storage unit and a position in the image;
A partial region range acquisition unit for acquiring a range of a partial region including at least a part of the image stored in the image storage unit;
An output image generation unit that generates an output image from an image of a range of the partial region acquired by the partial region range acquisition unit in the image stored in the image storage unit;
Output from the sound stored in the sound storage unit in association with the position in the entire image where the partial region range acquired by the partial region range acquisition unit exists in the image stored in the image storage unit An output sound generator for generating sound;
An image output unit that outputs the output image and the output sound in association with each other so that the output image generated by the output image generation unit and the output sound generated by the output sound generation unit are output in synchronization with each other. A program to function.
前記画像格納部が格納している複数の画像のそれぞれに対応づけて複数の音声を格納する音声格納部と、
前記画像格納部が格納している複数の画像を合成して出力画像を生成する出力画像生成部と、
前記出力画像生成部が生成した出力画像に含まれる第1画像及び第2画像のそれぞれに対応づけて前記音声格納部が格納している第1音声及び第2音声を用いて出力音声を生成する出力音声生成部と、
前記出力画像生成部が生成した出力画像と前記出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部と
を備え、
前記出力音声生成部は、前記出力画像生成部が生成した出力画像において前記第1画像が前記第2画像より強調されている場合に、前記第1音声を前記第2音声より強調して合成した出力音声を生成する出力装置。 An image storage unit for storing a plurality of images;
A sound storage unit that stores a plurality of sounds in association with each of a plurality of images stored in the image storage unit;
An output image generation unit that generates an output image by combining a plurality of images stored in the image storage unit;
The output sound is generated using the first sound and the second sound stored in the sound storage unit in association with each of the first image and the second image included in the output image generated by the output image generation unit. An output audio generation unit;
An image output unit that outputs the output image and the output sound in association with each other so that the output image generated by the output image generation unit and the output sound generated by the output sound generation unit are output in synchronization with each other; Prepared,
The output sound generation unit synthesizes the first sound with emphasis over the second sound when the first image is emphasized over the second image in the output image generated by the output image generation unit. An output device that generates output audio.
請求項30に記載の出力装置。 The output sound generation unit, when the first image is larger than the second image in the output image generated by the output image generation unit, outputs the synthesized output sound by emphasizing the first sound from the second sound. The output device according to claim 30, wherein the output device is generated.
請求項30に記載の出力装置。 The output sound generation unit is an output obtained by emphasizing and synthesizing the first sound from the second sound when the first image is in front of the second image in the output image generated by the output image generation unit. The output device according to claim 30, wherein the output device generates sound.
請求項30に記載の出力装置。 The output sound generation unit synthesizes the first sound with emphasis from the second sound when the first image is present in the center of the second image in the output image generated by the output image generation unit. The output device according to claim 30, wherein the output device generates output sound.
請求項30に記載の出力装置。 The output sound generation unit increases a volume of the first sound higher than a volume of the second sound when the first image is emphasized from the second image in the output image generated by the output image generation unit. The output device according to claim 30, wherein the output device generates synthesized output speech.
前記画像格納段階において格納されている複数の画像のそれぞれに対応づけて複数の音声を格納する音声格納段階と、
前記画像格納段階において格納されている複数の画像を合成して出力画像を生成する出力画像生成段階と、
前記出力画像生成段階において生成された出力画像に含まれる第1画像及び第2画像のそれぞれに対応づけて前記音声格納段階において格納されている第1音声及び第2音声を用いて出力音声を生成する出力音声生成段階と、
前記出力画像生成段階において生成された出力画像と前記出力音声生成段階において生成された出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力段階と
を備え、
前記出力音声生成段階は、前記出力画像生成段階において生成された出力画像において前記第1画像が前記第2画像より強調されている場合に、前記第1音声を前記第2音声より強調して合成した出力音声を生成する出力方法。 An image storage stage for storing a plurality of images;
A sound storing step of storing a plurality of sounds in association with each of the plurality of images stored in the image storing step;
An output image generation step of generating an output image by combining a plurality of images stored in the image storage step;
Output sound is generated using the first sound and the second sound stored in the sound storing step in association with each of the first image and the second image included in the output image generated in the output image generating step. An output audio generation stage,
An image output step of outputting the output image and the output sound in association with each other so that the output image generated in the output image generation step and the output sound generated in the output sound generation step are output in synchronization. And
In the output sound generation step, when the first image is emphasized from the second image in the output image generated in the output image generation step, the first sound is emphasized from the second sound and synthesized. Output method to generate the output audio.
複数の画像を格納する画像格納部、
前記画像格納部が格納する複数の画像のそれぞれに対応づけて複数の音声を格納する音声格納部、
前記画像格納部が格納している複数の画像を合成して出力画像を生成する出力画像生成部、
前記出力画像生成部が生成した出力画像に含まれる第1画像及び第2画像のそれぞれに対応づけて前記音声格納部が格納する第1音声及び第2音声を用いて出力音声を生成する出力音声生成部、
前記出力画像生成部が生成した出力画像と前記出力音声生成部が生成した出力音声とが同期して出力されるべく、当該出力画像と当該出力音声とを対応づけて出力する画像出力部
として機能させ、
前記出力音声生成部に、前記出力画像生成部が生成した出力画像において前記第1画像が前記第2画像より強調されている場合に、前記第1音声を前記第2音声より強調して合成した出力音声を生成させるプログラム。
A program for an output device for outputting an image, wherein the output device is
An image storage unit for storing a plurality of images;
A sound storage unit that stores a plurality of sounds in association with each of a plurality of images stored in the image storage unit;
An output image generation unit that generates an output image by combining a plurality of images stored in the image storage unit;
Output sound for generating output sound using the first sound and the second sound stored in the sound storage unit in association with each of the first image and the second image included in the output image generated by the output image generation unit Generator,
Functions as an image output unit that outputs the output image and the output sound in association with each other so that the output image generated by the output image generation unit and the output sound generated by the output sound generation unit are output in synchronization. Let
When the first image is emphasized from the second image in the output image generated by the output image generation unit, the first sound is emphasized from the second sound and synthesized with the output sound generation unit. A program that generates output audio.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005362465A JP4741362B2 (en) | 2005-02-25 | 2005-12-15 | Output device, output method, and program |
US11/359,517 US7587136B2 (en) | 2005-02-25 | 2006-02-23 | Image capturing apparatus, image capturing method, output apparatus, output method and program |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005052026 | 2005-02-25 | ||
JP2005052026 | 2005-02-25 | ||
JP2005362465A JP4741362B2 (en) | 2005-02-25 | 2005-12-15 | Output device, output method, and program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010199275A Division JP4922445B2 (en) | 2005-02-25 | 2010-09-06 | System, method, apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006270921A true JP2006270921A (en) | 2006-10-05 |
JP4741362B2 JP4741362B2 (en) | 2011-08-03 |
Family
ID=37206337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005362465A Active JP4741362B2 (en) | 2005-02-25 | 2005-12-15 | Output device, output method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4741362B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008219451A (en) * | 2007-03-05 | 2008-09-18 | Fujifilm Corp | Imaging device and control method thereof |
US7995106B2 (en) | 2007-03-05 | 2011-08-09 | Fujifilm Corporation | Imaging apparatus with human extraction and voice analysis and control method thereof |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10145730A (en) * | 1996-11-13 | 1998-05-29 | Sony Corp | Static image and voice reproduction device and method |
-
2005
- 2005-12-15 JP JP2005362465A patent/JP4741362B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10145730A (en) * | 1996-11-13 | 1998-05-29 | Sony Corp | Static image and voice reproduction device and method |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008219451A (en) * | 2007-03-05 | 2008-09-18 | Fujifilm Corp | Imaging device and control method thereof |
US7995106B2 (en) | 2007-03-05 | 2011-08-09 | Fujifilm Corporation | Imaging apparatus with human extraction and voice analysis and control method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP4741362B2 (en) | 2011-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10367997B2 (en) | Enriched digital photographs | |
JP5474062B2 (en) | Content reproduction apparatus, content reproduction method, program, and integrated circuit | |
US20060159445A1 (en) | Image capturing apparatus, image capturing method, reproducing apparatus, reproducing method and program | |
US7512335B2 (en) | Image capturing apparatus, an image capturing method, and a machine readable medium storing thereon a computer program for capturing images | |
JP6016322B2 (en) | Information processing apparatus, information processing method, and program | |
WO2012027186A1 (en) | Audio processing based on scene type | |
JP2004120544A (en) | Device, program and method for editing image | |
KR20060047204A (en) | Information processing apparatus, imaging apparatus, information processing method, and program | |
KR101392406B1 (en) | Method and Apparatus for Chromakey compositing of Subject Image and Background Image | |
US7587136B2 (en) | Image capturing apparatus, image capturing method, output apparatus, output method and program | |
JP2006203860A (en) | Imaging apparatus, imaging method, reproducing apparatus, reproducing method and program | |
JPWO2013132557A1 (en) | Content processing apparatus and integrated circuit, method and program thereof | |
JP4741362B2 (en) | Output device, output method, and program | |
JP2010081012A (en) | Imaging device, imaging control method, and program | |
JP4922445B2 (en) | System, method, apparatus and program | |
JP6227456B2 (en) | Music performance apparatus and program | |
JP5550114B2 (en) | Imaging device | |
JP6166070B2 (en) | Playback apparatus and playback method | |
JP2006203867A (en) | Imaging apparatus, imaging method, and program | |
KR20070064082A (en) | System and method for producing moving image using chroma-key | |
JP6508635B2 (en) | Reproducing apparatus, reproducing method, reproducing program | |
JP2005223513A (en) | Image photographing apparatus | |
JP5392244B2 (en) | Imaging apparatus, control method, and program | |
JP6643081B2 (en) | Album moving image generating apparatus, album moving image generating method, and program | |
JP2011077883A (en) | Image file producing method, program for the method, recording medium of the program, and image file producing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20061208 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080716 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100329 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100906 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110506 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4741362 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |