JP4539385B2 - Imaging device, an imaging control program - Google Patents

Imaging device, an imaging control program Download PDF

Info

Publication number
JP4539385B2
JP4539385B2 JP2005074779A JP2005074779A JP4539385B2 JP 4539385 B2 JP4539385 B2 JP 4539385B2 JP 2005074779 A JP2005074779 A JP 2005074779A JP 2005074779 A JP2005074779 A JP 2005074779A JP 4539385 B2 JP4539385 B2 JP 4539385B2
Authority
JP
Japan
Prior art keywords
means
ambient sound
imaging
sound
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005074779A
Other languages
Japanese (ja)
Other versions
JP2006261900A (en
Inventor
一記 喜多
Original Assignee
カシオ計算機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カシオ計算機株式会社 filed Critical カシオ計算機株式会社
Priority to JP2005074779A priority Critical patent/JP4539385B2/en
Publication of JP2006261900A publication Critical patent/JP2006261900A/en
Application granted granted Critical
Publication of JP4539385B2 publication Critical patent/JP4539385B2/en
Application status is Active legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、被写体像とともに不可視情報をも表示させる撮像装置、撮像制御プログラムに関する。 The present invention relates to an imaging device for displaying also the invisible information with an object image, an image pickup control program.

従来、被写体の温度表示機能を備えたカメラ装置が提案されるに至っている。 Conventionally, it has led to a camera apparatus equipped with a temperature display function of a subject is proposed. このカメラ装置は、被写体からの光を導入して結像させる光学ファインダーと、この光学ファインダーの下部に配置された温度表示部、これら光学ファインダーと温度表示部とを同一視野で撮像するテレビカメラ、及び赤外線検出器とで構成されている。 The camera apparatus, a television camera for taking the optical viewfinder for imaging by introducing light from an object, a temperature display unit which is arranged in the lower part of the optical viewfinder, and these optical viewfinder and a temperature display unit in the same field of view, and it is composed of an infrared detector. そして、この赤外線検出器により検出された信号に基づき、温度表示部に被写体の温度をデジタル表示し、この温度が表示された温度表示部と被写体が結像した光学ファインダーとをテレビカメラで撮像することにより、テレビモニターに結像した被写体と該被写体の温度とを表示させるものである(例えば、特許文献1参照)。 Then, based on the signal detected by the infrared detector, the temperature of the object digitally displayed on the temperature display unit captures an optical viewfinder that the temperature display unit temperature is displayed and the subject is imaged by a television camera it allows those for displaying the temperature of the subject and the subject was imaged on a television monitor (e.g., see Patent Document 1).
特許第2747426号公報 Patent No. 2747426 Publication

しかしながら、係る従来のカメラ装置においては、被写体が結像された光学ファインダーとその下部に表示される温度表示とをテレビカメラで撮像して、モニターに表示することから、モニターには被写体と当該被写体の温度とが異なる部位に表示される。 However, according the conventional camera device, by imaging a temperature display displayed thereunder an optical viewfinder subject is imaged by a television camera, since the display on the monitor, subject to the monitor and the subject and temperature are displayed in different sites. このため被写体が複雑に混在していると、表示されている温度がいずれの被写体の温度であるかが不明確となる。 When Thus the object is complexly mixed, or the temperature that is displayed is the temperature of any object becomes unclear. また、被写体中に異なる温度の部分が混在する場合にも、表示されている温度が被写体のいずれの部分の温度であるかが不明確となってしまう。 Further, even when the different temperatures portion in the subject mixed, the temperature being displayed or the temperature of any part of the subject becomes unclear.

また、例えば特定の音声を発生している所望の被写体を撮影しようとする場合、当該被写体が複数の被写体中に存在していると、ファインダーを視認してもいずれの被写体が特定の音声を発生している所望の被写体であるかを容易に識別することができない場合が生ずる。 Also, for example, when trying to shoot the desired object that generates a specific sound, occurs when the subject is present in the plurality of objects, the voice none of the subject is given by viewing the viewfinder If it is not possible to easily identify whether the desired object that is generated.

本発明は、かかる従来の課題に鑑みてなされたものであり、被写体画像中における不可視情報を明瞭に表示することのできる撮像装置、撮像制御プログラムを提供することを目的とする。 The present invention, such conventional has been made in view of the problems, an imaging apparatus capable of clearly displaying the invisible information in the object image, and an object thereof is to provide an imaging control program. また、本発明は、特定の音声を発生している所望の被写体を容易かつ迅速に撮影することのできる撮像装置、撮像制御プログラムを提供することを目的とする。 Further, the present invention relates to an imaging apparatus that can easily and quickly shoot the desired object that generates a specific sound, and an object thereof is to provide an imaging control program.

前記課題を解決するため請求項1記載の発明に係る撮像装置にあっては、表示手段と、撮像手段と、この撮像手段により撮像される画像を前記表示手段に表示させる第1の表示制御手段と、前記撮像手段の撮像範囲内における周囲音を検出する周囲音検出手段と、この周囲音検出手段により検出された周囲音を表す可視情報を生成し、この可視情報を前記周囲音検出手段により検出された前記周囲音の前記撮像範囲内における位置に対応させて、前記表示手段に表示させる第2の表示制御手段と、この第2の表示制御手段により前記表示手段に表示された前記周囲音を示す可視情報の任意の部分を指定することにより、前記周囲音検出手段により検出される周囲音に含まれる任意の音声を選択する選択手段と、前記周囲音検出手段により検出 In the imaging apparatus according to the invention of claim 1, wherein in order to solve the above problems, a display means and an imaging means, first display control means for displaying the image captured by the imaging unit on the display unit When the ambient sound detecting means for detecting the ambient sound in the imaging range of the imaging means, generates visible information indicating the ambient sound detected by the ambient sound detector, by the visual information the ambient sound detector in correspondence with the position within the imaging range of said detected ambient sound, said second display control means for displaying on the display unit, the ambient sound that is displayed on the display unit by the second display control means by specifying an arbitrary portion of the visible information indicating a selection means for selecting an arbitrary sound included in the ambient sound detected by the ambient sound detecting means, detected by the ambient sound detector れた周囲音を制御し、前記選択手段により選択された音声を強調処理または抑圧処理する音声制御手段と、この音声制御手段により前記音声を強調処理または抑圧処理された周囲音を記録する記録手段とを備える。 Controls ambient sound, recording means for recording a sound control means for enhancement or suppression processing audio selected by the selecting means, the enhancement processing or reduction processing ambient sounds the voice by the voice control means provided with a door.

したがって、表示手段には、撮像手段の撮像範囲内における周囲音が可視情報とされて表示されるのみならず、この可視情報が周囲音の前記撮像範囲内における位置に対応させて表示される。 Thus, the display unit, the ambient sound in the imaging range of the imaging means not only are displayed in a visible information, the visual information is displayed in correspondence with the position in the image pickup range of the ambient sound. よって、ユーザは、撮像範囲内における位置に対応させて表示される可視情報を視認することにより、被写体画像中における周囲音の存在を被写体画像との関係において明確に視認することが可能となる。 Therefore, the user can visually recognize the visible information displayed in correspondence with the position in the imaging range, it is possible to clearly visible in relation to the subject image of the presence of ambient sound in the object image. そして、ユーザが、前記表示手段に表示された周囲音を示す可視情報の任意の部分を指定することにより、当該部分からの音声を強調または抑圧した録音が可能となる。 Then, the user, by designating any portion of the visible information indicating the ambient sound that is displayed on the display means, record emphasizing or suppressing sound from that portion becomes possible.

また、請求項2記載の発明に係る撮像装置にあっては、前記第2の表示制御手段は、前記可視情報を前記第1の表示制御手段により前記表示手段に表示される画像に重ねて、前記表示手段に表示させる。 Further, in the imaging apparatus according to the invention of claim 2, wherein the second display control means, superimposed on images displayed on the display means by the visual information of the first display control means to be displayed on said display means. したがって、表示手段には、撮像手段の撮像範囲内における周囲音が可視情報とされて表示されるのみならず、この可視情報が撮像手段により撮像される画像に重畳されて表示される。 Thus, the display unit, the ambient sound in the imaging range of the imaging means not only are displayed in a visible information, the visual information is displayed superimposed on the image captured by the imaging means. よって、ユーザは、この撮像された画像に重畳されて表示された可視情報を視認することにより、被写体画像中における周囲音の存在を被写体画像との関係において明確に視認することが可能となる。 Therefore, the user can visually recognize the visible information displayed superimposed on the the captured image, it is possible to clearly visible in relation to the subject image of the presence of ambient sound in the object image.

また、請求項3記載の発明に係る撮像装置にあっては、 前記可視情報は、半透明化されている。 Further, in the imaging apparatus according to the invention of claim 3, wherein the visible information is translucent. したがって、ユーザは、被写体画像中における周囲音の存在を被写体画像との関係において明確に視認することが可能となる。 Thus, the user can be clearly visible in relation to the subject image of the presence of ambient sound in the object image.

また、請求項4記載の発明に係る撮像装置にあっては、 前記可視情報は、前記周囲音の分布状況を音圧レベルに基づいて表した二次元画像である。 Further, in the imaging apparatus according to the fourth aspect of the present invention, the visible information, the distribution of the ambient sound is a two-dimensional image representing on the basis of the sound pressure level. したがって、ユーザは、どこからどの程度の音圧の音(音声)が発生しているか視覚的に認識することができる。 Therefore, the user, where the sound of the extent of the sound pressure (sound) can either visually recognize occurring.

また、請求項5記載の発明に係る撮像装置にあっては、 前記二次元画像は、音圧レベルに応じて色が異なっている。 Further, in the imaging apparatus according to the invention of claim 5, wherein said two-dimensional image has different colors depending on the sound pressure level. したがって、ユーザは、どこからどの程度の音圧の音(音声)が発生しているか視覚的に認識することができる。 Therefore, the user, where the sound of the extent of the sound pressure (sound) can have either visually recognize occurred.

また、請求項6記載の発明に係る撮像装置にあっては、前記記録手段は、 音声が強調処理または抑圧処理された前記周囲音を前記撮像手段により撮像された画像とともに記録する。 Further, in the imaging apparatus according to the invention of claim 6, wherein said recording means records with image captured by the imaging unit the ambient sounds sound is emphasized treatment or suppression. したがって、特定部分からの音声を強調または抑圧した録音を伴う画像記録が可能となる。 Therefore, it is possible to image recording with recordings emphasized or suppressed speech from a particular portion.

また、請求項7記載の発明に係る撮像装置にあっては、前記音声制御手段は、前記第2の表示制御手段により前記表示手段に表示された前記周囲音を示す可視情報中における任意の部分に対する操作に基づき得られる位置座標に基づき、前記指定された周囲音の方向を算出し、この算出した方向からの音声を強調処理または抑圧処理する。 Further, in the imaging apparatus according to the invention of claim 7, wherein said audio control means, any part in the visible information indicating the ambient sound that is displayed on said display means by said second display control means based on the position coordinates obtained based on the operation on to calculate the direction of the designated ambient sound, highlight processing or reduction processing audio from the calculated direction.

また、請求項8記載の発明に係る撮像装置にあっては、前記音声制御手段は、前記位置座標と、前記撮像手段の焦点距離及び又は前記画像のサイズとに基づき、前記指定された周囲音の方向を算出し、この算出した方向からの音声を強調処理または抑圧処理する。 Further, in the imaging apparatus according to the invention of claim 8, wherein the sound control means, said position coordinates, based on the size of the focal length and or the image of the image pickup means, said specified ambient sound calculating the direction and emphasis processing or reduction processing audio from the calculated direction.

また、請求項9記載の発明に係る撮像装置にあっては、撮像手段と、音声の特徴データを記憶した特徴データ記憶手段と、周囲音を検出する周囲音検出手段と、前記特徴データ記憶手段に記憶された音声の特徴データと、前記周囲音検出手段により検出された周囲音中の音声データとを比較する比較手段と、この比較手段による比較に基づき、前記撮像手段の撮像範囲内において、前記特徴データに近似する周囲音を発生している被写体を検出する被写体検出手段とを備える。 Further, in the imaging apparatus according to the invention of claim 9, wherein, the imaging means, and wherein the data storage means for storing audio characteristic data, and the ambient sound detection means for detecting the ambient sound, the feature data storage means and audio feature data stored in a comparison means for comparing the audio data in the detected ambient sound by the ambient sound detecting means, based on the comparison by the comparison means, in the imaging range of the imaging unit, and a subject detection unit for detecting an object that generates an ambient sound to be approximate to the feature data. したがって、例えば特定の音声を発生している所望の被写体を撮影しようとする場合、当該特定の音声の特徴データが記憶されていれば、当該被写体が複数の被写体中に存在している場合であっても、いずれの被写体が特定の音声を発生している所望の被写体であるかを容易に識別することができ、所望の被写体を容易かつ迅速に撮影することが可能となる。 Thus, for example, when trying to shoot a desired subject specific voice has occurred, if the feature data of the specific sound is stored, there in the case where the subject is present in the plurality of subjects even, whether the desired subject any subject occurs a specific voice can be easily identified, it becomes possible to easily and quickly shoot the desired object.

また、請求項10記載の発明に係る撮像装置にあっては、前記被写体検出手段により検出された被写体に、前記撮像手段を合焦させる合焦制御手段を更に備える。 Further, in the imaging apparatus according to the invention of claim 10 wherein is the detected object by the object detection unit, further comprising a focus control means for focusing said imaging means. したがって、例えば特定の野鳥の音声の特徴データが記憶されていれば、当該野鳥に近似した音声データからなる音声を発生している被写体に合焦させて撮影を行うことが可能となる。 Thus, for example, if the feature data of a particular bird voice is stored, it becomes possible to perform photographing by focusing on a subject that generates a speech consisting of the speech data approximate to the birds.

また、請求項11記載の発明に係る撮像装置にあっては、前記被写体検出手段により検出された被写体を表示する表示手段を更に備える。 Further, in the imaging apparatus according to the invention of claim 11, wherein, further comprising display means for displaying the subject detected by the subject detecting means. したがって、表示手段を視認することにより、前記所望の被写体を確認しつつ撮影を行うことができる。 Therefore, it is possible to perform photographing by viewing the display means, while confirming the desired subject.

また、請求項12記載の発明に係る撮像装置にあっては、前記周囲音検出手段により検出された周囲音を制御し、前記被写体検出手段により検出された被写体からの音声を強調処理または抑圧処理する音声制御手段と、この音声制御手段により前記音声を強調処理または抑圧処理された周囲音を記録する記録手段とを更に備える。 Further, in the imaging apparatus according to the invention of claim 12, wherein, to control the ambient sound detected by the ambient sound detector, enhancement processing or reduction processing audio from the detected object by the object detection unit further comprising a sound control means, and recording means for recording the enhancement or suppression processed ambient sound the voice by the voice control means. したがって、前記所望の被写体の音声を強調または抑圧した周囲音声を記録することができる。 Therefore, it is possible to record the ambient sound emphasized or suppressed speech of the desired object.

また、請求項13記載の発明に係る撮像装置にあっては、前記記録手段は、前記周囲音を前記撮像手段により撮像された画像とともに記録する。 Further, in the imaging apparatus according to the invention of claim 13, wherein said recording means records with an image picked up by the image pickup means the ambient sound. したがって、前記所望の被写体の音声を強調または抑圧した周囲音声と当該所望の被写体とを記録することができる。 Therefore, it is possible to record the ambient sound and the desired object that emphasizes or suppresses the sound of the desired object.

また、請求項14記載の発明に係る撮像装置にあっては、複数の音声の特徴データのうち任意の特徴データを指定する指定手段を更に備え、前記記憶手段は、前記指定手段により指定された前記特徴データを記憶する。 Further, in the imaging apparatus according to the invention of claim 14, further comprising a designation means for designating an arbitrary characteristic data of the characteristic data of a plurality of speech, said storage means designated by said designation means storing the feature data. したがって、指定手段の指定により種々の音声の特徴データを有する被写体の音声や被写体自体を記録することができる。 Therefore, it is possible to record audio and subject itself object having a characteristic data of various audio by specifying the designated unit.

また、請求項15記載の発明に係る撮像装置にあっては、前記周囲音検出手段は、複数のマイクロホンを有するマイクロホンアレーである。 Further, in the imaging apparatus according to the invention of claim 15, wherein the ambient sound detector is a microphone array having a plurality of microphones.

また、請求項16記載の発明に係る撮像制御プログラムにあっては、表示手段と、撮像手段と、この撮像手段の撮像範囲内における周囲音を検出する周囲音検出手段とを備える撮像装置が有するコンピュータを、前記撮像手段により撮像される画像を前記表示手段に表示させる第1の表示制御手段と、前記周囲音検出手段により検出された周囲音を表す可視情報を生成し、この可視情報を前記周囲音検出手段により検出された前記周囲音の前記撮像範囲内における位置に対応させて、前記表示手段に表示させる第2の表示制御手段と、この第2の表示制御手段により前記表示手段に表示された前記周囲音を示す可視情報の任意の部分を指定することにより、前記周囲音検出手段により検出される周囲音に含まれる任意の音声を選択する選択手 Further, in the imaging control program according to the invention of claim 16, wherein the imaging apparatus has provided a display unit, an imaging unit, an ambient sound detecting means for detecting the ambient sound in the imaging range of the imaging device the computer generates a visual information indicating the first display control means for displaying the image captured on the display means, the ambient sound detected by the ambient sound detecting means by the image pickup means, wherein the visible information in correspondence with the position within the imaging range of said detected ambient sound by ambient sound detecting means, second display control means for displaying on the display means, displaying on said display means by the second display control means by specifying an arbitrary portion of the visible information indicating the ambient sound that is, selected hand to select any voice included in the ambient sound detected by the ambient sound detector と、前記周囲音検出手段により検出された周囲音を制御し、前記選択手段により選択された音声を強調処理または抑圧処理する音声制御手段と、この音声制御手段により前記音声を強調処理または抑圧処理された周囲音を記録する記録手段として機能させる。 If, by controlling the ambient sound detected by the ambient sound detector, a sound control means for enhancement or suppression processing audio selected by the selection means, enhancement processing or reduction processing of the audio by the audio control means been a to thereby function recording means for recording ambient sound. したがって、前記コンピュータがこのプログラムに従って処理を実行することにより、請求項1記載の発明と同様の作用効果を奏する。 Therefore, the computer by executing the processing in accordance with this program, the same effects as the first aspect of the present invention.

また、請求項17記載の発明に係る撮像制御プログラムにあっては、撮像手段と、音声の特徴データを記憶した特徴データ記憶手段と、周囲音を検出する周囲音検出手段とを備える撮像装置が有するコンピュータを、前記特徴データ記憶手段に記憶された音声の特徴データと、前記周囲音検出手段により検出された周囲音中の音声データとを比較する比較手段と、この比較手段による比較に基づき、前記撮像手段が撮像する被写体において、前記特徴データに近似する周囲音を発生している被写体を検出する被写体検出手段として機能させる。 Further, in the imaging control program according to the invention of claim 17, the imaging apparatus including an imaging unit, a feature data storage means for storing audio characteristic data, and ambient sound detecting means for detecting an ambient sound a computer having a voice feature data stored in the feature data storage means, comparison means for comparing the audio data in the detected ambient sound by the ambient sound detecting means, based on the comparison by the comparing means, in subjects the imaging means takes an image, to function as an object detecting means for detecting an object that generates an ambient sound to be approximate to the feature data. したがって、前記コンピュータがこのプログラムに従って処理を実行することにより、請求項9記載の発明と同様の作用効果を奏する。 Therefore, the computer by executing the processing in accordance with this program, the same effects as the invention of claim 9, wherein.

以上のように請求項1及び請求項16に係る発明によれば、表示手段に、撮像手段の撮像範囲内における周囲音を可視情報として表示することができるのみならず、この可視情報が周囲音の前記撮像範囲内における位置に対応させて表示することができるので 、ユーザは、撮像範囲内における位置に対応させて表示される可視情報を視認することにより、被写体画像中における不可視情報の存在を被写体画像との関係において明確に視認することが可能となる。 According to the invention of claim 1 and claim 16 as described above, the display means, not only can display the ambient sound as a visible information in the imaging range of the imaging means, the visible information is ambient sound since the in correspondence with the position in the imaging range of can be displayed, the user can visually recognize the visible information displayed in correspondence with the position in the imaging range, the presence of the invisible information in the object image it is possible to clearly visible in relation to the subject image. また、ユーザが、前記表示手段に表示された周囲音を示す可視情報の任意の部分を指定することにより、当該部分からの音声を強調または抑圧した録音が可能となる。 Further, the user, by designating any portion of the visible information indicating the ambient sound that is displayed on the display means, record emphasizing or suppressing sound from that portion becomes possible.

また、請求項2記載の発明によれば、表示手段に、撮像手段の撮像範囲内における周囲音を可視情報として表示することができるのみならず、この可視情報が撮像手段により撮像される画像に重畳して表示することができる。 Further, according to the second aspect of the invention, the display means, the ambient sound in the imaging range of the imaging means can not only be displayed as visible information, the image to which the visual information is captured by the imaging means superimposed to be displayed. よって、ユーザは、この撮像された画像に重畳されて表示された可視情報を視認することにより、被写体画像中における周囲音の存在を被写体画像との関係において明確に視認することが可能となる。 Therefore, the user can visually recognize the visible information displayed superimposed on the the captured image, it is possible to clearly visible in relation to the subject image of the presence of ambient sound in the object image.

また、請求項に係る発明によれば、表示手段に、撮像手段の撮像範囲内における周囲音を可視情報として表示することができるのみならず、この可視情報が前記周囲音の分布状況を音圧レベルに基づいて表した二次元画像として表示することができる。 Further, according to the invention of claim 4, the display means, not only can display the ambient sound as a visible information in the imaging range of the imaging means, the visible information is sound distribution of the ambient sound it can be displayed as a two-dimensional image representing on the basis of the pressure level. よって、ユーザは、 どこからどの程度の音圧の音(音声)が発生しているか視覚的に認識することが可能となる。 Thus, the user, where the sound of the extent of the sound pressure (sound) it is possible to recognize to which either visually by generating.

また、請求項9及び請求項17に係る発明によれば、特定の音声を発生している所望の被写体を撮影しようとする場合、当該特定の音声の特徴データが記憶されていれば、当該被写体が複数の被写体中に存在している場合であっても、いずれの被写体が特定の音声を発生している所望の被写体であるかを容易に識別することができ、所望の被写体を容易かつ迅速に撮影することが可能となる。 Further, the invention according to claim 9 and claim 17, when trying to shoot the desired object that generates a specific voice, if the feature data of the specific sound is stored, the subject there even when present in the plurality of subjects, whether a desired object to any of the subject is generated specific voice can be easily identified, easily and quickly the desired subject it is possible to shoot.

(第1の実施の形態) (First Embodiment)
図1に示すように、本発明の各実施の形態に係るデジタルカメラ100の本体101には、前面上部に撮像レンズ102が配置され、その下部にマイクロホンアレー部103が設けられている。 As shown in FIG. 1, the main body 101 of the digital camera 100 according to the embodiments of the present invention, the imaging lens 102 is located at the top front, a microphone array 103 is provided at the lower portion. このマイクロホンアレー部103には、横配列マイクと縦配列マイクとからなる複数のマイクロホン(後述するマイクM1〜マイクMn)が等間隔で設けられている。 This is a microphone array 103, a plurality of microphones consisting of a horizontal array microphone and vertical array microphone (described later microphone M1~ microphone Mn) are provided at equal intervals. また、一方の側面には、開閉自在なカバー体104が設けられており、このカバー体104の裏面側に後述するファインダー表示部119とタッチパネル132とが配置されている。 Further, the one side, openable cover 104 is provided, and the finder display unit 119 and touch panel 132 described later on the back side of the cover body 104 is disposed.

図2は、第1の実施の形態に係るデジタルカメラ100の回路構成を示すブロック図である。 Figure 2 is a block diagram showing a circuit configuration of the digital camera 100 according to the first embodiment. このデジタルカメラ100は、AE、AWB、AF等の一般的な機能を有するものであり、前記撮像レンズ102は、ズームレンズ、フォーカスレンズで構成され、レンズ駆動部105により駆動される。 The digital camera 100, which has AE, AWB, the general function of AF, etc., the imaging lens 102, the zoom lens is composed of a focusing lens driven by the lens driving unit 105. この撮像レンズ102の光軸上には、及びCCD等で構成される撮像素子109が配置されており、この撮像素子109はドライバ111に接続されている。 On the optical axis of the imaging lens 102, and are arranged imaging device 109 is composed of CCD or the like, the image pickup element 109 is connected to the driver 111.

このデジタルカメラ100全体を制御する撮影録音制御部112(以下、単に制御部112という。)は、CPU、ROMおよびワーク用のRAM等で構成されている。 Imaging recording control unit 112 for controlling the entire digital camera 100 (hereinafter, simply referred to as the control unit 112.) Is, CPU, and a RAM or the like for the ROM and the work. ROMには、制御部112に前記各部を制御させるための各種のプログラム、例えばAE、AF、AWB制御用のプログラムや、制御回路312を本発明を構成する手段として機能させるためのプログラム等の各種のプログラムが格納されている。 The the ROM, operations of a program for causing a control the respective units to the controller 112, for example AE, AF, and programs for AWB control, various programs for operating the control circuit 312 as a means constituting the present invention the program is stored. この制御部112には、前記レンズ駆動部105とともにドライバ111が接続されており、ドライバ111は、制御部112が発生するタイミング信号に基づき、撮像素子109を駆動する。 The control unit 112, the with the lens driver 105 are driver 111 is connected, the driver 111, based on the timing signal control unit 112 is generated, and drives the imaging element 109.

また、前記撮像素子109の受光面には、撮像レンズ102によって被写体が結像される。 Further, the light receiving surface of the imaging element 109, an object is imaged by the imaging lens 102. 撮像素子109は、ドライバ111によって駆動され、被写体の光学像に応じたアナログの撮像信号はA/D変換器114によりデジタルデータに変換され、画像信号処理部115へ出力される。 Image sensor 109 is driven by the driver 111, an imaging signal of an analog corresponding to an optical image of a subject is converted into digital data by the A / D converter 114 is outputted to the image signal processing unit 115.

画像信号処理部115は、入力した撮像信号に対しペデスタルクランプ等の処理を施し、それを輝度(Y)信号及び色差(UV)信号に変換するとともに、オートホワイトバランス、輪郭強調、画素補間などの画品質向上のためのデジタル信号処理を行う。 The image signal processing unit 115 performs processing such as pedestal clamp to the imaging signal input thereto, the converts into luminance (Y) signal and color difference (UV) signal which, auto white balance, edge enhancement, such as a pixel interpolation It performs digital signal processing for image quality improvement. 画像信号処理部115で変換されたYUVデータは順次画像メモリ116に格納されるとともに、RECスルー・モードでは1フレーム分のデータ(画像データ)が蓄積される毎にビデオ信号に変換され、被写体像スルー画像部113及び画像合成部117を介してファインダー/表示部119へ送られてスルー画像として画面表示される。 With the converted YUV data by the image signal processing unit 115 are sequentially stored in the image memory 116, the REC through mode is converted into a video signal every time one frame of data (image data) is stored, an object image It is sent to the viewfinder / display unit 119 via the through image 113 and the image combining unit 117 is displayed on the screen as a through image.

そして、静止画撮影モードにおいては、後述する操作入力部130に設けられているシャッターキー操作をトリガとして、制御部112は、撮像素子109、ドライバ111、及び画像信号処理部115に対してスルー画撮影モードから静止画撮影モードへの切り替えを指示し、この静止画撮影モードによる撮影処理により得られ画像メモリ116に一時記憶された画像データは、画像圧縮符号器/伸張復号器120で圧縮及び符号化され、符号化画像メモリ121に一時記憶された後、最終的には所定のフォーマットの静止画ファイルとして、外部メモリ(図示せず)に記録される。 Then, in the still image shooting mode, a trigger shutter key operation is provided in the operation input unit 130 to be described later, the control unit 112 through image to the image pickup device 109, the driver 111 and the image signal processing unit 115, instructs switching from the photographing mode to the still image capturing mode, image data temporarily stored in the image memory 116 obtained by the photographing process by the still image shooting mode, the compression and coding by the image compression encoder / decompression decoder 120 ized, after being temporarily stored in the coded image memory 121, and finally as a still image file of a predetermined format, is recorded in the external memory (not shown).

また、動画撮影モードにおいては、1回目のシャッターキーと2回目のシャッターキー操作との間に、画像メモリ116に順次記憶される複数の画像データが画像圧縮符号器/伸張復号器120で順次圧縮され、符号化画像メモリ121に順次記憶された後、動画ファイルとして外部メモリに記録される。 In the moving image shooting mode, sequential compression between the first shutter key and the second shutter key operation, a plurality of image data sequentially stored in the image memory 116 by the image compression encoder / decompression decoder 120 It is, after being successively stored in the coded image memory 121, is recorded in the external memory as a moving image file. この外部メモリに記録された静止画ファイル及び動画ファイルは、PLAY・モードにおいてユーザーの選択操作に応じて画像圧縮符号器/伸張復号器120に読み出されるとともに伸張及び復号化され、YUVデータとして展開された後、表示部119に表示される。 Still image file and a moving image file recorded in the external memory, the PLAY · mode is decompressed and decrypted with in accordance with the user's selection operation is read out to the image compression encoder / decompression decoder 120, it is expanded as YUV data after, it is displayed on the display unit 119. なお、駆動量/焦点距離部126は、撮像レンズ102におけるズームレンズ、フォーカスレンズの駆動量や焦点距離を検出して制御部112に入力する。 The driving amount / focal length unit 126 inputs the zoom lens, and detects the drive amount and the focal length of the focusing lens to the control unit 112 of the imaging lens 102.

また、制御部112には、操作入力部130が入力回路131を介して接続されており、操作入力部130には、モード選択キー、シャッターキー、ズームキー等の複数の操作キー及びスイッチが設けられている。 The control unit 112, an operation input unit 130 is connected via an input circuit 131, the operation input unit 130, a mode selection key, a shutter key, a plurality of operation keys and switches such as a zoom key is provided ing. 前記表示部119タッチパネル132が積層されており、このタッチパネル132からのタッチ信号に基づく座標値も、入力回路131を介して制御部112に入力される。 The display unit 119 the touch panel 132 are laminated, the coordinate value based on the touch signal from the touch panel 132 is input to the control unit 112 via the input circuit 131.

また、このデジタルカメラ100は、前記動画撮影モード、音声のみを記録する録音モード、音声付き(静止画)撮影モードにおいて、周囲音を記録する録音機能を備えており、このため周囲音を検出するマイクロホンを有し、このマイクロホンは前記マイクロホンアレー部103に設けられた横配列マイクと縦配列マイクとからなるマイクM1からマイクMnまでのn本のマイクロホンで構成されている。 Moreover, the digital camera 100, the moving image photographing mode, the recording mode for recording only audio, with audio (still image) in the shooting mode has a recording function of recording the ambient sound, detects the ambient sound for this has a microphone, the microphone is constituted by the n microphones from the microphone M1 consisting of transversely aligned microphone and vertical array microphone provided in the microphone array 103 to the microphone Mn. 各マイクM1〜Mnからの音声信号は、対応する各アンプ133・・・で増幅され、A/D変換回路134でサンプルホールド及びデジタル変換され、指向性ビーム生成部135に供給される。 Audio signal from the microphone M1~Mn is amplified by the corresponding respective amplifiers 133, ..., it is sampled and held and digital-converted by the A / D conversion circuit 134 is supplied to the directional beam generator 135. 指向性ビーム生成部135は、マイクM1〜Mnに対応して設けられたn個の遅延器D1〜DnとアンプA1〜An、これらアンプA1〜Anからの信号を加算する加算器136で構成されている。 Directional beam generating unit 135 is constituted by an adder 136 for adding n delay units D1~Dn and amplifier A1~An provided corresponding to the microphone M1 -Mn, the signals from these amplifiers A1~An ing. 前記遅延器D1〜Dn等で構成される指向性ビーム生成部135は、第1指向性制御部144(抽出方向の走査制御)及び第2指向性制御部145(音声強調/抑圧方向制御)により制御され、第2指向性制御部145には、制御部112から音声強調/抑圧する方向座標146が与えられる。 The delayer D1~Dn such directional beam generating unit 135 constituted by the by the first directional control unit 144 (scanning control of the extraction direction) and the second directivity control section 145 (speech enhancement / suppression direction control) is controlled, the second directional control unit 145, direction coordinate 146 is applied to speech enhancement / suppression of the control unit 112.

前記加算器136での加算結果により得られる音声データは、走査方向別の入力音声メモリ137と音声メモリ138に格納される。 The audio data obtained by the addition result of the adder 136 is stored in the scanning direction by the input voice memory 137 and audio memory 138. この音声メモリ138に格納された音声データは、音声圧縮符号器/伸張復号器139で順次圧縮され、符号化音声メモリ140に順次記憶される。 The audio data stored in the audio memory 138 is sequentially compressed by the audio compression encoder / decompression decoder 139 are sequentially stored in the coded speech memory 140. 制御部112は、この圧縮音声データと前記圧縮動画データとを含む音声付き動画ファイルを生成して外部メモリに記録する。 Control unit 112 records in the external memory to generate movies with sound file containing a the compressed audio data and the compressed video data.

この外部メモリに記録された動画ファイルの音声データは、PLAY・モードにおいてユーザーの選択操作に応じて、音声圧縮符号器/伸張復号器139に読み出されるとともに伸張及び復号化される。 The audio data of moving image files recorded in the external memory, according to the user's selection operation in PLAY · mode is stretched and decoded together are read out to the audio compression encoder / decompression decoder 139. この伸張及び及び復号化された音声データは、符号化音声メモリ140に一時記憶された後、D/A変換器141でアナログ信号に変換され、アンプ142を介してスピーカー143に供給されて音声として再生される。 The stretching and and decoded audio data, after being temporarily stored in the coded speech memory 140 is converted into an analog signal by a D / A converter 141, as sound is supplied to a speaker 143 through an amplifier 142 It is played. なお、音声記録を行うタイミングは、動画撮影時に限定されず、音声付き静止画撮影モードにおける録音動作時でもよく、また、録音モードやアフレコモードにおける録音動作時でもよい。 Note that the timing of the audio recording is not limited to moving image shooting, well even in recording operation in the sound-added still image shooting mode, or it may be a time of recording operation in the recording mode or after-recording mode.

一方、前記メモリ137に格納された走査方向別の入力音声データは、特徴抽出部150で特徴抽出され、この抽出された特徴は特徴抽出データメモリ151に格納される。 On the other hand, the input audio data by the scanning direction stored in the memory 137 is feature extraction by the feature extraction unit 150, the extracted features are stored in the feature data memory 151. 二次元画像生成部152は、この特徴に基づき二次元画像を生成し、半透明画像変換部153は、半透明化パターン生成部154とに基づき前記二次元画像生成部152からの二次元画像を半透明画像に変換し、前記画像合成部117に出力する。 The two-dimensional image generating unit 152 generates a two-dimensional image on the basis of this feature, the translucent image converting unit 153, a two-dimensional image from the two-dimensional image generation section 152 based on the semi-transparent pattern generator 154 into a semi-transparent image, and outputs to the image synthesizing unit 117. 画像合成部117は、この半透明画像と前記被写体像スルー画像部113からの被写体スルー画像とを合成して、表示部119に出力し、これにより被写体像スルーに前記半透明画像が重ねて表示されるように構成されている。 Image combining unit 117, and a subject through image from the semi-transparent image the subject image through image 113 are synthesized, and outputs to the display unit 119, whereby said displayed semi-transparent image is superimposed on the subject image through It is configured to be.

以上の構成に係る本実施の形態において、制御部112は前記プログラムに基づき、図3及び図4に示す一連のフローチャートに示すように処理を実行する。 In this embodiment according to the above configuration, the control unit 112 based on the programs and executes a process as shown in a series of flowcharts shown in FIGS. すなわち、録音/動画撮影モードが設定されたか否かを判断し(図3ステップS101)、動画撮影モード以外の他のモードが設定された場合には、設定された当該その他のモード処理を実行する(ステップS102)。 That is, it is determined whether the recording / moving image photographing mode is set (FIG. 3 step S101), if other modes of non-video shooting mode is set, executes the other mode process is set (step S102). また、録音/動画撮影モードが設定されたならば、測光処理、WB処理を実行するとともに(ステップS103)、ズーム処理、AF処理を行って(ステップS104)、レンズ駆動部105により駆動されることにより変化したレンズ焦点距離(f)、デジタルズーム倍率(M)等を算出する(ステップS105)。 Further, if the recording / moving image photographing mode is set, (step S103) and executes photometry process, the WB processing, zoom processing, performs AF processing (step S104), and it is driven by the lens driving unit 105 lens focal length is changed by (f), it calculates the digital zoom magnification (M) or the like (step S105).

さらに、被写体像スルー画像を、照準、距離情報等とともに、ファインダー表示部119に表示させる(ステップS106)。 Further, an object image through image, aiming, distance information, etc. with, is displayed on the finder display unit 119 (step S106). すなわち、図5の説明図における(a)に示すように、撮像素子109からの撮像信号をA/D変換器114によりデジタルデータに変換し、画像信号処理部115で信号処理することにより、ファインダー表示部119に被写体スルー画像160を表示させる。 That is, as shown in (a) in the illustration of FIG. 5, by converting the digital data to the signal processed by the image signal processing unit 115 by the A / D converter 114 the imaging signal from the imaging device 109, a finder and it displays the object through image 160 on the display unit 119.

次に、操作入力部130での操作により音声の走査(スキャン)が指示されたか否かを判断し(ステップS107)、指示されていない場合には後述する図4のステップS121に進む。 Next, it is determined whether the sound scan (scan) is instructed by the operation from the operation input unit 130 (step S107), if not indicated the process proceeds to step S121 in FIG. 4 to be described later. また、音声の走査(スキャン)が指示された場合には、画像サイズ(X′Y′)、焦点距離(f)、デジタルズーム倍率(M)に応じて走査範囲(θxmin、θxmax等)、走査間隔(Δθx等)を設定する(ステップS108)。 Also, when the voice of scanning (scan) is instructed, the image size (X'Y '), the focal length (f), the scanning range in accordance with the digital zoom ratio (M) (θxmin, θxmax etc.), scan spacing (Derutashitax) are set as (step S108). 引き続き、θy=θyminとするとともに(ステップS109)、θx=θxminとする(ステップS110)。 Subsequently, with the θy = θymin (step S109), and the θx = θxmin (step S110). そして、下記式を用いて走査音源方向(θx,θy)にフォーカスする為の各遅延器D(k)の遅延時間tD(j,k)を設定する(ステップS111)。 Then, set the delay time tD of the scanning sound source direction by using the following formula ([theta] x, [theta] y) each of the delay units D for focus (k) (j, k) (step S111).
tDx(j)=(m−j)・dx・sinθx/c、 tDx (j) = (m-j) · dx · sinθx / c,
tDy(k)=(n−k)・dy・sinθy/c、 tDy (k) = (n-k) · dy · sinθy / c,
tD(j,k)=√[{tDx(j)} +{tDy(k)} tD (j, k) = √ [{tDx (j)} 2 + {tDy (k)} 2]
(但し、k:マイク番号1〜n、d:マイク間隔、c:音速) (However, k: microphone number 1 to n, d: microphone spacing, c: sound velocity)

次に、θx、θy方向に指向した音声を所定時間づつ入力音声メモリMs(入力音声メモリ137)にθx、θy、tとして記録する(ステップS112)。 Next, [theta] x, the voice that is directed in the [theta] y direction by a predetermined time at a time the input speech memory Ms (input voice memory 137) θx, θy, recorded as t (step S112). 引き続き、θx=θx+Δθxとし(ステップS113)、θx>θxmaxであるか否かを判断する(ステップS114)。 Subsequently, the θx = θx + Δθx (step S113), and determines whether the θx> θxmax (step S114). この判断がNOである場合には、ステップS111からの処理を繰り返す。 If the determination is NO, the process is repeated from step S111. また、YESであるならば、θy=θy+Δθyとし(ステップS115)、θy>θymaxであるか否かを判断する(ステップS116)。 Further, if it is YES, the θy = θy + Δθy (step S115), and determines whether the θy> θymax (step S116). この判断がNOである場合には、ステップS110からの処理を繰り返す。 If the determination is NO, the process is repeated from step S110. また、YESであるならば、入力音声メモリ137のMs(θx,θy)に記憶された抽出音声から特徴データCs(θx,θy)を算出し(ステップS117)、この特徴データCs(θx,θy)をθx,θy座標上にプロットして二次元画像を描画する(ステップS118)。 Further, if it is YES, Ms ([theta] x, [theta] y) of the input voice memory 137 and calculates feature data Cs ([theta] x, [theta] y) from the extracted speech stored (step S117), the feature data Cs ([theta] x, [theta] y ) and [theta] x, draws a two-dimensional image is plotted on θy coordinates (step S118). さらに、特徴抽出データ画像を半透明化し(ステップS119)、半透明化した特徴抽出データ画像をスルー画像に重ねてファインダー表示部119に表示する(ステップS120)。 Further, feature extraction data images translucent (Step S119), and displays on the finder display section 119 overlapping the feature extraction data image translucent to the through image (step S120).

すなわち、図5に示すように、マイクロホンアレー部103からの音声データを指向性制御部144、145の制御により遅延制御し、走査方向別に入力音声メモリ137に記憶し、指向性を走査して入力した音声から特徴データを抽出して、特徴抽出データメモリ151に格納し、この特徴抽出したデータから二次元画像161を生成する。 That is, as shown in FIG. 5, the audio data delayed controlled by the control of the directivity control section 144 and 145 of the microphone array 103, and stored in the input speech memory 137 by the scanning direction, by scanning the directional input and extracting feature data from the voice, and stored in the feature data memory 151, to generate a two-dimensional image 161 from the feature extraction data. この二次元画像は、同図(b)に示すように、音圧レベルに応じて異なる色とする。 The two-dimensional image, as shown in FIG. (B), and different colors depending on the sound pressure level. そして、この(b)に示した二次元画像を半透明化し、同図(c)に示すこの半透明化した特徴抽出データ画像162を同図(a)の前記被写体スルー画像160に重ねて表示する。 Then, displaying a two-dimensional image shown in the (b) semi-transparent, overlapping the feature extraction data image 162 obtained by the translucent shown in (c) to the subject through image 160 of FIG. (A) to. これにより、ファインダー表示部119には同図(d)に示すように、被写体スルー画像160と半透明化した特徴抽出データ画像162とが重畳して表示されることとなる。 Thus, the viewfinder display unit 119 and is displayed superimposed as shown in FIG. 2 (d), the feature data image 162 that is translucent the subject through image 160. したがって、ユーザはこの(d)に示した表示状態を視認することにより、複数の被写体においていずれの被写体からどの程度の音圧の音(音声)が発生しているか視覚的に認識することができる。 Accordingly, the user by visually recognizing the display state shown in this (d), it is possible to sound the degree of sound pressure (sound) is either visually recognized is generated from any of the subject in a plurality of subjects .

そして、図4のフローチャートに示すように、ユーザによる操作入力部130での操作により、被写体の音声方向の選択がなされたか否かを判断し(ステップS121)、この選択がなされていない場合にはステップS122及びS123の処理を行うことなく、ステップS123に進む。 Then, as shown in the flowchart of FIG. 4, when the operation of the operation input unit 130 by the user, it is determined whether the selection of the voice direction of the object is made (Step S121), the selection has not been made step S122 and without executing S123, the process proceeds to step S123. このとき、ユーザが図6(5)に示すように、操作入力部130での操作により、映像フォーカス照準163を音声強調または抑圧させたい被写体上に移動させると、被写体までの距離が測距され同図に示すように「4M」なる映像フォーカスした被写体距離が表示される。 At this time, the user as shown in FIG. 6 (5), by the operation from the operation input unit 130, moving image focus sight 163 on the object you want to speech enhancement or suppression, the distance to the subject is ranging subject distance and image focus comprising "4M" as shown in the drawing is displayed. そして、この被写体上の映像フォーカス照準163をユーザが指Fでタッチした後、操作入力部130にて「音声強調設定ボタン」または「音声抑圧設定ボタン」を押下すると、被写体の音声方向の選択がなされる。 After the image focus sight 163 on the subject user has touched with a finger F, and presses the "speech enhancement setting button" or "audio suppression setting button" on the operation input unit 130, the selection of the voice direction of the object It is made.

したがって、図4のフローチャートにおいては、音声強調の設定がなされたことにより、ステップS121の判断がYESとなってステップS122に進み、入力座標を被写体や音源の位置座標(x,y)、RAMに記憶する(ステップS122)。 Therefore, in the flowchart of FIG. 4, by setting the speech enhancement has been made, the process proceeds to step S122 the determination in step S121 becomes YES, and the input coordinate position coordinates of the object or sound (x, y), the RAM stored (step S122). すなわち、図6に示すように、ズーム動作に応じて焦点距離と画角座標は変化するが、同図(6)に示すようよう焦点距離f=6mmであったとすると、ユーザが指Fでタッチした入力座標として、同図(7)に示すように、(x,y)=(0.7,0.1)を得ることができる。 That is, as shown in FIG. 6, when the focal distance and angle coordinates according to the zoom operation varies, and was the focal length f = 6 mm, as such shown in FIG. 6, the touch user with a finger F as the input coordinates, as shown in FIG. (7), can be obtained (x, y) = (0.7, 0.1). 次に、下記例示式を用いて、入力位置座標(x,y)をレンズ焦点距離(f)、画像サイズ(X′,Y′)、デジタルズーム倍率(M)に基づいて、音源方向(θx,θy)に変換する(ステップS123)。 Next, with reference to the following illustrative equation, input position coordinates (x, y) of the lens focal length (f), image size (X ', Y'), on the basis of the digital zoom ratio (M), the sound source direction ([theta] x, converted to [theta] y) (step S123).
(例)θx=tan −1 ((x/xmax)×X′/2f)/M、 (Example) θx = tan -1 ((x / xmax) × X '/ 2f) / M,
θy=tan −1 ((y/ymax)×Y′/2f)/M、 θy = tan -1 ((y / ymax) × Y '/ 2f) / M,

図7に、画角や半画角、被写体範囲がズーム操作などレンズ焦点距離(f)の変化に伴って変化するときの強調音源方向座標(θx,θy)の換算例を示す。 Figure 7 shows the angle of view and the half field angle, a conversion example of enhancement sound source direction coordinate ([theta] x, [theta] y) of when the object range changes with a change in lens focal length such as the zoom operation (f). 本実施の形態においては、被写体や音源の選択は、選択されたファインダー表示の位置座標(x,y)から、撮影時のズーム倍率若しくは焦点距離(f)と画像サイズ(X′、Y′)に応じて、音源の方向角度θfまたはθs、方向角度座標(θx,θy)を算出して設定するので、ズーム倍率や画角が変わっても、対応できる。 In the present embodiment, the selection of the object or sound is selected viewfinder coordinates (x, y) from the zoom magnification or the focal length at the time of photographing (f) an image size (X ', Y') depending on the sound source direction angle θf or [theta] s, the direction angle coordinates ([theta] x, [theta] y) so calculates and sets a, they change the zoom magnification and the field angle, it can respond. タッチパネルやカーソルによる画面上の入力位置座標(x,y)は、−1.0≦x≦1.0、・・−0.75x≦0.75の範囲とすると、被写体や特定音源の角度θは、同図に示す半画角(2/θ)に相当させているので、位置座標(x,y)をレンズ焦点距離(f)と、画像サイズ(X′,Y′)とに基づいて、強調音源方向の角度θf、または、方向座標(θx,θyに変換するには、 Input position coordinates on the screen by the touch panel or the cursor (x, y) is, -1.0 ≦ x ≦ 1.0, when the range of ·· -0.75x ≦ 0.75, the angle of an object or a specific sound source θ since to be equivalent to a half angle of view shown in FIG. (2 / theta), the position coordinates (x, y) and lens focal length (f) an image size (X ', Y') based on the , emphasizing the sound source direction angle θf, or to convert the direction coordinates ([theta] x, the θy is
例えば、xmax=1.0,ymax=0.75として、 For example, xmax = 1.0, as ymax = 0.75,
θx=tan −1 {(x/xmax)×X′/2f}、θy=tan −1 (y/ymax)×Y′/2f)}、等として変換される(図の例では、撮像サイズX′=横5.27、Y′=縦3.96mm、焦点距離f=6mmの場合に、入力位置座標=(0.7,−0.1)から、θx=tan −1 {(0.7/1.0)×5.27/(2×6)}=+17.1、θy=tan −1 {(−0.1/0.75)×3.95/(2×6)}=−2.5、がそれぞれ設定される。)。 θx = tan -1 {(x / xmax) × X in the example of the converted is (Figure as '/ 2f}, θy = tan -1 (y / ymax) × Y' / 2f)}, and the like, an imaging size X '= horizontal 5.27, Y' = longitudinal 3.96mm, in the case of focal length f = 6 mm, from the input position coordinate = (0.7, -0.1), θx = tan -1 {(0.7 /1.0)×5.27/(2×6)}=+17.1,θy=tan -1 {(-0.1 / 0.75) × 3.95 / (2 × 6)} = - 2.5, but are set, respectively.).

θfは、マイクロホンアレー部103がマイク配列が横並び(水平方向)のみの場合は、θf=θxとして利用し、マイク配列が縦並び(垂直方向)のみの場合は。 .theta.f, if the microphone array 103 is a microphone array side-by-side (horizontal direction) only, using as .theta.f = [theta] x, in the case of a microphone array tandem (vertical direction) only. θf=θyとして利用すればよい。 It may be utilized as θf = θy. 配列が二次元配列で、水平及び垂直の両方向とも利用する場合には、前記遅延時間の設定では、水平方向tDx(j)=(m−j)・dx・sinθx/c、垂直方向tDy(k)=(n−k)・dy・sinθy/c、したがって、tD(j,k)=√[{tDx(j)} +{tDy(k)} ]などと設定すればよい。 Sequence in a two-dimensional array, in the case of using with both the horizontal and vertical, in setting of the delay time, the horizontal tDx (j) = (m-j) · dx · sinθx / c, vertical TDY (k ) = (n-k) · dy · sinθy / c, therefore, tD (j, k) = √ [{tDx (j)} 2 + {tDy (k)} 2] , etc. and may be set.

また、デジタルズームなどで、光学系の倍率やレンズ焦点距離は変わらないが、画像処理により撮影画角が変わる場合にも、同様に、デジタルズームの横または縦の拡大倍率、若しくは焦点距離換算の倍率Mを用いて、ファインダー画面上での入力座標に対して画角も倍率M分の1と狭くなるので、被写体や音源の方向はθfは、 Also, digital zoom, etc., does not change the magnification and a lens focal length of the optical system, even if the imaging angle of view by image processing is changed, similarly, horizontal or vertical magnification of digital zoom, or magnification M of the focal distance conversion with, since the angle of view becomes narrow as 1 magnification M frequency to the input coordinates on the finder screen, the direction of the object or sound is θf is
θf=θx=(x/xmax)×tan −1 [X′/2f]/M、または、 θf = θx = (x / xmax ) × tan -1 [X '/ 2f] / M , or
θf=θy=(y/ymax)×tan −1 [y′/2f]/M、と補正すればよい。 θf = θy = (y / ymax ) × tan -1 [y '/ 2f] / M, and may be corrected.

次に、音声強調(ステップS124)と音声抑圧(ステップS125)のいずれが設定されたか否かを判断する。 Next, it is determined whether one is set speech enhancement (step S124) and voice suppression (step S125). そして、音声抑圧の設定された場合には、音源方向(θx,θy)を音源抑圧方向θSとして設定する(ステップS126)。 When it is set speech suppression, the sound source direction ([theta] x, [theta] y) and is set as the sound source suppression direction .theta.S (step S126). そして、この音源抑圧方向(θSx,θSy)に基づいて、下記例示次式により、音圧抑制部(指向性ビーム生成部135)の各遅延器D(k)の遅延時間tD(j,k)を設定する(ステップS127)。 Then, the sound source suppression direction (θSx, θSy) based on, the following exemplary equation, the sound pressure suppression unit delay time of each delay unit D of (directional beam generator 135) (k) tD (j, k) the set (step S127).
(例)tDx(j)=(m−j)・dx・sinθSx/c、 (Example) tDx (j) = (m-j) · dx · sinθSx / c,
tDy(k)=(m−k)・dy・sinθSy/c、 tDy (k) = (m-k) · dy · sinθSy / c,
tD(j,k)=√[{tDx(j)} +{tDy(k)} tD (j, k) = √ [{tDx (j)} 2 + {tDy (k)} 2]
(但し、j:横配列マイク番号1〜m、k:縦配列マイク番号1〜n、d:マイク 間隔、c:音速) (However, j: transversely aligned microphone number 1 to m, k: vertical type microphone number 1 to n, d: microphone spacing, c: sound velocity)
さらに、音声抑圧の照準を音声抑圧設定マークとともに、スルー画像に重ねてファインダー表示する(ステップS128)。 Further, aiming with sound suppression setting mark the voice suppression and viewfinder display superimposed on the through image (step S128).

また、音声強調の設定された場合には、音源方向(θx,θy)を音源強調方向θFとして設定する(ステップS129)。 Further, when it is set in the speech enhancement, source direction ([theta] x, [theta] y) and is set as the sound source emphasized direction .theta.F (step S129). そして、この音源抑圧方向(θFx,θFy)に基づいて、下記例示次式により、音圧抑制部(指向性ビーム生成部135)の各遅延器D(k)の遅延時間tD(j,k)を設定する(ステップS130)。 Then, the sound source suppression direction (θFx, θFy) based on, the following exemplary equation, the sound pressure suppression unit delay time of each delay unit D of (directional beam generator 135) (k) tD (j, k) the set (step S130).
(例)tDx(j)=(m−j)・dx・sinθFx/c、 (Example) tDx (j) = (m-j) · dx · sinθFx / c,
tDy(k)=(m−k)・dy・sinθFy/c、 tDy (k) = (m-k) · dy · sinθFy / c,
tD(j,k)=√[{tDx(j)} +{tDy(k)} tD (j, k) = √ [{tDx (j)} 2 + {tDy (k)} 2]
さらに、音声抑圧の照準を音声抑圧設定マークとともに、スルー画像に重ねてファインダー表示する(ステップS131)。 Further, aiming with sound suppression setting mark the voice suppression and viewfinder display superimposed on the through image (step S131).

しかる後に、録音中または動画撮影中であるか否かを判断し(ステップS132)、録音中または動画撮影中のいずれでもない場合にはその他の処理を実行して(ステップS140)、リターンする。 Thereafter, it is determined whether the during recording or movie recording (step S132), when neither during recording or movie recording to perform other processing (step S140), and returns. 録音中または動画撮影中である場合には、マイクロホンアレー部103からの音声を入力させ(ステップS133)、前述した設定方向音声の強調処理(ステップS134)と設定方向音声の抑圧処理(ステップS135)のいずれが設定されているかを判断する。 If it is during recording or video recording is to input voice from the microphone array 103 (step S133), reduction processing of the set direction audio and enhancement processing setting direction voice described above (step S134) (step S135) either to determine whether it is set in. そして、いずれの処理も設定されていない場合には、通常の雑音抑圧処理を実行する(ステップS136)。 Then, any processing even when not set, executes the normal noise suppressing process (Step S136). また、設定方向音声の抑圧処理が設定されている場合には、マイクロホンアレー部103の各遅延器D1〜Dn出力を加減算合成して、特定方向を抑圧処理した音声を音声メモリ138に出力させる(ステップS137)。 Further, when the suppressing process in the setting direction speech is set, each delay device D1~Dn output of the microphone array 103 by subtracting synthesized, and outputs sounds is suppressed handle a particular direction in the voice memory 138 ( step S137). また、設定方向音声の強調処理が設定されている場合には、マイクロホンアレー部103の各遅延器D1〜Dn出力を加算合成して、特定方向を強調処理した音声を音声メモリ138に出力させる(ステップS138)。 Furthermore, when the emphasizing process of setting direction speech is set, each delay device D1~Dn output of the microphone array 103 by additive synthesis, and outputs sounds emphasized handle a particular direction in the voice memory 138 ( step S138). そして、音声圧縮符号器/伸長復号器139および/または画像圧縮符号器/伸長復号器120で、録音音声および/または撮像映像の符号化処理させて、符号化音声メモリ140および/または符号化画像メモリ121に記録する(ステップS115)。 Then, in the audio compression encoder / decompression decoder 139 and / or image compression encoder / decompression decoder 120, voice recording and / or by the encoding processing of video image, the encoded voice memory 140 and / or the coded image recorded in the memory 121 (step S115). しかる後に、その他の処理を実行して(ステップS140)、リターンする。 Thereafter, by performing the other processing (step S140), and returns.

(第1の実施の形態の変形例) (Modification of First Embodiment)
図8〜10は、前記フローチャートにおいて説明したマクロホンアレーによる指向制御、音声強調、音声抑圧処理の変形例を示すブロック回路図である。 8-10 directivity control by macro Hong array described in the flowchart, the sound enhancement is a block circuit diagram showing a modification of the audio suppression process.
図8は、2個のマイクM1,M2を用いるものであって、この2個のマイクM1,M2の間隔d、特定音源の方向θが既知であり、マイク間隔dに比べて特定音源までの距離Lが遠距離(L>>d)である場合である。 8, there is used the two microphones M1, M2, the distance d of the two microphones M1, M2, are known the direction θ of a particular sound source, to a particular sound source, compared to the microphone spacing d distance L is a case of a long distance (L >> d). 図に示すように、特定方向の特定音源からの音声w(n)を強調したい場合には、特定音声w(n)に近い側のマイクM1に先に音声が伝達され、他のマイクM2には少し遅れて音声が入力される。 As shown in the figure, when it is desired to emphasize the voice w (n) from a specific sound source in a particular direction, the sound is transmitted earlier on the side of the microphone M1 near the specific sound w (n), the other microphone M2 the voice is input with a slight delay. このとき、角度θに応じて先に伝達する音源に近い側のマイクM1に、他のマイクM2より進んでいる分に相当する遅延時間(T )を遅延器Dにより設け、遅い側のマイクM2では遅延時間=0に設定してその出力を加算回路170で加算する。 At this time, on the side of the microphone M1 near the sound source to transmit earlier in accordance with the angle theta, provided by delay unit D delay time (T D) corresponding to the amount that is ahead other microphone M2, slow side of the microphone M2 the delay time = set to 0 and adding the output by the addition circuit 170.

すると、方向θからの音声信号は、各マイクM1、M2からの伝播時間は加算回路170入力時では同じになって強調されることとなり、他の方向からの信号は互いに少しづつ打ち消し合うので、相対的に抑圧されることとなる。 Then, the audio signal from the direction theta, since the propagation time from the microphones M1, M2 become to be emphasized is the same at the time of input summing circuit 170, signals from other directions cancel little by little from one another, and thus it is relatively suppressed. したがって、各マイクM1、M2の遅延回路の遅延時間t を設定制御することにより、任意の特定方向θじ指向性を設けて音声強調を行い、電子的に指向性を可変制御することができる。 Therefore, by setting the control delay time t D of the delay circuit of the microphones M1, M2, performs speech enhancement by providing any particular direction θ Ji directivity, electronically directivity can be variably controlled .

同様に、特定方向θからの音声に対して伝播時間を揃え、前記とは逆に減算回路171で互いに相殺するようにすると、特定の音源方向θからの音声に死角を作って抑圧することができ、雑音抑制回路として利用できる。 Similarly, aligning the propagation time for sound from a specific direction theta, when so as to cancel each other in the subtracting circuit 171 contrary to the above, is possible to suppress creating blind spots to the sound from a specific sound source direction theta can be, it can be used as a noise suppression circuit.

遅延量(T )を決定するためには、いずれの場合も、音源の方向θが既知であることが必要である。 To determine the amount of delay (T D) is in each case it is necessary that the direction of the sound source θ is known. 本実施の形態では、ユーザがファインダー(表示部119)視野内から選択した被写体を入力し、その入力座標に対応する方向を特定音源方向θとして設定するので、方向θを推測する必要がなく、容易に演算して設定できる。 In this embodiment, the user finder (display unit 119) inputs a subject selected from the field of view, so to set a direction corresponding to the input coordinates as the specific sound source direction theta, it is not necessary to guess the direction theta, easily be calculated and set.

例えは、2個のマイクM1,M2の場合には、マイクM1,M2への伝播遅れ時間は、それぞれt =0、t =d・sinθ/cとなるので、マイクM1,M2の各遅延回路の遅延時間t D1 ,t D2には、それぞれ他方の伝播遅れ時間、すなわち、 For example, in the case of two microphones M1, M2, the propagation delay time to the microphone M1, M2, since each becomes t 1 = 0, t 2 = d · sinθ / c, each of microphones M1, M2 the delay time t D1, t D2 of the delay circuit, each other propagation delay time, i.e.,
D1 =t =d・sinθ/c、t D2 =t =0 (d:マイク間隔、c:音速)を設定すればよい。 t D1 = t 2 = d · sinθ / c, t D2 = t 1 = 0 (d: microphone spacing, c: sound velocity) may be set.

また、図9に示すように、特定方向からの音声を強調したい場合には、特定音声に近い側のマイクに先に音声が伝播され、他のマイクには順に少しずつ遅れて音声信号が入力される。 Further, as shown in FIG. 9, when it is desired to emphasize the sound from a specific direction, sound is propagated forward to the side of the microphone close to the specific sound, turn little by little late speech signal is input to the other microphone It is. このとき、角度θに応じて、先に伝播する音源に近い側のマイク(図示ではマイク1)に、他より進んでいる分に相当する遅延時間(tD)を遅延器により設け、一番遅い側のマイクでは遅延時間=0に設定して、それらの出力を加算器136で加算合成する。 At this time, in accordance with the angle theta, the (microphone 1 in the illustrated) side of the microphone close to the sound source propagates above, provided by the delay circuit delay time (tD) corresponding to the amount that is ahead of the other, slower most on the side of the microphone by setting the delay time = 0, adds synthesize their output in the adder 136. すると、方向θからの音声信号では、各マイクからの伝播時間は加算器136の入力時では同じになって互いに強調されることとなり、他の方向からの信号では互いに少しずつ打ち消し合うので相対的に抑圧されることとなる。 Then, the audio signal from the direction theta, propagation time from each microphone will be emphasized together is the same at the time of input of the adder 136, relative since cancel slightly each other by a signal from other directions the be suppressed to. したがって、各マイクの遅延時間(tD)を設定制御することにより、任意の特定方向θに指向性を設けて音声強調を行い、電子的に指向性を可変制御することができる。 Therefore, by setting the control delay time of each microphone (tD), it performs speech enhancement by directional provided any particular direction theta, an electronically directed can be variably controlled.

また、図10に示すように、特定方向θからの音声に対して伝播時間を揃え、前記とは逆に複数組を加減算回路171で互いに相殺するようにすると、特定の音源方向θからの音声に死角を作って抑圧することができ、雑音抑圧回路としても利用できる。 Further, as shown in FIG. 10, align the propagation time for sound from a specific direction theta, when so as to cancel each other a plurality of sets in addition and subtraction circuit 171 conversely to the voice from a specific sound source direction theta to create a blind spot can be suppressed to, it can also be used as a noise suppression circuit. マイクロホンアレーでは、雑音の到来方向への死角を形成することにより雑音抑圧するので、どのような特性の雑音でも除去可能であるが、雑音源数よりもマイクロホンの数が多い必要がある。 The microphone array, since the noise suppression by forming a blind spot in the arrival direction of the noise, In any noise characteristics but can be removed, there must the number of microphones is greater than the noise source number.

図11は、特徴データの二次元画像を生成する処理の例を示すものである。 Figure 11 shows an example of a process for generating a two-dimensional image of the feature data. 各方向に抽出された音声特徴抽出データをCs(θx,θy)とすると、これを二次元空間[x,y]にプロットして画像P [x,y]を作成する。 The speech feature extraction data extracted in each direction Cs (θx, θy) When, which was plotted in two-dimensional space [x, y] to create the image P 1 [x, y]. この画像P [x,y]と、例えば、斜線や縦線、横線、ハッチング線などで色分け区分表示する為の半透明化(格子)パターンP [x,y]とを、各要素毎にAND(論理積)処理して特徴抽出データを半透明化した二次元画像P [x,y]を合成する。 The image P 1 [x, y] and, for example, diagonal lines and vertical lines, horizontal lines, translucent for color division display like hatching (grating) pattern P 2 [x, y] and, for each element synthesizing aND (logical product) operation and the two-dimensional image P 3 of a feature extraction data were translucent by [x, y] on. あるいは、被写体像を観察しやければ、半透明化する代わりに、特徴データの値に応じた輪郭画像や等高線の画像を合成する等、他の方法でもよい。 Alternatively, if Yakere observe the subject image, instead of translucent, etc. to synthesize the images of contour images and contours in accordance with the value of the characteristic data, or in other ways.

図12は音声強調する被写体の方向を設定するときの表示例を示す図である。 Figure 12 is a view showing a display example when setting the direction of the voice emphasized subject. 図示のように、本例においては、ファインダー表示部119に、特徴抽出データ指標/単位180、音声特徴抽出データの二次元画像181、被写体像スルー画像182、音声強調設定マーク183、音声強調する音源の照準(設定方向)184、カメラの映像フォーカスの照準185、撮影/録音できる残り時間186、撮影/録音モード表示187を表示させるものである。 As shown, in this example, the viewfinder display unit 119, feature extraction data indicator / unit 180, the two-dimensional image 181 of the audio feature data, the object image through image 182, a speech enhancement setting mark 183, the voice emphasizing sound source aiming (setting direction) 184, sight 185 of the camera image focus, remaining time 186 that can record audio / video, is intended to display the audio / video recording mode display 187.

図13は、抑圧したい音源や被写体の方向を設定するときの表示例を示すものである。 Figure 13 shows a display example when setting the direction of the sound source and object to be suppressed. 図示のように、本例においては、ファインダー表示部119に、前記特徴抽出データ指標/単位180、音声特徴抽出データの二次元画像181、被写体像スルー画像182、音カメラの映像フォーカスの照準185、撮影/録音できる残り時間186、撮影/録音モード表示187を表示させるのみならず、雑音抑圧設定マーク188、音声抑圧する音源の照準(設定方向)189を表示させるものである。 As shown, in this example, the viewfinder display unit 119, the feature extraction data indicator / unit 180, the two-dimensional image 181 of the audio feature data, the object image through image 182, the sound camera sight 185 of the image focus, capturing / recording can rest 186 not only displays the audio / video recording mode display 187, the noise suppression setting mark 188 is intended to display a sighting (setting direction) 189 of the sound source of sound suppression.

図14及び図15は、走査(スキャン)入力された音声信号から解析抽出する特定データの例を示す図である。 14 and 15 are diagrams showing an example of a specific data analyzing extracted from the scan (scan) the input audio signal. 図14に示した例においては、遅延回路群からなる前記指向性ビーム生成部135からの信号を抽出音声メモリ190に記憶し、積算回路191で積算して方向別の音声データを方向別音声データメモリ192に記憶させる。 In the example shown in FIG. 14, the directional beam generator signals 135 stored in the extracted audio memory 190, integrated and direction-specific audio data direction different voice data in the integrated circuit 191 comprising a delay circuit group to be stored in the memory 192. そして、この方向別の音声データに基づき、(a)方向別の音圧を一次元表示させ、あるいは(b)二次元表示させる。 Then, based on the direction-specific sound data, (a) the direction-specific sound pressure is displayed one dimensional, or (b) displaying a two-dimensional.

図15に示した例においては、遅延回路群からなる前記指向性ビーム生成部135からの信号を抽出音声メモリ190に記憶し、フーリエ変換(FFT)回路191でフーリエ変換して振幅スペクトル|X(ω)|を出力させ、方向別の音声スペクトルデータを方向別音声スペクトルデータメモリ193に記憶させる。 In the example shown in FIG. 15, stores the signal from the directional beam generating unit 135 composed of a delay circuit group in the extracted voice memory 190, a Fourier transform (FFT) amplitude spectrum by Fourier transform circuit 191 | X ( omega) | is output, and stores the direction different voice spectral data in a direction different speech spectrum data memory 193. そして、この方向別の音声スペクトルデータに基づき、(a)音声信号、(b)音声のスペクトル、(c)音声スペクトルの時間変化(ソナグラフ、スペクトログラム)、(d)方向別の音声スペクトルを生成する。 Then, based on the direction-of speech spectrum data to generate (a) audio signal, (b) voice spectrum, (c) time variation of the speech spectrum (Sonagurafu, spectrogram), (d) a direction different speech spectrum . この(d)方向別の音声スペクトルに基づき、(e)方向別の音声スペクトル(一次元表示)、(f)方向別の音声スペクトル(二次元表示)、(g)方向別の音声スペクトル(三次元表示)を行う。 Based on this (d) direction by the speech spectrum, (e) each direction of speech spectrum (one-dimensional display), (f) direction different voice spectrum (two-dimensional display), (g) each direction of speech spectrum (tertiary perform the original display).

(第2の実施の形態) (Second Embodiment)
図16は、本発明の第2の実施の形態に係るデジタルカメラ300の回路構成を示すブロック図である。 Figure 16 is a block diagram showing a circuit configuration of the digital camera 300 according to the second embodiment of the present invention. このデジタルカメラ300は、AE、AWB、AF等の一般的な機能を有するものであり、撮像レンズ302は、ズームレンズ、フォーカスレンズで構成され、フォーカス駆動部305及びズーム駆動部306により駆動される。 The digital camera 300 is one having AE, AWB, the general function of AF, etc., an imaging lens 302, the zoom lens is composed of a focus lens is driven by a focus driver 305 and a zoom driving unit 306 . この撮像レンズ302の光軸上には絞り307、シャッタ308及びCCD等で構成される撮像部309が配置されている。 Aperture 307 on the optical axis of the imaging lens 302, the imaging unit 309 is arranged constituted by the shutter 308 and a CCD. 絞り307とシャッタ308とは、絞り/シャッタ駆動部310に接続され、撮像部309はドライバ311に接続されている。 The aperture 307 and the shutter 308 is connected to the aperture / shutter driving unit 310, imaging unit 309 is connected to the driver 311.

このデジタルカメラ300全体を制御する撮影/録音制御回路312(以下、単に制御回路312という。)は、CPU、ROMおよびワーク用のRAM等で構成されている。 The digital camera 300 controls the entire photographing / recording control circuit 312 (hereinafter, simply referred to as control circuit 312.) Is, CPU, and a RAM or the like for the ROM and the work. ROMには、制御回路312に前記各部を制御させるための各種のプログラム、例えばAE、AF、AWB制御用のプログラムや、制御回路312を本発明の各種手段として機能させるためのプログラム等の各種のプログラムが格納されている。 The ROM, the various order to control the respective units in the control circuit 312 programs, for example AE, AF, and programs for AWB control, such as a program for causing a control circuit 312 as various means of the present invention various program is stored. この制御回路312には、前記駆動部304とともにドライバ311が接続されており、ドライバ311は、制御回路312が発生するタイミング信号に基づき、撮像部309を駆動する。 The control circuit 312, together with the driving unit 304 are driver 311 is connected, the driver 311 based on the timing signal control circuit 312 generates, drives the imaging unit 309.

また、前記撮像部309の受光面には、撮像レンズ302によって被写体が結像される。 Further, the light receiving surface of the imaging unit 309, an object is imaged by the imaging lens 302. 撮像部309は、ドライバ311によって駆動され、被写体の光学像に応じたアナログの撮像信号をユニット回路313に出力する。 Imaging unit 309 is driven by the driver 311, and outputs the analog imaging signal corresponding to an optical image of an object to the unit circuit 313. ユニット回路313は、撮像部309の出力信号に含まれるノイズを相関二重サンプリングによって除去するCDS回路や、この映像信号を増幅するゲイン調整アンプ(AGC)等で構成される。 Unit circuit 313, and CDS circuit for removing noise contained in the output signal of the imaging unit 309 by correlated double sampling, and a gain adjusting amplifier (AGC) for amplifying the video signal. このユニット回路313からの映像信号はA/D変換器314によりデジタルデータに変換され、映像信号処理部315へ出力される。 Video signal from the unit circuit 313 is converted into digital data by the A / D converter 314, and output to the video signal processing unit 315.

映像信号処理部315は、入力した撮像信号に対しペデスタルクランプ等の処理を施し、それを輝度(Y)信号及び色差(UV)信号に変換するとともに、オートホワイトバランス、輪郭強調、画素補間などの画品質向上のためのデジタル信号処理を行う。 Video signal processing unit 315 performs processing such as pedestal clamp to the imaging signal input thereto, the converts into luminance (Y) signal and color difference (UV) signal which, auto white balance, edge enhancement, such as a pixel interpolation It performs digital signal processing for image quality improvement. 映像信号処理部315で変換されたYUVデータは順次画像メモリ316に格納されるとともに、RECスルー・モードでは1フレーム分のデータ(画像データ)が蓄積される毎にビデオ信号に変換され、表示部319へ送られてスルー画像として画面表示される。 With the converted YUV data by the video signal processing unit 315 are sequentially stored in the image memory 316, the REC through mode is converted into a video signal every time one frame of data (image data) is stored, the display unit sent to 319 it is displayed on the screen as a through image.

そして、静止画撮影モードにおいては、シャッターキー操作をトリガとして、制御回路312は、撮像部309、ドライバ311、ユニット回路313、及び映像信号処理部315に対してスルー画撮影モードから静止画撮影モードへの切り替えを指示し、この静止画撮影モードによる撮影処理により得られた画像データは、画像符号器/復号器320で圧縮及び符号化され、最終的には所定のフォーマットの静止画ファイルとして、入力インターフェース322を介して外部メモリ(図示せず)に記録される。 Then, in the still image shooting mode, a trigger shutter key operation, the control circuit 312, still picture mode imaging unit 309, the driver 311, the unit circuit 313 and the video signal processing unit 315, from the through image photography mode instructs switching to the image data obtained by the photographing process by the still image shooting mode is compressed and encoded by the image encoder / decoder 320, and finally as a still image file of a predetermined format, via the input interface 322 is recorded in the external memory (not shown).

また、動画撮影モードにおいては、1回目のシャッターキーと2回目のシャッターキー操作との間に、画像メモリ316に順次記憶される複数の画像データが画像符号器/復号器320で順次圧縮され、符号化画像メモリ321に順次記憶された後、動画ファイルとして外部メモリに記録される。 In the moving image shooting mode, between the first shutter key and the second shutter key operation, a plurality of image data sequentially stored in the image memory 316 are sequentially compressed by the image encoder / decoder 320, is successively stored in the coded image memory 321, it is recorded in the external memory as a moving image file. この外部メモリに記録された静止画ファイル及び動画ファイルは、PLAY・モードにおいてユーザーの選択操作に応じて画像伸張/復号化部318に読み出されるとともに伸張及び復号化され、表示部319に表示される。 Still image file and a moving image file recorded in the external memory, the PLAY · mode is decompressed and decrypted with read the image decompression / decoding unit 318 according to the user's selection operation is displayed on the display unit 319 .

また、このデジタルカメラ300は、各被写体(被写体A,B、C・・・)までの距離に応じた測距信号を発生する測距センサ326を備えており、この測距センサ326からの出力信号は、前記映像信号処理部315からの映像信号とともに、測距部/合焦検出部327に入力される。 Moreover, the digital camera 300, the subject (subject A, B, C ···) includes a distance measuring sensor 326 that generates a ranging signal corresponding to the distance to the output from the distance measuring sensor 326 signal, together with the video signal from the video signal processing unit 315, is inputted to the distance measuring unit / focus detection unit 327. 測距部/合焦検出部327はこれら入力信号に基づき、各被写体(被写体A,B・・・)までの距離を検出するものであって、この検出された距離は、被写体A,B・・・の被写体距離LA、LB、LCとしてフォーカス距離メモリ328に記憶される。 Distance measuring unit / focus detection unit 327 has been made to detect the distance to the basis of these input signals, the subjects (subjects A, B · · ·), the detected distance is subject A, B · · object distance LA, LB, are stored in the focus distance memory 328 as LC.

また、制御回路312には、座標入力部及び座標入力部(共に図示せず)が入力回路331を介して接続されている。 The control circuit 312, the coordinate input and the coordinate input section (both not shown) is connected via an input circuit 331. 座標入力部は、前記表示部319に積層されているタッチパネル(図示せず)からのタッチ信号に基づく座標値を、入力回路331を介して制御回路312に出力する Coordinate input unit outputs a coordinate value based on the touch signal from the touch panel that is stacked on the display unit 319 (not shown), the control circuit 312 via the input circuit 331

また、このデジタルカメラ300は、前記動画撮影モード、音声のみを記録する録音モード、音声付き(静止画)撮影モードにおいて、周囲音を記録する録音機能を備えており、このため周囲音を検出するマイクロホンを有し、このマイクロホンは前記マイクロホンアレー部103に配置されたマイクM1からマイクMnまでのn本のマイクロホンで構成されている。 Moreover, the digital camera 300, the moving image photographing mode, the recording mode for recording only audio, with audio (still image) in the shooting mode has a recording function of recording the ambient sound, detects the ambient sound for this has a microphone, the microphone is constituted by the n microphones from the microphone M1 arranged in the microphone array 103 to the microphone Mn. 各マイクからの音声信号は、対応する各アンプ333・・・で増幅され、A/D変換回路334でサンプルホールド及びデジタル変換され、雑音抽出部350と雑音抑圧部360とに入力される。 Audio signal from the microphone is amplified by the corresponding respective amplifiers 333, ..., is sampled and held and digital-converted by the A / D conversion circuit 334 is input to the noise extractor 350 and the noise suppression unit 360.

雑音抽出部350は、雑音抽出部350は、マイクnに対応して設けられたn個の遅延器D1〜Dn、これら遅延器D1〜Dnからの信号を増幅するアンプA1〜An、これらアンプA1〜Anからの出力を加算する加算器351、この加算器351から出力される特定方向を強調した音声データを一時的に記憶する抽出音声メモリ357と音声メモリ352、この音声メモリ352に記憶された音声データをフーリエ変換するフーリエ変換部353、このフーリエ変換部353で変換されたデータを前記雑音抑圧部360に送出する収録音のスペクトル部354を有している。 Noise extraction unit 350, the noise extraction unit 350, n number of delay units Dl to Dn provided corresponding to the microphone n, amplifier A1~An for amplifying the signals from the delay units Dl to Dn, these amplifiers A1 adder 351 for adding the outputs from .about.An, extracted audio memory 357 and audio memory 352 for temporarily storing audio data to emphasize specific direction output from the adder 351, stored in the audio memory 352 Fourier transform unit 353 performs Fourier transform of audio data, and a spectrum 354 of the recording sound for sending the converted data in the Fourier transform unit 353 in the noise suppression unit 360. 各遅延器D1〜Dnは、音声フォーカス設定メモリ355に記憶されるフォーカス方向座標θおよびフォーカス音源距離メモリ358に記憶されるフォーカス音源距離Lf基づき、遅延制御またはアレー制御を実行する遅延制御/アレー制御回路356により制御される。 Each delay unit D1~Dn, based focus sound source distance Lf stored in the focus direction coordinate θ and focused sound source distance memory 358 is stored in the speech focus setting memory 355, a delay control / array controller to perform the delay control or array controller It is controlled by the circuit 356.

一方、雑音抑圧部360は、収録音のスペクトル部354からの信号が入力される雑音スペクトルの推定部361、主マイクであるマイクN1側の信号が順次入力される窓関数部362、フーリエ変換部363、位相部364、逆フーリエ変換部365を有するとともに、前記フーリエ変換部363の出力信号から前記雑音スペクトルの推定部361の出力信号を減算して逆フーリエ変換部365に出力する減算回路366を有している。 On the other hand, the noise suppression unit 360, estimation unit 361 of the noise spectrum signal from the spectrum portion 354 of the recording sound is input, the window function 362 which signal of the microphone N1 side are sequentially inputted the main microphone, Fourier transform unit 363, a phase section 364, which has an inverse Fourier transform unit 365, a subtraction circuit 366 from the output signal of the Fourier transform unit 363 to the inverse Fourier transform unit 365 an output signal by subtracting the estimated portion 361 of the noise spectrum It has.

この逆フーリエ変換部365からの音声データは、音声メモリ338に格納され、この音声メモリ338に格納された音声データは、音声符号器/復号器339で順次圧縮される。 Audio data from the inverse Fourier transform unit 365 is stored in the voice memory 338, voice data stored in the audio memory 338 is sequentially compressed by the speech coder / decoder 339. 制御回路312は、この圧縮音声データと前記圧縮動画データとを含む音声付き動画ファイルを生成して外部メモリに記録する。 The control circuit 312 records the external memory to generate movies with sound file containing a the compressed audio data and the compressed video data.

以上の構成に係る本実施の形態において、制御回路312は前記プログラムに基づき、図17に示すフローチャートに示すように処理を実行する。 In this embodiment according to the above configuration, the control circuit 312 based on the programs and executes a process as shown in the flow chart shown in FIG. 17. すなわち、録音または動画撮影モードが設定されたか否かを判断し(ステップS201)、録音または動画撮影モード以外の他のモードが設定された場合には、設定された当該その他のモード処理を実行する(ステップS202)。 That is, it is determined whether recording or video recording mode is set (step S201), when the other mode other than recording or video recording mode is set, executes the other mode process is set (step S202). また、録音または動画撮影モードが設定されたならば、測光処理、WB処理を実行するとともに(ステップS203)、ズーム処理を行ってズーム駆動部306を制御する(ステップS204)。 Further, if the recording or movie recording mode is set, (step S203) and executes photometry process, the WB processing, controls the zoom driver 306 performs zoom process (step S204). また、測距センサ326を制御する測距処理を実行するとともに、フォーカス駆動部305を制御するAF処理を実行して被写体を合焦させる(ステップS205)。 Moreover, and it executes a distance measurement process of controlling the distance measuring sensor 326, focus the object by executing the AF processing for controlling the focus drive section 305 (step S205). 次に、このAF処理により合焦した被写体A、またはB、C、Dの距離情報を測距部/合焦検出部327により検出させて、フォーカスフォーカス距離メモリ328に記憶させる(ステップS206)。 Then, the object A is in focus by the AF processing or B,, C, by detecting the distance measuring unit / focus detection unit 327 the distance information and D, is stored in the focus focus distance memory 328 (step S206).

さらに、被写体像スルー画像を、照準、距離情報等とともに、ファインダーに表示させる(ステップS207)。 Further, an object image through image, aiming, distance information, etc. with, to be displayed on the viewfinder (step S207). また、操作により音声走査(スキャン)が指示されたか否かを判断し(ステップS208)、指示されていない場合にはステップS209の処理を実行することなく、ステップS210に進む。 The operation by determining whether the voice scan (scan) is instructed (step S208), if not instructed without executing the processing in step S209, the process proceeds to step S210. 指示された場合には、前述した第1の実施の形態と同様に、音声走査入力、特徴抽出、特徴データの画像表示処理を実行する(ステップS209)。 Where indicated, as in the first embodiment described above, to perform voice scan input, feature extraction, image processing for displaying characteristic data (step S209).

次に、録音動作中であるか否かを判断し(ステップS210)、録音動作中でない場合には後述するステップS219に進む。 Next, it is determined whether the in recording operation (step S210), and if not during the recording operation proceeds to step S219 to be described later. また、録音動作中であるならば、主マイクN1からの音声を入力し(ステップS211)、この入力音声をA/D変換する(ステップS212)。 Further, if it is during the recording operation, enter the voice from the main microphone N1 (step S211), the input audio A / D converting (step S212). さらに、抑圧音声(雑音)スペクトルによる雑音抑圧に設定済みであるか否かを判断する(ステップS213)。 Further, it is determined whether or not preset to noise suppression by suppressing speech (noise) spectrum (step S213). 設定済みでない場合には、ステップS215〜S217の処理を実行することなく、通常の音声抑圧処理を実行する(ステップS214)。 If not already set, without executing the process of step S215~S217, it performs normal audio suppression process (step S214). また、設定済みである場合には、窓関数部362からのデジタル音声をフーリエ変換部363でのFFT演算で周波数領域に変換し、振幅スペクトル|X(ω)|と位相情報ωを、スペクトルの推定部361、逆フーリエ変換部365および減算回路366に出力させる(ステップS215)。 Further, if it is already set, the digital audio from the window function unit 362 into a frequency domain by the FFT calculation of the Fourier transform unit 363, an amplitude spectrum | X (ω) | and phase information omega, spectral estimation unit 361, is output to the inverse Fourier transform unit 365 and the subtraction circuit 366 (step S215). さらに、減算回路366にて、振幅スペクトル|X(ω)|から、スペクトルの推定部361よりの音声スペクトル|W(ω)|をスペクトル減算して、 Further, in the subtraction circuit 366, an amplitude spectrum | from speech spectrum than estimating portion 361 of the spectrum | | X (ω) W (ω) | spectrally subtracted,
|S(ω)|=|X(ω)|−|W(ω)| | S (ω) | = | X (ω) | - | W (ω) |
を逆フーリエ変換部365に出力させる(ステップS216)。 To output to the inverse Fourier transform unit 365 (step S216).

また、逆フーリエ変換部365にて、スペクトル減算出力に位相情報ωを付加し、逆FFT演算で時間領域信号s(n)に変換して音声メモリ338に出力出力させる(ステップS217)。 Further, by the inverse Fourier transform unit 365, adds the phase information ω the spectral subtraction output, and outputs the output to the audio memory 338 is converted into the inverse FFT operation time domain signal s (n) (step S217). 引き続き、逆フーリエ変換部365から出力された音声信号を音声符号器/復号器339で圧縮符号化処理させて、符号化音声メモリ340に記録し(ステップS218)、リターンする。 Subsequently, the audio signal output from the inverse Fourier transform unit 365 by the processing compression-encoded by the speech encoder / decoder 339, and recorded in the encoded audio memory 340 (step S218), the process returns.

他方ステップS210での判断の結果、録音動作中でない場合には、抑圧する雑音スペクトルの設定がなされたか否かを判断し(ステップS219)、設定がなされない場合にはその他の処理を実行する(ステップS220)。 If it is determined in another step S210, if not in the recording operation determines whether the setting of the noise spectrum suppressing is made (step S219), performs other processing if the setting is not made ( step S220). このとき、ユーザが図12に示すように、操作入力部130での操作により、映像フォーカス照準163を抑圧する雑音スペクトルさせたい被写体C上に移動させ、この被写体C上の映像フォーカス照準163をユーザが指Fでタッチした後、操作入力部130にて抑圧する雑音スペクトル設定ボタンを押下すると、抑圧する雑音スペクトルの設定がなされ、被写体C上に音声抑圧する音源照準251が表示されるとともに、音声抑圧の設定されたことを示す雑音抑圧設定マーク252が表示される。 At this time, the user as shown in FIG. 12, by the operation from the operation input unit 130, is moved onto the object C is desired to noise spectrum suppressing image focus aiming 163, user video focus sight 163 on the subject C after There was touched with the finger F, and presses the noise spectrum setting button to suppress by the operation input unit 130, setting of the noise spectrum suppressing is performed, along with the sound source sight 251 to voice suppression on the object C is displayed, the voice noise suppression setting mark 252 indicating that the set of the suppression is displayed.

したがって、図17のフローチャートにおいては、抑圧する雑音スペクトルの設定がなされたことにより、ステップS219の判断がYESとなってステップS221に進み、音声抑圧したい方向の被写体Cの距離情報L を入力または検出して、雑音抽出する音源距離L として設定する(ステップS221)。 Therefore, in the flowchart of FIG. 17, by setting the noise spectrum suppressing is made, the process proceeds to step S221 determination is YES in step S219, the input distance information L C direction of the object C to be sound suppression or detected and is set as the sound source distance L N that noise extraction (step S221). また、操作入力された被写体Cの入力座標を雑音抽出する音源の位置座標(x,y)としてメモリする(ステップS222)。 The position coordinates of the sound source noise extracting input coordinates of an object C which is the operation input (x, y) memory to a (step S222). さらに、この位置座標(x,y)をレンズ焦点距離(f)、画像サイズ(X′,Y′)に基づいて、強調音源方向の角度θfまたは方向座標(θx,θy)に変換する(ステップS223)。 Further, the position coordinates (x, y) of the lens focal length (f), image size (X ', Y') based on, converted to emphasize the sound source direction angle θf or orientation coordinates ([theta] x, [theta] y) (step S223).

次に、前記ステップS221で設定した音源距離L が所定値以上であるか否かを判断する(ステップS224)。 Then, the sound source distance L N set in the step S221 is equal to or greater than a predetermined value (step S224). このステップS224での判断の結果、音源距離L が所定値未満であって近距離である場合には、フォーカスする音源距離L に基づいて、雑音抽出部350の各遅延器D(k)の各遅延時間t D(k)を設定する(ステップS225)。 If it is determined in this step S224, when the sound source distance L N is short distance less than the predetermined value, based on the sound source distance L N that focus, each of the delay units D of the noise extracting section 350 (k) setting the delay times t D of the (k) (step S225). また、ステップS227での判断の結果、音源距離L が所定値以上であって遠距離である場合には、雑音抽出する音源方向の角度θ に基づいて、雑音抽出部350の各遅延器D(k)の各遅延時間t D(k)を設定する(ステップS226)。 Further, as a result of the determination in step S227, when the sound source distance L N is far be more than the predetermined value, based on the sound source direction angle theta N of noise extraction, each delay unit of the noise extractor 350 D (k) each delay time t is set to D (k) (step S226).

しかる後に、マイクロホンアレーから、フォーカスした方向/距離の音声が強調された音声を所定時間入力させ(ステップS227)、収録した音声を音声メモリ352に一時記憶させる(ステップS228)。 Thereafter, the microphone array, so the voice sound of the focused direction / distance is emphasized by a predetermined time input (step S227), the speech was recorded is temporarily stored in the voice memory 352 (step S228). また、デジタル音声信号をフーリエ変換部353のFFT演算で周波数領域に変換し、振幅スペクトル|X(ω)|を出力させる(ステップS229)。 Further, the digital audio signal into a frequency domain by the FFT calculation of the Fourier transform unit 353, an amplitude spectrum | X (ω) | is outputted (step S229). この収録音声の振幅スペクトル|X(ω)|を抑圧すべき雑音スペクトル|W(ω)|として、収録音のスペクトル部354から雑音抑圧部360に出力し、該雑音抑圧部360の減算回路366に設定し(ステップS230)、リターンする。 The amplitude spectrum of the recorded voice | X (ω) | to be suppressed the noise spectrum | W (ω) | as, and output from the spectrum section 354 of the recorded sound to the noise suppression unit 360, the subtraction circuit 366 of The noise suppression unit 360 set to (step S230), to return.

したがって、このようにして抑圧する雑音スペクトルの設定がなされると、前述したステップS213の判断がYESとなることから、前述したステップS215〜S217の処理が実行されることとなる。 Accordingly, the setting of the noise spectrum to suppress in this way is made, since the judgment of step S213 described above becomes YES, and so that the process of step S215~S217 described above are executed.

図18は、前記第2の実施の形態において用いた、スペクトルサブトラクション法(スペクトル減算法)(以下、SS法という。)における雑音抑圧回路の構成例を示す図である。 18 is used in the second embodiment, the spectral subtraction method (spectrum subtraction method) is a diagram showing a configuration example of a noise suppression circuit in (hereinafter, referred to. SS method). すなわち、マイク401からの音声信号は、アンプ402で増幅され、A/D変換部403デジタル変換され、窓関数部404を介してフーリエ変換部405に供給される。 That is, the audio signal from the microphone 401 is amplified by the amplifier 402 is A / D conversion unit 403 digital conversion, it is supplied to the Fourier transform unit 405 via the window function 404. このフーリエ変換部353で変換された振幅スペクトル|X(ω)|は、雑音スペクトル減算部406の雑音推定、または、雑音スペクトル設定部407、および減算器408に与えられ、また、位相情報ωx(位相スペクトル)409は、逆フーリエ変換部410に与えられる。 The transformed amplitude spectrum by the Fourier transform unit 353 | X (ω) |, the noise estimation of the noise spectral subtraction unit 406, or, given the noise spectrum setting unit 407 and the subtracter 408, and the phase information .omega.x ( phase spectrum) 409 is provided to the inverse Fourier transform unit 410. また、この逆フーリエ変換部410には、前記減算器408からの出力があたえられ、の逆フーリエ変換部410の出力である音声信号は、音声メモリ411に一時記憶された後、D/A変換器412でアナログ変換され、アンプ413で増幅されて、スピーカー414で再生されるように構成されている。 In addition, this inverse Fourier transform unit 410, the audio signal output is provided, which is the output of the inverse Fourier transform unit 410 from the subtractor 408, after being temporarily stored in the voice memory 411, D / A converter is analog converted in vessel 412, it is amplified by the amplifier 413, and is configured to be played through speakers 414.

このようにSS法では、音声信号s(n)と雑音信号w(n)とを含む入力音声信号の信号x(n)=s(n)+w(n)を、所定サンプリング毎にフレーム分割し、ハニング窓や台形窓などの窓関数で窓掛け(Windowing)処理した後、フーリエ変換(FFT)により時間領域から周波数領域に変換する。 This way SS method, the speech signal s (n) and the noise signal w (n) and the signal of the input audio signal comprising x (n) = s (n) + w (n), and a frame divided every predetermined sampling after windowing (windowing) treated with a window function such as a Hanning window and trapezoid window, converted from the time domain to the frequency domain by Fourier transform (FFT). 入力信号の振幅パワースペクトル│X(ω)│から推定雑音のパワースペクトル│X^(ω)│を減算して(│S^(ω)│=│X(ω)│−│X^(ω)│)、それに入力信号のω を加え、得られたS^(ω)=│S^(ω)│exp(jω )を逆フーリエ変換(inverse EET)により時間領域に変換すれば、動作音などの雑音が除去された強調音声信号s^(n)が得られる。 Amplitude power spectrum │X of the input signal (ω) │ from the estimated noise power spectrum │X ^ (ω) │ a by subtracting (│S ^ (ω) │ = │X (ω) │-│X ^ (ω ) │), it the omega x of the input signal added and the resulting S ^ (ω) = │S ^ (ω) │exp ( if conversion j [omega] x) of the time domain inverse Fourier transform (inverse EET), emphasized sound signal noise has been removed, such as operation sound s ^ (n) is obtained.

SS法による雑音除去を伝達関数H(ω)のフィルタと考えると、伝達関数H(ω)は、 Given the noise removal by SS method with the filter of the transfer function H (ω), the transfer function H (ω) is,
H(ω)=S^(ω)/X(ω){│X^(ω)│−│X^(ω)│}exp(jω )X(ω)、 H (ω) = S ^ ( ω) / X (ω) {│X ^ (ω) │-│X ^ (ω) │} exp (jω x) X (ω),
H(ω)=1−{│X^(ω)│/│X(ω)│}、となる。 H (ω) = 1- {│X ^ (ω) │ / │X (ω) │}, and made.

SS法では、人間の聴覚にあまり重要でない位相情報には処理を加えず、振幅情報主体での処理を行うので処理が簡単である。 In the SS method, without the addition of processing to the phase information to the human hearing not so important, it is a simple process since the processing in the amplitude data subject. また、1つのマイクロホンのみで雑音抑制でき、雑音原数などは事前に知る必要はないが、最低でも1フレーム分の処理遅延が生ずる。 In addition, only one microphone in the possible noise suppression, noise source, such as the number is not necessary to know in advance, one frame of the processing delay occurs at a minimum. また、雑音パワーベクトルの事前情報が必要である。 In addition, there is a need for prior information of the noise power vector. 携帯電話などでは、周波数領域に変換した信号の、サブバンド帯域別のSN比(SNR)を算出して、非適応な雑音推定を行い、またスペクトル減算(差分)とスペクトル利得による抑圧(乗算)とを組み合わせる方法や、入力信号のパワーベクトルに、SNR推定値に逆比例するように重み付けを行って、適応的に雑音推定を行い、雑音の抑圧をスペクトル利得の調整(乗算)のみで行う方法など、複雑な雑音推定方法が検討されているが、機器内モーター動作音の除去には、事前に動作音の雑音スペクトルデータ│W^(ω)│等を解析して設定できるので、構成も簡便になり利用し易い利点がある。 Mobile phone etc., the converted signal into the frequency domain, and calculates the sub-band-specific SN ratio (SNR), performs a non-adaptive noise estimation and suppression spectrum subtraction and (differential) by spectral gain (multiplication) a method of combining the bets, the power vector of the input signal, a method of performing weighting as inversely proportional to the SNR estimates, adaptively performs noise estimation, performing suppression of the noise only by adjusting the spectral gain (multiplication) such as, but complex noise estimation methods have been studied, the removal of the equipment in the motor operating noise, the noise spectrum of the pre-operation sound data │W ^ (ω) can be set by analyzing the │, etc., also be configured there is an easy advantage to use becomes simple.

なお、例えば、適応フィルタ方式のノイズキャンセラーでは、参照マイクの入力音声に適応フィルタ処理を施した信号を、主マイクの入力信号から減算するが、主マイクの他に雑音を検出するための参照用マイクを必要とする。 Note that, for example, adaptation in noise canceller filter methods, the signal subjected to adaptive filtering on the input speech of the reference microphone, but subtracted from the input signal of the main microphone, reference for detection of noise in addition to the main microphone It requires a microphone. 実施の形態のようにマイクロホンアレー部103を設けた録音入力部の場合には、その一部を雑音参照用のマイクとして利用することもできる。 When the recording input unit provided with a microphone array 103 as in the embodiment, it is also possible to utilize a part as a microphone for noise reference.

適応フィルタ方式の動作は、希望音声信号s(n)と経路h (m)を経由して雑音源ws(n)から到達する雑音w(n)の和である、s(n)+w(n)が主マイクに入力される。 Adaptive operation of the filter system is the sum of the noise w (n) that reaches through the desired audio signal s (n) and the path h k (m) from the noise source ws (n), s (n ) + w ( n) is input to the main microphone. 雑音信号W(n)は、雑音経路のインパルス応答{h (m)}(m=1,2・・・P−1)を用いて次式で表される。 Noise signal W (n) is the impulse response of the noise path {h k (m)} using the (m = 1,2 ··· P-1 ) represented by the following formula.
w(n)=Σ (m)w (n−m), w (n) = Σ m h k (m) w s (n-m),

また、適応フィルタの出力y(n)は、適応フィルタのインパルス応答を{h (m)}(m=1,2・・・P−1)とすると次式で表される。 Further, the output y of the adaptive filter (n), when the impulse response of the adaptive filter {h f (m)} ( m = 1,2 ··· P-1) represented by the following formula.
y(n)=Σ (m)w (n−m), y (n) = Σ m h f (m) w s (n-m),
このときノイズキャンセラーの出力s^(n)は、 Output s ^ At this time, noise canceller (n) is,
s^(n)=s(n)+w(n)−y(n)=s(n)+Σ {h (m)−h (m)}w (n−m) s ^ (n) = s ( n) + w (n) -y (n) = s (n) + Σ m {h k (m) -h f (m)} w s (n-m)
したがって、h (m)=h (m)とできれば、s^(n)=s(n)となり、雑音信号を除去して、音声信号のみを取り出せることとなる。 Therefore, if the h f (m) = h k (m), s ^ (n) = s (n) , and the removing the noise signal, so that the take out only the audio signal.
通常、未知の雑音経路h (m)を求めるためには、適応フィルタ係数h (m)は、推定誤差s^(n)の2乗値を統計的に最小にするように更新されるが、h (k)の最適値を得るには、P元の連立方程式を解く必要があり、信号の統計量が必要となる。 Usually, in order to determine the unknown noise path h k (m) is the adaptive filter coefficient h f (m) is updated to statistically minimize the square value of the estimation error s ^ (n) but, in order to obtain the optimum value of h f (k), it is necessary to solve the P source simultaneous equations, statistics of the signal is required. このため適応フィルタでは、統計学を学習し、逐次最適解を探すためにLSM(最小二乗平均)法やNLMS(正規化最小二乗平均)法などの適応アルゴリズムが必要となる。 For this reason adaptive filter learns the statistics, it is necessary to adapt the algorithm such as LSM (Least Mean Square) method or NLMS (Normalized Least Mean Square) method to look for successive optimal solutions.

しかし、前述した実施の形態のように、ユーザが音声フォーカスして収録した雑音音声データなどから、雑音の統計量を取得できる場合には、h (k)の最適値の初期値を求めておき、設定することができる。 However, as in the embodiments described above, and the like noisy speech data that the user has recorded with audio focus, if it can obtain the noise statistics, seeking initial value of the optimum value of h f (k) place, it is possible to set. このようなノイズキャンセラーでは、雑音源から主マイクへの経路が未知であっても、雑音経路のインパルス応答が適応フィルタにより良好に推定できれば雑音除去を行うことができ、雑音特性が変動しても追従できる。 In such a noise canceller, also the path from the noise source to the main microphone is unknown, the impulse response of the noise path can perform noise removal if better estimated by the adaptive filter, even if the noise characteristics vary You can follow.

(第3の実施の形態) (Third Embodiment)
図19及び20は、本発明の第3の実施の形態における処理手順する示す一連のフローチャートである。 19 and 20 are a series of flowcharts showing the processing procedure in the third embodiment of the present invention. 前記制御回路312は前記プログラムに基づき、このフローチャートに示すように処理を実行する。 The control circuit 312 based on the programs and executes a process as shown in the flowchart. すなわち、静止画/動画撮影モードまたは録音モードが設定されたか否かを判断し(図19ステップS301)、これら以外の他のモードが設定された場合には、設定された当該その他のモード処理を実行する(ステップS302)。 That is, it is determined whether a still image / moving image photographing mode or the recording mode is set (Fig. 19 step S301), in a case where another mode other than these are set, the other mode process is set executing (step S302). また、静止画/動画撮影モードまたは録音モードが設定されたならば、測光処理、WB処理を実行するとともに(ステップS303)、ズーム処理、AF処理を行って(ステップS304)、被写体像スルー画像を、ファインダー表示部119に表示させる(ステップS305)。 Also, if the still image / moving image photographing mode or the recording mode is set, photometry processing, and executes a WB process (step S303), zoom processing, it performs AF processing (step S304), the object image through image to be displayed on the viewfinder display unit 119 (step S305).

次に、操作入力部130での操作により音源方向の検索が指示されたか否かを判断し(ステップS306)、指示されていない場合にはその他の処理に移行する(ステップS307)。 Next, it is determined whether the sound source direction search is instructed by the operation from the operation input unit 130 (step S306), if not indicated, the process proceeds to other processing (step S307). また、音源方向の検索が指示された場合には、操作入力部130での操作に応じて、記録済みの録音データの中から、検索する音源を選択し(ステップS308)、画像サイズ(X′Y′)、焦点距離(f)、デジタルズーム倍率(M)から捜査範囲の角度(θxmin、θxmax)を設定する(ステップS309)。 Also, when the search of the sound source direction is instructed, in response to the operation of the operation input unit 130, from among the recorded recording data, select the search sound source (step S308), the image size (X ' Y '), the focal length (f), to set the angle of investigation range (θxmin, θxmax) from digital zoom magnification (M) (step S309). 引き続き、θy=θyminとするとともに(ステップS310)、θx=θxminとする(ステップS311)。 Subsequently, with the θy = θymin (step S310), and θx = θxmin (step S311). そして、下記式を用いて走査音源方向(θx,θy)にフォーカスする為の各遅延器D(k)の遅延時間tD(j,k)を設定するtDx(j)=(m−j)・dx・sinθx/c、 Then, the scanning sound source direction by using the following formula ([theta] x, [theta] y) the delay time tD (j, k) of each of the delay units D (k) for focusing the tDx setting the (j) = (m-j) · dx · sinθx / c,
tDy(k)=(n−k)・dy・sinθy/c、 tDy (k) = (n-k) · dy · sinθy / c,
tD(j,k)=√[{tDx(j)} +{tDy(k)} tD (j, k) = √ [{tDx (j)} 2 + {tDy (k)} 2]
(但し、k:マイク番号1〜n、d:マイク間隔、c:音速) (However, k: microphone number 1 to n, d: microphone spacing, c: sound velocity)

次に、走査方向(θx、θy)に指向させたマイクロホンアレーから音声を入力させ(ステップS313)、A/D変換し、所定時間の入力音声データを入力音声メモリ137にとして記録する(ステップS314)。 Next, the scanning direction ([theta] x, [theta] y) is inputted audio from microphone array is directed (step S313), converts A / D, to record the input audio data for a predetermined time as in the input speech memory 137 (step S314 ). また、FFT演算で周波数領域に変換し、振幅スペクトル|X(ω)|を算出し、その時間変化データを求める(ステップS315)。 Further, transformed into the frequency domain by FFT calculation, the amplitude spectrum | X (ω) | is calculated and determined the time change data (step S315). 次に、入力音声スペクトルの時間変化と選択音源のそれとを比較し、相関度を算出し、特徴データCs(θx,θy)として記録する(ステップS316)。 Next, compare with that of the selected sound source and the time variation of the input speech spectrum, and calculates a correlation degree, feature data Cs ([theta] x, [theta] y) is recorded as a (step S316).

引き続き、θx=θx+Δθxとし(ステップS317)、θx>θxmaxであるか否かを判断する(ステップS318)。 Subsequently, the θx = θx + Δθx (step S317), it is determined whether θx> θxmax (step S318). この判断がNOである場合には、ステップS312からの処理を繰り返す。 If the determination is NO, the process is repeated from step S312. また、YESであるならば、θy=θy+Δθyとし(ステップS319)、θy>θymaxであるか否かを判断する(ステップS320)。 Further, if it is YES, the θy = θy + Δθy (step S319), it is determined whether θy> θymax (step S320). この判断がNOである場合には、ステップSS311からの処理を繰り返す。 If the determination is NO, the process is repeated from step SS311. また、YESであるならば、特徴データCs(θx,θy)を、対応するθx,θy座標上に2次元画像としてプロット描画する(ステップS321)。 Further, if it is YES, the feature data Cs ([theta] x, [theta] y), the corresponding [theta] x, plotted rendered as a two-dimensional image on the [theta] y coordinate (step S321). さらに、特徴データ画像を半透明化し、半透明化した特徴抽出データ画像をスルー画像に重ねてファインダー表示部119に表示する(ステップS322)。 Further, the characteristic data image and translucent, the feature extraction data image translucent superimposed on the through image displayed on the finder display unit 119 (step S322).

また、算出された相関度である特徴データCs(θx,θy)が所定値以上の方向の対応位置に音源識別記号、音源の種別などを表示し(図20ステップS323)、特徴データCs(θx,θy)が所定以上の方向の中から、一つの方向(θFx,θFy)をマニュアル操作または自動で選択させる(ステップS324)。 Moreover, the correlation degree calculated feature data Cs ([theta] x, [theta] y) is the sound source identification code, and displays a type of the sound source in a corresponding position in the direction of the predetermined value or more (Fig. 20 step S323), feature data Cs ([theta] x , from [theta] y) of a predetermined or more directions, one direction (θFx, θFy) is selected by manual operation or automatic (step S324). 次に、識別方向にカメラをフォーカスするか否かを判断し(ステップS325)、選択された方向(θFx,θFy)にカメラ撮影のフォーカス点を設定する(ステップS326)。 Next, it is determined whether to focus the camera on the identification direction (step S325), the selected direction (θFx, θFy) to set the focus point of the camera shooting (step S326).

次に、識別方向に音声入力をフォーカスする指示があったか否かを判断する(ステップS327)。 Next, it is determined whether there is an instruction for focus voice input to identify the direction (step S327). 指示があった場合には、選択された方向(θFx,θFy)にマイクロホンアレイの指向方向(音声フォーカス)を決定する。 When instructed determines the selected direction (θFx, θFy) orientation (voice focus) of the microphone array. すなわち、下記例示式を用いて、方向(θFx,θFy)を強調するように、下記例示次式により、音圧抑制部(指向性ビーム生成部135)の各遅延器D(k)の遅延時間tD(j,k)を設定する(ステップS328)。 That is, using the following exemplary equation, the direction (θFx, θFy) to emphasize the following illustrated by the following equation, the sound pressure suppression unit delay time of each delay unit D of (directional beam generator 135) (k) tD (j, k) to set (step S328).
(例)tDx(j)=(m−j)・dx・sinθFx/c、 (Example) tDx (j) = (m-j) · dx · sinθFx / c,
tDy(k)=(m−k)・dy・sinθFy/c、 tDy (k) = (m-k) · dy · sinθFy / c,
tD(j,k)=√[{tDx(j)} +{tDy(k)} tD (j, k) = √ [{tDx (j)} 2 + {tDy (k)} 2]
さらに、スルー画像に重ねてファインダー表示する(ステップS329)。 Further, the finder displayed superimposed on the through image (step S329). そして、指向方向が音声強調されたマイクロホンアレーから音声を入力し(ステップS330)、撮影処理または録音処理へ移行する(ステップS331)。 Then, the directivity direction inputs a voice from the voice enhanced microphone array (step S330), the process proceeds to the photographing processing or recording processing (step S331).

つまり、この第3の実施の形態は、図21に示すように、遅延回路群からなる前記指向性ビーム生成部135からの信号を抽出音声メモリ190に記憶し、フーリエ変換(FFT)回路191でフーリエ変換して振幅スペクトル|X(ω)|を出力させ、方向別の音声スペクトルデータを方向別音声スペクトルデータメモリ193に記憶させる。 That is, the third embodiment, as shown in FIG. 21, stores the signal from the directional beam generating unit 135 composed of a delay circuit group in the extracted speech memory 190, the Fourier transform (FFT) circuit 191 Fourier transform amplitude spectrum | X (ω) | is output, and stores the direction different voice spectral data in a direction different speech spectrum data memory 193. また、予め記憶されているスペクトルデータメモリ193に記憶されている所定の音源の音源スペクトルデータやその時間変化特性等の特徴データと比較参照してその相関度から近似度などを算出して、各方向別の入力音声の音源の特性や種類を識別し、識別された結果に応じて、特徴データや識別された種別情報をMファインダーの対応位置に重ねて表示する。 Further, by calculating the like approximation degree from the correlation compared and reference feature data, such as predetermined sound source spectral data and its temporal variation characteristic of the sound source stored in the spectral data memory 193 stored in advance, each It identifies the source of the characteristics and type of each direction of the input speech, in accordance with the identified result, the characteristic data and the identified type information displays superimposed on the corresponding position of the M viewfinder.

また、特定音源との相関度の高い類似の音声が入力された方向を識別して、当該方向にカメラの焦点もしくはマイク入力の指向方向を向けるように制御することで、所望の被写体の撮影や録音に利用できるようにしたのである。 Furthermore, by identifying the direction in which the similar sound is input high degree of correlation between the specific sound source, by controlling so as to direct the directivity direction of the focus or microphone input of the camera in this direction, Ya shoot the desired object than it was to be made available to the recording.

例えば、撮影や録音したい野鳥の鳴き声の音声スペクトルの時間変化データなど、探したい所定の音源の特徴データを、予めメモリに記憶しておき、前記の比較する所定音源の特徴データとして選択して設定すれば、方向別に入力された各音声信号から、所望の野鳥のいる方向を識別したり、あるいは、入力された音声に最も相関度の高い所定音源を識別して、野鳥の種類などを音源識別情報としてファインダーに表示させたりすることができる。 For example, such time change data of the speech spectrum of cries of wild birds to be imaged and recording the characteristic data of a predetermined sound source to look, previously stored in the memory and selected as the characteristic data of a predetermined sound source to compare the set them if, from the voice signal inputted by the direction, identify the direction in which the desired wild birds, or to identify a high predetermined sound the most correlation to the input speech, such as a sound source identifying types of birds or it can be displayed in the viewfinder as information.

この識別された方向もしくは方向別の音源識別情報に基づいて、制御部では、その方向にカメラのAF機能の焦点を合わせるように制御して、所望の野鳥をすぐに見つけて静止画像や動画像の撮影をしたり、または、その方向にマイクロホンアレーの指向方向を制御して、その方向の音声を強調して、所望の野鳥の鳴き声を明瞭に録音したりすることができる。 Based on the identified direction or direction-specific sound source identifying information, the control unit controls to focus the AF function of the camera in that direction, still images and moving images quickly find desired bird or the shooting, or may control the orientation of the microphone array in that direction, to emphasize the voice of that direction, or record clearly cries desired bird.

図22は、予め記憶しておく所定音源の特徴データを示す図である。 Figure 22 is a diagram showing the characteristic data of a predetermined sound source to be stored in advance. 本図では、記録しておく所定の音源として、複数種の野鳥の鳴き声の音背信号と、特徴データとしてきおくしておく、音声スペクトル及びその時間変化データ、あるいは、ソナグラフ(音声スペクトル)の時間変化と各音圧強度を記録したもの)等の設定データの例である。 In the figure, a predetermined sound source to be recorded, and sound back signals cries of a plurality of types of birds, stored as characteristic data, speech spectrum and its time change data or, Sonagurafu of (the speech spectrum) those that have been recorded temporal change each sound pressure strength) is an example of setting data, and the like. 無論、野鳥や生物、あるいは鳴き声などの音源や音声だけでなく、人間の話し声、航空機などが発生する騒音等などのデータであってもよい。 Of course, birds and organisms or not only a sound source and sound, such as cries, human speech, may be data such as noise or the like, such as aircraft occurs.

(その他の実施の形態) (Other embodiments)
(1)なお、前記実施の形態においては、複数の横配列マイクと縦配列マイクとでマイクロホンアレー部103を構成するようにしたが、図23に示すような配置形態としてもよい。 (1) Incidentally, in the embodiments, but so as to constitute a microphone array 103 and a plurality of transversely aligned microphones and vertical array microphone may be arranged form shown in Figure 23.
(a)デジタルカメラ500は、カメラ本体501と可動式カメラ部502とで構成されている。 (A) a digital camera 500, and a camera body 501 and the movable camera unit 502. カメラ本体501には、LCDファインダー503が配置され、可動式カメラ部402には撮像レンズ504およびストロボ505が設けられ、ストロボ505の下部に水平方向に配置された複数のマイクで構成されたマイクロホン部506が設けられた構成である。 The camera body 501, LCD viewfinder 503 is arranged, the imaging lens 504 and the strobe 505 is provided on the movable camera 402, a microphone unit including a plurality of microphones arranged in the horizontal direction in the lower portion of the flash 505 506 is a configuration provided with.
(b)デジタルカメラ600は、カメラ本体601の前面に撮像レンズ602が配置され、前面上部両側に水平方向に配置された複数のマイクで構成された左マイクロホン部603Lと、右マイクロホン部603Rとが設けられた構成である。 (B) The digital camera 600 includes an imaging lens 602 in front of the camera body 601 is disposed, and the left microphone unit 603L which is composed of a plurality of microphones arranged in the horizontal direction at the top front sides, and the right microphone unit 603R it is provided configuration.
(c)デジタルカメラ700は、カメラ本体701の前面に撮像レンズ702が配置され、撮像レンズ102の周部にこれを囲繞するように配置された複数のマイクで構成されたマイクロホン部703が設けられた構成である。 (C) digital camera 700 includes an imaging lens 702 in front of the camera body 701 is disposed a microphone unit 703 including a plurality of microphones which are arranged so as to surround it in periphery of the imaging lens 102 is provided and is a configuration.
以上のように、マイクロホン部のマイク配置形態は、直線的であっても曲線的であってもよい。 As described above, the microphone arrangement of the microphone unit may be also a curved be linear.

(2)実施の形態においては、被写体周辺の音圧や周波数特性、スペクトルなどの音声の特徴データの画像を被写体像を重ねて表示し、それに応じて撮影や録音操作できるようにしたが、音声信号のその他の特徴データを抽出し可視化して、表示するようにしてもよい。 In the form of (2) implementation, sound pressure and frequency characteristics of a peripheral object, the image of the audio feature data, such as spectrum displayed superimposed an object image has been to allow shooting or recording operation in response thereto, the voice visualized extract other characteristic data of the signal, may be displayed. あるいは、例えば、犬やコウモリなどある種の生物には聞こえるが、人間の可聴周波数範囲を超えた超音波などを入力し可視化して、表示するようにしてもよい。 Alternatively, for example, it sounds for certain organisms such as dogs and bats, etc. input by visualizing the ultrasonic beyond human audible frequency range, may be displayed.

(3)あるいは、音声信号以外でも、モンシロチョウなど、ある種の生物には可視である紫外線領域の光信号など、人間には可視範囲外の撮像信号以外の光や、放射線、電磁波など、あるいは、その他のセンサ手段による被写体周辺からの検出信号から、その特徴データを被写体像の方向に対応付けて画像化して、撮像信号による被写体像に重ねて、表示するようにしてもよい。 (3) or, in addition to voice signals, such as cabbage butterfly, such as optical signals in the ultraviolet range which is visible for some organisms, light and non-image signal out of the visible range to the human, radiation, electromagnetic fields, such as, or, from the detection signal from the near object by other sensor means, and imaged in association with the feature data in the direction of the subject image, superimposed on the subject image by the image pickup signal, may be displayed.

本発明の各実施の形態に係るデジタルカメラの斜視図である。 It is a perspective view of a digital camera according to each embodiment of the present invention. 第1の実施の形態に係るデジタルカメラの回路構成を示すブロック図である。 Is a block diagram showing a circuit configuration of a digital camera according to the first embodiment. 同実施の形態における処理手順を示すフローチャートである。 It is a flowchart illustrating a processing procedure in the embodiment. 図3に続くフローチャートである。 It is a flow chart subsequent to FIG. 同実施の形態の動作を示す説明図である。 Is an explanatory view showing an operation of the embodiment. 同実施の形態における画面遷移図である。 It is a screen transition diagram in the same embodiment. 画角や半画角、被写体範囲がズーム操作などレンズ焦点距離(f)の変化に伴って変化するときの強調音源方向座標(θx,θy)の換算例を示す図である。 Angle and the half field angle is a diagram showing a conversion example of enhancement sound source direction coordinate ([theta] x, [theta] y) of when the object range changes with a change in lens focal length such as the zoom operation (f). マクロホンアレーによる指向制御、音声強調、音声抑圧処理の変形例を示すブロック回路図である。 Oriented control of macro Hong array speech enhancement is a block circuit diagram showing a modification of the audio suppression process. マクロホンアレーによる指向制御、音声強調、音声抑圧処理の変形例を示すブロック回路図である。 Oriented control of macro Hong array speech enhancement is a block circuit diagram showing a modification of the audio suppression process. マクロホンアレーによる指向制御、音声強調、音声抑圧処理の変形例を示すブロック回路図である。 Oriented control of macro Hong array speech enhancement is a block circuit diagram showing a modification of the audio suppression process. 特徴データの二次元画像を生成する処理の例を示す図である。 It is a diagram illustrating an example of a process for generating a two-dimensional image of the feature data. 音声強調する被写体の方向を設定するときの表示例を示す図である。 Is a diagram illustrating a display example when setting the direction of the voice emphasized subject. 抑圧したい音源や被写体の方向を設定するときの表示例を示す図である。 It is a diagram illustrating a display example when setting the direction of the sound source and object to be suppressed. 走査(スキャン)入力された音声信号から解析抽出する特定データの例を示す図である。 It is a diagram illustrating an example of a specific data analyzing extracted from the scan (scan) the input audio signal. 走査(スキャン)入力された音声信号から解析抽出する特定データの例を示す図である。 It is a diagram illustrating an example of a specific data analyzing extracted from the scan (scan) the input audio signal. 本発明の第2の実施の形態に係るデジタルカメラの回路構成を示すブロック図である。 Is a block diagram showing a circuit configuration of a digital camera according to a second embodiment of the present invention. 同実施の形態における処理手順を示すフローチャートである。 It is a flowchart illustrating a processing procedure in the embodiment. 第2の実施の形態において用いた、スペクトルサブトラクション法(スペクトル減算法)における雑音抑圧回路の構成例を示す図である。 Was used in the second embodiment, it is a diagram illustrating a configuration example of a noise suppression circuit in the spectrum subtraction method (spectrum subtraction method). 本発明の第3の実施の形態における処理手順を示すフローチャートである。 It is a flowchart showing a processing procedure in the third embodiment of the present invention. 図19に続くフローチャートである。 It is a flow chart subsequent to FIG. 第3の実施の形態の概要を示す説明図である。 Is an explanatory diagram showing an outline of a third embodiment. 予め記憶しておく所定音源の特徴データを示す図である。 Is a diagram showing the characteristic data of a predetermined sound source stored in advance. 本発明の他の実施の形態を示すカメラ外観図である。 A camera external view showing another embodiment of the present invention.

符号の説明 DESCRIPTION OF SYMBOLS

M1〜Mn マイク A1〜An アンプ D1〜Dn 遅延器 100 デジタルカメラ 101 本体 102 撮像レンズ 103 マイクロホンアレー部 104 カバー体 105 レンズ駆動部 109 撮像素子 111 ドライバ 112 撮影録音制御部 113 被写体像スルー画像部 114 A/D変換器 115 画像信号処理部 116 画像メモリ 117 画像合成部 119 ファインダー表示部 119 ファインダー/表示部 119 表示部 120 画像圧縮符号器/伸長復号器 121 符号化画像メモリ 126 駆動量/焦点距離部 130 操作入力部 131 入力回路 132 タッチパネル 134 A/D変換回路 135 指向性ビーム生成部 136 加算器 137 入力音声メモリ 138 音声メモリ 139 音声圧縮符号器/伸長復号器 144 指向性制 M1~Mn microphone A1~An amplifier D1~Dn delayer 100 digital camera 101 main body 102 imaging lens 103 microphone array unit 104 the cover body 105 lens driving unit 109 imaging element 111 driver 112 imaging recording control unit 113 subject image through image portion 114 A / D converter 115 the image signal processing unit 116 an image memory 117 the image combining unit 119 viewfinder unit 119 viewfinder / display unit 119 display unit 120 an image compression encoder / decompression decoder 121 coded image memory 126 drive amount / focal length 130 The operation input unit 131 an input circuit 132 touch panel 134 A / D converter circuit 135 directional beam generating unit 136 adder 137 input voice memory 138 audio memory 139 audio compression encoder / decompression decoder 144 directional system 部 144 第1指向性制御部 145 第2指向性制御部 151 特徴抽出データメモリ 152 二次元画像生成部 153 半透明画像変換部 154 半透明化パターン生成部 160 被写体スルー画像 161 二次元画像 162 特徴抽出データ画像 163 映像フォーカス照準 300 デジタルカメラ Part 144 first directivity controller 145 second directivity controller 151 feature data memory 152 the two-dimensional image generating unit 153 semi-transparent image converting unit 154 translucent pattern generation unit 160 subject through image 161 two-dimensional image 162 feature extraction data image 163 image focus aiming 300 digital camera

Claims (17)

  1. 表示手段と、 And display means,
    撮像手段と、 And the imaging means,
    この撮像手段により撮像される画像を前記表示手段に表示させる第1の表示制御手段と、 A first display control means for displaying the image captured on the display means by the image pickup means,
    前記撮像手段の撮像範囲内における周囲音を検出する周囲音検出手段と、 And the ambient sound detector for detecting the ambient sound in the imaging range of the imaging unit,
    この周囲音検出手段により検出された周囲音を表す可視情報を生成し、この可視情報を前記周囲音検出手段により検出された前記周囲音の前記撮像範囲内における位置に対応させて、前記表示手段に表示させる第2の表示制御手段と The ambient sound to produce a visible information representative of the detected ambient sound by the detecting means, and the visible information so as to correspond to the position within the imaging range of the ambient sound detected by the ambient sound detecting means, said display means a second display control means for displaying on,
    この第2の表示制御手段により前記表示手段に表示された前記周囲音を示す可視情報の任意の部分を指定することにより、前記周囲音検出手段により検出される周囲音に含まれる任意の音声を選択する選択手段と、 By specifying an arbitrary portion of the visible information indicating the ambient sound that is displayed on the display unit by the second display control means, any voice included in the ambient sound detected by the ambient sound detector and selection means for selecting,
    前記周囲音検出手段により検出された周囲音を制御し、前記選択手段により選択された音声を強調処理または抑圧処理する音声制御手段と、 A sound control means for controlling the ambient sound, and enhancement or suppression processing audio selected by the selection means is detected by the ambient sound detecting means,
    この音声制御手段により前記音声を強調処理または抑圧処理された周囲音を記録する記録手段と The voice control means and recording means for recording the enhancement or suppression processed ambient sound the voice
    を備えることを特徴とする撮像装置。 Imaging device, characterized in that it comprises a.
  2. 前記第2の表示制御手段は、前記可視情報を前記第1の表示制御手段により前記表示手段に表示される画像に重ねて、前記表示手段に表示させることを特徴とする請求項1記載の撮像装置。 The second display control means, the visible information superimposed said the images displayed on the display means by said first display control means, according to claim 1, wherein the to be displayed on said display means imaging device.
  3. 前記可視情報は、半透明化されていることを特徴とする請求項記載の撮像装置。 The visible information, the image pickup apparatus according to claim 2, characterized in that it is translucent.
  4. 前記可視情報は、前記周囲音の分布状況を音圧レベルに基づいて表した二次元画像であることを特徴とする請求項1から3にいずれか記載の撮像装置。 The visible information, the image pickup apparatus according to any one of claims 1 to 3, characterized in that the distribution of the ambient sound is a two-dimensional image representing on the basis of the sound pressure level.
  5. 前記二次元画像は、音圧レベルに応じて色が異なっていることを特徴とする請求項記載の撮像装置。 The two-dimensional image, the imaging apparatus according to claim 4, characterized in that different colors depending on the sound pressure level.
  6. 前記記録手段は、 音声が強調処理または抑圧処理された前記周囲音を前記撮像手段により撮像された画像とともに記録することを特徴とする請求項1から5にいずれか記載の撮像装置。 It said recording means, the image pickup apparatus according to any one to claims 1 to 3, characterized in that the recording with an image picked up by the image pickup means the ambient sound voice is emphasis processing or reduction processing.
  7. 前記音声制御手段は、前記第2の表示制御手段により前記表示手段に表示された前記周囲音を示す可視情報中における任意の部分に対する操作に基づき得られる位置座標に基づき、前記指定された周囲音の方向を算出し、この算出した方向からの音声を強調処理または抑圧処理することを特徴とする請求項1から6にいずれか記載のカメラ装置。 Said voice control means, based on the position coordinates obtained based on the operation for any portion in the visible information indicating the ambient sound that is displayed on said display means by said second display control means, said specified ambient sound of calculating the direction, the camera apparatus according to any one of claims 1 to 6, characterized in that the enhancement or suppression processing audio from the calculated direction.
  8. 前記音声制御手段は、前記位置座標と、前記撮像手段の焦点距離及び又は前記画像のサイズとに基づき、前記指定された周囲音の方向を算出し、この算出した方向からの音声を強調処理または抑圧処理することを特徴とする請求項7記載のカメラ装置。 It said voice control means, said position coordinates, based on the size of the focal length and or the image of the imaging means, calculates a direction of the designated ambient sound, the sound from the calculated direction enhancement or suppression camera apparatus according to claim 7, characterized in that.
  9. 撮像手段と、 And the imaging means,
    音声の特徴データを記憶した特徴データ記憶手段と、 Feature data storage means for storing audio characteristic data,
    周囲音を検出する周囲音検出手段と、 And the ambient sound detection means for detecting the ambient sound,
    前記特徴データ記憶手段に記憶された音声の特徴データと、前記周囲音検出手段により検出された周囲音中の音声データとを比較する比較手段と、 Comparing means for comparing the speech feature data stored in the feature data storage means, and audio data in the ambient sound detected by the ambient sound detecting means,
    この比較手段による比較に基づき、前記撮像手段の撮像範囲内において、前記特徴データに近似する周囲音を発生している被写体を検出する被写体検出手段とを備えることを特徴とする撮像装置。 Based on the comparison by the comparison means, in the imaging range of the imaging unit, an imaging apparatus, comprising a subject detection unit for detecting an object that generates an ambient sound to be approximate to the feature data.
  10. 前記被写体検出手段により検出された被写体に、前記撮像手段を合焦させる合焦制御手段を更に備えることを特徴とする請求項9記載の撮像装置。 The subject to the detected subject by the detecting means, the image pickup apparatus according to claim 9, wherein further comprising a focus control means for focusing said imaging means.
  11. 前記被写体検出手段により検出された被写体を表示する表示手段を更に備えることを特徴とする請求項9または10記載の撮像装置。 Imaging device according to claim 9 or 10, wherein further comprising a display means for displaying a subject detected by the subject detecting means.
  12. 前記周囲音検出手段により検出された周囲音を制御し、前記被写体検出手段により検出された被写体からの音声を強調処理または抑圧処理する音声制御手段と、 A sound control means for controlling the detected ambient sound, highlight processing or reduction processing audio from the detected object by the object detection unit by the ambient sound detecting means,
    この音声制御手段により前記音声を強調処理または抑圧処理された周囲音を記録する記録手段とを更に備えることを特徴とする請求項9、10または11記載の撮像装置。 The voice control unit by emphasizing the speech processing or suppressing process by the imaging apparatus according to claim 9, 10 or 11, wherein further comprising a recording means for recording ambient sound.
  13. 前記記録手段は、前記周囲音を前記撮像手段により撮像された画像とともに記録することを特徴とする請求項12記載の撮像装置。 It said recording means, the image pickup apparatus according to claim 12, wherein the recording with an image picked up by the image pickup means the ambient sound.
  14. 複数の音声の特徴データのうち任意の特徴データを指定する指定手段を更に備え、 Further comprising a designation means for designating an arbitrary characteristic data of the characteristic data of a plurality of speech,
    前記記憶手段は、前記指定手段により指定された前記特徴データを記憶することを特徴とする請求項9から13にいずれか記載の撮像装置。 Said storage means, the image pickup apparatus according to any one of claims 9 to 13, characterized by storing the characteristic data designated by said designating means.
  15. 前記周囲音検出手段は、複数のマイクロホンを有するマイクロホンアレーであることを特徴とする請求項3から14にいずれか記載の撮像装置。 The ambient sound detection means, the imaging apparatus according to any one of claims 3 to 14, characterized in that the microphone array having a plurality of microphones.
  16. 表示手段と、撮像手段と、この撮像手段の撮像範囲内における周囲音を検出する周囲音検出手段とを備える撮像装置が有するコンピュータを、 Display means, imaging means, the computer having an imaging device and a surrounding sound detection means for detecting the ambient sound in the imaging range of the imaging means,
    前記撮像手段により撮像される画像を前記表示手段に表示させる第1の表示制御手段と、 A first display control means for displaying the image captured on the display means by the image pickup means,
    前記周囲音検出手段により検出された周囲音を表す可視情報を生成し、この可視情報を前記周囲音検出手段により検出された前記周囲音の前記撮像範囲内における位置に対応させて、前記表示手段に表示させる第2の表示制御手段と Wherein generating a visual information representing the ambient sound detected by the ambient sound detecting means, the visual information in correspondence with a position within the imaging range of the ambient sound detected by the ambient sound detecting means, said display means a second display control means for displaying on,
    この第2の表示制御手段により前記表示手段に表示された前記周囲音を示す可視情報の任意の部分を指定することにより、前記周囲音検出手段により検出される周囲音に含まれる任意の音声を選択する選択手段と、 By specifying an arbitrary portion of the visible information indicating the ambient sound that is displayed on the display unit by the second display control means, any voice included in the ambient sound detected by the ambient sound detector and selection means for selecting,
    前記周囲音検出手段により検出された周囲音を制御し、前記選択手段により選択された音声を強調処理または抑圧処理する音声制御手段と、 A sound control means for controlling the ambient sound, and enhancement or suppression processing audio selected by the selection means is detected by the ambient sound detecting means,
    この音声制御手段により前記音声を強調処理または抑圧処理された周囲音を記録する記録手段と The voice control means and recording means for recording the enhancement or suppression processed ambient sound the voice
    して機能させることを特徴とする撮像制御プログラム。 Imaging control program for causing to function with.
  17. 撮像手段と、音声の特徴データを記憶した特徴データ記憶手段と、周囲音を検出する周囲音検出手段とを備える撮像装置が有するコンピュータを、 Imaging means, and wherein the data storage means for storing audio characteristic data, the computer having an imaging device and a surrounding sound detection means for detecting the ambient sound,
    前記特徴データ記憶手段に記憶された音声の特徴データと、前記周囲音検出手段により検出された周囲音中の音声データとを比較する比較手段と、 Comparing means for comparing the speech feature data stored in the feature data storage means, and audio data in the ambient sound detected by the ambient sound detecting means,
    この比較手段による比較に基づき、前記撮像手段が撮像する被写体において、前記特徴データに近似する周囲音を発生している被写体を検出する被写体検出手段として機能させることを特徴とする撮像制御プログラム。 Based on the comparison by the comparison means, in a subject wherein the imaging means takes an image, an imaging control program for causing to function as an object detecting means for detecting an object that generates an ambient sound to be approximate to the feature data.
JP2005074779A 2005-03-16 2005-03-16 Imaging device, an imaging control program Active JP4539385B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005074779A JP4539385B2 (en) 2005-03-16 2005-03-16 Imaging device, an imaging control program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005074779A JP4539385B2 (en) 2005-03-16 2005-03-16 Imaging device, an imaging control program

Publications (2)

Publication Number Publication Date
JP2006261900A JP2006261900A (en) 2006-09-28
JP4539385B2 true JP4539385B2 (en) 2010-09-08

Family

ID=37100669

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005074779A Active JP4539385B2 (en) 2005-03-16 2005-03-16 Imaging device, an imaging control program

Country Status (1)

Country Link
JP (1) JP4539385B2 (en)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008193196A (en) * 2007-02-01 2008-08-21 Casio Comput Co Ltd Imaging device and specified voice output method
JP5029986B2 (en) * 2007-05-07 2012-09-19 Necカシオモバイルコミュニケーションズ株式会社 Information processing apparatus and program
JP5141392B2 (en) * 2008-06-20 2013-02-13 カシオ計算機株式会社 Imaging apparatus, peripheral sound range display method, and program
JP5565552B2 (en) * 2009-09-25 2014-08-06 日本電気株式会社 Audiovisual processing apparatus, audiovisual processing method, and program
WO2011076286A1 (en) * 2009-12-23 2011-06-30 Nokia Corporation An apparatus
JP5683820B2 (en) * 2010-02-23 2015-03-11 株式会社ザクティ Imaging device
JP5857674B2 (en) * 2010-12-22 2016-02-10 株式会社リコー Image processing apparatus and image processing system
JP5140752B2 (en) * 2011-09-05 2013-02-13 富士フイルム株式会社 Imaging device
JP5954987B2 (en) * 2011-12-28 2016-07-20 キヤノン株式会社 Imaging apparatus and processing method thereof
US20130275873A1 (en) 2012-04-13 2013-10-17 Qualcomm Incorporated Systems and methods for displaying a user interface
JP5865774B2 (en) * 2012-05-02 2016-02-17 京セラ株式会社 Electronic device, control method, and control program
JP5949398B2 (en) * 2012-09-28 2016-07-06 株式会社Jvcケンウッド Video / audio recording and playback device
JP5939444B2 (en) * 2012-12-25 2016-06-22 株式会社Jvcケンウッド Imaging device
JP6125457B2 (en) * 2014-04-03 2017-05-10 日本電信電話株式会社 Sound collection system and sound emission system
JP6249047B2 (en) * 2016-05-27 2017-12-20 株式会社Jvcケンウッド Audio processing apparatus, video processing apparatus, audio processing method, and video processing method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63115077A (en) * 1986-10-31 1988-05-19 Mitsubishi Electric Corp Visualizing device for sound
JP3400084B2 (en) * 1994-04-27 2003-04-28 ソニー株式会社 Video camera-integrated video tape recorder

Also Published As

Publication number Publication date
JP2006261900A (en) 2006-09-28

Similar Documents

Publication Publication Date Title
Davis et al. The visual microphone: passive recovery of sound from video
KR960004130B1 (en) Video signal noise reduction circuit
US7710463B2 (en) Method and system for compensating for parallax in multiple camera systems
KR20100135208A (en) Microphone device, reproducing device and imaging device
JP4511821B2 (en) Important region determination method in the image, programs and devices
JP3195920B2 (en) Sound source identification and separation apparatus and method thereof
JP4201809B2 (en) Image stabilization apparatus and method, and an imaging apparatus
WO2012063449A1 (en) Imaging device, imaging method, program, and integrated circuit
KR20110053348A (en) System and method to generate depth data using edge detection
KR20090041442A (en) Image processing method and device, and its program
CN102160398B (en) Electronic equipment directional audio video capture
US20080259172A1 (en) Image pickup apparatus, image processing apparatus, image pickup method, and image processing method
CN101588453B (en) Image processing device, image shooting device, and image processing method
KR20090024963A (en) Sound zooming method and apparatus by controlling null widt
JP4449987B2 (en) Audio processing apparatus, sound processing method, and program
CN100341317C (en) Digital camera and method for controlling the digital camera
KR20110102695A (en) A digital photographing apparatus, a method for controlling the same, and a computer-readable storage medium
JP2004207985A (en) Digital camera
JP2005241805A (en) Automatic focusing system and its program
JP2009053748A (en) Image processing apparatus, image processing program, and camera
KR20080039281A (en) Image storage device, imaging device, image storage method, and program
CN101355631A (en) Image processor, digital camera, and method for processing image data
CN103973974A (en) Imaging apparatus
JP2004180298A (en) Camera system provided with eye monitoring function
CN102301694A (en) The image processing method and image processing apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100614

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3