JP2009065587A - Voice-recording device and voice-reproducing device - Google Patents

Voice-recording device and voice-reproducing device Download PDF

Info

Publication number
JP2009065587A
JP2009065587A JP2007233675A JP2007233675A JP2009065587A JP 2009065587 A JP2009065587 A JP 2009065587A JP 2007233675 A JP2007233675 A JP 2007233675A JP 2007233675 A JP2007233675 A JP 2007233675A JP 2009065587 A JP2009065587 A JP 2009065587A
Authority
JP
Japan
Prior art keywords
audio
image
unit
voice
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007233675A
Other languages
Japanese (ja)
Inventor
Tomoki Oku
Makoto Yamanaka
Masahiro Yoshida
昌弘 吉田
智岐 奥
誠 山中
Original Assignee
Sanyo Electric Co Ltd
三洋電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd, 三洋電機株式会社 filed Critical Sanyo Electric Co Ltd
Priority to JP2007233675A priority Critical patent/JP2009065587A/en
Priority claimed from US12/202,855 external-priority patent/US8218033B2/en
Publication of JP2009065587A publication Critical patent/JP2009065587A/en
Application status is Pending legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice-recording device which can detect a specific object in an image by processing a voice, on the basis of the size of the specific object, to obtain a voice according to the intention of photographer's image photographing. <P>SOLUTION: A voice recording device 100 for detecting a specific object subjects the size of the specific object in an image, that is, an angle corresponding to the distance from the voice recording device 100 to the specific object to voice processing, such as, change in the bearing angle (frontal directivity) θ2 of a microphone and emphasis of a specific band in a voice signal. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

音声及び映像の記録が可能な音声記録装置及び音声及び映像の出力が可能な音声再生装置に関し、特に映像に基づいて記録又は出力する音声を処理する音声記録装置及び音声再生装置に関する。 It relates to an output audio reproducing apparatus capable of speech and Rewritable audio recording apparatus and audio and video images, and more particularly to a sound recording apparatus and sound reproducing apparatus for processing a voice recording or output based on the image.

現在、映像とともに音声の記録が可能な音声記録装置であるビデオカメラが一般に広く普及している。 Currently, video cameras have spread in general widely an audio recording device capable of voice recording along with the video. このようなビデオカメラにおいては画質、音質の向上が図られており、例えば特許文献1では、レンズのズーム倍率の変化に合わせてマイクロホンから収録する音の音量や周波数特性を補正して、映像と音声の一体感を増すようにする方法が提案されている。 Image quality in such video cameras, and improve sound quality is achieved, for example, Patent Document 1, to correct the volume and frequency characteristics of the sound recording from the microphone in accordance with the change of the zoom magnification of the lens, and the image way to increase the sense of unity of voice have been proposed.
特開2000−278581号公報 JP 2000-278581 JP

ビデオカメラで特定の被写体、例えば人物を撮影する場合の撮影者の撮影の意図は、多くの場合、ズーム倍率と画面中に占めるその被写体である人物の大きさに反映されている。 Specific subject in a video camera, for example, the intention of the photographer's photographing when photographing a person, is reflected in the size of the human is the subject occupying in many cases, the zoom magnification and screen.

画面中に占める人物の顔が大きい場合は、撮影者は対象となる人物を特に重視していると考えられる。 If the face of the person occupying the screen is large, the photographer is considered to be particularly focused on the person of interest. そのため、画像とともに収録される音声は人間の声の帯域を強調した物とすることが好ましい。 Therefore, speech recorded with the image is preferably a material that emphasizes the band of human voice. 逆に、画面中に占める人物の顔の大きさが小さい場合は、撮影者は人物のみならず周りの雰囲気をも重視して撮影していると考えられる。 On the other hand, when the size of the face of the person occupying the screen is small, the photographer is believed to have taken with an emphasis also the atmosphere around not only the person. そのため、画像とともに収録される音声を、人間の声の帯域だけを強調したものとしたのでは周りの雰囲気を削ぐこととなり好ましくない。 Therefore, the speech recorded together with the image, than was assumed that only the stressed zone of human voice unfavorably to dampen the surrounding atmosphere.

しかし、特許文献1で開示されたビデオカメラでは、人物のような特定の被写体の大きさや有無に関わらずレンズのズーム倍率のみに基づいて、マイクロホンから収録する音声を補正するため、必ずしも上述のような撮影者の意図に沿った音声の補正がなされるとは限らない。 However, in the video camera disclosed in Patent Document 1, based only on the zoom magnification of the particular lens regardless of the size or the presence or absence of an object such as a person, for correcting the sound to record from the microphone, not necessarily as described above not necessarily that the do photographer's intention to along the voice of the correction is made.

そこで本発明は、音声の補正を、画面中の特定の被写体の大きさ、又は音声の補正を画面中の特定の被写体の大きさとズーム倍率とを関連づけたものに基づいて行い、撮影者の画像の撮影の意図に沿うような音声の補正を施すことができる音声記録装置を提供することを目的とする。 The present invention, the correction of the sound is performed based on what size of the specific subject in the screen, or a voice correction associated with the size and the zoom magnification of the specific subject in the screen, the photographer of the image and to provide an audio recording apparatus capable of performing the intended along such voice correction shooting. 更に、画像とともに再生する音声を撮影者の画像の撮影の意図に沿うようなものとすることができる音声再生装置を提供することを目的とする。 Furthermore, it is an object to provide a sound reproducing apparatus which can be a sound to be reproduced together with the image like along the intention of the photographer in the photographer's images.

上記目的を達成するために、本発明の音声記録装置は、レンズ部を通じて被写体が含まれる撮像画像を取得する撮像部と、音声を取得する音声取得部と、前記撮像画像中から前記被写体の特定部分を検出する特定部分検出部とを備える音声記録装置において、前記特定部分検出部で検出された前記特定部分の前記撮像画像中での大きさに基づいて、前記音声取得部で取得する音声に対して音声処理を施すことを特徴とする。 To achieve the above object, a voice recording device of the present invention includes an imaging unit that acquires a captured image including the subject through the lens unit, a voice acquisition unit that acquires a sound, certain of the object from in the captured image in the sound recording device and a specific part detector for detecting a portion, on the basis of the magnitude of the in the captured image of the detected said specific portion in a specific portion detecting unit, the sound to be acquired by the voice acquisition unit and characterized by applying audio processing for.

又、前記レンズ部のズーム倍率が変更可能であり、前記特定部分の前記撮像画像中での大きさ及び前記ズーム倍率に基づいて、前記音声取得部で取得する音声に対して音声処理を施すものとしても構わない。 Further, it can be changed zoom magnification of the lens portion, on the basis of the size and the zoom magnification in the captured image of the specific portion, which performs sound processing on the sound to be acquired by the voice acquisition unit it may be as.

又、前記レンズ部の合焦距離が変更可能であり、前記特定部分の前記撮像画像中での大きさ及び前記合焦距離に基づいて、前記音声取得部で取得する音声に対して音声処理を施すものとしても構わない。 Further, a focusing distance of the lens unit can be changed, based on the size and the focusing distance in the captured image of the specific portion, the sound processing on the audio acquired in the voice acquiring unit it may be as performing.

又、前記音声処理が、前記音声取得部の指向特性の調整、前記音声の信号レベルの調整及び前記音声の特定の帯域レベルの調整のうち少なくとも一つであるものとしても構わない。 Also, the audio processing, may be as the adjustment of the directional characteristic of the sound acquisition unit, at least one of adjustment of a particular band level of adjustment and the audio signal level of the speech.

又、前記特定部分を有する被写体が、音を発する物体であるものとしても構わない。 Further, an object with a specified portion, may be as a object that emits sound.

又、前記特定部分が、人物の顔であるものとしても構わない。 Further, the specific portion, may be as a person's face.

又、本発明の音声再生装置は、被写体を含む画像および音声を再生可能な音声再生装置において、前記画像中から前記被写体の特定部分を検出する特定部分検出部を備え、前記特定部分検出部で検出された前記特定部分の前記画像中での大きさに基づいて、前記音声に対して音声処理を施して再生することを特徴とする。 The audio reproducing apparatus of the present invention, in the audio reproducing apparatus can reproduce an image and audio including the subject, including a specific portion detection unit for detecting a specific portion of the subject from in the image, at the specific portion detecting unit based on the size of the in the image of said detected specific portion, characterized in that play is subjected to audio processing on the audio.

又、本発明の音声再生装置は、レンズ部を通じて被写体が含まれる撮像画像を取得する撮像部と、音声を取得する音声取得部と、前記レンズ部のズーム倍率及び合焦距離が変更可能であり、前記ズーム倍率情報及び前記合焦距離情報の少なくとも一方を、前記撮像画像及び前記音声とともに記録する記録部と、を備えた音声記録装置によって記録された前記撮像画像及び前記音声を再生可能な音声再生装置であって、前記撮像画像中から前記被写体の特定部分を検出する特定部分検出部を備え、前記特定部分検出部で検出された前記特定部分の前記撮像画像中での大きさ及び前記レンズ部のズーム倍率情報又は前記合焦距離情報に基づいて、再生する前記音声に対して音声処理を施すことを特徴とする。 The audio reproducing apparatus of the present invention includes an imaging unit that acquires a captured image including the subject through the lens unit, a voice acquisition unit that acquires a sound, zoom magnification and focal length of the lens portion can be altered , the zoom magnification information and at least one of the captured images and audio can be reproduced with the captured image and the sound recorded by the sound recording apparatus and a recording unit for recording together with the audio of the focusing distance information a reproducing apparatus, wherein with a specific portion detection unit for detecting a specific portion of the subject from the captured image, wherein the size and the lens in the captured image of the detected said specific portion in a specific portion detecting unit based on the zoom magnification information and the focus distance information parts, characterized in that performing sound processing on the audio to be reproduced.

本発明によると、例えば被写体の特定部分として人物の顔を検出し、その顔の画像中での大きさに基づいて、又はその顔の画像中での大きさ及びレンズ部のズーム倍率情報又は合焦距離情報に基づいて音声を処理する。 According to the present invention, for example, to detect a person's face as a specific part of the subject, based on the size of in the image of the face, or the zoom magnification information or if the size and the lens unit in the image of the face processing the voice based on the focal distance information. そのため、音声記録装置において、撮影者の画像の撮影の意図に沿うような音声の補正を施すことができる。 Therefore, the audio recording apparatus can be subjected to a correction of the speech, such as along the intention of the photographer in the photographer's images.

又、本発明によると、画像中の人物の顔を検出し、その顔の画像中での大きさに基づいて、又はその顔の画像中での大きさ及び画像とともに記録されたレンズ部のズーム倍率情報又は合焦距離情報に基づいて音声を処理する。 Further, according to the present invention, to detect a human face in the image, of the face based on the size of the in the image, or a lens unit that is recorded with the size and the image in the image of the face zooming processing the voice based on the magnification information or focal length information. そのため、音声再生装置において、撮影者の画像の撮影の意図に沿うような音声の補正を施すことができる。 Therefore, in the audio reproduction apparatus may be subjected to correction of the speech, such as along the intention of the photographer in the photographer's images.

〈第1の実施形態〉 <First embodiment>
本発明の第1の実施の形態について、図面を参照して説明する。 A first embodiment of the present invention will be described with reference to the drawings. 尚、以下では、本発明における撮影方法を行うデジタルカメラやデジタルビデオなどの、音声及び映像の記録が可能な音声記録装置を例に挙げて説明する。 In the following, description will be given, such as digital cameras and digital video to perform photographing method of the present invention, the audio recording apparatus capable of recording audio and video as an example. 音声記録装置は動画を撮影できるものであれば、静止画の撮影が可能なものであっても構わない。 As long as the audio recording apparatus capable of recording a movie, but may be those capable of taking still pictures.

(音声記録装置の構成) (Configuration of the audio recording device)
まず、音声記録装置の内部構成について、図面を参照して説明する。 First, the internal configuration of the audio recording apparatus will be described with reference to the drawings. 図1は、第1の実施形態に係る音声記録装置の内部構成を示すブロック図である。 Figure 1 is a block diagram showing the internal configuration of the audio recording apparatus according to the first embodiment.

図1の音声記録装置は、入射される光を電気信号に変換するCCD又はCMOSセンサなどの固体撮像素子(イメージセンサ)1と、被写体の光学像をイメージセンサ1に結像させるズームレンズとズームレンズの焦点距離すなわち光学ズーム倍率を変化させるモータとズームレンズの焦点を被写体に合わせるためのモータとを有するレンズ部2と、イメージセンサ1から出力されるアナログ信号である画像信号をデジタル信号に変換するAFE(Analog Front End)3と、音声記録装置の前方の左右方向から入力された音声を独立して電気信号に変換するステレオマイク4と、AFE3からのデジタル信号となる画像信号に対して、階調補正等の各種画像処理を施す画像処理部5と、ステレオマイク4からのアナログ信号である音声信号をデジタ Audio recording apparatus 1 includes a solid-state imaging device (image sensor) 1 such as a CCD or CMOS sensor for converting the light incident on the electrical signal, a zoom lens for forming an optical image of a subject on the image sensor 1 and the zoom converting the focus motor and the zoom lens to vary the focal length, that is, the optical zoom magnification of the lens and the lens portion 2 and a motor for adjusting the object, an image signal as an analog signal output from the image sensor 1 into a digital signal and AFE (Analog front End) 3 to a stereo microphone 4 for converting into an electrical signal independently a voice input from the front in the lateral direction of the sound recording apparatus, the image signal serving as a digital signal from the AFE 3, digital image processing section 5 performs various image processing gradation correction, the audio signal is an analog signal from the stereo microphone 4 ル信号に変換する音声処理部6と、静止画を撮影する場合は画像処理部5からの画像信号に対してJPEG(Joint Photographic Experts Group)圧縮方式など、動画を撮影する場合は画像処理部5からの画像信号と音声処理部6からの音声信号とに対してMPEG(Moving Picture Experts Group)圧縮方式などの圧縮符号化処理を施す圧縮処理部7と、圧縮処理部7で圧縮符号化された圧縮符号化信号をSDカードなどの外部メモリ22に記録するドライバ部8と、ドライバ部8で外部メモリ22から読み出した圧縮符号化信号を伸長して復号する伸長処理部9と、伸長処理部9で復号されて得られた画像信号をアナログ信号に変換するビデオ出力回路部10と、ビデオ出力回路部10で変換された信号を出力するビデオ出力端子11と、ビデオ出力回路部1 A sound processing unit 6 for converting Le signal, such as JPEG (Joint Photographic Experts Group) compression method for the image signal from the image processing unit 5 when shooting a still image, the image processor 5 when recording movies an image signal and MPEG against the audio signal from the audio processing section 6 (Moving picture Experts Group) compression processing unit 7 for performing compression coding processing such as compression method from, have been compression-encoded by the compression processing section 7 a driver portion 8 for recording the compression encoded signal to an external memory 22 such as an SD card, a decompression processing unit 9 which decodes expands the compressed encoded signal read from the external memory 22 by the driver section 8, the decompression processing unit 9 a video output circuit 10 for converting in image signals obtained by decoding to an analog signal, a video output terminal 11 for outputting a signal converted by the video output circuit 10, the video output circuit section 1 からの信号に基づく画像の表示を行うLCD等を有するディスプレイ部12と、伸長処理部9からの音声信号をアナログ信号に変換する音声出力回路部13と、音声出力回路部13で変換された信号を出力する音声出力端子14と、音声出力回路部13からの音声信号に基づいて音声を再生出力するスピーカ部15と、各ブロックの動作タイミングを一致させるためのタイミング制御信号を出力するタイミングジェネレータ(TG)16と、音声記録装置内全体の駆動動作を制御するCPU(Central Processing Unit)17と、各動作のための各プログラムを記憶するとともにプログラム実行時のデータの一時保管を行うメモリ18と、静止画撮影用のシャッターボタンを含むユーザからの指示が入力される操作部19と、CPU17と各ブロック A display unit 12 having a LCD or the like for displaying an image based on signals from, an audio output circuit section 13 for converting the audio signal from the decompression processing unit 9 into an analog signal, converted signal by the audio output circuit 13 an audio output terminal 14 for outputting an audio output speaker unit 15 for reproducing and outputting audio based on the audio signals from the circuit unit 13, a timing generator that outputs a timing control signal for matching the operation timings of the respective blocks ( and TG) 16, a CPU (Central Processing unit) 17 for controlling the overall driving operation in the voice recording device, a memory 18 for temporary storage of data during program execution and stores each program for each operation, an operation unit 19 an instruction from the user, including a shutter button for still image shooting is input, the CPU17 each block との間でデータのやりとりを行うためのバス回線20と、メモリ18と各ブロックとの間でデータのやりとりを行うためのバス回線21と、を備える。 Comprises a bus line 21 for exchanging data with the bus line 20 for exchanging data, a memory 18 and each of the blocks between. レンズ部2は、画像処理部5で検出した画像信号に応じてCPU17が、モータを駆動して焦点、絞りの制御を行うものである。 Lens unit 2, CPU 17 in accordance with an image signal detected by the image processing unit 5, the focus by driving the motor, and performs control of the aperture.

(音声記録装置の基本動作 静止画撮影時) (At the time of the basic operation still image shooting of the audio recording apparatus)
次に、この音声記録装置の静止画撮影時の基本動作について図2のフローチャートを用いて説明する。 Next, the basic operation of the still image capturing of the audio recording apparatus will be described with reference to the flowchart of FIG. まず、ユーザが音声記録装置を静止画撮影用に設定して電源をONにすると(STEP201)、音声記録装置の駆動モードつまりイメージセンサ1の駆動モードがプレビューモードに設定される(STEP202)。 First, when the user turns ON the power and set the audio recording device for still image shooting (STEP 201), the driving mode of the driving modes, i.e. the image sensor 1 of the audio recording apparatus is set to the preview mode (STEP 202). プレビューモードとは、撮影対象となる画像を記録することなくディスプレイ部12に表示するモードであり、撮影対象を定め、構図を決定するために用いることができる。 Preview mode is a mode for displaying on the display unit 12 without recording the image to be photographed subject, determine the imaging target can be used to determine the composition. 続いて撮影モードの入力待ち状態となり、人物撮影に適したモードや移動物の撮影に適したモード、逆光での撮影に適したモード等、音声記録装置の機能に応じたモードが選択される。 Subsequently becomes an input waiting state of the photographing mode, mode suitable for photographing of suitable modes or moving object on the person shooting mode, etc. suitable for shooting in backlit mode in response to a voice recording device is selected. 撮影モードが入力されない場合は通常撮影用のモードが選択されたものとする(STEP203)。 If the shooting mode is not input is assumed that the normal mode for photographing is selected (STEP 203). プレビューモードでは、イメージセンサ1の光電変換動作によって得られたアナログ信号である画像信号がAFE3においてデジタル信号に変換されて、画像処理部5で画像処理が施され、圧縮処理部7で圧縮された現時点の画像に対する画像信号が外部メモリ22に一時的に記録される。 In preview mode, the image signal as an analog signal obtained by photoelectric conversion of the image sensor 1 is converted into a digital signal in the AFE 3, the image processing is performed by the image processing unit 5, compressed by the compression processing section 7 an image signal to current image is temporarily stored in the external memory 22. この圧縮信号は、ドライバ部8を経て、伸長処理部9で伸長され、現時点で設定されているレンズ部2のズーム倍率での画角の画像がディスプレイ部12に表示される。 The compressed signal is via the driver section 8, is decompressed by the decompression processing unit 9, the image of the field angle of the zoom magnification of the lens portion 2, which is set at present is displayed on the display unit 12.

続いてユーザが、撮影の対象とする被写体に対して所望の画角となるように、光学ズームでのズーム倍率を設定する(STEP204)。 Then the user, so that the desired angle of view with respect to the subject of interest of the imaging, sets the zoom magnification of the optical zoom (STEP 204). その際、画像処理部5に入力された画像信号を基にCPU17によってレンズ部2を制御して、最適な露光制御(Automatic Exposure;AE)・焦点合わせ制御(オートフォーカス、Auto Focus;AF)が行われる(STEP205)。 At that time, the image signal input to the image processing unit 5 controls the lens unit 2 by CPU17 based on optimum exposure control (Automatic Exposure; AE) · focus control (autofocus, Auto Focus; AF) is It is performed (STEP205). ユーザが撮影画角、構図を決定し、操作部19のシャッターボタンを半押しすると(STEP206)、AEの調整を行い(STEP207)、AFの最適化処理を行う(STEP208)。 User photographing field angle, to determine the composition, when the shutter button of the operation unit 19 is pressed halfway (STEP 206), to adjust the AE (STEP 207), the optimization process of the AF (STEP 208).

その後、シャッターボタンが全押しされると(STEP209)、TG16より、イメージセンサ1、AFE3、画像処理部5及び圧縮処理部7それぞれに対してタイミング制御信号が与えられ、各部の動作タイミングを同期させ、イメージセンサ1の駆動モードを静止画撮影モードに設定し(STEP210)、イメージセンサ1から出力されるアナログ信号である画像信号(生データ)をAFE3でデジタル信号に変換して一旦画像処理部5内のフレームメモリに書き込む(STEP211)。 Thereafter, when the shutter button is fully pressed (STEP 209), from the TG 16, the image sensor 1, AFE 3, the timing control signal is supplied to the image processing unit 5 and the compression processing section 7, respectively, to synchronize the operation timing of each unit sets the driving mode of the image sensor 1 to the still image shooting mode (STEP 210), the image signal (raw data) temporarily image processing unit into a digital signal by AFE3 an analog signal output from the image sensor 1 5 It is written into the frame memory of the internal (STEP211). このデジタル信号がこのフレームメモリから読み込まれ、画像処理部5において輝度信号及び色差信号の生成を行う信号変換処理などの各種画像処理が施され、画像処理が施された信号が圧縮処理部7においてJPEG(Joint Photographic Experts Group)形式に圧縮された(STEP212)後、外部メモリ22に圧縮画像を書き込み(STEP213)、撮影を完了する。 The digital signal is read from the frame memory, various image processing such as signal conversion processing for generating a luminance signal and color difference signals in the image processing unit 5 is performed, the signal subjected to image processing is in the compression processing section 7 after JPEG compressed to (Joint photographic Experts Group) format (STEP212), writes the compressed image in the external memory 22 (STEP213), completing the shooting. その後、プレビューモードに戻る(STEP202)。 Then, return to the preview mode (STEP202).

(音声記録装置の基本動作 動画撮影、再生時) (Basic Operation of shooting video and audio recording apparatus, during playback)
次に、この音声記録装置の動画撮影時の基本動作について図3のフローチャートを用いて説明する。 Next, the basic operation of the moving image shooting of the audio recording apparatus will be described with reference to the flowchart of FIG. まず、ユーザが音声記録装置を静止画撮影用に設定して電源をONにすると(STEP301)、音声記録装置の駆動モードつまりイメージセンサ1の駆動モードがプレビューモードに設定される(STEP302)。 First, when the user turns ON the power and set the audio recording device for still image shooting (STEP 301), the driving mode of the driving modes, i.e. the image sensor 1 of the audio recording apparatus is set to the preview mode (STEP 302). 続いて撮影モードの入力待ち状態となる。 Then the input waiting state of the shooting mode. 撮影モードが入力されない場合は通常撮影用のモードが選択されたものとする(STEP303)。 If the shooting mode is not input is assumed that the normal mode for photographing is selected (STEP 303). プレビューモードでは、イメージセンサ1の光電変換動作によって得られたアナログ信号である画像信号がAFE3においてデジタル信号に変換されて、画像処理部5で画像処理が施され、圧縮処理部7で圧縮された現時点の画像に対する画像信号が外部メモリ22に一時的に記録される。 In preview mode, the image signal as an analog signal obtained by photoelectric conversion of the image sensor 1 is converted into a digital signal in the AFE 3, the image processing is performed by the image processing unit 5, compressed by the compression processing section 7 an image signal to current image is temporarily stored in the external memory 22. この圧縮信号は、ドライバ部8を経て、伸長処理部9で伸長され、現時点で設定されているレンズ部2のズーム倍率での画角の画像がディスプレイ部12に表示される。 The compressed signal is via the driver section 8, is decompressed by the decompression processing unit 9, the image of the field angle of the zoom magnification of the lens portion 2, which is set at present is displayed on the display unit 12.

続いてユーザが、撮影の対象とする被写体に対して所望の画角となるように、光学ズームでのズーム倍率を設定する(STEP304)。 Then the user, so that the desired angle of view with respect to the subject of interest of the imaging, sets the zoom magnification of the optical zoom (STEP 304). その際、画像処理部5に入力された画像信号を基にCPU17によってレンズ部2を制御して、最適な露光制御(Automatic Exposure;AE)・焦点合わせ制御(オートフォーカス、Auto Focus;AF)が行われる(STEP305)。 At that time, the image signal input to the image processing unit 5 controls the lens unit 2 by CPU17 based on optimum exposure control (Automatic Exposure; AE) · focus control (autofocus, Auto Focus; AF) is It is performed (STEP305).

その後、操作部19の録画開始ボタン(シャッターボタン兼用でも構わない)が全押しされ、撮像動作を行うことが指示されると(STEP306)、音声補正制御が行われる(STEP307)。 Thereafter, recording start button of the operation unit 19 (or may be a shutter button combined) is fully depressed, when it is instructed to perform the imaging operation (STEP 306), the voice correction control is performed (STEP 307). この音声補正制御については後述する。 This voice correction control will be described later. 続いてイメージセンサ1の光電変換動作によって得られたアナログ信号である画像信号がAFE3に出力される。 Then the image signal which is an analog signal obtained by photoelectric conversion of the image sensor 1 are output to the AFE 3. このとき、イメージセンサ1では、TG16からのタイミング制御信号が与えられることによって、水平走査及び垂直走査が行われて、画素毎のデータとなる画像信号が出力される。 At this time, the image sensor 1, by given timing control signal from the TG 16, and is horizontally and vertically scanned, image signal to be data for each pixel is outputted. そして、AFE3において、アナログ信号である画像信号(生データ)がデジタル信号に変換されて、画像処理部5内のフレームメモリに書き込む(STEP308)。 Then, the AFE 3, the image signals (raw data) is converted into a digital signal which is an analog signal is written in the frame memory in the image processing section 5 (STEP 308).

画像処理部5では輝度信号及び色差信号の生成を行う信号変換処理などの各種画像処理が施され、その画像処理が施された画像信号が圧縮処理部7に与えられる。 Various image processing such as signal conversion processing for generating the image processing section 5, the luminance signal and the color difference signal is applied, the image signal subjected to image processing is provided to the compression processing section 7. このとき、ステレオマイク4に音声入力されることで得られたアナログ信号である音声信号が、音声処理部6でデジタル信号に変換されて、圧縮処理部7に与えられる。 In this case, the audio signal is an analog signal obtained by being voice input to the stereo microphone 4 is converted into a digital signal by the audio processing section 6, is given to the compression processing section 7. これにより、圧縮処理部7では、デジタル信号である画像信号及び音声信号に対して、MPEG圧縮符号方式に基づいて、圧縮符号化し(STEP309)、ドライバ部8に与えて、外部メモリ22に記録させる(STEP310)。 Thus, the compression processing section 7, the image signal and the audio signal is a digital signal, on the basis of the MPEG compression encoding method, compression encoding (STEP 309), giving the driver section 8, is recorded in the external memory 22 (STEP310). 画像信号及び音声補正制御を施した音声信号と共に、音声補正制御を施していない音声信号とインデックスとしてその信号を取得した時点のズーム倍率情報も記録してもよい。 Together with the audio signal subjected to the image signal and the voice correction control, it may also be recorded zoom magnification information at the time it was acquired the signal as an audio signal and an index which is not subjected to the voice correction control. 又、このとき、外部メモリ22に記録された圧縮信号がドライバ部8によって読み出されて伸長処理部9に与えられて、伸長処理が施されて画像信号が得られる。 At this time, given the expansion section 9 compressed signal recorded in the external memory 22 is read out by the driver section 8, decompression processing is performed image signal is obtained. この画像信号がディスプレイ部12に与えられて、現在、イメージセンサ1を通じて撮影されている被写体画像が表示される。 The image signal is supplied to the display unit 12, now the subject image captured through the image sensor 1 is displayed. その後、再び操作部19の録画開始ボタンが全押しされるとプレビューモードに戻る(STEP302)。 Then, again recording start button of the operation unit 19 is returned to when it is pressed all the way down the preview mode (STEP302).

このように撮像動作を行うとき、TG16によって、AFE3、画像処理部5、音声処理部6、圧縮処理部7、及び伸長処理部9に対してタイミング制御信号が与えられ、イメージセンサ1による1フレームごとの撮像動作に同期した動作が行われる。 When thus performing an imaging operation, the TG 16, AFE 3, the image processing unit 5, the audio processing section 6, the compression processing section 7, and the timing control signal is given to the decompression processing unit 9, a frame according to the image sensor 1 synchronous operation is performed in the image pickup operation of each.

又、外部メモリ22に記録された動画を再生することが、操作部19を通じて指示されると、外部メモリ22に記録された圧縮信号は、ドライバ部8によって読み出されて伸長処理部9に与えられる。 Also, playing a moving image recorded in the external memory 22 is instructed through the operation unit 19, the compressed signal recorded in the external memory 22, supplied to the decompression processing unit 9 is read out by the driver unit 8 It is. そして、伸長処理部9において、MPEG圧縮符号方式に基づいて、伸長復号されて、画像信号及び音声信号が取得される。 Then, the decompression processing unit 9, based on the MPEG compression coding scheme is extended decoded image signal and audio signal is obtained. そして、画像信号がディスプレイ部12に与えられて画像が再生されるとともに、音声信号が音声出力回路部13を介してスピーカ部15に与えられて音声が再生される。 Then, the image signal along with the image provided to the display unit 12 is reproduced, the audio signal is speech given to the speaker unit 15 via the audio output circuit 13 are reproduced. これにより、外部メモリ22に記録された圧縮信号に基づく動画が音声とともに再生される。 Thus, video-based compressed signal recorded in the external memory 22 is reproduced together with audio.

静止画像を再生することが指示された場合は、外部メモリ22に記録された圧縮信号が伸長処理部9において、JPEG圧縮符号方式に基づいて、伸長復号されて、画像信号が取得される。 When reproducing the still image is instructed, the compressed signal is decompression processing unit 9, which is recorded in the external memory 22, based on the JPEG compression encoding scheme is extended decoded, the image signal is obtained. そして、画像信号がディスプレイ部12に与えられて画像が再生される。 Then, the image signal is an image given to the display unit 12 is reproduced.

(音声補正制御) (Voice correction control)
次に、本実施形態に係る音声補正制御について説明する。 Next, a description will be given voice correction control according to the present embodiment. 図4は本実施形態の音声処理部6の構成を示すブロック図、図5はステレオ角及び指向角についての模式図である。 Figure 4 is a block diagram showing a configuration of a speech processing unit 6 of the present embodiment, FIG. 5 is a schematic diagram of the stereo angle and orientation angle.

音声処理部6は、図4に示すように、画像処理部5からの顔検出信号を受けて音の補正制御方法を決定する音声補正制御方法決定部61と、音声補正制御方法決定部61から出力された音声補正制御信号を受信し、ステレオマイク4から出力された複数の音声信号の出力先を切り換える制御切替部62と、制御切替部62から出力された複数の音声信号を所定の割合で加算してモノラル化する第1の加算器63と、第1の加算器63でモノラル化された音声信号のうち特定の帯域を強調する音声帯域強調フィルタ64と、制御切替部62から出力された複数の音声信号にステレオ化処理を施すステレオ化処理部65と、制御切替部62から出力された複数の音声信号に指向性処理を施す指向性処理部66と、ステレオ化処理部65でステレオ Voice processing unit 6, as shown in FIG. 4, receives the face detection signal from the image processing section 5 and the voice correction control method determination unit 61 for determining a correction control method of the sound from the audio correction control method determining portion 61 receives output audio correction control signal, a control switching unit 62 for switching the output destination of a plurality of audio signals output from the stereo microphone 4, a plurality of audio signals output from the control switching unit 62 at a predetermined ratio a first adder 63 for monaural by adding, emphasizing audio band enhancing filter 64 to a particular band of the monaural speech signal at a first adder 63, output from the control switch unit 62 stereo processing unit 65 for performing stereo processing a plurality of audio signals, the directional processing unit 66 for performing a directional processing a plurality of audio signals output from the control switching unit 62, a stereo stereo processing unit 65 処理が施された複数の音声信号のそれぞれと指向性処理部66で指向性処理が施された音声信号とを所定の割合で加算する、音声信号の数に対応した個数の第2の加算器67と、複数の第2の加算器67で加算された音声信号のそれぞれと音声帯域強調フィルタ64で特定の帯域が強調されたモノラル音声信号とを所定の割合で加算する、音声信号の数に対応した個数の第3の加算器68と、を備える。 The process is added at a plurality of respectively predetermined ratio an audio signal directional processing has been performed by the directional processing unit 66 of the audio signal subjected, a second adder number corresponding to the number of audio signals 67, adds the monaural audio signal a particular band is emphasized in each and voiceband enhancement filter 64 of the audio signal added by the plurality of the second adder 67 in a predetermined ratio, the number of audio signals It includes a third adder 68 of a corresponding number, the. 第3の加算器68で加算された音声信号は圧縮処理部7に出力される。 Audio signal added by the third adder 68 is outputted to the compression processing section 7.

音声補正制御を開始すると、まず初期化動作として指向性処理部66でステレオ角を最大値又は最小値に設定する。 When starting the voice correction control, the first stereo angle directional processing unit 66 as an initialization operation will be set to the maximum or minimum value. 尚、この初期化動作は行わなくても構わない。 Incidentally, it may be the initialization operation is not performed. 本実施形態においてステレオ角とは、図5に示す、音声記録装置100のステレオマイク4の3個の集音方向のうち、右方向の指向方向Rと左方向の指向方向Lとのなす角度θ1のことである。 The stereo angle in the present embodiment, shown in FIG. 5, among the three sound collection direction of the stereo microphone 4 of the sound recording apparatus 100, the angle θ1 between the orientation direction L of the pointing direction R and the left direction in the right direction is that of. 又、ステレオマイク4の正面方向については、主な集音の範囲を示す角度である指向角θ2を変化させることができる。 Also, the front direction of the stereo microphone 4, it is possible to change the directivity angle θ2 is an angle indicating the range of the main sound collection. 指向角θ2は以下において正面指向性とも表すことがある。 Directivity angle θ2 may be expressed also as the front face directed below. 尚、図5には、左右方向の指向角θR、θLも示している。 Incidentally, in FIG. 5, the horizontal direction of the directivity angle .theta.R, also shows .theta.L. ステレオ角θ1、正面指向性θ2は、音声処理部6に設けられた指向性処理部66で変化させることができる。 Stereo angle .theta.1, the front face directed θ2 can be varied directional processing unit 66 provided to the audio processing unit 6.

続いて画像を読み込み、その画像中に、特定の被写体である人物の顔があるかどうかを検出する。 Then read the image, in the image, it detects whether there is a face of a person is a specific object. 本実施形態では特定の被写体が人物である場合について説明するが、音を発するものであれば、特定の被写体は人物に限らず動物などであってもよい。 While particular object will be described a person in this embodiment, as long as it emits a sound, a specific subject may be a animal not limited to a person.

(顔検出処理) (Face detection processing)
ここで、この音声記録装置の顔検出処理について説明する。 It will now be described face detection processing of the audio recording device. 画像処理部5は顔検出装置50を備え、入力された画像信号から人物の顔を検出することができる。 The image processing unit 5 includes a face detection unit 50 can detect a human face from the input image signal. 顔検出装置50の構成及び動作について以下に説明する。 The configuration and operation of the face detecting apparatus 50 will be described below.

図6は、顔検出装置50の構成を示すブロック図である。 Figure 6 is a block diagram showing the configuration of a face detection device 50. 顔検出装置50は、AFE3によって得られた画像データに基づいて1又は複数の縮小画像を生成する縮小画像生成部52、入力画像および縮小画像から構成される各階層画像とメモリ18に記憶された顔検出用の重みテーブルとを用いて入力画像に顔が存在するか否かを判定する顔判定部55、および顔判定部55の検出結果を出力する検出結果出力部56を備えている。 The face detection unit 50, the reduced image generating unit 52 to generate one or more reduced images based on the image data obtained by the AFE 3, stored in each layer image memory 18 and an input image and the reduced image and a detection result output unit 56 for outputting a detection result of determining the face determination unit 55 and the face determination unit 55, whether or not the face is present in the input image using a weight table for face detection. 検出結果出力部56は、顔が検出された場合には、検出された顔の入力画像を基準とする大きさと位置及び顔の大きさから推定したその顔までの距離を出力する。 The detection result output unit 56, when a face is detected, outputs the distance from the size of the size and location and the face relative to the input image of the detected face to estimated the face.

又、メモリ18に記憶された重みテーブルは、大量の教師サンプル(顔および非顔のサンプル画像)から求められたものである。 Also, the weight table stored in the memory 18 is obtained from a large number of teacher samples (sample images of face and non-face). このような重みテーブルは、例えば、Adaboostと呼ばれる公知の学習方法を利用して作成することができる(Yoav Freund, Robert E. Schapire,"A decision-theoretic generalization of on-line learning and an application to boosting", European Conference on Computational Learning Theory, September 20,1995.)。 Such a weight table is, for example, can be created using a known learning method called Adaboost (Yoav Freund, Robert E. Schapire, "A decision-theoretic generalization of on-line learning and an application to boosting ", European Conference on Computational Learning Theory, September 20,1995.).

尚、Adaboostは、適応的なブースティング学習方法の1つで、大量の教師サンプルをもとに、複数の弱識別器候補の中から識別に有効な弱識別器を複数個選択し、それらを重み付けして統合することによって高精度な識別器を実現する学習方法である。 Incidentally, Adaboost is one of adaptive boosting learning method, based on the mass of the teacher sample, a plurality select effective weak classifiers to identify from a plurality of weak classifiers candidates, their it is a learning method to achieve highly accurate classifier by integrating weighted. ここで、弱識別器とは、全くの偶然よりは識別能力は高いが、十分な精度を満たすほど高精度ではない識別器のことをいう。 Here, the weak classifier, totally discriminating ability than chance is higher, it refers to not as accurate satisfy sufficient precision classifier. 弱識別器の選択時には、既に選択した弱識別器がある場合、選択済の弱識別器によって誤認識してしまう教師サンプルに対して学習を重点化することによって、残りの弱識別器候補の中から最も効果の高い弱識別器を選択する。 Upon selection of the weak classifiers, if there is already weak classifier selected by prioritizing the learning with respect to teacher samples falsely recognized by the weak classifier of Selected, among the remaining weak classifiers candidate selecting the most effective weak classifier from.

図7は、縮小画像生成部52によって得られる階層画像の一例を示している。 Figure 7 shows an example of a hierarchical image obtained by the reduced image generating unit 52. この例では、縮小率を0.8に設定した場合に、生成される複数の階層画像を示している。 In this example, if you set the reduction ratio to 0.8, indicating a plurality of layer images generated. 図7において、150は入力画像を、151〜155は縮小画像を示している。 7, 150 an input image, 151 to 155 represents a reduced image. 161は判定領域を示している。 161 indicates a determination region. この例では、判定領域は縦24画素、横24画素の大きさに設定されている。 In this example, the determination region is set to the vertical 24 pixels, the horizontal 24 pixels size. 判定領域の大きさは、入力画像および各縮小画像においても同じである。 The size of the determination area is the same in the input image and the reduced image. 又、この例では、矢印で示すように、階層画像上で判定領域を左から右に移動させる、水平方向走査を、上方から下方に向かって行うことで、判定領域とマッチングする顔画像の検出を行う。 Further, in this example, as shown by an arrow, is moved from left determination area in the hierarchical image to the right, the horizontal scanning, by performing a top to bottom, the determination region matched to the face image detecting I do. ただし、走査順はこれに限られるものではない。 However, the scanning order is not intended to be limited to this. 入力画像150の他に、複数の縮小画像151〜155を生成しているのは、1種類の重みテーブルを用いて大きさが異なる顔を検出するためである。 In addition to the input image 150, the generates a plurality of reduced images 151 to 155, is used to detect different face size using one of the weight table.

図8は顔検出処理を説明するための図である。 Figure 8 is a diagram for explaining a face detection process. 顔判定部55による顔検出処理は、各階層画像毎に行なわれるが、処理方法は同様なので、ここでは入力画像150に対して行なわれる顔検出処理についてのみ説明する。 Face detection processing by the face determination unit 55 is carried out for each layer image, since the processing method is the same, will be described here only the face detection processing performed on the input image 150. 図8には、入力画像150と、入力画像内に設定された判定領域161とを示している。 Figure 8 illustrates an input image 150, and a determination area 161 which is set in the input image.

各階層画像毎に行なわれる顔検出処理は、画像内に設定された判定領域に対応する画像と重みテーブルとを用いて行なわれる。 Face detection processing performed for each layer image is performed by using the image and the weight table corresponding to the determined area set in the image. 顔検出処理は粗い判定から順次細かい判定に移行する複数の判定ステップからなり、ある判定ステップにおいて、顔が検出されなかった場合には、次の判定ステップには移行せず、当該判定領域には顔は存在しないと判定する。 Face detection processing is comprised of a plurality of decision to migrate sequentially finer determined from the coarse determination, in some determination step, when the face is not detected, it is not shifted to the next decision step, on the determination region face determines that does not exist. 全ての判定ステップにおいて、顔が検出された場合にのみ、当該判定領域に顔が存在すると判定し、判定領域を走査して次の判定領域での判定に移行する。 In all the determination step, only when a face is detected, it is determined that the face on the determination region is present, by scanning the judgment region shifts to the determination in the next determination area. そして、顔が検出されたとき、いずれの階層画像が用いられていたかによって、入力画像を基準とする顔の大きさ及び顔までの距離を推定することができる。 When the face is detected, either by the hierarchical image has been used, it is possible to estimate the distance to the size and the face of the face relative to the input image. このようにして、検出された顔の位置、大きさ及びその顔を有する人物までの距離は検出結果出力部56によって出力される。 In this way, the position of the detected face, the distance to a person having a size and the face is output by the detection result output unit 56. 尚、このような顔検出処理については、本願出願人による特許出願である特願2006−053304号に詳しく記載されている。 Note that such face detection processing is described in detail in Japanese Patent Application No. 2006-053304 is a patent application filed by the present applicant.

この顔検出処理において読み込んだ画像中に顔を検出しなかった場合、音声補正制御方法決定部61では、人物のない画像を撮影していると判断し、環境音を臨場感のあるものとして収録するように音声処理を施す。 If not detected face read the image in the face detection process, the voice correction control method determination unit 61 determines that the photographed image without a person, recorded environmental sound as being realistic the audio processing to perform. このような音声処理の一例として、指向性処理部66でステレオ角θ1を広いもの(例えば90°)とすると共に、ステレオ化処理部65でステレオマイク4で収集された音声をステレオ化させるものが挙げられる。 An example of such a voice processing, with a wider stereo angle θ1 with directional processing unit 66 (e.g., 90 °), those for stereo sound collected by the stereo microphone 4 by the stereo processing unit 65 and the like. 尚、本実施形態では音声処理に、音声信号の加工のみならずステレオ角の変更も含む。 Incidentally, the audio processing in the present embodiment, including changing the stereo angle not only processing of audio signals.

人物の大きさが所定の大きさ(例えば画像中での顔の占める面積が30%又は50%など。図9は30%の場合である)以上の場合は、撮影者が人物の強調を意図して撮影したものと考えられるため、映像に映った人物の音声を明確とする音声処理を施す。 The size of a person predetermined size (e.g. the area occupied by the face in the image and 30% or 50%. FIG. 9 is a is the case of 30%) in the case of above, the photographer intended enhancement of the person for it is believed that were taken, and subjected to the voice processing to clarify the voice of the person reflected in the video. 又、人物の大きさが所定の大きさ未満の場合(図10は5%の場合である)は、撮影者が人物と共に周囲の雰囲気を重視することを意図して撮影したものと考えられるため、映像に映った人物の音声を強調すると同時に環境音を臨場感のあるものとする音声処理を施す。 Further, when the size of the person is less than a predetermined size (FIG. 10 shows the case of 5%) for is considered to photographer shot intended to emphasize the surrounding atmosphere together with the person , subjected to the voice processing assumed to be realistic at the same time environmental sounds and to emphasize the voice of the person reflected in the video. 画像中での顔の占める割合は、顔検出装置50においていずれの階層画像で顔を検出したかによって求めることができる。 Proportion of faces in the image can be determined depending on whether a face is detected in any of the hierarchical image in the face detection unit 50. 表1に本実施形態における音声処理の一例を示す。 Table 1 shows an example of audio processing in this embodiment.

人物の大きさが所定の大きさ以上の場合には、ステレオマイク4で収集された音声信号を第1の加算器63でモノラル化させ、モノラル化した音声信号を音声帯域強調フィルタ64で人間の声の周辺の帯域(例えば80Hz〜1kHz)を強調する処理を施す。 If the size of a person is equal to or larger than a predetermined magnitude, the audio signal collected by the stereo microphone 4 is monaural in the first adder 63, the human voice signal monophonic voice band emphasizing filter 64 subjected to a process of enhancing the bandwidth of the periphery of the voice (for example 80Hz~1kHz). その上で、適宜ステレオ化処理部65でステレオ化処理が施された複数の音声信号及び指向性処理部66で指向性処理が施された音声信号を第2の加算器67及び第3の加算器68で適宜信号レベルを調整して加算する。 On top of that, appropriate stereo processing unit 65 a plurality of audio signals and an audio signal directional processing has been performed by the directional processing unit 66 of the second adder 67, and a third addition of the stereo processing has been performed in and adding the appropriately adjusted signal level in vessel 68. 尚、音声信号をモノラル化して特定の帯域を強調する代わりに指向性処理部66において正面指向性θ2を広いもの(例えば90°)としてもよい。 It is also as wide a front face directed .theta.2 (e.g. 90 °) in the directional processing unit 66 instead emphasize specific band by monaural audio signal. 又、音声処理部6を、正面指向性θ2を変化させると共にステレオマイク4で収集された音声をモノラル化させる構成としてもよい。 Also, the audio processing section 6 may sound collected by the stereo microphone 4 with changing the front face directed θ2 as configuration for monaural.

人物の大きさが所定の大きさ未満の場合には、ステレオマイク4で収集された音声信号を、指向性処理部66で正面指向性θ2を狭いもの(例えば60°や45°)とし、ステレオ化処理部65でステレオ化する処理を施し、これらの音声信号を第2の加算器67で加算する。 If the size of the person is less than the predetermined magnitude, the audio signal collected by the stereo microphone 4, and a narrow front directional θ2 with directional processing unit 66 (e.g., 60 ° or 45 °), stereo subjected to processing for stereo by processing unit 65, it adds these audio signals in the second adder 67. その上で、適宜音声帯域強調フィルタ64で特定の帯域を強調したモノラルの音声信号を第3の加算器68で加算してもよい。 On top of that, it may be added to monaural sound signal emphasizing a specific band at appropriate voice band emphasis filter 64 in the third adder 68. 又、音声処理部6で、ステレオ角θ1を広いもの(例えば120°)として広い範囲の環境音を収録するとともに、正面指向性θ2を狭いもの(例えば60°や45°)として人物からの音声を強調し、これらの環境音と人物の音声を適宜信号レベルを調整して加算できる構成としてもよい。 Further, the voice processing unit 6, as well as recording a wide range of environmental sound as wide stereo angle .theta.1 (e.g. 120 °), the voice from the person as narrow a front face directed .theta.2 (e.g. 60 ° or 45 °) the stressed, it may be the sound of these environmental sound and a person as a configuration appropriate signal level can be added to adjust.

このように、人物の有無、大きさに応じた処理を施した音声信号を適宜ミキシングすることによって、映像の変化に追従した音声を得ることができる。 Thus, the presence or absence of a person, by appropriately mixing audio signals subjected to processing in accordance with the size, it is possible to obtain a sound following the change in the image.

以上のように、画像中の所定の被写体である人物の顔の大きさに応じた音声処理を施すことによって、画像とともに収録される音声を、撮影者の画像を撮影の仕方の意図に応じたものとすることができる。 As described above, by performing the sound processing according to the size of the face of a person is a predetermined object in an image, the speech recorded together with the image, according to images of the photographer to the intention of how shooting it can be a thing.

〈第2の実施形態〉 <Second Embodiment>
本発明の第2の実施形態について、図面を参照して説明する。 A second embodiment of the present invention will be described with reference to the drawings. 本実施形態は、音声補正制御を、特定の被写体の大きさのみならずレンズのズーム倍率にも基づいて行う点が異なる以外は第1の実施形態と同様であり、実質上同一の部分には同一の符号を付している。 This embodiment, the sound correction control, except that the point of performing also based on the zoom magnification of the lens not only the size of the specific subject different is the same as the first embodiment, the substantially same parts It is denoted by the same reference numerals.

図11は本実施形態の音声処理部6の構成を示すブロック図である。 Figure 11 is a block diagram showing a configuration of a speech processing unit 6 of the present embodiment. 本実施形態の音声処理部6は、レンズ部2からのズーム倍率情報と画像処理部5からの顔検出信号とを受けて音の補正制御方法を決定する音声補正制御方法決定部61と、音声補正制御方法決定部61から出力された音声補正制御信号を受信し、制御切替部62から出力された複数の音声信号に指向性処理を施す指向性処理部66と、音声補正制御方法決定部61から出力された音声補正制御信号を受信し、ステレオマイク4から出力された複数の音声信号の出力先を切り換える制御切替部62と、制御切替部62から出力された複数の音声信号にステレオ化処理を施すステレオ化処理部65と、ステレオ化処理部65でステレオ化処理が施された複数の音声信号のそれぞれと指向性処理部66で指向性処理が施された音声信号とを所定の割 Voice processing unit 6 of this embodiment includes a voice correction control method determination unit 61 for determining a correction control method of the sound receiving face detection signal from the zoom magnification information and the image processing unit 5 from the lens portion 2, the voice receive audio correction control signal output from the correction control method determining unit 61, a directional processing unit 66 for performing a directional processing a plurality of audio signals output from the control switching unit 62, the voice correction control method determining portion 61 receive audio correction control signal output from a control switching unit 62 for switching the output destination of a plurality of audio signals output from the stereo microphone 4, stereo process the plurality of audio signals output from the control switching unit 62 the applied stereo processing unit 65, an audio signal directional processing is performed by respectively directional processing unit 66 of the plurality of audio signals stereo processing has been performed by the stereo processing unit 65 of a predetermined split で加算する、音声信号の数に対応した個数の第3の加算器68と、制御切替部62から出力されたそれぞれの音声信号と指向性処理部66で指向性処理が施された音声信号とを所定の割合で加算する、音声信号の数に対応した個数の第4の加算器69と、第3の加算器68のそれぞれで加算された音声信号のうち特定の帯域を強調する、音声信号の数に対応した個数の音声帯域強調フィルタ64と、を備える。 In adding, a third adder 68 of the number corresponding to the number of audio signals, and audio signals directional processing is performed each audio signal outputted from the control switching unit 62 and in directional processing unit 66 adding at a predetermined ratio, it emphasizes a fourth adder 69 of the number corresponding to the number of audio signals, the specific band of the audio signal added by each of the third adder 68, the audio signal comprising the voiceband emphasis filter 64 number corresponding to the number, the. 第4の加算器69で加算された音声信号及び音声帯域強調フィルタ64で処理された音声信号は、圧縮処理部7に出力される。 Audio signal processed by the fourth adder 69 speech signals and voice band emphasizing filter 64 are added in is output to the compression processing section 7.

音声補正制御を開始すると、まず初期化動作として指向性処理部66でステレオ角を最大値又は最小値に設定する。 When starting the voice correction control, the first stereo angle directional processing unit 66 as an initialization operation will be set to the maximum or minimum value. 尚、この初期化動作は行わなくても構わない。 Incidentally, it may be the initialization operation is not performed. 続いて画像を読み込み、その画像中に、人物の顔があるかどうかを検出する。 Then read the image, in the image, to detect whether there is a face of a person.

読み込んだ画像中に顔を検出しなかった場合、音声補正制御方法決定部61では、人物のない画像を撮影していると判断し、第1の実施形態と同様に、環境音を臨場感のあるものとして収録するように音声処理を施す。 If not detected a face in the read image, the voice correction control method determination unit 61 determines that the photographed image without a person, as in the first embodiment, the realism of the environmental sound the voice processing to recorded as a certain thing applied.

一方、人物の顔を検出した場合、画像中の人物の大きさ及びレンズ部4のズーム倍率に応じた音声処理を施す。 On the other hand, when detecting the face of a person, subjected to speech processing in accordance with the size and the zoom magnification of the lens unit 4 of the person in the image.

人物の大きさが所定の大きさ以上の場合は、撮影者が人物の強調を意図して撮影したものと考えられる。 The size of the person is equal to or larger than a predetermined size, it is considered that the photographer has taken intended to highlight the person. さらに画像中の人物の大きさが同じでもズーム倍率によっては音声記録装置から人物までの距離が異なるため、人物の音声と背景音との音量比率や、適切なステレオ角θ1、正面指向性θ2が異なる。 Further, since the size of the person in the image is the distance from the sound recording device to the person varies depending same in zoom magnification, and volume ratio of the voice and the background sound of the person, the appropriate stereo angle .theta.1, the front face directed θ2 different.

まず、音声記録装置から人物までの距離と適するステレオ角θ1について説明する。 First, a description will be given stereo angle θ1 suitable distance from the sound recording device to the person. 図12は音声記録装置から人物までの距離と適切なステレオ角θ1との関係を示す模式図である。 Figure 12 is a schematic diagram showing the relationship between the distance and the appropriate stereo angle θ1 from the audio recording apparatus to the person. 図12において、人物が位置Aにいる場合と位置Aよりも音声記録装置100から遠い位置Bにいる場合とを比較すると、位置人物とその周囲の環境音を臨場感のあるものとして含むようにするための適切なステレオ角θ1は位置Aではθ1A、位置Bではθ1Bであり、位置Aの方が広い。 12, when comparing the case you are in distant position B from the audio recording apparatus 100 than the position A person is in a position A, to include environmental sounds around the position the person as being realistic suitable stereo angle θ1 is in the position a .theta.1a for a θ1B in position B, wider towards the position a. つまり、対象とする被写体(この場合は人物)が近いほど適切なステレオ角θ1は広い。 That is, the stereo angle θ1 subject (in this case a person) of the closer appropriate in question is wide. ここで、音声記録装置100のステレオマイク4の3個の集音方向のうち右方向の指向方向Rと左方向の指向方向Lは、ステレオ角θ1AについてはそれぞれRA、LAであり、ステレオ角θ1BについてはそれぞれRB、LBである。 Here, the directivity direction L of the directivity direction R and left-right directions of the three sound collection direction of the stereo microphone 4 of the sound recording apparatus 100, for the stereo angle θ1A are each RA, LA, stereo angle θ1B respectively, for the RB, a LB. 又、画像中の対象とする被写体の大きさが同じであれば、ズーム倍率が小さいほど適切なステレオ角θ1は広い。 Further, if the size of the object of interest in the image are the same, the more appropriate stereo angle θ1 zoom magnification is small wide.

次に音声記録装置から人物までの距離と適する正面指向性θ2について説明する。 Will now be described front face directed θ2 suitable distance from the sound recording device to the person. 図13は音声記録装置から人物までの距離と適切な正面指向性θ2との関係を示す模式図である。 Figure 13 is a schematic diagram showing the relationship between the distance and the appropriate front face directed θ2 from the audio recording apparatus to the person. 図13において、人物が位置Aにいる場合と位置Aよりも音声記録装置100から遠い位置Bにいる場合とを比較すると、人物の全体を含むための適切な正面指向性θ2は位置Aではθ2A、位置Bではθ2Bであり、位置Aの方が広い。 13, when comparing the case where a person is in a position far B from the voice recording apparatus 100 from the position A and if you are in the position A,? 2a in a suitable front face directed θ2 position A to contain the whole of a person a θ2B in position B, wider towards the position a. つまり、対象とする被写体(この場合は人物)が近いほど、適切な正面指向性θ2は広い。 That is, as the object (person in this case) is close to the target, the appropriate front face directed θ2 is wide.

人物の大きさが所定の大きさ以上の場合は、撮影者が人物の強調を意図して撮影したものと考えられるため、映像に映った人物の音声を明確とする音声処理を施す。 If the size of a person is equal to or larger than a predetermined size, photographer it is considered that was taken with the intention of enhancement of a person, subjected to sound processing to clarify the voice of a person reflected in the image. 一方、人物の大きさが所定の大きさ未満の場合は、人物と共に周囲の風景やその場の雰囲気も対象として撮影したものと考えられるため、人物の音声を強調すると共にその周囲の環境音を臨場感のあるものとする音声処理を施す。 On the other hand, the size of the person is given in the case of less than the size, it is considered that was taken as the target and atmosphere of the surrounding landscape or in situ with the person, the surrounding environment sound while emphasizing the sound of a person the voice processing is assumed that a sense of presence is performed. 人物の大きさの基準としては、画像中での顔の占める面積を利用することができる。 The reference size of the person, it is possible to utilize the area occupied by the face in the image.

表2に本実施形態における音声処理の一例を示す。 Table 2 shows an example of audio processing in this embodiment.

人物の大きさが所定の大きさ以上の場合には、制御切替部62で出力方向が切り替えられたステレオマイク4で収集されたままの音声信号と指向性処理部66で処理が施された音声信号とが第4の加算器69で加算された音声信号を、音声帯域強調フィルタ64において人間の声の周辺の帯域(例えば80Hz〜1kHz)を強調する処理を施し、圧縮処理部7に出力する。 Voice size of a person in the case of more than a predetermined magnitude, the processing in the audio signal remains collected in stereo microphone 4 in which the output direction is switched by the control switching section 62 and the directional processing unit 66 has been performed an audio signal and a signal obtained by adding the fourth adder 69, performs processing for emphasizing band around the human voice (e.g. 80Hz~1kHz) in voiceband emphasizing filter 64, and outputs to the compression processing section 7 . このとき、正面指向性θ2は、ズーム倍率が小さいほど広いものとする。 At this time, the front face directed θ2 shall wide as the zoom magnification is small. これは、ズーム倍率が小さいほど人物が近いからである。 This is because as the zoom magnification is small near the person. 又、音声信号の人間の声の周辺の帯域を高音質の符号化を行ってもよい。 In addition, it may be a band in the vicinity of the human voice of the voice signal by performing the encoding of high-quality sound. 更に、ズーム倍率が小さいほど人物が音声記録装置に近いため、人物の音声の大きさを適切なものとするため、音声信号の人間の声の周辺の帯域についてズーム倍率が小さいほど音量を減衰させ、ズーム倍率が大きいほど音量を増幅させてもよい。 Further, since the person as the zoom magnification is small close to the audio recording device, to the size of the voice of a person with appropriate attenuates the sound as the zoom magnification is small for the band around the human voice audio signal it may be amplified the sound volume larger the zoom magnification.

人物の大きさが所定の大きさ未満の場合には、ステレオ化処理部65でステレオ化処理が施された音声信号と指向性処理部66で指向性処理が施された音声信号とが第3の加算器68で加算された音声信号を、圧縮処理部7に出力する。 If the size of the person is less than the predetermined magnitude, and the audio signal directional processing with directional processing unit 66 and the audio signal stereo processing has been performed by the stereo processing unit 65 is subjected to third the audio signal added by the adder 68, and outputs to the compression processing section 7. このとき、正面指向性θ2は、人物の大きさが所定の大きさ以上の場合よりも狭いものとする。 At this time, the front face directed θ2, the size of the person and narrower than in the case of more than a predetermined size. また、撮影の主な対象はズーム倍率が大きい場合は画角が狭いため遠くの風景であり、ズーム倍率が小さい場合は画角が広角でありその場の雰囲気を含めた音声記録装置付近の風景であると考えられるため、ステレオ角θ1は、上述の通り、ズーム倍率が小さいほど広いものとする。 The main subject of the shot is distant scenes for the narrow view angle is large zoom magnification, landscape near sound recording device when the zoom magnification is small field angle, including a wide-angle a is atmosphere less since it is considered to be the stereo angle θ1, as described above, and wider as the zoom magnification is small. 又、音声信号を広い帯域で符号化を行ってもよい。 It may also be carried out coded audio signal in a wide band. 更に、ズーム倍率が小さいほど人物が音声記録装置に近いため、人物の音声の大きさを適切なものとするため、音声信号の人間の声の周辺の帯域についてズーム倍率が小さいほど音量を減衰させ、ズーム倍率が大きいほど音量を増幅させてもよい。 Further, since the person as the zoom magnification is small close to the audio recording device, to the size of the voice of a person with appropriate attenuates the sound as the zoom magnification is small for the band around the human voice audio signal it may be amplified the sound volume larger the zoom magnification.

尚、本実施形態において、レンズ部2のズーム倍率情報に代えて、AFの最適化処理で得られた合焦距離が、所定の距離以上かそれ未満かを基準にして音声を処理してもよい。 In the present embodiment, instead of the zoom magnification information of the lens unit 2, the optimization focusing distance obtained by the processing of the AF, be treated with voice based on whether it less than a predetermined distance or more good. この場合も、合焦距離情報をインデックスとして記録してもよい。 Again, it may be recorded focal length information as an index. 又、レンズ部2のズーム倍率情報とAFの最適化処理で得られた合焦距離との両方を基準にして音声を処理してもよい。 It is also possible to process voice both the obtained focal distance optimization zoom magnification information of the lens unit 2 and the AF based on.

尚、第1の実施形態及び第2の実施形態において、ステレオ角θ1や正面指向性θ2を制御したり、人物の音声を強調したりする場合、音声を強調している方向やステレオ角の開く方向を示す音声強調マークを、ディスプレイ部12に表示される画像中に表示してもよい。 In the first embodiment and the second embodiment, and controls the stereo angle θ1 and the front face directed .theta.2, if you to highlight voice of a person, open directional or stereo angle emphasizes speech the speech enhancement mark indicating the direction may be displayed in the image displayed on the display unit 12. 例えば図14に示すような十字型の音声強調マーク70を、正面指向性θ2を制御している場合や人物の音声を強調している場合はディスプレイ部12の画面の中央部に、ステレオ角θ1を制御している場合にはステレオ角の開く方向すなわち画面の左右に表示させる。 For example the cross-shaped speech enhancement mark 70 as shown in FIG. 14, the center portion of the screen of the display unit 12 if emphasizes the speech or if a person is controlling the front face directed .theta.2, stereo angle θ1 It is displayed on the left and right direction, that the screen opening of the stereo angle when controlling the. これによって、撮影者に音声の強調がどのように行われているかを知らせることができ、安心感を与えることができる。 This allows the photographer to be able to tell whether the voice of the emphasis has been how to take place, it is possible to give a sense of security. 又、撮影者が、ディスプレイ部12の音声強調マーク70を見ながら操作部19を操作して、ステレオ角θ1や正面指向性θ2を制御したり、人物の音声を強調したりできるようにしても構わない。 Further, the photographer operates the operation unit 19 while seeing the speech enhancement mark 70 of the display unit 12, and controls the stereo angle θ1 and the front face directed .theta.2, be allowed to to highlight voice of a person I do not care.

又、第1の実施形態及び第2の実施形態において、画像中の対象とする被写体の大きさやズーム倍率に基づいて、対象とする被写体が音声記録装置よりも所定の距離以上遠くにあると判断した場合に、所定の大きさ以上の音声信号を検出すると記録する音声信号レベルを低減するようにしてもよい。 Moreover, determining that the first and second embodiments, based on the size and zoom magnification of an object of interest in an image, an object of interest is in a far more than a predetermined distance than the audio recording apparatus when, may be reducing audio signal level to be recorded and detecting a predetermined magnitude or more audio signals. これにより、例えば対象とする被写体として人物を撮影している際に撮影者が話したような場合に、その撮影者の声を抑えることができ、本来必要とする人物の声を明瞭なものとして記録することができる。 Thus, for example, in the case when you are shooting a person as a subject of interest, such as the photographer spoke, the photographer's voice can be suppressed, the voice of the person originally required as clear it can be recorded.

(音声再生装置) (Sound reproducing device)
又、第1の実施形態及び第2の実施形態において、図1に示すような構成の音声記録装置を例に挙げて、本発明における音声処理方法について説明したが、音声記録装置に限らず、液晶ディスプレイやプラズマテレビなどに接続したDVDプレーヤやビデオデッキなどのような、音声及び映像の出力が可能可能な音声再生装置においても、本発明における音声処理方法を利用可能である。 Further, in the first embodiment and the second embodiment, as an example a sound recording device having the structure illustrated in FIG. 1 has been described audio processing method in the present invention is not limited to audio recording apparatus, a liquid crystal display or a plasma TV, such as a DVD player or VCR connected to such, even in the output can allow sound reproduction apparatus of the audio and video, are available audio processing method in the present invention. 図15に、例として第2の実施形態に係る音声処理方法を行う音声処理装置(「音声処理部」に相当)を備えた音声再生装置を示す。 15 shows a sound reproduction device having an audio processing apparatus (corresponding to "voice processing unit") for audio processing method according to the second embodiment as an example. 第1の実施形態に係る音声処理方法を行う音声再生装置も同様にして得ることができる。 Audio reproducing apparatus for audio processing method according to the first embodiment can be obtained in the same manner.

図15に示す音声再生装置は、図1に示す音声記録装置と同様に、ドライバ部8、伸長処理部9、ビデオ出力回路部10、ビデオ出力端子11、ディスプレイ部12、音声出力回路部13、音声出力端子14、スピーカ部15、TG16、CPU17、メモリ18、操作部19、及び外部メモリ22を備える。 Audio reproducing apparatus shown in FIG. 15, similarly to the audio recording apparatus shown in FIG. 1, the driver section 8, the decompression processing unit 9, the video output circuit 10, a video output terminal 11, a display unit 12, an audio output circuit section 13, comprising an audio output terminal 14, a speaker unit 15, TG 16, CPU 17, memory 18, operation unit 19, and the external memory 22. そして、図1の音声記録装置とは異なり、画像処理部5に代えて伸長処理部9で取得した画像信号を処理する画像処理装置5aを、音声処理部6に代えて伸長処理部9で取得した音声信号を処理する音声処理装置6aを備える。 And, unlike the audio recording apparatus 1, an image processing apparatus 5a for processing an image signal obtained by the decompression processing unit 9 in place of the image processing unit 5, obtained by the decompression processing unit 9 in place of the voice processing section 6 comprising a sound processing unit 6a for processing an audio signal. 画像処理装置5aは、図6に示す顔検出装置50を備え、音声処理装置6aは、図12の音声処理部6と同様の構成である。 The image processing apparatus 5a includes a face detection unit 50 shown in FIG. 6, the audio processing unit 6a is the same configuration as the voice processing unit 6 of FIG. 12. 外部メモリ22は、第1の実施形態及び第2の実施形態において記録された画像信号及び音声補正制御を施した音声信号と、これらの信号と共に記録された、音声補正制御を施していない音声信号とインデックスとしてその信号を取得した時点のズーム倍率情報を保持する。 External memory 22, and the audio signal subjected to the image signal and the voice correction control recorded in the first embodiment and the second embodiment, which is recorded together with these signals, the audio signal not subjected to voice correction control and holding the zoom magnification information at the time of obtaining the signal as an index. 画像処理装置5aの顔検出装置50から出力された顔検出信号と、外部メモリ22から出力された音声補正制御を施していない音声信号とズーム倍率情報とから、音声処理装置6aにおいて第2の実施形態に係る音声処理方法を行うことができる。 A face detection signal output from the face detection unit 50 of the image processing apparatus 5a, and a sound signal and the zoom magnification information which is not subjected to output voice correction control from the external memory 22, the second embodiment in the audio processing unit 6a speech processing method according to the can be performed.

尚、外部メモリ22で保持する信号が、第1の実施形態及び第2の実施形態以外の音声記録装置で記録された画像信号のようにズーム倍率情報が含まれていない場合は、音声処理装置6aにおいて対象となる被写体の画像中での大きさに基づいて音声補正制御を施せばよい。 The signal to be held in the external memory 22, does not contain the zoom magnification information as in the first embodiment and the second embodiment the recorded image signal in the voice recording device other than in the form, the audio processing device may be subjected to voice correction control based on the magnitude of the in the image of an object of interest in 6a.

(ステレオ化処理について) (For stereo processing)
第1の実施形態、第2の実施形態におけるステレオ化処理の一例について説明する。 First embodiment, an example of a stereo processing in the second embodiment will be described. ここでは、ステレオ化処理として、加算型指向性制御を利用して左右の2方向の音を強調する処理について説明する。 Here, as stereo process will be described emphasizing process in two directions of the sound of the left and right by using the addition type directivity control. 図16は、この場合のステレオ化処理部65のブロック図である。 Figure 16 is a block diagram of a stereo processing unit 65 of this case. ステレオ化処理部65は、右チャンネル(Rch)の音声信号を遅延させる遅延回路651Rと左チャンネル(Lch)の音声信号を遅延させる遅延回路651Lとを備え、入力されたままの右チャンネルの音声信号と遅延回路651Lで遅延させた左チャンネルの音声信号とを合成して右チャンネルの音声信号として、入力されたままの左チャンネルの音声信号と遅延回路651Rで遅延させた右チャンネルの音声信号とを合成して左チャンネルの音声信号として出力する。 Stereo process unit 65 is provided with a delay circuit 651L for delaying the audio signal of the delay circuit 651R and the left channel (Lch) for delaying the audio signal of the right channel (Rch), the right channel remains input speech signal and as an audio signal of the right channel synthesizes the speech signal of the left channel is delayed by the delay circuit 651L, the right channel delayed by the sound signal and the delay circuit 651R of the left channel remains input an audio signal synthesis and outputs as an audio signal of the left channel.

図17に示すように、2個のマイク4R、4Lに対して特定の方向から音が到来した場合、音の到来が音源からそれぞれのマイク4R、4Lまでの行路差dだけずれることとなる。 As shown in FIG. 17, two microphones 4R, if the sound from a specific direction with respect to 4L has arrived, the arrival of sound and thus shifted by the path difference d to the respective microphones 4R, 4L from the sound source. この場合、音源から近い方のマイク4Rで検出した右チャンネルの音声信号に対して、遅延回路651Rでこの行路差dに相当する遅延をかけ、音源から遠い方のマイク4Lで検出した左チャンネルの音声信号に加算すると、音源方向の音に対して同期加算することとなり、最も左右の音を強調することとなる。 In this case, the right channel audio signals detected by microphone 4R closer from the sound source, multiplied by the delay corresponding to the path difference d in the delay circuit 651R, a left channel detected by the microphone 4L farther from the sound source When added to the audio signal, it will be synchronously added with respect to the sound source direction of the sound, and to highlight the most left and right sounds. 逆にマイク4Lで検出した音声信号に遅延回路651Lで同様の遅延をかけて、マイク4Rで検出した音声信号に加算すると、逆方向の音を強調していることとなる。 Conversely over a similar delay in the delay circuit 651L to the audio signal detected by the microphone 4L, when added to the speech signal detected by the microphone 4R, so that the highlights the opposite direction of the sound.

(指向性制御について) (For directional control)
次に、第1の実施形態、第2の実施形態における指向性制御の一例について説明する。 Next, the first embodiment, an example of a directivity control in the second embodiment will be described. 指向性制御については様々な方法が提案されている。 It has been proposed various methods for directivity control. 上記のステレオ化処理で説明した加算型、差分型といった単純な遅延と加算処理からなる方法もその一つであり、その他にマイクロホンアレーを用いたビームフォーミングや2次元ファンフィルタなどがある。 Additional stereo process adding type described, the method consisting of a simple delay and addition processing such differential-is also One, and the like beamforming or a two-dimensional fan filter using the other microphone array. ここでは、2個のマイクで検出した音声信号間の位相情報をもとに特定方向からの音を強調する方法について説明する。 Here, the sound emphasizing method from a specific direction based on the phase information between the audio signal detected by the two microphones will be described.

図18はこの方法に使用することができる指向性処理部66のブロック図である。 Figure 18 is a block diagram of a directional processing unit 66 that can be used in this method. 指向性処理部66は、図18に示すように、右チャンネルの音声信号及び左チャンネルの音声信号を独立して高速フーリエ変換(Fast Fourier Transform;FFT)する2個のFFT部661R、661Lと、FFT部661R、661LでFFTされた右チャンネルの音声信号及び左チャンネルの音声信号の位相差を検出する位相差検出部662と、位相差検出部662で検出された位相差情報から帯域別に指向性の制御量を決定する帯域別制御量決定部663と、帯域別制御量決定部663で決定された制御量に基づいて、FFTされた右チャンネルの音声信号及び左チャンネルの音声信号を独立して帯域別にゲイン制御する2個の帯域別ゲイン制御部664R、664Lと、帯域別ゲイン制御部664R、664 Directional processing unit 66, as shown in FIG. 18, a fast Fourier transform independently an audio signal and a left channel audio signal of the right channel (Fast Fourier Transform; FFT) to two FFT unit 661R, and 661L, FFT unit 661R, a phase difference detecting unit 662 for detecting a phase difference of the FFT have been right channel audio signal and a left channel audio signal at 661L, directional from the phase difference information detected by the phase difference detecting unit 662 to the band-by-band the control amount and the per-band control amount determining unit 663 for determining a based on the control amount determined by the band-by-band control amount determining unit 663, independently FFT has been right channel audio signal and a left channel audio signal two band-specific gain control unit 664R for gain control by the band, and 664L, the band-specific gain control unit 664R, 664 でゲイン制御された右チャンネルの音声信号及び左チャンネルの音声信号のそれぞれを逆高速フーリエ変換(Inverse Fourier Transform;IFFT)するIFFT部665R、665Lと、を備える。 Comprising; (IFFT Inverse Fourier Transform) to IFFT unit 665R, and 665L, the in inverse fast Fourier transform to each of the gain-controlled right channel audio signal and a left channel audio signal.

FFT部661R、661Lでは右チャンネルの音声信号及び左チャンネルの音声信号が入力されるとFFTして周波数帯域別に位相情報を算出する。 FFT unit 661R, and calculates the phase information by FFT the audio signal and the left channel audio signal of the right channel in the 661L is input for each frequency band. 位相差検出部662では右チャンネルの音声信号及び左チャンネルの音声信号の位相情報から位相差を算出して、この位相差とその周波数から音の到来方向を算出する。 To calculate the phase difference from the phase information of the phase difference detecting unit 662 in the right-channel audio signal and a left channel audio signal and calculates the arrival direction of the sound phase difference and its frequency. 帯域別制御量決定部663では、位相差検出部662で算出した音成分の到来方向が、目的とする方向、例えば画像中の所定の被写体の方向であるかどうかを判断する。 In the band-based control amount determining unit 663, the arrival direction of the sound component calculated by the phase difference detecting unit 662, it is determined whether the direction of the predetermined object in the direction, for example, in the image of interest. 帯域別制御量決定部663において目的とする方向以外から来た音成分であると判断した場合は、FFTしたスペクトラル系数を、帯域別ゲイン制御部664R、664Lにおいて低減させ、目的とする方向から来た音成分であると判断した場合は増大させる。 If it is determined that the band-by-band control amount determining unit 663 is a sound component coming from other directions of interest, the spectral system number that FFT, the band-by-band gain control unit 664R, reduced in 664L, coming from the direction of interest If it is determined that the sound component increases. その後、変化させたスペクトラル系数をIFFT部665R、665LでIFFTを行って時間信号に戻して出力する。 Thereafter, the change is not a spectral-based number of IFFT unit 665R, to the output back to a time signal by performing IFFT with 665L.

この方法では、2個のマイクの設置間隔が半波長となる周波数を指向性制御の上限周波数とすることにより、位相差から正確な音成分の到来方向すなわち音源方向を算出することが可能であるため、指向角の微細な調整を行うことができる。 In this way, by installation interval of the two microphones is the upper limit frequency of the directional control frequencies of a half wavelength, it is possible to calculate the arrival direction i.e. DOA accurate sound components from the phase difference Therefore, it is possible to perform fine adjustment of the orientation angle.

(インデックスについて) (For index)
ズーム倍率情報を記録するインデックスは、音声信号を圧縮記録する際に、その処理単位であるフレーム毎に記録する。 Index for recording the zoom magnification information, in compressing recording audio signals, recording is for each frame is the processing unit. 例えばMPEG−AACで48kHzのサンプリング信号として記録する場合、処理単位である1フレームは、1024サンプルであり1024÷(48×10 3 )≒2.13×10 -2より約21.3msecに相当する。 For example, in the case of recording as a sampling signal 48kHz in MPEG-AAC, 1 frame is a processing unit is equivalent to there 1024 ÷ (48 × 10 3) ≒ 2.13 × 10 -2 than about 21.3msec at 1024 samples . したがって、記録開始と同期して21.3msec毎に映像のズーム倍率情報を記録すればよい。 Therefore, it is sufficient recording the zoom magnification information of the video recording start synchronization with each 21.3Msec. 又、ドルビーデジタル方式では1フレームが1536サンプルであり、48kHzのサンプリング信号として記録する場合は、1536÷(48×10 3 )=3.2×10 -2より32msec毎に映像のズーム倍率情報を記録すればよい。 Also, a single frame is 1536 samples in Dolby digital, the case, 1536 ÷ (48 × 10 3 ) = 3.2 zoom ratio information of the video from × 10 -2 per 32msec recorded as sampling signals 48kHz it may be recorded.

本発明は、被写体の特定部位を検出する機能を有する音声記録装置及び音声再生装置に適用することができる。 The present invention is applicable to a sound recording apparatus and the audio reproducing apparatus has a function of detecting a specific portion of the subject. 更にズーム機能のついたレンズを有する音声記録装置に適用することができる。 It can be further applied to the audio recording apparatus having a lens with a zoom function.

は、第1の実施形態に係る音声記録装置の内部構成を示すブロック図である。 Is a block diagram showing the internal configuration of the audio recording apparatus according to the first embodiment. は、第1の実施形態に係る音声記録装置の静止画撮影時の基本動作を説明するためのフローチャートである。 Is a flowchart for explaining the basic operation in the still image shooting and audio recording apparatus according to the first embodiment. は、第1の実施形態に係る音声記録装置の動画撮影時の基本動作を説明するためのフローチャートである。 Is a flowchart for explaining the basic operation at the time of shooting video and audio recording apparatus according to the first embodiment. は、第1の実施形態に係る音声処理部の構成を示すブロック図である。 Is a block diagram showing a configuration of an audio processor according to the first embodiment. は、ステレオ角及び指向角について説明するための模式図である。 Is a schematic diagram for explaining the stereo angle and orientation angle. は、顔検出装置の構成を示すブロック図である。 Is a block diagram showing the configuration of a face detection device. は、縮小画像生成手段によって得られる階層画像の一例である。 Is an example of a hierarchical image obtained by the reduced image generation unit. は、顔検出処理を説明するための図である。 Is a diagram for explaining a face detection process. は、特定の被写体である人物が大きく映った画像の例である。 Is an example of an image where the person is largely reflected a specific subject. は、特定の被写体である人物が小さく映った画像の例である。 Is an example of an image a person is a specific object Reflected small. は、第2の実施形態に係る音声処理部の構成を示すブロック図である。 Is a block diagram showing a configuration of an audio processor according to the second embodiment. は、ステレオ角と対象物の位置との関係について説明するための模式図である。 Is a schematic view for explaining a relationship between the position of the stereo angle and the object. は、指向角と対象物の位置との関係について説明するための模式図である。 Is a schematic view for explaining a relationship between the position of the directional angle and the object. は、音声強調マークを表示した画像の例である。 Is an example of the image displaying the speech enhancement mark. は、本発明の実施形態に係る音声再生装置の内部構成を示すブロック図である。 Is a block diagram showing the internal configuration of the audio reproducing apparatus according to an embodiment of the present invention. は、ステレオ化処理部のブロック図の一例である。 Is an example of a block diagram of a stereo processing unit. は、マイクと音源との位置関係について説明するための模式図である。 Is a schematic view for explaining the positional relationship between the microphone and the sound source. は、指向性処理部のブロック図の一例である。 Is an example of a block diagram of a directional processing unit.

符号の説明 DESCRIPTION OF SYMBOLS

1 固体撮像素子(イメージセンサ) 1 a solid-state imaging device (image sensor)
2 レンズ部 3 AFE Second lens unit 3 AFE
4 ステレオマイク 4L マイク 4R マイク 5 画像処理部 5a 画像処理装置 6 音声処理部 6a 音声処理装置 7 圧縮処理部 8 ドライバ部 9 伸長処理部 10 ビデオ出力回路部 11 ビデオ出力端子 12 ディスプレイ部 13 音声出力回路部 14 音声出力端子 15 スピーカ部 16 タイミングジェネレータ(TG) 4 stereo microphone 4L microphone 4R microphone 5 image processing section 5a the image processing apparatus 6 audio processing unit 6a audio processor 7 the compression processing unit 8 driver unit 9 decompression processing unit 10 the video output circuit 11 the video output terminal 12 display unit 13 audio output circuit part 14 audio output terminal 15 speaker unit 16 a timing generator (TG)
17 CPU 17 CPU
18 メモリ 19 操作部 20 バス回線 21 バス回線 22 外部メモリ 50 顔検出装置 52 縮小画像生成部 55 顔判定部 56 検出結果出力部 61 音声補正制御方法決定部 62 制御切替部 63 第1の加算器 64 音声帯域強調フィルタ 65 ステレオ化処理部 651L 遅延回路 651R 遅延回路 66 指向性処理部 661L FFT部 661R FFT部 662 位相差検出部 663 帯域別制御量決定部 664L 帯域別ゲイン制御部 664R 帯域別ゲイン制御部 665L IFFT部 665R IFFT部 67 第2の加算器 68 第3の加算器 69 第4の加算器 70 音声強調マーク 100 音声記録装置 150 入力画像 151 縮小画像 152 縮小画像 153 縮小画像 154 縮小画像 155 縮小画像 161 判定領域 18 memory 19 operation unit 20 bus lines 21 bus lines 22 external memory 50 face detecting apparatus 52 the reduced image generation unit 55 face determining unit 56 the detection result output unit 61 the voice correction control method determination unit 62 controls the switching unit 63 first adder 64 voiceband enhancement filter 65 stereo process unit 651L delay circuit 651R delay circuit 66 directional processing unit 661L FFT unit 661R FFT section 662 a phase difference detecting unit 663 band-by-band control amount determining unit 664L band-specific gain controller 664R band-specific gain controller 665L IFFT unit 665R IFFT section 67 second adder 68 the third adder 69 a fourth adder 70 speech enhancement mark 100 and audio recording apparatus 150 input image 151 reduced image 152 reduced image 153 reduced image 154 reduced image 155 reduced image 161 determination area

Claims (8)

  1. レンズ部を通じて被写体が含まれる撮像画像を取得する撮像部と、 An imaging unit that acquires a captured image including the subject through the lens unit,
    音声を取得する音声取得部と、 And the voice acquisition unit for acquiring a voice,
    前記撮像画像中から前記被写体の特定部分を検出する特定部分検出部とを備える音声記録装置において、 In the voice recorder and a specific portion detecting unit for detecting a specific portion of the subject from within the imaged image,
    前記特定部分検出部で検出された前記特定部分の前記撮像画像中での大きさに基づいて、前記音声取得部で取得する音声に対して音声処理を施すことを特徴とする音声記録装置。 On the basis of the magnitude of the in the captured image of the detected said specific portion in a specific portion detection unit, the speech recording apparatus characterized by performing sound processing on the audio acquired in the voice acquisition unit.
  2. 前記レンズ部のズーム倍率が変更可能であり、前記特定部分の前記撮像画像中での大きさ及び前記ズーム倍率に基づいて、前記音声取得部で取得する音声に対して音声処理を施すことを特徴とする請求項1に記載の音声記録装置。 The zoom magnification of the lens portion can be altered, characterized in that on the basis of the size and the zoom magnification in the captured image of the specific portion, performs audio processing on the audio acquired in the voice acquiring unit audio recording apparatus according to claim 1,.
  3. 前記レンズ部の合焦距離が変更可能であり、前記特定部分の前記撮像画像中での大きさ及び前記合焦距離に基づいて、前記音声取得部で取得する音声に対して音声処理を施すことを特徴とする請求項1又は請求項2に記載の音声記録装置。 The focusing distance of the lens portion can be altered, based on the size and the focusing distance in the captured image of the specific portion, is subjected to sound processing to the audio acquired in the voice acquiring unit audio recording apparatus according to claim 1 or claim 2, characterized in.
  4. 前記音声処理が、前記音声取得部の指向特性の調整、前記音声の信号レベルの調整及び前記音声の特定の帯域のレベル調整のうち少なくとも一つであることを特徴とする請求項1〜3のいずれかに記載の音声記録装置。 The audio processing, the adjustment of the directional characteristic of the sound acquisition unit of claim 1, wherein the at least one of level adjustment of a particular band of adjustment and the audio signal level of the voice audio recording apparatus according to any one.
  5. 前記特定部分を有する被写体が、音を発する物体であることを特徴とする請求項1〜4のいずれかに記載の音声記録装置。 Said object having a certain portion, audio recording apparatus according to claim 1, characterized in that the object that emits sound.
  6. 前記特定部分が、人物の顔であることを特徴とする請求項1〜6のいずれかに記載の音声記録装置。 Wherein the specific portion, audio recording apparatus according to claim 1, characterized in that a face of a person.
  7. 被写体を含む画像および音声を再生可能な音声再生装置において、 In the audio reproducing apparatus can reproduce an image and audio including the subject,
    前記画像中から前記被写体の特定部分を検出する特定部分検出部を備え、 Includes a specific portion detecting unit for detecting a specific portion of the subject from in the image,
    前記特定部分検出部で検出された前記特定部分の前記画像中での大きさに基づいて、前記音声に対して音声処理を施して再生することを特徴とする音声再生装置。 Wherein said detected by the specific portion detecting unit based on the magnitude in the in the image of a specific part, the sound reproducing apparatus, characterized in that the play is subjected to audio processing on the audio.
  8. レンズ部を通じて被写体が含まれる撮像画像を取得する撮像部と、 An imaging unit that acquires a captured image including the subject through the lens unit,
    音声を取得する音声取得部と、 And the voice acquisition unit for acquiring a voice,
    前記レンズ部のズーム倍率及び合焦距離が変更可能であり、前記ズーム倍率情報及び前記合焦距離情報の少なくとも一方を、前記撮像画像及び前記音声とともに記録する記録部と、 And the zoom magnification and focal length of the lens portion can be altered, at least one of the zoom magnification information and the focus distance information recording unit for recording together with the captured image and the sound,
    を備えた音声記録装置によって記録された前記撮像画像及び前記音声を再生可能な音声再生装置であって、 A sound reproducing apparatus capable of reproducing the captured image and the sound recorded by the sound recording apparatus provided with,
    前記撮像画像中から前記被写体の特定部分を検出する特定部分検出部を備え、 Includes a specific portion detecting unit for detecting a specific portion of the subject from within the imaged image,
    前記特定部分検出部で検出された前記特定部分の前記撮像画像中での大きさ及び前記レンズ部のズーム倍率情報又は前記合焦距離情報に基づいて、再生する前記音声に対して音声処理を施すことを特徴とする音声再生装置。 On the basis of the size and the zoom magnification information and the focus distance information of the lens unit in an image pickup image of said detected specific portion in a specific portion detection unit performs audio processing on the audio to be reproduced audio reproduction device, characterized in that.
JP2007233675A 2007-09-10 2007-09-10 Voice-recording device and voice-reproducing device Pending JP2009065587A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007233675A JP2009065587A (en) 2007-09-10 2007-09-10 Voice-recording device and voice-reproducing device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007233675A JP2009065587A (en) 2007-09-10 2007-09-10 Voice-recording device and voice-reproducing device
US12/202,855 US8218033B2 (en) 2007-09-10 2008-09-02 Sound corrector, sound recording device, sound reproducing device, and sound correcting method
US13/487,953 US20130021502A1 (en) 2007-09-10 2012-06-04 Sound corrector, sound recording device, sound reproducing device, and sound correcting method

Publications (1)

Publication Number Publication Date
JP2009065587A true JP2009065587A (en) 2009-03-26

Family

ID=40559732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007233675A Pending JP2009065587A (en) 2007-09-10 2007-09-10 Voice-recording device and voice-reproducing device

Country Status (1)

Country Link
JP (1) JP2009065587A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2230597A1 (en) 2009-03-18 2010-09-22 NEC Corporation Thin client server system and method of managing a driver of a USB device
JP2010245695A (en) * 2009-04-02 2010-10-28 Nikon Corp Imaging apparatus
JP2011041096A (en) * 2009-08-14 2011-02-24 Nec Corp Mobile terminal, method of controlling sound collection used for the same, and program
JP2011050009A (en) * 2009-08-28 2011-03-10 Fujifilm Corp Image recording apparatus and method
US8401364B2 (en) 2009-08-28 2013-03-19 Sanyo Electric Co., Ltd. Imaging device and playback device
US8908099B2 (en) 2012-05-22 2014-12-09 Kabushiki Kaisha Toshiba Audio processing apparatus and audio processing method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0461571A (en) * 1990-06-29 1992-02-27 Nec Home Electron Ltd Video camera
JPH05300419A (en) * 1992-04-16 1993-11-12 Sanyo Electric Co Ltd Video camera
JP2000278581A (en) * 1999-03-26 2000-10-06 Matsushita Electric Ind Co Ltd Video camera
JP2007013255A (en) * 2005-06-28 2007-01-18 Sony Corp Signal processing apparatus and method, program, and recording medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0461571A (en) * 1990-06-29 1992-02-27 Nec Home Electron Ltd Video camera
JPH05300419A (en) * 1992-04-16 1993-11-12 Sanyo Electric Co Ltd Video camera
JP2000278581A (en) * 1999-03-26 2000-10-06 Matsushita Electric Ind Co Ltd Video camera
JP2007013255A (en) * 2005-06-28 2007-01-18 Sony Corp Signal processing apparatus and method, program, and recording medium

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2230597A1 (en) 2009-03-18 2010-09-22 NEC Corporation Thin client server system and method of managing a driver of a USB device
JP2010245695A (en) * 2009-04-02 2010-10-28 Nikon Corp Imaging apparatus
JP2011041096A (en) * 2009-08-14 2011-02-24 Nec Corp Mobile terminal, method of controlling sound collection used for the same, and program
JP2011050009A (en) * 2009-08-28 2011-03-10 Fujifilm Corp Image recording apparatus and method
US8401364B2 (en) 2009-08-28 2013-03-19 Sanyo Electric Co., Ltd. Imaging device and playback device
US8908099B2 (en) 2012-05-22 2014-12-09 Kabushiki Kaisha Toshiba Audio processing apparatus and audio processing method

Similar Documents

Publication Publication Date Title
US7483061B2 (en) Image and audio capture with mode selection
CN100431337C (en) Image capture apparatus and auto focus control method
CN1845582B (en) Imaging device, sound record device, and sound record method
CN101355631B (en) Image processor and digital camera
JP4823179B2 (en) The imaging device and an imaging control method
KR101000605B1 (en) Image pickup apparatus, image recording apparatus and image recording method
EP2293584A1 (en) Image information processing device, image pick-up device, image information processing method, and program
JP4804398B2 (en) Imaging apparatus and imaging method
JP2008294785A (en) Image processor, imaging apparatus, image file, and image processing method
JP5054583B2 (en) Imaging device
JPH05110939A (en) Image pickup device equipped with plural optical systems and its operating method
JP2006025238A (en) Imaging device
CN101431616B (en) Image synthesis device and method
CN101558637A (en) Photographing equipment and photographing method
CN100559259C (en) Imaging technique performing focusing and its control method
JP5309490B2 (en) Imaging device, the object tracking zooming method and object tracking zooming program
KR100770637B1 (en) Digital camera
US8218033B2 (en) Sound corrector, sound recording device, sound reproducing device, and sound correcting method
JP4497211B2 (en) Imaging device, imaging method and program
JP2008129554A (en) Imaging device and automatic focusing control method
CN102959943B (en) Stereoscopic panoramic image synthesis apparatus and method, and an image capture device
JP2010147925A (en) Imaging apparatus
EP2619761B1 (en) Enriching digital photographs
US20100302401A1 (en) Image Audio Processing Apparatus And Image Sensing Apparatus
JP5263767B2 (en) The imaging device and a mode appropriateness determination method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110822

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111004

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111222

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20120720