JP5801026B2 - 画像音響処理装置及び撮像装置 - Google Patents

画像音響処理装置及び撮像装置 Download PDF

Info

Publication number
JP5801026B2
JP5801026B2 JP2009128793A JP2009128793A JP5801026B2 JP 5801026 B2 JP5801026 B2 JP 5801026B2 JP 2009128793 A JP2009128793 A JP 2009128793A JP 2009128793 A JP2009128793 A JP 2009128793A JP 5801026 B2 JP5801026 B2 JP 5801026B2
Authority
JP
Japan
Prior art keywords
image
sound
directivity
signal
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009128793A
Other languages
English (en)
Other versions
JP2010278725A (ja
Inventor
智岐 奥
智岐 奥
吉田 昌弘
昌弘 吉田
誠 山中
誠 山中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xacti Corp
Original Assignee
Xacti Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xacti Corp filed Critical Xacti Corp
Priority to JP2009128793A priority Critical patent/JP5801026B2/ja
Priority to CN2010101433257A priority patent/CN101902559A/zh
Priority to US12/731,240 priority patent/US20100302401A1/en
Publication of JP2010278725A publication Critical patent/JP2010278725A/ja
Application granted granted Critical
Publication of JP5801026B2 publication Critical patent/JP5801026B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/635Region indicators; Field of view indicators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、入力される画像信号と、当該画像信号と対になる音響信号と、に所定の処理を施して出力する画像音響処理装置や、当該画像音響処理装置を備えた撮像装置に関する。
撮像及び集音により画像信号及び音響信号を生成して記録するデジタルビデオカメラに代表される撮像装置が、広く普及している。このような撮像装置の中には、所定の方向から到来する音を強調した(指向特性を制御した)音響信号を生成して記録するものがある。
例えば特許文献1では、マイクの指向特性を表現する画像をモニタに表示する撮像装置が提案されている。また、特許文献2では、音量や音響信号の指向特性を表現したパターンを撮像中の画像に重畳させてモニタに表示する撮像装置が提案されている。
特開平6−225382号公報 特開2006−261900号公報
特許文献1及び特許文献2で提案される撮像装置では、マイクまたは音響信号の指向特性や音響信号の音量がモニタなどに表示されるため、撮影者はこれらの表示を確認することによって音響信号の指向特性や音量を認識することが可能となる。しかしながら、これらの表示によって撮影者が音響信号の指向特性を認識できたとしても、意図する音響信号を得るための指向特性の制御方法の設定や調整が困難となったり、そのための操作が煩雑となったりするため、問題となる。
また、特許文献2で提案される撮像装置では、画角内の物体が発する音の音量を表示することは可能である。しかしながら、撮影者などの画角外の物体が発する音の音量は表示することができないため、意図する音響信号を得るためにどのように対応すべきかを撮影者が判断することが困難となり、問題となる。
そこで本発明は、ユーザが意図する音響信号を容易かつ精度良く生成することを可能とする画像音響処理装置及び撮像装置を提供することを目的とする。
上記目的を達成するために本発明の画像音響処理装置は、対になる入力画像信号及び入力音響信号を処理する画像音響処理装置において、前記入力画像信号が示す入力画像を解析する画像解析部と、前記画像解析部の解析結果に基づいて前記入力音響信号の指向特性を制御し、出力音響信号を生成する指向特性制御部と、前記出力音響信号の状態を示す画像を含む表示画像を生成する表示画像生成部と、を備えることを特徴とする。
なお、出力音響信号には、以下の実施形態において説明する音量検出用出力音響信号が含まれ得る。同様に、指向特性制御部には、音量検出用指向特性制御部が含まれ得る。
また、上記構成の画像音響処理装置において、前記画像解析部が、前記入力画像中から注目被写体を検出し、前記指向特性制御部が、前記画像解析部による前記注目被写体の検出結果に基づいて前記入力音響信号の指向特性を制御して前記出力音響信号を生成し、前記表示画像生成部が、前記出力音響信号の指向特性を示す画像を前記入力画像に重畳させた前記表示画像を生成することとしても構わない。
このように構成すると、注目被写体に対応した制御方法によって入力音響信号の指向特性を制御することが可能となる。そのため、入力音響信号中の注目被写体が発する音を、容易にユーザが意図するものに制御することが可能となる。なお、以下の実施形態では、出力音響信号の指向特性の一例として、入力音響信号の制御後の指向特性である目標指向特性を挙げて説明している。
また、上記構成の画像音響処理装置において、前記出力音響信号の強調された音の到来方向を示す画像を入力画像に重畳して表示画像を生成することとしても構わない。
このように構成すると、出力音響信号の具体的な指向特性を示す画像を、入力画像に対比させて示した表示画像を生成することが可能となる。そのため、表示画像を確認したユーザが、出力音響信号の指向特性を具体的かつ容易に認識することが可能となる。なお、以下の実施形態では、出力音響信号の強調された音の到来方向を示す画像の一例として軸(図6及び図8参照)を挙げて説明している。
また、上記構成の画像音響処理装置において、前記出力音響信号の音量を検出する音量検出部をさらに備え、前記画像解析部が、前記入力画像中から注目被写体を検出し、前記指向特性制御部が、前記入力音響信号中の前記注目被写体が存在する方向以外から到来する音を抑制して前記出力音響信号を生成し、前記表示画像生成部が、前記音量検出部により検出される前記出力音響信号の音量を示す画像を、前記入力画像に重畳させた前記表示画像を生成することとしても構わない。
このように構成すると、注目被写体が発する音の音量を示した表示画像を生成することが可能となる。そのため、表示画像を確認したユーザが、注目被写体が発する音の状態を具体的に認識することが可能となる。
また、上記構成の画像音響処理装置において、前記表示画像生成部が、前記出力音響信号の音量を示す画像を、前記入力画像中の前記注目被写体の近傍となる位置に重畳させた前記表示画像を生成することとしても構わない。
このように構成すると、音量を注目被写体に関連付けて示した表示画像を生成することが可能となる。そのため、表示画像を確認したユーザが、表示される音量がどの注目被写体が発した音の音量であるかを容易に認識することが可能となる。
また、上記構成の画像音響処理装置において、前記表示画像生成部が、前記入力画像中の前記注目被写体の位置を示す画像を前記入力画像に重畳させて前記表示画像を生成することとしても構わない。
このように構成すると、注目被写体の入力画像中の位置を明確に示した表示画像を生成することが可能となる。そのため、表示画像を確認したユーザが、注目被写体の場所を容易に認識することが可能となる。さらに、注目被写体と出力音響信号の状態との関係を容易に認識することが可能となる。
また、上記構成の画像音響処理装置において、前記出力音響信号の音量を検出する音量検出部と、前記入力画像の画角外の画角外音源が存在する方向を検出する音源方向検出部と、をさらに備え、前記指向特性制御部が、前記入力音響信号中の前記画角外音源が存在する方向以外から到来する音を抑制して前記出力音響信号を生成し、前記表示画像生成部が、前記音量検出部により検出される前記出力音響信号の音量を示す画像を、前記入力画像に重畳させた前記表示画像を生成することとしても構わない。
このように構成すると、画角外音源が発する音の音量を示した表示画像を生成することが可能となる。そのため、表示画像を確認したユーザが、画角外音源が発する音の状態を具体的に認識することが可能となる。なお、音源方向検出部が、例えば入力画像や入力音響信号を解析することによって、画角外音源が存在する方向を検出することとしても構わない。
また、上記構成の画像音響処理装置において、前記表示画像生成部が、前記出力音響信号の音量を示す画像を、前記入力画像の端部に重畳させた前記表示画像を生成することとしても構わない。
このように構成すると、音量を示す画像を最も画角外に近い位置に表示した表示画像を生成することが可能となる。そのため、表示画像を確認したユーザが、表示される音量が画角外音源の発した音の音量であることを容易に認識することが可能となる。
また、本発明の撮像装置は、上記のいずれかに記載の画像音響処理装置と、撮像により前記入力画像信号を生成する撮像部と、集音により前記入力音響信号を生成する集音部と、前記表示画像を表示する表示部と、備えることとしても構わない。
また、上記構成の撮像装置において、前記指向特性制御部による前記入力音響信号の指向特性の制御方法の変更を指示する信号を入力する操作部をさらに備えることとしても構わない。
このように構成すると、表示画像を確認した撮影者が、容易に入力音響信号の指向特性の制御方法を変更して意図する出力音響信号を生成することが可能となる。
本発明によると、入力画像の解析結果に基づいた制御方法で入力音響信号の指向特性の制御を行うとともに、得られる出力音響信号の状態を示した画像を含む表示画像が生成されることとなる。即ち、入力画像に連動した入力音響信号の指向特性の制御を行うことにより、入力音響信号の指向特性の制御を容易に行うことが可能となる。さらに、得られる出力音響信号の状態が表示画像に含まれるため、表示画像を確認したユーザが、意図した出力音響信号が得られているか否かを確認することが可能となる。そして、出力音響信号の状態が意図するものと異なる場合には、入力音響信号の指向特性の制御方法を変更するなどの対応を講じることが可能となる。したがって、ユーザが意図する出力音響信号を容易かつ精度良く生成することが可能となる。
は、本発明の実施形態における撮像装置の構成について示すブロック図である。 は、第1実施例の画像音響処理部の構成について示すブロック図である。 は、第1実施例の画像音響処理部における指向特性制御部の構成例について示すブロック図である。 は、第1実施例の画像音響処理部における表示画像生成部によって生成される表示画像の一例について示す図である。 は、指向特性画像の種々の例について示す図である。 は、第1実施例の画像音響処理部における表示画像生成部によって生成される表示画像の別例について示す図である。 は、第2実施例の画像音響処理部の構成について示すブロック図である。 は、第2実施例の画像音響処理部における表示画像生成部によって生成される表示画像の一例について示す図である。 は、第3実施例の画像音響処理部の構成について示すブロック図である。 は、第3実施例の画像音響処理部における音量検出用指向特性制御部の構成例について示すブロック図である。 は、第3実施例の画像音響処理部における表示画像生成部によって生成される表示画像の一例について示す図である。 は、音量検出結果画像の別例について示す図である。 は、第3実施例の画像音響処理部における表示画像生成部によって生成される表示画像の別例について示す図である。
本発明の実施形態について、以下図面を参照して説明する。最初に、本発明における撮像装置の一例について説明する。
<<撮像装置>>
まず、撮像装置の構成について、図1を参照して説明する。図1は、本発明の実施形態における撮像装置の構成について示すブロック図である。
図1に示すように、撮像装置1は、入射される光学像を電気信号に変換するCCD(Charge Coupled Device)またはCMOS(Complimentary Metal Oxide Semiconductor)センサなどの固体撮像素子から成るイメージセンサ2と、被写体の光学像をイメージセンサ2に結像させるとともに光量などの調整を行うレンズ部3と、を備える。レンズ部3とイメージセンサ2とで撮像部が構成され、この撮像部によって画像信号が生成される。なお、レンズ部3は、ズームレンズやフォーカスレンズなどの各種レンズ(不図示)や、イメージセンサ2に入力される光量を調整する絞り(不図示)などを備える。
さらに、撮像装置1は、イメージセンサ2から出力されるアナログ信号である画像信号をデジタル信号に変換するとともにゲインの調整を行うAFE(Analog Front End)4と、入力される音を電気信号に変換する集音部5と、集音部5から出力されるアナログ信号である音響信号をデジタル信号に変換するADC(Analog to Digital Converter)6と、ADC6から出力される音響信号に対して各種音響処理を施して出力する音響処理部7と、AFE4から出力される画像信号に対して各種画像処理を施して出力する画像処理部8と、画像処理部8から出力される画像信号と音響処理部7から出力される音響信号とに対してMPEG(Moving Picture Experts Group)圧縮方式などの動画用の圧縮符号化処理を施す圧縮処理部9と、圧縮処理部9で圧縮符号化された圧縮符号化信号を記録する外部メモリ11と、画像信号を外部メモリ11に記録したり読み出したりするドライバ部10と、ドライバ部10において外部メモリ11から読み出した圧縮符号化信号を伸長して復号する伸長処理部12と、を備える。
また、撮像装置1は、伸長処理部12で復号された画像信号をモニタなどの表示装置(不図示)で表示可能な形式の信号に変換する画像信号出力回路部13と、伸長処理部12で復号された音響信号をスピーカなどの出力装置(不図示)で出力可能な形式の信号に変換する音響信号出力回路部14と、を備える。
また、撮像装置1は、撮像装置1内全体の動作を制御するCPU(Central Processing Unit)15と、各処理を行うための各プログラムを記憶するとともにプログラム実行時の信号の一時保管を行うメモリ16と、撮像を開始するボタンや各種設定の決定を行うボタンなどの撮影者からの指示が入力される操作部17と、各部の動作タイミングを一致させるためのタイミング制御信号を出力するタイミングジェネレータ(TG)部18と、CPU15と各部との間で信号のやりとりを行うためのバス19と、メモリ16と各部との間で信号のやりとりを行うためのバス20と、を備える。
なお、外部メモリ11は画像信号や音響信号を記録することができればどのようなものでも構わない。例えば、SD(Secure Digital)カードのような半導体メモリ、DVDなどの光ディスク、ハードディスクなどの磁気ディスクなどをこの外部メモリ11として使用することができる。また、外部メモリ11を撮像装置1から着脱自在としても構わない。
次に、撮像装置1の基本動作について図1を参照して説明する。まず、撮像装置1は、レンズ部3より入射される光をイメージセンサ2において光電変換することによって、電気信号である画像信号を生成する。イメージセンサ2は、TG部18から入力されるタイミング制御信号に同期して、所定のフレーム周期(例えば、1/30秒)で順次AFE4に画像信号を出力する。そして、AFE4によってアナログ信号からデジタル信号へと変換された画像信号は、画像処理部8に入力される。画像処理部8では、画像信号がYUVを用いた信号に変換されるとともに、階調補正や輪郭強調等の各種画像処理が施される。また、メモリ16はフレームメモリとして動作し、画像処理部8が処理を行なう際に画像信号を一時的に保持する。
また、集音部5は、音を集音して電気信号である音響信号に変換し、出力する。集音部5から出力される音響信号はADC6に入力されて、アナログ信号からデジタル信号へと変換される。さらに、ADC6によってデジタル信号へと変換された音響信号は音響処理部7に入力され、ノイズ除去などの各種音響処理が施される。また、音響処理部7は、音響信号を処理することによりその指向特性を制御する。なお、指向特性やその制御方法の詳細については、後述する。
画像処理部8から出力される画像信号と、音響処理部7から出力される音響信号と、はともに圧縮処理部9に入力され、圧縮処理部9において所定の圧縮方式で圧縮される。このとき、画像信号と音響信号とは時間的に関連付けられて(対になって)おり、再生時に画像と音とがずれないように構成される。そして、圧縮された画像信号及び音響信号はドライバ部10を介して外部メモリ11に記録される。
外部メモリ11に記録された圧縮後の画像信号及び音響信号は、操作部17を介して入力される撮影者の再生指示に基づいて伸長処理部12に読み出される。伸長処理部12は、再生するために読み出される圧縮された画像信号及び音響信号を伸長し、この再生用の画像信号を画像信号出力回路部13、再生用の音響信号を音響信号出力回路部14にそれぞれ出力する。そして、画像信号出力回路部13が、再生用の画像信号を表示装置で表示可能な形式の信号に変換するとともに、音響信号出力回路部14が、再生用の音響信号をスピーカで出力可能な形式の信号に変換して、それぞれ出力する。これにより、再生用の画像が表示装置で表示され、再生用の音がスピーカから出力される。
また、本実施形態の撮像装置1は、撮像した画像の記録を開始する前や、動画の記録時などに、撮像した画像を表示装置に表示する。このとき、画像処理部8は、表示用の画像信号を生成するとともに、バス20を介して画像信号出力回路部13に出力する。そして、画像信号出力回路部13が、表示用の画像信号を表示装置で表示可能な形式の信号に変換して、出力する。
撮影者は、表示装置に表示される画像を確認することで、これから記録するまたは現在記録している画像の画角を認識することができる。さらに、このとき表示装置に表示される画像には、音響処理部7によって制御される音響信号の状態が重畳して表示される。なお、表示装置に表示される画像やその生成方法の詳細については、後述する。
なお、表示装置やスピーカは、撮像装置1と一体となっているものでも構わないし、別体となっており、撮像装置1に備えられる端子とケーブル等を用いて接続されるようなものでも構わない。ただし、表示用の画像信号を表示する表示装置は、撮像装置1と一体となっているものであると好ましい。以下では、表示装置が、撮像装置1と一体になっているモニタである場合について説明する。
また、集音部5が、デジタル信号の音響信号を出力するデジタルマイクを備えるものとして、ADC6を備えない構成としても構わない。
<画像音響処理部>
以下、上述した表示画像を生成する画像処理部8及び音響処理部7の要部(以下、画像音響処理部とする)の構成及び動作について、図面を参照して説明する。なお、以下の説明では、上述した表示用の画像信号を「表示画像信号」、表示画像信号が示す画像を「表示画像」と呼ぶ。また、撮像して得られる画像信号であり表示用の画像信号の基になる画像信号を「入力画像信号」、入力画像信号が示す画像を「入力画像」と呼ぶ。また、入力画像信号の生成時(入力画像の撮像時)に集音されて得られる音響信号(即ち、入力画像信号と対になる音響信号)を「入力音響信号」と呼び、入力音響信号の指向特性を制御して生成される音響信号を「出力音響信号」と呼ぶ。
また、指向特性とは、各方向から到来する音の集音レベル(集音して得られる音響信号のレベル)の差異を示すものとし、強調方向や強調幅を用いて表現することができる。強調方向とは、当該方向から到来する音の集音レベルが他の方向から到来する音の集音レベルよりも相対的に大きくなる方向を示すものである。また、強調幅とは、集音レベルが相対的に大きくなる方向の範囲を示すものである。強調幅が広いほど広範囲から到来する音が強調されて集音され、強調幅が狭いほど狭範囲から到来する音のみが限定的に強調されて集音される。なお、強調方向は一つに限られず、同時に複数存在する場合も生じ得る。
また、ある方向から到来する音を強調するとは、ある方向から到来する音のレベルを絶対的に大きくする場合だけに限られず、ある方向以外から到来する音を抑制することで、ある方向から到来する音のレベルを相対的に大きくする場合をも含むものとする。
[第1実施例]
画像音響処理部の第1実施例について図面を参照して説明する。図2は、第1実施例の画像音響処理部の構成について示すブロック図である。図2に示すように、画像音響処理部30aは、入力画像信号が示す入力画像を解析して画像解析情報を生成する画像解析部81と、画像解析部81で生成される画像解析情報に基づいて入力音響信号の指向特性を制御して出力音響信号を生成するとともに入力音響信号の制御後の指向特性(即ち、出力音響信号の指向特性、以下、目標指向特性とする)を設定して目標指向特性情報を生成する指向特性制御部71と、指向特性制御部71で生成される目標指向特性情報に基づいた画像を入力画像に重畳させた表示画像となる表示画像信号を生成する表示画像生成部82と、を備える。また指向特性制御部71は、表示画像を確認した撮影者から操作部17を介して入力される指向特性制御指示に基づいて、目標指向特性の設定方法の変更を行う。
なお、画像解析部81及び表示画像生成部82が、図1に示した画像処理部8に備えられ、指向特性制御部71が、図1に示した音響処理部7に備えられることとしても構わない。
以下、本実施例の画像音響処理部30aの各部の構成及び動作について説明する。
(画像解析部)
画像解析部81は、例えば、順次入力される入力画像中から注目被写体を順次検出する検出処理(追尾処理)を行い、検出された注目被写体の入力画像中の位置や大きさなどを示す情報を画像解析情報として順次生成し、出力する。検出すべき注目被写体は、検出処理の開始時に撮影者がカーソルキーやタッチパネルなどから成る操作部17を操作することによって設定されたり、プログラムなどによって自動的に設定されたりする。このとき、例えば設定された注目被写体の形状や色などの特徴が認識され、入力画像内から当該特徴を示す部分が検出されることで、注目被写体の検出が行われる。
具体的に例えば、検出すべき注目被写体を不特定の人の顔としても構わないし(顔検出)、予め記憶している特定の人の顔としても構わない(顔認識)。さらに、検出した顔を有する人の一部(例えば、検出した顔の眉間から口に向かう方向に存在する領域である胴体領域)の色を認識するとともに、入力画像中から当該色の部分を検出することで、注目被写体の検出を行うこととしても構わない。
また、顔検出を行う場合、周知の種々の技術を適用することが可能である。例えば、Adaboost(Yoav Freund, Robert E. Schapire,"A decision-theoretic generalization of on-line learning and an application to boosting", European Conference on Computational Learning Theory, September 20, 1995.)を利用して大量の教師サンプル(顔及び非顔のサンプル画像)から作成した重みテーブルと、入力画像と、を比較することで顔検出を行うことが可能である。
以下では説明の具体化のため、画像解析部81が、人の顔を注目被写体として検出するとともに、入力画像中の注目被写体(人の顔)の位置や大きさを示す情報を含む画像解析情報を生成し出力するものとする。
(指向特性制御部)
指向特性制御部71は、画像解析部81から出力される画像解析情報を取得し、注目被写体の位置や大きさ、有無などに基づいて目標指向特性を設定し、当該目標指向特性が実現されるように入力音響信号の指向特性を制御する。また、撮影者から操作部17を介して指向特性制御指示が入力されれば、当該指示に基づいて目標指向特性の設定方法を変更する。また、入力音響信号の指向特性の制御は、例えば入力音響信号のレベルを音の到来方向ごとに制御することによって行う。
集音部5が、複数の指向性マイク(特定方向から到来する音を強調して集音するマイク)を備えるものである場合、入力音響信号は、強調された方向が異なる複数のチャンネルの信号を備えるものとなる。そのため、それぞれのチャンネルの信号のレベルを制御することにより、指向特性を制御することが可能となる。
また、集音部5が、複数の無指向性マイク(特定方向から到来する音を強調することなく、一律に集音するマイク)を備えるものである場合、入力音響信号は、強調された方向がない複数のチャンネルの信号を備えるものとなる。この場合、例えばそれぞれのチャンネルの信号の位相差を算出して音の到来方向を求め、音の到来方向に基づいて信号のレベルを制御することで指向特性を制御することが可能となる。なお、この構成の一例について、以下図面を参照して説明する。
図3は、第1実施例の画像音響処理部における指向特性制御部の構成例について示すブロック図である。なお、説明の具体化のため、図3ではLch及びRchの二つのチャンネルの信号を備える入力音響信号の指向特性を制御する指向特性制御部71について示すこととする。
図3に示すように、指向特性制御部71は、入力音響信号のLchの信号を高速フーリエ変換(Fast Fourier Transform、以下FFTとする)して出力するFFT部711Lと、入力音響信号のRchの信号をFFTして出力するFFT部711Rと、FFT部711L,711Rから出力されるLch及びRchのそれぞれの信号を所定の周波数の帯域毎に比較することで各帯域の位相差を算出して出力する位相差算出部712と、画像解析情報や指向特性制御指示に基づいて目標指向特性を設定して目標指向特性情報を出力する目標指向特性設定部713と、目標指向特性設定部713から出力される目標指向特性情報に示される目標指向特性が実現されるように位相差算出部712から出力される各帯域の位相差に基づいて各チャンネルの各帯域のレベルの制御量を設定する帯域別制御量設定部714と、FFT部711Lから出力されるLchの信号の各帯域のレベルを帯域別制御量設定部714で設定された制御量に応じて制御して出力する帯域別レベル制御部715Lと、FFT部711Rから出力されるRchの信号の各帯域のレベルを帯域別制御量設定部714で設定された制御量に応じて制御して出力する帯域別レベル制御部715Rと、帯域別レベル制御部715Lから出力されるLchの信号を逆高速フーリエ変換(Inverse Fast Fourier Transform、以下IFFTとする)してLchの出力音響信号として出力するIFFT部716Lと、帯域別レベル制御部715Rから出力されるRchの信号をIFFTしてRchの出力音響信号として出力するIFFT部716Rと、を備える。
FFT部711L,711Rは、入力音響信号のLch及びRchの信号をそれぞれFFTし、時間軸の信号から周波数軸の信号へとそれぞれ変換する。位相差算出部712は、FFT部711L,711Rから出力されるLch及びRchの信号を、それぞれの周波数の帯域毎に比較する(例えば、帯域毎にLch及びRchの信号の相関を求めるなど)。これにより、Lch及びRchの信号の位相差(音源と複数の無指向性マイクのそれぞれとの距離差、到達までの時間差とも解釈し得る)を算出する。
目標指向特性設定部713は、画像解析情報に基づいて目標指向特性の設定を行うとともに、指向特性制御指示が入力されればこれに基づいて目標指向特性の設定方法の変更を行う。具体的に例えば、画像解析情報が示す注目被写体が存在する方向を強調方向とし、強調幅をその注目被写体の大きさに対応した広さとする設定方法によって、目標指向特性を設定する。
また、この設定方法で設定された目標指向特性が撮影者の意図するものと異なる場合、撮影者は操作部17を介して指向特性制御指示を入力することで、目標指向特性の設定方法を変更することができる。具体的に例えば、複数の注目被写体が検出されている場合に、特定の注目被写体以外の注目被写体が存在する方向が強調方向とならないようにしたり、強調幅を広くまたは狭くしたりするなどのように、目標指向特性の設定方法を変更することができる。そして、指向特性設定部713は、以上のようにして設定される目標指向特性を目標指向特性情報として出力する。
帯域別制御量設定部714は、位相差算出部712から出力される位相差に基づいて帯域毎に音の到来方向を確認するとともに、目標指向特性設定部713から出力される目標指向特性情報に基づいて目標指向特性の強調方向を確認する。そして、音の到来方向が強調方向に含まれる帯域のレベルが増大される、及び(または)音の到来方向が強調方向に含まれない帯域のレベルが抑制されるように、各帯域の制御量を設定する。
また、帯域別レベル制御部715L,715Rは、帯域別制御量設定部714で設定された制御量に基づいて、Lch及びRchのそれぞれの信号のレベルを帯域毎に制御することで、入力音響信号の指向特性の制御を行う。そして、IFFT部716L,716Rが、帯域別レベル制御部715L,715Rから出力されるLch及びRchのそれぞれの周波数軸の信号をIFFTして時間軸の信号に変換し、出力音響信号のLch及びRchの信号をそれぞれ生成して出力する。
なお、上記の指向特性制御部71の構成は一例に過ぎず、他の構成を採用しても構わない。例えば、入力音響信号のRchの信号をある時間遅延させて入力音響信号のLchの信号に合成(例えば、加算または減算)することで出力音響信号のLchの信号を生成し、入力音響信号のLchの信号をある時間遅延させて入力音響信号のRchの信号に合成することで出力音響信号のRchの信号を生成する構成としても構わない。また、遅延させる時間を画像解析情報に基づいた可変の時間としても構わない。
(表示画像生成部)
表示画像生成部82は、入力される目標指向特性情報に示される目標指向特性を表現した画像を入力画像に重畳させることで、目標指向特性を視覚的に表現した表示画像を生成する。この表示画像の一例を、図4に示す。図4は、第1実施例の画像音響処理部における表示画像生成部によって生成される表示画像の一例について示す図である。
図4に示すように、表示画像P1は、目標指向特性を模式的に表現した指向特性画像S1が入力画像の隅(例えば右下隅)に重畳表示されて成る。また、本例の指向特性画像S1は、マイクの模式図S11と、設定された目標指向特性の状態を示す複数の弧S12と、で構成される。
また、表示画像P1は、注目被写体T(人の顔)が画像解析部81において入力画像中から検出され、指向特性制御部71が、注目被写体Tが存在する方向から到来する音を強調する制御を行う場合について示している。この場合、例えば指向特性画像S1が、マイクの模式図S11の上部にのみ長い弧S12が付された構成にすることで、被写体方向の広い範囲から到来する音を強調する(強調方向が被写体方向、強調幅が広い)目標指向特性が設定されたことを表現する。
上記の図4と同様の方法で目標指向特性を表現した指向特性画像の種々の例について、図5を参照して説明する。図5は、指向特性画像の種々の例について示す図である。
図5(a)は、図4に示した指向特性画像S1と同様のものであり、被写体方向の広い範囲から到来する音を強調するように制御することを表現したものである。図5(b)は、マイクの模式図の上部にのみ短い弧が付された構成であり、被写体方向の狭い範囲から到来する音を強調するように制御する(強調方向が被写体方向、強調幅が狭い目標指向特性となる)ことを表現したものである。図5(c)は、マイクの模式図の左右に長い弧が付された構成であり、特定方向から到来する音を強調せず無指向にする(強調方向がない目標指向特性とする)場合を表現したものである。図5(d)は、マイクの模式図の上下に短い弧が付された構成であり、被写体方向及び撮影者方向から到来する音を強調するように制御する(強調方向が被写体方向及び撮影者方向である目標指向特性とする)ことを表現したものである。
例えば、入力画像中から検出された注目被写体Tの画角に占める割合が大きい場合に、図5(a)の指向特性画像が示すような被写体方向の広い範囲から到来する音が強調される目標指向特性が設定され、注目被写体Tの画角に占める割合が小さい場合に、図5(b)の指向特性画像が示すような被写体方向の狭い範囲から到来する音が強調される目標指向特性が設定されることとしても構わない。また例えば、入力画像中から注目被写体Tが検出されなかった場合に、図5(c)の指向特性画像が示すような無指向となる目標指向特性が設定されることとしても構わない。さらに例えば、入力画像中から検出された注目被写体Tが撮影者に向かって喋っていることが確認される場合(例えば、注目被写体Tの目線が撮影者方向であることや口が動いていることが確認される場合や、人の声が入力音響信号中に含まれていることが確認された場合など)に、注目被写体Tと撮影者とが会話をしていると推測し、図5(d)の指向特性画像が示すような被写体方向及び撮影者方向から到来する音が強調される目標指向特性が設定されることとしても構わない。
撮影者は、モニタに表示される表示画像P1に含まれる指向特性画像S1を確認することで、設定された目標指向特性を認識する。そして、撮影者が意図する目標指向特性と異なることを認識した場合、操作部17を介して指向特性制御指示を入力することで、目標指向特性の設定方法を変更する。
このように、入力画像の状態に応じて目標指向特性を設定することにより、撮影者が意図する出力音響信号を生成するための目標指向特性を、容易に設定することが可能となる。さらに、表示画像P1中に指向特性画像S1を表示して、設定された目標指向特性が意図するものであるか否かを撮影者に認識させるとともに、目標指向特性の設定方法を撮影者が変更し得る構成とすることにより、設定される目標指向特性を精度よく撮影者の意図するものにすることが可能となる。したがって、撮影者が意図する出力音響信号を容易かつ精度良く生成することが可能となる。
なお、目標指向特性を抽象的に表現する指向特性画像S1を表示画像P1中に表示する場合について説明したが、具体的に表現する指向特性画像を表示することとしても構わない。この指向特性画像について、図面を参照して説明する。図6は、第1実施例の画像音響処理部における表示画像生成部によって生成される表示画像の別例について示す図である。また、図6(a)及び(b)は、撮影者から指向特性制御指示が入力される前後の表示画像P21,P22を示したものであり、図5と同様に注目被写体Tが入力画像内から検出された場合について示すものである。
図6に示すように、本例の指向特性画像S2は、マイクの模式図S21と、強調方向及び強調幅を示す軸S22L,S22Rとから成り、軸S22L,S22Rに挟まれる領域によって強調方向及び強調幅を表現するものである。図6(a)に示す表示画像P21では、注目被写体Tを中心とした強調方向であり十分広い強調幅となる目標指向特性が設定された場合の指向特性画像S2が表示されており、表示画像P21を確認した撮影者が、強調幅を狭くしたいと考えた場合について説明する。
このような場合、上述のように撮影者は操作部17を介して指向特性制御指示を入力することにより、目標指向特性の設定方法を変更する。例えば、操作部17がモニタに設けられるタッチパネルなどで構成されている場合、撮影者は、モニタに表示される図6(a)の軸S22L,S22Rの少なくとも一方を選択して動かすなどして、軸S22L,S22Rの間隔を狭くする。これにより、強調幅を狭くする指向特性制御指示が、指向特性制御部71に入力されたことになる。
指向特性制御部71は、入力される指向特性制御指示に基づいて目標指向特性の設定方法を変更し、変更後の設定方法によって目標指向特性の設定を行う。図6(b)に示す表示画像P22は、変更後の設定方法によって目標指向特性が設定された場合の指向特性画像S2を示すものである。図6(b)の表示画像P22では、軸S22L,S22Rの間隔が図6(a)の表示画像P21よりも狭いものとなっている。
撮影者は、図6(b)の表示画像P22中の指向特性画像S2を確認することで、意図する目標指向特性が設定されているか否かを認識する。意図する目標指向特性が設定されていなければ、撮影者からさらなる指向特性制御指示が入力される。一方、意図する目標指向特性が設定されていれば、図6(b)に示す後も同様の設定方法で目標指向特性が設定される。即ち、注目被写体Tを中心とした強調方向であり、狭い強調幅となる目標指向特性が、その後の入力画像信号及び入力音響信号に対して順次設定されることとなる。
このように、目標指向特性を具体的に表現する指向特性画像S2を表示画像P21,P22中に表示することにより、設定されている目標指向特性や、指向特性制御指示の入力による目標指向特性の変化を、撮影者が具体的に認識することが可能となる。そのため、容易に目標指向特性を設定することが可能となる。また、この指向特性画像S2を利用することで、撮影者が具体的な指向特性制御指示を入力することが可能となる。
[第2実施例]
画像音響処理部の第2実施例について図面を参照して説明する。図7は、第2実施例の画像音響処理部の構成について示すブロック図であり、第1実施例の構成について示した図2に相当するものである。なお、図7において図2と同様の構成となる部分については同様の符号を付し、その詳細な説明については省略する。
図7に示すように、画像音響処理部30bは、画像解析部81と、指向特性制御部71と、画像解析部81から出力される画像解析情報と指向特性制御部71から出力される目標指向特性情報とのそれぞれに基づいた画像を入力画像に重畳させた表示画像を生成して表示画像信号を出力する表示画像生成部82bと、を備える。
本実施例の表示画像生成部82bは、目標指向特性情報に基づいた画像(即ち、指向特性画像)だけでなく、画像解析情報に基づいた画像(以下、画像解析結果画像とする)をも入力画像に重畳させて表示画像を生成する点において、第1実施例と異なる。
本実施例の表示画像生成部82bが生成する表示画像の一例について、図面を参照して説明する。図8は、第2実施例の画像音響処理部における表示画像生成部によって生成される表示画像の一例について示す図である。なお、説明の具体化のため、本実施例の表示画像生成部82bは、図6に示した指向特性画像(マイクの模式図及び軸を備える画像)と同様の指向特性画像を生成するものとする。また、入力画像中から二つの注目被写体T1,T2が検出され、強調方向が注目被写体T1,T2が存在するそれぞれの方向であり、強調幅が注目被写体T1,T2のそれぞれの大きさに対応した広さとなるように目標指向特性が設定される場合を例に挙げ、以下説明する。
図8に示す表示画像P3では、マイクの模式図S31と、注目被写体T1が存在する方向の強調方向及び強調幅を示す軸S32L,S32Rと、注目被写体T2が存在する方向の強調方向及び強調幅を示す軸S33L,S33Rと、が指向特性画像S3として表示されている。さらに、注目被写体T1である人の顔を囲むように表示される顔枠画像A1と、注目被写体T2である人の顔を囲むように表示される顔枠画像A2と、が画像解析結果画像として表示されている。
このように、表示画像P3中に指向特性画像S3だけでなく、画像解析結果画像を併せて表示することにより、表示画像P3を確認した撮影者が、設定されている目標指向特性を容易に認識することが可能となる。特に、撮影者が、注目被写体T1,T2と設定される目標指向特性との関係(即ち、目標指向特性の設定方法)を容易に認識することが可能となる。
なお、指向特性画像として、図6に示したような目標指向特性を具体的に表現するものを適用する場合を例示したが、抽象的に表示する指向特性画像を適用しても構わない。ただし、目標指向特性を具体的に表現する指向特性画像を適用すると、撮影者が、注目被写体と目標指向特性との関係や、目標指向特性の設定方法を容易に認識することが可能となるため、好ましい。
[第3実施例]
画像音響処理部の第3実施例について図面を参照して説明する。図9は、第3実施例の画像音響処理部の構成について示すブロック図であり、第1実施例の構成について示した図2に相当するものである。なお、図9において図2と同様の構成となる部分については同様の符号を付し、その詳細な説明については省略する。
図9に示すように、画像音響処理部30cは、画像解析部81と、画像解析情報及び指向特性制御指示に基づいて入力音響信号の指向特性を制御し音量検出用出力音響信号を生成する音量検出用指向特性制御部71cと、音量検出用指向特性制御部71cから出力される音量検出用出力音響信号の音量を検出して音量検出情報を出力する音量検出部72と、画像解析部81から出力される画像解析情報と音量検出部72から出力される音量検出情報とのそれぞれに基づいた画像を入力画像に重畳させた表示画像を生成して表示画像信号を出力する表示画像生成部82cと、指向特性制御部71と、入力される音量指定指示(詳細は後述)を指向特性制御指示に変換して指向特性制御部71に出力する指向特性制御指示変換部73と、を備える。
本実施例の画像音響処理部30cは、音量検出用指向特性制御部71cと、音量検出部72と、指向特性制御指示変換部73とを備える点において第1実施例と異なる。また、表示画像生成部82cによる表示画像の生成方法についても、第1実施例と異なる。以下、音量検出用指向特性制御部71c、音量検出部72、表示画像生成部82c及び指向特性制御指示変換部73について図面を参照してそれぞれ説明する。
(音量検出用指向特性制御部)
図10は、第3実施例の画像音響処理部における音量検出用指向特性制御部の構成例について示すブロック図である。音量検出用指向特性制御部71cは、指向特性制御部71と同様に、入力音響信号の指向特性を制御して音量検出用出力音響信号を生成するものである。なお、音量検出用出力音響信号は出力音響信号の一種として解釈され得るものであり、音量検出用指向特性制御部71cは指向特性制御部71の一種として解釈され得るものである。また、以下では説明の具体化及び簡略化のため、図10に示す音量検出用指向特性制御部71cの構成が、図3に示した指向特性制御部71の構成と同様のものであることとし、同様の構成となる部分については同様の符号を付し、その詳細な説明については省略する。
図10に示すように、本例の音量検出用指向特性制御部71cは、FFT部711L,711Rと、位相差算出部712と、画像解析情報に基づいて音量検出方向を設定するとともに当該音量検出方向から到来する音を抽出するための音量検出用目標指向特性を設定して音量検出用目標指向特性を出力する音量検出用目標指向特性設定部713cと、帯域別制御量設定部714と、帯域別レベル制御部715L,715Rと、Lch及びRchの音量検出用出力音響信号を出力するIFFT部716L,716Rと、を備える。なお、音量検出用目標指向特性設定部713c及び音量検出用目標指向特性情報は、図3の指向特性制御部71における目標指向特性設定部713及び目標指向特性情報にそれぞれ相当するものであり、これらの一種として解釈され得るものである。
音量検出方向とは、例えば、画像解析情報によって示される注目被写体が存在する方向などであり、音源が存在し得る方向である。なお、音量検出方向は入力画像の画角内に限られるものではなく、画角外の方向(例えば、撮影者方向)も音量検出方向に含まれ得る。また、音量検出用の目標指向特性とは、音量検出方向以外から到来する音のレベルを抑制(例えば、略0となるまで抑制)するものである。
音量検出用目標指向特性設定部713cは、設定した音量検出方向に対応する音量検出用目標指向特性を設定する。音量検出方向が複数設定される場合は、それぞれの音量検出方向に対応する音量検出用目標指向特性を、順次切り替えて設定する。
なお、音量検出用出力音響信号及び出力音響信号においてそれぞれの音量検出方向から到来する音のレベルが略等しくなるように、音量検出用目標指向特性が目標指向特性に関連して設定されるように構成しても構わない。このように構成すると、後述する音量検出部72において検出される音量が、出力音響信号中の音量検出方向から到来する音の音量を示すものとなるため、好ましい。
具体的には、図9に示すように、指向特性制御部71と音量検出用指向特性制御部71cとのそれぞれに、指向特性制御指示変換部73(詳細は後述)から出力される指向特性制御指示が入力されるように構成して、目標指向特性と音量検出用目標指向特性とが連動して制御されるように構成しても構わない。この場合、音量検出用目標指向特性設定部713cは、目標指向特性設定部713と同様に入力される指向特性制御指示に基づいて目標指向特性の設定方法を変更するが、上述のように音量検出方向以外から到来する音のレベルは抑制する。したがって、仮に出力音響信号の指向特性を変化させたとしても、音量検出用出力音響信号の指向特性もこれに追随して変化するため、出力音響信号の音量検出方向から到来する音の音量を示す音量検出用出力音響信号が継続して出力されることとなる。
また、撮影者が操作部17を介して音量検出用指向特性制御部71c(特に音量検出用指向特性設定部713c)に指示を入力することにより、音量検出方向の調整(音量検出方向の追加または削除、強調方向や強調幅の調整など)が行われることとしても構わない。
(音量検出部)
音量検出部72は、指向特性制御部71cから出力される音量検出用出力音響信号の音量を検出することで、音量検出方向から到来する音の音量(レベル)を検出する。検出されて得られる音量は、音量検出情報として音量検出部72から出力され、表示画像生成部82cに入力される。
なお、音量検出用指向特性制御部71cにおいて、複数の音源に対応する複数の音量検出用目標指向特性が順次設定される場合、表示画像生成部82cは、入力される音量検出情報がどの音源に対応するものであるかを識別可能であるものとする。
(表示画像生成部)
表示画像生成部82cは、上述した画像解析結果画像と、入力される音量検出情報が示す音量を表現した画像(以下、音量検出結果画像とする)と、を入力画像に重畳させて表示画像を生成する。生成される表示画像の一例を、図11に示す。図11は、第3実施例の画像音響処理部における表示画像生成部によって生成される表示画像の一例について示す図である。
図11に示すように、表示画像P4は、図8と同様の注目被写体T1,T2を示す画像解析結果画像(顔枠画像A1,A2)と、音量検出結果画像(数値画像V1,V2)と、が入力画像に重畳表示されて成る。また、数値画像V1は、注目被写体T1の近傍に表示され、数値画像V2は、注目被写体T2の近傍に表示される。
数値画像V1は、注目被写体T1が存在する方向を音量検出方向とした場合の音量検出用出力音響信号から検出される音量の値を表示したものである。また、数値画像V2は、注目被写体T2が存在する方向を音量検出方向とした場合の音量検出用出力音響信号から検出される音量の値を表現したものである。
上述の第1実施例及び第2実施例と同様に、表示画像P4を確認して出力音響信号の状態を認識した撮影者は、必要に応じて指向特性制御部71における目標指向特性の設定方法を変更することで、意図する出力音響信号を得る。このとき、所定の音源(例えば、注目被写体T1,T2)の出力音響信号中の音量(例えば大小、目標値など)を指定する音量指定指示を入力可能な構成とすると、容易に出力音響信号を制御することができるため、好ましい。ただしこの場合、図9に示すように、音量指定指示を指向特性制御指示に変換する指向特性制御指示変換部73を備えることとする。指向特性制御指示変換部73から出力される指向特性制御指示は、指向特性制御部71だけでなく、上述のように音量検出用指向特性制御部71cにも入力される。なお、第1及び第2実施例と同様に、撮影者が指向特性制御指示を指向特性制御部71及び音量検出用指向特性制御部71cに直接的に入力可能な構成としても構わない。
また、本例では音源が発する音の音量を確認することができるため、所定の音源(例えば注目被写体T1,T2)に働きかけたり集音環境を変更したりすることも可能である。このような方法で、入力音響信号自体を変更することにより出力音響信号の状態を変更することも可能である。
このように、入力画像から検出された注目被写体T1,T2が発する音の音量を表現する数値画像V1,V2を表示画像P4中に表示することで、撮影者が注目被写体T1,T2が発するそれぞれの音の状態(音量)を具体的に認識することが可能となる。そのため、撮影者が意図する出力音響信号が得られているか否かを容易に判断して、対応を講じることが可能となる。したがって、撮影者が意図する出力音響信号を容易かつ精度良く生成することが可能となる。
また、数値画像V1,V2のそれぞれを、対応する画顔枠画像A1,A2の近傍に表示することで、表示される音量がどの注目被写体T1,T2が発した音の音量であるかを容易に認識することが可能となる。そのため、撮影者が注目被写体T1,T2の一方が発する音を他方のものとして誤認することを抑制することが可能となる。
なお、第1実施例及び第2実施例と本実施例とを組み合わせても構わない。例えば、指向特性制御部から出力される目標指向特性情報が表示画像生成部82cに入力されるとともに、表示画像中に指向特性画像が表示されることとしても構わない(図4〜6及び図8参照)。このように構成すると、表示画像を確認した撮影者が目標指向特性と音量とを同時に認識することが可能となる。したがって、さらに容易かつ精度よく撮影者が意図する出力音響信号を生成することが可能となる。
また、上記の図11と異なる方法で音量を表現した音量検出結果画像を用いても構わない。音量検出結果画像の別例について、図12を参照して説明する。図12は、音量検出結果画像の別例について示す図である。
図12(a)は、上下の長さ(ブロックの数)によって音量の大きさを表現する、いわゆるレベルメータによって音量を表現した音量検出結果画像の例を示したものである。なお、図12(a)では、上下方向に伸縮(増減)するものを示しているが、左右方向に伸縮(増減)するものとしても構わない。図12(b)は、放射線の数及び長さによって音量の値を表現した音量検出結果画像の例を示したものである。なお、図12(b)では、左右方向に伸縮(増減)するものを示しているが、上下方向に伸縮(増減)するものとしても構わない。
このように、音量を抽象的に表現した音量検出結果画像を用いることとすると、撮影者が音量の大きさを直感的かつ即座に認識することが可能となる。
また、上述のように音量検出方向は入力画像の画角外であっても構わない。例えば、撮影者方向を音量検出方向にすることも可能である。撮影者方向が音量検出方向となる場合の表示画像の例について、図13を参照して説明する。図13は、第3実施例の画像音響処理部における表示画像生成部によって生成される表示画像の別例について示す図である。
図13に示す表示画像P5は、図11と同様の注目被写体T1が検出され、顔枠画像A1、数値画像V1が表示されたものとなっている。さらに表示画像P5の端部(本例では下端)に、数値画像V3が表示されている。数値画像V3は、撮影者方向を音量検出方向とした場合の音量検出用出力音響信号から検出される音量の値を表現したものである。
このように、入力画像の画角外の方向、特に撮影者方向から到来する音の音量を表示可能とすると、画角外の撮影者が発する音の音量までも撮影者が認識することが可能となる。そのため、さらに精度よく撮影者が意図する出力音響信号を生成することが可能となる。
また、画像解析部81が入力画像を解析することによって入力画像の画角外に存在する音源を検出して、当該音源の方向を音量検出方向として設定しても構わない。具体的に例えば、図5(d)について述べたように、入力画像を解析結果より注目被写体と撮影者とが会話していると推測される場合に撮影者を音源の一つとみなし、撮影者方向を音量検出方向として設定しても構わない。また、撮影者の指示によって画角外の音源を検出しても構わないし、図10の位相差算出部で得られる入力音響信号の位相差に基づいて画角外の音源を検出しても構わない。
<<その他変形例>>
上述の第1〜第3実施例の画像音響処理部30a〜30cによる表示画像及び出力音響信号の生成は、動画の記録時など出力音響信号を記録する際にのみ行われ得るものではなく、記録前のプレビュー時にも行われ得るものである。プレビュー時に表示画像及び出力音響信号の生成を行うことにより、出力音響信号の状態(指向特性や音量)を予め撮影者の意図したものにしておくことが可能となる。なお、プレビュー時において、出力音響信号を画像音響処理部30a〜30cから出力しないこととしても構わない。
また、上述の例は、動画を記録する撮像装置1に本発明の画像音響処理部(画像音響処理装置)を備える場合について説明したものであるが、再生装置に画像音響処理部を備えさせ、再生時に音響信号の指向特性を制御することも可能である。例えばこの場合、入力画像信号及び入力音響信号が、記録媒体に記録されたものや外部から入力されるものとして、表示画像信号が、テレビなどの表示装置で再生されるものとしても構わない。ただし、表示画像中の指向特性画像や画像解析結果画像、音量検出結果画像の表示/非表示を、ユーザの指示によって切り替え可能な構成とすると好ましい。
また、本発明の実施形態における撮像装置1について、画像音響処理部30a〜30cの動作を、マイコンなどの制御装置が行うこととしても構わない。さらに、このような制御装置によって実現される機能の全部または一部をプログラムとして記述し、当該プログラムをプログラム実行装置(例えばコンピュータ)上で実行することによって、その機能の全部または一部を実現するようにしても構わない。
また、上述した場合に限らず、図2、図7及び図9の画像音響処理部30a〜30cは、ハードウェア、あるいは、ハードウェア及びソフトウェアの組み合わせによって実現可能である。また、ソフトウェアを用いて画像音響処理部30a〜30cを構成する場合、ソフトウェアによって実現される部位についてのブロック図は、その部位の機能ブロック図を表すこととする。
以上、本発明の実施形態についてそれぞれ説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で種々の変更を加えて実行することができる。
本発明は、入力される画像信号と、当該画像信号と対になる音響信号と、に所定の処理を施して出力する画像音響処理装置や、当該画像音響処理装置を備えたデジタルビデオカメラに代表される撮像装置に関する。
30a〜30c 画像音響処理部
7 音響処理部
71 指向特性制御部
71c 音量検出用指向特性制御部
711L,711R FFT部
712 位相差算出部
713 目標指向特性設定部
713c 音量検出用目標指向特性設定部
714 帯域別制御量設定部
715L,715R 帯域別レベル制御部
716L,716R IFFT部
72 音量検出部
73 指向特性制御指示変換部
8 画像処理部
81 画像解析部
82,82b,82c 表示画像生成部

Claims (4)

  1. 対になる入力画像信号及び入力音響信号を処理する画像音響処理装置において、
    前記入力画像信号が示す入力画像を解析する画像解析部と、
    前記画像解析部によって解析された入力画像中の注目被写体の大きさに応じて前記入力音響信号の指向特性を制御するための目標指向性特性を設定する目標指向特性設定部と、
    前記目標指向性特性に基づいて出力音響信号を生成する指向特性制御部と、
    前記目標指向性特性を現す画像を含む表示画像を生成する表示画像生成部と、を備え、
    前記指向特性は一方の方向から往来する音の集音レベルが他の方向から到来する音の集音レベルよりも相対的に大きくなる方向を示す強調方向及び集音レベルが相対的に大きくなる方向の範囲を示す強調幅を含むことを特徴とする画像音響処理装置。
  2. 前記指向特性制御部は、入力画像中の注目被写体の大きさが、入力画像中の画角の第1所定サイズより大きい場合は、該注目被写体を含む第1範囲から到来する音を強調し、入力画像中の注目被写体の大きさが入力画像中の画角の第2所定サイズよりも小さい場合は、該注目被写体を含む前記第1範囲よりもせまい第2範囲から到来する音を強調して出力音声信号を生成することを特徴とする、請求項1記載の画像音響処理装置。
  3. 対になる入力画像信号及び入力音響信号を処理する画像音響処理装置において、
    前記入力画像信号が示す入力画像を解析する画像解析部と、
    前記画像解析部によって解析された入力画像中の注目被写体の装置本体への音声発生状況に応じて前記入力音響信号の指向特性を制御し、出力音響信号を生成する指向特性制御部と、
    前記出力音響信号の状態を示す画像を含む表示画像を生成する表示画像生成部と、を備え、
    前記指向特性は一方の方向から往来する音の集音レベルが他の方向から到来する音の集音レベルよりも相対的に大きくなる方向を示す強調方向及び集音レベルが相対的に大きくなる方向の範囲を示す強調幅を含むことを特徴とする画像音響処理装置。
  4. 対になる入力画像信号及び入力音響信号を処理する画像音響処理装置において、
    前記入力画像信号が示す入力画像を解析する画像解析部と、
    前記画像解析部によって解析された入力画像中の注目被写体の数に応じて前記入力音響信号の指向特性を制御し、出力音響信号を生成する指向特性制御部と、
    前記出力音響信号の状態を示す画像を含む表示画像を生成する表示画像生成部と、を備え
    前記指向特性は一方の方向から往来する音の集音レベルが他の方向から到来する音の集音レベルよりも相対的に大きくなる方向を示す強調方向及び集音レベルが相対的に大きくなる方向の範囲を示す強調幅を含むことを特徴とする画像音響処理装置。
JP2009128793A 2009-05-28 2009-05-28 画像音響処理装置及び撮像装置 Expired - Fee Related JP5801026B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009128793A JP5801026B2 (ja) 2009-05-28 2009-05-28 画像音響処理装置及び撮像装置
CN2010101433257A CN101902559A (zh) 2009-05-28 2010-03-19 图像音响处理装置及摄像装置
US12/731,240 US20100302401A1 (en) 2009-05-28 2010-03-25 Image Audio Processing Apparatus And Image Sensing Apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009128793A JP5801026B2 (ja) 2009-05-28 2009-05-28 画像音響処理装置及び撮像装置

Publications (2)

Publication Number Publication Date
JP2010278725A JP2010278725A (ja) 2010-12-09
JP5801026B2 true JP5801026B2 (ja) 2015-10-28

Family

ID=43219791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009128793A Expired - Fee Related JP5801026B2 (ja) 2009-05-28 2009-05-28 画像音響処理装置及び撮像装置

Country Status (3)

Country Link
US (1) US20100302401A1 (ja)
JP (1) JP5801026B2 (ja)
CN (1) CN101902559A (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4441879B2 (ja) * 2005-06-28 2010-03-31 ソニー株式会社 信号処理装置および方法、プログラム、並びに記録媒体
US8594338B2 (en) * 2007-05-09 2013-11-26 Savox Communications Oy Ab (Ltd) Display apparatus
JP4945675B2 (ja) * 2010-11-12 2012-06-06 株式会社東芝 音響信号処理装置、テレビジョン装置及びプログラム
JP2012133250A (ja) * 2010-12-24 2012-07-12 Sony Corp 音情報表示装置、音情報表示方法およびプログラム
JP2013171089A (ja) * 2012-02-17 2013-09-02 Toshiba Corp 音声補正装置、方法、及びプログラム
US9678713B2 (en) 2012-10-09 2017-06-13 At&T Intellectual Property I, L.P. Method and apparatus for processing commands directed to a media center
JP6201292B2 (ja) * 2012-10-19 2017-09-27 株式会社Jvcケンウッド 音声情報表示装置、音声情報表示方法およびプログラム
US9137314B2 (en) 2012-11-06 2015-09-15 At&T Intellectual Property I, L.P. Methods, systems, and products for personalized feedback
US9412375B2 (en) 2012-11-14 2016-08-09 Qualcomm Incorporated Methods and apparatuses for representing a sound field in a physical space
JP5939444B2 (ja) * 2012-12-25 2016-06-22 株式会社Jvcケンウッド 撮像装置
JP2015023512A (ja) * 2013-07-22 2015-02-02 オリンパスイメージング株式会社 撮影装置、撮影方法及び撮影装置の撮影プログラム
KR102089638B1 (ko) 2013-08-26 2020-03-16 삼성전자주식회사 전자장치의 음성 녹음 방법 및 장치
JPWO2015151130A1 (ja) * 2014-03-31 2017-04-13 パナソニックIpマネジメント株式会社 音声処理方法、音声処理システム、及び記憶媒体
JP6125457B2 (ja) * 2014-04-03 2017-05-10 日本電信電話株式会社 収音システム及び放音システム
US10182280B2 (en) * 2014-04-23 2019-01-15 Panasonic Intellectual Property Management Co., Ltd. Sound processing apparatus, sound processing system and sound processing method
JP2016174257A (ja) * 2015-03-17 2016-09-29 ヤマハ株式会社 レベル制御装置
JP2017102085A (ja) * 2015-12-04 2017-06-08 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
WO2017208820A1 (ja) 2016-05-30 2017-12-07 ソニー株式会社 映像音響処理装置および方法、並びにプログラム
JP6525029B2 (ja) * 2017-06-29 2019-06-05 株式会社ニコン 再生処理装置、撮像装置および再生処理プログラム
US10206036B1 (en) * 2018-08-06 2019-02-12 Alibaba Group Holding Limited Method and apparatus for sound source location detection
JP6739064B1 (ja) * 2020-01-20 2020-08-12 パナソニックIpマネジメント株式会社 撮像装置
CN115134513A (zh) * 2021-03-29 2022-09-30 北京小米移动软件有限公司 拍摄方法及装置
WO2023228713A1 (ja) * 2022-05-25 2023-11-30 ソニーグループ株式会社 音声処理装置および方法、情報処理装置、並びにプログラム
US20240022682A1 (en) * 2022-07-13 2024-01-18 Sony Interactive Entertainment LLC Systems and methods for communicating audio data
US20240022867A1 (en) * 2022-07-13 2024-01-18 Sony Interactive Entertainment LLC Systems and methods for communicating audio data via a display device

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0888853A (ja) * 1994-09-16 1996-04-02 Toshiba Corp メディア処理システム
US6529234B2 (en) * 1996-10-15 2003-03-04 Canon Kabushiki Kaisha Camera control system, camera server, camera client, control method, and storage medium
JP3157769B2 (ja) * 1998-03-02 2001-04-16 静岡日本電気株式会社 Tv音声制御装置
DE19854373B4 (de) * 1998-11-25 2005-02-24 Robert Bosch Gmbh Verfahren zur Steuerung der Empfindlichkeit eines Mikrofons
JP3679298B2 (ja) * 2000-02-28 2005-08-03 株式会社ケンウッド マイクロフォン付ビデオカメラ
US6975991B2 (en) * 2001-01-31 2005-12-13 International Business Machines Corporation Wearable display system with indicators of speakers
JP4934968B2 (ja) * 2005-02-09 2012-05-23 カシオ計算機株式会社 カメラ装置、カメラ制御プログラム及び記録音声制御方法
JP2006287735A (ja) * 2005-04-01 2006-10-19 Fuji Photo Film Co Ltd 画像音声記録装置及び集音方向調整方法
JP4441879B2 (ja) * 2005-06-28 2010-03-31 ソニー株式会社 信号処理装置および方法、プログラム、並びに記録媒体
JP2007251355A (ja) * 2006-03-14 2007-09-27 Fujifilm Corp 対話システム用中継装置、対話システム、対話方法
JP2008193196A (ja) * 2007-02-01 2008-08-21 Casio Comput Co Ltd 撮像装置および指定音声出力方法
JP2008236644A (ja) * 2007-03-23 2008-10-02 Fujifilm Corp 撮影装置および画像再生装置
JP5029986B2 (ja) * 2007-05-07 2012-09-19 Necカシオモバイルコミュニケーションズ株式会社 情報処理装置、プログラム

Also Published As

Publication number Publication date
CN101902559A (zh) 2010-12-01
US20100302401A1 (en) 2010-12-02
JP2010278725A (ja) 2010-12-09

Similar Documents

Publication Publication Date Title
JP5801026B2 (ja) 画像音響処理装置及び撮像装置
KR101753715B1 (ko) 촬영장치 및 이를 이용한 촬영방법
JP2013106298A (ja) 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
JP4934968B2 (ja) カメラ装置、カメラ制御プログラム及び記録音声制御方法
JP2011071962A (ja) 撮像装置及び再生装置
JP2009156888A (ja) 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
JP2008141484A (ja) 画像再生システム及び映像信号供給装置
JP2010103972A (ja) 画像処理装置及び電子機器
JP2009065587A (ja) 音声記録装置及び音声再生装置
US10535363B2 (en) Audio processing apparatus and control method thereof
JP2012151544A (ja) 撮像装置及びプログラム
JP5063489B2 (ja) 判定装置及びそれを備えた電子機器並びに判定方法
JP5173915B2 (ja) 画像処理装置及び撮像装置
JP2011205527A (ja) 撮像装置及び方法、並びにプログラム
JP2011120165A (ja) 撮像装置
JP6985821B2 (ja) 音声処理装置及びその制御方法
JP2010171626A (ja) 動画生成装置および動画生成方法
JP4515005B2 (ja) 電子カメラ
JP2018207313A (ja) 音声処理装置及びその制御方法
JP2012060469A (ja) 撮像装置
JP5072714B2 (ja) 音声記録装置及び音声再生装置
US11405542B2 (en) Image pickup control device, image pickup device, and image pickup control method
JP6886352B2 (ja) 音声処理装置及びその制御方法
JP2013179466A (ja) 撮像装置
JP2011155580A (ja) 撮像装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120420

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20130404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150826

R150 Certificate of patent or registration of utility model

Ref document number: 5801026

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D03

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees