JP2022180926A

JP2022180926A - 音声処理装置、撮像装置、それらの制御方法、およびプログラム

Info

Publication number: JP2022180926A
Application number: JP2021087689A
Authority: JP
Inventors: 克哉中野; Katsuya Nakano
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2022-12-07

Abstract

【課題】本発明は、集音対象物との距離による音声のレベルの影響を抑制することが可能な集音装置、撮像装置、およびそれらの制御方法を提供することを目的とする。【解決手段】本発明にかかる撮像装置１００の制御部１０１は、指向性マイク３００の集音範囲に含まれる集音対象物との距離を取得し、集音対象物との距離に基づいて音声処理の制御パラメータを決定し、設定された制御パラメータを用いて、指向性マイク３００から集音した音声データに音声処理を適用することを特徴とする。【選択図】図３

Description

本発明は、音声処理装置、音声処理装置を有する撮像装置、それらの制御方法、およびプログラムに関する。

デジタルカメラの撮像装置は、画像と音声の両方を記録することができる。音声データの記録については、特許文献１に、マイクロホンを介して入力された音声データの音量がある一定レベルとなるように音声データの増幅を行うことで、一定の音量で記録をすることが開示されている。

また、音声を入力するデバイスとして、特定の方向からの音声に対して感度の高い（指向性を有する）指向性マイクが用いられることがある。

特開２００３－２５９４７９号公報

特許文献１で開示されている装置では、指向性マイクで入力された音声のレベルを所定の値を超えないように制御することは開示されている。しかしながら、音声のレベルが所定の値より小さくとも、指向性マイクが集音の対象とする方向の集音対象物が遠い場合に、集音対象物の距離が遠いときは音量レベルが一定のレベル以下になってしまうことがある。

上述の課題に鑑みて、本発明は、集音対象物との距離による音声のレベルの影響を抑制することが可能な音声処理装置、撮像装置、それらの制御方法、およびプログラムを提供することを目的とする。

本発明にかかる音声処理装置の一の形態は、マイクの集音範囲に含まれる対象物との距離を取得する取得手段と、前記距離に基づいて制御パラメータを決定する決定手段と、前記設定された制御パラメータを用いて、前記マイクから集音した音声データに音声処理を適用する処理手段と、を備えることを特徴とする。

本発明の音声処理装置、撮像装置、それらの制御方法、およびプログラムによれば、集音対象物との距離による音声のレベルの影響を抑制することを可能とする。

撮像装置、無線ヘッドホン、および指向性マイクを含むシステムの構成図である。撮像装置の構成を説明するブロック図である。指向性マイクを接続した撮像装置におけるライブビュー画像表示処理、音声処理を含む撮像処理を示す第１のフローチャートである。指向性マイクの入力特性の１例を示す模式図である。撮像装置の上方向から見た場合における、撮像装置の撮像範囲と、指向性マイクの集音範囲との関係を示す模式図である。撮像装置の横方向から見た場合における、撮像装置の撮像範囲と、指向性マイクの集音範囲との関係を示す模式図である。表示部１０６に表示される集音範囲を示すＧＵＩを示す模式図である。撮像処理を示す第２のフローチャートである。撮像処理を示す第３のフローチャートである。撮像装置が無線ヘッドホンと無線接続を確立してから切断するまでの一連の処理の一例を示すフローチャートである。

以下、本発明の好ましい実施の形態の一例を、添付の図面に基づいて詳細に説明する。

図１は、第一の実施形態における撮像装置１００と無線ヘッドホン２００と指向性マイク３００からなるシステム構成図の一例である。

撮像装置１００は無線ヘッドホン２００とＢｌｕｅｔｏｏｔｈ（登録商標）の規格に従って無線接続することができる。このＢｌｕｅｔｏｏｔｈの規格に従った無線接続において、同期通信では音声データや楽曲データなどを撮像装置１００は無線ヘッドホン２００へ送信することができる。またＢｌｕｅｔｏｏｔｈの規格に従った無線接続において、非同期通信ではボリュームコントロールや出力指示等の制御データを撮像装置１００は無線ヘッドホン２００へ送信することができる。これによりユーザーは無線ヘッドホン２００を撮像装置１００に無線接続することで、撮像装置１００から電子音や指向性マイク３００で入力した音声を、無線ヘッドホン２００を介して聞くことができる。

指向性マイク３００は鋭い指向性を備えるマイクであり、特定の方向における遠方の音源の音声を取得することが出来る。撮影者は指向性マイク３００を用いて撮影を行うことにより、遠方の被写体の音声のみを取得することが可能になり、これにより被写体の位置の特定や撮影タイミングの予測に活用することが出来る。また、指向性マイク３００は駆動部を備え、集音対象の位置を動的に変更するために左右上下にマイクの向きを変えることが可能である。これにより例えば、撮像画像のフォーカス位置にマイクを向けることにより、遠方に離れた位置であっても、フォーカスされた被写体の音声を取得することが可能になる。

図２は、本実施形態の撮像装置の一例である撮像装置１００の構成を説明するブロック図である。

制御部１０１は、入力された信号や、後述のプログラムに従って撮像装置１００の各部を制御する。制御部１０１は後述する不揮発性メモリ１０３および記録媒体１１０に記録されている音声データを音声データに変換し、スピーカ１０８、通信部１１１を介して音声データを出力することができる。

後述するように、制御部１０１は、指向性マイク３００から取得した音声データを処理する音声処理装置としても動作する。

撮像部１０２は、例えば、光学レンズユニットと絞り・ズーム・フォーカスなど制御する光学系と、光学レンズユニットを経て導入された光（映像）を電気的な映像信号に変換するための撮像素子などで構成される。撮像部１０２は、撮像範囲に含まれる被写体像を含む光学像を取得して撮像画像を生成する。また、撮像部１０２は、制御部１０１の制御によってフォーカスを制御するための光学系を操作することにより、フォーカス位置を制御可能である。撮像素子は、一般的に、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）や、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）が用いられる。撮像部１０２は、制御部１０１に制御されることにより、撮像部１０２に含まれるレンズで結像された被写体光を、撮像素子により電気信号に変換し、ノイズ低減処理などを行ってデジタルデータを画像データや動画データとして出力する。

不揮発性メモリ１０３は、電気的に消去・記録可能な不揮発性のメモリであり、制御部１０１で実行される後述のプログラム等が格納される。

作業用メモリ１０４は、撮像部１０２で撮像された画像データおよび動画データを一時的に保持するバッファメモリや、表示部１０６の画像表示用メモリ、制御部１０１の作業領域等として使用される。

操作部１０５は、撮像装置１００に対する指示をユーザーから受け付けるためのユーザーインタフェース（ＵＩ）である。操作部１０５は、例えばユーザーが撮像装置１００の電源のオン／オフを指示するための電源スイッチや、撮影を指示するためのレリーズスイッチ、画像データの再生を指示するための再生ボタン等を含むことができる。また、表示部１０６に形成されるタッチパネルも操作部１０５に含めることができる。なお、レリーズスイッチは、ＳＷ１およびＳＷ２を有する。レリーズスイッチが、いわゆる半押し状態となることにより、ＳＷ１がオンとなる。これにより、ＡＦ（オートフォーカス）処理、ＡＥ（自動露出）処理、ＡＷＢ（オートホワイトバランス）処理、ＥＦ（フラッシュプリ発光）処理等の撮像の準備動作を行うための準備指示を受け付ける。また、レリーズスイッチが、いわゆる全押し状態となることにより、ＳＷ２がオンとなる。このようなユーザー操作により、撮像動作を行うための撮像指示を受け付ける。また、タッチパネルの操作により撮影を指示することも出来る。タッチパネル上に表示されているライブビュー表示画面をタッチすることにより、被写体のフォーカス位置を変更することが可能である。

また、操作部１０５は後述するスピーカ１０８および通信部１１１から出力される音の音量等を調整するためのボタンを含む。このボタンを介してユーザー操作を受け付けることで、制御部１０１は音声データの振幅等を調整する処理や、音声データを出力するか否かを判断する処理を実行する。また通信部１１１を介した無線通信機能のオン／オフを指示するためのボタンも操作部１０５に含まれる。

表示部１０６は、撮影の際のビューファインダー画像の表示、撮影した画像データの表示、対話的な操作のための文字表示などを行う。

マイク１０７は、音や音声等の音波を撮像装置１００に入力するために用いられる。マイク１０７は音や音声を電気信号に変換して撮像装置１００に入力する。制御部１０１は入力された電気信号から音声データを生成する。例えば制御部１０１はこの音声データと撮像部１０２によって撮影した動画データとを同期させて記録することができる。また例えば、制御部１０１はこの音声データを撮像部１０２によって撮影した画像データに関連付けて記録することができる。なお、マイク１０７は撮像装置１００に着脱可能なよう構成してもよいし、撮像装置１００に内蔵されていてもよい。また、指向性マイク３００を撮像装置１００に接続させた場合は、マイク１０７の音声取得機能はＯＦＦになる。

スピーカ１０８は、電子音を出力することができる電気音響変換器である。電子音は例えば、警告音、合焦音、電子シャッター音、および操作音等である。本実施形態において、制御部１０１は指向性マイク３００から入力した音声情報をスピーカ１０８によって出力することができる。

電源部１０９は制御部１０１に制御されることで撮像装置１００の各要素に電力を供給することができる。電源部１０９は例えば、リチウムイオン電池やアルカリマンガン乾電池等の電源である。

記録媒体１１０は例えば撮像部１０２から出力された画像データを記録することができる。記録媒体１１０は例えばＳＤカードやＣＦカードである。記録媒体１１０は、撮像装置１００に着脱可能なよう構成してもよいし、撮像装置１００に内蔵されていてもよい。

通信部１１１は、外部機器と無線接続するためのインターフェースである。本実施形態の撮像装置１００は、通信部１１１を介して、外部機器とデータのやりとりを行うことができる。例えば、マイク１０７または指向性マイク３００で取得した音声データを、通信部１１１を介して無線ヘッドホン２００に送信することができる。なお、本実施形態では、通信部１１１は外部機器とＢｌｕｅｔｏｏｔｈの規格に従って通信するためのインターフェースを含む。以降、Ｂｌｕｅｔｏｏｔｈの規格に準拠した無線通信のことをＢｌｕｅｔｏｏｔｈ通信という。制御部１０１は、通信部１１１を制御することで外部機器との無線通信を実現する。なお、通信方式はＢｌｕｅｔｏｏｔｈに限定されるものではなく、例えばＩＥＥＥ８０２．１１の規格に従ったいわゆる無線ＬＡＮおよび赤外線通信等の無線通信方式を含む。

Ｂｌｕｅｔｏｏｔｈ通信では、撮像装置１００はペリフェラル装置とペアリングする必要がある。ペアリングとは、セントラル装置およびペリフェラル装置がお互いの識別情報を互いに登録（所定の領域に記録）する処理である。本実施形態の撮像装置１００はペアリングしたペリフェラル装置の識別情報を不揮発性メモリ１０３に記録する。本実施形態では、撮像装置１００は無線ヘッドホン２００とお互いの識別情報を互いに登録した後、無線ヘッドホン２００と無線接続を確立することでペアリングを完了したと判断する。また、撮像装置１００がペアリング済みのペリフェラル装置と無線接続する場合、ユーザーはペリフェラル装置を撮像装置１００から検索できる状態になるように操作してから、撮像装置１００にペリフェラル装置を検索させるよう操作する。そして撮像装置１００がペリフェラル装置を検出した場合、撮像装置１００はペリフェラル装置との無線接続を確立することができる。

接続部１１２は、外部機器と有線接続するためのインターフェースである。本実施形態の撮像装置１００は、接続部１１２を介して、外部機器とデータのやりとりを行うことができる。例えば、制御部１０１は接続部１１２を介して指向性マイク３００から音声データを受信することができる。また、制御部１０１は接続部１１２を介して指向性マイク３００の集音方向を制御するための駆動制御通信を行うこともできる。制御指示を受けた指向性マイク３００は指示に従い、集音方向を変更する。集音方向を変更するには、マイクの向きを動的に変更するための駆動制御を内蔵したマイクを接続する必要がある。

接続部１１２は例えばフォンコネクタ（いわゆるマイク端子やヘッドホン端子等）およびＵＳＢ端子等で構成されている。撮像装置１００は接続部１１２を介してイヤホンやヘッドホン等の外部スピーカ、外部マイク、およびスマートフォンやＰＣ等の情報機器と有線接続することができる。また、接続部１１２は外部機器が接続されたか否かを検出する検出部（不図示）を有する。制御部１０１はこの検出部を介して、外部機器が接続および切断されたこと、外部機器と接続中であること、および外部機器と接続していないこと等を検出できる。なお、撮像装置１００がマイクやヘッドホン等の外部機器と接続する場合、制御部１０１は外部機器と接続を確立した後に、そのデバイスの種類を検出することができる。

次に、撮像装置１００の外観について説明する。図２（Ｂ）は撮像装置１００の正面の外観図、図２（Ｃ）は撮像装置１００の背面の外観図の一例を示す図である。レリーズスイッチ１０５ａや再生ボタン１０５ｂ、方向キー１０５ｃ、タッチパネル１０５ｄは、前述の操作部１０５に含まれる操作部材である。また、表示部１０６には、撮像部１０２による撮像の結果得られた画像が表示される。

図１０を用いて撮像装置１００が無線ヘッドホン２００と無線接続を確立してから切断するまでの一連の処理の一例について説明する。この撮像装置１００の処理は、不揮発性メモリ１０３に記録されたソフトウェアを作業用メモリ１０４に展開して制御部１０１が実行することで実現する。例えばこの処理は、撮像装置１００が無線ヘッドホン２００と無線接続を確立することを指示する操作を、操作部１０５を介してユーザーから受け付けたことをトリガに開始される。

Ｓ１００１において、制御部１０１は通信部１１１を介して無線ヘッドホン２００を検索する。例えばペアリング済みの無線ヘッドホンと無線接続する場合、制御部１０１はＢｌｕｅｔｏｏｔｈによる呼び出し処理を実行する。制御部１０１はこの呼び出し処理において、ペアリング済みの無線ヘッドホンの識別情報等を含む呼び出しパケットを送信する。また例えばペアリング済みではない無線ヘッドホンとも無線接続する可能性がある場合、制御部１０１はＢｌｕｅｔｏｏｔｈによる照会処理を実行する。この照会処理において、制御部１０１は問い合わせパケットをブロードキャストする。

Ｓ１００２において、制御部１０１は無線ヘッドホンを検出したか否かを判断する。例えば制御部１０１はＳ１００１において送信した呼び出しパケットや問い合わせパケットに対する応答パケットを、通信部１１１を介して受信したか否かを判断する。制御部１０１が無線ヘッドホンを検出したと判断した場合処理はＳ１００５に進む。制御部１０１が無線ヘッドホンを検出していないと判断した場合、処理はＳ１００３に進む。

Ｓ１００３において、制御部１０１は無線ヘッドホンの検索を開始してから所定時間が経過したか否かを判断する。例えば制御部１０１は呼び出しパケットや問い合わせパケットを送信してから１分以上経過したか否かを判断する。無線ヘッドホンの検索を開始してから所定時間が経過したと制御部１０１が判断した場合、処理はＳ１００４へ進む。無線ヘッドホンの検索を開始してから所定時間が経過していないと制御部１０１が判断した場合、処理はＳ１００２に戻る。

Ｓ１００４において、制御部１０１は無線ヘッドホンを検出しなかったことをユーザーに報知する。例えば制御部１０１は表示部１０６に「無線ヘッドホンが見つかりませんでした」等の無線ヘッドホンを検出しなかった旨を報知するメッセージを表示する。次にＳ１００２において制御部１０１が無線ヘッドホンを検出した場合（処理がＳ１００５に進んだ場合）について説明する。

Ｓ１００５において、制御部１０１は通信部１１１を介して無線ヘッドホンと無線接続を確立する。本シーケンスでは制御部１０１は無線ヘッドホン２００と無線接続を確立する場合について説明する。例えば呼び出しパケットに対して無線ヘッドホン２００から応答パケットを受信した場合、制御部１０１はページホッピングシーケンスからチャネルホッピングシーケンスに遷移し、無線ヘッドホン２００と無線接続を確立する。また例えば問い合わせパケットに対して無線ヘッドホン２００から応答パケットを受信した場合、制御部１０１はペアリング処理を実行し無線ヘッドホン２００と無線接続を確立する。なお、このペアリング処理は上記のセントラル装置とペリフェラル装置がペアリングする処理と同様である。本ステップの後、制御部１０１は無線ヘッドホン２００の対応するプロファイル情報を元に使用するプロファイルを決定する。

Ｓ１００６において、制御部１０１は無線ヘッドホン２００が音声データおよび制御データを受信できるか否かを判断する。例えばＢｌｕｅｔｏｏｔｈ通信では、制御部１０１は無線ヘッドホン２００がＡ２ＤＰというプロトコルに対応しているか否かを判断する。ここでＡ２ＤＰはＡｄｖａｎｃｅｄＡｕｄｉｏＤｉｓｔｒｉｂｕｔｉｏｎＰｒｏｆｉｌｅの略称である。なお、制御部１０１は上述のＳＤＰを利用することで無線ヘッドホン２００が対応しているプロファイルの情報を無線ヘッドホン２００から取得できる。無線ヘッドホン２００が音声データおよび制御データを受信できると制御部１０１が判断した場合、処理はＳ１００７へ進む。無線ヘッドホン２００が音声データおよび制御データを受信できないと制御部１０１が判断した場合、処理はＳ１００８へ進む。

Ｓ１００７において、制御部１０１は通信部１１１を介して無線ヘッドホン２００との通信処理を開始する。例えばＢｌｕｅｔｏｏｔｈに従った無線通信では、制御部１０１はＡ２ＤＰおよびＡＶＲＣＰの２つのプロトコルに従って通信する。そして制御部１０１が無線ヘッドホン２００との無線接続を切断する場合、処理はＳ１００８に進む。制御部１０１が無線ヘッドホン２００との無線接続を切断する場合は、例えば操作部１０５を介して無線ヘッドホン２００との無線接続を切断するようユーザー操作された場合や制御部１０１が無線ヘッドホン２００から所定時間パケットを受信しない場合等がある。

Ｓ１００８において、制御部１０１は無線ヘッドホン２００との無線接続を切断し、本シーケンスの処理を終了する。次にＳ１００６において、制御部１０１が、無線ヘッドホン２００が音声データおよび制御データを受信できないと判断した場合について説明する。

Ｓ１００９において、制御部１０１は無線接続している無線ヘッドホン２００を利用できないことを報知し、処理を終了する。例えば制御部１０１は「この無線ヘッドホンとは通信できません」等、無線ヘッドホン２００を利用できないことを報知するメッセージを表示部１０６に表示する。またこの場合、制御部１０１は無線ヘッドホン２００との無線接続を切断する。

以上、本実施形態における撮像装置１００と無線ヘッドホン２００の無線接続処理について説明した。

図３は、指向性マイク３００を接続した撮像装置１００におけるライブビュー画像表示処理、音声処理を含む撮像処理を示すフローチャートである。図３を用いて撮像装置１００が指向性マイク３００を用いた撮像処理までの一連の処理について説明する。この撮像装置１００の処理は、不揮発性メモリ１０３に記録されたソフトウェアを作業用メモリ１０４に展開して制御部１０１が実行することで実現する。またこの処理は撮像装置１００が指向性マイク３００を用いて撮像するモードに移行する指示の操作を、操作部１０５を介してユーザーから受け付けたことをトリガに開始される。撮像装置１００の制御部１０１は、操作部１０５を介してユーザーからの撮像モード開始の操作を受け付けたことに応じて、撮像モードが開始され、図３のフローチャートが開始される。

Ｓ３０１において、制御部１０１は、撮像部１０２から撮像される画像（ライブビュー画像）を、表示部１０６に対して表示（ライブビュー画像表示）させる。

Ｓ３０２において、制御部１０１は、指向性マイク３００が集音している集音対象の範囲を特定する。制御部１０１は、指向性マイク３００の指向性特性情報と指向性マイク３００の向きから集音範囲を算出する。

指向性特性情報は、指向性マイク３００の入力特性を示す情報である。図４は指向性マイクの入力特性の１例を示す模式図である。入力特性は、集音角度に対する感度の分布が示されている。図７は、円周上は、指向性マイク３００の正面を０度とし、水平方向の角度（集音角度）を示す。各角度に対して、径方向に、指向性マイク３００の入力感度を示す（太線）。図７に示した入力特性は、指向性マイク３００が正面方向に対して±３０度の範囲に高い入力感度を有することを示している。本実施例において、指向性マイク３００の入力特性は、指向性マイク３００の正面方向の軸に対して回転対称の特性であるとする。したがって、指向性マイク３００の正面に対して垂直方向の断面においても正面方向の軸に対して±３０度の範囲に強い入力感度を有する入力特性を有する。なお、指向性マイクは、その機種に応じてそれぞれ特性が定義されており、図７に示した例によらない。制御部１０１は接続部１１２を介して指向性マイクの指向性特性情報を取得する。

制御部１０１は、接続部１１２を介して指向性マイク３００の角度を示す角度情報を取得する。

制御部１０１は、取得した指向性特性情報と角度情報とに基づいて、撮影された画像に集音対象物が含まれるか否かを判定する。制御部１０１は、取得した指向性特性情報と角度情報とに基づいて、撮像装置１００を基準に、指向性マイク３００の集音対象の範囲を算出する。

Ｓ３０３において、制御部１０１は、集音対象の範囲（集音範囲）が、撮像装置１００の撮像範囲に含まれるか否かを判定する。

図５は、撮像装置１００の上方向から見た場合における、撮像装置１００の撮像範囲と、指向性マイク３００の集音範囲との関係を示す模式図である。範囲５０１は、指向性マイク３００の集音範囲を示す。範囲５０２は、撮像装置１００の撮像部１０２の撮像範囲を示す。図６は、撮像装置１００の横方向から見た場合における、撮像装置１００の撮像範囲と、指向性マイク３００の集音範囲との関係を示す模式図である。図６の範囲６０１は、指向性マイク３００の集音範囲を示す。範囲６０２は、撮像装置１００の撮像部１０２の撮像範囲を示す。

制御部１０１は、撮像部１０２の方向、およびズーム倍率等の光学系の情報に基づいて、撮像装置１００の撮像範囲を、撮像装置１００を中心とした三次元空間における範囲として算出する。

さらに、制御部１０１は、指向性マイク３００の指向性特性情報および角度情報に基づいて、指向性マイク３００の集音範囲を、撮像範囲と同様に、撮像装置１００を中心とした三次元空間における範囲として算出する。

制御部１０１は、算出された撮像範囲および集音範囲に基づいて、集音範囲が撮像装置１００の撮像範囲に含まれるか否かを判定する。集音範囲が、撮像装置１００の撮像範囲に含まれる場合、処理はＳ３０４に進む。そうでない場合、処理はＳ３１１に進む。

Ｓ３１１において、制御部１０１は、撮像範囲（撮像画角）内に集音範囲が含まれていないことを示す通知を実行する。通知は、ライブビュー画像に重畳して表示部１０６に表示するとする。なお、通知は、表示部と異なる発光部による発光や、音声出力部からブザー音を出力するなどによって実行されてもよい。

Ｓ３０４において、制御部１０１は、集音対象物までの距離を特徴量として取得する。制御部１０１は、集音範囲と撮像範囲とに共に含まれる被写体を、集音対象物として特定する。制御部１０１は、撮像装置１００もしくは指向性マイク３００から集音対象物までの距離を取得する。

制御部１０１は、撮像部１０２から撮像される撮像情報の位相差（視差情報）を元に距離を算出することが出来る。この場合は指向性マイク３００の集音方向と撮像部１０２の撮像画像との関係より、制御部１０１は撮像画像内の集音対象位置を特定し、その撮像画像における位相差情報を元に距離を算出する。また、撮像装置１００もしくは指向性マイク３００に設けられたＬｉＤＡＲ方式（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）を用いる測距装置を用いて、集音対象物との距離を取得することも可能である。指向性マイク３００が距離を算出するための距離センサを内蔵している場合、制御部１０１は接続部１１２を介して集音対象の距離情報を取得する。

Ｓ３０５において、制御部１０１は取得した集音対象物の距離に基づいて、指向性マイク３００から入力される音声データに施す処理の制御パラメータを決定する。本実施例では、制御部１０１は、集音対象物の距離に基づいて、指向性マイク３００から入力される音声データに施すゲインコントロールの閾値を決定する。ゲインコントロールとは、入力音声の音量が小さければ、音量を大きくするゲインを適用し、入力音声の音量が大きければ音量を小さくするゲインを適用して、一定の範囲の音量になるように出力音量を調整するための音声処理である。

ゲインコントロールを音声データに適用するにあたり、入力音量の下限閾値の値が制御パラメータとして、設定される。下限閾値以下の音量の音声データが入力された場合、当該音声データはゲインコントロールの対象とされない。下限閾値が小さく設定することにより、集音したい対象の音の入力音量が小さい場合でもゲインコントロールによって、集音したい対象の音の音量を大きくすることができる。一方で、集音したい対象の音以外の音も増幅されることにより、ノイズが増えることある。

制御部１０１は、集音対象物までの距離が所定の値よりも近い場合、下限閾値を集音対象物までの距離が所定の値よりも遠い場合よりも高くする。集音対象物との距離が近い場合は集音対象物からある程度の大きさの音量が入力されると予想できる。したがって、集音対象物との距離が近い場合、下限閾値を高くすることにより、ノイズの増大を抑制して出力することができる。逆に、集音対象物との距離が遠い場合は集音対象物からの音声の音量は小さくなることが予想される。この場合は、下限閾値を低くすることにより、入力音声を増幅して集音対象物からの音声を取得する。

このように音源の距離に応じてゲインコントロールの下限閾値を変更することにより、近距離の音源に対する集音の場合は低ノイズのクリアな音声を取得でき、遠距離の音源に対する集音の場合は小さな音声を集音することが可能になる。

Ｓ３０６において、制御部１０１は、決定された制御パラメータを用いて、指向性マイク３００から集音される音声データに対して処理を適用する。制御部１０１は、決定された下限閾値に基づいて、ゲインコントロール処理を音声データに適用する。また、制御部１０１は、他の音声処理を音声データに対して適用してもよい。例えば、制御部１０１は、ノイズ除去およびエンコード処理を音声データに適用する。

Ｓ３０７において、制御部１０１は処理済みの音声データを、通信部１１１を介して無線ヘッドホン２００へ送信する。撮影者は無線ヘッドホン２００を介して指向性マイク３００から集音された音声を聞きながら撮影をすることが出来る。

Ｓ３０８において、制御部１０１は、表示部１０６に指向性マイク３００から集音範囲が現在の撮像画像の画角内のどの位置を集音対象になっているかを示すアイテムを表示する。すなわち、制御部１０１は、表示部１０６の表示制御を実行する表示制御手段として機能する。図７は、表示部１０６に表示される集音範囲を示すＧＵＩを示す模式図である。図７（Ａ）は、集音範囲の中心が、撮像範囲の中心の近傍に位置に場合を示す。ＧＵＩ７０１は、撮像部１０２が撮像した画像における集音範囲を示すＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）をである。円形ＧＵＩが示す範囲内の被写体が集音対象物として特定された被写体である。図７（Ｂ）は、集音範囲の中心が、撮像範囲の左方向に傾いている場合を示す。このように、集音範囲（集音対象物）を示すＧＵＩ７０１を表示することにより、ユーザー（撮影者）は、取得している音声がどの被写体のものであるのかを認識しやすくなる。

Ｓ３０９において、制御部１０１は、撮影者から撮影開始のトリガとなる操作が操作部１０５を介して入力されたかを確認する。制御部１０１は、撮影者から撮影開始のトリガとなる操作が操作部１０５を介して入力されたと判断した場合は（Ｓ３０９、ＹＥＳ）、Ｓ３１０へ移行する。制御部１０１は、撮影者から撮影開始のトリガとなる操作が操作部１０５を介して入力されなかったと判断した場合は（Ｓ３１０、ＮＯ）、Ｓ３０１へ戻り、ライブビュー表示を継続する。

Ｓ３１０において、制御部１０１は、撮像部１０２を制御して撮像を行い、撮像画像を記憶媒体１１０に書き込む。

以上のように、指向性マイク３００が集音している集音対象物との距離に応じて集音された音量データの処理の制御パラメータを決定することにより、集音対象の距離に応じた好適な音声処理が可能となる。とくに、ゲインコントロールの対象となる下限閾値を集音対象物との距離に応じて決定することにより、集音対象物が遠い場合であっても集音対象物の音声を取得することを容易とする。

また、指向性マイク３００が集音している集音範囲を表示部１０５に表示することにより、撮影者はライブビュー表示のどこの位置に音声を集音しているかが視覚的に簡単に認識することができる。

＜実施例２＞
実施例１は、指向性マイク３００の集音範囲の集音対象物の距離に応じて、音声処理の制御パラメータを決定する音声処理装置、および撮像装置について説明した。実施例２の音声処理装置、および撮像装置は、指向性マイク３００の集音範囲を動的に変更する手段を備え、撮像範囲におけるフォーカス位置に指向性マイクの３００の集音範囲を移動させ、フォーカス位置に集音範囲を合わせることを可能とする。

図８は、実施例２における撮像処理を示すフローチャートである。Ｓ８０１～Ｓ８０２、Ｓ８０４～８１０は、実施例１で説明した図３のＳ３０１～Ｓ３０２、Ｓ３０４～Ｓ３１０と同じ制御であるので説明を省略する。

Ｓ８２１で、制御部１０１は、撮像画像におけるフォーカス位置（合焦位置）を特定する。制御部１０１は、撮像画像に含まれる１以上の被写体を検出し、検出された被写体に対して合焦の度合いを算出する処理を実行する。制御部１０１は、各被写体の合焦度合いに基づいて、最も合焦の度合いが高い（フォーカスがあっている）被写体を特定する。制御部１０１は、最も合焦の度合いが高い（フォーカスがあっている）被写体の撮像範囲における位置をフォーカス位置として特定する。なお、撮像画像における被写体ごとに合焦の度合いを算出する代わりに、撮像画像を分割して得られる小領域ごとに合焦の度合いを算出して、合焦している撮像範囲を特定してもよい。

Ｓ８２２で、制御部１０１は、集音範囲が算出されたフォーカス位置を含むか否かを判定する。なお、制御部１０１は、フォーカスがあっている範囲が集音範囲よりも大きい場合は、フォーカスがあっている範囲の一部が集音範囲に含まれていれば、集音範囲が算出されたフォーカス位置を含むと判定する。集音範囲が算出されたフォーカス位置を含むと判定された場合、処理はＳ８０４に進む。集音範囲が算出されたフォーカス位置を含まないと判定された場合、処理はＳ８２３に進む。

Ｓ８２３で、制御部１０１は、制御部１００は接続部１１２を介して指向性マイク３００に対して集音範囲がフォーカス位置を含むように、指向性マイク３００の集音方向（正面方向）を移動させるように制御する。なお、指向性マイク３００の集音方向（正面方向）を移動させる制御は、指向性マイク３００に設けられた不図示のモーターなどの動力部を駆動することによって実行されるとする。

以上のように、撮影者の撮影画像のフォーカス位置に指向性マイク３００の集音対象を移動することにより、撮影者は撮影したい被写体のフォーカス位置に応じた音声を取得することができる。

なお、図８に示した制御は、撮影モードで動作中に繰り返し実行されるとする。また、Ｓ８２１、Ｓ８２２、Ｓ８２３およびＳ８０４～Ｓ８０８の一連の処理は、ユーザーがフォーカスを調整する処理を実行したことに応じて実行されるものでもよい。例えば、ユーザーが撮像装置１００のフォーカスレンズ駆動したことに応じて実行されてもよいし、オートフォーカス実行時には撮像装置１００の制御によりフォーカスレンズが駆動したことに応じて実行されてもよい。

＜実施例３＞
実施例１、２は、指向性マイク３００の集音範囲の集音対象物の距離に応じて、音声処理の制御パラメータを決定する音声処理装置、および撮像装置について説明した。実施例３の音声処理装置、および撮像装置は、集音対象物の種類に応じて音声処理の制御パラメータを決定する。

図９は、実施例３にかかる撮像装置１００の撮像処理を示すフローチャートである。実施例３にかかる撮像装置１００の制御部１０１は、指向性マイク３００の集音対象物（音源）の種類を特定して、音源に応じた音声処理を適用する。Ｓ９０１～Ｓ９０３、およびＳ９０６～Ｓ９１１は、実施例１で説明した図３のＳ３０１～Ｓ３０３、Ｓ３０６～Ｓ３１１と同じ制御であるので説明を省略する。

Ｓ９２１において、制御部１０１は、集音対象物の特徴量（データ）として集音対象物の種類を特定する。制御部１０１は、撮像画像において集音範囲に含まれる被写体を特定し、その種類を特定する。集音対象物の特定は、例えば、画像認識を元に行う。例えば、人物、車両、動物（犬、猫、鳥）などの複数の種類の各々に対して特徴値が関連付けられたテーブルを用いて、被写体の特徴値と最も一致度の高い種類を被写体の種類として特定する。予めテーブルに記憶された複数の種類から被写体の種類を特定できない場合、被写体の種類としてＮＵＬＬを入力する。

Ｓ９２２において、制御部１０１は、特定された被写体の種類に応じた制御パラメータを決定する。例えば、制御パラメータとして、ゲインコントロールの下限閾値を決定するとする。特定された種類が鳥や犬、猫など、出力される音の音量が小さいと予想される種類である場合、特定された種類が車両など、出力される音の音量が大きいと予想される種類である場合よりも、下限閾値を小さく設定する。また、Ｓ９２１で被写体の種類が特定できなかった（被写体の種類：ＮＵＬＬ）場合、あらかじめ定められたデフォルトの値を制御パラメータとして決定する。

以上のように、指向性マイクで集音する集音対象物の種類に基づいて入力音量のゲインコントロールの下限閾値を変更することにより、撮影者が欲している音声を好適に増幅することが出来るようになる。

＜その他の実施例＞
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピューターにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

以上、本発明の好ましい実施形態について説明したが、本発明はこの実施形態に限定されず、その要旨の範囲内で種々の変形および変更が可能である。

１００撮像装置
１０１制御部
３００指向性マイク

Claims

マイクの集音範囲に含まれる対象物との距離を取得する取得手段と、
前記距離に基づいて制御パラメータを決定する決定手段と、
前記設定された制御パラメータを用いて、前記マイクから集音した音声データに音声処理を適用する処理手段と、
を備える音声処理装置。
前記取得手段は、撮像範囲に含まれる被写体像を撮像する撮像手段から取得した撮像画像に基づいて、前記対象物との距離を取得する
ことを特徴とする請求項１に記載の音声処理装置。
前記取得手段は、ＬｉＤＡＲ方式の測距手段を用いて、前記対象物との距離を取得する
ことを特徴とする請求項１に記載の音声処理装置。
前記音声処理は、閾値より高い音量の音声データを増幅する処理であって、
前記決定手段は、前記距離が所定の距離よりも遠い場合に、前記距離が所定の距離よりも近い場合よりも、前記閾値を低く設定する
ことを特徴とする請求項１乃至３のいずれか１項に記載の音声処理装置。
画像を撮像する撮像手段と、
マイクの集音範囲に含まれ、かつ、前記撮像手段の撮像範囲に含まれる対象物の特徴量を取得する取得手段と、
前記特徴量に基づいて制御パラメータを決定する決定手段と、
前記設定された制御パラメータを用いて、前記マイクから集音した音声データに音声処理を適用する処理手段と、
を備える撮像装置。
前記特徴量は、前記対象物と前記撮像手段との距離である
ことを特徴とする請求項５に記載の撮像装置。
前記取得手段は、前記撮像手段から取得した撮像画像に基づいて、前記対象物との距離を取得する
ことを特徴とする請求項６に記載の撮像装置。
前記取得手段は前記撮像手段が撮像した前記撮像画像の視差情報に基づいて、前記対象物との距離を取得することを特徴とする請求項７に記載の撮像装置。
前記取得手段は、ＬｉＤＡＲ方式の測距手段を用いて、前記対象物との距離を取得する
ことを特徴とする請求項６に記載の撮像装置。
前記音声処理は、閾値より高い音量の音声データを増幅する処理であって、
前記決定手段は、前記距離が所定の距離よりも遠い場合に、前記距離が所定の距離よりも近い場合よりも、前記閾値を低く設定する
ことを特徴とする請求項６乃至９のいずれか１項に記載の撮像装置。
前記撮像手段はフォーカス位置を制御することが可能であって、前記撮像画像におけるフォーカス位置に前記マイクの前記集音範囲が含まれるように、前記マイクの向きを制御する制御手段を更に備えることを特徴とする請求項６乃至１０のいずれか１項に記載の撮像装置。
前記撮像手段により取得した撮像画像を表示手段に表示する表示制御手段を備え、
前記表示制御手段は、前記マイクの前記集音範囲を示すアイテムを、前記撮像画像において前記マイクの前記集音範囲に対応する位置に表示することを特徴とする請求項６乃至１１のいずれか１項に記載の撮像装置。
前記特徴量は、前記対象物の種類を示す情報であることを特徴とする請求項６に記載の撮像装置。
マイクの集音範囲に含まれる対象物との距離を取得する取得ステップと、
前記距離に基づいて制御パラメータを決定する決定ステップと、
前記設定された制御パラメータを用いて、前記マイクから集音した音声データに音声処理を適用する処理ステップと、
を備える音声処理装置の制御方法。
請求項１乃至４のいずれか１項に記載の音声処理装置としてコンピューターを動作させるためのコンピューターが実行することが可能なプログラム。
請求項５乃至１３のいずれか１項に記載の撮像装置としてコンピューターを動作させるためのコンピューターが実行することが可能なプログラム。