JP2022180926A - 音声処理装置、撮像装置、それらの制御方法、およびプログラム - Google Patents
音声処理装置、撮像装置、それらの制御方法、およびプログラム Download PDFInfo
- Publication number
- JP2022180926A JP2022180926A JP2021087689A JP2021087689A JP2022180926A JP 2022180926 A JP2022180926 A JP 2022180926A JP 2021087689 A JP2021087689 A JP 2021087689A JP 2021087689 A JP2021087689 A JP 2021087689A JP 2022180926 A JP2022180926 A JP 2022180926A
- Authority
- JP
- Japan
- Prior art keywords
- imaging
- distance
- sound collection
- microphone
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003384 imaging method Methods 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000008569 process Effects 0.000 claims description 25
- 238000005259 measurement Methods 0.000 claims 2
- 238000004891 communication Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 13
- 230000015654 memory Effects 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 9
- 230000004044 response Effects 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 1
- PWHULOQIROXLJO-UHFFFAOYSA-N Manganese Chemical compound [Mn] PWHULOQIROXLJO-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 229910001416 lithium ion Inorganic materials 0.000 description 1
- 229910052748 manganese Inorganic materials 0.000 description 1
- 239000011572 manganese Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Landscapes
- Studio Devices (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】 本発明は、集音対象物との距離による音声のレベルの影響を抑制することが可能な集音装置、撮像装置、およびそれらの制御方法を提供することを目的とする。【解決手段】 本発明にかかる撮像装置100の制御部101は、指向性マイク300の集音範囲に含まれる集音対象物との距離を取得し、集音対象物との距離に基づいて音声処理の制御パラメータを決定し、設定された制御パラメータを用いて、指向性マイク300から集音した音声データに音声処理を適用することを特徴とする。【選択図】 図3
Description
本発明は、音声処理装置、音声処理装置を有する撮像装置、それらの制御方法、およびプログラムに関する。
デジタルカメラの撮像装置は、画像と音声の両方を記録することができる。音声データの記録については、特許文献1に、マイクロホンを介して入力された音声データの音量がある一定レベルとなるように音声データの増幅を行うことで、一定の音量で記録をすることが開示されている。
また、音声を入力するデバイスとして、特定の方向からの音声に対して感度の高い(指向性を有する)指向性マイクが用いられることがある。
特許文献1で開示されている装置では、指向性マイクで入力された音声のレベルを所定の値を超えないように制御することは開示されている。しかしながら、音声のレベルが所定の値より小さくとも、指向性マイクが集音の対象とする方向の集音対象物が遠い場合に、集音対象物の距離が遠いときは音量レベルが一定のレベル以下になってしまうことがある。
上述の課題に鑑みて、本発明は、集音対象物との距離による音声のレベルの影響を抑制することが可能な音声処理装置、撮像装置、それらの制御方法、およびプログラムを提供することを目的とする。
本発明にかかる音声処理装置の一の形態は、マイクの集音範囲に含まれる対象物との距離を取得する取得手段と、前記距離に基づいて制御パラメータを決定する決定手段と、前記設定された制御パラメータを用いて、前記マイクから集音した音声データに音声処理を適用する処理手段と、を備えることを特徴とする。
本発明の音声処理装置、撮像装置、それらの制御方法、およびプログラムによれば、集音対象物との距離による音声のレベルの影響を抑制することを可能とする。
以下、本発明の好ましい実施の形態の一例を、添付の図面に基づいて詳細に説明する。
図1は、第一の実施形態における撮像装置100と無線ヘッドホン200と指向性マイク300からなるシステム構成図の一例である。
撮像装置100は無線ヘッドホン200とBluetooth(登録商標)の規格に従って無線接続することができる。このBluetoothの規格に従った無線接続において、同期通信では音声データや楽曲データなどを撮像装置100は無線ヘッドホン200へ送信することができる。またBluetoothの規格に従った無線接続において、非同期通信ではボリュームコントロールや出力指示等の制御データを撮像装置100は無線ヘッドホン200へ送信することができる。これによりユーザーは無線ヘッドホン200を撮像装置100に無線接続することで、撮像装置100から電子音や指向性マイク300で入力した音声を、無線ヘッドホン200を介して聞くことができる。
指向性マイク300は鋭い指向性を備えるマイクであり、特定の方向における遠方の音源の音声を取得することが出来る。撮影者は指向性マイク300を用いて撮影を行うことにより、遠方の被写体の音声のみを取得することが可能になり、これにより被写体の位置の特定や撮影タイミングの予測に活用することが出来る。また、指向性マイク300は駆動部を備え、集音対象の位置を動的に変更するために左右上下にマイクの向きを変えることが可能である。これにより例えば、撮像画像のフォーカス位置にマイクを向けることにより、遠方に離れた位置であっても、フォーカスされた被写体の音声を取得することが可能になる。
図2は、本実施形態の撮像装置の一例である撮像装置100の構成を説明するブロック図である。
制御部101は、入力された信号や、後述のプログラムに従って撮像装置100の各部を制御する。制御部101は後述する不揮発性メモリ103および記録媒体110に記録されている音声データを音声データに変換し、スピーカ108、通信部111を介して音声データを出力することができる。
後述するように、制御部101は、指向性マイク300から取得した音声データを処理する音声処理装置としても動作する。
撮像部102は、例えば、光学レンズユニットと絞り・ズーム・フォーカスなど制御する光学系と、光学レンズユニットを経て導入された光(映像)を電気的な映像信号に変換するための撮像素子などで構成される。撮像部102は、撮像範囲に含まれる被写体像を含む光学像を取得して撮像画像を生成する。また、撮像部102は、制御部101の制御によってフォーカスを制御するための光学系を操作することにより、フォーカス位置を制御可能である。撮像素子は、一般的に、CMOS(Complementary Metal Oxide Semiconductor)や、CCD(Charge Coupled Device)が用いられる。撮像部102は、制御部101に制御されることにより、撮像部102に含まれるレンズで結像された被写体光を、撮像素子により電気信号に変換し、ノイズ低減処理などを行ってデジタルデータを画像データや動画データとして出力する。
不揮発性メモリ103は、電気的に消去・記録可能な不揮発性のメモリであり、制御部101で実行される後述のプログラム等が格納される。
作業用メモリ104は、撮像部102で撮像された画像データおよび動画データを一時的に保持するバッファメモリや、表示部106の画像表示用メモリ、制御部101の作業領域等として使用される。
操作部105は、撮像装置100に対する指示をユーザーから受け付けるためのユーザーインタフェース(UI)である。操作部105は、例えばユーザーが撮像装置100の電源のオン/オフを指示するための電源スイッチや、撮影を指示するためのレリーズスイッチ、画像データの再生を指示するための再生ボタン等を含むことができる。また、表示部106に形成されるタッチパネルも操作部105に含めることができる。なお、レリーズスイッチは、SW1およびSW2を有する。レリーズスイッチが、いわゆる半押し状態となることにより、SW1がオンとなる。これにより、AF(オートフォーカス)処理、AE(自動露出)処理、AWB(オートホワイトバランス)処理、EF(フラッシュプリ発光)処理等の撮像の準備動作を行うための準備指示を受け付ける。また、レリーズスイッチが、いわゆる全押し状態となることにより、SW2がオンとなる。このようなユーザー操作により、撮像動作を行うための撮像指示を受け付ける。また、タッチパネルの操作により撮影を指示することも出来る。タッチパネル上に表示されているライブビュー表示画面をタッチすることにより、被写体のフォーカス位置を変更することが可能である。
また、操作部105は後述するスピーカ108および通信部111から出力される音の音量等を調整するためのボタンを含む。このボタンを介してユーザー操作を受け付けることで、制御部101は音声データの振幅等を調整する処理や、音声データを出力するか否かを判断する処理を実行する。また通信部111を介した無線通信機能のオン/オフを指示するためのボタンも操作部105に含まれる。
表示部106は、撮影の際のビューファインダー画像の表示、撮影した画像データの表示、対話的な操作のための文字表示などを行う。
マイク107は、音や音声等の音波を撮像装置100に入力するために用いられる。マイク107は音や音声を電気信号に変換して撮像装置100に入力する。制御部101は入力された電気信号から音声データを生成する。例えば制御部101はこの音声データと撮像部102によって撮影した動画データとを同期させて記録することができる。また例えば、制御部101はこの音声データを撮像部102によって撮影した画像データに関連付けて記録することができる。なお、マイク107は撮像装置100に着脱可能なよう構成してもよいし、撮像装置100に内蔵されていてもよい。また、指向性マイク300を撮像装置100に接続させた場合は、マイク107の音声取得機能はOFFになる。
スピーカ108は、電子音を出力することができる電気音響変換器である。電子音は例えば、警告音、合焦音、電子シャッター音、および操作音等である。本実施形態において、制御部101は指向性マイク300から入力した音声情報をスピーカ108によって出力することができる。
電源部109は制御部101に制御されることで撮像装置100の各要素に電力を供給することができる。電源部109は例えば、リチウムイオン電池やアルカリマンガン乾電池等の電源である。
記録媒体110は例えば撮像部102から出力された画像データを記録することができる。記録媒体110は例えばSDカードやCFカードである。記録媒体110は、撮像装置100に着脱可能なよう構成してもよいし、撮像装置100に内蔵されていてもよい。
通信部111は、外部機器と無線接続するためのインターフェースである。本実施形態の撮像装置100は、通信部111を介して、外部機器とデータのやりとりを行うことができる。例えば、マイク107または指向性マイク300で取得した音声データを、通信部111を介して無線ヘッドホン200に送信することができる。なお、本実施形態では、通信部111は外部機器とBluetoothの規格に従って通信するためのインターフェースを含む。以降、Bluetoothの規格に準拠した無線通信のことをBluetooth通信という。制御部101は、通信部111を制御することで外部機器との無線通信を実現する。なお、通信方式はBluetoothに限定されるものではなく、例えばIEEE802.11の規格に従ったいわゆる無線LANおよび赤外線通信等の無線通信方式を含む。
Bluetooth通信では、撮像装置100はペリフェラル装置とペアリングする必要がある。ペアリングとは、セントラル装置およびペリフェラル装置がお互いの識別情報を互いに登録(所定の領域に記録)する処理である。本実施形態の撮像装置100はペアリングしたペリフェラル装置の識別情報を不揮発性メモリ103に記録する。本実施形態では、撮像装置100は無線ヘッドホン200とお互いの識別情報を互いに登録した後、無線ヘッドホン200と無線接続を確立することでペアリングを完了したと判断する。また、撮像装置100がペアリング済みのペリフェラル装置と無線接続する場合、ユーザーはペリフェラル装置を撮像装置100から検索できる状態になるように操作してから、撮像装置100にペリフェラル装置を検索させるよう操作する。そして撮像装置100がペリフェラル装置を検出した場合、撮像装置100はペリフェラル装置との無線接続を確立することができる。
接続部112は、外部機器と有線接続するためのインターフェースである。本実施形態の撮像装置100は、接続部112を介して、外部機器とデータのやりとりを行うことができる。例えば、制御部101は接続部112を介して指向性マイク300から音声データを受信することができる。また、制御部101は接続部112を介して指向性マイク300の集音方向を制御するための駆動制御通信を行うこともできる。制御指示を受けた指向性マイク300は指示に従い、集音方向を変更する。集音方向を変更するには、マイクの向きを動的に変更するための駆動制御を内蔵したマイクを接続する必要がある。
接続部112は例えばフォンコネクタ(いわゆるマイク端子やヘッドホン端子等)およびUSB端子等で構成されている。撮像装置100は接続部112を介してイヤホンやヘッドホン等の外部スピーカ、外部マイク、およびスマートフォンやPC等の情報機器と有線接続することができる。また、接続部112は外部機器が接続されたか否かを検出する検出部(不図示)を有する。制御部101はこの検出部を介して、外部機器が接続および切断されたこと、外部機器と接続中であること、および外部機器と接続していないこと等を検出できる。なお、撮像装置100がマイクやヘッドホン等の外部機器と接続する場合、制御部101は外部機器と接続を確立した後に、そのデバイスの種類を検出することができる。
次に、撮像装置100の外観について説明する。図2(B)は撮像装置100の正面の外観図、図2(C)は撮像装置100の背面の外観図の一例を示す図である。レリーズスイッチ105aや再生ボタン105b、方向キー105c、タッチパネル105dは、前述の操作部105に含まれる操作部材である。また、表示部106には、撮像部102による撮像の結果得られた画像が表示される。
図10を用いて撮像装置100が無線ヘッドホン200と無線接続を確立してから切断するまでの一連の処理の一例について説明する。この撮像装置100の処理は、不揮発性メモリ103に記録されたソフトウェアを作業用メモリ104に展開して制御部101が実行することで実現する。例えばこの処理は、撮像装置100が無線ヘッドホン200と無線接続を確立することを指示する操作を、操作部105を介してユーザーから受け付けたことをトリガに開始される。
S1001において、制御部101は通信部111を介して無線ヘッドホン200を検索する。例えばペアリング済みの無線ヘッドホンと無線接続する場合、制御部101はBluetoothによる呼び出し処理を実行する。制御部101はこの呼び出し処理において、ペアリング済みの無線ヘッドホンの識別情報等を含む呼び出しパケットを送信する。また例えばペアリング済みではない無線ヘッドホンとも無線接続する可能性がある場合、制御部101はBluetoothによる照会処理を実行する。この照会処理において、制御部101は問い合わせパケットをブロードキャストする。
S1002において、制御部101は無線ヘッドホンを検出したか否かを判断する。例えば制御部101はS1001において送信した呼び出しパケットや問い合わせパケットに対する応答パケットを、通信部111を介して受信したか否かを判断する。制御部101が無線ヘッドホンを検出したと判断した場合処理はS1005に進む。制御部101が無線ヘッドホンを検出していないと判断した場合、処理はS1003に進む。
S1003において、制御部101は無線ヘッドホンの検索を開始してから所定時間が経過したか否かを判断する。例えば制御部101は呼び出しパケットや問い合わせパケットを送信してから1分以上経過したか否かを判断する。無線ヘッドホンの検索を開始してから所定時間が経過したと制御部101が判断した場合、処理はS1004へ進む。無線ヘッドホンの検索を開始してから所定時間が経過していないと制御部101が判断した場合、処理はS1002に戻る。
S1004において、制御部101は無線ヘッドホンを検出しなかったことをユーザーに報知する。例えば制御部101は表示部106に「無線ヘッドホンが見つかりませんでした」等の無線ヘッドホンを検出しなかった旨を報知するメッセージを表示する。次にS1002において制御部101が無線ヘッドホンを検出した場合(処理がS1005に進んだ場合)について説明する。
S1005において、制御部101は通信部111を介して無線ヘッドホンと無線接続を確立する。本シーケンスでは制御部101は無線ヘッドホン200と無線接続を確立する場合について説明する。例えば呼び出しパケットに対して無線ヘッドホン200から応答パケットを受信した場合、制御部101はページホッピングシーケンスからチャネルホッピングシーケンスに遷移し、無線ヘッドホン200と無線接続を確立する。また例えば問い合わせパケットに対して無線ヘッドホン200から応答パケットを受信した場合、制御部101はペアリング処理を実行し無線ヘッドホン200と無線接続を確立する。なお、このペアリング処理は上記のセントラル装置とペリフェラル装置がペアリングする処理と同様である。本ステップの後、制御部101は無線ヘッドホン200の対応するプロファイル情報を元に使用するプロファイルを決定する。
S1006において、制御部101は無線ヘッドホン200が音声データおよび制御データを受信できるか否かを判断する。例えばBluetooth通信では、制御部101は無線ヘッドホン200がA2DPというプロトコルに対応しているか否かを判断する。ここでA2DPはAdvanced Audio Distribution Profileの略称である。なお、制御部101は上述のSDPを利用することで無線ヘッドホン200が対応しているプロファイルの情報を無線ヘッドホン200から取得できる。無線ヘッドホン200が音声データおよび制御データを受信できると制御部101が判断した場合、処理はS1007へ進む。無線ヘッドホン200が音声データおよび制御データを受信できないと制御部101が判断した場合、処理はS1008へ進む。
S1007において、制御部101は通信部111を介して無線ヘッドホン200との通信処理を開始する。例えばBluetoothに従った無線通信では、制御部101はA2DPおよびAVRCPの2つのプロトコルに従って通信する。そして制御部101が無線ヘッドホン200との無線接続を切断する場合、処理はS1008に進む。制御部101が無線ヘッドホン200との無線接続を切断する場合は、例えば操作部105を介して無線ヘッドホン200との無線接続を切断するようユーザー操作された場合や制御部101が無線ヘッドホン200から所定時間パケットを受信しない場合等がある。
S1008において、制御部101は無線ヘッドホン200との無線接続を切断し、本シーケンスの処理を終了する。次にS1006において、制御部101が、無線ヘッドホン200が音声データおよび制御データを受信できないと判断した場合について説明する。
S1009において、制御部101は無線接続している無線ヘッドホン200を利用できないことを報知し、処理を終了する。例えば制御部101は「この無線ヘッドホンとは通信できません」等、無線ヘッドホン200を利用できないことを報知するメッセージを表示部106に表示する。またこの場合、制御部101は無線ヘッドホン200との無線接続を切断する。
以上、本実施形態における撮像装置100と無線ヘッドホン200の無線接続処理について説明した。
図3は、指向性マイク300を接続した撮像装置100におけるライブビュー画像表示処理、音声処理を含む撮像処理を示すフローチャートである。図3を用いて撮像装置100が指向性マイク300を用いた撮像処理までの一連の処理について説明する。この撮像装置100の処理は、不揮発性メモリ103に記録されたソフトウェアを作業用メモリ104に展開して制御部101が実行することで実現する。またこの処理は撮像装置100が指向性マイク300を用いて撮像するモードに移行する指示の操作を、操作部105を介してユーザーから受け付けたことをトリガに開始される。撮像装置100の制御部101は、操作部105を介してユーザーからの撮像モード開始の操作を受け付けたことに応じて、撮像モードが開始され、図3のフローチャートが開始される。
S301において、制御部101は、撮像部102から撮像される画像(ライブビュー画像)を、表示部106に対して表示(ライブビュー画像表示)させる。
S302において、制御部101は、指向性マイク300が集音している集音対象の範囲を特定する。制御部101は、指向性マイク300の指向性特性情報と指向性マイク300の向きから集音範囲を算出する。
指向性特性情報は、指向性マイク300の入力特性を示す情報である。図4は指向性マイクの入力特性の1例を示す模式図である。入力特性は、集音角度に対する感度の分布が示されている。図7は、円周上は、指向性マイク300の正面を0度とし、水平方向の角度(集音角度)を示す。各角度に対して、径方向に、指向性マイク300の入力感度を示す(太線)。図7に示した入力特性は、指向性マイク300が正面方向に対して±30度の範囲に高い入力感度を有することを示している。本実施例において、指向性マイク300の入力特性は、指向性マイク300の正面方向の軸に対して回転対称の特性であるとする。したがって、指向性マイク300の正面に対して垂直方向の断面においても正面方向の軸に対して±30度の範囲に強い入力感度を有する入力特性を有する。なお、指向性マイクは、その機種に応じてそれぞれ特性が定義されており、図7に示した例によらない。制御部101は接続部112を介して指向性マイクの指向性特性情報を取得する。
制御部101は、接続部112を介して指向性マイク300の角度を示す角度情報を取得する。
制御部101は、取得した指向性特性情報と角度情報とに基づいて、撮影された画像に集音対象物が含まれるか否かを判定する。制御部101は、取得した指向性特性情報と角度情報とに基づいて、撮像装置100を基準に、指向性マイク300の集音対象の範囲を算出する。
S303において、制御部101は、集音対象の範囲(集音範囲)が、撮像装置100の撮像範囲に含まれるか否かを判定する。
図5は、撮像装置100の上方向から見た場合における、撮像装置100の撮像範囲と、指向性マイク300の集音範囲との関係を示す模式図である。範囲501は、指向性マイク300の集音範囲を示す。範囲502は、撮像装置100の撮像部102の撮像範囲を示す。図6は、撮像装置100の横方向から見た場合における、撮像装置100の撮像範囲と、指向性マイク300の集音範囲との関係を示す模式図である。図6の範囲601は、指向性マイク300の集音範囲を示す。範囲602は、撮像装置100の撮像部102の撮像範囲を示す。
制御部101は、撮像部102の方向、およびズーム倍率等の光学系の情報に基づいて、撮像装置100の撮像範囲を、撮像装置100を中心とした三次元空間における範囲として算出する。
さらに、制御部101は、指向性マイク300の指向性特性情報および角度情報に基づいて、指向性マイク300の集音範囲を、撮像範囲と同様に、撮像装置100を中心とした三次元空間における範囲として算出する。
制御部101は、算出された撮像範囲および集音範囲に基づいて、集音範囲が撮像装置100の撮像範囲に含まれるか否かを判定する。集音範囲が、撮像装置100の撮像範囲に含まれる場合、処理はS304に進む。そうでない場合、処理はS311に進む。
S311において、制御部101は、撮像範囲(撮像画角)内に集音範囲が含まれていないことを示す通知を実行する。通知は、ライブビュー画像に重畳して表示部106に表示するとする。なお、通知は、表示部と異なる発光部による発光や、音声出力部からブザー音を出力するなどによって実行されてもよい。
S304において、制御部101は、集音対象物までの距離を特徴量として取得する。制御部101は、集音範囲と撮像範囲とに共に含まれる被写体を、集音対象物として特定する。制御部101は、撮像装置100もしくは指向性マイク300から集音対象物までの距離を取得する。
制御部101は、撮像部102から撮像される撮像情報の位相差(視差情報)を元に距離を算出することが出来る。この場合は指向性マイク300の集音方向と撮像部102の撮像画像との関係より、制御部101は撮像画像内の集音対象位置を特定し、その撮像画像における位相差情報を元に距離を算出する。また、撮像装置100もしくは指向性マイク300に設けられたLiDAR方式(Light Detection and Ranging)を用いる測距装置を用いて、集音対象物との距離を取得することも可能である。指向性マイク300が距離を算出するための距離センサを内蔵している場合、制御部101は接続部112を介して集音対象の距離情報を取得する。
S305において、制御部101は取得した集音対象物の距離に基づいて、指向性マイク300から入力される音声データに施す処理の制御パラメータを決定する。本実施例では、制御部101は、集音対象物の距離に基づいて、指向性マイク300から入力される音声データに施すゲインコントロールの閾値を決定する。ゲインコントロールとは、入力音声の音量が小さければ、音量を大きくするゲインを適用し、入力音声の音量が大きければ音量を小さくするゲインを適用して、一定の範囲の音量になるように出力音量を調整するための音声処理である。
ゲインコントロールを音声データに適用するにあたり、入力音量の下限閾値の値が制御パラメータとして、設定される。下限閾値以下の音量の音声データが入力された場合、当該音声データはゲインコントロールの対象とされない。下限閾値が小さく設定することにより、集音したい対象の音の入力音量が小さい場合でもゲインコントロールによって、集音したい対象の音の音量を大きくすることができる。一方で、集音したい対象の音以外の音も増幅されることにより、ノイズが増えることある。
制御部101は、集音対象物までの距離が所定の値よりも近い場合、下限閾値を集音対象物までの距離が所定の値よりも遠い場合よりも高くする。集音対象物との距離が近い場合は集音対象物からある程度の大きさの音量が入力されると予想できる。したがって、集音対象物との距離が近い場合、下限閾値を高くすることにより、ノイズの増大を抑制して出力することができる。逆に、集音対象物との距離が遠い場合は集音対象物からの音声の音量は小さくなることが予想される。この場合は、下限閾値を低くすることにより、入力音声を増幅して集音対象物からの音声を取得する。
このように音源の距離に応じてゲインコントロールの下限閾値を変更することにより、近距離の音源に対する集音の場合は低ノイズのクリアな音声を取得でき、遠距離の音源に対する集音の場合は小さな音声を集音することが可能になる。
S306において、制御部101は、決定された制御パラメータを用いて、指向性マイク300から集音される音声データに対して処理を適用する。制御部101は、決定された下限閾値に基づいて、ゲインコントロール処理を音声データに適用する。また、制御部101は、他の音声処理を音声データに対して適用してもよい。例えば、制御部101は、ノイズ除去およびエンコード処理を音声データに適用する。
S307において、制御部101は処理済みの音声データを、通信部111を介して無線ヘッドホン200へ送信する。撮影者は無線ヘッドホン200を介して指向性マイク300から集音された音声を聞きながら撮影をすることが出来る。
S308において、制御部101は、表示部106に指向性マイク300から集音範囲が現在の撮像画像の画角内のどの位置を集音対象になっているかを示すアイテムを表示する。すなわち、制御部101は、表示部106の表示制御を実行する表示制御手段として機能する。図7は、表示部106に表示される集音範囲を示すGUIを示す模式図である。図7(A)は、集音範囲の中心が、撮像範囲の中心の近傍に位置に場合を示す。GUI701は、撮像部102が撮像した画像における集音範囲を示すGUI(Graphical User Interface)をである。円形GUIが示す範囲内の被写体が集音対象物として特定された被写体である。図7(B)は、集音範囲の中心が、撮像範囲の左方向に傾いている場合を示す。このように、集音範囲(集音対象物)を示すGUI701を表示することにより、ユーザー(撮影者)は、取得している音声がどの被写体のものであるのかを認識しやすくなる。
S309において、制御部101は、撮影者から撮影開始のトリガとなる操作が操作部105を介して入力されたかを確認する。制御部101は、撮影者から撮影開始のトリガとなる操作が操作部105を介して入力されたと判断した場合は(S309、YES)、S310へ移行する。制御部101は、撮影者から撮影開始のトリガとなる操作が操作部105を介して入力されなかったと判断した場合は(S310、NO)、S301へ戻り、ライブビュー表示を継続する。
S310において、制御部101は、撮像部102を制御して撮像を行い、撮像画像を記憶媒体110に書き込む。
以上のように、指向性マイク300が集音している集音対象物との距離に応じて集音された音量データの処理の制御パラメータを決定することにより、集音対象の距離に応じた好適な音声処理が可能となる。とくに、ゲインコントロールの対象となる下限閾値を集音対象物との距離に応じて決定することにより、集音対象物が遠い場合であっても集音対象物の音声を取得することを容易とする。
また、指向性マイク300が集音している集音範囲を表示部105に表示することにより、撮影者はライブビュー表示のどこの位置に音声を集音しているかが視覚的に簡単に認識することができる。
<実施例2>
実施例1は、指向性マイク300の集音範囲の集音対象物の距離に応じて、音声処理の制御パラメータを決定する音声処理装置、および撮像装置について説明した。実施例2の音声処理装置、および撮像装置は、指向性マイク300の集音範囲を動的に変更する手段を備え、撮像範囲におけるフォーカス位置に指向性マイクの300の集音範囲を移動させ、フォーカス位置に集音範囲を合わせることを可能とする。
実施例1は、指向性マイク300の集音範囲の集音対象物の距離に応じて、音声処理の制御パラメータを決定する音声処理装置、および撮像装置について説明した。実施例2の音声処理装置、および撮像装置は、指向性マイク300の集音範囲を動的に変更する手段を備え、撮像範囲におけるフォーカス位置に指向性マイクの300の集音範囲を移動させ、フォーカス位置に集音範囲を合わせることを可能とする。
図8は、実施例2における撮像処理を示すフローチャートである。S801~S802、S804~810は、実施例1で説明した図3のS301~S302、S304~S310と同じ制御であるので説明を省略する。
S821で、制御部101は、撮像画像におけるフォーカス位置(合焦位置)を特定する。制御部101は、撮像画像に含まれる1以上の被写体を検出し、検出された被写体に対して合焦の度合いを算出する処理を実行する。制御部101は、各被写体の合焦度合いに基づいて、最も合焦の度合いが高い(フォーカスがあっている)被写体を特定する。制御部101は、最も合焦の度合いが高い(フォーカスがあっている)被写体の撮像範囲における位置をフォーカス位置として特定する。なお、撮像画像における被写体ごとに合焦の度合いを算出する代わりに、撮像画像を分割して得られる小領域ごとに合焦の度合いを算出して、合焦している撮像範囲を特定してもよい。
S822で、制御部101は、集音範囲が算出されたフォーカス位置を含むか否かを判定する。なお、制御部101は、フォーカスがあっている範囲が集音範囲よりも大きい場合は、フォーカスがあっている範囲の一部が集音範囲に含まれていれば、集音範囲が算出されたフォーカス位置を含むと判定する。集音範囲が算出されたフォーカス位置を含むと判定された場合、処理はS804に進む。集音範囲が算出されたフォーカス位置を含まないと判定された場合、処理はS823に進む。
S823で、制御部101は、制御部100は接続部112を介して指向性マイク300に対して集音範囲がフォーカス位置を含むように、指向性マイク300の集音方向(正面方向)を移動させるように制御する。なお、指向性マイク300の集音方向(正面方向)を移動させる制御は、指向性マイク300に設けられた不図示のモーターなどの動力部を駆動することによって実行されるとする。
以上のように、撮影者の撮影画像のフォーカス位置に指向性マイク300の集音対象を移動することにより、撮影者は撮影したい被写体のフォーカス位置に応じた音声を取得することができる。
なお、図8に示した制御は、撮影モードで動作中に繰り返し実行されるとする。また、S821、S822、S823およびS804~S808の一連の処理は、ユーザーがフォーカスを調整する処理を実行したことに応じて実行されるものでもよい。例えば、ユーザーが撮像装置100のフォーカスレンズ駆動したことに応じて実行されてもよいし、オートフォーカス実行時には撮像装置100の制御によりフォーカスレンズが駆動したことに応じて実行されてもよい。
<実施例3>
実施例1、2は、指向性マイク300の集音範囲の集音対象物の距離に応じて、音声処理の制御パラメータを決定する音声処理装置、および撮像装置について説明した。実施例3の音声処理装置、および撮像装置は、集音対象物の種類に応じて音声処理の制御パラメータを決定する。
実施例1、2は、指向性マイク300の集音範囲の集音対象物の距離に応じて、音声処理の制御パラメータを決定する音声処理装置、および撮像装置について説明した。実施例3の音声処理装置、および撮像装置は、集音対象物の種類に応じて音声処理の制御パラメータを決定する。
図9は、実施例3にかかる撮像装置100の撮像処理を示すフローチャートである。実施例3にかかる撮像装置100の制御部101は、指向性マイク300の集音対象物(音源)の種類を特定して、音源に応じた音声処理を適用する。S901~S903、およびS906~S911は、実施例1で説明した図3のS301~S303、S306~S311と同じ制御であるので説明を省略する。
S921において、制御部101は、集音対象物の特徴量(データ)として集音対象物の種類を特定する。制御部101は、撮像画像において集音範囲に含まれる被写体を特定し、その種類を特定する。集音対象物の特定は、例えば、画像認識を元に行う。例えば、人物、車両、動物(犬、猫、鳥)などの複数の種類の各々に対して特徴値が関連付けられたテーブルを用いて、被写体の特徴値と最も一致度の高い種類を被写体の種類として特定する。予めテーブルに記憶された複数の種類から被写体の種類を特定できない場合、被写体の種類としてNULLを入力する。
S922において、制御部101は、特定された被写体の種類に応じた制御パラメータを決定する。例えば、制御パラメータとして、ゲインコントロールの下限閾値を決定するとする。特定された種類が鳥や犬、猫など、出力される音の音量が小さいと予想される種類である場合、特定された種類が車両など、出力される音の音量が大きいと予想される種類である場合よりも、下限閾値を小さく設定する。また、S921で被写体の種類が特定できなかった(被写体の種類:NULL)場合、あらかじめ定められたデフォルトの値を制御パラメータとして決定する。
以上のように、指向性マイクで集音する集音対象物の種類に基づいて入力音量のゲインコントロールの下限閾値を変更することにより、撮影者が欲している音声を好適に増幅することが出来るようになる。
<その他の実施例>
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピューターにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピューターにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、本発明の好ましい実施形態について説明したが、本発明はこの実施形態に限定されず、その要旨の範囲内で種々の変形および変更が可能である。
100 撮像装置
101 制御部
300 指向性マイク
101 制御部
300 指向性マイク
Claims (16)
- マイクの集音範囲に含まれる対象物との距離を取得する取得手段と、
前記距離に基づいて制御パラメータを決定する決定手段と、
前記設定された制御パラメータを用いて、前記マイクから集音した音声データに音声処理を適用する処理手段と、
を備える音声処理装置。 - 前記取得手段は、撮像範囲に含まれる被写体像を撮像する撮像手段から取得した撮像画像に基づいて、前記対象物との距離を取得する
ことを特徴とする請求項1に記載の音声処理装置。 - 前記取得手段は、LiDAR方式の測距手段を用いて、前記対象物との距離を取得する
ことを特徴とする請求項1に記載の音声処理装置。 - 前記音声処理は、閾値より高い音量の音声データを増幅する処理であって、
前記決定手段は、前記距離が所定の距離よりも遠い場合に、前記距離が所定の距離よりも近い場合よりも、前記閾値を低く設定する
ことを特徴とする請求項1乃至3のいずれか1項に記載の音声処理装置。 - 画像を撮像する撮像手段と、
マイクの集音範囲に含まれ、かつ、前記撮像手段の撮像範囲に含まれる対象物の特徴量を取得する取得手段と、
前記特徴量に基づいて制御パラメータを決定する決定手段と、
前記設定された制御パラメータを用いて、前記マイクから集音した音声データに音声処理を適用する処理手段と、
を備える撮像装置。 - 前記特徴量は、前記対象物と前記撮像手段との距離である
ことを特徴とする請求項5に記載の撮像装置。 - 前記取得手段は、前記撮像手段から取得した撮像画像に基づいて、前記対象物との距離を取得する
ことを特徴とする請求項6に記載の撮像装置。 - 前記取得手段は前記撮像手段が撮像した前記撮像画像の視差情報に基づいて、前記対象物との距離を取得することを特徴とする請求項7に記載の撮像装置。
- 前記取得手段は、LiDAR方式の測距手段を用いて、前記対象物との距離を取得する
ことを特徴とする請求項6に記載の撮像装置。 - 前記音声処理は、閾値より高い音量の音声データを増幅する処理であって、
前記決定手段は、前記距離が所定の距離よりも遠い場合に、前記距離が所定の距離よりも近い場合よりも、前記閾値を低く設定する
ことを特徴とする請求項6乃至9のいずれか1項に記載の撮像装置。 - 前記撮像手段はフォーカス位置を制御することが可能であって、前記撮像画像におけるフォーカス位置に前記マイクの前記集音範囲が含まれるように、前記マイクの向きを制御する制御手段を更に備えることを特徴とする請求項6乃至10のいずれか1項に記載の撮像装置。
- 前記撮像手段により取得した撮像画像を表示手段に表示する表示制御手段を備え、
前記表示制御手段は、前記マイクの前記集音範囲を示すアイテムを、前記撮像画像において前記マイクの前記集音範囲に対応する位置に表示することを特徴とする請求項6乃至11のいずれか1項に記載の撮像装置。 - 前記特徴量は、前記対象物の種類を示す情報であることを特徴とする請求項6に記載の撮像装置。
- マイクの集音範囲に含まれる対象物との距離を取得する取得ステップと、
前記距離に基づいて制御パラメータを決定する決定ステップと、
前記設定された制御パラメータを用いて、前記マイクから集音した音声データに音声処理を適用する処理ステップと、
を備える音声処理装置の制御方法。 - 請求項1乃至4のいずれか1項に記載の音声処理装置としてコンピューターを動作させるためのコンピューターが実行することが可能なプログラム。
- 請求項5乃至13のいずれか1項に記載の撮像装置としてコンピューターを動作させるためのコンピューターが実行することが可能なプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021087689A JP2022180926A (ja) | 2021-05-25 | 2021-05-25 | 音声処理装置、撮像装置、それらの制御方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021087689A JP2022180926A (ja) | 2021-05-25 | 2021-05-25 | 音声処理装置、撮像装置、それらの制御方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022180926A true JP2022180926A (ja) | 2022-12-07 |
Family
ID=84327741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021087689A Pending JP2022180926A (ja) | 2021-05-25 | 2021-05-25 | 音声処理装置、撮像装置、それらの制御方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022180926A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117412223A (zh) * | 2023-12-14 | 2024-01-16 | 深圳市声菲特科技技术有限公司 | 远场拾音的方法、装置、设备与存储介质 |
-
2021
- 2021-05-25 JP JP2021087689A patent/JP2022180926A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117412223A (zh) * | 2023-12-14 | 2024-01-16 | 深圳市声菲特科技技术有限公司 | 远场拾音的方法、装置、设备与存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9635235B2 (en) | Communication apparatus and control method thereof | |
KR20150132802A (ko) | 촬영 파라미터를 설정하는 방법, 장치, 프로그램 및 기록매체 | |
WO2011016322A1 (ja) | 撮像装置、編集装置および撮像システム | |
US10397870B2 (en) | Electronic device that performs indication on a display when a wireless connection with an external device is disconnected | |
JP2022180926A (ja) | 音声処理装置、撮像装置、それらの制御方法、およびプログラム | |
KR102517503B1 (ko) | 전자기기, 그 제어 방법, 및 기억매체 | |
US11029916B2 (en) | Electronic device and control method and storage medium | |
JP2016009950A (ja) | 音声処理装置 | |
US10645269B2 (en) | Communication apparatus for wirelessly communicating with external apparatus, method, and recording medium | |
US11546501B2 (en) | Communication apparatus, control method and storage medium | |
US11323616B2 (en) | Electronic apparatus having settings for suppressing generation of sound or light, control method, and recording medium | |
JP2012010134A (ja) | 画像記録装置 | |
JP2022129928A (ja) | 撮像装置、制御方法、およびプログラム | |
JP7353797B2 (ja) | 電子機器、その制御方法、およびそのプログラム | |
US20220272253A1 (en) | Image capturing apparatus including plurality of sound input units, control method, and recording medium | |
JP2010154013A (ja) | カメラ、被写体捕捉方法およびプログラム | |
JP2018191023A (ja) | 撮像システム | |
US11178343B2 (en) | Combining images from different devices according to a determined wipe shape | |
JP2021035049A (ja) | 撮像装置、制御方法、およびプログラム | |
JP2021002802A (ja) | 撮像装置、撮像装置の制御方法、プログラム | |
JP2018056776A (ja) | 撮像装置、撮影システム、電源管理方法及びプログラム | |
JP2016100724A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2016092682A (ja) | ネットワークシステム、画像公開方法及びプログラム | |
JP2016092799A (ja) | 撮像装置 | |
JP2015220548A (ja) | 撮像装置、表示装置及びそれらの制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20231213 |