JP2015097317A

JP2015097317A - 音声処理装置

Info

Publication number: JP2015097317A
Application number: JP2013236744A
Authority: JP
Inventors: 光洋泉; Mitsuhiro Izumi; 晃一鷲巣; Koichi Washisu; 木村　正史; Masashi Kimura; 正史木村; 文裕梶村; Fumihiro Kajimura; 山本　泰史; Yasushi Yamamoto; 泰史山本; 宮脇　誠; Makoto Miyawaki; 宮脇　　誠
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-11-15
Filing date: 2013-11-15
Publication date: 2015-05-21

Abstract

【課題】指向性マイクロホンなどを使わずに、安価な構成で、高音質な音声を得る。
【解決手段】他のカメラの状態情報を入手し、その状態から録音に使用するカメラを選択する。録音した複数の音声の遅延量を調整して合成することを特徴とする。
【選択図】図１

Description

本発明は、音声を記録する音声処理装置に関する。

子供の学芸会の会場などでビデオ撮影する場面などにおいては、自席からの撮影となり、撮影場所を自由に選ぶことができない場合が多い。ステージから遠い席での撮影となった場合には、映像に関してはズーム機能を使用することで自分の子供など特定の人物を注視することができる。しかし音声に関しては、周囲の話し声などの雑音を拾ってしまい、ステージからの音声をきれいに取得することが難しい。従来より、指向性マイクロホンを備えたカメラが知られている。また、１台のカメラだけによらず、位置が特定されていない複数のマイクによる音声信号を合成することで、被写体の音声を際立たせる技術が提案されている（特許文献１）。

特開２００９−１４１５６０号公報

しかし、指向性マイクロホンを搭載するとなると、構成が複雑となり高価なカメラとなってしまう。また、特許文献１では、複数のマイクによる音声が確実に存在している状態を想定しているが、実際の学芸会の会場などにおいては、すべてのカメラが同時に撮影をしているとは限らない。本発明は、安価な構成で、高音質な音声を得ることを目的とする。

上記の課題を解決するために、本発明では他のカメラの状態情報を入手し、その状態から録音に使用するカメラを選択する。他のカメラで録音した複数の音声の遅延量を調整して合成する。

本発明によれば、他のカメラの状態情報からカメラを選択して音声データを合成することで、安価な構成で周囲の雑音を低減した高音質な音声を得ることが可能となった。

撮影装置のブロック図第１の実施例の動作を示すフローチャート撮影装置の状態情報を説明する図撮影装置の選択の動作を示すフローチャート第１の実施例の撮影状況の例を示す図音声の合成処理の詳細を説明する図遅延処理を実施した波形の例を示す図第２の実施例の撮影状況の例を示す図第２の実施例の動作を示すフローチャート

以下は、本発明の実施形態を添付の図面に基づいて説明する。ただし本発明はこれらの実施例に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

［実施例１］
以下、図１から図７を参照して、本発明の第１の実施例による音声入力装置について説明する。

（構成）
本発明の第１の実施例における構成について図１を用いて詳細に説明する。図１は、本実施例における音声入力装置を搭載した撮影装置の電気的な構成を示すブロック図である。撮影装置であるカメラ１には、不図示のレンズを通過した光束を受光し光電変換を行う撮像素子を含む撮像手段である撮像部５、周囲の音声を収集する音声入力手段であるマイク２が含まれている。撮影した静止画や動画は、システム制御部４にて、適切な画像処理や音声処理が施された後に、メモリーカードなどで構成される記録部８に記録される。また撮影後に画像の確認を行うことができる液晶ディスプレイや音声を再生できるスピーカーなどで構成される表示部７を有し、記録部８に記録済みの静止画や動画を呼び出して表示部７で再生することが可能である。

カメラ１はＮｉＣｄ電池やＮｉＭＨ電池、Ｌｉ電池等の２次電池や外部バッテリやＡＣアダプタなどにより構成される電源部９から電源の供給を受けている。また撮影データやカメラの状態データなど符号化して周囲の撮影装置やネットワークと通信することが可能な通信部６を備えている。

（撮影の手順）
ステップＳ２１は、周囲の撮影装置に対して、状態情報の送信を指示するステップである。ここでいう周囲の撮影装置とは、同じ会場などで撮影しようとしており、同様の音声が収集できる他の撮影装置のことを指している。カメラ１の通信部６を通じて直接無線通信を行ってもよいし、携帯電話等を介し通信してもよい。また状態情報について図３を用いて説明する。状態情報とは個々の撮影装置がどのような状態にあるかを把握するための情報であり、例えば図３のような項目が挙げられる。まず撮影装置の撮影状態とは、その撮影装置がスタンバイ中であるのか、静止画を撮影するモードになっているのか、もしくは動画を撮影中であるかなどの情報である。

音声入力レベルとは、ある一定期間の間にマイクにされる音声の生信号から音声の絶対レベルを判定するものである。具体的な方法としては、Ｓ２１の送信指示をトリガにして、数秒間などの一定期間の音声を周囲の撮影装置でほぼ同時に収集し、マイク入力された生信号の絶対レベルを測定するなどの方法が考えられる。同じ会場内において音声の絶対レベルを比較することで、主音源となる舞台からの音声を比較し主音源に近いか遠いかを判断することも可能である。また音声の周波数特性を考慮に入れることで、雑音の影響を受けにくい処理とすることも可能である。次にバッテリの状態は、バッテリの残量状態などを表すものである。撮影装置の振動状態とは、例えば手ブレ補正機能などを搭載した撮影装置では、ジャイロなどの振動計を搭載していることが多い。

そのようなセンサにより撮影装置の振動状態を測定する。その結果から振動が極端に小さい場合には三脚に固定されている可能性があるなどの判断も可能である。また振動が大きい場合には移動中である可能性も高い。次のステップＳ２２では、上記のような状態情報を、状態受信手段を有するシステム制御部４にて、周囲の撮影装置から受信する。ステップＳ２３では、上記の状態情報を元に同時に音声を収集する撮影装置の選択を行うステップである。ここでは後に複数の音声を合成することを想定し、状態に応じて必要な台数分の撮影装置を選択することになる。カメラ選択手段を有するシステム制御部４にて実行されるが、詳細は後述する。

ステップＳ２４では、収音指示手段を有するシステム制御部４が、ステップＳ２３で選択した撮影装置に対して通信部６を通じて音声の収集を指示する。ステップＳ２５で動画撮影を開始する。ここまでで、動画の撮影において、複数の所要の台数の音声を同時に収集しながら、動画の撮影ができていることになる。ステップ２６で撮影を終了すると、Ｓ２４で収音を指示した撮影装置に対して、撮影の終了を通知する。次のステップＳ２７では、収音を指示した撮影装置から音声データ受信手段を有するシステム制御部４にて、記録された音声データを受信する。撮影装置によっては、まだ撮影中であるなど処理の負荷が高いと音声データを送信できないタイミングであることもありうる。

その場合には、負荷が低減し処理が再開できる状態まで待ってから音声データを送信することも可能である。ステップＳ２４で収音を指示した撮影装置からの音声データの受信をすべて完了するとステップＳ２８へ進む。ステップＳ２８では、収集した複数の音声データの遅延量などを適切に処理した上で合成を行いカメラ１で撮影した映像と合わせて動画とする。ステップＳ２８は、音声合成手段を有するシステム制御部４にて実行されるが、詳細な処理は後述する。

図４、５を用いて撮影装置の選択のフローチャートの詳細を説明する。ステップＳ４１では、音声を合成するに当たって必要な撮影装置の台数を決定する。比較的雑音の少ない場所での撮影であれば、処理負荷を低減するために少ない台数とすることもありうる。また雑音が多い場合や、主音源から遠く離れていて十分な音声入力レベルが確保できない場合には台数を増やして、より音質の向上を狙うことも可能である。次にステップＳ４２からは具体的に撮影装置の選択を行う。Ｓ４２では、図２のステップＳ２２で受信した状態情報を元に撮影装置の選択を行うが、まず既に動画撮影を開始している条件で撮影装置を選ぶ。

さらに追加条件として音声入力レベルが高い撮影装置があれば、それらを選択することとする。Ｓ４２では上記２つの条件を元に撮影装置を選択する。これは既に撮影中の撮影装置であれば、同時に音声を取得中であることを意味するので、改めて収音の動作を追加する必要がないため選択しやすいという点が挙げられる。また、ここでいう音声入力レベルの高低に関しては、レベルの絶対値を評価して、所定値以上とすることも可能であるし、自分の入力レベルに対する相対的に高い撮影装置とすることも可能である。いずれにしても音声入力レベルが高いということはより主音源の音声を高音質で捉える可能性高まると考えられる。

図５では、撮影のために各カメラはステージ５１方向へ向いているはずであるが、カメラであることを明示するために、便宜上ステージとは反対を向いて描いている。図５において、自分の撮影装置がカメラ１であるとすると、撮影装置５２は、ステージ５１に近いところに位置している。このような場合には、撮影装置５２の方がカメラ１よりステージ５１からの主音声を収集しやすいと考えられる。

つまり音声入力レベルが高くなる可能性が高い。ステップＳ４３では、ステップＳ４２までで必要な撮影装置の台数を確保できたかどうかを判定する。十分な台数が確保できていれば、撮影装置の選択のフローチャートは終了する。逆に台数が確保できていなければ、次のステップＳ４４へ進む。ステップＳ４４では、最初に音声入力レベルが高いことを条件に撮影装置を選ぶ、さらなる追加条件として、バッテリの残量が十分に残っていることと振動が少ないことを条件としている。ステップＳ４４の条件としては、音声入力レベルが十分に高いが、現在は動画撮影をしていない撮影装置が対象となる。したがって、収音を指示するにあたっては、追加の動作となるためバッテリの残量が十分である必要がある。また、振動レベルが小さいと三脚に固定されており、撮影の準備が済んでいる可能性が高い。

図５において、撮影装置５３にように三脚に固定されていると、安定して音声を収集することが期待できる。ステップＳ４５では、ステップＳ４４までで必要な撮影装置の台数を確保できたかどうかを判定する。十分な台数が確保できていれば、撮影装置の選択のフローチャートは終了する。逆に台数が確保できていなければ、次のステップＳ４６へ進む。ステップＳ４６では、既に動画撮影中であることを条件に撮影装置を選択する。改めて収音の動作を追加する必要がないため選択しやすいというものである。ステップＳ４７では、ステップＳ４６までで必要な撮影装置の台数を確保できたかどうかを判定する。十分な台数が確保できていれば、撮影装置の選択のフローチャートは終了する。

逆に台数が確保できていなければ、次のステップＳ４８へ進む。ステップＳ４８では、バッテリの残量が十分に残っていることと振動が少ないことを条件として撮影装置を選択する。本実施例においては、ステップＳ４８までで十分な撮影装置の台数が選択できてなかった場合でも撮影装置の選択を終了する。その他の変形例として、音声入力レベル、バッテリ残量、振動量などを複数のレベルで判定しさまざまなステップを設けることも可能である。撮影装置の選択に際しては、音声を合成するにあたり、音質の改善に有利な条件の撮影装置を選択することを主旨としている。その主旨に沿っていれば、具体的な選択条件は様々な設定が可能である。

次に図６、７を用いて、音声の合成をする処理の詳細について説明する。図６には、音声データの流れが示してある。各音声データ６１−０〜ｎは、遅延器６２−０〜ｎを通過した後に、加算器６３−１〜ｎですべての音声が加算されて最終的な合成音声６６として出力される。ここで、６１−０はマイク２で収集した音声データであり、６１−１〜ｎは、他端末から受信した音声データである。上記合成処理と同時に各音声データは相関計算器６４−１〜ｎに入力される。

図７には、音声データの相関計算処理の一例を示す。図７（ａ）は処理前の状態を示している。７１がマイク２により収集した音声データであり、７２ａは他端末で収集した音声データである。処理前の状態では、音声の発生タイミングがΔＴだけ異なっていることが分かる。音声データ７１を基準として、音声データ７２を少しずつ時間方向にずらして両者の相関計算を行う。その結果、もっとも相関が高まった状態が図７（ｂ）で示した状態となる。音声データ７２ｂは、音声データ７２ａをΔＴだけずらした状態である。このことから、相関計算器６４から遅延量ΔＴが出力されることとなる。同様に音声データ６１−１〜ｎを処理することで、すべての音声データの遅延量を求めることができ、各音声データごとの遅延量を遅延量調整器６５へ入力する。

遅延量調整器６５は、各遅延器６２−０〜ｎに対して、遅延量の調整を行う。一連の処理を繰り返し行うことで、各音声データ間でお互いの相関が高まるように遅延量が調整された音声データ同志を合成することができる。合成音声６６は、異なる場所で収音された音声データを合成しているため、単一のマイクに入力される雑音の影響などを低減することが可能である。

以上のように、本実施例においては、自分自身のマイクによる音声のみならず、他のカメラの音声を遅延調整して合成することで、周囲の雑音の影響等を低減し、より高音質な音声信号を得ることが可能である。また他のカメラの状態に応じて音声の合成に使用するカメラを選択することで、より音質が高く、安定した音声データを得ることが可能となった。

［実施例２］
図８、９を用いて、本発明の第２の実施例による音声処理装置について説明する。撮影装置の構成については、第１の実施例と同様なので説明を割愛する。

図８は、撮影状況を表す図である。８１は各撮影装置と通信可能なネットワークを示す。撮影装置１は、通信８３のように双方向に通信を行うことができる。端末８２は、自宅のパーソナルコンピュータなどのネットワーク８１と通信可能な端末であり、ネットワーク８１から撮影した動画や合成した音声などを通信することができる。

図９は第２の実施例におけるフローチャートを示している。ここでは第１の実施例におけるフローチャートである図２と重複する部分が多いので、図２と動作が異なる部分だけを説明する。ステップＳ９１では、ネットワーク８１が各撮影装置に対して、状態情報の送信を指示するステップである。ここでいる各撮影装置とは、同じ会場などで撮影しようとしており、同様の音声を収集できる環境にある撮影装置を指している。予め登録しておいた撮影装置としてもよいし、ＧＰＳ情報などを用いて対象となる撮影装置を決定することも可能である。次にステップＳ９２では、ネットワーク８１が各撮影装置から状態情報を受信する。

ステップＳ９３では、上記の受信した状態情報を元に同時に音声を収集する撮影装置をネットワーク８１が選択するステップである。撮影装置の選択の詳細に関しては、図４と同様であるので説明を割愛する。ステップＳ９４では、撮影装置の選択で選ばれた撮影装置に対して、ネットワーク８１が収音の指示を行う。ここまでで撮影の準備が完了している。次のステップＳ２５、Ｓ２６はカメラ１の動作で第１の実施例と同様であるので説明を割愛する。ステップＳ９７においては、ステップＳ９４へ収音を指示した撮影装置から、ネットワーク８１が音声データを受信するステップである。ステップＳ９８では、受信した各音声データを合成するステップである。処理はネットワーク８１上で行われるが、処理内容は第１の実施例と同様であるので説明を割愛する。

以上のように、ネットワーク上で集中処理することにより、各撮影装置は音声合成などの特殊な処理を行う必要がなく、安価な構成で、高音質な音声を得ることが可能となった。

１・・・カメラ
２・・・マイク
４・・・システム制御部
５・・・撮像部
６・・・通信部
８１・・・ネットワーク

Claims

映像を取得する撮像手段、
音声を取得する音声入力手段、
他のカメラの状態を受信する状態受信手段、
前記状態に基づいて１つ以上のカメラを選択するカメラ選択手段、
前記カメラ選択手段により選択したカメラから音声データを受信する音声データ受信手段、
前記１つ以上の音声データと自ら取得した音声データ間で遅延量を調整して合成する音声合成手段
とで構成される音声処理装置。
前記カメラ選択手段により選択したカメラに対して収音を指示する収音指示手段を有することを特徴とする請求項１に記載の音声処理装置。
前記１つ以上の音声データと自ら取得した音声データ間の相関値に基づいて遅延量を算出することを特徴とする請求項１に記載の音声処理装置。
前記他のカメラの状態として、撮影中かどうかを含むことを特徴とする請求項１に記載の音声処理装置。
前記他のカメラの状態として、入力音声のレベルを含むことを特徴とする請求項１に記載の音声処理装置。
前記他のカメラの状態として、バッテリーの残量を含むことを特徴とする請求項１に記載の音声処理装置。
前記他のカメラの状態として、カメラの振動状態を含むことを特徴とする請求項１に記載の音声処理装置。
前記収音指示手段により収音を指示されたカメラは、映像の取得を終了しても、音声の取得は継続することを特徴とする請求項２に記載の音声処理装置。
前記収音指示手段により収音を指示されたカメラは、指示されたことをユーザに対して表示する表示手段を有することを特徴とする請求項２に記載の音声処理装置。
前記カメラ選択手段をネットワーク上に有することを特徴とする音声処理装置。
前記音声合成手段をネットワーク上に有することを特徴とする音声処理装置。