JP2018074219A

JP2018074219A - 音声処理装置

Info

Publication number: JP2018074219A
Application number: JP2016208232A
Authority: JP
Inventors: 友仁井上; Tomohito Inoue
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-10-25
Filing date: 2016-10-25
Publication date: 2018-05-10

Abstract

【課題】
被写体の持つ音響的な特性や被写体の配置等によって、どのような撮影環境でどのような指向性に設定すればいいのかわかりにくい。
【解決手段】
複数の音声信号を入力する音声入力手段と、指向性生成手段と、複数の音声信号の相関を検出する相関検出手段と、音声信号のレベルを検出するレベル検出手段と、入力される複数の音声信号の相関とレベルに応じて、前記指向性生成手段で設定する指向性の推奨度を算出する算出手段とを有する。
【選択図】図２

Description

本発明は音声処理装置に関する。

従来、音声信号を処理する装置として、画像信号を記録すると共に音声信号を記録する撮像装置が知られている。これら撮像装置では、小さな筐体に配置されたマイクでも、記録する音声信号のステレオ感を向上させるために、ステレオ感強調する機能を備えるものがある。また被写体である音源や、ユーザの好みに応じて、ステレオ感強調（指向性）の設定を切り替えられるものも存在する（特許文献１）。

特開２０１４−７２６６１号公報

しかしながら、全てのユーザが音について詳しい知識を持っているわけではないため、被写体の持つ音響的な特性や被写体の配置等によって、どのような撮影環境でどのような指向性に設定すればいいのかわかりにくいという課題があった。

そこで、本発明は各種の指向性設定に対してガイドを表示することで、ユーザがどのような指向性設定にすればいいかわかりやすくすることができる音声信号処理装置を提供することを目的とする。

複数の音声信号を入力する音声入力手段と、指向性生成手段と、複数の音声信号の相関を検出する相関検出手段と、音声信号のレベルを検出するレベル検出手段と、入力される複数の音声信号の相関とレベルに応じて、前記指向性生成手段で設定する指向性の推奨度を算出する算出手段とを有する。

本発明によれば、撮影環境に適した指向性切り替えの設定を知ることができる。

撮像装置のブロック図である。音声処理部のブロック図である。音声処理部の周波数特性を示す図である。音声処理部における指向性の推奨値について説明する図である。音声処理部における指向性の推奨値について説明する図である。

音声信号を処理、録音することができる撮像装置について説明する。図１は、実施例１の撮像装置１００の構成を示すブロック図である。

図１において、撮像部１０１は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。音声入力部１０２は、内蔵または音声端子を介して接続された複数のマイクにより、撮像装置１００の周辺の音声を集音し、アナログデジタル変換、音声処理などを行い音声データを生成する。音声処理部１０３は、音声入力部１０２により得られた音声データに対し、音声信号処理を行う。

メモリ１０４は、撮像部１０１により得られた画像データや、音声処理部１０４で処理された音声データを一時的に記憶する。表示制御部１０５は、撮像部１０１により得られた画像データに係る映像や、撮像装置１００の操作画面、メニュー画面等を表示部１０６や、不図示の映像端子を介して外部のディスプレイに表示させる。符号化処理部１０７は、メモリ１０４に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。

記録再生部１０８は、記録媒体１０９に対して、符号化処理部１０７で生成された圧縮画像データ、圧縮音声データ等を記録したり、記録媒体１０９に記録された圧縮画像データ、圧縮音声データ、各種データ、プログラムを読み出す。ここで、記録媒体１０９は、圧縮画像データ、圧縮音声データ、等を記録することができれば、磁気ディスク、光学式ディスク、半導体メモリなどのあらゆる方式の記録媒体を含む。

制御部１１０は、撮像装置１００の各ブロックに制御信号を送信することで撮像装置１００の各ブロックを制御することができ、各種制御を実行するためのＣＰＵやメモリなどからなる。操作部１１１は、ボタンやダイヤルなどからなり、ユーザの操作に応じて、指示信号を制御部１１０に送信する。音声出力部１１２は、記録再生部１０８により再生された圧縮音声データや、制御部１１０により出力される音声データをスピーカ１１３や音声端子などに出力する。

外部出力部１１４は、記録再生部１０８により再生された圧縮映像データや圧縮音声データなどを外部機器に出力する。データバス１１５は、音声データや画像データ等の各種データ、各種制御信号を撮像装置１００の各ブロックに供給する。ここで、本実施例の撮像装置１００の通常の動作について説明する。本実施例の撮像装置１００は、ユーザが操作部１１１を操作して電源を投入する指示が出されたことに応じて、付図示の電源供給部から、撮像装置の各ブロックに電源を供給する。

電源が供給されると、制御部１１０は、例えば、操作部１１１のモード切り換えスイッチが、例えば、撮影モード、再生モード等のどのモードであるかを操作部１１１からの指示信号により確認する。動画記録モードでは、撮像部１０１により得られた画像データと音声入力部１０２により得られた音声データとを１つのファイルとして保存することができる。再生モードでは、記録媒体１０９に記録された圧縮画像データを記録再生部１０８により再生して表示部１０６に表示させることができる。

動画記録モードでは、まず、制御部１１０は、撮影待機状態に移行させるように制御信号を撮像装置１００の各ブロックに送信し、以下のような動作をさせる。撮像部１０１は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。そして、得られた画像データを表示処理部１０５に送信し、表示部１０６に表示させる。ユーザはこの様にして表示された画面を見ながら撮影の準備を行う。

音声入力部１０２は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、複数のデジタル音声信号を生成する。音声処理部１０３は得られたデジタル音声信号に対して、任意の信号処理を施し、マルチチャンネルの音声データを生成する。そして、得られた音声データを音声出力部１１２に送信し、接続されたスピーカ１１３や不図示のイヤホンから音声として出力させる。ユーザは、この様にして出力された音声を聞きながら記録音量を決定するためのマニュアルボリュームの調整をすることもできる。

次に、ユーザが操作部１１１の記録ボタンを操作することにより撮影開始の指示信号が制御部１１０に送信されると、制御部１１０は、撮像装置１００の各ブロックに撮影開始の指示信号を送信し、以下のような動作をさせる。撮像部１０１は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。そして、得られた画像データを表示処理部１０５に送信し、表示部１０６に表示させる。また、得られた画像データをメモリ１０４送信する。

音声入力部１０２は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、複数のデジタル音声信号を得る。音声処理部１０３は得られたデジタル音声信号に対して、任意の信号処理を施し、マルチチャンネルの音声データを生成する。そして、得られた音声データをメモリ１０４に送信する。

符号化処理部１０７は、メモリ１０４に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。そして、制御部１１０は、これらの圧縮画像データ、圧縮音声データを合成し、データストリームを形成し、記録再生部１０８に出力する。記録再生部１０８は、ＵＤＦ、ＦＡＴ等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体１０９に書き込んでいく。

以上の動作を撮影中は継続する。そして、ユーザが操作部１１１の記録ボタンを操作することにより撮影終了の指示信号が制御部１１０に送信されると、制御部１１０は、撮像装置１００の各ブロックに撮影終了の指示信号を送信し、以下のような動作をさせる。撮像部１０１、音声入力部１０２は、それぞれ画像データ、音声データの生成を停止する。符号化処理部１０７は、メモリに記憶されている残りの画像データと音声データとを読出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成し終えたら動作を停止する。

そして、制御部１１０は、これらの最後の圧縮画像データ、圧縮音声データを合成し、データストリームを形成し、記録再生部１０８に出力する。記録再生部１０８は、ＵＤＦ、ＦＡＴ等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体１０８に書き込んでいく。そして、データストリームの供給が停止したら、動画ファイルを完成させて、記録動作を停止させる。制御部１１０は、記録動作が停止すると、撮影待機状態に移行させるように制御信号を撮像装置１００の各ブロックに送信して、撮影待機状態に戻る。

次に、再生モードでは、制御部１１０は、再生状態に移行させるように制御信号を撮像装置１００の各ブロックに送信し、以下のような動作をさせる。記録媒体１０９に記録された圧縮画像データと圧縮音声データとからなる動画ファイルを記録再生部１０８が読出して、読出された圧縮画像データ、圧縮音声データは、符号化処理部１０７に送る。

符号化処理部１０７は、圧縮画像データ、圧縮音声データを復号してそれぞれ、表示制御部１０５、音声処理部１０３に送信する。音声処理部１０３は得られたデジタル音声信号に対して、任意の信号処理を施し、得られた音声データを音声出力部１１２に送信する。表示制御部１０５は、復号された画像データを表示部１０６に表示させる。音声出力部１１２は、復号された音声データを内蔵または、取付けられた外部スピーカから出力させる。

本実施例の撮像装置は以上のように、画像、音声の記録再生を行うことができる。
ところで、本実施例の音声処理部１０３は、マイクにより得られた複数のアナログ音声信号に対応する複数のデジタル音声信号に対して、指向性を切り替える処理を実行している。以下に、図２を用いて本実施例における指向性切り替えの処理について説明する。

図２は、図１の音声処理部１０３の詳細な機能を示すブロック図である。まず、入力された音声信号から、ステレオ信号生成部２０１でステレオ感が強調されたステレオ信号と、モノラル信号生成部２０２でステレオ感のないモノラル信号を生成する。ステレオ信号生成部２０１は、入力された音声信号をＬＰＦに通すことで位相を変化させ、反対のチャンネルの信号から減算し、さらにそれによる周波数特性の変化をＥＱで補正することで、ステレオ感が増幅された音声信号を生成する。

例えば１ｋＨｚ近傍ののステレオ感を強調するために、ＬＰＦを１０００Ｈｚに設定した場合（図３-３０１）、反対のチャンネルから減算すると、１０００Ｈｚ以下が減衰した周波数特性となる（図３-３０２）。それを補正するために図３-３０３のような高域がブーストされたＬＰＦをかける。ＥＱは低域のカットオフが１００Ｈｚ、高域のカットオフを１２００Ｈｚに設定することで、出力の周波数特性が４００Ｈｚ以上の帯域がフラットになるように補正される（図３-３０４）。モノラル信号生成部２０２は、ＬＲ２チャンネルの信号を加算し、デジタルフィルタで周波数特性を補正することで、モノラル信号を生成する。

ステレオ信号生成部２０１で生成されたステレオ信号と、モノラル信号生成部２０２で生成されたモノラル信号は、指向性切り替え部２０３に入力される。指向性切り替え部２０３では、設定される指向性に応じてミックスゲイン２０４〜２０６が変化する。設定される指向性が、最もステレオ感が強い「ワイド」、ＬＲが同じモノラル信号の「モノラル」、両者の中間である「ノーマル」と設定が変更される場合、「ワイド」が設定されると、ミックスゲイン２０４/２０５が最大、ミックスゲイン２０６が最小に設定され、「モノラル」が設定されると、ミックスゲイン２０４/２０５が最小、ミックスゲイン２０６が最大に設定され、「ノーマル」が設定されると、ミックスゲイン２０４/２０５とミックスゲイン２０６が１：１に設定される。

これらの処理により、指向性の切り替えが実現される。次に、入力される複数の音声信号の相関とレベルに応じて、指向性生成手段で設定する指向性の推奨度を算出する方法について説明する。ステレオ信号生成部２０１で生成されたステレオ音声信号は、ＬＲの相関を検出するため、相関検出部２０７に入力され、ＬＰＦで高周波成分をカットし、和成分と差成分を生成される。ＬＰＦのカットオフは、マイク間隔やマイク個体差のばらつきから、ステレオ信号生成部２０１で設定しているのと同じ１２００Ｈｚとする。

相関検出部２０７で検出されるＬＲ相関は、和成分と差成分の比から算出され、差成分が大きくなるとＬＲ相関が小さくなり、ステレオ感は大きくなる。逆に差成分が小さくなるとＬＲ相関が大きくなり、ステレオ感は小さくなる（モノラルに聴こえる）。ＬＲのステレオ信号であるレベル差が付くような和成分と差成分の比を１で、レベル差が付かなくなるような比を０で正規化したものをＬＲ相関とし、１よりも差成分の比率が大きくなった場合には１で、０よりも差成分の比率が小さくなった場合には０でリミットする。

ＬＲ相関が大きいほど信号はモノラルに近くなるため、指向性の設定をワイドにしても効果がないため、推奨度はモノラル＞ノーマル＞ワイドの順に大きくなり、ＬＲ相関が小さいほど信号はステレオ感を感じられ、指向性をワイドに設定することで臨場感を得ることができるため、推奨度はワイド＞ノーマル＞モノラルの順に大きくなることが望ましい。それぞれの指向性の推奨度を１で正規化した値は、以下の式で算出される。グラフを図４に示す。

モノラル推奨度＝ＬＲ相関
ワイド推奨度＝ −ＬＲ相関＋１
ノーマル推奨度（ＬＲ相関＜０．５）＝ＬＲ相関＋０．５
ノーマル推奨度（ＬＲ相関＞０．５）＝ −２ × ＬＲ相関＋２

ここで算出された推奨度は、撮像装置の指向性切り替え設定画面で、表示部１０６に表示される。図５に本実施例での各指向性の推奨度の表示を示す。メータ形式のインジケータとなっており、推奨度が高いほどメータが大きく振れる。ここで、表示部１０６の更新周期は映像の垂直同期信号周波数の周期であり、１６．６ｍｓ/２０ｍｓといった周期で更新が行われるが、その頻度で推奨度の更新が行われてもユーザが指向性の設定をしにくい可能性があるため、ＬＲ相関を映像の垂直同期信号周波数の周期よりも十分に長い期間積分し、その情報を元に各指向性の推奨度を算出するようにしてもよい。

また、指向性をワイドに設定すると、低域の減衰をＥＱで補正するため、低域のＳＮが低下し、具体的には低域のノイズが増加する。指向性をワイドに設定するメリットは、音声信号のステレオ感を増加させ、臨場感を向上させることであるが、信号のレベルが低い場合には、その効果は減少する。

つまり、信号レベルが低い場合には、ノイズが増加し臨場感の向上も減少してしまうため、ＬＲ相関が小さくても指向性はモノラル寄りに設定した方が音質の向上に寄与する。これらの特性を踏まえ、レベル検出部２０８で検出される、信号レベルがある閾値を下回った場合には、モノラルの推奨度を大きくし、ノーマルとワイドの推奨度を小さくする。それぞれの指向性の推奨度を１で正規化した値は、以下の式で算出される。グラフを図５に示す。

モノラル推奨度＝１
ワイド推奨度＝０
ノーマル推奨度（ＬＲ相関＜０．５）＝０．５ × ＬＲ相関
ノーマル推奨度（ＬＲ相関＞０．５）＝ −０．５ × ＬＲ相関＋０．５

これらの制御を追加することにより、ユーザはより撮影環境に適した指向性設定を選択することが可能となる。

１００撮像装置
１０１撮像部
１０２音声入力部
１０３音声処理部
１０４メモリ
１０５表示制御部

Claims

複数の音声信号を入力する音声入力手段と、
指向性生成手段と、
複数の音声信号の相関を検出する相関検出手段と、
音声信号のレベルを検出するレベル検出手段と、
入力される複数の音声信号の相関とレベルに応じて、前記指向性生成手段で設定する指向性の推奨度を算出する算出手段とを有することを特徴とする音声処理装置。
前記算出手段は、前記相関検出手段における信号の相関が大きいときには、前記指向性生成手段で設定する指向性の広い設定の推奨度を小さくし、前記指向性生成手段で設定する指向性の狭い設定の推奨度を大きくすることを特徴とする請求項１に記載の音声処理装置。
前記算出手段は、前記相関検出手段における信号の相関が小さいときには、前記指向性生成手段で設定する指向性の広い設定の推奨度を大きくし、前記指向性生成手段で設定する指向性の狭い設定の推奨度を小さくすることを特徴とする請求項１に記載の音声処理装置。
前記レベル検出手段における音声信号のレベルが小さいときには、前記指向性生成手段で設定する指向性の広い設定の推奨度を小さくし、前記指向性生成手段で設定する指向性の狭い設定の推奨度を大きくすることを特徴とする請求項１乃至３のいずれか１項に記載の音声処理装置。
画像を表示する表示装置を備え、
前記指向性生成手段で設定する指向性の推奨度を表示する表示の更新周期を、前記表示装置自体の画像の更新周期よりも十分に長くすることを特徴とする請求項１乃至４のいずれか１項に記載の音声処理装置。