JP2019161333A

JP2019161333A - 音声処理装置

Info

Publication number: JP2019161333A
Application number: JP2018042481A
Authority: JP
Inventors: 友仁井上; Tomohito Inoue
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2019-09-19

Abstract

【課題】過大な音声信号が入力された際の、入力信号の抑揚とは異なる音量の変化を抑制する、音声処理装置を提供する。【解決手段】音声入力手段からの音声信号を遅延させる遅延手段２０１と、遅延させられた音声信号を増幅する増幅手段２０４と、音声信号のレベルを検出するレベル検出手段２０２と、レベル検出手段のレベル検出結果によって、増幅手段の増幅度を制御する増幅制御手段２０３を備える。増幅制御手段は、レベル検出手段のレベル検出結果に、増幅手段の増幅度をかけたレベルが、第一の閾値を超えた場合、増幅手段の増幅度を下げ、レベル検出手段のレベル検出結果に、増幅手段の増幅度をかけたレベルが第一の閾値よりも低い第二の閾値を下回った場合、増幅手段の増幅度を上げる。増幅制御手段は、レベル検出手段のレベル検出結果に、増幅手段の増幅度をかけたレベルによって、増幅手段の増幅度を上げる時定数を変化させる。【選択図】図２

Description

本発明は、音声処理装置に関する。

従来、音声信号を処理する装置として、画像信号を記録すると共に音声信号を記録する撮像装置が知られている。これら撮像装置では、マイクから入力された音声信号に対して所定のゲインをかけて記録しつつ、過大な音声信号が入力された場合に備え、記録レベルを制限するリミッタを備えるものがある。リミッタは前記所定のゲインを下げて信号振幅を小さくすることで記録レベルを制限し、入力信号が小さくなると、再びゲインを戻して記録レベルを戻す処理を行う（特許文献１）。

特開２００９−１７７２３２号公報

しかしながら従来のリミッタでは、ゲインを上下させる際に、入力信号の抑揚とは異なる音量の変化が発生し、それが耳についてしまうという課題があった。

そこで、本発明は過大な音声信号が入力された際にも記録レベルを制限しながら、音量の変化を耳につきにくくする音声処理装置を提供することを目的とする。

本発明の音声信号処理装置は、かかる目的を達成するために、音声入力手段と、音声入力手段からの音声信号を遅延させる遅延手段と、遅延手段で遅延させられた音声信号を増幅する増幅手段と、音声入力手段からの音声信号のレベルを検出するレベル検出手段と、前記レベル検出手段のレベル検出結果によって、前記増幅手段の増幅度を制御する増幅制御手段を備え、
前記増幅制御手段は、前記レベル検出手段のレベル検出結果に、前記増幅手段の増幅度をかけたレベルが、第一の閾値を超えた場合、前記増幅手段の増幅度を下げ、前記レベル検出手段のレベル検出結果に、前記増幅手段の増幅度をかけたレベルが前記第一の閾値よりも低い第二の閾値を下回った場合、前記増幅手段の増幅度を上げる。
前記増幅制御手段は、前記レベル検出手段のレベル検出結果に、前記増幅手段の増幅度をかけたレベルによって、前記増幅手段の増幅度を上げる時定数を変化させることを特徴とする。

本発明によれば、過大な音声信号が入力された際にも記録レベルを制限しながら、音量の変化を耳につきにくくすることができる。

実施例１の撮像装置のブロック図である。実施例１の音声処理部のブロック図である。本発明を説明するフローチャート本発明の主力レベルとリカバリウェイト時間の関係を示す説明図本発明のリカバリウェイト時間を適用した波形の説明図

音声信号を処理、録音することができる撮像装置について説明する。図１は、実施例１の撮像装置１００の構成を示すブロック図である。図１において、撮像部１０１は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。音声入力部１０２は、内蔵または音声端子を介して接続された複数のマイクにより、撮像装置１００の周辺の音声を集音し、アナログデジタル変換、音声処理などを行い音声データを生成する。

音声処理部１０３は、音声入力部１０２により得られた音声データに対し、音声信号処理を行う。メモリ１０４は、撮像部１０１により得られた画像データや、音声処理部１０４で処理された音声データを一時的に記憶する。表示制御部１０５は、撮像部１０１により得られた画像データに係る映像や、撮像装置１００の操作画面、メニュー画面等を表示部１０６や、不図示の映像端子を介して外部のディスプレイに表示させる。符号化処理部１０７は、メモリ１０４に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。

記録再生部１０８は、記録媒体１０９に対して、符号化処理部１０７で生成された圧縮画像データ、圧縮音声データ等を記録したり、記録媒体１０９に記録された圧縮画像データ、圧縮音声データ、各種データ、プログラムを読み出す。ここで、記録媒体１０９は、圧縮画像データ、圧縮音声データ、等を記録することができれば、磁気ディスク、光学式ディスク、半導体メモリなどのあらゆる方式の記録媒体を含む。

制御部１１０は、撮像装置１００の各ブロックに制御信号を送信することで撮像装置１００の各ブロックを制御することができ、各種制御を実行するためのＣＰＵやメモリなどからなる。操作部１１１は、ボタンやダイヤルなどからなり、ユーザの操作に応じて、指示信号を制御部１１０に送信する。音声出力部１１２は、記録再生部１０８により再生された圧縮音声データや、制御部１１０により出力される音声データをスピーカ１１３や音声端子などに出力する。外部出力部１１４は、記録再生部１０８により再生された圧縮映像データや圧縮音声データなどを外部機器に出力する。データバス１１５は、音声データや画像データ等の各種データ、各種制御信号を撮像装置１００の各ブロックに供給する。

ここで、本実施例の撮像装置１００の通常の動作について説明する。本実施例の撮像装置１００は、ユーザが操作部１１１を操作して電源を投入する指示が出されたことに応じて、付図示の電源供給部から、撮像装置の各ブロックに電源を供給する。

電源が供給されると、制御部１１０は、例えば、操作部１１１のモード切り換えスイッチが、例えば、撮影モード、再生モード等のどのモードであるかを操作部１１１からの指示信号により確認する。動画記録モードでは、撮像部１０１により得られた画像データと音声入力部１０２により得られた音声データとを１つのファイルとして保存することができる。再生モードでは、記録媒体１０９に記録された圧縮画像データを記録再生部１０８により再生して表示部１０６に表示させることができる。

動画記録モードでは、まず、制御部１１０は、撮影待機状態に移行させるように制御信号を撮像装置１００の各ブロックに送信し、以下のような動作をさせる。撮像部１０１は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。そして、得られた画像データを表示処理部１０５に送信し、表示部１０６に表示させる。ユーザはこの様にして表示された画面を見ながら撮影の準備を行う。

音声入力部１０２は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、複数のデジタル音声信号を生成する。音声処理部１０３は得られたデジタル音声信号に対して、任意の信号処理を施し、マルチチャンネルの音声データを生成する。そして、得られた音声データを音声出力部１１２に送信し、接続されたスピーカ１１３や不図示のイヤホンから音声として出力させる。ユーザは、この様にして出力された音声を聞きながら記録音量を決定するためのマニュアルボリュームの調整をすることもできる。

次に、ユーザが操作部１１１の記録ボタンを操作することにより撮影開始の指示信号が制御部１１０に送信されると、制御部１１０は、撮像装置１００の各ブロックに撮影開始の指示信号を送信し、以下のような動作をさせる。撮像部１０１は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。そして、得られた画像データを表示処理部１０５に送信し、表示部１０６に表示させる。また、得られた画像データをメモリ１０４送信する。

音声入力部１０２は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、複数のデジタル音声信号を得る。音声処理部１０３は得られたデジタル音声信号に対して、任意の信号処理を施し、マルチチャンネルの音声データを生成する。そして、得られた音声データをメモリ１０４に送信する。符号化処理部１０７は、メモリ１０４に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。

そして、制御部１１０は、これらの圧縮画像データ、圧縮音声データを合成し、データストリームを形成し、記録再生部１０８に出力する。記録再生部１０８は、ＵＤＦ、ＦＡＴ等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体１０９に書き込んでいく。以上の動作を撮影中は継続する。

そして、ユーザが操作部１１１の記録ボタンを操作することにより撮影終了の指示信号が制御部１１０に送信されると、制御部１１０は、撮像装置１００の各ブロックに撮影終了の指示信号を送信し、以下のような動作をさせる。撮像部１０１、音声入力部１０２は、それぞれ画像データ、音声データの生成を停止する。符号化処理部１０７は、メモリに記憶されている残りの画像データと音声データとを読出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成し終えたら動作を停止する。

そして、制御部１１０は、これらの最後の圧縮画像データ、圧縮音声データを合成し、データストリームを形成し、記録再生部１０８に出力する。記録再生部１０８は、ＵＤＦ、ＦＡＴ等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体１０８に書き込んでいく。そして、データストリームの供給が停止したら、動画ファイルを完成させて、記録動作を停止させる。制御部１１０は、記録動作が停止すると、撮影待機状態に移行させるように制御信号を撮像装置１００の各ブロックに送信して、撮影待機状態に戻る。

次に、再生モードでは、制御部１１０は、再生状態に移行させるように制御信号を撮像装置１００の各ブロックに送信し、以下のような動作をさせる。記録媒体１０９に記録された圧縮画像データと圧縮音声データとからなる動画ファイルを記録再生部１０８が読出して、読出された圧縮画像データ、圧縮音声データは、符号化処理部１０７に送る。符号化処理部１０７は、圧縮画像データ、圧縮音声データを復号してそれぞれ、表示制御部１０５、音声処理部１０３に送信する。音声処理部１０３は得られたデジタル音声信号に対して、任意の信号処理を施し、得られた音声データを音声出力部１１２に送信する。

表示制御部１０５は、復号された画像データを表示部１０６に表示させる。音声出力部１１２は、復号された音声データを内蔵または、取付けられた外部スピーカから出力させる。

本実施例の撮像装置は以上のように、画像、音声の記録再生を行うことができる。

ところで、本実施例の音声処理部１０３で行われる信号処理について、図２を用いて説明する。図２は、本実施形態における音声処理部１０３の構成例を示す図である。遅延部２０１は、入力信号を遅延させるメモリである。レベル検波部２０２は、入力信号のレベルをエンベロープ検波する。ゲイン制御部２０３は、レベル検波部２０２で検波されたレベルに応じて、増幅部２０４のゲインを決定する。増幅部２０４は、遅延部２０１で遅延させられた音声信号に対して、ゲイン制御部２０３で決定されたゲインを印加する。

このような音声処理部において、入力信号に対して所定のゲインを印加しながら、過大入力時にはゲインを下げる動作について、図３のフローチャートを用いて説明する。入力信号が遅延部２０１で遅延させられ、増幅部２０４において、ゲイン制御部２０３で１サンプル前に決定されたゲインをかけて出力する（３０１）。次にレベル検波部２０２において、入力信号のレベルをエンベロープ検波する（３０２）。ゲイン制御部２０３で、レベル検波部２０２で検波された信号レベルに対して、現在のゲインをかけた出力レベルを算出し（３０３）、もし前記出力レベルがリミットスレッシュを超えると（３０４）、ゲインを１ステップ下げる（３０５）。

リミットスレッシュは、なるべく高い方がダイナミックレンジを有効に活用できるため、０dBFSから−１dBFSの間が、ゲインの１ステップは、ゲイン変更時のノイズが聴き取れないように、０．１dB以下が好適である。またもし前記出力レベルがリミットスレッシュ以下で、リカバリスレッシュ以上であった場合には何もしない（３０６）。リカバリスレッシュは高くしすぎるとゲインの上げ下げがハンチングを起こし、リミッタの動作が不安定になり、逆に低くしすぎるとゲインがなかなか上がらないことで、出力レベルが低くなってしまうため、−６dBFS程度が好適である。

またもし前記出力レベルがリカバリスレッシュ以下であった場合には、ゲインを上げる動作であるリカバリのウェイト時間とウェイト用タイマーを設定する（３０７）。ウェイト用タイマーがウェイト時間を超えた場合には（３０８）、ゲインを上げる（３０９）。リカバリのウェイト時間は、短ければ音量の変化を感じやすく、長ければ音量の変化を感じにくい。また同じ音量の変化でも、出力レベルが低い領域での変化よりも、出力レベルが高い領域での変化の方が耳に付きやすい。

そのためリカバリのウェイト時間は、前記出力レベルによって決定され、出力レベルが低いほど短く、逆に出力レベルが高いほど長く設定される。音量の変化が耳に付きにくい出力レベルが低い領域ではリカバリ時間を短くし、音量の変化が耳に付きやすい出力レベルが高い領域ではリカバリ時間を長くすることで、音量の変化を耳に付きにくくすることが可能となる。図４に主力レベルとリカバリウェイト時間の関係を示す。

出力レベルが−２４dBFS以下の場合は、１dBあたりのリカバリウェイトは６０ms、出力レベルが−２４dBFS以上−１２dBFS以下の場合は、１dBあたりのリカバリウェイトは９０ms、出力レベルが−１２dBFS以上の場合は、１dBあたりのリカバリウェイトは１８０msである。これらのリカバリウェイト時間を適用した波形を、図５に示す。上段が入力のエンベロープ波形、中断がゲイン、下段が出力波形であり、左側がリカバリウェイト時間を出力レベルに連動させた場合、右側がリカバリウェイト時間を固定にした場合の波形である。

リカバリウェイト時間を出力レベルに連動させた場合は、入力が大きくなり、出力レベルがリミットスレッシュを超えるt1からリミット動作を開始する。そして入力が小さくなり、出力レベルがリカバリスレッシュを下回るt2からリカバリ動作を開始する。t2からt3までは出力レベルが−２４dBFS以下のため、６０ms/dBで早くリカバリ動作を行い、t3からt4までは出力レベルが−２４dBFS以上−１２dBFS以下のため、９０ms/dBで、t4以降は出力レベルが−１２dBFS以上のため、１８０ms/dBでゆっくりとリカバリ動作を行う。

このような制御を行うことで、リカバリウェイト時間を固定にした場合に対して、音量の変化が耳に付きやすい、−１２dBFS以上の出力レベルが高い領域で、音量の変化を小さくすることが可能となる。

１００撮像装置
１０１撮像部
１０２音声入力部

Claims

音声入力手段と、音声入力手段からの音声信号を遅延させる遅延手段と、遅延手段で遅延させられた音声信号を増幅する増幅手段と、音声入力手段からの音声信号のレベルを検出するレベル検出手段と、前記レベル検出手段のレベル検出結果によって、前記増幅手段の増幅度を制御する増幅制御手段を備え、
前記増幅制御手段は、前記レベル検出手段のレベル検出結果に、前記増幅手段の増幅度をかけたレベルが、第一の閾値を超えた場合、前記増幅手段の増幅度を下げ、前記レベル検出手段のレベル検出結果に、前記増幅手段の増幅度をかけたレベルが前記第一の閾値よりも低い第二の閾値を下回った場合、前記増幅手段の増幅度を上げる。
前記増幅制御手段は、前記レベル検出手段のレベル検出結果に、前記増幅手段の増幅度をかけたレベルによって、前記増幅手段の増幅度を上げる時定数を変化させることを特徴とする、音声信号処理装置。
前記増幅制御手段は、前記レベル検出手段のレベル検出結果に、前記増幅手段の増幅度をかけたレベルが大きくなると、前記増幅手段の増幅度を上げる時定数を大きくし、前記レベル検出手段のレベル検出結果に、前記増幅手段の増幅度をかけたレベルが小さくなると、前記増幅手段の増幅度を上げる時定数を小さくさせることを特徴とする、請求項１に記載の音声信号処理装置。