JP6570577B2

JP6570577B2 - 音声処理装置、音声処理方法、およびプログラム

Info

Publication number: JP6570577B2
Application number: JP2017099659A
Authority: JP
Inventors: 博幸森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2019-09-04
Anticipated expiration: 2037-05-19
Also published as: JP2018196041A; US10306390B2; US20180338211A1

Description

本発明は、音声を処理する音声処理装置、音声処理方法、およびプログラムに関する。

従来、音声処理装置としてビデオカメラが知られている。ビデオカメラでは、入力音声のレベルが閾値を超えないようにゲインを制御（リミット動作）し、その後、入力音声のレベルが低くなった場合にゲインを大きくして（リカバリ動作）適切なレベルの音声を記録する機能を持つ。また、入力音声レベルが閾値を超えている期間が短い場合には、リカバリ動作においてゲインを素早く大きくすることにより、音声の揺らぎを低減することも行われる。なお、リカバリ動作に類似した技術として、特許文献１には、デジタル放送波の受信強度低下に応じてレベルが増加するノイズを音声信号に印加することで、突然の音声出力停止に対する聴取の違和感を軽減する技術が開示されている。

特開平９−１４８９５０号公報

ところで、コンサート会場など比較的静かな環境下において、ビデオカメラの近くで拍手音などが発生した場合、前述のリミット動作とリカバリ動作が比較的短い期間で繰り返されることになる。一方、入力音声には、マイクロフォンなどの集音装置の性能で決まるノイズが含まれている。そのため、前述のリミット動作とリカバリ動作が比較的短い期間で繰り返された場合、このノイズのレベルも同様に変動してしまう。特に、静かな環境で記録された音声の場合、そのノイズのレベル変動がユーザにとって非常にわかりやすくなり、違和感のあるものになってしまう。

そこで、本発明は、入力音声のレベルが短い期間で変化する場合でも、ノイズの変動を抑えて違和感が少ない音声を得られるようにすることを目的とする。

本発明の音声処理装置は、入力された音声信号のレベルを検出する検出手段と、ゲインに応じて、前記音声信号のレベルを制御するレベル制御手段と、前記検出されたレベルが閾値レベルを超えている場合には前記レベル制御手段から出力される音声信号のレベルが前記閾値レベル以下となるように前記ゲインを小さくするリミット動作を行い、前記リミット動作が行われている状態で前記レベルが前記閾値レベルを超えている状態でなくなった場合には前記ゲインを大きくするリカバリ動作を行うゲイン制御手段と、ノイズ信号を出力するノイズ生成手段と、前記レベル制御手段から出力された音声信号と前記ノイズ生成手段から出力されたノイズ信号とを合成する合成手段と、を有し、前記ゲイン制御手段は、前記リカバリ動作として、第１のリカバリモードと第２のリカバリモードとを有し、前記リミット動作の継続時間が閾値時間以上でない場合には前記第１のリカバリモードに設定し、直前の前記リミット動作の継続時間が閾値時間以上の場合には前記第２のリカバリモードに設定し、前記第２のリカバリモードでは前記第１のリカバリモードよりも長い時間をかけて前記ゲインを大きくし、前記第１のリカバリモードでは所定のレベルの前記ノイズ信号を出力させ、前記第２のリカバリモードでは前記レベル制御手段のゲインに応じたレベルの前記ノイズ信号を出力させるように、前記ノイズ生成手段を制御することを特徴とする。

本発明によれば、入力音声のレベルが短い期間で変化する場合でも、ノイズの変動を抑えて違和感が少ない音声を得ることができる。

実施形態の撮像装置の全体構成を示すブロック図である。第１の実施形態の音声処理部と音声入力部の構成を示すブロック図である。第１の実施形態における音声処理のフローチャートである。第２の実施形態の音声処理部と音声入力部の構成を示すブロック図である。第２の実施形態における音声処理のフローチャートである。

以下、図面を参照して本発明の好適な実施形態について説明する。
図１は、本実施形態の音声処理装置の一適用例としての撮像装置１００の全体構成を示すブロック図である。本実施形態の撮像装置１００は、動画や静止画を撮影および記録可能であるとともに、撮影時の音声の取得および記録も可能なビデオカメラであるとする。

撮像部１０１は、撮影レンズや撮像素子を有し、例えば動画撮影時において被写体等の光学像を光電変換してアナログ画像信号を取得し、さらにアナログデジタル変換によりデジタル画像信号に変換して画像処理部１０２に出力する。画像処理部１０２は、撮像部１０１から出力された画像信号に対して、公知の現像処理やホワイトバランス調整などの各種の処理を行ってバス１１３に出力する。

音声入力部１０３は、撮像装置１００に内蔵された後述する図２のマイクロフォン（以下、マイク２０１とする。）を有し、例えば動画撮影時には撮像装置１００の周辺の音声を取得して音声処理部１０４に出力する。また、音声入力部１０３は、外部音声入力端子を有し、外部音声入力端子を介して接続された外部マイク等から供給された音声信号を取得して、音声処理部１０４に出力することも可能となされている。音声処理部１０４は、音声入力部１０３から供給されたアナログ音声信号をデジタル音声信号に変換し、更に、指向性に関する処理やレベルの適正化処理、特定周波数の低減処理等の音声に関する処理を行ってバス１１３に出力する。

メモリ１０５は、画像処理部１０２から出力された画像信号、音声処理部１０４から出力された音声信号、或いは後述する符号化により生成された圧縮画像信号や圧縮音声信号などを一時的に記憶する。バス１１３は、画像信号、音声信号、圧縮画像信号、圧縮音声信号などの各種信号、制御信号などを、各部の間で転送する。このように本実施形態の場合、信号等の転送はバス１１３を介して行われるが、以下の説明ではその記載を省略することとする。

符号化復号化部１０６は、動画撮影時においてメモリ１０５に一時的に記憶された画像信号を読み出して符号化することで圧縮画像信号を生成し、同じく、メモリ１０５から音声信号を読み出して符号化することで圧縮音声信号を生成する。これら圧縮画像信号と圧縮音声信号は、記録再生部１０７に送られる。

記録再生部１０７は、動画撮像時において符号化復号化部１０６により生成された圧縮画像信号、圧縮音声信号、その他必要なデータを、記録媒体１０８に記録する。記録媒体１０８は、メモリカードなどのランダムアクセス可能な記録媒体である。なお、記録媒体１０８は、磁気ディスク、光学式ディスク、半導体メモリなどのあらゆる方式の記録媒体でもよく、単数だけでなく複数の記録媒体であってもよい。

また、記録再生部１０７は、動画再生時においては記録媒体１０８に記録されている圧縮画像信号、圧縮音声信号を読み出して、符号化復号化部１０６に送る。動画再生時の符号化復号化部１０６は、それら圧縮画像信号、圧縮音声信号を復号化する。そして、復号化された画像信号は表示制御部１０９に送られ、復号化された音声信号は音声処理部１０４に送られる。

表示制御部１０９は、動画撮影時において撮像部１０１にて撮像されて画像処理部１０２で処理された動画や、撮像装置１００の操作のために必要な各種の情報を、表示部１１０に表示する。表示部１１０は、液晶ディスプレイ、有機ＥＬディスプレイ、電子ペーパー等の表示デバイスを含む。また、表示制御部１０９は、動画再生時においては記録媒体１０８から再生されて復号化された動画などを表示部１１０に表示する。

また動画再生時において記録媒体１０８から再生されて復号化された音声信号は、音声処理部１０４に送られる。動画再生時の音声処理部１０４は、記録媒体１０８から再生されて復号化された音声信号を音声出力部１１４に出力する。音声出力部１１４は、音声処理部１０４から供給されたデジタル音声信号を、必要に応じてアナログ音声信号に変換し、外部の音声モニタなどに出力する。

操作部１１２は、ユーザからの操作に応じた指示信号を制御部１１１に送る。操作部１１２は、例えば、電源ボタン、記録開始／終了ボタン、再生ボタン、メニュー表示ボタン、決定ボタン、カーソルキー、モード切り替えスイッチ、ダイヤル、表示部１１０の任意の点を指定するためのポインティングデバイス、タッチパネル等を含む。

制御部１１１は、操作部１１２から送られてきた指示信号に基づいて、撮像装置１００の各部を制御する。制御部１１１は、各種処理を実行するための例えばＣＰＵ（ＭＰＵ）、メモリ（ＤＲＡＭ、ＳＲＡＭ、ＲＯＭ）などからなる。制御部１１１のＲＯＭには、ＣＰＵが実行する本実施形態に係る各種制御や処理のプログラム、各種の初期設定値等が記憶されている。

次に、撮像装置１００における通常の動作について説明する。
ユーザが操作部１１２の電源ボタンに対して電源オンの操作をすると、操作部１１２から制御部１１１に起動の指示が出される。この指示を受けて、制御部１１１は、不図示の電源供給部を制御して、撮像装置１００の各部に対して電源を供給させる。そして、電源が供給されると、制御部１１１は、ユーザが操作部１１２のモード切り替えスイッチを操作して例えば撮影モード、再生モード等の何れのモードに切り替えたかを、操作部１１２からの指示信号により確認する。例えば撮影モードに切り替えられた場合、制御部１１１は、撮像装置１００を撮影待機状態とし、ユーザにより操作部１１２の記録開始ボタンが操作されると、各部を制御して撮影および記録動作を開始させる。撮影モードで撮影が実行されている間は、撮影画像信号から生成された圧縮画像信号と撮影時の入力音声信号から生成された圧縮音声信号とが、記録媒体１０８に記録される。そして、ユーザにより操作部１１２の記録終了ボタンが操作されると、制御部１１１は、各部を制御して撮影および記録動作を終了させて、撮影待機状態に戻す。また、再生モードになされた場合、制御部１１１は、記録再生部１０７を介して記録媒体１０８から圧縮画像信号と圧縮音声信号を読み出させ、それら信号が符号化復号化部１０６に送られる。符号化復号化部１０６は、それら圧縮画像信号と圧縮音声信号を復号化する。そして、復号化された動画は表示制御部１０９を介して表示部１１０に表示され、復号化された音声は音声処理部１０４を介して音声出力部１１４から出力される。

以下、撮影モードの際の撮像装置１００の動作について詳細に説明する。
撮影モードになると、制御部１１１は、前述のように、先ず撮像装置１００を撮影待機状態に設定する。そして、撮影待機状態において、ユーザにより操作部１１２の記録開始ボタンが操作されて撮影および記録開始の指示信号が入力されると、制御部１１１は、記録開始の制御信号を撮像装置１００の各部に送り、以下の撮影動作を行わせるように各部を制御する。

撮像部１０１は、画像処理部１０２を介して制御部１１１から記録開始の制御信号を受け取ると、撮影レンズにより取り込まれた被写体等の光学像を撮像素子にてアナログ画像信号に変換する。さらに、撮像部１０１は、アナログ画像信号をアナログデジタル変換によりデジタル画像信号に変換して、画像処理部１０２に出力する。このときの画像処理部１０２は、撮像部１０１から出力された画像信号に対して画質調整処理を実行する。具体的には、画像処理部１０２は、例えばホワイトバランス調整や色調整、明るさ調整などの各設定値が制御部１１１により制御され、それらの設定値に基づく画質調整処理を行う。画像処理部１０２による処理後の画像信号は、表示制御部１０９に送られる。表示制御部１０９は、画像処理部１０２から受け取った画像信号に基づく映像を表示部１１０に表示させる。また、画像処理部１０２による処理後の画像信号は、メモリ１０５にも送られて一時的に記憶される。

音声入力部１０３は、音声処理部１０４を介して制御部１１１から記録開始の制御信号を受け取ると、内蔵されたマイクまたは外部音声入力端子を介して接続された外部マイク等からアナログ音声信号を取得する。さらに、音声入力部１０３は、そのアナログ音声信号をアナログデジタル変換によりデジタル音声信号に変換して、音声処理部１０４に送る。音声処理部１０４は、内蔵マイクまたは外部音声入力端子を介して取得された音声信号を必要に応じて選択し、音声レベルの適正化処理、特定周波数の低減処理等を行う。音声処理部１０４による処理後の音声信号は、メモリ１０５に送られて一時的に記憶される。

また、撮影モードの場合、符号化復号化部１０６は、制御部１１１から記録開始の制御信号を受け取ると、メモリ１０５に一時的に記憶された画像信号や音声信号を読み出して所定の符号化を行い、圧縮画像信号、圧縮音声信号等を生成する。そして、制御部１１１は、これらの圧縮画像信号と圧縮音声信号を含むデータストリームを形成し、記録再生部１０７に出力する。記録再生部１０７は、制御部１１１から記録開始の制御信号を受け取ると、ＵＤＦ（ユニバーサルディスクフォーマット）やＦＡＴ（ファイルアロケーションテーブル）等のファイルシステム管理の下、そのデータストリームを一つの動画ファイルとする。そして、記録再生部１０７は、その動画ファイルを記録媒体１０８に記録する。
制御部１１１は、撮影モードにおいて撮影が行われている間は、以上の動作を継続するように各部を制御する。

その後、ユーザにより操作部１１２の記録開始／終了ボタンが操作されて撮影および記録停止の指示信号を受け取ると、制御部１１１は、処理終了の制御信号を撮像装置１００の各部に送り、以下の撮影終了動作を行わせるよう各部を制御する。
制御部１１１から処理終了の制御信号を受け取ると、画像処理部１０２は、前述した処理後の画像信号をメモリ１０５へ送るのを停止し、同様に、音声処理部１０４は、前述した処理後の音声信号をメモリ１０５へ送るのを停止する。

また、符号化復号化部１０６は、制御部１１１から処理終了の制御信号を受け取ると、符号化の動作を停止する。ただし、処理終了の制御信号を受け取った時点で、符号化が未処理となっている画像信号と音声信号がメモリ１０５に残っている場合、符号化復号化部１０６は、その残りの画像信号と音声信号を読み出して所定の符号化を行う。そして、符号化復号化部１０６は、その残りの画像信号と音声信号の符号化が完了すると、メモリ１０５からの読み出しおよび符号化の動作を停止する。

このときの制御部１１１は、符号化復号化部１０６で符号化が完了した圧縮画像信号、圧縮音声信号を含むデータストリームを形成する。記録再生部１０７は、そのデータストリームを記録媒体１０８に記録し、制御部１１１からデータストリームの供給が停止した時に動画ファイルを完成させて、記録動作を停止させる。そして、制御部１１１は、記録再生部１０７による記録動作が停止すると、撮像装置１００を撮影待機状態に移行させる制御信号を各部に送る。これにより、撮像装置１００は撮影待機状態となる。

また、撮影待機状態になっている場合、制御部１１１は、撮像装置１００の各部を以下のように動作させる制御を行う。
撮影待機状態において撮像部１０１により撮像され、画像処理部１０２による処理がなされた後の画像信号は、表示制御部１０９に送られる。表示制御部１０９は、撮影待機状態の際に画像処理部１０２から供給された画像信号にかかる映像と撮像装置１００の操作のために必要な情報を、表示部１１０に表示させる。これにより、撮像装置１００を操作しているユーザは、表示部１１０に表示された画面を見ながら撮影の準備等を行うことができる。

次に、再生モードの際の撮像装置１００の動作について詳細に説明する。
再生モードにおいて、ユーザにより操作部１１２の再生ボタンが操作されて再生開始の指示信号が入力されると、制御部１１１は、再生開始の制御信号を撮像装置１００の各部に送り、以下の再生動作を行わせるように各部を制御する。なお、再生開始に先立ち、記録媒体１０８に記録されている動画ファイルの中から、ユーザにより、再生すべきファイルの指定がなされているとする。

記録再生部１０７は、制御部１１１から再生開始の制御信号を受け取ると、記録媒体１０８から、ユーザにより再生の指示がなされている動画ファイルの圧縮画像信号と圧縮音声信号を読み出し、それら信号を一時的にメモリ１０５に記憶させる。符号化復号化部１０６は、そのメモリ１０５に一時的に記憶された圧縮画像信号と圧縮音声信号を読み出し、所定の復号化を行い、その復号化した画像信号を表示制御部１０９に送り、また復号化した音声信号を音声処理部１０４に送る。

表示制御部１０９は、符号化復号化部１０６から供給された画像信号にかかる映像を表示部１１０に表示させる。また、音声処理部１０４は、符号化復号化部１０６から供給されたデジタル音声信号をデジタルアナログ変換して、音声出力部１１４から出力させる。再生モードの場合、撮像装置１００では、このようにして記録媒体１０８から読み出された動画ファイルの映像の表示と音声の出力が行われる。

＜第１の実施形態＞
以下、第１の実施形態における音声処理部１０４の構成および処理の詳細について説明する。
図２は、第１の実施形態の構成例として、図１の音声入力部１０３が備える構成と、音声処理部１０４が備える構成のうち音声入力部１０３からの入力音声信号を処理する部分の構成例とを示したブロック図である。

図２において、音声入力部１０３は、マイク２０１とＡＤ（アナログデジタル）変換器２０２とを有して構成されている。マイク２０１により取得されたアナログ音声信号は、ＡＤ変換器２０２にてデジタル音声信号に変換されて、音声処理部１０４に送られる。
音声処理部１０４は、レベル制御部２０３、レベル検出部２０４、ゲイン制御部２０５、ノイズ生成部２０６、フィルタ２０７、減衰部２０８、合成部２０９を有して構成されている。音声入力部１０３から送られてきた入力音声信号は、レベル制御部２０３とレベル検出部２０４とに入力する。

レベル検出部２０４は、入力音声信号から音声レベルを検出し、その検出した音声レベルのデータをゲイン制御部２０５に出力する。ゲイン制御部２０５は、レベル検出部２０４にて検出された音声レベルに応じたゲイン値を決定し、その決定したゲイン値をレベル制御部２０３に送る。レベル制御部２０３は、ゲイン制御部２０５から供給されたゲイン値を用いて、入力音声のレベルを制御し、合成部２０９に出力する。また、ゲイン制御部２０５は、入力音声レベルに基づいてリミット動作およびリカバリ動作を制御し、さらに、リミット動作およびリカバリ動作の状態に応じて、後述する減衰部２０８でノイズレベルを減衰させる際の減衰量についても制御する。リミット動作とは、入力音声のレベルが所定の閾値レベルを超えないようにゲインを調整（制限）する動作である。また、リカバリ動作は、リミット動作が行われたことで入力音声のレベルが低くなった場合にゲインを大きくするように戻す（リカバリする）動作である。

ノイズ生成部２０６は、ランダムノイズ信号を生成してフィルタ２０７に出力する。本実施形態の場合、ノイズ生成部２０６は、低周波数領域から高周波数領域まで一定のレベルのノイズを含んだランダムノイズ信号を生成する。フィルタ２０７は、ノイズ生成部２０６からのノイズ信号の波形を成形して減衰部２０８に出力する。ここで、マイク２０１により取得された音声信号に含まれるフロアノイズの成分が例えば−６０ｄＢｆｓ（ｄＢフルスケール）程度であるとする。この場合、フィルタ２０７は、マイク２０１により取得された音声信号に含まれるフロアノイズと同様の周波数成分を持つように、ノイズ生成部２０６で生成されたノイズ信号に対してフィルタ処理を施して出力する。

減衰部２０８は、ゲイン制御部２０５からの減衰量に基づいて、フィルタ２０７から出力されたノイズ信号のレベルを調整し、合成部２０９に出力する。合成部２０９は、レベル制御部２０３から出力された音声信号に対して、減衰部２０８から出力されたノイズ信号を合成する。この合成部２０９の出力が、音声処理部１０４による処理後の音声信号となされる。

以下、音声処理部１０４における処理の詳細を説明する。
図３は、概ね図２に示した音声処理部１０４における処理の流れを示したフローチャートである。但し、Ｓ４１１の処理は制御部１１１により行われる。図３のフローチャートの処理は、ハードウェア構成により実行されてもよいし、一部がソフトウェア構成で残りがハードウェア構成により実現されてもよい。ソフトウェア構成により処理が実行される場合、図３のフローチャートの処理は、本実施形態にかかる音声処理のプログラムをＣＰＵ等が実行することにより実現される。本実施形態にかかる音声処理のプログラムは、不図示のＲＯＭ等に予め用意されていてもよく、また不図示の着脱可能な半導体メモリから読み出されても、或いは不図示のインターネット等のネットワークからダウンロードされてもよい。また以下の説明では、図３の各処理のステップＳ４０１〜ステップＳ４２０をＳ４０１〜Ｓ４２０と略記する。これらのことは後述する他のフローチャートにおいても同様とする。

図３に示すフローチャートの処理は、操作部１１２を介してユーザから動画の撮影および記録開始の指示が入力され、制御部１１１から音声処理部１０４に記録開始の制御信号が入力されたことによりスタートする。また、Ｓ４０２からＳ４１１までの処理は例えば予め決められた所定の１サイクルの期間ごとに行われ、この１サイクルごとの処理は、操作部１１２を介してユーザから動画の記録停止の指示が入力されるまでの間、繰り返し実行される。

ユーザから動画の記録開始の指示が入力されて図３のフローチャートの処理がスタートすると、先ず、Ｓ４０１において、ゲイン制御部２０５は、リミット動作の継続時間ｔをゼロ（０）に初期化する。
次にＳ４０２において、ゲイン制御部２０５は、直前のサイクルにおけるリミット動作の継続時間ｔがリカバリモードの判定のための閾値時間Ｔよりも短いか否かを判別する。ここで、本実施形態の場合、ゲイン制御部２０５は、リカバリモードとして、ファストリカバリモードと、スローリカバリモードとを設定可能となされている。ファストリカバリモードは、リミット動作後に、短時間にゲインを素早く大きしてリカバリするモードである。スローリカバリモードは、リミット動作後に、ファストリカバリモードよりも長い時間をかけてゆっくりとゲインを徐々に大きくしてリカバリするモードである。そして、ゲイン制御部２０５は、Ｓ４０２で継続時間が閾値時間よりも短い（ｔ＜Ｔ）と判定（Ｙｅｓ）した場合には、Ｓ４０３の処理として、リカバリモードをファストリカバリモードに設定する。一方、ゲイン制御部２０５は、Ｓ４０２で継続時間が閾値時間以上（ｔ≧Ｔ）と判定（Ｎｏ）場合には、Ｓ４０４の処理として、リカバリモードをスローリカバリモードに設定する。なお、本実施形態の場合、ファストリカバリモードに設定された場合にはフラグＦＡＳＴに１を立て、スローリカバリモードに設定された場合にはフラグＦＡＳＴを０にする。Ｓ４０３、Ｓ４０４の後、音声処理部１０４の処理は、レベル検出部２０４にて行われるＳ４０５に進む。

次のＳ４０５において、レベル検出部２０４は、入力音声レベルを検出し、その音声レベルのデータをゲイン制御部２０５に出力する。そして、Ｓ４０５の後、音声処理部１０４の処理は、ゲイン制御部２０５にて行われるＳ４０６に進む。

Ｓ４０６において、ゲイン制御部２０５は、レベル検出部２０４にて検出された入力音声レベルが、リミット動作を実行するか否かを判断するための閾値レベルを超えているか否かを判定する。ゲイン制御部２０５は、Ｓ４０６において入力音声レベルが閾値レベル以下（閾値レベルを超えていない）と判定（Ｎｏ）した場合には、Ｓ４１２に処理を進める。一方、ゲイン制御部２０５は、Ｓ４０６において入力音声レベルが閾値レベルを超えていると判定（Ｙｅｓ）した場合には、リミット動作を実行すると判断して、Ｓ４０７以降に処理を進める。

Ｓ４０７の処理に進むと、ゲイン制御部２０５は、リミット動作時にレベル制御部２０３が音声信号のゲインを抑制する際のゲイン抑制量ＬＩＭ＿ＬＥＶＥＬを算出する。ここで、ゲイン制御部２０５は、例えば、レベル検出部２０４により検出された入力音声レベルＬＥＶＥＬから、リミット動作の閾値レベルＴｈｒｅｓｈを減算した値を、ゲイン抑制量ＬＩＭ＿ＬＥＶＥＬとして算出する。Ｓ４０７の後、ゲイン制御部２０５は、Ｓ４０８に処理を進める。

Ｓ４０８に進むと、ゲイン制御部２０５は、リミット動作時にレベル制御部２０３に与えるゲイン値ＮＯＷ＿ＧＡＩＮを算出し、その算出したゲイン値ＮＯＷ＿ＧＡＩＮをレベル制御部２０３に対して設定する。例えば、ゲイン制御部２０５は、リミット動作を行っていないときのゲイン設定量ＧＡＩＮから、ゲイン抑制量ＬＩＭ＿ＬＥＶＥＬを減算することにより、リミット動作時のゲイン値ＮＯＷ＿ＧＡＩＮを算出する。Ｓ４０８の後、ゲイン制御部２０５は、Ｓ４０９に処理を進める。

Ｓ４０９に進むと、ゲイン制御部２０５は、減衰部２０８によるノイズ信号の減衰量ＮｏｉｓｅＡＴＴをゼロ（０）に設定する。これにより、合成部２０９では、フィルタ２０７からのノイズ信号のレベルが減衰されずにレベル制御部２０３からの音声信号に合成されるようになる。そして、ゲイン制御部２０５は、Ｓ４１０の処理として、リミット動作の継続時間ｔに所定の時間（例えば１サイクル期間の時間）を加算する。Ｓ４１０の後のＳ４１１の処理は、制御部１１１において行われる。

Ｓ４１１に進むと、制御部１１１は、ユーザから操作部１１２を介して記録停止の指示がなされたか否かを判定し、記録停止の指示がなされていないと判定（Ｎｏ）した場合には処理をＳ４０２に戻し、次のサイクルにおける処理を継続する。このように、Ｓ４０２からＳ４１１までの処理は１サイクル期間ごとに行われ、Ｓ４０２にて閾値時間Ｔと比較される継続時間ｔは、Ｓ４１０において１サイクル期間ごとに継続時間ｔに所定の時間が加算されることにより求められている。一方、Ｓ４１１において記録停止の指示がなされたと判定（Ｙｅｓ）した場合、制御部１１１は、音声処理部１０４に対して音声信号の処理を停止する制御信号を送る。これにより図３のフローチャートの処理が終了される。

Ｓ４０６において入力音声レベルが閾値レベル以下と判定されてＳ４１２に進むと、ゲイン制御部２０５は、リミット動作後のリカバリ動作の実行中であるか否かを判別する。ここで、本実施形態の場合、閾値レベルを超えるレベルの音声が入力されてリミット動作が行われた後、その入力音声レベルが閾値レベル以下になった場合に、レベル制御部２０３に与えるゲインを大きくして音声レベルの変動を抑えるリカバリ動作が行われる。したがって、Ｓ４１２において、ゲイン制御部２０５は、リミット動作の後のリカバリ動作が実行中であるか否かを判定する。具体的には、ゲイン制御部２０５は、Ｓ４１２において、ゲイン抑制量ＬＩＭ＿ＬＥＶＥＬがゼロ（０）より大きい（ＬＩＭ＿ＬＥＶＥＬ＞０）場合にリカバリ動作中であると判定（Ｙｅｓ）して、Ｓ４１３に処理を進める。一方、ゲイン抑制量ＬＩＭ＿ＬＥＶＥＬがゼロ（ＬＩＭ＿ＬＥＶＥＬ＝０）の場合、ゲイン制御部２０５は、リカバリ動作中ではないと判定（Ｎｏ）してＳ４２０に処理を進める。

Ｓ４１２でリカバリ動作中であると判定されてＳ４１３に進むと、ゲイン制御部２０５は、現在のリカバリモードがファストリカバリモードであるか否かを判別する。ゲイン制御部２０５は、リカバリモードがファストリカバリモードであると判定（Ｙｅｓ）した場合には、Ｓ４１４に処理を進める。一方、ゲイン制御部２０５は、リカバリモードがファストリカバリモードでない（つまりスローリカバリモードである）と判定（Ｎｏ）した場合にはＳ４１６に処理を進める。

Ｓ４１３でファストリカバリモードであると判定されてＳ４１４に進んだ場合、ゲイン制御部２０５は、リカバリ動作時におけるゲインのリカバリ量ＲＥＣＯＶ＿ＳＴＥＰとして、ＦＡＳＴ＿ＲＥＣＯＶ＿ＳＴＥＰを設定する。ここで、リカバリ量ＦＡＳＴ＿ＲＥＣＯＶ＿ＳＴＥＰは、ファストリカバリモードの１サイクル期間においてゲインを増加させる第１のゲインである。その後、ゲイン制御部２０５は、Ｓ４１５の処理として、減衰部２０８によるノイズ信号の減衰量ＮｏｉｓｅＡＴＴをゼロ（０）に設定する。これにより、合成部２０９では、フィルタ２０７からのノイズ信号のレベルが減衰されずに、レベル制御部２０３からの音声信号に合成されることになる。Ｓ４１５の後、ゲイン制御部２０５は、Ｓ４１８に処理を進める。

一方、Ｓ４１３でスローリカバリモードであると判定されてＳ４１６に進んだ場合、ゲイン制御部２０５は、リカバリ動作時におけるゲインのリカバリ量ＲＥＣＯＶ＿ＳＴＥＰとして、ＳＬＯＷ＿ＲＥＣＯＶ＿ＳＴＥＰを設定する。ここで、リカバリ量ＳＬＯＷ＿ＲＥＣＯＶ＿ＳＴＥＰは、スローリカバリモードの１サイクル期間においてゲインを増加させる第２のゲインであり、ＳＬＯＷ＿ＲＥＣＯＶ＿ＳＴＥＰ＜ＦＡＳＴ＿ＲＥＣＯＶ＿ＳＴＥＰである。その後、ゲイン制御部２０５は、Ｓ４１７の処理として、減衰部２０８によるノイズ信号の減衰量ＮｏｉｓｅＡＴＴをゲイン抑制量ＬＩＭ＿ＬＥＶＥＬに設定する。これにより、合成部２０９では、フィルタ２０７からのノイズ信号のレベルがゲイン抑制量ＬＩＭ＿ＬＥＶＥＬに応じて減衰されて、レベル制御部２０３からの音声信号に合成されることになる。Ｓ４１７の後、ゲイン制御部２０５は、Ｓ４１８に処理を進める。

Ｓ４１８に進むと、ゲイン制御部２０５は、現在のゲイン抑制量ＬＩＭ＿ＬＥＶＥＬから、Ｓ４１４又はＳ４１６で設定されたリカバリ量ＲＥＣＯＶ＿ＳＴＥＰを減算し、それをゲイン抑制量ＬＩＭ＿ＬＥＶＥＬとしてレベル制御部２０３に再設定する。そして、Ｓ４１９の処理として、ゲイン制御部２０５は、リミット動作の継続時間ｔをそのまま保持する。Ｓ４１９の後は、制御部１１１にて行われる前述のＳ４１１の処理に進む。

また、Ｓ４１２でリカバリ動作中でないと判定されてＳ４２０に進んだ場合、ゲイン制御部２０５は、リミット動作の継続時間ｔをゼロ（０）に初期化する。Ｓ４０２の後は、制御部１１１にて行われる前述のＳ４１１の処理に進む。

以上説明したように、本実施形態の音声処理部１０４は、音声入力部１０３にて取得された入力音声信号が、例えば単発音のようにリミット動作の継続時間が短い音の信号である場合、ゲインを素早く大きくするファストリカバリモードでの音声処理を実行する。ファストリカバリモードの場合、マイク２０１にて取得された音声に含まれるフロアノイズと同様のノイズ信号を減衰させずに、合成部２０９においてレベル制御部２０３からの音声信号と合成する。これにより、合成された後の音声に含まれるノイズ信号の大きさは、レベル制御部２０３によるゲイン処理によらず一定のレベルとなる。そのため、例えば静かな環境で拍手が連続するような状況でファストリカバリ動作を実行した場合でも、音声信号に含まれるフロアノイズの成分の大きさを一定に保つことができる。したがって、本実施形態によれば、入力音声のレベルが短い期間で変化した場合でも、ノイズの変動を抑えて違和感が少ない音を得ることができる。

また、本実施形態の音声処理部１０４は、音声入力部１０３にて取得された入力音声信号が、例えば単発音ではなくリミット動作の継続時間が長くなる音の信号である場合、ゲインをゆっくりと徐々に大きくするスローリカバリモードを実行する。スローリカバリモードの場合、マイク２０１で取得された音声に含まれるフロアノイズと同様のノイズ信号を、リカバリ動作中のゲインに基づいてゆっくりと増加させ、合成部２０９においてレベル制御部２０３からの音声信号と合成する。したがって、本実施形態よれば、スローリカバリモードにおいてゆっくりとゲインが大きくなる状況において、ノイズ成分だけが急に大きくなってしまうことはなく、違和感が少ない音声を得ることができる。

＜第２の実施形態＞
次に、第２の実施形態における音声処理部１０４の構成および処理について説明する。
図４は、第２の実施形態の構成例として、図１の音声入力部１０３が備える構成と、音声処理部１０４が備える構成のうち音声入力部１０３からの入力音声信号を処理する部分の構成例と、を示したブロック図である。なお、図４において、前述した図２と同様の構成要素については図２の例と同一の参照番号を付して、それらの詳細な説明は省略する。

図４に示すように第２の実施形態の場合、音声入力部１０３は、前述したマイク２０１とＡＤ変換器２０２に加えて、外部入力部３０１とスイッチ３０２を有している。外部入力部３０１は、外部マイクが接続された場合に、その外部マイクからの音声信号を取得する。スイッチ３０２は、マイク２０１からの音声信号と、外部入力部３０１からの音声信号の一方を選択して出力する。第２の実施形態の場合、制御部１１１は、操作部１１２を介してユーザから音声入力選択の指示がなされた場合、その選択指示に応じてスイッチ３０２を切り替え制御する。このように、第２の実施形態の撮像装置１００の場合、ユーザは、マイク２０１からの音声信号と、外部入力部３０１からの音声信号の何れかを選択して記録させることができる。スイッチ３０２にて選択された音声信号は、ＡＤ変換器２０２に送られる。

第２の実施形態の音声処理部１０４は、前述したレベル検出部２０４、レベル制御部２０３、ゲイン制御部２０５、ノイズ生成部２０６、フィルタ２０７に加え、第１合成部３０４、切り替え部３０３、第２合成部３０５を有している。第２の実施形態の場合、図２の減衰部２０８は備えられていない。音声入力部１０３から出力された入力音声信号は、音声処理部１０４のレベル検出部２０４と第１合成部３０４に入力する。

第２の実施形態の音声処理部１０４の場合、フィルタ２０７から出力されたノイズ信号は切り替え部３０３に入力される。また、第２の実施形態の場合、ゲイン制御部２０５は、レベル検出部２０４により検出された音声レベルを基に、切り替え部３０３に対して切り替えの指示を送る。

切り替え部３０３は、ゲイン制御部２０５からの指示に応じて、フィルタ２０７からのノイズ信号を、第１合成部３０４と第２合成部３０５の何れか一方に出力する。切り替え部３０３から出力されたノイズ信号が第１合成部３０４に送られた場合、第１合成部３０４は、そのノイズ信号をＡＤ変換器２０２からの音声信号に合成して、レベル制御部２０３に出力する。第１合成部３０４においてＡＤ変換器２０２からの音声信号にノイズ信号を合成する処理が行われた場合、第２合成部３０５では、レベル制御部２０３の出力を、そのまま音声処理部１０４による処理後の音声信号として出力する。また、切り替え部３０３から出力されたノイズ信号が第２合成部３０５に送られた場合、第２合成部３０５は、そのノイズ信号をレベル制御部２０３からの音声信号に合成して出力する。第２合成部３０５においてレベル制御部２０３からの音声信号にノイズ信号を合成する処理が行われた場合、第１合成部３０４では、ＡＤ変換器２０２の出力を、そのままレベル制御部２０３に出力する。そしてこの場合、第２合成部３０５においてレベル制御部２０３からの音声信号にノイズ信号を合成した信号が、音声処理部１０４による処理後の音声信号として出力される。

以下、第２の実施形態の音声処理部１０４における処理の詳細を説明する。
図５は、概ね図４に示した第２の実施形態の音声処理部１０４にて行われる処理の流れを示したフローチャートである。なお、図５のフローチャートの場合、Ｓ５０１とＳ４１１は制御部１１１により行われる処理であり、Ｓ５０２とＳ５０３は制御部１１１による制御の下でノイズ生成部２０６により行われる処理である。また、図５のフローチャートにおいて、前述した図３のフローチャートと同様の処理については図３の例と同一の参照番号を付与する。図５のフローチャートの場合、Ｓ４０１〜Ｓ４０８、Ｓ４１０〜Ｓ４１４、Ｓ４１６、Ｓ４１８〜Ｓ４２０の各処理はそれぞれ、図３における対応した処理と同様であるのでそれらの説明は省略する。以下、図３とは異なる処理についてのみ説明する。

図５に示した第２の実施形態におけるフローチャートの処理は、第１の実施形態の場合と同様、操作部１１２から動画の撮影および記録開始の指示が入力され、制御部１１１から音声処理部１０４に記録開始の制御信号が入力されたことによりスタートする。また、Ｓ４０２からＳ４１１までの１サイクルの処理は、操作部１１２から動画の記録停止の指示が入力されるまでの間、繰り返し実行される。

図５のフローチャートの処理が開始されると、制御部１１１は、Ｓ５０１の処理として、操作部１１２を介した選択指示によりユーザがマイク２０１からの音声信号を選択しているか否かを判別する。制御部１１１は、マイク２０１からの音声信号が選択されていると判定（Ｙｅｓ）した場合、スイッチ３０２をマイク２０１側の音声信号を出力するように切り替え、ノイズ生成部２０６にて行われるＳ５０２に処理を進める。一方、制御部１１１は、マイク２０１の音声信号が選択されていないと判定（Ｎｏ）、スイッチ３０２を外部入力部３０１側の音声信号を出力するように切り替え、ノイズ生成部２０６にて行われるＳ５０３に処理を進める。

Ｓ５０２の処理に進んだ場合、制御部１１１は、ノイズ生成部２０６に対し、ノイズ信号を生成するように制御する。一方、Ｓ５０３の処理に進んだ場合、制御部１１１は、ノイズ生成部２０６に対し、ノイズ信号を生成しないように制御する。ここで、マイク２０１は内蔵マイクであるため、このマイク２０１の音声信号に含まれるフロアノイズの周波数特性は予め知ることができる。このため、マイク２０１が選択された時には、ノイズ生成部２０６にて生成したノイズ信号をフィルタ２０７に通すことで、予め求められているマイク２０１の周波数特性に応じたノイズ信号を生成する。これに対し、外部入力部３０１に接続される外部マイクの音声信号に含まれるフロアノイズの周波数特性は予め知ることができない。そのため、本実施形態では、外部入力部３０１が選択された時には、ノイズ生成部２０６にノイズ信号を生成させないようにする。Ｓ５０２、Ｓ５０３の後は、前述したＳ４０１の処理に進む。

また、第２の実施形態の場合、Ｓ４０６でリミット動作を行うと判定（Ｙｅｓ）されて、さらにＳ４０７とＳ４０８の処理を行った後、ゲイン制御部２０５は、Ｓ５０４の処理に進む。Ｓ５０４において、ゲイン制御部２０５は、ノイズ生成部２０６にて生成してフィルタ２０７の処理がなされた後のノイズ信号を第２合成部３０５に出力するように、切り替え部３０３を制御する。これにより、マイク２０１が選択されていて、リミット動作が実行されている間、第２合成部３０５では、レベル制御部２０３からの音声信号に対してノイズ信号が合成されることになる。Ｓ５０４の処理後、ゲイン制御部２０５は、Ｓ４１０の処理に進む。

また、Ｓ４１２でリカバリ動作中であると判定（Ｙｅｓ）され、次のＳ４１３でファストリカバリモードと判定（Ｙｅｓ）され、さらにＳ４１４の処理を行った後、ゲイン制御部２０５は、Ｓ５０５の処理に進む。Ｓ５０５において、ゲイン制御部２０５は、ノイズ生成部２０６にて生成してフィルタ２０７の処理がなされた後のノイズ信号を第２合成部３０５に出力するように、切り替え部３０３を制御する。これにより、マイク２０１が選択されていて、ファストリカバリモードでのリカバリ動作が実行されている間、第２合成部３０５では、レベル制御部２０３からの音声信号に対してノイズ信号が合成されることになる。Ｓ５０５の後、ゲイン制御部２０５は、Ｓ４１８の処理に進む。

また、Ｓ４１３でスローリカバリモードによるリカバリ動作中であると判定（Ｎｏ）され、さらにＳ４１６の処理を行った後、ゲイン制御部２０５は、Ｓ５０６の処理に進む。Ｓ５０６において、ゲイン制御部２０５は、ノイズ生成部２０６にて生成してフィルタ２０７の処理がなされた後のノイズ信号を第１合成部３０４に出力するように、切り替え部３０３を制御する。これにより、マイク２０１が選択されていて、スローリカバリモードでのリカバリ動作が実行されている間、第１合成部３０４では、ＡＤ変換器２０２からの音声信号に対してノイズ信号が合成されることになる。Ｓ５０６の後、ゲイン制御部２０５は、Ｓ４１８の処理に進む。

以上説明したように、第２の実施形態の音声処理部１０４は、音声入力部１０３にて取得された入力音声信号が、例えば単発音のようにリミット動作の継続時間が短い音の信号の場合、ゲインを素早く大きくするファストリカバリモードでの音声処理を実行する。その際、音声処理部１０４は、マイク２０１にて取得された音声に含まれるフロアノイズと同様のノイズ信号を、第２合成部３０５においてレベル制御部２０３から出力された音声信号に合成する。これにより、合成された後の音声に含まれるノイズ信号の大きさは、レベル制御部２０３によるゲイン処理によらず一定のレベルとなる。そのため、例えば静かな環境で拍手が連続するような状況でファストリカバリ動作を実行した場合でも、音声信号に含まれるフロアノイズの成分の大きさを一定に保つことができる。したがって、第２の実施形態によれば、入力音声のレベルが短い期間で変化した場合でも、ノイズの変動を抑えて違和感が少ない音を得ることができる。

また、第２の実施形態の音声処理部１０４は、音声入力部１０３にて取得された入力音声信号が、リミット期間が長い音の信号である場合、ゲインをゆっくりと大きくするスローリカバリモードを実行する。その際、音声処理部１０４は、マイク２０１で取得された音声に含まれるフロアノイズと同様のノイズ信号を、第１合成部３０４においてＡＤ変換器２０２から出力された音声信号に合成した後に、レベル制御部２０３に入力する。したがって、本実施形態によれば、スローリカバリモードにおいてゆっくりとゲインが大きくなる状況において、ノイズ成分だけが急に大きくなってしまうことはなく、違和感が少ない音声を得ることができる。

また、第２の実施形態では、外部入力部３０１に外部マイクが接続され、その外部マイクの音声信号に含まれるノイズ信号の周波数成分を取得できない場合、ノイズ生成部２０６によるノイズ信号の生成を行わないようにしている。このため、外部マイクの音声信号に含まれるノイズ信号とは異なる周波数成分のノイズ信号が音声信号に合成されてしまうことを防ぐことができる。なお、外部入力部３０１に接続された外部マイクの音声信号に含まれるノイズ信号の周波数成分を取得できる場合には、ノイズ生成部２０６にてノイズ信号を生成してフィルタ２０７に出力してもよい。この場合、フィルタ２０７は、ノイズ生成部２０６にて生成されたノイズ信号に対し、外部マイクの音声信号に含まれるノイズ信号の周波数成分に合わせるようなフィルタ処理を行い、そのフィルタ処理後のノイズ信号を出力する。

＜他の実施形態＞
前述した各実施形態では、本発明の音声処理装置を撮像装置１００に適用した例を挙げて説明したが、本発明はこれ以外にも、音声信号を処理する様々な装置に対しても同様に適用することが可能である。例えば、ボイスレコーダーや携帯電話、スマートフォン、パーソナルコンピュータ等の各種機器に対しても同様に本発明は適用可能である。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

上述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１００：撮像装置、１０３：音声入力部、１０４：音声処理部、１１４：音声出力部、２０１：マイク、２０３：レベル制御部、２０４：レベル検出部、２０５：ゲイン制御部、２０６：ノイズ生成部、２０７：フィルタ、２０８、減衰部、２０９：合成部、３０３：切り替え部、３０４：第１合成部、３０５：第２合成部

Claims

入力された音声信号のレベルを検出する検出手段と、
ゲインに応じて、前記音声信号のレベルを制御するレベル制御手段と、
前記検出されたレベルが閾値レベルを超えている場合には前記レベル制御手段から出力される音声信号のレベルが前記閾値レベル以下となるように前記ゲインを小さくするリミット動作を行い、前記リミット動作が行われている状態で前記レベルが前記閾値レベルを超えている状態でなくなった場合には前記ゲインを大きくするリカバリ動作を行うゲイン制御手段と、
ノイズ信号を出力するノイズ生成手段と、
前記レベル制御手段から出力された音声信号と前記ノイズ生成手段から出力されたノイズ信号とを合成する合成手段と、を有し、
前記ゲイン制御手段は、
前記リカバリ動作として、第１のリカバリモードと第２のリカバリモードとを有し、
前記リミット動作の継続時間が閾値時間以上でない場合には前記第１のリカバリモードに設定し、
直前の前記リミット動作の継続時間が閾値時間以上の場合には前記第２のリカバリモードに設定し、
前記第２のリカバリモードでは前記第１のリカバリモードよりも長い時間をかけて前記ゲインを大きくし、
前記第１のリカバリモードでは所定のレベルの前記ノイズ信号を出力させ、前記第２のリカバリモードでは前記レベル制御手段のゲインに応じたレベルの前記ノイズ信号を出力させるように、前記ノイズ生成手段を制御する
ことを特徴とする音声処理装置。
前記ゲイン制御手段は、前記リミット動作の実行中には前記所定のレベルの前記ノイズ信号を出力するように、前記ノイズ生成手段を制御することを特徴とする請求項１に記載の音声処理装置。
前記ノイズ生成手段は、前記ノイズ信号を生成する生成手段と、前記生成手段により生成されたノイズ信号を前記入力された音声信号に含まれるノイズの周波数特性になるように処理するフィルタ手段と、前記フィルタ手段からのノイズ信号を減衰させて前記出力する減衰手段とを有し、
前記ゲイン制御手段は、前記第１のリカバリモードでは前記ノイズ信号を減衰させずに出力し、前記第２のリカバリモードでは前記レベル制御手段のゲインに応じて前記ノイズ信号を減衰させて出力するように、前記減衰手段を制御することを特徴とする請求項１又は２に記載の音声処理装置。
前記ゲイン制御手段は、所定の１サイクル期間ごとに、前記検出されたレベルが前記閾値レベルを超えているか否かを判定して、前記検出されたレベルが前記閾値レベルを超えている状態が継続している場合に、所定の時間を加算して前記継続時間を求めることを特徴とする請求項１に記載の音声処理装置。
前記ゲイン制御手段は、
前記第１のリカバリモードに設定した場合には、前記リカバリ動作において所定の１サイクル期間ごとに大きくするゲインを第１のゲインに設定し、
前記第２のリカバリモードに設定した場合には、前記リカバリ動作において前記所定の１サイクル期間ごとに大きくするゲインを前記第１のゲインより小さい第２のゲインに設定することを特徴とする請求項１に記載の音声処理装置。
前記ゲイン制御手段は、前記リミット動作が行われている状態で前記レベルが前記閾値レベル以下になった後、前記検出されたレベルから前記閾値レベルを減算したレベルがゼロより大きい場合に、リカバリ動作中であると判断することを特徴とする請求項５に記載の音声処理装置。
前記ゲイン制御手段は、前記リカバリ動作が行われている状態で、前記検出されたレベルから前記閾値レベルを減算したレベルがゼロになったときに、前記リカバリ動作が終了したと判定することを特徴とする請求項６に記載の音声処理装置。
入力された音声信号のレベルを検出する検出工程と、
ゲインに応じて、前記音声信号のレベルを制御するレベル制御工程と、
前記検出工程により検出されたレベルが閾値レベルを超えている場合には前記レベル制御工程にて出力される音声信号のレベルが前記閾値レベル以下となるように前記ゲインを小さくするリミット動作を行い、前記リミット動作が行われている状態で前記レベルが前記閾値レベルを超えている状態でなくなった場合には前記ゲインを大きくするリカバリ動作を行うゲイン制御工程と、
ノイズ信号を出力するノイズ生成工程と、
前記レベル制御工程により出力された音声信号と前記ノイズ生成工程により出力されたノイズ信号とを合成する合成工程と、を有し、
前記ゲイン制御工程は、
前記リカバリ動作として、第１のリカバリモードと第２のリカバリモードとを含み、
前記リミット動作の継続時間が閾値時間以上でない場合には前記第１のリカバリモードに設定し、
直前の前記リミット動作の継続時間が閾値時間以上の場合には前記第２のリカバリモードに設定し、
前記第２のリカバリモードでは前記第１のリカバリモードよりも長い時間をかけて前記ゲインを大きくし、
前記第１のリカバリモードでは所定のレベルの前記ノイズ信号を出力させ、前記第２のリカバリモードでは前記レベル制御工程のゲインに応じたレベルの前記ノイズ信号を出力させるように、前記ノイズ生成工程を制御する
ことを特徴とする音声処理装置の音声処理方法。
コンピュータを、請求項１から７の何れか１項に記載の音声処理装置の各手段として機能させるためのプログラム。