JP2019091988A

JP2019091988A - 音声処理装置および音声処理方法

Info

Publication number: JP2019091988A
Application number: JP2017218212A
Authority: JP
Inventors: 友仁井上; Tomohito Inoue
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2019-06-13

Abstract

【課題】リニアリティを維持しつつ、広いダイナミックレンジの音声信号を取得することである。【解決手段】音声処理装置は、異なる増幅率で音声信号を増幅する第１及び第２の増幅部（２０１，２０２）と、第１及び第２の増幅部が出力する音声信号をアナログからデジタルに変換する第１及び第２のＡＤＣ部（２０３，２０４）と、第１のＡＤＣ部が出力する音声信号を減衰させる減衰部（２０５）と、第２のＡＤＣ部が出力する音声信号のゲインおよびＤＣオフセットを補正する第１の補正部（２０８，２０９）と、減衰部が出力する音声信号の振幅を補正する第２の補正部（２１２）と、第１の補正部が出力する音声信号の振幅を補正する第３の補正部（２１３）と、第２又は第３の補正部が出力する音声信号を出力する出力部（２１４）とを有し、第２の補正部および第３の補正部は、第１の音声信号の主周波数が第２の閾値より高い場合には補正を行わないようにする。【選択図】図２

Description

本発明は、音声処理装置および音声処理方法に関する。

音声信号を処理する装置として、画像信号を記録すると共に音声信号を記録する撮像装置が知られている。これらの撮像装置では、音声信号のダイナミックレンジを拡張する機能を持つものがある。（例えば、特許文献１参照）。

特開２０１１−４４９０８号公報

しかしながら、アナログゲインを変更することによるダイナミックレンジの拡張は、音声信号のリニアリティが失われてしまうという課題がある。
そこで、本発明は、リニアリティを維持しつつ、広いダイナミックレンジの音声信号を取得することを目的とする。

本発明の音声処理装置は、第１の増幅率で第１の音声信号を増幅する第１の増幅部と、前記第１の増幅率より低い第２の増幅率で前記第１の音声信号を増幅する第２の増幅部と、前記第１の増幅部が出力する音声信号をアナログからデジタルに変換する第１のＡＤＣ部と、前記第２の増幅部が出力する音声信号をアナログからデジタルに変換する第２のＡＤＣ部と、前記第１の増幅率と前記第２の増幅率の差分に応じて、前記第１のＡＤＣ部が出力する音声信号を減衰させる減衰部と、前記減衰部が出力する音声信号のゲインおよびＤＣオフセットに応じて、前記第２のＡＤＣ部が出力する音声信号のゲインおよびＤＣオフセットを補正する第１の補正部と、前記減衰部が出力する音声信号の振幅と前記第１の補正部が出力する音声信号の振幅との差に応じて、前記減衰部が出力する音声信号の振幅を補正する第２の補正部と、前記減衰部が出力する音声信号の振幅と前記第１の補正部が出力する音声信号の振幅との差に応じて、前記第１の補正部が出力する音声信号の振幅を補正する第３の補正部と、前記第１の音声信号の振幅の絶対値が前記第１の閾値以下である場合には、前記第２の補正部が出力する音声信号を出力し、前記第１の音声信号の振幅の絶対値が前記第１の閾値より大きい場合には、前記第３の補正部が出力する音声信号を出力する出力部とを有し、前記第２の補正部および前記第３の補正部はそれぞれ、前記第１の音声信号の主周波数が第２の閾値より高い場合には補正を行わないようにする。

本発明によれば、リニアリティを維持しつつ、広いダイナミックレンジの音声信号を取得することができる。

本実施形態の撮像装置のブロック図である。本実施形態の音声処理部のブロック図である。本実施形態の音声処理部の出力波形を示す図である。

図１は、本発明の実施形態による撮像装置１００の構成例を示すブロック図である。撮像装置１００は、音声信号を処理し、処理した音声信号を録音することができる。例えば、撮像装置１００は、デジタルカメラ、ビデオカメラの他、スマートフォン、タブレット等に適用可能である。以下、撮像装置１００の構成を説明する。

撮像部１０１は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。音声入力部１０２は、内蔵または音声端子を介して接続された複数のマイクにより、撮像装置１００の周辺の音声を集音し、アナログデジタル変換、音声処理などを行い、音声データを生成する。音声処理部１０３は、音声入力部１０２により得られた音声データに対し、音声信号処理を行う。

メモリ１０４は、撮像部１０１により得られた画像データや、音声処理部１０３で処理された音声データを一時的に記憶する。表示制御部１０５は、撮像部１０１により得られた画像データに係る映像や、撮像装置１００の操作画面、メニュー画面等を表示部１０６や、不図示の映像端子を介して外部のディスプレイに表示させる。符号化処理部１０７は、メモリ１０４に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。

記録再生部１０８は、記録媒体１０９に対して、符号化処理部１０７で生成された圧縮画像データ、圧縮音声データ等を記録したり、記録媒体１０９に記録された圧縮画像データ、圧縮音声データ、各種データ、プログラムを読み出す。ここで、記録媒体１０９は、圧縮画像データ、圧縮音声データ、等を記録することができれば、磁気ディスク、光学式ディスク、半導体メモリなどのあらゆる方式の記録媒体を含む。

制御部１１０は、撮像装置１００の各ブロックに制御信号を送信することで撮像装置１００の各ブロックを制御することができ、各種制御を実行するためのＣＰＵやメモリなどを有する。操作部１１１は、ボタンやダイヤルなどを有し、ユーザの操作に応じて、指示信号を制御部１１０に送信する。音声出力部１１２は、記録再生部１０８により再生された圧縮音声データや、制御部１１０により出力される音声データをスピーカ１１３や音声端子などに出力する。外部出力部１１４は、記録再生部１０８により再生された圧縮映像データや圧縮音声データなどを外部機器に出力する。データバス１１５は、音声データや画像データ等の各種データ、各種制御信号を撮像装置１００の各ブロックに供給する。

次に、本実施形態の撮像装置１００の通常の動作について説明する。撮像装置１００は、ユーザが操作部１１１を操作して電源を投入する指示が出されたことに応じて、不図示の電源供給部から、撮像装置１００の各ブロックに電源を供給する。電源が供給されると、制御部１１０は、例えば、操作部１１１のモード切り換えスイッチが、例えば、撮影モード（動画記録モード）および再生モード等のどのモードであるかを操作部１１１からの指示信号により確認する。動画記録モードでは、撮像部１０１により得られた画像データと音声入力部１０２により得られた音声データとを１つのファイルとして保存することができる。再生モードでは、記録媒体１０９に記録された圧縮画像データを記録再生部１０８により再生して表示部１０６に表示させることができる。

動画記録モードでは、まず、制御部１１０は、撮影待機状態に移行させるように制御信号を撮像装置１００の各ブロックに送信し、以下のような動作をさせる。撮像部１０１は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。そして、撮像部１０１は、得られた画像データを表示処理部１０５に送信し、画像データを表示部１０６に表示させる。ユーザは、この様にして表示された画面を見ながら撮影の準備を行う。

音声入力部１０２は、複数のマイクにより得られたアナログ音声信号をデジタル音声信号に変換し、デジタル音声信号を生成する。音声処理部１０３は、得られたデジタル音声信号に対して、任意の信号処理を施し、マルチチャンネルの音声データを生成する。そして、音声処理部１０３は、得られた音声データを音声出力部１１２に送信し、接続されたスピーカ１１３や不図示のイヤホンから音声として出力させる。ユーザは、この様にして出力された音声を聞きながら記録音量を決定するためのマニュアルボリュームの調整をすることもできる。

次に、ユーザが操作部１１１の記録ボタンを操作することにより撮影開始の指示信号が制御部１１０に送信されると、制御部１１０は、撮像装置１００の各ブロックに撮影開始の指示信号を送信し、以下のような動作をさせる。撮像部１０１は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。そして、撮像部１０１は、得られた画像データを表示処理部１０５に送信し、画像データを表示部１０６に表示させる。また、撮像部１０１は、得られた画像データをメモリ１０４に送信する。

音声入力部１０２は、複数のマイクにより得られたアナログ音声信号をデジタル音声信号に変換し、複数のデジタル音声信号を得る。音声処理部１０３は、得られたデジタル音声信号に対して、任意の信号処理を施し、マルチチャンネルの音声データを生成する。そして、音声処理部１０３は、得られた音声データをメモリ１０４に送信する。

符号化処理部１０７は、メモリ１０４に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データや圧縮音声データ等を生成する。そして、制御部１１０は、これらの圧縮画像データおよび圧縮音声データを合成し、データストリームを形成し、データストリームを記録再生部１０８に出力する。記録再生部１０８は、ＵＤＦ、ＦＡＴ等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体１０９に書き込んでいく。

以上の動作を撮影中は継続する。そして、ユーザが操作部１１１の記録ボタンを操作することにより撮影終了の指示信号が制御部１１０に送信されると、制御部１１０は、撮像装置１００の各ブロックに撮影終了の指示信号を送信し、以下のような動作をさせる。撮像部１０１および音声入力部１０２は、それぞれ画像データおよび音声データの生成を停止する。

符号化処理部１０７は、メモリに記憶されている残りの画像データと音声データとを読み出して所定の符号化を行い、圧縮画像データおよび圧縮音声データ等を生成し終えたら動作を停止する。そして、制御部１１０は、これらの最後の圧縮画像データおよび圧縮音声データを合成し、データストリームを形成し、データストリームを記録再生部１０８に出力する。記録再生部１０８は、ＵＤＦ、ＦＡＴ等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体１０８に書き込んでいく。そして、記録再生部１０８は、データストリームの供給が停止したら、動画ファイルを完成させて、記録動作を停止させる。制御部１１０は、記録動作が停止すると、撮影待機状態に移行させるように制御信号を撮像装置１００の各ブロックに送信して、撮影待機状態に戻る。

次に、再生モードでは、制御部１１０は、再生状態に移行させるように制御信号を撮像装置１００の各ブロックに送信し、以下のような動作をさせる。記録再生部１０８は、記録媒体１０９に記録された圧縮画像データと圧縮音声データとからなる動画ファイルを読み出して、読み出された圧縮画像データと圧縮音声データを符号化処理部１０７に送信する。符号化処理部１０７は、圧縮画像データと圧縮音声データを復号して、それぞれ、表示制御部１０５と音声処理部１０３に送信する。音声処理部１０３は、得られたデジタル音声信号に対して、任意の信号処理を施し、得られた音声データを音声出力部１１２に送信する。表示制御部１０５は、復号された画像データを表示部１０６に表示させる。音声出力部１１２は、復号された音声データを内蔵または、取付けられた外部スピーカから出力させる。本実施形態の撮像装置１００は、以上のように、画像および音声の記録再生を行うことができる。

図２は、本実施形態の音声処理部１０３の構成例を示す図である。図３は、音声処理部１０３の出力波形を示す図である。音声処理部１０３は、音声処理装置である。以下、音声処理部１０３が行う音声処理方法について説明する。増幅部２０１は、第１の増幅率で、入力された音声信号を増幅する。増幅部２０２は、増幅部２０１の第１の増幅率よりも低い第２の増幅率で、入力された音声信号を増幅する。ＡＤＣ部２０３は、増幅部２０１で増幅された音声信号をアナログからデジタルに変換する。ＡＤＣ部２０４は、増幅部２０２で増幅された音声信号をアナログからデジタルに変換する。増幅部２０５は、減衰部であり、増幅部２０１における第１の増幅率と増幅部２０２における第２の増幅率の差分だけ、ＡＤＣ部２０３でアナログデジタル変換された音声信号を減衰させる。レベル検出部２０６は、増幅部２０５で減衰させられた音声信号のレベルを検出する。音声信号のレベルは、音声信号の振幅である。ゼロクロス検出部２０７は、増幅部２０５で減衰させられた音声信号のゼロクロス（時刻３０５）を検出する。ゼロクロスは、増幅部２０５が出力する音声信号の振幅がゼロになる時刻３０５の点である。ゲイン差補正部２０８は、増幅部２０５が出力する音声信号とＡＤＣ部２０４が出力する音声信号とのゲイン差を補正する。そのゲイン差は、増幅部２０１，２０２や、ＡＤＣ部２０３，２０４を構成するハードウェアの特性の違いなどに基づいて発生する。例えば、ゲイン差補正部２０８は、増幅部２０５で減衰させられた音声信号の微分値と、ＡＤＣ部２０４でアナログデジタル変換された音声信号の微分値の差分を積分し、その積分結果がゼロに近づくように、ＡＤＣ部２０４でＡＤ変換された音声信号を補正する。ＤＣオフセット補正部２０９は、増幅部２０５が出力する音声信号とゲイン差補正部２０８が出力する音声信号とのＤＣオフセットの差を補正する。ＤＣオフセットは、ＡＤＣ部２０３および２０４を構成するハードウェアの特性の違いなどに基づいて発生する。例えば、ＤＣオフセット補正部２０９は、増幅部２０５で減衰させられた音声信号と、ゲイン差補正部２０８で補正された音声信号の差分を積分し、その積分結果がゼロに近づくように、ゲイン差補正部２０８で補正された音声信号を補正する。周波数検出部２１０は、ＡＤＣ部２０４でアナログデジタル変換された音声信号の周波数を検出する。レベル差検出部２１１は、増幅部２０５で減衰させられた音声信号と、ＤＣオフセット補正部２０９で補正された音声信号のレベル差を検出する。レベル差補正部２１２は、レベル差検出部２１１で検出されたレベル差に応じて、増幅部２０５で減衰させられた音声信号のレベルを補正する。レベル差補正部２１３は、レベル差検出部２１１で検出されたレベル差に応じて、ＤＣオフセット補正部２０９で補正された音声信号のレベルを補正する。信号選択部２１４は、出力部であり、レベル検出部２０６の検出結果によって、レベル差補正部２１２でレベルを補正された信号と、レベル差補正部２１３でレベルを補正された信号のどちらかを選択して出力する。

音声処理部１０３は、入力された音声信号に対して、高い第１の増幅率で増幅した高Ｓ／Ｎの信号（以下、ハイゲインの信号）と、低い第２の増幅率で増幅した最大入力レベルが高い信号（以下、ローゲインの信号）を生成する。そして、音声処理部１０３は、入力された音声信号の振幅が小さいときにはハイゲインの信号を出力し、入力された音声信号の振幅が大きくなったときにはローゲインの信号を出力する。音声処理部１０３は、入力音声信号の振幅の絶対値が閾値よりも小さい場合に高い第１の増幅率で増幅してＡＤＣ部２０３によりデジタル信号に変換した音声を選択する。これにより、ＡＤＣ部２０３のダイナミックレンジを一杯に使用した、Ｓ／Ｎのよい音声を取得することができる。また、音声処理部１０３は、入力された音声信号の振幅の絶対値が閾値よりも大きくなった場合には低い第２の増幅率で増幅し、ＡＤＣ部２０４でデジタル信号に変換した音声を選択することで、出力される音声が歪んでしまうことを防ぐことができる。ここで、ハイゲインの音声とローゲインの音声の出力を切り替えるための音声レベルの閾値は、ハイゲインの信号が０ｄＢＦＳに近づき、歪みが発生するレベルより低いレベルに設定する。

信号選択部２１４は、レベル検出部２０６により検出されるレベルの絶対値が閾値より小さい場合には、レベル差補正部２１２が出力する音声信号を選択し、その選択した音声信号を出力する。また、信号選択部２１４は、レベル検出部２０６により検出されるレベルの絶対値が閾値より大きい場合には、レベル差補正部２１３が出力する音声信号を選択し、その選択した音声信号を出力する。なお、信号選択部２１４は、音声処理部１０３の入力音声信号のレベルに応じて選択するものであればよい。

入力された音声信号は、増幅部２０１で増幅された後、ＡＤＣ部２０３でアナログデジタル変換される。また、入力信号は、増幅部２０１よりも低い増幅率で、増幅部２０２で増幅された後、ＡＤＣ部２０４でアナログデジタル変換される。ＡＤＣ部２０３でアナログデジタル変換されたハイゲインの信号は、増幅部２０５で、増幅部２０１および２０２の増幅率の差分だけ減衰されることで、ＡＤＣ部２０４でアナログデジタル変換されたローゲインの信号とデジタル領域で同じレベルになる。増幅部２０５で減衰されたハイゲインの信号は、レベル検出部２０６でレベルを検出される。レベル検出部２０６は、ハイゲインの信号の振幅の絶対値が閾値を超えたかどうかを判定する。閾値は、ハイゲインの信号が歪みはじめるよりも低いレベルであり、かといって低すぎると、ローゲインの信号にとって、Ｓ／Ｎが悪い領域で使用されることになる。そのため、ハイゲインの信号とローゲインの信号に印加するゲイン差を＋１２ｄＢ〜＋２０ｄＢ程度とし、閾値は高Ｓ／Ｎの信号の−６ｄＢＦＳ程度が好適である。

ＡＤＣ部２０４でアナログデジタル変換されたローゲインの信号は、増幅部２０５で減衰されたハイゲインの信号と、デジタル領域で同じレベルになることが想定される。しかし、実際は、増幅部２０１および２０２での増幅率のバラツキやＡＤＣ部２０３および２０４での感度バラツキ等が必ず発生するため、厳密には同じレベルにはならない。ゲイン差補正部２０８は、上記のレベル差を補正する。具体的には、ゲイン差補正部２０８は、増幅部２０５で減衰させられたハイゲインの音声信号の微分値と、ＡＤＣ部２０４でアナログデジタル変換されたローゲインの音声信号の微分値の差分を積分する。そして、ゲイン差補正部２０８は、その積分結果がゼロに近づくように、ＡＤＣ部２０４でアナログデジタル変換された音声信号を補正することでゲイン差を補正可能である。

また、ＡＤＣ部２０３および２０４は、アナログデジタル変換結果に固有のＤＣオフセットを持つ可能性があるため、ＤＣオフセット補正部２０９は、各ＡＤＣ２０３および２０４でのＤＣオフセットの差分を補正する。具体的には、ＤＣオフセット補正部２０９は、増幅部２０５で減衰させられたハイゲインの音声信号と、ゲイン差補正部２０８で補正されたローゲインの音声信号との差分を積分する。そして、ＤＣオフセット補正部２０９は、その積分結果がゼロに近づくように、ゲイン差補正部２０８で補正された音声信号を補正することで、ＤＣオフセットの差分を補正可能である。このように、ＡＤＣ部２０４でアナログデジタル変換されたローゲインの音声信号は、ゲイン差とＤＣオフセット差を補正される。信号選択部２１４は、レベル検出部２０６により検出されたレベルの絶対値が閾値以下の場合、レベル差補正部２１２が出力するハイゲインの音声信号を選択して出力する。また、レベル検出部２０６により検出されたレベルの絶対値が閾値よりも大きい場合、増幅部２０５で減衰させられたハイゲインの音声信号には、増幅部２０１やＡＤＣ部２０３で発生した歪みが発生する。そのため、信号選択部２１４は、レベル検出部２０６により検出されたレベルの絶対値が閾値より大きい場合、レベル差補正部２１３が出力するローゲインの音声信号を選択して出力する。

ここで、低周波のバースト状の音声信号が入力された際に、ハイゲインの音声信号とローゲインの音声信号を切り替える際のつなぎ目が音として認識されることがある。ここでいう低周波とは、特に１００Ｈｚ以下の周波数を示し、信号選択部２１４の後段で、低周波をカットする信号処理と、信号を増幅させる信号処理が行われる場合に発生する。低周波のバースト状の音声信号が入力された場合、基本波のバースト状の音声信号の信号選択部２１４における切り替えのつなぎ目は、人間の耳で認識できないレベルまで小さくすることができる。しかし、風雑音除去のような低周波をカットする信号処理が行われる場合、基本波のみがカットされ、つなぎ目のレベルは変わらない。さらにその後、レベル制御回路のような信号を増幅させる信号処理が行われる場合には、カットされた基本波とつなぎ目がともに増幅されるため、つなぎ目が音として認識されることがある。このような現象に対して、微小なつなぎ目もなくした音声信号を出力する構成を、図３をあわせて用いて説明する。

上記の微小なつなぎ目もなくした音声信号を出力するため、レベル差検出部２１１は、ハイゲインの信号とローゲインの信号とのレベル差を検出する。そして、ハイゲインの信号とローゲインの信号の一方から他方への切り替え後に選択される信号に対して、検出されたレベル差を補正する。低周波のバースト状の音声信号が入力された場合においても、信号選択部２１４は、レベル検出部２０６により検出されたレベルの絶対値が閾値以下である場合には、レベル差補正部２１２が出力するハイゲインの信号を出力する。

時刻３０１では、レベル差検出部２１１は、レベル検出部２０６により検出されたレベルの絶対値が閾値より大きくなると、増幅部２０５が出力するハイゲインの信号とＤＣオフセット補正部２０９が出力するローゲインの信号とのレベル差を検出する。そして、レベル差検出部２１１は、レベル差に応じたゲインをレベル差補正部２１３に出力する。レベル差補正部２１３は、レベル差検出部２１１により検出されたレベル差が小さくなる（ここではレベル差をゼロに補正する）ように、補正のためのゲインを決定し、ＤＣオフセット補正部２０９が出力するローゲインの信号に対して印加する。信号選択部２１４は、レベル検出部２０６により検出されたレベルの絶対値が閾値より大きい場合には、レベル差補正部２１３が出力するローゲインの信号を選択して出力する。

期間３０２は、レベル検出部２０６により検出されるレベルの絶対値が閾値より大きい期間である。期間３０２では、レベル差補正部２１３は、レベル差検出部２１１が検出したレベル差をゼロに補正するようなゲインを、ＤＣオフセット補正部２０９が出力するローゲインの信号に印加し続ける。期間３０２では、信号選択部２１４は、レベル差補正部２１３が出力するローゲインの信号を選択して出力する。

また、時刻３０３では、レベル差検出部２１１は、レベル検出部２０６により検出されたレベルの絶対値が閾値以下になると、レベル差補正部２１３で補正されるゲインを考慮し、ハイレベルの信号とローレベルの信号とのレベル差を検出する。すなわち、レベル差検出部２１１は、増幅部２０５が出力するハイゲインの信号と、レベル差補正部２１３が出力するローゲインの信号とのレベル差を検出する。そして、レベル差検出部２１１は、レベル差に応じたゲインをレベル差補正部２１２に出力する。レベル差補正部２１２は、レベル差検出部２１１により検出されたレベル差をゼロに補正するようなゲインを、増幅部２０５が出力するハイゲインの信号に対して印加する。すなわち、レベル差補正部２１２は、レベル差補正部２１３の補正値に応じて、増幅部２０５が出力するハイゲインの信号のレベルを補正する。信号選択部２１４は、レベル検出部２０６により検出されたレベルの絶対値が閾値以下である場合には、レベル差補正部２１２が出力するハイゲインの信号を選択して出力する。

期間３０４は、レベル検出部２０６により検出されるレベルの絶対値が閾値以下の期間である。期間３０４では、レベル差補正部２１２は、レベル差検出部２１１が検出したレベル差をゼロに補正するようなゲインを、増幅部２０５が出力するハイゲインの信号に印加し続ける。期間３０４では、信号選択部２１４は、レベル差補正部２１２が出力するハイゲインの信号を選択して出力する。

時刻３０５では、ゼロクロス検出部２０７は、増幅部２０５が出力する信号の振幅がゼロになるゼロクロスを検出した際に、レベル差補正部２１２におけるゲインをリセットする。ここで、周波数検出部２１０は、ＡＤＣ部２０４が出力するローゲインの信号の周波数成分を検出する。周波数検出部２１０は、検出した周波数成分のうちの周波数閾値以下の成分が支配的である場合にはレベル差検出部２１１を動作させ、検出した周波数成分のうちの周波数閾値より高い成分が支配的である場合にはレベル差検出部２１１を動作させない。

すなわち、周波数検出部２１０は、ＡＤＣ部２０４が出力する音声信号の主周波数成分を検出する。周波数検出部２１０は、検出した主周波数が周波数閾値以下である場合にはレベル差検出部２１１を動作させ、検出した主周波数が周波数閾値より高い場合にはレベル差検出部２１１を動作させない。レベル差補正部２１２及び２１３は、ＡＤＣ部２０４が出力する音声信号の主周波数が周波数閾値以下である場合には補正し、ＡＤＣ部２０４が出力する音声信号の主周波数が周波数閾値より高い場合には補正しない。

本実施形態によれば、リニアリティを維持しつつ、広いダイナミックレンジの音声信号を取得することができる。

なお、レベル検出部２０６は、音声処理部１０３の入力音声信号またはＡＤＣ部２０４の出力音声信号のレベルの絶対値を検出してもよい。また、ゼロクロス検出部２０７は、音声処理部１０３の入力音声信号またはＡＤＣ部２０４の出力音声信号のゼロクロスを検出してもよい。また、周波数検出部２１０は、音声処理部１０３の入力音声信号または増幅部２０５の出力音声信号の主周波数を検出してもよい。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

なお、上記実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

２０１，２０２増幅部、２０３，２０４ＡＤＣ部、２０５増幅部、２０６レベル検出部、２０７ゼロクロス検出部、２０８ゲイン差補正部、２０９ＤＣオフセット補正部、２１０周波数検出部、２１１レベル差検出部、２１２，２１３レベル差補正部、２１４信号選択部

Claims

第１の増幅率で第１の音声信号を増幅する第１の増幅部と、
前記第１の増幅率より低い第２の増幅率で前記第１の音声信号を増幅する第２の増幅部と、
前記第１の増幅部が出力する音声信号をアナログからデジタルに変換する第１のＡＤＣ部と、
前記第２の増幅部が出力する音声信号をアナログからデジタルに変換する第２のＡＤＣ部と、
前記第１の増幅率と前記第２の増幅率の差分に応じて、前記第１のＡＤＣ部が出力する音声信号を減衰させる減衰部と、
前記減衰部が出力する音声信号のゲインおよびＤＣオフセットに応じて、前記第２のＡＤＣ部が出力する音声信号のゲインおよびＤＣオフセットを補正する第１の補正部と、
前記減衰部が出力する音声信号の振幅と前記第１の補正部が出力する音声信号の振幅との差に応じて、前記減衰部が出力する音声信号の振幅を補正する第２の補正部と、
前記減衰部が出力する音声信号の振幅と前記第１の補正部が出力する音声信号の振幅との差に応じて、前記第１の補正部が出力する音声信号の振幅を補正する第３の補正部と、
前記第１の音声信号の振幅の絶対値が前記第１の閾値以下である場合には、前記第２の補正部が出力する音声信号を出力し、前記第１の音声信号の振幅の絶対値が前記第１の閾値より大きい場合には、前記第３の補正部が出力する音声信号を出力する出力部とを有し、
前記第２の補正部および前記第３の補正部はそれぞれ、前記第１の音声信号の主周波数が第２の閾値より高い場合には補正を行わないようにすることを特徴とする音声処理装置。
前記第２の補正部は、前記第３の補正部の補正値に応じて、前記減衰部が出力する音声信号の振幅を補正することを特徴とする請求項１に記載の音声処理装置。
前記第２の補正部は、前記第１の音声信号の振幅がゼロである場合には補正しないことを特徴とする請求項１または２に記載の音声処理装置。
前記第２の補正部および前記第３の補正部は、前記第２のＡＤＣ部が出力する音声信号の主周波数が第３の閾値以下である場合には補正し、前記第２のＡＤＣ部が出力する音声信号の主周波数が前記第３の閾値より高い場合には補正しないことを特徴とする請求項１〜３のいずれか１項に記載の音声処理装置。
前記出力部は、前記減衰部が出力する音声信号の振幅の絶対値が第４の閾値以下である場合には、前記第２の補正部が出力する音声信号を出力し、前記減衰部が出力する音声信号の振幅の絶対値が前記第４の閾値より大きい場合には、前記第３の補正部が出力する音声信号を出力することを特徴とする請求項１〜４のいずれか１項に記載の音声処理装置。
前記第２の補正部は、前記減衰部が出力する音声信号の振幅がゼロである場合には補正しないことを特徴とする請求項１〜５のいずれか１項に記載の音声処理装置。
前記第１の補正部は、前記減衰部が出力する音声信号のゲインおよびＤＣオフセットと、前記第２のＡＤＣ部が出力する音声信号のゲインおよびＤＣオフセットとの差を補正することを特徴とする請求項１〜６のいずれか１項に記載の音声処理装置。
第１の増幅部が、第１の増幅率で第１の音声信号を増幅する第１の増幅ステップと、
第２の増幅部が、前記第１の増幅率より低い第２の増幅率で前記第１の音声信号を増幅する第２の増幅ステップと、
第１のＡＤＣ部が、前記第１の増幅部が出力する音声信号をアナログからデジタルに変換する第１の変換ステップと、
第２のＡＤＣ部が、前記第２の増幅部が出力する音声信号をアナログからデジタルに変換する第２の変換ステップと、
減衰部が、前記第１の増幅率と前記第２の増幅率の差分に応じて、前記第１のＡＤＣ部が出力する音声信号を減衰させる減衰ステップと、
第１の補正部が、前記減衰部が出力する音声信号のゲインおよびＤＣオフセットに応じて、前記第２のＡＤＣ部が出力する音声信号のゲインおよびＤＣオフセットを補正する第１の補正ステップと、
第２の補正部が、前記減衰部が出力する音声信号の振幅と前記第１の補正部が出力する音声信号の振幅との差に応じて、前記減衰部が出力する音声信号の振幅を補正する第２の補正ステップと、
第３の補正部が、前記減衰部が出力する音声信号の振幅と前記第１の補正部が出力する音声信号の振幅との差に応じて、前記第１の補正部が出力する音声信号の振幅を補正する第３の補正ステップと、
出力部が、前記第１の音声信号の振幅の絶対値が前記第１の閾値以下である場合には、前記第２の補正部が出力する音声信号を出力し、前記第１の音声信号の振幅の絶対値が前記第１の閾値より大きい場合には、前記第３の補正部が出力する音声信号を出力する出力ステップとを有し、
前記第２の補正ステップおよび前記第３の補正ステップではそれぞれ、前記第１の音声信号の主周波数が第２の閾値より高い場合には補正を行わないようにすることを特徴とする音声処理方法。