JP2009265422A

JP2009265422A - 情報処理装置及び情報処理方法

Info

Publication number: JP2009265422A
Application number: JP2008116031A
Authority: JP
Inventors: Yohei Sakuraba; 洋平櫻庭
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-04-25
Filing date: 2008-04-25
Publication date: 2009-11-12

Abstract

【課題】信号のダイナミックレンジが刻々と変化する場合において、ダイナミックレンジを動的に最大化することができる情報処理の技術を提供する。
【解決手段】所定時間間隔毎に音声をサンプルして取得するA/D変換器１１を備えている。また、最大音量計算部１２１を備えている。そして、現在のサンプル周期におけるデジタル信号絶対値|s(t)|が現在のサンプル周期における音量最大値m(t)よりも大きいか、小さいかで、音量最大値m(t+1)(次のサンプル周期における情報最大値)が異なるように演算する。
【選択図】図１

Description

本発明は、情報処理装置及び情報処理方法に関する。

PCM(Pulse Code Modulation)レコーダーやIC(Integrated Circuit)レコーダーなどでは、マイクロフォンに入力された音声をディジタルデータとして記録媒体に録音する。録音時には、サンプリングレート48kHz、16bit量子化PCMのように、デジタル化された信号として保存される。例えば、小さい音を収音する際に、最も大きい音量の場所で10bit分しか振幅が振れない場合には、16bitで録音しても、10bitで録音したのと同じである。つまり、上位6bitを無駄に使っていることになる。また、ノイズが大きい環境で収音する際に、ノイズで7bit振幅が触れている場合には、9bitで録音したのと同じである。つまり、下位7bitを無駄に使っていることに相当する。前者の問題を解決するためには、最も大きい音量で16bitを使用するように、あらかじめ音量を調整しておくという対策が考えられる。後者の問題に対しては、指向性マイクを用いたり、ノイズ源を遠ざけたりして収音するという対策が考えられる。また、これらの処理を自動で行う技術も知られている。

上述した前者の問題に対する技術としては、コンプレッサ（リミッタ）がある。コンプレッサとは、あらかじめゲインを与えておき、ある閾値を超えた音量を圧縮する装置である。図１０は、コンプレッサの入出力のレベルの関係を示す図である。横軸が入力レベルで縦軸が出力レベルであり、単位はdBで表されている。図１０では、実線がコンプレッサの特性を表し、破線はコンプレッサを用いないときの特性を表す。コンプレッサには、大きい音の音量はそのままで、小さい音を持ち上げる効果がある。しかし、目的音声だけではなく、同時にノイズレベルが大きくなるという問題がある。

上述した後者の問題に対する技術としては、処理を自動で行うものとしてノイズゲートがある。ノイズゲートは、ある閾値に達しない音量を圧縮する装置である。図１１は、ノイズゲートの入出力の関係を示す図である。横軸が入力レベルで縦軸が出力レベルであり、単位はdBで表されている。図１１では、実線がノイズゲートの特性を表し、破線はノイズゲートを用いないときの特性を表す。ノイズゲートでは、大きい音量はそのままで、ノイズを抑圧する効果がある。しかし、ノイズだけではなく、小さい音声も同時に抑圧されてしまうという問題がある。
特開昭５８−１６６３９７号公報特開平１１−１５０７８４号公報特開平１１−１７５４９号公報

上述したコンプレッサ、ノイズゲートは対応する信号のダイナミックレンジが予め分かっている場合には、それぞれの本来の効果を発揮する有効な方法ではあるが、動的に信号のダイナミックレンジが変化する場合には効果を発揮できない場合が多かった。

本発明は上述した課題に鑑みてなされたものであり、信号のダイナミックレンジが刻々と変化する場合において、ダイナミックレンジを動的に最大化することができる情報処理の技術を提供するものである。

本発明の情報処理装置は、情報を逐次取得する情報取得部と、前記情報の最大値である情報最大値を求める最大値計算部と、前記情報のノイズレベルを求めるノイズレベル計算部と、前記情報最大値と前記ノイズレベルとに基づいてダイナミックレンジを動的に圧縮または伸張する圧縮伸張部と、を備えた。

本発明の情報処理方法は、情報取得部が情報を逐次取得し、最大値計算部が前記情報の最大値である情報最大値を求め、ノイズレベル計算部が前記情報のノイズレベルを求め、圧縮伸張部が前記情報最大値と前記ノイズレベルとに基づいてダイナミックレンジを動的に圧縮または伸張する。

本発明の情報処理の技術では、最大値計算部が情報最大値を求め、ノイズレベル計算部がノイズレベルを求め、圧縮伸張部が情報最大値とノイズレベルとに基づいてダイナミックレンジを動的に圧縮または伸張する。このようにして、ダイナミックレンジを動的に最大化する。

本発明の情報処理の技術によれば、最大値計算部とノイズレベル計算部と圧縮伸張部とを有して、ダイナミックレンジを動的に最大化することができる技術を提供することができる。

実施形態の情報処理装置、情報処理方法では、時間とともにその大きさが変化する種々の情報を処理する。このような情報としては、例えば、音声が代表的なものであるので、以下では、情報が音声である場合について説明を行う。実施形態の情報処理装置では、情報取得部と、最大値計算部と、ノイズレベル計算部と、圧縮伸張部と、を有している。情報取得部は逐次情報を取得する。ここで逐次とは、時間が連続的、時間が離散的の両方の意味を含むものである。最大値計算部は情報の最大値である情報最大値を求める。ここで、情報最大値とは、所定区間における最大値をいうのみならず、その所定区間での情報の最も大きなレベルに応じた値を含むものである。つまり、情報最大値と所定区間での情報の最も大きなレベルとは正確には一致しないものであっても良い。また、ノイズレベル計算部は情報のノイズレベルを求める。ここで、ノイズレベルとは、原則は情報をまったく構成しない成分をノイズと字義の通りに定義してこのレベルを言うものである。しかしながら、字義の通りのノイズレベルの検出には、ノイズと情報との厳密な分離をしなければならず困難が伴うところから、実施形態では、情報の大きさが比較的小さな部分の情報の値をノイズレベルと称している。情報最大値とノイズレベルとは各々、時間の経過に応じて変化するものであるので、圧縮伸張部において、このような情報最大値とこのようなノイズレベルとに基づいてダイナミックレンジを動的に圧縮または伸張することができる。

（第１の実施形態）
図１に実施形態（第１の実施形態）の音声処理装置のブロック図を示す。音声処理装置１０は、A/D変換器１１と信号処理部１２とを有している。A/D変換器１１は、マイク１３と接続されており、マイク１３からの音響信号、例えば、音声信号をアナログ信号からデジタル信号に変換する。A/D変換器１１からのデジタル信号は信号処理部１２で処理されるが、この処理の内容については後述する。信号処理部１２からの処理された信号は、記録媒体に記録され、または、コーデックに入力されるようになされている。信号処理部１２は、実施形態ではDSP(Digital Signal Processor)で形成されているが、DSPに限らず、デジタルランダムロジック回路で形成するようにしても良い。

図２は、信号処理部１２の内部を示すブロック図である。信号処理部１２は最大音量計算部１２１とノイズレベル計算部１２２と圧縮伸張部１２３を有している。実施形態では、最大音量計算部１２１とノイズレベル計算部１２２と圧縮伸張部１２３とのすべてをDSPで形成して、DSPにおけるソフトウエア処理によってこれらの各部の機能を実現している。

A/D変換器１１からのデジタル信号s(t)は、最大音量計算部１２１とノイズレベル計算部１２２と圧縮伸張部１２３とに入力される。デジタル信号s(t)は最大音量計算部１２１とノイズレベル計算部１２２に入力されて、音響情報の音量の最大値である音量最大値m(t)が検出される。音量最大値m(t)は、DSPで構成される最大音量計算部１２１の内部においてデジタル演算によって計算されるが、この演算の内容については後述する。音量最大値m(t)はDSPで構成される圧縮伸張部１２３に入力される。

また、DSPで構成されるノイズレベル計算部１２２では、ノイズレベルn(t)を演算する。この演算の内容については後述する。そして、ノイズレベルn(t)は圧縮伸張部１２３に入力される。

圧縮伸張部１２３では、音量最大値m(t)とノイズレベルn(t)とを用いて、ダイナミックレンジを調整してレンジ調整後信号x(t)を出力する。

音量最大値m(t)、ノイズレベルn(t)、レンジ調整後信号x(t)の各々をどのようにして求めるかについて説明をする。m(t+1)、n(t+1)は各々、１サンプル先（次のサンプル）の音量最大値とノイズレベルとの値を示すものである。また、|s(t)|はデジタル信号s(t)の絶対値（デジタル信号絶対値|s(t)|）である。

数１は、現在のデジタル信号絶対値|s(t)|が現在の音量最大値m(t)の値よりも大きいときに用いられる演算式である。数２は、現在の音量最大値m(t)の値が現在のデジタル信号絶対値|s(t)|よりも大きいときに用いられる演算式である。ここで、係数αと係数βについては、0<α<β<1の関係が成立するようにしている。

数３は、数１、数２と同じ形式の演算式であるが、係数γについては、0<γ<1であり、α、β<γの関係が成立するようにしている。ここで、係数α、係数β、係数γの各々は時間が経つにつれて以前の状態を忘却する忘却係数として作用するものである。

図３は、上述した、デジタル信号s(t)、デジタル信号絶対値|s(t)|と音量最大値m(t)とノイズレベルn(t)の各々の波形図である。横軸は、時間軸である。図３（Ａ）は、デジタル信号s(t)を示すものである。図３（Ｂ）は、図３（Ａ）に示すデジタル信号s(t)に対応する、デジタル信号絶対値|s(t)|、音量最大値m(t)とノイズレベルn(t)の各々について、時間軸を拡大してその一部を示すものである。

図３（Ａ）は、音響信号として、人間が話しをしているときの音声のある区間を採取したものである。デジタル信号s(t)はこの採取した信号である。音声の発声中（図３（Ａ）の区間ｂ）は、振幅が不規則に変化する。そして、振幅が大きい領域は少なく、振幅が小さい領域が占める割合が比較的に多い。また、人間が話しをしているときには、発声がされない無音部（図３の区間ａ、図３の区間ｃ）が多くの部分を占めている。この無音部においてはノイズの影響が表れる。会話をしているときの人間の音声はこのような特徴を有する。

図３（Ｂ）は、図３（Ａ）の区間ｂの一部を拡大した図であり、数１、数２、数３の演算を施して得られ、デジタル信号絶対値|s(t)|、音量最大値m(t)、ノイズレベルn(t)を示すものである。α、β<γの関係から、ノイズレベルn(t)はデジタル信号s(t)を長時間平均したと等価な信号波形で表され、上述した音声の特徴から、ノイズレベルn(t)の値は音声信号が存在しない場合の環境ノイズと略等しいものとなる。また、現在のデジタル信号絶対値|s(t)|が現在の音量最大値m(t)の値よりも大きいときには、数１の演算から数２の演算へと演算式が切り替わる。この切り替えによってより高速にデジタル信号絶対値|s(t)|の変化に応答して、音量最大値m(t)はデジタル信号絶対値|s(t)|のピーク値に追従することができるものとなる。

数４は、音量最大値m(t)とノイズレベルn(t)とからレンジ調整後信号x(t)を得る式を示すものである。ここで、関数ｆは、絶対値を取る関数である。

ここで、T1はダイナミックレンジの最大値（ダイナミックレンジ最大値T1）であり、T2はダイナミックレンジの最小値（ダイナミックレンジ最小値T2）である。ダイナミックレンジ最大値T1とダイナミックレンジ最小値T2とは、音声処理装置１０の操作者が適宜に定め得るものである。また、自動設定回路を用いて音声処理装置１０が自ら適宜に定めるようにしても良い。

数４は、ダイナミックレンジの変換に関する式であるが、デジタル信号s(t)は正負の値を有する信号であるので、レンジ調整後信号x(t)は最終的に利用される段階では再び正負の極性を付して用いられる。

絶対値を取る関数である関数ｆ(s(t))は、単にデジタル信号s(t)の絶対値であるデジタル信号絶対値|s(t)|を得る関数としても良いものである。また、デジタル信号s(t)の二乗の計算を得る関数としても良いものである。また、デジタル信号絶対値|s(t)|の平均値を用いても良いものである。ここで、関数ｆ(s(t))がどのようなものであるかによって、同一のデジタル信号s(t)に対して異なるレンジ調整後信号x(t)を得ることができることとなる。このようにして、関数ｆ(s(t))を異ならせて好みの音質を有するように調整することができる。なお、どのような関数とする場合においても、その関数から得られる値は、音量最大値m(t)とノイズレベルn(t)の範囲となるように規格化をされる。

上述した情報処理装置、すなわち、音声処理装置は、要約すると以下の特徴を有している。所定時間間隔毎に情報としての音声をサンプルして取得するA/D変換器１１（情報取得部）を備えている。また、最大音量計算部１２１（情報最大値計算部）を備えている。そして、最大音量計算部１２１では、以下の演算を行っている。すなわち、現在のサンプル周期におけるデジタル信号絶対値|s(t)|（情報の大きさの絶対値である情報絶対値）が現在のサンプル周期における音量最大値m(t)（情報最大値）よりも大きいか、小さいかで、異なる演算式を選択している。このようにして、音量最大値m(t+1)(次のサンプル周期における情報最大値)の値を修正している。

現在のサンプル周期におけるデジタル信号絶対値|s(t)|が現在のサンプル周期における音量最大値m(t)よりも大きい場合には、以下のようにして音量最大値m(t+1)(次のサンプル周期における情報最大値)を求める。１以下で０以上の値である係数α（第１の忘却係数）と音量最大値m(t)との乗算と、１から係数αを引いた値とデジタル信号絶対値|s(t)|との乗算値とを加算して、その加算値を音量最大値m(t+1)とする。以上の演算はサンプル周期毎に行う。

一方、現在のサンプル周期におけるデジタル信号絶対値|s(t)|が現在のサンプル周期における音量最大値m(t)よりも小さい場合には、以下のようにして音量最大値m(t+1)(次のサンプル周期における情報最大値)を求める。係数αよりも大きく１以下で０以上の値である係数β（第２の忘却係数）と音量最大値m(t)との乗算値と、１から係数βを引いた値とデジタル信号絶対値|s(t)|との乗算値とを加算して、その加算値を音量最大値m(t+1)とする。以上の演算はサンプル周期毎に行う。

また、ノイズレベル計算部１２２を備えており、以下の演算を行う。係数γと現在のサンプル周期におけるノイズレベルn(t)との乗算値と、１から係数γを引いた値とデジタル信号絶対値|s(t)|との乗算値とを加算して、ノイズレベルn(t+1)の演算をおこなう。ここで係数γは、第２の忘却係数である係数βよりも大きく１以下で０以上の値である第３の忘却係数である。

また、圧縮伸張部１２３を備えており、圧縮伸張部１２３は、音量最大値m(t)とノイズレベルn(t)とに基づいてダイナミックレンジを動的に圧縮または伸張する。圧縮伸張の演算は、種々の演算が考えられる。上述した実施形態では以下の演算をしている。予め定めるダイナミックレンジの最大値であるダイナミックレンジ最大値T1から予め定めるダイナミックレンジの最小値であるダイナミックレンジ最小値T2を減じた第１の演算結果を得る。音量最大値m(t)（情報最大値）からノイズレベルn(t)を減じた第２の演算結果を得る。デジタル信号s(t)を変数とする正値を取る関数ｆの値（情報の絶対値を得る関数の値）からノイズレベルを減じた結果を乗算して第３の演算結果を得る。そして、第１の演算結果を第２の演算結果で除し、さらに、第３の演算結果を乗算して、さらに、この乗算結果にダイナミックレンジ最小値T2を加算する。このようにして、レンジ調整後信号x(t)を得ることができる。

上述した、レンジ調整後信号x(t)を得る演算の内容を要約すれば、音量最大値m(t)とノイズレベルn(t)の範囲にしか音声の振幅が存在しないという前提で音声情報を処理するものである。そして、音量最大値m(t)をダイナミックレンジ最大値T1に割り付けて、ノイズレベルn(t)をダイナミックレンジ最小値T2に割り付けるものである。また、音量最大値m(t)とノイズレベルn(t)の間の音声信号のレベルは、その大きさに応じてダイナミックレンジ最大値T1とダイナミックレンジ最小値T2との間に割り付けられる。数４はこの変換式を示すものである。

圧縮伸張部１２３における演算のいくつかの実施例について説明をする。デジタル信号s(t)の絶対値であるデジタル信号絶対値|s(t)|を関数ｆ(s(t))として得るようにした場合のデジタル信号絶対値|s(t)|と、レンジ調整後信号x(t)とのダイナミックレンジの関係を図４〜図８を参照して説明をする。

（第１の実施例）
図４は第１の実施例の演算の結果をグラフとして示す図である。第１の実施例は、音量最大値m(t)の値が-10dB、ノイズレベルn(t)の値が-40dBの場合において、レンジ調整後信号x(t)のダイナミックレンジを0〜-30dBの範囲に変換する場合の例である。グラフの横軸は、デジタル信号絶対値|s(t)|を示し、グラフの縦軸は、レンジ調整後信号x(t)を示すものである。

図４は、数４を用いて変換する前と変換をした後とを対比して示すものであり、破線は、変換をしない場合を示すグラフであるので、デジタル信号絶対値|s(t)|とレンジ調整後信号x(t)とのダイナミックレンジは等しいものである。実線で示すグラフは、数３に示す演算を行った後のグラフである。数４においてダイナミックレンジ最大値T1に0dBを代入し、ダイナミックレンジ最小値T2に-30dBを代入して実線で示すグラフは得られる。この場合には、実線で示すグラフは破線で示すグラフに対して、ゲインが10dB上げられたものとなっている。

（第２の実施例）
図５は第２の実施例の演算の結果をグラフとして示す図である。第２の実施例は、音量最大値m(t)の値が-10dB、ノイズレベルn(t)の値が-25dBの場合において、レンジ調整後信号x(t)のダイナミックレンジを0〜-30dBの範囲に変換する場合の例である。この場合は、第１の実施例に較べてノイズのレベルがより大きな場合に相当する。破線は、変換をしない場合を示すグラフである。

実線で示すグラフは、数４に示す演算を行った後のグラフである。数４においてダイナミックレンジ最大値T1に0dBを代入し、ダイナミックレンジ最小値T2に-30dBを代入して実線で示すグラフは得られる。この場合には、実線で示すグラフは破線で示すグラフに対して、ダイナミックレンジの伸張がなされていることが分かる。すなわち、デジタル信号絶対値|s(t)|のダイナミックレンジが30dBであるのに対して、レンジ調整後信号x(t)のダイナミックレンジは40dBである。このようにして、結果としてノイズが抑制されたと同様の効果を生じる。

（第３の実施例）
図６は第３の実施例の演算の結果をグラフとして示す図である。第３の実施例は、音量最大値m(t)の値が-10dB、ノイズレベルn(t)の値が-60dBの場合において、レンジ調整後信号x(t)のダイナミックレンジを0〜-30dBの範囲に変換する場合の例である。破線は、変換をしない場合を示すグラフである。

実線で示すグラフは、数４に示す演算を行った後のグラフである。数４においてダイナミックレンジ最大値T1に0dBを代入し、ダイナミックレンジ最小値T2に-30dBを代入して実線で示すグラフは得られる。この場合には、実線で示すグラフは破線で示すグラフに対して、ダイナミックレンジの圧縮がなされていることが分かる。結果として、小さな音量（レベル）の音声が大きくされて聞きやすくなる。

（第４の実施例）
図７は第４の実施例の演算の結果をグラフとして示す図である。第４の実施例は、音量最大値m(t)の値が0dB、ノイズレベルn(t)の値が-40dBの場合において、レンジ調整後信号x(t)のダイナミックレンジを0〜-30dBの範囲に変換する場合の例である。破線は、変換をしない場合を示すグラフである。

実線で示すグラフは、数４に示す演算を行った後のグラフである。数４においてダイナミックレンジ最大値T1に0dBを代入し、ダイナミックレンジ最小値T2に-30dBを代入して実線で示すグラフは得られる。この場合には、実線で示すグラフは破線で示すグラフに対してダイナミックレンジの圧縮がなされていることが分かる。結果として、小さな音量（レベル）の音声が大きくされて聞きやすくなる。

（第５の実施例）
図８は第５の実施例の演算の結果をグラフとして示す図である。第５の実施例は、音量最大値m(t)の値が0dB、ノイズレベルn(t)の値が-40dBの場合において、レンジ調整後信号x(t)のダイナミックレンジを0〜-60dBの範囲に変換する場合の例である。破線は、変換をしない場合を示すグラフである。

実線で示すグラフは、数４に示す演算を行った後のグラフである。数４においてダイナミックレンジ最大値T1に0dBを代入し、ダイナミックレンジ最小値T2に-60dBを代入して実線で示すグラフは得られる。この場合には、実線で示すグラフは破線で示すグラフに対して、ダイナミックレンジの伸張がなされていることが分かる。結果として、ノイズが抑圧されて聞きやすくなる。

（第２の実施形態）
図９に別の実施形態（第２の実施形態）の音声処理装置の信号処理部のブロック図を示す。図１に示す第１の実施形態におけると同様の部分には、同一の符号を付してその説明を省略する。図１に示す信号処理部１２を図９に示す信号処理部１２０に置き換えるのが第２の実施形態の音声処理装置である。

信号処理部１２０は、信号処理部１２０ａ、信号処理部１２０ｂ、信号処理部１２０ｃの３つの信号処理部を有している。その各々が図２に示す信号処理部と同様な構成を有している。信号処理部１２０ａは最大音量計算部１２１と同様な構成の最大音量計算部１２１ａを有している。また、信号処理部１２０ａはノイズレベル計算部１２２と同様な構成のノイズレベル計算部１２２ａを有している。また、信号処理部１２０ａは圧縮伸張部１２３と同様な構成の圧縮伸張部１２３ａを有している。信号処理部１２０ｂは最大音量計算部１２１と同様な構成の最大音量計算部１２１ｂを有している。また、信号処理部１２０ｂはノイズレベル計算部１２２と同様な構成のノイズレベル計算部１２２ｂを有している。また、信号処理部１２０ｂは圧縮伸張部１２３と同様な構成の圧縮伸張部１２３ｂを有している。信号処理部１２０ｃは最大音量計算部１２１と同様な構成の最大音量計算部１２１ｃを有している。また、信号処理部１２０ｃはノイズレベル計算部１２２と同様な構成のノイズレベル計算部１２２ｃを有している。また、信号処理部１２０ｃは圧縮伸張部１２３と同様な構成の圧縮伸張部１２３ｃを有している。

また、信号処理部１２０ａはフィルタ１２４ａを有しており、信号処理部１２０ｂはフィルタ１２４ｂを有しており、信号処理部１２０ｃはフィルタ１２４ｃを有している。この３つのフィルタはフィルタバンクを形成しており、デジタル信号s(t)を３つの帯域に分けている。例えば、デジタル信号s(t)の帯域が0〜24KHzである場合には、フィルタ１２４ａの帯域は0〜8KHz、フィルタ１２４ｂの帯域は8KHz〜16KHz、フィルタ１２４ｃの帯域は16KHz〜24KHzとされている。フィルタ１２４ａからはデジタル信号sa(t)、フィルタ１２４ｂからはデジタル信号sb(t)、フィルタ１２４ｃからはデジタル信号sc(t)が各々出力される。ここで、フィルタ１２４ａ、フィルタ１２４ｂ、フィルタ１２４ｃは、DSPにおいてデジタルフィルタとして構成されているので、通常用いられる、オーバーサンプリングフィルタ（インターポレータ）として構成されている。

このような、フィルタ１２４ａ、フィルタ１２４ｂ、フィルタ１２４ｃからの出力であるデジタル信号sa(t)、デジタル信号sb(t)、デジタル信号sc(t)の各々はオーバーサンプリングされた信号である。そして、信号処理部１２０ａ、信号処理部１２０ｂ、信号処理部１２０ｃの各々もオーバーサンプリングクロックで動作するが、その動作原理は、第１の実施形態におけると変わる点はない。信号処理部１２０ａでは、音量最大値m(t)に替えて音量最大値ma(t)、ノイズレベルn(t)に替えてノイズレベルna(t)が用いられて、第１の実施形態におけると同様の処理が圧縮伸張部１２３ａで行われる。信号処理部１２０ｂでは、音量最大値m(t)に替えて音量最大値mb(t)、ノイズレベルn(t)に替えてノイズレベルnb(t)が用いられて、第１の実施形態におけると同様の処理が圧縮伸張部１２３ｂで行われる。信号処理部１２０ｃでは、音量最大値m(t)に替えて音量最大値mc(t)、ノイズレベルn(t)に替えてノイズレベルnc(t)が用いられて、第１の実施形態におけると同様の処理が圧縮伸張部１２３ｃで行われる。

信号処理部１２０ａ、信号処理部１２０ｂ、信号処理部１２０ｃからの信号は加算されて、フィルタ１２５に入力される。フィルタ１２５は、通常用いられるデシメーションフィルタであり、フィルタ１２５を用いることによって、第１の実施形態の信号処理部１２と同じサンプリングレートの出力信号が記録媒体、コーデックなどへ供給される。

このようにして、第２の実施形態では、音声信号を周波数分割して帯域毎にダイナミックレンジの最適化を行うことができる。

実施形態の音声処理の技術では、ダイナミックレンジを動的に最大化することによって、目的音声を聞きやすくし、定常ノイズを抑圧することができる。具体的には、ある範囲での音声信号の略最大値と音声信号の略最小値とを演算によって検出してこれらに基づき、ダイナミックレンジを動的に最大化している。例えば、PCMレコーダーやICレコーダーなどの録音に際して、この技術を採用すれば効果が高い。特にリアルタイムの収音において、目的音声の音量を適切に調整し、定常ノイズを抑圧して目的音声を聞きやすくすることができるという効果を生じる。また、あらかじめ音量調整をそのときの状況に合わせて行っておく面倒な調整を不要として、ノイズ源を遠ざける必要がなくなる。

（実施形態のその他の変形例）
上述した実施形態では、音量最大値m(t)、音量最大値ma(t)、音量最大値mb(t)、音量最大値mc(t)の検出においては、低域通過フィルタと同様の機能を果たす、数１に示す式を用いた。しかしながら、これに替えて過去の入力信号の最大値を覚えておき、これを音量最大値とするようにしても良い。

また、上述した実施形態では、ノイズレベルn(t)、ノイズレベルna(t)、ノイズレベルnb(t)、ノイズレベルnc(t)の検出においては、時定数が長い低域通過フィルタと同様の機能を果たす、数２に示す式を用いた。しかしながら、これに替えて過去の入力信号の最小値を覚えておき、これをノイズレベルとするようにしても良い。さらに、ノイズレベルの検出においては、積分、移動加算などを用いてデジタル信号s(t)の平均値を得るようにしても良い。また、さらに、ノイズレベルn(t)をデジタル信号絶対値|s(t)|が下回る場合には、γの値をより小さな値に切り替えて、次のサンプル周期でのノイズレベルn(t+1)を得るに際して、応答性を高めるようにしても良い。また、これらの種々の音量最大値の検出方法、ノイズレベルの検出方法を適宜に組み合わせることができることは言うまでもない。

また、上述した実施形態では、情報は音声情報であるとして説明をしたが、音声情報に限らず、同様の性質を有する音楽などの音響情報であれば、実施形態におけると同様の各部の作用によって同様の効果が得られる。さらに、映像信号であっても同様の性質を有する信号であれば、同様の作用効果が得られるものである。

実施形態の音声処理装置のブロック図を示す図である。信号処理部の内部を示すブロック図である。デジタル信号、デジタル信号絶対値と音量最大値とノイズレベルの各々の、時間を横軸とする波形図である。第１の実施例の演算の結果をグラフとして示す図である。第２の実施例の演算の結果をグラフとして示す図である。第３の実施例の演算の結果をグラフとして示す図である。第４の実施例の演算の結果をグラフとして示す図である。第５の実施例の演算の結果をグラフとして示す図である。別の実施形態の音声処理装置の信号処理部のブロック図を示す図である。コンプレッサの入出力のレベルの関係を示す図である。ノイズゲートの入出力の関係を示す図である。

符号の説明

１０音声処理装置、１１ A/D変換器、１２、１２０、１２０ａ、１２０ｂ、１２０ｃ信号処理部、１３マイク、１２１、１２１ａ、１２１ｂ、１２１ｃ最大音量計算部、１２２、１２２ａ、１２２ｂ、１２２ｃノイズレベル計算部、１２３、１２３ａ、１２３ｂ、１２３ｃ、圧縮伸張部、１２４ａ、１２４ｂ、１２４ｃ、１２５フィルタ

Claims

情報を逐次取得する情報取得部と、
前記情報の最大値である情報最大値を求める最大値計算部と、
前記情報のノイズレベルを求めるノイズレベル計算部と、
前記情報最大値と前記ノイズレベルとに基づいてダイナミックレンジを動的に圧縮または伸張する圧縮伸張部と、
を備える情報処理装置。
前記情報最大値を逐次求める前記情報最大値計算部と、
前記ノイズレベルを逐次求める前記ノイズレベル計算部と、
前記情報最大値と前記ノイズレベルとに基づいてダイナミックレンジを逐次動的に圧縮または伸張する前記圧縮伸張部と、
を備える請求項１に記載の情報処理装置。
所定時間間隔毎に前記情報をサンプルして取得する前記情報取得部と、
現在のサンプル周期における前記情報の大きさの絶対値である情報絶対値が現在のサンプル周期における前記情報最大値よりも大きいときは、１以下で０以上の値である第１の忘却係数と現在のサンプル周期における前記情報最大値との乗算値と、１から前記第１の忘却係数を引いた値と前記情報絶対値との乗算値とを加算して、次のサンプル周期における前記情報最大値とし、
現在のサンプル周期における前記情報絶対値が現在のサンプル周期における前記情報最大値よりも小さいときは、前記第１の忘却係数よりも大きく１以下で０以上の値である第２の忘却係数と現在のサンプル周期における前記情報最大値との乗算値と、１から前記第２の忘却係数を引いた値と前記情報絶対値との乗算値とを加算して、次のサンプル周期における前記情報最大値とする演算をサンプル周期毎に行う前記情報最大値計算部と、
前記第２の忘却係数よりも大きく１以下で０以上の値である第３の忘却係数と現在のサンプル周期における前記ノイズレベルとの乗算値と、１から前記第３の忘却係数を引いた値と前記情報絶対値との乗算値とを加算して、次のサンプル周期における前記ノイズレベルとする前記ノイズレベル計算部と、
を具備する請求項２に記載の情報処理装置。
前記ダイナミックレンジの大きさをあらかじめ設定した値にする圧縮伸張部を備える請求項２に記載の情報処理装置。
前記情報最大値にダイナミックレンジ最大値を割付け、前記ノイズレベルにダイナミックレンジ最小値を割り付ける圧縮伸張部を備える請求項４に記載の情報処理装置。
前記情報を帯域分割する複数のフィルタを有するフィルタバンクと、
前記フィルタバンクから出力される帯域毎の各々の情報を処理する複数個からなる前記情報最大値計算部と前記ノイズレベル計算部と前記圧縮伸張部と、を備える請求項２に記載の情報処理装置。
前記情報が音声である請求項２に記載の情報処理装置。
情報取得部が情報を逐次取得し、
最大値計算部が前記情報の最大値である情報最大値を求め、
ノイズレベル計算部が前記情報のノイズレベルを求め、
圧縮伸張部が前記情報最大値と前記ノイズレベルとに基づいてダイナミックレンジを動的に圧縮または伸張する情報処理方法。