JP2009265422A - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP2009265422A
JP2009265422A JP2008116031A JP2008116031A JP2009265422A JP 2009265422 A JP2009265422 A JP 2009265422A JP 2008116031 A JP2008116031 A JP 2008116031A JP 2008116031 A JP2008116031 A JP 2008116031A JP 2009265422 A JP2009265422 A JP 2009265422A
Authority
JP
Japan
Prior art keywords
information
value
noise level
maximum value
maximum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008116031A
Other languages
English (en)
Inventor
Yohei Sakuraba
洋平 櫻庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008116031A priority Critical patent/JP2009265422A/ja
Publication of JP2009265422A publication Critical patent/JP2009265422A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】信号のダイナミックレンジが刻々と変化する場合において、ダイナミックレンジを動的に最大化することができる情報処理の技術を提供する。
【解決手段】所定時間間隔毎に音声をサンプルして取得するA/D変換器11を備えている。また、最大音量計算部121を備えている。そして、現在のサンプル周期におけるデジタル信号絶対値|s(t)|が現在のサンプル周期における音量最大値m(t)よりも大きいか、小さいかで、音量最大値m(t+1)(次のサンプル周期における情報最大値)が異なるように演算する。
【選択図】図1

Description

本発明は、情報処理装置及び情報処理方法に関する。
PCM(Pulse Code Modulation)レコーダーやIC(Integrated Circuit)レコーダーなどでは、マイクロフォンに入力された音声をディジタルデータとして記録媒体に録音する。録音時には、サンプリングレート48kHz、16bit量子化PCMのように、デジタル化された信号として保存される。例えば、小さい音を収音する際に、最も大きい音量の場所で10bit分しか振幅が振れない場合には、16bitで録音しても、10bitで録音したのと同じである。つまり、上位6bitを無駄に使っていることになる。また、ノイズが大きい環境で収音する際に、ノイズで7bit振幅が触れている場合には、9bitで録音したのと同じである。つまり、下位7bitを無駄に使っていることに相当する。前者の問題を解決するためには、最も大きい音量で16bitを使用するように、あらかじめ音量を調整しておくという対策が考えられる。後者の問題に対しては、指向性マイクを用いたり、ノイズ源を遠ざけたりして収音するという対策が考えられる。また、これらの処理を自動で行う技術も知られている。
上述した前者の問題に対する技術としては、コンプレッサ(リミッタ)がある。コンプレッサとは、あらかじめゲインを与えておき、ある閾値を超えた音量を圧縮する装置である。図10は、コンプレッサの入出力のレベルの関係を示す図である。横軸が入力レベルで縦軸が出力レベルであり、単位はdBで表されている。図10では、実線がコンプレッサの特性を表し、破線はコンプレッサを用いないときの特性を表す。コンプレッサには、大きい音の音量はそのままで、小さい音を持ち上げる効果がある。しかし、目的音声だけではなく、同時にノイズレベルが大きくなるという問題がある。
上述した後者の問題に対する技術としては、処理を自動で行うものとしてノイズゲートがある。ノイズゲートは、ある閾値に達しない音量を圧縮する装置である。図11は、ノイズゲートの入出力の関係を示す図である。横軸が入力レベルで縦軸が出力レベルであり、単位はdBで表されている。図11では、実線がノイズゲートの特性を表し、破線はノイズゲートを用いないときの特性を表す。ノイズゲートでは、大きい音量はそのままで、ノイズを抑圧する効果がある。しかし、ノイズだけではなく、小さい音声も同時に抑圧されてしまうという問題がある。
特開昭58−166397号公報 特開平11−150784号公報 特開平11−17549号公報
上述したコンプレッサ、ノイズゲートは対応する信号のダイナミックレンジが予め分かっている場合には、それぞれの本来の効果を発揮する有効な方法ではあるが、動的に信号のダイナミックレンジが変化する場合には効果を発揮できない場合が多かった。
本発明は上述した課題に鑑みてなされたものであり、信号のダイナミックレンジが刻々と変化する場合において、ダイナミックレンジを動的に最大化することができる情報処理の技術を提供するものである。
本発明の情報処理装置は、情報を逐次取得する情報取得部と、前記情報の最大値である情報最大値を求める最大値計算部と、前記情報のノイズレベルを求めるノイズレベル計算部と、前記情報最大値と前記ノイズレベルとに基づいてダイナミックレンジを動的に圧縮または伸張する圧縮伸張部と、を備えた。
本発明の情報処理方法は、情報取得部が情報を逐次取得し、最大値計算部が前記情報の最大値である情報最大値を求め、ノイズレベル計算部が前記情報のノイズレベルを求め、圧縮伸張部が前記情報最大値と前記ノイズレベルとに基づいてダイナミックレンジを動的に圧縮または伸張する。
本発明の情報処理の技術では、最大値計算部が情報最大値を求め、ノイズレベル計算部がノイズレベルを求め、圧縮伸張部が情報最大値とノイズレベルとに基づいてダイナミックレンジを動的に圧縮または伸張する。このようにして、ダイナミックレンジを動的に最大化する。
本発明の情報処理の技術によれば、最大値計算部とノイズレベル計算部と圧縮伸張部とを有して、ダイナミックレンジを動的に最大化することができる技術を提供することができる。
実施形態の情報処理装置、情報処理方法では、時間とともにその大きさが変化する種々の情報を処理する。このような情報としては、例えば、音声が代表的なものであるので、以下では、情報が音声である場合について説明を行う。実施形態の情報処理装置では、情報取得部と、最大値計算部と、ノイズレベル計算部と、圧縮伸張部と、を有している。情報取得部は逐次情報を取得する。ここで逐次とは、時間が連続的、時間が離散的の両方の意味を含むものである。最大値計算部は情報の最大値である情報最大値を求める。ここで、情報最大値とは、所定区間における最大値をいうのみならず、その所定区間での情報の最も大きなレベルに応じた値を含むものである。つまり、情報最大値と所定区間での情報の最も大きなレベルとは正確には一致しないものであっても良い。また、ノイズレベル計算部は情報のノイズレベルを求める。ここで、ノイズレベルとは、原則は情報をまったく構成しない成分をノイズと字義の通りに定義してこのレベルを言うものである。しかしながら、字義の通りのノイズレベルの検出には、ノイズと情報との厳密な分離をしなければならず困難が伴うところから、実施形態では、情報の大きさが比較的小さな部分の情報の値をノイズレベルと称している。情報最大値とノイズレベルとは各々、時間の経過に応じて変化するものであるので、圧縮伸張部において、このような情報最大値とこのようなノイズレベルとに基づいてダイナミックレンジを動的に圧縮または伸張することができる。
(第1の実施形態)
図1に実施形態(第1の実施形態)の音声処理装置のブロック図を示す。音声処理装置10は、A/D変換器11と信号処理部12とを有している。A/D変換器11は、マイク13と接続されており、マイク13からの音響信号、例えば、音声信号をアナログ信号からデジタル信号に変換する。A/D変換器11からのデジタル信号は信号処理部12で処理されるが、この処理の内容については後述する。信号処理部12からの処理された信号は、記録媒体に記録され、または、コーデックに入力されるようになされている。信号処理部12は、実施形態ではDSP(Digital Signal Processor)で形成されているが、DSPに限らず、デジタルランダムロジック回路で形成するようにしても良い。
図2は、信号処理部12の内部を示すブロック図である。信号処理部12は最大音量計算部121とノイズレベル計算部122と圧縮伸張部123を有している。実施形態では、最大音量計算部121とノイズレベル計算部122と圧縮伸張部123とのすべてをDSPで形成して、DSPにおけるソフトウエア処理によってこれらの各部の機能を実現している。
A/D変換器11からのデジタル信号s(t)は、最大音量計算部121とノイズレベル計算部122と圧縮伸張部123とに入力される。デジタル信号s(t)は最大音量計算部121とノイズレベル計算部122に入力されて、音響情報の音量の最大値である音量最大値m(t)が検出される。音量最大値m(t)は、DSPで構成される最大音量計算部121の内部においてデジタル演算によって計算されるが、この演算の内容については後述する。音量最大値m(t)はDSPで構成される圧縮伸張部123に入力される。
また、DSPで構成されるノイズレベル計算部122では、ノイズレベルn(t)を演算する。この演算の内容については後述する。そして、ノイズレベルn(t)は圧縮伸張部123に入力される。
圧縮伸張部123では、音量最大値m(t)とノイズレベルn(t)とを用いて、ダイナミックレンジを調整してレンジ調整後信号x(t)を出力する。
音量最大値m(t)、ノイズレベルn(t)、レンジ調整後信号x(t)の各々をどのようにして求めるかについて説明をする。m(t+1)、n(t+1)は各々、1サンプル先(次のサンプル)の音量最大値とノイズレベルとの値を示すものである。また、|s(t)|はデジタル信号s(t)の絶対値(デジタル信号絶対値|s(t)|)である。
Figure 2009265422
Figure 2009265422

Figure 2009265422
数1は、現在のデジタル信号絶対値|s(t)|が現在の音量最大値m(t)の値よりも大きいときに用いられる演算式である。数2は、現在の音量最大値m(t)の値が現在のデジタル信号絶対値|s(t)|よりも大きいときに用いられる演算式である。ここで、係数αと係数βについては、0<α<β<1の関係が成立するようにしている。
数3は、数1、数2と同じ形式の演算式であるが、係数γについては、0<γ<1であり、α、β<γの関係が成立するようにしている。ここで、係数α、係数β、係数γの各々は時間が経つにつれて以前の状態を忘却する忘却係数として作用するものである。
図3は、上述した、デジタル信号s(t)、デジタル信号絶対値|s(t)|と音量最大値m(t)とノイズレベルn(t)の各々の波形図である。横軸は、時間軸である。図3(A)は、デジタル信号s(t)を示すものである。図3(B)は、図3(A)に示すデジタル信号s(t)に対応する、デジタル信号絶対値|s(t)|、音量最大値m(t)とノイズレベルn(t)の各々について、時間軸を拡大してその一部を示すものである。
図3(A)は、音響信号として、人間が話しをしているときの音声のある区間を採取したものである。デジタル信号s(t)はこの採取した信号である。音声の発声中(図3(A)の区間b)は、振幅が不規則に変化する。そして、振幅が大きい領域は少なく、振幅が小さい領域が占める割合が比較的に多い。また、人間が話しをしているときには、発声がされない無音部(図3の区間a、図3の区間c)が多くの部分を占めている。この無音部においてはノイズの影響が表れる。会話をしているときの人間の音声はこのような特徴を有する。
図3(B)は、図3(A)の区間bの一部を拡大した図であり、数1、数2、数3の演算を施して得られ、デジタル信号絶対値|s(t)|、音量最大値m(t)、ノイズレベルn(t)を示すものである。α、β<γの関係から、ノイズレベルn(t)はデジタル信号s(t)を長時間平均したと等価な信号波形で表され、上述した音声の特徴から、ノイズレベルn(t)の値は音声信号が存在しない場合の環境ノイズと略等しいものとなる。また、現在のデジタル信号絶対値|s(t)|が現在の音量最大値m(t)の値よりも大きいときには、数1の演算から数2の演算へと演算式が切り替わる。この切り替えによってより高速にデジタル信号絶対値|s(t)|の変化に応答して、音量最大値m(t)はデジタル信号絶対値|s(t)|のピーク値に追従することができるものとなる。
数4は、音量最大値m(t)とノイズレベルn(t)とからレンジ調整後信号x(t)を得る式を示すものである。ここで、関数fは、絶対値を取る関数である。
Figure 2009265422
ここで、T1はダイナミックレンジの最大値(ダイナミックレンジ最大値T1)であり、T2はダイナミックレンジの最小値(ダイナミックレンジ最小値T2)である。ダイナミックレンジ最大値T1とダイナミックレンジ最小値T2とは、音声処理装置10の操作者が適宜に定め得るものである。また、自動設定回路を用いて音声処理装置10が自ら適宜に定めるようにしても良い。
数4は、ダイナミックレンジの変換に関する式であるが、デジタル信号s(t)は正負の値を有する信号であるので、レンジ調整後信号x(t)は最終的に利用される段階では再び正負の極性を付して用いられる。
絶対値を取る関数である関数f(s(t))は、単にデジタル信号s(t)の絶対値であるデジタル信号絶対値|s(t)|を得る関数としても良いものである。また、デジタル信号s(t)の二乗の計算を得る関数としても良いものである。また、デジタル信号絶対値|s(t)|の平均値を用いても良いものである。ここで、関数f(s(t))がどのようなものであるかによって、同一のデジタル信号s(t)に対して異なるレンジ調整後信号x(t)を得ることができることとなる。このようにして、関数f(s(t))を異ならせて好みの音質を有するように調整することができる。なお、どのような関数とする場合においても、その関数から得られる値は、音量最大値m(t)とノイズレベルn(t)の範囲となるように規格化をされる。
上述した情報処理装置、すなわち、音声処理装置は、要約すると以下の特徴を有している。所定時間間隔毎に情報としての音声をサンプルして取得するA/D変換器11(情報取得部)を備えている。また、最大音量計算部121(情報最大値計算部)を備えている。そして、最大音量計算部121では、以下の演算を行っている。すなわち、現在のサンプル周期におけるデジタル信号絶対値|s(t)|(情報の大きさの絶対値である情報絶対値)が現在のサンプル周期における音量最大値m(t)(情報最大値)よりも大きいか、小さいかで、異なる演算式を選択している。このようにして、音量最大値m(t+1)(次のサンプル周期における情報最大値)の値を修正している。
現在のサンプル周期におけるデジタル信号絶対値|s(t)|が現在のサンプル周期における音量最大値m(t)よりも大きい場合には、以下のようにして音量最大値m(t+1)(次のサンプル周期における情報最大値)を求める。1以下で0以上の値である係数α(第1の忘却係数)と音量最大値m(t)との乗算と、1から係数αを引いた値とデジタル信号絶対値|s(t)|との乗算値とを加算して、その加算値を音量最大値m(t+1)とする。以上の演算はサンプル周期毎に行う。
一方、現在のサンプル周期におけるデジタル信号絶対値|s(t)|が現在のサンプル周期における音量最大値m(t)よりも小さい場合には、以下のようにして音量最大値m(t+1)(次のサンプル周期における情報最大値)を求める。係数αよりも大きく1以下で0以上の値である係数β(第2の忘却係数)と音量最大値m(t)との乗算値と、1から係数βを引いた値とデジタル信号絶対値|s(t)|との乗算値とを加算して、その加算値を音量最大値m(t+1)とする。以上の演算はサンプル周期毎に行う。
また、ノイズレベル計算部122を備えており、以下の演算を行う。係数γと現在のサンプル周期におけるノイズレベルn(t)との乗算値と、1から係数γを引いた値とデジタル信号絶対値|s(t)|との乗算値とを加算して、ノイズレベルn(t+1)の演算をおこなう。ここで係数γは、第2の忘却係数である係数βよりも大きく1以下で0以上の値である第3の忘却係数である。
また、圧縮伸張部123を備えており、圧縮伸張部123は、音量最大値m(t)とノイズレベルn(t)とに基づいてダイナミックレンジを動的に圧縮または伸張する。圧縮伸張の演算は、種々の演算が考えられる。上述した実施形態では以下の演算をしている。予め定めるダイナミックレンジの最大値であるダイナミックレンジ最大値T1から予め定めるダイナミックレンジの最小値であるダイナミックレンジ最小値T2を減じた第1の演算結果を得る。音量最大値m(t)(情報最大値)からノイズレベルn(t)を減じた第2の演算結果を得る。デジタル信号s(t)を変数とする正値を取る関数fの値(情報の絶対値を得る関数の値)からノイズレベルを減じた結果を乗算して第3の演算結果を得る。そして、第1の演算結果を第2の演算結果で除し、さらに、第3の演算結果を乗算して、さらに、この乗算結果にダイナミックレンジ最小値T2を加算する。このようにして、レンジ調整後信号x(t)を得ることができる。
上述した、レンジ調整後信号x(t)を得る演算の内容を要約すれば、音量最大値m(t)とノイズレベルn(t)の範囲にしか音声の振幅が存在しないという前提で音声情報を処理するものである。そして、音量最大値m(t)をダイナミックレンジ最大値T1に割り付けて、ノイズレベルn(t)をダイナミックレンジ最小値T2に割り付けるものである。また、音量最大値m(t)とノイズレベルn(t)の間の音声信号のレベルは、その大きさに応じてダイナミックレンジ最大値T1とダイナミックレンジ最小値T2との間に割り付けられる。数4はこの変換式を示すものである。
圧縮伸張部123における演算のいくつかの実施例について説明をする。デジタル信号s(t)の絶対値であるデジタル信号絶対値|s(t)|を関数f(s(t))として得るようにした場合のデジタル信号絶対値|s(t)|と、レンジ調整後信号x(t)とのダイナミックレンジの関係を図4〜図8を参照して説明をする。
(第1の実施例)
図4は第1の実施例の演算の結果をグラフとして示す図である。第1の実施例は、音量最大値m(t)の値が-10dB、ノイズレベルn(t)の値が-40dBの場合において、レンジ調整後信号x(t)のダイナミックレンジを0〜-30dBの範囲に変換する場合の例である。グラフの横軸は、デジタル信号絶対値|s(t)|を示し、グラフの縦軸は、レンジ調整後信号x(t)を示すものである。
図4は、数4を用いて変換する前と変換をした後とを対比して示すものであり、破線は、変換をしない場合を示すグラフであるので、デジタル信号絶対値|s(t)|とレンジ調整後信号x(t)とのダイナミックレンジは等しいものである。実線で示すグラフは、数3に示す演算を行った後のグラフである。数4においてダイナミックレンジ最大値T1に0dBを代入し、ダイナミックレンジ最小値T2に-30dBを代入して実線で示すグラフは得られる。この場合には、実線で示すグラフは破線で示すグラフに対して、ゲインが10dB上げられたものとなっている。
(第2の実施例)
図5は第2の実施例の演算の結果をグラフとして示す図である。第2の実施例は、音量最大値m(t)の値が-10dB、ノイズレベルn(t)の値が-25dBの場合において、レンジ調整後信号x(t)のダイナミックレンジを0〜-30dBの範囲に変換する場合の例である。この場合は、第1の実施例に較べてノイズのレベルがより大きな場合に相当する。破線は、変換をしない場合を示すグラフである。
実線で示すグラフは、数4に示す演算を行った後のグラフである。数4においてダイナミックレンジ最大値T1に0dBを代入し、ダイナミックレンジ最小値T2に-30dBを代入して実線で示すグラフは得られる。この場合には、実線で示すグラフは破線で示すグラフに対して、ダイナミックレンジの伸張がなされていることが分かる。すなわち、デジタル信号絶対値|s(t)|のダイナミックレンジが30dBであるのに対して、レンジ調整後信号x(t)のダイナミックレンジは40dBである。このようにして、結果としてノイズが抑制されたと同様の効果を生じる。
(第3の実施例)
図6は第3の実施例の演算の結果をグラフとして示す図である。第3の実施例は、音量最大値m(t)の値が-10dB、ノイズレベルn(t)の値が-60dBの場合において、レンジ調整後信号x(t)のダイナミックレンジを0〜-30dBの範囲に変換する場合の例である。破線は、変換をしない場合を示すグラフである。
実線で示すグラフは、数4に示す演算を行った後のグラフである。数4においてダイナミックレンジ最大値T1に0dBを代入し、ダイナミックレンジ最小値T2に-30dBを代入して実線で示すグラフは得られる。この場合には、実線で示すグラフは破線で示すグラフに対して、ダイナミックレンジの圧縮がなされていることが分かる。結果として、小さな音量(レベル)の音声が大きくされて聞きやすくなる。
(第4の実施例)
図7は第4の実施例の演算の結果をグラフとして示す図である。第4の実施例は、音量最大値m(t)の値が0dB、ノイズレベルn(t)の値が-40dBの場合において、レンジ調整後信号x(t)のダイナミックレンジを0〜-30dBの範囲に変換する場合の例である。破線は、変換をしない場合を示すグラフである。
実線で示すグラフは、数4に示す演算を行った後のグラフである。数4においてダイナミックレンジ最大値T1に0dBを代入し、ダイナミックレンジ最小値T2に-30dBを代入して実線で示すグラフは得られる。この場合には、実線で示すグラフは破線で示すグラフに対してダイナミックレンジの圧縮がなされていることが分かる。結果として、小さな音量(レベル)の音声が大きくされて聞きやすくなる。
(第5の実施例)
図8は第5の実施例の演算の結果をグラフとして示す図である。第5の実施例は、音量最大値m(t)の値が0dB、ノイズレベルn(t)の値が-40dBの場合において、レンジ調整後信号x(t)のダイナミックレンジを0〜-60dBの範囲に変換する場合の例である。破線は、変換をしない場合を示すグラフである。
実線で示すグラフは、数4に示す演算を行った後のグラフである。数4においてダイナミックレンジ最大値T1に0dBを代入し、ダイナミックレンジ最小値T2に-60dBを代入して実線で示すグラフは得られる。この場合には、実線で示すグラフは破線で示すグラフに対して、ダイナミックレンジの伸張がなされていることが分かる。結果として、ノイズが抑圧されて聞きやすくなる。
(第2の実施形態)
図9に別の実施形態(第2の実施形態)の音声処理装置の信号処理部のブロック図を示す。図1に示す第1の実施形態におけると同様の部分には、同一の符号を付してその説明を省略する。図1に示す信号処理部12を図9に示す信号処理部120に置き換えるのが第2の実施形態の音声処理装置である。
信号処理部120は、信号処理部120a、信号処理部120b、信号処理部120cの3つの信号処理部を有している。その各々が図2に示す信号処理部と同様な構成を有している。信号処理部120aは最大音量計算部121と同様な構成の最大音量計算部121aを有している。また、信号処理部120aはノイズレベル計算部122と同様な構成のノイズレベル計算部122aを有している。また、信号処理部120aは圧縮伸張部123と同様な構成の圧縮伸張部123aを有している。信号処理部120bは最大音量計算部121と同様な構成の最大音量計算部121bを有している。また、信号処理部120bはノイズレベル計算部122と同様な構成のノイズレベル計算部122bを有している。また、信号処理部120bは圧縮伸張部123と同様な構成の圧縮伸張部123bを有している。信号処理部120cは最大音量計算部121と同様な構成の最大音量計算部121cを有している。また、信号処理部120cはノイズレベル計算部122と同様な構成のノイズレベル計算部122cを有している。また、信号処理部120cは圧縮伸張部123と同様な構成の圧縮伸張部123cを有している。
また、信号処理部120aはフィルタ124aを有しており、信号処理部120bはフィルタ124bを有しており、信号処理部120cはフィルタ124cを有している。この3つのフィルタはフィルタバンクを形成しており、デジタル信号s(t)を3つの帯域に分けている。例えば、デジタル信号s(t)の帯域が0〜24KHzである場合には、フィルタ124aの帯域は0〜8KHz、フィルタ124bの帯域は8KHz〜16KHz、フィルタ124cの帯域は16KHz〜24KHzとされている。フィルタ124aからはデジタル信号sa(t)、フィルタ124bからはデジタル信号sb(t)、フィルタ124cからはデジタル信号sc(t)が各々出力される。ここで、フィルタ124a、フィルタ124b、フィルタ124cは、DSPにおいてデジタルフィルタとして構成されているので、通常用いられる、オーバーサンプリングフィルタ(インターポレータ)として構成されている。
このような、フィルタ124a、フィルタ124b、フィルタ124cからの出力であるデジタル信号sa(t)、デジタル信号sb(t)、デジタル信号sc(t)の各々はオーバーサンプリングされた信号である。そして、信号処理部120a、信号処理部120b、信号処理部120cの各々もオーバーサンプリングクロックで動作するが、その動作原理は、第1の実施形態におけると変わる点はない。信号処理部120aでは、音量最大値m(t)に替えて音量最大値ma(t)、ノイズレベルn(t)に替えてノイズレベルna(t)が用いられて、第1の実施形態におけると同様の処理が圧縮伸張部123aで行われる。信号処理部120bでは、音量最大値m(t)に替えて音量最大値mb(t)、ノイズレベルn(t)に替えてノイズレベルnb(t)が用いられて、第1の実施形態におけると同様の処理が圧縮伸張部123bで行われる。信号処理部120cでは、音量最大値m(t)に替えて音量最大値mc(t)、ノイズレベルn(t)に替えてノイズレベルnc(t)が用いられて、第1の実施形態におけると同様の処理が圧縮伸張部123cで行われる。
信号処理部120a、信号処理部120b、信号処理部120cからの信号は加算されて、フィルタ125に入力される。フィルタ125は、通常用いられるデシメーションフィルタであり、フィルタ125を用いることによって、第1の実施形態の信号処理部12と同じサンプリングレートの出力信号が記録媒体、コーデックなどへ供給される。
このようにして、第2の実施形態では、音声信号を周波数分割して帯域毎にダイナミックレンジの最適化を行うことができる。
実施形態の音声処理の技術では、ダイナミックレンジを動的に最大化することによって、目的音声を聞きやすくし、定常ノイズを抑圧することができる。具体的には、ある範囲での音声信号の略最大値と音声信号の略最小値とを演算によって検出してこれらに基づき、ダイナミックレンジを動的に最大化している。例えば、PCMレコーダーやICレコーダーなどの録音に際して、この技術を採用すれば効果が高い。特にリアルタイムの収音において、目的音声の音量を適切に調整し、定常ノイズを抑圧して目的音声を聞きやすくすることができるという効果を生じる。また、あらかじめ音量調整をそのときの状況に合わせて行っておく面倒な調整を不要として、ノイズ源を遠ざける必要がなくなる。
(実施形態のその他の変形例)
上述した実施形態では、音量最大値m(t)、音量最大値ma(t)、音量最大値mb(t)、音量最大値mc(t)の検出においては、低域通過フィルタと同様の機能を果たす、数1に示す式を用いた。しかしながら、これに替えて過去の入力信号の最大値を覚えておき、これを音量最大値とするようにしても良い。
また、上述した実施形態では、ノイズレベルn(t)、ノイズレベルna(t)、ノイズレベルnb(t)、ノイズレベルnc(t)の検出においては、時定数が長い低域通過フィルタと同様の機能を果たす、数2に示す式を用いた。しかしながら、これに替えて過去の入力信号の最小値を覚えておき、これをノイズレベルとするようにしても良い。さらに、ノイズレベルの検出においては、積分、移動加算などを用いてデジタル信号s(t)の平均値を得るようにしても良い。また、さらに、ノイズレベルn(t)をデジタル信号絶対値|s(t)|が下回る場合には、γの値をより小さな値に切り替えて、次のサンプル周期でのノイズレベルn(t+1)を得るに際して、応答性を高めるようにしても良い。また、これらの種々の音量最大値の検出方法、ノイズレベルの検出方法を適宜に組み合わせることができることは言うまでもない。
また、上述した実施形態では、情報は音声情報であるとして説明をしたが、音声情報に限らず、同様の性質を有する音楽などの音響情報であれば、実施形態におけると同様の各部の作用によって同様の効果が得られる。さらに、映像信号であっても同様の性質を有する信号であれば、同様の作用効果が得られるものである。
実施形態の音声処理装置のブロック図を示す図である。 信号処理部の内部を示すブロック図である。 デジタル信号、デジタル信号絶対値と音量最大値とノイズレベルの各々の、時間を横軸とする波形図である。 第1の実施例の演算の結果をグラフとして示す図である。 第2の実施例の演算の結果をグラフとして示す図である。 第3の実施例の演算の結果をグラフとして示す図である。 第4の実施例の演算の結果をグラフとして示す図である。 第5の実施例の演算の結果をグラフとして示す図である。 別の実施形態の音声処理装置の信号処理部のブロック図を示す図である。 コンプレッサの入出力のレベルの関係を示す図である。 ノイズゲートの入出力の関係を示す図である。
符号の説明
10 音声処理装置、 11 A/D変換器、 12、120、120a、120b、120c 信号処理部、 13 マイク、 121、121a、121b、121c 最大音量計算部、 122、122a、122b、122c ノイズレベル計算部、 123、123a、123b、123c、 圧縮伸張部、 124a 、 124b、124c、125 フィルタ

Claims (8)

  1. 情報を逐次取得する情報取得部と、
    前記情報の最大値である情報最大値を求める最大値計算部と、
    前記情報のノイズレベルを求めるノイズレベル計算部と、
    前記情報最大値と前記ノイズレベルとに基づいてダイナミックレンジを動的に圧縮または伸張する圧縮伸張部と、
    を備える情報処理装置。
  2. 前記情報最大値を逐次求める前記情報最大値計算部と、
    前記ノイズレベルを逐次求める前記ノイズレベル計算部と、
    前記情報最大値と前記ノイズレベルとに基づいてダイナミックレンジを逐次動的に圧縮または伸張する前記圧縮伸張部と、
    を備える請求項1に記載の情報処理装置。
  3. 所定時間間隔毎に前記情報をサンプルして取得する前記情報取得部と、
    現在のサンプル周期における前記情報の大きさの絶対値である情報絶対値が現在のサンプル周期における前記情報最大値よりも大きいときは、1以下で0以上の値である第1の忘却係数と現在のサンプル周期における前記情報最大値との乗算値と、1から前記第1の忘却係数を引いた値と前記情報絶対値との乗算値とを加算して、次のサンプル周期における前記情報最大値とし、
    現在のサンプル周期における前記情報絶対値が現在のサンプル周期における前記情報最大値よりも小さいときは、前記第1の忘却係数よりも大きく1以下で0以上の値である第2の忘却係数と現在のサンプル周期における前記情報最大値との乗算値と、1から前記第2の忘却係数を引いた値と前記情報絶対値との乗算値とを加算して、次のサンプル周期における前記情報最大値とする演算をサンプル周期毎に行う前記情報最大値計算部と、
    前記第2の忘却係数よりも大きく1以下で0以上の値である第3の忘却係数と現在のサンプル周期における前記ノイズレベルとの乗算値と、1から前記第3の忘却係数を引いた値と前記情報絶対値との乗算値とを加算して、次のサンプル周期における前記ノイズレベルとする前記ノイズレベル計算部と、
    を具備する請求項2に記載の情報処理装置。
  4. 前記ダイナミックレンジの大きさをあらかじめ設定した値にする圧縮伸張部を備える請求項2に記載の情報処理装置。
  5. 前記情報最大値にダイナミックレンジ最大値を割付け、前記ノイズレベルにダイナミックレンジ最小値を割り付ける圧縮伸張部を備える請求項4に記載の情報処理装置。
  6. 前記情報を帯域分割する複数のフィルタを有するフィルタバンクと、
    前記フィルタバンクから出力される帯域毎の各々の情報を処理する複数個からなる前記情報最大値計算部と前記ノイズレベル計算部と前記圧縮伸張部と、を備える請求項2に記載の情報処理装置。
  7. 前記情報が音声である請求項2に記載の情報処理装置。
  8. 情報取得部が情報を逐次取得し、
    最大値計算部が前記情報の最大値である情報最大値を求め、
    ノイズレベル計算部が前記情報のノイズレベルを求め、
    圧縮伸張部が前記情報最大値と前記ノイズレベルとに基づいてダイナミックレンジを動的に圧縮または伸張する情報処理方法。
JP2008116031A 2008-04-25 2008-04-25 情報処理装置及び情報処理方法 Pending JP2009265422A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008116031A JP2009265422A (ja) 2008-04-25 2008-04-25 情報処理装置及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008116031A JP2009265422A (ja) 2008-04-25 2008-04-25 情報処理装置及び情報処理方法

Publications (1)

Publication Number Publication Date
JP2009265422A true JP2009265422A (ja) 2009-11-12

Family

ID=41391338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008116031A Pending JP2009265422A (ja) 2008-04-25 2008-04-25 情報処理装置及び情報処理方法

Country Status (1)

Country Link
JP (1) JP2009265422A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012235310A (ja) * 2011-04-28 2012-11-29 Sony Corp 信号処理装置および方法、プログラム、並びにデータ記録媒体
CN104157287A (zh) * 2014-07-29 2014-11-19 广州视源电子科技股份有限公司 音频处理方法及装置
CN110351629A (zh) * 2019-07-16 2019-10-18 广州国音智能科技有限公司 一种收音方法、收音装置及终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012235310A (ja) * 2011-04-28 2012-11-29 Sony Corp 信号処理装置および方法、プログラム、並びにデータ記録媒体
CN104157287A (zh) * 2014-07-29 2014-11-19 广州视源电子科技股份有限公司 音频处理方法及装置
CN110351629A (zh) * 2019-07-16 2019-10-18 广州国音智能科技有限公司 一种收音方法、收音装置及终端

Similar Documents

Publication Publication Date Title
JP5542122B2 (ja) ダイナミックサウンド提供システム
US8170879B2 (en) Periodic signal enhancement system
EP1680781B1 (en) System and method for audio signal processing
JP4640461B2 (ja) 音量調整装置およびプログラム
JP4649546B2 (ja) 補聴器
JP2007522706A (ja) オーディオ信号処理システム
CN103999487A (zh) 听觉装置的稳定性和语音可听性改进
US8223979B2 (en) Enhancement of speech intelligibility in a mobile communication device by controlling operation of a vibrator based on the background noise
JP2010021627A (ja) 音量調整装置、音量調整方法および音量調整プログラム
JP6533959B2 (ja) 音声信号処理装置および音声信号処理方法
JP2009296298A (ja) 音声信号処理装置および方法
CN102883244B (zh) 声震防护的装置及方法
JP2009265422A (ja) 情報処理装置及び情報処理方法
CN109862463A (zh) 耳机语音回放方法、耳机及其计算机可读存储介质
JP2010026323A (ja) 話速検出装置
KR100754558B1 (ko) 주기 신호 향상 시스템
JP2007036710A (ja) アタック信号増幅デジタル信号処理装置
JP3185363B2 (ja) 補聴器
JP4556866B2 (ja) 高能率符号化プログラム及び高能率符号化装置
JP3102553B2 (ja) 音声信号処理装置
JP4815986B2 (ja) 補間装置、オーディオ再生装置、補間方法および補間プログラム
JP5036283B2 (ja) オートゲインコントロール装置、音響信号記録装置、映像・音響信号記録装置および通話装置
JP2003070097A (ja) デジタル補聴装置
CN109862470A (zh) 对耳病患者播音的方法、耳机及其计算机可读存储介质
JP2006078882A (ja) 音声録音再生装置