JP4580409B2 - 音量制御装置および方法 - Google Patents

音量制御装置および方法 Download PDF

Info

Publication number
JP4580409B2
JP4580409B2 JP2007153789A JP2007153789A JP4580409B2 JP 4580409 B2 JP4580409 B2 JP 4580409B2 JP 2007153789 A JP2007153789 A JP 2007153789A JP 2007153789 A JP2007153789 A JP 2007153789A JP 4580409 B2 JP4580409 B2 JP 4580409B2
Authority
JP
Japan
Prior art keywords
noise
volume
signal
band
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007153789A
Other languages
English (en)
Other versions
JP2008306630A (ja
Inventor
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007153789A priority Critical patent/JP4580409B2/ja
Priority to US12/155,828 priority patent/US8218777B2/en
Priority to EP08157992A priority patent/EP2034710B1/en
Publication of JP2008306630A publication Critical patent/JP2008306630A/ja
Application granted granted Critical
Publication of JP4580409B2 publication Critical patent/JP4580409B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6016Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Circuits Of Receivers In General (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声信号の音量を自動的に調整する音量制御装置および方法に関する。
近年、携帯電話機、IP(Internet Protocol )電話機、テレビ会議装置等を用いて2つ以上の拠点間で通話を行う、多地点通話システムが利用されるようになっている。多地点通話システムでは、受信側装置の再生音量が一定に設定されていても、それぞれの拠点における送信側装置のマイク感度によって、受信信号の音量が拠点毎に異なる場合がある。
図19は、このような多地点通話システムの構成例を示している。送信側電話機101、102と受信側電話機104は、通信ネットワーク103に接続されており、電話機104は、電話機101からの音声信号S1と電話機102からの音声信号S2を受信し、スピーカ105は、出力信号を音声に変換して出力する。
このとき、音声信号S1の音量が大きく、音声信号S2の音量が小さければ、スピーカ105から出力される音声の音量が、電話機101と電話機102の間で異なってしまう。そこで、受信信号の音量を自動的に調整し、すべての拠点の音量を同じにしたいという要望がある。
図20は、自動ゲイン制御(AGC)を用いた従来の音量制御方法を示している。AGCとは、入力信号の振幅が変動する場合においても出力の音量が所望のレベルになるように、自動的に増幅回路の増幅率(ゲイン)を調整する機能である。
この音量制御方法では、各拠点の受信信号S1およびS2の音量を、それぞれAGC201および202により一定にしてから、ミキサ203によりミキシング(加算)が行われる。これにより、拠点間の音量差を補正することができる。AGC201および202の構成としては、様々な構成が提案されている。
図21は、下記の非特許文献1に記載されたAGCの構成図である。この構成では、まず、フレーム電力算出部301が、入力信号を20ms毎のフレームに分割し、各フレーム内でのエネルギー(フレーム電力)を計算する。次に、最大値算出部302は、過去から現在までのフレーム電力の最大値を計算し、ゲイン算出部303は、その最大値と目標レベルの電力差からゲインを計算する。そして、乗算器304は、入力信号にゲインを乗算して、出力信号を生成する。
しかしながら、図20に示した音量制御方法では、AGCの出力信号における話者の音声の音量は、全拠点で同程度となるが、周囲の環境に依存する雑音の音量は拠点毎に異なる。また、それぞれの拠点のSNR(Signal-to-Noise Ratio )は変化しない。したがって、ミキシング後の出力信号のSNRは、全拠点の受信信号のSNRの中で最も小さい拠点の値に調整される。このため、SNRが小さい拠点があると、すべての拠点のSNRが小さくなり、音声が聞き取りにくくなる。
下記の特許文献1は、複数の音声や雑音が混在した会話状況の中から、会話が成立している音声を抽出して、その音声の出力音量を上げたり、他の音声の音量を下げたりする音声信号処理装置に関する。
特許文献2は、音声信号にとって無関係な背景雑音を克服するために音声信号を処理する方法に関し、特許文献3は、周囲の背景雑音に埋もれず、不快感を改善した受話音声を得る音声制御装置に関し、特許文献4は、現在通話中の雑音を検出し除去する適応型雑音抑圧音声符号化装置に関する。
特開2004−133403号公報 特表2004−507141号公報 特開2002−223268号公報 特開2002−175100号公報 Peter L. Chu, "VOICE-ACTIVATED AGC FOR TELECONFERENCING," Proceedings ICASSP96, vol.2, pp.929-932, 1996
本発明の課題は、複数の拠点間で音声通話をするための多地点通話システムにおいて、雑音を増幅させることなく、拠点間の音量差を低減することである。
本発明の第1の局面において、音量制御装置は、雑音音量推定部、拠点間音量制御部、複数のゲイン制御部、および信号合成部を備える。
雑音音量推定部は、複数の拠点のそれぞれから受信する、音声を含む複数の受信信号から、拠点毎の雑音音量を算出する。拠点間音量制御部は、それらの拠点の雑音音量が同じになるように、拠点毎の雑音音量に基づいてそれらの受信信号の音量を制御する。各ゲイン制御部は、スペクトル生成部、雑音スペクトル推定部、信号対雑音比推定部、ゲイン算出部、乗算器、および帯域合成部を有し、拠点間音量制御部から出力される各受信信号のゲインを制御する。信号合成部は、複数のゲイン制御部からそれぞれ出力される複数の出力信号を合成する。
各ゲイン制御部のスペクトル生成部は、拠点間音量制御部から出力される受信信号を複数の帯域に分割して、帯域毎の信号レベルを表す入力スペクトルを生成する。雑音スペクトル推定部は、帯域毎の信号レベルから、帯域毎の雑音レベルを表す雑音スペクトルを求める。信号対雑音比推定部は、入力スペクトルと雑音スペクトルの比から、帯域毎の信号対雑音比を求める。ゲイン算出部は、目標ゲインと帯域毎の信号対雑音比から、帯域毎のゲインを求める。乗算器は、帯域毎のゲインを帯域毎の信号レベルに乗算して、帯域毎の出力レベルを求める。帯域合成部は、帯域毎の出力レベルを合成して、出力信号を生成する。
拠点間音量制御部により複数の拠点の雑音音量を一定に揃えることで、各拠点の雑音音量を所望の音量に合わせることが可能になる。また、各ゲイン制御部において、帯域毎のSNRに基づき帯域毎に異なるゲインを設定することで、SNRの低い雑音成分を増幅することなく、SNRの高い音声成分のみを増幅することが可能になる。したがって、信号合成部から出力される信号のSNRが向上し、音声が聞き取りやすくなる。
本発明の第2の局面において、音量制御装置は、スペクトル生成部、雑音スペクトル推定部、信号対雑音比推定部、ゲイン算出部、乗算器、および帯域合成部を備える。
スペクトル生成部は、音声を含む入力信号を複数の帯域に分割して、帯域毎の信号レベルを表す入力スペクトルを生成する。雑音スペクトル推定部は、帯域毎の信号レベルから、帯域毎の雑音レベルを表す雑音スペクトルを求める。信号対雑音比推定部は、入力スペクトルと雑音スペクトルの比から、帯域毎の信号対雑音比を求める。ゲイン算出部は、目標ゲインと帯域毎の信号対雑音比から、帯域毎のゲインを求める。乗算器は、帯域毎のゲインを帯域毎の信号レベルに乗算して、帯域毎の出力レベルを求める。帯域合成部は、帯
域毎の出力レベルを合成して、出力信号を生成する。
このような音量制御装置によれば、第1の局面における音量制御装置と同様に、SNRの低い雑音成分を増幅することなく、SNRの高い音声成分のみを増幅することが可能になる。したがって、出力信号のSNRが向上し、音声が聞き取りやすくなる。
本発明によれば、複数の拠点の雑音音量を一定に揃えることで、各拠点の雑音音量を所望の音量に合わせることが可能になる。また、帯域毎のSNRに基づき帯域毎に異なるゲインを設定することで、SNRの低い雑音成分を増幅することなく、SNRの高い音声成分のみを増幅することが可能になる。したがって、出力信号のSNRが向上し、音声が聞き取りやすくなる。
以下、図面を参照しながら、本発明を実施するための最良の形態を詳細に説明する。
図1は、多地点電話会議システムに適用される音量制御装置(多地点電話会議装置)の構成例を示している。この例では、3拠点間で電話会議が行われる。この多地点電話会議装置は、雑音音量推定部401、402、拠点間音量制御部403、AGC404、405、およびミキサ406を備え、2拠点からの受信信号の音量(レベル)を調整して出力する。
雑音音量推定部401および402は、受信信号S1およびS2に含まれる雑音のレベルをそれぞれ算出し、計算結果を拠点間音量制御部403に出力する。拠点間音量制御部403は、雑音レベルの計算結果に基づいて、受信信号S1およびS2の雑音レベルが同じになるように、受信信号S1およびS2のレベルを制御し、AGC404および405にそれぞれ出力する。
AGC404および405は、目標レベルに合わせて、拠点間音量制御部403から出力される信号のゲインを調整し、ミキサ406は、AGC404および405からの出力信号をミキシングして出力する。
図2は、図1の拠点間音量制御部403の構成例を示している。この拠点間音量制御部は、増幅器501、502とゲイン算出部503を備える。増幅器501および502は、受信信号S1およびS2をそれぞれ増幅して、AGC404および405に出力する。ゲイン算出部503は、雑音音量推定部401および402の計算結果に基づいて、増幅器501および502のゲインを調整する。
ゲイン算出部503は、例えば、SNRが最も高い拠点の雑音レベルを基準として、各受信信号の雑音レベルをその基準レベルに合わせるような、増幅器501および502のゲインを算出し、得られたゲインをそれぞれの増幅器に設定する。これにより、SNRの大きな拠点の音声が聞き取りやすくなり、かつ、拠点間で音声レベルが同程度になる。なお、SNRが最も高い拠点の雑音レベルの代わりに、複数の拠点の雑音レベルの最小値またはあらかじめ決められた雑音レベルを、基準レベルとして用いてもよい。
図3は、図1のAGC404および405の構成例を示している。このAGCは、高速フーリエ変換部601(FFT)、雑音スペクトル推定部602、SNR推定部603、目標ゲイン算出部604、ゲイン算出部605、乗算器606、および逆高速フーリエ変換部607(IFFT)を備え、周波数領域でSNRと目標レベルに応じて帯域毎の増幅量を制御する。各帯域は、例えば、周波数の各離散値に対応する。
FFT601は、直交変換により入力信号を時間領域から周波数領域に変換し、入力音のパワースペクトル(入力スペクトル)を求める。具体的には、入力信号を複数の帯域に分割して各帯域の帯域信号を算出し、各帯域信号から帯域毎のパワーを求めて、入力スペクトルを算出する。
雑音スペクトル推定部602は、入力スペクトルのうち、雑音信号のみを含む非音声区間のスペクトルを雑音スペクトルとして出力し、SNR推定部603は、入力スペクトルと雑音スペクトルの比であるSNRスペクトルを求める。SNRスペクトルは、帯域毎のSNRを表している。
目標ゲイン算出部604は、入力スペクトルと目標レベルから、出力信号の音量が目標レベルになるような目標ゲインを算出し、ゲイン算出部605は、目標ゲインとSNRスペクトルから帯域毎のゲインを算出する。このとき、SNRが高い帯域ではゲインが目標ゲインになり、SNRが低い帯域ではゲインが1になるように、つまり、増幅されないように、帯域毎のゲインが算出される。
乗算器606は、入力スペクトルのそれぞれの帯域に帯域毎のゲインを乗算して、帯域毎のレベルを調整する。IFFT607は、直交逆変換により入力信号を周波数領域から時間領域に変換して、出力信号を生成する。
このようなAGCによれば、SNRの低い雑音成分を変化させることなく、SNRの高い音声成分のみを目標レベルに調整することができる。
図4は、話者の音声等の雑音以外の音声を含む音声区間におけるパワースペクトルを示している。AGCの入力音のパワースペクトル701には、音声成分のパワースペクトル702が含まれている。
図21に示した従来のAGCでは、全帯域が一様に増幅されるので、パワースペクトル701がパワースペクトル703のように変化する。この場合、音声成分とともに雑音成分も増幅されてしまい、耳障りな音声が出力される。それに加えて、音声区間と非音声区間とでゲインが変化するため、雑音成分のレベル変動が発生し、さらに耳障りとなる。
一方、図3のAGCでは、SNRの低い帯域は増幅されず、SNRの高い帯域のみが選択的に増幅されるので、パワースペクトル701がパワースペクトル704のように変化する。したがって、雑音成分を増幅することなく、音声成分のみを増幅することができる。
図5は、2つの拠点の受信信号をミキシングした後の出力信号のパワーを示している。図20に示した従来の音量制御方法では、受信信号S1およびS2をAGCにより調整することで音声レベルは一定になるが、ミキシング後のSNRが低くなる。一方、図1の音量制御方法では、拠点間の雑音レベルを合わせてからAGCを行うことで、ミキシング後のSNRが従来に比べて大きくなる。
図1では、2拠点からの受信信号を処理する構成が示されているが、3拠点以上の受信信号を処理する構成についても同様である。
図6は、図3のAGCを携帯電話機の受信部に適用した場合の構成例を示している。復号部901は、受信信号を復号してAGC902に出力し、AGC902は、復号部901から出力される信号のゲインを調整して、スピーカ903に出力する。
図7は、図6のAGC902の構成例を示している。このAGCは、FFT601、雑音スペクトル推定部602、SNR推定部603、ゲイン算出部605、乗算器606、
IFFT607、音声動作検出部1001(VAD)、平均音声レベル算出部1002、および目標ゲイン算出部1003を備える。
VAD1001は、入力信号から音声区間と非音声区間を検出し、平均音声レベル算出部1002は、音声区間の平均レベルから平均音声レベルを算出する。目標ゲイン算出部1003は、平均音声レベルと目標レベルの比から目標ゲインG0を算出する。
FFT601は、入力信号のFFTを行って、入力スペクトルを算出する。雑音スペクトル推定部602は、入力スペクトルから音声動作検出により音声区間と非音声区間を検出し、非音声区間の平均レベルから雑音スペクトルを算出する。SNR推定部603は、入力スペクトルと雑音スペクトルからSNRスペクトルを算出する。
ゲイン算出部605は、目標ゲインG0とSNRスペクトルから、次式によりi番目の帯域のゲインG(i)を算出する。

G(i)=G0×β(i) (i=1,2,...,n)

ここで、i番目の係数β(i)は、SNRスペクトルに含まれるi番目の帯域のSNRに応じて決められる。
G0およびG(i)を対数ゲインで表すと、β(i)は、例えば、図8に示すような値をとる。この場合、SNRが0〜2dBの帯域のβ(i)は0となり、SNRが6dBを超える帯域のβ(i)は1となる。また、SNRが2〜6dBの帯域のβ(i)は0〜1の値になる。したがって、SNRが0〜2dBの帯域のG(i)は0になり、SNRが6dBを超える帯域のG(i)はG0に一致し、SNRが2〜6dBの帯域のG(i)は0〜G0の値になる。
乗算器606は、入力スペクトルにおけるi番目の帯域のパワーにG(i)を乗算して、出力スペクトルを算出し、IFFT607は、出力スペクトルのIFFTを行って、出力信号を生成する。
図9は、図7のAGCを多地点電話会議装置に適用した場合の構成例を示している。この例では、3拠点間で電話会議が行われる。この多地点電話会議装置は、雑音音量推定部1201、拠点間音量制御部1202、AGC1203、1204、およびミキサ1205を備える。
雑音音量推定部1201の動作は、図1の雑音音量推定部401および402と同様であり、拠点間音量制御部1202およびミキサ1205の動作は、図1の拠点間音量制御部403およびミキサ406とそれぞれ同様である。また、AGC1203および1204は、図7と同様の構成を有する。
図10は、図9の多地点電話会議装置における音量制御の例を示している。まず、雑音音量推定部1201は、拠点毎に雑音レベルを算出する。受信信号S1のパワー1301から雑音レベル1303(−60dBov)が算出され、受信信号S2のパワー1302から雑音レベル1304(−80dBov)が算出される。この場合、雑音レベル1304が雑音レベルの最小値に相当する。
そこで、拠点間音量制御部1202は、雑音レベル1303が雑音レベル1304に一致するように、受信信号S1を減衰させる。これにより、受信信号S1のパワー1301は、パワー1305のように変化する。
次に、AGC1203は、受信信号S1の音声成分のみを目標レベル1306(−26dBov)まで増幅する。これにより、受信信号S1のパワー1305は、パワー1307のように変化する。一方、受信信号S2の音声成分は、すでに目標レベル1306に達している。
次に、ミキサ1205は、AGC1203および1204からの調整された信号をミキシングして、出力信号を生成する。生成された出力信号の音声レベルは−26dBovになり、雑音レベルは−80dBovになる。
これに対して、図20に示した従来の音量制御方法では、図11に示すように、AGC201は、受信信号S1を目標レベル1306まで増幅する。これにより、受信信号S1のパワー1301は、パワー1401のように変化し、雑音レベル1303は雑音レベル1402(−40dBov)まで上昇する。
次に、ミキサ203は、AGC201および202からの調整された信号をミキシングして、出力信号を生成する。生成された出力信号の音声レベルは−26dBovになり、雑音レベルは−40dBovになる。
このように、本発明では、ミキシング後の雑音レベルが−80dBovとなるが、従来技術では−40dBovとなり、本発明の方が雑音レベルを小さくすることができる。
図12は、多地点電話会議装置の別の構成例を示している。この多地点電話会議装置は、図9の構成において、拠点間音量制御部1202を拠点間音量制御部1502に置き換え、SNR推定部1501を追加した構成を有する。
SNR推定部1501は、受信信号S1およびS2のSNRを算出して拠点間音量制御部1502に出力する。拠点間音量制御部1502は、SNR推定部1501からのSNRの最大値を求め、SNRの最大値と目標レベルの差から目標雑音レベルを算出する。そして、すべての拠点の雑音レベルが目標雑音レベルになるように、拠点毎の受信信号のレベルを調整する。
図13は、図12の多地点電話会議装置における音量制御の例を示している。まず、雑音音量推定部1201は、拠点毎に雑音レベルを算出し、SNR推定部1501は、拠点毎にSNRを算出する。受信信号S1のパワー1601から音声レベル1603(−50dBov)および雑音レベル1605(−60dBov)が算出され、受信信号S1のSNRは10dBになる。また、受信信号S2のパワー1602から音声レベル1604(−60dBov)および雑音レベル1606(−80dBov)が算出され、受信信号S2のSNRは20dBになる。
次に、拠点間音量制御部1502は、目標レベル1607(−26dBov)からSNRの最大値20dBを減算して、目標雑音レベル1608(−46dBov)を算出する。そして、雑音レベル1605および1606が目標雑音レベル1608に一致するように、受信信号S1およびS2をそれぞれ増幅する。これにより、受信信号S1のパワー1601は、パワー1609のように変化し、その音声レベル1611は−36dBovになる。また、受信信号S2のパワー1602は、パワー1610のように変化し、その音声レベルは目標レベル1607(−26dBov)に一致する。
次に、AGC1203は、受信信号S1の音声成分のみを目標レベル1607(−26dBov)まで増幅する。これにより、受信信号S1のパワー1609は、パワー1612のように変化する。一方、受信信号S2の音声成分は、すでに目標レベル1607に達
している。
次に、ミキサ1205は、AGC1203および1204からの調整された信号をミキシングして、出力信号を生成する。生成された出力信号の音声レベルは−26dBovになり、雑音レベルは−46dBovになる。
これに対して、図20に示した従来の音量制御方法では、図14に示すように、AGC201は、受信信号S1を目標レベル1607まで増幅し、AGC202は、受信信号S2を目標レベル1607まで増幅する。これにより、受信信号S1のパワー1601は、パワー1701のように変化し、雑音レベル1605は雑音レベル1703(−36dBov)まで上昇する。また、受信信号S2のパワー1602は、パワー1702のように変化し、雑音レベル1606は雑音レベル1704(−46dBov)まで上昇する。
次に、ミキサ203は、AGC201および202からの調整された信号をミキシングして、出力信号を生成する。生成された出力信号の音声レベルは−26dBovになり、雑音レベルは−36dBovになる。
このように、本発明では、ミキシング後の雑音レベルが−46dBovとなるが、従来技術では−36dBovとなり、本発明の方が雑音レベルを小さくすることができる。
図15は、多地点電話会議装置のさらに別の構成例を示している。この例では、4拠点間で電話会議が行われる。この多地点電話会議装置は、雑音音量推定部1801、SNR推定部1802、拠点間音量制御部1803、AGC1804〜1806、およびミキサ1807を備え、図12の多地点電話会議装置と同様にして、3つの受信信号S1〜S3から出力信号を生成する。
図16は、図15の多地点電話会議装置における音量制御の例を示している。まず、雑音音量推定部1801は、拠点毎に雑音レベルを算出し、SNR推定部1802は、拠点毎にSNRを算出する。受信信号S1、S2、およびS3の音声レベルは、それぞれ、−10dBov、−30dBov、および−40dBovになり(1901)、雑音レベルは、それぞれ、−30dBov、−60dBov、および−80dBovになる(1902)。したがって、SNRは、それぞれ、20dB、30dB、および40dBになる(1903)。
次に、拠点間音量制御部1803は、目標レベル(−25dBov)からSNRの最大値40dBを減算して、目標雑音レベル(−65dBov)を算出する。そして、それぞれの雑音レベルが目標雑音レベルに一致するように、受信信号S1、S2、およびS3をそれぞれ調整する。これにより、受信信号S1、S2、およびS3の音声レベルは、それぞれ、−45dBov、−35dBov、および−25dBovになり(1904)、雑音レベルは−65dBovになる(1905)。
次に、AGC1804および1805は、それぞれ、受信信号S1およびS2の音声成分のみを目標レベル(−25dBov)まで増幅する。これにより、受信信号S1、S2、およびS3の音声レベルは−25dBovになる(1906)。一方、雑音レベルは−65dBovのままである(1907)。
次に、ミキサ1807は、AGC1804〜1806からの調整された信号をミキシングして、出力信号を生成する。生成された出力信号の音声レベルは−25dBovになり(1908)、雑音レベルは−65dBovになる(1909)。
図17は、図20に示した従来の音量制御の例を示している。この例では、受信信号S
1、S2、およびS3の音声レベル(2001)および雑音レベル(2002)は、図16と同様である。これらの受信信号は、AGCにより目標レベル(−25dBov)に調整される。これにより、受信信号S1、S2、およびS3の音声レベルは−25dBovになり(2003)、雑音レベルは、それぞれ、−45dBov、−55dBov、および−65dBovになる(2004)。
次に、調整された信号がミキシングされ、出力信号が生成される。生成された出力信号の音声レベルは−25dBovになり(2005)、雑音レベルは−45dBovになる(2006)。
このように、本発明では、ミキシング後の雑音レベルが−65dBovとなるが、従来技術では−45dBovとなり、本発明の方が雑音レベルを小さくすることができる。
図12および図15では、それぞれ、2拠点および3拠点からの受信信号を処理する構成が示されているが、4拠点以上の受信信号を処理する構成についても同様である。
図18は、図6、図9、図12、および図15に示したAGCの別の構成例を示している。この構成では、受信信号の代わりに入力スペクトルに基づいて、音声動作検出が行われる。
このAGCは、FFT601、SNR推定部603、ゲイン算出部605、乗算器606、IFFT607、雑音スペクトル推定部2101、VAD2102、および目標ゲイン算出部2103を備える。このうち、FFT601、SNR推定部603、ゲイン算出部605、乗算器606、およびIFFT607の動作は、図7の場合と同様である。
VAD2102は、入力スペクトルから音声区間と非音声区間を検出し、雑音スペクトル推定部2101は、非音声区間の平均レベルから雑音スペクトルを算出して、SNR推定部603に出力する。目標ゲイン算出部2103は、音声区間の平均レベルから平均音声レベルを算出し、平均音声レベルと目標レベルの比から目標ゲインG0を算出して、ゲイン算出部605に出力する。
ところで、AGCにより音声を増幅しすぎると音声が歪むことがあり、音声を減衰させるとSNRが低下する。そこで、算出された目標ゲインに上限および下限を設けることが望ましい。この場合、算出された目標ゲインが上限を超えていれば、目標ゲインはその上限の値に置き換えられ、算出された目標ゲインが下限を下回っていれば、目標ゲインはその下限の値に置き換えられる。目標ゲインの下限としては、例えば、0dBが用いられる。
また、多地点電話会議装置において、ある拠点の雑音レベルが小さすぎるとSNRが大きくなるため、大きなゲインが設定されて音声が歪むことがあり、雑音レベルが大きすぎると音声がクリップされる。そこで、拠点間音量制御部に入力される受信信号に低レベルの雑音を重畳する雑音重畳部を設けることが望ましい。これにより、拠点毎に一定以上の雑音レベルを確保することができる。
低レベルの雑音を重畳する代わりに、拠点毎の雑音レベルに上限および下限を設けてもよい。この場合、雑音レベルが上限を超えていれば、雑音レベルはその上限の値に置き換えられ、雑音レベルが下限を下回っていれば、雑音レベルはその下限の値に置き換えられる。
以上説明した実施形態においては、AGC内の目標ゲイン算出部において、全帯域に共通の目標レベルから目標ゲインを算出しているが、その代わりに、帯域毎に異なる目標レ
ベルから帯域毎に異なる目標ゲインを算出してもよい。
さらに、AGCにおいては、入力音のパワースペクトルに基づいて自動ゲイン制御を行っているが、その代わりに、入力音の振幅スペクトルに基づいて自動ゲイン制御を行ってもよい。この場合、FFTは、入力音の振幅スペクトルを入力スペクトルとして出力し、乗算器は、入力スペクトルにおけるi番目の帯域の信号にG(i)を乗算して、出力スペクトルを生成する。
(付記1)複数の拠点のそれぞれから受信する、音声を含む複数の受信信号から、拠点毎の雑音音量を算出する雑音音量推定部と、
前記複数の拠点の雑音音量が同じになるように、前記拠点毎の雑音音量に基づいて前記複数の受信信号の音量を制御する拠点間音量制御部と、
前記拠点間音量制御部から出力される複数の受信信号のゲインをそれぞれ制御する複数のゲイン制御部と、
前記複数のゲイン制御部からそれぞれ出力される複数の出力信号を合成する信号合成部とを備え、
前記複数のゲイン制御部の各々は、
前記拠点間音量制御部から出力される受信信号を複数の帯域に分割して、帯域毎の信号レベルを表す入力スペクトルを生成するスペクトル生成部と、
前記帯域毎の信号レベルから、帯域毎の雑音レベルを表す雑音スペクトルを求める雑音スペクトル推定部と、
前記入力スペクトルと前記雑音スペクトルの比から、帯域毎の信号対雑音比を求める信号対雑音比推定部と、
目標ゲインと前記帯域毎の信号対雑音比から、帯域毎のゲインを求めるゲイン算出部と、
前記帯域毎のゲインを前記帯域毎の信号レベルに乗算して、帯域毎の出力レベルを求める乗算器と、
前記帯域毎の出力レベルを合成して、出力信号を生成する帯域合成部とを有することを特徴とする音量制御装置。
(付記2)前記複数の受信信号から拠点毎の信号対雑音比を求める信号対雑音比推定部をさらに備え、前記拠点間音量制御部は、該拠点毎の信号対雑音比から最も大きな信号対雑音比を求め、該最も大きな信号対雑音比と目標音量から目標雑音音量を求め、前記複数の拠点の雑音音量が該目標雑音音量になるように、前記複数の受信信号の音量を制御することを特徴とする付記1記載の音量制御装置。
(付記3)前記拠点間音量制御部は、前記拠点毎の雑音音量から最も小さな雑音音量を求め、前記複数の拠点の雑音音量が該最も小さな雑音音量になるように、前記複数の受信信号の音量を制御することを特徴とする付記1記載の音量制御装置。
(付記4)前記拠点間音量制御部は、前記複数の拠点の雑音音量があらかじめ決められた雑音音量になるように、前記複数の受信信号の音量を制御することを特徴とする付記1記載の音量制御装置。
(付記5)前記複数の受信信号に低レベルの雑音を重畳する雑音重畳部をさらに備えることを特徴とする付記1乃至4のいずれかに記載の音量制御装置。
(付記6)前記拠点間音量制御部は、前記拠点毎の雑音音量が上限値より大きければ、該雑音音量を該上限値に置き換え、前記拠点毎の雑音音量が下限値より小さければ、該雑音音量を該下限値に置き換えることを特徴とする付記1乃至4のいずれかに記載の音量制御装置。
(付記7)前記複数のゲイン制御部の各々は、目標音量と前記入力信号の音量から前記目標ゲインを求める目標ゲイン算出部をさらに有することを特徴とする付記1乃至6のいずれかに記載の音量制御装置。
(付記8)前記複数のゲイン制御部の各々は、目標音量と前記帯域毎の信号レベルから前
記目標ゲインを求める目標ゲイン算出部をさらに有することを特徴とする付記1乃至6のいずれかに記載の音量制御装置。
(付記9)音声を含む入力信号を複数の帯域に分割して、帯域毎の信号レベルを表す入力スペクトルを生成するスペクトル生成部と、
前記帯域毎の信号レベルから、帯域毎の雑音レベルを表す雑音スペクトルを求める雑音スペクトル推定部と、
前記入力スペクトルと前記雑音スペクトルの比から、帯域毎の信号対雑音比を求める信号対雑音比推定部と、
目標ゲインと前記帯域毎の信号対雑音比から、帯域毎のゲインを求めるゲイン算出部と、
前記帯域毎のゲインを前記帯域毎の信号レベルに乗算して、帯域毎の出力レベルを求める乗算器と、
前記帯域毎の出力レベルを合成して、出力信号を生成する帯域合成部と
を備えることを特徴とする音量制御装置。
(付記10)目標音量と前記入力信号の音量から前記目標ゲインを求める目標ゲイン算出部をさらに備えることを特徴とする付記9記載の音量制御装置。
(付記11)目標音量と前記帯域毎の信号レベルから前記目標ゲインを求める目標ゲイン算出部をさらに備えることを特徴とする付記9記載の音量制御装置。
(付記12)前記目標ゲイン算出部は、前記目標ゲインが上限値より大きければ、該目標ゲインを該上限値に設定し、前記目標ゲインが下限値より小さければ、該目標ゲインを該下限値に設定することを特徴とする付記10または11記載の音量制御装置。
(付記13)音声を含む入力信号を複数の帯域に分割して、帯域毎の信号レベルを表す入力スペクトルを生成し、
前記帯域毎の信号レベルから、帯域毎の雑音レベルを表す雑音スペクトルを求め、
前記入力スペクトルと前記雑音スペクトルの比から、帯域毎の信号対雑音比を求め、
目標ゲインと前記帯域毎の信号対雑音比から、帯域毎のゲインを求め、
前記帯域毎のゲインを前記帯域毎の信号レベルに乗算して、帯域毎の出力レベルを求め、
前記帯域毎の出力レベルを合成して、出力信号を生成する
ことを特徴とする音量制御方法。
第1の多地点電話会議装置の構成図である。 拠点間音量制御部の構成図である。 第1のAGCの構成図である。 音声区間のパワースペクトルを示す図である。 ミキシング後のパワーを示す図である。 携帯電話機の受信部の構成図である。 第2のAGCの構成図である。 乗算係数とSNRの関係を示す図である。 第2の多地点電話会議装置の構成図である。 本発明における第1の音量制御を示す図である。 従来における第1の音量制御を示す図である。 第3の多地点電話会議装置の構成図である。 本発明における第2の音量制御を示す図である。 従来における第2の音量制御を示す図である。 第4の多地点電話会議装置の構成図である。 本発明における第3の音量制御を示す図である。 従来における第3の音量制御を示す図である。 第3のAGCの構成図である。 従来の多地点通話システムの構成図である。 従来の音量制御方法を示す図である。 従来のAGCの構成図である。
符号の説明
101、102、104 電話機
103 通信ネットワーク
105、903 スピーカ
201、202、404、405、902、1203、1204、1804、1805、1806 AGC
203、406、1205、1807 ミキサ
301 フレーム電力算出部
302 最大値算出部
303 ゲイン算出部
304 乗算器
401、402、1201、1801 雑音音量推定部
403、1202、1502、1803 拠点間音量制御部
501、502 増幅器
503 ゲイン算出部
601 高速フーリエ変換部
602、2101 雑音スペクトル推定部
603、1501、1802 SNR推定部
604 目標ゲイン算出部
605 ゲイン算出部
606 乗算器
607 逆高速フーリエ変換部
701、702、703、704 パワースペクトル
901 復号部
1001、2102 音声動作検出部
1002 平均音声レベル算出部
1003、2103 目標ゲイン算出部
1301、1302、1305、1307、1401、1601、1602、1609、1610、1612、1701、1702 パワー
1303、1304、1402、1605、1606、1703、1704、1902、1905、1907、1909、2002、2004、2006 雑音レベル
1306、1607 目標レベル
1603、1604、1611、1901、1904、1906、1908、2001、2003、2005 音声レベル
1608 目標雑音レベル
1903 SNR

Claims (5)

  1. 複数の拠点のそれぞれから受信する、音声を含む複数の受信信号から、拠点毎の雑音音量を算出する雑音音量推定部と、
    前記複数の拠点の雑音音量が同じになるように、前記拠点毎の雑音音量に基づいて前記複数の受信信号の音量を制御する拠点間音量制御部と、
    前記拠点間音量制御部から出力される複数の受信信号のゲインをそれぞれ制御する複数のゲイン制御部と、
    前記複数のゲイン制御部からそれぞれ出力される複数の出力信号を合成する信号合成部とを備え、
    前記複数のゲイン制御部の各々は、
    前記拠点間音量制御部から出力される受信信号を複数の帯域に分割して、帯域毎の信号レベルを表す入力スペクトルを生成するスペクトル生成部と、
    前記帯域毎の信号レベルから、帯域毎の雑音レベルを表す雑音スペクトルを求める雑音スペクトル推定部と、
    前記入力スペクトルと前記雑音スペクトルの比から、帯域毎の信号対雑音比を求める信号対雑音比推定部と、
    目標ゲインと前記帯域毎の信号対雑音比から、帯域毎のゲインを求めるゲイン算出部と、
    前記帯域毎のゲインを前記帯域毎の信号レベルに乗算して、帯域毎の出力レベルを求める乗算器と、
    前記帯域毎の出力レベルを合成して、出力信号を生成する帯域合成部とを有することを特徴とする音量制御装置。
  2. 前記複数の受信信号から拠点毎の信号対雑音比を求める信号対雑音比推定部をさらに備え、前記拠点間音量制御部は、該拠点毎の信号対雑音比から最も大きな信号対雑音比を求め、該最も大きな信号対雑音比と目標音量から目標雑音音量を求め、前記複数の拠点の雑音音量が該目標雑音音量になるように、前記複数の受信信号の音量を制御することを特徴とする請求項1記載の音量制御装置。
  3. 前記拠点間音量制御部は、前記拠点毎の雑音音量から最も小さな雑音音量を求め、前記複数の拠点の雑音音量が該最も小さな雑音音量になるように、前記複数の受信信号の音量を制御することを特徴とする請求項1記載の音量制御装置。
  4. 前記拠点間音量制御部は、前記複数の拠点の雑音音量があらかじめ決められた雑音音量になるように、前記複数の受信信号の音量を制御することを特徴とする請求項1記載の音量制御装置。
  5. 前記複数の受信信号に低レベルの雑音を重畳する雑音重畳部をさらに備えることを特徴とする請求項1乃至4のいずれかに記載の音量制御装置。
JP2007153789A 2007-06-11 2007-06-11 音量制御装置および方法 Expired - Fee Related JP4580409B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007153789A JP4580409B2 (ja) 2007-06-11 2007-06-11 音量制御装置および方法
US12/155,828 US8218777B2 (en) 2007-06-11 2008-06-10 Multipoint communication apparatus
EP08157992A EP2034710B1 (en) 2007-06-11 2008-06-10 Multipoint communication apparatus with sound level adjustment unit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007153789A JP4580409B2 (ja) 2007-06-11 2007-06-11 音量制御装置および方法

Publications (2)

Publication Number Publication Date
JP2008306630A JP2008306630A (ja) 2008-12-18
JP4580409B2 true JP4580409B2 (ja) 2010-11-10

Family

ID=39828947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007153789A Expired - Fee Related JP4580409B2 (ja) 2007-06-11 2007-06-11 音量制御装置および方法

Country Status (3)

Country Link
US (1) US8218777B2 (ja)
EP (1) EP2034710B1 (ja)
JP (1) JP4580409B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4826625B2 (ja) * 2008-12-04 2011-11-30 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
JP4844622B2 (ja) * 2008-12-05 2011-12-28 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器、音響装置
JP5120288B2 (ja) * 2009-02-16 2013-01-16 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
JP5548950B2 (ja) * 2010-06-21 2014-07-16 カシオ計算機株式会社 画像処理装置及び方法、並びにプログラム
CN103299656B (zh) * 2010-11-29 2016-08-10 纽昂斯通讯公司 动态麦克风信号混合器
TWI578755B (zh) * 2012-07-06 2017-04-11 鴻海精密工業股份有限公司 遠端多方會議音量調整系統及方法
JP6135106B2 (ja) 2012-11-29 2017-05-31 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
US20140278380A1 (en) * 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
EP3053356B8 (en) 2013-10-30 2020-06-17 Cerence Operating Company Methods and apparatus for selective microphone signal combining
CN103680513B (zh) * 2013-12-13 2016-11-02 广州华多网络科技有限公司 语音信号处理方法、装置及服务器
CN109274909B (zh) * 2018-09-19 2021-04-16 深圳创维-Rgb电子有限公司 电视机声音调整方法、电视机和存储介质
JP7095586B2 (ja) * 2018-12-14 2022-07-05 富士通株式会社 音声補正装置および音声補正方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10161694A (ja) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> 帯域分割型雑音低減方法
JP2001024800A (ja) * 1999-07-06 2001-01-26 Nec Eng Ltd 音声会議システム
JP2003060459A (ja) * 2001-08-21 2003-02-28 Oki Electric Ind Co Ltd 自動利得制御増幅器
JP2005175674A (ja) * 2003-12-09 2005-06-30 Nec Corp 信号圧縮伸張装置および携帯通信端末装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3875650D1 (de) * 1987-05-15 1992-12-10 Standard Elektrik Lorenz Ag Schaltungsanordnung zur sprachsteuerung fuer ein endgeraet der nachrichtentechnik.
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US20040057586A1 (en) 2000-07-27 2004-03-25 Zvi Licht Voice enhancement system
JP2002175100A (ja) 2000-12-08 2002-06-21 Matsushita Electric Ind Co Ltd 適応型雑音抑圧音声符号化装置
JP2002223268A (ja) 2001-01-29 2002-08-09 Mitsubishi Electric Corp 音声制御装置およびこれを用いた携帯電話機
JP2004133403A (ja) 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
JP4282317B2 (ja) * 2002-12-05 2009-06-17 アルパイン株式会社 音声通信装置
US7945006B2 (en) * 2004-06-24 2011-05-17 Alcatel-Lucent Usa Inc. Data-driven method and apparatus for real-time mixing of multichannel signals in a media server

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10161694A (ja) * 1996-11-28 1998-06-19 Nippon Telegr & Teleph Corp <Ntt> 帯域分割型雑音低減方法
JP2001024800A (ja) * 1999-07-06 2001-01-26 Nec Eng Ltd 音声会議システム
JP2003060459A (ja) * 2001-08-21 2003-02-28 Oki Electric Ind Co Ltd 自動利得制御増幅器
JP2005175674A (ja) * 2003-12-09 2005-06-30 Nec Corp 信号圧縮伸張装置および携帯通信端末装置

Also Published As

Publication number Publication date
JP2008306630A (ja) 2008-12-18
EP2034710A2 (en) 2009-03-11
EP2034710B1 (en) 2012-01-04
US20080304673A1 (en) 2008-12-11
EP2034710A3 (en) 2010-03-31
US8218777B2 (en) 2012-07-10

Similar Documents

Publication Publication Date Title
JP4580409B2 (ja) 音量制御装置および方法
US6785381B2 (en) Telephone having improved hands free operation audio quality and method of operation thereof
KR101311028B1 (ko) 주변 잡음 검출을 이용한 요해도 제어
CN100514989C (zh) 通信设备话筒增益调节器
CA2722883C (en) System and method for dynamic sound delivery
US7089181B2 (en) Enhancing the intelligibility of received speech in a noisy environment
CN101669284B (zh) 移动音频装置的自动音量及动态围调整的方法和设备
JP4854630B2 (ja) 音処理装置、利得制御装置、利得制御方法及びコンピュータプログラム
US9711162B2 (en) Method and apparatus for environmental noise compensation by determining a presence or an absence of an audio event
JPH1098344A (ja) 音声増幅装置及び通信端末装置並びに音声増幅方法
EP1969721B1 (en) Telecommunications terminal and method of operation of the terminal
JP4850191B2 (ja) 自動音量制御装置及びそれを用いた音声通信装置
JP2008148179A (ja) 音声信号処理装置および自動利得制御装置における雑音抑圧処理方法
KR100742140B1 (ko) 이동전화 스피커와 마이크로폰 이득을 자동으로 조정하는방법 및 장치
JP5298769B2 (ja) 雑音推定装置、通話装置および雑音推定方法
KR20060091033A (ko) 휴대단말기의 스피커 출력음량 개선장치 및 방법
US6711259B1 (en) Method and apparatus for noise suppression and side-tone generation
JP5853540B2 (ja) 音声通信装置及びプログラム
JP2002050987A (ja) 干渉信号依存適応エコー抑制
JP5371599B2 (ja) 音声明瞭度改善システムおよび音声明瞭度改善方法
JPH09163421A (ja) ボタン電話装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100824

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100827

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130903

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees