JP3947021B2 - Call voice processing device - Google Patents

Call voice processing device Download PDF

Info

Publication number
JP3947021B2
JP3947021B2 JP2002065821A JP2002065821A JP3947021B2 JP 3947021 B2 JP3947021 B2 JP 3947021B2 JP 2002065821 A JP2002065821 A JP 2002065821A JP 2002065821 A JP2002065821 A JP 2002065821A JP 3947021 B2 JP3947021 B2 JP 3947021B2
Authority
JP
Japan
Prior art keywords
voice
echo
received
call
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002065821A
Other languages
Japanese (ja)
Other versions
JP2003264627A (en
Inventor
徹 丸本
望 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2002065821A priority Critical patent/JP3947021B2/en
Publication of JP2003264627A publication Critical patent/JP2003264627A/en
Application granted granted Critical
Publication of JP3947021B2 publication Critical patent/JP3947021B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声通信における通話音声の明瞭度を改善する技術に関するものである。
【0002】
【従来の技術】
音声通信の代表例である電話を用いたユーザの通話形態としてハンズフリー通話と呼ばれる形態がある。
ハンズフリー通話とは、電話を用いた通話を、送話音声の入力と受話音声の出力に電話機外部のマイクとスピーカを用いて行うものである。ここで以上のようなハンズフリー通話の機能を携帯電話機に付加する装置はハンズフリー通話装置などと呼ばれ、自動車内において、運転中のユーザが携帯電話を用いたハンズフリー通話を、車内空間に受話音声を放射するスピーカと車内空間の音声をピックアップするマイクを介して行うことを可能とするためなどに用いられている。
【0003】
【発明が解決しようとする課題】
さて、たとえば、以上のような自動車内におけるハンズフリー通話においては、スピーカから出力された受話音声のマイクへの回り込み(エコー)が大きく、また、走行音や車載オーディオ装置から出力される音楽などの周囲騒音によってスピーカから出力される受話音声が聞き取り難くなるために、通常の電話のハンドセットを用いた通話に比べて通話音声が不明瞭化し易い。
【0004】
そこで、本発明は、エコーと周囲騒音双方が比較的大きく生じる環境下においても、音声通信における通話音声の不明瞭化を効率的に抑止することを課題とする。
【0005】
【課題を解決するための手段】
前記課題達成のために、本発明は、音声通信端末の通話音声を処理する通話音声処理装置に、前記音声通信端末が受信した受話音声のラウドネス補償を行うラウドネス補償手段と、前記ラウドネス補償手段がラウドネス補償を行った受話音声を出力するスピーカと、音声を入力するマイクロフォンと、マイクロフォンから入力する音声に含まれる受話音声のエコーをキャンセルし、前記音声通信端末が送信する送話音声とするエコーキャンセル手段とを備え、前記エコーキャンセル手段を、マイクロフォンから入力する音声に含まれる受話音声のエコーの推定値を推定エコー音声として算出する推定エコー算出手段と、マイクロフォンから入力する音声から前記推定エコー算出手段が算出した推定エコー音声を減算して、前記送話音声とする減算手段とを含めて構成し、前記ラウドネス補償手段において、前記推定エコー算出手段が算出した推定エコー音声を直接ユーザに届く受話音声と見なし、前記送話音声を直接ユーザの周囲騒音と見なして、ユーザが認識する受話音声の明瞭性が維持されるように、前記受話音声のゲイン調整を行うようにしたものである。
【0006】
このような通話音声処理装置によれば、受話音声によるエコーの送話音声への混入を抑止(エコーキャンセル)することができる。また、エコーキャンセルの過程で算出する推定エコー音声とユーザに届く受話音声との相関と、エコーキャンセル後の送話音声とユーザの周囲騒音との相関は強いことが期待できるので、以上のように推定エコー音声を直接ユーザに届く受話音声と見なし、前記送話音声を直接ユーザの周囲騒音と見なして、ユーザが認識する受話音声の明瞭性が維持されるように、受話音声のゲインを適当に調整することにより、ユーザにとっての受話音声の周囲騒音による不明瞭化を抑止することができることがラウドネス理論に基づき導かれる。したがって、本通話音声処理装置によれば、エコーキャンセルのための構成とラウドネス補償のための構成の一部を共用化した、簡易かつ効率的な構成によるエコーと周囲騒音双方による通話音声の不明瞭化の抑止が実現できる。
【0008】
また、前記ラウドネス補償手段においては、所定の周波数帯域毎に、当該周波数帯域内の前記推定エコー算出手段が算出した推定エコー音声と当該周波数帯域内の前記送話音声とに応じて、前記受話音声のゲイン調整を行うようにすれば、ユーザの受話音声の周波数に依存しない聞き取り易さを実現することができる。
【0009】
ここで、このような通話音声処理装置は、前記音声通信端末として移動電話機を収容する移動電話機インタフェースを備えた通話音声処理装置、すなわち、ハンズフリー装置への適用に優れて好適である。
【0010】
【発明の実施の形態】
以下、本発明に係る通話音声処理装置の一実施形態を、車載用のハンズフリー通話装置への適用を例にとり説明する。
図1に、本実施形態に係るハンズフリー通話装置の構成を示す。
図示するように、本ハンズフリー通話装置は、音声処理装置1、スピーカ2、マイクロフォン3、電話機インタフェース装置4、ボリュームスイッチ5を備えている。また、電話機インタフェース装置4には、携帯電話機6が接続される。
このような構成において、電話機インタフェース装置4は、携帯電話機6と脱着可能に接続し、携帯電話機6から入力する受話音声の音声信号を音声処理装置1に出力し、音声処理装置1から入力する送話信号を携帯電話機6に出力する。
また、電話機インタフェース装置4は、スイッチなどの入力装置を供え、入力装置のユーザ操作に応じてオンフック/オフフック命令を、携帯電話機6に中継し、携帯電話機6にオンフック/オフフック動作を行わせる処理なども行う。
【0011】
次に、音声処理装置1は、大きく分けてエコーキャンセラ部11と、音声出力処理部12よりなる。また、エコーキャンセラ部11は、推定エコー算出部111と加算器112とを含み、推定エコー算出部111は、適応フィルタ1111と、係数更新部1112とを有する。一方、音声出力処理部12は、ラウドネス補償制御部121と、音声調整部122を含み、音声調整部122は、音量調整部1221と、周波数ゲイン調整部1222と、出力アンプ1223とを有する。
【0012】
このような構成において、音量調整部1221は、電話機インタフェース装置4から入力した受話音声を、ユーザのボリュームスイッチ5による設定に応じたゲインに調整し出力する。そして、周波数ゲイン調整部1222は、ラウドネス補償制御部121からの設定に応じて、音声調整部122から出力される受話信号の周波数帯域毎のゲインを調整し、出力アンプ1223に出力する。出力アンプ1223は、入力する受話信号を増幅した信号でスピーカ2を駆動し、音声を車内空間に出力する。
【0013】
一方、マイクロフォン3は、車内空間の音声をピックアップし送話信号として加算器112に送る。加算器112は、当該送話信号から推定エコー算出部111で算出された推定エコー信号を減算した上で、エコーキャンセル後の送話信号として、電話機インタフェース装置4に出力する。
【0014】
以下、このような音声処理装置1における、マイクロフォン3でピックアップした送話信号に含まれる受話信号のエコーをキャンセルするエコーキャンセル動作と、スピーカ2から出力する受話信号の各周波数帯域のゲインを車内騒音に応じてユーザが聞き取り易いように補償するラウドネス補償動作について説明する。
【0015】
まず、エコーキャンセル動作について説明する。
いま、音声インタフェースから入力する音声信号をs(k)、音声調整部122の伝達系のインパルス応答をg(k)として、スピーカ入力からマイクロフォン出力までの伝達系のインパルス応答をh(k)とすると、マイクロフォン3が出力する送話信号に含まれる受話信号のエコー成分はd(k)={h(k)*g(k)*s(k)}と表される。ここで、*は畳込み演算を表す。また、マイクロフォン出力成分は、マイクロフォン3が出力する受話信号のエコー以外の周囲音声をn(k)として、d(k)+n(k)として表される。そこで、推定エコー算出部111において音声調整部入力からマイクロフォン出力までの伝達系のインパルス応答g(k)*h(k)を推定して、適応フィルタ1111のインパルス応答として設定し、信号s(k)を適応フィルタ1111に伝達させれば、マイクロフォン出力成分に混入した受話信号のエコー成分を推定エコー信号y(k)として生成することができる。そして、加算器112において、この推推定エコー信号y(k)を、マイクロフォン3が出力する送話信号d(k)+n(k)から減算すれば、マイクロフォン3が出力する送話信号d(k)+n(k)に含まれる受話信号のエコー成分d(k)をキャンセルした送話信号e(k)を得ることができる。
【0016】
ここで、このような適応フィルタ1111のインパルス応答を算出、更新するのが係数更新部1112である。係数更新部1112は、LMS(Least Mean Square)アルゴリズムやNLMS(Normalized Least Mean Square)アルゴリズムなどの学習同定法により、加算機出力e(k)のパワーが最小となるように適応フィルタ1111のフィルタ係数を算出し、適応フィルタ1111に設定する処理を繰り返す。ただし、受話信号s(k)のレベルが小さい場合や、周囲音声n(k)の変動が激しい場合には、音声調整部入力からマイクロフォン出力までの伝達系のインパルス応答g(k)*h(k)を良好に推定できなくなるので、受話信号s(k)のレベルが所定レベル以上小さい場合や、ユーザの発話中など周囲音声n(k)のレベルが変動している場合などには、以上の適応フィルタ1111のフィルタ係数の算出、更新を停止するようにしてもよい。ここで、周囲音声n(k)の変動は、送話信号e(k)の変動として現れる。または、周囲音声n(k)の変動が相殺される程度に大きい期間を周期として、フィルタ係数の算出、更新を行うようにすることもできる。
【0017】
なお、このような適応フィルタ1111を用いたエコーキャンセルの技術としては、特開2000−341178号公報、特開平2−288428号、特開平7−086991号公報、特開平10−257583号公報などに記載の技術を用いることができる。また、適応フィルタ1111は、たとえば、FIR(Finite Impulse Responce )フィルタであり、この場合、適応フィルタ1111のインパルス応答は、FIRフィルタのタップ係数Xjの設定により行われる。
【0018】
以上、エコーキャンセル動作の動作について説明した。
次に、ラウドネス補償動作について説明する。
まず、ラウドネス補償動作において、ユーザの受話音声の聞き取り易さをどのように実現するかについて、その原理を説明する。
”人間の知覚する音の大きさ(ラウドネス)”の単位はsoneであり、1KHz、40dBの純音の大きさを1soneとする。人間の知覚に基づいているため、1soneに対して2soneは2倍の大きさに聞こえる。ラウドネスは音の強さだけでなく周波数帯域によっても変化する。図2は、外部騒音の無い状態で、音圧レベルが1kHzの純音と同じラウドネスになる純音の音圧レベルを結んだもので等ラウドネスレベル曲線と呼ばれるものである。すなわち、等ラウドネスレベル曲線は、人が1kHzの正弦波と同じ大きさに聞こえる他の周波数のレベルをプロットしたものである。等ラウドネスレベル曲線は、レベルが小さくなるにしたがって低周波数域と高周波数域のレベルを持ち上げないと中間周波数域の音よりも小さく聞こえたり、音が聞こえなくなったりすることを示している。
【0019】
次に、図3は、物理的な音圧レベルと、その音を人間が聞いているときに感じるラウドネスとの対応関係を示したものでラウドネス曲線と呼ばれるものである。ラウドネス曲線において、横軸は物理的な音圧レベル(単位はSound Pressure Level ; SPL(dB))であり、縦軸は人の感じる音の大きさを数値化したラウドネス(単位はsone)である。図3において(a)は静かな環境でのラウドネス曲線、(b)は騒音下でのラウドネス曲線である。なお、(b)は、人の最小可聴値が約35dB上昇するような騒音の中での曲線であって、騒音が変化することによりこの曲線も様々に変化する。
【0020】
ここで、ラウドネス曲線は縦軸のラウドネスの数値が同じであれば、人は音が同じ大きさであると感じていることを表している。よって、人が0.1soneの大きさに感じる音は、(a)の静かな環境では12dB SPLの物理的音圧レベルでよいが、(b)の騒音下では37dB SPLの物理的音圧レベルが必要である。言い換えると、静かな環境で12dB SPLの音をスピーカ2から出力していた場合、(b)の騒音下では37dB SPLの音をスピーカ2から出力しなければ、同じ大きさの音と感じることができない。つまり、0.1soneの大きさに感じる音を騒音下で聞くためには、静かな環境で聞く場合に比べて25dBのゲインを加えなくてはならない。また、人が1soneの大きさに感じる音は、(a)の静かな環境では42dB SPLの物理的音圧レベルであるが、(b)の騒音下では49dB SPLの物理的音圧レベルが必要で、7dBのゲインを加えなくてはならない。
【0021】
ここで、ユーザに聞き取らせたい音がスピーカの出力音である場合には、騒音レベルによらずに、スピーカの出力する音を一定のラウドネスとして人が感じるようにするためには、周囲の騒音レベルのみならず、スピーカが出力する音のレベルによってもゲインを変える必要がある。ここで、図4は、騒音下において静寂下と同じ大きさの音に感じるために、静寂下の音圧レベルに対してどれだけゲインを加える必要があるかを示す図である。同図において、横軸は静寂下で出力される音の音圧レベルであり、縦軸は騒音下において静寂下と同じ大きさの音に感じるために加える必要があるゲイン値である。例えば、静寂下で音圧レベル20dBで出力される音は、騒音下では、約19dBのゲインを加えられることによって、人間は静寂下と同じ大きさの音であると感じるようになる。
【0022】
このように、周囲騒音レベルとスピーカ出力音レベルによって、ユーザにとっても同じ聞き易さを実現するために、スピーカ出力音に与える必要のあるゲインは異なったものとなる。また、周囲騒音は周波数帯域毎に異なったレベルを持ち、また、図2の等ラウドネスレベル曲線に示すようにユーザの音の聞き取り易さは周波数帯域毎に異なるものであるために、各周波数帯域において同じ聞き易さを実現するためにスピーカ出力音に与える必要のあるゲインは、周波数帯域毎に異ならせる必要がある。
【0023】
そこで、本実施形態では、周波数帯域毎に受話音声レベルと周囲騒音レベルの組み合わせに対して、周囲騒音レベル、周波数帯域によらない聞き取り易さを実現するゲイン調整量を定めておき、ラウドネス補償制御部121において周波数帯域毎に、ユーザに出力される受話音声レベルと周囲騒音レベルを推定し、推定した受話音声レベルと周囲騒音レベルの組に対して予め定めておいたゲイン調整量を選択し、各周波数帯域について選択されたゲイン調整量に従って、周波数ゲイン調整部1222において周波数帯域毎に受話音声のゲインを調整する。また、本実施形態では、前述した推定エコー算出部111において推定されて推定エコー信号y(x) のレベルを受話音声レベルとして用い、エコーキャンセル後の送話信号e(x)を周囲騒音レベルとして用いることにより、ユーザに出力される受話音声レベルと周囲騒音レベルを推定する。ここで、推定エコー信号算出部によるエコーの推定が適当に行われている場合、ユーザは比較的マイクロフォンの側にいると期待できるので、推定エコー信号y(x)はユーザに届く受話音声の音圧レベルにほぼ比例し、エコーキャンセル後の送話信号e(x)は、少なくともユーザが発話を行っていないときにはユーザ周囲の騒音の音圧レベルに比例すると考えることができる。
【0024】
以下、このようなラウドネス補償動作の詳細について説明する。
図6に、ラウドネス補償制御部121の構成例を示す。
図示するようにラウドネス補償制御部121は、周囲騒音周波数帯域レベル平均部1211、騒音レベル補正部1212、周波数帯域ゲインテーブル選択部1213、受話音声周波数帯域レベル平均部1214、ゲインテーブルメモリ1215を含んで構成されている。
【0025】
ゲインテーブルメモリ1215には、あらかじめ、あらかじめ様々な騒音レベルと周波数帯域の組み合わせ毎に設けた、受話音声レベルと加えるゲインとの関係を記述した、たとえば図4に示すような関係を規定するゲインテーブルが記録されている。
【0026】
周囲騒音周波数帯域レベル平均部1211は、加算器112から出力されるエコーキャンセル後の送話信号e(x)に対して、所定の時間ブロック毎にFFT(Fast Fourier Transform)演算を行い、所定の周波数帯域ごとに時間ブロック内平均の音圧レベルを計算する。ここでは、たとえば、人間の聴覚がほぼ1/3オクターブごとに騒音の大きさの違いを認識することができるという特性を考慮して1/3オクターブごとの周波数帯域ごとに時間ブロック内平均の音圧レベルを計算する。
【0027】
騒音レベル補正部1212は、Zwickerのラウドネス算出手法(ISO532B)やStevensのラウドネス算出手法(ISO 532A)を用いて、周囲騒音周波数帯域レベル平均部1211から周波数帯域ごとに出力される音圧レベルを調整する。
具体的には、以下のように調整を行う。すなわち、ある周波数成分の騒音等があるとき、この騒音等は、同一の周波数成分の受話音声の聴き取り難さに影響するのみならず、高周波側に隣接する周波数成分の案内音声信号の聴き取り難さにも影響を与える。そこで、騒音レベル補正部1212では、これを考慮して、各周波数成分の音圧レベルを低周波側に隣接する騒音等の周波数成分の音圧レベルの大きさに応じて調整を行う。すなわち、隣接する低周波成分の音圧レベルが大きい場合には、高周波側に隣接する周波数成分の音圧レベルを高めに補正する。このような調整を行うことで、各周波数帯域ごとのゲインテーブルを選択する際には、対応する各周波数帯域の騒音等の音圧レベルに着目するのみで足り、低周波側に隣接する周波数帯域の騒音等を考慮するという煩雑な処理を行う必要がなくなる。
【0028】
受話音声周波数帯域レベル平均部1214は、推定エコー算出部111から出力される推定エコー信号に対して、所定の時間ブロックごとに周知のFFT演算を行い、周囲騒音周波数帯域レベル平均部1211におけるものと同じ周波数帯域ごとに時間ブロック内平均の音圧レベルを計算する。
【0029】
そして、周波数帯域ゲインテーブル選択部1213によって、各周波数帯域について、その周波数帯域と、騒音レベル補正部1212から出力される調整後のその周波数帯域の音圧レベルとに対応するゲインテーブルが選択される。そして、各周波数帯域について、選択されたゲインテーブルを用いて、受話音声周波数帯域レベル平均部1214から出力されるその周波数帯域の音圧レベルに対応するゲイン値が算出され、周波数ゲイン調整部1222に送られる。
【0030】
以上、ラウドネス補償制御部121について説明した。
なお、本ラウドネス補償制御部の、周囲騒音周波数帯域レベル平均部1211と受話音声周波数帯域レベル平均部1214は、FET演算に代えて、周波数帯域毎に信号を分割する周波数フィルタのセットと、分割された各周波数帯域の信号の音圧レベルの時間平均を求める時間平均部とより構成することもできる。または、本ラウドネス補償制御部の、周囲騒音周波数帯域レベル平均部1211と受話音声周波数帯域レベル平均部1214は、FET演算に代えて、低周波数帯域ほど時間窓長を大きくして周波数分解能を高めて時間分解能を落とした窓関数を用い、高周波数帯域ほど時間窓長を短くして時間分解能を高めて周波数分解能を落とした窓関数を用いたウェーブレット変換を行うものとしても良い。
【0031】
次に、周波数ゲイン調整部1222について説明する。
図6に、周波数ゲイン調整部1222の構成例を示す。
図示した例では、周波数ゲイン調整部1222は、フィルタバンク12221、可変ゲイン部12222、加算器12223を含んで構成されている。
フィルタバンク12221は、所定の周波数帯域幅を持つバンドパスフィルタ群であり、これらのバンドパスフィルタ群によって受話音声信号を周波数帯域毎に分割する。可変ゲイン部12222は、ラウドネス補償制御部121によって算出された各周波数帯域ごとのゲインを、フィルタバンク12221から出力される周波数帯域ごとに分割された受話音声信号に与えて、ゲイン調整を行う。加算器12223は、各周波数帯域ごとにゲイン調整された受話音声信号を加算して出力する。
【0032】
以上、周波数ゲイン調整部1222について説明した。
なお、この周波数ゲイン調整部1222は、FIRフィルタと、ラウドネス補償制御部121によって算出された各周波数帯域のゲインをそれぞれの周波数帯域の中心周波数のゲインとして、それぞれのゲイン値の間をスプライン関数を用いて補間することによって周波数領域における滑らかなゲイン特性を算出するスプライン関数補間部と、スプライン関数補間部が算出したゲイン特性をIFFT(InverseFast Fourier Transform)演算を用いて周波数領域から時間領域に変換し、FIRフィルタのタップ係数の値を設定するIFFT演算部とより構成することもできる。この場合、FIRフィルタは、受話音声信号に対して時間軸上のフィルタリング処理を行い、図6に示した周波数ゲイン調整部1222と同様のゲイン調整を行う。
【0033】
また、周波数ゲイン調整部1222は、ラウドネス補償制御部121によって算出された各周波数帯域のゲインをそれぞれの周波数帯域の中心周波数のゲインとして、それぞれのゲイン値の間をスプライン関数を用いて補間することによって周波数領域における滑らかなゲイン特性を算出するスプライン関数補間部と、受話音声信号に対してFFT演算を行い、時間領域から周波数領域に変換するFFT演算部と、FFT演算部から出力される周波数領域における案内音声信号に対して、スプライン関数補間部から出力される滑らかなゲイン特性によってフィルタリングを行う周波数帯域フィルタリング部と、周波数帯域フィルタリング部から出力される周波数領域における受話音声に対してIFFT演算を行って周波数領域から時間領域に変換するIFFT演算部とより構成することもできる。なお、IFFT演算の過程においては、線形フィルタリングを実現するために周知の重畳加算法(overlap−addmethod)や重畳保留法(overlap−save method )を用いるとよい。この構成によって、フィルタのタップ数が多いときでも演算量を比較的少なくすることができる。
【0034】
なお、周波数ゲイン調整部1222においては、いずれの場合もゲインが急激に変化すると出力波形が不連続になってしまうため、ゲイン特性を徐々に更新することが好ましい。
以上、本発明に係る音声処理装置1の一実施形態について説明した。
なお、以上では、車載用のハンズフリー通話装置への適用を例にとり説明したが、以上のようにエコーキャンセルとラウドネス補償を行う構成は、携帯電話機、固定電話機その他の任意の音声通信装置、または、これら任意の音声通信装置の通話音声を処理する装置に適用可能である。
【0035】
また、以上では音声帯域を複数の周波数帯域に分割し、周波数帯域毎に受話音声のゲインの調整を行ったが、これは音声の全帯域について一つのゲイン調整量によるゲイン調整を行うようにしてもよい。また、この場合には、周波数ゲイン調整部1222は省略することができ、音量調整部1221の音量調節によって、受話音声のゲイン調整を行えば足りる。
【0036】
以上のように本実施形態によれば、音声通信における、エコーと周囲騒音双方による通話音声の不明瞭化を抑止することができる。また、エコーキャンセルの過程で算出される推定エコー信号を、ラウドネス補償において明瞭化の対象とする受話音声と見なし、エコーキャンセル後の送話信号を、ラウドネス補償における周囲騒音と見なして、ラウドネス補償を行うようにしているので、エコーキャンセルのための構成とラウドネス補償のための構成の一部を共用化した、簡易かつ効率的な構成によるエコーと周囲騒音双方による通話音声の不明瞭化の抑止が実現される。
【0037】
ただし、エコーキャンセルの過程で算出される推定エコー信号に、推定エコー信号と実際のユーザに届く受話信号とのずれを小さくするように予め定めた所定の補正を行った信号をラウドネス補償において明瞭化の対象とする受話音声と見なし、エコーキャンセル後の送話信号に、エコーキャンセル後の送話信号と実際のユーザの周囲騒音とのずれを小さくするように予め定めた所定の補正を行った信号をラウドネス補償における周囲騒音と見なして、ラウドネス補償を行うようにしてもよい。
【0038】
【発明の効果】
以上のように、本発明によれば、エコーと周囲騒音双方が比較的大きく生じる環境下においても、音声通信における通話音声の不明瞭化を効率的に抑止することができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係るハンズフリー装置の構成を示すブロック図である。
【図2】等ラウドネスレベル曲線を示す図である。
【図3】静寂環境下と騒音環境下でのラウドネス曲線を示す図である。
【図4】静寂環境下と騒音環境下で同ラウドネスを得るためのゲインを示す図である。
【図5】本発明の実施形態に係るラウドネス補償制御部の構成例を示すブロック図である。
【図6】本発明の実施形態に係る周波数ゲイン調整部の構成例を示すブロック図である。
【符号の説明】
1:音声処理装置、2:スピーカ、3:マイクロフォン、4:電話機インタフェース装置、5:ボリュームスイッチ、6:携帯電話機、11:エコーキャンセラ部、12:音声出力処理部、111:推定エコー算出部、112:加算器、121:ラウドネス補償制御部、122:音声調整部、1111:適応フィルタ、1112:係数更新部、1211:周囲騒音周波数帯域レベル平均部、1212:騒音レベル補正部、1213:周波数帯域ゲインテーブル選択部、1214:受話音声周波数帯域レベル平均部、1215:ゲインテーブルメモリ、1221:音量調整部、1222:周波数ゲイン調整部、1223:出力アンプ、12221:フィルタバンク、12222:可変ゲイン部、12223:加算器。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a technique for improving the clarity of call voice in voice communication.
[0002]
[Prior art]
There is a form called a hands-free call as a call form of a user using a telephone which is a typical example of voice communication.
The hands-free call is a call using a telephone using a microphone and a speaker outside the telephone for input of transmitted voice and output of received voice. Here, a device that adds the above-described hands-free call function to a mobile phone is called a hands-free call device, etc., and in a car, a user who is driving can use the mobile phone to perform a hands-free call in the car space. It is used for making it possible to perform via a speaker that radiates received voice and a microphone that picks up voice in the interior of the vehicle.
[0003]
[Problems to be solved by the invention]
For example, in a hands-free call in an automobile as described above, the reception sound output from the speaker is greatly circulated into the microphone (echo), and the traveling sound or music output from the in-vehicle audio device, etc. Since the received voice output from the speaker is difficult to hear due to ambient noise, the call voice is likely to be obscured compared to a call using a normal telephone handset.
[0004]
Therefore, an object of the present invention is to efficiently suppress obscuration of call voice in voice communication even in an environment where both echo and ambient noise are relatively large.
[0005]
[Means for Solving the Problems]
In order to achieve the above object, the present invention provides a call voice processing apparatus for processing a call voice of a voice communication terminal, a loudness compensation means for compensating a loudness of received voice received by the voice communication terminal, and a loudness compensation means. Echo cancellation for canceling echo of received voice included in voice input from microphone, speaker for outputting received voice subjected to loudness compensation, voice input from microphone, and transmitting voice transmitted by said voice communication terminal Means for calculating the estimated echo of the received voice included in the voice input from the microphone as the estimated echo voice, and the estimated echo calculation means from the voice input from the microphone. Subtract the estimated echo sound calculated by Constructed by including a calculation unit, in said loudness compensation means, estimated echo sound the estimated echo calculation means has calculated So that the clarity of the received voice recognized by the user is maintained by regarding the transmitted voice as the ambient noise of the user directly. The gain of the received voice is adjusted.
[0006]
According to such a call voice processing device, it is possible to suppress (echo cancellation) the mixing of echoes from the received voice into the transmitted voice. In addition, the correlation between the estimated echo sound calculated during the echo cancellation process and the received voice reaching the user and the correlation between the transmitted voice after echo cancellation and the user's ambient noise can be expected to be strong. Estimated echo sound So that the clarity of the received voice recognized by the user is maintained by regarding the transmitted voice as the ambient noise of the user directly. By appropriately adjusting the gain of the received voice, it is derived based on the loudness theory that the obscuration due to the ambient noise of the received voice for the user can be suppressed. Therefore, according to the call voice processing apparatus, the call voice is obscured by both echo and ambient noise with a simple and efficient configuration in which part of the configuration for echo cancellation and the configuration for loudness compensation are shared. Deterrence can be realized.
[0008]
Further, in the loudness compensation means, for each predetermined frequency band, the received voice according to the estimated echo voice calculated by the estimated echo calculation means in the frequency band and the transmitted voice in the frequency band. If the gain adjustment is performed, it is possible to realize ease of listening that does not depend on the frequency of the received voice of the user.
[0009]
Here, such a call voice processing apparatus is excellent in application to a call voice processing apparatus having a mobile telephone interface that accommodates a mobile telephone as the voice communication terminal, that is, a hands-free apparatus.
[0010]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of a call voice processing device according to the present invention will be described taking application to an in-vehicle hands-free call device as an example.
FIG. 1 shows the configuration of a hands-free call device according to the present embodiment.
As shown in the figure, the hands-free call device includes a voice processing device 1, a speaker 2, a microphone 3, a telephone interface device 4, and a volume switch 5. A mobile phone 6 is connected to the telephone interface device 4.
In such a configuration, the telephone interface device 4 is detachably connected to the mobile phone 6, outputs a voice signal of the received voice input from the mobile phone 6 to the voice processing device 1, and transmits it from the voice processing device 1. The speech signal is output to the mobile phone 6.
In addition, the telephone interface device 4 includes an input device such as a switch, relays an on-hook / off-hook command to the mobile phone 6 according to a user operation of the input device, and causes the mobile phone 6 to perform an on-hook / off-hook operation. Also do.
[0011]
Next, the audio processing device 1 is roughly composed of an echo canceller unit 11 and an audio output processing unit 12. The echo canceller unit 11 includes an estimated echo calculation unit 111 and an adder 112, and the estimated echo calculation unit 111 includes an adaptive filter 1111 and a coefficient update unit 1112. On the other hand, the audio output processing unit 12 includes a loudness compensation control unit 121 and an audio adjustment unit 122, and the audio adjustment unit 122 includes a volume adjustment unit 1221, a frequency gain adjustment unit 1222, and an output amplifier 1223.
[0012]
In such a configuration, the volume adjustment unit 1221 adjusts and outputs the received voice input from the telephone interface device 4 to a gain according to the setting by the user's volume switch 5. Then, the frequency gain adjustment unit 1222 adjusts the gain for each frequency band of the reception signal output from the audio adjustment unit 122 according to the setting from the loudness compensation control unit 121, and outputs it to the output amplifier 1223. The output amplifier 1223 drives the speaker 2 with a signal obtained by amplifying the received reception signal, and outputs sound to the vehicle interior space.
[0013]
On the other hand, the microphone 3 picks up the voice of the interior space and sends it to the adder 112 as a transmission signal. The adder 112 subtracts the estimated echo signal calculated by the estimated echo calculation unit 111 from the transmission signal, and then outputs it to the telephone interface device 4 as a transmission signal after echo cancellation.
[0014]
Hereinafter, the echo canceling operation for canceling the echo of the reception signal included in the transmission signal picked up by the microphone 3 and the gain of each frequency band of the reception signal output from the speaker 2 in the speech processing apparatus 1 as described above are described as in-vehicle noise. The loudness compensation operation for compensating the user so that the user can easily hear is explained.
[0015]
First, the echo cancellation operation will be described.
Now, s (k) is an audio signal input from the audio interface, g (k) is an impulse response of the transmission system of the audio adjustment unit 122, and h (k) is an impulse response of the transmission system from the speaker input to the microphone output. Then, the echo component of the received signal included in the transmitted signal output from the microphone 3 is expressed as d (k) = {h (k) * g (k) * s (k)}. Here, * represents a convolution operation. Further, the microphone output component is expressed as d (k) + n (k), where n (k) is the surrounding voice other than the echo of the reception signal output from the microphone 3. Therefore, the estimated echo calculation unit 111 estimates the impulse response g (k) * h (k) of the transmission system from the sound adjustment unit input to the microphone output, sets it as the impulse response of the adaptive filter 1111, and outputs the signal s (k ) To the adaptive filter 1111, the echo component of the received signal mixed in the microphone output component can be generated as the estimated echo signal y (k). Then, when the adder 112 subtracts the estimated echo signal y (k) from the transmission signal d (k) + n (k) output from the microphone 3, the transmission signal d (k) output from the microphone 3 is obtained. ) + N (k), it is possible to obtain a transmission signal e (k) in which the echo component d (k) of the reception signal included in the received signal is canceled.
[0016]
Here, the coefficient update unit 1112 calculates and updates the impulse response of the adaptive filter 1111. The coefficient updating unit 1112 uses a filter identification coefficient of the adaptive filter 1111 so that the power of the adder output e (k) is minimized by a learning identification method such as an LMS (Least Mean Square) algorithm or an NLMS (Normalized Least Mean Square) algorithm. And the process of setting the adaptive filter 1111 is repeated. However, when the level of the received signal s (k) is small or the fluctuation of the ambient sound n (k) is severe, the impulse response g (k) * h ( k) cannot be estimated satisfactorily, so when the level of the received signal s (k) is lower than a predetermined level or when the level of the surrounding voice n (k) fluctuates during a user's speech, The calculation and update of the filter coefficient of the adaptive filter 1111 may be stopped. Here, the fluctuation of the ambient voice n (k) appears as the fluctuation of the transmission signal e (k). Alternatively, the filter coefficient can be calculated and updated with a period as long as the fluctuation of the ambient sound n (k) is canceled.
[0017]
As an echo cancellation technique using such an adaptive filter 1111, Japanese Patent Laid-Open No. 2000-341178, Japanese Patent Laid-Open No. 2-288428, Japanese Patent Laid-Open No. 7-086991, Japanese Patent Laid-Open No. 10-257583, etc. The described techniques can be used. The adaptive filter 1111 is, for example, an FIR (Finite Impulse Response) filter. In this case, the impulse response of the adaptive filter 1111 is performed by setting the tap coefficient Xj of the FIR filter.
[0018]
The operation of the echo cancellation operation has been described above.
Next, the loudness compensation operation will be described.
First, in the loudness compensation operation, the principle of how to make it easy for the user to hear the received voice will be described.
The unit of “the volume of sound perceived by humans (loudness)” is “sone”, and the volume of a pure sound of 1 kHz and 40 dB is 1 “sone”. Because it is based on human perception, 2 sounds sounds twice as large as 1 sound. Loudness changes not only with sound intensity but also with frequency band. FIG. 2 is an equal loudness level curve obtained by connecting the sound pressure levels of pure tones having the same loudness as that of a pure tone having a sound pressure level of 1 kHz without external noise. That is, the equal loudness level curve is a plot of the level of another frequency at which a person sounds as large as a 1 kHz sine wave. The equal loudness level curve indicates that as the level decreases, the sound in the low frequency range and the high frequency range may be heard lower or lower than the sound in the intermediate frequency range unless the level is raised.
[0019]
Next, FIG. 3 shows the correspondence between the physical sound pressure level and the loudness felt when a person is listening to the sound, and is called a loudness curve. In the loudness curve, the horizontal axis is the physical sound pressure level (unit: Sound Pressure Level; SPL (dB)), and the vertical axis is the loudness (unit: sone), which is the numerical value of the sound perceived by humans. . In FIG. 3, (a) is a loudness curve in a quiet environment, and (b) is a loudness curve under noise. Note that (b) is a curve in a noise in which the minimum audible value of a person increases by about 35 dB, and this curve also changes variously as the noise changes.
[0020]
Here, the loudness curve indicates that if the numerical value of the loudness on the vertical axis is the same, a person feels that the sound has the same loudness. Therefore, the sound that a person feels at a magnitude of 0.1 zone may be a physical sound pressure level of 12 dB SPL in the quiet environment of (a), but a physical sound pressure level of 37 dB SPL in the noise of (b). is required. In other words, if a 12 dB SPL sound is output from the speaker 2 in a quiet environment, the sound of the same magnitude may be felt if the 37 dB SPL sound is not output from the speaker 2 under the noise of (b). Can not. In other words, in order to hear a sound that feels as small as 0.1 zone under noise, a gain of 25 dB must be added compared to listening in a quiet environment. In addition, the sound that a person feels at a 1-sone level is a physical sound pressure level of 42 dB SPL in the quiet environment of (a), but a physical sound pressure level of 49 dB SPL is necessary under the noise of (b). So we have to add a gain of 7dB.
[0021]
Here, when the sound that the user wants to hear is the output sound of the speaker, in order to make the sound output by the speaker feel as a constant loudness regardless of the noise level, It is necessary to change the gain depending not only on the level but also on the level of the sound output from the speaker. Here, FIG. 4 is a diagram showing how much gain needs to be added to the sound pressure level under silence in order to feel a sound of the same magnitude as under silence under noise. In the figure, the horizontal axis represents the sound pressure level of the sound output under silence, and the vertical axis represents the gain value that needs to be added in order to feel a sound of the same magnitude as under silence. For example, a sound that is output at a sound pressure level of 20 dB under silence is added with a gain of about 19 dB under noise, so that a human feels that the sound has the same magnitude as that under silence.
[0022]
As described above, the gain that needs to be given to the speaker output sound differs depending on the ambient noise level and the speaker output sound level in order to realize the same ease of hearing for the user. In addition, the ambient noise has a different level for each frequency band, and the ease of listening to the sound of the user differs for each frequency band as shown in the equal loudness level curve in FIG. In order to realize the same ease of listening, the gain that needs to be given to the speaker output sound needs to be different for each frequency band.
[0023]
Therefore, in this embodiment, a gain adjustment amount that realizes ease of hearing regardless of the ambient noise level and the frequency band is determined for each combination of the received voice level and the ambient noise level for each frequency band, and the loudness compensation control is performed. The unit 121 estimates the received voice level and the ambient noise level output to the user for each frequency band, and selects a gain adjustment amount set in advance for a set of the estimated received voice level and the ambient noise level, According to the gain adjustment amount selected for each frequency band, the frequency gain adjustment unit 1222 adjusts the gain of the received voice for each frequency band. In this embodiment, the level of the estimated echo signal y (x) estimated by the estimated echo calculation unit 111 described above is used as the received voice level, and the transmission signal e (x) after echo cancellation is used as the ambient noise level. By using it, the received voice level and ambient noise level output to the user are estimated. Here, when the estimation of the echo by the estimated echo signal calculation unit is appropriately performed, the user can be expected to be relatively close to the microphone, so the estimated echo signal y (x) is the sound of the received voice that reaches the user. It can be considered that the transmission signal e (x) after echo cancellation is substantially proportional to the pressure level, and is proportional to the sound pressure level of noise around the user at least when the user is not speaking.
[0024]
Details of such a loudness compensation operation will be described below.
FIG. 6 shows a configuration example of the loudness compensation control unit 121.
As shown in the figure, the loudness compensation control unit 121 includes an ambient noise frequency band level averaging unit 1211, a noise level correction unit 1212, a frequency band gain table selection unit 1213, a received voice frequency band level averaging unit 1214, and a gain table memory 1215. It is configured.
[0025]
In the gain table memory 1215, a gain table that preliminarily describes the relationship between the received voice level and the gain to be added and is provided for each combination of various noise levels and frequency bands in advance, for example, defining the relationship as shown in FIG. Is recorded.
[0026]
The ambient noise frequency band level averaging unit 1211 performs an FFT (Fast Fourier Transform) operation for each predetermined time block on the transmission signal e (x) after echo cancellation output from the adder 112, The average sound pressure level in the time block is calculated for each frequency band. Here, for example, in consideration of the characteristic that human hearing can recognize the difference in noise level every 1/3 octave, the average sound within the time block for each frequency band of 1/3 octave. Calculate the pressure level.
[0027]
The noise level correction unit 1212 adjusts the sound pressure level output for each frequency band from the ambient noise frequency band level averaging unit 1211 using Zwicker's loudness calculation method (ISO 532B) or Stevens' loudness calculation method (ISO 532A). To do.
Specifically, the adjustment is performed as follows. That is, when there is noise of a certain frequency component, this noise etc. not only affects the difficulty of listening to the received voice of the same frequency component, but also listens to the guide voice signal of the frequency component adjacent to the high frequency side. It also affects the difficulty. In view of this, the noise level correcting unit 1212 adjusts the sound pressure level of each frequency component according to the magnitude of the sound pressure level of the frequency component such as noise adjacent to the low frequency side. That is, when the sound pressure level of the adjacent low frequency component is large, the sound pressure level of the frequency component adjacent to the high frequency side is corrected to be higher. By making such adjustments, when selecting a gain table for each frequency band, it is only necessary to focus on the sound pressure level such as noise in each corresponding frequency band, and the frequency band adjacent to the low frequency side. Therefore, it is not necessary to perform complicated processing such as taking into account noise and the like.
[0028]
The received voice frequency band level averaging unit 1214 performs a well-known FFT operation on the estimated echo signal output from the estimated echo calculation unit 111 for each predetermined time block, and the received noise frequency band level averaging unit 1211 The average sound pressure level in the time block is calculated for each frequency band.
[0029]
Then, the frequency band gain table selection unit 1213 selects, for each frequency band, a gain table corresponding to the frequency band and the sound pressure level of the adjusted frequency band output from the noise level correction unit 1212. . Then, for each frequency band, using the selected gain table, a gain value corresponding to the sound pressure level of the frequency band output from the received voice frequency band level averaging unit 1214 is calculated, and the frequency gain adjustment unit 1222 receives the gain value. Sent.
[0030]
The loudness compensation control unit 121 has been described above.
It should be noted that the ambient noise frequency band level average unit 1211 and the received voice frequency band level average unit 1214 of the present loudness compensation control unit are divided into a set of frequency filters that divide the signal for each frequency band, instead of the FET calculation. In addition, it may be configured with a time averaging unit for obtaining a time average of sound pressure levels of signals in each frequency band. Alternatively, the ambient noise frequency band level average unit 1211 and the received voice frequency band level average unit 1214 of the present loudness compensation control unit increase the frequency resolution by increasing the time window length in the lower frequency band instead of the FET calculation. It is also possible to use a window function with a reduced time resolution and perform a wavelet transform using a window function with a reduced frequency resolution by shortening the time window length and increasing the time resolution for higher frequency bands.
[0031]
Next, the frequency gain adjustment unit 1222 will be described.
FIG. 6 shows a configuration example of the frequency gain adjustment unit 1222.
In the illustrated example, the frequency gain adjustment unit 1222 includes a filter bank 12221, a variable gain unit 12222, and an adder 12223.
The filter bank 12221 is a band pass filter group having a predetermined frequency bandwidth, and the received voice signal is divided into frequency bands by these band pass filter groups. The variable gain unit 12222 gives the gain for each frequency band calculated by the loudness compensation control unit 121 to the received voice signal divided for each frequency band output from the filter bank 12221 to perform gain adjustment. The adder 12223 adds and outputs the received voice signal whose gain is adjusted for each frequency band.
[0032]
The frequency gain adjustment unit 1222 has been described above.
The frequency gain adjustment unit 1222 uses the FIR filter and the gain of each frequency band calculated by the loudness compensation control unit 121 as the gain of the center frequency of each frequency band, and uses a spline function between the gain values. The spline function interpolator that calculates smooth gain characteristics in the frequency domain by interpolating using, and the gain characteristics calculated by the spline function interpolator are converted from the frequency domain to the time domain using IFFT (InverseFast Fourier Transform) The IFFT calculation unit for setting the value of the tap coefficient of the FIR filter can also be configured. In this case, the FIR filter performs filtering processing on the time axis for the received voice signal, and performs gain adjustment similar to the frequency gain adjustment unit 1222 illustrated in FIG.
[0033]
Further, the frequency gain adjustment unit 1222 uses the gain of each frequency band calculated by the loudness compensation control unit 121 as the gain of the center frequency of each frequency band, and interpolates between each gain value using a spline function. Spline function interpolation unit that calculates smooth gain characteristics in the frequency domain, FFT operation unit that performs FFT operation on the received voice signal and converts it from the time domain to the frequency domain, and the frequency domain that is output from the FFT operation unit The frequency band filtering unit that filters the guidance voice signal at the frequency band filtering unit that performs smooth gain characteristics output from the spline function interpolation unit and the IFFT operation on the received voice signal in the frequency domain that is output from the frequency band filtering unit IFFT calculator that converts frequency domain to time domain It is also possible to more configuration. In the IFFT calculation process, a well-known superposition addition method (overlap-addmethod) or superposition hold method (overlap-save method) may be used in order to realize linear filtering. With this configuration, the amount of calculation can be relatively reduced even when the number of filter taps is large.
[0034]
In any case, it is preferable that the frequency gain adjusting unit 1222 gradually updates the gain characteristics because the output waveform becomes discontinuous when the gain changes abruptly.
Heretofore, an embodiment of the audio processing device 1 according to the present invention has been described.
In the above, application to an in-vehicle hands-free communication device has been described as an example, but the configuration for performing echo cancellation and loudness compensation as described above is a mobile phone, a fixed phone or any other voice communication device, or The present invention can be applied to a device that processes call voice of any voice communication device.
[0035]
Also, in the above, the voice band is divided into a plurality of frequency bands, and the gain of the received voice is adjusted for each frequency band. Also good. In this case, the frequency gain adjusting unit 1222 can be omitted, and it is sufficient to adjust the gain of the received voice by adjusting the volume of the volume adjusting unit 1221.
[0036]
As described above, according to the present embodiment, it is possible to suppress obscuration of call speech due to both echo and ambient noise in voice communication. In addition, the estimated echo signal calculated in the echo cancellation process is regarded as a received voice to be clarified in loudness compensation, and the transmitted signal after echo cancellation is regarded as ambient noise in loudness compensation, and loudness compensation is performed. As a result, a simple and efficient configuration that shares part of the configuration for echo cancellation and the configuration for loudness compensation prevents suppression of obscuration of call speech due to both echo and ambient noise. Realized.
[0037]
However, in the loudness compensation, the estimated echo signal calculated in the process of echo cancellation is clarified in the loudness compensation by performing a predetermined correction to reduce the deviation between the estimated echo signal and the received signal reaching the actual user. A signal that has been subjected to a predetermined correction to reduce the difference between the echo signal after echo cancellation and the actual ambient noise of the user. May be regarded as ambient noise in the loudness compensation, and the loudness compensation may be performed.
[0038]
【The invention's effect】
As described above, according to the present invention, even in an environment where both echo and ambient noise are relatively large, it is possible to efficiently suppress obscuration of call voice in voice communication.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a hands-free device according to an embodiment of the present invention.
FIG. 2 is a diagram showing an equal loudness level curve.
FIG. 3 is a diagram showing a loudness curve in a quiet environment and a noisy environment.
FIG. 4 is a diagram illustrating a gain for obtaining the same loudness in a quiet environment and a noisy environment.
FIG. 5 is a block diagram illustrating a configuration example of a loudness compensation control unit according to the embodiment of the present invention.
FIG. 6 is a block diagram illustrating a configuration example of a frequency gain adjustment unit according to the embodiment of the present invention.
[Explanation of symbols]
1: audio processing device, 2: speaker, 3: microphone, 4: telephone interface device, 5: volume switch, 6: mobile phone, 11: echo canceller unit, 12: audio output processing unit, 111: estimated echo calculation unit, 112: Adder, 121: Loudness compensation control unit, 122: Audio adjustment unit, 1111: Adaptive filter, 1112: Coefficient update unit, 1211: Ambient noise frequency band level averaging unit, 1212: Noise level correction unit, 1213: Frequency band Gain table selection unit, 1214: Received voice frequency band level averaging unit, 1215: Gain table memory, 1221: Volume adjustment unit, 1222: Frequency gain adjustment unit, 1223: Output amplifier, 12221: Filter bank, 12222: Variable gain unit, 12223: Adder.

Claims (4)

音声通信端末の通話音声を処理する通話音声処理装置であって、
前記音声通信端末が受信した受話音声のラウドネス補償を行うラウドネス補償手段と前記ラウドネス補償手段がラウドネス補償を行った受話音声を出力するスピーカと、
音声を入力するマイクロフォンと、
マイクロフォンから入力する音声に含まれる受話音声のエコーをキャンセルし、前記音声通信端末が送信する送話音声とするエコーキャンセル手段とを有し、
前記エコーキャンセル手段は、マイクロフォンから入力する音声に含まれる受話音声のエコーの推定値を推定エコー音声として算出する推定エコー算出手段と、
マイクロフォンから入力する音声から前記推定エコー算出手段が算出した推定エコー音声を減算して、前記送話音声とする減算手段とを有し、
前記ラウドネス補償手段は、前記推定エコー算出手段が算出した推定エコー音声をユーザに届く受話音声とし、前記送話音声をユーザの周囲騒音として、ユーザが認識する受話音声の明瞭性が維持されるように、前記受話音声のゲイン調整を行うことを特徴とする通話音声処理装置。
A call voice processing device for processing call voice of a voice communication terminal,
Loudness compensation means for compensating the loudness of the received voice received by the voice communication terminal; and a speaker for outputting the received voice subjected to the loudness compensation by the loudness compensation means;
A microphone for voice input,
Canceling echo of the received voice included in the voice input from the microphone, and having an echo canceling means for transmitting the voice transmitted by the voice communication terminal,
The echo canceling means is an estimated echo calculating means for calculating an estimated value of an echo of a received voice included in a voice input from a microphone as an estimated echo voice;
Subtracting the estimated echo sound calculated by the estimated echo calculation means from the sound input from the microphone, and the subtracting means as the transmission voice,
The loudness compensation means maintains the clarity of the received voice recognized by the user by using the estimated echo sound calculated by the estimated echo calculating means as the received voice that reaches the user and using the transmitted voice as the ambient noise of the user. Further, the call voice processing apparatus is characterized in that the gain of the received voice is adjusted.
請求項1記載の通話音声処理装置であって、
前記ラウドネス補償手段は、所定の周波数帯域毎に、当該周波数帯域内の前記推定エコー算出手段が算出した推定エコー音声と当該周波数帯域内の前記送話音声とに応じて、前記受話音声のゲイン調整を行うことを特徴とする通話音声処理装置。
The call voice processing device according to claim 1,
The loudness compensation means adjusts the gain of the received voice for each predetermined frequency band according to the estimated echo sound calculated by the estimated echo calculation means in the frequency band and the transmitted voice in the frequency band. A call voice processing apparatus characterized by:
請求項1または2記載の通話音声処理装置であって、
前記音声通信端末として移動電話機を収容する移動電話機インタフェースを備えたことを特徴とする通話音声処理装置。
The call voice processing device according to claim 1 or 2 ,
A call voice processing apparatus comprising a mobile telephone interface for accommodating a mobile telephone as the voice communication terminal.
音声通信における通話音声を処理する通話音声処理方法であって、
マイクロフォンから入力する音声に含まれる受話音声のエコーの推定値を推定エコー音声として算出し、マイクロフォンから入力する音声から算出した前記推定エコー音声を減算して、音声通信において送信する送話音声とするステップと、
前記推定エコー音声をユーザに届く受話音声とし、前記送話音声をユーザの周囲騒音として、前記受話音声のゲイン調整を行ってスピーカから出力するステップとを有することを特徴とする通話音声処理方法
A call voice processing method for processing call voice in voice communication,
The estimated value of the echo of the received voice included in the voice input from the microphone is calculated as the estimated echo voice, and the estimated echo voice calculated from the voice input from the microphone is subtracted to obtain the transmitted voice to be transmitted in voice communication. Steps,
The estimated echo sound as the received voice to reach the user, the transmitting voice as ambient noise of a user, call voice processing method characterized by a step of outputting from the speaker by performing the gain adjustment of the received voice.
JP2002065821A 2002-03-11 2002-03-11 Call voice processing device Expired - Lifetime JP3947021B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002065821A JP3947021B2 (en) 2002-03-11 2002-03-11 Call voice processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002065821A JP3947021B2 (en) 2002-03-11 2002-03-11 Call voice processing device

Publications (2)

Publication Number Publication Date
JP2003264627A JP2003264627A (en) 2003-09-19
JP3947021B2 true JP3947021B2 (en) 2007-07-18

Family

ID=29197938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002065821A Expired - Lifetime JP3947021B2 (en) 2002-03-11 2002-03-11 Call voice processing device

Country Status (1)

Country Link
JP (1) JP3947021B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4722607B2 (en) * 2004-12-14 2011-07-13 アルパイン株式会社 Audio processing device
JP5188558B2 (en) * 2004-12-14 2013-04-24 アルパイン株式会社 Audio processing device
JP5346350B2 (en) * 2011-04-04 2013-11-20 日本電信電話株式会社 Echo canceling apparatus, method and program
CN103716437A (en) * 2012-09-28 2014-04-09 华为终端有限公司 Sound quality and volume control method and apparatus
CN114333910A (en) * 2022-01-05 2022-04-12 游密科技(深圳)有限公司 Employee emotion recognition method and device based on video conference and computer equipment
CN115665318B (en) * 2022-11-30 2023-10-20 荣耀终端有限公司 Call tone quality adjusting method and electronic equipment

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2919422B2 (en) * 1997-02-26 1999-07-12 埼玉日本電気株式会社 Echo canceller
JPH11166835A (en) * 1997-12-03 1999-06-22 Alpine Electron Inc Navigation voice correction device
JP3822397B2 (en) * 1999-09-27 2006-09-20 アルパイン株式会社 Voice input / output system

Also Published As

Publication number Publication date
JP2003264627A (en) 2003-09-19

Similar Documents

Publication Publication Date Title
US8306234B2 (en) System for improving communication in a room
KR100623411B1 (en) Communication device with active equalization and method therefor
US6674865B1 (en) Automatic volume control for communication system
US8565415B2 (en) Gain and spectral shape adjustment in audio signal processing
US7117145B1 (en) Adaptive filter for speech enhancement in a noisy environment
EP2715720B1 (en) Personal audio device having adaptive noise cancellation
TWI508060B (en) Pre-shaping series filter for active noise cancellation adaptive filter
US7171003B1 (en) Robust and reliable acoustic echo and noise cancellation system for cabin communication
CN107734412B (en) Signal processor, signal processing method, headphone, and computer-readable medium
US8311234B2 (en) Echo canceller and communication audio processing apparatus
US20040143433A1 (en) Speech communication apparatus
US7039197B1 (en) User interface for communication system
EP1858295A1 (en) Equalization in acoustic signal processing
WO2015034610A1 (en) Anc system with spl-controlled output
EP0882353A2 (en) Method and apparatus for adaptive volume control for a radiotelephone
WO2014193264A1 (en) Method for compensating for hearing loss in a telephone system and in a mobile telephone apparatus
WO2002032356A1 (en) Transient processing for communication system
CN107005268B (en) Echo cancellation device and echo cancellation method
JP4541159B2 (en) Nonlinear acoustic echo canceller
JP3947021B2 (en) Call voice processing device
EP1584178B1 (en) Device and method for suppressing echo, in particular in telephones
CN103457646B (en) Method and apparatus for frequency domain echo rejects trap
JP2002009677A (en) Acoustic echo canceller
CN107833580B (en) Noise suppression based on dynamic increase of input noise characteristics
JP7043344B2 (en) Echo suppression device, echo suppression method and echo suppression program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060905

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070412

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110420

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120420

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120420

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130420

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130420

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140420

Year of fee payment: 7