JP4696776B2 - 音声処理装置及びマイク装置 - Google Patents

音声処理装置及びマイク装置 Download PDF

Info

Publication number
JP4696776B2
JP4696776B2 JP2005236250A JP2005236250A JP4696776B2 JP 4696776 B2 JP4696776 B2 JP 4696776B2 JP 2005236250 A JP2005236250 A JP 2005236250A JP 2005236250 A JP2005236250 A JP 2005236250A JP 4696776 B2 JP4696776 B2 JP 4696776B2
Authority
JP
Japan
Prior art keywords
noise
echo
signal
audio
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005236250A
Other languages
English (en)
Other versions
JP2007053511A (ja
Inventor
貴義 川口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005236250A priority Critical patent/JP4696776B2/ja
Publication of JP2007053511A publication Critical patent/JP2007053511A/ja
Application granted granted Critical
Publication of JP4696776B2 publication Critical patent/JP4696776B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は音声処理装置及びマイク装置に関し、特に音声入力信号からエコーやノイズを除去して音声信号を取り出し、音声信号の大きさに応じてサプレス処理を行う音声処理装置及びマイク装置に関する。
従来、テレビ会議システムに代表されるように、遠隔地間など多地点に設置された複数の端末を介して音声や映像などを送受することによって、多地点間で会議を行うことを可能にする会議システムがある。
このような会議システムなどで用いるマイク装置(以下、マイクとする)には、マイクが集音した音声入力信号を処理する音声処理部が搭載されている。音声処理部では、音声入力信号に対し、自らのスピーカから出力した音声がマイクに回り込むエコーを防ぐためのエコーキャンセラや、定常的な背景騒音などを除去するノイズキャンセラによる処理が施される。さらに、サプレッサによって、エコーキャンセラやノイズキャンセラによる処理が行われた音声信号に基づいてマイクの前の話者の音声がするとき以外はマイクの音をサプレスする処理が行われ、不要なノイズやエコーが相手側装置に送信されることを防止している。
しかしながら、ノイズやエコーは、マイクが設置されている部屋の状況(たとえば、ノイズが多い場所であるとか、音が反射しやすい場所であるなど)や、会議の状況(シングルトークであるが、ダブルトークであるかなど)などによっても変化する。このため、マイクが入力した音声信号からノイズやエコー成分のみを除去することは容易ではない。
そこで、テスト信号を発生させ、テスト信号をスピーカで拡声した音声をマイクに入力する信号を解析することによって、エコーサプレッサの調整を行う装置がある(たとえば、特許文献1参照)。
特許第3601164号(段落番号〔0018〕〜〔0022〕、図1)
しかし、従来の音声処理装置は、エコーキャンセラやノイズキャンセラにおいて不要なノイズやエコーが除去できない場合は、これに反応してサプレッサが効果的に動作しないことがあるという問題点があった。
従来の音声処理装置では、サプレッサは、エコーキャンセラやノイズキャンセラの後の音声入力信号が閾値より大きい場合は話者による音声であると判断し、オンする。すなわち、エコーキャンセラ及びノイズキャンセラ処理後の音声入力信号に基づく音声信号が出力される。一方、音声入力信号が閾値より小さい場合は話者による音声ではないと判断してオフし、音声信号を出力しない。ところが、エコーキャンセラやノイズキャンセラで除去できないノイズやエコーがあると、サプレッサが誤って話者の音声信号であると認識し、そのときのノイズやエコーを相手側装置に送信してしまうことがあるという問題点がある。
エコーキャンセラによる収束が十分でない場合に音声信号を相手側装置に送信しないようにするためには、話者の音声信号と認識する閾値を高く設定すればよい。しかしながら、閾値を大きくしすぎると、ダブルトーク時にマイクの前の話者の音声が相手側装置に伝わらなくなってしまうことがある。逆に閾値を小さくすると、シングルトーク時にエコーキャンセラが十分収束できていないとき、エコーが目立つ。
また、テスト信号によってエコーサプレッサの調整を行った場合、調整時から時間が経過するなどによって設置された部屋の状況や通話状況が変化した場合には、調整時の状態との差が大きくなり、効果的に機能できなくなるという問題点がある。また、調整のたびにユーザが操作指示を行わなければならないのは、ユーザの手を煩わすこととなり、実用的でない。
本発明はこのような点に鑑みてなされたものであり、サプレス処理を効果的に行って、違和感の少ない音声信号を相手側装置に送信する音声処理装置及びこの音声処理装置を搭載したマイク装置を提供することを目的とする。
本発明では上記課題を解決するために、音声入力信号からエコーやノイズを除去して音声信号を取り出し、音声信号の大きさに応じてサプレス処理を行う音声処理装置が提供される。この音声処理装置は、エコーキャンセル手段、ノイズ学習手段、ノイズキャンセル手段、話者音量推定手段、サプレス手段を具備する。エコーキャンセル手段は、音声出力の回り込みによって音声入力信号に混入したエコー成分を除去する。ノイズ学習手段は、エコーキャンセル手段がエコー成分を除去した音声信号からノイズ成分を抽出し、ノイズ成分から定常ノイズを学習する。ノイズキャンセル手段は、定常ノイズに基づき、エコー成分が除去された音声信号からノイズを除去する。話者音量推定手段は、エコー成分が除去された音声信号から定常ノイズを差し引いて推定話者音量を算出する。サプレス手段は、推定話者音量に応じて、エコーキャンセル手段とノイズキャンセル手段によってノイズとエコーが除去された音声信号をサプレスする。
このような音声処理装置によれば、エコーキャンセル手段は、音声入力信号を入力してエコー成分を除去し、エコー成分を除去した音声入力信号をノイズ学習手段、ノイズキャンセル手段及び話者音量推定手段へ送る。ノイズ学習手段は、入力信号からノイズ成分を抽出し、抽出したノイズ成分を用いて定常的に発生する定常ノイズを学習する。学習では、たとえば、処理ごとに抽出された複数のノイズ成分を統計処理し、定常ノイズを算出する。学習した定常ノイズは、ノイズキャンセル手段と話者音量推定手段に出力する。ノイズキャンセル手段では、定常ノイズに基づいてエコーが除去された音声入力信号からノイズを除去し、サプレス手段へ出力する。一方、話者音量推定手段は、エコーが除去された音声入力信号から定常ノイズを除去して推定話者音量を算出し、サプレス手段へ出力する。サプレス手段は、推定話者音量に応じてサプレスするかどうかを判定し、サプレスする場合は、ノイズキャンセル手段から取得されるエコーとノイズが除去された音声信号をサプレス処理する。これにより、推定される話者の音量に応じてサプレス処理が行われるようになる。
また、上記課題を解決するために、上記の音声処理装置を組み込んだマイク装置が提供される。このマイク装置は、集音した音声をデジタル信号に変換して音声入力信号として出力する音声入力手段と、音声出力の回り込みによって音声入力信号に混入したエコー成分を除去するエコーキャンセル手段と、エコー成分が除去された音声信号からノイズ成分を抽出し、ノイズ成分から定常ノイズを学習するノイズ学習手段と、定常ノイズに基づき、エコー成分が除去された音声信号からさらにノイズを除去するノイズキャンセル手段と、エコー成分が除去された音声信号から定常ノイズを差し引いて、推定話者音量を算出する話者音量推定手段と、推定話者音量に応じて、エコーキャンセル手段とノイズキャンセル手段によってエコー成分とノイズが除去された音声信号をサプレスするサプレス手段と、を具備する。
このようなマイク装置では、音声入力手段が集音した音声に基づく音声入力信号は、エコーキャンセル手段でエコーが除去された後、ノイズ学習手段でノイズ成分が抽出され、定常ノイズが算出される。話者音量推定手段は、エコーを除去した音声信号から定常ノイズを差し引いて推定話者音量を算出する。一方、エコーが除去された音声信号は、ノイズキャンセル手段によって、さらにノイズが除去される。この音声信号にサプレス手段が推定話者音量に応じたサプレス処理を実行することにより、推定される話者の音量に応じたサプレス処理が行われるようになる。
本発明では、推定される話者の音声の大きさに応じて相手側に送信する音声信号のサプレス処理を行うので、除去できないノイズやエコーを音声信号と誤認識して相手側装置に送信してしまうことを防止することができる。この結果、相手側装置は、違和感の少ない聞き取りやすい音声信号を受け取ることができるという利点がある。
以下、本発明の実施の形態を図面を参照して説明する。まず、実施の形態に適用される発明の概念について説明し、その後、実施の形態の具体的な内容を説明する。
図1は、実施の形態に適用される発明の概念図である。
本発明に係る音声処理装置は、エコーキャンセル手段1、ノイズ学習手段2、ノイズキャンセル手段3、エコー学習手段4、エコーサプレス手段5、話者音量推定手段6及びサプレス手段7を具備する。
エコーキャンセル手段1は、音声入力信号を受け取ると、スピーカなどから出力された音声出力が回り込むことによって音声入力信号に混入したエコー成分を除去する。エコー成分は、自身が検出し、相手側装置へ送信した音声信号が音声出力されることによって、また戻って音声入力された音声信号成分である。そこで、スピーカから出力された音声信号を用いてエコー成分を予測して算出する。スピーカから出た音は少し時間がたってから、マイクに到達することも考慮し、エコー成分を予測する。エコー成分を除去した音声信号は、ノイズ学習手段2及びノイズキャンセル手段3に出力する。
ノイズ学習手段2は、エコーキャンセル手段1によってエコー成分が除去された音声信号を入力し、ノイズ成分を抽出し、ノイズ成分から定常ノイズを学習する。この定常ノイズの学習は、音声信号をいくつかの周波数領域に分割し、その周波数ごとに行う。ノイズ学習手段2に入力される音声信号は、エコーキャンセル手段1によってエコー成分が除去されており、エコー成分が完全に除去され、話者の音声信号が含まれていなければ、この音声信号はノイズと見なすことができる。話者の音声信号である場合には、波形に音声であることを示す特徴が表れるので、調波構造などを解析することにより、話者の音声であるかどうかがわかる。そこで、入力された音声信号を解析して話者の音声が含まれているかどうかを判定し、音声信号が含まれていないと判定された場合のみ、定常ノイズの学習を行う。また、これまでに採取されたノイズ成分の大きさに比べてノイズ成分の大きさが急激に大きくなっているような場合は、定常的に発生する定常ノイズではないので、これも学習には利用しない。学習処理では、このようにして得られたノイズ成分のデータを統計処理するなどして定常ノイズを算出する。算出された定常ノイズは、ノイズキャンセル手段3及び話者音量推定手段5へ出力する。
ノイズキャンセル手段3は、エコーキャンセル手段1によってエコーが除去された音声信号を入力し、ノイズ学習手段2が算出した定常ノイズに基づき、エコーが除去された音声信号からノイズを除去する。なお、処理は、周波数領域ごとに独立して行う。ノイズは変動するものであり、このときノイズキャンセル手段3に入力される音声信号に含まれるノイズと、ノイズ学習手段2によって学習された定常ノイズはまったく同じものではない。このため、入力した音声信号から学習した定常ノイズをそのまま引くと消し残りのミュージカルノイズが目立ってしまう。一方、引きすぎると声がロボットのように不自然になる。そこで、少し消し残りが出るくらいに調整してノイズを除去するなど、自然な音声となるようにノイズ除去を行う。このような処理は公知であり、ここでは特に言及しない。ノイズを除去した音声信号は、エコー学習手段4及びエコーサプレス手段5に送られる。
エコー学習手段4は、エコーキャンセル手段1が収束しきれていない残留エコーを推定するための学習を行う。エコー学習も定常ノイズの学習と同様に、周波数領域ごとに独立して処理を行う。エコー学習手段4は、エコーキャンセル手段1とノイズキャンセル手段3によってエコー成分とノイズ成分が除去された音声信号の大きさとスピーカへ出力された音声出力信号の大きさのパワーの比を算出し、比に基づきエコーの減衰レベルを学習する。スピーカから出た音がマイクに到達するまでには時間がかかるので、比は少し前の音声出力信号を用いて算出する。なお、この時間差はあまり厳密な値を使う必要はなく、ある程度幅を持たせて音が入り続けていると仮定してよい。そして、学習したエコーの減衰レベルと音声出力信号を乗算し、推定残留エコーを算出し、エコーサプレス手段5と話者音量推定手段6に出力する。なお、エコーの学習は、スピーカから定常的でない音が出ているときだけ実行する。また、ダブルトークの場合は、他の話者の音声信号が混入して正しく算出できないので、シングルトークの場合にのみ学習する。
エコーサプレス手段5は、エコー学習手段4が算出した推定残留エコーに基づき、ノイズキャンセル手段3から入力した音声信号から推定残留エコーを除去し、サプレス手段7へ出力する。
話者音量推定手段6は、エコーキャンセル手段1から取得したエコー除去後の音声信号からノイズ学習手段2が算出した定常ノイズを差し引いて推定話者音量を算出する。さらに、必要であれば、エコー学習手段4が算出した推定残留エコーに基づき、収束していないエコー成分も除去する。なお、シングルトークの場合は、さらに、算出された推定話者音量よりも小さい値とする。シングルトークであるかどうかの判定には、たとえば、ゲイゲルアルゴリズムとして知られている方法などを適宜用いる。シングルトークの場合に推定話者音量を小さく見積もることにより、より早く音声信号のサプレス処理が開始され、見かけのエコー収束時間を早めることができる。さらに、必要に応じて、マイクから出力された音の大きさに応じて推定話者音量をより小さく見積もるなどしてもよい。推定話者音量は、サプレス手段7へ出力する。
サプレス手段7は、推定話者音量に応じて、エコーキャンセル及びノイズキャンセルされた後の音声信号をサプレスし、相手側に送信する音声信号として出力する。サプレス手段7では、推定話者音量を所定の閾値範囲と比較し、比較結果に応じて以下のサプレス処理を行う。推定話者音量が閾値範囲を超えている場合は、サプレス処理はせず、音声信号をそのまま出力する。推定話者音量が閾値範囲を下回っている場合は、音声信号をサプレスし、音声を相手側に伝えない。推定話者音量が閾値範囲内の場合は、予め設定された関数によってサプレスする量を決定し、そのサプレスレベルでサプレス処理を行う。関数は、任意に設定される。
このような構成の音声信号処理装置の動作について説明する。
音声信号処理装置には、マイクなどが集音した音声入力信号と、スピーカなどが出力した音声出力信号が入力される。エコーキャンセル手段1は、音声入力信号から音声出力信号より予測されるエコー成分を除去する。ノイズ学習手段2は、エコー成分が除去された音声信号を入力すると、音声信号に話者の音声が含まれているかどうかを判定し、含まれていなければノイズ成分を抽出する。なお、ノイズ成分が急激に変化している場合には、定常状態でないと判断し、破棄する。そして、このようにして集められたノイズ成分から、定常のノイズを学習する。定常ノイズは、ノイズキャンセル手段3及び話者音量推定手段6へ通知される。ノイズキャンセル手段3では、定常ノイズに基づき、エコーキャンセル手段1によってエコーが除去された音声信号からノイズを除去する。一方、エコー学習手段4は、音声出力信号と音声信号とからエコーの減衰レベルを学習し、推定残留エコーを算出する。エコーサプレス手段5は、さらに推定残留エコーを用いて音声信号から残留エコー成分を除去する。
以上のように、音声入力信号からエコーが除去された後、さらに、ノイズ学習手段2が学習した定常ノイズと、エコー学習手段4が学習したエコーの減衰レベルに基づく推定残留エコーが除去され、ノイズやエコー成分の少ない、聞き取りやすい音声信号が生成される。
一方、話者音量推定手段6は、エコーキャンセル手段1が出力した音声信号から定常ノイズと推定残留エコーを除去し、推定話者音量を算出する。サプレス手段7は、エコーサプレス手段5からエコー、ノイズ及び残留エコーが除去された音声信号を受け取ると、推定話者音量の大きさに応じてサプレス処理を行い、相手側に送信する音声信号を出力する。
このように、推定話者音量によりサプレス処理を行うので、エコーキャンセラやノイズキャンセラが完全に働かなくても、話者の音声以外の音によって音声信号が相手側に送信されることがなくなる。この結果、たとえば、スピーカの前やノイズ源のそばのマイクの音がサプレスされず、相手側に送信されてしまう現象をなくすことができ、話者の音だけを相手側に伝えることができるようになる。
なお、上記の処理は、周波数領域ごとに独立して実行される。周波数領域ごとに処理を行うことにより、精度の高い結果が得られる。
以下、実施の形態をテレビ会議システムの音声処理に適用した場合を例に図面を参照して詳細に説明する。図2は、実施の形態のテレビ会議システムに適用されるマイクの構成図である。
実施の形態のテレビ会議システムは、テレビ会議システム本体(以下、本体とする)200に対し、マイク1(100)、マイク2(101)が通信路301、302と電源信号路311、312によってカスケード接続されている。各マイクは同じ構成であるので、以下、マイク1(100)の場合で説明する。
マイク1(100)は、音声処理を行う音声信号処理部110、電源処理を行う電源制御回路130とDC−DC変換器131、シリアル通信を制御するシリアルI/F FPGA(Field Programmable Gate Array)140、マイクのオン/オフスイッチ150、及び音声を入力する集音部160とA/D変換器161を有する。以下、シリアルI/F FPGA140をシリアルI/F140と表記する。
音声信号処理部110は、音声入力信号からエコーやノイズを除去し、サプレス処理を行って、他の装置へ送信する音声信号を生成する。図に示したようにマイクが複数接続する場合は、シリアルI/F140から入力されるカスケード接続された他マイクの音声信号と(Cascade In)、自マイクの音声信号を加算し、シリアルI/F140を介して送信する(Cascade Out)。また、図示しない制御部によって、シリアルI/F140を介して制御指令を入力し、指令に応じた処理を行う(Control I/O)。
電源制御回路130は、上流の本体200から供給されたDC電源をDC−DC131へ送るとともに、下流に電源を供給するかどうかを判断し、供給する場合は、電源信号路312を介してマイク2(101)へ電源を供給する制御を行う。
シリアルI/F140は、本体200から送信される下りデータを入力し、所定の処理を行うとともに、下りデータを下流のマイク2(101)へ出力する。また、下流のマイク2(101)から入力された上りデータに対し音声情報に自マイクの音声信号を加算するなどの処理を行った後、上流の本体200に出力する。以下、通信される下りデータ及び上りデータを総称して通信コマンドとする。
オン/オフスイッチ150は、マイク1(100)のオン/オフを操作するための外部スイッチである。オフの場合、音声信号処理部110は、自マイクの検出した音声入力信号を外部へ出力しない。
集音部160は、外部の音声を入力してA/D変換器161へ送る。A/D変換器161は、集音部160の生成したアナログの音声信号をデジタル信号に変換して音声信号処理部110へ出力する。
本体200は、カスケード接続するマイク1(100)、マイク2(101)と通信コマンドを介して情報交換して、これらのマイクを管理している。また、他の部屋などに設置される本体装置とネットワークを介して通信し、音声信号を交換している。
外部DC電源400は、必要に応じて、各マイクに接続され、電源を供給する。
音声信号処理部110の詳細について説明する。
図3は、本実施の形態の音声信号処理部の構成を示したブロック図である。
実施の形態の音声信号処理部110は、エコーキャンセラ111、ノイズレベル学習部112、ノイズキャンセラ113、スピーカノイズレベル学習部114、スピーカ音ノイズキャンセラ115、エコー減衰レベル学習部116、残留エコーレベル推定部117、エコーサプレッサ118、話者音量推定部119及びサプレッサ120を具備する。
エコーキャンセラ111は、集音部160から入力し、A/D変換器161によってデジタル信号に変換された音声入力信号を入力し、エコー成分を除去する。ノイズレベル学習部112はノイズ学習手段2であって、エコー成分が除去された音声信号に基づき、定常ノイズを学習する。ノイズキャンセラ113は、ノイズキャンセル手段3であって、ノイズレベル学習部112が学習した定常ノイズレベルに基づき、音声信号からノイズを除去する。
スピーカノイズレベル学習部114は、スピーカから出力される音声信号に含まれているノイズレベルを学習する。学習は、ノイズレベル学習部112と同様に、定常状態におけるスピーカの音声出力信号を用いて行う。スピーカ音ノイズキャンセラ115は、ノイズキャンセラ113と同様に、スピーカノイズレベル学習部114が学習したスピーカノイズレベルに基づき、音声出力信号から定常ノイズ成分を取り除く。
エコー減衰レベル学習部116と残留エコーレベル推定部117は、エコー学習手段4である。エコー減衰レベル学習部116は、エコーやノイズ除去後の音声出力信号と音声入力信号の比からエコー減衰レベルを学習する。残留エコーレベル推定部117は、エコー減衰レベル学習部116が学習したエコー減衰レベルを用いて推定残留エコーレベルを算出する。
エコーサプレッサ118は、残留エコーレベル推定部117が算出した推定残留エコーを用いて、エコーキャンセラ111とノイズキャンセラ113によってエコーとノイズが除去された音声信号から残留エコーを除去する。
話者音量推定部119は、エコーキャンセラ111がエコーを除去した音声信号から定常ノイズと推定残留エコーを差し引いて、推定話者音量を算出する。サプレッサ120は、話者音量推定部119が算出した推定話者音量の大きさに応じて、エコーキャンセラ111、ノイズキャンセラ113及びエコーサプレッサ118によってエコーとノイズが除去された音声信号を出力するか、またはサプレスするかを決める。なお、サプレスする場合は、そのサプレスレベルも決定する。
このような構成の音声信号処理部110では、エコーキャンセラ111は、スピーカが出力した音声出力信号に基づき、マイクが収録した音声入力信号のエコー成分を除去する処理を行う。エコー成分が除去された音声信号は、ノイズレベル学習部112と、ノイズキャンセラ113へ伝達される。
たとえば、話者が話をしていない状態では、エコーキャンセラ111によって、エコーが除去されていれば、音声信号に主として含まれるのは定常ノイズになる。ノイズレベル学習部112では、エコーキャンセラ111がエコーを除去した音声信号に含まれるノイズ成分を抽出し、抽出されたノイズ成分から定常ノイズを学習する。なお、この処理は、周波数領域ごとに独立して行われる。同様に、スピーカノイズレベル学習部114でも音声出力信号側の定常ノイズが学習される。このとき、ノイズキャンセラ113、エコーサプレッサ118も働き、音声信号からノイズや残留エコーを除去する処理が行われる。
話者が話をしていない状態で得られる音声信号は、背景騒音などの定常ノイズ成分がほとんどとなっている。話者が話をしていない状態では、話者音量推定手段6が算出する推定話者音量も低い値となるため、サプレス手段7によって音声信号がサプレスされ、相手側に音声は伝わらない。
また、この状態で一過性のノイズが発生した場合、ノイズレベル学習部112は、急激に変化したノイズ成分では定常ノイズの学習を行わないので、定常ノイズの値に変化はない。話者音量推定部119は、全体のレベルではなく話者音量のレベルで見ているので、誤認識する可能性は低いが、ノイズの状況によっては、誤認識してしまうことも考えられる。しかしながら本実施の形態では、いくつかの周波数領域に分割し、周波数領域ごとに独立して処理を行っているので、一部の周波数領域で誤認識が起きても、全体としては状態を正しく認識することができる。
話者が話し始めると、ノイズレベル学習部112は、学習を中断する。また、ノイズキャンセラ113は、ノイズレベル学習部112が算出した定常ノイズに基づき、音声信号からノイズを除去する。ノイズの除去は、聞く側が不自然に聞こえないように処理される。一方、エコー減衰レベル学習部116は、エコーの減衰レベルの学習を開始し、残留エコーレベル推定部117は、学習されたエコーの減衰レベルとノイズ除去後の音声出力信号から推定残留エコーを算出する。音声信号は、エコーサプレッサ118によってさらに残留エコーが除去され、聞き取りやすい音声になる。
また、話者音量推定手段6は、エコーキャンセラ111によってエコーが除去された音声信号から定常ノイズと推定残留ノイズを除去し、推定話者音量を算出する。
図4は、本実施の形態の話者音量推定処理を説明する図である。(A)は、エコーキャンセラによるエコーキャンセル後の音声信号、(B)は、ノイズレベル学習部が学習した定常ノイズ信号、(C)は、残留エコーレベル推定部が算出した推定残留エコー信号、(D)は、話者音量推定部が算出した推定話者音量の音声信号を示している。
(A)に示したエコーキャンセル後の音声信号は、定常ノイズ、残留エコー及び話者音量が重なった信号になっている。そこで、ノイズレベル学習部112、残留エコーレベル推定部117が算出した定常ノイズ信号と推定残留エコー信号に基づき、エコーキャンセル後の音声信号から定常ノイズ成分と推定残留エコー成分を除去すれば、推定話者音量が得られる。
図からわかるように、音声信号は、周波数領域ごとに波形に特徴があるため、周波数領域ごとに独立して処理することにより、個々の領域ごとに精度の高い結果を得ることができる。
また、話者音量推定部119では、シングルトークの場合、推定話者音量を小さい値とする。たとえば、話者の話が終わっても、スピーカから回り込んだ音声信号が音声入力信号に混入する。これが、エコーキャンセラ111によって完全に除去できない場合、話者音量推定部119に除去できなかった音声信号(残留エコー)が入力する。これを残留エコーレベル推定部117でも除去できないとしても、推定話者音量は小さく見積もられているので、サプレッサ120によって早期に音声信号がサプレスされる。これにより、見かけの収束時間を早くすることができる。
サプレッサ120の処理について説明する。
図5は、本実施の形態のサプレッサによるサプレス処理の一例を示した図である。
図の例では、閾値範囲を40dBから60dBとしている。推定話者音量が60dBを超えている場合には、サプレッサレベルは1.0であり、音声信号はそのまま出力される。一方、推定話者音量が40dBより下の場合には、サプレッサレベルは0.0で音声信号は出力されない。40dBから60dBの間は、前回のサプレッサレベルが保持される。すなわち、推定話者音量が40dBから増加し、60dBを超えるまでは、サプレッサレベル0.0が維持される。逆に、60dBから減少する場合は、40dBを下回るまでサプレッサレベル1.0が維持される。
従来は、任意の閾値で音声信号をオン/オフしていたため、閾値の前後で音量が変化すると、音声信号がオン/オフされ、ノイズが目立って耳障りなことがあった。本実施の形態では、閾値範囲内であれば状態が変わらないため、耳障りな事象が生じない。
なお、この関数は一例であり、所定の閾値範囲内ではサプレッサレベルをステップ状に変化させたりするなど、挙動を任意に設定することができる。
以上、本実施の形態のマイクは、テレビ会議システムなど、それぞれでエコーキャンセラなどの処理が可能な複数のマイクがつながれた形態に特に効果がある。もちろん、1つのマイクであっても、サプレス機能のオン/オフが不必要に切り替わるのを防止できるなど、効果が得られる。
実施の形態に適用される発明の概念図である。 実施の形態のテレビ会議システムに適用されるマイクの構成図である。 本実施の形態の音声信号処理部の構成を示したブロック図である。 本実施の形態の話者音量推定処理を説明する図である。 本実施の形態のサプレッサによるサプレス処理の一例を示した図である。
符号の説明
1・・・エコーキャンセル手段、2・・・ノイズ学習手段、3・・・ノイズキャンセル手段、4・・・エコー学習手段、5・・・エコーサプレス手段、6・・・話者音量推定手段、7・・・サプレス手段

Claims (12)

  1. 音声入力信号からエコーやノイズを除去して音声信号を取り出し、前記音声信号の大きさに応じてサプレス処理を行う音声処理装置において、
    記音声入力信号に混入したエコー成分を音声出力信号に基づいて除去するエコーキャンセル手段と、
    前記エコー成分が除去された前記音声信号からノイズ成分を抽出し、前記ノイズ成分から定常ノイズを学習するノイズ学習手段と、
    前記定常ノイズに基づき、前記エコー成分が除去された前記音声信号からさらにノイズを除去するノイズキャンセル手段と、
    前記エコー成分が除去された前記音声信号から前記定常ノイズを差し引いて、推定話者音量を算出する話者音量推定手段と、
    前記推定話者音量に応じて、前記エコーキャンセル手段と前記ノイズキャンセル手段によって前記エコー成分と前記ノイズが除去された前記音声信号をサプレスするサプレス手段と、
    を具備することを特徴とする音声処理装置。
  2. 前記ノイズ学習手段及び前記話者音量推定手段は、前記音声信号を所定の周波数領域に分割し、前記所定の周波数領域ごとに処理を行う、
    ことを特徴とする請求項1記載の音声処理装置。
  3. 前記ノイズ学習手段は、前記エコー成分が除去された前記音声信号を解析して前記音声信号に話者の音声が含まれているかどうかを判定し、前記話者の音声が含まれていないと判定された場合のみ、前記定常ノイズの学習を行
    ことを特徴とする請求項1記載の音声処理装置。
  4. 前記ノイズ学習手段は、抽出された前記ノイズ成分のレベルが急激に大きくなった場合は、前記ノイズ成分を前記定常ノイズの学習に利用しない、
    ことを特徴とする請求項1記載の音声処理装置。
  5. 前記話者音量推定手段は、前記エコー成分が除去された前記音声信号を解析し、シングルトークと判定される場合は、前記推定話者音量を前記音声信号から前記定常ノイズを差し引いた値より小さい値にする、
    ことを特徴とする請求項1記載の音声処理装置。
  6. 前記サプレス手段は、前記推定話者音量を所定の閾値範囲と照合し、前記推定話者音量が前記所定の閾値範囲を超えている場合は前記音声信号をそのまま出力し、前記推定話者音量が前記所定の閾値範囲より下の場合は前記音声信号をサプレスし、前記推定話者音量が前記所定の閾値範囲内の場合は前記音声信号を予め設定された関数によって規定されるサプレスレベルでサプレスする、
    ことを特徴とする請求項1記載の音声処理装置。
  7. 前記エコーキャンセル手段と前記ノイズキャンセル手段によって前記エコー成分と前記ノイズが除去された前記音声信号の大きさと、外部出力された音声出力信号の大きさの比に基づき、エコーの減衰レベルを学習し、学習した前記エコーの減衰レベル値と前記音声出力信号とから推定残留エコーを算出する、エコー学習手段と、
    前記エコーキャンセル手段と前記ノイズキャンセル手段によって前記エコー成分と前記ノイズが除去された前記音声信号から前記推定残留エコーを除去し、前記サプレス手段に出力するエコーサプレス手段と、
    を有することを特徴とする請求項1記載の音声処理装置。
  8. 前記エコー学習手段は、前記音声出力信号を所定の周波数領域に分割し、前記所定の周波数領域ごとに処理を行う、
    ことを特徴とする請求項7記載の音声処理装置。
  9. 前記エコー学習手段は、前記音声出力信号を解析し、前記音声出力信号のレベルが定常状態でないと判定される場合に前記エコーの減衰レベルの学習を行う、
    ことを特徴とする請求項7記載の音声処理装置。
  10. 前記エコー学習手段は、前記音声出力信号を解析し、シングルトークと判定される場合に前記エコーの減衰レベルの学習を行う、
    ことを特徴とする請求項7記載の音声処理装置。
  11. 前記話者音量推定手段は、さらに、前記定常ノイズを除去した前記音声信号から前記推定残留エコーを除去し、前記推定話者音量を算出する、
    ことを特徴とする請求項7記載の音声処理装置。
  12. 音声入力信号からエコーやノイズを除去して音声信号を取り出し、前記音声信号の大きさに応じてサプレス処理を行う音声処理機能を有するマイク装置において、
    集音した音声をデジタル信号に変換して音声入力信号として出力する音声入力手段と、
    記音声入力信号に混入したエコー成分を音声出力信号に基づいて除去するエコーキャンセル手段と、
    前記エコー成分が除去された前記音声信号からノイズ成分を抽出し、前記ノイズ成分から定常ノイズを学習するノイズ学習手段と、
    前記定常ノイズに基づき、前記エコー成分が除去された前記音声信号からさらにノイズを除去するノイズキャンセル手段と、
    前記エコー成分が除去された前記音声信号から前記定常ノイズを差し引いて、推定話者音量を算出する話者音量推定手段と、
    前記推定話者音量に応じて、前記エコーキャンセル手段と前記ノイズキャンセル手段によって前記エコー成分と前記ノイズが除去された前記音声信号をサプレスするサプレス手段と、
    を具備することを特徴とするマイク装置。
JP2005236250A 2005-08-17 2005-08-17 音声処理装置及びマイク装置 Expired - Fee Related JP4696776B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005236250A JP4696776B2 (ja) 2005-08-17 2005-08-17 音声処理装置及びマイク装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005236250A JP4696776B2 (ja) 2005-08-17 2005-08-17 音声処理装置及びマイク装置

Publications (2)

Publication Number Publication Date
JP2007053511A JP2007053511A (ja) 2007-03-01
JP4696776B2 true JP4696776B2 (ja) 2011-06-08

Family

ID=37917670

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005236250A Expired - Fee Related JP4696776B2 (ja) 2005-08-17 2005-08-17 音声処理装置及びマイク装置

Country Status (1)

Country Link
JP (1) JP4696776B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0122560D0 (en) 2001-09-19 2001-11-07 Aventis Pharma Ltd Chemical compounds
JP5292931B2 (ja) * 2008-06-10 2013-09-18 ヤマハ株式会社 音響エコーキャンセラおよびエコーキャンセル装置
JP2010081004A (ja) 2008-09-24 2010-04-08 Nec Electronics Corp エコーキャンセル装置、通信装置、及びエコーキャンセル方法
CN112927708A (zh) * 2021-03-25 2021-06-08 北京儒博科技有限公司 一种残留声学回声增强抑制方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62211698A (ja) * 1986-03-12 1987-09-17 沖電気工業株式会社 音声区間検出方法
JPH07240703A (ja) * 1994-02-28 1995-09-12 Toshiba Corp 通話障害防止装置
JPH09127982A (ja) * 1995-10-27 1997-05-16 Nec Robotics Eng Ltd 音声認識装置
JP2003506924A (ja) * 1999-07-29 2003-02-18 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 送受信器ユニットにおけるエコーをキャンセルするためのエコーキャンセル装置
JP2003101445A (ja) * 2001-09-20 2003-04-04 Mitsubishi Electric Corp エコー処理装置
JP2003110690A (ja) * 2001-09-26 2003-04-11 Toshiba Corp ハンズフリー通話システム、ブロッキング防止方法、ブロッキング防止プログラム
JP2003249996A (ja) * 2002-02-25 2003-09-05 Kobe Steel Ltd 音声信号入出力装置
JP2004147069A (ja) * 2002-10-24 2004-05-20 Nippon Telegr & Teleph Corp <Ntt> 音声スイッチ方法、音声スイッチ及び音声スイッチプログラム、そのプログラムを記録した記録媒体
JP2004341339A (ja) * 2003-05-16 2004-12-02 Mitsubishi Electric Corp 雑音抑圧装置
JP2005159677A (ja) * 2003-11-25 2005-06-16 Matsushita Electric Works Ltd 拡声通話機
JP2007052150A (ja) * 2005-08-17 2007-03-01 Sony Corp ノイズキャンセラ及びマイク装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62211698A (ja) * 1986-03-12 1987-09-17 沖電気工業株式会社 音声区間検出方法
JPH07240703A (ja) * 1994-02-28 1995-09-12 Toshiba Corp 通話障害防止装置
JPH09127982A (ja) * 1995-10-27 1997-05-16 Nec Robotics Eng Ltd 音声認識装置
JP2003506924A (ja) * 1999-07-29 2003-02-18 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 送受信器ユニットにおけるエコーをキャンセルするためのエコーキャンセル装置
JP2003101445A (ja) * 2001-09-20 2003-04-04 Mitsubishi Electric Corp エコー処理装置
JP2003110690A (ja) * 2001-09-26 2003-04-11 Toshiba Corp ハンズフリー通話システム、ブロッキング防止方法、ブロッキング防止プログラム
JP2003249996A (ja) * 2002-02-25 2003-09-05 Kobe Steel Ltd 音声信号入出力装置
JP2004147069A (ja) * 2002-10-24 2004-05-20 Nippon Telegr & Teleph Corp <Ntt> 音声スイッチ方法、音声スイッチ及び音声スイッチプログラム、そのプログラムを記録した記録媒体
JP2004341339A (ja) * 2003-05-16 2004-12-02 Mitsubishi Electric Corp 雑音抑圧装置
JP2005159677A (ja) * 2003-11-25 2005-06-16 Matsushita Electric Works Ltd 拡声通話機
JP2007052150A (ja) * 2005-08-17 2007-03-01 Sony Corp ノイズキャンセラ及びマイク装置

Also Published As

Publication number Publication date
JP2007053511A (ja) 2007-03-01

Similar Documents

Publication Publication Date Title
CN110149453B (zh) 用于动态地对回声消除器进行调谐的增益控制系统和方法
CN110225214B (zh) 对信号进行衰减的方法、衰减单元、系统和介质
JP4130835B2 (ja) 音響フィードバック抑制機能付き補聴器
US8160239B2 (en) Echo canceller and speech processing apparatus
CN105577961A (zh) 增益控制器的自动调谐
US8693678B2 (en) Device and method for controlling damping of residual echo
US9313573B2 (en) Method and device for microphone selection
US9343073B1 (en) Robust noise suppression system in adverse echo conditions
JP2009065699A (ja) 音響エコーの相殺および抑制を実行する利得制御方法
JP4678349B2 (ja) 通話判定装置
JPH09172396A (ja) 音響結合の影響を除去するためのシステムおよび方法
JP4438720B2 (ja) エコーキャンセラ及びマイク装置
JP2009088814A (ja) エコー除去装置
JP4696776B2 (ja) 音声処理装置及びマイク装置
CN106297816B (zh) 一种回声消除的非线性处理方法和装置及电子设备
KR102112018B1 (ko) 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법
WO2019239977A1 (ja) エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム
JP4536020B2 (ja) 雑音除去機能を有する音声入力装置および方法
JP4857652B2 (ja) ノイズキャンセラ及びマイク装置
Sunohara et al. Occlusion reduction system for hearing aids with an improved transducer and an associated algorithm
JP2009021859A (ja) 通話状態判定装置および該通話状態判定装置を備えたエコーキャンセラ
JP5963077B2 (ja) 通話装置
JP5125931B2 (ja) 音声通信装置及び音声通信プログラム
JP6011751B1 (ja) 音声通話装置
JPH0766756A (ja) 音響エコーキャンセラ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080718

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100928

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101112

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110214

LAPS Cancellation because of no payment of annual fees