JP2011066668A - エコー除去装置、エコー除去方法、およびエコー除去装置のプログラム - Google Patents

エコー除去装置、エコー除去方法、およびエコー除去装置のプログラム Download PDF

Info

Publication number
JP2011066668A
JP2011066668A JP2009215283A JP2009215283A JP2011066668A JP 2011066668 A JP2011066668 A JP 2011066668A JP 2009215283 A JP2009215283 A JP 2009215283A JP 2009215283 A JP2009215283 A JP 2009215283A JP 2011066668 A JP2011066668 A JP 2011066668A
Authority
JP
Japan
Prior art keywords
signal
reference signal
input
voice
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009215283A
Other languages
English (en)
Inventor
Takahiro Shimazu
宝浩 島津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2009215283A priority Critical patent/JP2011066668A/ja
Priority to PCT/JP2010/064678 priority patent/WO2011033924A1/ja
Publication of JP2011066668A publication Critical patent/JP2011066668A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

【課題】入力手段や出力手段の配置位置が変化した場合に時間ずれの情報やレベルずれの情報を新たに求め、最新の情報に基づく音響エコー成分の除去を行うことができるエコー除去装置、エコー除去方法、およびエコー除去装置のプログラムを提供する。
【解決手段】移動検出部12にて音声入力装置60や音声出力装置70の配置位置の変化が検出されると、基準信号生成部14,16にて基準信号が生成され、加算器24にて端末装置3、4からの受信音声信号に重畳されて、スピーカ74から出力される。一方、デジタルフィルタ34にてマイク64の拾った音声から基準信号が抽出され、もとの基準信号との比較により求まる時間ずれ・レベルずれの情報に基づき、受信音声信号を遅延、減衰させた音響エコー成分が生成され、減算器42にて送信音声信号から除去され端末装置3、4に送信されることで、音響エコーが抑制される。
【選択図】図1

Description

本発明は、通信先装置に送信する音声信号から音響エコー成分を除去するエコー除去装置、エコー除去方法、およびエコー除去装置のプログラムに関する。
複数の拠点に設置された端末装置間で音声信号や映像信号などの送受信を行い、利用者間でリアルタイムに音声や映像を交わして会議を進行することができるテレビ会議システムが知られている。こうしたテレビ会議システムの音声面において、利用者の発した音声が、すこし遅れて、遠隔地の利用者がいる拠点のスピーカとマイクを経由し、利用者のいる拠点に戻ってきて、利用者の発した音声が反響する、いわゆる音響エコーが発生することも知られている。例えば、自拠点において利用者の発した音声は、他拠点に送信されスピーカから出力されるが、出力された音声が他拠点のマイクに拾われると、再び自拠点に送信され、自拠点のスピーカから出力されることになる。音響エコーは、利用者の発した音声がこのような経路をたどる間に、もとの音声に対し、遅延(タイミングの遅れ(時間ずれ))や減衰(信号レベルの低下(レベルずれ))を生ずるために、発生する。このような音響エコーの影響を軽減できるように、例えば自拠点において、マイクに入力された音声を音声信号に変換して他拠点に送信する際に、他拠点から受信した音声信号をもとに音響エコー成分を求め、送信する音声信号から音響エコー成分を除去するエコー除去装置が知られている。
もっとも、マイクやスピーカが設置される環境は様々である。例えば、広い会議室において、スピーカから出力された音声が室内の壁による反射を経由してマイクに入力される場合と、狭い会議室における同様の場合とでは、音声がスピーカからマイクに至るまでの経路に差があり、時間ずれやレベルずれの程度が異なる。そこで従来は、エコー除去装置を使用する前に、スピーカから基準となる音(基準音)を出力しつつマイクで拾い、基準音の時間ずれやレベルずれを測定し、測定結果に基づいて設置場所に対応した音響エコー成分を求めていた。
しかし、例えば利用者がマイクを持って自席からホワイトボード前に移動し説明を行う場合など、会議中に、マイクとスピーカの位置関係が変わる場合がある。このような事例に対応するには、時間ずれの情報やレベルずれの情報(以下、「(音響エコー成分の)パラメータ」ともいう。)を、常時あるいは定期的に求めて更新し、音響エコー成分が常に最新のパラメータに基づき求められるようにするとよい(例えば特許文献1参照。)。また、基準音の音声波形の周波数を非可聴領域の周波数とすれば、会議中にパラメータの更新が行われ、基準音が利用者の発した音声と重なったとしても、利用者が、自己の発声や他者の音声の聞き取りを妨げられることがない(例えば特許文献2参照。)。
特開2008−261923号公報 特開2008−259032号公報
しかしながら、時間ずれの情報やレベルずれの情報を常時あるいは定期的に求めることによって、エコー除去装置には、それらパラメータを計算するための負荷が、継続的に、かかってしまう。また、マイクとスピーカの位置関係に変化がない場合にパラメータを更新しても、更新前パラメータと更新後のパラメータとは同一であるか、あるいはほとんど差がなく、こうした場合にもパラメータの更新を行うことは、エコー除去装置に無駄な負荷がかかるだけであった。
本発明は、上記問題点を解決するためになされたものであり、入力手段や出力手段の配置位置が変化した場合に時間ずれの情報やレベルずれの情報を新たに求め、最新の情報に基づく音響エコー成分の除去を行うことができるエコー除去装置、エコー除去方法、およびエコー除去装置のプログラムを提供することを目的とする。
本発明の第1態様に係るエコー除去装置は、通信先装置から受信する音声信号である受信音声信号を音声に変換して出力する出力手段と、入力される周囲の音声を前記通信先装置に送信する音声信号である送信音声信号に変換する入力手段と、前記出力手段および前記入力手段の少なくとも一方の配置位置に変化が生じたことを検出する位置検出手段と、前記出力手段から出力された音声が再び前記入力手段に入力されて生ずる音響エコー成分を前記送信音声信号から除去するにあたって基準となる基準信号を、前記位置検出手段が前記配置位置の変化を検出した場合に生成する生成手段と、前記受信音声信号に前記基準信号を重畳する重畳手段と、前記入力手段の変換した前記送信音声信号にフィルタリング処理を行い、前記基準信号を抽出する抽出手段と、前記生成手段によって生成された際の前記基準信号である生成基準信号と、前記抽出手段によって抽出された際の前記基準信号である抽出基準信号とを比較して、前記生成基準信号の生成タイミングと前記抽出基準信号の抽出タイミングとの時間ずれの情報と、前記生成タイミングにおける前記生成基準信号の信号レベルと前記抽出タイミングにおける前記抽出基準信号の信号レベルとのレベルずれの情報とを求める演算手段と、前記受信音声信号に対し、前記時間ずれの情報と前記レベルずれの情報とに基づく演算を行って前記音響エコー成分を生成し、前記送信音声信号から差し引いて、前記音響エコー成分を除去した除去音声信号を生成する除去手段と、前記通信先装置に送信する前記送信音声信号として、前記除去音声信号を送信する送信手段とを備えている。
第1態様によれば、音響エコー成分を生成する上で必要な時間ずれの情報とレベルずれの情報を求める際に生成される基準信号を、受信音声信号に重畳して、出力手段から出力することができる。したがって、通信先装置との間で音声信号の送受信がなされている最中(以下、「運用中」という。)においても、基準信号を用いて時間ずれの情報とレベルずれの情報を求め、更新することができる。これにより、運用中に、出力手段や入力手段の配置位置に変化が生じ、それまで用いていた時間ずれの情報とレベルずれの情報では適切な音響エコー成分が生成できなくなる虞を生じても、直ちに、新たな時間ずれの情報とレベルずれの情報を求め、更新することができる。よって、運用中に起こりうる、音響エコー成分の生成精度に影響を及ぼす虞のある状況変化に対応して適切な音響エコー成分を生成することができ、送信音声信号からの音響エコー成分の除去精度を維持することができる。
また、第1態様では、基準信号を、出力手段および入力手段の少なくとも一方の配置位置に変化が生じたことが検出された場合に、生成することができる。換言すると、出力手段や入力手段の配置位置に変化がなければ、基準信号の生成が行われず、時間ずれの情報やレベルずれの情報を求める演算も行われない。つまり、時間ずれの情報とレベルずれの情報の更新は、必要とされる状況が生じた場合(出力手段や入力手段の配置位置に変化があった場合)に適切になされるので、常時あるいは定期的に更新される場合と比べ、エコー除去装置に無駄な負荷がかかることがない。
また、位置検出手段は、出力手段や入力手段の配置位置の変化の検出を行うが、出力手段と入力手段との相対的な位置関係の変化だけでなく、それぞれの絶対的な配置位置の変化を検出している。したがって、音響エコー成分の生成精度に影響を及ぼす虞のある状況変化を確実に検出することができる。
また、第1態様が、前記出力手段および前記入力手段の少なくとも一方が含まれる画像を定位置から撮影する撮影手段と、前記撮影手段の撮影画像内における前記出力手段および前記入力手段の少なくとも一方の位置を解析する解析手段とをさらに備えてもよく、この場合、前記位置検出手段は、前記解析手段の解析結果に基づき、前記配置位置に変化が生じたことを検出してもよい。撮影手段を用い、定位置から出力手段や入力手段を撮影すれば、撮影画像を解析し、撮影画像内における両者の位置を把握するだけで、容易かつ確実に、出力手段および入力手段の少なくとも一方の、絶対的な、配置位置の変化を検出することができる。
また、第1態様が、前記出力手段および前記入力手段の少なくとも一方に加わる加速度を検出する加速度検出手段をさらに備えてもよく、この場合、前記位置検出手段は、前記加速度検出手段の検出結果に基づき、前記配置位置に変化が生じたことを検出してもよい。加速度検出手段であれば出力手段や入力手段に一体に設けることが容易である。出力手段や入力手段の配置位置に変化があれば、加速度検出手段に加速度が加わるので、加速度検出手段の検出結果をもとに、出力手段や入力手段の移動の有無を把握すれば、容易かつ確実に、出力手段および入力手段の少なくとも一方の、絶対的な、配置位置の変化を検出することができる。
また、第1態様において、前記生成手段が、前記基準信号として、音声波形の周波数が非可聴領域の周波数の信号を生成してもよい。基準信号の音声波形の周波数が非可聴領域の周波数であれば、受信音声信号に基準信号を重畳して出力手段から出力したとしても、基準信号に基づく音声を、利用者は聞き取ることができない。この場合に利用者が聞き取ることができるのは、実質的に、受信音声信号に基づく音声のみである。したがって、運用中に基準信号を出力しても、利用者の発声や聞き取りが基準信号によって妨げられることはないので、出力手段や入力手段の配置位置に変化が生じた場合、直ちに、新たな時間ずれの情報とレベルずれの情報を求め、更新することができる。よって、運用中に起こりうる、音響エコー成分の生成精度に影響を及ぼす虞のある状況変化に対応して適切な音響エコー成分を生成することができ、送信音声信号からの音響エコー成分の除去精度を維持することができる。
また、第1態様が、前記受信音声信号が無音状態であるか否かを判定する判定手段をさらに備えてもよく、この場合、前記位置検出手段が前記配置位置の変化を検出し、且つ前記判定手段が、前記受信音声信号が無音状態であると判定した場合に、前記生成手段が、前記基準信号として、音声波形の周波数が可聴領域の周波数の信号を生成してもよい。一般に、音声波形の周波数が可聴領域の周波数の信号は、非可聴領域の周波数の信号と比べ、指向性が広い。また、音響エコー成分も音声波形の周波数が可聴領域の周波数である。ゆえに、指向性が広く、周波数特性が音響エコー成分に近い、音声波形の周波数が可聴領域の周波数の基準信号を用い、時間ずれの情報とレベルずれの情報を求めれば、音響エコー成分の生成精度を、より高めることができる。もっとも、可聴領域の周波数をもった基準信号を受信音声信号に重畳して出力手段から出力すると、利用者は、受信音声信号に基づく音声とともに基準信号に基づく音声を聞き取ることができてしまい、利用者の発声や聞き取りが基準信号によって妨げられてしまう虞がある。ゆえに、可聴領域の周波数をもった基準信号は、受信音声信号が無音状態である場合に生成することが好ましい。
また、本発明の第2態様に係るエコー除去方法は、通信先装置から受信する音声信号である受信音声信号が音声に変換されて出力手段から出力される出力工程と、周囲の音声が入力手段に入力されて、前記通信先装置に送信する音声信号である送信音声信号に変換される入力工程と、前記出力手段および前記入力手段の少なくとも一方の配置位置に変化を生じたことが検出される位置検出工程と、前記出力手段から出力された音声が再び前記入力手段に入力されて生ずる音響エコー成分を前記送信音声信号から除去するにあたって基準となる基準信号が、前記位置検出工程において前記配置位置の変化が検出された場合に生成される生成工程と、前記受信音声信号に前記基準信号が重畳される重畳工程と、前記入力工程において変換された前記送信音声信号にフィルタリング処理が行われ、前記基準信号が抽出される抽出工程と、前記生成工程において生成された際の前記基準信号である生成基準信号と、前記抽出工程において抽出された際の前記基準信号である抽出基準信号とが比較され、前記生成基準信号の生成タイミングと前記抽出基準信号の抽出タイミングとの時間ずれの情報と、前記生成タイミングにおける前記生成基準信号の信号レベルと前記抽出タイミングにおける前記抽出基準信号の信号レベルとのレベルずれの情報とが求められる演算工程と、前記受信音声信号に対し、前記時間ずれの情報と前記レベルずれの情報とに基づく演算が行われて前記音響エコー成分が生成され、前記送信音声信号から差し引かれて、前記音響エコー成分を除去した除去音声信号が生成される除去工程と、前記通信先装置に送信する前記送信音声信号として、前記除去音声信号が送信される送信工程とを備えている。
第2態様によれば、音響エコー成分を生成する上で必要な時間ずれの情報とレベルずれの情報を求める際に生成される基準信号を、受信音声信号に重畳して、出力手段から出力することができる。したがって、通信先装置との間で音声信号の送受信がなされている最中(運用中)においても、基準信号を用いて時間ずれの情報とレベルずれの情報を求め、更新することができる。これにより、運用中に、出力手段や入力手段の配置位置に変化が生じ、それまで用いていた時間ずれの情報とレベルずれの情報では適切な音響エコー成分が生成できなくなる虞を生じても、直ちに、新たな時間ずれの情報とレベルずれの情報を求め、更新することができる。よって、運用中に起こりうる、音響エコー成分の生成精度に影響を及ぼす虞のある状況変化に対応して適切な音響エコー成分を生成することができ、送信音声信号からの音響エコー成分の除去精度を維持することができる。
また、第2態様では、基準信号を、出力手段および入力手段の少なくとも一方の配置位置に変化が生じたことが検出された場合に、生成することができる。換言すると、出力手段や入力手段の配置位置に変化がなければ、基準信号の生成が行われず、時間ずれの情報やレベルずれの情報を求める演算も行われない。つまり、時間ずれの情報とレベルずれの情報の更新は、必要とされる状況が生じた場合(出力手段や入力手段の配置位置に変化があった場合)に適切になされるので、常時あるいは定期的に更新される場合と比べ、エコー除去装置に無駄な負荷がかかることがない。
また、位置検出工程では、出力手段や入力手段の配置位置の変化の検出が行われるが、出力手段と入力手段との相対的な位置関係の変化だけでなく、それぞれの絶対的な配置位置の変化が検出されている。したがって、音響エコー成分の生成精度に影響を及ぼす虞のある状況変化を確実に検出することができる。
また、本発明の第3態様のエコー除去装置のプログラムは、請求項1に記載のエコー除去装置の各種処理手段として、コンピュータを機能させることを特徴とする。エコー除去装置のプログラムをコンピュータに実行させることにより、請求項1に記載の発明の効果を奏することができる。
ハードウェア回路でエコー除去装置の機能を実現する端末装置2の電気的な構成を示すブロック図である。 エコー除去装置において実施される処理の流れを示すフローチャートである。 初期化処理において実行される処理の流れを示すフローチャートである。 基準信号の音声波形の一例を示す図である。 スピーカから音声として出力されマイクに再入力されることによって遅延と減衰を生じた基準信号の音声波形の一例を示す図である。 ソフトウェア制御でエコー除去装置の機能を実現するPC102の電気的な構成を示すブロック図である。 変形例としての端末装置202の電気的な構成を示すブロック図である。
以下、本発明に係るエコー除去装置の一実施の形態について、図面を参照して説明する。なお、参照する図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャート等は、特に特定的な記載がない限り、それのみに限定する趣旨ではなく、単なる説明例である。
本実施の形態において、エコー除去装置は、遠隔地(複数拠点)の利用者同士がネットワークを介してリアルタイムに音声や映像を交わし、会議等を進めることができる、テレビ会議システムの端末装置に用いられる装置である。具体的に、本実施の形態では、エコー除去装置が、端末装置において音声に関する処理を司る装置として提供され、ハードウェア回路の一部として組み込まれている。以下では、図1に示すテレビ会議システムの端末装置2において、エコー除去装置の機能をなす部位を、エコー除去部8として説明する。
図1に示すように、本実施の形態において、テレビ会議システムは、ネットワーク1を介して相互に接続された端末装置2〜4間で、音声信号や映像信号の送受信を行うことのできるシステムとして提供されている。端末装置2〜4は、いずれもが、状況に応じてテレビ会議システムにおけるクライアントあるいはホストとしての役割を担う。MCU(Multi-point Control Unit)を用いたテレビ会議システムを構築する場合、端末装置2〜4は、クライアントとして使用すればよい。ここでは、端末装置2〜4は、いずれも同一構成のテレビ会議専用端末であるものとし、エコー除去装置の詳細については、端末装置2のエコー除去部8を例に説明することとする。なお、図1ではネットワーク1に3台の端末装置2〜4が接続されているが、テレビ会議システムを構成する端末装置の数を3台に限るものではない。
端末装置2は、端末装置2の全体の制御を司る、公知のCPU80を備えている。CPU80には、バス86を介し、ROM82、RAM84、入出力インターフェイス88が接続されている。入出力インターフェイス88には、操作部92、映像処理部94、音声処理部10、通信部46が接続されている。
ROM82は、端末装置2を動作させるための各種のプログラムやデータを記憶している。CPU80は、ROM82に記憶されたプログラムにしたがって、端末装置2の動作を制御する。RAM84は、各種データを一時的に記憶する。操作部92は、利用者が端末装置2の操作を行うための入力装置である。通信部46は、ネットワーク1を介して、自拠点の端末装置2と他拠点の端末装置3、4とを接続し、端末間で、通信用のプロトコルに変換した各種信号(制御信号、音声信号、映像信号など)の送受信を行う。さらに通信部46は、入出力インターフェイス88を介し、音声処理部10や映像処理部94との間で、音声信号や映像信号の受け渡しを行う。また、図示しないが、端末装置2はコーデックも備えており、送信する信号の圧縮や受信した信号の解凍がなされる。
映像処理部94には、映像入力装置96および映像出力装置98が接続されている。映像処理部94は、映像入力装置96(例えばカメラ)に撮影された映像を処理し、端末装置3、4に送信する映像信号を生成する。また、映像処理部94は、端末装置3、4から受信した映像信号を処理し、映像出力装置98(例えばモニタ)に映像を表示する。
音声処理部10には、音声入力装置60および音声出力装置70が接続されている。音声処理部10は、音声入力装置60のマイク64に入力された音声を処理し、端末装置3、4に送信する音声信号(以下、「送信音声信号」という。)を生成する。また、音声処理部10は、端末装置3、4から受信した音声信号(以下、「受信音声信号」という。)を処理し、音声出力装置70のスピーカ74から音声を出力する。音声処理部10の詳細については後述するが、音声処理部10、音声入力装置60、音声出力装置70、通信部46、そしてこれらの各処理部(各装置)を制御するための各構成(CPU80、ROM82、RAM84等)によって、エコー除去部8が構成されている。
上記の音声入力装置60は、マイク64と加速度センサ62を備え、移動可能な装置として構成されている。マイク64は、入力される周囲の音声を電気信号(アナログの音声信号)に変換する。加速度センサ62は、音声入力装置60に加わる加速度を検出する。音声出力装置70は、スピーカ74と加速度センサ72を備え、音声入力装置60と同様に移動可能な装置として構成されている。スピーカ74は、入力される電気信号(アナログの音声信号)を音声に変換して出力する。加速度センサ72は、音声出力装置70に加わる加速度を検出する。音声入力装置60と音声出力装置70は、設置場所(配置位置)をそれぞれ独立に変更できるように、端末装置2とは別体に設けられている。
次に、音声処理部10は、移動検出部12、基準信号生成部14,16、スイッチ(SW)18、スイッチ制御部22、加算器24、A/Dコンバータ26、D/Aコンバータ28、A/Dコンバータ30、デジタルフィルタ34、信号比較部36、遅延処理部38、減衰処理部40、減算器42、タイマ44、分配器20,32を備える。移動検出部12には、A/Dコンバータ26を介し、音声入力装置60の加速度センサ62と、音声出力装置70の加速度センサ72とが接続されている。移動検出部12は、加速度センサ62,72による加速度の検出結果に基づき、音声入力装置60および音声出力装置70の少なくとも一方に、現在位置からの移動が生じたことを検出する。すなわち、移動検出部12は、音声入力装置60と音声出力装置70との相対的な位置関係の変化だけでなく、それぞれの絶対的な配置位置の変化についても、検出することができる。
基準信号生成部14,16は、入力が、それぞれ移動検出部12に接続されている。また、基準信号生成部14,16は、出力が、スイッチ18および分配器20を介し、加算器24と信号比較部36(後述)とのそれぞれに接続されている。基準信号生成部14は、基準信号として、音声波形の周波数が可聴領域の周波数(本実施の形態では1KHz)の信号を生成し、加算器24と信号比較部36とに出力する。基準信号生成部16も同様に、基準信号として、音声波形の周波数が非可聴領域の周波数(本実施の形態では100KHz)の信号を生成し、加算器24と信号比較部36とに出力する。
スイッチ18は、基準信号生成部14または基準信号生成部16の一方と、加算器24および信号比較部36との接続を、択一的に切り換える。より具体的に、スイッチ18は、スイッチ制御部22によって制御され、加算器24および信号比較部36に、1KHzの基準信号が入力されるようにする接続(図1中A側)と、100KHzの基準信号が入力されるようにする接続(図1中B側)とを切り換える。なお、スイッチ18は、図1では便宜上、有接点型のスイッチとして図示しているが、トランジスタ等を用いた無接点型のものであれば好ましい。
スイッチ制御部22は、受信音声信号が加算器24に入力される経路上に設けられている。より具体的には、通信部46において端末装置3、4から受信する受信音声信号が入出力インターフェイス88を介して音声処理部10に入力されるが、スイッチ制御部22は、入出力インターフェイス88と加算器24との間に設けられている。スイッチ制御部22は、スイッチ制御部22を通過する受信音声信号が無音状態であるか否かを判別する。なお、無音状態とは、受信音声信号の信号レベル(音声波形の振幅)が0または所定のしきい値未満の状態をいうが、受信音声信号自体が未入力である場合も信号レベルが0であり、無音状態とみなされる。スイッチ制御部22は、受信音声信号が無音状態の場合には、スイッチ18をA側に切り換え、そうでない場合(有音状態の場合)には、スイッチ18をB側に切り換えるよう、制御する。なお、無音状態の判断は、上記のように、受信音声信号の通過時に行えばよいが、より精度を高めるためには、信号レベルがしきい値未満の状態が所定時間(例えば1秒間)継続したら、無音状態と判断するようにするとよい。また、スイッチ制御部22は、後述するデジタルフィルタ34に対しても、受信音声信号の信号レベルに応じて生成される基準信号に対応したフィルタ設定に切り換える指示を伝達する。
加算器24の入力には、スイッチ18を介して基準信号生成部14,16と、スイッチ制御部22および入出力インターフェイス88を介して通信部46とが接続されている。加算器24の出力には、D/Aコンバータ28と遅延処理部38とがそれぞれ接続されている。加算器24は、通信部46から入力される受信音声信号に、基準信号生成部14,16から入力される基準信号を重畳(すなわち、受信音声信号と基準信号とを合成)し、出力音声信号として、D/Aコンバータ28と遅延処理部38とに出力する。
なお、後述するが、基準信号は常時生成されるわけではなく、基準信号が生成されない場合、加算器24は、受信音声信号を、そのまま通過させ、D/Aコンバータ28と遅延処理部38とに出力する。また、本実施の形態では、受信音声信号が無音状態(未入力も含む)の場合においても基準信号を生成する場合がある。この場合、加算器24は、基準信号を、そのまま通過させ、D/Aコンバータ28と遅延処理部38とに出力する。便宜上、加算器24から出力されるこれらの信号についても、出力音声信号と呼ぶこととする。
D/Aコンバータ28の出力には、図示しない増幅器を介して、音声出力装置70のスピーカ74が接続されている。D/Aコンバータ28は、出力音声信号をアナログの音声信号に変換し、スピーカ74に出力する。スピーカ74は、入力される音声信号を音声に変換し、出力する。
音声入力装置60のマイク64は、A/Dコンバータ30の入力に接続されている。音声入力装置60の周囲の音声は、マイク64に入力されてアナログの音声信号に変換され、さらにA/Dコンバータ30によって、デジタルの音声信号(以下、「入力音声信号」という。)に変換される。A/Dコンバータ30の出力は、分配器32を介して、デジタルフィルタ34と減算器42とに接続されている。
デジタルフィルタ34は、A/Dコンバータ30から入力される入力音声信号にフィルタリング処理を行い、入力音声信号に含まれる基準信号を抽出する。本実施の形態では、基準信号として1KHzまたは100KHzの信号が生成されるので、デジタルフィルタ34として、1KHzまたは100KHzの信号を選択的に抽出するよう設定することのできるバンドパスフィルタ(BPF)が採用されている(あるいは2種類のBPFを切り換えて使用)。そして、デジタルフィルタ34は、スイッチ制御部22からの指示に従い、抽出する音声波形の周波数の設定を切り換えるように構成されている。より具体的に、スイッチ制御部22を通過する受信音声信号が無音状態の場合には、1KHzの基準信号が抽出され、有音状態の場合には、100KHzの基準信号が抽出されるよう、デジタルフィルタ34のフィルタ設定が行われる。
デジタルフィルタ34の出力は、信号比較部36に接続されている。つまり、信号比較部36には、2種類の基準信号が入力される。一方は、基準信号生成部14,16にて生成され、そのまま(無劣化で)入力される、基準信号(以下、「生成基準信号」という。)である。他方は、基準信号生成部14,16にて生成され、加算器24、D/Aコンバータ28、スピーカ74、マイク64、A/Dコンバータ30を経て、デジタルフィルタ34で入力音声信号から抽出される(劣化した)基準信号(以下、「抽出基準信号」という。)である。また、信号比較部36には、生成基準信号の入力タイミング(すなわち基準信号の生成タイミング)と、抽出基準信号の抽出タイミングとの時間ずれの演算に用いるカウント値Tを取得するためのタイマ44が接続されている。信号比較部36は、生成基準信号の音声波形と、抽出基準信号の音声波形とを比較し、生成基準信号に対する抽出基準信号の時間ずれ(遅延)とレベルずれ(減衰)とを求める。
信号比較部36の出力は、遅延処理部38と、減衰処理部40とに接続されている。遅延処理部38には、加算器24から出力される出力音声信号と、上記の信号比較部36にて求められる時間ずれの情報(P)とが入力される。遅延処理部38は、時間ずれの情報に基づき、入力された出力音声信号を遅らせて出力する(遅延させる)処理を行う。減衰処理部40には、遅延処理部38から出力される、遅延処理がなされた出力音声信号と、上記同様、信号比較部36にて求められるレベルずれの情報(L)とが入力される。減衰処理部40は、レベルずれの情報に基づき、遅延処理がなされた出力音声信号の信号レベルを下げる(減衰させる)処理を行う。
減算器42の入力は、減衰処理部40と、分配器32、A/Dコンバータ30を介したマイク64とに接続されている。つまり、減算器42には、2種類の音声信号が入力される。一方は、加算器24から出力され、遅延処理部38、減衰処理部40を経て、遅延処理ならびに減衰処理が施された出力音声信号(以下、「音響エコー成分」という。)である。他方は、加算器24から出力され、スピーカ74で音声に変換されて出力された後、周囲の音声とともにマイク64に入力されて再び音声信号に変換された、前述の入力音声信号である。減算器42は、入力音声信号の音声波形に、音響エコー成分の音声波形の逆位相波形を重ね合わせ、入力音声信号から音響エコー成分を除去した音声信号(以下、「除去音声信号」という。)を生成する処理を行う。
減算器42の出力は、入出力インターフェイス88を介して通信部46に接続されている。除去音声信号は、送信音声信号として、通信部46からネットワーク1を介して端末装置3、4に送信される。
次に、本実施の形態の端末装置2において、マイク64に入力された音声に基づく入力音声信号から音響エコー成分を除去した除去音声信号を、送信音声信号として、端末装置3、4に送信する処理の流れについて、図1〜図5を参照して説明する。なお、便宜上、フローチャートにおける各ステップを「S」と略記する。
図1に示す、端末装置2は、電源投入を契機に、CPU80が、ROM82に記憶されたプログラムに従い、各処理部の駆動開始時のシーケンスを実行させ、各処理部(装置)間における信号の送受信を制御することによって、駆動される。例えば通信部46では、ネットワーク1を介して端末装置3、4とのネゴシエーションが図られ、通信が確立される。
エコー除去部8においては、図2に示す、初期化処理(S9)が実施され、音響エコー成分の除去に必要なパラメータ(時間ずれの情報(P)およびレベルずれの情報(L))が設定される。初期化処理の詳細は、図3に示す、処理の流れに従って行われる。まず、タイマ44が起動され(S61)、内部タイマのカウント値Tが一定時間ごとにインクリメントされる。
次に、基準信号が生成される(S63)。初期化処理は、端末装置3、4からの受信音声信号の入力がない状態(通信が確立されてない状態あるいは通信が遮断されている状態)で行われる。よって図1に示すスイッチ制御部22では、受信音声信号が無音状態にあると判断され、スイッチ18の接続がA側に切り換えられる。これに伴いS63では基準信号生成部14が駆動され、音声波形の周波数が可聴領域の周波数(1KHz)の基準信号が生成される。基準信号は、図4に示すように、周波数1KHzの信号が一定間隔で間欠的に繰り返されてなる信号として生成される(基準信号(生成基準信号)の音声波形を図4において実線で示す。)。生成された基準信号は、図1に示すように、分配器20を介し、生成基準信号として、信号比較部36に入力される。信号比較部36は、生成基準信号の入力を契機にタイマ44のカウント値Tを取得し、このタイミングを基準信号の遅延を求める基準とすべく、基準信号の生成タイミングT0(図4参照)として保持する。さらに、信号比較部36は、生成基準信号の信号レベルを求め、生成レベルL0(図4参照)として保持する。
また、生成された基準信号は、分配器20、加算器24、D/Aコンバータ28を介し、音声出力装置70のスピーカ74から音声として出力される(S65)。受信音声信号が無音状態であるので、基準信号は加算器24をそのまま通過し出力音声信号として出力され、スピーカ74からは、1KHzの基準信号に基づく可聴音が出力される。
一方、音声入力装置60のマイク64は、音声の入力待ち状態にある(S67:NO)。このマイク64に、スピーカ74から出力された1KHzの音声が入力されると(S67:YES)、入力音声信号に変換され、A/Dコンバータ30および分配器32を介し、デジタルフィルタ34に入力される。デジタルフィルタ34は、スイッチ制御部22によって、受信音声信号が無音状態にある場合の設定、すなわち、1KHzの信号を選択的に抽出する設定がなされている。したがって入力音声信号に、基準信号だけでなく、マイク64の周囲の音声に基づく信号が含まれていても、1KHzの基準信号が入力音声信号から抽出され、抽出基準信号として信号比較部36に入力される(S69)。信号比較部36は、抽出基準信号の入力を契機にタイマ44のカウント値Tを取得し、図5に示すように、基準信号の抽出タイミングT1として保持する。なお、図5では、抽出基準信号の音声波形を実線で示し、生成基準信号の音声波形を点線で示している。さらに、信号比較部36は、抽出基準信号の信号レベルを求め、抽出レベルL1として保持する。
そして、図3に示すように、信号比較部36において、T1−T0の演算がなされ、時間ずれPが求められる(S71)。この時間ずれの情報(P)は、遅延処理部38に伝達され、遅延処理のパラメータとして設定される。同様に、信号比較部36において、L1/L0の演算がなされ、レベルずれLが求められる(S73)。このレベルずれの情報(L)は、減衰処理部40に伝達され、減衰処理のパラメータとして設定される。以上で初期化処理(S9)は終了する。
図2に示すように、初期化処理が終わると、設定されたパラメータ(P,L)を用いて音響エコーを除去する一連の処理(S11,S13,S15〜S23)が行われる。通信部46においては、ネットワーク1を介した端末装置3、4との通信によって、音声信号の受送信(受信音声信号の受信および送信音声信号の送信)が行われる。音声処理部10においては、上記したように、音声入力装置60(マイク64)や音声出力装置70(スピーカ74)の配置位置に変化(移動)があれば、移動検出部12が検知し、基準信号生成部14,16に基準信号を生成させる。すなわち、音声入力装置60や音声出力装置70の配置位置に変化がなければ(S13:NO)、基準信号は生成されない。この場合、端末装置3、4から受信した受信音声信号は、加算器24をそのまま通過し出力音声信号として出力され、D/Aコンバータ28を介し、音声出力装置70のスピーカ74から音声として出力される(S15)。
一方、音声の入力待ち状態にあるマイク64に(S17:NO)、スピーカ74から出力された音声が入力されると(S17:YES)、入力音声信号に変換され、A/Dコンバータ30を介し、減算器42に入力される。入力音声信号は、分配器32を介してデジタルフィルタ34にも入力されるが、基準信号が生成されていないため、デジタルフィルタ34の通過後に入力される信号比較部36において、何の処理も施されない。もっとも、基準信号が生成されない場合には、分配器32からデジタルフィルタ34への入力経路が遮断されるようにしてもよい。
ところで、加算器24から出力された出力音声信号(ここでは基準信号が重畳されていない受信音声信号)は、遅延処理部38にも入力される。遅延処理部38は、信号比較部36から伝達された時間ずれの情報(P)を保持しており、加算器24から入力された出力音声信号を、P時間遅らせて、減衰処理部40に出力する(S19)。減衰処理部40は、信号比較部36から伝達されたレベルずれの情報(L)を保持しており、遅延処理部38から入力された出力音声信号をL倍して減衰させて音響エコー成分を生成し、減算器42に出力する(S21)。
そして、減算器42には、上記のマイク64から入力される入力音声信号と、出力音声信号に遅延処理および減算処理を施し生成した音響エコー成分とが入力される。減算器42は、入力音声信号の音声波形に音響エコー成分の音声波形の逆位相波形を重ね合わせることによって、入力音声信号に含まれる音響エコー成分を相殺し、音響エコーを除去した除去音声信号を生成する(S23)。S23の後はS11に戻り、生成された除去音声信号が、送信音声信号として、通信部46からネットワーク1を介し、端末装置3、4に送信される(S11)。この送信音声信号は、端末装置3、4側で、マイク64に入力される、端末装置2の周囲の音声のうち、端末装置3、4からの受信音声信号に基づきスピーカ74から出力された音声を含まず、端末装置2側で新たに発せられた音声のみに基づくものとなる。したがって、この送信音声信号に基づく音声が端末装置3、4側のスピーカで出力されても、音響エコーを生ずることはない。以降も、音声入力装置60や音声出力装置70の配置位置に変化がなければ(S13:NO)、S11,S13,S15〜S23が繰り返され、初期化処理で求められたパラメータ(P,L)を用いた音響エコーの除去がなされる。
次に、S11,S13,S15〜S23が繰り返されるうち、音声入力装置60および音声出力装置70の少なくとも一方の配置位置の変化が検出された場合(S13:YES)、新たなパラメータを設定して音響エコーを除去する一連の処理(S31〜S53)が行われる。上記したように、スイッチ制御部22において受信音声信号が無音状態であると判定された場合には(S31:YES)、上記同様、音声波形の周波数が可聴領域(1KHz)の基準信号が生成される(S33)。生成された基準信号は、分配器20を介して信号比較部36と加算器24とに入力される。信号比較部36は、上記同様、生成基準信号の入力を契機にタイマ44のカウント値Tを取得し、基準信号の生成タイミングT0として保持する。さらに、信号比較部36は、生成基準信号の信号レベルを求め、生成レベルL0として保持する。
また、加算器24は、入力された基準信号をそのまま通過させ、この基準信号を出力音声信号として、D/Aコンバータ28と遅延処理部38とに出力する。出力音声信号はD/Aコンバータ28を介してアナログの音声信号に変換され、音声出力装置70のスピーカ74から、1KHzの基準信号に基づく可聴音として出力される(S39)。
一方、スイッチ制御部22において受信音声信号が無音状態でないと判定された場合には(S31:NO)、上記したように、音声波形の周波数が非可聴領域(100KHz)の基準信号が生成される(S35)。上記同様、信号比較部36は、タイマ44のカウント値Tを基準信号の生成タイミングT0として保持し、信号レベルを生成レベルL0として保持する。また、加算器24は、入力される受信音声信号に基準信号を重畳させ、出力音声信号として、D/Aコンバータ28と遅延処理部38とに出力する(S37)。D/Aコンバータ28を介してアナログの音声信号に変換された出力音声信号は、音声出力装置70のスピーカ74から、受信音声信号に基づく音声が、基準信号に基づく非可聴音とともに出力される(S39)。
音声入力装置60のマイク64は、音声の入力待ち状態にあり(S41:NO)、このマイク64に、スピーカ74から出力された音声が入力されると(S41:YES)、入力音声信号に変換される。入力音声信号は、A/Dコンバータ30および分配器32を介し、デジタルフィルタ34に入力される。デジタルフィルタ34は、スイッチ制御部22によって、受信音声信号が無音状態の場合には、1KHzの信号を選択的に抽出し、無音状態でない場合には、100KHzの信号を選択的に抽出する設定がなされている。よって、入力音声信号に含まれる基準信号が非可聴領域の周波数のものであっても、あるいは可聴領域の周波数のものであっても、デジタルフィルタ34を通過することによって、フィルタ設定通りの基準信号が抽出される(S43)。
抽出された基準信号(抽出基準信号)は信号比較部36に入力される。そして信号比較部36において、抽出基準信号の抽出タイミングT1と抽出レベルL1とが求められ、生成基準信号から得たT0、L0に基づき、時間ずれPとレベルずれLとが求められることは(S45、S47)、上記したS71、S73の処理と同様である。新たに求められたパラメータ(P,L)は、それぞれ、遅延処理部38および減衰処理部40に伝達され、すでに保持されているパラメータ(初期化処理など、以前の処理で求められたパラメータ)が更新される。更新されたパラメータを用い、遅延処理部38において加算器24から入力される出力音声信号をP時間遅らせる処理(S49)が行われ、減衰処理部40において、遅延処理部38から入力される出力音声信号をL倍して減衰させて音響エコー成分を生成する処理(S51)が行われることについて、上記したS19、S21の処理と同様である。さらに、減算器42において、入力音声信号の音声波形に音響エコー成分の音声波形の逆位相波形を重ね合わせて除去音声信号を生成する処理(S53)が行われることについても、上記したS23の処理と同様である。S53の後はS11に戻り、新たなパラメータを用いて生成された除去音声信号が、送信音声信号として、通信部46からネットワーク1を介し、端末装置3、4に送信される(S11)。
音声入力装置60や音声出力装置70の配置位置に変化が生ずると、スピーカ74から出力される音声が、マイク64に入力されるまでの経路が変化し、音響エコー成分を生成する際のパラメータも変化する。したがって、音声入力装置60および音声出力装置70の少なくとも一方の配置位置の変化を検出したら、パラメータを更新することで、配置位置変化後の(現在の)環境にあわせた音響エコー成分の除去を、確実に、行うことができる。よって、新たなパラメータを用いて生成された除去音声信号を送信音声信号として端末装置3、4に送信すれば、この送信音声信号に基づく音声が端末装置3、4側のスピーカで出力されても、音響エコーを生ずることはない。
以降は、音声入力装置60や音声出力装置70の配置位置に変化がなければ(S13:NO)、既存のパラメータを用いて音響エコーの除去が行われ、変化があれば(S13:YES)、再度パラメータを更新しつつ、音響エコーの除去が行われる。
以上説明したように、本実施の形態では、音響エコー成分を生成する上で必要なパラメータ(時間ずれの情報(P)とレベルずれの情報(L))を求める上で生成される基準信号を、受信音声信号に重畳して、スピーカ74から出力することができる。したがって、テレビ会議システムが運用され、端末装置2と端末装置3、4との間で音声信号の送受信が行われている最中(運用中)であっても、基準信号を用いてパラメータを求め、更新することができる。これにより、運用中に、音声入力装置60(マイク64)や音声出力装置70(スピーカ74)の配置位置に変化が生じ、それまで用いていたパラメータでは適切な音響エコー成分を生成できなくなっても、直ちに、新たなパラメータを求め、更新することができる。よって、運用中に起こりうる、音響エコー成分の生成精度に影響を及ぼす虞のある状況変化に対応して適切な音響エコー成分を生成でき、送信音声信号からの音響エコー成分の除去精度を維持することができる。
また、本実施の形態では、基準信号を、音声入力装置60および音声出力装置70の少なくとも一方の配置位置に変化が生じたことが検出された場合に、生成することができる。換言すると、音声入力装置60や音声出力装置70の配置位置に変化がなければ、基準信号の生成が行われず、パラメータ(時間ずれの情報とレベルずれの情報)を求める演算も行われない。つまり、パラメータの更新は、必要とされる状況が生じた場合(音声入力装置60や音声出力装置70の配置位置に変化があった場合)に適切になされるので、常時あるいは定期的に更新される場合と比べ、エコー除去部8に無駄な負荷がかかることがない。
また、移動検出部12は、音声入力装置60や音声出力装置70の配置位置の変化の検出を行うが、音声入力装置60と音声出力装置70との相対的な位置関係の変化だけでなく、それぞれの絶対的な配置位置の変化を検出している。したがって、音響エコー成分の生成精度に影響を及ぼす虞のある状況変化を確実に検出することができる。
また、加速度センサ62,72であれば、マイク64やスピーカ74と一体に設けることが容易である。加速度センサ62とマイク64を一体にした音声入力装置60や、加速度センサ72とスピーカ74を一体にした音声出力装置70の配置位置に変化があれば、加速度センサ62,72に加速度が加わる。よって、加速度センサ62,72の検出結果をもとに、音声入力装置60や音声出力装置70の移動の有無を把握すれば、容易かつ確実に、音声入力装置60および音声出力装置70の少なくとも一方の、絶対的な、配置位置の変化を検出することができる。
また、基準信号の音声波形の周波数が非可聴領域の周波数であれば、受信音声信号に基準信号を重畳してスピーカ74から出力したとしても、基準信号に基づく音声(基準音)を、利用者は聞き取ることができない。この場合に利用者が聞き取ることができるのは、実質的に、受信音声信号に基づく音声のみである。したがって、運用中に基準信号を出力しても、利用者の発声や聞き取りが基準信号によって妨げられることはないので、音声入力装置60や音声出力装置70の配置位置に変化が生じた場合、直ちに、新たなパラメータを求め、更新することができる。よって、運用中に起こりうる、音響エコー成分の生成精度に影響を及ぼす虞のある状況変化に対応して適切な音響エコー成分を生成でき、送信音声信号からの音響エコー成分の除去精度を維持することができる。
一般に、音声波形の周波数が可聴領域の周波数の信号は、非可聴領域の周波数の信号と比べ、指向性が広い。また、音響エコー成分も音声波形の周波数が可聴領域の周波数である。ゆえに、指向性が広く、周波数特性が音響エコー成分に近い、音声波形の周波数が可聴領域の周波数の基準信号を用い、パラメータ(時間ずれの情報とレベルずれの情報)を求めれば、音響エコー成分の生成精度を、より高めることができる。もっとも、可聴領域の周波数をもった基準信号を受信音声信号に重畳してスピーカ74から出力すると、利用者は、受信音声信号に基づく音声とともに基準信号に基づく音声を聞き取ることができてしまい、利用者の発声や聞き取りが、基準信号によって妨げられてしまう虞がある。ゆえに、可聴領域の周波数をもった基準信号は、受信音声信号が無音状態である場合に生成することが好ましい。
なお、可聴領域の周波数の音声のうち、特に低音側(周波数の小さい側)の領域の周波数をもった音声は、信号レベルがある程度大きくても、人は聞き取りにくいことが知られている。ゆえに、可聴領域であってもこうした低音側の領域の周波数をもった基準信号を用いれば、運用中に、受信音声信号が無音状態であるとはしても、利用者に不快感を与えにくく、より好ましい。
上記実施の形態において、スピーカ74が、第1態様の「出力手段」に相当し、マイク64が「入力手段」に相当する。移動検出部12が「位置検出手段」に相当し、基準信号生成部14,16が「生成手段」に相当する。加算器24が「重畳手段」に相当し、デジタルフィルタ34が「抽出手段」に相当する。信号比較部36が「演算手段」に相当し、遅延処理部38、減衰処理部40、減算器42が、「除去手段」に相当する。通信部46が「送信手段」に相当する。加速度センサ62,72が「加速度検出手段」に相当し、スイッチ制御部22が「判定手段」に相当する。
なお、上記の実施形態に示されるエコー除去装置の構成は一例であり、本発明は各種の変形が可能なことはいうまでもない。例えば、エコー除去装置の音声処理部の機能を、ハードウェア回路ではなく、CPUがプログラムを実行することにより実現されるソフトウェア制御により提供してもよい。図6に、端末装置2としてパーソナルコンピュータ(PC)102用いた場合のエコー除去装置の構成例を示す。なお、本変形例のPC102において、エコー除去装置の機能をなす部位を、エコー除去部108とする。以下の説明において、端末装置2と同等の構成をなす部分は同一の符号で示し、その部分の説明については省略または簡略化する。
PC102は、公知のCPU180を備え、CPU180には、バス86を介し、ROM82、RAM84、入出力インターフェイス88が接続されている。入出力インターフェイス88には、マウスやキーボード等の操作入力装置192、ハーディスクドライブ(HDD)やフラッシュメモリドライブ(SSD)、DVD−ROMドライブ等の外部記憶装置190、映像処理部94、通信部46が接続されている。映像処理部94には、Webカメラ等の映像入力装置96およびモニタ等の映像出力装置98が接続されている。また、マイク64や加速度センサ62を備えた音声入力装置60、スピーカ74や加速度センサ72を備えた音声出力装置70も、入出力インターフェイス88に接続されている。詳細には、入出力インターフェイス88に、D/Aコンバータ128を介してスピーカ74が接続され、A/Dコンバータ130を介してマイク64が接続され、A/Dコンバータ126を介して加速度センサ62,72が接続されている。音声入力装置60、音声出力装置70、操作入力装置192、映像入力装置96、映像出力装置98は、PC102の外付け装置として設けられる。エコー除去部108は、音声入力装置60、音声出力装置70、通信部46、外部記憶装置190、そしてこれらの各処理部(各装置)を制御するための各構成(CPU180、ROM82、RAM84等)によって構成される。また、PC102は通信部46を介してネットワーク1に接続されており、ネットワーク1を通じて接続される端末装置3、4とともにテレビ会議システムを構築することは、本実施の形態と同様である。
このような構成のPC102では、外部記憶装置190にインストールされるプログラムをCPU180が実行することによって、CPU180が、本実施の形態の音声処理部10と同等の処理を行うことが可能である。つまり、図2,図3のフローチャートの各処理を実現する公知のモジュールを組み合わせ、フローチャートに示される処理の流れに従って音声信号を処理することができる音声処理部110を、プログラムとして設計すればよい。なお、音声処理部110を構成する各処理部はCPU180によって実現される機能であり、図6では、本実施の形態のもの(図1参照)と対比できるように仮想的な処理部として示したに過ぎず、同一の符号を括弧書きで付している。
上記変形例において、S39の処理を行うCPU180が、第2,第3態様の「出力工程」として機能し、S41の処理を行うCPU180が「入力工程」として機能する。S13の処理を行うCPU180が「位置検出工程」に機能し、S33またはS35の処理を行うCPU180が「生成工程」に機能する。S37の処理を行うCPU180が「重畳工程」に機能し、S43の処理を行うCPU180が「抽出工程」に機能する。S45,S47の処理を行うCPU180が「演算工程」に機能し、S49,S51,S53の処理を行うCPU180が「除去工程」に機能する。S11の処理を行うCPU180が「送信工程」に機能する。
また、音声入力装置60や音声出力装置70を定位置から撮影し、撮影画像を解析することによって、音声入力装置60や音声出力装置70の配置位置の変化を検出してもよい。例えば図7に示す端末装置202において、音声入力装置260や音声出力装置270は、加速度センサを備えず、それぞれマイク64、スピーカ74を備えた移動可能な装置として構成する。音声入力装置60や音声出力装置70を撮影するカメラ250の出力は、入出力インターフェイス88に入力する。また、公知の画像解析処理を行う画像解析部252を設け、カメラ250に撮影された画像内における、音声入力装置60や音声出力装置70の位置(例えば座標)を特定する。画像解析部252は、例えばCPU280がプログラムを実行して公知の画像解析処理を行うことで、実現されればよい。画像解析部252の解析結果(例えば音声入力装置60や音声出力装置70の座標情報)は、移動検出部12に入力されるようにする。なお、本変形例の端末装置202において、エコー除去装置の機能をなす部位は、エコー除去部208として示す。エコー除去部208は、音声処理部210(A/Dコンバータ26を除き、本実施の形態の音声処理部10と同等の構成であればよい。)、音声入力装置260、音声出力装置270、通信部46、カメラ250、そしてこれらの各処理部(各装置)を制御するための各構成(CPU280、ROM82、RAM84等)によって構成される。
端末装置202をこのように構成し、カメラ250を、音声入力装置60および音声出力装置70の移動しうる範囲を見渡せる適切な定位置に設置する。そして、カメラ250で撮影した画像を画像解析部252で解析して撮影画像内における音声入力装置60や音声出力装置70の位置を特定する。解析結果に基づき、移動検出部12で、音声入力装置60または音声出力装置70の配置位置に変化が生じたか否かを判断する。このように、カメラ250を用い、定位置から音声入力装置60や音声出力装置70を撮影すれば、撮影画像を解析し、撮影画像内における両者の位置を把握するだけで、容易かつ確実に、音声入力装置60および音声出力装置70の少なくとも一方の、絶対的な、配置位置の変化を検出することができる。
上記変形例において、カメラ250が、第1態様の「撮影手段」に相当する。また、公知の画像解析処理を行う画像解析部252を実現し、カメラ250の撮影画像内における音声入力装置60や音声出力装置70の位置を特定することができるCPU280が、「解析手段」として機能する。
また、例えば音声入力装置260と音声出力装置270とに識別用のマーカーを記し、定位置に固定したカメラ250の撮影画像内でマーカーの位置(座標)を特定するようにしてもよい。このようにすれば、音声入力装置60や音声出力装置70の形状認識を行わなくとも撮影画像内における両者の配置位置を特定可能であり、画像解析処理を簡易化することができる。また、図示しないが、電波や赤外線、レーザ光等を2点あるいは3点以上の定点から発し、音声入力装置や音声出力装置で受信した際の位相ずれや、反射波の位相ずれなどによる、音声入力装置や音声出力装置の配置位置の変化の検出を行ってもよい。
また、スピーカ74やマイク64、加速度センサ62,72には、デジタル出力のものを用いてもよい。あるいは、A/DコンバータやD/Aコンバータを、音声入力装置60や音声出力装置70に設けてもよい。また、タイマ44の代わりにCPU80のインターバルタイマ等を用い、カウント値TをCPU80から取得してもよい。また、デジタルフィルタ34にはバンドパスフィルタを用いたが、ハイパスフィルタ(HPF)やローパスフィルタ(LPF)、あるいはこれら各種のフィルタの組み合わせを用いてもよい。
2〜4,202 端末装置
8,108,208 エコー除去部
12 移動検出部
14,16 基準信号生成部
22 スイッチ制御部
24 加算器
34 デジタルフィルタ
36 信号比較部
38 遅延処理部
40 減衰処理部
42 減算器
46 通信部
62,72 加速度センサ
64 マイク
74 スピーカ
102 PC
180 CPU
250 カメラ
252 画像解析部

Claims (7)

  1. 通信先装置から受信する音声信号である受信音声信号を音声に変換して出力する出力手段と、
    入力される周囲の音声を前記通信先装置に送信する音声信号である送信音声信号に変換する入力手段と、
    前記出力手段および前記入力手段の少なくとも一方の配置位置に変化が生じたことを検出する位置検出手段と、
    前記出力手段から出力された音声が再び前記入力手段に入力されて生ずる音響エコー成分を前記送信音声信号から除去するにあたって基準となる基準信号を、前記位置検出手段が前記配置位置の変化を検出した場合に生成する生成手段と、
    前記受信音声信号に前記基準信号を重畳する重畳手段と、
    前記入力手段の変換した前記送信音声信号にフィルタリング処理を行い、前記基準信号を抽出する抽出手段と、
    前記生成手段によって生成された際の前記基準信号である生成基準信号と、前記抽出手段によって抽出された際の前記基準信号である抽出基準信号とを比較して、前記生成基準信号の生成タイミングと前記抽出基準信号の抽出タイミングとの時間ずれの情報と、前記生成タイミングにおける前記生成基準信号の信号レベルと前記抽出タイミングにおける前記抽出基準信号の信号レベルとのレベルずれの情報とを求める演算手段と、
    前記受信音声信号に対し、前記時間ずれの情報と前記レベルずれの情報とに基づく演算を行って前記音響エコー成分を生成し、前記送信音声信号から差し引いて、前記音響エコー成分を除去した除去音声信号を生成する除去手段と、
    前記通信先装置に送信する前記送信音声信号として、前記除去音声信号を送信する送信手段と
    を備えたことを特徴とするエコー除去装置。
  2. 前記出力手段および前記入力手段の少なくとも一方が含まれる画像を定位置から撮影する撮影手段と、
    前記撮影手段の撮影画像内における前記出力手段および前記入力手段の少なくとも一方の位置を解析する解析手段と
    をさらに備え、
    前記位置検出手段は、前記解析手段の解析結果に基づき、前記配置位置に変化が生じたことを検出することを特徴とする請求項1に記載のエコー除去装置。
  3. 前記出力手段および前記入力手段の少なくとも一方に加わる加速度を検出する加速度検出手段をさらに備え、
    前記位置検出手段は、前記加速度検出手段の検出結果に基づき、前記配置位置に変化が生じたことを検出することを特徴とする請求項1に記載のエコー除去装置。
  4. 前記生成手段は、前記基準信号として、音声波形の周波数が非可聴領域の周波数の信号を生成することを特徴とする請求項1から3のいずれかに記載のエコー除去装置。
  5. 前記受信音声信号が無音状態であるか否かを判定する判定手段をさらに備え、
    前記生成手段は、前記位置検出手段が前記配置位置の変化を検出し、且つ前記判定手段が、前記受信音声信号が無音状態であると判定した場合に、前記基準信号として、音声波形の周波数が可聴領域の周波数の信号を生成することを特徴とする請求項1から4のいずれかに記載のエコー除去装置。
  6. 通信先装置から受信する音声信号である受信音声信号が音声に変換されて出力手段から出力される出力工程と、
    周囲の音声が入力手段に入力されて、前記通信先装置に送信する音声信号である送信音声信号に変換される入力工程と、
    前記出力手段および前記入力手段の少なくとも一方の配置位置に変化を生じたことが検出される位置検出工程と、
    前記出力手段から出力された音声が再び前記入力手段に入力されて生ずる音響エコー成分を前記送信音声信号から除去するにあたって基準となる基準信号が、前記位置検出工程において前記配置位置の変化が検出された場合に生成される生成工程と、
    前記受信音声信号に前記基準信号が重畳される重畳工程と、
    前記入力工程において変換された前記送信音声信号にフィルタリング処理が行われ、前記基準信号が抽出される抽出工程と、
    前記生成工程において生成された際の前記基準信号である生成基準信号と、前記抽出工程において抽出された際の前記基準信号である抽出基準信号とが比較され、前記生成基準信号の生成タイミングと前記抽出基準信号の抽出タイミングとの時間ずれの情報と、前記生成タイミングにおける前記生成基準信号の信号レベルと前記抽出タイミングにおける前記抽出基準信号の信号レベルとのレベルずれの情報とが求められる演算工程と、
    前記受信音声信号に対し、前記時間ずれの情報と前記レベルずれの情報とに基づく演算が行われて前記音響エコー成分が生成され、前記送信音声信号から差し引かれて、前記音響エコー成分を除去した除去音声信号が生成される除去工程と、
    前記通信先装置に送信する前記送信音声信号として、前記除去音声信号が送信される送信工程と
    を備えたことを特徴とするエコー除去方法。
  7. 請求項1に記載のエコー除去装置の各種処理手段として、コンピュータを機能させることを特徴とするエコー除去装置のプログラム。
JP2009215283A 2009-09-17 2009-09-17 エコー除去装置、エコー除去方法、およびエコー除去装置のプログラム Pending JP2011066668A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009215283A JP2011066668A (ja) 2009-09-17 2009-09-17 エコー除去装置、エコー除去方法、およびエコー除去装置のプログラム
PCT/JP2010/064678 WO2011033924A1 (ja) 2009-09-17 2010-08-30 エコー除去装置、エコー除去方法、およびエコー除去装置のプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009215283A JP2011066668A (ja) 2009-09-17 2009-09-17 エコー除去装置、エコー除去方法、およびエコー除去装置のプログラム

Publications (1)

Publication Number Publication Date
JP2011066668A true JP2011066668A (ja) 2011-03-31

Family

ID=43758533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009215283A Pending JP2011066668A (ja) 2009-09-17 2009-09-17 エコー除去装置、エコー除去方法、およびエコー除去装置のプログラム

Country Status (2)

Country Link
JP (1) JP2011066668A (ja)
WO (1) WO2011033924A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014020760A1 (ja) * 2012-08-03 2014-02-06 三菱電機株式会社 通話装置
EP2723054A1 (en) * 2012-10-19 2014-04-23 BlackBerry Limited Using an auxiliary device sensor to facilitate disambiguation of detected acoustic environment changes
JP2015179932A (ja) * 2014-03-19 2015-10-08 アイホン株式会社 インターホンシステム
WO2021172893A1 (ko) * 2020-02-25 2021-09-02 삼성전자 주식회사 에코 캔슬링을 위한 방법 및 그 장치
WO2022030857A1 (ko) * 2020-08-05 2022-02-10 삼성전자 주식회사 오디오 신호 처리 장치 및 그 동작 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9363386B2 (en) 2011-11-23 2016-06-07 Qualcomm Incorporated Acoustic echo cancellation based on ultrasound motion detection

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0983412A (ja) * 1995-09-08 1997-03-28 Ricoh Co Ltd ディジタルエコーキャンセラ装置
JP2001119470A (ja) * 1999-10-15 2001-04-27 Fujitsu Ten Ltd 電話音声処理装置
JP2006080660A (ja) * 2004-09-07 2006-03-23 Oki Electric Ind Co Ltd エコーキャンセラ付き通信端末及びそのエコーキャンセル方法
JP2007072351A (ja) * 2005-09-09 2007-03-22 Mitsubishi Electric Corp 音声認識装置
JP2007336364A (ja) * 2006-06-16 2007-12-27 Oki Electric Ind Co Ltd エコーキャンセラ

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0983412A (ja) * 1995-09-08 1997-03-28 Ricoh Co Ltd ディジタルエコーキャンセラ装置
JP2001119470A (ja) * 1999-10-15 2001-04-27 Fujitsu Ten Ltd 電話音声処理装置
JP2006080660A (ja) * 2004-09-07 2006-03-23 Oki Electric Ind Co Ltd エコーキャンセラ付き通信端末及びそのエコーキャンセル方法
JP2007072351A (ja) * 2005-09-09 2007-03-22 Mitsubishi Electric Corp 音声認識装置
JP2007336364A (ja) * 2006-06-16 2007-12-27 Oki Electric Ind Co Ltd エコーキャンセラ

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014020760A1 (ja) * 2012-08-03 2014-02-06 三菱電機株式会社 通話装置
JP5666063B2 (ja) * 2012-08-03 2015-02-12 三菱電機株式会社 通話装置
EP2723054A1 (en) * 2012-10-19 2014-04-23 BlackBerry Limited Using an auxiliary device sensor to facilitate disambiguation of detected acoustic environment changes
US9131041B2 (en) 2012-10-19 2015-09-08 Blackberry Limited Using an auxiliary device sensor to facilitate disambiguation of detected acoustic environment changes
JP2015179932A (ja) * 2014-03-19 2015-10-08 アイホン株式会社 インターホンシステム
WO2021172893A1 (ko) * 2020-02-25 2021-09-02 삼성전자 주식회사 에코 캔슬링을 위한 방법 및 그 장치
WO2022030857A1 (ko) * 2020-08-05 2022-02-10 삼성전자 주식회사 오디오 신호 처리 장치 및 그 동작 방법

Also Published As

Publication number Publication date
WO2011033924A1 (ja) 2011-03-24

Similar Documents

Publication Publication Date Title
US10993025B1 (en) Attenuating undesired audio at an audio canceling device
US9494683B1 (en) Audio-based gesture detection
US9595997B1 (en) Adaption-based reduction of echo and noise
JP5855571B2 (ja) オーディオズーム
JP5085556B2 (ja) エコー除去の構成
US8842851B2 (en) Audio source localization system and method
WO2011033924A1 (ja) エコー除去装置、エコー除去方法、およびエコー除去装置のプログラム
JP2008288785A (ja) テレビ会議装置
US9385779B2 (en) Acoustic echo control for automated speaker tracking systems
WO2015191788A1 (en) Intelligent device connection for wireless media in an ad hoc acoustic network
US10468020B2 (en) Systems and methods for removing interference for audio pattern recognition
JP5380777B2 (ja) 音声会議装置
US11743662B2 (en) Voice input/output apparatus, hearing aid, voice input/output method, and voice input/output program
WO2015191787A2 (en) Intelligent device connection for wireless media in an ad hoc acoustic network
JP2009141560A (ja) 音声信号処理装置、音声信号処理方法
KR102112018B1 (ko) 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법
US20230419943A1 (en) Devices, methods, systems, and media for spatial perception assisted noise identification and cancellation
CN112489679B (zh) 声学回声消除算法的评估方法、装置及终端设备
US8976956B2 (en) Speaker phone noise suppression method and apparatus
JP2007060460A (ja) 遠隔会議システム
JP6569853B2 (ja) 指向性制御システム及び音声出力制御方法
CN112489680B (zh) 声学回声消除算法的评估方法、装置及终端设备
CN113556652B (zh) 语音处理方法、装置、设备及系统
JP2008294600A (ja) 放収音装置、および放収音システム
JP2008219240A (ja) 放収音システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120307

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131105