JP2009141560A - 音声信号処理装置、音声信号処理方法 - Google Patents

音声信号処理装置、音声信号処理方法 Download PDF

Info

Publication number
JP2009141560A
JP2009141560A JP2007314500A JP2007314500A JP2009141560A JP 2009141560 A JP2009141560 A JP 2009141560A JP 2007314500 A JP2007314500 A JP 2007314500A JP 2007314500 A JP2007314500 A JP 2007314500A JP 2009141560 A JP2009141560 A JP 2009141560A
Authority
JP
Japan
Prior art keywords
sound
correlation
signal
delay
time difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007314500A
Other languages
English (en)
Inventor
Hideki Kishi
秀樹 岸
Jo Matsui
丈 松井
Yasuhiko Kato
靖彦 加藤
Yohei Sakuraba
洋平 櫻庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007314500A priority Critical patent/JP2009141560A/ja
Publication of JP2009141560A publication Critical patent/JP2009141560A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】マイクロフォンの設置位置が不定の環境にあっても、マイクロフォンアレイによるビームフォーミングの手法によって、特定音源からの音を選択的に収音できる音響システムを提供する。
【解決手段】マイクロフォンにより収音された音声信号間の相互相関を求め、相互相関に基づいては特定音源からの到達時間差を求める。次に、この到達時間差に基づいて、収音音声信号ごとに与える遅延時間を決定し、収音音声ごとに対応して設けられる遅延器に対し、この遅延時間を設定する。
【選択図】図6

Description

本発明は、マイクロフォンアレイを用いるビームフォーミングの技術に対応する音声信号処理装置とその方法に関する。
マイクロフォンにより音声を収音するのにあたっては、周囲の騒音や不要音声などをできるだけ排除して、収音対象とする特定音源の音声を高いS/N比(信号対雑音比)で収音することが求められる場合がある。
そこで特許文献1には、複数のマイクロフォンを話者周辺に配置することとして、話者が発話したときに各マイクロフォンにより収音して得られるオーディオ信号のうちで最も強い信号のものを再生用のオーディオ信号として選択する、つまり、オーディオチャンネルを表すうえで最善のマイクロフォンのみを選択するようにした技術が記載されている。
また、非特許文献1には、複数のマイクロフォン素子によるマイクロフォンアレイにより収音して得られる収音音声信号について遅延などの信号処理を実行することで指向性パターンを形成し、これにより、例えば収音対象である特定音源に対してのみ指向性を与えるようにする技術が記載されている。
特開2006−20314号公報 大賀寿郎、山崎芳男、金田豊"音響システムとデジタル信号処理"電子情報通信学会
しかし、特許文献1に記載される技術では、再生のために使用するオーディオ信号を切り換えることになるので、マイクロフォン選択にあたっての判定条件が適切でないと、再生音声の冒頭が欠けて再生されてしまうような不具合を生じやすい。また、マイクロフォンの周囲環境によっては、特定の位置に置かれたマイクロフォンだけに例えば騒音や外部音声が入りやすくなるような状況になることも考えられる。すると、この特定位置に置かれたマイクロフォンが話者に最も近いとしても、話者音声に応じた最も強い信号をこのマイクロフォンで得ることができなくなるので、結果として最善のマイクロフォンの選択を誤るようなことも起こりえる。このようにして、特許文献1に記載される技術により、実際の音響システムを構成しても、特定音源の音声を高S/N比で収音、再生するという点で、信頼性の高い性能を得ることが難しい。
また、非特許文献1に記載されるマイクロフォンアレイの技術では、複数のマイク素子間の距離が既知であることが必要になるが、実際の音響システムにおいては、上記マイク素子に対応するマイクロフォンの設置位置、即ちマイク素子間の距離が不定となる条件の場合も多く考えられる。このために、マイクロフォンアレイの技術を採用できる音響システムは限定されることになり、応用範囲が比較的狭くなってしまう。
そこで本発明は上記した課題を考慮して、音声信号処理装置として次のように構成する。
つまり、複数の収音部により収音して得られる収音音声信号ごとに対応して設けられ、入力される収音音声信号を設定された遅延時間だけ遅延させて出力する、複数の遅延手段と、これらの各遅延手段から出力される収音音声信号の出力を合成したものとしての合成音声信号を生成する音声信号合成手段と、複数の収音部ごとに対応する収音音声信号の間の相互相関を検出する相関検出手段と、この相関検出手段により検出された収音音声信号の間での相互相関が得られているタイミングの時間差であるタイミング時間差を検出する相関タイミング検出手段と、この相関タイミング検出手段が検出したタイミング時間差に基づいて、合成音声信号の成分を形成する収音音声信号の間での相互相関が得られているタイミングが一致するようにして、複数の遅延手段のそれぞれについて設定すべき遅延時間の決定を行う、遅延時間決定手段とを備えることとした。
上記構成では、複数の収音部により得た収音音声信号を、それぞれ遅延手段により遅延を与えて出力した上で合成する。そのうえで、収音音声信号間で相互相関が得られているタイミング時間差を検出し、このタイミング時間差に応じて上記遅延手段における遅延時間を決定する。これにより、合成音声信号の成分を形成する収音音声信号の間での相互相関が得られているタイミングが一致することになる。
上記した構成を採ることによって、本願発明は、特定音源からの音を選択的に収音するような音響システムとして、高い性能と、広い応用範囲を得ることが可能になる。
本願発明を実施するための最良の形態(以下、実施の形態という)としては、テレビジョン会議システム(テレビ会議システム)における音声送受信系としての音響システムとする。
テレビ会議システムは、場所の異なる会議場ごとに通信端末装置を設置し、この通信端末装置から、カメラ装置により撮影した画像と、マイクロフォンにより収音した音声を他の通信端末装置に送信させると共に、他の通信装置から送信されてきた画像と音声を受信して、それぞれ、表示装置、スピーカから出力させるように構成される。つまり、テレビ会議システムでは、画像を相互に送受信する映像送受信系と、音声を相互に送受信する音声送受信系とを備える。本実施の形態としては、上記音声送受信系に対応した音響システムとなるものである。
図1は、テレビ会議システムにおける音声送受信系システムとして、第1の実施の形態に対応する構成例を示している。
この場合には、互いに離れた2つの場所A、場所Bが会議場とされており、これらの場所A,Bのそれぞれにおいて、音声送受信系を成す音声通信端末装置1、1が設置される。これらの音声通信端末装置1は、所定の通信方式に対応する通信回線により接続されて、相互通信が可能なようにされている。
そのうえで、先ず、場所Aには、複数のM本のマイクロフォン2−1〜2−Mが設置される。マイクロフォン2−1〜2−Mは、それぞれ、場所A内に居る会議参加者の声を収音するためのもので、この場合には場所A内において、任意の位置に置くことができる。
スピーカ3L、3Rは、場所Aを近端側として、遠端側となる他の場所(場所B)の会議参加者の声を聴くためのものとなる。スピーカ3L、3Rは、それぞれマルチチャンネルとしてL(左)チャンネル・R(右)チャンネルによるステレオチャンネルに対応して設けられるもので、例えば実際には、場所Aにおいて、Lチャンネル、Rチャンネルに対応させた適当な位置に設けられる。
場所Bにおいても、音声通信端末装置1、マイクロフォン2−1〜2−M、スピーカ3L、3Rが同様にして設けられる。
先ず、場所A(近端側とする)において、マイクロフォン2−1〜2−Mのそれぞれにより収音して得た音声信号(収音音声信号)は、音声通信端末装置1に入力される。この音声通信端末装置1は、入力された収音音声信号を合成して得られる音声信号(合成音声信号)を、通信回線を経由して、遠端側となる場所Bの音声通信端末装置1に対して送信する。場所Bの音声通信端末装置1は、上記のようにして送信されてきた合成音声信号を受信し、この受信した合成音声信号について所定の信号処理を行うことでLチャンネル、Rチャンネルの音声信号を生成し、Lチャンネルの音声信号についてはスピーカ3Lから出力させRチャンネルの音声信号についてはスピーカ3R−2から出力させる。これにより、場所Bの会議参加者は、場所Aの会議参加者の声を聴くことができる。
また、同様にして、遠端側場所B内のマイクロフォン2L、2Rにより収音して得られた収音音声信号は音声通信端末装置1にて合成され、合成音声信号として場所A側の音声通信端末装置1に送信される。場所A側の音声通信端末装置1では、受信した合成音声信号を基にして、上記と同様にして、Lチャンネル、Rチャンネルの各音声をスピーカ3L、3Rから出力させる。
このようにして、テレビ会議システムの音声送受信系では、音声の双方向通信を行うものであり、これにより、例えば或る1つの場所(近端側)にいる会議参加者と、他の場所(遠端側)に居る会議参加者との間で会話を行うことが可能になる。また、このテレビ会議システムの場合には、各場所において、複数の会議参加者が居ることを想定しており、このために、各場所の会議参加者の全員が、他の場所の会議参加者の声を聴くことができるように、スピーカ(3L、3R)を備えることとしているものである。このようにしてスピーカを用いて双方向で音声のやりとりを行うシステムは、拡声通話系などともいわれる。
ところで、拡声通話系システムは、そのまま使用したのでは、エコー、ハウリングなどの現象を生じる。つまり、スピーカ3L・3Rから空間に放出された音は、空間伝搬経路(エコーパス)を経て、実際には直接音及び間接音が混合された状態でマイクロフォン2−1〜2−Mの各々に到達する。つまり、通信相手(遠端)側の音声通信端末装置1から送信されスピーカ3(3L・3R)から放出された通信相手の声がマイクロフォン2(2−1〜2−M)にて収音され、再び、通信相手側の音声通信端末装置1に送信される。また、通信相手側においても、さらにスピーカから放出された音がマイクロフォンで収音されて、こちら(近端側)の音声通信端末装置1に送信されてくる。即ち、拡声通話系システムでは、一度空間に放出された音が、近端側と遠端側の音声通信端末装置間で循環するようにして送受信される。これにより、スピーカから放出される音には、自分が今話している声が、或る遅延時間をもってこだまのようにして聴こえるものが含まれることになる。これがエコーであり、ループゲインが1以上になればハウリングとなる。
そこで、拡声通話系システムでは、このようなエコーの現象を解消、抑制する、いわゆるエコーキャンセラとしての機能を与えることが行われている。音声通信端末装置1の内部には、このエコーキャンセラとしての信号処理部が備えられる。
図2は、音声通信端末装置1が備えるエコーキャンセラの構成例を示している。なお、この図においては、Lチャンネルのスピーカ3Lからマイクロフォン2−1までの空間伝搬経路を経由して到達してくる音により生じるエコー音をキャンセルするエコーキャンセラを示している。
この図に示されるエコーキャンセラは、適応フィルタ(ADF:Adaptive Digital Filter)4a及び減算器4bから成る適応処理システム4として構成される。
適応フィルタ4aは、Lチャンネルのスピーカ3Lから再生出力させるべき音の音声信号、つまり、遠端側から送信されてきた相手側話者の音声信号を参照信号として入力する。適応フィルタ4aは、上記参照信号と後述する誤差信号とを利用して所定の適応アルゴリズムに従った適応処理により、上記入力信号から疑似エコー信号(キャンセル用信号)を生成して出力し、減算器4bに入力する。
減算器4bは、マイクロフォン2−1により収音して得られた収音音声信号を所望信号として入力する。そして、この所望信号から上記適応フィルタ4aの出力信号を減算して、エコー成分がキャンセルされた収音音声信号m1として出力する。また、適応フィルタ4aに入力される減算器4bの出力は誤差信号、残差信号といわれるものとなる。
適応フィルタ4aの内部は、図示による説明は省略するが、上記の参照信号が通過する、必要次数によるFIR(Finite Impulse Response:有限インパルス応答)型のデジタルフィルタと、このデジタルフィルタの係数(フィルタ係数)を、所定の適応アルゴリズムに従って可変設定する係数設定回路とを備えている。上記のデジタルフィルタの出力が、適応フィルタ4aの出力信号であり、疑似エコー信号(キャンセル用信号)となる。
そして、適応フィルタ4aは、上記の誤差信号により示される残差量を最小とする出力信号(キャンセル用信号)が常に得られるようにして、係数設定回路が、必要な次数段階における係数器のフィルタ係数を変更設定していく。
この結果、適応フィルタ4aの係数ベクトル(次数段階に応じた係数の配列に相当する)は、参照信号がスピーカ3Lから出力され、次に空間伝搬経路を経由してマイクロフォン2−1にて収音され、さらに減算器4bに対して所望信号として入力されるまでの伝達経路(以降、キャンセル音伝達経路ともいう)の擬似的な伝達関数を表現するインパルス応答を形成することになる。この動作は即ち、上記キャンセル音伝達経路を経由して得られる音の信号成分を、そのときの所望信号、参照信号の状態に応じて適応的にキャンセルする動作であることになる。
そして、上記のキャンセル音伝達経路を経由する音は、遠端側から送信されて最終的にはスピーカ3Lに供給される音声信号を基としたエコー音の成分である。従って、適応フィルタ4aの出力信号(キャンセル用信号)は、スピーカ3Lから音として再生すべき音声信号についての疑似エコーとして捉えられることとなる。この適応処理システム4においては、減算器4bにより、通信相手側に送信するための音声信号から、上記の疑似エコー音を差し引くことになる。このようにして、適応処理システム4は、通信相手側に送信すべき音声信号から、エコー音の成分を適応的に除去するという動作を実行するものである。
そのうえで、実際においては、この図2に示した構成の適応処理システム4が、マイクロフォン2−1とRチャンネルのスピーカ3R間の空間伝搬経路にも対応して設けられ、さらに、マイクロフォン2−2〜2−Mごとについても、スピーカ3Lとの空間伝搬経路及びスピーカ3Rとの空間伝搬経路のそれぞれに対応させるようにして、2M個設けられる。そして、本実施の形態では、これらの適応処理システム4から出力される、エコー成分が除去された収音音声信号を合成して1つの合成音声信号を生成し、これを通信相手側の音声通信端末装置に対して送信することとしている。通信相手側の音声通信端末装置では、このようにして送信されてきた合成音声信号を受信し、適当に2チャンネルの音声信号に変換してスピーカ3L、3Rから再生するが、このとき、通信相手側のスピーカ3L、3Rにより再生される音からはエコー音が取り除かれていることになる。このようにしてエコーキャンセル効果が生じるものである。
また、本実施の形態のテレビ会議システムの音響システムでは、会議場となる場所において複数のマイクロフォンを適当に配置し、その周囲において、会議参加者(話者)が発話をするようにされる。このようにして発話された音声は、配置されているマイクロフォンのそれぞれにより収音され、これが合成されて相手側に送信される。
このような使用の態様にあっては、マイクロフォンにより収音されるべき話者音声が、他の周囲音よりも大きなものとなるように、つまり、高いS/N比で得られるようにすることが好ましい。
上記のようにして特定位置の音源から到来する音を高いS/N比で収音できるようにするための手法として、マイクロフォンアレイによるビームフォーミングを挙げることができる。この手法では、マイクロフォンアレイを形成する複数のマイクロフォン(マイクロフォン素子)を必要とするが、本実施の形態では、複数のマイクロフォン2−1〜2−Mを備えるので、この点では、ビームフォーミングの手法を応用できる。
ここで、マイクアレイによるビームフォーミングの原理について述べておく。
例えば図3に示すようにして、直線FL(破線で示す)上に対して、或る等間隔の距離を有して、5本のマイクロフォン2−1〜2−5を並べて配置させた場合を考える。そのうえで、この直線FL上から離れた或る特定位置の音源から音声(音波)s(t)(tは時刻)が発せられているとする。なお、ここでの音声s(t)は、平面波としている。また、マイクロフォン2−1〜2−5は、指向性や感度をはじめとして同じ特性を有しているものとする。指向性については無指向性とする。
この場合、音波s(t)の音源からマイクロフォン2−1〜2−5までの各距離は、それぞれ異なるものとなるが、上記の各距離がそれぞれ既知のものであるとすれば、その距離差に応じて、音源からの音がマイクロフォン2−1〜2−5のそれぞれに到達するまでの時間差も一義的に求めることができる。
そこで、同じ図3に示すようにして、直線FL上に配置されるマイクロフォン2−1〜2−5のそれぞれにより、音源から到達する音声s(t)を収音して得たとされる収音音声信号x1(t)〜x5(t)について、遅延器10−1〜10−5を設けることとする。これらの遅延器10−1〜10−5に対しては、それぞれ、上記の音源からの音声s(t)がマイクロフォン2−1〜2−5に到達するタイミングの時間差が補正されるようにした適当な遅延時間DL1〜DL5を設定する。これにより、マイクロフォン2−1〜2−5により収音して得られた各音声信号において、音源位置から到達してきた音の信号成分のみについて、時間軸上で一致される(同位相とされる)ことになる。そして、これらの遅延器10−1〜10−5の出力としての音声信号を、合成器11により加算合成する。
合成器11から出力される音声信号としては、時間軸(位相)が一致する音源位置から到達してきた音の信号成分については、同じものが足し合わされることとなってその振幅が拡大されて強調されるが、上記音源位置以外から到達して収音されたとする音の信号成分については、合成器11に入力される段階において時間軸(位相)が一致せずにばらついていることから、上記のようにして強調されることにはならない。換言すれば、合成器11から出力される音声信号y(t)としては、特定の音源位置から到来してきた音成分のみが強調され、これ以外の音成分については、相対的に弱められたものとなっている。
つまり、図3に示した構成によっては、複数のマイクロフォンにより収音して音声信号を得るようにされたうえで、これらの音声信号について、特定の音源位置に応じて決められる適当な遅延時間により遅延させて合成することにより、あたかも特定の音源位置から到来する音声のみを高い感度で以て収音したのと同等の結果が得られる。換言すれば、特定の音源位置に対応する収音の指向性パターンが得られる。これがマイクロフォンアレイによるビームフォーミングとしての基本原理となる。
上記図3に示されるビームフォーミングのモデルにおいて合成器11から出力される出力音声信号y(t)については、次のようにして表すことができる。

Figure 2009141560
ここで、θは、直線FLと直交する直線VLと、音源からの音声s(t)の進行方向とが成す角度(音波の進入角度)を示し、dはマイクロフォン間の距離を示す(図3参照)。Mはマイクロフォンアレイを形成するマイクロフォン(マイクロフォン素子)の数を示し、cは音速を示す。また、上記(数1)におけるτDは、マイクロフォン間での音声s(t)の到達時間差を示すが、この到達時間差τDは、次のようにして表される。

Figure 2009141560
遅延器10−1〜10−5に対しては、このようにして得られた到達時間差τDに基づいて、遅延時間DL1〜DL5を設定する。
ただし、これまでの説明から理解されるように、上記の原理に従って遅延時間(DL1〜DL5)を設定するためには、マイクロフォン間の距離(d)、即ち位置関係が既知である必要がある。これは、現実との対応では、マイクロフォンアレイを形成するマイクロフォンの設置位置が例えば固定されているなどして予め把握し得る環境であることが必要になる。
しかし、図1に示したような本実施の形態に対応するテレビ会議システムにあっては、マイクロフォン2−1〜2−Mは、その位置が固定的に決められるようにして置かれるのではなく、会議場となるそれぞれの場所の状況であるとか、会議参加者の都合により任意の位置に置くことができるものとしている。つまり、図1のテレビ会議システムでは、マイクロフォンの設置位置は不定であり、従って、マイクロフォンアレイによるビームフォーミングの手法をそのまま採用することはできない。
しかし、ビームフォーミングの手法は、各マイクロフォンの収音音声信号の遅延時間設定により特定音源に対する指向性を設定できることから、例えば特許文献1などにおいて問題となるマイクロフォンの切り換えに伴う話者音声の冒頭の欠けなどは生じるものではなく、より有用であると考えられる。
そこで、本実施の形態においては、マイクロフォンアレイによるビームフォーミングの手法を採用することとしたうえで、マイクロフォンアレイを形成するマイクロフォン(マイクロフォン素子)の位置(即ちマイクロフォン間の距離)が不定となる環境であっても、そのときのマイクロフォンの配置位置状態に適応して、常に、収音されるべき話者音声(特定の音源位置からの音声)が高S/N比で得られるようにするための構成を、音声通信端末装置1に与えることとする。以降、この点について説明を行っていく。
ここで、例えば1つの会議場において、図4に示すようにして、マイクロフォンアレイを形成するマイクロフォン2−i(iは連続する自然数)として、3本のマイクロフォン2−1、2−2、2−3が配置されており、収音の対象となる音源に相当するものとして或る位置の話者100から音声(音波)s(t)が発せられている環境のモデルを想定する。また、このモデルにおいては、これら3本のマイクロフォン2−1、2−2、2−3により収音して得られる収音音声信号mi(m1)、mj(m2)、mk(m3)は、並列に合成器11に対して入力されてここで合成され、音声信号(合成音声信号)y(t)として出力される。また、スピーカ3L、3Rから発せられる音をu(t)により表す。
ここで、3本のマイクロフォン2−1、2−2、2−3は任意の場所に配置されたものであり、従って、マイクロフォン2−1、2−2、2−3間の距離は不定となる。この図を参照して、第1の実施の形態におけるビームフォーミングの手法について説明を行っていく。
この場合において、マイクロフォン2−1に対しては、先ず、話者100から発せられた音声s(t)が、伝達関数xiの系を経由するようにして収音される。また、マイクロフォン2−1に対して、スピーカ3Lにて放出された音声u(t)が伝達関数riの系を経由して収音され、スピーカ3Rにて放出された音声u(t)が伝達関数qiの系を経由して収音される。このことから、マイクロフォン2−1により収音して得られる収音音声信号miは、下記のようにして表される。

Figure 2009141560
なお、上記(数3)にて示される式において、アスタリスク(*)は、畳み込み演算を行うことを示す記号であり、実際には右辺の積分計算により行うことを示す。また、ni(t)は、マイクロフォン2−1にて収音されるノイズ成分等の不要音声成分を示す。
また、実際においては、先に図2により述べたようにして、収音音声信号(所望信号)からエコー成分を除去するエコーキャンセラ(適応処理システム4)によるエコーキャンセル処理が行われるが、このエコーキャンセル処理の結果として、上記(数3)に示される式におけるスピーカ3L、3Rからの音声u(t)、u(t)と、ノイズ音声ni(t)は収音音声信号miから除去される。このため、収音音声信号miは、下記のようにして表されるものとして扱える。

Figure 2009141560
なお、上記(数4)において、ei(t)は、エコーキャンセル処理による残留エコー成分、及び残留ノイズ成分となる。
残るマイクロフォン2−2、2−3の収音音声信号mj、mkについても、上記(数3)(数4)により、同様にして表すことができる。
そして、これらマイクロフォン2−1、2−2、2−3の収音音声信号mi、mj、mkを合成器11により合成して出力音声信号y(t)を得るのであるが、このときには、ビームフォーミングの手法に従い、特定音源に相当する話者100からの音声s(t)の到達時間差をキャンセルして一致させるための遅延時間DLi(DL1、DL2、DL3)を与えたうえで、合成器11により合成する。これにより、合成器11により得られる出力信号y(t)は、下記のようにして表されることになる。

Figure 2009141560
なお、上記(数5)の式において、Mは、マイクロフォンアレイを形成するマイクロフォンの本数(収音音声信号の数にも対応する)を示す。
先に図3により説明したマイクロフォンアレイによるビームフォーミングの手法では、上記の遅延時間Diは、マイクロフォンアレイを形成するマイクロフォン間の距離が予め特定されている必要がある、即ち、マイクロフォンの位置が予め決められている必要がある。これに対して、本実施の形態では、次のようにして、マイクロフォンの位置が不定の環境であっても、そのときのマイクロフォンの位置に対応した適切な遅延時間Diを求めるようにされる。
このためには、先ず、収音音声信号間の相互相関を求める(検出する)。ここで、収音音声信号間に相互相関があるということは、収音音声信号間で、相互に、特定音源である話者100から発せられる音(話者音声)の成分を共に有しているということを意味する。
例えば説明を分かりやすくするために、収音音声信号mi、mjの二者間における相互相関gij(t)を求めることとした場合には、次の(数6)により表される式により計算して求めることができる。

Figure 2009141560
そして、次に、上記のようにして求めた相互相関gij(t)を利用して、マイクロフォン2−1、2−2との間での音声s(t)の到達時間差Di(i==1)を、下記のようにして求めることとする。

Figure 2009141560
上記(数7)は、相互相関gij(t)について極大値をとる時刻tを求めるものとなる。この計算により、収音音声信号miにおいて、収音音声信号mjと最も強い相関が得られている時刻(タイミング)に対する、収音音声信号mjにおいて収音音声信号miと最も強い相関が得られている時刻(タイミング)との差(タイミング差)が求められることになる。このタイミング差が、即ち、マイクロフォン2−1とマイクロフォン2−2の間での音声s(t)についての到達時間差Diとなる。
そこで、収音音声信号mi、mjの二者間に関すれば、収音音声信号mi、mjとの間で上記の到達時間差Diが無くなるようにして遅延時間DL1若しくは遅延時間DL2を与えるようにすると、合成器11により合成される段階では、収音音声信号mi(t)、mj(t)において、音声s(t)に対応して相互相関が得られるタイミング(収音音声信号mi(t)、mj(t)において音声s(t)が得られる時刻)が一致することとなる。
そして、実際における図4との対応では、例えば収音音声信号miを基準とするならば、収音音声信号mi、mkの二者間についても(数6)(数7)に従って音声s(t)についての相互相関を求めたうえで、到達時間差Di(i==2)も求めるようにされる。このようにして相互相関を求めることで、全ての収音音声信号mi、mj、mk間での相互相関を求めたことと等価の結果が得られる。また、到達時間差としては、D1、D2の2つが求められることになるが、これらの到達時間差に基づき、合成器11により合成される段階では、収音音声信号mi、mj、mkの三者において、上記の到達時間差(上記の相互相関が得られるタイミングの時間差)が無くなるように、つまり、収音音声信号mi、mj、mkに含まれる音声s(t)の成分についてのタイミングが一致するようにして、遅延時間DL1、DL2、DL3を設定するようにされる。これにより、合成器11の出力音声信号y(t)はとしては、音声s(t)に由来する成分は強調されるが、これ以外の音声s(t)と相関を有さない成分は弱められることになる。即ち、音声s(t)について高いS/N比を有する音声信号が得られることになる。
このようにして、本実施の形態では、収音音声信号間の相互相関から到達時間差を求めることで、収音音声信号に与えるべき適切な遅延時間を設定することが可能になる。つまり、本実施の形態にようにして、マイクロフォンの位置が任意とされて不定となるような使用の態様となる音響システムをはじめとして、マイクロフォンアレイによるビームフォーミングの手法を応用できる音響システムの範囲を、これまでよりも拡げることができる。
また、図4に示した音声s(t)がマイクロフォン2−1、2−2、2−3に到達するまでの系の伝達関数xi、xj、xkを、直接音に対応したものとすれば、これまでの処理によっては、音声s(t)が反射してマイクロフォン2−1、2−2、2−3に到達する成分も、相関を有さない信号として弱められることになるので、出力音声信号y(t)に含まれる音声s(t)の成分は、直接音に近い良好な音質を有したものとなる。
図5は、上記図4により説明した第1の実施の形態としてのビームフォーミングの手法に対応して、音声通信端末装置1が備えるとされる信号処理構成のモデルを示している。なお、この図では、説明を分かりやすいものとすることの都合上、先に図2に示したエコーキャンセラ(適応処理システム)の構成などは省略している。
ここでは、マイクロフォンアレイを形成するマイクロフォンとして、3本のマイクロフォン2−1、2−2、2−3を接続することとしている。マイクロフォン2−1により収音して得られる収音音声信号mi(t)は、第1遅延器10−1を介して合成器11に入力されるようになっている。マイクロフォン2−2により収音して得られる収音音声信号mj(t)は、第2遅延器10−2を介して合成器11に入力されるようになっている。マイクロフォン2−3により収音して得られる収音音声信号mk(t)は、第3遅延器10−3を介して合成器11に入力されるようになっている。合成器11は、このようにして入力されてくる収音音声信号を合成して、出力音声信号y(t)を得る。この出力音声信号y(t)が、通信相手側の音声通信端末装置1に対して送信される。
また、収音音声信号mi(t)、mj(t)、mk(t)は、相互相関検出部21に対して入力されるようになっている。相互相関検出部21は、入力される収音音声信号の間での相互相関を検出する。つまり、先の(数6)の式を利用して相互相関gi(i+1)(t)を求めるための演算を行う。
相互相関検出部21により求めた相互相関の情報は、到達時間差検出部22に入力される。到達時間差検出部22は、相互相関の情報に基づいて、相互相関が得られているとされる収音音声信号に対応するマイクロフォンの間での、上記特定音源からの音(音波)の到達時間差Diを検出する。この到達時間差Diの求め方は、先に(数7)を用いて説明したとおりである。
遅延時間設定部23は、到達時間差検出部22が検出した到達時間差に基づき、先ず、第1遅延器10−1、第2遅延器10−2、及び第3遅延器10−3のそれぞれに設定すべき遅延時間DL1、DL2、DL3を決定する。このときには、収音音声信号mi、mj、mkについて、マイクロフォン2−1、2−2、2−3での音声(s(t))の到達時間差が解消されて、各収音音声信号に含まれる音声(s(t))の成分のタイミングが一致した状態で合成器11に入力されるようにして、遅延時間D1、D2、D3のそれぞれを決定するようにされる。そして、このようにして決定した遅延時間D1、D2、D3を、それぞれ、第1遅延器10−1、第2遅延器10−2、第3遅延器10−3に設定する。
図6により、第1の実施の形態に対応するビームフォーミングのための信号処理手順をフローチャートとして示す。なお、ここでは、マイクロフォン2−1〜2−Mに対応する収音音声信号についてはそれぞれm1、m2・・・mMとして表すものとする。例えば図5に示した収音音声信号mi、mj、mkは、それぞれm1,m2,m3となる。
先ず、ステップS101〜S105までの手順は、相互相関検出部21が実行する処理に対応する。ステップS101では、マイクロフォンアレイを形成するマイクロフォン数(収音音声信号の数)に応じてその最大数が決まる変数nについて、1を代入する。
ステップS102では、収音音声信号m1(t)を基準として、この収音音声信号m1(t)と、収音音声信号m(1+n)(t)との間での相互相関g1(1+n)(t)を算出して求める。
ステップS103では、現在の変数nが最大値であるか否かについて判別する。変数nの最大値は、マイクロフォンの数をMとして、n=M-1で表すことができる。変数nが最大値未満であるときには、ステップS104により変数nについてインクリメントしてからステップS102に戻る。これにより、基準の収音音声信号m1(t)と、他の収音音声信号との間での相互相関の検出が順次行われていくことになる。
そして、基準の収音音声信号m1(t)と、他の全ての収音音声信号との間での相互相関g1(1+n)(t)の検出が完了したとされると、ステップS103において肯定の判別結果が得られることとなって、ステップS105に進む。
ステップS105では、これまでに得た相互相関g1(1+n)(t)の値から、収音音声信号間で一定以上の相互相関強度を有しているか否かについて判別する。ここで、肯定の判別結果が得られた場合には、有意の相互相関が得られていることになるので、ステップS106以降の手順に進む。これに対して、否定の判別結果が得られた場合には、有意の相互相関が得られていないことになるが、この場合には、ステップS106以降の手順を実行することなく、ステップS101からの相互相関の検出処理に戻る。
ステップS106は、到達時間差検出部22が、これまでの処理によって得られた相互相関gi(i+n)(t)の値から、到達時間差Di(D1〜Dn)を算出するための処理となる。
次に、遅延時間設定部23は、ステップS107により、上記ステップS106にて算出された到達時間差Di(D1〜DM)に基づいて、第1遅延器10−1〜第M遅延器10−Mのそれぞれについての遅延時間DL1〜DLMを決定する。次に、ステップS108により、上記ステップS107にて決定された遅延時間DL1〜DLMを、第1遅延器10−1〜第M遅延器10−Mのそれぞれに対して設定する。
先に本出願人により出願された特開2006−140930には、テレビ会議システムの拡声通話系システムに適用可能な音響システムとして、本体装置側を上流、反対側を下流として本体装置から縦列接続されて、音声信号を順次伝達するマイク装置から成るマイクシステムの構成が開示されている。第2の実施の形態としては、テレビ会議システムの拡声通話系システム(音声送受信系システム)に、このようなマイクシステムを採用する場合を例に挙げる。
図7は、第2の実施の形態に対応する音声送受信系システムの構成例を示している。なお、図1と同一部分には同一符号を付して説明を省略する。
第2の実施の形態においては、図示するようにして、場所A、場所Bのそれぞれにおいて、複数(M個)のマイクロフォンユニット(ユニット部)30−1〜30−Mが備えられる。これらマイクロフォンユニット30−1〜30−Mは、それぞれ内部にマイクロフォン2−1〜2−Mを備えることで収音が行えるようにされた装置となるものである。ビームフォーミングのためのマイクロフォンアレイは、これらのマイクロフォン2−1〜2−Mにより形成されるものとなる。また、このマイクロフォンユニット20−1〜20−Mは、それぞれが備えるマイクロフォン2−1〜2−Mにより収音したとされるエコー音成分を除去するためのエコーキャンセラを内蔵する。このエコーキャンセラが動作することで、マイクロフォンユニット30−1〜30−Mから出力される収音音声信号としては、エコー音成分が抑制、除去されたものとなっている。
そして、これらマイクロフォンユニット30−1〜30−Mの収音音声信号の出力は、本体装置に相当する音声通信端末装置1を上流側として、下流側から上流側にかけて、マイクロフォンユニット30−1、30−2、30−3・・・30−Mの順で縦列接続されており、最上流のマイクロフォンユニット30−Mから音声通信端末装置1に入力される音声信号が、マイクロフォンユニット30−1〜30−Mのそれぞれから出力された収音音声信号を合成したものとなる。また、上記したように、マイクロフォンユニット30−1〜30−Mのそれぞれにおいては、収音音声信号からエコー音成分をキャンセルしていることから、マイクロフォンユニット30−Mから音声通信端末装置1に入力される合成音声信号としても、エコー音成分がキャンセルされたものとなっている。
この場合の音声通信端末装置1は、このようして入力されてくる合成音声信号について例えば音声圧縮符号化を施したうえで、通信回線を経由して通信相手側の音声通信端末装置1に対して送信する。通信相手側の音声通信端末装置1では、このようにして送信されてきた合成音声信号を受信して、例えば第1の実施の形態の場合と同様にして、音声圧縮符号化に対するデコード処理を行ってLチャンネル音声信号とRチャンネル音声信号とに振り分けて、スピーカ3L、3Rから音として出力させる。
図8は、第2の実施の形態に対応した1つの会議場におけるモデル例を示している。
ここでは、マイクロフォンアレイを形成するマイクロフォン2−iとしては、3本のマイクロフォン2−1、2−2、2−3を配置したものとする。また、音源に相当する話者100から音声(音波)s(t)が発せられているものとする。また、これら3本のマイクロフォン2−1、2−2、2−3は、マイクロフォン2−1が最下流でマイクロフォン2−3が最上流となる。つまり、マイクロフォン2−1による収音音声信号mi(m1)が、直ぐ上流のマイクロフォン2−2に対して伝送され、マイクロフォン2−2からは、マイクロフォン2−1の収音音声信号mi(m1)と、自身の収音音声信号mj(m2)を合成して得られる音声信号をマイクロフォン2−3に伝送する。マイクロフォン2−3は、マイクロフォン2−2から伝送される音声信号(mi+mj)と、自身の収音音声信号を合成して得られる音声信号を出力する、このマイクロフォン2−3から出力される段階の音声信号が、マイクロフォン2−1〜2−3の全ての収音音声信号mi(m1)、mj(m2)、mk(m3)を合成して得られる出力音声信号(合成音声信号)y(t)となる。
また、図4と同様にして、音声s(t)がマイクロフォン2−1、2−2、2−3に到達するまでの各経路の伝達関数は、xi、xj、xkとする。スピーカ3Lから発せられた音声u(t)がマイクロフォン2−1、2−2、2−3に到達するまでの各経路の伝達関数は、ri、rj、rkとする。スピーカ3Rから発せられた音声u(t)がマイクロフォン2−1、2−2、2−3に到達するまでの各経路の伝達関数は、qi、qj、qkとする。
図9は、第2の実施の形態に対応した音声信号処理系のモデル構成例を示している。なお、この図では、上記図8に対応して3本のマイクロフォン2−1〜2−3が備えられる場合の構成を示している。また、この図においても、説明を分かりやすいものとすることの都合上、各マイクロフォンユニットにおいて備えるものとされるエコーキャンセラの構成などは省略している。
図7にて説明したように、第2の実施の形態においては、マイクロフォン2−1、2−2、2−3は、それぞれマイクロフォンユニット30−1、30−2、30−3に内蔵される。
最下流のマイクロフォンユニット30−1のマイクロフォン2−1により得られた収音音声信号mi(m1)は、遅延時間DL1(DLi:i==1)を有する第1遅延器10−1を介して、合成器11−1に入力される。この場合の合成器11−1は、遅延器10−1から入力された収音音声信号を、合成器11−1の出力信号y1として、直ぐ上流のマイクロフォンユニット30−2の合成器11−2に対して伝送出力する。
また、マイクロフォンユニット30−2においては、内蔵のマイクロフォン2−2により収音して得られた収音音声信号mj(m2)を、遅延時間DL2を有する第2遅延器10−2、及び1×z分の固定による遅延時間を有する遅延器12−2を介して合成器11−2に入力させる。なお、上記遅延器12−2、及び次に述べる遅延器12−3において設定される遅延時間のパラメータであるzについては後述する。
合成器11−2は、遅延器12−2から入力されてくる収音音声信号mjと音声信号y1とを合成して得られる音声信号y2を、マイクロフォンユニット30−3内の合成器11−3に対して伝送出力する。
マイクロフォンユニット30−3においては、内蔵のマイクロフォン2−3により収音して得られた収音音声信号mk(m3)を、遅延時間DL3を有する第3遅延器10−3、及び2×Z分の固定による遅延時間を有する遅延器12−3を介して合成器11−3に入力させる。
合成器11−3は、遅延器12−3から入力されてくる収音音声信号mkと音声信号y2とを合成する。この場合には、この合成器11−3から出力される音声信号y3が、マイクロフォンアレイを形成する各マイクロフォンの収音音声信号を合成した合成音声信号yとなり、音声通信端末装置1に対して入力されることになる。
また、このようにしてマイクロフォンユニットを縦列接続する構成では、1つのマイクロフォンユニットから次のマイクロフォンユニットに対して音声信号を伝送するのにあたり、或る一定の伝送遅延時間zを有する。この伝送遅延時間zは、例えばマイクロフォンユニットのハードウェア構成、ソフトウェア構成などにより固定的に決まるもので、かつ、縦列接続において隣り合うマイクロフォンユニット間で同じになるものとして扱う。
この伝送遅延時間zは、図9との対応では、1つのマイクロフォンユニット30における合成器11から、その直ぐ上流のマイクロフォンユニット30における合成器11に対して音声信号を伝送するときの伝送時間としてみることができる。遅延器12−2、12−3においては、それぞれ伝送遅延時間zをパラメータとして遅延時間が設定されている。
また、ここでは、相互相関検出部21、到達時間差検出部22、及び遅延時間設定部23は、上記マイクロフォンユニット30−1〜30−3に対する本体装置となる音声通信端末装置1内に備えられるものとしている。
この場合の相互相関検出部21は、マイクロフォン2−1、2−2、2−3により得られ、遅延器10−1、10−2、10−3に入力される前の段階の収音音声信号mi(m1)、mj(m2)、mk(m3)を入力するとともに、合成器11−2に入力される段階の信号y1、及び合成器11−3に入力される段階の信号y2を入力する。相互相関検出部21は、これらの信号を利用して後述するようにして相互相関検出を行って、その検出情報を到達時間差検出部22に出力する。到達時間差検出部23は、相互相関の情報を利用して、後述するようにしてマイクロフォン2−1、2−2間、及びマイクロフォン2−2、2−3の間での到達時間差Di(D1,D2)を求め、遅延時間設定部23に通知する。遅延時間設定部23は、これらの到達時間差Di(D1,D2)に基づいて遅延時間DL1,DL2,DL3を決定し、これらの決定された遅延時間DL1,DL2,DL3を、それぞれ、第1、第2、第3遅延器10−1、10−2、10−3に対して設定する。
そして、第2の実施の形態において話者100の音声s(t)を対象に収音するビームフォーミングのための処理としては、次のようになる。
先ず、マイクロフォン2−1、2−2、2−3により収音して得られる、時刻tにおける収音音声信号mi(t)(m1(t)、m2(t)、m3(t))のそれぞれは、先の(数3)(数4)により求めることができる。この点では、第1の実施の形態と同様である。
次に、出力信号y(t)に関してであるが、第2の実施の形態においては、各マイクロフォン(マイクロフォンユニット)に対応して得られる収音音声信号が縦列接続の関係により順次加算されていくようにされる。そこで、マイクロフォンユニット30−1、30−2、30−3(合成器11−1、11−2、11−3)ごとにおいて得られる出力信号yi(t)を下記のようにして求めることとする。

Figure 2009141560
上記(数8)において、-z・(i-1)(・は乗算を表す)の項は、遅延器12−2、12−3の遅延時間に対応する。また、yi-1(t-z)におけるzの項は、出力信号yi-1が次の上流のマイクロフォンユニット(合成器)に対して伝送されるときの伝送遅延時間を表している。
また、上記(数8)により出力信号yiを求めることとしたのに応じて、相互相関検出部21が求めるべき相互相関に関しては、時刻tにおいて、1つのマイクロフォンユニットにおいて得られる収音音声信号mi(t)と、このマイクロフォンユニットに伝送された1つ下流の段のマイクロフォンユニットからの出力信号yi-1(t-z)を利用して、下記の式による演算を行うものとする。

Figure 2009141560
これは、第2の実施の形態では、縦列接続されるマイクロフォンユニットにおいて、隣り合うマイクロフォンユニット同士で、下流側のマイクロフォンユニット30−(i-1)からの出力信号yi-1(t)と、上流のマイクロフォンユニット30−iのマイクロフォン20−iにより得られた収音音声信号mi(t)との相互相関を検出しようとするものであることを意味する。図9との対応であれば、時刻tにおいて得られる、マイクロフォンユニット30−1からの出力信号y1と、マイクロフォンユニット30−2における収音音声信号mj(m2)との相互相関gi(i-1)(t)(i==2)、及びマイクロフォンユニット30−2からの出力信号y2と、マイクロフォンユニット30−3における収音音声信号mk(m3)との相互相関gi(i-1)(t)(i==3)とを求めることになる。このようにして相互相関gi(i-1)(t)を求めることにより、結果的に、第1の実施の形態と同様に、全ての収音音声信号の間での相互相関が求められたのと等価となる。
次に、到達時間差検出部22は、上記のようにして得られる相互相関gi(i-1)(t)に基づき、下記の式による演算を行うことで到達時間差Diを得る。

Figure 2009141560
これにより、到達時間差検出部22によっては、縦列接続の関係において隣り合うマイクロフォンユニットのマイクロフォン間の到達時間差が求められることになる。図8、図9との対応であれば、マイクロフォン2−1、2−2間の到達時間差D1(i==1)と、マイクロフォン2−2、2−3間の到達時間差D2(i==1)とを求めることになる。
次に、遅延時間設定部23は、上記のようにして求められる到達時間差Diを利用して、収音音声信号mi、mj、mkについて、上記の到達時間差に対応する、音声s(t)について相互相関が得られるタイミングの時間差が無くなるようにして、遅延時間DLi(DL1、DL2、DL3)を決定し、これらの遅延時間DL1、DL2、DL3を、それぞれ、第1、第2、第3遅延器10−1、10−2、10−3に設定する。
ここで、上記の到達時間差Diは、縦列接続の関係において隣り合うマイクロフォン間における正味の到達時間差を表すものとなる。従って、この到達時間差Diに基づいて求められる遅延時間DLiとしても、上記正味の到達時間差に対応したものとなる。つまり、この遅延時間DLiとしては、マイクロフォンユニット間での伝送遅延時間zを考慮してはいない。
このために、例えば先ず、図9から遅延器12−1を省略して、マイクロフォンユニット30−1からの出力信号y1(遅延時間DL1を与えた収音音声信号mi)と、マイクロフォンユニット30−2にて遅延時間DL2のみを与えた収音音声信号mjとを合成器11−2により合成したとすれば、この合成器11−2にて合成される段階の出力信号y1と収音音声信号mjとの間での音声s(t)の成分についてのタイミングは、出力信号y1のほうが伝送遅延時間z分だけ遅延することになる。そこで、マイクロフォンユニット30−2においては、遅延時間z(=z×1)を有する遅延器12−2を挿入することとしている。これにより、合成器11−2にて合成される段階の出力信号y1と収音音声信号mjとの間での音声s(t)の成分についてのタイミングが一致する。
また、マイクロフォンユニット30−3の合成器11−3に入力される段階の出力信号y2は、第1遅延器10−1の遅延時間DL1、合成器11−1から合成器11−2の伝送遅延時間z、及び合成器11−2から合成器11−3の伝送遅延時間zを経由した収音音声信号miと、第2遅延器10−2の遅延時間DL2及び遅延器12−2の遅延時間zを経由した収音音声信号mjとを合成したものとなる。従って、マイクロフォンユニット30−3において第3遅延器10−3から出力される段階の遅延時間DL3が与えられた収音音声信号mkと、マイクロフォンユニット30−3の合成器11−3に入力される段階の出力信号y2とを比較すると、音声s(t)の成分についてのタイミング(時刻)は、出力信号y2のほうが、z×2で表される時間分遅れることになる。そこで、マイクロフォンユニット30−3においては、遅延時間z×2を設定した遅延器12−3を挿入して、合成器11−3に入力される段階の収音音声信号mkと出力信号y2との間で相互相関が得られるタイミングを一致させているものである。つまり、第2の実施の形態のようにしてマイクロフォンユニットを縦列接続させた構成では、マイクロフォンユニット間の伝送遅延時間zが存在することに応じて、下流から上流のマイクロフォンユニット30−1〜30−M(1≦i≦M)に対して、順次、遅延時間z×(i-1)を与えることとしている。
このようにして、第2の実施の形態によっては、マイクロフォンユニットを縦列接続させた構成の下でも、第1の実施の形態と同様に、各マイクロフォンの収音音声信号に対して適切な遅延時間をダイナミックに設定して、マイクロフォンアレイによるビームフォーミングを実現することが可能とされている。
続いては、第3の実施の形態について説明する。なお、この第3の実施の形態の説明にあたっては、例えば第1の実施の形態として図5に示したように、収音音声信号を並列に合成器11に対して入力させて合成する構成を前提とする。なお、ここで第1の実施の形態と同様の収音音声信号の合成の態様を取ることとするのは、説明を簡単で分かりやすくするための便宜であり、第3の実施の形態は、第2の実施の形態のようにマイクロフォンユニットを縦列接続させる構成にも適用できる。
図10に示されるモデルにおいては、3本のマイクロフォン2−1、2−2、2−3が配置され、Lチャンネルのスピーカ3L及びRチャンネルのスピーカ3Rが配置される。スピーカ3Lから発せられた音声u(t)がマイクロフォン2−1、2−2、2−3に到達するまでの各経路の伝達関数は、ri、rj、rkであり、スピーカ3Rから発せられた音声u(t)がマイクロフォン2−1、2−2、2−3に到達するまでの各経路の伝達関数は、qi、qj、qkである。これらの点では、例えば先の図4と同様である。但し、この場合においては、音源として二人の話者100A、100Bが存在するものとしている。
話者100Aが発する音声sA(t)がマイクロフォン2−1、2−2、2−3に到達するまでの各経路の伝達関数は、xAi、xAj、xAkとし、話者100Bが発する音声sB(t)がマイクロフォン2−1、2−2、2−3に到達するまでの各経路の伝達関数は、xBi、xBj、xBkとする。
このような環境において、例えば話者100A、100Bのいずれか一方のみが発話している状態、つまり、音声sAが発せられているときには、音声sBは発せられず、逆に音声sBが発せられているときには、音声sAは発せられない、という状況であれば、これは第1の実施の形態で想定したモデルと同じであることになる。従って、音声sAが発せられているときには、音声sAの音源位置に応じて、収音音声信号に対して適切な遅延時間が設定され、音声sAを高S/N比で収音することができる。同様に、音声sBが発せられているときには、音声sBの音源位置に応じて、収音音声信号に対して適切な遅延時間が設定され、音声sBを高S/N比で収音することができる。
しかし、実際においては、音声sAと音声sBとが同時に発せられる可能性がある。このようにして、複数の音源から同時に音声が発せられると、遅延時間DLiを求めるまでの処理過程において、現実には存在しない音源(ここではゴースト音源という)についての相互相関、到達時間差Diが求められてしまうことがある。つまり、ゴースト音源を誤検出して、これに適合した遅延時間DLiを設定するという誤動作を生じる場合がある。
図10においては、その具体例として、音声sAと音声sBとが同時に発せられことにより、伝達関数xAiと伝達関数xBiとの交点において、音声Scを発するゴースト音源101が生じることとなった場合を示している。そして、このゴースト音源101の音声sCについての相互相関を誤検出して、これに対応した遅延時間を設定するという誤動作が生じると、現実の音声sA若しくは音声sBに対応しては適切な遅延時間が設定されず、音声sA若しくは音声sBに対応する収音音声信号を高S/N比で得ることができなくなる。このようにして、ゴースト音源が生じると、本来の実在する音源から発せられている音声に対応して適切にビームフォーミングを行えなくなる可能性がある。
そこで、第3の実施の形態としては、これまでに説明してきた遅延時間DLiの設定処理を基として、以下に説明する構成を採ることで、ゴースト音源の誤検出に起因する上記の問題を回避する。
図11は、第3の実施の形態に対応する遅延時間DLi設定(ビームフォーミング)のための手順を示すフローチャートである。なお、この場合においても、図6と同様に、マイクロフォン2−1〜2−Mに対応する収音音声信号についてはそれぞれm1、m2・・・mMとして表すものとする。図10に示した収音音声信号mi、mj、mkであれば、それぞれm1,m2,m3となる。
図11において、ステップS201〜ステップS206までの手順は、先の図6のフローチャートにおけるステップS101〜S106までの手順と同様となる。つまり、ステップS201〜S206によっては、収音音声信号間の相互相関を検出し、この検出結果に基づいて、例えばマイクロフォン2−1を基準として、このマイクロフォン2−1と、他のマイクロフォン2−2〜2−Mごとの到達時間差Di(D1〜Dn)を算出して求める。
続くステップS207〜S213は、上記ステップS206により求められる到達時間差Diの出現回数についての分布を示すヒストグラムを作成するための処理となる。このヒストグラム作成の処理は、例えば図5のシステム構成との対応では、例えば到達時間差検出部22が行うものとすればよい。
ステップS207においては、これまでに求められた相互相関の検出結果から、相関点が複数であるか否かについて判別する。つまり、M個の収音音声信号の間で一定以上の相関強度が有るものとして検出された相互相関を持つ音声成分が複数(2以上)存在するか否かについての判別を行う。
ステップS207において相関点が1つであるとして否定の判別結果が得られた場合には、ステップS208に進む。
ステップS208においては、ステップS206にて求めた到達時間差Di(D1〜Dn)が反映されるようにしてヒストグラムの内容を更新する。
このヒストグラムの一例として、図10のモデルに対応させて図式化したものを、図12に示す。
このヒストグラムは、ステップS206により検出した到達時間差Di(D1〜Dn)(図10との対応ではD1、D2となる)のうち、到達時間差D1(図10との対応ではマイクロフォン2−1、2−2間の到達時間差である)について、その出現回数により分布させたものである。ちなみに、ステップS207〜S213によっては、このようなヒストグラムを、上記到達時間差D1だけではなく、残る到達時間差D2〜Dnごとについても作成する。
この図12では、3つのローカルな分布範囲(ローカル分布範囲)のまとまりが存在する。図10との対応では、Aで示されるローカル分布範囲(ローカル分布範囲A)が、話者100Aから発せられる音声sAについての到達時間差D1に対応し、ローカル分布範囲Bが、話者100Bから発せられる音声sBについての到達時間差D1に対応し、ローカル分布範囲Cが、ゴースト音源の音声sCについての到達時間差D1に対応する。
ステップS208により、図12のヒストグラムの更新処理を行う場合には、ステップS206により検出した到達時間差D1の値に対応する出現回数をインクリメントするのであるが、このステップS208に至る直前のステップS207に対応して1つであると判別された相関点が、実際には、話者100Aの音声sAについてのものであったとする。この場合において、ステップS208により、上記のようにして図12のヒストグラムを更新した場合には、高い率で、出現回数をインクリメントした到達時間差の値は、ローカル分布範囲A内に存在している。なお、先にも述べたように、ステップS208では、このようなヒストグラムの更新を、残る到達時間差D2〜Dnについても同様にして行う。
このようにして、相関点が1つのみとされる場合には、ステップS208により、その相関点(相互相関)に対応した到達時間差Diをヒストグラムに登録していく。これは、収音対象の音源のうち、音声を発している音源が1つのみの場合には、その音声についての相互相関、到達時間差が検出されるごとに、ヒストグラムにおいて、その音源について検出した到達時間差の出現回数をインクリメントしていく、という処理を実行していることを意味する。
テレビ会議においては、同じ会議場に複数の会議参加者(話者)が居るとしても、いずれか一人の話者が発話するケースがほとんどであり、これに比較すると二人以上の話者が同時に発話するケースは非常に少ない、という状況が通常である。
このために、実際においては、相関検出と到達時間差の検出が行われた際には、ほとんどの場合において、ステップS207にて否定の判別結果が得られてステップS208を実行することになる。従って、会議が進行していくのに応じては、話者の発言(発話)頻度に応じて、その話者に応じた遅延時間差のローカル分布範囲がより顕著に表れるようにして形成されていくことになる。
また、ステップS207において、相関点が複数存在するとして肯定の判別結果が得られた場合にはステップS209〜S213によるヒストグラムの作成処理を実行する。
このヒストグラムの作成処理にあっては、先ず、ステップS209において、以降におけるヒストグラム作成のための処理順を示す変数mについて1を代入する。
次のステップS210では、m番目の相関点に対応する到達時間差について、現在のヒストグラム上での出現率(ヒストグラムにおける出現回数の総計に対する、m番目の相関点に対応する到達時間差の出現回数の割合)が一定以上であるか否かについての判別を行う。この判別は、例えばm番目の相関点に対応してステップS206にて得られた到達時間差D1〜Dnごとについて行う。
ステップS210において否定の判別結果が得られた場合には、ステップS211をスキップしてステップS212に進む。これに対してステップS210において肯定の判別結果が得られた場合にはステップS211に進む。
ステップS211においては、m番目の相関点に対応する到達時間差の出現回数をインクリメントするようにしてヒストグラムの更新を行う。この更新処理も、m番目の相関点に対応してステップS206にて得られた到達時間差D1〜Dnのそれぞれに対応するヒストグラムごとに行う。ステップS211の手順を実行するとステップS212に進む。
ステップS212では、変数mが最大値に至っているか否かについて判別する。変数mの最大値は、検出された複数の相関点の数に対応する。ここで否定の判別結果が得られたのであれば、ステップS213により変数mについてインクリメントしてステップS210の処理に戻る。
このようにして、相関点(相互相関を有する音声成分)が複数存在する場合には、これらの相関点に対応して求められた到達時間差のうち、ヒストグラム上での出現率が一定以上となっているものについてのみ、ヒストグラムへの登録(インクリメント)を行うようにする。
相関点が複数検出される場合とは、二人以上の話者が同時に発話した音声がマイクロフォンにて収音されている場合となるが、このときには先に述べたようにゴースト音源の音声も相関点の1つとして検出される場合がある。
これまでに説明したステップS207〜ステップS213までのヒストグラム作成の手順によると、ヒストグラムの初期状態から或る段階までは、ゴースト音源を相関点として検出したことに応じて求められる到達時間差もヒストグラムに登録される。しかし、先にも述べたように、テレビ会議においては、或る一人の話者のみが発話している状況がほとんどであり、ゴースト音源が生じるのは、複数の話者が同時に発話したときのみである。従って、会議が進行するのに応じては、先にも述べたように、話者の発言頻度に応じて、その話者に対応する到達時間差のローカル分布範囲において占める出現回数の割合(出現率)が高くなっていく。
例えば図12は、図10のモデルのもとで会議が或る程度進行したときのヒストグラムの状態を示している。
図10のモデルにおいて、話者100A、100Bが同時に発話したことで音声sA及び音声sBが収音された場合には、ゴースト音源101の音声sCの相互相関も検出される可能性が出てくる。このときには、ヒストグラム作成の初期時においては、ローカル分布範囲A,Bが占める総出現回数に対する割合も少ないので、ステップS210にて肯定の判別結果が得られて、ステップS211によりゴースト音源101の音声sCに対応する出現回数のインクリメントが行われ、これにより、或る程度の出現回数を有するローカル分布範囲Cを形成することにはなる。
しかし、単位時間あたりにおいては、話者100A、100Bが同時に発話する状況に対して、そのいずれか一方のみの話者が発話する状況がほとんどであるために、会議が進行するのに応じては、ステップS208によって、ローカル分布範囲A、若しくはローカル分布範囲Bに該当する或る到達遅延時間の出現回数がインクリメントされていく頻度が高くなり、これにともなって、ローカル分布範囲A、若しくはローカル分布範囲Bに含まれる出現回数の総出現回数に対する割合も高まっていくことになる。つまり、相対的に、ゴースト音源101の音声sCに対応するローカル分布範囲Cに含まれる到達時間差ごとの出現回数が総出現回数に占める割合(出現率)は少なくなっていく。そして、あるときから、このローカル分布範囲Cに含まれる到達時間差ごとの出現回数についての出現率が一定以下となると、ゴースト音源101の音声sCに対応して求められた到達時間差については、ステップS210にて否定の判別結果が得られることになって、これ以上、ヒストグラム上でインクリメントされることがなくなる。このようにして、ステップS210〜S213によっては、ゴースト音源に対応する到達時間差のローカル分布範囲は、一定以上に顕著にならないようにされている。
ステップS212にて肯定の判別結果が得られた後、あるいは先のステップS208の手順を実行した後は、ステップS214に進む。
ステップS214においては、現在において得られているヒストグラム上でクラスタを設定する。ここでいうクラスタ(音源対応タイミング時間差)とは、ヒストグラムにおいて得られているローカル分布範囲のうちで、一定以上の顕著性を有するとされるものを指す。
このクラスタの設定にあたっては、先ず、例えば所定のアルゴリズムに従って、ヒストグラム上においてローカル分布範囲を形成しているものとしてみることのできる到達時間差の範囲を特定する。そして、このようにして特定したローカル分布範囲のうちから、さらに、所定のアルゴリズムに従って、クラスタとして扱うべきローカル分布範囲を選別する。なお、クラスタの候補となるローカル分布範囲の特定のためのアルゴリズム、及びクラスタ候補のローカル分布範囲からクラスタを選別するためのアルゴリズムについては、例えば、出現回数についてのローカルピーク自体の値と、ローカルピークからの分散傾向などを基にした出現確率の正規分布を仮定したものを考えることができる。
そして、例えば上記したアルゴリズムを適切に設定することで、例えば図12に示すヒストグラム上では、ローカル分布範囲A、Bについてクラスタであるとして設定され、ローカル分布範囲Cについてはクラスタであるとして設定されない結果を得ることができる。この図からも分かるように、上記のクラスタの設定の処理は、ゴースト音源を排除した、実体のある音源の音声に対応するローカル分布範囲(音源対応タイミング時間差)を特定しようとする(推定する)処理となる。
次のステップS215においては、先のステップS206にて求めた到達時間差のうちで、現在設定されているクラスタとしてのローカル分布範囲内に含まれているものがあるか否かについて判別する。
ステップS215において、先のステップS206にて求めた到達時間差のうちで、現在設定されているクラスタとしてのローカル分布範囲内に含まれているものは1つもないとして、否定の判別結果が得られた場合には、ステップS216、S217による遅延器の遅延時間設定のための手順をスキップして、ステップS201の手順に戻る。
これに対して、先のステップS206にて求めた到達時間差のうちで、現在設定されているクラスタとしてのローカル分布範囲内に含まれているものがあるとして、ステップS215により肯定の判別結果が得られた場合には、ステップS216に進む。
ステップS216は、上記ステップS215に対応してクラスタに含まれているものとして判定された到達時間差の情報に基づいて、遅延時間設定部23が、第1遅延器10−1〜第m遅延器10−Mのための遅延時間DL1〜DLMを求める。この遅延時間DL1〜DLMの算出の仕方は、例えば第1の実施の形態に対応する図6のステップS107と同様でよい。なお、相関点が複数検出されている場合には、例えば相互相関が最も強いものに対応して得られる到達時間差の情報に基づいて、遅延時間DL1〜DLMを求めることとすればよい。
そして、次のステップS217により、先の図6のステップS108と同様にして、遅延時間設定部23は、第1遅延器10−1〜第m遅延器10−Mに対し、上記ステップS216により求められた遅延時間DL1〜DLMを設定する。
なお、これまでに説明した第1〜第3の実施の形態としてのビームフォーミングの処理については、例えば、エコーキャンセラの構成も含めて、DSP(Digital Signal Processor)により、デジタル信号処理として実現できる。また、コンピュータシステム(CPU)にプログラムを実行させることによっても実現できる。このためにDSPやコンピュータシステムなどに与えるべきプログラムは、例えばリムーバブルの記憶媒体に記憶させておいたうえで、この記憶媒体からインストール(アップデートも含む)させるようにして、DSPやコンピュータシステムなどに記憶させることが考えられる。また、所定のデータインターフェイスを経由させるなどして、他のホストとなる機器からの制御によってプログラムのインストールを行えるようにすることも考えられる。さらに、ネットワーク上のサーバなどにおける記憶装置に記憶させておいたうえで、本実施の形態に対応の音声信号処理機能を有する装置にネットワーク機能を持たせることとし、サーバからダウンロードして取得してインストールできるように構成することも考えられる。
また、これまでの説明においては、本願発明に基づく音響システム、即ち、マイクロフォンの位置が不定となる環境においてもマイクロフォンアレイによるビームフォーミングを実現するための構成を、テレビ会議システムの音声送受信系(音響システム)に適用しているが、テレビ会議システム以外において、特定音源からの音を高S/N比で収音することが必要な各種の音響システム、マイクロフォンシステムに適用できる。
第1の実施の形態に対応する、テレビ会議システムにおける音声送受信系の構成例を示す図である。 本実施の形態のテレビ会議システムにおける音声送受信系が備えるとされる適応処理システムの構成例を示す図である。 マイクロフォンアレイによるビームフォーミングの原理を説明するためのモデル例を示す図である。 第1の実施の形態に対応する音響モデル例を示す図である。 第1の実施の形態に対応するビームフォーミングのための構成を模式的に示す図である。 第1の実施の形態に対応するビームフォーミング(遅延器に対する遅延時間設定)のための手順を示すフローチャートである。 第2の実施の形態に対応する、テレビ会議システムにおける音声送受信系の構成例を示す図である。 第2の実施の形態に対応する音響モデル例を示す図である。 第2の実施の形態に対応するビームフォーミングのための構成を模式的に示す図である。 第3の実施の形態に対応する音響モデル例を示す図である。 第3の実施の形態に対応するビームフォーミングのための手順例を示すフローチャートである。 第3の実施の形態の下で作成されるヒストグラムの例を示す図である。
符号の説明
1 音声通信端末装置、2(2−1〜2−M) マイクロフォン、3(3L、3R) スピーカ、4 適応処理システム、4a 適応フィルタ、4b 減算器、10−1〜10−M 第1〜第M遅延器、11(11−1〜11−3)、12(12−1、12−2) 遅延器、21 相互相関検出部、22 到達時間差検出部、23 遅延時間設定部、30−1〜30−M マイクロフォンユニット

Claims (4)

  1. 複数の収音部により収音して得られる収音音声信号ごとに対応して設けられ、入力される収音音声信号を設定された遅延時間だけ遅延させて出力する、複数の遅延手段と、
    上記各遅延手段から出力される収音音声信号の出力を合成したものとしての合成音声信号を生成する音声信号合成手段と、
    上記複数の収音部ごとに対応する収音音声信号の間の相互相関を検出する相関検出手段と、
    上記相関検出手段により検出された上記収音音声信号の間での相互相関が得られているタイミングの時間差であるタイミング時間差を検出する相関タイミング検出手段と、
    上記相関タイミング検出手段が検出した上記タイミング時間差に基づいて、上記合成音声信号の成分を形成する上記収音音声信号の間での上記相互相関が得られているタイミングが一致するようにして、上記複数の遅延手段のそれぞれについて設定すべき遅延時間の決定を行う、遅延時間決定手段と、
    を備えることを特徴とする音声信号処理装置。
  2. 上記相関タイミング検出手段により検出される上記タイミング時間差の出現回数に基づいて、上記収音部により収音される特定音源の音声ごとに対応して得られるタイミング時間差である音源対応タイミング時間差を推定する、推定手段と、
    上記相関タイミング検出手段により検出したタイミング時間差が、上記推定手段により推定された、音源対応タイミング時間差と一致するか否かを判別する判別手段とをさらに備え、
    上記遅延時間決定手段は、上記判定手段により音源対応タイミング時間差と一致するとものとして判別された、相関タイミング検出手段により検出したタイミング時間差に基づいて、上記遅延時間の決定を行うようにされている、
    ことを特徴とする請求項1に記載の音声信号処理装置。
  3. 複数の収音部ごとに対応して設けられ、対応する収音部と上記遅延手段とを有して成るユニット部を複数備え、
    上記音声信号合成手段は、1つのユニット部から次のユニット部に音声信号を伝送させ、前の順序のユニット部から音声信号を伝送されたユニット部には、自身に対応する収音音声信号と、この伝送された音声信号とを合成した音声信号を伝送させることにより、最終的に全てのユニット部に対応する収音音声信号が合成された合成音声信号を得るようにされ、
    上記遅延時間設定手段は、上記相関タイミング検出手段が検出した上記相互相関が得られているタイミング時間差と、上記ユニット部間の伝送遅延時間とに基づいて、上記複数の遅延手段のそれぞれについて設定すべき遅延時間の決定を行う、
    ことを特徴とする請求項1に記載の音声信号処理装置。
  4. 複数の収音部により収音して得られる収音音声信号ごとに対応して実行するもので、入力される収音音声信号を設定された遅延時間だけ遅延して出力する遅延処理手順と、
    上記遅延処理手順を経て出力される収音音声信号の出力を合成したものとしての合成音声信号を生成する音声信号合成手順と、
    上記複数の収音部ごとに対応する収音音声信号の間の相互相関を検出する相関検出手順と、
    上記相関検出手順により検出された上記収音音声信号の間での相互相関が得られているタイミングの時間差であるタイミング時間差を検出する相関タイミング検出手順と、
    上記相関タイミング検出手順が検出した上記タイミング時間差に基づいて、上記合成音声信号の成分を形成する上記収音音声信号の間での上記相互相関が得られているタイミングが一致するようにして、収音音声信号ごとに対応して設定すべき上記遅延時間の決定を行う、遅延時間決定手順と、
    を実行することを特徴とする音声信号処理方法。
JP2007314500A 2007-12-05 2007-12-05 音声信号処理装置、音声信号処理方法 Pending JP2009141560A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007314500A JP2009141560A (ja) 2007-12-05 2007-12-05 音声信号処理装置、音声信号処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007314500A JP2009141560A (ja) 2007-12-05 2007-12-05 音声信号処理装置、音声信号処理方法

Publications (1)

Publication Number Publication Date
JP2009141560A true JP2009141560A (ja) 2009-06-25

Family

ID=40871758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007314500A Pending JP2009141560A (ja) 2007-12-05 2007-12-05 音声信号処理装置、音声信号処理方法

Country Status (1)

Country Link
JP (1) JP2009141560A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011254464A (ja) * 2010-06-02 2011-12-15 Sony Corp 加工音声信号を決定する方法および携帯端末
JP2012217015A (ja) * 2011-03-31 2012-11-08 Nec Casio Mobile Communications Ltd スピーカ装置及び電子機器
JP2013519135A (ja) * 2010-01-25 2013-05-23 マイクロソフト コーポレーション 音声−体識別の相関
KR101899398B1 (ko) * 2011-08-25 2018-10-01 엘지디스플레이 주식회사 음성 인식 시스템 및 음성 인식 방법
US10299034B2 (en) 2015-07-10 2019-05-21 Samsung Electronics Co., Ltd Electronic device and input/output method thereof
CN110082724A (zh) * 2019-05-31 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置及存储介质
JP2021509553A (ja) * 2017-12-29 2021-03-25 ハーマン インターナショナル インダストリーズ, インコーポレイテッド 遠端電気通信のための車室内音響雑音消去システム
JP6854967B1 (ja) * 2019-10-09 2021-04-07 三菱電機株式会社 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013519135A (ja) * 2010-01-25 2013-05-23 マイクロソフト コーポレーション 音声−体識別の相関
JP2011254464A (ja) * 2010-06-02 2011-12-15 Sony Corp 加工音声信号を決定する方法および携帯端末
JP2012217015A (ja) * 2011-03-31 2012-11-08 Nec Casio Mobile Communications Ltd スピーカ装置及び電子機器
KR101899398B1 (ko) * 2011-08-25 2018-10-01 엘지디스플레이 주식회사 음성 인식 시스템 및 음성 인식 방법
US10299034B2 (en) 2015-07-10 2019-05-21 Samsung Electronics Co., Ltd Electronic device and input/output method thereof
JP2021509553A (ja) * 2017-12-29 2021-03-25 ハーマン インターナショナル インダストリーズ, インコーポレイテッド 遠端電気通信のための車室内音響雑音消去システム
JP7312180B2 (ja) 2017-12-29 2023-07-20 ハーマン インターナショナル インダストリーズ, インコーポレイテッド 遠端電気通信のための車室内音響雑音消去システム
CN110082724A (zh) * 2019-05-31 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置及存储介质
CN110082724B (zh) * 2019-05-31 2021-09-21 浙江大华技术股份有限公司 一种声源定位方法、装置及存储介质
JP6854967B1 (ja) * 2019-10-09 2021-04-07 三菱電機株式会社 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
US11984132B2 (en) 2019-10-09 2024-05-14 Mitsubishi Electric Corporation Noise suppression device, noise suppression method, and storage medium storing noise suppression program

Similar Documents

Publication Publication Date Title
JP3727258B2 (ja) エコー抑制処理システム
JP5177820B2 (ja) 強調された主観的ステレオオーディオのためのシステムと方法
JP6703525B2 (ja) 音源を強調するための方法及び機器
EP0944228B1 (en) Method and apparatus for multi-channel acoustic echo cancellation
JP2009141560A (ja) 音声信号処理装置、音声信号処理方法
JP5003531B2 (ja) 音声会議システム
US20090046866A1 (en) Apparatus capable of performing acoustic echo cancellation and a method thereof
KR20120101457A (ko) 오디오 줌
JP5259622B2 (ja) 収音装置、収音方法、収音プログラム、および集積回路
KR20100022492A (ko) 음성 신호 처리 장치 및 지연 시간의 설정 방법
WO2008045476A2 (en) System and method for utilizing omni-directional microphones for speech enhancement
JPH10190848A (ja) 音響エコーキャンセル方法とそのシステム
JP3693588B2 (ja) エコー抑制システム
US9412354B1 (en) Method and apparatus to use beams at one end-point to support multi-channel linear echo control at another end-point
US9729967B2 (en) Feedback canceling system and method
JP3403473B2 (ja) ステレオエコーキャンセラ
JP3583980B2 (ja) 収音装置及び受信装置
JP4594854B2 (ja) 音声スイッチ方法、音声スイッチ装置、音声スイッチプログラム及びそのプログラムを記録した記録媒体
JP4552876B2 (ja) 音声信号送受信装置及び音声会議装置
JP3616341B2 (ja) 多チャネルエコーキャンセル方法、その装置、そのプログラム及び記録媒体
JP3628267B2 (ja) 多チャネル反響消去方法、その装置、そのプログラム及びその記録媒体
CN114008999A (zh) 声学回声消除
Beracoechea et al. On building immersive audio applications using robust adaptive beamforming and joint audio-video source localization
JP4159967B2 (ja) 多チャネル音響エコー消去方法及び装置
JP2009302983A (ja) 音声処理装置および音声処理方法