JP2009141560A

JP2009141560A - 音声信号処理装置、音声信号処理方法

Info

Publication number: JP2009141560A
Application number: JP2007314500A
Authority: JP
Inventors: Hideki Kishi; 秀樹岸; Jo Matsui; 丈松井; Yasuhiko Kato; 靖彦加藤; Yohei Sakuraba; 洋平櫻庭
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-12-05
Filing date: 2007-12-05
Publication date: 2009-06-25

Abstract

【課題】マイクロフォンの設置位置が不定の環境にあっても、マイクロフォンアレイによるビームフォーミングの手法によって、特定音源からの音を選択的に収音できる音響システムを提供する。
【解決手段】マイクロフォンにより収音された音声信号間の相互相関を求め、相互相関に基づいては特定音源からの到達時間差を求める。次に、この到達時間差に基づいて、収音音声信号ごとに与える遅延時間を決定し、収音音声ごとに対応して設けられる遅延器に対し、この遅延時間を設定する。
【選択図】図６

Description

本発明は、マイクロフォンアレイを用いるビームフォーミングの技術に対応する音声信号処理装置とその方法に関する。

マイクロフォンにより音声を収音するのにあたっては、周囲の騒音や不要音声などをできるだけ排除して、収音対象とする特定音源の音声を高いＳ／Ｎ比（信号対雑音比）で収音することが求められる場合がある。

そこで特許文献１には、複数のマイクロフォンを話者周辺に配置することとして、話者が発話したときに各マイクロフォンにより収音して得られるオーディオ信号のうちで最も強い信号のものを再生用のオーディオ信号として選択する、つまり、オーディオチャンネルを表すうえで最善のマイクロフォンのみを選択するようにした技術が記載されている。

また、非特許文献１には、複数のマイクロフォン素子によるマイクロフォンアレイにより収音して得られる収音音声信号について遅延などの信号処理を実行することで指向性パターンを形成し、これにより、例えば収音対象である特定音源に対してのみ指向性を与えるようにする技術が記載されている。

特開２００６−２０３１４号公報大賀寿郎、山崎芳男、金田豊"音響システムとデジタル信号処理"電子情報通信学会

しかし、特許文献１に記載される技術では、再生のために使用するオーディオ信号を切り換えることになるので、マイクロフォン選択にあたっての判定条件が適切でないと、再生音声の冒頭が欠けて再生されてしまうような不具合を生じやすい。また、マイクロフォンの周囲環境によっては、特定の位置に置かれたマイクロフォンだけに例えば騒音や外部音声が入りやすくなるような状況になることも考えられる。すると、この特定位置に置かれたマイクロフォンが話者に最も近いとしても、話者音声に応じた最も強い信号をこのマイクロフォンで得ることができなくなるので、結果として最善のマイクロフォンの選択を誤るようなことも起こりえる。このようにして、特許文献１に記載される技術により、実際の音響システムを構成しても、特定音源の音声を高Ｓ／Ｎ比で収音、再生するという点で、信頼性の高い性能を得ることが難しい。

また、非特許文献１に記載されるマイクロフォンアレイの技術では、複数のマイク素子間の距離が既知であることが必要になるが、実際の音響システムにおいては、上記マイク素子に対応するマイクロフォンの設置位置、即ちマイク素子間の距離が不定となる条件の場合も多く考えられる。このために、マイクロフォンアレイの技術を採用できる音響システムは限定されることになり、応用範囲が比較的狭くなってしまう。

そこで本発明は上記した課題を考慮して、音声信号処理装置として次のように構成する。
つまり、複数の収音部により収音して得られる収音音声信号ごとに対応して設けられ、入力される収音音声信号を設定された遅延時間だけ遅延させて出力する、複数の遅延手段と、これらの各遅延手段から出力される収音音声信号の出力を合成したものとしての合成音声信号を生成する音声信号合成手段と、複数の収音部ごとに対応する収音音声信号の間の相互相関を検出する相関検出手段と、この相関検出手段により検出された収音音声信号の間での相互相関が得られているタイミングの時間差であるタイミング時間差を検出する相関タイミング検出手段と、この相関タイミング検出手段が検出したタイミング時間差に基づいて、合成音声信号の成分を形成する収音音声信号の間での相互相関が得られているタイミングが一致するようにして、複数の遅延手段のそれぞれについて設定すべき遅延時間の決定を行う、遅延時間決定手段とを備えることとした。

上記構成では、複数の収音部により得た収音音声信号を、それぞれ遅延手段により遅延を与えて出力した上で合成する。そのうえで、収音音声信号間で相互相関が得られているタイミング時間差を検出し、このタイミング時間差に応じて上記遅延手段における遅延時間を決定する。これにより、合成音声信号の成分を形成する収音音声信号の間での相互相関が得られているタイミングが一致することになる。

上記した構成を採ることによって、本願発明は、特定音源からの音を選択的に収音するような音響システムとして、高い性能と、広い応用範囲を得ることが可能になる。

本願発明を実施するための最良の形態（以下、実施の形態という）としては、テレビジョン会議システム(テレビ会議システム)における音声送受信系としての音響システムとする。
テレビ会議システムは、場所の異なる会議場ごとに通信端末装置を設置し、この通信端末装置から、カメラ装置により撮影した画像と、マイクロフォンにより収音した音声を他の通信端末装置に送信させると共に、他の通信装置から送信されてきた画像と音声を受信して、それぞれ、表示装置、スピーカから出力させるように構成される。つまり、テレビ会議システムでは、画像を相互に送受信する映像送受信系と、音声を相互に送受信する音声送受信系とを備える。本実施の形態としては、上記音声送受信系に対応した音響システムとなるものである。

図１は、テレビ会議システムにおける音声送受信系システムとして、第１の実施の形態に対応する構成例を示している。
この場合には、互いに離れた２つの場所Ａ、場所Ｂが会議場とされており、これらの場所Ａ，Ｂのそれぞれにおいて、音声送受信系を成す音声通信端末装置１、１が設置される。これらの音声通信端末装置１は、所定の通信方式に対応する通信回線により接続されて、相互通信が可能なようにされている。
そのうえで、先ず、場所Ａには、複数のＭ本のマイクロフォン２−１〜２−Ｍが設置される。マイクロフォン２−１〜２−Ｍは、それぞれ、場所Ａ内に居る会議参加者の声を収音するためのもので、この場合には場所Ａ内において、任意の位置に置くことができる。
スピーカ３Ｌ、３Ｒは、場所Ａを近端側として、遠端側となる他の場所(場所Ｂ)の会議参加者の声を聴くためのものとなる。スピーカ３Ｌ、３Ｒは、それぞれマルチチャンネルとしてＬ(左)チャンネル・Ｒ(右)チャンネルによるステレオチャンネルに対応して設けられるもので、例えば実際には、場所Ａにおいて、Ｌチャンネル、Ｒチャンネルに対応させた適当な位置に設けられる。
場所Ｂにおいても、音声通信端末装置１、マイクロフォン２−１〜２−Ｍ、スピーカ３Ｌ、３Ｒが同様にして設けられる。

先ず、場所Ａ（近端側とする）において、マイクロフォン２−１〜２−Ｍのそれぞれにより収音して得た音声信号(収音音声信号)は、音声通信端末装置１に入力される。この音声通信端末装置１は、入力された収音音声信号を合成して得られる音声信号（合成音声信号）を、通信回線を経由して、遠端側となる場所Ｂの音声通信端末装置１に対して送信する。場所Ｂの音声通信端末装置１は、上記のようにして送信されてきた合成音声信号を受信し、この受信した合成音声信号について所定の信号処理を行うことでＬチャンネル、Ｒチャンネルの音声信号を生成し、Ｌチャンネルの音声信号についてはスピーカ３Ｌから出力させＲチャンネルの音声信号についてはスピーカ３Ｒ−２から出力させる。これにより、場所Ｂの会議参加者は、場所Ａの会議参加者の声を聴くことができる。
また、同様にして、遠端側場所Ｂ内のマイクロフォン２Ｌ、２Ｒにより収音して得られた収音音声信号は音声通信端末装置１にて合成され、合成音声信号として場所Ａ側の音声通信端末装置１に送信される。場所Ａ側の音声通信端末装置１では、受信した合成音声信号を基にして、上記と同様にして、Ｌチャンネル、Ｒチャンネルの各音声をスピーカ３Ｌ、３Ｒから出力させる。
このようにして、テレビ会議システムの音声送受信系では、音声の双方向通信を行うものであり、これにより、例えば或る１つの場所(近端側)にいる会議参加者と、他の場所(遠端側)に居る会議参加者との間で会話を行うことが可能になる。また、このテレビ会議システムの場合には、各場所において、複数の会議参加者が居ることを想定しており、このために、各場所の会議参加者の全員が、他の場所の会議参加者の声を聴くことができるように、スピーカ（３Ｌ、３Ｒ）を備えることとしているものである。このようにしてスピーカを用いて双方向で音声のやりとりを行うシステムは、拡声通話系などともいわれる。

ところで、拡声通話系システムは、そのまま使用したのでは、エコー、ハウリングなどの現象を生じる。つまり、スピーカ３Ｌ・３Ｒから空間に放出された音は、空間伝搬経路（エコーパス）を経て、実際には直接音及び間接音が混合された状態でマイクロフォン２−１〜２−Ｍの各々に到達する。つまり、通信相手（遠端）側の音声通信端末装置１から送信されスピーカ３（３Ｌ・３Ｒ）から放出された通信相手の声がマイクロフォン２（２−１〜２−Ｍ）にて収音され、再び、通信相手側の音声通信端末装置１に送信される。また、通信相手側においても、さらにスピーカから放出された音がマイクロフォンで収音されて、こちら（近端側）の音声通信端末装置１に送信されてくる。即ち、拡声通話系システムでは、一度空間に放出された音が、近端側と遠端側の音声通信端末装置間で循環するようにして送受信される。これにより、スピーカから放出される音には、自分が今話している声が、或る遅延時間をもってこだまのようにして聴こえるものが含まれることになる。これがエコーであり、ループゲインが１以上になればハウリングとなる。
そこで、拡声通話系システムでは、このようなエコーの現象を解消、抑制する、いわゆるエコーキャンセラとしての機能を与えることが行われている。音声通信端末装置１の内部には、このエコーキャンセラとしての信号処理部が備えられる。

図２は、音声通信端末装置１が備えるエコーキャンセラの構成例を示している。なお、この図においては、Ｌチャンネルのスピーカ３Ｌからマイクロフォン２−１までの空間伝搬経路を経由して到達してくる音により生じるエコー音をキャンセルするエコーキャンセラを示している。

この図に示されるエコーキャンセラは、適応フィルタ（ADF：Adaptive Digital Filter）４ａ及び減算器４ｂから成る適応処理システム４として構成される。
適応フィルタ４ａは、Ｌチャンネルのスピーカ３Ｌから再生出力させるべき音の音声信号、つまり、遠端側から送信されてきた相手側話者の音声信号を参照信号として入力する。適応フィルタ４ａは、上記参照信号と後述する誤差信号とを利用して所定の適応アルゴリズムに従った適応処理により、上記入力信号から疑似エコー信号(キャンセル用信号)を生成して出力し、減算器４ｂに入力する。
減算器４ｂは、マイクロフォン２−１により収音して得られた収音音声信号を所望信号として入力する。そして、この所望信号から上記適応フィルタ４ａの出力信号を減算して、エコー成分がキャンセルされた収音音声信号m₁として出力する。また、適応フィルタ４ａに入力される減算器４ｂの出力は誤差信号、残差信号といわれるものとなる。

適応フィルタ４ａの内部は、図示による説明は省略するが、上記の参照信号が通過する、必要次数によるＦＩＲ(Finite Impulse Response：有限インパルス応答)型のデジタルフィルタと、このデジタルフィルタの係数(フィルタ係数)を、所定の適応アルゴリズムに従って可変設定する係数設定回路とを備えている。上記のデジタルフィルタの出力が、適応フィルタ４ａの出力信号であり、疑似エコー信号（キャンセル用信号）となる。
そして、適応フィルタ４ａは、上記の誤差信号により示される残差量を最小とする出力信号(キャンセル用信号)が常に得られるようにして、係数設定回路が、必要な次数段階における係数器のフィルタ係数を変更設定していく。
この結果、適応フィルタ４ａの係数ベクトル（次数段階に応じた係数の配列に相当する）は、参照信号がスピーカ３Ｌから出力され、次に空間伝搬経路を経由してマイクロフォン２−１にて収音され、さらに減算器４ｂに対して所望信号として入力されるまでの伝達経路(以降、キャンセル音伝達経路ともいう)の擬似的な伝達関数を表現するインパルス応答を形成することになる。この動作は即ち、上記キャンセル音伝達経路を経由して得られる音の信号成分を、そのときの所望信号、参照信号の状態に応じて適応的にキャンセルする動作であることになる。
そして、上記のキャンセル音伝達経路を経由する音は、遠端側から送信されて最終的にはスピーカ３Ｌに供給される音声信号を基としたエコー音の成分である。従って、適応フィルタ４ａの出力信号（キャンセル用信号）は、スピーカ３Ｌから音として再生すべき音声信号についての疑似エコーとして捉えられることとなる。この適応処理システム４においては、減算器４ｂにより、通信相手側に送信するための音声信号から、上記の疑似エコー音を差し引くことになる。このようにして、適応処理システム４は、通信相手側に送信すべき音声信号から、エコー音の成分を適応的に除去するという動作を実行するものである。
そのうえで、実際においては、この図２に示した構成の適応処理システム４が、マイクロフォン２−１とＲチャンネルのスピーカ３Ｒ間の空間伝搬経路にも対応して設けられ、さらに、マイクロフォン２−２〜２−Ｍごとについても、スピーカ３Ｌとの空間伝搬経路及びスピーカ３Ｒとの空間伝搬経路のそれぞれに対応させるようにして、２Ｍ個設けられる。そして、本実施の形態では、これらの適応処理システム４から出力される、エコー成分が除去された収音音声信号を合成して１つの合成音声信号を生成し、これを通信相手側の音声通信端末装置に対して送信することとしている。通信相手側の音声通信端末装置では、このようにして送信されてきた合成音声信号を受信し、適当に２チャンネルの音声信号に変換してスピーカ３Ｌ、３Ｒから再生するが、このとき、通信相手側のスピーカ３Ｌ、３Ｒにより再生される音からはエコー音が取り除かれていることになる。このようにしてエコーキャンセル効果が生じるものである。

また、本実施の形態のテレビ会議システムの音響システムでは、会議場となる場所において複数のマイクロフォンを適当に配置し、その周囲において、会議参加者（話者）が発話をするようにされる。このようにして発話された音声は、配置されているマイクロフォンのそれぞれにより収音され、これが合成されて相手側に送信される。
このような使用の態様にあっては、マイクロフォンにより収音されるべき話者音声が、他の周囲音よりも大きなものとなるように、つまり、高いＳ／Ｎ比で得られるようにすることが好ましい。

上記のようにして特定位置の音源から到来する音を高いＳ／Ｎ比で収音できるようにするための手法として、マイクロフォンアレイによるビームフォーミングを挙げることができる。この手法では、マイクロフォンアレイを形成する複数のマイクロフォン（マイクロフォン素子）を必要とするが、本実施の形態では、複数のマイクロフォン２−１〜２−Ｍを備えるので、この点では、ビームフォーミングの手法を応用できる。

ここで、マイクアレイによるビームフォーミングの原理について述べておく。
例えば図３に示すようにして、直線FL（破線で示す）上に対して、或る等間隔の距離を有して、５本のマイクロフォン２−１〜２−５を並べて配置させた場合を考える。そのうえで、この直線FL上から離れた或る特定位置の音源から音声（音波）s(t)（tは時刻）が発せられているとする。なお、ここでの音声s(t)は、平面波としている。また、マイクロフォン２−１〜２−５は、指向性や感度をはじめとして同じ特性を有しているものとする。指向性については無指向性とする。
この場合、音波s(t)の音源からマイクロフォン２−１〜２−５までの各距離は、それぞれ異なるものとなるが、上記の各距離がそれぞれ既知のものであるとすれば、その距離差に応じて、音源からの音がマイクロフォン２−１〜２−５のそれぞれに到達するまでの時間差も一義的に求めることができる。
そこで、同じ図３に示すようにして、直線FL上に配置されるマイクロフォン２−１〜２−５のそれぞれにより、音源から到達する音声s(t)を収音して得たとされる収音音声信号x₁(t)〜x₅(t)について、遅延器１０−１〜１０−５を設けることとする。これらの遅延器１０−１〜１０−５に対しては、それぞれ、上記の音源からの音声s(t)がマイクロフォン２−１〜２−５に到達するタイミングの時間差が補正されるようにした適当な遅延時間DL₁〜DL₅を設定する。これにより、マイクロフォン２−１〜２−５により収音して得られた各音声信号において、音源位置から到達してきた音の信号成分のみについて、時間軸上で一致される（同位相とされる）ことになる。そして、これらの遅延器１０−１〜１０−５の出力としての音声信号を、合成器１１により加算合成する。
合成器１１から出力される音声信号としては、時間軸（位相）が一致する音源位置から到達してきた音の信号成分については、同じものが足し合わされることとなってその振幅が拡大されて強調されるが、上記音源位置以外から到達して収音されたとする音の信号成分については、合成器１１に入力される段階において時間軸（位相）が一致せずにばらついていることから、上記のようにして強調されることにはならない。換言すれば、合成器１１から出力される音声信号y(t)としては、特定の音源位置から到来してきた音成分のみが強調され、これ以外の音成分については、相対的に弱められたものとなっている。
つまり、図３に示した構成によっては、複数のマイクロフォンにより収音して音声信号を得るようにされたうえで、これらの音声信号について、特定の音源位置に応じて決められる適当な遅延時間により遅延させて合成することにより、あたかも特定の音源位置から到来する音声のみを高い感度で以て収音したのと同等の結果が得られる。換言すれば、特定の音源位置に対応する収音の指向性パターンが得られる。これがマイクロフォンアレイによるビームフォーミングとしての基本原理となる。

上記図３に示されるビームフォーミングのモデルにおいて合成器１１から出力される出力音声信号y(t)については、次のようにして表すことができる。

ここで、θは、直線FLと直交する直線VLと、音源からの音声s(t)の進行方向とが成す角度（音波の進入角度）を示し、ｄはマイクロフォン間の距離を示す(図３参照)。Mはマイクロフォンアレイを形成するマイクロフォン（マイクロフォン素子）の数を示し、ｃは音速を示す。また、上記（数１）におけるτDは、マイクロフォン間での音声s(t)の到達時間差を示すが、この到達時間差τDは、次のようにして表される。

遅延器１０−１〜１０−５に対しては、このようにして得られた到達時間差τDに基づいて、遅延時間DL₁〜DL₅を設定する。

ただし、これまでの説明から理解されるように、上記の原理に従って遅延時間（DL₁〜DL₅）を設定するためには、マイクロフォン間の距離（ｄ）、即ち位置関係が既知である必要がある。これは、現実との対応では、マイクロフォンアレイを形成するマイクロフォンの設置位置が例えば固定されているなどして予め把握し得る環境であることが必要になる。
しかし、図１に示したような本実施の形態に対応するテレビ会議システムにあっては、マイクロフォン２−１〜２−Ｍは、その位置が固定的に決められるようにして置かれるのではなく、会議場となるそれぞれの場所の状況であるとか、会議参加者の都合により任意の位置に置くことができるものとしている。つまり、図１のテレビ会議システムでは、マイクロフォンの設置位置は不定であり、従って、マイクロフォンアレイによるビームフォーミングの手法をそのまま採用することはできない。
しかし、ビームフォーミングの手法は、各マイクロフォンの収音音声信号の遅延時間設定により特定音源に対する指向性を設定できることから、例えば特許文献１などにおいて問題となるマイクロフォンの切り換えに伴う話者音声の冒頭の欠けなどは生じるものではなく、より有用であると考えられる。

そこで、本実施の形態においては、マイクロフォンアレイによるビームフォーミングの手法を採用することとしたうえで、マイクロフォンアレイを形成するマイクロフォン（マイクロフォン素子）の位置（即ちマイクロフォン間の距離）が不定となる環境であっても、そのときのマイクロフォンの配置位置状態に適応して、常に、収音されるべき話者音声（特定の音源位置からの音声）が高Ｓ／Ｎ比で得られるようにするための構成を、音声通信端末装置１に与えることとする。以降、この点について説明を行っていく。

ここで、例えば１つの会議場において、図４に示すようにして、マイクロフォンアレイを形成するマイクロフォン２−ｉ（ｉは連続する自然数）として、３本のマイクロフォン２−１、２−２、２−３が配置されており、収音の対象となる音源に相当するものとして或る位置の話者１００から音声（音波）ｓ(t)が発せられている環境のモデルを想定する。また、このモデルにおいては、これら３本のマイクロフォン２−１、２−２、２−３により収音して得られる収音音声信号m_i(m₁)、m_j(m₂)、m_k(m₃)は、並列に合成器１１に対して入力されてここで合成され、音声信号（合成音声信号）y(t)として出力される。また、スピーカ３Ｌ、３Ｒから発せられる音をu(t)により表す。
ここで、３本のマイクロフォン２−１、２−２、２−３は任意の場所に配置されたものであり、従って、マイクロフォン２−１、２−２、２−３間の距離は不定となる。この図を参照して、第１の実施の形態におけるビームフォーミングの手法について説明を行っていく。

この場合において、マイクロフォン２−１に対しては、先ず、話者１００から発せられた音声s(t)が、伝達関数x_iの系を経由するようにして収音される。また、マイクロフォン２−１に対して、スピーカ３Ｌにて放出された音声u(t)が伝達関数r_iの系を経由して収音され、スピーカ３Ｒにて放出された音声u(t)が伝達関数q_iの系を経由して収音される。このことから、マイクロフォン２−１により収音して得られる収音音声信号m_iは、下記のようにして表される。

なお、上記(数３)にて示される式において、アスタリスク（*）は、畳み込み演算を行うことを示す記号であり、実際には右辺の積分計算により行うことを示す。また、n_i(t)は、マイクロフォン２−１にて収音されるノイズ成分等の不要音声成分を示す。

また、実際においては、先に図２により述べたようにして、収音音声信号(所望信号)からエコー成分を除去するエコーキャンセラ（適応処理システム４）によるエコーキャンセル処理が行われるが、このエコーキャンセル処理の結果として、上記（数３）に示される式におけるスピーカ３Ｌ、３Ｒからの音声u(t)、u(t)と、ノイズ音声n_i(t)は収音音声信号m_iから除去される。このため、収音音声信号m_iは、下記のようにして表されるものとして扱える。

なお、上記(数４)において、e_i(t)は、エコーキャンセル処理による残留エコー成分、及び残留ノイズ成分となる。
残るマイクロフォン２−２、２−３の収音音声信号m_j、m_kについても、上記(数３)(数４)により、同様にして表すことができる。

そして、これらマイクロフォン２−１、２−２、２−３の収音音声信号m_i、m_j、m_kを合成器１１により合成して出力音声信号y(t)を得るのであるが、このときには、ビームフォーミングの手法に従い、特定音源に相当する話者１００からの音声s(t)の到達時間差をキャンセルして一致させるための遅延時間DL_i（DL₁、DL₂、DL₃）を与えたうえで、合成器１１により合成する。これにより、合成器１１により得られる出力信号y(t)は、下記のようにして表されることになる。

なお、上記(数５)の式において、Mは、マイクロフォンアレイを形成するマイクロフォンの本数（収音音声信号の数にも対応する）を示す。

先に図３により説明したマイクロフォンアレイによるビームフォーミングの手法では、上記の遅延時間D_iは、マイクロフォンアレイを形成するマイクロフォン間の距離が予め特定されている必要がある、即ち、マイクロフォンの位置が予め決められている必要がある。これに対して、本実施の形態では、次のようにして、マイクロフォンの位置が不定の環境であっても、そのときのマイクロフォンの位置に対応した適切な遅延時間D_iを求めるようにされる。

このためには、先ず、収音音声信号間の相互相関を求める（検出する）。ここで、収音音声信号間に相互相関があるということは、収音音声信号間で、相互に、特定音源である話者１００から発せられる音(話者音声)の成分を共に有しているということを意味する。
例えば説明を分かりやすくするために、収音音声信号m_i、m_jの二者間における相互相関ｇ_ij(t)を求めることとした場合には、次の(数６)により表される式により計算して求めることができる。

そして、次に、上記のようにして求めた相互相関ｇ_ij(t)を利用して、マイクロフォン２−１、２−２との間での音声s(t)の到達時間差D_i(i==1)を、下記のようにして求めることとする。

上記(数７)は、相互相関ｇ_ij(t)について極大値をとる時刻ｔを求めるものとなる。この計算により、収音音声信号m_iにおいて、収音音声信号m_jと最も強い相関が得られている時刻(タイミング)に対する、収音音声信号m_jにおいて収音音声信号m_iと最も強い相関が得られている時刻(タイミング)との差(タイミング差)が求められることになる。このタイミング差が、即ち、マイクロフォン２−１とマイクロフォン２−２の間での音声s(t)についての到達時間差D_iとなる。

そこで、収音音声信号m_i、m_jの二者間に関すれば、収音音声信号m_i、m_jとの間で上記の到達時間差D_iが無くなるようにして遅延時間DL₁若しくは遅延時間DL₂を与えるようにすると、合成器１１により合成される段階では、収音音声信号m_i(t)、m_j(t)において、音声s(t)に対応して相互相関が得られるタイミング（収音音声信号m_i(t)、m_j(t)において音声s(t)が得られる時刻）が一致することとなる。

そして、実際における図４との対応では、例えば収音音声信号m_iを基準とするならば、収音音声信号m_i、m_kの二者間についても（数６）(数７)に従って音声ｓ(t)についての相互相関を求めたうえで、到達時間差D_i(i==2)も求めるようにされる。このようにして相互相関を求めることで、全ての収音音声信号m_i、m_j、m_k間での相互相関を求めたことと等価の結果が得られる。また、到達時間差としては、D₁、D₂の2つが求められることになるが、これらの到達時間差に基づき、合成器１１により合成される段階では、収音音声信号m_i、m_j、m_kの三者において、上記の到達時間差（上記の相互相関が得られるタイミングの時間差）が無くなるように、つまり、収音音声信号m_i、m_j、m_kに含まれる音声s(t)の成分についてのタイミングが一致するようにして、遅延時間DL₁、DL₂、DL₃を設定するようにされる。これにより、合成器１１の出力音声信号y(t)はとしては、音声s(t)に由来する成分は強調されるが、これ以外の音声s(t)と相関を有さない成分は弱められることになる。即ち、音声s(t)について高いＳ／Ｎ比を有する音声信号が得られることになる。

このようにして、本実施の形態では、収音音声信号間の相互相関から到達時間差を求めることで、収音音声信号に与えるべき適切な遅延時間を設定することが可能になる。つまり、本実施の形態にようにして、マイクロフォンの位置が任意とされて不定となるような使用の態様となる音響システムをはじめとして、マイクロフォンアレイによるビームフォーミングの手法を応用できる音響システムの範囲を、これまでよりも拡げることができる。

また、図４に示した音声s(t)がマイクロフォン２−１、２−２、２−３に到達するまでの系の伝達関数x_i、x_j、x_kを、直接音に対応したものとすれば、これまでの処理によっては、音声s(t)が反射してマイクロフォン２−１、２−２、２−３に到達する成分も、相関を有さない信号として弱められることになるので、出力音声信号y(t)に含まれる音声s(t)の成分は、直接音に近い良好な音質を有したものとなる。

図５は、上記図４により説明した第１の実施の形態としてのビームフォーミングの手法に対応して、音声通信端末装置１が備えるとされる信号処理構成のモデルを示している。なお、この図では、説明を分かりやすいものとすることの都合上、先に図２に示したエコーキャンセラ（適応処理システム）の構成などは省略している。

ここでは、マイクロフォンアレイを形成するマイクロフォンとして、３本のマイクロフォン２−１、２−２、２−３を接続することとしている。マイクロフォン２−１により収音して得られる収音音声信号m_i(t)は、第１遅延器１０−１を介して合成器１１に入力されるようになっている。マイクロフォン２−２により収音して得られる収音音声信号m_j(t)は、第２遅延器１０−２を介して合成器１１に入力されるようになっている。マイクロフォン２−３により収音して得られる収音音声信号m_k(t)は、第３遅延器１０−３を介して合成器１１に入力されるようになっている。合成器１１は、このようにして入力されてくる収音音声信号を合成して、出力音声信号y(t)を得る。この出力音声信号y(t)が、通信相手側の音声通信端末装置１に対して送信される。

また、収音音声信号m_i(t)、m_j(t)、m_k(t)は、相互相関検出部２１に対して入力されるようになっている。相互相関検出部２１は、入力される収音音声信号の間での相互相関を検出する。つまり、先の(数６)の式を利用して相互相関ｇ_i(i+1)(t)を求めるための演算を行う。

相互相関検出部２１により求めた相互相関の情報は、到達時間差検出部２２に入力される。到達時間差検出部２２は、相互相関の情報に基づいて、相互相関が得られているとされる収音音声信号に対応するマイクロフォンの間での、上記特定音源からの音(音波)の到達時間差D_iを検出する。この到達時間差D_iの求め方は、先に(数７)を用いて説明したとおりである。

遅延時間設定部２３は、到達時間差検出部２２が検出した到達時間差に基づき、先ず、第１遅延器１０−１、第２遅延器１０−２、及び第３遅延器１０−３のそれぞれに設定すべき遅延時間DL₁、DL₂、DL₃を決定する。このときには、収音音声信号m_i、m_j、m_kについて、マイクロフォン２−１、２−２、２−３での音声(s(t))の到達時間差が解消されて、各収音音声信号に含まれる音声(s(t))の成分のタイミングが一致した状態で合成器１１に入力されるようにして、遅延時間D₁、D₂、D₃のそれぞれを決定するようにされる。そして、このようにして決定した遅延時間D₁、D₂、D₃を、それぞれ、第１遅延器１０−１、第２遅延器１０−２、第３遅延器１０−３に設定する。

図６により、第１の実施の形態に対応するビームフォーミングのための信号処理手順をフローチャートとして示す。なお、ここでは、マイクロフォン２−１〜２−Mに対応する収音音声信号についてはそれぞれm₁、m₂・・・m_Mとして表すものとする。例えば図５に示した収音音声信号m_i、m_j、m_kは、それぞれm₁,m₂,m₃となる。
先ず、ステップＳ１０１〜Ｓ１０５までの手順は、相互相関検出部２１が実行する処理に対応する。ステップＳ１０１では、マイクロフォンアレイを形成するマイクロフォン数（収音音声信号の数）に応じてその最大数が決まる変数ｎについて、１を代入する。
ステップＳ１０２では、収音音声信号m₁(t)を基準として、この収音音声信号m₁(t)と、収音音声信号m_(1+n)(t)との間での相互相関ｇ_1(1+n)(t)を算出して求める。
ステップＳ１０３では、現在の変数ｎが最大値であるか否かについて判別する。変数ｎの最大値は、マイクロフォンの数をＭとして、ｎ=M-1で表すことができる。変数ｎが最大値未満であるときには、ステップＳ１０４により変数ｎについてインクリメントしてからステップＳ１０２に戻る。これにより、基準の収音音声信号m₁(t)と、他の収音音声信号との間での相互相関の検出が順次行われていくことになる。
そして、基準の収音音声信号m₁(t)と、他の全ての収音音声信号との間での相互相関ｇ_1(1+n)(t)の検出が完了したとされると、ステップＳ１０３において肯定の判別結果が得られることとなって、ステップＳ１０５に進む。

ステップＳ１０５では、これまでに得た相互相関ｇ_1(1+n)(t)の値から、収音音声信号間で一定以上の相互相関強度を有しているか否かについて判別する。ここで、肯定の判別結果が得られた場合には、有意の相互相関が得られていることになるので、ステップＳ１０６以降の手順に進む。これに対して、否定の判別結果が得られた場合には、有意の相互相関が得られていないことになるが、この場合には、ステップＳ１０６以降の手順を実行することなく、ステップＳ１０１からの相互相関の検出処理に戻る。

ステップＳ１０６は、到達時間差検出部２２が、これまでの処理によって得られた相互相関ｇ_i(i+_n)(t)の値から、到達時間差D_i(Ｄ₁〜Ｄ_n)を算出するための処理となる。
次に、遅延時間設定部２３は、ステップＳ１０７により、上記ステップＳ１０６にて算出された到達時間差D_i(Ｄ₁〜Ｄ_M)に基づいて、第１遅延器１０−１〜第Ｍ遅延器１０−Ｍのそれぞれについての遅延時間DL₁〜DL_Mを決定する。次に、ステップＳ１０８により、上記ステップＳ１０７にて決定された遅延時間DL₁〜DL_Mを、第１遅延器１０−１〜第Ｍ遅延器１０−Ｍのそれぞれに対して設定する。

先に本出願人により出願された特開２００６−１４０９３０には、テレビ会議システムの拡声通話系システムに適用可能な音響システムとして、本体装置側を上流、反対側を下流として本体装置から縦列接続されて、音声信号を順次伝達するマイク装置から成るマイクシステムの構成が開示されている。第２の実施の形態としては、テレビ会議システムの拡声通話系システム（音声送受信系システム）に、このようなマイクシステムを採用する場合を例に挙げる。

図７は、第２の実施の形態に対応する音声送受信系システムの構成例を示している。なお、図１と同一部分には同一符号を付して説明を省略する。
第２の実施の形態においては、図示するようにして、場所Ａ、場所Ｂのそれぞれにおいて、複数（Ｍ個）のマイクロフォンユニット（ユニット部）３０−１〜３０−Ｍが備えられる。これらマイクロフォンユニット３０−１〜３０−Ｍは、それぞれ内部にマイクロフォン２−１〜２−Ｍを備えることで収音が行えるようにされた装置となるものである。ビームフォーミングのためのマイクロフォンアレイは、これらのマイクロフォン２−１〜２−Ｍにより形成されるものとなる。また、このマイクロフォンユニット２０−１〜２０−Ｍは、それぞれが備えるマイクロフォン２−１〜２−Ｍにより収音したとされるエコー音成分を除去するためのエコーキャンセラを内蔵する。このエコーキャンセラが動作することで、マイクロフォンユニット３０−１〜３０−Ｍから出力される収音音声信号としては、エコー音成分が抑制、除去されたものとなっている。
そして、これらマイクロフォンユニット３０−１〜３０−Ｍの収音音声信号の出力は、本体装置に相当する音声通信端末装置１を上流側として、下流側から上流側にかけて、マイクロフォンユニット３０−１、３０−２、３０−３・・・３０−Ｍの順で縦列接続されており、最上流のマイクロフォンユニット３０−Ｍから音声通信端末装置１に入力される音声信号が、マイクロフォンユニット３０−１〜３０−Ｍのそれぞれから出力された収音音声信号を合成したものとなる。また、上記したように、マイクロフォンユニット３０−１〜３０−Ｍのそれぞれにおいては、収音音声信号からエコー音成分をキャンセルしていることから、マイクロフォンユニット３０−Ｍから音声通信端末装置１に入力される合成音声信号としても、エコー音成分がキャンセルされたものとなっている。

この場合の音声通信端末装置１は、このようして入力されてくる合成音声信号について例えば音声圧縮符号化を施したうえで、通信回線を経由して通信相手側の音声通信端末装置１に対して送信する。通信相手側の音声通信端末装置１では、このようにして送信されてきた合成音声信号を受信して、例えば第１の実施の形態の場合と同様にして、音声圧縮符号化に対するデコード処理を行ってＬチャンネル音声信号とＲチャンネル音声信号とに振り分けて、スピーカ３Ｌ、３Ｒから音として出力させる。

図８は、第２の実施の形態に対応した１つの会議場におけるモデル例を示している。
ここでは、マイクロフォンアレイを形成するマイクロフォン２−ｉとしては、３本のマイクロフォン２−１、２−２、２−３を配置したものとする。また、音源に相当する話者１００から音声（音波）ｓ(t)が発せられているものとする。また、これら３本のマイクロフォン２−１、２−２、２−３は、マイクロフォン２−１が最下流でマイクロフォン２−３が最上流となる。つまり、マイクロフォン２−１による収音音声信号m_i(m₁)が、直ぐ上流のマイクロフォン２−２に対して伝送され、マイクロフォン２−２からは、マイクロフォン２−１の収音音声信号m_i(m₁)と、自身の収音音声信号m_j(m₂)を合成して得られる音声信号をマイクロフォン２−３に伝送する。マイクロフォン２−３は、マイクロフォン２−２から伝送される音声信号(m_i+m_j)と、自身の収音音声信号を合成して得られる音声信号を出力する、このマイクロフォン２−３から出力される段階の音声信号が、マイクロフォン２−１〜２−３の全ての収音音声信号m_i(m₁)、m_j(m₂)、m_k(m₃)を合成して得られる出力音声信号（合成音声信号）y(t)となる。

また、図４と同様にして、音声s(t)がマイクロフォン２−１、２−２、２−３に到達するまでの各経路の伝達関数は、x_i、x_j、x_kとする。スピーカ３Ｌから発せられた音声u(t)がマイクロフォン２−１、２−２、２−３に到達するまでの各経路の伝達関数は、r_i、r_j、r_kとする。スピーカ３Ｒから発せられた音声u(t)がマイクロフォン２−１、２−２、２−３に到達するまでの各経路の伝達関数は、q_i、q_j、q_kとする。

図９は、第２の実施の形態に対応した音声信号処理系のモデル構成例を示している。なお、この図では、上記図８に対応して３本のマイクロフォン２−１〜２−３が備えられる場合の構成を示している。また、この図においても、説明を分かりやすいものとすることの都合上、各マイクロフォンユニットにおいて備えるものとされるエコーキャンセラの構成などは省略している。
図７にて説明したように、第２の実施の形態においては、マイクロフォン２−１、２−２、２−３は、それぞれマイクロフォンユニット３０−１、３０−２、３０−３に内蔵される。
最下流のマイクロフォンユニット３０−１のマイクロフォン２−１により得られた収音音声信号m_i（m₁）は、遅延時間DL₁(DL_i：i==1)を有する第１遅延器１０−１を介して、合成器１１−１に入力される。この場合の合成器１１−１は、遅延器１０−１から入力された収音音声信号を、合成器１１−１の出力信号y₁として、直ぐ上流のマイクロフォンユニット３０−２の合成器１１−２に対して伝送出力する。

また、マイクロフォンユニット３０−２においては、内蔵のマイクロフォン２−２により収音して得られた収音音声信号m_j(m₂)を、遅延時間DL₂を有する第２遅延器１０−２、及び1×z分の固定による遅延時間を有する遅延器１２−２を介して合成器１１−２に入力させる。なお、上記遅延器１２−２、及び次に述べる遅延器１２−３において設定される遅延時間のパラメータであるｚについては後述する。
合成器１１−２は、遅延器１２−２から入力されてくる収音音声信号m_jと音声信号y₁とを合成して得られる音声信号y₂を、マイクロフォンユニット３０−３内の合成器１１−３に対して伝送出力する。
マイクロフォンユニット３０−３においては、内蔵のマイクロフォン２−３により収音して得られた収音音声信号m_k(m₃)を、遅延時間DL₃を有する第３遅延器１０−３、及び2×Z分の固定による遅延時間を有する遅延器１２−３を介して合成器１１−３に入力させる。
合成器１１−３は、遅延器１２−３から入力されてくる収音音声信号m_kと音声信号y₂とを合成する。この場合には、この合成器１１−３から出力される音声信号y₃が、マイクロフォンアレイを形成する各マイクロフォンの収音音声信号を合成した合成音声信号yとなり、音声通信端末装置１に対して入力されることになる。

また、このようにしてマイクロフォンユニットを縦列接続する構成では、１つのマイクロフォンユニットから次のマイクロフォンユニットに対して音声信号を伝送するのにあたり、或る一定の伝送遅延時間ｚを有する。この伝送遅延時間ｚは、例えばマイクロフォンユニットのハードウェア構成、ソフトウェア構成などにより固定的に決まるもので、かつ、縦列接続において隣り合うマイクロフォンユニット間で同じになるものとして扱う。
この伝送遅延時間zは、図９との対応では、１つのマイクロフォンユニット３０における合成器１１から、その直ぐ上流のマイクロフォンユニット３０における合成器１１に対して音声信号を伝送するときの伝送時間としてみることができる。遅延器１２−２、１２−３においては、それぞれ伝送遅延時間ｚをパラメータとして遅延時間が設定されている。

また、ここでは、相互相関検出部２１、到達時間差検出部２２、及び遅延時間設定部２３は、上記マイクロフォンユニット３０−１〜３０−３に対する本体装置となる音声通信端末装置１内に備えられるものとしている。
この場合の相互相関検出部２１は、マイクロフォン２−１、２−２、２−３により得られ、遅延器１０−１、１０−２、１０−３に入力される前の段階の収音音声信号m_i(m₁)、m_j(m₂)、m_k(m₃)を入力するとともに、合成器１１−２に入力される段階の信号y₁、及び合成器１１−３に入力される段階の信号y₂を入力する。相互相関検出部２１は、これらの信号を利用して後述するようにして相互相関検出を行って、その検出情報を到達時間差検出部２２に出力する。到達時間差検出部２３は、相互相関の情報を利用して、後述するようにしてマイクロフォン２−１、２−２間、及びマイクロフォン２−２、２−３の間での到達時間差D_i(D₁,D₂)を求め、遅延時間設定部２３に通知する。遅延時間設定部２３は、これらの到達時間差D_i(D₁,D₂)に基づいて遅延時間DL₁,DL₂,DL₃を決定し、これらの決定された遅延時間DL₁,DL₂,DL₃を、それぞれ、第１、第２、第３遅延器１０−１、１０−２、１０−３に対して設定する。

そして、第２の実施の形態において話者１００の音声s(t)を対象に収音するビームフォーミングのための処理としては、次のようになる。
先ず、マイクロフォン２−１、２−２、２−３により収音して得られる、時刻ｔにおける収音音声信号m_i(t)（m₁(t)、m₂(t)、m₃(t)）のそれぞれは、先の(数３)(数４)により求めることができる。この点では、第１の実施の形態と同様である。
次に、出力信号y(t)に関してであるが、第２の実施の形態においては、各マイクロフォン（マイクロフォンユニット）に対応して得られる収音音声信号が縦列接続の関係により順次加算されていくようにされる。そこで、マイクロフォンユニット３０−１、３０−２、３０−３（合成器１１−１、１１−２、１１−３）ごとにおいて得られる出力信号y_i(t)を下記のようにして求めることとする。

上記(数８)において、-z・(i-1)(・は乗算を表す)の項は、遅延器１２−２、１２−３の遅延時間に対応する。また、y_i-1(t-z)におけるzの項は、出力信号y_i-1が次の上流のマイクロフォンユニット(合成器)に対して伝送されるときの伝送遅延時間を表している。

また、上記（数８）により出力信号y_iを求めることとしたのに応じて、相互相関検出部２１が求めるべき相互相関に関しては、時刻ｔにおいて、１つのマイクロフォンユニットにおいて得られる収音音声信号ｍ_i(t)と、このマイクロフォンユニットに伝送された１つ下流の段のマイクロフォンユニットからの出力信号y_i-1（t-z）を利用して、下記の式による演算を行うものとする。

これは、第２の実施の形態では、縦列接続されるマイクロフォンユニットにおいて、隣り合うマイクロフォンユニット同士で、下流側のマイクロフォンユニット３０−(i-1)からの出力信号y_i-1(t)と、上流のマイクロフォンユニット３０−iのマイクロフォン２０−iにより得られた収音音声信号ｍ_i(t)との相互相関を検出しようとするものであることを意味する。図９との対応であれば、時刻ｔにおいて得られる、マイクロフォンユニット３０−１からの出力信号y₁と、マイクロフォンユニット３０−２における収音音声信号m_j（m₂）との相互相関ｇ_i(i-1)(t)（ｉ==2）、及びマイクロフォンユニット３０−２からの出力信号y₂と、マイクロフォンユニット３０−３における収音音声信号m_k（m₃）との相互相関ｇ_i(i-1)(t)（ｉ==3）とを求めることになる。このようにして相互相関ｇ_i(i-1)(t)を求めることにより、結果的に、第１の実施の形態と同様に、全ての収音音声信号の間での相互相関が求められたのと等価となる。
次に、到達時間差検出部２２は、上記のようにして得られる相互相関ｇ_i(i-1)(t)に基づき、下記の式による演算を行うことで到達時間差D_iを得る。

これにより、到達時間差検出部２２によっては、縦列接続の関係において隣り合うマイクロフォンユニットのマイクロフォン間の到達時間差が求められることになる。図８、図９との対応であれば、マイクロフォン２−１、２−２間の到達時間差D₁(i==1)と、マイクロフォン２−２、２−３間の到達時間差D₂(i==1)とを求めることになる。

次に、遅延時間設定部２３は、上記のようにして求められる到達時間差D_iを利用して、収音音声信号m_i、m_j、m_kについて、上記の到達時間差に対応する、音声s(t)について相互相関が得られるタイミングの時間差が無くなるようにして、遅延時間DL_i（DL₁、DL₂、DL₃）を決定し、これらの遅延時間DL₁、DL₂、DL₃を、それぞれ、第１、第２、第３遅延器１０−１、１０−２、１０−３に設定する。

ここで、上記の到達時間差D_iは、縦列接続の関係において隣り合うマイクロフォン間における正味の到達時間差を表すものとなる。従って、この到達時間差D_iに基づいて求められる遅延時間DL_iとしても、上記正味の到達時間差に対応したものとなる。つまり、この遅延時間DL_iとしては、マイクロフォンユニット間での伝送遅延時間zを考慮してはいない。
このために、例えば先ず、図９から遅延器１２−１を省略して、マイクロフォンユニット３０−１からの出力信号y₁（遅延時間DL₁を与えた収音音声信号m_i）と、マイクロフォンユニット３０−２にて遅延時間DL₂のみを与えた収音音声信号m_jとを合成器１１−２により合成したとすれば、この合成器１１−２にて合成される段階の出力信号y₁と収音音声信号m_jとの間での音声s(t)の成分についてのタイミングは、出力信号y₁のほうが伝送遅延時間ｚ分だけ遅延することになる。そこで、マイクロフォンユニット３０−２においては、遅延時間ｚ（＝ｚ×１）を有する遅延器１２−２を挿入することとしている。これにより、合成器１１−２にて合成される段階の出力信号y₁と収音音声信号m_jとの間での音声s(t)の成分についてのタイミングが一致する。
また、マイクロフォンユニット３０−３の合成器１１−３に入力される段階の出力信号y₂は、第１遅延器１０−１の遅延時間DL₁、合成器１１−１から合成器１１−２の伝送遅延時間ｚ、及び合成器１１−２から合成器１１−３の伝送遅延時間ｚを経由した収音音声信号m_iと、第２遅延器１０−２の遅延時間DL₂及び遅延器１２−２の遅延時間zを経由した収音音声信号m_jとを合成したものとなる。従って、マイクロフォンユニット３０−３において第３遅延器１０−３から出力される段階の遅延時間DL₃が与えられた収音音声信号m_kと、マイクロフォンユニット３０−３の合成器１１−３に入力される段階の出力信号y₂とを比較すると、音声s(t)の成分についてのタイミング(時刻)は、出力信号y₂のほうが、z×2で表される時間分遅れることになる。そこで、マイクロフォンユニット３０−３においては、遅延時間ｚ×２を設定した遅延器１２−３を挿入して、合成器１１−３に入力される段階の収音音声信号m_kと出力信号y₂との間で相互相関が得られるタイミングを一致させているものである。つまり、第2の実施の形態のようにしてマイクロフォンユニットを縦列接続させた構成では、マイクロフォンユニット間の伝送遅延時間ｚが存在することに応じて、下流から上流のマイクロフォンユニット３０−１〜３０−M（1≦i≦M）に対して、順次、遅延時間ｚ×(i-1)を与えることとしている。
このようにして、第２の実施の形態によっては、マイクロフォンユニットを縦列接続させた構成の下でも、第１の実施の形態と同様に、各マイクロフォンの収音音声信号に対して適切な遅延時間をダイナミックに設定して、マイクロフォンアレイによるビームフォーミングを実現することが可能とされている。

続いては、第３の実施の形態について説明する。なお、この第３の実施の形態の説明にあたっては、例えば第１の実施の形態として図５に示したように、収音音声信号を並列に合成器１１に対して入力させて合成する構成を前提とする。なお、ここで第１の実施の形態と同様の収音音声信号の合成の態様を取ることとするのは、説明を簡単で分かりやすくするための便宜であり、第３の実施の形態は、第２の実施の形態のようにマイクロフォンユニットを縦列接続させる構成にも適用できる。

図１０に示されるモデルにおいては、３本のマイクロフォン２−１、２−２、２−３が配置され、Ｌチャンネルのスピーカ３Ｌ及びＲチャンネルのスピーカ３Ｒが配置される。スピーカ３Ｌから発せられた音声u(t)がマイクロフォン２−１、２−２、２−３に到達するまでの各経路の伝達関数は、r_i、r_j、r_kであり、スピーカ３Ｒから発せられた音声u(t)がマイクロフォン２−１、２−２、２−３に到達するまでの各経路の伝達関数は、q_i、q_j、q_kである。これらの点では、例えば先の図４と同様である。但し、この場合においては、音源として二人の話者１００Ａ、１００Ｂが存在するものとしている。
話者１００Ａが発する音声sA(t)がマイクロフォン２−１、２−２、２−３に到達するまでの各経路の伝達関数は、xA_i、xA_j、xA_kとし、話者１００Ｂが発する音声sB(t)がマイクロフォン２−１、２−２、２−３に到達するまでの各経路の伝達関数は、xB_i、xB_j、xB_kとする。

このような環境において、例えば話者１００Ａ、１００Ｂのいずれか一方のみが発話している状態、つまり、音声sAが発せられているときには、音声ｓBは発せられず、逆に音声sBが発せられているときには、音声ｓAは発せられない、という状況であれば、これは第１の実施の形態で想定したモデルと同じであることになる。従って、音声sAが発せられているときには、音声ｓAの音源位置に応じて、収音音声信号に対して適切な遅延時間が設定され、音声ｓAを高Ｓ／Ｎ比で収音することができる。同様に、音声sBが発せられているときには、音声ｓBの音源位置に応じて、収音音声信号に対して適切な遅延時間が設定され、音声ｓBを高Ｓ／Ｎ比で収音することができる。

しかし、実際においては、音声ｓAと音声ｓBとが同時に発せられる可能性がある。このようにして、複数の音源から同時に音声が発せられると、遅延時間DL_iを求めるまでの処理過程において、現実には存在しない音源(ここではゴースト音源という)についての相互相関、到達時間差D_iが求められてしまうことがある。つまり、ゴースト音源を誤検出して、これに適合した遅延時間DL_iを設定するという誤動作を生じる場合がある。
図１０においては、その具体例として、音声ｓAと音声ｓBとが同時に発せられことにより、伝達関数xA_iと伝達関数ｘB_iとの交点において、音声Scを発するゴースト音源１０１が生じることとなった場合を示している。そして、このゴースト音源１０１の音声ｓCについての相互相関を誤検出して、これに対応した遅延時間を設定するという誤動作が生じると、現実の音声ｓA若しくは音声ｓBに対応しては適切な遅延時間が設定されず、音声ｓA若しくは音声ｓBに対応する収音音声信号を高Ｓ／Ｎ比で得ることができなくなる。このようにして、ゴースト音源が生じると、本来の実在する音源から発せられている音声に対応して適切にビームフォーミングを行えなくなる可能性がある。
そこで、第３の実施の形態としては、これまでに説明してきた遅延時間DL_iの設定処理を基として、以下に説明する構成を採ることで、ゴースト音源の誤検出に起因する上記の問題を回避する。

図１１は、第３の実施の形態に対応する遅延時間DL_i設定(ビームフォーミング)のための手順を示すフローチャートである。なお、この場合においても、図６と同様に、マイクロフォン２−１〜２−Mに対応する収音音声信号についてはそれぞれm₁、m₂・・・m_Mとして表すものとする。図１０に示した収音音声信号m_i、m_j、m_kであれば、それぞれm₁,m₂,m₃となる。

図１１において、ステップＳ２０１〜ステップＳ２０６までの手順は、先の図６のフローチャートにおけるステップＳ１０１〜Ｓ１０６までの手順と同様となる。つまり、ステップＳ２０１〜Ｓ２０６によっては、収音音声信号間の相互相関を検出し、この検出結果に基づいて、例えばマイクロフォン２−１を基準として、このマイクロフォン２−１と、他のマイクロフォン２−２〜２−Mごとの到達時間差D_i(D₁〜D_n)を算出して求める。

続くステップＳ２０７〜Ｓ２１３は、上記ステップＳ２０６により求められる到達時間差D_iの出現回数についての分布を示すヒストグラムを作成するための処理となる。このヒストグラム作成の処理は、例えば図５のシステム構成との対応では、例えば到達時間差検出部２２が行うものとすればよい。
ステップＳ２０７においては、これまでに求められた相互相関の検出結果から、相関点が複数であるか否かについて判別する。つまり、Ｍ個の収音音声信号の間で一定以上の相関強度が有るものとして検出された相互相関を持つ音声成分が複数(２以上)存在するか否かについての判別を行う。

ステップＳ２０７において相関点が１つであるとして否定の判別結果が得られた場合には、ステップＳ２０８に進む。
ステップＳ２０８においては、ステップＳ２０６にて求めた到達時間差D_i(D₁〜D_n)が反映されるようにしてヒストグラムの内容を更新する。

このヒストグラムの一例として、図１０のモデルに対応させて図式化したものを、図１２に示す。
このヒストグラムは、ステップＳ２０６により検出した到達時間差D_i(D₁〜D_n)（図１０との対応ではD₁、D₂となる）のうち、到達時間差D₁（図１０との対応ではマイクロフォン２−１、２−２間の到達時間差である）について、その出現回数により分布させたものである。ちなみに、ステップＳ２０７〜Ｓ２１３によっては、このようなヒストグラムを、上記到達時間差D₁だけではなく、残る到達時間差D₂〜D_nごとについても作成する。
この図１２では、３つのローカルな分布範囲(ローカル分布範囲)のまとまりが存在する。図１０との対応では、Ａで示されるローカル分布範囲（ローカル分布範囲Ａ）が、話者１００Ａから発せられる音声sAについての到達時間差D₁に対応し、ローカル分布範囲Ｂが、話者１００Bから発せられる音声sBについての到達時間差D₁に対応し、ローカル分布範囲Ｃが、ゴースト音源の音声ｓCについての到達時間差D₁に対応する。

ステップＳ２０８により、図１２のヒストグラムの更新処理を行う場合には、ステップＳ２０６により検出した到達時間差D₁の値に対応する出現回数をインクリメントするのであるが、このステップＳ２０８に至る直前のステップＳ２０７に対応して１つであると判別された相関点が、実際には、話者１００Ａの音声sAについてのものであったとする。この場合において、ステップＳ２０８により、上記のようにして図１２のヒストグラムを更新した場合には、高い率で、出現回数をインクリメントした到達時間差の値は、ローカル分布範囲Ａ内に存在している。なお、先にも述べたように、ステップＳ２０８では、このようなヒストグラムの更新を、残る到達時間差D₂〜D_nについても同様にして行う。
このようにして、相関点が１つのみとされる場合には、ステップＳ２０８により、その相関点（相互相関）に対応した到達時間差D_iをヒストグラムに登録していく。これは、収音対象の音源のうち、音声を発している音源が１つのみの場合には、その音声についての相互相関、到達時間差が検出されるごとに、ヒストグラムにおいて、その音源について検出した到達時間差の出現回数をインクリメントしていく、という処理を実行していることを意味する。

テレビ会議においては、同じ会議場に複数の会議参加者（話者）が居るとしても、いずれか一人の話者が発話するケースがほとんどであり、これに比較すると二人以上の話者が同時に発話するケースは非常に少ない、という状況が通常である。
このために、実際においては、相関検出と到達時間差の検出が行われた際には、ほとんどの場合において、ステップＳ２０７にて否定の判別結果が得られてステップＳ２０８を実行することになる。従って、会議が進行していくのに応じては、話者の発言（発話）頻度に応じて、その話者に応じた遅延時間差のローカル分布範囲がより顕著に表れるようにして形成されていくことになる。

また、ステップＳ２０７において、相関点が複数存在するとして肯定の判別結果が得られた場合にはステップＳ２０９〜Ｓ２１３によるヒストグラムの作成処理を実行する。
このヒストグラムの作成処理にあっては、先ず、ステップＳ２０９において、以降におけるヒストグラム作成のための処理順を示す変数ｍについて１を代入する。

次のステップＳ２１０では、ｍ番目の相関点に対応する到達時間差について、現在のヒストグラム上での出現率（ヒストグラムにおける出現回数の総計に対する、ｍ番目の相関点に対応する到達時間差の出現回数の割合）が一定以上であるか否かについての判別を行う。この判別は、例えばｍ番目の相関点に対応してステップＳ２０６にて得られた到達時間差D₁〜D_nごとについて行う。

ステップＳ２１０において否定の判別結果が得られた場合には、ステップＳ２１１をスキップしてステップＳ２１２に進む。これに対してステップＳ２１０において肯定の判別結果が得られた場合にはステップＳ２１１に進む。

ステップＳ２１１においては、ｍ番目の相関点に対応する到達時間差の出現回数をインクリメントするようにしてヒストグラムの更新を行う。この更新処理も、ｍ番目の相関点に対応してステップＳ２０６にて得られた到達時間差D₁〜D_nのそれぞれに対応するヒストグラムごとに行う。ステップＳ２１１の手順を実行するとステップＳ２１２に進む。

ステップＳ２１２では、変数ｍが最大値に至っているか否かについて判別する。変数ｍの最大値は、検出された複数の相関点の数に対応する。ここで否定の判別結果が得られたのであれば、ステップＳ２１３により変数ｍについてインクリメントしてステップＳ２１０の処理に戻る。

このようにして、相関点（相互相関を有する音声成分）が複数存在する場合には、これらの相関点に対応して求められた到達時間差のうち、ヒストグラム上での出現率が一定以上となっているものについてのみ、ヒストグラムへの登録（インクリメント）を行うようにする。
相関点が複数検出される場合とは、二人以上の話者が同時に発話した音声がマイクロフォンにて収音されている場合となるが、このときには先に述べたようにゴースト音源の音声も相関点の１つとして検出される場合がある。
これまでに説明したステップＳ２０７〜ステップＳ２１３までのヒストグラム作成の手順によると、ヒストグラムの初期状態から或る段階までは、ゴースト音源を相関点として検出したことに応じて求められる到達時間差もヒストグラムに登録される。しかし、先にも述べたように、テレビ会議においては、或る一人の話者のみが発話している状況がほとんどであり、ゴースト音源が生じるのは、複数の話者が同時に発話したときのみである。従って、会議が進行するのに応じては、先にも述べたように、話者の発言頻度に応じて、その話者に対応する到達時間差のローカル分布範囲において占める出現回数の割合（出現率）が高くなっていく。

例えば図１２は、図１０のモデルのもとで会議が或る程度進行したときのヒストグラムの状態を示している。
図１０のモデルにおいて、話者１００Ａ、１００Ｂが同時に発話したことで音声sA及び音声sBが収音された場合には、ゴースト音源１０１の音声sCの相互相関も検出される可能性が出てくる。このときには、ヒストグラム作成の初期時においては、ローカル分布範囲Ａ，Ｂが占める総出現回数に対する割合も少ないので、ステップＳ２１０にて肯定の判別結果が得られて、ステップＳ２１１によりゴースト音源１０１の音声sCに対応する出現回数のインクリメントが行われ、これにより、或る程度の出現回数を有するローカル分布範囲Ｃを形成することにはなる。
しかし、単位時間あたりにおいては、話者１００Ａ、１００Ｂが同時に発話する状況に対して、そのいずれか一方のみの話者が発話する状況がほとんどであるために、会議が進行するのに応じては、ステップＳ２０８によって、ローカル分布範囲Ａ、若しくはローカル分布範囲Ｂに該当する或る到達遅延時間の出現回数がインクリメントされていく頻度が高くなり、これにともなって、ローカル分布範囲Ａ、若しくはローカル分布範囲Ｂに含まれる出現回数の総出現回数に対する割合も高まっていくことになる。つまり、相対的に、ゴースト音源１０１の音声sCに対応するローカル分布範囲Ｃに含まれる到達時間差ごとの出現回数が総出現回数に占める割合（出現率）は少なくなっていく。そして、あるときから、このローカル分布範囲Ｃに含まれる到達時間差ごとの出現回数についての出現率が一定以下となると、ゴースト音源１０１の音声sCに対応して求められた到達時間差については、ステップＳ２１０にて否定の判別結果が得られることになって、これ以上、ヒストグラム上でインクリメントされることがなくなる。このようにして、ステップＳ２１０〜Ｓ２１３によっては、ゴースト音源に対応する到達時間差のローカル分布範囲は、一定以上に顕著にならないようにされている。

ステップＳ２１２にて肯定の判別結果が得られた後、あるいは先のステップＳ２０８の手順を実行した後は、ステップＳ２１４に進む。
ステップＳ２１４においては、現在において得られているヒストグラム上でクラスタを設定する。ここでいうクラスタ（音源対応タイミング時間差）とは、ヒストグラムにおいて得られているローカル分布範囲のうちで、一定以上の顕著性を有するとされるものを指す。
このクラスタの設定にあたっては、先ず、例えば所定のアルゴリズムに従って、ヒストグラム上においてローカル分布範囲を形成しているものとしてみることのできる到達時間差の範囲を特定する。そして、このようにして特定したローカル分布範囲のうちから、さらに、所定のアルゴリズムに従って、クラスタとして扱うべきローカル分布範囲を選別する。なお、クラスタの候補となるローカル分布範囲の特定のためのアルゴリズム、及びクラスタ候補のローカル分布範囲からクラスタを選別するためのアルゴリズムについては、例えば、出現回数についてのローカルピーク自体の値と、ローカルピークからの分散傾向などを基にした出現確率の正規分布を仮定したものを考えることができる。
そして、例えば上記したアルゴリズムを適切に設定することで、例えば図１２に示すヒストグラム上では、ローカル分布範囲Ａ、Ｂについてクラスタであるとして設定され、ローカル分布範囲Ｃについてはクラスタであるとして設定されない結果を得ることができる。この図からも分かるように、上記のクラスタの設定の処理は、ゴースト音源を排除した、実体のある音源の音声に対応するローカル分布範囲（音源対応タイミング時間差）を特定しようとする(推定する)処理となる。

次のステップＳ２１５においては、先のステップＳ２０６にて求めた到達時間差のうちで、現在設定されているクラスタとしてのローカル分布範囲内に含まれているものがあるか否かについて判別する。
ステップＳ２１５において、先のステップＳ２０６にて求めた到達時間差のうちで、現在設定されているクラスタとしてのローカル分布範囲内に含まれているものは１つもないとして、否定の判別結果が得られた場合には、ステップＳ２１６、Ｓ２１７による遅延器の遅延時間設定のための手順をスキップして、ステップＳ２０１の手順に戻る。
これに対して、先のステップＳ２０６にて求めた到達時間差のうちで、現在設定されているクラスタとしてのローカル分布範囲内に含まれているものがあるとして、ステップＳ２１５により肯定の判別結果が得られた場合には、ステップＳ２１６に進む。

ステップＳ２１６は、上記ステップＳ２１５に対応してクラスタに含まれているものとして判定された到達時間差の情報に基づいて、遅延時間設定部２３が、第１遅延器１０−１〜第ｍ遅延器１０−Ｍのための遅延時間DL₁〜DL_Mを求める。この遅延時間DL₁〜DL_Mの算出の仕方は、例えば第１の実施の形態に対応する図６のステップＳ１０７と同様でよい。なお、相関点が複数検出されている場合には、例えば相互相関が最も強いものに対応して得られる到達時間差の情報に基づいて、遅延時間DL₁〜DL_Mを求めることとすればよい。
そして、次のステップＳ２１７により、先の図６のステップＳ１０８と同様にして、遅延時間設定部２３は、第１遅延器１０−１〜第ｍ遅延器１０−Ｍに対し、上記ステップＳ２１６により求められた遅延時間DL₁〜DL_Mを設定する。

なお、これまでに説明した第１〜第３の実施の形態としてのビームフォーミングの処理については、例えば、エコーキャンセラの構成も含めて、ＤＳＰ(Digital Signal Processor)により、デジタル信号処理として実現できる。また、コンピュータシステム（ＣＰＵ）にプログラムを実行させることによっても実現できる。このためにＤＳＰやコンピュータシステムなどに与えるべきプログラムは、例えばリムーバブルの記憶媒体に記憶させておいたうえで、この記憶媒体からインストール(アップデートも含む)させるようにして、ＤＳＰやコンピュータシステムなどに記憶させることが考えられる。また、所定のデータインターフェイスを経由させるなどして、他のホストとなる機器からの制御によってプログラムのインストールを行えるようにすることも考えられる。さらに、ネットワーク上のサーバなどにおける記憶装置に記憶させておいたうえで、本実施の形態に対応の音声信号処理機能を有する装置にネットワーク機能を持たせることとし、サーバからダウンロードして取得してインストールできるように構成することも考えられる。

また、これまでの説明においては、本願発明に基づく音響システム、即ち、マイクロフォンの位置が不定となる環境においてもマイクロフォンアレイによるビームフォーミングを実現するための構成を、テレビ会議システムの音声送受信系（音響システム）に適用しているが、テレビ会議システム以外において、特定音源からの音を高Ｓ／Ｎ比で収音することが必要な各種の音響システム、マイクロフォンシステムに適用できる。

第１の実施の形態に対応する、テレビ会議システムにおける音声送受信系の構成例を示す図である。本実施の形態のテレビ会議システムにおける音声送受信系が備えるとされる適応処理システムの構成例を示す図である。マイクロフォンアレイによるビームフォーミングの原理を説明するためのモデル例を示す図である。第１の実施の形態に対応する音響モデル例を示す図である。第１の実施の形態に対応するビームフォーミングのための構成を模式的に示す図である。第１の実施の形態に対応するビームフォーミング（遅延器に対する遅延時間設定）のための手順を示すフローチャートである。第２の実施の形態に対応する、テレビ会議システムにおける音声送受信系の構成例を示す図である。第２の実施の形態に対応する音響モデル例を示す図である。第２の実施の形態に対応するビームフォーミングのための構成を模式的に示す図である。第３の実施の形態に対応する音響モデル例を示す図である。第３の実施の形態に対応するビームフォーミングのための手順例を示すフローチャートである。第３の実施の形態の下で作成されるヒストグラムの例を示す図である。

符号の説明

１音声通信端末装置、２（２−１〜２−Ｍ）マイクロフォン、３（３Ｌ、３Ｒ）スピーカ、４適応処理システム、４ａ適応フィルタ、４ｂ減算器、１０−１〜１０−Ｍ第１〜第Ｍ遅延器、１１（１１−１〜１１−３）、１２（１２−１、１２−２）遅延器、２１相互相関検出部、２２到達時間差検出部、２３遅延時間設定部、３０−１〜３０−Ｍマイクロフォンユニット

Claims

複数の収音部により収音して得られる収音音声信号ごとに対応して設けられ、入力される収音音声信号を設定された遅延時間だけ遅延させて出力する、複数の遅延手段と、
上記各遅延手段から出力される収音音声信号の出力を合成したものとしての合成音声信号を生成する音声信号合成手段と、
上記複数の収音部ごとに対応する収音音声信号の間の相互相関を検出する相関検出手段と、
上記相関検出手段により検出された上記収音音声信号の間での相互相関が得られているタイミングの時間差であるタイミング時間差を検出する相関タイミング検出手段と、
上記相関タイミング検出手段が検出した上記タイミング時間差に基づいて、上記合成音声信号の成分を形成する上記収音音声信号の間での上記相互相関が得られているタイミングが一致するようにして、上記複数の遅延手段のそれぞれについて設定すべき遅延時間の決定を行う、遅延時間決定手段と、
を備えることを特徴とする音声信号処理装置。
上記相関タイミング検出手段により検出される上記タイミング時間差の出現回数に基づいて、上記収音部により収音される特定音源の音声ごとに対応して得られるタイミング時間差である音源対応タイミング時間差を推定する、推定手段と、
上記相関タイミング検出手段により検出したタイミング時間差が、上記推定手段により推定された、音源対応タイミング時間差と一致するか否かを判別する判別手段とをさらに備え、
上記遅延時間決定手段は、上記判定手段により音源対応タイミング時間差と一致するとものとして判別された、相関タイミング検出手段により検出したタイミング時間差に基づいて、上記遅延時間の決定を行うようにされている、
ことを特徴とする請求項１に記載の音声信号処理装置。
複数の収音部ごとに対応して設けられ、対応する収音部と上記遅延手段とを有して成るユニット部を複数備え、
上記音声信号合成手段は、１つのユニット部から次のユニット部に音声信号を伝送させ、前の順序のユニット部から音声信号を伝送されたユニット部には、自身に対応する収音音声信号と、この伝送された音声信号とを合成した音声信号を伝送させることにより、最終的に全てのユニット部に対応する収音音声信号が合成された合成音声信号を得るようにされ、
上記遅延時間設定手段は、上記相関タイミング検出手段が検出した上記相互相関が得られているタイミング時間差と、上記ユニット部間の伝送遅延時間とに基づいて、上記複数の遅延手段のそれぞれについて設定すべき遅延時間の決定を行う、
ことを特徴とする請求項１に記載の音声信号処理装置。
複数の収音部により収音して得られる収音音声信号ごとに対応して実行するもので、入力される収音音声信号を設定された遅延時間だけ遅延して出力する遅延処理手順と、
上記遅延処理手順を経て出力される収音音声信号の出力を合成したものとしての合成音声信号を生成する音声信号合成手順と、
上記複数の収音部ごとに対応する収音音声信号の間の相互相関を検出する相関検出手順と、
上記相関検出手順により検出された上記収音音声信号の間での相互相関が得られているタイミングの時間差であるタイミング時間差を検出する相関タイミング検出手順と、
上記相関タイミング検出手順が検出した上記タイミング時間差に基づいて、上記合成音声信号の成分を形成する上記収音音声信号の間での上記相互相関が得られているタイミングが一致するようにして、収音音声信号ごとに対応して設定すべき上記遅延時間の決定を行う、遅延時間決定手順と、
を実行することを特徴とする音声信号処理方法。