JP2009025025A

JP2009025025A - 音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法

Info

Publication number: JP2009025025A
Application number: JP2007185650A
Authority: JP
Inventors: Takeshi Usagawa; 毅宇佐川; Sadafumi Kiyoki; 禎史苣木; Sho Kono; 翔河野
Original assignee: Kumamoto University NUC; Toa Corp
Current assignee: Kumamoto University NUC; Toa Corp
Priority date: 2007-07-17
Filing date: 2007-07-17
Publication date: 2009-02-05

Abstract

【課題】反射音等の残響の影響を受けることなく、希望の音源の方向を特定する。
【解決手段】左右のディジタル音響信号ｌ（ｎ）およびｒ（ｎ）が、音源方向推定部２６に入力される。音源方向推定部２６は、これらのディジタル音響信号ｌ（ｎ）およびｒ（ｎ）に対して両耳聴モデルに従う処理を施すことによって、音源の方向を推定する。併せて、各ディジタル音響信号ｌ（ｎ）およびｒ（ｎ）の入力パワーＰｄが、パワー検出部２４によって検出され、この入力パワーＰｄの立ち上がりが、立ち上がり検出部３４によって検出される。そして、入力パワーＰｄの立ち上がりが検出されると、音源方向特定手段３０が、その時点での音源方向推定部２６による推定方向［φｅ，ψｅ］を、真の音源方向［φｓ，ψｓ］として特定する。つまり、各マイクロホン１２および１４に最初に到達した音の方向が、音源方向［φｓ，ψｓ］として特定される。
【選択図】図１

Description

本発明は、音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法に関し、特に、１以上の音源から発せられる音を２つの音響検出手段によって検出すると共に、検出された２つの音響信号に両耳聴モデルに従う処理を施すことによって希望の音源が存在する方向を推定する、音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法に関する。

この種の技術として、従来、例えば特許文献１に開示されたものがある。この従来技術によれば、複数の音源から発せられる音響信号が、左右両受音部に入力される。そして、この左右両受音部に入力された左右両入力信号が、周波数帯域ごとに分割される。さらに、それぞれの周波数帯域ごとに、左右両入力信号のクロススペクトルの位相差から両耳間位相差（ＩＰＤ；Interaural Phase Difference）が求められると共に、当該左右両入力信号のパワースペクトルのレベル差から両耳間レベル差（ＩＬＤ；Interaural Level Difference）が求められる。そして、求められた両耳間位相差および両耳間レベル差の一方または両方が、それぞれの周波数帯域ごとに、データベース内のそれと比較されることによって、当該周波数帯域ごとに、音源が存在する方向の候補が推定され、さらに、これらの候補のうち、出現頻度の高い方向が、希望の音源が存在する方向として最終的に推定される。加えて、この推定された音源方向に対応する周波数帯域を主として抽出するためのフィルタ処理が左右両入力信号に施されることによって、当該左右両入力信号から希望の音源の成分が分離される。

特開２００４−３２５２８４号公報

ところで、上述の従来技術において、音源方向を推定するための一連の処理は、左右両入力信号を所定時間長ずつ区切ることによって形成されるいわゆるフレーム単位で行われる。従って、反射音等の残響のある環境においては、フレーム内に当該残響が含まれてしまうため、推定精度が劣化する、という問題がある。この問題は、両耳聴モデルを実用化する上で、大きな障壁となっている。

そこで、本発明は、両耳聴モデルの実用化を図るべく、残響に対して頑健な音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法を提供することを、目的とする。

この目的を達成するために、本発明のうちの第１発明は、１以上の音源から発せられる音を２つの音響検出手段によって検出し、検出された２つの音響信号に両耳聴モデルに従う処理を施すことによって希望の音源が存在する方向を推定する音源方向推定装置において、一方または両方の音響検出手段によって最初に音が検出された時点を捕捉する検出開始時捕捉手段と、この検出開始時捕捉手段によって捕捉された時点で両耳聴モデルに従う処理によって推定された方向を希望の音源が存在する方向として特定する音源方向特定手段と、を具備することを特徴とするものである。

即ち、本第１発明は、人間の聴覚特性の１つである「先行音効果」をモデル化したものであり、これを実現するべく、一方または両方の音響検出手段によって最初に音が検出された時点が、検出開始時捕捉手段により捕捉される。そして、この検出開始時補足手段によって捕捉された時点での推定方向が、希望の音源が存在する方向として、音源方向特定手段により特定される。つまり、音響検出手段によって最初に検出された音の方向が、希望の音源方向として特定される。

なお、本第１発明において、検出開始時捕捉手段は、一方または両方の音響信号のパワーの立ち上がり時を捕捉するものとしてもよい。

また、両耳聴モデルに従う処理は、それぞれの音響信号を所定時間長ずつ区切ることによって形成されるフレーム単位で行われるものとしてもよい。この場合、検出開始時補足手段は、当該フレームの時間長よりも短い周期、より詳しくは「先行音効果」が得られる時間差（１［ｍｓ］〜３０［ｍｓ］）の範囲内の周期、で捕捉を行うのが、望ましい。このようにすれば、時間経過に伴う音響検出手段による音の検出状況を細かく捉えることができ、当該音響検出手段によって最初に音が検出された時点を的確に捕捉することができる。

さらに、音源方向特定手段は、音響検出手段によって最初に音が検出された時点から所定期間にわたって得られる推定方向の代表値、例えば平均値を、希望の音源が存在する方向として特定してもよい。このようにすれば、例えば、音響検出手段によって最初に音が検出された時点での推定方向が、雑音等の何らかの影響によって不適切であったとしても、その影響を軽減することができ、より精確に音源方向を特定することができる。

本発明のうちの第２発明は、第１発明の音源方向推定装置を備えた音源分離装置に関する発明であり、それぞれの音響信号から、音源方向特定手段によって特定された音源方向に対応する周波数帯域を抽出することによって、希望の音源の音成分を分離する音源分離手段を、さらに備えるものである。

即ち、本第２発明によれば、希望の音源の音成分を分離して、例えば当該希望の音源の音のみを再現することができる。

本発明のうちの第３発明は、第１発明に対応する方法発明であり、即ち、一方または両方の音響検出手段によって最初に音が検出された時点を捕捉する検出開始時捕捉過程と、この検出開始時捕捉過程で捕捉された時点で両耳聴モデルに従う処理によって推定された方向を希望の音源が存在する方向として特定する音源方向特定過程と、を具備する。

なお、本第３発明においても、第１発明と同様に、検出開始時捕捉過程で、一方または両方の音響信号のパワーの立ち上がり時が捕捉されるものとしてもよい。

また、両耳聴モデルに従う処理は、フレーム単位で行われるものとしてもよい。この場合、検出開始時補足過程では、当該フレームの時間長よりも短い周期で捕捉が行われるのが、望ましい。

さらに、音源方向特定過程では、音響検出手段によって最初に音が検出された時点から所定期間にわたって得られる推定方向の代表値が、希望の音源の存在する方向として特定されてもよい。

本発明のうちの第４発明は、第２発明の音源方向推定方法を備えた音源分離装置に関する発明であり、それぞれの音響信号から、音源方向特定過程において特定された音源方向に対応する周波数帯域を抽出することによって、希望の音源の音成分を分離する音源分離過程を、さらに備えるものである。

即ち、本第４発明は、第３発明に対応する方法発明である。

上述したように、本発明によれば、音響検出手段によって最初に検出された音、つまり反射音等の残響を含まない音、の方向が、希望の音源方向として特定される。これにより、残響に対する頑健さを得ることができ、両耳聴モデルの実用化を図ることができる。

本発明が適用された聴取システム１０の一実施形態について、図１〜図６を参照して説明する。

本実施形態に係る聴取システム１０は、反射音等の残響の影響を受けることなく希望の音源が存在する方向を特定すると共に、この希望の音源から発せられる音のみを再生するものであり、図１に示すように、音響検出手段としての２つのマイクロホン１２および１４を有している。これらのマイクロホン１２および１４は、例えば人間の頭部を模擬した図示しないダミーヘッドの左右両耳部に取り付けられ、このうちの一方、例えば左側のマイクロホン１２から出力されるアナログ音響信号ｌ（ｔ）（ｔは、時間を表すインデックスである。）は、図示しない増幅部によって増幅された後、Ａ／Ｄ変換部１６に入力される。他方の右側マイクロホン１４から出力されるアナログ音響信号ｒ（ｔ）もまた、図示しない別の増幅部によって増幅された後、別のＡ／Ｄ変換部１８に入力される。

左側用のＡ／Ｄ変換部１６は、入力された左側アナログ音響信号ｌ（ｔ）を所定のサンプリング周波数でサンプリングすることによって、当該左側アナログ音響信号ｌ（ｔ）をディジタル音響信号ｌ（ｋ）（ｋは、サンプリング番号を表すインデックスである。）に変換する。これと同期して、右側用のＡ／Ｄ変換部１８もまた、入力された右側アナログ音響信号ｒ（t）をディジタル音響信号ｒ（ｋ）に変換する。なお、各Ａ／Ｄ変換部１６および１８によるサンプリング周波数は、数［ｋＨｚ］〜数十［ｋＨｚ］とされ、例えば１６［ｋＨｚ］とされる。また、各Ａ／Ｄ変換部１６および１８の量子化精度は、１２［ｂｉｔ］〜２０［ｂｉｔ］が適当であり、例えば１６［ｂｉｔ］とされる。

左側用Ａ／Ｄ変換部１６によって変換された左側ディジタル音響信号ｌ（ｋ）は、フレーム形成部２０に入力され、ここで、所定のフレーム長Ｔの信号ｌ（ｎ）（ｎは、フレーム番号を表すインデックスである。）に纏められる（図３参照）。これと同期して、右側用Ａ／Ｄ変換部１８によって変換された右側ディジタル音響信号ｒ（ｋ）もまた、別のフレーム形成部２２に入力され、ここで同じフレーム長Ｔの信号ｒ（ｎ）に纏められる。なお、フレーム長Ｔは、百数サンプリング数〜数百サンプリング数相当が適当であり、例えば５１２サンプリング数相当（３２［ｍｓ］）とされる。

このように左側用フレーム形成部２０によってフレーム単位に纏められた左側ディジタル音響信号ｌ（ｎ）と、右側用フレーム形成部２２によって同フレーム単位に纏められた右側ディジタル音響信号ｒ（ｎ）とは、パワー検出部２４および音源方向推定部２６のそれぞれに入力される。このうち、パワー検出部２４は、入力された左右のディジタル音響信号ｌ（ｎ）およびｒ（ｎ）のうちの一方または両方のパワーを検出する。そして、このパワー検出部２４による検出結果Ｐｄは、パワー閾値判定部２８に与えられる。

パワー閾値判定部２８は、パワー検出部２４によって検出された入力パワーＰｄと、予め設定された閾値と、を比較して、当該入力パワーＰｄが閾値以上であるかどうかを判定する。このパワー閾値判定部２８による判定結果Ｐｔは、音源方向推定部２６および後述する音源方向特定部３０に与えられる。

音源方向推定部２６は、パワー閾値判定部２８による判定結果Ｐｔが閾値以上の入力パワーＰｄが得られていることを表すとき、上述した従来技術と同じ要領で、希望の音源が存在する方向を推定し、詳しくは正面方向に対する当該音源方向の方位角（アジマス角）φｓおよび仰角（エレベーション角）ψｓを推定する。これを実現するべく、音源方向推定部２６は、図２に示すように構成されている。

即ち、音源方向推定部２６は、フレーム単位に纏められた左右のディジタル音響信号ｌ（ｎ）およびｒ（ｎ）がそれぞれ入力される２つの高速フーリエ変換（以下、ＦＦＴ（Fast Fourier Transform）と言う。）部１００および１０２を有している。このうち、左側用のＦＦＴ部１００は、入力された左側ディジタル音響信号ｌ（ｎ）を複数の周波数帯域別に分割して、それぞれの周波数帯域ごとの信号Ｌ（ω）を得る。右側用のＦＦＴ部１０２もまた、入力された右側ディジタル音響信号ｒ（ｎ）を同じ周波数帯域別に分割して、それぞれの周波数帯域ごとの信号Ｒ（ω）を得る。なお、各ＦＦＴ部１００および１０２による分割帯域幅は、特に限定されないが、例えば１０［Ｈｚ］〜１００［Ｈｚ］程度が適当である。

各ＦＦＴブロック１００および１０２によって分割された各周波数帯域の信号Ｌ（ω）およびＲ（ω）のうち、比較的に低周波数帯域の信号、例えば７５０［Ｈｚ］以下の周波数帯域の信号は、それぞれの周波数帯域ごとの両耳間位相差（ＩＰＤ）算出部１０４，１０４，…に入力される。そして、中間的な周波数帯域の信号、例えば７５０［Ｈｚ］〜１５００［Ｈｚ］の周波数帯域の信号は、それぞれの周波数帯域ごとの両耳間位相差／レベル差（ＩＰＤ／ＩＬＤ）算出部１０６，１０６，…に入力される。さらに、比較的に高周波数帯域の信号、例えば１５００［Ｈｚ］以上の周波数帯域の信号は、それぞれの周波数帯域ごとの両耳間レベル差（ＩＬＤ）算出部１０８，１０８，…に入力される。

それぞれの両耳間位相差（ＩＰＤ）算出部１０４は、入力された低周波数帯域の信号Ｌ（ω）およびＲ（ω）の位相差を求め、詳しくは当該各信号Ｌ（ω）およびＲ（ω）のクロススペクトルの位相差を求める。そして、それぞれの両耳間位相差／レベル差算出部１０６は、入力された中間周波数帯域の信号Ｌ（ω）およびＲ（ω）の位相差とレベル差との平均を求め、詳しくは当該各信号Ｌ（ω）およびＲ（ω）のクロススペクトルの位相差とパワースペクトルのレベル差との加重平均を求める。さらに、それぞれの両耳間レベル差（ＩＬＤ）算出部１０８は、入力された高周波数帯域の信号Ｌ（ω）およびＲ（ω）のレベル差を求め、詳しくは当該各信号Ｌ（ω）およびＲ（ω）のパワースペクトルのレベル差を求める。これら各両耳間位相差算出部１０４，１０４，…，各両耳間位相差／レベル差算出部１０６，１０６，…，および各両耳間レベル差算出部１０８，１０８，…による算出結果は、候補推定部１１０に与えられる。

候補推定部１１０は、各両耳間位相差算出部１０４，１０４，…，各両耳間位相差／レベル差算出部１０６，１０６，…，および各両耳間レベル差算出部１０８，１０８，…による算出結果を、データベース１１２に記憶されている両耳間位相差および両耳間レベル差のロケーションマップと対比することで、それぞれの周波数帯域ごとに音源が存在すると思われる方向を推定する。なお、この推定手順についての詳しい説明は省略するが、この手順によって推定された方向は、周波数帯域によってまちまちであり、言わば候補としての位置付けにある。そして、この候補推定部１１０による推定結果は、推定実行部１１４に与えられる。

推定実行部１１４は、候補推定部１１０によってそれぞれの周波数帯域ごとに推定された方向のうち、出現頻度が最も高い方向を、音源方向として推定する。詳しくは、推定の方位角φｅおよび仰角ψｅを求める。そして、この推定実行部１１４による推定結果［φｅ，ψｅ］は、図１に示すように、音源方向特定部３０に与えられる。

なお、上述したパワー閾値判定部２８による判定結果Ｐｔが、入力パワーＰｄが閾値に満たないことを表すとき、音源方向推定部２６、特に推定実行部１１４は、音源方向の推定を行わず、次のフレームのディジタル音響信号ｌ（ｎ）およびｒ（ｎ）が入力されるのを待つ。また、各ＦＦＴ部１００および１０２によって分割された各周波数帯域の信号Ｌ（ω）およびＲ（ω）は、後述する音源分離部３２にも入力される。

音源方向特定部３０には、立ち上がり検出部３４による検出結果Ｐｕも与えられる。この立ち上がり検出部３４は、パワー検出部２４によって検出された入力パワーＰｄの立ち上がりを検出するものであり、例えば当該入力パワーＰｄを１回微分した信号と２回微分した信号とのコヒーレンスによって当該立ち上がりを検出する。勿論、これ以外の方法、例えば入力パワーＰｄと周囲の環境音のパワーとのコヒーレンスを観測する等によって、当該入力パワーＰｄの立ち上がりを検出してもよい。この立ち上がり検出部３４によって入力パワーＰｄの立ち上がりが検出されたとき（厳密には当該立ち上がりが所定の基準値を超えたとき）、音源方向特定部３０は、その時点での音源方向推定部２６による推定方向［φｅ，ψｅ］を真の音源方向［φｓ，ψｓ］として特定する。

なお、入力パワーＰｄの立ち上がりが検出された時点から所定のＮフレーム目までは、上述の如く音源方向推定部２６による推定方向［φｅ，ψｅ］を真の音源方向［φｓ，ψｓ］として特定する。そして、Ｎフレーム目以降は、過去Ｎフレーム分の推定方向［φｅ，ψｅ］の平均値を真の音源方向［φｓ，ψｓ］として保持し、言わばロックする。また、パワー閾値判定部２８による判定結果Ｐｔから入力パワーＰｄが閾値に満たないことを認識したときは、音源方向特定部３０は、その時点で、当該音源方向［φｓ，ψｓ］のロックを解除する。

この音源方向特定部３０による特定結果［φｓ，ψｓ］は、音源分離部３２に与えられる。音源分離部３２は、この特定結果［φｓ，ψｓ］に対応する周波数帯域を抽出するための２つのフィルタ部３６および３８を有しており、これらのフィルタ部３６および３８には、それぞれ音源方向推定部２６（各ＦＦＴ部１００および１０２）から各周波数帯域の左右信号Ｌ（ω）およびＲ（ω）が入力される。これにより、各左右信号Ｌ（ω）およびＲ（ω）から音源音のみの成分Ｌｓ（ω）およびＲｓ（ω）が抽出され、抽出された信号Ｌｓ（ω）およびＲｓ（ω）は、音源音再生部４０に入力される。

音源音再生部４０は、２つの逆フーリエ変換（以下、ＩＦＦＴ（Inverse-FFT）と言う。）部４２および４４を有している。そして、これらのＩＦＦＴ部４２および４４に、それぞれ音源分離部３２（フィルタ部３６および３８）によって抽出された信号Ｌｓ（ω）およびＲｓ（ω）が入力される。各ＩＦＦＴ部４２および４４は、それぞれに入力された周波数領域の信号Ｌｓ（ω）およびＲｓ（ω）を時間領域のディジタル音響信号ｌｓ（ｋ）およびｒｓ（ｋ）に変換する。変換されたディジタル音響信号ｌｓ（ｋ）およびｒｓ（ｋ）は、それぞれ別個のＡ／Ｄ変換部４６および４８に入力される。

各Ａ／Ｄ変換部４６および４８は、それぞれに入力されたディジタル音響信号ｌｓ（ｋ）およびｒｓ（ｋ）を、アナログ音響信号ｌｓ（ｔ）およびｒｓ（ｔ）に変換する。変換されたアナログ音響信号ｌｓ（ｔ）およびｒｓ（ｔ）は、それぞれ図示しない別個の増幅部を介して、スピーカ５０および５２に入力される。これにより各スピーカ５０および５２から、それぞれに入力されるアナログ音響信号ｌｓ（ｔ）およびｒｓ（ｔ）に従う音が出力され、つまり音源音が再生される。

なお、上述したように、音源方向［φｓ，ψｓ］の推定を含む周波数領域での信号処理は、フレーム単位で行われるが、このフレームは、図３に示すように、そのフレーム長Ｔよりも短い期間ΔＴずつシフトされる。そして、このようにフレームがシフトされることによって、特に立ち上がり検出部３４による入力パワーＰｄの立ち上がり検出が精細に行われ、当該入力パワーＰｄの立ち上がりが的確に捉えられる。参考までに、上述の従来技術では、図４に示すように、各フレームはシフトされずに、直列に繋がった状態とされるので、これがそのまま本実施形態に採用されると仮定すると、入力パワーＰｄの立ち上がりが的確に検出されない場合が起こり得る。なお、フレームシフト量ΔＴは、上述した「先行音効果」が得られる時間差の範囲内に設定され、例えば２［ｍｓ］（３２サンプリング数相当）とされる。また、立ち上がり検出部３４によって入力パワーＰｄの立ち上がりが検出された後は、フレームシフトを行わずに、図４に示す如く各フレームを直列に繋げてもよい。

ここで、図５を参照して、本実施形態に係る聴取システム１０の一連の動作、特に音源方向特定部３０によって音源方向［φｓ，ψｓ］が特定されるまでの動作、について、具体的なシミュレーション例を挙げて説明する。なお、このシミュレーションにおいては、説明の便宜上、音源方向［φｓ，ψｓ］のうち、方位角φｓのみが設定されており、この方位角φｓは、−３０［度］（左３０［度］）に設定されている。

図３において、（ａ）は、音源音の波形であり、（ｂ）は、その反射音の波形である。そして、（ｃ）は、パワー検出部２４によって検出された入力パワーＰｄの波形であり、（ｄ）は、当該入力パワーＰｄの詳細である。なお、この図３の（ｄ）において、実線で示される曲線は、（ａ）の音源音そのもの（直接音）のパワー波形であり、破線で示される曲線は、（ｂ）の反射音のパワー波形である。

さらに、図３（ｅ）は、立ち上がり検出部３４によって行われる入力パワーＰｄの１回微分の波形であり、（ｆ）は、当該入力パワーＰｄの２回微分の波形である。上述したように、立ち上がり検出部３４は、これらの１回微分波形と２回微分波形とのコヒーレンスに基づいて、当該入力パワーＰｄの立ち上がりを検出する。

そして、図３（ｇ）が、音源方向特定部３０によって特定された方位角φｓを示す。これによれば、方位角φｓは真値と略等価な約−３０［度］を示している。なお、（ｈ）は、従来技術による推定結果を示し、これによれば、当該従来技術においては音源方向が精確に推定されないことが分かる。これは、上述したように残響の影響による。

図６は、音源音が間欠的に発せられる場合のシミュレーション例を示す。このシミュレーション例においても、本実施形態によれば、音源の方位角φｓが精確に特定されているのに対して、従来技術では、精確に推定されないことが分かる。

以上のように、本実施形態によれば、入力パワーＰｄの立ち上がりが検出された時点での推定方向［φｅ，ψｅ］が、真の音源方向［φｓ，ψｓ］として特定される。つまり、各マイクロホン１２および１４に最初に到達した音の方向が、音源方向［φｓ，ψｓ］として特定される。このように「先行音効果」をモデル化することによって、残響に対して頑健な聴取システム１０を構成することができる。

また、フレームを細かくシフトさせながら入力パワーＰｄの立ち上がりが検出されるので、当該入力パワーＰｄの立ち上がりが的確に捉えられる。このこともまた、残響に対する頑健さを得るのに、大きく貢献する。

さらに、入力パワーＰｄの立ち上がりが検出された時点から所定のＮフレーム目までの言わば不安定な期間は、それぞれのフレームごとに推定方向［φｅ，ψｅ］が音源方向［φｓ，ψｓ］として特定されるが、Ｎフレーム目以降は、過去Ｎフレーム分の推定方向［φｅ，ψｅ］の平均値が音源方向［φｓ，ψｓ］としてロックされる。従って、例えば、最初に特定された音源方向［φｓ，ψｓ］が雑音等の何らかの影響によって不適切であったとしても、その影響を軽減することができ、より精確に音源方向［φｓ，ψｓ］を特定することができる。なお、Ｎの値は、状況に応じて設定するのが望ましく、例えばＮ＝３〜１０の範囲内で適宜設定される。また、Ｎフレーム目以降の音源方向［φｓ，ψｓ］は、過去Ｎフレーム分の推定方向［φｅ，ψｅ］の平均値に限らず、中間値等の他の代表値によって特定されてもよい。

本実施形態の聴取システム１０は、例えば補聴器に応用することができる。即ち、補聴器において、相手方の話者の方向を特定すると共に、その話者のみの音声を聴取することができれば、スムーズに会話を進めるのに効果的であり、このような用途に、本実施形態の聴取システム１０は、極めて有効である。また、身の回りで不意な突発音が発生して、危険を感じたときには、その危険を回避するべく、突発音の発生方向を特定すると共に、当該突発音を聴取することもできる。ただし、補聴器の使用者が顔の向きを変えた場合には、当然に音源方向［φｓ，ψｓ］が変わるので、当該音源方向［φｓ，ψｓ］のロックを解除するための上述とは別の適当な対策が必要になる。

また、本発明は、このような補聴器を含む聴取システム１０以外の用途にも、適用することができる。例えば、旋回台を備えた監視カメラに本発明を適用すれば、不審者が侵入する等の異常事態に伴って突発音が発生したときに、その方向にカメラを向けると共に、当該突発音を捉えることもできる。なお、この場合も、カメラが旋回されることによって音源方向［φｓ，ψｓ］が変わるので、当該音源方向［φｓ，ψｓ］のロックを解除するための適当な対策が必要になる。

さらに、テレビ会議システムに本発明を適用すれば、発言者の方向を推定すると共に、当該発言者の発音を高感度かつ高Ｓ／Ｎ（Signal to Noise Ratio）で捉えることができ、会議をスムーズに進めるのに大きな支援となる。つまり、本発明は、残響のある空間で音源方向の推定を必要とする用途や、当該音源方向の推定が可能であるのならば好都合な用途等に、広く適用することができる。

本発明の一実施形態の概略構成を示すブロック図である。同実施形態における音源方向推定部の詳細を示すブロック図である。同実施形態におけるフレーム形成部によって形成されるフレームを概念的に示す図解図である。図３の比較対照となる従来技術におけるフレームの図解図である。同実施形態におけるシミュレーション例を示す図解図である。図５とは別の条件によるシミュレーション例を示す図解図である。

符号の説明

１２，１４マイクロホン
２４パワー検出部
２６音源方向推定部
２８パワー閾値判定部
３０音源方向特定部
３２音源分離部
３４立ち上がり検出部

Claims

１以上の音源から発せられる音を２つの音響検出手段によって検出し、検出された２つの音響信号に両耳聴モデルに従う処理を施すことによって希望の該音源が存在する方向を推定する音源方向推定装置において、
上記２つの音響検出手段の一方または両方によって最初に上記音が検出された時点を捕捉する検出開始時捕捉手段と、
上記検出開始時捕捉手段によって捕捉された上記時点での上記両耳聴モデルに従う処理による推定方向を上記希望の音源が存在する方向として特定する音源方向特定手段と、
を具備することを特徴とする、音源方向推定装置。
上記検出開始時捕捉手段は上記２つの音響信号の一方または両方のパワーの立ち上がり時を上記時点として捕捉する、請求項１に記載の音源方向推定装置。
上記両耳聴モデルに従う処理は上記２つの音響信号のそれぞれを所定時間長ずつ区切ることによって形成されるフレーム単位で行われ、
上記検出開始時補足手段は上記フレームの時間長よりも短い周期で上記時点の捕捉を行う、
請求項１または２に記載の音源方向推定装置。
上記音源方向特定手段は上記時点から所定期間にわたって得られる上記推定方向の代表値を上記希望の音源が存在する方向として特定する、請求項１ないし３のいずれかに記載の音源方向推定装置。
請求項１ないし４のいずれかに記載の音源方向推定装置と、
上記２つの音響信号から上記音源方向特定手段によって特定された音源方向に対応する周波数帯域を抽出することによって上記希望の音源の音成分を分離する音源分離手段と、
を具備する、音源分離装置。
１以上の音源から発せられる音を２つの音響検出手段によって検出し、検出された２つの音響信号に両耳聴モデルに従う処理を施すことによって希望の該音源が存在する方向を推定する音源方向推定方法において、
上記２つの音響検出手段の一方または両方によって最初に上記音が検出された時点を捕捉する検出開始時捕捉過程と、
上記検出開始時捕捉過程で捕捉された上記時点での上記両耳聴モデルに従う処理による推定方向を上記希望の音源が存在する方向として特定する音源方向特定過程と、
を具備することを特徴とする、音源方向推定方法。
上記検出開始時捕捉過程において上記２つの音響信号の一方または両方のパワーの立ち上がり時が上記時点として捕捉される、請求項６に記載の音源方向推定方法。
上記両耳聴モデルに従う処理は上記２つの音響信号のそれぞれを所定時間長ずつ区切ることによって形成されるフレーム単位で行われ、
上記検出開始時補足過程において上記フレームの時間長よりも短い周期で上記時点の捕捉が行われる、
請求項６または７に記載の音源方向推定方法。
上記音源方向特定過程において上記時点から所定期間にわたって得られる上記推定方向の代表値が上記希望の音源の存在する方向として特定される、請求項６ないし８のいずれかに記載の音源方向推定方法。
請求項６ないし９のいずれかに記載の音源方向推定方法と、
上記２つの音響信号から上記音源方向特定過程において特定された音源方向に対応する周波数帯域を抽出することによって上記希望の音源の音成分を分離する音源分離過程と、
を具備する、音源分離方法。