JP2009025025A - 音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法 - Google Patents

音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法 Download PDF

Info

Publication number
JP2009025025A
JP2009025025A JP2007185650A JP2007185650A JP2009025025A JP 2009025025 A JP2009025025 A JP 2009025025A JP 2007185650 A JP2007185650 A JP 2007185650A JP 2007185650 A JP2007185650 A JP 2007185650A JP 2009025025 A JP2009025025 A JP 2009025025A
Authority
JP
Japan
Prior art keywords
sound source
sound
source direction
detection
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007185650A
Other languages
English (en)
Inventor
Takeshi Usagawa
毅 宇佐川
Sadafumi Kiyoki
禎史 苣木
Sho Kono
翔 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kumamoto University NUC
Toa Corp
Original Assignee
Kumamoto University NUC
Toa Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kumamoto University NUC, Toa Corp filed Critical Kumamoto University NUC
Priority to JP2007185650A priority Critical patent/JP2009025025A/ja
Publication of JP2009025025A publication Critical patent/JP2009025025A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Stereophonic Arrangements (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】 反射音等の残響の影響を受けることなく、希望の音源の方向を特定する。
【解決手段】 左右のディジタル音響信号l(n)およびr(n)が、音源方向推定部26に入力される。音源方向推定部26は、これらのディジタル音響信号l(n)およびr(n)に対して両耳聴モデルに従う処理を施すことによって、音源の方向を推定する。併せて、各ディジタル音響信号l(n)およびr(n)の入力パワーPdが、パワー検出部24によって検出され、この入力パワーPdの立ち上がりが、立ち上がり検出部34によって検出される。そして、入力パワーPdの立ち上がりが検出されると、音源方向特定手段30が、その時点での音源方向推定部26による推定方向[φe,ψe]を、真の音源方向[φs,ψs]として特定する。つまり、各マイクロホン12および14に最初に到達した音の方向が、音源方向[φs,ψs]として特定される。
【選択図】 図1

Description

本発明は、音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法に関し、特に、1以上の音源から発せられる音を2つの音響検出手段によって検出すると共に、検出された2つの音響信号に両耳聴モデルに従う処理を施すことによって希望の音源が存在する方向を推定する、音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法に関する。
この種の技術として、従来、例えば特許文献1に開示されたものがある。この従来技術によれば、複数の音源から発せられる音響信号が、左右両受音部に入力される。そして、この左右両受音部に入力された左右両入力信号が、周波数帯域ごとに分割される。さらに、それぞれの周波数帯域ごとに、左右両入力信号のクロススペクトルの位相差から両耳間位相差(IPD;Interaural Phase Difference)が求められると共に、当該左右両入力信号のパワースペクトルのレベル差から両耳間レベル差(ILD;Interaural Level Difference)が求められる。そして、求められた両耳間位相差および両耳間レベル差の一方または両方が、それぞれの周波数帯域ごとに、データベース内のそれと比較されることによって、当該周波数帯域ごとに、音源が存在する方向の候補が推定され、さらに、これらの候補のうち、出現頻度の高い方向が、希望の音源が存在する方向として最終的に推定される。加えて、この推定された音源方向に対応する周波数帯域を主として抽出するためのフィルタ処理が左右両入力信号に施されることによって、当該左右両入力信号から希望の音源の成分が分離される。
特開2004−325284号公報
ところで、上述の従来技術において、音源方向を推定するための一連の処理は、左右両入力信号を所定時間長ずつ区切ることによって形成されるいわゆるフレーム単位で行われる。従って、反射音等の残響のある環境においては、フレーム内に当該残響が含まれてしまうため、推定精度が劣化する、という問題がある。この問題は、両耳聴モデルを実用化する上で、大きな障壁となっている。
そこで、本発明は、両耳聴モデルの実用化を図るべく、残響に対して頑健な音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法を提供することを、目的とする。
この目的を達成するために、本発明のうちの第1発明は、1以上の音源から発せられる音を2つの音響検出手段によって検出し、検出された2つの音響信号に両耳聴モデルに従う処理を施すことによって希望の音源が存在する方向を推定する音源方向推定装置において、一方または両方の音響検出手段によって最初に音が検出された時点を捕捉する検出開始時捕捉手段と、この検出開始時捕捉手段によって捕捉された時点で両耳聴モデルに従う処理によって推定された方向を希望の音源が存在する方向として特定する音源方向特定手段と、を具備することを特徴とするものである。
即ち、本第1発明は、人間の聴覚特性の1つである「先行音効果」をモデル化したものであり、これを実現するべく、一方または両方の音響検出手段によって最初に音が検出された時点が、検出開始時捕捉手段により捕捉される。そして、この検出開始時補足手段によって捕捉された時点での推定方向が、希望の音源が存在する方向として、音源方向特定手段により特定される。つまり、音響検出手段によって最初に検出された音の方向が、希望の音源方向として特定される。
なお、本第1発明において、検出開始時捕捉手段は、一方または両方の音響信号のパワーの立ち上がり時を捕捉するものとしてもよい。
また、両耳聴モデルに従う処理は、それぞれの音響信号を所定時間長ずつ区切ることによって形成されるフレーム単位で行われるものとしてもよい。この場合、検出開始時補足手段は、当該フレームの時間長よりも短い周期、より詳しくは「先行音効果」が得られる時間差(1[ms]〜30[ms])の範囲内の周期、で捕捉を行うのが、望ましい。このようにすれば、時間経過に伴う音響検出手段による音の検出状況を細かく捉えることができ、当該音響検出手段によって最初に音が検出された時点を的確に捕捉することができる。
さらに、音源方向特定手段は、音響検出手段によって最初に音が検出された時点から所定期間にわたって得られる推定方向の代表値、例えば平均値を、希望の音源が存在する方向として特定してもよい。このようにすれば、例えば、音響検出手段によって最初に音が検出された時点での推定方向が、雑音等の何らかの影響によって不適切であったとしても、その影響を軽減することができ、より精確に音源方向を特定することができる。
本発明のうちの第2発明は、第1発明の音源方向推定装置を備えた音源分離装置に関する発明であり、それぞれの音響信号から、音源方向特定手段によって特定された音源方向に対応する周波数帯域を抽出することによって、希望の音源の音成分を分離する音源分離手段を、さらに備えるものである。
即ち、本第2発明によれば、希望の音源の音成分を分離して、例えば当該希望の音源の音のみを再現することができる。
本発明のうちの第3発明は、第1発明に対応する方法発明であり、即ち、一方または両方の音響検出手段によって最初に音が検出された時点を捕捉する検出開始時捕捉過程と、この検出開始時捕捉過程で捕捉された時点で両耳聴モデルに従う処理によって推定された方向を希望の音源が存在する方向として特定する音源方向特定過程と、を具備する。
なお、本第3発明においても、第1発明と同様に、検出開始時捕捉過程で、一方または両方の音響信号のパワーの立ち上がり時が捕捉されるものとしてもよい。
また、両耳聴モデルに従う処理は、フレーム単位で行われるものとしてもよい。この場合、検出開始時補足過程では、当該フレームの時間長よりも短い周期で捕捉が行われるのが、望ましい。
さらに、音源方向特定過程では、音響検出手段によって最初に音が検出された時点から所定期間にわたって得られる推定方向の代表値が、希望の音源の存在する方向として特定されてもよい。
本発明のうちの第4発明は、第2発明の音源方向推定方法を備えた音源分離装置に関する発明であり、それぞれの音響信号から、音源方向特定過程において特定された音源方向に対応する周波数帯域を抽出することによって、希望の音源の音成分を分離する音源分離過程を、さらに備えるものである。
即ち、本第4発明は、第3発明に対応する方法発明である。
上述したように、本発明によれば、音響検出手段によって最初に検出された音、つまり反射音等の残響を含まない音、の方向が、希望の音源方向として特定される。これにより、残響に対する頑健さを得ることができ、両耳聴モデルの実用化を図ることができる。
本発明が適用された聴取システム10の一実施形態について、図1〜図6を参照して説明する。
本実施形態に係る聴取システム10は、反射音等の残響の影響を受けることなく希望の音源が存在する方向を特定すると共に、この希望の音源から発せられる音のみを再生するものであり、図1に示すように、音響検出手段としての2つのマイクロホン12および14を有している。これらのマイクロホン12および14は、例えば人間の頭部を模擬した図示しないダミーヘッドの左右両耳部に取り付けられ、このうちの一方、例えば左側のマイクロホン12から出力されるアナログ音響信号l(t)(tは、時間を表すインデックスである。)は、図示しない増幅部によって増幅された後、A/D変換部16に入力される。他方の右側マイクロホン14から出力されるアナログ音響信号r(t)もまた、図示しない別の増幅部によって増幅された後、別のA/D変換部18に入力される。
左側用のA/D変換部16は、入力された左側アナログ音響信号l(t)を所定のサンプリング周波数でサンプリングすることによって、当該左側アナログ音響信号l(t)をディジタル音響信号l(k)(kは、サンプリング番号を表すインデックスである。)に変換する。これと同期して、右側用のA/D変換部18もまた、入力された右側アナログ音響信号r(t)をディジタル音響信号r(k)に変換する。なお、各A/D変換部16および18によるサンプリング周波数は、数[kHz]〜数十[kHz]とされ、例えば16[kHz]とされる。また、各A/D変換部16および18の量子化精度は、12[bit]〜20[bit]が適当であり、例えば16[bit]とされる。
左側用A/D変換部16によって変換された左側ディジタル音響信号l(k)は、フレーム形成部20に入力され、ここで、所定のフレーム長Tの信号l(n)(nは、フレーム番号を表すインデックスである。)に纏められる(図3参照)。これと同期して、右側用A/D変換部18によって変換された右側ディジタル音響信号r(k)もまた、別のフレーム形成部22に入力され、ここで同じフレーム長Tの信号r(n)に纏められる。なお、フレーム長Tは、百数サンプリング数〜数百サンプリング数相当が適当であり、例えば512サンプリング数相当(32[ms])とされる。
このように左側用フレーム形成部20によってフレーム単位に纏められた左側ディジタル音響信号l(n)と、右側用フレーム形成部22によって同フレーム単位に纏められた右側ディジタル音響信号r(n)とは、パワー検出部24および音源方向推定部26のそれぞれに入力される。このうち、パワー検出部24は、入力された左右のディジタル音響信号l(n)およびr(n)のうちの一方または両方のパワーを検出する。そして、このパワー検出部24による検出結果Pdは、パワー閾値判定部28に与えられる。
パワー閾値判定部28は、パワー検出部24によって検出された入力パワーPdと、予め設定された閾値と、を比較して、当該入力パワーPdが閾値以上であるかどうかを判定する。このパワー閾値判定部28による判定結果Ptは、音源方向推定部26および後述する音源方向特定部30に与えられる。
音源方向推定部26は、パワー閾値判定部28による判定結果Ptが閾値以上の入力パワーPdが得られていることを表すとき、上述した従来技術と同じ要領で、希望の音源が存在する方向を推定し、詳しくは正面方向に対する当該音源方向の方位角(アジマス角)φsおよび仰角(エレベーション角)ψsを推定する。これを実現するべく、音源方向推定部26は、図2に示すように構成されている。
即ち、音源方向推定部26は、フレーム単位に纏められた左右のディジタル音響信号l(n)およびr(n)がそれぞれ入力される2つの高速フーリエ変換(以下、FFT(Fast Fourier Transform)と言う。)部100および102を有している。このうち、左側用のFFT部100は、入力された左側ディジタル音響信号l(n)を複数の周波数帯域別に分割して、それぞれの周波数帯域ごとの信号L(ω)を得る。右側用のFFT部102もまた、入力された右側ディジタル音響信号r(n)を同じ周波数帯域別に分割して、それぞれの周波数帯域ごとの信号R(ω)を得る。なお、各FFT部100および102による分割帯域幅は、特に限定されないが、例えば10[Hz]〜100[Hz]程度が適当である。
各FFTブロック100および102によって分割された各周波数帯域の信号L(ω)およびR(ω)のうち、比較的に低周波数帯域の信号、例えば750[Hz]以下の周波数帯域の信号は、それぞれの周波数帯域ごとの両耳間位相差(IPD)算出部104,104,…に入力される。そして、中間的な周波数帯域の信号、例えば750[Hz]〜1500[Hz]の周波数帯域の信号は、それぞれの周波数帯域ごとの両耳間位相差/レベル差(IPD/ILD)算出部106,106,…に入力される。さらに、比較的に高周波数帯域の信号、例えば1500[Hz]以上の周波数帯域の信号は、それぞれの周波数帯域ごとの両耳間レベル差(ILD)算出部108,108,…に入力される。
それぞれの両耳間位相差(IPD)算出部104は、入力された低周波数帯域の信号L(ω)およびR(ω)の位相差を求め、詳しくは当該各信号L(ω)およびR(ω)のクロススペクトルの位相差を求める。そして、それぞれの両耳間位相差/レベル差算出部106は、入力された中間周波数帯域の信号L(ω)およびR(ω)の位相差とレベル差との平均を求め、詳しくは当該各信号L(ω)およびR(ω)のクロススペクトルの位相差とパワースペクトルのレベル差との加重平均を求める。さらに、それぞれの両耳間レベル差(ILD)算出部108は、入力された高周波数帯域の信号L(ω)およびR(ω)のレベル差を求め、詳しくは当該各信号L(ω)およびR(ω)のパワースペクトルのレベル差を求める。これら各両耳間位相差算出部104,104,…,各両耳間位相差/レベル差算出部106,106,…,および各両耳間レベル差算出部108,108,…による算出結果は、候補推定部110に与えられる。
候補推定部110は、各両耳間位相差算出部104,104,…,各両耳間位相差/レベル差算出部106,106,…,および各両耳間レベル差算出部108,108,…による算出結果を、データベース112に記憶されている両耳間位相差および両耳間レベル差のロケーションマップと対比することで、それぞれの周波数帯域ごとに音源が存在すると思われる方向を推定する。なお、この推定手順についての詳しい説明は省略するが、この手順によって推定された方向は、周波数帯域によってまちまちであり、言わば候補としての位置付けにある。そして、この候補推定部110による推定結果は、推定実行部114に与えられる。
推定実行部114は、候補推定部110によってそれぞれの周波数帯域ごとに推定された方向のうち、出現頻度が最も高い方向を、音源方向として推定する。詳しくは、推定の方位角φeおよび仰角ψeを求める。そして、この推定実行部114による推定結果[φe,ψe]は、図1に示すように、音源方向特定部30に与えられる。
なお、上述したパワー閾値判定部28による判定結果Ptが、入力パワーPdが閾値に満たないことを表すとき、音源方向推定部26、特に推定実行部114は、音源方向の推定を行わず、次のフレームのディジタル音響信号l(n)およびr(n)が入力されるのを待つ。また、各FFT部100および102によって分割された各周波数帯域の信号L(ω)およびR(ω)は、後述する音源分離部32にも入力される。
音源方向特定部30には、立ち上がり検出部34による検出結果Puも与えられる。この立ち上がり検出部34は、パワー検出部24によって検出された入力パワーPdの立ち上がりを検出するものであり、例えば当該入力パワーPdを1回微分した信号と2回微分した信号とのコヒーレンスによって当該立ち上がりを検出する。勿論、これ以外の方法、例えば入力パワーPdと周囲の環境音のパワーとのコヒーレンスを観測する等によって、当該入力パワーPdの立ち上がりを検出してもよい。この立ち上がり検出部34によって入力パワーPdの立ち上がりが検出されたとき(厳密には当該立ち上がりが所定の基準値を超えたとき)、音源方向特定部30は、その時点での音源方向推定部26による推定方向[φe,ψe]を真の音源方向[φs,ψs]として特定する。
なお、入力パワーPdの立ち上がりが検出された時点から所定のNフレーム目までは、上述の如く音源方向推定部26による推定方向[φe,ψe]を真の音源方向[φs,ψs]として特定する。そして、Nフレーム目以降は、過去Nフレーム分の推定方向[φe,ψe]の平均値を真の音源方向[φs,ψs]として保持し、言わばロックする。また、パワー閾値判定部28による判定結果Ptから入力パワーPdが閾値に満たないことを認識したときは、音源方向特定部30は、その時点で、当該音源方向[φs,ψs]のロックを解除する。
この音源方向特定部30による特定結果[φs,ψs]は、音源分離部32に与えられる。音源分離部32は、この特定結果[φs,ψs]に対応する周波数帯域を抽出するための2つのフィルタ部36および38を有しており、これらのフィルタ部36および38には、それぞれ音源方向推定部26(各FFT部100および102)から各周波数帯域の左右信号L(ω)およびR(ω)が入力される。これにより、各左右信号L(ω)およびR(ω)から音源音のみの成分Ls(ω)およびRs(ω)が抽出され、抽出された信号Ls(ω)およびRs(ω)は、音源音再生部40に入力される。
音源音再生部40は、2つの逆フーリエ変換(以下、IFFT(Inverse-FFT)と言う。)部42および44を有している。そして、これらのIFFT部42および44に、それぞれ音源分離部32(フィルタ部36および38)によって抽出された信号Ls(ω)およびRs(ω)が入力される。各IFFT部42および44は、それぞれに入力された周波数領域の信号Ls(ω)およびRs(ω)を時間領域のディジタル音響信号ls(k)およびrs(k)に変換する。変換されたディジタル音響信号ls(k)およびrs(k)は、それぞれ別個のA/D変換部46および48に入力される。
各A/D変換部46および48は、それぞれに入力されたディジタル音響信号ls(k)およびrs(k)を、アナログ音響信号ls(t)およびrs(t)に変換する。変換されたアナログ音響信号ls(t)およびrs(t)は、それぞれ図示しない別個の増幅部を介して、スピーカ50および52に入力される。これにより各スピーカ50および52から、それぞれに入力されるアナログ音響信号ls(t)およびrs(t)に従う音が出力され、つまり音源音が再生される。
なお、上述したように、音源方向[φs,ψs]の推定を含む周波数領域での信号処理は、フレーム単位で行われるが、このフレームは、図3に示すように、そのフレーム長Tよりも短い期間ΔTずつシフトされる。そして、このようにフレームがシフトされることによって、特に立ち上がり検出部34による入力パワーPdの立ち上がり検出が精細に行われ、当該入力パワーPdの立ち上がりが的確に捉えられる。参考までに、上述の従来技術では、図4に示すように、各フレームはシフトされずに、直列に繋がった状態とされるので、これがそのまま本実施形態に採用されると仮定すると、入力パワーPdの立ち上がりが的確に検出されない場合が起こり得る。なお、フレームシフト量ΔTは、上述した「先行音効果」が得られる時間差の範囲内に設定され、例えば2[ms](32サンプリング数相当)とされる。また、立ち上がり検出部34によって入力パワーPdの立ち上がりが検出された後は、フレームシフトを行わずに、図4に示す如く各フレームを直列に繋げてもよい。
ここで、図5を参照して、本実施形態に係る聴取システム10の一連の動作、特に音源方向特定部30によって音源方向[φs,ψs]が特定されるまでの動作、について、具体的なシミュレーション例を挙げて説明する。なお、このシミュレーションにおいては、説明の便宜上、音源方向[φs,ψs]のうち、方位角φsのみが設定されており、この方位角φsは、−30[度](左30[度])に設定されている。
図3において、(a)は、音源音の波形であり、(b)は、その反射音の波形である。そして、(c)は、パワー検出部24によって検出された入力パワーPdの波形であり、(d)は、当該入力パワーPdの詳細である。なお、この図3の(d)において、実線で示される曲線は、(a)の音源音そのもの(直接音)のパワー波形であり、破線で示される曲線は、(b)の反射音のパワー波形である。
さらに、図3(e)は、立ち上がり検出部34によって行われる入力パワーPdの1回微分の波形であり、(f)は、当該入力パワーPdの2回微分の波形である。上述したように、立ち上がり検出部34は、これらの1回微分波形と2回微分波形とのコヒーレンスに基づいて、当該入力パワーPdの立ち上がりを検出する。
そして、図3(g)が、音源方向特定部30によって特定された方位角φsを示す。これによれば、方位角φsは真値と略等価な約−30[度]を示している。なお、(h)は、従来技術による推定結果を示し、これによれば、当該従来技術においては音源方向が精確に推定されないことが分かる。これは、上述したように残響の影響による。
図6は、音源音が間欠的に発せられる場合のシミュレーション例を示す。このシミュレーション例においても、本実施形態によれば、音源の方位角φsが精確に特定されているのに対して、従来技術では、精確に推定されないことが分かる。
以上のように、本実施形態によれば、入力パワーPdの立ち上がりが検出された時点での推定方向[φe,ψe]が、真の音源方向[φs,ψs]として特定される。つまり、各マイクロホン12および14に最初に到達した音の方向が、音源方向[φs,ψs]として特定される。このように「先行音効果」をモデル化することによって、残響に対して頑健な聴取システム10を構成することができる。
また、フレームを細かくシフトさせながら入力パワーPdの立ち上がりが検出されるので、当該入力パワーPdの立ち上がりが的確に捉えられる。このこともまた、残響に対する頑健さを得るのに、大きく貢献する。
さらに、入力パワーPdの立ち上がりが検出された時点から所定のNフレーム目までの言わば不安定な期間は、それぞれのフレームごとに推定方向[φe,ψe]が音源方向[φs,ψs]として特定されるが、Nフレーム目以降は、過去Nフレーム分の推定方向[φe,ψe]の平均値が音源方向[φs,ψs]としてロックされる。従って、例えば、最初に特定された音源方向[φs,ψs]が雑音等の何らかの影響によって不適切であったとしても、その影響を軽減することができ、より精確に音源方向[φs,ψs]を特定することができる。なお、Nの値は、状況に応じて設定するのが望ましく、例えばN=3〜10の範囲内で適宜設定される。また、Nフレーム目以降の音源方向[φs,ψs]は、過去Nフレーム分の推定方向[φe,ψe]の平均値に限らず、中間値等の他の代表値によって特定されてもよい。
本実施形態の聴取システム10は、例えば補聴器に応用することができる。即ち、補聴器において、相手方の話者の方向を特定すると共に、その話者のみの音声を聴取することができれば、スムーズに会話を進めるのに効果的であり、このような用途に、本実施形態の聴取システム10は、極めて有効である。また、身の回りで不意な突発音が発生して、危険を感じたときには、その危険を回避するべく、突発音の発生方向を特定すると共に、当該突発音を聴取することもできる。ただし、補聴器の使用者が顔の向きを変えた場合には、当然に音源方向[φs,ψs]が変わるので、当該音源方向[φs,ψs]のロックを解除するための上述とは別の適当な対策が必要になる。
また、本発明は、このような補聴器を含む聴取システム10以外の用途にも、適用することができる。例えば、旋回台を備えた監視カメラに本発明を適用すれば、不審者が侵入する等の異常事態に伴って突発音が発生したときに、その方向にカメラを向けると共に、当該突発音を捉えることもできる。なお、この場合も、カメラが旋回されることによって音源方向[φs,ψs]が変わるので、当該音源方向[φs,ψs]のロックを解除するための適当な対策が必要になる。
さらに、テレビ会議システムに本発明を適用すれば、発言者の方向を推定すると共に、当該発言者の発音を高感度かつ高S/N(Signal to Noise Ratio)で捉えることができ、会議をスムーズに進めるのに大きな支援となる。つまり、本発明は、残響のある空間で音源方向の推定を必要とする用途や、当該音源方向の推定が可能であるのならば好都合な用途等に、広く適用することができる。
本発明の一実施形態の概略構成を示すブロック図である。 同実施形態における音源方向推定部の詳細を示すブロック図である。 同実施形態におけるフレーム形成部によって形成されるフレームを概念的に示す図解図である。 図3の比較対照となる従来技術におけるフレームの図解図である。 同実施形態におけるシミュレーション例を示す図解図である。 図5とは別の条件によるシミュレーション例を示す図解図である。
符号の説明
12,14 マイクロホン
24 パワー検出部
26 音源方向推定部
28 パワー閾値判定部
30 音源方向特定部
32 音源分離部
34 立ち上がり検出部

Claims (10)

  1. 1以上の音源から発せられる音を2つの音響検出手段によって検出し、検出された2つの音響信号に両耳聴モデルに従う処理を施すことによって希望の該音源が存在する方向を推定する音源方向推定装置において、
    上記2つの音響検出手段の一方または両方によって最初に上記音が検出された時点を捕捉する検出開始時捕捉手段と、
    上記検出開始時捕捉手段によって捕捉された上記時点での上記両耳聴モデルに従う処理による推定方向を上記希望の音源が存在する方向として特定する音源方向特定手段と、
    を具備することを特徴とする、音源方向推定装置。
  2. 上記検出開始時捕捉手段は上記2つの音響信号の一方または両方のパワーの立ち上がり時を上記時点として捕捉する、請求項1に記載の音源方向推定装置。
  3. 上記両耳聴モデルに従う処理は上記2つの音響信号のそれぞれを所定時間長ずつ区切ることによって形成されるフレーム単位で行われ、
    上記検出開始時補足手段は上記フレームの時間長よりも短い周期で上記時点の捕捉を行う、
    請求項1または2に記載の音源方向推定装置。
  4. 上記音源方向特定手段は上記時点から所定期間にわたって得られる上記推定方向の代表値を上記希望の音源が存在する方向として特定する、請求項1ないし3のいずれかに記載の音源方向推定装置。
  5. 請求項1ないし4のいずれかに記載の音源方向推定装置と、
    上記2つの音響信号から上記音源方向特定手段によって特定された音源方向に対応する周波数帯域を抽出することによって上記希望の音源の音成分を分離する音源分離手段と、
    を具備する、音源分離装置。
  6. 1以上の音源から発せられる音を2つの音響検出手段によって検出し、検出された2つの音響信号に両耳聴モデルに従う処理を施すことによって希望の該音源が存在する方向を推定する音源方向推定方法において、
    上記2つの音響検出手段の一方または両方によって最初に上記音が検出された時点を捕捉する検出開始時捕捉過程と、
    上記検出開始時捕捉過程で捕捉された上記時点での上記両耳聴モデルに従う処理による推定方向を上記希望の音源が存在する方向として特定する音源方向特定過程と、
    を具備することを特徴とする、音源方向推定方法。
  7. 上記検出開始時捕捉過程において上記2つの音響信号の一方または両方のパワーの立ち上がり時が上記時点として捕捉される、請求項6に記載の音源方向推定方法。
  8. 上記両耳聴モデルに従う処理は上記2つの音響信号のそれぞれを所定時間長ずつ区切ることによって形成されるフレーム単位で行われ、
    上記検出開始時補足過程において上記フレームの時間長よりも短い周期で上記時点の捕捉が行われる、
    請求項6または7に記載の音源方向推定方法。
  9. 上記音源方向特定過程において上記時点から所定期間にわたって得られる上記推定方向の代表値が上記希望の音源の存在する方向として特定される、請求項6ないし8のいずれかに記載の音源方向推定方法。
  10. 請求項6ないし9のいずれかに記載の音源方向推定方法と、
    上記2つの音響信号から上記音源方向特定過程において特定された音源方向に対応する周波数帯域を抽出することによって上記希望の音源の音成分を分離する音源分離過程と、
    を具備する、音源分離方法。
JP2007185650A 2007-07-17 2007-07-17 音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法 Pending JP2009025025A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007185650A JP2009025025A (ja) 2007-07-17 2007-07-17 音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007185650A JP2009025025A (ja) 2007-07-17 2007-07-17 音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法

Publications (1)

Publication Number Publication Date
JP2009025025A true JP2009025025A (ja) 2009-02-05

Family

ID=40396983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007185650A Pending JP2009025025A (ja) 2007-07-17 2007-07-17 音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法

Country Status (1)

Country Link
JP (1) JP2009025025A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014137414A (ja) * 2013-01-15 2014-07-28 Fujitsu Ltd 雑音抑圧装置、方法、及びプログラム
CN110517705A (zh) * 2019-08-29 2019-11-29 北京大学深圳研究生院 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003337164A (ja) * 2002-03-13 2003-11-28 Univ Nihon 音到来方向検出方法及びその装置、音による空間監視方法及びその装置、並びに、音による複数物体位置検出方法及びその装置
JP2004012151A (ja) * 2002-06-03 2004-01-15 Matsushita Electric Ind Co Ltd 音源方向推定装置
JP2004325284A (ja) * 2003-04-25 2004-11-18 Kumamoto Technology & Industry Foundation 音源方向を推定する方法、そのためのシステム、および複数の音源の分離方法、そのためのシステム
JP2005184426A (ja) * 2003-12-19 2005-07-07 Chiyuuden Plant Kk 音源方向検出装置および方法
JP2005351786A (ja) * 2004-06-11 2005-12-22 Oki Electric Ind Co Ltd パルス音の到来時間差推定方法及びその装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003337164A (ja) * 2002-03-13 2003-11-28 Univ Nihon 音到来方向検出方法及びその装置、音による空間監視方法及びその装置、並びに、音による複数物体位置検出方法及びその装置
JP2004012151A (ja) * 2002-06-03 2004-01-15 Matsushita Electric Ind Co Ltd 音源方向推定装置
JP2004325284A (ja) * 2003-04-25 2004-11-18 Kumamoto Technology & Industry Foundation 音源方向を推定する方法、そのためのシステム、および複数の音源の分離方法、そのためのシステム
JP2005184426A (ja) * 2003-12-19 2005-07-07 Chiyuuden Plant Kk 音源方向検出装置および方法
JP2005351786A (ja) * 2004-06-11 2005-12-22 Oki Electric Ind Co Ltd パルス音の到来時間差推定方法及びその装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014137414A (ja) * 2013-01-15 2014-07-28 Fujitsu Ltd 雑音抑圧装置、方法、及びプログラム
CN110517705A (zh) * 2019-08-29 2019-11-29 北京大学深圳研究生院 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
CN110517705B (zh) * 2019-08-29 2022-02-18 北京大学深圳研究生院 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统

Similar Documents

Publication Publication Date Title
TWI763073B (zh) 融合骨振動感測器信號及麥克風信號的深度學習降噪方法
KR101703388B1 (ko) 오디오 프로세싱 장치
US8300861B2 (en) Hearing aid algorithms
JP2010054728A (ja) 音源抽出装置
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
CN111429939B (zh) 一种双声源的声音信号分离方法和拾音器
EP3005362B1 (en) Apparatus and method for improving a perception of a sound signal
CN110875056B (zh) 语音转录设备、系统、方法、及电子设备
KR102429152B1 (ko) 골진동 센서 및 마이크로폰 신호를 융합한 딥 러닝 음성 추출 및 노이즈 저감 방법
CN107124647A (zh) 一种全景视频录制时自动生成字幕文件的方法及装置
CN105575403A (zh) 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法
WO2017061023A1 (ja) 音声信号処理方法および装置
CN107113496B (zh) 移动设备的环绕声记录
CN110996238B (zh) 双耳同步信号处理助听系统及方法
JP5288148B2 (ja) 背景雑音キャンセリング装置および方法
WO2017045512A1 (zh) 一种语音识别的方法、装置、终端及语音识别设备
JP2009025025A (ja) 音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法
JP2016163135A (ja) 収音装置、プログラム及び方法
JP2004325127A (ja) 音源検出方法、音源分離方法、およびこれらを実施する装置
US20230360662A1 (en) Method and device for processing a binaural recording
US12073844B2 (en) Audio-visual hearing aid
JP2005157086A (ja) 音声認識装置
KR20190136177A (ko) 소리 제거 시스템 및 이를 이용한 소리 제거 방법
WO2022047606A1 (en) Method and system for authentication and compensation
US20230239617A1 (en) Ear-worn device and reproduction method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090824

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120327