JP2007033445A - 信号源の軌跡をモデル化する方法及びシステム - Google Patents

信号源の軌跡をモデル化する方法及びシステム Download PDF

Info

Publication number
JP2007033445A
JP2007033445A JP2006201607A JP2006201607A JP2007033445A JP 2007033445 A JP2007033445 A JP 2007033445A JP 2006201607 A JP2006201607 A JP 2006201607A JP 2006201607 A JP2006201607 A JP 2006201607A JP 2007033445 A JP2007033445 A JP 2007033445A
Authority
JP
Japan
Prior art keywords
phase
signal source
model
trajectory
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006201607A
Other languages
English (en)
Other versions
JP4912778B2 (ja
Inventor
Paris Smaragdis
パリス・サマラディス
Petros Boufounos
ペトロス・ボウフォウノス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2007033445A publication Critical patent/JP2007033445A/ja
Application granted granted Critical
Publication of JP4912778B2 publication Critical patent/JP4912778B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Position Fixing By Use Of Radio Waves (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】マルチパス環境下でも移動する信号源を追跡する。
【解決手段】信号源の軌跡をモデル化するものである。既知の軌跡に沿って移動する信号源によって生成されるトレーニング信号が、センサのアレイにおける各センサによって捕捉される。つぎに、トレーニング信号のすべての一意の対の間の位相差が確定される。また、それらの位相差から、位相ラップ隠れマルコフモデルが作成される。作成された位相ラップ隠れマルコフモデルは、信号源の既知の軌跡をモデル化する複数のガウス分布を含む。
【選択図】図1

Description

本発明は、包括的には信号を処理することに関し、特に信号源を追跡することに関する。
[発明の背景]
移動する音源を、それらの音響信号を捕捉(または、獲得(acquire))し分析することによって追跡することができる。マイクロフォンのアレイが使用される場合、方法は、通常、ビーム形成、時間遅延推定又は確率的モデル化に基づく。ビーム形成では、時間シフトした信号を合計して、測定された遅延に従って音源位置を確定する。不都合なことに、ビーム形成方法は計算的に複雑である。時間遅延推定では、信号を相関させてピークを確定するように試みる。しかしながら、こうした方法は、残響環境には適していない。確率的方法では、通常、ベイズネットワークを使用する。これについては、M.S. Brandstein、J.E. Adcock及びH.F. Silverman著、「A practical time delay estimator for localizaing speech sources with a microphone array」(Computer Speech and Language, vol. 9, pp. 153-169, April 1995)、S.T. Birtchfield及びD.K. Gillmor著、「Fast Bayesian acoustic localization」(Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2002)並びにT. Pham及びB. Sadler著、「Aeroacoustic wideband array processing for detection and tracking of ground vehicles」(J. Acoust. Soc. Am. 98, No. 5, pt. 2, 2969, 1995)を参照されたい。
一方法は、クロススペクトルの「ブラックボックス」トレーニングを用いる。これについては、G. Arslan、F.A. Sakarya及びB.L. Evans著、「Speaker Localization for Far-field and Near-field Wideband Sources Using Neural Networks」(IEEE Workshop on Non-linear Signal and Image Processing, 1999)を参照されたい。別の方法では、クロスセンサの差をモデル化する。これについては、J. Weng及びK.Y. Guentchev著、「Three-dimensional sound localization from a compact non-coplanar array of microphones using tree-based learining」(Journal of the Acoustic Society of America, vol. 110, no. 1, pp. 310-323, July 2001)を参照されたい。
移動する信号源を追跡するには多くの問題がある。通常、そういった信号は、移動するため非定常である。また、特に高反射環境では、著しい、時間によって変化するマルチパス干渉がある可能性もある。異なる環境において種々の異なる信号源を追跡することが望まれる。
[発明の概要]
方法は、信号源の軌跡をモデル化する。既知の軌跡に沿って移動する信号源によって生成されるトレーニング信号が、センサのアレイにおける各センサによって捕捉される。トレーニング信号のすべての一意の対の間の位相差が確定される。位相差から、位相ラップ(wrapped-phase)隠れマルコフモデルが作成される。位相ラップ隠れマルコフモデルは、信号源の既知の軌跡をモデル化する複数のガウス分布を含む。
未知の軌跡に沿って移動する信号源によって生成される試験信号を、その後、センサのアレイによって捕捉する。その試験信号のすべての対の間の位相差を確定する。そして、未知の軌跡が既知の軌跡のうちの1つに類似する尤度を位相ラップ隠れマルコフモデルと試験信号の位相差とに従って確定する。
方法は、センサのアレイによって捕捉される多次元位相ラップ時系列信号に対する統計モデルを生成する。このモデルは、センサのアレイを用いて捕捉される信号から信号源の軌跡を有効に分類しクラスタリングすることができる。本発明によるモデルは、単にセンサ関係ではなく環境全体を記述する位相応答に対してトレーニングされるため、従来の技術を使用して識別可能でない信号源の位置を識別することができる。
[好適な実施形態の詳細な説明]
モデル作成
図1に示すように、方法及びシステムは、既知の軌跡104に沿って移動する信号源103から、センサのアレイ102を介してトレーニング信号101を捕捉する110。本発明の一実施形態では、信号は音響信号であり、センサはマイクロフォンである。本発明の別の実施形態では、信号は電磁周波数信号であり、センサはたとえばアンテナである。いずれの場合も、信号は、センサにおいてそれらの位置によって位相差を示す。本発明は、センサの各一意の対によって捕捉(獲得(acquire))される信号の位相の差を確定する。
クロスセンサ位相抽出120を、トレーニング信号101のすべての一意の対に適用する。たとえば、3つのセンサA、B及びCがある場合、トレーニング信号の対は、A−B、A−C、B−Cである。そして、トレーニング信号の対の間の位相差121を使用して、信号源の軌跡に対し位相ラップ隠れマルコフモデル(HMM)230を作成する130。位相ラップHMMは、複数の位相ラップガウス分布を含む。分布は、2πの位相区間で繰り返される(replicate)ため、「位相がラップされて(折り畳まれて)(wrapped-phase)」いる。
追跡
図2は、本発明の一実施形態による、位相ラップHMMモデル230を使用して信号源を追跡する方法を示す。未知の軌跡204に沿って移動する信号源203から試験信号201を捕捉する210。上述したように、試験信号のすべての対に対してクロスセンサ位相抽出120を適用する。試験信号の対の間の抽出された位相差121を使用して、モデル230に従って尤度スコア231を確定する。そして、尤度スコアを比較する240ことにより、未知の軌跡204が既知の軌跡104のうちの1つに類似するか否かを判断する。
位相ラップモデル
本発明の一実施形態は、ラップされた位相と、マイクロフォンのアレイ102によって捕捉された110、位相ラップ時系列音響トレーニング信号101とに対する統計モデル230を作成する130。ここでは、単変量の実施形態と多変量の実施形態との両方について説明する。ここでは、音響信号の位相は、区間[0,2π)、すなわち半閉区間でラップされるものと仮定する。
単変量モデル
音源の軌跡をモデル化するために単一のガウス分布を使用することができる。しかしながら、1つのガウス分布を用いて位相をモデル化し、データの平均がおよそ0又は2πである場合、分布はラップされ二峰性になる。この場合、ガウス分布モデルはデータを不正確に表す可能性がある。
図3は、音響位相データのヒストグラム300である。位相データは、2つのマイクロフォンによって捕捉された音響信号の特定の周波数に対する位相差である。ヒストグラムを、単一ガウス分布301によって適切にモデル化することができる。
図4は、位相ラッピングを示す音響データのヒストグラム400である。位相データが二峰性であるため、当てはめられたガウス分布401は、データを適切にモデル化しない。
この問題を扱うために、ここでは、位相ラッピングを明示的にモデル化するように位相ラップHMMを定義する。位相データxを、平均μ及び標準偏差σを有するガウス分布を用いて、アンラッピング形式でモデル化する。ここでは、単変量モデルf(x)230を作成するように
Figure 2007033445
に従ってk個の分布を生成するように2πの区間でガウス分布を繰り返すことにより位相ラッピングプロセスをエミュレート(emulate)する。
区間[0,2π)外の繰り返されるガウス分布のテールが、ラップされたデータを説明する。
図5は、平均μ=0.8且つ標準偏差σ=2.5のガウス分布位相を示す。破線501は、式1で使用した繰り返されるガウス分布のうちのいくつかを表す。区間[0,2π)にわたって画定される実線502は、式1によるガウス分布位相の合計であり、結果としての位相ラップである。
中央のガウス分布は、下向きのカーブ(凹カーブ(negative))で、かつ、およそ2πの辺りでラップされているが(実線502)、それは、右端のガウス分布によって占められており(account for)、それの、より小さいラップされる量(smaller wrapped amount)は、左端のガウス分布によって表される。
捕捉された時系列データの連続したラッピングの効果を、2πの倍数において配置されるガウス分布によって表すことができる。
本発明は、センサのアレイ102によって捕捉される位相ラップトレーニング信号101をモデル化するためにガウス分布の最適なパラメータを確定する方法を提供する。
ここでは、修正期待値最大化(expectation-maximization)(EM)プロセスを使用する。一般的なEMプロセスは、A.P. Dempster、N.M. Laird及びD.B. Rubin著、「Maximum Likelihood from Incomplete Data via the EM Algorithm」(Journal of Royal Statistical Society B, vol. 39, no. 1, pp. 1-38, 1977)に述べられている。
ここでは、区間[0,2π)で画定される位相ラップデータセットxと、平均μ及び標準偏差σによって表される初期ガウス分布パラメータ値とで開始する。
期待値ステップでは、特定のサンプルxが
Figure 2007033445
による本発明によるモデル230のk番目のガウス分布によってモデル化される確率を確定する。
重み付け係数として確率Px,kを使用して、最大化ステップを実行し、
Figure 2007033445
に従って平均μ及び分散σを推定する。ここで、〈.〉は期待値を表す。式μ+c2π(オフセットc∈Z)のいかなる解も同値である。
実際的なインプリメンテーションでは、無限数のガウス分布の合計が問題である。3つのガウス分布であるk∈−1,0,1の場合、よい結果が得られる。5つの分布、すなわち、k∈−2,−1,0,1,2に対して同様の結果を得ることができる。大きいkの値を使用する理由は、複数のラップを考慮する(account for)ためである。しかしながら、本発明においてデータに4つ以上の連続したラップを用いる場合は、大きい分散によるものである。これらの場合、データは、[0,2π)という画定された区間において本質的に一様となる。これらの場合を、大きい標準偏差σ及び繰り返されるガウス分布によって適当にモデル化することができる。これにより、kにわたる過度な合計が不要となる。ここでは、k∈−1,0,1を使用することが好ましい。
しかしながら、kを切り捨てることにより、平均μを推定する複雑性が増大する。上述したように、平均μは、任意のオフセットc2π(c∈Z)で推定する。kが切り捨てられ、且つ有限数のガウス分布がある場合、平均μの各側に同数の分布があり、それにより両側において等しくラッピングを表すことを確実にすることが最適である。これを確実にするために、ここでは、式3から得られる推定値をラップすることにより平均μ∈[0,2π)であることを確実にする。
多変量及びHMM拡張
ここでは、多変量位相ラップHMMの基礎として単変量モデルf(x)230を使用することができる。まず、多変量モデルを定義する。これを、各次元iに対して単変量モデルの積を取ることによって、すなわち
Figure 2007033445
によって行う。
これは、本質的に、対角共分散ラップガウスモデルに対応する。全共分散の同値となる変量の間の全相互作用を考慮することにより、より完全な定義が可能である。
この場合、推定されるパラメータは、各次元iに対して平均μ及び分散σである。パラメータの推定を、上述したEMプロセスを一度に1次元で実行することにより行うことができる。
そして、隠れマルコフモデル(HMM)内の状態モデルに対してパラメータを使用する。ここでは、状態モデルとしてk個の位相ラップガウス分布を有するHMMをトレーニングするためにバウム・ウェルチ(Baum-Welch)プロセスを適応させる。これについては、一般に、L.R. Rabiner著、「A tutorial on hidden Markov models and selected applications in speech recognition」(Proceedings of the IEEE, 1989)を参照されたい。
従来のHMMとは異なり、ここでは、位相ラップガウス分布ベースの状態モデルの事後確率を確定する。最大化ステップにおける状態モデルパラメータ推定値を、
Figure 2007033445
として定義する。ここで、γは、各状態インデックスj及び次元インデックスiに対する事後確率である。結果は、数のアンダーフロー(下位桁あふれ)を回避するために対数確率領域で得られる。最初の数回のトレーニングの反復の場合、すべての分散σを小さい値に設定することにより、平均μがすべて正しい解に向かって収束することができる。これは、比較的大きい分散σに対応して0及び2πに近い強い局所最適値があるためである。平均μが最初に収束することができるようにすることが、この問題を回避する単純な方法である。
信号源の軌跡を用いるモデルのトレーニング
多次元位相ラップデータの時系列に対するモデル230を使用して信号源を追跡することができる。ここでは、2つのセンサによって捕捉された信号の各周波数に対して位相差を測定する。したがって、ここでは、信号(F(ω,t)及びF(ω,t))に対して短時間フーリエ変換を実行し、
Figure 2007033445
に従って相対位相を確定する。
相対位相Φの各時刻をサンプル点として使用する。対称の曖昧さにより、2つのセンサの周囲の大部分の位置は、一意の位相パターンを示す。信号源が移動することにより、こうした位相パターンの時系列が生成され、それを上述したようにモデル化する。
雑音によるエラーを回避するために、ここでは、当該所定周波数範囲における周波数の位相のみを使用する。たとえば、発話信号の場合、周波数範囲は400〜8000Hzに制限される。ソナー、超音波、無線、レーダ、赤外線、可視光、紫外線、x線及びガンマ線源等が放出する信号の周波数等、他の周波数範囲が可能であることが理解されるべきである。
人工の結果
ここでは、人工の部屋の内部で音源に対する既知の軌跡を生成するために音源・イメージ(source-image)部屋モデルを使用する。これについては、J.B. Allen及びD.A. Berkley著、「Image method for efficiently simulating small-room acoustics」(JASA Vol. 65, pages 943-950, 1979)を参照されたい。この部屋は2次元である(10m×10m)。ここでは、最大3次反射と、0.1の吸音率とを使用する。2つのカージオイド型仮想マイクロフォンを、部屋の中心近くに、反対方向に向けて配置する。ここでの音源は、44.1KHzでサンプリングされる白色ノイズを生成する。
図6に示すように、ここでは、8つの平滑な既知の軌跡をランダムに確定する。各軌跡に対し、約25cmの標準偏差で元の既知の軌跡からずれている既知の軌跡の9つの同様のコピーを生成する。各軌跡に対し、モデルをトレーニングするためにコピーのうちの8つを使用した。そして、9番目のコピーの尤度231をモデル230に対して評価し、既知の軌跡と比較する240。
ここでは2つのモデル、すなわち従来のガウス状態HMMと、上述したような位相ラップガウス状態HMM230とをトレーニングする。両モデルに対し、30回の反復に対して8つの既知の軌跡の各々の8つのコピーに照準を合せ(train on)、8状態left−to−right HMMを使用する。
モデルをトレーニングした後、図7に示すような従来のHMMに対する対数尤度の軌跡と、図8に示すような位相ラップガウスHMMに対する対数尤度の軌跡とを評価する。
垂直バーのグループは、すべての軌跡モデルにわたる未知の軌跡の各々に対する尤度を示す。尤度は、より可能性の高いモデルがゼロの尤度を示すように、グループにわたって正規化される。図8に示すように、位相ラップガウスHMM230は、常に、軌跡タイプに対応する最も可能性の高いモデルを有し、それは、未知の軌跡のすべてが正しく割り当てられていることを意味する。これは、図7に示すような従来のHMMには当てはまらず、そのため従来のHMMでは、位相を正確にモデル化することができないため分類間違いがもたらされる。さらに、位相ラップガウスHMMは、従来のHMMより統計的に確信できる分類を提供し、それは正確なモデルと不正確なモデルとから得られる尤度のより大きい分離によって明らかである。
実際の結果
3.80m×2.90m×2.60mの部屋において、移動する音源のステレオ録音を取得する。部屋には、2つのガラス窓及びホワイトボードの形態の高反射面がある。環境雑音は約−12dBである。録音を、Technics RP−3280Eダミーヘッドバイノーラル録音装置を使用して行った。ここでは、シェイカーを使用し、広帯域雑音を生成し、ここでもまた発話により明確な既知の軌跡を取得する。本発明の軌跡モデル230をトレーニングするために、シェイカー録音を使用し、分類の精度を評価するために発話録音を使用する。上述したように、44.1KHzサンプリングレートと、400Hz〜8000Hzの周波数のクロスマイクロフォン位相測定とを使用する。
図9及び図10は、それぞれ従来のガウスHMMと位相ラップHMMとに対する結果を示す。ラップガウスHMMは軌跡を正確に分類するが、従来のHMMは不十分なデータ当てはめによって妨げられる。
教師なし軌跡クラスタリング
上述したように、モデルのトレーニングは教師つきである。これについては、一般に、B.H. Junag及びL.R. Rabiner著、「A probabilistic distance measure for hidden Markov models」(AT&T Technical Journal, vol. 64 no. 2, February 1985)を参照されたい。しかしながら、本方法を、k平均クラスタリングを使用してトレーニングすることも可能である。この場合、HMM尤度は距離である。上述した72個の既知の軌跡を、位相ラップガウスHMMを使用して各クラスタに適当な軌跡がある8つのクラスタにクラスタリングすることができる。従来のHMMでは軌跡をクラスタリングすることはできない。
[発明の効果]
この方法は、センサのアレイによって捕捉される多次元位相ラップ時系列信号に対する統計モデルを生成する。このモデルは、センサのアレイを用いて捕捉される信号から信号源の軌跡を有効に分類しクラスタリングすることができる。本発明によるモデルは、単にセンサ関係ではなく環境全体を記述する位相応答に対してトレーニングされるため、従来の技術を使用して識別可能でない信号源の位置を識別することができる。
位相測定値はまた、反射面及びセンサの相対位置によっても形成されるため、TDOAベースの位置測定でよく見られるよりも、曖昧な対称構成を有する可能性が低い。
対称性の曖昧さを回避することに加えて、本モデルはまた雑音に強い。分類中と同じタイプの雑音がトレーニング中に存在する場合、本モデルは、任意の位相崩壊効果に対して、それら効果が著しく目立つものでないと仮定してトレーニングされる。
本モデルを、複数のマイクロフォンに拡張することができる。さらに、モデルが複素数領域で表現される場合、2つのマイクロフォンの間の位相差と同様に振幅の差も考慮することができる。ここで、実数部分を従来のHMMでモデル化し、虚数部分をラップガウスHMMでモデル化する。本発明では、このモデルを2つの信号のスペクトルの比の対数に対して使用する。実数部分は信号エネルギーの対数比であり、虚数部分は相互位相である。そのように、ここでは、振幅差と位相差の両方を同時にモデル化する。適当なマイクロフォンアレイがある場合、2つのマイクロフォンのみを使用して3次元空間で音源を識別することができる。
ここではまた、モデルをより正確にするために周波数帯域選択を実行することもできる。上述したように、ここでは、すべての周波数に対して適当にトレーニングされる広帯域トレーニング信号を使用する。しかしながら、トレーニング信号が「白色」でない場合、トレーニング信号と試験信号とがともに最大量のエネルギーを有する周波数帯域を選択し、それらの周波数に対して位相モデルを評価することができる。
本発明を、好ましい実施形態の例を用いて説明したが、本発明の精神及び範囲内でさまざまな他の適応及び変更を行ってもよい、ということが理解されるべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内にあるこうしたすべての変形及び変更を包含することである。
本発明の一実施形態による、捕捉された位相ラップ信号から隠れマルコフモデルをトレーニングするシステム及び方法のブロック図である。 本発明の一実施形態による、図1の隠れマルコフモデルと捕捉された位相ラップ信号とを使用して信号源を追跡する方法のブロック図である。 2つのマイクロフォンによって捕捉された音響位相差データのヒストグラムである。 位相ラッピングを示す音響データのヒストグラムである。 位相ラップガウス分布のグラフである。 音源軌跡及びマイクロフォンの概略図である。 図8の結果と比較するために、人工信号源に対し従来のモデルで取得された結果を示したヒストグラムである。 図7の結果と比較するために、人工信号源に対し位相ラップモデルで取得された結果を示したヒストグラムである。 図10の結果と比較するために、実信号源に対し従来のモデルで取得された結果を示したヒストグラムである。 図9の結果と比較するために、実信号源に対し位相ラップモデルで取得された結果を示したヒストグラムである。

Claims (16)

  1. 信号源の軌跡をモデル化する方法であって、
    センサのアレイにおける各センサに対し、複数の既知の軌跡に沿って移動する信号源によって生成されるトレーニング信号を獲得すること、
    前記トレーニング信号のすべての一意の対の間の位相差を確定すること、及び
    前記信号源の前記複数の既知の軌跡をモデル化する複数のガウス分布を含む位相ラップ隠れマルコフモデルを前記位相差から作成すること
    を備えた信号源の軌跡をモデル化する方法。
  2. 前記センサのアレイにおける各センサに対し、未知の軌跡に沿って移動する前記信号源によって生成される試験信号を獲得すること、
    前記試験信号のすべての対の間の位相差を確定すること、及び
    前記位相ラップ隠れマルコフモデル及び前記試験信号の前記位相差に従って、前記未知の軌跡が前記複数の既知の軌跡のうちの1つに類似する尤度を確定すること
    をさらに備えた請求項1に記載の方法。
  3. 前記信号源は音響信号を生成する、請求項1に記載の方法。
  4. 前記信号源は電磁信号を生成する、請求項1に記載の方法。
  5. 前記複数のガウス分布は、k個の2πの位相区間において繰り返される、請求項1に記載の方法。
  6. 前記複数のガウス分布を合計すること
    をさらに備えた請求項1に記載の方法。
  7. 期待値最大化プロセスを用いて前記複数のガウス分布のパラメータを確定すること
    をさらに備えた請求項1に記載の方法。
  8. 前記kは、k∈−1,0,1である、請求項5に記載の方法。
  9. 前記kは、k∈−2,−1,0,1,2である、請求項5に記載の方法。
  10. 前記位相ラップ隠れマルコフモデルは単変量モデルf(x)であって、
    前記単変量モデルを多変量モデルとして表すように
    Figure 2007033445
    に従って各次元iに対し前記単変量モデルの積をとること
    をさらに備えた請求項1に記載の方法。
  11. 前記位相ラップ隠れマルコフモデルの事後確率を確定すること
    をさらに備えた請求項1に記載の方法。
  12. 前記位相差は、所定の周波数範囲について確定される、請求項1に記載の方法。
  13. 前記作成することは、教師つきトレーニングを使用して実行される、請求項1に記載の方法。
  14. 前記作成することは、k平均クラスタリングを使用して教師なしトレーニングを使用して実行され、前記尤度は距離である、請求項1に記載の方法。
  15. 信号源の軌跡をモデル化するシステムであって、
    複数の既知の軌跡に沿って移動する信号源によって生成されるトレーニング信号を獲得するように構成された複数のセンサからなるアレイと、
    前記トレーニング信号のすべての一意の対の間の位相差を確定する手段と、
    前記信号源の前記複数の既知の軌跡をモデル化する複数のガウス分布を含む位相ラップ隠れマルコフモデルを前記位相差から作成する手段と
    を備えた信号源の軌跡をモデル化するシステム。
  16. 前記システムは、未知の軌跡に沿って移動する前記信号源によって生成される試験信号が捕捉されるものであって、
    前記試験信号のすべての対の間の位相差を確定する手段と、
    前記位相ラップ隠れマルコフモデル及び前記試験信号の前記位相差に従い、前記未知の軌跡が前記複数の既知の軌跡のうちの1つに類似する尤度を確定する手段と
    をさらに備えた請求項15に記載のシステム。
JP2006201607A 2005-07-25 2006-07-25 信号源の軌跡をモデル化する方法及びシステム Expired - Fee Related JP4912778B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/188,896 US7475014B2 (en) 2005-07-25 2005-07-25 Method and system for tracking signal sources with wrapped-phase hidden markov models
US11/188,896 2005-07-25

Publications (2)

Publication Number Publication Date
JP2007033445A true JP2007033445A (ja) 2007-02-08
JP4912778B2 JP4912778B2 (ja) 2012-04-11

Family

ID=37718662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006201607A Expired - Fee Related JP4912778B2 (ja) 2005-07-25 2006-07-25 信号源の軌跡をモデル化する方法及びシステム

Country Status (2)

Country Link
US (1) US7475014B2 (ja)
JP (1) JP4912778B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063740A (zh) * 2013-03-21 2014-09-24 日电(中国)有限公司 办公室实体组识别系统、方法及装置
JPWO2021181517A1 (ja) * 2020-03-10 2021-09-16
WO2022102133A1 (ja) * 2020-11-16 2022-05-19 日本電気株式会社 軌道推定装置、軌道推定システム、軌道推定方法、およびプログラム記録媒体
CN114912389A (zh) * 2022-04-01 2022-08-16 上海交通大学 一种用于判断多陷阱rtn信号中陷阱数的方法
CN114974299A (zh) * 2022-08-01 2022-08-30 腾讯科技(深圳)有限公司 语音增强模型的训练、增强方法、装置、设备、介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147356A1 (en) * 2006-12-14 2008-06-19 Leard Frank L Apparatus and Method for Sensing Inappropriate Operational Behavior by Way of an Array of Acoustical Sensors
US8325562B2 (en) 2007-02-09 2012-12-04 Shotspotter, Inc. Acoustic survey methods in weapons location systems
US20090030683A1 (en) * 2007-07-26 2009-01-29 At&T Labs, Inc System and method for tracking dialogue states using particle filters
US8150054B2 (en) * 2007-12-11 2012-04-03 Andrea Electronics Corporation Adaptive filter in a sensor array system
US9392360B2 (en) 2007-12-11 2016-07-12 Andrea Electronics Corporation Steerable sensor array system with video input
WO2009076523A1 (en) 2007-12-11 2009-06-18 Andrea Electronics Corporation Adaptive filtering in a sensor array system
KR101791907B1 (ko) * 2011-01-04 2017-11-02 삼성전자주식회사 위치 기반의 음향 처리 장치 및 방법
ITTO20110477A1 (it) * 2011-05-31 2012-12-01 Torino Politecnico Metodo per aggiornare un grafo di fattori di uno stimatore di probabilita' a posteriori.
US9232309B2 (en) 2011-07-13 2016-01-05 Dts Llc Microphone array processing system
KR20130013248A (ko) * 2011-07-27 2013-02-06 삼성전자주식회사 3d 영상 재생 기기 및 그 3d 영상 제어 방법
US9111542B1 (en) * 2012-03-26 2015-08-18 Amazon Technologies, Inc. Audio signal transmission techniques
JP6723120B2 (ja) * 2016-09-05 2020-07-15 本田技研工業株式会社 音響処理装置および音響処理方法
US20180128897A1 (en) * 2016-11-08 2018-05-10 BreqLabs Inc. System and method for tracking the position of an object
CN108417224B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 双向神经网络模型的训练和识别方法及系统
US10996335B2 (en) * 2018-05-09 2021-05-04 Microsoft Technology Licensing, Llc Phase wrapping determination for time-of-flight camera
US10872602B2 (en) * 2018-05-24 2020-12-22 Dolby Laboratories Licensing Corporation Training of acoustic models for far-field vocalization processing systems
CN116776158B (zh) * 2023-08-22 2023-11-14 长沙隼眼软件科技有限公司 目标分类方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005785A (ja) * 2001-06-26 2003-01-08 National Institute Of Advanced Industrial & Technology 音源の分離方法および分離装置
WO2004055782A1 (en) * 2002-12-13 2004-07-01 Mitsubishi Denki Kabushiki Kaisha Method and system for separating plurality of acoustic signals generated by plurality of acoustic sources
JP2006276020A (ja) * 2005-03-28 2006-10-12 Mitsubishi Electric Research Laboratories Inc 位置標定モデルを構築するコンピュータ実施方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3302266B2 (ja) * 1996-07-23 2002-07-15 沖電気工業株式会社 ヒドン・マルコフ・モデルの学習方法
CN1291324A (zh) * 1997-01-31 2001-04-11 T-内提克斯公司 检测录制声音的系统和方法
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
US6449593B1 (en) * 2000-01-13 2002-09-10 Nokia Mobile Phones Ltd. Method and system for tracking human speakers
US6539351B1 (en) * 2000-02-04 2003-03-25 International Business Machines Corporation High dimensional acoustic modeling via mixtures of compound gaussians with linear transforms
US6629073B1 (en) * 2000-04-27 2003-09-30 Microsoft Corporation Speech recognition method and apparatus utilizing multi-unit models
JP2005525003A (ja) * 2001-09-05 2005-08-18 ニューベリイ ネットワークス,インコーポレーテッド 無線ネットワークにおける位置検出および場所追跡
US6788243B2 (en) * 2001-09-06 2004-09-07 Minister Of National Defence Of Her Majestry's Canadian Government The Secretary Of State For Defence Hidden Markov modeling for radar electronic warfare
US6731240B2 (en) * 2002-03-11 2004-05-04 The Aerospace Corporation Method of tracking a signal from a moving signal source
US6940540B2 (en) * 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
US7643989B2 (en) * 2003-08-29 2010-01-05 Microsoft Corporation Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint
GB2414369B (en) * 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
US7263472B2 (en) * 2004-06-28 2007-08-28 Mitsubishi Electric Research Laboratories, Inc. Hidden markov model based object tracking and similarity metrics
US20060245601A1 (en) * 2005-04-27 2006-11-02 Francois Michaud Robust localization and tracking of simultaneously moving sound sources using beamforming and particle filtering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005785A (ja) * 2001-06-26 2003-01-08 National Institute Of Advanced Industrial & Technology 音源の分離方法および分離装置
WO2004055782A1 (en) * 2002-12-13 2004-07-01 Mitsubishi Denki Kabushiki Kaisha Method and system for separating plurality of acoustic signals generated by plurality of acoustic sources
JP2006276020A (ja) * 2005-03-28 2006-10-12 Mitsubishi Electric Research Laboratories Inc 位置標定モデルを構築するコンピュータ実施方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063740A (zh) * 2013-03-21 2014-09-24 日电(中国)有限公司 办公室实体组识别系统、方法及装置
JPWO2021181517A1 (ja) * 2020-03-10 2021-09-16
WO2021181517A1 (ja) * 2020-03-10 2021-09-16 日本電気株式会社 軌道推定装置、軌道推定システム、軌道推定方法、およびプログラム記録媒体
JP7283628B2 (ja) 2020-03-10 2023-05-30 日本電気株式会社 軌道推定装置、軌道推定システム、軌道推定方法、およびプログラム
WO2022102133A1 (ja) * 2020-11-16 2022-05-19 日本電気株式会社 軌道推定装置、軌道推定システム、軌道推定方法、およびプログラム記録媒体
JPWO2022102133A1 (ja) * 2020-11-16 2022-05-19
JP7414152B2 (ja) 2020-11-16 2024-01-16 日本電気株式会社 軌道推定装置、軌道推定システム、軌道推定方法、およびプログラム
CN114912389A (zh) * 2022-04-01 2022-08-16 上海交通大学 一种用于判断多陷阱rtn信号中陷阱数的方法
CN114974299A (zh) * 2022-08-01 2022-08-30 腾讯科技(深圳)有限公司 语音增强模型的训练、增强方法、装置、设备、介质
CN114974299B (zh) * 2022-08-01 2022-10-21 腾讯科技(深圳)有限公司 语音增强模型的训练、增强方法、装置、设备、介质

Also Published As

Publication number Publication date
US20070033045A1 (en) 2007-02-08
JP4912778B2 (ja) 2012-04-11
US7475014B2 (en) 2009-01-06

Similar Documents

Publication Publication Date Title
JP4912778B2 (ja) 信号源の軌跡をモデル化する方法及びシステム
JP4937622B2 (ja) 位置標定モデルを構築するコンピュータ実施方法
EP2123116B1 (en) Multi-sensor sound source localization
US7626889B2 (en) Sensor array post-filter for tracking spatial distributions of signals and noise
CN109839612A (zh) 基于时频掩蔽和深度神经网络的声源方向估计方法
JP2018077479A (ja) マルチモーダル整合方式を使用するオブジェクト認識
Salvati et al. A weighted MVDR beamformer based on SVM learning for sound source localization
Naqvi et al. Multimodal (audio–visual) source separation exploiting multi-speaker tracking, robust beamforming and time–frequency masking
Traa et al. Multichannel source separation and tracking with RANSAC and directional statistics
Brutti et al. Tracking of multidimensional TDOA for multiple sources with distributed microphone pairs
CN110544490A (zh) 一种基于高斯混合模型和空间功率谱特征的声源定位方法
Smaragdis et al. Position and trajectory learning for microphone arrays
JP2023550434A (ja) 改良型音響源測位法
Traa et al. Blind multi-channel source separation by circular-linear statistical modeling of phase differences
SongGong et al. Acoustic source localization in the circular harmonic domain using deep learning architecture
Ferreira et al. Real-time blind source separation system with applications to distant speech recognition
Bezzam et al. A study on more realistic room simulation for far-field keyword spotting
Ick et al. Blind acoustic room parameter estimation using phase features
Smaragdis et al. Learning source trajectories using wrapped-phase hidden Markov models
Günther et al. Online estimation of time-variant microphone utility in wireless acoustic sensor networks using single-channel signal features
Brutti et al. On the use of early-to-late reverberation ratio for ASR in reverberant environments
Raikar et al. Effect of Microphone Position Measurement Error on RIR and its Impact on Speech Intelligibility and Quality.
KR102346133B1 (ko) 심층 신경망 기반의 방향각 추정 방법
Jia et al. Two-dimensional detection based LRSS point recognition for multi-source DOA estimation
Firoozabadi et al. Combination of nested microphone array and subband processing for multiple simultaneous speaker localization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120117

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120118

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150127

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees