JP7254938B2 - 音響源用の結合音源定位及び分離方法 - Google Patents

音響源用の結合音源定位及び分離方法 Download PDF

Info

Publication number
JP7254938B2
JP7254938B2 JP2021539331A JP2021539331A JP7254938B2 JP 7254938 B2 JP7254938 B2 JP 7254938B2 JP 2021539331 A JP2021539331 A JP 2021539331A JP 2021539331 A JP2021539331 A JP 2021539331A JP 7254938 B2 JP7254938 B2 JP 7254938B2
Authority
JP
Japan
Prior art keywords
dictionary atoms
dictionary
function
time
atoms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021539331A
Other languages
English (en)
Other versions
JP2022500710A (ja
Inventor
ヴルカイ チョテル メルト
ハジハビボール フセイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aselsan Elektronik Sanayi ve Ticaret AS
Orta Dogu Teknik Universitesi
Original Assignee
Aselsan Elektronik Sanayi ve Ticaret AS
Orta Dogu Teknik Universitesi
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aselsan Elektronik Sanayi ve Ticaret AS, Orta Dogu Teknik Universitesi filed Critical Aselsan Elektronik Sanayi ve Ticaret AS
Publication of JP2022500710A publication Critical patent/JP2022500710A/ja
Application granted granted Critical
Publication of JP7254938B2 publication Critical patent/JP7254938B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

技術分野
本発明は、音源の音の到来方向の推定及び音源分離を可能にする方法に関するものであり、この方法は、特定数の方向について球面調和分解係数から計算したステアード(指向)応答関数の辞書ベース表現の空間的重み付けによるものであり、これらの球面調和分解係数は、音場のマイクロホンアレイ録音から、あるいは他の手段を用いることによって、のいずれかで得られる。
従来技術
複数のマイクロホンから成るマイクロホンアレイを用いて、音響源を録音して、音場の空間的特徴が抽出される。単一のマイクロホンを用いる代わりに複数のマイクロホンを用いることの基本的利点は、音源の音の到来方向を推定する能力、及び音場をフィルタ処理して音場の空間分析を実行する能力にある。時間-周波数領域内でオーバーラップ(重複)する複数の音響信号の到来方向の推定及び分離は、リアルタイムの動作に悪影響を与える重大な技術的困難性を含む。さらに、利用可能な方法は、高レベルの反響音を有する閉鎖環境では良好に機能しない。機械学習を用いる既存の方法の一部では、速度及び異なるマイクロホンアレイへの適応といった問題が生じる。
上述した欠点、及び既存の解決策が上記の問題を解決するには不十分であることにより、関係する技術分野において進展がなされることが必要であると考えられてきた。
発明の目的
複数の音源が動作する環境内でマイクロホンを用いて録音された音響信号を、これらの音源の混合音と称する。本発明の主目的は、音源の混合音からの音源の分離を可能にすることにあり、この分離は、有限個の方向について、球面調和分解係数を用いて計算したステアード応答関数の辞書ベース表現の空間的重み付けにより、これらの球面調和分解係数は、音場のマイクロホンアレイ録音から、あるいは他の方法を用いる(例えば、合成する)ことによって、のいずれかで得られる。辞書中に存在し、上記辞書ベース表現において用いられるテンプレート・ベクトルを原子(アトム)と称する。本発明中に開示するアルゴリズムは、平面波を表現する空間的な帯域制限関数の有限個の点で取得したサンプルをその要素として含む(即ち、線形代数的な意味での)ベクトルの使用に基づく。これらの関数は、(球面のような)分析面上の所定位置において計算する。
ステアード応答関数を用いて得られる方向マップを十分良好に表現することができる原子、及びこれらの原子の振幅を決定する。音源の音の到来方向も、同じ方法を用いて、隣接関係を用いて音源候補をグループ化することによって計算される。このようにして、到来方向は、マイクロホンアレイを用いて捕捉した音源の録音から得ることができる。その後に、方向情報及び/または所定音源の音の到来方向を用いて、音源を分離する。
音源分離に用いられる最も基本的な方法の1つを最大指向係数ビーム形成と称する。最大指向係数ビーム形成と比べると、SIR(Signal to Interference Ratio:信号対干渉雑音(混信)比)、SDR(Signal to Distortion Ratio:信号対歪み比)、及びSAR(Signal to Artifacts Ratio:信号対アーティファクト比)の8~10dBの範囲内の改善が、大きい残響時間を有する音響環境内で開示する方法を用いて得られる。
構造的及び特性的な特徴、及びその利点の全部を、以下の詳細な説明を用いて、添付した図面を参照しながら説明する。
音源の定位及び分離の流れ図である。 分離方法の流れ図である。 定位方法の流れ図である。 単一の時間-周波数ビンから得ることができるステアード応答関数を用いて得られる方向マップを示す図である。 応答関数を表現するに当たり用いることができるいくつかの辞書要素を示す図である。 ヒストグラム中のピークの(異なる原子を分類する方法に関係する)隣接関係を示す図である。 フォン・ミーゼス関数の異なるk値について得られる方向応答性、及び最大指向性(最大DF)の方向応答性を示す図である。
これらの図面は必ずしも原寸に比例しておらず、本発明の明確な理解にとって重要でない細部は省略していることがある。このこととは別に、少なくとも実質的に同一の要素、あるいは少なくとも実質的に同じ機能を有する要素は、同じ参照番号を用いて示している。
発明の詳細な説明
この詳細な説明では、本発明の好適な実施形態を説明し、これらの実施形態は、限定的効果を何ら有さず、主題をさらに説明するために提供する。
本発明は、音源の定位及び分離のための2つの異なるアルゴリズムを含む。これらのアルゴリズムは、一緒に用いることも互いに独立して用いることもできる。開示する発明の流れを示すブロック図を図1に示す。
図2に、音源分離方法のブロック図を示す。入力は音源位置及びマイクロホンアレイ録音であり、出力は分離された音声(サウンド)ファイルである。このアルゴリズムの異なるステップの細部は以下に挙げる。
A.球面調和分解係数の計算:マイクロホンアレイ録音、及びこうしたアレイが含むマイクロホンの位置を用いて、調和級数を計算することができる。調和級数を用いて、マイクロホンアレイの周りの音場を、球関数または円柱関数の周期関数を用いて定義する。開示する方法は、この音場の球面調和分解を直接用いることもできる。こうした入力が存在する場合、このステップを実行する必要がない。
B.時間-周波数変換:処理すべき球面調和係数級数の各々を、時間-周波数領域内で適切な可逆表現により表現する。さらなるステップにおける手順は、時間-周波数ビン毎に別個に実行する。ステップAにおける手順は線形であるので、これらの手順は逆の順序で実行することもできる。
C.ビーム形成:次のステップで使用する信号を、時間-周波数ビン毎に、球面調和係数を得た原点から放射状に外向きの有限個の方向に、最大の指向係数のビームを指向させることによって計算する。このことは、球面調和分解係数に適切な重み付けをすることによって実現される。このアルゴリズムが用いるパラメータは、ビームを指向させる方向の数である。
D.決定した方向における辞書原子の生成:平面波については、最大の指向性を有するビームの方向応答を、以下に述べるように閉形式の関数として理論的に記述することができる。このステップでは、ステアード・ビーム形成関数の表現中に用いる原子が、この関数を球面(または他の分析面)上で有限個の方向においてサンプリングすることによって得られる。このプロセスは、方法を加速させるためにオフラインで実行することができるだけでなく、以前の分析の結果として得られた音源方向に基づいて、実行時にビン毎に別個に適用することもできる。
E.表現:このステップは、最小数の原子を用いた特定基準による経済的な方法での、上記ビーム形成結果の表現の計算を含む。上述した辞書原子をこのステップで用いる。このステップの結果は、前に計算した指定方向の原子の線形和として音場を表現することによる、分析される時間-周波数ビン内のこれらの原子毎の複素数値または実数値の係数の計算である。
F.ステップDで決定した辞書原子を、所定の音源方向を用いて空間フィルタで処理する。このプロセスについては、方向が既知である原子毎に計算した係数に、分離すべき方向を強調する方向性ゲインを乗算する。ここでは、閉形式で定義した重み関数を用いて、この方向性ゲインを計算することができる。方向性の重み付けを適応的に実行することもできる。方向性の重み付けをしたビーム形式は、上記の重み付けした係数、及び時間-周波数ビン毎の対応する原子を用いて得ることができる。
G.再構成:分離した音源を時間領域内で再構成し、この再構成は、前のステップで得られた新たな時間-周波数表現を反転させることによって行う。
図3に、上記の測位方法のブロック図を示す。上述したA、B、C、D、Eのステップは上記2つのアルゴリズムに共通であり、以下に記述する追加的なステップは音源方向推定のみに用いる。
H.選択した原子に基づく方向ヒストグラムの形成:特定の時間範囲におけるステアード・ビーム形式を表現するために用いる原子の統計的分布を、ヒストグラムまたは他の方法で形成する。ヒストグラムを用いる場合、ビンの数は辞書内の原子の数と同じになるように選択する。
I.クラスタリング(分類):前のステップの結果として得られる分布のピーク点を計算する。到来方向は、これらのピークに対応する原子間の隣接関係を用いることによって推定することができる。
上記で概略的に表現した定義は、以下に記述する好適なパラメータによる解決策の実施形態として用いている。音場の球面調和分解は、剛体球マイクロホンアレイで行った録音から得られる。短時間フーリエ変換を時間-周波数変換として用いる。詳細は以下に挙げるルジャンドル(Legendre)インパルス関数を球面上でサンプリングして、辞書原子を生成する。直交マッチング追跡アルゴリズムを表現段階で使用し、最大指向係数ビーム形成を用いてステアード・ビームを計算する。球面上で定義されるフォン・ミーゼス(Von Mises)関数を、位置依存性の重み付けに用いる。到来方向推定用の分布は、ヒストグラムを用いることによって得られる。好適な実施形態では、時間-周波数変換と球面調和分解の順序を交換し、このことは関係する演算の線形性により等価な結果をもたらす。
短時間フーリエ変換:マイクロホンアレイから得られる信号の各々を、短時間フーリエ変換を用いて時間-周波数領域に変換する。あらゆる種類の窓関数及び時間長をこのプロセス用に用いることができるが、好適な実施形態では、2048サンプルのハン(Hann)窓(ハニング・ウィンドウ)を50%のオーバーラップで用いる。
球面調和分解の計算:このステップでは、球面調和分解を時間-周波数ビン毎に次式のように計算する:
Figure 0007254938000001
ここに、Mはマイクロホンの数であり、γiは関係する方形球面上の重みであり、kは短時間フーリエ変換を用いることによって得られた時間-周波数ビンの指標(インデックス)であり、Ωi=(θii)は球面上のマイクロホンの位置である。球面調和関数
(外1)
Figure 0007254938000002
は次式のように定義される:
Figure 0007254938000003
最大指向性ビーム形成:このプロセスは平面波分解としても知られている。最大指向性ビーム形成は球面調和係数を用いて次式のように計算することができる:
Figure 0007254938000004
ここに、Ω=(θ,φ)は最大指向係数のビームの指向方向であり、jn(・)、
(外2)
Figure 0007254938000005
、j n(・)、及び
(外3)
Figure 0007254938000006
は球ベッセル関数及び球ハンケル(Hankel)関数であり、その一次微分γaは球状マイクロホンの半径であり、周波数等価関数は次式のように与えられる:
Figure 0007254938000007
所定方向における平面波ルジャンドル・インパルス関数の定義:
有限個のS平面波についての最大指向係数のビーム形式は以下のように与えられる:
Figure 0007254938000008
ここに、
Figure 0007254938000009
はΩ=(θss)の所に最大値を有するルジャンドル・インパルスである。この関数を球面上の有限個の点でサンプリングして、以下のステップにおける直交マッチング追跡アルゴリズムで用いて辞書内の原子を得る。
直交マッチング追跡:直交マッチング追跡は、所定の時間-周波数ビン内のステアード応答関数を少数の辞書原子を用いて表現するために用いる反復法である。
このため、所定の時間-周波数ビンにおけるステアード応答関数は、辞書要素の適切な選択を用いて表現することができる。アルゴリズムの流れは以下の通りである:
1.最大指向係数のビームを指向させて、分析する時間-周波数ビンについて、球面全体をカバーする異なる方向におけるステアード応答関数を計算して、この所定の時間-周波数ビンについての音場の方向マップを生じさせる。
2.これらの値で形成されるベクトルに、辞書原子から成る行列を乗算して、結果的なベクトル中の最高値に対応する原子を選択する。
3.この原子を用いて得られる近似値を上記ベクトルから減算して、残差ベクトルを形成する。
4.この残差ベクトルに辞書原子から成る行列を乗算して、結果的なベクトル内の最高値に対応する原子を選択する。
5.残差ベクトルのノルムが所定閾値を下回るまで、第3及び第4ステップを反復する。
6.原子の線形結合から成る近似の係数を、最小二乗アルゴリズムを用いることによって得る。
例えば、図4中のステアード応答関数は、図5中に挙げる辞書原子のうち1番目及び2番目の原子のみを用いることによって得ることができる。3番目の原子は使用しない。
方向ヒストグラムを形成する:直交追跡アルゴリズムを用いてステアード応答関数を適切に表現する原子を見出した後に計算されるヒストグラムは、所定の期間中にこれらの原子が用いられる頻度を示す。
ヒストグラム分類(クラスタリング)及び音源定位:音源定位は、ヒストグラム中の極大点の方向の隣接関係に基づく分類原理に基づいている。位置の隣接関係はサイド(副)情報であり、音源が位置する方向は、分類された位置のそれぞれに向かう方向の平均をとることによって計算される。この段階の出力が、環境内の音源の成分及び方向である。ヒストグラム中のピークどうしの隣接関係を図6に示す。従って、グループ1はP7、P13から成り;グループ2はP6、P21及びP22から成る。
計算した音源方向、及びこれらの方向に対応する線形の重みを、この段階で用いる。本発明の好適な実施形態では、各原子に対応する線形の重みが、当該原子の中心方向において求められた所望音源の方向に平均値を有するフォン・ミーゼス関数によって重み付けされる。フォン・ミーゼス関数による重み付けを用いて得られた空間フィルタを図7に、異なる密度パラメータ(k)について示す。最大指向係数のビームも比較のために示す。kの値がフォン・ミーゼス関数の空間的選択性を決定する。この値が小さいと、この値は、上記方法に、この方法の入力をより広い方向範囲でフィルタ処理させ、この値を増加させることは、より高い選択性を有するより尖鋭なビームを生じさせて、より正確な音源の分離を生じさせる。このステップでは、各時間-周波数ビンにおいて分離されることになる音源毎に1つの複素数値が得られる。
逆短時間フーリエ変換:各音源毎に得られた新たな時間-周波数表現を、逆短時間フーリエ変換を用いて変換して時間領域に戻して、分離された音源信号を得る。

Claims (9)

  1. コンピュータによって実行され、1つ以上の音源からの音の到来方向の推定、及び音源の混合体からの分離を可能にする方法であって、前記推定及び分離は、球面調和分解を用いて所定数の方向について計算したステアード・ビーム形成関数の辞書ベース表現の空間的重み付けにより行う方法において、
    複数のマイクロホンまたはセンサから取得した、あるいはインタフェースから入力することができる音場から取得した1つ以上のデジタル音響信号データの球面調和分解を実行することによって、1つ以上のデジタル音響信号データの球面調和分解係数を得るステップと、
    前記球面調和分解係数の各々を変換することによって、複数の時間-周波数ビンを生成するステップと、
    前記時間-周波数ビン毎に、前記球面調和係数を得た原点から放射状に外向きの所定数の方向に、最大の指向係数のビームを指向させることによって、ステアード・ビーム形成関数を計算するステップと、
    前記ステアード・ビーム形成関数を球面上で有限個の方向においてサンプリングすることによって、複数の辞書原子を生成するステップと、
    対応する前記時間-周波数ビンにおける前記ステアード・ビーム形成関数を表現するために必要な前記辞書原子の最小数を決定するステップと、
    所定の時間範囲において前記ステアード・ビーム形成関数を表現するために用いる前記辞書原子の統計的分布を形成するステップと、
    前記辞書原子の前記統計的分布のピーク点を計算するステップと、
    前記計算したピークに対応する前記辞書原子間の隣接関係を用いることによって、前記音の到来方向を推定するステップと、
    前記推定した音の到来方向に依存する関数を用いて、前記ステアード・ビーム形成関数を表現するために用いる前記辞書原子に重み付けをするステップと、
    前記重み付けした辞書原子の、当該辞書原子の隣接関係に応じた和を求めて、前記音源の各々の時間-周波数表現を得るステップと、
    時間-周波数逆変換を実行することによって、分離された音源を特定して、該分離された音源を得るステップと
    を含む方法。
  2. コンピュータによって実行され、2つ以上の音源の混合体からの音源の分離を可能にする方法であって、
    複数のマイクロホンまたはセンサから取得した、あるいはインタフェースから入力することができる音場から取得した1つ以上のデジタル音響信号データの球面調和分解を実行することによって、1つ以上のデジタル音響信号データの球面調和分解係数を得るステップと、
    前記球面調和分解係数の各々を変換することによって、複数の時間-周波数ビンを生成するステップと、
    前記時間-周波数ビン毎に、前記球面調和係数を得た原点から放射状に外向きの所定数の方向に、最大の指向係数のビームを指向させることによって、ステアード・ビーム形成関数を計算するステップと、
    前記ステアード・ビーム形成関数を球面上で有限個の方向においてサンプリングすることによって、複数の辞書原子を生成するステップと、
    対応する前記時間-周波数ビンにおける前記ステアード・ビーム形成関数を表現するために必要な前記辞書原子の最小数を決定するステップと、
    関数を用いて、前記ステアード・ビーム形成関数を表現するために用いる前記辞書原子に重み付けをするステップと、
    前記重み付けした辞書原子の、当該辞書原子の隣接関係に応じた和を求めて、前記音源の各々の時間-周波数表現を得るステップと、
    時間-周波数逆変換を実行することによって、分離された音源を特定して、該分離された音源を得るステップと
    を含む方法。
  3. コンピュータによって実行され、1つ以上の音源の音の到来方向の推定を可能にする方法であって、
    複数のマイクロホンまたはセンサから取得した、あるいはインタフェースから入力することができる音場から取得した1つ以上のデジタル音響信号データの球面調和分解を実行することによって、1つ以上のデジタル音響信号データの球面調和分解係数を得るステップと、
    前記球面調和分解係数の各々を変換することによって、複数の時間-周波数ビンを生成するステップと、
    前記時間-周波数ビン毎に、前記球面調和係数を得た原点から放射状に外向きの所定数の方向に、最大の指向係数のビームを指向させることによって、ステアード・ビーム形成関数を計算するステップと、
    前記ステアード・ビーム形成関数を球面上で有限個の方向においてサンプリングすることによって、複数の辞書原子を生成するステップと、
    対応する前記時間-周波数ビンにおける前記ステアード・ビーム形成関数を表現するために必要な前記辞書原子の最小数を決定するステップと、
    所定の時間範囲において前記ステアード・ビーム形成関数を表現するために用いる前記辞書原子の統計的分布を形成するステップと、
    前記辞書原子の前記統計的分布のピーク点を計算するステップと、
    前記計算したピークに対応する前記辞書原子間の隣接関係を用いることによって、前記音の到来方向を推定するステップと、
    を含む方法。
  4. ルジャンドル・インパルス関数を前記球面上でサンプリングして、複数の前記辞書原子を生成する、請求項1~3のいずれかに記載の方法。
  5. 前記対応する時間-周波数ビンにおける前記ステアード・ビーム形成関数を表現するために必要な辞書原子の選択が、
    前記計算したステアード・ビーム形成関数の値で形成されるベクトルに、前記辞書原子から成る行列を乗算して、結果的なベクトル中の最高値に対応する前記辞書原子を選択するステップと、
    前記辞書原子を用いて得られる近似値を前記ベクトルから減算することによって、残差ベクトルを形成するステップと、
    前記辞書原子から成る前記行列を前記残差ベクトルに乗算して、結果的なベクトル中の最高値に対応する前記辞書原子を選択するステップと、
    前記残差ベクトルのノルムが所定閾値を下回るまで、前記残差ベクトルを形成するステップ及び前記最高値に対応する前記辞書原子を選択するステップを反復するステップと、
    前記辞書原子の線形結合から成る近似の係数を、最小二乗アルゴリズムを用いることによって得るステップと
    を含む、請求項1~4のいずれかに記載の方法。
  6. 前記辞書原子を重み付けための値を、単一の全域的最大値を有する方向関数から例示する、請求項1または2に記載の方法。
  7. 前記辞書原子から成る前記ベクトル及び/または前記辞書原子から成る前記行列が、帯域制限関数で形成される、請求項に記載の方法。
  8. 前記辞書原子から成る前記ベクトル及び/または前記辞書原子から成る前記行列が、方向定位関数から例示される、請求項5または7に記載の方法。
  9. 前記辞書原子から成る前記ベクトル及び/または前記辞書原子から成る前記行列が、実数値関数から例示される、請求項5、7、8のいずれかに記載の方法。
JP2021539331A 2018-09-17 2019-09-16 音響源用の結合音源定位及び分離方法 Active JP7254938B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
TR201813344 2018-09-17
TR2018/13344 2018-09-17
PCT/TR2019/050763 WO2020060519A2 (en) 2018-09-17 2019-09-16 Joint source localization and separation method for acoustic sources

Publications (2)

Publication Number Publication Date
JP2022500710A JP2022500710A (ja) 2022-01-04
JP7254938B2 true JP7254938B2 (ja) 2023-04-10

Family

ID=69888810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021539331A Active JP7254938B2 (ja) 2018-09-17 2019-09-16 音響源用の結合音源定位及び分離方法

Country Status (4)

Country Link
US (1) US11482239B2 (ja)
EP (1) EP3853628A4 (ja)
JP (1) JP7254938B2 (ja)
WO (1) WO2020060519A2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115061089B (zh) * 2022-05-12 2024-02-23 苏州清听声学科技有限公司 一种声源定位方法、系统、介质、设备及装置
CN116008911B (zh) * 2022-12-02 2023-08-22 南昌工程学院 一种基于新型原子匹配准则的正交匹配追踪声源识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016152511A1 (ja) 2015-03-23 2016-09-29 ソニー株式会社 音源分離装置および方法、並びにプログラム
JP2018063200A (ja) 2016-10-14 2018-04-19 日本電信電話株式会社 音源位置推定装置、音源位置推定方法、及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5706782B2 (ja) * 2010-08-17 2015-04-22 本田技研工業株式会社 音源分離装置及び音源分離方法
US9558762B1 (en) * 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
JP5791081B2 (ja) 2012-07-19 2015-10-07 日本電信電話株式会社 音源分離定位装置、方法、及びプログラム
US9706298B2 (en) * 2013-01-08 2017-07-11 Stmicroelectronics S.R.L. Method and apparatus for localization of an acoustic source and acoustic beamforming
US9460732B2 (en) * 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
WO2015013058A1 (en) * 2013-07-24 2015-01-29 Mh Acoustics, Llc Adaptive beamforming for eigenbeamforming microphone arrays
TW201543472A (zh) * 2014-05-15 2015-11-16 湯姆生特許公司 即時音源分離之方法及系統
EP3007467B1 (en) * 2014-10-06 2017-08-30 Oticon A/s A hearing device comprising a low-latency sound source separation unit
WO2016100460A1 (en) 2014-12-18 2016-06-23 Analog Devices, Inc. Systems and methods for source localization and separation
JP6543843B2 (ja) 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
WO2017218399A1 (en) * 2016-06-15 2017-12-21 Mh Acoustics, Llc Spatial encoding directional microphone array
JP6703460B2 (ja) 2016-08-25 2020-06-03 本田技研工業株式会社 音声処理装置、音声処理方法及び音声処理プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016152511A1 (ja) 2015-03-23 2016-09-29 ソニー株式会社 音源分離装置および方法、並びにプログラム
JP2018063200A (ja) 2016-10-14 2018-04-19 日本電信電話株式会社 音源位置推定装置、音源位置推定方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Mert Burkay Coteli et al.,"Multiple Sound Source Localization With Steered Response Power Density and Hierarchical Grid Refinement",IEEE/ACM Transactions on Audio, and Speech, and Language Processing,2018年07月24日,Vol.26, No.11,pp.2215-2229
上山了介 他,"球面マイクロホンアレイのビームフォーマ出力を利用したポストフィルタの設計とドローンへの応用",日本音響学会2018年秋季研究発表会講演論文集CD-ROM,2018年09月14日,pp.283-284

Also Published As

Publication number Publication date
JP2022500710A (ja) 2022-01-04
EP3853628A2 (en) 2021-07-28
EP3853628A4 (en) 2022-03-16
WO2020060519A3 (en) 2020-06-04
US20210225386A1 (en) 2021-07-22
US11482239B2 (en) 2022-10-25
WO2020060519A2 (en) 2020-03-26

Similar Documents

Publication Publication Date Title
JP4195267B2 (ja) 音声認識装置、その音声認識方法及びプログラム
JP7434393B2 (ja) 音場記述を生成する装置、方法、及びコンピュータプログラム
Herzog et al. Eigenbeam-ESPRIT for DOA-vector estimation
JP6987075B2 (ja) オーディオ源分離
CN109616138B (zh) 基于分段频点选择的语音信号盲分离方法和双耳助听系统
US20060188111A1 (en) Microphone apparatus
JP2008145610A (ja) 音源分離定位方法
JP7254938B2 (ja) 音響源用の結合音源定位及び分離方法
Epain et al. Super-resolution sound field imaging with sub-space pre-processing
JP6763332B2 (ja) 収音装置、プログラム及び方法
CN114089279A (zh) 一种基于均匀同心圆麦克风阵列的声目标定位方法
JP6815956B2 (ja) フィルタ係数算出装置、その方法、及びプログラム
Hu et al. Acoustic Signal Enhancement Using Relative Harmonic Coefficients: Spherical Harmonics Domain Approach.
JP5387442B2 (ja) 信号処理装置
JP4738284B2 (ja) ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体
Çöteli et al. Multiple sound source localization with rigid spherical microphone arrays via residual energy test
Antonello et al. Joint source localization and dereverberation by sound field interpolation using sparse regularization
CN109074811B (zh) 音频源分离
JP2018191255A (ja) 収音装置、その方法、及びプログラム
Jiang et al. A Complex Neural Network Adaptive Beamforming for Multi-channel Speech Enhancement in Time Domain
Baraniuk et al. Applications of adaptive time-frequency representations to underwater acoustic signal processing
Olgun et al. Data-driven threshold selection for direct path dominance test
Zhang et al. Fast Blind Source Separation Algorithm Based on Mutual Information Frequency Bin Screening and Time-domain Non-causal Components Truncation
Sharma et al. Development of a speech separation system using frequency domain blind source separation technique
Vincent et al. Audio applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210511

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220621

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230329

R150 Certificate of patent or registration of utility model

Ref document number: 7254938

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150