JP6973254B2 - 信号分析装置、信号分析方法および信号分析プログラム - Google Patents

信号分析装置、信号分析方法および信号分析プログラム Download PDF

Info

Publication number
JP6973254B2
JP6973254B2 JP2018073471A JP2018073471A JP6973254B2 JP 6973254 B2 JP6973254 B2 JP 6973254B2 JP 2018073471 A JP2018073471 A JP 2018073471A JP 2018073471 A JP2018073471 A JP 2018073471A JP 6973254 B2 JP6973254 B2 JP 6973254B2
Authority
JP
Japan
Prior art keywords
signal
sound source
probability
signal source
source position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018073471A
Other languages
English (en)
Other versions
JP2019184747A (ja
Inventor
信貴 伊藤
智広 中谷
章子 荒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018073471A priority Critical patent/JP6973254B2/ja
Priority to US16/980,428 priority patent/US11302343B2/en
Priority to PCT/JP2019/015041 priority patent/WO2019194300A1/ja
Publication of JP2019184747A publication Critical patent/JP2019184747A/ja
Application granted granted Critical
Publication of JP6973254B2 publication Critical patent/JP6973254B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、信号分析装置、信号分析方法および信号分析プログラムに関する。
N´個(N´は0以上の整数)の音源信号が混在する状況において、それぞれ異なる位置で取得された複数の観測信号から、各時刻において各音源が鳴っているか否かを判定するダイアリゼーション技術がある。N´は真の音源数であり、Nは仮定した音源数であるとする。仮定した音源数であるNは、真の音源数N´以上になるように、十分大きく設定しているものとする。具体的に、音声会議などの用途を想定すると、会議の席が6席用意されている場合には、想定される最大の参加者数は6人であるので、N=6とすればよい。なお、実際の参加者は4人である場合には、N´=4になる。
N. Ito, S. Araki, M. Delcroix, and T. Nakatani, "PROBABILISTIC SPATIAL DICTIONARY BASED ONLINE ADAPTIVE BEAMFORMING FOR MEETING RECOGNITION IN NOISY AND REVERBERANT ENVIRONMENTS", in Proceedings of International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Mar. 2017.
ここで、図7を用いて、従来のダイアリゼーション装置について説明する。図7は、従来のダイアリゼーション装置の構成を示す図である。図7に示すように、従来のダイアリゼーション装置1Pは、周波数領域変換部11P、特徴抽出部12P、記憶部13P、音源位置生起確率推定部14Pおよびダイアリゼーション部15Pを有する。
周波数領域変換部11Pは、入力された観測信号y(τ)を受け取り、短時間フーリエ変換などにより時間周波数領域の観測信号y(t,f)を計算する。ここで、τはサンプル点のインデックスであり、t=1,・・・,Tはフレームのインデックスであり、f=1,・・・,Fは周波数ビンのインデックスであり、m=1,・・・,Mはマイクロホンのインデックスである。M個のマイクロホンはそれぞれ異なる位置に配置されているとする。
特徴抽出部12Pは、周波数領域変換部11Pからの時間周波数領域の観測信号y(t,f)を受け取り、音源位置に関する特徴ベクトルz(t,f)を時間周波数点ごとに計算する((1)式)。
Figure 0006973254
ただし、y(t,f)は(2)式であり、||y(t,f)||は(3)式である。特徴ベクトルz(t,f)は、観測信号ベクトルy(t,f)の方向を表す単位ベクトルである。
Figure 0006973254
Figure 0006973254
従来技術では、各音源信号は、K個の音源位置の候補のいずれかから到来すると仮定し、それらの音源位置候補をインデックス(以下、「音源位置インデックス」)k=1,・・・,Kで表す。図8は、音声会議用途を想定した場合における話者の位置候補を説明する図である。例えば、複数の話者がテーブル20の周りに着席して会話をしている状況では、図8に示すように、テーブルの周囲を細かく分割するk(k=1,・・・,K)個の点を音源位置候補とすることができる。なお、図8において、「array」はM個のマイクロホンを表し、nは音源(話者)のインデックスを表し、Nは仮定された音源数(話者数)を表す。
従来技術では、各音源信号はスパースである、すなわち、各音源信号は少数の時間周波数点においてのみ有意なエネルギーを持つ、と仮定する。例えば、音声信号は、この仮定を比較的良く満足することが知られている。このスパース性の仮定の下では、各時間周波数点において、異なる音源信号が重なり合うことは稀であるため、各時間周波数点において、観測信号はただ1つの音源信号だけからなると近似できる。上述の通り、特徴ベクトルz(t,f)は、観測信号ベクトルy(t,f)の方向を表す単位ベクトルであるが、上記のスパース性の近似の下では、これは時間周波数点(t,f)にて観測信号に含まれる音源信号の音源位置に応じた値を取る。そのため、特徴ベクトルz(t,f)は、時間周波数点(t,f)において観測信号に含まれる音源信号の音源位置に応じて異なる確率分布に従う。
そこで、記憶部13Pは、各音源位置候補k、各周波数ビンfに対する特徴ベクトルz(t,f)の確率分布qkfを記憶する(k=1,・・・,K、f=1,・・・,F)。ここで、(1)式の特徴ベクトルz(t,f)の確率分布は、周波数ビンfによって異なる分布形状を取るため、確率分布qkfは、周波数ビンfに依存すると仮定した。
音源位置生起確率推定部14Pは、特徴抽出部12Pからの特徴ベクトルz(t,f)と、記憶部13Pからの確率分布qkfと、を受け取って、フレームごとの音源位置インデックスの確率分布である音源位置生起確率π(t)を推定する。
音源位置生起確率推定部14Pで得られた音源位置生起確率π(t)は、t番目のフレームにおいて、k番目の音源位置候補から音が到来する確率とみなせる。したがって、各フレームtにおいて、音源位置生起確率π(t)は、鳴っている音源信号の音源位置に対応するkの値では大きい値を取り、それ以外のkの値では小さい値を取る。
例えば、フレームtにおいて1個の音源信号のみが鳴っている場合には、音源位置生起確率π(t)は、その音源信号の音源位置に対応するkの値では大きい値を取り、それ以外のkの値では小さい値を取る。また、フレームtにおいて2個の音源信号が鳴っている場合には、音源位置生起確率π(t)はそれらの音源信号の音源位置に対応するkの値では大きい値を取り、それ以外のkの値では小さい値を取る。したがって、フレームtにおける音源位置生起確率π(t)のピークを検出することにより、フレームtにて鳴っている音の音源位置を検出することができる。
そこで、ダイアリゼーション部15Pは、音源位置生起確率推定部14Pからの音源位置生起確率π(t)に基づいて、各フレームにおいて各音源が鳴っているか否かを判定する(すなわち、ダイアリゼーションを行う)。
具体的には、ダイアリゼーション部15Pはまず、フレームごとに音源位置生起確率π(t)のピークを検出する。上述のように、このピークは、当該フレームにおいて鳴っている音の音源位置に対応する。ダイアリゼーション部15Pは、さらに、各音源位置候補1,・・・,Kがどの音源に対応するかという音源位置候補と音源との対応関係が既知であるという仮定の下、各フレームtにおいて、音源位置生起確率π(t)がピークを取る音源位置インデックスkの値に対応する音源が鳴っており、そうでない音源は鳴っていないと判定することにより、ダイアリゼーションを行う。
なお、上記で音源位置候補と音源との対応関係が既知であると仮定した。例えば、各音源の音源位置の大まかな推定値が与えられている場合には、これに基づいて上記の対応関係を求めることができる(各音源位置候補を、最も位置が近い音源に対応付ければよい)。
しかしながら、従来のダイアリゼーション装置では、まず音源位置生起確率π(t)を推定し、次に音源位置生起確率π(t)に基づいてダイアリゼーションを行っていた。その際、音源位置生起確率π(t)は最尤法により最適に推定されていたが、ダイアリゼーションはヒューリスティクスに基づいており、最適ではなかった。また、従来のダイアリゼーション装置では、各音源信号の音源位置を既知としており、音源定位は行えなかった。
本発明は、上記に鑑みてなされたものであって、最適なダイアリゼーションの実行、または、適切な音源定位の実行を可能にする信号分析装置、信号分析方法および信号分析プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の信号分析装置は、複数の信号源位置候補についての時間区間であるフレームごとの各信号源位置候補から信号が到来する確率からなる信号源位置生起確率行列Qを、複数の信号源についての信号源ごとの各信号源位置候補から信号が到来する確率からなる信号源位置確率行列Bと、フレームごとの各信号源からの信号の存在確率からなる信号源存在確率行列Aと、の積でモデル化し、前記のモデル化に基づいて、信号源位置確率行列Bおよび信号源存在確率行列Aの少なくとも一方を推定する推定部を有することを特徴とする。
本発明によれば、最適なダイアリゼーションの実行、または、適切な音源定位の実行を可能にする。
図1は、第1の実施形態に係る信号分析装置の構成の一例を示す図である。 図2は、第1の実施形態に係る信号分析処理の処理手順の一例を示すフローチャートである。 図3は、第1の実施形態の変形例1に係る信号分析装置の構成の一例を示す図である。 図4は、第1の実施形態の変形例2に係る信号分析装置の構成の一例を示す図である。 図5は、第1の実施形態の変形例3に係る信号分析装置の構成の一例を示す図である。 図6は、プログラムが実行されることにより、信号分析装置が実現されるコンピュータの一例を示す図である。 図7は、従来のダイアリゼーション装置の構成を示す図である。 図8は、音声会議用途を想定した場合における話者の位置候補を説明する図である。
以下に、本願に係る信号分析装置、信号分析方法および信号分析プログラムの実施形態を図面に基づいて詳細に説明する。また、本発明は、以下に説明する実施形態により限定されるものではない。なお、以下では、ベクトル、行列又はスカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同じであるとする。また、ベクトル、行列又はスカラーであるAに対し、“~A”と記載する場合は「“A”の直上に“~”が記された記号」と同じであるとする。
[第1の実施形態]
まず、第1の実施形態に係る信号分析装置について説明する。なお、第1の実施形態においては、N´個(N´は0以上の整数)の音源信号が混在する状況において、それぞれ異なる位置でマイクロホンにより取得されたM個(Mは2以上の整数)の観測信号y(τ)(m=1,・・・,M、Mはマイクロホンのインデックス、τはサンプル点のインデックス)が信号分析装置に入力されるものとする。
なお、本第1の実施形態における「音源信号」は、目的信号(例えば、音声)であってもよいし、特定の音源位置から到来する雑音である方向性雑音(例えば、テレビから流れる音楽)であってもよい。また、様々な音源位置から到来する雑音である拡散性雑音を、まとめて1つの「音源信号」とみなしてもよい。拡散性雑音の例としては、雑踏やカフェ等における大勢の人々の話し声、駅や空港における足音、空調による雑音などが挙げられる。
図1および図2を用いて、第1の実施形態の構成と処理について説明する。図1は、第1の実施形態に係る信号分析装置の構成の一例を示す図である。図2は、第1の実施形態に係る信号分析装置の処理の一例を示す図である。第1の実施形態に係る信号分析装置1は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。
図1に示すように、信号分析装置1は、周波数領域変換部11、特徴抽出部12、記憶部13、初期化部(図示しない)、推定部10および収束判定部(図示しない)を有する。
まず、信号分析装置1の各部の概要について説明する。周波数領域変換部11は、入力された観測信号y(τ)を取得し(ステップS1)、短時間フーリエ変換などを用いて、観測信号y(τ)を周波数領域に変換して時間周波数領域の観測信号y(t,f)を得る(ステップS2)。ここで、t=1,・・・,Tはフレームのインデックスであり、f=1,・・・,Fは周波数ビンのインデックスである。
特徴抽出部12は、周波数領域変換部11からの時間周波数領域の観測信号y(t,f)を受け取り、音源位置に関する特徴ベクトル((4)式)を時間周波数点ごとに計算する(ステップS3)。
Figure 0006973254
なお、特徴量が1次元の場合には、z(t,f)はスカラーとなるが、これは当然1次元のベクトルともみなせることから、この場合でも、式中では太字のzを用いて表し((5)式参照)、特徴ベクトルと称する。
Figure 0006973254
本実施形態では、各音源信号はK個の音源位置の候補のいずれかから到来すると仮定し、それらの音源位置候補をインデックス(以下、「音源位置インデックス」)1,・・・,Kで表す。例えば、音源が円卓の周りに着席して会話している複数の話者であり、M個のマイクロホンが円卓の中央の数cm四方程度の小領域内に置かれており、音源位置として円卓の中央から見たときの音源の方位角のみに注目するとき、0°〜360°をK等分したK個の方位角Δφ,2Δφ,・・・,KΔφ(Δφ=360°/K)を音源位置候補とすることができる。この例に限らず、一般に任意の所定のK点を、音源位置候補として指定することができる。
また、音源位置候補は、拡散性雑音を表す音源位置候補でもよい。拡散性雑音は、1つの音源位置から到来するのではなく、多数の音源位置から到来する。このような拡散性雑音も「多数の音源位置から到来する」という1つの音源位置候補とみなすことにより、拡散性雑音が存在する状況でも正確な推定が可能になる。
記憶部13は、各音源位置候補k、各周波数ビンfに対する特徴ベクトルz(t,f)の確率分布qkfを記憶する(k=1,・・・,K、f=1,・・・,F)。
図示しない初期化部は、フレームごとの各音源からの信号の存在確率である音源存在確率α(t)(n=1,・・・,Nは音源インデックス)と、音源ごとの各音源位置候補から信号が到来する確率(音源位置候補のインデックスである音源位置インデックスの音源ごとの確率分布)である音源位置確率βknと、を初期化する(ステップS4)。例えば、初期化部は、乱数に基づいてこれらを初期化すればよい。
推定部10は、複数の音源位置候補についての時間区間であるフレームごとの各音源位置候補から信号が到来する確率からなる音源位置生起確率行列Qを、複数の音源についての音源ごとの各音源位置候補から信号が到来する確率からなる音源位置確率行列Bと、フレームごとの各音源からの信号の存在確率からなる音源存在確率行列Aと、の積でモデル化し、前記のモデル化に基づいて、音源位置確率行列Bおよび音源存在確率行列Aの少なくとも一方を推定する。推定部10は、事後確率更新部14、音源存在確率更新部15、音源位置確率更新部16を有する。
事後確率更新部14は、特徴抽出部12からの特徴ベクトルz(t,f)と、記憶部13からの確率分布qkfと、音源存在確率更新部15からの音源存在確率(ただし例外として、事後確率更新部14における最初の処理の際には、初期化部からの音源存在確率)α(t)と、音源位置確率更新部16からの音源位置確率(ただし例外として、事後確率更新部14における最初の処理の際には、初期化部からの音源位置確率)βknと、を受け取って、事後確率γkn(t,f)を計算し、更新する(ステップS5)。ここで、事後確率γkn(t,f)とは、特徴ベクトルz(t,f)が与えられた下での音源位置インデックスおよび音源インデックスの同時分布である。
音源存在確率更新部15は、事後確率更新部14からの事後確率γkn(t,f)を受け取って、音源存在確率α(t)を更新する(ステップS6)。
音源位置確率更新部16は、事後確率更新部14からの事後確率γkn(t,f)を受け取って、音源位置確率βknを更新する(ステップS7)。
図示しない収束判定部は、処理が収束したかどうかの判定を行う(ステップS8)。収束判定部は、収束していないと判定した場合(ステップS8:No)、事後確率更新部14での処理(ステップS5)に戻って、処理が継続される。一方、収束したと収束判定部が判定した場合(ステップS8:Yes)、音源存在確率更新部15が音源存在確率α(t)を、音源位置確率更新部16が音源位置確率βknを、それぞれ出力し(ステップS9)、信号分析装置1での処理が終了する。
次に、第1の実施形態の処理の詳細について説明する。周波数領域変換部11での処理については上述の通りである。特徴抽出部12において抽出される特徴ベクトルz(t,f)は、どのような特徴ベクトルであってもよいが、本第1の実施形態では、その一例として、(6)式の特徴ベクトルz(t,f)を用いる。
Figure 0006973254
ただし、y(t,f)は(7)式であり、||y(t,f)||は(8)式である(上付きのTは転置を表す)。
Figure 0006973254
Figure 0006973254
(6)式の特徴ベクトルについては、参考文献1「H. Sawada, S. Araki, and S. Makino, “Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 3, pp. 516−527, Mar. 2011.」を参照されたい。
本第1の実施形態では、特徴抽出部12で抽出された特徴ベクトルz(t,f)の確率分布p(z(t,f))を、(9)式でモデル化する。
Figure 0006973254
ここで、π(t)は、フレームごとの音源位置インデックスの確率分布である音源位置生起確率である。π(t)は確率であるから、当然、次の(10)式を満たすものとする。
Figure 0006973254
(9)式のモデルは、各時間周波数点(t,f)における特徴ベクトルz(t,f)が、次の生成過程に基づいて生成されるという仮定に基づいている。
1.(t,f)における観測信号y(t,f)に含まれる音源信号の音源位置を表す音源位置インデックスk(t,f)が、(11)式の確率分布に従って生成される。すなわち、(t,f)にて観測信号y(t,f)に含まれる音源信号がk番目の音源位置候補から到来する確率はπ(t)である(k=1,・・・,K)。
Figure 0006973254
2.(t,f)における観測信号y(t,f)に含まれる音源信号の音源位置を表す音源位置インデックスがk(t,f)=kであるという条件の下で、特徴ベクトルz(t,f)が、(12)式の条件付き分布に従って生成される。すなわち、条件k(t,f)=kの下で、特徴ベクトルz(t,f)は確率密度qkf(z)に従う。
Figure 0006973254
このとき、和の法則と積の法則より、特徴ベクトルz(t,f)の確率分布は、次の(13)式〜(15)式で与えられる。
Figure 0006973254
これで、(9)式が導かれた。
本第1の実施形態では、各音源位置候補k、各周波数ビンfに対する特徴ベクトルz(t,f)の確率分布である(12)式の確率分布qkfは、事前に準備され、記憶部13に記憶されているものとする。例えば、特徴ベクトルz(t,f)として、(6)式の特徴ベクトルを用い、確率分布qkfを、(16)式の複素ワトソン分布によりモデル化する場合、記憶部13は、事前に準備されたqkfをモデル化するパラメータakfkfを、各音源位置候補kおよび各周波数ビンfに対して記憶すればよい。
Figure 0006973254
ここで、akfは、確率分布qkfの山(モード)の位置を表すパラメータであり、κkfは、確率分布qkfの山の急峻さ(集中度)を表すパラメータである。これらのパラメータは、マイクロホン配置の情報をもとに事前に準備してもよいし、実測データから事前に学習してもよい。詳細については、参考文献2「N. Ito, S. Araki, and T. Nakatani, “Data-driven and physical model-based designs of probabilistic spatial dictionary for online meeting diarization and adaptive beamforming”, in Proceedings of European Signal Processing Conference (EUSIPCO), pp. 1205−1209, Aug. 2017.」に開示されている。他の特徴ベクトル・確率分布を用いた場合にも、上と同様にして確率分布qkfを準備することができる。
本第1の実施形態では、「qkf」のように添え字fを添えている。これは、上の例のように、特徴ベクトルz(t,f)の確率分布qkfが周波数ビンfに依存する場合も扱えるようにするためであるが、qk1=・・・=qkFとなるようにすることで、特徴ベクトルz(t,f)の確率分布qkfが周波数ビンfに依存しない場合も扱えることに注意する。
音源位置生起確率π(t)は、フレームには依存する(すなわちtには依存する)が周波数ビンには依存しない(すなわちfには依存しない)と仮定した。これは、鳴っている音源(複数でもよい)が時刻によって変わる(例えば、複数人による会話において、発話している話者が時刻によって変わる)などの理由により、音源信号がどの音源位置候補から到来する確率が高いかは時刻によって変わるためである。
本第1の実施形態では、音源位置生起確率π(t)が、音源存在確率α(t)と音源位置確率βknを用いて、次の(17)式のように表されると仮定する。
Figure 0006973254
ここで、音源存在確率α(t)と音源位置確率βknは確率であるから、次の2式((18)式および(19)式)を満たすものとする。
Figure 0006973254
Figure 0006973254
このとき、(17)式の音源位置生起確率π(t)が(10)式を満たすことが、次の(20)式〜(23)式のようにして確認できる。
Figure 0006973254
(17)式のモデルは、各時間周波数点(t,f)における音源位置インデックスk(t,f)が、次の生成過程に基づいて生成されるという仮定に基づいている。
1.(t,f)における観測信号y(t,f)に含まれる音源信号を表す音源インデックスn(t,f)が、(24)式の確率分布に従って生成される。
Figure 0006973254
2.(t,f)における観測信号y(t,f)に含まれる音源信号を表す音源インデックスがn(t,f)=nであるという条件の下で、(t,f)における音源位置インデックスk(t,f)が、(25)式の条件付き分布に従って生成される。
Figure 0006973254
このとき、和の法則と積の法則より、音源位置インデックスk(t,f)の確率分布は、次の(26)式〜(29)式で与えられる。
Figure 0006973254
これによって(17)式が導かれた。
なお、音源存在確率α(t)は、フレームには依存する(すなわちtには依存する)が周波数ビンには依存しない(すなわちfには依存しない)と仮定した。これは、鳴っている音源(複数でもよい)が時刻によって変わるなどの理由により、どの音源信号が存在する確率が高いかは時刻によって変わるが、音源が鳴っているフレームではどの周波数においても該音源が存在する可能性があるためである。また、音源位置確率βknは、フレームおよび周波数ビンに依存しない(すなわちtおよびfに依存しない)と仮定した。これは、各音源信号がどの音源位置候補から到来する確率が高いかは、その音源の位置に従ってある程度定まっており、大きくは変動しないという仮定に基づいている。
(17)式は、次の(30)式のように行列形式で表すことができる。
Figure 0006973254
ここで、行列Q,B,Aは、以下の(31)式〜(33)式のように定義される。
Figure 0006973254
Figure 0006973254
Figure 0006973254
実際、(30)式の両辺の(k,t)要素から、(17)式が得られる。Qは、音源位置生起確率π(t)からなる行列であるから、音源位置生起確率行列と呼ぶ。Bは、音源位置確率βknからなる行列であるから、音源位置確率行列と呼ぶ。Aは、音源存在確率α(t)からなる行列であるから、音源存在確率行列と呼ぶ。
(9)式に(17)式を代入することによって、本第1の実施形態では、特徴ベクトルz(t,f)の確率分布を次の(34)式によりモデル化する。
Figure 0006973254
本第1の実施形態では、(35)式に示す尤度の最大化に基づいて、音源存在確率α(t)および音源位置確率βknを推定(最尤推定)する。
Figure 0006973254
最尤推定は、EMアルゴリズムに基づいて、EステップとMステップを交互に所定回数だけ繰り返すことで実現できる。この反復により尤度((35)式)を単調増加させることができることが理論的に保証されている。すなわち、
(i回目の反復において得られたパラメータの推定値に対する尤度)≦(i+1回目の反復において得られたパラメータの推定値に対する尤度)
となる。
Eステップでは、特徴ベクトルz(t,f)が与えられた下での音源位置インデックスk(t,f)と音源インデックスn(t,f)との同時分布である(36)式の事後確率γkn(t,f)を、Mステップで得られた音源存在確率α(t)および音源位置確率βknの推定値(ただし例外として、1回目の反復の際には、音源存在確率α(t)および音源位置確率βknの推定値の初期値)に基づいて更新する。
Figure 0006973254
ここで、事後確率γkn(t,f)は確率であるから、当然、次の(37)式を満たす。
Figure 0006973254
Eステップでは、具体的には、次の(38)式により事後確率γkn(t,f)を更新する。なお、(38)式の処理は事後確率更新部14で行われる。
Figure 0006973254
Mステップでは、音源存在確率α(t)および音源位置確率βknの推定値を、事後確率γkn(t,f)に基づいて、以下の(39)式および(40)式のように更新する。(39)式の処理は、音源存在確率更新部15において実行され、(40)式の処理は音源位置確率更新部16において実行される。
Figure 0006973254
Figure 0006973254
なお、尤度((35)式)の最大化は、EMアルゴリズムに限らず他の最適化法(例えば、勾配法)により行ってもよい。
また、(38)式の処理は必須ではない。例えば、EMアルゴリズムの代わりに勾配法を用いる場合、(38)式の処理は不要である。
また、音源存在確率α(t)が既知の場合には、音源存在確率α(t)と音源位置確率βknの両方を推定するのではなく、音源存在確率α(t)を固定して、音源位置確率βknだけを推定してもよい。例えば、音源存在確率α(t)を固定して、(38)式による事後確率γkn(t,f)の更新および(40)式による音源位置確率βknの更新を交互に繰り返せばよい。
また、音源位置確率βknが既知の場合には、音源存在確率α(t)と音源位置確率βknの両方を推定するのではなく、音源位置確率βknを固定して、音源存在確率α(t)だけを推定してもよい。例えば、音源位置確率βknを固定して、(38)式による事後確率γkn(t,f)の更新および(39)式による音源存在確率α(t)の更新を交互に繰り返せばよい。
ここで、上述のEMアルゴリズムにおける更新則(38)式,(39)式および(40)式の導出を述べる。Eステップでは、Mステップで得られたパラメータの推定値(ただし例外として、1回目の反復においては、パラメータの推定値の初期値)に基づいて、隠れ変数の事後確率を更新する。本第1の実施形態における隠れ変数は、音源位置インデックスk(t,f)と音源インデックスn(t,f)とする。したがって、隠れ変数の事後確率γkn(t,f)は、(41)式である。
Figure 0006973254
これは次の(42)式〜(44)式のように計算できる。
Figure 0006973254
これでEステップの更新則(38)式が導かれた。
Mステップでは、Eステップで計算した隠れ変数の事後確率に基づいて、パラメータの推定値を更新する。その際の更新則は、観測変数と隠れ変数の同時分布の対数に対して、Eステップで計算した隠れ変数の事後確率に関する期待値を計算することで得られるQ関数を最大化することにより得られる。本第1の実施形態の場合、観測変数は特徴ベクトルz(t,f)であり、隠れ変数は音源位置インデックスk(t,f)および音源インデックスn(t,f)であるから、Q関数は次の(45)式〜(48)式のようになる。
Figure 0006973254
ここで、Cは、音源存在確率α(t)および音源位置確率βknに依らない定数を表す。このQ関数を最大化する音源存在確率α(t)および音源位置確率βknの推定値は、拘束条件(18)式および(19)式に注意して、ラグランジュの未定乗数法を適用することにより得られる。以下、音源存在確率α(t)についてのみ説明するが、音源位置確率βknについても同様である。ラグランジュ未定乗数をλとした(49)式を示す。
Figure 0006973254
(49)式をα(t)に関して偏微分したものを0とおくことにより、(50)式を得る。
Figure 0006973254
これをα(t)について解いて、(51)式を得る。
Figure 0006973254
(51)式はラグランジュ未定乗数λを含んでいるが、λの値は、(51)式を拘束条件(18)式に代入することにより、定めることができる((52)式および(53)式参照)。
Figure 0006973254
よって、λ=Fである。これによって(39)式が導出された。
[第1の実施形態の効果]
このように、第1の実施形態では、複数の音源位置候補についての時間区間であるフレームごとの各音源位置候補から信号が到来する確率からなる音源位置生起確率行列Qを、複数の音源についての音源ごとの各音源位置候補から信号が到来する確率からなる音源位置確率行列Bと、フレームごとの各音源からの信号の存在確率からなる音源存在確率行列Aと、の積でモデル化する。したがって、本第1の実施形態では、このモデル化に基づいて、音源位置確率行列Bおよび音源存在確率行列Aの少なくとも一方を最適に推定することができる。
後述するように、音源存在確率行列の推定はダイアリゼーションに相当する。このため、本第1の実施形態に示した、音源位置確率行列および音源存在確率行列を推定する構成と、音源存在確率行列のみを推定する構成とでは、最適にダイアリゼーションを行える。また、後述するように、音源位置確率行列の推定は音源定位に相当する。このため、本第1の実施形態に示した、音源位置確率行列および音源存在確率行列を推定する構成と、音源位置確率行列のみを推定する構成と、では、適切に音源定位を実行することができる。
[第1の実施形態の変形例1]
第1の実施形態の変形例1では、第1の実施形態で得られた音源存在確率α(t)を用いて、ダイアリゼーションを行う例について説明する。
図3は、第1の実施形態の変形例1に係る信号分析装置の構成の一例を示す図である。図3に示すように、第1の実施形態の変形例1に係る信号分析装置1Aは、図1に示す信号分析装置1と比して、ダイアリゼーションを行うダイアリゼーション部17をさらに有する。
ここで、ダイアリゼーションとは、複数人が会話をしている状況で、マイクロホンで取得された観測信号から、各時刻において各話者が話しているか否かを判定する技術である。このような状況に対して第1の実施形態を適用した場合、音源存在確率α(t)は、各時刻において各話者が話している確率とみなすことができる。そこで、ダイアリゼーション部17は、cを所定の閾値(たとえばc=0.5)として、(54)式のように判定を行うことで、各フレームにおいて各話者が話しているか否かの判定、すなわちダイアリゼーションを行い、ダイアリゼーション結果d(t)を出力する。例えば、d(t)は、フレームtにおいて話者nが話していると判定されたときには1、そうでないときには0とすればよい。
Figure 0006973254
ただし、音源信号が音声信号と雑音の両方からなる場合は、音声信号に対応するnに対するα(t)のみを用いる構成としてもよい。例えば、n=1,・・・,N−1が音声信号に対応し、n=Nが雑音に対応する場合は、α(t)(1≦n≦N−1)に対して(54)式を適用することにより、各フレームにおいて話者1〜N−1が話しているか否かを判定することができる。
なお、(54)式は、一例である。このため、(54)式の上段の式では、「α(t)>c」の代わりに「α(t)≧c」としてもよい。すなわち、ダイアリゼーション部17は、音源存在確率α(t)が所定の閾値より大きい場合に、「話している(音源からの信号が存在している)」と判定する代わりに、音源存在確率α(t)が所定の閾値以上である場合に、「話している(音源からの信号が存在している)」と判定してもよい。また、(54)式の下段の式では、「α(t)≦c」の代わりに「α(t)<c」としてもよい。すなわち、ダイアリゼーション部17は、音源存在確率α(t)が所定の閾値以下である場合に、「話していない(音源からの信号が存在していない)」と判定する代わりに、音源存在確率α(t)が所定の閾値より小さい場合に、「話していない(音源からの信号が存在していない)」と判定してもよい。また、ダイアリゼーション部17は、「話している(音源からの信号が存在している)」との判定だけをしてもよく、「話していない(音源からの信号が存在していない)」との判定だけをしてもよく、さらに、両方の判定をしてもよい。
この信号分析装置1Aのように、少なくとも1つの音源の少なくとも1つのフレームについて、音源存在確率行列Aに含まれる該フレームにおける該音源からの信号の存在確率が所定の閾値より大きいまたは所定の閾値以上である場合に、該フレームにおいて該音源からの信号が存在していると判定する、および/または、少なくとも1つの音源の少なくとも1つのフレームについて、推定部10が推定した音源存在確率行列Aに含まれる該フレームにおける該音源からの信号の存在確率が所定の閾値より小さいまたは所定の閾値以下である場合に、該フレームにおいて該音源からの信号が存在していないと判定するダイアリゼーション部17をさらに有し、ダイアリゼーションを行ってもよい。
[第1の実施形態の変形例2]
第1の実施形態の変形例2では、第1の実施形態で得られた音源位置確率βknを用いて、音源定位を行う例について説明する。
図4は、第1の実施形態の変形例2に係る信号分析装置の構成の一例を示す図である。図4に示すように、第1の実施形態の変形例2に係る信号分析装置1Bは、図1に示す信号分析装置1と比して、音源定位を行う音源定位部18をさらに有する。
ここで、音源定位とは、マイクロホンで取得された観測信号から、各音源(複数あってもよい)の座標を推定する技術である。特に、各音源の直交座標(ξ η ζ)(ξ,η,ζはそれぞれx,y,z座標)または球座標(ρ θ φ)(ρ,θ,φはそれぞれ動径、天頂角、方位角)をすべて推定する場合と、これらの座標のうちの一部のみ、例えば方位角φのみを推定する場合(この場合の音源定位は到来方向推定とも呼ばれる)と、がある。
本第1の実施の形態の変形例2では、各音源位置候補の座標(直交座標、球座標、またはそれらの一部の座標)が分かっていると仮定する。
また、第1の実施形態により得られた音源位置確率βknは、各音源の位置が各音源位置候補である確率とみなすことができる。そこで、音源定位部18は、次のように処理を行うことによって、各音源の座標を推定し、出力する。
1.nを固定してβknが最大となるkの値kを求める。
2.kの値に対応する音源位置候補の座標を、n番目の音源の座標の推定値とする。
3.上記1、2を、各nに対して行う。
[第1の実施形態の変形例3]
第1の実施形態の変形例3では、第1の実施形態で得られた音源存在確率α(t)および音源位置確率βknを用いて、各時間周波数点においてどの音源が存在するかを表すマスクを求める例について説明する。
図5は、第1の実施形態の変形例3に係る信号分析装置の構成の一例を示す図である。図5に示すように、第1の実施形態の変形例3に係る信号分析装置1Cは、図1に示す信号分析装置1と比して、音源存在確率α(t)および音源位置確率βknを用いてマスクを推定するマスク推定部19をさらに有する。マスク推定部19は、音源存在確率行列Aに含まれるフレームごとの各音源からの信号の存在確率である音源存在確率α(t)と、音源位置確率行列Bに含まれる音源ごとの各音源位置候補から信号が到来する確率である音源位置確率βknと、特徴抽出部12からの特徴ベクトルz(t,f)と、記憶部13からの確率分布qkfと、を用いて、各時間周波数点においてどの音源が存在するかを表すマスクを推定する。
マスク推定部19は、まず、音源存在確率α(t)と、音源位置確率βknと、特徴ベクトルz(t,f)と、確率分布qkfと、を用いて、特徴ベクトルz(t,f)が観測された下での、各時間周波数点での音源位置インデックスk(t,f)および音源インデックスn(t,f)の同時分布である事後確率γkn(t,f)を、次の(55)式により計算する。なお、EMアルゴリズムを用いる場合には、Eステップにおいて更新した(38)式の事後確率γkn(t,f)をそのまま用いてもよい。
Figure 0006973254
次に、マスク推定部19は、特徴ベクトルz(t,f)が観測された下での音源インデックスn(t,f)の条件付き確率であるマスクλ(t,f)((56)式)を計算する。
Figure 0006973254
具体的には、マスク推定部19は、事後確率γkn(t,f)を用いて、次の(57)式および(58)式に基づいてマスクλ(t,f)を計算できる。
Figure 0006973254
上式と(37)式より、λ(t,f)は次の(59)式を満たす。
Figure 0006973254
ひとたびマスクが求まれば、音源分離、雑音除去、音源定位などに用いることができる。以下では、音源分離への応用例について説明する。
マスクλ(t,f)は、時間周波数点(t,f)において音源信号nが存在する場合には1に近い値を取り、そうでない場合には0に近い値を取る。したがって、例えば1番目のマイクロホンで取得した観測信号y(t,f)に、音源信号nに対するマスクλ(t,f)を掛ければ、音源信号nが存在する時間周波数点(t,f)における成分は保存され、音源信号nが存在しない時間周波数点(t,f)における成分は抑圧されるため、音源信号nに対応する分離信号^s(t,f)が(60)式のように得られる。
Figure 0006973254
そして、これを各音源信号nに対して行うことにより、音源分離を実現することができる。なお、上では、1番目のマイクロホンで取得した観測信号y(t,f)を用いる例について説明したが、これに限らず、任意のマイクロホンで取得した観測信号を用いることができる。
[第1の実施形態の変形例4]
第1の実施形態および第1の実施形態の変形例1〜3では、全フレームの観測信号ベクトルy(t,f)が得られてからまとめて処理を行うバッチ処理について説明したが、各フレームの観測信号ベクトルy(t,f)が得られるごとに逐次処理を行うオンライン処理を行ってもよい。第1の実施形態の変形例4では、このオンライン処理について説明する。
上述のEMアルゴリズムの処理(38)式、(39)式および(40)式のうち、(38)式と(39)式とはフレームごとに計算できるが、(40)式はtに関する和を含むため、そのままではフレームごとに計算できない。これをフレームごとに計算できるようにするために、まず、(40)式が次の(61)式のように書き直せることに着目する。
Figure 0006973254
ここで、(62)式に示すγknの上に“−”が記された記号は、事後確率γkn(t,f)のtとfとに関する平均である。
Figure 0006973254
βknをフレームごとに計算できるようにするために、(61)式におけるγknの上に“−”が記された記号で表わされた平均を移動平均~γknで置き換える((63)式)。ここで、βkn(t)は、βknと同じ意味であるが、フレームtで更新された値であることを明示的に表したものである。
Figure 0006973254
ここで、移動平均~γkn(t)は、フレームごとに次の(64)式により更新できる。なお、δは忘却係数である。
Figure 0006973254
本第1の実施形態の変形例4に係る信号分析装置1における処理の流れは次の通りである。フレームtごとに、事後確率更新部14が(38)式により事後確率γkn(t,f)を更新し、音源存在確率更新部15が(39)式により音源存在確率α(t)を更新し、音源位置確率更新部16が(64)式により移動平均~γkn(t)を更新し、(63)式により音源位置確率βkn(t)を更新する。
[第1の実施形態の変形例5]
第1の実施形態では、音源位置確率行列と音源存在確率行列との積で表わされた音源位置生起確率行列を混合重みとする混合分布を特徴ベクトルz(t,f)に当てはめることにより、音源位置確率行列と音源存在確率行列を推定する例について説明した。これに限らず、第1の実施形態では、まず、従来技術を用いて音源位置生起確率行列を求めてから、これを音源位置確率行列と音源存在確率行列との積に分解することにより、音源位置確率行列と音源存在確率行列を推定する構成としてもよい。本第1の実施形態の変形例5では、そのような構成例について説明する。
第1の実施形態の変形例5に係る信号分析装置では、従来技術により音源位置生起確率π(t)を推定し、音源位置生起確率π(t)からなる音源位置生起確率行列Qを(65)式のように、音源位置確率βknからなる音源位置確率行列Bと、音源存在確率α(t)からなる音源存在確率行列Aと、の積に分解することにより、音源位置確率βknと音源存在確率α(t)を得る。
Figure 0006973254
これは、音源位置確率行列Bと音源存在確率行列Aとの積BAが音源位置生起確率行列Qに近づくように音源位置確率行列Bと音源存在確率行列Aとを推定することにより、行うことができる。
上記の推定は、NMF(nonnegative matrix factorization)などの既存技術を用いて行うことができる。NMFについては、参考文献3「亀岡弘和, “非負値行列因子分解”, 計測と制御, vol. 51, no. 9, 2012.」、参考文献4「澤田宏, “非負値行列因子分解NMFの基礎とデータ/信号解析への応用”, 電子情報通信学会誌, vol. 95, no. 9, pp. 829−833, 2012.」などに開示されている。
[第1の実施形態の変形例6]
本第1の実施形態は、音信号に限らず、他の信号(脳波、脳磁図、無線信号など)に対して適用してもよい。すなわち、本発明における観測信号は、複数のマイクロホン(マイクロホンアレイ)により取得された観測信号に限らず、脳波計、脳磁計、アンテナアレイなどの他のセンサアレイ(複数のセンサ)により取得された、空間上の位置から時系列として発生する信号からなる観測信号であってもよい。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。すなわち、上記学習方法および音声認識方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム]
図6は、プログラムが実行されることにより、信号分析装置1,1A,1B,1Cが実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、信号分析装置1,1A,1B,1Cの各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、信号分析装置1,1A,1B,1Cにおける機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等はすべて本発明の範疇に含まれる。
1,1A,1B,1C 信号分析装置
1P ダイアリゼーション装置
10 推定部
11,11P 周波数領域変換部
12,12P 特徴抽出部
13,13P 記憶部
14 事後確率更新部
14P 音源位置生起確率推定部
15 音源存在確率更新部
16 音源位置確率更新部
17,15P ダイアリゼーション部
18 音源定位部
19 マスク推定部

Claims (8)

  1. 複数の信号源位置候補についての時間区間であるフレームごとの各信号源位置候補から信号が到来する確率からなる信号源位置生起確率行列Qを、複数の信号源についての信号源ごとの前記各信号源位置候補から信号が到来する確率からなる信号源位置確率行列Bと、前記フレームごとの前記各信号源からの信号の存在確率からなる信号源存在確率行列Aと、の積でモデル化し、前記モデル化に基づいて、前記信号源位置確率行列Bおよび前記信号源存在確率行列Aの少なくとも一方を推定する推定部を有することを特徴とする信号分析装置。
  2. 前記推定部は、前記モデル化された信号源位置生起確率行列Qを混合重みとする混合分布を、複数のフレームについて、観測された信号に当てはめることにより、前記信号源位置確率行列Bおよび前記信号源存在確率行列Aの少なくとも一方を推定することを特徴とする請求項1に記載の信号分析装置。
  3. 前記推定部は、前記信号源位置確率行列Bと前記信号源存在確率行列Aとの積が前記信号源位置生起確率行列Qに近づくように、前記信号源位置確率行列Bおよび前記信号源存在確率行列Aの少なくとも一方を推定することを特徴とする請求項1に記載の信号分析装置。
  4. 少なくとも1つの信号源の少なくとも1つのフレームについて、前記推定部が推定した前記信号源存在確率行列Aに含まれる該フレームにおける該信号源からの信号の存在確率が所定の閾値より大きい場合にまたは所定の閾値以上である場合に、該フレームにおいて該信号源からの信号が存在していると判定する、および/または、少なくとも1つの信号源の少なくとも1つのフレームについて、前記推定部が推定した前記信号源存在確率行列Aに含まれる該フレームにおける該信号源からの信号の存在確率が所定の閾値より小さい場合にまたは所定の閾値以下である場合に、該フレームにおいて該信号源からの信号が存在していないと判定するダイアリゼーション部をさらに有することを特徴とする請求項1から3のいずれか一つに記載の信号分析装置。
  5. 各信号源位置候補の直交座標、球座標、またはそれらの一部の座標が分かっていると仮定した場合、前記信号源位置確率行列Bに含まれる各信号源からの信号の位置確率を、各信号源の位置が各信号源の位置候補である確率とみなし、n番目の信号源に対する該信号源からの信号の位置確率が最大となる音源位置候補の座標を、n番目の信号源の座標の推定値とすることで、信号源の座標を推定する音源定位を行う音源定位部をさらに有することを特徴とする請求項1〜3のいずれか一つに記載の信号分析装置。
  6. 前記信号源存在確率行列Aに含まれる該信号源からの信号の存在確率および前記信号源位置確率行列Bに含まれる各信号源からの信号の位置確率を用いて、各時間周波数点においてどの信号源が存在するかを表すマスクを推定するマスク推定部をさらに備えることを特徴とする請求項1〜3のいずれか一つに記載の信号分析装置。
  7. 信号分析装置が実行する信号分析方法であって、
    複数の信号源位置候補についての時間区間であるフレームごとの各信号源位置候補から信号が到来する確率からなる信号源位置生起確率行列Qを、複数の信号源についての信号源ごとの前記各信号源位置候補から信号が到来する確率からなる信号源位置確率行列Bと、前記フレームごとの前記各信号源からの信号の存在確率からなる信号源存在確率行列Aと、の積でモデル化し、前記モデル化に基づいて、前記信号源位置確率行列Bおよび前記信号源存在確率行列Aの少なくとも一方を推定する推定工程
    を含んだことを特徴とする信号分析方法。
  8. コンピュータを、請求項1〜6のいずれか一つに記載の信号分析装置として機能さ
    せるための信号分析プログラム。
JP2018073471A 2018-04-05 2018-04-05 信号分析装置、信号分析方法および信号分析プログラム Active JP6973254B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018073471A JP6973254B2 (ja) 2018-04-05 2018-04-05 信号分析装置、信号分析方法および信号分析プログラム
US16/980,428 US11302343B2 (en) 2018-04-05 2019-04-04 Signal analysis device, signal analysis method, and signal analysis program
PCT/JP2019/015041 WO2019194300A1 (ja) 2018-04-05 2019-04-04 信号分析装置、信号分析方法および信号分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018073471A JP6973254B2 (ja) 2018-04-05 2018-04-05 信号分析装置、信号分析方法および信号分析プログラム

Publications (2)

Publication Number Publication Date
JP2019184747A JP2019184747A (ja) 2019-10-24
JP6973254B2 true JP6973254B2 (ja) 2021-11-24

Family

ID=68100388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018073471A Active JP6973254B2 (ja) 2018-04-05 2018-04-05 信号分析装置、信号分析方法および信号分析プログラム

Country Status (3)

Country Link
US (1) US11302343B2 (ja)
JP (1) JP6973254B2 (ja)
WO (1) WO2019194300A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6915579B2 (ja) * 2018-04-06 2021-08-04 日本電信電話株式会社 信号分析装置、信号分析方法および信号分析プログラム
WO2022059362A1 (ja) * 2020-09-18 2022-03-24 ソニーグループ株式会社 情報処理装置、情報処理方法および情報処理システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9689959B2 (en) * 2011-10-17 2017-06-27 Foundation de l'Institut de Recherche Idiap Method, apparatus and computer program product for determining the location of a plurality of speech sources
US10545216B2 (en) * 2016-01-05 2020-01-28 Elta Systems Ltd. Method of locating a transmitting source in multipath environment and system thereof
JP6538624B2 (ja) * 2016-08-26 2019-07-03 日本電信電話株式会社 信号処理装置、信号処理方法および信号処理プログラム

Also Published As

Publication number Publication date
JP2019184747A (ja) 2019-10-24
US20200411027A1 (en) 2020-12-31
US11302343B2 (en) 2022-04-12
WO2019194300A1 (ja) 2019-10-10

Similar Documents

Publication Publication Date Title
Drude et al. SMS-WSJ: Database, performance measures, and baseline recipe for multi-channel source separation and recognition
US11763834B2 (en) Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
JP6434657B2 (ja) 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
US20060058983A1 (en) Signal separation method, signal separation device, signal separation program and recording medium
Santosh et al. Non-negative matrix factorization algorithms for blind source sepertion in speech recognition
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
Duong et al. Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model
Sarmiento et al. A contrast function based on generalized divergences for solving the permutation problem in convolved speech mixtures
US11322169B2 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
Arberet et al. A tractable framework for estimating and combining spectral source models for audio source separation
JP2013186383A (ja) 音源分離装置、音源分離方法、およびプログラム
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
JP6285855B2 (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム
US20220335928A1 (en) Estimation device, estimation method, and estimation program
Inoue et al. Sepnet: a deep separation matrix prediction network for multichannel audio source separation
Murakami et al. Real-Time Distant Sound Source Suppression Using Spectral Phase Difference
JP6915579B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
Mallis et al. Convolutive audio source separation using robust ICA and an intelligent evolving permutation ambiguity solution
Makishima et al. Column-wise update algorithm for independent deeply learned matrix analysis
JP2019035851A (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
JP7293162B2 (ja) 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
Sawada et al. Similarity search-based blind source separation
KR102346133B1 (ko) 심층 신경망 기반의 방향각 추정 방법
Ito et al. Maximum-likelihood online speaker diarization in noisy meetings based on categorical mixture model and probabilistic spatial dictionary

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211018

R150 Certificate of patent or registration of utility model

Ref document number: 6973254

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150