JP6915579B2 - 信号分析装置、信号分析方法および信号分析プログラム - Google Patents

信号分析装置、信号分析方法および信号分析プログラム Download PDF

Info

Publication number
JP6915579B2
JP6915579B2 JP2018074239A JP2018074239A JP6915579B2 JP 6915579 B2 JP6915579 B2 JP 6915579B2 JP 2018074239 A JP2018074239 A JP 2018074239A JP 2018074239 A JP2018074239 A JP 2018074239A JP 6915579 B2 JP6915579 B2 JP 6915579B2
Authority
JP
Japan
Prior art keywords
sound source
signal
source position
parameter
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018074239A
Other languages
English (en)
Other versions
JP2019184773A (ja
Inventor
信貴 伊藤
信貴 伊藤
中谷 智広
智広 中谷
荒木 章子
章子 荒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018074239A priority Critical patent/JP6915579B2/ja
Priority to US16/981,294 priority patent/US20210012790A1/en
Priority to PCT/JP2019/015215 priority patent/WO2019194315A1/ja
Publication of JP2019184773A publication Critical patent/JP2019184773A/ja
Application granted granted Critical
Publication of JP6915579B2 publication Critical patent/JP6915579B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、信号分析装置、信号分析方法および信号分析プログラムに関する。
N´個(N´は0以上の整数)の音源信号が混在する状況において、それぞれ異なる位置でマイクロホンにより取得された複数の観測信号から、個々の音源信号を推定する音源分離技術がある。N´は真の音源数であり、Nは仮定された音源数であるとする。従来技術では、真の音源数N´が既知である状況を想定し、仮定された音源数をN=N´と設定する。
T. Higuchi, N. Ito, S. Araki, T. Yoshioka, M. Delcroix, and T. Nakatani, "Online MVDR Beamformer Based on Complex Gaussian Mixture Model With Spatial Prior for Noise Robust ASR", IEEE/ACM Transactions on Audio, Speech, and Language Processing (ASLP), vol. 25, no. 4, pp. 780−793, Apr. 2017.
ここで、図6および図7を用いて、従来の音源分離装置の構成と処理について説明する。図6は、従来の音源分離装置の構成の一例を示す図である。図7は、従来の音源分離処理の処理手順の一例を示すフローチャートである。なお、ベクトル、行列又はスカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同じであるとする。また、ベクトル、行列又はスカラーであるAに対し、“~A”と記載する場合は「“A”の直上に“~”が記された記号」と同じであるとする。
図6及び図7に示すように、従来の信号分析装置1Pは、観測信号ベクトル作成部11P、初期化部(図示しない)、音源存在事後確率更新部12P、記憶部13P、音源存在事前確率更新部14P、空間共分散行列更新部15P、パワーパラメータ更新部16P、収束判定部(図示しない)および音源信号成分推定部17Pを有する。
観測信号ベクトル作成部11Pは、まず、入力された観測信号y(τ)を取得し(ステップS41)、短時間フーリエ変換などにより時間周波数領域の観測信号y(t,f)を計算する(ステップS42)。ここで、t=1,・・・,Tはフレームのインデックスであり、f=1,・・・,Fは周波数ビンのインデックスであり、m=1,・・・,Mはマイクロホンのインデックスであり、τはサンプル点のインデックスである。M個のマイクロホンはそれぞれ異なる位置に配置されているとする。
次に、観測信号ベクトル作成部11Pは、(1)式のように、取得されたM個すべての観測信号y(t,f)からなるM次元縦ベクトルである観測信号ベクトルy(t,f)を時間周波数点ごとに作成する(ステップS43)。ここで、上付きのTは転置を表す。
Figure 0006915579
初期化部は、音源存在事前確率α(f)と、空間共分散行列R(f)と、パワーパラメータv(t,f)と、の推定値の初期値を計算することでこれらのパラメータを初期化する(ステップS44)。ただし、n=1,・・・,Nは音源のインデックスである。例えば、初期化部は、乱数に基づいてこれらの初期値を計算する。
音源存在事後確率更新部12Pは、観測信号ベクトル作成部11Pからの観測信号ベクトルy(t,f)と、音源存在事前確率更新部14Pからの音源存在事前確率(ただし例外として、音源存在事後確率更新部12Pにおける最初の処理の際には、初期化部からの音源存在事前確率の初期値)α(f)と、空間共分散行列更新部15Pからの空間共分散行列(ただし例外として、音源存在事後確率更新部12Pにおける最初の処理の際には、初期化部からの空間共分散行列の初期値)R(f)と、パワーパラメータ更新部からのパワーパラメータ(ただし例外として、音源存在事後確率更新部12Pにおける最初の処理の際には、初期化部からのパワーパラメータの初期値)v(t,f)と、を受け取って、音源存在事後確率λ(t,f)を更新する(ステップS45)。
記憶部13Pは、各音源信号nおよび各周波数ビンfに対する空間共分散行列の事前分布のパラメータを記憶する。
音源存在事前確率更新部14Pは、音源存在事後確率更新部12Pからの音源存在事後確率λ(t,f)を受け取って、音源存在事前確率α(f)を更新する(ステップS46)。
空間共分散行列更新部15Pは、観測信号ベクトル作成部11Pからの観測信号ベクトルy(t,f)と、音源存在事後確率更新部12Pからの音源存在事後確率λ(t,f)と、記憶部13Pからの事前分布のパラメータと、パワーパラメータ更新部16Pからのパワーパラメータ(ただし例外として、空間共分散行列更新部15Pにおける最初の処理の際には、初期化部からのパワーパラメータの初期値)v(t,f)と、を受け取って、空間共分散行列R(f)を更新する(ステップS47)。
パワーパラメータ更新部16Pは、観測信号ベクトル作成部11Pからの観測信号ベクトルy(t,f)と、空間共分散行列更新部15Pからの空間共分散行列R(f)と、を受け取って、パワーパラメータv(t,f)を更新する(ステップS48)。
収束判定部は、収束したかどうかの判定を行う(ステップS49)。収束判定部によって収束していないと判定された場合(ステップS49:No)、音源存在事後確率更新部12Pでの処理(ステップS45)に戻って、処理が継続される。一方、収束判定部によって収束したと判定された場合(ステップS49:Yes)、音源信号成分推定部17Pでの処理に進む。
音源信号成分推定部17Pは、観測信号ベクトル作成部11Pからの観測信号ベクトルy(t,f)と音源存在事後確率更新部12Pからの音源存在事後確率λ(t,f)とを受け取って、音源信号成分x(t,f)の推定値^x(t,f)を計算し、出力する(ステップS50)。
ここで、従来技術の特徴について説明する。観測信号ベクトル作成部11Pにおいて作成された観測信号ベクトルy(t,f)は、N個の音源信号に由来する成分である音源信号成分x(t,f),・・・,x(t,f)の和として、(2)式で表される。
Figure 0006915579
従来技術では、各音源信号は、時間周波数領域において、疎な点においてのみ有意なエネルギーを持つという性質(スパース性)を有すると仮定する。例えば、音声はこのスパース性を比較的よく満たすとされている。この仮定の下では、各時間周波数点では、観測信号ベクトルy(t,f)は、N個の音源信号成分x(t,f),・・・,x(t,f)のうちの一つだけからなると近似できる((3)式)。
Figure 0006915579
ここで、n(t,f)は、時間周波数点(t,f)において存在する音源信号のインデックスであり、1以上N以下の整数の値を取る。
(3)式のモデルの下では、各時間周波数点(t,f)において存在する音源信号のインデックスn(t,f)の推定値^n(t,f)が得られれば、音源分離を実現できる。すなわち、一旦^n(t,f)が得られれば、次の(4)式のように、n番目の音源信号が存在する時間周波数点以外の音のエネルギーを遮断するかまたは減衰させることにより、n番目の音源信号成分x(t,f)の推定値^x(t,f)を得ることができる、すなわち、音源分離が実現できる。
Figure 0006915579
従来技術では、観測信号ベクトルy(t,f)の確率分布を次の(5)式の混合複素ガウス分布でモデル化し、観測信号ベクトルy(t,f)にこのモデルを当てはめることにより、n(t,f)の推定を実現する。
Figure 0006915579
ここで、pは複素ガウス分布を表す(Gはガウス(Gauss)の頭文字である)。R(f)は、各音源の空間的特性(音響伝達特性)を表すパラメータである空間共分散行列であり、v(t,f)は、各音源のパワースペクトルをモデル化するパラメータであるパワーパラメータである。α(f)は、(6)式を満たす混合重みであり、本明細書では音源存在事前確率とも呼ぶ。
Figure 0006915579
また、Θは、すべての未知パラメータをまとめて表したものであり、具体的には、音源存在事前確率α(f)、空間共分散行列R(f)、パワーパラメータv(t,f)からなる。ひとたびパラメータΘが推定できれば、観測信号ベクトルy(t,f)が与えられた下での音源インデックスn(t,f)の事後確率を、次の(7)式により求めることができる。
Figure 0006915579
これを用いて、次の(8)式のように音源インデックスn(t,f)を推定することができる。
Figure 0006915579
この音源インデックスの推定値を用いれば、(4)式に従って、音源分離を実現できる。
このアプローチに基づいて高精度な音源分離を実現するためにはパラメータΘの正確な推定が鍵となる。一般に、与えられる観測信号の長さが長ければ長いほどパラメータΘの正確な推定が容易になり、与えられる観測信号の長さが短ければ短いほどパラメータΘの正確な推定が困難になる。そこで、与えられる観測信号の長さが短くなった場合におけるパラメータΘの推定精度の劣化を防ぐために、パラメータΘに関する事前知識を表す事前分布を適切に定めることが重要である。事前分布を適切に定めれば、与えられる観測信号の長さが短くなった場合でも、パラメータΘに関する事前知識に基づいて、パラメータΘをある程度正確に推定できるため、パラメータΘの推定精度の大幅な低下を防ぐことができる。事前分布はまた、オンライン処理における音源信号が鳴り始めた直後におけるパラメータの推定精度の劣化防止や、パーミュテーション問題の回避のためにも重要である。
ここで、パーミュテーション問題について説明する。観測信号ベクトルy(t,f)は、周波数ビンごとに異なる分布に従う。このため、(5)式のような混合モデルを用いた音源インデックスn(t,f)の推定(クラスタリング)に基づく音源分離アプローチでは、一般に、各周波数ビン内に限定した音源の分類(クラスタリング)はできても、異なる周波数間で音源の対応をとることはできない。これが、パーミュテーション問題と呼ばれている。
従来技術では、各音源の音源位置が既知であるという仮定の下、各音源信号の空間的特性をモデル化するパラメータである空間共分散行列R(f)の事前分布p(R(f))を設計していた。具体的には、従来技術では、空間共分散行列R(f)の事前分布p(R(f))を、次の(9)式の逆ウィシャート分布によりモデル化する。
Figure 0006915579
ここで、IWは、逆ウィシャート分布を表す(「IW」は、「Inverse Wishart(逆ウィシャート)」の頭文字である)。~Ψ(f)は事前分布p(R(f))の山(モード)の位置をモデル化するスケール行列であり、~ν(f)は事前分布p(R(f))の山の広がりをモデル化する自由度である。以下、自由度~ν(f)は音源および周波数ビンに依らず一定であると仮定し、単に~νと書く。事前分布p(R(f))のパラメータであるスケール行列~Ψ(f)および自由度~νは、パラメータR(f)をモデル化するパラメータであり、その意味でハイパーパラメータと呼ばれる。
(9)式より、すべての周波数ビンにおける空間共分散行列R(1),・・・,R(F)の事前分布p(R(1),・・・,R(F))は、次の(10)式のようになる。
Figure 0006915579
ここで周波数間の独立性を仮定した。
従来技術では、各音源の音源位置が既知であるという仮定の下、事前分布p(R(f))のハイパーパラメータであるスケール行列~Ψ(f)および自由度~νを既知であると仮定していた。これらのハイパーパラメータは、学習用データに基づいて、事前に学習することができる。すなわち、各音源の音源位置が既知の場合には、音源ごとに既知である音源位置から音源信号が到来する場合の観測信号を実測し、これを学習用データとして用いることにより、事前分布p(R(f))のハイパーパラメータであるスケール行列~Ψ(f)および自由度~νを事前に学習することができる。
従来技術では、この事前分布に基づき、以下の(11)式〜(14)式に示す更新則を交互に繰り返し適用することにより、パラメータΘを推定する。
Figure 0006915579
Figure 0006915579
Figure 0006915579
Figure 0006915579
(11)式の処理は音源存在事後確率更新部12Pにおいて、(12)式の処理は音源存在事前確率更新部14Pにおいて、(13)式の処理は空間共分散行列更新部15Pにおいて、(14)式の処理はパワーパラメータ更新部16Pにおいて、それぞれ行われる。音源信号成分推定部17Pは、上記の処理により得られた音源存在事後確率更新部12Pからの音源存在事後確率λ(t,f)に基づいて、(8)式により音源インデックスの推定値^n(t,f)を計算し、さらに(4)式により音源信号成分の推定値^x(t,f)を計算する。
しかしながら、従来技術では、各音源信号に対する音源位置が既知であると仮定しており、各音源信号に対する音源位置が未知である場合には適用できなかった。
本発明は、上記に鑑みてなされたものであって、各音源信号に対する音源位置が未知である場合にも、各音源信号の空間的特性をモデル化するパラメータである空間パラメータ(例えば、空間共分散行列)の事前分布に基づいて音源分離などの信号分析を行うことができる信号分析装置、信号分析方法および信号分析プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の信号分析装置は、N個(Nは2以上の整数)の信号源からの信号の空間的特性をモデル化するパラメータを空間パラメータとする場合、空間パラメータの各信号源に対する事前分布を、空間パラメータのK個(Kは2以上の整数)の各信号源位置候補に対する事前分布の線型結合である混合分布によりモデル化するときの混合重みであり、信号源ごとの各信号源位置候補から信号が到来する確率である、信号源位置事前確率を推定する推定部を有することを特徴とする。
本発明によれば、各音源信号に対する音源位置が未知である場合にも、空間パラメータの事前分布に基づいて音源分離などの信号分析を行うことができる。
図1は、第1の実施形態に係る信号分析装置の構成の一例を示す図である。 図2は、第1の実施形態に係る信号分析処理の処理手順の一例を示すフローチャートである。 図3は、第1の実施形態の変形例4に係る信号分析装置の構成の一例を示す図である。 図4は、第1の実施形態の変形例4に係る信号分析処理の処理手順の一例を示すフローチャートである。 図5は、プログラムが実行されることにより、信号分析装置が実現されるコンピュータの一例を示す図である。 図6は、従来の音源分離装置の構成の一例を示す図である。 図7は、従来の音源分離処理の処理手順の一例を示すフローチャートである。
以下に、本願に係る信号分析装置、信号分析方法および信号分析プログラムの実施形態を図面に基づいて詳細に説明する。また、本発明は、以下に説明する実施形態により限定されるものではない。なお、以下では、ベクトル、行列又はスカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同じであるとする。また、ベクトル、行列又はスカラーであるAに対し、“~A”と記載する場合は「“A”の直上に“~”が記された記号」と同じであるとする。
[第1の実施形態]
まず、第1の実施形態に係る信号分析装置について説明する。なお、第1の実施形態においては、N´個(N´は0以上の整数)の音源信号が混在する状況において、それぞれ異なる位置でマイクロホンにより取得されたM個(Mは2以上の整数)の観測信号y(τ)(m=1,・・・,Mはマイクロホンのインデックス、τはサンプル点のインデックス)が信号分析装置に入力されるものとする。N´は真の音源数であり、Nは仮定された音源数であるとする。第1の実施形態では、真の音源数N´が既知である状況を想定し、仮定された音源数をN=N´と設定する。なお、本第1の実施形態における「音源信号」は、目的信号(例えば、音声)であってもよいし、特定の音源位置から到来する雑音である方向性雑音(例えば、テレビから流れる音楽)であってもよい。また、様々な音源位置から到来する雑音である拡散性雑音を、まとめて1つの「音源信号」とみなしてもよい。拡散性雑音の例としては、雑踏やカフェ等における大勢の人々の話し声、駅や空港における足音、空調による雑音などが挙げられる。
図1および図2を用いて、第1の実施形態の構成と処理について説明する。図1は、第1の実施形態に係る信号分析装置の構成の一例を示す図である。図2は、第1の実施形態に係る信号分析処理の処理手順の一例を示すフローチャートである。第1の実施形態に係る信号分析装置1は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。
図1に示すように、信号分析装置1は、観測信号ベクトル作成部11、初期化部(図示しない)、推定部10、記憶部13、パワーパラメータ更新部18、パーミュテーション解決部(図示しない)、収束判定部(図示しない)、音源信号成分推定部19を有する。
まず、信号分析装置1の各部の概要について説明する。観測信号ベクトル作成部11は、まず、入力された観測信号y(τ)を取得し(ステップS1)、短時間フーリエ変換などにより時間周波数領域の観測信号y(t,f)を計算する(ステップS2)。ここで、t=1,・・・,Tはフレームのインデックスであり、f=1,・・・,Fは周波数ビンのインデックスである。
次に、観測信号ベクトル作成部11は、取得されたM個すべての観測信号y(t,f)からなるM次元縦ベクトルである観測信号ベクトルy(t,f)、すなわち(15)式で表される観測信号ベクトルy(t,f)、を時間周波数点ごとに作成する(ステップS3)。ここで、上付きのTは転置を表す。
Figure 0006915579
本第1の実施形態では、各音源信号は、K個の音源位置の候補のいずれかから到来すると仮定し、それらの音源位置候補をインデックス(以下、「音源位置インデックス」)1,・・・,Kで表す。例えば、音源が円卓の周りに着席して会話している複数の話者であり、M個のマイクロホンが円卓の中央の数cm四方程度の小領域内に置かれており、音源位置として円卓の中央から見たときの音源の方位角のみに注目するとき、0°〜360°をK等分したK個の方位角Δφ,2Δφ,・・・,KΔφ(Δφ=360°/K)を音源位置候補とすることができる。この例に限らず、一般に任意の所定のK点を、音源位置候補として指定することができる。また、音源位置候補は、拡散性雑音を表す音源位置候補でもよい。拡散性雑音は、1つの音源位置から到来するのではなく、多数の音源位置から到来する。このような拡散性雑音も「多数の音源位置から到来する」という1つの音源位置候補とみなすことにより、拡散性雑音が存在する状況でも正確な推定が可能になる。
初期化部は、音源存在事前確率α(f)と、音源位置事前確率βknと、空間共分散行列R(f)と、パワーパラメータv(t,f)と、の推定値の初期値を計算する(ステップS4)。ただし、n=1,・・・,Nは音源のインデックス、k=1,・・・・,Kは音源位置インデックスである。例えば、初期化部は、乱数に基づいてこれらの初期値を計算する。
推定部10は、音源位置事前確率を推定する。本第1の実施形態では、N個の音源の位置からの信号の空間的特性をモデル化するパラメータである空間パラメータとして、空間共分散行列を用いる。音源位置事前確率は、空間共分散行列(空間パラメータ)の各音源に対する事前分布を、空間共分散行列(空間パラメータ)のK個(Kは2以上の整数)の各音源位置候補に対する事前分布の線型結合である混合分布によりモデル化するときの混合重みであり、音源ごとの各音源位置候補から信号が到来する確率である。推定部10は、音源存在事後確率更新部12、音源位置事後確率更新部14、音源存在事前確率更新部15、音源位置事前確率更新部16および空間共分散行列更新部17を有する。
音源存在事後確率更新部12は、観測信号ベクトル作成部11からの観測信号ベクトルy(t,f)と、音源存在事前確率更新部15からの音源存在事前確率(ただし例外として、音源存在事後確率更新部12における最初の処理の際には、初期化部からの音源存在事前確率の初期値)α(f)と、空間共分散行列更新部17からの空間共分散行列(ただし例外として、音源存在事後確率更新部12における最初の処理の際には、初期化部からの空間共分散行列の初期値)R(f)と、パワーパラメータ更新部18からのパワーパラメータ(ただし例外として、音源存在事後確率更新部12における最初の処理の際には、初期化部からのパワーパラメータの初期値)v(t,f)と、を受け取って、音源存在事後確率λ(t,f)を更新する(ステップS5)。
記憶部13は、各音源位置候補k、各周波数ビンfに対する空間共分散行列の事前分布のパラメータを記憶する。
音源位置事後確率更新部14は、記憶部13からの事前分布のパラメータと、音源位置事前確率更新部16からの音源位置事前確率(ただし例外として、音源位置事後確率更新部14における最初の処理の際には、初期化部からの音源位置事前確率の初期値)βknと、空間共分散行列更新部17からの空間共分散行列(ただし例外として、音源位置事後確率更新部14における最初の処理の際には、初期化部からの空間共分散行列の初期値)R(f)と、を受け取って、音源位置事後確率μknを更新する(ステップS6)。
音源存在事前確率更新部15は、音源存在事後確率更新部12からの音源存在事後確率λ(t,f)を受け取って、音源存在事前確率α(f)を更新する(ステップS7)。
音源位置事前確率更新部16は、音源位置事後確率更新部14からの音源位置事後確率μknを受け取って、音源位置事前確率βknを更新する(ステップS8)。
空間共分散行列更新部17は、観測信号ベクトル作成部11からの観測信号ベクトルy(t,f)と、音源存在事後確率更新部12からの音源存在事後確率λ(t,f)と、記憶部13からの事前分布のパラメータと、音源位置事後確率更新部14からの音源位置事後確率μknと、パワーパラメータ更新部18からのパワーパラメータ(ただし例外として、空間共分散行列更新部17における最初の処理の際には、初期化部からのパワーパラメータの初期値)v(t,f)と、を受け取って、空間共分散行列R(f)を更新する(ステップS9)。
パワーパラメータ更新部18は、観測信号ベクトル作成部11からの観測信号ベクトルy(t,f)と、空間共分散行列更新部17からの空間共分散行列R(f)と、を受け取って、パワーパラメータv(t,f)を更新する(ステップS10)。
パーミュテーション解決部は、音源存在事前確率更新部15からの音源存在事前確率α(f)と、空間共分散行列更新部17からの空間共分散行列R(f)と、パワーパラメータ更新部18からのパワーパラメータv(t,f)と、を受け取り、音源存在事前確率α(f)と、空間共分散行列R(f)と、パワーパラメータv(t,f)と、を更新することでパーミュテーション問題を解決する(ステップS11)。具体的には、パーミュテーション解決部は、尤度または対数尤度または補助関数などの評価値が最大となるように、音源インデックスnを周波数ビンごとに付け替えることにより、これらのパラメータを更新する。すなわち、周波数ビンfにおける音源インデックスnの付け替えを全単射σf:{1,・・・,N}→{1,・・・,N}で表すとき、各周波数ビンfにおいてこれらのパラメータの音源インデックスnをσf(n)に付け替えたときの尤度または対数尤度または補助関数などの評価値が最大になるように全単射σfを求め、求めた全単射σfを用いて各周波数ビンfにおいてこれらのパラメータの音源インデックスnをσf(n)に付け替えることにより、これらのパラメータを更新する。なお、パーミュテーション解決部は、音源存在事前確率α(f)と、空間共分散行列R(f)と、パワーパラメータv(t,f)と、のすべてを更新する代わりに、その一部のみ(例えば、空間共分散行列R(f)のみ)を更新してもよい。なお、パーミュテーション解決部での処理は必須ではない。
続いて、収束判定部は、収束したかどうかの判定を行う(ステップS12)。収束判定部が収束していないと判定した場合(ステップS12:No)、音源存在事後確率更新部12での処理(ステップS5)に戻って、以降の処理が継続される。一方、収束判定部が収束したと判定した場合(ステップS12:Yes)、音源信号成分推定部19における処理(ステップS13)に進む。
音源信号成分推定部19は、観測信号ベクトル作成部11からの観測信号ベクトルy(t,f)と音源存在事後確率更新部12からの音源存在事後確率λ(t,f)とを受け取って、音源信号成分x(t,f)の推定値^x(t,f)を計算し、出力する(ステップS13)。
次に、第1の実施形態の特徴について、従来技術と対比しながら説明する。前述の通り、従来技術では、すべての周波数ビンにおける空間共分散行列R(1),・・・,R(F)の事前分布p(R(1),・・・,R(F))を、次の(16)式((10)式を再掲)によりモデル化していた。
Figure 0006915579
しかしながら、従来技術では、各音源の音源位置が既知であると仮定しており、各音源の音源位置が未知の場合には適用できないという問題があった。
これに対し、本第1の実施形態では、すべての周波数ビンにおける空間共分散行列R(1),・・・,R(F)の事前分布p(R(1),・・・,R(F))を、次の(17)式の混合複素逆ウィシャート分布でモデル化する。
Figure 0006915579
これは、音源位置候補kに対する事前分布を、音源nが音源位置候補kにある確率βknを重みとして平均した形になっている。本第1の実施形態では各音源の音源位置が未知であると仮定しているから、βknは未知の確率である。ただし、βknは確率であるから、次の(18)式を満たすものとする。
Figure 0006915579
このように、未知の確率βknによる重み付き和に基づくことで、各音源の音源位置が未知の場合でも、空間共分散行列の事前分布を設計することができる。βknは未知であるが、これも未知パラメータとみなし、他の未知パラメータと同時に推定することができる。
本第1の実施形態では、各音源位置候補k、各周波数ビンfに対する複素逆ウィシャート分布のパラメータΨ(f),ν(f)は、事前に準備され、記憶部13に記憶されているものとする。これらのパラメータは、マイクロホン配置の情報に基づいて事前に準備してもよいし、実測データから事前に学習してもよい。
例えば、マイクロホン配置の情報に基づいて事前に準備する場合には、各マイクロホンmの直交座標をrとして、各音源位置候補kに対応する平面波のステアリングベクトルを(19)式により計算し、Ψ(f),ν(f)を次の(20)式および(21)式により計算すればよい。
Figure 0006915579
Figure 0006915579
Figure 0006915579
ここで、dはk番目の音源位置候補に対応する音源信号の到来方向を表す単位ベクトル、cは音速、ωは周波数ビンfに対応する角周波数、(21−1)式に示すjは虚数単位、上付きのHはエルミート転置である。
Figure 0006915579
ここで、本第1の実施形態における事前分布((17)式)の導出について説明する。各音源の音源位置は未知であると仮定し、各音源nの音源位置に対応する音源位置インデックスkは、(22)式に示す未知の確率分布に従うと仮定する。βknは、音源ごとの音源位置インデックスの確率分布である音源位置事前確率である。
Figure 0006915579
さらに、本第1の実施形態では、音源nに対する音源位置インデックスがk=kであるという条件の下で、音源nの空間共分散行列R(1),・・・,R(F)が、互いに独立に確率分布((23)式)に従うものとする。
Figure 0006915579
ここで、Ψ(f)は、各音源位置候補に対する空間共分散行列の事前分布の山(モード)の位置を表すパラメータ(スケール行列)であり、ν(f)は、各音源位置候補に対する空間共分散行列の事前分布の山の広がり(自由度)を表すパラメータである。また、IW(Σ;Ψ,ν)は、(24)式に示すものであり、スケール行列がΨ、自由度がνである複素逆ウィシャート分布である。
Figure 0006915579
(22)式および(23)式のモデル化の下では、音源nの空間共分散行列R(1),・・・,R(F)の確率分布は、次の(25)式〜(28)式で与えられる。
Figure 0006915579
本実施形態では、事前分布((17)式)に基づき、パラメータを推定する。以下、本実施形態におけるパラメータ推定アルゴリズムについて説明する。なお、以下では簡単のため、複素逆ウィシャート分布「IW」を、添え字Cを省略して単に「IW」と表す。空間共分散行列R(f)以外の未知パラメータの事前分布は一様分布であると仮定すると、パラメータΘの事前分布は次の(29)式および(30)式で与えられる。
Figure 0006915579
なお、本第1の実施形態におけるパラメータΘは、音源存在事前確率α(f)、パワーパラメータv(t,f)、空間共分散行列R(f)および音源位置事前確率βknからなる。
一方、パラメータΘが与えられた下で、各時間周波数点における観測信号ベクトルy(t,f)が互いに独立であると仮定すると、尤度が次の(31)式および(32)式で与えられる。
Figure 0006915579
ここで、Yは、すべての時間周波数点における観測信号ベクトルy(t,f)をまとめて表したものである。
本第1の実施形態では、パラメータΘの事後確率p(Θ|Y)を最大化することにより、パラメータΘを推定する。ベイズの定理より、この事後確率は(33)式のように表せ、両辺の対数を取ると、(34)式となる。
Figure 0006915579
Figure 0006915579
lnp(Y)はパラメータΘに依らないから、事後確率p(Θ|Y)のΘに関する最大化は、次の(35)式のΘに関する最大化と等価であり、したがって次の(36)式に示す目的関数J(Θ)のΘに関する最大化と等価である。
Figure 0006915579
ここで、=の上に“c”が記された記号は、パラメータΘに依存しない定数の差を除いて両辺が等しいことを表す記号である。また、「A=:B」は、BをAによって定義することを表す。
上式の目的関数J(Θ)の最大化は、補助関数法に基づいて行うことができる。補助関数法では、パラメータΘと補助変数と呼ばれる変数Φとの関数である補助関数Q(Θ,Φ)に基づいて、以下の2つのステップを交互に反復する。
1.補助関数Q(Θ,Φ)を補助変数Φに関して最大化することにより、補助変数Φを更新するステップ
2.補助関数Q(Θ,Φ)が減少しないようにパラメータΘを更新するステップ
ただし、補助関数Q(Θ,Φ)は、次の(37)式に示す条件を満たすものとする。
Figure 0006915579
この補助関数法により、目的関数J(Θ)を単調増加させることができる。すなわち、i回目の反復の結果得られたパラメータΘの推定値をΘ(i)として、(38)式が成り立つ。
Figure 0006915579
実際、i回目の反復の結果得られた補助変数Φの値をΦ(i)とすると、(37)式より、(39)式および(40)式が成り立つ。
Figure 0006915579
しかるに、以下の(41)式が成り立つから、(38)式が得られる。
Figure 0006915579
補助関数法においては、(37)式を満たすような補助関数Q(Θ,Φ)を設計する必要がある。そのために、本第1の実施形態では、イェンセンの不等式を用いる。fを凸関数とし、w,・・・,wを(42)式を満たす非負の数とし、x,・・・,xを実数とするとき、(43)式が成り立つ(等号成立条件はx=・・・=x)ことが知られている。
Figure 0006915579
Figure 0006915579
これは、イェンセンの不等式と呼ばれる。特に、f(x)=−lnxとすると、(44)式を得る。
Figure 0006915579
λ(t,f),・・・,λ(t,f)を(45)式を満たす非負の数とすると(44)式より(46)式および(47)式が得られる。
Figure 0006915579
Figure 0006915579
また、μ1n,・・・,μKnを(48)式を満たす非負の数とすると、(44)式より(49)式および(50)式が得られる。
Figure 0006915579
Figure 0006915579
(47)式および(50)式より、(51)式が得られる。
Figure 0006915579
よって、(51)式の右辺を、(52)式とおくと、(36)式および(51)式より、(53)式が成り立つ。
Figure 0006915579
Figure 0006915579
ただし、補助変数Φは、λ(t,f)とμknとからなるものとする。
(51)式の等号成立条件は、(54)式および(55)式である。
Figure 0006915579
これは、次の(56)式および(57)式と等価である。
Figure 0006915579
したがって、(58)式が成り立つ。
Figure 0006915579
(53)式および(58)式より、(52)式のQ(Θ,Φ)が(37)式を満たすことが分かる。これで、目的関数J(Θ)に対する補助関数が設計できた。
本第1の実施形態では、(52)式の補助関数Q(Θ,Φ)に基づいて、補助変数ΦおよびパラメータΘを次のようにして更新する。まず、補助変数Φの更新は、(56)式および(57)式により行えばよい。また、パラメータΘの更新は、次の(59)式〜(62)式を用いて行えばよい。
Figure 0006915579
Figure 0006915579
Figure 0006915579
Figure 0006915579
このように、本第1の実施形態では、(36)式の目的関数を直接最大化する代わりに、補助関数Q(Θ,Φ)に基づいて、補助関数Q(Θ,Φ)を補助変数Φに関して最大化することによりΦを更新するステップと、補助関数Q(Θ,Φ)が減少しないようにパラメータΘを更新するステップと、を交互に反復することにより、(36)式の目的関数を間接的に最大化する。(36)式の目的関数においては、対数lnの中にkに関する和Σk=1 が含まれており、(36)式の目的関数の各パラメータに関する微分が煩雑な形になるため、(36)式の目的関数を勾配法などにより直接最大化しようとすると、更新則が煩雑な形になる。これに対し、補助関数Q(Θ,Φ)では、kに関する和Σk=1 が対数lnの外に出た形になっており、補助関数Q(Θ,Φ)の各パラメータに関する微分が単純な形になる。また、勾配法では、反復ごとのパラメータの更新量を定めるステップサイズを調整する必要があるが、補助関数法では、ステップサイズが不要であるため、ステップサイズを調整する必要がない。
(56)式により更新されたλ(t,f)は、観測信号ベクトルy(t,f)が観測された「後」の音源存在確率に他ならない。実際、ベイズの定理より、(56)式は(63)式とも書ける。
Figure 0006915579
そこで、λ(t,f)を音源存在事後確率と呼ぶ。これに対し、α(f)((64)式))は、観測信号ベクトルy(t,f)が観測される「前」の音源存在確率であるから、音源存在事前確率と呼ぶ。
Figure 0006915579
また、(57)式により更新されたμknは、空間共分散行列R(1),・・・,R(F)が与えられた「後」の音源位置確率に他ならない。実際、(57)は、(65)式とも書ける。
Figure 0006915579
そこで、μknを音源位置事後確率と呼ぶ。これに対し、βkn((66)式)は、空間共分散行列R(1),・・・,R(F)が与えられる「前」の音源位置確率であるため、音源位置事前確率と呼ぶ。
Figure 0006915579
(56)式の処理は音源存在事後確率更新部12において、(57)式の処理は音源位置事後確率更新部14において、(59)式の処理は音源存在事前確率更新部15において、(60)式の処理は音源位置事前確率更新部16において、(61)式の処理は空間共分散行列更新部17において、(62)式の処理はパワーパラメータ更新部18において、それぞれ行われる。
ここで、上述のパラメータΘの更新則(59)式〜(62)式の導出について説明する。まず、(52)式の補助関数は次の(67)式および(68)式のように計算できる。ここで、CはパラメータΘに依らない定数である。
Figure 0006915579
音源存在事前確率α(f)の更新則(59)式を導出するために、拘束条件(6)式に注意して、ξをラグランジュの未定乗数として、(69)式をα(f)で微分したものを0と置くと、(70)式となる。
Figure 0006915579
Figure 0006915579
(70)式をα(f)について解くと、(71)式となる。
Figure 0006915579
(71)式に含まれるラグランジュの未定乗数ξの値を決定するために、(71)式を拘束条件(6)式に代入すると、(72)式〜(74)式となる。
Figure 0006915579
よって、ξ=Tであるから、音源存在事前確率α(f)の更新則(59)式が得られる。音源位置事前確率βknの更新則(60)式も同様にして導出できるから、説明を省略する。
空間共分散行列R(f)の更新則(61)式を導出するために、(68)式をR(f)で微分したものを0と置くと、(75)式となる。
Figure 0006915579
上式の両辺に対し、左右からそれぞれR(f)を掛けると、(76)式となる。これをR(f)について解けば、空間共分散行列R(f)の更新則(61)式が得られる。
Figure 0006915579
パワーパラメータv(t,f)の更新則(62)式を導出するために、(68)式をv(t,f)で微分したものを0と置くと、(77)式となる。
Figure 0006915579
これをv(t,f)について解けば、パワーパラメータv(t,f)の更新則(62)式が得られる。以上で、上述のパラメータΘの更新則(59)式〜(62)式が導出できた。
本第1の実施形態においては、複素ガウス分布のパラメータである空間共分散行列R(f)の事前分布が、複素逆ウィシャート分布に基づく事前分布であるというモデル化に基づいている。このように、複素ガウス分布と複素逆ウィシャート分布とを組み合わせて用いることにより、補助関数Q(Θ,Φ)が、その空間共分散行列R(f)に関する微分を0と置いた式がR(f)について解ける(上述)ような形になる。これは、複素逆ウィシャート分布が複素ガウス分布の共役事前分布であることに起因する。共役事前分布については、参考文献2「C.M. Bishop,“Pattern Recognition and Machine Learning”, Springer, 2006.」を参照されたい。
[第1の実施形態の効果]
このように、本第1の実施形態では、空間共分散行列の各信号源に対する事前分布を、空間共分散行列の複数の各信号源位置候補に対する事前分布の線型結合である混合分布によりモデル化するときの混合重みであり、信号源ごとの各信号源位置候補から信号が到来する確率である、信号源位置事前確率を推定する。具体的には、本第1の実施形態では、空間共分散行列の各信号源に対する事前分布を(17)式のようにモデル化している。そして、本第1の実施形態では、未知の確率である音源位置事前確率βknによる重み付き和に基づくことによって、各音源の音源位置が未知の場合でも、空間共分散行列の事前分布を設計することができる。したがって、本第1の実施形態では、各音源信号に対する音源位置が未知である場合にも、空間共分散行列の事前分布に基づいて音源分離を行うことができる。
また、本第1の実施形態では、(52)式に示すように、対数lnの中にkに関する和がない補助関数を用いるため、補助関数の各パラメータに関する微分が単純になり、パラメータの更新演算が煩雑ではなくなる。
また、本第1の実施形態では、空間共分散行列の事前分布が、複素逆ウィシャート分布に基づく事前分布であるというモデル化に基づいている。このように、本第1の実施形態では、複素ガウス分布と複素逆ウィシャート分布とを組み合わせて用いることにより、補助関数Q(Θ,Φ)が、その空間共分散行列R(f)に関する微分を0と置いた式がR(f)について解ける。
[第1の実施形態の変形例1]
本第1の実施形態では、観測データとして観測信号ベクトルy(t,f)を用いたが、他の特徴ベクトルまたは特徴量を観測データとして用いてもよい。例えば、観測信号ベクトルy(t,f)に基づいて、(78)式および(79)式で定義される特徴ベクトルz(t,f)を用いてもよい。
Figure 0006915579
Figure 0006915579
また、観測データとして、マイクロホン間の位相差、振幅比や、音源信号の到来時間差、到来方向などの特徴量を用いてもよい。
また、本第1の実施形態では、特徴ベクトルである観測信号ベクトルに当てはめる混合モデルとして、混合複素ガウス分布を用いたが、利用される特徴ベクトルに応じて、様々な混合モデル(例えば、混合ガウス分布、混合ラプラス分布、混合複素ワトソン分布、混合複素ビンガム分布、混合複素角度中心ガウス分布、フォンミーゼス分布など)を用いることができる。また、混合モデルに限らず、複素ガウス分布などのモデルを特徴ベクトルである観測信号ベクトルに当てはめてもよい。
また、本第1の実施形態では、空間共分散行列の事前分布を混合複素逆ウィシャート分布によりモデル化したが、混合複素ウィシャート分布などの他のモデルによりモデル化してもよい。
また、本第1の実施形態では、モデルを観測データに当てはめるために、パラメータΘの事後確率を最大化する方法を採用したが、他の方法によりモデルを観測データに当てはめてもよい。
また、本第1の実施形態では、補助関数法により最適化を行ったが、勾配法などの他の方法により最適化を行ってもよい。その場合、音源存在事後確率更新部12および音源位置事後確率更新部14は必須ではない。
[第1の実施形態の変形例2]
真の音源数N´が未知の場合に、真の音源数N´の推定や音源分離を行う第1の実施形態の変形例2について説明する。本変形例では、仮定された音源数NはN≧N´となるように十分大きく設定されているものとする。例えば、想定される音源数が高々6個であると分かっているような場合には、仮定された音源数はN=6と設定すればよい。なお、実際の音源数は4個である場合には、N´=4となる。
推定部10は、各n(nは1以上N以下の整数)に対し、音源位置事前確率更新部16からの音源位置事前確率βknが最大となるkに対応する音源位置候補を音源位置の推定値とする。そして、信号分析装置1は、このようにして得られたN個の音源位置を、階層クラスタリングなどによりクラスタリングし、得られたクラスタの個数を、実際の音源数N´の推定値^N´とする。
クラスタリングにより得られた^N´個の各クラスタは、^N´個の実際の音源に対応するものとみなされる。従ってこのクラスタリングにより、N個の仮定する各音源nが、^N´個の実際の音源のうちのどれに対応するか、が分かる。音源分離を行う場合には、この対応関係を利用して、推定部10が以降の処理も行う。
推定部10は更に、得られた^N´個の各クラスタn´(n´は1以上^N´以下の整数であるクラスタのインデックス)に対し、N個の仮定する音源の音源存在事後確率λ(t,f)のうち該クラスタに対応するものを加算することにより、n´番目の実際の音源の音源存在事後確率λ´n´(t,f)を計算する。推定部10は更に、式(8)と同様に、各時間周波数点(t,f)に対し、実際の音源の音源存在事後確率λ´n´(t,f)が最大となる番号n´に対応する実際の音源からの信号が(t,f)にて鳴っていると判定する。推定部10は更に、(4)式と同様に、実際の音源の音源信号成分の推定値^x´n´(t,f)を、(t,f)においてn´番目の実際の音源が鳴っていると判定された場合にはy(t,f)とし、そうでないと判定された場合には0とすることにより、音源分離を行う。
[第1の実施形態の変形例3]
本第1の実施形態は、音信号に限らず、他の信号(脳波、脳磁図、無線信号など)に対して適用してもよい。本第1の実施形態における観測信号は、複数のマイクロホン(マイクロホンアレイ)により取得された観測信号に限らず、脳波計、脳磁計、アンテナアレイなどの他のセンサアレイ(複数のセンサ)により取得された、空間上の位置から時系列として発生する信号からなる観測信号であってもよい。
[第1の実施形態の変形例4]
観測信号ベクトルy(t,f)の確率分布を次の(80)式の複素ガウス分布によりモデル化する例を第1の実施形態の変形例4として説明する。この場合のパラメータΘの更新則は、第1の実施形態の(56)、(57)、(59)、(60)、(61)、(62)式に代えて、(81)式〜(86)式のようになる。
Figure 0006915579
図3および図4を用いて、第1の実施形態の変形例4の構成と処理について説明する。図3は、第1の実施形態の変形例4に係る信号分析装置の構成の一例を示す図である。図4は、第1の実施形態の変形例4に係る信号分析処理の処理手順の一例を示すフローチャートである。
図3に示すように、本第1の実施形態の変形例4に係る信号分析装置201は、観測信号ベクトル作成部11、初期化部(図示しない)、記憶部13、推定部210、パワーパラメータ更新部218、収束判定部(図示しない)を有する。推定部210は、音源位置事後確率更新部212、音源信号事後確率更新部213、音源位置事前確率更新部214、空間共分散行列更新部217を有する。
観測信号ベクトル作成部11は、第1の実施形態と同様に、観測信号ベクトルy(t,f)を(1)式により作成する(ステップS21〜ステップS23)。
初期化部は、音源位置事前確率βknと、空間共分散行列R(f)と、パワーパラメータv(t,f)と、の推定値の初期値を計算する(ステップS24)。ただし、n=1,・・・,Nは音源のインデックス、k=1,・・・,Kは音源位置候補のインデックスである。例えば初期化部は、乱数に基づいてこれらの初期値を計算する。また、初期化部は、nを初期化する(ステップS25)。
なお、記憶部13は、各音源位置候補k、各周波数ビンfに対する空間共分散行列の事前分布のパラメータであるΨ(f)およびν(f)を記憶する。
続いて、信号分析装置201は、nに1を加算して(ステップS26)、ステップS27〜ステップS31の処理を行う。
音源位置事後確率更新部212は、記憶部13からの事前分布のパラメータであるΨ(f)およびν(f)と、音源位置事前確率更新部214からの音源位置事前確率(ただし例外として、音源位置事後確率更新部212における最初の処理の際には、初期化部からの音源位置事前確率の初期値)βknと、空間共分散行列更新部217からの空間共分散行列(ただし例外として、音源位置事後確率更新部212における最初の処理の際には、初期化部からの空間共分散行列の初期値)R(f)と、を受け取って、音源位置事後確率μknを(81)式により更新する(ステップS27)。
Figure 0006915579
音源信号事後確率更新部213は、観測信号ベクトル作成部11からの観測信号ベクトルy(t,f)と、パワーパラメータ更新部218からのパワーパラメータ(ただし例外として、音源信号事後確率更新部213における最初の処理の際には、初期化部からのパワーパラメータの初期値)v(t,f)と、空間共分散行列更新部217からの空間共分散行列(ただし例外として、音源信号事後確率更新部213における最初の処理の際には、初期化部からの空間共分散行列の初期値)R(f)と、を受け取って、音源信号成分x(t,f)の事後確率の平均ξ(t,f)および共分散行列Σ(t,f)を、(82)式および(83)式により更新する(ステップS28)。
Figure 0006915579
Figure 0006915579
音源位置事前確率更新部214は、音源位置事後確率更新部212からの音源位置事後確率μknを受け取って、音源位置事前確率βknを(84)式により更新する(ステップS29)。
Figure 0006915579
空間共分散行列更新部217は、記憶部13からの事前分布のパラメータであるΨ(f)およびν(f)と、音源位置事後確率更新部212からの音源位置事後確率μknと、音源信号事後確率更新部213からの事後確率の平均ξ(t,f)および共分散行列Σ(t,f)と、パワーパラメータ更新部218からのパワーパラメータ(ただし例外として、空間共分散行列更新部217における最初の処理の際には、初期化部からのパワーパラメータの初期値)v(t,f)と、を受け取って、空間共分散行列R(f)を(85)式により更新する(ステップS30)。
Figure 0006915579
パワーパラメータ更新部218は、空間共分散行列更新部217からの空間共分散行列R(f)と、音源信号事後確率更新部213からの事後確率の平均ξ(t,f)および共分散行列Σ(t,f)と、を受け取って、パワーパラメータv(t,f)を(86)式により更新する(ステップS31)。
Figure 0006915579
そして、信号分析装置201は、n=Nか否かを判定する(ステップS32)。信号分析装置201は、n=Nでないと判定した場合(ステップS32:No)、ステップS26に戻る。これに対し、信号分析装置201は、n=Nであると判定した場合(ステップS32:Yes)、収束判定部による判定処理に進む。
収束判定部は、収束したかどうかの判定を行う(ステップS33)。信号分析装置201は、収束していないと収束判定部が判定した場合(ステップS33:No)、ステップS25に戻って、処理を継続する。一方、収束したと収束判定部が判定した場合(ステップS33:Yes)、音源信号事後確率更新部213は、事後確率の平均ξ(t,f)を、音源信号成分x(t,f)の推定値^x(t,f)として出力し(ステップS34)、信号分析装置201での処理が終了する。
[第1の実施形態の変形例5]
第1の実施形態では、空間共分散行列により音源信号の空間的特性をモデル化したが、他のパラメータにより音源信号の空間的特性をモデル化してもよい。音源信号の空間的特性をモデル化するパラメータを、ここでは空間パラメータと呼ぶ。
例えば、空間パラメータとしてステアリングベクトルを用い、これにより音源信号の空間的特性をモデル化してもよい。この場合、観測信号ベクトルy(t,f)の確率分布は、例えば次の(87)式の複素ガウス分布によりモデル化できる。
Figure 0006915579
ここで、h(f)は、音源信号nの空間的特性をモデル化する空間パラメータであるステアリングベクトルであり、σ は正則化のための正数である。この場合、h(f)の事前分布は次の(88)式で与えられる。但し、(88)式における「p」は、複素ガウス分布「p」を表す。
Figure 0006915579
ここで、g(f)とσ はハイパーパラメータである。g(f)はk番目の音源位置候補に対するステアリングベクトルであり、σ は正則化のための正数である。以上のモデル化に基づいて、第1の実施形態と同様にパラメータΘを推定すればよい。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。すなわち、上記学習方法および音声認識方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム]
図5は、プログラムが実行されることにより、信号分析装置1,201が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、信号分析装置1,201の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、信号分析装置1,201における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等はすべて本発明の範疇に含まれる。
1,201,1P 信号分析装置
10 推定部
11,11P 観測信号ベクトル作成部
12,12P 音源存在事後確率更新部
13,13P 記憶部
14,212 音源位置事後確率更新部
14P 音源存在事前確率更新部
15 音源存在事前確率更新部
16,214 音源位置事前確率更新部
17,217,15P 空間共分散行列更新部
18,218,16P パワーパラメータ更新部
19,17P 音源信号成分推定部
213 音源信号事後確率更新部

Claims (6)

  1. N個(Nは2以上の整数)の信号源からの信号の空間的特性をモデル化するパラメータを空間パラメータとする場合、前記空間パラメータの各信号源に対する事前分布を、前記空間パラメータのK個(Kは2以上の整数)の各信号源位置候補に対する事前分布の線形結合である混合分布によりモデル化するときの混合重みであり、前記信号源ごとの前記各信号源位置候補から信号が到来する確率である、信号源位置事前確率を推定する推定部を有することを特徴とする信号分析装置。
  2. 前記空間パラメータは、空間共分散行列であり、
    前記混合分布は混合複素逆ウィシャート分布であることを特徴する請求項1に記載の信号分析装置。
  3. 前記推定部は、未知のパラメータの事後確率を最大化するための目的関数についての補助関数であり、前記目的関数に含まれる前記線形結合における和演算が対数演算の中に含まれない補助関数を用いた補助関数法により前記信号源位置事前確率を推定することを特徴とする請求項1または2に記載の信号分析装置。
  4. 前記推定部は、実際の信号源の数N´に対し十分に大きい数で仮定する信号源の数をNとしたとき、各n(nは1以上N以下の整数)に対し、前記信号源位置事前確率が最大となる信号源の位置候補を信号源位置の推定値とし、得られたN個の信号源の位置を、階層クラスタリングによりクラスタリングし、得られたクラスタの個数を、実際の音源数N´の推定値とすることを特徴とする請求項1〜3のいずれか一つに記載の信号分析装置。
  5. 信号分析装置が実行する信号分析方法であって、
    N個(Nは2以上の整数)の信号源からの信号の空間的特性をモデル化するパラメータを空間パラメータとする場合、前記空間パラメータの各信号源に対する事前分布を、前記空間パラメータのK個(Kは2以上の整数)の各信号源位置候補に対する事前分布の線型結合である混合分布によりモデル化するときの混合重みであり、前記信号源ごとの前記各信号源位置候補から信号が到来する確率である、信号源位置事前確率を推定する工程
    を含んだことを特徴とする信号分析方法。
  6. コンピュータを、請求項1〜4のいずれか一つに記載の信号分析装置として機能さ
    せるための信号分析プログラム。
JP2018074239A 2018-04-06 2018-04-06 信号分析装置、信号分析方法および信号分析プログラム Active JP6915579B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018074239A JP6915579B2 (ja) 2018-04-06 2018-04-06 信号分析装置、信号分析方法および信号分析プログラム
US16/981,294 US20210012790A1 (en) 2018-04-06 2019-04-05 Signal analysis device, signal analysis method, and signal analysis program
PCT/JP2019/015215 WO2019194315A1 (ja) 2018-04-06 2019-04-05 信号分析装置、信号分析方法および信号分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018074239A JP6915579B2 (ja) 2018-04-06 2018-04-06 信号分析装置、信号分析方法および信号分析プログラム

Publications (2)

Publication Number Publication Date
JP2019184773A JP2019184773A (ja) 2019-10-24
JP6915579B2 true JP6915579B2 (ja) 2021-08-04

Family

ID=68100746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018074239A Active JP6915579B2 (ja) 2018-04-06 2018-04-06 信号分析装置、信号分析方法および信号分析プログラム

Country Status (3)

Country Link
US (1) US20210012790A1 (ja)
JP (1) JP6915579B2 (ja)
WO (1) WO2019194315A1 (ja)

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6130949A (en) * 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
WO2006085537A1 (ja) * 2005-02-08 2006-08-17 Nippon Telegraph And Telephone Corporation 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
JP5337072B2 (ja) * 2010-02-12 2013-11-06 日本電信電話株式会社 モデル推定装置、音源分離装置、それらの方法及びプログラム
US9747921B2 (en) * 2014-02-28 2017-08-29 Nippon Telegraph And Telephone Corporation Signal processing apparatus, method, and program
CN106297820A (zh) * 2015-05-14 2017-01-04 杜比实验室特许公司 具有基于迭代加权的源方向确定的音频源分离
JP6584930B2 (ja) * 2015-11-17 2019-10-02 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN108292508B (zh) * 2015-12-02 2021-11-23 日本电信电话株式会社 空间相关矩阵估计装置、空间相关矩阵估计方法和记录介质
US10878832B2 (en) * 2016-02-16 2020-12-29 Nippon Telegraph And Telephone Corporation Mask estimation apparatus, mask estimation method, and mask estimation program
US10014002B2 (en) * 2016-02-16 2018-07-03 Red Pill VR, Inc. Real-time audio source separation using deep neural networks
JP6538624B2 (ja) * 2016-08-26 2019-07-03 日本電信電話株式会社 信号処理装置、信号処理方法および信号処理プログラム
WO2019163487A1 (ja) * 2018-02-23 2019-08-29 日本電信電話株式会社 信号分析装置、信号分析方法及び信号分析プログラム
JP6973254B2 (ja) * 2018-04-05 2021-11-24 日本電信電話株式会社 信号分析装置、信号分析方法および信号分析プログラム
JP7145215B2 (ja) * 2018-07-05 2022-09-30 バリューコマース株式会社 ブラウザ管理システム、ブラウザ管理方法、ブラウザ管理プログラム、およびクライアントプログラム
JP6992709B2 (ja) * 2018-08-31 2022-01-13 日本電信電話株式会社 マスク推定装置、マスク推定方法及びマスク推定プログラム
JP7140206B2 (ja) * 2018-11-12 2022-09-21 日本電信電話株式会社 信号分離装置、信号分離方法及びプログラム
JP7243840B2 (ja) * 2019-08-21 2023-03-22 日本電信電話株式会社 推定装置、推定方法及び推定プログラム

Also Published As

Publication number Publication date
JP2019184773A (ja) 2019-10-24
WO2019194315A1 (ja) 2019-10-10
US20210012790A1 (en) 2021-01-14

Similar Documents

Publication Publication Date Title
US11763834B2 (en) Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
JP6434657B2 (ja) 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
JP3949150B2 (ja) 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
US7583808B2 (en) Locating and tracking acoustic sources with microphone arrays
CN108701468B (zh) 掩码估计装置、掩码估计方法以及记录介质
JP2008145610A (ja) 音源分離定位方法
Walter et al. Source counting in speech mixtures by nonparametric Bayesian estimation of an infinite Gaussian mixture model
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP4769238B2 (ja) 信号分離装置、信号分離方法、プログラム及び記録媒体
JP6441769B2 (ja) クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP6059072B2 (ja) モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
JP6915579B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
JP6193823B2 (ja) 音源数推定装置、音源数推定方法および音源数推定プログラム
US11322169B2 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
JP2007226036A (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体、並びに、信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
Duan et al. Noisy blind signal-jamming separation algorithm based on VBICA
JP6616472B2 (ja) クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
Rafique et al. Speech source separation using the IVA algorithm with multivariate mixed super gaussian student's t source prior in real room environment
Wiese et al. Particle filter based DOA estimation for multiple source tracking (MUST)
JP2023025457A (ja) 信号解析装置、信号解析方法、及び信号解析プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210628

R150 Certificate of patent or registration of utility model

Ref document number: 6915579

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150