JP6519801B2

JP6519801B2 - 信号解析装置、方法、及びプログラム

Info

Publication number: JP6519801B2
Application number: JP2016032414A
Authority: JP
Inventors: 弘和亀岡; 祐介田尻; 戸田　智基; 智基戸田; 中村　哲; 哲中村
Original assignee: Nara Institute of Science and Technology NUC; Nippon Telegraph and Telephone Corp
Current assignee: Nara Institute of Science and Technology NUC; Nippon Telegraph and Telephone Corp
Priority date: 2016-02-23
Filing date: 2016-02-23
Publication date: 2019-05-29
Anticipated expiration: 2036-02-23
Also published as: JP2017151226A

Description

本発明は、信号解析装置、方法、及びプログラムに係り、特に、パラメータを推定する信号解析装置、方法、及びプログラムに関する。

音声コミュニケーションは、我々の生活における最も効率的なコミュニケーション手段の一つであり、携帯電話などの通信端末の普及により、異なる環境下にいる人物との会話も容易となっている。

しかしながら、聞き手が周囲にいない状況での発声行為は周囲の人物にとって迷惑になりやすい、また、会話内容が漏えいしてしまう、といった理由から発声を躊躇するような状況が数多く存在する。

このような問題に対し、周囲が聴取可能な声を発することなく音声コミュニケーションを行う技術として、サイレント音声インタフェースが注目を浴びている。

非可聴つぶやき(Non-Audible Murmur:NAM)マイク（以後、ＮＡＭマイクとする）は、そのようなサイレント音声インタフェースの一つであり、周囲が聴取困難なほど微弱なささやき声を体表から収録することを可能にする。

また、ＮＡＭマイクは、微弱な音声だけでなく、通常音声やささやき声など様々な音声を収録することができ、次世代の音声インタフェースとして期待されている。

ＮＡＭマイクによる音声の体内伝導収録は、マイクの構造上、外部雑音に対して比較的頑健である。通常音声を収録する場合、一般的な空気伝導マイクによる収録と比較して、外部雑音に対して高いＳＮ比を確保できる。一方で、微弱な音声を収録する場合、十分なＳＮ比を得ることは困難となり、外部雑音によって収録音声の品質が容易に劣化する。

雑音環境下では、マイクを口唇付近に設置しない限り、非常に微弱な音声を空気伝導音声として収録することは困難である。このような発声音の微弱性に着目し、図７に示すような位置に空気伝導マイクを配置することで、口唇から放射される音声が十分に抑えられた、かつ、ＮＡＭマイクに混入するものと近い音響特性を有する外部雑音を収録できる。

このとき、時刻ｔにおける体内伝導微弱音声をｓ_１，ｔ、空気伝導外部雑音をｓ_２，ｔとすると、ＮＡＭマイクおよび空気伝導マイクにおける観測信号は、下記（１）式、及び（２）式のように表される。なお、下記（１）式がＮＡＭマイクにおける観測信号であり、下記（２）式が空気伝導マイクにおける観測信号である。

したがって、上記（２）式が成立し、空気伝導マイクで観測した信号が外部雑音の参照信号として利用できれば、古典的な適応アルゴリズムやセミブラインド音源分離（Semi-Blind Source Separation: Semi-BSS）の適用により、マイク間特性α_τを推定することで体内伝導信号に含まれる外部雑音を抑圧することができる。

空気伝導信号を外部雑音の参照信号として扱い、ＮＡＭマイクに混入した外部雑音を抑圧することは、典型的なエコーキャンセリングと類似した問題である。本枠組みでは、微弱音声の発生時がエコーキャンセリングにおけるダブルトーク状態に相当する。したがって、Least Mean Square (LMS)アルゴリズムなどの古典的な適応アルゴリズムを用いる場合、外部雑音が混入した体内伝導信号に対して音声区間検出(Voice Activity Detection: VAD)を行い、発話時には更新処理を停止させるといった対処が必要になる。しかしながら、雑音環境下において、高精度なＶＡＤを実現することは容易ではない。近年、ダブルトーク対策が不要な手法としてSemi-BSSを適用した手法が提案されている（非特許文献１、及び非特許文献２）。

音源複素スペクトログラムを

観測複素スペクトログラムを

とする。このとき、分析フレーム超に対してマイク間特性のフィルタ長が短いと仮定すると、観測スペクトログラム

は、下記（３）式のように表すことができる。

ここで、ωは周波数インデックス、τは時刻フレームインデックスを表す。また、

は音源からマイクまでの伝達特性を表す（２×２）の混合行列であり、時間的に変動しないものとみなす。ＢＳＳの目的は、

の逆行列である分離行列

を観測信号

のみから推定することであり、音源の統計的独立性に基づく手法である独立成分分析（Independent Component Analysis:ICA）が広く用いられている。ここでは、ＩＣＡのアルゴリズムとして、自然勾配法を使用し、下記（４）式、及び（５）式による更新を繰り返すことで、分離信号間の独立性を最大にする分離行列

を得る。

ここで、

は、（２×２）の単位行列、

は分離信号の複素スペクトログラム、

はステップ幅、

はスコア関数と呼ばれる非２次的関数、

は時間的平均演算を表す。

スコア関数には、目的信号の分布がスーパーガウシアンであることを仮定し、下記（６）式を用いる。

ただし、

は虚数単位を表す。

本枠組みでは、微弱音声がＮＡＭマイクでのみ観測されると仮定しているため、分離行列の要素の一部を下記（７）式のように固定でき、セミブラインドな問題となる。

さらに、上記（１）式、及び（２）式に示した混合過程においては、ｗ_{１，１，ω}＝１と固定できる。これにより、ｗ_{１，１，ω}を更新する場合と比較して、周波数ＩＣＡにおけるスケールの不定性が解消され、逆投影法（Projection Back: PB）の適用が不要になる。さらに、ｗ_{２，２，ω}についても同様に、ｗ_{２，２，ω}＝１と同定できる。その結果、分離行列を下記（８）式のように設定することができ、この場合、推定すべき要素はｗ_{１，２，ω}のみとなる。なお、雑音源から空気伝導マイクへのパスの逆フィルタが作れない場合を考慮すると、ｗ_{２，２，ω}も更新する方が無難である。

田尻祐介, 戸田智基, Graham Neubig, Sakriani Sakti, 中村哲, "外部雑音モニタリングを用いた非可聴つぶやきに対する雑音抑圧法," 日本音響学会秋季研究発表会講演論文集, pp. 591-592, Sep. 2015. 田尻祐介, 戸田智基, 中村哲, "外部雑音モニタリングに基づく体内伝導微弱音声に対する雑音抑圧法,"信学技報, vol. 115, no. 302, EA2015-31, pp. 41-46, Nov. 2015.

上記非特許文献１及び非特許文献２に記載の技術では、雑音源が一つの点音源である条件下でのみ、外部雑音モニタリングに基づく雑音抑圧法の有効性が確認されている。しかしながら、実環境においてそのような条件が成立することは希であり、複数音源の存在を考慮する必要があるという問題がある。

また、複数の雑音源がユーザに対して異なる方位に存在する場合、マイクごとに異なる振幅・位相で入力された雑音が加算されるため、空気伝導信号に対するフィルタリング処理によって、ＮＡＭマイクに混入した外部雑音を表現することは困難となり、従来法による雑音抑圧効果が期待できないという問題がある。

また、雑音源が一つであっても、その音源が移動する場合、上記と同様の問題が生じるという問題がある。

本発明は、上記の事情に鑑みてなされたもので、雑音源が複数、又は移動する場合であっても雑音を抑圧することができる信号解析装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る信号解析装置は、第１のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の音源からの音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、第２のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力する混合音時間周波数展開部と、前記混合音時間周波数展開部により取得した前記第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、前記第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分を要素に持つテンソルと、前記複数の音源の各々から各マイクまでの伝達特性を表すステアリングベクトルの絶対値成分、前記複数の音源の各々についての前記基底パワースペクトル、及び前記複数の音源の各々についての、各時刻及び各基底におけるパワーを表すアクティベーションパラメータから求められるテンソルとの距離を表す目的関数を最小化するように、前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータとの更新の各々を行うパラメータ更新部と、予め定められた収束条件を満たしか否かを判定し、前記収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う収束判定部と、を含んで構成されている。

第２の発明に係る信号解析方法は、混合音時間周波数展開部と、パラメータ更新部と、収束判定部とを含む信号解析装置における、信号解析方法であって、前記混合音時間周波数展開部は、第１のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の音源からの音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、及び第２のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、前記パラメータ更新部は、前記混合音時間周波数展開部により取得した前記第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、前記第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分を要素に持つテンソルと、前記複数の音源の各々から各マイクまでの伝達特性を表すステアリングベクトルの絶対値成分、前記複数の音源の各々についての前記基底パワースペクトル、及び前記複数の音源の各々についての、各時刻及び各基底におけるパワーを表すアクティベーションパラメータから求められるテンソルとの距離を表す目的関数を最小化するように、前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータとの更新の各々を行い、前記収束判定部は、予め定められた収束条件を満たしたか否かを判定し、前記収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う。

第１及び第２の発明によれば、前記混合音時間周波数展開部により、第１のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の音源からの音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、第２のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、前記パラメータ更新部により、前記混合音時間周波数展開部により取得した前記第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、前記第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分を要素に持つテンソルと、前記複数の音源の各々から各マイクまでの伝達特性を表すステアリングベクトルの絶対値成分、前記複数の音源の各々についての前記基底パワースペクトル、前記複数の音源の各々についての、各時刻及び各基底におけるパワーを表すアクティベーションパラメータから求められるテンソルとの距離を表す目的関数を最小化するように、前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータとの更新の各々を行い、前記収束判定部により、予め定められた収束条件を満たしたか否かを判定し、収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う。

このように、第１のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の音源からの音源信号が混合された観測信号の時系列データを入力として、観測スペクトログラムを出力し、第２のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、観測スペクトログラムを出力し、取得した第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の基底パワースペクトルと、に基づいて、目的関数を最小化するように、複数の音源の各々のステアリングベクトルの絶対値成分と、複数の音源の各々のアクティベーションパラメータとの更新の各々を行うことを繰り返すことにより、雑音源が複数、又は移動する場合であっても雑音を抑圧することができる。

また、第１及び第２の発明において、前記パラメータ更新部は、前記混合音時間周波数展開部により取得した前記第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、前記目的関数を最小化するように、前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータと、前記基底パワースペクトルとの更新の各々を行ってもよい。

また、第１及び第２の発明において、前記第１のマイクを、音声を体表から取得する非可聴つぶやきマイクとしてもよい。

また、第１の発明において、前記距離の距離尺度を板倉齋藤擬距離基準としてもよい。

また、本発明のプログラムは、上記信号解析装置を構成する各部として機能させるためのプログラムである。

以上説明したように、本発明の信号解析方法、装置、及びプログラムによれば、第１のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の音源からの音源信号が混合された観測信号の時系列データを入力として、観測スペクトログラムを出力し、第２のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、観測スペクトログラムを出力し、取得した第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の基底パワースペクトルと、に基づいて、目的関数を最小化するように、複数の音源の各々のステアリングベクトルの絶対値成分と、複数の音源の各々のアクティベーションパラメータとの更新の各々を行うことを繰り返すことにより、雑音源が複数、又は移動する場合であっても雑音を抑圧することができる、という効果が得られる。

本実施の形態に係る信号解析装置の機能的な構成例を示すブロック図である。本実施の形態に係る２つのマイクの位置関係の一例を示す図である。本実施の形態に係る信号解析装置のパラメータ推定処理ルーチンを示すフローチャートである。クリーンな体内伝導微弱音声のスペクトログラムの一例を示す図である。駅構内の雑音に対する結果の一例を示す図である。飲食店内の雑音に対する結果の一例を示す図である。２つのマイクの位置関係の一例を示す図である。

以下、図面を参照して、本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態の概要＞

まず、本発明の実施の形態の概要について説明する。本発明の実施の形態は、信号処理の技術分野に属し、体内伝導微音声信号に対し雑音抑圧することを目的とする。

また、本発明の実施の形態は、各音源の時間周波数成分の絶対値成分とステアリングベクトルの絶対値成分とで表される非負値瞬時混合モデルに基づき、空気伝導マイクでモニタリングした外部雑音の信号とＮＡＭマイクで取得した信号の時間周波数成分の絶対値成分から、学習サンプルから事前学習した音声の非負値基底パワースペクトルを用いて、モニタリングした外部雑音の時間周波数成分の絶対値成分を手がかりにステアリングベクトルの絶対値成分と音声の基底パワースペクトルのアクティベーションパラメータを推定する。

＜本実施の形態の原理＞
次に、本実施形態の原理について説明する。

複数の雑音源が存在し、それらが移動する場合、空気伝導マイクでモニタリングした外部雑音の位相情報は参照信号として意味を持たない。そこで、観測信号の振幅情報を重視したモデルについて検討する。

観測複素スペクトログラムを

とする。ここで、観測複素スペクトログラムの各要素はｙ_{ｊ，ω，τ}であるものとする。また、各音源の複素スペクトログラムを

とすると、時間周波数領域における瞬時混合モデルは、下記（９）式で表される。

ここで、ｉは音源インデックスを表す。

は音源から各マイクまでの伝達特性を表わす時不変なステアリングベクトルで、下記（１０）式に示すように絶対値と偏角の成分に分解できる。

ここで、新たに下記（１１）式、及び（１２）式を定義する。

このとき、下記の１）〜３）を仮定する。

１）

は区間［０，２π）で一様分布に従う、

２）

は互いに独立である、

３）

は複素正規分布

に従う、上記１）〜３）を仮定し、本枠組みにおいて信頼度の低い偏角成分を確率変数とみなして下記（１３）式のように周辺化する。

ここで、ｐ_{ｉ，ω，τ}は、各音源のパワースペクトログラムの期待値を表すパラメータである。結果、上記（９）〜（１３）の関係式より、上記（９）式の観測スペクトログラムも同様に、下記（１４）式のような複素正規分布でモデル化される。

また、

は、｜α_{ｊ，ｉ，ω}｜^２を要素に持つ対角行列であり、下記（１５）式のように表される。

よって、

とおくと、ｙ_{ｊ，ω，τ}が与えられたもとでのｘ_{ｊ，ω，τ}の対数尤度は、下記（１６）式となる。

この対数尤度は、

のとき最大となるので、

の最大化問題は、対数尤度差

の最小化問題に置き換えられる。また、この対数尤度差は下記（１７）式に示すとおりであり、板倉齋藤擬距離

と等しいことがわかる。

したがって、ｐ_{ｉ，ω，τ}に対し、非負値行列因子分解（Non-negative Matrix Factorization: NMF）で用いられる構造

を仮定すると、パラメータ

、

、及び

の最大尤度推定問題は、観測パワースペクトログラム｜ｙ_{ｊ，ω，τ}｜^２を要素に持つテンソル

に対し、板倉齋藤擬距離基準の非負値テンソル分解（Non-negative Tensor Factorization: NTF）を行うことと等価となる。

上記（１７）式より、板倉齋藤擬距離基準のＮＴＦの目的関数は、パラメータ

に依らない項を省略すると下記（１８）式で表される。

次に、補助関数法により、上記（１８）式の上限関数

を、下記（１９）式のように設計する。なお、下記（１９）式も上記（１８）式と同様に、パラメータ

に依らない項を省略している。

ここで、

は補助変数であり、それぞれ、下記（２０）式に示されるときに、不等式

の等号が成立する。

上記（１９）式の補助関数を用いることで、下記（２１）式、（２２）式、及び（２３）式が導かれる。

雑音環境下では、空気伝導マイクにわずかに漏れ込んだ（空気伝導）微弱音声を無視できる。したがって、

を体内伝導微弱音声のスペクトログラムとすると、

より、下記（２４）式のように固定することができる。

また、マイク間距離が短いため、雑音源がユーザに極めて近い場合を除き、マイク音源間の距離差によって生じる減衰量の差は無視できる。このことから、各マイクの特性やアンプの特性などが時不変であると仮定すれば、空気伝導マイクで観測した複数の雑音をＮＡＭマイクに混入する外部雑音の参照信号として利用することができる。結果、雑音源の数によらず、音源インデックスは

と固定できる。なお、マイク間距離は例えば５センチ程度としてもよいが、さらに短くしてもよい。

＜本発明の実施形態に係る信号解析装置の構成＞
次に、本発明の実施形態に係る信号解析装置の構成について説明する。図１に示すように、本発明の実施形態に係る信号解析装置１００は、ＣＰＵと、ＲＡＭと、後述するパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。この信号解析装置１００は、機能的には図１に示すようにＮＡＭマイク１０と、空気伝導マイク１２と、演算部２０と、出力部９０と、を含んで構成されている。なお、第１のマイクの音声を体表から取得する非可聴つぶやきマイクであるＮＡＭマイク１０と、第２のマイクである空気伝導マイク１２の位置関係を図２に示す。図２の場合、ＮＡＭマイク１０は、耳介後方部（乳様突起直下の胸鎖乳突筋上）に設置され、空気伝導マイク１２は、ＮＡＭマイク１０の周辺に設置され、両マイクの間の距離は５センチ程度に設定されている。また、本実施形態においてｊ＝１はＮＡＭマイク１０を表し、ｊ＝２は空気伝導マイク１２を表すものとする。また、ｉ＝１は体内伝導微弱音声の音源を表し、ｉ＝２は雑音源を表す。

ＮＡＭマイク１０は、空気伝導外部雑音を含まない、クリーンな体内伝導微弱音声の音源信号（以後、クリーン音源信号）の時系列データを出力し、データベース２２に記憶する。また、ＮＡＭマイク１０は、空気伝導外部雑音の音源信号と体内伝導微弱音声の音源信号とが混じっている混合音の音源信号（以後、混合音音源信号）の時系列データを、混合音時間周波数展開部に出力する。

空気伝導マイク１２は、空気伝導外部雑音の音源信号の時系列データを、混合音時間周波数展開部に出力する。

演算部２０は、データベース２２と、時間周波数展開部２４と、パラメータ推定部２６と、パラメータ更新部３２と、収束判定部３４と、音声信号生成部４０と、を含んで構成されている。

データベース２２には、ＮＡＭマイク１０から出力されたクリーン音源信号の時系列データが記憶されている。また、データベース２２には、後述するパラメータ推定部２６により推定された、処理対象のクリーン音源信号に対応したパワースペクトルｗ_{ｉ，ω，ｋ}の各々が記憶されている。また、データベース２２には、後述するパラメータ更新部３２により更新されたパラメータの各々が記憶されている。また、データベース２２には、収束判定部３４から入力される目的関数の値が記憶されている。

時間周波数展開部２４は、データベース２２に記憶されているクリーン音源信号の時系列データに基づいて、各時刻τにおける各周波数ωの観測時間周波数成分を表す観測複素スペクトログラム

を計算する。なお、本実施形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。

パラメータ推定部２６は、時間周波数展開部２４において取得した観測複素スペクトログラム

に対して従来技術である、多チャンネルＮＭＦを用いて各音源ｉ、各周波数ω、及び各基底ｋにおけるパワースペクトルｗ_{ｉ，ω，ｋ}の推定を行い、基底パワースペクトル

を取得する。具体的には、パワースペクトルｗ_{ｉ，ω，ｋ}の推定を行い、結果として得られたパワースペクトルを、処理対象としたクリーン音源信号に対応したパワースペクトルｗ_{ｉ，ω，ｋ}として用いる。また、処理対象のクリーン音源信号に対応したパワースペクトルｗ_{ｉ，ω，ｋ}を保持する。

混合音時間周波数展開部２８は、時間周波数展開部２４と同様に、ＮＡＭマイク１０から入力された混合音音源信号の時系列データに基づいて、各時刻τにおける各周波数ωの観測時間周波数成分を表す観測複素スペクトログラム

を計算する。

また、混合音時間周波数展開部２８は、時間周波数展開部２４と同様に、空気伝導マイク１２から入力された空気伝導外部雑音の音源信号の時系列データに基づいて、各時刻τにおける各周波数ωの観測時間周波数成分を表す観測複素スペクトログラム

を計算する。

パラメータ更新部３２は、上記（１８）式に示す距離尺度を板倉齋藤擬距離基準とするＮＴＦの目的関数を最小化するように、混合音時間周波数展開部２８において取得した混合音音源信号の時系列データに基づく観測複素スペクトログラム

、及び空気伝導外部雑音の音源信号の時系列データに基づく観測複素スペクトログラム

と、データベース２２に記憶されている基底パワースペクトル

に含まれるパワースペクトルｗ_{ｉ，ω，ｋ}と初期値であるパワースペクトルｗ_{ｉ，ω，ｋ}とを含む基底パワースペクトル

、又は前回更新した基底パワースペクトル

と、初期値である、又は前回更新した、各時刻τ及び各基底ｋにおける各音源ｉの音源信号のパワーｈ_{ｉ，ｋ，τ}を表すアクティベーションパラメータ

と、初期値である、又は前回更新した、各マイクｊの各音源iの各周波数ωにおける音源iからマイクｊまでの伝達特性に関するステアリングベクトルの絶対値成分｜α_ｊ,i,ω｜^２と、に基づいて、基底パワースペクトル

、アクティベーションパラメータ

、及びステアリングベクトルの絶対値成分｜α_ｊ,i,ω｜^２の更新を行う。

なお、パラメータ更新部３２は、更新した各々の値を更新した値として、データベース２２に記憶する。また、パラメータ更新部３２は、前回更新した値をデータベース２２から取得するものとする。なお、処理に必要なパラメータの各々についてデータベース２２に値が存在しない場合については、事前にパラメータの各々について初期値を設定し、処理を行うものとする。

具体的には、混合音時間周波数展開部２８において取得した混合音音源信号の時系列データに基づく観測複素スペクトログラム

、又は前回更新した基底パワースペクトル

と、初期値である、又は前回更新したアクティベーションパラメータ

と、初期値である、又は前回更新したステアリングベクトルの絶対値成分｜α_ｊ,i,ω｜^２とに基づいて、上記（２１）式、（２２）式、及び（２３）式の各々に従って、基底パワースペクトル

、アクティベーションパラメータ

、及びステアリングベクトルの絶対値成分｜α_ｊ,i,ω｜^２の各々を更新し、各パラメータの更新処理毎に更新した各値をデータベースに記憶する。

また、パラメータ更新部３２は、混合音時間周波数展開部２８において取得した混合音音源信号の時系列データに基づく観測複素スペクトログラム

と、更新した基底パワースペクトル

、アクティベーションパラメータ

、及びステアリングベクトルの絶対値成分｜α_ｊ,i,ω｜^２の各々の値とに基づいて、上記（１８）式に従って、目的関数の値を算出し、収束判定部３４に出力する。

なお、上記各パラメータの更新処理の順番は任意であってもよい。

であり、かつ

として各パラメータの更新処理を行うものとする。

収束判定部３４は、パラメータ更新部３２において取得した目的関数の値とデータベース２２に記憶されている前回の目的関数の値との差分が、予め定められた閾値以下である場合に、収束条件を満たすと判定する。収束条件を満たすまで、パラメータ更新部３２における更新処理と、収束判定部３４における収束条件の判定処理を繰り返す。なお、収束条件を満たさない場合には、パラメータ更新部３２において取得した目的関数の値を前回の目的関数の値としてデータベース２２に記憶する。

音声信号生成部４０は、パラメータ更新部３２において更新した基底パワースペクトル

と、アクティベーションパラメータ

とに基づいて、空気伝導外部雑音が除去された分離音を算出し、出力部９０から出力する。

＜本発明の実施形態に係る信号解析装置の作用＞
次に、本発明の実施形態に係る信号解析装置１００の作用について説明する。まず、ＮＡＭマイク１０から出力された、クリーン音源信号の時系列データを受け付け、データベース２２に記憶する。次に、ＮＡＭマイク１０から出力された、混合音音源信号の時系列データを受け付け、かつ空気伝導マイク１２から出力された、空気伝導外部雑音の時系列データを受け付けると、信号解析装置１００は、図３に示すパラメータ推定処理ルーチンを実行する。

まず、ステップＳ１００では、データベース２２に記憶されているクリーン音源信号の時系列データを読み込む。

次に、ステップＳ１０２では、ステップＳ１００において取得したクリーン音源信号の時系列データに基づいて、観測複素スペクトログラム

を取得する。

次に、ステップＳ１０４では、ステップＳ１０２において取得した観測複素スペクトログラム

に基づいて、基底パワースペクトル

を取得する。

次に、ステップＳ１０５では、ＮＡＭマイク１０から受け付けた混合音音源信号の時系列データに基づいて、観測複素スペクトログラム

を取得する。

次に、ステップＳ１０６では、空気伝導マイク１２から受け付けた空気伝導外部雑音の時系列データに基づいて、観測複素スペクトログラム

を取得する。

次に、ステップＳ１０７では、データベース２２に記憶されていない各パラメータの値について初期値を設定する。

次に、ステップＳ１０８では、ステップＳ１０４及びステップＳ１０７において取得した、又はデータベース２２に記憶されている前回ステップＳ１１０において更新した基底パワースペクトル

と、ステップＳ１０５において取得した混合音音源信号の観測複素スペクトログラム

と、ステップＳ１０６において取得した空気伝導外部雑音についての観測複素スペクトログラム

と、ステップＳ１０７において初期値が設定された、又はデータベース２２に記憶されているステップＳ１１２において前回更新したアクティベーションパラメータ

と、ステップＳ１０７において初期値が設定された、又はデータベース２２に記憶されているステップＳ１０８において前回更新したステアリングベクトルの絶対値成分｜α_ｊ,i,ω｜^２とに基づいて、上記（２１）式に従って、ステアリングベクトルの絶対値成分｜α_ｊ,i,ω｜^２を更新し、データベース２２に記憶する。

次に、ステップＳ１１０では、ステップＳ１０４及びステップＳ１０７において取得した、又はデータベース２２に記憶されているステップＳ１１０において前回更新した基底パワースペクトル

と、ステップＳ１０７において初期値が設定された、又はデータベース２２に記憶されているステップＳ１０８において前回更新したステアリングベクトルの絶対値成分｜α_ｊ,i,ω｜^２とに基づいて、上記（２２）式に従って、基底パワースペクトル

を更新し、データベース２２に記憶する。

次に、ステップＳ１１２では、ステップＳ１０４及びステップＳ１０７において取得した、又はデータベース２２に記憶されているステップＳ１１０において前回更新した基底パワースペクトル

と、ステップＳ１０７において初期値が設定された、又はデータベース２２に記憶されているステップＳ１０８において前回更新したステアリングベクトルの絶対値成分｜α_ｊ,i,ω｜^２とに基づいて、上記（２３）式に従って、アクティベーションパラメータ

を更新し、データベース２２に記憶する。

次に、ステップＳ１１３では、ステップＳ１０５において取得した混合音音源信号の観測複素スペクトログラム

と、ステップＳ１０８において取得したステアリングベクトルの絶対値成分｜α_ｊ,i,ω｜^２と、ステップＳ１１０において取得した基底パワースペクトル

と、ステップＳ１１２において取得したアクティベーションパラメータ

とに基づいて、上記（１８）式に従って、目的関数の値を算出する。

次に、ステップＳ１１４では、ステップＳ１１３において取得した目的関数の値と、データベース２２に記憶されている前回の目的関数の値との差分とに基づいて、収束条件を満たすか否かを判定する。収束条件を満たした場合には、パラメータ推定処理ルーチンを終了する。一方、収束条件を満たしていない場合には、ステップＳ１１３において取得した目的関数の値をデータベース２２に記憶し、ステップＳ１０８へ移行し、ステップＳ１０８〜ステップＳ１１４までの処理を繰り返す。

また、本実施形態に係る信号解析装置１００は、上述のパラメータ推定処理ルーチンにより取得した基底パワースペクトル

と、アクティベーションパラメータ

なお、上述のステップＳ１００〜ステップＳ１０４までの処理を１つの処理ルーチンとし、ステップＳ１０５〜ステップＳ１１４までの処理を１つの処理ルーチンとして別々に行ってもよい。この場合、ＮＡＭマイク１０からクリーン音源信号の時系列データを受け付けると、信号解析装置１００は、ステップＳ１００〜ステップＳ１０４までの処理の処理ルーチンを実行する。一方、ＮＡＭマイク１０から、混合音音源信号の時系列データを受け付け、かつ空気伝導マイク１２から、空気伝導外部雑音の時系列データを受け付けると、信号解析装置１００は、ステップＳ１０５〜ステップＳ１１４までの処理の処理ルーチンを実行する。

＜実験例＞
本実施形態に係る信号解析装置１００を用いて、実環境下で収録した雑音に対する雑音抑圧性能を検証した。雑音は駅構内の雑音と、飲食店内の雑音の２種類とし、それぞれＳＮ比０ｄＢでクリーンな体内伝導微弱音声および空気伝導（漏れ込み）微弱音声に重畳する。

なお、収録信号のサンプリング周波数は１６ｋＨｚ、ＦＦＴ分析のフレーム長は６４ｍｓ、シフト長は３２ｍｓとする。ＢＳＳの更新回数は２００回、ＮＴＦおよびＭＮＭＦＤの更新回数は５０回、各音源の基底数は２０、ＮＭＦＤ基底のタップ数は１０^＊４とする。

図４に目的信号であるクリーンな体内伝導微弱音声のスペクトログラムを示す。また、図５に駅構内の雑音に対する雑音抑圧結果の例を示す。また、図６に飲食店内の雑音に対する雑音抑圧結果の例を示す。

以上説明したように、本発明の実施形態に係る信号解析装置によれば、第１のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の音源からの音源信号が混合された観測信号の時系列データを入力として、観測スペクトログラムを出力し、第２のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、観測スペクトログラムを出力し、取得した第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の基底パワースペクトルと、に基づいて、目的関数を最小化するように、複数の音源の各々のステアリングベクトルの絶対値成分と、複数の音源の各々のアクティベーションパラメータとの更新の各々を行い、予め定められた収束条件を満たすまで、各パラメータの更新を繰り返し行うことにより、雑音源が複数、又は移動する場合であっても雑音を抑圧することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、上述の信号解析装置１００は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体、例えばＣＤ−ＲＯＭやメモリーカード等に格納して提供することも可能である。

１０ＮＡＭマイク
１２空気伝導マイク
２０演算部
２２データベース
２４時間周波数展開部
２６パラメータ推定部
２８混合音時間周波数展開部
３２パラメータ更新部
３４収束判定部
４０音声信号生成部
９０出力部
１００信号解析装置

Claims

第１のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の移動しうる音源からの音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、第２のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力する混合音時間周波数展開部と、
前記混合音時間周波数展開部により取得した前記第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、
前記第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分を要素に持つテンソルと、
前記複数の音源の各々から各マイクまでの伝達特性を表すステアリングベクトルの絶対値成分、前記複数の音源の各々についての前記基底パワースペクトル、及び前記複数の音源の各々についての、各時刻及び各基底におけるパワーを表すアクティベーションパラメータから求められるテンソルとの距離を表す目的関数を最小化するように、
前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータとの更新の各々を行うパラメータ更新部と、
予め定められた収束条件を満たしたか否かを判定し、前記収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う収束判定部と、
を含む信号解析装置。
前記ステアリングベクトルは、前記絶対値成分と偏角成分に式(10)の通り分解され、

前記式(10)に基づき、前記観測時間周波数成分の瞬時混合モデルは、式(11)と式(12)の積で表現される

請求項１記載の信号解析装置。
ただし、ｉは音源インデックスを表し、ωは周波数インデックスを表し、

は虚数単位を表し、

は、各音源の複素スペクトログラムを表し、τは時刻フレームインデックスを表す。
前記偏角成分を式(13)の通りとすることで、

前記瞬時混合モデルを式(14)と変形し、

上記式(14)に基づき前記観測信号を解析する
請求項２記載の信号解析装置。
ただし、ｐ _{ｉ，ω，τ} は、各音源のパワースペクトログラムの期待値を表すパラメータであり、

は、（２×２）の単位行列である。
前記パラメータ更新部は、前記混合音時間周波数展開部により取得した前記第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、前記目的関数を最小化するように、前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータと、前記基底パワースペクトルとの更新の各々を行う請求項１〜３の何れか１項記載の信号解析装置。
前記第１のマイクを、音声を体表から取得する非可聴つぶやきマイクとした請求項１〜４の何れか１項記載の信号解析装置。
前記距離の距離尺度を板倉齋藤擬距離基準とする請求項１〜５の何れか１項記載の信号解析装置。
混合音時間周波数展開部と、パラメータ更新部と、収束判定部とを含む信号解析装置における、信号解析方法であって、
前記混合音時間周波数展開部は、第１のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の移動しうる音源からの音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、第２のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、
前記パラメータ更新部は、前記混合音時間周波数展開部により取得した前記第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、
前記第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分を要素に持つテンソルと、
前記複数の音源の各々から各マイクまでの伝達特性を表すステアリングベクトルの絶対値成分、前記複数の音源の各々についての前記基底パワースペクトル、及び前記複数の音源の各々についての、各時刻及び各基底におけるパワーを表すアクティベーションパラメータから求められるテンソルとの距離を表す目的関数を最小化するように、
前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータとの更新の各々を行い、
前記収束判定部は、予め定められた収束条件を満たしたか否かを判定し、前記収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う
信号解析方法。
前記パラメータ更新部により更新の各々を行うことは、前記混合音時間周波数展開部により取得した前記第１のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第２のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、前記目的関数を最小化するように、前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータと、前記基底パワースペクトルとの更新の各々を行う請求項７記載の信号解析方法。
前記第１のマイクを、音声を体表から取得する非可聴つぶやきマイクとした請求項７又は８記載の信号解析方法。
コンピュータを、請求項１〜６の何れか１項記載の信号解析装置を構成する各部として機能させるためのプログラム。