JP6519801B2 - 信号解析装置、方法、及びプログラム - Google Patents

信号解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP6519801B2
JP6519801B2 JP2016032414A JP2016032414A JP6519801B2 JP 6519801 B2 JP6519801 B2 JP 6519801B2 JP 2016032414 A JP2016032414 A JP 2016032414A JP 2016032414 A JP2016032414 A JP 2016032414A JP 6519801 B2 JP6519801 B2 JP 6519801B2
Authority
JP
Japan
Prior art keywords
microphone
observation
sound
absolute value
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016032414A
Other languages
English (en)
Other versions
JP2017151226A (ja
Inventor
弘和 亀岡
弘和 亀岡
祐介 田尻
祐介 田尻
戸田 智基
智基 戸田
中村 哲
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nara Institute of Science and Technology NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Nara Institute of Science and Technology NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nara Institute of Science and Technology NUC, Nippon Telegraph and Telephone Corp filed Critical Nara Institute of Science and Technology NUC
Priority to JP2016032414A priority Critical patent/JP6519801B2/ja
Publication of JP2017151226A publication Critical patent/JP2017151226A/ja
Application granted granted Critical
Publication of JP6519801B2 publication Critical patent/JP6519801B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、信号解析装置、方法、及びプログラムに係り、特に、パラメータを推定する信号解析装置、方法、及びプログラムに関する。
音声コミュニケーションは、我々の生活における最も効率的なコミュニケーション手段の一つであり、携帯電話などの通信端末の普及により、異なる環境下にいる人物との会話も容易となっている。
しかしながら、聞き手が周囲にいない状況での発声行為は周囲の人物にとって迷惑になりやすい、また、会話内容が漏えいしてしまう、といった理由から発声を躊躇するような状況が数多く存在する。
このような問題に対し、周囲が聴取可能な声を発することなく音声コミュニケーションを行う技術として、サイレント音声インタフェースが注目を浴びている。
非可聴つぶやき(Non-Audible Murmur:NAM)マイク(以後、NAMマイクとする)は、そのようなサイレント音声インタフェースの一つであり、周囲が聴取困難なほど微弱なささやき声を体表から収録することを可能にする。
また、NAMマイクは、微弱な音声だけでなく、通常音声やささやき声など様々な音声を収録することができ、次世代の音声インタフェースとして期待されている。
NAMマイクによる音声の体内伝導収録は、マイクの構造上、外部雑音に対して比較的頑健である。通常音声を収録する場合、一般的な空気伝導マイクによる収録と比較して、外部雑音に対して高いSN比を確保できる。一方で、微弱な音声を収録する場合、十分なSN比を得ることは困難となり、外部雑音によって収録音声の品質が容易に劣化する。
雑音環境下では、マイクを口唇付近に設置しない限り、非常に微弱な音声を空気伝導音声として収録することは困難である。このような発声音の微弱性に着目し、図7に示すような位置に空気伝導マイクを配置することで、口唇から放射される音声が十分に抑えられた、かつ、NAMマイクに混入するものと近い音響特性を有する外部雑音を収録できる。
このとき、時刻tにおける体内伝導微弱音声をs1,t、空気伝導外部雑音をs2,tとすると、NAMマイクおよび空気伝導マイクにおける観測信号は、下記(1)式、及び(2)式のように表される。なお、下記(1)式がNAMマイクにおける観測信号であり、下記(2)式が空気伝導マイクにおける観測信号である。
したがって、上記(2)式が成立し、空気伝導マイクで観測した信号が外部雑音の参照信号として利用できれば、古典的な適応アルゴリズムやセミブラインド音源分離(Semi-Blind Source Separation: Semi-BSS)の適用により、マイク間特性ατを推定することで体内伝導信号に含まれる外部雑音を抑圧することができる。
空気伝導信号を外部雑音の参照信号として扱い、NAMマイクに混入した外部雑音を抑圧することは、典型的なエコーキャンセリングと類似した問題である。本枠組みでは、微弱音声の発生時がエコーキャンセリングにおけるダブルトーク状態に相当する。したがって、Least Mean Square (LMS)アルゴリズムなどの古典的な適応アルゴリズムを用いる場合、外部雑音が混入した体内伝導信号に対して音声区間検出(Voice Activity Detection: VAD)を行い、発話時には更新処理を停止させるといった対処が必要になる。しかしながら、雑音環境下において、高精度なVADを実現することは容易ではない。近年、ダブルトーク対策が不要な手法としてSemi-BSSを適用した手法が提案されている(非特許文献1、及び非特許文献2)。
音源複素スペクトログラムを
観測複素スペクトログラムを
とする。このとき、分析フレーム超に対してマイク間特性のフィルタ長が短いと仮定すると、観測スペクトログラム
は、下記(3)式のように表すことができる。
ここで、ωは周波数インデックス、τは時刻フレームインデックスを表す。また、
は音源からマイクまでの伝達特性を表す(2×2)の混合行列であり、時間的に変動しないものとみなす。BSSの目的は、
の逆行列である分離行列
を観測信号
のみから推定することであり、音源の統計的独立性に基づく手法である独立成分分析(Independent Component Analysis:ICA)が広く用いられている。ここでは、ICAのアルゴリズムとして、自然勾配法を使用し、下記(4)式、及び(5)式による更新を繰り返すことで、分離信号間の独立性を最大にする分離行列
を得る。
ここで、
は、(2×2)の単位行列、
は分離信号の複素スペクトログラム、
はステップ幅、
はスコア関数と呼ばれる非2次的関数、
は時間的平均演算を表す。
スコア関数には、目的信号の分布がスーパーガウシアンであることを仮定し、下記(6)式を用いる。

ただし、

は虚数単位を表す。
本枠組みでは、微弱音声がNAMマイクでのみ観測されると仮定しているため、分離行列の要素の一部を下記(7)式のように固定でき、セミブラインドな問題となる。
さらに、上記(1)式、及び(2)式に示した混合過程においては、w1,1,ω=1と固定できる。これにより、w1,1,ωを更新する場合と比較して、周波数ICAにおけるスケールの不定性が解消され、逆投影法(Projection Back: PB)の適用が不要になる。さらに、w2,2,ωについても同様に、w2,2,ω=1と同定できる。その結果、分離行列を下記(8)式のように設定することができ、この場合、推定すべき要素はw1,2,ωのみとなる。なお、雑音源から空気伝導マイクへのパスの逆フィルタが作れない場合を考慮すると、w2,2,ωも更新する方が無難である。
田尻祐介, 戸田智基, Graham Neubig, Sakriani Sakti, 中村哲, "外部雑音モニタリングを用いた非可聴つぶやきに対する雑音抑圧法," 日本音響学会秋季研究発表会講演論文集, pp. 591-592, Sep. 2015. 田尻祐介, 戸田智基, 中村哲, "外部雑音モニタリングに基づく体内伝導微弱音声に対する雑音抑圧法,"信学技報, vol. 115, no. 302, EA2015-31, pp. 41-46, Nov. 2015.
上記非特許文献1及び非特許文献2に記載の技術では、雑音源が一つの点音源である条件下でのみ、外部雑音モニタリングに基づく雑音抑圧法の有効性が確認されている。しかしながら、実環境においてそのような条件が成立することは希であり、複数音源の存在を考慮する必要があるという問題がある。
また、複数の雑音源がユーザに対して異なる方位に存在する場合、マイクごとに異なる振幅・位相で入力された雑音が加算されるため、空気伝導信号に対するフィルタリング処理によって、NAMマイクに混入した外部雑音を表現することは困難となり、従来法による雑音抑圧効果が期待できないという問題がある。
また、雑音源が一つであっても、その音源が移動する場合、上記と同様の問題が生じるという問題がある。
本発明は、上記の事情に鑑みてなされたもので、雑音源が複数、又は移動する場合であっても雑音を抑圧することができる信号解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る信号解析装置は、第1のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の音源からの音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、第2のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力する混合音時間周波数展開部と、前記混合音時間周波数展開部により取得した前記第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、前記第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分を要素に持つテンソルと、前記複数の音源の各々から各マイクまでの伝達特性を表すステアリングベクトルの絶対値成分、前記複数の音源の各々についての前記基底パワースペクトル、及び前記複数の音源の各々についての、各時刻及び各基底におけるパワーを表すアクティベーションパラメータから求められるテンソルとの距離を表す目的関数を最小化するように、前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータとの更新の各々を行うパラメータ更新部と、予め定められた収束条件を満たしか否かを判定し、前記収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う収束判定部と、を含んで構成されている。
第2の発明に係る信号解析方法は、混合音時間周波数展開部と、パラメータ更新部と、収束判定部とを含む信号解析装置における、信号解析方法であって、前記混合音時間周波数展開部は、第1のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の音源からの音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、及び第2のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、前記パラメータ更新部は、前記混合音時間周波数展開部により取得した前記第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、前記第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分を要素に持つテンソルと、前記複数の音源の各々から各マイクまでの伝達特性を表すステアリングベクトルの絶対値成分、前記複数の音源の各々についての前記基底パワースペクトル、及び前記複数の音源の各々についての、各時刻及び各基底におけるパワーを表すアクティベーションパラメータから求められるテンソルとの距離を表す目的関数を最小化するように、前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータとの更新の各々を行い、前記収束判定部は、予め定められた収束条件を満たしたか否かを判定し、前記収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う。
第1及び第2の発明によれば、前記混合音時間周波数展開部により、第1のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の音源からの音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、第2のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、前記パラメータ更新部により、前記混合音時間周波数展開部により取得した前記第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、前記第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分を要素に持つテンソルと、前記複数の音源の各々から各マイクまでの伝達特性を表すステアリングベクトルの絶対値成分、前記複数の音源の各々についての前記基底パワースペクトル、前記複数の音源の各々についての、各時刻及び各基底におけるパワーを表すアクティベーションパラメータから求められるテンソルとの距離を表す目的関数を最小化するように、前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータとの更新の各々を行い、前記収束判定部により、予め定められた収束条件を満たしたか否かを判定し、収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う。
このように、第1のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の音源からの音源信号が混合された観測信号の時系列データを入力として、観測スペクトログラムを出力し、第2のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、観測スペクトログラムを出力し、取得した第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の基底パワースペクトルと、に基づいて、目的関数を最小化するように、複数の音源の各々のステアリングベクトルの絶対値成分と、複数の音源の各々のアクティベーションパラメータとの更新の各々を行うことを繰り返すことにより、雑音源が複数、又は移動する場合であっても雑音を抑圧することができる。
また、第1及び第2の発明において、前記パラメータ更新部は、前記混合音時間周波数展開部により取得した前記第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、前記目的関数を最小化するように、前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータと、前記基底パワースペクトルとの更新の各々を行ってもよい。
また、第1及び第2の発明において、前記第1のマイクを、音声を体表から取得する非可聴つぶやきマイクとしてもよい。
また、第1の発明において、前記距離の距離尺度を板倉齋藤擬距離基準としてもよい。
また、本発明のプログラムは、上記信号解析装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の信号解析方法、装置、及びプログラムによれば、第1のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の音源からの音源信号が混合された観測信号の時系列データを入力として、観測スペクトログラムを出力し、第2のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、観測スペクトログラムを出力し、取得した第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の基底パワースペクトルと、に基づいて、目的関数を最小化するように、複数の音源の各々のステアリングベクトルの絶対値成分と、複数の音源の各々のアクティベーションパラメータとの更新の各々を行うことを繰り返すことにより、雑音源が複数、又は移動する場合であっても雑音を抑圧することができる、という効果が得られる。
本実施の形態に係る信号解析装置の機能的な構成例を示すブロック図である。 本実施の形態に係る2つのマイクの位置関係の一例を示す図である。 本実施の形態に係る信号解析装置のパラメータ推定処理ルーチンを示すフローチャートである。 クリーンな体内伝導微弱音声のスペクトログラムの一例を示す図である。 駅構内の雑音に対する結果の一例を示す図である。 飲食店内の雑音に対する結果の一例を示す図である。 2つのマイクの位置関係の一例を示す図である。
以下、図面を参照して、本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の概要>
まず、本発明の実施の形態の概要について説明する。本発明の実施の形態は、信号処理の技術分野に属し、体内伝導微音声信号に対し雑音抑圧することを目的とする。
また、本発明の実施の形態は、各音源の時間周波数成分の絶対値成分とステアリングベクトルの絶対値成分とで表される非負値瞬時混合モデルに基づき、空気伝導マイクでモニタリングした外部雑音の信号とNAMマイクで取得した信号の時間周波数成分の絶対値成分から、学習サンプルから事前学習した音声の非負値基底パワースペクトルを用いて、モニタリングした外部雑音の時間周波数成分の絶対値成分を手がかりにステアリングベクトルの絶対値成分と音声の基底パワースペクトルのアクティベーションパラメータを推定する。
<本実施の形態の原理>
次に、本実施形態の原理について説明する。
複数の雑音源が存在し、それらが移動する場合、空気伝導マイクでモニタリングした外部雑音の位相情報は参照信号として意味を持たない。そこで、観測信号の振幅情報を重視したモデルについて検討する。
観測複素スペクトログラムを
とする。ここで、観測複素スペクトログラムの各要素はyj,ω,τであるものとする。また、各音源の複素スペクトログラムを
とすると、時間周波数領域における瞬時混合モデルは、下記(9)式で表される。
ここで、iは音源インデックスを表す。
は音源から各マイクまでの伝達特性を表わす時不変なステアリングベクトルで、下記(10)式に示すように絶対値と偏角の成分に分解できる。
ここで、新たに下記(11)式、及び(12)式を定義する。

このとき、下記の1)〜3)を仮定する。
1)
は区間[0,2π)で一様分布に従う、
2)
は互いに独立である、
3)
は複素正規分布
に従う、上記1)〜3)を仮定し、本枠組みにおいて信頼度の低い偏角成分を確率変数とみなして下記(13)式のように周辺化する。
ここで、pi,ω,τは、各音源のパワースペクトログラムの期待値を表すパラメータである。結果、上記(9)〜(13)の関係式より、上記(9)式の観測スペクトログラムも同様に、下記(14)式のような複素正規分布でモデル化される。
また、
は、|αj,i,ωを要素に持つ対角行列であり、下記(15)式のように表される。
よって、
とおくと、yj,ω,τが与えられたもとでのxj,ω,τの対数尤度は、下記(16)式となる。
この対数尤度は、
のとき最大となるので、
の最大化問題は、対数尤度差
の最小化問題に置き換えられる。また、この対数尤度差は下記(17)式に示すとおりであり、板倉齋藤擬距離
と等しいことがわかる。
したがって、pi,ω,τに対し、非負値行列因子分解(Non-negative Matrix Factorization: NMF)で用いられる構造
を仮定すると、パラメータ


、及び
の最大尤度推定問題は、観測パワースペクトログラム|yj,ω,τを要素に持つテンソル
に対し、板倉齋藤擬距離基準の非負値テンソル分解(Non-negative Tensor Factorization: NTF)を行うことと等価となる。
上記(17)式より、板倉齋藤擬距離基準のNTFの目的関数は、パラメータ
に依らない項を省略すると下記(18)式で表される。
次に、補助関数法により、上記(18)式の上限関数
を、下記(19)式のように設計する。なお、下記(19)式も上記(18)式と同様に、パラメータ
に依らない項を省略している。
ここで、
は補助変数であり、それぞれ、下記(20)式に示されるときに、不等式
の等号が成立する。
上記(19)式の補助関数を用いることで、下記(21)式、(22)式、及び(23)式が導かれる。
雑音環境下では、空気伝導マイクにわずかに漏れ込んだ(空気伝導)微弱音声を無視できる。したがって、
を体内伝導微弱音声のスペクトログラムとすると、
より、下記(24)式のように固定することができる。
また、マイク間距離が短いため、雑音源がユーザに極めて近い場合を除き、マイク音源間の距離差によって生じる減衰量の差は無視できる。このことから、各マイクの特性やアンプの特性などが時不変であると仮定すれば、空気伝導マイクで観測した複数の雑音をNAMマイクに混入する外部雑音の参照信号として利用することができる。結果、雑音源の数によらず、音源インデックスは
と固定できる。なお、マイク間距離は例えば5センチ程度としてもよいが、さらに短くしてもよい。
<本発明の実施形態に係る信号解析装置の構成>
次に、本発明の実施形態に係る信号解析装置の構成について説明する。図1に示すように、本発明の実施形態に係る信号解析装置100は、CPUと、RAMと、後述するパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置100は、機能的には図1に示すようにNAMマイク10と、空気伝導マイク12と、演算部20と、出力部90と、を含んで構成されている。なお、第1のマイクの音声を体表から取得する非可聴つぶやきマイクであるNAMマイク10と、第2のマイクである空気伝導マイク12の位置関係を図2に示す。図2の場合、NAMマイク10は、耳介後方部(乳様突起直下の胸鎖乳突筋上)に設置され、空気伝導マイク12は、NAMマイク10の周辺に設置され、両マイクの間の距離は5センチ程度に設定されている。また、本実施形態においてj=1はNAMマイク10を表し、j=2は空気伝導マイク12を表すものとする。また、i=1は体内伝導微弱音声の音源を表し、i=2は雑音源を表す。
NAMマイク10は、空気伝導外部雑音を含まない、クリーンな体内伝導微弱音声の音源信号(以後、クリーン音源信号)の時系列データを出力し、データベース22に記憶する。また、NAMマイク10は、空気伝導外部雑音の音源信号と体内伝導微弱音声の音源信号とが混じっている混合音の音源信号(以後、混合音音源信号)の時系列データを、混合音時間周波数展開部に出力する。
空気伝導マイク12は、空気伝導外部雑音の音源信号の時系列データを、混合音時間周波数展開部に出力する。
演算部20は、データベース22と、時間周波数展開部24と、パラメータ推定部26と、パラメータ更新部32と、収束判定部34と、音声信号生成部40と、を含んで構成されている。
データベース22には、NAMマイク10から出力されたクリーン音源信号の時系列データが記憶されている。また、データベース22には、後述するパラメータ推定部26により推定された、処理対象のクリーン音源信号に対応したパワースペクトルwi,ω,kの各々が記憶されている。また、データベース22には、後述するパラメータ更新部32により更新されたパラメータの各々が記憶されている。また、データベース22には、収束判定部34から入力される目的関数の値が記憶されている。
時間周波数展開部24は、データベース22に記憶されているクリーン音源信号の時系列データに基づいて、各時刻τにおける各周波数ωの観測時間周波数成分を表す観測複素スペクトログラム
を計算する。なお、本実施形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。
パラメータ推定部26は、時間周波数展開部24において取得した観測複素スペクトログラム
に対して従来技術である、多チャンネルNMFを用いて各音源i、各周波数ω、及び各基底kにおけるパワースペクトルwi,ω,kの推定を行い、基底パワースペクトル
を取得する。具体的には、パワースペクトルwi,ω,kの推定を行い、結果として得られたパワースペクトルを、処理対象としたクリーン音源信号に対応したパワースペクトルwi,ω,kとして用いる。また、処理対象のクリーン音源信号に対応したパワースペクトルwi,ω,kを保持する。
混合音時間周波数展開部28は、時間周波数展開部24と同様に、NAMマイク10から入力された混合音音源信号の時系列データに基づいて、各時刻τにおける各周波数ωの観測時間周波数成分を表す観測複素スペクトログラム
を計算する。
また、混合音時間周波数展開部28は、時間周波数展開部24と同様に、空気伝導マイク12から入力された空気伝導外部雑音の音源信号の時系列データに基づいて、各時刻τにおける各周波数ωの観測時間周波数成分を表す観測複素スペクトログラム
を計算する。
パラメータ更新部32は、上記(18)式に示す距離尺度を板倉齋藤擬距離基準とするNTFの目的関数を最小化するように、混合音時間周波数展開部28において取得した混合音音源信号の時系列データに基づく観測複素スペクトログラム
、及び空気伝導外部雑音の音源信号の時系列データに基づく観測複素スペクトログラム
と、データベース22に記憶されている基底パワースペクトル
に含まれるパワースペクトルwi,ω,kと初期値であるパワースペクトルwi,ω,kとを含む基底パワースペクトル
、又は前回更新した基底パワースペクトル
と、初期値である、又は前回更新した、各時刻τ及び各基底kにおける各音源iの音源信号のパワーhi,k,τを表すアクティベーションパラメータ
と、初期値である、又は前回更新した、各マイクjの各音源iの各周波数ωにおける音源iからマイクjまでの伝達特性に関するステアリングベクトルの絶対値成分|αj,i,ωと、に基づいて、基底パワースペクトル
、アクティベーションパラメータ
、及びステアリングベクトルの絶対値成分|αj,i,ωの更新を行う。
なお、パラメータ更新部32は、更新した各々の値を更新した値として、データベース22に記憶する。また、パラメータ更新部32は、前回更新した値をデータベース22から取得するものとする。なお、処理に必要なパラメータの各々についてデータベース22に値が存在しない場合については、事前にパラメータの各々について初期値を設定し、処理を行うものとする。
具体的には、混合音時間周波数展開部28において取得した混合音音源信号の時系列データに基づく観測複素スペクトログラム
、及び空気伝導外部雑音の音源信号の時系列データに基づく観測複素スペクトログラム
と、データベース22に記憶されている基底パワースペクトル
に含まれるパワースペクトルwi,ω,kと初期値であるパワースペクトルwi,ω,kとを含む基底パワースペクトル
、又は前回更新した基底パワースペクトル
と、初期値である、又は前回更新したアクティベーションパラメータ
と、初期値である、又は前回更新したステアリングベクトルの絶対値成分|αj,i,ωとに基づいて、上記(21)式、(22)式、及び(23)式の各々に従って、基底パワースペクトル
、アクティベーションパラメータ
、及びステアリングベクトルの絶対値成分|αj,i,ωの各々を更新し、各パラメータの更新処理毎に更新した各値をデータベースに記憶する。
また、パラメータ更新部32は、混合音時間周波数展開部28において取得した混合音音源信号の時系列データに基づく観測複素スペクトログラム
、及び空気伝導外部雑音の音源信号の時系列データに基づく観測複素スペクトログラム
と、更新した基底パワースペクトル
、アクティベーションパラメータ
、及びステアリングベクトルの絶対値成分|αj,i,ωの各々の値とに基づいて、上記(18)式に従って、目的関数の値を算出し、収束判定部34に出力する。
なお、上記各パラメータの更新処理の順番は任意であってもよい。
であり、かつ
として各パラメータの更新処理を行うものとする。
収束判定部34は、パラメータ更新部32において取得した目的関数の値とデータベース22に記憶されている前回の目的関数の値との差分が、予め定められた閾値以下である場合に、収束条件を満たすと判定する。収束条件を満たすまで、パラメータ更新部32における更新処理と、収束判定部34における収束条件の判定処理を繰り返す。なお、収束条件を満たさない場合には、パラメータ更新部32において取得した目的関数の値を前回の目的関数の値としてデータベース22に記憶する。
音声信号生成部40は、パラメータ更新部32において更新した基底パワースペクトル
と、アクティベーションパラメータ
とに基づいて、空気伝導外部雑音が除去された分離音を算出し、出力部90から出力する。
<本発明の実施形態に係る信号解析装置の作用>
次に、本発明の実施形態に係る信号解析装置100の作用について説明する。まず、NAMマイク10から出力された、クリーン音源信号の時系列データを受け付け、データベース22に記憶する。次に、NAMマイク10から出力された、混合音音源信号の時系列データを受け付け、かつ空気伝導マイク12から出力された、空気伝導外部雑音の時系列データを受け付けると、信号解析装置100は、図3に示すパラメータ推定処理ルーチンを実行する。
まず、ステップS100では、データベース22に記憶されているクリーン音源信号の時系列データを読み込む。
次に、ステップS102では、ステップS100において取得したクリーン音源信号の時系列データに基づいて、観測複素スペクトログラム
を取得する。
次に、ステップS104では、ステップS102において取得した観測複素スペクトログラム
に基づいて、基底パワースペクトル
を取得する。
次に、ステップS105では、NAMマイク10から受け付けた混合音音源信号の時系列データに基づいて、観測複素スペクトログラム
を取得する。
次に、ステップS106では、空気伝導マイク12から受け付けた空気伝導外部雑音の時系列データに基づいて、観測複素スペクトログラム
を取得する。
次に、ステップS107では、データベース22に記憶されていない各パラメータの値について初期値を設定する。
次に、ステップS108では、ステップS104及びステップS107において取得した、又はデータベース22に記憶されている前回ステップS110において更新した基底パワースペクトル
と、ステップS105において取得した混合音音源信号の観測複素スペクトログラム
と、ステップS106において取得した空気伝導外部雑音についての観測複素スペクトログラム
と、ステップS107において初期値が設定された、又はデータベース22に記憶されているステップS112において前回更新したアクティベーションパラメータ
と、ステップS107において初期値が設定された、又はデータベース22に記憶されているステップS108において前回更新したステアリングベクトルの絶対値成分|αj,i,ωとに基づいて、上記(21)式に従って、ステアリングベクトルの絶対値成分|αj,i,ωを更新し、データベース22に記憶する。
次に、ステップS110では、ステップS104及びステップS107において取得した、又はデータベース22に記憶されているステップS110において前回更新した基底パワースペクトル
と、ステップS105において取得した混合音音源信号の観測複素スペクトログラム
と、ステップS106において取得した空気伝導外部雑音についての観測複素スペクトログラム
と、ステップS107において初期値が設定された、又はデータベース22に記憶されているステップS112において前回更新したアクティベーションパラメータ
と、ステップS107において初期値が設定された、又はデータベース22に記憶されているステップS108において前回更新したステアリングベクトルの絶対値成分|αj,i,ωとに基づいて、上記(22)式に従って、基底パワースペクトル
を更新し、データベース22に記憶する。
次に、ステップS112では、ステップS104及びステップS107において取得した、又はデータベース22に記憶されているステップS110において前回更新した基底パワースペクトル
と、ステップS105において取得した混合音音源信号の観測複素スペクトログラム
と、ステップS106において取得した空気伝導外部雑音についての観測複素スペクトログラム
と、ステップS107において初期値が設定された、又はデータベース22に記憶されているステップS112において前回更新したアクティベーションパラメータ
と、ステップS107において初期値が設定された、又はデータベース22に記憶されているステップS108において前回更新したステアリングベクトルの絶対値成分|αj,i,ωとに基づいて、上記(23)式に従って、アクティベーションパラメータ
を更新し、データベース22に記憶する。
次に、ステップS113では、ステップS105において取得した混合音音源信号の観測複素スペクトログラム
と、ステップS106において取得した空気伝導外部雑音についての観測複素スペクトログラム
と、ステップS108において取得したステアリングベクトルの絶対値成分|αj,i,ωと、ステップS110において取得した基底パワースペクトル
と、ステップS112において取得したアクティベーションパラメータ
とに基づいて、上記(18)式に従って、目的関数の値を算出する。
次に、ステップS114では、ステップS113において取得した目的関数の値と、データベース22に記憶されている前回の目的関数の値との差分とに基づいて、収束条件を満たすか否かを判定する。収束条件を満たした場合には、パラメータ推定処理ルーチンを終了する。一方、収束条件を満たしていない場合には、ステップS113において取得した目的関数の値をデータベース22に記憶し、ステップS108へ移行し、ステップS108〜ステップS114までの処理を繰り返す。
また、本実施形態に係る信号解析装置100は、上述のパラメータ推定処理ルーチンにより取得した基底パワースペクトル
と、アクティベーションパラメータ
とに基づいて、空気伝導外部雑音が除去された分離音を算出し、出力部90から出力する。
なお、上述のステップS100〜ステップS104までの処理を1つの処理ルーチンとし、ステップS105〜ステップS114までの処理を1つの処理ルーチンとして別々に行ってもよい。この場合、NAMマイク10からクリーン音源信号の時系列データを受け付けると、信号解析装置100は、ステップS100〜ステップS104までの処理の処理ルーチンを実行する。一方、NAMマイク10から、混合音音源信号の時系列データを受け付け、かつ空気伝導マイク12から、空気伝導外部雑音の時系列データを受け付けると、信号解析装置100は、ステップS105〜ステップS114までの処理の処理ルーチンを実行する。
<実験例>
本実施形態に係る信号解析装置100を用いて、実環境下で収録した雑音に対する雑音抑圧性能を検証した。雑音は駅構内の雑音と、飲食店内の雑音の2種類とし、それぞれSN比0dBでクリーンな体内伝導微弱音声および空気伝導(漏れ込み)微弱音声に重畳する。
なお、収録信号のサンプリング周波数は16kHz、FFT分析のフレーム長は64ms、シフト長は32msとする。BSSの更新回数は200回、NTFおよびMNMFDの更新回数は50回、各音源の基底数は20、NMFD基底のタップ数は10*4とする。
図4に目的信号であるクリーンな体内伝導微弱音声のスペクトログラムを示す。また、図5に駅構内の雑音に対する雑音抑圧結果の例を示す。また、図6に飲食店内の雑音に対する雑音抑圧結果の例を示す。
以上説明したように、本発明の実施形態に係る信号解析装置によれば、第1のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の音源からの音源信号が混合された観測信号の時系列データを入力として、観測スペクトログラムを出力し、第2のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、観測スペクトログラムを出力し、取得した第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の基底パワースペクトルと、に基づいて、目的関数を最小化するように、複数の音源の各々のステアリングベクトルの絶対値成分と、複数の音源の各々のアクティベーションパラメータとの更新の各々を行い、予め定められた収束条件を満たすまで、各パラメータの更新を繰り返し行うことにより、雑音源が複数、又は移動する場合であっても雑音を抑圧することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、上述の信号解析装置100は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体、例えばCD−ROMやメモリーカード等に格納して提供することも可能である。
10 NAMマイク
12 空気伝導マイク
20 演算部
22 データベース
24 時間周波数展開部
26 パラメータ推定部
28 混合音時間周波数展開部
32 パラメータ更新部
34 収束判定部
40 音声信号生成部
90 出力部
100 信号解析装置

Claims (10)

  1. 第1のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の移動しうる音源からの音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、第2のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力する混合音時間周波数展開部と、
    前記混合音時間周波数展開部により取得した前記第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、
    前記第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分を要素に持つテンソルと、
    前記複数の音源の各々から各マイクまでの伝達特性を表すステアリングベクトルの絶対値成分、前記複数の音源の各々についての前記基底パワースペクトル、及び前記複数の音源の各々についての、各時刻及び各基底におけるパワーを表すアクティベーションパラメータから求められるテンソルとの距離を表す目的関数を最小化するように、
    前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータとの更新の各々を行うパラメータ更新部と、
    予め定められた収束条件を満たしたか否かを判定し、前記収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う収束判定部と、
    を含む信号解析装置。
  2. 前記ステアリングベクトルは、前記絶対値成分と偏角成分に式(10)の通り分解され、



    前記式(10)に基づき、前記観測時間周波数成分の瞬時混合モデルは、式(11)と式(12)の積で表現される



    請求項1記載の信号解析装置。
    ただし、iは音源インデックスを表し、ωは周波数インデックスを表し、



    は虚数単位を表し、



    は、各音源の複素スペクトログラムを表し、τは時刻フレームインデックスを表す。
  3. 前記偏角成分を式(13)の通りとすることで、



    前記瞬時混合モデルを式(14)と変形し、



    上記式(14)に基づき前記観測信号を解析する
    請求項2記載の信号解析装置。
    ただし、p i,ω,τ は、各音源のパワースペクトログラムの期待値を表すパラメータであり、



    は、(2×2)の単位行列である。
  4. 前記パラメータ更新部は、前記混合音時間周波数展開部により取得した前記第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、前記目的関数を最小化するように、前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータと、前記基底パワースペクトルとの更新の各々を行う請求項1〜3の何れか1項記載の信号解析装置。
  5. 前記第1のマイクを、音声を体表から取得する非可聴つぶやきマイクとした請求項1〜4の何れか1項記載の信号解析装置。
  6. 前記距離の距離尺度を板倉齋藤擬距離基準とする請求項1〜の何れか1項記載の信号解析装置。
  7. 混合音時間周波数展開部と、パラメータ更新部と、収束判定部とを含む信号解析装置における、信号解析方法であって、
    前記混合音時間周波数展開部は、第1のマイクで取得した体内伝導微弱音声及び外部雑音を含む複数の移動しうる音源からの音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、第2のマイクで取得した前記外部雑音の音源信号が混合された観測信号の時系列データを入力として、各時刻における各周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、
    前記パラメータ更新部は、前記混合音時間周波数展開部により取得した前記第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、
    前記第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分を要素に持つテンソルと、
    前記複数の音源の各々から各マイクまでの伝達特性を表すステアリングベクトルの絶対値成分、前記複数の音源の各々についての前記基底パワースペクトル、及び前記複数の音源の各々についての、各時刻及び各基底におけるパワーを表すアクティベーションパラメータから求められるテンソルとの距離を表す目的関数を最小化するように、
    前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータとの更新の各々を行い、
    前記収束判定部は、予め定められた収束条件を満たしたか否かを判定し、前記収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う
    信号解析方法。
  8. 前記パラメータ更新部により更新の各々を行うことは、前記混合音時間周波数展開部により取得した前記第1のマイクで取得した音源信号の観測スペクトログラムの絶対値成分、及び前記第2のマイクで取得した音源信号の観測スペクトログラムの絶対値成分と、予め学習された、体内伝導微弱音声の、各周波数及び各基底におけるパワースペクトルを表す基底パワースペクトルと、に基づいて、前記目的関数を最小化するように、前記複数の音源の各々の前記ステアリングベクトルの絶対値成分と、前記複数の音源の各々の前記アクティベーションパラメータと、前記基底パワースペクトルとの更新の各々を行う請求項記載の信号解析方法。
  9. 前記第1のマイクを、音声を体表から取得する非可聴つぶやきマイクとした請求項又は記載の信号解析方法。
  10. コンピュータを、請求項1〜の何れか1項記載の信号解析装置を構成する各部として機能させるためのプログラム。
JP2016032414A 2016-02-23 2016-02-23 信号解析装置、方法、及びプログラム Active JP6519801B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016032414A JP6519801B2 (ja) 2016-02-23 2016-02-23 信号解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016032414A JP6519801B2 (ja) 2016-02-23 2016-02-23 信号解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017151226A JP2017151226A (ja) 2017-08-31
JP6519801B2 true JP6519801B2 (ja) 2019-05-29

Family

ID=59738923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016032414A Active JP6519801B2 (ja) 2016-02-23 2016-02-23 信号解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6519801B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7450911B2 (ja) 2019-12-05 2024-03-18 国立大学法人 東京大学 音響解析装置、音響解析方法及び音響解析プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5520883B2 (ja) * 2011-05-17 2014-06-11 日本電信電話株式会社 信号分解装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2017151226A (ja) 2017-08-31

Similar Documents

Publication Publication Date Title
EP3189521B1 (en) Method and apparatus for enhancing sound sources
JP5675848B2 (ja) レベルキューによる適応ノイズ抑制
JP5091948B2 (ja) ブラインド信号抽出
US20180374497A1 (en) Sound signal enhancement device
EP3113508B1 (en) Signal-processing device, method, and program
Schwartz et al. Joint maximum likelihood estimation of late reverberant and speech power spectral density in noisy environments
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
Shankar et al. Influence of MVDR beamformer on a Speech Enhancement based Smartphone application for Hearing Aids
Dmour et al. A new framework for underdetermined speech extraction using mixture of beamformers
JP6142402B2 (ja) 音響信号解析装置、方法、及びプログラム
JP6519801B2 (ja) 信号解析装置、方法、及びプログラム
Miyazaki et al. Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction
JP5113096B2 (ja) 音源分離方法、装置およびプログラム
JP2011139409A (ja) 音響信号処理装置、音響信号処理方法、及びコンピュータプログラム
JP2016126136A (ja) 自動ミキシング装置およびプログラム
KR20150026634A (ko) 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치
Zhang et al. Ica-based noise reduction for mobile phone speech communication
Hidri et al. A multichannel beamforming-based framework for speech extraction
US10204638B2 (en) Integrated sensor-array processor
Unoki et al. Unified denoising and dereverberation method used in restoration of MTF-based power envelope
Niwa et al. Microphone Array Wiener Post Filtering Using Monotone Operator Splitting
Aoulass et al. Noise Reduction using DUET algorithm for dual-microphone mobile station
CN117121104A (zh) 估计用于处理所获取的声音数据的优化掩模
Kavalekalam Invitation to the PhD defense of the dissertation: Model-based Speech Enhancement for Hearing aids.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20171208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190410

R150 Certificate of patent or registration of utility model

Ref document number: 6519801

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250