JP2015031889A

JP2015031889A - 音響信号分離装置、音響信号分離方法及び音響信号分離プログラム

Info

Publication number: JP2015031889A
Application number: JP2013162809A
Authority: JP
Inventors: 高田　信一; Shinichi Takada; 信一高田; 洋平福水; Yohei Fukumizu; 知論泉; Tomonori Izumi; 寛紀山内; Hiroki Yamauchi
Original assignee: Semiconductor Technology Academic Research Center
Current assignee: Semiconductor Technology Academic Research Center
Priority date: 2013-08-05
Filing date: 2013-08-05
Publication date: 2015-02-16

Abstract

【課題】混合音響信号から複数の成分を高精度に分離する。
【解決手段】学習過程において、複数の音源成分それぞれについて、スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させ、基底行列を学習サンプル音信号として登録する。また、因子分解過程において、登録された複数の音源成分の学習サンプル音信号をそれぞれ基底行列として取り込み、前記複数の音源成分が混合された生体音信号のスペクトログラムについて、前記学習サンプル音信号である複数の音源成分それぞれのスペクトログラムを基底行列の初期値として最小化法による更新を行い、更新されたスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、混合波形信号を複数の音源成分それぞれの因子に分解する。さらには、再構築されたスペクトログラムの基底行列と係数行列を基づいてマスキングして複数の音源成分それぞれの生体音信号を分離する。
【選択図】図１

Description

本発明は、例えば呼吸音、心拍音、血管脈波音を含む混合生体音のように、複数の音響信号が混合された信号からそれぞれの成分を分離する音響信号分離技術に関する。

近年、心筋梗塞、脳梗塞などの循環器系疾患の急増に伴い、その早期発見を目的として、生体音という生体信号に基づく自己診断システムの研究・開発が進められている。ここで、生体音とは、超低周波マイクロフォンを生体に貼り付けて採取した音響信号であり、具体的には呼吸音、心拍音、血管脈波音があげられる。例えば、心筋梗塞、脳梗塞などでは、その初期症状として、不整脈、心雑音、動脈硬化による狭窄音、睡眠時無呼吸症候群等の症状が、生体音、すなわち呼吸音や心拍音や脈波音に混じって現れる。そこで、被験者から生体音を採取して分析することで、脳梗塞や心筋梗塞などの疾患予兆を診断することが可能となる。

ところで、呼吸音は頬付近、心拍音は腹部、脈波音は手首で採取すると、比較的明瞭な信号として取り出せる。しかしながら、３箇所にマイクロフォンを装着し、それぞれの生体音を採取することは、実装コストが高く、診断の再現性と利便性にかける。そこで、呼吸音、心拍音、脈波音が混合して採取可能な頸動脈部にマイクロフォンを装着し、当該マイクロフォンによって採取された混合生体音からそれぞれの成分を高精度に分離する手法が検討されている。

特開２００９−０８９８８３号公報ＵＳＰ５２１３１０８(May 25, 1993)

加速度センサにて、心音と呼吸と姿勢と行動を記録するシステム「ウェラブル生体情報記録システム」：医機学Vol.79, No. 7 (2009)

以上述べたように、例えば１箇所で採取された複数の音源成分の混合生体音のように、複数の音響信号が混合された信号からそれぞれの成分を高精度に分離する技術が要望されている。

この発明は上記事情に着目してなされたもので、その目的とするところは、混合音響信号から特定の成分を高精度に分離することのできる音響信号分離装置、音響信号分離方法及び音響信号分離プログラムを提供することにある。

（１）上記目的を達成するためにこの発明の第１の観点における音響信号分離装置は、入力手段と、変換手段と、学習手段と、因子分解手段とを備える。前記入力手段は、音響信号を入力する。前記変換手段は、前記入力手段から入力される音響信号に対して特徴成分を抽出するための変換処理を行う。前記学習手段は、前記入力手段から入力される音響信号が複数の音源成分それぞれの個別波形信号であって、前記変換手段で変換された音響信号についてスペクトログラムを作成し、当該スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させ、前記基底行列を前記複数の音源成分それぞれの学習結果として抽出し登録する。前記因子分解手段は、前記入力手段で入力される音響信号が前記複数の音源成分の混合波形信号であって、前記変換手段で変換された音響信号についてスペクトログラムを作成し、前記学習手段で登録された複数の音源成分の基底行列を取り込み、前記混合波形信号のスペクトラムについて前記複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行い、最終的にそのスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、前記混合波形信号を前記複数の音源成分それぞれの因子に分解する。

（２）（１）に係る音響信号分離装置は、さらに、前記変換手段から出力される音響信号からノイズ成分を除去して前記学習手段に出力する除去手段を備える。

（３）（２）において、前記除去手段には、バイラテラルフィルタを用いる。

（４）（１）に係る音響信号分離装置は、さらに、前記因子分解手段の因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例したマスキング関数を生成し、当該マスキング関数によって前記音響信号にマスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成するマスキング手段を備える。

（５）（４）に係る音響信号分離装置は、さらに、前記マスキング手段で個別に得られた複数の音源成分それぞれの波形信号を前記変換手段とは逆の変換を施すことで、前記複数の音源成分の音響信号を分離する逆変換手段を備える。

（６）（５）において、前記変換手段及び逆変換手段の変換には、短時間フーリエ変換、アダマール変換、コサイン変換のいずれかを用いる。

（７）（１）において、前記学習手段には、モデルベースの機械的な学習としてＥＭ（E-step M-step）アルゴリズムを用いる。

（８）（１）において、前記複数の音源成分は、呼吸音、心拍音、血管脈波音の少なくともいずれかである。

（９）（１）において、前記複数の音源成分は、被験者から採取される生体音と前記被験者周囲の外来音である。

（１０）上記目的を達成するためにこの発明の第２の観点における音響信号分離方法は、学習処理と因子分解処理とを備える。学習処理は、音響信号を入力し、前記音響信号に対して特徴成分を抽出するための変換処理を行い、前記入力される音響信号が複数の音源成分それぞれの個別波形信号であって、前記変換処理された音響信号についてスペクトログラムを作成し、当該スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させ、前記基底行列を前記複数の音源成分それぞれの学習結果として登録する。一方、因子分解処理は、前記入力される音響信号が前記複数の音源成分の混合波形信号であって、前記変換処理された音響信号についてスペクトログラムを作成し、前記学習処理で登録された複数の音源成分の基底行列を取り込み、前記混合波形信号のスペクトラムについて前記複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行い、最終的にそのスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、前記混合波形信号を前記複数の音源成分それぞれの因子に分解する。

（１１）（１０）に係る音響信号分離方法は、さらに、前記変換処理された音響信号からノイズ成分を除去して前記学習処理に出力する除去処理を備える。

（１２）（１１）において、前記除去処理には、バイラテラルフィルタを用いる。

（１３）（１０）に係る音響信号分離方法は、さらに、前記因子分解処理の因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例したマスキング関数を生成し、当該マスキング関数によって前記変換処理された音響信号にマスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成するマスキング処理を備える。

（１４）（１３）に係る音響信号分離方法は、さらに、前記マスキング処理で個別に得られた複数の音源成分それぞれの波形信号を前記変換処理とは逆の変換を施すことで、前記複数の音源成分の音響信号を分離する逆変換処理を備える。

（１５）（１４）において、前記変換処理及び逆変換処理の変換には、短時間フーリエ変換、アダマール変換、コサイン変換のいずれかを用いる。

（１６）（１０）において、前記学習処理には、モデルベースの機械的な学習としてＥＭ（E-step M-step）アルゴリズムを用いる。

（１７）（１０）において、前記複数の音源成分は、呼吸音、心拍音、血管脈波音の少なくともいずれかである。

（１８）（１０）において、前記複数の音源成分は、被験者から採取される生体音と前記被験者周囲の外来音である。

（１９）また、上記目的を達成するためにこの発明の第３の観点における音響信号分離プログラムは、複数の音源成分が混合された音響信号から個々の音源成分を分離する処理をコンピュータに実行させる音響信号分離プログラムであって、学習過程と、因子分解過程とを備える。前記学習過程は、前記複数の音源成分それぞれの個別波形信号に対して特徴成分を抽出するための変換処理を行ってスペクトログラムを作成するステップと、前記スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させるステップと、前記基底行列を前記複数の音源成分それぞれの学習結果として登録するステップとを備える。前記因子分解過程は、前記複数の音源成分が混合された生体音信号に対して特徴成分を抽出するための変換処理を行ってスペクトログラムを作成するステップと、前記登録された複数の音源成分のサンプル音信号を取り込むステップと、前記混合波形信号のスペクトログラムについて前記複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行うステップと、前記更新されたスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、前記混合波形信号を前記複数の音源成分それぞれの因子に分解するステップとを備える。

（２０）（１９）に係る音響信号分離プログラムは、さらに、前記変換処理された音響信号からノイズ成分を除去して前記学習過程に出力する除去過程を備える。

（２１）（２０）において、前記除去過程には、バイラテラルフィルタを用いる。

（２２）（１９）に係る音響信号分離プログラムは、さらに、前記因子分解過程の因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例した複数の時間−周波数マスキング関数を生成し、当該複数の時間−周波数マスキング関数によって前記変換処理された音響信号に時間−周波数マスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成するマスキング過程を備える。

（２３）（２２）に係る音響信号分離プログラムは、さらに、前記マスキング過程で個別に得られた複数の音源成分それぞれの波形信号を前記変換処理とは逆の変換を施すことで、前記複数の音源成分の音響信号を分離する逆変換過程を備える。

（２４）（２３）において、前記変換処理及び逆変換過程の変換には、それぞれ短時間フーリエ変換、アダマール変換、コサイン変換のいずれかを用いる。

（２５）（１９）において、前記学習過程には、モデルベースの機械的な学習としてＥＭ（E-step M-step）アルゴリズムを用いる。

（２６）（１９）において、前記複数の音源成分は、呼吸音、心拍音、血管脈波音の少なくともいずれかである。

（２７）（１９）において、前記複数の音源成分は、被験者から採取される生体音と前記被験者周囲の外来音である。

上記構成によれば、学習過程において、複数の音源成分それぞれについて、スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させ、基底行列を学習結果として登録する。また、因子分解過程において、登録された複数の音源成分の基底行列を取り込み、前記複数の音源成分が混合された音響信号のスペクトログラムについて、前記学習結果である複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行い、更新されたスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、混合波形信号を複数の音源成分それぞれの因子に分解する。さらには、再構築されたスペクトログラムの基底行列と係数行列を基づいて、例えばマスキングして複数の音源成分それぞれの音響信号を分離するようにしている。

したがってこの発明によれば、混合音響信号から特定の成分を高精度に分離することのできる音響信号分離装置、音響信号分離方法及び音響信号分離プログラムを提供することができる。

本発明に係る音響信号分離装置の一実施形態とする生体音分離装置の構成を示すブロック図である。上記実施形態の生体音分離装置において、被験者の最適部位から採取される生体音の呼吸音、心拍音、血管脈波音、ノイズの周波数分布を示す周波数特性図である。上記実施形態のＮＭＦ処理を説明するための概念図である。上記実施形態の生体音分離処理による学習過程の手順を示すフローチャートである。上記実施形態の生体音分離処理による因子分解過程の手順を示すフローチャートである。上記実施形態の生体音分離をプログラムで処理する場合のコンピュータの構成を示すブロック図である。

以下、図面を参照してこの発明に係わる実施形態を説明する。
図１は、本発明に係る音響信号分離装置の一実施形態とする生体音分離装置の構成を示すブロック図である。図１に示す装置は、音響センサ１１、ＳＴＦＴ（Short Time Fourier Transform：短時間フーリエ変換）処理部１２、ノイズ除去部１３、ＮＭＦ（Non-negative Matrix Factorization：非負値行列分解）処理部１４、サンプル登録部１５、ＴＦ（Time Frequency：時間周波数）マスキング部１６、ＩＳＴＦＴ（Inverse Short Time Fourier Transform：短時間逆フーリエ変換）処理部１７を備える。

上記音響センサ１１は、超低周波収録用のマイクロフォンであり、被験者の頸動脈上皮部に装着され、任意の期間の生体音を採取し、デジタル化して出力する。この音響センサ１１で採取された生体音の音響データ（以下、生体音データ）は、ＳＴＦＴ処理部１２に送られる。このＳＴＦＴ処理部１２は、入力される生体音データを順次切り出し、時間領域から周波数領域に変換して出力する。このように周波数領域に変換された生体音データはノイズ除去部１３に送られる。

このノイズ除去部１３は、生体音分離の前処理として、入力された生体音データから外来音等の不要なノイズ成分を除去する。このノイズ除去部１３には、ガウス性ノイズ除去が効果的であり、例えば画像処理においてエッジ保存型平滑フィルタとして活用される、ノイズ除去アルゴリズムに基づくバイラテラルフィルタを用いるとよい。その出力はＮＭＦ処理部１４に送られる。

このＮＭＦ処理部１４は、学習過程と因子分解過程に分けられる。

学習過程では、各種生体音の対応部位から採取される成分波形スペクトログラムの高精度化を行う。すなわち、呼吸音、心拍音、血管脈波音をそれぞれ独立に採取できる体内部位（例えば、呼吸音は頬上皮、心拍音は心臓上皮、脈波音は手首）からの生体音を採取し、これらの生体音から成分波形スペクトラムを作成して、混合頸動脈音に含まれる呼吸音、心拍音、脈波音それぞれの音源成分として利用する。このとき、多くのサンプル（個人内または個人間）を収集して、モデルベースの機械的な学習（例えばＥＭ（E-step M-step）アルゴリズム）を行うことで、学習データをより安定した成分信号とする改良プロセスを含むものとする。この学習過程で得られた呼吸音、心拍音、脈波音のサンプル音は、サンプル登録部１５に登録される。

因子分解過程では、採取された生体音データから得られる成分波形スペクトログラムを呼吸音、心拍音、脈波音それぞれの帯域成分に分解する。すなわち、採取された生体音データによる呼吸音、心拍音、脈波音の混合波形は、それら３つの帯域の成分信号を主要成分として含む、という設定のもとに、３つの帯域成分が線形結合された成分波形スペクトログラムをみなし、個々の帯域成分を分離する。本実施形態では、その分離に最も有望な手法として、非負値行列による因子分解で近似する方法を用いる。すなわち、サンプル登録部１５に登録されたサンプルデータを基底行列とみなし、上記呼吸音、心拍音、脈波音の３成分のスペクトログラムを基底行列の初期値として最小化法による更新を行い、最終的に、そのスペクトログラムを「基底行列と係数行列の積」で近似することにより、混合波形を主要３成分の因子に分解する。この因子分解結果は、ＴＦマスキング部１６に送られる。

このＴＦマスキング部１６は、上記因子分解にて生成した基底行列と係数行列をもとに、成分の強さに比例したＴＦマスキング関数を生成し、当該ＴＦマスキング関数によって採取された生体音データにマスキングを行うことで、３成分それぞれの周波数領域における波形データを生成する。このようにして生成された呼吸音、心拍音、脈波音それぞれの波形データはＩＳＴＦＴ処理部１７に送られる。このＩＳＴＦＴ処理部１７は、上記呼吸音、心拍音、脈波音それぞれの波形データをそれぞれ時間領域の信号データに変換するもので、変換された各波形データは、モニタ表示装置、音響再生機器等（図示せず）に送られ、再生出力される。

上記構成において、以下に生体音分離に関する具体的な処理内容として、上記ＮＭＦ処理部１４の非負値行列によるスペクトログラム上での因子分解について、図２乃至図５を参照して説明する。

図２は、上記被験者の最適部位から採取される生体音の呼吸音、心拍音、脈波音、ノイズの周波数分布を示す周波数特性図である。このように、それぞれの周波数成分は周波数パターンがある程度異なっており、一応の周波数区分は可能である。しかしながら、これらが混合された波形信号となると、帯域強調フィルタ、ＥＭ（Expectation Maximization）アルゴリズムを用いた、一般的なフィルタリング処理では診断に必要な精度が得られない。そこで、本実施形態では、図３に示すようなＮＭＦ（非負値行列因子分解）を用いた生体音分離手法を提供する。

図３において、（ａ）は入力生体音データを時間−周波数変換することによって得られるスペクトログラム（非負値行列）である。（ｂ１），（ｂ２），（ｂ３）はそれぞれ予め学習によって得られる基底行列１，２，３であり、（ｃ１），（ｃ２），（ｃ３）はそれぞれ基底行列１，２，３によって入力波形スペクトログラムを再構築したデータイメージを示している。このＮＭＦ手法が従来の手法と大きく異なる点は、スペクトログラムを用いて実数値で処理を行っている点と、学習データを用いている点である。本実施形態の手法では、波形データをスペクトログラムすなわち実数値データに変換することで、画像処理分野におけるノイズ除去の手法を用いる。また、音響センサ１１が比較的安価なモノラルマイクの場合、採取された生体音データの情報量が少なく、直接分離することは非常に難しいので、学習データを用いることでその欠点を補う。

図４及び図５は上記ＮＭＦアルゴリズムを利用した生体音分離手法の処理の流れを示すフローチャートであり、図３は学習過程、図４は因子分解過程を示している。

図４に示す学習過程では、まず被験者の頬上皮上から採取される呼吸音、心臓上皮上から採取される心拍音、手首上から採取される脈波音をそれぞれサンプルデータとして入力すると（ステップＳ１）、ＳＴＦＴ処理によって時間−周波数軸上のデータに変換して周波数成分のパワーをとり、図３（ａ）に示す実数値による成分波形スペクトログラム（非負値行列）を生成する（ステップＳ２）。続いて、ノイズ除去処理を行い、外来音等の不要なノイズ成分を除去する（ステップＳ３）。次に、ノイズ除去処理がなされた成分波形スペクトログラムのデータをＮＭＦ処理することによって、基底行列と係数行列に分解し収束させた後（ステップＳ４）、基底行列を学習データとして抽出する（ステップＳ５）。このようにして、予め被験者の対応部位から任意に採取される呼吸音、心拍音、脈波音それぞれの学習データ（それぞれ図３（ｂ１），（ｂ２），（ｂ３）に示す基底行列１，２，３とする）を得ると、これらの学習データをサンプルとしてサンプル登録部１５に登録し（ステップＳ６）、一連の処理を終了する。

図５に示す因子分解過程では、まず被験者の頸動脈上皮から採取される生体音データを入力すると（ステップＳ１１）と、学習過程と同様に、ＳＴＦＴ処理によって時間−周波数軸上のデータに変換して周波数成分のパワーをとって図３（ａ）に示す成分波形スペクトログラムを生成し（ステップＳ１２）、ノイズ除去処理を行った後（ステップＳ１３）、サンプル登録部１５に登録された呼吸音、心拍音、脈波音それぞれの学習データを基底行列１，２，３として取り込み（ステップＳ１４）、ＮＭＦ処理を行う（ステップＳ１５）。この因子分解過程のＮＭＦ処理では、上記呼吸音、心拍音、脈波音の３成分の基底行列１，２，３をそれぞれ混合生体音データのスペクトログラムの基底行列の初期値とし、最小化法によって混合生体音データのスペクトログラムの更新を行い、最終的に、図３（ｃ１），（ｃ２），（ｃ３）に示すように、そのスペクトログラムを「基底行列と係数行列の積」で近似することにより再構築し、混合波形を主要３成分の因子に分解する（ステップＳ１６）。

続いて、ＮＭＦ処理によって得られた因子分解結果について、呼吸音、心拍音、脈波音それぞれに対応したＴＦマスキング処理を行う（ステップＳ１７）。これらのＴＦマスキング処理では、上記ＮＭＦ処理における因子分解にて生成した基底行列と係数行列をもとに、成分の強さに比例したＴＦマスキング関数を生成し、呼吸音、心拍音、脈波音それぞれのＴＦマスキング関数によって、ＮＭＦ処理された生体音データにマスキングを行うことで、３成分それぞれの周波数領域における波形データを生成する。このようにして生成された呼吸音、心拍音、脈波音それぞれの波形データをＩＳＴＦＴ処理することにより、上記呼吸音、心拍音、脈波音それぞれの波形データをそれぞれ時間領域の信号データに変換する（ステップＳ１８）。変換された各波形データは、モニタ表示装置、音響再生機器等（図示せず）に送られ、再生出力されて（ステップＳ１９）、一連の処理を終了する。

以上のように、本実施形態の生体音分離装置では、ＮＭＦアルゴリズムを利用する際に、学習過程において成分別に基底行列を学習させることでノイズ除去を含めた精度向上を実現している。この結果、混合生体音の分離における基底行列と係数行列の積による成分波形スペクトログラムの再構築の精度が飛躍的に向上するようになり、その分離処理によって、各成分とも従来のＥＭアルゴリズムを用いたフィルタリング処理に比して格段に高精度な音響データが得られる。

尚、上記実施形態では、呼吸音、心拍音、脈波音の三種類の混合成分について分離する場合を説明したが、本発明はこれに限定されるものではなく、基底行列の成分が得られる場合には、さらに混合成分から分離することも可能である。

また、上記実施形態では、時間領域と周波数領域との変換にフーリエ変換を用いる場合について説明したが、アダマール変換、コサイン変換等の直交変換も利用可能である。要は、特徴となる成分を抽出するための変換を行ってＮＭＦ処理が可能となればよい。

また、上記実施形態では、音源成分として、呼吸音、心拍音、脈波音の生体音のみの場合を説明したが、生体音内のみならず、被験者から採取される生体音と前記被験者周囲の外来音とを分離することにも利用可能である。この場合は、被験者周囲の外来音を採取し、学習過程において、外来音の基底行列を抽出してサンプル登録部１５に登録しておくと、因子分解過程において、混合波形信号から外来音の成分を分解することができる。また、生体音に限らず、複数の音源から発せられる音が混合した音響信号であっても、学習過程と因子分解過程の併用により、混合波形信号から各音源の音成分を分離することにも利用可能である。

また、上記実施形態は、各処理部をハードウェアにより実現してもよいが、ソフトウェアにより、すなわちパーソナルコンピュータを利用したプログラム処理によっても実現可能である。図６にプログラム処理によって実現する場合のコンピュータの構成を示す。

図６において、２１はデータ処理の中枢を司るＣＰＵ（Central Processing Unit）、２２は予めデータ処理用のプログラムが格納されるＲＯＭ（Read Only Memory）、２３はデータ処理の作業領域となるＲＡＭ（Random Access Memory）、２４はサンプルデータ、入力データ、処理結果を格納するＨＤＤ（Head Disk Drive）、２５は指示に従ってデータを入出力するＩ／Ｏ（Input/Output Interface）、２６は上記の各ブロック間でデータを送受するためのバスである。図４及び図５に示すフローチャートの処理をプログラム化し、予めＲＯＭ２２に登録しておき、ＨＤＤ２４に学習モードで得られたサンプルデータを登録しておき、因子分解・分離モードで登録されたサンプルデータを用いて分離処理することで、上記のＮＭＦアルゴリズムを利用した処理を実現することができる。

その他、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

１１…音響センサ、
１２…ＳＴＦＴ（Short Time Fourier Transform：短時間フーリエ変換）処理部、
１３…ノイズ除去部、
１４…ＮＭＦ（Non-negative Matrix Factorization：非負値行列分解）処理部、
１５…サンプル登録部、
１６…ＴＦ（Time Frequency：時間周波数）マスキング部、
１７…ＩＳＴＦＴ（Inverse Short Time Fourier Transform：短時間逆フーリエ変換）処理部。

Claims

音響信号を入力する入力手段と、
前記入力手段から入力される音響信号に対して特徴成分を抽出するための変換処理を行う変換手段と、
前記入力手段から入力される音響信号が複数の音源成分それぞれの個別波形信号であって、前記変換手段で変換された音響信号についてスペクトログラムを作成し、当該スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させ、前記基底行列を前記複数の音源成分それぞれの学習結果として抽出し登録する学習手段と、
前記入力手段で入力される音響信号が前記複数の音源成分の混合波形信号であって、前記変換手段で変換された音響信号についてスペクトログラムを作成し、前記学習手段で登録された複数の音源成分の基底行列を取り込み、前記混合波形信号のスペクトラムについて前記複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行い、最終的にそのスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、前記混合波形信号を前記複数の音源成分それぞれの因子に分解する因子分解手段と、
を具備する音響信号分離装置。
さらに、前記変換手段から出力される音響信号からノイズ成分を除去して前記学習手段に出力する除去手段を備える請求項１記載の音響信号分離装置。
前記除去手段には、バイラテラルフィルタを用いる請求項２記載の音響信号分離装置。
さらに、前記因子分解手段の因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例したマスキング関数を生成し、当該マスキング関数によって前記音響信号にマスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成するマスキング手段を備える請求項１記載の音響信号分離装置。
さらに、前記マスキング手段で個別に得られた複数の音源成分それぞれの波形信号を前記変換手段とは逆の変換を施すことで、前記複数の音源成分の音響信号を分離する逆変換手段を備える請求項４記載の音響信号分離装置。
前記変換手段及び逆変換手段には、それぞれ短時間フーリエ変換、短時間逆フーリエ変換を用いる請求項５記載の音響信号分離装置。
前記学習手段には、モデルベースの機械的な学習としてＥＭ（E-step M-step）アルゴリズムを用いる請求項１記載の音響信号分離装置。
前記複数の音源成分は、呼吸音、心拍音、血管脈波音の少なくともいずれかである請求項１記載の音響信号分離装置。
前記複数の音源成分は、被験者から採取される生体音と前記被験者周囲の外来音である請求項１記載の音響信号分離装置。
音響信号を入力し、
前記音響信号に対して特徴成分を抽出するための変換処理を行い、
前記入力される音響信号が複数の音源成分それぞれの個別波形信号であって、前記変換処理された音響信号についてスペクトログラムを作成し、当該スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させ、前記基底行列を前記複数の音源成分それぞれの学習結果として登録し、
前記入力される生体音信号が前記複数の音源成分の混合波形信号であって、前記変換処理された音響信号についてスペクトログラムを作成し、前記学習手段で登録された複数の音源成分の基底行列を取り込み、前記混合波形信号のスペクトラムについて前記複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行い、最終的にそのスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、前記混合波形信号を前記複数の音源成分それぞれの因子に分解し、
前記因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例した複数の時間−周波数マスキング関数を生成し、当該複数の時間−周波数マスキング関数によって前記生体音信号に時間−周波数マスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成し、
前記マスキングで個別に得られた複数の音源成分それぞれの波形信号に前記変換処理とは逆の変換処理を施すことで、前記複数の音源成分の生体音信号を分離する音響信号分離方法。
さらに、前記変換処理された音響信号からノイズ成分を除去して前記学習処理に出力する除去処理を備える請求項１０記載の音響信号分離方法。
前記除去処理には、バイラテラルフィルタを用いる請求項１１記載の音響信号分離方法。
さらに、前記因子分解手段の因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例したマスキング関数を生成し、当該マスキング関数によって前記変換処理された音響信号にマスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成するマスキング処理を備える請求項１０記載の音響信号分離方法。
さらに、前記マスキング処理で個別に得られた複数の音源成分それぞれの波形信号を前記変換処理とは逆の変換を施すことで、前記複数の音源成分の音響信号を分離する逆変換処理を備える請求項１３記載の音響信号分離方法。
前記変換処理及び逆変換処理の変換には、短時間フーリエ変換、アダマール変換、コサイン変換のいずれかを用いる請求項１４記載の音響信号分離方法。
前記学習処理には、モデルベースの機械的な学習としてＥＭ（E-step M-step）アルゴリズムを用いる請求項１０記載の音響信号分離方法。
前記複数の音源成分は、呼吸音、心拍音、血管脈波音の少なくともいずれかである請求項１０記載の音響信号分離方法。
前記複数の音源成分は、被験者から採取される生体音と前記被験者周囲の外来音である請求項１０記載の音響信号分離方法。
複数の音源成分が混合された音響信号から個々の音源成分を分離する処理をコンピュータに実行させる音響信号分離プログラムであって、
前記複数の音源成分それぞれの個別波形信号に対して特徴成分を抽出するための変換処理を行ってスペクトログラムを作成するステップと、前記スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させるステップと、前記基底行列を前記複数の音源成分それぞれの学習結果として登録するステップとを備える学習過程と、
前記複数の音源成分が混合された音響信号に対して特徴成分を抽出するための変換処理を行ってスペクトログラムを作成するステップと、前記登録された複数の音源成分の基底行列を取り込むステップと、前記混合波形信号のスペクトログラムについて前記複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行うステップと、前記更新されたスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、前記混合波形信号を前記複数の音源成分それぞれの因子に分解するステップとを備える因子分解過程と
を具備する音響信号分離プログラム。
さらに、前記変換処理された音響信号からノイズ成分を除去して前記学習過程に出力する除去過程を備える請求項１９記載の音響信号分離プログラム。
前記除去過程には、バイラテラルフィルタを用いる請求項２０記載の音響信号分離プログラム。
さらに、前記因子分解過程の因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例した複数の時間−周波数マスキング関数を生成し、当該複数の時間−周波数マスキング関数によって前記変換処理された音響信号に時間−周波数マスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成するマスキング過程を備える請求項１９記載の音響信号分離プログラム。
さらに、前記マスキング過程で個別に得られた複数の音源成分それぞれの波形信号を前記変換処理とは逆の変換を施すことで、前記複数の音源成分の音響信号を分離する逆変換過程を備える請求項２２記載の音響信号分離プログラム。
前記変換処理及び逆変換過程の変換には、それぞれ短時間フーリエ変換、アダマール変換、コサイン変換のいずれかを用いる請求項２３記載の音響信号分離プログラム。
前記学習過程には、モデルベースの機械的な学習としてＥＭ（E-step M-step）アルゴリズムを用いる請求項２３記載の音響信号分離プログラム。
前記複数の音源成分は、呼吸音、心拍音、血管脈波音の少なくともいずれかである請求項２３記載の音響信号分離プログラム。
前記複数の音源成分は、被験者から採取される生体音と前記被験者周囲の外来音である請求項２３記載の音響信号分離プログラム。