JP2015031889A - 音響信号分離装置、音響信号分離方法及び音響信号分離プログラム - Google Patents
音響信号分離装置、音響信号分離方法及び音響信号分離プログラム Download PDFInfo
- Publication number
- JP2015031889A JP2015031889A JP2013162809A JP2013162809A JP2015031889A JP 2015031889 A JP2015031889 A JP 2015031889A JP 2013162809 A JP2013162809 A JP 2013162809A JP 2013162809 A JP2013162809 A JP 2013162809A JP 2015031889 A JP2015031889 A JP 2015031889A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic signal
- sound source
- source components
- sound
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
【課題】混合音響信号から複数の成分を高精度に分離する。
【解決手段】学習過程において、複数の音源成分それぞれについて、スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させ、基底行列を学習サンプル音信号として登録する。また、因子分解過程において、登録された複数の音源成分の学習サンプル音信号をそれぞれ基底行列として取り込み、前記複数の音源成分が混合された生体音信号のスペクトログラムについて、前記学習サンプル音信号である複数の音源成分それぞれのスペクトログラムを基底行列の初期値として最小化法による更新を行い、更新されたスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、混合波形信号を複数の音源成分それぞれの因子に分解する。さらには、再構築されたスペクトログラムの基底行列と係数行列を基づいてマスキングして複数の音源成分それぞれの生体音信号を分離する。
【選択図】図1
【解決手段】学習過程において、複数の音源成分それぞれについて、スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させ、基底行列を学習サンプル音信号として登録する。また、因子分解過程において、登録された複数の音源成分の学習サンプル音信号をそれぞれ基底行列として取り込み、前記複数の音源成分が混合された生体音信号のスペクトログラムについて、前記学習サンプル音信号である複数の音源成分それぞれのスペクトログラムを基底行列の初期値として最小化法による更新を行い、更新されたスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、混合波形信号を複数の音源成分それぞれの因子に分解する。さらには、再構築されたスペクトログラムの基底行列と係数行列を基づいてマスキングして複数の音源成分それぞれの生体音信号を分離する。
【選択図】図1
Description
本発明は、例えば呼吸音、心拍音、血管脈波音を含む混合生体音のように、複数の音響信号が混合された信号からそれぞれの成分を分離する音響信号分離技術に関する。
近年、心筋梗塞、脳梗塞などの循環器系疾患の急増に伴い、その早期発見を目的として、生体音という生体信号に基づく自己診断システムの研究・開発が進められている。ここで、生体音とは、超低周波マイクロフォンを生体に貼り付けて採取した音響信号であり、具体的には呼吸音、心拍音、血管脈波音があげられる。例えば、心筋梗塞、脳梗塞などでは、その初期症状として、不整脈、心雑音、動脈硬化による狭窄音、睡眠時無呼吸症候群等の症状が、生体音、すなわち呼吸音や心拍音や脈波音に混じって現れる。そこで、被験者から生体音を採取して分析することで、脳梗塞や心筋梗塞などの疾患予兆を診断することが可能となる。
ところで、呼吸音は頬付近、心拍音は腹部、脈波音は手首で採取すると、比較的明瞭な信号として取り出せる。しかしながら、3箇所にマイクロフォンを装着し、それぞれの生体音を採取することは、実装コストが高く、診断の再現性と利便性にかける。そこで、呼吸音、心拍音、脈波音が混合して採取可能な頸動脈部にマイクロフォンを装着し、当該マイクロフォンによって採取された混合生体音からそれぞれの成分を高精度に分離する手法が検討されている。
加速度センサにて、心音と呼吸と姿勢と行動を記録するシステム「ウェラブル生体情報記録システム」:医機学Vol.79, No. 7 (2009)
以上述べたように、例えば1箇所で採取された複数の音源成分の混合生体音のように、複数の音響信号が混合された信号からそれぞれの成分を高精度に分離する技術が要望されている。
この発明は上記事情に着目してなされたもので、その目的とするところは、混合音響信号から特定の成分を高精度に分離することのできる音響信号分離装置、音響信号分離方法及び音響信号分離プログラムを提供することにある。
(1)上記目的を達成するためにこの発明の第1の観点における音響信号分離装置は、入力手段と、変換手段と、学習手段と、因子分解手段とを備える。前記入力手段は、音響信号を入力する。前記変換手段は、前記入力手段から入力される音響信号に対して特徴成分を抽出するための変換処理を行う。前記学習手段は、前記入力手段から入力される音響信号が複数の音源成分それぞれの個別波形信号であって、前記変換手段で変換された音響信号についてスペクトログラムを作成し、当該スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させ、前記基底行列を前記複数の音源成分それぞれの学習結果として抽出し登録する。前記因子分解手段は、前記入力手段で入力される音響信号が前記複数の音源成分の混合波形信号であって、前記変換手段で変換された音響信号についてスペクトログラムを作成し、前記学習手段で登録された複数の音源成分の基底行列を取り込み、前記混合波形信号のスペクトラムについて前記複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行い、最終的にそのスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、前記混合波形信号を前記複数の音源成分それぞれの因子に分解する。
(2)(1)に係る音響信号分離装置は、さらに、前記変換手段から出力される音響信号からノイズ成分を除去して前記学習手段に出力する除去手段を備える。
(3)(2)において、前記除去手段には、バイラテラルフィルタを用いる。
(4)(1)に係る音響信号分離装置は、さらに、前記因子分解手段の因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例したマスキング関数を生成し、当該マスキング関数によって前記音響信号にマスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成するマスキング手段を備える。
(5)(4)に係る音響信号分離装置は、さらに、前記マスキング手段で個別に得られた複数の音源成分それぞれの波形信号を前記変換手段とは逆の変換を施すことで、前記複数の音源成分の音響信号を分離する逆変換手段を備える。
(6)(5)において、前記変換手段及び逆変換手段の変換には、短時間フーリエ変換、アダマール変換、コサイン変換のいずれかを用いる。
(7)(1)において、前記学習手段には、モデルベースの機械的な学習としてEM(E-step M-step)アルゴリズムを用いる。
(8)(1)において、前記複数の音源成分は、呼吸音、心拍音、血管脈波音の少なくともいずれかである。
(9)(1)において、前記複数の音源成分は、被験者から採取される生体音と前記被験者周囲の外来音である。
(10)上記目的を達成するためにこの発明の第2の観点における音響信号分離方法は、学習処理と因子分解処理とを備える。学習処理は、音響信号を入力し、前記音響信号に対して特徴成分を抽出するための変換処理を行い、前記入力される音響信号が複数の音源成分それぞれの個別波形信号であって、前記変換処理された音響信号についてスペクトログラムを作成し、当該スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させ、前記基底行列を前記複数の音源成分それぞれの学習結果として登録する。一方、因子分解処理は、前記入力される音響信号が前記複数の音源成分の混合波形信号であって、前記変換処理された音響信号についてスペクトログラムを作成し、前記学習処理で登録された複数の音源成分の基底行列を取り込み、前記混合波形信号のスペクトラムについて前記複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行い、最終的にそのスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、前記混合波形信号を前記複数の音源成分それぞれの因子に分解する。
(11)(10)に係る音響信号分離方法は、さらに、前記変換処理された音響信号からノイズ成分を除去して前記学習処理に出力する除去処理を備える。
(12)(11)において、前記除去処理には、バイラテラルフィルタを用いる。
(13)(10)に係る音響信号分離方法は、さらに、前記因子分解処理の因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例したマスキング関数を生成し、当該マスキング関数によって前記変換処理された音響信号にマスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成するマスキング処理を備える。
(14)(13)に係る音響信号分離方法は、さらに、前記マスキング処理で個別に得られた複数の音源成分それぞれの波形信号を前記変換処理とは逆の変換を施すことで、前記複数の音源成分の音響信号を分離する逆変換処理を備える。
(15)(14)において、前記変換処理及び逆変換処理の変換には、短時間フーリエ変換、アダマール変換、コサイン変換のいずれかを用いる。
(16)(10)において、前記学習処理には、モデルベースの機械的な学習としてEM(E-step M-step)アルゴリズムを用いる。
(17)(10)において、前記複数の音源成分は、呼吸音、心拍音、血管脈波音の少なくともいずれかである。
(18)(10)において、前記複数の音源成分は、被験者から採取される生体音と前記被験者周囲の外来音である。
(19)また、上記目的を達成するためにこの発明の第3の観点における音響信号分離プログラムは、複数の音源成分が混合された音響信号から個々の音源成分を分離する処理をコンピュータに実行させる音響信号分離プログラムであって、学習過程と、因子分解過程とを備える。前記学習過程は、前記複数の音源成分それぞれの個別波形信号に対して特徴成分を抽出するための変換処理を行ってスペクトログラムを作成するステップと、前記スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させるステップと、前記基底行列を前記複数の音源成分それぞれの学習結果として登録するステップとを備える。前記因子分解過程は、前記複数の音源成分が混合された生体音信号に対して特徴成分を抽出するための変換処理を行ってスペクトログラムを作成するステップと、前記登録された複数の音源成分のサンプル音信号を取り込むステップと、前記混合波形信号のスペクトログラムについて前記複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行うステップと、前記更新されたスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、前記混合波形信号を前記複数の音源成分それぞれの因子に分解するステップとを備える。
(20)(19)に係る音響信号分離プログラムは、さらに、前記変換処理された音響信号からノイズ成分を除去して前記学習過程に出力する除去過程を備える。
(21)(20)において、前記除去過程には、バイラテラルフィルタを用いる。
(22)(19)に係る音響信号分離プログラムは、さらに、前記因子分解過程の因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例した複数の時間−周波数マスキング関数を生成し、当該複数の時間−周波数マスキング関数によって前記変換処理された音響信号に時間−周波数マスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成するマスキング過程を備える。
(23)(22)に係る音響信号分離プログラムは、さらに、前記マスキング過程で個別に得られた複数の音源成分それぞれの波形信号を前記変換処理とは逆の変換を施すことで、前記複数の音源成分の音響信号を分離する逆変換過程を備える。
(24)(23)において、前記変換処理及び逆変換過程の変換には、それぞれ短時間フーリエ変換、アダマール変換、コサイン変換のいずれかを用いる。
(25)(19)において、前記学習過程には、モデルベースの機械的な学習としてEM(E-step M-step)アルゴリズムを用いる。
(26)(19)において、前記複数の音源成分は、呼吸音、心拍音、血管脈波音の少なくともいずれかである。
(27)(19)において、前記複数の音源成分は、被験者から採取される生体音と前記被験者周囲の外来音である。
上記構成によれば、学習過程において、複数の音源成分それぞれについて、スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させ、基底行列を学習結果として登録する。また、因子分解過程において、登録された複数の音源成分の基底行列を取り込み、前記複数の音源成分が混合された音響信号のスペクトログラムについて、前記学習結果である複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行い、更新されたスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、混合波形信号を複数の音源成分それぞれの因子に分解する。さらには、再構築されたスペクトログラムの基底行列と係数行列を基づいて、例えばマスキングして複数の音源成分それぞれの音響信号を分離するようにしている。
したがってこの発明によれば、混合音響信号から特定の成分を高精度に分離することのできる音響信号分離装置、音響信号分離方法及び音響信号分離プログラムを提供することができる。
以下、図面を参照してこの発明に係わる実施形態を説明する。
図1は、本発明に係る音響信号分離装置の一実施形態とする生体音分離装置の構成を示すブロック図である。図1に示す装置は、音響センサ11、STFT(Short Time Fourier Transform:短時間フーリエ変換)処理部12、ノイズ除去部13、NMF(Non-negative Matrix Factorization:非負値行列分解)処理部14、サンプル登録部15、TF(Time Frequency:時間周波数)マスキング部16、ISTFT(Inverse Short Time Fourier Transform:短時間逆フーリエ変換)処理部17を備える。
図1は、本発明に係る音響信号分離装置の一実施形態とする生体音分離装置の構成を示すブロック図である。図1に示す装置は、音響センサ11、STFT(Short Time Fourier Transform:短時間フーリエ変換)処理部12、ノイズ除去部13、NMF(Non-negative Matrix Factorization:非負値行列分解)処理部14、サンプル登録部15、TF(Time Frequency:時間周波数)マスキング部16、ISTFT(Inverse Short Time Fourier Transform:短時間逆フーリエ変換)処理部17を備える。
上記音響センサ11は、超低周波収録用のマイクロフォンであり、被験者の頸動脈上皮部に装着され、任意の期間の生体音を採取し、デジタル化して出力する。この音響センサ11で採取された生体音の音響データ(以下、生体音データ)は、STFT処理部12に送られる。このSTFT処理部12は、入力される生体音データを順次切り出し、時間領域から周波数領域に変換して出力する。このように周波数領域に変換された生体音データはノイズ除去部13に送られる。
このノイズ除去部13は、生体音分離の前処理として、入力された生体音データから外来音等の不要なノイズ成分を除去する。このノイズ除去部13には、ガウス性ノイズ除去が効果的であり、例えば画像処理においてエッジ保存型平滑フィルタとして活用される、ノイズ除去アルゴリズムに基づくバイラテラルフィルタを用いるとよい。その出力はNMF処理部14に送られる。
このNMF処理部14は、学習過程と因子分解過程に分けられる。
学習過程では、各種生体音の対応部位から採取される成分波形スペクトログラムの高精度化を行う。すなわち、呼吸音、心拍音、血管脈波音をそれぞれ独立に採取できる体内部位(例えば、呼吸音は頬上皮、心拍音は心臓上皮、脈波音は手首)からの生体音を採取し、これらの生体音から成分波形スペクトラムを作成して、混合頸動脈音に含まれる呼吸音、心拍音、脈波音それぞれの音源成分として利用する。このとき、多くのサンプル(個人内または個人間)を収集して、モデルベースの機械的な学習(例えばEM(E-step M-step)アルゴリズム)を行うことで、学習データをより安定した成分信号とする改良プロセスを含むものとする。この学習過程で得られた呼吸音、心拍音、脈波音のサンプル音は、サンプル登録部15に登録される。
因子分解過程では、採取された生体音データから得られる成分波形スペクトログラムを呼吸音、心拍音、脈波音それぞれの帯域成分に分解する。すなわち、採取された生体音データによる呼吸音、心拍音、脈波音の混合波形は、それら3つの帯域の成分信号を主要成分として含む、という設定のもとに、3つの帯域成分が線形結合された成分波形スペクトログラムをみなし、個々の帯域成分を分離する。本実施形態では、その分離に最も有望な手法として、非負値行列による因子分解で近似する方法を用いる。すなわち、サンプル登録部15に登録されたサンプルデータを基底行列とみなし、上記呼吸音、心拍音、脈波音の3成分のスペクトログラムを基底行列の初期値として最小化法による更新を行い、最終的に、そのスペクトログラムを「基底行列と係数行列の積」で近似することにより、混合波形を主要3成分の因子に分解する。この因子分解結果は、TFマスキング部16に送られる。
このTFマスキング部16は、上記因子分解にて生成した基底行列と係数行列をもとに、成分の強さに比例したTFマスキング関数を生成し、当該TFマスキング関数によって採取された生体音データにマスキングを行うことで、3成分それぞれの周波数領域における波形データを生成する。このようにして生成された呼吸音、心拍音、脈波音それぞれの波形データはISTFT処理部17に送られる。このISTFT処理部17は、上記呼吸音、心拍音、脈波音それぞれの波形データをそれぞれ時間領域の信号データに変換するもので、変換された各波形データは、モニタ表示装置、音響再生機器等(図示せず)に送られ、再生出力される。
上記構成において、以下に生体音分離に関する具体的な処理内容として、上記NMF処理部14の非負値行列によるスペクトログラム上での因子分解について、図2乃至図5を参照して説明する。
図2は、上記被験者の最適部位から採取される生体音の呼吸音、心拍音、脈波音、ノイズの周波数分布を示す周波数特性図である。このように、それぞれの周波数成分は周波数パターンがある程度異なっており、一応の周波数区分は可能である。しかしながら、これらが混合された波形信号となると、帯域強調フィルタ、EM(Expectation Maximization)アルゴリズムを用いた、一般的なフィルタリング処理では診断に必要な精度が得られない。そこで、本実施形態では、図3に示すようなNMF(非負値行列因子分解)を用いた生体音分離手法を提供する。
図3において、(a)は入力生体音データを時間−周波数変換することによって得られるスペクトログラム(非負値行列)である。(b1),(b2),(b3)はそれぞれ予め学習によって得られる基底行列1,2,3であり、(c1),(c2),(c3)はそれぞれ基底行列1,2,3によって入力波形スペクトログラムを再構築したデータイメージを示している。このNMF手法が従来の手法と大きく異なる点は、スペクトログラムを用いて実数値で処理を行っている点と、学習データを用いている点である。本実施形態の手法では、波形データをスペクトログラムすなわち実数値データに変換することで、画像処理分野におけるノイズ除去の手法を用いる。また、音響センサ11が比較的安価なモノラルマイクの場合、採取された生体音データの情報量が少なく、直接分離することは非常に難しいので、学習データを用いることでその欠点を補う。
図4及び図5は上記NMFアルゴリズムを利用した生体音分離手法の処理の流れを示すフローチャートであり、図3は学習過程、図4は因子分解過程を示している。
図4に示す学習過程では、まず被験者の頬上皮上から採取される呼吸音、心臓上皮上から採取される心拍音、手首上から採取される脈波音をそれぞれサンプルデータとして入力すると(ステップS1)、STFT処理によって時間−周波数軸上のデータに変換して周波数成分のパワーをとり、図3(a)に示す実数値による成分波形スペクトログラム(非負値行列)を生成する(ステップS2)。続いて、ノイズ除去処理を行い、外来音等の不要なノイズ成分を除去する(ステップS3)。次に、ノイズ除去処理がなされた成分波形スペクトログラムのデータをNMF処理することによって、基底行列と係数行列に分解し収束させた後(ステップS4)、基底行列を学習データとして抽出する(ステップS5)。このようにして、予め被験者の対応部位から任意に採取される呼吸音、心拍音、脈波音それぞれの学習データ(それぞれ図3(b1),(b2),(b3)に示す基底行列1,2,3とする)を得ると、これらの学習データをサンプルとしてサンプル登録部15に登録し(ステップS6)、一連の処理を終了する。
図5に示す因子分解過程では、まず被験者の頸動脈上皮から採取される生体音データを入力すると(ステップS11)と、学習過程と同様に、STFT処理によって時間−周波数軸上のデータに変換して周波数成分のパワーをとって図3(a)に示す成分波形スペクトログラムを生成し(ステップS12)、ノイズ除去処理を行った後(ステップS13)、サンプル登録部15に登録された呼吸音、心拍音、脈波音それぞれの学習データを基底行列1,2,3として取り込み(ステップS14)、NMF処理を行う(ステップS15)。この因子分解過程のNMF処理では、上記呼吸音、心拍音、脈波音の3成分の基底行列1,2,3をそれぞれ混合生体音データのスペクトログラムの基底行列の初期値とし、最小化法によって混合生体音データのスペクトログラムの更新を行い、最終的に、図3(c1),(c2),(c3)に示すように、そのスペクトログラムを「基底行列と係数行列の積」で近似することにより再構築し、混合波形を主要3成分の因子に分解する(ステップS16)。
続いて、NMF処理によって得られた因子分解結果について、呼吸音、心拍音、脈波音それぞれに対応したTFマスキング処理を行う(ステップS17)。これらのTFマスキング処理では、上記NMF処理における因子分解にて生成した基底行列と係数行列をもとに、成分の強さに比例したTFマスキング関数を生成し、呼吸音、心拍音、脈波音それぞれのTFマスキング関数によって、NMF処理された生体音データにマスキングを行うことで、3成分それぞれの周波数領域における波形データを生成する。このようにして生成された呼吸音、心拍音、脈波音それぞれの波形データをISTFT処理することにより、上記呼吸音、心拍音、脈波音それぞれの波形データをそれぞれ時間領域の信号データに変換する(ステップS18)。変換された各波形データは、モニタ表示装置、音響再生機器等(図示せず)に送られ、再生出力されて(ステップS19)、一連の処理を終了する。
以上のように、本実施形態の生体音分離装置では、NMFアルゴリズムを利用する際に、学習過程において成分別に基底行列を学習させることでノイズ除去を含めた精度向上を実現している。この結果、混合生体音の分離における基底行列と係数行列の積による成分波形スペクトログラムの再構築の精度が飛躍的に向上するようになり、その分離処理によって、各成分とも従来のEMアルゴリズムを用いたフィルタリング処理に比して格段に高精度な音響データが得られる。
尚、上記実施形態では、呼吸音、心拍音、脈波音の三種類の混合成分について分離する場合を説明したが、本発明はこれに限定されるものではなく、基底行列の成分が得られる場合には、さらに混合成分から分離することも可能である。
また、上記実施形態では、時間領域と周波数領域との変換にフーリエ変換を用いる場合について説明したが、アダマール変換、コサイン変換等の直交変換も利用可能である。要は、特徴となる成分を抽出するための変換を行ってNMF処理が可能となればよい。
また、上記実施形態では、音源成分として、呼吸音、心拍音、脈波音の生体音のみの場合を説明したが、生体音内のみならず、被験者から採取される生体音と前記被験者周囲の外来音とを分離することにも利用可能である。この場合は、被験者周囲の外来音を採取し、学習過程において、外来音の基底行列を抽出してサンプル登録部15に登録しておくと、因子分解過程において、混合波形信号から外来音の成分を分解することができる。また、生体音に限らず、複数の音源から発せられる音が混合した音響信号であっても、学習過程と因子分解過程の併用により、混合波形信号から各音源の音成分を分離することにも利用可能である。
また、上記実施形態は、各処理部をハードウェアにより実現してもよいが、ソフトウェアにより、すなわちパーソナルコンピュータを利用したプログラム処理によっても実現可能である。図6にプログラム処理によって実現する場合のコンピュータの構成を示す。
図6において、21はデータ処理の中枢を司るCPU(Central Processing Unit)、22は予めデータ処理用のプログラムが格納されるROM(Read Only Memory)、23はデータ処理の作業領域となるRAM(Random Access Memory)、24はサンプルデータ、入力データ、処理結果を格納するHDD(Head Disk Drive)、25は指示に従ってデータを入出力するI/O(Input/Output Interface)、26は上記の各ブロック間でデータを送受するためのバスである。図4及び図5に示すフローチャートの処理をプログラム化し、予めROM22に登録しておき、HDD24に学習モードで得られたサンプルデータを登録しておき、因子分解・分離モードで登録されたサンプルデータを用いて分離処理することで、上記のNMFアルゴリズムを利用した処理を実現することができる。
その他、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
11…音響センサ、
12…STFT(Short Time Fourier Transform:短時間フーリエ変換)処理部、
13…ノイズ除去部、
14…NMF(Non-negative Matrix Factorization:非負値行列分解)処理部、
15…サンプル登録部、
16…TF(Time Frequency:時間周波数)マスキング部、
17…ISTFT(Inverse Short Time Fourier Transform:短時間逆フーリエ変換)処理部。
12…STFT(Short Time Fourier Transform:短時間フーリエ変換)処理部、
13…ノイズ除去部、
14…NMF(Non-negative Matrix Factorization:非負値行列分解)処理部、
15…サンプル登録部、
16…TF(Time Frequency:時間周波数)マスキング部、
17…ISTFT(Inverse Short Time Fourier Transform:短時間逆フーリエ変換)処理部。
Claims (27)
- 音響信号を入力する入力手段と、
前記入力手段から入力される音響信号に対して特徴成分を抽出するための変換処理を行う変換手段と、
前記入力手段から入力される音響信号が複数の音源成分それぞれの個別波形信号であって、前記変換手段で変換された音響信号についてスペクトログラムを作成し、当該スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させ、前記基底行列を前記複数の音源成分それぞれの学習結果として抽出し登録する学習手段と、
前記入力手段で入力される音響信号が前記複数の音源成分の混合波形信号であって、前記変換手段で変換された音響信号についてスペクトログラムを作成し、前記学習手段で登録された複数の音源成分の基底行列を取り込み、前記混合波形信号のスペクトラムについて前記複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行い、最終的にそのスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、前記混合波形信号を前記複数の音源成分それぞれの因子に分解する因子分解手段と、
を具備する音響信号分離装置。 - さらに、前記変換手段から出力される音響信号からノイズ成分を除去して前記学習手段に出力する除去手段を備える請求項1記載の音響信号分離装置。
- 前記除去手段には、バイラテラルフィルタを用いる請求項2記載の音響信号分離装置。
- さらに、前記因子分解手段の因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例したマスキング関数を生成し、当該マスキング関数によって前記音響信号にマスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成するマスキング手段を備える請求項1記載の音響信号分離装置。
- さらに、前記マスキング手段で個別に得られた複数の音源成分それぞれの波形信号を前記変換手段とは逆の変換を施すことで、前記複数の音源成分の音響信号を分離する逆変換手段を備える請求項4記載の音響信号分離装置。
- 前記変換手段及び逆変換手段には、それぞれ短時間フーリエ変換、短時間逆フーリエ変換を用いる請求項5記載の音響信号分離装置。
- 前記学習手段には、モデルベースの機械的な学習としてEM(E-step M-step)アルゴリズムを用いる請求項1記載の音響信号分離装置。
- 前記複数の音源成分は、呼吸音、心拍音、血管脈波音の少なくともいずれかである請求項1記載の音響信号分離装置。
- 前記複数の音源成分は、被験者から採取される生体音と前記被験者周囲の外来音である請求項1記載の音響信号分離装置。
- 音響信号を入力し、
前記音響信号に対して特徴成分を抽出するための変換処理を行い、
前記入力される音響信号が複数の音源成分それぞれの個別波形信号であって、前記変換処理された音響信号についてスペクトログラムを作成し、当該スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させ、前記基底行列を前記複数の音源成分それぞれの学習結果として登録し、
前記入力される生体音信号が前記複数の音源成分の混合波形信号であって、前記変換処理された音響信号についてスペクトログラムを作成し、前記学習手段で登録された複数の音源成分の基底行列を取り込み、前記混合波形信号のスペクトラムについて前記複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行い、最終的にそのスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、前記混合波形信号を前記複数の音源成分それぞれの因子に分解し、
前記因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例した複数の時間−周波数マスキング関数を生成し、当該複数の時間−周波数マスキング関数によって前記生体音信号に時間−周波数マスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成し、
前記マスキングで個別に得られた複数の音源成分それぞれの波形信号に前記変換処理とは逆の変換処理を施すことで、前記複数の音源成分の生体音信号を分離する音響信号分離方法。 - さらに、前記変換処理された音響信号からノイズ成分を除去して前記学習処理に出力する除去処理を備える請求項10記載の音響信号分離方法。
- 前記除去処理には、バイラテラルフィルタを用いる請求項11記載の音響信号分離方法。
- さらに、前記因子分解手段の因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例したマスキング関数を生成し、当該マスキング関数によって前記変換処理された音響信号にマスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成するマスキング処理を備える請求項10記載の音響信号分離方法。
- さらに、前記マスキング処理で個別に得られた複数の音源成分それぞれの波形信号を前記変換処理とは逆の変換を施すことで、前記複数の音源成分の音響信号を分離する逆変換処理を備える請求項13記載の音響信号分離方法。
- 前記変換処理及び逆変換処理の変換には、短時間フーリエ変換、アダマール変換、コサイン変換のいずれかを用いる請求項14記載の音響信号分離方法。
- 前記学習処理には、モデルベースの機械的な学習としてEM(E-step M-step)アルゴリズムを用いる請求項10記載の音響信号分離方法。
- 前記複数の音源成分は、呼吸音、心拍音、血管脈波音の少なくともいずれかである請求項10記載の音響信号分離方法。
- 前記複数の音源成分は、被験者から採取される生体音と前記被験者周囲の外来音である請求項10記載の音響信号分離方法。
- 複数の音源成分が混合された音響信号から個々の音源成分を分離する処理をコンピュータに実行させる音響信号分離プログラムであって、
前記複数の音源成分それぞれの個別波形信号に対して特徴成分を抽出するための変換処理を行ってスペクトログラムを作成するステップと、前記スペクトログラムが表す非負値行列を基底行列と係数行列に分解し収束させるステップと、前記基底行列を前記複数の音源成分それぞれの学習結果として登録するステップとを備える学習過程と、
前記複数の音源成分が混合された音響信号に対して特徴成分を抽出するための変換処理を行ってスペクトログラムを作成するステップと、前記登録された複数の音源成分の基底行列を取り込むステップと、前記混合波形信号のスペクトログラムについて前記複数の音源成分それぞれの基底行列を初期値として最小化法による更新を行うステップと、前記更新されたスペクトログラムを基底行列と係数行列の積で近似することにより再構築することで、前記混合波形信号を前記複数の音源成分それぞれの因子に分解するステップとを備える因子分解過程と
を具備する音響信号分離プログラム。 - さらに、前記変換処理された音響信号からノイズ成分を除去して前記学習過程に出力する除去過程を備える請求項19記載の音響信号分離プログラム。
- 前記除去過程には、バイラテラルフィルタを用いる請求項20記載の音響信号分離プログラム。
- さらに、前記因子分解過程の因子分解にて再構築されたスペクトログラムの基底行列と係数行列をもとに前記複数の音源成分の強さそれぞれに比例した複数の時間−周波数マスキング関数を生成し、当該複数の時間−周波数マスキング関数によって前記変換処理された音響信号に時間−周波数マスキングを行うことで、前記複数の音源成分それぞれの波形信号を生成するマスキング過程を備える請求項19記載の音響信号分離プログラム。
- さらに、前記マスキング過程で個別に得られた複数の音源成分それぞれの波形信号を前記変換処理とは逆の変換を施すことで、前記複数の音源成分の音響信号を分離する逆変換過程を備える請求項22記載の音響信号分離プログラム。
- 前記変換処理及び逆変換過程の変換には、それぞれ短時間フーリエ変換、アダマール変換、コサイン変換のいずれかを用いる請求項23記載の音響信号分離プログラム。
- 前記学習過程には、モデルベースの機械的な学習としてEM(E-step M-step)アルゴリズムを用いる請求項23記載の音響信号分離プログラム。
- 前記複数の音源成分は、呼吸音、心拍音、血管脈波音の少なくともいずれかである請求項23記載の音響信号分離プログラム。
- 前記複数の音源成分は、被験者から採取される生体音と前記被験者周囲の外来音である請求項23記載の音響信号分離プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013162809A JP2015031889A (ja) | 2013-08-05 | 2013-08-05 | 音響信号分離装置、音響信号分離方法及び音響信号分離プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013162809A JP2015031889A (ja) | 2013-08-05 | 2013-08-05 | 音響信号分離装置、音響信号分離方法及び音響信号分離プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015031889A true JP2015031889A (ja) | 2015-02-16 |
Family
ID=52517229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013162809A Pending JP2015031889A (ja) | 2013-08-05 | 2013-08-05 | 音響信号分離装置、音響信号分離方法及び音響信号分離プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015031889A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018199031A1 (ja) * | 2017-04-27 | 2018-11-01 | 日本電信電話株式会社 | 学習型信号分離方法、及び学習型信号分離装置 |
WO2021054742A1 (ko) * | 2019-09-17 | 2021-03-25 | 다인기술 주식회사 | 호흡과 관련된 소리를 분석하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
JPWO2020157988A1 (ja) * | 2019-02-01 | 2021-11-25 | 日本電気株式会社 | 状態推定装置、状態推定方法、及びプログラム |
CN114446316A (zh) * | 2022-01-27 | 2022-05-06 | 腾讯科技(深圳)有限公司 | 音频分离方法、音频分离模型的训练方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210888A (ja) * | 2008-03-05 | 2009-09-17 | Univ Of Tokyo | 音信号の分離方法 |
US20100254539A1 (en) * | 2009-04-07 | 2010-10-07 | Samsung Electronics Co., Ltd. | Apparatus and method for extracting target sound from mixed source sound |
JP2013033196A (ja) * | 2011-07-07 | 2013-02-14 | Nara Institute Of Science & Technology | 音響処理装置 |
-
2013
- 2013-08-05 JP JP2013162809A patent/JP2015031889A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210888A (ja) * | 2008-03-05 | 2009-09-17 | Univ Of Tokyo | 音信号の分離方法 |
US20100254539A1 (en) * | 2009-04-07 | 2010-10-07 | Samsung Electronics Co., Ltd. | Apparatus and method for extracting target sound from mixed source sound |
JP2013033196A (ja) * | 2011-07-07 | 2013-02-14 | Nara Institute Of Science & Technology | 音響処理装置 |
Non-Patent Citations (3)
Title |
---|
中鹿 亘、滝口 哲也、有木 康雄: "基底の反復生成と教師ありNMFを用いた信号解析", 情報処理学会研究報告 平成22年度▲5▼ [CD−ROM], JPN6015025446, 15 February 2011 (2011-02-15), JP, ISSN: 0003102078 * |
北野 佑、亀岡 弘和、和泉 洋介、小野 順貴、嵯峨山 茂樹: "音源信号のスパース基底モデルに基づくブラインド音源分離の検討", 日本音響学会 2009年 秋季研究発表会講演論文集CD−ROM [CD−ROM], JPN6016000566, 8 September 2009 (2009-09-08), JP, pages 645 - 646, ISSN: 0003235041 * |
澤田 宏: "非負値行列因子分解NMFの基礎とデータ/信号解析への応用", 電子情報通信学会誌 第95巻 第9号 THE JOURNAL OF THE INSTITUTE OF ELECTRONICS,INFORMATION AND CO, JPN6015025447, 1 September 2012 (2012-09-01), JP, pages 829 - 833, ISSN: 0003102079 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018199031A1 (ja) * | 2017-04-27 | 2018-11-01 | 日本電信電話株式会社 | 学習型信号分離方法、及び学習型信号分離装置 |
JPWO2018199031A1 (ja) * | 2017-04-27 | 2019-11-07 | 日本電信電話株式会社 | 学習型信号分離方法、及び学習型信号分離装置 |
US11625603B2 (en) | 2017-04-27 | 2023-04-11 | Nippon Telegraph And Telephone Corporation | Learning-type signal separation method and learning-type signal separation device |
JPWO2020157988A1 (ja) * | 2019-02-01 | 2021-11-25 | 日本電気株式会社 | 状態推定装置、状態推定方法、及びプログラム |
JP7327417B2 (ja) | 2019-02-01 | 2023-08-16 | 日本電気株式会社 | 状態推定装置、状態推定方法、及びプログラム |
WO2021054742A1 (ko) * | 2019-09-17 | 2021-03-25 | 다인기술 주식회사 | 호흡과 관련된 소리를 분석하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
CN114446316A (zh) * | 2022-01-27 | 2022-05-06 | 腾讯科技(深圳)有限公司 | 音频分离方法、音频分离模型的训练方法、装置及设备 |
CN114446316B (zh) * | 2022-01-27 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 音频分离方法、音频分离模型的训练方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ismail et al. | Localization and classification of heart beats in phonocardiography signals—a comprehensive review | |
Ghosh et al. | Automated detection of heart valve disorders from the PCG signal using time-frequency magnitude and phase features | |
CN102697520B (zh) | 基于智能识别功能的电子听诊器 | |
US7458939B2 (en) | Procedure for extracting information from a heart sound signal | |
Mishra et al. | Characterization of $ S_1 $ and $ S_2 $ heart sounds using stacked autoencoder and convolutional neural network | |
Alsmadi et al. | Design of a DSP-based instrument for real-time classification of pulmonary sounds | |
Tsai et al. | Blind monaural source separation on heart and lung sounds based on periodic-coded deep autoencoder | |
Mondal et al. | Reduction of heart sound interference from lung sound signals using empirical mode decomposition technique | |
Belloni et al. | A new digital stethoscope with environmental noise cancellation | |
JP2015031889A (ja) | 音響信号分離装置、音響信号分離方法及び音響信号分離プログラム | |
Zakaria et al. | VGG16, ResNet-50, and GoogLeNet deep learning architecture for breathing sound classification: a comparative study | |
Wang et al. | Acoustic-pressure sensor array system for cardiac-sound acquisition | |
Ali et al. | An end-to-end deep learning framework for real-time denoising of heart sounds for cardiac disease detection in unseen noise | |
Mustafa et al. | Detection of heartbeat sounds arrhythmia using automatic spectral methods and cardiac auscultatory | |
Lee et al. | Restoration of lung sound signals using a hybrid wavelet-based approach | |
Elgendi et al. | Detection of Heart Sounds in Children with and without Pulmonary Arterial Hypertension―Daubechies Wavelets Approach | |
Touahria et al. | Discrete Wavelet based Features for PCG Signal Classification using Hidden Markov Models. | |
Azam et al. | Heart sound classification considering additive noise and convolutional distortion | |
Jiménez-González et al. | Extracting sources from noisy abdominal phonograms: a single-channel blind source separation method | |
Huq et al. | Data Augmentation using Reverb and Noise in Deep Learning Implementation of Cough Classification | |
González-Rodríguez et al. | Robust denoising of phonocardiogram signals using time-frequency analysis and U-Nets | |
Fattahi et al. | A blind filtering framework for noisy neonatal chest sounds | |
Perera et al. | EEG signal analysis of real-word reading and nonsense-word reading between adults with dyslexia and without dyslexia | |
Jimenez-Gonzalez et al. | Blind source separation to extract foetal heart sounds from noisy abdominal phonograms: A single channel method | |
Dembrani et al. | Extraction of FECG signal based on blind source separation using principal component analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150819 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160119 |