JP4873483B2 - 信号強度の時系列情報の解析方法、解析プログラム、並びに解析装置 - Google Patents

信号強度の時系列情報の解析方法、解析プログラム、並びに解析装置 Download PDF

Info

Publication number
JP4873483B2
JP4873483B2 JP2007050363A JP2007050363A JP4873483B2 JP 4873483 B2 JP4873483 B2 JP 4873483B2 JP 2007050363 A JP2007050363 A JP 2007050363A JP 2007050363 A JP2007050363 A JP 2007050363A JP 4873483 B2 JP4873483 B2 JP 4873483B2
Authority
JP
Japan
Prior art keywords
time
series information
matrix
analysis
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007050363A
Other languages
English (en)
Other versions
JP2008215881A (ja
Inventor
顕司 渡辺
多喜夫 栗田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2007050363A priority Critical patent/JP4873483B2/ja
Publication of JP2008215881A publication Critical patent/JP2008215881A/ja
Application granted granted Critical
Publication of JP4873483B2 publication Critical patent/JP4873483B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Description

本発明は、信号強度の時系列情報の解析方法、解析プログラム、並びに解析装置に関する。より詳しくは、信号強度の時系列情報における含有成分を分離して解析する技術に関する。
一般に、時間の流れのなかで各種データの収集を行った際に、時間軸に沿った形でデータを得て、これを時系列データとして解析することができる。このような時系列データは、各種信号強度の時系列情報といえ、解析対象から放射されるエネルギー値の変動を逐次観測し続けることで得られる時系列情報等ということもできる。
例えば、神経電位や筋電位の測定に関しては、神経および筋肉の活動電位の変化を特定時間領域下で逐次取得する。音声信号の測定に関しては、特定波長領域の気体振動情報を特定時間領域下で逐次取得する。また、分光学分析では蛍光強度等の測定に関しては、特定波長領域(例えば、500nm前後の波長領域)の光子を特定時間領域下で逐次取得する。このように取得した信号強度の時系列情報はスペクトル等として各種解析や分析に用いられている。
このような、時系列情報は行列形式で表現することができ、例えば、行が1つの観測対象を意味し、列が観測項目を意味するように行列式の各成分を表現することができる。各種信号強度の時系列情報をこのような行列式で表現し、この行列式を解析することで時系列情報の解析を行なうことができる。
前記スペクトルを例にとっていえば、スペクトルは時間軸上のエネルギー値の分布を示すものであり、独立した成分の和によって構成されている。そして、神経電位や筋電位の場合においては、これらのスペクトルを解析することで、ある時間領域における電位変化のパターンを独立した時間成分として取得することができる。また、音声信号の場合には、ある時間領域における空気の振動パターンを独立した時間成分として取得することができる。
しかし、得られた信号強度の時系列情報(いわゆる生データ等)は、元信号(元情報)の分離や、不要な要因や不確実な要素(例えば例外値)の除去・再解析等を行なう必要がある。例えば、前述の蛍光強度測定等の分光学分析についていえば、元信号である分子ごとのスペクトルの分離をする必要や、ノイズピーク等の例外値等を除去・再解析する必要がある。
時系列情報の解析は、得られた時系列情報の元信号だけでなく、元信号から特徴を抽出した特徴量も用いることができる。そして、好適なモデル関数を採用し、各種文献情報や経験則により推測した成分数に基づいて、元信号や特徴抽出した前記特徴量等を線形結合させ、サンプル毎に解析することで、解析対象の構成成分の解析を行なっている。
以上のような時系列情報の解析では、既知の文献情報や思考実験や計測実験から導出されたモデル関数を用い、観測対象である各種物理現象等の信号強度を数式でモデル化し、その数式に含まれる成分を推定する方法が用いられている。
これに関する技術として、特許文献1には、非定常信号の成分を検出する方法として、非負行列を分解する手法として、非負行列因子分解法(Non-negative Matrix Factorization;NMF)を用いた技術が開示されている。
また、非特許文献1,2には、思考実験や計測実験から導出されたモデル関数を用いた現象への言及がなされている。そして、非特許文献3には、モデル関数を解く際の手法とその収束性への言及がなされている。
特開2005−49869号公報。 Kitamura, A., et al. nature cell biology, 8(10), 1163-1170(2006)。 Kim, H., D., et al. PNAS., 99(8), 4284-4289(2002)。 Rao, R., et al. J. Phys. chem.. A, 110, 10674-10682(2002) 。
前記特許文献や非特許文献を例にとれば、特許文献1では、NMFを用いる技術は開示されているが、現象に意味を持たせた形の非負値をとる基底行列や写影行列に変換した後に、基底ベクトルの数をモデル選択手法により評価・決定する旨までは記載されていない。
また、非特許文献1〜3では、思考実験や計測実験から導出されたモデル関数等についての言及はなされているが、統計的パターン認識手法からのアプローチ等までは言及されていない。
このような時系列情報の解析技術においては、以下の技術的課題が存在する。各種文献情報や経験則により推測した成分数に基づいて、元信号や特徴抽出後の特徴量等を処理するため、観測対象に関する事前知識や専門知識を有することが必要となる。また、測定ごとに解析を行なうため、観測事象の一般化を行なうには、各信号強度の時系列情報に対する解析結果の分散を評価する等の別途の解析作業が必要となる。
そこで、本発明は、事前知識の調査や解析結果の統計的処理等の作業工程等を圧縮でき、ある一定の定量性が確保された、信号強度の時系列情報の解析方法を提供すること主な目的とする。
上記の技術的課題を解決するために、信号強度の時系列情報に対して特徴抽出を行なう解析について、この特徴を非負値で構成させた後に、所定の分布関数に従う成分に分離するという新規着想に基づいて、以下の本発明を完成させた。
まず、本発明は、少なくとも(1)信号強度の時系列情報を取得する工程と、(2)前記時系列情報から特徴量を抽出する工程と、(3)前記特徴量を、非負行列分解を行なって、基底行列と写影行列からなる構成成分に分解する工程と、(4)前記構成成分の基底行列のランクを評価する工程と、を行なう信号強度の時系列情報の解析方法を提供する。測定した信号強度の時系列情報に対して特徴抽出を行い、非負値をとる基底行列を写影行列とに分解した後に、基底行列の数をモデル選択手法で決定することで、解析対象となる信号強度の時系列情報における構成成分を事前知識なしで分離可能とすることができる。
次に、本発明は、前記(3)工程の後に、分布を表現するモデル関数を用いて、前記基底ベクトルを補正する工程を行なう信号強度の時系列情報の解析方法を提供する。基底ベクトルを補正することでより精度の高い分析を行なうことができる。
また、本発明は、前記(3)工程は、非負行列因子分解法(NMF)により基底行列と写影行列とからなる構成成分に分解する時系列情報の処理方法を提供する。非負行列に分解する手法として非負行列因子分解法(NMF)を用いることで、幅広い情報種について精度の高い分析を行なうことができる。
更に、本発明は、前記(4)工程は、赤池情報量基準を用いて基底行列のランクを決定する時系列情報の処理方法を提供する。これにより、モデル関数の評価をより正確に行なうことができる。本発明では、赤池情報量基準(AIC)は、補正を加えた赤池情報量基準(AICc)であってもよい。
そして、本発明は、前記信号強度の時系列情報は、分光学分析によって得られる信号強度の時系列情報を解析することができる。
また、本発明では、信号強度の時系列情報の取得するステップと、前記時系列情報から特徴量を抽出するステップと、前記特徴量を、非負行列因子分解(NMF)を用いて、非負値である基底行列と写影行列からなる構成成分に分解するステップと、前記構成成分の基底行列のランクを評価するステップと、を少なくともコンピュータに実行させる信号強度の時系列情報の解析プログラムを提供する。なお、本発明に係るプログラムは、プログラムを記録したコンピュータに読み取り可能な記録媒体に格納することができる。記録媒体については特に限定されず、例えば、CD−ROM、フレキシルブルディスク等が挙げられる。
そして、本発明は、信号強度の時系列情報の取得する情報取得手段と、前記時系列情報から特徴量を抽出する特徴量抽出手段と、前記特徴量を、非負行列分解を行なって、非負値である基底行列と写影行列からなる構成成分に分離する特徴量分解手段と、前記構成成分の基底行列のランクを評価するランク評価手段と、を少なくとも備えた信号強度の時系列情報の解析装置を提供する。
本発明によれば、事前知識の調査や解析結果の統計的処理等の作業工程等を軽減でき、一定の定量性が確保された、信号強度の時系列情報の解析を行なうことができる。
以下、添付図面に基づいて、本発明に係る解析方法の好適な実施形態について説明する。なお、添付図面に示された各実施形態は、本発明に係わる代表的な実施形態の一例を示したものであり、これにより本発明の範囲が狭く解釈されることはない。
図1は、本発明に係る時系列情報の解析方法を説明するフロー図である。図2は、本発明において時系列情報から特徴抽出して入力行列を作成する手法を説明する概念図である。図3は、本発明において非負行列に分解する手法を説明する概念図である。図4は、本発明においてランク決定する手順を説明する概念図である。
本発明において、想定される各種信号強度の時系列情報について、従来行なわれている処理操作を統計的パターン認識の観点から読み替えると、解析対象である信号強度の時系列情報は非負値をとる入力行列といえる。そして、解析対象が含有する状態(あるいは成分)とは、非負値をとる基底行列といえる。解析対象が含有する状態(あるいは成分)の存在比は、非負値をとる写影行列といえる。解析対象が含有する状態数(成分数)は前記基底行列の要素である基底ベクトルの数(以下、「ランク」ともいう。)といえる。
なお、後述するように、本発明において解析可能な信号強度の情報種は多種多様にわたるが、ここでは説明の便宜上、信号強度の一例として、蛍光相関分光法(Fluorescence Correlation Spectroscopy;以下、「FCS」という。)を用いた生細胞内における緑色蛍光蛋白質(Enhanced Green Fluorescence Protein;以下、「EGFP」という。)のスペクトルデータを例にあげながら説明する。
以下、図1に示すフロー図に沿って説明する。
まず、本発明では信号強度の時系列情報を取得する工程を行なう(図1の符号S1参照)。
時系列情報は、例えば、下記式(1)に示す行列形式で表現することができる。式(1)に示す行列Vは、行が1つの観測対象を意味し、列が観測項目を意味するように行列式の各成分を表現できる。行列Vはn行m列の行列式であるが、n個の観測対象についてm項目の観測項目を表示することができる。即ち、サンプルn個について経時観測をm回行った結果を表現すること等ができる。そして、この行列Vを入力行列として解析に用いることができる。
なお、信号強度の時系列情報である行列Vにおいて求めたい成分は、各行に含有される未知あるいは既知の成分である(即ち、各入力ベクトル(vn,1・・・vn,m)に含有される既知あるいは未知の成分)。
次に、本発明では、取得した情報の特徴量を抽出する工程を行なう(図1の符号S2、図2参照)。
図1の符号S1の工程において取得した信号強度の時系列情報に対して数学的処理を施すことで、特徴抽出を行なうことができる。
この「特徴抽出」は、取得した元信号に対してフーリエ変換によるパワースペクトルの抽出や自己相間係数のように積和をとるといった数学的処理を施す手法等が用いられている。このような数学的手法を施すことで特定の情報抽出を容易に行なえるように元信号を変換することができる。
図2では、信号強度の一例としてFCSを用いたEGFPのスペクトルデータについて示している。
蛍光物質等で標識された対象分子が励起光ビーム領域に飛び込む(即ち、励起光が対象分子に照射される)ことで、蛍光物質が励起して蛍光を発する。そして、この蛍光を光検出器で検出することで分光学的情報を得るものであるが、検出信号は励起光ビーム領域に飛び込んだときから発光を始め、励起光ビーム領域から出て行くまで発光し続ける。
そして、対象分子が次から次へと励起光ビーム領域に飛び込んでは出て行くので、検出信号(蛍光強度)は不規則な波の形を描くことになる。また、大きい分子であればあるほど、長くゆっくりとした波形の信号となる。その結果、不規則な分子運動等を反映するため、蛍光信号の強度は揺らいで観測されることになる。従って、FCSの場合では、このような揺らいだ時系列情報から特徴抽出する必要がある。
これらを踏まえて、図2は、信号強度として得られた蛍光揺らぎの時系列データを、自己相関スペクトルに信号処理する概念を示している。なお、FCSでは自己相関関数は一般に下記の式(2)であらわされる。
<I>は測定時間内における平均蛍光強度を示している。時間tにおける蛍光強度I(t)の値にそのτ時間後の蛍光強度I(t+τ)を掛け合わせ、幅広いtについてその積和を求めるものである。次に、異なるτの値を選び、同様の処理を繰り返すというものである。そして、その蛍光強度の積和の平均を求めるものである。即ち、式(2)は、測定時間内における平均蛍光強度の二乗で規格化しているものである。
もちろん、本発明では、信号強度の種類や信号の測定条件等に応じて、好適なモデル関数や自己相関関数等を選択することができる。
そして、本発明では、抽出した特徴量について数学的処理を行う。より具体的には、非負値をとる基底行列と写影行列の形成を行なう工程(図1の符号S3−1、図3参照)と、分布を表現するモデル関数を用いた基底ベクトルの補正を行なう工程(図1の符号S3−2参照)である。
本発明における解析対象は非負値で構成されていることから、多成分解析方法として非負の制約条件を有する非負行列因子分解法(NMF)を使用することができ、NMFによって基底行列と写影行列を得ることができる(図1の符号S3−1、図3参照)。
NMFを用いることで、得られる時系列情報を圧縮したり、インポータンスサンプリングするために、多次元行列で表現される時系列情報をより要素数の少ない低次元の行列の積に分解することができる。NMFについての詳細は、“Lee, D.D., et al. Nature, 401, 788-791(1999)”や、“Lee, D.D., et al. Adv. Neural Info. Proc. Syst., 13, 556-562(2001)”等を参照されたい。
NMFによって、行列Vは以下の式(3)に示すように示される。この式(3)は、行列Vを2つの行列の積に分解した式である。以降の行列Vは、前述した行列V(例えば、段落0025,0026,0027等参照)とは異なるものである。即ち、前述した行列Vでは元信号が行列Vであり、以降では特徴量が行列Vとなっており行および列の意味が逆転している。
行列Vはn行m列の入力行列であり、行列Wはn行r列の基底行列であり、行列Hはr行m列の写影行列を示している。このように、行列Vを行列Wと行列Hに分解し、行列Wと行列Hの要素を非負としておく。この後は所定ルールに従って前記行列Wと前記行列Hを反復的に更新(アップデート)する処理を行えばよいため、簡便な手順で処理することができる。
本発明においては、非負行列分解を行なって、基底行列と写影行列とからなる構成成分に分解する手法(例えば、図1の符号S3−1等参照)については、NMFに限定するものではない。即ち、本発明では、非負値行列分解の手法については特に限定されず、解析対象となる時系列情報の性質等を考慮して、適宜、好適な非負値行列分解手法を選択することができる。
NMF以外の分解手法としては、例えば、LNMF(Localized non-negative matrix factorization;S, Z, Li., et al. CVPR’01 207-212 等参照。)、FNMF(Fisher non-negative matrix factorization;Y, Wang,. et, al. ACCV’04 27-30等参照)、NTF(Non-negative tensor factorization;T, Hazan,. et, al. ICCV’05 01 50-37等参照)、dlb(Discriminant Localized Binary Projections;Yan,. et, al. CVPR’06 168-174等参照)等を用いることができる。
これらの手法は、非負値に分離する成分の明確な性質の違い、成分の存在に関する明確な有無(数学的には直交基底、写影の二値化等)を考慮して開発・使用されているものである。従って、生命現象の解析等を行なう場合には、NMFを用いることでより精度の高い解析を行なうことができる。
また、NMF以外の非負行列分解手法については、数学的処理の上でクラス間分散最大化とクラス内分散最小化等のような制約条件を導入することによって直交基底としている。また、ランクの値(最大値)を解析に使用しているサンプル数などに依存して自動的に決定している。
この直交基底という制約条件を加えると、人体の顔面識別を例に挙げれば、例えば、顔の画像から「目」、「鼻」、「口」等といったパーツに分類する際には有意な結果を得ることが多い。一方で、前述しているFCS等の如き生命現象を解析する際には不適切なものとなる可能性がある。例えば、神経電位において特徴的な周波数成分の分離を行なう場合には、0.5kHz,0.6kHz、及び1.5kHzを異なる3成分として分離すべきであるが、0.5〜1.0kHzの数値領域おける電位変化の違いが微小である場合には、0.5〜1.0kHzの成分と、1.5kHzの成分とに分離してしまう、という可能性もある。
また、NMFには直交基底という制約条件と、それに伴うランク最大値の決定という概念は導入されていないので、例えば、前述ような生命現象のような曖昧で微妙な情報(つまりは、微妙な差異をもって構成された解析対象に関する成分分離)には好適である。
そして、直交基底をとる多成分解析手法では、ランクを自動的に決定される値として基底や写影を導出し、出力結果から有意な基底と写影を選択するといった利用を行なうことも想定できるので、例えば、出力結果のなかで全てが解析対象を構成する有意な情報とは限らない。
NMFのように直交基底の制約条件を持たない多成分解析手法では、ランクを任意に決定し、基底及び写影を導出することが可能となる。従って、出力結果の全てが解析対象の構成に反映させることができる。もちろん、本発明ではNMFのみで物理現象を分離できる保証がないことも考慮しているため、基底導出の際にモデル関数を採用し、ランクの決定における種々の主観的な判断を排除すべく、後述するAIC等のモデル選択基準を導入している。
本発明においては、必要に応じ、評価関数を用いることができる。評価関数とは数学上のモデル関数であり、例えば、数学表現上の多次元空間における対象A(NMFを例とするならば入力行列V)と対象B(NMFを例とするならば、写影および基底行列の積WH)の距離を表現するものであり、対象Bの対象Aに対する近似の精度を表現することができる。
前述のNMFの場合を例に挙げれば、評価関数としてカルバック擬距離(Kullback-Leibler divergence)から導出された下記の式(4)を用いることができる。この評価関数は、測定する信号強度の種類や測定条件等を考慮して、適宜、好適な関数を選択することができる。Vijは、入力ベクトルVにおけるi番目の値であり、(WH)ijは出力ベクトル(WH)におけるi番目の値である。
そして、前記行列Wと前記行列Hを反復的に更新(アップデート)する処理として、以下に示す式(5)〜(7)を更新式として用いることができる。なお、Wiaは基底ベクトルWにおけるi番目の値、Haμは写影ベクトルHμにおけるa番目の値を示す。
また、本発明では、分布を表現するモデル関数を用いた基底ベクトルの補正を行なう工程(図1の符号S3−2、図3参照)を行なう。
NMFを用いた行列分解では、出力される基底行列が物理現象を反映するものである保証はなされていない(例えば、“Lee, D.D., et al. Adv. Neural Info. Proc. Syst., 13, 556-562(2001)” 参照)。従って、この点を考慮し、各基底ベクトルが任意の分布に従うように補正を行なうことば望ましい。分布を表現するモデル関数を用いた基底ベクトルの補正を行なう。
補正の処理は信号情報の種類等を考慮して、好適な補正処理方法を選択できる。例えば、蛍光分析等のように分子のエネルギー放射等に関連するものであれば、熱平衡状態にある分子集団のエネルギー分布はボルツマン分布に従うので、これを踏まえ、基底ベクトルの解を収束させる際に、ボルツマン分布の確率密度関数への収束を最小二乗法によりフィッティングさせることができる。ボルツマン分布の確率密度関数は以下の式(8)で表現することができる。Aは規格化定数、τは時系列情報、τは時定数である。
ここで、NMFを用いた基底ベクトルと写影ベクトルの更新を中断して基底行列を取得する。この基底行列の要素である基底ベクトルを入力ベクトルとし、最小二乗法を用いて確率密度関数(式(8))の近似解を取得することができる。
このようにして得られた近似解を用いて基底ベクトルを更新することができる。そして、再度NMFを実行する処理を繰り返す(図3参照)。
本発明では、NMFを用いた基底ベクトルと写影ベクトルの更新回数は、特に限定されず、解析対象の情報の性質等を考慮して決定することができる。例えば、NMFにおける評価関数の上限値をあらかじめ決定しておき(例えば、1×10−12、図3参照)、この上限値以下となるまで更新を繰り返すように設定してもよい。あるいは、更新回数をあらかじめ決定しておき(例えば、n回、図3参照)、この更新回数だけ更新を繰り返すように設定しても良い。
そして、処理された基底ベクトルのランクを評価する工程を行なう(図1の符号S4、図4参照)。
NMFのみを用いた行列の分解ではランク(即ち、基底ベクトルの数)は一意に決定されないので、モデル選択手法の一つである情報量基準を用いてランクの決定を行なうことができる。
本発明では、入力ベクトルと出力ベクトルに対し、赤池情報量基準(AIC:Akaike information criterion:以下、「AIC」という。)を用いることができる。AICは、モデル関数の複雑さと時系列情報(データ)との適合度のバランスをとるために用いるものである。また、サンプル数が少ない場合には、サンプル数が少ない場合に対応する補正項を乗じた赤池情報量基準(corrected Akaike information criterion:以下、「AICc」という。)を用いることができる。
本発明において測定した信号強度の時系列情報を統計学的に解析するモデル関数を作成する場合、パラメータの数やサンプル数等を増やせば増やすほど、そのモデル関数と実測した時系列情報との適合度を高めることができる。しかし、その一方で、ノイズピーク等の例外値やその他の不要な要因による偶発的な影響もあるため、このような変動にも無理に適合(フィッティング)させようとしてしまい、同種のデータには適合しなくなるという問題がある(過適合問題)。
この問題に対してはモデル化のパラメータ数を抑える必要があるが、実際に信号強度を測定する際にどの数に抑えるかは難しい問題であり、容易には判断できない。かかる観点からAIC等を用いることで一つの解を与えることができる。具体的には、AICの数値が最小となるモデルを選択すれば良いモデル関数を得ることができる。しかし、AICにはいくつかのバージョンがあるため、サンプル数が少ない場合の補正を加えたAICcを用いることもできる。
例えば、AICcは以下の式(9)で表現される。
式(9)において、lは対数尤度を示す。そして、比較対象となるベクトルの分布は、正規分布に従うと考えられる。従って、正規分布の確率密度関数からAICcは以下の式(10)で表現することができる。なお、Vはi番目の入力ベクトル、WHはi番目の出力ベクトルおよびσは入出力ベクトルの分散を示している。
かかる観点から、このAICcの値が最小となるようにランク値を評価する。AICcの詳細については、例えば、“Hurvich, C. M. and Tsai, C.L. Biometrika, 76(3), 297-307(1989)”等を参照されたい。
本発明では、使用する情報量基準について、好適にはAICやAICcを用いることができるが、本発明では、AICやAICcに限定するものではなく、信号強度の種類等に応じて、適宜好適な情報量基準を採用することができる。例えば、モデル選択基準として、MDL、BIC、CIC、EIC、GIC、PIC、TIC等を用いることができる。
本発明では、このように非負値をとる基底行列と写影行列に変換した(図1の符号S3−1等参照)後に、基底ベクトルの数(ランク)をモデル選択手法で決定するものである。
最後に、得られた解析結果を出力する(図1の符号S5参照)。
本発明では、信号強度の時系列情報を統計的パターン認識の観点から読みかえ、信号強度の時系列情報は非負値をとる入力行列として扱っている。そして、解析対象が含有する状態成分や、非負値をとる基底行列や、解析対象が含有する状態や成分の存在比は、非負値をとる写影行列であり、また解析対象が含有する状態数や成分数は基底行列の要素である基底ベクトルの数(即ち、ランク)として扱っている。
そして、特徴ベクトルの集合を入力行列とし、多成分解析方法を用いて、非負値をとる基底行列及び写影行列を取得する。これにより得られた基底行列の要素である基底ベクトルは、特徴ベクトルに含有される成分を示し、基底ベクトルのランクは含有される成分数を示すものといえる。
また、写影ベクトルは、各基底ベクトルの「重み」であり、各写影ベクトルの内積を全写影ベクトルの内積の和で除したものは含有される成分の存在比を示す。一般に基底ベクトルのランクは入力行列の行列数等によって一意に決定されてしまうので、モデル選択の手法を導入し、特徴ベクトルと基底ベクトルと写影ベクトルによって再構成された出力ベクトルを評価することによって、ランクの値を決定することができる。
本発明では、以上の手法を導入することにより、測定対象に対する事前知識を必要とせずに解析することできる。例えば、前記したFCSでの時系列情報の分析においては、測定に使用するEGFPの分子量、放射される蛍光の動力学的特性、EGFPの生細胞内における拡散状態をモデル化した運動方程式等の事前知識を必要とせず、任意の測定領域におけるEGFPの拡散状態の情報を取得できる。
本発明は、入力行列が非負値をとる1次元の特徴ベクトルからなる信号強度の時系列情報であればよく、幅広く適用することができる。即ち、本発明で解析対象となり得る信号強度は、時刻の変化とともに値が変化する時系列情報であり、蛍光分析等の分光学的解析や、神経電位測定や筋電位測定等のように電子運動に基づくエネルギー変化の解析や、音声信号の振動といった気体運動の解析等に限定されず、幅広い情報種の解析に用いることができる。
例えば、前記したFCSでは、観測溶液中(例えば、生細胞内、粘性流体等)での任意の測定領域における蛍光性物質の蛍光強度の時間軸上における推移を測定する。
ここで、蛍光強度の時間軸上における推移を測定するとは、放射される光子数が受光した光学素子の電位(あるいは、電流や電圧といった電子の運動に基づくエネルギー値)の変化量に比例することを利用し、情報をA/Dコンバータを介してデジタル変換を行い、これらの時系列変化量を取得することと同義である。
例えば、神経電位や筋電位といった測定対象の電位変化をデジタル変換したり、音声信号の振動といった気体の運動をデジタル変換したりすることで、信号強度の時系列情報を取得する技術等は、物理変換量をデジタル変換し1次元ベクトルとして取得する点で同義といえる。従って、このような信号強度も本発明の解析対象として扱うことができる。
そして、本発明では、信号強度の時系列情報の取得するステップと、前記時系列情報から特徴量を抽出するステップと、前記特徴量を、非負行列因子分解(NMF)を用いて、基底行列と写影行列とからなる構成成分に分解するステップと、前記構成成分の基底行列のランクを評価するステップと、を少なくともコンピュータに実行させる信号強度の時系列情報の解析プログラムとすることもできる。
前記解析プログラムは、コンピュータに読み取り可能な記録媒体に格納することもできる。そして、記録媒体の種類については特に限定されず、例えば、CD−ROM、フレキシブルディスク等が挙げられる。更には、前記プログラムをサーバーに格納して、ネットワーク上で実施させることもできる。
また、本発明では、信号強度の時系列情報の取得する情報取得手段と、前記時系列情報から特徴量を抽出する特徴量抽出手段と、前記特徴量を、非負行列因子分解(NMF)を用いて、基底行列と写影行列とからなる構成成分に分解する特徴量分解手段と、前記構成成分の基底行列のランクを評価するランク評価手段と、を少なくとも備えた信号強度の時系列情報の解析装置とすることもできる。
本発明に係る解析方法、解析プログラム、並びに解析装置によれば、統計的パターン認識の手法を用いて、解析対象に対する事前知識を必要としない解析を行なうことができる。即ち、従来手法では必要であった事前知識の調査や解析結果の統計的処理といった作業工程等を圧縮できるとともに、ある一定の定量性が確保された解析作業を行うことができる。
その結果、解析において解析者の主観を排除することを可能とし、定量性を確保できる。また、各測定情報を集合として扱うこと等により、各測定事象の解析と一般化を同時に実施することもできる。
従って、例えば、医学や生物学の研究者等で、物理学や統計学の専門的知識を具備していない者であっても、本発明の適応範囲内であれば、最低限の定量性が確保された解析作業を簡便に行うことができる。
本発明に係る解析方法の効果を検証するために、信号強度の時系列情報として蛍光相関分光法を用いて多成分スペクトルデータを解析する場合について試験した。
信号強度の時系列情報に対して数学処理を施し、特徴抽出を行なったサンプルデータを取得するものとして、FCS(蛍光相関分光法)を用いた。このFCSにより、生細胞内におけるEGFPの蛍光強度の経時変化を測定した。
本実施例で用いたFCSの詳細については、“Ehernberg, M., et al. Chem. Phys., 4, 390-401(1974)”や、“Elson, E., et al. Biopolymers, 13, 1-27(1974)”や、“Koppel, D. E. Physical Rev. A, 10, 1938-1945(1974)”等を参照されたい。
<蛍光強度の測定について>
癌細胞(ヒト肝癌細胞株であるHep3B)における(遺伝子工学の手法を用いて強制的に恒常発現させた)EGFPの蛍光強度の時間軸上における推移を測定した。観測対象試料は、細胞への外来刺激がないもの(インターロイキン−6(IL−6)あり)と、細胞への外来刺激があるもの(インターロイキン−6(IL−6)なし)とについてそれぞれ測定した。そして、各試料中の細胞の任意の位置における蛍光強度の経時変化を測定した。
<解析方法について>
ここで、本実施例では、本発明にかかる解析方法によって解析を行った。詳しくは、測定したスペクトルデータから特徴量(特徴ベクトル)である自己相関を取得し、この特徴ベクトル6サンプル分を用いて入力行列(170×6)を作成した(図2参照)。そして、NMFによって基底行列と写影行列を得た(図3参照)。そして、前記した式(1)〜(10)等を用いて解析を行なった。
なお、本実施例のモデル関数の詳細については、例えば、“Ehernberg, M., et al.Chem. Phys., 4, 390-401(1974)”、や“Elson, E., et al. Biopolymers, 13, 1-27(1974)”を参照されたい。
また、各基底ベクトルが任意の分布に従うように補正を行う際には、熱平衡状態にある分子集団のエネルギー分布はボルツマン分布に従うことを考慮し、基底ベクトルの解を収束させる際にボルツマン分布の確率密度関数(式(8)参照)を採用し、解の収束は最小二乗法を用いてフィッティングさせた。
そして、ランク決定は、AICc(式(9)、式(10)参照)を用いて行った。その結果、細胞への外来刺激がない場合におけるサンプル群ではランクの値が「2」となった。細胞への外来刺激がある場合におけるサンプル群ではランクの値が「1」となった。
図5に本実施例の出力結果を示す。図5は、自己相関関数の値から1を減じた、スペクトルの変化の見られない領域の値で規格化した結果を示しており、入力ベクトル、出力ベクトル、写影を乗じた基底ベクトルについて示している。
<評価について>
本発明に係る解析方法により得られた実施例と、過去の報告(K, Watanabe., et al. BBRC, 324, 1264-1273(2004)等参照)等で行われた従来の解析方法によって6サンプルを測定した結果と比較した。
従来の解析方法であれば、FCSを用いて各サンプルにおいて自己相関を取得する。この取得した自己相関において1サンプルごとに下記の式(11)で定義したモデル関数とのフィッティングを行い、近似解を導出する。
式(11)において、G(τ)はある拡散時間τにおける自己相関のモデル関数を示し、Nは測定体積内に存在する平均分子数、Fは成分iにおける成分の存在割合、τは成分iにおける拡散時間の時定数およびsは測定体積に関する定数である。近似解を導出する際はN,Fおよびτは可変パラメータであり、成分数iおよびsは文献情報当の事前知識から定数として導入する固定パラメータとして扱う。
以上の解析方法を6サンプルにおいて実施し、成分iの存在割合Fおよび拡散時間τを取得した。このときの成分数iは事前知識より2としている。このような解析を踏まえた過去の報告(K, Watanabe., et al. BBRC, 324, 1264-1273(2004)等参照)によれば、一般的なEGFPの拡散時間は「210<τEGFP<364」程度の値であることが導出されている。
実施例の結果を表1に、比較例の結果を表2に示す。
<考察>
本実施例において取得したいパラメータは、Diffusion Time(表1におけるW1,W2)と、Particles(表1におけるParticles1,2)である。
また、表2ではDiffusion timeが各成分の拡散時間、Particlesが各成分の存在割合を示しているが、サンプル3のDiffusion Time2では、物理的な解釈が困難な非常に大きい値となった。また、サンプル4のDiffusion Time1では、物理的な解釈が困難な非常に小さい値となった。
取得したいパラメータについて、表2に示す従来手法(K, Watanabe., et al. BBRC, 324, 1264-1273(2004)等参照)による解析結果と比較したところ、表2で認められるような物理的な解釈が困難な非常に大きな値や小さな値である異常値は、表1では認められなかった(表1、表2参照)。
即ち、EGFPの分子量、放射される蛍光の動力学的特性、EGFPの生細胞内における拡散状態をモデル化した運動方程式等といった事前知識を必要とせず、任意の測定領域におけるEGFPの拡散状態の情報を取得できた。
以上より、本実施例によれば、従来手法では必要であった事前知識の調査や解析結果の統計的処理といった作業工程等を圧縮できるとともに、ある一定の定量性が確保された解析作業を行うことができることが示された。
本発明に係る信号強度の時系列情報の解析方法、解析プログラム、並びに解析装置は、理学、医学、生物学、工学等の如き研究分野に限らず、時系列情報を解析する幅広い分野において利用できる。
本発明に係る時系列情報の解析方法を説明するフロー図である。 本発明において時系列情報から特徴抽出する手法を説明する概念図である。 本発明において非負行列に分解する手法を説明する概念図である。 本発明においてランク決定する手順を説明する概念図である。 自己相関関数の値から1を減じたスペクトルの変化の見られない領域の値で規格化した結果を示す図である。

Claims (7)

  1. 少なくとも以下の(1)〜(4)の工程を行なう信号強度の時系列情報の解析方法。
    (1)信号強度の時系列情報を取得する工程、
    (2)前記時系列情報から特徴量を抽出する工程、
    (3)前記特徴量を、非負行列分解を行なって、基底行列と写影行列とからなる構成成分に分解する工程、
    (4)前記構成成分の基底行列のランクを評価する工程。
  2. 前記(3)工程の後に、分布を表現するモデル関数を用いて、前記基底ベクトルを補正する工程を行なうことを特徴とする請求項1に記載の信号強度の時系列情報の解析方法。
  3. 前記(3)工程は、非負行列因子分解(NMF)により基底行列と写影行列とからなる構成成分に分解することを特徴とする請求項1又は2に記載の信号強度の時系列情報の解析方法。
  4. 前記(4)工程は、赤池情報量基準を用いて基底行列のランクを決定することを特徴とする請求項1〜3のいずれか一項に記載の信号強度の時系列情報の解析方法。
  5. 前記信号強度の時系列情報は、分光学分析によって得られる信号強度の時系列情報であることを特徴とする請求項1〜4のいずれか一項に記載された時系列情報の解析方法。
  6. 信号強度の時系列情報の取得するステップと
    前記時系列情報から特徴量を抽出するステップと、
    前記特徴量を、非負行列分解を行なって、基底行列と写影行列とからなる構成成分に分解するステップと、
    前記構成成分の基底行列のランクを評価するステップと、
    を少なくともコンピュータに実行させる信号強度の時系列情報の解析プログラム。
  7. 信号強度の時系列情報の取得する情報取得手段と
    前記時系列情報から特徴量を抽出する特徴量抽出手段と、
    前記特徴量を、非負行列分解を行なって、基底行列と写影行列とからなる構成成分に分解する特徴量分解手段と、
    前記構成成分の基底行列のランクを評価するランク評価手段と、
    を少なくとも備えた信号強度の時系列情報の解析装置。
JP2007050363A 2007-02-28 2007-02-28 信号強度の時系列情報の解析方法、解析プログラム、並びに解析装置 Expired - Fee Related JP4873483B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007050363A JP4873483B2 (ja) 2007-02-28 2007-02-28 信号強度の時系列情報の解析方法、解析プログラム、並びに解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007050363A JP4873483B2 (ja) 2007-02-28 2007-02-28 信号強度の時系列情報の解析方法、解析プログラム、並びに解析装置

Publications (2)

Publication Number Publication Date
JP2008215881A JP2008215881A (ja) 2008-09-18
JP4873483B2 true JP4873483B2 (ja) 2012-02-08

Family

ID=39836103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007050363A Expired - Fee Related JP4873483B2 (ja) 2007-02-28 2007-02-28 信号強度の時系列情報の解析方法、解析プログラム、並びに解析装置

Country Status (1)

Country Link
JP (1) JP4873483B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5068228B2 (ja) * 2008-08-04 2012-11-07 日本電信電話株式会社 非負値行列分解の数値計算方法、非負値行列分解の数値計算装置、プログラムおよび記憶媒体
JP5580585B2 (ja) * 2009-12-25 2014-08-27 日本電信電話株式会社 信号分析装置、信号分析方法及び信号分析プログラム
FR2968921B1 (fr) * 2010-12-15 2013-01-11 Commissariat Energie Atomique Procede de localisation d'un marqueur optique dans un milieu diffusant
JP7013965B2 (ja) * 2018-03-15 2022-02-01 沖電気工業株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JP2008215881A (ja) 2008-09-18

Similar Documents

Publication Publication Date Title
Aguilan et al. Guide for protein fold change and p-value calculation for non-experts in proteomics
Bertinetto et al. Automatic baseline recognition for the correction of large sets of spectra using continuous wavelet transform and iterative fitting
Erdoğan et al. COVID-19 detection with traditional and deep features on cough acoustic signals
Cozzolino The sample, the spectra and the maths—the critical pillars in the development of robust and sound applications of vibrational spectroscopy
WO2015037003A1 (en) Method and electronic nose for comparing odors
WO2020105566A1 (ja) 情報処理装置、情報処理装置の制御方法、プログラム、算出装置、及び算出方法
CN109564199A (zh) 分析数据处理方法和分析数据处理装置
Vega-Márquez et al. Deep learning techniques to improve the performance of olive oil classification
JP4873483B2 (ja) 信号強度の時系列情報の解析方法、解析プログラム、並びに解析装置
Chen et al. An adaptive and fully automated baseline correction method for Raman spectroscopy based on morphological operations and mollification
Maisog et al. Assessing methods for evaluating the number of components in non-negative matrix factorization
Alhassan et al. Energy-efficient EEG-based scheme for autism spectrum disorder detection using wearable sensors
Scarciglia et al. A multiscale partition-based Kolmogorov–Sinai entropy for the complexity assessment of heartbeat dynamics
JP6280910B2 (ja) 分光システムの性能を測定するための方法
Schulze et al. Fully Automated Decomposition of Raman Spectra into Individual Pearson's Type VII Distributions Applied to Biological and Biomedical Samples
US20210311001A1 (en) Information processing apparatus, control method of information processing apparatus, and computer-readable storage medium therefor
US20220011224A1 (en) Disease diagnosis using spectroscopy and machine learning
Tyagi et al. XGBoost odor prediction model: finding the structure-odor relationship of odorant molecules using the extreme gradient boosting algorithm
Akkalkotkar et al. An algorithm for separation of mixed sparse and Gaussian sources
Chovancova et al. Quantitative metabolomics analysis of depression based on PLS-DA model
CN115398552A (zh) 遗传算法用于基于拉曼光谱识别样品特征的用途
CN114631029A (zh) 信息处理装置和信息处理装置的控制方法
JP2008150360A (ja) 安全性評価方法、安全性評価システム及び安全性評価プログラム
Zouaneb et al. Converging image processing and data mining for Raman spectroscopy analysis
Goto et al. Multi-scale Sequential Pattern Discovery and Alignment for Long-Duration Waveform Similarity Quantification and Interpretation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111116

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees