(第1の実施形態)
第1の実施形態に係るデータ処理装置1について、図1及び図2を参照して説明する。
図1は、本実施形態に係るデータ処理装置1を含む試料データ取得システムの構成を示すブロック図である。
本実施形態に係る試料データ取得システムは、データ処理装置1と、制御部2と、計測部3と、画像表示部4と、外部記憶部5とを有する。ここで、データ処理装置1と、制御部2と、計測部3と、画像表示部4と、外部記憶部5とは、部分的に又は全体的にネットワークを介して接続されていても良い。なお、ネットワークはLAN(Local Area Network)及びインターネットを含む。
計測部3は、制御部2によって制御され、不図示の試料からスペクトルを計測し、複数のスペクトルを含むデータを生成する部分である。なお、本明細書において「スペクトル」とは、例えば試料に対して刺激を与えた際に生じる応答について、その応答強度を計測パラメータ(各種刺激)に対して格納したデータをいう。刺激の一例としては、電磁波や音、電磁場、温度、湿度を含む。スペクトルとしては、例えば紫外又は可視又は赤外域の分光スペクトル、ラマン分光スペクトル、NMRスペクトル、質量スペクトル、液体クロマトグラム、ガスクロマトグラム、音の周波数スペクトル等が挙げられる。ラマン分光スペクトルとしては、自発ラマン散乱分光スペクトル、非線形ラマン散乱分光スペクトルを含む。非線形ラマン散乱分光としては、誘導ラマン散乱(Stimulated Raman Scattering:SRS)、コヒーレントアンチストークスラマン散乱(Coherent Anti−stokes Raman Scattering:CARS)、コヒーレントストークスラマン散乱(Coherent Stokes Raman Scattering:CSRS)を含む。なお、本実施形態においてスペクトルは、紫外又は可視又は赤外域の分光スペクトル、又はラマン分光スペクトル、又は質量スペクトルのいずれか1つを含むことが好ましい。
画像表示部4は、後述する独立成分スコアや主成分スコアの空間強度分布データ等の画像データを取得して画像として表示する部分である。
外部記憶部5は、後述する独立成分スコアや主成分スコアの空間強度分布データ等の画像データ等を記憶する部分である。記憶された画像データは、必要に応じて読み出し、画像表示部4に画像として表示することができる。また、他の装置で計測し生成された複数のスペクトルを含むデータを外部記憶部5にあらかじめ記憶しておき、必要に応じで読み出してデータ処理装置1に送り、データ処理装置1でデータの処理を行っても良い。
データ処理装置1は、グループ設定部11と、抽出データ生成部12と、分析部13と、内部記憶部14とを有する。
グループ設定部11は、計測部3または外部記憶部5から取得した複数のスペクトルを含むデータに対して、スペクトルの有する情報の類似性に基づいて少なくとも2つ以上のグループを設定する部分である。すなわち、グループ設定部11は計測部3または外部記憶部5から取得したデータに含まれる複数のスペクトルを複数のグループに分ける部分である。以下、グループ設定部11が行うグループの設定を「データグルーピング」と称する。
抽出データ生成部12は、グループ設定部11が設定したグループごとに、各グループに含まれるスペクトルからスペクトルを少なくとも1つずつ選び出し、選び出されたスペクトルからなる抽出データを生成する部分である。抽出データ生成部12は、これにより、データに比べてデータ点数の削減された抽出データを生成することができる。
分析部13は、計測部3または外部記憶部5から取得したデータを分析し、各スペクトルを成分に帰属することによって各成分の空間分布を示す画像データを生成する部分である。分析部13は、基底ベクトル取得部131と、画像データ取得部132と、を有する。
基底ベクトル取得部131は、計測部3または外部記憶部5から取得した各スペクトルを成分に帰属するための基底ベクトルを取得する部分である。基底ベクトル取得部131は、抽出データに対して第2の多変量解析を行うことで、抽出データの第1の基底ベクトルを取得する。
ここで、「多変量解析」とは、複数の変数に関するデータをもとにして、これらの変数間の相互関連を分析する統計的な技法である。すなわち本実施形態では、例えば波数などの各スペクトル成分間の相互関連を分析することでそれぞれのスペクトルを分類し、成分に帰属することができる。なお、本明細書において「基底ベクトル」とは、各スペクトルがどの成分に帰属されるかの判断基準である。基底ベクトルを各スペクトルに対して作用することで次元圧縮を行い、各成分に対応する基底ベクトルに対するスコアを得ることができる。なお、ここで言う「成分」は、単一の物質からなる成分であっても良いし、複数の物質の混合物からなる成分であっても良い。すなわち成分は、スペクトルを計測した試料中の特定の分子であっても良いし、スペクトルを計測した試料中の、複数の分子から構成される組織や成分であっても良い。
本実施形態における多変量解析の種類は特に限定されず、主成分分析や独立成分分析、因子分析、判別分析、クラスター分析、自己組織化マップなどの種々の方法を用いることができる。
主成分分析とは、多次元データを射影することで分散を最大化する軸(固有ベクトル)を求めることで、データの解析を行う手法である。この固有ベクトルを用いることで、多次元データに含まれる成分を分類することができる。すなわち、主成分分析を行うことで、多次元データに含まれる主要な成分(主成分)に分類することができる。
また、独立成分分析とは、多次元データに作用させることで非ガウス性を最大化するような行列(分離行列)を求めることで、データの解析を行う手法である。この分離行列を用いることで、多次元データに含まれる成分を多次元データが統計的に独立な成分(独立成分)からなると仮定したときの各成分に分類することができる。
ここで、主成分分析と独立成分分析は、どちらも多次元データの次元を圧縮し、データに含まれる成分を分類することができるという点で共通する。しかし、主成分分析と独立成分分析は以下の点で異なる。
主成分分析では、多次元空間における分散量に基づいて固有ベクトルを逐次的に設定していく。そのために、データに含まれる成分の分類を行った後に得られるデータでは、元のデータが保有していたスペクトル情報が失われてしまう。したがって、主成分分析から得られる基底ベクトルである固有ベクトルは、元のスペクトル情報と対応づけることが困難である。ゆえに、この基底ベクトルから算出されるスコア値の二次元分布の画像が示す成分を、スペクトル情報に対応させて同定することが困難となる。したがって、主成分分析を用いて成分分析を行って各成分の同定を行う場合は、データに含まれる成分が既知のデータに対する主成分分析を実施して得られる基底ベクトルを事前に取得しておく必要がある。
独立成分分析では、後述するように、独立成分分析によってデータに含まれる成分を分類した後のデータから、元のデータが保有していたスペクトル情報を取得することができる。ここで、元のデータが保有していたスペクトル情報は、独立成分スペクトルとして再構築して取得することができる。このため、データに含まれる成分が既知のデータを事前に分析することなく、得られる基底ベクトルを実際のスペクトル情報と比較することが可能である。すなわち、独立成分分析を用いることで、主成分分析を用いた場合よりも未知のサンプルの成分分析が容易になるという利点がある。
一方で、独立成分分析では多次元データに対応する行列の収束計算が必要であるため、主成分分析と比較して単位データ量あたりの計算量が多く、計算処理に時間を要する。したがって多次元データをそのまま独立成分分析によって分析するのではなく、主成分分析を行うことで次元を圧縮した多次元データに対して独立成分分析を行うことで計算コストを抑制する方法が知られている。
画像データ生成部132は、基底ベクトル取得部131によって取得した第1の基底ベクトルを用いて各スペクトルを成分に帰属することで、各成分の空間分布を示す画像データを取得する部分である。これにより、画像として表示することのできない複数のスペクトルを含む多次元データを二次元または三次元データに次元圧縮し、画像表示部4に画像として表示することができる画像データを取得することができる。
画像データ取得部132は、基底ベクトル取得部131によって取得した第1の基底ベクトルと、計測部3または外部記憶部5から取得したデータに含まれるスペクトルと、を用いて第2のスコア値を取得する。第2の多変量解析の種類は特に限定はされないが、PCAまたはICAを含むことが好ましい。なお、第2の多変量解析がPCAである場合は、第1の基底ベクトルとして固有ベクトルが得られ、第2のスコア値として主成分スコアが得られる。また、第2の多変量解析がICAである場合は、第1の基底ベクトルとして分離ベクトルが得られ、第2のスコア値として独立成分スコアが得られる。画像データ取得部132は、このようにして取得した第2のスコア値の空間分布データを生成することで、各第1の基底ベクトルに対応した各成分の空間分布を示す画像データを生成することができる。
内部記憶部14は、データグループ設定部11、データ抽出部12、および、分析部13で生成された各種データを記憶する部分である。
次に、本実施形態に係るデータ処理装置1を含む試料データ取得システムの動作方法について図2を用いて説明する。
データ処理装置1が、計測部3または外部記憶部5から複数のスペクトルを含むデータを取得する(S201)。取得したデータは必要に応じて内部記憶部14に記憶される。ここで、スペクトルの次元数をn、計測点数をmとすると、取得されたデータはn×m行列として表すことができる。
なお、次元数nは特に限定はされない。すなわち、次元数nは、例えば計測部3が計測することが可能なスペクトルの次元数の最大値であってもよいし、その次元数のうち一部の次元数を任意に選択したものでもよい。
グループ設定部11が、取得したデータに対して第1の多変量解析としてPCAを行う(S202)。データセットに対してPCAを行う際にはまず、このデータのn×m行列からn×nの分散共分散行列を求める。例えば、取得されたデータと取得されたデータの転置行列との積算を行うことで、n×n行列を取得してもよい。また、得られたn×n行列を計測点数mで規格化を行ってもよい。このn×n行列の固有値問題を解くことにより、データの固有ベクトルと固有値を取得する。
なお、PCAを行う前に、データに対して前処理をすることでPCAの計算処理を高速化または高効率化することができる。前処理の一例として、それぞれのスペクトルごとにスペクトル強度の平均値を取得し、取得した平均値をスペクトル中の各スペクトル強度から減算する処理がある。あるいは、それぞれのスペクトルごとに、スペクトル強度の最大値が特定の数値(例えば100など)となるように規格化処理を行っても良い。
n×n行列からは計算上、n個の固有ベクトルが得られるが、この中から任意の数の固有ベクトルを選択してもよい。固有ベクトルの選択の方法として、それぞれの固有ベクトルに対応する固有値に基づいた方法が挙げられる。例えば、各固有ベクトルに対応する固有値の総和に対する各固有値の割合である寄与率を求め、寄与率が任意の値以上となる固有値に対応する固有ベクトルのみを選択する方法がある。
n個の固有ベクトルからk個の固有ベクトルを選択する場合、例えば
L=(I0)
で表されるk×nの行列Lを用いて行列演算を行うことで固有ベクトルを選択してもよい。ここで、Iは単位行列、0は零行列である。
次に、グループ設定部11は、取得した第2の基底ベクトルとしての固有ベクトル(n次元)と、それぞれのスペクトル(n次元)との内積計算を行うことで、それぞれのスペクトルの固有ベクトル(第2の基底ベクトル)に対する第1のスコア値である主成分スコアを取得する(S203)。
続いてグループ設定部11が、取得した主成分スコアに基づいてデータに対してデータグルーピングを行う(S204)。データグルーピングは、各主成分スコアが任意の数値条件を満たすか否かを判断し、満たす場合にはその主成分スコアに対応するスペクトルの計測点の座標を抽出して1つのグループとして記憶することで行う。あるいは、該スペクトルそのものを抽出してグループを生成し、記憶しても良い。
数値条件としては、任意の数以上としても良いし、任意の数以下としても良い。また、任意の数値範囲を数値条件としても良い。例えば、固有ベクトルがk個選択され、数値条件を0以上とした場合には、固有ベクトルごとにグループが2個ずつ生成されるため、合計2k個のグループが生成されることになる。本実施形態では、この2k個のグループから、任意の数のグループを選択する。
グループの選択の一例として、各グループの空間分布を画像表示部4で画像表示し、特徴的な画像を表現することのできるグループを選択する方法がある。好ましくは、生成された各グループに含まれる計測点の比較を行い、各グループを用いて集合演算することで得られる集合を、新たなグループとして設定し、選択すると良い。
本実施形態では、グループ設定部11が、取得したデータに対して第1の多変量解析としてPCAを行い、その結果に基づいてデータグルーピングを行った(S202及びS203)。しかし第1の多変量解析はPCAに限定されるものではなく、第1の多変量解析としてその他の多変量解析を行って、その結果に基づいてデータグルーピングを行っても良い。具体的には、第1の多変量解析はICA、因子分析、判別分析、クラスター分析等を含んでも良い。
なお、第1の多変量解析は、第2の多変量解析よりも単位データ量あたりの計算量が少ない多変量解析であることが好ましい。後述するように、本実施形態では第1の多変量解析の結果に基づいて設定したグループごとにスペクトルを抽出することによって少数成分を取りこぼすことなく、第2の多変量解析を行うデータのデータサイズを削減することに特徴がある。すなわち、第2の多変量解析を行う前に、第2の多変量解析よりも簡素な解析手法である第1の多変量解析によって大まかにデータグルーピングを行うことで、第2の多変量解析に要する時間を削減することができる。
なお、グループ設定部11において第1の多変量解析を行わずに、データグルーピングを行ってもよい。すなわち、過去のデータ処理の過程で得られた第1の多変量解析の結果を内部記憶部14または外部記憶部5から取得し、その結果に基づいてデータグルーピングを行うことができる。例えば、過去のデータ処理の過程で得られた固有ベクトルを内部記憶部14または外部記憶部5にデータベースとして蓄積しておき、データベースから取得した同種のデータの固有ベクトルを用いて第1のスコア値を取得しても良い。
抽出データ生成部12は、各グループに含まれる計測点またはスペクトルを任意の割合で抽出する(S205)。計測点の抽出、すなわちスペクトルの抽出は、それぞれのグループごとに計測点をランダムに抽出することによって行うことが好ましい。抽出によって生成される抽出データのデータサイズは元のデータのデータサイズよりも削減されるため、次のステップ以降で行う計算量を削減し、高速にデータ処理を行うことが可能となる。
スペクトルの抽出は、それぞれのグループに含まれるスペクトルの点数が少なくとも1つずつ以上になるように抽出する。好ましくは、それぞれのグループに含まれるスペクトル点数が等しくなるように抽出すると良い。これにより、それぞれのグループの間における、各グループに含まれるスペクトル点数の全スペクトル点数に対する割合の大小による計算結果への影響を抑制することができる。
データグルーピングを行わずにランダムにスペクトルの抽出を行う場合、抽出するスペクトル点数を減少させるにつれてグループに含まれるスペクトル点数の全スペクトル点数に対する割合の小さなグループ、すなわち少数成分のとりこぼしが発生しやすくなる。しかし、データグルーピングを行った上でそれぞれのグループから少なくとも一つずつスペクトルを抽出することで、少数成分の取りこぼしを抑制することができる。スペクトルの抽出によって少数成分の取りこぼしが発生した場合、最終的に得られる画像データから少数成分が消えてしまうため、データ処理は高速化できても、得られる画像データの質は低下してしまう。一方、本実施形態では少数成分を取りこぼすことなく処理するデータサイズを削減できるので、最終的に得られる画像データの質を落とすことなく、データ処理を高速化することができる。
抽出データ生成部12は、それぞれのグループから抽出された計測点に対応するスペクトルを1つの行列にまとめ、抽出データを生成する(S206)。それぞれのグループから抽出された計測点の合計点数をhとすると、生成される抽出データはn×h行列となる。ここで、
h<m
であることから、抽出データのデータサイズは元のデータ(n×m行列)のデータサイズよりも小さくなるため、次のステップ以降で行う処理を高速化することができる。
基底ベクトル取得部131は、抽出データに対して第2の多変量解析を行う。具体的にはまず、抽出データのn×h行列に対してPCAを行い、固有ベクトル及び固有値を取得する(S207)。なお、S202において固有ベクトルの個数をkとしたことに基づいて、固有ベクトルの個数がkであるという前提条件のもとで計算を行うことで、計算を簡略化しても良い。
次に基底ベクトル取得部131は、得られたk個、n次元の固有ベクトルをk×n行列にまとめ、このk×n行列に対してICAを行う(S208)。
ICAは、多次元の信号を統計的に独立な複数の成分に分離するための計算手法である。本実施形態におけるICAでは、PCAで得られたk個、n次元の固有ベクトルから成るk×n行列をYとすると、Yに対し、
S=WY
となる分離行列Wを導出する。ここで、Sは信号源行列であり、信号源行列Sはk個、n次元の信号源ベクトルがまとめられたk×n行列である。基底ベクトル取得部131は、信号源行列Sの各信号源ベクトルの統計的独立性が最大となるように、分離行列Wを変えながら収束計算を行う。分離行列Wはk個、k次の行ベクトルである分離ベクトルがまとめられたk×k行列である。このようにして得られた分離行列Wを用いることで、複数の信号が重畳した多次元データから信号源行列Sを取得し、個々の信号を推定又は復元することができる。
ICAを行う前に、PCAで得られた各固有ベクトルを白色化(Whitening)し、白色化されたk個、n次元の固有ベクトルから成るk×n行列に対してICAを行うことでICAの計算処理を行っても良い。白色化は、PCAで得られた各固有ベクトルに対して固有値の平方根の逆数を乗算することで行う。
次に基底ベクトル取得部131は、ICAによって取得した分離行列Wを用い、分離行列Wの転置行列と、行列Lと、白色化された固有ベクトルから成るk×n行列との乗算から信号源行列Sを算出する。この信号源行列Sに含まれる信号源ベクトルは、PCAで得られた固有ベクトルを、ICAによって取得した分離ベクトルを用いて、各固有ベクトルの統計的独立性が最大となるように再構築したものとみなすことができる。ここで、信号源ベクトルを構成するn個の数値は、各独立成分のn個のスコア値に対応する。また、白色化された固有ベクトルの逆行列と、Lの転置行列と、分離行列Wの転置行列とを用いて独立成分スペクトルを得ることができる。このように基底ベクトル取得部131は、第1の基底ベクトルである分離ベクトルと、第2のスコア値である独立成分スコアと、独立成分スペクトルと、を取得する(S208、S209)。
画像データ取得部132は、各計測点における独立成分スコアを生成し、各計測点の位置情報に基づき独立成分スコアの空間分布を示す画像データである独立成分スコアプロットを生成する(S210)。独立成分スコアプロットは、計測部3または外部記憶部5から取得したデータが、XY平面上の各点に対応してスペクトルがそれぞれ格納されたデータであれば、二次元的な強度分布データとなる。同様に、計測部3または外部記憶部5から取得したデータが、XYZ空間内の各点に対応してスペクトルがそれぞれ格納されたデータであれば、三次元的な強度分布データとなる。
画像データ取得部132により生成された独立成分スコアプロットは、必要に応じて画像表示部4において画像表示される(S211)。または外部記憶部5に記憶される(S212)。
独立成分スコアプロットは分離行列W中の分離ベクトルごとに取得される。画像データ取得部132は、取得されたk個の独立成分スコアプロットのうち任意の数の独立成分スコアプロットについて、それぞれの独立成分スコアプロットに任意の色の情報を付与し、それらを重ね合わせて新たな独立成分スコアプロットとしても良い。これにより、画像表示部4において試料中の各成分を色分けした疑似カラー画像を表示することができる。
または、画像表示部4で画像を表示せずに、独立成分スコアプロットまたは独立成分スコアをもとに、各成分の比率を取得しても良い。このとき、例えば癌などの特定の組織に特有の成分の比率が所定の値を越えた場合に、画像表示部4においてアラートを表示するなどしてユーザに知らせる構成としても良い。あるいは、それぞれの独立成分スコアプロットをデータ処理装置1で画像処理することによって、例えば所定の成分が所定の形状の分布を有することが判明した場合に、画像表示部4においてアラートを表示するなどしてユーザに知らせる構成としても良い。また、独立成分スコアまたはスコアプロットの表示とは別に、独立成分スペクトルを画像表示部4に表示しても良い。このことにより、各独立成分スコアプロットとそれに対応する独立成分スペクトルを相互に比較することができ、結果の解釈を容易にすることができる。
本実施形態では、複数のスペクトルを含むデータに対して第1の多変量解析を行い、その結果に基づいてデータに対して複数のグループを設定し、それぞれのグループからスペクトル抽出する。これにより、グループを設定せずに全てのスペクトルの中からランダムにスペクトルを抽出した場合と比較して、少数成分をとりこぼすことなくデータ量を削減することができる。このようにデータ量を削減した抽出データに対して第2の多変量解析を行うことで、計算結果の質を落とすことなく、計算量及び計算時間を減少させることができる。
(第2の実施形態)
第2の実施形態として、試料からの複数のスペクトルを含むデータの取得を少なくとも2回行う構成例について、図1および図3から図5を用いて説明する。
第2の実施形態の装置構成は第1の実施形態の装置構成と同様である。
図3は、本実施形態に係る試料データ取得システムの動作方法を説明するフローチャートである。本実施形態では、複数のスペクトルを含むデータの取得を2回行う。1回目のデータの取得(以下「プレスキャン」と称する)で取得したデータは、多変量解析によって基底ベクトルを取得するため用いる。2回目のデータの取得(以下「本スキャン」と称する)で取得したデータは、プレスキャンで取得したデータから取得した基底ベクトルを用いてスコア値を取得するために用いる。
プレスキャンでは、本スキャンの計測点数よりも少ない計測点数でデータセットの取得を行う。すなわち、あらかじめ計測点を間引いて取得したデータに対して多変量解析を行うことで、データグルーピングに要する時間や基底ベクトルの取得に要する時間を短縮することが可能となる。また、プレスキャンによって取得したデータからあらかじめ基底ベクトルを取得しておき、本スキャンを行いながら逐次的にスコア値を取得することで、本スキャンを行いながら逐次的に画像を表示することが可能となる。
プレスキャンを行う際には、プレスキャンにおいて計測部3によってスペクトルの計測を行う第1の領域を、制御部2が決定する(S301)。計測部3が、設定した第1の領域からスペクトルを計測し、得られたスペクトル(「第1のスペクトル」に対応する)を含む第1のデータを取得する。
設定した領域内の各計測点にからスペクトルを計測し、複数のスペクトルを含むデータを取得する方法の一例として、領域が二次元領域である場合について図1および図4を用いて説明する。
設定した領域内の各計測点について計測を行う方法として、設定した領域を複数の部分的な小領域に分割し、それぞれの小領域を逐次的に計測する方法がある。あるいは、一次元的な形状のプローブを用いて、そのプローブをプローブの入射方向に垂直な方向に走査することで計測を行っても良い。
計測部3によって計測スペクトルを計測される試料6としては、試料6を基板7上に固定化したものや、試料6を2枚の基板で挟んだもの等を用いる。図4(a)には、基板7上に固定化された試料6を示す。
設定した領域を複数の部分的な小領域に分割し、それぞれの小領域を逐次的に計測する方法について、一例として図4(b)を用いて説明する。設定した領域6が小領域Aから小領域Oまでの複数の部分的な小領域に分割されており、これらを逐次的に計測する。分割された部分的な小領域の大きさや形状は任意であるが、好ましくは計測部3の1つの視野に対応していると良い。また、分割された部分的な小領域同士は領域が一部重複していても良い。
例えば計測部3がレーザー走査型の計測装置である場合、まずは第1の小領域(例えば小領域A)において二次元的にレーザー走査を行って計測を行う。第1の小領域での計測が完了したら、試料6を固定化した基板7を載置した不図示の試料ステージを不図示の駆動源によって移動させて第2の小領域(例えば小領域B)に視野を移動させる。続いて計測部3は第2の小領域において二次元的にレーザー走査を行って計測を行う。これを繰り返し、全ての小領域について逐次的に計測を行うことで設定した領域内の各計測点に対してスペクトルを計測し、複数のスペクトルを含むデータを取得する。
このとき、1つの小領域に対して複数の波長のレーザー光を用いて複数回計測を行っても良い。その際は、任意の波長のレーザー光で小領域全体の計測を行った後に、別の任意の波長のレーザー光でもう一度同じ小領域全体の計測を行う。あるいは、小領域中の任意の計測点について複数の波長のレーザー光を用いて複数回計測した後の別の任意の計測点について同様に計測を行う、ということを繰り返しても良い。すなわち、それぞれの小領域の計測ごとに異なるパラメータにおける計測を行い、得られた計測データを合わせて複数のスペクトルを含むデータとしても良いし、小領域中のそれぞれの計測点ごとにパラメータを変えながらスペクトルを取得しても良い。
それぞれの小領域の計測ごとに異なるパラメータにおける計測を行う方法は、試料6が静的であり、形態の時間変化を伴わない試料である場合に有用である。一方、小領域中のそれぞれの計測点ごとにパラメータを変えながらスペクトルを取得する方法は、試料6が動的であり、形態の時間変化を伴う試料である場合に有用である。
次に、一次元的な形状のプローブを用いて、そのプローブをプローブの長軸方向に垂直な方向に走査することで計測を行う方法について図4(c)を用いて説明する。
図4(c)では、プローブ8を方向9に走査することで設定した領域内の各計測点について計測を行っている。例えば計測部3がレーザー走査型の計測装置である場合、一次元方向にレーザーを高速で走査したものも、一次元的な形状のプローブ8とみなすことができる。このプローブ8に対して試料6を固定化した基板7を載置した不図示の試料ステージを不図示の駆動源によって移動させることで、設定した領域内の各計測点について計測を行う。この方法には、前述した複数の部分的な小領域に分割する方法に比べて、計測部3の装置構成を簡略化することができる利点がある。
第1の領域は、計測部3が計測可能な全領域のうちの少なくとも一部の領域である。第1の領域は、試料6が存在する領域全体であっても良いが、その領域に存在する全ての計測点のうち、任意の数だけ計測点が選択された領域が第1の領域である。第1の領域は、好ましくは試料6が存在する全領域を少なくとも含む範囲で設定すると良い。これにより、試料6に含まれる成分や組成にムラがある場合でも、各成分のスペクトルを万遍なく含むデータを取得することができ、その後の処理で取得される分離行列Wによる成分の分離の精度を向上させることができる。
以下、設定した領域内の各計測点についての計測は、設定した領域を複数の部分的な小領域に分割し、それぞれの小領域を逐次的に計測する方法によって行うものとして、第1の領域の設定方法について述べる。この場合、1つの部分的な小領域に対して計測点の選択パターンを設定し、そのパターンをそれぞれの部分的な小領域に適用することで第1の領域を設定することができる。図5に、部分的な小領域に対する計測点の選択パターンの例を示す。図5の(a)から(h)の各例において、ハッチングを施した四角で示した計測点を選択する。
計測点の選択パターンとしては、計測点が一次元方向に並ぶパターン(図5(a)から(d))と、計測点が一次元方向に並ぶパターンを複数組み合わせたパターン(図5(e)及び(f))が挙げられる。また、計測点の選択パターンは、計測点がランダムに分布するパターン(図5(g))や、計測点が視野の中心を中心とする同心円状に分布するパターン(図5(h))としても良い。
計測点の選択パターンとして計測点が一次元方向に並ぶパターンを採用した場合は、制御部2及び計測部3の構成を単純にすることができる。
計測点の選択パターンとして計測点が二次元方向に並ぶパターンを採用した場合は、制御部2及び計測部3の構成が複雑になるが、試料に含まれる特定の成分が一次元方向に分布している場合についても成分を計測することができる。
計測点の選択パターンとして計測点がランダムに分布するパターンを採用した場合は、前述のパターンを採用した場合よりも効率的に計測点数を減らすことができる。
計測点の選択パターンとして計測点が視野の中心を中心とする同心円状に分布するパターンを採用した場合は、計測部3の計測方法由来の信号強度低下を補うことができる。一例として、計測部3としてレーザー走査型の計測装置を用いた場合、用いる対物レンズの種類によっては、中心視野と周辺視野とでレーザーの照射量が異なり、周辺視野で計測される信号強度が低下することがある。信号強度が低下すると、プレスキャンで取得されるデータに含まれるスペクトルのばらつきが大きくなるため、図5(h)のように、中心視野のデータを取得するように計測点を設定することが好ましい。
次に、データ処理装置1が、第1のデータを取得する(S302)。データ処理装置1は、第1の実施形態と同様に、第1のデータに対してデータグルーピングを行った後に、それぞれのグループから少なくとも一つずつスペクトルを選び出し、選び出されたスペクトルからなる抽出データを生成する。そして、データ処理装置1は抽出データに対してPCAおよびICAを行うことで固有ベクトル、固有値、および、分離行列Wを取得する。データ処理装置1は、取得した固有ベクトル、固有値、および、分離行列Wを内部記憶装置14に記憶する(S303からS309)。
本スキャンを行う際には、本スキャンにおいて計測部3によってスペクトルの計測を行う第2の領域を、制御部2が決定する(S310)。計測部3が、設定した第2の領域からスペクトルを計測し、得られたスペクトル(「第2のスペクトル」に対応する)を含む第2のデータを取得する。
第2の領域は、計測部3が計測可能な全領域のうちの少なくとも一部の領域であり、第1の領域よりも計測点数が多い領域である。第2の領域は、試料6が存在する領域全体であっても良いが、第1の領域よりも計測点数が多ければ、その領域に存在する全ての計測点のうち、任意の数だけ計測点が選択された領域としても良い。
第2の領域は、第1の領域を設定した範囲の中に含まれる範囲内に設定することが好ましいが、第1の領域を設定した範囲の外の範囲を含んだ範囲内で設定しても良い。また、第1の領域を設定した範囲と第2の領域を設定する範囲とが重複しておらず、離れた領域であっても良い。
また、第1の領域を設定した後で第2の領域を設定するのではなく、第2の領域を設定した後で、その第2の領域を設定した範囲に基づいて第1の領域を設定しても良い。具体的には、ユーザが第2の領域を設定した後に、その第2の領域を設定した範囲を少なくとも包含する範囲において第1の領域を設定するようにしても良い。これにより、試料6の存在する範囲の中で観察したい範囲があらかじめ分かっている場合に、スペクトルの計測からデータの処理までをより高速に行うことができる。
データ処理装置1が、第2のデータを取得する(S311)。データ処理装置1は第2のデータに含まれる第2のスペクトルと内部記憶装置14から読みだした固有ベクトル、固有値、および、分離行列Wとを用いて第3のスコア値である独立成分スコアを取得する(S312)。
分析部13は、第1の実施形態と同様に、プレスキャンにおいて得た固有ベクトル、固有値、および分離行列Wと、本スキャンにおいて得た各計測点のスペクトルとを用いて、各計測点における独立成分スコアを取得する。また、画像データ生成部132は、得られた独立成分スコアと各計測点の位置情報とに基づき独立成分スコアプロットを生成する(S313)。画像データ生成部132により生成された独立成分スコアプロットは、第1の実施形態と同様に、必要に応じて画像表示部4において画像表示され(S314)、又は外部記憶部5に記憶される(S315)。
ここで、第2の領域内の各計測点についての計測においては、まず、第2の領域を複数の部分的な小領域に分割する。そして、それぞれの小領域を逐次的に計測する方法によって行う。なお、データはそれぞれの小領域ごとに分割された複数の分割データとして取得される。それぞれの分割データは逐次的に取得されるため、ある小領域から分割データを取得し、計測部3が次の小領域の計測に移行した後に、既に取得している分割データを用いてS312からS315までの処理を行っても良い。これにより、小領域ごとに逐次的に画像表示を行うことができる。すなわち本実施形態によれば、プレスキャンを行ってあらかじめ基底ベクトルを取得しておき、その基底ベクトルを用いて小領域ごとに逐次的に画像データを生成することで、ユーザは全体の計測が完了する前に逐次的に情報を得ることができる。
(その他の実施形態)
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
本発明は例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。また、本発明は第1の実施形態ではデータ処理装置1と、スペクトル計測装置20と、画像表示部4と、外部記憶部5とを備える試料データ取得システムに適用した。しかし本発明は、他の複数の機器の組み合わせから構成されるシステムに適用しても良いし、一つの機器からなる装置に適用しても良い。例えば、本発明はデータ処理装置1と、画像表示部4とを備えるデータ表示システムに適用しても良い。
また、本発明を適用する複数の機器の組み合わせから構成されるシステムにおいては、それぞれの機器は部分的又は全体的に、インターネットを含むネットワークで接続されていても良い。例えば、取得したデータをネットワークに接続されたサーバに送信し、サーバ上で本発明の処理を行い、得られた結果をサーバから受信して画像表示等を行う構成としても良い。
また、本発明はソフトウェアのプログラムをシステム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによって前述した実施形態の機能が達成される場合を含む。この場合、供給されるプログラムは実施形態で図に示したフローチャートに対応したコンピュータプログラムである。従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。
つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OS(Operating System)に供給するスクリプトデータ等の形態であっても良い。
コンピュータプログラムを供給するためのコンピュータ読み取り可能な記憶媒体は、例えば、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ等でも良い。また、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などでも良い。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムをハードディスク等の記憶媒体にダウンロードすることが挙げられる。この場合、ダウンロードされるプログラムは、圧縮され自動インストール機能を含むファイルであっても良い。また、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
(実施例1)
誘導ラマン散乱(Stimulated Raman Scattering:SRS)を利用した計測装置である誘導ラマン散乱顕微鏡を用いて生体試料から取得したデータの解析例について述べる。
生体試料としては、ホルマリン固定処理を施した、腫瘍部及び非腫瘍部をそれぞれ含むマウスの膵臓組織及び肝臓組織を用いた。
ラマンスペクトルの計測は生体試料の二次元領域について行った。計測領域は縦240マイクロメートル、横480マイクロメートルであり、縦1500ピクセル、横4000ピクセルである。計測は、ラマンシフトが2800cm−1〜3100cm−1の領域を91段階に等分するように設定し、それぞれの波数においてラマン強度を計測した。
解析には、それぞれの組織の二次元観察データを1つのデータにまとめたものを使用した。計測の際には計測領域全体を複数の部分的な小領域(タイル)に分割して計測し、それぞれのタイルをつなぎ合わせることで全計測領域からのデータを取得した。このとき、それぞれのタイルの領域は一部重複しており、重複した領域についてはその領域内のスペクトルを削除した上で、それぞれのタイルのデータをつなぎ合わせた。得られたデータの次元数は91次元、計測点数は5,720,000点であった。
はじめに、データに対してデータグルーピングを実施した。まず、データに対してPCAを行うことで固有ベクトル及び固有値を取得した。その結果、固有値の寄与率が1%以上である固有ベクトルは3つであったため、この3つの固有ベクトルを選択した。
それぞれの固有ベクトルについて、固有ベクトルと、データに含まれるスペクトルと、の内積計算を行い、主成分スコアを取得した。図6に固有ベクトルと、主成分スコアの二次元プロットを示す。図6(a)及び(b)に示す固有ベクトルの横軸はラマンシフトに対応する。図6(c)から(e)に示す主成分スコアの二次元画像は、主成分スコアの二次元強度分布をプロットすることにより生成した。
次に、図6(c)から(e)の各主成分スコアの二次元画像と、同種の組織を含む生体試料を染色して光学顕微鏡で観察して取得した画像とを比較することで、各主成分スコアが表す成分の同定を行った。その結果、図6(c)から、第二の固有ベクトル(図6(a))を利用して取得した主成分スコアが0未満のデータグループ(以下「(PC2−)」と称する)では、血球を主に特徴量として抽出、画像化できることがわかった。また、図6(d)から、第三の固有ベクトル(図6(b))を利用し、スコア値が0未満のデータグループ(以下「(PC3−)」と称する)では細胞質及び脂肪滴を特徴量として抽出、画像化できることがわかった。さらに、図6(e)から、第三の固有ベクトル(図6(c))を利用し、スコア値が0以上のデータグループ(以下「(PC3+)」と称する)では細胞核及び線維及び血球を特徴量として抽出、画像化できることがわかった。
次に各々のデータグループ間の比較を行い、複数のデータグループに共通して観察される特徴量を検討したところ、血球が二つのデータグループに分類されていることが分かった。具体的には、血球は(PC2−)と(PC3+)に分類されていることがわかった。
異なるデータグループ間における成分の重複を解消し、その後のデータ抽出において各成分の計測点数を揃えるために、データグループ同士の減算を行い、新たなデータグループを生成した。以上の結果をもとに、データに対してデータグループを設定した。具体的には、(PC2−)を「グループ1」、(PC3−)を「グループ2」、(PC3+)から(PC2−)を減算したデータグループを「グループ3」として、データに対してデータグループを設定した。グループ1は血球を、グループ2は細胞質及び脂肪滴を、グループ3は細胞核及び線維を、それぞれ表現することができる。
次にグループ1、グループ2、及び、グループ3のそれぞれについて、グループに含まれるスペクトルから任意の数のスペクトルを抽出した。データ抽出は、それぞれのデータグループから抽出されるスペクトルの点数が等しくなるように設定して行った。具体的には、それぞれのデータグループから抽出されるスペクトル点数が1000点、3500点、10000点、20000点、40000点となるように抽出し、抽出データを生成した。なお、データの抽出はそれぞれのデータグループごとに、ランダムに実施した。抽出により削減されたスペクトル点数の全スペクトル点数に対する割合であるデータ削減率は、それぞれ99.95%、99.72%、99.5%、99.0%、97.9%であり、データのサイズを大きく削減した。
次に、抽出データに対してPCA及びICAを実施した。
まず、PCAで得られた固有ベクトルについて述べる。データグルーピングによる効果を検証するために、本実施例で得られた固有ベクトルと、データグループを設定せずに全計測点からランダムにデータを抽出して生成される抽出データセットに対してPCAを行って得られた固有ベクトルとを比較した。具体的には、データグループを設定したデータについてデータ抽出からPCAによる固有ベクトルの取得までの試行を5回行い、試行毎の固有ベクトルのばらつきを検討した。ばらつきの評価は式1を用いて行い、各試行で得られた固有ベクトルについて、全試行の固有ベクトルの平均からの差異を評価した。ここで、iは試行回数、jはデータの次元数であり、Xaveは特定のjにおける5回の試行の平均値である。
図7に、固有ベクトルのばらつきとデータ削減率との相関を示す。データグルーピングを行った場合と行わなかった場合の両方について、各データ削減率における固有ベクトルのばらつきαを算出した。データグルーピングの有無にかかわらず、データサイズを削減すればするほど固有ベクトルのばらつきが大きくなる傾向が認められた。また、データグルーピングを行わなかった場合と比較して、データグルーピングを行った場合には、固有ベクトルのばらつきが大幅に抑制されることが分かった。この結果から、データグルーピングを行い、データグループごとに各データグループに応じたデータ量をそれぞれ削減してスペクトルの抽出を行うことで、抽出データから取得される固有ベクトルの再現性を高めることができることが分かった。すなわち、データグルーピングとデータグループごとのデータ抽出によって、抽出データの固有ベクトルの再現性を保ったまま、データサイズを効率的に削減することができることが分かった。
次に、ICAで得られる独立成分スペクトルについて述べる。PCAで得られた固有ベクトルと同様に、データグルーピングを行った場合と行わなかった場合とで、独立成分スペクトルの算出を5回行い、試行毎の独立成分スペクトルのばらつきを比較検討した。
図8に、データ削減率が99.0%及び99.95%の場合の独立成分スペクトル及び標準偏差を示す。図8(a)及び(b)はグルーピング無し、データ削減率99.0%の場合の独立成分スペクトル及び標準偏差を、図8(c)及び(d)はグルーピング無し、データ削減率99.95%の場合の独立成分スペクトルと標準偏差を示す。図8(e)及び(f)はグルーピング有り、データ削減率99.0%の場合の独立成分スペクトルと標準偏差を、図8(g)及び(h)はグルーピング有り、データ削減率99.95%の場合の独立成分スペクトルと標準偏差を示す。
図8の各図において、いずれも横軸はラマンシフトの波数であり、本実施例ではデータの次元数(91次元)に対応する。また、標準偏差の大小から、5回の試行ごとの独立成分スペクトルのばらつきの大小を評価することができる。
データ削減率が99.0%の場合は、データグルーピングを行った場合と行わなかった場合の両方において、5回の試行における独立成分スペクトルのばらつきが抑制された。データ削減率が99.95%の場合は、データグルーピングを行わなかった場合には結果が大きくばらつき(図8(d))、データ再現性も悪いことが認められた(図8(c))。一方、データグルーピングを行った場合は独立成分スペクトルの再現性も高く(図8(g)(h))、後述するように各独立成分スペクトルと対応する独立成分スコアプロットにおいても非常に高い再現性を有していることが分かった。
また、データグルーピングの有無で、得られる独立成分スペクトルが異なることがわかった。これはデータグルーピングを行った場合には、少数分布成分に由来するスペクトルと多数分布成分に由来するスペクトルとでスペクトル点数とが等しくなっているため、多変量解析で少数分布成分を主な成分(主成分)として抽出できていることを示している。データグルーピングを行わない場合には、データセットに含まれる全スペクトルの中からランダムにスペクトルの抽出を行う。そのため、少数分布成分に由来するスペクトルが選択される確率が低下し、データ抽出後の抽出データ中の少数分布成分に由来するスペクトルの点数が減少し、主な成分(主成分)として抽出することができなくなることが示唆される。後述するように、データグルーピングを行った場合は、独立成分スコアプロットにおいて高い成分分離能力を有していることが分かった。
次に、独立成分スコアを取得し、独立成分スコアプロットを二次元画像化した。図9に独立成分スコアの二次元強度分布画像を示す。図9(a)、(b)、(c)はデータグルーピング有り、データ削減率99.95%の場合に取得された各独立成分スコアプロットを示す。また、図9(d)、(e)、(f)はデータグルーピング無し、データ削減率99.0%の場合に取得された各独立成分スコアプロットを示す。
図9中の矢印で示した部分には少数成分である血球成分が存在している。データグルーピングを行った場合には図9(a)にのみ血球成分が画像化されており、血球成分が1つの成分として明瞭に分離できていることがわかった。しかし、データグルーピングを行わなかった場合には図9(d)及び(e)の2つに血球成分が画像化されており、少数成分の分離が不十分であることがわかった。
また、データグルーピングを行った場合にはデータ削減率99.95%、99.5%、99.0%、97.9%の各画像の間に大きな差異はみられなかった。このことから、データグルーピングとデータグループごとのデータ抽出によって、データ削減量の増加によるスコアプロットへの悪影響が抑制できたことが分かった。
次に、データ削減に伴う計算時間の短縮の効果を示す。図10に、PCAによって固有ベクトルを算出するのに要した時間とICAによって分離行列を算出するのに要した時間との合計(総計算時間)と、データ削減率との相関を示す。この結果から、データ量の削減に伴い、計算時間が大幅に短縮されることが分かった。具体的には、データ削減率98.96%においては195秒、99.95%では0.591秒で計算が完了した。PCAでは行列演算を実施するので、計測点数(スペクトル点数)に比例して計算量が増大する。一方、ICAでは収束計算を実施するので計測点数(スペクトル点数)に対して指数関数的に計算量が増大する。したがって、計測点数を大幅に削減することで計算時間を大幅に短縮することができたと考えられる。
以上、本実施例はラマン分光のスペクトルに関する内容を記載したが、これに限るものではなく、例えば質量スペクトルなどの他のスペクトルに対しても適用することができる。
(実施例2)
誘導ラマン散乱顕微鏡を用いて3種類のポリマービーズからなる混合物から取得したデータセットの解析例を述べる。
3種類のポリマービーズの材質は、ポリウレタン、ポリスチレン、ポリメチルメタアクリレートとした。これらの材質は、それぞれ異なるラマンスペクトルを示すことが知られている。
ラマンスペクトルの計測は、実施例1と同様、混合物(試料)の二次元領域について行った。計測領域は縦512ピクセル、横512ピクセルとした。なお、その他の計測条件は実施例1と同様である。
このようにして取得したデータに対して、PCAを行い、固有ベクトルと固有値を取得した。なお、本実施例では3種類ポリマービーズの混合物を試料として使用していることから成分数は3であるので、固有ベクトルの数は3と設定した。取得した各固有ベクトルについて、実施例1と同様に、固有ベクトルに対する主成分スコアを計算し、主成分スコアの二次元画像を得た。このとき、主成分スコアの値を0から255の間の値になるように規格化することで、主成分スコアの二次元画像を8ビットの白黒画像とした。
その結果、主成分スコアがPC2−、PC2+、PC3−のデータグループが、各々のポリマービーズを特徴量として抽出、画像化していることが分かった。ここで、PC2−は、第2の固有ベクトルを利用して取得したスコア値が0未満のデータグループを示す。また、PC2+は、第2の固有ベクトルを利用して取得したスコア値が0以上のデータグループを示す。さらに、PC3−は、第3の固有ベクトルを利用して取得したスコア値が0未満のデータグループを示す。なお、それぞれのポリマービーズの特定には、画像中の各ビーズから取得したラマンスペクトルと、各ポリマービーズ単体のラマンスペクトルとを比較することで行った。
次に、それぞれのデータグループに対して、閾値を設定し、閾値以上の主成分スコアを有するデータを選択した。具体的には、PC2−に対しては閾値を98、PC2+に対しては閾値を129、PC3−に対しては閾値を112と設定した。これにより、PC2−のデータグループからは17651点からなる新しいデータグループAが、PC2+からは17833点からなる新しいデータグループBが、PC3−からは18750点からなる新しいデータグループCが生成された。
次に、それぞれのデータグループ(A〜C)からデータの抽出を行った。具体的には、それぞれのデータグループ(A〜C)から100点ずつ、データをランダムに抽出した。そして、このように抽出したデータを合わせて、合計300点のデータセットを生成した。ここで、得られたデータセットの元のデータ(262144点)に対するデータ削減率は、99.89%である。
本データセットに対して、以下に示すように、スペクトルデータの次元数が異なるデータセットを生成した。
(1)データセット1:9次元(すなわち、ラマンシフトが2800+33.3i(cm−1)のラマン強度のみを抽出したデータセット(i=0〜8))
(2)データセット2:18次元(すなわち、ラマンシフトが2800+16.5i(cm−1)のラマン強度のみを抽出したデータセット(i=0〜17))
(3)データセット3:30次元(すなわち、ラマンシフトが2800+9.9i(cm−1)のラマン強度のみを抽出したデータセット(i=0〜29))
(4)データセット4:91次元(すなわち、ラマンシフトが2800+3.3i(cm−1)のラマン強度のみを抽出したデータセット(i=0〜90))
ここで、データセット4が最も次元数が高く、データセット3、データセット2、データセット1の順に次元数が小さくなる。なお、本実施例においてデータセット1、データセット2、データセット3は、データセット4から特定のラマンシフトのラマン強度を抽出することで生成した。具体的には、データセット4に含まれる91の異なるラマンシフトのデータから、9の異なるラマンシフト、18の異なるラマンシフト、30の異なるラマンシフトのデータをそれぞれ抽出し、順にデータセット1、データセット2、データセット3とした。それぞれのデータセットに含まれる、ラマンシフトの一覧表を図11に示す。図11の表中の黒丸は、各データセットにおいて抽出したラマンシフトを示している。データセットの容量は次元数に比例するため、データセット1、データセット2、データセット3はそれぞれ、データセット4の容量の約90%、約80%、約67%を削減することができた。
なお、本実施例では既に取得したデータセットの次元を削減することによってデータセットのデータサイズを削減することで、後述する解析に要する時間を削減することができる。しかし、例えば特定のラマンスペクトルについてのみ計測を行うなど、計測する際に次元を削減したデータセットを取得するようにすれば、解析に要する時間のみならず、計測に要する時間も削減することができる。
次に、上記の各データセットに対してPCAおよびICAを実施し、独立成分スペクトルおよび独立成分スコアの分布画像を得た。図12に、各データセットから得られた独立成分スペクトルを示す。図12(a)、(b)、(c)、(d)はそれぞれ、データセット1、データセット2、データセット3、データセット4から得られた独立成分スペクトルを示している。データセット4から得られた独立成分スペクトルが、もっともスペクトル情報を詳細に示していることがわかる。一方、データセットの次元数が削減されるほど、元のデータセットが保有していたスペクトルの詳細な情報が失われていくことが分かる。
図13に、各データセットから得られた独立成分スコアの分布画像(独立成分画像)を示す。独立成分スコアの分布画像を比較すると、各データセットから生成された独立成分スコアの分布画像はすべて、異なる3種類のポリマービーズのそれぞれの分布を示していることが分かった。各データセットから生成された独立成分スコアの分布画像を詳細に比較すると、次元数の削減量が大きくなるほど、画像の若干のノイズの増加することが認められた。しかし、それぞれのポリマービーズの分布を表示する上で、顕著な画質の劣化は認められなかった。すなわち、データセットの次元数を削減すればするほど、そのデータセットから得られる独立成分スペクトルの情報は粗くなるものの、独立成分スコアの分布画像についてはほとんど変化しないことがわかった。
なお、主成分スコアの分布画像についても同様に検討したところ、次元数を削減したデータセットから取得した主成分スコアの分布画像でも、ポリマービーズの分布を画像化できることが確認された。さらに、データセットの点数を30点まで減らした場合(全計測データ点数に対して99.99%の削減率)においても、図13と同様の独立成分スコアの分布画像、および主成分スコアの分布画像が得られることが確認できた。
以上の結果より、データセットの次元数を削減することでデータセットのデータサイズを削減しても、上述した解析によって最終的に得られる各成分の分布画像には顕著な差異を生じないことが分かった。
さらに、次元数を削減した各データセットに対して得られた第1の基底ベクトルを用いて、他の計測位置で取得されたデータセットのスコア値を算出することで、3種類のポリマービーズの分布が表示できることも確認した。このとき、他の計測位置のデータセットの次元数は、第1の基底ベクトルを取得するのに用いたデータセットの次元と同一とした。すなわち、本実施例は、同一の計測位置のデータセットに対してのみならず、異なる計測位置のデータセットに対しても適用できることがわかった。
本実施例を異なる計測位置のデータセットに対して適用する際には、プレスキャンで取得した試料の広範囲領域のデータセットから一部の波数(次元)のみを抽出し、次元を削減したうえで基底ベクトルを取得してもよい。この方法により、データセットに含まれるスペクトル情報の取捨選択が可能になり、選択したスペクトル情報についての基底ベクトルを取得することが可能となる。そして、このようにして取得した基底ベクトルを用いることで、選択したスペクトル情報ごとに複数のスコア値の強度分布情報を得ることができる。このようなスペクトル情報の取捨選択は、多種の成分が混在している試料のデータセットの解析において特に有用である。
波数を選択することによるデータセットの次元の削減は、解析に要する時間のみならず、計測に要する時間も削減することができる。これは、データセットの解析に要する時間と比較して、データセットの取得に要する時間の方が大きい場合に特に有用である。
一例として、高速ラマンスペクトルデータ取得システム(Y.Ozeki et. al.Nature Photonics vol.6,p.845−851,2012)を用いた場合に計測に要する時間と解析に要する時間のそれぞれを測定した。その結果、データの取得(計測)に要した時間は33.3×n(ミリ秒)であったのに対し、データの演算に要した時間は、1.21×n(ミリ秒)であった。なお、nは取得したデータセットに含まれるラマンスペクトルのラマンシフトの数(次元数)を表す。またこのとき、計測は縦512ピクセル、横512ピクセルの2次元領域について行い、主成分の数は3とした。すなわちこのシステムにおいて、データの取得は、データの演算よりも約33倍の時間が必要である。このように解析に要する時間よりも計測に要する時間のほうが大きい場合には、次元数を削減して計測を行うことで、計測から画像表示までに要する時間を削減し、高速に強度分布データを表示することが可能となる。