JP2019200211A

JP2019200211A - データ処理装置、データ表示システム、試料データ取得システム、及びデータ処理方法

Info

Publication number: JP2019200211A
Application number: JP2019121958A
Authority: JP
Inventors: 大塚　洋一; Yoichi Otsuka; 洋一大塚
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-12-17
Filing date: 2019-06-28
Publication date: 2019-11-21

Abstract

【課題】複数のスペクトルを含むデータを高速に処理するデータ処理装置を提供する。【解決手段】複数のスペクトルを含むデータを処理するデータ処理装置１は、グループ設定部１１と、抽出データ生成部１２と、基底ベクトル取得部１３１と、を有する。グループ設定部１１は、データに含まれる複数のスペクトルを複数のグループに分ける。抽出データ生成部１２は、グループ設定部１１が設定したグループのそれぞれから少なくとも一つずつスペクトルを選び出し、選び出したスペクトルからなる抽出データを生成する。基底ベクトル取得部１３１は、それぞれのスペクトルを成分に帰属するための基底ベクトルを、抽出データ生成部１２が生成した抽出データから取得する。【選択図】図１

Description

本発明は、複数のスペクトルを含むデータを処理する装置、及び前記データの処理方法等に関する。

生体組織には多数種の物質が含まれており、それらの組成の違いや化学的状態の違いを調べるために、生体試料の各種スペクトルを計測し、計測したスペクトルの分析が行われている。生体試料に複数の計測点を設定し、それぞれの計測点から計測されたスペクトルを分析することで、生体試料を染色することなく、生体組織の形態や組成等の空間分布情報を取得することができる。

従来、スペクトルの分析方法として、主成分分析（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：ＰＣＡ）や独立成分分析（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：ＩＣＡ）等に代表される多変量解析が採用されている。

生体試料には複数の成分や組織が混在しているため、生体試料の計測により得られるスペクトルは各成分に由来するスペクトルが重畳されることにより複雑となる。多変量解析を用いれば、このように複雑なスペクトルについても、試料中の各成分に由来するスペクトルを分離し、成分や組成についての分析が可能となる。

非特許文献１には、生体試料の複数の計測点においてラマン分光スペクトルの計測を行い、得られた複数のスペクトルを含むデータに対してＰＣＡ及びＩＣＡを実施して独立成分スコアの空間分布を取得する方法が記載されている。この方法により、生体試料における各成分の空間分布情報を取得し、各成分の空間分布画像を色分けして重ね合わせることによって、生体試料内の各成分の分布を疑似カラーで表示することができる。

一般に、ＩＣＡによって複数のスペクトルを含むデータから試料中の成分ごとのスペクトルを分離する際には、まず分離行列（基底ベクトル）を取得する。その後、取得した分離行列をデータに含まれる各スペクトルに対してそれぞれ作用させて、独立成分スコアを取得する。

分離行列は、データに分離行列を作用して得られる信号源行列について、信号源行列中の個々の信号源ベクトルの統計的独立性が最大化するように収束計算を行うことで求められる。そのため、ＩＣＡを行う対象のデータの容量、すなわちスペクトルの次元数や計測点数が増加すると、それに伴って計算数及び計算時間が指数関数的に増加する。

Ｙ．Ｏｚｅｋｉｅｔａｌ．， "Ｈｉｇｈ−ｓｐｅｅｄｍｏｌｅｃｕｌａｒｓｐｅｃｔｒａｌｉｍａｇｉｎｇｏｆｔｉｓｓｕｅｗｉｔｈｓｔｉｍｕｌａｔｅｄＲａｍａｎｓｃａｔｔｅｒｉｎｇ" ＮａｔｕｒｅＰｈｏｔｏｎｉｃｓ６，８４５−８５１（２０１２）．

上述の事情から、例えば試料の全体領域や、複数の視野での観察を連続的に実施するといった、さらに広い領域での観察を行おうとすると、データの処理に時間がかかるという課題があった。

そこで本発明は上述の課題に鑑み、複数のスペクトルを含むデータを高速に処理するデータ処理装置を提供することを目的とする。

本発明の一側面としてのデータ処理装置は、データに含まれる複数のスペクトルを、前記複数のスペクトルに対する第１の多変量解析の結果に基づいて、複数のグループに分けるグループ設定部と、前記グループ設定部によって分けられた前記複数のグループのそれぞれから少なくとも一つずつスペクトルを抽出して、複数のスペクトルが含まれる抽出データを生成する抽出データ生成部と、前記抽出データ生成部によって生成された前記抽出データに対して主成分分析及び独立成分分析を順に行う第２の多変量解析の結果に基づいて第１の基底ベクトルを取得する基底ベクトル取得部と、を有することを特徴とする。

本発明の一側面としてのデータ処理装置によれば、複数のスペクトルを含むデータの処理を高速に行うことができる。

第１の実施形態に係るデータ処理装置を含む試料データ取得システムの構成例を説明するブロック図である。第１の実施形態に係るデータ処理装置を含む試料データ取得システムの動作方法を説明するフローチャートである。第２の実施形態に係るデータ処理装置を含む試料データ取得システムの動作方法を説明するフローチャートである。第２の実施形態に係る試料の計測方法を説明する図である。第２の実施形態に係る計測点の選択パターンの例を説明する図である。実施例１に係る固有ベクトル及び主成分スコアの二次元強度分布画像である。実施例１に係る固有ベクトルのばらつきとデータ削減率との相関を説明する図である。実施例１に係る独立成分スペクトル及び標準偏差を説明する図である。実施例１に係る独立成分スコアの二次元強度分布画像である。実施例１に係るＰＣＡ及びＩＣＡに要した総計算時間とデータ削減率との相関を説明する図である。実施例２に係る波数削減がなされたデータセットを説明する図である。実施例２に係る独立成分スペクトルを説明する図である。実施例２に係る独立成分スコアの二次元強度分布画像である。

（第１の実施形態）
第１の実施形態に係るデータ処理装置１について、図１及び図２を参照して説明する。

図１は、本実施形態に係るデータ処理装置１を含む試料データ取得システムの構成を示すブロック図である。

本実施形態に係る試料データ取得システムは、データ処理装置１と、制御部２と、計測部３と、画像表示部４と、外部記憶部５とを有する。ここで、データ処理装置１と、制御部２と、計測部３と、画像表示部４と、外部記憶部５とは、部分的に又は全体的にネットワークを介して接続されていても良い。なお、ネットワークはＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）及びインターネットを含む。

計測部３は、制御部２によって制御され、不図示の試料からスペクトルを計測し、複数のスペクトルを含むデータを生成する部分である。なお、本明細書において「スペクトル」とは、例えば試料に対して刺激を与えた際に生じる応答について、その応答強度を計測パラメータ（各種刺激）に対して格納したデータをいう。刺激の一例としては、電磁波や音、電磁場、温度、湿度を含む。スペクトルとしては、例えば紫外又は可視又は赤外域の分光スペクトル、ラマン分光スペクトル、ＮＭＲスペクトル、質量スペクトル、液体クロマトグラム、ガスクロマトグラム、音の周波数スペクトル等が挙げられる。ラマン分光スペクトルとしては、自発ラマン散乱分光スペクトル、非線形ラマン散乱分光スペクトルを含む。非線形ラマン散乱分光としては、誘導ラマン散乱（ＳｔｉｍｕｌａｔｅｄＲａｍａｎＳｃａｔｔｅｒｉｎｇ：ＳＲＳ）、コヒーレントアンチストークスラマン散乱（ＣｏｈｅｒｅｎｔＡｎｔｉ−ｓｔｏｋｅｓＲａｍａｎＳｃａｔｔｅｒｉｎｇ：ＣＡＲＳ）、コヒーレントストークスラマン散乱（ＣｏｈｅｒｅｎｔＳｔｏｋｅｓＲａｍａｎＳｃａｔｔｅｒｉｎｇ：ＣＳＲＳ）を含む。なお、本実施形態においてスペクトルは、紫外又は可視又は赤外域の分光スペクトル、又はラマン分光スペクトル、又は質量スペクトルのいずれか１つを含むことが好ましい。

画像表示部４は、後述する独立成分スコアや主成分スコアの空間強度分布データ等の画像データを取得して画像として表示する部分である。

外部記憶部５は、後述する独立成分スコアや主成分スコアの空間強度分布データ等の画像データ等を記憶する部分である。記憶された画像データは、必要に応じて読み出し、画像表示部４に画像として表示することができる。また、他の装置で計測し生成された複数のスペクトルを含むデータを外部記憶部５にあらかじめ記憶しておき、必要に応じで読み出してデータ処理装置１に送り、データ処理装置１でデータの処理を行っても良い。

データ処理装置１は、グループ設定部１１と、抽出データ生成部１２と、分析部１３と、内部記憶部１４とを有する。

グループ設定部１１は、計測部３または外部記憶部５から取得した複数のスペクトルを含むデータに対して、スペクトルの有する情報の類似性に基づいて少なくとも２つ以上のグループを設定する部分である。すなわち、グループ設定部１１は計測部３または外部記憶部５から取得したデータに含まれる複数のスペクトルを複数のグループに分ける部分である。以下、グループ設定部１１が行うグループの設定を「データグルーピング」と称する。

抽出データ生成部１２は、グループ設定部１１が設定したグループごとに、各グループに含まれるスペクトルからスペクトルを少なくとも１つずつ選び出し、選び出されたスペクトルからなる抽出データを生成する部分である。抽出データ生成部１２は、これにより、データに比べてデータ点数の削減された抽出データを生成することができる。

分析部１３は、計測部３または外部記憶部５から取得したデータを分析し、各スペクトルを成分に帰属することによって各成分の空間分布を示す画像データを生成する部分である。分析部１３は、基底ベクトル取得部１３１と、画像データ取得部１３２と、を有する。

基底ベクトル取得部１３１は、計測部３または外部記憶部５から取得した各スペクトルを成分に帰属するための基底ベクトルを取得する部分である。基底ベクトル取得部１３１は、抽出データに対して第２の多変量解析を行うことで、抽出データの第１の基底ベクトルを取得する。

ここで、「多変量解析」とは、複数の変数に関するデータをもとにして、これらの変数間の相互関連を分析する統計的な技法である。すなわち本実施形態では、例えば波数などの各スペクトル成分間の相互関連を分析することでそれぞれのスペクトルを分類し、成分に帰属することができる。なお、本明細書において「基底ベクトル」とは、各スペクトルがどの成分に帰属されるかの判断基準である。基底ベクトルを各スペクトルに対して作用することで次元圧縮を行い、各成分に対応する基底ベクトルに対するスコアを得ることができる。なお、ここで言う「成分」は、単一の物質からなる成分であっても良いし、複数の物質の混合物からなる成分であっても良い。すなわち成分は、スペクトルを計測した試料中の特定の分子であっても良いし、スペクトルを計測した試料中の、複数の分子から構成される組織や成分であっても良い。

本実施形態における多変量解析の種類は特に限定されず、主成分分析や独立成分分析、因子分析、判別分析、クラスター分析、自己組織化マップなどの種々の方法を用いることができる。

主成分分析とは、多次元データを射影することで分散を最大化する軸（固有ベクトル）を求めることで、データの解析を行う手法である。この固有ベクトルを用いることで、多次元データに含まれる成分を分類することができる。すなわち、主成分分析を行うことで、多次元データに含まれる主要な成分（主成分）に分類することができる。

また、独立成分分析とは、多次元データに作用させることで非ガウス性を最大化するような行列（分離行列）を求めることで、データの解析を行う手法である。この分離行列を用いることで、多次元データに含まれる成分を多次元データが統計的に独立な成分（独立成分）からなると仮定したときの各成分に分類することができる。

ここで、主成分分析と独立成分分析は、どちらも多次元データの次元を圧縮し、データに含まれる成分を分類することができるという点で共通する。しかし、主成分分析と独立成分分析は以下の点で異なる。

主成分分析では、多次元空間における分散量に基づいて固有ベクトルを逐次的に設定していく。そのために、データに含まれる成分の分類を行った後に得られるデータでは、元のデータが保有していたスペクトル情報が失われてしまう。したがって、主成分分析から得られる基底ベクトルである固有ベクトルは、元のスペクトル情報と対応づけることが困難である。ゆえに、この基底ベクトルから算出されるスコア値の二次元分布の画像が示す成分を、スペクトル情報に対応させて同定することが困難となる。したがって、主成分分析を用いて成分分析を行って各成分の同定を行う場合は、データに含まれる成分が既知のデータに対する主成分分析を実施して得られる基底ベクトルを事前に取得しておく必要がある。

独立成分分析では、後述するように、独立成分分析によってデータに含まれる成分を分類した後のデータから、元のデータが保有していたスペクトル情報を取得することができる。ここで、元のデータが保有していたスペクトル情報は、独立成分スペクトルとして再構築して取得することができる。このため、データに含まれる成分が既知のデータを事前に分析することなく、得られる基底ベクトルを実際のスペクトル情報と比較することが可能である。すなわち、独立成分分析を用いることで、主成分分析を用いた場合よりも未知のサンプルの成分分析が容易になるという利点がある。

一方で、独立成分分析では多次元データに対応する行列の収束計算が必要であるため、主成分分析と比較して単位データ量あたりの計算量が多く、計算処理に時間を要する。したがって多次元データをそのまま独立成分分析によって分析するのではなく、主成分分析を行うことで次元を圧縮した多次元データに対して独立成分分析を行うことで計算コストを抑制する方法が知られている。

画像データ生成部１３２は、基底ベクトル取得部１３１によって取得した第１の基底ベクトルを用いて各スペクトルを成分に帰属することで、各成分の空間分布を示す画像データを取得する部分である。これにより、画像として表示することのできない複数のスペクトルを含む多次元データを二次元または三次元データに次元圧縮し、画像表示部４に画像として表示することができる画像データを取得することができる。

画像データ取得部１３２は、基底ベクトル取得部１３１によって取得した第１の基底ベクトルと、計測部３または外部記憶部５から取得したデータに含まれるスペクトルと、を用いて第２のスコア値を取得する。第２の多変量解析の種類は特に限定はされないが、ＰＣＡまたはＩＣＡを含むことが好ましい。なお、第２の多変量解析がＰＣＡである場合は、第１の基底ベクトルとして固有ベクトルが得られ、第２のスコア値として主成分スコアが得られる。また、第２の多変量解析がＩＣＡである場合は、第１の基底ベクトルとして分離ベクトルが得られ、第２のスコア値として独立成分スコアが得られる。画像データ取得部１３２は、このようにして取得した第２のスコア値の空間分布データを生成することで、各第１の基底ベクトルに対応した各成分の空間分布を示す画像データを生成することができる。

内部記憶部１４は、データグループ設定部１１、データ抽出部１２、および、分析部１３で生成された各種データを記憶する部分である。

次に、本実施形態に係るデータ処理装置１を含む試料データ取得システムの動作方法について図２を用いて説明する。

データ処理装置１が、計測部３または外部記憶部５から複数のスペクトルを含むデータを取得する（Ｓ２０１）。取得したデータは必要に応じて内部記憶部１４に記憶される。ここで、スペクトルの次元数をｎ、計測点数をｍとすると、取得されたデータはｎ×ｍ行列として表すことができる。

なお、次元数ｎは特に限定はされない。すなわち、次元数ｎは、例えば計測部３が計測することが可能なスペクトルの次元数の最大値であってもよいし、その次元数のうち一部の次元数を任意に選択したものでもよい。

グループ設定部１１が、取得したデータに対して第１の多変量解析としてＰＣＡを行う（Ｓ２０２）。データセットに対してＰＣＡを行う際にはまず、このデータのｎ×ｍ行列からｎ×ｎの分散共分散行列を求める。例えば、取得されたデータと取得されたデータの転置行列との積算を行うことで、ｎ×ｎ行列を取得してもよい。また、得られたｎ×ｎ行列を計測点数ｍで規格化を行ってもよい。このｎ×ｎ行列の固有値問題を解くことにより、データの固有ベクトルと固有値を取得する。

なお、ＰＣＡを行う前に、データに対して前処理をすることでＰＣＡの計算処理を高速化または高効率化することができる。前処理の一例として、それぞれのスペクトルごとにスペクトル強度の平均値を取得し、取得した平均値をスペクトル中の各スペクトル強度から減算する処理がある。あるいは、それぞれのスペクトルごとに、スペクトル強度の最大値が特定の数値（例えば１００など）となるように規格化処理を行っても良い。

ｎ×ｎ行列からは計算上、ｎ個の固有ベクトルが得られるが、この中から任意の数の固有ベクトルを選択してもよい。固有ベクトルの選択の方法として、それぞれの固有ベクトルに対応する固有値に基づいた方法が挙げられる。例えば、各固有ベクトルに対応する固有値の総和に対する各固有値の割合である寄与率を求め、寄与率が任意の値以上となる固有値に対応する固有ベクトルのみを選択する方法がある。

ｎ個の固有ベクトルからｋ個の固有ベクトルを選択する場合、例えば
Ｌ＝（Ｉ０）
で表されるｋ×ｎの行列Ｌを用いて行列演算を行うことで固有ベクトルを選択してもよい。ここで、Ｉは単位行列、０は零行列である。

次に、グループ設定部１１は、取得した第２の基底ベクトルとしての固有ベクトル（ｎ次元）と、それぞれのスペクトル（ｎ次元）との内積計算を行うことで、それぞれのスペクトルの固有ベクトル（第２の基底ベクトル）に対する第１のスコア値である主成分スコアを取得する（Ｓ２０３）。

続いてグループ設定部１１が、取得した主成分スコアに基づいてデータに対してデータグルーピングを行う（Ｓ２０４）。データグルーピングは、各主成分スコアが任意の数値条件を満たすか否かを判断し、満たす場合にはその主成分スコアに対応するスペクトルの計測点の座標を抽出して１つのグループとして記憶することで行う。あるいは、該スペクトルそのものを抽出してグループを生成し、記憶しても良い。

数値条件としては、任意の数以上としても良いし、任意の数以下としても良い。また、任意の数値範囲を数値条件としても良い。例えば、固有ベクトルがｋ個選択され、数値条件を０以上とした場合には、固有ベクトルごとにグループが２個ずつ生成されるため、合計２ｋ個のグループが生成されることになる。本実施形態では、この２ｋ個のグループから、任意の数のグループを選択する。

グループの選択の一例として、各グループの空間分布を画像表示部４で画像表示し、特徴的な画像を表現することのできるグループを選択する方法がある。好ましくは、生成された各グループに含まれる計測点の比較を行い、各グループを用いて集合演算することで得られる集合を、新たなグループとして設定し、選択すると良い。

本実施形態では、グループ設定部１１が、取得したデータに対して第１の多変量解析としてＰＣＡを行い、その結果に基づいてデータグルーピングを行った（Ｓ２０２及びＳ２０３）。しかし第１の多変量解析はＰＣＡに限定されるものではなく、第１の多変量解析としてその他の多変量解析を行って、その結果に基づいてデータグルーピングを行っても良い。具体的には、第１の多変量解析はＩＣＡ、因子分析、判別分析、クラスター分析等を含んでも良い。

なお、第１の多変量解析は、第２の多変量解析よりも単位データ量あたりの計算量が少ない多変量解析であることが好ましい。後述するように、本実施形態では第１の多変量解析の結果に基づいて設定したグループごとにスペクトルを抽出することによって少数成分を取りこぼすことなく、第２の多変量解析を行うデータのデータサイズを削減することに特徴がある。すなわち、第２の多変量解析を行う前に、第２の多変量解析よりも簡素な解析手法である第１の多変量解析によって大まかにデータグルーピングを行うことで、第２の多変量解析に要する時間を削減することができる。

なお、グループ設定部１１において第１の多変量解析を行わずに、データグルーピングを行ってもよい。すなわち、過去のデータ処理の過程で得られた第１の多変量解析の結果を内部記憶部１４または外部記憶部５から取得し、その結果に基づいてデータグルーピングを行うことができる。例えば、過去のデータ処理の過程で得られた固有ベクトルを内部記憶部１４または外部記憶部５にデータベースとして蓄積しておき、データベースから取得した同種のデータの固有ベクトルを用いて第１のスコア値を取得しても良い。

抽出データ生成部１２は、各グループに含まれる計測点またはスペクトルを任意の割合で抽出する（Ｓ２０５）。計測点の抽出、すなわちスペクトルの抽出は、それぞれのグループごとに計測点をランダムに抽出することによって行うことが好ましい。抽出によって生成される抽出データのデータサイズは元のデータのデータサイズよりも削減されるため、次のステップ以降で行う計算量を削減し、高速にデータ処理を行うことが可能となる。

スペクトルの抽出は、それぞれのグループに含まれるスペクトルの点数が少なくとも１つずつ以上になるように抽出する。好ましくは、それぞれのグループに含まれるスペクトル点数が等しくなるように抽出すると良い。これにより、それぞれのグループの間における、各グループに含まれるスペクトル点数の全スペクトル点数に対する割合の大小による計算結果への影響を抑制することができる。

データグルーピングを行わずにランダムにスペクトルの抽出を行う場合、抽出するスペクトル点数を減少させるにつれてグループに含まれるスペクトル点数の全スペクトル点数に対する割合の小さなグループ、すなわち少数成分のとりこぼしが発生しやすくなる。しかし、データグルーピングを行った上でそれぞれのグループから少なくとも一つずつスペクトルを抽出することで、少数成分の取りこぼしを抑制することができる。スペクトルの抽出によって少数成分の取りこぼしが発生した場合、最終的に得られる画像データから少数成分が消えてしまうため、データ処理は高速化できても、得られる画像データの質は低下してしまう。一方、本実施形態では少数成分を取りこぼすことなく処理するデータサイズを削減できるので、最終的に得られる画像データの質を落とすことなく、データ処理を高速化することができる。

抽出データ生成部１２は、それぞれのグループから抽出された計測点に対応するスペクトルを１つの行列にまとめ、抽出データを生成する（Ｓ２０６）。それぞれのグループから抽出された計測点の合計点数をｈとすると、生成される抽出データはｎ×ｈ行列となる。ここで、
ｈ＜ｍ
であることから、抽出データのデータサイズは元のデータ（ｎ×ｍ行列）のデータサイズよりも小さくなるため、次のステップ以降で行う処理を高速化することができる。

基底ベクトル取得部１３１は、抽出データに対して第２の多変量解析を行う。具体的にはまず、抽出データのｎ×ｈ行列に対してＰＣＡを行い、固有ベクトル及び固有値を取得する（Ｓ２０７）。なお、Ｓ２０２において固有ベクトルの個数をｋとしたことに基づいて、固有ベクトルの個数がｋであるという前提条件のもとで計算を行うことで、計算を簡略化しても良い。

次に基底ベクトル取得部１３１は、得られたｋ個、ｎ次元の固有ベクトルをｋ×ｎ行列にまとめ、このｋ×ｎ行列に対してＩＣＡを行う（Ｓ２０８）。

ＩＣＡは、多次元の信号を統計的に独立な複数の成分に分離するための計算手法である。本実施形態におけるＩＣＡでは、ＰＣＡで得られたｋ個、ｎ次元の固有ベクトルから成るｋ×ｎ行列をＹとすると、Ｙに対し、
Ｓ＝ＷＹ
となる分離行列Ｗを導出する。ここで、Ｓは信号源行列であり、信号源行列Ｓはｋ個、ｎ次元の信号源ベクトルがまとめられたｋ×ｎ行列である。基底ベクトル取得部１３１は、信号源行列Ｓの各信号源ベクトルの統計的独立性が最大となるように、分離行列Ｗを変えながら収束計算を行う。分離行列Ｗはｋ個、ｋ次の行ベクトルである分離ベクトルがまとめられたｋ×ｋ行列である。このようにして得られた分離行列Ｗを用いることで、複数の信号が重畳した多次元データから信号源行列Ｓを取得し、個々の信号を推定又は復元することができる。

ＩＣＡを行う前に、ＰＣＡで得られた各固有ベクトルを白色化（Ｗｈｉｔｅｎｉｎｇ）し、白色化されたｋ個、ｎ次元の固有ベクトルから成るｋ×ｎ行列に対してＩＣＡを行うことでＩＣＡの計算処理を行っても良い。白色化は、ＰＣＡで得られた各固有ベクトルに対して固有値の平方根の逆数を乗算することで行う。

次に基底ベクトル取得部１３１は、ＩＣＡによって取得した分離行列Ｗを用い、分離行列Ｗの転置行列と、行列Ｌと、白色化された固有ベクトルから成るｋ×ｎ行列との乗算から信号源行列Ｓを算出する。この信号源行列Ｓに含まれる信号源ベクトルは、ＰＣＡで得られた固有ベクトルを、ＩＣＡによって取得した分離ベクトルを用いて、各固有ベクトルの統計的独立性が最大となるように再構築したものとみなすことができる。ここで、信号源ベクトルを構成するｎ個の数値は、各独立成分のｎ個のスコア値に対応する。また、白色化された固有ベクトルの逆行列と、Ｌの転置行列と、分離行列Ｗの転置行列とを用いて独立成分スペクトルを得ることができる。このように基底ベクトル取得部１３１は、第１の基底ベクトルである分離ベクトルと、第２のスコア値である独立成分スコアと、独立成分スペクトルと、を取得する（Ｓ２０８、Ｓ２０９）。

画像データ取得部１３２は、各計測点における独立成分スコアを生成し、各計測点の位置情報に基づき独立成分スコアの空間分布を示す画像データである独立成分スコアプロットを生成する（Ｓ２１０）。独立成分スコアプロットは、計測部３または外部記憶部５から取得したデータが、ＸＹ平面上の各点に対応してスペクトルがそれぞれ格納されたデータであれば、二次元的な強度分布データとなる。同様に、計測部３または外部記憶部５から取得したデータが、ＸＹＺ空間内の各点に対応してスペクトルがそれぞれ格納されたデータであれば、三次元的な強度分布データとなる。

画像データ取得部１３２により生成された独立成分スコアプロットは、必要に応じて画像表示部４において画像表示される（Ｓ２１１）。または外部記憶部５に記憶される（Ｓ２１２）。

独立成分スコアプロットは分離行列Ｗ中の分離ベクトルごとに取得される。画像データ取得部１３２は、取得されたｋ個の独立成分スコアプロットのうち任意の数の独立成分スコアプロットについて、それぞれの独立成分スコアプロットに任意の色の情報を付与し、それらを重ね合わせて新たな独立成分スコアプロットとしても良い。これにより、画像表示部４において試料中の各成分を色分けした疑似カラー画像を表示することができる。

または、画像表示部４で画像を表示せずに、独立成分スコアプロットまたは独立成分スコアをもとに、各成分の比率を取得しても良い。このとき、例えば癌などの特定の組織に特有の成分の比率が所定の値を越えた場合に、画像表示部４においてアラートを表示するなどしてユーザに知らせる構成としても良い。あるいは、それぞれの独立成分スコアプロットをデータ処理装置１で画像処理することによって、例えば所定の成分が所定の形状の分布を有することが判明した場合に、画像表示部４においてアラートを表示するなどしてユーザに知らせる構成としても良い。また、独立成分スコアまたはスコアプロットの表示とは別に、独立成分スペクトルを画像表示部４に表示しても良い。このことにより、各独立成分スコアプロットとそれに対応する独立成分スペクトルを相互に比較することができ、結果の解釈を容易にすることができる。

本実施形態では、複数のスペクトルを含むデータに対して第１の多変量解析を行い、その結果に基づいてデータに対して複数のグループを設定し、それぞれのグループからスペクトル抽出する。これにより、グループを設定せずに全てのスペクトルの中からランダムにスペクトルを抽出した場合と比較して、少数成分をとりこぼすことなくデータ量を削減することができる。このようにデータ量を削減した抽出データに対して第２の多変量解析を行うことで、計算結果の質を落とすことなく、計算量及び計算時間を減少させることができる。

（第２の実施形態）
第２の実施形態として、試料からの複数のスペクトルを含むデータの取得を少なくとも２回行う構成例について、図１および図３から図５を用いて説明する。

第２の実施形態の装置構成は第１の実施形態の装置構成と同様である。

図３は、本実施形態に係る試料データ取得システムの動作方法を説明するフローチャートである。本実施形態では、複数のスペクトルを含むデータの取得を２回行う。１回目のデータの取得（以下「プレスキャン」と称する）で取得したデータは、多変量解析によって基底ベクトルを取得するため用いる。２回目のデータの取得（以下「本スキャン」と称する）で取得したデータは、プレスキャンで取得したデータから取得した基底ベクトルを用いてスコア値を取得するために用いる。

プレスキャンでは、本スキャンの計測点数よりも少ない計測点数でデータセットの取得を行う。すなわち、あらかじめ計測点を間引いて取得したデータに対して多変量解析を行うことで、データグルーピングに要する時間や基底ベクトルの取得に要する時間を短縮することが可能となる。また、プレスキャンによって取得したデータからあらかじめ基底ベクトルを取得しておき、本スキャンを行いながら逐次的にスコア値を取得することで、本スキャンを行いながら逐次的に画像を表示することが可能となる。

プレスキャンを行う際には、プレスキャンにおいて計測部３によってスペクトルの計測を行う第１の領域を、制御部２が決定する（Ｓ３０１）。計測部３が、設定した第１の領域からスペクトルを計測し、得られたスペクトル（「第１のスペクトル」に対応する）を含む第１のデータを取得する。

設定した領域内の各計測点にからスペクトルを計測し、複数のスペクトルを含むデータを取得する方法の一例として、領域が二次元領域である場合について図１および図４を用いて説明する。

設定した領域内の各計測点について計測を行う方法として、設定した領域を複数の部分的な小領域に分割し、それぞれの小領域を逐次的に計測する方法がある。あるいは、一次元的な形状のプローブを用いて、そのプローブをプローブの入射方向に垂直な方向に走査することで計測を行っても良い。

計測部３によって計測スペクトルを計測される試料６としては、試料６を基板７上に固定化したものや、試料６を２枚の基板で挟んだもの等を用いる。図４（ａ）には、基板７上に固定化された試料６を示す。

設定した領域を複数の部分的な小領域に分割し、それぞれの小領域を逐次的に計測する方法について、一例として図４（ｂ）を用いて説明する。設定した領域６が小領域Ａから小領域Ｏまでの複数の部分的な小領域に分割されており、これらを逐次的に計測する。分割された部分的な小領域の大きさや形状は任意であるが、好ましくは計測部３の１つの視野に対応していると良い。また、分割された部分的な小領域同士は領域が一部重複していても良い。

例えば計測部３がレーザー走査型の計測装置である場合、まずは第１の小領域（例えば小領域Ａ）において二次元的にレーザー走査を行って計測を行う。第１の小領域での計測が完了したら、試料６を固定化した基板７を載置した不図示の試料ステージを不図示の駆動源によって移動させて第２の小領域（例えば小領域Ｂ）に視野を移動させる。続いて計測部３は第２の小領域において二次元的にレーザー走査を行って計測を行う。これを繰り返し、全ての小領域について逐次的に計測を行うことで設定した領域内の各計測点に対してスペクトルを計測し、複数のスペクトルを含むデータを取得する。

このとき、１つの小領域に対して複数の波長のレーザー光を用いて複数回計測を行っても良い。その際は、任意の波長のレーザー光で小領域全体の計測を行った後に、別の任意の波長のレーザー光でもう一度同じ小領域全体の計測を行う。あるいは、小領域中の任意の計測点について複数の波長のレーザー光を用いて複数回計測した後の別の任意の計測点について同様に計測を行う、ということを繰り返しても良い。すなわち、それぞれの小領域の計測ごとに異なるパラメータにおける計測を行い、得られた計測データを合わせて複数のスペクトルを含むデータとしても良いし、小領域中のそれぞれの計測点ごとにパラメータを変えながらスペクトルを取得しても良い。

それぞれの小領域の計測ごとに異なるパラメータにおける計測を行う方法は、試料６が静的であり、形態の時間変化を伴わない試料である場合に有用である。一方、小領域中のそれぞれの計測点ごとにパラメータを変えながらスペクトルを取得する方法は、試料６が動的であり、形態の時間変化を伴う試料である場合に有用である。

次に、一次元的な形状のプローブを用いて、そのプローブをプローブの長軸方向に垂直な方向に走査することで計測を行う方法について図４（ｃ）を用いて説明する。

図４（ｃ）では、プローブ８を方向９に走査することで設定した領域内の各計測点について計測を行っている。例えば計測部３がレーザー走査型の計測装置である場合、一次元方向にレーザーを高速で走査したものも、一次元的な形状のプローブ８とみなすことができる。このプローブ８に対して試料６を固定化した基板７を載置した不図示の試料ステージを不図示の駆動源によって移動させることで、設定した領域内の各計測点について計測を行う。この方法には、前述した複数の部分的な小領域に分割する方法に比べて、計測部３の装置構成を簡略化することができる利点がある。

第１の領域は、計測部３が計測可能な全領域のうちの少なくとも一部の領域である。第１の領域は、試料６が存在する領域全体であっても良いが、その領域に存在する全ての計測点のうち、任意の数だけ計測点が選択された領域が第１の領域である。第１の領域は、好ましくは試料６が存在する全領域を少なくとも含む範囲で設定すると良い。これにより、試料６に含まれる成分や組成にムラがある場合でも、各成分のスペクトルを万遍なく含むデータを取得することができ、その後の処理で取得される分離行列Ｗによる成分の分離の精度を向上させることができる。

以下、設定した領域内の各計測点についての計測は、設定した領域を複数の部分的な小領域に分割し、それぞれの小領域を逐次的に計測する方法によって行うものとして、第１の領域の設定方法について述べる。この場合、１つの部分的な小領域に対して計測点の選択パターンを設定し、そのパターンをそれぞれの部分的な小領域に適用することで第１の領域を設定することができる。図５に、部分的な小領域に対する計測点の選択パターンの例を示す。図５の（ａ）から（ｈ）の各例において、ハッチングを施した四角で示した計測点を選択する。

計測点の選択パターンとしては、計測点が一次元方向に並ぶパターン（図５（ａ）から（ｄ））と、計測点が一次元方向に並ぶパターンを複数組み合わせたパターン（図５（ｅ）及び（ｆ））が挙げられる。また、計測点の選択パターンは、計測点がランダムに分布するパターン（図５（ｇ））や、計測点が視野の中心を中心とする同心円状に分布するパターン（図５（ｈ））としても良い。

計測点の選択パターンとして計測点が一次元方向に並ぶパターンを採用した場合は、制御部２及び計測部３の構成を単純にすることができる。

計測点の選択パターンとして計測点が二次元方向に並ぶパターンを採用した場合は、制御部２及び計測部３の構成が複雑になるが、試料に含まれる特定の成分が一次元方向に分布している場合についても成分を計測することができる。

計測点の選択パターンとして計測点がランダムに分布するパターンを採用した場合は、前述のパターンを採用した場合よりも効率的に計測点数を減らすことができる。

計測点の選択パターンとして計測点が視野の中心を中心とする同心円状に分布するパターンを採用した場合は、計測部３の計測方法由来の信号強度低下を補うことができる。一例として、計測部３としてレーザー走査型の計測装置を用いた場合、用いる対物レンズの種類によっては、中心視野と周辺視野とでレーザーの照射量が異なり、周辺視野で計測される信号強度が低下することがある。信号強度が低下すると、プレスキャンで取得されるデータに含まれるスペクトルのばらつきが大きくなるため、図５（ｈ）のように、中心視野のデータを取得するように計測点を設定することが好ましい。

次に、データ処理装置１が、第１のデータを取得する（Ｓ３０２）。データ処理装置１は、第１の実施形態と同様に、第１のデータに対してデータグルーピングを行った後に、それぞれのグループから少なくとも一つずつスペクトルを選び出し、選び出されたスペクトルからなる抽出データを生成する。そして、データ処理装置１は抽出データに対してＰＣＡおよびＩＣＡを行うことで固有ベクトル、固有値、および、分離行列Ｗを取得する。データ処理装置１は、取得した固有ベクトル、固有値、および、分離行列Ｗを内部記憶装置１４に記憶する（Ｓ３０３からＳ３０９）。

本スキャンを行う際には、本スキャンにおいて計測部３によってスペクトルの計測を行う第２の領域を、制御部２が決定する（Ｓ３１０）。計測部３が、設定した第２の領域からスペクトルを計測し、得られたスペクトル（「第２のスペクトル」に対応する）を含む第２のデータを取得する。

第２の領域は、計測部３が計測可能な全領域のうちの少なくとも一部の領域であり、第１の領域よりも計測点数が多い領域である。第２の領域は、試料６が存在する領域全体であっても良いが、第１の領域よりも計測点数が多ければ、その領域に存在する全ての計測点のうち、任意の数だけ計測点が選択された領域としても良い。

第２の領域は、第１の領域を設定した範囲の中に含まれる範囲内に設定することが好ましいが、第１の領域を設定した範囲の外の範囲を含んだ範囲内で設定しても良い。また、第１の領域を設定した範囲と第２の領域を設定する範囲とが重複しておらず、離れた領域であっても良い。

また、第１の領域を設定した後で第２の領域を設定するのではなく、第２の領域を設定した後で、その第２の領域を設定した範囲に基づいて第１の領域を設定しても良い。具体的には、ユーザが第２の領域を設定した後に、その第２の領域を設定した範囲を少なくとも包含する範囲において第１の領域を設定するようにしても良い。これにより、試料６の存在する範囲の中で観察したい範囲があらかじめ分かっている場合に、スペクトルの計測からデータの処理までをより高速に行うことができる。

データ処理装置１が、第２のデータを取得する（Ｓ３１１）。データ処理装置１は第２のデータに含まれる第２のスペクトルと内部記憶装置１４から読みだした固有ベクトル、固有値、および、分離行列Ｗとを用いて第３のスコア値である独立成分スコアを取得する（Ｓ３１２）。

分析部１３は、第１の実施形態と同様に、プレスキャンにおいて得た固有ベクトル、固有値、および分離行列Ｗと、本スキャンにおいて得た各計測点のスペクトルとを用いて、各計測点における独立成分スコアを取得する。また、画像データ生成部１３２は、得られた独立成分スコアと各計測点の位置情報とに基づき独立成分スコアプロットを生成する（Ｓ３１３）。画像データ生成部１３２により生成された独立成分スコアプロットは、第１の実施形態と同様に、必要に応じて画像表示部４において画像表示され（Ｓ３１４）、又は外部記憶部５に記憶される（Ｓ３１５）。

ここで、第２の領域内の各計測点についての計測においては、まず、第２の領域を複数の部分的な小領域に分割する。そして、それぞれの小領域を逐次的に計測する方法によって行う。なお、データはそれぞれの小領域ごとに分割された複数の分割データとして取得される。それぞれの分割データは逐次的に取得されるため、ある小領域から分割データを取得し、計測部３が次の小領域の計測に移行した後に、既に取得している分割データを用いてＳ３１２からＳ３１５までの処理を行っても良い。これにより、小領域ごとに逐次的に画像表示を行うことができる。すなわち本実施形態によれば、プレスキャンを行ってあらかじめ基底ベクトルを取得しておき、その基底ベクトルを用いて小領域ごとに逐次的に画像データを生成することで、ユーザは全体の計測が完了する前に逐次的に情報を得ることができる。

（その他の実施形態）
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

本発明は例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。また、本発明は第１の実施形態ではデータ処理装置１と、スペクトル計測装置２０と、画像表示部４と、外部記憶部５とを備える試料データ取得システムに適用した。しかし本発明は、他の複数の機器の組み合わせから構成されるシステムに適用しても良いし、一つの機器からなる装置に適用しても良い。例えば、本発明はデータ処理装置１と、画像表示部４とを備えるデータ表示システムに適用しても良い。

また、本発明を適用する複数の機器の組み合わせから構成されるシステムにおいては、それぞれの機器は部分的又は全体的に、インターネットを含むネットワークで接続されていても良い。例えば、取得したデータをネットワークに接続されたサーバに送信し、サーバ上で本発明の処理を行い、得られた結果をサーバから受信して画像表示等を行う構成としても良い。

また、本発明はソフトウェアのプログラムをシステム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによって前述した実施形態の機能が達成される場合を含む。この場合、供給されるプログラムは実施形態で図に示したフローチャートに対応したコンピュータプログラムである。従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。

つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）に供給するスクリプトデータ等の形態であっても良い。

コンピュータプログラムを供給するためのコンピュータ読み取り可能な記憶媒体は、例えば、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ等でも良い。また、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などでも良い。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムをハードディスク等の記憶媒体にダウンロードすることが挙げられる。この場合、ダウンロードされるプログラムは、圧縮され自動インストール機能を含むファイルであっても良い。また、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

（実施例１）
誘導ラマン散乱（ＳｔｉｍｕｌａｔｅｄＲａｍａｎＳｃａｔｔｅｒｉｎｇ：ＳＲＳ）を利用した計測装置である誘導ラマン散乱顕微鏡を用いて生体試料から取得したデータの解析例について述べる。

生体試料としては、ホルマリン固定処理を施した、腫瘍部及び非腫瘍部をそれぞれ含むマウスの膵臓組織及び肝臓組織を用いた。

ラマンスペクトルの計測は生体試料の二次元領域について行った。計測領域は縦２４０マイクロメートル、横４８０マイクロメートルであり、縦１５００ピクセル、横４０００ピクセルである。計測は、ラマンシフトが２８００ｃｍ^−１〜３１００ｃｍ^−１の領域を９１段階に等分するように設定し、それぞれの波数においてラマン強度を計測した。

解析には、それぞれの組織の二次元観察データを１つのデータにまとめたものを使用した。計測の際には計測領域全体を複数の部分的な小領域（タイル）に分割して計測し、それぞれのタイルをつなぎ合わせることで全計測領域からのデータを取得した。このとき、それぞれのタイルの領域は一部重複しており、重複した領域についてはその領域内のスペクトルを削除した上で、それぞれのタイルのデータをつなぎ合わせた。得られたデータの次元数は９１次元、計測点数は５，７２０，０００点であった。

はじめに、データに対してデータグルーピングを実施した。まず、データに対してＰＣＡを行うことで固有ベクトル及び固有値を取得した。その結果、固有値の寄与率が１％以上である固有ベクトルは３つであったため、この３つの固有ベクトルを選択した。

それぞれの固有ベクトルについて、固有ベクトルと、データに含まれるスペクトルと、の内積計算を行い、主成分スコアを取得した。図６に固有ベクトルと、主成分スコアの二次元プロットを示す。図６（ａ）及び（ｂ）に示す固有ベクトルの横軸はラマンシフトに対応する。図６（ｃ）から（ｅ）に示す主成分スコアの二次元画像は、主成分スコアの二次元強度分布をプロットすることにより生成した。

次に、図６（ｃ）から（ｅ）の各主成分スコアの二次元画像と、同種の組織を含む生体試料を染色して光学顕微鏡で観察して取得した画像とを比較することで、各主成分スコアが表す成分の同定を行った。その結果、図６（ｃ）から、第二の固有ベクトル（図６（ａ））を利用して取得した主成分スコアが０未満のデータグループ（以下「（ＰＣ２−）」と称する）では、血球を主に特徴量として抽出、画像化できることがわかった。また、図６（ｄ）から、第三の固有ベクトル（図６（ｂ））を利用し、スコア値が０未満のデータグループ（以下「（ＰＣ３−）」と称する）では細胞質及び脂肪滴を特徴量として抽出、画像化できることがわかった。さらに、図６（ｅ）から、第三の固有ベクトル（図６（ｃ））を利用し、スコア値が０以上のデータグループ（以下「（ＰＣ３＋）」と称する）では細胞核及び線維及び血球を特徴量として抽出、画像化できることがわかった。

次に各々のデータグループ間の比較を行い、複数のデータグループに共通して観察される特徴量を検討したところ、血球が二つのデータグループに分類されていることが分かった。具体的には、血球は（ＰＣ２−）と（ＰＣ３＋）に分類されていることがわかった。

異なるデータグループ間における成分の重複を解消し、その後のデータ抽出において各成分の計測点数を揃えるために、データグループ同士の減算を行い、新たなデータグループを生成した。以上の結果をもとに、データに対してデータグループを設定した。具体的には、（ＰＣ２−）を「グループ１」、（ＰＣ３−）を「グループ２」、（ＰＣ３＋）から（ＰＣ２−）を減算したデータグループを「グループ３」として、データに対してデータグループを設定した。グループ１は血球を、グループ２は細胞質及び脂肪滴を、グループ３は細胞核及び線維を、それぞれ表現することができる。

次にグループ１、グループ２、及び、グループ３のそれぞれについて、グループに含まれるスペクトルから任意の数のスペクトルを抽出した。データ抽出は、それぞれのデータグループから抽出されるスペクトルの点数が等しくなるように設定して行った。具体的には、それぞれのデータグループから抽出されるスペクトル点数が１０００点、３５００点、１００００点、２００００点、４００００点となるように抽出し、抽出データを生成した。なお、データの抽出はそれぞれのデータグループごとに、ランダムに実施した。抽出により削減されたスペクトル点数の全スペクトル点数に対する割合であるデータ削減率は、それぞれ９９．９５％、９９．７２％、９９．５％、９９．０％、９７．９％であり、データのサイズを大きく削減した。

次に、抽出データに対してＰＣＡ及びＩＣＡを実施した。

まず、ＰＣＡで得られた固有ベクトルについて述べる。データグルーピングによる効果を検証するために、本実施例で得られた固有ベクトルと、データグループを設定せずに全計測点からランダムにデータを抽出して生成される抽出データセットに対してＰＣＡを行って得られた固有ベクトルとを比較した。具体的には、データグループを設定したデータについてデータ抽出からＰＣＡによる固有ベクトルの取得までの試行を５回行い、試行毎の固有ベクトルのばらつきを検討した。ばらつきの評価は式１を用いて行い、各試行で得られた固有ベクトルについて、全試行の固有ベクトルの平均からの差異を評価した。ここで、ｉは試行回数、ｊはデータの次元数であり、Ｘ_ａｖｅは特定のｊにおける５回の試行の平均値である。

図７に、固有ベクトルのばらつきとデータ削減率との相関を示す。データグルーピングを行った場合と行わなかった場合の両方について、各データ削減率における固有ベクトルのばらつきαを算出した。データグルーピングの有無にかかわらず、データサイズを削減すればするほど固有ベクトルのばらつきが大きくなる傾向が認められた。また、データグルーピングを行わなかった場合と比較して、データグルーピングを行った場合には、固有ベクトルのばらつきが大幅に抑制されることが分かった。この結果から、データグルーピングを行い、データグループごとに各データグループに応じたデータ量をそれぞれ削減してスペクトルの抽出を行うことで、抽出データから取得される固有ベクトルの再現性を高めることができることが分かった。すなわち、データグルーピングとデータグループごとのデータ抽出によって、抽出データの固有ベクトルの再現性を保ったまま、データサイズを効率的に削減することができることが分かった。

次に、ＩＣＡで得られる独立成分スペクトルについて述べる。ＰＣＡで得られた固有ベクトルと同様に、データグルーピングを行った場合と行わなかった場合とで、独立成分スペクトルの算出を５回行い、試行毎の独立成分スペクトルのばらつきを比較検討した。

図８に、データ削減率が９９．０％及び９９．９５％の場合の独立成分スペクトル及び標準偏差を示す。図８（ａ）及び（ｂ）はグルーピング無し、データ削減率９９．０％の場合の独立成分スペクトル及び標準偏差を、図８（ｃ）及び（ｄ）はグルーピング無し、データ削減率９９．９５％の場合の独立成分スペクトルと標準偏差を示す。図８（ｅ）及び（ｆ）はグルーピング有り、データ削減率９９．０％の場合の独立成分スペクトルと標準偏差を、図８（ｇ）及び（ｈ）はグルーピング有り、データ削減率９９．９５％の場合の独立成分スペクトルと標準偏差を示す。

図８の各図において、いずれも横軸はラマンシフトの波数であり、本実施例ではデータの次元数（９１次元）に対応する。また、標準偏差の大小から、５回の試行ごとの独立成分スペクトルのばらつきの大小を評価することができる。

データ削減率が９９．０％の場合は、データグルーピングを行った場合と行わなかった場合の両方において、５回の試行における独立成分スペクトルのばらつきが抑制された。データ削減率が９９．９５％の場合は、データグルーピングを行わなかった場合には結果が大きくばらつき（図８（ｄ））、データ再現性も悪いことが認められた（図８（ｃ））。一方、データグルーピングを行った場合は独立成分スペクトルの再現性も高く（図８（ｇ）（ｈ））、後述するように各独立成分スペクトルと対応する独立成分スコアプロットにおいても非常に高い再現性を有していることが分かった。

また、データグルーピングの有無で、得られる独立成分スペクトルが異なることがわかった。これはデータグルーピングを行った場合には、少数分布成分に由来するスペクトルと多数分布成分に由来するスペクトルとでスペクトル点数とが等しくなっているため、多変量解析で少数分布成分を主な成分（主成分）として抽出できていることを示している。データグルーピングを行わない場合には、データセットに含まれる全スペクトルの中からランダムにスペクトルの抽出を行う。そのため、少数分布成分に由来するスペクトルが選択される確率が低下し、データ抽出後の抽出データ中の少数分布成分に由来するスペクトルの点数が減少し、主な成分（主成分）として抽出することができなくなることが示唆される。後述するように、データグルーピングを行った場合は、独立成分スコアプロットにおいて高い成分分離能力を有していることが分かった。

次に、独立成分スコアを取得し、独立成分スコアプロットを二次元画像化した。図９に独立成分スコアの二次元強度分布画像を示す。図９（ａ）、（ｂ）、（ｃ）はデータグルーピング有り、データ削減率９９．９５％の場合に取得された各独立成分スコアプロットを示す。また、図９（ｄ）、（ｅ）、（ｆ）はデータグルーピング無し、データ削減率９９．０％の場合に取得された各独立成分スコアプロットを示す。

図９中の矢印で示した部分には少数成分である血球成分が存在している。データグルーピングを行った場合には図９（ａ）にのみ血球成分が画像化されており、血球成分が１つの成分として明瞭に分離できていることがわかった。しかし、データグルーピングを行わなかった場合には図９（ｄ）及び（ｅ）の２つに血球成分が画像化されており、少数成分の分離が不十分であることがわかった。

また、データグルーピングを行った場合にはデータ削減率９９．９５％、９９．５％、９９．０％、９７．９％の各画像の間に大きな差異はみられなかった。このことから、データグルーピングとデータグループごとのデータ抽出によって、データ削減量の増加によるスコアプロットへの悪影響が抑制できたことが分かった。

次に、データ削減に伴う計算時間の短縮の効果を示す。図１０に、ＰＣＡによって固有ベクトルを算出するのに要した時間とＩＣＡによって分離行列を算出するのに要した時間との合計（総計算時間）と、データ削減率との相関を示す。この結果から、データ量の削減に伴い、計算時間が大幅に短縮されることが分かった。具体的には、データ削減率９８．９６％においては１９５秒、９９．９５％では０．５９１秒で計算が完了した。ＰＣＡでは行列演算を実施するので、計測点数（スペクトル点数）に比例して計算量が増大する。一方、ＩＣＡでは収束計算を実施するので計測点数（スペクトル点数）に対して指数関数的に計算量が増大する。したがって、計測点数を大幅に削減することで計算時間を大幅に短縮することができたと考えられる。

以上、本実施例はラマン分光のスペクトルに関する内容を記載したが、これに限るものではなく、例えば質量スペクトルなどの他のスペクトルに対しても適用することができる。

（実施例２）
誘導ラマン散乱顕微鏡を用いて３種類のポリマービーズからなる混合物から取得したデータセットの解析例を述べる。

３種類のポリマービーズの材質は、ポリウレタン、ポリスチレン、ポリメチルメタアクリレートとした。これらの材質は、それぞれ異なるラマンスペクトルを示すことが知られている。

ラマンスペクトルの計測は、実施例１と同様、混合物（試料）の二次元領域について行った。計測領域は縦５１２ピクセル、横５１２ピクセルとした。なお、その他の計測条件は実施例１と同様である。

このようにして取得したデータに対して、ＰＣＡを行い、固有ベクトルと固有値を取得した。なお、本実施例では３種類ポリマービーズの混合物を試料として使用していることから成分数は３であるので、固有ベクトルの数は３と設定した。取得した各固有ベクトルについて、実施例１と同様に、固有ベクトルに対する主成分スコアを計算し、主成分スコアの二次元画像を得た。このとき、主成分スコアの値を０から２５５の間の値になるように規格化することで、主成分スコアの二次元画像を８ビットの白黒画像とした。

その結果、主成分スコアがＰＣ２−、ＰＣ２＋、ＰＣ３−のデータグループが、各々のポリマービーズを特徴量として抽出、画像化していることが分かった。ここで、ＰＣ２−は、第２の固有ベクトルを利用して取得したスコア値が０未満のデータグループを示す。また、ＰＣ２＋は、第２の固有ベクトルを利用して取得したスコア値が０以上のデータグループを示す。さらに、ＰＣ３−は、第３の固有ベクトルを利用して取得したスコア値が０未満のデータグループを示す。なお、それぞれのポリマービーズの特定には、画像中の各ビーズから取得したラマンスペクトルと、各ポリマービーズ単体のラマンスペクトルとを比較することで行った。

次に、それぞれのデータグループに対して、閾値を設定し、閾値以上の主成分スコアを有するデータを選択した。具体的には、ＰＣ２−に対しては閾値を９８、ＰＣ２＋に対しては閾値を１２９、ＰＣ３−に対しては閾値を１１２と設定した。これにより、ＰＣ２−のデータグループからは１７６５１点からなる新しいデータグループＡが、ＰＣ２＋からは１７８３３点からなる新しいデータグループＢが、ＰＣ３−からは１８７５０点からなる新しいデータグループＣが生成された。

次に、それぞれのデータグループ（Ａ〜Ｃ）からデータの抽出を行った。具体的には、それぞれのデータグループ（Ａ〜Ｃ）から１００点ずつ、データをランダムに抽出した。そして、このように抽出したデータを合わせて、合計３００点のデータセットを生成した。ここで、得られたデータセットの元のデータ（２６２１４４点）に対するデータ削減率は、９９．８９％である。

本データセットに対して、以下に示すように、スペクトルデータの次元数が異なるデータセットを生成した。
（１）データセット１：９次元（すなわち、ラマンシフトが２８００＋３３．３ｉ（ｃｍ−１）のラマン強度のみを抽出したデータセット（ｉ＝０〜８））
（２）データセット２：１８次元（すなわち、ラマンシフトが２８００＋１６．５ｉ（ｃｍ−１）のラマン強度のみを抽出したデータセット（ｉ＝０〜１７））
（３）データセット３：３０次元（すなわち、ラマンシフトが２８００＋９．９ｉ（ｃｍ−１）のラマン強度のみを抽出したデータセット（ｉ＝０〜２９））
（４）データセット４：９１次元（すなわち、ラマンシフトが２８００＋３．３ｉ（ｃｍ−１）のラマン強度のみを抽出したデータセット（ｉ＝０〜９０））
ここで、データセット４が最も次元数が高く、データセット３、データセット２、データセット１の順に次元数が小さくなる。なお、本実施例においてデータセット１、データセット２、データセット３は、データセット４から特定のラマンシフトのラマン強度を抽出することで生成した。具体的には、データセット４に含まれる９１の異なるラマンシフトのデータから、９の異なるラマンシフト、１８の異なるラマンシフト、３０の異なるラマンシフトのデータをそれぞれ抽出し、順にデータセット１、データセット２、データセット３とした。それぞれのデータセットに含まれる、ラマンシフトの一覧表を図１１に示す。図１１の表中の黒丸は、各データセットにおいて抽出したラマンシフトを示している。データセットの容量は次元数に比例するため、データセット１、データセット２、データセット３はそれぞれ、データセット４の容量の約９０％、約８０％、約６７％を削減することができた。

なお、本実施例では既に取得したデータセットの次元を削減することによってデータセットのデータサイズを削減することで、後述する解析に要する時間を削減することができる。しかし、例えば特定のラマンスペクトルについてのみ計測を行うなど、計測する際に次元を削減したデータセットを取得するようにすれば、解析に要する時間のみならず、計測に要する時間も削減することができる。

次に、上記の各データセットに対してＰＣＡおよびＩＣＡを実施し、独立成分スペクトルおよび独立成分スコアの分布画像を得た。図１２に、各データセットから得られた独立成分スペクトルを示す。図１２（ａ）、（ｂ）、（ｃ）、（ｄ）はそれぞれ、データセット１、データセット２、データセット３、データセット４から得られた独立成分スペクトルを示している。データセット４から得られた独立成分スペクトルが、もっともスペクトル情報を詳細に示していることがわかる。一方、データセットの次元数が削減されるほど、元のデータセットが保有していたスペクトルの詳細な情報が失われていくことが分かる。

図１３に、各データセットから得られた独立成分スコアの分布画像（独立成分画像）を示す。独立成分スコアの分布画像を比較すると、各データセットから生成された独立成分スコアの分布画像はすべて、異なる３種類のポリマービーズのそれぞれの分布を示していることが分かった。各データセットから生成された独立成分スコアの分布画像を詳細に比較すると、次元数の削減量が大きくなるほど、画像の若干のノイズの増加することが認められた。しかし、それぞれのポリマービーズの分布を表示する上で、顕著な画質の劣化は認められなかった。すなわち、データセットの次元数を削減すればするほど、そのデータセットから得られる独立成分スペクトルの情報は粗くなるものの、独立成分スコアの分布画像についてはほとんど変化しないことがわかった。

なお、主成分スコアの分布画像についても同様に検討したところ、次元数を削減したデータセットから取得した主成分スコアの分布画像でも、ポリマービーズの分布を画像化できることが確認された。さらに、データセットの点数を３０点まで減らした場合（全計測データ点数に対して９９．９９％の削減率）においても、図１３と同様の独立成分スコアの分布画像、および主成分スコアの分布画像が得られることが確認できた。

以上の結果より、データセットの次元数を削減することでデータセットのデータサイズを削減しても、上述した解析によって最終的に得られる各成分の分布画像には顕著な差異を生じないことが分かった。

さらに、次元数を削減した各データセットに対して得られた第１の基底ベクトルを用いて、他の計測位置で取得されたデータセットのスコア値を算出することで、３種類のポリマービーズの分布が表示できることも確認した。このとき、他の計測位置のデータセットの次元数は、第１の基底ベクトルを取得するのに用いたデータセットの次元と同一とした。すなわち、本実施例は、同一の計測位置のデータセットに対してのみならず、異なる計測位置のデータセットに対しても適用できることがわかった。

本実施例を異なる計測位置のデータセットに対して適用する際には、プレスキャンで取得した試料の広範囲領域のデータセットから一部の波数（次元）のみを抽出し、次元を削減したうえで基底ベクトルを取得してもよい。この方法により、データセットに含まれるスペクトル情報の取捨選択が可能になり、選択したスペクトル情報についての基底ベクトルを取得することが可能となる。そして、このようにして取得した基底ベクトルを用いることで、選択したスペクトル情報ごとに複数のスコア値の強度分布情報を得ることができる。このようなスペクトル情報の取捨選択は、多種の成分が混在している試料のデータセットの解析において特に有用である。

波数を選択することによるデータセットの次元の削減は、解析に要する時間のみならず、計測に要する時間も削減することができる。これは、データセットの解析に要する時間と比較して、データセットの取得に要する時間の方が大きい場合に特に有用である。

一例として、高速ラマンスペクトルデータ取得システム（Ｙ．Ｏｚｅｋｉｅｔ．ａｌ．ＮａｔｕｒｅＰｈｏｔｏｎｉｃｓｖｏｌ．６，ｐ．８４５−８５１，２０１２）を用いた場合に計測に要する時間と解析に要する時間のそれぞれを測定した。その結果、データの取得（計測）に要した時間は３３．３×ｎ（ミリ秒）であったのに対し、データの演算に要した時間は、１．２１×ｎ（ミリ秒）であった。なお、ｎは取得したデータセットに含まれるラマンスペクトルのラマンシフトの数（次元数）を表す。またこのとき、計測は縦５１２ピクセル、横５１２ピクセルの２次元領域について行い、主成分の数は３とした。すなわちこのシステムにおいて、データの取得は、データの演算よりも約３３倍の時間が必要である。このように解析に要する時間よりも計測に要する時間のほうが大きい場合には、次元数を削減して計測を行うことで、計測から画像表示までに要する時間を削減し、高速に強度分布データを表示することが可能となる。

１データ処理装置
１１グループ設定部
１２抽出データ生成部
１３１基底ベクトル取得部

Claims

データに含まれる複数のスペクトルを、前記複数のスペクトルに対する第１の多変量解析の結果に基づいて、複数のグループに分けるグループ設定部と、
前記グループ設定部によって分けられた前記複数のグループのそれぞれから少なくとも一つずつスペクトルを抽出して、複数のスペクトルが含まれる抽出データを生成する抽出データ生成部と、
前記抽出データ生成部によって生成された前記抽出データに対して主成分分析及び独立成分分析を順に行う第２の多変量解析の結果に基づいて第１の基底ベクトルを取得する基底ベクトル取得部と、
を有するデータ処理装置。
前記基底ベクトル取得部によって取得した前記第１の基底ベクトルを用いて、前記データに含まれる複数のスペクトルを、前記第１の基底ベクトルの成分にそれぞれ帰属し、前記第１の基底ベクトルの成分の分布を示す画像データを生成することを特徴とする請求項１に記載のデータ処理装置。
前記第１の多変量解析が、前記第２の多変量解析よりも単位データ量あたりの計算量が少ない多変量解析であることを特徴とする請求項２に記載のデータ処理装置。
前記画像データが、複数の前記スペクトルと、前記第１の基底ベクトルと、の内積であるスコア値の二次元的又は三次元的な強度分布データであることを特徴とする請求項２に記載のデータ処理装置。
前記グループ設定部は、前記データに含まれる複数のスペクトルを、前記第１の多変量解析の結果に基づいて得られた第２の基底ベクトルによって、前記複数のグループに分けることを特徴とする請求項１に記載のデータ処理装置。
前記グループ設定部は、前記データに含まれる複数のスペクトルと、前記第１の多変量解析の結果に基づいて得られた第２の基底ベクトルと、から得られたスコア値に基づいて、前記データに含まれる複数のスペクトルを前記複数のグループに分けることを特徴とする請求項１に記載のデータ処理装置。
前記第１の多変量解析が、主成分分析を含むことを特徴とする請求項１乃至請求項６のいずれか一項に記載のデータ処理装置。
前記スペクトルが、紫外又は可視又は赤外域の分光スペクトル、ラマン分光スペクトル、質量スペクトルのいずれか１つを含むことを特徴とする請求項１乃至請求項７のいずれか一項に記載のデータ処理装置。
前記データが、ＸＹ平面上の各点に対応して前記スペクトルが格納されたデータであることを特徴とする請求項１乃至請求項８のいずれか一項に記載のデータ処理装置。
請求項２乃至請求項４のいずれか一項に記載のデータ処理装置と、
前記画像データを画像表示する画像表示部と、
を有することを特徴とするデータ表示システム。
請求項１乃至請求項９のいずれか一項に記載のデータ処理装置と、
前記データ処理装置によって処理される前記データに含まれる前記スペクトルを試料から取得するための計測部と、
を有することを特徴とする試料データ取得システム。
前記計測部が、前記試料が含まれる領域のうち少なくとも一部の領域である第１の領域から計測される複数のスペクトルを含む第１のデータと、
前記第１の領域より計測点数の多い第２の領域から計測される複数のスペクトルを含む第２のデータと、を取得し、
前記グループ設定部は、前記計測部によって取得された前記第１のデータに含まれる複数のスペクトルを、前記複数のスペクトルに対する第１の多変量解析の結果に基づいて、複数のグループに分け、
前記抽出データ生成部は、前記グループ設定部によって分けられた前記複数のグループのそれぞれから少なくとも一つずつスペクトルを抽出して、複数のスペクトルが含まれる抽出データを生成し、
前記基底ベクトル取得部は、前記抽出データ生成部によって生成された前記抽出データに対して主成分分析及び独立成分分析を順に行う第２の多変量解析の結果に基づいて第１の基底ベクトルを取得し、
前記基底ベクトル取得部によって取得した前記第１の基底ベクトルを用いて、前記第２のデータに含まれる複数のスペクトルを、前記第１の基底ベクトルの成分にそれぞれ帰属し、前記第１の基底ベクトルの成分の分布を示す画像データを生成することを特徴とする請求項１１に記載の試料データ取得システム。
前記第２のデータに含まれるスペクトルの次元数が、前記第１のデータに含まれるスペクトルの次元数よりも低いことを特徴とする請求項１２に記載のデータ取得システム。
前記グループ設定部は、前記データに含まれる複数のスペクトルを、前記第１の多変量解析の結果に基づいて得られた第２の基底ベクトルによって、前記複数のグループに分けることを特徴とする請求項１２又は請求項１３に記載のデータ取得システム。
前記グループ設定部は、前記データに含まれる複数のスペクトルと、前記第１の多変量解析の結果に基づいて得られた第２の基底ベクトルと、から得られたスコア値に基づいて、前記データに含まれる複数のスペクトルを前記複数のグループに分けることを特徴とする請求項１２又は請求項１３に記載のデータ取得システム。
前記第１の多変量解析が、主成分分析を含むことを特徴とする請求項１２乃至請求項１５のいずれか一項に記載のデータ取得システム。
データに含まれる複数のスペクトルを、前記複数のスペクトルに対する第１の多変量解析の結果に基づいて、複数のグループに分けるグループ設定ステップと、
前記グループ設定ステップによって分けられた前記複数のグループのそれぞれから少なくとも一つずつスペクトルを抽出して、複数のスペクトルが含まれる抽出データを生成する抽出データ生成ステップと、
前記抽出データ生成ステップによって生成された前記抽出データに対して主成分分析及び独立成分分析を順に行う第２の多変量解析の結果に基づいて第１の基底ベクトルを取得する基底ベクトル取得ステップと、
を有することを特徴とするデータ処理方法。
前記グループ設定部は、前記データに含まれる複数のスペクトルを、前記第１の多変量解析の結果に基づいて得られた第２の基底ベクトルによって、前記複数のグループに分けることを特徴とする請求項１７に記載のデータ処理方法。
前記グループ設定部は、前記データに含まれる複数のスペクトルと、前記第１の多変量解析の結果に基づいて得られた第２の基底ベクトルと、から得られたスコア値に基づいて、前記データに含まれる複数のスペクトルを前記複数のグループに分けることを特徴とする請求項１７に記載のデータ処理方法。
前記第１の多変量解析が、主成分分析を含むことを特徴とする請求項１７乃至請求項１９のいずれか一項に記載のデータ処理方法。
コンピュータに、
データに含まれる複数のスペクトルを、前記複数のスペクトルに対する第１の多変量解析の結果に基づいて、複数のグループに分けるグループ設定ステップと、
前記グループ設定ステップによって分けられた前記複数のグループのそれぞれから少なくとも一つずつスペクトルを抽出して、複数のスペクトルが含まれる抽出データを生成する抽出データ生成ステップと、
前記抽出データ生成ステップによって生成された前記抽出データに対して主成分分析及び独立成分分析を順に行う第２の多変量解析の結果に基づいて第１の基底ベクトルを取得する基底ベクトル取得ステップと、
を実行させるためのプログラム。
前記グループ設定部は、前記データに含まれる複数のスペクトルを、前記第１の多変量解析の結果に基づいて得られた第２の基底ベクトルによって、前記複数のグループに分けることを特徴とする請求項２１に記載のプログラム。
前記グループ設定部は、前記データに含まれる複数のスペクトルと、前記第１の多変量解析の結果に基づいて得られた第２の基底ベクトルと、から得られたスコア値に基づいて、前記データに含まれる複数のスペクトルを前記複数のグループに分けることを特徴とする請求項２１に記載のプログラム。
前記第１の多変量解析が、主成分分析を含むことを特徴とする請求項２１乃至請求項２３のいずれか一項に記載のプログラム。
コンピュータに、
データに含まれる複数のスペクトルを、前記複数のスペクトルに対する第１の多変量解析の結果に基づいて、複数のグループに分けるグループ設定ステップと、
前記グループ設定ステップによって分けられた前記複数のグループのそれぞれから少なくとも一つずつスペクトルを抽出して、複数のスペクトルが含まれる抽出データを生成する抽出データ生成ステップと、
前記抽出データ生成ステップによって生成された前記抽出データに対して主成分分析及び独立成分分析を順に行う第２の多変量解析の結果に基づいて第１の基底ベクトルを取得する基底ベクトル取得ステップと、
を実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
前記グループ設定部は、前記データに含まれる複数のスペクトルを、前記第１の多変量解析の結果に基づいて得られた第２の基底ベクトルによって、前記複数のグループに分けることを特徴とする請求項２５に記載の記憶媒体。
前記グループ設定部は、前記データに含まれる複数のスペクトルと、前記第１の多変量解析の結果に基づいて得られた第２の基底ベクトルと、から得られたスコア値に基づいて、前記データに含まれる複数のスペクトルを前記複数のグループに分けることを特徴とする請求項２５に記載の記憶媒体。
前記第１の多変量解析が、主成分分析を含むことを特徴とする請求項２５乃至請求項２７のいずれか一項に記載の記憶媒体。