JP7443815B2

JP7443815B2 - 統計的手法によるクロマトグラムの分類方法

Info

Publication number: JP7443815B2
Application number: JP2020029258A
Authority: JP
Inventors: 原一植松
Original assignee: Tosoh Corp
Current assignee: Tosoh Corp
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2024-03-06
Anticipated expiration: 2040-02-25
Also published as: JP2021135083A

Description

本発明は、クラスター解析を利用したクロマトグラムのパターン推定を行う方法に関するものである。

糖尿病の指標の１つであるヘモグロビン内の糖化ヘモグロビン量（ｓ－Ａ１ｃ）は、臨床現場で多く使用されている。ｓ－Ａ１ｃ％の測定に用いられる高効率液体クロマトグラフィー（ＨＰＬＣ）は、検体を分離し、定性／定量を行うもので、ｓ－Ａ１ｃ％の値と、その分離パターン（クロマトグラム）を得ることができ、検体の特性等を見極め易いとされている。しかしながら、異常ヘモグロビン（鎌状赤血球症、サラセミア症など）と呼ばれる構成成分が通常とは異なるヘモグロビンはその種類も多く、さまざまな溶出パターンを示すため、正常なヘモグロビンと両者を判別することにはかなりの経験が必要とされる。

そこで、過去に蓄積された異常ヘモグロビン検体で得られたクロマトグラムをデータベースとして蓄積し、異常と思われた検体が発生した場合、データベースを検索し、正常か異常か、その種別は何かを推定する方法が提案されている（例えば、非特許文献１参照）。
また、サンプルのクロマトグラムと標準クロマトグラムの形状の類似性を定量的に把握するために、同じ保持時間に対応する両者の波形信号の相関係数を求めるという方法（例えば、特許文献１参照）、クロマトグラムの特徴点を事前に指定した上、データベース化し、取得したクロマトグラムとの類似性からヘモグロビン種を特定する方法（例えば、特許文献２参照）が提案されている。

しかしながら、上記いずれの方法も操作者に煩雑な目視比較を要求したり、ユーザーの習熟度に依存したりと十分な解決方法となっていなかった。

特開平９－２５１０１６号公報特開２０１６－１３３４８６号公報

ＰｈｉｌｉｐｐｅＪｏｌｙ他，ＡｎｎＢｉｏｌＣｌｉｎ２０１０；６８（２）２５４－２５６．

本発明の目的は、クロマトグラムのパターン推定から検体の特性を推測することを可能とする方法を提供する。

前記課題を解決するために、本発明者らは鋭意検討を重ねた結果、本発明に到達した。

すなわち本発明の一態様は、液体クロマトグラフィにより得られる糖化ヘモグロビンのクロマトグラムデータに対して、前記クロマトグラムデータの開始点の出力値が０となるように一次加工を行い、一次加工されたクロマトグラムデータの特定成分ピークの出力値で任意の値を除算して得られる値を、前記一次加工されたクロマトグラムデータに乗算する二次加工を行い、二次加工されたクロマトグラムデータの出力値のうち、規定値を超えている点について前記規定値に置き換える三次加工を行い、得られた三次加工されたクロマトグラムデータのデータ群でクラスター解析することを特徴とする。

以下、本発明について詳細に説明する。

クロマトグラムデータのベースライン位置の違いは、パターンを比較する場合、障害となることがある。機器間差、バッファロット差、その他測定環境差等により、ベースラインの位置に違いが生じる。図１のように、同じようなクロマトグラムデータでも、測定開始時点でのベース位置がゼロの場合と、オフセットを持った場合がある。各成分の定性／定量結果には影響がないが、クロマトグラムデータをパターンとして比較する場合、両者は同類と判定され難くなる。測定開始時点でのベース位置は同じ位置であることが望ましい。
そこで、図１ｂのようなクロマトグラムデータについて開始点での出力値（Ｙ１）を全データ点から差し引き、図１ａのようなオフセットの無いクロマトグラムデータに統一する。すなわち、クロマトグラムデータに対して一次加工を行う。

次に、一次加工を行ったクロマトグラムデータに対して特定成分ピークを指定し、その出力値で任意の値を除算する。特定成分ピークとしては、Ａ０ピーク以外の基準となるピークを指定することが好ましく、ｓ－Ａ１ｃピークが特に好ましい。任意の値は特定成分ピークの出力値を統一するための値であり、除算した結果が０．２～０．６となるような値を選択するとよい。除算した結果をクロマトグラムデータの全データ点に対して乗算する。すなわち、クロマトグラムデータに対して二次加工を行う。

次に、二次加工を行ったクロマトグラムデータの出力値のうち、規定値を超えている点について当該規定値に置き換える。規定値は、ピークとして一番大きいｓ－Ａ１ｃピークの値を参考に決めればよく、それ以外のピークが規定値を超えてしまわないように設定することが好ましい。上記のようにして、クロマトグラムデータに対して三次加工を行う。

例えば、表１のようなクロマトグラムデータがあった場合、まず０．０分（＃１）の出力値が０．０となるように、＃１の出力値を＃１～２２から減ずる（一次加工）。次に、特定成分ピークを４．５分（＃１０）に現れるｓ－Ａ１ｃピークとし、任意の値を３０．０とした場合、任意の値を特定成分ピークの出力値で除算すると、データ１は３０．０／１５．０＝２．０、データ２の場合３０．０／４０．０＝０．７５となる。この比率を、＃１～２２の出力値に乗算する（二次加工）。次に、規定値を１００．０として、二次加工後の出力値が１００．０を超えた場合、当該出力値は１００．０に置き換える。データ１の場合、＃１５～１９が１００．０を超えるため、これらの出力値はすべて１００．０とする。データ２の場合、＃１６～１８が１００．０を超えるため、これらの出力値はすべて１００．０とする（三次加工）。

クロマトグラムデータについて一次加工、二次加工、三次加工を順次行う（以下、「規格化」と表現することがある）ことにより、特定成分ピーク（ｓ－Ａ１ｃピーク）の出力値は同じとなり、巨大なＡ０ピーク部は台形状の波形となる（図２ｂ、３ｂ参照）。この処理により、課題であったｓ－Ａ１ｃを含め他の微小なピークの強度、形状、溶出位置の変化が僅かでも、クロマトグラムのパターンの違いを識別し易くなる。また、ｓ－Ａ１ｃピークの強度のみに違いがあるクロマトグラムであっても、異なるクロマトグラムパターンであると認識され難くなる。

上述の加工処理を行ったクロマトグラムデータ群に対して、クラスター解析を実施し、クラスター分類及び前記クラスターにおける「クラスター中心」を算出する。クラスター中心はそのクラスターに属するとされたクロマトグラムデータの平均を表す波形となる。

クラスター解析の手法及びそのパラメータは、多種存在するが、特に限定するものではない。一例として、「階層的クラスター解析」の手法で下記のパラメータを使用することでクロマトグラムデータの特徴を顕著に反映する結果が得られる。
クラスター：観測値
クラスター方法：最長距離
距離タイプ：コサイン距離
クラスター数：ｎ

未知検体についても、クロマトグラムデータを規格化することにより、クラスター解析を行って、各クラスターのクラスター中心と比較し、どのクラスター分類に最も近いかを判断することが可能となる。
クラスターの距離計算方法として「コサイン距離」を選択している場合、最も大きな値（１に近い値）を示したクラスターが、最も類似性が高いと判断することができる。

また、正常なクロマトグラムパターンと推測される特定のクラスターとのコサイン距離を算出し、その数値の大小で、未知検体のヘモグロビン種が正常なヘモグロビン種か異常なヘモグロビン種かを推定するという態様も利用可能である。
なお、（１）検体に劣化が無い、（２）検体そのものが正常なヘモグロビン種である、（３）装置、測定状態等のコンディションが良好であること、の全てが成立した場合、正常なクロマトグラムデータが得られる可能性が高いため、それらのデータ群が属しているクラスターを特定のクラスターに選択しておくことが好ましい。

さらに、クロマトグラムデータ群が多種大量にあり、各クラスターがどのような特性から分類されているかを推測できる情報が十分にあれば、未知検体のヘモグロビン種の種別を推定する、未知検体が正常な環境で測定されたものか異常な環境で測定されたものかを推定するといった態様も利用可能である。

本発明により、クロマトグラムのパターン推定から検体の特性を推測することが可能となる。

クロマトグラムデータの１次加工を模式的に示した図である。クロマトグラムデータの２次加工、３次加工を模式的に示した図である。クロマトグラムデータの２次加工、３次加工を模式的に示した図である。実施例で用いたシステム構成を示した図である。クロマトグラムデータの規格化の流れを示した図である。クロマトグラムデータに対して、規格化を行う様子を示した図である。実施例で得られた樹形図を模式的に示した図である。実施例で得られたクラスター解析により得られた複数のクラスター中心を基に、未知検体がどのクラスターに属するかを計算する「クラスター解析ツール」の画面構成を示した図である。「クラスター解析ツール」により、未知検体を解析した結果の一例を示した図である。「クラスター解析ツール」により、未知検体を解析した結果の一例を示した図である。「クラスター解析ツール」により、未知検体を解析し、「正常なクロマトグラムパターン」と推定された結果の一例を示した図である。「クラスター解析ツール」により、未知検体を解析し、「異常なクロマトグラムパターン」と推定された結果の一例を示した図である。

以下に本発明の実施例を説明するが、本発明はこれら実施例により何ら制限されるものではない。

図４に検証に使用したシステム構成を示す。なお、検証には、東ソー（株）製「グリコヘモグロビン分析計ＧＨｂＶＩＩＩ」バリアント測定モードで得られたクロマトグラムを用いた。データ取得には、全て、東ソー（株）が提供している、同機種／モード用の専用溶離液、専用カラム、標準測定条件で実施した。クラスター解析にはＯｒｉｇｉｎ２０２０（ＬｉｇｈｔＳｔｏｒｎ社）と、独自に開発したクラスター解析ツールを使用した。

まず、データ記憶、管理プログラム「ＲＰ＋」に保存された約４０００件のクロマトグラムデータ（時間、出力）を無作為に抽出し、後述するデータ加工を行った。図５は規格化の流れを示した図である。

図６に示す２つのクロマトグラムを例として規格化の手順を示す。
一次加工としてデータ１、データ２のベースライン位置は約２００となっている。データ収集開始点（０．００分）時の出力値を差し引き、ベースライン位置がどのデータでも０．０とした。
次に、二次加工として０．９分付近に溶出するｓ－Ａ１ｃピークを同定し、その溶出時間での出力値を取得し（データ１：２１．１４２、データ２：１４．００４）、任意の値を３０．０として比率（データ１：１．４１９、データ２：２．１４２）を計算し、この比率を各々の一次加工後の出力値に乗じてｓ－Ａ１ｃピークが３０となるように調整した。
次に、三次加工として１００．０を超えたデータ点は、全て１００．０とした。

データ記憶、管理プログラムに保存された４０００件のクロマトグラムデータ（時間、出力）に対して規格化を行った後、クラスター解析を実施し、クラスター分類及び前記クラスターにおけるクラスター中心（平均的なクロマトグラム）を算出した。なお、特定成分ピークが何らかの理由で特定できない場合は、「エラー」として、データ加工は行わなかった。

クラスター解析の条件は以下の通りである。
クラスター：観測値
クラスター方法：最長距離
距離タイプ：コサイン距離
標準化変数：なし

コサイン距離（Ｙ軸）を０．６６とした場合、Ａ１、Ａ２、Ａ３の３つのグループに分けることができた。更に、コサイン距離（Ｙ軸）を０．５２とした場合、前記Ａ１のグループは３つ（Ｂ１、Ｂ２、Ｂ３）に分けられ、前記Ａ３のグループは２つ（Ｂ５、Ｂ６）に分けられ、併せて６つのグループに分けることができた。更に、コサイン距離（Ｙ軸）を０．１８とした場合、併せて３３個のグループに分けることができた（図７参照）。

（実施例１）
クラスター数を３３として、クラスター中心による、未知検体＃１０１５９００４のクラスター分けが正確に行われるか、クラスター解析ツール２０を作成して検証を行った。
クラスター解析ツール２０について説明する。

図８に「クラスター解析ツール」のメイン画面を示す。
（１）にて、クラスター中心を登録する。本例では、前述の３３に分類されたクラスター中心を指定する。
（２）にて、「規格化処理」を行うか否かを指示する。
（３）にて、検査対象の未知データを指定する。
（４）にて、解析が実行される。
（５）指定された未知検体のクロマトグラムと各クラスター中心とのコサイン距離が１．００に近い順に、クラスター名、コサイン距離及び値が反映される棒グラフを表示する。
（６）指定された未知検体の定性／定量結果を表示する。
（７）コサイン距離が最も１．００に近い、クラスター名、コサイン距離を表示する。
（８）、（９）指定された未知検体のクロマトグラムとコサイン距離が最も１．００に近いクラスター中心を表示する。

解析の結果、第一位としてコサイン距離０．９８８でクラスター２１が最も類似性があるとされた。クラスター２１のクラスター中心と未知検体＃１０１５９００４の加工後クロマトグラムデータを比べると、類似性が高いことが確認できた。

同様に、未知検体データ＃１１２１００１７についても解析を実施した。解析の結果、コサイン距離０．９３３でクラスター２２が最も類似性があるとされた（図９ａ参照）。また、比較として未知検体データ＃１１２１００１７について１次加工のみを行ったクロマトグラムデータでもクラスター解析を実施した。この場合、コサイン距離０．９９４でクラスター４が最も類似性があるとされたが、クロマトグラムの前半部分（Ａ１Ｂ～Ｆの領域）で明らかな差異が確認できた（図９ｂ参照）。

同様に、未知検体データ＃１０１８００１３についても解析を実施した。解析の結果、コサイン距離０．９８３でクラスター３１が最も類似性があるとされた（図１０ａ参照）。また、比較として未知検体データ＃１０１８００１３について１次加工のみを行ったクロマトグラムデータにでもクラスター解析を実施した。この場合、コサイン距離０．９８７でクラスター４が最も類似性があるとされたが、０．４分付近のＦピーク領域でパターンが異なることが確認できた（図１０ｂ参照）。

（実施例２）
正常クロマトグラム波形と推測されるクラスター１と未知検体とのコサイン距離の大きさから、測定したデータが「正常な波形（クロマトグラム）」と「異常な波形（クロマトグラム）」とに分けることが可能か検証を行った。基準は、以下の通りとした。
コサイン距離≧０．９０：正常なクロマト波形と推測
コサイン距離＜０．９０：正常クロマト波形とは異なると推測

図１１はコサイン距離が０．９０以上とされた未知検体のクロマトグラムデータの一部を示した図である。また、図１２はコサイン距離が０．９０未満とされた未知検体のクロマトグラムデータの一部を示した図である
図１１から分かるように、コサイン距離が０．９０以上とされたクロマトグラムと、指定のクラスター中心を比較すると、類似性が高いことが確認できた。
図１２から分かるように、コサイン距離が０．９０未満とされたクロマトグラムと、指定のクラスター中心を比較すると、明らかな差異が確認できた。

１．グリコヘモグロビン分析計
２．バッファ１
３．バッファ２
４．バッファ３
５．脱気装置
６．バッファ１用流路切り替え替機構
７．バッファ２用流路切り替え替機構
８．バッファ３用流路切り替え替機構
９．送液ポンプ
１０．検体希釈／注入機構
１１．ラインフィルタ
１２．プレヒートコイル
１３．分析カラム
１４．可視光検出器
１５．恒温槽
１６．データ処理用ＰＣ
１７．データ記憶、管理プログラム
１８．クラスター解析用ＰＣ
１９．クラスター解析プログラム
２０．クラスター解析ツール

Claims

液体クロマトグラフィにより得られる糖化ヘモグロビンのクロマトグラムデータに対して、
前記クロマトグラムデータの開始点の出力値が０となるように一次加工を行い、
一次加工されたクロマトグラムデータのｓ－Ａ１ｃピークの出力値で任意の値を除算して得られる値を、前記一次加工されたクロマトグラムデータに乗算する二次加工を行い、
前記任意の値が前記除算して得られる値が０．２～０．６となる値であり、
二次加工されたクロマトグラムデータの出力値のうち、規定値を超えている点について前記規定値に置き換える三次加工を行い、
得られた三次加工されたクロマトグラムデータのデータ群でクラスター解析することを特徴とする方法。
液体クロマトグラフィにより得られる未知検体の糖化ヘモグロビンのクロマトグラムデータに対して、請求項１に記載の方法でクラスター解析を行い、最も類似性の高いクラスターを推定する方法。
三次加工されたクロマトグラムデータから、未知検体のヘモグロビン種が正常なヘモグロビン種か異常なヘモグロビン種かを推定する、請求項２に記載の方法。
三次加工されたクロマトグラムデータから、未知検体のヘモグロビン種の種別を推定する、請求項２に記載の方法。
三次加工されたクロマトグラムデータから、未知検体が正常な環境で測定されたものか異常な環境で測定されたものかを推定する、請求項２に記載の方法。