JP2022056512A

JP2022056512A - 統計的手法によるクロマトグラムの分類方法

Info

Publication number: JP2022056512A
Application number: JP2020164304A
Authority: JP
Inventors: 原一植松; Genichi Uematsu
Original assignee: Tosoh Corp
Current assignee: Tosoh Corp
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-04-11
Anticipated expiration: 2040-09-30

Abstract

【課題】クロマトグラムのパターン推定から検体特性の推測を可能とする方法を提供する。【解決手段】液体クロマトグラフィにより得られる糖化ヘモグロビンのクロマトグラムデータの開始点の出力値を０とする一次加工を行い、一次加工後のクロマトグラムの２以上の基準成分ピークの溶出時間が夫々一定となるように２以上の溶出時間範囲に分けて、時間軸の補正する二次加工を行い、二次加工後のクロマトグラムデータの時間間隔を一定に揃える三次加工を行い、三次加工後のクロマトグラムデータの特定成分ピークの出力値で任意の値を除算して得られる値を、前記三次加工後のクロマトグラムデータに乗算する四次加工を行い、四次加工後のクロマトグラムデータの出力値のうち、規定値を超えている点について前記規定値に置き換える五次加工を行ったクロマトグラムデータ群でクラスター解析することを特徴とする方法。【選択図】図６

Description

本発明は、クラスター解析を利用したクロマトグラムのパターン推定を行う方法に関するものである。

糖尿病の指標の１つであるヘモグロビン内の糖化ヘモグロビン量（ｓ－Ａ１ｃ）は、臨床現場で多く使用されている。ｓ－Ａ１ｃ％の測定に用いられる高効率液体クロマトグラフィー（ＨＰＬＣ）は、検体を分離し、定性／定量を行うもので、ｓ－Ａ１ｃ％の値と、その分離パターン（クロマトグラム）を得ることができ、検体の特性等を見極め易いとされている。しかしながら、異常ヘモグロビン（鎌状赤血球症、サラセミア症など）と呼ばれる構成成分が通常とは異なるヘモグロビンはその種類も多く、さまざまな溶出パターンを示すため、正常なヘモグロビンと両者を判別することにはかなりの経験が必要とされる。

そこで、過去に蓄積された異常ヘモグロビン検体で得られたクロマトグラムをデータベースとして蓄積し、異常と思われた検体が発生した場合、データベースを検索し、正常か異常か、その種別は何かを推定する方法が提案されている（例えば、非特許文献１参照）。

また、サンプルのクロマトグラムと標準クロマトグラムの形状の類似性を定量的に把握するために、同じ保持時間に対応する両者の波形信号の相関係数を求めるという方法（例えば、特許文献１参照）、クロマトグラムの特徴点を事前に指定した上、データベース化し、取得したクロマトグラムとの類似性からヘモグロビン種を特定する方法（例えば、特許文献２参照）が提案されている。

しかしながら、上記いずれの方法も操作者に煩雑な目視比較を要求したり、ユーザーの習熟度に依存したりと十分な解決方法となっていなかった。

特開平９－２５１０１６号公報特開２０１６－１３３４８６号公報

ＰｈｉｌｉｐｐｅＪｏｌｙ他，ＡｎｎＢｉｏｌＣｌｉｎ２０１０；６８（２）２５４－２５６．

クロマトグラムのパターン推定から検体の特性を推測することを可能とする方法を提供する。

前記課題を解決するために、本発明者らは鋭意検討を重ねた結果、本発明に到達した。

すなわち本発明の一態様は、液体クロマトグラフィにより得られる糖化ヘモグロビンのクロマトグラムデータに対して、
前記クロマトグラムデータの開始点の出力値が０となるように一次加工を行い、
一次加工されたクロマトグラムの２以上の基準成分ピークの溶出時間が夫々一定となるように２以上の溶出時間範囲に分けて、時間軸の補正する二次加工を行い、
二次加工されたクロマトグラムデータの時間間隔を一定に揃える三次加工を行い、
三次加工されたクロマトグラムデータの特定成分ピークの出力値で任意の値を除算して得られる値を、前記三次加工されたクロマトグラムデータに乗算する四次加工を行い、
四次加工されたクロマトグラムデータの出力値のうち、規定値を超えている点について前記規定値に置き換える五次加工を行い、
得られた五次加工されたクロマトグラムデータのデータ群でクラスター解析することを特徴とする。

これらの工程は、一次加工、二次加工、三次加工、四次加工、五次加工の順で実施されるが、二次加工、三次加工、一次加工、四次加工、五次加工の順で実施しても、同じ計算結果が得られるため、データ加工の順番に限定されるものではない。

以下、本発明について詳細に説明する。

クロマトグラムデータのベースライン位置の違いは、パターンを比較する場合、障害となることがある。機器間差、カラムロット差、バッファロット差、その他測定環境差等により、ベースラインの位置や成分ピークの溶出時間に違いが生じる。

図１のように、同じようなクロマトグラムデータでも、測定開始時点でのベース位置がゼロの場合と、オフセットを持った場合がある。各成分の定性／定量結果には影響がないが、クロマトグラムデータをパターンとして比較する場合、両者は同類と判定され難くなる。測定開始時点でのベース位置は同じ位置であることが望ましい。

そこで、図１ｂのようなクロマトグラムデータについて開始点での出力値（Ｙ１）を全データ点から差し引き、図１ａのようなオフセットの無いクロマトグラムデータに統一する。すなわち、クロマトグラムデータに対して一次加工を行う。

また、溶出パターンにずれが生じ、異なるパターンとして認識される可能性がある。そこで、２以上の成分を基準ピークとして指定し、溶出時間が夫々一定となるよう、２以上の溶出時間範囲を分けて時間軸の補正を実施する。糖化ヘモグロビンのクロマトグラムのパターンを比較する場合、ｓ－Ａ１ｃピークとＡ０ピークが重要視されることから、ｓ－Ａ１ｃピークとＡ０ピークを基準ピークとして指定することが好ましく、溶出時間範囲を分ける時間は、この２成分の溶出時間の谷間の時間帯を指定することが好ましい。

まず、事前にｓ－Ａ１ｃ基準溶出時間（Ｔｓ０＿Ａ）、Ａ０ピークの基準溶出時間（Ｔｓ０＿Ｂ）及び補正係数の切替時間（Ｔ０）を決めておく。この基準溶出時間と補正係数切替時間は、日常の検査／測定で得られた溶出時間の平均値を使用したり、標準試料（キャリブレータやコントロール検体）の値を使用しても良く、特に限定は無い。

次に、未知クロマトグラムに対して時間軸の補正を行う。得られたｓ－Ａ１ｃ溶出時間（Ｔｕ１＿Ａ）、および、Ａ０ピークの溶出時間（Ｔｕ１＿Ｂ）と前記の基準溶出時間との比（補正係数）を算出する。
ｓ－Ａ１ｃピークの補正係数（ｋ１）＝（Ｔｓ０＿Ａ）／（Ｔｕ１＿Ａ）
Ａ０ピークの補正係数（ｋ２）＝（Ｔｓ０＿Ｂ）／（Ｔｕ１＿Ｂ）
次に、前記２つの補正係数でクロマトグラムの時間軸の補正を行うが、前記切替時間（Ｔ０）は、ｓ－Ａ１ｃピークとＡ０ピークが最も分離できている時間（谷の部分）に近い値が良い。未知のクロマトグラムに対して、個別に切り替える時間（Ｔ０）を指定しても良いが、全ての未知もクロマトグラムに対し同一の時間を使用しても良い。

クロマトグラムの開始時間（通常はゼロ分）から、切り替える時間（Ｔ０）までは、各クロマトグラムのデータ点の時間の項にｓ－Ａ１ｃピークの補正係数（ｋ１）を乗算し、切り替える時間（Ｔ０）以降は、各クロマトグラムのデータ点の時間の項にＡ０ピークの補正係数（ｋ２）を乗算し、ｓ－Ａ１ｃピークとＡ０ピークの溶出時間が一定となるクロマトグラムデータとする。すなわち、クロマトグラムデータに対して二次加工を行う（図２参照）。

次に、二次加工を行ったクロマトグラムデータに対して、ゼロ分～溶出時間範囲を分ける時間までと、溶出時間範囲を分ける時間以降でサンプリングピッチを揃える補間処理を施す。すなわち、クロマトグラムデータに対して三次加工を行う（図３参照）。

次に、三次加工を行ったクロマトグラムデータに対して特定成分ピークを指定し、その出力値で任意の値を除算する。特定成分ピークとしては、Ａ０ピーク以外の基準となるピークを指定することが好ましく、ｓ－Ａ１ｃピークが特に好ましい。任意の値は特定成分ピークの出力値を統一するための値であり、除算した結果が０．２～０．６となるような値を選択するとよい。任意の値を３０．０とした場合、任意の値を特定成分ピークの出力値で除算すると、出力値が１５．０の場合には３０．０／１５．０＝２．０、出力値が４０．０の場合には３０．０／４０．０＝０．７５となる。この除算した結果をクロマトグラムデータの全点に対して乗算する。すなわち、クロマトグラムデータに対して四次加工を行う。

次に、四次加工を行ったクロマトグラムデータの出力値のうち、規定値を超えている点について当該規定値に置き換える。規定値は、ピークとして一番大きいＡ０ピークの値を参考に決めればよく、それ以外のピークが規定値を超えてしまわないように設定することが好ましい。上記のようにして、クロマトグラムデータに対して五次加工を行う。

例えば、表１のようなクロマトグラムデータがあった場合、まず、時間軸方向の補正を実施する。ここでは、ｓ－Ａ１ｃピークの基準溶出時間を０．６５７分、Ａ０ピークの基準溶出時間を１．０１０分、切り替え時間を０．８５０分とした。各検体の測定結果からｓ－Ａ１ｃピークの溶出時間、Ａ０ピークの溶出時間を取得し、前記基準溶出時間との比から２つの補正係数（ｋ１、ｋ２）を算出した。データＡのｋ１は０．９７５２、ｋ２は０．９９０２、データＢのｋ１は０．９５１７、ｋ２は０．９９３４と夫々算出された（表２参照）。

次に、各クロマトグラムの時間軸方向の補正を行う。ここでは切り替え時間を０．８５０分と設定したので、０分～０．８５０分までは第一の補正係数ｋ１、０．８５０分以降は第二の補正係数ｋ２を用いて補正した。

データＡでは、生データに対して０分～０．８５０分まではｋ１：０．９７５２を乗じ、０．８５０分以降はｋ２：０．９９０２を乗じて補正時間を算出した。データＢでは、生データに対して０分～０．８５０分まではｋ１：０．９５１７を乗じ、０．８５０分以降はｋ２：０．９９３４を乗じて補正時間を算出した（二次加工）。この処理により、データ毎に時間の間隔（ピッチ）が異なるようになり、以降の定量計算等に支障が出るため、補間処理により時間の間隔（ピッチ）を揃える処理を施した（三次加工）。ここでは、クロマトグラムを取得した場合と同じ２００ｍｓに揃えた。表１からも分かるように、この処理により時間間隔が同じになり、ｓ－Ａ１ｃの基準時間である０．６５７分となった。同様に、Ａ０の基準時間である１．０１０分となった。このようにデータＡ、Ｂでｓ－Ａ１ｃのピーク、Ａ０のピークの溶出時間が各々の基準時間と合致するようになった。なお、ここでは、オフセット処理も併せて実施した（一次加工）。

次に、出力軸の規格化（高さ）を実施した。ここでは、ｓ－Ａ１ｃピークの高さを３０となるように規格化、また、規格化後、１００を超えた場合は、全て１００とする処理を実施した（四次加工及び五次加工）。

データＡでは０．６５７分のｓ－Ａ１ｃピーク高さが７．５８８であり、高さ規格化の補正係数ｆは３．９５４となる。このことから、規格化後の値が２５．２９３を超えた場合は補正出力（高さ）が１００となる。データＢでは０．６５７分のｓ－Ａ１ｃピーク高さが３１．６０４であり、高さ規格化の補正係数ｆは０．９４９となる。このことから、規格化後の値が１０５．３５２を超えた場合は補正出力（高さ）が１００となる（表３参照）。

このようにデータＡ、Ｂでｓ－Ａ１ｃの出力が３０に統一され、Ａ０のピークは１００を最大とした台形状の波形となった。

クロマトグラムデータについて一次加工、二次加工、三次加工、四次加工、五次加工もしくは、二次加工、三次加工、一次加工、四次加工、五次加工を順次行うことにより、特定成分ピーク（ｓ－Ａ１ｃ、Ａ０ピーク）の溶出時間は一定となり、特定成分ピーク（ｓ－Ａ１ｃピーク）の出力値は同じとなり、巨大なＡ０ピーク部は台形状の波形となる（図４ｂ、５ｂ参照）。この処理により、課題であったｓ－Ａ１ｃを含め他の微小なピークの強度、形状、溶出位置の変化が僅かでも、クロマトグラムのパターンの違いを識別し易くなる。また、ｓ－Ａ１ｃピークの強度のみに違いがあるクロマトグラムであっても、異なるクロマトグラムパターンであると認識され難くなる。

上述の加工処理を行ったクロマトグラムデータ群に対して、クラスター解析を実施し、クラスター分類及び前記クラスターにおける「クラスター中心」を算出する。クラスター中心はそのクラスターに属するとされたクロマトグラムデータの平均を表す波形となる。

クラスター解析の手法及びそのパラメータは、多種存在するが、特に限定するものではない。一例として、「階層的クラスター解析」の手法で下記のパラメータを使用することでクロマトグラムデータの特徴を顕著に反映する結果が得られる。

クラスター：観測値
クラスター方法：最長距離
距離タイプ：コサイン距離
クラスター数：ｎ
未知検体についても、クロマトグラムデータについて上述した一次加工、二次加工、三次加工、四次加工、五次加工もしくは、二次加工、三次加工、一次加工、四次加工、五次加工を順次行った後、クラスター解析を行って、各クラスターのクラスター中心と比較し、どのクラスター分類に最も近いかを判断することが可能となる。

クラスターの距離計算方法として「コサイン距離」を選択している場合、最も大きな値（１に近い値）を示したクラスターが、最も類似性が高いと判断することができる。

また、正常なクロマトグラムパターンと推測される特定のクラスターとのコサイン距離を算出し、その数値の大小で、未知検体のヘモグロビン種が正常なヘモグロビン種か異常なヘモグロビン種かを推定するという態様も利用可能である。

なお、（１）検体に劣化が無い、（２）検体そのものが正常なヘモグロビン種である、（３）装置、測定状態等のコンディションが良好であること、の全てが成立した場合、正常なクロマトグラムデータが得られる可能性が高いため、それらのデータ群が属しているクラスターを特定のクラスターに選択しておくことが好ましい。

さらに、クロマトグラムデータ群が多種大量にあり、各クラスターがどのような特性から分類されているかを推測できる情報が十分にあれば、未知検体のヘモグロビン種の種別を推定する、未知検体が正常な環境で測定されたものか異常な環境で測定されたものかを推定するといった態様も利用可能である。

本発明により、クロマトグラムのパターン推定から検体の特性を推測することが可能となる。

クロマトグラムデータの一次加工を模式的に示した図である。クロマトグラムデータの二次加工を模式的に示した図である。クロマトグラムデータの三次加工を模式的に示した図である。クロマトグラムデータの四次加工、五次加工を模式的に示した図である。クロマトグラムデータの四次加工、五次加工を模式的に示した図である。実施例で用いたシステム構成を示した図である。クロマトグラムデータのデータ加工の流れを示した図である。クロマトグラムデータに対して、データ加工を行う前の状態を示した図である。クロマトグラムデータに対して、一次加工、二次加工及び三次加工を行う様子を示した図である。一次加工、二次加工及び三次加工されたクロマトグラムデータに対して、四次加工及び五次加工を行う様子を示した図である。実施例で得られた樹形図を模式的に示した図である。本発明の規格化処理にて得られた樹形図を示した図である。出力軸（高さ）の規格化処理のみにて得られた樹形図を示した図である。１７に分類されたクラスターのうち、１から９に分類されたクラスター中心（群の平均クロマトグラム）を示した図である。１７に分類されたクラスターのうち、１０から１７に分類されたクラスター中心（群の平均クロマトグラム）を示した図である。「クラスター解析ツール」により、未知検体を解析した結果の一例を示した図である。「クラスター解析ツール」により、未知検体を解析した結果の一例を示した図である。「クラスター解析ツール」により、未知検体を解析した結果の一例を示した図である。「クラスター解析ツール」により、未知検体を解析した結果の一例を示した図である。最も近いクラスター種とのコサイン距離とデータ数のヒストグラムである。各データと夫々の最も近いクラスター種とのコサイン距離をプロットしたものである。

以下に本発明の実施例を説明するが、本発明はこれら実施例により何ら制限されるものではない。

図６に検証に使用したシステム構成を示す。なお、検証には、東ソー（株）製「グリコヘモグロビン分析計ＨＬＣ－７２３ＧＸ」で得られたクロマトグラムを用いた。データ取得には、全て、東ソー（株）が提供している、同機種／モード用の専用溶離液、専用カラム、標準測定条件で実施した。検証に使用したグリコヘモグロビン分析計は、組成の異なる３種類の溶離液を指定した時間で切り替えるグラジエントを使用したイオン交換クロマトグラフィである。クラスター解析にはＯｒｉｇｉｎ２０２０（ＬｉｇｈｔＳｔｏｒｎ社）と、マイクロソフト社の表計算ソフトでＥＸＣＥＬを使用して実施した。

まず、データ記憶、管理プログラム「ＲＰ＋」に保存された多数のクロマトグラムデータ（時間、出力）を抽出し、後述するデータ加工を行った。図７はクロマトグラムの加工の流れを示した図である。

図８に示す２つのクロマトグラムを例として手順を示す。まず事前に、ｓ－Ａ１ｃとＡ０ピークの溶出時間に範囲内で時間軸の補正式の切替時間と、ｓ－Ａ１ｃとＡ０ピークの基準となる溶出時間を指定しておく。更に一次加工としてデータ１、データ２のデータ収集開始点（０．００分）時の出力値を差し引き、ベースライン位置がどのデータでも０．０とした。

次に、二次加工としてｓ－Ａ１ｃピーク及びＡ０ピークを同定し、その溶出時間を取得する。ｓ－Ａ１ｃピークの溶出時間と基準ｓ－Ａ１ｃピークの溶出時間の比率から時間の補正係数を算出し、Ａ０ピークの溶出時間と基準Ａ０ピークの溶出時間の比率から時間の補正係数を算出し、測定開始から切り替える時間までは、ｓ－Ａ１ｃピークから得られた前記補正係数にて、切り替える時間から測定終了までは、Ａ０ピークから得られた前記補正係数にて、時間軸を補正した。

二次加工を行うことで、時間間隔がデータにより異なってくることから、三次加工として時間間隔が同じになるように補間処理を施した（図９参照）。

次に、四次加工としてｓ－Ａ１ｃピークのピーク高さを算出し、基準値３０との比率を算出し、その比率を出力値に乗じて、出力軸を規格化した。

次に、五次加工として１００．０を超えたデータ点は、全て１００．０とした（図１０参照）。

データ記憶、管理プログラムに保存された６０５件のクロマトグラムデータ（時間、出力）に対してデータ加工を行った後、クラスター解析を実施し、クラスター分類及び前記クラスターにおけるクラスター中心（平均的なクロマトグラム）を算出した。なお、特定成分ピークが何らかの理由で特定できない場合は、「エラー」として、データ加工は行わなかった。

クラスター解析の条件は以下の通りである。

クラスター：観測値
クラスター方法：最長距離
距離タイプ：コサイン距離
標準化変数：なし
コサイン距離（Ｙ軸）を０．５６とした場合、Ａ１、Ａ２の３つのグループに分けることができた。更に、コサイン距離（Ｙ軸）を０．３４とした場合、前記Ａ１のグループは４つ（Ｂ１、Ｂ２、Ｂ３、Ｂ４）に分けられ、併せて５つのグループに分けることができた。更に、コサイン距離（Ｙ軸）を０．０７とした場合、併せて１７個のグループに分けることができた（図１１参照）。

（実施例１）
異常ヘモグロビン種を含む検体を測定し、クロマトグラム、定量／定性結果を取得しクラスター解析を実施した。また、本発明の効果を明確にするため、時間軸の補正を行わないでクラスター解析を行った場合との比較も同時に実施した。

図１２に本発明の時間軸の補正および出力軸（高さ）の規格化処理にて得られた樹形図、比較にために、図１３に出力軸（高さ）の規格化処理のみにて得られた樹形図を夫々示す。

クラスター１～１７に分類されたデータ数を表４に示す。このように分類されたデータの平均から「クラスター中心」を算出する。

図１４及び図１５に１７に分類された各クラスター中心（群の平均クロマトグラム）を示す。図１４ａ及び図１５ａは高さ規格化のみで解析した結果であり、図１４ｂ及び図１５ｂは本発明の時間補正および高さ規格化を実施した場合の結果を示した図である。図中、クラスター＃の右のｎは、そのクラスターに属するとされたデータ数を示している。これまでの知見により、高さのみの規格化処理（図１４ａ）ではクラスター４と６が、本発明の処理（図１４ｂ）ではクラスター４と５が夫々正常なヘモグロビン種のクロマトグラムであることが分かる。

また、高さのみの規格化処理（図１４ａ、１５ａ）の場合と、本発明の処理（図１４ｂ、１５ｂ）では、分類のされ方が異なった。

次に、ここで結果を用いて、未知の検体のクロマトグラムの分類の検証を行った。検証方法は、前述のクラスター解析で用いた方法で実施した（未知検体数：１１６６件）。前記で得られた各クラスター中心波形とのコサイン距離を算出し、最も大きな値（１．００に近い）を示すクラスターが、最も類似性が高いと推測した。また、ここでも、高さの規格化処理のみを行った場合と比較を行った。

検証に用いたクロマトグラムは、前述のクラスター解析で使用したものとは異なるものを選択している。図１６～１９に、検証に用いたクロマトグラムと、最も類似性が高いとされたクラスター中心波形（クロマトグラム）を重ね描いた図を示す。いずれも、図のａは高さの規格化処理のみ実施した場合の結果、図のｂは、本発明の処理を実施した場合の結果を示している。

図１６はデータ＃３１の結果である。高さの規格化処理のみ実施した場合はクラスター５、本発明の処理を実施した場合はクラスター５と夫々判定された。高さの規格化処理のみ実施した場合では、クラスター中心波形（クロマトグラム）と大きな差異が見てとれる。特に、Ａ０ピークの前半部に大きな差があり、コサイン距離は０．９０程度であった。一方、本発明の処理を実施した場合では、クラスター中心波形（クロマトグラム）と類似性が非常に高く、コサイン距離は０．９９以上であった。

図１７はデータ＃１０１の結果である。高さの規格化処理のみ実施した場合はクラスター５、本発明の処理を実施した場合はクラスター４と夫々判定された。高さの規格化処理のみ実施した場合では、クラスター中心波形（クロマトグラム）と大きな差異が見てとれる。特に、Ａ０ピークの前半部に大きな差があり、コサイン距離は０．９５程度であった。一方、本発明の処理を実施した場合では、クラスター中心波形（クロマトグラム）と類似性が非常に高く、コサイン距離は０．９９以上であった。

図１８はデータ＃７５０の結果である。高さの規格化処理のみ実施した場合はクラスター５、本発明の処理を実施した場合はクラスター５と夫々判定された。高さの規格化処理のみ実施した場合では、クラスター中心波形（クロマトグラム）と大きな差異が見てとれる。特に、Ａ０ピークの前半部に大きな差があり、コサイン距離は０．８８程度であった。一方、本発明の処理を実施した場合では、クラスター中心波形（クロマトグラム）と類似性が非常に高く、コサイン距離は０．９９以上であった。

図１９はデータ＃９９０の結果である。高さの規格化処理のみ実施した場合はクラスター５、本発明の処理を実施した場合はクラスター５と夫々判定された。高さの規格化処理のみ実施した場合では、クラスター中心波形（クロマトグラム）と大きな差異が見てとれる。特に、Ａ０ピークの前半部に大きな差があり、コサイン距離は０．９１程度であった。一方、本発明の処理を実施した場合では、クラスター中心波形（クロマトグラム）と類似性が非常に高く、コサイン距離は０．９９以上であった。

実施したケースにおいて、図１６（データ＃３１）、図１８（データ＃７５０）、図１９（データ＃９９０）ではｓ－Ａ１ｃピークの溶出時間と、選択されたクラスター中心波形（クロマトグラム）のｓ－Ａ１ｃピークの溶出時間に差異があることから、高さの規格化処理のみでは類似性が低くなっている。一方、本発明の場合、ｓ－Ａ１ｃピークおよびＡ０ピーク溶出時間が同じになるように処理されていることから、溶出時間の変動があるようなケースでも１．００に近いコサイン距離が得られるようになる。つまり、類似性の判断がより正確に行えていることを示している。

（実施例２）
未知検体数：１１６６件の全データを用いて集計を行った。図２０は、最も近いクラスター種とのコサイン距離とデータ数のヒストグラムである。横軸はコサイン距離（区間）、縦軸は頻度（データ数）をプロットしたものである。図２１は、横軸はデータ＃、縦軸は最も近いクラスター種とのコサイン距離をプロットしたものである。ここから分かるように、高さの規格化処理のみ実施した場合は、０．８５～０．９５程度であり、０．９８５以上となるデータが殆どないのに対して、本発明の処理を実施した場合は、殆どのデータで０．９９以上の値となっている。

以上説明の通り、本発明の方法を用いることで、施設間差、装置間差、使用環境等に起因する溶出時間の変動をキャンセルでき、その結果、事前に取得した多様なクロマトグラム群で統計計算された複数のクラスター中心波形（クロマトグラム）と、未知検体測定で得られるクロマトグラムとの類似性を的確に、より精度よく類推することが可能となり、自動で、異常ヘモグロビン種の特定等を推測することも容易となった。

１．グリコヘモグロビン分析計
２．バッファ１
３．バッファ２
４．バッファ３
５．脱気装置
６．バッファ１用流路切り替え替機構
７．バッファ２用流路切り替え替機構
８．バッファ３用流路切り替え替機構
９．送液ポンプ
１０．検体希釈／注入機構
１１．ラインフィルタ
１２．プレヒートコイル
１３．分析カラム
１４．可視光検出器
１５．恒温槽
１６．データ処理用ＰＣ
１７．データ記憶、管理プログラム
１８．クラスター解析用ＰＣ
１９．クラスター解析プログラム
２０．クラスター解析ツール

Claims

液体クロマトグラフィにより得られる糖化ヘモグロビンのクロマトグラムデータに対して、
前記クロマトグラムデータの開始点の出力値が０となるように一次加工を行い、
一次加工されたクロマトグラムの２以上の基準成分ピークの溶出時間が夫々一定となるように２以上の溶出時間範囲に分けて、時間軸の補正する二次加工を行い、
二次加工されたクロマトグラムデータの時間間隔を一定に揃える三次加工を行い、
三次加工されたクロマトグラムデータの特定成分ピークの出力値で任意の値を除算して得られる値を、前記三次加工されたクロマトグラムデータに乗算する四次加工を行い、
四次加工されたクロマトグラムデータの出力値のうち、規定値を超えている点について前記規定値に置き換える五次加工を行い、
得られた五次加工されたクロマトグラムデータのデータ群でクラスター解析することを特徴とする方法。
液体クロマトグラフィにより得られる未知検体の糖化ヘモグロビンのクロマトグラムデータに対して、請求項１に記載の方法でクラスター解析を行い、最も類似性の高いクラスターを推定する方法。
五次加工されたクロマトグラムデータから、未知検体のヘモグロビン種が正常なヘモグロビン種か異常なヘモグロビン種かを推定する、請求項２に記載の方法。
五次加工されたクロマトグラムデータから、未知検体のヘモグロビン種の種別を推定する、請求項２に記載の方法。
五次加工されたクロマトグラムデータから、未知検体が正常な環境で測定されたものか異常な環境で測定されたものかを推定する、請求項２に記載の方法。