JP7156213B2

JP7156213B2 - 質量分析データ処理方法、質量分析データ処理システム、及びプログラム

Info

Publication number: JP7156213B2
Application number: JP2019157607A
Authority: JP
Inventors: 達樹大久保
Original assignee: Shimadzu Corp
Current assignee: Shimadzu Corp
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2022-10-19
Anticipated expiration: 2039-08-30
Also published as: JP2021036202A

Description

特許法第３０条第２項適用ｈｔｔｐ：／／ｗｗｗ．ｍｓｓｊ．ｊｐ／ｃｏｎｆ／６７／ｐｒｏｇｒａｍ／３Ｄ－０１－１０５０．ｈｔｍｌｈｔｔｐ：／／ｗｗｗ．ｍｓｓｊ．ｊｐ／ｃｏｎｆ／６７＿ｅｎ／ｐｒｏｇｒａｍ／３Ｄ－０１－１０５０．ｈｔｍｌｈｔｔｐｓ：／／ｉａｐ－ｊｐ．ｏｒｇ／ｍｓｓｊ／ｃｏｎｆ２０１９／ｐｒｏｇｒａｍ＿ｄｏｗｎｌｏａｄ．ｐｈｐ？ｎｏ＝３Ｄ－０１－１０５０、平成３１年４月２６日〔刊行物等〕ｈｔｔｐｓ：／／ｉａｐ－ｊｐ．ｏｒｇ／ｍｓｓｊ／ｃｏｎｆ２０１９／ｐｒｏｇｒａｍ＿ｄｏｗｎｌｏａｄ．ｐｈｐ？ｎｏ＝３Ｐ－４１、平成３１年４月２６日〔刊行物等〕第６７回質量分析総合討論会２０１９オーラルセッション、令和１年５月１７日〔刊行物等〕第６７回質量分析総合討論会２０１９ポスター発表、令和１年５月１７日

本発明は、質量分析データ処理方法、質量分析データ処理システム、及びプログラムに関する。

従来より、質量分析を利用した微生物の判別手法が開発されている。この手法では、まず、被検微生物から抽出したタンパク質を含む溶液又は被検微生物の懸濁液等をマトリックス支援レーザ脱離イオン化（Matrix Assisted Laser Desorption/Ionization；MALDI）等のソフトなイオン化法を用いた質量分析装置で分析する。なお、「ソフトな」イオン化法とは、高分子化合物の分解を生じにくいイオン化法をいう。そして、得られたマススペクトルを、既知微生物のマススペクトルと照合することによって、被検微生物の種、亜種、株、又はタイプ等を特定する。

このような質量分析を利用した微生物の判別手法では、微生物の種間、亜種間、株間、又はタイプ間でm/z（質量電荷比）が相違するマススペクトルピークに着目して微生物の判別が行われる。このようなマススペクトルピークはマーカーピークとよばれ、例えば、リボソームタンパク質のように比較的保存性の高いタンパク質に由来するピークが利用される。

また、近年では質量分析によって得られたマススペクトルに機械学習を適用することによって未知試料の判別を行う試みが進められている（例えば、特許文献１を参照）。機械学習は、多種多様である大量のデータの中から規則性を見出し、それを利用してデータの予測、判別、又は回帰を行うために有用な手法の一つであり、大別して教師あり学習と教師なし学習がある。教師ありの学習では一般に、予め与えられた、複数のクラスに分類されている多数のデータを学習データ（教師データ又は訓練データともいう）として上記複数のクラスの境界を学習しておき、新規のデータについていずれのクラスに分類されるのかを学習結果に基づいて判定するようにしている。

例えば、未知微生物の質量分析結果に基づいて当該微生物の種類（例えば、種、亜種、株、又はタイプ等）を判別しようとする場合、予め、種類が既知である様々な微生物（既知微生物）について、マーカーピークのm/zに関するデータ（以下、「既知サンプルデータ」とよぶ）を集めておき、それらの既知サンプルデータを学習データとする教師あり学習を行うことによって、未知微生物の種類を判別するための判別モデルを構築する。

特開2018-155522号公報

しかしながら、上記のようにマーカーピークのm/z値を含む既知サンプルデータを、そのまま学習データとして使用して教師あり学習による判別モデルの作成を行った場合、得られた判別モデルによる判別精度が必ずしも高くないという問題があった。

本発明は、上記の点に鑑みてなされたものであり、その目的とするところは、機械学習によって生成される微生物判別モデルの判別精度を向上することにある。

上記課題を解決するために成された本発明に係る質量分析データ処理方法は、
それぞれが互いに異なる既知微生物に関する複数のマーカータンパク質のm/z値を含んだデータである複数の既知サンプルデータを取得し、
前記複数の既知サンプルデータに含まれる、前記複数のマーカータンパク質のうちの同じマーカータンパク質のm/z値同士を比較し、両者の差が予め定められた許容誤差範囲に含まれるm/z値同士を同一グループに分類することによって、該マーカータンパク質に関するm/z値を一つ以上のグループに分割し、
前記複数の既知サンプルデータの各々に含まれる前記マーカータンパク質のm/z値を、前記一つ以上のグループのうちの、該m/z値が分類されたグループに固有の識別子であるグループ識別子に置換することによって学習データを作成し、
前記複数のマーカータンパク質のうちの同種のマーカータンパク質については、互いに異なるグループ識別子間の距離はいずれも等価であるとして前記学習データを用いた機械学習を行うことによって判別モデルを作成するものである。

また、上記課題を解決するために成された本発明に係る質量分析データ処理システムは、
それぞれが互いに異なる既知微生物に関する複数のマーカータンパク質のm/z値を含んだデータである複数の既知サンプルデータを取得する既知サンプルデータ取得部と、
前記複数の既知サンプルデータに含まれる、前記複数のマーカータンパク質のうちの同種のマーカータンパク質のm/z値同士を比較し、両者の差が予め定められた許容誤差範囲に含まれるm/z値同士を同一グループに分類することによって、該マーカータンパク質に関するm/z値を一つ以上のグループに分割するグループ化部と、
前記複数の既知サンプルデータの各々に含まれる前記マーカータンパク質のm/z値を、前記一つ以上のグループのうちの、該m/z値が分類されたグループに固有の識別子であるグループ識別子に置換することによって学習データを作成する学習データ生成部と、
前記複数のマーカータンパク質のうちの同種のマーカータンパク質については、互いに異なるグループ識別子間の距離はいずれも等価であるとして前記学習データを用いた機械学習を行うことによって判別モデルを作成する判別モデル生成部と、を備えるものである。

また、上記課題を解決するために成された本発明に係るプログラムは、コンピュータを、前記質量分析データ処理システムの各部として機能させるものである。

上記本発明に係る質量分析データ処理方法、質量分析データ処理システム、及びプログラムによれば、複数の微生物の間で、マーカータンパク質のm/zに許容誤差を超える差異があるか否かを判断基準とし、その差異の大きさは考慮しないような判別モデルの生成が可能となる。その結果、上述のようなm/z値の大小を判別基準とすることによる誤判別の発生を防ぐことができ、判別モデルによる判別の精度を向上させることができる。

本発明の一実施形態に係る質量分析データ処理システムの要部構成を示すブロック図。前処理部及び判別モデル作成部における処理の流れを示すフローチャート。前処理部における処理を受ける前の既知サンプルデータの一覧を示す図。前処理部における処理を受けた後の既知サンプルデータの一覧を示す図。判別部における処理の流れを示すフローチャート。実施例の判別モデル及び比較例の判別モデルによる判別結果（正答率）を示す図。

以下、本発明を実施するための形態について図面を参照しつつ説明する。図１は、本発明の一実施形態に係る質量分析データ処理システム１０の要部構成を示すブロック図である。

この質量分析データ処理システム１０は、前処理部２０と、判別モデル生成部３０と、判別部４０と、データ記憶部５０と、マウス等のポインティングデバイス及びキーボード等を含む入力部６０と、液晶ディスプレイ等の表示装置を含む表示部７０とを備えている。

前処理部２０は、既知微生物（例えば、属する株が既知である微生物）の質量分析データに所定の処理を施すことによって、機械学習に用いるための学習データを生成するものである。なお、前処理部２０で処理する「質量分析データ」は、既知微生物を実際に質量分析して得たものであってもよく、該既知微生物を質量分析した場合に得られる結果を計算によって求めたものであってもよい（詳細は後述する）。また、前記既知微生物の質量分析データ（以下、「既知サンプルデータ」とよぶ）には、少なくとも、該既知微生物に関する複数のマーカータンパク質のm/z値が含まれているものとする。本実施形態における前処理部２０には、既知サンプルデータ取得部２１、グループ化部２２、及び学習データ生成部２３が含まれている。

判別モデル生成部３０は、前処理部２０で生成された複数の学習データを用いて、未知微生物（例えば属する株が不明である微生物）の判別が可能な判別モデルを生成するものである。

判別部４０は、未知微生物の質量分析データ（未知サンプルデータ）を、前記判別モデルに適用することによって、該未知微生物の種類（例えば、該微生物が属する株）を判別するものである。判別部４０は、未知サンプルデータ取得部４１と、判別対象データ生成部４２と、判別実行部４３とを備えている。

前処理部２０、判別モデル生成部３０、及び判別部４０の実体は、コンピュータ（パーソナルコンピュータ又はそれよりも高性能なコンピュータ）であり、該コンピュータに予めインストールされた専用のデータ処理ソフトウェアを該コンピュータ上で動作させることにより、前記各部の機能が実現される。データ記憶部５０は、前記コンピュータに内蔵された又は前記コンピュータに直接接続された記憶装置によるものとするほか、例えば、前記コンピュータからインターネット等を介してアクセス可能である別のコンピュータシステム上に存在する、つまりはクラウドコンピューティングにおける記憶装置などを利用することができる。

また、本実施形態に係る質量分析データ処理システム１０は、前処理部２０、判別モデル生成部３０、及び判別部４０の機能を、互いに通信可能な複数のコンピュータに分担させるものとすることもできる。具体的には、例えば、前処理部２０及び判別モデル生成部３０の機能を一台のコンピュータに割り当て、判別部４０の機能をそれとは別のコンピュータに割り当てることなどが考えられる。

続いて、本実施形態に係る質量分析データ処理システム１０における処理の特徴について説明する。上記のような既知微生物に関する複数のマーカータンパク質のm/z値を含むデータである既知サンプルデータを、そのまま学習データとして判別モデルを作成した場合、生成される判別モデルは、m/z値の大小を基準に判別を行うものとなる。すなわちm/z値の差異が小さいマーカータンパク同士は類似しており、m/z値の差異が大きいタンパク質同士は類似していないと判断されることになる。しかしながら、m/z値の大小は、必ずしもマーカータンパク質間の変異の大小を反映してはいない。例えば、あるマーカータンパク質のアミノ酸配列に一カ所変異が生じた場合であっても、変異後のアミノ酸の分子量が相対的に大きい場合と、変異後のアミノ酸の分子量が相対的に小さい場合とでは、前者の方が変異によるm/z値の変化が大きくなる。その結果、同じアミノ酸一つ分の変異であるにも関わらず、前者の方がより大きな変異が生じていると判断されることとなる。

このような誤判別を避けるため、本実施形態による質量分析データ処理システムでは、複数の既知サンプルデータに含まれる同種のマーカータンパク質に関するm/z値を、許容誤差に基づいて複数のグループに分類し、各グループに属するm/zの値を該グループの番号（以下、「グループ番号」とよぶ）に置換する。そして、異なるグループ番号間の距離（差異）はいずれも等価であるものとして機械学習による判別モデルの作成を行う。これにより、複数の微生物間で、マーカータンパク質のm/zに前記許容誤差を超える差異があるか否かを判断基準とし、その差異の大きさは考慮しないような判別モデルを生成することができる。その結果、m/z値の大小を判別基準とすることによる誤判別の発生を防ぐことができ、判別モデルによる微生物の判別精度を高めることができる。

以下、このような処理の詳細について、図２のフローチャートを参照しつつ説明する。なお、ここでは予め種類（種、株、及びタイプ）が既知である複数の微生物（既知微生物）について、それぞれ複数のマーカータンパク質のm/z値を含むデータである既知サンプルデータが、該微生物の種類の情報と関連付けてデータ記憶部５０に記憶されているものとする。以下、前記既知微生物の種類の情報を「正解ラベル」とよぶ。

マーカータンパク質とは、判別対象とする微生物の種類間（ここではタイプ間）でm/z値に差異があると推定されるタンパク質である。マーカータンパク質は、例えば種類の異なる複数の微生物の塩基配列又はアミノ酸配列を比較したり、種類の異なる複数の微生物を実際に質量分析して得られたマススペクトルを比較したりすることによって予め決定される。

なお、前記既知サンプルデータに含まれる各マーカータンパク質のm/z値は、予め既知微生物をMALDI-MS等によって質量分析することによって取得したものであってもよく、あるいは、NCBI（National Center for Biotechnology Information）等の公的データベースに収録されている各マーカータンパク質の理論質量を、該タンパク質に由来するイオンのm/z値に変換することによって求めたものであってもよい。例えば、シナピン酸をマトリックスとして調整された微生物試料をMALDI-MSで分析すると、主にプロトン化分子（[M+H]+）のピークが観測される。したがって、マーカータンパク質の理論質量にプロトンの質量を加算すれば、このような条件で質量分析した場合に得られるイオンのm/zを求めることができる。すなわち、質量分析条件が定まっていれば、前記理論質量からm/z値への変換は容易に行うことができる。なお、マーカータンパク質の理論質量が公的データベースに収録されていない場合には、該データベースに収録されている該マーカータンパク質の塩基配列又はアミノ酸配列からその理論質量を算出し、それを前記の方法でm/z値に変換するようにしてもよい。

まず、ユーザが入力部６０で所定の操作を行って、データ記憶部５０に記憶されている前記複数の既知サンプルデータを指定すると共に、それらに基づく学習データの生成を指示すると、前処理部２０によって学習データの生成が実行される。具体的には、まず、前処理部２０の既知サンプルデータ取得部２１が、ユーザによって指定された複数の既知サンプルデータをデータ記憶部５０から取得する（ステップＳ１１）。図３にステップＳ１１で取得される既知サンプルデータの例を示す。なお、同図の表のうち、１～２列目は上述の正解ラベルに相当する部分であり、１列目には各微生物の株名が、２列目に該微生物のタイプ名が記載されている。３列目以降の各行がそれぞれ一つの既知サンプルデータに相当する部分であり、各列に各マーカータンパク質のm/z値が記載されている。なお、図３（及び後述する図４）では、複数の既知サンプルデータを正解ラベルと共に表形式で示しているが、既知サンプルデータ及び正解ラベルの形態はこれに限定されるものではない。

次にグループ化部２２が、前記複数の既知サンプルデータに含まれる同種のマーカータンパク質のm/z値を比較する（例えば、図３のデータの場合、同じ列に記載されているm/z値同士を比較する）。そして、それらのm/z値を、予め定められた許容誤差ｔに基づいてグループ分けする（ステップＳ１２）。具体的には、あるマーカータンパク質のm/z値として、複数の値Ｍ１、Ｍ２、Ｍ３（ここでは、Ｍ１＜Ｍ２＜Ｍ３とする）が存在し、Ｍ１とＭ２の差、及びＭ２とＭ３との差がいずれも許容誤差ｔ以内の場合は、これらの値Ｍ１、Ｍ２、Ｍ３を同じグループに分類する。但し、このような場合であっても、Ｍ１とＭ３の差が許容誤差ｔを超えていた場合は、Ｍ１とＭ３は互いに異なるグループに分類し、Ｍ２は、Ｍ１とＭ３のうち、Ｍ２との差が小さい方と同じグループに分類する。一方、Ｍ１とＭ２の差が許容誤差ｔ以内であり、Ｍ２とＭ３の差が許容誤差ｔを超えていた場合は、Ｍ１とＭ２のみが同じグループに分類され、Ｍ３は別のグループに分類される。なお、許容誤差ｔは、予め質量分析データ処理システム１０側に記憶されている値としてもよく、ユーザが自由に設定できるようにしてもよい。また、許容誤差ｔは、各マーカータンパク質に関するm/z値の個数又は分散等に基づいて、質量分析データ処理システム１０側で自動的に決定されるようにしてもよい。

続いて、学習データ生成部２３が、前記ステップＳ１２で生成された各グループに固有の番号（本発明における「グループ識別子」に相当）を付与すると共に、前記複数の既知サンプルデータに含まれる各m/z値を、該m/z値が属するグループの番号（以下、「グループ番号」とよぶ）に置換する（ステップＳ１３）。具体的には、例えば、ステップＳ１２において、或るマーカータンパク質のm/z値が全て一つのグループに分類された場合、学習データ生成部２３は、該グループにグループ番号１を付与すると共に、各既知サンプルデータに含まれる該マーカータンパク質のm/z値を全て「１」に置換する。一方、ステップＳ１２において、或るマーカータンパク質のm/z値が２つのグループに分けられた場合、学習データ生成部２３は、各グループにそれぞれグループ番号１又はグループ番号２を付与すると共に、グループ番号１を付与されたグループに属するm/z値を全て「１」に置換し、グループ番号２を付与されたグループに属するm/z値を全て「２」に置換する。

上記のようなm/z値のグループ化（ステップＳ１２）及び置換（ステップＳ１３）を、ステップＳ１１で取得した複数の既知サンプルデータに含まれる全てのマーカータンパク質について行い、該複数の既知サンプルデータに含まれる全てのm/z値をグループ番号に置換する。図３に示した既知サンプルデータに、ステップＳ１２及びステップＳ１３の処理を施したものを図４に示す。なお、上記処理後の既知サンプルデータは、一旦データ記憶部５０に記憶される。以下、前記既知サンプルデータにステップＳ１２及びステップＳ１３の処理を施すことによって得られたデータを「学習データ」とよぶ。前処理部２０において前記複数の既知サンプルデータから生成された複数の学習データは、それぞれ前記正解ラベルと関連付けてデータ記憶部５０に記憶される。

続いて、ユーザが入力部６０を操作して、前記複数の学習データを用いた判別モデルの生成を指示すると、判別モデル生成部３０において判別モデルの生成が行われる（ステップＳ１４）。具体的には、判別モデル生成部３０がデータ記憶部５０に記憶されている前記複数の学習データ及びそれぞれに対応する正解ラベルを読み出し、それらを用いて、予め定められた機械学習手法による判別モデルの生成を行う。このとき、各学習データに含まれる同種のマーカータンパク質に関するグループ番号同士の距離はいずれも等価であるものとして扱う。これにより、複数の微生物間で、マーカータンパク質のm/zに前記許容誤差を超える差異があるか否かを判断基準とし、その差異の大きさは考慮しないような判別モデルを生成することができる。以上により生成された判別モデルは、データ記憶部５０に記憶される。

なお、ステップＳ１４で判別モデルの生成に用いる機械学習手法は、教師あり学習を行うものであれば特に限定されないが、例えば、バギング決定木、サポートベクターマシン、ランダムフォレスト、ニューラルネットワーク、線形判別法、非線形判別法などを用いることができる。

続いて、以上により作成された判別モデルを用いて未知微生物の判別を行う場合の処理手順について図５のフローチャートを参照しつつ説明する。

前記判別モデルによる未知微生物の判別を行う際には、予め、判別対象とする未知微生物（例えば、株が未知である微生物）をMALDI-MS等によって質量分析し、得られたデータ（以下、「未知サンプルデータ」とよぶ）をデータ記憶部５０に記憶させておく。なお、前記未知サンプルデータは、例えば、前記未知微生物を質量分析して得られたマススペクトルに対してピーク検出処理を行い、検出されたピークのうち、上述の既知サンプルデータに含まれるものと同じ複数のマーカータンパク質のピークに関するm/z値を抽出することによって生成することができる。

データ記憶部５０に前記未知サンプルデータ及び前記判別モデルが記憶されている状態で、ユーザが入力部６０を介して前記判別モデルによる前記未知試料の判別を指示すると、判別部４０による判別処理が実行される。具体的には、まず、判別部４０の未知サンプルデータ取得部４１が、前記未知サンプルデータをデータ記憶部５０から読み出し（ステップＳ２１）、判別対象データ生成部４２が、該未知サンプルデータに含まれる各m/z値をそれぞれ上述のグループ番号に置換する（ステップＳ２２）。このステップＳ２２では、まず、判別対象データ生成部４２が、未知サンプルデータに含まれる各マーカータンパク質のm/z値を参照し、該m/z値が、上述のステップＳ１２で生成された該マーカータンパク質に関するグループのいずれかに分類できるか否かを判断する。そして、いずれかのグループに分類できると判断した場合は、そのm/z値を該グループのグループ番号に置換する。一方、いずれのグループにも分類できないと判断した場合は、そのm/z値を、該マーカータンパク質に関するグループのいずれにも付与されていないグループ番号に置換する。以下、前記未知サンプルデータにステップＳ２２の処理を施すことによって得られたデータを「判別対象データ」とよぶ。

続いて、判別実行部４３が、前記判別対象データを前記判別モデルに入力し、得られた出力値から、前記未知微生物の種類（例えば該未知微生物が属する株）を判別する（ステップＳ２３）。判別実行部４３による判別結果は、データ記憶部５０に記憶されると共に、表示部７０の画面上に表示されてユーザに提示される（ステップＳ２４）。

以上、本発明を実施するための形態について説明を行ったが、本発明は上記実施形態に限定されるものではなく、本発明の趣旨の範囲で適宜変更が許容される。例えば、上記実施形態では、本発明に係る「グループ識別子」を数字（グループ番号）としたが、グループ識別子は、文字（例えばアルファベット）又は記号等としてもよい。

以下、本発明の効果を確認するために行った試験例について説明する。なお、ここでは、本発明をアクネ菌（Cutibacterium acnes）のタイピング（タイプの判別）に適用した例を示すが、本発明は、アクネ菌に限らず、様々な微生物の種、亜種、株、又はタイプの判別に用いることができる。

本試験例では、アクネ菌の４つのタイプ（タイプIA1, タイプIA2, タイプIB, 及びタイプII）を判別する判別モデルを作成し、本発明の効果を検証した。判別モデルの作成に際しては、図３で示した既知サンプルデータ（すなわち、タイプが既知であるアクネ菌の各マーカータンパク質に関するm/z値を含むデータ）を使用した。また、マーカータンパク質としては、同図に示すとおり、リボソームタンパク質S8、L13、L15、L23、L27、L6、L7/L12、並びにAntitoxinを使用した。なお、実際の判別モデルの作成には、アクネ菌76株分（タイプIA1が42株、タイプIA2が20株、タイプIBが4株、及びタイプIIが10株）の既知サンプルデータを使用したが、図３（及び後述の図４）では、簡略化のため一部の株に関するデータのみを示している。

図３に示す既知サンプルデータをそのまま（すなわちm/z値をグループ番号に置換せずに）学習データとして使用した場合（比較例）と、図４のように、各既知サンプルデータのm/z値をグループ番号に変換したものを学習データとして使用した場合（実施例）について、それぞれバギング決定木による判別モデルの作成を行った。判別モデルの作成には、数値解析ソフトウェアMATLAB（登録商標）の分類学習器アプリを使用した。なお、前記実施例では、互いに異なるグループ識別子間の距離はいずれも等価であるものとして判別モデルの作成を行った。

前記実施例の判別モデルと、前記比較例の判別モデルを用いて、検証用データの判別を行った際の正答率を図６に示す。なお、前記検証用データとしては、タイプが既知であるアクネ菌170株（タイプIA1：37株、タイプIA2：37株、タイプIB：38株、タイプII：58株）をMALDI-MSで分析して得られたデータを使用した。図６に示すように、実施例の判別モデルの方が、比較例の判別モデルよりも正答率が高くなっており、本発明に係る質量分析データ処理方法によって、判別モデルの判別精度が向上することが確かめられた。

[種々の態様]
上述した例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。

（第１項）一態様に係る質量分析データ処理方法は、
それぞれが互いに異なる既知微生物に関する複数のマーカータンパク質のm/z値を含んだデータである複数の既知サンプルデータを取得し、
前記複数の既知サンプルデータに含まれる、前記複数のマーカータンパク質のうちの同じマーカータンパク質のm/z値同士を比較し、両者の差が予め定められた許容誤差範囲に含まれるm/z値同士を同一グループに分類することによって、該マーカータンパク質に関するm/z値を一つ以上のグループに分割し、
前記複数の既知サンプルデータの各々に含まれる前記マーカータンパク質のm/z値を、前記一つ以上のグループのうちの、該m/z値が分類されたグループに固有の識別子であるグループ識別子に置換することによって学習データを作成し、
前記複数のマーカータンパク質のうちの同種のマーカータンパク質については、互いに異なるグループ識別子間の距離はいずれも等価であるとして前記学習データを用いた機械学習を行うことによって判別モデルを作成するものである。

（第２項）第１項に記載の質量分析データ処理方法は、
前記既知微生物が、タイプが既知であるアクネ菌であり、
前記複数のマーカータンパク質が、少なくともリボソームタンパク質S8、L13、L15、L23、L27、L6、L7/L12、並びにAntitoxinを含むものであって、
前記判別モデルがアクネ菌のタイプを判別するものであってもよい。

（第３項）一態様に係る質量分析データ処理システムは、
それぞれが互いに異なる既知微生物に関する複数のマーカータンパク質のm/z値を含んだデータである複数の既知サンプルデータを取得する既知サンプルデータ取得部と、
前記複数の既知サンプルデータに含まれる、前記複数のマーカータンパク質のうちの同種のマーカータンパク質のm/z値同士を比較し、両者の差が予め定められた許容誤差範囲に含まれるm/z値同士を同一グループに分類することによって、該マーカータンパク質に関するm/z値を一つ以上のグループに分割するグループ化部と、
前記複数の既知サンプルデータの各々に含まれる前記マーカータンパク質のm/z値を、前記一つ以上のグループのうちの、該m/z値が分類されたグループに固有の識別子であるグループ識別子に置換することによって学習データを作成する学習データ生成部と、
前記複数のマーカータンパク質のうちの同種のマーカータンパク質については、互いに異なるグループ識別子間の距離はいずれも等価であるとして前記学習データを用いた機械学習を行うことによって判別モデルを作成する判別モデル生成部とを備えている。

（第４項）第３項に記載の質量分析データ処理システムは、
前記既知微生物が、タイプが既知であるアクネ菌であり、
前記複数のマーカータンパク質が、少なくともリボソームタンパク質S8、L13、L15、L23、L27、L6、L7/L12、並びにAntitoxinを含むものであって、
前記判別モデルがアクネ菌のタイプを判別するものであってもよい。

（第５項）一態様に係るプログラムは、コンピュータを、第３項又は第４項に記載の質量分析データ処理システムの各部として機能させるものである。

第１項に記載の質量分析データ処理方法、第３項に記載の質量分析データ処理システム、又は第５項に記載のプログラムによれば、複数の微生物の間で、マーカータンパク質のm/zに許容誤差を超える差異があるか否かを判断基準とし、その差異の大きさは考慮しないような判別モデルを生成することができる。その結果、m/z値の大小を判別基準とすることによる誤判別の発生を防ぐことができ、判別モデルによる判別の精度を向上させることができる。

また、第２項に記載の質量分析データ処理方法又は第４項に記載の質量分析データ処理システムによれば、アクネ菌のタイピングを正確に行うことが可能となる。

１０…質量分析データ処理システム
２０…前処理部
２１…既知サンプルデータ取得部
２２…グループ化部
２３…学習データ生成部
３０…判別モデル生成部
４０…判別部
４１…未知サンプルデータ取得部
４２…判別対象データ生成部
４３…判別実行部
５０…データ記憶部
６０…入力部
７０…表示部

Claims

それぞれが互いに異なる既知微生物に関する複数のマーカータンパク質のm/z値を含んだデータである複数の既知サンプルデータを取得し、
前記複数の既知サンプルデータに含まれる、前記複数のマーカータンパク質のうちの同種のマーカータンパク質のm/z値同士を比較し、両者の差が予め定められた許容誤差範囲に含まれるm/z値同士を同一グループに分類することによって、該マーカータンパク質に関するm/z値を一つ以上のグループに分割し、
前記複数の既知サンプルデータの各々に含まれる前記マーカータンパク質のm/z値を、前記一つ以上のグループのうちの、該m/z値が分類されたグループに固有の識別子であるグループ識別子に置換することによって学習データを作成し、
前記複数のマーカータンパク質のうちの同種のマーカータンパク質については、互いに異なるグループ識別子間の距離はいずれも等価であるとして前記学習データを用いた機械学習を行うことによって判別モデルを作成する質量分析データ処理方法。
前記既知微生物が、タイプが既知であるアクネ菌であり、
前記複数のマーカータンパク質が、少なくともリボソームタンパク質S8、L13、L15、L23、L27、L6、L7/L12、並びにAntitoxinを含むものであって、
前記判別モデルがアクネ菌のタイプを判別するものである請求項１に記載の質量分析データ処理方法。
それぞれが互いに異なる既知微生物に関する複数のマーカータンパク質のm/z値を含んだデータである複数の既知サンプルデータを取得する既知サンプルデータ取得部と、
前記複数の既知サンプルデータに含まれる、前記複数のマーカータンパク質のうちの同種のマーカータンパク質のm/z値同士を比較し、両者の差が予め定められた許容誤差範囲に含まれるm/z値同士を同一グループに分類することによって、該マーカータンパク質に関するm/z値を一つ以上のグループに分割するグループ化部と、
前記複数の既知サンプルデータの各々に含まれる前記マーカータンパク質のm/z値を、前記一つ以上のグループのうちの、該m/z値が分類されたグループに固有の識別子であるグループ識別子に置換することによって学習データを作成する学習データ生成部と、
前記複数のマーカータンパク質のうちの同種のマーカータンパク質については、互いに異なるグループ識別子間の距離はいずれも等価であるとして前記学習データを用いた機械学習を行うことによって判別モデルを作成する判別モデル生成部と、
を備える質量分析データ処理システム。
前記既知微生物が、タイプが既知であるアクネ菌であり、
前記複数のマーカータンパク質が、少なくともリボソームタンパク質S8、L13、L15、L23、L27、L6、L7/L12、並びにAntitoxinを含むものであって、
前記判別モデルがアクネ菌のタイプを判別するものである請求項３に記載の質量分析データ処理システム。
コンピュータを、請求項３又は請求項４に記載の質量分析データ処理システムの各部として機能させるプログラム。