JP2021036202A - 質量分析データ処理方法、質量分析データ処理システム、及びプログラム - Google Patents

質量分析データ処理方法、質量分析データ処理システム、及びプログラム Download PDF

Info

Publication number
JP2021036202A
JP2021036202A JP2019157607A JP2019157607A JP2021036202A JP 2021036202 A JP2021036202 A JP 2021036202A JP 2019157607 A JP2019157607 A JP 2019157607A JP 2019157607 A JP2019157607 A JP 2019157607A JP 2021036202 A JP2021036202 A JP 2021036202A
Authority
JP
Japan
Prior art keywords
data
sample data
marker
values
marker protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019157607A
Other languages
English (en)
Other versions
JP2021036202A5 (ja
JP7156213B2 (ja
Inventor
達樹 大久保
Tatsuki Okubo
達樹 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Priority to JP2019157607A priority Critical patent/JP7156213B2/ja
Publication of JP2021036202A publication Critical patent/JP2021036202A/ja
Publication of JP2021036202A5 publication Critical patent/JP2021036202A5/ja
Application granted granted Critical
Publication of JP7156213B2 publication Critical patent/JP7156213B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】微生物判別モデルの判別精度を向上することにある。【解決手段】既知微生物に関する複数のマーカータンパク質のm/z値を含んだ複数の既知サンプルデータを取得し(S11)、同じマーカータンパク質のm/z値同士を比較し、両者の差が予め定められた許容誤差範囲に含まれるm/z値同士を同一グループに分類することによって、該マーカータンパク質に関するm/z値を一つ以上のグループに分割し(S12)、前記複数の既知サンプルデータの各々に含まれるm/z値を、該m/z値が分類されたグループに固有の識別子であるグループ識別子に置換することによって学習データを作成し(S13)、前記複数のマーカータンパク質のうちの同種のマーカータンパク質については、互いに異なるグループ識別子間の距離はいずれも等価であるとして前記学習データを用いた機械学習を行うことによって判別モデルを作成する(S14)。【選択図】図2

Description

本発明は、質量分析データ処理方法、質量分析データ処理システム、及びプログラムに関する。
従来より、質量分析を利用した微生物の判別手法が開発されている。この手法では、まず、被検微生物から抽出したタンパク質を含む溶液又は被検微生物の懸濁液等をマトリックス支援レーザ脱離イオン化(Matrix Assisted Laser Desorption/Ionization;MALDI)等のソフトなイオン化法を用いた質量分析装置で分析する。なお、「ソフトな」イオン化法とは、高分子化合物の分解を生じにくいイオン化法をいう。そして、得られたマススペクトルを、既知微生物のマススペクトルと照合することによって、被検微生物の種、亜種、株、又はタイプ等を特定する。
このような質量分析を利用した微生物の判別手法では、微生物の種間、亜種間、株間、又はタイプ間でm/z(質量電荷比)が相違するマススペクトルピークに着目して微生物の判別が行われる。このようなマススペクトルピークはマーカーピークとよばれ、例えば、リボソームタンパク質のように比較的保存性の高いタンパク質に由来するピークが利用される。
また、近年では質量分析によって得られたマススペクトルに機械学習を適用することによって未知試料の判別を行う試みが進められている(例えば、特許文献1を参照)。機械学習は、多種多様である大量のデータの中から規則性を見出し、それを利用してデータの予測、判別、又は回帰を行うために有用な手法の一つであり、大別して教師あり学習と教師なし学習がある。教師ありの学習では一般に、予め与えられた、複数のクラスに分類されている多数のデータを学習データ(教師データ又は訓練データともいう)として上記複数のクラスの境界を学習しておき、新規のデータについていずれのクラスに分類されるのかを学習結果に基づいて判定するようにしている。
例えば、未知微生物の質量分析結果に基づいて当該微生物の種類(例えば、種、亜種、株、又はタイプ等)を判別しようとする場合、予め、種類が既知である様々な微生物(既知微生物)について、マーカーピークのm/zに関するデータ(以下、「既知サンプルデータ」とよぶ)を集めておき、それらの既知サンプルデータを学習データとする教師あり学習を行うことによって、未知微生物の種類を判別するための判別モデルを構築する。
特開2018-155522号公報
しかしながら、上記のようにマーカーピークのm/z値を含む既知サンプルデータを、そのまま学習データとして使用して教師あり学習による判別モデルの作成を行った場合、得られた判別モデルによる判別精度が必ずしも高くないという問題があった。
本発明は、上記の点に鑑みてなされたものであり、その目的とするところは、機械学習によって生成される微生物判別モデルの判別精度を向上することにある。
上記課題を解決するために成された本発明に係る質量分析データ処理方法は、
それぞれが互いに異なる既知微生物に関する複数のマーカータンパク質のm/z値を含んだデータである複数の既知サンプルデータを取得し、
前記複数の既知サンプルデータに含まれる、前記複数のマーカータンパク質のうちの同じマーカータンパク質のm/z値同士を比較し、両者の差が予め定められた許容誤差範囲に含まれるm/z値同士を同一グループに分類することによって、該マーカータンパク質に関するm/z値を一つ以上のグループに分割し、
前記複数の既知サンプルデータの各々に含まれる前記マーカータンパク質のm/z値を、前記一つ以上のグループのうちの、該m/z値が分類されたグループに固有の識別子であるグループ識別子に置換することによって学習データを作成し、
前記複数のマーカータンパク質のうちの同種のマーカータンパク質については、互いに異なるグループ識別子間の距離はいずれも等価であるとして前記学習データを用いた機械学習を行うことによって判別モデルを作成するものである。
また、上記課題を解決するために成された本発明に係る質量分析データ処理システムは、
それぞれが互いに異なる既知微生物に関する複数のマーカータンパク質のm/z値を含んだデータである複数の既知サンプルデータを取得する既知サンプルデータ取得部と、
前記複数の既知サンプルデータに含まれる、前記複数のマーカータンパク質のうちの同種のマーカータンパク質のm/z値同士を比較し、両者の差が予め定められた許容誤差範囲に含まれるm/z値同士を同一グループに分類することによって、該マーカータンパク質に関するm/z値を一つ以上のグループに分割するグループ化部と、
前記複数の既知サンプルデータの各々に含まれる前記マーカータンパク質のm/z値を、前記一つ以上のグループのうちの、該m/z値が分類されたグループに固有の識別子であるグループ識別子に置換することによって学習データを作成する学習データ生成部と、
前記複数のマーカータンパク質のうちの同種のマーカータンパク質については、互いに異なるグループ識別子間の距離はいずれも等価であるとして前記学習データを用いた機械学習を行うことによって判別モデルを作成する判別モデル生成部と、を備えるものである。
また、上記課題を解決するために成された本発明に係るプログラムは、コンピュータを、前記質量分析データ処理システムの各部として機能させるものである。
上記本発明に係る質量分析データ処理方法、質量分析データ処理システム、及びプログラムによれば、複数の微生物の間で、マーカータンパク質のm/zに許容誤差を超える差異があるか否かを判断基準とし、その差異の大きさは考慮しないような判別モデルの生成が可能となる。その結果、上述のようなm/z値の大小を判別基準とすることによる誤判別の発生を防ぐことができ、判別モデルによる判別の精度を向上させることができる。
本発明の一実施形態に係る質量分析データ処理システムの要部構成を示すブロック図。 前処理部及び判別モデル作成部における処理の流れを示すフローチャート。 前処理部における処理を受ける前の既知サンプルデータの一覧を示す図。 前処理部における処理を受けた後の既知サンプルデータの一覧を示す図。 判別部における処理の流れを示すフローチャート。 実施例の判別モデル及び比較例の判別モデルによる判別結果(正答率)を示す図。
以下、本発明を実施するための形態について図面を参照しつつ説明する。図1は、本発明の一実施形態に係る質量分析データ処理システム10の要部構成を示すブロック図である。
この質量分析データ処理システム10は、前処理部20と、判別モデル生成部30と、判別部40と、データ記憶部50と、マウス等のポインティングデバイス及びキーボード等を含む入力部60と、液晶ディスプレイ等の表示装置を含む表示部70とを備えている。
前処理部20は、既知微生物(例えば、属する株が既知である微生物)の質量分析データに所定の処理を施すことによって、機械学習に用いるための学習データを生成するものである。なお、前処理部20で処理する「質量分析データ」は、既知微生物を実際に質量分析して得たものであってもよく、該既知微生物を質量分析した場合に得られる結果を計算によって求めたものであってもよい(詳細は後述する)。また、前記既知微生物の質量分析データ(以下、「既知サンプルデータ」とよぶ)には、少なくとも、該既知微生物に関する複数のマーカータンパク質のm/z値が含まれているものとする。本実施形態における前処理部20には、既知サンプルデータ取得部21、グループ化部22、及び学習データ生成部23が含まれている。
判別モデル生成部30は、前処理部20で生成された複数の学習データを用いて、未知微生物(例えば属する株が不明である微生物)の判別が可能な判別モデルを生成するものである。
判別部40は、未知微生物の質量分析データ(未知サンプルデータ)を、前記判別モデルに適用することによって、該未知微生物の種類(例えば、該微生物が属する株)を判別するものである。判別部40は、未知サンプルデータ取得部41と、判別対象データ生成部42と、判別実行部43とを備えている。
前処理部20、判別モデル生成部30、及び判別部40の実体は、コンピュータ(パーソナルコンピュータ又はそれよりも高性能なコンピュータ)であり、該コンピュータに予めインストールされた専用のデータ処理ソフトウェアを該コンピュータ上で動作させることにより、前記各部の機能が実現される。データ記憶部50は、前記コンピュータに内蔵された又は前記コンピュータに直接接続された記憶装置によるものとするほか、例えば、前記コンピュータからインターネット等を介してアクセス可能である別のコンピュータシステム上に存在する、つまりはクラウドコンピューティングにおける記憶装置などを利用することができる。
また、本実施形態に係る質量分析データ処理システム10は、前処理部20、判別モデル生成部30、及び判別部40の機能を、互いに通信可能な複数のコンピュータに分担させるものとすることもできる。具体的には、例えば、前処理部20及び判別モデル生成部30の機能を一台のコンピュータに割り当て、判別部40の機能をそれとは別のコンピュータに割り当てることなどが考えられる。
続いて、本実施形態に係る質量分析データ処理システム10における処理の特徴について説明する。上記のような既知微生物に関する複数のマーカータンパク質のm/z値を含むデータである既知サンプルデータを、そのまま学習データとして判別モデルを作成した場合、生成される判別モデルは、m/z値の大小を基準に判別を行うものとなる。すなわちm/z値の差異が小さいマーカータンパク同士は類似しており、m/z値の差異が大きいタンパク質同士は類似していないと判断されることになる。しかしながら、m/z値の大小は、必ずしもマーカータンパク質間の変異の大小を反映してはいない。例えば、あるマーカータンパク質のアミノ酸配列に一カ所変異が生じた場合であっても、変異後のアミノ酸の分子量が相対的に大きい場合と、変異後のアミノ酸の分子量が相対的に小さい場合とでは、前者の方が変異によるm/z値の変化が大きくなる。その結果、同じアミノ酸一つ分の変異であるにも関わらず、前者の方がより大きな変異が生じていると判断されることとなる。
このような誤判別を避けるため、本実施形態による質量分析データ処理システムでは、複数の既知サンプルデータに含まれる同種のマーカータンパク質に関するm/z値を、許容誤差に基づいて複数のグループに分類し、各グループに属するm/zの値を該グループの番号(以下、「グループ番号」とよぶ)に置換する。そして、異なるグループ番号間の距離(差異)はいずれも等価であるものとして機械学習による判別モデルの作成を行う。これにより、複数の微生物間で、マーカータンパク質のm/zに前記許容誤差を超える差異があるか否かを判断基準とし、その差異の大きさは考慮しないような判別モデルを生成することができる。その結果、m/z値の大小を判別基準とすることによる誤判別の発生を防ぐことができ、判別モデルによる微生物の判別精度を高めることができる。
以下、このような処理の詳細について、図2のフローチャートを参照しつつ説明する。なお、ここでは予め種類(種、株、及びタイプ)が既知である複数の微生物(既知微生物)について、それぞれ複数のマーカータンパク質のm/z値を含むデータである既知サンプルデータが、該微生物の種類の情報と関連付けてデータ記憶部50に記憶されているものとする。以下、前記既知微生物の種類の情報を「正解ラベル」とよぶ。
マーカータンパク質とは、判別対象とする微生物の種類間(ここではタイプ間)でm/z値に差異があると推定されるタンパク質である。マーカータンパク質は、例えば種類の異なる複数の微生物の塩基配列又はアミノ酸配列を比較したり、種類の異なる複数の微生物を実際に質量分析して得られたマススペクトルを比較したりすることによって予め決定される。
なお、前記既知サンプルデータに含まれる各マーカータンパク質のm/z値は、予め既知微生物をMALDI-MS等によって質量分析することによって取得したものであってもよく、あるいは、NCBI(National Center for Biotechnology Information)等の公的データベースに収録されている各マーカータンパク質の理論質量を、該タンパク質に由来するイオンのm/z値に変換することによって求めたものであってもよい。例えば、シナピン酸をマトリックスとして調整された微生物試料をMALDI-MSで分析すると、主にプロトン化分子([M+H]+)のピークが観測される。したがって、マーカータンパク質の理論質量にプロトンの質量を加算すれば、このような条件で質量分析した場合に得られるイオンのm/zを求めることができる。すなわち、質量分析条件が定まっていれば、前記理論質量からm/z値への変換は容易に行うことができる。なお、マーカータンパク質の理論質量が公的データベースに収録されていない場合には、該データベースに収録されている該マーカータンパク質の塩基配列又はアミノ酸配列からその理論質量を算出し、それを前記の方法でm/z値に変換するようにしてもよい。
まず、ユーザが入力部60で所定の操作を行って、データ記憶部50に記憶されている前記複数の既知サンプルデータを指定すると共に、それらに基づく学習データの生成を指示すると、前処理部20によって学習データの生成が実行される。具体的には、まず、前処理部20の既知サンプルデータ取得部21が、ユーザによって指定された複数の既知サンプルデータをデータ記憶部50から取得する(ステップS11)。図3にステップS11で取得される既知サンプルデータの例を示す。なお、同図の表のうち、1〜2列目は上述の正解ラベルに相当する部分であり、1列目には各微生物の種名が、2列目に該微生物のタイプ名が記載されている。3列目以降の各行がそれぞれ一つの既知サンプルデータに相当する部分であり、各列に各マーカータンパク質のm/z値が記載されている。なお、図3(及び後述する図4)では、複数の既知サンプルデータを正解ラベルと共に表形式で示しているが、既知サンプルデータ及び正解ラベルの形態はこれに限定されるものではない。
次にグループ化部22が、前記複数の既知サンプルデータに含まれる同種のマーカータンパク質のm/z値を比較する(例えば、図3のデータの場合、同じ列に記載されているm/z値同士を比較する)。そして、それらのm/z値を、予め定められた許容誤差tに基づいてグループ分けする(ステップS12)。具体的には、あるマーカータンパク質のm/z値として、複数の値M1、M2、M3(ここでは、M1<M2<M3とする)が存在し、M1とM2の差、及びM2とM3との差がいずれも許容誤差t以内の場合は、これらの値M1、M2、M3を同じグループに分類する。但し、このような場合であっても、M1とM3の差が許容誤差tを超えていた場合は、M1とM3は互いに異なるグループに分類し、M2は、M1とM3のうち、M2との差が小さい方と同じグループに分類する。一方、M1とM2の差が許容誤差t以内であり、M2とM3の差が許容誤差tを超えていた場合は、M1とM2のみが同じグループに分類され、M3は別のグループに分類される。なお、許容誤差tは、予め質量分析データ処理システム10側に記憶されている値としてもよく、ユーザが自由に設定できるようにしてもよい。また、許容誤差tは、各マーカータンパク質に関するm/z値の個数又は分散等に基づいて、質量分析データ処理システム10側で自動的に決定されるようにしてもよい。
続いて、学習データ生成部23が、前記ステップS12で生成された各グループに固有の番号(本発明における「グループ識別子」に相当)を付与すると共に、前記複数の既知サンプルデータに含まれる各m/z値を、該m/z値が属するグループの番号(以下、「グループ番号」とよぶ)に置換する(ステップS13)。具体的には、例えば、ステップS12において、或るマーカータンパク質のm/z値が全て一つのグループに分類された場合、学習データ生成部23は、該グループにグループ番号1を付与すると共に、各既知サンプルデータに含まれる該マーカータンパク質のm/z値を全て「1」に置換する。一方、ステップS12において、或るマーカータンパク質のm/z値が2つのグループに分けられた場合、学習データ生成部23は、各グループにそれぞれグループ番号1又はグループ番号2を付与すると共に、グループ番号1を付与されたグループに属するm/z値を全て「1」に置換し、グループ番号2を付与されたグループに属するm/z値を全て「2」に置換する。
上記のようなm/z値のグループ化(ステップS12)及び置換(ステップS13)を、ステップS11で取得した複数の既知サンプルデータに含まれる全てのマーカータンパク質について行い、該複数の既知サンプルデータに含まれる全てのm/z値をグループ番号に置換する。図3に示した既知サンプルデータに、ステップS12及びステップS13の処理を施したものを図4に示す。なお、上記処理後の既知サンプルデータは、一旦データ記憶部50に記憶される。以下、前記既知サンプルデータにステップS12及びステップS13の処理を施すことによって得られたデータを「学習データ」とよぶ。前処理部20において前記複数の既知サンプルデータから生成された複数の学習データは、それぞれ前記正解ラベルと関連付けてデータ記憶部50に記憶される。
続いて、ユーザが入力部60を操作して、前記複数の学習データを用いた判別モデルの生成を指示すると、判別モデル生成部30において判別モデルの生成が行われる(ステップS14)。具体的には、判別モデル生成部30がデータ記憶部50に記憶されている前記複数の学習データ及びそれぞれに対応する正解ラベルを読み出し、それらを用いて、予め定められた機械学習手法による判別モデルの生成を行う。このとき、各学習データに含まれる同種のマーカータンパク質に関するグループ番号同士の距離はいずれも等価であるものとして扱う。これにより、複数の微生物間で、マーカータンパク質のm/zに前記許容誤差を超える差異があるか否かを判断基準とし、その差異の大きさは考慮しないような判別モデルを生成することができる。以上により生成された判別モデルは、データ記憶部50に記憶される。
なお、ステップS14で判別モデルの生成に用いる機械学習手法は、教師あり学習を行うものであれば特に限定されないが、例えば、バギング決定木、サポートベクターマシン、ランダムフォレスト、ニューラルネットワーク、線形判別法、非線形判別法などを用いることができる。
続いて、以上により作成された判別モデルを用いて未知微生物の判別を行う場合の処理手順について図5のフローチャートを参照しつつ説明する。
前記判別モデルによる未知微生物の判別を行う際には、予め、判別対象とする未知微生物(例えば、株が未知である微生物)をMALDI-MS等によって質量分析し、得られたデータ(以下、「未知サンプルデータ」とよぶ)をデータ記憶部50に記憶させておく。なお、前記未知サンプルデータは、例えば、前記未知微生物を質量分析して得られたマススペクトルに対してピーク検出処理を行い、検出されたピークのうち、上述の既知サンプルデータに含まれるものと同じ複数のマーカータンパク質のピークに関するm/z値を抽出することによって生成することができる。
データ記憶部50に前記未知サンプルデータ及び前記判別モデルが記憶されている状態で、ユーザが入力部60を介して前記判別モデルによる前記未知試料の判別を指示すると、判別部40による判別処理が実行される。具体的には、まず、判別部40の未知サンプルデータ取得部41が、前記未知サンプルデータをデータ記憶部50から読み出し(ステップS21)、判別対象データ生成部42が、該未知サンプルデータに含まれる各m/z値をそれぞれ上述のグループ番号に置換する(ステップS22)。このステップS22では、まず、判別対象データ生成部42が、未知サンプルデータに含まれる各マーカータンパク質のm/z値を参照し、該m/z値が、上述のステップS12で生成された該マーカータンパク質に関するグループのいずれかに分類できるか否かを判断する。そして、いずれかのグループに分類できると判断した場合は、そのm/z値を該グループのグループ番号に置換する。一方、いずれのグループにも分類できないと判断した場合は、そのm/z値を、該マーカータンパク質に関するグループのいずれにも付与されていないグループ番号に置換する。以下、前記未知サンプルデータにステップS22の処理を施すことによって得られたデータを「判別対象データ」とよぶ。
続いて、判別実行部43が、前記判別対象データを前記判別モデルに入力し、得られた出力値から、前記未知微生物の種類(例えば該未知微生物が属する株)を判別する(ステップS23)。判別実行部43による判別結果は、データ記憶部50に記憶されると共に、表示部70の画面上に表示されてユーザに提示される(ステップS24)。
以上、本発明を実施するための形態について説明を行ったが、本発明は上記実施形態に限定されるものではなく、本発明の趣旨の範囲で適宜変更が許容される。例えば、上記実施形態では、本発明に係る「グループ識別子」を数字(グループ番号)としたが、グループ識別子は、文字(例えばアルファベット)又は記号等としてもよい。
以下、本発明の効果を確認するために行った試験例について説明する。なお、ここでは、本発明をアクネ菌(Cutibacterium acnes)のタイピング(タイプの判別)に適用した例を示すが、本発明は、アクネ菌に限らず、様々な微生物の種、亜種、株、又はタイプの判別に用いることができる。
本試験例では、アクネ菌の4つのタイプ(タイプIA1, タイプIA2, タイプIB, 及びタイプII)を判別する判別モデルを作成し、本発明の効果を検証した。判別モデルの作成に際しては、図3で示した既知サンプルデータ(すなわち、タイプが既知であるアクネ菌の各マーカータンパク質に関するm/z値を含むデータ)を使用した。また、マーカータンパク質としては、同図に示すとおり、リボソームタンパク質S8、L13、L15、L23、L27、L6、L7/L12、並びにAntitoxinを使用した。なお、実際の判別モデルの作成には、アクネ菌76株分(タイプIA1が42株、タイプIA2が20株、タイプIBが4株、及びタイプIIが10株)の既知サンプルデータを使用したが、図3(及び後述の図4)では、簡略化のため一部の株に関するデータのみを示している。
図3に示す既知サンプルデータをそのまま(すなわちm/z値をグループ番号に置換せずに)学習データとして使用した場合(比較例)と、図4のように、各既知サンプルデータのm/z値をグループ番号に変換したものを学習データとして使用した場合(実施例)について、それぞれバギング決定木による判別モデルの作成を行った。判別モデルの作成には、数値解析ソフトウェアMATLAB(登録商標)の分類学習器アプリを使用した。なお、前記実施例では、互いに異なるグループ識別子間の距離はいずれも等価であるものとして判別モデルの作成を行った。
前記実施例の判別モデルと、前記比較例の判別モデルを用いて、検証用データの判別を行った際の正答率を図6に示す。なお、前記検証用データとしては、タイプが既知であるアクネ菌170株(タイプIA1:37株、タイプIA2:37株、タイプIB:38株、タイプII:58株)をMALDI-MSで分析して得られたデータを使用した。図6に示すように、実施例の判別モデルの方が、比較例の判別モデルよりも正答率が高くなっており、本発明に係る質量分析データ処理方法によって、判別モデルの判別精度が向上することが確かめられた。
[種々の態様]
上述した例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。
(第1項)一態様に係る質量分析データ処理方法は、
それぞれが互いに異なる既知微生物に関する複数のマーカータンパク質のm/z値を含んだデータである複数の既知サンプルデータを取得し、
前記複数の既知サンプルデータに含まれる、前記複数のマーカータンパク質のうちの同じマーカータンパク質のm/z値同士を比較し、両者の差が予め定められた許容誤差範囲に含まれるm/z値同士を同一グループに分類することによって、該マーカータンパク質に関するm/z値を一つ以上のグループに分割し、
前記複数の既知サンプルデータの各々に含まれる前記マーカータンパク質のm/z値を、前記一つ以上のグループのうちの、該m/z値が分類されたグループに固有の識別子であるグループ識別子に置換することによって学習データを作成し、
前記複数のマーカータンパク質のうちの同種のマーカータンパク質については、互いに異なるグループ識別子間の距離はいずれも等価であるとして前記学習データを用いた機械学習を行うことによって判別モデルを作成するものである。
(第2項)第1項に記載の質量分析データ処理方法は、
前記既知微生物が、タイプが既知であるアクネ菌であり、
前記複数のマーカータンパク質が、少なくともリボソームタンパク質S8、L13、L15、L23、L27、L6、L7/L12、並びにAntitoxinを含むものであって、
前記判別モデルがアクネ菌のタイプを判別するものであってもよい。
(第3項)一態様に係る質量分析データ処理システムは、
それぞれが互いに異なる既知微生物に関する複数のマーカータンパク質のm/z値を含んだデータである複数の既知サンプルデータを取得する既知サンプルデータ取得部と、
前記複数の既知サンプルデータに含まれる、前記複数のマーカータンパク質のうちの同種のマーカータンパク質のm/z値同士を比較し、両者の差が予め定められた許容誤差範囲に含まれるm/z値同士を同一グループに分類することによって、該マーカータンパク質に関するm/z値を一つ以上のグループに分割するグループ化部と、
前記複数の既知サンプルデータの各々に含まれる前記マーカータンパク質のm/z値を、前記一つ以上のグループのうちの、該m/z値が分類されたグループに固有の識別子であるグループ識別子に置換することによって学習データを作成する学習データ生成部と、
前記複数のマーカータンパク質のうちの同種のマーカータンパク質については、互いに異なるグループ識別子間の距離はいずれも等価であるとして前記学習データを用いた機械学習を行うことによって判別モデルを作成する判別モデル生成部とを備えている。
(第4項)第3項に記載の質量分析データ処理システムは、
前記既知微生物が、タイプが既知であるアクネ菌であり、
前記複数のマーカータンパク質が、少なくともリボソームタンパク質S8、L13、L15、L23、L27、L6、L7/L12、並びにAntitoxinを含むものであって、
前記判別モデルがアクネ菌のタイプを判別するものであってもよい。
(第5項)一態様に係るプログラムは、コンピュータを、第3項又は第4項に記載の質量分析データ処理システムの各部として機能させるものである。
第1項に記載の質量分析データ処理方法、第3項に記載の質量分析データ処理システム、又は第5項に記載のプログラムによれば、複数の微生物の間で、マーカータンパク質のm/zに許容誤差を超える差異があるか否かを判断基準とし、その差異の大きさは考慮しないような判別モデルを生成することができる。その結果、m/z値の大小を判別基準とすることによる誤判別の発生を防ぐことができ、判別モデルによる判別の精度を向上させることができる。
また、第2項に記載の質量分析データ処理方法又は第4項に記載の質量分析データ処理システムによれば、アクネ菌のタイプピングを正確に行うことが可能となる。
10…質量分析データ処理システム
20…前処理部
21…既知サンプルデータ取得部
22…グループ化部
23…学習データ生成部
30…判別モデル生成部
40…判別部
41…未知サンプルデータ取得部
42…判別対象データ生成部
43…判別実行部
50…データ記憶部
60…入力部
70…表示部

Claims (5)

  1. それぞれが互いに異なる既知微生物に関する複数のマーカータンパク質のm/z値を含んだデータである複数の既知サンプルデータを取得し、
    前記複数の既知サンプルデータに含まれる、前記複数のマーカータンパク質のうちの同じマーカータンパク質のm/z値同士を比較し、両者の差が予め定められた許容誤差範囲に含まれるm/z値同士を同一グループに分類することによって、該マーカータンパク質に関するm/z値を一つ以上のグループに分割し、
    前記複数の既知サンプルデータの各々に含まれる前記マーカータンパク質のm/z値を、前記一つ以上のグループのうちの、該m/z値が分類されたグループに固有の識別子であるグループ識別子に置換することによって学習データを作成し、
    前記複数のマーカータンパク質のうちの同種のマーカータンパク質については、互いに異なるグループ識別子間の距離はいずれも等価であるとして前記学習データを用いた機械学習を行うことによって判別モデルを作成する質量分析データ処理方法。
  2. 前記既知微生物が、タイプが既知であるアクネ菌であり、
    前記複数のマーカータンパク質が、少なくともリボソームタンパク質S8、L13、L15、L23、L27、L6、L7/L12、並びにAntitoxinを含むものであって、
    前記判別モデルがアクネ菌のタイプを判別するものである請求項1に記載の質量分析データ処理方法。
  3. それぞれが互いに異なる既知微生物に関する複数のマーカータンパク質のm/z値を含んだデータである複数の既知サンプルデータを取得する既知サンプルデータ取得部と、
    前記複数の既知サンプルデータに含まれる、前記複数のマーカータンパク質のうちの同種のマーカータンパク質のm/z値同士を比較し、両者の差が予め定められた許容誤差範囲に含まれるm/z値同士を同一グループに分類することによって、該マーカータンパク質に関するm/z値を一つ以上のグループに分割するグループ化部と、
    前記複数の既知サンプルデータの各々に含まれる前記マーカータンパク質のm/z値を、前記一つ以上のグループのうちの、該m/z値が分類されたグループに固有の識別子であるグループ識別子に置換することによって学習データを作成する学習データ生成部と、
    前記複数のマーカータンパク質のうちの同種のマーカータンパク質については、互いに異なるグループ識別子間の距離はいずれも等価であるとして前記学習データを用いた機械学習を行うことによって判別モデルを作成する判別モデル生成部と、
    を備える質量分析データ処理システム。
  4. 前記既知微生物が、タイプが既知であるアクネ菌であり、
    前記複数のマーカータンパク質が、少なくともリボソームタンパク質S8、L13、L15、L23、L27、L6、L7/L12、並びにAntitoxinを含むものであって、
    前記判別モデルがアクネ菌のタイプを判別するものである請求項3に記載の質量分析データ処理システム。
  5. コンピュータを、請求項3又は請求項4に記載の質量分析データ処理システムの各部として機能させるプログラム。
JP2019157607A 2019-08-30 2019-08-30 質量分析データ処理方法、質量分析データ処理システム、及びプログラム Active JP7156213B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019157607A JP7156213B2 (ja) 2019-08-30 2019-08-30 質量分析データ処理方法、質量分析データ処理システム、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019157607A JP7156213B2 (ja) 2019-08-30 2019-08-30 質量分析データ処理方法、質量分析データ処理システム、及びプログラム

Publications (3)

Publication Number Publication Date
JP2021036202A true JP2021036202A (ja) 2021-03-04
JP2021036202A5 JP2021036202A5 (ja) 2022-01-06
JP7156213B2 JP7156213B2 (ja) 2022-10-19

Family

ID=74716809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019157607A Active JP7156213B2 (ja) 2019-08-30 2019-08-30 質量分析データ処理方法、質量分析データ処理システム、及びプログラム

Country Status (1)

Country Link
JP (1) JP7156213B2 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006522340A (ja) * 2003-04-02 2006-09-28 メルク エンド カムパニー インコーポレーテッド 質量分析データの分析法
JP2007523323A (ja) * 2004-01-30 2007-08-16 サイファージェン バイオシステムズ インコーポレイテッド スペクトルにおけるシグナルをクラスタにする方法
JP2007316063A (ja) * 2006-04-28 2007-12-06 National Institute Of Advanced Industrial & Technology 細胞の迅速識別方法及び識別装置
JP2015184020A (ja) * 2014-03-20 2015-10-22 株式会社島津製作所 微生物の識別方法
JP2017211762A (ja) * 2016-05-24 2017-11-30 富士通株式会社 データ分類方法、データ分類装置およびデータ分類プログラム
JP2018155522A (ja) * 2017-03-16 2018-10-04 株式会社島津製作所 データ解析装置
JP2020153933A (ja) * 2019-03-22 2020-09-24 株式会社島津製作所 微生物の識別方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006522340A (ja) * 2003-04-02 2006-09-28 メルク エンド カムパニー インコーポレーテッド 質量分析データの分析法
JP2007523323A (ja) * 2004-01-30 2007-08-16 サイファージェン バイオシステムズ インコーポレイテッド スペクトルにおけるシグナルをクラスタにする方法
JP2007316063A (ja) * 2006-04-28 2007-12-06 National Institute Of Advanced Industrial & Technology 細胞の迅速識別方法及び識別装置
JP2015184020A (ja) * 2014-03-20 2015-10-22 株式会社島津製作所 微生物の識別方法
JP2017211762A (ja) * 2016-05-24 2017-11-30 富士通株式会社 データ分類方法、データ分類装置およびデータ分類プログラム
JP2018155522A (ja) * 2017-03-16 2018-10-04 株式会社島津製作所 データ解析装置
JP2020153933A (ja) * 2019-03-22 2020-09-24 株式会社島津製作所 微生物の識別方法

Also Published As

Publication number Publication date
JP7156213B2 (ja) 2022-10-19

Similar Documents

Publication Publication Date Title
Steinegger et al. Protein-level assembly increases protein sequence recovery from metagenomic samples manyfold
Tibbs Cortes et al. Status and prospects of genome‐wide association studies in plants
Girard et al. Identification and typing of the emerging pathogen Candida auris by matrix‐assisted laser desorption ionisation time of flight mass spectrometry
Brady et al. Phymm and PhymmBL: metagenomic phylogenetic classification with interpolated Markov models
Lewis et al. Support vector machine learning from heterogeneous data: an empirical analysis using protein sequence and structure
Fedorko et al. Identification of clinical isolates of anaerobic bacteria using matrix-assisted laser desorption ionization-time of flight mass spectrometry
Meng et al. Logparse: Making log parsing adaptive through word classification
CN113836038B (zh) 测试数据构造方法、装置、设备及存储介质
CN114420212B (zh) 一种大肠杆菌菌株鉴定方法和系统
CN112529114B (zh) 基于gan的目标信息识别方法、电子设备和介质
Tomachewski et al. Ribopeaks: a web tool for bacterial classification through m/z data from ribosomal proteins
Umbarkar et al. Analysis of heuristic based feature reduction method in intrusion detection system
CN116107834A (zh) 日志异常检测方法、装置、设备及存储介质
CN115618355A (zh) 注入攻击结果判定方法、装置、设备及存储介质
Lall et al. sc-REnF: An entropy guided robust feature selection for single-cell RNA-seq data
Johnson et al. Reference-free plant disease detection using machine learning and long-read metagenomic sequencing
Shih et al. Rapid identification of haloarchaea and methanoarchaea using the matrix assisted laser desorption/ionization time-of-flight mass spectrometry
Vervier et al. MetaVW: Large-scale machine learning for metagenomics sequence classification
JP7156213B2 (ja) 質量分析データ処理方法、質量分析データ処理システム、及びプログラム
Jan et al. Semi-supervised labeling: a proposed methodology for labeling the twitter datasets
Gkanogiannis et al. A scalable assembly-free variable selection algorithm for biomarker discovery from metagenomes
JP7334549B2 (ja) 微生物判別方法、微生物判別システム、及び微生物判別プログラム
Zoun et al. Streaming FDR calculation for protein identification
JP2021025953A (ja) 質量分析データ処理方法、質量分析データ処理システム、及び質量分析データ処理プログラム
US11990327B2 (en) Method, system and program for processing mass spectrometry data

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20190925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220906

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220919

R151 Written notification of patent or utility model registration

Ref document number: 7156213

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151