JP6253644B2 - 統合バイアス補正およびクラス予測を用いてバイオマーカシグネチャを生成するためのシステムおよび方法 - Google Patents

統合バイアス補正およびクラス予測を用いてバイオマーカシグネチャを生成するためのシステムおよび方法 Download PDF

Info

Publication number
JP6253644B2
JP6253644B2 JP2015517783A JP2015517783A JP6253644B2 JP 6253644 B2 JP6253644 B2 JP 6253644B2 JP 2015517783 A JP2015517783 A JP 2015517783A JP 2015517783 A JP2015517783 A JP 2015517783A JP 6253644 B2 JP6253644 B2 JP 6253644B2
Authority
JP
Japan
Prior art keywords
test
data set
class
training
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015517783A
Other languages
English (en)
Other versions
JP2015525413A (ja
Inventor
フロリアン マルティン,
フロリアン マルティン,
ヤン シアン,
ヤン シアン,
Original Assignee
フィリップ モリス プロダクツ エス アー
フィリップ モリス プロダクツ エス アー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フィリップ モリス プロダクツ エス アー, フィリップ モリス プロダクツ エス アー filed Critical フィリップ モリス プロダクツ エス アー
Publication of JP2015525413A publication Critical patent/JP2015525413A/ja
Application granted granted Critical
Publication of JP6253644B2 publication Critical patent/JP6253644B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

関連出願への参照
本願は、米国仮特許出願第61/662,792号(発明の名称「Systems and Methods for Generating Biomarker Signatures with Integrated Bias Correction and Class Prediction」、2012年6月21日出願)に対する35 U.S.C § 119の下での優先権を主張し、それは、本明細書にその全体が援用される。
背景
生物医学分野において、特定の生物学的状態を示す物質、すなわち、バイオマーカを識別することが重要である。ゲノミクスおよびプロテオミクスの新しい技術が出現するにつれて、バイオマーカは、生物学的発見、薬剤開発、および、ヘルスケアにおいてますます重要になりつつある。バイオマーカは、多くの疾患の診断および予後のためだけではなく、治療法の開発のための基礎を理解するためにも有用である。バイオマーカの成功した効果的な識別は、新薬開発プロセスを加速させることができる。診断および予後と治療法との組み合わせによって、バイオマーカ識別はまた、現在の薬物治療の品質を向上し、したがって、薬理遺伝学、薬理ゲノム学、および、薬理プロテオミクスの使用において重要な役割を果たす。
高スループットスクリーニングを含むゲノムおよびプロテオームの分析は、細胞において発現させられるタンパク質の数および形態に関する豊富な情報を供給し、各細胞について、特定の細胞状態の特性を示す発現させられたタンパク質のプロファイルを識別する潜在的可能性を提供する。特定の場合において、この細胞状態は、疾患と関連付けられる異常生理学的反応の特性を示し得る。結果として、疾患を有する患者からの細胞状態を識別し、それを正常な患者からの対応する細胞の細胞状態と比較することによって、疾患を診断して治療する機会を提供することができる。
これらの高スループットスクリーニング技法は、遺伝子発現情報の大量のデータセットを提供する。研究者らは、個人の多様な集団について再現可能に診断するパターンにこれらのデータセットを組織化するための方法を開発しようとしてきた。1つのアプローチは、複合データセットを形成するように複数のソースからのデータをプールし、次いで、データセットを発見/トレーニングセットおよびテスト/検証セットに分割することであった。しかしながら、転写プロファイリングデータおよびタンパク質発現プロファイリングデータは両方とも、しばしば、利用可能な数のサンプルに対する多数の変数によって特徴付けられる。
患者または対照の群からの検体の発現プロファイルの間の観察された差異は、典型的に、疾患または対照の集団内の生物学的変動または未知のサブ表現型、研究プロトコルにおける差異による部位特異的なバイアス、検体の取り扱い、器具条件(例えば、チップバッチ等)における差異によるバイアス、および、測定誤差による変動を含むいくつかの要因によって、弱められる。いくつかの技法は、データサンプルにおけるバイアスを補正しようとする(例えば、別のクラスよりもむしろ、データセットにおいて表されるサンプルの1つのクラスを有することに起因し得る)。
いくつかのコンピュータベースの方法が、疾患および対照のサンプルの間の差異を最も良く説明する一組の特徴(マーカ)を見出すために開発されてきた。いくつかの初期の方法は、LIMMA、乳癌に関するバイオマーカを識別するためのFDA承認マンマプリント技法、ロジスティック回帰技法、および、サポートベクトルマシン(SVM)等の機械学習方法のような統計的テストを含んでいた。概して、機械学習の視点から、バイオマーカの選択は、典型的に、分類タスクについての特徴選択問題である。しかしながら、これらの初期の解決策は、いくつかの不利点に直面した。これらの技法によって生成されるシグネチャは、しばしば、対象の包含および除外が異なるシグネチャにつながり得るので、再現可能ではなかった。これらの初期の解決策はまた、多くの偽陽性シグネチャを生成し、小サンプルサイズおよび高次元を有するデータセットに作用するので、ロバストではなかった。
したがって、臨床的な診断および/または予後についてのバイオマーカを識別するため、より一般的には、データセットの中の要素を2つ以上のクラスに分類するために使用されることができるデータマーカを識別するための改良型技法の必要性がある。
出願人らは、既存のコンピュータベースの方法が、クラス予測技法とは別にバイアス補正技法を不利に適用することを認識している。本明細書で説明されるコンピュータシステムおよびコンピュータプログラム製品は、バイオマーカおよび他のデータ分類適用において改善された分類性能を達成し得る、バイアス補正およびクラス予測への統合アプローチを適用する方法を実装する。特定すると、本明細書で開示されるコンピュータ実装方法は、バイアス補正およびクラス予測への反復アプローチを採用する。コンピュータ実装方法の種々の実施形態において、システム中の少なくとも1つのプロセッサが、トレーニングデータセットおよびトレーニングクラスセットを受信し、そのトレーニングクラスセットは、トレーニングデータセットの中の要素の各々と関連付けられるクラスを識別する。システム中のプロセッサはまた、テストデータセットを受信する。プロセッサは、機械学習技法をトレーニングデータセットおよびトレーニングクラスセットに適用することによって、トレーニングデータセットについての第1の分類器を生成し、第1の分類器に従ってテストデータセット中の要素を分類することによって、第1のテストクラスセットを生成する。複数の反復の各々について、プロセッサは、トレーニングクラスセットとテストクラスセットとのうちの少なくとも1つに基づいて、トレーニングデータセットを変換し、以前のステップの変換を適用することによって、テストデータセットを変換し、変換されたトレーニングデータセットおよびトレーニングクラスセットに機械学習技法を適用することによって、変換されたトレーニングデータセットについての第2の分類器を生成し、第2の分類器に従って、変換されたテストデータセット中の要素を分類することによって、第2のテストクラスセットを生成する。プロセッサはまた、第1のテストクラスセットと第2のテストクラスセットとを比較し、第1のテストクラスセットと第2のテストクラスセットとが異なる場合、プロセッサは、第2のクラスセットを第1のクラスセットとして記憶し、変換されたテストデータセットをテストデータセットとして記憶し、反復の開始に戻る。本発明のコンピュータシステムは、上記で説明されるような方法およびその種々の実施形態を実装するための手段を備える。
例えば、本発明は、下記の項目を提供する。
(項目1)
プロセッサによって実行される、2つ以上のクラスにデータセットを分類するコンピュータ実装方法であって、前記方法は、
(a)トレーニングデータセットおよびトレーニングクラスセットを受信するステップであって、前記トレーニングクラスセットは、前記トレーニングデータセット中の要素の各々と関連付けられるクラスを識別する、ステップと、
(b)テストデータセットを受信するステップと、
(c)前記トレーニングデータセットおよび前記トレーニングクラスセットに機械学習技法を適用することによって、前記トレーニングデータセットについての第1の分類器を生成するステップと、
(d)前記第1の分類器に従って、前記テストデータセット中の要素を分類することによって、第1のテストクラスセットを生成するステップと、
(e)複数の反復の各々について、
(i)前記トレーニングクラスセットおよび前記テストクラスセットのうちの少なくとも1つに基づいて、前記トレーニングデータセットを変換するステップと、
(ii)前記テストデータセットを変換するステップと、
(iii)前記変換されたトレーニングデータセットおよび前記トレーニングクラスセットに基づいて、第2の分類器に従って前記変換されたテストデータセット中の前記要素を分類することによって、第2のテストクラスセットを生成するステップと、
(iv)前記第1のテストクラスセットと前記第2のテストクラスセットとが異なる場合、前記第2のクラスセットを前記第1のクラスセットとして記憶し、前記変換されたテストデータセットを前記テストデータセットとして記憶し、ステップ(i)に戻るステップと
を含む、方法。
(項目2)
前記第1のテストクラスセットと前記第2のテストクラスセットとが異ならない場合に、前記第2のクラスセットを出力するステップをさらに含む、項目1に記載の方法。
(項目3)
前記トレーニングデータセットの要素は、疾患を有する患者についての、前記疾患に耐性がある患者についての、または、前記疾患がない患者についての遺伝子発現データを表す、項目1〜2のいずれかに記載の方法。
(項目4)
前記トレーニングデータセットおよび前記テストデータセットは、集約データセット中のサンプルを前記トレーニングデータセットまたは前記テストデータセットにランダムに割り当てることによって、生成される、項目1〜3のいずれかに記載の方法。
(項目5)
ステップ(i)、ステップ(ii)、または、ステップ(i)とステップ(ii)との両方の前記変換は、前記データセットの重心に基づいて前記データセットの要素を調整することによって、バイアス補正技法を行うステップを含む、項目1〜4のいずれかに記載の方法。
(項目6)
前記バイアス補正技法は、前記データセットの各要素から前記重心の成分を差し引くステップを含む、項目5に記載の方法。
(項目7)
ステップ(i)、ステップ(ii)、または、ステップ(i)とステップ(ii)との両方における前記変換は、回転、シアー、線形変換、または、非線形変換を適用するステップを含む、項目1〜6のいずれかに記載の方法。
(項目8)
前記複数の反復の各々について、前記第1のテストクラスセットを前記第2のテストクラスセットと比較するステップをさらに含む、項目1〜7のいずれかに記載の方法。
(項目9)
前記複数の反復の各々について、前記変換されたトレーニングデータセットおよび前記トレーニングデータセットに機械学習技法を適用することによって、前記変換されたトレーニングデータセットについての前記第2の分類器を生成するステップをさらに含む、項目1〜8のいずれかに記載の方法。
(項目10)
ステップ(ii)での前記変換は、ステップ(i)の同一の変換を適用することによって行われる、項目1〜9のいずれかに記載の方法。
(項目11)
前記第2のテストクラスセットを表示デバイス、印刷デバイス、または、記憶デバイスに提供するステップをさらに含む、項目1〜10のいずれかに記載の方法。
(項目12)
前記第1のテストクラスセットおよび前記第2のテストクラスセットは、前記第1のテストクラスセットの任意の要素が前記第2のテストクラスセットの対応する要素と異なる場合に、異なる、項目1〜11のいずれかに記載の方法。
(項目13)
エラー率に基づいて、前記第2の分類器の性能測定基準を計算するステップをさらに含む、項目1〜12のいずれかに記載の方法。
(項目14)
コンピュータ可読命令を備えるコンピュータプログラム製品であって、前記コンピュータ可読命令は、少なくとも1つのプロセッサを備えるコンピュータ化システムにおいて実行される場合、前記少なくとも1つのプロセッサに項目1〜13のいずれかに記載の方法の1つ以上のステップを実行させる、コンピュータプログラム製品。
(項目15)
非一時的なコンピュータ可読命令を伴って構成される少なくとも1つのプロセッサを備えるコンピュータ化システムであって、前記非一時的なコンピュータ可読命令は、実行される場合、前記プロセッサに項目1〜13のいずれかに記載の方法を実行させる非一時的なコンピュータ可読命令を伴って構成される少なくとも1つのプロセッサを備える、コンピュータ化システム。
上記で説明される方法の特定の実施形態において、本方法はさらに、第1のテストクラスセットと第2のテストクラスセットとが異ならない場合に、第2のクラスセットを出力するステップを含む。特定すると、上記で説明されるような反復は、第1のテストクラスセットおよび第2のテストクラスセットが収束し、かつ、予測された分類の間に差異がなくなるまで、繰り返され得る。上記で説明される方法の特定の実施形態において、トレーニングデータセットの要素は、疾患を有する患者について、疾患に耐性がある患者について、または、疾患がない患者についての遺伝子発現データを表す。トレーニングクラスセットの要素は、トレーニングデータセット中のデータサンプルについての既知のクラス識別子に対応し得る。例えば、クラス識別子は、「疾患陽性」、「疾患免疫性」、または、「疾患なし」等のカテゴリを含み得る。
上記で説明される方法の特定の実施形態において、トレーニングデータセットおよびテストデータセットは、集約データセット中のサンプルをトレーニングデータセットまたはテストデータセットにランダムに割り当てることによって、生成される。集約データセットをトレーニングデータセットとテストデータセットとにランダムに分割することが、クラスを予測してロバストな遺伝子シグネチャを生成するために望ましくあり得る。さらに、集約データセットのサンプルは、分割の前に破棄され得るか、または、トレーニングデータセットあるいはテストデータセットのサンプルは、分割後に破棄され得る。上記で説明される方法の特定の実施形態において、トレーニングデータセットを変換するステップ、テストデータセットを変換するステップ、または、トレーニングデータセットを変換するステップとテストデータセットを変換するステップとの両方は、データセットの重心に基づいてデータセットの要素を調整することによって、バイアス補正技法を行うステップを含む。変換は、トレーニングクラスセットに基づいて変換を定義し得る変換関数に従って行われる。上記で説明される方法の特定の実施形態において、バイアス補正技法は、データセットの各要素から重心の成分を差し引くステップを含む。例えば、バイアス補正技法の結果は、データセットにおいて表される各クラスの重心を考慮することによって、トレーニングデータセット、テストデータセット、または、トレーニングデータセットおよびテストデータセットの両方の各要素が、「再び中心に置かれる」ことであり得る。上記で説明される方法の特定の実施形態において、トレーニングデータセットを変換するステップ、テストデータセットを変換するステップ、または、トレーニングデータセットを変換するステップとテストデータセットを変換するステップとの両方は、回転、シアー(shear)、線形変換、または、非線形変換を適用するステップを含む。
上記で説明される方法の特定の実施形態において、本方法はさらに、複数の反復の各々について、第1のテストクラスセットと第2のテストクラスセットとを比較するステップを含む。比較の結果として、第1のテストクラスセットおよび第2のテストクラスセットは、第1のテストクラスセットの任意の単一の要素が第2のテストクラスセットの対応する要素とは異なる場合に、異なると言われ得る。概して、第1のテストクラスセット中の少なくとも所定の数の要素が第2のテストクラスセット中の対応する要素と異なる場合に、第1のテストクラスセットと第2のテストクラスセットとが異なると言われ得るように、閾値が設定され得る。
上記で説明される方法の特定の実施形態において、本方法はさらに、複数の反復の各々について、変換されたトレーニングデータセットおよびトレーニングデータセットに機械学習技法を適用することによって、変換されたトレーニングデータセットについての第2の分類器を生成するステップを含む。上記で説明される方法の特定の実施形態において、テストデータセットの変換は、トレーニングデータセットを変換するステップの変換と同一の変換を伴う。上記で説明される方法の特定の実施形態において、本方法はさらに、表示デバイス、印刷デバイス、または、記憶デバイスに第2のテストクラスセットを提供するステップを含む。上記で説明される方法の特定の実施形態において、本方法はさらに、エラー率に基づいて、第2の分類器の性能測定基準を計算するステップを含む。特定の実施形態において、限定されないが、線形判別分析(LDA)、ロジスティック回帰、サポートベクトルマシン、ナイーブベイズ分類器等の線形分類器が好ましい。
本発明のコンピュータシステムは、上記で説明されるような方法の種々の実施形態を実装するための手段を備える。例えば、コンピュータプログラム製品が説明され、本製品は、少なくとも1つのプロセッサを備えるコンピュータ化システムにおいて実行される場合、上記で説明される方法のうちのいずれかの1つ以上のステップをプロセッサに実行させるコンピュータ可読命令を備える。別の例において、コンピュータ化システムが説明され、本システムは、実行される場合、上記で説明される方法のうちのいずれかをプロセッサに実行させる非一時的なコンピュータ可読命令を伴って構成されるプロセッサを備える。本明細書で説明されるコンピュータプログラム製品およびコンピュータ化方法は、1つ以上のプロセッサを各々が含む1つ以上のコンピューティングデバイスを有するコンピュータ化システムにおいて実装され得る。概して、本明細書で説明されるコンピュータ化システムは、本明細書で説明されるコンピュータ化方法のうちの1つ以上を実行するようにハードウェア、ファームウェア、および、ソフトウェアを伴って構成されるコンピュータ、マイクロプロセッサ、論理デバイス、または、他のデバイスもしくはプロセッサ等の、プロセッサまたはデバイスを含む1つ以上のエンジンを備え得る。これらのエンジンのうちのいずれか1つ以上は、いずれか1つ以上の他のエンジンから物理的に分離可能であり得るか、または、共通のまたは異なる回路基板上の別個のプロセッサ等の、複数の物理的に分離可能な構成要素を含み得る。本発明のコンピュータシステムは、上記で説明されるような方法およびその種々の実施形態を実装するための手段を備える。エンジンは、随時、相互接続され得、さらに、随時、摂動データベース、測定可能値データベース、実験データのデータベース、および、文献データベースを含む1つ以上のデータベースに接続され得る。本明細書で説明されるコンピュータ化システムは、ネットワークインターフェースを通して通信する1つ以上のプロセッサおよびエンジンを有する分散型コンピュータ化システムを含み得る。そのような実装は、複数の通信システムにわたる分散型計算のために適切であり得る。
本開示のさらなる特徴、その性質、および、種々の利点は、類似参照文字が全体を通して類似部分を指す添付図面と関連して検討される下記の詳細な説明を考慮すると明白になる。
図1は、1つ以上のバイオマーカシグネチャを識別するための例示的なシステムを描写する。 図2は、データセット中の要素の分類を図示する。 図3は、データセットを分類するための例示的なプロセスの流れ図である。 図3は、データセットを分類するための例示的なプロセスの流れ図である。 図4は、図1のシステムの構成要素のうちのいずれか等のコンピューティングデバイスのブロック図である。 図5は、トレーニングデータセット中の遺伝子シグネチャのヒートマップである。
本明細書で説明されるシステムおよび方法の全体的な理解を提供するために、ここで、遺伝子バイオマーカシグネチャを識別するためのシステムおよび方法を含む特定の例証的実施形態が、説明される。しかしながら、本明細書で説明されるシステム、コンピュータプログラム製品、および、方法は、任意のデータ分類適用等の他の好適な適用のために適合させられかつ修正され得、そのような他の追加および修正は、その範囲から逸脱しないことが、当業者によって理解される。概して、本明細書で説明されるコンピュータ化システムは、本明細書で説明されるコンピュータ化方法のうちの1つ以上を実行するようにハードウェア、ファームウェア、および、ソフトウェアを伴って構成されるコンピュータ、マイクロプロセッサ、または、論理デバイス等の1つ以上のエンジン、プロセッサ、または、デバイスを備え得る。
図1は、本明細書で開示される分類技法が実装され得る、1つ以上のバイオマーカシグネチャを識別するための例示的なシステム100を描写する。システム100は、バイオマーカジェネレータ102と、バイオマーカコンソリデータ104とを含む。システム100はさらに、バイオマーカジェネレータ102およびバイオマーカコンソリデータ104の動作の特定の局面を制御するための中央制御装置(CCU)101を含む。動作中に、遺伝子発現データ等のデータが、バイオマーカジェネレータ102で受信される。バイオマーカジェネレータ102は、複数の候補バイオマーカおよび対応するエラー率を生成するようにデータを処理する。バイオマーカコンソリデータ104は、これらの候補バイオマーカおよびエラー率を受信し、最適な性能尺度およびサイズを有する好適なバイオマーカを選択する。
バイオマーカジェネレータ102は、データを処理して一組の候補バイオマーカおよび候補エラー率を生成するためのいくつかの構成要素を含む。特定すると、バイオマーカジェネレータは、データをトレーニングデータセットとテストデータセットとに分割するためのデータ前処理エンジン110を含む。バイオマーカジェネレータ102は、トレーニングデータセットおよびテストデータセットを受信してテストデータセットの要素を2つ以上のクラス(例えば、罹患および非罹患、感染しやすい、および、免疫がある、および、罹患等)のうちの1つに分類するための分類エンジン114を含む。バイオマーカジェネレータ102は、データ前処理エンジン110によって選択されるテストデータに適用される場合の分類器の性能を決定するための分類器性能監視エンジン116を含む。分類器性能監視エンジン116は、分類器(例えば、分類にとって最も重要であるデータセットの要素の成分)に基づいて候補バイオマーカを識別し、1つ以上の候補バイオマーカについて、候補エラー率を含み得る性能尺度を生成する。バイオマーカジェネレータ102はさらに、1つ以上の候補バイオマーカおよび候補性能尺度を記憶するためのバイオマーカ記憶部118を含む。
バイオマーカジェネレータは、自動的に制御またはユーザ操作され得るCCU 101によって制御され得る。特定の実施形態において、バイオマーカジェネレータ102は、データをトレーニングデータセットとテストデータセットとにランダムに分割する度に、複数の候補バイオマーカを生成するように動作し得る。そのような複数の候補バイオマーカを生成するために、バイオマーカジェネレータ102の動作は、複数回、反復され得る。CCU 101は、所望の数の候補バイオマーカを含む1つ以上のシステム反復パラメータを受信し得、それらは、次に、バイオマーカジェネレータ102の動作が反復され得る回数を決定するように使用され得る。CCU 101はまた、バイオマーカ中の構成要素の数(例えば、バイオマーカ遺伝子シグネチャ中の遺伝子の数)を表し得る所望のバイオマーカサイズを含む他のシステムパラメータを受信し得る。バイオマーカサイズ情報は、トレーニングデータから候補バイオマーカを生成するために分類器性能監視エンジン116によって使用され得る。バイオマーカジェネレータ102の動作、特定すると分類エンジン114の動作は、図2〜4への参照によってさらに詳細に説明される。
バイオマーカジェネレータ102は、1つ以上の候補バイオマーカおよび候補エラー率を生成し、それらは、ロバストなバイオマーカを生成するためにバイオマーカコンソリデータ104によって使用される。バイオマーカコンソリデータ104は、複数の候補バイオマーカを受信して複数の候補バイオマーカにわたって最も頻繁に発生する遺伝子を有する新しいバイオマーカシグネチャを生成するバイオマーカコンセンサスエンジン128を含む。バイオマーカコンソリデータ104は、複数の候補バイオマーカにわたって全体的なエラー率を決定するためのエラー計算エンジン130を含む。バイオマーカジェネレータ102と同様に、バイオマーカコンソリデータ104もまた、自動的に制御またはユーザ操作され得るCCU 101によって制御され得る。CCU 101は、最小バイオマーカサイズについての好適な閾値を受信および/または決定し得、バイオマーカジェネレータ102およびバイオマーカコンソリデータ104の両方を動作させる反復の数を決定するように、この情報を使用し得る。1つの実施形態において、各反復中に、CCU 101は、バイオマーカサイズを1つ減少させ、閾値が達せられるまでバイオマーカジェネレータ102およびバイオマーカコンソリデータ104の両方を反復する。そのような実施形態において、バイオマーカコンセンサスエンジン128は、各反復について、新しいバイオマーカシグネチャおよび新しい全体的なエラー率を出力する。したがって、バイオマーカコンセンサスエンジン128は、閾値から最大バイオマーカサイズまで様々である異なるサイズを各々が有する一組の新しいバイオマーカシグネチャ(複数)を出力する。バイオマーカコンソリデータ104はさらに、これらの新しいバイオマーカシグネチャの各々の性能尺度またはエラー率を検討して出力のために最適なバイオマーカを選択するバイオマーカ選択エンジン126を含む。バイオマーカコンソリデータ104およびそれぞれのエンジンの動作は、図2〜4への参照によってさらに詳細に説明される。
図3は、データセットを分類するための例示的なプロセスの流れ図である。ステップ302で、分類エンジン114は、トレーニングデータおよびテストデータを受信する。下記で説明されるように、分類エンジン114は、1つ以上の分類器を開発するためにトレーニングデータを使用し、次いで、1つ以上の分類器をテストデータに適用する。図3で図示されるように、トレーニングデータは、トレーニングデータセットT0.train 304と、トレーニングクラスセットcl.train 306とを含む。トレーニングデータセットT0.train 304中の各要素は、データサンプル(例えば、特定の患者からの発現データのベクトル)を表し、トレーニングクラスセットcl.train 306中の既知のクラス識別子に対応する。例えば、3クラスシナリオにおいて、トレーニングデータセットT0.train 304中の第1の要素は、特定の疾患を有する患者についての遺伝子発現データを表し得、トレーニングクラスセットcl.train 306中の第1の要素「疾患陽性」に対応し得、トレーニングデータセットT0.train 304中の第2の要素は、特定の疾患に耐性または免疫がある患者についての遺伝子発現データを表し得、トレーニングクラスセットcl.train 306中の第2の要素「疾患免疫性」に対応し得、トレーニングデータセットT0.train 304中の第3の要素は、特定の疾患がない患者についての遺伝子発現データを表し得、トレーニングクラスセットcl.train 306中の第3の要素「疾患なし」に対応し得る。ステップ302で受信されるテストデータは、テストデータセットT0.test 308を含み、そのテストデータセットT0.testは、トレーニングデータセットT0.train 304中のデータサンプルと同一の基礎的な種類のデータを表すが、例えば、異なる患者または異なる実験から採取されたサンプルを表し得る。任意選択で、分類エンジン114はまた、分類器がテストデータセットT0.test 308に適用される場合に分類エンジン114によって生成される分類器の性能を評価するために使用され得る、テストデータセット中のデータサンプルについての既知のクラス識別子を含むテストクラスセットcl.test 310を受信する。いくつかの実装において、テストデータセットT0.test 308中のデータサンプルについてのいかなる既知のクラスも利用可能ではなく、したがって、テストクラスセットcl.test 310は、分類エンジン114に提供されない。
概して、ステップ302で受信されるデータは、サンプル中の複数の異なる遺伝子の発現値等の、分類が引き出され得る任意の実験データまたは別様に得られたデータ、および/または、任意の生物学的に意味のある被分析物のレベル等の種々の表現型の特性を表し得る。特定の実施形態において、データセットは、疾患状態についてのおよび対照状態についての発現レベルデータを含み得る。本明細書で使用される場合、「遺伝子発現レベル」という用語は、遺伝子によってコード化される分子(例えば、RNAまたはポリペプチド)の量を指し得る。mRNA分子の発現レベルは、mRNAの量(mRNAをコード化する遺伝子の転写活性によって決定される)、および、mRNAの安定性(mRNAの半減期によって決定される)を含み得る。遺伝子発現レベルはまた、遺伝子によってコード化される所与のアミノ酸配列に対応するポリペプチドの量を含み得る。したがって、遺伝子の発現レベルは、遺伝子から転写されるmRNAの量、遺伝子によってコード化されるポリペプチドの量、または、それら両方に対応することができる。遺伝子の発現レベルはさらに、遺伝子産物の異なる形態の発現レベルによってカテゴライズされ得る。例えば、遺伝子によってコード化されるRNA分子は、差次的に発現させられたスプライスバリアント(differentially expressed splice variant)、異なる開始または終結部位を有する転写産物、および/または、他の特異的に処理された形態を含み得る。遺伝子によってコード化されるポリペプチドは、ポリペプチドの開裂および/または修飾形態を含み得る。ポリペプチドは、リン酸化、脂質化、プレニル化、硫酸化、水酸化、アセチル化、リボシル化、ファルネシル化、炭水化物の追加、および、同等物によって修飾されることができる。さらに、所与の種類の修飾を有するポリペプチドの複数の形態が、存在し得る。例えば、ポリペプチドは、複数の部位においてリン酸化され、異なるレベルの特異的にリン酸化されたタンパク質を発現し得る。
特定の実施形態において、細胞または組織における遺伝子発現レベルは、遺伝子発現プロファイルによって表され得る。遺伝子発現プロファイルは、細胞または組織等の検体における遺伝子の発現レベルの特徴的な表現を指し得る。個体からの検体における遺伝子発現プロファイルの決定は、個体の遺伝子発現状態を表す。遺伝子発現プロファイルは、メッセンジャーRNAまたはポリペプチドの発現、あるいは、細胞中または組織中の1つ以上の遺伝子によってコード化されるそれらの形態を反映する。発現プロファイルは、概して、異なる細胞または組織の間で異なる発現パターンを示す生体分子(核酸、タンパク質、炭水化物)のプロファイルを指し得る。遺伝子発現プロファイルを表すデータサンプルは、発現レベルのベクトルとして記憶され得、ベクトルにおける各入力は、特定の生体分子または他の生物学的実体に対応する。
特定の実施形態において、データセットは、サンプル中の複数の異なる遺伝子の遺伝子発現値を表す要素を含み得る。他の実施形態において、データセットは、質量分析によって検出されるピークを表す要素を含み得る。概して、各データセットは、複数の生物学的状態クラスのうちの1つに各々が対応するデータサンプル(複数)を含み得る。例えば、生物学的状態クラスは、サンプルのソース(すなわち、サンプルが取得される患者)における疾患の有無、病期、疾患のリスク、疾患の再発の可能性、1つ以上の遺伝子座における共有遺伝子型(例えば、共通HLAハプロタイプ、遺伝子における突然変異、メチル化等の遺伝子の修飾等)、作用物質(例えば、毒性物質または潜在的に毒性の物質、環境汚染物質、候補薬剤等)または条件(温度、pH等)への曝露、人口学的特性(年齢、性別、体重、家族歴、既往歴等)、作用物質への耐性、作用物質への感受性(例えば、薬剤への反応性)、および、同等物を含むことができるが、それらに限定されない。
データセットは、最終的な分類器選択における収集バイアスを低減するように、互いから独立し得る。例えば、それらは、複数のソースから収集されることができ、異なる除外または包含の基準を使用して異なる時間に異なる場所から収集され得、すなわち、データセットは、生物学的状態クラスを定義する特性外の特性を考慮する場合に、比較的ヘテロジニアスであり得る。ヘテロジェナイティ(heterogeneity)に寄与する要因は、性別、年齢、民族性による生物学的変動、摂食、運動、睡眠の挙動による個体的変動、および、血液処理のための臨床プロトコルによるサンプル取り扱い変動を含むが、それらに限定されない。しかしながら、生物学的状態クラスは、1つ以上の共通特性を備え得る(例えば、サンプルソースは、疾患および同一の性別、または、1つ以上の他の共通の人口学的特性を有する個体を表し得る)。特定の実施形態において、複数のソースからのデータセットは、異なる時間および/または異なる条件下における患者の同一の集団からのサンプルの収集によって生成される。
特定の実施形態において、複数のデータセットは、複数の異なる臨床試験場から取得され、各データセットは、各個別試験場で取得される複数の患者サンプルを備える。サンプル種類は、血液、血清、血漿、乳頭吸引物、尿、涙、唾液、髄液、リンパ液、細胞および/または組織溶解物、レーザ顕微解剖組織または細胞サンプル、(例えば、パラフィンブロック中の、または、凍結された)埋め込み細胞または組織、(例えば、剖検からの)新鮮なまたは保存用のサンプルを含むが、それらに限定されない。サンプルは、例えば、インビトロで細胞または組織培養から得ることができる。代替として、サンプルは、生体から、または、単細胞生物等の生物の集団から得ることができる。1つの例において、特定の癌についてのバイオマーカを識別する場合、2つのテスト場で独立したグループによって選択される対照から、血液サンプルが収集され、それによって、独立した独立したデータセットが開発されるサンプルを提供し得る。
いくつかの実装において、トレーニングセットおよびテストセットは、バルクデータを受信してそのバルクデータをトレーニングデータセットとテストデータセットとに分割するデータ前処理エンジン110(図1)によって生成される。特定の実施形態において、データ前処理エンジン110は、データをこれら2つのグループにランダムに分割する。データをランダムに分割することが、クラスを予測してロバストな遺伝子シグネチャを生成するために望ましくあり得る。他の実施形態において、データ前処理エンジン110は、データの種類または標識に基づいて、データを2つ以上のグループに分割する。概して、データは、本開示の範囲から逸脱することなく、所望に応じた任意の好適な方法で、トレーニングデータセットおよびテストデータセットに分割されることができる。トレーニングデータセットおよびテストデータセットは、任意の好適なサイズを有し得、同一のまたは異なるサイズであり得る。特定の実施形態において、データ前処理エンジン110は、データをトレーニングデータセットとテストデータセットとに分割することの前に、1つ以上のデータを破棄し得る。特定の実施形態において、データ前処理エンジン110は、任意のさらなる処理の前に、トレーニングデータセットおよび/またはテストデータセットから1つ以上のデータを破棄し得る。
ステップ311において、分類エンジン114は、カウンタ変数iを1に等しく設定する。ステップ312において、分類エンジン114は、トレーニングデータセットT0.train 304およびトレーニングクラスセットcl.train 306に基づいて、第1の分類器rf 314を生成する。図2は、データセット中の要素の分類を図示する。分類エンジン114は、サポートベクトルマシン技法、線形判別分析技法、ランダムフォレスト技法、k最近傍技法、部分最小二乗技法(部分最小二乗および線形判別分析特徴を組み合わせる技法を含む)、ロジスティック回帰技法、ニューラルネットワークベースの技法、決定木ベースの技法、および、(例えば、「Diagnosis of multiple cancer types by shrunken centroids of gene expression」 PNAS, v. 99, n. 10, 2002で、Tibshirani、Hastle、Narasimhan、および、Chuによって説明されるような)収縮重心技法(shrunken centroid technique)を含むが、それらに限定されないいずれか1つ以上の既知の機械学習アルゴリズムをステップ312で使用し得る。いくつかのそのような技法は、線形判別分析、サポートベクトルマシン、ランダムフォレスト(Breiman , Machine Learning, 45(1):5−32 (2001))、k最近傍(Bishop, Neural Networks for Pattern Recognition, ed. O.U. Press, 1995)、部分最小二乗判別分析、および、PAMR(Tibshirani et al., Proc Natl Acad Sci USA, 99(10):6567−6572 (2002))に対応する、lda、svm、randomForest、knn、pls.lda、および、pamrを含むRプログラミング言語用パッケージとして利用可能である。分類エンジン114は、ステップ312で、第1の分類器rf 314をメモリに記憶し得る。
ステップ316において、分類エンジン114は、第1の分類器rf 314(ステップ312で生成される)をテストデータセットT0.test 308に適用することによって、一組の予測されたテスト分類predcl.test 318を生成する。分類エンジン114は、ステップ316で、予測された分類predcl.test 318をメモリに記憶し得る。
ステップ320において、分類エンジン114は、トレーニングデータセットT0.train 304を変換する。この変換は、トレーニングクラスセットcl.train 306に基づいてトレーニングデータセットT0.train 304を変換する変換関数correctedDataに従って進む。ステップ310の変換の結果は、分類エンジン114がメモリに記憶し得る変換されたトレーニングデータセットT0.train.2 322である。いくつかの実装において、ステップ320で分類エンジン114によって行われる変換は、バイアス補正技法を含む。例えば、変換は、全体として採取されるデータセットの重心、または、データセットにおいて表される各クラスの重心に関して、トレーニングデータセットT0.train 304の要素を調整することによって、トレーニングデータセットT0.train 304を「再び中心に置いて」もよい。
1つの特定の再中心化技法は、異なるグループの重心の中心に基づいて、トレーニングデータセットT0.train 304の要素を中心に置くことを伴う。トレーニングデータセットT0.train 304中にn個のデータサンプルがあり、かつ、各データサンプルがp個の入力(例えば、p個の異なる遺伝子ついての発現レベルを表す)を有するベクトルである場合、xijにデータサンプルjのi番目の入力を表させる。トレーニングクラスセットcl.train 308がK個の異なるクラスを表す場合、クラスkにおけるnk個のサンプルの指数をCkに表させる。分類エンジン114は、クラスkの重心のi番目の成分を下記のように計算し得、
かつ、クラス重心の中心のi番目の成分を下記のように計算し得る。
分類エンジン114はまた、全体的な重心のi番目の成分を下記のように計算し得る。
次いで、分類エンジン114は、下記によって求められる差を加えることによって、トレーニングデータセットT0.train 304の各要素の中のi番目の入力を調整することを含む変換を行ってもよい。
いくつかの実装において、ステップ320で行われる変換は、方程式1〜4への参照によって上記で説明されるもの以外の偏移(shift)、回転、シアー、これらの変換の組み合わせ、または、任意の他の線形あるいは非線形の変換を含む。
ステップ324において、分類エンジン114は、テストデータセットT0.test 308を変換する。テストデータセットT0.test 308に適用される変換、correctedDataは、ステップ320でトレーニングデータセットT0.train 304に適用される同一の種類の変換であるが、T0.train 304およびpredcl.train 314の代わりに、引数T0.test 308およびpredcl.test 318に関して適用される。例えば、トレーニングデータセットT0.train 304の要素が、トレーニングデータセットT0.train 304のクラスの重心に関して計算されるような方程式4によって求められるΔの値によって、ステップ320で調整される場合には、テストデータセットT0.test 308の要素は、テストデータセットT0.test 308のクラスの重心に関して計算されるような方程式4によって求められるΔの値によって、ステップ324で調整される。ステップ324の変換の結果は、分類エンジン114がメモリに記憶し得る変換されたテストデータセットT0.test.2 326である。
ステップ327において、分類エンジン114は、反復カウンタiの値が1に等しいかどうかを決定する。そうである場合、分類エンジン114は、分類エンジン114が、第2の分類器rf2 329を生成するために、変換されたトレーニングデータセットT0.train.2 322およびトレーニングクラスセットcl.train 306を使用するステップ328を続けて実行する。ステップ332およびステップ336への参照によって上記で説明されるように、任意の機械学習技法が、ステップ328で分類器を生成するために適用され得る。第2の分類器rf2 329は、第1の分類器rf 314(例えば、両方のSVM分類器)と同一の種類であり得るか、または、異なる種類であり得る。
ステップ331において、分類エンジン114は、反復カウンタiをインクリメントし、次いで、分類エンジン114が第2の分類器rf2 329を(ステップ324で分類エンジン114によって生成されるような)変換されたテストデータセットT0.test.2 326に適用するステップ333を続けて実行する。ステップ333の出力は、変換されたデータセットT0.test.2 326のための一組の予測された分類predcl.test.2 330である。分類エンジン114は、表示デバイス、印刷デバイス、記憶デバイス、ネットワークにわたって分類エンジン114と通信している別のデバイス、または、システム100の内部あるいは外部の任意の他のデバイスに、予測された分類を出力し得る。
ステップ332において、分類エンジン114は、(ステップ316で生成されるような)予測された分類セットpredcl.test 318の分類と(ステップ328で生成されるような)予測された分類セットpredcl.test.2 330の分類との間に何らかの差異があるかどうかを決定する。予測された分類のセットが一致する(すなわち、テストデータセットT0.test 308中の各データサンプルについて、そのデータサンプルについての予測されたクラスが、2つの予測された分類セットの間で同一である)場合には、分類エンジン114は、ステップ338へ進み、予測された分類セットpredcl.test.2 330(同等に、予測された分類セットpredcl.test 318)をテストデータセットT0.test 308の最終的な分類として出力する。
分類エンジン114が分類データセットpredcl.test 318と分類データセットpredcl.test.2 330との間の差異を識別する場合、分類エンジン114は、ステップ334へ進み、テストデータセットT0.test 308の以前に記憶された値を、(ステップ324の変換によって生成されるような)変換されたテストデータセットT0.test.2 326の値と置換する。結果として、テストデータセットT0.test 308は、変換されたテストデータセットT0.test.2 326の値を有する。分類エンジン114は、ステップ336へ進み、(ステップ316で生成されるような)予測された分類セットpredcl.test 318の以前に記憶された値を、(ステップ328で生成されるような)予測された分類セットpredcl.test.2 330の値と置換する。結果として、予測された分類セットpredcl.test 318は、予測された分類セットpredcl.test.2 330の値を有する。
テストデータセットT0.test 308の値が変換されたテストデータセットT0.test.2 326の値で更新され、かつ、予測された分類セットpredcl.test 318が予測された分類セットpredcl.test.2 330の値で更新されると、分類エンジン114は、ステップ324に戻って新しい変換を行い、分類エンジン114が(ステップ332で)予測された分類の間に差異がないことを決定するまで、このプロセスを反復する。
分類器性能監視エンジン116は、好適な性能測定基準を使用して、図3のプロセスの終わりに、分類エンジン114によって生成される最終的な分類の性能を分析し得る。特定の実施形態において、性能測定基準は、エラー率を含み得る。性能測定基準はまた、試行された予測の総数によって除算された正しい予測の数を含み得る。性能測定基準は、本開示の範囲から逸脱することなく、任意の好適な尺度であり得る。
本主題の実装は、本明細書で説明されるような1つ以上の特徴と、1つ以上の機械(例えば、コンピュータ、ロボット)に本明細書で説明される動作を実現させるように動作可能な機械可読媒体を備える物品とを備えるシステム、方法、および、コンピュータプログラム製品を含むことができるが、それらに限定されない。本明細書で説明される方法は、単一のコンピューティングシステムまたは複数のコンピューティングシステムに存在する1つ以上のプロセッサまたはエンジンによって実装されることができる。そのような複数のコンピューティングシステムは、接続されることができ、複数のコンピューティングシステムのうちの1つ以上の間の直接接続を介したネットワーク(例えば、インターネット、無線広域ネットワーク、ローカルエリアネットワーク、広域ネットワーク、有線ネットワーク、または、同等物)を経由した接続を含むが、それに限定されない1つ以上の接続を介して、データおよび/またはコマンド、あるいは、他の命令または同等物を交換することができる。
図4は、図1〜3への参照によって説明されるプロセスを行うための回路を含む図1のシステム100の構成要素のうちのいずれか等の、コンピューティングデバイスのブロック図である。システム100の構成要素の各々は、1つ以上のコンピューティングデバイス400上に実装され得る。特定の局面において、複数の上記の構成要素およびデータベースは、1つのコンピューティングデバイス400内に含まれ得る。特定の実装において、構成要素およびデータベースは、いくつかのコンピューティングデバイス400にわたって実装され得る。
コンピューティングデバイス400は、少なくとも1つの通信インターフェースユニットと、入力/出力コントローラ410と、システムメモリと、1つ以上のデータ記憶デバイスとを備える。システムメモリは、少なくとも1つのランダムアクセスメモリ(RAM 402)と、少なくとも1つの読み取り専用メモリ(ROM 404)とを含む。これらの要素は全て、中央処理ユニット(CPU 406)と通信し、コンピューティングデバイス400の動作を促進する。コンピューティングデバイス400は、多くの異なる方法で構成され得る。例えば、コンピューティングデバイス400は、従来のスタンドアロンコンピュータであり得るか、または、代替として、コンピューティングデバイス400の機能は、複数のコンピュータシステムおよびアーキテクチャにわたって分散され得る。コンピューティングデバイス400は、データ分割、区別、分類、スコア化、ランク付け、および、記憶の動作のうちのいくつかまたは全てを行うように構成され得る。図4において、コンピューティングデバイス400は、ネットワークまたはローカルネットワークを介して、他のサーバまたはシステムにリンクされる。
コンピューティングデバイス400は、分散されたアーキテクチャにおいて構成され得、データベースおよびプロセッサは、別個のユニットまたは場所において格納される。いくつかのそのようなユニットは、一次処理機能を行い、最低限でも、一般コントローラまたはプロセッサおよびシステムメモリを含む。そのような局面において、これらのユニットの各々は、通信インターフェースユニット408を介して、他のサーバ、クライアント、または、ユーザコンピュータ、および、他の関連デバイスとの一次通信リンクとしての役割を果たす通信ハブまたはポート(図示せず)に取り付けられる。通信ハブまたはポートは、それ自体が最小処理能力を有し、主に、通信ルータとしての役割を果たし得る。種々の通信プロトコルは、限定されないが、Ethernet(登録商標)、SAP、SAS(登録商標)、ATP、Bluetooth(登録商標)、GSM(登録商標)、および、TCP/IPを含むシステムの一部であり得る。
CPU 406は、1つ以上の従来のマイクロプロセッサ等のプロセッサ、および、CPU 406から作業負荷をオフロードするための数値演算コプロセッサ等の1つ以上の補助コプロセッサを備える。CPU 406は、通信インターフェースユニット408および入力/出力コントローラ410と通信し、それらを通して、CPU 406は、他のサーバ、ユーザ端末、または、デバイス等の他のデバイスと通信する。通信インターフェースユニット408および入力/出力コントローラ410は、例えば、他のプロセッサ、サーバ、または、クライアント端末と同時に通信するための複数の通信チャネルを含み得る。相互に通信しているデバイスは、継続的に相互に伝送している必要はない。反対に、そのようなデバイスは、必要に応じて相互に伝送する必要しかなく、実際には、ほとんどの時間、データを交換することを控え得、いくつかのステップが行われることを要求することにより、デバイス間の通信リンクを確立し得る。
CPU 406はまた、データ記憶デバイスと通信する。データ記憶デバイスは、磁気、光学、または、半導体のメモリの適切な組み合わせを備え得、例えば、RAM 402、ROM 404、フラッシュドライブ、コンパクトディスクまたはハードディスクあるいはドライブ等の光学ディスクを含み得る。CPU 406およびデータ記憶デバイスは、各々、例えば、単一のコンピュータまたは他のコンピューティングデバイス内に全体的に位置し得るか、または、USBポート、シリアルポートケーブル、同軸ケーブル、Ethernet(登録商標)型ケーブル、電話回線、無線周波数送受信機、または、他の類似の無線もしくは有線の媒体、あるいは、前述のものの組み合わせ等の通信媒体によって、相互に接続され得る。例えば、CPU 406は、通信インターフェースユニット408を介して、データ記憶デバイスに接続され得る。CPU 406は、1つ以上の特定の処理機能を行なうように構成され得る。
データ記憶デバイスは、例えば、(i)コンピューティングデバイス400のためのオペレーティングシステム412、(ii)本明細書で説明されるシステムおよび方法に従って、特に、CPU 406に関して詳細に説明されるプロセスに従って、CPU 406に命令するように適合させられた1つ以上のアプリケーション414(例えば、コンピュータプログラムコードまたはコンピュータプログラム製品)、または、(iii)プログラムによって要求される情報を記憶するために利用され得る情報を記憶するように適合させられたデータベース(単数または複数)416を記憶し得る。いくつかの局面において、データベースは、実験データ、および、既刊文献モデルを記憶するデータベース(単数または複数)を含む。
オペレーティングシステム412およびアプリケーション414は、例えば、圧縮、アンコンパイル、および、暗号化されたフォーマットにおいて記憶され得、コンピュータプログラムコードを含み得る。プログラムの命令は、ROM 404またはRAM 402から等、データ記憶デバイス以外のコンピュータ可読媒体から、プロセッサのメインメモリに読み込まれ得る。プログラムにおける命令のシーケンスの実行は、CPU 406に、本明細書で説明されるプロセスステップを行なわせるが、有線回路が、本発明のプロセスの実装のためのソフトウェア命令の代わりに、または、それと組み合わせて使用され得る。したがって、説明されるシステムおよび方法は、ハードウェアおよびソフトウェアの任意の特定の組み合わせに限定されない。
好適なコンピュータプログラムコードは、本明細書で説明されるようなモデル化、スコア化、および、集約に関連する1つ以上の機能を果たすために提供され得る。プログラムはまた、オペレーティングシステム412、データベース管理システム、および、プロセッサが入力/出力コントローラ410を介してコンピュータ周辺デバイス(例えば、ビデオディスプレイ、キーボード、コンピュータマウス等)と連動することを可能にする「デバイスドライバ」等のプログラム要素を含み得る。
コンピュータ可読命令を備えるコンピュータプログラム製品も、提供される。コンピュータ可読命令は、コンピュータシステム上にロードされて実行される場合、本方法または上記で説明される方法の1つ以上のステップに従って、コンピュータシステムを動作させる。本明細書で使用される場合、「コンピュータ可読媒体」という用語は、実行のために、コンピューティングデバイス400のプロセッサ(または、本明細書で説明されるデバイスの任意の他のプロセッサ)に命令を提供するかまたは提供に関与する任意の非一時的媒体を指す。そのような媒体は、不揮発性媒体および揮発性媒体を含むが、それらに限定されない多くの形態をとり得る。不揮発性媒体は、例えば、光学、磁気、または、光磁気のディスク、あるいは、フラッシュメモリ等の集積回路メモリを含む。揮発性媒体は、典型的にメインメモリを構成するダイナミックランダムアクセスメモリ(DRAM)を含む。コンピュータ可読媒体の共通の形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD−ROM、DVD、任意の他の光学媒体、パンチカード、ペーパーテープ、孔のパターンを有する任意の他の物理的媒体、RAM、PROM、EPROM、または、EEPROM(電気的に消去可能なプログラマブル読み取り専用メモリ)、FLASH−EEPROM、任意の他のメモリチップまたはカートリッジ、あるいは、コンピュータが読み取ることができる任意の他の非一時的媒体を含む。
コンピュータ可読媒体の種々の形態は、実行のために、1つ以上の命令の1つ以上のシーケンスをCPU 406(または本明細書で説明されるデバイスの任意の他のプロセッサ)に搬送することに関与し得る。例えば、命令は、最初に、遠隔コンピュータ(図示せず)の磁気ディスク上にあり得る。遠隔コンピュータは、命令をその動的メモリ内にロードし、Ethernet(登録商標)接続、ケーブルライン、または、モデムを使用する電話回線をも経由して、命令を送信することができる。コンピューティングデバイス400(例えば、サーバ)にローカルの通信デバイスは、それぞれの通信ライン上でデータを受信し、プロセッサのためのシステムバス上にデータを置くことができる。システムバスは、データをメインメモリに搬送し、そこから、プロセッサは、命令を読み出して実行する。メインメモリによって受信される命令は、任意選択で、プロセッサによる実行の前または後のいずれかにおいて、メモリに記憶され得る。加えて、命令は、通信ポートを介して、種々のタイプの情報を搬送する無線通信またはデータストリームの例示的形態である電気的、電磁的、または、光学的な信号として受信され得る。
下記の公開データセットを、Gene Expression Omnibus(GEO)(http://www.ncbi.nlm.nih.gov/geo/)リポジトリからダウンロードする。
トレーニングデータセットは、Affymetrixプラットフォーム(HGU−133+2)上にある。未加工データファイルを、R(R Development Core Team, 2007)の中のBioconductor(Gentleman, 2004)に属するaffyパッケージ(Gautier, 2004)のReadAffy機能によって読み取り、品質を、RNA分解プロット(affyパッケージのAffyRNAdeg機能を伴う)、NUSE、および、RLEプロット(機能affyPLM(Brettschneider, 2008)を伴う)を生成し、MA(RLE)値を計算し、品質管理チェック上の一組の閾値を下回るか、または、上記のデータセットの中で複製されるトレーニングデータセットからアレイを除外し、gcrmaアルゴリズム(Wu, 2004)を使用して品質管理チェックに合格するアレイを正規化することによって、管理する。トレーニングセットサンプル分類を、各データセットについてのGEOデータベースのシリーズマトリクスファイルから取得する。出力は、233個のサンプル(28個のCOPDサンプルおよび205個の対照サンプル)についての54675個のプローブセットを伴う遺伝子発現マトリクスから成る。均衡の取れたデータセットを作製するために、COPDサンプルは、同時係属中の米国仮特許出願第61/662812号で説明されるようなDual Ensemble方法を適用する前に、224個のCOPDサンプルを取得するための多重時間(multiple time)であった。205人の対照および224人のCOPD患者を含む複合データセットを用いて、409個の遺伝子を有する遺伝子シグネチャを構築した。850個の二進値を、ランダムベクトルにおいて使用した。本方法で使用される分類方法は、下記のRパッケージ、すなわち、lda、svm、randomForest、knn、pls.lda、および、pamrを含んでいた。最大反復を、5000であるように設定した。マシューズ相関係数(MCC)、トレーニングデータセットにおける相互検証プロセスの精度は、それぞれ、0.743、0.87である。トレーニングデータセット中の遺伝子シグネチャのヒートマップを、図5に示す。図5のヒートマップにおいて、遺伝子発現値を、行ごとに中心に置いた。ヒートマップの色は、グレースケールでは明確に示されない場合もあるが、図5のデータは、対照データが左に示され、COPDデータが右側に示されていることを示す。テストデータセットは、16個の対照サンプルおよび24個のCOPDサンプルを含む民間供給業者(Genelogic)から入手した未公開データセットである。本発明の変換不変方法を適用することなく、Dual Ensembleによって生成される遺伝子シグネチャは、合計40個のサンプルうちの29個のサンプルを正しく予測した。精度は0.725であり、MCCは0.527である。16個の対照サンプルにおいて、遺伝子シグネチャは、15個を対照として正しく予測したが、1個をCOPDとして誤って予測した。24個のCOPDサンプルの間で、遺伝子シグネチャは、14個をCOPDサンプルとして正しく予測したが、10個を対照として誤って予測した。
しかしながら、変換不変方法が適用された場合、2つまたは複数のクラスの中心、および、100に設定された最大反復に従って偏移(shift)を伴った。同一の遺伝子シグネチャは、合計40個のサンプルのうちの30個のサンプルを正しく予測した。精度は0.75であり、MCCは0.533である。16個の対照サンプルにおいて、遺伝子シグネチャは、14個を対照として正しく予測したが、2個をCOPDとして誤って予測した。24個のCOPDサンプルの間で、遺伝子シグネチャは、16個をCOPDサンプルとして正しく予測したが、8個を対照として誤って予測した。
本発明の実装は、特定の例を参照して特定して示され、説明されているが、本開示の精神および範囲から逸脱することなく、形態および詳細における種々の変更がそれに行われ得ることが、当業者によって理解されるべきである。

Claims (15)

  1. プロセッサによって実行される、2つ以上のクラスにデータセットを分類するコンピュータ実装方法であって、前記方法は、
    (a)トレーニングデータセットおよびトレーニングクラスセットを受信することであって、前記トレーニングクラスセットは、既知のラベルのセットを含み、各既知のラベルは、前記トレーニングデータセット中の各要素と関連付けられるクラスを識別する、ことと、
    (b)テストデータセットを受信することと、
    (c)前記トレーニングデータセットおよび前記トレーニングクラスセットに第1の機械学習技法を適用することによって、前記トレーニングデータセットについての第1の分類器を生成することと、
    (d)前記第1の分類器に従って、前記テストデータセット中の要素を分類することによって、第1のテストクラスセットを生成することと、
    e)トレーニングクラス重心のセットの中心に対応する量だけ前記トレーニングデータセット中の前記要素を偏移させることによって、前記トレーニングデータセットを変換することであって、各トレーニングクラス重心は、前記トレーニングデータセット中の要素のサブセットの中心を表す、ことと、
    (f)複数の反復の各々について、
    )テストクラス重心のセットの中心に対応する量だけ前記テストデータセット中の前記要素を偏移させることによって、前記テストデータセットを変換することであって、各テストクラス重心は、前記テストデータセット中の要素のサブセットの中心を表す、こと
    ii)第2の分類器に従って前記変換されたテストデータセット中の前記要素を分類することによって、第2のテストクラスセットを生成することであって、前記第2の分類器は、前記変換されたトレーニングデータセットおよび前記トレーニングクラスセットに第2の機械学習技法を適用することによって生成される、こと、および
    iii)前記第1のテストクラスセットと前記第2のテストクラスセットとが異なる場合、前記第2のテストクラスセットを前記第1のテストクラスセットとして記憶し、前記変換されたテストデータセットを前記テストデータセットとして記憶し、ステップ(i)に戻ること
    を行うこと
    を含む、方法。
  2. 前記第1のテストクラスセットと前記第2のテストクラスセットとが異ならない場合に、前記第2のテストクラスセットを出力することをさらに含む、請求項1に記載の方法。
  3. 前記トレーニングデータセットの前記要素は、疾患を有する患者についての、前記疾患に耐性がある患者についての、または、前記疾患がない患者についての遺伝子発現データを表す、請求項1〜2のいずれかに記載の方法。
  4. 前記トレーニングデータセットは、集約データセット中のサンプルのランダムなサブセットから形成され、前記テストデータセットは、前記集約データセット中のサンプルの残っているサブセットから形成される、請求項1〜3のいずれかに記載の方法。
  5. ステップ()における前記偏移させることは、前記変換されたトレーニングデータセットを取得するように、前記トレーニングデータセットに回転、シアー、線形変換、または、非線形変換を適用することを含む、請求項1〜4のいずれかに記載の方法。
  6. ステップ()における前記偏移させることは、前記変換されたテストデータセットを取得するように、前記テストデータセットに回転、シアー、線形変換、または、非線形変換を適用することを含む、請求項1〜5のいずれかに記載の方法。
  7. 前記テストデータセットは、既知のラベルのテストセットを含み、各既知のラベルは、前記テストデータセット中の各要素と関連付けられるクラスを識別し、
    前記第1のテストクラスセットは、前記テストデータセットについての予測されるラベルのセットを含み、
    前記第2のテストクラスセットは、前記変換されたテストデータセットについての予測されるラベルのセットを含む、
    請求項1〜6のいずれかに記載の方法。
  8. 前記複数の反復の各々について、前記第1のテストクラスセットを前記第2のテストクラスセットと比較することをさらに含む、請求項1〜7のいずれかに記載の方法。
  9. 前記第1の機械学習技法と前記第2の機械学習技法は同一である、請求項1〜8のいずれかに記載の方法。
  10. ステップ()での前記変換は、ステップ(i)の同一の変換を適用することによって行われる、請求項1〜9のいずれかに記載の方法。
  11. 前記第2のテストクラスセットを表示デバイス、印刷デバイス、または、記憶デバイスに提供することをさらに含む、請求項1〜10のいずれかに記載の方法。
  12. 前記第1のテストクラスセットおよび前記第2のテストクラスセットは、前記第1のテストクラスセットの任意の要素が前記第2のテストクラスセットの対応する要素と異なる場合に、異なる、請求項1〜11のいずれかに記載の方法。
  13. 前記第2のテストクラスセットは、前記変換されたテストデータセットについての予測されるラベルのセットを含み、前記方法は、予測されるラベルの総数によって除算された前記第2のテストクラスセット中の正確な予測されるラベルの数を表す性能測定基準を計算することによって、前記第2の分類器を評価することをさらに含む、請求項1〜12のいずれかに記載の方法。
  14. コンピュータ可読命令を記憶したコンピュータ可読記憶媒体であって、前記コンピュータ可読命令は、少なくとも1つのプロセッサを備えるコンピュータ化システムにおいて実行される場合、前記少なくとも1つのプロセッサに請求項1〜13のいずれかに記載の方法を実行させる、コンピュータ可読記憶媒体
  15. 非一時的なコンピュータ可読命令を伴って構成される少なくとも1つのプロセッサを備えるコンピュータ化システムであって、前記非一時的なコンピュータ可読命令は、実行される場合、前記プロセッサに請求項1〜13のいずれかに記載の方法を実行させる、コンピュータ化システム。
JP2015517783A 2012-06-21 2013-06-21 統合バイアス補正およびクラス予測を用いてバイオマーカシグネチャを生成するためのシステムおよび方法 Active JP6253644B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261662792P 2012-06-21 2012-06-21
US61/662,792 2012-06-21
PCT/EP2013/062980 WO2013190084A1 (en) 2012-06-21 2013-06-21 Systems and methods for generating biomarker signatures with integrated bias correction and class prediction

Publications (2)

Publication Number Publication Date
JP2015525413A JP2015525413A (ja) 2015-09-03
JP6253644B2 true JP6253644B2 (ja) 2017-12-27

Family

ID=48746446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015517783A Active JP6253644B2 (ja) 2012-06-21 2013-06-21 統合バイアス補正およびクラス予測を用いてバイオマーカシグネチャを生成するためのシステムおよび方法

Country Status (7)

Country Link
US (1) US10339464B2 (ja)
EP (1) EP2864920B1 (ja)
JP (1) JP6253644B2 (ja)
CN (1) CN104508671B (ja)
CA (1) CA2877429C (ja)
HK (1) HK1209203A1 (ja)
WO (1) WO2013190084A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2877429C (en) 2012-06-21 2020-11-03 Philip Morris Products S.A. Systems and methods for generating biomarker signatures with integrated bias correction and class prediction
WO2013190085A1 (en) 2012-06-21 2013-12-27 Philip Morris Products S.A. Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques
CN104331642B (zh) * 2014-10-28 2017-04-12 山东大学 用于识别细胞外基质蛋白的集成学习方法
WO2016175990A1 (en) * 2015-04-30 2016-11-03 Biodesix, Inc. Bagged filtering method for selection and deselection of features for classification
WO2017023416A1 (en) * 2015-07-31 2017-02-09 Northrop Grumman Systems Corporation System and method for in-situ classifier retraining for malware identification and model heterogeneity
US11403550B2 (en) 2015-09-04 2022-08-02 Micro Focus Llc Classifier
CN106250836B (zh) * 2016-07-26 2018-09-14 山东师范大学 一种小样本条件下的两阶段人脸图像分类方法及系统
CN106503386A (zh) * 2016-11-07 2017-03-15 上海思源弘瑞自动化有限公司 评估光功率预测算法性能优劣的方法及装置
US20200034367A1 (en) * 2017-03-13 2020-01-30 Nec Corporation Relation search system, information processing device, method, and program
US10984334B2 (en) * 2017-05-04 2021-04-20 Viavi Solutions Inc. Endpoint detection in manufacturing process by near infrared spectroscopy and machine learning techniques
CN108229676B (zh) * 2017-05-18 2022-02-25 北京市商汤科技开发有限公司 神经网络模型的训练方法和装置、电子设备和计算机存储介质
CN110709705A (zh) 2017-05-31 2020-01-17 马斯公司 诊断和治疗慢性肾脏病的方法
US11062792B2 (en) * 2017-07-18 2021-07-13 Analytics For Life Inc. Discovering genomes to use in machine learning techniques
US10990901B2 (en) * 2017-11-13 2021-04-27 Accenture Global Solutions Limited Training, validating, and monitoring artificial intelligence and machine learning models
CN109993047A (zh) * 2017-12-28 2019-07-09 杭州海康威视系统技术有限公司 城市乱堆物料的违规识别方法、装置及电子设备
EP3740760B1 (en) * 2018-01-19 2023-05-31 Mars, Incorporated Biomarkers and classification algorithms for chronic kidney disease in cats
US10925481B2 (en) * 2018-03-02 2021-02-23 Ohio State Innovation Foundation Systems and methods for measuring visual function maps
CN110320197A (zh) * 2018-03-31 2019-10-11 重庆大学 基于Raman光谱分析的微小型拉曼血液专用分析仪
CN112714871A (zh) * 2018-07-14 2021-04-27 马斯公司 用于慢性肾脏病的生物标志物和测试模型
JP6559850B1 (ja) * 2018-07-27 2019-08-14 Karydo TherapeutiX株式会社 ヒトにおける被験物質の作用を予測するための人工知能モデル
US10783068B2 (en) 2018-10-11 2020-09-22 International Business Machines Corporation Generating representative unstructured data to test artificial intelligence services for bias
WO2020078235A1 (en) 2018-10-15 2020-04-23 Huawei Technologies Co., Ltd. Boosting ai identification learning
US10928831B2 (en) 2018-12-05 2021-02-23 Here Global B.V. Method and apparatus for de-biasing the detection and labeling of objects of interest in an environment
JP7232122B2 (ja) * 2019-05-10 2023-03-02 株式会社日立製作所 物性予測装置及び物性予測方法
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
JP7231829B2 (ja) * 2019-07-25 2023-03-02 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置
IT201900019556A1 (it) * 2019-10-22 2021-04-22 Consiglio Nazionale Ricerche Metodo per selezionare un gruppo di marcatori biologici e di un vettore di parametri utili nella predizione della probabilità di sopravvivenza a lungo termine al tumore del seno nelle pazienti affetti da tumore al seno
CN111275204B (zh) * 2020-02-25 2023-04-07 西安工程大学 一种基于混合采样和集成学习的变压器状态识别方法
JP7489059B2 (ja) * 2020-04-21 2024-05-23 国立大学法人横浜国立大学 画像生成装置、表示装置、画像生成方法、提示方法およびプログラム
CN111652095A (zh) * 2020-05-21 2020-09-11 骏实生物科技(上海)有限公司 一种基于人工智能的ctc图像识别方法和系统
CN112465152B (zh) * 2020-12-03 2022-11-29 中国科学院大学宁波华美医院 一种适用于情绪脑-机接口的在线迁移学习方法
US11742059B1 (en) * 2022-09-06 2023-08-29 Refana Biomarks Inc. System and method for non-invasive quantification of blood biomarkers
WO2024127396A1 (en) * 2022-12-12 2024-06-20 Refana, Inc. System and method for generating a prediction model based on an input dataset

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005003368A2 (de) 2003-07-04 2005-01-13 Siemens Aktiengesellschaft Verfahren, computerprogramm mit programmcode-mitteln und computerprogramm-produkt zur analyse eines regulatorischen genetischen netzwerks einer zelle
US20050086035A1 (en) 2003-09-02 2005-04-21 Pioneer Hi-Bred International, Inc. Computer systems and methods for genotype to phenotype mapping using molecular network models
CA2546391A1 (en) 2003-11-24 2005-06-09 Gene Logic, Inc. Methods for molecular toxicology modeling
WO2005060608A2 (en) * 2003-12-11 2005-07-07 Correlogic Systems, Inc. Method of diagnosing biological states through the use of a centralized, adaptive model, and remote sample processing
US20060074826A1 (en) 2004-09-14 2006-04-06 Heumann John M Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
EP1815433A1 (en) 2004-11-23 2007-08-08 Eastman Kodak Company Method for recognizing projection views of radiographs
US20070198653A1 (en) 2005-12-30 2007-08-23 Kurt Jarnagin Systems and methods for remote computer-based analysis of user-provided chemogenomic data
DE102006031979A1 (de) 2006-07-11 2008-01-17 Bayer Technology Services Gmbh Verfahren zur Bestimmung des Verhaltens eines biologischen Systems nach einer reversiblen Störung
RU2473555C2 (ru) 2006-12-19 2013-01-27 ДжинГоу, Инк. Новые способы функционального анализа большого количества экспериментальных данных и групп генов, идентифицированных из указанных данных
JP2009075737A (ja) 2007-09-19 2009-04-09 Nec Corp 半教師あり学習方法、半教師あり学習装置及び半教師あり学習プログラム
US7756678B2 (en) * 2008-05-29 2010-07-13 General Electric Company System and method for advanced condition monitoring of an asset system
JP2012501183A (ja) 2008-08-28 2012-01-19 ダームテック インターナショナル 皮膚サンプルの年齢範囲の決定方法
US20120143805A1 (en) 2008-09-09 2012-06-07 Somalogic, Inc. Cancer Biomarkers and Uses Thereof
WO2011005893A2 (en) 2009-07-07 2011-01-13 Abbott Laboratories Biomarkers and methods for detecting alzheimer's disease
US20110190657A1 (en) 2009-08-10 2011-08-04 Carl Zeiss Meditec, Inc. Glaucoma combinatorial analysis
US9165051B2 (en) * 2010-08-24 2015-10-20 Board Of Trustees Of The University Of Illinois Systems and methods for detecting a novel data class
CN101944122A (zh) 2010-09-17 2011-01-12 浙江工商大学 一种融合增量学习的支持向量机多类分类方法
CN102135979B (zh) * 2010-12-08 2013-10-09 华为技术有限公司 数据清洗方法及装置
CN102214213B (zh) 2011-05-31 2013-06-19 中国科学院计算技术研究所 一种采用决策树的数据分类方法和系统
CN107391961B (zh) 2011-09-09 2020-11-17 菲利普莫里斯生产公司 用于基于网络的生物活性评估的系统与方法
US8880525B2 (en) * 2012-04-02 2014-11-04 Xerox Corporation Full and semi-batch clustering
EP2864915B8 (en) 2012-06-21 2022-06-15 Philip Morris Products S.A. Systems and methods relating to network-based biomarker signatures
WO2013190085A1 (en) 2012-06-21 2013-12-27 Philip Morris Products S.A. Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques
CA2877429C (en) 2012-06-21 2020-11-03 Philip Morris Products S.A. Systems and methods for generating biomarker signatures with integrated bias correction and class prediction

Also Published As

Publication number Publication date
HK1209203A1 (en) 2016-03-24
EP2864920A1 (en) 2015-04-29
CA2877429C (en) 2020-11-03
CA2877429A1 (en) 2013-12-27
CN104508671B (zh) 2018-10-19
WO2013190084A1 (en) 2013-12-27
CN104508671A (zh) 2015-04-08
JP2015525413A (ja) 2015-09-03
EP2864920B1 (en) 2023-05-10
US10339464B2 (en) 2019-07-02
US20150178639A1 (en) 2015-06-25

Similar Documents

Publication Publication Date Title
JP6253644B2 (ja) 統合バイアス補正およびクラス予測を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
JP6313757B2 (ja) 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
Binder et al. Big data in medical science—a biostatistical view: Part 21 of a series on evaluation of scientific publications
JP6208227B2 (ja) バイオマーカシグネチャを生成するためのシステムおよび方法
JP7361187B2 (ja) 医療データの自動化された検証
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
Nuhić et al. Comparative study on different classification techniques for ovarian cancer detection
Simsek et al. Leukemia sub-type classification by using machine learning techniques on gene expression
US20140309122A1 (en) Knowledge-driven sparse learning approach to identifying interpretable high-order feature interactions for system output prediction
Sakellariou et al. Investigating the minimum required number of genes for the classification of neuromuscular disease microarray data
Schwarz Identification and clinical translation of biomarker signatures: statistical considerations
US20230116904A1 (en) Selecting a cell line for an assay
Abdullah et al. Molecular Classification of Breast Cancer Subtypes Based on Proteome Data
Nowicka et al. A framework for designing miRNA-based distributed cell classifier circuits
KR20230008020A (ko) 분자 바이오마커 데이터세트 전반에 걸친 예측 서명의 견고성 및 전송가능성 평가
Poncelas Preprocess and data analysis techniques for affymetrix DNA microarrays using bioconductor: a case study in Alzheimer disease
KR20150027938A (ko) 마이크로어레이 데이터를 분석하는 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160620

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20161122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20161122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171128

R150 Certificate of patent or registration of utility model

Ref document number: 6253644

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250