JP2010514001A - 特徴の順位付け - Google Patents

特徴の順位付け Download PDF

Info

Publication number
JP2010514001A
JP2010514001A JP2009540911A JP2009540911A JP2010514001A JP 2010514001 A JP2010514001 A JP 2010514001A JP 2009540911 A JP2009540911 A JP 2009540911A JP 2009540911 A JP2009540911 A JP 2009540911A JP 2010514001 A JP2010514001 A JP 2010514001A
Authority
JP
Japan
Prior art keywords
feature
features
subsets
pool
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009540911A
Other languages
English (en)
Inventor
ヤネフスキ,アンゲル,エイ,ジェー
シャッファー,ジェイムズ,ディー
シンプソン,マーク,アール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2010514001A publication Critical patent/JP2010514001A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Abstract

本発明は、特徴のプール由来の少なくとも1つの特徴の順位を計算する方法に関し、当該方法は:複数の特徴サブセットを得るステップであり、各特徴サブセットが前記特徴のプール由来の特徴を含むステップ;及び、前記特徴のプール由来の前記少なくとも1つの特徴の順位を、特徴サブセットにおける前記少なくとも1つの特徴の発生に基づき計算するステップ;を含む。例えば、前記少なくとも1つの特徴の順位は、前記複数の特徴サブセットにおける前記少なくとも1つの特徴の発生頻度に基づく場合がある。このように、特徴のプール由来の特徴の順位付けに当該方法を有利に適用することができる。前記特徴のプール由来の特徴のサブセットよりも潜在的により有用である、最高位の特徴を含んだ新たな特徴のサブセットを、計算された特徴の順位の値から生じることができる。そのような前記特徴のプール由来の順位付けされた特徴のリストに対して、他の有利な用途が多くあり得る。

Description

本発明はパターンの発見に関し、特に、前記パターンに含まれる測定の順位付けに関する。本発明は、生物情報学に対する分類指標の評価において特に応用されている。
近年、ヒトゲノムの詳細に対する、並びに、どのようにして遺伝子が健康な及び病気の対象において発現するかに対する利用可能な情報の量が非常に急増してきている。実験技術は、現在、生物学的対象におけるDNA、RNA、蛋白質、及び他の有機高分子の濃度を特徴づける多くの測定値を迅速に得るために利用することができる。
例えばマイクロアレイは、c−DNA又は別のバインダーにおける少量の試料の「ドット」のアレイが配置されるガラススライド又はプレートを含む。各ドットは、関心のある特定の高分子と結合する特異的なc−DNA又は他のバインダーを含み、1つのマイクロアレイが、そのような、何百、何千、又はそれ以上のドットを含むことができる。組織試料は患者から抽出され、関心のある分子種(例えば、DNA、RNA等)が抽出され、発光信号剤又は他のマーカーで処理されて、マイクロアレイの上を流される。組織内の特定の種類の高分子が、ハイブリダイゼーションと呼ばれるプロセスにおいて、それらの特定の高分子に対して調整されたバインダーを有するドットに集まる。一般的に、異なるマーカー(例えば、異なって着色された発光剤)で処理された比較又は参照試料も、そのマイクロアレイに適用される。種々のドットと付随した高分子の濃度を特徴づけるよう、1又は複数のマーカーが、例えばレーザービームを用いて励起されて光ルミネセンスを生じ、反応強度が測定される。このように、生物学的試料に含有された(例えば、何百、何千、又はそれ以上の)多数の有機高分子のアッセイが、迅速且つ量的に行われる。
質量スペクトル分析は、患者から取り出された試料内の多数の高分子の濃度を迅速にアッセイするための別の方法である。この方法において、試料はレーザー又は他の機構によって真空環境で電離され、電離された分子の断片における分子質量/電荷比の分布が、イオン計によって測定される。種々の高分子の濃度が、種々の高分子における既知のクラッキングパターンに基づき、質量スペクトルから引きだすことができる。あるいは、質量スペクトルパターンを特異的な高分子に相関させることなく、質量スペクトルのピークを生物情報学測定データとして使用することができる。
生物情報学は、マイクロアレイ測定、質量スペクトル、又は、他のゲノム若しくは有機高分子アッセイから有用な生物学的情報を抽出するために数値的方法を使用する。例えば、マイクロアレイ又は質量スペクトルにおける特定のパターンを特定の種類の癌と強く相関させることができる場合、従ってそのパターンは、その癌をスクリーニングするための分類指標として使用することができる。これは、血液若しくは脳脊髄液を引き出すか、唾液、尿、排泄物等の試料を採取するか、さもなければ、流体若しくは組織試料を得る等、比較的非侵襲性の技術によって、関心のある癌及び他の病態の早期発見を可能にする。
しかし、そのような医療診断検査を開発するために利用することができる多量な情報により問題が生じる。例えば、2500個の測定から成るセット(50x50のアレイのドットを有するマイクロアレイ等)から5つの測定(マイクロアレイのドット、質量スペクトルのピーク等)を使用する癌のスクリーニング検査を開発することが所望される場合、従って、診断検査に使用することができる、あり得る5つの試料の測定のサブセットにおける探索空間は、
Figure 2010514001
であり、これは、徹底的に検討された技術により探索するにははるかに大きすぎる。さらに、見積は、開発中の癌のスクリーニング検査にとって5つの測定のサブセットが最適であると想定し、これは不適当である場合もある。最適な測定のサブセットは、4つの測定、6つの測定等でありえ、通常未知である。
ゲノム医療診断検査の開発における別の問題は、測定の総数は多いが、これらの測定が選出される患者の数が、一般的にはるかに少ないことである。例えば、典型的な調査は、50x50のマイクロアレイ及び40の検査対象から成る検査グループを使用し、そのうち20の対象が関心のある癌を有し、20の対象が癌を有していない対照である場合がある。しかし、小さな検査対象グループサイズと組み合わせて生じる100,000の測定から成る大きなセットは、一般の集団において関心のある癌に関連しない測定データにおける偽の相関性が多くあり得るという問題を提起する。
多数の測定が選出される少数の対象は、各測定の評価に基づき有用な測定の順位付けを得ることができない理由である。各測定に利用することができる順位数は、対象の数により制限され、従って、各測定を評価するにははるかに少なすぎる。
従って、各測定を順位付ける代わりに、遺伝的アルゴリズムが、対象を分類するのに有用な測定のサブセットを計算するために使用されてきた。遺伝的アルゴリズムでは、測定のセットのサブセットを示す遺伝子のセットを各染色体が有する最初の世代の染色体集団が作製される。例えば、50x50のマイクロアレイにより生じる測定のセットを使用すると、各遺伝子は1から2500の値を有し、それは、2500ドットのマイクロアレイにより提供された2500の測定の指標に一致する。1つの染色体における5つのそのような遺伝子は、2500の測定のうち特定の5つの測定のサブセットを適切に特定する。分類指標は、2つ以上の分類(例えば、癌の分類及び非癌の分類)に対象を分類するため、染色体により特定された遺伝子を使用する。性能指数は、どの位正確にその分類指標が患者のグループにおいて癌を同定するか、及び、将来の世代への伝播のために染色体プールから最良適合の染色体を選択するために使用されるかを測定する。子孫の染色体は、その後、生物学的変異工程に類似した遺伝子の値における無作為な、又は、擬似乱数の変化によって変異される。多数のそのような変異及び擬似乱数の変化の後、染色体は、例えば、癌の種類及び非癌の種類等、2つ以上の種類にその対象を分類する能力に関して最適化される。
遺伝的アルゴリズム、又は、いかなる他の適したアルゴリズムも、各染色体が遺伝子を含んだ、最適化された染色体のセットを生じる。以下で、遺伝子は特徴と呼ばれ、染色体は特徴サブセットと呼ばれる。測定値のセットを表す遺伝子のセットは、以下で、特徴のプールと呼ばれる。特徴のプール由来の特徴のサブセットは、例えば患者又は組織試料等、以下で検査対象と呼ばれる測定が行われる対象を2つ以上の種類に分類することにおける分類指標として有用である。特に、遺伝的アルゴリズムによって生じた、最適化された特徴のサブセットは、検査対象を2つ以上の種類に分類することにおけるその有用性に関して類似の質のものである。しかし、遺伝的アルゴリズムは、検査対象を分類することにおけるその有用性によって特徴のプール由来の特徴を順位付けしない。
特徴のプール由来の特徴を順位付ける方法を有することは有利であり、前記方法は、特徴のプールにおける特徴の数が、特徴を評価するのに利用可能な検査対象の数よりも、例えば10倍以上の分だけはるかに多い場合に生じる、データとの特徴の偽の相関性に関する問題を解決することができる。
この問題に取り組むため、本発明の態様において、特徴のプール由来の少なくとも1つの特徴の順位を計算する方法が提供され、当該方法は:
複数の特徴サブセットを得るステップであり、各特徴サブセットが前記特徴のプール由来の特徴を含むステップ;及び、
前記特徴のプール由来の前記少なくとも1つの特徴の順位を、特徴サブセットにおける前記少なくとも1つの特徴の発生から計算するステップ;
を含む。
前記特徴のプール由来の特徴における前記複数の特徴サブセットは、例えば遺伝的アルゴリズムに基づいた方法等、いかなる適した方法によっても得ることができる。得られた複数の特徴サブセットは、検査対象を分類するのに適した特徴サブセットを含む。一般的に、前記複数の特徴サブセット由来の前記特徴サブセットは、検査対象を分類することにおけるその有用性に関して主に高い質のものである。このように、得られた特徴のサブセットに含まれる特徴は、検査対象を分類することにおいて有用であるとみなすことができる。任意選択で、例えば、各分類指標が前記複数の特徴サブセット由来の特徴サブセットに基づき規定され、検査対象のセットの分類指標のうち少なくとも半分が50%を超える検査対象のセットに基づき評価する性能を有するよう、複数の特徴サブセットを得ることができる。前記特徴のプール由来の特徴の順位は、前記特徴が生じる特徴サブセットの数に依存し得る。本発明の核心に、前記複数の特徴サブセット由来の多くの特徴サブセットに生じる特徴は、一般的に、検査対象を分類することにおいて、前記複数の特徴サブセット由来の少ない特徴サブセットに生じる特徴よりも有用であると推測される。この推測は、数多くの実験において検証されてきた。このように、特徴のプール由来の特徴の順位付けに当該方法を有利に適用することができる。計算された特徴の順位に基づき、最高位の特徴を含んだ新たな特徴のサブセットを生じることができ、前記新たな特徴のサブセットは、検査対象を分類することにおいて、前記特徴のプール由来の特徴のサブセットよりも潜在的により有用である。そのような前記特徴のプール由来の順位付けされた特徴のリストに対して、他の有利な用途が多くあり得る。
さらに、前記特徴のプール由来の各特徴が、他の特徴と組み合わせたその分類力を本質的に考慮に入れることが本発明の利点である。各特徴サブセットに対して、前記特徴サブセットに含まれた個々の特徴は、検査対象の分類におけるその性能に関して、本質的に補足的である。
複数の特徴サブセットを得るための選択基準を設定する、及び、特徴の順位を計算する方法を設定するプロセスは、有用な特徴の発見に向けて強力な道をあける。任意選択で、誤っているようではない新たな特徴サブセットに最高位の特徴を組み合わせることができる。従って、本発明は、検査対象の分類において種類と事実のとおりに付随した重要な特徴及び特徴サブセットを発見する方法、例えば、患者の臨床的状態を分類するのに有用なバイオマーカーを説明する重要な特徴及び特徴サブセットを提供する。
当該方法の実行において、前記複数の特徴サブセットは進化的計算アルゴリズムから得られる。大きな特徴のプールに対して、全特徴サブセットの数は非常に大きい。従って、特徴のプールにおける各特徴サブセットを評価することは実行可能ではない。進化的計算アルゴリズムは、検査対象のセットを分類するための能力に基づき最適化される特徴サブセットを生じる能力がある。好都合に、進化的計算アルゴリズムは、検査対象の有用な分類を得るために、特徴サブセットに含まれた多数の特徴の組み合わされた能力を考慮に入れる。
当該方法の実行において、前記複数の特徴サブセットを得るステップは、選択基準に基づき、複数の候補の特徴サブセットから前記複数の特徴サブセットを選択するステップを含む。これは、例えば進化的アルゴリズムによって、生じた前記複数の候補の特徴サブセットから最適な複数の特徴サブセットを選択することを可能にさせる。
当該方法の実行において、前記複数の候補の特徴サブセット由来の各候補の特徴サブセットは、それぞれの候補の特徴サブセットの特性と付随し、前記選択基準は、前記それぞれの候補の特徴サブセットの特性における評価に基づく。候補の特徴サブセットにおける特性を使用することは、前記複数の候補の特徴サブセットから最適化された複数の特徴サブセットを選択することに寄与する。
当該方法の実行において、前記特徴のプール由来の前記少なくとも1つの特徴の順位を計算するステップは、前記複数の特徴サブセットにおける前記少なくとも1つの特徴の発生頻度にさらに基づく。比較的より高い発生頻度を有する、すなわち、多くの特徴サブセットに生じる特徴は、比較的より低い発生頻度を有する、すなわち、より少ない特徴サブセットにおいて生じる特徴よりも高い順位を受ける。
当該方法の実行において、前記複数の特徴サブセット由来の各特徴のサブセットは、前記それぞれの特徴のサブセットの特性と付随する。前記特徴サブセットの特性は、前記特徴サブセットに含まれる特徴の順位を計算するステップにおけるその有用性に従い前記特徴サブセットを評価するために好都合に使用することができる。例えば、特徴の特性に基づいた重みは、前記複数の特徴サブセット由来の各特徴サブセットに割り当てることができる。
当該方法の実行において、前記特徴のプール由来の前記少なくとも1つの特徴の順位を計算するステップは、前記複数の特徴サブセット由来の前記それぞれの特徴サブセットと付随した特性にさらに基づく。前記少なくとも1つの特徴の順位への特徴サブセットの寄与には、前記特徴サブセットに付随する特性に基づく重みを与えることができる。
当該方法の実行において、前記特徴のプール由来の前記少なくとも1つの特徴の順位は、前記複数の特徴サブセット由来の特徴サブセットにおける前記特徴のプール由来の2つ以上の特徴の共起から計算される。例えば、特徴サブセットにおいて常に共に生じる2つの特徴は、より高い順位を受け、従って、検査対象を分類することにおいて組み合わされた力を考慮に入れることができる。
当該方法の実行において、当該方法は、前記少なくとも1つの特徴の計算された順位に基づき、順位付けされた特徴のリストを作成するステップをさらに含む。前記順位付けされた特徴のリストは、検査対象を分類するための最適化された特徴サブセットを作成するステップにおいて非常に有用であり得る。
本発明のさらなる態様において、特徴のプール由来の少なくとも1つの特徴の順位を計算するためのモジュールが提供され、当該モジュールは:
複数の特徴サブセットを得るための獲得装置であって、各特徴サブセットが前記特徴のプール由来の特徴を含む装置;及び
前記特徴のプール由来の前記少なくとも1つの特徴の順位を、特徴サブセットにおける前記少なくとも1つの特徴の発生に基づき計算するための計算装置;
を含む。
本発明のさらなる態様では、コンピュータプログラムプロダクトが、該コンピュータプログラムプロダクトがコンピュータ上で実行される場合に請求項1に記載の方法を実行するよう処理装置に指示するために、提供される。
一般に、本発明における種々の実行、実施形態、並びに態様を、本発明の範囲内で、いかなる考えられる様式でも組み合わせる、及び、結びつけることができる。これらの及び他の本発明の態様、特徴、及び/又は、利点は、以下に記述された実施形態から明らかになり、以下に記述された実施形態を参考にして説明される。
記述された当該方法の修正及びその変更に対応する、モジュール並びに/又はコンピュータプログラムプロダクトの修正及びその変更を、本発明の説明に基づき当業者によって行うことができる。
本発明の実施形態及び実行は、例えば以下の図面を参考にしてのみ記述される。
特徴のプール由来の少なくとも1つの特徴の順位を計算する方法を実行するための流れ図である。 特徴のプール由来の少なくとも1つの特徴の順位を計算するためのモジュールの実施形態を概略的に例示している。
図1は、特徴のプール由来の少なくとも1つの特徴の順位を計算する方法10の例証的な実行の流れ図である。方法10は、複数の特徴サブセットを得るステップ1で始まり、各特徴サブセットは前記特徴のプール由来の特徴を含む。複数の特徴サブセットを得るステップ1の後、当該方法は、前記特徴のプール由来の特徴の順位を、特徴サブセットにおける前記少なくとも1つの特徴の発生に基づき計算するステップ2に続く。前記特徴のプール由来の特徴が、前記複数の特徴サブセット由来の多くの特徴サブセットにおいて生じる場合、該特徴サブセットの数は予め決めることができるか、又は、ユーザー入力に基づくことができ、前記特徴は関連性があると順位付けされ、例えば、順位1を受けることができる。前記特徴のプール由来の特徴が、前記複数の特徴サブセット由来のいかなる特徴サブセットにおいても生じない場合、前記特徴は関連性がないと順位付けされ、順位0を受けることができる。特徴の順位を計算するステップ2の後、方法10は、前記特徴のプール由来の別の特徴の順位を、特徴サブセットにおける前記別の特徴の発生に基づき計算するステップ2を続けることができる。当該方法は、例えば、前記特徴のプール由来の全特徴が順位付けされた場合等、前記特徴の順位を計算するステップ2を終結するための状態になるまで、特徴の順位を計算するステップ2を続ける。特徴の順位を計算するステップ2を終結するための状態になった場合、方法10は終結する。
方法10の実行において、当該方法は、前記少なくとも1つの特徴の計算された順位に基づき、順位付けされた特徴のリストを作成するステップ3をさらに含む。前記順位付けされた特徴のリストを使用して、例えば、検査対象を分類するため等、有用な特徴のサブセットを決定することができる。
方法10の実行において、特徴における前記複数の特徴サブセットが、進化的計算アルゴリズムから得られる。前記進化的計算アルゴリズムの例は、遺伝的アルゴリズムである。本発明の方法10の実行は遺伝的アルゴリズムを参考にして記述されているけれども、本発明の範囲はこの種のアルゴリズムに限定されない。一般に、複数の特徴サブセットを生じるいかなるアルゴリズムも、方法10によって使用することができる。そのようなアルゴリズムは、それだけに限らないが、進化的アルゴリズム、進化的プログラミング、進化戦略、遺伝的プログラミング、反復局所探索法、及び、学習分類子システムを含む。
遺伝的アルゴリズムの実行は、一般的に、いくつかの実験を含む。各実験は、種々の特徴サブセットの初期アンサンブルから始まる。この特徴サブセットのアンサンブルは、第一の世代の特徴サブセットと呼ばれる。前記特徴サブセットの初期アンサンブル由来の各特徴サブセットは、前記特徴のプールから無作為に選択された特徴を含むことができる。特徴サブセットのアンサンブル由来の各特徴サブセットは、学習セットの検査対象から検査対象を分類することにおけるその有用性に関して評価される。この評価に基づく達成度査定を、前記特徴サブセットに割り当てることができる。各評価の後、前記特徴サブセットのアンサンブルに含まれた各特徴サブセットは、変異操作、交叉操作、及び/又は、他の操作により修正することができ、それによって、各特徴サブセットにおける潜在的に有用な特徴が保持され、潜在的に有用ではない特徴が各特徴サブセットから除去される。最新の特徴サブセットのアンサンブルは、例えば第二の世代、第三の世代等、次の世代の特徴サブセットと呼ばれる。前記最新の特徴サブセットのアンサンブルに含まれる各修正された特徴サブセットは再度評価される。修正−評価サイクルの反復は、終結状態が当てはまるまで続く。終結状態は、最新化前後の前記特徴サブセットのアンサンブルの比較に基づき得る。遺伝的アルゴリズムにおいて、修正−評価サイクルの反復は、修正前後の前記特徴サブセットのアンサンブルに含まれた特徴サブセットが類似する場合に終結される。各実験は、多数のいわゆるソフトのリスタートを含むことができる。ソフトのリスタートは、修正−評価の反復サイクルの反復を終結するための終結状態が生じた場合に実行することができる。各ソフトのリスタートで、前記特徴サブセットのアンサンブルに含まれた各特徴サブセットは、再度無作為に初期化され、すなわち、いくつかの特徴が特徴サブセットから取り除かれ、特徴のプール由来のいくつかの特徴が特徴サブセットに追加されるが、少なくとも1つの特徴サブセット、一般的には最高の達成度査定を有した特徴サブセットがそのまま残る。所定数のソフトのリスタートが実行された後に、実験を終結することができる。遺伝的アルゴリズムは、参照により本明細書において援用する“Genetic algorithms for optimization of genomics−based medical diagnostic test”と題された公開特許出願WO2005/078629号に記載されている。遺伝的アルゴリズム及びその用途のさらなる態様は、同様に参照により本明細書において援用する、The Proceeding of the 2005 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology,CIBCE 2005,La Jolla,CA,USA 2005において公開されたD.Schaffer、A.Janevski、及び、M.Simpsonによる刊行物“A Genetic Algorithm Approach for Discovering Diagnostic Patterns in Molecular Measurement Data”に記載されている。
方法10の実行において、前記複数の特徴サブセットを得るステップ1は、遺伝的アルゴリズムを実行することによって特徴サブセットを作製するステップを含む。前記複数の特徴サブセットは、遺伝的アルゴリズムの1又は複数の実行から得ることができる。実行中に生じる前記複数の特徴サブセットは、本発明の方法10によって探索することができるようメモリ装置に記憶することができる。
方法10の実行において、得られた複数の特徴サブセットは、遺伝的アルゴリズムの実行により生じた全てのサブセットを含む。従って、前記複数の特徴サブセットは、特徴サブセットの初期アンサンブル、遺伝的アルゴリズムの各ソフトのリスタートでの特徴サブセットにおける最新のアンサンブル、及び、遺伝的アルゴリズムの実行に含まれる各実験に含まれた全特徴サブセットを含む。
方法10の実行において、前記複数の特徴サブセットを得るステップ1は、選択基準に基づき複数の候補の特徴サブセットから前記複数の特徴サブセットを選択するステップを含む。前記複数の候補の特徴サブセットは、遺伝的アルゴリズムの実行により生じる全てのサブセットを含むことができるが、前記複数の特徴サブセットは、例えば、各ソフトのリスタート後の所定数の修正−評価サイクルの反復において生じた特徴サブセットを含むことができる。例えば、終結基準に達する前の修正−評価サイクルの最後の100回の反復に含まれた特徴サブセットは、前記複数の特徴サブセットに含むことができる。
方法10の実行において、前記複数の候補の特徴サブセット由来の各候補の特徴サブセットは、それぞれの候補の特徴サブセットの特性と付随しており、選択基準は、前記それぞれの候補の特徴サブセットの特性における評価に基づいている。例えば、前記候補の特徴サブセットの特性は、遺伝的アルゴリズムにより計算することができる。遺伝的アルゴリズムにより計算される特性の例には、評価中の特徴サブセットの達成度査定、特徴サブセットのサイズ、及び、特徴サブセットの最長の世代、すなわち、前記特徴サブセットを含んだ、連続して最新化された特徴サブセットのアンサンブルの最大数が含まれる。例えば、各候補の特徴サブセットは、その達成度査定及び/又はその最長世代に基づき評価することができる。達成度査定が査定閾値を超える特徴サブセット、及び/又は、最長世代が世代閾値を超える特徴サブセットは、前記複数の特徴サブセットに含むことができる。
方法10の実行において、前記複数の特徴サブセットを得るステップ1は、前記複数の候補の特徴サブセットから特徴サブセットを共に一団にするステップを含む。例えば、前記特徴のプール由来の同じ特徴を含む、遺伝的アルゴリズムの実行により生じた候補の特徴サブセット全てを、1つの特徴サブセットとみなすことができ、この1つの特徴サブセットのみを前記複数の特徴サブセットに含むことができる。任意選択で、前記1つの特徴サブセットの特性を、同じ特徴を含んだ前記候補の特徴サブセットのそれぞれの特性から計算することができる。任意選択で、前記1つの特徴サブセットの特性は、遺伝的アルゴリズムの実行により生じた同じ特徴を含んだ特徴サブセットの数を含むことができる。
記述された前記複数の特徴サブセットを得る方法は、本発明を例示するよう役立ち、請求項の範囲を限定しないことを当業者は理解するであろう。
方法10の実行において、前記特徴のプール由来の前記少なくとも1つの特徴の順位を計算するステップ2は、前記複数の特徴サブセットにおける前記少なくとも1つの特徴の発生頻度にさらに基づいている。特徴aの順位rは、前記特徴が含まれる、前記複数の特徴サブセット由来のサブセットの数と同じでありえ:
Figure 2010514001
合計は、前記複数の特徴サブセット由来の全特徴サブセットAにわたり、a∈Aの場合、χ(a)は1であり、それ以外の場合は0である。
方法10の実行において、特徴における前記複数の特徴サブセット由来の各特徴サブセットは、前記それぞれの特徴サブセットの特性と付随している。例えば、各特徴サブセットの特性は、遺伝的アルゴリズムにより計算することができる。遺伝的アルゴリズムにより計算される特性の例には、評価中の特徴サブセットの達成度査定、特徴サブセットのサイズ、及び、特徴サブセットの最長の世代、すなわち、前記特徴サブセットを含んだ、連続して最新化された特徴サブセットのアンサンブルの最大数が含まれる。
方法10の実行において、前記特徴のプール由来の前記少なくとも1つの特徴の順位を計算するステップ2は、前記複数の特徴サブセット由来の各特徴サブセットに付随する特性にさらに基づいている。例えば、各特徴サブセットAに付随する特性は、特徴サブセットAの達成度査定p(A)であり得る。達成度査定p(A)は、特徴サブセットAにより正確に分類されたバリデーションセットの検査対象由来の少しの検査対象と規定することができる。前記特徴のプール由来の特徴aの順位rは、
Figure 2010514001
と規定することができ、合計は、前記複数の特徴サブセット由来の全特徴サブセットAにわたる。各特徴サブセットAに付随する特性は、前記特徴サブセットのサイズs(A)であり得る。例えば、特徴aの各発生は、前記特徴サブセットのサイズs(A)に従い加重値を与えることができる。
Figure 2010514001
方法10の実行において、前記特徴のプール由来の前記少なくとも1つの特徴の順位は、前記複数の特徴サブセット由来の特徴サブセットにおける前記特徴のプール由来の2つ以上の特徴の共起から計算される。この場合、前記特徴の共起、すなわち、一組、三つ組等の発生を数えることができる。
方法10の実行において、前記複数の特徴サブセット由来の特徴サブセットにおける前記特徴のプール由来の2つ以上の特徴の共起は、前記特徴のプールと前記複数の特徴サブセットによって規定されたアフィニティーネットワーク(affinity network)に基づき評価される。前記特徴のプールと前記複数の特徴サブセットに基づき規定されたアフィニティーネットワークはノードを含む。アフィニティーネットワークの各ノードは、前記特徴のプール由来の特徴に対応する。特徴サブセットが前記複数の特徴サブセットに存在する場合、アフィニティーネットワークの2つのノードはエッジにより接続されるため、2つのノードに対応する特徴は前記特徴サブセットに含まれる。前記特徴のプール由来の特徴は、アフィニティーネットワークの状況においてノードとも呼ぶことができる。アフィニティーネットワーク及びそのパラメータは、例えば、http://arxiv.org/PS_cache/cond−mat/pdf/0608/0608670.pdfで入手可能な“Generalizations of the clustering coefficient to weighted complex networks”と題されたJari Saramak等による研究論文に記載されている。
アフィニティーネットワークは、隣接行列によって説明することができる。アフィニティーネットワークの隣接行列は要素Mabを含んだマトリックスであり、指数a、bはアフィニティーネットワークのノードである。2つのノードa及びbがエッジにより接続される場合、隣接行列の要素Mabは1に等しく、接続されない場合は0に等しい。
アフィニティーネットワーク、特に、aという加重値が与えられたアフィニティーネットワークを説明する別のマトリックスは、加重マトリックスである。加重マトリックスは、要素Wabを含み、指数a、bはアフィニティーネットワークのノードである。加重マトリックスの要素Wabは、前記複数の特徴サブセットにおける特徴a及びbの対の発生頻度に等しい。加重マトリックスの要素Wabは、ノードa及びbを接続するエッジの重みを規定する。
アフィニティーネットワーク及び加重値が与えられたアフィニティーネットワークのノードを説明するためのいくつかのパラメータが提案されてきた。例えば、ノードaの次数kは、
Figure 2010514001
と規定され;ノードaの強度sは、
Figure 2010514001
と規定され;ノードaのクラスター化係数は、
Figure 2010514001
と規定され;tは三角形の頂点として、及び、
Figure 2010514001
としてノードaを有する三角形の数である。上記パラメータの規定における合計は、アフィニティーネットワークの全ノードb又はb及びcにわたる。アフィニティーネットワーク及び加重値が与えられたアフィニティーネットワークのパラメータは、アフィニティーネットワークにおけるノードの、すなわち、前記特徴のプール由来の特徴の順位を計算するために使用することができる。例えば、ノードaの次数又は強度を発生頻度の重みとして使用することができる。
Figure 2010514001
又は
Figure 2010514001
あるいは、アフィニティーネットワーク又は加重値が与えられたアフィニティーネットワークのパラメータを使用して、特徴の順位を規定することができる。
Figure 2010514001
方法10の実行において、特徴のプール由来の特徴における複数の順位を計算することができる。別の順位を計算するように、種々の順位を組み合わせることができる。任意選択で、順位付けされた特徴の種々のリストを作成するステップに、種々の順位を使用することができる。特定の用途に使用するための順位付けされた特徴のリストの作成及び選択は、順位付けされた特徴のリスト由来の特徴により分類されることになる検査対象を得た外部の条件(例えば、温度、圧力、湿度、汚染)等の種々の要因、又は、検査対象を得た検査対象の母集団(例えば、農家、女性、男性等)に基づき得る。
実行において、方法10は、2つ以上の複数の特徴サブセットを得るステップ1を含む。各複数の特徴サブセットは、特徴のプール由来の特徴を含む。例えば、各複数の特徴サブセットは、2つ以上の遺伝的アルゴリズムの実行から得ることができる。各複数の特徴サブセットに対して、前記特徴のプール由来の特徴の順位が計算される。この実行は、前記順位の2つ以上の値に基づき特徴を3つのグループに分類することを可能にさせ、各複数の特徴サブセットに対して高い順位を絶えず有する特徴は、マストハブ(must have)のグループである。例えば、順位が、複数の特徴サブセットにおける特徴の発生頻度によって規定される場合、マストハブは、各複数の特徴サブセットのうち大部分のサブセットに絶えず存在する特徴である。2つ以上の複数の特徴サブセット由来のいくつかの複数の特徴サブセットに対して高い順位、及び、他の複数の特徴サブセットに対して比較的低い順位を有する特徴は、スワップ(swap)のグループである。例えば、順位が、複数の特徴サブセットにおける特徴の発生頻度によって規定される場合、スワップは、いくつかの複数の特徴サブセット由来の大部分の特徴サブセットに絶えず存在する、及び、他の複数の特徴サブセット由来の特徴サブセットにおいて比較的多く欠如している特徴である。前記2つ以上の複数の特徴サブセット由来の各複数の特徴サブセットに対して低い順位を絶えず有する特徴は、パッダ(padder)のグループである。
特徴を3つのグループ、マストハブ、スワップ、パッダに分類することは、特徴の順位の値における統計的分布のパラメータの計算に基づき実行することもできる。例えば、前記パラメータは、順位値の平均偏差及び標準偏差であり得る。大きな平均偏差及び比較的小さな標準偏差を示す特徴はマストハブである。類似の平均偏差、例えば、マストハブと同じ大きさの程度の平均偏差を示すが、比較的大きい標準偏差を示す特徴はスワップである。最後に、小さい平均偏差及び小さい標準偏差を示す特徴は、検査対象を分類することにおいて有用ではなく、パッダである。
図2は、特徴のプール由来の少なくとも1つの特徴の順位を計算するためのモジュール20における概略的な実施形態を例示している。当該モジュールの例証的な実施形態は:
複数の特徴サブセットを得るための獲得装置21であって、各特徴サブセットが前記特徴のプール由来の特徴を含む装置;及び
前記特徴のプール由来の前記少なくとも1つの特徴の順位を、特徴サブセットにおける前記少なくとも1つの特徴の発生に基づき計算するための計算装置22;
を含む。モジュール20の例証的な実施形態は:
前記少なくとも1つの特徴の計算された順位に基づき、順位付けされた特徴のリストを作成するためのリスト装置23;
入力データを受けるための入力コネクター27;
出力データを送達するための出力コネクター28;
入力コネクター27を介して外部の装置から受けた前記入力データ、及び、モジュール20の装置によって計算されたデータを記憶するためのメモリ装置25;並びに
モジュール20の装置を接続するためのメモリバス26;
をさらに含む。
モジュールは、例えば、選択基準に基づき複数の候補の特徴サブセットから前記複数の特徴サブセットを選択するための選択装置等、さらなる装置を含むことができる。
本発明は、ハードウェア、ソフトウェア、若しくはファームウェアの実行、又は、それらのいかなる組合せも含めたいかなる適した形態においても実行することができる。本発明若しくは本発明のいくつかの特徴を、1又は複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行されることになるコンピュータプログラムプロダクトとして実行することができる。本発明の実施形態における要素及び構成要素は、いかなる適した方法においても物理的に、機能的に、及び論理的に実行することができる。モジュール20の機能性は、単一の装置において、又は、複数の装置において満たすことができる。
本発明は指定された実施形態に関して記述されてきたけれども、本明細書に明記された特定の形態に限定されるよう意図していない。正しくは、本発明の範囲は、付随の特許請求の範囲によってのみ限定される。特許請求の範囲において、「含む」という用語は、他の要素又はステップの存在を除外しない。さらに、個々の特徴を異なる請求項に含むことができるけれども、これらは、おそらく、好都合に組み合わせることができ、異なる請求項への包含は、特徴の組合せが実現可能及び/又は有利ではないということを意味しない。さらに、単数の言及は、複数形を除外しない。従って、「不定冠詞」、「定冠詞」、「第一」、「第二」等への言及は、その複数形を排除しない。さらに、特許請求の範囲における参照番号は、特許請求の範囲を限定するとして解釈されるべきではない。

Claims (11)

  1. 特徴のプール由来の少なくとも1つの特徴の順位を計算する方法であって:
    複数の特徴サブセットを得るステップであり、各特徴サブセットが前記特徴のプール由来の特徴を含むステップ;及び、
    前記特徴のプール由来の前記少なくとも1つの特徴の順位を、特徴サブセットにおける前記少なくとも1つの特徴の発生から計算するステップ;
    を含む方法。
  2. 前記複数の特徴サブセットが進化的計算アルゴリズムにより得られる、請求項1に記載の方法。
  3. 前記複数の特徴サブセットを得るステップが、選択基準に基づき、複数の候補の特徴サブセットから前記複数の特徴サブセットを選択するステップを含む、請求項1に記載の方法。
  4. 前記複数の候補の特徴サブセット由来の各候補の特徴サブセットが、それぞれの候補の特徴サブセットの特性と付随し、前記選択基準が、前記それぞれの候補の特徴サブセットの特性における評価に基づく、請求項3に記載の方法。
  5. 前記特徴のプール由来の前記少なくとも1つの特徴の順位を計算するステップが、前記複数の特徴サブセットにおける前記少なくとも1つの特徴の発生頻度にさらに基づく、請求項1に記載の方法。
  6. 前記複数の特徴サブセット由来の各特徴のサブセットが、前記特徴のサブセットの特性と付随する、請求項1に記載の方法。
  7. 前記特徴のプール由来の前記少なくとも1つの特徴の順位を計算するステップが、前記複数の特徴サブセット由来の前記それぞれの特徴サブセットと付随した特性にさらに基づく、請求項6に記載の方法。
  8. 前記特徴のプール由来の前記少なくとも1つの特徴の順位が、前記複数の特徴サブセット由来の特徴サブセットにおける前記特徴のプール由来の2つ以上の特徴の共起に基づき計算される、請求項1に記載の方法。
  9. 前記少なくとも1つの特徴の計算された順位に基づき、順位付けされた特徴のリストを作成するステップをさらに含む、請求項1に記載の方法。
  10. 特徴のプール由来の少なくとも1つの特徴の順位を計算するためのモジュールであって:
    複数の特徴サブセットを得るための獲得装置であり、各特徴サブセットが前記特徴のプール由来の特徴を含む装置;及び
    前記特徴のプール由来の前記少なくとも1つの特徴の順位を、特徴サブセットにおける前記少なくとも1つの特徴の発生に基づき計算するための計算装置;
    を含むモジュール。
  11. コンピュータプログラムプロダクトであって、該コンピュータプログラムプロダクトがコンピュータ上で実行される場合に請求項1に記載の方法を実行するよう処理装置に指示するためのコンピュータプログラムプロダクト。
JP2009540911A 2006-12-13 2007-12-06 特徴の順位付け Pending JP2010514001A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US86973406P 2006-12-13 2006-12-13
PCT/IB2007/054939 WO2008072140A2 (en) 2006-12-13 2007-12-06 Ranking of features

Publications (1)

Publication Number Publication Date
JP2010514001A true JP2010514001A (ja) 2010-04-30

Family

ID=39414909

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009540911A Pending JP2010514001A (ja) 2006-12-13 2007-12-06 特徴の順位付け

Country Status (3)

Country Link
JP (1) JP2010514001A (ja)
CN (1) CN101558419A (ja)
WO (1) WO2008072140A2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6225460B2 (ja) 2013-04-08 2017-11-08 オムロン株式会社 画像処理装置、画像処理方法、制御プログラムおよび記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8798937B2 (en) * 2004-02-10 2014-08-05 Koninklijke Philips N.V. Methods for optimizing and using medical diagnostic classifiers based on genetic algorithms

Also Published As

Publication number Publication date
WO2008072140A2 (en) 2008-06-19
WO2008072140A3 (en) 2008-11-27
CN101558419A (zh) 2009-10-14

Similar Documents

Publication Publication Date Title
KR101642270B1 (ko) 진화 클러스터링 알고리즘
KR101054732B1 (ko) 생물학적 데이터의 숨겨진 패턴에 근거한 생물학적 상태의 식별 방법
EP1498825A1 (en) Apparatus and method for analyzing data
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
US20030233197A1 (en) Discrete bayesian analysis of data
JP2008511058A (ja) コンピュータシステムを用いるデータ品質および/または部分異数染色体の決定
JP5180478B2 (ja) ゲノムベースの医療診断テストを最適化する遺伝アルゴリズム
WO2020198068A1 (en) Systems and methods for deriving and optimizing classifiers from multiple datasets
WO2016175990A1 (en) Bagged filtering method for selection and deselection of features for classification
CN103975329B (zh) 一种基因分析方法及装置
Nayak et al. Deep learning approaches for high dimension cancer microarray data feature prediction: A review
JP2010514001A (ja) 特徴の順位付け
WO2010038173A1 (en) Method of determining a reliability indicator for signatures obtained from clinical data and use of the reliability indicator for favoring one signature over the other
EP3458992B1 (en) Biomarkers signature discovery and selection
Wahde et al. Improving the prediction of the clinical outcome of breast cancer using evolutionary algorithms
KR20150125030A (ko) 림프절 전이 또는 구강암 진단용 유전자 발굴 방법
Lauria Rank-based miRNA signatures for early cancer detection
Gulla An integrated systems biology approach to investigate transcriptomic data of thyroid carcinoma
Ma et al. Discovering clusters in gene expression data using evolutionary approach
Wang et al. Systematic and Integrative Analysis of Gene Expression to Identify Feature Genes Underlying Human Diseases
Shahbaba Bayesian nonparametric variable selection as an exploratory tool for finding genes that matter
CN117953965A (zh) 一种肿瘤的分类预测方法、装置和电子设备
Ikumi et al. Algorithm for gene selection from DNA-microarray data for disease classification
Fei et al. Optimal genes selection with a new multi-objective evolutional algorithm hybriding NSGA-II with EDA
Murthy et al. Complexity-Reduced Tumor Classification System using Microarray Gene Expression Dataset