JP2010500081A - 系統的なデータ・スケーリングを遺伝的アルゴリズムに基づく特徴サブセット選択に統合する方法および装置 - Google Patents

系統的なデータ・スケーリングを遺伝的アルゴリズムに基づく特徴サブセット選択に統合する方法および装置 Download PDF

Info

Publication number
JP2010500081A
JP2010500081A JP2009523398A JP2009523398A JP2010500081A JP 2010500081 A JP2010500081 A JP 2010500081A JP 2009523398 A JP2009523398 A JP 2009523398A JP 2009523398 A JP2009523398 A JP 2009523398A JP 2010500081 A JP2010500081 A JP 2010500081A
Authority
JP
Japan
Prior art keywords
genetic algorithm
training
feature
classifier
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009523398A
Other languages
English (en)
Inventor
ジャオ,ルゥイン
ボロチェキー,リラ
プン リー,クウォック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2010500081A publication Critical patent/JP2010500081A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Physiology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Genetics & Genomics (AREA)
  • Multimedia (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

データ・マイニング、偽陽性低減、計算機支援検出、計算機支援診断および人工知能のプロセスを発展させるためにシステムをトレーニングするための方法および装置が提供される。方法は、系統的なデータ・スケーリングを使ってトレーニング・ケースのセットからトレーニング・セットを選ぶ段階と、ある分類方法を使って前記トレーニング・セットに基づいて分類器を生成する段階とを有する。本方法は、サポート・ベクトル機械、ニューラル・ネットワークおよび決定樹を含む多様なデータ・マイニング技法とともに使うのに好適である。

Description

本願の技術分野は、データ・マイニング、偽陽性低減(FPR: false positive reduction)、計算機支援検出(CAD: computer-aided detection)、計算機支援診断(CADx: computer-aided diagnosis)および人工知能のための、系統的なデータ・スケーリング(data scaling)を遺伝的アルゴリズムに基づく特徴サブセット選択(feature subset selection)に統合する方法および装置である。
CADアルゴリズムは、自動的にマルチスライス計算機断層撮影(MSCT: multi-slice computed tomography)スキャンのような医療上重要な解剖学的特徴を識別し、それにより放射線医による使用のためのセカンド・オピニオンを提供するために開発されてきた。これらのアルゴリズムは、癌の早期検出を支援し、生存率の上昇につながる。たとえば、肺癌は最も一般的な致命的な病気の一つであり、米国では2006年に肺癌による死者は162,460人に上ると予想されており(非特許文献1)、肺癌患者の五年生存率は、外科的技術および療法の改善にもかかわらず、約15%でしかない。しかしながら、生存率は、病がまだ局在化しているときに検出されるケースについては、約50%と著しく改善する。よって、疑わしい病変の早期検出および診断が早期の介入を許容し、よりよい予後および生存率につながりうる。
後処理ステップとして機械学習技法を使うことが、CADアルゴリズムによって肺結節(lung nodule)であると誤同定された偽陽性構造をなくすために知られている。ムーサとカーンは、肺結節を非結節から分別するためにサポート・ベクトル機械(SVM: support vector machines)を使った(非特許文献2)。
ガーらは3D特徴に基づく線形判別分類器(linear discriminant classifier)を提案している(非特許文献3)。
鈴木らは、画像データに直接作用でき、特徴抽出を必要としない大規模トレーニング人工ニューラル・ネットワーク(MTANN: massive training artificial neural network)を提案した(非特許文献4)。鈴木らは、MTANN単独というよりは、MTANNと規則ベース/線形判別分類器との組み合わせがFPRのために有用であろうと結論している。FPRについてのたいていの既存の研究は、監督された学習についての同じ方法論に従っている:直接わかっている真実(ground truth)をもつデータの集合から始まって、一または複数のユーザーが適切であると見なす(画像から計算される)特徴の集合を使って前記データをもって分類器がトレーニングされる。
米国癌協会(American Cancer Society)、「癌:事実と統計 2006年版(Cancer Facts & Figures 2006)」、米国アトランタ、2006年 W・A・H・ムーサ(Mousa)、M・A・U・カーン(Kahn)、「サポート・ベクトル機械を使った肺結節の分別(Lung nodule classification utilizing support vector machines)」、画像処理に関する国際会議(Int'l Conf. On Image Processing)で発表、2002年 ガー(Ge)ら、「肺結節の計算機支援検出:3D勾配場法を使った偽陽性低減(Computer aided detection of lung nodules: false positive reduction using a 3D gradient field method)」、「医療撮像2004:画像処理(Medical Imaging 2004: Image Processing)」、米国サンディエゴ、2004年 鈴木ら、「低線量計算機断層撮影における肺結節の電算化検出における偽陽性の削減のための大規模トレーニング人工ニューラル・ネットワーク(Massive training artificial neural network (MTANN) for reduction of false positives in computerized detection of lung nodules in low-dose computed tomography)」、30 MED. PHYSICS、1692‐17頁、2003年 L・J・エシェルマン(Eshelman)、「CHC適応探索アルゴリズム:非伝統的な遺伝的組み換えに従事するときにいかにして安全な探索をもつか(The CHC Adaptive Search Algorithm: How to Have Safe Search When Engaging in Nontraditional Genetic Recombination)」、「遺伝的アルゴリズムの基礎(Foundations of Genetic Algorithms)」、265‐83、G・J・E・ローリンズ(Rawlines)(編)、1991年 B・E・ボーザー(Boser)、I・ギヨン(Guyon)、V・ヴァプニック(Vapnik)、「最適マージン分類器のためのトレーニング・アルゴリズム(A training algorithm for optimal margin classifiers)」、計算機学習理論についての第5回年次ACMワークショップで発表、米国ピッツバーグ、1992年 R・コハヴィ(Kohavi)およびG・H・ジョン(John)、「ラッパー・アプローチ(The Wrapper Approach)」、「人工知能(Artificial Intelligence)」、97、273‐324頁、1997年 D・シェーファー(Schaffer)ら、「分子測定データにおける診断パターンを発見するための遺伝的アルゴリズム・アプローチ(A Genetic Algorithm Approach for Discovering Diagnostic Patterns in Molecular Measurement Data)」、「バイオインフォマティクスおよび計算機生物学における計算機知能に関する2005年IEEEシンポジウム講演集録(Proceedings of the 2005 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology)」、1頁、2005年 G・E・A・P・A・バティスタ(Batista)、「機械学習トレーニング・データをバランス化するためのいくつかの方法の振る舞いの研究(A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data)」、6 SIGKDD Explorations、20‐29頁、2004年
MSCTの近年の進歩は、以前よりも早い段階での肺癌、肝臓癌または乳癌のような癌の検出を可能にするものの、これらの方法は、放射線医によって解釈されるというコスト高で時間がかかる手順を必要とする莫大な量のデータを生じもする。CADアルゴリズムは高い感度をもつものの、そのいずれも完璧な精確さで動作する(すなわち、真の肺結節である構造をすべて検出し、かつそのような構造しか検出しない)ものではない。いくつかの非結節構造(たとえば血管)がしばしば誤って結節であるとラベル付けされる。放射線医のような臨床医は識別された構造を一つ一つ調べる必要があるので、無用な偽陽性の検査によって引き起こされる疲労およびミスを回避するためには、真の陽性(TP: true positive)、すなわち結節は保持しつつできるだけ多くの偽陽性を解消することがきわめて望ましい。これは偽陽性低減(FPR: false positive reduction)として知られている。誤って分類されるケースの総数の削減をねらいとする他の分類タスクと異なり、ここでの目的は、すべてのTPが保持される(100%の感度を維持する)という制約条件のもとでできるだけ多くのFPをなくす(特異性を最大にする)ことである。
複数の偽陽性低減システムがこれまで記述されてきたが、そのようなシステムの目標である、100%感度を維持しながらの最大限の特異性はなかなか達成できずにいる。
本発明のある実施形態は、データ・マイニング、計算機支援検出、計算機支援診断および人工知能において分類精度を改善し、偽陽性を低減する方法を提供する。本方法は、系統的なデータ・スケーリングを使ってトレーニング・ケースのセットからトレーニング・セットを選ぶことを含む。本方法はまた、ある分類方法を使って前記トレーニング・セットに基づいて分類器を生成することをも含む。ここで、前記系統的なデータ・スケーリングと前記分類方法が前記分類器を生じ、それにより偽陽性を減らし、分類精度を改善する。
ある関係した実施形態では、分類器は、サポート・ベクトル機械、ニューラル・ネットワークおよび決定樹からなる群より選択される。
もう一つの実施形態は、前記トレーニング・セットに基づいて前記分類方法によって生成された分類器を、試験セットを使って評価することをさらに含む。
もう一つの実施形態では、トレーニング・セットを選ぶことはさらに、ある閾値が満たされるまで、前記トレーニング・セットから、真の結節とトメック・リンク(Tomek link)をなす偽の結節を除去していくことを含む。ある関係した実施形態では、閾値は、ダウンスケーリング因子xに関し、系統的なデータ・スケーリング後にトレーニング・セット内に残っている偽結節の数がトレーニング・セット中の真の結節の数のx倍を超えないように、決定される。
ある関係した実施形態では、本方法は、試験ケースのセットまたはそのサブセットを用いて前記分類器を検証することを含む。
また、実行されたときに上記の方法のうち任意のものを実装する遺伝的アルゴリズムも提供される。ある関係した実施形態では、その遺伝的アルゴリズムはCHCアルゴリズムである(非特許文献5)。
また、上述した遺伝的アルゴリズムを使って特徴プールから特徴を選ぶ方法であって:上記の方法に基づいて第一の遺伝的アルゴリズムおよび第二の遺伝的アルゴリズムのそれぞれを用意し、ここで、前記第一の遺伝的アルゴリズムは前記特徴セットの最良サイズを決定するために使われ、前記特徴セット・サイズを固定し、前記第二の遺伝的アルゴリズムを使って特徴を選択するステップを有する方法も提供される。ある関係した実施形態では、前記第一の遺伝的アルゴリズムを用意することにおいて、前記方法はさらに:異なる特徴サブセット・サイズを表す染色体の生起数および平均誤り数の少なくとも一つを使って結果を解析することを含む。あるさらなる実施形態では、「平均誤り数」は、これらの染色体に基づく分類器によって帰結した、誤って分類された肺結節の数である。
また、実行されたときに上記の方法のいずれかを実装するコンピュータ可読媒体も提供される。
また、撮像デバイスまたは偽陽性低減デバイスであって、該デバイスは上記の方法のいずれかを実装することによって画像データを解析するようプログラムされているコンピュータである、製造物も提供される。
ある関係した実施形態では、上記の製造物において、撮像デバイスは:計算機断層撮影(CT)、計算機体軸断層撮影(CAT)、マルチスライス計算機断層撮影(MSCT)、身体断面X線撮影法(body section roentgenography)、超音波、磁気共鳴撮像(MRI)、磁気共鳴断層撮影法(MRT)、核磁気共鳴(NMR)、X線、顕微鏡法、蛍光透視法、断層撮影およびデジタル・イメージングからなる群より選択される。上記製造物のあるさらなる実施形態では、該製造物は肺結節CADシステムである。
胸部超音波スキャンのCAD出力の画像で、一つの病変が検出され、輪郭付けされたものを示す図である。 肺CTスキャンのCAD出力で、二つの検出された病変が識別されたものを示す図である。 遺伝的アルゴリズムに基づく特徴サブセット選択の図である。 図3において選択された最良の特徴サブセットを使う選択された最良の特徴サブセットを使う偽陽性低減プロセスの図である。 トレーニング・セットから偽陽性を取り除く系統的ダウンスケーリング方法の動作の効果を示す図である。 系統的データ・スケーリング(系統的ダウンスケーリング)のGA特徴サブセット選択プロセスへの統合を描いた図である。 サイズ5の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。 サイズ6の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。 サイズ7の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。 サイズ8の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。 サイズ9の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。 サイズ10の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。 サイズ11の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。 サイズ12の特徴サブセットについて、ランダム・ダウンスケーリング、系統的データ・スケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)を組み込む遺伝的アルゴリズムの性能を示すグラフである。
前記のように、遺伝的アルゴリズムにおける候補特徴サブセットの評価に系統的データ・スケーリングを統合することが本発明の一つの目的である。
サポート・ベクトル機械(SVM)は、機械学習のための比較的新しいツールである(非特許文献6)。サポート・ベクトル機械は現在、テキストからゲノム・データまで多数の分類タスクについて最良の性能を示すもの一つである。しかしながら、本稿で述べるように、いくつかの問題が残っている。
SVMは、複数のオブジェクトを二つのクラスのうちの一つに分類するタスクを扱うもので、いくつかの例がすでに分類されていることを想定する。この型の監督された機械学習における目標は、任意の新しいオブジェクトを「正しく」分類する関数をもたらすことである。SVM理論は次のように定式化できる:トレーニング・データのサイズmの集合{xi,yi}について、各データ点は、特徴ベクトルxi∈Rdと、各xiが二つのクラスyi∈{−1,1}のうちの一つに属するという先験的な情報とによって記述される。新しいデータ点xが与えられたとき、SVM理論の目標は、{x,f(x)}が何らかの意味で与えられているトレーニング・データと同様であるような関数fを決定することである。すべての正の例(y=1)が一方の側にあり、負の例(y=−1)が他方の側にある超平面wx+b=0、すなわち
yi=1 ならば wxi+b≧+1
yi=−1ならば wxi+b≦−1
を見出すことが可能であるとする。
この場合、トレーニング・セットは線形に分離可能である。新しいデータ点xが与えられると、wx+bが計算され、その値の符号から、xが正の例であるか負の例であるかがわかる。換言すれば、関数f(x)=sgn(wx+b)が任意の新しいベクトルxの分類を決定する。
たいていの状況では、正の例と負の例をうまく分離する超平面を見出すことは可能ではない。SVMは、もとの特徴ベクトルを、そのような超平面を見出すことのできる(通例)より高次元の空間に、
Φ:x→φ(x)
とマッピングする。
このマッピングΦはカーネル関数と呼ばれる。データ・セットを分離できる超平面はたくさんある。超平面は、トレーニング・データの諸ベクトルの最小距離(すなわち、超平面への垂直距離)が最大になるように選択される。超平面からのこの最小距離にあるベクトルはサポート・ベクトル(support vector)と呼ばれる。サポート・ベクトルの集合が、分離する超平面を決定する。他のベクトルは解を変えることなく破棄でき、サポート・ベクトルのいずれかが除去されれば超平面は変化する。このように、この超平面を見出すことは最適化問題である。
表面上で、より高次元の空間にマッピングすることは、計算上の問題を引き起こすことがある。しかしながら、SVM理論は、結果として得られる関数fが計算量的に魅力的なものであるようカーネル関数を選ぶことができることを示す。
語「分類器(classifier)」は、ここでの用法では、オブジェクトがどのグループまたはカテゴリーに属するかを予測することのできる任意の型の方法または装置を記述するものである。この定義は、これに限られないが、サポート・ベクトル機械のようなデータ・マイニング用ツールおよび技法、ニューラル・ネットワークおよび決定樹を含む。
用語「分類方法(classification method)」は、ここでの用法では、分類器を生じる任意の手段を記述する。この定義は、これに限られないが、SVMを生成するためのボーザーらのアルゴリズム、C4.5、J4.8およびAPRIORI法といったデータ・マイニング用ツールおよび技法を含む(非特許文献6)。
本稿で提供される本発明のある実施形態は機械学習ベースのFPRユニットであり、特徴抽出、SVM駆動のGAベースの特徴サブセット選択およびSVM分類器という三つの主要な処理コンポーネントをもつ。特徴抽出ユニットは、真の結節と非結節の間の判別において使うため、CTスキャンからいくつかの2Dおよび3D特徴を計算する。これらの特徴は、特徴サブセット選択ステップのための特徴プールをなす。特徴サブセット選択ステップはシステムの設計段階においてのみ実行され、ひとたび最適な特徴サブセットが選択され、それから分類器が構築されたら、システムは特徴抽出および分類器のみからなる。本発明のある実施形態は、医療判断支援を含むさまざまな分類タスクについての優れた性能のため、サポート・ベクトル機械を使う。ニューラル・ネットワークのような他の分類器も使用できる。
無用な計算および過剰な適合(over-fitting)を防ぐため、そして信頼できる分類器を保証するため、遺伝的アルゴリズム(GA: Genetic Algorithms)を使って特徴サブセットが選択される。ラッパー・アプローチ(wrapper approach)は、選択基準を作り出すための、分類器と結合された特徴選択アルゴリズムに関わる(非特許文献7)。一つの可能な分類器/特徴選択アルゴリズムの組み合わせでは、SVMとCHCと呼ばれるGAとが使われる(非特許文献5)。CHCが望ましいのは、大きなクラスの諸問題について、その堅牢な探索挙動のためである。特徴選択方法は自動的に最適なサイズおよびそのような特徴のセットを決定することができる。
一般に、ここでの方法は、複数の「遺伝子(gene)」からなるいくつかの「染色体(chromosome)」を生成することを含み、各遺伝子がある選択された特徴を表す(非特許文献8)。
染色体によって表現される特徴のセットは、トレーニング・データの、特徴サブセットに対応する部分を使って、SVMをトレーニングするために使われる。その染色体の適合度は、結果として得られるSVMがデータを試験する際にどのくらいよい性能を発揮するかに従って評価される。ある実施形態では、SVM分類の真の結節保持および偽陽性消去の率に基づく階層的な適合度関数が試験セットに対して実行される。代替的な実施形態では、異なる複数の適合度関数を開発して使用することが可能である。
プロセスの開始において、染色体の群(population)が、染色体を形成する特徴をランダムに選ぶことによって生成される。本アルゴリズムは次いで、逐次反復的により高い性能値(より高い適合度)をもつ染色体を探す。各世代において、GAは群中の各染色体の適合度を評価し、突然変異と交差という二つの主要な進化の方法を通じて、より適合したもののほうから新しい染色体を生成する。よい染色体内にある遺伝子は、次の世代のために保持される可能性がより高く、貧弱な性能の遺伝子は破棄される可能性がより高い。最終的には、適者生存のこのプロセスを通じて、高い性能をもつ特徴の集合が見出される。
候補となる特徴サブセットの評価に系統的なデータ・スケーリングを統合することによって遺伝的アルゴリズムの性能を改善することが本発明の一つの目的である。この実施形態では、トレーニング・ケースのセットからトレーニング・セットを選ぶために、系統的データ・スケーリングが使われる。
候補となる特徴サブセットの各セットについて、トレーニング・ケースのセットからトレーニング・セットが選択される。ボーダーラインの偽陽性ケースはトレーニング・セットからは除去される。トレーニング・セットは次いで、遺伝的アルゴリズムの一部として候補となる特徴サブセットの適合度を評価するために使われる分類器を生成するために使われる。
別の実施形態では、ボーダーラインの偽陽性がトメック・リンクの概念を通じて識別できる(非特許文献9)。真の結節ケースAおよび偽の結節ケースBが与えられたとき、d(A,B)をAとBの間の距離とする。(A,B)の対は、d(A,C)<d(A,B)またはd(B,C)<d(A,B)となるような例C(これは真の結節または偽の結節であってよい)がなければ、トメック・リンクと呼ばれる。AとBがトメック・リンクをなすなら、AまたはBがノイズであるか、AとBの両方がボーダーラインである。トメック・リンクがこの偽陽性低減シナリオで使われるとき、偽陽性ケースBのみがダウンスケーリング方法として除去される。図5は、真の結節のより多くを保持するためにこのダウンスケーリング方法がどのようにしてはたらくかを示している。
あるさらなる実施形態では、除去される偽陽性ケースの数は、所望される特異性または感度をよりよく達成するために調節されることができる。これは、ダウンスケーリング因子xの使用を通じて実現される。ダウンスケーリング因子(x)は、(ボーダーラインの偽陽性ケースを除去した後で)トレーニング・セット中に残っている偽の結節の数がトレーニング・セットにおける真の結節の数のx倍を超えない、として定義される。この因子は調節されることができる。xを減らすことは、感度をよりよく(特異性はより少なく)優遇する。xを増すことは、感度をより少なく(特異性をよりよく)優遇する。偽陽性低減のためには、典型的な目標は、100%の感度を保ちながら特異性を最大化する最も大きな因子(xの値)である。
本発明を検証するために例が実施された。第一の例は、ランダム・ダウンスケーリング、系統的ダウンスケーリング(ダウンスケーリング因子2)および系統的データ・スケーリング(ダウンスケーリング因子3)の三つのダウンスケーリング方法を比較した。
データ・セットはまず、学習セットと検証セットに分割された。
Figure 2010500081
データ分割の諸方法は以下のパターンを使った。
ランダム・ダウンスケーリングについては:
Figure 2010500081
系統的ダウンスケーリング(因子2と3の両方)については:
Figure 2010500081
この例について、特徴サブセット・サイズ5ないし12が評価された。これらは、23特徴の特徴プールから最良の特徴サブセット・サイズとして以前に決定されたものである。各サイズについて、以下のテーブルにおける実行が実施された。
Figure 2010500081
各GAランについて、ここで記載したデータ分割パターンのほか、以下の構成設定ファイルが使われた。各GAランは、3つの独立した実験からなる。各実験について最大800,000回の試行がある。
Figure 2010500081
上記の表における最良の特徴サブセットのそれぞれについて、検証が実施され、「感度」(誤って分類された「真の陽性」の数として計算される)および「特異性」(「偽陽性」低減の割合として計算される)の値が取得されて、10個のシードすべてについて平均された。比較のためにいくつかの散布プロット(ROC曲線)が描かれた(図7〜図14)。
各サブセット・サイズについて一つの図が描かれている。図では、X軸は感度(誤って分類された「真の陽性」の数)、Y軸は特異性(「偽陽性」低減の割合)を表す。各図に、16通りのダウンスケーリング因子(1.5、1.6、1.7、…、3.0)についての検証結果によって生成される3つの曲線がある。
図に示されるように、サイズ11および12のほかは、1‐2個の真の結節の誤分類が許容されるとき(これは合理的な数である)、「系統的ダウンスケーリング―因子2」によって選択される特徴サブセットのほうが、「ランダム・ダウンスケーリング」によって選択される特徴サブセットよりも、よい性能を発揮する(より高い特異性を与える)。このことは、xが1と2の間の値をもつとき、「因子2特徴」の曲線が「ランダム特徴」曲線より上にあるという事実に反映される。
この例は、本方法によって選択される特徴サブセットのほうが、従来のランダムなデータ・スケーリングに基づくGA特徴サブセット選択よりもよいということを示している。
さらに、本発明の他の形態およびさらなる形態ならびに上記の個別的で例示的な実施形態以外の実施形態が付属の請求項およびその等価物の精神および範囲から外れることなく考案されてもよく、したがって、本発明の範囲はそれらの等価物を包含し、本記載および請求項は、例示的であって、それ以上に限定するものと解釈されるべきではないことが意図されていることは明白であろう。

Claims (15)

  1. データ・マイニング、計算機支援検出、計算機支援診断および人工知能において分類精度を改善し、偽陽性を低減する方法であって:
    系統的なデータ・スケーリングを使ってトレーニング・ケースのセットからトレーニング・セットを選ぶ段階と、
    ある分類方法を使って前記トレーニング・セットに基づいて分類器を生成する段階とを有し、
    前記系統的なデータ・スケーリングおよび前記分類方法が前記分類器を生じ、それにより偽陽性を減らし、分類精度を改善する、方法。
  2. 前記分類器が、サポート・ベクトル機械、ニューラル・ネットワークおよび決定樹からなる群より選択される、請求項1記載の方法。
  3. 前記トレーニング・セットに基づいて前記分類方法によって生成された前記分類器を、試験セットを使って評価する段階をさらに有する、請求項1記載の方法。
  4. 前記選ぶ段階がさらに、ある閾値が満たされるまで、前記トレーニング・セットから、真の結節とトメック・リンクをなす偽の結節を除去していくことを含む、請求項1記載の方法。
  5. 前記閾値は、ダウンスケーリング因子xに関し、系統的なデータ・スケーリング後にトレーニング・セット内に残っている偽結節の数がトレーニング・セット中の真の結節の数のx倍を超えないように、決定される、請求項4記載の方法。
  6. トレーニング・ケースのセットまたはそのサブセットを用いて前記分類器を検証する段階をさらに有する、請求項1記載の方法。
  7. 実行されたときに請求項1記載の方法を実装する遺伝的アルゴリズム。
  8. 前記遺伝的アルゴリズムがCHCアルゴリズムである、請求項7記載の遺伝的アルゴリズム。
  9. 特徴プールから特徴を選ぶ方法であって:
    請求項7記載の第一の遺伝的アルゴリズムおよび第二の遺伝的アルゴリズムのそれぞれを用意し、前記第一の遺伝的アルゴリズムは前記特徴セットの最良サイズを決定するために使われる、段階と;
    前記特徴セット・サイズを固定し、前記第二の遺伝的アルゴリズムを使って特徴を選択する段階とを有する方法。
  10. 前記第一の遺伝的アルゴリズムを用意することにおいて、当該方法はさらに:異なる特徴サブセット・サイズを表す染色体の生起数および平均誤り数の少なくとも一つを使って結果を解析することを含む、請求項9記載の方法。
  11. 前記平均誤り数が誤って分類された肺結節の数である、請求項10記載の方法。
  12. 実行されたときに請求項1記載の方法を実装するコンピュータ可読媒体。
  13. 撮像デバイスまたは偽陽性低減デバイスであって、該デバイスは請求項1記載の方法を実装することによって画像データを解析するようプログラムされているコンピュータである、製造物。
  14. 請求項13記載の製造物であって、前記撮像デバイスは:計算機断層撮影(CT)、計算機体軸断層撮影(CAT)、マルチスライス計算機断層撮影(MSCT)、身体断面X線撮影法、超音波、磁気共鳴撮像(MRI)、磁気共鳴断層撮影(MRT)、核磁気共鳴(NMR)、X線、顕微鏡法、蛍光透視法、断層撮影およびデジタル・イメージングからなる群より選択される、製造物。
  15. 前記製造物が肺結節CADシステムである、請求項13記載の製造物。
JP2009523398A 2006-08-11 2007-08-02 系統的なデータ・スケーリングを遺伝的アルゴリズムに基づく特徴サブセット選択に統合する方法および装置 Pending JP2010500081A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US82209806P 2006-08-11 2006-08-11
PCT/IB2007/053048 WO2008017991A2 (en) 2006-08-11 2007-08-02 Methods and apparatus to integrate systematic data scaling into genetic algorithm-based feature subset selection

Publications (1)

Publication Number Publication Date
JP2010500081A true JP2010500081A (ja) 2010-01-07

Family

ID=38917381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009523398A Pending JP2010500081A (ja) 2006-08-11 2007-08-02 系統的なデータ・スケーリングを遺伝的アルゴリズムに基づく特徴サブセット選択に統合する方法および装置

Country Status (6)

Country Link
US (1) US8311310B2 (ja)
EP (1) EP2052355A2 (ja)
JP (1) JP2010500081A (ja)
CN (1) CN101501712B (ja)
RU (1) RU2449365C2 (ja)
WO (1) WO2008017991A2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014504523A (ja) * 2011-01-20 2014-02-24 ユニバーシティ オブ アイオワ リサーチ ファウンデーション 血管画像における動静脈比の自動測定
US10140699B2 (en) 2010-12-07 2018-11-27 University Of Iowa Research Foundation Optimal, user-friendly, object background separation
WO2019102797A1 (ja) * 2017-11-21 2019-05-31 富士フイルム株式会社 ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム
US10354384B2 (en) 2012-05-04 2019-07-16 University Of Iowa Research Foundation Automated assessment of glaucoma loss from optical coherence tomography
US10360672B2 (en) 2013-03-15 2019-07-23 University Of Iowa Research Foundation Automated separation of binary overlapping trees
US10410355B2 (en) 2014-03-21 2019-09-10 U.S. Department Of Veterans Affairs Methods and systems for image analysis using non-euclidean deformed graphs
JP2019197549A (ja) * 2013-06-24 2019-11-14 サイランス・インコーポレイテッドCylance Inc. 機械学習を使用した生成的マルチモデルマルチクラス分類および類似度分析のための自動システム
JP2022025095A (ja) * 2014-12-10 2022-02-09 コーニンクレッカ フィリップス エヌ ヴェ 機械学習を用いた医用イメージングの変換のためのシステムおよび方法
US11790523B2 (en) 2015-04-06 2023-10-17 Digital Diagnostics Inc. Autonomous diagnosis of a disorder in a patient from image analysis

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2955235A3 (en) * 2009-01-30 2016-03-02 Koninklijke Philips N.V. Methods for the subclassification of breast tumours
US8346800B2 (en) * 2009-04-02 2013-01-01 Microsoft Corporation Content-based information retrieval
JP2012235796A (ja) * 2009-09-17 2012-12-06 Sharp Corp 診断処理装置、診断処理システム、診断処理方法、診断処理プログラム及びコンピュータ読み取り可能な記録媒体、並びに、分類処理装置
US9122955B2 (en) * 2010-06-28 2015-09-01 Ramot At Tel-Aviv University Ltd. Method and system of classifying medical images
EP2890300B1 (en) 2012-08-31 2019-01-02 Kenji Suzuki Supervised machine learning technique for reduction of radiation dose in computed tomography imaging
US9925009B2 (en) * 2013-03-15 2018-03-27 Covidien Lp Pathway planning system and method
US9485263B2 (en) * 2014-07-16 2016-11-01 Microsoft Technology Licensing, Llc Volatility-based classifier for security solutions
US9619648B2 (en) 2014-07-16 2017-04-11 Microsoft Technology Licensing, Llc Behavior change detection system for services
CN104504441A (zh) * 2014-12-09 2015-04-08 河海大学 基于敏感性的madaline神经网络构建方法及其装置
CN104504443A (zh) * 2014-12-09 2015-04-08 河海大学 基于rbf神经网络敏感性的特征选择方法及其装置
US10110622B2 (en) 2015-02-13 2018-10-23 Microsoft Technology Licensing, Llc Security scanner
CN104933446B (zh) * 2015-07-15 2018-09-18 福州大学 一种用于计算机辅助诊断乳腺b超特征有效性验证的方法
CN111325227B (zh) * 2018-12-14 2023-04-07 深圳先进技术研究院 数据特征提取方法、装置及电子设备
CN111598116B (zh) * 2019-02-21 2024-01-23 杭州海康威视数字技术股份有限公司 数据分类方法、装置、电子设备及可读存储介质
US11164309B2 (en) * 2019-04-10 2021-11-02 International Business Machines Corporation Image analysis and annotation
CN110210519B (zh) * 2019-05-10 2021-06-22 上海联影智能医疗科技有限公司 分类方法、计算机设备和存储介质
CN113948207B (zh) * 2021-10-18 2024-08-16 东北大学 一种用于低血糖预警的血糖数据处理方法
CN114343638B (zh) * 2022-01-05 2023-08-22 河北体育学院 一种基于多模态生理参数信号的疲劳程度评估方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965725B1 (en) * 1988-04-08 1996-05-07 Neuromedical Systems Inc Neural network based automated cytological specimen classification system and method
US5987094A (en) * 1996-10-30 1999-11-16 University Of South Florida Computer-assisted method and apparatus for the detection of lung nodules
US6996549B2 (en) * 1998-05-01 2006-02-07 Health Discovery Corporation Computer-aided image analysis
IT1320956B1 (it) * 2000-03-24 2003-12-18 Univ Bologna Metodo, e relativa apparecchiatura, per la rilevazione automatica dimicrocalcificazioni in segnali digitali di tessuto mammario.
WO2001078005A2 (en) * 2000-04-11 2001-10-18 Cornell Research Foundation, Inc. System and method for three-dimensional image rendering and analysis
US6470092B1 (en) * 2000-11-21 2002-10-22 Arch Development Corporation Process, system and computer readable medium for pulmonary nodule detection using multiple-templates matching
US20040122787A1 (en) * 2002-12-18 2004-06-24 Avinash Gopal B. Enhanced computer-assisted medical data processing system and method
JP5180478B2 (ja) 2004-02-10 2013-04-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ゲノムベースの医療診断テストを最適化する遺伝アルゴリズム
WO2006054269A2 (en) 2004-11-19 2006-05-26 Koninklijke Philips Electronics, N.V. System and method for false positive reduction in computer-aided detection (cad) using a support vector machine (svm)
WO2006054272A2 (en) * 2004-11-19 2006-05-26 Koninklijke Philips Electronics, N.V. A stratification method for overcoming unbalanced case numbers in computer-aided lung nodule false positive reduction
JP2008520322A (ja) * 2004-11-19 2008-06-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 新規な3d特徴を備えるコンピュータ支援検出(cad)における誤検出の低減

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6013014579; Lilla Boroczky, Luyin Zhao, K.P.Lee: 'Feature Subset Selection for Improving the Performance of False Positive Reduction in Lung Nodule CA' IEEE Transactions on Information Technology in Biomedicine Vol. 10, No. 3, 200607, p504 - p511 *
JPN6013014580; Lilla Boroczky, Luyin Zhao, K.P.Lee: 'Feature subset selection for improving the performance of false positive reduction in lung nodule CA' Proceedings of the 18th IEEE Symposium on Computer-Based Medical Systems , 2005, p85 - p90 *
JPN6013014581; Luyin Zhao, Lilla Boroczky, K.P.Lee: 'False positive reduction for lung nodule CAD using support vector machines and genetic algorithms' International Congress Series Vol. 1281, 2005, p1109 - p1114 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140699B2 (en) 2010-12-07 2018-11-27 University Of Iowa Research Foundation Optimal, user-friendly, object background separation
US11935235B2 (en) 2010-12-07 2024-03-19 University Of Iowa Research Foundation Diagnosis of a disease condition using an automated diagnostic model
US11468558B2 (en) 2010-12-07 2022-10-11 United States Government As Represented By The Department Of Veterans Affairs Diagnosis of a disease condition using an automated diagnostic model
JP2014504523A (ja) * 2011-01-20 2014-02-24 ユニバーシティ オブ アイオワ リサーチ ファウンデーション 血管画像における動静脈比の自動測定
US12035971B2 (en) 2011-01-20 2024-07-16 University Of Lowa Research Foundation Automated determination of arteriovenous ratio in images of blood vessels
US11638522B2 (en) 2011-01-20 2023-05-02 University Of Iowa Research Foundation Automated determination of arteriovenous ratio in images of blood vessels
US10354384B2 (en) 2012-05-04 2019-07-16 University Of Iowa Research Foundation Automated assessment of glaucoma loss from optical coherence tomography
US11972568B2 (en) 2012-05-04 2024-04-30 University Of Iowa Research Foundation Automated assessment of glaucoma loss from optical coherence tomography
US10360672B2 (en) 2013-03-15 2019-07-23 University Of Iowa Research Foundation Automated separation of binary overlapping trees
JP2019197549A (ja) * 2013-06-24 2019-11-14 サイランス・インコーポレイテッドCylance Inc. 機械学習を使用した生成的マルチモデルマルチクラス分類および類似度分析のための自動システム
US10410355B2 (en) 2014-03-21 2019-09-10 U.S. Department Of Veterans Affairs Methods and systems for image analysis using non-euclidean deformed graphs
JP2022025095A (ja) * 2014-12-10 2022-02-09 コーニンクレッカ フィリップス エヌ ヴェ 機械学習を用いた医用イメージングの変換のためのシステムおよび方法
US11790523B2 (en) 2015-04-06 2023-10-17 Digital Diagnostics Inc. Autonomous diagnosis of a disorder in a patient from image analysis
JP7008081B2 (ja) 2017-11-21 2022-01-25 富士フイルム株式会社 ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム
JPWO2019102797A1 (ja) * 2017-11-21 2020-11-19 富士フイルム株式会社 ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム
WO2019102797A1 (ja) * 2017-11-21 2019-05-31 富士フイルム株式会社 ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム

Also Published As

Publication number Publication date
CN101501712A (zh) 2009-08-05
EP2052355A2 (en) 2009-04-29
WO2008017991A2 (en) 2008-02-14
RU2009108639A (ru) 2010-09-20
RU2449365C2 (ru) 2012-04-27
CN101501712B (zh) 2012-09-05
US8311310B2 (en) 2012-11-13
WO2008017991A3 (en) 2008-10-30
US20100177943A1 (en) 2010-07-15

Similar Documents

Publication Publication Date Title
US8311310B2 (en) Methods and apparatus to integrate systematic data scaling into genetic algorithm-based feature subset selection
Tan et al. A novel computer‐aided lung nodule detection system for CT images
Tahmooresi et al. Early detection of breast cancer using machine learning techniques
Kunapuli et al. A decision-support tool for renal mass classification
Boroczky et al. Feature subset selection for improving the performance of false positive reduction in lung nodule CAD
Dheeba et al. Classification of malignant and benign microcalcification using SVM classifier
Mastouri et al. Deep learning-based CAD schemes for the detection and classification of lung nodules from CT images: A survey
US20090175514A1 (en) Stratification method for overcoming unbalanced case numbers in computer-aided lung nodule false positive reduction
JP2008520322A (ja) 新規な3d特徴を備えるコンピュータ支援検出(cad)における誤検出の低減
JP2008520318A (ja) サポートベクタマシン(svm)を用いるコンピュータ支援検出(cad)における誤検出低減のためのシステム及び方法
Das et al. Lung cancer detection using deep learning network: A comparative analysis
Narayanan et al. Analysis of various classification techniques for computer aided detection system of pulmonary nodules in CT
Carrillo-de-Gea et al. A Computer‐Aided Detection System for Digital Chest Radiographs
Doma et al. Artificial intelligence-based breast cancer detection using WPSO
Dastider et al. Rescovnet: A deep learning-based architecture for covid-19 detection from chest ct scan images
Hapfelmeier et al. Image feature evaluation in two new mammography CAD prototypes
Sathiya et al. Lung nodule classification in CT images using Grey Wolf Optimization algorithm
Laishram et al. An optimized ensemble classifier for mammographic mass classification
Tan et al. A new and fast image feature selection method for developing an optimal mammographic mass detection scheme
Abdullah et al. Enhanced feature selection algorithm for pneumonia detection
Ahirwar et al. Characterization of tumor region using SOM and Neuro Fuzzy techniques in Digital Mammography
Jabeen et al. An intelligent healthcare framework for breast cancer diagnosis based on the information fusion of novel deep learning architectures and improved optimization algorithm
Jeyavathana et al. Automatic detection of tuberculosis based on AdaBoost classifier and genetic algorithm
Tartar et al. Ensemble learning approaches to classification of pulmonary nodules
Wang et al. Computer-aided Detection: The Impact of Machine Learning Classifier and Image Feature Selection on Scheme Performance.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130402

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130628

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140724

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140902