JP7258862B2 - 対象者クラスタリング方法及び装置 - Google Patents

対象者クラスタリング方法及び装置 Download PDF

Info

Publication number
JP7258862B2
JP7258862B2 JP2020516730A JP2020516730A JP7258862B2 JP 7258862 B2 JP7258862 B2 JP 7258862B2 JP 2020516730 A JP2020516730 A JP 2020516730A JP 2020516730 A JP2020516730 A JP 2020516730A JP 7258862 B2 JP7258862 B2 JP 7258862B2
Authority
JP
Japan
Prior art keywords
data set
values
weighting
weighting values
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020516730A
Other languages
English (en)
Other versions
JP2020534622A5 (ja
JP2020534622A (ja
Inventor
セルジオ コンソリ
モニーク ヘンドリクス
ピーテル クリスティアーン ヴォス
ヤセク ルーカス クストラ
ラルフ ダイター ホフマン
ディミトロス マヴリュードゥス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2020534622A publication Critical patent/JP2020534622A/ja
Publication of JP2020534622A5 publication Critical patent/JP2020534622A5/ja
Application granted granted Critical
Publication of JP7258862B2 publication Critical patent/JP7258862B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

本発明は、対象者をクラスタリングする分野に関し、より具体的には、対象者のデータを使用したクラスタリングの分野に関する。
対象者のグループ化は、所与の対象者に対して最良の治療選択肢を定義することを目的とする、臨床慣行における通常の作業である。具体的には、対象者を正確に類似グループにグループ化することができると、それにより、臨床医が、所与の対象者又はケースを類似する対象者又はケースと容易に比較して、可能性のある診断、好適な治療選択肢、及び前記治療選択肢の見込みの高いアウトカムを特定することが可能になる。これは、関連する過去の医療データ(すなわち類似ケースについての)を正確に特定して臨床医によって利用できるため、結果として改善された対象者アウトカム及びより正確な診断をもたらす傾向がある。
したがって、グループ化プロセスの精度を向上させることが益々要求されるようになっている。しかし、通例は多数の変数があるため、又は影響を及ぼし得る対象者の特性のために、経験を積んだ臨床医であっても2人の対象者が類似するか否かを判定することは難しい。臨床医らは、したがって、対象者をグループ化するために自動化された又は教師無しの「機械学習」(ML)方法に頼っている。
従来のグループ化方法は、すべての特徴(すなわち変数又は特性)が統計的に類似している、例えば、類似する範囲を有する、又は類似する変動範囲及び統計的分布を有すると仮定する。しかし、対象者データ(例えば生物医学的情報)は通常は異種が混合しており、したがって、異なるデータは、統計的な非類似性の度合いが高い異なる領域に属する傾向がある。このことは、従来のクラスタリング方法を行う場合に著しく低下した精度につながる。
本発明は特許請求の範囲によって定義される。
複数の対象者のうち類似する対象者をクラスタリングする方法が提案され、この方法は、対象者データのデータセットを取得するステップであって、データセットは、各対象者についての定量値のそれぞれのセットを含んでおり、各定量値は、対象者の臨床的又は病理学的特徴の測定値であり、定量値の各セットは同じ数の定量値を有する、ステップと、クラスタリングプロセスを行うステップと、を有し、クラスタリングプロセスは、対象者データのデータセットに主成分分析を行って少なくとも2つの主成分を特定するステップであって、各主成分は、成分スコアと、負荷量のデータセットとに関連付けられ、負荷量の各データセット内の負荷量の数は、対象者データのデータセット内の定量値の数と等しい、ステップと、重み付け値の第1のデータセットを生成するステップであって、各重み付け値は、第1の2つの主成分の一方に関連付けられた負荷量のデータセット内のそれぞれの負荷量に基づいており、第1のデータセット内の重み付け値の数は、負荷量のデータセット内の負荷量の数と等しい、ステップと、重み付け値の第1のデータセットを使用して対象者データのデータセットの定量値を重み付けし、対象者データの重み付けされたデータセットを取得するステップと、類似する対象者を、類似する臨床的特性を有する対象者のグループへとクラスタリングするように、対象者データの重み付けされたデータセットにクラスタリングアルゴリズムを行うステップであって、対象者の各グループ内の対象者は、類似する診断、予測される対象者アウトカム及び/又は好適な治療選択肢を持つ、ステップと、を有する。
したがって、対象者データの統計的情報に従って対象者データを修正し、修正された対象者データに基づいてクラスタリングプロセスを行う方法が提案される。詳細には、主成分分析(PCA)を行って、対象者データを修正するための重み付け値のデータセットを生成する。対象者データの修正により、より高い度合いの精度及び改善された度合いのグループ間の分離で、対象者を(類似する対象者の)グループにグループ化することが可能になる。
そして、これにより、改善された診断能力、適切な治療選択肢の選択、及び選択された治療選択肢についての可能性の高い対象者アウトカムの予測が可能になる。よって、全体的な対象者アウトカムを大幅に改善することができる。
本発明は、主成分分析に基づいて適切な重み付け値を生成することで、対象者の異なる測定可能な特徴(すなわち対象者特性又は変数)間の統計的変動が低減されることが可能になり、それにより特徴が統計的により類似するようになることを認識している。このことは、類似する対象者をグループ化する際に改善された精度を可能にする。何故ならば、クラスタリング方法に対する、統計的にアンバランスである可能性のある特徴(例えば、極端に大きい標準偏差又は範囲を有する特徴)の影響が低減されるためである。
主成分分析は、本明細書においては、結果として、より類似性が高く分離が改善されたグループへとクラスタリングすることが可能な対象者データを生じさせる、好適な重み付け値のより正確で精密な特定を可能にする方法として認識されている。最も影響の大きい主成分の1つ(少なくとも第1の2つの主成分の一方である)に関連付けられた負荷量は、重み付け値を生成するための基礎として、したがって、対象者データのデータセットを修正するための基礎として使用される。
方法は、重み付け値の第2のデータセットを取得するステップであって、第2のデータセット内の重み付け値の数は、対象者データのデータセット内の定量値の数と等しい、ステップをさらに有し、重み付け値の第1のデータセットを生成するステップは、第1の2つの主成分の一方に関連付けられた負荷量のデータセット内のそれぞれの負荷量に基づいて重み付け値の第2のデータセット内の各重み付け値を修正し、それにより重み付け値の第1のデータセットを取得するステップを有する。
よって、重み付け値の第1のデータセットは、重み付け値の既存データセットを修正することにより、計算される、生成される、又は取得され、既存データセットは、重み付け値の初期データセット、又は重み付け値生成ステップの先行する反復の結果である。この初期データセット又は先行するデータセットは、重み付け値の第2のデータセットと称される。
したがって、重み付け値が調整及び変更されることを可能にする実施形態が提案される。これは、過去の重み付け値(例えば先行する重み付け値生成ステップで事前に使用された、又は生成された重み付け値)が後続のクラスタリング方法で使用されることを可能にする。これは、重み付け値の適切なデータセットを生成する作業負荷を減らし、適切な重み付け値の収束するセットを反復的に生成する反復的手順を可能にする。
いくつかの実施形態において、重み付け値の第2のデータセット内の各重み付け値を修正するステップは、第1又は第2の主成分の一方に関連付けられた負荷量のデータセットを選択するステップと、重み付け値の第2のデータセット内の各重み付け値に、選択された主成分に関連付けられた負荷量のデータセット内のそれぞれの負荷量を乗算することにより、重み付け値の修正された第1のデータセットを取得するステップと、を有する。
さらなる実施形態において、重み付け値の第2のデータセット内の各重み付け値を修正するステップは、重み付け値の第2のデータセット内の各重み付け値を、0と1との間のランダム又は疑似ランダムに選択された数によって除算するステップをさらに有する。
このようにして、重み付け値の第2のデータセットの各重み付け値が、負荷量値のデータセット内のそれぞれの負荷量のランダムな比率として修正される。これは、一定程度のランダム性が対象者データセットの修正に導入されることを可能にし、それにより、公平な多様化の方策が実施されることが可能になる。
これは、適切な重み付け値が特定される見込みを改善するために、(好適な重み付け値の)反復的探索において特に重要である。詳細には、これにより、重み付け値の収束したデータセットをより正確かつ効率的に生成するために、発見的探索が行われることが可能になる。
重み付け値の第2のデータセット内の各値を修正するステップは、第1の2つの主成分のうちランダム又は疑似ランダムに選択される一方に関連付けられた負荷量のデータセット内のそれぞれの負荷量に基づいて、重み付け値の第2のデータセット内の各値を修正するステップを有する。
よって、実施形態は、最も影響の大きい主成分間における非決定性の選択により、重み付け値の第1のデータセットの生成にさらなるランダム性をもたらす。これは、重み付け値の適切なデータセットが計算又は特定される見込み及び効率をさらに向上させる(特に反復的手順中に)。
クラスタリングプロセスを行うステップは、クラスタリングプロセスを反復的に行うステップを任意選択で有し、クラスタリングプロセスは(任意選択で)、クラスタリングアルゴリズムによって行われたクラスタリングの品質を示す品質値を計算するステップと、品質値が第1の所定の閾値より大きいことに応答して、重み付け値の第2のデータセット内の重み付け値を、重み付け値の第1のデータセット内の重み付け値に置き換えるステップと、品質値が第1の所定の閾値より低いことに応答して、重み付け値の第1のデータセットを却下し、重み付け値の第2のデータセットの重み付け値を維持するステップと、をさらに有する。
本発明の実施形態は、したがって、対象者データを高い度合いの精度に修正することを可能にする、十分な又は最適化された重み付け値のデータセットを生成するために、重み付け値を計算する反復的プロセスを提供し、それにより、対象者のグループ間の分離が改善され、グループ中の対象者の類似性が改善される。このことは、クラスタリング方法全体の性能を大幅に向上させる。重み付け値の最適化されたデータセットは、各反復の後に、重み付け値の第2のデータセットによって表される。詳細には、各反復の後に、重み付け値の第2のデータセットは、クラスタリングプロセスの品質を既知の能力のうち最良のものに改善する、重み付け値のデータセットを表している。
したがって、生成された重み付け値のデータセットに対する評価方法を行って、新たに生成された重み付け値のデータセット(第1のデータセット)が、対象者のグループ間の分離などの対象者データの品質を改善したかどうかを判定する。評価方法は、クラスタリングの品質を示す品質値を計算する。当業者に認識されるように、任意の知られている品質値生成方法が使用されてもよい。
提案される方法は、クラスタリングの品質を改善しない、又はクラスタリングの品質が所定の値を上回ることをその他の形で保証しない、重み付け値への調整、修正、又は変更を却下する。所定の値は、例えば、クラスタリングプロセスの先行する反復中に計算された品質値に基づいて決定されるか、又は標準化値(例えば0.5)である。
少なくとも1つのさらなる実施形態において、方法は、品質値が第2の所定の閾値より大きいこと、反復回数が所定の反復回数より多いこと、反復的クラスタリングプロセスの間に経過した時間の長さが所定の時間長よりも長いこと、及び、重み付け値の第1のデータセットの連続した却下の回数が所定の却下回数より多いこと、のいずれか1つ又は複数に応答して反復的クラスタリングプロセスを行うのを中断するステップをさらに有する。
方法は、したがって、クラスタリングプロセスを一定回数だけ反復的に行うように適合される。反復的プロセスが行われる回数は、例えば、所定の反復回数(例えば25回又は50回の反復)、反復的クラスタリングプロセスを行うのに費やされる所定の時間(例えば30分又は1時間)に基づいて制約される。好ましくは、反復的プロセスは、対象者のグループ間の好適な又は事前定義されたレベルの類似性が達成されたとき、及び/又は反復プロセスが収束するときに停止される。このことは、例えば、品質値が所定の値を上回る(例えば平均シルエット幅が上昇して0.5を上回る)こと、又は重み付け値の新しいデータセットが所定の反復回数(例えば5回の反復)にわたり却下されたことによってそれぞれ示される。
上記の実施形態は、適切な又は最適化された重み付け値のデータセットが計算される見込みに大きく影響することなく、反復プロセスが過剰な時間にわたって行われる(それにより処理パワーを低減する)ことを防ぐ。したがって、方法の効率が改善され、冗長な計算が回避される。
第1の所定の値は、重み付け値の第2のデータセットを使用して重み付けされた対象者データのデータセットに基づいてクラスタリングアルゴリズムによって行われたクラスタリングの品質値である。重み付け値の第2のデータセットは、重み付け値の初期データセット、及び/又は先行する反復で生成された重み付け値のデータセットを表す。
よって、重み付け値の修正された第1のデータセットは、クラスタリングプロセスについての品質値が後続の反復で改善されない場合に却下される。これは、新たに生成された重み付け値のデータセットが、その値のセットが対象者のクラスタリングを改善する場合にのみ後続の反復に進むことを許すことにより、重み付け値の好適なデータセットの収束が達成されることを可能にする。
いくつかの実施形態において、方法は、反復的クラスタリングプロセス中に、品質値が第1の所定の閾値より大きいことに応答して、第1の所定の閾値を品質値に置き換えるステップを有する。よって、品質値が、後続の反復のための閾値として設定される。
任意選択で、方法は、重み付け値の第2のデータセットを使用して定量値を重み付けして、対象者データの初期重み付けデータセットを取得するステップと、類似する対象者をクラスタリングするように、対象者データの初期重み付けデータセットにクラスタリングアルゴリズムを行うステップと、クラスタリングアルゴリズムによって行われたクラスタリングの品質を示す品質値を計算することにより第1の所定の閾値を取得するステップと、をさらに有する。
品質値を計算するステップは、Dunn指標、シルエット幅、及びDavies-Bouldin指標、の1つ又は複数を計算するステップを有する。他の品質値が当業者には容易に明らかとなろう。
好ましくは、品質値は、対象者の異なるクラスタ又はグループ間の分離の度合いを示す。しかし、クラスタリングアルゴリズムの結果に関する任意の知られている品質値が用いられてよい。例えば、品質値は、任意のグループ中での対象者間の類似性を示し、これは、対象者データ全体の改善も示す。
コンピュータプログラム製品は、プロセッサ機器で実行されたときに、前記プロセッサ機器にいずれかの上記記載の方法を実施させるコンピュータ可読プログラム命令が具現化されたコンピュータ可読記憶媒体を備える。
本発明の別の態様によれば、複数の対象者のうち類似する対象者をクラスタリングするように適合されたプロセッサ機器が提供され、このプロセッサ機器は、対象者データのデータセットを取得するように適合された取得ユニットであって、データセットは、各対象者についての定量値のそれぞれのセットを含んでおり、各定量値は、対象者の臨床的又は病理学的特徴の測定値であり、定量値の各セットは同じ数の定量値を有する、取得ユニットと、クラスタリングユニットと、を備え、クラスタリングユニットは、対象者データのデータセットに主成分分析を行って少なくとも2つの主成分を特定することであって、各主成分は、成分スコアと、負荷量のデータセットとに関連付けられ、負荷量の各データセット内の負荷量の数は、定量値のセット内の定量値の数と等しい、ことと、重み付け値の第1のデータセットを生成することであって、第1のセット内の重み付け値の数は、負荷量のデータセット内の負荷量の数と等しく、重み付け値の第1のデータセット内の各重み付け値は、第1の2つの主成分の一方に関連付けられた負荷量のデータセット内のそれぞれの負荷量に基づいている、ことと、重み付け値の第2のデータセットを使用して定量値を重み付けし、対象者データの重み付けされたデータセットを取得することと、類似する対象者を、類似する臨床的特性を有する対象者のグループへとクラスタリングするように、対象者データの重み付けされたデータセットにクラスタリングアルゴリズムを行うことであって、対象者の各グループの中の対象者は、類似する診断、予測される対象者アウトカム及び/又は好適な治療選択肢を持つこととにより前記クラスタリングプロセスを行うように適合される。
プロセッサ機器は、取得ユニットが、重み付け値の第2のデータセットを取得するように適合され、第2のセット内の重み付け値の数は、定量値のセット内の定量値の数と等しく、クラスタリングユニットが、第1の2つの主成分の一方に関連付けられた負荷量のデータセット内のそれぞれの負荷量に基づいて重み付け値の第2のデータセット内の各重み付け値を修正し、それにより重み付け値の第1のデータセットを取得することにより、重み付け値の第1のデータセットを生成するように適合される、ように適合される。
クラスタリングユニットは、反復的にクラスタリングプロセスを行うように適合され、クラスタリングプロセスは、クラスタリングアルゴリズムによって行われたクラスタリングの品質を示す品質値を計算することと、品質値が第1の所定の閾値より大きいことに応答して、重み付け値の第2のデータセット内の重み付け値を、重み付け値の第1のデータセット内の重み付け値に置き換えることと、品質値が第1の所定の閾値より低いことに応答して、重み付け値の第1のデータセットを却下し、重み付け値の第2のデータセットの重み付け値を維持することと、をさらに有する。
本発明のこれら及び他の態様は、本明細書の以降に記載される実施形態から明らかになり、またそれを参照して解説される。
次いで、本発明の例について、添付図面を参照しながら詳細に説明する。
第1の実施形態に係る、対象者をクラスタリングする方法の説明図である。 対象者データのデータセットに主成分分析を行う概念を示す図である。 第2の実施形態に係る、対象者をクラスタリングする方法の説明図である。 第3の実施形態に係る、対象者をクラスタリングする方法の説明図である。 重み付け値のデータセットを生成する概念を示す図である。 重み付け値に基づいて対象者値のデータセットを修正する概念を示す図である。 対象者値の重み付けされていないデータセットにクラスタリングアルゴリズムを行った結果の説明図である。 対象者値の重み付けされていないデータセットにクラスタリングアルゴリズムを行った結果の説明図である。 一実施形態に係る、対象者値の重み付けされたデータセットにクラスタリングアルゴリズムを行った結果の説明図である。 一実施形態に係る、対象者値の重み付けされたデータセットにクラスタリングアルゴリズムを行った結果の説明図である。 一実施形態に係るプロセッサ機器の説明図である。
本発明の概念に従い、互いに類似する対象者をクラスタリング又はグループ化する方法が提案される。データセットは、対象者ごとに、その対象者のそれぞれの臨床的又は病理学的特徴を各々が表す定量値のセットを含んでいる。データセットに主成分分析(PCA)が行われる。PCAによって特定された第1の2つの主成分のうち一方の負荷量を使用して、重み付け値のそれぞれのデータセットを生成する。これらの重み付け値は、データセット内の定量値の各セットを重み付け又は修正するために使用される。対象者データの重み付けされたセットに、クラスタリングアルゴリズムが行われる。このプロセスは、ユーザによって定義された停止条件が満たされるまで反復される。
実施形態は、対象者データの適切な重み付けは、その対象者データ内の異なるパラメータ又は変数間の統計的変動を減らすことができ、そのことがクラスタリング品質を改善するという認識に少なくとも部分的に基づいている。詳細には、主成分分析は、対象者データのデータセット内で最も大きい統計的逸脱に寄与する変数を緩和できるようにすることが認識されている。
例示の実施形態は、例えば、臨床環境で用いられて、臨床医が、改善された自律的プロセスを使用して、類似する対象者をより正確かつ効果的にグループにグループ化することを可能にする。詳細には、対象者は、類似する臨床的特性に基づいてグループ化され、すなわち、特定のグループ内の対象者は、類似する診断、類似する予測対象者アウトカム及び/又は類似する好適な治療選択肢(例えば、そのような治療選択肢の類似する予測アウトカムを含む)を有する。このことは、対象者を正確に診断する見込み(例えば、類似する過去のケースが一緒にグループ化される)、対象者アウトカムの改善された予測、及び適切な治療の改善された選択を大幅に改善し、それにより、対象者アウトカム全体の改善につながる。
図1は、一実施形態に係る対象者をクラスタリングする方法1を例示する。
方法は、対象者データのデータセットを取得するステップ2、及びクラスタリングプロセス3又はルーチンを含む。
ステップ2で取得されるデータセットは、対象者ごとに、定量値のそれぞれのセットを含んでいる。各定量値は、対象者の異なる(臨床的又は病理学的)特徴又は特性を表し、それにより、対象者が任意の複数の変数(すなわち特徴又は特性)に関連付けられ得る。
概念的に、データセットは複数のレコードを表し、各レコードは異なる対象者に関連付けられている。各レコードは、フィールド又は変数のセットを含み、各フィールドはそれぞれの定量値に関連付けられている。よって、レコードの各フィールドは、そのレコードに関連付けられた対象者の、病理学的又は臨床的に関連性のある異なるパラメータ、変数、又は特性を表す。
定量値は、例えば、対象者の臨床段階、陽性生検スコアのパーセンテージ、対象者の脈拍数、対象者の年齢、対象者の入院回数、対象者の一次及び/又は二次生検のグリーソンスコア、前立腺特異抗原密度等を示す。定量値の各セット(すなわち各対象者)には同じ数の定量値が含まれている。欠落している定量値は、後で説明されるように、ゼロ、デフォルト値、又は平均値に設定される。本発明のコンテキストにおいて、定量値は、それにより、対象者の特性の兆候又は症状の数値的表現である(例えば体温や痛みスコア)。
クラスタリングプロセス3は、対象者データのデータセットに主成分分析(PCA)を行うステップ4を含む。主成分分析は、知られている手法に従って対象者データの少なくとも2つの主成分を特定する。各主成分は、一般に、成分スコアと、各成分スコアに対応する負荷量のデータセットとに関連付けられる。
クラスタリングプロセス3は、重み付け値の第1のデータセットを生成するステップ5も含む。各重み付け値は、選択されたデータセットの負荷量のうちのそれぞれの負荷量に基づく。重み付け値の数は、(負荷量のデータセット内の)負荷量の数、並びに定量値のセット内の定量値の数と等しい。選択された負荷量のデータセットは、主成分分析ステップ4の間に取得された第1の2つの主成分の一方に関連付けられる。第1の2つの主成分は、当業者には容易に認識されるように、データセット内の分散の大半を説明する2つの成分である。
クラスタリングプロセス3は、重み付け値の第1のデータセットを使用して、対象者データのデータセット内の各定量値を重み付けするステップ6も含む。詳細には、各定量値は、負荷量の第1のデータセット内のそれぞれの負荷量に基づいて重み付けされる。よって、例として、定量値の第1のセット内の第1の定量値は、負荷量の第1のデータセット内の第1の負荷量に基づいて重み付けされる。各定量値をこのようにして重み付けすることにより、対象者データの重み付けされたデータセットを作成する。
クラスタリングプロセス3は、対象者データの重み付けされたデータセットにクラスタリングアルゴリズムを行うステップ7も含む。換言すると、データセットが重み付け値によって修正され、その後、類似する対象者のグループへとクラスタリングされる。このクラスタリングアルゴリズムは、K平均クラスタリング(重心モデルである)、階層クラスタリング分析、バイクラスタリングプロセス等の、任意の知られているクラスタリングアルゴリズムであってよい。
PCAプロセスのアウトカムに基づいて修正されている対象者データにクラスタリングプロセスを行うと、結果として対象者のクラスタリングが改善され、対象者のグループ間の分離が改善される。先に説明したように、この結果、改善された診断能力、適切な治療選択肢の改善された選択、選択された治療選択肢についての可能性の高い対象者アウトカムの改善された予測がもたらされる。詳細には、過去のデータがより正確に整理され、(例えば新しい対象者ケースと)比較される。
例えば、新しい対象者の特性、特徴、又は定量値が、対象者データのデータバンクに追加され、それに対して一実施形態に係るクラスタリングプロセスが適用される。この結果、新しい対象者が、高い度合いの精度及びグループ間の良好な分離で、類似する既存の又は過去のケースと共にグループ化される。これにより、対象者は共にグループ化された対象者と同じ診断を有する可能性がより高まるため、臨床医が新しい対象者をより正確に診断することが可能になる。同様に、改善されたグループ化により、臨床医が、過去の治療選択肢(すなわち類似する対象者に行われた)と、それら選択肢のアウトカムを観察することも可能になる。このことにより、臨床医が、(類似するグループにいる)類似する対象者の既知のアウトカムに基づいて、最も適切な選択肢を選択することが可能になる。全体として、提案される方法は、類似する(過去の)対象者のアウトカム、治療、及び診断を活用又は利用して対象者アウトカムを改善するため、大幅に改善された対象者アウトカムをもたらす。
PCA方法は当業者には恐らくよく知られているが、本発明のコンテキストにおける向上した理解のために、図2に、対象者データの(簡略化された)初期データセット20に主成分分析(PCA)を行うステップ4を例示する。
対象者データのデータセット20は、定量値v、vの第1のセットAと、定量値v、vの第2のセットBを含む。各セットA、Bは、異なる対象者に関連付けられており、その対象者のレコードを表すと考えることができる。セットAの各定量値v、vは、その特定の対象者についての異なる(臨床的又は病理学的)特徴又は特性X、Yを表し、それにより対象者のレコードの一フィールドを表すことができる。例えば、定量値vは、対象者Aの特性X(例えば対象者の年齢)の値を表し、定量値vは、異なる対象者Bの同じ特性Xの値を表す。
PCAステップ4を行うことにより、因子スコアと呼ばれることもある、成分スコアのデータセット21を生成し、これは少なくとも2つの主成分PC1、PC2を特定する。各主成分PC1は、成分スコアcs、csのセットに関連付けられる。主成分PC1の各成分スコアcs、csは、定量値のそれぞれのセットA、B、すなわちそれぞれの対象者に関連付けられる。例えば、第1の成分スコアcsは、定量値の第1のセットAに関連付けられるのに対し、第2の成分スコアcsは、定量値の第2のセットBに関連付けられる。成分スコアは、関連付けられた対象者データの定量値のセットの相対的分散を表す、変換後の変数値と理解される。
PCAステップ4を行うことにより、負荷量値と呼ばれることもある、負荷量の複数22の(負荷量)データセット22A、22Bも生成する。各負荷量データセット22Aは、異なる主成分PC1に関連付けられる。例えば、第1のデータセット22Aは、第1の主成分PC1に関連付けられ、第2のデータセット22Bは第2の主成分PC2に関連付けられる。各データセット22Aは、負荷量L、L、L、及びLを含む。負荷量Lは、定量値vを含んでいる定量値のセットに関連付けられた成分スコアcsを取得するために標準化定量値vに乗算すべき重み又は値を表す。例として、第2の負荷量Lは、成分スコアcsを標準化定量値vで除算した値と等しい。よって、データセット22Aの各負荷量Lをそれぞれの定量値vにマッピングすることができる。
標準化定量値は、定量値の同じセット内の他の定量値に対して(統計的に)標準化又は正規化されている定量値である。よって、PCAを行うステップ4は、対象者データの標準化データセットを生成する下位ステップ(図示せず)を含んでよい。
さらなる説明として、PCAは、データの何らかの投影による最も大きい分散が第1の座標(第1の主成分と呼ばれる)にあり、2番目に大きい分散が第2の座標(第2の主成分)にある等となるように、データを新しい座標系に変換する直交線形変換として、数学的に定義されることが留意される。これについては、Jolliffe I.T. Principal Component Analysis, Series: Springer Series in Statistics, 2nd ed., Springer, NY,2002, XXIX,487 p.28 illus.ISBN 978-0-387-95442-4に、いくらか詳しく説明されている。
図3は、第1の実施形態を修正したバージョンである方法1の第2の実施形態を例示する。
修正された方法1は、重み付け値の第2のデータセットを取得するステップ31をさらに有する。取得される第2のデータセットは、例えば、以前の又は過去の重み付け値のデータセットである。例として、取得される第2のデータセットは、下記で説明されるように、先行する反復で生成されているか、又は対象者データの異なるセットに基づいて生成されている。他の実施形態において、取得される第2のデータセットは、例えば、任意の値の初期データセットであり、重み付け値はすべて1に初期化されるか、又は0と1との間でランダムに(若しくは疑似ランダムに)選択された数である。
重み付け値の第1のデータセットを生成するステップ5は、第2のデータセットの重み付け値を修正することを有する。詳細には、第2のデータセットの重み付け値を修正することは、2つの第1の主成分の一方の負荷量データセットに基づく。
ステップ5は、第1の2つの主成分の一方を選択するステップ32を有してよい。好ましくは、ステップ32は、第1の2つの主成分の一方をランダム又は疑似ランダムに選択することを有するが、代わりに、第1の主成分又は第2の主成分だけを選択することを有してもよい。当業者には認識されるように、第1の2つの主成分は、対象者データのデータセット内の分散の大半を説明するPCAによって生成される2つの成分である。
ステップ5は、重み付け値の第2のデータセット内の各重み付け値に、選択された主成分に関連付けられた負荷量値のデータセット内のそれぞれの負荷量を乗算するステップ33をさらに有してよい。重み付け値の第2のデータセット内の重み付け値の数は、負荷量値のデータセット内の負荷量値の数と等しい。このようにして、各重み付け値が、負荷量データセットのそれぞれの負荷量に基づいて修正される。
ステップ5は、重み付け値の第2のデータセット内の各重み付け値を、0と1との間のランダム又は疑似ランダムに選択された数で除算するステップ34をさらに有してよい。よって、ステップ33及び34は共に、重み付け値の第2のデータセット内の各重み付け値に、負荷量値のデータセット内のそれぞれの負荷量の一定比率を乗算することを含む。
図3を参照して説明したように、重み付け値の第2のデータセットを修正することによって重み付け値の第1のデータセットを生成するステップ5は、後に説明されるような重み付け値の好適なデータセットを計算するための反復的手順で使用される場合に特に有利である。
詳細には、ステップ5による反復的手順にランダム性を導入して、発見的探索及び/又は発見的最適化方式を可能にする。詳細には、このランダム性は、結果として探索手順の公平な多様化の能力をもたらし、これは好ましくは、最も影響の大きい2つの主成分間における非決定性の(すなわちランダムな)選択により、また選択された主成分の負荷量のランダムな比率により、提供される。
主成分分析を行うステップ4は、重み付け値の第2のデータセットによって重み付けされた対象者データのデータセットに対して行われる。
図4は、第3の修正された実施形態に係る方法1を例示する。
第3の実施形態において、クラスタリングプロセス3は、重み付け値のデータセットを最適化するために反復的に行われる(例えば、重み付け値のデータセットが、連続した反復で収束したかどうかを判定することにより)。
詳細には、重み付け値のデータセットに反復的な修正が行われ、ここでは、行われたいずれかの修正の結果、改善が生じるかどうかについて(各反復中に)判定が行われる。改善を生じない修正は却下され、改善を生じる修正は承認される。このことは、最も好適な、又はその他の形で最適化された重み付け値のデータセットへの漸進的な収束を有利に可能にする。
方法1は、クラスタリングアルゴリズム(ステップ7)によって行われたクラスタリングの品質値を計算するステップ41を有する。例えば、平均シルエット幅、Dunn指標及びDavies-Bouldin指標を計算することを含む、品質値を計算する様々な方法が当業者に容易に想起されよう。シルエット幅は、ユークリッド距離などの任意の知られている距離測定法を使用して計算することができる。
方法は、品質値が第1の所定の閾値より大きいかどうかを判定するステップ42をさらに有する。
方法1は、品質値が所定の閾値より大きいことに応答して、重み付け値の第2のデータセットの重み付け値を、重み付け値の第1のデータセットの重み付け値に置き換えるステップ43を有する。
同様に、方法1は、品質値が所定の閾値未満であることに応答して、重み付け値の第1のデータセットの重み付け値を却下し、重み付け値の第2のデータセットの重み付け値を維持するステップ44を有する。
第1の所定の閾値は、好ましくは、重み付け値の第2のデータセットを使用して重み付けされた対象者データのデータセットに対してクラスタリングアルゴリズムによって行われたクラスタリングの品質値である。詳細には、品質値は、クラスタリングプロセス3の先行する反復で計算された品質値である。このようにして、重み付け値のデータセットを改善する修正が維持され、重み付け値のデータセットに不利に影響する修正は却下される、破棄される、又はその他の形で処分される。
いくつかの他の実施形態において、第1の所定の閾値は、先行する反復の品質値の一定比率又は割合である。先行する品質値の一定割合(例えば先行する品質値の0.95)を使用することは、わずかに悪い解を調べることによってアルゴリズムの多様化を向上させる。このことは、解探索空間のより有望な領域が特定されることにつながり得る。
同様に、他の実施形態において、先行する反復の品質値の倍数(例えば、>1x、例えば1.1x)が第1の所定の閾値として使用されてもよい。これは、先行する解よりも大幅に良い解のみが特定されることを確実にし、より有望な経路につながる。
重み付け値の第1のデータセットは、現在のデータセット(すなわち現在の反復の)であり、重み付け値の第2のデータセットは、例えば、2回目以降の反復については先行するデータセット(すなわち先行する反復の)であり、又は、例えば1回目の反復については、ステップ31で取得される重み付け値の初期化された又はデフォルトのデータセットである。
クラスタリングプロセス3は、それにより、重み付け値の新しいデータセットを修正する、又はその他の形で生成し(例えば先行するセットに基づいて)、重み付け値の新しいデータセットが、その重み付け値によって重み付けされた対象者データのデータセットに行われるクラスタリングの品質に有利に影響するか、それとも不利に影響するかを判定する。例において、先行するクラスタリングプロセスで生成された品質値が、現在のクラスタリングプロセスで生成される品質値と比較される。先行するクラスタリングプロセスは、先行する重み付け値のデータセット、すなわち重み付け値の第2のデータセット、を使用して重み付けされたときの対象者データのデータセットに行われたクラスタリングプロセスである。現在のクラスタリングプロセスは、新たに生成された重み付け値のデータセット、すなわち重み付け値の第1のデータセット、を使用して重み付けするときに対象者データのデータセットに行われるクラスタリングプロセスである。
クラスタリングプロセス3は、反復的クラスタリングプロセス3を中断するかどうかを判定するステップ45をさらに有してよく、それにより、クラスタリングプロセス3のさらなる反復が行われるのを阻止するかどうかを判定する。
ステップ45は、反復回数が所定の反復回数(例えば25回前後、若しくは50回前後)より多いかどうかを判定すること、又は、クラスタリングプロセス3が繰り返される時間である、反復的クラスタリングプロセスの間に経過した時間の長さが、所定の時間長(例えば1分前後、10分前後、又は30分前後)より長いかどうかを判定することを有する。いずれの場合も、ステップ45は、測定値がそれぞれの所定の値を上回る場合(例えば反復回数が所定の反復回数より多い場合)、反復的クラスタリングプロセス3を中断すると判定する。
所定の時間長は、データセットのサイズ(例えば、データセット内の定量値の数、セットの数、及び/又は一セット内の定量値の数)に依存する。無論、演算時間は、演算を行うデバイスの種類、及び/又は前記デバイスの可用性にも依存する。
小さいセット(例えば、<10,000個の定量値)の場合、一般に許容可能な演算実行時間は1~30分の領域であることが特定されている。より複雑なケース(例えば、>10,000個の定量値)では、一般に許容可能な実行時間は1~2時間の領域である。
所定の反復回数は、データセットのサイズ(例えば、定量値のセットの数、及び/又は一セット内の定量値の数)に依存する。ある実施形態において、所定の反復回数は、データセット内の定量値の合計数を500で除算した値以上、例えば、データセット内の定量値の合計数を1000で除算した値以上である。これらの値は、演算時間を最小化し、それにより効率を改善しながら、好適に正確な重み付け値を提供することが特定されている。
いくつかの例において、所定の反復回数は、50回以上、例えば100回以上である。これらの値は、過剰な演算時間又は反復を伴わずに、適切な重みの好適で正確な特定を提供することが示されている。
好ましくは、ステップ45は代わりに、品質値(ステップ41で計算された)が第2の所定の閾値より大きいかどうかを判定することを有する。第2の所定の閾値は、計算される品質値の種類に依存し、単なる例として、第2の所定の閾値は、品質値が平均シルエット幅である場合、0.5前後又は0.7である。
代替として、ステップ45は、重み付け値の第1のデータセットの連続した却下の回数が所定の却下回数より多いかどうかを判定することを有してよい。そのような方法は、重み付け値のデータセットが高い度合いの信頼度で収束したかどうかを特定する。行われる所定の却下回数は、例えば、10又は15の領域である。
他の好適な判定が行われてよく、例えば、品質値(ステップ41で計算される)が所定の反復回数にわたって実質的に変化していない(例えば±1%)ままであるかどうかを判定する。このことは、重み付け値のデータセットが、最適化された重み付け値のデータセットに向かって収束したことも意味する。
無論、ステップ45は、反復的プロセスを行うのを停止するかどうかを判定する代替として、先行する判定のいずれかを組み合わせてもよい(例えば、プロセス3は、品質値が第2の所定の閾値を上回る、又は経過時間が所定の時間長より長い場合に停止される)。
方法は、反復的クラスタリングプロセス3を行うのを中断すると判定された場合、ステップ46で終了する。詳細には、反復的クラスタリングプロセスは、測定値(品質値、反復回数、反復を行った時間量、重み付け値の第1のデータセットの却下回数)が事前定義された閾値を上回るときに停止される。事前定義された閾値は、ユーザにより、又は上記の知られている原理に従って、定義される。
ステップ46で、対象者データの重み付けされたデータセット(すなわち、重み付け値の第2のデータセットを使用して重み付けされた)、又はステップ7で行われたクラスタリングプロセスの出力が、出力される、記憶される、表示されるか、又はその他の形で、この方法のユーザに提供される。
各反復で、主成分分析を行うステップ4は、重み付け値の第2のデータセットによって重み付けされた対象者データのデータベースに対して行われる。よって、主成分(成分スコア及び負荷量のセットを伴う)が、反復的に重み付けされた対象者データのデータセットごとに特定される。このことは、この方法が、対象者データの重み付け後に残っている最も大きい分散を考慮に入れることを保証し、それにより、重み付け値のデータセットのさらなる最適化をさらに可能にする。
一実施形態において、PCAを行うステップ4は、それにより、重み付け値の第2のデータセットを使用して対象者データのデータセットを重み付け又は修正することを有し、又は代わりに、先行する反復のステップ6で生成された対象者データの重み付け用データセットを使用することを有する。いくつかの実施形態において、PCAを行うステップ4は、品質値(新たに計算された重み付け値のデータセットに関連付けられている)が第1の所定の閾値未満であるとステップ42で判定された場合は、後続の反復で繰り返されず、先行する反復で行われた記憶されているPCAが代わりに使用されてよい。
図5は、一実施形態に係る、重み付け値の第1のデータセット51を生成するステップ5を例示する。
ステップ5は、重み付け値w、w、w、及びwの第2のデータセット52を修正することを有する。重み付け値の第2のデータセット52は、例えば、先行するクラスタリングプロセス3の反復で生成された重み付け値のデータセットであるか、又は、初期化された重み付け値のデータセットである(例えば、すべての重み付け値が1に設定されるか、若しくは0と1との間の乱数に設定される)。
ステップ5は、各重み付け値wにそれぞれの負荷量Lを乗算することを有する。負荷量は、前に説明したように、(事前に重み付けされた)対象者データのPCAから得られる第1の2つの主成分の一方に関連付けられた負荷量セット51から選択される。
主成分は、ランダム又は疑似ランダムに選択され、それによりいくらかのランダム性を重み付けプロセスに導入する。ステップ5は、各重み付け値wを0と1との間の乱数又は疑似乱数で除算することも含んでよい。
反復的プロセスにおいて、新しい重み付け値の生成にランダム性を導入することにより、反復的クラスタリングプロセスの多様化能力を改善する。このことは、重み付け値の改善されたデータセットが反復的プロセス中に特定され得る(すなわち品質値が改善され得る)可能性をより高める。
各重み付け値の修正は、それにより、各重み付け値に、
Figure 0007258862000001
を乗算することによって行われ、ここで、iは1又は2であり、(第1の2つの最も影響の大きい成分のうちで)選択された主成分を示し、xは、関連性のある定量値又は対象者のセットを表し、jは、関係する特性又は定量値を示し、r(∈[0,1])は、0と1との間で選択されるランダムな(例えば倍精度又は浮動小数点)数である。
図6は、重み付け値のデータセット51、52を使用して対象者データのデータセット20の定量値を重み付けするステップ6を例示する。このステップは、ステップ6で(品質値を判定するために対象者をクラスタリングする前に)、又は主成分分析ステップ5中に行われる。
データセット20の各定量値は、特定の重み付けにマッピングする、関連付ける、又はその他の形で結び付けられる。データセットを重み付けするために、各定量値がそれぞれの重み付けで乗算される。例として、第1の定量値vは、第1の重み付け値wで乗算される。この結果、対象者データの重み付けされたデータセット60が得られる。
図7、図8、図9、及び図10は、反復的クラスタリングプロセス3を使用しない場合(図7及び図8)と、反復的クラスタリングプロセス3を使用した場合(図9及び図10)との両方の、現実のシナリオにおける対象者データの例示的データセットに対して行われたクラスタリングプロセスのアウトカムを例示している。
対象者データの例示的データセットは、前立腺癌腫瘍のリスクがある2992人の対象者の詳細を含んでおり、対象者はすべて根治的前立腺切除を受けている。データセットは、対象者ごとに、6個の定量値のセットを含んでおり、これらはそれぞれ、その対象者の臨床的及び病理学特徴である、手術時年齢、前立腺特異抗原(PSA)密度、陽性生検スコアのパーセンテージ、一次及び二次生検のグリーソンスコア、並びに臨床段階を示す。
(反復的)クラスタリングプロセス3が行われない(すなわち、対象者データのデータセットが重み付けされない)場合、対象者データのデータセットに適用されるK平均クラスタリングは、結果として、図7に示す、Clusplotとも呼ばれる第1の二変量クラスタプロット70を生じる。Clusplot 70は、対象者を二変量プロット内の点として図形的に表示すると共に、それら対象者のクラスタを様々なサイズ及び形状の楕円として図形的に表示する。無論、対象者のクラスタを示す情報もメモリに記憶されてよい。反復的クラスタリングプロセス3が行われない場合、対象者は、3つの別個の別々のグループ71、72、73にクラスタリングされる。
図8に示す第1のクラスタシルエットプロット80も生成される。クラスタシルエットプロットは、グラウンド71、72、及び73の分離を図形的に表す。平均シルエット幅81又はスコアが計算される。一般に、クラスタリングは、シルエット幅が0.5を上回る場合に十分であると考えられる。図8に示すように、平均シルエット幅81はこの閾値をはるかに下回って0.2前後であり、これは、作成された3つのクラスタについてデータの分離が不良であることを示唆する。
前に説明した一実施形態に係る反復的クラスタリングプロセス3が行われる場合、適切に重み付けされた対象者データのK平均クラスタリングは、結果として、図9に示す第2の二変量クラスタプロット90を生じる。詳細には、重み付けされたデータセットが12個の対象者のグループにクラスタリングされている。
図10に示す第2のクラスタシルエットプロット100は、対象者データのデータセットの最適化された重み付けに起因してデータセットのクラスタリングの品質も改善された様子を例示している。詳細には、平均シルエット幅101は、0.51に等しい(すなわち、十分な値である0.5を上回る)。
記載される反復的方法を現実のデータセットに対して行うことによって作成された結果は、このシステムの実現可能性と、類似する対象者の有意なグループを作成するその能力を実証している。結果として得られる対象者のグループは、大きい塊になってグループ化される、及び/又は可能性として誤分類されるのではなく、互いから良好に分離されている。また、各グループ内の対象者は、ペアになった類似性境界の中に分散しており、それにより、根本的に異なる対象者を、異なる、良好に分離されたグループに配置することを保証する。
いくつかの実施形態において、クラスタリングアルゴリズムは、(重み付けされた)対象者データのPCA分析の結果に対して行われる。詳細には、PCA分析によって判定された(対象者データの)第1の2つの主成分を使用してクラスタリングを行って、対象者をクラスタリングする。図7~図10に示すクラスタリングは、そのような方法に従ってクラスタリングされている。このことは、クラスタリングのプロセスをさらに改善し、同じグループ内の対象者間の類似性をさらに改善する。
上記及び他の実施形態において、対象者データは、異なる領域に属し、異なる変動範囲及び統計的分布を有する臨床的及び病理学特徴を含む。そのような各特徴jをFと参照する。一般的な対象者iを、P=[Fi1;Fi2;...;Fij;...Fin]と参照し、ここで、nは臨床的又は病理学的特徴の合計数である。対象者データのデータセット全体は、したがって、P=[F;F;...;F;...F]となる。反復的クラスタリングプロセスの目的は、対象者のクラスタリングを最大の程度まで改善し、それにより対象者データの最適化されたデータセットP=[w.F;w.F;...;w.F;...w.F]=w.Fを生じる、重みwのデータセットを見つけることである。この最適化されたデータセットは、対象者データ全体をよりよく表し、統計的類似性を改善し、データセット中の統計的変動及び分布を低減する。
最初、重み付け値は1に等しく設定され、すなわちw’=[1;1;...1]であり、それにより、前に説明したステップ31で取得される重み付け値の第2のデータセットを形成する。これらの重み付け値の摂動を行い、重み付け値w’’の新しいデータセットを取得し、それにより重み付け値の第1のデータセットを形成する。重み付け値w’’の新しいデータセットが、改善された品質値又は「オブジェクト関数値」を伴う、改善された重み付けされたデータセットにつながる場合には、重み付け値のデータセットに対する摂動が承認され、対象者値の新しい重み付けされたデータセットと、重み付け値の新しいデータセットとが、先行するそれぞれのデータセットに取って代わる。
各反復において、重み付けされた対象者データに行われたクラスタリングの品質を査定して、品質値を取得する。査定は、例えば、平均シルエット幅及び/又はDunn指標を品質値として判定する。
最適化ルーチンの反復は、事前定義された停止条件が満たされるまで進行する。それらには、例えば、最大許容演算時間若しくはCPU時間、最大反復回数、2つの改善の間の最大反復回数、又は最小平均シルエット幅(例えば、少なくとも0.5)のいずれか1つ又は複数が満たされることが含まれる。このようにして、クラスタリングアルゴリズムへの複数の特徴空間(すなわち、異なる統計的特性の特徴)の取り込みが得られる。
いくつかの実施形態において、データセット内の定量値の1つ又は複数が、NULL又は欠落値を有することがある。これは、データセットに何らかのデータが欠落している(又は特定の対象者についてのデータが記録されなかった)場合に発生する。この問題を克服するために、欠落値がある場合は、それを、デフォルト値(例えばゼロ)で代用するか、又は補完値若しくは平均値を提供することで代用する。適切な補完方法が当業者によく知られていよう。他の実施形態において、欠落値又はNULL値を含む定量値のセットは破棄される。
図11は、複数の対象者のうち類似する対象者をクラスタリングするように適合されたプロセッサ機器110を例示し、プロセッサ機器は、取得ユニット111及びクラスタリングユニット112を備える。
取得ユニット111は、対象者データのデータセットを取得するように適合され、データセットは、各対象者についての定量値のそれぞれのセットを含んでおり、各定量値は、対象者の臨床的又は病理学的特徴の測定値であり、定量値の各セットは同じ数の定量値を有する。
クラスタリングユニット112は、対象者データのデータセットに主成分分析を行って少なくとも2つの主成分を特定することであって、各主成分は、成分スコアと、負荷量のデータセットとに関連付けられ、負荷量の各データセット内の負荷量の数は、定量値のセット内の定量値の数と等しい、ことと、重み付け値の第1のデータセットを生成することであって、第1のセット内の重み付け値の数は、負荷量のデータセット内の負荷量の数と等しく、重み付け値の第1のデータセット内の各重み付け値は、第1の2つの主成分の一方に関連付けられた負荷量のデータセット内のそれぞれの負荷量に基づいている、ことと、重み付け値の第1のデータセットを使用して定量値を重み付けして、対象者データの重み付けされたデータセットを取得することと、類似する対象者をクラスタリングするように、対象者データの重み付けされたデータセットにクラスタリングアルゴリズムを行うことと、によりクラスタリングプロセスを行うように適合される。
取得ユニット111は、対象者データのデータセットを、例えば、外部供給源から、又はメモリ構成部113から取得する。クラスタリングユニットは、重み付け値の第1のデータセットと、対象者データの重み付けされたデータセットとを、メモリ構成部113に記憶するように適合される。
好ましくは、取得ユニット111は、重み付け値の第2のデータセットを取得するように適合され、第2のデータセット内の重み付け値の数は、対象者データのデータセット内の定量値の数と等しい。重み付け用データの第2のデータセットは、メモリ構成部113から取得され、例えば、先行する反復中に生成された重み付け値のデータセットである(前に説明したように)。
クラスタリングユニット111は、第1の2つの主成分の一方に関連付けられた負荷量のデータセット内のそれぞれの負荷量に基づいて重み付け値の第2のデータセット内の各重み付け値を修正し、それにより重み付け値の第1のデータセットを取得することにより、重み付け値の第1のデータセットを生成するように適合される。クラスタリングユニット111は、重み付け値の第1のデータセットをメモリ構成部113に記憶し、それが後に、後続の反復のための重み付け値の第2のデータセットとして取得ユニットによって取得される。
クラスタリングユニット111は、クラスタリングプロセスを反復的に行うように適合され、クラスタリングプロセスは、クラスタリングアルゴリズムによって行われたクラスタリングの品質を示す品質値を計算することと、品質値が第1の所定の閾値より大きいことに応答して、重み付け値の第2のデータセット内の重み付け値を、重み付け値の第1のデータセット内の重み付け値に置き換えることと、品質値が第1の所定の閾値より低いことに応答して、重み付け値の第1のデータセットを却下し、重み付け値の第2のデータセットの重み付け値を維持することと、をさらに有する。
よって、クラスタリングユニット112は、クラスタリングアルゴリズムの品質が、重み付け値のデータセットに対する修正に起因して改善した場合にのみ、(メモリ構成部113に)記憶されている重み付け値のデータセットを更新する。
処理構成部110は、表示装置114と通信する。詳細には、処理構成部は、クラスタリングプロセスのアウトカム、主成分分析等を表示する。これにより、臨床医などの処理構成部110のユーザが、記憶された情報に容易にアクセスすることが可能になる。
実施形態は、任意の記載される方法を実行するためにコントローラなどのプロセッサ機器を利用する。コントローラは、必要とされる様々な機能を行うように、ソフトウェア及び/又はハードウェアを用いて多数の方式で実施され得る。プロセッサは、必要とされる機能を行うようにソフトウェア(例えばマイクロコード)を使用してプログラムされる1つ又は複数のマイクロプロセッサを用いるコントローラの一例である。しかし、コントローラは、プロセッサを用いて、又は用いずに実施されてよく、また、いくつかの機能を行うための専用ハードウェアと、他の機能を行うためのプロセッサ(例えば、1つ又は複数のプログラムされたマイクロプロセッサ及び関連する回路)との組み合わせとして実施されてもよい。
本開示の様々な実施形態において用いられるコントローラコンポーネントの例には、これらに限定されないが、従来のマイクロプロセッサ、特定用途集積回路(ASIC)、及びフィールドプログラマブルゲートアレイ(FPGA)が含まれる。
様々な実装形態において、プロセッサ又はコントローラが、RAM、PROM、EPROM、及びEEPROM(登録商標)のような揮発性及び不揮発性のコンピュータメモリなどの1つ又は複数の記憶媒体に関連付けられる。記憶媒体には、1つ又は複数のプロセッサ及び/又はコントローラ上で実行されたときに必要とされる機能を行う1つ又は複数のプログラムが符号化される。様々な記憶媒体がプロセッサ若しくはコントローラ内部に固定されるか、又はその上に記憶された1つ又は複数のプログラムがプロセッサ又はコントローラ内にロードされ得るように移送可能である。
したがって、プロセッサ機器で実行されたときに、前記プロセッサ機器にいずれかの先述の方法の方法を実施させるコンピュータ可読プログラム命令が具現化されたコンピュータ可読記憶媒体を備えるコンピュータプログラム製品でもよい。
図面、本開示、及び添付の特許請求の範囲の考察から、特許請求される本発明を実施する際に、開示される実施形態の他の変形例を当業者によって理解し、実施することができる。特許請求の範囲において、単語「有する、備える」は他の要素又はステップを排除せず、単数形は複数形を排除しない。ある手段が相互に異なる従属請求項に記載されているという単なる事実は、それらの手段の組み合わせを有利に使用できないことを意味するものではない。特許請求の範囲内に参照符号がある場合、範囲を制限するものとは解釈すべきでない。

Claims (15)

  1. 複数の対象者のうち類似する対象者をクラスタリングする方法であって、前記方法は、
    対象者データのデータセットを取得するステップであって、前記データセットは、各対象者についての定量値のそれぞれのセットを含み、各定量値は、前記対象者の臨床的又は病理学的特徴の測定値であり、前記定量値の各セットは同じ数の定量値を有する、ステップと、
    クラスタリングプロセスを行うステップと、を有し、
    前記クラスタリングプロセスは、
    前記対象者データの前記データセットに主成分分析を行って少なくとも2つの主成分を特定するステップであって、各主成分は、成分スコアと、負荷量のデータセットとに関連付けられ、前記負荷量の各データセット内の負荷量の数は、前記対象者データの前記データセット内の定量値の数と等しい、ステップと、
    重み付け値の第1のデータセットを生成するステップであって、各重み付け値は、前記主成分のうちの1つである第1の主成分に関連付けられた前記負荷量のデータセット内のそれぞれの負荷量に基づいており、第1のデータセット内の重み付け値の数は、前記負荷量のデータセット内の負荷量の数と等しい、ステップと、
    前記重み付け値の前記第1のデータセットを使用して前記対象者データの前記データセットの定量値を重み付けし、前記対象者データの重み付けされたデータセットを取得するステップと、
    類似する対象者を、類似する臨床的特性を有する対象者のグループへとクラスタリングするように、前記対象者データの重み付けされたデータセットにクラスタリングアルゴリズムを行うステップであって、前記対象者の各グループ内の対象者は、類似する診断、予測される対象者アウトカム及び/又は好適な治療選択肢を持つ、ステップと、を有する、
    方法。
  2. 前記重み付け値の第2のデータセットを取得するステップであって、前記第2のデータセット内の重み付け値の数は、前記対象者データの前記データセット内の定量値の数と等しい、ステップをさらに有し、
    前記重み付け値の前記第1のデータセットを生成するステップは、前記第1の主成分と、前記主成分のうちの1つであって、前記第1の主成分とは異なる第2の主成分とのうちの一方に関連付けられた前記負荷量のデータセット内のそれぞれの負荷量に基づいて前記重み付け値の第2のデータセット内の各重み付け値を修正し、それにより前記重み付け値の前記第1のデータセットを取得するステップを有する、
    請求項1に記載の方法。
  3. 前記重み付け値の前記第2のデータセット内の各重み付け値を修正するステップは、前記第1の主成分又は前記第2の主成分に関連付けられた負荷量のデータセットを選択するステップと、
    前記重み付け値の前記第2のデータセット内の各重み付け値に、選択された主成分に関連付けられた負荷量のデータセット内のそれぞれの負荷量を乗算することにより、前記重み付け値の修正された第1のデータセットを取得するステップと、を有する、
    請求項2に記載の方法。
  4. 前記重み付け値の前記第2のデータセット内の各重み付け値を修正するステップは、前記重み付け値の前記第2のデータセット内の各重み付け値を、0と1との間でランダム又は疑似ランダムに選択された数によって除算するステップをさらに有する、
    請求項3に記載の方法。
  5. 前記重み付け値の前記第2のデータセット内の各値を修正するステップは、前記第1の主成分と前記第2の主成分とのうちランダム又は疑似ランダムに選択される一方に関連付けられた負荷量のデータセット内のそれぞれの負荷量に基づいて、前記重み付け値の前記第2のデータセット内の各値を修正するステップを有する、
    請求項2から4の何れか一項に記載の方法。
  6. 前記クラスタリングプロセスを行うステップは、前記クラスタリングプロセスを反復的に行うステップを有し、
    前記クラスタリングプロセスは、
    クラスタリングアルゴリズムによって行われたクラスタリングの品質を示す品質値を計算するステップと、
    前記品質値が第1の所定の閾値より大きいことに応答して、前記重み付け値の前記第2のデータセット内の重み付け値を、前記重み付け値の前記第1のデータセット内の重み付け値に置き換えるステップと、
    前記品質値が前記第1の所定の閾値より低いことに応答して、前記重み付け値の前記第1のデータセットを却下し、前記重み付け値の前記第2のデータセットの重み付け値を維持するステップと、をさらに有する、
    請求項2から5の何れか一項に記載の方法。
  7. 前記品質値が第2の所定の閾値より大きいこと、反復回数が所定の反復回数より多いこと、反復的な前記クラスタリングプロセスの間に経過した時間の長さが所定の時間長よりも長いこと、及び、前記重み付け値の第1のデータセットの連続した却下の回数が所定の却下回数より多いこと、のいずれか1つ又は複数に応答して反復的な前記クラスタリングプロセスを行うのを中断するステップをさらに有する、
    請求項6に記載の方法。
  8. 前記第1の所定の値は、前記重み付け値の前記第2のデータセットを使用して重み付けされた前記対象者データの前記データセットに基づいて前記クラスタリングアルゴリズムによって行われたクラスタリングの品質値である、
    請求項6又は7に記載の方法。
  9. 反復的な前記クラスタリングプロセス中に、前記品質値が第1の所定の閾値より大きいことに応答して、前記第1の所定の閾値を前記品質値に置き換えるステップを有する、
    請求項8に記載の方法。
  10. 前記重み付け値の前記第2のデータセットを使用して定量値を重み付けして、前記対象者データの初期重み付けデータセットを取得するステップと、
    類似する対象者をクラスタリングするように、前記対象者データの前記初期重み付けデータセットにクラスタリングアルゴリズムを行うステップと、
    前記クラスタリングアルゴリズムによって行われたクラスタリングの品質を示す品質値を計算することにより前記第1の所定の閾値を取得するステップと、をさらに有する、
    請求項8又は9に記載の方法。
  11. 前記品質値を計算するステップは、Dunn指標、シルエット幅、及びDavies-Bouldin指標、の1つ又は複数を計算するステップを有する、
    請求項6から10の何れか一項に記載の方法。
  12. プロセッサ機器で実行されたときに、前記プロセッサ機器に、請求項1から11の何れか一項に記載の方法を実施させるコンピュータ可読プログラム命令が具現化された、
    コンピュータ可読記憶媒体。
  13. 複数の対象者のうち類似する対象者をクラスタリングするプロセッサ機器であって、前記プロセッサ機器は、
    対象者データのデータセットを取得する取得ユニットであって、前記データセットは、各対象者についての定量値のそれぞれのセットを含み、各定量値は、前記対象者の臨床的又は病理学的特徴の測定値であり、前記定量値の各セットは同じ数の定量値を有する、取得ユニットと、
    クラスタリングユニットと、を備え、
    前記クラスタリングユニットは、
    前記対象者データのデータセットに主成分分析を行って少なくとも2つの主成分を特定することであって、各主成分は、成分スコアと、負荷量のデータセットとに関連付けられ、前記負荷量の各データセット内の負荷量の数は、前記定量値のセット内の定量値の数と等しい、特定することと、
    重み付け値の第1のデータセットを生成することであって、前記第1のデータセット内の重み付け値の数は、前記負荷量の前記データセット内の負荷量の数と等しく、前記重み付け値の前記第1のデータセット内の各重み付け値は、前記主成分のうちの1つである第1の主成分に関連付けられた負荷量のデータセット内のそれぞれの負荷量に基づいている、生成することと
    似する対象者を、類似する臨床的特性を有する対象者のグループへとクラスタリングするように、前記対象者データの重み付けされたデータセットにクラスタリングアルゴリズムを行うことであって、前記対象者の各グループの中の対象者は、類似する診断、予測される対象者アウトカム及び/又は好適な治療選択肢を持つ、行うことと、
    により、クラスタリングプロセスを行う、
    プロセッサ機器。
  14. 前記取得ユニットが、前記重み付け値の第2のデータセットを取得し、前記第2のデータセット内の重み付け値の数は、前記定量値のセット内の定量値の数と等しく、
    前記クラスタリングユニットが、前記第1の主成分と、前記主成分のうちの1つであって、前記第1の主成分とは異なる第2の主成分とのうちの一方に関連付けられた負荷量のデータセット内のそれぞれの負荷量に基づいて前記重み付け値の第2のデータセット内の各重み付け値を修正し、それにより前記重み付け値の前記第1のデータセットを取得することにより、前記重み付け値の前記第1のデータセットを生成する、
    請求項13に記載のプロセッサ機器。
  15. 前記クラスタリングユニットは、反復的にクラスタリングプロセスを行い、
    前記クラスタリングプロセスは、
    前記クラスタリングアルゴリズムによって行われたクラスタリングの品質を示す品質値を計算することと、
    前記品質値が第1の所定の閾値より大きいことに応答して、前記重み付け値の第2のデータセット内の重み付け値を、前記重み付け値の前記第1のデータセット内の重み付け値に置き換えることと、
    前記品質値が第1の所定の閾値より低いことに応答して、前記重み付け値の前記第1のデータセットを却下し、前記重み付け値の前記第2のデータセットの重み付け値を維持することと、をさらに有する、
    請求項14に記載のプロセッサ機器。
JP2020516730A 2017-09-20 2018-09-18 対象者クラスタリング方法及び装置 Active JP7258862B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17192198.4 2017-09-20
EP17192198.4A EP3460807A1 (en) 2017-09-20 2017-09-20 Subject clustering method and apparatus
PCT/EP2018/075238 WO2019057727A1 (en) 2017-09-20 2018-09-18 APPARATUS AND METHOD FOR GROUPING SUBJECTS

Publications (3)

Publication Number Publication Date
JP2020534622A JP2020534622A (ja) 2020-11-26
JP2020534622A5 JP2020534622A5 (ja) 2021-10-28
JP7258862B2 true JP7258862B2 (ja) 2023-04-17

Family

ID=59982264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020516730A Active JP7258862B2 (ja) 2017-09-20 2018-09-18 対象者クラスタリング方法及び装置

Country Status (5)

Country Link
US (1) US11636954B2 (ja)
EP (2) EP3460807A1 (ja)
JP (1) JP7258862B2 (ja)
CN (1) CN111247600A (ja)
WO (1) WO2019057727A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7235960B2 (ja) * 2019-02-07 2023-03-09 富士通株式会社 ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置
US20210304056A1 (en) * 2020-03-25 2021-09-30 International Business Machines Corporation Learning Parameter Sampling Configuration for Automated Machine Learning
US11423333B2 (en) * 2020-03-25 2022-08-23 International Business Machines Corporation Mechanisms for continuous improvement of automated machine learning
CN112002419B (zh) * 2020-09-17 2023-09-26 吾征智能技术(北京)有限公司 一种基于聚类的疾病辅助诊断系统、设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050209785A1 (en) 2004-02-27 2005-09-22 Wells Martin D Systems and methods for disease diagnosis
JP2012150786A (ja) 2010-12-28 2012-08-09 Giken Shoji International Co Ltd 地域特性を利用したプロファイリングシステム
JP2012523877A (ja) 2009-04-15 2012-10-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 臨床決定支援システム及び方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6952700B2 (en) 2001-03-22 2005-10-04 International Business Machines Corporation Feature weighting in κ-means clustering
EP2229643A1 (en) * 2007-12-28 2010-09-22 Koninklijke Philips Electronics N.V. Retrieval of similar patient cases based on disease probability vectors
ES2795036T3 (es) * 2008-07-25 2020-11-20 Fund D Anna Sommer Champalimaud E Dr Carlos Montez Champalimaud Sistemas y métodos para tratar, diagnosticar y predecir la aparición de una afección médica
US8504392B2 (en) 2010-11-11 2013-08-06 The Board Of Trustees Of The Leland Stanford Junior University Automatic coding of patient outcomes
JP5643430B2 (ja) 2011-06-28 2014-12-17 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050209785A1 (en) 2004-02-27 2005-09-22 Wells Martin D Systems and methods for disease diagnosis
JP2012523877A (ja) 2009-04-15 2012-10-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 臨床決定支援システム及び方法
JP2012150786A (ja) 2010-12-28 2012-08-09 Giken Shoji International Co Ltd 地域特性を利用したプロファイリングシステム

Also Published As

Publication number Publication date
WO2019057727A1 (en) 2019-03-28
EP3460807A1 (en) 2019-03-27
CN111247600A (zh) 2020-06-05
JP2020534622A (ja) 2020-11-26
EP3685405A1 (en) 2020-07-29
US20200219627A1 (en) 2020-07-09
US11636954B2 (en) 2023-04-25

Similar Documents

Publication Publication Date Title
JP7258862B2 (ja) 対象者クラスタリング方法及び装置
US20210327593A1 (en) Radiation therapy planning using integrated model
US9514213B2 (en) Per-attribute data clustering using tri-point data arbitration
EP2338122B1 (en) System and method for fusing clinical and image features for computer-aided diagnosis
Chen et al. Automated contouring error detection based on supervised geometric attribute distribution models for radiation therapy: a general strategy
US8423596B2 (en) Methods of multivariate data cluster separation and visualization
US20190087737A1 (en) Anomaly detection and automated analysis in systems based on fully masked weighted directed
JP2009528117A (ja) 画像の類似度を評価するための画像特性セットの特定
WO2021120587A1 (zh) 基于oct的视网膜分类方法、装置、计算机设备及存储介质
Shukla et al. Hybrid approach for tuberculosis data classification using optimal centroid selection based clustering
CN117174257B (zh) 医疗影像的处理装置、电子设备及计算机可读存储介质
US10573006B2 (en) Selection of a subset of atlases from a set of candidate atlases
US11842268B2 (en) Evaluating input data using a deep learning algorithm
CN115666718B (zh) 放射疗法治疗规划
EP3892327A1 (en) Radiation therapy treatment planning
US20240161035A1 (en) Multi-model medical scan analysis system and methods for use therewith
Vasudevan et al. Assessing the Efficiency of Machine Learning Techniques on Multiple Cloud Platforms for Detecting Breast Cancer
Bolourchi et al. A machine learning-based data-driven approach to Alzheimer’s disease diagnosis using statistical and harmony search methods
CN112183608A (zh) 一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统
Wu et al. Multiple kernel learning method using mrmr criterion and kernel alignment

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210917

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230405

R150 Certificate of patent or registration of utility model

Ref document number: 7258862

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150