JP7271515B2 - 深層学習アルゴリズムを使用した入力データの評価 - Google Patents

深層学習アルゴリズムを使用した入力データの評価 Download PDF

Info

Publication number
JP7271515B2
JP7271515B2 JP2020516541A JP2020516541A JP7271515B2 JP 7271515 B2 JP7271515 B2 JP 7271515B2 JP 2020516541 A JP2020516541 A JP 2020516541A JP 2020516541 A JP2020516541 A JP 2020516541A JP 7271515 B2 JP7271515 B2 JP 7271515B2
Authority
JP
Japan
Prior art keywords
data
deep learning
input
learning algorithm
input data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020516541A
Other languages
English (en)
Other versions
JP2020534614A5 (ja
JP2020534614A (ja
Inventor
ディミトロス マヴリュードゥス
モニーク ヘンドリクス
ピーテル クリスティアーン ヴォス
セルジオ コンソリ
ヤセク ルーカス クストラ
ヨハン ヤンセン
ラルフ ダイター ホフマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2020534614A publication Critical patent/JP2020534614A/ja
Publication of JP2020534614A5 publication Critical patent/JP2020534614A5/ja
Application granted granted Critical
Publication of JP7271515B2 publication Critical patent/JP7271515B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Description

本発明は、深層学習の分野に関し、より具体的には、深層学習アルゴリズムを使用して被験者データを評価する分野に関する。
深層学習は、画像分析、音声認識及び自然言語処理の分野で非常にうまくいくことが最近証明された機械学習の一部門である。深層学習アルゴリズムは、一連の非線形変換の連続層を使用して、入力データにおける非線形構造をモデル化する。深層学習アルゴリズムは、画像及び音声分析タスクにおける成功により最近になって人気を博しているが、元々は数十年前に機械学習の文献において紹介されていた。これらのアルゴリズムは、主に多数のトレーニングラベルが利用可能であるタスクにおいてうまくいき、特徴エンジニアリングはドメイン専門家からの多くの努力を必要とすることが多い。
機械学習では、トレーニングラベルの品質と数とがアルゴリズムのパフォーマンスに大きく影響する。更に、多くの実用的な応用では、ラベル付けプロセスは、通常、ドメイン専門家による相当な努力を必要とする。したがって、機械学習アルゴリズムのパフォーマンスを最適化するために、このプロセスを最適化し、重要なデータインスタンスのみにラベルを付けるという自然な動機がある。能動学習はこの問題に注目し、最も有益なデータインスタンスがラベル付けされるように学習プロセスを誘導する。深層学習のコンテキストでは、アルゴリズムが採用する複雑な最適化プロセスのため、この問題は非常に難しい。
深層学習方法は、主に特定の教師付き(分類)損失関数の最適化に依存し、前述したように、多数のトレーニングデータが利用可能な場合にうまくいく。
したがって、ラベル付きトレーニングデータの大きいセットがない場合に、一貫して正確な結果を生成するように、深層学習アルゴリズムをトレーニングする手段が必要である。更に、ユーザ側の多大な努力を必要とせずに、深層学習アルゴリズムの進捗に関するユーザ入力を取得する手段も必要である。
本発明は、特許請求の範囲によって規定される。
本発明の一態様による例によれば、深層学習アルゴリズムを使用して入力データのセットを評価するコンピュータ実施方法が提供される。入力データは、1人の被験者の臨床データ、1人の被験者のゲノムデータ、複数の被験者の臨床データ及び複数の被験者のゲノムデータのうちの少なくとも1つを含む。方法は、
複数のデータクラスタに配置された生データを含む入力データのセットを取得するステップと、
複数のデータクラスタに基づいて、入力層、出力層及び複数の隠れ層を含む深層学習アルゴリズムを調整するステップと、
深層学習アルゴリズムを使用して生データに対して統計的クラスタリングを行い、統計クラスタを生成するステップと、
各統計クラスタから、クラスタ内に含まれる単一の臨床パラメータに関連するバイオマーカーであるマーカーを取得するステップと、
マーカーに基づいて入力データのセットを評価して、1人又は複数の被験者に関して医学的に関連するデータを導出するステップとを含み、
マーカーは、類似の状態及び/又は症状がある被験者から収集された過去の被験者データを参照して評価されて、被験者の生存率及び/又は効果的な治療方法が決定される。
この方法は、調整された深層学習アルゴリズムを使用して、入力被験者データのセットを評価して、被験者に医学的に関連するデータを導出する。深層学習アルゴリズムは、その精度を高めるために、入力データの既存のデータクラスタに基づいて調整される。入力データ、例えば被験者の臨床データ及びゲノムデータに基づいて調整を行うことにより、深層学習アルゴリズムは、生データの統計的クラスタリングをより正確に行うことができる。
マーカーが各統計クラスタから取得され、入力データを評価するために使用されて、例えば生存率といった被験者に医学的に関連するデータが導出される。マーカーは、統計クラスタの主要変数であり、当該統計クラスタに含まれるデータを表すために使用される。
マーカーは、同様の状態及び/又は症状がある被験者から収集された過去の被験者データを参照して評価される。
幾つかの実施形態では、深層学習アルゴリズムを調整するステップは、
入力データのガウス平均幅を決定するステップと、
深層学習アルゴリズムの損失関数の収束率を決定するステップと、
ガウス平均幅及び収束率に基づいて隠れ層の数を選択するステップとを含む。
このようにして、深層学習アルゴリズムは、その損失関数に加えて、入力データの多様体構造を考慮して調整される。したがって、最適な数の隠れ層が選択され、深層学習アルゴリズムの精度が向上し、また、入力データの評価も向上する。
更なる実施形態では、ガウス幅の計算は、データクラスタのサイズ及びデータクラスタの数の少なくとも1つに基づいている。
このようにして、深層学習アルゴリズムの隠れ層の数は、入力データの多様体構造に基づいて選択され、これにより、深層学習アルゴリズムの精度が更に向上する。
ある構成では、深層学習アルゴリズムは、オートエンコーダである。
このようにして、深層学習アルゴリズムは、入力データのセットに対して教師なし学習を行い、入力データのセットの表現を学習することができる。オートエンコーダを使用することにより、ユーザは、深層学習アルゴリズムの学習プロセスを監督し、フィードバックを提供する必要がない。
幾つかの構成では、統計的クラスタリングを行うステップは、深層学習アルゴリズムの隠れ層を低次元表現と見なすステップを含む。
このようにして、隠れ層は、主要変数のセットを使用して表すことができ、これにより、入力データのセットで深層学習アルゴリズムを動作させるのに必要な処理能力が削減される。
一実施形態では、統計的クラスタリングは、k平均クラスタリングである。
生データに対してk平均クラスタリングを行うことにより、k個の統計クラスタが生成されて、生データ点がデータ空間内のその位置に従ってグループ化される。このようにして、類似のデータ点を迅速かつ効率的にグループ化することができる。
ある構成では、入力データのセットを評価するステップは、被験者の生存率を予測するステップを含む。
統計クラスタから取得されたマーカーを使用して、当該マーカーを類似の状態及び/又は症状がある過去の被験者から収集されたデータと比較することにより、被験者の生存率を予測することができる。
一実施形態では、統計的クラスタリングは、深層学習アルゴリズムの隣接する隠れ層間で行われる。
隣接する層を使用することにより、データグループの階層配置に関連するクラスタの様々な構造を特定することができる。例えばがんのクラス階層では、高レベルのクラスタ構造は、2つのグループ、即ち、がんの被験者のグループと、健康な被験者のグループとを含むことができる。一方で、より詳細なクラスタ構造は、がんの各種類を異なるクラスタに含めることができる。深層学習アルゴリズムのアーキテクチャは、より一般的な構造に関連する入力データにより近い層でそのような階層関係を捕捉することができる一方で、より深い層はより詳細なクラスタ関係を捕捉することができることが知られている。
一実施形態では、方法は更に、
入力データのセット内では異なるデータクラスタに属するが、統計学的クラスタリングを行った後は同じ統計クラスタに属する生データ点のペアを含むインスタンスペアを統計クラスタ内で特定するステップと、
入力データにおける生データ点のペア間の角度に従って、インスタンスペアをランク付けするステップと、
インスタンスペアをユーザに提示するステップと、
ユーザから、インスタンスペアを一緒にクラスタすべきであるかどうかを示すユーザ入力を取得するステップと、
ユーザ入力に基づいて深層学習アルゴリズムを調整するステップとを含む。
インスタンスペアは、2つの生データ点が、入力に近い隠れ層を使用した場合には元々異なるデータクラスタにクラスタされたが、例えばk平均クラスタリングによって、より深い隠れ層を使用する場合に同じ統計クラスタに取り込まれる境界線の場合である。
生データはデータ空間においてベクトル形式で表されるため、インスタンスのペア間の角度を使用して、ペアリングの可能性の尺度を決定することができる。つまり、2つのデータ点間の角度が大きいほど、それらがペアリングされる可能性は低くなる。これによれば、低い角度のインスタンスペアは、正しく一緒にクラスタされていると自動的に受け入れられるが、所定閾値を超える角度を有するインスタンスペアでは、ユーザはペアリングが正しいことを確認する必要がある。
境界線のペアリングの場合についてユーザから入力を取得し、当該ユーザ入力に基づいて深層学習アルゴリズムを調整することにより、深層学習アルゴリズムは、入力データをより正確にクラスタして解釈するようにトレーニングされる。これにより、入力データをより正確に評価して、被験者に関連する医学的に関連する情報を導出することができる。
更なる実施形態では、角度に対する閾値を使用して、ユーザに提示されるインスタンスペアの数を制限する。例えば前述の挙動を示す複数のインスタンスペア(入力に近い隠れ層を使用した場合に最初は異なるデータクラスタにクラスタされ、より深い隠れ層を使用した場合に同じ統計クラスタに取り込まれる)の場合を考える。これらの複数のインスタンスペアの角度は、範囲[0,π]内である。閾値は2π/3に設定され、つまり、この閾値を超える角度を有するインスタンスペアのみがユーザに表示される。或いは、閾値は[0,π]の範囲内の任意の角度に設定されてもよい。
このようにして、ユーザが管理不能なデータ量に晒されないようにし、また、深層学習アルゴリズムの調整に最も大きな影響を与えるインスタンスペアのみが提示されるようにすることができる。
本発明の一態様による例によれば、コンピュータ上で実行されると、上記方法を実施するコンピュータプログラムコード手段を含むコンピュータプログラムが提供される。
本発明の一態様による例によれば、深層学習アルゴリズムを使用して入力データのセットの評価を制御するコントローラが提供される。コントローラは、
複数のデータクラスタに配置された生データを含む入力データのセットを取得し、
複数のデータクラスタに基づいて、入力層、出力層及び複数の隠れ層を含む深層学習アルゴリズムを調整し、
深層学習アルゴリズムを使用して生データに対して統計的クラスタリングを行い、統計クラスタを生成し、
各統計クラスタから、クラスタ内に含まれる単一の臨床パラメータに関連するバイオマーカーであるマーカーを取得し、
マーカーに基づいて入力データのセットを評価する。入力データは、1人の被験者の臨床データ、1人の被験者のゲノムデータ、複数の被験者の臨床データ及び複数の被験者のゲノムデータのうちの少なくとも1つを含む。マーカーは、類似の状態及び/又は症状がある被験者から収集された過去の被験者データを参照して評価されて、被験者の生存率及び/又は効果的な治療方法が決定される。
一実施形態では、コントローラは更に、
入力データのガウス平均幅を計算し、
深層学習アルゴリズムの損失関数の収束率を計算し、
ガウス平均幅及び収束率に基づいて隠れ層の数を選択する。
ある構成では、コントローラは更に、
入力データのセット内では異なるデータクラスタに属するが、統計学的クラスタリングを行った後は同じ統計クラスタに属する生データのペアを含むインスタンスペアを統計クラスタ内で特定し、
入力データにおけるデータ点のペア間の角度に従って、インスタンスペアをランク付けし、
所定値よりも大きい角度を有するインスタンスペアについて、当該インスタンスペアをユーザに提示し、
ユーザから、インスタンスペアを一緒にクラスタすべきであるかどうかを示すユーザ入力を取得し、
ユーザ入力に基づいて深層学習アルゴリズムを調整する。
本発明の一態様による例によれば、データ分析システムが提供される。システムは、
入力データを格納するストレージデバイスと、
ストレージデバイスと通信する上記コントローラと、
コントローラと通信し、ユーザ入力を取得するユーザインターフェースと、
コントローラと通信し、ユーザに情報を表示する表示デバイスとを含む。
本発明の更に別の態様によれば、深層学習アルゴリズムを使用して入力データのセットを評価する方法が提供される。入力データは、1人の被験者の臨床データ、1人の被験者のゲノムデータ、複数の被験者の臨床データ及び複数の被験者のゲノムデータのうちの少なくとも1つを含む。方法は、
複数のデータクラスタに配置された生データを含む入力データのセットを取得するステップと、
複数のデータクラスタに基づいて、入力層、出力層及び複数の隠れ層を含む深層学習アルゴリズムを調整するステップと、
深層学習アルゴリズムを使用して生データに対して統計的クラスタリングを行い、統計クラスタを生成するステップと、
各統計クラスタから、マーカーを取得するステップと、
マーカーに基づいて入力データのセットを評価して、被験者に関して医学的に関連するデータを導出するステップとを含む。
本発明の更に別の態様によれば、深層学習アルゴリズムを使用して入力データのセットの評価を制御するコントローラが提供される。コントローラは、
複数のデータクラスタに配置された生データを含む入力データのセットを取得し、
複数のデータクラスタに基づいて、入力層、出力層及び複数の隠れ層を含む深層学習アルゴリズムを調整し、
深層学習アルゴリズムを使用して生データに対して統計クラスタリングを行い、統計クラスタを生成し、
各統計クラスタからマーカーを取得し、
マーカーに基づいて入力データのセットを評価する。
本発明のこれらの態様及び他の態様は、以下に説明される実施形態から明らかになり、また、当該実施形態を参照して説明される。
本発明の例は、添付図面を参照して詳細に説明される。
図1は、本発明の方法を示す。 図2は、入力データのセットで動作するオートエンコーダの視覚的表現を示す。 図3は、図1の方法を実行するデータ分析システムを示す。
本発明の実施形態は、深層学習アルゴリズムを使用して入力データのセットを評価する方法を提供する。入力データは、1人の被験者の臨床データ、1人の被験者のゲノムデータ、複数の被験者の臨床データ及び複数の被験者のゲノムデータのうちの少なくとも1つを含む。方法は、複数のデータクラスタに配置された生データを含む入力データのセットを取得するステップと、複数のデータクラスタに基づいて深層学習アルゴリズムを調整するステップとを含む。深層学習アルゴリズムは、入力層、出力層及び複数の隠れ層を含む。方法は更に、深層学習アルゴリズムを使用して生データに対して統計的クラスタリングを行い、それにより統計クラスタを生成するステップと、各統計クラスタからマーカーを取得するステップとを含む。最後に、入力データのセットはマーカーに基づいて評価されて、1人又は複数の被験者に関して医学的に関連するデータが導出される。
図1は、深層学習アルゴリズムを使用して被験者入力データのセットを評価する方法100を示す。
ステップ110において、入力データのセットが取得される。入力データは、複数のデータクラスタに配置された生データを含む。生データは、1人又は複数の被験者に関する医学的に意味のあるデータを導出するために評価される1人又は複数の被験者の臨床データ及びゲノムデータを含む。
例えばデータは評価されて、同じ症状又は状態を有する複数の被験者に対して被験者のデータを評価することにより、当該被験者の生存率が決定される。生の被験者データは、例えば被験者の年齢、血液検査結果、症状、過去に診断された状態等を含む。
ステップ120において、深層学習アルゴリズムは、入力データのセットの複数のデータクラスタに基づいて調整される。深層学習アルゴリズムは、入力層、出力層及び複数の隠れ層を含む。
深層学習アルゴリズムの調整には、入力データのガウス平均幅を決定することと、深層学習アルゴリズムの損失関数の収束率を決定することと、ガウス平均幅及び収束率に基づいて隠れ層の数を選択することとが含まれる。ガウス幅の計算は、データクラスタのサイズ及び/又はデータクラスタの数に基づいていてよい。
ガウス平均幅は、形式的にE[supx,y∈K<g,x-y>]と定義される。ここで、gは標準ガウスランダム変数である。直観的には、ガウス平均幅は、セットKのサイズの尺度を提供し、ガウス分布の混合、辞書ベースによって表されるスパース信号等といった特定の頻繁に使用されるデータ分布モデルについて計算することができる。
場合によっては、入力データの所与のセットの幾つかのガウス平均幅を決定するために、ガウス混合又はスパース辞書構造の式を使用してもよい。深層学習アルゴリズムの調整に使用するガウス平均幅の最終的な選択は、各幅の関連する収束率に基づいて行われる。
深層学習アルゴリズムは、幾つかの異なるアーキテクチャ選択肢でトレーニングすることができ、損失関数の収束率を基準として使用して最適なアーキテクチャを選択することができる。収束が速いほど、アーキテクチャが優れていることを意味する。
ステップ130において、深層学習アルゴリズムを使用して生データに対して統計的クラスタリングが行われて、統計クラスタが生成される。統計的クラスタリングでは、深層学習アルゴリズムの隠れ層を低次元表現と見なす。つまり、統計的クラスタリングを行うために隠れ層の主要変数が特定されて、必要な計算の数を減らすことができる。
統計的クラスタリング方法は、例えばk平均クラスタリングである。k平均クラスタリングは、ベクトル量子化方法であり、入力データといったベクトルの分布に基づいて確率密度関数をモデル化する。k平均クラスタリングは、入力データをk個の異なるクラスタにグループ化する。
生データのセット(x,x,…,x)を所与とし、各データ点がd次元の実ベクトルである場合、k平均クラスタリングは、n個のデータ点をk個のセットS={S,S,…,S}(kn)に分割して、クラスタ内の二乗和(WCSS)、つまり、分散を最小化することを目的とする。形式的には、以下を見つけることを目的とする。
Figure 0007271515000001
ここで、μは、セットSのデータ点の平均である。
統計的クラスタリングは、深層学習アルゴリズムの隣接する隠れ層間で行われる。隣接する層を使用することにより、データグループの階層配置に関連するクラスタの様々な構造を特定することができる。例えばがんのクラス階層では、高レベルのクラスタ構造は、2つのグループ、即ち、がんの被験者のグループと、健康な被験者のグループとを含むことができる。一方で、より詳細なクラスタ構造は、がんの各種類を異なるクラスタに含めることができる。深層学習アルゴリズムのアーキテクチャは、より一般的な構造に関連する入力データにより近い層でそのような階層関係を捕捉することができる一方で、より深い層はより詳細なクラスタ関係を捕捉することができることが知られている。
方法は、ステップ130において行われた統計的クラスタリングに続いて、深層学習アルゴリズムを調整するための幾つかの追加のステップを含んでよい。
ステップ131において、統計クラスタ内でインスタンスペアが特定される。インスタンスペアは、入力データの元のセットでは異なるデータクラスタに属するが、総計的クラスタリングを行った後は同じ統計クラスタに属する生データ点のペアとして定義される。
ステップ133において、インスタンスペアは、入力データ内のデータ点のペア間の角度に従ってランク付けされる。角度は、各ネットワーク層によって誘導されるベクトル表現を使用して測定することができる。
ステップ135において、閾値角度よりも大きい角度を有するインスタンスペアについて、当該インスタンスペアがユーザに提示される。角度の閾値は、ユーザが晒されるデータ量を制限するために設定される。例えば前述の挙動を示す複数のインスタンスペア(入力に近い隠れ層を使用した場合に最初は異なるデータクラスタにクラスタされ、より深い隠れ層を使用した場合に同じ統計クラスタに取り込まれる)の場合を考える。これらの複数のインスタンスペアの角度は、範囲[0,π]内である。閾値は2π/3に設定され、つまり、この閾値を超える角度を有するインスタンスペアのみがユーザに表示される。或いは、閾値は[0,π]の範囲内の任意の角度に設定されてもよい。
ステップ137において、インスタンスペアが一緒にクラスタされるべきかどうかを示すユーザ入力がユーザから取得される。
入力データセットでの角度に基づいて、ペアリングされる可能性が低いと考えられるインスタンスペアについては、ユーザは、ペアリングが正しいかどうかを示す入力を提供する。このようにして、深層学習アルゴリズムは、熟練のユーザから監視付き入力を受信して、アルゴリズムの精度を高めることができる。
ステップ139において、深層学習アルゴリズムは、ユーザ入力に基づいて調整される。
ユーザ入力に基づいて深層学習アルゴリズムを調整することにより、深層学習アルゴリズムは、ユーザからの追加の入力を必ずしも必要とすることなく、将来の方法の繰り返しにおいて同様のインスタンスペアをより正確に評価することができる。このようにして、深層学習アルゴリズムはより正確かつ効率的になる。
ステップ140において、深層学習アルゴリズムにより生成された各統計クラスタからマーカーが取得される。入力データは、1人又は複数の被験者の臨床データ及び/又はゲノムデータを含むため、マーカーは、所与のクラスタ内に含まれる単一の臨床パラメータに関連するバイオマーカーであってよい。
マーカーは、どのマーカーが過去に重要な被験者評価点として機能していたかを決定するために、過去の被験者記録と比較することができる。このようにして、これらの評価点を優先的に特定及び評価するように、深層学習アルゴリズムをトレーニングすることができる。これは、被験者について入手可能であるデータ量が少ない場合や、入力データの大部分がラベル付けされていない場合に特に重要である。
ステップ150において、入力データのセットがマーカーに基づいて評価されて、1人又は複数の被験者に関して医学的に関連するデータが導出される。
マーカーは、被験者の医学的に関連するデータ、例えば被験者の生存率を導出するために評価される。被験者の生存率は、マーカーを、類似の状態及び/又は症状がある他の被験者から収集された病歴データと比較することにより評価される。或いは、過去の被験者データには、様々な治療方法及び既知の状態の治療におけるそれらの有効性が含まれてよい。このように、評価は、被験者の状態に対する効果的な治療方法を示す場合もある。
図2は、入力データのセット220に対してk平均クラスタリングを行うオートエンコーダ210の視覚的表現200を示す。入力データ220は、ボロノイ図で表される複数のデータクラスタ240に配置された生データ点230を含むことが分かる。
この例では、深層学習アルゴリズムは、オートエンコーダ210である。オートエンコーダは、教師なし特徴学習に使用される人工ニューラルネットワークである。オートエンコーダは、入力層250、複数の隠れ層260及び出力層270を含む。
前述したように、オートエンコーダ210の隠れ層260は、入力データに基づいて調整される(280)。例えばこの場合、元の入力データに3つのデータクラスタがあるため、オートエンコーダの隠れ層の数は3に設定される。或いは、隠れ層は、各データクラスタのサイズに基づいて調整されてもよい。
オートエンコーダの調整に続いて、生データ230は入力層250に渡される。次に、生データは、隠れ層260を介して出力層270に渡される。出力層には、入力層と同数のノードがあるため、単に生データを新しい統計クラスタ290に再構成するように作用する。
この例では、統計クラスタ290は、入力データ220のデータクラスタ240とほぼ同様である。しかし、1つのデータ点300がクラスタを変更したことが分かる。このデータ点は、新しいクラスタ内の他のデータ点とインスタンスペア310を形成する。これらのインスタンスペアは、入力データセットにおける元のデータ点のデータ点間の角度に従ってランク付けされる。所与の閾値角度を超えるインスタンスペアがユーザに提示されて、これらのデータ点の新しいクラスタリングが正しいかどうかに関するユーザフィードバックが取得される。その後、オートエンコーダはユーザのフィードバックに基づいて調整される。
図3は、データ分析システム400の一例を示す。データ分析システムは、入力データを格納するストレージデバイス410と、ストレージデバイスと通信するコントローラ420と、コントローラと通信し、ユーザ入力を取得するユーザインターフェース430と、コントローラと通信し、ユーザに情報を表示する表示デバイス440とを含む。
前述したように、実施形態は、コントローラ420を使用してデータ処理ステップを行う。
コントローラは、必要な様々な機能を行うようにソフトウェア及び/又はハードウェアを使用して様々なやり方で実現することができる。プロセッサは、必要な機能を行うようにソフトウェア(例えばマイクロコード)を使用してプログラムされた1つ以上のマイクロプロセッサを使用するコントローラの一例である。しかし、コントローラは、プロセッサを使用しても使用しなくても実現することができ、また、幾つかの機能を行う専用ハードウェアと、他の機能を行うプロセッサ(例えば1つ以上のプログラムされたマイクロプロセッサと関連回路)との組み合わせとして実現することもできる。
本開示の様々な実施形態で使用できるコントローラコンポーネントの例には、従来のマイクロプロセッサ、特定用途向け集積回路(ASIC)及びフィールドプログラマブルゲートアレイ(FPGA)が含まれるが、これらに限定されない。
様々な実施態様において、プロセッサ又はコントローラは、RAM、PROM、EPROM及びEEPROMといった揮発性及び不揮発性コンピュータメモリといった1つ以上の記憶媒体410に関連付けられてよい。記憶媒体は、1つ以上のプロセッサ及び/又はコントローラ上で実行されると、必要な機能を行う1つ以上のプログラムでエンコードされてよい。様々な記憶媒体は、プロセッサ又はコントローラ内に固定されてもよく、又は、そこに記憶された1つ以上のプログラムをプロセッサ又はコントローラにロードできるように運搬可能であってもよい。
ユーザインターフェース430は、マウス、キーボード又はユーザ入力を取得する任意の他の適切な手段を含んでよい。表示デバイス440は、スクリーンを含んでよい。
開示された実施形態に対する他の変形は、図面、開示及び添付の特許請求の範囲の検討から、請求された発明を実施する際に当業者によって理解及び達成されうる。請求項において、「含む」との用語は、他の要素又はステップを除外せず、単数形は複数を除外しない。特定の手段が相互に異なる従属請求項に記載されているというだけで、これらの手段の組み合わせを有利に使用することができないことを示すものではない。請求項中の参照符号は、範囲を限定するものとして解釈されるべきではない。

Claims (15)

  1. 深層学習アルゴリズムを使用して入力データのセットを評価するコンピュータ実施の方法であって、
    前記入力データは、1人の被験者の臨床データ、1人の被験者のゲノムデータ、複数の被験者の臨床データ及び複数の被験者のゲノムデータのうちの少なくとも1つを含み、
    前記方法は、
    複数のデータクラスタに配置された生データを含む入力データのセットを取得するステップと、
    前記複数のデータクラスタに基づいて、入力層、出力層及び複数の隠れ層を含む前記深層学習アルゴリズムを調整するステップと、
    前記深層学習アルゴリズムを使用して前記生データに対して統計的クラスタリングを行い、統計クラスタを生成するステップと、
    各統計クラスタから、クラスタ内に含まれる単一の臨床パラメータに関連するバイオマーカーであるマーカーを取得するステップと、
    前記マーカーに基づいて前記入力データのセットを評価して、1人又は複数の被験者に関して医学的に関連するデータを導出するステップと、
    を含み、
    前記マーカーは、類似の状態及び/又は症状がある被験者から収集された過去の被験者データを参照して評価されて、前記被験者の生存率及び/又は効果的な治療方法が決定される、方法。
  2. 前記深層学習アルゴリズムを調整するステップは、
    前記入力データのガウス平均幅を決定するステップと、
    前記深層学習アルゴリズムの損失関数の収束率を決定するステップと、
    前記ガウス平均幅及び前記収束率に基づいて前記隠れ層の数を選択するステップと、
    を含む、請求項1に記載の方法。
  3. 前記ガウス平均幅を決定するステップは、前記データクラスタのサイズ及び前記データクラスタの数の少なくとも1つに基づく、請求項2に記載の方法。
  4. 前記深層学習アルゴリズムは、オートエンコーダである、請求項1から3のいずれか一項に記載の方法。
  5. 記統計的クラスタリングを行うために前記隠れ層の主要変数が特定されて、必要な計算の数が低減される、請求項1から4のいずれか一項に記載の方法。
  6. 前記統計的クラスタリングは、k平均クラスタリングである、請求項1から5のいずれか一項に記載の方法。
  7. 前記入力データのセットを評価することは、前記被験者の生存率を予測することを含む、請求項1から6のいずれか一項に記載の方法。
  8. 前記統計的クラスタリングは、前記深層学習アルゴリズムの隣接する隠れ層間で行われる、請求項1から7のいずれか一項に記載の方法。
  9. 前記入力データのセットでは異なるデータクラスタに属するが、前記統計的クラスタリングを行った後は同じ統計クラスタに属する生データ点のペアを含むインスタンスペアを前記統計クラスタ内で特定するステップと、
    前記入力データにおける前記生データ点のペア間の角度に従って、前記インスタンスペアをランク付けするステップと、
    前記インスタンスペアをユーザに提示するステップと、
    前記ユーザから、前記インスタンスペアを一緒にクラスタすべきであるかどうかを示すユーザ入力を取得するステップと、
    前記ユーザ入力に基づいて前記深層学習アルゴリズムを調整するステップと、
    を更に含む、請求項1から8のいずれか一項に記載の方法。
  10. 前記角度に対する閾値を使用して、前記ユーザに提示されるインスタンスペアの数を制限する、請求項9に記載の方法。
  11. コンピュータ上で実行されると、請求項1から10のいずれか一項に記載の方法を実施するコンピュータプログラムコード手段を含む、コンピュータプログラム。
  12. 深層学習アルゴリズムを使用して入力データのセットの評価を制御するコントローラであって、前記コントローラは、
    複数のデータクラスタに配置された生データを含む入力データのセットを取得し、
    前記複数のデータクラスタに基づいて、入力層、出力層及び複数の隠れ層を含む前記深層学習アルゴリズムを調整し、
    前記深層学習アルゴリズムを使用して前記生データに対して統計的クラスタリングを行い、統計クラスタを生成し、
    各統計クラスタから、クラスタ内に含まれる単一の臨床パラメータに関連するバイオマーカーであるマーカーを取得し、
    前記マーカーに基づいて前記入力データのセットを評価し、
    前記入力データは、1人の被験者の臨床データ、1人の被験者のゲノムデータ、複数の被験者の臨床データ及び複数の被験者のゲノムデータのうちの少なくとも1つを含み、
    前記マーカーは、類似の状態及び/又は症状がある被験者から収集された過去の被験者データを参照して評価されて、前記被験者の生存率及び/又は効果的な治療方法が決定される、コントローラ。
  13. 前記入力データのガウス平均幅を決定し、
    前記深層学習アルゴリズムの損失関数の収束率を計算し、
    前記ガウス平均幅及び前記収束率に基づいて前記隠れ層の数を選択する、請求項12に記載のコントローラ。
  14. 前記入力データのセット内では異なるデータクラスタに属するが、前記統計的クラスタリングを行った後は同じ統計クラスタに属する生データのペアを含むインスタンスペアを前記統計クラスタ内で特定し、
    前記入力データにおけるデータ点のペア間の角度に従って、前記インスタンスペアをランク付けし、
    前記インスタンスペアをユーザに提示し、
    前記ユーザから、前記インスタンスペアを一緒にクラスタすべきであるかどうかを示すユーザ入力を取得し、
    前記ユーザ入力に基づいて前記深層学習アルゴリズムを調整する、請求項12又は13に記載のコントローラ。
  15. 入力データを格納するストレージデバイスと、
    前記ストレージデバイスと通信する請求項12から14のいずれか一項に記載のコントローラと、
    前記コントローラと通信し、ユーザ入力を取得するユーザインターフェースと、
    前記コントローラと通信し、ユーザに情報を表示する表示デバイスと、
    を含む、データ分析システム。
JP2020516541A 2017-09-20 2018-09-10 深層学習アルゴリズムを使用した入力データの評価 Active JP7271515B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17192217.2A EP3460723A1 (en) 2017-09-20 2017-09-20 Evaluating input data using a deep learning algorithm
EP17192217.2 2017-09-20
PCT/EP2018/074256 WO2019057529A1 (en) 2017-09-20 2018-09-10 EVALUATION OF INPUT DATA USING A DEEP LEARNING ALGORITHM

Publications (3)

Publication Number Publication Date
JP2020534614A JP2020534614A (ja) 2020-11-26
JP2020534614A5 JP2020534614A5 (ja) 2021-10-21
JP7271515B2 true JP7271515B2 (ja) 2023-05-11

Family

ID=59923348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020516541A Active JP7271515B2 (ja) 2017-09-20 2018-09-10 深層学習アルゴリズムを使用した入力データの評価

Country Status (5)

Country Link
US (2) US11842268B2 (ja)
EP (2) EP3460723A1 (ja)
JP (1) JP7271515B2 (ja)
CN (1) CN111108516B (ja)
WO (1) WO2019057529A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220076157A1 (en) * 2020-09-04 2022-03-10 Aperio Global, LLC Data analysis system using artificial intelligence

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007052774A (ja) 1995-07-25 2007-03-01 Ortho-Clinical Diagnostics Inc コンピュータ援用疾病診断方法
US20150242690A1 (en) 2013-02-08 2015-08-27 Brain Corporation Apparatus and methods for temporal proximity detection
JP2016218869A (ja) 2015-05-22 2016-12-22 富士通株式会社 設定方法、設定プログラム、及び設定装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4962475A (en) * 1984-12-26 1990-10-09 International Business Machines Corporation Method for generating a document utilizing a plurality of windows associated with different data objects
US4829294A (en) * 1986-06-25 1989-05-09 Hitachi, Ltd. Document processing method and system using multiwindow
US5367619A (en) * 1990-04-27 1994-11-22 Eaton Corporation Electronic data entry system employing an expert system to facilitate generation of electronic data forms with complex interrelationships between fields and subforms
US5640577A (en) * 1991-12-30 1997-06-17 Davox Corporation Data processing system with automated at least partial forms completion
US5845255A (en) * 1994-10-28 1998-12-01 Advanced Health Med-E-Systems Corporation Prescription management system
US5823948A (en) * 1996-07-08 1998-10-20 Rlis, Inc. Medical records, documentation, tracking and order entry system
CA2198189C (en) * 1997-02-21 2001-05-29 Ibm Canada Limited-Ibm Canada Limitee Internet browser based data entry architecture
US6006240A (en) * 1997-03-31 1999-12-21 Xerox Corporation Cell identification in table analysis
US6192380B1 (en) * 1998-03-31 2001-02-20 Intel Corporation Automatic web based form fill-in
US6112215A (en) * 1998-09-24 2000-08-29 International Business Machines Corporation Database or repetitively used data entries displayable for selection and entry on a variety of user interactive interfaces from sources independent of said database
US6910179B1 (en) * 1998-11-10 2005-06-21 Clarita Corporation Method and apparatus for automatic form filling
CA2430142A1 (en) 2000-12-07 2002-06-13 Phase It Intelligent Solutions Ag Expert system for classification and prediction of genetic diseases
US6981001B1 (en) * 2001-09-21 2005-12-27 Bellsouth Intellectual Property Corporation Method and systems for default mapping mechanization
US7673245B2 (en) * 2003-10-15 2010-03-02 Sap Aktiengesellschaft Converting user interface panels
CA3090413C (en) * 2004-06-04 2023-10-10 Abbott Diabetes Care Inc. Glucose monitoring and graphical representations in a data management system
US20060265249A1 (en) * 2005-05-18 2006-11-23 Howard Follis Method, system, and computer-readable medium for providing a patient electronic medical record with an improved timeline
US20080244453A1 (en) * 2007-04-01 2008-10-02 Jason Edward Cafer Iconic event timeline with latitude snapping and method for providing the same
GB2464677A (en) 2008-10-20 2010-04-28 Univ Nottingham Trent A method of analysing data by using an artificial neural network to identify relationships between the data and one or more conditions.
US8788287B2 (en) * 2009-11-25 2014-07-22 General Electric Company Systems, apparatus, and methods for developing patient medical history using hierarchical relationships
CN101814160A (zh) * 2010-03-08 2010-08-25 清华大学 一种基于特征聚类的rbf神经网络建模方法
WO2013075000A1 (en) * 2011-11-16 2013-05-23 University Of North Dakota Clustering copy-number values for segments of genomic data
US9466024B2 (en) * 2013-03-15 2016-10-11 Northrop Grumman Systems Corporation Learning health systems and methods
WO2016094330A2 (en) 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
US9846938B2 (en) * 2015-06-01 2017-12-19 Virtual Radiologic Corporation Medical evaluation machine learning workflows and processes
AU2016201298A1 (en) * 2016-02-29 2017-09-14 Biomediq A/S Computer analysis of mammograms
US10252145B2 (en) * 2016-05-02 2019-04-09 Bao Tran Smart device
CN106650948A (zh) * 2016-12-09 2017-05-10 曙光信息产业(北京)有限公司 一种机器学习中避免大数据冗余的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007052774A (ja) 1995-07-25 2007-03-01 Ortho-Clinical Diagnostics Inc コンピュータ援用疾病診断方法
US20150242690A1 (en) 2013-02-08 2015-08-27 Brain Corporation Apparatus and methods for temporal proximity detection
JP2016218869A (ja) 2015-05-22 2016-12-22 富士通株式会社 設定方法、設定プログラム、及び設定装置

Also Published As

Publication number Publication date
US20200251224A1 (en) 2020-08-06
US11842268B2 (en) 2023-12-12
US20230342601A1 (en) 2023-10-26
WO2019057529A1 (en) 2019-03-28
CN111108516A (zh) 2020-05-05
EP3460723A1 (en) 2019-03-27
JP2020534614A (ja) 2020-11-26
CN111108516B (zh) 2024-03-29
EP3685317A1 (en) 2020-07-29

Similar Documents

Publication Publication Date Title
CN110832499B (zh) 通过稀疏时间池化网络的弱监督动作定位
Angra et al. Machine learning and its applications: A review
US20150063713A1 (en) Generating a hierarchy of visual pattern classes
Bihis et al. A generalized flow for multi-class and binary classification tasks: An Azure ML approach
WO2013067461A2 (en) Identifying associations in data
US11556567B2 (en) Generating and visualizing bias scores representing bias in digital segments within segment-generation-user interfaces
US10511681B2 (en) Establishing and utilizing behavioral data thresholds for deep learning and other models to identify users across digital space
US10748555B2 (en) Perception based multimedia processing
Pimentel et al. A meta-learning approach for recommending the number of clusters for clustering algorithms
US11037073B1 (en) Data analysis system using artificial intelligence
JP6172317B2 (ja) 混合モデル選択の方法及び装置
US20230342601A1 (en) Evaluating input data using a deep learning algorithm
Siddalingappa et al. Anomaly detection on medical images using autoencoder and convolutional neural network
Lorbach et al. Interactive rodent behavior annotation in video using active learning
Liu et al. Deep learning and collaborative filtering-based methods for students’ performance prediction and course recommendation
Lim et al. Memetic algorithm for multivariate time-series segmentation
Geng et al. Bayesian spatial homogeneity pursuit for survival data with an application to the SEER respiratory cancer data
Kang et al. Semi-supervised rotation-invariant representation learning for wafer map pattern analysis
Parker et al. Nonlinear time series classification using bispectrum‐based deep convolutional neural networks
US20230049418A1 (en) Information quality of machine learning model outputs
Cornforth et al. Cluster evaluation, description, and interpretation for serious games: player profiling in Minecraft
Gupta et al. Gradient self-weighting linear collaborative discriminant regression classification for human cognitive states classification
Djouvas et al. Mining online political opinion surveys for suspect entries: An interdisciplinary comparison
CN113496222B (zh) 基于无标签图表数据的模式识别方法、装置和计算机设备
US20230094355A1 (en) System and method for enforcing monotonicity in a neural network architecture

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210907

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230426

R150 Certificate of patent or registration of utility model

Ref document number: 7271515

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150