JP7337788B2

JP7337788B2 - 機械学習法において使用するゲノムの発見

Info

Publication number: JP7337788B2
Application number: JP2020524696A
Authority: JP
Inventors: ポールグルーシー; ティモシーバートン; アリコーソウシ; アビナヴドゥームラ; サニーグプタ
Original assignee: アナリティクスフォアライフインコーポレイテッド
Priority date: 2017-07-18
Filing date: 2018-07-18
Publication date: 2023-09-04
Anticipated expiration: 2038-07-18
Also published as: WO2019016608A1; CN111095232A; US11062792B2; JP2020530933A; US20190026431A1; EP3655894A1; EP3655894A4; US20220093215A1; CA3069833A1; CN111095232B

Description

〔関連出願との相互参照〕
本出願は、２０１８年７月１８日に出願された米国特許出願第１５／６５３,４４１号に対する優先権を主張するものであり、この文献はその全体が引用により本明細書に組み入れられる。

〔関連出願〕
本出願は、２０１３年８月１９日に出願された「心臓血管系を特性化する非侵襲的方法及びシステム（ＮＯＮ－ＩＮＶＡＳＩＶＥＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＣＨＡＲＡＣＴＥＲＩＺＩＮＧＣＡＲＤＩＯＶＡＳＣＵＬＡＲＳＹＳＴＥＭＳ）」という名称の米国特許出願第１３／９７０，５８０号～現米国特許第９，２８９，１５０号、２０１６年３月４日に出願された「心臓血管系を特性化する非侵襲的方法及びシステム」という名称の米国特許出願第１５／０６１，０９０号、２０１７年５月５日に出願された「心臓血管系を特性化する非侵襲的方法及びシステム」という名称の米国特許出願第１５／５８８，１４８号、２０１２年９月６日に出願された「電気生理学的信号を評価するシステム及び方法（ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＦＯＲＥＶＡＬＵＡＴＩＮＧＡＮＥＬＥＣＴＲＯＰＨＹＳＩＯＬＯＧＩＣＡＬＳＩＧＮＡＬ）」という名称の米国特許出願第１３／６０５，３６４号～現米国特許第８，９２３，９５８号、２０１３年８月１９日に出願された「全死因死亡率及び突然心臓死リスクのための、心臓血管系を特性化する非侵襲的方法及びシステム（ＮＯＮ－ＩＮＶＡＳＩＶＥＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＣＨＡＲＡＣＴＥＲＩＺＩＮＧＣＡＲＤＩＯＶＡＳＣＵＬＡＲＳＹＳＴＥＭＳＦＯＲＡＬＬ－ＣＡＵＳＥＭＯＲＴＡＬＩＴＹＡＮＤＳＵＤＤＥＮＣＡＲＤＩＡＣＤＥＡＴＨＲＩＳＫ）」という名称の米国特許出願第１３／９７０，５８２号～現米国特許第９，４０８，５４３号、２０１６年７月１１日に出願された「全死因死亡率及び突然心臓死リスクのための、心臓血管系を特性化する非侵襲的方法及びシステム」という名称の米国特許出願第１５／２０７，２１４号、２０１４年６月４日に出願された「哺乳類の心室サイズ及び力学的機能を推定するための非侵襲的心電図法（ＮＯＮＩＮＶＡＳＩＶＥＥＬＥＣＴＲＯＣＡＲＤＩＯＧＲＡＰＨＩＣＭＥＴＨＯＤＦＯＲＥＳＴＩＭＡＴＩＮＧＭＡＭＭＡＬＩＡＮＣＡＲＤＩＡＣＣＨＡＭＢＥＲＳＩＺＥＡＮＤＭＥＣＨＡＮＩＣＡＬＦＵＮＣＴＩＯＮ）」という名称の米国特許出願第１４／２９５，６１５号、２０１３年１１月１２日に出願された「哺乳類の心室サイズ及び力学的機能を推定する非侵襲的心電図法」という名称の米国特許出願第１４／０７７，９９３号、２０１５年１月１４日に出願された「ブドウ糖、糖化ヘモグロビン及びその他の血液成分を推定する非侵襲的方法（ＮＯＮＩＮＶＡＳＩＶＥＭＥＴＨＯＤＦＯＲＥＳＴＩＭＡＴＩＮＧＧＬＵＣＯＳＥ，ＧＬＹＣＯＳＹＬＡＴＥＤＨＥＭＯＧＬＯＢＩＮＡＮＤＯＴＨＥＲＢＬＯＯＤＣＯＮＳＴＩＴＵＥＮＴＳ）」という名称の米国特許出願第１４／５９６，５４１号～現米国特許第９，５９７，０２１号、２０１７年３月１６日に出願された「ブドウ糖、糖化ヘモグロビン及びその他の血液成分を推定する非侵襲的方法」という名称の米国特許出願第１５／４６０，３４１号、２０１５年２月１２日に出願された「単一チャネルデータから心臓血管系を特性化する方法及びシステム（ＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＣＨＡＲＡＣＴＥＲＩＺＩＮＧＣＡＲＤＩＯＶＡＳＣＵＬＡＲＳＹＳＴＥＭＳＦＲＯＭＳＩＮＧＬＥＣＨＡＮＮＥＬＤＡＴＡ）」という名称の米国特許出願第１４／６２０，３８８号、２０１６年６月２４日に出願された「数理解析及び機械学習を使用して病気を診断する方法及びシステム（ＭＥＴＨＯＤＳＡＮＤＳＹＳＴＥＭＳＵＳＩＮＧＭＡＴＨＥＭＡＴＩＣＡＬＡＮＡＬＹＳＩＳＡＮＤＭＡＣＨＩＮＥＬＥＡＲＮＩＮＧＴＯＤＩＡＧＮＯＳＥＤＩＳＥＡＳＥ）」という名称の米国特許出願第１５／１９２，６３９号、２０１６年８月２６日に出願された「生理学的信号取得装置（ＢＩＯＳＩＧＮＡＬＡＣＱＵＩＳＩＴＩＯＮＤＥＶＩＣＥ）」という名称の米国特許出願第１５／２４８，８３８号、２０１６年９月２１日に出願された「心臓位相空間断層撮影のためのグラフィカルユーザインターフェイス（ＧＲＡＰＨＩＣＡＬＵＳＥＲＩＮＴＥＲＦＡＣＥＦＯＲＣＡＲＤＩＡＣＰＨＡＳＥ－ＳＰＡＣＥＴＯＭＯＧＲＡＰＨＹ）」という名称の米国仮特許出願第６２／３９７，８９５号、２０１７年６月２６日に出願された「心筋虚血の測定、狭窄の同定、定位、及び冠血流予備量比推定のための非侵襲的方法及びシステム（ＮＯＮ－ＩＮＶＡＳＩＶＥＭＥＴＨＯＤＡＮＤＳＹＳＴＥＭＦＯＲＭＥＡＳＵＲＩＮＧＭＹＯＣＡＲＤＩＡＬＩＳＣＨＥＭＩＡ，ＳＴＥＮＯＳＩＳＩＤＥＮＴＩＦＩＣＡＴＩＯＮ，ＬＯＣＡＬＩＺＡＴＩＯＮＡＮＤＦＲＡＣＴＩＯＮＡＬＦＬＯＷＲＥＳＥＲＶＥＥＳＴＩＭＡＴＩＯＮ）」という名称の米国特許出願第１５／６３３，３３０号、並びに本出願と同時に出願された「病状診断のための機械学習法などの機械学習法において使用される新規特徴の発見（ＤＩＳＣＯＶＥＲＩＮＧＮＯＶＥＬＦＥＡＴＵＲＥＳＴＯＵＳＥＩＮＭＡＣＨＩＮＥＬＥＡＲＮＩＮＧＴＥＣＨＮＩＱＵＥＳ，ＳＵＣＨＡＳＭＡＣＨＩＮＥＬＥＡＲＮＩＮＧＴＥＣＨＮＩＱＵＥＳＦＯＲＤＩＡＧＮＯＳＩＮＧＭＥＤＩＣＡＬＣＯＮＤＩＴＩＯＮＳ）」という名称の米国特許出願第１５／６５３，４３３号に関連する。上述した各出願及び交付済み特許は、その全体が引用により本明細書に組み入れられる。

機械学習法は、入力データセットに基づいて結果を予測する。例えば、機械学習法は、天候パターンや地質学的活動の予測、及び医療診断の提供などのために使用されている。機械学習法は、それぞれが何らかの測定可能な測定データの態様を表す訓練データセット（すなわち、それぞれ予測すべき結果が既知である測定データセット）を使用して生成された一連の特徴に依拠して、１又は２以上の予測モデルの生成及び調整を行う。例えば、測定信号（例えば、複数の被験者からの心拍信号）を分析して、これらの信号に関する周波数、平均値及びその他の統計情報を収集することができる。機械学習法は、これらの特徴を使用して、冠動脈疾患（ＣＡＤ）を含む何らかの形の心臓血管疾患（ＣＶＤ）などの１又は２以上の状態にこれらの特徴を関連付けるモデルの生成及び調整を行い、診断未確定の患者又は将来的天候パターンなどの未知の結果を有するデータソースにこのモデルを適用することができる。従来、これらの特徴は、領域専門家と共に働くデータサイエンティストによって手動で選択され組み合わされてきた。

ＣｈｒｉｓｔｏｐｈｅｒＭ．Ｂｉｓｈｏｐ著、「パターン認識及び機械学習（ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎａｎｄＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）」、２００６年、（米国議会図書館管理番号：２００６９２２５２２；ＩＳＢＮ－１０：０－３８７－３１０７３－８）

機械学習法は、特徴及び／又は特徴の組み合わせに依拠するので、通常は、特徴の選択及び組み合わせプロセスが機械学習プロセスの重要な部分である。さらに、多くの多様な機械学習アルゴリズム（例えば、決定木、人工神経ネットワーク（ＡＮＮ）、深層ＡＮＮ、遺伝的（及び後遺伝的）アルゴリズムなど）が存在するので、アルゴリズム及びあらゆる関連パラメータの選択も重要となり得る。例えば、データタイプ及び／又は行うべき予測のタイプが異なれば、最適な機械学習アルゴリズム（又は機械学習アルゴリズム群）も異なることができる。さらに、異なる機械学習アルゴリズムは、リソース（例えば、メモリ、プロセッサの利用)、速度及び精度などに関する様々なトレードオフを示すことができる。通常、モデルは、個人が自身の好み及び／又は自身の指定基準に基づいて選択した機械学習アルゴリズム、特徴及びパラメータを使用して訓練される。本発明者らは、特徴、機械学習アルゴリズム及び対応するパラメータを手動で識別することにはコストと時間が掛かり、より正確なモデル、従ってより正確な予測をもたらす特徴、機械学習アルゴリズム及び対応するパラメータを生成することは困難であると分かった。従って、本発明者らは、特徴、機械学習アルゴリズム及び／又は機械学習パラメータの組み合わせの自動発見を行う施設を開業することを想起してこれに帰着した。

いくつかの実施形態では、この施設が、時系列信号及び／又は生理学的信号などの他の信号に基づいて病気診断などのための予測モデルを構築して評価する機械学習パイプラインの一部として動作する。機械学習プロセスは、特徴を使用して訓練データセット内のパターンを識別し、これらのパターンに基づいて予測モデルを生成する。これらの予測モデルを、検証データセット（すなわち、結果は既知であるがモデルの訓練には使用されなかったデータセット）を使用して検証し、病状の診断を行うことなどの入力データからの結果を予測するために新たな入力データに適用することができる。新たなデータ及び新たな特徴が生成又は取得されると、機械学習プロセスは、新たな特徴を組み入れ、場合によっては他の特徴に似すぎていると判断されるような他の特徴を廃棄することによって、これらのモデルの予測能力を改善する。

とりわけ、施設は、それぞれを１又は２以上のモデルの訓練に使用できる特徴及び機械学習アルゴリズムパラメータの組み合わせを識別しようと努める。本明細書では、特徴及び／又は機械学習パラメータの組み合わせを「ゲノム」と呼ぶことがある。施設は、機械学習アルゴリズム及びこのゲノムを使用して訓練されたモデルの能力に基づいて各ゲノムを評価し、例えば検証データセットに適用された時に、訓練モデル及びモデルを訓練するために使用される対応するゲノムの適合性スコア又は検証スコアを生成することによって正確な結果を生成する。いくつかの例では、施設が検証スコアを適合性スコアとして使用し、他の例では、検証スコアが適合性スコアの要素である（例えば、適合性スコア＝訓練スコア＋検証スコア）。いくつかの例では、ゲノムを使用して複数のモデルを訓練し、結果として得られた適合性スコアを集約してゲノムの集約的適合性スコアを生成することができる。

いくつかの実施形態における、施設の動作環境を示すブロック図である。いくつかの実施形態における、特徴発見コンポーネントの処理を示すフロー図である。いくつかの実施形態における、処理コンポーネントの処理を示すフロー図である。いくつかの実施形態における、特徴生成器適用コンポーネントの処理を示すフロー図である。いくつかの実施形態における、新規特徴ベクトル識別コンポーネントの処理を示すフロー図である。いくつかの実施形態による、ゲノム発見コンポーネントの処理を示すフロー図である。いくつかの実施形態による、ゲノム生成コンポーネントの処理を示すフロー図である。いくつかの実施形態による、高性能ゲノム識別コンポーネントの処理を示すフロー図である。

一例として、特徴及び機械学習アルゴリズムパラメータの組み合わせを識別する施設は、医療診断予測モデリングタスクに使用することができる。この例では、施設が、複数の患者又は被験者について、（例えば、１秒未満、約数秒、約１０秒、約３０秒、及び最大約５分、約１時間又はそれ以上などの）一定期間にわたる何らかのタイプの患者の生理学的出力又は状態に関連する、脳波図などの１又は２以上の生理学的データセットを受け取る。これらのデータは、施設の動作と同時又はほぼ同時にリアルタイム又は近リアルタイムで受け取ることも、或いはそれ以前に受け取ることもできる。いくつかの例では、施設が、各患者からの信号が安定・一貫した初期状態において開始することを確実にするように、信号のいくつかの部分を廃棄する。さらに、データを正規化して、潜在的に誤解を与える情報を削除することもできる。例えば、施設は、センサの接触又は他の非生理学的データに起因する信号強度の変動を考慮するように、信号データの振幅を正規化（例えば、ｚスコアに変換）することができる。別の例として、心臓信号の場合には、施設がピーク検索を実行し、信号内で識別される最初の心拍前、及び信号内で識別される最後の心拍後のあらゆるデータを廃棄することができる。

いくつかの実施形態では、施設が一連の信号に一連の特徴生成器を適用して、信号と特徴生成器との組み合わせ毎に信号の特徴値を生成する。従って、各特徴値は、基礎となる信号データの何らかの特性を表す。１つの例では、施設が、１０００人の患者のそれぞれの患者データを受け取り、これらのデータに１又は２以上の特徴生成器を適用して、１人の患者のデータに対する特徴生成器の適用毎に特徴値（又は一連の特徴値）を生成する。施設は、特徴ベクトルが１人の患者につき１つの特徴値を記憶するように、単一の特徴生成器が「特徴ベクトル」内に生成した特徴値を収集する。特徴ベクトルが生成されると、これらを比較して、それぞれが他の各特徴ベクトルに対してどのように異なるかを判断することができる。施設は、各特徴ベクトルの距離メトリックを計算して、対応する特徴生成器の新規性を評価する。施設は、評価された新規性に基づいて、（１）提供された特徴生成器を新たな予測モデルの基礎とする目的で、新規特徴ベクトルを生成した特徴生成器を機械学習プロセスに提供し、（２）これらの特徴生成器を修正して新たな世代の特徴生成器を形成する。施設は、この進化過程を繰り返して、機械学習プロセスが使用するためのさらなる新規特徴を識別する。

いくつかの実施形態では、施設が、受け取ったデータセット毎に、データから異なる１又は２以上の値の組を計算又は識別する。例えば、心電図の一部として生成されたデータの場合、施設は、データ内の大域的及び局所的最大値及び最小値を識別し、データから周波数／期間情報を計算し、一定期間にわたるデータの平均値（例えば、ＱＲＳ複合中に生成された平均期間及び値）を計算することなどを行う。いくつかの例では、施設が、受け取ったデータを変換し、変換されたデータから１又は２以上の値の組を抽出する。施設は、受け取った信号データを、データの１又は２以上の（連続）導関数を取ること、データの１又は２以上の部分導関数を取ること、データを統合すること、データの勾配を計算すること、データに関数を適用すること、フーリエ変換を適用すること、線形変換又は行列変換を適用すること、トポロジーメトリック（ｔｏｐｏｌｏｇｙｍｅｔｒｉｃｓ）／特徴を生成すること、計算幾何学メトリック（ｃｏｍｐｕｔａｔｉｏｎａｌｇｅｏｍｅｔｒｙｍｅｔｒｉｃｓ）／特徴を生成すること、及び微分多様体メトリック（ｄｉｆｆｅｒｅｎｔｉａｌｍａｎｉｆｏｌｄｍｅｔｒｉｃｓ）／特徴などを生成することなどのあらゆる数の方法で変換することができる。このようにして、施設は、多様な特徴セットをもたらすためにデータの多重視点を生成する。これらの変換は一例として示したものであるが、当業者であれば、あらゆる数の方法でデータを変換することができると認識するであろう。

１つの例では、施設が、複数の入力信号（例えば、患者に接続された異なる電極又はリードによって収集された入力信号、並びに広帯域生体電位測定装置のリード及びＳ_pＯ₂（血中酸素飽和率）のチャネルからの信号などの多モード信号）及び／又は変換信号を受け取り、サンプリング期間にわたる信号の平均値を信号毎に計算することによって信号データから値を抽出する。この例では、患者当たり４つの信号を表しているが、当業者であれば、施設による処理及びさらなる分析のためにあらゆる数の信号をモニタし、及び／又は受け取ることができると認識するであろう。従って、この例では、以下のように各患者の抽出データをこれらの経時的平均値の組として表すことができる。

表１は、ｎ人の各患者についての平均信号値の組（Ａ、Ｂ、Ｃ及びＤ）を表す。ここでは平均値を使用しているが、当業者であれば、信号が閾値を超えている時間、及び１つの信号の値が閾値を超えている間の別の信号の値などのあらゆるタイプのデータを基礎となるデータ信号から抽出又は計算することができると認識するであろう。

いくつかの実施形態では、施設が、受信信号からデータが抽出された後に、抽出データ、未加工又は前処理信号データ及び変換データなどの受信又は生成されたデータに１又は２以上の特徴生成器を適用する。特徴生成器は、信号データの少なくとも一部又は代表を入力として受け取り、対応する出力値（又は値の組）（すなわち、「特徴」）を生成する。１組の特徴生成器は、以下の方程式を含む。

ここでのＡ、Ｂ、Ｃ及びＤは、それぞれ特定の患者のデータから抽出された値を表し、Ｓ（ｔ）は、時間ｔにおける信号の値を信号毎に表す。方程式１では、例えばＦ１が特徴名を表し、方程式Ａ＋Ｃ－Ｄが対応する特徴生成器を表す。いくつかの例では、施設が、１つの特徴生成器が別の特徴生成器への入力としての役割を果たす、以下のような複合特徴生成器を利用する。

この例では、施設が、表１に示す各患者の抽出データに特徴生成器を適用して、以下の表２に示すような（各患者につき１つの）３つの値の特徴ベクトルを特徴生成器毎に生成する。

この例では、施設が、表１に示す抽出データに各特徴生成器Ｆ１、Ｆ２及びＦ３を適用して、各患者の値を含む対応する特徴ベクトルを特徴生成器毎に生成している。例えば、抽出データに特徴生成器Ｆ１を適用することによって生成された特徴ベクトルは、患者１の－２９．７６の値、及び患者２の－０．６の値などを含む。従って、各特徴ベクトルは、各患者の生理学的データ（すなわち、特徴生成器が適用された生理学的データで表される患者）の少なくとも一部に基づく対応する特徴生成器の署名（ｓｉｇｎａｔｕｒｅ）（必ずしも一意的ではない）を特定の特徴生成器について表す。いくつかの例では、特徴生成器が、式木、ニューラルネットワークなどの異なる構造又はモデルを使用して表される。当業者であれば、施設は、特徴ベクトルの生成においてあらゆる数の特徴生成器及びあらゆる数の生理学的データセット（又はその一部）を利用することができると認識するであろう。いくつかの実施形態では、施設が、ありとあらゆる利用可能な特徴生成器を使用するのではなく、特徴ベクトルの生成において使用するための複数の以前に生成された特徴生成器をランダムに選択する。いくつかの実施形態では、施設が、例えば式木をランダムに生成し、ニューラルネットワーク内の結合にランダムに重みを割り当てることなどによって特徴生成器を形成及び／又は修正する。

いくつかの実施形態では、複数の特徴ベクトルを生成した後に施設が何らかの形の新規性検索を使用して、生成された特徴ベクトルの中から最も「新規性の高い」特徴ベクトルを識別する。新規性は、特定の特徴ベクトルが（現在の反復中に施設によって生成されたあらゆる特徴ベクトル、及びいずれかの以前の反復において選択された特徴生成器によって生成された特徴ベクトルで構成される）他の比較用特徴ベクトルセットの各々とどのように異なるかに対応し、比較用セットの特徴ベクトルとの差分が大きければ大きいほど新規性が高い。施設は、新規性の尺度として距離の形態（すなわち、各特徴ベクトルが他の特徴ベクトルからどれほど「遠い」か）を使用する。この場合、施設は、生成された特徴ベクトル毎に、その特徴ベクトルと他の生成された各特徴ベクトルとの間の距離を計算し、特徴ベクトルの平均値又は平均（例えば、算術平均、幾何平均、調和平均など）距離値、又は特徴ベクトルと他の生成された各特徴ベクトルとの間の総（合計）距離の計算、特徴ベクトルのモード距離値、中央距離値及び最大距離値の識別などの、生成された距離値の集約を実行する。例えば、表２の（患者１、２及びｎの）特徴ベクトルを使用して、各特徴ベクトルセットの距離を以下のように計算することができる。
Ｆ１～Ｆ２の距離：

Ｆ１～Ｆ３の距離：

Ｆ２～Ｆ３の距離：

この例では、２つの各ベクトル間の差分を計算する手段として各特徴ベクトル間の総ユークリッド距離を計算した。施設は、現在（すなわち、現世代）の特徴生成器の組によって生成された特徴ベクトルに加え、前の世代で選択された特徴生成器によって生成された特徴ベクトルも含む。いくつかの例では、施設が、各特徴ベクトルにランダム生成された重みなどの重みを適用し、及び／又は比較の前に各特徴ベクトルセットを正規化する。従って、この例における各特徴ベクトルの距離測定値は以下のようになる。

この例では、施設が、各特徴ベクトルの「新規性スコア」又は「適合性スコア」として機能する計算距離に基づいて、最も「新規性の高い」特徴ベクトルを識別する。施設は、他のベクトルとの平均距離が最も大きな特徴ベクトル（例えば、Ｆ３によって生成された特徴ベクトル）、及びＭＡＸ距離が最も大きな特徴ベクトル（例えば、Ｆ１及びＦ３によって生成された特徴ベクトル）などを識別する。いくつかの例では、識別される新規特徴ベクトルの数が、５、１０、１００、５００などの所定の値に固定（又は制限（ｃａｐｐｅｄ））される。他の例では、識別される新規特徴ベクトルの数が、新規性スコア、及び分析された特徴ベクトルの平均新規性スコアを上回る所定の数の標準偏差よりも高い新規性スコアを有するいずれかの特徴ベクトルなどに基づいて、分析された特徴ベクトルの上位１０％などに動的に決定される。その後、これらの識別された各新規特徴ベクトルを生成した特徴生成器を、機械学習パイプラインが構成して評価したモデルへの入力として使用できる一連の特徴に追加することができる。これらのモデルは、例えば診断、予測、治療又はその他の分析、科学、健康に関する目的又はその他の目的で患者データに適用することができる。

いくつかの実施形態では、施設が、識別された新規特徴ベクトルを生成するために使用された特徴生成器を機械学習プロセスによる使用のために提供することに加え、識別された新規特徴ベクトルを生成するために使用された特徴生成器をランダムに変異又は修正する。各変異は、対応する特徴生成器に何らかの変化をもたらし、新たな世代の特徴生成器に寄与するために使用できる新たなバージョンの特徴生成器を形成する。施設は、この新たな特徴生成器を使用して新たな特徴ベクトルを生成し、その後に新たな特徴ベクトルの新規性を評価する。さらに、対応する特徴生成器をさらに変異させて、この特徴ベクトル及び特徴生成の構築プロセスを継続することができる。例えば、Ｆ１₀＝Ａ＋Ｃ－Ｄなどの方程式の形で表される特徴生成器は、方程式の１又は２以上の要素をランダムに選択し、選択した（単複の）要素を他の要素（例えばランダムに選択された（単複の）要素）に置き換えることによって変異させることができる。この例では、ＡをＢに置き換えてＦ１₁＝Ｂ＋Ｃ－Ｄを形成することによって、又はＣ－Ｄを

に置き換えて

を生成することによって方程式を変化させることができる。この例では、世代マーカを表す、又は各特徴生成器に値する下付き文字０及び１が含まれている。換言すれば、Ｆ１₀は、世代０（すなわち、第１世代）における上記（方程式１）のＦ１を表し、Ｆ１₁は、世代１（すなわち、第２世代）におけるＦ１の変異バージョンを表し、他も同様である。いくつかの例では、

又は

のように、前の世代（又はその変換）が次世代の要素として含まれる。

いくつかの実施形態では、施設が異なる方法で特徴を取得する。例えば、施設は、領域専門家などのユーザから、ユーザが最適なものとして識別した、及び／又はユーザが試験したいと望む一連の特徴（及び対応する特徴生成器）を受け取ることができる。別の例として、１又は２以上の特徴ストアから特徴を編集的に選択することもできる。いくつかの例では、施設によって自動的に生成された特徴を他の特徴と組み合わせて、様々な混成特徴を形成することができる。出所不明な特徴を使用することもできる。

いくつかの実施形態では、施設が、モデルを訓練するためのゲノムを識別し、これらのゲノムの中から「最良の」（最高評価の）ゲノムを識別し、識別したゲノムを変異させて、モデルの訓練に使用できるさらに多くのゲノムを生成することができる。施設は、ゲノムを使用して１又は２以上のモデルを訓練した後に、各訓練モデルを検証データセットに適用して訓練モデルに（例えば、基礎となる検証データセット内で訓練モデルがどれほど良好に被験者を正しく識別及び／又は分類するか）スコア付けすることができる。施設は、最良の結果をもたらす（例えば、最も高い検証スコア又は適合性スコアを有する）ゲノムを変異させ、これらの変異ゲノムを使用して新たなモデルを訓練し、１又は２以上の終了基準が満たされるまで（例えば、所定の又は動的な数（例えば、１、５、８、１７など）のそれまでの生成中に所定数の世代が生成されるまで、（所定の又は動的に生成された閾値よりも高い）さらなる高スコアゲノムが生成されなくなるまで、これらの組み合わせなど）このプロセスを繰り返す。

いくつかの実施形態では、施設が、以前に識別又は生成されたゲノムを、そこから機械学習アルゴリズムのためのゲノムを発見すべき第１のゲノムの組（すなわち、第１世代）として使用する。他の例では、施設が、１又は２以上の以前に生成された特徴ベクトルセットから１又は２以上の特徴ベクトル（例えば、訓練データセットに特徴生成器を適用することによって生成された特徴ベクトル）を各ゲノムについて（置き換えの有無にかかわらず）ランダムに選択することによって自動的に第１世代のゲノムを生成する。ゲノムは、アルゴリズムに関連する基礎的アンサンブル法、及び機械学習アルゴリズムの最大深度（例えば、決定木の最大深度）などのために使用すべき予測子の数（例えば、リグレッサ、分類子、機械学習アルゴリズムのために使用すべき決定木の数及び／又は最大数など）などの、機械学習アルゴリズムのための１又は２以上の機械学習アルゴリズムパラメータを含むこともできる。ゲノムは、１つの特定の機械学習アルゴリズムと共に使用されるように構成されている場合、その機械学習アルゴリズムに関連する各機械学習パラメータの値を定めるように構成することができる。その他の場合には、ゲノムの要素のうちの１つが異なる機械学習アルゴリズムの中から選択を行い、進化プロセスにわたってモデルを訓練するためにゲノム及びその対応するパラメータ値が異なる機械学習アルゴリズムと共に使用されるようにこの要素を変異させることができる。例えば、第１世代中には、ゲノムが、決定木に依拠する機械学習アルゴリズムを識別する一方で、同じゲノムの変異バージョンが、１又は２以上のサポートベクターマシン、線形モデルなどを使用する機械学習アルゴリズムを識別することができる。これらの場合、ゲノムは、ゲノムと組み合わせてモデルを訓練できるありとあらゆる機械学習アルゴリズムのモデリングパラメータを指定することができる。従って、１つのゲノムは、複数の機械学習アルゴリズムの機械学習パラメータを含むことができる。しかしながら、１つのゲノムが対応する機械学習アルゴリズムのありとあらゆるモデリングパラメータを含む必要はない。特定の機械学習アルゴリズムと、この機械学習アルゴリズムの機械学習パラメータの値を含まないゲノムとを使用してモデルを訓練する場合、施設は、例えば機械学習パラメータストアからこれらのパラメータのデフォルト値を取り出すことができる。

例えば、ゲノムの組は、以下のように表すことができる。
ここでの各行は、第１世代の選択又は生成されたゲノムからの（左から１列目に指定される）異なるゲノムに対応し、機械学習アルゴリズムストア内へのインデックスなどの、ゲノムを用いたモデルの訓練に使用する機械学習アルゴリズム（「ＭＬＡ」、左から２列目）を識別する。例えば、ゲノムＧ３１は、機械学習アルゴリズムストアにおけるインデックス２（ＭＬＡ＝２）に対応する機械学習アルゴリズムを指定する。この例では、（２列目の右側の）各陰影無し領域が異なる特徴を識別する。ゲノムは、対応する特徴生成器、又は特徴生成器ストアへのリンクなどの対応する特徴生成器への参照を含むこともできる。上述したように、これらの特徴は、施設が自動的に生成することも、及び／又は別のソースから取り出すこともできる。

さらに、表４の各陰影領域は、特定の機械学習パラメータの値を表す。このゲノムの組の例では、機械学習パラメータが、等号の前の指示子又は参照（例えば、Ｐ６：１）と、対応する値とによって表される。例えば、機械学習アルゴリズムパラメータＰ６：１は、ゲノムＧ２０₁では８という対応する値を有する。このゲノムの組の例では、「Ｐ６：１」が「第６」の機械学習アルゴリズムの「第１」の機械学習パラメータ（すなわち、６というインデックスを有する機械学習アルゴリズムの１というインデックスを有する機械学習パラメータ）を表すように、各機械学習パラメータが２次元配列内へのインデックスとして示される。上述したように、ゲノムは、ゲノム（又はこのゲノムの変異バージョン）を用いたモデルの訓練に使用できる一部又は全部の機械学習パラメータの値を指定することができる。さらに、表４から明らかなように、ゲノムは可変長とすることができる。例えば、ゲノムＧ１₁は、６つの特徴値とゼロ個の機械学習パラメータ値とを含み、ゲノムＧ２₁は、２つの特徴値と３つの機械学習パラメータ値とを含む。従って、施設は、機械学習プロセスにおいて可変長ゲノムを使用することができる。

いくつかの実施形態では、施設が、ゲノム内からの特徴をフィルタ処理し、及び／又はゲノム自体をフィルタ処理して各ゲノム間の冗長性を回避することができる。施設は、特徴及び／又はゲノムをフィルタ処理するために、各対の相関値を生成して対の一方の項目を廃棄する。施設は、ゲノムからの相関する特徴を識別してフィルタ処理するために、特徴に関連する特徴生成器を訓練データセットに適用して値の組を生成することにより、特徴毎に特徴ベクトルを生成する。施設は、生成された各特徴ベクトルを他の生成された特徴ベクトルと比較して、特徴ベクトルのいずれかが「高い」相関性を有する（すなわち、選択された特徴ベクトルセット内で「新規」ではない）かどうかを判定する。例えば、コンポーネントは、（新規特徴生成器の識別に関して上述したように）生成された各特徴ベクトルの他の特徴ベクトルに対する距離値を計算し、いずれかの対（２つの組）間の距離が距離閾値以下である（すなわち、「高い」相関性を有する、又は「新規」でない）場合、特徴ベクトルの対の一方に対応する特徴を廃棄することができる。さらに、施設は、廃棄された特徴をランダム選択された特徴などの新たな特徴に置き換えることもできる。同様に、施設は、ゲノムの特徴毎に特徴ベクトルを生成し、生成された特徴ベクトルに基づいて各ゲノムの対（２つの組）の距離メトリックを計算し、計算された距離がゲノム距離閾値を上回らないゲノムの対を識別することにより、冗長ゲノムを識別して廃棄することもできる。施設は、各識別されたゲノムの対について一方又は両方のゲノムを廃棄又は変異させて、一群のゲノム間の相関性及び冗長性を低減することができる。この例では、２つのベクトル又はベクトルセット間の相関性を求めるための尺度として距離を使用しているが、当業者であれば、２つのベクトル又はベクトルセット間の相関性は、正規化相互相関などの他の方法で計算することもできると認識するであろう。いくつかの実施形態では、施設が、グラフのエッジを介して結合されたグラフの頂点を特徴が表すグラフを生成することなどのさらなる又は他の技術を使用してゲノムをフィルタ処理することもできる。２つの特徴間のエッジは、例えば２つの特徴間の相関値が所定の相関性閾値を上回る場合、及び／又は２つの特徴間の距離が所定の距離閾値を下回る場合に生成される。グラフが生成されると、施設は、グラフにエッジが残らなくなるまで結合された頂点（特徴）をグラフから削除し（結合された頂点が削除されるとエッジも削除される）、「フィルタ処理済み」ゲノムに含めるための残りの結合されていない頂点（特徴）を選択する。いくつかの例では、施設が、削除するための結合された頂点をランダムに選択することができる。さらに、施設は、このプロセスを頂点の組（特徴）毎に複数回実行し、最も多くの又は最も少ない頂点（特徴）が削除されたゲノムなどの好ましい「フィルタ処理済み」ゲノムを選択することができる。

施設は、各ゲノムの適合性又は妥当性を試験するために、そのゲノムの特徴、機械学習パラメータ及び／又は（単複の）機械学習アルゴリズムを使用して少なくとも１つのモデルを訓練する。例えば、施設は、ＡｄａＢｏｏｓｔ（「適応的ブースティング」）法を使用して、対応する特徴、機械学習パラメータ、機械学習アルゴリズム及び訓練データセットを使用してモデルを訓練することができる。しかしながら、当業者であれば、１つの又は一連のゲノムを所与として、多くの異なる技術を使用して１又は２以上のモデルを訓練することができると認識するであろう。施設は、モデルを訓練した後に、この訓練モデルを１又は２以上の検証データの組に適用して、検証データセット内の以前に識別又は分類された被験者を訓練モデルがどれほど良好に識別及び／又は分類するかを評価する。例えば、データセットに表される糖尿病の可能性がある患者を識別するモデルを訓練するゲノムを生成することができる。これらのゲノムのうちの１つを使用してモデルを訓練したら、この訓練モデルを検証データセットに適用して、糖尿病であることが分かっている又は現在糖尿病である検証セットからの患者を訓練モデルがどれほど良好に識別するかを反映する検証スコアを求め、正しい判定（例えば、真陽性及び真陰性）毎に１「ポイント」を得点（加算）し、誤った判定（例えば、偽陽性及び偽陰性）毎に１「ポイント」を失点（減算）することができる。従って、１又は２以上の検証データセットに訓練モデルを適用した時に何「ポイント」が得点されるかに基づいて、その訓練モデルの全体的スコアを決定することができる。当業者であれば、訓練モデルの適合性スコアを生成するためには、対応する受信者動作特性（ＲＯＣ）曲線の下方領域を計算すること、並びに平均二乗予測誤差、ｆスコア、感度、特異性、陰性及び陽性予測値、診断オッズ比などを計算することなどの複数の方法を使用することができると認識するであろう。この例では、ゲノムを用いて単一の機械学習アルゴリズムを訓練した場合、生成される適合性スコアも同様にこのゲノムに起因することができる。他の例では、ゲノムを使用して複数の機械学習アルゴリズムを訓練し、これらの訓練された機械学習アルゴリズムの各々を複数の検証セットに適用して、機械アルゴリズムの訓練に使用されるゲノム毎に複数の適合性スコアを生成することができる。これらの例では、施設が、ゲノムを用いて訓練された機械学習アルゴリズムの生成された各適合性スコアを集約することによって、対応するゲノムの適合性スコアを生成する。いくつかの例では、生成された適合性スコアを集約し、及び／又は集約前にフィルタ処理することができる。

いくつかの実施形態では、施設が、各ゲノムの適合性スコアを生成した後に、これらの適合性スコアに基づいて「最良」のゲノムを識別する。例えば、施設は、生成された適合性スコアに基づいて適合性閾値を設定し、結果として得られた適合性スコアが適合性閾値を上回るゲノムとして「最良」のゲノムを識別することができる。適合性閾値は、ユーザから適合性閾値を受け取ること、及び適合性スコアの組に基づいて適合性閾値を計算すること（例えば、平均、平均プラス１５％、上位１５位、上位ｎパーセンタイル（ｎはユーザによって提供され、又は施設によって自動的に生成される））などのあらゆる数の方法で生成又は決定することができる。その後、施設は、各ゲノムをその対応する適合性スコアに関連付けて記憶し、変異にとって「最良」と識別されたゲノム（すなわち、適合性閾値を上回る適合性スコアを有するゲノム）を選択する。

いくつかの実施形態では、施設が、ゲノムの特徴ベクトル又は機械学習パラメータのうちのいずれか１つ又は２つ以上を追加、削除又は変更することによってゲノムを変異させる。例えば、以下の表５に、表４において上述したゲノムへの変異数を示す。
この例では、各行が、変異のために選択された第２世代のゲノムからの（左から１列目に指定される）異なるゲノムに対応する。この例では、施設が、ゲノムＧ３₁をその低適合性スコアに基づいて変異のために選択しておらず、従って表５は、このゲノムの変異バージョンのための対応するエントリを含んでいない。さらに、ゲノムＧ１₁は、３つの特徴ベクトルを削除するとともに（取り消し線によって表す）、参照機械学習アルゴリズムインデックスを４から５に変更することによって変異している（Ｇ１₂として表す）。さらに、施設は、ゲノムＧ２₁については、１）特徴ベクトルＦ９７０１を削除し、２）特徴ベクトルＦ５８４を追加し、３）機械学習パラメータＰ９₁を７から１２に調整することによって変異させ、ゲノムＧ４₁については、特徴Ｆ２４及びＦ９８２を追加することによって変異させ、ゲノムＧｎ₁については、Ｆ６５によって生成された値にＦ１４によって生成された値を乗算することによって変異させている。その後、これらの変異したゲノムを使用して１又は２以上の機械学習アルゴリズムを訓練し、この訓練された機械学習アルゴリズムを１又は２以上の検証データセットに適用することによってスコア付けし、変異のために選択し、変異させることなどができる。施設は、（例えば，６、３０、１０，０００などの）所定数の世代が生成された時点などの終端点に達するまでこのプロセスを実行する。

図１は、開示する技術のいくつかの実施形態による、施設が動作する環境１００を示すブロック図である。この例では、環境１００が、サービスプロバイダ１１０と、信号レコーダ１４０（例えば、広帯域生体電位測定装置）と、データプロバイダ１５０と、患者１６０と、ネットワーク１６０とを含む。この例では、サービスプロバイダが、特徴発見コンポーネント１２１と、処理コンポーネント１２２と、特徴生成器適用コンポーネント１２３と、新規特徴ベクトル識別コンポーネント１２４と、ゲノム発見コンポーネント１２５と、ゲノム生成コンポーネント１２６と、高性能ゲノム識別コンポーネント１２７と、患者データストア１３０と、モデルストア１３１と、特徴ベクトルストア１３２と、特徴生成器ストア１３３とを含む施設１２０を含む。特徴発見コンポーネント１２１は、施設によって呼び出され、受け取ったデータに基づいて特徴生成器を識別して変異させる。処理コンポーネント１２２は、特徴発見コンポーネント１２１によって呼び出され、信号レコーダ１４０（例えば、広帯域生体電位測定装置などの基礎となるデータを収集するために使用される１又は２以上の測定装置及び／又はシステム）からの未加工信号データ、３Ｄ画像データなどの患者信号データの処理及び変換を行う。特徴生成器適用コンポーネント１２３は、特徴発見コンポーネントによって呼び出され、処理され変換された患者信号データに１又は２以上の特徴生成器の組を適用する。新規特徴ベクトル識別コンポーネント１２４は、特徴発見コンポーネントによって呼び出され、例えば１又は２以上の特徴生成器によって生成された一群の特徴ベクトルから最も新規性の高い特徴ベクトルを識別する。ゲノム発見コンポーネント１２５は、施設１２０によって呼び出され、機械学習アルゴリズムが使用するゲノムの生成、分析及び変異を行う。ゲノム生成コンポーネント１２６は、ゲノム発見コンポーネントによって呼び出され、あらゆる数の特徴ベクトル及び／又は機械学習パラメータを含むゲノムを生成する。高性能ゲノム識別コンポーネント１２７は、ゲノム発見コンポーネントによって呼び出され、一群のゲノムの中から適合性閾値を上回る対応する適合性スコアを有するゲノムを識別する。患者データストア１３０は、（限定するわけではないが、例えば信号レコーダ１４０を介して取得されたデータを含む）未加工の生理学的データ、変換された生理学的データ、伝記的情報（ｂｉｏｇｒａｐｈｉｃａｌｉｎｆｏｒｍａｔｉｏｎ）、人口動態情報などの生理学的患者データを含む。これらのデータは、対応する各患者のプライバシーを保護するために匿名で記憶し、その送信及び記憶が１９９６年の（改正）米国医療保険の携行性と責任に関する法律、欧州データ保護条令、カナダ個人情報保護及び電子文書法、１９９８年のオーストラリアプライバシー法、２０１５年の日本の（改正）個人情報保護法、州及び地方の法律及び法令などのあらゆる準拠法及びその施行規則に従うことを確実にするように処理して暗号化することができる。モデルストア１３１は、ＣｈｒｉｓｔｏｐｈｅｒＭ．Ｂｉｓｈｏｐ著、「パターン認識及び機械学習（ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎａｎｄＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）」、２００６年、（米国議会図書館管理番号：２００６９２２５２２；ＩＳＢＮ－１０：０－３８７－３１０７３－８）に記載されている機械学習法などの機械学習法を訓練データに適用することによって生成されるモデルに関する情報を記憶し、この文献はその全体が引用により本明細書に組み入れられる。特徴ベクトルストア１３２は、生理学的データセットに１又は２以上の特徴生成器を適用することによって生成された特徴ベクトルセットを記憶する。特徴生成器ストア１３３は、患者生理学的データに適用できる特徴生成器の組を記憶し、複数世代の特徴生成器を含むことができる。ゲノムストア１３４は、施設及び／又はその他のソースによって形成される生成及び／又は変異したゲノムを記憶する。機械学習パラメータストア１３５は、複数の機械学習アルゴリズムの各々について、その機械学習アルゴリズムへの入力としての役割を果たすことができるパラメータの組と、対応するパラメータの最大値、対応するパラメータの最小値、対応するパラメータのデフォルト値などの、パラメータに関する追加情報とを記憶する。機械学習アルゴリズムストア１３３は、施設がそれぞれを選択的に訓練して検証できる複数の機械学習アルゴリズムの各々のロジックを記憶する。この例では、施設１２０と、モニタ、プリンタ、スピーカなどの１又は２以上の出力装置１４２と、設定コントロール、キーボード、生理学的データリーダなどの１又は２以上の入力装置１４４とを含む信号レコーダ１４０が、電極１４５を介して患者１６０に接続される。従って、施設は、この例と同様に、患者及びその他の診断装置から離れて、及び／又は広帯域生体電位測定装置（すなわち、不変のスペクトル成分を有するものを含むフィルタ処理されていない電気生理学的信号を取り込むように構成されたいずれかの装置）などの診断装置又はその一部と共に動作するように構成することができる。従って、施設は、生理学的データの読み取りと共にリアルタイムで動作するように構成することも、及び／又は以前に記録された生理学的データに適用することもできる。それぞれがデータストア１５２を含むデータプロバイダ１５０は、遠隔地（例えば、業務用施設、サードパーティデータプロバイダなどが利用できない病院又はクリニック）で記録された生理学的患者データなどの、施設が分析又は使用するための情報、並びに他の場所で形成又は生成された特徴ベクトル及び／又は特徴生成器などを提供することができる。ネットワーク１７０は、インターネット及びローカルエリアネットワークなどの、環境１００の様々な要素が通信を行えるようにする通信リンクを表す。

様々な例では、これらのコンピュータシステム及び他の装置が、サーバコンピュータシステム、デスクトップコンピュータシステム、ラップトップコンピュータシステム、ネットブック、タブレット、携帯電話機、携帯情報端末、テレビ、カメラ、自動車コンピュータ、電子メディアプレーヤ、機器、ウェアラブル装置、及び／又はその他のハードウェアなどを含むことができる。いくつかの実施形態では、施設１２０が、広帯域生体電位測定装置（又は不変のスペクトル成分を有する電気生理学的信号を含む、フィルタ処理されていない電気生理学的信号を取り込むように構成されたいずれかの装置）、脳波計装置、放射線装置及び音声記録装置などの専用コンピュータシステム上で動作することができる。様々な例では、コンピュータシステム及び装置が、コンピュータプログラムを実行するように構成された中央処理装置（「ＣＰＵ」）、試験中のマルチスレッドプログラム、デバッガ、施設、カーネルを含むオペレーティングシステム及び装置ドライバを含むプログラム及びデータを使用中に記憶するように構成されたコンピュータメモリ、プログラム及びデータ（例えば、ファームウェアなど）を永続的に記憶するように構成されたハードドライブ又はフラッシュドライブなどの永続記憶装置、フロッピーディスク、フラッシュメモリ装置、ＣＤ－ＲＯＭ又はＤＶＤなどのコンピュータ可読記憶媒体に記憶されたプログラム及びデータを読み取るように構成された、フロッピー、フラッシュ、ＣＤ－ＲＯＭ又はＤＶＤドライブなどのコンピュータ可読記憶媒体ドライブ、並びにインターネット、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ポイントツーポイントダイアルアップ接続、携帯電話ネットワーク、又は別のネットワーク、並びにルータ、スイッチ及び様々なタイプの送信機、受信機又はコンピュータ可読送信媒体を含む様々な例におけるそのネットワーキングハードウェアなどを介してデータの送信及び／又は受信を行うためにコンピュータシステムを他のコンピュータシステムに接続するように構成されたネットワーク接続のうちの１つ又は２つ以上を含む。上述したように構成されたコンピュータシステムを使用して施設の動作をサポートすることができるが、当業者であれば、様々なコンポーネントを有する様々なタイプ及び構成の装置を使用して施設を実装することができると容易に理解するであろう。施設の要素は、１又は２以上のコンピュータ又は他の装置によって実行されるプログラムモジュールなどのコンピュータ実行可能命令という一般的状況で説明することができる。一般に、プログラムモジュールは、特定のタスクを実行し、又は特定の抽象データ型を実装するように構成された、ルーチン、プログラム、オブジェクト、コンポーネント及び／又はデータ構造などを含み、暗号化することができる。さらに、プログラムモジュールの機能は、様々な実施例において望まれる通りに組み合わせ又は分散させることができる。さらに、Ｃ＋＋などの、又はＸＭＬ（拡張可能マークアップ言語）、ＨＴＭＬ（ハイパーテキストマークアップ言語）、ＪａｖａＳｃｒｉｐｔ（登録商標）、ＡＪＡＸ（非同期的ＪａｖａＳｃｒｉｐｔ（登録商標）及びＸＭＬ）技術、或いは無線アクセスプロトコル（ＷＡＰ）などの、表示可能なデータを形成する他のいずれかのスクリプト又は方法でのウェブページとしてなどの様々な方法のいずれかで表示ページを実装することもできる。通常、プログラムモジュールの機能は、クラウドベースの実装、ウェブアプリケーション及びモバイル装置のモバイルアプリケーションなどを含む様々な実施形態において望まれる通りに組み合わせ又は分散させることができる。

以下の説明では、開示する技術を実施できる好適なコンピュータ環境の簡潔な一般的説明を示す。必須ではないが、開示する技術の態様は、サーバコンピュータ、無線装置又はパーソナルコンピュータなどの汎用データ処理装置によって実行されるルーチンなどのコンピュータ実行可能命令という一般的状況で説明する。当業者であれば、開示する技術の態様は、インターネット又は他のネットワーク対応機器、（携帯情報端末（ＰＤＡ）を含む）ハンドヘルド装置、ウェアラブルコンピュータ（例えば、健康指向のウェアラブルコンピュータ装置）、（ボイスオーバーＩＰ（ＶｏＩＰ）電話を含む）様々なセルラー又は携帯電話機、ダム端末、メディアプレーヤ、ゲーム装置、マルチプロセッサシステム、マイクロプロセッサベース又はプログラマブル消費者電子機器、セットトップボックス、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータなどを含む他の通信構成、データ処理構成又はコンピュータシステム構成と共に実施することもできると理解するであろう。実際に、本明細書では「コンピュータ」、「サーバ」、「ホスト」及び「ホストシステム」などの用語を一般に同義的に使用し、これらは上記の装置及びシステムのうちのいずれか、並びにいずれかのデータプロセッサを意味する。

開示する技術の態様は、本明細書で詳細に説明するコンピュータ実行可能命令のうちの１つ又は２つ以上を実行するように特別にプログラム、構成又は構築された特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィクスプロセッシングユニット（ＧＰＵ）、マルチコアプロセッサなどの専用コンピュータ又はデータプロセッサにおいて具体化することができる。いくつかの機能などの開示する技術の態様は、単一の装置において独占的に実行されるように説明しているが、開示する技術は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）又はインターネットなどの通信ネットワークを通じてリンクされた異なる処理装置間で機能又はモジュールが共有される分散コンピュータ環境で実施することもできる。分散コンピュータ環境では、プログラムモジュールを局所的メモリ記憶装置及び遠隔メモリ記憶装置の両方に配置することができる。

開示する技術の態様は、磁気的又は光学的に読み取り可能なコンピュータディスク、配線チップ又は事前プログラムチップ（例えば、ＥＥＰＲＯＭ半導体チップ）、ナノテクノロジーメモリ、生物学的メモリ又はその他のコンピュータ可読記憶媒体を含む有形コンピュータ可読媒体に記憶又は分散することができる。或いは、開示する技術の態様に従うコンピュータ実装命令、データ構造、画面表示及びその他のデータは、インターネット又は（無線ネットワークを含む）他のネットワークを介して伝播媒体上の伝播信号（例えば、（単複の）電磁波、音波など）上に一定期間にわたって分散させることも、或いはいずれかのアナログ又はデジタルネットワーク（パケット交換型、回路交換型、又は他のスキーム）上に提供することもできる。さらに、コンピュータ可読記憶媒体という用語は、信号（例えば、伝播信号）又は一時的媒体を含まない。

図２は、開示する技術のいくつかの実施形態による、特徴発見コンポーネント１２１の処理を示すフロー図である。特徴発見コンポーネントは、施設によって呼び出され、選択された患者データに基づいて新規特徴ベクトルを識別する。ブロック２０５において、このコンポーネントは、信号レコーダから直接受け取られた未加工信号データなどの生理学的信号データ、別の装置又はサイトからの以前に生成された生理学的信号などを受け取る。診断及びその他の目的で患者から生理学的信号（例えば、電気生理学的信号、生理学的信号）を収集して分析する技術は、例えば活動量計、心エコー図、広帯域生体電位測定機器、脳波図、筋電図、電気眼球図記録法、電気皮膚反応、心拍数モニタ、磁気共鳴映像法、脳磁気図、筋音図及びウェアラブルテクノロジー装置（例えば、ＦＩＴＢＩＴ）などを含む複数のものが存在する。これらのシステムによって提供されるデータは、医学的関心の識別及び病状の診断に役に立つこともあるが、診断プロセスの出発点にすぎないことが多い。さらに、これらのシステムの大部分の特異性を考慮すると、これらが分析するデータは、システム自体の、又は技術者、医師又は他のヘルスケアプロバイダなどの複雑さを抑えるように（このような場合、視覚的複雑性などを抑えるように）過剰にフィルタ処理されることによって、未利用の診断値を有する可能性があるデータが排除されてしまうことが多い。ブロック２１０において、コンポーネントは、信号データ処理コンポーネントを呼び出して受信信号データを処理して変換することにより、複数のデータセット及び変換データを生成することができる。ブロック２１５において、コンポーネントは、世代値を０に等しく設定する。ブロック２２０において、コンポーネントは、例えば式木をランダムに生成し、ニューラルネットワークの一連の重みをランダムに生成し、以前に生成された特徴生成器の組のうちの１つ又は２つ以上をランダムに変異させることなどによって、１又は２以上の特徴生成器を生成する。ブロック２２５において、コンポーネントは、特徴生成器適用コンポーネントを呼び出して、生成された特徴生成器を１又は２以上の処理済み信号データセットに適用して特徴ベクトルセットを生成する。ブロック２３０において、コンポーネントは、新規特徴ベクトル識別コンポーネントを呼び出して、特徴生成器によって生成された一群の特徴ベクトルの中から最も新規性の高い特徴ベクトルを識別する。ブロック２３５において、コンポーネントは、識別された特徴ベクトルを生成した特徴生成器を特徴生成器ストアなどに記憶する。ブロック２４０において、コンポーネントは世代変数を増分する。判定ブロック２４５において、世代変数が世代閾値以上である場合、コンポーネントは終了し、そうでなければブロック２５０に進む。コンポーネントは、少なくとも閾値数の新規特徴ベクトルを生成しない特徴生成器の生成数などの他の停止条件を使用することもできる。ブロック２５０において、コンポーネントは、識別された特徴生成器を複製し、変異させた後にブロック２２５にループバックし、１又は２以上の処理済み信号データセットに変異した特徴生成器を適用する。上述したように、コンポーネントは、１又は２以上の式木に複数の点変異及び／又はランダム組み換えを適用すること、及びニューラルネットワークの一連の結合重みをランダムに生成することなどの１又は複数のあらゆるタイプの変異を特徴生成器に適用することができる。

図３は、開示する技術のいくつかの実施形態による、処理コンポーネント１２２の処理を示すフロー図である。処理コンポーネントは、特徴発見コンポーネントによって呼び出されて患者信号データの処理及び変換を行う。コンポーネントは、ブロック３０５～３６５において、患者から受け取られた生理学的データを表す受信信号の組（又はデータセットの組）の各信号（又はデータセット）をループする。ブロック３１０において、コンポーネントは、受信信号に対し、信号に１又は２以上の信号フィルタを適用すること、データに対してピーク検索を実行して無関係な情報を廃棄すること、受信信号をダウンサンプリングすること、受信信号をアップサンプリングすること、受信信号をサブサンプリングすること、アナログ信号をデジタル信号に変換すること、及び画像データを信号データに変換すること、などの前処理を行う。ブロック３１５において、コンポーネントは、前処理信号を患者データストアなどに記憶する。信号データは、匿名で（すなわち、対応する患者を明示的又は非明示的に識別することなく）記憶することができる。一方で、１人の患者からの複数の信号を訓練及び診断目的で併用できるように、同じ患者に関連する信号データの異なるインスタンスに匿名化された一意の識別子を関連付けることもできる。ブロック３２０において、コンポーネントは、記憶された信号データから１又は２以上の値を抽出する。ブロック３２５において、コンポーネントは、１又は２以上の抽出された値を記憶する。ブロック３３０において、コンポーネントは、信号に適用すべきあらゆる変換を識別する。例えば、施設は、一連の変換又は変換関数（例えば、フーリエ変換、信号に適用すべき関数、導関数及び偏導関数など）の指示を記憶して特定の信号に適用することができる。別の例として、施設は、変換カタログの中から１又は２以上の変換をランダムに選択して信号データに適用することもできる。ブロック３３５～３６０では、コンポーネントが各変換をループして信号に変換を適用する。ブロック３４０において、コンポーネントは信号に変換を適用する（例えば、特定の変数に対する第３の導関数を計算したり、信号データに１つの関数を適用することによって生成される合成関数の結果（すなわち、信号データを表す関数）を計算したりなどを行う）。ブロック３４５において、コンポーネントは、変換された信号データを患者データストアなどに記憶する。ブロック３５０において、コンポーネントは、変換された信号データから１又は２以上の値を抽出する。ブロック３５５において、コンポーネントは、１又は２以上の抽出された値を記憶する。ブロック３６０において、適用すべきいずれかの変換がさらに識別された場合、コンポーネントは次の変換を選択してブロック３３５にループバックして信号データに変換を適用し、そうでなければブロック３６５に進む。ブロック３６５において、分析すべき信号がさらに存在する場合、コンポーネントは次の信号を選択してブロック３０５にループバックして次の信号を処理し、そうでなければ終了する。

図４は、開示する技術のいくつかの実施形態による、特徴生成器適用コンポーネント１２３の処理を示すフロー図である。特徴生成器適用コンポーネントは、特徴発見コンポーネント１２１によって呼び出され、前処理され変換された信号データ、モデル化信号データなどの信号データに１又は２以上の特徴生成器の組を適用する。コンポーネントは、ブロック４１０～４７０において、受け取られた各特徴生成器の組をループし、受信信号データセット内の各信号に特徴生成器を適用する。例えば、受信信号データは、複数の患者の各々の複数の信号データセット、及びそのデータの複数の変換などを含むことができる。ブロック４２０～４５０では、コンポーネントが各信号をループして信号データに特徴生成器を適用する。ブロック４３０において、コンポーネントは、現在選択されている信号データに現在選択されている特徴生成器を適用する。例えば、コンポーネントは、現在選択されているデータ信号の各前処理バージョン、及びそのデータのいずれかの変換バージョンに特徴生成器を適用することができる。別の例として、コンポーネントは、変数の組を有する特徴生成器に、モデル化された信号データによって生成された係数を「プラグイン」又は代入して出力特徴値を生成する。別の例として、コンポーネントは、モデル化された信号データの１又は２以上の要素をニューラルネットワークに適用して出力特徴値を生成することができる。ブロック４４０において、コンポーネントは出力値を記憶する。ブロック４５０において、分析すべき信号がさらに存在する場合、コンポーネントは次の信号を選択してブロック４２０にループバックして次の信号を処理し、そうでなければブロック４６０に進む。ブロック４６０において、コンポーネントは、生成された各特徴値を含む特徴ベクトルを生成し、特徴生成器に関連する特徴ベクトルを特徴ベクトルストアなどに記憶する。例えば、特徴ベクトルは、一連の特徴、及び対応する特徴生成器へのリンク又は対応する特徴生成器の識別子を含むことができる。コンポーネントは、特徴ベクトルの生成に使用された信号データに特徴ベクトルを関連付けることもできる。ブロック４７０において、処理すべき特徴生成器がさらに存在する場合、コンポーネントは次の特徴生成器を選択してブロック４１０にループバックして特徴生成器を処理し、そうでなければ終了する。

図５は、開示する技術のいくつかの実施形態による、新規特徴ベクトル識別コンポーネント１２４の処理を示すフロー図である。この例では、施設が、特徴ベクトルセットを受け取るとともに、特徴生成器の識別子などの、対応する特徴生成器に関する情報を特徴ベクトル毎に受け取る。ブロック５０５において、コンポーネントは、例えば新規であることが認められた前世代の特徴生成器によって生成された特徴ベクトルと、現世代の特徴ベクトルによって生成された特徴ベクトルとを含む、比較用特徴ベクトルセットを収集する。例えば、コンポーネントは、特徴ストアから新規特徴ベクトルセットをランダムに選択することができる。いくつかの例では、特徴ベクトルを取り出すための要求が、５０以上（低閾値）かつ５０００以下（高閾値）などの、取り出すべき各特徴ベクトルの特徴値の数の上限及び下限を含む。コンポーネントは、ブロック５１０～５４０において、現世代の特徴生成器の各特徴ベクトルをループして、その対応する各特徴ベクトルが、比較用特徴ベクトルセットの各特徴ベクトルとどのように異なるかを判定する。コンポーネントは、ブロック５１５～５３０において、比較用特徴ベクトルセットの各特徴ベクトルをループして、各特徴ベクトルと現在選択されている特徴生成器の特徴ベクトルとを比較する。ブロック５２０において、コンポーネントは、比較用セットの現在選択されている特徴ベクトルと、現在選択されている特徴生成器の特徴ベクトルとの間の差分値を計算する。例えば、コンポーネントは、各特徴ベクトル間の距離値を計算することができる。ブロック５２５において、コンポーネントは、計算された差分値を記憶する。ブロック５３０において、比較すべき特徴ベクトルがさらに存在する場合、コンポーネントは次の特徴ベクトルを選択してブロック５１５にループバックして特徴ベクトルを処理し、そうでなければブロック５３５に進む。ブロック５３５において、コンポーネントは、平均距離又は最大距離などの記憶された差分値に基づいて、現在選択されている特徴生成器の新規性スコアを計算し、この新規性スコアを特徴生成器に関連付けて（例えば特徴生成器ストアに）記憶する。ブロック５４０において、評価すべき特徴生成器がさらに存在する場合、コンポーネントは次の特徴生成器を選択してブロック５１５にループバックして特徴生成器を処理し、そうでなければブロック５４５に進む。コンポーネントは、ブロック５４５～５６０において、計算された新規性スコアに基づいて各特徴ベクトルが新規であるかどうかを試験し、いずれかの対応する特徴生成器を識別する。判定ブロック５５０において、現在選択されている特徴生成器の新規性スコアが新規性閾値よりも高い場合、コンポーネントはブロック５５５に進み、そうでなければブロック５６０に進む。新規性閾値は、ユーザから新規性閾値を受け取ること、及び新規性スコアの組に基づいて新規性閾値を計算すること（例えば、平均値、平均値プラス２５％、上位ｎ個（ｎはユーザによって提供され、又は施設によって自動的に生成される）、上位１０パーセンタイル）などのあらゆる数の方法で生成又は決定することができる。従って、新規性閾値は、施設が新たな特徴生成器及び対応する特徴を生成して試験していることを確実にするように、例えば現在の新規性閾値を上回る新たな特徴生成器が存在しない世代の数に基づいて動的に（例えば、世代毎に）変化することができる。ブロック５５５において、コンポーネントは、現在選択されている特徴ベクトルを新規として識別する。ブロック５６０において、処理すべき特徴ベクトルがさらに存在する場合、コンポーネントは次の特徴ベクトルを選択してブロック５４５にループバックして特徴ベクトルを処理し、そうでなければ終了する。

図６は、開示する技術のいくつかの実施形態による、ゲノム発見コンポーネント１２６の処理を示すフロー図である。施設は、ゲノム発見コンポーネントを呼び出して、機械学習アルゴリズムが使用するゲノムを生成して分析する。ブロック６１０において、施設は、世代変数を０に等しく初期化する。ブロック６２０において、コンポーネントは、生成すべきゲノムの数（ｎ）を、例えばユーザ入力、システムパラメータに基づいて、又はランダムに決定する。ブロック６３０において、コンポーネントは、ゲノム生成コンポーネントをｎ回呼び出して適切な数のゲノムを生成する。ブロック６４０において、コンポーネントは、高性能ゲノム識別コンポーネントを呼び出して、生成されたゲノムの中から適合性閾値を上回る適合性スコアを有するゲノムを識別する。ブロック６５０において、コンポーネントは世代変数を増分する。判定ブロック６６０において、世代変数が世代閾値以上である場合、コンポーネントの処理は終了し、そうでなければブロック６７０に進む。ブロック６７０において、コンポーネントは、高性能ゲノムを変異させた後にブロック６４０にループバックして、変異ゲノムの中から高性能ゲノム（例えば、適合性閾値を上回る適合性スコアを有する変異ゲノム）を識別する。コンポーネントは、可変長ゲノムの１又は２以上の要素（又はこれらのいずれかの組み合わせ）を追加、変更又は削除することによってゲノムを変異させることができる。例えば、コンポーネントは、１つの特徴を別の特徴に置き換えて変異ゲノムに新たな特徴を追加することによって１つのゲノムを変異させることができる。別の例では、コンポーネントが、ゲノムを関連付けるための新たな機械学習アルゴリズムを選択することができる。この場合、コンポーネントは、あらゆる無関係な機械学習アルゴリズムパラメータを削除又は変異させ、及び／又はこれらを新たに選択された機械学習アルゴリズムの機械学習パラメータ値に置き換えることもできる。別の例として、ゲノムは、複数のゲノムの要素をランダムに選択してこれらの要素を組み合わせて新たなゲノムを形成することによる有性生殖法を変異の形態として使用することができる。さらに、ゲノムの１又は２以上の要素は、本明細書で説明する進化プロセス中に固定されたままである（すなわち、変化しない）ように構成することができる。

図７は、開示する技術のいくつかの実施形態による、ゲノム生成コンポーネント１２６の処理を示すフロー図である。ゲノム発見コンポーネント１２５は、ゲノム生成コンポーネントを呼び出して、あらゆる数の特徴、機械学習パラメータ及び／又は機械学習アルゴリズムを識別するゲノムを生成する。ブロック７１０において、コンポーネントは、１又は２以上の特徴生成器ストアにおいて参照される特徴などの利用可能な一連の特徴を識別する。ブロック７２０において、コンポーネントは、生成するゲノムに含める特徴の数を決定する。例えば、コンポーネントは、生成するゲノムに含める特徴の数を、ユーザ入力、システムパラメータに基づいて、又はランダムに決定することができる。ブロック７３０において、コンポーネントは、識別された特徴の中から決定された数の特徴をランダムに選択する。ブロック７４０において、コンポーネントは、選択された特徴の中からの相関する特徴をランダムに選択された特徴に置き換える。ブロック７５０において、コンポーネントは、利用可能な機械学習パラメータの組を識別する。例えば、コンポーネントは、施設が利用できる各機械学習アルゴリズムについて、その機械学習アルゴリズムに関連する、コンポーネントが利用できるリスト又はその他のデータ構造（例えば、機械学習パラメータストア）に記憶できるパラメータの組を識別することができる。いくつかの例では、単一の機械学習アルゴリズム（又は一定の機械学習アルゴリズムの組）のためにゲノムを生成することができる。この場合、コンポーネントは、この単一の機械学習アルゴリズム又は一定の機械学習アルゴリズムの組に関連する機械学習パラメータ（又はその正しい一部）のみを識別することができる。その他の場合、ゲノムは、機械学習アルゴリズムを識別する変異可能な要素を含むことができる。この場合、コンポーネントは、この変異の範囲内にある機械学習アルゴリズムのうちの一部又は全部の機械学習パラメータ（すなわち、本明細書で説明する進化プロセス中にモデルを訓練するためにゲノム及びその子孫を関連付けることができる機械学習アルゴリズムのパラメータ）を識別することができる。ブロック７６０において、コンポーネントは、生成するゲノムに含めるべき機械学習パラメータの数を決定する。例えば、コンポーネントは、生成するゲノムに含めるべき機械学習パラメータの数を、ユーザ入力、システムパラメータに基づいて、又はランダムに決定することができる。例えば、あるゲノムは、特定の機械学習アルゴリズム又は機械学習アルゴリズムの組に関連するありとあらゆる機械学習パラメータを含むことができ、別のゲノムは、特定の機械学習アルゴリズムに関連する正しい機械学習パラメータの一部のみを含む。ブロック７７０において、コンポーネントは、識別された機械学習パラメータの中から決定された数の機械学習パラメータをランダムに選択し、パラメータに関連する最小値と最大値との間の値をランダムに選択することなどのいずれかの関連する制約に基づいてパラメータに値を割り当てる。ブロック７８０において、コンポーネントは、選択された特徴及び機械学習パラメータの各々をゲノムデータ構造に記憶してゲノムデータ構造を戻す。

図８は、開示する技術のいくつかの実施形態による、高性能ゲノム識別コンポーネント１２７の処理を示すフロー図である。ゲノム発見コンポーネントは、高性能ゲノム識別コンポーネントを呼び出して、一群のゲノムの中から適合性閾値を上回る対応する適合性スコアを有するゲノム（すなわち、「高性能」なゲノム）を識別する。コンポーネントは、ブロック８１０～８５０において、第１世代のゲノムの組、変異したゲノムの組、又はこれらの何らかの組み合わせなどの、コンポーネントに提供されたゲノムの組をループする。ブロック８２０において、コンポーネントは、特徴、機械学習パラメータ及びいずれかの指定された機械学習アルゴリズムを含む現在選択されているゲノムを使用して１又は２以上のモデルを訓練する。モデルを訓練するために使用される機械学習アルゴリズムにゲノムの機械学習パラメータが関連しない場合、この機械学習パラメータは無視することができる。同様に、特定の機械学習アルゴリズムが、現在選択されているゲノムに含まれていない特定の機械学習パラメータを入力として必要とする場合、施設（又は機械学習アルゴリズム自体）は、例えば機械学習パラメータストアから取り出されたデフォルト値を提供することができる。ブロック８３０において、コンポーネントは、例えば検証データセットに訓練モデルを適用し、訓練モデルの能力を評価して、検証データの中から被験者を正確に識別又は分類することによって、現在選択されているゲノムの検証スコア又は適合性スコアを生成する。ブロック８４０において、コンポーネントは、訓練モデルのために生成された（単複の）スコア及び／又はその集約を、現在選択されているゲノムに関連付けて記憶する。ブロック８５０において、スコア付けすべきゲノムがさらに存在する場合、コンポーネントは次のゲノムを選択してブロック８１０にループバックし、そうでなければブロック８６０に進む。コンポーネントは、ブロック８６０～８９０において、ゲノム毎に生成されたスコアを評価して「最良」のゲノムを変異のために選択する。この例では、適合性閾値を上回る検証スコア又は適合性スコアを生じるゲノムが「最良」のゲノムである。判定ブロック８７０において、現在選択されているゲノムの生成されたスコアが適合性閾値を上回る場合、コンポーネントはブロック８８０に進み、そうでなければブロック８９０に進む。ブロック８８０において、コンポーネントは、現在選択されているゲノムに変異のためのフラグを立てる。いくつかの実施形態では、コンポーネントが、適合性スコア以外の又は適合性スコアに加えた基準に基づいて変異のためのゲノムを選択することができる。例えば、コンポーネントは、新規性スコア又はその他のスコアを使用して変異のためのゲノムを選択することができる。いくつかの例では、コンポーネントが、複数のゲノムが集団からランダムに選択されるトーナメント選択プロセスを使用することができ、この「トーナメント」からの最も高いスコアを有するゲノムが再生に選択される。この例では、トーナメント内に低スコアゲノムしか現れない場合、低スコアゲノムが再生のために選択される。ブロック８９０において、処理すべきゲノムがさらに存在する場合、コンポーネントは次のゲノムを選択してブロック８６０にループバックし、そうでなければフラグが立ったゲノムを戻して処理を終了する。

以上、本明細書では、開示する技術の特定の実施形態を例示目的で示したが、開示する技術の範囲から逸脱することなく様々な修正を行うことができると理解されるであろう。例えば、開示する技術は、天候パターン、地質活動の予測、又はサンプル入力データに基づいて予測を行う他のいずれかの分野などの医療分野以外の分野に適用することもできる。以下では、請求項の数を抑えるために、開示する技術のいくつかの態様をいくつかの請求項形態で示すが、出願人は、開示する技術の様々な態様をあらゆる数の請求項形態において企図する。従って、開示する技術は、添付の特許請求の範囲によるものを除いて限定されない。

１００環境
１１０サービスプロバイダ
１２０施設
１２１特徴発見
１２２処理
１２３特徴生成器適用
１２４新規特徴ベクトル識別
１２５ゲノム発見
１２６ゲノム生成
１２７高性能ゲノム識別
１３０患者データ
１３１モデル
１３２特徴ベクトル
１３３特徴生成器
１３３機械学習アルゴリズム
１３４ゲノム
１３５機械学習パラメータ
１４０信号レコーダ
１４２出力
１４４入力
１４５電極
１５０データプロバイダ
１５２データ
１６０患者
１７０ネットワーク

Claims

機械学習ゲノムを発見するための、メモリ及びプロセッサを有するシステムであって、
第１のコンポーネントと、
第２のコンポーネントと、
第３のコンポーネントと、
第４のコンポーネントと、
第５のコンポーネントと、
を備え、
前記第１のコンポーネントは、複数のゲノムを生成するように構成され、各ゲノムは、少なくとも１つの機械学習アルゴリズムの少なくとも１つの特徴及び少なくとも１つのパラメータを識別し、前記複数のゲノムのうちの第１のゲノムを生成するステップが、
一連の特徴の中から前記特徴のうちの１つ又は２つ以上をランダムに選択するステップと、
少なくとも１つの機械学習アルゴリズムの一連のパラメータの中から前記パラメータのうちの１つ又は２つ以上をランダムに選択するステップと、
前記選択されたパラメータの各々に少なくとも１つのランダム値を割り当てるステップと、
を含み、
前記第２のコンポーネントは、各生成されたゲノムについて、
前記生成されたゲノムを使用して１又は２以上のモデルを訓練し、
前記生成されたゲノムを使用して訓練された各モデルについて、少なくとも部分的に、前記訓練されたモデルを検証データセットに適用することによって、前記訓練されたモデルの適合性スコアを計算し、
前記生成されたゲノムを使用して訓練された前記モデルについて生成された前記適合性スコアに少なくとも部分的に基づいて、前記生成されたゲノムの適合性スコアを生成する、
ように構成され、
前記第３のコンポーネントは、前記生成されたゲノムの中から、適合性閾値を上回る適合性スコアを有する複数のゲノムを識別するように構成され、
前記第４のコンポーネントは、前記識別されたゲノムの各々について、前記識別されたゲノムを変異させるように構成され、
前記コンポーネントのうちの少なくとも１つは、前記システムが実行するための、前記メモリに記憶されたコンピュータ実行可能命令を含み、
前記第５のコンポーネントは、第１の一連の特徴を含む第１のゲノムについて、少なくとも部分的に、
前記第１の一連の特徴の各特徴について、前記特徴に関連する特徴生成器を訓練データセットに適用して前記特徴の特徴ベクトルを生成し、
少なくとも１対の特徴ベクトルについて、
前記特徴ベクトルの対の各特徴ベクトル間の距離を計算し、
前記計算された距離が距離閾値未満であると判定し、
前記計算された距離が距離閾値未満あるとの判定に応答して、前記特徴ベクトルの対のうちの少なくとも一方の特徴ベクトルに対応する特徴を前記第１のゲノムから除去する、
ことによって、前記第１の一連の特徴の中から相関する特徴を識別するように構成され、
各特徴ベクトルは、複数の患者の各々について、前記患者を表す少なくとも１つの生理学的データの表現に第１の特徴生成器を適用することによって生成された単一の値を含む、
ことを特徴とするシステム。
第１の特徴ベクトルの対のうちの少なくとも一方の特徴ベクトルに対応する少なくとも１つの特徴を前記第１のゲノムから除去することは、
前記第１の特徴ベクトルの対のうちの一方の特徴ベクトルをランダムに選択することと、
前記第１のゲノムの特徴の中から前記ランダムに選択された特徴ベクトルに対応する特徴を識別することと、
前記第１のゲノムから前記識別された特徴を除去することと、
を含む、請求項１に記載のシステム。
第１の一連の特徴を含む前記第１のゲノムについて、前記第１の一連の特徴の各特徴を表す頂点を含むグラフを生成するように構成された第６のコンポーネントと、
対応する特徴が相関性閾値を上回る相関値又は距離閾値未満の距離値を有する頂点間のエッジを生成するように構成された第７のコンポーネントと、
結合された頂点が前記グラフ内に残らなくなるまで前記グラフから頂点を除去するように構成された第８のコンポーネントと、
をさらに備える、請求項１に記載のシステム。
少なくとも１人の患者から生理学的信号データを受け取るように構成された機械と、
第６のコンポーネントと、
をさらに備え、前記第６のコンポーネントは、各患者について、
前記機械によって受け取られた前記患者の生理学的信号データの少なくとも一部に前記訓練されたモデルのうちの少なくとも１つを適用し、
前記受け取られた生理学的信号の少なくとも一部に前記訓練されたモデルのうちの少なくとも１つを適用したことに少なくとも部分的に基づいて前記患者の予測を生成する、
ように構成される、
請求項１に記載のシステム。
メモリ及びプロセッサを有するコンピュータシステムによって実行される、機械学習ゲノムの発見方法であって、
前記プロセッサを使用して、各ゲノムが少なくとも１つの機械学習アルゴリズムの少なくとも１つの特徴及び少なくとも１つのパラメータを識別する複数のゲノムを生成するステップと、
各生成されたゲノムについて、
前記生成されたゲノムを使用して少なくとも１つのモデルを訓練するステップと、
前記訓練された少なくとも１つのモデルに少なくとも部分的に基づいて、前記ゲノムの適合性スコアを生成するステップと、
前記生成されたゲノムの中から、適合性閾値を上回る適合性スコアを有する少なくとも１つのゲノムを識別するステップと、
各識別されたゲノムを変異させるステップと、
を含み、
第１の数の特徴を有する第１の識別されたゲノムを変異させることが、前記変異させた第１の識別されたゲノムが、前記第１の数の特徴とは異なる第２の数の特徴を有するように、少なくとも１つの特徴を除去することを含み、
第３の数の特徴を有する第２の識別されたゲノムを変異させることが、前記変異させた第２の識別されたゲノムが、前記第３の数の特徴および前記第２の数の特徴とは異なる第４の数の特徴を有するように、少なくとも１つの特徴を追加することを含み、
前記複数のゲノムのうちの第１のゲノムを生成するステップは、
一連の特徴の中から該特徴のうちの１つ又は２つ以上をランダムに選択するステップと、
少なくとも１つの機械学習アルゴリズムの一連のパラメータの中から該パラメータのうちの１つ又は２つ以上をランダムに選択するステップと、
前記選択されたパラメータの各々に少なくとも１つの値を割り当てるステップと、
を含み、
前記第１のゲノムを生成するステップは、
前記ランダムに選択された特徴の各特徴について、
前記特徴に関連する特徴生成器及び訓練データセットに少なくとも部分的に基づいて、前記特徴の特徴ベクトルを取り出すステップと、
前記生成された特徴ベクトルの中から相関する特徴ベクトルの対を識別するステップと、
相関する特徴ベクトルの各識別された対について、
前記相関する特徴ベクトルの対のうちの一方の特徴ベクトルを識別するステップと、
前記識別された特徴ベクトルを生成するために使用された特徴生成器に関連する特徴を前記第１のゲノムから除去するステップと、
前記一連の特徴の中から、前記第１のゲノムに追加すべき特徴をランダムに選択するステップと、
前記ランダムに選択された特徴を前記第１のゲノムに追加するステップと、
を含むことを特徴とする方法。
相関する特徴ベクトルの対を識別するステップは、
各特徴ベクトルの対について、
前記特徴ベクトルの対の距離メトリックを計算するステップと、
前記特徴ベクトルの対の前記計算された距離メトリックが距離閾値未満であるかどうかを判定するステップと、
を含み、前記距離閾値は、各特徴ベクトルの対の計算され判定された距離メトリックに少なくとも部分的に基づいて決定される、
請求項５に記載の方法。
第１のゲノムの適合性スコアを生成するステップは、
前記第１のゲノムを使用して訓練されたモデルを２又は３以上の検証データセットに適用することによって生成された偽陽性の数を識別するステップと、
前記第１のゲノムを使用して訓練されたモデルを２又は３以上の検証データセットに適用することによって生成された偽陰性の数を識別するステップと、
を含む、請求項５に記載の方法。
第１のゲノムの適合性スコアを生成するステップは、
前記第１のゲノムを使用して訓練された少なくとも１つのモデルについて受信者動作特性曲線を生成するステップと、
前記生成された受信者動作特性曲線の下方領域を計算するステップと、
を含む、請求項５に記載の方法。
第１のゲノムの適合性スコアを生成するステップは、前記第１のゲノムを使用して訓練された少なくとも１つのモデルについて、平均二乗予測誤差、平均絶対誤差、四分位誤差、及びログ損失誤差、受信者動作特性曲線誤差、及びｆスコア誤差を含む群から選択された１つ又は２つ以上の誤差を計算するステップを含む、
請求項５に記載の方法。
第１の識別されたゲノムを変異させるステップは、
前記第１の識別されたゲノムの少なくとも１つの特徴を選択するステップと、
前記第１の識別されたゲノムの前記選択された特徴の各々を前記第１の識別されたゲノムから除去するステップと、
を含む、請求項５に記載の方法。
第１の識別されたゲノムを変異させるステップは、
一連の特徴の中から複数の前記特徴をランダムに選択するステップと、
前記ランダムに選択された複数の特徴の各々を前記第１の識別されたゲノムに追加するステップと、
を含む、請求項５に記載の方法。
第１の識別されたゲノムを変異させるステップは、前記第１の識別されたゲノムの少なくとも１つの特徴を修正するステップを含む、
請求項５に記載の方法。
第１の識別されたゲノムを変異させるステップは、前記第１の識別されたゲノムの少なくとも１つの機械学習アルゴリズムパラメータを修正するステップを含む、
請求項５に記載の方法。
メモリ及びプロセッサを有するコンピュータシステムの前記プロセッサによって実行された場合に、前記コンピュータシステムに機械学習ゲノムの発見方法を実行させる命令を記憶した非一時的なコンピュータ可読記憶媒体であって、前記方法は、
前記プロセッサによって、各ゲノムが少なくとも１つの機械学習アルゴリズムの少なくとも１つの特徴及び少なくとも１つのパラメータを識別する複数のゲノムを生成するステップと、
各生成されたゲノムについて、
前記生成されたゲノムを使用して少なくとも１つのモデルを訓練するステップと、
前記訓練された少なくとも１つのモデルに少なくとも部分的に基づいて前記ゲノムの適合性スコアを生成するステップと、
前記生成されたゲノムの中から、適合性閾値を上回る適合性スコアを有する１又は２以上のゲノムを識別するステップと、
各識別されたゲノムを変異させるステップと、
を含み、
第１の数の特徴を有する第１の識別されたゲノムを変異させることが、前記変異させた第１の識別されたゲノムが、前記第１の数の特徴とは異なる第２の数の特徴を有するように、少なくとも１つの特徴を除去することを含み、
第３の数の特徴を有する第２の識別されたゲノムを変異させることが、前記変異させた第２の識別されたゲノムが、前記第３の数の特徴および前記第２の数の特徴とは異なる第４の数の特徴を有するように、少なくとも１つの特徴を追加することを含み、
前記複数のゲノムのうちの第１のゲノムを生成するステップは、
一連の特徴の中から該特徴のうちの１つ又は２つ以上をランダムに選択するステップと、
少なくとも１つの機械学習アルゴリズムの一連のパラメータの中から該パラメータのうちの１つ又は２つ以上をランダムに選択するステップと、
前記選択されたパラメータの各々に少なくとも１つの値を割り当てるステップと、
を含み、
前記第１のゲノムを生成するステップは、
前記ランダムに選択された特徴の各特徴について、
前記特徴に関連する特徴生成器及び訓練データセットに少なくとも部分的に基づいて、前記特徴の特徴ベクトルを取り出すステップと、
前記生成された特徴ベクトルの中から相関する特徴ベクトルの対を識別するステップと、
相関する特徴ベクトルの各識別された対について、
前記相関する特徴ベクトルの対のうちの一方の特徴ベクトルを識別するステップと、
前記識別された特徴ベクトルを生成するために使用された特徴生成器に関連する特徴を前記第１のゲノムから除去するステップと、
前記一連の特徴の中から、前記第１のゲノムに追加すべき特徴をランダムに選択するステップと、
前記ランダムに選択された特徴を前記第１のゲノムに追加するステップと、
を含むことを特徴とする非一時的なコンピュータ可読記憶媒体。
前記方法は、前記適合性閾値を上回る適合性スコアを有する各識別されたゲノムを変異させるステップをさらに含む、
請求項１４に記載の非一時的なコンピュータ可読記憶媒体。
前記方法は、少なくとも部分的に、前記生成されたゲノムの各々について生成された前記適合性スコアに基づいて全体的適合性スコアを決定することによって、前記適合性閾値を計算するステップをさらに含む、
請求項１４に記載の非一時的なコンピュータ可読記憶媒体。
前記方法は、少なくとも部分的に、前記生成されたゲノムの各々について生成された前記適合性スコアに基づいて適合性スコアのｎパーセンタイルを決定することによって、前記適合性閾値を計算するステップをさらに含む、
請求項１４に記載の非一時的なコンピュータ可読記憶媒体。
前記方法は、少なくとも部分的に、前記生成されたゲノムの各々について生成された前記適合性スコアの中からｎ番目に高い適合性スコアを決定することによって、前記適合性閾値を計算するステップを含む、
請求項１４に記載の非一時的なコンピュータ可読記憶媒体。
第１のゲノムを使用して訓練された各モデルについて、
前記第１のゲノムを使用して訓練された前記モデルの適合性スコアを計算するステップと、
前記第１のゲノムを使用して訓練された前記モデルの前記計算された適合性スコアを集約するステップと、
をさらに含む、請求項１４に記載の非一時的なコンピュータ可読記憶媒体。
前記第１のゲノムを使用して訓練された前記モデルの前記計算された適合性スコアを集約するステップは、前記第１のゲノムを使用して訓練された前記モデルの前記計算された適合性スコアの平均値を計算するステップを含む、
請求項１９に記載の非一時的なコンピュータ可読記憶媒体。
前記方法は、
前記生成されたゲノムの中から識別された前記複数のゲノムの各々について、
前記識別されたゲノムを変異させるステップと、
前記変異したゲノムを使用して少なくとも１つのモデルを訓練するステップと、
前記変異したゲノムを使用して訓練された前記少なくとも１つのモデルに少なくとも部分的に基づいて、前記変異したゲノムの適合性スコアを生成するステップと、
をさらに含む、請求項１４に記載の非一時的なコンピュータ可読記憶媒体。