JP7335352B2

JP7335352B2 - アンサンブル・モデルの強化された多様性および学習

Info

Publication number: JP7335352B2
Application number: JP2021559389A
Authority: JP
Inventors: サテ、サケト; トゥラガ、ディーパク、スリニバス; アッガーワル、チャル; パブルリ、ベンカタ、ナガラジュ; チャン、ユアン－チ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-04-11
Filing date: 2020-03-18
Publication date: 2023-08-29
Anticipated expiration: 2040-03-18
Also published as: US20200327456A1; GB202115645D0; JP2022527366A; GB2598061A; WO2020208445A1; CN113632112A; US11593716B2

Description

本発明は一般にコンピューティング・システムに関し、より詳細には、プロセッサによって教師なし機械学習（unsupervised machine learning）を使用して教師ありアンサンブル・モデル（supervised ensemble model）を強化するためのさまざまな実施形態に関する。

今日の社会において、医学のさまざまな進歩は、技術の進歩と相まって、患者のコンピュータ化モニタリング、または患者の健康記録を表すデータの記憶もしくは編成などの付随する多種多様な利益を可能にした。コンピュータ、プロセッサ、ストレージ・デバイスおよびモバイル・コンピューティング・プラットホームは社会の全方面に拡散しているため、患者、保健従事者およびその他の人々の利益のために保健医療技術を強化する追加の機会は到来し続けている。

プロセッサによってアンサンブル・モデルの強化された多様性および学習を実現するためのさまざまな実施形態が提供される。一実施形態では、単なる例として、プロセッサによってアンサンブル・モデルの強化された多様性および学習を実現するための方法が提供される。少数クラス（minority class）のデータ点の１つまたは複数のクラスタを多数クラス（majority class）の選択されたデータ点と結合することによって、１つまたは複数のデータ・セットを生成することができる。教師あり機械学習操作を使用して、この１つまたは複数のデータ・セットから１つまたは複数のアンサンブル・モデルを生成することができる。この１つまたは複数のアンサンブル・モデルを使用して事象の発生を予測することができる。

本発明の利点が容易に理解されるように、添付図面に示された特定の実施形態を参照することによって、上で簡単に説明した発明をより詳細に説明する。これらの図は、本発明の典型的な実施形態だけを示したものであり、したがって本発明の範囲を限定するものであるとはみなされないとの理解を前提に、添付図面を使用することにより、本発明を、追加の特殊性および詳細とともに記述し、説明する。

本発明の実施形態による、例示的なコンピューティング・ノードを示すブロック図である。本発明の実施形態による、例示的なクラウド・コンピューティング環境を示す追加のブロック図である。本発明の実施形態による、抽象化モデル層を示す追加のブロック図である。本発明の態様に従って機能するさまざまなユーザ・ハードウェアおよびコンピューティング構成要素を示す図である。本発明の態様による、アンサンブル学習および多様性のための操作を示す図である。本発明の態様による、多様性を強化するアンサンブル・モデル学習のための操作を示す図である。本発明の態様による、アンサンブル・モデルを使用したラベル予測のための操作を示す図である。プロセッサによってアンサンブル・モデルの強化された多様性および学習を実現するための例示的な方法の流れ図であり、この方法では、本発明のさまざまな態様を実施することができる。

多くの患者が、真性糖尿病（diabetes mellitus）（「糖尿病（diabetes）」）などの一貫した管理および注意を必要とするさまざまな病気に苦しんでいる。糖尿病は、膵臓が十分なインスリンを産生しないこと、または体の細胞が、産生されたインスリンに適切に反応しないことに起因する。糖尿病の管理は、血糖値を正常に近い値に保ち、低血中グルコース／低血糖（「低血糖症（Hypoglycemia）」）を生じさせないことに重点を置く。低血糖症を防ぐため、糖尿病患者はしばしば、低血中グルコース値に対する「緩衝帯」を提供するために異常に高い血中グルコース値（blood glucose level）を維持する。この一定の高い血中グルコース値は、糖尿病の大部分の長期合併症、すなわち網膜症、神経障害、腎症および心血管疾患の根本的原因である。例えば、現在、低血糖症状態を検出したときに患者に警報を送るリアルタイム連続血糖モニタリングを提供する血糖モニタリング装置が使用可能である。しかしながら、患者の低血糖症状態が検出される前に低血糖症状態を正確に予測するコンピューティング・システムが求められている。

一態様では、例示された実施形態の機構が、機械学習などの人工知能を使用して、コンピュータが、かなりの量の経験的データに基づいて、人間の知能および選択をシミュレートすることを可能にする。機械学習は、糖尿病などの関心の特性、およびそれらの特性の根底にある確率分布を捕捉することができ、訓練データ・セットを使用して機械学習モデルを訓練することができる。モデルまたは規則セットを構築し、それを使用して、いくつかの特徴（feature）の値に基づいて結果を予測することができる。機械学習はデータ・セットを使用することができ、データ・セットは通常、レコードごとに、一組の特徴のうちのそれぞれの特徴の値、および結果を含む。このデータ・セットから、結果を予測するためのモデルまたは規則セットが開発される。

一態様では、機械学習を、低血糖症を予測する（例えば１型および２型糖尿病患者の低血糖症事象を予測する）目的に使用することができる。例えば、インスリンを必要としている患者はしばしば、予めプログラムされたとおりにまたは必要に応じてインスリン・ボーラス（insulin bolus）を送達することができるインスリン・ポンプを携行している。それぞれのボーラス事象は、その事象に関連した一組の特徴を有する。ボーラス事象はさらに、その事象が結果的に低血糖症（「ＨＹＰＯ」）に至るのかまたは非低血糖症（「ＮＯＮ－ＨＹＰＯ」）に至るのかを示すラベルを有することができる。すなわち、ボーラス事象は、２～４時間の窓内において低血糖症事象が起こったのかまたは起こらなかったのかに応じて、低血糖症（例えば「ＨＹＰＯ」）または非低血糖症（例えば「ＮＯＮ－ＨＹＰＯ」）の２つラベルを有することができる。この窓は、１回または数回のＨＹＰＯまたはＮＯＮ－ＨＹＰＯ事象を含む可能性がある固定時間の窓と定義することができる。低血糖症事象の予測は、例えば、テスト点の予測が、ＨＹＰＯ事象に関しては０．７またはＮＯＮ－ＨＹＰＯ事象に関しては０．３であるなど、一組のラベルの全体にわたる確率分布の形態をとりうる。

ＨＹＰＯクラスとＮＯＮ－ＨＹＰＯクラスの両方に関係するデータ点の分類は、例えばＨＹＰＯラベルが決してデータの１０％を超えないなど、ひどく不釣合いなものになることがある。クラスが不釣合いである場合でも、機械学習を使用して、患者によってボーラスが注射された後に低血中グルコース事象が起こりうるかどうかを予測すること、および、修正処置をとる十分な時間を患者が持てるように、規定された時間（例えば２～３時間前）までに患者に知らせることができる。低血糖症事象は、患者によってボーラスが投与された後の２～４時間の窓内において血中グルコース値がしきい値よりも低下した状態と定義することができる。この２～４時間の窓を使用して、逆ｈｙｐｏ遅延（reverse hypo delay）（「ＲＨＤ」。これは、平均逆事象遅延（average reverse event delay）と等価であることがある）を計算することができ、ボーラス事象前の時間窓内において複数の特徴が導き出される。これらの特徴（ＲＨＤを含む）はそれぞれ、数分から数か月の範囲の窓内で導き出すことができる。

しかしながら、例えば教師ありアンサンブル・モデルの質を向上させるために教師なし機械学習操作が必要な場合など、現在の機械学習操作にはいくつかの課題がある。さらに、アンサンブル・モデルは、モデルを結合した後に最良のバリアンス低減を達成するために、その弱い学習器（weak learner）のそれぞれにおいてモデルの多様性を必要とする。データ・クラスがひどく不釣合いであり、まれな（rare）クラス（例えば少数クラス）が最も重要なクラスである場合、その重要でまれなクラスの異なるモード／特性を学習する機械学習モデルを生成するのは難しい。すなわち、クラスまたは特徴がひどく不釣合いであり、まれなクラスまたはまれな特徴が、「少数クラス」と呼ばれることがある最も重要なクラスまたは特徴（または最もまれでもある最高ランクのクラスまたは特徴）であると識別されている状況では、機械学習予測の効率が低下し、重要でまれなクラス（例えば少数クラス）の異なるモード／特性を学習する予測モデルを生成することは極めて難しい。

したがって、一態様では、本発明が、プロセッサによってアンサンブル・モデルの強化された多様性および学習を実現することを提供する。一実施形態では、単なる例として、プロセッサによってアンサンブル・モデルの強化された多様性および学習を実現するための方法が提供される。少数クラスのデータ点の１つまたは複数のクラスタを多数クラスの選択されたデータ点と結合することによって、１つまたは複数のデータ・セットを生成することができる。教師あり機械学習操作を使用して、この１つまたは複数のデータ・セットから１つまたは複数のアンサンブル・モデルを生成することができる。この１つまたは複数のアンサンブル・モデルを使用して事象の発生を予測することができる。

追加の態様では、非常に不釣合いなデータ・セット、例えば１型および２型糖尿病患者の低血糖症事象の非常に不釣合いなデータ・セットの全体にわたって、多様性のあるアンサンブル学習を構築することによって、本発明が、糖尿病患者の低血糖症を予測するための信頼性の高い正確なモデルを提供する。

追加の態様では、元のデータ・セットが非常に不釣合いであるとき（例えば事象の少数クラスまたは事象の多数クラスを表すことがある不釣合いなデータ点）でもアンサンブル・モデルのモデル多様性を保証するために、教師なし機械学習操作を学習、生成もしくは構築し、またはこれらの組合せを達成されることができる。データ（例えばインスリン・ポンプ・データ）、ユーザ（例えば患者）の人口統計学的データもしくはユーザの行動データ、またはこれらのデータの組合せに従って、選択されたグループ／ユーザの事象を予測する（例えば糖尿病患者の低血糖症事象を予測する）ための１つまたは複数の信頼性の高い正確なモデルを生成／構築することができる。これらのデータは、収集されたデータ・セットの事象分類不釣合いの特性を有することがある。

さらに、機械学習に関連して、通知を使用してユーザ（例えば患者）の行動を修正することができる。例えば、患者が行動をとり、低血糖症が起こらないように、低血糖症事象が起こる確率が高いことを知らせる通知を患者に提供することができる。ユーザは、通知の有効性および有用性の程度を示すフィードバックを提供することができる。本発明は、このデータから継続的に学習することができ、機械学習モデルを絶えず改良することができる。規定された期間にわたって１つまたは複数のパターンおよび傾向を学習および解析することができる。ユーザ情報、ユーザによって実行された行動および通知は全て、リポジトリに記憶することができる。記憶されたデータは、パターンの長期解析および傾向の変化検出に使用することができる。さらに、ユーザは、低血糖症予測および予測を計算するために使用したデータ／特徴を含む記憶された全ての情報を視覚化することができる。ユーザの活動および事象を理解するために、このデータを、インタラクティブ・ダッシュボードを介して（例えばグラフィカル・ユーザ・インタフェース「ＧＵＩ」を介して）１人または複数のユーザに提供することができ、その事象に関係して実行すべき、もしくは実行すべきでない、またはその両方である規定された事象（例えば低血糖症）行動にどの活動がつながるのかを提供し、さらにそれに関する洞察を提供する。

以下では、本発明の追加の態様および付随する利点をさらに説明する。

本開示はクラウド・コンピューティングに関する詳細な説明を含むが、本明細書に記載された教示の実施態様はクラウド・コンピューティング環境だけに限定されないことを予め理解されたい。むしろ、本発明の実施形態は、現在知られているまたは後に開発される他の任意のタイプのコンピューティング環境に関連して実施することができる。

クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとの最小限のインタラクションで迅速に供給およびリリースすることができる構成可能なコンピューティング・リソース（例えばネットワーク、ネットワーク帯域、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械およびサービス）の共用プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするサービス配信モデルである。このクラウド・モデルは、少なくとも５つの特徴、少なくとも３つのサービス・モデル、および少なくとも４つのデプロイメント（deployment）モデルを含むことができる。

特徴は以下のとおりである。
オンデマンド・セルフサービス：クラウド・コンシューマは、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能の供給を、このサービスのプロバイダとのヒューマン・インタラクションを必要とすることなく必要に応じて自動的に一方向的に受けることができる。
ブロード・ネットワーク・アクセス：機能は、ネットワーク上で利用可能であり、機能には、異種のシンまたはシック・クライアント・プラットホーム（例えば移動電話、ラップトップおよびＰＤＡ）による使用を促進する標準的機構を通してアクセスされる。
リソース・プーリング（resource pooling）：マルチテナント・モデルを使用して多数のコンシューマにサービスを提供するために、プロバイダのコンピューティング・リソースがプールされており、要求に応じて、異なる物理的および仮想リソースが動的に割当ておよび再割当てされる。コンシューマは一般に、提供されたリソースの正確な位置を制御できずまたは正確な位置を知らないが、より高次の抽象化レベル（例えば国、州またはデータセンター）で位置を指定することができるという意味で、位置独立の感覚がある。
ラピッド・エラスティシティ（rapid elasticity）：機能は、素早くスケールアウトするために迅速かつ弾力的に、場合によっては自動的に供給することができ、素早くスケールインするために迅速にリリースすることができる。コンシューマにとって、供給に利用可能な機能はしばしば無限であるように見え、いつでも好きな量だけ購入することができる。
メジャード・サービス（measured service）：クラウド・システムは、サービスのタイプ（例えば、ストレージ、処理、帯域および使用中ユーザ・アカウント）に対して適切なある抽象化レベルで計測機能を活用することによって、リソースの使用状況を自動的に制御および最適化する。リソースの使用状況を監視、制御および報告して、利用されているサービスのプロバイダとコンシューマの両方に透明性を提供することができる。

サービス・モデルは以下のとおりである。
ソフトウェア・アズ・ア・サービス（ＳａａＳ）：コンシューマに提供されるこの機能は、クラウド・インフラストラクチャ上でランしているプロバイダのアプリケーションを使用する機能である。ウェブ・ブラウザなどのシン・クライアント・インタフェース（例えばウェブ・ベースの電子メール）を通してさまざまなクライアント・デバイスからアプリケーションにアクセス可能である。場合によっては可能な限られたユーザ固有のアプリケーション構成の設定を除けば、コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージまたは個々のアプリケーション機能を含む基礎をなすクラウド・インフラストラクチャを管理もまたは制御もしない。
プラットホーム・アズ・ア・サービス（ＰａａＳ）：コンシューマに提供されるこの機能は、クラウド・インフラストラクチャ上で、プロバイダがサポートするプログラム言語およびツールを使用して作成されたコンシューマ作成または取得のアプリケーションをデプロイする機能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システムまたはストレージを含む基礎をなすクラウド・インフラストラクチャを管理もまたは制御もしないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成は制御することができる。
インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）：コンシューマに提供されるこの機能は、処理、ストレージ、ネットワークおよび他の基本的なコンピューティング・リソースを供給する機能であり、コンシューマは任意のソフトウェアをデプロイおよびランすることができ、これらのソフトウェアは、オペレーティング・システムおよびアプリケーションを含むことができる。コンシューマは、基礎をなすクラウド・インフラストラクチャを管理もまたは制御もしないが、オペレーティング・システム、ストレージおよびデプロイされたアプリケーションは制御することができ、場合によっては、選択されたネットワーク構成要素（例えばホスト・ファイアウォール）を限定的に制御することができる。

デプロイメント・モデルは以下のとおりである。
プライベート・クラウド：このクラウド・インフラストラクチャは、組織体のためだけに運営される。インフラストラクチャは、その組織体または第三者が管理することができ、オンプレミス（on-premises）またはオフプレミス（off-premises）で存在することができる。
コミュニティ・クラウド：このクラウド・インフラストラクチャは、いくつかの組織体によって共有され、利害（例えばミッション、セキュリティ要件、ポリシーおよびコンプライアンス上の問題）を共有する特定のコミュニティをサポートする。インフラストラクチャは、その組織体または第三者が管理することができ、オンプレミスまたはオフプレミスで存在することができる。
パブリック・クラウド：このクラウド・インフラストラクチャは、一般大衆または大きな産業グループが利用可能であり、クラウド・サービスを販売している組織体によって所有される。
ハイブリッド・クラウド：このクラウド・インフラストラクチャは、固有のエンティティ（entity）を維持しているが、データおよびアプリケーション・ポータビリティを可能にする標準化された技術または独占技術（例えばクラウド間のロード・バランシングのためのクラウド・バースティング（cloud bursting））によって１つに結合された２つ以上のクラウド（プライベート、コミュニティまたはパブリック）の合成体である。

クラウド・コンピューティング環境は、無国籍、低結合、モジュール性および意味論的相互運用性（semantic interoperability）に重きを置くサービス指向の環境である。クラウド・コンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。

次に図１を参照すると、クラウド・コンピューティング・ノードの一例の概略図が示されている。クラウド・コンピューティング・ノード１０は適当なクラウド・コンピューティング・ノードの一例に過ぎず、クラウド・コンピューティング・ノード１０が、本明細書に記載された本発明の実施形態の使用または機能の範囲に関する限定を示唆することは意図されていない。とは言え、クラウド・コンピューティング・ノード１０は、以上に記載された機能を実装もしくは実行すること、または実装および実行することができる。

クラウド・コンピューティング・ノード１０にはコンピュータ・システム／サーバ１２が存在し、コンピュータ・システム／サーバ１２は、他の多数の汎用または専用コンピューティング・システム環境または構成とともに動作可能である。コンピュータ・システム／サーバ１２とともに使用するのに適していることがある、よく知られたコンピューティング・システム、環境もしくは構成またはこれらの組合せの例は、限定はされないが、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラム可能なコンシューマ電子機器、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、ならびに上記のいずれかのシステムまたはデバイスを含む分散クラウド・コンピューティング環境などを含む。

コンピュータ・システム／サーバ１２は、コンピュータ・システムによって実行されているプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な文脈で説明することができる。一般に、プログラム・モジュールは、特定のタスクを実行する、または特定の抽象データ型を実装した、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータ・システム／サーバ１２は、通信ネットワークを介してリンクされた遠隔処理デバイスによってタスクが実行される分散クラウド・コンピューティング環境で使用することができる。分散クラウド・コンピューティング環境では、ローカル・コンピュータ・システム・ストレージ媒体と遠隔コンピュータ・システム・ストレージ媒体の両方にプログラム・モジュールを置くことができる。このストレージ媒体にはメモリ・ストレージ・デバイスが含まれる。

図１に示されているとおり、クラウド・コンピューティング・ノード１０のコンピュータ・システム／サーバ１２は、汎用コンピューティング・デバイスの形態で示されている。コンピュータ・システム／サーバ１２の構成要素は、限定はされないが、１つまたは複数のプロセッサまたは処理ユニット１６、システム・メモリ２８およびバス１８を含むことができ、バス１８は、システム・メモリ２８を含むさまざまなシステム構成要素をプロセッサ１６に結合する。

バス１８は、メモリ・バスまたはメモリ・コントローラ、周辺バス、加速グラフィクス・ポート、およびプロセッサ・バスまたはローカル・バスを含む、さまざまなバス・アーキテクチャを使用したいくつかのタイプのバス構造体のうちの１つまたは複数の任意のバス構造体を表す。例として、このようなアーキテクチャは、限定はされないが、インダストリ・スタンダード・アーキテクチャ（ＩＳＡ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）バス、エンハンストＩＳＡ（ＥＩＳＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ）ローカル・バス、およびペリフェラル・コンポーネント・インターコネクツ（ＰＣＩ）バスを含む。

コンピュータ・システム／サーバ１２は通常、さまざまなコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム／サーバ１２がアクセス可能な利用可能な任意の媒体とすることができ、揮発性媒体と不揮発性媒体の両方、取外し可能媒体と非取外し可能媒体の両方を含む。

システム・メモリ２８は、ランダム・アクセス・メモリ（ＲＡＭ）３０もしくはキャッシュ・メモリ３２またはその両方など、揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム／サーバ１２はさらに、他の取外し可能／非取外し可能な揮発性／不揮発性のコンピュータ・システム・ストレージ媒体を含むことができる。単なる例として、ストレージ・システム３４は、非取外し可能な不揮発性の磁気媒体（図示せず。通常は「ハード・ドライブ」と呼ばれる）からの読取り用、および非取外し可能な不揮発性の磁気媒体への書込み用に提供することができる。図示されてはいないが、取外し可能な不揮発性の磁気ディスク（例えば「フロッピー（Ｒ）・ディスク」）からの読取り用および取外し可能な不揮発性の磁気ディスクへの書込み用の磁気ディスク・ドライブ、ならびにＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭまたは他の光学式媒体などの取外し可能な不揮発性光ディスクからの読取り用および取外し可能な不揮発性の光ディスクへの書込み用の光ディスク・ドライブを提供することもできる。そのような場合には、それぞれを、１つまたは複数のデータ媒体インタフェースによってバス１８に接続することができる。後にさらに示し、説明するが、システム・メモリ２８は、本発明の実施形態の機能を実行するように構成された一組の（例えば少なくとも１つの）プログラム・モジュールを有する少なくとも１つのプログラム製品を含むことができる。

一組の（少なくとも１つの）プログラム・モジュール４２、例えば、限定はされないが、オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュールおよびプログラム・データなどを有するプログラム／ユーティリティ４０を、システム・メモリ２８に記憶することができる。このオペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュールおよびプログラム・データまたはこれらのある組合せはそれぞれ、ネットワーキング環境の実施態様を含むことができる。プログラム・モジュール４２は一般に、本明細書に記載された本発明の実施形態の機能もしくは方法またはその両方を実行する。

コンピュータ・システム／サーバ１２はさらに、キーボード、ポインティング・デバイス、ディスプレイ２４など；ユーザがコンピュータ・システム／サーバ１２と対話することを可能にする１つもしくは複数のデバイス；またはコンピュータ・システム／サーバ１２が１つもしくは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス（例えばネットワーク・カード、モデムなど）、あるいはこれらの組合せなどの、１つまたは複数の外部デバイス１４と通信することができる。このような通信は、入力／出力（Ｉ／Ｏ）インタフェース２２を介して実行することができる。さらに、コンピュータ・システム／サーバ１２は、ネットワーク・アダプタ２０を介して、ローカル・エリア・ネットワーク（ＬＡＮ）、一般的なワイド・エリア・ネットワーク（ＷＡＮ）もしくは公衆ネットワーク（例えばインターネット）、またはこれらの組合せなどの１つまたは複数のネットワークと通信することができる。図示されているように、ネットワーク・アダプタ２０は、バス１８を介してコンピュータ・システム／サーバ１２の残りの構成要素と通信する。示されてはいないが、他のハードウェア構成要素もしくはソフトウェア構成要素またはその両方を、コンピュータ・システム／サーバ１２とともに使用することができることを理解すべきである。このような構成要素の例は、限定はされないが、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ・アーカイバル・ストレージ・システムなどを含む。

当業者者なら理解することだが、本発明の文脈では、図１に示されたさまざまな構成要素を、移動する車両内に置くことができる。例えば、本発明のさまざまな目的を達成するために、局所処理構成要素が、遠隔地に置かれた分散コンピューティング・データ処理構成要素およびストレージ構成要素にネットワークを介して接続されている間に、例示された実施形態の機構に関連した処理能力およびデータ・ストレージ能力の一部を、同じ局所処理構成要素によって局所的に実行することができる。やはり当業者には理解されることだが、この図は、本発明のさまざまな態様を共同で達成する分散コンピューティング構成要素の接続されたネットワークの全体であることがあるもののサブセットだけを伝達することが意図されている。

次に図２を参照すると、例示的なクラウド・コンピューティング環境５０が示されている。示されているとおり、クラウド・コンピューティング環境５０は１つまたは複数のクラウド・コンピューティング・ノード１０を含み、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイス、例えばパーソナル・ディジタル・アシスタント（ＰＤＡ）もしくは携帯電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃまたは自動車コンピュータ・システム５４Ｎあるいはこれらの組合せは、これらのノードと通信することができる。ノード１０は互いに通信することができる。それらのノードは、上で説明したプライベート、コミュニティ、パブリックまたはハイブリッド・クラウドまたはこれらの組合せなどの１つまたは複数のネットワークに、物理的にまたは仮想的にグループ分けされていることがある（図示せず）。これによって、クラウド・コンピューティング環境５０は、インフラストラクチャ、プラットホームもしくはソフトウェアまたはこれらの組合せをサービスとして提供することができ、そのため、クラウド・コンシューマは、ローカル・コンピューティング・デバイス上にリソースを維持する必要がない。図２に示されたタイプのコンピューティング・デバイス５４Ａ～Ｎは単なる例であることが意図されていること、ならびにコンピューティング・ノード１０およびクラウド・コンピューティング環境５０は、任意のタイプのネットワーク上もしくはアドレス指定可能なネットワーク接続上またはその両方で（例えばウェブ・ブラウザを使用して）、コンピュータ化された任意のタイプのデバイスと通信することができることが理解される。

次に図３を参照すると、クラウド・コンピューティング環境５０（図２）によって提供される一組の機能抽象化層が示されている。図３に示された構成要素、層および機能は単なる例であることが意図されており、本発明の実施形態はそれらに限定されないことを予め理解しておくべきである。図示のとおり、以下の層および対応する機能が提供される。

デバイス層５５は、クラウド・コンピューティング環境５０においてさまざまなタスクを実行するために電子回路、センサ、アクチュエータおよびその他のオブジェクトとともに埋め込まれた物理デバイスおよび／もしくは仮想デバイス、ならびに／またはクラウド・コンピューティング環境５０においてさまざまなタスクを実行するための独立型の電子回路、センサ、アクチュエータおよび他のオブジェクトである物理デバイスおよび／もしくは仮想デバイスを含む。デバイス層５５のデバイスはそれぞれ、デバイスから取得した情報を他の機能抽象化層に提供することができ、もしくは他の抽象化層からの情報をデバイスに提供することができ、またはその両方を実行することができるような形で、ネットワーキング機能を他の機能抽象化層に組み込む。一実施形態では、デバイス層５５を含めて、これらのさまざまなデバイスが、集合的に「インターネット・オブ・シングス」（ＩｏＴ）として知られているエンティティのネットワークを組み込むことができる。当業者なら理解することだが、このようなエンティティのネットワークは、非常に変化に富んださまざまな目的を達成するために、データの相互通信、収集および伝播を可能にする。

示されたデバイス層５５は、示されているとおり、センサ５２、アクチュエータ５３、処理、センサおよびネットワーキング電子回路が統合された「学習」サーモスタット５６、カメラ５７、制御可能な家庭用アウトレット／レセプタクル５８、ならびに制御可能な電気スイッチ５９を含む。他の可能なデバイスは、限定はされないが、さまざまな追加のセンサ・デバイス、ネットワーキング・デバイス、電子デバイス（例えば遠隔制御デバイス）、追加のアクチュエータ・デバイス、冷蔵庫または洗濯／乾燥機などのいわゆる「スマート」家電、および相互接続された多種多様な他の可能なオブジェクトを含むことができる。

ハードウェアおよびソフトウェア層６０は、ハードウェア構成要素およびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メインフレーム６１、ＲＩＳＣ（縮小命令セット・コンピュータ）アーキテクチャ・ベースのサーバ６２、サーバ６３、ブレード・サーバ（blade server）６４、ストレージ・デバイス６５ならびにネットワークおよびネットワーキング構成要素６６を含む。いくつかの実施形態では、ソフトウェア構成要素が、ネットワーク・アプリケーション・サーバ・ソフトウェア６７およびデータベース・ソフトウェア６８を含む。

仮想化層７０は抽象化層を提供し、この層から、仮想エンティティの以下の例を提供することができる：仮想サーバ７１、仮想ストレージ７２、仮想専用ネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティング・システム７４、ならびに仮想クライアント７５。

一例では、管理層８０が以下の機能を提供することができる。リソース供給８１は、クラウド・コンピューティング環境内でタスクを実行する目的に利用されるコンピューティング・リソースおよびその他のリソースの動的調達を提供する。計量および価格決定８２は、クラウド・コンピューティング環境内でリソースが利用されたときの費用追跡、およびこれらのリソースの消費に対する課金または請求を提供する。一例では、これらのリソースがアプリケーション・ソフトウェア・ライセンスを含むことがある。セキュリティは、クラウド・コンシューマおよびタスクの識別確認ならびにデータおよび他のリソースの保護を提供する。ユーザ・ポータル８３は、コンシューマおよびシステム管理者に、クラウド・コンピューティング環境へのアクセスを提供する。サービス水準管理８４は、必要なサービス水準が達成されるようなクラウド・コンピューティング・リソースの割振りおよび管理を提供する。サービス水準合意（Service Level Agreement）（ＳＬＡ）計画および履行８５は、ＳＬＡによって将来必要になると予想されるクラウド・コンピューティング・リソースの事前調整および調達を提供する。

ワークロード層９０は、クラウド・コンピューティング環境を利用することができる機能の例を提供する。この層から提供することができるワークロードおよび機能の例は、マッピングおよびナビゲーション９１、ソフトウェア開発およびライフサイクル管理９２、仮想教室教育配信９３、データ解析処理９４、トランザクション処理９５、ならびに、本発明の例示された実施形態の文脈では、アンサンブル・モデルの強化された多様性および学習を実現するためのさまざまなワークロードおよび機能９６を含む。さらに、アンサンブル・モデルの強化された多様性および学習を実現するためのワークロードおよび機能９６は、データ解析機能（さまざまな環境センサからのデータ収集および処理を含む）および予測データ解析機能などの操作を含むことができる。アンサンブル・モデルの強化された多様性および学習を実現するためのワークロードおよび機能９６はさらに、本発明の例示された実施形態のさまざまな目的を達成するために、ハードウェアおよびソフトウェア６０、仮想化７０、管理８０ならびに（例えばデータ解析処理９４などの）他のワークロード９０の部分など、さまざまな抽象化層の他の部分とともに働くことができることを、当業者は理解するであろう。

前述のとおり、本発明は、アンサンブル・モデルの強化された多様性および学習を提供する。１つまたは複数の教師なし機械学習操作を使用して、アンサンブル・モデルの弱い学習器（例えばベース・アンサンブル構成モデル）のためのデータ・セットを生成することができる。少数クラスをクラスタ化し、次いで弱い学習のためのデータ・セットを、これらの少数クラスタのうちのそれぞれの少数クラスタを多数クラスからのランダム・サンプルと結合することにより生成することによって、クラス不釣合いの釣合いをとることができる。教師あり機械学習手法を使用して、それぞれのデータ・セットに対して、１つまたは複数のアンサンブル・モデルを生成し／その１つまたは複数のアンサンブル・モデルに学習させることができる。データ・セットから生成されたベース・アンサンブル構成モデルからの予測を結合することによって、テスト・データ点のスコアを決定することができる。

一態様では、１つまたは複数の少数クラスのさまざまなサブタイプを検出するように、弱い学習器に学習させ、または弱い学習器を訓練することができ、このようなサブタイプは、クラスタ化プロセスによって取得することができる。一態様では、さまざまな特徴をクラスタ化することによって、これらのサブタイプを検出することができる。これらのサブタイプは、教師なし機械学習操作を使用してデータから学習される。平均逆事象遅延を使用して、少数クラス（例えば少数特徴または特定のデータ点のクラス）をグループ／クラスタに分割することができる。すなわち、少数クラスのさまざまなサブタイプを検出するように弱い学習器に学習させるような態様で、データ・セットを生成することができ、そのようなサブタイプは、クラスタ化プロセスによって取得される。少数クラスは、教師なし機械学習操作の代わりに教師あり機械学習操作を使用してグループ／クラスタに分割することができる。

アンサンブル点におけるＫ個の分類器（classifier）からの予測を結合することによって、テスト点の予測を取得することができる。ボーラス事象を含む時間窓内、もしくはボーラス事象前の時間窓内、またはそれらの両方の時間窓内で特徴ベクトルを計算することができ、特徴ベクトルは、異なるデータ源に基づいて計算することができ、予め確立された判定基準を使用して、「ＨＹＰＯ」または非「ＮＯＮ－ＨＹＰＯ」のラベルを付けることができる。例えば、この予め確立された判定基準は、例えば低血糖症などの事象に関するデータとすることができ、低血糖症は、患者がボーラスを自身に注射した後の時間窓（例えば４時間、３時間または２時間）内に血中グルコースが約１０分間にわたって７０ｍｇ／ｄｌ未満に低下した状態と定義される。したがって、ボーラス後の時間窓の間に血中グルコース値が７０ｍｇ／ｄｌ未満に低下した場合、そのボーラス事象に、ＨＹＰＯの「マーク」（例えば指示）を付けることができ、そうでない場合には、その事象にＮＯＮ－ＨＹＰＯのマークを付けることができる。すなわち、過去のデータを使用して、どのボーラスがＨＹＰＯであるのかまたはどのボーラスがＮＯＮ－ＨＹＰＯであるのかを見つけ出すことができ、次いで、そのデータから、１つまたは複数の特徴を抽出することができ、機械学習アルゴリズムを、１つのボーラスがＨＹＰＯであるのかまたはＮＯＮ－ＨＹＰＯであるのかを予測するように訓練することができる。

患者およびボーラス事象特徴の人口統計学的情報を組み合わせて、ボーラス特徴（例えば少数クラスにクラスタ化される前の元の一組のデータ点の特徴）を形成することもできる。それらの特徴を、少数クラス（例えばＨＹＰＯ特徴）と多数クラス（例えば、ＮＯＮ－ＨＹＰＯ特徴）にグループ分けすることができる。少数クラス（例えばＨＹＰＯ特徴）を、少数クラスのＫ個のクラスタにクラスタ化することができる。多数クラスタと比較される少数クラスのＫ個のクラスタのうちのそれぞれのクラスタについて少なくともＫ個の分類器に学習させることによって、アンサンブル・モデルを生成することができる。アンサンブル点における少数クラスのＫ個の分類器からの予測を結合することによって、テスト点の予測を取得することができる。この予測は、結果的に少数クラスの事象（例えばＨＹＰＯ事象）または多数クラスの事象（例えばＮＯＮ－ＨＹＰＯ事象）に至るボーラス事象のスコアとすることができる。

一態様では、知られているエンティティのラベルをモデルが誤分類した場合に、誤分類が起こる可能性がある。この機械学習モデルは、例えば勾配降下法（gradient descent）などの費用最小化技法（cost minimization technique）、またはジニ係数（Gini index）を使用したその他の技法を使用して構築することができる。デシジョン・フォレスト（decision forest）、サポート・ベクター・マシン（support vector machine）（ＳＶＭ）、ロジスティック回帰（logistic regression）などのようなさまざまな分類アルゴリズムを使用して、このアンサンブル法の１つまたは複数の個々のモデルに学習させることができる。この誤分類の費用は、受信者操作特性（receiver operating characteristic）（ＲＯＣ）の曲線下面積（area-under-curve）（「ＡＯＣ」）を使用して見積もることができ、ＨＹＰＯはクラスであり、陽性として取り扱われる。陽性適中率（positive predictive value）（ＰＰＶ）などの他の尺度を使用して性能を見積もることもできる。

次に図４を参照すると、例示された実施形態のさまざまな機構に従う例示的な機能構成要素４００を示すブロック図が示されている。図４は、本技術の一例による、コンピューティング環境４０２などのコンピューティング環境においてアンサンブル・モデルの強化された多様性および学習を実現することを示している。以上のことに留意して、本発明による正確な時間事象予測モデル化のためのシステムのさまざまなハードウェアおよびソフトウェア構成要素に、モジュール・ブロック４００をさらに組み込むことができる。機能ブロック４００の多くは、分散コンピューティング構成要素内の、またはユーザ・デバイス上の、または他の場所にあるさまざまな構成要素上でバックグラウンド・プロセスとして実行することができる。

理解されることだが、これらの機能ブロックの多くは、以前に図１～３で説明したものと同じ記述的意味で機能の「モジュール」とみなすこともできる。例えば、図１のコンピュータ・システム／サーバ１２が再び示されており、コンピュータ・システム／サーバ１２はさらに、本発明のさまざまな態様に従ってさまざまな計算機能、データ処理機能およびその他の機能を実行するために図１の処理ユニット１６およびメモリ２８を含むことができる。

システム４００は、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット、インターネット・オブ・シングス（「ＩｏＴ」）デバイス（例えばスマート・フォンもしくはウェアラブル・デバイス／センサ）、もしくは別の電子デバイス、またはこれらの組合せなどのコンピューティング環境４０２およびデバイス４２０を含むことができ、これらは、１つまたは複数のプロセッサおよびメモリを有することができる。デバイス４２０およびコンピューティング環境４０２はそれぞれ、コンピューティング・ネットワークなどの１つまたは複数の通信方式によって互いに関連づけられていてもよく、もしくは互いに通信してもよく、またはその両方であってもよい。一例では、デバイス４２０が、コンピューティング環境４０２に関連づけられたユーザ（例えば所有者、管理者、顧客、特定分野の専門家（domain expert）または患者）によって制御されてもよい。別の例では、デバイス４２０が、コンピューティング環境４０２のユーザ（例えば所有者、管理者、顧客、特定分野の専門家または患者）から完全に独立していてもよい。

一態様では、コンピューティング環境４０２が、仮想化されたコンピューティング・サービス（すなわち仮想化されたコンピューティング、仮想化されたストレージ、仮想化されたネットワーキングなど）をデバイス４２０に提供することができる。より詳細には、コンピューティング環境４０２は、ハードウェア基板上で実行されている仮想化されたコンピューティング、仮想化されたストレージ、仮想化されたネットワーキング、および他の仮想化されたサービスを提供することができる。

図４に示されているように、コンピューティング環境４０２は、機械学習モジュール４０６、機械学習モジュール４０６に関連づけられた特徴もしくはパラメータまたはその両方のデータベース４０４を含むことができる。コンピューティング環境４０２はさらに、図１に示されているコンピュータ・システム１２を含むことができる。コンピュータ・システム１２はさらに、分類構成要素４１０、アンサンブル・モデル構成要素４１２および事象構成要素４１６を含むことができ、これらはそれぞれ、１つまたは複数の機械学習モデルを訓練し、１つまたは複数の機械学習モデルに学習させるため、さらに、特徴もしくはパラメータまたはその両方の多数の組合せを、テストされている機械学習モデルに適用するために、機械学習モジュールに関連づけられている。

一態様では、機械学習モジュール４０６が、事象を予測するための予測モジュール４０８を含むことができる。例えば、コンピュータ・システム１２は、アンサンブル・モデル構成要素４１２および事象構成要素４１６を使用して、例えば、患者によってボーラスが投与された後の時系列窓内で血中グルコース値がしきい値よりも低下する低血糖症事象などの事象を規定することができる。

分類構成要素４１０は、少数クラス（例えば少数特徴）のデータ点の１つまたは複数のクラスタを多数クラス（例えば多数特徴）の選択されたデータ点と結合することによって、１つまたは複数のデータ・セットを生成することができる。分類構成要素４１０は、複数のデータ点から１つまたは複数の特徴を抽出すること、およびその１つまたは複数の特徴に従って、複数のデータ点のうちのデータ点を多数クラスまたは少数クラスに分類することができる。分類構成要素４１０は、１つまたは複数のアンサンブル・モデルからの１つまたは複数の予測を結合することによって、テスト・データ点のスコアを決定することができる。

追加の態様では、分類構成要素４１０が、複数の少数クラス・データ点を、少数クラスを形成するＫ個のクラスタにクラスタ化すること、および少数クラスのＫ個のクラスタのうちのそれぞれのクラスタを、多数クラスのランダムな数の選択されたデータ点によって増大させることができる。分類構成要素４１０はさらに、少数クラスの１つまたは複数のサブクラスを検出することができる。分類構成要素４１０は、教師あり機械学習操作を使用して、少数クラスを、データ点の１つまたは複数のクラスタに分割することができる。分類構成要素４１０は、予め定められた判定基準に従って、少数クラスのデータ点の１つまたは複数のクラスタにラベルを付けることができる。

アンサンブル・モデル構成要素４１２は、教師あり機械学習操作を使用して、１つまたは複数のデータ・セットから１つまたは複数のアンサンブル・モデルを生成することができる。

予測モジュール４０８は、１つまたは複数のアンサンブル・モデルを使用して事象の発生を予測することができる。機械学習モジュール４０６によって、平均事象遅延もしくは予測モジュール４０８またはその両方、加えて他の特徴もしくはパラメータまたはその両方を使用して、１つもしくは複数の機械学習モデルないし「分類器」に学習させ、または１つもしくは複数の機械学習モデルないし「分類器」を訓練することができる。予測モジュール４０８は、学習させたまたは訓練された分類器に基づいて、糖尿病患者の低血糖症事象を予測することができる。

デバイス４２０は、グラフィカル・ユーザ・インタフェース（ＧＵＩ）４２２を含むことができ、ＧＵＩ４２２は、ユーザがＧＵＩ４２２と対話するための１つまたは複数のユーザ・インタフェース制御をデバイス４２０に表示することができる。例えば、ＧＵＩ４２２は、予測された低血糖症事象を、警報として表示することができる。例えば、この予測された低血糖症事象を、「警報！１０分以内に低血糖になりそうです。すぐに修正処置をとってください！（ALERT! You are about to experience low blood sugar in 10 minutes.Please take corrective action now!）」をＧＵＩ４２２上に聴覚的にもしくは視覚的にまたはその両方で示しまたは表示する警報とすることができる。

特徴／パラメータ４０４は、特徴／パラメータと特徴／パラメータを処理するための手順との組合せとすることができ、これらを、患者のさまざまな状態または患者の状態の診断のテスト、モニタリングもしくは計算またはこれらの組合せに関係する同じ入力データに適用することができる。すなわち、１つもしくは複数の機械学習モデルに学習させるため、または１つもしくは複数の機械学習モデルを訓練するために、パラメータの異なる組合せを選択し、同じ入力データに適用することができる。

一態様では、教師あり学習、教師なし学習、時間差分学習（temporal difference learning）、強化学習（reinforcement learning）などの多種多様な方法または方法の組合せを使用して、本明細書に記載された予測モデル化（または機械学習モデル化）を実行することができる。本技術とともに使用することができる教師あり学習のいくつかの非限定的な例は、ＡＯＤＥ（averaged one-dependence estimator）、人工ニューラル・ネットワーク（artificial neural network）、バックプロパゲーション（backpropagation）、ベイズ統計学（Bayesian statistics）、単純ベイズ分類器（naive bays classifier）、ベイジアン・ネットワーク（Bayesian network）、ベイジアン知識ベース（Bayesian knowledge base）、事例ベース推論（case-based reasoning）、決定木（decision tree）、帰納的理論プログラミング（inductive logic programming）、ガウス過程回帰（Gaussian process regression）、遺伝子発現プログラミング（gene expression programming）、グループ・メソッド・オブ・データ・ハンドリング（group method of data handling）（ＧＭＤＨ）、学習オートマトン（learning automaton）、学習ベクトル量子化（learning vector quantization）、最小メッセージ長（minimum message length）（決定木、決定グラフなど）、レイジー学習（lazy learning）、インスタンス・ベース学習（instance-based learning）、最近傍アルゴリズム（nearest neighbor algorithm）、類推モデル化（analogical modeling）、確率的に近似的に正しい（probably approximately correct）（ＰＡＣ）学習、リップル・ダウン・ルール（ripple down rules）、知識獲得法（knowledge acquisition methodology）、シンボリック機械学習アルゴリズム（symbolic machine learning algorithm）、サブシンボリック機械学習アルゴリズム（sub symbolic machine learning algorithm）、サポート・ベクター・マシン、ランダム・フォレスト（random forest）、分類器のアンサンブル（ensemble of classifiers）、ブートストラップ・アグリゲーティング（bootstrap aggregating）（バギング（bagging））、ブースティング（boosting）（メタアルゴリズム）、順序分類（ordinal classification）、回帰分析（regression analysis）、情報ファジー・ネットワーク（information fuzzy network）（ＩＦＮ）、統計学的分類（statistical classification）、線形分類器（linear classifier）、フィッシャーの線形判別（fisher's linear discriminant）、ロジスティック回帰、パーセプトロン（perceptron）、サポート・ベクター・マシン、２次分類器（quadratic classifier）、ｋ近傍法（k-nearest neighbor）、隠れマルコフ・モデル（hidden Markov model）、およびブースティング（boosting）を含む。本技術とともに使用することができる教師なし学習のいくつかの非限定的な例は、人工ニューラル・ネットワーク、データ・クラスタリング（data clustering）、期待値最大化（expectation-maximization）、自己組織化マップ（self-organizing map）、放射基底関数ネットワーク（radial basis function network,）、ベクトル量子化（vector quantization）、ジェネラティブ・トポグラフィック・マップ（generative topographic map）、情報ボトルネック法（information bottleneck method）、ＩＢＳＥＡＤ（distributed autonomous entity systems based interaction）、相関ルール学習（association rule learning）、アプリオリ・アルゴリズム（apriori algorithm）、エクラ・アルゴリズム（eclat algorithm）、ＦＰグロース・アルゴリズム（FP-growth algorithm）、階層クラスタリング（hierarchical clustering）、単連結クラスタリング（single-linkage clustering）、概念クラスタリング（conceptual clustering）、分割クラスタリング（partitional clustering）、ｋ平均アルゴリズム（k-means algorithm）、ファジー・クラスタリング（fuzzy clustering）、および強化学習を含む。時間差分学習のいくつかの非限定的な例は、Ｑ学習（Q-learning）および学習オートマトンを含むことができる。この段落に記載された教師あり学習、教師なし学習、時間差分学習または他の機械学習の例に関する特定の詳細はいずれも知られており、本開示の範囲に含まれるとみなされる。さらに、１つまたは複数の機械学習モデルをデプロイするときには、最初に、公開環境でデプロイする前に、コンピューティング・デバイスを制御された環境でテストすることができる。さらに、（例えば制御されたテスト環境の外の）公開環境でデプロイするときでも、コンプライアンスに関して、コンピューティング・デバイスを監視することができる。

次に図５を参照すると、アンサンブル学習および多様性のための操作を示すシステム５００が示されている。一態様では、図１～４に記載された構成要素、モジュール、サービス、アプリケーションもしくは機能またはこれらの組合せのうちの１つまたは複数を、図５において使用することができる。簡潔にするため、本明細書に記載された他の実施形態で使用されている同じ要素、構成要素、モジュール、サービス、アプリケーションもしくは機能またはこれらの組合せの繰返しの説明は省く。示されているように、さまざまな機能ブロックが、ブロック５００の相互関係を表し処理の流れを示す矢印とともに示されている。さらに、機能ブロック５００のそれぞれのブロックに関する記述的情報も示されている。

一態様では、これらの例示的な実施形態が、アンサンブル学習における多様性の必要性を示している。例えば、事象を予測する１つの分類問題（classification problem）は、分類が、クラスの不釣合いを生み出すことであり、この不釣合いでは、少数クラスが、重要なクラスまたは優先度の高いクラスとして設計されているにもかかわらず、少数クラスをそのようなクラスとして分類することができない。他の特徴に加えて使用して、分類器（「予測モデル」）を訓練し、または分類器（「予測モデル」）に学習させることができるが、それぞれのモデルが、元のデータ点からのデータのサブセットに特化していることが決定的に重要である。元のデータ点５１０に示されているように、多数クラスのデータ点の数が多く、少数クラスのデータ点の数が少ないクラスの不釣合いが示されている。

例えば、操作５２０（例えば操作１）では、元のデータ点５１０から、データ・セット１およびデータ・セット２が分類されている。すなわち、アンサンブルの中の個々のモデルのための訓練データ・セットを生成するためにランダムなサブサンプルを描くことによって、元のデータ点５１０の区分が生み出されている。しかしながら、操作５２０（例えば操作１）は、正確なアンサンブル学習モデルを生成するための多様性のある最適な訓練データ・セットを与えることに失敗している。

対照的に、操作５３０（例えば操作２）は、最初に、少数クラス（例えば暗い陰影がつけられた点）を、元のデータ点５１０からクラスタ１、２および３にクラスタ化する。データ点を少数クラス（例えば、クラスタ１、２および３）にクラスタ化した後のこの時点で、少数クラスのそれぞれのグループは、似たタイプの事象（例えば少数クラスを形成している似たタイプの事象）を含むことがある。

次いで、クラスタ（例えばクラスタ１、２および３）のうちのそれぞれのクラスタを、多数クラス（例えば明るい陰影がつけられた点）からのランダム・サンプルと結合することによって、弱い学習のための訓練データ・セット（例えばデータ・セット１、データ・セット２およびデータ・セット３）が生成される。訓練データ・セット（例えばデータ・セット１、データ・セット２およびデータ・セット３）を最適に多様化することができ、これらの訓練データ・セット、および教師あり機械学習操作を使用して、図６に示されているように、１つまたは複数のアンサンブル・モデルを生成することができる。

次に、それぞれのグループまたはクラスタ（例えばクラスタ１、２および３）について、例えば低血糖症などの事象を予測するように、機械学習モデルに学習させ、または機械学習モデルを訓練することができる。これは、最初に、特徴、一致したデータ点の限局されたグループを少数クラスにクラスタ化し、次いで、多数クラスからのランダム・サンプルをそれぞれの少数クラス・クラスタに追加することに基づく多様性のあるアンサンブル・モデルを使用して予測の正確さを向上させる。予測の正確さの増大を可能にするために、全てのデータに対する１つの機械学習モデルだけを訓練するのではなしに、クラスタごとに（または多数クラスまたは少数クラスなどのグループごとに）機械学習モデルを訓練することができる。

図６は、多様性を強化するアンサンブル・モデル学習のための操作を示す図である。一態様では、図１～５に記載された構成要素、モジュール、サービス、アプリケーションもしくは機能またはこれらの組合せのうちの１つまたは複数を、図６において使用することができる。簡潔にするため、本明細書に記載された他の実施形態で使用されている同じ要素、構成要素、モジュール、サービス、アプリケーションもしくは機能またはこれらの組合せの繰返しの説明は省く。示されているように、さまざまな機能ブロックが、ブロック６００の相互関係を表し処理の流れを示す矢印とともに示されている。さらに、機能ブロック６００のそれぞれのブロックに関する記述的情報も示されている。

ブロック６１０から開始して、ブロック６１０で、さまざまな特徴抽出操作を使用して１つまたは複数の特徴を抽出することができ、特徴は、さまざまなデータ源から抽出することができる。ブロック６２０で、特徴が計算された後、それらの特徴を、例えばデータ・クラスタリングなどの教師なし操作を使用してグループ分けすることができる。一態様では、教師なし機械学習操作を使用して特徴がクラスタ化され、教師あり機械学習操作を使用して、１つまたは複数の機械学習モデルに学習させることができる。クラスタ解析またはクラスタ化は、同じグループ（クラスタと呼ばれる）のオブジェクト同士の方が、他のグループ（クラスタ）のオブジェクトとよりも（ある意味でまたは別の意味で）似ているようなやり方で、一組のオブジェクトをグループ分けするタスクとすることができる。すなわち、最初に、データ点を、Ｋ個のクラスタにクラスタ化されている少数クラスに、（例えばＫ平均操作（「Ｋ」は正の整数である）または他のクラスタ化操作を使用して）クラスタ化することができる。

ブロック６３０で、それぞれの多数／少数データ・セットについて多様化された複数のアンサンブル・モデル（例えば、Ｍ_１、Ｍ_２およびＭ_ｎ）を生成することができるような態様で、ランダムなデータ点を選択し、それらのデータ点を、少数クラスのＫ個のクラスタのうちのそれぞれのクラスタに加えて、少数クラスと多数クラス（例えば少数_ｉ対多数_ｊ。これは、少数_ｉクラス対多数_ｊクラス間で識別する分類問題を指す）の釣合いのとれたアンサンブル・モデルを生成することができる。すなわち、ブロック６３０に示されているように、１）釣合いのとれた少数_ｉ対多数_ｊ分類問題を生成するように、多数クラスからデータ点をサンプリングし、２）このような多くの問題を生成することができ、３）それぞれの多数／少数データ・セットについて分類器Ｍ_１、．．．Ｍ_ｎに学習させる。例示のため、以下の例を考える。２０個のデータ点（例えば図示のための赤のデータ点）および１００個のデータ点（例えば図示のための青のデータ点。赤および青は、例えば少数クラスおよび多数クラスなどの２つの異なるクラスを表すことができる）を有するデータ・セットがあると仮定する。したがって、このデータ・セットは釣合いがとれていない。赤の点は少数クラスを表すことができ、青の点は多数クラスを表すことができる。後続のステップは以下のとおりである。ステップ１で、赤（少数）クラスからの点を、選択された数のクラスタ（例えば５つのクラスタ）にクラスタ化することができる。ステップ２で、（ステップ１からの）赤クラスタのうちのそれぞれのクラスタについて、青（多数）クラスからの同じ数の点をクラスタ化することができる。これらの赤の点と青の点を結合し、「釣合いのとれた」データ・セットを形成する（例えば、釣合いのとれたデータ・セットはそれぞれのクラスからの同数の点を有する）。ステップ３で、ステップ２からの釣合いのとれたデータ・セットについて分類器を訓練することができる。ステップ４で、それぞれのクラスタについてステップ２および３を実行することができ、その結果、５つの分類器を訓練することができる。ステップ５で、予測操作の間に、５つの全ての分類器から１つまたは複数の予測（例えば赤かまたは青かの予測）を生み出し、多い方の予測を最終予測として返すことができる。

このように、多様性が強化されたアンサンブル・モデルの学習は、アンサンブル・モデルを形成する弱い学習器のその多様性を保証することによって強化するアンサンブル・モデルを学習するための教師なし操作の組合せを使用することを含む。最初に少数クラスをクラスタ化することによって、少数クラスのいくつかのサブタイプを発見することができ、それらのサブタイプを使用して、多様化されたアンサンブル・モデル（例えばＭ_１、Ｍ_２およびＭ_ｎ）を形成することができる。多数クラスのランダムなサブサンプルによって少数クラスを増大させることができ、このことは、不釣合いなクラスの問題を解決する。

図７は、アンサンブル・モデルを使用したラベル予測のための操作を示す図である。一態様では、図１～６に記載された構成要素、モジュール、サービス、アプリケーションもしくは機能またはこれらの組合せのうちの１つまたは複数を、図７において使用することができる。簡潔にするため、本明細書に記載された他の実施形態で使用されている同じ要素、構成要素、モジュール、サービス、アプリケーションもしくは機能またはこれらの組合せの繰返しの説明は省く。示されているように、さまざまな機能ブロックが、ブロック７００の相互関係を表し処理の流れを示す矢印とともに示されている。さらに、機能ブロック７００のそれぞれのブロックに関する記述的情報も示されている。

ブロック７２０で、テスト・データ点７１０を集め、収集し、もしくは受け取り、またはこれらの組合せを実行し、それらのデータ点を、それぞれの多様化されたアンサンブル・モデル（例えば図５および６で生成されたＭ_１、Ｍ_２およびＭ_ｎ）によってテストするために、それらのアンサンブル・モデルに提供することができる。

ブロック７３０で、多様化されたアンサンブル・モデル（例えばＭ_１、Ｍ_２およびＭ_ｎ）のうちのそれぞれのアンサンブル・モデルがテスト・データ点７１０を使用することができ、１つまたは複数のアンサンブル・モデル（例えばＭ_１、Ｍ_２およびＭ_ｎ）からの１つまたは複数の予測を結合することによって、テスト・データ点のスコアを決定することができる。すなわち、多様化されたアンサンブル・モデル（例えばＭ_１、Ｍ_２およびＭ_ｎ）は、テスト・データ点７１０が多数クラスからのものであるのか、もしくは少数クラスからのものであるのか、またはこれらの両方のクラスからのものであるのかを予測することができる。ブロック７４０に示されているように、多数決によって結合操作を実行することができる。ブロック７５０に示されているように、最終予測（例えば、テスト・データ点７１０が多数クラスからのものであるのか、もしくは少数クラスからのものであるのか、またはこれらの両方のクラスからのものであるのかの予測）を実行することができる。この最終的な多数決操作は、それぞれのアンサンブル・モデル予測よりも正確な予測を生み出し、これは「アンサンブル・モデルのバリアンス低減効果」と呼ばれることがあることに留意すべきである。

図８は、プロセッサによってアンサンブル・モデルの強化された多様性および学習を実現するための方法８００であり、この方法では、例示された実施形態のさまざまな態様を実施することができる。機能８００は、機械上で命令として実行される方法として実施することができ、それらの命令は、少なくとも１つのコンピュータ可読媒体または１つの非一過性機械可読ストレージ媒体に含まれる。機能８００はブロック８０２から開始することができる。

ブロック８０４に示されているように、少数クラスのデータ点の１つまたは複数のクラスタを多数クラスの選択されたデータ点と結合することによって、１つまたは複数のデータ・セットを生成することができる。ブロック８０６に示されているように、教師あり機械学習操作を使用して、この１つまたは複数のデータ・セットから１つまたは複数のアンサンブル・モデルを生成することができる。ブロック８０８に示されているように、この１つまたは複数のアンサンブル・モデルを使用して事象の発生を予測することができる。機能８００はブロック８１０で終了することができる。

一態様では、図８の少なくとも１つのブロックとともに、もしくは図８の少なくとも１つのブロックの部分として、またはその両方で、方法８００の操作は、以下のそれぞれの操作を含むことができる。方法８００の操作は、この１つまたは複数のアンサンブル・モデルからの１つまたは複数の予測を結合することによって、テスト・データ点のスコアを決定することができる。

方法８００の操作は、複数のデータ点から１つまたは複数の特徴を抽出すること、この１つまたは複数の特徴に従って、複数のデータ点のうちのデータ点を多数クラスまたは少数クラスに分類すること、複数の少数クラス・データ点を、少数クラスを形成するＫ個のクラスタにクラスタ化すること、もしくは少数クラスのＫ個のクラスタのうちのそれぞれのクラスタを、多数クラスのランダムな数の選択されたデータ点によって増大させること、またはこれらの組合せを実行することができる。方法８００の操作はさらに、少数クラスの１つまたは複数のサブクラスを検出することができる。方法８００の操作は、教師あり機械学習操作を使用して、少数クラスを、データ点の１つまたは複数のクラスタに分割すること、もしくは予め定められた判定基準に従って、少数クラスのデータ点の１つまたは複数のクラスタにラベルを付けること、またはその両方を実行することができる。

本発明は、システム、方法もしくはコンピュータ・プログラム製品、またはこれらの組合せであることがある。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体を含むことがある。

このコンピュータ可読ストレージ媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形のデバイスとすることができる。このコンピュータ可読ストレージ媒体は例えば、限定はされないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたはこれらの適当な組合せとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リードオンリー・メモリ（ＲＯＭ）、消去可能なプログラマブル・リードオンリー・メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク・リードオンリー・メモリ（ＣＤ－ＲＯＭ）、ディジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、機械的にコード化されたデバイス、例えばパンチカードまたはその上に命令が記録された溝の中の一段高くなった構造体、およびこれらの適当な組合せを含む。本明細書で使用されるとき、コンピュータ可読ストレージ媒体は、それ自体が一過性の信号、例えば電波もしくは他の自由に伝搬する電磁波、ウェーブガイドもしくは他の伝送体内を伝搬する電磁波（例えば光ファイバ・ケーブル内を通る光パルス）、または電線を通して伝送される電気信号であると解釈されるべきではない。

本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体から対応するそれぞれのコンピューティング／処理デバイスにダウンロードすることができ、またはネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはそれらの組合せを介して外部コンピュータもしくは外部ストレージ・デバイスにダウンロードすることができる。このネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータもしくはエッジ・サーバ、またはこれらの組合せを含むことができる。それぞれのコンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、コンピュータ可読プログラム命令をネットワークから受け取り、それらのコンピュータ可読プログラム命令を、対応するそれぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体に記憶するために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、もしくは状態設定データであってもよく、またはＳｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同種のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで書かれた、ソース・コードもしくはオブジェクト・コードであってもよい。このコンピュータ可読プログラム命令は、全体がユーザのコンピュータ上で実行されてもよく、一部がユーザのコンピュータ上で実行されてもよく、独立型ソフトウェア・パッケージとして実行されてもよく、一部がユーザのコンピュータ上で、一部が遠隔コンピュータ上で実行されてもよく、または全体が遠隔コンピュータもしくは遠隔サーバ上で実行されてもよい。上記の最後のシナリオでは、遠隔コンピュータが、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、またはこの接続が、外部コンピュータに対して（例えばインターネット・サービス・プロバイダを使用してインターネットを介して）実施されてもよい。いくつかの実施形態では、本発明の態様を実施するために、例えばプログラム可能論理回路、フィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ）またはプログラム可能論理アレイ（ＰＬＡ）を含む電子回路が、このコンピュータ可読プログラム命令の状態情報を利用してその電子回路をパーソナライズすることにより、このコンピュータ可読プログラム命令を実行してもよい。

本明細書では、本発明の態様が、本発明の実施形態による方法、装置（システム）およびコンピュータ・プログラム製品の流れ図もしくはブロック図またはその両方の図を参照して説明される。それらの流れ図もしくはブロック図またはその両方の図のそれぞれのブロック、およびそれらの流れ図もしくはブロック図またはその両方の図のブロックの組合せは、コンピュータ可読プログラム命令によって実施することができることが理解される。

これらのコンピュータ可読プログラム命令は、機械を形成する汎用コンピュータ、専用コンピュータまたは他のプログラム可能データ処理装置のプロセッサに、それらのコンピュータまたは他のプログラム可能データ処理装置のプロセッサによって実行されるこれらの命令が、これらの流れ図もしくはブロック図またはその両方の図のブロックに指定された機能／動作を実施する手段を生成するような態様で、提供することができる。これらのコンピュータ可読プログラム命令はさらに、特定の方式で機能するようにコンピュータ、プログラム可能データ処理装置もしくは他のデバイスまたはこれらの組合せに指図することができるコンピュータ可読ストレージ媒体に、その中に命令が記憶されたコンピュータ可読ストレージ媒体が、これらの流れ図もしくはブロック図またはその両方の図のブロックに指定された機能／動作の態様を実施する命令を含む製品を含むような態様で、記憶することができる。

これらのコンピュータ可読プログラム命令はさらに、コンピュータ、他のプログラム可能装置または他のデバイス上で一連の動作ステップを実行させて、コンピュータによって実施されるプロセスを生み出すために、このコンピュータ、他のプログラム可能データ処理装置または他のデバイス上に、このコンピュータ、他のプログラム可能装置または他のデバイス上で実施されるこれらの命令が、これらの流れ図もしくはブロック図またはその両方の図のブロックに指定された機能／動作を実施するような態様で、ロードすることができる。

添付図中の流れ図およびブロック図は、本発明のさまざまな実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能および動作を示す。この点に関して、それらの流れ図またはブロック図のそれぞれのブロックは、指定された論理機能を実施する１つまたは複数の実行可能命令を含む、命令のモジュール、セグメントまたは部分を表すことがある。いくつかの代替実施態様では、ブロックに示された機能を、図に示された順序とは異なる順序で実行することができる。例えば、連続して示された２つのブロックが、実際は、実質的に同時に実行されることがあり、または、含まれる機能によってはそれらのブロックが逆の順序で実行されることもある。それらのブロック図もしくは流れ図またはその両方の図のそれぞれのブロック、ならびにそれらのブロック図もしくは流れ図またはその両方の図のブロックの組合せを、指定された機能もしくは動作を実行しまたは専用ハードウェアとコンピュータ命令の組合せを実施するハードウェアベースの専用システムによって実施することができることにも留意すべきである。

Claims

コンピューティング環境においてプロセッサによってアンサンブル・モデルの強化された多様性および学習を実現するための方法であって、
少数クラスのデータ点の１つまたは複数のクラスタを多数クラスの選択されたデータ点と結合することによって、１つまたは複数のデータ・セットを生成すること、
教師あり機械学習操作を使用して、前記１つまたは複数のデータ・セットから１つまたは複数のアンサンブル・モデルを生成すること、および
前記１つまたは複数のアンサンブル・モデルを使用して事象の発生を予測すること
を含む、方法。
前記１つまたは複数のアンサンブル・モデルからの１つまたは複数の予測を結合することによって、テスト・データ点のスコアを決定することをさらに含む、請求項１に記載の方法。
複数のデータ点から１つまたは複数の特徴を抽出すること、
前記１つまたは複数の特徴に従って、前記複数のデータ点のうちのデータ点を前記多数クラスまたは前記少数クラスに分類すること
をさらに含む、請求項１に記載の方法。
複数の少数クラス・データ点を、前記少数クラスを形成するＫ個のクラスタにクラスタ化すること、および
前記少数クラスの前記Ｋ個のクラスタのうちのそれぞれのクラスタを、前記多数クラスのランダムな数の前記選択されたデータ点によって増大させること
をさらに含む、請求項１に記載の方法。
前記少数クラスの１つまたは複数のサブクラスを検出することをさらに含む、請求項１に記載の方法。
前記教師あり機械学習操作を使用して、前記少数クラスを、データ点の前記１つまたは複数のクラスタに分割することをさらに含む、請求項１に記載の方法。
予め定められた判定基準に従って、前記少数クラスのデータ点の前記１つまたは複数のクラスタにラベルを付けることをさらに含む、請求項１に記載の方法。
コンピューティング環境においてアンサンブル・モデルの強化された多様性および学習を実現するためのシステムであって、
実行可能命令を含む１つまたは複数のコンピュータ
を備え、前記実行可能命令が、実行されたときに、前記システムに、
少数クラスのデータ点の１つまたは複数のクラスタを多数クラスの選択されたデータ点と結合することによって、１つまたは複数のデータ・セットを生成すること、
教師あり機械学習操作を使用して、前記１つまたは複数のデータ・セットから１つまたは複数のアンサンブル・モデルを生成すること、および
前記１つまたは複数のアンサンブル・モデルを使用して事象の発生を予測すること
を実行させる、システム。
前記実行可能命令が、前記１つまたは複数のアンサンブル・モデルからの１つまたは複数の予測を結合することによって、テスト・データ点のスコアを決定する、請求項８に記載のシステム。
前記実行可能命令が、
複数のデータ点から１つまたは複数の特徴を抽出し、
前記１つまたは複数の特徴に従って、前記複数のデータ点のうちのデータ点を前記多数クラスまたは前記少数クラスに分類する、
請求項８に記載のシステム。
前記実行可能命令が、
複数の少数クラス・データ点を、前記少数クラスを形成するＫ個のクラスタにクラスタ化し、
前記少数クラスの前記Ｋ個のクラスタのうちのそれぞれのクラスタを、前記多数クラスのランダムな数の前記選択されたデータ点によって増大させる、
請求項８に記載のシステム。
前記実行可能命令が、前記少数クラスの１つまたは複数のサブクラスを検出する、請求項８に記載のシステム。
前記実行可能命令が、前記教師あり機械学習操作を使用して、前記少数クラスを、データ点の前記１つまたは複数のクラスタに分割する、請求項８に記載のシステム。
前記実行可能命令が、予め定められた判定基準に従って、前記少数クラスのデータ点の前記１つまたは複数のクラスタにラベルを付ける、請求項８に記載のシステム。
コンピュータ・プログラムであって、請求項１ないし７のいずれか１項に記載の方法の各ステップをコンピュータに実行させるための、コンピュータ・プログラム。
請求項１５に記載のコンピュータ・プログラムを記録した、コンピュータ可読ストレージ媒体。